From b5d90f740048d43376390a61ca5b77c287505d0e Mon Sep 17 00:00:00 2001
From: Wentao Ye <44945378+yewentao256@users.noreply.github.com>
Date: Wed, 29 Oct 2025 16:28:27 -0400
Subject: [PATCH 001/976] [Bug] Fix DBO IMA issue for DeepEPHT (#27666)

Signed-off-by: yewentao256 <zhyanwentao@126.com>
---
 .../layers/fused_moe/deepep_ht_prepare_finalize.py   | 12 +++++++++---
 vllm/v1/worker/ubatching.py                          |  9 +++++++++
 2 files changed, 18 insertions(+), 3 deletions(-)

diff --git a/vllm/model_executor/layers/fused_moe/deepep_ht_prepare_finalize.py b/vllm/model_executor/layers/fused_moe/deepep_ht_prepare_finalize.py
index 13866a5c5bf49..929cff79980c0 100644
--- a/vllm/model_executor/layers/fused_moe/deepep_ht_prepare_finalize.py
+++ b/vllm/model_executor/layers/fused_moe/deepep_ht_prepare_finalize.py
@@ -16,6 +16,7 @@ from vllm.utils.math_utils import round_up
 from vllm.v1.worker.ubatching import (
     dbo_current_ubatch_id,
     dbo_enabled,
+    dbo_get_previous_event,
     dbo_switch_to_comm,
     dbo_switch_to_compute,
     dbo_switch_to_compute_sync,
@@ -110,6 +111,10 @@ class DeepEPHTPrepareAndFinalize(mk.FusedMoEPrepareAndFinalize):
         # for the other ubatch before the dispatch kernel starts.
         dbo_yield_and_switch_from_compute_to_comm()
 
+        # capture a DeepEP event and pass it as previous_event so
+        # DeepEP honors the dependency internally.
+        previous_event = dbo_get_previous_event(self.buffer.capture)
+
         (
             num_tokens_per_rank,
             num_tokens_per_rdma_rank,
@@ -119,7 +124,7 @@ class DeepEPHTPrepareAndFinalize(mk.FusedMoEPrepareAndFinalize):
         ) = self.buffer.get_dispatch_layout(
             topk_idx=rank_topk_ids,
             num_experts=num_experts,
-            previous_event=None,
+            previous_event=previous_event,
             async_finish=False,
             allocate_on_comm_stream=False,
         )
@@ -148,7 +153,7 @@ class DeepEPHTPrepareAndFinalize(mk.FusedMoEPrepareAndFinalize):
             # to this value.
             expert_alignment=1,
             config=self._get_dispatch_config(),
-            previous_event=None,
+            previous_event=previous_event,
             async_finish=self.async_prepare and not dbo_enabled(),
             allocate_on_comm_stream=False,
         )
@@ -339,13 +344,14 @@ class DeepEPHTPrepareAndFinalize(mk.FusedMoEPrepareAndFinalize):
         assert fused_expert_output.dtype == torch.bfloat16, (
             f"Expected fused_expert_output bfloat16, got {fused_expert_output.dtype}"
         )
+        previous_event = dbo_get_previous_event(self.buffer.capture)
         combined_x, _, event = self.buffer.combine(
             # HT combine only supports BF16
             x=fused_expert_output,
             handle=handle,
             topk_weights=None,
             config=self._get_combine_config(),
-            previous_event=None,
+            previous_event=previous_event,
             async_finish=do_async and not dbo_enabled(),
             allocate_on_comm_stream=False,
         )
diff --git a/vllm/v1/worker/ubatching.py b/vllm/v1/worker/ubatching.py
index 6edcb78486380..9f16b1e6d03ee 100644
--- a/vllm/v1/worker/ubatching.py
+++ b/vllm/v1/worker/ubatching.py
@@ -185,6 +185,15 @@ def dbo_register_recv_hook(recv_hook):
         next_ctx.recv_hook = recv_hook
 
 
+def dbo_get_previous_event(func, *args, **kwargs):
+    if len(_THREAD_ID_TO_CONTEXT) > 0:
+        ctx_idx = _THREAD_ID_TO_CONTEXT[threading.get_ident()]
+        ctx = _CURRENT_CONTEXTS[ctx_idx]
+        # execute callable on the ubatch compute stream to record/wait events there
+        with torch.cuda.stream(ctx.compute_stream):
+            return func(*args, **kwargs)
+
+
 def make_ubatch_contexts(
     num_micro_batches: int,
     compute_stream: torch.cuda.Stream,

From 48eb8eba581f0e45272f4e763bf5ec342f77091a Mon Sep 17 00:00:00 2001
From: Chenheli Hua <huachenheli@outlook.com>
Date: Wed, 29 Oct 2025 16:17:48 -0700
Subject: [PATCH 002/976] [Temp fix] Disable torch.compile for Qwen2.5 VL's
 VisionBlock temporarily.  (#27760)

Signed-off-by: Chenheli Hua <huachenheli@outlook.com>
Signed-off-by: Roger Wang <hey@rogerw.io>
Co-authored-by: Roger Wang <hey@rogerw.io>
---
 vllm/model_executor/models/qwen2_5_vl.py | 20 +++++++++++---------
 1 file changed, 11 insertions(+), 9 deletions(-)

diff --git a/vllm/model_executor/models/qwen2_5_vl.py b/vllm/model_executor/models/qwen2_5_vl.py
index 41cb7084057dd..dfaeb663bbe2f 100644
--- a/vllm/model_executor/models/qwen2_5_vl.py
+++ b/vllm/model_executor/models/qwen2_5_vl.py
@@ -460,15 +460,17 @@ class Qwen2_5_VisionAttention(nn.Module):
         return output
 
 
-@support_torch_compile(
-    dynamic_arg_dims={
-        "x": 0,
-        "cu_seqlens": 0,
-        "rotary_pos_emb": 0,
-        "seqlens": 0,
-    },
-    mark_unbacked_dims={"seqlens": 0},
-)
+# (FIXME): Enable this after dynamic slicing is fixed
+# See https://github.com/vllm-project/vllm/pull/27760
+# @support_torch_compile(
+#     dynamic_arg_dims={
+#         "x": 0,
+#         "cu_seqlens": 0,
+#         "rotary_pos_emb": 0,
+#         "seqlens": 0,
+#     },
+#     mark_unbacked_dims={"seqlens": 0},
+# )
 class Qwen2_5_VisionBlock(nn.Module):
     def __init__(
         self,

From b798e39f931ad42354e0223de3d49e24523b79af Mon Sep 17 00:00:00 2001
From: Yan Ma <yan.ma@intel.com>
Date: Thu, 30 Oct 2025 09:43:13 +0800
Subject: [PATCH 003/976] [XPU][bugfix] fix rope for llama4 and deepseek
 (#25145)

Signed-off-by: Yan Ma <yan.ma@intel.com>
---
 .../layers/rotary_embedding/base.py           | 17 +++++++++++++-
 .../rotary_embedding/deepseek_scaling_rope.py |  4 ++--
 .../rotary_embedding/llama4_vision_rope.py    | 11 ++--------
 .../layers/rotary_embedding/mrope.py          | 22 ++-----------------
 4 files changed, 22 insertions(+), 32 deletions(-)

diff --git a/vllm/model_executor/layers/rotary_embedding/base.py b/vllm/model_executor/layers/rotary_embedding/base.py
index 711902f0cc67e..91276320df4d0 100644
--- a/vllm/model_executor/layers/rotary_embedding/base.py
+++ b/vllm/model_executor/layers/rotary_embedding/base.py
@@ -14,7 +14,7 @@ from .rocm_aiter_rope_ops import (
 
 
 @CustomOp.register("rotary_embedding")
-class RotaryEmbedding(CustomOp):
+class RotaryEmbeddingBase(CustomOp):
     """Original rotary positional embedding."""
 
     def __init__(
@@ -86,6 +86,21 @@ class RotaryEmbedding(CustomOp):
         ):
             self.cos_sin_cache = self.cos_sin_cache.to(query.device, dtype=query.dtype)
 
+
+class RotaryEmbedding(RotaryEmbeddingBase):
+    def __init__(
+        self,
+        head_size: int,
+        rotary_dim: int,
+        max_position_embeddings: int,
+        base: float,
+        is_neox_style: bool,
+        dtype: torch.dtype,
+    ) -> None:
+        super().__init__(
+            head_size, rotary_dim, max_position_embeddings, base, is_neox_style, dtype
+        )
+
     def forward_native(
         self,
         positions: torch.Tensor,
diff --git a/vllm/model_executor/layers/rotary_embedding/deepseek_scaling_rope.py b/vllm/model_executor/layers/rotary_embedding/deepseek_scaling_rope.py
index 2e5efec066634..d9134f05fddff 100644
--- a/vllm/model_executor/layers/rotary_embedding/deepseek_scaling_rope.py
+++ b/vllm/model_executor/layers/rotary_embedding/deepseek_scaling_rope.py
@@ -7,7 +7,7 @@ import torch
 
 from vllm.platforms import current_platform
 
-from .base import RotaryEmbedding
+from .base import RotaryEmbeddingBase
 from .common import (
     rotate_gptj,
     rotate_neox,
@@ -22,7 +22,7 @@ def yarn_get_mscale(scale: float = 1, mscale: float = 1) -> float:
     return 0.1 * mscale * math.log(scale) + 1.0
 
 
-class DeepseekScalingRotaryEmbedding(RotaryEmbedding):
+class DeepseekScalingRotaryEmbedding(RotaryEmbeddingBase):
     """RotaryEmbedding extended with YaRN method.
 
     Credits to Peng et al. github.com/jquesnelle/yarn
diff --git a/vllm/model_executor/layers/rotary_embedding/llama4_vision_rope.py b/vllm/model_executor/layers/rotary_embedding/llama4_vision_rope.py
index 6241cb5abbc8e..9fdac309df7ee 100644
--- a/vllm/model_executor/layers/rotary_embedding/llama4_vision_rope.py
+++ b/vllm/model_executor/layers/rotary_embedding/llama4_vision_rope.py
@@ -5,10 +5,10 @@ import math
 
 import torch
 
-from .base import RotaryEmbedding
+from .base import RotaryEmbeddingBase
 
 
-class Llama4VisionRotaryEmbedding(RotaryEmbedding):
+class Llama4VisionRotaryEmbedding(RotaryEmbeddingBase):
     def __init__(
         self,
         head_size: int,
@@ -78,10 +78,3 @@ class Llama4VisionRotaryEmbedding(RotaryEmbedding):
         key: torch.Tensor | None = None,
     ) -> tuple[torch.Tensor, torch.Tensor | None]:
         return self.forward_native(query, key)
-
-    def forward_hip(  # type: ignore[override]
-        self,
-        query: torch.Tensor,
-        key: torch.Tensor | None = None,
-    ) -> tuple[torch.Tensor, torch.Tensor | None]:
-        return self.forward_native(query, key)
diff --git a/vllm/model_executor/layers/rotary_embedding/mrope.py b/vllm/model_executor/layers/rotary_embedding/mrope.py
index d269733083d83..3c184ce9d6316 100644
--- a/vllm/model_executor/layers/rotary_embedding/mrope.py
+++ b/vllm/model_executor/layers/rotary_embedding/mrope.py
@@ -7,7 +7,7 @@ import torch
 
 from vllm.triton_utils import tl, triton
 
-from .base import RotaryEmbedding
+from .base import RotaryEmbeddingBase
 from .common import apply_rotary_emb_dispatch
 from .yarn_scaling_rope import YaRNScalingRotaryEmbedding, yarn_get_mscale
 
@@ -199,7 +199,7 @@ def apply_interleaved_rope(x: torch.Tensor, mrope_section: list[int]) -> torch.T
     return x_t
 
 
-class MRotaryEmbedding(RotaryEmbedding):
+class MRotaryEmbedding(RotaryEmbeddingBase):
     """Rotary Embedding with Multimodal Sections."""
 
     def __init__(
@@ -357,24 +357,6 @@ class MRotaryEmbedding(RotaryEmbedding):
         key = torch.cat((key_rot, key_pass), dim=-1).reshape(key_shape)
         return query, key
 
-    def forward_xpu(
-        self,
-        positions: torch.Tensor,
-        query: torch.Tensor,
-        key: torch.Tensor | None = None,
-        offsets: torch.Tensor | None = None,
-    ) -> tuple[torch.Tensor, torch.Tensor | None]:
-        return self.forward_native(positions, query, key, offsets)
-
-    def forward_cpu(
-        self,
-        positions: torch.Tensor,
-        query: torch.Tensor,
-        key: torch.Tensor | None = None,
-        offsets: torch.Tensor | None = None,
-    ) -> tuple[torch.Tensor, torch.Tensor | None]:
-        return self.forward_native(positions, query, key, offsets)
-
     @staticmethod
     def get_next_input_positions(
         mrope_position_delta: int,

From d7fb10c574a3a9cbf596bec086bf02603b71c5c8 Mon Sep 17 00:00:00 2001
From: Chen Zhang <zhangch99@outlook.com>
Date: Wed, 29 Oct 2025 19:39:57 -0700
Subject: [PATCH 004/976] [Bugfix] mamba-block-size is set for vision language
 model (#27773)

Signed-off-by: Chen Zhang <zhangch99@outlook.com>
---
 vllm/config/cache.py | 10 +---------
 vllm/config/vllm.py  | 16 +++++++++++++++-
 2 files changed, 16 insertions(+), 10 deletions(-)

diff --git a/vllm/config/cache.py b/vllm/config/cache.py
index 1734f6b15d4af..d743d5aa9dd29 100644
--- a/vllm/config/cache.py
+++ b/vllm/config/cache.py
@@ -5,7 +5,7 @@ import hashlib
 from dataclasses import field
 from typing import TYPE_CHECKING, Any, Literal
 
-from pydantic import Field, SkipValidation, field_validator, model_validator
+from pydantic import Field, SkipValidation, field_validator
 from pydantic.dataclasses import dataclass
 
 from vllm.config.utils import config
@@ -185,11 +185,3 @@ class CacheConfig:
             raise ValueError("Too large swap space. " + msg)
         elif cpu_memory_usage > 0.4 * total_cpu_memory:
             logger.warning("Possibly too large swap space. %s", msg)
-
-    @model_validator(mode="after")
-    def validate_mamba_block_size(self) -> "CacheConfig":
-        if self.mamba_block_size is not None and not self.enable_prefix_caching:
-            raise ValueError(
-                "--mamba-block-size can only be set with --enable-prefix-caching"
-            )
-        return self
diff --git a/vllm/config/vllm.py b/vllm/config/vllm.py
index a7f7f3b45abea..c46f409edab61 100644
--- a/vllm/config/vllm.py
+++ b/vllm/config/vllm.py
@@ -17,7 +17,7 @@ from pathlib import Path
 from typing import TYPE_CHECKING, Any, TypeVar
 
 import torch
-from pydantic import ConfigDict, Field
+from pydantic import ConfigDict, Field, model_validator
 from pydantic.dataclasses import dataclass
 
 import vllm.envs as envs
@@ -943,6 +943,20 @@ class VllmConfig:
             f"compilation_config={self.compilation_config!r}"
         )
 
+    @model_validator(mode="after")
+    def validate_mamba_block_size(self) -> "VllmConfig":
+        if self.model_config is None:
+            return self
+        mamba_block_size_is_set = (
+            self.cache_config.mamba_block_size is not None
+            and self.cache_config.mamba_block_size != self.model_config.max_model_len
+        )
+        if mamba_block_size_is_set and not self.cache_config.enable_prefix_caching:
+            raise ValueError(
+                "--mamba-block-size can only be set with --enable-prefix-caching"
+            )
+        return self
+
 
 _current_vllm_config: VllmConfig | None = None
 _current_prefix: str | None = None

From b5bae42f913efebef6d5239291418df8fb73b555 Mon Sep 17 00:00:00 2001
From: Kunshang Ji <kunshang.ji@intel.com>
Date: Thu, 30 Oct 2025 11:17:13 +0800
Subject: [PATCH 005/976] [XPU] Update latest IPEX 2.8 release (#27735)

Signed-off-by: Kunshang Ji <kunshang.ji@intel.com>
---
 .../scripts/hardware_ci/run-xpu-test.sh       |  7 +++++--
 .../installation/gpu.xpu.inc.md               |  4 +++-
 requirements/xpu.txt                          |  2 +-
 vllm/_ipex_ops.py                             | 21 +++++--------------
 4 files changed, 14 insertions(+), 20 deletions(-)

diff --git a/.buildkite/scripts/hardware_ci/run-xpu-test.sh b/.buildkite/scripts/hardware_ci/run-xpu-test.sh
index 250a64fdd071c..27ed67c4517e2 100644
--- a/.buildkite/scripts/hardware_ci/run-xpu-test.sh
+++ b/.buildkite/scripts/hardware_ci/run-xpu-test.sh
@@ -20,7 +20,10 @@ trap remove_docker_container EXIT
 
 # Run the image and test offline inference/tensor parallel
 docker run \
-    --device /dev/dri \
+    --device /dev/dri:/dev/dri \
+    --net=host \
+    --ipc=host \
+    --privileged \
     -v /dev/dri/by-path:/dev/dri/by-path \
     --entrypoint="" \
     -e "HF_TOKEN=${HF_TOKEN}" \
@@ -42,7 +45,7 @@ docker run \
     pytest -v -s v1/sample --ignore=v1/sample/test_logprobs.py --ignore=v1/sample/test_logprobs_e2e.py
     pytest -v -s v1/worker --ignore=v1/worker/test_gpu_model_runner.py
     pytest -v -s v1/structured_output
-    pytest -v -s v1/spec_decode --ignore=v1/spec_decode/test_max_len.py --ignore=v1/spec_decode/test_tree_attention.py
+    pytest -v -s v1/spec_decode --ignore=v1/spec_decode/test_max_len.py --ignore=v1/spec_decode/test_tree_attention.py --ignore=v1/spec_decode/test_speculators_eagle3.py
     pytest -v -s v1/kv_connector/unit --ignore=v1/kv_connector/unit/test_multi_connector.py --ignore=v1/kv_connector/unit/test_nixl_connector.py --ignore=v1/kv_connector/unit/test_shared_storage_connector.py
     pytest -v -s v1/test_serial_utils.py
 '
diff --git a/docs/getting_started/installation/gpu.xpu.inc.md b/docs/getting_started/installation/gpu.xpu.inc.md
index 9156df9db6df3..620a660a240ed 100644
--- a/docs/getting_started/installation/gpu.xpu.inc.md
+++ b/docs/getting_started/installation/gpu.xpu.inc.md
@@ -56,8 +56,10 @@ docker build -f docker/Dockerfile.xpu -t vllm-xpu-env --shm-size=4g .
 docker run -it \
              --rm \
              --network=host \
-             --device /dev/dri \
+             --device /dev/dri:/dev/dri \
              -v /dev/dri/by-path:/dev/dri/by-path \
+             --ipc=host \
+             --privileged \
              vllm-xpu-env
 ```
 
diff --git a/requirements/xpu.txt b/requirements/xpu.txt
index d14b631aa9364..e69a98b86036e 100644
--- a/requirements/xpu.txt
+++ b/requirements/xpu.txt
@@ -15,4 +15,4 @@ torchaudio
 torchvision
 --extra-index-url=https://download.pytorch.org/whl/xpu
 
-intel-extension-for-pytorch @ https://intel-extension-for-pytorch.s3.us-east-1.amazonaws.com/ipex_dev/xpu/intel_extension_for_pytorch-2.8.10.post0%2Bxpu-cp312-cp312-linux_x86_64.whl
+intel-extension-for-pytorch @ https://intel-extension-for-pytorch.s3.us-east-1.amazonaws.com/ipex_dev/xpu/intel_extension_for_pytorch-2.8.10.post1%2Bxpu-cp312-cp312-linux_x86_64.whl
diff --git a/vllm/_ipex_ops.py b/vllm/_ipex_ops.py
index e773e1d13f0b8..60ee0124c3d9c 100644
--- a/vllm/_ipex_ops.py
+++ b/vllm/_ipex_ops.py
@@ -151,7 +151,9 @@ class ipex_ops:
     def rms_norm(
         input: torch.Tensor, weight: torch.Tensor, epsilon: float
     ) -> torch.Tensor:
-        return ipex.llm.functional.rms_norm(input, weight, epsilon)
+        out = torch.empty_like(input)
+        torch.ops.torch_ipex.rms_norm_vllm(out, input.contiguous(), weight, epsilon)
+        return out
 
     @staticmethod
     def fused_add_rms_norm(
@@ -160,10 +162,7 @@ class ipex_ops:
         weight: torch.Tensor,
         epsilon: float,
     ) -> None:
-        tmp = ipex.llm.functional.add_rms_norm(
-            residual, input, weight, None, epsilon, True
-        )
-        input.copy_(tmp)
+        torch.ops.torch_ipex.fused_add_rms_norm_vllm(input, residual, weight, epsilon)
 
     @staticmethod
     def varlen_attention(
@@ -296,16 +295,6 @@ class ipex_ops:
         num_splits=0,
         s_aux: torch.Tensor | None = None,
     ):
-        if cu_seqlens_k is None:
-            # cu_seqlens_k is not used in ipex kernel.
-            cu_seqlens_k = torch.cumsum(seqused_k, dim=0)
-            cu_seqlens_k = torch.cat(
-                [
-                    torch.tensor([0], device=seqused_k.device, dtype=torch.int32),
-                    cu_seqlens_k,
-                ]
-            ).to(torch.int32)
-
         real_window_size: tuple[int, int]
         if window_size is None:
             real_window_size = (-1, -1)
@@ -318,7 +307,7 @@ class ipex_ops:
             k,
             v,
             cu_seqlens_q,
-            cu_seqlens_k,
+            seqused_k,
             max_seqlen_q,
             max_seqlen_k,
             softmax_scale,

From 2ce5c5d3d65a53e81b5117867f5ce9c873e68334 Mon Sep 17 00:00:00 2001
From: Nick Hill <nhill@redhat.com>
Date: Wed, 29 Oct 2025 21:04:25 -0700
Subject: [PATCH 006/976] [BugFix] Handle unscheduled requests properly when
 async scheduling (#27756)

Signed-off-by: Nick Hill <nhill@redhat.com>
---
 tests/v1/tpu/worker/test_tpu_model_runner.py  |  4 +-
 tests/v1/worker/test_gpu_model_runner.py      |  6 +--
 .../kv_connector/v1/offloading_connector.py   |  2 +-
 .../kv_connector/v1/p2p/p2p_nccl_connector.py |  4 +-
 .../v1/shared_storage_connector.py            |  2 +-
 vllm/v1/core/sched/output.py                  | 32 +++++++++++----
 vllm/v1/core/sched/scheduler.py               | 39 ++++++++++---------
 vllm/v1/worker/gpu_model_runner.py            | 15 +++----
 vllm/v1/worker/tpu_model_runner.py            |  2 +-
 9 files changed, 63 insertions(+), 43 deletions(-)

diff --git a/tests/v1/tpu/worker/test_tpu_model_runner.py b/tests/v1/tpu/worker/test_tpu_model_runner.py
index 1aa0709696c41..18aa599f1aaf7 100644
--- a/tests/v1/tpu/worker/test_tpu_model_runner.py
+++ b/tests/v1/tpu/worker/test_tpu_model_runner.py
@@ -212,10 +212,12 @@ def test_update_states_request_resumed(model_runner):
     # resume req
     cached_req_data = CachedRequestData(
         req_ids=[req_id],
-        resumed_from_preemption=[False],
+        resumed_req_ids={req_id},
         new_token_ids=[[]],
+        all_token_ids={req_id: scheduler_output.scheduled_new_reqs[0].prompt_token_ids},
         new_block_ids=[([],)],
         num_computed_tokens=[0],
+        num_output_tokens=[0],
     )
 
     scheduler_output = SchedulerOutput(
diff --git a/tests/v1/worker/test_gpu_model_runner.py b/tests/v1/worker/test_gpu_model_runner.py
index c2c34ee95ad5f..9007436350be4 100644
--- a/tests/v1/worker/test_gpu_model_runner.py
+++ b/tests/v1/worker/test_gpu_model_runner.py
@@ -259,10 +259,10 @@ def test_update_states_request_resumed(model_runner, dist_init):
     # resume req
     cached_req_data = CachedRequestData(
         req_ids=[req_id],
-        resumed_from_preemption=[False],
+        resumed_req_ids=set(),
         new_token_ids=[[]],
-        resumed_req_token_ids=[None],
-        new_block_ids=([[0]],),
+        all_token_ids={},
+        new_block_ids=[([0],)],
         num_computed_tokens=[0],
         num_output_tokens=[0],
     )
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/offloading_connector.py b/vllm/distributed/kv_transfer/kv_connector/v1/offloading_connector.py
index 6d4ffc152de97..19344e5784c23 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/offloading_connector.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/offloading_connector.py
@@ -494,5 +494,5 @@ def yield_req_data(
     yield from zip(
         cached_reqs.req_ids,
         cached_reqs.new_block_ids,
-        cached_reqs.resumed_from_preemption,
+        (req_id in cached_reqs.resumed_req_ids for req_id in cached_reqs.req_ids),
     )
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/p2p/p2p_nccl_connector.py b/vllm/distributed/kv_transfer/kv_connector/v1/p2p/p2p_nccl_connector.py
index e47cde2614fc2..780dd12fccda3 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/p2p/p2p_nccl_connector.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/p2p/p2p_nccl_connector.py
@@ -415,10 +415,10 @@ class P2pNcclConnector(KVConnectorBase_V1):
         for i, req_id in enumerate(cached_reqs.req_ids):
             num_computed_tokens = cached_reqs.num_computed_tokens[i]
             new_block_ids = cached_reqs.new_block_ids[i]
-            resumed_from_preemption = cached_reqs.resumed_from_preemption[i]
+            resumed_from_preemption = req_id in cached_reqs.resumed_req_ids
 
             if self.is_producer:
-                num_scheduled_tokens = (scheduler_output.num_scheduled_tokens)[req_id]
+                num_scheduled_tokens = scheduler_output.num_scheduled_tokens[req_id]
                 num_tokens = num_scheduled_tokens + num_computed_tokens
                 assert req_id in self.chunked_prefill
                 assert new_block_ids is not None
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/shared_storage_connector.py b/vllm/distributed/kv_transfer/kv_connector/v1/shared_storage_connector.py
index fc277630603aa..9c230d7d0d2f4 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/shared_storage_connector.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/shared_storage_connector.py
@@ -336,7 +336,7 @@ class SharedStorageConnector(KVConnectorBase_V1):
 
         cached_reqs = scheduler_output.scheduled_cached_reqs
         for i, req_id in enumerate(cached_reqs.req_ids):
-            resumed_from_preemption = cached_reqs.resumed_from_preemption[i]
+            resumed_from_preemption = req_id in cached_reqs.resumed_req_ids
             if not resumed_from_preemption or req_id not in self._requests_need_load:
                 continue
 
diff --git a/vllm/v1/core/sched/output.py b/vllm/v1/core/sched/output.py
index 035394f045301..cc6b89e2bf3f1 100644
--- a/vllm/v1/core/sched/output.py
+++ b/vllm/v1/core/sched/output.py
@@ -2,8 +2,11 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
 from dataclasses import dataclass
+from functools import cached_property
 from typing import TYPE_CHECKING
 
+from typing_extensions import deprecated
+
 from vllm._bc_linter import bc_linter_include
 
 if TYPE_CHECKING:
@@ -96,16 +99,16 @@ class NewRequestData:
 @dataclass
 class CachedRequestData:
     req_ids: list[str]
-    # If resumed_from_preemption is False, new_block_ids will be appended to
-    # the request's block IDs. If True, new_block_ids will be used as the
+    # For request ids not in resumed_req_ids, new_block_ids will be appended to
+    # the request's block IDs. For those in the set, new_block_ids will be used as the
     # request's block IDs instead of appending to the existing block IDs.
-    resumed_from_preemption: list[bool]
+    resumed_req_ids: set[str]
     # NOTE(woosuk): new_token_ids is only used for pipeline parallelism.
     # When PP is not used, new_token_ids will be empty.
     new_token_ids: list[list[int]]
-    # If resumed_from_preemption is True, propogate the token ids to the
-    # connector, otherwise will be empty.
-    resumed_req_token_ids: list[list[int] | None]
+    # For requests not scheduled in the last step, propagate the token ids to the
+    # connector. Won't contain requests that were scheduled in the prior step.
+    all_token_ids: dict[str, list[int]]
     new_block_ids: list[tuple[list[int], ...] | None]
     num_computed_tokens: list[int]
     num_output_tokens: list[int]
@@ -114,13 +117,26 @@ class CachedRequestData:
     def num_reqs(self) -> int:
         return len(self.req_ids)
 
+    @cached_property
+    @deprecated("use resumed_req_ids field")
+    def resumed_from_preemption(self) -> list[bool]:
+        return [req_id in self.resumed_req_ids for req_id in self.req_ids]
+
+    @cached_property
+    @deprecated("use all_token_ids field")
+    def resumed_req_token_ids(self) -> list[list[int] | None]:
+        return [
+            self.all_token_ids[req_id] if req_id in self.resumed_req_ids else None
+            for req_id in self.req_ids
+        ]
+
     @classmethod
     def make_empty(cls) -> "CachedRequestData":
         return cls(
             req_ids=[],
-            resumed_from_preemption=[],
+            resumed_req_ids=set(),
             new_token_ids=[],
-            resumed_req_token_ids=[],
+            all_token_ids={},
             new_block_ids=[],
             num_computed_tokens=[],
             num_output_tokens=[],
diff --git a/vllm/v1/core/sched/scheduler.py b/vllm/v1/core/sched/scheduler.py
index 00b34fe4fbb98..c794886bc24c8 100644
--- a/vllm/v1/core/sched/scheduler.py
+++ b/vllm/v1/core/sched/scheduler.py
@@ -71,6 +71,7 @@ class Scheduler(SchedulerInterface):
         self.finished_req_ids_dict: dict[int, set[str]] | None = (
             defaultdict(set) if include_finished_set else None
         )
+        self.prev_step_scheduled_req_ids: set[str] = set()
 
         # Scheduling constraints.
         self.max_num_running_reqs = self.scheduler_config.max_num_seqs
@@ -444,14 +445,9 @@ class Scheduler(SchedulerInterface):
                     # `request.num_prompt_tokens` to consider the resumed
                     # requests, which have output tokens.
                     num_new_tokens = request.num_tokens - num_computed_tokens
-                    if (
-                        0
-                        < self.scheduler_config.long_prefill_token_threshold
-                        < num_new_tokens
-                    ):
-                        num_new_tokens = (
-                            self.scheduler_config.long_prefill_token_threshold
-                        )
+                    threshold = self.scheduler_config.long_prefill_token_threshold
+                    if 0 < threshold < num_new_tokens:
+                        num_new_tokens = threshold
 
                     # chunked prefill has to be enabled explicitly to allow
                     # pooling requests to be chunked
@@ -620,6 +616,11 @@ class Scheduler(SchedulerInterface):
         structured_output_request_ids, grammar_bitmask = self.get_grammar_bitmask(
             num_scheduled_tokens.keys(), scheduled_spec_decode_tokens
         )
+
+        # Record the request ids that were scheduled in this step.
+        self.prev_step_scheduled_req_ids.clear()
+        self.prev_step_scheduled_req_ids.update(num_scheduled_tokens.keys())
+
         scheduler_output = SchedulerOutput(
             scheduled_new_reqs=new_reqs_data,
             scheduled_cached_reqs=cached_reqs_data,
@@ -691,14 +692,12 @@ class Scheduler(SchedulerInterface):
         req_ids: list[str] = []
         new_token_ids: list[list[int]] = []
         new_block_ids: list[tuple[list[int], ...] | None] = []
-        resumed_req_token_ids: list[list[int] | None] = []
+        all_token_ids: dict[str, list[int]] = {}
         num_computed_tokens: list[int] = []
         num_output_tokens: list[int] = []
+        resumed_req_ids = set()
 
-        # Because resumed_reqs is usually empty, it is more efficient to do
-        # in-place appending so that we don't need to allocate a new list.
-        resumed_from_preemption = [False] * len(running_reqs)
-        resumed_from_preemption += [True] * len(resumed_reqs)
+        num_running_reqs = len(running_reqs)
         for idx, req in enumerate(itertools.chain(running_reqs, resumed_reqs)):
             req_id = req.request_id
             req_ids.append(req_id)
@@ -715,12 +714,14 @@ class Scheduler(SchedulerInterface):
                     req.num_computed_tokens : req.num_computed_tokens + num_tokens
                 ]
                 new_token_ids.append(token_ids)
-            resumed_token_ids = None
-            if resumed_from_preemption[idx]:
-                resumed_token_ids = req.all_token_ids[
+            scheduled_in_prev_step = req_id in self.prev_step_scheduled_req_ids
+            if idx >= num_running_reqs:
+                assert not scheduled_in_prev_step
+                resumed_req_ids.add(req_id)
+            if not scheduled_in_prev_step:
+                all_token_ids[req_id] = req.all_token_ids[
                     : req.num_computed_tokens + num_tokens
                 ]
-            resumed_req_token_ids.append(resumed_token_ids)
             new_block_ids.append(
                 req_to_new_blocks[req_id].get_block_ids(allow_none=True)
             )
@@ -731,9 +732,9 @@ class Scheduler(SchedulerInterface):
 
         return CachedRequestData(
             req_ids=req_ids,
-            resumed_from_preemption=resumed_from_preemption,
+            resumed_req_ids=resumed_req_ids,
             new_token_ids=new_token_ids,
-            resumed_req_token_ids=resumed_req_token_ids,
+            all_token_ids=all_token_ids,
             new_block_ids=new_block_ids,
             num_computed_tokens=num_computed_tokens,
             num_output_tokens=num_output_tokens,
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index e350988456f12..1fe749c614ccf 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -706,7 +706,7 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
             req_state = self.requests[req_id]
             num_computed_tokens = req_data.num_computed_tokens[i]
             new_block_ids = req_data.new_block_ids[i]
-            resumed_from_preemption = req_data.resumed_from_preemption[i]
+            resumed_from_preemption = req_id in req_data.resumed_req_ids
             num_output_tokens = req_data.num_output_tokens[i]
 
             # Update the cached states.
@@ -754,16 +754,17 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
                 # Replace the existing block IDs with the new ones.
                 req_state.block_ids = new_block_ids
 
-                if self.use_async_scheduling and num_output_tokens > 0:
-                    # We must recover the output token ids for resumed requests in the
-                    # async scheduling case, so that correct input_ids are obtained.
-                    resumed_token_ids = req_data.resumed_req_token_ids[i]
-                    assert resumed_token_ids is not None
-                    req_state.output_token_ids = resumed_token_ids[-num_output_tokens:]
             if req_index is None:
                 # The request is not in the persistent batch.
                 # The request was either preempted and resumed later, or was not
                 # scheduled in the previous step and needs to be added again.
+
+                if self.use_async_scheduling and num_output_tokens > 0:
+                    # We must recover the output token ids for resumed requests in the
+                    # async scheduling case, so that correct input_ids are obtained.
+                    resumed_token_ids = req_data.all_token_ids[req_id]
+                    req_state.output_token_ids = resumed_token_ids[-num_output_tokens:]
+
                 reqs_to_add.append(req_state)
                 continue
 
diff --git a/vllm/v1/worker/tpu_model_runner.py b/vllm/v1/worker/tpu_model_runner.py
index 5d7b181989ce5..0ced138b940d0 100644
--- a/vllm/v1/worker/tpu_model_runner.py
+++ b/vllm/v1/worker/tpu_model_runner.py
@@ -483,7 +483,7 @@ class TPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
             req_state = self.requests[req_id]
             num_computed_tokens = req_data.num_computed_tokens[i]
             new_block_ids = req_data.new_block_ids[i]
-            resumed_from_preemption = req_data.resumed_from_preemption[i]
+            resumed_from_preemption = req_id in req_data.resumed_req_ids
 
             # Update the cached states.
             req_state.num_computed_tokens = num_computed_tokens

From 17d055f527d2bd5d39a1352e5161ed82345466ac Mon Sep 17 00:00:00 2001
From: Benjamin Bartels <benjamin@bartels.dev>
Date: Thu, 30 Oct 2025 04:09:10 +0000
Subject: [PATCH 007/976] [Feat] Adds runai distributed streamer (#27230)

Signed-off-by: bbartels <benjamin@bartels.dev>
Signed-off-by: Benjamin Bartels <benjamin@bartels.dev>
Co-authored-by: omer-dayan <omdayan@nvidia.com>
Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>
---
 docker/Dockerfile                                 |  2 +-
 docs/models/extensions/runai_model_streamer.md    |  9 +++++++++
 requirements/nightly_torch_test.txt               |  2 +-
 requirements/rocm.txt                             |  2 +-
 requirements/test.in                              |  2 +-
 requirements/test.txt                             |  6 +++---
 setup.py                                          |  2 +-
 .../model_loader/runai_streamer_loader.py         | 10 ++++++++--
 vllm/model_executor/model_loader/weight_utils.py  | 15 ++++++++++++++-
 9 files changed, 39 insertions(+), 11 deletions(-)

diff --git a/docker/Dockerfile b/docker/Dockerfile
index eb1453126e6f4..42a830cb605ad 100644
--- a/docker/Dockerfile
+++ b/docker/Dockerfile
@@ -495,7 +495,7 @@ RUN --mount=type=cache,target=/root/.cache/uv \
     else \
         BITSANDBYTES_VERSION="0.46.1"; \
     fi; \
-    uv pip install --system accelerate hf_transfer modelscope "bitsandbytes>=${BITSANDBYTES_VERSION}" 'timm>=1.0.17' 'runai-model-streamer[s3,gcs]>=0.14.0'
+    uv pip install --system accelerate hf_transfer modelscope "bitsandbytes>=${BITSANDBYTES_VERSION}" 'timm>=1.0.17' 'runai-model-streamer[s3,gcs]>=0.15.0'
 
 ENV VLLM_USAGE_SOURCE production-docker-image
 
diff --git a/docs/models/extensions/runai_model_streamer.md b/docs/models/extensions/runai_model_streamer.md
index c2cf107263a03..fc9d5eec3803e 100644
--- a/docs/models/extensions/runai_model_streamer.md
+++ b/docs/models/extensions/runai_model_streamer.md
@@ -45,6 +45,15 @@ vllm serve s3://core-llm/Llama-3-8b \
 
 You can tune parameters using `--model-loader-extra-config`:
 
+You can tune `distributed` that controls whether distributed streaming should be used. This is currently only possible on CUDA and ROCM devices. This can significantly improve loading times from object storage or high-throughput network fileshares.
+You can read further about Distributed streaming [here](https://github.com/run-ai/runai-model-streamer/blob/master/docs/src/usage.md#distributed-streaming)
+
+```bash
+vllm serve /home/meta-llama/Llama-3.2-3B-Instruct \
+    --load-format runai_streamer \
+    --model-loader-extra-config '{"distributed":true}'
+```
+
 You can tune `concurrency` that controls the level of concurrency and number of OS threads reading tensors from the file to the CPU buffer.
 For reading from S3, it will be the number of client instances the host is opening to the S3 server.
 
diff --git a/requirements/nightly_torch_test.txt b/requirements/nightly_torch_test.txt
index dea1926bbd695..63c1908f024b3 100644
--- a/requirements/nightly_torch_test.txt
+++ b/requirements/nightly_torch_test.txt
@@ -42,6 +42,6 @@ tritonclient==2.51.0
 
 numba == 0.61.2 # Required for N-gram speculative decoding
 numpy
-runai-model-streamer[s3,gcs]==0.14.0
+runai-model-streamer[s3,gcs]==0.15.0
 fastsafetensors>=0.1.10
 pydantic>=2.12 # 2.11 leads to error on python 3.13
diff --git a/requirements/rocm.txt b/requirements/rocm.txt
index d9743f0446438..6f1cca90e5e2b 100644
--- a/requirements/rocm.txt
+++ b/requirements/rocm.txt
@@ -12,6 +12,6 @@ tensorizer==2.10.1
 packaging>=24.2
 setuptools>=77.0.3,<80.0.0
 setuptools-scm>=8
-runai-model-streamer[s3,gcs]==0.14.0
+runai-model-streamer[s3,gcs]==0.15.0
 conch-triton-kernels==1.2.1
 timm>=1.0.17
diff --git a/requirements/test.in b/requirements/test.in
index a79ec839dbec1..b1ab599ff16e5 100644
--- a/requirements/test.in
+++ b/requirements/test.in
@@ -50,7 +50,7 @@ tritonclient==2.51.0
 
 numba == 0.61.2 # Required for N-gram speculative decoding
 numpy
-runai-model-streamer[s3,gcs]==0.14.0
+runai-model-streamer[s3,gcs]==0.15.0
 fastsafetensors>=0.1.10
 pydantic>=2.12 # 2.11 leads to error on python 3.13
 decord==0.6.0
diff --git a/requirements/test.txt b/requirements/test.txt
index bc007ccf10bbb..e54bb49fde684 100644
--- a/requirements/test.txt
+++ b/requirements/test.txt
@@ -965,11 +965,11 @@ rsa==4.9.1
     # via google-auth
 rtree==1.4.0
     # via torchgeo
-runai-model-streamer==0.14.0
+runai-model-streamer==0.15.0
     # via -r requirements/test.in
-runai-model-streamer-gcs==0.14.0
+runai-model-streamer-gcs==0.15.0
     # via runai-model-streamer
-runai-model-streamer-s3==0.14.0
+runai-model-streamer-s3==0.15.0
     # via runai-model-streamer
 s3transfer==0.10.3
     # via boto3
diff --git a/setup.py b/setup.py
index 83a4e3eea57c8..8139d0d62b8ac 100644
--- a/setup.py
+++ b/setup.py
@@ -712,7 +712,7 @@ setup(
         "bench": ["pandas", "matplotlib", "seaborn", "datasets"],
         "tensorizer": ["tensorizer==2.10.1"],
         "fastsafetensors": ["fastsafetensors >= 0.1.10"],
-        "runai": ["runai-model-streamer[s3,gcs] >= 0.14.0"],
+        "runai": ["runai-model-streamer[s3,gcs] >= 0.15.0"],
         "audio": [
             "librosa",
             "soundfile",
diff --git a/vllm/model_executor/model_loader/runai_streamer_loader.py b/vllm/model_executor/model_loader/runai_streamer_loader.py
index 079e3168647bb..93da07c550195 100644
--- a/vllm/model_executor/model_loader/runai_streamer_loader.py
+++ b/vllm/model_executor/model_loader/runai_streamer_loader.py
@@ -27,9 +27,16 @@ class RunaiModelStreamerLoader(BaseModelLoader):
 
     def __init__(self, load_config: LoadConfig):
         super().__init__(load_config)
+
+        self._is_distributed = False
         if load_config.model_loader_extra_config:
             extra_config = load_config.model_loader_extra_config
 
+            if "distributed" in extra_config and isinstance(
+                extra_config.get("distributed"), bool
+            ):
+                self._is_distributed = extra_config.get("distributed")
+
             if "concurrency" in extra_config and isinstance(
                 extra_config.get("concurrency"), int
             ):
@@ -92,8 +99,7 @@ class RunaiModelStreamerLoader(BaseModelLoader):
         """Get an iterator for the model weights based on the load format."""
         hf_weights_files = self._prepare_weights(model_or_path, revision)
         return runai_safetensors_weights_iterator(
-            hf_weights_files,
-            self.load_config.use_tqdm_on_load,
+            hf_weights_files, self.load_config.use_tqdm_on_load, self._is_distributed
         )
 
     def download_model(self, model_config: ModelConfig) -> None:
diff --git a/vllm/model_executor/model_loader/weight_utils.py b/vllm/model_executor/model_loader/weight_utils.py
index 5a9faefa4d894..3dbe803f99860 100644
--- a/vllm/model_executor/model_loader/weight_utils.py
+++ b/vllm/model_executor/model_loader/weight_utils.py
@@ -657,10 +657,22 @@ def multi_thread_safetensors_weights_iterator(
 def runai_safetensors_weights_iterator(
     hf_weights_files: list[str],
     use_tqdm_on_load: bool,
+    is_distributed: bool = False,
 ) -> Generator[tuple[str, torch.Tensor], None, None]:
     """Iterate over the weights in the model safetensor files."""
     with SafetensorsStreamer() as streamer:
-        streamer.stream_files(hf_weights_files)
+        is_cuda_alike = current_platform.is_cuda_alike()
+        device = (
+            f"cuda:{current_platform.current_device()}"
+            if is_distributed and is_cuda_alike
+            else "cpu"
+        )
+
+        streamer.stream_files(
+            hf_weights_files,
+            device=device,
+            is_distributed=is_distributed,
+        )
         total_tensors = sum(
             len(tensors_meta)
             for tensors_meta in streamer.files_to_tensors_metadata.values()
@@ -672,6 +684,7 @@ def runai_safetensors_weights_iterator(
             desc="Loading safetensors using Runai Model Streamer",
             bar_format=_BAR_FORMAT,
             disable=not enable_tqdm(use_tqdm_on_load),
+            mininterval=2,
         )
 
         yield from tensor_iter

From b8c48c5d722298656074c559d0e8d702a6c28da1 Mon Sep 17 00:00:00 2001
From: Fardin Hoque <kfhfar@amazon.com>
Date: Wed, 29 Oct 2025 21:10:34 -0700
Subject: [PATCH 008/976] kernels/moe test pruning (#27053)

Signed-off-by: Fardin Hoque <kfhfar@amazon.com>
Co-authored-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com>
---
 tests/kernels/moe/test_batched_moe.py         | 25 +++++++++++++------
 tests/kernels/moe/test_block_fp8.py           | 14 -----------
 tests/kernels/moe/test_block_int8.py          | 10 +-------
 tests/kernels/moe/test_cutlass_moe.py         |  3 ---
 tests/kernels/moe/test_deepep_deepgemm_moe.py |  1 -
 tests/kernels/moe/test_deepgemm.py            |  2 --
 tests/kernels/moe/test_flashinfer.py          |  2 --
 tests/kernels/moe/test_flashinfer_moe.py      |  4 +--
 tests/kernels/moe/test_grouped_topk.py        |  2 +-
 .../moe/test_modular_kernel_combinations.py   |  8 ++++++
 tests/kernels/moe/test_moe.py                 | 11 +++-----
 tests/kernels/moe/test_nvfp4_moe.py           |  4 +--
 .../moe/test_silu_mul_fp8_quant_deep_gemm.py  |  4 ---
 13 files changed, 34 insertions(+), 56 deletions(-)

diff --git a/tests/kernels/moe/test_batched_moe.py b/tests/kernels/moe/test_batched_moe.py
index 2dce099770f08..62704bbcbbc79 100644
--- a/tests/kernels/moe/test_batched_moe.py
+++ b/tests/kernels/moe/test_batched_moe.py
@@ -24,23 +24,16 @@ from vllm.triton_utils import tl
 
 MNK_FACTORS = [
     (1, 128, 128),
-    (1, 128, 2048),
     (1, 512, 512),
-    (1, 1024, 128),
     (1, 1024, 2048),
     (32, 128, 128),
     (32, 512, 512),
     (32, 1024, 2048),
-    (45, 128, 128),
     (45, 128, 2048),
-    (45, 512, 512),
     (45, 1024, 128),
-    (45, 1024, 2048),
     (64, 512, 512),
     (64, 1024, 2048),
-    (222, 128, 128),
     (222, 128, 2048),
-    (222, 1024, 128),
     (222, 1024, 2048),
 ]
 NUM_EXPERTS = [8, 64]
@@ -117,10 +110,19 @@ def test_batched_mm(
     block_shape: list[int] | None,
     per_act_token_quant: bool,
 ):
+    """Note: float8_e4m3fn is not supported on CUDA architecture < 89,
+    and those tests will be skipped on unsupported hardware."""
     current_platform.seed_everything(7)
 
     use_fp8_w8a8 = dtype == torch.float8_e4m3fn
 
+    if (dtype == torch.float8_e4m3fn) and not current_platform.has_device_capability(
+        89
+    ):
+        pytest.skip(
+            "Triton limitation: fp8e4nv data type is not supported on CUDA arch < 89"
+        )
+
     if (per_act_token_quant or block_shape is not None) and not use_fp8_w8a8:
         pytest.skip("Don't test blocking for non-quantized types.")
 
@@ -244,10 +246,19 @@ def test_fused_moe_batched_experts(
     block_shape: list[int] | None,
     input_scales: bool,
 ):
+    """Note: float8_e4m3fn is not supported on CUDA architecture < 89,
+    and those tests will be skipped on unsupported hardware."""
     current_platform.seed_everything(7)
 
     use_fp8_w8a8 = dtype == torch.float8_e4m3fn
 
+    if (dtype == torch.float8_e4m3fn) and not current_platform.has_device_capability(
+        89
+    ):
+        pytest.skip(
+            "Triton limitation: fp8e4nv data type is not supported on CUDA arch < 89"
+        )
+
     if topk > e:
         pytest.skip("topk > e")
 
diff --git a/tests/kernels/moe/test_block_fp8.py b/tests/kernels/moe/test_block_fp8.py
index 60f9f14b7f6f1..cd34617ee0fc4 100644
--- a/tests/kernels/moe/test_block_fp8.py
+++ b/tests/kernels/moe/test_block_fp8.py
@@ -42,57 +42,43 @@ DTYPES = [torch.bfloat16]  # [torch.half, torch.bfloat16, torch.float32]
 # and its hidden size is 7168.
 MNK_FACTORS = [
     (1, 128, 128),
-    (1, 512, 512),
     (1, 128, 7168),
     (1, 1024, 7168),
     (1, 4608, 128),
-    (1, 4608, 512),
     (1, 4608, 7168),
     (83, 128, 128),
     (83, 512, 512),
-    (83, 1024, 7168),
     (83, 4608, 512),
     (83, 4608, 7168),
-    (128, 128, 128),
     (128, 512, 512),
     (128, 1024, 7168),
-    (128, 4608, 512),
     (128, 4608, 7168),
     (2048, 128, 128),
     (2048, 1024, 7168),
     (2048, 4608, 512),
     (2048, 4608, 7168),
     (8192, 128, 128),
-    (8192, 512, 512),
     (8192, 128, 7168),
     (8192, 1024, 7168),
-    (8192, 4608, 512),
     (8192, 4608, 7168),
 ]
 
 MNK_FACTORS_DG = [
     (128, 128, 128),
-    (128, 512, 512),
     (128, 128, 7168),
     (128, 1024, 7168),
     (128, 4608, 128),
-    (128, 4608, 512),
     (128, 4608, 7168),
-    (192, 128, 128),
     (192, 512, 512),
     (192, 1024, 7168),
-    (192, 4608, 512),
     (192, 4608, 7168),
     (1335, 128, 128),
     (1335, 1024, 7168),
     (1335, 4608, 512),
     (1335, 4608, 7168),
     (2048, 128, 128),
-    (2048, 512, 512),
     (2048, 128, 7168),
     (2048, 1024, 7168),
-    (2048, 4608, 128),
-    (2048, 4608, 512),
     (2048, 4608, 7168),
 ]
 
diff --git a/tests/kernels/moe/test_block_int8.py b/tests/kernels/moe/test_block_int8.py
index 74cc943714dd9..3799e60f1294a 100644
--- a/tests/kernels/moe/test_block_int8.py
+++ b/tests/kernels/moe/test_block_int8.py
@@ -21,36 +21,28 @@ vllm_config = VllmConfig()
 vllm_config.scheduler_config.max_num_seqs = 128
 vllm_config.scheduler_config.max_model_len = 8192
 
-DTYPES = [torch.half, torch.bfloat16]
+DTYPES = [torch.bfloat16]
 
 MNK_FACTORS = [
     (1, 128, 128),
-    (1, 512, 512),
     (1, 128, 7168),
     (1, 1024, 7168),
-    (1, 4096, 128),
     (1, 4096, 512),
     (1, 4096, 7168),
-    (33, 128, 128),
     (33, 512, 512),
     (33, 128, 7168),
     (33, 1024, 7168),
     (33, 4096, 128),
-    (33, 4096, 512),
     (33, 4096, 7168),
     (128, 128, 128),
-    (128, 512, 512),
     (128, 1024, 7168),
     (128, 4096, 512),
     (128, 4096, 7168),
-    (222, 128, 128),
     (222, 512, 512),
     (222, 1024, 7168),
-    (222, 4096, 512),
     (222, 4096, 7168),
     (2048, 128, 128),
     (2048, 1024, 7168),
-    (2048, 4096, 512),
     (2048, 4096, 4096),
 ]
 
diff --git a/tests/kernels/moe/test_cutlass_moe.py b/tests/kernels/moe/test_cutlass_moe.py
index 4330eda251f75..5512ccce47b05 100644
--- a/tests/kernels/moe/test_cutlass_moe.py
+++ b/tests/kernels/moe/test_cutlass_moe.py
@@ -26,16 +26,13 @@ TOP_KS = [6, 8]
 
 MNK_FACTORS = [
     (2, 1024, 1024),
-    (2, 1024, 1536),
     (2, 3072, 1024),
     (2, 3072, 1536),
     (7, 3072, 1536),
     (64, 1024, 1024),
     (64, 1024, 1536),
     (64, 3072, 1024),
-    (64, 3072, 1536),
     (224, 1024, 1024),
-    (224, 1024, 1536),
     (224, 3072, 1024),
     (224, 3072, 1536),
     (32768, 1024, 1024),
diff --git a/tests/kernels/moe/test_deepep_deepgemm_moe.py b/tests/kernels/moe/test_deepep_deepgemm_moe.py
index d46f453488a98..9d039b81690a1 100644
--- a/tests/kernels/moe/test_deepep_deepgemm_moe.py
+++ b/tests/kernels/moe/test_deepep_deepgemm_moe.py
@@ -393,7 +393,6 @@ def _test_deepep_deepgemm_moe(
 MNKs = [
     (8, 128, 128),
     (8, 128, 512),
-    (8, 512, 512),
     (3, 1024, 2048),
     (32, 128, 1024),
     (45, 512, 2048),
diff --git a/tests/kernels/moe/test_deepgemm.py b/tests/kernels/moe/test_deepgemm.py
index cad0085d5ba6e..9b1054f7d0ab8 100644
--- a/tests/kernels/moe/test_deepgemm.py
+++ b/tests/kernels/moe/test_deepgemm.py
@@ -130,10 +130,8 @@ def run_single_case(m, n, k, topk, num_experts, block_size):
 # Note: N <= 512 will disable the deepgemm path due to performance issues.
 MNKs = [
     (1024, 768, 128),
-    (1024, 768, 512),
     (2048, 768, 512),
     (512, 1024, 1024),
-    (512, 2048, 2048),
     (4096, 4096, 1024),
 ]
 
diff --git a/tests/kernels/moe/test_flashinfer.py b/tests/kernels/moe/test_flashinfer.py
index 0780232a82640..f985f9ac7ca67 100644
--- a/tests/kernels/moe/test_flashinfer.py
+++ b/tests/kernels/moe/test_flashinfer.py
@@ -34,8 +34,6 @@ TOP_KS = [1]
 
 MNK_FACTORS = [
     (256, 8192, 5120),
-    (256, 4096, 5120),
-    (127, 8192, 5120),
     (127, 4096, 5120),
     (10, 8192, 5120),
     (10, 4096, 5120),
diff --git a/tests/kernels/moe/test_flashinfer_moe.py b/tests/kernels/moe/test_flashinfer_moe.py
index 18cfd4f79092d..be3e36865d1a4 100644
--- a/tests/kernels/moe/test_flashinfer_moe.py
+++ b/tests/kernels/moe/test_flashinfer_moe.py
@@ -34,10 +34,8 @@ if not has_flashinfer_cutlass_fused_moe() or not current_platform.has_device_cap
 
 MNK_FACTORS = [
     (2, 1024, 1024),
-    (2, 1024, 1536),
     (2, 3072, 1024),
     (2, 3072, 1536),
-    (64, 1024, 1024),
     (64, 1024, 1536),
     (64, 3072, 1024),
     (64, 2048, 1536),
@@ -49,7 +47,7 @@ MNK_FACTORS = [
 @pytest.mark.parametrize("m,n,k", MNK_FACTORS)
 @pytest.mark.parametrize("e", [40, 64, 256])
 @pytest.mark.parametrize("topk", [1, 6, 8])
-@pytest.mark.parametrize("dtype", [torch.half, torch.bfloat16])
+@pytest.mark.parametrize("dtype", [torch.bfloat16])
 @torch.inference_mode()
 def test_flashinfer_fp4_moe_no_graph(
     m: int, n: int, k: int, e: int, topk: int, dtype: torch.dtype
diff --git a/tests/kernels/moe/test_grouped_topk.py b/tests/kernels/moe/test_grouped_topk.py
index 3f4f142be7674..662e0723b7583 100644
--- a/tests/kernels/moe/test_grouped_topk.py
+++ b/tests/kernels/moe/test_grouped_topk.py
@@ -27,7 +27,7 @@ from vllm.platforms import current_platform
 @pytest.mark.parametrize("topk_group", [2])
 @pytest.mark.parametrize("scoring_func", ["softmax", "sigmoid"])
 @pytest.mark.parametrize("routed_scaling_factor", [1.0, 2.5])
-@pytest.mark.parametrize("dtype", [torch.float16, torch.bfloat16, torch.float32])
+@pytest.mark.parametrize("dtype", [torch.bfloat16, torch.float32])
 def test_grouped_topk(
     monkeypatch: pytest.MonkeyPatch,
     n_token: int,
diff --git a/tests/kernels/moe/test_modular_kernel_combinations.py b/tests/kernels/moe/test_modular_kernel_combinations.py
index a46b0053e75a3..e3b8621b452fa 100644
--- a/tests/kernels/moe/test_modular_kernel_combinations.py
+++ b/tests/kernels/moe/test_modular_kernel_combinations.py
@@ -295,6 +295,8 @@ def test_modular_kernel_combinations_singlegpu(
     world_size: int,
     pytestconfig,
 ):
+    """Note: float8_e4m3fn is not supported on CUDA architecture < 89,
+    and those tests will be skipped on unsupported hardware."""
     config = Config(
         Ms=Ms,
         K=k,
@@ -309,6 +311,12 @@ def test_modular_kernel_combinations_singlegpu(
         world_size=world_size,
     )
 
+    if (
+        quant_config is not None and quant_config.quant_dtype == torch.float8_e4m3fn
+    ) and not current_platform.has_device_capability(89):
+        pytest.skip(
+            "Triton limitation: fp8e4nv data type is not supported on CUDA arch < 89"
+        )
     verbosity = pytestconfig.getoption("verbose")
     run(config, verbosity > 0)
 
diff --git a/tests/kernels/moe/test_moe.py b/tests/kernels/moe/test_moe.py
index 2c802ff4e6bd6..014df1fa111f2 100644
--- a/tests/kernels/moe/test_moe.py
+++ b/tests/kernels/moe/test_moe.py
@@ -66,8 +66,6 @@ FUSED_MOE_MNK_FACTORS = [
     (1, 128, 128),
     (1, 2048, 128),
     (33, 2048, 128),
-    (222, 1024, 1024),
-    (32768, 128, 128),
     (32768, 2048, 511),
     (40000, 1024, 1024),
 ]
@@ -76,7 +74,6 @@ FUSED_MOE_WN16_MNK_FACTORS = [
     (1, 128, 128),
     (1, 1024, 1024),
     (32, 2048, 128),
-    (32, 1024, 1024),
     (222, 2048, 1024),
 ]
 
@@ -512,8 +509,8 @@ def marlin_moe_generate_valid_test_cases():
     e_list = [4, 12]
     topk_list = [2, 3]
     ep_size_list = [1, 4]
-    dtype_list = [torch.half, torch.bfloat16]
-    group_size_list = [-1, 16, 32, 128]
+    dtype_list = [torch.bfloat16]
+    group_size_list = [-1, 32, 128]
     act_order_list = [True, False]
     quant_type_list = [
         scalar_types.float4_e2m1f,
@@ -885,10 +882,10 @@ def test_batched_moe_align_block_size_opcheck():
     )
 
 
-@pytest.mark.parametrize("m", [1, 33, 64, 222])
+@pytest.mark.parametrize("m", [1, 33, 222])
 @pytest.mark.parametrize("topk", TOP_KS)
 @pytest.mark.parametrize("k", [128, 511, 1024])
-@pytest.mark.parametrize("dtype", [torch.float32, torch.float16, torch.bfloat16])
+@pytest.mark.parametrize("dtype", [torch.float32, torch.bfloat16])
 @pytest.mark.skipif(current_platform.is_rocm(), reason="Skip for rocm")
 def test_moe_sum(m: int, topk: int, k: int, dtype: torch.dtype):
     input = torch.randn((m, topk, k), device="cuda", dtype=dtype)
diff --git a/tests/kernels/moe/test_nvfp4_moe.py b/tests/kernels/moe/test_nvfp4_moe.py
index dae19c0b2b31b..aa544fe0e0f63 100644
--- a/tests/kernels/moe/test_nvfp4_moe.py
+++ b/tests/kernels/moe/test_nvfp4_moe.py
@@ -26,9 +26,7 @@ MNK_FACTORS = [
     (2, 1024, 1024),
     (2, 1024, 1536),
     (2, 3072, 1024),
-    (2, 3072, 1536),
     (64, 1024, 1024),
-    (64, 1024, 1536),
     (64, 3072, 1024),
     (64, 2048, 1536),
     (224, 1024, 1024),
@@ -39,7 +37,7 @@ MNK_FACTORS = [
 @pytest.mark.parametrize("m,n,k", MNK_FACTORS)
 @pytest.mark.parametrize("e", [40, 64, 256])
 @pytest.mark.parametrize("topk", [1, 6, 8])
-@pytest.mark.parametrize("dtype", [torch.half, torch.bfloat16])
+@pytest.mark.parametrize("dtype", [torch.bfloat16])
 @torch.inference_mode()
 def test_cutlass_fp4_moe_no_graph(
     m: int, n: int, k: int, e: int, topk: int, dtype: torch.dtype
diff --git a/tests/kernels/moe/test_silu_mul_fp8_quant_deep_gemm.py b/tests/kernels/moe/test_silu_mul_fp8_quant_deep_gemm.py
index 92e78ec2396dd..97a55c37b9a3e 100644
--- a/tests/kernels/moe/test_silu_mul_fp8_quant_deep_gemm.py
+++ b/tests/kernels/moe/test_silu_mul_fp8_quant_deep_gemm.py
@@ -19,20 +19,16 @@ CASES = [
     (32, 64, 256, fp8_dtype),
     (17, 31, 768, fp8_dtype),
     (1, 1, 128 * 1, fp8_dtype),
-    (1, 1, 128 * 2, fp8_dtype),
     (1, 1, 128 * 3, fp8_dtype),
     (1, 1, 128 * 4, fp8_dtype),
     (8, 16, 128 * 1, fp8_dtype),
     (8, 16, 128 * 2, fp8_dtype),
     (8, 16, 128 * 3, fp8_dtype),
-    (8, 16, 128 * 4, fp8_dtype),
     (8, 64, 7168, fp8_dtype),
     (8, 128, 7168, fp8_dtype),
-    (8, 256, 7168, fp8_dtype),
     (8, 512, 7168, fp8_dtype),
     (8, 1024, 7168, fp8_dtype),
     (256, 8, 7168, fp8_dtype),
-    (256, 16, 7168, fp8_dtype),
     (256, 32, 7168, fp8_dtype),
     (256, 64, 7168, fp8_dtype),
     # Only add a few fnuz tests to help with long CI times.

From b5d70751d82c272a72f105299ef24ae316c41ded Mon Sep 17 00:00:00 2001
From: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com>
Date: Thu, 30 Oct 2025 12:39:34 +0800
Subject: [PATCH 009/976] [BugFix] Reordering extend logic fix (#27739)

Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com>
---
 tests/v1/attention/test_batch_reordering.py | 21 ++++++++++++++++++---
 vllm/v1/attention/backends/utils.py         | 10 +++++-----
 2 files changed, 23 insertions(+), 8 deletions(-)

diff --git a/tests/v1/attention/test_batch_reordering.py b/tests/v1/attention/test_batch_reordering.py
index b271409b92955..e37219454222b 100644
--- a/tests/v1/attention/test_batch_reordering.py
+++ b/tests/v1/attention/test_batch_reordering.py
@@ -53,7 +53,7 @@ REORDER_TEST_CASES = {
         expected_modified=True,
     ),
     "already_ordered": ReorderTestCase(
-        requests=[(1, 10), (1, 20), (100, 100), (200, 200)],
+        requests=[(1, 10), (1, 20), (100, 100), (200, 0)],
         expected_order=[0, 1, 2, 3],
         expected_modified=False,
     ),
@@ -74,15 +74,30 @@ REORDER_TEST_CASES = {
         expected_modified=True,
     ),
     "decode_extend_prefill": ReorderTestCase(
-        requests=[(100, 100), (10, 50), (1, 10)],
+        requests=[(100, 0), (10, 50), (1, 10)],
         expected_order=[2, 1, 0],
         expected_modified=True,
     ),
     "extend_prefill_only": ReorderTestCase(
-        requests=[(100, 100), (10, 50), (200, 200), (20, 75)],
+        requests=[(100, 0), (10, 50), (200, 0), (20, 75)],
         expected_order=[3, 1, 2, 0],  # Only swap 0↔3, keep 1 and 2 in place
         expected_modified=True,
     ),
+    "complicated_mixed_interleaved": ReorderTestCase(
+        requests=[
+            (1, 20),
+            (1, 50),
+            (374, 0),
+            (300, 20),
+            (1, 20),
+            (256, 0),
+            (1, 5),
+            (27, 0),
+            (1, 4),
+        ],
+        expected_order=[0, 1, 6, 8, 4, 3, 2, 7, 5],
+        expected_modified=True,
+    ),
 }
 
 
diff --git a/vllm/v1/attention/backends/utils.py b/vllm/v1/attention/backends/utils.py
index 389baf1488be0..07d62e9849e00 100644
--- a/vllm/v1/attention/backends/utils.py
+++ b/vllm/v1/attention/backends/utils.py
@@ -811,8 +811,8 @@ def reorder_batch_to_split_decodes_and_prefills(
     num_computed_tokens_np = input_batch.num_computed_tokens_cpu[:num_reqs]
 
     is_decode = num_scheduled_tokens_np <= decode_threshold
-    is_extend = (~is_decode) & (num_computed_tokens_np > num_scheduled_tokens_np)
-    is_prefill = (~is_decode) & (num_computed_tokens_np == num_scheduled_tokens_np)
+    is_extend = (~is_decode) & (num_computed_tokens_np > 0)
+    is_prefill = (~is_decode) & (num_computed_tokens_np == 0)
 
     # Desired order: decode → extend → prefill
     req_regions = np.zeros(is_decode.shape, dtype=np.int32)  # 0 = decode by default
@@ -832,11 +832,11 @@ def reorder_batch_to_split_decodes_and_prefills(
         return False
 
     # Extract indices that need swapping and sort by target region
-    swap_indices = np.where(needs_swap)[0]
+    orig_indices = np.where(needs_swap)[0]
     sorted_order = np.argsort(req_regions[needs_swap], kind="stable")
-    dest_indices = swap_indices[sorted_order]
+    src_indices = orig_indices[sorted_order]
 
-    src_dest_map = {int(src): int(dst) for src, dst in zip(swap_indices, dest_indices)}
+    src_dest_map = {int(src): int(dst) for src, dst in zip(src_indices, orig_indices)}
 
     for src in src_dest_map:
         dst = src_dest_map[src]

From 8bff831f0aa239006f34b721e63e1340e3472067 Mon Sep 17 00:00:00 2001
From: Kuntai Du <kuntai@uchicago.edu>
Date: Wed, 29 Oct 2025 21:43:37 -0700
Subject: [PATCH 010/976] [Benchmark] Cleanup deprecated nightly benchmark and
 adjust the docstring for performance benchmark (#25786)

Signed-off-by: KuntaiDu <kuntai@uchicago.edu>
---
 .../benchmark-pipeline.yaml                   | 184 -------
 .../nightly-benchmarks/nightly-annotation.md  |  28 --
 .../nightly-descriptions.md                   |  39 --
 .../nightly-benchmarks/nightly-pipeline.yaml  | 196 --------
 .../scripts/download-tokenizer.py             |  26 -
 .../scripts/generate-nightly-markdown.py      |  97 ----
 .../scripts/get-lmdeploy-modelname.py         |   9 -
 .../scripts/nightly-annotate.sh               |  78 ---
 .../scripts/run-nightly-benchmarks.sh         | 464 ------------------
 .../scripts/summary-nightly-results.py        |  82 ----
 .../scripts/wait-for-image.sh                 |  23 -
 .../README.md                                 |  54 +-
 .../performance-benchmarks-descriptions.md    |   0
 .../scripts/compare-json-results.py           |   0
 .../convert-results-json-to-markdown.py       |   2 +-
 .../scripts/launch-server.sh                  |   0
 .../scripts/run-performance-benchmarks.sh     |   2 +-
 .../tests/genai-perf-tests.json               |   0
 .../tests/latency-tests-cpu.json              |   0
 .../tests/latency-tests.json                  |   0
 .../tests/nightly-tests.json                  |   0
 .../tests/serving-tests-cpu-snc2.json         |   0
 .../tests/serving-tests-cpu-snc3.json         |   0
 .../tests/serving-tests-cpu.json              |   0
 .../tests/serving-tests.json                  |   0
 .../tests/throughput-tests-cpu.json           |   0
 .../tests/throughput-tests.json               |   0
 .github/mergify.yml                           |   2 +-
 docs/contributing/benchmarks.md               |  13 +-
 29 files changed, 10 insertions(+), 1289 deletions(-)
 delete mode 100644 .buildkite/nightly-benchmarks/benchmark-pipeline.yaml
 delete mode 100644 .buildkite/nightly-benchmarks/nightly-annotation.md
 delete mode 100644 .buildkite/nightly-benchmarks/nightly-descriptions.md
 delete mode 100644 .buildkite/nightly-benchmarks/nightly-pipeline.yaml
 delete mode 100644 .buildkite/nightly-benchmarks/scripts/download-tokenizer.py
 delete mode 100644 .buildkite/nightly-benchmarks/scripts/generate-nightly-markdown.py
 delete mode 100644 .buildkite/nightly-benchmarks/scripts/get-lmdeploy-modelname.py
 delete mode 100644 .buildkite/nightly-benchmarks/scripts/nightly-annotate.sh
 delete mode 100644 .buildkite/nightly-benchmarks/scripts/run-nightly-benchmarks.sh
 delete mode 100644 .buildkite/nightly-benchmarks/scripts/summary-nightly-results.py
 delete mode 100644 .buildkite/nightly-benchmarks/scripts/wait-for-image.sh
 rename .buildkite/{nightly-benchmarks => performance-benchmarks}/README.md (69%)
 rename .buildkite/{nightly-benchmarks => performance-benchmarks}/performance-benchmarks-descriptions.md (100%)
 rename .buildkite/{nightly-benchmarks => performance-benchmarks}/scripts/compare-json-results.py (100%)
 rename .buildkite/{nightly-benchmarks => performance-benchmarks}/scripts/convert-results-json-to-markdown.py (99%)
 rename .buildkite/{nightly-benchmarks => performance-benchmarks}/scripts/launch-server.sh (100%)
 rename .buildkite/{nightly-benchmarks => performance-benchmarks}/scripts/run-performance-benchmarks.sh (99%)
 rename .buildkite/{nightly-benchmarks => performance-benchmarks}/tests/genai-perf-tests.json (100%)
 rename .buildkite/{nightly-benchmarks => performance-benchmarks}/tests/latency-tests-cpu.json (100%)
 rename .buildkite/{nightly-benchmarks => performance-benchmarks}/tests/latency-tests.json (100%)
 rename .buildkite/{nightly-benchmarks => performance-benchmarks}/tests/nightly-tests.json (100%)
 rename .buildkite/{nightly-benchmarks => performance-benchmarks}/tests/serving-tests-cpu-snc2.json (100%)
 rename .buildkite/{nightly-benchmarks => performance-benchmarks}/tests/serving-tests-cpu-snc3.json (100%)
 rename .buildkite/{nightly-benchmarks => performance-benchmarks}/tests/serving-tests-cpu.json (100%)
 rename .buildkite/{nightly-benchmarks => performance-benchmarks}/tests/serving-tests.json (100%)
 rename .buildkite/{nightly-benchmarks => performance-benchmarks}/tests/throughput-tests-cpu.json (100%)
 rename .buildkite/{nightly-benchmarks => performance-benchmarks}/tests/throughput-tests.json (100%)

diff --git a/.buildkite/nightly-benchmarks/benchmark-pipeline.yaml b/.buildkite/nightly-benchmarks/benchmark-pipeline.yaml
deleted file mode 100644
index 4259514940d3f..0000000000000
--- a/.buildkite/nightly-benchmarks/benchmark-pipeline.yaml
+++ /dev/null
@@ -1,184 +0,0 @@
-steps:
-  - label: "Wait for container to be ready"
-    key: wait-for-container-image
-    agents:
-      queue: A100
-    plugins:
-    - kubernetes:
-        podSpec:
-          containers:
-          - image: badouralix/curl-jq
-            command:
-            - sh .buildkite/nightly-benchmarks/scripts/wait-for-image.sh
-  - label: "Cleanup H100"
-    agents:
-      queue: H100
-    depends_on: ~
-    command: docker system prune -a --volumes --force
-  
-  - label: "A100"
-    # skip: "use this flag to conditionally skip the benchmark step, useful for PR testing"
-    agents:
-      queue: A100
-    depends_on: wait-for-container-image
-    if: build.branch == "main"
-    plugins:
-    - kubernetes:
-        podSpec:
-          priorityClassName: perf-benchmark
-          containers:
-          - image: public.ecr.aws/q9t5s3a7/vllm-ci-postmerge-repo:$BUILDKITE_COMMIT
-            command:
-            - bash .buildkite/nightly-benchmarks/scripts/run-performance-benchmarks.sh
-            resources:
-              limits:
-                nvidia.com/gpu: 8
-            volumeMounts:
-            - name: devshm
-              mountPath: /dev/shm
-            env:
-            - name: VLLM_USAGE_SOURCE
-              value: ci-test
-            - name: HF_TOKEN
-              valueFrom:
-                secretKeyRef:
-                  name: hf-token-secret
-                  key: token
-          nodeSelector:
-            nvidia.com/gpu.product: NVIDIA-A100-SXM4-80GB
-          volumes:
-          - name: devshm
-            emptyDir:
-              medium: Memory
-
-  - label: "H200"
-    # skip: "use this flag to conditionally skip the benchmark step, useful for PR testing"
-    agents:
-      queue: H200
-    depends_on: wait-for-container-image
-    if: build.branch == "main"
-    plugins:
-    - docker#v5.12.0:
-        image: public.ecr.aws/q9t5s3a7/vllm-ci-postmerge-repo:$BUILDKITE_COMMIT
-        command:
-        - bash
-        - .buildkite/nightly-benchmarks/scripts/run-performance-benchmarks.sh
-        mount-buildkite-agent: true
-        propagate-environment: true
-        ipc: host
-        gpus: 4,5,6,7
-        volumes:
-          - /data/benchmark-hf-cache:/root/.cache/huggingface
-        environment:
-        - VLLM_USAGE_SOURCE
-        - HF_TOKEN
-
-  #- block: "Run H100 Benchmark"
-    #key: block-h100
-    #depends_on: ~
-
-  - label: "H100"
-    # skip: "use this flag to conditionally skip the benchmark step, useful for PR testing"
-    agents:
-      queue: H100
-    depends_on: wait-for-container-image
-    if: build.branch == "main"
-    plugins:
-    - docker#v5.12.0:
-        image: public.ecr.aws/q9t5s3a7/vllm-ci-postmerge-repo:$BUILDKITE_COMMIT
-        command:
-        - bash
-        - .buildkite/nightly-benchmarks/scripts/run-performance-benchmarks.sh
-        mount-buildkite-agent: true
-        propagate-environment: true
-        ipc: host
-        gpus: all # see CUDA_VISIBLE_DEVICES for actual GPUs used
-        volumes:
-          - /data/benchmark-hf-cache:/root/.cache/huggingface
-        environment:
-        - VLLM_USAGE_SOURCE
-        - HF_TOKEN
-
-  # Premerge benchmark
-  - label: "A100"
-    # skip: "use this flag to conditionally skip the benchmark step, useful for PR testing"
-    agents:
-      queue: A100
-    depends_on: wait-for-container-image
-    if: build.branch != "main"
-    plugins:
-    - kubernetes:
-        podSpec:
-          priorityClassName: perf-benchmark
-          containers:
-          - image: public.ecr.aws/q9t5s3a7/vllm-ci-test-repo:$BUILDKITE_COMMIT
-            command:
-            - bash .buildkite/nightly-benchmarks/scripts/run-performance-benchmarks.sh
-            resources:
-              limits:
-                nvidia.com/gpu: 8
-            volumeMounts:
-            - name: devshm
-              mountPath: /dev/shm
-            env:
-            - name: VLLM_USAGE_SOURCE
-              value: ci-test
-            - name: HF_TOKEN
-              valueFrom:
-                secretKeyRef:
-                  name: hf-token-secret
-                  key: token
-          nodeSelector:
-            nvidia.com/gpu.product: NVIDIA-A100-SXM4-80GB
-          volumes:
-          - name: devshm
-            emptyDir:
-              medium: Memory
-
-  - label: "H200"
-    # skip: "use this flag to conditionally skip the benchmark step, useful for PR testing"
-    agents:
-      queue: H200
-    depends_on: wait-for-container-image
-    if: build.branch != "main"
-    plugins:
-    - docker#v5.12.0:
-        image: public.ecr.aws/q9t5s3a7/vllm-ci-test-repo:$BUILDKITE_COMMIT
-        command:
-        - bash
-        - .buildkite/nightly-benchmarks/scripts/run-performance-benchmarks.sh
-        mount-buildkite-agent: true
-        propagate-environment: true
-        ipc: host
-        gpus: 4,5,6,7
-        volumes:
-          - /data/benchmark-hf-cache:/root/.cache/huggingface
-        environment:
-        - VLLM_USAGE_SOURCE
-        - HF_TOKEN
-
-  #- block: "Run H100 Benchmark"
-    #key: block-h100
-    #depends_on: ~
-
-  - label: "H100"
-    # skip: "use this flag to conditionally skip the benchmark step, useful for PR testing"
-    agents:
-      queue: H100
-    depends_on: wait-for-container-image
-    if: build.branch != "main"
-    plugins:
-    - docker#v5.12.0:
-        image: public.ecr.aws/q9t5s3a7/vllm-ci-test-repo:$BUILDKITE_COMMIT
-        command:
-        - bash
-        - .buildkite/nightly-benchmarks/scripts/run-performance-benchmarks.sh
-        mount-buildkite-agent: true
-        propagate-environment: true
-        ipc: host
-        gpus: all # see CUDA_VISIBLE_DEVICES for actual GPUs used
-        volumes:
-          - /data/benchmark-hf-cache:/root/.cache/huggingface
-        environment:
-        - VLLM_USAGE_SOURCE
-        - HF_TOKEN
diff --git a/.buildkite/nightly-benchmarks/nightly-annotation.md b/.buildkite/nightly-benchmarks/nightly-annotation.md
deleted file mode 100644
index 466def07b6f1f..0000000000000
--- a/.buildkite/nightly-benchmarks/nightly-annotation.md
+++ /dev/null
@@ -1,28 +0,0 @@
-# Nightly benchmark annotation
-
-## Description
-
-This file contains the downloading link for benchmarking results.
-
-- [benchmarking pipeline](artifact://nightly-pipeline.yaml)
-- [benchmarking results](artifact://results.zip)
-- [benchmarking code](artifact://nightly-benchmarks.zip)
-
-Please download the visualization scripts in the post
-
-## Results reproduction
-
-- Find the docker we use in `benchmarking pipeline`
-- Deploy the docker, and inside the docker:
-    - Download `nightly-benchmarks.zip`.
-    - In the same folder, run the following code:
-
-    ```bash
-    export HF_TOKEN=<your HF token>
-    apt update
-    apt install -y git
-    unzip nightly-benchmarks.zip
-    VLLM_SOURCE_CODE_LOC=./ bash .buildkite/nightly-benchmarks/scripts/run-nightly-benchmarks.sh
-    ```
-
-And the results will be inside `./benchmarks/results`.
diff --git a/.buildkite/nightly-benchmarks/nightly-descriptions.md b/.buildkite/nightly-benchmarks/nightly-descriptions.md
deleted file mode 100644
index 2ef36089b6afb..0000000000000
--- a/.buildkite/nightly-benchmarks/nightly-descriptions.md
+++ /dev/null
@@ -1,39 +0,0 @@
-
-# Nightly benchmark
-
-This benchmark aims to:
-
-- Provide performance clarity: Provide clarity on which one (vllm, tensorrt-llm, lmdeploy and SGLang) leads in performance in what workload.
-- Be reproducible: one can run the exact same set of benchmarking commands inside the exact same docker by following reproducing instructions.
-
-Latest results: [results link](https://blog.vllm.ai/2024/09/05/perf-update.html), scroll to the end.
-
-Latest reproduction guide: [github issue link](https://github.com/vllm-project/vllm/issues/8176)
-
-## Setup
-
-- Docker images:
-    - vLLM: `vllm/vllm-openai:v0.6.2`
-    - SGLang: `lmsysorg/sglang:v0.3.2-cu121`
-    - LMDeploy: `openmmlab/lmdeploy:v0.6.1-cu12`
-    - TensorRT-LLM: `nvcr.io/nvidia/tritonserver:24.07-trtllm-python-py3`
-        - *NOTE: we use r24.07 as the current implementation only works for this version. We are going to bump this up.*
-    - Check [nightly-pipeline.yaml](nightly-pipeline.yaml) for the concrete docker images, specs and commands we use for the benchmark.
-- Hardware
-    - 8x Nvidia A100 GPUs
-- Workload:
-    - Dataset
-        - ShareGPT dataset
-        - Prefill-heavy dataset (in average 462 input tokens, 16 tokens as output)
-        - Decode-heavy dataset (in average 462 input tokens, 256 output tokens)
-        - Check [nightly-tests.json](tests/nightly-tests.json) for the concrete configuration of datasets we use.
-    - Models: llama-3 8B, llama-3 70B.
-        - We do not use llama 3.1 as it is incompatible with trt-llm r24.07. ([issue](https://github.com/NVIDIA/TensorRT-LLM/issues/2105)).
-    - Average QPS (query per second): 2, 4, 8, 16, 32 and inf.
-        - Queries are randomly sampled, and arrival patterns are determined via Poisson process, but all with fixed random seed.
-    - Evaluation metrics: Throughput (higher the better), TTFT (time to the first token, lower the better), ITL (inter-token latency, lower the better).
-
-## Known issues
-
-- TRT-LLM crashes with Llama 3.1 8B [issue](https://github.com/NVIDIA/TensorRT-LLM/issues/2105).
-- TGI does not support `ignore-eos` flag.
diff --git a/.buildkite/nightly-benchmarks/nightly-pipeline.yaml b/.buildkite/nightly-benchmarks/nightly-pipeline.yaml
deleted file mode 100644
index 199517e8b067c..0000000000000
--- a/.buildkite/nightly-benchmarks/nightly-pipeline.yaml
+++ /dev/null
@@ -1,196 +0,0 @@
-common_pod_spec: &common_pod_spec
-  priorityClassName: perf-benchmark
-  nodeSelector:
-    nvidia.com/gpu.product: NVIDIA-A100-SXM4-80GB
-  volumes:
-    - name: devshm
-      emptyDir:
-        medium: Memory
-    - name: hf-cache
-      hostPath:
-        path: /root/.cache/huggingface
-        type: Directory
-
-common_container_settings: &common_container_settings
-  command:
-    - bash .buildkite/nightly-benchmarks/scripts/run-nightly-benchmarks.sh
-  resources:
-    limits:
-      nvidia.com/gpu: 8
-  volumeMounts:
-    - name: devshm
-      mountPath: /dev/shm
-    - name: hf-cache
-      mountPath: /root/.cache/huggingface
-  env:
-    - name: VLLM_USAGE_SOURCE
-      value: ci-test
-    - name: HF_HOME
-      value: /root/.cache/huggingface
-    - name: VLLM_SOURCE_CODE_LOC
-      value: /workspace/build/buildkite/vllm/performance-benchmark
-    - name: HF_TOKEN
-      valueFrom:
-        secretKeyRef:
-          name: hf-token-secret
-          key: token
-
-steps:
-  - block: ":rocket: Ready for comparing vllm against alternatives? This will take 4 hours."
-
-
-
-  - label: "A100 vllm step 10"
-    priority: 100
-    agents:
-      queue: A100
-    plugins:
-      - kubernetes:
-          podSpec:
-            <<: *common_pod_spec
-            containers:
-              - image: vllm/vllm-openai:v0.6.2
-                <<: *common_container_settings
-
-
-
-  - label: "A100 sglang benchmark"
-    priority: 100
-    agents:
-      queue: A100
-    plugins:
-      - kubernetes:
-          podSpec:
-            <<: *common_pod_spec
-            containers:
-              - image: lmsysorg/sglang:v0.3.2-cu121
-                <<: *common_container_settings
-
-  - label: "A100 lmdeploy benchmark"
-    priority: 100
-    agents:
-      queue: A100
-    plugins:
-      - kubernetes:
-          podSpec:
-            <<: *common_pod_spec
-            containers:
-              - image: openmmlab/lmdeploy:v0.6.1-cu12
-                <<: *common_container_settings
-
-
-
-
-  - label: "A100 trt llama-8B"
-    priority: 100
-    agents:
-      queue: A100
-    plugins:
-      - kubernetes:
-          podSpec:
-            <<: *common_pod_spec
-            containers:
-              - image: nvcr.io/nvidia/tritonserver:24.07-trtllm-python-py3
-                <<: *common_container_settings
-                env:
-                  - name: VLLM_USAGE_SOURCE
-                    value: ci-test
-                  - name: HF_HOME
-                    value: /root/.cache/huggingface
-                  - name: VLLM_SOURCE_CODE_LOC
-                    value: /workspace/build/buildkite/vllm/performance-benchmark
-                  - name: HF_TOKEN
-                    valueFrom:
-                      secretKeyRef:
-                        name: hf-token-secret
-                        key: token
-                  - name: TEST_SELECTOR
-                    value: "llama8B"
-
-
-  - label: "A100 trt llama-70B"
-    priority: 100
-    agents:
-      queue: A100
-    plugins:
-      - kubernetes:
-          podSpec:
-            <<: *common_pod_spec
-            containers:
-              - image: nvcr.io/nvidia/tritonserver:24.07-trtllm-python-py3
-                <<: *common_container_settings
-                env:
-                  - name: VLLM_USAGE_SOURCE
-                    value: ci-test
-                  - name: HF_HOME
-                    value: /root/.cache/huggingface
-                  - name: VLLM_SOURCE_CODE_LOC
-                    value: /workspace/build/buildkite/vllm/performance-benchmark
-                  - name: HF_TOKEN
-                    valueFrom:
-                      secretKeyRef:
-                        name: hf-token-secret
-                        key: token
-                  - name: TEST_SELECTOR
-                    value: "llama70B"
-
-
-  # FIXME(Kuntai): uncomment this after NVIDIA gives us their test docker image 
-  # - label: "A100 trt benchmark"
-  #   priority: 100
-  #   agents:
-  #     queue: A100
-  #   plugins:
-  #     - kubernetes:
-  #         podSpec:
-  #           <<: *common_pod_spec
-  #           containers:
-  #             - image: nvcr.io/nvidia/tritonserver:24.07-trtllm-python-py3
-  #               <<: *common_container_settings
-
-
-  # FIXME(Kuntai): uncomment this after TGI supports `--ignore-eos`.
-  # - label: "A100 tgi benchmark"
-  #   priority: 100
-  #   agents:
-  #     queue: A100
-  #   plugins:
-  #     - kubernetes:
-  #         podSpec:
-  #           <<: *common_pod_spec
-  #           containers:
-  #             - image: ghcr.io/huggingface/text-generation-inference:2.2.0
-  #               <<: *common_container_settings
-        
-  - wait
-
-  - label: "Collect the results"
-    priority: 100
-    agents:
-      queue: A100
-    plugins:
-      - kubernetes:
-          podSpec:
-            <<: *common_pod_spec
-            containers:
-            - image: vllm/vllm-openai:v0.5.0.post1
-              command:
-              - bash .buildkite/nightly-benchmarks/scripts/nightly-annotate.sh
-              resources:
-                limits:
-                  nvidia.com/gpu: 8
-              volumeMounts:
-              - name: devshm
-                mountPath: /dev/shm
-              env:
-              - name: VLLM_USAGE_SOURCE
-                value: ci-test
-              - name: VLLM_SOURCE_CODE_LOC
-                value: /workspace/build/buildkite/vllm/performance-benchmark
-              - name: HF_TOKEN
-                valueFrom:
-                  secretKeyRef:
-                    name: hf-token-secret
-                    key: token
-
-  - block: ":rocket: check the results!"
\ No newline at end of file
diff --git a/.buildkite/nightly-benchmarks/scripts/download-tokenizer.py b/.buildkite/nightly-benchmarks/scripts/download-tokenizer.py
deleted file mode 100644
index 8532ff7ef798c..0000000000000
--- a/.buildkite/nightly-benchmarks/scripts/download-tokenizer.py
+++ /dev/null
@@ -1,26 +0,0 @@
-# SPDX-License-Identifier: Apache-2.0
-# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
-
-import argparse
-
-from transformers import AutoTokenizer
-
-
-def main(model, cachedir):
-    # Load the tokenizer and save it to the specified directory
-    tokenizer = AutoTokenizer.from_pretrained(model)
-    tokenizer.save_pretrained(cachedir)
-    print(f"Tokenizer saved to {cachedir}")
-
-
-if __name__ == "__main__":
-    parser = argparse.ArgumentParser(
-        description="Download and save Hugging Face tokenizer"
-    )
-    parser.add_argument("--model", type=str, required=True, help="Name of the model")
-    parser.add_argument(
-        "--cachedir", type=str, required=True, help="Directory to save the tokenizer"
-    )
-
-    args = parser.parse_args()
-    main(args.model, args.cachedir)
diff --git a/.buildkite/nightly-benchmarks/scripts/generate-nightly-markdown.py b/.buildkite/nightly-benchmarks/scripts/generate-nightly-markdown.py
deleted file mode 100644
index 053fd52c35ae9..0000000000000
--- a/.buildkite/nightly-benchmarks/scripts/generate-nightly-markdown.py
+++ /dev/null
@@ -1,97 +0,0 @@
-# SPDX-License-Identifier: Apache-2.0
-# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
-
-import argparse
-import json
-from pathlib import Path
-
-import numpy as np
-import pandas as pd
-from tabulate import tabulate
-
-
-def parse_arguments():
-    parser = argparse.ArgumentParser(
-        description="Parse command line arguments for summary-nightly-results script."
-    )
-    parser.add_argument(
-        "--results-folder",
-        type=str,
-        required=True,
-        help="The folder where the results are stored.",
-    )
-    parser.add_argument(
-        "--description", type=str, required=True, help="Description of the results."
-    )
-
-    args = parser.parse_args()
-    return args
-
-
-def get_perf(df, method, model, metric):
-    means = []
-
-    for qps in [2, 4, 8, 16, "inf"]:
-        target = df["Test name"].str.contains(model)
-        target = target & df["Engine"].str.contains(method)
-        target = target & df["Test name"].str.contains("qps_" + str(qps))
-        filtered_df = df[target]
-
-        if filtered_df.empty:
-            means.append(0.0)
-        else:
-            means.append(filtered_df[metric].values[0])
-
-    return np.array(means)
-
-
-def get_perf_w_std(df, method, model, metric):
-    if metric in ["TTFT", "ITL"]:
-        mean = get_perf(df, method, model, "Mean " + metric + " (ms)")
-        mean = mean.tolist()
-        std = get_perf(df, method, model, "Std " + metric + " (ms)")
-        if std.mean() == 0:
-            std = None
-        success = get_perf(df, method, model, "Successful req.")
-        if std is not None:
-            std = std / np.sqrt(success)
-            std = std.tolist()
-
-    else:
-        assert metric == "Tput"
-        mean = get_perf(df, method, model, "Input Tput (tok/s)") + get_perf(
-            df, method, model, "Output Tput (tok/s)"
-        )
-        mean = mean.tolist()
-        std = None
-
-    return mean, std
-
-
-def main(args):
-    results_folder = Path(args.results_folder)
-
-    results = []
-
-    # collect results
-    for test_file in results_folder.glob("*_nightly_results.json"):
-        with open(test_file) as f:
-            results = results + json.loads(f.read())
-
-    # generate markdown table
-    df = pd.DataFrame.from_dict(results)
-
-    md_table = tabulate(df, headers="keys", tablefmt="pipe", showindex=False)
-
-    with open(args.description) as f:
-        description = f.read()
-
-    description = description.format(nightly_results_benchmarking_table=md_table)
-
-    with open("nightly_results.md", "w") as f:
-        f.write(description)
-
-
-if __name__ == "__main__":
-    args = parse_arguments()
-    main(args)
diff --git a/.buildkite/nightly-benchmarks/scripts/get-lmdeploy-modelname.py b/.buildkite/nightly-benchmarks/scripts/get-lmdeploy-modelname.py
deleted file mode 100644
index ddea1d2b1b1ed..0000000000000
--- a/.buildkite/nightly-benchmarks/scripts/get-lmdeploy-modelname.py
+++ /dev/null
@@ -1,9 +0,0 @@
-# SPDX-License-Identifier: Apache-2.0
-# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
-
-from lmdeploy.serve.openai.api_client import APIClient
-
-api_client = APIClient("http://localhost:8000")
-model_name = api_client.available_models[0]
-
-print(model_name)
diff --git a/.buildkite/nightly-benchmarks/scripts/nightly-annotate.sh b/.buildkite/nightly-benchmarks/scripts/nightly-annotate.sh
deleted file mode 100644
index 69b6b146b3549..0000000000000
--- a/.buildkite/nightly-benchmarks/scripts/nightly-annotate.sh
+++ /dev/null
@@ -1,78 +0,0 @@
-#!/bin/bash
-
-set -ex
-set -o pipefail
-
-
-main() {
-
-    (which wget && which curl) || (apt-get update && apt-get install -y wget curl)
-    (which jq) || (apt-get update && apt-get -y install jq)
-    (which zip) || (apt-get install -y zip)
-
-    if [ ! -f /workspace/buildkite-agent ]; then
-        echo "buildkite-agent binary not found. Skip plotting the results."
-        exit 0
-    fi
-
-    # initial annotation
-    #description="$VLLM_SOURCE_CODE_LOC/.buildkite/nightly-benchmarks/nightly-descriptions.md"
-
-    # download results
-    cd "$VLLM_SOURCE_CODE_LOC/benchmarks"
-    mkdir -p results/
-    /workspace/buildkite-agent artifact download 'results/*nightly_results.json' results/
-    ls
-    ls results/
-
-    # upload benchmark results
-    zip -r results.zip results/
-    /workspace/buildkite-agent artifact upload "results.zip"
-
-    # upload benchmarking scripts
-    cd "$VLLM_SOURCE_CODE_LOC/"
-    zip -r nightly-benchmarks.zip .buildkite/ benchmarks/
-    /workspace/buildkite-agent artifact upload "nightly-benchmarks.zip"
-
-    cd "$VLLM_SOURCE_CODE_LOC/.buildkite/nightly-benchmarks/"
-    # upload benchmarking pipeline
-    /workspace/buildkite-agent artifact upload "nightly-pipeline.yaml"
-
-    cd "$VLLM_SOURCE_CODE_LOC/.buildkite/nightly-benchmarks/"
-    /workspace/buildkite-agent annotate --style "success" --context "nightly-benchmarks-results" --append < nightly-annotation.md
-    
-
-
-    # The figures should be generated by a separate process outside the CI/CD pipeline
-
-    # # generate figures
-    # python3 -m pip install tabulate pandas matplotlib
-
-    # python3 $VLLM_SOURCE_CODE_LOC/.buildkite/nightly-benchmarks/scripts/generate-nightly-markdown.py \
-    #     --description $description \
-    #     --results-folder results/ 
-
-
-    # python3 $VLLM_SOURCE_CODE_LOC/.buildkite/nightly-benchmarks/scripts/plot-nightly-results.py \
-    #     --description $description \
-    #     --results-folder results/ \
-    #     --dataset sharegpt
-
-    # python3 $VLLM_SOURCE_CODE_LOC/.buildkite/nightly-benchmarks/scripts/plot-nightly-results.py \
-    #     --description $description \
-    #     --results-folder results/ \
-    #     --dataset sonnet_2048_128
-
-    # python3 $VLLM_SOURCE_CODE_LOC/.buildkite/nightly-benchmarks/scripts/plot-nightly-results.py \
-    #     --description $description \
-    #     --results-folder results/ \
-    #     --dataset sonnet_128_2048
-    
-    # # upload results and figures
-    # /workspace/buildkite-agent artifact upload "nightly_results*.png"
-    # /workspace/buildkite-agent artifact upload $VLLM_SOURCE_CODE_LOC/.buildkite/nightly-benchmarks/nightly-pipeline.yaml
-    # /workspace/buildkite-agent artifact upload $VLLM_SOURCE_CODE_LOC/.buildkite/nightly-benchmarks/tests/nightly-tests.json
-    # /workspace/buildkite-agent annotate --style "success" --context "nightly-benchmarks-results" --append < nightly_results.md
-}
-
-main "$@"
diff --git a/.buildkite/nightly-benchmarks/scripts/run-nightly-benchmarks.sh b/.buildkite/nightly-benchmarks/scripts/run-nightly-benchmarks.sh
deleted file mode 100644
index a00de940cbbb8..0000000000000
--- a/.buildkite/nightly-benchmarks/scripts/run-nightly-benchmarks.sh
+++ /dev/null
@@ -1,464 +0,0 @@
-#!/bin/bash
-
-set -o pipefail
-set -x
-
-check_gpus() {
-  # check the number of GPUs and GPU type.
-  declare -g gpu_count=$(nvidia-smi --list-gpus | wc -l)
-  if [[ $gpu_count -gt 0 ]]; then
-    echo "GPU found."
-  else
-    echo "Need at least 1 GPU to run benchmarking."
-    exit 1
-  fi
-  declare -g gpu_type="$(nvidia-smi --query-gpu=name --format=csv,noheader | awk '{print $2}')"
-  echo "GPU type is $gpu_type"
-}
-
-check_hf_token() {
-  # check if HF_TOKEN is available and valid
-  if [[ -z "$HF_TOKEN" ]]; then
-    echo "Error: HF_TOKEN is not set."
-    exit 1
-  elif [[ ! "$HF_TOKEN" =~ ^hf_ ]]; then
-    echo "Error: HF_TOKEN does not start with 'hf_'."
-    exit 1
-  else
-    echo "HF_TOKEN is set and valid."
-  fi
-}
-
-
-upload_to_buildkite() {
-  # upload the benchmarking results to buildkite
-
-  # if the agent binary is not found, skip uploading the results, exit 0
-  if [ ! -f /workspace/buildkite-agent ]; then
-    echo "buildkite-agent binary not found. Skip uploading the results."
-    return 0
-  fi
-  # /workspace/buildkite-agent annotate --style "success" --context "benchmark-results" --append < $RESULTS_FOLDER/${CURRENT_LLM_SERVING_ENGINE}_nightly_results.md
-  /workspace/buildkite-agent artifact upload "$RESULTS_FOLDER/*"
-}
-
-
-get_current_llm_serving_engine() {
-
-  if which lmdeploy >/dev/null; then
-    echo "Container: lmdeploy"
-    export CURRENT_LLM_SERVING_ENGINE=lmdeploy
-    return
-  fi
-
-  if [ -e /tgi-entrypoint.sh ]; then
-    echo "Container: tgi"
-    export CURRENT_LLM_SERVING_ENGINE=tgi
-    return
-  fi
-
-  if which trtllm-build >/dev/null; then
-    echo "Container: tensorrt-llm"
-    export CURRENT_LLM_SERVING_ENGINE=trt
-    return
-  fi
-
-  if [ -e /sgl-workspace ]; then
-    echo "Container: sglang"
-    export CURRENT_LLM_SERVING_ENGINE=sglang
-    return
-  fi
-
-  if [ -e /vllm-workspace ]; then
-    echo "Container: vllm"
-    # move to a completely irrelevant directory, to avoid import vllm from current folder
-    export CURRENT_LLM_SERVING_ENGINE=vllm
-
-    return
-  fi
-}
-
-json2args() {
-  # transforms the JSON string to command line args, and '_' is replaced to '-'
-  # example:
-  # input: { "model": "meta-llama/Llama-2-7b-chat-hf", "tensor_parallel_size": 1 }
-  # output: --model meta-llama/Llama-2-7b-chat-hf --tensor-parallel-size 1
-  local json_string=$1
-  local args=$(
-    echo "$json_string" | jq -r '
-      to_entries |
-      map("--" + (.key | gsub("_"; "-")) + " " + (.value | tostring)) |
-      join(" ")
-    '
-  )
-  echo "$args"
-}
-
-kill_gpu_processes() {
-  pkill -f '[p]ython'
-  pkill -f '[p]ython3'
-  pkill -f '[t]ritonserver'
-  pkill -f '[p]t_main_thread'
-  pkill -f '[t]ext-generation'
-  pkill -f '[l]mdeploy'
-  # vLLM now names the process with VLLM prefix after https://github.com/vllm-project/vllm/pull/21445
-  pkill -f '[V]LLM'
-
-  while [ "$(nvidia-smi --query-gpu=memory.used --format=csv,noheader,nounits | head -n 1)" -ge 1000 ]; do
-    sleep 1
-  done
-}
-
-wait_for_server() {
-  # wait for vllm server to start
-  # return 1 if vllm server crashes
-  timeout 1200 bash -c '
-    until curl -s localhost:8000/v1/completions > /dev/null; do
-      sleep 1
-    done' && return 0 || return 1
-}
-
-ensure_installed() {
-  # Ensure that the given command is installed by apt-get
-  local cmd=$1
-  if ! which "$cmd" >/dev/null; then
-    apt-get update && apt-get install -y "$cmd"
-  fi
-}
-
-run_serving_tests() {
-  # run serving tests using `vllm bench serve` command
-  # $1: a json file specifying serving test cases
-
-  local serving_test_file
-  serving_test_file=$1
-
-  # Iterate over serving tests
-  jq -c '.[]' "$serving_test_file" | while read -r params; do
-    # get the test name, and append the GPU type back to it.
-    test_name=$(echo "$params" | jq -r '.test_name')
-
-    # if TEST_SELECTOR is set, only run the test cases that match the selector
-    if [[ -n "$TEST_SELECTOR" ]] && [[ ! "$test_name" =~ $TEST_SELECTOR ]]; then
-      echo "Skip test case $test_name."
-      continue
-    fi
-
-    # prepend the current serving engine to the test name
-    test_name=${CURRENT_LLM_SERVING_ENGINE}_${test_name}
-
-    # get common parameters
-    common_params=$(echo "$params" | jq -r '.common_parameters')
-    model=$(echo "$common_params" | jq -r '.model')
-    tp=$(echo "$common_params" | jq -r '.tp')
-    dataset_name=$(echo "$common_params" | jq -r '.dataset_name')
-    dataset_path=$(echo "$common_params" | jq -r '.dataset_path')
-    port=$(echo "$common_params" | jq -r '.port')
-    num_prompts=$(echo "$common_params" | jq -r '.num_prompts')
-    reuse_server=$(echo "$common_params" | jq -r '.reuse_server')
-
-    # get client and server arguments
-    server_params=$(echo "$params" | jq -r ".${CURRENT_LLM_SERVING_ENGINE}_server_parameters")
-    client_params=$(echo "$params" | jq -r ".${CURRENT_LLM_SERVING_ENGINE}_client_parameters")
-    client_args=$(json2args "$client_params")
-    qps_list=$(echo "$params" | jq -r '.qps_list')
-    qps_list=$(echo "$qps_list" | jq -r '.[] | @sh')
-    echo "Running over qps list $qps_list"
-
-    # check if there is enough GPU to run the test
-    if [[ $gpu_count -lt $tp ]]; then
-      echo "Required num-shard $tp but only $gpu_count GPU found. Skip testcase $test_name."
-      continue
-    fi
-
-    if [[ $reuse_server == "true" ]]; then
-      echo "Reuse previous server for test case $test_name"
-    else
-      kill_gpu_processes
-      bash "$VLLM_SOURCE_CODE_LOC/.buildkite/nightly-benchmarks/scripts/launch-server.sh" \
-        "$server_params" "$common_params"
-    fi
-
-    if wait_for_server; then
-      echo ""
-      echo "$CURRENT_LLM_SERVING_ENGINE server is up and running."
-    else
-      echo ""
-      echo "$CURRENT_LLM_SERVING_ENGINE failed to start within the timeout period."
-      break
-    fi
-
-    # prepare tokenizer
-    # this is required for lmdeploy.
-    cd "$VLLM_SOURCE_CODE_LOC/benchmarks"
-    rm -rf /tokenizer_cache
-    mkdir /tokenizer_cache
-    python3 ../.buildkite/nightly-benchmarks/scripts/download-tokenizer.py \
-      --model "$model" \
-      --cachedir /tokenizer_cache
-    cd "$VLLM_SOURCE_CODE_LOC/benchmarks"
-
-
-    # change model name for lmdeploy (it will not follow standard hf name)
-    if [[ "$CURRENT_LLM_SERVING_ENGINE" == "lmdeploy" ]]; then
-      model=$(python ../.buildkite/nightly-benchmarks/scripts/get-lmdeploy-modelname.py)
-    fi
-
-    # iterate over different QPS
-    for qps in $qps_list; do
-      # remove the surrounding single quote from qps
-      if [[ "$qps" == *"inf"* ]]; then
-        echo "qps was $qps"
-        qps="inf"
-        echo "now qps is $qps"
-      fi
-
-      new_test_name=$test_name"_qps_"$qps
-
-      backend=$CURRENT_LLM_SERVING_ENGINE
-
-      if [[ $backend = "trt" ]]; then
-        backend="tensorrt-llm"
-      fi
-
-      if [[ "$backend" == *"vllm"* ]]; then
-        backend="vllm"
-      fi
-
-      if [[ "$dataset_name" = "sharegpt" ]]; then
-
-        client_command="vllm bench serve \
-          --backend $backend \
-          --tokenizer /tokenizer_cache \
-          --model $model \
-          --dataset-name $dataset_name \
-          --dataset-path $dataset_path \
-          --num-prompts $num_prompts \
-          --port $port \
-          --save-result \
-          --result-dir $RESULTS_FOLDER \
-          --result-filename ${new_test_name}.json \
-          --request-rate $qps \
-          --ignore-eos \
-          $client_args"
-
-      elif [[ "$dataset_name" = "sonnet" ]]; then
-
-        sonnet_input_len=$(echo "$common_params" | jq -r '.sonnet_input_len')
-        sonnet_output_len=$(echo "$common_params" | jq -r '.sonnet_output_len')
-        sonnet_prefix_len=$(echo "$common_params" | jq -r '.sonnet_prefix_len')
-
-        client_command="vllm bench serve \
-          --backend $backend \
-          --tokenizer /tokenizer_cache \
-          --model $model \
-          --dataset-name $dataset_name \
-          --dataset-path $dataset_path \
-          --num-prompts $num_prompts \
-          --sonnet-input-len $sonnet_input_len \
-          --sonnet-output-len $sonnet_output_len \
-          --sonnet-prefix-len $sonnet_prefix_len \
-          --port $port \
-          --save-result \
-          --result-dir $RESULTS_FOLDER \
-          --result-filename ${new_test_name}.json \
-          --request-rate $qps \
-          --ignore-eos \
-          $client_args"
-
-      else
-
-        echo "The dataset name must be either 'sharegpt' or 'sonnet'. Got $dataset_name."
-        exit 1
-
-      fi
-
-
-
-      echo "Running test case $test_name with qps $qps"
-      echo "Client command: $client_command"
-
-      eval "$client_command"
-
-      server_command="None"
-
-      # record the benchmarking commands
-      jq_output=$(jq -n \
-        --arg server "$server_command" \
-        --arg client "$client_command" \
-        --arg gpu "$gpu_type" \
-        --arg engine "$CURRENT_LLM_SERVING_ENGINE" \
-        '{
-          server_command: $server,
-          client_command: $client,
-          gpu_type: $gpu,
-          engine: $engine
-        }')
-      echo "$jq_output" >"$RESULTS_FOLDER/${new_test_name}.commands"
-
-    done
-
-  done
-
-  kill_gpu_processes
-}
-
-run_genai_perf_tests() {
-  # run genai-perf tests
-
-  # $1: a json file specifying genai-perf test cases
-  local genai_perf_test_file
-  genai_perf_test_file=$1
-
-  # Iterate over genai-perf tests
-  jq -c '.[]' "$genai_perf_test_file" | while read -r params; do
-    # get the test name, and append the GPU type back to it.
-    test_name=$(echo "$params" | jq -r '.test_name')
-
-    # if TEST_SELECTOR is set, only run the test cases that match the selector
-    if [[ -n "$TEST_SELECTOR" ]] && [[ ! "$test_name" =~ $TEST_SELECTOR ]]; then
-      echo "Skip test case $test_name."
-      continue
-    fi
-
-    # prepend the current serving engine to the test name
-    test_name=${CURRENT_LLM_SERVING_ENGINE}_${test_name}
-
-    # get common parameters
-    common_params=$(echo "$params" | jq -r '.common_parameters')
-    model=$(echo "$common_params" | jq -r '.model')
-    tp=$(echo "$common_params" | jq -r '.tp')
-    dataset_name=$(echo "$common_params" | jq -r '.dataset_name')
-    dataset_path=$(echo "$common_params" | jq -r '.dataset_path')
-    port=$(echo "$common_params" | jq -r '.port')
-    num_prompts=$(echo "$common_params" | jq -r '.num_prompts')
-    reuse_server=$(echo "$common_params" | jq -r '.reuse_server')
-
-    # get client and server arguments
-    server_params=$(echo "$params" | jq -r ".${CURRENT_LLM_SERVING_ENGINE}_server_parameters")
-    qps_list=$(echo "$params" | jq -r '.qps_list')
-    qps_list=$(echo "$qps_list" | jq -r '.[] | @sh')
-    echo "Running over qps list $qps_list"
-
-    # check if there is enough GPU to run the test
-    if [[ $gpu_count -lt $tp ]]; then
-      echo "Required num-shard $tp but only $gpu_count GPU found. Skip testcase $test_name."
-      continue
-    fi
-
-    if [[ $reuse_server == "true" ]]; then
-      echo "Reuse previous server for test case $test_name"
-    else
-      kill_gpu_processes
-      bash "$VLLM_SOURCE_CODE_LOC/.buildkite/nightly-benchmarks/scripts/launch-server.sh" \
-        "$server_params" "$common_params"
-    fi
-
-    if wait_for_server; then
-      echo ""
-      echo "$CURRENT_LLM_SERVING_ENGINE server is up and running."
-    else
-      echo ""
-      echo "$CURRENT_LLM_SERVING_ENGINE failed to start within the timeout period."
-      break
-    fi
-
-    # iterate over different QPS
-    for qps in $qps_list; do
-      # remove the surrounding single quote from qps
-      if [[ "$qps" == *"inf"* ]]; then
-        echo "qps was $qps"
-        qps=$num_prompts
-        echo "now qps is $qps"
-      fi
-
-      new_test_name=$test_name"_qps_"$qps
-      backend=$CURRENT_LLM_SERVING_ENGINE
-
-      if [[ "$backend" == *"vllm"* ]]; then
-        backend="vllm"
-      fi
-      #TODO: add output dir.
-      client_command="genai-perf profile \
-        -m $model \
-        --service-kind openai \
-        --backend "$backend" \
-        --endpoint-type chat \
-        --streaming \
-        --url localhost:$port \
-        --request-rate $qps \
-        --num-prompts $num_prompts \
-      "
-
-    echo "Client command: $client_command"
-
-    eval "$client_command"
-
-    #TODO: process/record outputs
-    done
-  done
-
-  kill_gpu_processes
-
-}
-
-prepare_dataset() {
-
-  # download sharegpt dataset
-  cd "$VLLM_SOURCE_CODE_LOC/benchmarks"
-  wget https://huggingface.co/datasets/anon8231489123/ShareGPT_Vicuna_unfiltered/resolve/main/ShareGPT_V3_unfiltered_cleaned_split.json
-
-  # duplicate sonnet by 4x, to allow benchmarking with input length 2048
-  cd "$VLLM_SOURCE_CODE_LOC/benchmarks"
-  echo "" > sonnet_4x.txt
-  for _ in {1..4}
-  do
-    cat sonnet.txt >> sonnet_4x.txt
-  done
-
-}
-
-main() {
-
-  # check if the environment variable is successfully injected from yaml
-
-  check_gpus
-  check_hf_token
-  get_current_llm_serving_engine
-
-  pip install -U transformers
-
-  pip install -r requirements/dev.txt
-  which genai-perf
-
-  # check storage
-  df -h
-
-  ensure_installed wget
-  ensure_installed curl
-  ensure_installed jq
-  # genai-perf dependency
-  ensure_installed libb64-0d
-
-  prepare_dataset
-
-  cd "$VLLM_SOURCE_CODE_LOC/benchmarks"
-  declare -g RESULTS_FOLDER=results/
-  mkdir -p $RESULTS_FOLDER
-  BENCHMARK_ROOT="$VLLM_SOURCE_CODE_LOC/.buildkite/nightly-benchmarks/"
-
-  # run the test
-  run_serving_tests "$BENCHMARK_ROOT/tests/nightly-tests.json"
-
-  # run genai-perf tests
-  run_genai_perf_tests "$BENCHMARK_ROOT/tests/genai-perf-tests.json"
-  mv artifacts/ $RESULTS_FOLDER/
-
-  # upload benchmark results to buildkite
-  python3 -m pip install tabulate pandas
-  python3 "$BENCHMARK_ROOT/scripts/summary-nightly-results.py"
-  upload_to_buildkite
-
-}
-
-main "$@"
diff --git a/.buildkite/nightly-benchmarks/scripts/summary-nightly-results.py b/.buildkite/nightly-benchmarks/scripts/summary-nightly-results.py
deleted file mode 100644
index fb3b9d5e34e03..0000000000000
--- a/.buildkite/nightly-benchmarks/scripts/summary-nightly-results.py
+++ /dev/null
@@ -1,82 +0,0 @@
-# SPDX-License-Identifier: Apache-2.0
-# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
-
-import datetime
-import json
-import os
-from pathlib import Path
-
-import pandas as pd
-from tabulate import tabulate
-
-results_folder = Path("results/")
-
-# serving results and the keys that will be printed into markdown
-serving_results = []
-serving_column_mapping = {
-    "test_name": "Test name",
-    "gpu_type": "GPU",
-    "completed": "Successful req.",
-    "request_throughput": "Tput (req/s)",
-    "mean_ttft_ms": "Mean TTFT (ms)",
-    "std_ttft_ms": "Std TTFT (ms)",
-    "median_ttft_ms": "Median TTFT (ms)",
-    "mean_itl_ms": "Mean ITL (ms)",
-    "std_itl_ms": "Std ITL (ms)",
-    "median_itl_ms": "Median ITL (ms)",
-    "mean_tpot_ms": "Mean TPOT (ms)",
-    "std_tpot_ms": "Std TPOT (ms)",
-    "median_tpot_ms": "Median TPOT (ms)",
-    "total_token_throughput": "Total Token Tput (tok/s)",
-    "output_throughput": "Output Tput (tok/s)",
-    "total_input_tokens": "Total input tokens",
-    "total_output_tokens": "Total output tokens",
-    "engine": "Engine",
-}
-
-if __name__ == "__main__":
-    # collect results
-    for test_file in results_folder.glob("*.json"):
-        with open(test_file) as f:
-            raw_result = json.loads(f.read())
-
-        # attach the benchmarking command to raw_result
-        with open(test_file.with_suffix(".commands")) as f:
-            command = json.loads(f.read())
-        raw_result.update(command)
-
-        # update the test name of this result
-        raw_result.update({"test_name": test_file.stem})
-
-        # add the result to raw_result
-        serving_results.append(raw_result)
-        continue
-
-    serving_results = pd.DataFrame.from_dict(serving_results)
-
-    if not serving_results.empty:
-        serving_results = serving_results[list(serving_column_mapping.keys())].rename(
-            columns=serving_column_mapping
-        )
-
-    serving_md_table_with_headers = tabulate(
-        serving_results, headers="keys", tablefmt="pipe", showindex=False
-    )
-    # remove the first line of header
-    serving_md_table_lines = serving_md_table_with_headers.split("\n")
-    serving_md_table_without_header = "\n".join(serving_md_table_lines[2:])
-
-    prefix = datetime.datetime.now().strftime("%Y-%m-%d_%H-%M-%S")
-    prefix = prefix + "_" + os.environ.get("CURRENT_LLM_SERVING_ENGINE")
-
-    # document benchmarking results in markdown
-    with open(results_folder / f"{prefix}_nightly_results.md", "w") as f:
-        # document results with header.
-        # for those who wants to reproduce our benchmark.
-        f.write(serving_md_table_with_headers)
-        f.write("\n")
-
-    # document benchmarking results in json
-    with open(results_folder / f"{prefix}_nightly_results.json", "w") as f:
-        results = serving_results.to_dict(orient="records")
-        f.write(json.dumps(results))
diff --git a/.buildkite/nightly-benchmarks/scripts/wait-for-image.sh b/.buildkite/nightly-benchmarks/scripts/wait-for-image.sh
deleted file mode 100644
index 50e1ab0242202..0000000000000
--- a/.buildkite/nightly-benchmarks/scripts/wait-for-image.sh
+++ /dev/null
@@ -1,23 +0,0 @@
-#!/bin/sh
-TOKEN=$(curl -s -L "https://public.ecr.aws/token?service=public.ecr.aws&scope=repository:q9t5s3a7/vllm-ci-postmerge-repo:pull" | jq -r .token)
-if [[ "$BUILDKITE_BRANCH" == "main" ]]; then
-    URL="https://public.ecr.aws/v2/q9t5s3a7/vllm-ci-postmerge-repo/manifests/$BUILDKITE_COMMIT"
-else
-    URL="https://public.ecr.aws/v2/q9t5s3a7/vllm-ci-test-repo/manifests/$BUILDKITE_COMMIT"
-fi
-
-TIMEOUT_SECONDS=10
-
-retries=0
-while [ $retries -lt 1000 ]; do
-    if [ "$(curl -s --max-time "$TIMEOUT_SECONDS" -L -H "Authorization: Bearer $TOKEN" -o /dev/null -w "%{http_code}" "$URL")" -eq 200 ]; then
-        exit 0
-    fi
-
-    echo "Waiting for image to be available..."
-
-    retries=$((retries + 1))
-    sleep 5
-done
-
-exit 1
diff --git a/.buildkite/nightly-benchmarks/README.md b/.buildkite/performance-benchmarks/README.md
similarity index 69%
rename from .buildkite/nightly-benchmarks/README.md
rename to .buildkite/performance-benchmarks/README.md
index e6f5c8b60f459..332142ba5d170 100644
--- a/.buildkite/nightly-benchmarks/README.md
+++ b/.buildkite/performance-benchmarks/README.md
@@ -2,40 +2,23 @@
 
 ## Introduction
 
-This directory contains two sets of benchmark for vllm.
-
-- Performance benchmark: benchmark vllm's performance under various workload, for **developers** to gain clarity on whether their PR improves/degrades vllm's performance
-- Nightly benchmark: compare vllm's performance against alternatives (tgi, trt-llm and lmdeploy), for **the public** to know when to choose vllm.
-
-See [vLLM performance dashboard](https://hud.pytorch.org/benchmark/llms?repoName=vllm-project%2Fvllm) for the latest performance benchmark results and [vLLM GitHub README](https://github.com/vllm-project/vllm/blob/main/README.md) for latest nightly benchmark results.
+This directory contains a benchmarking suite for **developers** to run locally and gain clarity on whether their PR improves/degrades vllm's performance.
+vLLM also maintains a continuous performance benchmark under [perf.vllm.ai](https://perf.vllm.ai/), hosted under PyTorch CI HUD.
 
 ## Performance benchmark quick overview
 
-**Benchmarking Coverage**: latency, throughput and fix-qps serving on A100 (the support for FP8 benchmark on H100 is coming!) and Intel® Xeon® Processors, with different models.
+**Benchmarking Coverage**: latency, throughput and fix-qps serving on B200, A100, H100 and Intel® Xeon® Processors, with different models.
 
 **Benchmarking Duration**: about 1hr.
 
 **For benchmarking developers**: please try your best to constraint the duration of benchmarking to about 1 hr so that it won't take forever to run.
 
-## Nightly benchmark quick overview
-
-**Benchmarking Coverage**: Fix-qps serving on A100 (the support for FP8 benchmark on H100 is coming!) on Llama-3 8B, 70B and Mixtral 8x7B.
-
-**Benchmarking engines**: vllm, TGI, trt-llm and lmdeploy.
-
-**Benchmarking Duration**: about 3.5hrs.
-
 ## Trigger the benchmark
 
-Performance benchmark will be triggered when:
-
-- A PR being merged into vllm.
-- Every commit for those PRs with `perf-benchmarks` label AND `ready` label.
-
-Manually Trigger the benchmark
+The benchmark needs to be triggered manually:
 
 ```bash
-bash .buildkite/nightly-benchmarks/scripts/run-performance-benchmarks.sh
+bash .buildkite/performance-benchmarks/scripts/run-performance-benchmarks.sh
 ```
 
 Runtime environment variables:
@@ -47,10 +30,6 @@ Runtime environment variables:
 - `REMOTE_HOST`: IP for the remote vLLM service to benchmark. Default value is empty string.
 - `REMOTE_PORT`: Port for the remote vLLM service to benchmark. Default value is empty string.
 
-Nightly benchmark will be triggered when:
-
-- Every commit for those PRs with `perf-benchmarks` label and `nightly-benchmarks` label.
-
 ## Performance benchmark details
 
 See [performance-benchmarks-descriptions.md](performance-benchmarks-descriptions.md) for detailed descriptions, and use `tests/latency-tests.json`, `tests/throughput-tests.json`, `tests/serving-tests.json` to configure the test cases.
@@ -152,26 +131,3 @@ Here is an example using the script to compare result_a and result_b with Model,
 A comparison diagram will be generated below the table.
 Here is an example to compare between 96c/results_gnr_96c_091_tp2pp3 and 128c/results_gnr_128c_091_tp2pp3
 <img width="1886" height="828" alt="image" src="https://github.com/user-attachments/assets/c02a43ef-25d0-4fd6-90e5-2169a28682dd" />
-
-## Nightly test details
-
-See [nightly-descriptions.md](nightly-descriptions.md) for the detailed description on test workload, models and docker containers of benchmarking other llm engines.
-
-### Workflow
-
-- The [nightly-pipeline.yaml](nightly-pipeline.yaml) specifies the docker containers for different LLM serving engines.
-- Inside each container, we run [scripts/run-nightly-benchmarks.sh](scripts/run-nightly-benchmarks.sh), which will probe the serving engine of the current container.
-- The `scripts/run-nightly-benchmarks.sh` will parse the workload described in [nightly-tests.json](tests/nightly-tests.json) and launch the right benchmark for the specified serving engine via `scripts/launch-server.sh`.
-- At last, we run [scripts/summary-nightly-results.py](scripts/summary-nightly-results.py) to collect and plot the final benchmarking results, and update the results to buildkite.
-
-### Nightly tests
-
-In [nightly-tests.json](tests/nightly-tests.json), we include the command line arguments for benchmarking commands, together with the benchmarking test cases. The format is highly similar to performance benchmark.
-
-### Docker containers
-
-The docker containers for benchmarking are specified in `nightly-pipeline.yaml`.
-
-WARNING: the docker versions are HARD-CODED and SHOULD BE ALIGNED WITH `nightly-descriptions.md`. The docker versions need to be hard-coded as there are several version-specific bug fixes inside `scripts/run-nightly-benchmarks.sh` and `scripts/launch-server.sh`.
-
-WARNING: populating `trt-llm` to latest version is not easy, as it requires updating several protobuf files in [tensorrt-demo](https://github.com/neuralmagic/tensorrt-demo.git).
diff --git a/.buildkite/nightly-benchmarks/performance-benchmarks-descriptions.md b/.buildkite/performance-benchmarks/performance-benchmarks-descriptions.md
similarity index 100%
rename from .buildkite/nightly-benchmarks/performance-benchmarks-descriptions.md
rename to .buildkite/performance-benchmarks/performance-benchmarks-descriptions.md
diff --git a/.buildkite/nightly-benchmarks/scripts/compare-json-results.py b/.buildkite/performance-benchmarks/scripts/compare-json-results.py
similarity index 100%
rename from .buildkite/nightly-benchmarks/scripts/compare-json-results.py
rename to .buildkite/performance-benchmarks/scripts/compare-json-results.py
diff --git a/.buildkite/nightly-benchmarks/scripts/convert-results-json-to-markdown.py b/.buildkite/performance-benchmarks/scripts/convert-results-json-to-markdown.py
similarity index 99%
rename from .buildkite/nightly-benchmarks/scripts/convert-results-json-to-markdown.py
rename to .buildkite/performance-benchmarks/scripts/convert-results-json-to-markdown.py
index a7544aeef4c74..80bb4d846a226 100644
--- a/.buildkite/nightly-benchmarks/scripts/convert-results-json-to-markdown.py
+++ b/.buildkite/performance-benchmarks/scripts/convert-results-json-to-markdown.py
@@ -392,7 +392,7 @@ if __name__ == "__main__":
     json_file = "benchmark_results.json"
     with open(results_folder / md_file, "w") as f:
         results = read_markdown(
-            "../.buildkite/nightly-benchmarks/"
+            "../.buildkite/performance-benchmarks/"
             + "performance-benchmarks-descriptions.md"
         )
         results = results.format(
diff --git a/.buildkite/nightly-benchmarks/scripts/launch-server.sh b/.buildkite/performance-benchmarks/scripts/launch-server.sh
similarity index 100%
rename from .buildkite/nightly-benchmarks/scripts/launch-server.sh
rename to .buildkite/performance-benchmarks/scripts/launch-server.sh
diff --git a/.buildkite/nightly-benchmarks/scripts/run-performance-benchmarks.sh b/.buildkite/performance-benchmarks/scripts/run-performance-benchmarks.sh
similarity index 99%
rename from .buildkite/nightly-benchmarks/scripts/run-performance-benchmarks.sh
rename to .buildkite/performance-benchmarks/scripts/run-performance-benchmarks.sh
index 5a47576483bbf..9447ceffd7e22 100644
--- a/.buildkite/nightly-benchmarks/scripts/run-performance-benchmarks.sh
+++ b/.buildkite/performance-benchmarks/scripts/run-performance-benchmarks.sh
@@ -469,7 +469,7 @@ main() {
   ensure_sharegpt_downloaded
   declare -g RESULTS_FOLDER=results/
   mkdir -p $RESULTS_FOLDER
-  QUICK_BENCHMARK_ROOT=../.buildkite/nightly-benchmarks/
+  QUICK_BENCHMARK_ROOT=../.buildkite/performance-benchmarks/
 
   # dump vllm info via vllm collect-env
   env_output=$(vllm collect-env)
diff --git a/.buildkite/nightly-benchmarks/tests/genai-perf-tests.json b/.buildkite/performance-benchmarks/tests/genai-perf-tests.json
similarity index 100%
rename from .buildkite/nightly-benchmarks/tests/genai-perf-tests.json
rename to .buildkite/performance-benchmarks/tests/genai-perf-tests.json
diff --git a/.buildkite/nightly-benchmarks/tests/latency-tests-cpu.json b/.buildkite/performance-benchmarks/tests/latency-tests-cpu.json
similarity index 100%
rename from .buildkite/nightly-benchmarks/tests/latency-tests-cpu.json
rename to .buildkite/performance-benchmarks/tests/latency-tests-cpu.json
diff --git a/.buildkite/nightly-benchmarks/tests/latency-tests.json b/.buildkite/performance-benchmarks/tests/latency-tests.json
similarity index 100%
rename from .buildkite/nightly-benchmarks/tests/latency-tests.json
rename to .buildkite/performance-benchmarks/tests/latency-tests.json
diff --git a/.buildkite/nightly-benchmarks/tests/nightly-tests.json b/.buildkite/performance-benchmarks/tests/nightly-tests.json
similarity index 100%
rename from .buildkite/nightly-benchmarks/tests/nightly-tests.json
rename to .buildkite/performance-benchmarks/tests/nightly-tests.json
diff --git a/.buildkite/nightly-benchmarks/tests/serving-tests-cpu-snc2.json b/.buildkite/performance-benchmarks/tests/serving-tests-cpu-snc2.json
similarity index 100%
rename from .buildkite/nightly-benchmarks/tests/serving-tests-cpu-snc2.json
rename to .buildkite/performance-benchmarks/tests/serving-tests-cpu-snc2.json
diff --git a/.buildkite/nightly-benchmarks/tests/serving-tests-cpu-snc3.json b/.buildkite/performance-benchmarks/tests/serving-tests-cpu-snc3.json
similarity index 100%
rename from .buildkite/nightly-benchmarks/tests/serving-tests-cpu-snc3.json
rename to .buildkite/performance-benchmarks/tests/serving-tests-cpu-snc3.json
diff --git a/.buildkite/nightly-benchmarks/tests/serving-tests-cpu.json b/.buildkite/performance-benchmarks/tests/serving-tests-cpu.json
similarity index 100%
rename from .buildkite/nightly-benchmarks/tests/serving-tests-cpu.json
rename to .buildkite/performance-benchmarks/tests/serving-tests-cpu.json
diff --git a/.buildkite/nightly-benchmarks/tests/serving-tests.json b/.buildkite/performance-benchmarks/tests/serving-tests.json
similarity index 100%
rename from .buildkite/nightly-benchmarks/tests/serving-tests.json
rename to .buildkite/performance-benchmarks/tests/serving-tests.json
diff --git a/.buildkite/nightly-benchmarks/tests/throughput-tests-cpu.json b/.buildkite/performance-benchmarks/tests/throughput-tests-cpu.json
similarity index 100%
rename from .buildkite/nightly-benchmarks/tests/throughput-tests-cpu.json
rename to .buildkite/performance-benchmarks/tests/throughput-tests-cpu.json
diff --git a/.buildkite/nightly-benchmarks/tests/throughput-tests.json b/.buildkite/performance-benchmarks/tests/throughput-tests.json
similarity index 100%
rename from .buildkite/nightly-benchmarks/tests/throughput-tests.json
rename to .buildkite/performance-benchmarks/tests/throughput-tests.json
diff --git a/.github/mergify.yml b/.github/mergify.yml
index de1a8314a4ecd..18d4a2e83144b 100644
--- a/.github/mergify.yml
+++ b/.github/mergify.yml
@@ -108,7 +108,7 @@ pull_request_rules:
       - files~=^benchmarks/
       - files~=^vllm/benchmarks/
       - files~=^tests/benchmarks/
-      - files~=^\.buildkite/nightly-benchmarks/
+      - files~=^\.buildkite/performance-benchmarks/
   actions:
     label:
       add:
diff --git a/docs/contributing/benchmarks.md b/docs/contributing/benchmarks.md
index be3e32a73a332..dca01eab5b426 100644
--- a/docs/contributing/benchmarks.md
+++ b/docs/contributing/benchmarks.md
@@ -9,7 +9,6 @@ vLLM provides comprehensive benchmarking tools for performance testing and evalu
 - **[Benchmark CLI](#benchmark-cli)**: `vllm bench` CLI tools and specialized benchmark scripts for interactive performance testing
 - **[Parameter sweeps](#parameter-sweeps)**: Automate `vllm bench` runs for multiple configurations
 - **[Performance benchmarks](#performance-benchmarks)**: Automated CI benchmarks for development
-- **[Nightly benchmarks](#nightly-benchmarks)**: Comparative benchmarks against alternatives
 
 [Benchmark CLI]: #benchmark-cli
 
@@ -1167,7 +1166,7 @@ docker run -it --entrypoint /bin/bash -v /data/huggingface:/root/.cache/huggingf
 Then, run below command inside the docker instance.
 
 ```bash
-bash .buildkite/nightly-benchmarks/scripts/run-performance-benchmarks.sh
+bash .buildkite/performance-benchmarks/scripts/run-performance-benchmarks.sh
 ```
 
 When run, benchmark script generates results under **benchmark/results** folder, along with the benchmark_results.md and benchmark_results.json.
@@ -1185,7 +1184,7 @@ For more results visualization, check the [visualizing the results](https://gith
 
 The latest performance results are hosted on the public [vLLM Performance Dashboard](https://hud.pytorch.org/benchmark/llms?repoName=vllm-project%2Fvllm).
 
-More information on the performance benchmarks and their parameters can be found in [Benchmark README](https://github.com/intel-ai-tce/vllm/blob/more_cpu_models/.buildkite/nightly-benchmarks/README.md) and [performance benchmark description](../../.buildkite/nightly-benchmarks/performance-benchmarks-descriptions.md).
+More information on the performance benchmarks and their parameters can be found in [Benchmark README](https://github.com/intel-ai-tce/vllm/blob/more_cpu_models/.buildkite/nightly-benchmarks/README.md) and [performance benchmark description](../../.buildkite/performance-benchmarks/performance-benchmarks-descriptions.md).
 
 ### Continuous Benchmarking
 
@@ -1210,11 +1209,3 @@ The benchmarking currently runs on a predefined set of models configured in the
 #### Viewing Results
 
 All continuous benchmarking results are automatically published to the public [vLLM Performance Dashboard](https://hud.pytorch.org/benchmark/llms?repoName=vllm-project%2Fvllm).
-
-## Nightly Benchmarks
-
-These compare vLLM's performance against alternatives (`tgi`, `trt-llm`, and `lmdeploy`) when there are major updates of vLLM (e.g., bumping up to a new version). They are primarily intended for consumers to evaluate when to choose vLLM over other options and are triggered on every commit with both the `perf-benchmarks` and `nightly-benchmarks` labels.
-
-The latest nightly benchmark results are shared in major release blog posts such as [vLLM v0.6.0](https://blog.vllm.ai/2024/09/05/perf-update.html).
-
-More information on the nightly benchmarks and their parameters can be found [here](../../.buildkite/nightly-benchmarks/nightly-descriptions.md).

From ded8ada86a3962477433054debbcef1d45161850 Mon Sep 17 00:00:00 2001
From: Bram Wasti <bwasti@fb.com>
Date: Thu, 30 Oct 2025 01:28:45 -0400
Subject: [PATCH 011/976] Add more dims for batch invariant shims (#27489)

Signed-off-by: Bram Wasti <bwasti@meta.com>
Signed-off-by: Bram Wasti <bwasti@fb.com>
Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
---
 vllm/model_executor/layers/batch_invariant.py | 44 ++++++++++++++++++-
 1 file changed, 42 insertions(+), 2 deletions(-)

diff --git a/vllm/model_executor/layers/batch_invariant.py b/vllm/model_executor/layers/batch_invariant.py
index 208ffb30e5ed2..5706786bccb1d 100644
--- a/vllm/model_executor/layers/batch_invariant.py
+++ b/vllm/model_executor/layers/batch_invariant.py
@@ -478,9 +478,48 @@ def matmul_batch_invariant(a, b, *, out=None):
     elif a.ndim == 3 and b.ndim == 3:
         # Handle batched case like bmm
         return bmm_batch_invariant(a, b, out=out)
+    elif a.ndim == 3 and b.ndim == 2:
+        # Handle 3D x 2D: common for linear layers
+        # (batch, seq, hidden) @ (hidden, out) -> (batch, seq, out)
+        # Reshape to 2D, do mm, reshape back
+        batch, seq, hidden = a.shape
+        a_2d = a.reshape(-1, hidden)
+        result_2d = matmul_persistent(a_2d, b)
+        result = result_2d.reshape(batch, seq, -1)
+        if out is not None:
+            out.copy_(result)
+            return out
+        return result
+    elif a.ndim == 2 and b.ndim == 3:
+        # Handle 2D x 3D: (M, K) @ (B, K, N) -> (B, M, N)
+        # By broadcasting `a` to 3D, we can reuse the batched matrix
+        # multiplication logic.
+        a_expanded = a.unsqueeze(0).expand(b.shape[0], -1, -1)
+        return bmm_batch_invariant(a_expanded, b, out=out)
+    elif a.ndim == 4 and b.ndim == 4:
+        # Handle 4D attention tensors: [batch, heads, seq, dim]
+        # Reshape to 3D, process, reshape back
+        batch, heads, seq_a, dim_a = a.shape
+        _, _, dim_b, seq_b = b.shape
+
+        # Reshape to [batch*heads, seq_a, dim_a]
+        a_3d = a.reshape(batch * heads, seq_a, dim_a)
+        b_3d = b.reshape(batch * heads, dim_b, seq_b)
+
+        # Do batched matmul
+        result_3d = bmm_batch_invariant(a_3d, b_3d)
+
+        # Reshape back to [batch, heads, seq_a, seq_b]
+        result = result_3d.reshape(batch, heads, seq_a, seq_b)
+
+        if out is not None:
+            out.copy_(result)
+            return out
+        return result
     else:
         raise ValueError(
-            f"matmul_batch_invariant currently only supports 2D x 2D and 3D x 3D, "
+            f"matmul_batch_invariant currently only supports 2D x 2D, 3D x 3D, "
+            f"3D x 2D, 2D x 3D, and 4D x 4D, "
             f"got shapes {a.shape} and {b.shape}"
         )
 
@@ -667,7 +706,8 @@ def rms_norm_batch_invariant(
 
 
 def linear_batch_invariant(input, weight, bias=None):
-    output = mm_batch_invariant(input, weight.t())
+    output = matmul_batch_invariant(input, weight.t())
+
     if bias is not None:
         output = output + bias
     return output

From 31b55ffc62189b32dac15fb7c00dba20e3573168 Mon Sep 17 00:00:00 2001
From: yitingdc <59356937+yitingdc@users.noreply.github.com>
Date: Thu, 30 Oct 2025 15:47:36 +0800
Subject: [PATCH 012/976] use stringData in secret yaml to store huggingface
 token (#25685)

Signed-off-by: yiting.jiang <yiting.jiang@daocloud.io>
---
 docs/deployment/k8s.md | 7 +++++--
 1 file changed, 5 insertions(+), 2 deletions(-)

diff --git a/docs/deployment/k8s.md b/docs/deployment/k8s.md
index 54031ec368b5c..abffb7bc5f948 100644
--- a/docs/deployment/k8s.md
+++ b/docs/deployment/k8s.md
@@ -49,11 +49,14 @@ First, create a Kubernetes PVC and Secret for downloading and storing Hugging Fa
     metadata:
       name: hf-token-secret
     type: Opaque
-    data:
-      token: $(HF_TOKEN)
+    stringData:
+      token: "REPLACE_WITH_TOKEN"
     EOF
     ```
 
+Here, the `token` field stores your **Hugging Face access token**. For details on how to generate a token,
+see the [Hugging Face documentation](https://huggingface.co/docs/hub/en/security-tokens).
+
 Next, start the vLLM server as a Kubernetes Deployment and Service:
 
 ??? console "Config"

From 5be1bed79058ddc1016f2639c52dfb5b597bf39c Mon Sep 17 00:00:00 2001
From: Huamin Li <3ericli@gmail.com>
Date: Thu, 30 Oct 2025 00:50:56 -0700
Subject: [PATCH 013/976] [CI/Build]Add eval config for
 Qwen3-235B-A22B-Instruct-2507-FP8 (#27113)

Signed-off-by: Huamin Li <3ericli@gmail.com>
---
 .../configs/Qwen3-235B-A22B-Instruct-2507-FP8.yaml | 14 ++++++++++++++
 .../lm-eval-harness/configs/models-large-h100.txt  |  1 -
 .../configs/models-large-hopper.txt                |  1 +
 .../lm-eval-harness/test_lm_eval_correctness.py    | 14 +++++++++++---
 .buildkite/test-pipeline.yaml                      | 13 +++++++++++++
 5 files changed, 39 insertions(+), 4 deletions(-)
 create mode 100644 .buildkite/lm-eval-harness/configs/Qwen3-235B-A22B-Instruct-2507-FP8.yaml
 delete mode 100644 .buildkite/lm-eval-harness/configs/models-large-h100.txt
 create mode 100644 .buildkite/lm-eval-harness/configs/models-large-hopper.txt

diff --git a/.buildkite/lm-eval-harness/configs/Qwen3-235B-A22B-Instruct-2507-FP8.yaml b/.buildkite/lm-eval-harness/configs/Qwen3-235B-A22B-Instruct-2507-FP8.yaml
new file mode 100644
index 0000000000000..514c15d6098ed
--- /dev/null
+++ b/.buildkite/lm-eval-harness/configs/Qwen3-235B-A22B-Instruct-2507-FP8.yaml
@@ -0,0 +1,14 @@
+model_name: "Qwen/Qwen3-235B-A22B-Instruct-2507-FP8"
+tasks:
+  - name: "mmlu_pro"
+    metrics:
+      - name: "exact_match,custom-extract"
+        value: 0.82
+limit: 250 # will run on 250 * 14 subjects = 3500 samples
+num_fewshot: 5
+enforce_eager: false # we use false to speed up the eval process
+kv_cache_dtype: fp8 # we use fp8 to speed up the eval process
+max_model_len: 40960
+apply_chat_template: true
+fewshot_as_multiturn: true
+gen_kwargs: "temperature=0,top_p=1,top_k=0,max_gen_toks=5632,until=<|ENDANSWER|>"
diff --git a/.buildkite/lm-eval-harness/configs/models-large-h100.txt b/.buildkite/lm-eval-harness/configs/models-large-h100.txt
deleted file mode 100644
index 4fb0b84bc4d81..0000000000000
--- a/.buildkite/lm-eval-harness/configs/models-large-h100.txt
+++ /dev/null
@@ -1 +0,0 @@
-Meta-Llama-4-Maverick-17B-128E-Instruct-FP8.yaml
diff --git a/.buildkite/lm-eval-harness/configs/models-large-hopper.txt b/.buildkite/lm-eval-harness/configs/models-large-hopper.txt
new file mode 100644
index 0000000000000..5552391d9eaba
--- /dev/null
+++ b/.buildkite/lm-eval-harness/configs/models-large-hopper.txt
@@ -0,0 +1 @@
+Qwen3-235B-A22B-Instruct-2507-FP8.yaml
diff --git a/.buildkite/lm-eval-harness/test_lm_eval_correctness.py b/.buildkite/lm-eval-harness/test_lm_eval_correctness.py
index f10de82b1d8e8..3627b760eddcf 100644
--- a/.buildkite/lm-eval-harness/test_lm_eval_correctness.py
+++ b/.buildkite/lm-eval-harness/test_lm_eval_correctness.py
@@ -21,10 +21,13 @@ def launch_lm_eval(eval_config, tp_size):
     max_model_len = eval_config.get("max_model_len", 4096)
     batch_size = eval_config.get("batch_size", "auto")
     backend = eval_config.get("backend", "vllm")
+    enforce_eager = eval_config.get("enforce_eager", "true")
+    kv_cache_dtype = eval_config.get("kv_cache_dtype", "auto")
     model_args = (
         f"pretrained={eval_config['model_name']},"
         f"tensor_parallel_size={tp_size},"
-        f"enforce_eager=true,"
+        f"enforce_eager={enforce_eager},"
+        f"kv_cache_dtype={kv_cache_dtype},"
         f"add_bos_token=true,"
         f"trust_remote_code={trust_remote_code},"
         f"max_model_len={max_model_len},"
@@ -37,8 +40,13 @@ def launch_lm_eval(eval_config, tp_size):
         limit=eval_config["limit"],
         # TODO(yeq): using chat template w/ fewshot_as_multiturn is supposed help
         # text models. however, this is regressing measured strict-match for
-        # existing text models in CI, so only apply it for mm.
-        apply_chat_template=backend == "vllm-vlm",
+        # existing text models in CI, so only apply it for mm, or explicitly set
+        apply_chat_template=eval_config.get(
+            "apply_chat_template", backend == "vllm-vlm"
+        ),
+        fewshot_as_multiturn=eval_config.get("fewshot_as_multiturn", False),
+        # Forward decoding and early-stop controls (e.g., max_gen_toks, until=...)
+        gen_kwargs=eval_config.get("gen_kwargs"),
         batch_size=batch_size,
     )
     return results
diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index d556073cd1049..339e3aab6c031 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -1186,6 +1186,19 @@ steps:
   - export VLLM_WORKER_MULTIPROC_METHOD=spawn
   - pytest -s -v test_lm_eval_correctness.py --config-list-file=configs/models-large.txt --tp-size=4
 
+##### H100 test #####
+- label: LM Eval Large Models (H100) # optional
+  gpu: h100
+  optional: true
+  num_gpus: 4
+  working_dir: "/vllm-workspace/.buildkite/lm-eval-harness"
+  source_file_dependencies:
+  - csrc/
+  - vllm/model_executor/layers/quantization
+  commands:
+    - export VLLM_USE_DEEP_GEMM=0  # We found Triton is faster than DeepGEMM for H100
+    - pytest -s -v test_lm_eval_correctness.py --config-list-file=configs/models-large-hopper.txt --tp-size=4
+
 ##### H200 test #####
 - label: Distributed Tests (H200) # optional
   gpu: h200

From e806178d2a9b65ebd536342d58097a825d066b9e Mon Sep 17 00:00:00 2001
From: Zhewen Li <zhewenli@meta.com>
Date: Thu, 30 Oct 2025 00:54:44 -0700
Subject: [PATCH 014/976] [BugFix][VL] Fix FA selection on Qwen2.5-VL (#27790)

Signed-off-by: zhewenli <zhewenli@meta.com>
Co-authored-by: Roger Wang <hey@rogerw.io>
---
 .buildkite/test-amd.yaml                 |  2 +-
 vllm/model_executor/models/qwen2_5_vl.py | 30 +++++++++++++++---------
 2 files changed, 20 insertions(+), 12 deletions(-)

diff --git a/.buildkite/test-amd.yaml b/.buildkite/test-amd.yaml
index 56e7b1083b17e..35bd4c99adb78 100644
--- a/.buildkite/test-amd.yaml
+++ b/.buildkite/test-amd.yaml
@@ -318,7 +318,7 @@ steps:
 
 - label: V1 Test entrypoints # 35min
   timeout_in_minutes: 50
-  mirror_hardwares: [amdexperimental]
+  mirror_hardwares: [amdexperimental, amdproduction]
   agent_pool: mi325_1
   # grade: Blocking
   source_file_dependencies:
diff --git a/vllm/model_executor/models/qwen2_5_vl.py b/vllm/model_executor/models/qwen2_5_vl.py
index dfaeb663bbe2f..3d67653726bd8 100644
--- a/vllm/model_executor/models/qwen2_5_vl.py
+++ b/vllm/model_executor/models/qwen2_5_vl.py
@@ -43,10 +43,7 @@ from transformers.models.qwen2_5_vl.configuration_qwen2_5_vl import (
 )
 
 from vllm.attention.backends.registry import _Backend
-from vllm.attention.layer import (
-    check_upstream_fa_availability,
-    maybe_get_vit_flash_attn_backend,
-)
+from vllm.attention.layer import maybe_get_vit_flash_attn_backend
 from vllm.attention.ops.vit_attn_wrappers import (
     vit_flash_attn_wrapper,
     vit_xformers_attn_wrapper,
@@ -318,6 +315,7 @@ class Qwen2_5_VisionAttention(nn.Module):
         use_data_parallel: bool = False,
         attn_backend: _Backend = _Backend.TORCH_SDPA,
         use_upstream_fa: bool = False,
+        attn_backend_override: _Backend | None = None,
     ) -> None:
         super().__init__()
         # Per attention head and per partition values.
@@ -358,8 +356,14 @@ class Qwen2_5_VisionAttention(nn.Module):
             maybe_get_vit_flash_attn_backend(
                 self.attn_backend,
                 self.use_upstream_fa,
+                attn_backend_override=attn_backend_override,
             )
         )
+        # On ROCm with FLASH_ATTN backend, upstream flash_attn is used
+        from vllm.platforms import current_platform
+
+        if current_platform.is_rocm() and self.attn_backend == _Backend.FLASH_ATTN:
+            self.use_upstream_fa = True
         self.is_flash_attn_backend = self.attn_backend in {
             _Backend.FLASH_ATTN,
             _Backend.ROCM_AITER_FA,
@@ -484,6 +488,7 @@ class Qwen2_5_VisionBlock(nn.Module):
         use_data_parallel: bool = False,
         attn_backend: _Backend = _Backend.TORCH_SDPA,
         use_upstream_fa: bool = False,
+        attn_backend_override: _Backend | None = None,
     ) -> None:
         super().__init__()
         if norm_layer is None:
@@ -499,6 +504,7 @@ class Qwen2_5_VisionBlock(nn.Module):
             use_data_parallel=use_data_parallel,
             attn_backend=attn_backend,
             use_upstream_fa=use_upstream_fa,
+            attn_backend_override=attn_backend_override,
         )
         self.mlp = Qwen2_5_VisionMLP(
             dim,
@@ -698,13 +704,14 @@ class Qwen2_5_VisionTransformer(nn.Module):
             dtype=torch.get_default_dtype(),
             attn_backend_override=attn_backend_override,
         )
-        if (
-            self.attn_backend != _Backend.FLASH_ATTN
-            and self.attn_backend != _Backend.ROCM_AITER_FA
-            and check_upstream_fa_availability(torch.get_default_dtype())
-        ):
-            self.attn_backend = _Backend.FLASH_ATTN
-            use_upstream_fa = True
+
+        self.attn_backend, self.flash_attn_varlen_func = (
+            maybe_get_vit_flash_attn_backend(
+                self.attn_backend,
+                use_upstream_fa,
+                attn_backend_override=attn_backend_override,
+            )
+        )
 
         if self.attn_backend not in {
             _Backend.FLASH_ATTN,
@@ -730,6 +737,7 @@ class Qwen2_5_VisionTransformer(nn.Module):
                         use_data_parallel=use_data_parallel,
                         attn_backend=self.attn_backend,
                         use_upstream_fa=use_upstream_fa,
+                        attn_backend_override=attn_backend_override,
                     )
                     for layer_idx in range(depth)
                 ]

From af826e082045e8bcd3ab2ea3129bcf91da7d58de Mon Sep 17 00:00:00 2001
From: wangxiyuan <wangxiyuan1007@gmail.com>
Date: Thu, 30 Oct 2025 17:42:49 +0800
Subject: [PATCH 015/976] [V0 deprecation] Remove VLLM_USE_V1 usage in config
 module (#27784)

Signed-off-by: wangxiyuan <wangxiyuan1007@gmail.com>
---
 vllm/config/lora.py        |  5 -----
 vllm/config/model.py       | 25 ++-----------------------
 vllm/config/speculative.py |  7 -------
 vllm/config/vllm.py        | 34 +++++++---------------------------
 4 files changed, 9 insertions(+), 62 deletions(-)

diff --git a/vllm/config/lora.py b/vllm/config/lora.py
index 2f9d638542b65..84e92eef40077 100644
--- a/vllm/config/lora.py
+++ b/vllm/config/lora.py
@@ -9,7 +9,6 @@ from pydantic import ConfigDict, Field, model_validator
 from pydantic.dataclasses import dataclass
 from typing_extensions import Self
 
-import vllm.envs as envs
 from vllm.config.utils import config
 from vllm.logger import init_logger
 from vllm.platforms import current_platform
@@ -106,10 +105,6 @@ class LoRAConfig:
 
         return self
 
-    def verify_with_cache_config(self, cache_config: CacheConfig):
-        if cache_config.cpu_offload_gb > 0 and not envs.VLLM_USE_V1:
-            raise ValueError("V0 LoRA does not support CPU offload, please use V1.")
-
     def verify_with_model_config(self, model_config: ModelConfig):
         if self.lora_dtype in (None, "auto"):
             self.lora_dtype = model_config.dtype
diff --git a/vllm/config/model.py b/vllm/config/model.py
index e22c218c769da..2151939d5a9f6 100644
--- a/vllm/config/model.py
+++ b/vllm/config/model.py
@@ -32,7 +32,6 @@ from vllm.transformers_utils.config import (
     get_pooling_config,
     get_sentence_transformer_tokenizer_config,
     is_encoder_decoder,
-    is_interleaved,
     try_get_dense_modules,
     try_get_generation_config,
     try_get_safetensors_metadata,
@@ -442,15 +441,12 @@ class ModelConfig:
             self.enforce_eager = True
 
         # Set the default seed to 0 in V1.
-        # NOTE(woosuk): In V0, we set the default seed to None because the
-        # driver worker shares the same process as the user process, and thus
-        # setting a seed affects the user process as well.
-        # In V1, we use separate processes for workers (unless
+        # NOTE(woosuk): In V1, we use separate processes for workers (unless
         # VLLM_ENABLE_V1_MULTIPROCESSING=0), so setting a seed here
         # doesn't affect the user process. However, without a consistent seed,
         # different tensor parallel workers would sample different tokens,
         # leading to inconsistent results.
-        if envs.VLLM_USE_V1 and self.seed is None:
+        if self.seed is None:
             self.seed = 0
             if not envs.VLLM_ENABLE_V1_MULTIPROCESSING:
                 logger.warning(
@@ -703,23 +699,6 @@ class ModelConfig:
             revision=self.revision,
         )
 
-        # Interleaved attention is not supported by some backends in V0
-        if (
-            not self.disable_sliding_window
-            and is_interleaved(self.hf_text_config)
-            and not envs.VLLM_USE_V1
-            and (backend := envs.VLLM_ATTENTION_BACKEND) in ("XFORMERS", "FLASHINFER")
-        ):
-            logger.warning_once(
-                "%s has interleaved attention, which is currently not "
-                "supported by the %s backend. Disabling sliding window and "
-                "capping the max length to the sliding window size (%d).",
-                self.hf_text_config.model_type,
-                backend,
-                self.hf_text_config.sliding_window,
-            )
-            self.disable_sliding_window = True
-
         self.original_max_model_len = self.max_model_len
         self.max_model_len = self.get_and_verify_max_len(self.max_model_len)
         # Init multimodal config if needed
diff --git a/vllm/config/speculative.py b/vllm/config/speculative.py
index 4c7b7369ed4b5..903b9a26fab88 100644
--- a/vllm/config/speculative.py
+++ b/vllm/config/speculative.py
@@ -9,7 +9,6 @@ from pydantic import Field, SkipValidation, model_validator
 from pydantic.dataclasses import dataclass
 from typing_extensions import Self
 
-import vllm.envs as envs
 from vllm.config.parallel import ParallelConfig
 from vllm.config.utils import config
 from vllm.logger import init_logger
@@ -366,12 +365,6 @@ class SpeculativeConfig:
 
                 # Replace hf_config for EAGLE draft_model
                 if self.method in ("eagle", "eagle3"):
-                    if self.enable_chunked_prefill and not envs.VLLM_USE_V1:
-                        raise ValueError(
-                            "Chunked prefill and EAGLE are not compatible "
-                            "when using V0."
-                        )
-
                     from vllm.transformers_utils.configs import SpeculatorsConfig
                     from vllm.transformers_utils.configs.eagle import EAGLEConfig
 
diff --git a/vllm/config/vllm.py b/vllm/config/vllm.py
index c46f409edab61..f592a708a02b5 100644
--- a/vllm/config/vllm.py
+++ b/vllm/config/vllm.py
@@ -130,7 +130,6 @@ class VllmConfig:
         from vllm import __version__
 
         vllm_factors.append(__version__)
-        vllm_factors.append(envs.VLLM_USE_V1)
         if self.model_config:
             vllm_factors.append(self.model_config.compute_hash())
         else:
@@ -306,7 +305,6 @@ class VllmConfig:
         self.cache_config.verify_with_parallel_config(self.parallel_config)
 
         if self.lora_config is not None:
-            self.lora_config.verify_with_cache_config(self.cache_config)
             self.lora_config.verify_with_model_config(self.model_config)
 
         if self.quant_config is None and self.model_config is not None:
@@ -332,18 +330,9 @@ class VllmConfig:
         # we use the default mode. The default mode depends on other
         # settings (see the below code).
         if self.compilation_config.mode is None:
-            if envs.VLLM_USE_V1:
-                if (
-                    self.model_config is not None
-                    and not self.model_config.enforce_eager
-                ):
-                    self.compilation_config.mode = CompilationMode.VLLM_COMPILE
-                else:
-                    self.compilation_config.mode = CompilationMode.NONE
-
+            if self.model_config is not None and not self.model_config.enforce_eager:
+                self.compilation_config.mode = CompilationMode.VLLM_COMPILE
             else:
-                # NB: Passing both --enforce-eager and a compilation mode
-                # in V0 means the compilation mode wins out.
                 self.compilation_config.mode = CompilationMode.NONE
         else:
             assert self.compilation_config.mode >= CompilationMode.NONE
@@ -371,10 +360,7 @@ class VllmConfig:
             # if cudagraph_mode is not explicitly set by users, set default
             # value
             if self.compilation_config.cudagraph_mode is None:
-                if (
-                    envs.VLLM_USE_V1
-                    and self.compilation_config.mode == CompilationMode.VLLM_COMPILE
-                ):
+                if self.compilation_config.mode == CompilationMode.VLLM_COMPILE:
                     # default to full and piecewise for most models
                     self.compilation_config.cudagraph_mode = (
                         CUDAGraphMode.FULL_AND_PIECEWISE
@@ -428,7 +414,7 @@ class VllmConfig:
                 # override related settings when enforce eager
                 self.compilation_config.max_cudagraph_capture_size = 0
                 self.compilation_config.cudagraph_capture_sizes = []
-            elif envs.VLLM_USE_V1:
+            else:
                 self.compilation_config.cudagraph_num_of_warmups = 1
 
             self._set_cudagraph_sizes()
@@ -535,14 +521,11 @@ class VllmConfig:
         current_platform.check_and_update_config(self)
 
         # Do this after all the updates to compilation_config.mode
-        if (
-            envs.VLLM_USE_V1
-            and self.compilation_config.mode == CompilationMode.VLLM_COMPILE
-        ):
+        if self.compilation_config.mode == CompilationMode.VLLM_COMPILE:
             self.compilation_config.set_splitting_ops_for_v1()
 
         # final check of cudagraph mode after all possible updates
-        if envs.VLLM_USE_V1 and current_platform.is_cuda_alike():
+        if current_platform.is_cuda_alike():
             if (
                 self.compilation_config.cudagraph_mode.has_full_cudagraphs()
                 and self.model_config is not None
@@ -587,10 +570,7 @@ class VllmConfig:
         if not self.instance_id:
             self.instance_id = random_uuid()[:5]
 
-        if (
-            envs.VLLM_USE_V1
-            and not self.scheduler_config.disable_hybrid_kv_cache_manager
-        ):
+        if not self.scheduler_config.disable_hybrid_kv_cache_manager:
             # logger should only print warning message for hybrid models. As we
             # can't know whether the model is hybrid or not now, so we don't log
             # warning message here and will log it later.

From c7d2a554baf8694503e6865b5df300650b6c6b6b Mon Sep 17 00:00:00 2001
From: Huamin Li <3ericli@gmail.com>
Date: Thu, 30 Oct 2025 03:13:03 -0700
Subject: [PATCH 016/976] [CI Failure] fix test_default_mm_loras (#27795)

Signed-off-by: Huamin Li <3ericli@gmail.com>
---
 tests/lora/test_default_mm_loras.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/tests/lora/test_default_mm_loras.py b/tests/lora/test_default_mm_loras.py
index 1a5b9ba3641d3..dfc45e78e464f 100644
--- a/tests/lora/test_default_mm_loras.py
+++ b/tests/lora/test_default_mm_loras.py
@@ -30,7 +30,8 @@ VLLM_RUNNER_BASE_KWARGS = {
     "enable_lora": "True",
     "max_num_seqs": 2,
     "max_lora_rank": 320,
-    "max_model_len": 12800,
+    # Keep these LoRA tests on short-RoPE for determinism post-LongRoPE change.
+    "max_model_len": 4096,
     "gpu_memory_utilization": 0.8,
     "limit_mm_per_prompt": {"audio": 1},
     "enforce_eager": True,

From c01f6e525f457133cfb00127a89c09e5247e563c Mon Sep 17 00:00:00 2001
From: Wentao Ye <44945378+yewentao256@users.noreply.github.com>
Date: Thu, 30 Oct 2025 07:32:17 -0400
Subject: [PATCH 017/976] [CI] Fix mypy for `vllm/v1/core` and `vllm/v1/engine`
 (#27108)

Signed-off-by: yewentao256 <zhyanwentao@126.com>
---
 tools/pre_commit/mypy.py            | 14 +++++++++++-
 vllm/config/vllm.py                 |  9 ++++----
 vllm/engine/protocol.py             |  1 +
 vllm/v1/core/sched/scheduler.py     | 16 ++++++++------
 vllm/v1/engine/async_llm.py         | 21 +++++++++++-------
 vllm/v1/engine/core.py              |  1 +
 vllm/v1/engine/core_client.py       | 14 ++++++------
 vllm/v1/engine/detokenizer.py       | 13 +++++++++---
 vllm/v1/engine/llm_engine.py        | 16 ++++++++------
 vllm/v1/engine/output_processor.py  | 10 +++++++--
 vllm/v1/engine/parallel_sampling.py |  4 ++--
 vllm/v1/engine/processor.py         | 33 ++++++++++++-----------------
 12 files changed, 91 insertions(+), 61 deletions(-)

diff --git a/tools/pre_commit/mypy.py b/tools/pre_commit/mypy.py
index a3aa546347255..8d04848f8f780 100755
--- a/tools/pre_commit/mypy.py
+++ b/tools/pre_commit/mypy.py
@@ -36,12 +36,15 @@ FILES = [
     "vllm/transformers_utils",
     "vllm/triton_utils",
     "vllm/usage",
+    "vllm/v1/core",
+    "vllm/v1/engine",
 ]
 
 # After fixing errors resulting from changing follow_imports
 # from "skip" to "silent", move the following directories to FILES
 SEPARATE_GROUPS = [
     "tests",
+    # v0 related
     "vllm/attention",
     "vllm/compilation",
     "vllm/engine",
@@ -50,7 +53,16 @@ SEPARATE_GROUPS = [
     "vllm/model_executor",
     "vllm/plugins",
     "vllm/worker",
-    "vllm/v1",
+    # v1 related
+    "vllm/v1/attention",
+    "vllm/v1/executor",
+    "vllm/v1/kv_offload",
+    "vllm/v1/metrics",
+    "vllm/v1/pool",
+    "vllm/v1/sample",
+    "vllm/v1/spec_decode",
+    "vllm/v1/structured_output",
+    "vllm/v1/worker",
 ]
 
 # TODO(woosuk): Include the code from Megatron and HuggingFace.
diff --git a/vllm/config/vllm.py b/vllm/config/vllm.py
index f592a708a02b5..1acac70c32b03 100644
--- a/vllm/config/vllm.py
+++ b/vllm/config/vllm.py
@@ -84,7 +84,9 @@ class VllmConfig:
         default_factory=StructuredOutputsConfig
     )
     """Structured outputs configuration."""
-    observability_config: ObservabilityConfig | None = None
+    observability_config: ObservabilityConfig = Field(
+        default_factory=ObservabilityConfig
+    )
     """Observability configuration."""
     quant_config: QuantizationConfig | None = None
     """Quantization configuration."""
@@ -170,10 +172,7 @@ class VllmConfig:
             vllm_factors.append(self.structured_outputs_config.compute_hash())
         else:
             vllm_factors.append("None")
-        if self.observability_config:
-            vllm_factors.append(self.observability_config.compute_hash())
-        else:
-            vllm_factors.append("None")
+        vllm_factors.append(self.observability_config.compute_hash())
         if self.quant_config:
             pass  # should be captured by model_config.quantization
         if self.compilation_config:
diff --git a/vllm/engine/protocol.py b/vllm/engine/protocol.py
index 959a0342817c2..24fcd9fe1cab9 100644
--- a/vllm/engine/protocol.py
+++ b/vllm/engine/protocol.py
@@ -77,6 +77,7 @@ class EngineClient(ABC):
         lora_request: LoRARequest | None = None,
         trace_headers: Mapping[str, str] | None = None,
         priority: int = 0,
+        truncate_prompt_tokens: int | None = None,
         tokenization_kwargs: dict[str, Any] | None = None,
     ) -> AsyncGenerator[PoolingRequestOutput, None]:
         """Generate outputs for a request from a pooling model."""
diff --git a/vllm/v1/core/sched/scheduler.py b/vllm/v1/core/sched/scheduler.py
index c794886bc24c8..ad6fbee2ec083 100644
--- a/vllm/v1/core/sched/scheduler.py
+++ b/vllm/v1/core/sched/scheduler.py
@@ -167,7 +167,7 @@ class Scheduler(SchedulerInterface):
         self.kv_cache_manager = KVCacheManager(
             kv_cache_config=kv_cache_config,
             max_model_len=self.max_model_len,
-            enable_caching=self.cache_config.enable_prefix_caching,
+            enable_caching=bool(self.cache_config.enable_prefix_caching),
             use_eagle=self.use_eagle,
             log_stats=self.log_stats,
             enable_kv_cache_events=self.enable_kv_cache_events,
@@ -407,13 +407,13 @@ class Scheduler(SchedulerInterface):
 
                     # Get externally-cached tokens if using a KVConnector.
                     if self.connector is not None:
-                        num_external_computed_tokens, load_kv_async = (
+                        ext_tokens, load_kv_async = (
                             self.connector.get_num_new_matched_tokens(
                                 request, num_new_local_computed_tokens
                             )
                         )
 
-                        if num_external_computed_tokens is None:
+                        if ext_tokens is None:
                             # The request cannot be scheduled because
                             # the KVConnector couldn't determine
                             # the number of matched tokens.
@@ -421,6 +421,8 @@ class Scheduler(SchedulerInterface):
                             skipped_waiting_requests.prepend_request(request)
                             continue
 
+                        num_external_computed_tokens = ext_tokens
+
                     # Total computed tokens (local + external).
                     num_computed_tokens = (
                         num_new_local_computed_tokens + num_external_computed_tokens
@@ -905,13 +907,13 @@ class Scheduler(SchedulerInterface):
 
         outputs: dict[int, list[EngineCoreOutput]] = defaultdict(list)
         spec_decoding_stats: SpecDecodingStats | None = None
-        kv_connector_stats = (
+        kv_connector_stats: KVConnectorStats | None = (
             kv_connector_output.kv_connector_stats if kv_connector_output else None
         )
         if kv_connector_stats and self.connector:
-            stats = self.connector.get_kv_connector_stats()
-            if stats:
-                kv_connector_stats = kv_connector_stats.aggregate(stats)
+            kv_stats = self.connector.get_kv_connector_stats()
+            if kv_stats:
+                kv_connector_stats = kv_connector_stats.aggregate(kv_stats)
 
         failed_kv_load_req_ids = None
         if kv_connector_output and kv_connector_output.invalid_block_ids:
diff --git a/vllm/v1/engine/async_llm.py b/vllm/v1/engine/async_llm.py
index 761c37504d80a..dc61d45015682 100644
--- a/vllm/v1/engine/async_llm.py
+++ b/vllm/v1/engine/async_llm.py
@@ -6,7 +6,7 @@ import socket
 import time
 from collections.abc import AsyncGenerator, Iterable, Mapping
 from copy import copy
-from typing import Any
+from typing import Any, cast
 
 import numpy as np
 import torch
@@ -131,10 +131,9 @@ class AsyncLLM(EngineClient):
         self.output_processor = OutputProcessor(
             self.tokenizer, log_stats=self.log_stats
         )
-        if self.observability_config.otlp_traces_endpoint is not None:
-            tracer = init_tracer(
-                "vllm.llm_engine", self.observability_config.otlp_traces_endpoint
-            )
+        endpoint = self.observability_config.otlp_traces_endpoint
+        if endpoint is not None:
+            tracer = init_tracer("vllm.llm_engine", endpoint)
             self.output_processor.tracer = tracer
 
         # EngineCore (starts the engine in background process).
@@ -266,7 +265,9 @@ class AsyncLLM(EngineClient):
         if engine_core := getattr(self, "engine_core", None):
             engine_core.shutdown()
 
-        cancel_task_threadsafe(getattr(self, "output_handler", None))
+        handler = getattr(self, "output_handler", None)
+        if handler is not None:
+            cancel_task_threadsafe(handler)
 
     async def get_supported_tasks(self) -> tuple[SupportedTask, ...]:
         return await self.engine_core.get_supported_tasks_async()
@@ -314,7 +315,10 @@ class AsyncLLM(EngineClient):
                 priority,
                 data_parallel_rank,
             )
-            prompt_text = prompt if isinstance(prompt, str) else prompt.get("prompt")
+            if isinstance(prompt, str):
+                prompt_text = prompt
+            elif isinstance(prompt, Mapping):
+                prompt_text = cast(str | None, prompt.get("prompt"))
 
         if is_pooling or params.n == 1:
             await self._add_request(request, prompt_text, None, 0, queue)
@@ -436,6 +440,7 @@ class AsyncLLM(EngineClient):
                 # Note: both OutputProcessor and EngineCore handle their
                 # own request cleanup based on finished.
                 finished = out.finished
+                assert isinstance(out, RequestOutput)
                 yield out
 
         # If the request is disconnected by the client, generate()
@@ -653,7 +658,7 @@ class AsyncLLM(EngineClient):
         return self.tokenizer
 
     async def is_tracing_enabled(self) -> bool:
-        return self.observability_config.otlp_traces_endpoint is not None
+        return self.observability_config.otlp_traces_endpoint is not None  # type: ignore
 
     async def do_log_stats(self) -> None:
         if self.logger_manager:
diff --git a/vllm/v1/engine/core.py b/vllm/v1/engine/core.py
index 85cab32ebfb85..6cbd986b3cd32 100644
--- a/vllm/v1/engine/core.py
+++ b/vllm/v1/engine/core.py
@@ -1075,6 +1075,7 @@ class DPEngineCoreProc(EngineCoreProc):
         local_dp_rank = vllm_config.parallel_config.data_parallel_rank_local
 
         assert dp_size > 1
+        assert local_dp_rank is not None
         assert 0 <= local_dp_rank <= dp_rank < dp_size
 
         if vllm_config.kv_transfer_config is not None:
diff --git a/vllm/v1/engine/core_client.py b/vllm/v1/engine/core_client.py
index 7b554ca991b9b..9b440505bd9dc 100644
--- a/vllm/v1/engine/core_client.py
+++ b/vllm/v1/engine/core_client.py
@@ -385,10 +385,11 @@ class BackgroundResources:
                         with contextlib.suppress(Exception):
                             task.cancel()
 
-            if in_loop(loop):
-                close_sockets_and_tasks()
-            elif loop and not loop.is_closed():
-                loop.call_soon_threadsafe(close_sockets_and_tasks)
+            if loop is not None:
+                if in_loop(loop):
+                    close_sockets_and_tasks()
+                elif not loop.is_closed():
+                    loop.call_soon_threadsafe(close_sockets_and_tasks)
             else:
                 # Loop has been closed, try to clean up directly.
                 del tasks
@@ -1044,6 +1045,7 @@ class DPAsyncMPClient(AsyncMPClient):
             return
 
         assert self.stats_update_address is not None
+        stats_addr: str = self.stats_update_address
         assert len(self.engine_ranks_managed) > 0
         # NOTE: running and waiting counts are all global from
         # the Coordinator include all global EngineCores. This
@@ -1054,9 +1056,7 @@ class DPAsyncMPClient(AsyncMPClient):
 
         async def run_engine_stats_update_task():
             with (
-                make_zmq_socket(
-                    self.ctx, self.stats_update_address, zmq.XSUB, linger=0
-                ) as socket,
+                make_zmq_socket(self.ctx, stats_addr, zmq.XSUB, linger=0) as socket,
                 make_zmq_socket(
                     self.ctx, self.first_req_sock_addr, zmq.PAIR, bind=False, linger=0
                 ) as first_req_rcv_socket,
diff --git a/vllm/v1/engine/detokenizer.py b/vllm/v1/engine/detokenizer.py
index 5f66e36893bf3..b7a24096bf15f 100644
--- a/vllm/v1/engine/detokenizer.py
+++ b/vllm/v1/engine/detokenizer.py
@@ -69,14 +69,21 @@ class BaseIncrementalDetokenizer(IncrementalDetokenizer, ABC):
         # Stop strings
         params = request.sampling_params
         assert params is not None
-        self.stop = stop = params.stop
+        stop_list: list[str]
+        if params.stop is None:
+            stop_list = []
+        elif isinstance(params.stop, str):
+            stop_list = [params.stop]
+        else:
+            stop_list = params.stop
+        self.stop = stop_list
         self.min_tokens = params.min_tokens
         self.include_stop_str_in_output = params.include_stop_str_in_output
 
         # Number of chars to hold back when stop strings are to be excluded
         # from streamed output.
-        if stop and not self.include_stop_str_in_output:
-            self.stop_buffer_length = max(len(s) for s in stop) - 1
+        if self.stop and not self.include_stop_str_in_output:
+            self.stop_buffer_length = max(len(s) for s in self.stop) - 1
         else:
             self.stop_buffer_length = 0
         self._last_output_text_offset: int = 0
diff --git a/vllm/v1/engine/llm_engine.py b/vllm/v1/engine/llm_engine.py
index 0fce343702e0a..c2ca9579d55ea 100644
--- a/vllm/v1/engine/llm_engine.py
+++ b/vllm/v1/engine/llm_engine.py
@@ -4,7 +4,7 @@
 import time
 from collections.abc import Callable, Mapping
 from copy import copy
-from typing import Any
+from typing import Any, cast
 
 import torch.nn as nn
 from typing_extensions import TypeVar
@@ -112,10 +112,9 @@ class LLMEngine:
         self.output_processor = OutputProcessor(
             self.tokenizer, log_stats=self.log_stats
         )
-        if self.observability_config.otlp_traces_endpoint is not None:
-            tracer = init_tracer(
-                "vllm.llm_engine", self.observability_config.otlp_traces_endpoint
-            )
+        endpoint = self.observability_config.otlp_traces_endpoint
+        if endpoint is not None:
+            tracer = init_tracer("vllm.llm_engine", endpoint)
             self.output_processor.tracer = tracer
 
         # EngineCore (gets EngineCoreRequests and gives EngineCoreOutputs)
@@ -259,7 +258,10 @@ class LLMEngine:
                 trace_headers,
                 priority,
             )
-            prompt_text = prompt if isinstance(prompt, str) else prompt.get("prompt")
+            if isinstance(prompt, str):
+                prompt_text = prompt
+            elif isinstance(prompt, Mapping):
+                prompt_text = cast(str | None, prompt.get("prompt"))
 
         n = params.n if isinstance(params, SamplingParams) else 1
 
@@ -285,7 +287,7 @@ class LLMEngine:
             # Add the request to EngineCore.
             self.engine_core.add_request(child_request)
 
-    def step(self) -> list[RequestOutput] | list[PoolingRequestOutput]:
+    def step(self) -> list[RequestOutput | PoolingRequestOutput]:
         if self.should_execute_dummy_batch:
             self.should_execute_dummy_batch = False
             self.engine_core.execute_dummy_batch()
diff --git a/vllm/v1/engine/output_processor.py b/vllm/v1/engine/output_processor.py
index 44e4eadce42ac..07c8113dd9b33 100644
--- a/vllm/v1/engine/output_processor.py
+++ b/vllm/v1/engine/output_processor.py
@@ -44,10 +44,16 @@ class RequestOutputCollector:
         if self.output is None or isinstance(output, Exception):
             self.output = output
             self.ready.set()
-        elif isinstance(self.output, (RequestOutput, PoolingRequestOutput)):
+        elif isinstance(self.output, RequestOutput) and isinstance(
+            output, RequestOutput
+        ):
             # This ensures that request outputs with different request indexes
             # (if n > 1) do not override each other.
             self.output.add(output, aggregate=self.aggregate)
+        elif isinstance(self.output, PoolingRequestOutput) and isinstance(
+            output, PoolingRequestOutput
+        ):
+            self.output = output
 
     async def get(self) -> RequestOutput | PoolingRequestOutput:
         """Get operation blocks on put event."""
@@ -408,7 +414,7 @@ class OutputProcessor:
         within the loop below.
         """
 
-        request_outputs: list[RequestOutput] | list[PoolingRequestOutput] = []
+        request_outputs: list[RequestOutput | PoolingRequestOutput] = []
         reqs_to_abort: list[str] = []
         for engine_core_output in engine_core_outputs:
             req_id = engine_core_output.request_id
diff --git a/vllm/v1/engine/parallel_sampling.py b/vllm/v1/engine/parallel_sampling.py
index 2a47befec25f1..26ee10d2b9bbf 100644
--- a/vllm/v1/engine/parallel_sampling.py
+++ b/vllm/v1/engine/parallel_sampling.py
@@ -2,7 +2,7 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
 from copy import copy
-from typing import Optional
+from typing import Optional, cast
 
 from vllm.outputs import CompletionOutput
 from vllm.sampling_params import RequestOutputKind, SamplingParams
@@ -37,7 +37,7 @@ class ParentRequest:
 
         self.child_requests = set()
         self.output_aggregator = (
-            [None] * sampling_params.n
+            [cast(CompletionOutput, None)] * sampling_params.n
             if (sampling_params.output_kind == RequestOutputKind.FINAL_ONLY)
             else []
         )
diff --git a/vllm/v1/engine/processor.py b/vllm/v1/engine/processor.py
index de15677aeea91..c49fd1bde8b98 100644
--- a/vllm/v1/engine/processor.py
+++ b/vllm/v1/engine/processor.py
@@ -3,7 +3,7 @@
 
 import time
 from collections.abc import Mapping
-from typing import Any, Literal
+from typing import Any, Literal, cast
 
 from vllm.config import VllmConfig
 from vllm.inputs import ProcessorInputs, PromptType, SingletonInputs
@@ -208,9 +208,9 @@ class Processor:
             enc = prompt.get("encoder_prompt")
             dec = prompt.get("decoder_prompt")
             if enc is not None:
-                _validate_single_prompt(enc)
+                _validate_single_prompt(cast(dict | str, enc))
             if dec is not None:
-                _validate_single_prompt(dec)
+                _validate_single_prompt(cast(dict | str, dec))
         else:
             _validate_single_prompt(prompt)  # type: ignore[arg-type]
 
@@ -332,7 +332,7 @@ class Processor:
         if not mm_data:
             return None
 
-        mm_uuids: MultiModalUUIDDict = {}
+        mm_uuids: dict[str, list[str | None] | str] = {}
         for modality, data in mm_data.items():
             n = len(data) if isinstance(data, list) else 1
             mm_uuids[modality] = [f"{request_id}-{modality}-{i}" for i in range(n)]
@@ -384,7 +384,9 @@ class Processor:
             # if provided.
             self._validate_multi_modal_uuids(prompt)
             if isinstance(prompt, dict):
-                mm_uuids = prompt.get("multi_modal_uuids")
+                mm_uuids = cast(
+                    MultiModalUUIDDict | None, prompt.get("multi_modal_uuids")
+                )
             else:
                 mm_uuids = None
 
@@ -410,20 +412,13 @@ class Processor:
         encoder_inputs, decoder_inputs = split_enc_dec_inputs(processed_inputs)
         self._validate_model_inputs(encoder_inputs, decoder_inputs)
 
-        # Mypy does not always properly infer the types of some elements of
-        # discriminated unions of TypedDicts, because of how it handles
-        # inheritance of TypedDict. If we explicitly extract the items we want
-        # we can avoid type errors from using `dict.get` later in the method.
-        prompt_token_ids = (
-            decoder_inputs["prompt_token_ids"]
-            if decoder_inputs["type"] != "embeds"
-            else None
-        )
-        prompt_embeds = (
-            decoder_inputs["prompt_embeds"]
-            if decoder_inputs["type"] == "embeds"
-            else None
-        )
+        # Mypy can be conservative for TypedDict unions; normalize access.
+        if decoder_inputs["type"] == "embeds":
+            prompt_token_ids = None
+            prompt_embeds = decoder_inputs["prompt_embeds"]
+        else:
+            prompt_token_ids = decoder_inputs["prompt_token_ids"]
+            prompt_embeds = None
 
         sampling_params = None
         pooling_params = None

From 74374386e27f9e7a056a37960d5e996093e45ac4 Mon Sep 17 00:00:00 2001
From: Sairam Pillai <sairam.pillai61@gmail.com>
Date: Thu, 30 Oct 2025 17:27:59 +0530
Subject: [PATCH 018/976] [Bugfix] Improve GPU validation logging in Ray
 fallback scenarios (#25775)

Signed-off-by: Sairam Pillai <sairam.pillai61@gmail.com>
---
 vllm/config/parallel.py       | 14 ++++------
 vllm/v1/executor/ray_utils.py | 50 ++++++++++++++++++++++++++++++-----
 2 files changed, 49 insertions(+), 15 deletions(-)

diff --git a/vllm/config/parallel.py b/vllm/config/parallel.py
index e8847354bb092..82d575f24690d 100644
--- a/vllm/config/parallel.py
+++ b/vllm/config/parallel.py
@@ -521,15 +521,11 @@ class ParallelConfig:
                 current_platform.is_cuda()
                 and cuda_device_count_stateless() < self.world_size
             ):
-                if not ray_found:
-                    raise ValueError(
-                        "Unable to load Ray: "
-                        f"{ray_utils.ray_import_err}. Ray is "
-                        "required for multi-node inference, "
-                        "please install Ray with `pip install "
-                        "ray`."
-                    )
-                backend = "ray"
+                gpu_count = cuda_device_count_stateless()
+                raise ValueError(
+                    f"Tensor parallel size ({self.world_size}) cannot be "
+                    f"larger than the number of available GPUs ({gpu_count})."
+                )
             elif self.data_parallel_backend == "ray":
                 logger.info(
                     "Using ray distributed inference because "
diff --git a/vllm/v1/executor/ray_utils.py b/vllm/v1/executor/ray_utils.py
index 518f1582faeb0..382f008266e62 100644
--- a/vllm/v1/executor/ray_utils.py
+++ b/vllm/v1/executor/ray_utils.py
@@ -255,12 +255,33 @@ def _wait_until_pg_ready(current_placement_group: "PlacementGroup"):
     try:
         ray.get(pg_ready_ref, timeout=0)
     except ray.exceptions.GetTimeoutError:
-        raise ValueError(
-            "Cannot provide a placement group of "
-            f"{placement_group_specs=} within {PG_WAIT_TIMEOUT} seconds. See "
-            "`ray status` and `ray list nodes` to make sure the cluster has "
-            "enough resources."
-        ) from None
+        # Provide more helpful error message when GPU count is exceeded
+        total_gpu_required = sum(spec.get("GPU", 0) for spec in placement_group_specs)
+        # If more than one GPU is required for the placement group, provide a
+        # more specific error message.
+        # We use >1 here because multi-GPU (tensor parallel) jobs are more
+        # likely to fail due to insufficient cluster resources, and users may
+        # need to adjust tensor_parallel_size to fit available GPUs.
+        if total_gpu_required > 1:
+            raise ValueError(
+                f"Cannot provide a placement group requiring "
+                f"{total_gpu_required} GPUs "
+                f"(placement_group_specs={placement_group_specs}) within "
+                f"{PG_WAIT_TIMEOUT} seconds.\n"
+                f"Tensor parallel size may exceed available GPUs in your "
+                f"cluster. Check resources with `ray status` and "
+                f"`ray list nodes`.\n"
+                f"If running on K8s with limited GPUs, consider reducing "
+                f"--tensor-parallel-size to match available GPU resources."
+            ) from None
+        else:
+            raise ValueError(
+                "Cannot provide a placement group of "
+                f"{placement_group_specs=} within "
+                f"{PG_WAIT_TIMEOUT} seconds. See "
+                "`ray status` and `ray list nodes` to make sure the cluster "
+                "has enough resources."
+            ) from None
 
 
 def _wait_until_pg_removed(current_placement_group: "PlacementGroup"):
@@ -299,6 +320,23 @@ def initialize_ray_cluster(
     assert_ray_available()
     from vllm.platforms import current_platform
 
+    # Prevalidate GPU requirements before Ray processing
+    if current_platform.is_cuda() and parallel_config.world_size > 1:
+        from vllm.utils import cuda_device_count_stateless
+
+        available_gpus = cuda_device_count_stateless()
+        if parallel_config.world_size > available_gpus:
+            logger.warning(
+                "Tensor parallel size (%d) exceeds available GPUs (%d). "
+                "This may result in Ray placement group allocation failures. "
+                "Consider reducing tensor_parallel_size to %d or less, "
+                "or ensure your Ray cluster has %d GPUs available.",
+                parallel_config.world_size,
+                available_gpus,
+                available_gpus,
+                parallel_config.world_size,
+            )
+
     if ray.is_initialized():
         logger.info("Ray is already initialized. Skipping Ray initialization.")
     elif current_platform.is_rocm() or current_platform.is_xpu():

From 4464723f220a74785cd1971cf62a04e3961c2846 Mon Sep 17 00:00:00 2001
From: "wang.yuqi" <noooop@126.com>
Date: Thu, 30 Oct 2025 20:13:05 +0800
Subject: [PATCH 019/976] [Frontend][Doc][5/N] Improve all pooling task |
 Polish encode (pooling) api & Document. (#25524)

Signed-off-by: wang.yuqi <noooop@126.com>
Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com>
---
 docs/design/io_processor_plugins.md           |   2 +-
 docs/models/pooling_models.md                 |  83 +++++++++++---
 docs/serving/openai_compatible_server.md      |   4 +-
 examples/offline_inference/pooling/README.md  |  12 ++
 examples/offline_inference/pooling/ner.py     |   2 +-
 .../{ => pooling}/prithvi_geospatial_mae.py   |   0
 .../prithvi_geospatial_mae_io_processor.py    |   0
 examples/online_serving/pooling/README.md     |  40 ++++++-
 .../openai_cross_encoder_score.py             |   0
 ...enai_cross_encoder_score_for_multimodal.py |   0
 .../{ => pooling}/prithvi_geospatial_mae.py   |   0
 .../entrypoints/pooling/llm/test_classify.py  |  12 +-
 tests/entrypoints/pooling/llm/test_reward.py  |  12 +-
 tests/entrypoints/pooling/llm/test_score.py   |  10 +-
 .../pooling/openai/test_classification.py     |  92 +++++++++++----
 .../pooling/openai/test_embedding.py          |  53 ++++++++-
 .../entrypoints/pooling/openai/test_rerank.py |  53 +++++++--
 .../entrypoints/pooling/openai/test_score.py  |  16 +--
 .../test_pooler_config_init_behaviour.py      |   8 +-
 tests/test_pooling_params.py                  |  14 +--
 vllm/config/pooler.py                         |  38 +++++-
 vllm/entrypoints/openai/api_server.py         |   8 +-
 vllm/entrypoints/openai/protocol.py           | 108 ++++++++++++++++--
 vllm/entrypoints/openai/serving_pooling.py    |  23 ++--
 vllm/model_executor/layers/pooler.py          |   4 +-
 vllm/model_executor/models/config.py          |   4 +-
 vllm/pooling_params.py                        |  32 +++---
 27 files changed, 499 insertions(+), 131 deletions(-)
 rename examples/offline_inference/{ => pooling}/prithvi_geospatial_mae.py (100%)
 rename examples/offline_inference/{ => pooling}/prithvi_geospatial_mae_io_processor.py (100%)
 rename examples/online_serving/{ => pooling}/openai_cross_encoder_score.py (100%)
 rename examples/online_serving/{ => pooling}/openai_cross_encoder_score_for_multimodal.py (100%)
 rename examples/online_serving/{ => pooling}/prithvi_geospatial_mae.py (100%)

diff --git a/docs/design/io_processor_plugins.md b/docs/design/io_processor_plugins.md
index fb64a7bb9c8f1..2f4b17f191a5d 100644
--- a/docs/design/io_processor_plugins.md
+++ b/docs/design/io_processor_plugins.md
@@ -79,7 +79,7 @@ The `post_process*` methods take `PoolingRequestOutput` objects as input and gen
 The `validate_or_generate_params` method is used for validating with the plugin any `SamplingParameters`/`PoolingParameters` received with the user request, or to generate new ones if none are specified. The function always returns the validated/generated parameters.
 The `output_to_response` method is used only for online serving and converts the plugin output to the `IOProcessorResponse` type that is then returned by the API Server. The implementation of the `/pooling` serving endpoint is available here [vllm/entrypoints/openai/serving_pooling.py](../../vllm/entrypoints/openai/serving_pooling.py).
 
-An example implementation of a plugin that enables generating geotiff images with the PrithviGeospatialMAE model is available [here](https://github.com/IBM/terratorch/tree/main/terratorch/vllm/plugins/segmentation). Please, also refer to our online ([examples/online_serving/prithvi_geospatial_mae.py](../../examples/online_serving/prithvi_geospatial_mae.py)) and offline ([examples/offline_inference/prithvi_geospatial_mae_io_processor.py](../../examples/offline_inference/prithvi_geospatial_mae_io_processor.py)) inference examples.
+An example implementation of a plugin that enables generating geotiff images with the PrithviGeospatialMAE model is available [here](https://github.com/IBM/terratorch/tree/main/terratorch/vllm/plugins/segmentation). Please, also refer to our online ([examples/online_serving/pooling/prithvi_geospatial_mae.py](../../examples/online_serving/pooling/prithvi_geospatial_mae.py)) and offline ([examples/offline_inference/pooling/prithvi_geospatial_mae_io_processor.py](../../examples/offline_inference/pooling/prithvi_geospatial_mae_io_processor.py)) inference examples.
 
 ## Using an IO Processor plugin
 
diff --git a/docs/models/pooling_models.md b/docs/models/pooling_models.md
index 40651be1d4495..18bb645ea9a9c 100644
--- a/docs/models/pooling_models.md
+++ b/docs/models/pooling_models.md
@@ -30,11 +30,11 @@ If `--runner pooling` has been set (manually or automatically) but the model doe
 vLLM will attempt to automatically convert the model according to the architecture names
 shown in the table below.
 
-| Architecture                                    | `--convert` | Supported pooling tasks       |
-|-------------------------------------------------|-------------|-------------------------------|
-| `*ForTextEncoding`, `*EmbeddingModel`, `*Model` | `embed`     | `encode`, `embed`             |
-| `*For*Classification`, `*ClassificationModel`   | `classify`  | `encode`, `classify`, `score` |
-| `*ForRewardModeling`, `*RewardModel`            | `reward`    | `encode`                      |
+| Architecture                                    | `--convert` | Supported pooling tasks               |
+|-------------------------------------------------|-------------|---------------------------------------|
+| `*ForTextEncoding`, `*EmbeddingModel`, `*Model` | `embed`     | `token_embed`, `embed`                |
+| `*For*Classification`, `*ClassificationModel`   | `classify`  | `token_classify`, `classify`, `score` |
+| `*ForRewardModeling`, `*RewardModel`            | `reward`    | `token_classify`                      |
 
 !!! tip
     You can explicitly set `--convert <type>` to specify how to convert the model.
@@ -45,12 +45,14 @@ Each pooling model in vLLM supports one or more of these tasks according to
 [Pooler.get_supported_tasks][vllm.model_executor.layers.pooler.Pooler.get_supported_tasks],
 enabling the corresponding APIs:
 
-| Task       | APIs                                 |
-|------------|--------------------------------------|
-| `encode`   | `LLM.reward(...)`                    |
-| `embed`    | `LLM.embed(...)`, `LLM.score(...)`\* |
-| `classify` | `LLM.classify(...)`                  |
-| `score`    | `LLM.score(...)`                     |
+| Task             | APIs                                                                          |
+|------------------|-------------------------------------------------------------------------------|
+| `embed`          | `LLM.embed(...)`, `LLM.score(...)`\*, `LLM.encode(..., pooling_task="embed")` |
+| `classify`       | `LLM.classify(...)`, `LLM.encode(..., pooling_task="classify")`               |
+| `score`          | `LLM.score(...)`                                                              |
+| `token_classify` | `LLM.reward(...)`, `LLM.encode(..., pooling_task="token_classify")`           |
+| `token_embed`    | `LLM.encode(..., pooling_task="token_embed")`                                 |
+| `plugin`         | `LLM.encode(..., pooling_task="plugin")`                                      |
 
 \* The `LLM.score(...)` API falls back to `embed` task if the model does not support `score` task.
 
@@ -144,7 +146,6 @@ A code example can be found here: [examples/offline_inference/basic/score.py](..
 ### `LLM.reward`
 
 The [reward][vllm.LLM.reward] method is available to all reward models in vLLM.
-It returns the extracted hidden states directly.
 
 ```python
 from vllm import LLM
@@ -161,15 +162,17 @@ A code example can be found here: [examples/offline_inference/basic/reward.py](.
 ### `LLM.encode`
 
 The [encode][vllm.LLM.encode] method is available to all pooling models in vLLM.
-It returns the extracted hidden states directly.
 
 !!! note
     Please use one of the more specific methods or set the task directly when using `LLM.encode`:
 
     - For embeddings, use `LLM.embed(...)` or `pooling_task="embed"`.
     - For classification logits, use `LLM.classify(...)` or `pooling_task="classify"`.
-    - For rewards, use `LLM.reward(...)` or `pooling_task="reward"`.
     - For similarity scores, use `LLM.score(...)`.  
+    - For rewards, use `LLM.reward(...)` or `pooling_task="token_classify"`.
+    - For token classification, use `pooling_task="token_classify"`.
+    - For multi-vector retrieval, use `pooling_task="token_embed"`
+    - For IO Processor Plugins , use `pooling_task="plugin"`
 
 ```python
 from vllm import LLM
@@ -185,10 +188,47 @@ print(f"Data: {data!r}")
 
 Our [OpenAI-Compatible Server](../serving/openai_compatible_server.md) provides endpoints that correspond to the offline APIs:
 
-- [Pooling API](../serving/openai_compatible_server.md#pooling-api) is similar to `LLM.encode`, being applicable to all types of pooling models.
 - [Embeddings API](../serving/openai_compatible_server.md#embeddings-api) is similar to `LLM.embed`, accepting both text and [multi-modal inputs](../features/multimodal_inputs.md) for embedding models.
 - [Classification API](../serving/openai_compatible_server.md#classification-api) is similar to `LLM.classify` and is applicable to sequence classification models.
 - [Score API](../serving/openai_compatible_server.md#score-api) is similar to `LLM.score` for cross-encoder models.
+- [Pooling API](../serving/openai_compatible_server.md#pooling-api) is similar to `LLM.encode`, being applicable to all types of pooling models.
+
+!!! note
+    Please use one of the more specific methods or set the task directly when using  [Pooling API](../serving/openai_compatible_server.md#pooling-api) api.:
+
+    - For embeddings, use [Embeddings API](../serving/openai_compatible_server.md#embeddings-api) or `"task":"embed"`.
+    - For classification logits, use [Classification API](../serving/openai_compatible_server.md#classification-api) or `task":"classify"`.
+    - For similarity scores, use [Score API](../serving/openai_compatible_server.md#score-api).  
+    - For rewards, `task":"token_classify"`.
+    - For token classification, use `task":"token_classify"`.
+    - For multi-vector retrieval, use `task":"token_embed"`
+    - For IO Processor Plugins , use `task":"plugin"`
+
+```python
+# start a supported embeddings model server with `vllm serve`, e.g.
+# vllm serve intfloat/e5-small
+import requests
+
+host = "localhost"
+port = "8000"
+model_name = "intfloat/e5-small"
+
+api_url = f"http://{host}:{port}/pooling"
+
+prompts = [
+    "Hello, my name is",
+    "The president of the United States is",
+    "The capital of France is",
+    "The future of AI is",
+]
+prompt = {"model": model_name, "input": prompts, "task": "embed"}
+
+response = requests.post(api_url, json=prompt)
+
+for output in response.json()["data"]:
+    data = output["data"]
+    print(f"Data: {data!r} (size={len(data)})")
+```
 
 ## Matryoshka Embeddings
 
@@ -265,3 +305,16 @@ Expected output:
 ```
 
 An OpenAI client example can be found here: [examples/online_serving/pooling/openai_embedding_matryoshka_fy.py](../../examples/online_serving/pooling/openai_embedding_matryoshka_fy.py)
+
+## Deprecated Features
+
+### Encode task
+
+We have split the `encode` task into two more specific token wise tasks: `token_embed` and `token_classify`:
+
+- `token_embed` is the same as embed, using normalize as activation.
+- `token_classify` is the same as classify, default using softmax as activation.
+
+### Remove softmax from PoolingParams
+
+We are going to remove `softmax` and `activation` from `PoolingParams`. Instead, you should set `use_activation`, since we actually allow `classify` and `token_classify` to use any activation function.
diff --git a/docs/serving/openai_compatible_server.md b/docs/serving/openai_compatible_server.md
index 1414718a697d5..e331b3422ea64 100644
--- a/docs/serving/openai_compatible_server.md
+++ b/docs/serving/openai_compatible_server.md
@@ -638,7 +638,7 @@ Usually, the score for a sentence pair refers to the similarity between two sent
 
 You can find the documentation for cross encoder models at [sbert.net](https://www.sbert.net/docs/package_reference/cross_encoder/cross_encoder.html).
 
-Code example: [examples/online_serving/openai_cross_encoder_score.py](../../examples/online_serving/openai_cross_encoder_score.py)
+Code example: [examples/online_serving/pooling/openai_cross_encoder_score.py](../../examples/online_serving/pooling/openai_cross_encoder_score.py)
 
 #### Single inference
 
@@ -819,7 +819,7 @@ You can pass multi-modal inputs to scoring models by passing `content` including
         print("Scoring output:", response_json["data"][0]["score"])
         print("Scoring output:", response_json["data"][1]["score"])
         ```
-Full example: [examples/online_serving/openai_cross_encoder_score_for_multimodal.py](../../examples/online_serving/openai_cross_encoder_score_for_multimodal.py)
+Full example: [examples/online_serving/pooling/openai_cross_encoder_score_for_multimodal.py](../../examples/online_serving/pooling/openai_cross_encoder_score_for_multimodal.py)
 
 #### Extra parameters
 
diff --git a/examples/offline_inference/pooling/README.md b/examples/offline_inference/pooling/README.md
index cd9717122b16b..ad78be38716b6 100644
--- a/examples/offline_inference/pooling/README.md
+++ b/examples/offline_inference/pooling/README.md
@@ -38,6 +38,18 @@ python examples/offline_inference/pooling/multi_vector_retrieval.py
 python examples/offline_inference/pooling/ner.py
 ```
 
+## Prithvi Geospatial MAE usage
+
+```bash
+python examples/offline_inference/pooling/prithvi_geospatial_mae.py
+```
+
+## IO Processor Plugins for Prithvi Geospatial MAE
+
+```bash
+python examples/offline_inference/pooling/prithvi_geospatial_mae_io_processor.py
+```
+
 ## Qwen3 reranker usage
 
 ```bash
diff --git a/examples/offline_inference/pooling/ner.py b/examples/offline_inference/pooling/ner.py
index b2dffdd6c5ee9..34c80e7ccffd3 100644
--- a/examples/offline_inference/pooling/ner.py
+++ b/examples/offline_inference/pooling/ner.py
@@ -33,7 +33,7 @@ def main(args: Namespace):
     label_map = llm.llm_engine.vllm_config.model_config.hf_config.id2label
 
     # Run inference
-    outputs = llm.encode(prompts)
+    outputs = llm.encode(prompts, pooling_task="token_classify")
 
     for prompt, output in zip(prompts, outputs):
         logits = output.outputs.data
diff --git a/examples/offline_inference/prithvi_geospatial_mae.py b/examples/offline_inference/pooling/prithvi_geospatial_mae.py
similarity index 100%
rename from examples/offline_inference/prithvi_geospatial_mae.py
rename to examples/offline_inference/pooling/prithvi_geospatial_mae.py
diff --git a/examples/offline_inference/prithvi_geospatial_mae_io_processor.py b/examples/offline_inference/pooling/prithvi_geospatial_mae_io_processor.py
similarity index 100%
rename from examples/offline_inference/prithvi_geospatial_mae_io_processor.py
rename to examples/offline_inference/pooling/prithvi_geospatial_mae_io_processor.py
diff --git a/examples/online_serving/pooling/README.md b/examples/online_serving/pooling/README.md
index 3b6da20d5f0fe..b76ad21f04818 100644
--- a/examples/online_serving/pooling/README.md
+++ b/examples/online_serving/pooling/README.md
@@ -3,65 +3,95 @@
 ## Cohere rerank usage
 
 ```bash
+# vllm serve BAAI/bge-reranker-base
 python examples/online_serving/pooling/cohere_rerank_client.py
 ```
 
 ## Embedding requests base64 encoding_format usage
 
 ```bash
+# vllm serve intfloat/e5-small
 python examples/online_serving/pooling/embedding_requests_base64_client.py
 ```
 
 ## Embedding requests bytes encoding_format usage
 
 ```bash
+# vllm serve intfloat/e5-small
 python examples/online_serving/pooling/embedding_requests_bytes_client.py
 ```
 
 ## Jinaai rerank usage
 
 ```bash
+# vllm serve BAAI/bge-reranker-base
 python examples/online_serving/pooling/jinaai_rerank_client.py
 ```
 
 ## Multi vector retrieval usage
 
 ```bash
+# vllm serve BAAI/bge-m3
 python examples/online_serving/pooling/multi_vector_retrieval_client.py
 ```
 
 ## Named Entity Recognition (NER) usage
 
 ```bash
+# vllm serve boltuix/NeuroBERT-NER
 python examples/online_serving/pooling/ner_client.py
 ```
 
-## Openai chat embedding for multimodal usage
+## OpenAI chat embedding for multimodal usage
 
 ```bash
 python examples/online_serving/pooling/openai_chat_embedding_client_for_multimodal.py
 ```
 
-## Openai classification usage
+## OpenAI classification usage
 
 ```bash
+# vllm serve jason9693/Qwen2.5-1.5B-apeach
 python examples/online_serving/pooling/openai_classification_client.py
 ```
 
-## Openai embedding usage
+## OpenAI cross_encoder score usage
 
 ```bash
+# vllm serve BAAI/bge-reranker-v2-m3
+python examples/online_serving/pooling/openai_cross_encoder_score.py
+```
+
+## OpenAI cross_encoder score for multimodal usage
+
+```bash
+# vllm serve jinaai/jina-reranker-m0
+python examples/online_serving/pooling/openai_cross_encoder_score_for_multimodal.py
+```
+
+## OpenAI embedding usage
+
+```bash
+# vllm serve intfloat/e5-small
 python examples/online_serving/pooling/openai_embedding_client.py
 ```
 
-## Openai embedding matryoshka dimensions usage
+## OpenAI embedding matryoshka dimensions usage
 
 ```bash
+# vllm serve jinaai/jina-embeddings-v3 --trust-remote-code
 python examples/online_serving/pooling/openai_embedding_matryoshka_fy.py
 ```
 
-## Openai pooling usage
+## OpenAI pooling usage
 
 ```bash
+# vllm serve internlm/internlm2-1_8b-reward --trust-remote-code
 python examples/online_serving/pooling/openai_pooling_client.py
 ```
+
+## Online Prithvi Geospatial MAE usage
+
+```bash
+python examples/online_serving/pooling/prithvi_geospatial_mae.py
+```
diff --git a/examples/online_serving/openai_cross_encoder_score.py b/examples/online_serving/pooling/openai_cross_encoder_score.py
similarity index 100%
rename from examples/online_serving/openai_cross_encoder_score.py
rename to examples/online_serving/pooling/openai_cross_encoder_score.py
diff --git a/examples/online_serving/openai_cross_encoder_score_for_multimodal.py b/examples/online_serving/pooling/openai_cross_encoder_score_for_multimodal.py
similarity index 100%
rename from examples/online_serving/openai_cross_encoder_score_for_multimodal.py
rename to examples/online_serving/pooling/openai_cross_encoder_score_for_multimodal.py
diff --git a/examples/online_serving/prithvi_geospatial_mae.py b/examples/online_serving/pooling/prithvi_geospatial_mae.py
similarity index 100%
rename from examples/online_serving/prithvi_geospatial_mae.py
rename to examples/online_serving/pooling/prithvi_geospatial_mae.py
diff --git a/tests/entrypoints/pooling/llm/test_classify.py b/tests/entrypoints/pooling/llm/test_classify.py
index 96f634ee0a8c7..1063c3b6b755c 100644
--- a/tests/entrypoints/pooling/llm/test_classify.py
+++ b/tests/entrypoints/pooling/llm/test_classify.py
@@ -37,15 +37,17 @@ def llm():
 
 @pytest.mark.skip_global_cleanup
 def test_pooling_params(llm: LLM):
-    def get_outputs(activation):
+    def get_outputs(use_activation):
         outputs = llm.classify(
-            prompts, pooling_params=PoolingParams(activation=activation), use_tqdm=False
+            prompts,
+            pooling_params=PoolingParams(use_activation=use_activation),
+            use_tqdm=False,
         )
         return torch.tensor([x.outputs.probs for x in outputs])
 
-    default = get_outputs(activation=None)
-    w_activation = get_outputs(activation=True)
-    wo_activation = get_outputs(activation=False)
+    default = get_outputs(use_activation=None)
+    w_activation = get_outputs(use_activation=True)
+    wo_activation = get_outputs(use_activation=False)
 
     assert torch.allclose(default, w_activation, atol=1e-2), (
         "Default should use activation."
diff --git a/tests/entrypoints/pooling/llm/test_reward.py b/tests/entrypoints/pooling/llm/test_reward.py
index 81058dbad891b..0255704cecd94 100644
--- a/tests/entrypoints/pooling/llm/test_reward.py
+++ b/tests/entrypoints/pooling/llm/test_reward.py
@@ -37,15 +37,17 @@ def llm():
 
 
 def test_pooling_params(llm: LLM):
-    def get_outputs(activation):
+    def get_outputs(use_activation):
         outputs = llm.reward(
-            prompts, pooling_params=PoolingParams(activation=activation), use_tqdm=False
+            prompts,
+            pooling_params=PoolingParams(use_activation=use_activation),
+            use_tqdm=False,
         )
         return torch.cat([x.outputs.data for x in outputs])
 
-    default = get_outputs(activation=None)
-    w_activation = get_outputs(activation=True)
-    wo_activation = get_outputs(activation=False)
+    default = get_outputs(use_activation=None)
+    w_activation = get_outputs(use_activation=True)
+    wo_activation = get_outputs(use_activation=False)
 
     assert torch.allclose(default, w_activation, atol=1e-2), (
         "Default should use activation."
diff --git a/tests/entrypoints/pooling/llm/test_score.py b/tests/entrypoints/pooling/llm/test_score.py
index 2df973dd7863b..b69c6a47c1913 100644
--- a/tests/entrypoints/pooling/llm/test_score.py
+++ b/tests/entrypoints/pooling/llm/test_score.py
@@ -34,21 +34,21 @@ def llm():
 
 
 def test_pooling_params(llm: LLM):
-    def get_outputs(activation):
+    def get_outputs(use_activation):
         text_1 = "What is the capital of France?"
         text_2 = "The capital of France is Paris."
 
         outputs = llm.score(
             text_1,
             text_2,
-            pooling_params=PoolingParams(activation=activation),
+            pooling_params=PoolingParams(use_activation=use_activation),
             use_tqdm=False,
         )
         return torch.tensor([x.outputs.score for x in outputs])
 
-    default = get_outputs(activation=None)
-    w_activation = get_outputs(activation=True)
-    wo_activation = get_outputs(activation=False)
+    default = get_outputs(use_activation=None)
+    w_activation = get_outputs(use_activation=True)
+    wo_activation = get_outputs(use_activation=False)
 
     assert torch.allclose(default, w_activation, atol=1e-2), (
         "Default should use activation."
diff --git a/tests/entrypoints/pooling/openai/test_classification.py b/tests/entrypoints/pooling/openai/test_classification.py
index 92d40efad21cb..671bb948780ae 100644
--- a/tests/entrypoints/pooling/openai/test_classification.py
+++ b/tests/entrypoints/pooling/openai/test_classification.py
@@ -7,7 +7,7 @@ import torch
 import torch.nn.functional as F
 
 from tests.utils import RemoteOpenAIServer
-from vllm.entrypoints.openai.protocol import ClassificationResponse
+from vllm.entrypoints.openai.protocol import ClassificationResponse, PoolingResponse
 
 MODEL_NAME = "jason9693/Qwen2.5-1.5B-apeach"
 DTYPE = "float32"  # Use float32 to avoid NaN issue
@@ -163,20 +163,24 @@ async def test_invocations(server: RemoteOpenAIServer):
 
 @pytest.mark.asyncio
 @pytest.mark.parametrize("model_name", [MODEL_NAME])
-async def test_activation(server: RemoteOpenAIServer, model_name: str):
+async def test_use_activation(server: RemoteOpenAIServer, model_name: str):
     input_text = ["This product was excellent and exceeded my expectations"]
 
-    async def get_outputs(activation):
+    async def get_outputs(use_activation):
         response = requests.post(
             server.url_for("classify"),
-            json={"model": model_name, "input": input_text, "activation": activation},
+            json={
+                "model": model_name,
+                "input": input_text,
+                "use_activation": use_activation,
+            },
         )
         outputs = response.json()
         return torch.tensor([x["probs"] for x in outputs["data"]])
 
-    default = await get_outputs(activation=None)
-    w_activation = await get_outputs(activation=True)
-    wo_activation = await get_outputs(activation=False)
+    default = await get_outputs(use_activation=None)
+    w_activation = await get_outputs(use_activation=True)
+    wo_activation = await get_outputs(use_activation=False)
 
     assert torch.allclose(default, w_activation, atol=1e-2), (
         "Default should use activation."
@@ -191,18 +195,7 @@ async def test_activation(server: RemoteOpenAIServer, model_name: str):
 
 @pytest.mark.asyncio
 @pytest.mark.parametrize("model_name", [MODEL_NAME])
-def test_pooling(server: RemoteOpenAIServer, model_name: str):
-    # pooling api uses ALL pooling, which does not support chunked prefill.
-    response = requests.post(
-        server.url_for("pooling"),
-        json={"model": model_name, "input": "test", "encoding_format": "float"},
-    )
-    assert response.json()["error"]["type"] == "BadRequestError"
-
-
-@pytest.mark.asyncio
-@pytest.mark.parametrize("model_name", [MODEL_NAME])
-def test_score(server: RemoteOpenAIServer, model_name: str):
+async def test_score(server: RemoteOpenAIServer, model_name: str):
     # score api is only enabled for num_labels == 1.
     response = requests.post(
         server.url_for("score"),
@@ -217,7 +210,7 @@ def test_score(server: RemoteOpenAIServer, model_name: str):
 
 @pytest.mark.asyncio
 @pytest.mark.parametrize("model_name", [MODEL_NAME])
-def test_rerank(server: RemoteOpenAIServer, model_name: str):
+async def test_rerank(server: RemoteOpenAIServer, model_name: str):
     # rerank api is only enabled for num_labels == 1.
     response = requests.post(
         server.url_for("rerank"),
@@ -228,3 +221,62 @@ def test_rerank(server: RemoteOpenAIServer, model_name: str):
         },
     )
     assert response.json()["error"]["type"] == "BadRequestError"
+
+
+@pytest.mark.asyncio
+@pytest.mark.parametrize("model_name", [MODEL_NAME])
+async def test_pooling_classify(server: RemoteOpenAIServer, model_name: str):
+    input_text = "This product was excellent and exceeded my expectations"
+    response = requests.post(
+        server.url_for("pooling"),
+        json={
+            "model": model_name,
+            "input": input_text,
+            "encoding_format": "float",
+            "task": "classify",
+        },
+    )
+    poolings = PoolingResponse.model_validate(response.json())
+    assert len(poolings.data) == 1
+    assert len(poolings.data[0].data) == 2
+
+
+@pytest.mark.asyncio
+@pytest.mark.parametrize("model_name", [MODEL_NAME])
+async def test_pooling_token_classify(server: RemoteOpenAIServer, model_name: str):
+    # token_classify uses ALL pooling, which does not support chunked prefill.
+    task = "token_classify"
+    response = requests.post(
+        server.url_for("pooling"),
+        json={
+            "model": model_name,
+            "input": "test",
+            "encoding_format": "float",
+            "task": task,
+        },
+    )
+    assert response.json()["error"]["type"] == "BadRequestError"
+    assert response.json()["error"]["message"].startswith(
+        f"Task {task} is not supported"
+    )
+
+
+@pytest.mark.asyncio
+@pytest.mark.parametrize("model_name", [MODEL_NAME])
+@pytest.mark.parametrize("task", ["embed", "token_embed", "plugin"])
+async def test_pooling_not_supported(
+    server: RemoteOpenAIServer, model_name: str, task: str
+):
+    response = requests.post(
+        server.url_for("pooling"),
+        json={
+            "model": model_name,
+            "input": "test",
+            "encoding_format": "float",
+            "task": task,
+        },
+    )
+    assert response.json()["error"]["type"] == "BadRequestError"
+    assert response.json()["error"]["message"].startswith(
+        f"Task {task} is not supported"
+    )
diff --git a/tests/entrypoints/pooling/openai/test_embedding.py b/tests/entrypoints/pooling/openai/test_embedding.py
index b3f12283fdbdf..e971b23e8f1a0 100644
--- a/tests/entrypoints/pooling/openai/test_embedding.py
+++ b/tests/entrypoints/pooling/openai/test_embedding.py
@@ -562,12 +562,40 @@ async def test_normalize(server: RemoteOpenAIServer, model_name: str):
 
 @pytest.mark.asyncio
 @pytest.mark.parametrize("model_name", [MODEL_NAME])
-async def test_pooling(server: RemoteOpenAIServer, model_name: str):
+async def test_pooling_embed(server: RemoteOpenAIServer, model_name: str):
+    task = "embed"
     input_text = ["The chef prepared a delicious meal."]
 
     response = requests.post(
         server.url_for("pooling"),
-        json={"model": model_name, "input": input_text, "encoding_format": "float"},
+        json={
+            "model": model_name,
+            "input": input_text,
+            "encoding_format": "float",
+            "task": task,
+        },
+    )
+
+    poolings = PoolingResponse.model_validate(response.json())
+
+    assert len(poolings.data) == 1
+    assert len(poolings.data[0].data) == 384
+
+
+@pytest.mark.asyncio
+@pytest.mark.parametrize("model_name", [MODEL_NAME])
+async def test_pooling_token_embed(server: RemoteOpenAIServer, model_name: str):
+    task = "token_embed"
+    input_text = ["The chef prepared a delicious meal."]
+
+    response = requests.post(
+        server.url_for("pooling"),
+        json={
+            "model": model_name,
+            "input": input_text,
+            "encoding_format": "float",
+            "task": task,
+        },
     )
 
     poolings = PoolingResponse.model_validate(response.json())
@@ -575,3 +603,24 @@ async def test_pooling(server: RemoteOpenAIServer, model_name: str):
     assert len(poolings.data) == 1
     assert len(poolings.data[0].data) == 11
     assert len(poolings.data[0].data[0]) == 384
+
+
+@pytest.mark.asyncio
+@pytest.mark.parametrize("model_name", [MODEL_NAME])
+@pytest.mark.parametrize("task", ["classify", "token_classify", "plugin"])
+async def test_pooling_not_supported(
+    server: RemoteOpenAIServer, model_name: str, task: str
+):
+    response = requests.post(
+        server.url_for("pooling"),
+        json={
+            "model": model_name,
+            "input": "test",
+            "encoding_format": "float",
+            "task": task,
+        },
+    )
+    assert response.json()["error"]["type"] == "BadRequestError"
+    assert response.json()["error"]["message"].startswith(
+        f"Task {task} is not supported"
+    )
diff --git a/tests/entrypoints/pooling/openai/test_rerank.py b/tests/entrypoints/pooling/openai/test_rerank.py
index e43148d25feeb..1d85190c12a19 100644
--- a/tests/entrypoints/pooling/openai/test_rerank.py
+++ b/tests/entrypoints/pooling/openai/test_rerank.py
@@ -125,8 +125,8 @@ def test_invocations(server: RemoteOpenAIServer):
 
 @pytest.mark.asyncio
 @pytest.mark.parametrize("model_name", [MODEL_NAME])
-async def test_activation(server: RemoteOpenAIServer, model_name: str):
-    async def get_outputs(activation):
+async def test_use_activation(server: RemoteOpenAIServer, model_name: str):
+    async def get_outputs(use_activation):
         query = "What is the capital of France?"
         documents = [
             "The capital of Brazil is Brasilia.",
@@ -139,16 +139,16 @@ async def test_activation(server: RemoteOpenAIServer, model_name: str):
                 "model": model_name,
                 "query": query,
                 "documents": documents,
-                "activation": activation,
+                "use_activation": use_activation,
             },
         )
         outputs = response.json()
 
         return torch.tensor([x["relevance_score"] for x in outputs["results"]])
 
-    default = await get_outputs(activation=None)
-    w_activation = await get_outputs(activation=True)
-    wo_activation = await get_outputs(activation=False)
+    default = await get_outputs(use_activation=None)
+    w_activation = await get_outputs(use_activation=True)
+    wo_activation = await get_outputs(use_activation=False)
 
     assert torch.allclose(default, w_activation, atol=1e-2), (
         "Default should use activation."
@@ -163,7 +163,25 @@ async def test_activation(server: RemoteOpenAIServer, model_name: str):
 
 @pytest.mark.asyncio
 @pytest.mark.parametrize("model_name", [MODEL_NAME])
-async def test_pooling(server: RemoteOpenAIServer, model_name: str):
+async def test_pooling_classify(server: RemoteOpenAIServer, model_name: str):
+    input_text = "This product was excellent and exceeded my expectations"
+    response = requests.post(
+        server.url_for("pooling"),
+        json={
+            "model": model_name,
+            "input": input_text,
+            "encoding_format": "float",
+            "task": "classify",
+        },
+    )
+    poolings = PoolingResponse.model_validate(response.json())
+    assert len(poolings.data) == 1
+    assert len(poolings.data[0].data) == 1
+
+
+@pytest.mark.asyncio
+@pytest.mark.parametrize("model_name", [MODEL_NAME])
+async def test_pooling_token_classify(server: RemoteOpenAIServer, model_name: str):
     input_text = ["The chef prepared a delicious meal."]
 
     response = requests.post(
@@ -176,3 +194,24 @@ async def test_pooling(server: RemoteOpenAIServer, model_name: str):
     assert len(poolings.data) == 1
     assert len(poolings.data[0].data) == 11
     assert len(poolings.data[0].data[0]) == 1
+
+
+@pytest.mark.asyncio
+@pytest.mark.parametrize("model_name", [MODEL_NAME])
+@pytest.mark.parametrize("task", ["embed", "token_embed", "plugin"])
+async def test_pooling_not_supported(
+    server: RemoteOpenAIServer, model_name: str, task: str
+):
+    response = requests.post(
+        server.url_for("pooling"),
+        json={
+            "model": model_name,
+            "input": "test",
+            "encoding_format": "float",
+            "task": task,
+        },
+    )
+    assert response.json()["error"]["type"] == "BadRequestError"
+    assert response.json()["error"]["message"].startswith(
+        f"Task {task} is not supported"
+    )
diff --git a/tests/entrypoints/pooling/openai/test_score.py b/tests/entrypoints/pooling/openai/test_score.py
index ef213ab0ea18b..b8f796d47efaa 100644
--- a/tests/entrypoints/pooling/openai/test_score.py
+++ b/tests/entrypoints/pooling/openai/test_score.py
@@ -218,8 +218,8 @@ class TestModel:
             # TODO: reset this tolerance to 0.01 once we find
             # an alternative to flash_attn with bfloat16
 
-    def test_activation(self, server: RemoteOpenAIServer, model: dict[str, Any]):
-        def get_outputs(activation):
+    def test_use_activation(self, server: RemoteOpenAIServer, model: dict[str, Any]):
+        def get_outputs(use_activation):
             text_1 = "What is the capital of France?"
             text_2 = "The capital of France is Paris."
             response = requests.post(
@@ -228,7 +228,7 @@ class TestModel:
                     "model": model["name"],
                     "text_1": text_1,
                     "text_2": text_2,
-                    "activation": activation,
+                    "use_activation": use_activation,
                 },
             )
             if response.status_code != 200:
@@ -238,9 +238,9 @@ class TestModel:
             return torch.tensor([x["score"] for x in outputs["data"]])
 
         if model["is_cross_encoder"]:
-            default = get_outputs(activation=None)
-            w_activation = get_outputs(activation=True)
-            wo_activation = get_outputs(activation=False)
+            default = get_outputs(use_activation=None)
+            w_activation = get_outputs(use_activation=True)
+            wo_activation = get_outputs(use_activation=False)
 
             assert torch.allclose(default, w_activation, atol=1e-2), (
                 "Default should use activation."
@@ -252,8 +252,8 @@ class TestModel:
                 "w_activation should be close to activation(wo_activation)."
             )
         else:
-            get_outputs(activation=None)
+            get_outputs(use_activation=None)
 
             # The activation parameter only works for the is_cross_encoder model
-            response = get_outputs(activation=True)
+            response = get_outputs(use_activation=True)
             assert response.status_code == 400
diff --git a/tests/models/language/pooling/test_pooler_config_init_behaviour.py b/tests/models/language/pooling/test_pooler_config_init_behaviour.py
index 55663ee3f1b41..deb5de984d909 100644
--- a/tests/models/language/pooling/test_pooler_config_init_behaviour.py
+++ b/tests/models/language/pooling/test_pooler_config_init_behaviour.py
@@ -24,7 +24,7 @@ def test_classify_models_using_activation(
         model,
         max_model_len=512,
         dtype=dtype,
-        pooler_config=PoolerConfig(activation=False),
+        pooler_config=PoolerConfig(use_activation=False),
     ) as vllm_model:
         wo_activation_out = vllm_model.classify(example_prompts)
 
@@ -32,7 +32,7 @@ def test_classify_models_using_activation(
         model,
         max_model_len=512,
         dtype=dtype,
-        pooler_config=PoolerConfig(activation=True),
+        pooler_config=PoolerConfig(use_activation=True),
     ) as vllm_model:
         w_activation_out = vllm_model.classify(example_prompts)
 
@@ -104,7 +104,7 @@ def test_reward_models_using_activation(
         model,
         max_model_len=1024,
         dtype=dtype,
-        pooler_config=PoolerConfig(activation=False),
+        pooler_config=PoolerConfig(use_activation=False),
     ) as vllm_model:
         wo_activation = vllm_model.reward(example_prompts)
 
@@ -112,7 +112,7 @@ def test_reward_models_using_activation(
         model,
         max_model_len=1024,
         dtype=dtype,
-        pooler_config=PoolerConfig(activation=True),
+        pooler_config=PoolerConfig(use_activation=True),
     ) as vllm_model:
         w_activation = vllm_model.reward(example_prompts)
 
diff --git a/tests/test_pooling_params.py b/tests/test_pooling_params.py
index e73d7efc1483a..7812562c8948c 100644
--- a/tests/test_pooling_params.py
+++ b/tests/test_pooling_params.py
@@ -17,7 +17,7 @@ EMBEDDING_MODELS = [
     ),
 ]
 
-classify_parameters = ["activation"]
+classify_parameters = ["use_activation"]
 embed_parameters = ["dimensions", "normalize"]
 step_pooling_parameters = ["step_tag_id", "returned_token_ids"]
 
@@ -88,13 +88,13 @@ def test_embed_dimensions(model_info: EmbedModelInfo):
 def test_classify(task):
     model_config = MockModelConfig(pooler_config=PoolerConfig(pooling_type="CLS"))
 
-    pooling_params = PoolingParams(activation=None)
+    pooling_params = PoolingParams(use_activation=None)
     pooling_params.verify(task=task, model_config=model_config)
 
-    pooling_params = PoolingParams(activation=True)
+    pooling_params = PoolingParams(use_activation=True)
     pooling_params.verify(task=task, model_config=model_config)
 
-    pooling_params = PoolingParams(activation=False)
+    pooling_params = PoolingParams(use_activation=False)
     pooling_params.verify(task=task, model_config=model_config)
 
     invalid_parameters = embed_parameters + step_pooling_parameters
@@ -137,13 +137,13 @@ def test_token_classify(pooling_type: str):
         pooler_config=PoolerConfig(pooling_type=pooling_type)
     )
 
-    pooling_params = PoolingParams(activation=None)
+    pooling_params = PoolingParams(use_activation=None)
     pooling_params.verify(task=task, model_config=model_config)
 
-    pooling_params = PoolingParams(activation=True)
+    pooling_params = PoolingParams(use_activation=True)
     pooling_params.verify(task=task, model_config=model_config)
 
-    pooling_params = PoolingParams(activation=False)
+    pooling_params = PoolingParams(use_activation=False)
     pooling_params.verify(task=task, model_config=model_config)
 
     invalid_parameters = embed_parameters
diff --git a/vllm/config/pooler.py b/vllm/config/pooler.py
index 0590f74aa4c93..6bece8d0785bd 100644
--- a/vllm/config/pooler.py
+++ b/vllm/config/pooler.py
@@ -7,6 +7,9 @@ from typing import Any
 from pydantic.dataclasses import dataclass
 
 from vllm.config.utils import config
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
 
 
 @config
@@ -48,7 +51,15 @@ class PoolerConfig:
     """
 
     ## for classification models
-    activation: bool | None = None
+    softmax: float | None = None
+    """
+    softmax will be deprecated, please use use_activation instead.
+    """
+    activation: float | None = None
+    """
+    activation will be deprecated, please use use_activation instead.
+    """
+    use_activation: bool | None = None
     """
     Whether to apply activation function to the classification outputs.
     Defaults to True.
@@ -59,11 +70,6 @@ class PoolerConfig:
     """
 
     ## for reward models
-    softmax: bool | None = None
-    """
-    Whether to apply softmax to the reward outputs.
-    Defaults to True.
-    """
     step_tag_id: int | None = None
     """
     If set, only the score corresponding to the `step_tag_id` in the
@@ -77,6 +83,10 @@ class PoolerConfig:
     `math-shepherd-mistral-7b-prm` model.
     """
 
+    def __post_init__(self):
+        # raise deprecated warning for softmax and activation
+        self.use_activation = get_use_activation(self)
+
     def compute_hash(self) -> str:
         """
         WARNING: Whenever a new field is added to this config,
@@ -94,3 +104,19 @@ class PoolerConfig:
         factors: list[Any] = []
         hash_str = hashlib.md5(str(factors).encode(), usedforsecurity=False).hexdigest()
         return hash_str
+
+
+def get_use_activation(o: object):
+    if softmax := getattr(o, "softmax", None) is not None:
+        logger.warning_once(
+            "softmax will be deprecated, please use use_activation instead."
+        )
+        return softmax
+
+    if activation := getattr(o, "activation", None) is not None:
+        logger.warning_once(
+            "activation will be deprecated, please use use_activation instead."
+        )
+        return activation
+
+    return getattr(o, "use_activation", None)
diff --git a/vllm/entrypoints/openai/api_server.py b/vllm/entrypoints/openai/api_server.py
index 71939d6c41dfa..f3aa5351e5302 100644
--- a/vllm/entrypoints/openai/api_server.py
+++ b/vllm/entrypoints/openai/api_server.py
@@ -107,6 +107,7 @@ from vllm.entrypoints.utils import (
 )
 from vllm.logger import init_logger
 from vllm.reasoning import ReasoningParserManager
+from vllm.tasks import POOLING_TASKS
 from vllm.usage.usage_lib import UsageContext
 from vllm.utils.argparse_utils import FlexibleArgumentParser
 from vllm.utils.network_utils import is_valid_ipv6_address
@@ -1748,12 +1749,7 @@ async def init_app_state(
                 log_error_stack=args.log_error_stack,
             )
         )
-        if (
-            any(
-                task in supported_tasks
-                for task in ["token_embed", "token_classify", "plugin"]
-            )
-        )
+        if any(task in POOLING_TASKS for task in supported_tasks)
         else None
     )
     state.openai_serving_embedding = (
diff --git a/vllm/entrypoints/openai/protocol.py b/vllm/entrypoints/openai/protocol.py
index 0778e4d787905..d0061f9d5b40f 100644
--- a/vllm/entrypoints/openai/protocol.py
+++ b/vllm/entrypoints/openai/protocol.py
@@ -49,6 +49,8 @@ from openai.types.responses.response_reasoning_item import (
 )
 from openai_harmony import Message as OpenAIHarmonyMessage
 
+from vllm.config.pooler import get_use_activation
+from vllm.tasks import PoolingTask
 from vllm.utils.serial_utils import (
     EmbedDType,
     EncodingFormat,
@@ -1669,8 +1671,58 @@ class EmbeddingChatRequest(OpenAIBaseModel):
 
 EmbeddingRequest: TypeAlias = EmbeddingCompletionRequest | EmbeddingChatRequest
 
-PoolingCompletionRequest = EmbeddingCompletionRequest
-PoolingChatRequest = EmbeddingChatRequest
+
+class PoolingCompletionRequest(EmbeddingCompletionRequest):
+    task: PoolingTask | None = None
+    softmax: bool | None = Field(
+        default=None,
+        description="softmax will be deprecated, please use use_activation instead.",
+    )
+    activation: bool | None = Field(
+        default=None,
+        description="activation will be deprecated, please use use_activation instead.",
+    )
+    use_activation: bool | None = Field(
+        default=None,
+        description="Whether to use activation for classification outputs. "
+        "If it is a classify or token_classify task, the default is True; "
+        "for other tasks, this value should be None.",
+    )
+
+    def to_pooling_params(self):
+        return PoolingParams(
+            truncate_prompt_tokens=self.truncate_prompt_tokens,
+            dimensions=self.dimensions,
+            normalize=self.normalize,
+            use_activation=get_use_activation(self),
+        )
+
+
+class PoolingChatRequest(EmbeddingChatRequest):
+    task: PoolingTask | None = None
+    softmax: bool | None = Field(
+        default=None,
+        description="softmax will be deprecated, please use use_activation instead.",
+    )
+    activation: bool | None = Field(
+        default=None,
+        description="activation will be deprecated, please use use_activation instead.",
+    )
+    use_activation: bool | None = Field(
+        default=None,
+        description="Whether to use activation for classification outputs. "
+        "If it is a classify or token_classify task, the default is True; "
+        "for other tasks, this value should be None.",
+    )
+
+    def to_pooling_params(self):
+        return PoolingParams(
+            truncate_prompt_tokens=self.truncate_prompt_tokens,
+            dimensions=self.dimensions,
+            normalize=self.normalize,
+            use_activation=get_use_activation(self),
+        )
+
 
 T = TypeVar("T")
 
@@ -1686,6 +1738,7 @@ class IOProcessorRequest(OpenAIBaseModel, Generic[T]):
     """
     data: T
 
+    task: PoolingTask = "plugin"
     encoding_format: EncodingFormat = "float"
     embed_dtype: EmbedDType = Field(
         default="float32",
@@ -1749,14 +1802,27 @@ class ScoreRequest(OpenAIBaseModel):
         ),
     )
 
-    activation: bool | None = None
+    softmax: bool | None = Field(
+        default=None,
+        description="softmax will be deprecated, please use use_activation instead.",
+    )
 
+    activation: bool | None = Field(
+        default=None,
+        description="activation will be deprecated, please use use_activation instead.",
+    )
+
+    use_activation: bool | None = Field(
+        default=None,
+        description="Whether to use activation for classification outputs. "
+        "Default is True.",
+    )
     # --8<-- [end:score-extra-params]
 
     def to_pooling_params(self):
         return PoolingParams(
             truncate_prompt_tokens=self.truncate_prompt_tokens,
-            activation=self.activation,
+            use_activation=get_use_activation(self),
         )
 
 
@@ -1783,14 +1849,27 @@ class RerankRequest(OpenAIBaseModel):
         ),
     )
 
-    activation: bool | None = None
+    softmax: bool | None = Field(
+        default=None,
+        description="softmax will be deprecated, please use use_activation instead.",
+    )
 
+    activation: bool | None = Field(
+        default=None,
+        description="activation will be deprecated, please use use_activation instead.",
+    )
+
+    use_activation: bool | None = Field(
+        default=None,
+        description="Whether to use activation for classification outputs. "
+        "Default is True.",
+    )
     # --8<-- [end:rerank-extra-params]
 
     def to_pooling_params(self):
         return PoolingParams(
             truncate_prompt_tokens=self.truncate_prompt_tokens,
-            activation=self.activation,
+            use_activation=get_use_activation(self),
         )
 
 
@@ -1958,14 +2037,27 @@ class ClassificationRequest(OpenAIBaseModel):
         ),
     )
 
-    activation: bool | None = None
+    softmax: bool | None = Field(
+        default=None,
+        description="softmax will be deprecated, please use use_activation instead.",
+    )
 
+    activation: bool | None = Field(
+        default=None,
+        description="activation will be deprecated, please use use_activation instead.",
+    )
+
+    use_activation: bool | None = Field(
+        default=None,
+        description="Whether to use activation for classification outputs. "
+        "Default is True.",
+    )
     # --8<-- [end:classification-extra-params]
 
     def to_pooling_params(self):
         return PoolingParams(
             truncate_prompt_tokens=self.truncate_prompt_tokens,
-            activation=self.activation,
+            use_activation=get_use_activation(self),
         )
 
 
diff --git a/vllm/entrypoints/openai/serving_pooling.py b/vllm/entrypoints/openai/serving_pooling.py
index 568896ccbf1b7..0eade272111f1 100644
--- a/vllm/entrypoints/openai/serving_pooling.py
+++ b/vllm/entrypoints/openai/serving_pooling.py
@@ -170,15 +170,24 @@ class OpenAIServingPooling(OpenAIServing):
                 pooling_params = request.to_pooling_params()
 
             pooling_task: PoolingTask
-            if "token_embed" in self.supported_tasks:
-                pooling_task = "token_embed"
-            elif "token_classify" in self.supported_tasks:
-                pooling_task = "token_classify"
-            elif "plugin" in self.supported_tasks:
-                pooling_task = "plugin"
+            if request.task is None:
+                if "token_embed" in self.supported_tasks:
+                    pooling_task = "token_embed"
+                elif "token_classify" in self.supported_tasks:
+                    pooling_task = "token_classify"
+                elif "plugin" in self.supported_tasks:
+                    pooling_task = "plugin"
+                else:
+                    return self.create_error_response(
+                        f"pooling_task must be one of {self.supported_tasks}."
+                    )
             else:
+                pooling_task = request.task
+
+            if pooling_task not in self.supported_tasks:
                 return self.create_error_response(
-                    f"pooling_task must be one of {self.supported_tasks}."
+                    f"Task {pooling_task} is not supported, it"
+                    f" must be one of {self.supported_tasks}."
                 )
 
             try:
diff --git a/vllm/model_executor/layers/pooler.py b/vllm/model_executor/layers/pooler.py
index 145f18f235662..7dd02e32ff211 100644
--- a/vllm/model_executor/layers/pooler.py
+++ b/vllm/model_executor/layers/pooler.py
@@ -607,7 +607,7 @@ class ClassifierPooler(Pooler):
             pooled_data -= self.logit_bias
 
         pooling_params = get_pooling_params(pooling_metadata)
-        flags = [p.activation for p in pooling_params]
+        flags = [p.use_activation for p in pooling_params]
 
         if len(set(flags)) == 1:
             scores = self.act_fn(pooled_data) if flags[0] else pooled_data
@@ -681,7 +681,7 @@ class TokenClassifierPoolerHead(nn.Module):
         if self.logit_bias is not None:
             scores -= self.logit_bias
 
-        if pooling_param.activation:
+        if pooling_param.use_activation:
             scores = self.act_fn(scores)
 
         # scores shape: [n_token, num_labels]
diff --git a/vllm/model_executor/models/config.py b/vllm/model_executor/models/config.py
index ac5949cda9de9..3bd02121f018e 100644
--- a/vllm/model_executor/models/config.py
+++ b/vllm/model_executor/models/config.py
@@ -53,8 +53,8 @@ class JambaForSequenceClassificationConfig(VerifyAndUpdateConfig):
     @staticmethod
     def verify_and_update_config(vllm_config: "VllmConfig") -> None:
         pooler_config = vllm_config.model_config.pooler_config
-        if pooler_config.activation is None:
-            pooler_config.activation = False
+        if pooler_config.use_activation is None:
+            pooler_config.use_activation = False
 
 
 class JinaRobertaModelConfig(VerifyAndUpdateConfig):
diff --git a/vllm/pooling_params.py b/vllm/pooling_params.py
index 090d924144659..72a8320cc1bf8 100644
--- a/vllm/pooling_params.py
+++ b/vllm/pooling_params.py
@@ -2,16 +2,15 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
 from copy import deepcopy
-from typing import TYPE_CHECKING, Annotated, Any, Optional
+from typing import Annotated, Any, Optional
 
 import msgspec
 
+from vllm.config import ModelConfig, PoolerConfig
+from vllm.config.pooler import get_use_activation
 from vllm.sampling_params import RequestOutputKind
 from vllm.tasks import PoolingTask
 
-if TYPE_CHECKING:
-    from vllm.config import ModelConfig, PoolerConfig
-
 
 class PoolingParams(
     msgspec.Struct,
@@ -25,10 +24,12 @@ class PoolingParams(
             Set to -1 to use the model's default truncation size.
             Set to k to keep only the last k tokens (left truncation).
             Set to None to disable truncation.
-        normalize: Whether to normalize the embeddings outputs.
         dimensions: Reduce the dimensions of embeddings
             if model support matryoshka representation.
-        activation: Whether to apply activation function to
+        normalize: Whether to normalize the embeddings outputs.
+        softmax: softmax will be deprecated, please use use_activation instead.
+        activation: activation will be deprecated, please use use_activation instead.
+        use_activation: Whether to apply activation function to
             the classification outputs.
     """
 
@@ -44,7 +45,9 @@ class PoolingParams(
 
     ## for classification, scoring and rerank
     # --8<-- [start:classification-pooling-params]
+    softmax: bool | None = None
     activation: bool | None = None
+    use_activation: bool | None = None
     # --8<-- [end:classification-pooling-params]
 
     ## for step pooling models
@@ -59,16 +62,16 @@ class PoolingParams(
 
     @property
     def all_parameters(self) -> list[str]:
-        return ["dimensions", "normalize", "activation"]
+        return ["dimensions", "normalize", "use_activation"]
 
     @property
     def valid_parameters(self):
         return {
             "embed": ["dimensions", "normalize"],
-            "classify": ["activation"],
-            "score": ["activation"],
+            "classify": ["use_activation"],
+            "score": ["use_activation"],
             "token_embed": ["dimensions", "normalize"],
-            "token_classify": ["activation"],
+            "token_classify": ["use_activation"],
         }
 
     def clone(self) -> "PoolingParams":
@@ -84,6 +87,9 @@ class PoolingParams(
             msg = f"You cannot overwrite {self.task=!r} with {task=!r}!"
             raise ValueError(msg)
 
+        # raise deprecated warning for softmax and activation
+        self.use_activation = get_use_activation(self)
+
         # plugin task uses io_processor.parse_request to verify inputs,
         # skipping PoolingParams verify
         if self.task == "plugin":
@@ -168,8 +174,8 @@ class PoolingParams(
                     raise ValueError("Dimensions must be greater than 0")
 
         elif self.task in ["classify", "score", "token_classify"]:
-            if self.activation is None:
-                self.activation = True
+            if self.use_activation is None:
+                self.use_activation = True
         else:
             raise ValueError(f"Unknown pooling task: {self.task}")
 
@@ -197,7 +203,7 @@ class PoolingParams(
             f"task={self.task}, "
             f"normalize={self.normalize}, "
             f"dimensions={self.dimensions}, "
-            f"activation={self.activation}, "
+            f"use_activation={self.use_activation}, "
             f"step_tag_id={self.step_tag_id}, "
             f"returned_token_ids={self.returned_token_ids}, "
             f"requires_token_ids={self.requires_token_ids}, "

From 1994de99ea0bf8dd84257a19800f4f62526a7edf Mon Sep 17 00:00:00 2001
From: Huamin Li <3ericli@gmail.com>
Date: Thu, 30 Oct 2025 05:27:53 -0700
Subject: [PATCH 020/976] [CI Failure] Fix test_kv_cache_model_load_and_run
 (#27717)

Signed-off-by: Huamin Li <3ericli@gmail.com>
---
 tests/quantization/test_fp8.py | 13 ++++++++++++-
 1 file changed, 12 insertions(+), 1 deletion(-)

diff --git a/tests/quantization/test_fp8.py b/tests/quantization/test_fp8.py
index 7f863a169d5f9..bb3572752d9e2 100644
--- a/tests/quantization/test_fp8.py
+++ b/tests/quantization/test_fp8.py
@@ -49,7 +49,18 @@ def test_model_load_and_run(
 
 KV_CACHE_MODELS = [
     # AutoFP8 format using separate .k_scale and .v_scale
-    "nm-testing/Qwen2-1.5B-Instruct-FP8-K-V",
+    # The original checkpoint below was removed from the Hub. To unblock CI and
+    # until a small replacement with split K/V scales is found, skip this case.
+    # See PR #27717 for context.
+    pytest.param(
+        "nm-testing/Qwen2-1.5B-Instruct-FP8-K-V",
+        marks=pytest.mark.skip(
+            reason=(
+                "Checkpoint removed from HF; temporarily disabling this "
+                "AutoFP8 split K/V case (PR #27717)."
+            )
+        ),
+    ),
 ]
 
 
From 4e68cc9b6aa2b9cfe8d799c2b1cd156a01bca438 Mon Sep 17 00:00:00 2001
From: Zhiyuan Li <uniartisan2017@gmail.com>
Date: Thu, 30 Oct 2025 21:02:27 +0800
Subject: [PATCH 021/976] [Model] Introduce Kimi Linear to vLLM (#27809)

Signed-off-by: lizhiyuan <lizhiyuan@moonshot.cn>
Signed-off-by: Zhiyuan Li <uniartisan2017@gmail.com>
---
 docs/models/supported_models.md               |   1 +
 tests/models/registry.py                      |   3 +
 vllm/config/compilation.py                    |   1 +
 vllm/config/model.py                          |   1 +
 vllm/model_executor/layers/fla/ops/kda.py     |   2 +-
 vllm/model_executor/layers/kda.py             | 426 +++++++++++
 .../layers/mamba/mamba_utils.py               |  41 ++
 vllm/model_executor/layers/mla.py             |   7 +-
 vllm/model_executor/models/config.py          |  51 +-
 vllm/model_executor/models/kimi_linear.py     | 663 ++++++++++++++++++
 vllm/model_executor/models/registry.py        |   1 +
 vllm/transformers_utils/config.py             |   1 +
 vllm/transformers_utils/configs/__init__.py   |   2 +
 .../transformers_utils/configs/kimi_linear.py | 144 ++++
 vllm/v1/worker/gpu_model_runner.py            |  29 +-
 15 files changed, 1325 insertions(+), 48 deletions(-)
 create mode 100644 vllm/model_executor/layers/kda.py
 create mode 100644 vllm/model_executor/models/kimi_linear.py
 create mode 100644 vllm/transformers_utils/configs/kimi_linear.py

diff --git a/docs/models/supported_models.md b/docs/models/supported_models.md
index 4d50c809d1966..c9744d31f0efc 100644
--- a/docs/models/supported_models.md
+++ b/docs/models/supported_models.md
@@ -382,6 +382,7 @@ th {
 | `InternLM3ForCausalLM` | InternLM3 | `internlm/internlm3-8b-instruct`, etc. | ✅︎ | ✅︎ |
 | `JAISLMHeadModel` | Jais | `inceptionai/jais-13b`, `inceptionai/jais-13b-chat`, `inceptionai/jais-30b-v3`, `inceptionai/jais-30b-chat-v3`, etc. | | ✅︎ |
 | `JambaForCausalLM` | Jamba | `ai21labs/AI21-Jamba-1.5-Large`, `ai21labs/AI21-Jamba-1.5-Mini`, `ai21labs/Jamba-v0.1`, etc. | ✅︎ | ✅︎ |
+| `KimiLinearForCausalLM` | Kimi-Linear-48B-A3B-Base, Kimi-Linear-48B-A3B-Instruct | `moonshotai/Kimi-Linear-48B-A3B-Base`, `moonshotai/Kimi-Linear-48B-A3B-Instruct` | | ✅︎ |
 | `Lfm2ForCausalLM`  | LFM2  | `LiquidAI/LFM2-1.2B`, `LiquidAI/LFM2-700M`, `LiquidAI/LFM2-350M`, etc. | ✅︎ | ✅︎ |
 | `Lfm2MoeForCausalLM`  | LFM2MoE  | `LiquidAI/LFM2-8B-A1B-preview`, etc. | ✅︎ | ✅︎ |
 | `LlamaForCausalLM` | Llama 3.1, Llama 3, Llama 2, LLaMA, Yi | `meta-llama/Meta-Llama-3.1-405B-Instruct`, `meta-llama/Meta-Llama-3.1-70B`, `meta-llama/Meta-Llama-3-70B-Instruct`, `meta-llama/Llama-2-70b-hf`, `01-ai/Yi-34B`, etc. | ✅︎ | ✅︎ |
diff --git a/tests/models/registry.py b/tests/models/registry.py
index 17b1d7b527f6b..9a2a1eb5f1a74 100644
--- a/tests/models/registry.py
+++ b/tests/models/registry.py
@@ -296,6 +296,9 @@ _TEXT_GENERATION_EXAMPLE_MODELS = {
             "random": "ai21labs/Jamba-tiny-random",
         },
     ),
+    "KimiLinearForCausalLM": _HfExamplesInfo(
+        "moonshotai/Kimi-Linear-48B-A3B-Instruct", trust_remote_code=True
+    ),
     "Lfm2ForCausalLM": _HfExamplesInfo("LiquidAI/LFM2-1.2B"),
     "Lfm2MoeForCausalLM": _HfExamplesInfo(
         "LiquidAI/LFM2-8B-A1B", min_transformers_version="4.58"
diff --git a/vllm/config/compilation.py b/vllm/config/compilation.py
index f3ed78779a995..6a5bd5ef4e07c 100644
--- a/vllm/config/compilation.py
+++ b/vllm/config/compilation.py
@@ -453,6 +453,7 @@ class CompilationConfig:
         "vllm::linear_attention",
         "vllm::plamo2_mamba_mixer",
         "vllm::gdn_attention",
+        "vllm::kda_attention",
         "vllm::sparse_attn_indexer",
     ]
 
diff --git a/vllm/config/model.py b/vllm/config/model.py
index 2151939d5a9f6..092c67e7bed8c 100644
--- a/vllm/config/model.py
+++ b/vllm/config/model.py
@@ -1236,6 +1236,7 @@ class ModelConfig:
             "deepseek_v32",
             "deepseek_mtp",
             "kimi_k2",
+            "kimi_linear",
             "longcat_flash",
         ):
             return self.hf_text_config.kv_lora_rank is not None
diff --git a/vllm/model_executor/layers/fla/ops/kda.py b/vllm/model_executor/layers/fla/ops/kda.py
index a10847d347d13..700f287ca4569 100644
--- a/vllm/model_executor/layers/fla/ops/kda.py
+++ b/vllm/model_executor/layers/fla/ops/kda.py
@@ -1304,7 +1304,7 @@ def kda_gate_fwd_kernel(
     tl.store(y_ptr, b_y.to(y.dtype.element_ty), boundary_check=(0, 1))
 
 
-def kda_gate_fwd(
+def fused_kda_gate(
     g: torch.Tensor,
     A: torch.Tensor,
     head_k_dim: int,
diff --git a/vllm/model_executor/layers/kda.py b/vllm/model_executor/layers/kda.py
new file mode 100644
index 0000000000000..c45e7546fac1e
--- /dev/null
+++ b/vllm/model_executor/layers/kda.py
@@ -0,0 +1,426 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import torch
+from einops import rearrange
+from torch import nn
+
+from vllm.attention import AttentionBackend
+from vllm.attention.backends.abstract import AttentionMetadata
+from vllm.config import CacheConfig, ModelConfig, get_current_vllm_config
+from vllm.distributed import (
+    divide,
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+)
+from vllm.forward_context import ForwardContext, get_forward_context
+from vllm.logger import init_logger
+from vllm.model_executor.model_loader.weight_utils import sharded_weight_loader
+from vllm.model_executor.utils import set_weight_attrs
+from vllm.utils.torch_utils import direct_register_custom_op
+from vllm.v1.attention.backends.gdn_attn import GDNAttentionMetadata
+
+from .fla.ops.kda import (
+    FusedRMSNormGated,
+    chunk_kda,
+    fused_kda_gate,
+    fused_recurrent_kda,
+)
+from .linear import (
+    ColumnParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from .mamba.abstract import MambaBase
+from .mamba.mamba_utils import MambaStateDtypeCalculator, MambaStateShapeCalculator
+from .mamba.ops.causal_conv1d import causal_conv1d_fn, causal_conv1d_update
+from .quantization.base_config import QuantizationConfig
+
+logger = init_logger(__name__)
+
+
+def kda_attention(
+    hidden_states: torch.Tensor,
+    output: torch.Tensor,
+    layer_name: str,
+) -> None:
+    forward_context: ForwardContext = get_forward_context()
+    self = forward_context.no_compile_layers[layer_name]
+    self._forward(hidden_states=hidden_states, output=output)
+
+
+def kda_attention_fake(
+    hidden_states: torch.Tensor,
+    output: torch.Tensor,
+    layer_name: str,
+) -> None:
+    return
+
+
+direct_register_custom_op(
+    op_name="kda_attention",
+    op_func=kda_attention,
+    mutates_args=["output"],
+    fake_impl=kda_attention_fake,
+)
+
+
+class KimiDeltaAttention(nn.Module, MambaBase):
+    @property
+    def mamba_type(self) -> str:
+        return "linear_attention"
+
+    def get_attn_backend(self) -> type["AttentionBackend"]:
+        from vllm.v1.attention.backends.gdn_attn import GDNAttentionBackend
+
+        return GDNAttentionBackend
+
+    def get_state_dtype(
+        self,
+    ) -> tuple[torch.dtype, torch.dtype, torch.dtype, torch.dtype]:
+        if self.model_config is None or self.cache_config is None:
+            raise ValueError("model_config and cache_config must be set")
+        return MambaStateDtypeCalculator.kda_state_dtype(
+            self.model_config.dtype, self.cache_config.mamba_cache_dtype
+        )
+
+    def get_state_shape(
+        self,
+    ) -> tuple[tuple[int, ...], tuple[int, ...], tuple[int, ...], tuple[int, ...]]:
+        return MambaStateShapeCalculator.kda_state_shape(
+            self.tp_size, self.num_heads, self.head_dim, conv_kernel_size=self.conv_size
+        )
+
+    def __init__(
+        self,
+        layer_idx: int,
+        hidden_size: int,
+        quant_config: QuantizationConfig | None = None,
+        cache_config: CacheConfig | None = None,
+        model_config: ModelConfig | None = None,
+        rms_norm_eps: float = 1e-5,
+        prefix: str = "",
+        **kwargs,
+    ) -> None:
+        super().__init__()
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.tp_rank = get_tensor_model_parallel_rank()
+        self.hidden_size = hidden_size
+        self.model_config = model_config
+        self.cache_config = cache_config
+        if model_config is None:
+            raise ValueError("model_config must be provided")
+        kda_config = model_config.linear_attn_config
+        self.head_dim = kda_config["head_dim"]
+        self.num_heads = kda_config["num_heads"]
+        self.layer_idx = layer_idx
+        self.prefix = prefix
+        assert self.num_heads % self.tp_size == 0
+        self.local_num_heads = divide(self.num_heads, self.tp_size)
+
+        projection_size = self.head_dim * self.num_heads
+        self.conv_size = kda_config["short_conv_kernel_size"]
+
+        self.q_proj = ColumnParallelLinear(
+            self.hidden_size,
+            projection_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.q_proj",
+        )
+        self.k_proj = ColumnParallelLinear(
+            self.hidden_size,
+            projection_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.k_proj",
+        )
+        self.v_proj = ColumnParallelLinear(
+            self.hidden_size,
+            projection_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.v_proj",
+        )
+
+        self.f_a_proj = ReplicatedLinear(
+            self.hidden_size,
+            self.head_dim,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.f_a_proj",
+        )
+
+        self.f_b_proj = ColumnParallelLinear(
+            self.head_dim,
+            projection_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.f_b_proj",
+        )
+        self.dt_bias = nn.Parameter(
+            torch.empty(divide(projection_size, self.tp_size), dtype=torch.float32)
+        )
+
+        set_weight_attrs(self.dt_bias, {"weight_loader": sharded_weight_loader(0)})
+
+        self.b_proj = ColumnParallelLinear(
+            self.hidden_size,
+            self.num_heads,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.b_proj",
+        )
+
+        self.q_conv1d = ColumnParallelLinear(
+            input_size=self.conv_size,
+            output_size=projection_size,
+            bias=False,
+            params_dtype=torch.float32,
+            prefix=f"{prefix}.q_conv1d",
+        )
+        self.k_conv1d = ColumnParallelLinear(
+            input_size=self.conv_size,
+            output_size=projection_size,
+            bias=False,
+            params_dtype=torch.float32,
+            prefix=f"{prefix}.k_conv1d",
+        )
+        self.v_conv1d = ColumnParallelLinear(
+            input_size=self.conv_size,
+            output_size=projection_size,
+            bias=False,
+            params_dtype=torch.float32,
+            prefix=f"{prefix}.v_conv1d",
+        )
+        # unsqueeze to fit conv1d weights shape into the linear weights shape.
+        # Can't do this in `weight_loader` since it already exists in
+        # `ColumnParallelLinear` and `set_weight_attrs`
+        # doesn't allow to override it
+        self.q_conv1d.weight.data = self.q_conv1d.weight.data.unsqueeze(1)
+        self.k_conv1d.weight.data = self.k_conv1d.weight.data.unsqueeze(1)
+        self.v_conv1d.weight.data = self.v_conv1d.weight.data.unsqueeze(1)
+
+        self.A_log = nn.Parameter(
+            torch.empty(1, 1, self.local_num_heads, 1, dtype=torch.float32)
+        )
+        set_weight_attrs(self.A_log, {"weight_loader": sharded_weight_loader(2)})
+
+        self.g_a_proj = ReplicatedLinear(
+            self.hidden_size,
+            self.head_dim,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.g_a_proj",
+        )
+        self.g_b_proj = ColumnParallelLinear(
+            self.head_dim,
+            projection_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.g_b_proj",
+        )
+        self.o_norm = FusedRMSNormGated(
+            self.head_dim, eps=rms_norm_eps, activation="sigmoid"
+        )
+        self.o_proj = RowParallelLinear(
+            projection_size,
+            self.hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        compilation_config = get_current_vllm_config().compilation_config
+        if prefix in compilation_config.static_forward_context:
+            raise ValueError(f"Duplicate layer name: {prefix}")
+        compilation_config.static_forward_context[prefix] = self
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        positions: torch.Tensor,
+        output: torch.Tensor,
+    ) -> None:
+        return torch.ops.vllm.kda_attention(
+            hidden_states,
+            output,
+            self.prefix,
+        )
+
+    def _forward(
+        self,
+        hidden_states: torch.Tensor,
+        output: torch.Tensor,
+    ) -> None:
+        forward_context = get_forward_context()
+        attn_metadata: AttentionMetadata = forward_context.attn_metadata
+
+        if attn_metadata is None:
+            # V1 profile run
+            # Mimic the memory allocation in the real run
+            q = torch.empty_like(hidden_states)
+            k = torch.empty_like(hidden_states)
+            v = torch.empty_like(hidden_states)
+            g = hidden_states.new_empty(
+                hidden_states.size(0),
+                self.local_num_heads,
+                self.head_dim,
+                dtype=torch.float32,
+            )
+            beta = torch.empty(
+                hidden_states.size(0), self.local_num_heads, dtype=torch.float32
+            )
+            core_attn_out = torch.empty_like(hidden_states)
+            return
+
+        assert isinstance(attn_metadata, dict)
+        attn_metadata = attn_metadata[self.prefix]
+        assert isinstance(attn_metadata, GDNAttentionMetadata)
+        has_initial_state = attn_metadata.has_initial_state
+        non_spec_query_start_loc = attn_metadata.non_spec_query_start_loc
+        non_spec_state_indices_tensor = attn_metadata.non_spec_state_indices_tensor  # noqa: E501
+        constant_caches = self.kv_cache[forward_context.virtual_engine]
+
+        (conv_state_q, conv_state_k, conv_state_v, recurrent_state) = constant_caches
+        # deal with strides
+        conv_state_q = conv_state_q.transpose(-1, -2)
+        conv_state_k = conv_state_k.transpose(-1, -2)
+        conv_state_v = conv_state_v.transpose(-1, -2)
+
+        q_proj_states = self.q_proj(hidden_states)[0]
+        k_proj_states = self.k_proj(hidden_states)[0]
+        v_proj_states = self.v_proj(hidden_states)[0]
+
+        q_conv_weights = self.q_conv1d.weight.view(
+            self.q_conv1d.weight.size(0), self.q_conv1d.weight.size(2)
+        )
+        k_conv_weights = self.k_conv1d.weight.view(
+            self.k_conv1d.weight.size(0), self.k_conv1d.weight.size(2)
+        )
+        v_conv_weights = self.v_conv1d.weight.view(
+            self.v_conv1d.weight.size(0), self.v_conv1d.weight.size(2)
+        )
+        if attn_metadata.num_prefills > 0:
+            q_proj_states = q_proj_states.transpose(0, 1)
+            k_proj_states = k_proj_states.transpose(0, 1)
+            v_proj_states = v_proj_states.transpose(0, 1)
+            q = causal_conv1d_fn(
+                q_proj_states,
+                q_conv_weights,
+                self.q_conv1d.bias,
+                activation="silu",
+                conv_states=conv_state_q,
+                has_initial_state=has_initial_state,
+                cache_indices=non_spec_state_indices_tensor,
+                query_start_loc=non_spec_query_start_loc,
+                metadata=attn_metadata,
+            ).transpose(0, 1)
+            k = causal_conv1d_fn(
+                k_proj_states,
+                k_conv_weights,
+                self.k_conv1d.bias,
+                activation="silu",
+                conv_states=conv_state_k,
+                has_initial_state=has_initial_state,
+                cache_indices=non_spec_state_indices_tensor,
+                query_start_loc=non_spec_query_start_loc,
+                metadata=attn_metadata,
+            ).transpose(0, 1)
+            v = causal_conv1d_fn(
+                v_proj_states,
+                v_conv_weights,
+                self.v_conv1d.bias,
+                activation="silu",
+                conv_states=conv_state_v,
+                has_initial_state=has_initial_state,
+                cache_indices=non_spec_state_indices_tensor,
+                query_start_loc=non_spec_query_start_loc,
+                metadata=attn_metadata,
+            ).transpose(0, 1)
+        else:
+            decode_conv_indices = non_spec_state_indices_tensor[
+                : attn_metadata.num_decodes
+            ]
+            q = causal_conv1d_update(
+                q_proj_states,
+                conv_state_q,
+                q_conv_weights,
+                self.q_conv1d.bias,
+                activation="silu",
+                conv_state_indices=decode_conv_indices,
+                validate_data=True,
+            )
+            k = causal_conv1d_update(
+                k_proj_states,
+                conv_state_k,
+                k_conv_weights,
+                self.k_conv1d.bias,
+                activation="silu",
+                conv_state_indices=decode_conv_indices,
+                validate_data=True,
+            )
+            v = causal_conv1d_update(
+                v_proj_states,
+                conv_state_v,
+                v_conv_weights,
+                self.v_conv1d.bias,
+                activation="silu",
+                conv_state_indices=decode_conv_indices,
+                validate_data=True,
+            )
+
+        q, k, v = map(
+            lambda x: rearrange(x, "n (h d) -> 1 n h d", d=self.head_dim), (q, k, v)
+        )
+
+        beta = self.b_proj(hidden_states)[0].float().sigmoid()
+
+        g = self.f_b_proj(self.f_a_proj(hidden_states)[0])[0]
+        g = fused_kda_gate(g, self.A_log, self.head_dim, g_bias=self.dt_bias)
+
+        beta = beta.unsqueeze(0)
+        g = g.unsqueeze(0)
+
+        if attn_metadata.num_prefills > 0:
+            zero_idx = non_spec_state_indices_tensor[~has_initial_state]
+            recurrent_state[zero_idx] = 0
+            initial_state = recurrent_state[non_spec_state_indices_tensor].contiguous()
+            (
+                core_attn_out_non_spec,
+                last_recurrent_state,
+            ) = chunk_kda(
+                q=q,
+                k=k,
+                v=v,
+                g=g,
+                beta=beta,
+                initial_state=initial_state,
+                output_final_state=True,
+                use_qk_l2norm_in_kernel=True,
+                cu_seqlens=non_spec_query_start_loc,
+            )
+            # Init cache
+            recurrent_state[non_spec_state_indices_tensor] = last_recurrent_state
+        else:
+            (
+                core_attn_out_non_spec,
+                last_recurrent_state,
+            ) = fused_recurrent_kda(
+                q=q,
+                k=k,
+                v=v,
+                g=g,
+                beta=beta,
+                initial_state=recurrent_state,
+                use_qk_l2norm_in_kernel=True,
+                cu_seqlens=non_spec_query_start_loc,
+                ssm_state_indices=non_spec_state_indices_tensor,
+            )
+
+        g_proj_states = self.g_b_proj(self.g_a_proj(hidden_states)[0])[0]
+        g = rearrange(g_proj_states, "... (h d) -> ... h d", d=self.head_dim)
+        core_attn_out = self.o_norm(core_attn_out_non_spec, g)
+        core_attn_out = rearrange(core_attn_out, "1 n h d -> n (h d)")
+
+        output[:] = self.o_proj(core_attn_out)[0]
diff --git a/vllm/model_executor/layers/mamba/mamba_utils.py b/vllm/model_executor/layers/mamba/mamba_utils.py
index 91a45623582d5..831dab2fbb01c 100644
--- a/vllm/model_executor/layers/mamba/mamba_utils.py
+++ b/vllm/model_executor/layers/mamba/mamba_utils.py
@@ -80,6 +80,15 @@ class MambaStateDtypeCalculator:
         state_dtype = get_kv_cache_torch_dtype(mamba_cache_dtype, model_dtype)
         return (state_dtype, state_dtype)
 
+    @classmethod
+    def kda_state_dtype(
+        cls,
+        model_dtype: ModelDType | torch.dtype,
+        mamba_cache_dtype: MambaDType,
+    ):
+        state_dtype = get_kv_cache_torch_dtype(mamba_cache_dtype, model_dtype)
+        return (state_dtype, state_dtype, state_dtype, torch.float32)
+
 
 class MambaStateShapeCalculator:
     @classmethod
@@ -182,3 +191,35 @@ class MambaStateShapeCalculator:
             head_v_dim,
         )
         return conv_state_shape, temporal_state_shape
+
+    @classmethod
+    def kda_state_shape(
+        cls,
+        tp_world_size: int,
+        num_heads: int,
+        head_dim: int,
+        num_k_heads: int | None = None,
+        head_k_dim: int | None = None,
+        conv_kernel_size: int = 4,
+        num_spec: int = 0,
+    ) -> tuple[tuple[int, int], tuple[int, int], tuple[int, int], tuple[int, int, int]]:
+        if num_k_heads is None:
+            num_k_heads = num_heads
+        if head_k_dim is None:
+            head_k_dim = head_dim
+
+        proj_size = num_heads * head_dim
+        proj_k_size = num_k_heads * head_k_dim
+
+        conv_state_shape = (divide(proj_size, tp_world_size), conv_kernel_size - 1)
+        conv_state_k_shape = (divide(proj_k_size, tp_world_size), conv_kernel_size - 1)
+        recurrent_state_shape = (divide(num_heads, tp_world_size), head_dim, head_dim)
+
+        conv_state_shape = conv_state_shape[1], conv_state_shape[0]
+        conv_state_k_shape = conv_state_k_shape[1], conv_state_k_shape[0]
+        return (
+            conv_state_shape,
+            conv_state_k_shape,
+            conv_state_k_shape,
+            recurrent_state_shape,
+        )
diff --git a/vllm/model_executor/layers/mla.py b/vllm/model_executor/layers/mla.py
index 34f05f2ee9624..c4c44b83ae6bf 100644
--- a/vllm/model_executor/layers/mla.py
+++ b/vllm/model_executor/layers/mla.py
@@ -147,9 +147,10 @@ class MultiHeadLatentAttentionWrapper(CustomOp):
         # Add head dim of 1 to k_pe
         k_pe = k_pe.unsqueeze(1)
 
-        q[..., self.qk_nope_head_dim :], k_pe = self.rotary_emb(
-            positions, q[..., self.qk_nope_head_dim :], k_pe
-        )
+        if self.rotary_emb is not None:
+            q[..., self.qk_nope_head_dim :], k_pe = self.rotary_emb(
+                positions, q[..., self.qk_nope_head_dim :], k_pe
+            )
 
         if self.indexer and self.is_sparse:
             _topk_indices = self.indexer(hidden_states, q_c, positions, self.rotary_emb)
diff --git a/vllm/model_executor/models/config.py b/vllm/model_executor/models/config.py
index 3bd02121f018e..b0a48a9f1d458 100644
--- a/vllm/model_executor/models/config.py
+++ b/vllm/model_executor/models/config.py
@@ -1,6 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 from copy import deepcopy
+from math import lcm
 from typing import TYPE_CHECKING
 
 import vllm.envs as envs
@@ -8,7 +9,7 @@ from vllm.logger import init_logger
 from vllm.model_executor.models import ModelRegistry
 from vllm.utils.math_utils import cdiv, round_up
 from vllm.utils.torch_utils import STR_DTYPE_TO_TORCH_DTYPE
-from vllm.v1.kv_cache_interface import FullAttentionSpec, MambaSpec
+from vllm.v1.kv_cache_interface import FullAttentionSpec, MambaSpec, MLAAttentionSpec
 
 if TYPE_CHECKING:
     from vllm.config import VllmConfig
@@ -347,12 +348,28 @@ class HybridAttentionMambaModelConfig(VerifyAndUpdateConfig):
             kv_cache_dtype = STR_DTYPE_TO_TORCH_DTYPE[cache_config.cache_dtype]
 
         # get attention page size (for 1 token)
-        attn_page_size_1_token = FullAttentionSpec(
-            block_size=1,
-            num_kv_heads=model_config.get_num_kv_heads(parallel_config),
-            head_size=model_config.get_head_size(),
-            dtype=kv_cache_dtype,
-        ).page_size_bytes
+        # Attention backend constraints:
+        # - FlashAttention (FA) requires block size to be multiple of 16
+        # - MLA (Multi-head Latent Attention) requires larger alignment:
+        #   * CUTLASS_MLA backend: kernel_block_size 128 alignment
+        #   * Other MLA backends: kernel_block_size 64 alignment
+        if model_config.use_mla:
+            use_cutlass_mla = envs.VLLM_ATTENTION_BACKEND == "CUTLASS_MLA"
+            kernel_block_alignment_size = 128 if use_cutlass_mla else 64
+            attn_page_size_1_token = MLAAttentionSpec(
+                block_size=1,
+                num_kv_heads=model_config.get_num_kv_heads(parallel_config),
+                head_size=model_config.get_head_size(),
+                dtype=kv_cache_dtype,
+            ).page_size_bytes
+        else:
+            kernel_block_alignment_size = 16
+            attn_page_size_1_token = FullAttentionSpec(
+                block_size=1,
+                num_kv_heads=model_config.get_num_kv_heads(parallel_config),
+                head_size=model_config.get_head_size(),
+                dtype=kv_cache_dtype,
+            ).page_size_bytes
 
         model_cls, _ = ModelRegistry.resolve_model_cls(
             model_config.architecture,
@@ -372,17 +389,6 @@ class HybridAttentionMambaModelConfig(VerifyAndUpdateConfig):
         if mamba_page_size == 0:
             return
 
-        # Attention backend constraints:
-        # - FlashAttention (FA) requires block size to be multiple of 16
-        # - MLA (Multi-head Latent Attention) requires larger alignment:
-        #   * CUTLASS_MLA backend: 128-byte alignment
-        #   * Other MLA backends: 64-byte alignment
-        if model_config.use_mla:
-            use_cutlass_mla = envs.VLLM_ATTENTION_BACKEND == "CUTLASS_MLA"
-            kernel_block_alignment_size = 128 if use_cutlass_mla else 64
-        else:
-            kernel_block_alignment_size = 16
-
         if cache_config.enable_prefix_caching:
             # With prefix caching, select attention block size to
             # optimize for mamba kernel performance
@@ -400,15 +406,8 @@ class HybridAttentionMambaModelConfig(VerifyAndUpdateConfig):
             # easily by changing the way we layout chunks in the
             # mamba2 kernels.
 
-            from math import gcd
-
-            def lcm(a, b):
-                return a * b // gcd(a, b)
-
-            base_chunk_size = mamba_block_size or model_config.get_mamba_chunk_size()
-
+            base_chunk_size = model_config.get_mamba_chunk_size()
             attn_tokens_per_mamba_state = cdiv(mamba_page_size, attn_page_size_1_token)
-
             chunk_size = lcm(base_chunk_size, kernel_block_alignment_size)
             attn_block_size = chunk_size * cdiv(attn_tokens_per_mamba_state, chunk_size)
             cache_config.mamba_block_size = attn_block_size
diff --git a/vllm/model_executor/models/kimi_linear.py b/vllm/model_executor/models/kimi_linear.py
new file mode 100644
index 0000000000000..a60a8d764d9d1
--- /dev/null
+++ b/vllm/model_executor/models/kimi_linear.py
@@ -0,0 +1,663 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Iterable
+from typing import Any
+
+import torch
+from torch import nn
+
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, ModelConfig, ParallelConfig, VllmConfig
+from vllm.distributed import (
+    get_pp_group,
+    get_tensor_model_parallel_world_size,
+    tensor_model_parallel_all_reduce,
+)
+from vllm.logger import init_logger
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.fused_moe import FusedMoE
+from vllm.model_executor.layers.kda import KimiDeltaAttention
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.mamba.mamba_utils import (
+    MambaStateDtypeCalculator,
+    MambaStateShapeCalculator,
+)
+from vllm.model_executor.layers.mla import MLAModules, MultiHeadLatentAttentionWrapper
+from vllm.model_executor.layers.quantization.base_config import QuantizationConfig
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.configs.kimi_linear import KimiLinearConfig
+
+from .interfaces import HasInnerState, IsHybrid, MixtureOfExperts, SupportsPP
+from .utils import (
+    PPMissingLayer,
+    is_pp_missing_parameter,
+    make_layers,
+    maybe_prefix,
+)
+
+logger = init_logger(__name__)
+
+
+class KimiMLP(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str,
+        quant_config: QKVParallelLinear | None = None,
+        reduce_results: bool = True,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        self.gate_up_proj = MergedColumnParallelLinear(
+            hidden_size,
+            [intermediate_size] * 2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            intermediate_size,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            reduce_results=reduce_results,
+            prefix=f"{prefix}.down_proj",
+        )
+        if hidden_act != "silu":
+            raise ValueError(
+                f"Unsupported activation: {hidden_act}. Only silu is supported for now."
+            )
+        self.act_fn = SiluAndMul()
+
+    def forward(self, x):
+        gate_up, _ = self.gate_up_proj(x)
+        x = self.act_fn(gate_up)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class KimiMoE(nn.Module):
+    def __init__(
+        self,
+        config: KimiLinearConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        layer_idx: int = 0,
+    ):
+        super().__init__()
+        hidden_size = config.hidden_size
+        intermediate_size = config.intermediate_size
+        moe_intermediate_size = config.moe_intermediate_size
+        num_experts = config.num_experts
+        moe_renormalize = config.moe_renormalize
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.routed_scaling_factor = config.routed_scaling_factor
+        self.num_shared_experts = config.num_shared_experts
+        self.layer_idx = layer_idx
+
+        if config.hidden_act != "silu":
+            raise ValueError(
+                f"Unsupported activation: {config.hidden_act}. "
+                "Only silu is supported for now."
+            )
+
+        # Gate always runs at half / full precision for now.
+        self.gate = ReplicatedLinear(
+            hidden_size,
+            num_experts,
+            bias=False,
+            quant_config=None,
+            prefix=f"{prefix}.gate",
+        )
+
+        self.gate.e_score_correction_bias = nn.Parameter(torch.empty(num_experts))
+
+        self.experts = FusedMoE(
+            num_experts=num_experts,
+            top_k=config.num_experts_per_token,
+            hidden_size=hidden_size,
+            intermediate_size=moe_intermediate_size,
+            reduce_results=False,
+            renormalize=moe_renormalize,
+            quant_config=quant_config,
+            use_grouped_topk=config.use_grouped_topk,
+            num_expert_group=config.num_expert_group,
+            topk_group=config.topk_group,
+            prefix=f"{prefix}.experts",
+            scoring_func=config.moe_router_activation_func,
+            e_score_correction_bias=self.gate.e_score_correction_bias,
+        )
+
+        if self.num_shared_experts is not None:
+            intermediate_size = moe_intermediate_size * self.num_shared_experts
+            self.shared_experts = KimiMLP(
+                hidden_size=config.hidden_size,
+                intermediate_size=intermediate_size,
+                hidden_act=config.hidden_act,
+                quant_config=quant_config,
+                reduce_results=False,
+            )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        num_tokens, hidden_size = hidden_states.shape
+        hidden_states = hidden_states.view(-1, hidden_size)
+        if self.num_shared_experts is not None:
+            shared_output = self.shared_experts(hidden_states)
+        router_logits, _ = self.gate(hidden_states)
+        final_hidden_states = (
+            self.experts(hidden_states=hidden_states, router_logits=router_logits)
+            * self.routed_scaling_factor
+        )
+        if shared_output is not None:
+            final_hidden_states = final_hidden_states + shared_output
+
+        if self.tp_size > 1:
+            final_hidden_states = tensor_model_parallel_all_reduce(final_hidden_states)
+        return final_hidden_states.view(num_tokens, hidden_size)
+
+
+class KimiMLAAttention(nn.Module):
+    """
+    Main reference: DeepseekV2 vllm Implementation
+    """
+
+    def __init__(
+        self,
+        config: KimiLinearConfig,
+        hidden_size: int,
+        num_heads: int,
+        qk_nope_head_dim: int,
+        qk_rope_head_dim: int,
+        v_head_dim: int,
+        q_lora_rank: int | None,
+        kv_lora_rank: int,
+        rope_theta: float = 10000,
+        use_nope: bool = False,
+        rope_scaling: dict[str, Any] | None = None,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        **kwargs,
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        self.qk_nope_head_dim = qk_nope_head_dim
+        self.qk_rope_head_dim = qk_rope_head_dim
+        self.qk_head_dim = qk_nope_head_dim + qk_rope_head_dim
+        self.v_head_dim = v_head_dim
+        self.q_lora_rank = q_lora_rank
+        self.kv_lora_rank = kv_lora_rank
+        self.num_heads = num_heads
+        tp_size = get_tensor_model_parallel_world_size()
+        self.num_local_heads = num_heads // tp_size
+        self.scaling = self.qk_head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.use_nope = use_nope
+        assert self.use_nope is True
+        assert self.q_lora_rank is None
+        assert rope_scaling is None
+        assert num_heads % tp_size == 0
+        self.kv_a_proj_with_mqa = ReplicatedLinear(
+            self.hidden_size,
+            self.kv_lora_rank + self.qk_rope_head_dim,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.kv_a_proj_with_mqa",
+        )
+        self.q_proj = ColumnParallelLinear(
+            self.hidden_size,
+            self.num_heads * self.qk_head_dim,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.q_proj",
+        )
+        self.kv_a_layernorm = RMSNorm(
+            self.kv_lora_rank,
+            eps=config.rms_norm_eps,
+        )
+        self.kv_b_proj = ColumnParallelLinear(
+            self.kv_lora_rank,
+            self.num_heads * (self.qk_nope_head_dim + self.v_head_dim),
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.kv_b_proj",
+        )
+        self.o_proj = RowParallelLinear(
+            self.num_heads * self.v_head_dim,
+            self.hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        mla_modules = MLAModules(
+            kv_a_layernorm=self.kv_a_layernorm,
+            kv_b_proj=self.kv_b_proj,
+            rotary_emb=None,
+            o_proj=self.o_proj,
+            fused_qkv_a_proj=None,
+            kv_a_proj_with_mqa=self.kv_a_proj_with_mqa,
+            q_a_layernorm=None,
+            q_b_proj=None,
+            q_proj=self.q_proj,
+            indexer=None,
+            is_sparse=False,
+            topk_indices_buffer=None,
+        )
+        self.mla_attn = MultiHeadLatentAttentionWrapper(
+            self.hidden_size,
+            self.num_local_heads,
+            self.scaling,
+            self.qk_nope_head_dim,
+            self.qk_rope_head_dim,
+            self.v_head_dim,
+            self.q_lora_rank,
+            self.kv_lora_rank,
+            mla_modules,
+            cache_config,
+            quant_config,
+            prefix,
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        output: torch.Tensor,
+    ) -> None:
+        output[:] = self.mla_attn(positions, hidden_states)
+
+
+class KimiDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: KimiLinearConfig,
+        layer_idx: int,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        parallel_config: ParallelConfig | None = None,
+        model_config: ModelConfig | None = None,
+        prefix: str = "",
+        **kwargs,
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+
+        self.is_moe = config.is_moe
+
+        if config.is_kda_layer(layer_idx):
+            self.self_attn = KimiDeltaAttention(
+                layer_idx=layer_idx,
+                hidden_size=config.hidden_size,
+                quant_config=quant_config,
+                cache_config=cache_config,
+                model_config=config,
+                prefix=f"{prefix}.self_attn",
+            )
+        else:
+            self.self_attn = KimiMLAAttention(
+                layer_idx=layer_idx,
+                hidden_size=self.hidden_size,
+                num_heads=config.num_attention_heads,
+                quant_config=quant_config,
+                cache_config=cache_config,
+                model_config=model_config,
+                prefix=f"{prefix}.self_attn",
+                config=config,
+                qk_nope_head_dim=config.qk_nope_head_dim,
+                qk_rope_head_dim=config.qk_rope_head_dim,
+                v_head_dim=config.v_head_dim,
+                q_lora_rank=config.q_lora_rank,
+                kv_lora_rank=config.kv_lora_rank,
+                use_nope=config.mla_use_nope,
+            )
+
+        if (
+            self.is_moe
+            and config.num_experts is not None
+            and layer_idx >= config.first_k_dense_replace
+            and layer_idx % config.moe_layer_freq == 0
+        ):
+            self.block_sparse_moe = KimiMoE(
+                config=config,
+                quant_config=quant_config,
+                prefix=f"{prefix}.mlp",
+            )
+            self.mlp = self.block_sparse_moe
+        else:
+            self.mlp = KimiMLP(
+                hidden_size=self.hidden_size,
+                intermediate_size=config.intermediate_size,
+                hidden_act=config.hidden_act,
+                quant_config=quant_config,
+                prefix=f"{prefix}.mlp",
+            )
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+        **kwargs,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        # Self Attention
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+
+        attn_output = torch.empty_like(hidden_states)
+        self.self_attn(
+            hidden_states=hidden_states,
+            positions=positions,
+            output=attn_output,
+        )
+        hidden_states = attn_output
+
+        # Fully Connected
+        hidden_states, residual = self.post_attention_layernorm(hidden_states, residual)
+        hidden_states = self.mlp(hidden_states)
+        return hidden_states, residual
+
+
+@support_torch_compile
+class KimiLinearModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_text_config
+        model_config = vllm_config.model_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+        parallel_config = vllm_config.parallel_config
+        self.config = config
+
+        self.padding_idx = config.pad_token_id
+        self.vocab_size = config.vocab_size
+
+        if get_pp_group().is_first_rank:
+            self.embed_tokens = VocabParallelEmbedding(
+                config.vocab_size,
+                config.hidden_size,
+                prefix=f"{prefix}.embed_tokens",
+            )
+        else:
+            self.embed_tokens = PPMissingLayer()
+
+        extra_kwargs = {}
+
+        def get_layer(prefix: str):
+            layer_idx = int(prefix.rsplit(".", 1)[1])
+            return KimiDecoderLayer(
+                config,
+                layer_idx,
+                cache_config,
+                quant_config,
+                parallel_config,
+                model_config,
+                prefix,
+                **extra_kwargs,
+            )
+
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            get_layer,
+            prefix=f"{prefix}.layers",
+        )
+
+        if get_pp_group().is_last_rank:
+            self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        else:
+            self.norm = PPMissingLayer()
+
+        world_size = get_tensor_model_parallel_world_size()
+        assert config.num_attention_heads % world_size == 0, (
+            "num_attention_heads must be divisible by world_size"
+        )
+
+    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor | None,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs,
+    ) -> torch.Tensor:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.get_input_embeddings(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        for _, layer in enumerate(self.layers[self.start_layer : self.end_layer]):
+            hidden_states, residual = layer(
+                positions=positions,
+                hidden_states=hidden_states,
+                residual=residual,
+            )
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+
+        hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states
+
+
+class KimiLinearForCausalLM(
+    nn.Module, HasInnerState, SupportsPP, MixtureOfExperts, IsHybrid
+):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        self.model_config = vllm_config.model_config
+        self.vllm_config = vllm_config
+        self.config = self.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        self.quant_config = quant_config
+        self.model = KimiLinearModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        if get_pp_group().is_last_rank:
+            self.lm_head = ParallelLMHead(
+                self.config.vocab_size,
+                self.config.hidden_size,
+                quant_config=quant_config,
+                prefix=maybe_prefix(prefix, "lm_head"),
+            )
+        else:
+            self.lm_head = PPMissingLayer()
+        logit_scale = getattr(self.config, "logit_scale", 1.0)
+        self.logits_processor = LogitsProcessor(
+            self.config.vocab_size, scale=logit_scale
+        )
+
+    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.get_input_embeddings(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds, **kwargs
+        )
+        return hidden_states
+
+    @classmethod
+    def get_mamba_state_dtype_from_config(
+        cls,
+        vllm_config: "VllmConfig",
+    ) -> tuple[torch.dtype, torch.dtype, torch.dtype, torch.dtype]:
+        return MambaStateDtypeCalculator.kda_state_dtype(
+            vllm_config.model_config.dtype, vllm_config.cache_config.mamba_cache_dtype
+        )
+
+    @classmethod
+    def get_mamba_state_shape_from_config(
+        cls, vllm_config: "VllmConfig"
+    ) -> tuple[tuple[int, ...], tuple[int, ...], tuple[int, ...], tuple[int, ...]]:
+        parallel_config = vllm_config.parallel_config
+        hf_config = vllm_config.model_config.hf_config
+        tp_size = parallel_config.tensor_parallel_size
+        num_spec = (
+            vllm_config.speculative_config.num_speculative_tokens
+            if vllm_config.speculative_config
+            else 0
+        )
+        return MambaStateShapeCalculator.kda_state_shape(
+            tp_size,
+            hf_config.linear_attn_config["num_heads"],
+            hf_config.linear_attn_config["head_dim"],
+            conv_kernel_size=hf_config.linear_attn_config["short_conv_kernel_size"],
+            num_spec=num_spec,
+        )
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.logits_processor(self.lm_head, hidden_states)
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            (".gate_up_proj", ".gate_proj", 0),
+            (".gate_up_proj", ".up_proj", 1),
+        ]
+        if self.config.is_moe:
+            # Params for weights, fp8 weight scales, fp8 activation scales
+            # (param_name, weight_name, expert_id, shard_id)
+            expert_params_mapping = FusedMoE.make_expert_params_mapping(
+                ckpt_gate_proj_name="w1",
+                ckpt_down_proj_name="w2",
+                ckpt_up_proj_name="w3",
+                num_experts=self.config.num_experts,
+            )
+        else:
+            expert_params_mapping = []
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for args in weights:
+            name, loaded_weight = args[:2]
+            kwargs = args[2] if len(args) > 2 else {}
+            if "rotary_emb.inv_freq" in name:
+                continue
+
+            spec_layer = get_spec_layer_idx_from_weight_name(self.config, name)
+            if spec_layer is not None:
+                continue  # skip spec decode layers for main model
+            if "rotary_emb.cos_cached" in name or "rotary_emb.sin_cached" in name:
+                # Models trained using ColossalAI may include these tensors in
+                # the checkpoint. Skip them.
+                continue
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                # We have mlp.experts[0].gate_proj in the checkpoint.
+                # Since we handle the experts below in expert_params_mapping,
+                # we need to skip here BEFORE we update the name, otherwise
+                # name will be updated to mlp.experts[0].gate_up_proj, which
+                # will then be updated below in expert_params_mapping
+                # for mlp.experts[0].gate_gate_up_proj, which breaks load.
+                if ("mlp.experts." in name) and name not in params_dict:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                for idx, (param_name, weight_name, expert_id, shard_id) in enumerate(
+                    expert_params_mapping
+                ):
+                    if weight_name not in name:
+                        continue
+                    name = name.replace(weight_name, param_name)
+                    if is_pp_missing_parameter(name, self):
+                        continue
+                    param = params_dict[name]
+                    weight_loader = param.weight_loader
+                    weight_loader(
+                        param,
+                        loaded_weight,
+                        name,
+                        expert_id=expert_id,
+                        shard_id=shard_id,
+                    )
+                    break
+                else:
+                    # Skip loading extra bias for GPTQ models.
+                    if (
+                        name.endswith(".bias")
+                        and name not in params_dict
+                        and not self.config.is_linear_attn
+                    ):  # noqa: E501
+                        continue
+                    # Remapping the name of FP8 kv-scale.
+                    name = maybe_remap_kv_scale_name(name, params_dict)
+                    if name is None:
+                        continue
+                    if is_pp_missing_parameter(name, self):
+                        continue
+
+                    param = params_dict[name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(param, loaded_weight, **kwargs)
+            loaded_params.add(name)
+
+
+def get_spec_layer_idx_from_weight_name(
+    config: KimiLinearConfig, weight_name: str
+) -> int | None:
+    if hasattr(config, "num_nextn_predict_layers") and (
+        config.num_nextn_predict_layers > 0
+    ):
+        layer_idx = config.num_hidden_layers
+        for i in range(config.num_nextn_predict_layers):
+            if weight_name.startswith(f"model.layers.{layer_idx + i}."):
+                return layer_idx + i
+    return None
diff --git a/vllm/model_executor/models/registry.py b/vllm/model_executor/models/registry.py
index 0027954ac2771..8e4413c90cf6c 100644
--- a/vllm/model_executor/models/registry.py
+++ b/vllm/model_executor/models/registry.py
@@ -118,6 +118,7 @@ _TEXT_GENERATION_MODELS = {
     "InternLM3ForCausalLM": ("llama", "LlamaForCausalLM"),
     "JAISLMHeadModel": ("jais", "JAISLMHeadModel"),
     "JambaForCausalLM": ("jamba", "JambaForCausalLM"),
+    "KimiLinearForCausalLM": ("kimi_linear", "KimiLinearForCausalLM"),  # noqa: E501
     "Lfm2ForCausalLM": ("lfm2", "Lfm2ForCausalLM"),
     "Lfm2MoeForCausalLM": ("lfm2_moe", "Lfm2MoeForCausalLM"),
     "LlamaForCausalLM": ("llama", "LlamaForCausalLM"),
diff --git a/vllm/transformers_utils/config.py b/vllm/transformers_utils/config.py
index 34c0429a80679..b1f4e3e2a9831 100644
--- a/vllm/transformers_utils/config.py
+++ b/vllm/transformers_utils/config.py
@@ -79,6 +79,7 @@ _CONFIG_REGISTRY: dict[str, type[PretrainedConfig]] = LazyConfigDict(
     deepseek_v3="DeepseekV3Config",
     deepseek_v32="DeepseekV3Config",
     flex_olmo="FlexOlmoConfig",
+    kimi_linear="KimiLinearConfig",
     kimi_vl="KimiVLConfig",
     Llama_Nemotron_Nano_VL="Nemotron_Nano_VL_Config",
     RefinedWeb="RWConfig",  # For tiiuae/falcon-40b(-instruct)
diff --git a/vllm/transformers_utils/configs/__init__.py b/vllm/transformers_utils/configs/__init__.py
index befe9cdae76a1..663a8e44d71dd 100644
--- a/vllm/transformers_utils/configs/__init__.py
+++ b/vllm/transformers_utils/configs/__init__.py
@@ -19,6 +19,7 @@ from vllm.transformers_utils.configs.eagle import EAGLEConfig
 from vllm.transformers_utils.configs.falcon import RWConfig
 from vllm.transformers_utils.configs.flex_olmo import FlexOlmoConfig
 from vllm.transformers_utils.configs.jais import JAISConfig
+from vllm.transformers_utils.configs.kimi_linear import KimiLinearConfig
 from vllm.transformers_utils.configs.kimi_vl import KimiVLConfig
 from vllm.transformers_utils.configs.lfm2_moe import Lfm2MoeConfig
 from vllm.transformers_utils.configs.medusa import MedusaConfig
@@ -54,6 +55,7 @@ __all__ = [
     "MiDashengLMConfig",
     "MLPSpeculatorConfig",
     "MoonViTConfig",
+    "KimiLinearConfig",
     "KimiVLConfig",
     "NemotronConfig",
     "NemotronHConfig",
diff --git a/vllm/transformers_utils/configs/kimi_linear.py b/vllm/transformers_utils/configs/kimi_linear.py
new file mode 100644
index 0000000000000..65ddf48c5249b
--- /dev/null
+++ b/vllm/transformers_utils/configs/kimi_linear.py
@@ -0,0 +1,144 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from transformers.configuration_utils import PretrainedConfig
+
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+class KimiLinearConfig(PretrainedConfig):
+    model_type = "kimi_linear"
+    keys_to_ignore_at_inference = ["past_key_values"]
+
+    def __init__(
+        self,
+        model_type="kimi_linear",
+        vocab_size=163840,
+        hidden_size=4096,
+        head_dim=None,
+        intermediate_size=11008,
+        num_hidden_layers=32,
+        num_attention_heads=32,
+        num_key_value_heads=None,
+        hidden_act="silu",
+        initializer_range=0.02,
+        rms_norm_eps=1e-6,
+        use_cache=True,
+        pad_token_id=0,
+        bos_token_id=1,
+        eos_token_id=2,
+        rope_theta=10000.0,
+        rope_scaling=None,
+        tie_word_embeddings=False,
+        moe_intermediate_size: int | None = None,
+        moe_renormalize: bool = True,
+        moe_router_activation_func: str = "sigmoid",
+        num_experts: int | None = None,
+        num_experts_per_token: int | None = None,
+        num_shared_experts: int = 0,
+        routed_scaling_factor: float = 1.0,
+        first_k_dense_replace: int = 0,
+        moe_layer_freq: int = 1,
+        use_grouped_topk: bool = True,
+        num_expert_group: int = 1,
+        topk_group: int = 1,
+        q_lora_rank: int | None = None,
+        kv_lora_rank: int | None = None,
+        qk_nope_head_dim: int | None = None,
+        qk_rope_head_dim: int | None = None,
+        v_head_dim: int | None = None,
+        mla_use_nope: bool | None = False,
+        num_nextn_predict_layers: int = 0,
+        linear_attn_config: dict | None = None,
+        **kwargs,
+    ):
+        self.model_type = model_type
+        self.vocab_size = vocab_size
+        self.hidden_size = hidden_size
+        self.head_dim = (
+            head_dim if head_dim is not None else hidden_size // num_attention_heads
+        )
+        self.intermediate_size = intermediate_size
+        self.num_hidden_layers = num_hidden_layers
+        self.num_attention_heads = num_attention_heads
+
+        # for backward compatibility
+        if num_key_value_heads is None:
+            num_key_value_heads = num_attention_heads
+
+        self.num_key_value_heads = num_key_value_heads
+        self.hidden_act = hidden_act
+        self.initializer_range = initializer_range
+        self.rms_norm_eps = rms_norm_eps
+        self.use_cache = use_cache
+        self.rope_theta = rope_theta
+        self.rope_scaling = rope_scaling
+
+        self.q_lora_rank = q_lora_rank
+        self.kv_lora_rank = kv_lora_rank
+        self.qk_nope_head_dim = qk_nope_head_dim
+        self.qk_rope_head_dim = qk_rope_head_dim
+        self.v_head_dim = v_head_dim
+        self.mla_use_nope = mla_use_nope
+        # moe config
+        self.num_experts = num_experts
+        self.num_experts_per_token = num_experts_per_token
+        self.moe_renormalize = moe_renormalize
+        self.num_shared_experts = num_shared_experts
+        self.routed_scaling_factor = routed_scaling_factor
+        self.moe_router_activation_func = moe_router_activation_func
+        assert self.moe_router_activation_func in ("softmax", "sigmoid")
+        self.moe_intermediate_size = moe_intermediate_size
+        self.first_k_dense_replace = first_k_dense_replace
+        self.moe_layer_freq = moe_layer_freq
+        self.use_grouped_topk = use_grouped_topk
+        self.num_expert_group = num_expert_group
+        self.topk_group = topk_group
+        self.num_nextn_predict_layers = num_nextn_predict_layers
+
+        if linear_attn_config is not None:
+            assert linear_attn_config["kda_layers"] is not None
+            assert linear_attn_config["full_attn_layers"] is not None
+        self.linear_attn_config = linear_attn_config
+
+        super().__init__(
+            pad_token_id=pad_token_id,
+            bos_token_id=bos_token_id,
+            eos_token_id=eos_token_id,
+            tie_word_embeddings=tie_word_embeddings,
+            **kwargs,
+        )
+
+    @property
+    def is_mla(self):
+        return (
+            self.q_lora_rank is not None
+            or self.kv_lora_rank is not None
+            or self.qk_nope_head_dim is not None
+            or self.qk_rope_head_dim is not None
+            or self.v_head_dim is not None
+            or self.mla_use_nope is True
+        )
+
+    @property
+    def is_moe(self):
+        return self.num_experts is not None
+
+    @property
+    def is_linear_attn(self) -> bool:
+        return not (
+            self.linear_attn_config is None
+            or (
+                isinstance(self.linear_attn_config, dict)
+                and self.linear_attn_config["kda_layers"] is not None
+                and len(self.linear_attn_config["kda_layers"]) == 0
+            )
+        )
+
+    def is_kda_layer(self, layer_idx: int):
+        return (
+            self.linear_attn_config is not None
+            and (layer_idx + 1) in self.linear_attn_config["kda_layers"]
+        )
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index 1fe749c614ccf..729ce462cf186 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -8,6 +8,7 @@ from collections import defaultdict
 from collections.abc import Iterator
 from contextlib import contextmanager
 from copy import deepcopy
+from functools import reduce
 from itertools import product
 from typing import TYPE_CHECKING, Any, NamedTuple, TypeAlias, cast
 
@@ -4134,26 +4135,18 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
 
     def calculate_reorder_batch_threshold(self) -> None:
         """
-        Check that if any backends reorder batches; that the reordering
-        is compatible (e.g., decode threshold is the same)
+        Choose the minimum reorder batch threshold from all attention groups.
+        Backends should be able to support lower threshold then what they request
+        just may have a performance penalty due to that backend treating decodes
+        as prefills.
         """
-        for group in self._attn_group_iterator():
-            attn_metadata_builder_i = group.get_metadata_builder()
+        min_none_high = lambda a, b: a if b is None else b if a is None else min(a, b)
 
-            # check that if any backends reorder batches; that the reordering
-            # is compatible (e.g., decode threshold is the same)
-            reorder_batch_threshold_i = attn_metadata_builder_i.reorder_batch_threshold
-            if reorder_batch_threshold_i is not None:
-                if self.reorder_batch_threshold is not None:
-                    if reorder_batch_threshold_i != self.reorder_batch_threshold:
-                        raise ValueError(
-                            f"Attention backend reorders decodes with "
-                            f"threshold {reorder_batch_threshold_i} but other "
-                            f"backend uses threshold "
-                            f"{self.reorder_batch_threshold}"
-                        )
-                else:
-                    self.reorder_batch_threshold = reorder_batch_threshold_i
+        reorder_batch_thresholds = [
+            group.get_metadata_builder().reorder_batch_threshold
+            for group in self._attn_group_iterator()
+        ]
+        self.reorder_batch_threshold = reduce(min_none_high, reorder_batch_thresholds)
 
     def _find_compatible_block_sizes(
         self,

From 0fe01404082744c955d135c3634e17de1404b00c Mon Sep 17 00:00:00 2001
From: Zhewen Li <zhewenli@meta.com>
Date: Thu, 30 Oct 2025 07:10:29 -0700
Subject: [PATCH 022/976] [KV offload] Enable CPU KV offload on CUDA alike
 Platforms (#27770)

Signed-off-by: zhewenli <zhewenli@meta.com>
---
 tests/v1/kv_offload/test_cpu_offloading.py | 4 ----
 vllm/v1/kv_offload/cpu.py                  | 4 ++--
 2 files changed, 2 insertions(+), 6 deletions(-)

diff --git a/tests/v1/kv_offload/test_cpu_offloading.py b/tests/v1/kv_offload/test_cpu_offloading.py
index a5cb23c4ef0f2..b654ea4298dbb 100644
--- a/tests/v1/kv_offload/test_cpu_offloading.py
+++ b/tests/v1/kv_offload/test_cpu_offloading.py
@@ -12,7 +12,6 @@ from tqdm import tqdm
 from vllm import LLM, SamplingParams, TokensPrompt
 from vllm.config import KVEventsConfig, KVTransferConfig
 from vllm.distributed.kv_events import BlockStored, KVEventBatch
-from vllm.platforms import current_platform
 
 CPU_BLOCK_SIZES = [16, 48]
 
@@ -64,9 +63,6 @@ class MockSubscriber:
         self.sub.close()
 
 
-@pytest.mark.skipif(
-    not current_platform.is_cuda(), reason="CPU offloading only supported on CUDA"
-)
 @pytest.mark.parametrize("cpu_block_size", CPU_BLOCK_SIZES)
 def test_cpu_offloading(cpu_block_size: int) -> None:
     """
diff --git a/vllm/v1/kv_offload/cpu.py b/vllm/v1/kv_offload/cpu.py
index 250ed5e95af4b..f765d19ea0175 100644
--- a/vllm/v1/kv_offload/cpu.py
+++ b/vllm/v1/kv_offload/cpu.py
@@ -51,9 +51,9 @@ class CPUOffloadingSpec(OffloadingSpec):
         self, kv_caches: dict[str, torch.Tensor]
     ) -> Iterator[tuple[type[LoadStoreSpec], type[LoadStoreSpec], OffloadingHandler]]:
         if not self._handler:
-            if not current_platform.is_cuda():
+            if not current_platform.is_cuda_alike():
                 raise Exception(
-                    "CPU Offloading is currently only supported on CUDA GPUs"
+                    "CPU Offloading is currently only supported on CUDA-alike GPUs"
                 )
 
             layer_names = list(kv_caches.keys())

From 9956aae4ead0906abe7a1840a503587cab2013c1 Mon Sep 17 00:00:00 2001
From: Fan Yin <1106310035@qq.com>
Date: Thu, 30 Oct 2025 22:34:41 +0800
Subject: [PATCH 023/976] [Model][Ouro] Support Ouro Model (#27794)

Signed-off-by: yinfan.1024 <yinfan.1024@bytedance.com>
Signed-off-by: youkaichao <youkaichao@gmail.com>
Co-authored-by: yinfan.1024 <yinfan.1024@bytedance.com>
Co-authored-by: youkaichao <youkaichao@gmail.com>
Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>
---
 docs/models/supported_models.md        |   1 +
 tests/models/registry.py               |   1 +
 vllm/model_executor/models/ouro.py     | 518 +++++++++++++++++++++++++
 vllm/model_executor/models/registry.py |   1 +
 4 files changed, 521 insertions(+)
 create mode 100644 vllm/model_executor/models/ouro.py

diff --git a/docs/models/supported_models.md b/docs/models/supported_models.md
index c9744d31f0efc..fd25647dce54b 100644
--- a/docs/models/supported_models.md
+++ b/docs/models/supported_models.md
@@ -403,6 +403,7 @@ th {
 | `OLMoEForCausalLM` | OLMoE | `allenai/OLMoE-1B-7B-0924`, `allenai/OLMoE-1B-7B-0924-Instruct`, etc. | | ✅︎ |
 | `OPTForCausalLM` | OPT, OPT-IML | `facebook/opt-66b`, `facebook/opt-iml-max-30b`, etc. | ✅︎ | ✅︎ |
 | `OrionForCausalLM` | Orion | `OrionStarAI/Orion-14B-Base`, `OrionStarAI/Orion-14B-Chat`, etc. | | ✅︎ |
+| `OuroForCausalLM` | ouro | `ByteDance/Ouro-1.4B`, `ByteDance/Ouro-2.6B`, etc. | ✅︎ | |
 | `PhiForCausalLM` | Phi | `microsoft/phi-1_5`, `microsoft/phi-2`, etc. | ✅︎ | ✅︎ |
 | `Phi3ForCausalLM` | Phi-4, Phi-3 | `microsoft/Phi-4-mini-instruct`, `microsoft/Phi-4`, `microsoft/Phi-3-mini-4k-instruct`, `microsoft/Phi-3-mini-128k-instruct`, `microsoft/Phi-3-medium-128k-instruct`, etc. | ✅︎ | ✅︎ |
 | `PhiMoEForCausalLM` | Phi-3.5-MoE | `microsoft/Phi-3.5-MoE-instruct`, etc. | ✅︎ | ✅︎ |
diff --git a/tests/models/registry.py b/tests/models/registry.py
index 9a2a1eb5f1a74..7b5977ec58e53 100644
--- a/tests/models/registry.py
+++ b/tests/models/registry.py
@@ -369,6 +369,7 @@ _TEXT_GENERATION_EXAMPLE_MODELS = {
     "OrionForCausalLM": _HfExamplesInfo(
         "OrionStarAI/Orion-14B-Chat", trust_remote_code=True
     ),
+    "OuroForCausalLM": _HfExamplesInfo("ByteDance/Ouro-1.4B", trust_remote_code=True),
     "PersimmonForCausalLM": _HfExamplesInfo("adept/persimmon-8b-chat"),
     "PhiForCausalLM": _HfExamplesInfo("microsoft/phi-2"),
     "Phi3ForCausalLM": _HfExamplesInfo("microsoft/Phi-3-mini-4k-instruct"),
diff --git a/vllm/model_executor/models/ouro.py b/vllm/model_executor/models/ouro.py
new file mode 100644
index 0000000000000..b8dad909c5470
--- /dev/null
+++ b/vllm/model_executor/models/ouro.py
@@ -0,0 +1,518 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# Copyright (c) 2025 Bytedance Ltd. and/or its affiliates
+# Adapted from
+# https://github.com/huggingface/transformers/blob/v4.28.0/src/transformers/models/qwen2/modeling_qwen2.py
+# Copyright 2024 The Qwen team.
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Inference-only Ouro model compatible with HuggingFace weights."""
+
+from collections.abc import Iterable
+from typing import Any
+
+import torch
+from torch import nn
+from transformers import PretrainedConfig
+
+from vllm.attention import Attention, AttentionType
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig
+from vllm.distributed import get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsLoRA
+from .utils import (
+    AutoWeightsLoader,
+    extract_layer_index,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+
+
+class OuroMLP(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.gate_up_proj = MergedColumnParallelLinear(
+            hidden_size,
+            [intermediate_size] * 2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            intermediate_size,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
+        )
+        if hidden_act != "silu":
+            raise ValueError(
+                f"Unsupported activation: {hidden_act}. Only silu is supported for now."
+            )
+        self.act_fn = SiluAndMul()
+
+    def forward(self, x):
+        gate_up, _ = self.gate_up_proj(x)
+        x = self.act_fn(gate_up)
+        x, _ = self.down_proj(x)
+        return x
+
+
+class OuroAttention(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        max_position: int = 4096 * 32,
+        rope_theta: float = 10000,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        rope_scaling: tuple | None = None,
+        prefix: str = "",
+        attn_type: str = AttentionType.DECODER,
+        dual_chunk_attention_config: dict[str, Any] | None = None,
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = hidden_size // self.total_num_heads
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.dual_chunk_attention_config = dual_chunk_attention_config
+
+        # Get total_ut_steps from config, default to 4 if not specified
+        total_ut_steps = getattr(config, "total_ut_steps", 4)
+
+        # Use total number of hidden layers instead of hardcoded 24
+        total_layers = config.num_hidden_layers
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=max_position,
+            base=self.rope_theta,
+            rope_scaling=rope_scaling,
+            dual_chunk_attention_config=dual_chunk_attention_config,
+        )
+        self.attn = nn.ModuleList()
+        for ut_step in range(total_ut_steps):
+            base_layer_idx = extract_layer_index(prefix)
+            unique_layer_idx = ut_step * total_layers + base_layer_idx
+
+            unique_prefix = prefix.replace(
+                f"layers.{base_layer_idx}", f"layers.{unique_layer_idx}"
+            )
+
+            self.attn.append(
+                Attention(
+                    self.num_heads,
+                    self.head_dim,
+                    self.scaling,
+                    num_kv_heads=self.num_kv_heads,
+                    cache_config=cache_config,
+                    quant_config=quant_config,
+                    attn_type=attn_type,
+                    prefix=f"{unique_prefix}.attn",
+                    **{
+                        "layer_idx": unique_layer_idx,
+                        "dual_chunk_attention_config": dual_chunk_attention_config,
+                    }
+                    if dual_chunk_attention_config
+                    else {},
+                )
+            )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        current_ut: int,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn[current_ut](q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class OuroDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        # Requires transformers > 4.32.0
+        rope_theta = getattr(config, "rope_theta", 1000000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        dual_chunk_attention_config = getattr(
+            config, "dual_chunk_attention_config", None
+        )
+
+        if getattr(config, "is_causal", True):
+            attn_type = AttentionType.DECODER
+        else:
+            attn_type = AttentionType.ENCODER_ONLY
+
+        self.self_attn = OuroAttention(
+            config=config,
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            max_position=config.max_position_embeddings,
+            num_kv_heads=config.num_key_value_heads,
+            rope_theta=rope_theta,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            rope_scaling=rope_scaling,
+            prefix=f"{prefix}.self_attn",
+            attn_type=attn_type,
+            dual_chunk_attention_config=dual_chunk_attention_config,
+        )
+        self.mlp = OuroMLP(
+            hidden_size=self.hidden_size,
+            intermediate_size=config.intermediate_size,
+            hidden_act=config.hidden_act,
+            quant_config=quant_config,
+            prefix=f"{prefix}.mlp",
+        )
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.input_layernorm_2 = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+        self.post_attention_layernorm_2 = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        current_ut: int,
+        residual: torch.Tensor | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+        hidden_states = self.self_attn(
+            positions=positions, hidden_states=hidden_states, current_ut=current_ut
+        )
+        hidden_states = self.input_layernorm_2(hidden_states)
+
+        hidden_states, residual = self.post_attention_layernorm(hidden_states, residual)
+        hidden_states = self.mlp(hidden_states)
+        hidden_states = self.post_attention_layernorm_2(hidden_states)
+
+        return hidden_states, residual
+
+
+@support_torch_compile(
+    dynamic_arg_dims={
+        "input_ids": 0,
+        "positions": -1,
+        "intermediate_tensors": 0,
+        "inputs_embeds": 0,
+    }
+)
+class OuroModel(nn.Module):
+    def __init__(
+        self,
+        *,
+        vllm_config: VllmConfig,
+        prefix: str = "",
+        decoder_layer_type: type[nn.Module] = OuroDecoderLayer,
+    ):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+
+        # TODO (@robertgshaw2): see if this can be moved out
+        if cache_config.sliding_window is not None and hasattr(
+            config, "max_window_layers"
+        ):
+            assert config.max_window_layers == config.num_hidden_layers, (
+                "Sliding window for some but all layers is not supported. "
+                "This model uses sliding window but `max_window_layers` = {} "
+                "is less than `num_hidden_layers` = {}. Please open an issue "
+                "to discuss this feature.".format(
+                    config.max_window_layers,
+                    config.num_hidden_layers,
+                )
+            )
+
+        self.config = config
+        self.quant_config = quant_config
+        self.vocab_size = config.vocab_size
+
+        self.embed_tokens = VocabParallelEmbedding(
+            config.vocab_size,
+            config.hidden_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.embed_tokens",
+        )
+
+        # Use the provided decoder layer type or default to OuroDecoderLayer
+        decoder_layer_type = decoder_layer_type or OuroDecoderLayer
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: decoder_layer_type(
+                config=config,
+                cache_config=cache_config,
+                quant_config=quant_config,
+                prefix=prefix,
+            ),
+            prefix=f"{prefix}.layers",
+        )
+
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+        self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.early_exit_gate = RowParallelLinear(config.hidden_size, 1, bias=True)
+
+        self.total_ut_steps = getattr(self.config, "total_ut_steps", 4)
+
+    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if inputs_embeds is not None:
+            hidden_states = inputs_embeds
+        else:
+            hidden_states = self.get_input_embeddings(input_ids)
+
+        for current_ut in range(self.total_ut_steps):
+            residual = None
+            for layer in self.layers[self.start_layer : self.end_layer]:
+                hidden_states, residual = layer(
+                    positions, hidden_states, current_ut, residual
+                )
+            hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+        params_dict = dict(self.named_parameters(remove_duplicate=False))
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+            if self.quant_config is not None and (
+                scale_name := self.quant_config.get_cache_scale(name)
+            ):
+                # Loading kv cache quantization scales
+                param = params_dict[scale_name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                loaded_weight = (
+                    loaded_weight if loaded_weight.dim() == 0 else loaded_weight[0]
+                )
+                weight_loader(param, loaded_weight)
+                loaded_params.add(scale_name)
+                continue
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if name.endswith("scale"):
+                    # Remapping the name of FP8 kv-scale.
+                    name = maybe_remap_kv_scale_name(name, params_dict)
+                    if name is None:
+                        continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                if weight_loader == default_weight_loader:
+                    weight_loader(param, loaded_weight)
+                else:
+                    weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                # Remapping the name of FP8 kv-scale.
+                name = maybe_remap_kv_scale_name(name, params_dict)
+                if name is None:
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+class OuroForCausalLM(nn.Module, SupportsLoRA):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        lora_config = vllm_config.lora_config
+
+        self.config = config
+        self.lora_config = lora_config
+
+        self.quant_config = quant_config
+        self.model = OuroModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+
+        if config.tie_word_embeddings:
+            self.lm_head = self.model.embed_tokens
+        else:
+            self.lm_head = ParallelLMHead(
+                config.vocab_size,
+                config.hidden_size,
+                quant_config=quant_config,
+                prefix=maybe_prefix(prefix, "lm_head"),
+            )
+
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.get_input_embeddings(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=(["lm_head."] if self.config.tie_word_embeddings else None),
+        )
+        return loader.load_weights(weights)
diff --git a/vllm/model_executor/models/registry.py b/vllm/model_executor/models/registry.py
index 8e4413c90cf6c..7eca1a09e5365 100644
--- a/vllm/model_executor/models/registry.py
+++ b/vllm/model_executor/models/registry.py
@@ -148,6 +148,7 @@ _TEXT_GENERATION_MODELS = {
     "OlmoeForCausalLM": ("olmoe", "OlmoeForCausalLM"),
     "OPTForCausalLM": ("opt", "OPTForCausalLM"),
     "OrionForCausalLM": ("orion", "OrionForCausalLM"),
+    "OuroForCausalLM": ("ouro", "OuroForCausalLM"),
     "PersimmonForCausalLM": ("persimmon", "PersimmonForCausalLM"),
     "PhiForCausalLM": ("phi", "PhiForCausalLM"),
     "Phi3ForCausalLM": ("phi3", "Phi3ForCausalLM"),

From eebf00cb0c925404672d407674b319ebc5ae3a84 Mon Sep 17 00:00:00 2001
From: "Li, Jiang" <jiang1.li@intel.com>
Date: Thu, 30 Oct 2025 23:12:05 +0800
Subject: [PATCH 024/976] [Bugfix][CPU] Fix MRoPE dispatch on the CPU backend
 (#27800)

Signed-off-by: jiang1.li <jiang1.li@intel.com>
---
 vllm/model_executor/layers/rotary_embedding/mrope.py | 9 +++++++++
 1 file changed, 9 insertions(+)

diff --git a/vllm/model_executor/layers/rotary_embedding/mrope.py b/vllm/model_executor/layers/rotary_embedding/mrope.py
index 3c184ce9d6316..0592aa8f967a6 100644
--- a/vllm/model_executor/layers/rotary_embedding/mrope.py
+++ b/vllm/model_executor/layers/rotary_embedding/mrope.py
@@ -357,6 +357,15 @@ class MRotaryEmbedding(RotaryEmbeddingBase):
         key = torch.cat((key_rot, key_pass), dim=-1).reshape(key_shape)
         return query, key
 
+    def forward_cpu(
+        self,
+        positions: torch.Tensor,
+        query: torch.Tensor,
+        key: torch.Tensor | None = None,
+        offsets: torch.Tensor | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor | None]:
+        return self.forward_native(positions, query, key, offsets)
+
     @staticmethod
     def get_next_input_positions(
         mrope_position_delta: int,

From e5e076cad7c1c922fa6d48049c45bead505f52a6 Mon Sep 17 00:00:00 2001
From: Varun Sundar Rabindranath <varunsundar08@gmail.com>
Date: Thu, 30 Oct 2025 11:24:31 -0400
Subject: [PATCH 025/976] [BugFix] Stopgap - Flashinfer Autotuner + GPT-OSS +
 DP/TP (#27762)

Signed-off-by: Varun Sundar Rabindranath <vsundarr@redhat.com>
Co-authored-by: Varun Sundar Rabindranath <vsundarr@redhat.com>
---
 vllm/model_executor/warmup/kernel_warmup.py | 20 +++++++++++++-------
 1 file changed, 13 insertions(+), 7 deletions(-)

diff --git a/vllm/model_executor/warmup/kernel_warmup.py b/vllm/model_executor/warmup/kernel_warmup.py
index 79d1927d32103..ffa3bc8f021ef 100644
--- a/vllm/model_executor/warmup/kernel_warmup.py
+++ b/vllm/model_executor/warmup/kernel_warmup.py
@@ -11,7 +11,7 @@ from typing import TYPE_CHECKING
 import torch
 
 import vllm.envs as envs
-from vllm.config import VllmConfig
+from vllm.config import CUDAGraphMode, VllmConfig
 from vllm.logger import init_logger
 from vllm.model_executor.warmup.deep_gemm_warmup import deep_gemm_warmup
 from vllm.platforms import current_platform
@@ -30,13 +30,19 @@ def flashinfer_autotune_supported(vllm_config: VllmConfig) -> bool:
     Record known issues with vllm + flashinfer autotune here. Return True if
     and only if flashinfer autotune will run through without issues.
     """
-    return not (
-        vllm_config.parallel_config.data_parallel_size > 1
-        and (
-            envs.VLLM_USE_FLASHINFER_MOE_MXFP4_BF16
-            or envs.VLLM_USE_FLASHINFER_MOE_MXFP4_MXFP8
-        )
+    is_tp_or_dp = (vllm_config.parallel_config.data_parallel_size > 1) or (
+        vllm_config.parallel_config.tensor_parallel_size > 1
     )
+    is_fi_mxfp4_backend = (
+        envs.VLLM_USE_FLASHINFER_MOE_MXFP4_MXFP8
+        or envs.VLLM_USE_FLASHINFER_MOE_MXFP4_BF16
+        or envs.VLLM_USE_FLASHINFER_MOE_MXFP4_MXFP8_CUTLASS
+    ) or (
+        current_platform.is_cuda() and current_platform.is_device_capability(100)
+    )  # on >=sm100, default mxfp4 backend is flashinfer
+    is_eager = vllm_config.compilation_config.cudagraph_mode == CUDAGraphMode.NONE
+
+    return not (is_tp_or_dp and is_fi_mxfp4_backend and is_eager)
 
 
 def kernel_warmup(worker: "Worker"):

From 60f76baa6688ce265a4205f183bd42a62d8f7179 Mon Sep 17 00:00:00 2001
From: Ilya Markov <markovilya197@gmail.com>
Date: Thu, 30 Oct 2025 16:41:44 +0100
Subject: [PATCH 026/976] [Misc] Replace CUDA_VISIBLE_DEVICES in DP with
 torch.cuda.set_device for device selection on cuda-like devices (#27564)

Signed-off-by: ilmarkov <markovilya197@gmail.com>
Co-authored-by: Tyler Michael Smith <tlrmchlsmth@gmail.com>
---
 .../kv_connector/v1/nixl_connector.py         | 12 ++++++----
 vllm/v1/engine/utils.py                       | 11 ++++++++-
 vllm/v1/worker/dp_utils.py                    |  4 ++--
 vllm/v1/worker/gpu_worker.py                  | 23 +++++++++++++++++++
 4 files changed, 43 insertions(+), 7 deletions(-)

diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py b/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
index 275a8c734058b..d5712bdd9feb4 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
@@ -1008,11 +1008,14 @@ class NixlConnectorWorker:
         # Enable different block lengths for different layers when MLA is used.
         self.block_len_per_layer = list[int]()
         self.slot_size_per_layer = list[int]()  # HD bytes in kv terms
+        self.device_id = self.tp_rank
         for layer_name, cache_or_caches in xfer_buffers.items():
             cache_list = cache_or_caches if split_k_and_v else [cache_or_caches]
 
             for cache in cache_list:
                 base_addr = cache.data_ptr()
+                if not self.use_host_buffer and current_platform.is_cuda_alike():
+                    self.device_id = cache.device.index
                 if base_addr in seen_base_addresses:
                     continue
 
@@ -1040,7 +1043,7 @@ class NixlConnectorWorker:
                         "All kv cache tensors must have the same size"
                     )
                 caches_data.append(
-                    (base_addr, curr_tensor_size_bytes, self.tp_rank, "")
+                    (base_addr, curr_tensor_size_bytes, self.device_id, "")
                 )
 
         logger.debug(
@@ -1087,7 +1090,7 @@ class NixlConnectorWorker:
                 block_offset = block_id * self.block_len_per_layer[i]
                 addr = base_addr + block_offset
                 # (addr, len, device id)
-                blocks_data.append((addr, kv_block_len, self.tp_rank))
+                blocks_data.append((addr, kv_block_len, self.device_id))
 
             if self._use_flashinfer:
                 # Separate and interleave K/V regions to maintain the same
@@ -1098,12 +1101,13 @@ class NixlConnectorWorker:
                     addr = base_addr + block_offset
                     # Register addresses for V cache (K registered first).
                     v_addr = addr + kv_block_len
-                    blocks_data.append((v_addr, kv_block_len, self.tp_rank))
+                    blocks_data.append((v_addr, kv_block_len, self.device_id))
         logger.debug(
-            "Created %s blocks for src engine %s and rank %s",
+            "Created %s blocks for src engine %s and rank %s on device id %s",
             len(blocks_data),
             self.engine_id,
             self.tp_rank,
+            self.device_id,
         )
 
         descs = self.nixl_wrapper.get_xfer_descs(blocks_data, self.nixl_memory_type)
diff --git a/vllm/v1/engine/utils.py b/vllm/v1/engine/utils.py
index bdc124b0571c0..e74519b21aa6e 100644
--- a/vllm/v1/engine/utils.py
+++ b/vllm/v1/engine/utils.py
@@ -134,9 +134,18 @@ class CoreEngineProcManager:
         data_parallel = vllm_config.parallel_config.data_parallel_size > 1
         try:
             for proc, local_dp_rank in zip(self.processes, local_dp_ranks):
+                # Adjust device control in DP for non-CUDA platforms
+                # as well as external and ray launchers
+                # For CUDA platforms, we use torch.cuda.set_device()
                 with (
                     set_device_control_env_var(vllm_config, local_dp_rank)
-                    if (data_parallel)
+                    if (
+                        data_parallel
+                        and (
+                            not current_platform.is_cuda_alike()
+                            or vllm_config.parallel_config.use_ray
+                        )
+                    )
                     else contextlib.nullcontext()
                 ):
                     proc.start()
diff --git a/vllm/v1/worker/dp_utils.py b/vllm/v1/worker/dp_utils.py
index 2b2a69f4af3ab..464fbf11a21ad 100644
--- a/vllm/v1/worker/dp_utils.py
+++ b/vllm/v1/worker/dp_utils.py
@@ -8,7 +8,6 @@ import torch.distributed as dist
 from vllm.config import ParallelConfig
 from vllm.distributed.parallel_state import get_dp_group
 from vllm.logger import init_logger
-from vllm.platforms import current_platform
 from vllm.v1.worker.ubatch_utils import (
     UBatchSlices,
     check_ubatch_thresholds,
@@ -20,7 +19,8 @@ logger = init_logger(__name__)
 
 
 def _get_device_and_group(parallel_config: ParallelConfig):
-    device = current_platform.device_type
+    # Use the actual device assigned to the DP group, not just the device type
+    device = get_dp_group().device
     group = get_dp_group().device_group
 
     # Transfering this tensor from GPU to CPU will introduce a GPU sync
diff --git a/vllm/v1/worker/gpu_worker.py b/vllm/v1/worker/gpu_worker.py
index 29b6532e4366f..54c5f81fc7e8e 100644
--- a/vllm/v1/worker/gpu_worker.py
+++ b/vllm/v1/worker/gpu_worker.py
@@ -172,6 +172,29 @@ class Worker(WorkerBase):
         if self.device_config.device.type == "cuda":
             # This env var set by Ray causes exceptions with graph building.
             os.environ.pop("NCCL_ASYNC_ERROR_HANDLING", None)
+            if (
+                self.parallel_config.data_parallel_size > 1
+                and self.parallel_config.data_parallel_size_local > 0
+                and self.parallel_config.distributed_executor_backend
+                not in ["ray", "external_launcher"]
+                and self.vllm_config.parallel_config.data_parallel_backend != "ray"
+            ):
+                # Use local DP rank if available, otherwise use global DP rank.
+                dp_local_rank = self.parallel_config.data_parallel_rank_local
+                if dp_local_rank is None:
+                    dp_local_rank = self.parallel_config.data_parallel_rank
+
+                tp_pp_world_size = (
+                    self.parallel_config.pipeline_parallel_size
+                    * self.parallel_config.tensor_parallel_size
+                )
+
+                # DP_LOCAL_RANK * TP_PP_WORLD_SIZE + TP_LOCAL_RANK
+                self.local_rank += dp_local_rank * tp_pp_world_size
+                assert self.local_rank < torch.cuda.device_count(), (
+                    f"DP adjusted local rank {self.local_rank} is out of bounds. "
+                )
+
             self.device = torch.device(f"cuda:{self.local_rank}")
             current_platform.set_device(self.device)
 

From 33a0ea5f3264b5b2f571b8a53357e10efcc94670 Mon Sep 17 00:00:00 2001
From: Kebe <mail@kebe7jun.com>
Date: Fri, 31 Oct 2025 01:33:13 +0900
Subject: [PATCH 027/976] [Docs] add Shanghai Meetup - 2025/10 (#27545)

Signed-off-by: Kebe <mail@kebe7jun.com>
Signed-off-by: esmeetu <jasonailu87@gmail.com>
Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
Co-authored-by: esmeetu <jasonailu87@gmail.com>
---
 README.md                 | 1 +
 docs/community/meetups.md | 1 +
 2 files changed, 2 insertions(+)

diff --git a/README.md b/README.md
index 3dcdd7dc00942..2e750ef8fc894 100644
--- a/README.md
+++ b/README.md
@@ -21,6 +21,7 @@ Join us at the [PyTorch Conference, October 22-23](https://events.linuxfoundatio
 
 *Latest News* 🔥
 
+- [2025/10] We hosted [vLLM Shanghai Meetup](https://mp.weixin.qq.com/s/__xb4OyOsImz-9eAVrdlcg) focused on hands-on vLLM inference optimization! Please find the meetup slides [here](https://drive.google.com/drive/folders/1KqwjsFJLfEsC8wlDugnrR61zsWHt94Q6).
 - [2025/09] We hosted [vLLM Toronto Meetup](https://luma.com/e80e0ymm) focused on tackling inference at scale and speculative decoding with speakers from NVIDIA and Red Hat! Please find the meetup slides [here](https://docs.google.com/presentation/d/1IYJYmJcu9fLpID5N5RbW_vO0XLo0CGOR14IXOjB61V8/edit?usp=sharing).
 - [2025/08] We hosted [vLLM Shenzhen Meetup](https://mp.weixin.qq.com/s/k8ZBO1u2_2odgiKWH_GVTQ) focusing on the ecosystem around vLLM! Please find the meetup slides [here](https://drive.google.com/drive/folders/1Ua2SVKVSu-wp5vou_6ElraDt2bnKhiEA).
 - [2025/08] We hosted [vLLM Singapore Meetup](https://www.sginnovate.com/event/vllm-sg-meet). We shared V1 updates, disaggregated serving and MLLM speedups with speakers from Embedded LLM, AMD, WekaIO, and A*STAR. Please find the meetup slides [here](https://drive.google.com/drive/folders/1ncf3GyqLdqFaB6IeB834E5TZJPLAOiXZ?usp=sharing).
diff --git a/docs/community/meetups.md b/docs/community/meetups.md
index e821e2ac81149..0dfc582c7f8a7 100644
--- a/docs/community/meetups.md
+++ b/docs/community/meetups.md
@@ -2,6 +2,7 @@
 
 We host regular meetups in San Francisco Bay Area every 2 months. We will share the project updates from the vLLM team and have guest speakers from the industry to share their experience and insights. Please find the materials of our previous meetups below:
 
+- [vLLM Shanghai Meetup](https://mp.weixin.qq.com/s/__xb4OyOsImz-9eAVrdlcg), October 25th 2025. [[Slides]](https://drive.google.com/drive/folders/1KqwjsFJLfEsC8wlDugnrR61zsWHt94Q6)
 - [vLLM Toronto Meetup](https://luma.com/e80e0ymm), September 25th 2025. [[Slides]](https://docs.google.com/presentation/d/1IYJYmJcu9fLpID5N5RbW_vO0XLo0CGOR14IXOjB61V8/edit?usp=sharing)
 - [vLLM Shenzhen Meetup](https://mp.weixin.qq.com/s/k8ZBO1u2_2odgiKWH_GVTQ), August 30th 2025. [[Slides]](https://drive.google.com/drive/folders/1Ua2SVKVSu-wp5vou_6ElraDt2bnKhiEA)
 - [vLLM Singapore Meetup](https://www.sginnovate.com/event/vllm-sg-meet), August 27th 2025. [[Slides]](https://drive.google.com/drive/folders/1ncf3GyqLdqFaB6IeB834E5TZJPLAOiXZ?usp=sharing)

From ba33e8830dceb32e9b03508bbff435e3082759b8 Mon Sep 17 00:00:00 2001
From: Huy Do <huydhn@gmail.com>
Date: Thu, 30 Oct 2025 10:22:30 -0700
Subject: [PATCH 028/976] Reapply "Install pre-built xformers-0.0.32.post2
 built with pt-2.9.0" (#27768)

Signed-off-by: Huy Do <huydhn@gmail.com>
---
 docker/Dockerfile     | 7 -------
 requirements/cuda.txt | 4 ++--
 2 files changed, 2 insertions(+), 9 deletions(-)

diff --git a/docker/Dockerfile b/docker/Dockerfile
index 42a830cb605ad..61ebf970fe960 100644
--- a/docker/Dockerfile
+++ b/docker/Dockerfile
@@ -361,13 +361,6 @@ RUN --mount=type=bind,from=build,src=/workspace/dist,target=/vllm-workspace/dist
     && uv pip install --system dist/*.whl --verbose \
         --extra-index-url ${PYTORCH_CUDA_INDEX_BASE_URL}/cu$(echo $CUDA_VERSION | cut -d. -f1,2 | tr -d '.')
 
-# TODO (huydhn): Remove this once xformers is released for 2.9.0
-RUN --mount=type=cache,target=/root/.cache/uv bash - <<'BASH'
-    . /etc/environment
-    export TORCH_CUDA_ARCH_LIST='7.5 8.0+PTX 9.0a'
-    uv pip install --system --no-build-isolation "git+https://github.com/facebookresearch/xformers@v0.0.32.post2"
-BASH
-
 # Install FlashInfer pre-compiled kernel cache and binaries
 # https://docs.flashinfer.ai/installation.html
 RUN --mount=type=cache,target=/root/.cache/uv \
diff --git a/requirements/cuda.txt b/requirements/cuda.txt
index dd45eb832a96a..5f7d520cd3662 100644
--- a/requirements/cuda.txt
+++ b/requirements/cuda.txt
@@ -9,7 +9,7 @@ torch==2.9.0
 torchaudio==2.9.0
 # These must be updated alongside torch
 torchvision==0.24.0 # Required for phi3v processor. See https://github.com/pytorch/vision?tab=readme-ov-file#installation for corresponding version
-# https://github.com/facebookresearch/xformers/releases/tag/v0.0.32.post1
-# xformers==0.0.32.post1; platform_system == 'Linux' and platform_machine == 'x86_64'  # Requires PyTorch >= 2.8
+# Build from https://github.com/facebookresearch/xformers/releases/tag/v0.0.32.post1
+xformers==0.0.33+5d4b92a5.d20251029; platform_system == 'Linux' and platform_machine == 'x86_64'  # Requires PyTorch >= 2.9
 # FlashInfer should be updated together with the Dockerfile
 flashinfer-python==0.4.1

From 10042057953cd1528701234925de3d7b109e26de Mon Sep 17 00:00:00 2001
From: Mengqing Cao <cmq0113@163.com>
Date: Fri, 31 Oct 2025 01:27:39 +0800
Subject: [PATCH 029/976] [MTP] Refactor mtp predictor to avoid d2h operation
 (#27643)

Signed-off-by: MengqingCao <cmq0113@163.com>
---
 vllm/model_executor/models/deepseek_mtp.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/model_executor/models/deepseek_mtp.py b/vllm/model_executor/models/deepseek_mtp.py
index aa176ef05fccb..3984d23970ac5 100644
--- a/vllm/model_executor/models/deepseek_mtp.py
+++ b/vllm/model_executor/models/deepseek_mtp.py
@@ -97,7 +97,7 @@ class DeepSeekMultiTokenPredictorLayer(nn.Module):
     ) -> torch.Tensor:
         assert inputs_embeds is not None
         # masking inputs at position 0, as not needed by MTP
-        inputs_embeds[positions == 0] = 0
+        inputs_embeds = torch.where(positions.unsqueeze(-1) == 0, 0, inputs_embeds)
         inputs_embeds = self.enorm(inputs_embeds)
         previous_hidden_states = self.hnorm(previous_hidden_states)
 

From 2918c1b49c88c29783c86f78d2c4221cb9622379 Mon Sep 17 00:00:00 2001
From: Roger Meier <r.meier@siemens.com>
Date: Fri, 31 Oct 2025 01:36:56 +0800
Subject: [PATCH 030/976] [Model] Use the same fused_moe configs for all H200
 devices (#23642)

Signed-off-by: Roger Meier <r.meier@siemens.com>
---
 vllm/model_executor/layers/fused_moe/fused_moe.py | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/vllm/model_executor/layers/fused_moe/fused_moe.py b/vllm/model_executor/layers/fused_moe/fused_moe.py
index 5f9bfd6d9cf7d..d0f5eb498127b 100644
--- a/vllm/model_executor/layers/fused_moe/fused_moe.py
+++ b/vllm/model_executor/layers/fused_moe/fused_moe.py
@@ -818,6 +818,9 @@ def get_config_file_name(
     E: int, N: int, dtype: str | None, block_shape: list[int] | None = None
 ) -> str:
     device_name = current_platform.get_device_name().replace(" ", "_")
+    # Set device_name to H200 if a device from the H200 family is detected
+    if "H200" in device_name:
+        device_name = "H200"
     dtype_selector = "" if not dtype else f",dtype={dtype}"
     block_shape_selector = (
         "" if not block_shape or not all(block_shape) else f",block_shape={block_shape}"

From ab98f6556ff84508cdcdcd6a6b1e612a7a8819d0 Mon Sep 17 00:00:00 2001
From: Tyler Michael Smith <tyler@neuralmagic.com>
Date: Thu, 30 Oct 2025 14:52:18 -0400
Subject: [PATCH 031/976] [Bugfix] Fix 2 precommit issues - (mamba_block_size,
 kv_cache_config) (#27811)

Signed-off-by: Tyler Michael Smith <tlrmchlsmth@gmail.com>
Signed-off-by: Tyler Michael Smith <tysmith@redhat.com>
Co-authored-by: Nick Hill <nhill@redhat.com>
---
 vllm/model_executor/models/config.py |  2 +-
 vllm/v1/core/sched/scheduler.py      | 14 +++++++++-----
 2 files changed, 10 insertions(+), 6 deletions(-)

diff --git a/vllm/model_executor/models/config.py b/vllm/model_executor/models/config.py
index b0a48a9f1d458..7150977e9266b 100644
--- a/vllm/model_executor/models/config.py
+++ b/vllm/model_executor/models/config.py
@@ -406,7 +406,7 @@ class HybridAttentionMambaModelConfig(VerifyAndUpdateConfig):
             # easily by changing the way we layout chunks in the
             # mamba2 kernels.
 
-            base_chunk_size = model_config.get_mamba_chunk_size()
+            base_chunk_size = mamba_block_size or model_config.get_mamba_chunk_size()
             attn_tokens_per_mamba_state = cdiv(mamba_page_size, attn_page_size_1_token)
             chunk_size = lcm(base_chunk_size, kernel_block_alignment_size)
             attn_block_size = chunk_size * cdiv(attn_tokens_per_mamba_state, chunk_size)
diff --git a/vllm/v1/core/sched/scheduler.py b/vllm/v1/core/sched/scheduler.py
index ad6fbee2ec083..98c8f08b0aae8 100644
--- a/vllm/v1/core/sched/scheduler.py
+++ b/vllm/v1/core/sched/scheduler.py
@@ -13,7 +13,7 @@ from vllm.distributed.kv_transfer.kv_connector.factory import KVConnectorFactory
 from vllm.distributed.kv_transfer.kv_connector.v1 import (
     KVConnectorBase_V1,
     KVConnectorRole,
-    supports_hma,
+    SupportsHMA,
 )
 from vllm.distributed.kv_transfer.kv_connector.v1.metrics import KVConnectorStats
 from vllm.logger import init_logger
@@ -93,7 +93,11 @@ class Scheduler(SchedulerInterface):
             )
 
             connector_vllm_config = copy.copy(self.vllm_config)
-            connector_vllm_config.kv_cache_config = copy.copy(kv_cache_config)
+
+            # We're dynamically inserting a kv_cache_config variable into the
+            # connector_vllm_config. This is distinct from the cache_config
+            # that is already in there.
+            connector_vllm_config.kv_cache_config = copy.copy(kv_cache_config)  # type: ignore[attr-defined]
             self.connector = KVConnectorFactory.create_connector(
                 config=connector_vllm_config, role=KVConnectorRole.SCHEDULER
             )
@@ -1327,15 +1331,15 @@ class Scheduler(SchedulerInterface):
 
         block_ids = self.kv_cache_manager.get_block_ids(request.request_id)
 
-        if not supports_hma(self.connector):
+        if not isinstance(self.connector, SupportsHMA):
             # NOTE(Kuntai): We should deprecate this code path after we enforce
             # all connectors to support HMA.
             # Hybrid memory allocator should be already turned off for this
             # code path, but let's double-check here.
             assert len(self.kv_cache_config.kv_cache_groups) == 1
             return self.connector.request_finished(request, block_ids[0])
-        else:
-            return self.connector.request_finished(request, block_ids)
+
+        return self.connector.request_finished_all_groups(request, block_ids)
 
     def _update_waiting_for_remote_kv(self, request: Request) -> bool:
         """

From 4574d48bab9c4e38b7c0a830eeefc8f0980e8c58 Mon Sep 17 00:00:00 2001
From: Jialin Ouyang <Jialin.Ouyang@gmail.com>
Date: Thu, 30 Oct 2025 11:52:36 -0700
Subject: [PATCH 032/976] [Core][Bookkeeping] Update cu_num_accepted_tokens for
 all req_index (#27629)

Signed-off-by: Jialin Ouyang <Jialin.Ouyang@gmail.com>
---
 vllm/v1/worker/gpu_model_runner.py | 15 +++++++++------
 1 file changed, 9 insertions(+), 6 deletions(-)

diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index 729ce462cf186..04814b5991ebc 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -2323,11 +2323,19 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
                 sampled_ids = [-1] if req_idx not in invalid_req_indices_set else None
             else:
                 sampled_ids = valid_sampled_token_ids[req_idx]
+
+            num_sampled_ids: int = len(sampled_ids) if sampled_ids else 0
+
+            if cu_num_accepted_tokens is not None:
+                cu_num_accepted_tokens.append(
+                    cu_num_accepted_tokens[-1] + num_sampled_ids
+                )
+
             if not sampled_ids:
                 continue
 
             start_idx = self.input_batch.num_tokens_no_spec[req_idx]
-            end_idx = start_idx + len(sampled_ids)
+            end_idx = start_idx + num_sampled_ids
             assert end_idx <= self.max_model_len, (
                 "Sampled token IDs exceed the max model length. "
                 f"Total number of tokens: {end_idx} > max_model_len: "
@@ -2343,11 +2351,6 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
             req_state = self.requests[req_id]
             req_state.output_token_ids.extend(sampled_ids)
 
-            if cu_num_accepted_tokens is not None:
-                cu_num_accepted_tokens.append(
-                    cu_num_accepted_tokens[-1] + len(sampled_ids)
-                )
-
         logprobs_lists = (
             logprobs_tensors.tolists(cu_num_accepted_tokens)
             if not self.use_async_scheduling and logprobs_tensors is not None

From a2981c42720a34b5abf59c4c14df701f8105d4cd Mon Sep 17 00:00:00 2001
From: cong-meta <prowindy@hotmail.com>
Date: Thu, 30 Oct 2025 12:10:16 -0700
Subject: [PATCH 033/976] [EP/DP][API Server] Enable DP-aware routing in OpenAI
 API requests (#24945)

Co-authored-by: Cong Chen <prowindy@gmail.com>
---
 tests/entrypoints/openai/test_serving_chat.py | 76 +++++++++++++++++++
 vllm/entrypoints/openai/serving_chat.py       |  4 +
 vllm/entrypoints/openai/serving_completion.py |  4 +
 vllm/entrypoints/openai/serving_engine.py     | 15 ++++
 4 files changed, 99 insertions(+)

diff --git a/tests/entrypoints/openai/test_serving_chat.py b/tests/entrypoints/openai/test_serving_chat.py
index d1367b4eeaf62..1b83ed7e31e78 100644
--- a/tests/entrypoints/openai/test_serving_chat.py
+++ b/tests/entrypoints/openai/test_serving_chat.py
@@ -651,3 +651,79 @@ async def test_serving_chat_did_set_correct_cache_salt(model_type):
         await serving_chat.create_chat_completion(req)
     engine_prompt = serving_chat._process_inputs.await_args_list[1].args[1]
     assert engine_prompt.get("cache_salt") == "test_salt"
+
+
+@pytest.mark.asyncio
+async def test_serving_chat_data_parallel_rank_extraction():
+    """Test that data_parallel_rank is properly extracted from header and
+    passed to engine."""
+    mock_engine = MagicMock(spec=AsyncLLM)
+    mock_engine.get_tokenizer.return_value = get_tokenizer(MODEL_NAME)
+    mock_engine.errored = False
+    mock_engine.model_config = MockModelConfig()
+    mock_engine.processor = MagicMock()
+    mock_engine.io_processor = MagicMock()
+
+    # Mock the generate method to return an async generator
+    async def mock_generate(*args, **kwargs):
+        # Yield a fake RequestOutput
+        from vllm.outputs import CompletionOutput, RequestOutput
+
+        yield RequestOutput(
+            request_id="test-request",
+            prompt="test prompt",
+            prompt_token_ids=[1, 2, 3],
+            prompt_logprobs=None,
+            outputs=[
+                CompletionOutput(
+                    index=0,
+                    text="test response",
+                    token_ids=[4, 5, 6],
+                    cumulative_logprob=0.0,
+                    logprobs=None,
+                    finish_reason="stop",
+                    stop_reason=None,
+                )
+            ],
+            finished=True,
+        )
+
+    mock_engine.generate = AsyncMock(side_effect=mock_generate)
+
+    serving_chat = _build_serving_chat(mock_engine)
+
+    # Test when data_parallel_rank is present in header
+    req = ChatCompletionRequest(
+        model=MODEL_NAME,
+        messages=[{"role": "user", "content": "what is 1+1?"}],
+    )
+
+    # Mock request with X-data-parallel-rank header
+    mock_raw_request = MagicMock()
+    mock_raw_request.headers = {"X-data-parallel-rank": "2"}
+    mock_raw_request.state = MagicMock()
+
+    with suppress(Exception):
+        await serving_chat.create_chat_completion(req, mock_raw_request)
+
+    # Verify that data_parallel_rank was passed to engine.generate
+    assert "data_parallel_rank" in mock_engine.generate.call_args.kwargs
+    assert mock_engine.generate.call_args.kwargs["data_parallel_rank"] == 2
+
+    # Test when data_parallel_rank is not present (defaults to None)
+    req_no_dp = ChatCompletionRequest(
+        model=MODEL_NAME,
+        messages=[{"role": "user", "content": "what is 2+2?"}],
+    )
+
+    # Mock request with no header
+    mock_raw_request_no_dp = MagicMock()
+    mock_raw_request_no_dp.headers = {}
+    mock_raw_request_no_dp.state = MagicMock()
+
+    with suppress(Exception):
+        await serving_chat.create_chat_completion(req_no_dp, mock_raw_request_no_dp)
+
+    # Verify that data_parallel_rank defaults to None
+    assert "data_parallel_rank" in mock_engine.generate.call_args.kwargs
+    assert mock_engine.generate.call_args.kwargs["data_parallel_rank"] is None
diff --git a/vllm/entrypoints/openai/serving_chat.py b/vllm/entrypoints/openai/serving_chat.py
index 934ff78b2c710..bb770ecf03383 100644
--- a/vllm/entrypoints/openai/serving_chat.py
+++ b/vllm/entrypoints/openai/serving_chat.py
@@ -264,6 +264,9 @@ class OpenAIServingChat(OpenAIServing):
         if raw_request:
             raw_request.state.request_metadata = request_metadata
 
+        # Extract data_parallel_rank from header (router can inject it)
+        data_parallel_rank = self._get_data_parallel_rank(raw_request)
+
         # Schedule the request and get the result generator.
         generators: list[AsyncGenerator[RequestOutput, None]] = []
         try:
@@ -331,6 +334,7 @@ class OpenAIServingChat(OpenAIServing):
                         priority=request.priority,
                         prompt_text=prompt_text,
                         tokenization_kwargs=tokenization_kwargs,
+                        data_parallel_rank=data_parallel_rank,
                     )
 
                 generators.append(generator)
diff --git a/vllm/entrypoints/openai/serving_completion.py b/vllm/entrypoints/openai/serving_completion.py
index 62bc932f8b844..14dbdd4cb4c7c 100644
--- a/vllm/entrypoints/openai/serving_completion.py
+++ b/vllm/entrypoints/openai/serving_completion.py
@@ -141,6 +141,9 @@ class OpenAIServingCompletion(OpenAIServing):
             logger.exception("Error in preprocessing prompt inputs")
             return self.create_error_response(str(e))
 
+        # Extract data_parallel_rank from header (router can inject it)
+        data_parallel_rank = self._get_data_parallel_rank(raw_request)
+
         # Schedule the request and get the result generator.
         generators: list[AsyncGenerator[RequestOutput, None]] = []
         try:
@@ -224,6 +227,7 @@ class OpenAIServingCompletion(OpenAIServing):
                         priority=request.priority,
                         prompt_text=prompt_text,
                         tokenization_kwargs=tokenization_kwargs,
+                        data_parallel_rank=data_parallel_rank,
                     )
 
                 generators.append(generator)
diff --git a/vllm/entrypoints/openai/serving_engine.py b/vllm/entrypoints/openai/serving_engine.py
index af5a423134fb0..c0750cd641667 100644
--- a/vllm/entrypoints/openai/serving_engine.py
+++ b/vllm/entrypoints/openai/serving_engine.py
@@ -1298,6 +1298,21 @@ class OpenAIServing:
 
         return raw_request.headers.get("X-Request-Id", default)
 
+    @staticmethod
+    def _get_data_parallel_rank(raw_request: Request | None) -> int | None:
+        """Pulls the data parallel rank from a header, if provided"""
+        if raw_request is None:
+            return None
+
+        rank_str = raw_request.headers.get("X-data-parallel-rank")
+        if rank_str is None:
+            return None
+
+        try:
+            return int(rank_str)
+        except ValueError:
+            return None
+
     @staticmethod
     def _get_decoded_token(
         logprob: Logprob,

From 4917002523db90813a47ca5aed5cd22e2edb75f4 Mon Sep 17 00:00:00 2001
From: Sumanth R Hegde <39546518+SumanthRH@users.noreply.github.com>
Date: Thu, 30 Oct 2025 12:26:27 -0700
Subject: [PATCH 034/976] [Fix] Skip `record_sleep_state` logic in
 `PrometheusStatsLogger` if not in dev mode (#27789)

Signed-off-by: SumanthRH <sumanthrh99@gmail.com>
---
 tests/basic_correctness/test_cumem.py | 43 ++++++++++++++++++++++++++-
 vllm/v1/metrics/loggers.py            |  3 ++
 2 files changed, 45 insertions(+), 1 deletion(-)

diff --git a/tests/basic_correctness/test_cumem.py b/tests/basic_correctness/test_cumem.py
index 09f4ec03fbbb0..0c037622f5e82 100644
--- a/tests/basic_correctness/test_cumem.py
+++ b/tests/basic_correctness/test_cumem.py
@@ -1,10 +1,12 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
+import asyncio
+
 import pytest
 import torch
 
-from vllm import LLM, SamplingParams
+from vllm import LLM, AsyncEngineArgs, AsyncLLMEngine, SamplingParams
 from vllm.device_allocator.cumem import CuMemAllocator
 from vllm.utils.mem_constants import GiB_bytes
 
@@ -201,3 +203,42 @@ def test_deep_sleep():
 
     # cmp output
     assert output[0].outputs[0].text == output2[0].outputs[0].text
+
+
+@create_new_process_for_each_test()
+def test_deep_sleep_async():
+    async def test():
+        model = "hmellor/tiny-random-LlamaForCausalLM"
+        free, total = torch.cuda.mem_get_info()
+        used_bytes_baseline = total - free  # in case other process is running
+        engine_args = AsyncEngineArgs(
+            model=model,
+            enable_sleep_mode=True,
+        )
+
+        llm = AsyncLLMEngine.from_engine_args(engine_args)
+        prompt = "How are you?"
+        sampling_params = SamplingParams(temperature=0, max_tokens=10)
+        outputs = llm.generate(prompt, sampling_params, request_id="test_request_id1")
+        async for output in outputs:
+            pass
+
+        # Put the engine to deep sleep
+        await llm.sleep(level=2)
+
+        await llm.wake_up(tags=["weights"])
+        await llm.collective_rpc("reload_weights")
+        free_gpu_bytes_wake_up_w, total = torch.cuda.mem_get_info()
+        used_bytes = total - free_gpu_bytes_wake_up_w - used_bytes_baseline
+        assert used_bytes < 4 * GiB_bytes
+
+        # now allocate kv cache and cuda graph memory
+        await llm.wake_up(tags=["kv_cache"])
+        outputs2 = llm.generate(prompt, sampling_params, request_id="test_request_id2")
+        async for output2 in outputs2:
+            pass
+
+        # cmp output
+        assert output.outputs[0].text == output2.outputs[0].text
+
+    asyncio.run(test())
diff --git a/vllm/v1/metrics/loggers.py b/vllm/v1/metrics/loggers.py
index 3772f07066a12..67b6ceaa847f6 100644
--- a/vllm/v1/metrics/loggers.py
+++ b/vllm/v1/metrics/loggers.py
@@ -1052,6 +1052,9 @@ class PrometheusStatLogger(AggregateStatLoggerBase):
             self.gauge_lora_info.labels(**lora_info_labels).set_to_current_time()
 
     def record_sleep_state(self, sleep: int = 0, level: int = 0):
+        if not envs.VLLM_SERVER_DEV_MODE:
+            return
+
         awake = 1
         discard_all = 0
         weights_offloaded = 0

From a8141fa649d1296488cc5de2b479fed460bb34f4 Mon Sep 17 00:00:00 2001
From: Wentao Ye <44945378+yewentao256@users.noreply.github.com>
Date: Thu, 30 Oct 2025 15:32:39 -0400
Subject: [PATCH 035/976] [Refactor] Remove
 `VLLM_DEEPEP_LOW_LATENCY_ALLOW_NVLINK` (#27750)

Signed-off-by: yewentao256 <zhyanwentao@126.com>
---
 vllm/distributed/device_communicators/all2all.py | 2 +-
 vllm/envs.py                                     | 7 -------
 2 files changed, 1 insertion(+), 8 deletions(-)

diff --git a/vllm/distributed/device_communicators/all2all.py b/vllm/distributed/device_communicators/all2all.py
index 013ef3c1f5c36..c40dde26b741f 100644
--- a/vllm/distributed/device_communicators/all2all.py
+++ b/vllm/distributed/device_communicators/all2all.py
@@ -363,7 +363,7 @@ class DeepEPLLAll2AllManager(DeepEPAll2AllManagerBase):
             num_rdma_bytes=num_rdma_bytes,
             low_latency_mode=True,
             num_qps_per_rank=num_qps_per_rank,
-            allow_nvlink_for_low_latency_mode=envs.VLLM_DEEPEP_LOW_LATENCY_ALLOW_NVLINK,
+            allow_nvlink_for_low_latency_mode=True,
             allow_mnnvl=envs.VLLM_DEEPEP_LOW_LATENCY_USE_MNNVL,
         )
 
diff --git a/vllm/envs.py b/vllm/envs.py
index 0548f01fc8cdf..2744335ed3d38 100755
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -207,7 +207,6 @@ if TYPE_CHECKING:
     VLLM_OBJECT_STORAGE_SHM_BUFFER_NAME: str = "VLLM_OBJECT_STORAGE_SHM_BUFFER"
     VLLM_DEEPEP_BUFFER_SIZE_MB: int = 1024
     VLLM_DEEPEP_HIGH_THROUGHPUT_FORCE_INTRA_NODE: bool = False
-    VLLM_DEEPEP_LOW_LATENCY_ALLOW_NVLINK: bool = True
     VLLM_DEEPEP_LOW_LATENCY_USE_MNNVL: bool = False
     VLLM_DBO_COMM_SMS: int = 20
     VLLM_PATTERN_MATCH_DEBUG: str | None = None
@@ -1400,11 +1399,6 @@ environment_variables: dict[str, Callable[[], Any]] = {
     "VLLM_DEEPEP_HIGH_THROUGHPUT_FORCE_INTRA_NODE": lambda: bool(
         int(os.getenv("VLLM_DEEPEP_HIGH_THROUGHPUT_FORCE_INTRA_NODE", "0"))
     ),
-    # Allow DeepEP to use nvlink for internode_ll kernel, turn this on for
-    # better latency on GB200 like system
-    "VLLM_DEEPEP_LOW_LATENCY_ALLOW_NVLINK": lambda: bool(
-        int(os.getenv("VLLM_DEEPEP_LOW_LATENCY_ALLOW_NVLINK", "1"))
-    ),
     # Allow DeepEP to use MNNVL (multi-node nvlink) for internode_ll kernel,
     # turn this for better latency on GB200 like system
     "VLLM_DEEPEP_LOW_LATENCY_USE_MNNVL": lambda: bool(
@@ -1566,7 +1560,6 @@ def compute_hash() -> str:
         "VLLM_NVFP4_GEMM_BACKEND",
         "VLLM_USE_FBGEMM",
         "VLLM_DEEPEP_HIGH_THROUGHPUT_FORCE_INTRA_NODE",
-        "VLLM_DEEPEP_LOW_LATENCY_ALLOW_NVLINK",
         "VLLM_DEEPEP_LOW_LATENCY_USE_MNNVL",
     ]
     for key in environment_variables_to_hash:

From 4b68c4a55b0fa5846d180532ae7e58db85101e07 Mon Sep 17 00:00:00 2001
From: Jialin Ouyang <Jialin.Ouyang@gmail.com>
Date: Thu, 30 Oct 2025 12:47:30 -0700
Subject: [PATCH 036/976] [Core][Perf] Only invoke save_new_computed_blocks
 when computed blocks are not empty (#27799)

Signed-off-by: Jialin Ouyang <Jialin.Ouyang@gmail.com>
---
 vllm/v1/core/kv_cache_manager.py             | 11 ++++++-----
 vllm/v1/core/single_type_kv_cache_manager.py |  2 +-
 2 files changed, 7 insertions(+), 6 deletions(-)

diff --git a/vllm/v1/core/kv_cache_manager.py b/vllm/v1/core/kv_cache_manager.py
index bb8cec91f36dd..63a1ff06e4049 100644
--- a/vllm/v1/core/kv_cache_manager.py
+++ b/vllm/v1/core/kv_cache_manager.py
@@ -306,11 +306,12 @@ class KVCacheManager:
                 "Computed blocks should be empty when prefix caching is disabled"
             )
 
-        # Append the new computed blocks to the request blocks until now to
-        # avoid the case where the new blocks cannot be allocated.
-        self.coordinator.save_new_computed_blocks(
-            request.request_id, new_computed_block_list
-        )
+        if new_computed_block_list is not self.empty_kv_cache_blocks.blocks:
+            # Append the new computed blocks to the request blocks until now to
+            # avoid the case where the new blocks cannot be allocated.
+            self.coordinator.save_new_computed_blocks(
+                request.request_id, new_computed_block_list
+            )
 
         new_blocks = self.coordinator.allocate_new_blocks(
             request.request_id, num_tokens_need_slot, num_encoder_tokens
diff --git a/vllm/v1/core/single_type_kv_cache_manager.py b/vllm/v1/core/single_type_kv_cache_manager.py
index 575ae3d7d83b6..8f14fb1894707 100644
--- a/vllm/v1/core/single_type_kv_cache_manager.py
+++ b/vllm/v1/core/single_type_kv_cache_manager.py
@@ -151,7 +151,7 @@ class SingleTypeKVCacheManager(ABC):
             num_tokens: The total number of tokens that need to be cached
                 (including tokens that are already cached).
         """
-        num_cached_blocks = self.num_cached_block[request.request_id]
+        num_cached_blocks = self.num_cached_block.get(request.request_id, 0)
         num_full_blocks = num_tokens // self.block_size
 
         if num_cached_blocks >= num_full_blocks:

From e7acb200766a0f8f006f9b6fd961dfdceabd7269 Mon Sep 17 00:00:00 2001
From: Paul Zhang <paulzhan@umich.edu>
Date: Thu, 30 Oct 2025 16:11:29 -0400
Subject: [PATCH 037/976] [Feature] Batch invariant torch.compile (#27660)

Signed-off-by: PaulZhang12 <paulzhan@fb.com>
Co-authored-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com>
---
 vllm/config/model.py                          |  7 --
 vllm/envs.py                                  |  8 ++-
 vllm/model_executor/layers/batch_invariant.py | 71 +++++++++++++++++++
 .../model_executor/layers/quantization/fp8.py |  5 +-
 4 files changed, 82 insertions(+), 9 deletions(-)

diff --git a/vllm/config/model.py b/vllm/config/model.py
index 092c67e7bed8c..082f90653f5af 100644
--- a/vllm/config/model.py
+++ b/vllm/config/model.py
@@ -20,9 +20,6 @@ from vllm.config.pooler import PoolerConfig
 from vllm.config.scheduler import RunnerType
 from vllm.config.utils import assert_hashable, config, getattr_iter
 from vllm.logger import init_logger
-from vllm.model_executor.layers.batch_invariant import (
-    vllm_is_batch_invariant,
-)
 from vllm.platforms import current_platform
 from vllm.transformers_utils.config import (
     ConfigFormat,
@@ -436,10 +433,6 @@ class ModelConfig:
         skip_mm_profiling: bool | None,
         video_pruning_rate: float | None,
     ) -> None:
-        # Enable batch invariance settings if requested
-        if vllm_is_batch_invariant():
-            self.enforce_eager = True
-
         # Set the default seed to 0 in V1.
         # NOTE(woosuk): In V1, we use separate processes for workers (unless
         # VLLM_ENABLE_V1_MULTIPROCESSING=0), so setting a seed here
diff --git a/vllm/envs.py b/vllm/envs.py
index 2744335ed3d38..21237c70a45e4 100755
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -251,6 +251,9 @@ def disable_compile_cache() -> bool:
 
 
 def use_aot_compile() -> bool:
+    from vllm.model_executor.layers.batch_invariant import (
+        vllm_is_batch_invariant,
+    )
     from vllm.utils.torch_utils import is_torch_equal_or_newer
 
     default_value = (
@@ -259,7 +262,10 @@ def use_aot_compile() -> bool:
         else "0"
     )
 
-    return os.environ.get("VLLM_USE_AOT_COMPILE", default_value) == "1"
+    return (
+        not vllm_is_batch_invariant()
+        and os.environ.get("VLLM_USE_AOT_COMPILE", default_value) == "1"
+    )
 
 
 def env_with_choices(
diff --git a/vllm/model_executor/layers/batch_invariant.py b/vllm/model_executor/layers/batch_invariant.py
index 5706786bccb1d..39e77b935d3d5 100644
--- a/vllm/model_executor/layers/batch_invariant.py
+++ b/vllm/model_executor/layers/batch_invariant.py
@@ -11,6 +11,7 @@ import torch
 import vllm.envs as envs
 from vllm.logger import init_logger
 from vllm.triton_utils import tl, triton
+from vllm.utils.torch_utils import is_torch_equal_or_newer
 
 logger = init_logger(__name__)
 
@@ -716,6 +717,10 @@ def linear_batch_invariant(input, weight, bias=None):
 _batch_invariant_MODE = False
 _batch_invariant_LIB = None
 _original_torch_bmm = None
+_original_fp16_reduction_precision = None
+_original_bf16_reduction_precision = None
+_original_cublas_workspace_cfg = None
+_original_cublaslt_workspace_size = None
 
 
 def is_batch_invariant_mode_enabled():
@@ -724,6 +729,8 @@ def is_batch_invariant_mode_enabled():
 
 def enable_batch_invariant_mode():
     global _batch_invariant_MODE, _batch_invariant_LIB, _original_torch_bmm
+    global _original_fp16_reduction_precision, _original_bf16_reduction_precision
+    global _original_cublas_workspace_cfg, _original_cublaslt_workspace_size
     if _batch_invariant_MODE:
         return
 
@@ -745,14 +752,75 @@ def enable_batch_invariant_mode():
     _original_torch_bmm = torch.bmm
     torch.bmm = bmm_batch_invariant
 
+    _original_bf16_reduction_precision = (
+        torch.backends.cuda.matmul.allow_bf16_reduced_precision_reduction
+    )
+    _original_fp16_reduction_precision = (
+        torch.backends.cuda.matmul.allow_fp16_reduced_precision_reduction
+    )
+
+    reduced_precision_val = (
+        (False, False) if is_torch_equal_or_newer("2.10.0.dev") else False
+    )
+    torch.backends.cuda.matmul.allow_fp16_reduced_precision_reduction = (
+        reduced_precision_val
+    )
+    torch.backends.cuda.matmul.allow_bf16_reduced_precision_reduction = (
+        reduced_precision_val
+    )
+    torch.backends.cuda.preferred_blas_library(backend="cublaslt")
+
+    if not is_torch_equal_or_newer("2.10.0.dev"):
+        _original_cublas_workspace_cfg = os.environ.get("CUBLAS_WORKSPACE_CONFIG", None)
+        _original_cublaslt_workspace_size = os.environ.get(
+            "CUBLASLT_WORKSPACE_SIZE", None
+        )
+        os.environ["CUBLAS_WORKSPACE_CONFIG"] = ":16:8"
+        os.environ["CUBLASLT_WORKSPACE_SIZE"] = "1"
+
 
 def disable_batch_invariant_mode():
     global _batch_invariant_MODE, _batch_invariant_LIB, _original_torch_bmm
+    global _original_fp16_reduction_precision, _original_bf16_reduction_precision
+    global _original_cublas_workspace_cfg, _original_cublaslt_workspace_size
+    if not _batch_invariant_MODE:
+        return
+
     if _batch_invariant_LIB is not None:
         _batch_invariant_LIB._destroy()
     if _original_torch_bmm is not None:
         torch.bmm = _original_torch_bmm
         _original_torch_bmm = None
+
+    if _original_bf16_reduction_precision is not None:
+        torch.backends.cuda.matmul.allow_bf16_reduced_precision_reduction = (
+            _original_bf16_reduction_precision
+        )
+        _original_bf16_reduction_precision = None
+    if _original_fp16_reduction_precision is not None:
+        torch.backends.cuda.matmul.allow_fp16_reduced_precision_reduction = (
+            _original_fp16_reduction_precision
+        )
+        _original_fp16_reduction_precision = None
+
+    torch.backends.cuda.preferred_blas_library(backend="default")
+
+    if not is_torch_equal_or_newer("2.10.0.dev"):
+        # Set cublas env vars to previous results. If previous results are None,
+        # that means the env vars were not set, so we should remove them.
+        if _original_cublas_workspace_cfg:
+            os.environ["CUBLAS_WORKSPACE_CONFIG"] = _original_cublas_workspace_cfg
+        elif "CUBLAS_WORKSPACE_CONFIG" in os.environ:
+            del os.environ["CUBLAS_WORKSPACE_CONFIG"]
+
+        if _original_cublaslt_workspace_size:
+            os.environ["CUBLASLT_WORKSPACE_SIZE"] = _original_cublaslt_workspace_size
+        elif "CUBLASLT_WORKSPACE_SIZE" in os.environ:
+            del os.environ["CUBLASLT_WORKSPACE_SIZE"]
+
+    _original_cublas_workspace_cfg = None
+    _original_cublaslt_workspace_size = None
+
     _batch_invariant_MODE = False
     _batch_invariant_LIB = None
 
@@ -831,6 +899,9 @@ def override_envs_for_invariance():
     os.environ["NCCL_NTHREADS"] = "1"
     os.environ["NCCL_SOCKET_NTHREADS"] = "1"
 
+    # torch.compile settings
+    os.environ["VLLM_USE_AOT_COMPILE"] = "0"
+
 
 def init_batch_invariance():
     # this will hit all the csrc overrides as well
diff --git a/vllm/model_executor/layers/quantization/fp8.py b/vllm/model_executor/layers/quantization/fp8.py
index e5681cb856258..f82eccb88ce09 100644
--- a/vllm/model_executor/layers/quantization/fp8.py
+++ b/vllm/model_executor/layers/quantization/fp8.py
@@ -363,6 +363,7 @@ class Fp8LinearMethod(LinearMethodBase):
             self.use_marlin = False
 
         self.use_aiter_and_is_supported = check_aiter_fp8_linear_support()
+        self.use_deep_gemm = is_deep_gemm_supported()
 
         self.weight_block_size = self.quant_config.weight_block_size
         self.block_quant = self.weight_block_size is not None
@@ -545,8 +546,10 @@ class Fp8LinearMethod(LinearMethodBase):
         # if batch invariant mode is enabled, prefer DeepGEMM FP8 path
         # we will use BF16 dequant when DeepGEMM is not supported.
         if vllm_is_batch_invariant():
+            # Call is_deep_gemm_supported() ahead of time for torch.compile
+            # dynamo has trouble tracing through
             if self.block_quant and should_use_deepgemm_for_fp8_linear(
-                torch.bfloat16, layer.weight, None
+                torch.bfloat16, layer.weight, self.use_deep_gemm
             ):
                 # use group quant consistent with block size across K
                 assert self.act_q_group_shape is not None

From c9791f18138d1a11bfe68550b10673b493ec9330 Mon Sep 17 00:00:00 2001
From: Nick Hill <nhill@redhat.com>
Date: Thu, 30 Oct 2025 16:26:13 -0700
Subject: [PATCH 038/976] [BugFix] Fix broken import in
 initialize_ray_cluster() (#27838)

Signed-off-by: Nick Hill <nhill@redhat.com>
---
 vllm/v1/executor/ray_utils.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/v1/executor/ray_utils.py b/vllm/v1/executor/ray_utils.py
index 382f008266e62..9385e55b066f8 100644
--- a/vllm/v1/executor/ray_utils.py
+++ b/vllm/v1/executor/ray_utils.py
@@ -322,7 +322,7 @@ def initialize_ray_cluster(
 
     # Prevalidate GPU requirements before Ray processing
     if current_platform.is_cuda() and parallel_config.world_size > 1:
-        from vllm.utils import cuda_device_count_stateless
+        from vllm.utils.torch_utils import cuda_device_count_stateless
 
         available_gpus = cuda_device_count_stateless()
         if parallel_config.world_size > available_gpus:

From d5d2a0fe7480fa23348ec253cb5c80901d27f952 Mon Sep 17 00:00:00 2001
From: Matthew Bonanni <mbonanni@redhat.com>
Date: Thu, 30 Oct 2025 19:46:02 -0400
Subject: [PATCH 039/976] [Misc] Make all tool scripts executable (#27831)

Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>
---
 tools/check_repo.sh                                  | 0
 tools/ep_kernels/configure_system_drivers.sh         | 0
 tools/ep_kernels/elastic_ep/install_eep_libraries.sh | 0
 tools/ep_kernels/install_python_libraries.sh         | 1 +
 tools/flashinfer-build.sh                            | 0
 tools/vllm-tpu/build.sh                              | 0
 6 files changed, 1 insertion(+)
 mode change 100644 => 100755 tools/check_repo.sh
 mode change 100644 => 100755 tools/ep_kernels/configure_system_drivers.sh
 mode change 100644 => 100755 tools/ep_kernels/elastic_ep/install_eep_libraries.sh
 mode change 100644 => 100755 tools/ep_kernels/install_python_libraries.sh
 mode change 100644 => 100755 tools/flashinfer-build.sh
 mode change 100644 => 100755 tools/vllm-tpu/build.sh

diff --git a/tools/check_repo.sh b/tools/check_repo.sh
old mode 100644
new mode 100755
diff --git a/tools/ep_kernels/configure_system_drivers.sh b/tools/ep_kernels/configure_system_drivers.sh
old mode 100644
new mode 100755
diff --git a/tools/ep_kernels/elastic_ep/install_eep_libraries.sh b/tools/ep_kernels/elastic_ep/install_eep_libraries.sh
old mode 100644
new mode 100755
diff --git a/tools/ep_kernels/install_python_libraries.sh b/tools/ep_kernels/install_python_libraries.sh
old mode 100644
new mode 100755
index c2d8d1ed9e3d5..5ea543f4cb1e8
--- a/tools/ep_kernels/install_python_libraries.sh
+++ b/tools/ep_kernels/install_python_libraries.sh
@@ -1,3 +1,4 @@
+#!/usr/bin/env bash
 set -ex
 
 # prepare workspace directory
diff --git a/tools/flashinfer-build.sh b/tools/flashinfer-build.sh
old mode 100644
new mode 100755
diff --git a/tools/vllm-tpu/build.sh b/tools/vllm-tpu/build.sh
old mode 100644
new mode 100755

From 697f507a8ebb13d74e8c0695aec05d9baefb45a0 Mon Sep 17 00:00:00 2001
From: Jakub Sochacki <97886316+jakub-sochacki@users.noreply.github.com>
Date: Fri, 31 Oct 2025 00:57:22 +0100
Subject: [PATCH 040/976] [CI/Build][Intel] Enable performance benchmarks for
 Intel Gaudi 3 (#26919)

Signed-off-by: jakub-sochacki <jakub.sochacki@wp.pl>
---
 .buildkite/performance-benchmarks/README.md   |  3 +-
 .../performance-benchmarks-descriptions.md    |  6 +-
 .../scripts/run-performance-benchmarks.sh     | 13 +++
 .../tests/latency-tests-hpu.json              | 55 +++++++++++++
 .../tests/serving-tests-hpu.json              | 82 +++++++++++++++++++
 .../tests/throughput-tests-hpu.json           | 61 ++++++++++++++
 6 files changed, 216 insertions(+), 4 deletions(-)
 create mode 100644 .buildkite/performance-benchmarks/tests/latency-tests-hpu.json
 create mode 100644 .buildkite/performance-benchmarks/tests/serving-tests-hpu.json
 create mode 100644 .buildkite/performance-benchmarks/tests/throughput-tests-hpu.json

diff --git a/.buildkite/performance-benchmarks/README.md b/.buildkite/performance-benchmarks/README.md
index 332142ba5d170..6d494f64f14fa 100644
--- a/.buildkite/performance-benchmarks/README.md
+++ b/.buildkite/performance-benchmarks/README.md
@@ -7,7 +7,7 @@ vLLM also maintains a continuous performance benchmark under [perf.vllm.ai](http
 
 ## Performance benchmark quick overview
 
-**Benchmarking Coverage**: latency, throughput and fix-qps serving on B200, A100, H100 and Intel® Xeon® Processors, with different models.
+**Benchmarking Coverage**: latency, throughput and fix-qps serving on B200, A100, H100, Intel® Xeon® Processors and Intel® Gaudi® 3 Accelerators with different models.
 
 **Benchmarking Duration**: about 1hr.
 
@@ -34,6 +34,7 @@ Runtime environment variables:
 
 See [performance-benchmarks-descriptions.md](performance-benchmarks-descriptions.md) for detailed descriptions, and use `tests/latency-tests.json`, `tests/throughput-tests.json`, `tests/serving-tests.json` to configure the test cases.
 > NOTE: For Intel® Xeon® Processors, use `tests/latency-tests-cpu.json`, `tests/throughput-tests-cpu.json`, `tests/serving-tests-cpu.json` instead.
+For Intel® Gaudi® 3 Accelerators, use `tests/latency-tests-hpu.json`, `tests/throughput-tests-hpu.json`, `tests/serving-tests-hpu.json` instead.
 >
 ### Latency test
 
diff --git a/.buildkite/performance-benchmarks/performance-benchmarks-descriptions.md b/.buildkite/performance-benchmarks/performance-benchmarks-descriptions.md
index 8bb16bd3cf373..b9437ac5ca99a 100644
--- a/.buildkite/performance-benchmarks/performance-benchmarks-descriptions.md
+++ b/.buildkite/performance-benchmarks/performance-benchmarks-descriptions.md
@@ -5,7 +5,7 @@
 - Input length: 32 tokens.
 - Output length: 128 tokens.
 - Batch size: fixed (8).
-- GPU Models: llama-3.1 8B, llama-3 70B, mixtral 8x7B.
+- GPU/HPU Models: llama-3.1 8B, llama-3 70B, mixtral 8x7B.
 - CPU Models: llama-3.1 8B.
 - Evaluation metrics: end-to-end latency (mean, median, p99).
 
@@ -16,7 +16,7 @@
 - Input length: randomly sample 200 prompts from ShareGPT dataset (with fixed random seed).
 - Output length: the corresponding output length of these 200 prompts.
 - Batch size: dynamically determined by vllm to achieve maximum throughput.
-- GPU Models: llama-3.1 8B, llama-3 70B, mixtral 8x7B.
+- GPU/HPU Models: llama-3.1 8B, llama-3 70B, mixtral 8x7B.
 - CPU Models: llama-3.1 8B.
 - Evaluation metrics: throughput.
 
@@ -28,7 +28,7 @@
 - Output length: the corresponding output length of these 200 prompts.
 - Batch size: dynamically determined by vllm and the arrival pattern of the requests.
 - **Average QPS (query per second)**: 1, 4, 16 and inf. QPS = inf means all requests come at once. For other QPS values, the arrival time of each query is determined using a random Poisson process (with fixed random seed).
-- GPU Models: llama-3.1 8B, llama-3 70B, mixtral 8x7B.
+- GPU/HPU Models: llama-3.1 8B, llama-3 70B, mixtral 8x7B.
 - We also added a speculative decoding test for llama-3 70B on GPU, under QPS 2
 - CPU Models: llama-3.1 8B.
 - Evaluation metrics: throughput, TTFT (time to the first token, with mean, median and p99), ITL (inter-token latency, with mean, median and p99).
diff --git a/.buildkite/performance-benchmarks/scripts/run-performance-benchmarks.sh b/.buildkite/performance-benchmarks/scripts/run-performance-benchmarks.sh
index 9447ceffd7e22..99a5a5e334f8e 100644
--- a/.buildkite/performance-benchmarks/scripts/run-performance-benchmarks.sh
+++ b/.buildkite/performance-benchmarks/scripts/run-performance-benchmarks.sh
@@ -15,6 +15,8 @@ check_gpus() {
     declare -g gpu_count=$(nvidia-smi --list-gpus | wc -l)
   elif command -v amd-smi; then
     declare -g gpu_count=$(amd-smi list | grep 'GPU' | wc -l)
+  elif command -v hl-smi; then
+    declare -g gpu_count=$(hl-smi --list | grep -i "Module ID" | wc -l)
   fi
 
   if [[ $gpu_count -gt 0 ]]; then
@@ -23,10 +25,16 @@ check_gpus() {
     echo "Need at least 1 GPU to run benchmarking."
     exit 1
   fi
+  
+  declare -g arch_suffix=''
+  
   if command -v nvidia-smi; then
     declare -g gpu_type=$(nvidia-smi --query-gpu=name --format=csv,noheader | awk '{print $2}')
   elif command -v amd-smi; then
     declare -g gpu_type=$(amd-smi static -g 0 -a | grep 'MARKET_NAME' | awk '{print $2}')
+  elif command -v hl-smi; then
+    declare -g gpu_type=$(hl-smi -q | grep "Product Name" | head -n 1 | awk -F ':' '{print $2}' | sed 's/^ *//')
+    arch_suffix='-hpu'
   fi
   echo "GPU type is $gpu_type"
 }
@@ -138,6 +146,10 @@ kill_gpu_processes() {
     while [ "$(amd-smi metric -g 0 | grep 'USED_VRAM' | awk '{print $2}')" -ge 1000 ]; do
       sleep 1
     done
+  elif command -v hl-smi; then
+    while [ "$(hl-smi -q | grep "Used" | head -n 1 | awk '{print $3}')" -ge 1000 ]; do
+      sleep 1
+    done
   fi
 
   # remove vllm config file
@@ -451,6 +463,7 @@ main() {
      ARCH='-cpu'
   else
      check_gpus
+     ARCH="$arch_suffix"
   fi
   check_hf_token
 
diff --git a/.buildkite/performance-benchmarks/tests/latency-tests-hpu.json b/.buildkite/performance-benchmarks/tests/latency-tests-hpu.json
new file mode 100644
index 0000000000000..296380f72a668
--- /dev/null
+++ b/.buildkite/performance-benchmarks/tests/latency-tests-hpu.json
@@ -0,0 +1,55 @@
+[
+    {
+        "test_name": "latency_llama8B_tp1",
+        "environment_variables": {
+            "PT_HPU_LAZY_MODE": 1,
+            "VLLM_CONTIGUOUS_PA": 1,
+            "VLLM_DEFRAG": 1
+        },
+        "parameters": {
+            "model": "meta-llama/Meta-Llama-3.1-8B-Instruct",
+            "tensor_parallel_size": 1,
+            "load_format": "dummy",
+            "num-iters-warmup": 5,
+            "num-iters": 15,
+            "max-model-len": 256,
+            "async-scheduling": ""
+        }
+    },
+    {
+        "test_name": "latency_llama70B_tp4",
+        "environment_variables": {
+            "PT_HPU_LAZY_MODE": 1,
+            "PT_HPU_ENABLE_LAZY_COLLECTIVES": 1,
+            "VLLM_CONTIGUOUS_PA": 1,
+            "VLLM_DEFRAG": 1
+        },
+        "parameters": {
+            "model": "meta-llama/Meta-Llama-3.1-70B-Instruct",
+            "tensor_parallel_size": 4,
+            "load_format": "dummy",
+            "num-iters-warmup": 5,
+            "num-iters": 15,
+            "max-model-len": 256,
+            "async-scheduling": ""
+        }
+    },
+    {
+        "test_name": "latency_mixtral8x7B_tp2",
+        "environment_variables": {
+            "PT_HPU_LAZY_MODE": 1,
+            "PT_HPU_ENABLE_LAZY_COLLECTIVES": 1,
+            "VLLM_CONTIGUOUS_PA": 1,
+            "VLLM_DEFRAG": 1
+        },
+        "parameters": {
+            "model": "mistralai/Mixtral-8x7B-Instruct-v0.1",
+            "tensor_parallel_size": 2,
+            "load_format": "dummy",
+            "num-iters-warmup": 5,
+            "num-iters": 15,
+            "max-model-len": 256,
+            "async-scheduling": ""
+        }
+    }
+]
diff --git a/.buildkite/performance-benchmarks/tests/serving-tests-hpu.json b/.buildkite/performance-benchmarks/tests/serving-tests-hpu.json
new file mode 100644
index 0000000000000..8c6b34bd9fa33
--- /dev/null
+++ b/.buildkite/performance-benchmarks/tests/serving-tests-hpu.json
@@ -0,0 +1,82 @@
+[
+    {
+        "test_name": "serving_llama8B_tp1_sharegpt",
+        "qps_list": [1, 4, 16, "inf"],
+        "server_environment_variables": {
+            "PT_HPU_LAZY_MODE": 1,
+            "VLLM_CONTIGUOUS_PA": 1,
+            "VLLM_DEFRAG": 1
+        },
+        "server_parameters": {
+            "model": "meta-llama/Meta-Llama-3.1-8B-Instruct",
+            "tensor_parallel_size": 1,
+            "swap_space": 16,
+            "disable_log_stats": "",
+            "load_format": "dummy",
+            "max-model-len": 2048,
+            "max-num-seqs": 256,
+            "async-scheduling": ""
+        },
+        "client_parameters": {
+            "model": "meta-llama/Meta-Llama-3.1-8B-Instruct",
+            "backend": "vllm",
+            "dataset_name": "sharegpt",
+            "dataset_path": "./ShareGPT_V3_unfiltered_cleaned_split.json",
+            "num_prompts": 200
+        }
+    },
+    {
+        "test_name": "serving_llama70B_tp4_sharegpt",
+        "qps_list": [1, 4, 16, "inf"],
+        "server_environment_variables": {
+            "PT_HPU_LAZY_MODE": 1,
+            "PT_HPU_ENABLE_LAZY_COLLECTIVES": 1,
+            "VLLM_CONTIGUOUS_PA": 1,
+            "VLLM_DEFRAG": 1
+        },
+        "server_parameters": {
+            "model": "meta-llama/Meta-Llama-3.1-70B-Instruct",
+            "tensor_parallel_size": 4,
+            "swap_space": 16,
+            "disable_log_stats": "",
+            "load_format": "dummy",
+            "max-model-len": 2048,
+            "max-num-seqs": 256,
+            "async-scheduling": ""
+        },
+        "client_parameters": {
+            "model": "meta-llama/Meta-Llama-3.1-70B-Instruct",
+            "backend": "vllm",
+            "dataset_name": "sharegpt",
+            "dataset_path": "./ShareGPT_V3_unfiltered_cleaned_split.json",
+            "num_prompts": 200
+        }
+    },
+    {
+        "test_name": "serving_mixtral8x7B_tp2_sharegpt",
+        "qps_list": [1, 4, 16, "inf"],
+        "server_environment_variables": {
+            "PT_HPU_LAZY_MODE": 1,
+            "PT_HPU_ENABLE_LAZY_COLLECTIVES": 1,
+            "VLLM_CONTIGUOUS_PA": 1,
+            "VLLM_DEFRAG": 1
+        },
+        "server_parameters": {
+            "model": "mistralai/Mixtral-8x7B-Instruct-v0.1",
+            "tensor_parallel_size": 2,
+            "swap_space": 16,
+            "disable_log_stats": "",
+            "load_format": "dummy",
+            "max-model-len": 2048,
+            "max-num-seqs": 256,
+            "async-scheduling": ""
+        },
+        "client_parameters": {
+            "model": "mistralai/Mixtral-8x7B-Instruct-v0.1",
+            "backend": "vllm",
+            "dataset_name": "sharegpt",
+            "dataset_path": "./ShareGPT_V3_unfiltered_cleaned_split.json",
+            "num_prompts": 200
+        }
+    }
+]
diff --git a/.buildkite/performance-benchmarks/tests/throughput-tests-hpu.json b/.buildkite/performance-benchmarks/tests/throughput-tests-hpu.json
new file mode 100644
index 0000000000000..3127bf2f6bce3
--- /dev/null
+++ b/.buildkite/performance-benchmarks/tests/throughput-tests-hpu.json
@@ -0,0 +1,61 @@
+[
+    {
+        "test_name": "throughput_llama8B_tp1",
+        "environment_variables": {
+            "PT_HPU_LAZY_MODE": 1,
+            "VLLM_CONTIGUOUS_PA": 1,
+            "VLLM_DEFRAG": 1
+        },
+        "parameters": {
+            "model": "meta-llama/Meta-Llama-3.1-8B-Instruct",
+            "tensor_parallel_size": 1,
+            "load_format": "dummy",
+            "dataset_path": "./ShareGPT_V3_unfiltered_cleaned_split.json",
+            "num_prompts": 1000,
+            "backend": "vllm",
+            "max-model-len": 2048,
+            "max-num-seqs": 512,
+            "async-scheduling": ""
+        }
+    },
+    {
+        "test_name": "throughput_llama70B_tp4",
+        "environment_variables": {
+            "PT_HPU_LAZY_MODE": 1,
+            "PT_HPU_ENABLE_LAZY_COLLECTIVES": 1,
+            "VLLM_CONTIGUOUS_PA": 1,
+            "VLLM_DEFRAG": 1
+        },
+        "parameters": {
+            "model": "meta-llama/Meta-Llama-3.1-70B-Instruct",
+            "tensor_parallel_size": 4,
+            "load_format": "dummy",
+            "dataset_path": "./ShareGPT_V3_unfiltered_cleaned_split.json",
+            "num_prompts": 1000,
+            "backend": "vllm",
+            "max-model-len": 2048,
+            "max-num-seqs": 512,
+            "async-scheduling": ""
+        }
+    },
+    {
+        "test_name": "throughput_mixtral8x7B_tp2",
+        "environment_variables": {
+            "PT_HPU_LAZY_MODE": 1,
+            "PT_HPU_ENABLE_LAZY_COLLECTIVES": 1,
+            "VLLM_CONTIGUOUS_PA": 1,
+            "VLLM_DEFRAG": 1
+        },
+        "parameters": {
+            "model": "mistralai/Mixtral-8x7B-Instruct-v0.1",
+            "tensor_parallel_size": 2,
+            "load_format": "dummy",
+            "dataset_path": "./ShareGPT_V3_unfiltered_cleaned_split.json",
+            "num_prompts": 1000,
+            "backend": "vllm",
+            "max-model-len": 2048,
+            "max-num-seqs": 512,
+            "async-scheduling": ""
+        }
+    }
+]

From 2bf0bcc1fca422222b78a3b1f39845ecd037aecc Mon Sep 17 00:00:00 2001
From: Wentao Ye <44945378+yewentao256@users.noreply.github.com>
Date: Thu, 30 Oct 2025 20:29:26 -0400
Subject: [PATCH 041/976] [CI Test] Add Scheduled Integration Test (#27765)

Signed-off-by: yewentao256 <zhyanwentao@126.com>
---
 .../deepseek_v2_lite_ep_eplb.sh               | 62 +++++++++++++++++++
 .../qwen30b_a3b_fp8_block_ep.sh               | 61 ++++++++++++++++++
 .buildkite/test-pipeline.yaml                 | 18 ++++++
 3 files changed, 141 insertions(+)
 create mode 100644 .buildkite/scripts/scheduled_integration_test/deepseek_v2_lite_ep_eplb.sh
 create mode 100644 .buildkite/scripts/scheduled_integration_test/qwen30b_a3b_fp8_block_ep.sh

diff --git a/.buildkite/scripts/scheduled_integration_test/deepseek_v2_lite_ep_eplb.sh b/.buildkite/scripts/scheduled_integration_test/deepseek_v2_lite_ep_eplb.sh
new file mode 100644
index 0000000000000..5302f524a0ae4
--- /dev/null
+++ b/.buildkite/scripts/scheduled_integration_test/deepseek_v2_lite_ep_eplb.sh
@@ -0,0 +1,62 @@
+#!/usr/bin/env bash
+set -euxo pipefail
+
+# args: [THRESHOLD] [NUM_QUESTIONS] [START_PORT]
+THRESHOLD=${1:-0.25}
+NUM_Q=${2:-1319}
+PORT=${3:-8010}
+OUT_DIR=${OUT_DIR:-/tmp/vllm-scheduled}
+mkdir -p "${OUT_DIR}"
+
+wait_for_server() {
+  local port=$1
+  timeout 600 bash -c '
+    until curl -sf "http://127.0.0.1:'"$port"'/health" > /dev/null; do
+      sleep 1
+    done'
+}
+
+MODEL="deepseek-ai/DeepSeek-V2-lite"
+BACKENDS=("deepep_high_throughput" "deepep_low_latency")
+
+cleanup() {
+  if [[ -n "${SERVER_PID:-}" ]] && kill -0 "${SERVER_PID}" 2>/dev/null; then
+    kill "${SERVER_PID}" 2>/dev/null || true
+    for _ in {1..20}; do
+      kill -0 "${SERVER_PID}" 2>/dev/null || break
+      sleep 0.5
+    done
+    kill -9 "${SERVER_PID}" 2>/dev/null || true
+  fi
+}
+trap cleanup EXIT
+
+for BACK in "${BACKENDS[@]}"; do
+  VLLM_DEEP_GEMM_WARMUP=skip \
+  VLLM_ALL2ALL_BACKEND=$BACK \
+  vllm serve "$MODEL" \
+    --enforce-eager \
+    --tensor-parallel-size 2 \
+    --data-parallel-size 2 \
+    --enable-expert-parallel \
+    --enable-eplb \
+    --trust-remote-code \
+    --max-model-len 2048 \
+    --port $PORT &
+  SERVER_PID=$!
+  wait_for_server $PORT
+
+  TAG=$(echo "$MODEL" | tr '/: \\n' '_____')
+  OUT="${OUT_DIR}/${TAG}_${BACK}.json"
+  python3 tests/evals/gsm8k/gsm8k_eval.py --host http://127.0.0.1 --port $PORT --num-questions ${NUM_Q} --save-results ${OUT}
+  python3 - <<PY
+import json; acc=json.load(open('${OUT}'))['accuracy']
+print(f"${MODEL} ${BACK}: accuracy {acc:.3f}")
+assert acc >= ${THRESHOLD}, f"${MODEL} ${BACK} accuracy {acc}"
+PY
+
+  cleanup
+  SERVER_PID=
+  sleep 1
+  PORT=$((PORT+1))
+done
diff --git a/.buildkite/scripts/scheduled_integration_test/qwen30b_a3b_fp8_block_ep.sh b/.buildkite/scripts/scheduled_integration_test/qwen30b_a3b_fp8_block_ep.sh
new file mode 100644
index 0000000000000..a5135299297e2
--- /dev/null
+++ b/.buildkite/scripts/scheduled_integration_test/qwen30b_a3b_fp8_block_ep.sh
@@ -0,0 +1,61 @@
+#!/usr/bin/env bash
+set -euxo pipefail
+
+# args: [THRESHOLD] [NUM_QUESTIONS] [START_PORT]
+THRESHOLD=${1:-0.8}
+NUM_Q=${2:-1319}
+PORT=${3:-8020}
+OUT_DIR=${OUT_DIR:-/tmp/vllm-scheduled}
+mkdir -p "${OUT_DIR}"
+
+wait_for_server() {
+  local port=$1
+  timeout 600 bash -c '
+    until curl -sf "http://127.0.0.1:'"$port"'/health" > /dev/null; do
+      sleep 1
+    done'
+}
+
+MODEL="QWen/Qwen3-30B-A3B-FP8"
+BACKENDS=("deepep_high_throughput" "deepep_low_latency")
+
+cleanup() {
+  if [[ -n "${SERVER_PID:-}" ]] && kill -0 "${SERVER_PID}" 2>/dev/null; then
+    kill "${SERVER_PID}" 2>/dev/null || true
+    for _ in {1..20}; do
+      kill -0 "${SERVER_PID}" 2>/dev/null || break
+      sleep 0.5
+    done
+    kill -9 "${SERVER_PID}" 2>/dev/null || true
+  fi
+}
+trap cleanup EXIT
+
+for BACK in "${BACKENDS[@]}"; do
+  VLLM_DEEP_GEMM_WARMUP=skip \
+  VLLM_ALL2ALL_BACKEND=$BACK \
+  vllm serve "$MODEL" \
+    --enforce-eager \
+    --tensor-parallel-size 2 \
+    --data-parallel-size 2 \
+    --enable-expert-parallel \
+    --trust-remote-code \
+    --max-model-len 2048 \
+    --port $PORT &
+  SERVER_PID=$!
+  wait_for_server $PORT
+
+  TAG=$(echo "$MODEL" | tr '/: \\n' '_____')
+  OUT="${OUT_DIR}/${TAG}_${BACK}.json"
+  python3 tests/evals/gsm8k/gsm8k_eval.py --host http://127.0.0.1 --port $PORT --num-questions ${NUM_Q} --save-results ${OUT}
+  python3 - <<PY
+import json; acc=json.load(open('${OUT}'))['accuracy']
+print(f"${MODEL} ${BACK}: accuracy {acc:.3f}")
+assert acc >= ${THRESHOLD}, f"${MODEL} ${BACK} accuracy {acc}"
+PY
+
+  cleanup
+  SERVER_PID=
+  sleep 1
+  PORT=$((PORT+1))
+done
diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index 339e3aab6c031..8d4e5ece94d19 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -1234,3 +1234,21 @@ steps:
   - .buildkite/scripts/run-prime-rl-test.sh
   commands:
     - bash .buildkite/scripts/run-prime-rl-test.sh
+
+- label: DeepSeek V2-Lite Accuracy
+  timeout_in_minutes: 60
+  gpu: h100
+  optional: true
+  num_gpus: 4
+  working_dir: "/vllm-workspace"
+  commands:
+  - bash .buildkite/scripts/scheduled_integration_test/deepseek_v2_lite_ep_eplb.sh 0.25 200 8010
+
+- label: Qwen3-30B-A3B-FP8-block Accuracy
+  timeout_in_minutes: 60
+  gpu: h100
+  optional: true
+  num_gpus: 4
+  working_dir: "/vllm-workspace"
+  commands:
+  - bash .buildkite/scripts/scheduled_integration_test/qwen30b_a3b_fp8_block_ep.sh 0.8 200 8020

From b2e65cb4a7ea7c000517a7b78a6e0ccd9ecb0517 Mon Sep 17 00:00:00 2001
From: Seiji Eicher <58963096+eicherseiji@users.noreply.github.com>
Date: Thu, 30 Oct 2025 19:40:35 -0500
Subject: [PATCH 042/976] [benchmark] Make request IDs unique across clients by
 default (#27723)

Signed-off-by: Seiji Eicher <seiji@anyscale.com>
---
 vllm/benchmarks/serve.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/vllm/benchmarks/serve.py b/vllm/benchmarks/serve.py
index 71d136d61ceaf..4b15d8e62913c 100644
--- a/vllm/benchmarks/serve.py
+++ b/vllm/benchmarks/serve.py
@@ -26,6 +26,7 @@ import os
 import random
 import shutil
 import time
+import uuid
 import warnings
 from collections.abc import AsyncGenerator, Iterable
 from dataclasses import dataclass
@@ -1160,7 +1161,7 @@ def add_cli_args(parser: argparse.ArgumentParser):
         "--request-id-prefix",
         type=str,
         required=False,
-        default="benchmark-serving",
+        default=f"bench-{uuid.uuid4().hex[:8]}-",
         help="Specify the prefix of request id.",
     )
 

From 36960501d336a15cf0de7569e2662793ad9a4f3f Mon Sep 17 00:00:00 2001
From: Akash kaothalkar <61960177+Akashcodes732@users.noreply.github.com>
Date: Fri, 31 Oct 2025 13:15:26 +0530
Subject: [PATCH 043/976] [Hardware][Powerpc] Fix
 VLLM_CPU_OMP_THREADS_BIND="auto"  low CPU utilization for Power (#27734)

Signed-off-by: Akash Kaothalkar <akash.kaothalkar@ibm.com>
Co-authored-by: Akash Kaothalkar <akash.kaothalkar@ibm.com>
---
 vllm/platforms/cpu.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/vllm/platforms/cpu.py b/vllm/platforms/cpu.py
index 8c1d46564f6f6..4b9f4aef022d0 100644
--- a/vllm/platforms/cpu.py
+++ b/vllm/platforms/cpu.py
@@ -316,7 +316,8 @@ class CpuPlatform(Platform):
 
         if (
             platform.system() == "Linux"
-            and Platform.get_cpu_architecture() == CpuArchEnum.ARM
+            and Platform.get_cpu_architecture()
+            in (CpuArchEnum.ARM, CpuArchEnum.POWERPC)
             and not ("libomp" in ld_preload_str or "libgomp" in ld_preload_str)
         ):
             # We need to LD_PRELOAD PyTorch's libgomp, otherwise only

From e5ef4dfc11abfc44494963b85ced1c79d1d5efea Mon Sep 17 00:00:00 2001
From: toncao <130689535+toncao@users.noreply.github.com>
Date: Fri, 31 Oct 2025 16:36:37 +0700
Subject: [PATCH 044/976] [Kimi-Linear] Correct prefixes and add compatibility
 to AWQ quants (#27834)

Signed-off-by: toncao <cpatonn@gmail.com>
Co-authored-by: toncao <cpatonn@gmail.com>
---
 vllm/model_executor/models/kimi_linear.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/vllm/model_executor/models/kimi_linear.py b/vllm/model_executor/models/kimi_linear.py
index a60a8d764d9d1..f8df72b067dd0 100644
--- a/vllm/model_executor/models/kimi_linear.py
+++ b/vllm/model_executor/models/kimi_linear.py
@@ -155,6 +155,7 @@ class KimiMoE(nn.Module):
                 hidden_act=config.hidden_act,
                 quant_config=quant_config,
                 reduce_results=False,
+                prefix=f"{prefix}.shared_experts",
             )
 
     def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
@@ -340,7 +341,7 @@ class KimiDecoderLayer(nn.Module):
             self.block_sparse_moe = KimiMoE(
                 config=config,
                 quant_config=quant_config,
-                prefix=f"{prefix}.mlp",
+                prefix=f"{prefix}.block_sparse_moe",
             )
             self.mlp = self.block_sparse_moe
         else:

From 3933f18a5e7b69b096d4b8f700dfa496e6716d86 Mon Sep 17 00:00:00 2001
From: Isotr0py <mozf@mail2.sysu.edu.cn>
Date: Fri, 31 Oct 2025 19:33:12 +0800
Subject: [PATCH 045/976] [Bugfix] Avoid too small block m/n for FlexAttention
 kernel option (#27853)

Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>
---
 vllm/v1/attention/backends/flex_attention.py | 5 +++++
 1 file changed, 5 insertions(+)

diff --git a/vllm/v1/attention/backends/flex_attention.py b/vllm/v1/attention/backends/flex_attention.py
index c16a77c093cfb..928252636d583 100644
--- a/vllm/v1/attention/backends/flex_attention.py
+++ b/vllm/v1/attention/backends/flex_attention.py
@@ -896,6 +896,8 @@ def get_kernel_options(
         return kernel_options
     else:
         preferred_block = 32 if query.dtype == torch.float32 else 64
+        block_lower_bound = 16
+
         block_m_candidate = ensure_divisible(preferred_block, block_m)
         block_n_candidate = ensure_divisible(preferred_block, block_n)
 
@@ -910,6 +912,9 @@ def get_kernel_options(
                     max(1, block_n_candidate // 2), block_n
                 )
 
+        block_m_candidate = max(block_m_candidate, block_lower_bound)
+        block_n_candidate = max(block_n_candidate, block_lower_bound)
+
         kernel_options["BLOCK_M"] = block_m_candidate
         kernel_options["BLOCK_N"] = block_n_candidate
 

From 933cdea44061cb19a99421d2d2e51535e7f21216 Mon Sep 17 00:00:00 2001
From: Huamin Li <3ericli@gmail.com>
Date: Fri, 31 Oct 2025 04:36:18 -0700
Subject: [PATCH 046/976] =?UTF-8?q?[BugFix]=20Don=E2=80=99t=20compute=20re?=
 =?UTF-8?q?order=20threshold=20when=20there=20are=20no=20attention=20group?=
 =?UTF-8?q?s=20(#27861)?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 vllm/v1/worker/gpu_model_runner.py | 5 +++++
 1 file changed, 5 insertions(+)

diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index 04814b5991ebc..747a7b377e401 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -4149,6 +4149,11 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
             group.get_metadata_builder().reorder_batch_threshold
             for group in self._attn_group_iterator()
         ]
+        # If there are no attention groups (attention-free model) or no backend
+        # reports a threshold, leave reordering disabled.
+        if len(reorder_batch_thresholds) == 0:
+            self.reorder_batch_threshold = None
+            return
         self.reorder_batch_threshold = reduce(min_none_high, reorder_batch_thresholds)
 
     def _find_compatible_block_sizes(

From 3857eb87257cf23d2401a651884dcbbf42c16b7b Mon Sep 17 00:00:00 2001
From: Jiangyun Zhu <riverclouds.zhu@qq.com>
Date: Fri, 31 Oct 2025 21:35:52 +0800
Subject: [PATCH 047/976] [Perf] Decouple torch op from GDA to leverage
 torch.compile (#27871)

Signed-off-by: zjy0516 <riverclouds.zhu@qq.com>
---
 vllm/model_executor/layers/kda.py | 116 +++++++++++++++++-------------
 1 file changed, 68 insertions(+), 48 deletions(-)

diff --git a/vllm/model_executor/layers/kda.py b/vllm/model_executor/layers/kda.py
index c45e7546fac1e..308bc8be1dece 100644
--- a/vllm/model_executor/layers/kda.py
+++ b/vllm/model_executor/layers/kda.py
@@ -40,18 +40,36 @@ logger = init_logger(__name__)
 
 
 def kda_attention(
-    hidden_states: torch.Tensor,
-    output: torch.Tensor,
+    q_proj_states: torch.Tensor,
+    k_proj_states: torch.Tensor,
+    v_proj_states: torch.Tensor,
+    g1: torch.Tensor,
+    g2: torch.Tensor,
+    beta: torch.Tensor,
+    core_attn_out: torch.Tensor,
     layer_name: str,
 ) -> None:
     forward_context: ForwardContext = get_forward_context()
     self = forward_context.no_compile_layers[layer_name]
-    self._forward(hidden_states=hidden_states, output=output)
+    self._forward(
+        q_proj_states=q_proj_states,
+        k_proj_states=k_proj_states,
+        v_proj_states=v_proj_states,
+        g1=g1,
+        g2=g2,
+        beta=beta,
+        core_attn_out=core_attn_out,
+    )
 
 
 def kda_attention_fake(
-    hidden_states: torch.Tensor,
-    output: torch.Tensor,
+    q_proj_states: torch.Tensor,
+    k_proj_states: torch.Tensor,
+    v_proj_states: torch.Tensor,
+    g1: torch.Tensor,
+    g2: torch.Tensor,
+    beta: torch.Tensor,
+    core_attn_out: torch.Tensor,
     layer_name: str,
 ) -> None:
     return
@@ -60,7 +78,7 @@ def kda_attention_fake(
 direct_register_custom_op(
     op_name="kda_attention",
     op_func=kda_attention,
-    mutates_args=["output"],
+    mutates_args=["core_attn_out"],
     fake_impl=kda_attention_fake,
 )
 
@@ -241,37 +259,56 @@ class KimiDeltaAttention(nn.Module, MambaBase):
         hidden_states: torch.Tensor,
         positions: torch.Tensor,
         output: torch.Tensor,
-    ) -> None:
-        return torch.ops.vllm.kda_attention(
-            hidden_states,
-            output,
+    ) -> torch.Tensor:
+        num_tokens = hidden_states.size(0)
+        q = self.q_proj(hidden_states)[0]
+        k = self.k_proj(hidden_states)[0]
+        v = self.v_proj(hidden_states)[0]
+
+        beta = self.b_proj(hidden_states)[0].float().sigmoid()
+        g1 = self.f_b_proj(self.f_a_proj(hidden_states)[0])[0]
+        g1 = fused_kda_gate(g1, self.A_log, self.head_dim, g_bias=self.dt_bias)
+        beta = beta.unsqueeze(0)
+        g1 = g1.unsqueeze(0)
+
+        g_proj_states = self.g_b_proj(self.g_a_proj(hidden_states)[0])[0]
+        g2 = rearrange(g_proj_states, "... (h d) -> ... h d", d=self.head_dim)
+
+        core_attn_out = torch.zeros(
+            (1, num_tokens, self.local_num_heads, self.head_dim),
+            dtype=hidden_states.dtype,
+            device=hidden_states.device,
+        )
+        torch.ops.vllm.kda_attention(
+            q,
+            k,
+            v,
+            g1,
+            g2,
+            beta,
+            core_attn_out,
             self.prefix,
         )
+        core_attn_out = self.o_norm(core_attn_out, g2)
+        core_attn_out = rearrange(core_attn_out, "1 n h d -> n (h d)")
+
+        return self.o_proj(core_attn_out)[0]
 
     def _forward(
         self,
-        hidden_states: torch.Tensor,
-        output: torch.Tensor,
+        q_proj_states: torch.Tensor,
+        k_proj_states: torch.Tensor,
+        v_proj_states: torch.Tensor,
+        g1: torch.Tensor,
+        g2: torch.Tensor,
+        beta: torch.Tensor,
+        core_attn_out: torch.Tensor,
     ) -> None:
         forward_context = get_forward_context()
         attn_metadata: AttentionMetadata = forward_context.attn_metadata
 
         if attn_metadata is None:
-            # V1 profile run
-            # Mimic the memory allocation in the real run
-            q = torch.empty_like(hidden_states)
-            k = torch.empty_like(hidden_states)
-            v = torch.empty_like(hidden_states)
-            g = hidden_states.new_empty(
-                hidden_states.size(0),
-                self.local_num_heads,
-                self.head_dim,
-                dtype=torch.float32,
-            )
-            beta = torch.empty(
-                hidden_states.size(0), self.local_num_heads, dtype=torch.float32
-            )
-            core_attn_out = torch.empty_like(hidden_states)
+            #     # V1 profile run
             return
 
         assert isinstance(attn_metadata, dict)
@@ -288,10 +325,6 @@ class KimiDeltaAttention(nn.Module, MambaBase):
         conv_state_k = conv_state_k.transpose(-1, -2)
         conv_state_v = conv_state_v.transpose(-1, -2)
 
-        q_proj_states = self.q_proj(hidden_states)[0]
-        k_proj_states = self.k_proj(hidden_states)[0]
-        v_proj_states = self.v_proj(hidden_states)[0]
-
         q_conv_weights = self.q_conv1d.weight.view(
             self.q_conv1d.weight.size(0), self.q_conv1d.weight.size(2)
         )
@@ -374,14 +407,6 @@ class KimiDeltaAttention(nn.Module, MambaBase):
             lambda x: rearrange(x, "n (h d) -> 1 n h d", d=self.head_dim), (q, k, v)
         )
 
-        beta = self.b_proj(hidden_states)[0].float().sigmoid()
-
-        g = self.f_b_proj(self.f_a_proj(hidden_states)[0])[0]
-        g = fused_kda_gate(g, self.A_log, self.head_dim, g_bias=self.dt_bias)
-
-        beta = beta.unsqueeze(0)
-        g = g.unsqueeze(0)
-
         if attn_metadata.num_prefills > 0:
             zero_idx = non_spec_state_indices_tensor[~has_initial_state]
             recurrent_state[zero_idx] = 0
@@ -393,7 +418,7 @@ class KimiDeltaAttention(nn.Module, MambaBase):
                 q=q,
                 k=k,
                 v=v,
-                g=g,
+                g=g1,
                 beta=beta,
                 initial_state=initial_state,
                 output_final_state=True,
@@ -410,17 +435,12 @@ class KimiDeltaAttention(nn.Module, MambaBase):
                 q=q,
                 k=k,
                 v=v,
-                g=g,
+                g=g1,
                 beta=beta,
                 initial_state=recurrent_state,
                 use_qk_l2norm_in_kernel=True,
                 cu_seqlens=non_spec_query_start_loc,
                 ssm_state_indices=non_spec_state_indices_tensor,
             )
-
-        g_proj_states = self.g_b_proj(self.g_a_proj(hidden_states)[0])[0]
-        g = rearrange(g_proj_states, "... (h d) -> ... h d", d=self.head_dim)
-        core_attn_out = self.o_norm(core_attn_out_non_spec, g)
-        core_attn_out = rearrange(core_attn_out, "1 n h d -> n (h d)")
-
-        output[:] = self.o_proj(core_attn_out)[0]
+        assert core_attn_out_non_spec.shape == core_attn_out.shape
+        core_attn_out[:] = core_attn_out_non_spec

From 0384aa7150c4c9778efca041ffd1beb3ad2bd694 Mon Sep 17 00:00:00 2001
From: Jee Jee Li <pandaleefree@gmail.com>
Date: Fri, 31 Oct 2025 22:17:21 +0800
Subject: [PATCH 048/976] [CI/Build] Add gpt-oss LoRA test (#27870)

Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>
---
 .buildkite/test-amd.yaml         |   4 +-
 .buildkite/test-pipeline.yaml    |   3 +-
 tests/lora/conftest.py           |   2 +-
 tests/lora/test_deepseekv2_tp.py |   4 ++
 tests/lora/test_gptoss.py        |  52 ---------------
 tests/lora/test_gptoss_tp.py     | 106 +++++++++++++++++++++++++++++++
 tests/lora/test_qwen3moe_tp.py   |   4 ++
 7 files changed, 120 insertions(+), 55 deletions(-)
 delete mode 100644 tests/lora/test_gptoss.py
 create mode 100644 tests/lora/test_gptoss_tp.py

diff --git a/.buildkite/test-amd.yaml b/.buildkite/test-amd.yaml
index 35bd4c99adb78..c023457fb03e4 100644
--- a/.buildkite/test-amd.yaml
+++ b/.buildkite/test-amd.yaml
@@ -441,7 +441,7 @@ steps:
       --ignore=lora/test_llm_with_multi_loras.py \
       --ignore=lora/test_olmoe_tp.py \
       --ignore=lora/test_deepseekv2_tp.py \
-      --ignore=lora/test_gptoss.py \
+      --ignore=lora/test_gptoss_tp.py \
       --ignore=lora/test_qwen3moe_tp.py
   parallelism: 4
 
@@ -1217,6 +1217,8 @@ steps:
     - pytest -v -s -x lora/test_llama_tp.py
     - pytest -v -s -x lora/test_llm_with_multi_loras.py
     - pytest -v -s -x lora/test_olmoe_tp.py
+    - pytest -v -s -x lora/test_gptoss_tp.py
+
 
 - label: Weight Loading Multiple GPU Test  # 33min
   timeout_in_minutes: 45
diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index 8d4e5ece94d19..3bd5bd87fe6f0 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -417,7 +417,7 @@ steps:
       --ignore=lora/test_llm_with_multi_loras.py \
       --ignore=lora/test_olmoe_tp.py \
       --ignore=lora/test_deepseekv2_tp.py \
-      --ignore=lora/test_gptoss.py \
+      --ignore=lora/test_gptoss_tp.py \
       --ignore=lora/test_qwen3moe_tp.py
 
   parallelism: 4
@@ -1119,6 +1119,7 @@ steps:
     - pytest -v -s -x lora/test_llama_tp.py
     - pytest -v -s -x lora/test_llm_with_multi_loras.py
     - pytest -v -s -x lora/test_olmoe_tp.py
+    - pytest -v -s -x lora/test_gptoss_tp.py
 
 
 - label: Weight Loading Multiple GPU Test  # 33min
diff --git a/tests/lora/conftest.py b/tests/lora/conftest.py
index 2a688216f25ec..d8ff9339bb49b 100644
--- a/tests/lora/conftest.py
+++ b/tests/lora/conftest.py
@@ -237,7 +237,7 @@ def deepseekv2_lora_files():
 
 @pytest.fixture(scope="session")
 def gptoss20b_lora_files():
-    return snapshot_download(repo_id="LevinZheng/gpt-oss-20b-lora-adapter")
+    return snapshot_download(repo_id="jeeejeee/gpt-oss-20b-lora-adapter-text2sql")
 
 
 @pytest.fixture(scope="session")
diff --git a/tests/lora/test_deepseekv2_tp.py b/tests/lora/test_deepseekv2_tp.py
index 98b7e6333f300..b3496fa88e6bb 100644
--- a/tests/lora/test_deepseekv2_tp.py
+++ b/tests/lora/test_deepseekv2_tp.py
@@ -1,6 +1,10 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
+# NOTE To avoid overloading the CI pipeline, this test script will
+# not be triggered on CI and is primarily intended for local testing
+# and verification.
+
 import vllm
 from vllm.lora.request import LoRARequest
 
diff --git a/tests/lora/test_gptoss.py b/tests/lora/test_gptoss.py
deleted file mode 100644
index f5c9a5cf20e01..0000000000000
--- a/tests/lora/test_gptoss.py
+++ /dev/null
@@ -1,52 +0,0 @@
-# SPDX-License-Identifier: Apache-2.0
-# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
-
-import vllm
-from vllm.lora.request import LoRARequest
-
-MODEL_PATH = "openai/gpt-oss-20b"
-
-PROMPT_TEMPLATE = "<｜begin▁of▁sentence｜>You are a helpful assistant.\n\nUser: {context}\n\nAssistant:"  # noqa: E501
-
-
-def do_sample(llm: vllm.LLM, lora_path: str, lora_id: int) -> list[str]:
-    prompts = [
-        PROMPT_TEMPLATE.format(context="Who are you?"),
-    ]
-    sampling_params = vllm.SamplingParams(temperature=0, max_tokens=64)
-    outputs = llm.generate(
-        prompts,
-        sampling_params,
-        lora_request=LoRARequest(str(lora_id), lora_id, lora_path) if lora_id else None,
-    )
-    # Print the outputs.
-    generated_texts: list[str] = []
-    for output in outputs:
-        prompt = output.prompt
-        generated_text = output.outputs[0].text.strip()
-        generated_texts.append(generated_text)
-        print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
-    return generated_texts
-
-
-# FIXME: Load gpt-oss adapter
-def test_gptoss20b_lora(gptoss20b_lora_files):
-    # We enable enforce_eager=True here to reduce VRAM usage for lora-test CI,
-    # Otherwise, the lora-test will fail due to CUDA OOM.
-    llm = vllm.LLM(
-        MODEL_PATH,
-        enable_lora=True,
-        max_loras=4,
-        trust_remote_code=True,
-    )
-
-    expected_lora_output = [
-        "I am an AI language model developed by OpenAI. "
-        "I am here to help you with any questions or "
-        "tasks you may have."
-    ]
-
-    output1 = do_sample(llm, gptoss20b_lora_files, lora_id=1)
-    print(output1)
-    for i in range(len(expected_lora_output)):
-        assert output1[i].startswith(expected_lora_output[i])
diff --git a/tests/lora/test_gptoss_tp.py b/tests/lora/test_gptoss_tp.py
new file mode 100644
index 0000000000000..db4b7ca5ef499
--- /dev/null
+++ b/tests/lora/test_gptoss_tp.py
@@ -0,0 +1,106 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import vllm
+from vllm.lora.request import LoRARequest
+
+from ..utils import multi_gpu_test
+
+MODEL_PATH = "openai/gpt-oss-20b"
+
+PROMPT_TEMPLATE = """<|start|>system<|message|>You are ChatGPT, a large language model trained by OpenAI.
+Knowledge cutoff: 2024-06
+Current date: 2025-10-29
+
+Reasoning: medium
+
+# Valid channels: analysis, commentary, final. Channel must be included for every message.<|end|><|start|>user<|message|>I want you to act as a SQL terminal in front of an example database, you need only to return the sql command to me.Below is an instruction that describes a task, Write a response that appropriately completes the request.
+"
+##Instruction:
+farm contains tables such as city, farm, farm_competition, competition_record. Table city has columns such as City_ID, Official_Name, Status, Area_km_2, Population, Census_Ranking. City_ID is the primary key.
+Table farm has columns such as Farm_ID, Year, Total_Horses, Working_Horses, Total_Cattle, Oxen, Bulls, Cows, Pigs, Sheep_and_Goats. Farm_ID is the primary key.
+Table farm_competition has columns such as Competition_ID, Year, Theme, Host_city_ID, Hosts. Competition_ID is the primary key.
+Table competition_record has columns such as Competition_ID, Farm_ID, Rank. Competition_ID is the primary key.
+The Host_city_ID of farm_competition is the foreign key of City_ID of city.
+The Farm_ID of competition_record is the foreign key of Farm_ID of farm.
+The Competition_ID of competition_record is the foreign key of Competition_ID of farm_competition.
+
+
+###Input:
+{context}
+
+###Response:<|end|><|start|>assistant<|channel|>final<|message|>"""  # noqa: E501
+
+EXPECTED_LORA_OUTPUT = [
+    "SELECT AVG(Working_Horses) FROM farm WHERE Total_Horses > 5000;",
+    "SELECT AVG(Working_Horses) FROM farm WHERE Total_Horses > 5000;",
+    "SELECT MAX(Cows) AS Max_Cows, MIN(Cows) AS Min_Cows FROM farm;",
+    "SELECT MAX(Cows) AS Max_Cows, MIN(Cows) AS Min_Cows FROM farm;",
+]
+
+
+def generate_and_test(llm: vllm.LLM, lora_path: str, lora_id: int) -> None:
+    prompts = [
+        PROMPT_TEMPLATE.format(
+            context="What is the average number of working horses of farms with more than 5000 total number of horses?"  # noqa: E501
+        ),  # noqa: E501
+        PROMPT_TEMPLATE.format(
+            context="Give the average number of working horses on farms with more than 5000 total horses."  # noqa: E501
+        ),  # noqa: E501
+        PROMPT_TEMPLATE.format(
+            context="What are the maximum and minimum number of cows across all farms."
+        ),
+        PROMPT_TEMPLATE.format(
+            context="Return the maximum and minimum number of cows across all farms."
+        ),
+    ]
+    sampling_params = vllm.SamplingParams(temperature=0, max_tokens=64)
+    outputs = llm.generate(
+        prompts,
+        sampling_params,
+        lora_request=LoRARequest(str(lora_id), lora_id, lora_path) if lora_id else None,
+    )
+    # Print the outputs.
+    generated_texts: list[str] = []
+    for output in outputs:
+        prompt = output.prompt
+        generated_text = output.outputs[0].text.strip()
+        generated_texts.append(generated_text)
+        print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
+
+    for i in range(len(EXPECTED_LORA_OUTPUT)):
+        assert generated_texts[i].startswith(EXPECTED_LORA_OUTPUT[i])
+
+
+def test_gpt_oss_lora(gptoss20b_lora_files):
+    llm = vllm.LLM(
+        MODEL_PATH,
+        max_model_len=1024,
+        enable_lora=True,
+        max_loras=4,
+        max_lora_rank=8,
+        compilation_config=vllm.config.CompilationConfig(  # Avoid OOM
+            cudagraph_specialize_lora=False,
+        ),
+    )
+
+    generate_and_test(llm, gptoss20b_lora_files, lora_id=1)
+    generate_and_test(llm, gptoss20b_lora_files, lora_id=2)
+
+
+@multi_gpu_test(num_gpus=2)
+def test_gpt_oss_lora_tp2(gptoss20b_lora_files):
+    llm = vllm.LLM(
+        MODEL_PATH,
+        max_model_len=1024,
+        enable_lora=True,
+        max_loras=2,
+        max_lora_rank=8,
+        tensor_parallel_size=2,
+        compilation_config=vllm.config.CompilationConfig(  # Avoid OOM
+            cudagraph_specialize_lora=False,
+        ),
+    )
+
+    generate_and_test(llm, gptoss20b_lora_files, lora_id=1)
+    generate_and_test(llm, gptoss20b_lora_files, lora_id=2)
diff --git a/tests/lora/test_qwen3moe_tp.py b/tests/lora/test_qwen3moe_tp.py
index de2b040907f98..fcac4275cc40e 100644
--- a/tests/lora/test_qwen3moe_tp.py
+++ b/tests/lora/test_qwen3moe_tp.py
@@ -1,6 +1,10 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
+
+# NOTE To avoid overloading the CI pipeline, this test script will not
+# be triggered on CI and is primarily intended for local testing and verification.
+
 import vllm
 from vllm.lora.request import LoRARequest
 

From 675704ac01e8ab1b986f777f7ccc4ac72159eb7b Mon Sep 17 00:00:00 2001
From: Madeesh Kannan <shadeMe@users.noreply.github.com>
Date: Fri, 31 Oct 2025 17:58:42 +0100
Subject: [PATCH 049/976] [Bugfix] Allow 64-bit integer values for LoRA IDs to
 avoid overflow/truncation (#27876)

Signed-off-by: Madeesh Kannan <shadeMe@users.noreply.github.com>
---
 vllm/v1/worker/gpu_input_batch.py | 2 +-
 vllm/v1/worker/tpu_input_batch.py | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/vllm/v1/worker/gpu_input_batch.py b/vllm/v1/worker/gpu_input_batch.py
index bc7578cbd97cd..fe834db115e70 100644
--- a/vllm/v1/worker/gpu_input_batch.py
+++ b/vllm/v1/worker/gpu_input_batch.py
@@ -204,7 +204,7 @@ class InputBatch:
         self.num_accepted_tokens_cpu = self.num_accepted_tokens_cpu_tensor.numpy()
 
         # lora related
-        self.request_lora_mapping = np.zeros((self.max_num_reqs,), dtype=np.int32)
+        self.request_lora_mapping = np.zeros((self.max_num_reqs,), dtype=np.int64)
         self.lora_id_to_request_ids: dict[int, set[str]] = {}
         self.lora_id_to_lora_request: dict[int, LoRARequest] = {}
 
diff --git a/vllm/v1/worker/tpu_input_batch.py b/vllm/v1/worker/tpu_input_batch.py
index 74e8225b2f4b8..d3fb17054c1a7 100644
--- a/vllm/v1/worker/tpu_input_batch.py
+++ b/vllm/v1/worker/tpu_input_batch.py
@@ -139,7 +139,7 @@ class InputBatch:
         self.min_tokens: dict[int, tuple[int, set[int]]] = {}
 
         # lora related
-        self.request_lora_mapping = np.zeros((self.max_num_reqs,), dtype=np.int32)
+        self.request_lora_mapping = np.zeros((self.max_num_reqs,), dtype=np.int64)
         self.lora_id_to_request_ids: dict[int, set[str]] = {}
         self.lora_id_to_lora_request: dict[int, LoRARequest] = {}
 

From 7e06c40e63c12c0ea5fb400fa8f06007e90ff84f Mon Sep 17 00:00:00 2001
From: Isotr0py <mozf@mail2.sysu.edu.cn>
Date: Sat, 1 Nov 2025 01:04:51 +0800
Subject: [PATCH 050/976] [Bugfix] Fix broken MRoPE for GLM-4.1V/GLM-4.5V
 (#27860)

Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>
---
 vllm/model_executor/models/glm4_1v.py | 149 +++++++++++++++++++++++++-
 1 file changed, 147 insertions(+), 2 deletions(-)

diff --git a/vllm/model_executor/models/glm4_1v.py b/vllm/model_executor/models/glm4_1v.py
index 9f1439e21ef79..3e243385fd049 100644
--- a/vllm/model_executor/models/glm4_1v.py
+++ b/vllm/model_executor/models/glm4_1v.py
@@ -26,6 +26,7 @@
 # limitations under the License.
 """Inference-only GLM-4V model compatible with HuggingFace weights."""
 
+import itertools
 import math
 from collections.abc import Callable, Iterable, Mapping, Sequence
 from functools import partial
@@ -36,7 +37,7 @@ import torch
 import torch.nn as nn
 import torch.nn.functional as F
 from einops import rearrange
-from transformers import BatchFeature
+from transformers import BatchFeature, PretrainedConfig
 from transformers.models.glm4v.configuration_glm4v import Glm4vVisionConfig
 from transformers.models.glm4v.image_processing_glm4v import (
     Glm4vImageProcessor,
@@ -89,6 +90,7 @@ from ..layers.activation import SiluAndMul
 from .interfaces import (
     MultiModalEmbeddings,
     SupportsLoRA,
+    SupportsMRoPE,
     SupportsMultiModal,
     SupportsPP,
 )
@@ -1386,7 +1388,7 @@ class Glm4vMultiModalProcessor(BaseMultiModalProcessor[Glm4vProcessingInfo]):
     dummy_inputs=Glm4vDummyInputsBuilder,
 )
 class Glm4vForConditionalGeneration(
-    nn.Module, SupportsMultiModal, SupportsLoRA, SupportsPP
+    nn.Module, SupportsMultiModal, SupportsLoRA, SupportsPP, SupportsMRoPE
 ):
     merge_by_field_config = True
 
@@ -1613,6 +1615,149 @@ class Glm4vForConditionalGeneration(
                 multimodal_embeddings += tuple(video_embeddings)
         return multimodal_embeddings
 
+    def get_mrope_input_positions(
+        self,
+        input_tokens: list[int],
+        hf_config: "PretrainedConfig",
+        image_grid_thw: list[list[int]] | torch.Tensor | None,
+        video_grid_thw: list[list[int]] | torch.Tensor | None,
+        second_per_grid_ts: list[float] | None = None,
+        context_len: int = 0,
+        seq_len: int | None = None,
+        audio_feature_lengths: torch.Tensor | None = None,
+        use_audio_in_video: bool = False,
+    ) -> tuple[torch.Tensor, int]:
+        """Get mrope input positions and delta value for GLM4V."""
+
+        image_token_id = hf_config.image_token_id
+        video_start_token_id = hf_config.video_start_token_id
+        video_end_token_id = hf_config.video_end_token_id
+        spatial_merge_size = hf_config.vision_config.spatial_merge_size
+        llm_pos_ids_list: list = []
+
+        if not (image_grid_thw is None and video_grid_thw is None):
+            if isinstance(image_grid_thw, torch.Tensor):
+                image_grid_thw = image_grid_thw.tolist()
+
+            input_token_type: list[str] = []
+            video_check_flg = False
+            for token in input_tokens:
+                if token == video_start_token_id:
+                    video_check_flg = True
+                elif token == video_end_token_id:
+                    video_check_flg = False
+
+                if (token == image_token_id) and (video_check_flg is False):
+                    input_token_type.append("image")
+                elif (token == image_token_id) and (video_check_flg is True):
+                    input_token_type.append("video")
+                else:
+                    input_token_type.append("text")
+
+            input_type_group: list[tuple[str, int, int]] = []
+            for key, group_iter in itertools.groupby(
+                enumerate(input_token_type), lambda x: x[1]
+            ):
+                group_list = list(group_iter)
+                start_index = group_list[0][0]
+                end_index = group_list[-1][0] + 1
+                input_type_group.append((key, start_index, end_index))
+
+            video_frame_num = 1
+            mm_data_idx = 0
+            for modality_type, start_idx, end_idx in input_type_group:
+                st_idx = (
+                    llm_pos_ids_list[-1].max() + 1 if len(llm_pos_ids_list) > 0 else 0
+                )
+                if modality_type == "image":
+                    t, h, w = (
+                        image_grid_thw[mm_data_idx][0],
+                        image_grid_thw[mm_data_idx][1],
+                        image_grid_thw[mm_data_idx][2],
+                    )
+                    llm_grid_t, llm_grid_h, llm_grid_w = (
+                        t,
+                        h // spatial_merge_size,
+                        w // spatial_merge_size,
+                    )
+
+                    t_index = (
+                        torch.arange(llm_grid_t)
+                        .view(-1, 1)
+                        .expand(-1, llm_grid_h * llm_grid_w)
+                        .flatten()
+                    )
+                    h_index = (
+                        torch.arange(llm_grid_h)
+                        .view(1, -1, 1)
+                        .expand(llm_grid_t, -1, llm_grid_w)
+                        .flatten()
+                    )
+                    w_index = (
+                        torch.arange(llm_grid_w)
+                        .view(1, 1, -1)
+                        .expand(llm_grid_t, llm_grid_h, -1)
+                        .flatten()
+                    )
+                    llm_pos_ids_list.append(
+                        torch.stack([t_index, h_index, w_index]) + st_idx
+                    )
+                    mm_data_idx += 1
+
+                elif modality_type == "video":
+                    t, h, w = (
+                        video_frame_num,
+                        image_grid_thw[mm_data_idx][1],
+                        image_grid_thw[mm_data_idx][2],
+                    )
+                    llm_grid_t, llm_grid_h, llm_grid_w = (
+                        t,
+                        h // spatial_merge_size,
+                        w // spatial_merge_size,
+                    )
+
+                    for t_idx in range(llm_grid_t):
+                        t_index = (
+                            torch.tensor(t_idx)
+                            .view(-1, 1)
+                            .expand(-1, llm_grid_h * llm_grid_w)
+                            .flatten()
+                        )
+                        h_index = (
+                            torch.arange(llm_grid_h)
+                            .view(1, -1, 1)
+                            .expand(1, -1, llm_grid_w)
+                            .flatten()
+                        )
+                        w_index = (
+                            torch.arange(llm_grid_w)
+                            .view(1, 1, -1)
+                            .expand(1, llm_grid_h, -1)
+                            .flatten()
+                        )
+                        llm_pos_ids_list.append(
+                            torch.stack([t_index, h_index, w_index]) + st_idx
+                        )
+
+                    mm_data_idx += 1
+                    video_frame_num += 1
+
+                else:
+                    text_len = end_idx - start_idx
+                    llm_pos_ids_list.append(
+                        torch.arange(text_len).view(1, -1).expand(3, -1) + st_idx
+                    )
+                    video_frame_num = 1
+
+        else:
+            text_len = len(input_tokens)
+            llm_pos_ids_list.append(torch.arange(text_len).view(1, -1).expand(3, -1))
+
+        llm_positions = torch.cat(llm_pos_ids_list, dim=1).reshape(3, -1)
+        llm_positions = llm_positions[:, context_len:seq_len]
+        mrope_position_delta = (llm_positions.max() + 1 - len(input_tokens)).item()
+        return llm_positions, mrope_position_delta
+
     def forward(
         self,
         input_ids: torch.Tensor,

From d6517be3cd06111ada0a603acaeab28dd4580641 Mon Sep 17 00:00:00 2001
From: GuanLuo <41310872+GuanLuo@users.noreply.github.com>
Date: Sat, 1 Nov 2025 01:16:00 +0800
Subject: [PATCH 051/976] [Bugfix] Missing NIXL metadata for handshake
 initialization if instance spans multi-node (#26338)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Signed-off-by: Guan Luo <gluo@nvidia.com>
Signed-off-by: GuanLuo <41310872+GuanLuo@users.noreply.github.com>
Signed-off-by: Guan Luo <41310872+GuanLuo@users.noreply.github.com>
Co-authored-by: Nicolò Lucchesi <nlucches@redhat.com>
---
 docs/features/nixl_connector_usage.md         |   2 +-
 .../kv_connector/unit/test_nixl_connector.py  | 106 ++++++++-
 .../kv_transfer/kv_connector/v1/base.py       |  32 +++
 .../kv_connector/v1/nixl_connector.py         | 224 +++++++++++-------
 vllm/v1/engine/core.py                        |  23 +-
 vllm/v1/executor/abstract.py                  |   8 +
 vllm/v1/worker/gpu_worker.py                  |  21 +-
 7 files changed, 321 insertions(+), 95 deletions(-)

diff --git a/docs/features/nixl_connector_usage.md b/docs/features/nixl_connector_usage.md
index 605398652ee0b..1ce038f4d6525 100644
--- a/docs/features/nixl_connector_usage.md
+++ b/docs/features/nixl_connector_usage.md
@@ -81,7 +81,7 @@ python tests/v1/kv_connector/nixl_integration/toy_proxy_server.py \
     - Default: 5600
     - **Required for both prefiller and decoder instances**
     - Each vLLM worker needs a unique port on its host; using the same port number across different hosts is fine
-    - For TP/DP deployments, each worker's port on a node is computed as: base_port + dp_rank * tp_size + tp_rank (e.g., with `--tensor-parallel-size=4` and base_port=5600, tp_rank 0..3 use ports 5600, 5601, 5602, 5603 on that node).
+    - For TP/DP deployments, each worker's port on a node is computed as: base_port + dp_rank (e.g., with `--data-parallel-size=2` and base_port=5600, dp_rank 0..1 use port 5600, 5601 on that node).
     - Used for the initial NIXL handshake between the prefiller and the decoder
 
 - `VLLM_NIXL_SIDE_CHANNEL_HOST`: Host for side channel communication
diff --git a/tests/v1/kv_connector/unit/test_nixl_connector.py b/tests/v1/kv_connector/unit/test_nixl_connector.py
index 445d115010cdf..44d8b3e331fdb 100644
--- a/tests/v1/kv_connector/unit/test_nixl_connector.py
+++ b/tests/v1/kv_connector/unit/test_nixl_connector.py
@@ -27,6 +27,7 @@ from vllm.distributed.kv_transfer.kv_connector.v1.nixl_connector import (
     NixlAgentMetadata,
     NixlConnector,
     NixlConnectorMetadata,
+    NixlConnectorScheduler,
     NixlConnectorWorker,
     NixlKVConnectorStats,
 )
@@ -283,6 +284,92 @@ def test_prompt_less_than_block_size():
     assert len(scheduler_output.scheduled_new_reqs) == 0
 
 
+@patch(
+    "vllm.distributed.kv_transfer.kv_connector.v1.nixl_connector.NixlWrapper",
+    FakeNixlWrapper,
+)
+def test_kv_transfer_handshake(dist_init):
+    """Unit test for basic NixlConnector interface functionality."""
+
+    # Test setup, we creates a scheduler that contains a NixlConnector
+    # of role SCHEDULER, and expect it to be serving NixlAgentMetadata from
+    # all workers of the instance.
+    vllm_config = create_vllm_config()
+    # in case the test runs on non-GPU machine
+    vllm_config.kv_transfer_config.kv_buffer_device = "cpu"
+    scheduler = create_scheduler(vllm_config)
+
+    # Create two NixlConnector of role WORKER, one is the worker of
+    # the scheduler (prefill), the other is a worker of decode instance.
+
+    # Prefill connector will register KV cache to populate proper handshake
+    # metadata.
+    prefill_connector = NixlConnector(vllm_config, KVConnectorRole.WORKER)
+    kv_cache_shape = FlashAttentionBackend.get_kv_cache_shape(
+        num_blocks=2, block_size=16, num_kv_heads=4, head_size=64
+    )
+    shared_tensor = torch.zeros(*kv_cache_shape, dtype=torch.float16)
+    unique_tensor = torch.zeros(*kv_cache_shape, dtype=torch.float16)
+    kv_caches = {
+        "layer0": shared_tensor,
+        "layer1": unique_tensor,
+        "layer2": shared_tensor,
+    }
+    prefill_connector.register_kv_caches(kv_caches)
+
+    # Simulate EngineCore initialization that would
+    # gather connector metadata from all workers, the scheduler connector
+    # expects metadata to be in dict[int, KVConnectorHandshakeMetadata],
+    # where the first key is the dp_rank, the second key is the tp_rank.
+    metadata = {0: prefill_connector.get_handshake_metadata()}
+    scheduler_connector = scheduler.get_kv_connector()
+    scheduler_connector.set_xfer_handshake_metadata(metadata)
+
+    # Simulate a request that finishes prefill, which returns
+    # corresponding NixlConnectorMetadata for decode instance.
+    BLOCK_SIZE = vllm_config.cache_config.block_size
+    NUM_EXTERNAL_FULL_BLOCKS = 2
+    NUM_TOKENS = int(BLOCK_SIZE * (NUM_EXTERNAL_FULL_BLOCKS + 0.5))
+
+    request = create_request(
+        request_id=1,
+        block_size=BLOCK_SIZE,
+        num_tokens=NUM_TOKENS,
+        do_remote_decode=True,
+    )
+    request.status = RequestStatus.FINISHED_LENGTH_CAPPED
+    delay, kv_connector_metadata = scheduler.get_kv_connector().request_finished(
+        request, [0, 1, 2]
+    )
+    assert delay
+
+    # Decode connector will be able to create handshake with the prefill connector.
+    decode_connector = NixlConnector(vllm_config, KVConnectorRole.WORKER)
+
+    # Here we are testing the retrieval of NIXLAgentMetadata.
+    # Knowing the implementation detail, we override the add_remote_agent
+    # to validate the metadata received is the same as the one in prefill_connector.
+    with patch.object(
+        decode_connector.connector_worker, "add_remote_agent"
+    ) as mock_add_remote_agent:
+        mock_add_remote_agent.return_type = "remote_agent"
+
+        decode_connector.connector_worker._nixl_handshake(
+            kv_connector_metadata["remote_host"],
+            kv_connector_metadata["remote_port"],
+            kv_connector_metadata["tp_size"],
+            kv_connector_metadata["remote_engine_id"],
+        )
+
+        received_metadata = mock_add_remote_agent.call_args.args
+        assert received_metadata[1] == 0  # remote_tp_rank
+        assert received_metadata[2] == 1  # remote_tp_size
+        assert metadata[0] == received_metadata[0]
+
+    # Need to shutdown the background thread to release NIXL side channel port
+    scheduler_connector.shutdown()
+
+
 class FakeNixlConnectorWorker(NixlConnectorWorker):
     REMOTE_ENGINE_ID = "remote_engine"
 
@@ -313,6 +400,7 @@ class FakeNixlConnectorWorker(NixlConnectorWorker):
                 engine_id=self.REMOTE_ENGINE_ID,
                 agent_metadata=FakeNixlWrapper.AGENT_METADATA,
                 kv_caches_base_addr=[0],
+                device_id=0,
                 num_blocks=1,
                 block_lens=self.block_len_per_layer,
                 attn_backend_name=self.backend_name,
@@ -559,6 +647,7 @@ class TestNixlHandshake:
                 engine_id=FakeNixlConnectorWorker.REMOTE_ENGINE_ID,
                 agent_metadata=FakeNixlWrapper.AGENT_METADATA,
                 kv_caches_base_addr=[0],
+                device_id=0,
                 num_blocks=1,
                 block_lens=worker.block_len_per_layer,
                 attn_backend_name=worker.backend_name,
@@ -611,6 +700,7 @@ class TestNixlHandshake:
                 engine_id=FakeNixlConnectorWorker.REMOTE_ENGINE_ID,
                 agent_metadata=FakeNixlWrapper.AGENT_METADATA,
                 kv_caches_base_addr=[0],
+                device_id=0,
                 num_blocks=1,
                 # prefill TP=1, decode TP=2, remote block_lens is double to local
                 block_lens=[i * 2 for i in worker.block_len_per_layer],
@@ -1005,6 +1095,8 @@ def _run_abort_timeout_test(llm: LLM, timeout: int):
     _ = llm.generate([f"What is the capital of France? {padding}"], sampling_params)
     # Request-0 times out and is cleared!
     assert "0" not in req_to_blocks
+    # Need to shutdown the background thread to release NIXL side channel port
+    llm.llm_engine.engine_core.shutdown()
 
 
 def test_register_kv_caches(dist_init):
@@ -1177,13 +1269,15 @@ def test_shutdown_cleans_up_resources(dist_init):
     """Test that shutdown() properly cleans up all resources."""
     vllm_config = create_vllm_config()
 
+    scheduler = NixlConnectorScheduler(
+        vllm_config, vllm_config.kv_transfer_config.engine_id
+    )
     worker = NixlConnectorWorker(vllm_config, vllm_config.kv_transfer_config.engine_id)
     nixl_wrapper = worker.nixl_wrapper
 
     with (
         patch.object(worker, "_handshake_initiation_executor") as mock_exec,
-        patch.object(worker, "_nixl_handshake_listener_t") as mock_listener,
-        patch.object(worker, "_nixl_handshake_listener_stop_event") as mock_event,
+        patch.object(scheduler, "_nixl_handshake_listener_t") as mock_listener,
         patch.object(nixl_wrapper, "release_xfer_handle") as mock_rel_xfer,
         patch.object(nixl_wrapper, "release_dlist_handle") as mock_rel_dlist,
         patch.object(nixl_wrapper, "remove_remote_agent") as mock_rem_agent,
@@ -1204,8 +1298,12 @@ def test_shutdown_cleans_up_resources(dist_init):
         worker.shutdown()
 
         mock_exec.shutdown.assert_called_with(wait=False)
-        mock_event.set.assert_called_once()
-        mock_listener.join.assert_called_once_with(timeout=1.0)
+
+        # Same sequence on scheduler.shutdown()
+        scheduler.shutdown()
+        scheduler.shutdown()
+        scheduler.shutdown()
+        mock_listener.join.assert_called_once()
 
         mock_rel_xfer.assert_called_once_with(123)
         assert mock_rel_dlist.call_count == 2
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/base.py b/vllm/distributed/kv_transfer/kv_connector/v1/base.py
index 2ed0fe592e373..cb9f208a839f2 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/base.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/base.py
@@ -122,6 +122,15 @@ class KVConnectorRole(enum.Enum):
     WORKER = 1
 
 
+class KVConnectorHandshakeMetadata(ABC):  # noqa: B024
+    """
+    Metadata used for out of band connector handshake between
+    P/D workers. This needs to serializeable.
+    """
+
+    pass
+
+
 class KVConnectorMetadata(ABC):  # noqa: B024
     """
     Abstract Metadata used to communicate between the
@@ -320,6 +329,18 @@ class KVConnectorBase_V1(ABC):
         """
         return None
 
+    def get_handshake_metadata(self) -> KVConnectorHandshakeMetadata | None:
+        """
+        Get the KVConnector handshake metadata for this connector.
+        This metadata is used for out-of-band connector handshake
+        between P/D workers.
+
+        Returns:
+            KVConnectorHandshakeMetadata: the handshake metadata.
+            None if no handshake metadata is available.
+        """
+        return None
+
     # ==============================
     # Scheduler-side methods
     # ==============================
@@ -477,6 +498,17 @@ class KVConnectorBase_V1(ABC):
         """
         return None
 
+    def set_xfer_handshake_metadata(
+        self, metadata: dict[int, KVConnectorHandshakeMetadata]
+    ) -> None:
+        """
+        Set the KV connector handshake metadata for this connector.
+
+        Args:
+            metadata (KVConnectorHandshakeMetadata): the handshake metadata to set.
+        """
+        return None
+
     @classmethod
     def build_prom_metrics(
         cls,
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py b/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
index d5712bdd9feb4..4651cedbc7dfa 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
@@ -27,6 +27,7 @@ from vllm.config import VllmConfig
 from vllm.distributed.kv_transfer.kv_connector.v1.base import (
     CopyBlocksOp,
     KVConnectorBase_V1,
+    KVConnectorHandshakeMetadata,
     KVConnectorMetadata,
     KVConnectorRole,
 )
@@ -93,15 +94,12 @@ _NIXL_SUPPORTED_DEVICE = {
 _NIXL_SUPPORTED_DEVICE.update(current_platform.get_nixl_supported_devices())
 
 
-class NixlAgentMetadata(
-    msgspec.Struct,
-    omit_defaults=True,  # type: ignore[call-arg]
-    # required for @cached_property.
-    dict=True,
-):
+@dataclass
+class NixlAgentMetadata(KVConnectorHandshakeMetadata):
     engine_id: str
     agent_metadata: bytes
     kv_caches_base_addr: list[int]
+    device_id: int
     num_blocks: int
     block_lens: list[int]
     attn_backend_name: str
@@ -223,6 +221,18 @@ class NixlConnector(KVConnectorBase_V1):
         assert self.connector_scheduler is not None
         return self.connector_scheduler.request_finished(request, block_ids)
 
+    def set_xfer_handshake_metadata(
+        self, metadata: dict[int, KVConnectorHandshakeMetadata]
+    ) -> None:
+        """
+        Set the KV connector handshake metadata for this connector.
+
+        Args:
+            metadata (dict): the handshake metadata to set.
+        """
+        assert self.connector_scheduler is not None
+        self.connector_scheduler.set_xfer_handshake_metadata(metadata)
+
     ############################################################
     # Worker Side Methods
     ############################################################
@@ -299,6 +309,21 @@ class NixlConnector(KVConnectorBase_V1):
     def shutdown(self):
         if self.connector_worker is not None:
             self.connector_worker.shutdown()
+        if self.connector_scheduler is not None:
+            self.connector_scheduler.shutdown()
+
+    def get_handshake_metadata(self) -> KVConnectorHandshakeMetadata | None:
+        """
+        Get the KVConnector handshake metadata for this connector.
+        This metadata is used for out-of-band connector handshake
+        between P/D workers.
+
+        Returns:
+            KVConnectorHandshakeMetadata: the handshake metadata.
+            None if no handshake metadata is available.
+        """
+        assert self.connector_worker is not None
+        return self.connector_worker.xfer_handshake_metadata
 
 
 class NixlConnectorScheduler:
@@ -312,12 +337,16 @@ class NixlConnectorScheduler:
         self.side_channel_port = (
             envs.VLLM_NIXL_SIDE_CHANNEL_PORT
             + vllm_config.parallel_config.data_parallel_rank
-            * vllm_config.parallel_config.tensor_parallel_size
         )
         assert vllm_config.kv_transfer_config is not None
         self.use_host_buffer = vllm_config.kv_transfer_config.kv_buffer_device == "cpu"
         logger.info("Initializing NIXL Scheduler %s", engine_id)
 
+        # Background thread for handling new handshake requests.
+        self._nixl_handshake_listener_t: threading.Thread | None = None
+        self._encoded_xfer_handshake_metadata: dict[int, Any] = {}
+        self._stop_event = threading.Event()
+
         # Requests that need to start recv/send.
         # New requests are added by update_state_after_alloc in
         # the scheduler. Used to make metadata passed to Worker.
@@ -330,6 +359,89 @@ class NixlConnectorScheduler:
         # remote prefill or aborted.
         self._reqs_not_processed: set[ReqId] = set()
 
+    def shutdown(self):
+        self._stop_event.set()
+        if self._nixl_handshake_listener_t is not None:
+            self._nixl_handshake_listener_t.join()
+            self._nixl_handshake_listener_t = None
+
+    def set_xfer_handshake_metadata(
+        self, metadata: dict[int, KVConnectorHandshakeMetadata]
+    ) -> None:
+        """
+        Set the KV connector handshake metadata for this connector.
+
+        Args:
+            metadata (dict): the handshake metadata to set.
+        """
+        encoded_data: dict[int, bytes] = {}
+        encoder = msgspec.msgpack.Encoder()
+        for tp_rank, rank_metadata in metadata.items():
+            if not isinstance(rank_metadata, NixlAgentMetadata):
+                raise ValueError(
+                    "NixlConnectorScheduler expects NixlAgentMetadata for "
+                    "handshake metadata."
+                )
+            encoded_data[tp_rank] = encoder.encode(rank_metadata)
+            logger.debug(
+                "Tp rank %d: encoded NixlAgentMetadata size: %s bytes",
+                tp_rank,
+                str(len(encoded_data[tp_rank])),
+            )
+        self._encoded_xfer_handshake_metadata = encoded_data
+
+        # Only start the listener when we have metadata to serve.
+        if self._nixl_handshake_listener_t is None:
+            ready_event = threading.Event()
+            self._nixl_handshake_listener_t = threading.Thread(
+                target=self._nixl_handshake_listener,
+                args=(
+                    encoded_data,
+                    ready_event,
+                    self._stop_event,
+                    self.side_channel_port,
+                ),
+                daemon=True,
+                name="nixl_handshake_listener",
+            )
+            self._nixl_handshake_listener_t.start()
+            ready_event.wait()  # Wait for listener ZMQ socket to be ready.
+
+    @staticmethod
+    def _nixl_handshake_listener(
+        encoded_data: dict[int, Any],
+        ready_event: threading.Event,
+        stop_event: threading.Event,
+        port: int,
+    ):
+        """Background thread for getting new NIXL handshakes."""
+        # NOTE(rob): this is a simple implementation. We will move
+        # to a better approach via HTTP endpoint soon.
+
+        # Listen for new requests for metadata.
+        host = envs.VLLM_NIXL_SIDE_CHANNEL_HOST
+        path = make_zmq_path("tcp", host, port)
+        logger.debug("Starting listening on path: %s", path)
+        with zmq_ctx(zmq.ROUTER, path) as sock:
+            sock.setsockopt(zmq.RCVTIMEO, 1000)
+            ready_event.set()
+            while True:
+                try:
+                    identity, _, msg = sock.recv_multipart()
+                except zmq.Again:
+                    if stop_event.is_set():
+                        break
+                    continue
+                # Decode the message which contains (GET_META_MSG, rank)
+                msg, target_tp_rank = msgspec.msgpack.decode(msg)
+                logger.debug(
+                    "Received message for tp rank %s",
+                    target_tp_rank,
+                )
+                if msg != GET_META_MSG:
+                    logger.warning("Connection listener got unexpected message %s", msg)
+                sock.send_multipart((identity, b"", encoded_data[target_tp_rank]))
+
     def get_num_new_matched_tokens(
         self, request: "Request", num_computed_tokens: int
     ) -> tuple[int, bool]:
@@ -537,8 +649,6 @@ class NixlConnectorScheduler:
 class NixlConnectorWorker:
     """Implementation of Worker side methods"""
 
-    _POLL_TIMEOUT = 0.1  # Handshake thread polls for stop event every 100ms
-
     @dataclass
     class TpKVTopology:
         """
@@ -651,16 +761,6 @@ class NixlConnectorWorker:
         # Map of engine_id -> {rank0: agent_name0, rank1: agent_name1..}.
         self._remote_agents: dict[EngineId, dict[int, str]] = defaultdict(dict)
 
-        # NIXL handshake port.
-        # NOTE(rob): Within a DP group, each DP rank gets its own
-        # base port (which is sent in the KVTransferParams).
-        # Each TP rank listens/queries on the base_port + tp_rank.
-        self.side_channel_port: int = (
-            envs.VLLM_NIXL_SIDE_CHANNEL_PORT
-            + vllm_config.parallel_config.data_parallel_rank
-            * vllm_config.parallel_config.tensor_parallel_size
-        )
-
         # Metadata.
         self.engine_id: EngineId = engine_id
         self.tp_rank = get_tensor_model_parallel_rank()
@@ -706,6 +806,7 @@ class NixlConnectorWorker:
         # Map of engine_id -> kv_caches_base_addr. For TP case, each local
         # rank will still only pull from a single remote TP worker.
         self.kv_caches_base_addr: dict[EngineId, list[int]] = {}
+        self.device_id: int = 0
 
         # Number of NIXL regions. Currently one region per cache
         # (so 1 per layer for MLA, otherwise 2 per layer)
@@ -736,9 +837,8 @@ class NixlConnectorWorker:
         # requests that skipped transfer (handshake or transfer failures)
         self._failed_recv_reqs: set[ReqId] = set()
 
-        # Background thread for handling new handshake requests.
-        self._nixl_handshake_listener_t: threading.Thread | None = None
-        self._nixl_handshake_listener_stop_event: threading.Event | None = None
+        # Handshake metadata of this worker for NIXL transfers.
+        self.xfer_handshake_metadata: NixlAgentMetadata | None = None
         # Background thread for initializing new NIXL handshakes.
         self._handshake_initiation_executor = ThreadPoolExecutor(
             # NIXL is not guaranteed to be thread-safe, limit 1 worker.
@@ -790,42 +890,6 @@ class NixlConnectorWorker:
             total_num_kv_heads=self.model_config.get_total_num_kv_heads(),
         )
 
-    @staticmethod
-    def _nixl_handshake_listener(
-        metadata: NixlAgentMetadata,
-        ready_event: threading.Event,
-        stop_event: threading.Event,
-        base_port: int,
-        tp_rank: int,
-    ):
-        """Background thread for getting new NIXL handshakes."""
-        # NOTE(rob): this is a simple implementation. We will move
-        # to a better approach via HTTP endpoint soon.
-
-        encoder = msgspec.msgpack.Encoder()
-        encoded_data = encoder.encode(metadata)
-        size_in_bytes = len(encoded_data)
-        logger.debug("Size of encoded NixlAgentMetadata: %s bytes", str(size_in_bytes))
-
-        # Listen for new requests for metadata.
-        host = envs.VLLM_NIXL_SIDE_CHANNEL_HOST
-        path = make_zmq_path("tcp", host, base_port + tp_rank)
-        logger.debug("Starting listening on path: %s", path)
-        with zmq_ctx(zmq.ROUTER, path) as sock:
-            ready_event.set()
-            poller = zmq.Poller()
-            poller.register(sock, zmq.POLLIN)
-            while not stop_event.is_set():
-                events = dict(
-                    poller.poll(timeout=NixlConnectorWorker._POLL_TIMEOUT * 1000)
-                )
-                if sock not in events:
-                    continue
-                identity, _, msg = sock.recv_multipart()
-                if msg != GET_META_MSG:
-                    logger.warning("Connection listener got unexpected message %s", msg)
-                sock.send_multipart((identity, b"", encoded_data))
-
     def _nixl_handshake(
         self,
         host: str,
@@ -844,16 +908,17 @@ class NixlConnectorWorker:
         # Handshake only with the remote TP rank that current local rank will
         # pull from. With homogeneous TP it happens to be the same rank_i.
         p_remote_rank = self.kv_topo.get_target_remote_rank(remote_tp_size)
-        path = make_zmq_path("tcp", host, port + p_remote_rank)
+        path = make_zmq_path("tcp", host, port)
         logger.debug(
-            "Querying metadata on path: %s at remote rank %s", path, p_remote_rank
+            "Querying metadata on path: %s at remote tp rank %s", path, p_remote_rank
         )
 
         # Send query for the request.
         with zmq_ctx(zmq.REQ, path) as sock:
+            msg = msgspec.msgpack.encode((GET_META_MSG, p_remote_rank))
             # Set receive timeout to 5 seconds to avoid hanging on dead server
             sock.setsockopt(zmq.RCVTIMEO, 5000)  # milliseconds
-            sock.send(GET_META_MSG)
+            sock.send(msg)
             metadata_bytes = sock.recv()
             decoder = msgspec.msgpack.Decoder(NixlAgentMetadata)
             metadata = decoder.decode(metadata_bytes)
@@ -1042,6 +1107,10 @@ class NixlConnectorWorker:
                     assert tensor_size_bytes == curr_tensor_size_bytes, (
                         "All kv cache tensors must have the same size"
                     )
+                # Need to make sure the device ID is non-negative for NIXL,
+                # Torch uses -1 to indicate CPU tensors while NIXL uses explicit
+                # memory type.
+                self.device_id = max(cache.get_device(), 0)
                 caches_data.append(
                     (base_addr, curr_tensor_size_bytes, self.device_id, "")
                 )
@@ -1139,10 +1208,11 @@ class NixlConnectorWorker:
             assert len(self.block_window_per_layer) == self.num_layers
 
         # After KV Caches registered, listen for new connections.
-        metadata = NixlAgentMetadata(
+        self.xfer_handshake_metadata = NixlAgentMetadata(
             engine_id=self.engine_id,
             agent_metadata=self.nixl_wrapper.get_agent_metadata(),
             kv_caches_base_addr=self.kv_caches_base_addr[self.engine_id],
+            device_id=self.device_id,
             num_blocks=self.num_blocks,
             block_lens=self.block_len_per_layer,
             attn_backend_name=self.backend_name,
@@ -1150,22 +1220,6 @@ class NixlConnectorWorker:
             if not self.use_host_buffer
             else self.host_buffer_kv_cache_layout,
         )
-        ready_event, stop_event = threading.Event(), threading.Event()
-        self._nixl_handshake_listener_t = threading.Thread(
-            target=self._nixl_handshake_listener,
-            args=(
-                metadata,
-                ready_event,
-                stop_event,
-                self.side_channel_port,
-                self.tp_rank,
-            ),
-            daemon=True,
-            name="nixl_handshake_listener",
-        )
-        self._nixl_handshake_listener_t.start()
-        self._nixl_handshake_listener_stop_event = stop_event
-        ready_event.wait()  # Wait for listener ZMQ socket to be ready.
 
     def add_remote_agent(
         self,
@@ -1267,7 +1321,7 @@ class NixlConnectorWorker:
                 # self.block_len == remote_block_len//tp_ratio bytes.
                 addr = base_addr + block_offset + rank_offset
                 # (addr, len, device id)
-                blocks_data.append((addr, kv_block_len, remote_tp_rank))
+                blocks_data.append((addr, kv_block_len, nixl_agent_meta.device_id))
 
             if self._use_flashinfer:
                 # With FlashInfer index V separately to allow head splitting.
@@ -1275,7 +1329,9 @@ class NixlConnectorWorker:
                     block_offset = block_id * nixl_agent_meta.block_lens[i]
                     addr = base_addr + block_offset + rank_offset
                     v_addr = addr + nixl_agent_meta.block_lens[i] // 2
-                    blocks_data.append((v_addr, kv_block_len, remote_tp_rank))
+                    blocks_data.append(
+                        (v_addr, kv_block_len, nixl_agent_meta.device_id)
+                    )
 
         logger.debug(
             "Created %s blocks for dst engine %s with remote rank %s and local rank %s",
@@ -1843,14 +1899,6 @@ class NixlConnectorWorker:
     def shutdown(self):
         """Shutdown the connector worker."""
         self._handshake_initiation_executor.shutdown(wait=False)
-        if self._nixl_handshake_listener_stop_event is not None:
-            self._nixl_handshake_listener_stop_event.set()
-            self._nixl_handshake_listener_stop_event = None
-        if self._nixl_handshake_listener_t is not None:
-            # Generous timeout to allow the thread to exit
-            self._nixl_handshake_listener_t.join(timeout=self._POLL_TIMEOUT * 10)
-            assert not self._nixl_handshake_listener_t.is_alive()
-            self._nixl_handshake_listener_t = None
         for handles in self._recving_transfers.values():
             for handle, _ in handles:
                 self.nixl_wrapper.release_xfer_handle(handle)
diff --git a/vllm/v1/engine/core.py b/vllm/v1/engine/core.py
index 6cbd986b3cd32..bfe87b718282c 100644
--- a/vllm/v1/engine/core.py
+++ b/vllm/v1/engine/core.py
@@ -163,6 +163,27 @@ class EngineCore:
             vllm_config, mm_registry
         )
 
+        # If a KV connector is initialized for scheduler, we want to collect
+        # handshake metadata from all workers so the connector in the scheduler
+        # will have the full context
+        kv_connector = self.scheduler.get_kv_connector()
+        if kv_connector is not None:
+            # Collect and store KV connector xfer metadata from workers
+            # (after KV cache registration)
+            xfer_handshake_metadata = (
+                self.model_executor.get_kv_connector_handshake_metadata()
+            )
+
+            if xfer_handshake_metadata:
+                # xfer_handshake_metadata is list of dicts from workers
+                # Each dict already has structure {tp_rank: metadata}
+                # Merge all worker dicts into a single dict
+                content: dict[int, Any] = {}
+                for worker_dict in xfer_handshake_metadata:
+                    if worker_dict is not None:
+                        content.update(worker_dict)
+                kv_connector.set_xfer_handshake_metadata(content)
+
         # Setup batch queue for pipeline parallelism.
         # Batch queue for scheduled batches. This enables us to asynchronously
         # schedule and execute batches, and is required by pipeline parallelism
@@ -178,7 +199,7 @@ class EngineCore:
         self.request_block_hasher: Callable[[Request], list[BlockHash]] | None = None
         if (
             self.vllm_config.cache_config.enable_prefix_caching
-            or self.scheduler.get_kv_connector() is not None
+            or kv_connector is not None
         ):
             caching_hash_fn = get_hash_fn_by_name(
                 vllm_config.cache_config.prefix_caching_hash_algo
diff --git a/vllm/v1/executor/abstract.py b/vllm/v1/executor/abstract.py
index 9fe1912c73e39..ef7840e1796f7 100644
--- a/vllm/v1/executor/abstract.py
+++ b/vllm/v1/executor/abstract.py
@@ -9,6 +9,9 @@ from typing import TYPE_CHECKING, Literal, TypeVar, overload
 
 from vllm.config import VllmConfig
 from vllm.distributed.kv_transfer.kv_connector.utils import KVOutputAggregator
+from vllm.distributed.kv_transfer.kv_connector.v1.base import (
+    KVConnectorHandshakeMetadata,
+)
 from vllm.logger import init_logger
 from vllm.lora.request import LoRARequest
 from vllm.tasks import SupportedTask
@@ -177,6 +180,11 @@ class Executor(ABC):
     ):
         raise NotImplementedError
 
+    def get_kv_connector_handshake_metadata(
+        self,
+    ) -> list[dict[int, KVConnectorHandshakeMetadata]]:
+        return self.collective_rpc("get_kv_connector_handshake_metadata")
+
     @overload
     def execute_model(
         self,
diff --git a/vllm/v1/worker/gpu_worker.py b/vllm/v1/worker/gpu_worker.py
index 54c5f81fc7e8e..5b11bdf5282fa 100644
--- a/vllm/v1/worker/gpu_worker.py
+++ b/vllm/v1/worker/gpu_worker.py
@@ -19,7 +19,11 @@ from vllm.distributed import (
     init_distributed_environment,
     set_custom_all_reduce,
 )
-from vllm.distributed.kv_transfer import ensure_kv_transfer_initialized
+from vllm.distributed.kv_transfer import (
+    ensure_kv_transfer_initialized,
+    get_kv_transfer_group,
+    has_kv_transfer_group,
+)
 from vllm.distributed.parallel_state import (
     get_pp_group,
     get_tp_group,
@@ -348,6 +352,21 @@ class Worker(WorkerBase):
 
         return int(self.available_kv_cache_memory_bytes)
 
+    def get_kv_connector_handshake_metadata(self) -> dict | None:
+        """Get KV connector metadata from this worker if available."""
+
+        if not has_kv_transfer_group():
+            return None
+
+        connector = get_kv_transfer_group()
+        # Return None for connectors that don't need to exchange handshake
+        # metadata across workers.
+        if (metadata := connector.get_handshake_metadata()) is None:
+            return None
+
+        tp_rank = get_tp_group().rank_in_group
+        return {tp_rank: metadata}
+
     def get_kv_cache_spec(self) -> dict[str, KVCacheSpec]:
         return self.model_runner.get_kv_cache_spec()
 

From 70bfbd7b168a216c6b5cb4db678a48b1e3f9c720 Mon Sep 17 00:00:00 2001
From: Rob Mulla <RobMulla@users.noreply.github.com>
Date: Fri, 31 Oct 2025 13:29:55 -0400
Subject: [PATCH 052/976] Docs update tpu install instructions (#27824)

Signed-off-by: Rob Mulla <rob.mulla@gmail.com>
Signed-off-by: Rob Mulla <RobMulla@users.noreply.github.com>
Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 docs/configuration/tpu.md                     |   2 +-
 docs/getting_started/installation/.nav.yml    |   2 +-
 docs/getting_started/installation/README.md   |   2 +-
 .../installation/google_tpu.md                | 193 ------------------
 docs/getting_started/quickstart.md            |  11 +
 5 files changed, 14 insertions(+), 196 deletions(-)
 delete mode 100644 docs/getting_started/installation/google_tpu.md

diff --git a/docs/configuration/tpu.md b/docs/configuration/tpu.md
index 25d371e627b75..2d24c9c6e2e95 100644
--- a/docs/configuration/tpu.md
+++ b/docs/configuration/tpu.md
@@ -4,7 +4,7 @@ This doc serves as a collection of handy tips for optimizing your vLLM on TPU wo
 
 ## Get started
 
-Looking for setup and installation instructions? Find them [here](../getting_started/installation/google_tpu.md).
+Looking for setup and installation instructions? Find them [here](https://docs.vllm.ai/projects/tpu/en/latest/getting_started/installation/).
 
 ### TPU workload sizing
 
diff --git a/docs/getting_started/installation/.nav.yml b/docs/getting_started/installation/.nav.yml
index ba1f8099a6456..683322cf3b7b0 100644
--- a/docs/getting_started/installation/.nav.yml
+++ b/docs/getting_started/installation/.nav.yml
@@ -2,4 +2,4 @@ nav:
   - README.md
   - gpu.md
   - cpu.md
-  - google_tpu.md
+  - TPU: https://docs.vllm.ai/projects/tpu/en/latest/getting_started/installation/
diff --git a/docs/getting_started/installation/README.md b/docs/getting_started/installation/README.md
index a4e63e426b9ba..d5082bc7dd3a9 100644
--- a/docs/getting_started/installation/README.md
+++ b/docs/getting_started/installation/README.md
@@ -11,7 +11,6 @@ vLLM supports the following hardware platforms:
     - [ARM AArch64](cpu.md#arm-aarch64)
     - [Apple silicon](cpu.md#apple-silicon)
     - [IBM Z (S390X)](cpu.md#ibm-z-s390x)
-- [Google TPU](google_tpu.md)
 
 ## Hardware Plugins
 
@@ -20,6 +19,7 @@ The backends below live **outside** the main `vllm` repository and follow the
 
 | Accelerator | PyPI / package | Repository |
 |-------------|----------------|------------|
+| Google TPU | `tpu-inference` | <https://github.com/vllm-project/tpu-inference> |
 | Ascend NPU | `vllm-ascend` | <https://github.com/vllm-project/vllm-ascend> |
 | Intel Gaudi (HPU) | N/A, install from source | <https://github.com/vllm-project/vllm-gaudi> |
 | MetaX MACA GPU | N/A, install from source | <https://github.com/MetaX-MACA/vLLM-metax> |
diff --git a/docs/getting_started/installation/google_tpu.md b/docs/getting_started/installation/google_tpu.md
deleted file mode 100644
index 0f8c5bccd4b95..0000000000000
--- a/docs/getting_started/installation/google_tpu.md
+++ /dev/null
@@ -1,193 +0,0 @@
-# Google TPU
-
-Tensor Processing Units (TPUs) are Google's custom-developed application-specific
-integrated circuits (ASICs) used to accelerate machine learning workloads. TPUs
-are available in different versions each with different hardware specifications.
-For more information about TPUs, see [TPU System Architecture](https://cloud.google.com/tpu/docs/system-architecture-tpu-vm).
-For more information on the TPU versions supported with vLLM, see:
-
-- [TPU v6e](https://cloud.google.com/tpu/docs/v6e)
-- [TPU v5e](https://cloud.google.com/tpu/docs/v5e)
-- [TPU v5p](https://cloud.google.com/tpu/docs/v5p)
-- [TPU v4](https://cloud.google.com/tpu/docs/v4)
-
-These TPU versions allow you to configure the physical arrangements of the TPU
-chips. This can improve throughput and networking performance. For more
-information see:
-
-- [TPU v6e topologies](https://cloud.google.com/tpu/docs/v6e#configurations)
-- [TPU v5e topologies](https://cloud.google.com/tpu/docs/v5e#tpu-v5e-config)
-- [TPU v5p topologies](https://cloud.google.com/tpu/docs/v5p#tpu-v5p-config)
-- [TPU v4 topologies](https://cloud.google.com/tpu/docs/v4#tpu-v4-config)
-
-In order for you to use Cloud TPUs you need to have TPU quota granted to your
-Google Cloud Platform project. TPU quotas specify how many TPUs you can use in a
-GPC project and are specified in terms of TPU version, the number of TPU you
-want to use, and quota type. For more information, see [TPU quota](https://cloud.google.com/tpu/docs/quota#tpu_quota).
-
-For TPU pricing information, see [Cloud TPU pricing](https://cloud.google.com/tpu/pricing).
-
-You may need additional persistent storage for your TPU VMs. For more
-information, see [Storage options for Cloud TPU data](https://cloud.devsite.corp.google.com/tpu/docs/storage-options).
-
-!!! warning
-    There are no pre-built wheels for this device, so you must either use the pre-built Docker image or build vLLM from source.
-
-## Requirements
-
-- Google Cloud TPU VM
-- TPU versions: v6e, v5e, v5p, v4
-- Python: 3.11 or newer
-
-### Provision Cloud TPUs
-
-You can provision Cloud TPUs using the [Cloud TPU API](https://cloud.google.com/tpu/docs/reference/rest)
-or the [queued resources](https://cloud.google.com/tpu/docs/queued-resources)
-API (preferred). This section shows how to create TPUs using the queued resource API. For
-more information about using the Cloud TPU API, see [Create a Cloud TPU using the Create Node API](https://cloud.google.com/tpu/docs/managing-tpus-tpu-vm#create-node-api).
-Queued resources enable you to request Cloud TPU resources in a queued manner.
-When you request queued resources, the request is added to a queue maintained by
-the Cloud TPU service. When the requested resource becomes available, it's
-assigned to your Google Cloud project for your immediate exclusive use.
-
-!!! note
-    In all of the following commands, replace the ALL CAPS parameter names with
-    appropriate values. See the parameter descriptions table for more information.
-
-### Provision Cloud TPUs with GKE
-
-For more information about using TPUs with GKE, see:
-
-- [About TPUs in GKE](https://cloud.google.com/kubernetes-engine/docs/concepts/tpus)
-- [Deploy TPU workloads in GKE Standard](https://cloud.google.com/kubernetes-engine/docs/how-to/tpus)
-- [Plan for TPUs in GKE](https://cloud.google.com/kubernetes-engine/docs/concepts/plan-tpus)
-
-## Configure a new environment
-
-### Provision a Cloud TPU with the queued resource API
-
-Create a TPU v5e with 4 TPU chips:
-
-```bash
-gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \
-  --node-id TPU_NAME \
-  --project PROJECT_ID \
-  --zone ZONE \
-  --accelerator-type ACCELERATOR_TYPE \
-  --runtime-version RUNTIME_VERSION \
-  --service-account SERVICE_ACCOUNT
-```
-
-| Parameter name     | Description                                                                                                                                                                                              |
-|--------------------|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
-| QUEUED_RESOURCE_ID | The user-assigned ID of the queued resource request.                                                                                                                                                     |
-| TPU_NAME           | The user-assigned name of the TPU which is created when the queued resource request is allocated.                                                                                                        |
-| PROJECT_ID         | Your Google Cloud project                                                                                                                                                                                |
-| ZONE               | The GCP zone where you want to create your Cloud TPU. The value you use depends on the version of TPUs you are using. For more information, see [TPU regions and zones]                                  |
-| ACCELERATOR_TYPE   | The TPU version you want to use. Specify the TPU version, for example `v5litepod-4` specifies a v5e TPU with 4 cores, `v6e-1` specifies a v6e TPU with 1 core. For more information, see [TPU versions]. |
-| RUNTIME_VERSION    | The TPU VM runtime version to use. For example, use `v2-alpha-tpuv6e` for a VM loaded with one or more v6e TPU(s).                                              |
-| SERVICE_ACCOUNT    | The email address for your service account. You can find it in the IAM Cloud Console under *Service Accounts*. For example: `tpu-service-account@<your_project_ID>.iam.gserviceaccount.com`              |
-
-Connect to your TPU VM using SSH:
-
-```bash
-gcloud compute tpus tpu-vm ssh TPU_NAME --project PROJECT_ID --zone ZONE
-```
-
-!!! note
-    When configuring `RUNTIME_VERSION` ("TPU software version") on GCP, ensure it matches the TPU generation you've selected by referencing the [TPU VM images] compatibility matrix. Using an incompatible version may prevent vLLM from running correctly.
-
-[TPU versions]: https://cloud.google.com/tpu/docs/runtimes
-[TPU VM images]: https://cloud.google.com/tpu/docs/runtimes
-[TPU regions and zones]: https://cloud.google.com/tpu/docs/regions-zones
-
-## Set up using Python
-
-### Pre-built wheels
-
-Currently, there are no pre-built TPU wheels.
-
-### Build wheel from source
-
-Install Miniconda:
-
-```bash
-wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
-bash Miniconda3-latest-Linux-x86_64.sh
-source ~/.bashrc
-```
-
-Create and activate a Conda environment for vLLM:
-
-```bash
-conda create -n vllm python=3.12 -y
-conda activate vllm
-```
-
-Clone the vLLM repository and go to the vLLM directory:
-
-```bash
-git clone https://github.com/vllm-project/vllm.git && cd vllm
-```
-
-Uninstall the existing `torch` and `torch_xla` packages:
-
-```bash
-pip uninstall torch torch-xla -y
-```
-
-Install build dependencies:
-
-```bash
-pip install -r requirements/tpu.txt
-sudo apt-get install --no-install-recommends --yes libopenblas-base libopenmpi-dev libomp-dev
-```
-
-Run the setup script:
-
-```bash
-VLLM_TARGET_DEVICE="tpu" python -m pip install -e .
-```
-
-## Set up using Docker
-
-### Pre-built images
-
-See [Using Docker](../../deployment/docker.md) for instructions on using the official Docker image, making sure to substitute the image name `vllm/vllm-openai` with `vllm/vllm-tpu`.
-
-### Build image from source
-
-You can use [docker/Dockerfile.tpu](../../../docker/Dockerfile.tpu) to build a Docker image with TPU support.
-
-```bash
-docker build -f docker/Dockerfile.tpu -t vllm-tpu .
-```
-
-Run the Docker image with the following command:
-
-```bash
-# Make sure to add `--privileged --net host --shm-size=16G`.
-docker run --privileged --net host --shm-size=16G -it vllm-tpu
-```
-
-!!! note
-    Since TPU relies on XLA which requires static shapes, vLLM bucketizes the
-    possible input shapes and compiles an XLA graph for each shape. The
-    compilation time may take 20~30 minutes in the first run. However, the
-    compilation time reduces to ~5 minutes afterwards because the XLA graphs are
-    cached in the disk (in `VLLM_XLA_CACHE_PATH` or `~/.cache/vllm/xla_cache` by default).
-
-!!! tip
-    If you encounter the following error:
-
-    ```console
-    from torch._C import *  # noqa: F403
-    ImportError: libopenblas.so.0: cannot open shared object file: No such
-    file or directory
-    ```
-
-    Install OpenBLAS with the following command:
-
-    ```bash
-    sudo apt-get install --no-install-recommends --yes libopenblas-base libopenmpi-dev libomp-dev
-    ```
diff --git a/docs/getting_started/quickstart.md b/docs/getting_started/quickstart.md
index 70a91b7454ceb..cfc8b4d9838a7 100644
--- a/docs/getting_started/quickstart.md
+++ b/docs/getting_started/quickstart.md
@@ -63,6 +63,17 @@ This guide will help you quickly get started with vLLM to perform:
         rocm/vllm-dev:nightly
         ```
 
+=== "Google TPU"
+
+    To run vLLM on Google TPUs, you need to install the `vllm-tpu` package.
+    
+    ```bash
+    uv pip install vllm-tpu
+    ```
+
+    !!! note
+        For more detailed instructions, including Docker, installing from source, and troubleshooting, please refer to the [vLLM on TPU documentation](https://docs.vllm.ai/projects/tpu/en/latest/).
+
 !!! note
     For more detail and non-CUDA platforms, please refer [here](installation/README.md) for specific instructions on how to install vLLM.
 

From 103a468bbfd3d848cdfa5845909500d58a43119a Mon Sep 17 00:00:00 2001
From: Chenguang Zheng <645327136@qq.com>
Date: Sat, 1 Nov 2025 01:34:27 +0800
Subject: [PATCH 053/976] [bugfix] Missing cached item in beam search (#27874)

Signed-off-by: fake0fan <645327136@qq.com>
Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>
---
 vllm/entrypoints/openai/serving_engine.py | 28 ++++++++---------------
 1 file changed, 10 insertions(+), 18 deletions(-)

diff --git a/vllm/entrypoints/openai/serving_engine.py b/vllm/entrypoints/openai/serving_engine.py
index c0750cd641667..46e79edbde611 100644
--- a/vllm/entrypoints/openai/serving_engine.py
+++ b/vllm/entrypoints/openai/serving_engine.py
@@ -345,22 +345,7 @@ class OpenAIServing:
 
         if is_explicit_encoder_decoder_prompt(prompt):
             raise NotImplementedError
-        else:
-            processed_inputs = processor.input_preprocessor._prompt_to_llm_inputs(
-                prompt
-            )
 
-        if processed_inputs["type"] == "embeds":
-            raise NotImplementedError
-
-        # This is a workaround to fix multimodal beam search; this is a
-        # bandaid fix for 2 small problems:
-        # 1. Multi_modal_data on the processed_inputs currently resolves to
-        #    `None`.
-        # 2. preprocessing above expands the multimodal placeholders. However,
-        #    this happens again in generation, so the double expansion causes
-        #    a mismatch.
-        # TODO - would be ideal to handle this more gracefully.
         prompt_text: str | None
         prompt_token_ids: list[int]
         multi_modal_data: MultiModalDataDict | None
@@ -373,9 +358,16 @@ class OpenAIServing:
             prompt_token_ids = prompt.get("prompt_token_ids", [])  # type: ignore
             multi_modal_data = prompt.get("multi_modal_data")  # type: ignore
 
-        mm_processor_kwargs: dict[str, Any] | None = processed_inputs.get(
-            "mm_processor_kwargs"
-        )  # type: ignore
+        mm_processor_kwargs: dict[str, Any] | None = None
+
+        # This is a workaround to fix multimodal beam search; this is a
+        # bandaid fix for 2 small problems:
+        # 1. Multi_modal_data on the processed_inputs currently resolves to
+        #    `None`.
+        # 2. preprocessing above expands the multimodal placeholders. However,
+        #    this happens again in generation, so the double expansion causes
+        #    a mismatch.
+        # TODO - would be ideal to handle this more gracefully.
 
         tokenized_length = len(prompt_token_ids)
 

From bc306fe5e97823e2a2e989725bd5e39a897a43a6 Mon Sep 17 00:00:00 2001
From: ZiTian Zhao <zitian.zhao@tencentmusic.com>
Date: Sat, 1 Nov 2025 01:38:02 +0800
Subject: [PATCH 054/976] fix incorrect type annotation in KimiMLP (#27885)

Signed-off-by: zitian.zhao <zitian.zhao@tencentmusic.com>
---
 vllm/model_executor/models/kimi_linear.py | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/vllm/model_executor/models/kimi_linear.py b/vllm/model_executor/models/kimi_linear.py
index f8df72b067dd0..cce22842d3330 100644
--- a/vllm/model_executor/models/kimi_linear.py
+++ b/vllm/model_executor/models/kimi_linear.py
@@ -22,7 +22,6 @@ from vllm.model_executor.layers.layernorm import RMSNorm
 from vllm.model_executor.layers.linear import (
     ColumnParallelLinear,
     MergedColumnParallelLinear,
-    QKVParallelLinear,
     ReplicatedLinear,
     RowParallelLinear,
 )
@@ -61,7 +60,7 @@ class KimiMLP(nn.Module):
         hidden_size: int,
         intermediate_size: int,
         hidden_act: str,
-        quant_config: QKVParallelLinear | None = None,
+        quant_config: QuantizationConfig | None = None,
         reduce_results: bool = True,
         prefix: str = "",
     ) -> None:

From fc16f1c4779023e2e9ca3efe7a8b78a27cd318ac Mon Sep 17 00:00:00 2001
From: Shu Wang <shuw@nvidia.com>
Date: Fri, 31 Oct 2025 10:54:29 -0700
Subject: [PATCH 055/976] Flashinfer_CUTLASS_MOE fuses quantization for TP
 (#27223)

Signed-off-by: Shu Wang. <shuw@nvidia.com>
---
 .../fused_moe/flashinfer_cutlass_moe.py       |  6 ++++-
 .../flashinfer_cutlass_prepare_finalize.py    | 17 +++++++-------
 .../layers/quantization/modelopt.py           | 23 -------------------
 .../quantization/utils/flashinfer_fp4_moe.py  |  1 +
 4 files changed, 15 insertions(+), 32 deletions(-)

diff --git a/vllm/model_executor/layers/fused_moe/flashinfer_cutlass_moe.py b/vllm/model_executor/layers/fused_moe/flashinfer_cutlass_moe.py
index b7820319682be..85ce77fb1f7f7 100644
--- a/vllm/model_executor/layers/fused_moe/flashinfer_cutlass_moe.py
+++ b/vllm/model_executor/layers/fused_moe/flashinfer_cutlass_moe.py
@@ -56,6 +56,7 @@ class FlashInferExperts(mk.FusedMoEPermuteExpertsUnpermute):
         ep_size: int = 1,
         tp_rank: int = 0,
         tp_size: int = 1,
+        use_dp: bool = False,
     ):
         super().__init__(quant_config)
         assert quant_config.quant_dtype in ("nvfp4", torch.float8_e4m3fn, None), (
@@ -67,6 +68,7 @@ class FlashInferExperts(mk.FusedMoEPermuteExpertsUnpermute):
         self.tp_rank = tp_rank
         self.tp_size = tp_size
         self.out_dtype = out_dtype
+        self.use_dp = use_dp
 
     @property
     def activation_formats(
@@ -117,7 +119,8 @@ class FlashInferExperts(mk.FusedMoEPermuteExpertsUnpermute):
         """
         workspace1 = (M, K)
         workspace2 = (0,)
-        output_shape = (M, K * 2 if self.quant_dtype == "nvfp4" else K)
+        # For TP, the quantization is fused with fused_moe call.
+        output_shape = (M, K * 2 if self.quant_dtype == "nvfp4" and self.use_dp else K)
         # The workspace is determined by `aq`, since it comes after any
         # potential communication op and is involved in the expert computation.
         return (workspace1, workspace2, output_shape)
@@ -214,6 +217,7 @@ def flashinfer_cutlass_moe_fp4(
         FlashInferExperts(
             out_dtype=hidden_states.dtype,
             quant_config=quant_config,
+            use_dp=False,
         ),
     )
 
diff --git a/vllm/model_executor/layers/fused_moe/flashinfer_cutlass_prepare_finalize.py b/vllm/model_executor/layers/fused_moe/flashinfer_cutlass_prepare_finalize.py
index 20e2f6c851861..051abbcb7949d 100644
--- a/vllm/model_executor/layers/fused_moe/flashinfer_cutlass_prepare_finalize.py
+++ b/vllm/model_executor/layers/fused_moe/flashinfer_cutlass_prepare_finalize.py
@@ -170,6 +170,8 @@ class FlashInferAllGatherMoEPrepareAndFinalize(FlashInferCutlassMoEPrepareAndFin
         self._apply_router_weight_on_input(
             a1, topk_weights, topk_ids, apply_router_weight_on_input
         )
+        if not self.use_dp:
+            return a1, None, None, topk_ids, topk_weights
 
         a1q, a1q_scale = moe_kernel_quantize_input(
             a1,
@@ -179,14 +181,13 @@ class FlashInferAllGatherMoEPrepareAndFinalize(FlashInferCutlassMoEPrepareAndFin
             quant_config.block_shape,
             is_fp4_scale_swizzled=not self.use_dp,
         )
-        if self.use_dp:
-            topk_weights, topk_ids, a1q, a1q_scale = get_dp_group().all_gatherv(
-                [topk_weights, topk_ids, a1q, a1q_scale],
-                dim=0,
-                sizes=get_local_sizes(),
-            )
-            if quant_config.quant_dtype == "nvfp4":
-                a1q_scale = nvfp4_block_scale_interleave(a1q_scale)
+        topk_weights, topk_ids, a1q, a1q_scale = get_dp_group().all_gatherv(
+            [topk_weights, topk_ids, a1q, a1q_scale],
+            dim=0,
+            sizes=get_local_sizes(),
+        )
+        if quant_config.quant_dtype == "nvfp4":
+            a1q_scale = nvfp4_block_scale_interleave(a1q_scale)
 
         return a1q, a1q_scale, None, topk_ids, topk_weights
 
diff --git a/vllm/model_executor/layers/quantization/modelopt.py b/vllm/model_executor/layers/quantization/modelopt.py
index 0eeeaa3ce457f..37b682984fc35 100644
--- a/vllm/model_executor/layers/quantization/modelopt.py
+++ b/vllm/model_executor/layers/quantization/modelopt.py
@@ -1769,29 +1769,6 @@ class ModelOptNvFp4FusedMoE(FusedMoEMethodBase):
                 expert_map=expert_map,
                 apply_router_weight_on_input=apply_router_weight_on_input,
             )
-        elif (
-            self.allow_flashinfer
-            and self.flashinfer_moe_backend == FlashinferMoeBackend.CUTLASS
-        ):
-            from vllm.model_executor.layers.fused_moe.flashinfer_cutlass_moe import (  # noqa: E501
-                flashinfer_cutlass_moe_fp4,
-            )
-
-            assert self.moe_quant_config is not None
-
-            return flashinfer_cutlass_moe_fp4(
-                hidden_states=x,
-                w1=layer.w13_weight,
-                w2=layer.w2_weight,
-                topk_weights=topk_weights,
-                topk_ids=topk_ids,
-                quant_config=self.moe_quant_config,
-                inplace=False,
-                activation=activation,
-                global_num_experts=global_num_experts,
-                expert_map=expert_map,
-                apply_router_weight_on_input=apply_router_weight_on_input,
-            )
         else:
             # If no modular kernel is provided, use cutlass_moe_fp4 for TP case
             # only (no EP).
diff --git a/vllm/model_executor/layers/quantization/utils/flashinfer_fp4_moe.py b/vllm/model_executor/layers/quantization/utils/flashinfer_fp4_moe.py
index b3a4cb2de1395..fdf330329e20c 100644
--- a/vllm/model_executor/layers/quantization/utils/flashinfer_fp4_moe.py
+++ b/vllm/model_executor/layers/quantization/utils/flashinfer_fp4_moe.py
@@ -79,6 +79,7 @@ def select_nvfp4_gemm_impl(
             ep_size=moe.moe_parallel_config.ep_size,
             tp_rank=moe.moe_parallel_config.tp_rank,
             tp_size=moe.moe_parallel_config.tp_size,
+            use_dp=moe.moe_parallel_config.dp_size > 1,
         )
 
     # native cutlass experts currently don't support DP; TP case won't call this

From 9e5bd3076e0b2dc9336ac230428424351426e2ef Mon Sep 17 00:00:00 2001
From: Nick Hill <nhill@redhat.com>
Date: Fri, 31 Oct 2025 10:57:45 -0700
Subject: [PATCH 056/976] [Cleanup] Remove no-longer-used
 `SpeculativeConfig.enable_chunked_prefill` (#27826)

Signed-off-by: Nick Hill <nhill@redhat.com>
---
 vllm/config/speculative.py            | 10 ----------
 vllm/engine/arg_utils.py              |  6 ------
 vllm/entrypoints/openai/api_server.py |  1 +
 3 files changed, 1 insertion(+), 16 deletions(-)

diff --git a/vllm/config/speculative.py b/vllm/config/speculative.py
index 903b9a26fab88..1f956526dcdc6 100644
--- a/vllm/config/speculative.py
+++ b/vllm/config/speculative.py
@@ -78,10 +78,6 @@ class SpeculativeConfig:
     draft_tensor_parallel_size: int | None = Field(default=None, ge=1)
     """The degree of the tensor parallelism for the draft model. Can only be 1
     or the same as the target model's tensor parallel size."""
-    disable_logprobs: bool = True
-    """If set to True, token log probabilities are not returned during
-    speculative decoding. If set to False, token log probabilities are returned
-    according to the log probability settings in SamplingParams."""
 
     # Draft model configuration
     quantization: me_quant.QuantizationMethods | None = None
@@ -126,12 +122,6 @@ class SpeculativeConfig:
     """The configuration of the target model."""
     target_parallel_config: SkipValidation[ParallelConfig] = None  # type: ignore
     """The parallel configuration for the target model."""
-    enable_chunked_prefill: SkipValidation[bool] = None  # type: ignore
-    """Whether vLLM is configured to use chunked prefill or not. Used for
-    raising an error since it's not yet compatible with speculative decode."""
-    disable_log_stats: SkipValidation[bool] = None  # type: ignore
-    """Whether to disable the periodic printing of stage times in speculative
-    decoding."""
 
     # params generated in the post-init stage
     draft_model_config: SkipValidation[ModelConfig] = None  # type: ignore
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index b31e4931f2295..4e2c389bf84d3 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -1246,8 +1246,6 @@ class EngineArgs:
         self,
         target_model_config: ModelConfig,
         target_parallel_config: ParallelConfig,
-        enable_chunked_prefill: bool,
-        disable_log_stats: bool,
     ) -> SpeculativeConfig | None:
         """Initializes and returns a SpeculativeConfig object based on
         `speculative_config`.
@@ -1267,8 +1265,6 @@ class EngineArgs:
             {
                 "target_model_config": target_model_config,
                 "target_parallel_config": target_parallel_config,
-                "enable_chunked_prefill": enable_chunked_prefill,
-                "disable_log_stats": disable_log_stats,
             }
         )
         return SpeculativeConfig(**self.speculative_config)
@@ -1561,8 +1557,6 @@ class EngineArgs:
         speculative_config = self.create_speculative_config(
             target_model_config=model_config,
             target_parallel_config=parallel_config,
-            enable_chunked_prefill=self.enable_chunked_prefill,
-            disable_log_stats=self.disable_log_stats,
         )
 
         # make sure num_lookahead_slots is set appropriately depending on
diff --git a/vllm/entrypoints/openai/api_server.py b/vllm/entrypoints/openai/api_server.py
index f3aa5351e5302..8fa71855f8f66 100644
--- a/vllm/entrypoints/openai/api_server.py
+++ b/vllm/entrypoints/openai/api_server.py
@@ -241,6 +241,7 @@ async def build_async_engine_client_from_engine_args(
         )
 
         # Don't keep the dummy data in memory
+        assert async_llm is not None
         await async_llm.reset_mm_cache()
 
         yield async_llm

From 5e8862e9e0f5c81d81a1ee46248cc281edc42596 Mon Sep 17 00:00:00 2001
From: Vinay R Damodaran <vrdn@hey.com>
Date: Fri, 31 Oct 2025 11:05:50 -0700
Subject: [PATCH 057/976] [Feature] Pydantic validation for scheduler.py and
 structured_outputs.py (#26519)

Signed-off-by: Vinay Damodaran <vrdn@hey.com>
Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 vllm/config/scheduler.py                      | 62 +++++++++----------
 vllm/config/structured_outputs.py             |  7 ++-
 vllm/engine/arg_utils.py                      |  2 +-
 .../tool_parsers/minimax_m2_tool_parser.py    |  3 +-
 4 files changed, 39 insertions(+), 35 deletions(-)

diff --git a/vllm/config/scheduler.py b/vllm/config/scheduler.py
index af47531501cfb..b837b830e774b 100644
--- a/vllm/config/scheduler.py
+++ b/vllm/config/scheduler.py
@@ -2,10 +2,11 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
 import hashlib
-from dataclasses import InitVar, field
+from collections.abc import Callable
+from dataclasses import InitVar
 from typing import Any, Literal
 
-from pydantic import SkipValidation, model_validator
+from pydantic import Field, field_validator, model_validator
 from pydantic.dataclasses import dataclass
 from typing_extensions import Self
 
@@ -31,28 +32,28 @@ class SchedulerConfig:
     runner_type: RunnerType = "generate"
     """The runner type to launch for the model."""
 
-    max_num_batched_tokens: SkipValidation[int] = None  # type: ignore
+    max_num_batched_tokens: int = Field(default=None, ge=1)
     """Maximum number of tokens to be processed in a single iteration.
 
     This config has no static default. If left unspecified by the user, it will
     be set in `EngineArgs.create_engine_config` based on the usage context."""
 
-    max_num_seqs: SkipValidation[int] = None  # type: ignore
+    max_num_seqs: int = Field(default=None, ge=1)
     """Maximum number of sequences to be processed in a single iteration.
 
     This config has no static default. If left unspecified by the user, it will
     be set in `EngineArgs.create_engine_config` based on the usage context."""
 
-    max_model_len: SkipValidation[int] = None  # type: ignore
+    max_model_len: int = Field(default=None, ge=1)
     """Maximum length of a sequence (including prompt and generated text). This
     is primarily set in `ModelConfig` and that value should be manually
     duplicated here."""
 
-    max_num_partial_prefills: int = 1
+    max_num_partial_prefills: int = Field(default=1, ge=1)
     """For chunked prefill, the maximum number of sequences that can be
     partially prefilled concurrently."""
 
-    max_long_partial_prefills: int = 1
+    max_long_partial_prefills: int = Field(default=1, ge=1)
     """For chunked prefill, the maximum number of prompts longer than
     long_prefill_token_threshold that will be prefilled concurrently. Setting
     this less than max_num_partial_prefills will allow shorter prompts to jump
@@ -62,7 +63,7 @@ class SchedulerConfig:
     """For chunked prefill, a request is considered long if the prompt is
     longer than this number of tokens."""
 
-    num_lookahead_slots: int = 0
+    num_lookahead_slots: int = Field(default=0, ge=0)
     """The number of slots to allocate per sequence per
     step, beyond the known token ids. This is used in speculative
     decoding to store KV activations of tokens which may or may not be
@@ -71,7 +72,7 @@ class SchedulerConfig:
     NOTE: This will be replaced by speculative config in the future; it is
     present to enable correctness tests until then."""
 
-    enable_chunked_prefill: SkipValidation[bool] = None  # type: ignore
+    enable_chunked_prefill: bool = Field(default=None)
     """If True, prefill requests can be chunked based
     on the remaining max_num_batched_tokens."""
 
@@ -86,14 +87,14 @@ class SchedulerConfig:
     """
 
     # TODO (ywang96): Make this configurable.
-    max_num_encoder_input_tokens: int = field(init=False)
+    max_num_encoder_input_tokens: int = Field(init=False)
     """Multimodal encoder compute budget, only used in V1.
 
     NOTE: This is not currently configurable. It will be overridden by
     max_num_batched_tokens in case max multimodal embedding size is larger."""
 
     # TODO (ywang96): Make this configurable.
-    encoder_cache_size: int = field(init=False)
+    encoder_cache_size: int = Field(init=False)
     """Multimodal encoder cache size, only used in V1.
 
     NOTE: This is not currently configurable. It will be overridden by
@@ -106,7 +107,7 @@ class SchedulerConfig:
     - "priority" means requests are handled based on given priority (lower
     value means earlier handling) and time of arrival deciding any ties)."""
 
-    chunked_prefill_enabled: bool = field(init=False)
+    chunked_prefill_enabled: bool = Field(init=False)
     """True if chunked prefill is enabled."""
 
     disable_chunked_mm_input: bool = False
@@ -155,6 +156,20 @@ class SchedulerConfig:
         hash_str = hashlib.md5(str(factors).encode(), usedforsecurity=False).hexdigest()
         return hash_str
 
+    @field_validator(
+        "max_num_batched_tokens",
+        "max_num_seqs",
+        "max_model_len",
+        "enable_chunked_prefill",
+        mode="wrap",
+    )
+    @classmethod
+    def _skip_none_validation(cls, value: Any, handler: Callable) -> Any:
+        """Skip validation if the value is `None` when initialisation is delayed."""
+        if value is None:
+            return value
+        return handler(value)
+
     def __post_init__(self, is_encoder_decoder: bool) -> None:
         if self.max_model_len is None:
             self.max_model_len = 8192
@@ -260,19 +275,7 @@ class SchedulerConfig:
                 self.max_num_seqs * self.max_model_len,
             )
 
-        if self.num_lookahead_slots < 0:
-            raise ValueError(
-                "num_lookahead_slots "
-                f"({self.num_lookahead_slots}) must be greater than or "
-                "equal to 0."
-            )
-
-        if self.max_num_partial_prefills < 1:
-            raise ValueError(
-                f"max_num_partial_prefills ({self.max_num_partial_prefills}) "
-                "must be greater than or equal to 1."
-            )
-        elif self.max_num_partial_prefills > 1:
+        if self.max_num_partial_prefills > 1:
             if not self.chunked_prefill_enabled:
                 raise ValueError(
                     "Chunked prefill must be enabled to set "
@@ -286,13 +289,10 @@ class SchedulerConfig:
                     f"than the max_model_len ({self.max_model_len})."
                 )
 
-        if (self.max_long_partial_prefills < 1) or (
-            self.max_long_partial_prefills > self.max_num_partial_prefills
-        ):
+        if self.max_long_partial_prefills > self.max_num_partial_prefills:
             raise ValueError(
-                f"max_long_partial_prefills ({self.max_long_partial_prefills}) "
-                "must be greater than or equal to 1 and less than or equal to "
-                f"max_num_partial_prefills ({self.max_num_partial_prefills})."
+                f"{self.max_long_partial_prefills=} must be less than or equal to "
+                f"{self.max_num_partial_prefills=}."
             )
 
         return self
diff --git a/vllm/config/structured_outputs.py b/vllm/config/structured_outputs.py
index 76b565006e286..85b6e42264a42 100644
--- a/vllm/config/structured_outputs.py
+++ b/vllm/config/structured_outputs.py
@@ -2,8 +2,9 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
 import hashlib
-from typing import Any, Literal
+from typing import Any, Literal, Self
 
+from pydantic import model_validator
 from pydantic.dataclasses import dataclass
 
 from vllm.config.utils import config
@@ -56,7 +57,8 @@ class StructuredOutputsConfig:
         hash_str = hashlib.md5(str(factors).encode(), usedforsecurity=False).hexdigest()
         return hash_str
 
-    def __post_init__(self):
+    @model_validator(mode="after")
+    def _validate_structured_output_config(self) -> Self:
         if self.disable_any_whitespace and self.backend not in ("xgrammar", "guidance"):
             raise ValueError(
                 "disable_any_whitespace is only supported for "
@@ -67,3 +69,4 @@ class StructuredOutputsConfig:
                 "disable_additional_properties is only supported "
                 "for the guidance backend."
             )
+        return self
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index 4e2c389bf84d3..b6f922a95519b 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -1807,7 +1807,7 @@ class EngineArgs:
             incremental_prefill_supported = (
                 pooling_type is not None
                 and pooling_type.lower() == "last"
-                and is_causal
+                and bool(is_causal)
             )
 
             action = "Enabling" if incremental_prefill_supported else "Disabling"
diff --git a/vllm/entrypoints/openai/tool_parsers/minimax_m2_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/minimax_m2_tool_parser.py
index 06dd336bf9cf3..d083ece892d50 100644
--- a/vllm/entrypoints/openai/tool_parsers/minimax_m2_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/minimax_m2_tool_parser.py
@@ -2,11 +2,12 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
 import json
-import re
 import uuid
 from collections.abc import Sequence
 from typing import Any
 
+import regex as re
+
 from vllm.entrypoints.openai.protocol import (
     ChatCompletionRequest,
     DeltaFunctionCall,

From f29aeb5a25dad044306684e205adc159949c6ccb Mon Sep 17 00:00:00 2001
From: Matthew Bonanni <mbonanni@redhat.com>
Date: Fri, 31 Oct 2025 14:12:19 -0400
Subject: [PATCH 058/976] Add FLASHINFER_MLA to test_mla_backends and add B200
 CI run (#27663)

Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>
---
 .buildkite/test-pipeline.yaml                 |  10 +
 tests/v1/attention/test_mla_backends.py       | 244 +++++++++++++-----
 tests/v1/attention/utils.py                   |  12 +-
 .../attention/backends/mla/flashinfer_mla.py  |   6 +-
 4 files changed, 208 insertions(+), 64 deletions(-)

diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index 3bd5bd87fe6f0..a020b0d276be0 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -340,6 +340,16 @@ steps:
   commands:
     - pytest -v -s v1/attention
 
+- label: V1 Test attention (B200) # 10min
+  timeout_in_minutes: 30
+  gpu: b200
+  source_file_dependencies:
+    - vllm/v1/attention
+    - tests/v1/attention
+  commands:
+    - export VLLM_DISABLE_FLASHINFER_PREFILL=1 # TODO: FI prefill is bugged and causes incorrectness, fix this
+    - pytest -v -s v1/attention
+
 - label: V1 Test others (CPU) # 5 mins
   source_file_dependencies:
     - vllm/
diff --git a/tests/v1/attention/test_mla_backends.py b/tests/v1/attention/test_mla_backends.py
index 1b17532884841..cda4fb11c096e 100644
--- a/tests/v1/attention/test_mla_backends.py
+++ b/tests/v1/attention/test_mla_backends.py
@@ -14,16 +14,19 @@ import torch
 from tests.v1.attention.utils import (
     BatchSpec,
     create_common_attn_metadata,
-    create_standard_kv_cache_spec,
     create_vllm_config,
     try_get_attention_backend,
 )
 from vllm import _custom_ops as ops
-from vllm.attention.backends.registry import _Backend
+from vllm.attention.backends.registry import _Backend, backend_to_class_str
 from vllm.attention.ops.flashmla import is_flashmla_dense_supported
+from vllm.attention.utils.fa_utils import flash_attn_supports_mla
 from vllm.config.vllm import set_current_vllm_config
+from vllm.model_executor.layers.attention_layer_base import AttentionLayerBase
+from vllm.utils.import_utils import resolve_obj_by_qualname
 from vllm.utils.math_utils import cdiv
 from vllm.utils.torch_utils import STR_DTYPE_TO_TORCH_DTYPE
+from vllm.v1.attention.backends.mla.common import QueryLenSupport
 from vllm.v1.attention.backends.utils import CommonAttentionMetadata
 from vllm.v1.kv_cache_interface import FullAttentionSpec
 
@@ -31,17 +34,46 @@ BACKENDS_TO_TEST = [
     _Backend.CUTLASS_MLA,
     _Backend.FLASHMLA,
     _Backend.FLASH_ATTN_MLA,
+    _Backend.FLASHINFER_MLA,
     _Backend.TRITON_MLA,
 ]
 
-# Remove CUTLASS_MLA from the list if not using sm100
+# Remove sm100 backends from the list if not using sm100
 if not torch.cuda.is_available() or torch.cuda.get_device_properties(0).major < 10:
     BACKENDS_TO_TEST.remove(_Backend.CUTLASS_MLA)
+    BACKENDS_TO_TEST.remove(_Backend.FLASHINFER_MLA)
+
+# Remove FLASH_ATTN_MLA from the list if not supported
+if not flash_attn_supports_mla():
+    BACKENDS_TO_TEST.remove(_Backend.FLASH_ATTN_MLA)
 
 # Remove FLASHMLA from the list if not supported
 if not is_flashmla_dense_supported()[0]:
     BACKENDS_TO_TEST.remove(_Backend.FLASHMLA)
 
+SPEC_DECODE_BACKENDS = []
+for backend in BACKENDS_TO_TEST:
+    builder_cls, _ = try_get_attention_backend(backend)
+    query_len_support = getattr(
+        builder_cls, "query_len_support", QueryLenSupport.SINGLE_ONLY
+    )
+    if query_len_support != QueryLenSupport.SINGLE_ONLY:
+        SPEC_DECODE_BACKENDS.append(backend)
+
+BACKEND_BLOCK_SIZES = {}
+for backend in BACKENDS_TO_TEST:
+    backend_class_str = backend_to_class_str(backend)
+    backend_class = resolve_obj_by_qualname(backend_class_str)
+    supported_sizes = backend_class.get_supported_kernel_block_size()
+    if supported_sizes:
+        default_size = supported_sizes[0]
+        block_size = (
+            default_size if isinstance(default_size, int) else default_size.base
+        )
+    else:
+        block_size = 16
+    BACKEND_BLOCK_SIZES[backend] = block_size
+
 torch.manual_seed(42)
 
 
@@ -236,6 +268,26 @@ class MockAttentionLayer:
         self._q_scale = torch.tensor(1.0, device=device)
         self._k_scale = torch.tensor(1.0, device=device)
         self._v_scale = torch.tensor(1.0, device=device)
+        self._prob_scale = torch.tensor(1.0, device=device)
+        self._q_scale_float = 1.0
+        self._k_scale_float = 1.0
+        self._v_scale_float = 1.0
+
+    def forward(self, *_args, **_kwargs):
+        raise NotImplementedError
+
+
+class MockMLAAttentionLayer(AttentionLayerBase):
+    """A mock MLA attention layer for populating static_forward_context."""
+
+    def __init__(self, impl):
+        self.impl = impl
+
+    def get_attn_backend(self):
+        raise NotImplementedError
+
+    def get_kv_cache_spec(self, vllm_config):
+        raise NotImplementedError
 
 
 def run_attention_backend(
@@ -262,13 +314,6 @@ def run_attention_backend(
     # Set the current vllm config so that get_current_vllm_config() works
     # in the backend implementations
     with set_current_vllm_config(vllm_config):
-        # Build metadata
-        builder = builder_cls(kv_cache_spec, layer_names, vllm_config, device)
-        attn_metadata = builder.build(
-            common_prefix_len=0,
-            common_attn_metadata=common_attn_metadata,
-        )
-
         # Instantiate MLA implementation
         num_heads = vllm_config.model_config.get_num_attention_heads(
             vllm_config.parallel_config
@@ -302,6 +347,19 @@ def run_attention_backend(
         act_dtype = _convert_dtype_to_torch(vllm_config.model_config.dtype)
         impl.process_weights_after_loading(act_dtype)
 
+        # Populate static_forward_context with mock attention layers
+        for layer_name in layer_names:
+            vllm_config.compilation_config.static_forward_context[layer_name] = (
+                MockMLAAttentionLayer(impl)
+            )
+
+        # Build metadata
+        builder = builder_cls(kv_cache_spec, layer_names, vllm_config, device)
+        attn_metadata = builder.build(
+            common_prefix_len=0,
+            common_attn_metadata=common_attn_metadata,
+        )
+
         # Create mock layer and output buffer
         mock_layer = MockAttentionLayer(device)
         num_tokens = query.shape[0]
@@ -353,15 +411,14 @@ def test_backend_correctness(dist_init, batch_spec_name: str, model: str):
        simulated paged KV cache.
     5. Comparing the vLLM backend's output to the ground-truth SDPA output.
     """
-    from vllm.v1.attention.backends.mla.common import QueryLenSupport
 
     batch_spec = BATCH_SPECS[batch_spec_name]
     is_spec_decode_test = batch_spec_name.startswith("spec_decode")
-    spec_decode_backends = {_Backend.FLASH_ATTN_MLA, _Backend.FLASHMLA}
-
-    block_size = 16
+    unique_block_sizes = sorted(set(BACKEND_BLOCK_SIZES.values()))
+    default_block_size = unique_block_sizes[0]
     required_blocks = sum(
-        (seq_len + block_size - 1) // block_size for seq_len in batch_spec.seq_lens
+        (seq_len + default_block_size - 1) // default_block_size
+        for seq_len in batch_spec.seq_lens
     )
     # Add 1 for null block at index 0, and some buffer
     num_gpu_blocks = required_blocks + 1 + 100
@@ -370,7 +427,7 @@ def test_backend_correctness(dist_init, batch_spec_name: str, model: str):
         model_name=model,
         max_model_len=max(batch_spec.seq_lens),
         num_gpu_blocks=num_gpu_blocks,
-        block_size=block_size,
+        block_size=default_block_size,
     )
 
     # For spec decode tests, add a speculative_config to set the reorder_batch_threshold
@@ -388,8 +445,6 @@ def test_backend_correctness(dist_init, batch_spec_name: str, model: str):
 
     device = torch.device("cuda:0")
 
-    kv_cache_spec = create_standard_kv_cache_spec(vllm_config)
-
     # 1. Setup
     batch_size = batch_spec.batch_size
     seq_lens = batch_spec.seq_lens
@@ -399,7 +454,6 @@ def test_backend_correctness(dist_init, batch_spec_name: str, model: str):
     )
     head_size = vllm_config.model_config.get_head_size()
     dtype = _convert_dtype_to_torch(vllm_config.model_config.dtype)
-    block_size = vllm_config.cache_config.block_size
     kv_lora_rank = 512
     qk_rope_head_dim = 64
     qk_nope_head_dim = 128
@@ -598,33 +652,83 @@ def test_backend_correctness(dist_init, batch_spec_name: str, model: str):
     )
     mock_kv_b_proj.weight = torch.nn.Parameter(kv_b_proj_weight.T, requires_grad=False)
 
-    # Create metadata using original batch spec
-    common_attn_metadata = create_common_attn_metadata(
-        batch_spec, vllm_config.cache_config.block_size, device
-    )
+    # 3. Create metadata and KV caches for each block size
+    # Group backends by block size and test each group
+    metadata_per_block_size = {}
+    kv_cache_per_block_size = {}
 
-    # 3. Simulate Paged KV Cache and a realistic slot_mapping
-    kv_cache = create_and_prepopulate_kv_cache(
-        kv_c_contexts=kv_c_contexts,
-        k_pe_contexts=k_pe_contexts,
-        block_size=block_size,
-        head_size=head_size,
-        dtype=dtype,
-        device=device,
-        num_blocks=vllm_config.cache_config.num_gpu_blocks,
-        common_attn_metadata=common_attn_metadata,
-        randomize_blocks=True,
-    )
+    for block_size in unique_block_sizes:
+        # Create metadata for this block size
+        common_attn_metadata = create_common_attn_metadata(
+            batch_spec, block_size, device
+        )
+
+        # Pad block table to meet requirement:
+        # block_num % (128 / block_size) == 0
+        required_divisor = int(128 / block_size)
+        current_block_num = common_attn_metadata.block_table_tensor.shape[1]
+        if current_block_num % required_divisor != 0:
+            # Pad to next multiple of required_divisor
+            padded_block_num = (
+                (current_block_num + required_divisor - 1) // required_divisor
+            ) * required_divisor
+            padding_cols = padded_block_num - current_block_num
+            padding = torch.zeros(
+                (common_attn_metadata.block_table_tensor.shape[0], padding_cols),
+                dtype=torch.int32,
+                device=device,
+            )
+            common_attn_metadata.block_table_tensor = torch.cat(
+                [common_attn_metadata.block_table_tensor, padding], dim=1
+            )
+
+        metadata_per_block_size[block_size] = common_attn_metadata
+
+        # Create KV cache for this block size
+        required_blocks_for_size = sum(
+            (seq_len + block_size - 1) // block_size for seq_len in batch_spec.seq_lens
+        )
+        num_blocks_for_size = required_blocks_for_size + 1 + 100
+
+        kv_cache = create_and_prepopulate_kv_cache(
+            kv_c_contexts=kv_c_contexts,
+            k_pe_contexts=k_pe_contexts,
+            block_size=block_size,
+            head_size=head_size,
+            dtype=dtype,
+            device=device,
+            num_blocks=num_blocks_for_size,
+            common_attn_metadata=common_attn_metadata,
+            randomize_blocks=True,
+        )
+        kv_cache_per_block_size[block_size] = kv_cache
 
     # 4. Run vLLM backends and compare
+    failures = []
     for backend_idx, backend_name in enumerate(BACKENDS_TO_TEST):
         # Skip backends that don't support spec decode for spec decode tests
-        if is_spec_decode_test and backend_name not in spec_decode_backends:
+        if is_spec_decode_test and backend_name not in SPEC_DECODE_BACKENDS:
             continue
 
+        # Get the appropriate block_size, metadata, and cache for this backend
+        block_size = BACKEND_BLOCK_SIZES[backend_name]
+        common_attn_metadata = metadata_per_block_size[block_size]
+        kv_cache = kv_cache_per_block_size[block_size]
+
+        # Create kv_cache_spec with the correct block_size for this backend
+        backend_kv_cache_spec = FullAttentionSpec(
+            block_size=block_size,
+            num_kv_heads=vllm_config.model_config.get_num_kv_heads(
+                vllm_config.parallel_config
+            ),
+            head_size=vllm_config.model_config.get_head_size(),
+            dtype=vllm_config.model_config.dtype,
+            sliding_window=vllm_config.model_config.get_sliding_window(),
+        )
+
         backend_output = run_attention_backend(
             backend_name,
-            kv_cache_spec,
+            backend_kv_cache_spec,
             ["placeholder"],
             vllm_config,
             device,
@@ -644,32 +748,48 @@ def test_backend_correctness(dist_init, batch_spec_name: str, model: str):
         expected_output = sdpa_outputs[backend_name]
 
         # Check shape and dtype consistency
-        assert backend_output.shape == expected_output.shape, (
-            f"[{backend_name}] shape {backend_output.shape} != "
-            f"SDPA shape {expected_output.shape}"
-        )
-        assert backend_output.dtype == expected_output.dtype, (
-            f"[{backend_name}] dtype {backend_output.dtype} != "
-            f"SDPA dtype {expected_output.dtype}"
-        )
+        try:
+            assert backend_output.shape == expected_output.shape, (
+                f"[{backend_name}] shape {backend_output.shape} != "
+                f"SDPA shape {expected_output.shape}"
+            )
+            assert backend_output.dtype == expected_output.dtype, (
+                f"[{backend_name}] dtype {backend_output.dtype} != "
+                f"SDPA dtype {expected_output.dtype}"
+            )
 
-        assert torch.isfinite(backend_output).all(), (
-            f"[{backend_name}] produced non-finite values"
-        )
+            assert torch.isfinite(backend_output).all(), (
+                f"[{backend_name}] produced non-finite values"
+            )
 
-        # Check numerical similarity
-        rtol = 1e-2
-        atol = 5e-1
+            # Check numerical similarity
+            rtol = 1e-2
+            atol = 5e-1
 
-        max_diff = torch.max(torch.abs(backend_output - expected_output)).item()
-        max_rel_diff = torch.max(
-            torch.abs(backend_output - expected_output) / torch.abs(expected_output)
-        ).item()
-        all_close = torch.allclose(
-            backend_output, expected_output, rtol=rtol, atol=atol
-        )
+            max_diff = torch.max(torch.abs(backend_output - expected_output)).item()
+            max_rel_diff = torch.max(
+                torch.abs(backend_output - expected_output) / torch.abs(expected_output)
+            ).item()
+            all_close = torch.allclose(
+                backend_output, expected_output, rtol=rtol, atol=atol
+            )
 
-        assert all_close, (
-            f"[{backend_name}] output differs from SDPA baseline. "
-            f"Max diff: {max_diff:.6f}, max rel diff: {max_rel_diff:.6f})"
-        )
+            assert all_close, (
+                f"[{backend_name}] output differs from SDPA baseline. "
+                f"Max diff: {max_diff:.6f}, max rel diff: {max_rel_diff:.6f})"
+            )
+        except AssertionError as e:
+            failures.append(str(e))
+
+    # Report all failures at once
+    if failures:
+        # Create a summary for the single-line failure message
+        backend_names = []
+        for f in failures:
+            if "[_Backend." in f:
+                backend_name = f.split("[")[1].split("]")[0]
+                backend_names.append(backend_name)
+
+        summary = f"{len(failures)} backend(s) failed: {', '.join(backend_names)}"
+        detailed_msg = "\n".join(failures)
+        pytest.fail(f"{summary}\n{detailed_msg}")
diff --git a/tests/v1/attention/utils.py b/tests/v1/attention/utils.py
index 15ed7bdc835bb..b166d9d4ff688 100644
--- a/tests/v1/attention/utils.py
+++ b/tests/v1/attention/utils.py
@@ -285,7 +285,17 @@ full_cg_backend_configs = {
         name="CutlassMLA",
         env_vars={
             "VLLM_ATTENTION_BACKEND": "CUTLASS_MLA",
-            "FORCE_NUM_KV_SPLITS": "1",  # TODO: remove this when hang issue is fixed
+        },
+        comp_config={
+            "cudagraph_mode": "FULL_AND_PIECEWISE",
+        },
+        specific_gpu_arch=(10, 0),
+    ),
+    # FlashInfer MLA on Blackwell
+    "FlashInferMLA": BackendConfig(
+        name="FlashInferMLA",
+        env_vars={
+            "VLLM_ATTENTION_BACKEND": "FLASHINFER_MLA",
         },
         comp_config={
             "cudagraph_mode": "FULL_AND_PIECEWISE",
diff --git a/vllm/v1/attention/backends/mla/flashinfer_mla.py b/vllm/v1/attention/backends/mla/flashinfer_mla.py
index 44807c39cad30..ebbcfd0eaa2fb 100644
--- a/vllm/v1/attention/backends/mla/flashinfer_mla.py
+++ b/vllm/v1/attention/backends/mla/flashinfer_mla.py
@@ -6,7 +6,7 @@ from typing import ClassVar
 import torch
 from flashinfer.decode import trtllm_batch_decode_with_kv_cache_mla
 
-from vllm.attention.backends.abstract import AttentionLayer, AttentionType
+from vllm.attention.backends.abstract import AttentionLayer, AttentionType, MultipleOf
 from vllm.logger import init_logger
 from vllm.v1.attention.backends.mla.common import (
     MLACommonBackend,
@@ -40,6 +40,10 @@ class FlashInferMLABackend(MLACommonBackend):
     def get_builder_cls() -> type["FlashInferMLAMetadataBuilder"]:
         return FlashInferMLAMetadataBuilder
 
+    @classmethod
+    def get_supported_kernel_block_size(cls) -> list[int | MultipleOf]:
+        return [32, 64]
+
 
 g_fi_workspace = torch.zeros(
     FLASHINFER_MLA_WORKSPACE_BUFFER_SIZE,

From 0e0a638c3b1e239ec4eaee5b4c15808768689eb0 Mon Sep 17 00:00:00 2001
From: Bram Wasti <bwasti@fb.com>
Date: Fri, 31 Oct 2025 17:22:19 -0400
Subject: [PATCH 059/976] Batch invariance doc (#27839)

Signed-off-by: Bram Wasti <bwasti@meta.com>
Signed-off-by: Bram Wasti <bwasti@fb.com>
Co-authored-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com>
Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
---
 docs/features/batch_invariance.md | 133 ++++++++++++++++++++++++++++++
 1 file changed, 133 insertions(+)
 create mode 100644 docs/features/batch_invariance.md

diff --git a/docs/features/batch_invariance.md b/docs/features/batch_invariance.md
new file mode 100644
index 0000000000000..b196db9d9c25c
--- /dev/null
+++ b/docs/features/batch_invariance.md
@@ -0,0 +1,133 @@
+# Batch Invariance
+
+!!! note
+    Batch invariance is currently in beta. Some features are still under active development.
+    Track progress and planned improvements at <https://github.com/vllm-project/vllm/issues/27433>
+
+This document shows how to enable batch invariance in vLLM. Batch invariance ensures that the output of a model is deterministic and independent of the batch size or the order of requests in a batch.
+
+## Motivation
+
+Batch invariance is crucial for several use cases:
+
+- **Framework debugging**: Deterministic outputs make it easier to debug issues in the inference framework, as the same input will always produce the same output regardless of batching.
+- **Model debugging**: Helps identify issues in model implementations by ensuring consistent behavior across different batch configurations.
+- **Reinforcement Learning (RL)**: RL training often requires deterministic rollouts for reproducibility and stable training.
+- **Large-scale inference systems**: Systems that use vLLM as a component benefit from deterministic behavior for testing, validation, and consistency guarantees.
+
+## Hardware Requirements
+
+Batch invariance currently requires NVIDIA GPUs with compute capability 9.0 or higher:
+
+- **H-series**: H100, H200
+- **B-series**: B100, B200
+
+## Enabling Batch Invariance
+
+Batch invariance can be enabled by setting the `VLLM_BATCH_INVARIANT` environment variable to `1`:
+
+```bash
+export VLLM_BATCH_INVARIANT=1
+```
+
+### Online Inference (Server Mode)
+
+To start a vLLM server with batch invariance enabled:
+
+```bash
+VLLM_BATCH_INVARIANT=1 vllm serve meta-llama/Llama-3.1-8B-Instruct
+```
+
+Then use the OpenAI-compatible client:
+
+```python
+from openai import OpenAI
+
+client = OpenAI(
+    api_key="EMPTY",
+    base_url="http://localhost:8000/v1",
+)
+
+# These requests will produce deterministic outputs
+# regardless of batch size or order
+response = client.completions.create(
+    model="meta-llama/Llama-3.1-8B-Instruct",
+    prompt="The future of AI is",
+    max_tokens=100,
+    temperature=0.7,
+    seed=42,
+)
+
+print(response.choices[0].text)
+```
+
+### Offline Inference
+
+For offline batch inference with batch invariance:
+
+```python
+import os
+os.environ["VLLM_BATCH_INVARIANT"] = "1"
+
+from vllm import LLM, SamplingParams
+
+prompts = [
+    "The future of AI is",
+    "Machine learning enables",
+    "Deep learning models can",
+]
+
+sampling_params = SamplingParams(
+    temperature=0.7,
+    top_p=0.95,
+    max_tokens=100,
+    seed=42,
+)
+
+llm = LLM(
+    model="meta-llama/Llama-3.1-8B-Instruct",
+    tensor_parallel_size=1,
+)
+
+# Outputs will be deterministic regardless of batch size
+outputs = llm.generate(prompts, sampling_params)
+
+for output in outputs:
+    prompt = output.prompt
+    generated_text = output.outputs[0].text
+    print(f"Prompt: {prompt!r}")
+    print(f"Generated: {generated_text!r}\n")
+```
+
+## Tested Models
+
+Batch invariance has been tested and verified on the following models:
+
+- **DeepSeek series**: `deepseek-ai/DeepSeek-V3`, `deepseek-ai/DeepSeek-V3-0324`, `deepseek-ai/DeepSeek-R1`, `deepseek-ai/DeepSeek-V3.1`
+- **Qwen3 (Dense)**: `Qwen/Qwen3-1.7B`, `Qwen/Qwen3-8B`
+- **Qwen3 (MoE)**: `Qwen/Qwen3-30B-A3B`, `Qwen/Qwen3-Next-80B-A3B-Instruct`
+- **Llama 3**: `meta-llama/Llama-3.1-8B-Instruct`, `meta-llama/Llama-3.2-1B-Instruct`
+
+Other models may also work, but these have been explicitly validated. If you encounter issues with a specific model, please report them on the [GitHub issue tracker](https://github.com/vllm-project/vllm/issues/new/choose).
+
+## Implementation Details
+
+When batch invariance is enabled, vLLM:
+
+1. Uses deterministic kernel implementations for attention and other operations
+2. Ensures consistent numerical behavior across different batch sizes
+3. Disables certain optimizations that may introduce non-determinism (such as custom all-reduce operations in tensor parallel mode)
+
+!!! note
+    Enabling batch invariance may impact performance compared to the default non-deterministic mode. This trade-off is intentional to guarantee reproducibility.
+
+## Future Improvements
+
+The batch invariance feature is under active development. Planned improvements include:
+
+- Support for additional GPU architectures
+- Expanded model coverage
+- Performance optimizations
+- Additional testing and validation
+
+For the latest status and to contribute ideas, see the [tracking issue](https://github.com/vllm-project/vllm/issues/27433).

From df334868ca5b7d8785121f8eaf52b1526e7766ac Mon Sep 17 00:00:00 2001
From: Chen Zhang <zhangch99@outlook.com>
Date: Fri, 31 Oct 2025 14:30:28 -0700
Subject: [PATCH 060/976] [Hybrid] A simpler algorithm to find
 kernel_block_size (#26476)

Signed-off-by: Chen Zhang <zhangch99@outlook.com>
---
 tests/v1/worker/test_gpu_model_runner.py |  53 +++++++
 vllm/v1/worker/gpu_model_runner.py       | 169 ++++++++++++-----------
 vllm/v1/worker/utils.py                  |   6 +-
 3 files changed, 146 insertions(+), 82 deletions(-)

diff --git a/tests/v1/worker/test_gpu_model_runner.py b/tests/v1/worker/test_gpu_model_runner.py
index 9007436350be4..23ab70480fbb3 100644
--- a/tests/v1/worker/test_gpu_model_runner.py
+++ b/tests/v1/worker/test_gpu_model_runner.py
@@ -6,6 +6,7 @@ import pytest
 import torch
 
 from vllm.attention import Attention
+from vllm.attention.backends.abstract import MultipleOf
 from vllm.config import (
     CacheConfig,
     ModelConfig,
@@ -34,6 +35,7 @@ from vllm.v1.kv_cache_interface import (
 from vllm.v1.sample.metadata import SamplingMetadata
 from vllm.v1.worker.gpu_input_batch import InputBatch
 from vllm.v1.worker.gpu_model_runner import GPUModelRunner
+from vllm.v1.worker.utils import AttentionGroup
 
 BLOCK_SIZE = 16
 NUM_BLOCKS = 10
@@ -181,6 +183,57 @@ def _is_req_state_block_table_match(model_runner, req_id: str) -> bool:
     ).all()
 
 
+def _make_mock_backend_for_kernel_block_size(
+    supported_sizes: list[int | MultipleOf],
+):
+    class _MockBackend:
+        @staticmethod
+        def get_supported_kernel_block_size():
+            return supported_sizes
+
+    return _MockBackend()
+
+
+def _make_kv_cache_spec() -> FullAttentionSpec:
+    return FullAttentionSpec(block_size=1, num_kv_heads=1, head_size=1, dtype="float16")
+
+
+def test_select_common_block_size_prefers_manager_block_size():
+    backend_a = _make_mock_backend_for_kernel_block_size([MultipleOf(32)])
+    backend_b = _make_mock_backend_for_kernel_block_size([64, MultipleOf(16)])
+    attn_groups = [
+        AttentionGroup(backend_a, [], [], _make_kv_cache_spec(), 0),
+        AttentionGroup(backend_b, [], [], _make_kv_cache_spec(), 0),
+    ]
+
+    selected_size = GPUModelRunner.select_common_block_size(128, attn_groups)
+    assert selected_size == 128
+
+
+def test_select_common_block_size_uses_largest_shared_int():
+    backend_a = _make_mock_backend_for_kernel_block_size([128, 64])
+    backend_b = _make_mock_backend_for_kernel_block_size([64, 32])
+    attn_groups = [
+        AttentionGroup(backend_a, [], [], _make_kv_cache_spec(), 0),
+        AttentionGroup(backend_b, [], [], _make_kv_cache_spec(), 0),
+    ]
+
+    selected_size = GPUModelRunner.select_common_block_size(256, attn_groups)
+    assert selected_size == 64
+
+
+def test_select_common_block_size_no_valid_option():
+    backend_a = _make_mock_backend_for_kernel_block_size([64])
+    backend_b = _make_mock_backend_for_kernel_block_size([MultipleOf(16)])
+    attn_groups = [
+        AttentionGroup(backend_a, [], [], _make_kv_cache_spec(), 0),
+        AttentionGroup(backend_b, [], [], _make_kv_cache_spec(), 0),
+    ]
+
+    with pytest.raises(ValueError):
+        GPUModelRunner.select_common_block_size(48, attn_groups)
+
+
 def test_update_states_new_request(model_runner, dist_init):
     req_id = "req_0"
 
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index 747a7b377e401..ba852bb89f33d 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -3978,6 +3978,7 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
 
         def create_attn_groups(
             attn_backends_map: dict[AttentionGroupKey, list[str]],
+            kv_cache_group_id: int,
         ) -> list[AttentionGroup]:
             attn_groups: list[AttentionGroup] = []
             for (attn_backend, kv_cache_spec), layer_names in attn_backends_map.items():
@@ -3987,6 +3988,7 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
                     kv_cache_spec,
                     self.vllm_config,
                     self.device,
+                    kv_cache_group_id,
                     num_metadata_builders=1
                     if not self.parallel_config.enable_dbo
                     else 2,
@@ -4005,8 +4007,8 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
         # Resolve cudagraph_mode before actually initialize metadata_builders
         self._check_and_update_cudagraph_mode(attention_backend_set)
 
-        for attn_backends_map in attention_backend_maps:
-            self.attn_groups.append(create_attn_groups(attn_backends_map))
+        for i, attn_backend_map in enumerate(attention_backend_maps):
+            self.attn_groups.append(create_attn_groups(attn_backend_map, i))
 
         # Calculate reorder batch threshold (if needed)
         self.calculate_reorder_batch_threshold()
@@ -4156,87 +4158,81 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
             return
         self.reorder_batch_threshold = reduce(min_none_high, reorder_batch_thresholds)
 
-    def _find_compatible_block_sizes(
-        self,
-        kv_manager_block_size: int,
-        backend_cls: type[AttentionBackend],
-        return_all: bool = False,
-    ) -> list[int]:
-        """
-        Find compatible block sizes for a backend.
-
-        Args:
-            kv_manager_block_size: Physical block size of KV cache
-            backend_cls: Attention backend class
-            return_all: Return all compatible sizes if True, max size if False
-
-        Returns:
-            Compatible block size(s) based on return_all parameter
-
-        Raises:
-            ValueError: If no compatible block size found
-        """
-        supported_block_size = backend_cls.get_supported_kernel_block_size()
-        compatible_sizes = []
-
-        for block_size in supported_block_size:
-            if isinstance(block_size, int):
-                if kv_manager_block_size % block_size == 0:
-                    compatible_sizes.append(block_size)
-            elif (
-                isinstance(block_size, MultipleOf)
-                and kv_manager_block_size % block_size.base == 0
-            ):
-                compatible_sizes.append(kv_manager_block_size)
-
-        if not compatible_sizes:
-            raise ValueError(f"No compatible block size for {kv_manager_block_size}")
-
-        return compatible_sizes if return_all else [max(compatible_sizes)]
-
-    def _select_common_block_size(
-        self, kv_manager_block_size: int, attn_groups: list[AttentionGroup]
+    @staticmethod
+    def select_common_block_size(
+        kv_manager_block_size: int, attn_groups: list[AttentionGroup]
     ) -> int:
         """
-        Select common block size for all backends.
+        Select a block size that is supported by all backends and is a factor of
+        kv_manager_block_size.
+
+        If kv_manager_block_size is supported by all backends, return it directly.
+        Otherwise, return the max supported size.
 
         Args:
             kv_manager_block_size: Block size of KV cache
             attn_groups: List of attention groups
 
         Returns:
-            Block size supported by all backends,
-            prioritizing cache_config.block_size
+            The selected block size
 
         Raises:
-            ValueError: If no common block size found
+            ValueError: If no valid block size found
         """
-        all_backend_supports = []
 
-        for attn_group in attn_groups:
-            compatible_sizes = self._find_compatible_block_sizes(
-                kv_manager_block_size, attn_group.backend, return_all=True
-            )
-            supported_sizes = sorted(list(set(compatible_sizes)), reverse=True)
-            all_backend_supports.append(set(supported_sizes))
+        def block_size_is_supported(
+            backends: list[type[AttentionBackend]], block_size: int
+        ) -> bool:
+            """
+            Check if the block size is supported by all backends.
+            """
+            for backend in backends:
+                is_supported = False
+                for supported_size in backend.get_supported_kernel_block_size():
+                    if isinstance(supported_size, int):
+                        if block_size == supported_size:
+                            is_supported = True
+                    elif isinstance(supported_size, MultipleOf):
+                        if block_size % supported_size.base == 0:
+                            is_supported = True
+                    else:
+                        raise ValueError(f"Unknown supported size: {supported_size}")
+                if not is_supported:
+                    return False
+            return True
 
-        common_supported_sizes = set.intersection(*all_backend_supports)
+        backends = [group.backend for group in attn_groups]
 
-        if not common_supported_sizes:
-            error_msg = f"No common block size for {kv_manager_block_size}. "
-            for i, attn_group in enumerate(attn_groups):
-                supported = all_backend_supports[i]
-                error_msg += (
-                    f"Backend {attn_group.backend} supports: {sorted(supported)}. "
-                )
-            raise ValueError(error_msg)
+        # Case 1: if the block_size of kv cache manager is supported by all backends,
+        # return it directly
+        if block_size_is_supported(backends, kv_manager_block_size):
+            return kv_manager_block_size
 
-        if self.cache_config.block_size in common_supported_sizes:
-            return self.cache_config.block_size
+        # Case 2: otherwise, the block_size must be an `int`-format supported size of
+        # at least one backend. Iterate over all `int`-format supported sizes in
+        # descending order and return the first one that is supported by all backends.
+        # Simple proof:
+        # If the supported size b is in MultipleOf(x_i) format for all attention
+        # backends i, and b a factor of kv_manager_block_size, then
+        # kv_manager_block_size also satisfies MultipleOf(x_i) for all i. We will
+        # return kv_manager_block_size in case 1.
+        all_int_supported_sizes = set(
+            supported_size
+            for backend in backends
+            for supported_size in backend.get_supported_kernel_block_size()
+            if isinstance(supported_size, int)
+        )
 
-        return max(common_supported_sizes)
+        for supported_size in sorted(all_int_supported_sizes, reverse=True):
+            if kv_manager_block_size % supported_size != 0:
+                continue
+            if block_size_is_supported(backends, supported_size):
+                return supported_size
+        raise ValueError(f"No common block size for {kv_manager_block_size}. ")
 
-    def may_reinitialize_input_batch(self, kv_cache_config: KVCacheConfig) -> None:
+    def may_reinitialize_input_batch(
+        self, kv_cache_config: KVCacheConfig, kernel_block_sizes: list[int]
+    ) -> None:
         """
         Re-initialize the input batch if the block sizes are different from
         `[self.cache_config.block_size]`. This usually happens when there
@@ -4244,6 +4240,7 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
 
         Args:
             kv_cache_config: The KV cache configuration.
+            kernel_block_sizes: The kernel block sizes for each KV cache group.
         """
         block_sizes = [
             kv_cache_group.kv_cache_spec.block_size
@@ -4251,9 +4248,6 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
             if not isinstance(kv_cache_group.kv_cache_spec, EncoderOnlyAttentionSpec)
         ]
 
-        # Generate kernel_block_sizes that matches each block_size
-        kernel_block_sizes = self._prepare_kernel_block_sizes(kv_cache_config)
-
         if block_sizes != [self.cache_config.block_size] or kernel_block_sizes != [
             self.cache_config.block_size
         ]:
@@ -4354,7 +4348,7 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
                 # all backends in the group.
                 attn_groups = self.attn_groups[kv_cache_group_id]
                 kv_manager_block_size = kv_cache_group.kv_cache_spec.block_size
-                selected_kernel_size = self._select_common_block_size(
+                selected_kernel_size = self.select_common_block_size(
                     kv_manager_block_size, attn_groups
                 )
                 kernel_block_sizes.append(selected_kernel_size)
@@ -4372,6 +4366,7 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
         self,
         kv_cache_config: KVCacheConfig,
         kv_cache_raw_tensors: dict[str, torch.Tensor],
+        kernel_block_sizes: list[int],
     ) -> dict[str, torch.Tensor]:
         """
         Reshape the KV cache tensors to the desired shape and dtype.
@@ -4380,6 +4375,7 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
             kv_cache_config: The KV cache config
             kv_cache_raw_tensors: The KV cache buffer of each layer, with
                 correct size but uninitialized shape.
+            kernel_block_sizes: The kernel block sizes for each KV cache group.
         Returns:
             Dict[str, torch.Tensor]: A map between layer names to their
             corresponding memory buffer for KV cache.
@@ -4389,6 +4385,10 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
         for group in self._kv_cache_spec_attn_group_iterator():
             kv_cache_spec = group.kv_cache_spec
             attn_backend = group.backend
+            if group.kv_cache_group_id == len(kernel_block_sizes):
+                # There may be a last group for layers without kv cache.
+                continue
+            kernel_block_size = kernel_block_sizes[group.kv_cache_group_id]
             for layer_name in group.layer_names:
                 if layer_name in self.runner_only_attn_layers:
                     continue
@@ -4397,24 +4397,21 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
                 num_blocks = raw_tensor.numel() // kv_cache_spec.page_size_bytes
                 if isinstance(kv_cache_spec, AttentionSpec):
                     has_attn = True
-                    kv_manager_block_size = kv_cache_spec.block_size
-                    kernel_size_list = self._find_compatible_block_sizes(
-                        kv_manager_block_size, attn_backend, return_all=False
+                    num_blocks_per_kv_block = (
+                        kv_cache_spec.block_size // kernel_block_size
                     )
-                    kernel_size = kernel_size_list[0]
-                    num_blocks_per_kv_block = kv_manager_block_size // kernel_size
                     kernel_num_blocks = num_blocks * num_blocks_per_kv_block
 
                     kv_cache_shape = attn_backend.get_kv_cache_shape(
                         kernel_num_blocks,
-                        kernel_size,
+                        kernel_block_size,
                         kv_cache_spec.num_kv_heads,
                         kv_cache_spec.head_size,
                         cache_dtype_str=self.cache_config.cache_dtype,
                     )
                     dtype = kv_cache_spec.dtype
                     try:
-                        kv_cache_stride_order = attn_backend.get_kv_cache_stride_order()  # noqa: E501
+                        kv_cache_stride_order = attn_backend.get_kv_cache_stride_order()
                         assert len(kv_cache_stride_order) == len(kv_cache_shape)
                     except (AttributeError, NotImplementedError):
                         kv_cache_stride_order = tuple(range(len(kv_cache_shape)))
@@ -4497,13 +4494,15 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
                     )
 
     def initialize_kv_cache_tensors(
-        self, kv_cache_config: KVCacheConfig
+        self, kv_cache_config: KVCacheConfig, kernel_block_sizes: list[int]
     ) -> dict[str, torch.Tensor]:
         """
         Initialize the memory buffer for KV cache.
 
         Args:
             kv_cache_config: The KV cache config
+            kernel_block_sizes: The kernel block sizes for each KV cache group.
+
         Returns:
             Dict[str, torch.Tensor]: A map between layer names to their
             corresponding memory buffer for KV cache.
@@ -4512,7 +4511,7 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
         kv_cache_raw_tensors = self._allocate_kv_cache_tensors(kv_cache_config)
         # Change the memory buffer to the desired shape
         kv_caches = self._reshape_kv_cache_tensors(
-            kv_cache_config, kv_cache_raw_tensors
+            kv_cache_config, kv_cache_raw_tensors, kernel_block_sizes
         )
 
         # Set up cross-layer KV cache sharing
@@ -4571,9 +4570,17 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
         self.may_add_encoder_only_layers_to_kv_cache_config()
         self.maybe_add_kv_sharing_layers_to_kv_cache_groups(kv_cache_config)
         self.initialize_attn_backend(kv_cache_config)
+        # The kernel block size for all KV cache groups. For example, if
+        # kv_cache_manager uses block_size 256 for a given group, but the attention
+        # backends for that group only supports block_size 64, we will return
+        # kernel_block_size 64 and split the 256-token-block to 4 blocks with 64
+        # tokens each.
+        kernel_block_sizes = self._prepare_kernel_block_sizes(kv_cache_config)
         # Reinitialize need to after initialize_attn_backend
-        self.may_reinitialize_input_batch(kv_cache_config)
-        kv_caches = self.initialize_kv_cache_tensors(kv_cache_config)
+        self.may_reinitialize_input_batch(kv_cache_config, kernel_block_sizes)
+        kv_caches = self.initialize_kv_cache_tensors(
+            kv_cache_config, kernel_block_sizes
+        )
 
         if self.speculative_config and self.speculative_config.use_eagle():
             assert isinstance(self.drafter, EagleProposer)
diff --git a/vllm/v1/worker/utils.py b/vllm/v1/worker/utils.py
index 92baf0cb71368..396adbcfb289f 100644
--- a/vllm/v1/worker/utils.py
+++ b/vllm/v1/worker/utils.py
@@ -140,6 +140,7 @@ class AttentionGroup:
     metadata_builders: list[AttentionMetadataBuilder]
     layer_names: list[str]
     kv_cache_spec: KVCacheSpec
+    kv_cache_group_id: int
 
     @staticmethod
     def create_with_metadata_builders(
@@ -148,13 +149,16 @@ class AttentionGroup:
         kv_cache_spec: KVCacheSpec,
         vllm_config: VllmConfig,
         device: torch.device,
+        kv_cache_group_id: int,
         num_metadata_builders: int = 1,
     ) -> "AttentionGroup":
         metadata_builders = [
             backend.get_builder_cls()(kv_cache_spec, layer_names, vllm_config, device)
             for _ in range(num_metadata_builders)
         ]
-        return AttentionGroup(backend, metadata_builders, layer_names, kv_cache_spec)
+        return AttentionGroup(
+            backend, metadata_builders, layer_names, kv_cache_spec, kv_cache_group_id
+        )
 
     def get_metadata_builder(self, ubatch_id: int = 0) -> AttentionMetadataBuilder:
         assert len(self.metadata_builders) > ubatch_id

From 0cdbe7b744b7d3a46dc2443cd16b5ed3465e6776 Mon Sep 17 00:00:00 2001
From: Nick Hill <nhill@redhat.com>
Date: Fri, 31 Oct 2025 17:35:04 -0700
Subject: [PATCH 061/976] [Core] Async scheduling + structured outputs
 compatibility (#26866)

Signed-off-by: Nick Hill <nhill@redhat.com>
---
 tests/conftest.py                             |  3 +
 tests/v1/core/test_scheduler.py               |  9 ---
 ...nd_preempt.py => test_async_scheduling.py} | 14 +++-
 tests/v1/engine/test_engine_core.py           | 19 ++++-
 tests/v1/executor/test_executor.py            |  4 +-
 .../unit/test_kv_connector_lifecyle.py        |  2 -
 .../kv_connector/unit/test_nixl_connector.py  |  4 +-
 tests/v1/tpu/worker/test_tpu_model_runner.py  | 12 ---
 tests/v1/worker/test_gpu_model_runner.py      | 12 ---
 .../kv_transfer/kv_connector/utils.py         | 30 ++++---
 vllm/v1/core/sched/async_scheduler.py         |  8 ++
 vllm/v1/core/sched/interface.py               |  8 +-
 vllm/v1/core/sched/output.py                  | 17 ++--
 vllm/v1/core/sched/scheduler.py               | 31 +++-----
 vllm/v1/engine/core.py                        | 71 +++++++++++++----
 vllm/v1/executor/abstract.py                  | 36 ++++++---
 vllm/v1/executor/multiproc_executor.py        | 43 ++++++----
 vllm/v1/executor/ray_executor.py              | 37 ++++++++-
 vllm/v1/executor/ray_utils.py                 | 35 ++++----
 vllm/v1/structured_output/utils.py            | 37 +++++----
 vllm/v1/worker/gpu_model_runner.py            | 79 ++++++++++++++++---
 vllm/v1/worker/gpu_worker.py                  | 17 ++--
 vllm/v1/worker/tpu_model_runner.py            | 45 ++++++++---
 vllm/v1/worker/tpu_worker.py                  | 13 ++-
 vllm/v1/worker/worker_base.py                 | 24 +++++-
 25 files changed, 419 insertions(+), 191 deletions(-)
 rename tests/v1/e2e/{test_async_sched_and_preempt.py => test_async_scheduling.py} (91%)

diff --git a/tests/conftest.py b/tests/conftest.py
index 91155a72b16ca..41fda04a6c92d 100644
--- a/tests/conftest.py
+++ b/tests/conftest.py
@@ -6,6 +6,9 @@ from copy import deepcopy
 
 from tblib import pickling_support
 
+# Import fixture
+from tests.v1.entrypoints.conftest import sample_json_schema  # noqa
+
 # ruff: noqa
 
 # Install support for pickling exceptions so that we can nicely propagate
diff --git a/tests/v1/core/test_scheduler.py b/tests/v1/core/test_scheduler.py
index fba5772396829..92e3831b9c7a6 100644
--- a/tests/v1/core/test_scheduler.py
+++ b/tests/v1/core/test_scheduler.py
@@ -337,8 +337,6 @@ def test_stop_via_update_from_output():
         num_common_prefix_blocks=[],
         finished_req_ids=set(),
         free_encoder_mm_hashes=[],
-        structured_output_request_ids=[],
-        grammar_bitmask=None,
     )
 
     model_output = ModelRunnerOutput(
@@ -385,8 +383,6 @@ def test_stop_via_update_from_output():
         num_common_prefix_blocks=[],
         finished_req_ids=set(),
         free_encoder_mm_hashes=[],
-        structured_output_request_ids=[],
-        grammar_bitmask=None,
     )
 
     model_output = ModelRunnerOutput(
@@ -431,8 +427,6 @@ def test_stop_via_update_from_output():
         num_common_prefix_blocks=[],
         finished_req_ids=set(),
         free_encoder_mm_hashes=[],
-        structured_output_request_ids=[],
-        grammar_bitmask=None,
     )
 
     model_output = ModelRunnerOutput(
@@ -472,8 +466,6 @@ def test_stop_via_update_from_output():
         num_common_prefix_blocks=[],
         finished_req_ids=set(),
         free_encoder_mm_hashes=[],
-        structured_output_request_ids=[],
-        grammar_bitmask=None,
     )
 
     model_output = ModelRunnerOutput(
@@ -1988,7 +1980,6 @@ def test_schedule_skip_tokenizer_init():
         scheduler.add_request(request)
     output = scheduler.schedule()
     assert len(output.scheduled_new_reqs) == len(requests)
-    assert output.grammar_bitmask is None
 
 
 def test_schedule_skip_tokenizer_init_structured_output_request():
diff --git a/tests/v1/e2e/test_async_sched_and_preempt.py b/tests/v1/e2e/test_async_scheduling.py
similarity index 91%
rename from tests/v1/e2e/test_async_sched_and_preempt.py
rename to tests/v1/e2e/test_async_scheduling.py
index 15a1cc2558177..444afd5196dd8 100644
--- a/tests/v1/e2e/test_async_sched_and_preempt.py
+++ b/tests/v1/e2e/test_async_scheduling.py
@@ -7,6 +7,7 @@ import torch._dynamo.config as dynamo_config
 
 from vllm import SamplingParams
 from vllm.logprobs import Logprob
+from vllm.sampling_params import StructuredOutputsParams
 
 from ...conftest import VllmRunner
 from ...models.utils import check_outputs_equal
@@ -15,9 +16,12 @@ MODEL = "Qwen/Qwen3-0.6B"
 
 
 @dynamo_config.patch(cache_size_limit=16)
-def test_preempt_and_async_scheduling_e2e(monkeypatch: pytest.MonkeyPatch):
+def test_preempt_and_async_scheduling_e2e(
+    sample_json_schema, monkeypatch: pytest.MonkeyPatch
+):
     """Test consistency of combos of async scheduling, preemption,
-    uni/multiproc executor, and various sampling parameters."""
+    uni/multiproc executor, and various sampling parameters
+    including structured outputs."""
 
     first_prompt = (
         "The following numbers of the sequence "
@@ -35,6 +39,12 @@ def test_preempt_and_async_scheduling_e2e(monkeypatch: pytest.MonkeyPatch):
         dict(bad_words=["the", " the"]),
         dict(logprobs=2),
         dict(logprobs=2, presence_penalty=-1.0),
+        dict(structured_outputs=StructuredOutputsParams(json=sample_json_schema)),
+        dict(
+            structured_outputs=StructuredOutputsParams(json=sample_json_schema),
+            logprobs=2,
+            presence_penalty=-1.0,
+        ),
     ]
 
     default_params = dict(
diff --git a/tests/v1/engine/test_engine_core.py b/tests/v1/engine/test_engine_core.py
index becedb59f644d..534b60312fd19 100644
--- a/tests/v1/engine/test_engine_core.py
+++ b/tests/v1/engine/test_engine_core.py
@@ -248,7 +248,7 @@ def test_engine_core_concurrent_batches():
             self,
             scheduler_output,
             non_block=False,
-        ) -> Future[ModelRunnerOutput]:
+        ) -> Future[ModelRunnerOutput | None]:
             """Make execute_model non-blocking."""
 
             # DummyExecutor used only for testing async case.
@@ -263,6 +263,23 @@ def test_engine_core_concurrent_batches():
             # Use the thread pool instead of creating a new thread
             return self.thread_pool.submit(_execute)
 
+        def sample_tokens(
+            self, grammar_output, non_block=False
+        ) -> Future[ModelRunnerOutput]:
+            """Make sample_tokens non-blocking."""
+
+            # DummyExecutor used only for testing async case.
+            assert non_block
+
+            def _execute():
+                output = self.collective_rpc("sample_tokens", args=(grammar_output,))
+                # Make a copy because output[0] may be reused
+                # by the next batch.
+                return copy.deepcopy(output[0])
+
+            # Use the thread pool instead of creating a new thread
+            return self.thread_pool.submit(_execute)
+
         @property
         def max_concurrent_batches(self) -> int:
             return 2
diff --git a/tests/v1/executor/test_executor.py b/tests/v1/executor/test_executor.py
index 7293ad09a7176..56574124b2727 100644
--- a/tests/v1/executor/test_executor.py
+++ b/tests/v1/executor/test_executor.py
@@ -31,7 +31,9 @@ class CustomMultiprocExecutor(MultiprocExecutor):
         # Drop marker to show that this was run
         with open(".marker", "w"):
             ...
-        return super().collective_rpc(method, timeout, args, kwargs)
+        return super().collective_rpc(
+            method, timeout, args, kwargs, non_block, unique_reply_rank
+        )
 
 
 CustomMultiprocExecutorAsync = CustomMultiprocExecutor
diff --git a/tests/v1/kv_connector/unit/test_kv_connector_lifecyle.py b/tests/v1/kv_connector/unit/test_kv_connector_lifecyle.py
index b5c8f378be182..d0a6eeae6286d 100644
--- a/tests/v1/kv_connector/unit/test_kv_connector_lifecyle.py
+++ b/tests/v1/kv_connector/unit/test_kv_connector_lifecyle.py
@@ -26,8 +26,6 @@ def _make_empty_scheduler_output():
         num_common_prefix_blocks=[],
         finished_req_ids=set(),
         free_encoder_mm_hashes=[],
-        structured_output_request_ids=[],
-        grammar_bitmask=None,
         kv_connector_metadata=SharedStorageConnectorMetadata(),
     )
 
diff --git a/tests/v1/kv_connector/unit/test_nixl_connector.py b/tests/v1/kv_connector/unit/test_nixl_connector.py
index 44d8b3e331fdb..1f3fdafc644d8 100644
--- a/tests/v1/kv_connector/unit/test_nixl_connector.py
+++ b/tests/v1/kv_connector/unit/test_nixl_connector.py
@@ -981,9 +981,7 @@ def test_scheduler_kv_connector_stats_aggregation():
         scheduled_encoder_inputs={},
         num_common_prefix_blocks=[0],
         finished_req_ids=set(),
-        free_encoder_mm_hashes=set(),
-        structured_output_request_ids={},
-        grammar_bitmask=None,
+        free_encoder_mm_hashes=[],
     )
 
     engine_core_outputs = scheduler.update_from_output(scheduler_output, model_output)
diff --git a/tests/v1/tpu/worker/test_tpu_model_runner.py b/tests/v1/tpu/worker/test_tpu_model_runner.py
index 18aa599f1aaf7..7b3a07b4e12a5 100644
--- a/tests/v1/tpu/worker/test_tpu_model_runner.py
+++ b/tests/v1/tpu/worker/test_tpu_model_runner.py
@@ -92,8 +92,6 @@ def _schedule_new_request(*req_ids: str) -> SchedulerOutput:
         num_common_prefix_blocks=[],
         finished_req_ids=set(),
         free_encoder_mm_hashes=[],
-        structured_output_request_ids=[],
-        grammar_bitmask=None,
     )
 
 
@@ -171,8 +169,6 @@ def test_update_states_request_finished(model_runner):
         num_common_prefix_blocks=[],
         finished_req_ids={req_id},
         free_encoder_mm_hashes=[],
-        structured_output_request_ids=[],
-        grammar_bitmask=None,
     )
 
     model_runner._update_states(scheduler_output)
@@ -201,8 +197,6 @@ def test_update_states_request_resumed(model_runner):
         num_common_prefix_blocks=[],
         finished_req_ids=set(),
         free_encoder_mm_hashes=[],
-        structured_output_request_ids=[],
-        grammar_bitmask=None,
     )
 
     model_runner._update_states(scheduler_output)
@@ -230,8 +224,6 @@ def test_update_states_request_resumed(model_runner):
         num_common_prefix_blocks=[],
         finished_req_ids=set(),
         free_encoder_mm_hashes=[],
-        structured_output_request_ids=[],
-        grammar_bitmask=None,
     )
 
     model_runner._update_states(scheduler_output)
@@ -261,8 +253,6 @@ def test_update_states_no_changes(model_runner):
         num_common_prefix_blocks=[],
         finished_req_ids=set(),
         free_encoder_mm_hashes=[],
-        structured_output_request_ids=[],
-        grammar_bitmask=None,
     )
 
     model_runner._update_states(scheduler_output)
@@ -296,8 +286,6 @@ def test_update_states_request_unscheduled(model_runner):
         num_common_prefix_blocks=[],
         finished_req_ids=set(),
         free_encoder_mm_hashes=[],
-        structured_output_request_ids=[],
-        grammar_bitmask=None,
     )
 
     model_runner._update_states(scheduler_output)
diff --git a/tests/v1/worker/test_gpu_model_runner.py b/tests/v1/worker/test_gpu_model_runner.py
index 23ab70480fbb3..db0215511d322 100644
--- a/tests/v1/worker/test_gpu_model_runner.py
+++ b/tests/v1/worker/test_gpu_model_runner.py
@@ -152,8 +152,6 @@ def _schedule_new_request(*req_ids: str) -> SchedulerOutput:
         num_common_prefix_blocks=[],
         finished_req_ids=set(),
         free_encoder_mm_hashes=[],
-        structured_output_request_ids=[],
-        grammar_bitmask=None,
     )
 
 
@@ -269,8 +267,6 @@ def test_update_states_request_finished(model_runner, dist_init):
         num_common_prefix_blocks=[],
         finished_req_ids={req_id},
         free_encoder_mm_hashes=[],
-        structured_output_request_ids=[],
-        grammar_bitmask=None,
     )
 
     metadata_before = model_runner.input_batch.sampling_metadata
@@ -301,8 +297,6 @@ def test_update_states_request_resumed(model_runner, dist_init):
         num_common_prefix_blocks=[],
         finished_req_ids=set(),
         free_encoder_mm_hashes=[],
-        structured_output_request_ids=[],
-        grammar_bitmask=None,
     )
 
     model_runner._update_states(scheduler_output)
@@ -330,8 +324,6 @@ def test_update_states_request_resumed(model_runner, dist_init):
         num_common_prefix_blocks=[],
         finished_req_ids=set(),
         free_encoder_mm_hashes=[],
-        structured_output_request_ids=[],
-        grammar_bitmask=None,
     )
 
     metadata_before = model_runner.input_batch.sampling_metadata
@@ -423,8 +415,6 @@ def test_update_states_no_changes(model_runner, dist_init):
         num_common_prefix_blocks=[],
         finished_req_ids=set(),
         free_encoder_mm_hashes=[],
-        structured_output_request_ids=[],
-        grammar_bitmask=None,
     )
 
     metadata_before = model_runner.input_batch.sampling_metadata
@@ -460,8 +450,6 @@ def test_update_states_request_unscheduled(model_runner, dist_init):
         num_common_prefix_blocks=[],
         finished_req_ids=set(),
         free_encoder_mm_hashes=[],
-        structured_output_request_ids=[],
-        grammar_bitmask=None,
     )
 
     metadata_before = model_runner._update_states(scheduler_output)
diff --git a/vllm/distributed/kv_transfer/kv_connector/utils.py b/vllm/distributed/kv_transfer/kv_connector/utils.py
index 22af489a89b99..7464f8469c3b5 100644
--- a/vllm/distributed/kv_transfer/kv_connector/utils.py
+++ b/vllm/distributed/kv_transfer/kv_connector/utils.py
@@ -6,7 +6,7 @@ KV cache helper for store.
 
 from collections.abc import Sequence
 from concurrent.futures import CancelledError, Future
-from typing import TYPE_CHECKING, Literal, cast
+from typing import TYPE_CHECKING, Literal
 
 import torch
 
@@ -138,8 +138,11 @@ class KVOutputAggregator:
         return cls(connector.get_finished_count() or world_size)
 
     def aggregate(
-        self, outputs: list[ModelRunnerOutput], output_rank: int = 0
-    ) -> ModelRunnerOutput:
+        self, outputs: list[ModelRunnerOutput | None], output_rank: int = 0
+    ) -> ModelRunnerOutput | None:
+        if not outputs[output_rank]:
+            return None
+
         # Aggregate kv_connector_output from all workers
 
         def update_finished_set(
@@ -161,6 +164,7 @@ class KVOutputAggregator:
         aggregated_kv_connector_stats = None
         invalid_block_ids = set[int]()
         for model_runner_output in outputs:
+            assert model_runner_output is not None
             kv_output = model_runner_output.kv_connector_output
             if not kv_output:
                 continue
@@ -204,6 +208,7 @@ class KVOutputAggregator:
         # select output of the worker specified by output_rank
         output = outputs[output_rank]
 
+        assert output is not None
         output.kv_connector_output = KVConnectorOutput(
             finished_sending=finished_sending or None,
             finished_recving=finished_recving or None,
@@ -215,13 +220,16 @@ class KVOutputAggregator:
         return output
 
     def async_aggregate(
-        self, output_futures: Sequence[Future[ModelRunnerOutput]], output_rank: int = 0
-    ) -> Future[ModelRunnerOutput]:
+        self,
+        output_futures: Sequence[Future[ModelRunnerOutput | None]],
+        output_rank: int = 0,
+    ) -> Future[ModelRunnerOutput | None]:
         """Takes a list of futures and returns a single future which resolves
         to the respective list of outputs."""
-        result_future: Future[ModelRunnerOutput] = Future()
+        result_future: Future[ModelRunnerOutput | None] = Future()
 
         outputs: list[ModelRunnerOutput | None] = [None] * len(output_futures)
+        remaining = len(output_futures)
 
         def make_callback(idx):
             def callback(fut):
@@ -236,12 +244,10 @@ class KVOutputAggregator:
                     result_future.set_exception(e)
 
                 # this check assumes io_thread_pool uses a single thread
-                if all(outputs):
-                    result_future.set_result(
-                        self.aggregate(
-                            cast(list[ModelRunnerOutput], outputs), output_rank
-                        )
-                    )
+                nonlocal remaining
+                remaining -= 1
+                if not remaining:
+                    result_future.set_result(self.aggregate(outputs, output_rank))
 
             return callback
 
diff --git a/vllm/v1/core/sched/async_scheduler.py b/vllm/v1/core/sched/async_scheduler.py
index da6e4aa2996bb..0ad994c360b01 100644
--- a/vllm/v1/core/sched/async_scheduler.py
+++ b/vllm/v1/core/sched/async_scheduler.py
@@ -15,8 +15,12 @@ class AsyncScheduler(Scheduler):
         scheduler_output: SchedulerOutput,
     ) -> None:
         super()._update_after_schedule(scheduler_output)
+        pending_structured_output_tokens = False
         for req_id in scheduler_output.num_scheduled_tokens:
             request = self.requests[req_id]
+            pending_structured_output_tokens |= (
+                request.use_structured_output and request.num_output_placeholders > 0
+            )
             if (
                 request.num_computed_tokens
                 == request.num_tokens + request.num_output_placeholders
@@ -25,6 +29,10 @@ class AsyncScheduler(Scheduler):
                 # TODO(woosuk): Support speculative decoding.
                 request.num_output_placeholders += 1
 
+        scheduler_output.pending_structured_output_tokens = (
+            pending_structured_output_tokens
+        )
+
     def _update_request_with_output(
         self,
         request: Request,
diff --git a/vllm/v1/core/sched/interface.py b/vllm/v1/core/sched/interface.py
index c36483203343d..291d33c9bf989 100644
--- a/vllm/v1/core/sched/interface.py
+++ b/vllm/v1/core/sched/interface.py
@@ -6,7 +6,7 @@ from typing import TYPE_CHECKING, Optional
 
 if TYPE_CHECKING:
     from vllm.distributed.kv_transfer.kv_connector.v1 import KVConnectorBase_V1
-    from vllm.v1.core.sched.output import SchedulerOutput
+    from vllm.v1.core.sched.output import GrammarOutput, SchedulerOutput
     from vllm.v1.engine import EngineCoreOutputs
     from vllm.v1.metrics.stats import SchedulerStats
     from vllm.v1.outputs import DraftTokenIds, ModelRunnerOutput
@@ -40,6 +40,12 @@ class SchedulerInterface(ABC):
         """
         raise NotImplementedError
 
+    @abstractmethod
+    def get_grammar_bitmask(
+        self, scheduler_output: "SchedulerOutput"
+    ) -> "GrammarOutput | None":
+        raise NotImplementedError
+
     @abstractmethod
     def update_from_output(
         self,
diff --git a/vllm/v1/core/sched/output.py b/vllm/v1/core/sched/output.py
index cc6b89e2bf3f1..866136648bcba 100644
--- a/vllm/v1/core/sched/output.py
+++ b/vllm/v1/core/sched/output.py
@@ -181,12 +181,17 @@ class SchedulerOutput:
     # freed from the encoder cache.
     free_encoder_mm_hashes: list[str]
 
-    # ids of structured outputs requests included in the bitmask, in the
-    # same order as the corresponding stacked rows of the bitmask.
-    # There may be more than one row per request in the case of speculative decoding.
-    structured_output_request_ids: list[str]
-    # the bitmask for the whole batch
-    grammar_bitmask: "npt.NDArray[np.int32] | None"
+    # Whether the scheduled requests have all the output tokens they
+    # need to perform grammar bitmask computation.
+    pending_structured_output_tokens: bool = False
 
     # KV Cache Connector metadata.
     kv_connector_metadata: KVConnectorMetadata | None = None
+
+
+@dataclass
+class GrammarOutput:
+    # ids of structured output requests.
+    structured_output_request_ids: list[str]
+    # Bitmask ordered as structured_output_request_ids.
+    grammar_bitmask: "npt.NDArray[np.int32]"
diff --git a/vllm/v1/core/sched/scheduler.py b/vllm/v1/core/sched/scheduler.py
index 98c8f08b0aae8..f51744eb2640b 100644
--- a/vllm/v1/core/sched/scheduler.py
+++ b/vllm/v1/core/sched/scheduler.py
@@ -5,7 +5,7 @@ import itertools
 import time
 from collections import defaultdict
 from collections.abc import Iterable
-from typing import TYPE_CHECKING, Any
+from typing import Any
 
 from vllm.config import VllmConfig
 from vllm.distributed.kv_events import EventPublisherFactory, KVEventBatch
@@ -24,7 +24,12 @@ from vllm.v1.core.encoder_cache_manager import (
 )
 from vllm.v1.core.kv_cache_manager import KVCacheBlocks, KVCacheManager
 from vllm.v1.core.sched.interface import SchedulerInterface
-from vllm.v1.core.sched.output import CachedRequestData, NewRequestData, SchedulerOutput
+from vllm.v1.core.sched.output import (
+    CachedRequestData,
+    GrammarOutput,
+    NewRequestData,
+    SchedulerOutput,
+)
 from vllm.v1.core.sched.request_queue import SchedulingPolicy, create_request_queue
 from vllm.v1.core.sched.utils import check_stop, remove_all
 from vllm.v1.engine import EngineCoreEventType, EngineCoreOutput, EngineCoreOutputs
@@ -35,10 +40,6 @@ from vllm.v1.request import Request, RequestStatus
 from vllm.v1.spec_decode.metrics import SpecDecodingStats
 from vllm.v1.structured_output import StructuredOutputManager
 
-if TYPE_CHECKING:
-    import numpy as np
-    import numpy.typing as npt
-
 logger = init_logger(__name__)
 
 
@@ -619,9 +620,6 @@ class Scheduler(SchedulerInterface):
             scheduled_spec_decode_tokens,
             req_to_new_blocks,
         )
-        structured_output_request_ids, grammar_bitmask = self.get_grammar_bitmask(
-            num_scheduled_tokens.keys(), scheduled_spec_decode_tokens
-        )
 
         # Record the request ids that were scheduled in this step.
         self.prev_step_scheduled_req_ids.clear()
@@ -641,8 +639,6 @@ class Scheduler(SchedulerInterface):
             # the previous and the current steps.
             finished_req_ids=self.finished_req_ids,
             free_encoder_mm_hashes=self.encoder_cache_manager.get_freed_mm_hashes(),
-            structured_output_request_ids=structured_output_request_ids,
-            grammar_bitmask=grammar_bitmask,
         )
 
         # NOTE(Kuntai): this function is designed for multiple purposes:
@@ -872,9 +868,8 @@ class Scheduler(SchedulerInterface):
 
     def get_grammar_bitmask(
         self,
-        scheduled_request_ids: Iterable[str],
-        scheduled_spec_decode_tokens: dict[str, list[int]],
-    ) -> tuple[list[str], "npt.NDArray[np.int32] | None"]:
+        scheduler_output: SchedulerOutput,
+    ) -> GrammarOutput | None:
         # Collect list of scheduled request ids that use structured output.
         # The corresponding rows of the bitmask will be in this order.
         # PERF: in case of chunked prefill,
@@ -883,18 +878,18 @@ class Scheduler(SchedulerInterface):
         # cycle to fill in the bitmask, which could be a big no-op.
         structured_output_request_ids = [
             req_id
-            for req_id in scheduled_request_ids
+            for req_id in scheduler_output.num_scheduled_tokens
             if (req := self.requests.get(req_id)) and req.use_structured_output
         ]
         if not structured_output_request_ids:
-            return structured_output_request_ids, None
+            return None
 
         bitmask = self.structured_output_manager.grammar_bitmask(
             self.requests,
             structured_output_request_ids,
-            scheduled_spec_decode_tokens,
+            scheduler_output.scheduled_spec_decode_tokens,
         )
-        return structured_output_request_ids, bitmask
+        return GrammarOutput(structured_output_request_ids, bitmask)
 
     def update_from_output(
         self,
diff --git a/vllm/v1/engine/core.py b/vllm/v1/engine/core.py
index bfe87b718282c..78af197821e2e 100644
--- a/vllm/v1/engine/core.py
+++ b/vllm/v1/engine/core.py
@@ -12,7 +12,7 @@ from concurrent.futures import Future
 from contextlib import ExitStack, contextmanager
 from inspect import isclass, signature
 from logging import DEBUG
-from typing import Any, TypeVar
+from typing import Any, TypeVar, cast
 
 import msgspec
 import zmq
@@ -334,9 +334,12 @@ class EngineCore:
         if not self.scheduler.has_requests():
             return {}, False
         scheduler_output = self.scheduler.schedule()
-
+        future = self.model_executor.execute_model(scheduler_output, non_block=True)
+        grammar_output = self.scheduler.get_grammar_bitmask(scheduler_output)
         with self.log_error_detail(scheduler_output):
-            model_output = self.model_executor.execute_model(scheduler_output)
+            model_output = future.result()
+            if model_output is None:
+                model_output = self.model_executor.sample_tokens(grammar_output)
 
         engine_core_outputs = self.scheduler.update_from_output(
             scheduler_output, model_output
@@ -376,20 +379,47 @@ class EngineCore:
         assert len(batch_queue) < self.batch_queue_size
 
         model_executed = False
+        deferred_scheduler_output = None
         if self.scheduler.has_requests():
             scheduler_output = self.scheduler.schedule()
-            future = self.model_executor.execute_model(scheduler_output, non_block=True)
-            batch_queue.appendleft((future, scheduler_output))
-
+            exec_future = self.model_executor.execute_model(
+                scheduler_output, non_block=True
+            )
             model_executed = scheduler_output.total_num_scheduled_tokens > 0
-            if (
-                model_executed
-                and len(batch_queue) < self.batch_queue_size
-                and not batch_queue[-1][0].done()
-            ):
-                # Don't block on next worker response unless the queue is full
-                # or there are no more requests to schedule.
-                return None, True
+
+            if scheduler_output.pending_structured_output_tokens:
+                # We need to defer sampling until we have processed the model output
+                # from the prior step.
+                deferred_scheduler_output = scheduler_output
+                # Block-wait for execute to return (continues running async on the GPU).
+                with self.log_error_detail(scheduler_output):
+                    exec_result = exec_future.result()
+                    assert exec_result is None
+            else:
+                # We aren't waiting for any tokens, get any grammar output immediately.
+                grammar_output = self.scheduler.get_grammar_bitmask(scheduler_output)
+                # Block-wait for execute to return (continues running async on the GPU).
+                with self.log_error_detail(scheduler_output):
+                    exec_result = exec_future.result()
+
+                if exec_result is None:
+                    # Call sample tokens.
+                    future = self.model_executor.sample_tokens(
+                        grammar_output, non_block=True
+                    )
+                else:
+                    # No sampling required (e.g. all requests finished).
+                    future = cast(Future[ModelRunnerOutput], exec_future)
+                # Add this step's future to the queue.
+                batch_queue.appendleft((future, scheduler_output))
+                if (
+                    model_executed
+                    and len(batch_queue) < self.batch_queue_size
+                    and not batch_queue[-1][0].done()
+                ):
+                    # Don't block on next worker response unless the queue is full
+                    # or there are no more requests to schedule.
+                    return None, True
 
         elif not batch_queue:
             # Queue is empty. We should not reach here since this method should
@@ -405,6 +435,19 @@ class EngineCore:
         engine_core_outputs = self.scheduler.update_from_output(
             scheduler_output, model_output
         )
+
+        # NOTE(nick): We can either handle the deferred tasks here or save
+        # in a field and do it immediately once step_with_batch_queue is
+        # re-called. The latter slightly favors TTFT over TPOT/throughput.
+        if deferred_scheduler_output:
+            # We now have the tokens needed to compute the bitmask for the
+            # deferred request. Get the bitmask and call sample tokens.
+            grammar_output = self.scheduler.get_grammar_bitmask(
+                deferred_scheduler_output
+            )
+            future = self.model_executor.sample_tokens(grammar_output, non_block=True)
+            batch_queue.appendleft((future, deferred_scheduler_output))
+
         return engine_core_outputs, model_executed
 
     def shutdown(self):
diff --git a/vllm/v1/executor/abstract.py b/vllm/v1/executor/abstract.py
index ef7840e1796f7..d76c6107ad2ba 100644
--- a/vllm/v1/executor/abstract.py
+++ b/vllm/v1/executor/abstract.py
@@ -16,7 +16,7 @@ from vllm.logger import init_logger
 from vllm.lora.request import LoRARequest
 from vllm.tasks import SupportedTask
 from vllm.utils.import_utils import resolve_obj_by_qualname
-from vllm.v1.core.sched.output import SchedulerOutput
+from vllm.v1.core.sched.output import GrammarOutput, SchedulerOutput
 from vllm.v1.engine import ReconfigureDistributedRequest
 from vllm.v1.kv_cache_interface import KVCacheConfig, KVCacheSpec
 from vllm.v1.outputs import DraftTokenIds, ModelRunnerOutput
@@ -187,28 +187,44 @@ class Executor(ABC):
 
     @overload
     def execute_model(
-        self,
-        scheduler_output: SchedulerOutput,
-        non_block: Literal[False] = False,
-    ) -> ModelRunnerOutput:
+        self, scheduler_output: SchedulerOutput, non_block: Literal[False] = False
+    ) -> ModelRunnerOutput | None:
         pass
 
     @overload
     def execute_model(
-        self,
-        scheduler_output: SchedulerOutput,
-        non_block: Literal[True] = True,
-    ) -> Future[ModelRunnerOutput]:
+        self, scheduler_output: SchedulerOutput, non_block: Literal[True] = True
+    ) -> Future[ModelRunnerOutput | None]:
         pass
 
     def execute_model(
         self, scheduler_output: SchedulerOutput, non_block: bool = False
-    ) -> ModelRunnerOutput | Future[ModelRunnerOutput]:
+    ) -> ModelRunnerOutput | None | Future[ModelRunnerOutput | None]:
         output = self.collective_rpc(  # type: ignore[call-overload]
             "execute_model", args=(scheduler_output,), non_block=non_block
         )
         return output[0]
 
+    @overload
+    def sample_tokens(
+        self, grammar_output: GrammarOutput | None, non_block: Literal[False] = False
+    ) -> ModelRunnerOutput:
+        pass
+
+    @overload
+    def sample_tokens(
+        self, grammar_output: GrammarOutput | None, non_block: Literal[True] = True
+    ) -> Future[ModelRunnerOutput]:
+        pass
+
+    def sample_tokens(
+        self, grammar_output: GrammarOutput | None, non_block: bool = False
+    ) -> ModelRunnerOutput | Future[ModelRunnerOutput]:
+        output = self.collective_rpc(  # type: ignore[call-overload]
+            "sample_tokens", args=(grammar_output,), non_block=non_block
+        )
+        return output[0]
+
     def execute_dummy_batch(self) -> None:
         self.collective_rpc("execute_dummy_batch")
 
diff --git a/vllm/v1/executor/multiproc_executor.py b/vllm/v1/executor/multiproc_executor.py
index 4c58d5771c39b..999a3ba870ead 100644
--- a/vllm/v1/executor/multiproc_executor.py
+++ b/vllm/v1/executor/multiproc_executor.py
@@ -46,7 +46,7 @@ from vllm.utils.system_utils import (
     get_mp_context,
     set_process_title,
 )
-from vllm.v1.core.sched.output import SchedulerOutput
+from vllm.v1.core.sched.output import GrammarOutput, SchedulerOutput
 from vllm.v1.executor.abstract import Executor, FailureCallback
 from vllm.v1.outputs import AsyncModelRunnerOutput, DraftTokenIds, ModelRunnerOutput
 from vllm.v1.worker.worker_base import WorkerWrapperBase
@@ -132,15 +132,12 @@ class MultiprocExecutor(Executor):
                         uw.death_writer.close()
                 self._ensure_worker_termination([uw.proc for uw in unready_workers])
 
-        # For pipeline parallel, we use a thread pool for asynchronous
-        # execute_model.
-        if self.max_concurrent_batches > 1:
-            # Note: must use only 1 IO thread to keep dequeue sequence
-            # from the response queue
-            # _async_aggregate_workers_output also assumes a single IO thread
-            self.io_thread_pool = ThreadPoolExecutor(
-                max_workers=1, thread_name_prefix="mp_exec_io"
-            )
+        # Note: must use only 1 IO thread to keep dequeue sequence
+        # from the response queue.
+        # _async_aggregate_workers_output also assumes a single IO thread.
+        self.io_thread_pool = ThreadPoolExecutor(
+            max_workers=1, thread_name_prefix="mp_exec_io"
+        )
 
         self.output_rank = self._get_output_rank()
         self.has_connector = self.vllm_config.kv_transfer_config is not None
@@ -180,15 +177,27 @@ class MultiprocExecutor(Executor):
             self.failure_callback = callback
 
     def execute_model(  # type: ignore[override]
-        self,
-        scheduler_output: SchedulerOutput,
-        non_block: bool = False,
+        self, scheduler_output: SchedulerOutput, non_block: bool = False
+    ) -> ModelRunnerOutput | None | Future[ModelRunnerOutput | None]:
+        return self._execute_with_aggregation(
+            "execute_model", scheduler_output, non_block=non_block
+        )
+
+    def sample_tokens(  # type: ignore[override]
+        self, grammar_output: GrammarOutput | None, non_block: bool = False
     ) -> ModelRunnerOutput | Future[ModelRunnerOutput]:
+        return self._execute_with_aggregation(  # type: ignore[return-value]
+            "sample_tokens", grammar_output, non_block=non_block
+        )
+
+    def _execute_with_aggregation(
+        self, method: str, *args, non_block: bool = False
+    ) -> ModelRunnerOutput | None | Future[ModelRunnerOutput | None]:
         if not self.has_connector:
             # get output only from a single worker (output_rank)
             (output,) = self.collective_rpc(
-                "execute_model",
-                args=(scheduler_output,),
+                method,
+                args=args,
                 unique_reply_rank=self.output_rank,
                 non_block=non_block,
                 timeout=envs.VLLM_EXECUTE_MODEL_TIMEOUT_SECONDS,
@@ -197,8 +206,8 @@ class MultiprocExecutor(Executor):
 
         # get output from all workers
         outputs = self.collective_rpc(
-            "execute_model",
-            args=(scheduler_output,),
+            method,
+            args=args,
             non_block=non_block,
             timeout=envs.VLLM_EXECUTE_MODEL_TIMEOUT_SECONDS,
         )
diff --git a/vllm/v1/executor/ray_executor.py b/vllm/v1/executor/ray_executor.py
index a4823acc87642..4a69cca723ac9 100644
--- a/vllm/v1/executor/ray_executor.py
+++ b/vllm/v1/executor/ray_executor.py
@@ -19,7 +19,7 @@ from vllm.utils.network_utils import (
     get_ip,
     get_open_port,
 )
-from vllm.v1.core.sched.output import SchedulerOutput
+from vllm.v1.core.sched.output import GrammarOutput, SchedulerOutput
 from vllm.v1.engine import ReconfigureDistributedRequest, ReconfigureRankType
 from vllm.v1.executor.abstract import Executor
 from vllm.v1.executor.ray_utils import (
@@ -41,6 +41,9 @@ if TYPE_CHECKING:
 
 logger = init_logger(__name__)
 
+COMPLETED_NONE_FUTURE: Future[ModelRunnerOutput | None] = Future()
+COMPLETED_NONE_FUTURE.set_result(None)
+
 
 @dataclass
 class RayWorkerMetaData:
@@ -96,6 +99,8 @@ class RayDistributedExecutor(Executor):
         # KV connector setup
         self.has_connector = self.vllm_config.kv_transfer_config is not None
 
+        self.scheduler_output: SchedulerOutput | None = None
+
     @property
     def max_concurrent_batches(self) -> int:
         """Ray distributed executor supports pipeline parallelism,
@@ -381,22 +386,46 @@ class RayDistributedExecutor(Executor):
             self.shutdown()
 
     def execute_model(  # type: ignore[override]
-        self, scheduler_output: SchedulerOutput, non_block: bool = False
+        self,
+        scheduler_output: SchedulerOutput,
+        non_block: bool = False,
+    ) -> ModelRunnerOutput | None | Future[ModelRunnerOutput | None]:
+        if self.scheduler_output is not None:
+            raise RuntimeError(
+                "State error: sample_tokens() must be called "
+                "after execute_model() returns None."
+            )
+        self.scheduler_output = scheduler_output
+        return COMPLETED_NONE_FUTURE if non_block else None
+
+    def sample_tokens(  # type: ignore[override]
+        self,
+        grammar_output: "GrammarOutput | None",
+        non_block: bool = False,
     ) -> ModelRunnerOutput | Future[ModelRunnerOutput]:
         """Execute the model on the Ray workers.
 
+        The scheduler output to use should have been provided in
+        a prior call to execute_model().
+
         Args:
-            scheduler_output: The scheduler output to execute.
+            grammar_output: The structured outputs grammar bitmask, if applicable.
             non_block: If True, the method will return a Future.
 
         Returns:
             The model runner output.
         """
+        scheduler_output = self.scheduler_output
+        if scheduler_output is None:
+            return None  # noqa
+
+        self.scheduler_output = None
+
         # Build the compiled DAG for the first time.
         if self.forward_dag is None:  # type: ignore
             self.forward_dag = self._compiled_ray_dag(enable_asyncio=False)
 
-        refs = self.forward_dag.execute(scheduler_output)  # type: ignore
+        refs = self.forward_dag.execute((scheduler_output, grammar_output))  # type: ignore
 
         if not self.has_connector:
             # Get output only from a single worker (output_rank)
diff --git a/vllm/v1/executor/ray_utils.py b/vllm/v1/executor/ray_utils.py
index 9385e55b066f8..a282cdc9909db 100644
--- a/vllm/v1/executor/ray_utils.py
+++ b/vllm/v1/executor/ray_utils.py
@@ -19,7 +19,7 @@ from vllm.v1.outputs import AsyncModelRunnerOutput
 from vllm.v1.worker.worker_base import WorkerWrapperBase
 
 if TYPE_CHECKING:
-    from vllm.v1.core.sched.output import SchedulerOutput
+    from vllm.v1.core.sched.output import GrammarOutput, SchedulerOutput
     from vllm.v1.outputs import ModelRunnerOutput
 
 logger = init_logger(__name__)
@@ -82,36 +82,41 @@ try:
 
         def execute_model_ray(
             self,
-            scheduler_output: Union[
-                "SchedulerOutput", tuple["SchedulerOutput", "IntermediateTensors"]
-            ],
+            execute_model_input: tuple["SchedulerOutput", "GrammarOutput"]
+            | tuple["SchedulerOutput", "GrammarOutput", "IntermediateTensors"],
         ) -> Union[
-            "ModelRunnerOutput", tuple["SchedulerOutput", "IntermediateTensors"]
+            "ModelRunnerOutput",
+            tuple["SchedulerOutput", "GrammarOutput", "IntermediateTensors"],
         ]:
             # This method is used by Ray Compiled Graph to execute the model,
             # and it needs a special logic of self.setup_device_if_necessary()
             self.setup_device_if_necessary()
             assert self.worker is not None, "Worker is not initialized"
-            if isinstance(scheduler_output, tuple):
-                scheduler_output, intermediate_tensors = scheduler_output
+            if len(execute_model_input) == 3:
+                scheduler_output, grammar_output, intermediate_tensors = (
+                    execute_model_input
+                )
             else:
-                scheduler_output, intermediate_tensors = scheduler_output, None
+                scheduler_output, grammar_output = execute_model_input
+                intermediate_tensors = None
             assert self.worker.model_runner is not None
             output = self.worker.model_runner.execute_model(
                 scheduler_output, intermediate_tensors
             )
             if isinstance(output, IntermediateTensors):
-                output = scheduler_output, output
+                output = scheduler_output, grammar_output, output
             elif not get_pp_group().is_last_rank:
                 # Case where there are no scheduled requests
                 # but may still be finished requests.
                 assert not output or not output.req_ids
-                output = scheduler_output, None
-            # Ensure outputs crossing Ray compiled DAG are serializable.
-            # AsyncModelRunnerOutput holds CUDA events and cannot be
-            # pickled.
-            if isinstance(output, AsyncModelRunnerOutput):
-                output = output.get_output()
+                output = scheduler_output, grammar_output, None
+            elif output is None:
+                output = self.worker.model_runner.sample_tokens(grammar_output)
+                # Ensure outputs crossing Ray compiled DAG are serializable.
+                # AsyncModelRunnerOutput holds CUDA events and cannot be
+                # pickled.
+                if isinstance(output, AsyncModelRunnerOutput):
+                    output = output.get_output()
             return output
 
         def override_env_vars(self, vars: dict[str, str]):
diff --git a/vllm/v1/structured_output/utils.py b/vllm/v1/structured_output/utils.py
index ef9bae2367bed..d2d14fcfc4362 100644
--- a/vllm/v1/structured_output/utils.py
+++ b/vllm/v1/structured_output/utils.py
@@ -16,6 +16,7 @@ from diskcache import Cache
 import vllm.envs as envs
 from vllm.logger import init_logger
 from vllm.utils.import_utils import LazyLoader
+from vllm.v1.core.sched.output import GrammarOutput, SchedulerOutput
 
 if TYPE_CHECKING:
     import outlines_core as oc
@@ -24,7 +25,6 @@ if TYPE_CHECKING:
     import xgrammar as xgr
 
     from vllm.transformers_utils.tokenizer import AnyTokenizer
-    from vllm.v1.core.sched.output import SchedulerOutput
     from vllm.v1.worker.gpu_input_batch import InputBatch
 else:
     xgr = LazyLoader("xgr", globals(), "xgrammar")
@@ -47,6 +47,7 @@ CACHE = None
 
 def apply_grammar_bitmask(
     scheduler_output: SchedulerOutput,
+    grammar_output: GrammarOutput,
     input_batch: InputBatch,
     logits: torch.Tensor,
 ) -> None:
@@ -58,9 +59,9 @@ def apply_grammar_bitmask(
         input_batch (InputBatch): The input of model runner.
         logits (torch.Tensor): The output logits of model forward.
     """
-    grammar_bitmask = scheduler_output.grammar_bitmask
-    if grammar_bitmask is None:
-        return
+    # Serialization of np.ndarray is much more efficient than a tensor,
+    # so we receive it in that format.
+    grammar_bitmask = grammar_output.grammar_bitmask
 
     # We receive the structured output bitmask from the scheduler,
     # compacted to contain bitmasks only for structured output requests.
@@ -79,7 +80,7 @@ def apply_grammar_bitmask(
         cumulative_offset += len(
             scheduler_output.scheduled_spec_decode_tokens.get(req_id, [])
         )
-        if req_id in scheduler_output.structured_output_request_ids:
+        if req_id in grammar_output.structured_output_request_ids:
             struct_out_req_batch_indices[req_id] = logit_index
 
     out_indices = []
@@ -91,7 +92,7 @@ def apply_grammar_bitmask(
         dtype=grammar_bitmask.dtype,
     )
     cumulative_index = 0
-    for req_id in scheduler_output.structured_output_request_ids:
+    for req_id in grammar_output.structured_output_request_ids:
         num_spec_tokens = len(
             scheduler_output.scheduled_spec_decode_tokens.get(req_id, [])
         )
@@ -101,22 +102,28 @@ def apply_grammar_bitmask(
                 sorted_bitmask[logit_index + i] = grammar_bitmask[cumulative_index + i]
                 out_indices.append(logit_index + i)
         cumulative_index += 1 + num_spec_tokens
-    grammar_bitmask = sorted_bitmask
+
+    # Copy async to device as tensor.
+    grammar_bitmask = torch.from_numpy(sorted_bitmask).to(
+        logits.device, non_blocking=True
+    )
 
     # If the length of out indices and the logits have the same shape
     # we don't need to pass indices to the kernel,
     # since the bitmask is already aligned with the logits.
     skip_out_indices = len(out_indices) == logits.shape[0]
 
-    # Serialization of np.ndarray is much more efficient than a tensor,
-    # so we receive it in that format.
-    grammar_bitmask = torch.from_numpy(grammar_bitmask).contiguous()
+    index_tensor = None
+    if not skip_out_indices:
+        # xgrammar expects a python list of indices but it will actually work with
+        # a tensor. If we copy the tensor ourselves here we can do it in a non_blocking
+        # manner and there should be no cpu sync within xgrammar.
+        index_tensor = torch.tensor(
+            out_indices, dtype=torch.int32, device="cpu", pin_memory=True
+        )
+        index_tensor = index_tensor.to(logits.device, non_blocking=True)
 
-    xgr.apply_token_bitmask_inplace(
-        logits,
-        grammar_bitmask.to(logits.device, non_blocking=True),
-        indices=out_indices if not skip_out_indices else None,
-    )
+    xgr.apply_token_bitmask_inplace(logits, grammar_bitmask, indices=index_tensor)
 
 
 class OutlinesVocabulary:
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index ba852bb89f33d..66a9d72912618 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -109,6 +109,7 @@ from vllm.v1.outputs import (
     EMPTY_MODEL_RUNNER_OUTPUT,
     AsyncModelRunnerOutput,
     DraftTokenIds,
+    KVConnectorOutput,
     LogprobsLists,
     LogprobsTensors,
     ModelRunnerOutput,
@@ -150,7 +151,7 @@ from .utils import (
 
 if TYPE_CHECKING:
     from vllm.model_executor.model_loader.tensorizer import TensorizerConfig
-    from vllm.v1.core.sched.output import SchedulerOutput
+    from vllm.v1.core.sched.output import GrammarOutput, SchedulerOutput
 
 logger = init_logger(__name__)
 
@@ -218,6 +219,20 @@ class AsyncGPUModelRunnerOutput(AsyncModelRunnerOutput):
         return output
 
 
+class ExecuteModelState(NamedTuple):
+    """Ephemeral cached state transferred between execute_model() and
+    sample_tokens(), after execute_model() returns None."""
+
+    scheduler_output: "SchedulerOutput"
+    logits: torch.Tensor
+    spec_decode_metadata: SpecDecodeMetadata | None
+    spec_decode_common_attn_metadata: CommonAttentionMetadata | None
+    hidden_states: torch.Tensor
+    sample_hidden_states: torch.Tensor
+    aux_hidden_states: list[torch.Tensor] | None
+    kv_connector_output: KVConnectorOutput | None
+
+
 class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
     def __init__(
         self,
@@ -509,6 +524,9 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
             pin_memory=self.pin_memory,
         )
 
+        # Ephemeral state transferred between execute_model() and sample_tokens().
+        self.execute_model_state: ExecuteModelState | None = None
+
     def reset_mm_cache(self) -> None:
         if self.mm_budget:
             self.mm_budget.reset_cache()
@@ -2113,7 +2131,6 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
         num_input_tokens: int,  # Padded
         intermediate_tensors: IntermediateTensors | None = None,
     ) -> tuple[
-        int,
         torch.Tensor | None,
         torch.Tensor | None,
         torch.Tensor,
@@ -2207,7 +2224,6 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
             model_kwargs.update(encoder_inputs)
 
         return (
-            num_scheduled_tokens,
             input_ids,
             inputs_embeds,
             positions,
@@ -2425,13 +2441,19 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
         self,
         scheduler_output: "SchedulerOutput",
         intermediate_tensors: IntermediateTensors | None = None,
-    ) -> ModelRunnerOutput | AsyncModelRunnerOutput | IntermediateTensors:
+    ) -> ModelRunnerOutput | IntermediateTensors | None:
+        if self.execute_model_state is not None:
+            raise RuntimeError(
+                "State error: sample_tokens() must be called "
+                "after execute_model() returns None."
+            )
+        num_scheduled_tokens = scheduler_output.total_num_scheduled_tokens
         with record_function_or_nullcontext("Preprocess"):
             with self.synchronize_input_prep():
                 # Update persistent batch states.
                 self._update_states(scheduler_output)
 
-                if not scheduler_output.total_num_scheduled_tokens:
+                if not num_scheduled_tokens:
                     if not has_kv_transfer_group():
                         # Return empty ModelRunnerOutput if no work to do.
                         return EMPTY_MODEL_RUNNER_OUTPUT
@@ -2471,7 +2493,6 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
                 )
 
             (
-                num_scheduled_tokens,
                 input_ids,
                 inputs_embeds,
                 positions,
@@ -2559,6 +2580,7 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
                 # Rare case.
                 assert not self.is_pooling_model
 
+                sample_hidden_states = hidden_states[logits_indices]
                 if not get_pp_group().is_last_rank:
                     all_gather_tensors = {
                         "residual": not is_residual_scattered_for_sp(
@@ -2572,7 +2594,6 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
                     )
                     logits = None
                 else:
-                    sample_hidden_states = hidden_states[logits_indices]
                     logits = self.model.compute_logits(sample_hidden_states)
 
                 model_output_broadcast_data = {}
@@ -2585,9 +2606,45 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
                 assert model_output_broadcast_data is not None
                 logits = model_output_broadcast_data["logits"]
 
-            # Apply structured output bitmasks if present
-            if scheduler_output.structured_output_request_ids:
-                apply_grammar_bitmask(scheduler_output, self.input_batch, logits)
+        self.execute_model_state = ExecuteModelState(
+            scheduler_output,
+            logits,
+            spec_decode_metadata,
+            spec_decode_common_attn_metadata,
+            hidden_states,
+            sample_hidden_states,
+            aux_hidden_states,
+            kv_connector_output,
+        )
+        return None
+
+    @torch.inference_mode
+    def sample_tokens(
+        self, grammar_output: "GrammarOutput | None"
+    ) -> ModelRunnerOutput | AsyncModelRunnerOutput | IntermediateTensors:
+        if self.execute_model_state is None:
+            # Nothing to do (PP non-final rank case), output isn't used.
+            return None  # noqa
+
+        # Unpack ephemeral state.
+        (
+            scheduler_output,
+            logits,
+            spec_decode_metadata,
+            spec_decode_common_attn_metadata,
+            hidden_states,
+            sample_hidden_states,
+            aux_hidden_states,
+            kv_connector_output,
+        ) = self.execute_model_state
+        # Clear ephemeral state.
+        self.execute_model_state = None
+
+        # Apply structured output bitmasks if present.
+        if grammar_output is not None:
+            apply_grammar_bitmask(
+                scheduler_output, grammar_output, self.input_batch, logits
+            )
 
         with record_function_or_nullcontext("Sample"):
             sampler_output = self._sample(logits, spec_decode_metadata)
@@ -2646,7 +2703,7 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
                 sampler_output,
                 logits,
                 hidden_states,
-                num_scheduled_tokens,
+                scheduler_output.total_num_scheduled_tokens,
                 spec_decode_metadata,
             )
 
diff --git a/vllm/v1/worker/gpu_worker.py b/vllm/v1/worker/gpu_worker.py
index 5b11bdf5282fa..c2bf1419bebd7 100644
--- a/vllm/v1/worker/gpu_worker.py
+++ b/vllm/v1/worker/gpu_worker.py
@@ -6,6 +6,7 @@ import copy
 import gc
 import os
 from contextlib import AbstractContextManager, nullcontext
+from types import NoneType
 from typing import TYPE_CHECKING, Any
 
 import torch
@@ -37,6 +38,7 @@ from vllm.sequence import IntermediateTensors
 from vllm.tasks import SupportedTask
 from vllm.utils.mem_constants import GiB_bytes
 from vllm.utils.mem_utils import MemorySnapshot, memory_profiling
+from vllm.v1.core.sched.output import GrammarOutput
 from vllm.v1.engine import ReconfigureDistributedRequest, ReconfigureRankType
 from vllm.v1.kv_cache_interface import KVCacheConfig, KVCacheSpec
 from vllm.v1.outputs import (
@@ -508,11 +510,16 @@ class Worker(WorkerBase):
     def get_supported_tasks(self) -> tuple[SupportedTask, ...]:
         return self.model_runner.get_supported_tasks()
 
+    @torch.inference_mode()
+    def sample_tokens(
+        self, grammar_output: "GrammarOutput"
+    ) -> ModelRunnerOutput | AsyncModelRunnerOutput:
+        return self.model_runner.sample_tokens(grammar_output)
+
     @torch.inference_mode()
     def execute_model(
-        self,
-        scheduler_output: "SchedulerOutput",
-    ) -> ModelRunnerOutput | AsyncModelRunnerOutput | None:
+        self, scheduler_output: "SchedulerOutput"
+    ) -> ModelRunnerOutput | None:
         intermediate_tensors = None
         forward_pass = scheduler_output.total_num_scheduled_tokens > 0
         num_scheduled_tokens = scheduler_output.total_num_scheduled_tokens
@@ -531,13 +538,13 @@ class Worker(WorkerBase):
             )
 
         output = self.model_runner.execute_model(scheduler_output, intermediate_tensors)
-        if isinstance(output, (ModelRunnerOutput, AsyncModelRunnerOutput)):
+        if isinstance(output, (ModelRunnerOutput, NoneType)):
             return output
 
         assert isinstance(output, IntermediateTensors)
         parallel_config = self.vllm_config.parallel_config
         assert (
-            parallel_config.distributed_executor_backend != ("external_launcher")
+            parallel_config.distributed_executor_backend != "external_launcher"
             and not get_pp_group().is_last_rank
         )
 
diff --git a/vllm/v1/worker/tpu_model_runner.py b/vllm/v1/worker/tpu_model_runner.py
index 0ced138b940d0..0e34504a5e268 100644
--- a/vllm/v1/worker/tpu_model_runner.py
+++ b/vllm/v1/worker/tpu_model_runner.py
@@ -92,7 +92,7 @@ from .utils import (
 )
 
 if TYPE_CHECKING:
-    from vllm.v1.core.sched.output import SchedulerOutput
+    from vllm.v1.core.sched.output import GrammarOutput, SchedulerOutput
 
 logger = init_logger(__name__)
 
@@ -372,6 +372,11 @@ class TPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
         else:
             self.sample_from_logits_func = self.sample_from_logits
 
+        # For passing scheduler_output between successive
+        # execute_model() and sample_tokens() calls.
+        self.scheduler_output: SchedulerOutput | None = None
+        self.mm_embed_inputs: tuple[list[torch.Tensor], torch.Tensor] | None = None
+
     def reset_mm_cache(self) -> None:
         if self.mm_budget:
             self.mm_budget.reset_cache()
@@ -1078,7 +1083,12 @@ class TPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
         self,
         scheduler_output: "SchedulerOutput",
         intermediate_tensors: IntermediateTensors | None = None,
-    ) -> ModelRunnerOutput:
+    ) -> ModelRunnerOutput | None:
+        if self.scheduler_output is not None:
+            raise RuntimeError(
+                "State error: sample_tokens() must be called "
+                "after execute_model() returns None."
+            )
         # Update cached state
         self._update_states(scheduler_output)
         if not scheduler_output.total_num_scheduled_tokens:
@@ -1088,14 +1098,30 @@ class TPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
 
             return self.kv_connector_no_forward(scheduler_output, self.vllm_config)
 
+        mm_embed_inputs = None
         if self.supports_mm_inputs:
             # Run the multimodal encoder if any.
             self._execute_mm_encoder(scheduler_output)
             mm_embed_inputs = self._gather_mm_embeddings(scheduler_output)
-        else:
-            mm_embed_inputs = None
 
         torch_xla.sync(wait=False)
+
+        self.scheduler_output = scheduler_output
+        self.mm_embed_inputs = mm_embed_inputs
+        return None
+
+    @torch.no_grad()
+    def sample_tokens(
+        self, grammar_output: "GrammarOutput | None"
+    ) -> ModelRunnerOutput:
+        if self.scheduler_output is None:
+            # Nothing to do (PP non-final rank case), output isn't used.
+            return None  # noqa
+        scheduler_output = self.scheduler_output
+        mm_embed_inputs = self.mm_embed_inputs
+        self.scheduler_output = None
+        self.mm_embed_inputs = None
+
         # Prepare inputs, the requests might be split into multiple
         # executions, combine the result of each execution.
         start_index = 0
@@ -1131,9 +1157,9 @@ class TPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
             tpu_sampling_metadata = TPUSupportedSamplingMetadata.from_input_batch(
                 self.input_batch, padded_num_reqs, self.device
             )
-            if scheduler_output.grammar_bitmask is not None:
+            if grammar_output is not None:
                 require_struct_decoding, grammar_bitmask_padded, arange = (
-                    self.prepare_structured_decoding_input(logits, scheduler_output)
+                    self.prepare_structured_decoding_input(logits, grammar_output)
                 )
                 logits = self.structured_decode(
                     require_struct_decoding, grammar_bitmask_padded, logits, arange
@@ -1954,10 +1980,9 @@ class TPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
         return self.model.get_input_embeddings(*args, **kwargs)
 
     def prepare_structured_decoding_input(
-        self, logits: torch.Tensor, scheduler_output: "SchedulerOutput"
+        self, logits: torch.Tensor, grammar_output: "GrammarOutput"
     ) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
-        grammar_bitmask = scheduler_output.grammar_bitmask
-        assert grammar_bitmask is not None
+        grammar_bitmask = grammar_output.grammar_bitmask
         num_reqs, _ = logits.shape
 
         # Reset pre-allocated tensors
@@ -1965,7 +1990,7 @@ class TPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
         self.require_structured_out_cpu.zero_()
 
         cumulative_mask_idx = 0
-        for req_id in scheduler_output.structured_output_request_ids:
+        for req_id in grammar_output.structured_output_request_ids:
             if req_id not in self.input_batch.req_id_to_index:
                 continue
             batch_index = self.input_batch.req_id_to_index[req_id]
diff --git a/vllm/v1/worker/tpu_worker.py b/vllm/v1/worker/tpu_worker.py
index e867e3c07caa5..a716a9c3aa822 100644
--- a/vllm/v1/worker/tpu_worker.py
+++ b/vllm/v1/worker/tpu_worker.py
@@ -17,7 +17,6 @@ from vllm.distributed import (
 )
 from vllm.distributed.kv_transfer import (
     ensure_kv_transfer_initialized,
-    has_kv_transfer_group,
 )
 from vllm.logger import init_logger
 from vllm.lora.request import LoRARequest
@@ -27,7 +26,7 @@ from vllm.platforms.tpu import USE_TPU_INFERENCE
 from vllm.tasks import SupportedTask
 from vllm.utils.math_utils import cdiv
 from vllm.utils.torch_utils import STR_DTYPE_TO_TORCH_DTYPE
-from vllm.v1.core.sched.output import SchedulerOutput
+from vllm.v1.core.sched.output import GrammarOutput, SchedulerOutput
 from vllm.v1.kv_cache_interface import AttentionSpec, KVCacheConfig, KVCacheSpec
 from vllm.v1.outputs import ModelRunnerOutput
 from vllm.v1.utils import report_usage_stats
@@ -255,13 +254,13 @@ class TPUWorker:
             tpu_kv_cache_bytes = tpu_kv_cache_bytes * head_size // padded_head_size
         return int(tpu_kv_cache_bytes)
 
+    def sample_tokens(self, grammar_output: "GrammarOutput") -> ModelRunnerOutput:
+        return self.model_runner.sample_tokens(grammar_output)
+
     def execute_model(
-        self,
-        scheduler_output: "SchedulerOutput",
+        self, scheduler_output: "SchedulerOutput"
     ) -> ModelRunnerOutput | None:
-        output = self.model_runner.execute_model(scheduler_output)
-        # every worker's output is needed when kv_transfer_group is set up
-        return output if self.is_driver_worker or has_kv_transfer_group() else None
+        return self.model_runner.execute_model(scheduler_output)
 
     def profile(self, is_start: bool = True):
         if self.rank < 1:
diff --git a/vllm/v1/worker/worker_base.py b/vllm/v1/worker/worker_base.py
index 9162e2e85a517..30ea0ab77bd9e 100644
--- a/vllm/v1/worker/worker_base.py
+++ b/vllm/v1/worker/worker_base.py
@@ -20,10 +20,12 @@ from vllm.v1.kv_cache_interface import KVCacheSpec
 from vllm.v1.serial_utils import run_method
 
 if TYPE_CHECKING:
-    from vllm.v1.core.sched.output import SchedulerOutput
-    from vllm.v1.outputs import ModelRunnerOutput
+    from vllm.v1.core.sched.output import GrammarOutput, SchedulerOutput
+    from vllm.v1.outputs import AsyncModelRunnerOutput, ModelRunnerOutput
 else:
     SchedulerOutput = object
+    GrammarOutput = object
+    AsyncModelRunnerOutput = object
     ModelRunnerOutput = object
 
 logger = init_logger(__name__)
@@ -122,7 +124,21 @@ class WorkerBase:
         """Load model onto target device."""
         raise NotImplementedError
 
-    def execute_model(self, scheduler_output: SchedulerOutput) -> ModelRunnerOutput:
+    def execute_model(
+        self, scheduler_output: SchedulerOutput
+    ) -> ModelRunnerOutput | None:
+        """If this method returns None, sample_tokens should be called immediately after
+        to obtain the ModelRunnerOutput.
+
+        Note that this design may be changed in future if/when structured outputs
+        parallelism is re-architected.
+        """
+        raise NotImplementedError
+
+    def sample_tokens(
+        self, grammar_output: GrammarOutput
+    ) -> ModelRunnerOutput | AsyncModelRunnerOutput:
+        """Should be called immediately after execute_model iff it returned None."""
         raise NotImplementedError
 
     def get_cache_block_size_bytes(self) -> int:
@@ -344,7 +360,7 @@ class WorkerWrapperBase:
         scheduler_output: SchedulerOutput,
         *args,
         **kwargs,
-    ) -> ModelRunnerOutput:
+    ) -> ModelRunnerOutput | None:
         self._apply_mm_cache(scheduler_output)
 
         assert self.worker is not None

From bc4486d60962a0e251fe8d98fc26cfca206fd54c Mon Sep 17 00:00:00 2001
From: Jee Jee Li <pandaleefree@gmail.com>
Date: Sat, 1 Nov 2025 10:05:12 +0800
Subject: [PATCH 062/976] [Kernel] Enable FusedMoEModularKernel  support  bias
 (#27754)

Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>
---
 vllm/lora/layers/fused_moe.py                 | 43 +++++++------------
 vllm/model_executor/layers/fused_moe/layer.py |  2 -
 2 files changed, 15 insertions(+), 30 deletions(-)

diff --git a/vllm/lora/layers/fused_moe.py b/vllm/lora/layers/fused_moe.py
index 5a9fd35c2907a..275a2ed0c6813 100644
--- a/vllm/lora/layers/fused_moe.py
+++ b/vllm/lora/layers/fused_moe.py
@@ -15,9 +15,7 @@ from vllm.distributed.parallel_state import (
 from vllm.lora.layers.base import BaseLayerWithLoRA
 from vllm.model_executor.layers.fused_moe import FusedMoE
 from vllm.model_executor.layers.fused_moe.config import (
-    FUSED_MOE_UNQUANTIZED_CONFIG,
     _get_config_dtype_str,
-    mxfp4_w4a16_moe_quant_config,
 )
 from vllm.model_executor.layers.fused_moe.fused_marlin_moe import (
     modular_marlin_fused_moe,
@@ -26,13 +24,16 @@ from vllm.model_executor.layers.fused_moe.fused_moe import (
     modular_triton_fused_moe,
     try_get_optimal_moe_config,
 )
-from vllm.model_executor.layers.quantization.mxfp4 import Mxfp4Config
 
 
 class FusedMoEWithLoRA(BaseLayerWithLoRA):
     def __init__(self, base_layer: FusedMoE) -> None:
         super().__init__()
         self.base_layer = base_layer
+
+        assert not self.base_layer.use_ep, (
+            "EP support for Fused MoE LoRA is not implemented yet."
+        )
         self.tp_size = get_tensor_model_parallel_world_size()
         self.tp_rank = get_tensor_model_parallel_rank()
         self.device = base_layer.w2_weight.device
@@ -42,17 +43,8 @@ class FusedMoEWithLoRA(BaseLayerWithLoRA):
         moe_state_dict = {}
         top_k = self.base_layer.top_k
 
-        if self.base_layer.quant_config is None:
-            quant_config = FUSED_MOE_UNQUANTIZED_CONFIG
-        elif not isinstance(self.base_layer.quant_config, Mxfp4Config):
-            quant_config = self.base_layer.quant_config
-        else:
-            quant_config = mxfp4_w4a16_moe_quant_config(
-                w1_bias=self.base_layer.w13_bias,
-                w2_bias=self.base_layer.w2_bias,
-                w1_scale=self.base_layer.w13_weight_scale,
-                w2_scale=self.base_layer.w2_weight_scale,
-            )
+        self.base_layer.ensure_moe_quant_config_init()
+        quant_config = self.base_layer.quant_method.moe_quant_config
 
         m_fused_moe_fn = (
             modular_triton_fused_moe(
@@ -69,7 +61,6 @@ class FusedMoEWithLoRA(BaseLayerWithLoRA):
                 moe_state_dict["hidden_states"] = kwargs["hidden_states"]
                 moe_state_dict["topk_ids"] = kwargs["topk_ids"]
                 moe_state_dict["topk_weights"] = kwargs["topk_weights"]
-                moe_state_dict["global_num_experts"] = kwargs["global_num_experts"]
                 moe_state_dict["expert_map"] = kwargs["expert_map"]
                 moe_state_dict["apply_router_weight_on_input"] = kwargs[
                     "apply_router_weight_on_input"
@@ -86,7 +77,7 @@ class FusedMoEWithLoRA(BaseLayerWithLoRA):
                 hidden_states = moe_state_dict["hidden_states"]
                 topk_weights = moe_state_dict["topk_weights"]
                 curr_topk_ids = moe_state_dict["topk_ids"]
-                global_num_experts = moe_state_dict["global_num_experts"]
+
                 expert_map = moe_state_dict["expert_map"]
 
                 config_dtype = _get_config_dtype_str(
@@ -118,7 +109,7 @@ class FusedMoEWithLoRA(BaseLayerWithLoRA):
                     curr_topk_ids,
                     num_tokens,
                     config["BLOCK_SIZE_M"],
-                    global_num_experts,
+                    self.base_layer.local_num_experts,
                     max_loras,
                     expert_map,
                 )
@@ -236,14 +227,10 @@ class FusedMoEWithLoRA(BaseLayerWithLoRA):
     ) -> None:
         """Initializes lora matrices."""
 
-        assert not self.base_layer.use_ep, (
-            "EP support for Fused MoE LoRA is not implemented yet."
-        )
-
         self.w1_lora_a_stacked = torch.zeros(
             (
                 max_loras,
-                self.base_layer.global_num_experts,
+                self.base_layer.local_num_experts,
                 lora_config.max_lora_rank,
                 self.base_layer.hidden_size,
             ),
@@ -253,7 +240,7 @@ class FusedMoEWithLoRA(BaseLayerWithLoRA):
         self.w1_lora_b_stacked = torch.zeros(
             (
                 max_loras,
-                self.base_layer.global_num_experts,
+                self.base_layer.local_num_experts,
                 self.base_layer.intermediate_size_per_partition,
                 lora_config.max_lora_rank,
             ),
@@ -264,7 +251,7 @@ class FusedMoEWithLoRA(BaseLayerWithLoRA):
         self.w2_lora_a_stacked = torch.zeros(
             (
                 max_loras,
-                self.base_layer.global_num_experts,
+                self.base_layer.local_num_experts,
                 lora_config.max_lora_rank,
                 self.base_layer.intermediate_size_per_partition,
             ),
@@ -274,7 +261,7 @@ class FusedMoEWithLoRA(BaseLayerWithLoRA):
         self.w2_lora_b_stacked = torch.zeros(
             (
                 max_loras,
-                self.base_layer.global_num_experts,
+                self.base_layer.local_num_experts,
                 self.base_layer.hidden_size,
                 lora_config.max_lora_rank,
             ),
@@ -285,7 +272,7 @@ class FusedMoEWithLoRA(BaseLayerWithLoRA):
         self.w3_lora_a_stacked = torch.zeros(
             (
                 max_loras,
-                self.base_layer.global_num_experts,
+                self.base_layer.local_num_experts,
                 lora_config.max_lora_rank,
                 self.base_layer.hidden_size,
             ),
@@ -295,7 +282,7 @@ class FusedMoEWithLoRA(BaseLayerWithLoRA):
         self.w3_lora_b_stacked = torch.zeros(
             (
                 max_loras,
-                self.base_layer.global_num_experts,
+                self.base_layer.local_num_experts,
                 self.base_layer.intermediate_size_per_partition,
                 lora_config.max_lora_rank,
             ),
@@ -308,7 +295,7 @@ class FusedMoEWithLoRA(BaseLayerWithLoRA):
         self.lora_a_stacked = []
         self.lora_b_stacked = []
         for lora_id in range(max_loras):
-            for experts_id in range(self.base_layer.global_num_experts):
+            for experts_id in range(self.base_layer.local_num_experts):
                 # gate_proj,down_proj,up_proj
                 self.lora_a_stacked.append(self.w1_lora_a_stacked[lora_id][experts_id])
                 self.lora_a_stacked.append(self.w2_lora_a_stacked[lora_id][experts_id])
diff --git a/vllm/model_executor/layers/fused_moe/layer.py b/vllm/model_executor/layers/fused_moe/layer.py
index 7dbe4bc543941..46d351b48c5e8 100644
--- a/vllm/model_executor/layers/fused_moe/layer.py
+++ b/vllm/model_executor/layers/fused_moe/layer.py
@@ -672,8 +672,6 @@ class UnquantizedFusedMoEMethod(FusedMoEMethodBase, CustomOp):
                 apply_router_weight_on_input=apply_router_weight_on_input,
             )
         elif self.fused_experts is not None:
-            if self.moe.has_bias:
-                raise ValueError("FusedMoEModularKernel does not support bias.")
             result = self.fused_experts(
                 hidden_states=x,
                 w1=layer.w13_weight,

From 3a5de7d2d6e65b6580c3ceb905334843a7b6dd6f Mon Sep 17 00:00:00 2001
From: Jee Jee Li <pandaleefree@gmail.com>
Date: Sat, 1 Nov 2025 11:54:36 +0800
Subject: [PATCH 063/976] [Bugfix] Fix KDA output (#27905)

Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>
---
 vllm/model_executor/layers/kda.py | 5 ++---
 1 file changed, 2 insertions(+), 3 deletions(-)

diff --git a/vllm/model_executor/layers/kda.py b/vllm/model_executor/layers/kda.py
index 308bc8be1dece..26458f2e3c4da 100644
--- a/vllm/model_executor/layers/kda.py
+++ b/vllm/model_executor/layers/kda.py
@@ -259,7 +259,7 @@ class KimiDeltaAttention(nn.Module, MambaBase):
         hidden_states: torch.Tensor,
         positions: torch.Tensor,
         output: torch.Tensor,
-    ) -> torch.Tensor:
+    ) -> None:
         num_tokens = hidden_states.size(0)
         q = self.q_proj(hidden_states)[0]
         k = self.k_proj(hidden_states)[0]
@@ -291,8 +291,7 @@ class KimiDeltaAttention(nn.Module, MambaBase):
         )
         core_attn_out = self.o_norm(core_attn_out, g2)
         core_attn_out = rearrange(core_attn_out, "1 n h d -> n (h d)")
-
-        return self.o_proj(core_attn_out)[0]
+        output[:] = self.o_proj(core_attn_out)[0]
 
     def _forward(
         self,

From 7e2729b57e5c7420e945b6cf21850374195984c7 Mon Sep 17 00:00:00 2001
From: Yan Ma <yan.ma@intel.com>
Date: Sat, 1 Nov 2025 12:45:02 +0800
Subject: [PATCH 064/976] [Multimodal][XPU]Enable vision attn backend for xpu
 platform (#27525)

Signed-off-by: Yan Ma <yan.ma@intel.com>
Signed-off-by: Kunshang Ji <kunshang.ji@intel.com>
Co-authored-by: Yejing Lai <yejing.lai@intel.com>
Co-authored-by: Guancheng Fu <110874468+gc-fu@users.noreply.github.com>
Co-authored-by: Kunshang Ji <kunshang.ji@intel.com>
---
 vllm/_ipex_ops.py                        | 84 +++++++++++++++++-------
 vllm/attention/layer.py                  | 35 +++++-----
 vllm/attention/ops/vit_attn_wrappers.py  |  2 +-
 vllm/model_executor/models/qwen2_5_vl.py |  7 +-
 vllm/model_executor/models/qwen2_vl.py   |  5 +-
 vllm/platforms/xpu.py                    |  6 ++
 6 files changed, 88 insertions(+), 51 deletions(-)

diff --git a/vllm/_ipex_ops.py b/vllm/_ipex_ops.py
index 60ee0124c3d9c..95c17cb331f67 100644
--- a/vllm/_ipex_ops.py
+++ b/vllm/_ipex_ops.py
@@ -270,21 +270,23 @@ class ipex_ops:
 
     @staticmethod
     def flash_attn_varlen_func(
-        out: torch.Tensor,
         q: torch.Tensor,
         k: torch.Tensor,
         v: torch.Tensor,
         cu_seqlens_q: torch.Tensor,
-        seqused_k: torch.Tensor,  # we don't support this in ipex kernel
         max_seqlen_q: int,
         max_seqlen_k: int,
-        softmax_scale: float,
-        causal: bool,
-        block_table: torch.Tensor,
-        alibi_slopes: torch.Tensor | None,
+        softmax_scale: float | None = None,
+        causal: bool = False,
+        out: torch.Tensor | None = None,
+        block_table: torch.Tensor | None = None,
+        alibi_slopes: torch.Tensor | None = None,
         window_size: list[int] | None = None,
         softcap: float | None = 0.0,
+        seqused_k: torch.Tensor | None = None,
         cu_seqlens_k: torch.Tensor | None = None,
+        # passed in qwen vl
+        dropout_p: float = 0.0,
         # The following parameters are not used in ipex kernel currently,
         # we keep API compatible to CUDA's.
         scheduler_metadata=None,
@@ -295,31 +297,63 @@ class ipex_ops:
         num_splits=0,
         s_aux: torch.Tensor | None = None,
     ):
+        if out is None:
+            out = torch.empty(q.shape, dtype=q.dtype, device=q.device)
         real_window_size: tuple[int, int]
         if window_size is None:
             real_window_size = (-1, -1)
         else:
             assert len(window_size) == 2
             real_window_size = (window_size[0], window_size[1])
-        return ipex.llm.modules.PagedAttention.flash_attn_varlen_func(
-            out,
-            q.contiguous(),
-            k,
-            v,
-            cu_seqlens_q,
-            seqused_k,
-            max_seqlen_q,
-            max_seqlen_k,
-            softmax_scale,
-            causal,
-            block_table,
-            alibi_slopes,
-            softcap=softcap,
-            window_size_left=real_window_size[0],
-            window_size_right=real_window_size[1],
-            k_scale=1.0,
-            v_scale=1.0,
-        )
+
+        if block_table is None:
+            assert cu_seqlens_k is not None, (
+                "cu_seqlens_k can't be None when calling varlen_attention."
+            )
+            if softmax_scale is None:
+                softmax_scale = q.shape[-1] ** (-0.5)
+            ipex_ops.varlen_attention(
+                q.contiguous(),
+                k.contiguous(),
+                v.contiguous(),
+                out,
+                cu_seqlens_q,
+                cu_seqlens_k,
+                None,
+                max_seqlen_q,
+                max_seqlen_k,
+                0.0,
+                softmax_scale,
+                False,
+                causal,
+                False,
+                None,
+                real_window_size[0],
+                real_window_size[1],
+                -1,
+            )
+            return out
+        else:
+            return ipex.llm.modules.PagedAttention.flash_attn_varlen_func(
+                out,
+                q.contiguous(),
+                k,
+                v,
+                cu_seqlens_q,
+                seqused_k,
+                max_seqlen_q,
+                max_seqlen_k,
+                softmax_scale,
+                causal,
+                block_table,
+                alibi_slopes,
+                sink=s_aux,
+                softcap=softcap,
+                window_size_left=real_window_size[0],
+                window_size_right=real_window_size[1],
+                k_scale=1.0,
+                v_scale=1.0,
+            )
 
     @staticmethod
     def get_scheduler_metadata(
diff --git a/vllm/attention/layer.py b/vllm/attention/layer.py
index 22eaa22b8b385..17e025155a431 100644
--- a/vllm/attention/layer.py
+++ b/vllm/attention/layer.py
@@ -123,6 +123,11 @@ def maybe_get_vit_flash_attn_backend(
         ):
             attn_backend = _Backend.FLASH_ATTN
             use_upstream_fa = True
+    elif current_platform.is_xpu():
+        assert attn_backend == _Backend.FLASH_ATTN, (
+            "XPU platform only supports FLASH_ATTN as vision attention backend."
+        )
+        use_upstream_fa = False
     else:
         return _Backend.TORCH_SDPA, None
 
@@ -133,7 +138,7 @@ def maybe_get_vit_flash_attn_backend(
             if use_upstream_fa:
                 from flash_attn import flash_attn_varlen_func
             else:
-                from vllm.vllm_flash_attn import flash_attn_varlen_func
+                from vllm.attention.utils.fa_utils import flash_attn_varlen_func
     else:
         flash_attn_varlen_func = None
 
@@ -521,22 +526,18 @@ class MultiHeadAttention(nn.Module):
         # If vllm native fa is selected, we use it directly.
         use_upstream_fa = False
 
-        if current_platform.is_xpu():
-            # currently, only torch_sdpa is supported on xpu
-            self.attn_backend = _Backend.TORCH_SDPA
-        else:
-            self.attn_backend = (
-                backend
-                if backend
-                in {
-                    _Backend.TORCH_SDPA,
-                    _Backend.XFORMERS,
-                    _Backend.PALLAS,
-                    _Backend.ROCM_AITER_FA,
-                    _Backend.FLASH_ATTN,
-                }
-                else _Backend.TORCH_SDPA
-            )
+        self.attn_backend = (
+            backend
+            if backend
+            in {
+                _Backend.TORCH_SDPA,
+                _Backend.XFORMERS,
+                _Backend.PALLAS,
+                _Backend.ROCM_AITER_FA,
+                _Backend.FLASH_ATTN,
+            }
+            else _Backend.TORCH_SDPA
+        )
 
         self.attn_backend, self._flash_attn_varlen_func = (
             maybe_get_vit_flash_attn_backend(
diff --git a/vllm/attention/ops/vit_attn_wrappers.py b/vllm/attention/ops/vit_attn_wrappers.py
index f71f49a1a31b0..6cefe74416685 100644
--- a/vllm/attention/ops/vit_attn_wrappers.py
+++ b/vllm/attention/ops/vit_attn_wrappers.py
@@ -70,7 +70,7 @@ def flash_attn_maxseqlen_wrapper(
         if use_upstream_fa:
             from flash_attn import flash_attn_varlen_func
         else:
-            from vllm.vllm_flash_attn import flash_attn_varlen_func
+            from vllm.attention.utils.fa_utils import flash_attn_varlen_func
     q, k, v = (einops.rearrange(x, "b s ... -> (b s) ...") for x in [q, k, v])
     output = flash_attn_varlen_func(
         q,
diff --git a/vllm/model_executor/models/qwen2_5_vl.py b/vllm/model_executor/models/qwen2_5_vl.py
index 3d67653726bd8..3585783e4ccc3 100644
--- a/vllm/model_executor/models/qwen2_5_vl.py
+++ b/vllm/model_executor/models/qwen2_5_vl.py
@@ -364,6 +364,8 @@ class Qwen2_5_VisionAttention(nn.Module):
 
         if current_platform.is_rocm() and self.attn_backend == _Backend.FLASH_ATTN:
             self.use_upstream_fa = True
+        if current_platform.is_xpu():
+            self.use_upstream_fa = False
         self.is_flash_attn_backend = self.attn_backend in {
             _Backend.FLASH_ATTN,
             _Backend.ROCM_AITER_FA,
@@ -856,10 +858,7 @@ class Qwen2_5_VisionTransformer(nn.Module):
     ) -> tuple[torch.Tensor, torch.Tensor]:
         max_seqlen = torch.zeros([], device=cu_seqlens.device)
         seqlens = torch.zeros(1, device=cu_seqlens.device)
-        if (
-            self.attn_backend == _Backend.FLASH_ATTN
-            or self.attn_backend == _Backend.ROCM_AITER_FA
-        ):
+        if self.attn_backend in {_Backend.FLASH_ATTN, _Backend.ROCM_AITER_FA}:
             max_seqlen = (cu_seqlens[1:] - cu_seqlens[:-1]).max()
         elif self.attn_backend == _Backend.XFORMERS:
             seqlens = cu_seqlens[1:] - cu_seqlens[:-1]
diff --git a/vllm/model_executor/models/qwen2_vl.py b/vllm/model_executor/models/qwen2_vl.py
index f0d7e2e7d7eca..a81acf9f9a36d 100644
--- a/vllm/model_executor/models/qwen2_vl.py
+++ b/vllm/model_executor/models/qwen2_vl.py
@@ -789,10 +789,7 @@ class Qwen2VisionTransformer(nn.Module):
         self, cu_seqlens: torch.Tensor
     ) -> tuple[int | None, list[int] | None]:
         max_seqlen, seqlens = None, None
-        if (
-            self.attn_backend == _Backend.FLASH_ATTN
-            or self.attn_backend == _Backend.ROCM_AITER_FA
-        ):
+        if self.attn_backend in {_Backend.FLASH_ATTN, _Backend.ROCM_AITER_FA}:
             max_seqlen = (cu_seqlens[1:] - cu_seqlens[:-1]).max().item()
         elif self.attn_backend == _Backend.XFORMERS:
             seqlens = (cu_seqlens[1:] - cu_seqlens[:-1]).tolist()
diff --git a/vllm/platforms/xpu.py b/vllm/platforms/xpu.py
index cd65cba6b492c..07ab759e4baa6 100644
--- a/vllm/platforms/xpu.py
+++ b/vllm/platforms/xpu.py
@@ -115,6 +115,12 @@ class XPUPlatform(Platform):
         device_props = torch.xpu.get_device_properties(device_id)
         return device_props.total_memory
 
+    @classmethod
+    def get_vit_attn_backend(cls, head_size: int, dtype: torch.dtype) -> _Backend:
+        from vllm.attention.backends.registry import _Backend
+
+        return _Backend.FLASH_ATTN
+
     @classmethod
     def inference_mode(cls):
         return torch.no_grad()

From 29de3cdee4dd7f805931b459398b15c3b5f7057c Mon Sep 17 00:00:00 2001
From: yugong333 <yu3.gong@gmail.com>
Date: Fri, 31 Oct 2025 21:55:46 -0700
Subject: [PATCH 065/976] Adding SplitK in fused_moe_lora kernel (#27818)

Signed-off-by: Yu Gong <yu3.gong@gmail.com>
Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>
---
 vllm/lora/ops/triton_ops/fused_moe_lora_op.py | 14 +++++++++-----
 1 file changed, 9 insertions(+), 5 deletions(-)

diff --git a/vllm/lora/ops/triton_ops/fused_moe_lora_op.py b/vllm/lora/ops/triton_ops/fused_moe_lora_op.py
index e681f3882908e..15031f5e2f9e8 100644
--- a/vllm/lora/ops/triton_ops/fused_moe_lora_op.py
+++ b/vllm/lora/ops/triton_ops/fused_moe_lora_op.py
@@ -88,14 +88,17 @@ def _fused_moe_lora_kernel(
     grid_k = tl.cdiv(K, BLOCK_SIZE_K * SPLIT_K)
 
     # calculate pid_m,pid_n
+    pid_sk = pid % SPLIT_K
+    pid_m_n = pid // SPLIT_K
     num_pid_m = tl.cdiv(EM, BLOCK_SIZE_M)
     num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+
     num_pid_in_group = GROUP_SIZE_M * num_pid_n
-    group_id = pid // num_pid_in_group
+    group_id = pid_m_n // num_pid_in_group
     first_pid_m = group_id * GROUP_SIZE_M
     group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
-    pid_m = first_pid_m + ((pid % num_pid_in_group) % group_size_m)
-    pid_n = (pid % num_pid_in_group) // group_size_m
+    pid_m = first_pid_m + ((pid_m_n % num_pid_in_group) % group_size_m)
+    pid_n = (pid_m_n % num_pid_in_group) // group_size_m
 
     num_tokens_post_padded = tl.load(num_tokens_post_padded_ptr + lora_idx)
     if pid_m * BLOCK_SIZE_M >= num_tokens_post_padded:
@@ -113,7 +116,7 @@ def _fused_moe_lora_kernel(
     cur_c_ptr = c_ptr + (slice_id % num_slice_c) * slice_c_size
 
     offs_bn = (pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N).to(tl.int64)) % N
-    offs_k = tl.arange(0, BLOCK_SIZE_K)
+    offs_k = pid_sk * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K)
 
     offs_token_id = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M).to(tl.int64)
     token_ind = stride_tl * lora_idx + offs_token_id
@@ -131,7 +134,8 @@ def _fused_moe_lora_kernel(
         cur_b_ptr
         + lora_idx * stride_bl
         + expert_id * stride_be
-        + (offs_k[:, None] * stride_bk + offs_bn[None, :] * stride_bn)
+        + offs_k[:, None] * stride_bk
+        + offs_bn[None, :] * stride_bn
     )
 
     # accumulator

From 879a06579ea8a057c250e9b6cc4e632dabd87d2e Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Sat, 1 Nov 2025 13:11:07 +0800
Subject: [PATCH 066/976] [CI/Build] Bump transformers version (#27528)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>
Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Co-authored-by: Isotr0py <mozf@mail2.sysu.edu.cn>
Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 requirements/common.txt                             |  2 +-
 requirements/nightly_torch_test.txt                 |  2 +-
 requirements/test.in                                |  2 +-
 requirements/test.txt                               |  2 +-
 tests/models/multimodal/generation/test_maverick.py |  2 ++
 tests/models/registry.py                            | 12 ++++++------
 tests/models/test_transformers.py                   |  2 +-
 vllm/model_executor/models/moonvit.py               |  4 ++--
 vllm/model_executor/models/qwen2_vl.py              |  6 ++----
 9 files changed, 17 insertions(+), 17 deletions(-)

diff --git a/requirements/common.txt b/requirements/common.txt
index 81c4d6675006d..724360f8bc9e4 100644
--- a/requirements/common.txt
+++ b/requirements/common.txt
@@ -7,7 +7,7 @@ requests >= 2.26.0
 tqdm
 blake3
 py-cpuinfo
-transformers >= 4.56.0
+transformers >= 4.56.0, < 5
 tokenizers >= 0.21.1  # Required for fast incremental detokenization.
 protobuf # Required by LlamaTokenizer.
 fastapi[standard] >= 0.115.0 # Required by FastAPI's form models in the OpenAI API server's audio transcriptions endpoint.
diff --git a/requirements/nightly_torch_test.txt b/requirements/nightly_torch_test.txt
index 63c1908f024b3..d9c5d89c1d52f 100644
--- a/requirements/nightly_torch_test.txt
+++ b/requirements/nightly_torch_test.txt
@@ -29,7 +29,7 @@ opencv-python-headless >= 4.11.0 # required for video test
 datamodel_code_generator # required for minicpm3 test
 lm-eval[api] @ git+https://github.com/EleutherAI/lm-evaluation-harness.git@206b7722158f58c35b7ffcd53b035fdbdda5126d # required for model evaluation test
 mteb>=1.38.11, <2 # required for mteb test
-transformers==4.56.2
+transformers==4.57.1
 tokenizers==0.22.0
 schemathesis>=3.39.15 # Required for openai schema test.
 # quantization
diff --git a/requirements/test.in b/requirements/test.in
index b1ab599ff16e5..f57ec31277ce9 100644
--- a/requirements/test.in
+++ b/requirements/test.in
@@ -37,7 +37,7 @@ datamodel_code_generator # required for minicpm3 test
 # TODO: Use lm-eval[api]==0.4.10 once released
 lm-eval[api] @ git+https://github.com/EleutherAI/lm-evaluation-harness.git@206b7722158f58c35b7ffcd53b035fdbdda5126d # required for model evaluation test
 mteb[bm25s]>=1.38.11, <2 # required for mteb test
-transformers==4.56.2
+transformers==4.57.1
 tokenizers==0.22.0
 schemathesis>=3.39.15 # Required for openai schema test.
 # quantization
diff --git a/requirements/test.txt b/requirements/test.txt
index e54bb49fde684..a975f247065da 100644
--- a/requirements/test.txt
+++ b/requirements/test.txt
@@ -1196,7 +1196,7 @@ tqdm==4.66.6
     #   transformers
 tqdm-multiprocess==0.0.11
     # via lm-eval
-transformers==4.56.2
+transformers==4.57.1
     # via
     #   -r requirements/test.in
     #   genai-perf
diff --git a/tests/models/multimodal/generation/test_maverick.py b/tests/models/multimodal/generation/test_maverick.py
index fd3386ff67df2..6fc2efa418ddf 100644
--- a/tests/models/multimodal/generation/test_maverick.py
+++ b/tests/models/multimodal/generation/test_maverick.py
@@ -186,6 +186,8 @@ def create_reduced_config(
     if "text_config" in config_dict:
         original_text_layers = config_dict["text_config"]["num_hidden_layers"]
         config_dict["text_config"]["num_hidden_layers"] = text_layers
+        original_layer_types = config_dict["text_config"]["layer_types"]
+        config_dict["text_config"]["layer_types"] = original_layer_types[:text_layers]
         print(f"Reduced text layers from {original_text_layers} to {text_layers}")
 
         original_num_experts = config_dict["text_config"]["num_local_experts"]
diff --git a/tests/models/registry.py b/tests/models/registry.py
index 7b5977ec58e53..8e1dd4ba91f1d 100644
--- a/tests/models/registry.py
+++ b/tests/models/registry.py
@@ -882,27 +882,27 @@ _SPECULATIVE_DECODING_EXAMPLE_MODELS = {
 
 _TRANSFORMERS_BACKEND_MODELS = {
     "TransformersEmbeddingModel": _HfExamplesInfo(
-        "BAAI/bge-base-en-v1.5", min_transformers_version="4.57.0.dev0"
+        "BAAI/bge-base-en-v1.5", min_transformers_version="5.0.0"
     ),
     "TransformersForSequenceClassification": _HfExamplesInfo(
         "papluca/xlm-roberta-base-language-detection",
-        min_transformers_version="4.57.0.dev0",
+        min_transformers_version="5.0.0",
     ),
     "TransformersForCausalLM": _HfExamplesInfo(
         "hmellor/Ilama-3.2-1B", trust_remote_code=True
     ),
     "TransformersMultiModalForCausalLM": _HfExamplesInfo("BAAI/Emu3-Chat-hf"),
     "TransformersMoEForCausalLM": _HfExamplesInfo(
-        "allenai/OLMoE-1B-7B-0924", min_transformers_version="4.57.0.dev0"
+        "allenai/OLMoE-1B-7B-0924", min_transformers_version="5.0.0"
     ),
     "TransformersMultiModalMoEForCausalLM": _HfExamplesInfo(
-        "Qwen/Qwen3-VL-30B-A3B-Instruct", min_transformers_version="4.57.0.dev0"
+        "Qwen/Qwen3-VL-30B-A3B-Instruct", min_transformers_version="5.0.0"
     ),
     "TransformersMoEEmbeddingModel": _HfExamplesInfo(
-        "Qwen/Qwen3-30B-A3B", min_transformers_version="4.57.0.dev0"
+        "Qwen/Qwen3-30B-A3B", min_transformers_version="5.0.0"
     ),
     "TransformersMoEForSequenceClassification": _HfExamplesInfo(
-        "Qwen/Qwen3-30B-A3B", min_transformers_version="4.57.0.dev0"
+        "Qwen/Qwen3-30B-A3B", min_transformers_version="5.0.0"
     ),
     "TransformersMultiModalEmbeddingModel": _HfExamplesInfo("google/gemma-3-4b-it"),
     "TransformersMultiModalForSequenceClassification": _HfExamplesInfo(
diff --git a/tests/models/test_transformers.py b/tests/models/test_transformers.py
index d8a1aace83325..06e51df32d184 100644
--- a/tests/models/test_transformers.py
+++ b/tests/models/test_transformers.py
@@ -82,7 +82,7 @@ def test_models(
     from packaging.version import Version
 
     installed = Version(transformers.__version__)
-    required = Version("4.57.0.dev0")
+    required = Version("5.0.0")
     if model == "allenai/OLMoE-1B-7B-0924" and installed < required:
         pytest.skip(
             "MoE models with the Transformers backend require "
diff --git a/vllm/model_executor/models/moonvit.py b/vllm/model_executor/models/moonvit.py
index 96ec6e6b56acb..8017c947bf9ad 100644
--- a/vllm/model_executor/models/moonvit.py
+++ b/vllm/model_executor/models/moonvit.py
@@ -49,7 +49,7 @@ from functools import cached_property
 import torch
 import torch.nn as nn
 import torch.nn.functional as F
-from transformers.activations import ACT2FN, PytorchGELUTanh
+from transformers.activations import ACT2FN
 from transformers.modeling_utils import PreTrainedModel
 from transformers.utils import is_flash_attn_2_available
 
@@ -651,7 +651,7 @@ class MoonVitPretrainedModel(PreTrainedModel):
                 "num_heads": config.num_attention_heads,
                 "hidden_dim": config.hidden_size,
                 "mlp_dim": config.intermediate_size,
-                "activation": PytorchGELUTanh(),
+                "activation": ACT2FN["gelu_pytorch_tanh"],
                 "attn_bias": True,
                 "attn_implementation": config._attn_implementation,
             },
diff --git a/vllm/model_executor/models/qwen2_vl.py b/vllm/model_executor/models/qwen2_vl.py
index a81acf9f9a36d..1ec12bdb55dfe 100644
--- a/vllm/model_executor/models/qwen2_vl.py
+++ b/vllm/model_executor/models/qwen2_vl.py
@@ -34,7 +34,7 @@ import torch
 import torch.nn as nn
 import torch.nn.functional as F
 from einops import rearrange, repeat
-from transformers import AutoConfig, BatchFeature, PretrainedConfig
+from transformers import BatchFeature, PretrainedConfig
 from transformers.models.qwen2_vl import Qwen2VLImageProcessor, Qwen2VLProcessor
 from transformers.models.qwen2_vl.configuration_qwen2_vl import (
     Qwen2VLConfig,
@@ -1651,9 +1651,7 @@ class Tarsier2Processor(Qwen2VLProcessor):
 class Tarsier2ProcessingInfo(Qwen2VLProcessingInfo):
     def get_hf_config(self) -> Qwen2VLConfig:
         model_path = self.ctx.model_config.model
-        original_config = AutoConfig.from_pretrained(model_path)
-        config_dict = original_config.to_dict()
-        correct_config = Qwen2VLConfig.from_dict(config_dict)
+        correct_config = Qwen2VLConfig.from_pretrained(model_path)
 
         return correct_config
 

From e2347dbf58eff0fa705146cde80c5292e333548b Mon Sep 17 00:00:00 2001
From: TJian <tunjian.tan@embeddedllm.com>
Date: Fri, 31 Oct 2025 22:45:23 -0700
Subject: [PATCH 067/976] [Bugfix] [Model] Missing MRoPE function definition
 from `KeyeForConditionalGeneration` (#27895)

Signed-off-by: tjtanaa <tunjian.tan@embeddedllm.com>
---
 .../models/multimodal/generation/test_keye.py |  86 ++++++++
 vllm/model_executor/models/keye.py            | 185 ++++++++++++++++--
 2 files changed, 254 insertions(+), 17 deletions(-)
 create mode 100644 tests/models/multimodal/generation/test_keye.py

diff --git a/tests/models/multimodal/generation/test_keye.py b/tests/models/multimodal/generation/test_keye.py
new file mode 100644
index 0000000000000..6f98bde1d91ea
--- /dev/null
+++ b/tests/models/multimodal/generation/test_keye.py
@@ -0,0 +1,86 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from dataclasses import asdict
+from typing import NamedTuple
+
+import pytest
+from PIL.Image import Image
+from transformers import AutoProcessor
+
+from vllm import LLM, EngineArgs, SamplingParams
+from vllm.multimodal.utils import encode_image_base64
+
+MODEL_NAME = "Kwai-Keye/Keye-VL-8B-Preview"
+
+QUESTION = "What is the content of each image?"
+
+
+class ModelRequestData(NamedTuple):
+    engine_args: EngineArgs
+    prompt: str
+    image_data: list[Image]
+    stop_token_ids: list[int] | None = None
+    chat_template: str | None = None
+    sampling_params: SamplingParams | None = None
+
+
+@pytest.mark.core_model
+@pytest.mark.parametrize("question", [QUESTION])
+def test_keye_vl(
+    image_assets,
+    question: str,
+):
+    images = [asset.pil_image for asset in image_assets]
+
+    image_urls = [
+        f"data:image/jpeg;base64,{encode_image_base64(image)}" for image in images
+    ]
+
+    engine_args = EngineArgs(
+        model=MODEL_NAME,
+        trust_remote_code=True,
+        max_model_len=8192,
+        max_num_seqs=5,
+        limit_mm_per_prompt={"image": len(image_urls)},
+    )
+
+    placeholders = [{"type": "image", "image": url} for url in image_urls]
+    messages = [
+        {
+            "role": "user",
+            "content": [
+                *placeholders,
+                {"type": "text", "text": question},
+            ],
+        },
+    ]
+
+    processor = AutoProcessor.from_pretrained(MODEL_NAME, trust_remote_code=True)
+
+    prompt = processor.apply_chat_template(
+        messages, tokenize=False, add_generation_prompt=True
+    )
+
+    engine_args = asdict(engine_args) | {"seed": 42}
+    llm = LLM(**engine_args)
+
+    sampling_params = SamplingParams(
+        temperature=0.0, max_tokens=256, stop_token_ids=None
+    )
+
+    outputs = llm.generate(
+        {
+            "prompt": prompt,
+            "multi_modal_data": {"image": images},
+        },
+        sampling_params=sampling_params,
+    )
+
+    print("-" * 50)
+    for o in outputs:
+        generated_text = o.outputs[0].text
+        print(generated_text)
+        assert len(generated_text) > 10, (
+            f"Generated text is too short: {generated_text}"
+        )
+        print("-" * 50)
diff --git a/vllm/model_executor/models/keye.py b/vllm/model_executor/models/keye.py
index acfd51a6d0cc1..5f8659a3064eb 100644
--- a/vllm/model_executor/models/keye.py
+++ b/vllm/model_executor/models/keye.py
@@ -17,7 +17,9 @@ from transformers.modeling_outputs import BaseModelOutput, BaseModelOutputWithPo
 from transformers.utils import torch_int
 
 from vllm.attention.backends.registry import _Backend
-from vllm.attention.layer import check_upstream_fa_availability
+from vllm.attention.layer import (
+    maybe_get_vit_flash_attn_backend,
+)
 from vllm.config import VllmConfig
 from vllm.config.multimodal import BaseDummyOptions
 from vllm.distributed import get_tensor_model_parallel_world_size
@@ -56,12 +58,14 @@ from vllm.multimodal.processing import (
     PromptUpdate,
 )
 from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.platforms import current_platform
 from vllm.sequence import IntermediateTensors
 from vllm.utils.tensor_schema import TensorSchema, TensorShape
 
 from .interfaces import (
     MultiModalEmbeddings,
     SupportsLoRA,
+    SupportsMRoPE,
     SupportsMultiModal,
     SupportsPP,
 )
@@ -337,7 +341,10 @@ def apply_rotary_pos_emb_flashatt(
     cos = cos.chunk(2, dim=-1)[0].contiguous()
     sin = sin.chunk(2, dim=-1)[0].contiguous()
 
-    from vllm.vllm_flash_attn.layers.rotary import apply_rotary_emb
+    if current_platform.is_cuda():
+        from vllm.vllm_flash_attn.layers.rotary import apply_rotary_emb
+    elif current_platform.is_rocm():
+        from flash_attn.ops.triton.rotary import apply_rotary as apply_rotary_emb
 
     q_embed = apply_rotary_emb(q.float(), cos.float(), sin.float()).type_as(q)
     k_embed = apply_rotary_emb(k.float(), cos.float(), sin.float()).type_as(k)
@@ -398,18 +405,28 @@ class KeyeSiglipAttention(nn.Module):
             attn_backend_override=attn_backend_override,
         )
 
-        self.use_upstream_fa = False
-        if self.attn_backend != _Backend.FLASH_ATTN and check_upstream_fa_availability(
-            torch.get_default_dtype()
-        ):
-            self.attn_backend = _Backend.FLASH_ATTN
-            self.use_upstream_fa = True
+        self.attn_backend, self.flash_attn_varlen_func = (
+            maybe_get_vit_flash_attn_backend(
+                self.attn_backend,
+                use_upstream_fa=False,
+                attn_backend_override=attn_backend_override,
+            )
+        )
 
-        if self.attn_backend not in {_Backend.FLASH_ATTN, _Backend.XFORMERS}:
+        if self.attn_backend not in {
+            _Backend.FLASH_ATTN,
+            _Backend.XFORMERS,
+            _Backend.ROCM_AITER_FA,
+        }:
             raise RuntimeError(
                 f"Keye-VL does not support {self.attn_backend} backend now."
             )
 
+        self.is_flash_attn_backend = self.attn_backend in {
+            _Backend.FLASH_ATTN,
+            _Backend.ROCM_AITER_FA,
+        }
+
     def forward(
         self,
         hidden_states: torch.Tensor,
@@ -457,15 +474,10 @@ class KeyeSiglipAttention(nn.Module):
                 self.head_dim,
             )
 
-        if self.attn_backend == _Backend.FLASH_ATTN:
-            if self.use_upstream_fa:
-                from flash_attn import flash_attn_varlen_func
-            else:
-                from vllm.vllm_flash_attn import flash_attn_varlen_func
-
+        if self.is_flash_attn_backend:
             q, k, v = (rearrange(x, "b s ... -> (b s) ...") for x in [q, k, v])
 
-            output = flash_attn_varlen_func(
+            output = self.flash_attn_varlen_func(
                 q,
                 k,
                 v,
@@ -1542,7 +1554,7 @@ class BaseKeyeModule(nn.Module):
     dummy_inputs=KeyeDummyInputsBuilder,
 )
 class KeyeForConditionalGeneration(
-    BaseKeyeModule, SupportsMultiModal, SupportsLoRA, SupportsPP
+    BaseKeyeModule, SupportsMultiModal, SupportsLoRA, SupportsPP, SupportsMRoPE
 ):
     def _build_projector(
         self,
@@ -1611,3 +1623,142 @@ class KeyeForConditionalGeneration(
         return tuple(
             self._process_video_embeds(video_type, video_grid_thw, pixel_values_videos)
         )
+
+    def get_mrope_input_positions(
+        self,
+        input_tokens: list[int],
+        hf_config: PretrainedConfig,
+        image_grid_thw: list[list[int]] | torch.Tensor,
+        video_grid_thw: list[list[int]] | torch.Tensor,
+        context_len: int = 0,
+        seq_len: int | None = None,
+        second_per_grid_ts: list[float] | None = None,
+        audio_feature_lengths: torch.Tensor | None = None,
+        use_audio_in_video: bool = False,
+    ) -> tuple[torch.Tensor, int]:
+        if isinstance(video_grid_thw, list) and len(video_grid_thw) > 0:
+            video_grid_thw = video_grid_thw[0]
+        """Get mrope input positions and delta value (Keye series)."""
+
+        def split_thw(grid_thw: torch.Tensor | list[int]) -> list[list[int]]:
+            """
+            Split grid_thw along the t dimension.
+
+            Args:
+                grid_thw: shape [N, 3] tensor or nested list of [t, h, w].
+
+            Returns:
+                List of [1, h, w] rows, repeated t times for each original row.
+            """
+
+            if isinstance(grid_thw, list):
+                grid_thw = torch.tensor(grid_thw, dtype=torch.long)
+
+            if grid_thw.numel() == 0:
+                return []
+
+            t, hw = grid_thw[:, 0], grid_thw[:, 1:]
+            ones = torch.ones_like(hw[:, :1])  # [N,1]
+            out = torch.cat([ones, hw], dim=1).repeat_interleave(t, dim=0)
+            return out.tolist()
+
+        video_grid_thw = split_thw(video_grid_thw)
+
+        image_token_id = hf_config.image_token_id
+        video_token_id = hf_config.video_token_id
+        spatial_merge_size = hf_config.vision_config.spatial_merge_size
+
+        image_nums = len(image_grid_thw)
+        frame_nums = len(video_grid_thw)
+        llm_pos_ids_list: list = []
+
+        st = 0
+        remain_images, remain_frames = image_nums, frame_nums
+
+        image_index, video_index = 0, 0
+        for _ in range(image_nums + frame_nums):
+            if remain_images > 0:
+                try:
+                    ed_image = input_tokens.index(image_token_id, st)
+                except ValueError:
+                    ed_image = len(input_tokens) + 1
+            else:
+                ed_image = len(input_tokens) + 1
+            if remain_frames > 0:
+                try:
+                    ed_video = input_tokens.index(video_token_id, st)
+                except ValueError:
+                    ed_video = len(input_tokens) + 1
+            else:
+                ed_video = len(input_tokens) + 1
+
+            if ed_image < ed_video:
+                t, h, w = (
+                    image_grid_thw[image_index][0],
+                    image_grid_thw[image_index][1],
+                    image_grid_thw[image_index][2],
+                )
+                image_index += 1
+                remain_images -= 1
+                ed = ed_image
+            else:
+                t, h, w = (
+                    video_grid_thw[video_index][0],
+                    video_grid_thw[video_index][1],
+                    video_grid_thw[video_index][2],
+                )
+                video_index += 1
+                remain_frames -= 1
+                ed = ed_video
+
+            llm_grid_t, llm_grid_h, llm_grid_w = (
+                t,
+                h // spatial_merge_size,
+                w // spatial_merge_size,
+            )
+            text_len = ed - st
+
+            st_idx = llm_pos_ids_list[-1].max() + 1 if len(llm_pos_ids_list) > 0 else 0
+            llm_pos_ids_list.append(
+                torch.arange(text_len).view(1, -1).expand(3, -1) + st_idx
+            )
+
+            t_index = (
+                (
+                    torch.arange(llm_grid_t)
+                    .view(-1, 1)
+                    .expand(-1, llm_grid_h * llm_grid_w)
+                )
+                .long()
+                .flatten()
+            )
+
+            h_index = (
+                torch.arange(llm_grid_h)
+                .view(1, -1, 1)
+                .expand(llm_grid_t, -1, llm_grid_w)
+                .flatten()
+            )
+            w_index = (
+                torch.arange(llm_grid_w)
+                .view(1, 1, -1)
+                .expand(llm_grid_t, llm_grid_h, -1)
+                .flatten()
+            )
+            llm_pos_ids_list.append(
+                torch.stack([t_index, h_index, w_index]) + text_len + st_idx
+            )
+            st = ed + llm_grid_t * llm_grid_h * llm_grid_w
+
+        if st < len(input_tokens):
+            st_idx = llm_pos_ids_list[-1].max() + 1 if len(llm_pos_ids_list) > 0 else 0
+            text_len = len(input_tokens) - st
+            llm_pos_ids_list.append(
+                torch.arange(text_len).view(1, -1).expand(3, -1) + st_idx
+            )
+
+        llm_positions = torch.cat(llm_pos_ids_list, dim=1).reshape(3, -1)
+        mrope_position_delta = (llm_positions.max() + 1 - len(input_tokens)).item()
+        llm_positions = llm_positions[:, context_len:seq_len]
+
+        return llm_positions, mrope_position_delta

From e67511884970af818bab20af3782ccebe08c716b Mon Sep 17 00:00:00 2001
From: Yihua Cheng <yihua98@uchicago.edu>
Date: Sat, 1 Nov 2025 00:17:07 -0700
Subject: [PATCH 068/976] [Add] cmdline argument parsing for KV cache
 offloading modules (#27621)

Signed-off-by: ApostaC <yihua98@uchicago.edu>
Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 tests/v1/kv_connector/unit/test_config.py | 65 +++++++++++++++++++++++
 vllm/config/cache.py                      | 12 +++++
 vllm/config/vllm.py                       | 45 ++++++++++++++++
 vllm/engine/arg_utils.py                  | 21 +++++++-
 4 files changed, 142 insertions(+), 1 deletion(-)
 create mode 100644 tests/v1/kv_connector/unit/test_config.py

diff --git a/tests/v1/kv_connector/unit/test_config.py b/tests/v1/kv_connector/unit/test_config.py
new file mode 100644
index 0000000000000..6cf86f3d5c4ac
--- /dev/null
+++ b/tests/v1/kv_connector/unit/test_config.py
@@ -0,0 +1,65 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+"""Tests for KV cache offloading configuration."""
+
+import pytest
+
+from vllm.config import CacheConfig, KVTransferConfig, ParallelConfig, VllmConfig
+
+pytestmark = pytest.mark.cpu_test
+
+
+@pytest.mark.parametrize(
+    "kv_offloading_backend,kv_offloading_size,tp,pp,expected_backend,expected_bytes",
+    [
+        ("native", 4.0, 1, 1, "OffloadingConnector", 4.0 * (1 << 30)),
+        # bytes per rank: 8.0 GiB / (2 * 2) = 2.0 GiB
+        ("native", 8.0, 2, 2, "OffloadingConnector", 8.0 * (1 << 30) / 4),
+        ("lmcache", 4.0, 1, 1, "LMCacheConnectorV1", 4.0),
+        # size per rank: 8.0 GiB / (2 * 2) = 2.0 GiB
+        ("lmcache", 8.0, 2, 2, "LMCacheConnectorV1", 2.0),
+        (None, None, 1, 1, None, None),
+    ],
+)
+def test_kv_connector(
+    kv_offloading_backend, kv_offloading_size, tp, pp, expected_backend, expected_bytes
+):
+    kv_transfer_config = (
+        KVTransferConfig(kv_connector_extra_config={"existing_key": "existing_value"})
+        if expected_backend is not None
+        else None
+    )
+
+    vllm_config = VllmConfig(
+        cache_config=CacheConfig(
+            kv_offloading_backend=kv_offloading_backend,
+            kv_offloading_size=kv_offloading_size,
+        ),
+        kv_transfer_config=kv_transfer_config,
+        parallel_config=ParallelConfig(
+            tensor_parallel_size=tp, pipeline_parallel_size=pp
+        ),
+    )
+
+    # No KV transfer config expected
+    if expected_backend is None:
+        assert vllm_config.kv_transfer_config is expected_backend
+        return
+
+    kv_transfer_config = vllm_config.kv_transfer_config
+    kv_connector_extra_config = kv_transfer_config.kv_connector_extra_config
+
+    assert kv_transfer_config.kv_connector == expected_backend
+    assert kv_transfer_config.kv_role == "kv_both"
+
+    if kv_offloading_backend == "native":
+        assert kv_connector_extra_config["kv_bytes_per_rank"] == expected_bytes
+        assert kv_connector_extra_config["num_cpu_blocks"] == 0
+        # Existing config should be preserved
+        assert kv_connector_extra_config["existing_key"] == "existing_value"
+    elif kv_offloading_backend == "lmcache":
+        assert kv_connector_extra_config["lmcache.local_cpu"] is True
+        assert kv_connector_extra_config["lmcache.max_local_cpu_size"] == expected_bytes
+        # Existing config should be replaced
+        assert "existing_key" not in kv_connector_extra_config
diff --git a/vllm/config/cache.py b/vllm/config/cache.py
index d743d5aa9dd29..031df3091f1c6 100644
--- a/vllm/config/cache.py
+++ b/vllm/config/cache.py
@@ -24,6 +24,7 @@ BlockSize = Literal[1, 8, 16, 32, 64, 128, 256]
 CacheDType = Literal["auto", "bfloat16", "fp8", "fp8_e4m3", "fp8_e5m2", "fp8_inc"]
 MambaDType = Literal["auto", "float32"]
 PrefixCachingHashAlgo = Literal["sha256", "sha256_cbor"]
+KVOffloadingBackend = Literal["native", "lmcache"]
 
 
 @config
@@ -128,6 +129,17 @@ class CacheConfig:
     gpu_memory_utilization. Note that kv_cache_memory_bytes
     (when not-None) ignores gpu_memory_utilization"""
 
+    kv_offloading_size: float | None = None
+    """Size of the KV cache offloading buffer in GiB. When TP > 1, this is
+    the total buffer size summed across all TP ranks. By default, this is set
+    to None, which means no KV offloading is enabled. When set with
+    kv_offloading_backend, vLLM will enable KV cache offloading to CPU"""
+
+    kv_offloading_backend: KVOffloadingBackend | None = None
+    """The backend to use for KV cache offloading. Supported backends include
+    'native' (vLLM native CPU offloading), 'lmcache' This option must be used 
+    together with kv_offloading_size."""
+
     def compute_hash(self) -> str:
         """
         WARNING: Whenever a new field is added to this config,
diff --git a/vllm/config/vllm.py b/vllm/config/vllm.py
index 1acac70c32b03..ee91cb0ef5c36 100644
--- a/vllm/config/vllm.py
+++ b/vllm/config/vllm.py
@@ -289,6 +289,48 @@ class VllmConfig:
 
         return replace(self, model_config=model_config)
 
+    def _post_init_kv_transfer_config(self) -> None:
+        """Update KVTransferConfig based on top-level configs in VllmConfig.
+
+        Right now, this function reads the offloading settings from
+        CacheConfig and configures the KVTransferConfig accordingly.
+        """
+        if (kv_offloading_backend := self.cache_config.kv_offloading_backend) is None:
+            return
+
+        # If no KVTransferConfig is provided, create a default one.
+        if self.kv_transfer_config is None:
+            self.kv_transfer_config = KVTransferConfig()
+
+        if (kv_offloading_size := self.cache_config.kv_offloading_size) is None:
+            raise ValueError(
+                "You must set kv_offloading_size when kv_offloading_backend is set."
+            )
+        num_kv_ranks = (
+            self.parallel_config.tensor_parallel_size
+            * self.parallel_config.pipeline_parallel_size
+        )
+
+        if kv_offloading_backend == "native":
+            self.kv_transfer_config.kv_connector = "OffloadingConnector"
+            kv_bytes_per_rank = kv_offloading_size * (1 << 30) / num_kv_ranks
+
+            # NOTE(ApostaC): the actual calculation for num_cpu_blocks should be
+            # done after the model's KV cache is initialized
+            self.kv_transfer_config.kv_connector_extra_config.update(
+                {"kv_bytes_per_rank": kv_bytes_per_rank, "num_cpu_blocks": 0}
+            )
+        elif kv_offloading_backend == "lmcache":
+            self.kv_transfer_config.kv_connector = "LMCacheConnectorV1"
+            kv_gb_per_rank = kv_offloading_size / num_kv_ranks
+            self.kv_transfer_config.kv_connector_extra_config = {
+                "lmcache.local_cpu": True,
+                "lmcache.max_local_cpu_size": kv_gb_per_rank,
+            }
+
+        # This is the same for all backends
+        self.kv_transfer_config.kv_role = "kv_both"
+
     def __post_init__(self):
         """Verify configs are valid & consistent with each other."""
 
@@ -646,6 +688,9 @@ class VllmConfig:
             if "-quant_fp8" not in custom_ops:
                 custom_ops.append("+quant_fp8")
 
+        # Handle the KV connector configs
+        self._post_init_kv_transfer_config()
+
     def update_sizes_for_sequence_parallelism(self, possible_sizes: list) -> list:
         # remove the sizes that not multiple of tp_size when
         # enable sequence parallelism
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index b6f922a95519b..66c75d944ec8b 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -54,7 +54,13 @@ from vllm.config import (
     VllmConfig,
     get_attr_docs,
 )
-from vllm.config.cache import BlockSize, CacheDType, MambaDType, PrefixCachingHashAlgo
+from vllm.config.cache import (
+    BlockSize,
+    CacheDType,
+    KVOffloadingBackend,
+    MambaDType,
+    PrefixCachingHashAlgo,
+)
 from vllm.config.device import Device
 from vllm.config.model import (
     ConvertOption,
@@ -553,6 +559,11 @@ class EngineArgs:
 
     kv_sharing_fast_prefill: bool = CacheConfig.kv_sharing_fast_prefill
 
+    kv_offloading_size: float | None = CacheConfig.kv_offloading_size
+    kv_offloading_backend: KVOffloadingBackend | None = (
+        CacheConfig.kv_offloading_backend
+    )
+
     def __post_init__(self):
         # support `EngineArgs(compilation_config={...})`
         # without having to manually construct a
@@ -896,6 +907,12 @@ class EngineArgs:
         cache_group.add_argument(
             "--mamba-block-size", **cache_kwargs["mamba_block_size"]
         )
+        cache_group.add_argument(
+            "--kv-offloading-size", **cache_kwargs["kv_offloading_size"]
+        )
+        cache_group.add_argument(
+            "--kv-offloading-backend", **cache_kwargs["kv_offloading_backend"]
+        )
 
         # Multimodal related configs
         multimodal_kwargs = get_kwargs(MultiModalConfig)
@@ -1387,6 +1404,8 @@ class EngineArgs:
             mamba_cache_dtype=self.mamba_cache_dtype,
             mamba_ssm_cache_dtype=self.mamba_ssm_cache_dtype,
             mamba_block_size=self.mamba_block_size,
+            kv_offloading_size=self.kv_offloading_size,
+            kv_offloading_backend=self.kv_offloading_backend,
         )
 
         ray_runtime_env = None

From 2c0c7c39bdf78ff4cf99a93f67066435e1712cd8 Mon Sep 17 00:00:00 2001
From: ai-jz <156989844+ai-jz@users.noreply.github.com>
Date: Sat, 1 Nov 2025 01:04:52 -0700
Subject: [PATCH 069/976] feat(benchmarks): support HF model names in
 multi-turn benchmark (#27850)

---
 benchmarks/multi_turn/benchmark_serving_multi_turn.py | 2 --
 1 file changed, 2 deletions(-)

diff --git a/benchmarks/multi_turn/benchmark_serving_multi_turn.py b/benchmarks/multi_turn/benchmark_serving_multi_turn.py
index 67a085b40ed35..5d2ac66e5ab94 100644
--- a/benchmarks/multi_turn/benchmark_serving_multi_turn.py
+++ b/benchmarks/multi_turn/benchmark_serving_multi_turn.py
@@ -1429,8 +1429,6 @@ async def main() -> None:
     random.seed(args.seed)
     np.random.seed(args.seed)
 
-    if not os.path.exists(args.model):
-        raise OSError(f"Path does not exist: {args.model}")
     logger.info("Loading tokenizer")
     tokenizer = AutoTokenizer.from_pretrained(args.model)
 

From 799ce45cc160ffc0a3e1a0f958cc8e260b751808 Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Sat, 1 Nov 2025 10:02:23 +0000
Subject: [PATCH 070/976] [Docs] Mock all imports for docs (#27873)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 docs/mkdocs/hooks/generate_argparse.py | 60 ++++++++++++++++++++------
 requirements/docs.txt                  |  8 ----
 vllm/utils/cache.py                    |  4 +-
 3 files changed, 49 insertions(+), 23 deletions(-)

diff --git a/docs/mkdocs/hooks/generate_argparse.py b/docs/mkdocs/hooks/generate_argparse.py
index ea89108f01fc2..ce1c5c53cf35a 100644
--- a/docs/mkdocs/hooks/generate_argparse.py
+++ b/docs/mkdocs/hooks/generate_argparse.py
@@ -3,6 +3,7 @@
 import importlib
 import logging
 import sys
+import traceback
 from argparse import SUPPRESS, HelpFormatter
 from pathlib import Path
 from typing import Literal
@@ -16,7 +17,30 @@ ROOT_DIR = Path(__file__).parent.parent.parent.parent
 ARGPARSE_DOC_DIR = ROOT_DIR / "docs/argparse"
 
 sys.path.insert(0, str(ROOT_DIR))
+
+
+# Mock custom op code
+class MockCustomOp:
+    @staticmethod
+    def register(name):
+        def decorator(cls):
+            return cls
+
+        return decorator
+
+
+noop = lambda *a, **k: None
 sys.modules["vllm._C"] = MagicMock()
+sys.modules["vllm.model_executor.custom_op"] = MagicMock(CustomOp=MockCustomOp)
+sys.modules["vllm.utils.torch_utils"] = MagicMock(direct_register_custom_op=noop)
+
+# Mock any version checks by reading from compiled CI requirements
+with open(ROOT_DIR / "requirements/test.txt") as f:
+    VERSIONS = dict(line.strip().split("==") for line in f if "==" in line)
+importlib.metadata.version = lambda name: VERSIONS.get(name) or "0.0.0"
+
+# Make torch.nn.Parameter safe to inherit from
+sys.modules["torch.nn"] = MagicMock(Parameter=object)
 
 
 class PydanticMagicMock(MagicMock):
@@ -31,20 +55,17 @@ class PydanticMagicMock(MagicMock):
         return core_schema.any_schema()
 
 
-def auto_mock(module, attr, max_mocks=50):
+def auto_mock(module, attr, max_mocks=100):
     """Function that automatically mocks missing modules during imports."""
     logger.info("Importing %s from %s", attr, module)
     for _ in range(max_mocks):
         try:
             # First treat attr as an attr, then as a submodule
-            with patch("importlib.metadata.version", return_value="0.0.0"):
-                return getattr(
-                    importlib.import_module(module),
-                    attr,
-                    importlib.import_module(f"{module}.{attr}"),
-                )
-        except importlib.metadata.PackageNotFoundError as e:
-            raise e
+            return getattr(
+                importlib.import_module(module),
+                attr,
+                importlib.import_module(f"{module}.{attr}"),
+            )
         except ModuleNotFoundError as e:
             logger.info("Mocking %s for argparse doc generation", e.name)
             sys.modules[e.name] = PydanticMagicMock(name=e.name)
@@ -139,10 +160,19 @@ def create_parser(add_cli_args, **kwargs) -> FlexibleArgumentParser:
     Returns:
         FlexibleArgumentParser: A parser with markdown formatting for the class.
     """
-    parser = FlexibleArgumentParser(add_json_tip=False)
-    parser.formatter_class = MarkdownFormatter
-    with patch("vllm.config.DeviceConfig.__post_init__"):
-        _parser = add_cli_args(parser, **kwargs)
+    try:
+        parser = FlexibleArgumentParser(add_json_tip=False)
+        parser.formatter_class = MarkdownFormatter
+        with patch("vllm.config.DeviceConfig.__post_init__"):
+            _parser = add_cli_args(parser, **kwargs)
+    except ModuleNotFoundError as e:
+        # Auto-mock runtime imports
+        if tb_list := traceback.extract_tb(e.__traceback__):
+            path = Path(tb_list[-1].filename).relative_to(ROOT_DIR)
+            auto_mock(module=".".join(path.parent.parts), attr=path.stem)
+            return create_parser(add_cli_args, **kwargs)
+        else:
+            raise e
     # add_cli_args might be in-place so return parser if _parser is None
     return _parser or parser
 
@@ -184,3 +214,7 @@ def on_startup(command: Literal["build", "gh-deploy", "serve"], dirty: bool):
         with open(doc_path, "w", encoding="utf-8") as f:
             f.write(super(type(parser), parser).format_help())
         logger.info("Argparse generated: %s", doc_path.relative_to(ROOT_DIR))
+
+
+if __name__ == "__main__":
+    on_startup("build", False)
diff --git a/requirements/docs.txt b/requirements/docs.txt
index 00c314874016f..0fd6dbe22c512 100644
--- a/requirements/docs.txt
+++ b/requirements/docs.txt
@@ -9,12 +9,4 @@ mkdocs-git-revision-date-localized-plugin
 mkdocs-minify-plugin
 regex
 ruff
-
-# Required for argparse hook only
--f https://download.pytorch.org/whl/cpu
-cachetools
-cloudpickle
-py-cpuinfo
-msgspec
 pydantic
-torch
diff --git a/vllm/utils/cache.py b/vllm/utils/cache.py
index d5e08caa8a1ed..4338983f90601 100644
--- a/vllm/utils/cache.py
+++ b/vllm/utils/cache.py
@@ -3,7 +3,7 @@
 from collections import UserDict
 from collections.abc import Callable, Hashable, Iterator, KeysView, Mapping
 from types import MappingProxyType
-from typing import Generic, NamedTuple, TypeVar, cast, overload
+from typing import NamedTuple, TypeVar, cast, overload
 
 import cachetools
 
@@ -48,7 +48,7 @@ class CacheInfo(NamedTuple):
         )
 
 
-class LRUCache(cachetools.LRUCache[_K, _V], Generic[_K, _V]):
+class LRUCache(cachetools.LRUCache[_K, _V]):
     def __init__(self, capacity: float, getsizeof: Callable[[_V], float] | None = None):
         super().__init__(capacity, getsizeof)
 

From 30a14b034fa387470a512e8004527ad1c28af303 Mon Sep 17 00:00:00 2001
From: wangxiyuan <wangxiyuan1007@gmail.com>
Date: Sat, 1 Nov 2025 18:17:45 +0800
Subject: [PATCH 071/976] [V0 deprecation] Remove VLLM_USE_V1 usage in platform
 and v1 module (#27798)

Signed-off-by: wangxiyuan <wangxiyuan1007@gmail.com>
Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 vllm/platforms/cuda.py               | 190 ++++++++++++---------------
 vllm/platforms/interface.py          |   9 +-
 vllm/platforms/rocm.py               |  84 +++++-------
 vllm/platforms/tpu.py                |   4 -
 vllm/platforms/xpu.py                |   9 +-
 vllm/v1/engine/async_llm.py          |  16 ---
 vllm/v1/engine/llm_engine.py         |  11 +-
 vllm/v1/executor/uniproc_executor.py |   9 +-
 8 files changed, 128 insertions(+), 204 deletions(-)

diff --git a/vllm/platforms/cuda.py b/vllm/platforms/cuda.py
index cc06f034fba32..32734c3aba5ef 100644
--- a/vllm/platforms/cuda.py
+++ b/vllm/platforms/cuda.py
@@ -276,17 +276,12 @@ class CudaPlatformBase(Platform):
                     "FLASHMLA, FLASH_ATTN_MLA, or TRITON_MLA. Alternatively, set "
                     "VLLM_MLA_DISABLE=1 to disable MLA for this model."
                 )
-            if not use_v1:
-                raise RuntimeError(
-                    "MLA attention backends require the V1 engine. "
-                    "Set VLLM_USE_V1=1 to enable them."
-                )
 
             from vllm.attention.ops.flashmla import is_flashmla_dense_supported
             from vllm.attention.utils.fa_utils import flash_attn_supports_mla
 
             if use_sparse:
-                logger.info_once("Using Sparse MLA backend on V1 engine.")
+                logger.info_once("Using Sparse MLA backend.")
                 return (
                     "vllm.v1.attention.backends.mla.flashmla_sparse."
                     "FlashMLASparseBackend"
@@ -313,15 +308,13 @@ class CudaPlatformBase(Platform):
             )
 
             if use_cutlassmla:
-                logger.info_once(
-                    "Using Cutlass MLA backend on V1 engine.", scope="local"
-                )
+                logger.info_once("Using Cutlass MLA backend.", scope="local")
                 return "vllm.v1.attention.backends.mla.cutlass_mla.CutlassMLABackend"
             if use_flashinfermla:
                 from vllm.v1.attention.backends.utils import set_kv_cache_layout
 
                 set_kv_cache_layout("HND")
-                logger.info_once("Using FlashInfer MLA backend on V1 engine.")
+                logger.info_once("Using FlashInfer MLA backend.")
                 return (
                     "vllm.v1.attention.backends.mla.flashinfer_mla.FlashInferMLABackend"
                 )
@@ -333,116 +326,107 @@ class CudaPlatformBase(Platform):
                         block_size,
                     )
                 else:
-                    logger.info_once("Using FlashMLA backend on V1 engine.")
+                    logger.info_once("Using FlashMLA backend.")
                     return "vllm.v1.attention.backends.mla.flashmla.FlashMLABackend"
             if use_flashattn:
-                logger.info_once("Using FlashAttention MLA backend on V1 engine.")
+                logger.info_once("Using FlashAttention MLA backend.")
                 return (
                     "vllm.v1.attention.backends.mla.flashattn_mla.FlashAttnMLABackend"
                 )
             if use_triton:
-                logger.info_once("Using Triton MLA backend on V1 engine.")
+                logger.info_once("Using Triton MLA backend.")
                 return "vllm.v1.attention.backends.mla.triton_mla.TritonMLABackend"
-        if use_v1:
-            FLASHINFER_V1 = "vllm.v1.attention.backends.flashinfer.FlashInferBackend"  # noqa: E501
-            FLEX_ATTENTION_V1 = (
-                "vllm.v1.attention.backends.flex_attention.FlexAttentionBackend"  # noqa: E501
-            )
-            TRITON_ATTN = (
-                "vllm.v1.attention.backends.triton_attn.TritonAttentionBackend"  # noqa: E501
-            )
-            FLASH_ATTN_V1 = (
-                "vllm.v1.attention.backends.flash_attn.FlashAttentionBackend"  # noqa: E501
-            )
-            TREE_ATTN_V1 = "vllm.v1.attention.backends.tree_attn.TreeAttentionBackend"  # noqa: E501
-            XFORMERS_V1 = "vllm.v1.attention.backends.xformers.XFormersAttentionBackend"  # noqa: E501
 
-            use_fp8_kv_cache = kv_cache_dtype is not None and kv_cache_dtype.startswith(
-                "fp8"
-            )
+        FLASHINFER_V1 = "vllm.v1.attention.backends.flashinfer.FlashInferBackend"  # noqa: E501
+        FLEX_ATTENTION_V1 = (
+            "vllm.v1.attention.backends.flex_attention.FlexAttentionBackend"  # noqa: E501
+        )
+        TRITON_ATTN = "vllm.v1.attention.backends.triton_attn.TritonAttentionBackend"  # noqa: E501
+        FLASH_ATTN_V1 = "vllm.v1.attention.backends.flash_attn.FlashAttentionBackend"  # noqa: E501
+        TREE_ATTN_V1 = "vllm.v1.attention.backends.tree_attn.TreeAttentionBackend"  # noqa: E501
+        XFORMERS_V1 = "vllm.v1.attention.backends.xformers.XFormersAttentionBackend"  # noqa: E501
 
-            if selected_backend == _Backend.FLASHINFER:
-                logger.info_once("Using FlashInfer backend on V1 engine.")
-                if cls.has_device_capability(100):
-                    from vllm.v1.attention.backends.utils import set_kv_cache_layout
+        use_fp8_kv_cache = kv_cache_dtype is not None and kv_cache_dtype.startswith(
+            "fp8"
+        )
+
+        if selected_backend == _Backend.FLASHINFER:
+            logger.info_once("Using FlashInfer backend.")
+            if cls.has_device_capability(100):
+                from vllm.v1.attention.backends.utils import set_kv_cache_layout
+
+                set_kv_cache_layout("HND")
+            return FLASHINFER_V1
+        elif selected_backend == _Backend.FLEX_ATTENTION:
+            logger.info_once("Using FlexAttention backend.")
+            return FLEX_ATTENTION_V1
+        elif selected_backend == _Backend.TRITON_ATTN:
+            logger.info_once("Using Triton backend.")
+            return TRITON_ATTN
+        elif selected_backend == _Backend.FLASH_ATTN:
+            logger.info_once("Using Flash Attention backend.")
+            return FLASH_ATTN_V1
+        elif selected_backend == _Backend.TREE_ATTN:
+            logger.info_once("Using Tree Attention backend.")
+            return TREE_ATTN_V1
+        elif selected_backend == _Backend.XFORMERS:
+            logger.info_once("Using XFormers backend.")
+            return XFORMERS_V1
+
+        from vllm.attention.selector import is_attn_backend_supported
+
+        # Default backends for V1 engine
+        # Prefer FlashInfer for Blackwell GPUs if installed
+        if cls.is_device_capability(100):
+            if is_default_backend_supported := is_attn_backend_supported(
+                FLASHINFER_V1, head_size, dtype
+            ):
+                from vllm.v1.attention.backends.utils import set_kv_cache_layout
+
+                logger.info_once(
+                    "Using FlashInfer backend with HND KV cache layout on "
+                    "V1 engine by default for Blackwell (SM 10.0) GPUs."
+                )
+                set_kv_cache_layout("HND")
 
-                    set_kv_cache_layout("HND")
                 return FLASHINFER_V1
-            elif selected_backend == _Backend.FLEX_ATTENTION:
-                logger.info_once("Using FlexAttention backend on V1 engine.")
-                return FLEX_ATTENTION_V1
-            elif selected_backend == _Backend.TRITON_ATTN:
-                logger.info_once("Using Triton backend on V1 engine.")
+
+            if not is_default_backend_supported.can_import:
+                logger.warning_once(
+                    "FlashInfer failed to import on Blackwell (SM 10.0) GPUs; "
+                    "it is recommended to install FlashInfer for better "
+                    "performance."
+                )
+
+        # FlashAttention is the default for SM 8.0+ GPUs
+        if cls.has_device_capability(80):
+            if (has_sink or use_fp8_kv_cache) and not cls.is_device_capability(90):
+                logger.info_once("Using Triton backend.")
                 return TRITON_ATTN
-            elif selected_backend == _Backend.FLASH_ATTN:
-                logger.info_once("Using Flash Attention backend on V1 engine.")
+            elif is_default_backend_supported := is_attn_backend_supported(
+                FLASH_ATTN_V1, head_size, dtype, allow_import_error=False
+            ):
+                logger.info_once("Using Flash Attention backend.")
                 return FLASH_ATTN_V1
-            elif selected_backend == _Backend.TREE_ATTN:
-                logger.info_once("Using Tree Attention backend on V1 engine.")
-                return TREE_ATTN_V1
-            elif selected_backend == _Backend.XFORMERS:
-                logger.info_once("Using XFormers backend on V1 engine.")
-                return XFORMERS_V1
 
-            from vllm.attention.selector import is_attn_backend_supported
-
-            # Default backends for V1 engine
-            # Prefer FlashInfer for Blackwell GPUs if installed
-            if cls.is_device_capability(100):
-                if is_default_backend_supported := is_attn_backend_supported(
-                    FLASHINFER_V1, head_size, dtype
-                ):
-                    from vllm.v1.attention.backends.utils import set_kv_cache_layout
-
-                    logger.info_once(
-                        "Using FlashInfer backend with HND KV cache layout on "
-                        "V1 engine by default for Blackwell (SM 10.0) GPUs."
-                    )
-                    set_kv_cache_layout("HND")
-
-                    return FLASHINFER_V1
-
-                if not is_default_backend_supported.can_import:
-                    logger.warning_once(
-                        "FlashInfer failed to import for V1 engine on "
-                        "Blackwell (SM 10.0) GPUs; it is recommended to "
-                        "install FlashInfer for better performance."
-                    )
-
-            # FlashAttention is the default for SM 8.0+ GPUs
-            if cls.has_device_capability(80):
-                if (has_sink or use_fp8_kv_cache) and not cls.is_device_capability(90):
-                    logger.info_once("Using Triton backend on V1 engine.")
-                    return TRITON_ATTN
-                elif is_default_backend_supported := is_attn_backend_supported(
-                    FLASH_ATTN_V1, head_size, dtype, allow_import_error=False
-                ):
-                    logger.info_once("Using Flash Attention backend on V1 engine.")
-                    return FLASH_ATTN_V1
-
-            # FlexAttention is the default for older GPUs
-            else:
-                logger.info_once("Using FlexAttention backend on V1 engine.")
-                return FLEX_ATTENTION_V1
-
-            assert not is_default_backend_supported
-
-            use_flex_attention_reason = {}
-            if not is_default_backend_supported.head_size:
-                use_flex_attention_reason["head_size"] = head_size
-            if not is_default_backend_supported.dtype:
-                use_flex_attention_reason["dtype"] = dtype
-
-            logger.info_once(
-                "Using FlexAttention backend for %s on V1 engine.",
-                ", ".join(f"{k}={v}" for k, v in use_flex_attention_reason.items()),
-            )
+        # FlexAttention is the default for older GPUs
+        else:
+            logger.info_once("Using FlexAttention backend.")
             return FLEX_ATTENTION_V1
 
-        raise RuntimeError(
-            "V0 attention backends have been removed. Set VLLM_USE_V1=1 "
-            "to select a supported backend."
+        assert not is_default_backend_supported
+
+        use_flex_attention_reason = {}
+        if not is_default_backend_supported.head_size:
+            use_flex_attention_reason["head_size"] = head_size
+        if not is_default_backend_supported.dtype:
+            use_flex_attention_reason["dtype"] = dtype
+
+        logger.info_once(
+            "Using FlexAttention backend for %s.",
+            ", ".join(f"{k}={v}" for k, v in use_flex_attention_reason.items()),
         )
+        return FLEX_ATTENTION_V1
 
     @classmethod
     def get_punica_wrapper(cls) -> str:
diff --git a/vllm/platforms/interface.py b/vllm/platforms/interface.py
index 4462829564391..15e3b3a22bdee 100644
--- a/vllm/platforms/interface.py
+++ b/vllm/platforms/interface.py
@@ -467,14 +467,7 @@ class Platform:
         """
         Whether to use allgather in LogitsProcessor to gather the logits.
         """
-        import vllm.envs as envs
-        from vllm.config import get_current_vllm_config
-
-        parallel_config = get_current_vllm_config().parallel_config
-        return (
-            envs.VLLM_USE_V1
-            or parallel_config.distributed_executor_backend == "external_launcher"
-        )
+        return True
 
     @classmethod
     def use_custom_allreduce(cls) -> bool:
diff --git a/vllm/platforms/rocm.py b/vllm/platforms/rocm.py
index d3535c9781c48..0c03a5564db89 100644
--- a/vllm/platforms/rocm.py
+++ b/vllm/platforms/rocm.py
@@ -149,7 +149,7 @@ def use_rocm_custom_paged_attention(
     # disabled due to observed numerical discrepancy.
     if ON_GFX9:
         return (
-            (not envs.VLLM_USE_V1 or sliding_window == 0 or sliding_window == (-1, -1))
+            (sliding_window == 0 or sliding_window == (-1, -1))
             and (qtype == torch.half or qtype == torch.bfloat16)
             and (head_size == 64 or head_size == 128)
             and (block_size == 16 or block_size == 32)
@@ -163,11 +163,7 @@ def use_rocm_custom_paged_attention(
     else:
         return (
             ON_GFX11_GFX12
-            and (
-                not envs.VLLM_USE_V1
-                or sliding_window == 0
-                or sliding_window == (-1, -1)
-            )
+            and (sliding_window == 0 or sliding_window == (-1, -1))
             and (qtype == torch.half or qtype == torch.bfloat16)
             and head_size == 128
             and block_size == 16
@@ -236,12 +232,6 @@ class RocmPlatform(Platform):
         if use_sparse:
             raise NotImplementedError("Sparse Attention is not supported on ROCm.")
         if use_mla:
-            if not use_v1:
-                raise RuntimeError(
-                    "MLA attention backends require the V1 engine. "
-                    "Set VLLM_USE_V1=1 to enable them."
-                )
-
             from vllm.v1.attention.backends.mla.rocm_aiter_mla import (
                 is_aiter_mla_enabled,
             )
@@ -255,7 +245,7 @@ class RocmPlatform(Platform):
 
             if selected_backend == _Backend.TRITON_MLA:
                 if block_size != 1:
-                    logger.info_once("Using Triton MLA backend on V1 engine.")
+                    logger.info_once("Using Triton MLA backend.")
                     return "vllm.v1.attention.backends.mla.triton_mla.TritonMLABackend"
                 raise ValueError(
                     f" The selected backend, {selected_backend.name},"
@@ -263,7 +253,7 @@ class RocmPlatform(Platform):
                 )
             if selected_backend == _Backend.ROCM_AITER_MLA:
                 if block_size == 1:
-                    logger.info("Using AITER MLA backend on V1 engine.")
+                    logger.info("Using AITER MLA backend.")
                     return (
                         "vllm.v1.attention.backends.mla.rocm_aiter_mla.AiterMLABackend"  # noqa: E501
                     )
@@ -277,41 +267,33 @@ class RocmPlatform(Platform):
                 f"is not MLA type while requested for MLA backend."
             )
 
-        if envs.VLLM_USE_V1:
-            if selected_backend == _Backend.FLEX_ATTENTION:
-                logger.info("Using FlexAttention backend on V1 engine.")
-                return "vllm.v1.attention.backends.flex_attention.FlexAttentionBackend"
-            if (
-                envs.VLLM_ROCM_USE_AITER and envs.VLLM_ROCM_USE_AITER_MHA and on_gfx9()
-            ) or selected_backend == _Backend.ROCM_AITER_FA:
-                logger.info("Using Aiter Flash Attention backend on V1 engine.")
-                return (
-                    "vllm.v1.attention.backends."
-                    "rocm_aiter_fa.AiterFlashAttentionBackend"
-                )
-            if (
-                envs.VLLM_ROCM_USE_AITER and envs.VLLM_ROCM_USE_AITER_UNIFIED_ATTENTION
-            ) or selected_backend == _Backend.ROCM_AITER_UNIFIED_ATTN:
-                logger.info("Using Aiter Unified Attention backend on V1 engine.")
-                return (
-                    "vllm.v1.attention.backends."
-                    "rocm_aiter_unified_attn.RocmAiterUnifiedAttentionBackend"
-                )
-            if (
-                envs.VLLM_V1_USE_PREFILL_DECODE_ATTENTION
-                or selected_backend == _Backend.ROCM_ATTN
-            ):
-                # rocm specific backend, with aiter and/or
-                #   triton prefix-prefill
-                logger.info("Using Rocm Attention backend on V1 engine.")
-                return "vllm.v1.attention.backends.rocm_attn.RocmAttentionBackend"
-            # default case, using triton unified attention
-            logger.info("Using Triton Attention backend on V1 engine.")
-            return "vllm.v1.attention.backends.triton_attn.TritonAttentionBackend"
-        raise RuntimeError(
-            "V0 attention backends have been removed. Set VLLM_USE_V1=1 "
-            "to select a supported backend."
-        )
+        if selected_backend == _Backend.FLEX_ATTENTION:
+            logger.info("Using FlexAttention backend.")
+            return "vllm.v1.attention.backends.flex_attention.FlexAttentionBackend"
+        if (
+            envs.VLLM_ROCM_USE_AITER and envs.VLLM_ROCM_USE_AITER_MHA and on_gfx9()
+        ) or selected_backend == _Backend.ROCM_AITER_FA:
+            logger.info("Using Aiter Flash Attention backend.")
+            return "vllm.v1.attention.backends.rocm_aiter_fa.AiterFlashAttentionBackend"
+        if (
+            envs.VLLM_ROCM_USE_AITER and envs.VLLM_ROCM_USE_AITER_UNIFIED_ATTENTION
+        ) or selected_backend == _Backend.ROCM_AITER_UNIFIED_ATTN:
+            logger.info("Using Aiter Unified Attention backend.")
+            return (
+                "vllm.v1.attention.backends."
+                "rocm_aiter_unified_attn.RocmAiterUnifiedAttentionBackend"
+            )
+        if (
+            envs.VLLM_V1_USE_PREFILL_DECODE_ATTENTION
+            or selected_backend == _Backend.ROCM_ATTN
+        ):
+            # rocm specific backend, with aiter and/or
+            #   triton prefix-prefill
+            logger.info("Using Rocm Attention backend.")
+            return "vllm.v1.attention.backends.rocm_attn.RocmAttentionBackend"
+        # default case, using triton unified attention
+        logger.info("Using Triton Attention backend.")
+        return "vllm.v1.attention.backends.triton_attn.TritonAttentionBackend"
 
     @classmethod
     def set_device(cls, device: torch.device) -> None:
@@ -372,7 +354,6 @@ class RocmPlatform(Platform):
         parallel_config = vllm_config.parallel_config
         is_eager_execution = compilation_config == CUDAGraphMode.NONE
 
-        use_v1 = envs.VLLM_USE_V1
         use_aiter_rms_norm = (
             envs.VLLM_ROCM_USE_AITER and envs.VLLM_ROCM_USE_AITER_RMSNORM
         )
@@ -384,8 +365,7 @@ class RocmPlatform(Platform):
             parallel_config.worker_cls = "vllm.v1.worker.gpu_worker.Worker"
         #  Aiter rms norm perform best when CUDA Graph capture is enabled.
         if (
-            use_v1
-            and use_aiter_rms_norm
+            use_aiter_rms_norm
             and not is_eager_execution
             and "-rms_norm" not in compilation_config.custom_ops
         ):
diff --git a/vllm/platforms/tpu.py b/vllm/platforms/tpu.py
index 0a14ee011f7f2..1a4b67a1762f3 100644
--- a/vllm/platforms/tpu.py
+++ b/vllm/platforms/tpu.py
@@ -204,10 +204,6 @@ class TpuPlatform(Platform):
     def get_device_communicator_cls(cls) -> str:
         return "vllm.distributed.device_communicators.tpu_communicator.TpuCommunicator"  # noqa
 
-    @classmethod
-    def use_all_gather(cls) -> bool:
-        return True
-
     @classmethod
     def validate_request(
         cls,
diff --git a/vllm/platforms/xpu.py b/vllm/platforms/xpu.py
index 07ab759e4baa6..e4ecd0c807dac 100644
--- a/vllm/platforms/xpu.py
+++ b/vllm/platforms/xpu.py
@@ -66,16 +66,13 @@ class XPUPlatform(Platform):
 
         if use_sparse:
             raise NotImplementedError("Sparse Attention is not supported on XPU.")
-        use_v1 = envs.VLLM_USE_V1
-        if not use_v1:
-            raise ValueError("XPU backend only supports V1.")
         TRITON_ATTN = "vllm.v1.attention.backends.triton_attn.TritonAttentionBackend"  # noqa: E501
         FLASH_ATTN = "vllm.v1.attention.backends.flash_attn.FlashAttentionBackend"  # noqa: E501
         if selected_backend == _Backend.TRITON_ATTN:
-            logger.info_once("Using Triton backend on V1 engine.")
+            logger.info_once("Using Triton backend.")
             return TRITON_ATTN
         elif selected_backend == _Backend.FLASH_ATTN:
-            logger.info_once("Using Flash Attention backend on V1 engine.")
+            logger.info_once("Using Flash Attention backend.")
             return FLASH_ATTN
         elif selected_backend:
             raise ValueError(
@@ -83,7 +80,7 @@ class XPUPlatform(Platform):
                 f"with use_v1: {use_v1} use_mla: {use_mla}"
             )
 
-        logger.info("Using Flash Attention backend on V1 engine.")
+        logger.info("Using Flash Attention backend.")
         return "vllm.v1.attention.backends.flash_attn.FlashAttentionBackend"
 
     @classmethod
diff --git a/vllm/v1/engine/async_llm.py b/vllm/v1/engine/async_llm.py
index dc61d45015682..f0d5b77e8e183 100644
--- a/vllm/v1/engine/async_llm.py
+++ b/vllm/v1/engine/async_llm.py
@@ -88,14 +88,6 @@ class AsyncLLM(EngineClient):
         Returns:
             None
         """
-        if not envs.VLLM_USE_V1:
-            raise ValueError(
-                "Using V1 AsyncLLMEngine, but envs.VLLM_USE_V1=False. "
-                "This should not happen. As a workaround, try using "
-                "AsyncLLMEngine.from_vllm_config(...) or explicitly set "
-                "VLLM_USE_V1=0 or 1 and report this issue on Github."
-            )
-
         # Ensure we can serialize custom transformer configs
         maybe_register_config_serialize_by_value()
 
@@ -206,14 +198,6 @@ class AsyncLLM(EngineClient):
         client_index: int = 0,
         disable_log_requests: bool = True,  # Deprecated, will be removed
     ) -> "AsyncLLM":
-        if not envs.VLLM_USE_V1:
-            raise ValueError(
-                "Using V1 AsyncLLMEngine, but envs.VLLM_USE_V1=False. "
-                "This should not happen. As a workaround, try using "
-                "AsyncLLMEngine.from_vllm_config(...) or explicitly set "
-                "VLLM_USE_V1=0 or 1 and report this issue on Github."
-            )
-
         # Create the LLMEngine.
         return cls(
             vllm_config=vllm_config,
diff --git a/vllm/v1/engine/llm_engine.py b/vllm/v1/engine/llm_engine.py
index c2ca9579d55ea..f44b6b2070d9f 100644
--- a/vllm/v1/engine/llm_engine.py
+++ b/vllm/v1/engine/llm_engine.py
@@ -58,18 +58,9 @@ class LLMEngine:
         use_cached_outputs: bool = False,
         multiprocess_mode: bool = False,
     ) -> None:
-        if not envs.VLLM_USE_V1:
-            raise ValueError(
-                "Using V1 LLMEngine, but envs.VLLM_USE_V1=False. "
-                "This should not happen. As a workaround, try using "
-                "LLMEngine.from_vllm_config(...) or explicitly set "
-                "VLLM_USE_V1=0 or 1 and report this issue on Github."
-            )
-
         if stat_loggers is not None:
             raise NotImplementedError(
-                "Passing StatLoggers to LLMEngine in V1 is not yet supported. "
-                "Set VLLM_USE_V1=0 and file and issue on Github."
+                "Passing StatLoggers to LLMEngine is not yet supported."
             )
 
         self.vllm_config = vllm_config
diff --git a/vllm/v1/executor/uniproc_executor.py b/vllm/v1/executor/uniproc_executor.py
index f17d3c3092701..32f00949b7f74 100644
--- a/vllm/v1/executor/uniproc_executor.py
+++ b/vllm/v1/executor/uniproc_executor.py
@@ -124,11 +124,10 @@ class ExecutorWithExternalLauncher(UniProcExecutor):
 
     def _init_executor(self) -> None:
         """Initialize the worker and load the model."""
-        if envs.VLLM_USE_V1:
-            assert not envs.VLLM_ENABLE_V1_MULTIPROCESSING, (
-                "To get deterministic execution in V1, "
-                "please set VLLM_ENABLE_V1_MULTIPROCESSING=0"
-            )
+        assert not envs.VLLM_ENABLE_V1_MULTIPROCESSING, (
+            "To get deterministic execution, "
+            "please set VLLM_ENABLE_V1_MULTIPROCESSING=0"
+        )
         super()._init_executor()
 
     def _distributed_args(self) -> tuple[str, int, int]:

From d811b442d305b33b3aca2836c5d7f761effe76de Mon Sep 17 00:00:00 2001
From: Haco <75477391+xiaohajiayou@users.noreply.github.com>
Date: Sat, 1 Nov 2025 22:52:43 +0800
Subject: [PATCH 072/976] [Bugfix] DeepSeek V3.2 MTP metadata & CUDA graph
 issues (#26779)

Signed-off-by: xiaohajiayou <923390377@qq.com>
---
 vllm/v1/spec_decode/eagle.py | 13 ++++++++-----
 1 file changed, 8 insertions(+), 5 deletions(-)

diff --git a/vllm/v1/spec_decode/eagle.py b/vllm/v1/spec_decode/eagle.py
index 35c2e73e8ee2c..1e18eea2330a4 100644
--- a/vllm/v1/spec_decode/eagle.py
+++ b/vllm/v1/spec_decode/eagle.py
@@ -109,6 +109,7 @@ class EagleProposer:
             else []
         )
 
+        self.use_cuda_graph = self.use_cuda_graph and bool(self.cudagraph_batch_sizes)
         # persistent buffers for cuda graph
         self.input_ids = torch.zeros(
             self.max_num_tokens, dtype=torch.int32, device=device
@@ -939,7 +940,7 @@ class EagleProposer:
             self.vllm_config, DeepseekV32IndexerCache
         )
         draft_indexer_layer_names = indexer_layers.keys() - target_indexer_layer_names
-        self.attn_layer_names = list(draft_attn_layer_names)
+        self.attn_layer_names = list(draft_attn_layer_names - draft_indexer_layer_names)
         self.indexer_layer_names = list(draft_indexer_layer_names)
 
         if self.indexer_layer_names:
@@ -1050,16 +1051,18 @@ class EagleProposer:
         num_tokens: int,
         use_cudagraphs=True,
     ) -> None:
-        if use_cudagraphs and num_tokens <= self.cudagraph_batch_sizes[-1]:
+        # Determine if CUDA graphs should be used for this run.
+        cudagraphs_enabled = use_cudagraphs and self.use_cuda_graph
+        if cudagraphs_enabled and num_tokens <= self.cudagraph_batch_sizes[-1]:
             num_tokens = self.vllm_config.pad_for_cudagraph(num_tokens)
 
         with set_forward_context(
             None,
             self.vllm_config,
             num_tokens=num_tokens,
-            cudagraph_runtime_mode=CUDAGraphMode.PIECEWISE
-            if use_cudagraphs
-            else CUDAGraphMode.NONE,
+            cudagraph_runtime_mode=(
+                CUDAGraphMode.PIECEWISE if cudagraphs_enabled else CUDAGraphMode.NONE
+            ),
         ):
             if self.supports_mm_inputs:
                 input_ids = None

From 99d69af9ece094acb94901439925f8468b32326a Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Sat, 1 Nov 2025 23:28:54 +0800
Subject: [PATCH 073/976] [Bugfix] Python 3.10 compatibility for `Self`
 (#27918)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 vllm/config/structured_outputs.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/vllm/config/structured_outputs.py b/vllm/config/structured_outputs.py
index 85b6e42264a42..eb1cc7220b8fe 100644
--- a/vllm/config/structured_outputs.py
+++ b/vllm/config/structured_outputs.py
@@ -2,10 +2,11 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
 import hashlib
-from typing import Any, Literal, Self
+from typing import Any, Literal
 
 from pydantic import model_validator
 from pydantic.dataclasses import dataclass
+from typing_extensions import Self
 
 from vllm.config.utils import config
 

From af6e19f50f1d5d0c3801948c3ab17b2af231c259 Mon Sep 17 00:00:00 2001
From: wenxindongwork <161090399+wenxindongwork@users.noreply.github.com>
Date: Sat, 1 Nov 2025 11:14:44 -0600
Subject: [PATCH 074/976] [Core][TPU] Support TPU Data Parallalism (#27365)

Signed-off-by: wenxindongwork <wenxindong@google.com>
---
 vllm/entrypoints/llm.py | 7 ++++++-
 1 file changed, 6 insertions(+), 1 deletion(-)

diff --git a/vllm/entrypoints/llm.py b/vllm/entrypoints/llm.py
index 758e16c89e694..b0b996ab2fec5 100644
--- a/vllm/entrypoints/llm.py
+++ b/vllm/entrypoints/llm.py
@@ -67,6 +67,7 @@ from vllm.outputs import (
     RequestOutput,
     ScoringRequestOutput,
 )
+from vllm.platforms import current_platform
 from vllm.pooling_params import PoolingParams
 from vllm.sampling_params import BeamSearchParams, RequestOutputKind, SamplingParams
 from vllm.tasks import PoolingTask
@@ -289,7 +290,11 @@ class LLM:
         # warn about single-process data parallel usage.
         _dp_size = int(kwargs.get("data_parallel_size", 1))
         _distributed_executor_backend = kwargs.get("distributed_executor_backend")
-        if _dp_size > 1 and not _distributed_executor_backend == "external_launcher":
+        if (
+            _dp_size > 1
+            and not _distributed_executor_backend == "external_launcher"
+            and not current_platform.is_tpu()
+        ):
             raise ValueError(
                 f"LLM(data_parallel_size={_dp_size}) is not supported for single-"
                 "process usage and may hang. Please use "

From c2ed069b32e2805c05a858c6157f4c6393b145a8 Mon Sep 17 00:00:00 2001
From: Nick Hill <nhill@redhat.com>
Date: Sat, 1 Nov 2025 10:51:24 -0700
Subject: [PATCH 075/976] [BugFix] Fix mixed penalties batch with async
 scheduling (#27910)

Signed-off-by: Nick Hill <nhill@redhat.com>
---
 vllm/v1/sample/ops/penalties.py | 8 ++++++++
 1 file changed, 8 insertions(+)

diff --git a/vllm/v1/sample/ops/penalties.py b/vllm/v1/sample/ops/penalties.py
index 898b90d41abae..241d9de957ea2 100644
--- a/vllm/v1/sample/ops/penalties.py
+++ b/vllm/v1/sample/ops/penalties.py
@@ -21,6 +21,14 @@ def apply_all_penalties(
     """
     _, vocab_size = logits.shape
     output_tokens_t = _convert_to_tensors(output_token_ids, vocab_size, logits.device)
+
+    # In the async scheduling case, rows that won't have penalties applied may contain
+    # -1 placeholder token ids. We must replace these with valid token ids so that the
+    # scatter done in apply_penalties is valid.
+    # NOTE(nick): The penalties implementation is currently quite inefficient and
+    # will be reworked anyhow.
+    output_tokens_t.masked_fill_(output_tokens_t == -1, vocab_size)
+
     return apply_penalties(
         logits,
         prompt_token_ids,

From 1e88fb751bce13c74355d177fd06035858ce77c4 Mon Sep 17 00:00:00 2001
From: Benjamin Bartels <benjamin@bartels.dev>
Date: Sat, 1 Nov 2025 19:45:42 +0000
Subject: [PATCH 076/976] Adds anthropic /v1/messages endpoint to openai
 api_server (#27882)

Signed-off-by: bbartels <benjamin@bartels.dev>
Signed-off-by: Benjamin Bartels <benjamin@bartels.dev>
---
 tests/entrypoints/anthropic/__init__.py       |   0
 .../{anthropic => openai}/test_messages.py    |  72 ++---
 tests/utils.py                                | 142 +--------
 vllm/entrypoints/anthropic/api_server.py      | 301 ------------------
 vllm/entrypoints/openai/api_server.py         |  86 +++++
 5 files changed, 139 insertions(+), 462 deletions(-)
 delete mode 100644 tests/entrypoints/anthropic/__init__.py
 rename tests/entrypoints/{anthropic => openai}/test_messages.py (68%)
 delete mode 100644 vllm/entrypoints/anthropic/api_server.py

diff --git a/tests/entrypoints/anthropic/__init__.py b/tests/entrypoints/anthropic/__init__.py
deleted file mode 100644
index e69de29bb2d1d..0000000000000
diff --git a/tests/entrypoints/anthropic/test_messages.py b/tests/entrypoints/openai/test_messages.py
similarity index 68%
rename from tests/entrypoints/anthropic/test_messages.py
rename to tests/entrypoints/openai/test_messages.py
index 4e35554b4e330..3e390ad496428 100644
--- a/tests/entrypoints/anthropic/test_messages.py
+++ b/tests/entrypoints/openai/test_messages.py
@@ -5,7 +5,7 @@ import anthropic
 import pytest
 import pytest_asyncio
 
-from ...utils import RemoteAnthropicServer
+from ...utils import RemoteOpenAIServer
 
 MODEL_NAME = "Qwen/Qwen3-0.6B"
 
@@ -23,13 +23,13 @@ def server():  # noqa: F811
         "claude-3-7-sonnet-latest",
     ]
 
-    with RemoteAnthropicServer(MODEL_NAME, args) as remote_server:
+    with RemoteOpenAIServer(MODEL_NAME, args) as remote_server:
         yield remote_server
 
 
 @pytest_asyncio.fixture
 async def client(server):
-    async with server.get_async_client() as async_client:
+    async with server.get_async_client_anthropic() as async_client:
         yield async_client
 
 
@@ -105,37 +105,37 @@ async def test_anthropic_tool_call(client: anthropic.AsyncAnthropic):
 
     print(f"Anthropic response: {resp.model_dump_json()}")
 
-    @pytest.mark.asyncio
-    async def test_anthropic_tool_call_streaming(client: anthropic.AsyncAnthropic):
-        resp = await client.messages.create(
-            model="claude-3-7-sonnet-latest",
-            max_tokens=1024,
-            messages=[
-                {
-                    "role": "user",
-                    "content": "What's the weather like in New York today?",
-                }
-            ],
-            tools=[
-                {
-                    "name": "get_current_weather",
-                    "description": "Useful for querying the weather "
-                    "in a specified city.",
-                    "input_schema": {
-                        "type": "object",
-                        "properties": {
-                            "location": {
-                                "type": "string",
-                                "description": "City or region, for example: "
-                                "New York, London, Tokyo, etc.",
-                            }
-                        },
-                        "required": ["location"],
-                    },
-                }
-            ],
-            stream=True,
-        )
 
-        async for chunk in resp:
-            print(chunk.model_dump_json())
+@pytest.mark.asyncio
+async def test_anthropic_tool_call_streaming(client: anthropic.AsyncAnthropic):
+    resp = await client.messages.create(
+        model="claude-3-7-sonnet-latest",
+        max_tokens=1024,
+        messages=[
+            {
+                "role": "user",
+                "content": "What's the weather like in New York today?",
+            }
+        ],
+        tools=[
+            {
+                "name": "get_current_weather",
+                "description": "Useful for querying the weather in a specified city.",
+                "input_schema": {
+                    "type": "object",
+                    "properties": {
+                        "location": {
+                            "type": "string",
+                            "description": "City or region, for example: "
+                            "New York, London, Tokyo, etc.",
+                        }
+                    },
+                    "required": ["location"],
+                },
+            }
+        ],
+        stream=True,
+    )
+
+    async for chunk in resp:
+        print(chunk.model_dump_json())
diff --git a/tests/utils.py b/tests/utils.py
index af4ce6ebaeda2..c8f18384c5114 100644
--- a/tests/utils.py
+++ b/tests/utils.py
@@ -247,6 +247,23 @@ class RemoteOpenAIServer:
             **kwargs,
         )
 
+    def get_client_anthropic(self, **kwargs):
+        if "timeout" not in kwargs:
+            kwargs["timeout"] = 600
+        return anthropic.Anthropic(
+            base_url=self.url_for(),
+            api_key=self.DUMMY_API_KEY,
+            max_retries=0,
+            **kwargs,
+        )
+
+    def get_async_client_anthropic(self, **kwargs):
+        if "timeout" not in kwargs:
+            kwargs["timeout"] = 600
+        return anthropic.AsyncAnthropic(
+            base_url=self.url_for(), api_key=self.DUMMY_API_KEY, max_retries=0, **kwargs
+        )
+
 
 class RemoteOpenAIServerCustom(RemoteOpenAIServer):
     """Launch test server with custom child process"""
@@ -293,131 +310,6 @@ class RemoteOpenAIServerCustom(RemoteOpenAIServer):
             self.proc.kill()
 
 
-class RemoteAnthropicServer:
-    DUMMY_API_KEY = "token-abc123"  # vLLM's Anthropic server does not need API key
-
-    def __init__(
-        self,
-        model: str,
-        vllm_serve_args: list[str],
-        *,
-        env_dict: dict[str, str] | None = None,
-        seed: int | None = 0,
-        auto_port: bool = True,
-        max_wait_seconds: float | None = None,
-    ) -> None:
-        if auto_port:
-            if "-p" in vllm_serve_args or "--port" in vllm_serve_args:
-                raise ValueError(
-                    "You have manually specified the port when `auto_port=True`."
-                )
-
-            # Don't mutate the input args
-            vllm_serve_args = vllm_serve_args + ["--port", str(get_open_port())]
-        if seed is not None:
-            if "--seed" in vllm_serve_args:
-                raise ValueError(
-                    f"You have manually specified the seed when `seed={seed}`."
-                )
-
-            vllm_serve_args = vllm_serve_args + ["--seed", str(seed)]
-
-        parser = FlexibleArgumentParser(description="vLLM's remote Anthropic server.")
-        subparsers = parser.add_subparsers(required=False, dest="subparser")
-        parser = ServeSubcommand().subparser_init(subparsers)
-        args = parser.parse_args(["--model", model, *vllm_serve_args])
-        self.host = str(args.host or "localhost")
-        self.port = int(args.port)
-
-        self.show_hidden_metrics = args.show_hidden_metrics_for_version is not None
-
-        # download the model before starting the server to avoid timeout
-        is_local = os.path.isdir(model)
-        if not is_local:
-            engine_args = AsyncEngineArgs.from_cli_args(args)
-            model_config = engine_args.create_model_config()
-            load_config = engine_args.create_load_config()
-
-            model_loader = get_model_loader(load_config)
-            model_loader.download_model(model_config)
-
-        env = os.environ.copy()
-        # the current process might initialize cuda,
-        # to be safe, we should use spawn method
-        env["VLLM_WORKER_MULTIPROC_METHOD"] = "spawn"
-        if env_dict is not None:
-            env.update(env_dict)
-        self.proc = subprocess.Popen(
-            [
-                sys.executable,
-                "-m",
-                "vllm.entrypoints.anthropic.api_server",
-                model,
-                *vllm_serve_args,
-            ],
-            env=env,
-            stdout=sys.stdout,
-            stderr=sys.stderr,
-        )
-        max_wait_seconds = max_wait_seconds or 240
-        self._wait_for_server(url=self.url_for("health"), timeout=max_wait_seconds)
-
-    def __enter__(self):
-        return self
-
-    def __exit__(self, exc_type, exc_value, traceback):
-        self.proc.terminate()
-        try:
-            self.proc.wait(8)
-        except subprocess.TimeoutExpired:
-            # force kill if needed
-            self.proc.kill()
-
-    def _wait_for_server(self, *, url: str, timeout: float):
-        # run health check
-        start = time.time()
-        while True:
-            try:
-                if requests.get(url).status_code == 200:
-                    break
-            except Exception:
-                # this exception can only be raised by requests.get,
-                # which means the server is not ready yet.
-                # the stack trace is not useful, so we suppress it
-                # by using `raise from None`.
-                result = self.proc.poll()
-                if result is not None and result != 0:
-                    raise RuntimeError("Server exited unexpectedly.") from None
-
-                time.sleep(0.5)
-                if time.time() - start > timeout:
-                    raise RuntimeError("Server failed to start in time.") from None
-
-    @property
-    def url_root(self) -> str:
-        return f"http://{self.host}:{self.port}"
-
-    def url_for(self, *parts: str) -> str:
-        return self.url_root + "/" + "/".join(parts)
-
-    def get_client(self, **kwargs):
-        if "timeout" not in kwargs:
-            kwargs["timeout"] = 600
-        return anthropic.Anthropic(
-            base_url=self.url_for(),
-            api_key=self.DUMMY_API_KEY,
-            max_retries=0,
-            **kwargs,
-        )
-
-    def get_async_client(self, **kwargs):
-        if "timeout" not in kwargs:
-            kwargs["timeout"] = 600
-        return anthropic.AsyncAnthropic(
-            base_url=self.url_for(), api_key=self.DUMMY_API_KEY, max_retries=0, **kwargs
-        )
-
-
 def _test_completion(
     client: openai.OpenAI,
     model: str,
diff --git a/vllm/entrypoints/anthropic/api_server.py b/vllm/entrypoints/anthropic/api_server.py
deleted file mode 100644
index df877f99b084f..0000000000000
--- a/vllm/entrypoints/anthropic/api_server.py
+++ /dev/null
@@ -1,301 +0,0 @@
-# SPDX-License-Identifier: Apache-2.0
-# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
-# Adapted from:
-# https://github.com/vllm/vllm/entrypoints/openai/api_server.py
-
-import asyncio
-import signal
-import tempfile
-from argparse import Namespace
-from http import HTTPStatus
-
-import uvloop
-from fastapi import APIRouter, Depends, FastAPI, Request
-from fastapi.middleware.cors import CORSMiddleware
-from fastapi.responses import JSONResponse, Response, StreamingResponse
-from starlette.datastructures import State
-
-import vllm.envs as envs
-from vllm.engine.protocol import EngineClient
-from vllm.entrypoints.anthropic.protocol import (
-    AnthropicErrorResponse,
-    AnthropicMessagesRequest,
-    AnthropicMessagesResponse,
-)
-from vllm.entrypoints.anthropic.serving_messages import AnthropicServingMessages
-from vllm.entrypoints.launcher import serve_http
-from vllm.entrypoints.logger import RequestLogger
-from vllm.entrypoints.openai.api_server import (
-    build_async_engine_client,
-    create_server_socket,
-    lifespan,
-    load_log_config,
-    validate_api_server_args,
-    validate_json_request,
-)
-from vllm.entrypoints.openai.cli_args import make_arg_parser, validate_parsed_serve_args
-from vllm.entrypoints.openai.protocol import ErrorResponse
-from vllm.entrypoints.openai.serving_models import (
-    BaseModelPath,
-    OpenAIServingModels,
-)
-
-#
-# yapf: enable
-from vllm.entrypoints.openai.tool_parsers import ToolParserManager
-from vllm.entrypoints.utils import (
-    cli_env_setup,
-    load_aware_call,
-    process_chat_template,
-    process_lora_modules,
-    with_cancellation,
-)
-from vllm.logger import init_logger
-from vllm.utils.argparse_utils import FlexibleArgumentParser
-from vllm.utils.network_utils import is_valid_ipv6_address
-from vllm.utils.system_utils import set_ulimit
-from vllm.version import __version__ as VLLM_VERSION
-
-prometheus_multiproc_dir: tempfile.TemporaryDirectory
-
-# Cannot use __name__ (https://github.com/vllm-project/vllm/pull/4765)
-logger = init_logger("vllm.entrypoints.anthropic.api_server")
-
-_running_tasks: set[asyncio.Task] = set()
-
-router = APIRouter()
-
-
-def messages(request: Request) -> AnthropicServingMessages:
-    return request.app.state.anthropic_serving_messages
-
-
-def engine_client(request: Request) -> EngineClient:
-    return request.app.state.engine_client
-
-
-@router.get("/health", response_class=Response)
-async def health(raw_request: Request) -> Response:
-    """Health check."""
-    await engine_client(raw_request).check_health()
-    return Response(status_code=200)
-
-
-@router.get("/ping", response_class=Response)
-@router.post("/ping", response_class=Response)
-async def ping(raw_request: Request) -> Response:
-    """Ping check. Endpoint required for SageMaker"""
-    return await health(raw_request)
-
-
-@router.post(
-    "/v1/messages",
-    dependencies=[Depends(validate_json_request)],
-    responses={
-        HTTPStatus.OK.value: {"content": {"text/event-stream": {}}},
-        HTTPStatus.BAD_REQUEST.value: {"model": AnthropicErrorResponse},
-        HTTPStatus.NOT_FOUND.value: {"model": AnthropicErrorResponse},
-        HTTPStatus.INTERNAL_SERVER_ERROR.value: {"model": AnthropicErrorResponse},
-    },
-)
-@with_cancellation
-@load_aware_call
-async def create_messages(request: AnthropicMessagesRequest, raw_request: Request):
-    handler = messages(raw_request)
-    if handler is None:
-        return messages(raw_request).create_error_response(
-            message="The model does not support Messages API"
-        )
-
-    generator = await handler.create_messages(request, raw_request)
-
-    if isinstance(generator, ErrorResponse):
-        return JSONResponse(content=generator.model_dump())
-
-    elif isinstance(generator, AnthropicMessagesResponse):
-        logger.debug(
-            "Anthropic Messages Response: %s", generator.model_dump(exclude_none=True)
-        )
-        return JSONResponse(content=generator.model_dump(exclude_none=True))
-
-    return StreamingResponse(content=generator, media_type="text/event-stream")
-
-
-async def init_app_state(
-    engine_client: EngineClient,
-    state: State,
-    args: Namespace,
-) -> None:
-    vllm_config = engine_client.vllm_config
-
-    if args.served_model_name is not None:
-        served_model_names = args.served_model_name
-    else:
-        served_model_names = [args.model]
-
-    if args.disable_log_requests:
-        request_logger = None
-    else:
-        request_logger = RequestLogger(max_log_len=args.max_log_len)
-
-    base_model_paths = [
-        BaseModelPath(name=name, model_path=args.model) for name in served_model_names
-    ]
-
-    state.engine_client = engine_client
-    state.log_stats = not args.disable_log_stats
-    state.vllm_config = vllm_config
-    model_config = vllm_config.model_config
-
-    default_mm_loras = (
-        vllm_config.lora_config.default_mm_loras
-        if vllm_config.lora_config is not None
-        else {}
-    )
-    lora_modules = process_lora_modules(args.lora_modules, default_mm_loras)
-
-    resolved_chat_template = await process_chat_template(
-        args.chat_template, engine_client, model_config
-    )
-
-    state.openai_serving_models = OpenAIServingModels(
-        engine_client=engine_client,
-        base_model_paths=base_model_paths,
-        lora_modules=lora_modules,
-    )
-    await state.openai_serving_models.init_static_loras()
-    state.anthropic_serving_messages = AnthropicServingMessages(
-        engine_client,
-        state.openai_serving_models,
-        args.response_role,
-        request_logger=request_logger,
-        chat_template=resolved_chat_template,
-        chat_template_content_format=args.chat_template_content_format,
-        return_tokens_as_token_ids=args.return_tokens_as_token_ids,
-        enable_auto_tools=args.enable_auto_tool_choice,
-        tool_parser=args.tool_call_parser,
-        reasoning_parser=args.reasoning_parser,
-        enable_prompt_tokens_details=args.enable_prompt_tokens_details,
-        enable_force_include_usage=args.enable_force_include_usage,
-    )
-
-
-def setup_server(args):
-    """Validate API server args, set up signal handler, create socket
-    ready to serve."""
-
-    logger.info("vLLM API server version %s", VLLM_VERSION)
-
-    if args.tool_parser_plugin and len(args.tool_parser_plugin) > 3:
-        ToolParserManager.import_tool_parser(args.tool_parser_plugin)
-
-    validate_api_server_args(args)
-
-    # workaround to make sure that we bind the port before the engine is set up.
-    # This avoids race conditions with ray.
-    # see https://github.com/vllm-project/vllm/issues/8204
-    sock_addr = (args.host or "", args.port)
-    sock = create_server_socket(sock_addr)
-
-    # workaround to avoid footguns where uvicorn drops requests with too
-    # many concurrent requests active
-    set_ulimit()
-
-    def signal_handler(*_) -> None:
-        # Interrupt server on sigterm while initializing
-        raise KeyboardInterrupt("terminated")
-
-    signal.signal(signal.SIGTERM, signal_handler)
-
-    addr, port = sock_addr
-    is_ssl = args.ssl_keyfile and args.ssl_certfile
-    host_part = f"[{addr}]" if is_valid_ipv6_address(addr) else addr or "0.0.0.0"
-    listen_address = f"http{'s' if is_ssl else ''}://{host_part}:{port}"
-
-    return listen_address, sock
-
-
-async def run_server(args, **uvicorn_kwargs) -> None:
-    """Run a single-worker API server."""
-    listen_address, sock = setup_server(args)
-    await run_server_worker(listen_address, sock, args, **uvicorn_kwargs)
-
-
-def build_app(args: Namespace) -> FastAPI:
-    app = FastAPI(lifespan=lifespan)
-    app.include_router(router)
-    app.root_path = args.root_path
-
-    app.add_middleware(
-        CORSMiddleware,
-        allow_origins=args.allowed_origins,
-        allow_credentials=args.allow_credentials,
-        allow_methods=args.allowed_methods,
-        allow_headers=args.allowed_headers,
-    )
-
-    return app
-
-
-async def run_server_worker(
-    listen_address, sock, args, client_config=None, **uvicorn_kwargs
-) -> None:
-    """Run a single API server worker."""
-
-    if args.tool_parser_plugin and len(args.tool_parser_plugin) > 3:
-        ToolParserManager.import_tool_parser(args.tool_parser_plugin)
-
-    server_index = client_config.get("client_index", 0) if client_config else 0
-
-    # Load logging config for uvicorn if specified
-    log_config = load_log_config(args.log_config_file)
-    if log_config is not None:
-        uvicorn_kwargs["log_config"] = log_config
-
-    async with build_async_engine_client(
-        args,
-        client_config=client_config,
-    ) as engine_client:
-        app = build_app(args)
-
-        await init_app_state(engine_client, app.state, args)
-
-        logger.info("Starting vLLM API server %d on %s", server_index, listen_address)
-        shutdown_task = await serve_http(
-            app,
-            sock=sock,
-            enable_ssl_refresh=args.enable_ssl_refresh,
-            host=args.host,
-            port=args.port,
-            log_level=args.uvicorn_log_level,
-            # NOTE: When the 'disable_uvicorn_access_log' value is True,
-            # no access log will be output.
-            access_log=not args.disable_uvicorn_access_log,
-            timeout_keep_alive=envs.VLLM_HTTP_TIMEOUT_KEEP_ALIVE,
-            ssl_keyfile=args.ssl_keyfile,
-            ssl_certfile=args.ssl_certfile,
-            ssl_ca_certs=args.ssl_ca_certs,
-            ssl_cert_reqs=args.ssl_cert_reqs,
-            **uvicorn_kwargs,
-        )
-
-    # NB: Await server shutdown only after the backend context is exited
-    try:
-        await shutdown_task
-    finally:
-        sock.close()
-
-
-if __name__ == "__main__":
-    # NOTE(simon):
-    # This section should be in sync with vllm/entrypoints/cli/main.py for CLI
-    # entrypoints.
-    cli_env_setup()
-    parser = FlexibleArgumentParser(
-        description="vLLM Anthropic-Compatible RESTful API server."
-    )
-    parser = make_arg_parser(parser)
-    args = parser.parse_args()
-    validate_parsed_serve_args(args)
-
-    uvloop.run(run_server(args))
diff --git a/vllm/entrypoints/openai/api_server.py b/vllm/entrypoints/openai/api_server.py
index 8fa71855f8f66..22b5584749ae7 100644
--- a/vllm/entrypoints/openai/api_server.py
+++ b/vllm/entrypoints/openai/api_server.py
@@ -41,6 +41,13 @@ import vllm.envs as envs
 from vllm.config import VllmConfig
 from vllm.engine.arg_utils import AsyncEngineArgs
 from vllm.engine.protocol import Device, EngineClient
+from vllm.entrypoints.anthropic.protocol import (
+    AnthropicError,
+    AnthropicErrorResponse,
+    AnthropicMessagesRequest,
+    AnthropicMessagesResponse,
+)
+from vllm.entrypoints.anthropic.serving_messages import AnthropicServingMessages
 from vllm.entrypoints.launcher import serve_http
 from vllm.entrypoints.logger import RequestLogger
 from vllm.entrypoints.openai.cli_args import make_arg_parser, validate_parsed_serve_args
@@ -308,6 +315,10 @@ def responses(request: Request) -> OpenAIServingResponses | None:
     return request.app.state.openai_serving_responses
 
 
+def messages(request: Request) -> AnthropicServingMessages:
+    return request.app.state.anthropic_serving_messages
+
+
 def chat(request: Request) -> OpenAIServingChat | None:
     return request.app.state.openai_serving_chat
 
@@ -591,6 +602,63 @@ async def cancel_responses(response_id: str, raw_request: Request):
     return JSONResponse(content=response.model_dump())
 
 
+@router.post(
+    "/v1/messages",
+    dependencies=[Depends(validate_json_request)],
+    responses={
+        HTTPStatus.OK.value: {"content": {"text/event-stream": {}}},
+        HTTPStatus.BAD_REQUEST.value: {"model": AnthropicErrorResponse},
+        HTTPStatus.NOT_FOUND.value: {"model": AnthropicErrorResponse},
+        HTTPStatus.INTERNAL_SERVER_ERROR.value: {"model": AnthropicErrorResponse},
+    },
+)
+@with_cancellation
+@load_aware_call
+async def create_messages(request: AnthropicMessagesRequest, raw_request: Request):
+    def translate_error_response(response: ErrorResponse) -> JSONResponse:
+        anthropic_error = AnthropicErrorResponse(
+            error=AnthropicError(
+                type=response.error.type,
+                message=response.error.message,
+            )
+        )
+        return JSONResponse(
+            status_code=response.error.code, content=anthropic_error.model_dump()
+        )
+
+    handler = messages(raw_request)
+    if handler is None:
+        error = base(raw_request).create_error_response(
+            message="The model does not support Messages API"
+        )
+        return translate_error_response(error)
+
+    try:
+        generator = await handler.create_messages(request, raw_request)
+    except Exception as e:
+        logger.exception("Error in create_messages: %s", e)
+        return JSONResponse(
+            status_code=HTTPStatus.INTERNAL_SERVER_ERROR.value,
+            content=AnthropicErrorResponse(
+                error=AnthropicError(
+                    type="internal_error",
+                    message=str(e),
+                )
+            ).model_dump(),
+        )
+
+    if isinstance(generator, ErrorResponse):
+        return translate_error_response(generator)
+
+    elif isinstance(generator, AnthropicMessagesResponse):
+        logger.debug(
+            "Anthropic Messages Response: %s", generator.model_dump(exclude_none=True)
+        )
+        return JSONResponse(content=generator.model_dump(exclude_none=True))
+
+    return StreamingResponse(content=generator, media_type="text/event-stream")
+
+
 @router.post(
     "/v1/chat/completions",
     dependencies=[Depends(validate_json_request)],
@@ -1817,6 +1885,24 @@ async def init_app_state(
         if "transcription" in supported_tasks
         else None
     )
+    state.anthropic_serving_messages = (
+        AnthropicServingMessages(
+            engine_client,
+            state.openai_serving_models,
+            args.response_role,
+            request_logger=request_logger,
+            chat_template=resolved_chat_template,
+            chat_template_content_format=args.chat_template_content_format,
+            return_tokens_as_token_ids=args.return_tokens_as_token_ids,
+            enable_auto_tools=args.enable_auto_tool_choice,
+            tool_parser=args.tool_call_parser,
+            reasoning_parser=args.structured_outputs_config.reasoning_parser,
+            enable_prompt_tokens_details=args.enable_prompt_tokens_details,
+            enable_force_include_usage=args.enable_force_include_usage,
+        )
+        if "generate" in supported_tasks
+        else None
+    )
 
     state.enable_server_load_tracking = args.enable_server_load_tracking
     state.server_load_metrics = 0

From 685c99ee77b4818dcdd15b30fe0e0eff0d5d22ec Mon Sep 17 00:00:00 2001
From: Yue Zhang <81500899+KevinCheung2259@users.noreply.github.com>
Date: Sun, 2 Nov 2025 05:08:56 +0800
Subject: [PATCH 077/976] [KV offload] Offloading connector async scheduling
 support (#27648)

Signed-off-by: KevinCheung2259 <2651309292@qq.com>
Co-authored-by: Nick Hill <nhill@redhat.com>
---
 .../kv_transfer/kv_connector/v1/offloading_connector.py       | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/offloading_connector.py b/vllm/distributed/kv_transfer/kv_connector/v1/offloading_connector.py
index 19344e5784c23..7567c7fae5789 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/offloading_connector.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/offloading_connector.py
@@ -274,8 +274,8 @@ class OffloadingConnectorScheduler:
             if num_new_blocks <= 0:
                 continue
 
-            num_gpu_blocks = num_blocks * self.block_size_factor
-            assert len(req.block_hashes) >= num_gpu_blocks
+            # NOTE: In async scheduling, placeholders may temporarily make
+            # len(req.block_hashes) < num_blocks * self.block_size_factor.
 
             new_block_hashes = self._get_block_hashes(
                 req, start_idx=start_block_idx, end_idx=num_blocks

From 758ea2e980a1eeacec6097bfd98bd0a7c8fb864a Mon Sep 17 00:00:00 2001
From: Ben Browning <bbrownin@redhat.com>
Date: Sat, 1 Nov 2025 23:45:02 -0400
Subject: [PATCH 078/976] [CI/Build] Fix flaky
 test_transcription_validation.py::test_basic_audio_gemma (#27924)

Signed-off-by: Ben Browning <bbrownin@redhat.com>
---
 tests/entrypoints/openai/test_transcription_validation.py | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/tests/entrypoints/openai/test_transcription_validation.py b/tests/entrypoints/openai/test_transcription_validation.py
index 6ef932392d095..f6133d4387b26 100644
--- a/tests/entrypoints/openai/test_transcription_validation.py
+++ b/tests/entrypoints/openai/test_transcription_validation.py
@@ -72,7 +72,9 @@ async def test_basic_audio_gemma(foscolo):
     model_name = "google/gemma-3n-E2B-it"
     server_args = ["--enforce-eager"]
 
-    with RemoteOpenAIServer(model_name, server_args) as remote_server:
+    with RemoteOpenAIServer(
+        model_name, server_args, max_wait_seconds=480
+    ) as remote_server:
         client = remote_server.get_async_client()
         transcription = await client.audio.transcriptions.create(
             model=model_name,

From 853a8eb53b89f9f3468ab553e86a964cb4e6cd1e Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Sun, 2 Nov 2025 13:06:05 +0800
Subject: [PATCH 079/976] [Bugfix] Fix Qwen Omni audio inference (#27920)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 vllm/model_executor/models/qwen2_5_omni_thinker.py   | 9 ++-------
 vllm/model_executor/models/qwen3_omni_moe_thinker.py | 3 ---
 2 files changed, 2 insertions(+), 10 deletions(-)

diff --git a/vllm/model_executor/models/qwen2_5_omni_thinker.py b/vllm/model_executor/models/qwen2_5_omni_thinker.py
index 677d34dea39b3..7e970ebbe2bbc 100644
--- a/vllm/model_executor/models/qwen2_5_omni_thinker.py
+++ b/vllm/model_executor/models/qwen2_5_omni_thinker.py
@@ -130,6 +130,8 @@ class Qwen2_5OmniAudioFeatureInputs(TensorSchema):
         TensorShape("nmb", "tsl", dynamic_dims={"tsl"}),
     ]
 
+    audio_feature_lengths: Annotated[torch.Tensor, TensorShape("na")]
+
     feature_attention_mask: Annotated[
         torch.Tensor | list[torch.Tensor],
         TensorShape("na", "msl", dynamic_dims={"msl"}),
@@ -732,13 +734,6 @@ class Qwen2_5OmniConditionalGenerationMixin:
         input_features = audio_input["input_features"]
         audio_feature_lengths = audio_input["audio_feature_lengths"]
 
-        if audio_feature_lengths.shape[0] == 1:
-            audio_feature_lengths = audio_feature_lengths.squeeze(0)
-        elif audio_feature_lengths.shape[1] == 1:
-            audio_feature_lengths = audio_feature_lengths.squeeze(1)
-        else:
-            raise AssertionError(audio_feature_lengths.shape)
-
         audio_feat_lengths, audio_output_lengths = (
             self.audio_tower._get_feat_extract_output_lengths(audio_feature_lengths)
         )
diff --git a/vllm/model_executor/models/qwen3_omni_moe_thinker.py b/vllm/model_executor/models/qwen3_omni_moe_thinker.py
index efcd003fbbda7..f20e679027214 100755
--- a/vllm/model_executor/models/qwen3_omni_moe_thinker.py
+++ b/vllm/model_executor/models/qwen3_omni_moe_thinker.py
@@ -99,7 +99,6 @@ from .utils import (
     AutoWeightsLoader,
     WeightsMapper,
     _merge_multimodal_embeddings,
-    flatten_bn,
     maybe_prefix,
 )
 from .vision import (
@@ -1065,8 +1064,6 @@ class Qwen3OmniMoeConditionalGenerationMixin(Qwen2_5OmniConditionalGenerationMix
         input_features = audio_input["input_features"]
         audio_feature_lengths = audio_input["audio_feature_lengths"]
 
-        audio_feature_lengths = flatten_bn(audio_feature_lengths, concat=True)
-
         audio_feat_lengths, audio_output_lengths = _get_feat_extract_output_lengths(
             audio_feature_lengths
         )

From 73444b7b5623f5bc569277c8c7dc809843312d11 Mon Sep 17 00:00:00 2001
From: Julien Denize <40604584+juliendenize@users.noreply.github.com>
Date: Sun, 2 Nov 2025 09:48:33 +0100
Subject: [PATCH 080/976] Performance fix MistralTokenizer: cache special ids
 and tokens (#27925)

Signed-off-by: Julien Denize <julien.denize@mistral.ai>
Co-authored-by: Patrick von Platen <patrick.v.platen@gmail.com>
---
 vllm/transformers_utils/tokenizers/mistral.py | 66 +++++++++----------
 1 file changed, 32 insertions(+), 34 deletions(-)

diff --git a/vllm/transformers_utils/tokenizers/mistral.py b/vllm/transformers_utils/tokenizers/mistral.py
index 6f710bf23360f..7033523224c51 100644
--- a/vllm/transformers_utils/tokenizers/mistral.py
+++ b/vllm/transformers_utils/tokenizers/mistral.py
@@ -191,6 +191,12 @@ class MistralTokenizer(TokenizerBase):
         # Sort the dict for convenience
         self._vocab_dict = dict(sorted(self._vocab_dict.items(), key=lambda x: x[1]))
 
+        # Cache special tokens for faster access.
+        self._special_token_ids = self._get_special_token_ids()
+        self._special_token_ids_set = set(self._special_token_ids)
+        self._special_tokens = self._get_special_tokens(self._special_token_ids)
+        self._special_tokens_set = set(self._special_tokens)
+
         # Vocab sorted by token id.
         self._vocab = self.tokenizer._vocab
         self._max_token_id = self.vocab_size - 1
@@ -210,23 +216,7 @@ class MistralTokenizer(TokenizerBase):
             )
         )
 
-    # the following attributes are set to fit vLLM's design and are used
-    # by the structured output backends.
-    @property
-    def all_special_tokens_extended(self) -> list[str]:
-        return self.all_special_tokens
-
-    @property
-    def all_special_tokens(self) -> list[str]:
-        from mistral_common.tokens.tokenizers.base import SpecialTokenPolicy
-
-        return [
-            self.tokenizer.decode([i], special_token_policy=SpecialTokenPolicy.KEEP)
-            for i in self.all_special_ids
-        ]
-
-    @property
-    def all_special_ids(self) -> list[int]:
+    def _get_special_token_ids(self) -> list[int]:
         from mistral_common.tokens.tokenizers.sentencepiece import (
             SentencePieceTokenizer,
         )
@@ -244,6 +234,28 @@ class MistralTokenizer(TokenizerBase):
             raise ValueError(f"Unknown tokenizer type: {type(self.tokenizer)}")
         return sorted(special_ids)
 
+    def _get_special_tokens(self, all_special_ids: list[int]) -> list[str]:
+        from mistral_common.tokens.tokenizers.base import SpecialTokenPolicy
+
+        return [
+            self.tokenizer.decode([i], special_token_policy=SpecialTokenPolicy.KEEP)
+            for i in all_special_ids
+        ]
+
+    # the following attributes are set to fit vLLM's design and are used
+    # by the structured output backends.
+    @property
+    def all_special_tokens_extended(self) -> list[str]:
+        return self.all_special_tokens
+
+    @property
+    def all_special_tokens(self) -> list[str]:
+        return self._special_tokens
+
+    @property
+    def all_special_ids(self) -> list[int]:
+        return self._special_token_ids
+
     @property
     def bos_token_id(self) -> int:
         return self.tokenizer.bos_id
@@ -277,21 +289,7 @@ class MistralTokenizer(TokenizerBase):
         raise NotImplementedError()
 
     def _is_special_token_id(self, token_id: int) -> bool:
-        from mistral_common.tokens.tokenizers.sentencepiece import (
-            SentencePieceTokenizer,
-        )
-        from mistral_common.tokens.tokenizers.tekken import Tekkenizer
-
-        if self.is_spm:
-            assert isinstance(self.tokenizer, SentencePieceTokenizer), type(
-                self.tokenizer
-            )
-            return token_id in self.tokenizer._control_tokens
-        if self.is_tekken:
-            assert isinstance(self.tokenizer, Tekkenizer), type(self.tokenizer)
-            return token_id < self.tokenizer.num_special_tokens
-        else:
-            raise ValueError(f"Unknown tokenizer type: {type(self.tokenizer)}")
+        return token_id in self._special_token_ids_set
 
     def __len__(self) -> int:
         return self.vocab_size
@@ -405,7 +403,7 @@ class MistralTokenizer(TokenizerBase):
             tokens = [
                 t
                 for t in tokens
-                if (t in to_decode_special_tokens or t not in self.all_special_tokens)
+                if (t in to_decode_special_tokens or t not in self._special_tokens_set)
             ]
 
             if any(isinstance(t, bytes) for t in tokens):
@@ -489,7 +487,7 @@ class MistralTokenizer(TokenizerBase):
             # We filtered unwanted special tokens so we can decode the rest.
             tokens = [
                 self.tokenizer.id_to_byte_piece(token_id, SpecialTokenPolicy.KEEP)
-                if token_id not in self.all_special_ids
+                if token_id not in self._special_token_ids_set
                 else self.tokenizer.decode([token_id], SpecialTokenPolicy.KEEP)
                 for token_id in ids_kept
             ]

From 00b31a36a2d0de6d197a473280b2304d482714af Mon Sep 17 00:00:00 2001
From: Asaf Joseph Gardin <39553475+Josephasafg@users.noreply.github.com>
Date: Sun, 2 Nov 2025 14:16:23 +0200
Subject: [PATCH 081/976] [V1] [Hybrid] Mamba1 Automatic Prefix Caching
 (#26377)

Signed-off-by: asafg <39553475+Josephasafg@users.noreply.github.com>
---
 csrc/mamba/mamba_ssm/selective_scan.h         |   8 +-
 csrc/mamba/mamba_ssm/selective_scan_fwd.cu    | 134 +++++++++++++++---
 csrc/ops.h                                    |  24 ++--
 csrc/torch_bindings.cpp                       |   6 +-
 tests/kernels/mamba/test_mamba_ssm.py         |  15 ++
 .../models/language/generation/test_hybrid.py |  34 ++---
 vllm/_custom_ops.py                           |   8 ++
 vllm/config/model.py                          |   6 +
 .../layers/mamba/mamba_mixer.py               |  91 ++++++++----
 .../layers/mamba/ops/mamba_ssm.py             |  24 +++-
 vllm/model_executor/models/config.py          |   2 +-
 vllm/model_executor/models/jamba.py           |  21 ++-
 vllm/model_executor/models/mamba.py           |   9 +-
 vllm/v1/attention/backends/mamba1_attn.py     | 111 ++++++++++++---
 vllm/v1/attention/backends/mamba2_attn.py     |  40 +-----
 vllm/v1/attention/backends/mamba_attn.py      |  62 +++++++-
 16 files changed, 442 insertions(+), 153 deletions(-)

diff --git a/csrc/mamba/mamba_ssm/selective_scan.h b/csrc/mamba/mamba_ssm/selective_scan.h
index 13c6178941cf8..7d22dd8b84a39 100644
--- a/csrc/mamba/mamba_ssm/selective_scan.h
+++ b/csrc/mamba/mamba_ssm/selective_scan.h
@@ -24,6 +24,8 @@ struct SSMParamsBase {
     int64_t pad_slot_id;
 
     bool delta_softplus;
+    bool cache_enabled;
+    int block_size;
 
     index_t A_d_stride;
     index_t A_dstate_stride;
@@ -46,8 +48,9 @@ struct SSMParamsBase {
     index_t out_z_batch_stride;
     index_t out_z_d_stride;
     index_t ssm_states_batch_stride;
-    index_t ssm_states_dim_stride;  
+    index_t ssm_states_dim_stride;
     index_t ssm_states_dstate_stride;
+    index_t cache_indices_stride;
 
     // Common data pointers.
     void *__restrict__ A_ptr;
@@ -66,6 +69,9 @@ struct SSMParamsBase {
     void *__restrict__ cache_indices_ptr;
     void *__restrict__ has_initial_state_ptr;
 
+    void *__restrict__ block_idx_first_scheduled_token_ptr;  // (batch,) - first block to write
+    void *__restrict__ block_idx_last_scheduled_token_ptr;   // (batch,) - last block to write
+    void *__restrict__ initial_state_idx_ptr;  // (batch,) - index of the initial state to use
 };
 
 
diff --git a/csrc/mamba/mamba_ssm/selective_scan_fwd.cu b/csrc/mamba/mamba_ssm/selective_scan_fwd.cu
index d534e138d26d6..fb2a2e5789999 100644
--- a/csrc/mamba/mamba_ssm/selective_scan_fwd.cu
+++ b/csrc/mamba/mamba_ssm/selective_scan_fwd.cu
@@ -119,7 +119,7 @@ void selective_scan_fwd_kernel(SSMParamsBase params) {
 
     const int* cache_indices = params.cache_indices_ptr == nullptr ? nullptr
         : reinterpret_cast<int *>(params.cache_indices_ptr);
-    const int cache_index = cache_indices == nullptr ? batch_id : cache_indices[batch_id];
+    const int cache_index = cache_indices == nullptr ? batch_id : cache_indices[batch_id]; 
     // cache_index == params.pad_slot_id is defined as padding, so we exit early
     if (cache_index == params.pad_slot_id){
         return;
@@ -133,9 +133,18 @@ void selective_scan_fwd_kernel(SSMParamsBase params) {
     input_t *Bvar = reinterpret_cast<input_t *>(params.B_ptr) + sequence_start_index * params.B_batch_stride + group_id * params.B_group_stride;
     weight_t *C = reinterpret_cast<weight_t *>(params.C_ptr) + dim_id * kNRows * params.C_d_stride;
     input_t *Cvar = reinterpret_cast<input_t *>(params.C_ptr) + sequence_start_index * params.C_batch_stride + group_id * params.C_group_stride;
-    typename Ktraits::state_t *ssm_states = reinterpret_cast<typename Ktraits::state_t *>(params.ssm_states_ptr) + 
-    cache_index * params.ssm_states_batch_stride + 
-    dim_id * kNRows * params.ssm_states_dim_stride;
+
+    typename Ktraits::state_t *ssm_states;
+    if (params.cache_enabled) {
+        // APC mode: ssm_states points to the base, we'll use absolute cache slots later
+        ssm_states = reinterpret_cast<typename Ktraits::state_t *>(params.ssm_states_ptr) +
+            dim_id * kNRows * params.ssm_states_dim_stride;
+    } else {
+        // Non-APC mode: offset by cache_index as before
+        ssm_states = reinterpret_cast<typename Ktraits::state_t *>(params.ssm_states_ptr) +
+            cache_index * params.ssm_states_batch_stride +
+            dim_id * kNRows * params.ssm_states_dim_stride;
+    }
     
     float D_val[kNRows] = {0};
     if (params.D_ptr != nullptr) {
@@ -159,7 +168,22 @@ void selective_scan_fwd_kernel(SSMParamsBase params) {
     // }
 
     constexpr int kChunkSize = kNThreads * kNItems;
-    const int n_chunks = (seqlen + 2048 - 1) / 2048;
+
+    // Use block_size for chunking when APC is enabled, otherwise use 2048 for backwards compatibility
+    const int iteration_chunk_size = params.cache_enabled ? params.block_size : 2048;
+    const int n_chunks = (seqlen + iteration_chunk_size - 1) / iteration_chunk_size;
+
+    const int* batch_cache_indices = cache_indices != nullptr ?
+                                     cache_indices + batch_id * params.cache_indices_stride : nullptr;
+    const int* block_idx_first_scheduled = params.block_idx_first_scheduled_token_ptr != nullptr ?
+                                           reinterpret_cast<const int*>(params.block_idx_first_scheduled_token_ptr) : nullptr;
+    const int* block_idx_last_scheduled = params.block_idx_last_scheduled_token_ptr != nullptr ?
+                                          reinterpret_cast<const int*>(params.block_idx_last_scheduled_token_ptr) : nullptr;
+    const int* initial_state_idx = params.initial_state_idx_ptr != nullptr ?
+                                   reinterpret_cast<const int*>(params.initial_state_idx_ptr) : nullptr;
+
+    const size_t load_cache_slot = params.cache_enabled && batch_cache_indices != nullptr ? batch_cache_indices[initial_state_idx[batch_id]] : cache_index;
+
     for (int chunk = 0; chunk < n_chunks; ++chunk) {
         input_t u_vals[kNRows][kNItems], delta_vals_load[kNRows][kNItems];
 
@@ -219,7 +243,7 @@ void selective_scan_fwd_kernel(SSMParamsBase params) {
             if constexpr (kIsVariableC) {
                 auto &smem_load_weight_C = !kIsVariableB ? smem_load_weight : smem_load_weight1;
                 load_weight<Ktraits>(Cvar + state_idx * params.C_dstate_stride, C_vals,
-                    smem_load_weight_C, (seqlen - chunk * kChunkSize) * (1 ));
+                    smem_load_weight_C, (seqlen - chunk * kChunkSize) * (1));
                 if constexpr (!kIsVariableB) {
                     #pragma unroll
                     for (int r = 0; r < kNRows; ++r) {
@@ -242,7 +266,6 @@ void selective_scan_fwd_kernel(SSMParamsBase params) {
                 for (int i = 0; i < kNItems; ++i) {
                     thread_data[i] = make_float2(exp2f(delta_vals[r][i] * A_val[r]),
                                                  !kIsVariableB ? delta_u_vals[r][i] : B_vals[i] * delta_u_vals[r][i]);
-                    
                     if (seqlen % (kNItems * kNThreads) != 0) {  // So that the last state is correct
                         if (threadIdx.x * kNItems + i >= seqlen - chunk * kChunkSize) {
                             thread_data[i] = make_float2(1.f, 0.f);
@@ -250,8 +273,24 @@ void selective_scan_fwd_kernel(SSMParamsBase params) {
                     }
                 }
                 // Initialize running total
-
-                scan_t running_prefix = chunk > 0 ? smem_running_prefix[state_idx + r * MAX_DSTATE] : make_float2(1.0, has_initial_state ? float(ssm_states[state_idx * params.ssm_states_dstate_stride]): 0.0);
+                scan_t running_prefix;
+                if (chunk > 0) {
+                    running_prefix = smem_running_prefix[state_idx + r * MAX_DSTATE];
+                } else {
+                    // Load initial state
+                    if (params.cache_enabled && has_initial_state && batch_cache_indices != nullptr) {
+                        size_t state_offset = load_cache_slot * params.ssm_states_batch_stride +
+                                             r * params.ssm_states_dim_stride +
+                                             state_idx * params.ssm_states_dstate_stride;
+                        running_prefix = make_float2(1.0, float(ssm_states[state_offset]));
+                    } else if (has_initial_state) {
+                        // Non-APC mode: load from current batch position
+                        running_prefix = make_float2(1.0, float(ssm_states[state_idx * params.ssm_states_dstate_stride]));
+                    } else {
+                        // No initial state
+                        running_prefix = make_float2(1.0, 0.0);
+                    }
+                }
 
                 SSMScanPrefixCallbackOp<weight_t> prefix_op(running_prefix);
                 typename Ktraits::BlockScanT(smem_scan).InclusiveScan(
@@ -260,8 +299,25 @@ void selective_scan_fwd_kernel(SSMParamsBase params) {
                 // There's a syncthreads in the scan op, so we don't need to sync here.
                 // Unless there's only 1 warp, but then it's the same thread (0) reading and writing.
                 if (threadIdx.x == 0) {
-                    smem_running_prefix[state_idx] = prefix_op.running_prefix;
-                    if (chunk == n_chunks - 1) {
+                    smem_running_prefix[state_idx + r * MAX_DSTATE] = prefix_op.running_prefix;
+
+                    // Store state at the end of each chunk when cache is enabled
+                    if (params.cache_enabled && batch_cache_indices != nullptr) {
+
+                        size_t cache_slot;
+                        if (chunk == n_chunks - 1) {
+                            cache_slot = batch_cache_indices[block_idx_last_scheduled[batch_id]];
+                        } else {
+                            cache_slot = batch_cache_indices[block_idx_first_scheduled[batch_id] + chunk];
+                        }
+
+                        size_t state_offset = cache_slot * params.ssm_states_batch_stride +
+                                             r * params.ssm_states_dim_stride +
+                                             state_idx * params.ssm_states_dstate_stride;
+
+                        ssm_states[state_offset] = typename Ktraits::state_t(prefix_op.running_prefix.y);
+                    } else if (!params.cache_enabled && chunk == n_chunks - 1) {
+                        // Non-APC mode: store only final state at current batch position
                         ssm_states[state_idx * params.ssm_states_dstate_stride] = typename Ktraits::state_t(prefix_op.running_prefix.y);
                     }
                 }
@@ -274,7 +330,6 @@ void selective_scan_fwd_kernel(SSMParamsBase params) {
                 }
             }
         }
-        
         input_t *out = reinterpret_cast<input_t *>(params.out_ptr) + sequence_start_index * params.out_batch_stride
             + dim_id * kNRows * params.out_d_stride + chunk * kChunkSize;
         __syncthreads();
@@ -346,7 +401,9 @@ template<typename input_t, typename weight_t, typename state_t>
 void selective_scan_fwd_cuda(SSMParamsBase &params, cudaStream_t stream) {
 
     #ifndef USE_ROCM
-        if (params.seqlen <= 128) {           
+        if (params.cache_enabled && params.block_size == 1024) {
+            selective_scan_fwd_launch<64, 16, input_t, weight_t, state_t>(params, stream);
+        } else if (params.seqlen <= 128) {
             selective_scan_fwd_launch<32, 4, input_t, weight_t, state_t>(params, stream);
         } else if (params.seqlen <= 256) {
             selective_scan_fwd_launch<32, 8, input_t, weight_t, state_t>(params, stream);
@@ -358,7 +415,9 @@ void selective_scan_fwd_cuda(SSMParamsBase &params, cudaStream_t stream) {
             selective_scan_fwd_launch<128, 16, input_t, weight_t, state_t>(params, stream);
         }
     #else
-        if (params.seqlen <= 256) {
+        if (params.cache_enabled && params.block_size == 1024) {
+            selective_scan_fwd_launch<64, 16, input_t, weight_t, state_t>(params, stream);
+        } else if (params.seqlen <= 256) {
             selective_scan_fwd_launch<64, 4, input_t, weight_t, state_t>(params, stream);
         } else if (params.seqlen <= 512) {
             selective_scan_fwd_launch<64, 8, input_t, weight_t, state_t>(params, stream);
@@ -437,13 +496,17 @@ void set_ssm_params_fwd(SSMParamsBase &params,
                         const std::optional<at::Tensor>& D,
                         const std::optional<at::Tensor>& delta_bias,
                         const torch::Tensor ssm_states,
-                        bool has_z, 
+                        bool has_z,
                         bool delta_softplus,
                         const std::optional<at::Tensor>& query_start_loc,
                         const std::optional<at::Tensor>& cache_indices,
                         const std::optional<at::Tensor>& has_initial_state,
                         bool varlen,
-                        int64_t pad_slot_id) {
+                        int64_t pad_slot_id,
+                        int64_t block_size,
+                        const std::optional<torch::Tensor> &block_idx_first_scheduled_token,
+                        const std::optional<torch::Tensor> &block_idx_last_scheduled_token,
+                        const std::optional<torch::Tensor> &initial_state_idx) {
 
     // Reset the parameters
     memset(&params, 0, sizeof(params));
@@ -477,6 +540,14 @@ void set_ssm_params_fwd(SSMParamsBase &params,
     params.cache_indices_ptr = cache_indices.has_value() ? cache_indices.value().data_ptr() : nullptr;
     params.has_initial_state_ptr = has_initial_state.has_value() ? has_initial_state.value().data_ptr() : nullptr;
 
+    // Set cache parameters - cache is enabled if we have direct cache writing params
+    params.cache_enabled = block_idx_first_scheduled_token.has_value();
+    params.block_size = static_cast<int>(block_size);
+
+    // Set direct cache writing pointers
+    params.block_idx_first_scheduled_token_ptr = block_idx_first_scheduled_token.has_value() ? block_idx_first_scheduled_token.value().data_ptr() : nullptr;
+    params.block_idx_last_scheduled_token_ptr = block_idx_last_scheduled_token.has_value() ? block_idx_last_scheduled_token.value().data_ptr() : nullptr;
+    params.initial_state_idx_ptr = initial_state_idx.has_value() ? initial_state_idx.value().data_ptr() : nullptr;
 
     // All stride are in elements, not bytes.
     params.A_d_stride = A.stride(0);
@@ -504,9 +575,11 @@ void set_ssm_params_fwd(SSMParamsBase &params,
         params.out_d_stride = out.stride(0);
 
         params.ssm_states_batch_stride = ssm_states.stride(0);
-        params.ssm_states_dim_stride = ssm_states.stride(1);  
+        params.ssm_states_dim_stride = ssm_states.stride(1);
         params.ssm_states_dstate_stride = ssm_states.stride(2);
 
+        params.cache_indices_stride = cache_indices.has_value() ? cache_indices.value().stride(0) : 0;
+
     }
     else{
         if (!is_variable_B) {
@@ -537,8 +610,10 @@ void set_ssm_params_fwd(SSMParamsBase &params,
         params.out_d_stride = out.stride(1);
         
         params.ssm_states_batch_stride = ssm_states.stride(0);
-        params.ssm_states_dim_stride = ssm_states.stride(1);  
+        params.ssm_states_dim_stride = ssm_states.stride(1);
         params.ssm_states_dstate_stride = ssm_states.stride(2);
+
+        params.cache_indices_stride = cache_indices.has_value() ? cache_indices.value().stride(0) : 0;
     }
 }
 
@@ -554,7 +629,11 @@ void selective_scan_fwd(const torch::Tensor &u, const torch::Tensor &delta,
                   const torch::Tensor &ssm_states,
                   // used to identify padding entries if cache_indices provided
                   // in case of padding, the kernel will return early
-                  int64_t pad_slot_id) {
+                  int64_t pad_slot_id,
+                  int64_t block_size,
+                  const std::optional<torch::Tensor> &block_idx_first_scheduled_token,
+                  const std::optional<torch::Tensor> &block_idx_last_scheduled_token,
+                  const std::optional<torch::Tensor> &initial_state_idx) {
     auto input_type = u.scalar_type();
     auto weight_type = A.scalar_type();
     TORCH_CHECK(input_type == at::ScalarType::Float || input_type == at::ScalarType::Half || input_type == at::ScalarType::BFloat16);
@@ -646,7 +725,16 @@ void selective_scan_fwd(const torch::Tensor &u, const torch::Tensor &delta,
         auto cache_indices_ = cache_indices.value();
         TORCH_CHECK(cache_indices_.scalar_type() == at::ScalarType::Int);
         TORCH_CHECK(cache_indices_.is_cuda());
-        CHECK_SHAPE(cache_indices_, batch_size);
+
+        // cache_indices can be either 1D (batch_size,) for non-APC mode
+        // or 2D (batch_size, max_positions) for APC mode
+        const bool is_apc_mode = block_idx_first_scheduled_token.has_value();
+        if (is_apc_mode) {
+            TORCH_CHECK(cache_indices_.dim() == 2, "cache_indices must be 2D for APC mode");
+            TORCH_CHECK(cache_indices_.size(0) == batch_size, "cache_indices first dimension must match batch_size");
+        } else {
+            CHECK_SHAPE(cache_indices_, batch_size);
+        }
     }
    
 
@@ -686,7 +774,11 @@ void selective_scan_fwd(const torch::Tensor &u, const torch::Tensor &delta,
                        cache_indices,
                        has_initial_state,
                        varlen,
-                       pad_slot_id
+                       pad_slot_id,
+                       block_size,
+                       block_idx_first_scheduled_token,
+                       block_idx_last_scheduled_token,
+                       initial_state_idx
                        );
 
     
diff --git a/csrc/ops.h b/csrc/ops.h
index 0bed7492f6616..3f5cb799b774c 100644
--- a/csrc/ops.h
+++ b/csrc/ops.h
@@ -321,17 +321,19 @@ void dynamic_per_token_scaled_fp8_quant(
     torch::Tensor& out, torch::Tensor const& input, torch::Tensor& scale,
     std::optional<torch::Tensor> const& scale_ub);
 
-void selective_scan_fwd(const torch::Tensor& u, const torch::Tensor& delta,
-                        const torch::Tensor& A, const torch::Tensor& B,
-                        const torch::Tensor& C,
-                        const std::optional<torch::Tensor>& D_,
-                        const std::optional<torch::Tensor>& z_,
-                        const std::optional<torch::Tensor>& delta_bias_,
-                        bool delta_softplus,
-                        const std::optional<torch::Tensor>& query_start_loc,
-                        const std::optional<torch::Tensor>& cache_indices,
-                        const std::optional<torch::Tensor>& has_initial_state,
-                        const torch::Tensor& ssm_states, int64_t pad_slot_id);
+void selective_scan_fwd(
+    const torch::Tensor& u, const torch::Tensor& delta, const torch::Tensor& A,
+    const torch::Tensor& B, const torch::Tensor& C,
+    const std::optional<torch::Tensor>& D_,
+    const std::optional<torch::Tensor>& z_,
+    const std::optional<torch::Tensor>& delta_bias_, bool delta_softplus,
+    const std::optional<torch::Tensor>& query_start_loc,
+    const std::optional<torch::Tensor>& cache_indices,
+    const std::optional<torch::Tensor>& has_initial_state,
+    const torch::Tensor& ssm_states, int64_t pad_slot_id, int64_t block_size,
+    const std::optional<torch::Tensor>& block_idx_first_scheduled_token,
+    const std::optional<torch::Tensor>& block_idx_last_scheduled_token,
+    const std::optional<torch::Tensor>& initial_state_idx);
 
 torch::Tensor dynamic_4bit_int_moe_cpu(
     torch::Tensor x, torch::Tensor topk_ids, torch::Tensor topk_weights,
diff --git a/csrc/torch_bindings.cpp b/csrc/torch_bindings.cpp
index 8f091a429fbef..9c0f524dcab11 100644
--- a/csrc/torch_bindings.cpp
+++ b/csrc/torch_bindings.cpp
@@ -611,7 +611,11 @@ TORCH_LIBRARY_EXPAND(TORCH_EXTENSION_NAME, ops) {
       "Tensor? cache_indices,"
       "Tensor? has_initial_state,"
       "Tensor! ssm_states,"
-      "int pad_slot_id) -> ()");
+      "int pad_slot_id,"
+      "int block_size,"
+      "Tensor? block_idx_first_scheduled_token,"
+      "Tensor? block_idx_last_scheduled_token,"
+      "Tensor? initial_state_idx) -> ()");
   ops.impl("selective_scan_fwd", torch::kCUDA, &selective_scan_fwd);
 
   // Hadamard transforms
diff --git a/tests/kernels/mamba/test_mamba_ssm.py b/tests/kernels/mamba/test_mamba_ssm.py
index c59fc7af0c897..98edc959957d0 100644
--- a/tests/kernels/mamba/test_mamba_ssm.py
+++ b/tests/kernels/mamba/test_mamba_ssm.py
@@ -179,6 +179,10 @@ def selective_scan_opcheck_fn(
     has_initial_state=None,
     ssm_states=None,
     pad_slot_id=PAD_SLOT_ID,
+    block_size=2048,
+    block_idx_first_scheduled_token=None,
+    block_idx_last_scheduled_token=None,
+    initial_state_idx=None,
 ):
     """if return_last_state is True, returns (out, last_state)
     last_state has shape (batch, dim, dstate).
@@ -223,6 +227,10 @@ def selective_scan_opcheck_fn(
             has_initial_state,
             ssm_states,
             pad_slot_id,
+            block_size,
+            block_idx_first_scheduled_token,
+            block_idx_last_scheduled_token,
+            initial_state_idx,
         ),
         test_utils=["test_schema", "test_faketensor"],
     )
@@ -338,6 +346,11 @@ def test_selective_scan(
             has_initial_state=torch.ones(batch_size, device=u.device, dtype=torch.bool)
             if c > 0
             else None,
+            pad_slot_id=PAD_SLOT_ID,
+            block_size=2048,
+            block_idx_first_scheduled_token=None,
+            block_idx_last_scheduled_token=None,
+            initial_state_idx=None,
         )
         outs.append(out)
     if len(outs) > 1:
@@ -372,6 +385,7 @@ def test_selective_scan(
         delta_bias=delta_bias,
         delta_softplus=delta_softplus,
         ssm_states=state,
+        block_size=2048,
     )
 
 
@@ -586,6 +600,7 @@ def test_selective_scan_varlen(
         padded_state_indices,
         has_initial_state,
         prev_state,
+        block_size=2048,
     )
 
 
diff --git a/tests/models/language/generation/test_hybrid.py b/tests/models/language/generation/test_hybrid.py
index fd2df329f17f9..681b380e6a155 100644
--- a/tests/models/language/generation/test_hybrid.py
+++ b/tests/models/language/generation/test_hybrid.py
@@ -19,6 +19,8 @@ pytestmark = pytest.mark.hybrid_model
 # meaning that it will be used in all tests in this file
 # The rest of the models will only be tested by test_models
 
+APC_MULTIPLY_BY = 300
+
 SSM_MODELS = [
     "state-spaces/mamba-130m-hf",
     "tiiuae/falcon-mamba-tiny-dev",
@@ -380,7 +382,7 @@ def _get_vLLM_output(
     return outs, vllm_model
 
 
-@pytest.mark.parametrize("model", [HYBRID_MODELS[3]])
+@pytest.mark.parametrize("model", [HYBRID_MODELS[0], HYBRID_MODELS[3]])
 @pytest.mark.parametrize("max_tokens", [64])
 @pytest.mark.parametrize("n_repetitions", [2])
 # If num_logprobs is set to -1, then the stringent version
@@ -410,10 +412,8 @@ def test_apc_single_prompt(
         check_logprobs_close if num_logprobs > 0 else check_outputs_equal  # type: ignore
     )
 
-    MULTIPLE = 300
-
     # Sample prompts.
-    generated_prompts = [MULTIPLE * example_prompts[0]]
+    generated_prompts = [APC_MULTIPLY_BY * example_prompts[0]]
 
     max_model_len = max(len(prompt) + max_tokens for prompt in generated_prompts)
     vllm_runner_kwargs = _get_vllm_runner_params(
@@ -446,7 +446,7 @@ def test_apc_single_prompt(
         )
 
 
-@pytest.mark.parametrize("model", [HYBRID_MODELS[3]])
+@pytest.mark.parametrize("model", [HYBRID_MODELS[0], HYBRID_MODELS[3]])
 @pytest.mark.parametrize("max_tokens", [64])
 @pytest.mark.parametrize("n_repetitions", [2])
 # If num_logprobs is set to -1, then the stringent version
@@ -476,10 +476,8 @@ def test_apc_single_prompt_block_align_alignment(
         check_logprobs_close if num_logprobs > 0 else check_outputs_equal  # type: ignore
     )
 
-    MULTIPLE = 300
-
     # Sample prompts. This custom prompt is used, as it causes the most issues
-    generated_prompts = ["The president of the United States is " * MULTIPLE]
+    generated_prompts = ["The president of the United States is " * APC_MULTIPLY_BY]
 
     max_model_len = max(len(prompt) + max_tokens for prompt in generated_prompts)
     vllm_runner_kwargs = _get_vllm_runner_params(
@@ -528,7 +526,7 @@ def test_apc_single_prompt_block_align_alignment(
             )
 
 
-@pytest.mark.parametrize("model", [HYBRID_MODELS[3]])
+@pytest.mark.parametrize("model", [HYBRID_MODELS[0], HYBRID_MODELS[3]])
 @pytest.mark.parametrize("max_tokens", [64])
 @pytest.mark.parametrize("n_repetitions", [2])
 # If num_logprobs is set to -1, then the stringent version
@@ -558,10 +556,8 @@ def test_apc_multiple_prompts_all_cached_outputs(
         check_logprobs_close if num_logprobs > 0 else check_outputs_equal  # type: ignore
     )
 
-    MULTIPLE = 300
-
     # Sample prompts.
-    generated_prompts = [MULTIPLE * prompt for prompt in example_prompts]
+    generated_prompts = [APC_MULTIPLY_BY * prompt for prompt in example_prompts]
 
     max_model_len = max(len(prompt) + max_tokens for prompt in generated_prompts)
     vllm_runner_kwargs = _get_vllm_runner_params(
@@ -595,7 +591,7 @@ def test_apc_multiple_prompts_all_cached_outputs(
         )
 
 
-@pytest.mark.parametrize("model", [HYBRID_MODELS[3]])
+@pytest.mark.parametrize("model", [HYBRID_MODELS[0], HYBRID_MODELS[3]])
 @pytest.mark.parametrize("max_tokens", [64])
 @pytest.mark.parametrize("n_repetitions", [2])
 # If num_logprobs is set to -1, then the stringent version
@@ -625,12 +621,12 @@ def test_apc_multiple_prompts_block_align_alignment(
         check_logprobs_close if num_logprobs > 0 else check_outputs_equal  # type: ignore
     )
 
-    MULTIPLE = 300
-
     # Sample prompts. This custom prompt is used, as it causes the most issues
     prompt_text = "The president of the United States is "
     prompt_offsets = [0, 3, 7, 13, 17, 22, 25, 31]
-    generated_prompts = [prompt_text[offset:] * MULTIPLE for offset in prompt_offsets]
+    generated_prompts = [
+        prompt_text[offset:] * APC_MULTIPLY_BY for offset in prompt_offsets
+    ]
 
     max_model_len = max(len(prompt) + max_tokens for prompt in generated_prompts)
     vllm_runner_kwargs = _get_vllm_runner_params(
@@ -679,7 +675,7 @@ def test_apc_multiple_prompts_block_align_alignment(
             )
 
 
-@pytest.mark.parametrize("model", [HYBRID_MODELS[3]])
+@pytest.mark.parametrize("model", [HYBRID_MODELS[0], HYBRID_MODELS[3]])
 @pytest.mark.parametrize("max_tokens", [64])
 @pytest.mark.parametrize("n_repetitions", [2])
 # If num_logprobs is set to -1, then the stringent version
@@ -709,10 +705,8 @@ def test_apc_multiple_prompts_partial_cached_outputs(
         check_logprobs_close if num_logprobs > 0 else check_outputs_equal  # type: ignore
     )
 
-    MULTIPLE = 300
-
     # Sample prompts.
-    generated_prompts = [MULTIPLE * prompt for prompt in example_prompts]
+    generated_prompts = [APC_MULTIPLY_BY * prompt for prompt in example_prompts]
 
     max_model_len = max(len(prompt) + max_tokens for prompt in generated_prompts)
     vllm_runner_kwargs = _get_vllm_runner_params(
diff --git a/vllm/_custom_ops.py b/vllm/_custom_ops.py
index 9110b0573fc92..61cf54fcfa39a 100644
--- a/vllm/_custom_ops.py
+++ b/vllm/_custom_ops.py
@@ -1719,6 +1719,10 @@ def selective_scan_fwd(
     has_initial_state: torch.Tensor | None,
     ssm_states: torch.Tensor,
     pad_slot_id: int,
+    block_size: int = 1024,
+    block_idx_first_scheduled_token: torch.Tensor | None = None,
+    block_idx_last_scheduled_token: torch.Tensor | None = None,
+    initial_state_idx: torch.Tensor | None = None,
 ):
     torch.ops._C.selective_scan_fwd(
         u,
@@ -1735,6 +1739,10 @@ def selective_scan_fwd(
         has_initial_state,
         ssm_states,
         pad_slot_id,
+        block_size,
+        block_idx_first_scheduled_token,
+        block_idx_last_scheduled_token,
+        initial_state_idx,
     )
 
 
diff --git a/vllm/config/model.py b/vllm/config/model.py
index 082f90653f5af..2e80df4311035 100644
--- a/vllm/config/model.py
+++ b/vllm/config/model.py
@@ -1483,6 +1483,12 @@ class ModelConfig:
         if chunk_size is None:
             # used by e.g. Mamba2, NemotronH, Zamba
             chunk_size = getattr(self.hf_text_config, "chunk_size", None)
+
+        # Since Mamba1 does not have a chunk notion
+        # we use a default chunk size of 1024.
+        if chunk_size is None:
+            chunk_size = 2048
+
         return chunk_size
 
     def get_multimodal_config(self) -> MultiModalConfig:
diff --git a/vllm/model_executor/layers/mamba/mamba_mixer.py b/vllm/model_executor/layers/mamba/mamba_mixer.py
index a9a0c216474bc..b6345b8af7f0a 100644
--- a/vllm/model_executor/layers/mamba/mamba_mixer.py
+++ b/vllm/model_executor/layers/mamba/mamba_mixer.py
@@ -241,18 +241,21 @@ class MambaMixer(MambaBase, CustomOp):
         forward_context: ForwardContext = get_forward_context()
         attn_metadata = forward_context.attn_metadata
 
+        assert self.cache_config is not None
+        mamba_block_size = self.cache_config.mamba_block_size
+        prefix_caching_enabled = self.cache_config.enable_prefix_caching
+
         if attn_metadata is not None:
             assert isinstance(attn_metadata, dict)
             attn_metadata = attn_metadata[self.prefix]
-            mamba1_metadata = attn_metadata
-            assert isinstance(mamba1_metadata, Mamba1AttentionMetadata)
-            query_start_loc = mamba1_metadata.query_start_loc
-            state_indices_tensor = mamba1_metadata.state_indices_tensor
+            assert isinstance(attn_metadata, Mamba1AttentionMetadata)
+            query_start_loc_p = attn_metadata.query_start_loc_p
+            state_indices_tensor = attn_metadata.state_indices_tensor
             self_kv_cache = self.kv_cache[forward_context.virtual_engine]
             conv_state = self_kv_cache[0].transpose(-1, -2)
             ssm_state = self_kv_cache[1]
-            has_initial_states = mamba1_metadata.has_initial_states
-            num_padded_decodes = mamba1_metadata.num_padded_decodes
+            has_initial_states_p = attn_metadata.has_initial_states_p
+            num_padded_decodes = attn_metadata.num_padded_decodes
 
         # 1. Gated MLP's linear projection
         projected_states = self.in_proj(hidden_states)[0].transpose(-2, -1)
@@ -279,12 +282,8 @@ class MambaMixer(MambaBase, CustomOp):
             hidden_states_BC,
             gate,
             state_indices_tensor,
-            query_start_loc,
-            has_initial_states,
             num_prefill_tokens,
-            num_decode_tokens,
             num_prefills,
-            num_decodes,
             num_padded_decodes,
         )
         hidden_states_BC_p = prefill_decode_split.hidden_states_BC_p
@@ -293,8 +292,34 @@ class MambaMixer(MambaBase, CustomOp):
         gate_d = prefill_decode_split.gate_d
         state_indices_tensor_p = prefill_decode_split.state_indices_tensor_p
         state_indices_tensor_d = prefill_decode_split.state_indices_tensor_d
-        query_start_loc_p = prefill_decode_split.query_start_loc_p
-        has_initial_states_p = prefill_decode_split.has_initial_states_p
+
+        if prefix_caching_enabled:
+            block_idx_last_computed_token_d, block_idx_last_computed_token_p = (
+                torch.split(
+                    attn_metadata.block_idx_last_computed_token,
+                    [num_decodes, num_prefills],
+                    dim=0,
+                )
+            )
+            block_idx_last_scheduled_token_d, block_idx_last_scheduled_token_p = (
+                torch.split(
+                    attn_metadata.block_idx_last_scheduled_token,
+                    [num_decodes, num_prefills],
+                    dim=0,
+                )
+            )
+
+            block_idx_first_scheduled_token_p = (
+                attn_metadata.block_idx_first_scheduled_token_p
+            )
+            num_computed_tokens_p = attn_metadata.num_computed_tokens_p
+        else:
+            block_idx_last_computed_token_d = None
+            block_idx_last_computed_token_p = None
+            block_idx_last_scheduled_token_d = None
+            block_idx_last_scheduled_token_p = None
+            block_idx_first_scheduled_token_p = None
+            num_computed_tokens_p = None
 
         ssm_outputs = []
 
@@ -309,6 +334,11 @@ class MambaMixer(MambaBase, CustomOp):
                 has_initial_state=has_initial_states_p,
                 cache_indices=state_indices_tensor_p,
                 query_start_loc=query_start_loc_p,
+                block_idx_first_scheduled_token=block_idx_first_scheduled_token_p,
+                block_idx_last_scheduled_token=block_idx_last_scheduled_token_p,
+                initial_state_idx=block_idx_last_computed_token_p,
+                num_computed_tokens=num_computed_tokens_p,
+                block_size_to_align=mamba_block_size,
             )
             # 3. State Space Model sequence transformations.
             discrete_time_step_p, B_p, C_p = self._ssm_transform(
@@ -331,10 +361,24 @@ class MambaMixer(MambaBase, CustomOp):
                 cache_indices=state_indices_tensor_p,
                 has_initial_state=has_initial_states_p,
                 query_start_loc=query_start_loc_p,
+                block_size=mamba_block_size,
+                block_idx_first_scheduled_token=block_idx_first_scheduled_token_p,
+                block_idx_last_scheduled_token=block_idx_last_scheduled_token_p,
+                initial_state_idx=block_idx_last_computed_token_p,
             )
             ssm_outputs.append(scan_out_p)
 
         if has_decode:
+            if prefix_caching_enabled:
+                state_indices_tensor_d_input = state_indices_tensor_d.gather(
+                    1, block_idx_last_computed_token_d.unsqueeze(1)
+                ).squeeze(1)
+                state_indices_tensor_d_output = state_indices_tensor_d.gather(
+                    1, block_idx_last_scheduled_token_d.unsqueeze(1)
+                ).squeeze(1)
+            else:
+                state_indices_tensor_d_input = state_indices_tensor_d
+                state_indices_tensor_d_output = state_indices_tensor_d
             # 2. Convolution sequence transformation
             conv_out_d = causal_conv1d_update(
                 hidden_states_BC_d.transpose(0, 1),
@@ -343,6 +387,8 @@ class MambaMixer(MambaBase, CustomOp):
                 self.conv1d.bias,
                 self.activation,
                 conv_state_indices=state_indices_tensor_d,
+                block_idx_last_scheduled_token=block_idx_last_scheduled_token_d,
+                initial_state_idx=block_idx_last_computed_token_d,
             ).transpose(0, 1)
 
             # 3. State Space Model sequence transformation.
@@ -364,7 +410,8 @@ class MambaMixer(MambaBase, CustomOp):
                 gate_d.transpose(0, 1),
                 time_proj_bias,
                 dt_softplus=True,
-                state_batch_indices=state_indices_tensor_d,
+                state_batch_indices=state_indices_tensor_d_input,
+                dst_state_batch_indices=state_indices_tensor_d_output,
                 out=scan_outputs_d,
             )
             scan_outputs_d = scan_outputs_d.transpose(0, 1)
@@ -423,20 +470,14 @@ class PrefillDecodeSplit(NamedTuple):
     gate_d: torch.Tensor
     state_indices_tensor_p: torch.Tensor
     state_indices_tensor_d: torch.Tensor
-    query_start_loc_p: torch.Tensor | None
-    has_initial_states_p: torch.Tensor | None
 
 
 def split_batch_to_prefill_and_decode(
     hidden_states_BC: torch.Tensor,
     gate: torch.Tensor,
     state_indices_tensor: torch.Tensor,
-    query_start_loc: torch.Tensor,
-    has_initial_states: torch.Tensor | None,
     num_prefill_tokens: int,
-    num_decode_tokens: int,
     num_prefills: int,
-    num_decodes: int,
     num_padded_decodes: int,
 ) -> PrefillDecodeSplit:
     num_actual_tokens = num_prefill_tokens + num_padded_decodes
@@ -457,16 +498,6 @@ def split_batch_to_prefill_and_decode(
         [num_padded_decodes, num_prefills],
         dim=0,
     )
-    query_start_loc_p = (
-        query_start_loc[-num_prefills - 1 :] - num_padded_decodes
-        if num_prefills > 0
-        else None
-    )
-    has_initial_states_p = (
-        has_initial_states[-num_prefills:]
-        if (has_initial_states is not None and num_prefills > 0)
-        else None
-    )
 
     return PrefillDecodeSplit(
         hidden_states_BC_p=hidden_states_BC_p,
@@ -475,8 +506,6 @@ def split_batch_to_prefill_and_decode(
         gate_d=gate_d,
         state_indices_tensor_p=state_indices_tensor_p,
         state_indices_tensor_d=state_indices_tensor_d,
-        query_start_loc_p=query_start_loc_p,
-        has_initial_states_p=has_initial_states_p,
     )
 
 
diff --git a/vllm/model_executor/layers/mamba/ops/mamba_ssm.py b/vllm/model_executor/layers/mamba/ops/mamba_ssm.py
index 8722eb9a7b22f..53fd5d5458b09 100644
--- a/vllm/model_executor/layers/mamba/ops/mamba_ssm.py
+++ b/vllm/model_executor/layers/mamba/ops/mamba_ssm.py
@@ -375,6 +375,10 @@ def selective_scan_fn(
     cache_indices=None,
     has_initial_state=None,
     pad_slot_id=PAD_SLOT_ID,
+    block_size=1024,
+    block_idx_first_scheduled_token=None,
+    block_idx_last_scheduled_token=None,
+    initial_state_idx=None,
 ) -> torch.Tensor:
     """
     u: (dim, total_length) for varlen or (batch, dim, seqlen)
@@ -397,7 +401,10 @@ def selective_scan_fn(
         x.shape=(dim,17)
     cache_indices: (batch) int32
         A tensor with each cell is a correspondent
-        input and output ssm_state index
+        input and output ssm_state indices
+      - Without APC: (batch,) - single state index per batch item
+      - With APC: (batch, max_positions) - cache block indices for read/write
+        Each non-zero value indicates a cache block to load from and/or write to.
     has_initial_state: (batch) bool
         A tensor populated with ones and zeros,
         indicate if the ssm_state at the corresponding index should be
@@ -408,6 +415,17 @@ def selective_scan_fn(
         that will not be processed,
         for example: cache_indices = [pad_slot_id, 1 ,20 ,pad_slot_id]
         in this case, the kernel will not process entries at indices 0 and 3
+    block_size: int
+        The block size to align the cached states to
+    block_idx_first_scheduled_token: (batch,), dtype int32
+        The pointer into cache_indices, where the first
+        cache block to be filled is located.
+    block_idx_last_scheduled_token: (batch,), dtype int32
+        The pointer into cache_indices, where the last cache block
+        to be filled is located.
+    initial_state_idx: (batch,), dtype int32
+        The pointer into cache_indices, where the cache block
+        containing the initial state is located.
     returns
         output: (dim, total_length) for varlen or (batch, dim, seqlen)
                 supports inplace replacement
@@ -448,6 +466,10 @@ def selective_scan_fn(
         has_initial_state,
         ssm_states,
         pad_slot_id,
+        block_size,
+        block_idx_first_scheduled_token,
+        block_idx_last_scheduled_token,
+        initial_state_idx,
     )
 
     if z is None:
diff --git a/vllm/model_executor/models/config.py b/vllm/model_executor/models/config.py
index 7150977e9266b..5dda2ec97875f 100644
--- a/vllm/model_executor/models/config.py
+++ b/vllm/model_executor/models/config.py
@@ -299,7 +299,7 @@ class MambaModelConfig(VerifyAndUpdateConfig):
             if model_config.supports_mamba_prefix_caching:
                 logger.info(
                     "Warning: Prefix caching is currently enabled. "
-                    "Its support for Mamba2 layers is experimental. "
+                    "Its support for Mamba layers is experimental. "
                     "Please report any issues you may observe."
                 )
             else:
diff --git a/vllm/model_executor/models/jamba.py b/vllm/model_executor/models/jamba.py
index f8a87cf6965f8..ba95021b0b542 100644
--- a/vllm/model_executor/models/jamba.py
+++ b/vllm/model_executor/models/jamba.py
@@ -38,7 +38,13 @@ from vllm.model_executor.model_loader.weight_utils import default_weight_loader
 from vllm.model_executor.models.llama import LlamaMLP as JambaMLP
 from vllm.sequence import IntermediateTensors
 
-from .interfaces import HasInnerState, IsHybrid, SupportsLoRA, SupportsPP
+from .interfaces import (
+    HasInnerState,
+    IsHybrid,
+    SupportsLoRA,
+    SupportsMambaPrefixCaching,
+    SupportsPP,
+)
 from .utils import (
     AutoWeightsLoader,
     WeightsMapper,
@@ -454,7 +460,14 @@ class JambaModel(nn.Module):
         return loaded_params
 
 
-class JambaForCausalLM(nn.Module, HasInnerState, SupportsLoRA, SupportsPP, IsHybrid):
+class JambaForCausalLM(
+    nn.Module,
+    HasInnerState,
+    SupportsLoRA,
+    SupportsPP,
+    IsHybrid,
+    SupportsMambaPrefixCaching,
+):
     hf_to_vllm_mapper = WeightsMapper(
         orig_to_new_substr={".self_attn.": ".", ".A_log": ".A"},
     )
@@ -477,12 +490,8 @@ class JambaForCausalLM(nn.Module, HasInnerState, SupportsLoRA, SupportsPP, IsHyb
 
     def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
         config = vllm_config.model_config.hf_config
-        cache_config = vllm_config.cache_config
         lora_config = vllm_config.lora_config
         scheduler_config = vllm_config.scheduler_config
-        assert not cache_config.enable_prefix_caching, (
-            "Jamba currently does not support prefix caching"
-        )
 
         super().__init__()
         self.config = config
diff --git a/vllm/model_executor/models/mamba.py b/vllm/model_executor/models/mamba.py
index fb145289fbfe9..f684203f6d35e 100644
--- a/vllm/model_executor/models/mamba.py
+++ b/vllm/model_executor/models/mamba.py
@@ -29,6 +29,7 @@ from vllm.model_executor.model_loader.weight_utils import default_weight_loader
 from vllm.model_executor.models.interfaces import (
     HasInnerState,
     IsAttentionFree,
+    SupportsMambaPrefixCaching,
     SupportsPP,
 )
 from vllm.sequence import IntermediateTensors
@@ -193,15 +194,13 @@ class MambaModel(nn.Module):
         return loaded_params
 
 
-class MambaForCausalLM(nn.Module, HasInnerState, IsAttentionFree, SupportsPP):
+class MambaForCausalLM(
+    nn.Module, HasInnerState, IsAttentionFree, SupportsPP, SupportsMambaPrefixCaching
+):
     def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
         config = vllm_config.model_config.hf_config
-        cache_config = vllm_config.cache_config
         lora_config = vllm_config.lora_config
         self.scheduler_config = vllm_config.scheduler_config
-        assert not cache_config.enable_prefix_caching, (
-            "Mamba does not support prefix caching"
-        )
 
         super().__init__()
         self.config = config
diff --git a/vllm/v1/attention/backends/mamba1_attn.py b/vllm/v1/attention/backends/mamba1_attn.py
index 30c63e0ded8e7..909af09be255a 100644
--- a/vllm/v1/attention/backends/mamba1_attn.py
+++ b/vllm/v1/attention/backends/mamba1_attn.py
@@ -7,11 +7,13 @@ import torch
 
 from vllm.attention.backends.abstract import AttentionBackend
 from vllm.attention.backends.utils import PAD_SLOT_ID
+from vllm.config import VllmConfig
 from vllm.v1.attention.backends.mamba_attn import BaseMambaAttentionMetadataBuilder
 from vllm.v1.attention.backends.utils import (
     CommonAttentionMetadata,
     split_decodes_and_prefills,
 )
+from vllm.v1.kv_cache_interface import AttentionSpec, MambaSpec
 
 
 class Mamba1AttentionBackend(AttentionBackend):
@@ -22,32 +24,41 @@ class Mamba1AttentionBackend(AttentionBackend):
 
 @dataclass
 class Mamba1AttentionMetadata:
-    query_start_loc: torch.Tensor
-    context_lens_tensor: torch.Tensor
+    query_start_loc_p: torch.Tensor
     state_indices_tensor: torch.Tensor
-    has_initial_states: torch.Tensor | None
+    has_initial_states_p: torch.Tensor | None
     num_prefills: int
     num_prefill_tokens: int
     num_decodes: int
     num_decode_tokens: int
     num_padded_decodes: int
 
+    block_idx_last_scheduled_token: torch.Tensor  # shape: [batch,]
+    block_idx_first_scheduled_token_p: torch.Tensor  # shape: [batch,]
+    block_idx_last_computed_token: torch.Tensor  # shape: [batch,]
+    num_computed_tokens_p: torch.Tensor  # shape: [batch,]
+
 
 class Mamba1AttentionMetadataBuilder(
     BaseMambaAttentionMetadataBuilder[Mamba1AttentionMetadata]
 ):
+    def __init__(
+        self,
+        kv_cache_spec: AttentionSpec,
+        layer_names: list[str],
+        vllm_config: VllmConfig,
+        device: torch.device,
+    ):
+        super().__init__(kv_cache_spec, layer_names, vllm_config, device)
+        assert isinstance(kv_cache_spec, MambaSpec)
+
     def build(
         self,
         common_prefix_len: int,
         common_attn_metadata: CommonAttentionMetadata,
         fast_build: bool = False,
     ) -> Mamba1AttentionMetadata:
-        query_start_loc = common_attn_metadata.query_start_loc
-
-        state_indices_tensor = common_attn_metadata.block_table_tensor[:, 0]
-        context_lens_tensor = common_attn_metadata.num_computed_tokens_cpu.to(
-            query_start_loc.device
-        )
+        num_reqs = common_attn_metadata.num_reqs
 
         num_decodes, num_prefills, num_decode_tokens, num_prefill_tokens = (
             split_decodes_and_prefills(
@@ -55,32 +66,100 @@ class Mamba1AttentionMetadataBuilder(
             )
         )
 
-        has_initial_states = None
+        has_initial_states_p = None
+        query_start_loc_p = None
         padded_decodes = num_decodes
+        num_computed_tokens, num_computed_tokens_p = None, None
+        block_idx_first_scheduled_token = None
+        block_idx_first_scheduled_token_p = None
+
+        # TODO(@Josephasafg) Mamba1 and Mamba2 have a lot of code in common here.
+        # We should consolidate this code
+        if self.vllm_config.cache_config.enable_prefix_caching:
+            # Return a tensor of shape (#requests, #max blocks)
+            state_indices_tensor = common_attn_metadata.block_table_tensor
+            mamba_block_size = self.kv_cache_spec.block_size
+            num_computed_tokens = common_attn_metadata.num_computed_tokens_cpu.to(
+                self.device
+            )
+            (
+                block_idx_last_computed_token,
+                block_idx_first_scheduled_token,
+                block_idx_last_scheduled_token,
+            ) = self._compute_prefix_caching_block_indices(
+                common_attn_metadata, mamba_block_size
+            )
+        else:
+            # Always return just a single block per each request:
+            state_indices_tensor = common_attn_metadata.block_table_tensor[:, 0]
+            block_idx_last_scheduled_token = None
+            block_idx_last_computed_token = None
 
         if num_prefills > 0:
-            has_initial_states = context_lens_tensor > 0
+            query_start_loc_p = (
+                common_attn_metadata.query_start_loc[-num_prefills - 1 :]
+                - num_decode_tokens
+            )
+            has_initial_states_cpu = (
+                common_attn_metadata.num_computed_tokens_cpu[
+                    num_reqs - num_prefills : num_reqs
+                ]
+                > 0
+            )
+            has_initial_states_p = has_initial_states_cpu.to(
+                common_attn_metadata.query_start_loc.device
+            )
+
+            if self.vllm_config.cache_config.enable_prefix_caching:
+                assert num_computed_tokens is not None
+                num_computed_tokens_p = num_computed_tokens[
+                    num_reqs - num_prefills : num_reqs
+                ]
+                assert block_idx_first_scheduled_token is not None
+                block_idx_first_scheduled_token_p = block_idx_first_scheduled_token[
+                    num_reqs - num_prefills : num_reqs
+                ]
+
         elif (
             num_decodes > 0
             and num_decodes <= self.decode_cudagraph_max_bs
             and self.compilation_config.full_cuda_graph
         ):
-            state_indices_for_decode = state_indices_tensor[:num_decodes]
             padded_decodes = self.vllm_config.pad_for_cudagraph(num_decodes)
             self.state_indices_tensor[:num_decodes].copy_(
-                state_indices_for_decode, non_blocking=True
+                state_indices_tensor, non_blocking=True
             )
             state_indices_tensor = self.state_indices_tensor[:padded_decodes]
             state_indices_tensor[num_decodes:] = PAD_SLOT_ID
 
+            if self.vllm_config.cache_config.enable_prefix_caching:
+                self.block_idx_last_scheduled_token[:num_decodes].copy_(
+                    block_idx_last_scheduled_token, non_blocking=True
+                )
+                block_idx_last_scheduled_token = self.block_idx_last_scheduled_token[
+                    :padded_decodes
+                ]
+                block_idx_last_scheduled_token[num_decodes:] = 0
+
+                self.block_idx_last_computed_token[:num_decodes].copy_(
+                    block_idx_last_computed_token, non_blocking=True
+                )
+                block_idx_last_computed_token = self.block_idx_last_computed_token[
+                    :padded_decodes
+                ]
+                block_idx_last_computed_token[num_decodes:] = 0
+
         return Mamba1AttentionMetadata(
-            query_start_loc=query_start_loc,
-            context_lens_tensor=context_lens_tensor,
-            has_initial_states=has_initial_states,
+            query_start_loc_p=query_start_loc_p,
+            has_initial_states_p=has_initial_states_p,
             state_indices_tensor=state_indices_tensor,
             num_prefills=num_prefills,
             num_prefill_tokens=num_prefill_tokens,
             num_decodes=num_decodes,
             num_decode_tokens=num_decode_tokens,
             num_padded_decodes=padded_decodes,
+            block_idx_last_scheduled_token=block_idx_last_scheduled_token,
+            block_idx_first_scheduled_token_p=block_idx_first_scheduled_token_p,
+            block_idx_last_computed_token=block_idx_last_computed_token,
+            num_computed_tokens_p=num_computed_tokens_p,
         )
diff --git a/vllm/v1/attention/backends/mamba2_attn.py b/vllm/v1/attention/backends/mamba2_attn.py
index f9d2426eaf632..4bc1057333a50 100644
--- a/vllm/v1/attention/backends/mamba2_attn.py
+++ b/vllm/v1/attention/backends/mamba2_attn.py
@@ -147,27 +147,6 @@ class Mamba2AttentionMetadataBuilder(
         assert self.chunk_size is not None, (
             "chunk_size needs to be set in the model config for Mamba2 models"
         )
-        if self.vllm_config.cache_config.enable_prefix_caching:
-            self.state_indices_tensor = torch.empty(
-                (
-                    self.decode_cudagraph_max_bs,
-                    cdiv(
-                        vllm_config.model_config.max_model_len, kv_cache_spec.block_size
-                    ),
-                ),
-                dtype=torch.int32,
-                device=device,
-            )
-            self.block_idx_last_scheduled_token = torch.empty(
-                (self.decode_cudagraph_max_bs,),
-                dtype=torch.int32,
-                device=device,
-            )
-            self.block_idx_last_computed_token = torch.empty(
-                (self.decode_cudagraph_max_bs,),
-                dtype=torch.int32,
-                device=device,
-            )
 
     def build(
         self,
@@ -202,20 +181,13 @@ class Mamba2AttentionMetadataBuilder(
             num_computed_tokens = common_attn_metadata.num_computed_tokens_cpu.to(
                 self.device
             )
-            # Block index of the last computed token
-            block_idx_last_computed_token = (
-                cdiv(num_computed_tokens, mamba_block_size) - 1
+            (
+                block_idx_last_computed_token,
+                block_idx_first_scheduled_token,
+                block_idx_last_scheduled_token,
+            ) = self._compute_prefix_caching_block_indices(
+                common_attn_metadata, mamba_block_size
             )
-            # which is <= block index for the first scheduled token
-            block_idx_first_scheduled_token = (
-                cdiv(num_computed_tokens + 1, mamba_block_size) - 1
-            )
-            # which is <= block index of the last scheduled token
-            block_idx_last_scheduled_token = (
-                cdiv(common_attn_metadata.seq_lens, mamba_block_size) - 1
-            )
-            # -1 in case it's non-computed and causes later issues with indexing
-            block_idx_last_computed_token = block_idx_last_computed_token.clamp(min=0)
         else:
             # Always return just a single block per each request:
             state_indices_tensor = common_attn_metadata.block_table_tensor[:, 0]
diff --git a/vllm/v1/attention/backends/mamba_attn.py b/vllm/v1/attention/backends/mamba_attn.py
index 52f26a9e61cab..49d7d6c31b9a0 100644
--- a/vllm/v1/attention/backends/mamba_attn.py
+++ b/vllm/v1/attention/backends/mamba_attn.py
@@ -7,6 +7,7 @@ from typing import ClassVar, TypeVar
 import torch
 
 from vllm.config import VllmConfig
+from vllm.utils.math_utils import cdiv
 from vllm.v1.attention.backends.utils import (
     AttentionCGSupport,
     AttentionMetadataBuilder,
@@ -38,11 +39,35 @@ class BaseMambaAttentionMetadataBuilder(AttentionMetadataBuilder[M], abc.ABC):
             self.vllm_config.scheduler_config.max_num_seqs,
             self.compilation_config.max_cudagraph_capture_size,
         )
-        self.state_indices_tensor = torch.empty(
-            (self.decode_cudagraph_max_bs,),
-            dtype=torch.int32,
-            device=device,
-        )
+
+        if self.vllm_config.cache_config.enable_prefix_caching:
+            self.state_indices_tensor = torch.empty(
+                (
+                    self.decode_cudagraph_max_bs,
+                    cdiv(
+                        self.vllm_config.model_config.max_model_len,
+                        self.kv_cache_spec.block_size,
+                    ),
+                ),
+                dtype=torch.int32,
+                device=device,
+            )
+            self.block_idx_last_scheduled_token = torch.empty(
+                (self.decode_cudagraph_max_bs,),
+                dtype=torch.int32,
+                device=device,
+            )
+            self.block_idx_last_computed_token = torch.empty(
+                (self.decode_cudagraph_max_bs,),
+                dtype=torch.int32,
+                device=device,
+            )
+        else:
+            self.state_indices_tensor = torch.empty(
+                (self.decode_cudagraph_max_bs,),
+                dtype=torch.int32,
+                device=device,
+            )
 
     def build_for_cudagraph_capture(
         self, common_attn_metadata: CommonAttentionMetadata
@@ -61,3 +86,30 @@ class BaseMambaAttentionMetadataBuilder(AttentionMetadataBuilder[M], abc.ABC):
         m.max_query_len = 1  # decode-only
 
         return self.build(0, m)
+
+    def _compute_prefix_caching_block_indices(
+        self,
+        common_attn_metadata: CommonAttentionMetadata,
+        mamba_block_size: int,
+    ) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+        num_computed_tokens = common_attn_metadata.num_computed_tokens_cpu.to(
+            self.device
+        )
+        # Block index of the last computed token
+        block_idx_last_computed_token = cdiv(num_computed_tokens, mamba_block_size) - 1
+        # which is <= block index for the first scheduled token
+        block_idx_first_scheduled_token = (
+            cdiv(num_computed_tokens + 1, mamba_block_size) - 1
+        )
+        # which is <= block index of the last scheduled token
+        block_idx_last_scheduled_token = (
+            cdiv(common_attn_metadata.seq_lens, mamba_block_size) - 1
+        )
+        # -1 in case it's non-computed and causes later issues with indexing
+        block_idx_last_computed_token = block_idx_last_computed_token.clamp(min=0)
+
+        return (
+            block_idx_last_computed_token,
+            block_idx_first_scheduled_token,
+            block_idx_last_scheduled_token,
+        )

From 6c317a656eb09a641d85be05aa8498ff160bf0c1 Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Sun, 2 Nov 2025 21:42:38 +0800
Subject: [PATCH 082/976] [Misc] Provide Siglip2 chat template (#27939)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 vllm/transformers_utils/chat_templates/registry.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/vllm/transformers_utils/chat_templates/registry.py b/vllm/transformers_utils/chat_templates/registry.py
index 3bdbe1d0a67b6..fe84b6c152eef 100644
--- a/vllm/transformers_utils/chat_templates/registry.py
+++ b/vllm/transformers_utils/chat_templates/registry.py
@@ -40,6 +40,7 @@ _MODEL_TYPE_TO_CHAT_TEMPLATE_FALLBACK: dict[str, ChatTemplatePath] = {
     "paligemma": CHAT_TEMPLATES_DIR / "template_basic.jinja",
     "qwen": _get_qwen_chat_template_fallback,
     "siglip": CHAT_TEMPLATES_DIR / "template_basic.jinja",
+    "siglip2": CHAT_TEMPLATES_DIR / "template_basic.jinja",
 }
 
 
From 0ce743f4e1879ffa250e471f6894633ef125418e Mon Sep 17 00:00:00 2001
From: Vensen <vensenmu@gmail.com>
Date: Mon, 3 Nov 2025 00:24:01 +0800
Subject: [PATCH 083/976] Fix(llm): Abort orphaned requests when llm.chat()
 batch fails Fixes #26081 (#27420)

Signed-off-by: vensenmu <vensenmu@gmail.com>
---
 tests/entrypoints/llm/test_chat.py | 53 ++++++++++++++++++++++++++++++
 vllm/entrypoints/llm.py            | 36 ++++++++++++--------
 2 files changed, 75 insertions(+), 14 deletions(-)

diff --git a/tests/entrypoints/llm/test_chat.py b/tests/entrypoints/llm/test_chat.py
index b2a958a992a62..a9698632b82e0 100644
--- a/tests/entrypoints/llm/test_chat.py
+++ b/tests/entrypoints/llm/test_chat.py
@@ -6,6 +6,7 @@ import pytest
 
 from vllm import LLM
 from vllm.distributed import cleanup_dist_env_and_memory
+from vllm.sampling_params import SamplingParams
 
 from ..openai.test_vision import TEST_IMAGE_ASSETS
 
@@ -23,6 +24,29 @@ def text_llm():
     cleanup_dist_env_and_memory()
 
 
+@pytest.fixture(scope="function")
+def llm_for_failure_test():
+    """
+    Fixture for testing issue #26081.
+    Uses a small max_model_len to easily trigger length errors.
+    """
+    # pytest caches the fixture so we use weakref.proxy to
+    # enable garbage collection
+    llm = LLM(
+        model="meta-llama/Llama-3.2-1B-Instruct",
+        enforce_eager=True,
+        seed=0,
+        max_model_len=128,
+        disable_log_stats=True,
+    )
+
+    yield weakref.proxy(llm)
+
+    del llm
+
+    cleanup_dist_env_and_memory()
+
+
 def test_chat(text_llm):
     prompt1 = "Explain the concept of entropy."
     messages = [
@@ -157,3 +181,32 @@ def test_chat_extra_kwargs(thinking_llm, enable_thinking):
     else:
         # The chat template includes dummy thinking process
         assert think_id in prompt_token_ids
+
+
+def test_chat_batch_failure_cleanup(llm_for_failure_test):
+    """
+    Tests that if a batch call to llm.chat() fails mid-way
+    (e.g., due to one invalid prompt), the requests that
+    were already enqueued are properly aborted and do not
+    pollute the queue for subsequent calls.
+    (Fixes Issue #26081)
+    """
+    llm = llm_for_failure_test
+    valid_msg = [{"role": "user", "content": "Hello"}]
+    long_text = "This is a very long text to test the error " * 50
+    invalid_msg = [{"role": "user", "content": long_text}]
+    batch_1 = [
+        valid_msg,
+        valid_msg,
+        invalid_msg,
+    ]
+    batch_2 = [
+        valid_msg,
+        valid_msg,
+    ]
+    sampling_params = SamplingParams(temperature=0, max_tokens=10)
+    with pytest.raises(ValueError, match="longer than the maximum model length"):
+        llm.chat(batch_1, sampling_params=sampling_params)
+    outputs_2 = llm.chat(batch_2, sampling_params=sampling_params)
+    assert len(outputs_2) == len(batch_2)
+    assert llm.llm_engine.get_num_unfinished_requests() == 0
diff --git a/vllm/entrypoints/llm.py b/vllm/entrypoints/llm.py
index b0b996ab2fec5..22fe2ae9280aa 100644
--- a/vllm/entrypoints/llm.py
+++ b/vllm/entrypoints/llm.py
@@ -1588,20 +1588,27 @@ class LLM:
             tqdm_func = use_tqdm if callable(use_tqdm) else tqdm
             it = tqdm_func(it, desc="Adding requests")
 
-        for i, prompt in enumerate(it):
-            if isinstance(prompt, dict):
-                self._validate_mm_data_and_uuids(
-                    prompt.get("multi_modal_data"), prompt.get("multi_modal_uuids")
-                )
+        added_request_ids: list[str] = []
 
-            self._add_request(
-                prompt,
-                params[i] if isinstance(params, Sequence) else params,
-                lora_request=lora_request[i]
-                if isinstance(lora_request, Sequence)
-                else lora_request,
-                priority=priority[i] if priority else 0,
-            )
+        try:
+            for i, prompt in enumerate(it):
+                if isinstance(prompt, dict):
+                    self._validate_mm_data_and_uuids(
+                        prompt.get("multi_modal_data"), prompt.get("multi_modal_uuids")
+                    )
+                request_id = self._add_request(
+                    prompt,
+                    params[i] if isinstance(params, Sequence) else params,
+                    lora_request=lora_request[i]
+                    if isinstance(lora_request, Sequence)
+                    else lora_request,
+                    priority=priority[i] if priority else 0,
+                )
+                added_request_ids.append(request_id)
+        except Exception as e:
+            if added_request_ids:
+                self.llm_engine.abort_request(added_request_ids)
+            raise e
 
     def _validate_mm_data_and_uuids(
         self,
@@ -1684,7 +1691,7 @@ class LLM:
         params: SamplingParams | PoolingParams,
         lora_request: LoRARequest | None = None,
         priority: int = 0,
-    ) -> None:
+    ) -> str:
         prompt_text, _, _ = get_prompt_components(prompt)
         request_id = str(next(self.request_counter))
 
@@ -1705,6 +1712,7 @@ class LLM:
             priority=priority,
             prompt_text=prompt_text,
         )
+        return request_id
 
     def _run_engine(
         self, *, use_tqdm: bool | Callable[..., tqdm] = True

From 1bf43ae35d7f6a83cc2025b8c0a2332456f4afe9 Mon Sep 17 00:00:00 2001
From: Biswa Panda <biswa.panda@gmail.com>
Date: Sun, 2 Nov 2025 18:08:08 -0800
Subject: [PATCH 084/976] [BugFix][LoRA] use adapter_id instead of id field of
 lora_request (#27728)

Signed-off-by: Biswa Panda <biswa.panda@gmail.com>
---
 tests/v1/core/test_prefix_caching.py | 63 +++++++++++++++++++++++++++-
 vllm/v1/core/block_pool.py           |  4 +-
 2 files changed, 64 insertions(+), 3 deletions(-)

diff --git a/tests/v1/core/test_prefix_caching.py b/tests/v1/core/test_prefix_caching.py
index 837a513cb75e1..2291f363731f2 100644
--- a/tests/v1/core/test_prefix_caching.py
+++ b/tests/v1/core/test_prefix_caching.py
@@ -9,7 +9,8 @@ import pytest
 import torch
 
 import vllm.v1.core.kv_cache_utils as kv_cache_utils
-from vllm.distributed.kv_events import AllBlocksCleared, BlockRemoved
+from vllm.distributed.kv_events import AllBlocksCleared, BlockRemoved, BlockStored
+from vllm.lora.request import LoRARequest
 from vllm.multimodal.inputs import (
     MultiModalFeatureSpec,
     MultiModalKwargsItem,
@@ -59,6 +60,7 @@ def make_request(
     mm_hashes: list[str] | None = None,
     prompt_logprobs: int | None = None,
     cache_salt: str | None = None,
+    lora_request: LoRARequest | None = None,
 ):
     mm_features = []
     if mm_positions is not None:
@@ -79,7 +81,7 @@ def make_request(
         sampling_params=SamplingParams(max_tokens=17, prompt_logprobs=prompt_logprobs),
         pooling_params=None,
         eos_token_id=100,
-        lora_request=None,
+        lora_request=lora_request,
         cache_salt=cache_salt,
         block_hasher=get_request_block_hasher(block_size, hash_fn),
     )
@@ -1337,6 +1339,63 @@ def test_kv_cache_events(blocks_to_cache: int):
     assert len(manager.block_pool.cached_block_hash_to_block) == 0
 
 
+@pytest.mark.parametrize("blocks_to_cache", [2, 3, 10])
+def test_kv_cache_events_with_lora(blocks_to_cache: int):
+    """Test BlockStored events contain correct lora_id when using LoRA requests."""
+    block_size = 16
+    num_blocks = blocks_to_cache + 1
+
+    # Create KVCacheManager with events enabled
+    manager = KVCacheManager(
+        make_kv_cache_config(block_size, num_blocks),
+        max_model_len=8192,
+        enable_caching=True,
+        enable_kv_cache_events=True,
+    )
+
+    # Test with LoRA request
+    lora_request = LoRARequest(
+        lora_name="test_lora", lora_int_id=42, lora_path="/test/path"
+    )
+
+    num_tokens = block_size * blocks_to_cache
+    req_with_lora = make_request(
+        "lora_req",
+        list(range(num_tokens)),
+        block_size,
+        sha256,
+        lora_request=lora_request,
+    )
+
+    # Allocate slots and get events
+    _ = manager.allocate_slots(req_with_lora, num_tokens)
+    events = manager.take_events()
+
+    # Verify BlockStored event contains correct lora_id
+    block_stored_event = events[-1]
+    assert isinstance(block_stored_event, BlockStored)
+    assert block_stored_event.lora_id == 42  # Should match lora_request.adapter_id
+    assert len(block_stored_event.block_hashes) == blocks_to_cache
+    assert block_stored_event.block_size == block_size
+
+    # Clean up
+    manager.free(req_with_lora)
+
+    # Test without LoRA request (should have lora_id=None)
+    req_without_lora = make_request(
+        "no_lora_req", list(range(num_tokens)), block_size, sha256
+    )
+
+    _ = manager.allocate_slots(req_without_lora, num_tokens)
+    events = manager.take_events()
+
+    block_stored_event = events[-1]
+    assert isinstance(block_stored_event, BlockStored)
+    assert block_stored_event.lora_id is None  # Should be None when no LoRA request
+    assert len(block_stored_event.block_hashes) == blocks_to_cache
+    assert block_stored_event.block_size == block_size
+
+
 def test_eagle_enabled_removes_last_block():
     """Verify Eagle does NOT remove blocks when request
     length is divisible by block size."""
diff --git a/vllm/v1/core/block_pool.py b/vllm/v1/core/block_pool.py
index 15c06a0b107d8..55710ad5cc693 100644
--- a/vllm/v1/core/block_pool.py
+++ b/vllm/v1/core/block_pool.py
@@ -259,7 +259,9 @@ class BlockPool:
                         num_cached_blocks * block_size : num_full_blocks * block_size
                     ],
                     block_size=block_size,
-                    lora_id=request.lora_request.id if request.lora_request else None,
+                    lora_id=request.lora_request.adapter_id
+                    if request.lora_request
+                    else None,
                     medium=MEDIUM_GPU,
                 )
             )

From 470ad118b6238e66094c9a508dea0aaaaf864093 Mon Sep 17 00:00:00 2001
From: Sungyoon Jeong <157349761+n0gu-furiosa@users.noreply.github.com>
Date: Mon, 3 Nov 2025 13:21:18 +0900
Subject: [PATCH 085/976] [Frontend] Align finish_reason when tool is called
 with OpenAI (#25054)

Signed-off-by: Sungyoon Jeong <sungyoon.jeong@furiosa.ai>
Co-authored-by: Chauncey <chaunceyjiang@gmail.com>
---
 vllm/entrypoints/openai/serving_chat.py | 26 +++++++++++++++++--------
 1 file changed, 18 insertions(+), 8 deletions(-)

diff --git a/vllm/entrypoints/openai/serving_chat.py b/vllm/entrypoints/openai/serving_chat.py
index bb770ecf03383..25979d5502b07 100644
--- a/vllm/entrypoints/openai/serving_chat.py
+++ b/vllm/entrypoints/openai/serving_chat.py
@@ -1170,9 +1170,13 @@ class OpenAIServingChat(OpenAIServing):
                             )
 
                         # Send the finish response for each request.n only once
+                        # In OpenAI's API, when a tool is called, the
+                        # finish_reason is:
+                        # "tool_calls" for "auto" or "required" tool calls,
+                        # and "stop" for named tool calls.
                         if (
                             auto_tools_called
-                            or tools_streamed[i]
+                            or (tools_streamed[i] and not tool_choice_function_name)
                             or (self.use_harmony and harmony_tools_streamed[i])
                         ):
                             finish_reason_ = "tool_calls"
@@ -1523,18 +1527,24 @@ class OpenAIServingChat(OpenAIServing):
                 message = ChatMessage(
                     role=role, reasoning_content=reasoning_content, content=content
                 )
+            # In OpenAI's API, when a tool is called, the finish_reason is:
+            # "tool_calls" for "auto" or "required" tool calls,
+            # and "stop" for named tool calls.
+            is_finish_reason_tool_calls = auto_tools_called or (
+                request.tool_choice
+                and request.tool_choice == "required"
+                and output.finish_reason == "stop"
+            )
 
             choice_data = ChatCompletionResponseChoice(
                 index=output.index,
                 message=message,
                 logprobs=logprobs,
-                finish_reason=(
-                    "tool_calls"
-                    if auto_tools_called
-                    else output.finish_reason
-                    if output.finish_reason
-                    else "stop"
-                ),
+                finish_reason="tool_calls"
+                if is_finish_reason_tool_calls
+                else output.finish_reason
+                if output.finish_reason
+                else "stop",
                 stop_reason=output.stop_reason,
                 token_ids=(
                     as_list(output.token_ids) if request.return_token_ids else None

From 18961c5ea62976efc50525b72e40337993c5e4f9 Mon Sep 17 00:00:00 2001
From: Thomas Parnell <tpa@zurich.ibm.com>
Date: Mon, 3 Nov 2025 06:48:03 +0100
Subject: [PATCH 086/976] [Hybrid] Pass kernel block size to builders (#27753)

Signed-off-by: Thomas Parnell <tpa@zurich.ibm.com>
---
 vllm/v1/attention/backends/flash_attn.py |  6 +++-
 vllm/v1/kv_cache_interface.py            |  8 ++++-
 vllm/v1/worker/gpu_model_runner.py       | 31 +++++++++++++----
 vllm/v1/worker/utils.py                  | 44 ++++++++++++++----------
 4 files changed, 62 insertions(+), 27 deletions(-)

diff --git a/vllm/v1/attention/backends/flash_attn.py b/vllm/v1/attention/backends/flash_attn.py
index 1eac94940e781..07f9ef173b4e3 100755
--- a/vllm/v1/attention/backends/flash_attn.py
+++ b/vllm/v1/attention/backends/flash_attn.py
@@ -62,7 +62,11 @@ class FlashAttentionBackend(AttentionBackend):
 
     @staticmethod
     def get_supported_kernel_block_size() -> list[int | MultipleOf]:
-        return [MultipleOf(16)]
+        # NOTE(tdoublep): while in principle, FA supports
+        # MultipleOf(16), these are the block sizes that do not
+        # suffer from the NaN propagation problem described here:
+        # https://github.com/Dao-AILab/flash-attention/issues/1974
+        return [16, 32, 64]
 
     @classmethod
     def validate_head_size(cls, head_size: int) -> None:
diff --git a/vllm/v1/kv_cache_interface.py b/vllm/v1/kv_cache_interface.py
index 0f564fdb3b080..7f33eb7e699c7 100644
--- a/vllm/v1/kv_cache_interface.py
+++ b/vllm/v1/kv_cache_interface.py
@@ -2,7 +2,7 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
 import copy
-from dataclasses import dataclass, fields
+from dataclasses import dataclass, fields, replace
 from math import prod
 
 import torch
@@ -44,6 +44,12 @@ class KVCacheSpec:
         """
         raise NotImplementedError
 
+    def copy_with_new_block_size(self, block_size: int) -> Self:
+        """
+        Create a new KVCacheSpec from self but replacing the block size.
+        """
+        return replace(self, block_size=block_size)
+
     @classmethod
     def merge(cls, specs: list[Self]) -> Self:
         """
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index 66a9d72912618..9212221bb6009 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -4039,16 +4039,11 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
         ) -> list[AttentionGroup]:
             attn_groups: list[AttentionGroup] = []
             for (attn_backend, kv_cache_spec), layer_names in attn_backends_map.items():
-                attn_group = AttentionGroup.create_with_metadata_builders(
+                attn_group = AttentionGroup(
                     attn_backend,
                     layer_names,
                     kv_cache_spec,
-                    self.vllm_config,
-                    self.device,
                     kv_cache_group_id,
-                    num_metadata_builders=1
-                    if not self.parallel_config.enable_dbo
-                    else 2,
                 )
 
                 attn_groups.append(attn_group)
@@ -4067,7 +4062,27 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
         for i, attn_backend_map in enumerate(attention_backend_maps):
             self.attn_groups.append(create_attn_groups(attn_backend_map, i))
 
+    def initialize_metadata_builders(
+        self, kv_cache_config: KVCacheConfig, kernel_block_sizes: list[int]
+    ) -> None:
+        """
+        Create the metadata builders for all KV cache groups and attn groups.
+        """
+        for kv_cache_group_id in range(len(kv_cache_config.kv_cache_groups)):
+            for attn_group in self.attn_groups[kv_cache_group_id]:
+                attn_group.create_metadata_builders(
+                    self.vllm_config,
+                    self.device,
+                    kernel_block_sizes[kv_cache_group_id]
+                    if kv_cache_group_id < len(kernel_block_sizes)
+                    else None,
+                    num_metadata_builders=1
+                    if not self.parallel_config.enable_dbo
+                    else 2,
+                )
         # Calculate reorder batch threshold (if needed)
+        # Note (tdoublep): do this *after* constructing builders,
+        # because some of them change the threshold at init time.
         self.calculate_reorder_batch_threshold()
 
     def _check_and_update_cudagraph_mode(
@@ -4633,6 +4648,10 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
         # kernel_block_size 64 and split the 256-token-block to 4 blocks with 64
         # tokens each.
         kernel_block_sizes = self._prepare_kernel_block_sizes(kv_cache_config)
+
+        # create metadata builders
+        self.initialize_metadata_builders(kv_cache_config, kernel_block_sizes)
+
         # Reinitialize need to after initialize_attn_backend
         self.may_reinitialize_input_batch(kv_cache_config, kernel_block_sizes)
         kv_caches = self.initialize_kv_cache_tensors(
diff --git a/vllm/v1/worker/utils.py b/vllm/v1/worker/utils.py
index 396adbcfb289f..0ca7e81a5c7b8 100644
--- a/vllm/v1/worker/utils.py
+++ b/vllm/v1/worker/utils.py
@@ -1,7 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 from collections import defaultdict
-from dataclasses import dataclass
+from dataclasses import dataclass, field
 from typing import TYPE_CHECKING
 
 import torch
@@ -134,31 +134,37 @@ class MultiModalBudget:
 @dataclass
 class AttentionGroup:
     backend: type[AttentionBackend]
-    # When ubatching is enabled we will have a metadata builder for each ubatch
-    # so that if they use internal persistant buffers for cudagraphs, and they
-    # won't have to worry about conflicting with the other ubatches.
-    metadata_builders: list[AttentionMetadataBuilder]
     layer_names: list[str]
     kv_cache_spec: KVCacheSpec
     kv_cache_group_id: int
+    # When ubatching is enabled we will have a metadata builder for each ubatch
+    # so that if they use internal persistant buffers for cudagraphs, and they
+    # won't have to worry about conflicting with the other ubatches.
+    metadata_builders: list[AttentionMetadataBuilder] = field(
+        default_factory=lambda: []
+    )
 
-    @staticmethod
-    def create_with_metadata_builders(
-        backend: type[AttentionBackend],
-        layer_names: list[str],
-        kv_cache_spec: KVCacheSpec,
-        vllm_config: VllmConfig,
-        device: torch.device,
-        kv_cache_group_id: int,
+    def create_metadata_builders(
+        self,
+        vllm_config,
+        device,
+        kernel_block_size: int | None,
         num_metadata_builders: int = 1,
-    ) -> "AttentionGroup":
-        metadata_builders = [
-            backend.get_builder_cls()(kv_cache_spec, layer_names, vllm_config, device)
+    ):
+        kv_cache_spec_builder = (
+            self.kv_cache_spec.copy_with_new_block_size(kernel_block_size)
+            if kernel_block_size is not None
+            else self.kv_cache_spec
+        )
+        self.metadata_builders = [
+            self.backend.get_builder_cls()(
+                kv_cache_spec_builder,
+                self.layer_names,
+                vllm_config,
+                device,
+            )
             for _ in range(num_metadata_builders)
         ]
-        return AttentionGroup(
-            backend, metadata_builders, layer_names, kv_cache_spec, kv_cache_group_id
-        )
 
     def get_metadata_builder(self, ubatch_id: int = 0) -> AttentionMetadataBuilder:
         assert len(self.metadata_builders) > ubatch_id

From cec7c288333339028f6fe8e0ac3222e3924da90b Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?R=C3=A9mi=20Delacourt?=
 <54138269+Flechman@users.noreply.github.com>
Date: Mon, 3 Nov 2025 08:22:46 +0100
Subject: [PATCH 087/976] [Bugfix] Padded Eagle Specdec with Chunked Prefill
 (#26263)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Signed-off-by: Rémi Delacourt <remi@mistral.ai>
Signed-off-by: Rémi Delacourt <54138269+Flechman@users.noreply.github.com>
Signed-off-by: remi <remi@mistral.ai>
Co-authored-by: Benjamin Chislett <bchislett@nvidia.com>
---
 tests/v1/e2e/test_spec_decode.py | 28 +++++++++++++++++++++-------
 1 file changed, 21 insertions(+), 7 deletions(-)

diff --git a/tests/v1/e2e/test_spec_decode.py b/tests/v1/e2e/test_spec_decode.py
index 45b48e5858934..ea7fcdf3174ec 100644
--- a/tests/v1/e2e/test_spec_decode.py
+++ b/tests/v1/e2e/test_spec_decode.py
@@ -202,9 +202,9 @@ def test_speculators_model_integration(
 
 
 @pytest.mark.parametrize(
-    ["model_setup", "mm_enabled"],
+    ["model_setup", "mm_enabled", "chunked_prefill_enabled"],
     [
-        (("eagle3", "Qwen/Qwen3-8B", "AngelSlim/Qwen3-8B_eagle3", 1), False),
+        (("eagle3", "Qwen/Qwen3-8B", "AngelSlim/Qwen3-8B_eagle3", 1), False, False),
         pytest.param(
             (
                 "eagle3",
@@ -213,11 +213,12 @@ def test_speculators_model_integration(
                 1,
             ),
             False,
+            False,
             marks=pytest.mark.skip(
                 reason="Skipping due to its head_dim not being a a multiple of 32"
             ),
         ),
-        (
+        pytest.param(
             (
                 "eagle",
                 "meta-llama/Llama-3.1-8B-Instruct",
@@ -225,7 +226,9 @@ def test_speculators_model_integration(
                 1,
             ),
             False,
-        ),
+            True,
+            marks=large_gpu_mark(min_gb=40),
+        ),  # works on 4x H100
         (
             (
                 "eagle3",
@@ -234,6 +237,7 @@ def test_speculators_model_integration(
                 1,
             ),
             False,
+            False,
         ),
         pytest.param(
             (
@@ -243,6 +247,7 @@ def test_speculators_model_integration(
                 4,
             ),
             False,
+            False,
             marks=large_gpu_mark(min_gb=80),
         ),  # works on 4x H100
         pytest.param(
@@ -253,6 +258,7 @@ def test_speculators_model_integration(
                 4,
             ),
             True,
+            True,
             marks=large_gpu_mark(min_gb=80),
         ),  # works on 4x H100
         (
@@ -263,6 +269,7 @@ def test_speculators_model_integration(
                 1,
             ),
             False,
+            False,
         ),
     ],
     ids=[
@@ -281,6 +288,7 @@ def test_eagle_correctness(
     sampling_config: SamplingParams,
     model_setup: tuple[str, str, str, int],
     mm_enabled: bool,
+    chunked_prefill_enabled: bool,
     attn_backend: str,
 ):
     if attn_backend == "TREE_ATTN":
@@ -317,9 +325,13 @@ def test_eagle_correctness(
             m.setenv("VLLM_ROCM_USE_AITER", "1")
 
         method, model_name, spec_model_name, tp_size = model_setup
+        max_model_len = 2048
+        max_num_batched_tokens = max_model_len
+        if chunked_prefill_enabled:
+            max_num_batched_tokens = 128
 
         ref_llm = LLM(
-            model=model_name, max_model_len=2048, tensor_parallel_size=tp_size
+            model=model_name, max_model_len=max_model_len, tensor_parallel_size=tp_size
         )
         ref_outputs = ref_llm.chat(test_prompts, sampling_config)
         del ref_llm
@@ -334,9 +346,11 @@ def test_eagle_correctness(
                 "method": method,
                 "model": spec_model_name,
                 "num_speculative_tokens": 3,
-                "max_model_len": 2048,
+                "max_model_len": max_model_len,
             },
-            max_model_len=2048,
+            max_model_len=max_model_len,
+            max_num_batched_tokens=max_num_batched_tokens,
+            enable_chunked_prefill=chunked_prefill_enabled,
         )
         spec_outputs = spec_llm.chat(test_prompts, sampling_config)
         matches = 0

From 7f4bdadb926936a11a88a619f56634061e824798 Mon Sep 17 00:00:00 2001
From: Kunshang Ji <kunshang.ji@intel.com>
Date: Mon, 3 Nov 2025 15:36:59 +0800
Subject: [PATCH 088/976] [XPU]Refine Dockerfile.xpu, avoid oneccl dependency
 issue (#27964)

Signed-off-by: Kunshang Ji <kunshang.ji@intel.com>
---
 docker/Dockerfile.xpu | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/docker/Dockerfile.xpu b/docker/Dockerfile.xpu
index 49ea39cad5128..4e6ef8f5ca13c 100644
--- a/docker/Dockerfile.xpu
+++ b/docker/Dockerfile.xpu
@@ -54,7 +54,7 @@ ENV VLLM_WORKER_MULTIPROC_METHOD=spawn
 
 RUN --mount=type=cache,target=/root/.cache/pip \
     --mount=type=bind,source=.git,target=.git \
-    python3 setup.py install
+    pip install --no-build-isolation .
 
 CMD ["/bin/bash"]
 
@@ -64,9 +64,6 @@ FROM vllm-base AS vllm-openai
 RUN --mount=type=cache,target=/root/.cache/pip \
     pip install accelerate hf_transfer pytest pytest_asyncio lm_eval[api] modelscope
 
-RUN --mount=type=cache,target=/root/.cache/pip \
-    pip uninstall oneccl oneccl-devel -y
-
 # install development dependencies (for testing)
 RUN python3 -m pip install -e tests/vllm_test_utils
 
@@ -74,4 +71,7 @@ RUN python3 -m pip install -e tests/vllm_test_utils
 RUN python3 /workspace/vllm/tools/install_nixl_from_source_ubuntu.py
 ENV LD_LIBRARY_PATH="$LD_LIBRARY_PATH:/usr/local/lib/python3.12/dist-packages/.nixl.mesonpy.libs/plugins/"
 
+RUN --mount=type=cache,target=/root/.cache/pip \
+    pip uninstall oneccl oneccl-devel -y
+
 ENTRYPOINT ["vllm", "serve"]

From ba464e6ae24857b2db7c82f4123342b9ab90049e Mon Sep 17 00:00:00 2001
From: Misha Efimov <mef@google.com>
Date: Mon, 3 Nov 2025 03:21:31 -0500
Subject: [PATCH 089/976] Add ORCA endpoint load metrics support (#24905)

Signed-off-by: Misha Efimov <mef@google.com>
---
 tests/entrypoints/openai/test_orca_metrics.py | 128 ++++++++++++++++++
 vllm/entrypoints/openai/api_server.py         |  19 ++-
 vllm/entrypoints/openai/orca_metrics.py       | 120 ++++++++++++++++
 3 files changed, 265 insertions(+), 2 deletions(-)
 create mode 100644 tests/entrypoints/openai/test_orca_metrics.py
 create mode 100644 vllm/entrypoints/openai/orca_metrics.py

diff --git a/tests/entrypoints/openai/test_orca_metrics.py b/tests/entrypoints/openai/test_orca_metrics.py
new file mode 100644
index 0000000000000..d32cfde07c21e
--- /dev/null
+++ b/tests/entrypoints/openai/test_orca_metrics.py
@@ -0,0 +1,128 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import openai
+import pytest
+import pytest_asyncio
+
+from ...utils import RemoteOpenAIServer
+
+# any model with a chat template should work here
+MODEL_NAME = "HuggingFaceH4/zephyr-7b-beta"
+
+
+@pytest.fixture(scope="module")
+def monkeypatch_module():
+    from _pytest.monkeypatch import MonkeyPatch
+
+    mpatch = MonkeyPatch()
+    yield mpatch
+    mpatch.undo()
+
+
+@pytest.fixture(scope="module", params=[True])
+def server(request, monkeypatch_module):
+    use_v1 = request.param
+    monkeypatch_module.setenv("VLLM_USE_V1", "1" if use_v1 else "0")
+
+    args = [
+        "--dtype",
+        "bfloat16",
+        "--max-model-len",
+        "8192",
+        "--enforce-eager",
+    ]
+
+    with RemoteOpenAIServer(MODEL_NAME, args) as remote_server:
+        yield remote_server
+
+
+@pytest_asyncio.fixture
+async def client(server):
+    async with server.get_async_client() as async_client:
+        yield async_client
+
+
+@pytest.mark.asyncio
+async def test_chat_completion_with_orca_header(server: RemoteOpenAIServer):
+    messages = [
+        {"role": "system", "content": "you are a helpful assistant"},
+        {"role": "user", "content": "what is 1+1?"},
+    ]
+
+    client = openai.OpenAI(
+        api_key="EMPTY",
+        base_url=f"http://localhost:{server.port}/v1",
+        default_headers={"endpoint-load-metrics-format": "TEXT"},
+    )
+
+    # 1. Use raw client to get response headers.
+    raw_client = client.with_raw_response
+
+    # 2. Make the API call using the raw_client
+    response_with_raw = raw_client.chat.completions.create(
+        model=MODEL_NAME,
+        messages=messages,
+        extra_headers={"endpoint-load-metrics-format": "TEXT"},
+    )
+
+    # 3. Access the raw httpx.Response object
+    raw_http_response = response_with_raw.http_response
+
+    # 4. Get the headers from the httpx.Response object
+    response_headers = raw_http_response.headers
+
+    assert "endpoint-load-metrics" in response_headers
+
+
+@pytest.mark.asyncio
+async def test_completion_with_orca_header(client: openai.AsyncOpenAI):
+    # 1. Use raw client to get response headers.
+    raw_client = client.with_raw_response
+
+    # 2. Make the API call using the raw_client
+    completion = await raw_client.completions.create(
+        model=MODEL_NAME,
+        prompt="Hello, my name is",
+        max_tokens=5,
+        extra_headers={"endpoint-load-metrics-format": "JSON"},
+    )
+
+    # 3. Access the raw httpx.Response object
+    raw_http_response = completion.http_response
+
+    # 4. Get the headers from the httpx.Response object
+    response_headers = raw_http_response.headers
+
+    assert "endpoint-load-metrics" in response_headers
+
+
+@pytest.mark.asyncio
+async def test_single_completion(client: openai.AsyncOpenAI):
+    completion = await client.completions.create(
+        model=MODEL_NAME,
+        prompt="Hello, my name is",
+        max_tokens=5,
+        extra_headers={"endpoint-load-metrics-format": "JSON"},
+        temperature=0.0,
+    )
+
+    assert completion.id is not None
+    assert completion.choices is not None and len(completion.choices) == 1
+
+    choice = completion.choices[0]
+    assert len(choice.text) >= 5
+    assert choice.finish_reason == "length"
+    assert completion.usage == openai.types.CompletionUsage(
+        completion_tokens=5, prompt_tokens=6, total_tokens=11
+    )
+
+    # test using token IDs
+    completion = await client.completions.create(
+        model=MODEL_NAME,
+        prompt=[0, 0, 0, 0, 0],
+        max_tokens=5,
+        temperature=0.0,
+    )
+    assert len(completion.choices[0].text) >= 1
+    assert completion.choices[0].prompt_logprobs is None
diff --git a/vllm/entrypoints/openai/api_server.py b/vllm/entrypoints/openai/api_server.py
index 22b5584749ae7..c37aba2776aeb 100644
--- a/vllm/entrypoints/openai/api_server.py
+++ b/vllm/entrypoints/openai/api_server.py
@@ -51,6 +51,7 @@ from vllm.entrypoints.anthropic.serving_messages import AnthropicServingMessages
 from vllm.entrypoints.launcher import serve_http
 from vllm.entrypoints.logger import RequestLogger
 from vllm.entrypoints.openai.cli_args import make_arg_parser, validate_parsed_serve_args
+from vllm.entrypoints.openai.orca_metrics import metrics_header
 from vllm.entrypoints.openai.protocol import (
     ChatCompletionRequest,
     ChatCompletionResponse,
@@ -128,6 +129,8 @@ prometheus_multiproc_dir: tempfile.TemporaryDirectory
 # Cannot use __name__ (https://github.com/vllm-project/vllm/pull/4765)
 logger = init_logger("vllm.entrypoints.openai.api_server")
 
+ENDPOINT_LOAD_METRICS_FORMAT_HEADER_LABEL = "endpoint-load-metrics-format"
+
 _running_tasks: set[asyncio.Task] = set()
 
 
@@ -672,6 +675,9 @@ async def create_messages(request: AnthropicMessagesRequest, raw_request: Reques
 @with_cancellation
 @load_aware_call
 async def create_chat_completion(request: ChatCompletionRequest, raw_request: Request):
+    metrics_header_format = raw_request.headers.get(
+        ENDPOINT_LOAD_METRICS_FORMAT_HEADER_LABEL, ""
+    )
     handler = chat(raw_request)
     if handler is None:
         return base(raw_request).create_error_response(
@@ -689,7 +695,10 @@ async def create_chat_completion(request: ChatCompletionRequest, raw_request: Re
         )
 
     elif isinstance(generator, ChatCompletionResponse):
-        return JSONResponse(content=generator.model_dump())
+        return JSONResponse(
+            content=generator.model_dump(),
+            headers=metrics_header(metrics_header_format),
+        )
 
     return StreamingResponse(content=generator, media_type="text/event-stream")
 
@@ -707,6 +716,9 @@ async def create_chat_completion(request: ChatCompletionRequest, raw_request: Re
 @with_cancellation
 @load_aware_call
 async def create_completion(request: CompletionRequest, raw_request: Request):
+    metrics_header_format = raw_request.headers.get(
+        ENDPOINT_LOAD_METRICS_FORMAT_HEADER_LABEL, ""
+    )
     handler = completion(raw_request)
     if handler is None:
         return base(raw_request).create_error_response(
@@ -729,7 +741,10 @@ async def create_completion(request: CompletionRequest, raw_request: Request):
             content=generator.model_dump(), status_code=generator.error.code
         )
     elif isinstance(generator, CompletionResponse):
-        return JSONResponse(content=generator.model_dump())
+        return JSONResponse(
+            content=generator.model_dump(),
+            headers=metrics_header(metrics_header_format),
+        )
 
     return StreamingResponse(content=generator, media_type="text/event-stream")
 
diff --git a/vllm/entrypoints/openai/orca_metrics.py b/vllm/entrypoints/openai/orca_metrics.py
new file mode 100644
index 0000000000000..3808262bf31f2
--- /dev/null
+++ b/vllm/entrypoints/openai/orca_metrics.py
@@ -0,0 +1,120 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+Utility functions that create ORCA endpoint load report response headers.
+"""
+
+import json
+from collections.abc import Mapping
+
+from vllm.logger import init_logger
+from vllm.v1.metrics.reader import Gauge, get_metrics_snapshot
+
+logger = init_logger(__name__)
+
+
+def create_orca_header(
+    metrics_format: str, named_metrics: list[tuple[str, float]]
+) -> Mapping[str, str] | None:
+    """
+    Creates ORCA headers named 'endpoint-load-metrics' in the specified format
+    and adds custom metrics to named_metrics.
+    ORCA headers format description: https://docs.google.com/document/d/1C1ybMmDKJIVlrbOLbywhu9iRYo4rilR-cT50OTtOFTs/edit?tab=t.0
+    ORCA proto https://github.com/cncf/xds/blob/main/xds/data/orca/v3/orca_load_report.proto
+
+    Parameters:
+    - metrics_format (str): The format of the header ('TEXT', 'JSON').
+    - named_metrics (List[Tuple[str, float]]): List of tuples with metric names
+    and their corresponding double values.
+
+    Returns:
+    - Optional[Mapping[str,str]]: A dictionary with header key as
+    'endpoint-load-metrics' and values as the ORCA header strings with
+    format prefix and data in  with named_metrics in.
+    """
+
+    if metrics_format.lower() not in ["text", "json"]:
+        logger.warning(
+            "Warning: `%s` format is not supported in the ORCA response header",
+            format,
+        )
+        return None
+
+    header = {}
+    orca_report = {
+        "named_metrics": {
+            metric_name: value
+            for metric_name, value in named_metrics
+            if isinstance(metric_name, str) and isinstance(value, float)
+        }
+    }
+    # output example:
+    # endpoint-load-metrics: TEXT named_metrics.kv_cache_utilization=0.4
+    if metrics_format.lower() == "text":
+        native_http_header = ", ".join(
+            [
+                f"named_metrics.{metric_name}={value}"
+                for metric_name, value in named_metrics
+                if isinstance(metric_name, str) and isinstance(value, float)
+            ]
+        )
+        header["endpoint-load-metrics"] = f"TEXT {native_http_header}"
+
+    # output example:
+    # endpoint-load-metrics: JSON “named_metrics”: {“custom-metric-util”: 0.4}
+    elif metrics_format.lower() == "json":
+        header["endpoint-load-metrics"] = f"JSON {json.dumps(orca_report)}"
+
+    logger.info("Created ORCA header %s", header)
+
+    return header
+
+
+def get_named_metrics_from_prometheus() -> list[tuple[str, float]]:
+    """
+    Collects current metrics from Prometheus and returns some of them
+    in the form of the `named_metrics` list for `create_orca_header()`.
+
+    Parameters:
+    - None
+
+    Returns:
+    - list[tuple[str, float]]: List of tuples of metric names and their values.
+    """
+    named_metrics: list[tuple[str, float]] = []
+    # Map from prometheus metric names to ORCA named metrics.
+    prometheus_to_orca_metrics = {
+        "vllm:kv_cache_usage_perc": "kv_cache_usage_perc",
+        "vllm:num_requests_waiting": "num_requests_waiting",
+    }
+    metrics = get_metrics_snapshot()
+    for metric in metrics:
+        orca_name = prometheus_to_orca_metrics.get(metric.name)
+        # If this metric is mapped into ORCA, then add it to the report.
+        # Note: Only Gauge metrics are currently supported.
+        if orca_name is not None and isinstance(metric, Gauge):
+            named_metrics.append((str(orca_name), float(metric.value)))
+    return named_metrics
+
+
+def metrics_header(metrics_format: str) -> Mapping[str, str] | None:
+    """
+    Creates ORCA headers named 'endpoint-load-metrics' in the specified format.
+    Metrics are collected from Prometheus using `get_named_metrics_from_prometheus()`.
+
+    ORCA headers format description: https://docs.google.com/document/d/1C1ybMmDKJIVlrbOLbywhu9iRYo4rilR-cT50OTtOFTs/edit?tab=t.0
+    ORCA proto https://github.com/cncf/xds/blob/main/xds/data/orca/v3/orca_load_report.proto
+
+    Parameters:
+    - metrics_format (str): The format of the header ('TEXT', 'JSON').
+
+    Returns:
+    - Optional[Mapping[str,str]]: A dictionary with header key as
+    'endpoint-load-metrics' and values as the ORCA header strings with
+    format prefix and data in  with named_metrics in.
+    """
+    if not metrics_format:
+        return None
+    # Get named metrics from prometheus.
+    named_metrics = get_named_metrics_from_prometheus()
+    return create_orca_header(metrics_format, named_metrics)

From 32257297dd4dcb996a0fb4641c2018289d20396b Mon Sep 17 00:00:00 2001
From: Jee Jee Li <pandaleefree@gmail.com>
Date: Mon, 3 Nov 2025 16:50:06 +0800
Subject: [PATCH 090/976] [CI/Build] Remove the flaky gpt-oss lora test
 (#27966)

Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>
---
 tests/lora/test_gptoss_tp.py | 5 -----
 1 file changed, 5 deletions(-)

diff --git a/tests/lora/test_gptoss_tp.py b/tests/lora/test_gptoss_tp.py
index db4b7ca5ef499..711d514a39eb3 100644
--- a/tests/lora/test_gptoss_tp.py
+++ b/tests/lora/test_gptoss_tp.py
@@ -32,7 +32,6 @@ The Competition_ID of competition_record is the foreign key of Competition_ID of
 ###Response:<|end|><|start|>assistant<|channel|>final<|message|>"""  # noqa: E501
 
 EXPECTED_LORA_OUTPUT = [
-    "SELECT AVG(Working_Horses) FROM farm WHERE Total_Horses > 5000;",
     "SELECT AVG(Working_Horses) FROM farm WHERE Total_Horses > 5000;",
     "SELECT MAX(Cows) AS Max_Cows, MIN(Cows) AS Min_Cows FROM farm;",
     "SELECT MAX(Cows) AS Max_Cows, MIN(Cows) AS Min_Cows FROM farm;",
@@ -41,9 +40,6 @@ EXPECTED_LORA_OUTPUT = [
 
 def generate_and_test(llm: vllm.LLM, lora_path: str, lora_id: int) -> None:
     prompts = [
-        PROMPT_TEMPLATE.format(
-            context="What is the average number of working horses of farms with more than 5000 total number of horses?"  # noqa: E501
-        ),  # noqa: E501
         PROMPT_TEMPLATE.format(
             context="Give the average number of working horses on farms with more than 5000 total horses."  # noqa: E501
         ),  # noqa: E501
@@ -67,7 +63,6 @@ def generate_and_test(llm: vllm.LLM, lora_path: str, lora_id: int) -> None:
         generated_text = output.outputs[0].text.strip()
         generated_texts.append(generated_text)
         print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
-
     for i in range(len(EXPECTED_LORA_OUTPUT)):
         assert generated_texts[i].startswith(EXPECTED_LORA_OUTPUT[i])
 

From 40b69e33e796efdc75e774a1c38cc73397ea6e17 Mon Sep 17 00:00:00 2001
From: zhang-prog <69562787+zhang-prog@users.noreply.github.com>
Date: Mon, 3 Nov 2025 19:04:22 +0800
Subject: [PATCH 091/976] [Model] Add PaddleOCR-VL Model Support  (#27758)

Signed-off-by: zhangyue <zhangyue66@baidu.com>
Signed-off-by: Roger Wang <hey@rogerw.io>
Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>
Signed-off-by: zhangyue66 <zhangyue66@baidu.com>
Co-authored-by: Roger Wang <hey@rogerw.io>
Co-authored-by: Isotr0py <mozf@mail2.sysu.edu.cn>
---
 docs/models/supported_models.md               |    1 +
 examples/offline_inference/vision_language.py |   27 +
 .../vision_language_multi_image.py            |   22 +
 tests/models/registry.py                      |    4 +
 vllm/model_executor/models/ernie45.py         |   10 +
 vllm/model_executor/models/paddleocr_vl.py    | 1407 +++++++++++++++++
 vllm/model_executor/models/registry.py        |    4 +
 7 files changed, 1475 insertions(+)
 create mode 100644 vllm/model_executor/models/paddleocr_vl.py

diff --git a/docs/models/supported_models.md b/docs/models/supported_models.md
index fd25647dce54b..21235e305db4b 100644
--- a/docs/models/supported_models.md
+++ b/docs/models/supported_models.md
@@ -675,6 +675,7 @@ These models primarily accept the [`LLM.generate`](./generative_models.md#llmgen
 | `NVLM_D_Model` | NVLM-D 1.0 | T + I<sup>+</sup> | `nvidia/NVLM-D-72B`, etc. | | ✅︎ |
 | `Ovis` | Ovis2, Ovis1.6 | T + I<sup>+</sup> | `AIDC-AI/Ovis2-1B`, `AIDC-AI/Ovis1.6-Llama3.2-3B`, etc. | | ✅︎ |
 | `Ovis2_5` | Ovis2.5 | T + I<sup>+</sup> + V | `AIDC-AI/Ovis2.5-9B`, etc. | | |
+| `PaddleOCRVLForConditionalGeneration` | Paddle-OCR | T + I<sup>+</sup> | `PaddlePaddle/PaddleOCR-VL`, etc. | | |
 | `PaliGemmaForConditionalGeneration` | PaliGemma, PaliGemma 2 | T + I<sup>E</sup> | `google/paligemma-3b-pt-224`, `google/paligemma-3b-mix-224`, `google/paligemma2-3b-ft-docci-448`, etc. | | ✅︎ |
 | `Phi3VForCausalLM` | Phi-3-Vision, Phi-3.5-Vision | T + I<sup>E+</sup> | `microsoft/Phi-3-vision-128k-instruct`, `microsoft/Phi-3.5-vision-instruct`, etc. | | ✅︎ |
 | `Phi4MMForCausalLM` | Phi-4-multimodal | T + I<sup>+</sup> / T + A<sup>+</sup> / I<sup>+</sup> + A<sup>+</sup> | `microsoft/Phi-4-multimodal-instruct`, etc. | ✅︎ | ✅︎ |
diff --git a/examples/offline_inference/vision_language.py b/examples/offline_inference/vision_language.py
index c1ea95f8d0644..371cf6309a678 100644
--- a/examples/offline_inference/vision_language.py
+++ b/examples/offline_inference/vision_language.py
@@ -1242,6 +1242,32 @@ def run_ovis2_5(questions: list[str], modality: str) -> ModelRequestData:
     )
 
 
+# PaddleOCR-VL
+def run_paddleocr_vl(questions: list[str], modality: str) -> ModelRequestData:
+    assert modality == "image"
+
+    model_name = "PaddlePaddle/PaddleOCR-VL"
+
+    engine_args = EngineArgs(
+        model=model_name,
+        max_model_len=4096,
+        max_num_seqs=2,
+        limit_mm_per_prompt={modality: 1},
+        trust_remote_code=True,
+    )
+
+    placeholder = "<|IMAGE_START|><|IMAGE_PLACEHOLDER|><|IMAGE_END|>"
+    prompts = [
+        (f"<|begin_of_sentence|>User: {question}{placeholder}\nAssistant: ")
+        for question in questions
+    ]
+
+    return ModelRequestData(
+        engine_args=engine_args,
+        prompts=prompts,
+    )
+
+
 # PaliGemma
 def run_paligemma(questions: list[str], modality: str) -> ModelRequestData:
     assert modality == "image"
@@ -1817,6 +1843,7 @@ model_example_map = {
     "NVLM_D": run_nvlm_d,
     "ovis": run_ovis,
     "ovis2_5": run_ovis2_5,
+    "paddleocr_vl": run_paddleocr_vl,
     "paligemma": run_paligemma,
     "paligemma2": run_paligemma2,
     "phi3_v": run_phi3v,
diff --git a/examples/offline_inference/vision_language_multi_image.py b/examples/offline_inference/vision_language_multi_image.py
index 5cb47c15038e8..80c7fc4431229 100644
--- a/examples/offline_inference/vision_language_multi_image.py
+++ b/examples/offline_inference/vision_language_multi_image.py
@@ -801,6 +801,27 @@ def load_ovis2_5(question: str, image_urls: list[str]) -> ModelRequestData:
     )
 
 
+def load_paddleocr_vl(question: str, image_urls: list[str]) -> ModelRequestData:
+    model_name = "PaddlePaddle/PaddleOCR-VL"
+
+    engine_args = EngineArgs(
+        model=model_name,
+        trust_remote_code=True,
+        max_model_len=8192,
+        max_num_seqs=2,
+        limit_mm_per_prompt={"image": len(image_urls)},
+    )
+
+    placeholders = "<|IMAGE_START|><|IMAGE_PLACEHOLDER|><|IMAGE_END|>" * len(image_urls)
+    prompt = f"<|begin_of_sentence|>User: {question}{placeholders}\nAssistant: "
+
+    return ModelRequestData(
+        engine_args=engine_args,
+        prompt=prompt,
+        image_data=[fetch_image(url) for url in image_urls],
+    )
+
+
 def load_pixtral_hf(question: str, image_urls: list[str]) -> ModelRequestData:
     model_name = "mistral-community/pixtral-12b"
 
@@ -1312,6 +1333,7 @@ model_example_map = {
     "NVLM_D": load_nvlm_d,
     "ovis": load_ovis,
     "ovis2_5": load_ovis2_5,
+    "paddleocr_vl": load_paddleocr_vl,
     "phi3_v": load_phi3v,
     "phi4_mm": load_phi4mm,
     "phi4_multimodal": load_phi4_multimodal,
diff --git a/tests/models/registry.py b/tests/models/registry.py
index 8e1dd4ba91f1d..00fe999805003 100644
--- a/tests/models/registry.py
+++ b/tests/models/registry.py
@@ -712,6 +712,10 @@ _MULTIMODAL_EXAMPLE_MODELS = {
         },
     ),
     "Ovis2_5": _HfExamplesInfo("AIDC-AI/Ovis2.5-2B", trust_remote_code=True),
+    "PaddleOCRVLForConditionalGeneration": _HfExamplesInfo(
+        "PaddlePaddle/PaddleOCR-VL",
+        trust_remote_code=True,
+    ),
     "PaliGemmaForConditionalGeneration": _HfExamplesInfo(
         "google/paligemma-3b-mix-224",
         extras={"v2": "google/paligemma2-3b-ft-docci-448"},
diff --git a/vllm/model_executor/models/ernie45.py b/vllm/model_executor/models/ernie45.py
index b1d26cddcc5eb..c1a4737e1f326 100644
--- a/vllm/model_executor/models/ernie45.py
+++ b/vllm/model_executor/models/ernie45.py
@@ -23,12 +23,22 @@
 # limitations under the License.
 """Inference-only Erine model compatible with HuggingFace weights."""
 
+from vllm.compilation.decorators import support_torch_compile
 from vllm.config import VllmConfig
 from vllm.model_executor.models.llama import LlamaForCausalLM
 
 from .utils import PPMissingLayer
 
 
+@support_torch_compile(
+    # set dynamic_arg_dims to support mrope
+    dynamic_arg_dims={
+        "input_ids": 0,
+        "positions": -1,
+        "intermediate_tensors": 0,
+        "inputs_embeds": 0,
+    }
+)
 class Ernie4_5ForCausalLM(LlamaForCausalLM):
     def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
         super().__init__(vllm_config=vllm_config, prefix=prefix)
diff --git a/vllm/model_executor/models/paddleocr_vl.py b/vllm/model_executor/models/paddleocr_vl.py
new file mode 100644
index 0000000000000..377b41a355782
--- /dev/null
+++ b/vllm/model_executor/models/paddleocr_vl.py
@@ -0,0 +1,1407 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# Copyright (c) 2025 PaddlePaddle Authors. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#    http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+import math
+from collections.abc import Iterable, Mapping, Sequence
+from functools import partial
+from typing import Annotated, Literal
+
+import numpy as np
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from einops import rearrange, repeat
+from transformers import BatchFeature, PretrainedConfig
+from transformers.activations import GELUActivation
+from transformers.modeling_outputs import (
+    BaseModelOutputWithPooling,
+)
+from transformers.utils import torch_int
+
+from vllm.attention.backends.registry import _Backend
+from vllm.attention.layer import (
+    check_upstream_fa_availability,
+    maybe_get_vit_flash_attn_backend,
+)
+from vllm.attention.ops.vit_attn_wrappers import (
+    vit_flash_attn_wrapper,
+    vit_xformers_attn_wrapper,
+)
+from vllm.config import VllmConfig
+from vllm.config.multimodal import BaseDummyOptions
+from vllm.distributed import parallel_state
+from vllm.distributed import utils as dist_utils
+from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding.common import (
+    dispatch_rotary_emb_function,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.multimodal.inputs import (
+    MultiModalDataDict,
+    MultiModalFieldConfig,
+    MultiModalKwargs,
+)
+from vllm.multimodal.parse import (
+    ImageProcessorItems,
+    ImageSize,
+    MultiModalDataItems,
+)
+from vllm.multimodal.processing import (
+    BaseMultiModalProcessor,
+    BaseProcessingInfo,
+    PromptReplacement,
+    PromptUpdate,
+)
+from vllm.multimodal.profiling import BaseDummyInputsBuilder
+from vllm.sequence import IntermediateTensors
+from vllm.utils.tensor_schema import TensorSchema, TensorShape
+
+from .ernie45 import Ernie4_5ForCausalLM
+from .interfaces import MultiModalEmbeddings, SupportsMRoPE, SupportsMultiModal
+from .utils import (
+    AutoWeightsLoader,
+    PPMissingLayer,
+    WeightsMapper,
+    is_pp_missing_parameter,
+    maybe_prefix,
+)
+from .vision import get_vit_attn_backend
+
+
+def smart_resize(
+    height: int,
+    width: int,
+    factor: int = 28,
+    min_pixels: int = 28 * 28 * 130,
+    max_pixels: int = 28 * 28 * 1280,
+):
+    """Rescales the image so that the following conditions are met:
+
+    1. Both dimensions (height and width) are divisible by 'factor'.
+
+    2. The total number of pixels is within the range ['min_pixels', 'max_pixels'].
+
+    3. The aspect ratio of the image is maintained as closely as possible.
+
+    """
+
+    if height < factor:
+        width = round((width * factor) / height)
+        height = factor
+
+    if width < factor:
+        height = round((height * factor) / width)
+        width = factor
+
+    if max(height, width) / min(height, width) > 200:
+        raise ValueError(
+            f"absolute aspect ratio must be smaller than 200, "
+            f"got {max(height, width) / min(height, width)}"
+        )
+    h_bar = round(height / factor) * factor
+    w_bar = round(width / factor) * factor
+    if h_bar * w_bar > max_pixels:
+        beta = math.sqrt((height * width) / max_pixels)
+        h_bar = math.floor(height / beta / factor) * factor
+        w_bar = math.floor(width / beta / factor) * factor
+    elif h_bar * w_bar < min_pixels:
+        beta = math.sqrt(min_pixels / (height * width))
+        h_bar = math.ceil(height * beta / factor) * factor
+        w_bar = math.ceil(width * beta / factor) * factor
+    return h_bar, w_bar
+
+
+def rotate_half(x: torch.Tensor, interleaved: bool = False) -> torch.Tensor:
+    if not interleaved:
+        x1, x2 = x.chunk(2, dim=-1)
+        return torch.cat((-x2, x1), dim=-1)
+    x1, x2 = x[..., ::2], x[..., 1::2]
+    return rearrange(torch.stack((-x2, x1), dim=-1), "... d two -> ... (d two)", two=2)
+
+
+def apply_rotary_emb_torch(
+    x: torch.Tensor, cos: torch.Tensor, sin: torch.Tensor, interleaved: bool = False
+) -> torch.Tensor:
+    """
+    x: (batch_size, seqlen, nheads, headdim)
+    cos, sin: (seqlen, rotary_dim / 2) or (batch_size, seqlen, rotary_dim / 2)
+    """
+    ro_dim = cos.shape[-1] * 2
+    assert ro_dim <= x.shape[-1]
+    cos = repeat(
+        cos, "... d -> ... 1 (2 d)" if not interleaved else "... d -> ... 1 (d 2)"
+    )
+    sin = repeat(
+        sin, "... d -> ... 1 (2 d)" if not interleaved else "... d -> ... 1 (d 2)"
+    )
+    return torch.cat(
+        [
+            x[..., :ro_dim] * cos + rotate_half(x[..., :ro_dim], interleaved) * sin,
+            x[..., ro_dim:],
+        ],
+        dim=-1,
+    )
+
+
+def apply_rotary_pos_emb_vision(t: torch.Tensor, freqs: torch.Tensor) -> torch.Tensor:
+    rotary_emb_function = dispatch_rotary_emb_function(default=apply_rotary_emb_torch)
+    t_ = t.float()
+    cos = freqs.cos()
+    sin = freqs.sin()
+    output = rotary_emb_function(t_, cos, sin).type_as(t)
+    return output
+
+
+class PaddleOCRVLProcessingInfo(BaseProcessingInfo):
+    def get_hf_config(self):
+        return self.ctx.get_hf_config()
+
+    def get_hf_processor(self, **kwargs: object):
+        return self.ctx.get_hf_processor(**kwargs)
+
+    def get_image_processor(self, **kwargs: object):
+        return self.get_hf_processor(**kwargs).image_processor
+
+    def get_supported_mm_limits(self):
+        return {"image": None}
+
+    def get_num_image_tokens(
+        self,
+        *,
+        image_width: int,
+        image_height: int,
+        image_processor,
+    ) -> int:
+        if image_processor is None:
+            image_processor = self.get_image_processor()
+
+        do_resize = True
+        hf_config = self.get_hf_config()
+        vision_config = hf_config.vision_config
+        patch_size = vision_config.patch_size
+        merge_size = vision_config.spatial_merge_size
+
+        if do_resize:
+            resized_height, resized_width = smart_resize(
+                height=image_height,
+                width=image_width,
+                factor=patch_size * merge_size,
+                min_pixels=image_processor.min_pixels,
+                max_pixels=image_processor.max_pixels,
+            )
+            preprocessed_size = ImageSize(width=resized_width, height=resized_height)
+        else:
+            preprocessed_size = ImageSize(width=image_width, height=image_height)
+
+        grid_t = 1
+        grid_h = preprocessed_size.height // patch_size
+        grid_w = preprocessed_size.width // patch_size
+
+        num_patches = grid_t * grid_h * grid_w
+        num_image_tokens = num_patches // (merge_size**2)
+
+        return num_image_tokens
+
+    def get_image_size_with_most_features(self) -> ImageSize:
+        hf_config = self.get_hf_config()
+        image_size = hf_config.vision_config.image_size
+        return ImageSize(height=image_size, width=image_size)
+
+
+class PaddleOCRVLDummyInputsBuilder(BaseDummyInputsBuilder[PaddleOCRVLProcessingInfo]):
+    def get_dummy_text(self, mm_counts: Mapping[str, int]) -> str:
+        num_images = mm_counts.get("image", 0)
+
+        processor = self.info.get_hf_processor()
+        image_token = processor.image_token
+
+        return image_token * num_images
+
+    def get_dummy_mm_data(
+        self,
+        seq_len: int,
+        mm_counts: Mapping[str, int],
+        mm_options: Mapping[str, BaseDummyOptions] | None = None,
+    ) -> MultiModalDataDict:
+        num_images = mm_counts.get("image", 0)
+
+        max_image_size = self.info.get_image_size_with_most_features()
+        image_overrides = mm_options.get("image") if mm_options else None
+
+        return {
+            "image": self._get_dummy_images(
+                width=max_image_size.width,
+                height=max_image_size.height,
+                num_images=num_images,
+                overrides=image_overrides,
+            )
+        }
+
+
+class PaddleOCRVLMultiModalProcessor(
+    BaseMultiModalProcessor[PaddleOCRVLProcessingInfo]
+):
+    def _call_hf_processor(
+        self,
+        prompt: str,
+        mm_data: Mapping[str, object],
+        mm_kwargs: Mapping[str, object],
+        tok_kwargs: Mapping[str, object],
+    ) -> BatchFeature:
+        if mm_data:
+            processed_outputs = self.info.ctx.call_hf_processor(
+                self.info.get_hf_processor(**mm_kwargs),
+                dict(text=prompt, **mm_data),
+                dict(**mm_kwargs, **tok_kwargs),
+            )
+            num_patches_per_image = processed_outputs["image_grid_thw"].prod(-1)
+            processed_outputs["pixel_values"] = processed_outputs["pixel_values"].split(
+                num_patches_per_image.tolist()
+            )
+        else:
+            tokenizer = self.info.get_tokenizer()
+            processed_outputs = tokenizer(
+                prompt, add_special_tokens=True, return_tensors="pt"
+            )
+        return processed_outputs
+
+    def _get_mm_fields_config(
+        self,
+        hf_inputs: BatchFeature,
+        hf_processor_mm_kwargs: Mapping[str, object],
+    ) -> Mapping[str, MultiModalFieldConfig]:
+        return dict(
+            pixel_values=MultiModalFieldConfig.batched("image"),
+            image_grid_thw=MultiModalFieldConfig.batched("image"),
+        )
+
+    def _get_prompt_updates(
+        self,
+        mm_items: MultiModalDataItems,
+        hf_processor_mm_kwargs: Mapping[str, object],
+        out_mm_kwargs: MultiModalKwargs,
+    ) -> Sequence[PromptUpdate]:
+        image_processor = self.info.get_image_processor(**hf_processor_mm_kwargs)
+        hf_config = self.info.get_hf_config()
+        image_token_id = hf_config.image_token_id
+
+        def get_replacement(item_idx: int, image_processor):
+            images = mm_items.get_items("image", ImageProcessorItems)
+
+            image_size = images.get_image_size(item_idx)
+            num_image_tokens = self.info.get_num_image_tokens(
+                image_width=image_size.width,
+                image_height=image_size.height,
+                image_processor=image_processor,
+            )
+
+            return [image_token_id] * num_image_tokens
+
+        return [
+            PromptReplacement(
+                modality="image",
+                target=[image_token_id],
+                replacement=partial(get_replacement, image_processor=image_processor),
+            ),
+        ]
+
+
+class Projector(nn.Module):
+    def __init__(
+        self,
+        text_config: PretrainedConfig,
+        vision_config: PretrainedConfig,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.text_config = text_config
+        self.vision_config = vision_config
+        self.merge_kernel_size = (2, 2)
+
+        self.hidden_size = (
+            self.vision_config.hidden_size
+            * self.merge_kernel_size[0]
+            * self.merge_kernel_size[1]
+        )
+
+        self.pre_norm = torch.nn.LayerNorm(self.vision_config.hidden_size, eps=1e-05)
+        self.linear_1 = nn.Linear(self.hidden_size, self.hidden_size, bias=True)
+        self.act = GELUActivation()
+        self.linear_2 = nn.Linear(
+            self.hidden_size, self.text_config.hidden_size, bias=True
+        )
+
+    def forward(
+        self,
+        image_features: torch.Tensor,
+        image_grid_thw: torch.Tensor,
+    ) -> torch.Tensor:
+        m1, m2 = self.merge_kernel_size
+        if isinstance(image_features, (list, tuple)):
+            processed_features = list()
+            for image_feature, image_grid in zip(image_features, image_grid_thw):
+                image_feature = self.pre_norm(image_feature)
+                t, h, w = image_grid
+
+                image_feature = rearrange(
+                    image_feature,
+                    "(t h p1 w p2) d -> (t h w) (p1 p2 d)",
+                    t=t,
+                    h=h // m1,
+                    p1=m1,
+                    w=w // m2,
+                    p2=m2,
+                )
+                hidden_states = self.linear_1(image_feature)
+                hidden_states = self.act(hidden_states)
+                hidden_states = self.linear_2(hidden_states)
+                processed_features.append(hidden_states)
+
+            return processed_features
+
+        dims = image_features.shape[:-1]
+        dim = image_features.shape[-1]
+        image_features = image_features.view(np.prod(dims), dim)
+        hidden_states = self.pre_norm(image_features).view(-1, self.hidden_size)
+        hidden_states = self.linear_1(hidden_states)
+        hidden_states = self.act(hidden_states)
+        hidden_states = self.linear_2(hidden_states)
+
+        return hidden_states.view(*dims, -1)
+
+
+class PaddleOCRImagePixelInputs(TensorSchema):
+    type: Literal["pixel_values"]
+    pixel_values: Annotated[
+        torch.Tensor,
+        TensorShape("bn", "p", 3, "patch_size", "patch_size", dynamic_dims={"p"}),
+    ]
+    image_grid_thw: Annotated[
+        torch.Tensor,
+        TensorShape("bn", 3),
+    ]
+
+
+class SiglipVisionEmbeddings(nn.Module):
+    def __init__(self, config: PretrainedConfig):
+        super().__init__()
+        self.config = config
+        self.embed_dim = config.hidden_size
+        self.image_size = config.image_size
+        self.patch_size = config.patch_size
+
+        self.patch_embedding = nn.Conv2d(
+            in_channels=config.num_channels,
+            out_channels=self.embed_dim,
+            kernel_size=self.patch_size,
+            stride=self.patch_size,
+            padding="valid",
+        )
+
+        self.num_patches = (self.image_size // self.patch_size) ** 2
+        self.num_positions = self.num_patches
+        self.cache_position_embedding = dict()
+        self.cache_position_count = dict()
+        self.position_embedding = nn.Embedding(self.num_positions, self.embed_dim)
+        self.packing_position_embedding = nn.Embedding(32768, self.embed_dim)
+
+        self.register_buffer(
+            "position_ids",
+            torch.arange(self.num_positions).expand((1, -1)),
+            persistent=False,
+        )
+
+    def interpolate_pos_encoding(
+        self,
+        embeddings: torch.Tensor,
+        height: int,
+        width: int,
+        is_after_patchify: bool = False,
+    ) -> torch.Tensor:
+        num_positions = self.position_embedding.weight.shape[0]
+
+        patch_pos_embed = self.position_embedding.weight.unsqueeze(0)
+
+        dim = embeddings.shape[-1]
+
+        if is_after_patchify:
+            new_height = height
+            new_width = width
+        else:
+            new_height = height // self.patch_size
+            new_width = width // self.patch_size
+
+        sqrt_num_positions = torch_int(num_positions**0.5)
+        patch_pos_embed = patch_pos_embed.reshape(
+            1, sqrt_num_positions, sqrt_num_positions, dim
+        )
+        patch_pos_embed = patch_pos_embed.permute(0, 3, 1, 2)
+
+        patch_pos_embed = nn.functional.interpolate(
+            patch_pos_embed,
+            size=(new_height, new_width),
+            mode="bilinear",
+            align_corners=False,
+        )
+
+        patch_pos_embed = patch_pos_embed.permute(0, 2, 3, 1).view(1, -1, dim)
+        return patch_pos_embed
+
+    def fetch_position_embedding_lfu_cache(
+        self, embeddings: torch.Tensor, h: int, w: int, max_cache: int = 20
+    ):
+        grid = (h, w)
+        if grid in self.cache_position_embedding:
+            self.cache_position_count[grid] += 1
+            return self.cache_position_embedding[grid]
+
+        if len(self.cache_position_embedding) >= max_cache:
+            min_hit_grid = min(
+                self.cache_position_count,
+                key=self.cache_position_count.get,
+            )
+            self.cache_position_count.pop(min_hit_grid)
+            self.cache_position_embedding.pop(min_hit_grid)
+
+        position_embedding = self.interpolate_pos_encoding(embeddings, h, w, True)
+        self.cache_position_count[grid] = 1
+        self.cache_position_embedding[grid] = position_embedding
+        return position_embedding
+
+    def forward(
+        self,
+        pixel_values: torch.FloatTensor,
+        position_ids: torch.Tensor | None = None,
+        image_grid_thw: list[tuple[int, int, int] | list[tuple[int, int, int]]]
+        | None = None,
+        interpolate_pos_encoding=False,
+    ) -> torch.Tensor:
+        if pixel_values.dim() == 4:
+            pixel_values = pixel_values.unsqueeze(0)
+        if pixel_values.dim() == 5:
+            if position_ids is None:
+                raise ValueError(
+                    "position_ids cannot be None when pixel_values.dim() is 5."
+                )
+            (
+                batch_size,
+                squence_len,
+                channel,
+                height,
+                width,
+            ) = pixel_values.shape
+            target_dtype = self.patch_embedding.weight.dtype
+            pixel_values = rearrange(pixel_values, "b l c h w -> (b l) c h w")
+            patch_embeds = self.patch_embedding(pixel_values.to(dtype=target_dtype))
+            embeddings = patch_embeds.flatten(-2).squeeze(-1)
+
+            if interpolate_pos_encoding and image_grid_thw is not None:
+                start = 0
+                tmp_embeddings = list()
+                for image_grid in image_grid_thw:
+                    t, h, w = image_grid
+                    end = start + t * h * w
+                    image_embeddings = embeddings[start:end, :]
+                    position_embedding = (
+                        self.interpolate_pos_encoding(image_embeddings, h, w, True)
+                        .squeeze(0)
+                        .repeat(t, 1)
+                    )
+                    image_embeddings = image_embeddings + position_embedding
+                    tmp_embeddings.append(image_embeddings)
+                    start = end
+                embeddings = torch.concat(tmp_embeddings, dim=0).unsqueeze(0)
+            else:
+                embeddings = embeddings + self.packing_position_embedding(position_ids)
+            return embeddings
+        else:
+            raise ValueError(
+                "Unsupported pixel_values dimension:"
+                f" {pixel_values.dim()}. Expected 4 or 5."
+            )
+
+
+def all_gather_interleave(local_tensor: torch.Tensor, hidden_size: int, tp_size: int):
+    """All-gather the input tensor interleavely across model parallel group."""
+    import torch.distributed as dist
+
+    gathered_tensors = [torch.zeros_like(local_tensor) for _ in range(tp_size)]
+    dist.all_gather(
+        gathered_tensors, local_tensor, group=parallel_state.get_tp_group().device_group
+    )
+
+    gathered_tensors_split = [
+        torch.split(tensor, hidden_size // tp_size, -1) for tensor in gathered_tensors
+    ]
+    ordered_tensors = [
+        tensor for pair in zip(*gathered_tensors_split) for tensor in pair
+    ]
+    result_tensor = torch.cat(ordered_tensors, dim=-1)
+    return result_tensor
+
+
+class SiglipAttention(nn.Module):
+    """SigLIP vision attention adapted from Qwen2.5-VisionAttention."""
+
+    def __init__(
+        self,
+        *,
+        embed_dim: int,
+        num_heads: int,
+        projection_size: int,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        attn_backend: _Backend = _Backend.TORCH_SDPA,
+        attn_backend_override: _Backend | None = None,
+        use_upstream_fa: bool = False,
+    ) -> None:
+        super().__init__()
+
+        self.tp_size = parallel_state.get_tensor_model_parallel_world_size()
+        self.tp_rank = parallel_state.get_tensor_model_parallel_rank()
+        self.hidden_size_per_attention_head = dist_utils.divide(
+            projection_size, num_heads
+        )
+        self.num_attention_heads_per_partition = dist_utils.divide(
+            num_heads, self.tp_size
+        )
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size=embed_dim,
+            head_size=self.hidden_size_per_attention_head,
+            total_num_heads=num_heads,
+            total_num_kv_heads=num_heads,
+            bias=True,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+        self.out_proj = RowParallelLinear(
+            input_size=projection_size,
+            output_size=embed_dim,
+            quant_config=quant_config,
+            prefix=f"{prefix}.out_proj",
+        )
+
+        self.attn_backend = attn_backend
+        self.use_upstream_fa = use_upstream_fa
+        self.attn_backend, self.flash_attn_varlen_func = (
+            maybe_get_vit_flash_attn_backend(
+                self.attn_backend,
+                self.use_upstream_fa,
+                attn_backend_override=attn_backend_override,
+            )
+        )
+        self.is_flash_attn_backend = self.attn_backend in {
+            _Backend.FLASH_ATTN,
+            _Backend.ROCM_AITER_FA,
+        }
+
+    def split_qkv(self, qkv: torch.Tensor) -> tuple[torch.Tensor, ...]:
+        seq_len, bs, _ = qkv.shape
+        if self.tp_size > 1:
+            qkv = all_gather_interleave(qkv, self.qkv_proj.hidden_size, self.tp_size)
+
+        q, k, v = qkv.chunk(3, dim=2)
+
+        if self.tp_size > 1:
+            splitter = partial(
+                dist_utils.split_tensor_along_last_dim, num_partitions=self.tp_size
+            )
+            q = splitter(q)[self.tp_rank]
+            k = splitter(k)[self.tp_rank]
+            v = splitter(v)[self.tp_rank]
+
+        new_shape = (
+            seq_len,
+            bs,
+            self.num_attention_heads_per_partition,
+            self.hidden_size_per_attention_head,
+        )
+        q, k, v = (x.view(*new_shape) for x in (q, k, v))
+        return q, k, v
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        *,
+        cu_seqlens: torch.Tensor,
+        rotary_pos_emb: torch.Tensor | None,
+        max_seqlen: torch.Tensor | None,
+        seqlens: torch.Tensor | None,
+    ) -> torch.Tensor:
+        batch_size, _, _ = hidden_states.shape
+
+        x = rearrange(hidden_states, "b s d -> s b d")
+        x, _ = self.qkv_proj(x)
+        q, k, v = self.split_qkv(x)
+        q, k, v = (rearrange(t, "s b h d -> b s h d") for t in (q, k, v))
+
+        if rotary_pos_emb is not None:
+            qk_concat = torch.cat([q, k], dim=0)
+            qk_rotated = apply_rotary_pos_emb_vision(qk_concat, rotary_pos_emb)
+            q, k = torch.chunk(qk_rotated, 2, dim=0)
+
+        if self.is_flash_attn_backend:
+            if max_seqlen is None:
+                raise ValueError("Flash attention backend requires max_seqlen.")
+            context_layer = vit_flash_attn_wrapper(
+                q,
+                k,
+                v,
+                cu_seqlens,
+                max_seqlen,
+                batch_size,
+                self.attn_backend == _Backend.ROCM_AITER_FA,
+                self.use_upstream_fa,
+            )
+        elif self.attn_backend == _Backend.TORCH_SDPA:
+            outputs = []
+            for i in range(1, len(cu_seqlens)):
+                start_idx = cu_seqlens[i - 1]
+                end_idx = cu_seqlens[i]
+                q_i = q[:, start_idx:end_idx]
+                k_i = k[:, start_idx:end_idx]
+                v_i = v[:, start_idx:end_idx]
+                q_i, k_i, v_i = (
+                    rearrange(tensor, "b s h d -> b h s d")
+                    for tensor in (q_i, k_i, v_i)
+                )
+                output_i = F.scaled_dot_product_attention(q_i, k_i, v_i, dropout_p=0.0)
+                output_i = rearrange(output_i, "b h s d -> b s h d")
+                outputs.append(output_i)
+            context_layer = torch.cat(outputs, dim=1)
+            context_layer = rearrange(
+                context_layer, "b s h d -> s b (h d)"
+            ).contiguous()
+        elif self.attn_backend == _Backend.XFORMERS:
+            if seqlens is None:
+                raise ValueError("xFormers attention backend requires seqlens tensor.")
+            context_layer = vit_xformers_attn_wrapper(q, k, v, seqlens)
+        else:
+            raise RuntimeError(
+                f"PaddleOCR-VL does not support {self.attn_backend} backend now."
+            )
+
+        output, _ = self.out_proj(context_layer)
+        output = rearrange(output, "s b d -> b s d")
+        return output
+
+
+class SigLIPRotaryEmbedding(nn.Module):
+    def __init__(self, dim: int, theta: float = 10000.0) -> None:
+        super().__init__()
+        self.dim = dim
+        self.theta = theta
+        self.rope_init()
+
+    def rope_init(self):
+        inv_freq = 1.0 / (
+            self.theta ** (torch.arange(0, self.dim, 2, dtype=torch.float) / self.dim)
+        )
+        self.register_buffer("inv_freq", inv_freq, persistent=False)
+
+    def forward(self, seqlen: int) -> torch.Tensor:
+        seq = torch.arange(
+            seqlen,
+            device=self.inv_freq.device,
+            dtype=self.inv_freq.dtype,
+        )
+        freqs = torch.outer(seq, self.inv_freq)
+        return freqs
+
+
+class SiglipMLP(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+
+        self.config = config
+        self.activation_fn = get_act_fn(config.hidden_act)
+        # Special handling for BNB and torchao quantization
+        if quant_config and quant_config.get_name() in ["bitsandbytes", "torchao"]:
+            quantizable = True
+        else:
+            # For other quantization, we require the hidden size to be a
+            # multiple of 64
+            quantizable = (
+                config.hidden_size % 64 == 0 and config.intermediate_size % 64 == 0
+            )
+        self.fc1 = ColumnParallelLinear(
+            config.hidden_size,
+            config.intermediate_size,
+            quant_config=quant_config if quantizable else None,
+            prefix=f"{prefix}.fc1",
+        )
+        self.fc2 = RowParallelLinear(
+            config.intermediate_size,
+            config.hidden_size,
+            quant_config=quant_config if quantizable else None,
+            prefix=f"{prefix}.fc2",
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        hidden_states, _ = self.fc1(hidden_states)
+        hidden_states = self.activation_fn(hidden_states)
+        hidden_states, _ = self.fc2(hidden_states)
+        return hidden_states
+
+
+class SiglipEncoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        *,
+        attn_backend: _Backend = _Backend.TORCH_SDPA,
+        attn_backend_override: _Backend | None = None,
+        use_upstream_fa: bool = False,
+    ):
+        super().__init__()
+        self.embed_dim = config.hidden_size
+        self.layer_norm1 = nn.LayerNorm(self.embed_dim, eps=config.layer_norm_eps)
+        self.self_attn = SiglipAttention(
+            embed_dim=config.hidden_size,
+            num_heads=config.num_attention_heads,
+            projection_size=config.hidden_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.self_attn",
+            attn_backend=attn_backend,
+            attn_backend_override=attn_backend_override,
+            use_upstream_fa=use_upstream_fa,
+        )
+        self.layer_norm2 = nn.LayerNorm(self.embed_dim, eps=config.layer_norm_eps)
+        self.mlp = SiglipMLP(
+            config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.mlp",
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        *,
+        cu_seqlens: torch.Tensor,
+        rotary_pos_emb: torch.Tensor | None,
+        max_seqlen: torch.Tensor | None,
+        seqlens: torch.Tensor | None,
+    ) -> torch.Tensor:
+        residual = hidden_states
+
+        hidden_states = self.layer_norm1(hidden_states)
+        hidden_states = self.self_attn(
+            hidden_states=hidden_states,
+            cu_seqlens=cu_seqlens,
+            rotary_pos_emb=rotary_pos_emb,
+            max_seqlen=max_seqlen,
+            seqlens=seqlens,
+        )
+
+        hidden_states = residual + hidden_states
+
+        residual = hidden_states
+        hidden_states = self.layer_norm2(hidden_states)
+        hidden_states = self.mlp(hidden_states)
+
+        hidden_states = residual + hidden_states
+
+        return hidden_states
+
+
+class SiglipEncoder(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        attn_backend_override: _Backend | None = None,
+    ):
+        super().__init__()
+        self.config = config
+        embed_dim = config.hidden_size
+        num_heads = config.num_attention_heads
+        head_dim = embed_dim // num_heads
+        self.attn_backend = get_vit_attn_backend(
+            head_size=head_dim,
+            dtype=torch.get_default_dtype(),
+            attn_backend_override=attn_backend_override,
+        )
+        self.use_upstream_fa = False
+        if self.attn_backend not in {
+            _Backend.FLASH_ATTN,
+            _Backend.ROCM_AITER_FA,
+        } and check_upstream_fa_availability(torch.get_default_dtype()):
+            self.attn_backend = _Backend.FLASH_ATTN
+            self.use_upstream_fa = True
+        if self.attn_backend not in {
+            _Backend.FLASH_ATTN,
+            _Backend.TORCH_SDPA,
+            _Backend.XFORMERS,
+            _Backend.ROCM_AITER_FA,
+        }:
+            raise RuntimeError(
+                f"PaddleOCR-VL does not support {self.attn_backend} backend now."
+            )
+        self.layers = nn.ModuleList(
+            [
+                SiglipEncoderLayer(
+                    config,
+                    quant_config=quant_config,
+                    prefix=f"{prefix}.layers.{layer_idx}",
+                    attn_backend=self.attn_backend,
+                    attn_backend_override=attn_backend_override,
+                    use_upstream_fa=self.use_upstream_fa,
+                )
+                for layer_idx in range(config.num_hidden_layers)
+            ]
+        )
+        self.rotary_pos_emb = SigLIPRotaryEmbedding(head_dim // 2)
+
+    @staticmethod
+    def flatten_list(image_grid_thw):
+        tmp_image_grid_thw = list()
+        for image_grid in image_grid_thw:
+            if isinstance(image_grid, list):
+                tmp_image_grid_thw.extend(image_grid)
+            else:
+                tmp_image_grid_thw.append(image_grid)
+        return tmp_image_grid_thw
+
+    def forward(
+        self,
+        inputs_embeds,
+        cu_seqlens: torch.Tensor | None = None,
+        image_grid_thw: list[tuple[int, int, int] | list[tuple[int, int, int]]]
+        | None = None,
+        height_position_ids: torch.Tensor | None = None,
+        width_position_ids: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        device = inputs_embeds.device
+        hidden_states = inputs_embeds
+
+        flatten_image_grid_thw = self.flatten_list(image_grid_thw)
+
+        if width_position_ids is None or height_position_ids is None:
+            split_hids = list()
+            split_wids = list()
+            for t, h, w in flatten_image_grid_thw:
+                image_pids = torch.arange(t * h * w, device=device) % (h * w)
+                sample_hids = image_pids // w
+                sample_wids = image_pids % w
+                split_hids.append(sample_hids)
+                split_wids.append(sample_wids)
+            width_position_ids = torch.concat(split_wids, dim=0)
+            height_position_ids = torch.concat(split_hids, dim=0)
+
+        pids = torch.stack(
+            [height_position_ids, width_position_ids],
+            dim=-1,
+        )
+        max_grid_size = pids.max() + 1
+        rope_emb_max_grid = self.rotary_pos_emb(max_grid_size)
+        rotary_pos_emb = rope_emb_max_grid[pids].flatten(1)
+
+        if cu_seqlens is None:
+            raise ValueError("cu_seqlens cannot be None for SiglipEncoder.")
+        if not isinstance(cu_seqlens, torch.Tensor):
+            cu_seqlens = torch.tensor(cu_seqlens, dtype=torch.int32, device=device)
+        else:
+            cu_seqlens = cu_seqlens.to(device=device)
+
+        max_seqlen = None
+        seqlens = None
+        if self.attn_backend in {_Backend.FLASH_ATTN, _Backend.ROCM_AITER_FA}:
+            max_seqlen = (cu_seqlens[1:] - cu_seqlens[:-1]).max()
+        elif self.attn_backend == _Backend.XFORMERS:
+            seqlens = cu_seqlens[1:] - cu_seqlens[:-1]
+
+        hidden_states = inputs_embeds
+        for encoder_layer in self.layers:
+            hidden_states = encoder_layer(
+                hidden_states,
+                cu_seqlens=cu_seqlens,
+                rotary_pos_emb=rotary_pos_emb,
+                max_seqlen=max_seqlen,
+                seqlens=seqlens,
+            )
+        return hidden_states
+
+
+class SiglipVisionTransformer(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        attn_backend_override: _Backend | None = None,
+    ):
+        super().__init__()
+        self.config = config
+        embed_dim = config.hidden_size
+
+        self.embeddings = SiglipVisionEmbeddings(config)
+        self.encoder = SiglipEncoder(
+            config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.encoder",
+            attn_backend_override=attn_backend_override,
+        )
+        self.post_layernorm = nn.LayerNorm(embed_dim, eps=config.layer_norm_eps)
+
+    def forward(
+        self,
+        pixel_values: torch.Tensor,
+        interpolate_pos_encoding: bool | None = False,
+        position_ids: torch.Tensor | None = None,
+        height_position_ids: torch.Tensor | None = None,
+        width_position_ids: torch.Tensor | None = None,
+        cu_seqlens: torch.Tensor | None = None,
+        image_grid_thw: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        hidden_states = self.embeddings(
+            pixel_values,
+            interpolate_pos_encoding=interpolate_pos_encoding,
+            position_ids=position_ids,
+            image_grid_thw=image_grid_thw,
+        )
+
+        last_hidden_state = self.encoder(
+            inputs_embeds=hidden_states,
+            cu_seqlens=cu_seqlens,
+            image_grid_thw=image_grid_thw,
+            height_position_ids=height_position_ids,
+            width_position_ids=width_position_ids,
+        )
+
+        last_hidden_state = self.post_layernorm(last_hidden_state)
+        return last_hidden_state
+
+
+class SiglipVisionModel(nn.Module):
+    def __init__(
+        self,
+        config,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        attn_backend_override: _Backend | None = None,
+    ):
+        super().__init__()
+
+        self.vision_model = SiglipVisionTransformer(
+            config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.vision_model",
+            attn_backend_override=attn_backend_override,
+        )
+        self.quant_config = quant_config
+
+    @property
+    def dtype(self) -> torch.dtype:
+        return self.vision_model.embeddings.patch_embedding.weight.dtype
+
+    @property
+    def device(self) -> torch.device:
+        return self.vision_model.embeddings.patch_embedding.weight.device
+
+    def get_input_embeddings(self) -> nn.Module:
+        return self.vision_model.embeddings.patch_embedding
+
+    def forward(
+        self,
+        pixel_values,
+        interpolate_pos_encoding: bool = False,
+        position_ids: torch.Tensor | None = None,
+        image_grid_thw: list[tuple[int, int, int] | list[tuple[int, int, int]]]
+        | None = None,
+        cu_seqlens: torch.Tensor | None = None,
+    ) -> BaseModelOutputWithPooling:
+        return self.vision_model(
+            pixel_values=pixel_values,
+            interpolate_pos_encoding=interpolate_pos_encoding,
+            position_ids=position_ids,
+            image_grid_thw=image_grid_thw,
+            cu_seqlens=cu_seqlens,
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+        ]
+        params_dict = dict(self.named_parameters(remove_duplicate=False))
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+            if "head.attention" in name or "head.layernorm" in name:
+                continue
+            if "head.mlp" in name or "head.probe" in name:
+                continue
+            if self.quant_config is not None and (
+                scale_name := self.quant_config.get_cache_scale(name)
+            ):
+                param = params_dict[scale_name]
+                weight_loader = getattr(
+                    param,
+                    "weight_loader",
+                    default_weight_loader,
+                )
+                loaded_weight = (
+                    loaded_weight if loaded_weight.dim() == 0 else loaded_weight[0]
+                )
+                weight_loader(param, loaded_weight)
+                loaded_params.add(scale_name)
+                continue
+            for (
+                param_name,
+                weight_name,
+                shard_id,
+            ) in stacked_params_mapping:
+                if weight_name not in name:
+                    continue
+                name = name.replace(weight_name, param_name)
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                name = maybe_remap_kv_scale_name(name, params_dict)
+                if name is None:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+                param = params_dict[name]
+                weight_loader = getattr(
+                    param,
+                    "weight_loader",
+                    default_weight_loader,
+                )
+                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    PaddleOCRVLMultiModalProcessor,
+    info=PaddleOCRVLProcessingInfo,
+    dummy_inputs=PaddleOCRVLDummyInputsBuilder,
+)
+class PaddleOCRVLForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsMRoPE):
+    merge_by_field_config = True
+
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_prefix={
+            "model.": "language_model.model.",
+            "lm_head.": "language_model.lm_head.",
+        }
+    )
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        multimodal_config = vllm_config.model_config.multimodal_config
+
+        self.config = config
+        self.multimodal_config = multimodal_config
+
+        attn_backend_override = (
+            multimodal_config.mm_encoder_attn_backend
+            if multimodal_config is not None
+            else None
+        )
+
+        self.visual = SiglipVisionModel(
+            config=config.vision_config,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "visual"),
+            attn_backend_override=attn_backend_override,
+        )
+        self.mlp_AR = Projector(config, config.vision_config)
+
+        self.language_model = Ernie4_5ForCausalLM(
+            vllm_config=vllm_config,
+            prefix=maybe_prefix(prefix, "language_model"),
+        )
+
+        for layer in self.language_model.model.layers:
+            if not isinstance(layer, PPMissingLayer):
+                layer.self_attn.rotary_emb.is_neox_style = True
+
+        self.make_empty_intermediate_tensors = (
+            self.language_model.make_empty_intermediate_tensors
+        )
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        return self.language_model.compute_logits(hidden_states)
+
+    def get_mrope_input_positions(
+        self,
+        input_tokens: list[int],
+        hf_config: PretrainedConfig,
+        image_grid_thw: list[list[int]] | torch.Tensor,
+        video_grid_thw: list[list[int]] | torch.Tensor,
+        second_per_grid_ts: list[float],
+        context_len: int = 0,
+        seq_len: int | None = None,
+        audio_feature_lengths: torch.Tensor | None = None,
+        use_audio_in_video: bool = False,
+    ) -> tuple[torch.Tensor, int]:
+        """Get mrope input positions and delta value."""
+
+        image_token_id = hf_config.image_token_id
+        video_token_id = hf_config.video_token_id
+        vision_start_token_id = hf_config.vision_start_token_id
+        spatial_merge_size = hf_config.vision_config.spatial_merge_size
+        tokens_per_second = getattr(hf_config.vision_config, "tokens_per_second", 1.0)
+
+        input_tokens_tensor = torch.tensor(input_tokens)
+        vision_start_indices = torch.argwhere(
+            input_tokens_tensor == vision_start_token_id
+        ).squeeze(1)
+        vision_tokens = input_tokens_tensor[vision_start_indices + 1]
+        image_nums = (vision_tokens == image_token_id).sum()
+        video_nums = (vision_tokens == video_token_id).sum()
+        llm_pos_ids_list: list = []
+
+        st = 0
+        remain_images, remain_videos = image_nums, video_nums
+
+        image_index, video_index = 0, 0
+        for _ in range(image_nums + video_nums):
+            video_second_per_grid_t = 0.0
+            if remain_images > 0:
+                try:
+                    ed_image = input_tokens.index(image_token_id, st)
+                except ValueError:
+                    ed_image = len(input_tokens) + 1
+            else:
+                ed_image = len(input_tokens) + 1
+            if remain_videos > 0:
+                try:
+                    ed_video = input_tokens.index(video_token_id, st)
+                except ValueError:
+                    ed_video = len(input_tokens) + 1
+            else:
+                ed_video = len(input_tokens) + 1
+            if ed_image < ed_video:
+                t, h, w = (
+                    image_grid_thw[image_index][0],
+                    image_grid_thw[image_index][1],
+                    image_grid_thw[image_index][2],
+                )
+                image_index += 1
+                remain_images -= 1
+                ed = ed_image
+            else:
+                t, h, w = (
+                    video_grid_thw[video_index][0],
+                    video_grid_thw[video_index][1],
+                    video_grid_thw[video_index][2],
+                )
+                video_second_per_grid_t = 1.0
+                if second_per_grid_ts:
+                    video_second_per_grid_t = second_per_grid_ts[video_index]
+                video_index += 1
+                remain_videos -= 1
+                ed = ed_video
+
+            llm_grid_t, llm_grid_h, llm_grid_w = (
+                t,
+                h // spatial_merge_size,
+                w // spatial_merge_size,
+            )
+            text_len = ed - st
+
+            st_idx = llm_pos_ids_list[-1].max() + 1 if len(llm_pos_ids_list) > 0 else 0
+            llm_pos_ids_list.append(
+                torch.arange(text_len).view(1, -1).expand(3, -1) + st_idx
+            )
+
+            t_index = (
+                (
+                    torch.arange(llm_grid_t)
+                    .view(-1, 1)
+                    .expand(-1, llm_grid_h * llm_grid_w)
+                    * video_second_per_grid_t
+                    * tokens_per_second
+                )
+                .long()
+                .flatten()
+            )
+
+            h_index = (
+                torch.arange(llm_grid_h)
+                .view(1, -1, 1)
+                .expand(llm_grid_t, -1, llm_grid_w)
+                .flatten()
+            )
+            w_index = (
+                torch.arange(llm_grid_w)
+                .view(1, 1, -1)
+                .expand(llm_grid_t, llm_grid_h, -1)
+                .flatten()
+            )
+            llm_pos_ids_list.append(
+                torch.stack([t_index, h_index, w_index]) + text_len + st_idx
+            )
+            st = ed + llm_grid_t * llm_grid_h * llm_grid_w
+
+        if st < len(input_tokens):
+            st_idx = llm_pos_ids_list[-1].max() + 1 if len(llm_pos_ids_list) > 0 else 0
+            text_len = len(input_tokens) - st
+            llm_pos_ids_list.append(
+                torch.arange(text_len).view(1, -1).expand(3, -1) + st_idx
+            )
+
+        llm_positions = torch.cat(llm_pos_ids_list, dim=1).reshape(3, -1)
+        mrope_position_delta = (llm_positions.max() + 1 - len(input_tokens)).item()
+        llm_positions = llm_positions[:, context_len:seq_len]
+
+        return llm_positions, mrope_position_delta
+
+    def get_language_model(self) -> nn.Module:
+        return self.language_model
+
+    def _parse_and_validate_image_input(
+        self, **kwargs: object
+    ) -> PaddleOCRImagePixelInputs | None:
+        pixel_values = kwargs.pop("pixel_values", None)
+        image_grid_thw = kwargs.pop("image_grid_thw", None)
+
+        if pixel_values is None:
+            return None
+
+        return PaddleOCRImagePixelInputs(
+            type="pixel_values",
+            pixel_values=pixel_values,
+            image_grid_thw=image_grid_thw,
+        )
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        **kwargs,
+    ):
+        if intermediate_tensors is not None:
+            inputs_embeds = None
+
+        elif inputs_embeds is None:
+            vision_embeddings = self.get_multimodal_embeddings(**kwargs)
+            is_multimodal = kwargs.pop("is_multimodal", None)
+            handle_oov_mm_token = kwargs.pop("handle_oov_mm_token", False)
+            inputs_embeds = self.get_input_embeddings(
+                input_ids,
+                vision_embeddings,
+                is_multimodal=is_multimodal,
+                handle_oov_mm_token=handle_oov_mm_token,
+            )
+            input_ids = None
+
+        return self.language_model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+
+    @classmethod
+    def get_placeholder_str(cls, modality: str, i: int) -> str | None:
+        if modality.startswith("image"):
+            return "<|IMAGE_START|><|IMAGE_PLACEHOLDER|><|IMAGE_END|>"
+
+        raise ValueError("Only image modality is supported")
+
+    def encode_image(
+        self, pixel_values: torch.Tensor, image_grid_thw: torch.Tensor
+    ) -> torch.Tensor:
+        pixel_values = pixel_values.type(self.visual.dtype)
+        siglip_position_ids = list()
+        image_grid_hws = list()
+        cu_seqlens = [0]
+
+        thw_tuple = tuple(image_grid_thw.tolist())
+        numel = np.prod(thw_tuple)
+        image_grid_hws.append(thw_tuple)
+        image_position_ids = torch.arange(numel) % np.prod(thw_tuple[1:])
+        siglip_position_ids.append(image_position_ids)
+        cu_seqlens.append(cu_seqlens[-1] + numel)
+
+        siglip_position_ids = torch.concat(siglip_position_ids, dim=0).to(
+            pixel_values.device
+        )
+        cu_seqlens = torch.tensor(cu_seqlens, dtype=torch.int32).to(pixel_values.device)
+
+        vision_outputs = self.visual(
+            pixel_values=pixel_values,
+            image_grid_thw=image_grid_hws,
+            position_ids=siglip_position_ids,
+            interpolate_pos_encoding=True,
+            cu_seqlens=cu_seqlens,
+        )
+        return vision_outputs
+
+    def _process_image_input(
+        self, image_input: PaddleOCRImagePixelInputs
+    ) -> MultiModalEmbeddings:
+        pixel_values = image_input.pixel_values
+        image_grid_thw = image_input.image_grid_thw
+        vision_outputs = tuple(
+            self.encode_image(pixel, grid).squeeze(0)
+            for pixel, grid in zip(pixel_values, image_grid_thw)
+        )
+        image_embeds = self.mlp_AR(vision_outputs, image_grid_thw)
+        return image_embeds
+
+    def get_multimodal_embeddings(self, **kwargs) -> MultiModalEmbeddings:
+        image_input = self._parse_and_validate_image_input(**kwargs)
+        if image_input is None:
+            return ()
+
+        multimodal_embeddings: tuple[torch.Tensor, ...] = ()
+        image_embeds = self._process_image_input(image_input)
+        multimodal_embeddings += tuple(image_embeds)
+
+        return multimodal_embeddings
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        autoloaded_weights = loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
+        return autoloaded_weights
diff --git a/vllm/model_executor/models/registry.py b/vllm/model_executor/models/registry.py
index 7eca1a09e5365..d9299697fcb03 100644
--- a/vllm/model_executor/models/registry.py
+++ b/vllm/model_executor/models/registry.py
@@ -340,6 +340,10 @@ _MULTIMODAL_MODELS = {
     "NVLM_D": ("nvlm_d", "NVLM_D_Model"),
     "Ovis": ("ovis", "Ovis"),
     "Ovis2_5": ("ovis2_5", "Ovis2_5"),
+    "PaddleOCRVLForConditionalGeneration": (
+        "paddleocr_vl",
+        "PaddleOCRVLForConditionalGeneration",
+    ),
     "PaliGemmaForConditionalGeneration": (
         "paligemma",
         "PaliGemmaForConditionalGeneration",

From 294c805f1df9ddf62c2290989710da9d48ab4973 Mon Sep 17 00:00:00 2001
From: gnovack <gnovack@amazon.com>
Date: Mon, 3 Nov 2025 04:22:17 -0800
Subject: [PATCH 092/976] Early exit for MoE LoRA kernels (#27131)

Signed-off-by: gnovack <gnovack@amazon.com>
Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>
---
 csrc/moe/moe_lora_align_sum_kernels.cu        | 27 ++++++----
 csrc/moe/moe_ops.h                            | 15 +++---
 csrc/moe/torch_bindings.cpp                   |  4 +-
 tests/lora/test_fused_moe_lora_kernel.py      |  6 +++
 tests/lora/test_moe_lora_align_sum.py         |  4 ++
 tests/lora/test_olmoe_tp.py                   | 50 ++++++++++++++++---
 vllm/_custom_ops.py                           |  4 ++
 vllm/lora/layers/fused_moe.py                 | 11 +++-
 vllm/lora/ops/triton_ops/fused_moe_lora_op.py | 25 ++++++++--
 vllm/lora/punica_wrapper/punica_base.py       |  2 +
 vllm/lora/punica_wrapper/punica_gpu.py        |  9 +++-
 11 files changed, 123 insertions(+), 34 deletions(-)

diff --git a/csrc/moe/moe_lora_align_sum_kernels.cu b/csrc/moe/moe_lora_align_sum_kernels.cu
index e76d1c3667853..360f1312cf579 100644
--- a/csrc/moe/moe_lora_align_sum_kernels.cu
+++ b/csrc/moe/moe_lora_align_sum_kernels.cu
@@ -28,11 +28,16 @@ __global__ void moe_lora_align_sum_kernel(
     int64_t block_size, int num_experts, int max_loras, size_t numel,
     int max_num_tokens_padded, int max_num_m_blocks,
     int32_t* __restrict__ sorted_token_ids, int32_t* __restrict__ expert_ids,
-    int topk_num, int32_t* total_tokens_post_pad) {
+    int topk_num, int32_t* total_tokens_post_pad, int32_t* adapter_enabled,
+    int32_t* lora_ids) {
   const size_t tokens_per_thread = div_ceil(numel, blockDim.x);
   const size_t start_idx = threadIdx.x * tokens_per_thread;
 
-  int lora_id = blockIdx.x;
+  int lora_idx = blockIdx.x;
+  int lora_id = lora_ids[lora_idx];
+  if (lora_id == -1 || adapter_enabled[lora_id] == 0) {
+    return;
+  }
   extern __shared__ int32_t shared_mem[];
   int32_t* cumsum = shared_mem;
   token_cnts_t* tokens_cnts = (token_cnts_t*)(shared_mem + num_experts + 1);
@@ -121,14 +126,13 @@ __global__ void moe_lora_align_sum_kernel(
   }
 }
 
-void moe_lora_align_block_size(torch::Tensor topk_ids,
-                               torch::Tensor token_lora_mapping,
-                               int64_t num_experts, int64_t block_size,
-                               int64_t max_loras, int64_t max_num_tokens_padded,
-                               int64_t max_num_m_blocks,
-                               torch::Tensor sorted_token_ids,
-                               torch::Tensor expert_ids,
-                               torch::Tensor num_tokens_post_pad) {
+void moe_lora_align_block_size(
+    torch::Tensor topk_ids, torch::Tensor token_lora_mapping,
+    int64_t num_experts, int64_t block_size, int64_t max_loras,
+    int64_t max_num_tokens_padded, int64_t max_num_m_blocks,
+    torch::Tensor sorted_token_ids, torch::Tensor expert_ids,
+    torch::Tensor num_tokens_post_pad, torch::Tensor adapter_enabled,
+    torch::Tensor lora_ids) {
   const int topk_num = topk_ids.size(1);
 
   TORCH_CHECK(block_size > 0, "block_size should be greater than 0. ");
@@ -164,6 +168,7 @@ void moe_lora_align_block_size(torch::Tensor topk_ids,
             max_loras, topk_ids.numel(), max_num_tokens_padded,
             max_num_m_blocks, sorted_token_ids.data_ptr<int32_t>(),
             expert_ids.data_ptr<int32_t>(), topk_num,
-            num_tokens_post_pad.data_ptr<int32_t>());
+            num_tokens_post_pad.data_ptr<int32_t>(),
+            adapter_enabled.data_ptr<int32_t>(), lora_ids.data_ptr<int32_t>());
       });
 }
\ No newline at end of file
diff --git a/csrc/moe/moe_ops.h b/csrc/moe/moe_ops.h
index e4bf0aa99421b..0adf745689b2f 100644
--- a/csrc/moe/moe_ops.h
+++ b/csrc/moe/moe_ops.h
@@ -20,14 +20,13 @@ void batched_moe_align_block_size(int64_t max_tokens_per_batch,
                                   torch::Tensor expert_ids,
                                   torch::Tensor num_tokens_post_pad);
 
-void moe_lora_align_block_size(torch::Tensor topk_ids,
-                               torch::Tensor token_lora_mapping,
-                               int64_t num_experts, int64_t block_size,
-                               int64_t max_loras, int64_t max_num_tokens_padded,
-                               int64_t max_num_m_blocks,
-                               torch::Tensor sorted_token_ids,
-                               torch::Tensor expert_ids,
-                               torch::Tensor num_tokens_post_pad);
+void moe_lora_align_block_size(
+    torch::Tensor topk_ids, torch::Tensor token_lora_mapping,
+    int64_t num_experts, int64_t block_size, int64_t max_loras,
+    int64_t max_num_tokens_padded, int64_t max_num_m_blocks,
+    torch::Tensor sorted_token_ids, torch::Tensor expert_ids,
+    torch::Tensor num_tokens_post_pad, torch::Tensor adapter_enabled,
+    torch::Tensor lora_ids);
 #ifndef USE_ROCM
 torch::Tensor moe_wna16_gemm(torch::Tensor input, torch::Tensor output,
                              torch::Tensor b_qweight, torch::Tensor b_scales,
diff --git a/csrc/moe/torch_bindings.cpp b/csrc/moe/torch_bindings.cpp
index c08a543908ef0..ace72fad71e86 100644
--- a/csrc/moe/torch_bindings.cpp
+++ b/csrc/moe/torch_bindings.cpp
@@ -44,7 +44,9 @@ TORCH_LIBRARY_EXPAND(TORCH_EXTENSION_NAME, m) {
       "                     int max_num_m_blocks, "
       "                     Tensor !sorted_token_ids,"
       "                     Tensor !experts_ids,"
-      "                     Tensor !num_tokens_post_pad) -> () ");
+      "                     Tensor !num_tokens_post_pad,"
+      "                     Tensor !adapter_enabled,"
+      "                     Tensor !lora_ids) -> () ");
   m.impl("moe_lora_align_block_size", torch::kCUDA, &moe_lora_align_block_size);
 
 #ifndef USE_ROCM
diff --git a/tests/lora/test_fused_moe_lora_kernel.py b/tests/lora/test_fused_moe_lora_kernel.py
index b724e112b9dd3..318a0e58805d3 100644
--- a/tests/lora/test_fused_moe_lora_kernel.py
+++ b/tests/lora/test_fused_moe_lora_kernel.py
@@ -134,6 +134,8 @@ def use_fused_moe_lora_kernel(
     )
     expert_ids = torch.empty((max_loras * max_num_m_blocks,), dtype=torch.int32)
     num_tokens_post_padded = torch.empty((max_loras,), dtype=torch.int32)
+    adapter_enabled = torch.ones(max_loras + 1, dtype=torch.int32)
+    lora_ids = torch.arange(max_loras + 2, dtype=torch.int32)
 
     # call kernel
     ops.moe_lora_align_block_size(
@@ -147,6 +149,8 @@ def use_fused_moe_lora_kernel(
         sorted_token_ids,
         expert_ids,
         num_tokens_post_padded,
+        adapter_enabled,
+        lora_ids,
     )
 
     config = {
@@ -172,6 +176,8 @@ def use_fused_moe_lora_kernel(
         num_tokens_post_padded,
         max_lora_rank,
         top_k_num,
+        lora_ids,
+        adapter_enabled,
         config["BLOCK_SIZE_M"],
         config["BLOCK_SIZE_N"],
         config["BLOCK_SIZE_K"],
diff --git a/tests/lora/test_moe_lora_align_sum.py b/tests/lora/test_moe_lora_align_sum.py
index 6cd1281c36328..72f1d759f1e7a 100644
--- a/tests/lora/test_moe_lora_align_sum.py
+++ b/tests/lora/test_moe_lora_align_sum.py
@@ -60,6 +60,8 @@ def test_moe_lora_align_block_size(
         (max_loras * max_num_m_blocks,), num_experts, dtype=torch.int32, device="cuda"
     )
     num_tokens_post_pad = torch.zeros((max_loras,), dtype=torch.int32, device="cuda")
+    adapter_enabled = torch.ones((max_loras + 1,), dtype=torch.int32, device="cuda")
+    lora_ids = torch.arange(max_loras + 2, dtype=torch.int32, device="cuda")
 
     # call kernel
     ops.moe_lora_align_block_size(
@@ -73,6 +75,8 @@ def test_moe_lora_align_block_size(
         sorted_token_ids,
         expert_ids,
         num_tokens_post_pad,
+        adapter_enabled,
+        lora_ids,
     )
 
     # verify values
diff --git a/tests/lora/test_olmoe_tp.py b/tests/lora/test_olmoe_tp.py
index b954e0776ca4a..e659c1e1a9a07 100644
--- a/tests/lora/test_olmoe_tp.py
+++ b/tests/lora/test_olmoe_tp.py
@@ -1,6 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
+
 import vllm
 from vllm.lora.request import LoRARequest
 
@@ -28,8 +29,17 @@ EXPECTED_LORA_OUTPUT = [
     "SELECT poll_source FROM candidate GROUP BY poll_source ORDER BY count(*) DESC LIMIT 1",  # noqa: E501
 ]
 
+EXPECTED_BASE_MODEL_OUTPUT = [
+    "SELECT COUNT(Candidate_ID) FROM candidate",
+    "SELECT COUNT(Candidate_ID) FROM candidate",
+    "SELECT Candidate_ID, COUNT(*) as Total_Candidates\nFROM candidate\nINNER JOIN people ON candidate.People_ID = people.People_ID",  # noqa: E501
+    "SELECT Candidate_ID, Poll_Source FROM candidate WHERE People_ID IN (SELECT People_ID FROM people) ORDER BY COUNT(*) DESC LIMIT 1",  # noqa: E501
+]
 
-def generate_and_test(llm: vllm.LLM, lora_path: str, lora_id: int) -> None:
+
+def generate_and_test(
+    llm: vllm.LLM, lora_path: str, lora_id: list[int | None] | int | None
+) -> None:
     prompts = [
         PROMPT_TEMPLATE.format(context="How many candidates are there?"),
         PROMPT_TEMPLATE.format(context="Count the number of candidates."),
@@ -40,12 +50,18 @@ def generate_and_test(llm: vllm.LLM, lora_path: str, lora_id: int) -> None:
             context="Return the poll resource associated with the most candidates."
         ),
     ]
+
+    lora_request = None
+    if isinstance(lora_id, int):
+        lora_request = LoRARequest(str(lora_id), lora_id, lora_path)
+    elif isinstance(lora_id, list):
+        lora_request = [
+            LoRARequest(str(i), i, lora_path) if i is not None else None
+            for i in lora_id
+        ]
+
     sampling_params = vllm.SamplingParams(temperature=0, max_tokens=64)
-    outputs = llm.generate(
-        prompts,
-        sampling_params,
-        lora_request=LoRARequest(str(lora_id), lora_id, lora_path) if lora_id else None,
-    )
+    outputs = llm.generate(prompts, sampling_params, lora_request=lora_request)
     # Print the outputs.
     generated_texts: list[str] = []
     for output in outputs:
@@ -55,7 +71,13 @@ def generate_and_test(llm: vllm.LLM, lora_path: str, lora_id: int) -> None:
         print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
 
     for i in range(len(EXPECTED_LORA_OUTPUT)):
-        assert generated_texts[i].startswith(EXPECTED_LORA_OUTPUT[i])
+        req_lora_id = lora_id[i] if isinstance(lora_id, list) else lora_id
+        expected_output = (
+            EXPECTED_LORA_OUTPUT[i]
+            if req_lora_id is not None
+            else EXPECTED_BASE_MODEL_OUTPUT[i]
+        )
+        assert generated_texts[i].startswith(expected_output)
 
 
 def test_olmoe_lora(olmoe_lora_files):
@@ -75,6 +97,20 @@ def test_olmoe_lora(olmoe_lora_files):
     generate_and_test(llm, olmoe_lora_files, lora_id=2)
 
 
+def test_olmoe_lora_mixed(olmoe_lora_files):
+    llm = vllm.LLM(
+        MODEL_PATH,
+        max_model_len=1024,
+        enable_lora=True,
+        max_loras=4,
+        enforce_eager=True,
+        trust_remote_code=True,
+        enable_chunked_prefill=True,
+    )
+
+    generate_and_test(llm, olmoe_lora_files, lora_id=[1, None, 3, None])
+
+
 @multi_gpu_test(num_gpus=2)
 def test_olmoe_lora_tp2(olmoe_lora_files):
     llm = vllm.LLM(
diff --git a/vllm/_custom_ops.py b/vllm/_custom_ops.py
index 61cf54fcfa39a..657b11046809d 100644
--- a/vllm/_custom_ops.py
+++ b/vllm/_custom_ops.py
@@ -1823,6 +1823,8 @@ def moe_lora_align_block_size(
     sorted_token_ids: torch.Tensor,
     experts_ids: torch.Tensor,
     num_tokens_post_pad: torch.Tensor,
+    adapter_enabled: torch.Tensor,
+    lora_ids: torch.Tensor,
 ) -> None:
     torch.ops._moe_C.moe_lora_align_block_size(
         topk_ids,
@@ -1835,6 +1837,8 @@ def moe_lora_align_block_size(
         sorted_token_ids,
         experts_ids,
         num_tokens_post_pad,
+        adapter_enabled,
+        lora_ids,
     )
 
 
diff --git a/vllm/lora/layers/fused_moe.py b/vllm/lora/layers/fused_moe.py
index 275a2ed0c6813..7711f5c3208bc 100644
--- a/vllm/lora/layers/fused_moe.py
+++ b/vllm/lora/layers/fused_moe.py
@@ -111,6 +111,7 @@ class FusedMoEWithLoRA(BaseLayerWithLoRA):
                     config["BLOCK_SIZE_M"],
                     self.base_layer.local_num_experts,
                     max_loras,
+                    self.adapter_enabled,
                     expert_map,
                 )
 
@@ -138,6 +139,7 @@ class FusedMoEWithLoRA(BaseLayerWithLoRA):
                     max_lora_rank,
                     top_k,
                     config,
+                    self.adapter_enabled,
                 )
 
                 result = func(*args, **kwargs)
@@ -196,6 +198,7 @@ class FusedMoEWithLoRA(BaseLayerWithLoRA):
                     max_lora_rank,
                     top_k,
                     config,
+                    self.adapter_enabled,
                     True,
                 )
 
@@ -227,6 +230,10 @@ class FusedMoEWithLoRA(BaseLayerWithLoRA):
     ) -> None:
         """Initializes lora matrices."""
 
+        self.adapter_enabled = torch.tensor(
+            [0] * (max_loras + 1), dtype=torch.int, device=self.device
+        )
+
         self.w1_lora_a_stacked = torch.zeros(
             (
                 max_loras,
@@ -313,6 +320,7 @@ class FusedMoEWithLoRA(BaseLayerWithLoRA):
         self.w3_lora_b_stacked[index] = 0
         self.w2_lora_a_stacked[index] = 0
         self.w2_lora_b_stacked[index] = 0
+        self.adapter_enabled[index] = 0
 
     def set_lora(
         self,
@@ -322,8 +330,9 @@ class FusedMoEWithLoRA(BaseLayerWithLoRA):
         embeddings_tensor: torch.Tensor | None,
         bias: torch.Tensor | None = None,
     ):
-        self.reset_lora(index)
         """Overwrites lora tensors at index."""
+        self.reset_lora(index)
+        self.adapter_enabled[index] = 1
         for eid in range(len(lora_a) // 3):
             w1_lora_a = lora_a[eid * 3]
             w2_lora_a = lora_a[eid * 3 + 1]
diff --git a/vllm/lora/ops/triton_ops/fused_moe_lora_op.py b/vllm/lora/ops/triton_ops/fused_moe_lora_op.py
index 15031f5e2f9e8..539605c7c534a 100644
--- a/vllm/lora/ops/triton_ops/fused_moe_lora_op.py
+++ b/vllm/lora/ops/triton_ops/fused_moe_lora_op.py
@@ -54,6 +54,8 @@ def _fused_moe_lora_kernel(
     EM,
     num_valid_tokens,
     num_experts,
+    lora_ids,
+    adapter_enabled,
     # The stride variables represent how much to increase the ptr by when
     # moving by 1 element in a particular dimension. E.g. `stride_am` is
     # how much to increase `a_ptr` by to get the element one row down
@@ -84,6 +86,11 @@ def _fused_moe_lora_kernel(
     pid = tl.program_id(axis=0)
     slice_id = tl.program_id(axis=1)
     lora_idx = tl.program_id(axis=2)
+    lora_id = tl.load(lora_ids + lora_idx)
+    moe_enabled = tl.load(adapter_enabled + lora_id)
+    if lora_id == -1 or moe_enabled == 0:
+        # Early exit for the no-lora case.
+        return
     max_loras = tl.num_programs(axis=2)
     grid_k = tl.cdiv(K, BLOCK_SIZE_K * SPLIT_K)
 
@@ -100,12 +107,12 @@ def _fused_moe_lora_kernel(
     pid_m = first_pid_m + ((pid_m_n % num_pid_in_group) % group_size_m)
     pid_n = (pid_m_n % num_pid_in_group) // group_size_m
 
-    num_tokens_post_padded = tl.load(num_tokens_post_padded_ptr + lora_idx)
+    num_tokens_post_padded = tl.load(num_tokens_post_padded_ptr + lora_id)
     if pid_m * BLOCK_SIZE_M >= num_tokens_post_padded:
         return
 
     # get the expert_id to process curr shard
-    ind = lora_idx * stride_el + pid_m
+    ind = lora_id * stride_el + pid_m
     expert_id = tl.load(expert_ids_ptr + ind, ind < max_loras * stride_el, -1)
     if expert_id == -1:
         return
@@ -119,7 +126,7 @@ def _fused_moe_lora_kernel(
     offs_k = pid_sk * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K)
 
     offs_token_id = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M).to(tl.int64)
-    token_ind = stride_tl * lora_idx + offs_token_id
+    token_ind = stride_tl * lora_id + offs_token_id
     offs_token = tl.load(
         sorted_token_ids_ptr + token_ind, token_ind < max_loras * stride_tl, 0
     )
@@ -132,7 +139,7 @@ def _fused_moe_lora_kernel(
 
     b_ptrs = (
         cur_b_ptr
-        + lora_idx * stride_bl
+        + lora_id * stride_bl
         + expert_id * stride_be
         + offs_k[:, None] * stride_bk
         + offs_bn[None, :] * stride_bn
@@ -184,6 +191,8 @@ def _fused_moe_lora(
     num_tokens_post_padded: torch.Tensor,  # (max_loras, )
     max_lora_rank: int,
     top_k_num: int,
+    lora_ids: torch.Tensor,
+    adapter_enabled: torch.Tensor,
     block_size_m: int,
     block_size_n: int,
     block_size_k: int,
@@ -234,7 +243,7 @@ def _fused_moe_lora(
     num_tokens = M * top_k_num
     w1_output_dim_size = w1_lora_b_stacked.shape[2]
 
-    lora_intermediate_cache1 = torch.empty(
+    lora_intermediate_cache1 = torch.zeros(
         (num_slices * M * top_k_num * (max_lora_rank + w1_output_dim_size)),
         dtype=output.dtype,
         device=device,
@@ -272,6 +281,8 @@ def _fused_moe_lora(
         EM,
         num_tokens,
         num_experts,
+        lora_ids,
+        adapter_enabled,
         qcurr_hidden_states.stride(0),
         qcurr_hidden_states.stride(1),
         w1_lora_a_stacked.stride(0),
@@ -319,6 +330,8 @@ def _fused_moe_lora(
         EM,
         num_tokens,
         num_experts,
+        lora_ids,
+        adapter_enabled,
         a_intermediate_cache1.stride(0),
         a_intermediate_cache1.stride(1),
         w1_lora_b_stacked.stride(0),
@@ -352,6 +365,8 @@ def _fused_moe_lora_fake(
     num_tokens_post_padded: torch.Tensor,
     max_lora_rank: int,
     top_k_num: int,
+    lora_ids: torch.Tensor,
+    adapter_enabled: torch.Tensor,
     block_size_m: int,
     block_size_n: int,
     block_size_k: int,
diff --git a/vllm/lora/punica_wrapper/punica_base.py b/vllm/lora/punica_wrapper/punica_base.py
index 5b4a18cf4789b..c552412cfd62e 100644
--- a/vllm/lora/punica_wrapper/punica_base.py
+++ b/vllm/lora/punica_wrapper/punica_base.py
@@ -456,6 +456,7 @@ class PunicaWrapperBase(PunicaWrapperABC):
         block_size: int,
         num_experts: int,
         max_loras: int,
+        adapter_enabled: torch.Tensor,
         expert_map: torch.Tensor | None = None,
         pad_sorted_ids: bool = False,
     ) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
@@ -479,6 +480,7 @@ class PunicaWrapperBase(PunicaWrapperABC):
         max_lora_rank: int,
         top_k_num: int,
         config,
+        adapter_enabled: torch.Tensor,
         mul_routed_weight=False,
     ):
         """
diff --git a/vllm/lora/punica_wrapper/punica_gpu.py b/vllm/lora/punica_wrapper/punica_gpu.py
index d9590769778ea..30def90380db1 100644
--- a/vllm/lora/punica_wrapper/punica_gpu.py
+++ b/vllm/lora/punica_wrapper/punica_gpu.py
@@ -305,6 +305,7 @@ class PunicaWrapperGPU(PunicaWrapperBase):
         block_size: int,
         num_experts: int,
         max_loras: int,
+        adapter_enabled: torch.Tensor,
         expert_map: torch.Tensor | None = None,
         pad_sorted_ids: bool = False,
     ) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
@@ -331,7 +332,7 @@ class PunicaWrapperGPU(PunicaWrapperBase):
             (max_loras), dtype=torch.int32, device=topk_ids.device
         )
 
-        (token_lora_mapping, _, _, _, _, _) = self.token_mapping_meta.meta_args(
+        (token_lora_mapping, _, _, _, lora_ids, _) = self.token_mapping_meta.meta_args(
             num_tokens
         )
 
@@ -346,6 +347,8 @@ class PunicaWrapperGPU(PunicaWrapperBase):
             sorted_ids,
             expert_ids,
             num_tokens_post_pad,
+            adapter_enabled,
+            lora_ids,
         )
         if expert_map is not None:
             expert_ids = expert_map[expert_ids]
@@ -365,11 +368,13 @@ class PunicaWrapperGPU(PunicaWrapperBase):
         max_lora_rank: int,
         top_k_num: int,
         config,
+        adapter_enabled: torch.Tensor,
         mul_routed_weight=False,
     ):
         """
         Performs a fused forward computation for LoRA of Mixture-of-Experts (MoE) layer.
         """
+        (_, _, _, _, lora_ids, _) = self.token_mapping_meta.meta_args(x.size(0))
         fused_moe_lora(
             y,
             x,
@@ -381,6 +386,8 @@ class PunicaWrapperGPU(PunicaWrapperBase):
             num_tokens_post_padded,
             max_lora_rank,
             top_k_num,
+            lora_ids,
+            adapter_enabled,
             config["BLOCK_SIZE_M"],
             config["BLOCK_SIZE_N"],
             config["BLOCK_SIZE_K"],

From f7d2946e996f656b5f831fe2003f3b95a91fb367 Mon Sep 17 00:00:00 2001
From: pwschuurman <psch@google.com>
Date: Mon, 3 Nov 2025 06:31:03 -0800
Subject: [PATCH 093/976] [Bugfix] Skip gs:// model paths for speculator
 detection (#27846)

Signed-off-by: Peter Schuurman <psch@google.com>
---
 tests/transformers_utils/test_utils.py | 26 ++++++++++++++++++++++++++
 vllm/engine/arg_utils.py               | 10 +++++-----
 vllm/transformers_utils/utils.py       |  8 ++++++++
 3 files changed, 39 insertions(+), 5 deletions(-)
 create mode 100644 tests/transformers_utils/test_utils.py

diff --git a/tests/transformers_utils/test_utils.py b/tests/transformers_utils/test_utils.py
new file mode 100644
index 0000000000000..beaef04d766bf
--- /dev/null
+++ b/tests/transformers_utils/test_utils.py
@@ -0,0 +1,26 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+from vllm.transformers_utils.utils import is_cloud_storage, is_gcs, is_s3
+
+
+def test_is_gcs():
+    assert is_gcs("gs://model-path")
+    assert not is_gcs("s3://model-path/path-to-model")
+    assert not is_gcs("/unix/local/path")
+    assert not is_gcs("nfs://nfs-fqdn.local")
+
+
+def test_is_s3():
+    assert is_s3("s3://model-path/path-to-model")
+    assert not is_s3("gs://model-path")
+    assert not is_s3("/unix/local/path")
+    assert not is_s3("nfs://nfs-fqdn.local")
+
+
+def test_is_cloud_storage():
+    assert is_cloud_storage("gs://model-path")
+    assert is_cloud_storage("s3://model-path/path-to-model")
+    assert not is_cloud_storage("/unix/local/path")
+    assert not is_cloud_storage("nfs://nfs-fqdn.local")
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index 66c75d944ec8b..14fd4e70ad6c0 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -86,7 +86,7 @@ from vllm.transformers_utils.config import (
     is_interleaved,
     maybe_override_with_speculators,
 )
-from vllm.transformers_utils.utils import check_gguf_file, is_s3
+from vllm.transformers_utils.utils import check_gguf_file, is_cloud_storage
 from vllm.utils.argparse_utils import FlexibleArgumentParser
 from vllm.utils.mem_constants import GiB_bytes
 from vllm.utils.network_utils import get_ip
@@ -1310,10 +1310,10 @@ class EngineArgs:
 
         # Check if the model is a speculator and override model/tokenizer/config
         # BEFORE creating ModelConfig, so the config is created with the target model
-        # Skip speculator detection for S3 models since HuggingFace cannot load
-        # configs directly from S3 URLs. S3 models can still use speculators with
-        # explicit --speculative-config.
-        if not is_s3(self.model):
+        # Skip speculator detection for cloud storage models (eg: S3, GCS) since
+        # HuggingFace cannot load configs directly from S3 URLs. S3 models can still
+        # use speculators with explicit --speculative-config.
+        if not is_cloud_storage(self.model):
             (self.model, self.tokenizer, self.speculative_config) = (
                 maybe_override_with_speculators(
                     model=self.model,
diff --git a/vllm/transformers_utils/utils.py b/vllm/transformers_utils/utils.py
index af2df195f2958..1ae42ba622dc4 100644
--- a/vllm/transformers_utils/utils.py
+++ b/vllm/transformers_utils/utils.py
@@ -19,6 +19,14 @@ def is_s3(model_or_path: str) -> bool:
     return model_or_path.lower().startswith("s3://")
 
 
+def is_gcs(model_or_path: str) -> bool:
+    return model_or_path.lower().startswith("gs://")
+
+
+def is_cloud_storage(model_or_path: str) -> bool:
+    return is_s3(model_or_path) or is_gcs(model_or_path)
+
+
 def check_gguf_file(model: str | PathLike) -> bool:
     """Check if the file is a GGUF model."""
     model = Path(model)

From cac4c10ef0e3280f045bff32cbb05e9a56e41b1b Mon Sep 17 00:00:00 2001
From: ahao-anyscale <ahao@anyscale.com>
Date: Mon, 3 Nov 2025 08:13:51 -0800
Subject: [PATCH 094/976] [BUG] Make 'binary' default option for saving torch
 compile artifacts when using standalone_compile (#27616)

Signed-off-by: ahao-anyscale <ahao@anyscale.com>
---
 docs/design/torch_compile.md           |  2 ++
 vllm/compilation/backends.py           |  4 +++-
 vllm/compilation/compiler_interface.py |  9 ++++++---
 vllm/config/compilation.py             | 23 ++++++++++++++++++++++-
 vllm/envs.py                           | 10 ++++++++++
 5 files changed, 43 insertions(+), 5 deletions(-)

diff --git a/docs/design/torch_compile.md b/docs/design/torch_compile.md
index 5a3ca2de82194..27edc4f89201d 100644
--- a/docs/design/torch_compile.md
+++ b/docs/design/torch_compile.md
@@ -27,6 +27,8 @@ With all these factors taken into consideration, usually we can guarantee that t
 
 A unique aspect of vLLM's `torch.compile` integration, is that we guarantee all the compilation finishes before we serve any requests. No requests will trigger new compilations. Otherwise, the engine would be blocked on that request, and the response time will have unexpected spikes.
 
+By default, the cache saves compiled artifacts as binary files. If you would like to interact with the generated code for debugging purposes, set the field `compile_cache_save_format=unpacked` in the compilation config, or omit this and set the env variable `VLLM_COMPILE_CACHE_SAVE_FORMAT=unpacked`.
+
 ## Python Code Compilation
 
 In the very verbose logs, we can see:
diff --git a/vllm/compilation/backends.py b/vllm/compilation/backends.py
index 53fd5e74dc0a8..83d8cdae1ed34 100644
--- a/vllm/compilation/backends.py
+++ b/vllm/compilation/backends.py
@@ -51,7 +51,9 @@ def make_compiler(compilation_config: CompilationConfig) -> CompilerInterface:
             and hasattr(torch._inductor, "standalone_compile")
         ):
             logger.debug("Using InductorStandaloneAdaptor")
-            return InductorStandaloneAdaptor()
+            return InductorStandaloneAdaptor(
+                compilation_config.compile_cache_save_format
+            )
         else:
             logger.debug("Using InductorAdaptor")
             return InductorAdaptor()
diff --git a/vllm/compilation/compiler_interface.py b/vllm/compilation/compiler_interface.py
index 0a3f0769db941..d15481b3045d6 100644
--- a/vllm/compilation/compiler_interface.py
+++ b/vllm/compilation/compiler_interface.py
@@ -6,7 +6,7 @@ import hashlib
 import os
 from collections.abc import Callable
 from contextlib import ExitStack
-from typing import Any
+from typing import Any, Literal
 from unittest.mock import patch
 
 import torch
@@ -175,6 +175,9 @@ class InductorStandaloneAdaptor(CompilerInterface):
 
     name = "inductor_standalone"
 
+    def __init__(self, save_format: Literal["binary", "unpacked"]):
+        self.save_format = save_format
+
     def compute_hash(self, vllm_config: VllmConfig) -> str:
         factors = get_inductor_factors()
         hash_str = hashlib.md5(
@@ -220,7 +223,7 @@ class InductorStandaloneAdaptor(CompilerInterface):
         assert key is not None
         path = os.path.join(self.cache_dir, key)
         if not envs.VLLM_DISABLE_COMPILE_CACHE:
-            compiled_graph.save(path=path, format="unpacked")
+            compiled_graph.save(path=path, format=self.save_format)
             compilation_counter.num_compiled_artifacts_saved += 1
         return compiled_graph, (key, path)
 
@@ -237,7 +240,7 @@ class InductorStandaloneAdaptor(CompilerInterface):
         assert isinstance(handle[1], str)
         path = handle[1]
         inductor_compiled_graph = torch._inductor.CompiledArtifact.load(
-            path=path, format="unpacked"
+            path=path, format=self.save_format
         )
         from torch._inductor.compile_fx import graph_returns_tuple
 
diff --git a/vllm/config/compilation.py b/vllm/config/compilation.py
index 6a5bd5ef4e07c..00e8cbfd7319a 100644
--- a/vllm/config/compilation.py
+++ b/vllm/config/compilation.py
@@ -7,11 +7,12 @@ from collections import Counter
 from collections.abc import Callable
 from dataclasses import asdict, field
 from pathlib import Path
-from typing import TYPE_CHECKING, Any, ClassVar
+from typing import TYPE_CHECKING, Any, ClassVar, Literal
 
 from pydantic import TypeAdapter, field_validator
 from pydantic.dataclasses import dataclass
 
+import vllm.envs as envs
 from vllm.compilation.inductor_pass import CallableInductorPass, InductorPass
 from vllm.config.utils import config
 from vllm.logger import init_logger
@@ -208,6 +209,15 @@ class CompilationConfig:
     """The directory to store the compiled graph, to accelerate Inductor
     compilation. By default, it will use model-related information to generate
     a cache directory."""
+    compile_cache_save_format: Literal["binary", "unpacked"] = field(
+        default_factory=lambda: envs.VLLM_COMPILE_CACHE_SAVE_FORMAT
+    )
+    """Format for saving torch compile cache:\n
+    - "binary": saves as binary file (multiprocess safe)\n
+    - "unpacked": saves as directory structure for inspection/debugging
+    (NOT multiprocess safe)\n
+    Defaults to `VLLM_COMPILE_CACHE_SAVE_FORMAT` if not specified.
+    """
     backend: str = ""
     """The backend for compilation. It needs to be a string:
 
@@ -479,6 +489,7 @@ class CompilationConfig:
         factors.append(self.inductor_compile_config)
         factors.append(self.inductor_passes)
         factors.append(self.pass_config.uuid())
+        factors.append(self.compile_cache_save_format)
         return hashlib.sha256(str(factors).encode()).hexdigest()
 
     def __repr__(self) -> str:
@@ -520,6 +531,16 @@ class CompilationConfig:
             return CUDAGraphMode[value.upper()]
         return value
 
+    @field_validator("compile_cache_save_format")
+    @classmethod
+    def validate_compile_cache_save_format(cls, value: str) -> str:
+        if value not in ("binary", "unpacked"):
+            raise ValueError(
+                f"compile_cache_save_format must be 'binary' or 'unpacked', "
+                f"got: {value}"
+            )
+        return value
+
     def __post_init__(self) -> None:
         if self.level is not None:
             logger.warning(
diff --git a/vllm/envs.py b/vllm/envs.py
index 21237c70a45e4..81f189ada9a6f 100755
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -218,6 +218,7 @@ if TYPE_CHECKING:
     VLLM_USE_FBGEMM: bool = False
     VLLM_GC_DEBUG: str = ""
     VLLM_DISABLE_SHARED_EXPERTS_STREAM: bool = False
+    VLLM_COMPILE_CACHE_SAVE_FORMAT: Literal["binary", "unpacked"] = "binary"
 
 
 def get_default_cache_root():
@@ -1442,6 +1443,15 @@ environment_variables: dict[str, Callable[[], Any]] = {
     "VLLM_DISABLE_SHARED_EXPERTS_STREAM": lambda: os.getenv(
         "VLLM_DISABLE_SHARED_EXPERTS_STREAM", False
     ),
+    # Format for saving torch.compile cache artifacts
+    # - "binary": saves as binary file
+    #     Safe for multiple vllm serve processes accessing the same torch compile cache.
+    # - "unpacked": saves as directory structure (for inspection/debugging)
+    #     NOT multiprocess safe - race conditions may occur with multiple processes.
+    #     Allows viewing and setting breakpoints in Inductor's code output files.
+    "VLLM_COMPILE_CACHE_SAVE_FORMAT": env_with_choices(
+        "VLLM_COMPILE_CACHE_SAVE_FORMAT", "binary", ["binary", "unpacked"]
+    ),
 }
 
 # --8<-- [end:env-vars-definition]

From 4bc400f47e33ef27fb69608b9ad7fe992cb8ba76 Mon Sep 17 00:00:00 2001
From: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com>
Date: Tue, 4 Nov 2025 02:00:46 +0900
Subject: [PATCH 095/976] [CI/Testing] Add basic single node dual batch overlap
 test (#27235)

Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com>
---
 .buildkite/test-pipeline.yaml    |  2 +
 tests/v1/distributed/test_dbo.py | 89 ++++++++++++++++++++++++++++++++
 2 files changed, 91 insertions(+)
 create mode 100644 tests/v1/distributed/test_dbo.py

diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index a020b0d276be0..07e2bf09d8aa0 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -1223,6 +1223,7 @@ steps:
     - pytest -v -s tests/compile/test_fusions_e2e.py::test_tp2_attn_quant_allreduce_rmsnorm
     - pytest -v -s tests/distributed/test_context_parallel.py
     - CUDA_VISIBLE_DEVICES=1,2 VLLM_ALL2ALL_BACKEND=deepep_high_throughput VLLM_USE_DEEP_GEMM=1 VLLM_LOGGING_LEVEL=DEBUG python3 examples/offline_inference/data_parallel.py --model Qwen/Qwen1.5-MoE-A2.7B --tp-size=1  --dp-size=2 --max-model-len 2048
+    - pytest -v -s tests/v1/distributed/test_dbo.py  
 
 ##### B200 test #####
 - label: Distributed Tests (B200) # optional
@@ -1233,6 +1234,7 @@ steps:
   commands:
     - pytest -v -s tests/distributed/test_context_parallel.py
     - pytest -v -s tests/distributed/test_nccl_symm_mem_allreduce.py
+    - pytest -v -s tests/v1/distributed/test_dbo.py
 
 ##### RL Integration Tests #####
 - label: Prime-RL Integration Test # 15min
diff --git a/tests/v1/distributed/test_dbo.py b/tests/v1/distributed/test_dbo.py
new file mode 100644
index 0000000000000..866ae742bf3c0
--- /dev/null
+++ b/tests/v1/distributed/test_dbo.py
@@ -0,0 +1,89 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+Test Dual Batch Overlap (DBO) with Data Parallelism + Expert Parallelism.
+
+DBO is specifically designed for DP+EP scenarios to hide communication latency
+by overlapping computation of two batches. This test validates that DBO works
+correctly with the DeepSeek-V2-Lite model using GSM8K evaluation.
+"""
+
+import pytest
+
+from tests.evals.gsm8k.gsm8k_eval import evaluate_gsm8k
+from tests.utils import RemoteOpenAIServer
+
+MODEL_NAME = "deepseek-ai/DeepSeek-V2-Lite-Chat"
+DP_SIZE = 2
+
+# GSM8K eval configuration
+NUM_QUESTIONS = 256  # Fast eval for CI; but must be large enough to hit dbo thresholds
+NUM_SHOTS = 5  # Few-shot examples
+MIN_ACCURACY = 0.62  # Expected 0.64 with 2% buffer (based on vLLM test data)
+
+# Increase max_num_seqs to trigger DBO for decode batches
+# With 64 seqs, decode batches should exceed the 32 token threshold
+MAX_NUM_SEQS = 64  # Increased from 16 to trigger decode DBO
+
+# DeepEP backends to test
+DEEPEP_BACKENDS = [
+    "deepep_low_latency",
+    "deepep_high_throughput",
+]
+
+
+@pytest.mark.parametrize("all2all_backend", DEEPEP_BACKENDS)
+def test_dbo_dp_ep_gsm8k(all2all_backend: str, num_gpus_available):
+    """
+    Test DBO with DP+EP using GSM8K evaluation.
+    """
+    required_gpus = DP_SIZE
+
+    if num_gpus_available < required_gpus:
+        pytest.skip(f"Need at least {required_gpus} GPUs (DP={DP_SIZE})")
+
+    # Server arguments for DBO + DP + EP
+    server_args = [
+        "--max-model-len",
+        "4096",
+        "--max-num-seqs",
+        str(MAX_NUM_SEQS),  # Use larger batch to trigger decode DBO
+        "--trust-remote-code",
+        # Note: Not using --enforce-eager to test DBO's alternate CUDA graph dispatching
+        "--data-parallel-size",
+        str(DP_SIZE),
+        "--enable-expert-parallel",
+        "--enable-dbo",
+        # Fix threshold so we know we trigger DBO
+        "--dbo-decode-token-threshold",
+        "16",
+        "--dbo-prefill-token-threshold",
+        "256",
+        "--all2all-backend",
+        all2all_backend,
+    ]
+
+    with RemoteOpenAIServer(
+        MODEL_NAME,
+        server_args,
+        max_wait_seconds=600,  # Allow time for model loading with DP+EP
+    ) as remote_server:
+        # Use host and port directly from RemoteOpenAIServer
+        host = f"http://{remote_server.host}"
+        port = remote_server.port
+
+        # Run GSM8K evaluation
+        results = evaluate_gsm8k(
+            num_questions=NUM_QUESTIONS,
+            num_shots=NUM_SHOTS,
+            host=host,
+            port=port,
+        )
+
+        # Validate accuracy is reasonable
+        accuracy = results["accuracy"]
+        assert accuracy >= MIN_ACCURACY, (
+            f"DBO+DP+EP accuracy too low ({all2all_backend}): "
+            f"{accuracy:.3f} < {MIN_ACCURACY:.3f} "
+            f"(correct: {results['num_correct']}/{results['num_questions']})"
+        )

From 2c19d96777939dd3473eabfacbe1948a3ea0b4be Mon Sep 17 00:00:00 2001
From: Aurick Qiao <aurickq@users.noreply.github.com>
Date: Mon, 3 Nov 2025 09:23:31 -0800
Subject: [PATCH 096/976] [Spec Decode] Integrate Suffix Decoding from Arctic
 Inference (#25784)

Co-authored-by: Aurick Qiao <aurick.qiao@snowflake.com>
---
 docs/features/spec_decode.md           |  40 ++++++++++
 requirements/test.in                   |   1 +
 requirements/test.txt                  |   2 +
 tests/v1/e2e/test_spec_decode.py       |  85 +++++++++++++++++++--
 vllm/config/speculative.py             |  66 +++++++++++++++-
 vllm/utils/import_utils.py             |   6 ++
 vllm/v1/spec_decode/suffix_decoding.py | 101 +++++++++++++++++++++++++
 vllm/v1/worker/gpu_model_runner.py     |  14 +++-
 8 files changed, 304 insertions(+), 11 deletions(-)
 create mode 100644 vllm/v1/spec_decode/suffix_decoding.py

diff --git a/docs/features/spec_decode.md b/docs/features/spec_decode.md
index ab72c7d97b7a4..6097500cac01f 100644
--- a/docs/features/spec_decode.md
+++ b/docs/features/spec_decode.md
@@ -130,6 +130,46 @@ matching n-grams in the prompt. For more information read [this thread.](https:/
         print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
     ```
 
+## Speculating using Suffix Decoding
+
+The following code configures vLLM to use speculative decoding where proposals are generated using Suffix Decoding ([technical report](https://arxiv.org/abs/2411.04975)).
+
+Like n-gram, Suffix Decoding can generate draft tokens by pattern-matching using the last `n` generated tokens. Unlike n-gram, Suffix Decoding (1) can pattern-match against both the prompt and previous generations, (2) uses frequency counts to propose the most likely continuations, and (3) speculates an adaptive number of tokens for each request at each iteration to get better acceptance rates.
+
+Suffix Decoding can achieve better performance for tasks with high repetition, such as code-editing, agentic loops (e.g. self-reflection, self-consistency), and RL rollouts.
+
+!!! tip "Install Arctic Inference"
+    Suffix Decoding requires [Arctic Inference](https://github.com/snowflakedb/ArcticInference). You can install it with `pip install arctic-inference`.
+
+!!! tip "Suffix Decoding Speculative Tokens"
+    Suffix Decoding will speculate a dynamic number of tokens for each request at each decoding step, so the `num_speculative_tokens` configuration specifies the *maximum* number of speculative tokens. It is suggested to use a high number such as `16` or `32` (default).
+
+??? code
+
+    ```python
+    from vllm import LLM, SamplingParams
+
+    prompts = [
+        "The future of AI is",
+    ]
+    sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
+
+    llm = LLM(
+        model="facebook/opt-6.7b",
+        tensor_parallel_size=1,
+        speculative_config={
+            "method": "suffix",
+            "num_speculative_tokens": 32,
+        },
+    )
+    outputs = llm.generate(prompts, sampling_params)
+
+    for output in outputs:
+        prompt = output.prompt
+        generated_text = output.outputs[0].text
+        print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
+    ```
+
 ## Speculating using MLP speculators
 
 The following code configures vLLM to use speculative decoding where proposals are generated by
diff --git a/requirements/test.in b/requirements/test.in
index f57ec31277ce9..ce209fd276628 100644
--- a/requirements/test.in
+++ b/requirements/test.in
@@ -48,6 +48,7 @@ buildkite-test-collector==0.1.9
 genai_perf==0.0.8
 tritonclient==2.51.0
 
+arctic-inference == 0.1.0 # Required for suffix decoding test
 numba == 0.61.2 # Required for N-gram speculative decoding
 numpy
 runai-model-streamer[s3,gcs]==0.15.0
diff --git a/requirements/test.txt b/requirements/test.txt
index a975f247065da..9d13fa4241152 100644
--- a/requirements/test.txt
+++ b/requirements/test.txt
@@ -40,6 +40,8 @@ anyio==4.6.2.post1
     # via
     #   httpx
     #   starlette
+arctic-inference==0.1.0
+    # via -r requirements/test.in
 argcomplete==3.5.1
     # via datamodel-code-generator
 arrow==1.3.0
diff --git a/tests/v1/e2e/test_spec_decode.py b/tests/v1/e2e/test_spec_decode.py
index ea7fcdf3174ec..9b55d2b14b991 100644
--- a/tests/v1/e2e/test_spec_decode.py
+++ b/tests/v1/e2e/test_spec_decode.py
@@ -75,7 +75,23 @@ def model_name():
     return "meta-llama/Llama-3.1-8B-Instruct"
 
 
-def test_ngram_correctness(
+@pytest.mark.parametrize(
+    "speculative_config",
+    [
+        {
+            "method": "ngram",
+            "prompt_lookup_max": 5,
+            "prompt_lookup_min": 3,
+            "num_speculative_tokens": 3,
+        },
+        {
+            "method": "suffix",
+            "suffix_decoding_max_spec_factor": 2.0,
+        },
+    ],
+)
+def test_ngram_and_suffix_correctness(
+    speculative_config: dict,
     monkeypatch: pytest.MonkeyPatch,
     sampling_config: SamplingParams,
     model_name: str,
@@ -94,12 +110,7 @@ def test_ngram_correctness(
 
     spec_llm = LLM(
         model=model_name,
-        speculative_config={
-            "method": "ngram",
-            "prompt_lookup_max": 5,
-            "prompt_lookup_min": 3,
-            "num_speculative_tokens": 3,
-        },
+        speculative_config=speculative_config,
         max_model_len=1024,
     )
     spec_outputs = spec_llm.chat(test_prompts, sampling_config)
@@ -121,6 +132,66 @@ def test_ngram_correctness(
     cleanup_dist_env_and_memory()
 
 
+def test_suffix_decoding_acceptance(
+    monkeypatch: pytest.MonkeyPatch,
+    sampling_config: SamplingParams,
+    model_name: str,
+):
+    """
+    Check that suffix decoding caching takes effect and improves acceptance
+    lengths and acceptance rates over multiple runs of the same prompts.
+    """
+    test_prompts = get_test_prompts(mm_enabled=False)
+
+    spec_llm = LLM(
+        model=model_name,
+        speculative_config={
+            "method": "suffix",
+            "suffix_decoding_max_spec_factor": 2.0,
+            "suffix_decoding_max_cached_requests": 1000,
+        },
+        max_model_len=1024,
+        disable_log_stats=False,
+    )
+
+    # Run several times and check that the accepted tokens increase.
+    spec_llm.chat(test_prompts, sampling_config)
+    num_draft = []
+    num_accept = []
+    for i in range(10):  # Run multiple times to warm up the cache.
+        spec_llm.chat(test_prompts, sampling_config)
+        # Collect draft and acceptance stats.
+        metrics = spec_llm.get_metrics()
+        for metric in metrics:
+            if metric.name == "vllm:spec_decode_num_draft_tokens":
+                num_draft.append(metric.value)
+            if metric.name == "vllm:spec_decode_num_accepted_tokens":
+                num_accept.append(metric.value)
+
+    # Calculate the acceptance rates for the first and last runs.
+    first_accept_tokens = num_accept[0]
+    first_draft_tokens = num_draft[0]
+    first_accept_rate = first_accept_tokens / first_draft_tokens
+
+    # Take the diff since the stats are cumulative.
+    last_accept_tokens = num_accept[-1] - num_accept[-2]
+    last_draft_tokens = num_draft[-1] - num_draft[-2]
+    last_accept_rate = last_accept_tokens / last_draft_tokens
+
+    # Expect the acceptance length to improve.
+    assert first_accept_tokens < last_accept_tokens
+
+    # Expect the acceptance rate to improve.
+    assert first_accept_rate < last_accept_rate
+
+    # Heuristic: expect at least 85% acceptance rate at the end.
+    assert last_accept_rate > 0.85
+
+    del spec_llm
+    torch.cuda.empty_cache()
+    cleanup_dist_env_and_memory()
+
+
 @pytest.mark.parametrize(
     "model_path",
     [
diff --git a/vllm/config/speculative.py b/vllm/config/speculative.py
index 1f956526dcdc6..af1d640f8accc 100644
--- a/vllm/config/speculative.py
+++ b/vllm/config/speculative.py
@@ -12,7 +12,7 @@ from typing_extensions import Self
 from vllm.config.parallel import ParallelConfig
 from vllm.config.utils import config
 from vllm.logger import init_logger
-from vllm.utils.import_utils import LazyLoader
+from vllm.utils.import_utils import LazyLoader, has_arctic_inference
 
 if TYPE_CHECKING:
     from transformers import PretrainedConfig
@@ -42,6 +42,7 @@ SpeculativeMethod = Literal[
     "mimo_mtp",
     "longcat_flash_mtp",
     "mtp",
+    "suffix",
 ]
 MTP_MODEL_TYPES = (
     "deepseek_mtp",
@@ -129,6 +130,27 @@ class SpeculativeConfig:
     draft_parallel_config: SkipValidation[ParallelConfig] = None  # type: ignore
     """The parallel configuration for the draft model initialized internal."""
 
+    # Suffix decoding configuration
+    suffix_decoding_max_tree_depth: int = 24
+    """The maximum depth of the suffix decoding global and prompt trees. The
+    tree depth limits the sum of the prefix match and speculation lengths."""
+
+    suffix_decoding_max_cached_requests: int = 10000
+    """The maximum number of requests to cache in the global suffix tree. If
+    exceeded, will trigger eviction in FIFO order. If set to 0, the global
+    suffix tree is disabled and past responses are not cached (prompt trees
+    are still used)."""
+
+    suffix_decoding_max_spec_factor: float = 1.0
+    """The maximum spec factor for suffix decoding. The spec factor controls
+    speculation lengths based on the prefix match length: max_spec_tokens =
+    max_spec_factor * prefix_match_length."""
+
+    suffix_decoding_min_token_prob: float = 0.1
+    """The minimum token probability for suffix decoding. Will only speculate
+    tokens with estimated probability (based on frequency counts) greater than
+    or equal to this value."""
+
     def compute_hash(self) -> str:
         """
         WARNING: Whenever a new field is added to this config,
@@ -235,6 +257,8 @@ class SpeculativeConfig:
                     self.quantization = self.target_model_config.quantization
             elif self.method in ("ngram", "[ngram]"):
                 self.model = "ngram"
+            elif self.method == "suffix":
+                self.model = "suffix"
             else:
                 raise ValueError(
                     "num_speculative_tokens was provided but without speculative model."
@@ -282,6 +306,8 @@ class SpeculativeConfig:
             # draft related config as None here.
             self.draft_model_config = self.target_model_config
             self.draft_parallel_config = self.target_parallel_config
+        elif self.method == "suffix":
+            self._validate_suffix_decoding()
         else:
             self.prompt_lookup_max = 0
             self.prompt_lookup_min = 0
@@ -430,6 +456,42 @@ class SpeculativeConfig:
                 )
         return self
 
+    def _validate_suffix_decoding(self):
+        if not has_arctic_inference():
+            raise ImportError(
+                "Arctic Inference is required for suffix decoding. "
+                "Install via `pip install arctic-inference==0.1.0`."
+            )
+        if self.num_speculative_tokens is None:
+            # Suffix decoding decides the actual number of speculative tokens
+            # dynamically and treats num_speculative_tokens as a maximum limit.
+            self.num_speculative_tokens = self.suffix_decoding_max_tree_depth
+            logger.warning(
+                "Defaulted num_speculative_tokens to %s for suffix decoding.",
+                self.num_speculative_tokens,
+            )
+        # Validate values
+        if self.suffix_decoding_max_tree_depth < 1:
+            raise ValueError(
+                f"suffix_decoding_max_tree_depth="
+                f"{self.suffix_decoding_max_tree_depth} must be >= 1"
+            )
+        if self.suffix_decoding_max_cached_requests < 0:
+            raise ValueError(
+                f"suffix_decoding_max_cached_requests="
+                f"{self.suffix_decoding_max_cached_requests} must be >= 0"
+            )
+        if self.suffix_decoding_max_spec_factor < 0:
+            raise ValueError(
+                f"suffix_decoding_max_spec_factor="
+                f"{self.suffix_decoding_max_spec_factor} must be >= 0"
+            )
+        if not 0 <= self.suffix_decoding_min_token_prob <= 1:
+            raise ValueError(
+                f"suffix_decoding_min_token_prob="
+                f"{self.suffix_decoding_min_token_prob} must be in [0, 1]"
+            )
+
     @staticmethod
     def _maybe_override_draft_max_model_len(
         speculative_max_model_len: int | None,
@@ -582,6 +644,6 @@ class SpeculativeConfig:
 
     def __repr__(self) -> str:
         method = self.method
-        model = None if method == "ngram" else self.draft_model_config.model
+        model = None if method in ("ngram", "suffix") else self.draft_model_config.model
         num_spec_tokens = self.num_speculative_tokens
         return f"SpeculativeConfig({method=}, {model=}, {num_spec_tokens=})"
diff --git a/vllm/utils/import_utils.py b/vllm/utils/import_utils.py
index 409a5a6cd302d..f01d2c7a6a33d 100644
--- a/vllm/utils/import_utils.py
+++ b/vllm/utils/import_utils.py
@@ -403,3 +403,9 @@ def has_triton_kernels() -> bool:
 def has_tilelang() -> bool:
     """Whether the optional `tilelang` package is available."""
     return _has_module("tilelang")
+
+
+def has_arctic_inference() -> bool:
+    """Whether the optional `arctic_inference` package is available."""
+
+    return _has_module("arctic_inference")
diff --git a/vllm/v1/spec_decode/suffix_decoding.py b/vllm/v1/spec_decode/suffix_decoding.py
new file mode 100644
index 0000000000000..049e335db3254
--- /dev/null
+++ b/vllm/v1/spec_decode/suffix_decoding.py
@@ -0,0 +1,101 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from vllm.config import VllmConfig
+from vllm.v1.worker.gpu_input_batch import InputBatch
+
+
+class SuffixDecodingProposer:
+    """
+    Speculative decoding proposer for Suffix Decoding (https://arxiv.org/pdf/2411.04975).
+    This class imports and uses the official implementation from Arctic Inference
+    (https://github.com/snowflakedb/ArcticInference).
+    """
+
+    def __init__(self, vllm_config: VllmConfig):
+        config = vllm_config.speculative_config
+        self.num_speculative_tokens = config.num_speculative_tokens
+        self.max_tree_depth = config.suffix_decoding_max_tree_depth
+        self.max_spec_factor = config.suffix_decoding_max_spec_factor
+        self.min_token_prob = config.suffix_decoding_min_token_prob
+        self.max_model_len = vllm_config.model_config.max_model_len
+
+        # Lazy import to avoid error when Suffix Decoding is not used.
+        from arctic_inference.suffix_decoding import SuffixDecodingCache
+
+        # Initialize and empty cache. This object will take care of caching request
+        # outputs, evicting old requests, and manages the per-prompt suffix trees.
+        self.suffix_cache = SuffixDecodingCache(
+            max_tree_depth=config.suffix_decoding_max_tree_depth,
+            max_cached_requests=config.suffix_decoding_max_cached_requests,
+        )
+
+    def propose(
+        self,
+        input_batch: InputBatch,
+        sampled_token_ids: list[list[int]],
+    ) -> list[list[int]]:
+        """
+        Propose speculative tokens for each request in the input batch. Suffix Decoding
+        will speculate a dynamic number of tokens for each request every decoding step,
+        so each entry in the returned list may have different lengths.
+        """
+        draft_token_ids: list[list[int]] = []
+        for i, sampled_ids in enumerate(sampled_token_ids):
+            if not sampled_ids:
+                # Skip speculative decoding for partial prefills.
+                draft_token_ids.append([])
+                continue
+
+            # Skip requests that require sampling parameters that are not
+            # supported with speculative decoding.
+            req_id = input_batch.req_ids[i]
+            if req_id in input_batch.spec_decode_unsupported_reqs:
+                draft_token_ids.append([])
+                continue
+
+            num_tokens = input_batch.num_tokens_no_spec[i]
+            if num_tokens >= self.max_model_len:
+                # Skip requests that have already reached the max model length.
+                draft_token_ids.append([])
+                continue
+
+            index = input_batch.req_id_to_index[req_id]
+            if req_id not in self.suffix_cache.active_requests:
+                if req_id in self.suffix_cache.cached_requests:
+                    # Reset the suffix cache for this request.
+                    self.suffix_cache.evict_cached_response(req_id)
+                num_prompt_tokens = input_batch.num_prompt_tokens[index]
+                prompt_token_ids = input_batch.token_ids_cpu[index, :num_prompt_tokens]
+                # Start a new request, this will build the suffix tree for that prompt.
+                self.suffix_cache.start_request(req_id, prompt_token_ids)
+
+            # Append the newly sampled ids to the suffix cache for this request.
+            self.suffix_cache.add_active_response(req_id, sampled_ids)
+
+            # Suffix decoding only uses the most recent tokens up to max_tree_depth, so
+            # we extract the pattern from the end of the input.
+            start = max(0, num_tokens - self.max_tree_depth)
+            pattern = input_batch.token_ids_cpu[i, start:num_tokens]
+            draft = self.suffix_cache.speculate(
+                req_id,
+                pattern,
+                max_spec_tokens=min(
+                    self.num_speculative_tokens, self.max_model_len - num_tokens - 1
+                ),
+                max_spec_factor=self.max_spec_factor,
+                min_token_prob=self.min_token_prob,
+            )
+
+            draft_token_ids.append(draft.token_ids)
+
+        # Stop requests that were not seen in the input batch.
+        for req_id in (
+            self.suffix_cache.active_requests - input_batch.req_id_to_index.keys()
+        ):
+            self.suffix_cache.stop_request(req_id)
+
+        return draft_token_ids
+
+    def load_model(self, *args, **kwargs):
+        # No model to load.
+        pass
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index 9212221bb6009..e700c09038e28 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -125,6 +125,7 @@ from vllm.v1.spec_decode.eagle import EagleProposer
 from vllm.v1.spec_decode.medusa import MedusaProposer
 from vllm.v1.spec_decode.metadata import SpecDecodeMetadata
 from vllm.v1.spec_decode.ngram_proposer import NgramProposer
+from vllm.v1.spec_decode.suffix_decoding import SuffixDecodingProposer
 from vllm.v1.structured_output.utils import apply_grammar_bitmask
 from vllm.v1.utils import CpuGpuBuffer, record_function_or_nullcontext
 from vllm.v1.worker.dp_utils import coordinate_batch_across_dp
@@ -336,16 +337,21 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
         # the last PP rank. This is not ideal if there are many
         # layers in the draft model.
         if self.speculative_config and get_pp_group().is_last_rank:
+            self.drafter: (
+                NgramProposer | SuffixDecodingProposer | EagleProposer | MedusaProposer
+            )
             if self.speculative_config.method == "ngram":
                 self.drafter = NgramProposer(self.vllm_config)
+            elif self.speculative_config.method == "suffix":
+                self.drafter = SuffixDecodingProposer(self.vllm_config)
             elif self.speculative_config.use_eagle():
-                self.drafter = EagleProposer(self.vllm_config, self.device, self)  # type: ignore
+                self.drafter = EagleProposer(self.vllm_config, self.device, self)
                 if self.speculative_config.method == "eagle3":
                     self.use_aux_hidden_state_outputs = True
             elif self.speculative_config.method == "medusa":
                 self.drafter = MedusaProposer(
                     vllm_config=self.vllm_config, device=self.device
-                )  # type: ignore
+                )
             else:
                 raise ValueError(
                     "Unknown speculative decoding method: "
@@ -2783,6 +2789,10 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
                 self.input_batch.token_ids_cpu,
                 self.input_batch.spec_decode_unsupported_reqs,
             )
+        elif self.speculative_config.method == "suffix":
+            assert isinstance(sampled_token_ids, list)
+            assert isinstance(self.drafter, SuffixDecodingProposer)
+            draft_token_ids = self.drafter.propose(self.input_batch, sampled_token_ids)
         elif self.speculative_config.method == "medusa":
             assert isinstance(sampled_token_ids, list)
             assert isinstance(self.drafter, MedusaProposer)

From a4398fbb5e9fe20c8f0f092da4de30c9a582cce0 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Sophie=20du=20Cou=C3=A9dic?= <sop@zurich.ibm.com>
Date: Mon, 3 Nov 2025 19:33:17 +0100
Subject: [PATCH 097/976] [Feature][Benchmarks] Support `inf` burstiness
 (#26941)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Signed-off-by: Sophie du Couédic <sop@zurich.ibm.com>
---
 vllm/benchmarks/serve.py | 7 +++++++
 1 file changed, 7 insertions(+)

diff --git a/vllm/benchmarks/serve.py b/vllm/benchmarks/serve.py
index 4b15d8e62913c..b8f44966db7a0 100644
--- a/vllm/benchmarks/serve.py
+++ b/vllm/benchmarks/serve.py
@@ -189,9 +189,16 @@ async def get_request(
             total_requests,
             request_rate,
         )
+        assert current_request_rate > 0.0, (
+            f"Obtained non-positive request rate {current_request_rate}."
+        )
         request_rates.append(current_request_rate)
         if current_request_rate == float("inf"):
             delay_ts.append(0)
+        elif burstiness == float("inf"):
+            # when burstiness tends to infinity, the delay time becomes constant
+            # and tends to the inverse of the request rate
+            delay_ts.append(1.0 / current_request_rate)
         else:
             theta = 1.0 / (current_request_rate * burstiness)
 

From 55011aef24c2838b05df585822b8fc231eea19b2 Mon Sep 17 00:00:00 2001
From: Lucas Kabela <lucaskabela@meta.com>
Date: Mon, 3 Nov 2025 11:12:15 -0800
Subject: [PATCH 098/976] [Bugfix][Qwen][Multimodal] Move Qwen2_5_vl sdpa to
 custom op and reenable compile (#27764)

Signed-off-by: Lucas Kabela <lucaskabela@meta.com>
---
 vllm/attention/ops/vit_attn_wrappers.py  | 53 ++++++++++++++++++++++++
 vllm/model_executor/models/qwen2_5_vl.py | 44 +++++++-------------
 2 files changed, 69 insertions(+), 28 deletions(-)

diff --git a/vllm/attention/ops/vit_attn_wrappers.py b/vllm/attention/ops/vit_attn_wrappers.py
index 6cefe74416685..06a9f7cd82266 100644
--- a/vllm/attention/ops/vit_attn_wrappers.py
+++ b/vllm/attention/ops/vit_attn_wrappers.py
@@ -14,6 +14,7 @@ To use these ops, you must have a recent version of PyTorch installed (>= 2.4.0)
 
 import einops
 import torch
+import torch.nn.functional as F
 
 from vllm.utils.torch_utils import direct_register_custom_op
 
@@ -123,3 +124,55 @@ def vit_flash_attn_wrapper(
     return torch.ops.vllm.flash_attn_maxseqlen_wrapper(
         q, k, v, cu_seqlens, max_seqlen, batch_size, is_rocm_aiter, use_upstream_fa
     )
+
+
+# TODO: Once we have a torch 2.10, we can use tensor slices
+# so we won't need to wrap this in custom ops
+def torch_sdpa_wrapper(
+    q: torch.Tensor,
+    k: torch.Tensor,
+    v: torch.Tensor,
+    cu_seqlens: torch.Tensor,
+) -> torch.Tensor:
+    outputs = []
+    for i in range(1, len(cu_seqlens)):
+        start_idx = cu_seqlens[i - 1]
+        end_idx = cu_seqlens[i]
+        q_i = q[:, start_idx:end_idx]
+        k_i = k[:, start_idx:end_idx]
+        v_i = v[:, start_idx:end_idx]
+        q_i, k_i, v_i = (
+            einops.rearrange(x, "b s h d -> b h s d") for x in [q_i, k_i, v_i]
+        )
+        output_i = F.scaled_dot_product_attention(q_i, k_i, v_i, dropout_p=0.0)
+        output_i = einops.rearrange(output_i, "b h s d -> b s h d ")
+        outputs.append(output_i)
+    context_layer = torch.cat(outputs, dim=1)
+    context_layer = einops.rearrange(context_layer, "b s h d -> s b (h d)").contiguous()
+    return context_layer
+
+
+def torch_sdpa_wrapper_fake(
+    q: torch.Tensor,
+    k: torch.Tensor,
+    v: torch.Tensor,
+    cu_seqlens: torch.Tensor,
+) -> torch.Tensor:
+    b, s, h, d = q.shape
+    return torch.empty((s, b, h * d), dtype=q.dtype, device=q.device)
+
+
+direct_register_custom_op(
+    op_name="torch_sdpa_wrapper",
+    op_func=torch_sdpa_wrapper,
+    fake_impl=torch_sdpa_wrapper_fake,
+)
+
+
+def vit_torch_sdpa_wrapper(
+    q: torch.Tensor,
+    k: torch.Tensor,
+    v: torch.Tensor,
+    cu_seqlens: torch.Tensor,
+) -> torch.Tensor:
+    return torch.ops.vllm.torch_sdpa_wrapper(q, k, v, cu_seqlens)
diff --git a/vllm/model_executor/models/qwen2_5_vl.py b/vllm/model_executor/models/qwen2_5_vl.py
index 3585783e4ccc3..2b04608dfd03f 100644
--- a/vllm/model_executor/models/qwen2_5_vl.py
+++ b/vllm/model_executor/models/qwen2_5_vl.py
@@ -46,6 +46,7 @@ from vllm.attention.backends.registry import _Backend
 from vllm.attention.layer import maybe_get_vit_flash_attn_backend
 from vllm.attention.ops.vit_attn_wrappers import (
     vit_flash_attn_wrapper,
+    vit_torch_sdpa_wrapper,
     vit_xformers_attn_wrapper,
 )
 from vllm.compilation.decorators import support_torch_compile
@@ -442,23 +443,12 @@ class Qwen2_5_VisionAttention(nn.Module):
                 q = q.contiguous()
                 k = k.contiguous()
                 v = v.contiguous()
-            outputs = []
-            for i in range(1, len(cu_seqlens)):
-                start_idx = cu_seqlens[i - 1]
-                end_idx = cu_seqlens[i]
-                q_i = q[:, start_idx:end_idx]
-                k_i = k[:, start_idx:end_idx]
-                v_i = v[:, start_idx:end_idx]
-                q_i, k_i, v_i = (
-                    einops.rearrange(x, "b s h d -> b h s d") for x in [q_i, k_i, v_i]
-                )
-                output_i = F.scaled_dot_product_attention(q_i, k_i, v_i, dropout_p=0.0)
-                output_i = einops.rearrange(output_i, "b h s d -> b s h d ")
-                outputs.append(output_i)
-            context_layer = torch.cat(outputs, dim=1)
-            context_layer = einops.rearrange(
-                context_layer, "b s h d -> s b (h d)"
-            ).contiguous()
+            context_layer = vit_torch_sdpa_wrapper(
+                q,
+                k,
+                v,
+                cu_seqlens,
+            )
         elif self.attn_backend == _Backend.XFORMERS:
             context_layer = vit_xformers_attn_wrapper(q, k, v, seqlens)
 
@@ -466,17 +456,15 @@ class Qwen2_5_VisionAttention(nn.Module):
         return output
 
 
-# (FIXME): Enable this after dynamic slicing is fixed
-# See https://github.com/vllm-project/vllm/pull/27760
-# @support_torch_compile(
-#     dynamic_arg_dims={
-#         "x": 0,
-#         "cu_seqlens": 0,
-#         "rotary_pos_emb": 0,
-#         "seqlens": 0,
-#     },
-#     mark_unbacked_dims={"seqlens": 0},
-# )
+@support_torch_compile(
+    dynamic_arg_dims={
+        "x": 0,
+        "cu_seqlens": 0,
+        "rotary_pos_emb": 0,
+        "seqlens": 0,
+    },
+    mark_unbacked_dims={"seqlens": 0},
+)
 class Qwen2_5_VisionBlock(nn.Module):
     def __init__(
         self,

From 145c00a4d32b7a681f7fb936c9575812c7aa7880 Mon Sep 17 00:00:00 2001
From: Matthew Bonanni <mbonanni@redhat.com>
Date: Mon, 3 Nov 2025 15:17:10 -0500
Subject: [PATCH 099/976] [Bugfix] change FlashMLA reorder_batch_threshold
 (#27777)

Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>
---
 vllm/v1/attention/backends/mla/flashmla.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/v1/attention/backends/mla/flashmla.py b/vllm/v1/attention/backends/mla/flashmla.py
index 1f98204031ed5..bc17307532093 100644
--- a/vllm/v1/attention/backends/mla/flashmla.py
+++ b/vllm/v1/attention/backends/mla/flashmla.py
@@ -71,7 +71,7 @@ class FlashMLAMetadata(MLACommonMetadata[FlashMLADecodeMetadata]):
 class FlashMLAMetadataBuilder(MLACommonMetadataBuilder[FlashMLAMetadata]):
     cudagraph_support: ClassVar[AttentionCGSupport] = AttentionCGSupport.UNIFORM_BATCH
     query_len_support: ClassVar[QueryLenSupport] = QueryLenSupport.UNIFORM
-    reorder_batch_threshold: int = 512  # process small prefills with decode pathway
+    reorder_batch_threshold: int = 128  # process small prefills with decode pathway
     # ^ TODO(matt): tune this
 
     def __init__(

From 786030721efb2b85a582d65f9bb5d7197de06f83 Mon Sep 17 00:00:00 2001
From: Ning Xie <andy.xning@gmail.com>
Date: Tue, 4 Nov 2025 04:35:16 +0800
Subject: [PATCH 100/976] [Docs] add runai_streamer_sharded to LoadConfig
 (#27937)

Signed-off-by: Andy Xie <andy.xning@gmail.com>
---
 vllm/config/load.py | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/vllm/config/load.py b/vllm/config/load.py
index d625c1ac987e7..e424f8c5edb62 100644
--- a/vllm/config/load.py
+++ b/vllm/config/load.py
@@ -40,6 +40,8 @@ class LoadConfig:
     more information.\n
     - "runai_streamer" will load the Safetensors weights using Run:ai Model
     Streamer.\n
+    - "runai_streamer_sharded" will load weights from pre-sharded checkpoint
+    files using Run:ai Model Streamer.\n
     - "bitsandbytes" will load the weights using bitsandbytes quantization.\n
     - "sharded_state" will load weights from pre-sharded checkpoint files,
     supporting efficient loading of tensor-parallel models.\n

From 01baefe674e61d156672d14b11b20055252df662 Mon Sep 17 00:00:00 2001
From: Matthew Bonanni <mbonanni@redhat.com>
Date: Mon, 3 Nov 2025 16:04:40 -0500
Subject: [PATCH 101/976] Add TP parameter to attention tests (#27683)

Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>
---
 .buildkite/test-pipeline.yaml                 |  3 +-
 tests/v1/attention/test_attention_backends.py | 58 +++++++++++++++++--
 tests/v1/attention/test_mla_backends.py       | 31 +++++++++-
 .../v1/attention/test_sparse_mla_backends.py  | 11 +++-
 4 files changed, 92 insertions(+), 11 deletions(-)

diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index 07e2bf09d8aa0..4a898df8f2a34 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -347,8 +347,7 @@ steps:
     - vllm/v1/attention
     - tests/v1/attention
   commands:
-    - export VLLM_DISABLE_FLASHINFER_PREFILL=1 # TODO: FI prefill is bugged and causes incorrectness, fix this
-    - pytest -v -s v1/attention
+    - VLLM_DISABLE_FLASHINFER_PREFILL=1 pytest -v -s v1/attention # TODO: FI prefill is bugged and causes incorrectness, fix this
 
 - label: V1 Test others (CPU) # 5 mins
   source_file_dependencies:
diff --git a/tests/v1/attention/test_attention_backends.py b/tests/v1/attention/test_attention_backends.py
index 6659b3eb1e98f..08aeb6f298f61 100644
--- a/tests/v1/attention/test_attention_backends.py
+++ b/tests/v1/attention/test_attention_backends.py
@@ -295,6 +295,7 @@ def _test_backend_correctness(
     block_size: int = 16,
     atol: float = 1e-2,
     rtol: float = 1e-2,
+    tensor_parallel_size: int = 1,
 ):
     """
     Test that all backends produce similar outputs to a reference implementation
@@ -310,13 +311,38 @@ def _test_backend_correctness(
     4. Running each vLLM attention backend with the new queries and the
        simulated paged KV cache.
     5. Comparing the vLLM backend's output to the ground-truth SDPA output.
+
+    Note: When tensor_parallel_size > 1, we simulate the head partitioning
+    by overriding the model config to use fewer heads, without requiring
+    multiple GPUs. This tests that backends work correctly with different
+    head counts.
     """
     current_platform.seed_everything(42)
+
+    hf_config_override = None
+    if tensor_parallel_size > 1:
+        from vllm.config import ModelConfig
+
+        temp_config = ModelConfig(model=model, max_model_len=1)
+        original_num_heads = temp_config.hf_text_config.num_attention_heads
+        original_num_kv_heads = getattr(
+            temp_config.hf_text_config, "num_key_value_heads", None
+        )
+        hf_config_override = {
+            "num_attention_heads": original_num_heads // tensor_parallel_size,
+        }
+        if original_num_kv_heads is not None:
+            hf_config_override["num_key_value_heads"] = max(
+                1, original_num_kv_heads // tensor_parallel_size
+            )
+
     vllm_config = create_vllm_config(
         model_name=model,
+        tensor_parallel_size=1,  # Always use TP=1 to avoid multi-GPU requirements
         max_model_len=max(batch_spec.seq_lens),
         block_size=block_size,
         num_gpu_blocks=8192,
+        hf_config_override=hf_config_override,
     )
     device = torch.device("cuda:0")
 
@@ -503,7 +529,10 @@ def _test_backend_correctness(
     ],
 )
 @pytest.mark.parametrize("model", ["meta-llama/Meta-Llama-3-8B"])
-def test_causal_backend_correctness(batch_spec_name: str, model: str):
+@pytest.mark.parametrize("tensor_parallel_size", [1, 2, 4])
+def test_causal_backend_correctness(
+    batch_spec_name: str, model: str, tensor_parallel_size: int
+):
     """Test backend's correctness with causal attention."""
 
     def causal_mask_mod(
@@ -523,12 +552,23 @@ def test_causal_backend_correctness(batch_spec_name: str, model: str):
     SMALL_BLOCK_BACKENDS = [
         x for x in BACKENDS_TO_TEST if x not in LARGE_BLOCK_BACKENDS
     ]
-    _test_backend_correctness(batch_spec, model, SMALL_BLOCK_BACKENDS, causal_mask_mod)
+    _test_backend_correctness(
+        batch_spec,
+        model,
+        SMALL_BLOCK_BACKENDS,
+        causal_mask_mod,
+        tensor_parallel_size=tensor_parallel_size,
+    )
 
     # Fast FlexAttention needs to run with block_size=128
     if LARGE_BLOCK_BACKENDS:
         _test_backend_correctness(
-            batch_spec, model, LARGE_BLOCK_BACKENDS, causal_mask_mod, block_size=128
+            batch_spec,
+            model,
+            LARGE_BLOCK_BACKENDS,
+            causal_mask_mod,
+            block_size=128,
+            tensor_parallel_size=tensor_parallel_size,
         )
 
 
@@ -545,7 +585,10 @@ SLIDING_WINDOW_BACKENDS_TO_TEST = [
     ["small_decode", "small_prefill", "mixed_medium", "large_decode", "large_prefill"],
 )
 @pytest.mark.parametrize("model", ["microsoft/Phi-tiny-MoE-instruct"])
-def test_sliding_window_backend_correctness(batch_spec_name: str, model: str):
+@pytest.mark.parametrize("tensor_parallel_size", [1, 2, 4])
+def test_sliding_window_backend_correctness(
+    batch_spec_name: str, model: str, tensor_parallel_size: int
+):
     """Test backend's correctness with sliding window attention."""
 
     def sliding_window_mask_mod(
@@ -575,7 +618,11 @@ def test_sliding_window_backend_correctness(batch_spec_name: str, model: str):
         x for x in SLIDING_WINDOW_BACKENDS_TO_TEST if x not in LARGE_BLOCK_BACKENDS
     ]
     _test_backend_correctness(
-        batch_spec, model, SMALL_BLOCK_BACKENDS, sliding_window_mask_mod_fn
+        batch_spec,
+        model,
+        SMALL_BLOCK_BACKENDS,
+        sliding_window_mask_mod_fn,
+        tensor_parallel_size=tensor_parallel_size,
     )
 
     # Fast FlexAttention needs to run with block_size=128
@@ -586,4 +633,5 @@ def test_sliding_window_backend_correctness(batch_spec_name: str, model: str):
             LARGE_BLOCK_BACKENDS,
             sliding_window_mask_mod_fn,
             block_size=128,
+            tensor_parallel_size=tensor_parallel_size,
         )
diff --git a/tests/v1/attention/test_mla_backends.py b/tests/v1/attention/test_mla_backends.py
index cda4fb11c096e..5679fafe63ee8 100644
--- a/tests/v1/attention/test_mla_backends.py
+++ b/tests/v1/attention/test_mla_backends.py
@@ -394,8 +394,11 @@ def run_attention_backend(
         "spec_decode_medium",
     ],
 )
-@pytest.mark.parametrize("model", ["deepseek-ai/DeepSeek-V2-Lite-Chat"])
-def test_backend_correctness(dist_init, batch_spec_name: str, model: str):
+@pytest.mark.parametrize("model", ["deepseek-ai/DeepSeek-R1"])
+@pytest.mark.parametrize("tensor_parallel_size", [1, 4, 8, 16])
+def test_backend_correctness(
+    dist_init, batch_spec_name: str, model: str, tensor_parallel_size: int
+):
     """
     Test that all backends produce similar outputs to a reference implementation
     using torch.nn.functional.scaled_dot_product_attention.
@@ -410,6 +413,11 @@ def test_backend_correctness(dist_init, batch_spec_name: str, model: str):
     4. Running each vLLM attention backend with the new queries and the
        simulated paged KV cache.
     5. Comparing the vLLM backend's output to the ground-truth SDPA output.
+
+    Note: When tensor_parallel_size > 1, we simulate the head partitioning
+    by overriding the model config to use fewer heads, without requiring
+    multiple GPUs. This tests that backends work correctly with different
+    head counts.
     """
 
     batch_spec = BATCH_SPECS[batch_spec_name]
@@ -423,11 +431,30 @@ def test_backend_correctness(dist_init, batch_spec_name: str, model: str):
     # Add 1 for null block at index 0, and some buffer
     num_gpu_blocks = required_blocks + 1 + 100
 
+    hf_config_override = None
+    if tensor_parallel_size > 1:
+        from vllm.config import ModelConfig
+
+        temp_config = ModelConfig(model=model, max_model_len=1)
+        original_num_heads = temp_config.hf_text_config.num_attention_heads
+        original_num_kv_heads = getattr(
+            temp_config.hf_text_config, "num_key_value_heads", None
+        )
+        hf_config_override = {
+            "num_attention_heads": original_num_heads // tensor_parallel_size,
+        }
+        if original_num_kv_heads is not None:
+            hf_config_override["num_key_value_heads"] = max(
+                1, original_num_kv_heads // tensor_parallel_size
+            )
+
     vllm_config = create_vllm_config(
         model_name=model,
+        tensor_parallel_size=1,  # Always use TP=1 to avoid multi-GPU requirements
         max_model_len=max(batch_spec.seq_lens),
         num_gpu_blocks=num_gpu_blocks,
         block_size=default_block_size,
+        hf_config_override=hf_config_override,
     )
 
     # For spec decode tests, add a speculative_config to set the reorder_batch_threshold
diff --git a/tests/v1/attention/test_sparse_mla_backends.py b/tests/v1/attention/test_sparse_mla_backends.py
index 02324d2aca6ef..b34d587eb362d 100644
--- a/tests/v1/attention/test_sparse_mla_backends.py
+++ b/tests/v1/attention/test_sparse_mla_backends.py
@@ -113,7 +113,10 @@ def _quantize_dequantize_fp8_ds_mla(
 
 @pytest.mark.parametrize("batch_name", list(SPARSE_BACKEND_BATCH_SPECS.keys()))
 @pytest.mark.parametrize("kv_cache_dtype", ["fp8_ds_mla", "auto"])
-def test_sparse_backend_decode_correctness(dist_init, batch_name, kv_cache_dtype):
+@pytest.mark.parametrize("tensor_parallel_size", [1, 2, 4])
+def test_sparse_backend_decode_correctness(
+    dist_init, batch_name, kv_cache_dtype, tensor_parallel_size
+):
     if not torch.cuda.is_available():
         pytest.skip("CUDA is required for sparse MLA decode test")
 
@@ -135,8 +138,11 @@ def test_sparse_backend_decode_correctness(dist_init, batch_name, kv_cache_dtype
     total_cache_tokens = sum(batch_spec.seq_lens)
     block_size = 64
 
+    # Note: We use TP=1 to avoid multi-GPU requirements in CI.
+    # The test simulates head partitioning via mocked methods below.
     vllm_config = create_vllm_config(
         model_name="deepseek-ai/DeepSeek-V2-Lite-Chat",
+        tensor_parallel_size=1,
         max_model_len=max_seqlen,
         num_gpu_blocks=max(2048, cdiv(total_cache_tokens, block_size) + 1),
         block_size=block_size,
@@ -156,7 +162,8 @@ def test_sparse_backend_decode_correctness(dist_init, batch_name, kv_cache_dtype
     )
     model_config.dtype = dtype
     model_config.get_num_attention_heads = MethodType(
-        lambda self, parallel_config: num_heads, model_config
+        lambda self, parallel_config: max(1, num_heads // tensor_parallel_size),
+        model_config,
     )
     model_config.get_num_kv_heads = MethodType(
         lambda self, parallel_config: 1, model_config

From ccd3e55e51d44bf3a17b2203a304c9609aa5dfe2 Mon Sep 17 00:00:00 2001
From: Hank_ <37239608+ILikeIneine@users.noreply.github.com>
Date: Tue, 4 Nov 2025 05:27:03 +0800
Subject: [PATCH 102/976] [Bugfix][plugin] fla crash on plugin (#27322)

---
 vllm/model_executor/layers/fla/ops/utils.py | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/vllm/model_executor/layers/fla/ops/utils.py b/vllm/model_executor/layers/fla/ops/utils.py
index 3a503981a8734..5a48e56a5fbbf 100644
--- a/vllm/model_executor/layers/fla/ops/utils.py
+++ b/vllm/model_executor/layers/fla/ops/utils.py
@@ -17,6 +17,7 @@ from typing import Any, Literal
 
 import torch
 
+from vllm.platforms import current_platform
 from vllm.triton_utils import triton
 
 logger = logging.getLogger(__name__)
@@ -137,8 +138,8 @@ def _check_platform() -> Literal["nvidia", "amd", "intel", "musa"]:
 # For AMD GPUs, the triton backend is 'hip', while for Nvidia GPUs, the triton backend is 'cuda'.
 # However, the torch backend is 'cuda' for both Nvidia and AMD GPUs.
 # Therefore, we need to check the triton backend to determine the actual GPU vendor.
-device = get_available_device() if get_available_device() != "hip" else "cuda"
-device_torch_lib = getattr(torch, device)
+device = "cuda" if current_platform.is_cuda_alike() else get_available_device()
+device_torch_lib = getattr(torch, device, None)
 device_platform = _check_platform()
 
 is_amd = device_platform == "amd"

From 3758757377b713b6acc997d0ac2c5dd49c332278 Mon Sep 17 00:00:00 2001
From: Tyler Michael Smith <tyler@neuralmagic.com>
Date: Mon, 3 Nov 2025 17:26:49 -0500
Subject: [PATCH 103/976] [Bugfix] Fix MoE Routing Simulation (#28002)

Signed-off-by: Tyler Michael Smith <tlrmchlsmth@gmail.com>
---
 vllm/model_executor/layers/fused_moe/layer.py          |  2 +-
 .../layers/fused_moe/routing_simulator.py              | 10 ++++++++++
 2 files changed, 11 insertions(+), 1 deletion(-)

diff --git a/vllm/model_executor/layers/fused_moe/layer.py b/vllm/model_executor/layers/fused_moe/layer.py
index 46d351b48c5e8..55aa2593193ab 100644
--- a/vllm/model_executor/layers/fused_moe/layer.py
+++ b/vllm/model_executor/layers/fused_moe/layer.py
@@ -2066,7 +2066,7 @@ class FusedMoE(CustomOp):
             )
 
         # DeepSeekv2 uses grouped_top_k
-        if use_grouped_topk:
+        elif use_grouped_topk:
             assert topk_group is not None
             assert num_expert_group is not None
             if is_rocm_aiter_moe_enabled():
diff --git a/vllm/model_executor/layers/fused_moe/routing_simulator.py b/vllm/model_executor/layers/fused_moe/routing_simulator.py
index 8b04cf4539e04..a01cdc4908b93 100644
--- a/vllm/model_executor/layers/fused_moe/routing_simulator.py
+++ b/vllm/model_executor/layers/fused_moe/routing_simulator.py
@@ -14,6 +14,10 @@ from typing import Any
 
 import torch
 
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
 
 class RoutingStrategy(ABC):
     """Base class for token-to-expert routing strategies."""
@@ -290,6 +294,12 @@ class RoutingSimulator:
                 f"Available strategies: "
                 f"{list(RoutingSimulator._routing_strategies.keys())}"
             )
+        logger.warning_once(
+            "Simulating MoE routing using a %s strategy. "
+            "This should only be used for performance testing. "
+            "Model outputs will not be valid.",
+            strategy_name,
+        )
 
         strategy = RoutingSimulator._routing_strategies[strategy_name]
         return strategy.route_tokens(

From 7956b0c0bca8c2b778e6a0b18953b5a08e136c90 Mon Sep 17 00:00:00 2001
From: QiliangCui <derrhein@gmail.com>
Date: Mon, 3 Nov 2025 16:35:54 -0800
Subject: [PATCH 104/976] Remove the tpu docker image nightly build. (#27997)

Signed-off-by: Qiliang Cui <derrhein@gmail.com>
---
 .buildkite/release-pipeline.yaml | 18 ------------------
 1 file changed, 18 deletions(-)

diff --git a/.buildkite/release-pipeline.yaml b/.buildkite/release-pipeline.yaml
index 33b7114666fa2..12f730738b8a5 100644
--- a/.buildkite/release-pipeline.yaml
+++ b/.buildkite/release-pipeline.yaml
@@ -116,24 +116,6 @@ steps:
     commands:
       - "bash .buildkite/scripts/annotate-release.sh"
 
-  - label: "Build and publish TPU release image"
-    depends_on: ~
-    if: build.env("NIGHTLY") == "1"
-    agents:
-      queue: tpu_queue_postmerge
-    commands:
-      - "yes | docker system prune -a"
-      - "git fetch --all"
-      - "DOCKER_BUILDKIT=1 docker build --build-arg max_jobs=16 --build-arg USE_SCCACHE=1 --build-arg GIT_REPO_CHECK=1 --tag vllm/vllm-tpu:nightly --tag vllm/vllm-tpu:$BUILDKITE_COMMIT --progress plain -f docker/Dockerfile.tpu ."
-      - "docker push vllm/vllm-tpu:nightly"
-      - "docker push vllm/vllm-tpu:$BUILDKITE_COMMIT"
-    plugins:
-      - docker-login#v3.0.0:
-          username: vllmbot
-          password-env: DOCKERHUB_TOKEN
-    env:
-      DOCKER_BUILDKIT: "1"
-
   - input: "Provide Release version here"
     id: input-release-version
     fields:

From b13a44754674a0056d7c8113deb33ea858f6ef1c Mon Sep 17 00:00:00 2001
From: vllmellm <vllm.ellm@embeddedllm.com>
Date: Tue, 4 Nov 2025 09:12:19 +0800
Subject: [PATCH 105/976] [Bugfix][ROCm] Fix ViT rotary embeddings for
 torch.compile compatibility on ROCm (#27748)

Signed-off-by: vllmellm <vllm.ellm@embeddedllm.com>
---
 vllm/model_executor/layers/rotary_embedding/common.py | 11 +++++++----
 vllm/model_executor/models/glm4_1v.py                 |  2 +-
 2 files changed, 8 insertions(+), 5 deletions(-)

diff --git a/vllm/model_executor/layers/rotary_embedding/common.py b/vllm/model_executor/layers/rotary_embedding/common.py
index 9e6ec9fdd523c..196533b617959 100644
--- a/vllm/model_executor/layers/rotary_embedding/common.py
+++ b/vllm/model_executor/layers/rotary_embedding/common.py
@@ -77,7 +77,11 @@ def dispatch_rotary_emb_function(
     if current_platform.is_cuda():
         return apply_rotary_emb
 
-    if current_platform.is_rocm():
+    # if torch compile is not enabled
+    # use rotary embedding function from flash_attn package
+    # otherwise use the naive pytorch embedding implementation
+    # is faster when torch compile is enabled.
+    if current_platform.is_rocm() and not torch.compiler.is_compiling():
         if find_spec("flash_attn") is not None:
             from flash_attn.ops.triton.rotary import apply_rotary
 
@@ -87,11 +91,10 @@ def dispatch_rotary_emb_function(
                 "flash_attn is not installed. Falling back to PyTorch "
                 "implementation for rotary embeddings."
             )
-
     if default is not None:
         return default
-    else:
-        return apply_rotary_emb_torch
+
+    return apply_rotary_emb_torch
 
 
 # yarn functions
diff --git a/vllm/model_executor/models/glm4_1v.py b/vllm/model_executor/models/glm4_1v.py
index 3e243385fd049..121e84469c52f 100644
--- a/vllm/model_executor/models/glm4_1v.py
+++ b/vllm/model_executor/models/glm4_1v.py
@@ -370,7 +370,7 @@ class Glm4vVisionAttention(nn.Module):
                 cu_seqlens_k=cu_seqlens,
                 max_seqlen_q=max_seqlen,
                 max_seqlen_k=max_seqlen,
-                dropout_p=0,
+                dropout_p=0.0,
                 causal=False,
             )
 

From 6ddae74054d4d9b55b367bfc9db82969f9d81930 Mon Sep 17 00:00:00 2001
From: li2haipeng <44383182+li2haipeng@users.noreply.github.com>
Date: Mon, 3 Nov 2025 17:30:20 -0800
Subject: [PATCH 106/976] [LoRA] Lora shrink swizzle (#27694)

Signed-off-by: li2haipeng <44383182+li2haipeng@users.noreply.github.com>
Signed-off-by: Haipeng Li <li2haipeng@gmail.com>
Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>
---
 vllm/lora/ops/triton_ops/lora_shrink_op.py | 15 +++++++++++++--
 vllm/lora/ops/triton_ops/utils.py          |  1 +
 2 files changed, 14 insertions(+), 2 deletions(-)

diff --git a/vllm/lora/ops/triton_ops/lora_shrink_op.py b/vllm/lora/ops/triton_ops/lora_shrink_op.py
index 8d126197f83ea..adc5c9dce5e84 100644
--- a/vllm/lora/ops/triton_ops/lora_shrink_op.py
+++ b/vllm/lora/ops/triton_ops/lora_shrink_op.py
@@ -41,6 +41,7 @@ def _lora_shrink_kernel(
     BLOCK_K: tl.constexpr,
     EVEN_K: tl.constexpr,
     SPLIT_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr,
     SLICE_NUM: tl.constexpr,
 ):
     cta_n_num = tl.cdiv(N, BLOCK_N)
@@ -48,8 +49,16 @@ def _lora_shrink_kernel(
 
     pid_sk_m_n = tl.program_id(axis=0)
     pid_sk = pid_sk_m_n % SPLIT_K
-    pid_m = (pid_sk_m_n // SPLIT_K) % cta_m_num
-    pid_n = pid_sk_m_n // (SPLIT_K * cta_m_num) % cta_n_num
+
+    pid_m_n = pid_sk_m_n // SPLIT_K
+    num_pid_in_group = GROUP_SIZE_M * cta_n_num
+    group_id = pid_m_n // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(cta_m_num - first_pid_m, GROUP_SIZE_M)
+
+    # Column-major ordering within groups for better cache reuse
+    pid_m = first_pid_m + ((pid_m_n % num_pid_in_group) % group_size_m)
+    pid_n = (pid_m_n % num_pid_in_group) // group_size_m
 
     slice_id = tl.program_id(axis=1)
     lora_idx = tl.program_id(axis=2)
@@ -194,6 +203,7 @@ def _lora_shrink(
     NUM_WARPS = kernel_config["num_warps"]
     NUM_STAGES = kernel_config["num_stages"]
     NUM_CTAS = kernel_config["num_ctas"]
+    GROUP_SIZE_M = kernel_config.get("group_size_m", 8)
     EVEN_K = K % (BLOCK_K * SPLIT_K) == 0  # type: ignore
 
     # TODO (varun): This grid formulation maximizes parallelization at the
@@ -233,6 +243,7 @@ def _lora_shrink(
         BLOCK_K,
         EVEN_K,
         SPLIT_K,
+        GROUP_SIZE_M,
         NUM_SLICES,
         num_warps=NUM_WARPS,
         num_ctas=NUM_CTAS,
diff --git a/vllm/lora/ops/triton_ops/utils.py b/vllm/lora/ops/triton_ops/utils.py
index 9ffb6dc3d85e5..368c5037d2e4d 100644
--- a/vllm/lora/ops/triton_ops/utils.py
+++ b/vllm/lora/ops/triton_ops/utils.py
@@ -199,6 +199,7 @@ def get_lora_op_configs(
             "split_k": 64 if batch < 128 else 8,
             "num_warps": 4,
             "num_ctas": 1,
+            "group_size_m": 8,
             "num_stages": 2,
             "max_nreg": None,
         }

From c02fccdbd2794fe016ebd738e3a8b8c8d78eb78c Mon Sep 17 00:00:00 2001
From: Chauncey <chaunceyjiang@gmail.com>
Date: Tue, 4 Nov 2025 10:10:10 +0800
Subject: [PATCH 107/976] [Refactor] Lazy import tool_parser (#27974)

Signed-off-by: chaunceyjiang <chaunceyjiang@gmail.com>
---
 docs/features/tool_calling.md                 |   7 +-
 .../tool_use/test_deepseekv31_tool_parser.py  |   4 +-
 .../tool_use/test_ernie45_moe_tool_parser.py  |   2 +-
 tests/tool_use/test_glm4_moe_tool_parser.py   |   4 +-
 tests/tool_use/test_jamba_tool_parser.py      |   2 +-
 tests/tool_use/test_kimi_k2_tool_parser.py    |   2 +-
 tests/tool_use/test_minimax_tool_parser.py    |   2 +-
 tests/tool_use/test_openai_tool_parser.py     |   2 +-
 tests/tool_use/test_seed_oss_tool_parser.py   |   2 +-
 tests/tool_use/test_xlam_tool_parser.py       |   2 +-
 vllm/entrypoints/openai/api_server.py         |   2 +-
 vllm/entrypoints/openai/cli_args.py           |   2 +-
 .../openai/tool_parsers/__init__.py           | 195 +++++++++++++-----
 .../tool_parsers/abstract_tool_parser.py      | 142 +++++++++----
 .../tool_parsers/deepseekv31_tool_parser.py   |   2 -
 .../tool_parsers/deepseekv3_tool_parser.py    |   2 -
 .../tool_parsers/ernie45_tool_parser.py       |   2 -
 .../tool_parsers/glm4_moe_tool_parser.py      |   2 -
 .../granite_20b_fc_tool_parser.py             |   2 -
 .../tool_parsers/granite_tool_parser.py       |   2 -
 .../openai/tool_parsers/hermes_tool_parser.py |   2 -
 .../tool_parsers/hunyuan_a13b_tool_parser.py  |   2 -
 .../tool_parsers/internlm2_tool_parser.py     |   2 -
 .../openai/tool_parsers/jamba_tool_parser.py  |   3 +-
 .../tool_parsers/kimi_k2_tool_parser.py       |   2 -
 .../llama4_pythonic_tool_parser.py            |   2 -
 .../openai/tool_parsers/llama_tool_parser.py  |   3 -
 .../tool_parsers/longcat_tool_parser.py       |   2 -
 .../tool_parsers/minimax_m2_tool_parser.py    |   2 -
 .../tool_parsers/minimax_tool_parser.py       |   2 -
 .../tool_parsers/mistral_tool_parser.py       |   2 -
 .../openai/tool_parsers/olmo3_tool_parser.py  |   2 -
 .../openai/tool_parsers/openai_tool_parser.py |   2 -
 .../tool_parsers/phi4mini_tool_parser.py      |   2 -
 .../tool_parsers/pythonic_tool_parser.py      |   2 -
 .../tool_parsers/qwen3coder_tool_parser.py    |   2 -
 .../tool_parsers/qwen3xml_tool_parser.py      |   2 -
 .../tool_parsers/seed_oss_tool_parser.py      |   2 -
 .../openai/tool_parsers/step3_tool_parser.py  |   2 -
 .../openai/tool_parsers/xlam_tool_parser.py   |   2 -
 40 files changed, 266 insertions(+), 158 deletions(-)

diff --git a/docs/features/tool_calling.md b/docs/features/tool_calling.md
index 7a1b30096a56d..7e6c69e717dba 100644
--- a/docs/features/tool_calling.md
+++ b/docs/features/tool_calling.md
@@ -407,7 +407,6 @@ Here is a summary of a plugin file:
     # the name list in register_module can be used
     # in --tool-call-parser. you can define as many
     # tool parsers as you want here.
-    @ToolParserManager.register_module(["example"])
     class ExampleToolParser(ToolParser):
         def __init__(self, tokenizer: AnyTokenizer):
             super().__init__(tokenizer)
@@ -439,6 +438,12 @@ Here is a summary of a plugin file:
             return ExtractedToolCallInformation(tools_called=False,
                                                 tool_calls=[],
                                                 content=text)
+    # register the tool parser to ToolParserManager
+    ToolParserManager.register_lazy_module(
+        name="example",
+        module_path="vllm.entrypoints.openai.tool_parsers.example",
+        class_name="ExampleToolParser",
+    )
 
     ```
 
diff --git a/tests/tool_use/test_deepseekv31_tool_parser.py b/tests/tool_use/test_deepseekv31_tool_parser.py
index 9b7e71b49c05b..db5168071fbce 100644
--- a/tests/tool_use/test_deepseekv31_tool_parser.py
+++ b/tests/tool_use/test_deepseekv31_tool_parser.py
@@ -3,7 +3,9 @@
 
 import pytest
 
-from vllm.entrypoints.openai.tool_parsers import DeepSeekV31ToolParser
+from vllm.entrypoints.openai.tool_parsers.deepseekv31_tool_parser import (
+    DeepSeekV31ToolParser,
+)
 from vllm.transformers_utils.tokenizer import get_tokenizer
 
 MODEL = "deepseek-ai/DeepSeek-V3.1"
diff --git a/tests/tool_use/test_ernie45_moe_tool_parser.py b/tests/tool_use/test_ernie45_moe_tool_parser.py
index 0862d14812d72..fb5af6e13a96b 100644
--- a/tests/tool_use/test_ernie45_moe_tool_parser.py
+++ b/tests/tool_use/test_ernie45_moe_tool_parser.py
@@ -13,7 +13,7 @@ from vllm.entrypoints.openai.protocol import (
     FunctionCall,
     ToolCall,
 )
-from vllm.entrypoints.openai.tool_parsers import Ernie45ToolParser
+from vllm.entrypoints.openai.tool_parsers.ernie45_tool_parser import Ernie45ToolParser
 from vllm.transformers_utils.detokenizer_utils import detokenize_incrementally
 from vllm.transformers_utils.tokenizer import AnyTokenizer, get_tokenizer
 
diff --git a/tests/tool_use/test_glm4_moe_tool_parser.py b/tests/tool_use/test_glm4_moe_tool_parser.py
index 6f1f6671d9b3c..f545f52c02dcb 100644
--- a/tests/tool_use/test_glm4_moe_tool_parser.py
+++ b/tests/tool_use/test_glm4_moe_tool_parser.py
@@ -7,7 +7,9 @@ import json
 import pytest
 
 from vllm.entrypoints.openai.protocol import FunctionCall, ToolCall
-from vllm.entrypoints.openai.tool_parsers import Glm4MoeModelToolParser
+from vllm.entrypoints.openai.tool_parsers.glm4_moe_tool_parser import (
+    Glm4MoeModelToolParser,
+)
 from vllm.transformers_utils.tokenizer import get_tokenizer
 
 pytestmark = pytest.mark.cpu_test
diff --git a/tests/tool_use/test_jamba_tool_parser.py b/tests/tool_use/test_jamba_tool_parser.py
index 6dcdd5ba2ce76..9eb73b80fa9b4 100644
--- a/tests/tool_use/test_jamba_tool_parser.py
+++ b/tests/tool_use/test_jamba_tool_parser.py
@@ -9,7 +9,7 @@ import pytest
 from partial_json_parser.core.options import Allow
 
 from vllm.entrypoints.openai.protocol import DeltaMessage, FunctionCall, ToolCall
-from vllm.entrypoints.openai.tool_parsers import JambaToolParser
+from vllm.entrypoints.openai.tool_parsers.jamba_tool_parser import JambaToolParser
 from vllm.transformers_utils.detokenizer_utils import detokenize_incrementally
 from vllm.transformers_utils.tokenizer import AnyTokenizer, get_tokenizer
 
diff --git a/tests/tool_use/test_kimi_k2_tool_parser.py b/tests/tool_use/test_kimi_k2_tool_parser.py
index 43b8c70acbfc3..c358589dbc292 100644
--- a/tests/tool_use/test_kimi_k2_tool_parser.py
+++ b/tests/tool_use/test_kimi_k2_tool_parser.py
@@ -7,7 +7,7 @@ import json
 import pytest
 
 from vllm.entrypoints.openai.protocol import FunctionCall, ToolCall
-from vllm.entrypoints.openai.tool_parsers import KimiK2ToolParser
+from vllm.entrypoints.openai.tool_parsers.kimi_k2_tool_parser import KimiK2ToolParser
 from vllm.transformers_utils.tokenizer import get_tokenizer
 
 pytestmark = pytest.mark.cpu_test
diff --git a/tests/tool_use/test_minimax_tool_parser.py b/tests/tool_use/test_minimax_tool_parser.py
index 8610656fa288d..4332984083dab 100644
--- a/tests/tool_use/test_minimax_tool_parser.py
+++ b/tests/tool_use/test_minimax_tool_parser.py
@@ -12,7 +12,7 @@ from vllm.entrypoints.openai.protocol import (
     FunctionCall,
     ToolCall,
 )
-from vllm.entrypoints.openai.tool_parsers import MinimaxToolParser
+from vllm.entrypoints.openai.tool_parsers.minimax_tool_parser import MinimaxToolParser
 from vllm.transformers_utils.tokenizer import get_tokenizer
 
 pytestmark = pytest.mark.cpu_test
diff --git a/tests/tool_use/test_openai_tool_parser.py b/tests/tool_use/test_openai_tool_parser.py
index f6223f3fdce4f..c874a9601ae70 100644
--- a/tests/tool_use/test_openai_tool_parser.py
+++ b/tests/tool_use/test_openai_tool_parser.py
@@ -15,7 +15,7 @@ from openai_harmony import (
 )
 
 from vllm.entrypoints.openai.protocol import FunctionCall, ToolCall
-from vllm.entrypoints.openai.tool_parsers import OpenAIToolParser
+from vllm.entrypoints.openai.tool_parsers.openai_tool_parser import OpenAIToolParser
 from vllm.transformers_utils.tokenizer import get_tokenizer
 
 MODEL = "gpt2"
diff --git a/tests/tool_use/test_seed_oss_tool_parser.py b/tests/tool_use/test_seed_oss_tool_parser.py
index 1133b949f2270..1367ad87cb019 100644
--- a/tests/tool_use/test_seed_oss_tool_parser.py
+++ b/tests/tool_use/test_seed_oss_tool_parser.py
@@ -14,7 +14,7 @@ from vllm.entrypoints.openai.protocol import (
     FunctionCall,
     ToolCall,
 )
-from vllm.entrypoints.openai.tool_parsers import SeedOssToolParser
+from vllm.entrypoints.openai.tool_parsers.seed_oss_tool_parser import SeedOssToolParser
 from vllm.transformers_utils.detokenizer_utils import detokenize_incrementally
 from vllm.transformers_utils.tokenizer import AnyTokenizer, get_tokenizer
 
diff --git a/tests/tool_use/test_xlam_tool_parser.py b/tests/tool_use/test_xlam_tool_parser.py
index 8c27b2911f8f9..122b427d60409 100644
--- a/tests/tool_use/test_xlam_tool_parser.py
+++ b/tests/tool_use/test_xlam_tool_parser.py
@@ -12,7 +12,7 @@ from vllm.entrypoints.openai.protocol import (
     FunctionCall,
     ToolCall,
 )
-from vllm.entrypoints.openai.tool_parsers import xLAMToolParser
+from vllm.entrypoints.openai.tool_parsers.xlam_tool_parser import xLAMToolParser
 from vllm.transformers_utils.detokenizer_utils import detokenize_incrementally
 from vllm.transformers_utils.tokenizer import AnyTokenizer, get_tokenizer
 
diff --git a/vllm/entrypoints/openai/api_server.py b/vllm/entrypoints/openai/api_server.py
index c37aba2776aeb..e184f22f36307 100644
--- a/vllm/entrypoints/openai/api_server.py
+++ b/vllm/entrypoints/openai/api_server.py
@@ -1943,7 +1943,7 @@ def create_server_unix_socket(path: str) -> socket.socket:
 
 
 def validate_api_server_args(args):
-    valid_tool_parses = ToolParserManager.tool_parsers.keys()
+    valid_tool_parses = ToolParserManager.list_registered()
     if args.enable_auto_tool_choice and args.tool_call_parser not in valid_tool_parses:
         raise KeyError(
             f"invalid tool call parser: {args.tool_call_parser} "
diff --git a/vllm/entrypoints/openai/cli_args.py b/vllm/entrypoints/openai/cli_args.py
index 1a775d3d68094..476587c178237 100644
--- a/vllm/entrypoints/openai/cli_args.py
+++ b/vllm/entrypoints/openai/cli_args.py
@@ -219,7 +219,7 @@ class FrontendArgs:
         frontend_kwargs["middleware"]["default"] = []
 
         # Special case: Tool call parser shows built-in options.
-        valid_tool_parsers = list(ToolParserManager.tool_parsers.keys())
+        valid_tool_parsers = list(ToolParserManager.list_registered())
         parsers_str = ",".join(valid_tool_parsers)
         frontend_kwargs["tool_call_parser"]["metavar"] = (
             f"{{{parsers_str}}} or name registered in --tool-parser-plugin"
diff --git a/vllm/entrypoints/openai/tool_parsers/__init__.py b/vllm/entrypoints/openai/tool_parsers/__init__.py
index 4541ca50822f7..7038d4c1f05cc 100644
--- a/vllm/entrypoints/openai/tool_parsers/__init__.py
+++ b/vllm/entrypoints/openai/tool_parsers/__init__.py
@@ -1,61 +1,142 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
-from .abstract_tool_parser import ToolParser, ToolParserManager
-from .deepseekv3_tool_parser import DeepSeekV3ToolParser
-from .deepseekv31_tool_parser import DeepSeekV31ToolParser
-from .ernie45_tool_parser import Ernie45ToolParser
-from .glm4_moe_tool_parser import Glm4MoeModelToolParser
-from .granite_20b_fc_tool_parser import Granite20bFCToolParser
-from .granite_tool_parser import GraniteToolParser
-from .hermes_tool_parser import Hermes2ProToolParser
-from .hunyuan_a13b_tool_parser import HunyuanA13BToolParser
-from .internlm2_tool_parser import Internlm2ToolParser
-from .jamba_tool_parser import JambaToolParser
-from .kimi_k2_tool_parser import KimiK2ToolParser
-from .llama4_pythonic_tool_parser import Llama4PythonicToolParser
-from .llama_tool_parser import Llama3JsonToolParser
-from .longcat_tool_parser import LongcatFlashToolParser
-from .minimax_m2_tool_parser import MinimaxM2ToolParser
-from .minimax_tool_parser import MinimaxToolParser
-from .mistral_tool_parser import MistralToolParser
-from .olmo3_tool_parser import Olmo3PythonicToolParser
-from .openai_tool_parser import OpenAIToolParser
-from .phi4mini_tool_parser import Phi4MiniJsonToolParser
-from .pythonic_tool_parser import PythonicToolParser
-from .qwen3coder_tool_parser import Qwen3CoderToolParser
-from .qwen3xml_tool_parser import Qwen3XMLToolParser
-from .seed_oss_tool_parser import SeedOssToolParser
-from .step3_tool_parser import Step3ToolParser
-from .xlam_tool_parser import xLAMToolParser
+from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
+    ToolParser,
+    ToolParserManager,
+)
 
-__all__ = [
-    "ToolParser",
-    "ToolParserManager",
-    "Granite20bFCToolParser",
-    "GraniteToolParser",
-    "Hermes2ProToolParser",
-    "MistralToolParser",
-    "Internlm2ToolParser",
-    "Llama3JsonToolParser",
-    "JambaToolParser",
-    "Llama4PythonicToolParser",
-    "LongcatFlashToolParser",
-    "PythonicToolParser",
-    "Phi4MiniJsonToolParser",
-    "DeepSeekV3ToolParser",
-    "DeepSeekV31ToolParser",
-    "Ernie45ToolParser",
-    "xLAMToolParser",
-    "Olmo3PythonicToolParser",
-    "MinimaxToolParser",
-    "KimiK2ToolParser",
-    "HunyuanA13BToolParser",
-    "Glm4MoeModelToolParser",
-    "Qwen3CoderToolParser",
-    "Qwen3XMLToolParser",
-    "SeedOssToolParser",
-    "Step3ToolParser",
-    "OpenAIToolParser",
-    "MinimaxM2ToolParser",
-]
+__all__ = ["ToolParser", "ToolParserManager"]
+
+
+"""
+Register a lazy module mapping.
+
+Example:
+    ToolParserManager.register_lazy_module(
+        name="kimi_k2",
+        module_path="vllm.entrypoints.openai.tool_parsers.kimi_k2_parser",
+        class_name="KimiK2ToolParser",
+    )
+"""
+
+
+_TOOL_PARSERS_TO_REGISTER = {
+    "deepseek_v3": (  # name
+        "deepseekv3_tool_parser",  # filename
+        "DeepSeekV3ToolParser",  # class_name
+    ),
+    "deepseek_v31": (
+        "deepseekv31_tool_parser",
+        "DeepSeekV31ToolParser",
+    ),
+    "ernie45": (
+        "ernie45_tool_parser",
+        "Ernie45ToolParser",
+    ),
+    "glm45": (
+        "glm4_moe_tool_parser",
+        "Glm4MoeModelToolParser",
+    ),
+    "granite-20b-fc": (
+        "granite_20b_fc_tool_parser",
+        "Granite20bFCToolParser",
+    ),
+    "granite": (
+        "granite_tool_parser",
+        "GraniteToolParser",
+    ),
+    "hermes": (
+        "hermes_tool_parser",
+        "Hermes2ProToolParser",
+    ),
+    "hunyuan_a13b": (
+        "hunyuan_a13b_tool_parser",
+        "HunyuanA13BToolParser",
+    ),
+    "internlm": (
+        "internlm2_tool_parser",
+        "Internlm2ToolParser",
+    ),
+    "jamba": (
+        "jamba_tool_parser",
+        "JambaToolParser",
+    ),
+    "kimi_k2": (
+        "kimi_k2_tool_parser",
+        "KimiK2ToolParser",
+    ),
+    "llama3_json": (
+        "llama_tool_parser",
+        "Llama3JsonToolParser",
+    ),
+    "llama4_json": (
+        "llama_tool_parser",
+        "Llama4JsonToolParser",
+    ),
+    "llama4_pythonic": (
+        "llama4_pythonic_tool_parser",
+        "Llama4PythonicToolParser",
+    ),
+    "longcat": (
+        "longcat_tool_parser",
+        "LongcatFlashToolParser",
+    ),
+    "minimax_m2": (
+        "minimax_m2_tool_parser",
+        "MinimaxM2ToolParser",
+    ),
+    "minimax": (
+        "minimax_tool_parser",
+        "MinimaxToolParser",
+    ),
+    "mistral": (
+        "mistral_tool_parser",
+        "MistralToolParser",
+    ),
+    "olmo3": (
+        "olmo3_tool_parser",
+        "Olmo3PythonicToolParser",
+    ),
+    "openai": (
+        "openai_tool_parser",
+        "OpenAIToolParser",
+    ),
+    "phi4_mini_json": (
+        "phi4mini_tool_parser",
+        "Phi4MiniJsonToolParser",
+    ),
+    "pythonic": (
+        "pythonic_tool_parser",
+        "PythonicToolParser",
+    ),
+    "qwen3_coder": (
+        "qwen3coder_tool_parser",
+        "Qwen3CoderToolParser",
+    ),
+    "qwen3_xml": (
+        "qwen3xml_tool_parser",
+        "Qwen3XmlToolParser",
+    ),
+    "seed_oss": (
+        "seed_oss_tool_parser",
+        "SeedOsSToolParser",
+    ),
+    "step3": (
+        "step3_tool_parser",
+        "Step3ToolParser",
+    ),
+    "xlam": (
+        "xlam_tool_parser",
+        "xLAMToolParser",
+    ),
+}
+
+
+def register_lazy_tool_parsers():
+    for name, (file_name, class_name) in _TOOL_PARSERS_TO_REGISTER.items():
+        module_path = f"vllm.entrypoints.openai.tool_parsers.{file_name}"
+        ToolParserManager.register_lazy_module(name, module_path, class_name)
+
+
+register_lazy_tool_parsers()
diff --git a/vllm/entrypoints/openai/tool_parsers/abstract_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/abstract_tool_parser.py
index 212326fdafb1e..8d520f5bf8ef6 100644
--- a/vllm/entrypoints/openai/tool_parsers/abstract_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/abstract_tool_parser.py
@@ -1,6 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
+import importlib
 import os
 from collections.abc import Callable, Sequence
 from functools import cached_property
@@ -99,89 +100,158 @@ class ToolParser:
 
 
 class ToolParserManager:
-    tool_parsers: dict[str, type] = {}
+    """
+    Central registry for ToolParser implementations.
+
+    Supports two modes:
+      - Eager (immediate) registration via `register_module`
+      - Lazy registration via `register_lazy_module`
+    """
+
+    tool_parsers: dict[str, type[ToolParser]] = {}
+    lazy_parsers: dict[str, tuple[str, str]] = {}  # name -> (module_path, class_name)
 
     @classmethod
-    def get_tool_parser(cls, name) -> type:
+    def get_tool_parser(cls, name: str) -> type[ToolParser]:
         """
-        Get tool parser by name which is registered by `register_module`.
+        Retrieve a registered or lazily registered ToolParser class.
 
-        Raise a KeyError exception if the name is not registered.
+        If the parser is lazily registered,
+        it will be imported and cached on first access.
+        Raises KeyError if not found.
         """
         if name in cls.tool_parsers:
             return cls.tool_parsers[name]
 
-        raise KeyError(f"tool helper: '{name}' not found in tool_parsers")
+        if name in cls.lazy_parsers:
+            return cls._load_lazy_parser(name)
+
+        raise KeyError(f"Tool parser '{name}' not found.")
+
+    @classmethod
+    def _load_lazy_parser(cls, name: str) -> type[ToolParser]:
+        """Import and register a lazily loaded parser."""
+        module_path, class_name = cls.lazy_parsers[name]
+        try:
+            mod = importlib.import_module(module_path)
+            parser_cls = getattr(mod, class_name)
+            if not issubclass(parser_cls, ToolParser):
+                raise TypeError(
+                    f"{class_name} in {module_path} is not a ToolParser subclass."
+                )
+            cls.tool_parsers[name] = parser_cls  # cache
+            return parser_cls
+        except Exception as e:
+            logger.exception(
+                "Failed to import lazy tool parser '%s' from %s: %s",
+                name,
+                module_path,
+                e,
+            )
+            raise
 
     @classmethod
     def _register_module(
         cls,
-        module: type,
+        module: type[ToolParser],
         module_name: str | list[str] | None = None,
         force: bool = True,
     ) -> None:
+        """Register a ToolParser class immediately."""
         if not issubclass(module, ToolParser):
             raise TypeError(
                 f"module must be subclass of ToolParser, but got {type(module)}"
             )
+
         if module_name is None:
             module_name = module.__name__
+
         if isinstance(module_name, str):
-            module_name = [module_name]
-        for name in module_name:
+            module_names = [module_name]
+        elif is_list_of(module_name, str):
+            module_names = module_name
+        else:
+            raise TypeError("module_name must be str, list[str], or None.")
+
+        for name in module_names:
             if not force and name in cls.tool_parsers:
-                existed_module = cls.tool_parsers[name]
-                raise KeyError(
-                    f"{name} is already registered at {existed_module.__module__}"
-                )
+                existed = cls.tool_parsers[name]
+                raise KeyError(f"{name} is already registered at {existed.__module__}")
             cls.tool_parsers[name] = module
 
+    @classmethod
+    def register_lazy_module(cls, name: str, module_path: str, class_name: str) -> None:
+        """
+        Register a lazy module mapping.
+
+        Example:
+            ToolParserManager.register_lazy_module(
+                name="kimi_k2",
+                module_path="vllm.entrypoints.openai.tool_parsers.kimi_k2_parser",
+                class_name="KimiK2ToolParser",
+            )
+        """
+        cls.lazy_parsers[name] = (module_path, class_name)
+
     @classmethod
     def register_module(
         cls,
         name: str | list[str] | None = None,
         force: bool = True,
-        module: type | None = None,
-    ) -> type | Callable:
+        module: type[ToolParser] | None = None,
+    ) -> type[ToolParser] | Callable[[type[ToolParser]], type[ToolParser]]:
         """
-        Register module with the given name or name list. it can be used as a
-        decoder(with module as None) or normal function(with module as not
-        None).
+        Register module immediately or lazily (as a decorator).
+
+        Usage:
+            @ToolParserManager.register_module("kimi_k2")
+            class KimiK2ToolParser(ToolParser):
+                ...
+
+        Or:
+            ToolParserManager.register_module(module=SomeToolParser)
         """
         if not isinstance(force, bool):
             raise TypeError(f"force must be a boolean, but got {type(force)}")
 
-        # raise the error ahead of time
-        if not (name is None or isinstance(name, str) or is_list_of(name, str)):
-            raise TypeError(
-                "name must be None, an instance of str, or a sequence of str, "
-                f"but got {type(name)}"
-            )
-
-        # use it as a normal method: x.register_module(module=SomeClass)
+        # Immediate registration
         if module is not None:
             cls._register_module(module=module, module_name=name, force=force)
             return module
 
-        # use it as a decorator: @x.register_module()
-        def _register(module):
-            cls._register_module(module=module, module_name=name, force=force)
-            return module
+        # Decorator usage
+        def _decorator(obj: type[ToolParser]) -> type[ToolParser]:
+            module_path = obj.__module__
+            class_name = obj.__name__
 
-        return _register
+            if isinstance(name, str):
+                names = [name]
+            elif is_list_of(name, str):
+                names = name
+            else:
+                names = [class_name]
+
+            for n in names:
+                # Lazy mapping only: do not import now
+                cls.lazy_parsers[n] = (module_path, class_name)
+
+            return obj
+
+        return _decorator
+
+    @classmethod
+    def list_registered(cls) -> list[str]:
+        """Return names of all eagerly and lazily registered tool parsers."""
+        return sorted(set(cls.tool_parsers.keys()) | set(cls.lazy_parsers.keys()))
 
     @classmethod
     def import_tool_parser(cls, plugin_path: str) -> None:
-        """
-        Import a user-defined tool parser by the path of the tool parser define
-        file.
-        """
-        module_name = os.path.splitext(os.path.basename(plugin_path))[0]
+        """Import a user-defined parser file from arbitrary path."""
 
+        module_name = os.path.splitext(os.path.basename(plugin_path))[0]
         try:
             import_from_path(module_name, plugin_path)
         except Exception:
             logger.exception(
                 "Failed to load module '%s' from %s.", module_name, plugin_path
             )
-            return
diff --git a/vllm/entrypoints/openai/tool_parsers/deepseekv31_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/deepseekv31_tool_parser.py
index 14fd5cf0941c6..cbeb879969ece 100644
--- a/vllm/entrypoints/openai/tool_parsers/deepseekv31_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/deepseekv31_tool_parser.py
@@ -17,7 +17,6 @@ from vllm.entrypoints.openai.protocol import (
 )
 from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
     ToolParser,
-    ToolParserManager,
 )
 from vllm.logger import init_logger
 from vllm.transformers_utils.tokenizer import AnyTokenizer
@@ -25,7 +24,6 @@ from vllm.transformers_utils.tokenizer import AnyTokenizer
 logger = init_logger(__name__)
 
 
-@ToolParserManager.register_module("deepseek_v31")
 class DeepSeekV31ToolParser(ToolParser):
     def __init__(self, tokenizer: AnyTokenizer):
         super().__init__(tokenizer)
diff --git a/vllm/entrypoints/openai/tool_parsers/deepseekv3_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/deepseekv3_tool_parser.py
index b256560fb4beb..bf7f6fa61ab90 100644
--- a/vllm/entrypoints/openai/tool_parsers/deepseekv3_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/deepseekv3_tool_parser.py
@@ -17,7 +17,6 @@ from vllm.entrypoints.openai.protocol import (
 )
 from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
     ToolParser,
-    ToolParserManager,
 )
 from vllm.logger import init_logger
 from vllm.transformers_utils.tokenizer import AnyTokenizer
@@ -25,7 +24,6 @@ from vllm.transformers_utils.tokenizer import AnyTokenizer
 logger = init_logger(__name__)
 
 
-@ToolParserManager.register_module("deepseek_v3")
 class DeepSeekV3ToolParser(ToolParser):
     def __init__(self, tokenizer: AnyTokenizer):
         super().__init__(tokenizer)
diff --git a/vllm/entrypoints/openai/tool_parsers/ernie45_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/ernie45_tool_parser.py
index e4696334eb135..82370323cb00d 100644
--- a/vllm/entrypoints/openai/tool_parsers/ernie45_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/ernie45_tool_parser.py
@@ -17,7 +17,6 @@ from vllm.entrypoints.openai.protocol import (
 )
 from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
     ToolParser,
-    ToolParserManager,
 )
 from vllm.logger import init_logger
 from vllm.transformers_utils.tokenizer import AnyTokenizer
@@ -25,7 +24,6 @@ from vllm.transformers_utils.tokenizer import AnyTokenizer
 logger = init_logger(__name__)
 
 
-@ToolParserManager.register_module("ernie45")
 class Ernie45ToolParser(ToolParser):
     def __init__(self, tokenizer: AnyTokenizer):
         """
diff --git a/vllm/entrypoints/openai/tool_parsers/glm4_moe_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/glm4_moe_tool_parser.py
index 5081b38240ce6..120e63b929b16 100644
--- a/vllm/entrypoints/openai/tool_parsers/glm4_moe_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/glm4_moe_tool_parser.py
@@ -20,7 +20,6 @@ from vllm.entrypoints.openai.protocol import (
 )
 from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
     ToolParser,
-    ToolParserManager,
 )
 from vllm.logger import init_logger
 from vllm.transformers_utils.tokenizer import AnyTokenizer
@@ -28,7 +27,6 @@ from vllm.transformers_utils.tokenizer import AnyTokenizer
 logger = init_logger(__name__)
 
 
-@ToolParserManager.register_module("glm45")
 class Glm4MoeModelToolParser(ToolParser):
     def __init__(self, tokenizer: AnyTokenizer):
         super().__init__(tokenizer)
diff --git a/vllm/entrypoints/openai/tool_parsers/granite_20b_fc_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/granite_20b_fc_tool_parser.py
index c5246685f4071..ae9217426fb51 100644
--- a/vllm/entrypoints/openai/tool_parsers/granite_20b_fc_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/granite_20b_fc_tool_parser.py
@@ -21,7 +21,6 @@ from vllm.entrypoints.openai.protocol import (
 )
 from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
     ToolParser,
-    ToolParserManager,
 )
 from vllm.entrypoints.openai.tool_parsers.utils import (
     consume_space,
@@ -35,7 +34,6 @@ from vllm.transformers_utils.tokenizer import AnyTokenizer
 logger = init_logger(__name__)
 
 
-@ToolParserManager.register_module("granite-20b-fc")
 class Granite20bFCToolParser(ToolParser):
     """
     Tool call parser for the granite-20b-functioncalling model intended
diff --git a/vllm/entrypoints/openai/tool_parsers/granite_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/granite_tool_parser.py
index cc1f500342353..d29c427694dc9 100644
--- a/vllm/entrypoints/openai/tool_parsers/granite_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/granite_tool_parser.py
@@ -19,7 +19,6 @@ from vllm.entrypoints.openai.protocol import (
 )
 from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
     ToolParser,
-    ToolParserManager,
 )
 from vllm.entrypoints.openai.tool_parsers.utils import (
     consume_space,
@@ -33,7 +32,6 @@ from vllm.transformers_utils.tokenizer import AnyTokenizer
 logger = init_logger(__name__)
 
 
-@ToolParserManager.register_module("granite")
 class GraniteToolParser(ToolParser):
     """
     Tool call parser for the granite 3.0 models. Intended
diff --git a/vllm/entrypoints/openai/tool_parsers/hermes_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/hermes_tool_parser.py
index 6332de42f424e..4336a5438109f 100644
--- a/vllm/entrypoints/openai/tool_parsers/hermes_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/hermes_tool_parser.py
@@ -20,7 +20,6 @@ from vllm.entrypoints.openai.protocol import (
 )
 from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
     ToolParser,
-    ToolParserManager,
 )
 from vllm.logger import init_logger
 from vllm.transformers_utils.tokenizer import AnyTokenizer, MistralTokenizer
@@ -28,7 +27,6 @@ from vllm.transformers_utils.tokenizer import AnyTokenizer, MistralTokenizer
 logger = init_logger(__name__)
 
 
-@ToolParserManager.register_module("hermes")
 class Hermes2ProToolParser(ToolParser):
     def __init__(self, tokenizer: AnyTokenizer):
         super().__init__(tokenizer)
diff --git a/vllm/entrypoints/openai/tool_parsers/hunyuan_a13b_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/hunyuan_a13b_tool_parser.py
index b32e6e39b3e5c..920675c8389b8 100644
--- a/vllm/entrypoints/openai/tool_parsers/hunyuan_a13b_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/hunyuan_a13b_tool_parser.py
@@ -19,7 +19,6 @@ from vllm.entrypoints.openai.protocol import (
 )
 from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
     ToolParser,
-    ToolParserManager,
 )
 from vllm.entrypoints.openai.tool_parsers.utils import consume_space
 from vllm.logger import init_logger
@@ -29,7 +28,6 @@ from vllm.utils import random_uuid
 logger = init_logger(__name__)
 
 
-@ToolParserManager.register_module("hunyuan_a13b")
 class HunyuanA13BToolParser(ToolParser):
     def __init__(self, tokenizer: AnyTokenizer):
         super().__init__(tokenizer)
diff --git a/vllm/entrypoints/openai/tool_parsers/internlm2_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/internlm2_tool_parser.py
index c87bab4353b5b..1dd327f645b3a 100644
--- a/vllm/entrypoints/openai/tool_parsers/internlm2_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/internlm2_tool_parser.py
@@ -19,7 +19,6 @@ from vllm.entrypoints.openai.protocol import (
 )
 from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
     ToolParser,
-    ToolParserManager,
 )
 from vllm.entrypoints.openai.tool_parsers.utils import extract_intermediate_diff
 from vllm.logger import init_logger
@@ -28,7 +27,6 @@ from vllm.transformers_utils.tokenizer import AnyTokenizer
 logger = init_logger(__name__)
 
 
-@ToolParserManager.register_module(["internlm"])
 class Internlm2ToolParser(ToolParser):
     def __init__(self, tokenizer: AnyTokenizer):
         super().__init__(tokenizer)
diff --git a/vllm/entrypoints/openai/tool_parsers/jamba_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/jamba_tool_parser.py
index 21ee2b762cd0a..6f53ddea4f0ef 100644
--- a/vllm/entrypoints/openai/tool_parsers/jamba_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/jamba_tool_parser.py
@@ -18,7 +18,7 @@ from vllm.entrypoints.openai.protocol import (
     FunctionCall,
     ToolCall,
 )
-from vllm.entrypoints.openai.tool_parsers import ToolParser, ToolParserManager
+from vllm.entrypoints.openai.tool_parsers import ToolParser
 from vllm.entrypoints.openai.tool_parsers.utils import extract_intermediate_diff
 from vllm.logger import init_logger
 from vllm.transformers_utils.tokenizer import AnyTokenizer
@@ -27,7 +27,6 @@ from vllm.transformers_utils.tokenizers import MistralTokenizer
 logger = init_logger(__name__)
 
 
-@ToolParserManager.register_module("jamba")
 class JambaToolParser(ToolParser):
     def __init__(self, tokenizer: AnyTokenizer):
         super().__init__(tokenizer)
diff --git a/vllm/entrypoints/openai/tool_parsers/kimi_k2_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/kimi_k2_tool_parser.py
index 3fff3b371dbe3..0453db58361a9 100644
--- a/vllm/entrypoints/openai/tool_parsers/kimi_k2_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/kimi_k2_tool_parser.py
@@ -17,7 +17,6 @@ from vllm.entrypoints.openai.protocol import (
 )
 from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
     ToolParser,
-    ToolParserManager,
 )
 from vllm.logger import init_logger
 from vllm.transformers_utils.tokenizer import AnyTokenizer
@@ -25,7 +24,6 @@ from vllm.transformers_utils.tokenizer import AnyTokenizer
 logger = init_logger(__name__)
 
 
-@ToolParserManager.register_module(["kimi_k2"])
 class KimiK2ToolParser(ToolParser):
     def __init__(self, tokenizer: AnyTokenizer):
         super().__init__(tokenizer)
diff --git a/vllm/entrypoints/openai/tool_parsers/llama4_pythonic_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/llama4_pythonic_tool_parser.py
index dd622b69525de..1d6de9244066e 100644
--- a/vllm/entrypoints/openai/tool_parsers/llama4_pythonic_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/llama4_pythonic_tool_parser.py
@@ -20,7 +20,6 @@ from vllm.entrypoints.openai.protocol import (
 )
 from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
     ToolParser,
-    ToolParserManager,
 )
 from vllm.logger import init_logger
 
@@ -31,7 +30,6 @@ class _UnexpectedAstError(Exception):
     pass
 
 
-@ToolParserManager.register_module("llama4_pythonic")
 class Llama4PythonicToolParser(ToolParser):
     """
     Toolcall parser for Llama4 that produce tool calls in a pythonic style
diff --git a/vllm/entrypoints/openai/tool_parsers/llama_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/llama_tool_parser.py
index 8c7b3cefb200e..02fc9b8a4d34e 100644
--- a/vllm/entrypoints/openai/tool_parsers/llama_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/llama_tool_parser.py
@@ -21,7 +21,6 @@ from vllm.entrypoints.openai.protocol import (
 )
 from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
     ToolParser,
-    ToolParserManager,
 )
 from vllm.entrypoints.openai.tool_parsers.utils import (
     find_common_prefix,
@@ -33,8 +32,6 @@ from vllm.logger import init_logger
 logger = init_logger(__name__)
 
 
-@ToolParserManager.register_module("llama3_json")
-@ToolParserManager.register_module("llama4_json")
 class Llama3JsonToolParser(ToolParser):
     """
     Tool call parser for Llama 3.x and 4 models intended for use with the
diff --git a/vllm/entrypoints/openai/tool_parsers/longcat_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/longcat_tool_parser.py
index 1dc1a0290c8d9..c6c8ae8ae95f1 100644
--- a/vllm/entrypoints/openai/tool_parsers/longcat_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/longcat_tool_parser.py
@@ -3,12 +3,10 @@
 
 import regex as re
 
-from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import ToolParserManager
 from vllm.entrypoints.openai.tool_parsers.hermes_tool_parser import Hermes2ProToolParser
 from vllm.transformers_utils.tokenizer import AnyTokenizer
 
 
-@ToolParserManager.register_module("longcat")
 class LongcatFlashToolParser(Hermes2ProToolParser):
     def __init__(self, tokenizer: AnyTokenizer):
         super().__init__(tokenizer)
diff --git a/vllm/entrypoints/openai/tool_parsers/minimax_m2_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/minimax_m2_tool_parser.py
index d083ece892d50..05f4826028c12 100644
--- a/vllm/entrypoints/openai/tool_parsers/minimax_m2_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/minimax_m2_tool_parser.py
@@ -19,7 +19,6 @@ from vllm.entrypoints.openai.protocol import (
 )
 from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
     ToolParser,
-    ToolParserManager,
 )
 from vllm.logger import init_logger
 from vllm.transformers_utils.tokenizer import AnyTokenizer
@@ -27,7 +26,6 @@ from vllm.transformers_utils.tokenizer import AnyTokenizer
 logger = init_logger(__name__)
 
 
-@ToolParserManager.register_module("minimax_m2")
 class MinimaxM2ToolParser(ToolParser):
     def __init__(self, tokenizer: AnyTokenizer):
         super().__init__(tokenizer)
diff --git a/vllm/entrypoints/openai/tool_parsers/minimax_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/minimax_tool_parser.py
index 4b12bf68b3670..982518a52e3da 100644
--- a/vllm/entrypoints/openai/tool_parsers/minimax_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/minimax_tool_parser.py
@@ -19,7 +19,6 @@ from vllm.entrypoints.openai.protocol import (
 )
 from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
     ToolParser,
-    ToolParserManager,
 )
 from vllm.entrypoints.openai.tool_parsers.utils import extract_intermediate_diff
 from vllm.logger import init_logger
@@ -28,7 +27,6 @@ from vllm.transformers_utils.tokenizer import AnyTokenizer
 logger = init_logger(__name__)
 
 
-@ToolParserManager.register_module("minimax")
 class MinimaxToolParser(ToolParser):
     def __init__(self, tokenizer: AnyTokenizer):
         super().__init__(tokenizer)
diff --git a/vllm/entrypoints/openai/tool_parsers/mistral_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/mistral_tool_parser.py
index dbdf0085367bc..85671271522d3 100644
--- a/vllm/entrypoints/openai/tool_parsers/mistral_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/mistral_tool_parser.py
@@ -22,7 +22,6 @@ from vllm.entrypoints.openai.protocol import (
 )
 from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
     ToolParser,
-    ToolParserManager,
 )
 from vllm.entrypoints.openai.tool_parsers.utils import extract_intermediate_diff
 from vllm.logger import init_logger
@@ -53,7 +52,6 @@ def _is_fn_name_regex_support(model_tokenizer: AnyTokenizer) -> bool:
     )
 
 
-@ToolParserManager.register_module("mistral")
 class MistralToolParser(ToolParser):
     """
     Tool call parser for Mistral 7B Instruct v0.3, intended for use with
diff --git a/vllm/entrypoints/openai/tool_parsers/olmo3_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/olmo3_tool_parser.py
index ed5633aac02d4..baff33bd7e8ac 100644
--- a/vllm/entrypoints/openai/tool_parsers/olmo3_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/olmo3_tool_parser.py
@@ -20,7 +20,6 @@ from vllm.entrypoints.openai.protocol import (
 )
 from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
     ToolParser,
-    ToolParserManager,
 )
 from vllm.logger import init_logger
 
@@ -31,7 +30,6 @@ class _UnexpectedAstError(Exception):
     pass
 
 
-@ToolParserManager.register_module("olmo3")
 class Olmo3PythonicToolParser(ToolParser):
     """
     Tool call parser for Olmo 3 models that produce tool calls as
diff --git a/vllm/entrypoints/openai/tool_parsers/openai_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/openai_tool_parser.py
index f44876943ac28..d1b36a297e0b1 100644
--- a/vllm/entrypoints/openai/tool_parsers/openai_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/openai_tool_parser.py
@@ -14,7 +14,6 @@ from vllm.entrypoints.openai.protocol import (
 )
 from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
     ToolParser,
-    ToolParserManager,
 )
 from vllm.logger import init_logger
 
@@ -26,7 +25,6 @@ else:
 logger = init_logger(__name__)
 
 
-@ToolParserManager.register_module("openai")
 class OpenAIToolParser(ToolParser):
     def __init__(self, tokenizer: "AnyTokenizer"):
         super().__init__(tokenizer)
diff --git a/vllm/entrypoints/openai/tool_parsers/phi4mini_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/phi4mini_tool_parser.py
index a8387ba1494df..acb25ea2768e1 100644
--- a/vllm/entrypoints/openai/tool_parsers/phi4mini_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/phi4mini_tool_parser.py
@@ -18,14 +18,12 @@ from vllm.entrypoints.openai.protocol import (
 )
 from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
     ToolParser,
-    ToolParserManager,
 )
 from vllm.logger import init_logger
 
 logger = init_logger(__name__)
 
 
-@ToolParserManager.register_module("phi4_mini_json")
 class Phi4MiniJsonToolParser(ToolParser):
     """
     Tool call parser for phi-4-mini models intended for use with the
diff --git a/vllm/entrypoints/openai/tool_parsers/pythonic_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/pythonic_tool_parser.py
index 4945e7b5ab20a..abeb923b93227 100644
--- a/vllm/entrypoints/openai/tool_parsers/pythonic_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/pythonic_tool_parser.py
@@ -21,7 +21,6 @@ from vllm.entrypoints.openai.protocol import (
 )
 from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
     ToolParser,
-    ToolParserManager,
 )
 from vllm.logger import init_logger
 
@@ -32,7 +31,6 @@ class _UnexpectedAstError(Exception):
     pass
 
 
-@ToolParserManager.register_module("pythonic")
 class PythonicToolParser(ToolParser):
     """
     Tool call parser for models that produce tool calls in a pythonic style,
diff --git a/vllm/entrypoints/openai/tool_parsers/qwen3coder_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/qwen3coder_tool_parser.py
index ad56972e6387e..26261c0065ead 100644
--- a/vllm/entrypoints/openai/tool_parsers/qwen3coder_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/qwen3coder_tool_parser.py
@@ -20,7 +20,6 @@ from vllm.entrypoints.openai.protocol import (
 )
 from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
     ToolParser,
-    ToolParserManager,
 )
 from vllm.logger import init_logger
 from vllm.transformers_utils.tokenizer import AnyTokenizer
@@ -28,7 +27,6 @@ from vllm.transformers_utils.tokenizer import AnyTokenizer
 logger = init_logger(__name__)
 
 
-@ToolParserManager.register_module("qwen3_coder")
 class Qwen3CoderToolParser(ToolParser):
     def __init__(self, tokenizer: AnyTokenizer):
         super().__init__(tokenizer)
diff --git a/vllm/entrypoints/openai/tool_parsers/qwen3xml_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/qwen3xml_tool_parser.py
index 9964d1ac25c40..cf2fa30d01547 100644
--- a/vllm/entrypoints/openai/tool_parsers/qwen3xml_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/qwen3xml_tool_parser.py
@@ -21,7 +21,6 @@ from vllm.entrypoints.openai.protocol import (
 )
 from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
     ToolParser,
-    ToolParserManager,
 )
 from vllm.logger import init_logger
 from vllm.transformers_utils.tokenizer import AnyTokenizer
@@ -1165,7 +1164,6 @@ class StreamingXMLToolCallParser:
         self.deferred_param_raw_value = ""
 
 
-@ToolParserManager.register_module("qwen3_xml")
 class Qwen3XMLToolParser(ToolParser):
     def __init__(self, tokenizer: AnyTokenizer):
         super().__init__(tokenizer)
diff --git a/vllm/entrypoints/openai/tool_parsers/seed_oss_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/seed_oss_tool_parser.py
index f50a2df53bc04..8aed7f0e9fc96 100644
--- a/vllm/entrypoints/openai/tool_parsers/seed_oss_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/seed_oss_tool_parser.py
@@ -23,7 +23,6 @@ from vllm.entrypoints.openai.protocol import (
 )
 from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
     ToolParser,
-    ToolParserManager,
 )
 from vllm.logger import init_logger
 from vllm.transformers_utils.tokenizer import AnyTokenizer
@@ -31,7 +30,6 @@ from vllm.transformers_utils.tokenizer import AnyTokenizer
 logger = init_logger(__name__)
 
 
-@ToolParserManager.register_module("seed_oss")
 class SeedOssToolParser(ToolParser):
     TOOL_CALL_START = "<seed:tool_call>"
     TOOL_CALL_END = "</seed:tool_call>"
diff --git a/vllm/entrypoints/openai/tool_parsers/step3_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/step3_tool_parser.py
index d0255ec085391..adcb9f4765473 100644
--- a/vllm/entrypoints/openai/tool_parsers/step3_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/step3_tool_parser.py
@@ -19,7 +19,6 @@ from vllm.entrypoints.openai.protocol import (
 )
 from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
     ToolParser,
-    ToolParserManager,
 )
 from vllm.logger import init_logger
 from vllm.transformers_utils.tokenizer import AnyTokenizer
@@ -28,7 +27,6 @@ from vllm.utils import random_uuid
 logger = init_logger(__name__)
 
 
-@ToolParserManager.register_module(["step3"])
 class Step3ToolParser(ToolParser):
     """
     Tool parser for a model that uses a specific XML-like format for tool calls.
diff --git a/vllm/entrypoints/openai/tool_parsers/xlam_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/xlam_tool_parser.py
index c1f0d29cc0873..9d308af4de601 100644
--- a/vllm/entrypoints/openai/tool_parsers/xlam_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/xlam_tool_parser.py
@@ -19,7 +19,6 @@ from vllm.entrypoints.openai.protocol import (
 )
 from vllm.entrypoints.openai.tool_parsers.abstract_tool_parser import (
     ToolParser,
-    ToolParserManager,
 )
 from vllm.logger import init_logger
 from vllm.transformers_utils.tokenizer import AnyTokenizer
@@ -28,7 +27,6 @@ from vllm.utils import random_uuid
 logger = init_logger(__name__)
 
 
-@ToolParserManager.register_module("xlam")
 class xLAMToolParser(ToolParser):
     def __init__(self, tokenizer: AnyTokenizer):
         super().__init__(tokenizer)

From 14a125a06df7275923fe9748f67e27e449412d1f Mon Sep 17 00:00:00 2001
From: liuzhenwei <zhenwei.liu@intel.com>
Date: Tue, 4 Nov 2025 11:28:35 +0800
Subject: [PATCH 108/976] [NIXL][XPU] Pin NIXL version to 0.7.0 (#27849)

Signed-off-by: zhenwei-intel <zhenwei.liu@intel.com>
---
 tools/install_nixl_from_source_ubuntu.py | 31 ++++++++++++++++++++++--
 1 file changed, 29 insertions(+), 2 deletions(-)

diff --git a/tools/install_nixl_from_source_ubuntu.py b/tools/install_nixl_from_source_ubuntu.py
index 742aab6b0de75..4a20b6b7bb8fb 100644
--- a/tools/install_nixl_from_source_ubuntu.py
+++ b/tools/install_nixl_from_source_ubuntu.py
@@ -3,9 +3,11 @@
 # install_prerequisites.py
 import argparse
 import glob
+import json
 import os
 import subprocess
 import sys
+import urllib.request
 
 # --- Configuration ---
 WHEELS_CACHE_HOME = os.environ.get("WHEELS_CACHE_HOME", "/tmp/wheels_cache")
@@ -18,6 +20,20 @@ NIXL_REPO_URL = "https://github.com/ai-dynamo/nixl.git"
 
 
 # --- Helper Functions ---
+def get_latest_nixl_version():
+    """Helper function to get latest release version of NIXL"""
+    try:
+        nixl_release_url = "https://api.github.com/repos/ai-dynamo/nixl/releases/latest"
+        with urllib.request.urlopen(nixl_release_url) as response:
+            data = json.load(response)
+            return data.get("tag_name", "0.7.0")
+    except Exception:
+        return "0.7.0"
+
+
+NIXL_VERSION = os.environ.get("NIXL_VERSION", get_latest_nixl_version())
+
+
 def run_command(command, cwd=".", env=None):
     """Helper function to run a shell command and check for errors."""
     print(f"--> Running command: {' '.join(command)} in '{cwd}'", flush=True)
@@ -37,7 +53,7 @@ def is_pip_package_installed(package_name):
 def find_nixl_wheel_in_cache(cache_dir):
     """Finds a nixl wheel file in the specified cache directory."""
     # The repaired wheel will have a 'manylinux' tag, but this glob still works.
-    search_pattern = os.path.join(cache_dir, "nixl*.whl")
+    search_pattern = os.path.join(cache_dir, f"nixl*{NIXL_VERSION}*.whl")
     wheels = glob.glob(search_pattern)
     if wheels:
         # Sort to get the most recent/highest version if multiple exist
@@ -146,6 +162,10 @@ def build_and_install_prerequisites(args):
     print("\n[2/3] Building NIXL wheel from source...", flush=True)
     if not os.path.exists(NIXL_DIR):
         run_command(["git", "clone", NIXL_REPO_URL, NIXL_DIR])
+    else:
+        run_command(["git", "fetch", "--tags"], cwd=NIXL_DIR)
+    run_command(["git", "checkout", NIXL_VERSION], cwd=NIXL_DIR)
+    print(f"--> Checked out NIXL version: {NIXL_VERSION}", flush=True)
 
     build_env = os.environ.copy()
     build_env["PKG_CONFIG_PATH"] = os.path.join(ucx_install_path, "lib", "pkgconfig")
@@ -203,7 +223,14 @@ def build_and_install_prerequisites(args):
             {os.path.basename(newly_built_wheel)}. Now installing...",
         flush=True,
     )
-    install_command = [sys.executable, "-m", "pip", "install", newly_built_wheel]
+    install_command = [
+        sys.executable,
+        "-m",
+        "pip",
+        "install",
+        "--no-deps",  # w/o "no-deps", it will install cuda-torch
+        newly_built_wheel,
+    ]
     if args.force_reinstall:
         install_command.insert(-1, "--force-reinstall")
 

From 380ba6816d4646be99d9b6d207ba7bc7fce8290e Mon Sep 17 00:00:00 2001
From: Mark McLoughlin <markmc@redhat.com>
Date: Tue, 4 Nov 2025 04:35:36 +0000
Subject: [PATCH 109/976] [Metrics] Enable sleep state metric outside of dev
 mode (#27867)

Signed-off-by: Mark McLoughlin <markmc@redhat.com>
---
 vllm/v1/metrics/loggers.py | 50 ++++++++++++++++++--------------------
 1 file changed, 23 insertions(+), 27 deletions(-)

diff --git a/vllm/v1/metrics/loggers.py b/vllm/v1/metrics/loggers.py
index 67b6ceaa847f6..e85f85bfb0aab 100644
--- a/vllm/v1/metrics/loggers.py
+++ b/vllm/v1/metrics/loggers.py
@@ -9,7 +9,6 @@ from typing import TypeAlias
 
 from prometheus_client import Counter, Gauge, Histogram
 
-import vllm.envs as envs
 from vllm.config import SupportsMetricsInfo, VllmConfig
 from vllm.distributed.kv_transfer.kv_connector.v1.metrics import (
     KVConnectorLogging,
@@ -395,32 +394,32 @@ class PrometheusStatLogger(AggregateStatLoggerBase):
         self.gauge_scheduler_waiting = make_per_engine(
             gauge_scheduler_waiting, engine_indexes, model_name
         )
-        if envs.VLLM_SERVER_DEV_MODE:
-            gauge_engine_sleep_state = self._gauge_cls(
-                name="vllm:engine_sleep_state",
-                documentation=(
-                    "Engine sleep state; awake = 0 means engine is sleeping; "
-                    "awake = 1 means engine is awake; "
-                    "weights_offloaded = 1 means sleep level 1; "
-                    "discard_all = 1 means sleep level 2."
-                ),
-                labelnames=labelnames + ["sleep_state"],
-                multiprocess_mode="mostrecent",
-            )
 
-            self.gauge_engine_sleep_state = {}
-            sleep_state = ["awake", "weights_offloaded", "discard_all"]
+        gauge_engine_sleep_state = self._gauge_cls(
+            name="vllm:engine_sleep_state",
+            documentation=(
+                "Engine sleep state; awake = 0 means engine is sleeping; "
+                "awake = 1 means engine is awake; "
+                "weights_offloaded = 1 means sleep level 1; "
+                "discard_all = 1 means sleep level 2."
+            ),
+            labelnames=labelnames + ["sleep_state"],
+            multiprocess_mode="mostrecent",
+        )
 
-            for s in sleep_state:
-                self.gauge_engine_sleep_state[s] = {
-                    idx: gauge_engine_sleep_state.labels(
-                        engine=idx, model_name=model_name, sleep_state=s
-                    )
-                    for idx in engine_indexes
-                }
+        self.gauge_engine_sleep_state = {}
+        sleep_state = ["awake", "weights_offloaded", "discard_all"]
 
-            # Setting default values
-            self.record_sleep_state()
+        for s in sleep_state:
+            self.gauge_engine_sleep_state[s] = {
+                idx: gauge_engine_sleep_state.labels(
+                    engine=idx, model_name=model_name, sleep_state=s
+                )
+                for idx in engine_indexes
+            }
+
+        # Setting default values
+        self.record_sleep_state()
 
         # GPU cache
         #
@@ -1052,9 +1051,6 @@ class PrometheusStatLogger(AggregateStatLoggerBase):
             self.gauge_lora_info.labels(**lora_info_labels).set_to_current_time()
 
     def record_sleep_state(self, sleep: int = 0, level: int = 0):
-        if not envs.VLLM_SERVER_DEV_MODE:
-            return
-
         awake = 1
         discard_all = 0
         weights_offloaded = 0

From 7e4be741044bfead91afc418100ff9a4d804bf7f Mon Sep 17 00:00:00 2001
From: Wentao Ye <44945378+yewentao256@users.noreply.github.com>
Date: Tue, 4 Nov 2025 01:05:55 -0500
Subject: [PATCH 110/976] [Bug] Batch invariant: Fix flash attn MLA
 `RuntimeError: scheduler_metadata must have shape (metadata_size)` (#27884)

---
 vllm/model_executor/layers/batch_invariant.py   | 2 ++
 vllm/v1/attention/backends/mla/flashattn_mla.py | 6 +++---
 2 files changed, 5 insertions(+), 3 deletions(-)

diff --git a/vllm/model_executor/layers/batch_invariant.py b/vllm/model_executor/layers/batch_invariant.py
index 39e77b935d3d5..0234f228d700a 100644
--- a/vllm/model_executor/layers/batch_invariant.py
+++ b/vllm/model_executor/layers/batch_invariant.py
@@ -1,6 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 import contextlib
+import functools
 import os
 from collections import namedtuple
 from collections.abc import Callable
@@ -846,6 +847,7 @@ def get_batch_invariant_attention_block_size() -> AttentionBlockSize:
     return AttentionBlockSize(block_m=16, block_n=16)
 
 
+@functools.cache
 def vllm_is_batch_invariant():
     env_key = "VLLM_BATCH_INVARIANT"
     is_overridden = False
diff --git a/vllm/v1/attention/backends/mla/flashattn_mla.py b/vllm/v1/attention/backends/mla/flashattn_mla.py
index a6aac701b784b..6baf45efccb54 100644
--- a/vllm/v1/attention/backends/mla/flashattn_mla.py
+++ b/vllm/v1/attention/backends/mla/flashattn_mla.py
@@ -163,6 +163,9 @@ class FlashAttnMLAMetadataBuilder(MLACommonMetadataBuilder[FlashAttnMLAMetadata]
             # we only set num_splits when using cuda graphs.
             max_num_splits = self.max_num_splits
 
+        if vllm_is_batch_invariant():
+            max_num_splits = 1
+
         scheduler_metadata = self._schedule_decode(
             num_reqs=seq_lens_cpu.numel(),
             cu_query_lens=query_start_loc_device,
@@ -188,9 +191,6 @@ class FlashAttnMLAMetadataBuilder(MLACommonMetadataBuilder[FlashAttnMLAMetadata]
             self.scheduler_metadata[n:] = 0
             scheduler_metadata = self.scheduler_metadata[:n]
 
-        if vllm_is_batch_invariant():
-            max_num_splits = 1
-
         metadata = FlashAttnMLADecodeMetadata(
             block_table=block_table_tensor,
             seq_lens=seq_lens_device,

From f32cbc9a0c456966df300076a3a9f2889151b024 Mon Sep 17 00:00:00 2001
From: xiangze-arm <Xiangze.Zhang@arm.com>
Date: Tue, 4 Nov 2025 14:33:23 +0800
Subject: [PATCH 111/976] [CPU]Improve dynamic 4bit moe performance (#27240)

Signed-off-by: Zhang Xiangze <Xiangze.Zhang@arm.com>
---
 csrc/moe/dynamic_4bit_int_moe_cpu.cpp | 33 ++++++++++-----------------
 1 file changed, 12 insertions(+), 21 deletions(-)

diff --git a/csrc/moe/dynamic_4bit_int_moe_cpu.cpp b/csrc/moe/dynamic_4bit_int_moe_cpu.cpp
index 1d06fc6b5b0a0..df47bb8dd1d7d 100644
--- a/csrc/moe/dynamic_4bit_int_moe_cpu.cpp
+++ b/csrc/moe/dynamic_4bit_int_moe_cpu.cpp
@@ -87,30 +87,23 @@ torch::Tensor dynamic_4bit_int_moe_cpu(
   const int64_t g_eff_13 = (group_size != -1) ? group_size : H;
   const int64_t g_eff_2 = (group_size != -1) ? group_size : I;
 
-  // Per-expert outputs filled in parallel
-  std::vector<torch::Tensor> y_list(E);
-  y_list.resize(E);
+  auto X_all = x_c.index_select(/*dim=*/0, expert_tokens);
+  if (apply_router_weight_on_input) {
+    X_all = X_all.mul(expert_gates.unsqueeze(1));
+  }
+  auto Y_all = at::empty({offsets[E], H}, x_c.options());
 
   at::parallel_for(0, E, 1, [&](int64_t e_begin, int64_t e_end) {
+    c10::InferenceMode guard;
     for (int64_t e = e_begin; e < e_end; ++e) {
       const int64_t te = counts[e];
       if (te == 0) {
-        y_list[e] = at::empty({0, H}, x_c.options());
         continue;
       }
 
       const int64_t start = offsets[e];
 
-      auto sel_tokens =
-          expert_tokens.narrow(/*dim=*/0, /*start=*/start, /*length=*/te);
-      auto gates_e =
-          expert_gates.narrow(/*dim=*/0, /*start=*/start, /*length=*/te);
-
-      auto x_e = x_c.index_select(/*dim=*/0, sel_tokens);
-
-      if (apply_router_weight_on_input) {
-        x_e = x_e.mul(gates_e.unsqueeze(1));
-      }
+      auto x_e = X_all.narrow(/*dim=*/0, /*start=*/start, /*length=*/te);
 
       auto w13_e = w13_packed.select(/*dim=*/0, e);
       auto w2_e = w2_packed.select(/*dim=*/0, e);
@@ -137,17 +130,15 @@ torch::Tensor dynamic_4bit_int_moe_cpu(
       // W2
       auto y = mm(act, w2_e, g_eff_2, /*in_features=*/I, /*out_features=*/H);
 
-      if (!apply_router_weight_on_input) {
-        y = y.mul(gates_e.unsqueeze(1));
-      }
-
       // Store per-expert result
-      y_list[e] = y;
+      Y_all.narrow(/*dim=*/0, /*start=*/start, /*length=*/te).copy_(y);
     }
   });
 
-  // Concatenate all expert outputs to match expert_tokens order
-  auto Y_all = at::cat(y_list, /*dim=*/0);
+  if (!apply_router_weight_on_input) {
+    Y_all = Y_all.mul(expert_gates.unsqueeze(1));
+  }
+
   auto out = at::zeros({T, H}, x.options());
   out =
       at::index_add(out, /*dim=*/0, /*index=*/expert_tokens, /*source=*/Y_all);

From 2f84ae1f27eb628a195ee9ccd4e884baeb451d1c Mon Sep 17 00:00:00 2001
From: Zhewen Li <zhewenli@meta.com>
Date: Mon, 3 Nov 2025 22:36:40 -0800
Subject: [PATCH 112/976] [CI/Build] Update LM Eval Version in AMD CI (#27944)

Signed-off-by: zhewenli <zhewenli@meta.com>
---
 docker/Dockerfile.rocm     |  1 -
 requirements/rocm-test.txt | 15 +++++++++------
 2 files changed, 9 insertions(+), 7 deletions(-)

diff --git a/docker/Dockerfile.rocm b/docker/Dockerfile.rocm
index adb0879f20d47..06d229f315bdc 100644
--- a/docker/Dockerfile.rocm
+++ b/docker/Dockerfile.rocm
@@ -75,7 +75,6 @@ COPY --from=build_vllm ${COMMON_WORKDIR}/vllm /vllm-workspace
 RUN cd /vllm-workspace \
     && rm -rf vllm \
     && python3 -m pip install -e tests/vllm_test_utils \
-    && python3 -m pip install lm-eval[api]==0.4.4 \
     && python3 -m pip install pytest-shard
 
 # -----------------------
diff --git a/requirements/rocm-test.txt b/requirements/rocm-test.txt
index 541fa1e267cb0..432e11977872d 100644
--- a/requirements/rocm-test.txt
+++ b/requirements/rocm-test.txt
@@ -4,7 +4,7 @@ tblib==3.1.0
 bm25s==0.2.13
 pystemmer==3.0.0
 
-# entrypoints test
+# Entrypoints test
 # librosa==0.10.2.post1 # required by audio tests in entrypoints/openai
 audioread==3.0.1
 cffi==1.17.1
@@ -17,11 +17,11 @@ soundfile==0.13.1
 soxr==0.5.0.post1
 librosa==0.10.2.post1
 
-# entrypoints test
+# Entrypoints test
 #vllm[video] # required by entrypoints/openai/test_video.py
 decord==0.6.0
 
-# entrypoints test
+# Entrypoints test
 #sentence-transformers # required by entrypoints/openai/test_score.py
 sentence-transformers==3.4.1
 
@@ -32,7 +32,10 @@ matplotlib==3.10.3
 blobfile==3.0.0
 
 # Required for openai schema test.
-schemathesis==3.39.15 
+schemathesis==3.39.15
 
-# required for mteb test
-mteb[bm25s]>=1.38.11, <2 
+# Required for mteb test
+mteb[bm25s]>=1.38.11, <2
+
+# Required for eval tests
+lm-eval[api] @ git+https://github.com/EleutherAI/lm-evaluation-harness.git@206b7722158f58c35b7ffcd53b035fdbdda5126d

From 58279c60b52c7e6e286799a313416949f43aeefe Mon Sep 17 00:00:00 2001
From: Mark McLoughlin <markmc@redhat.com>
Date: Tue, 4 Nov 2025 07:00:49 +0000
Subject: [PATCH 113/976] [KV Connector] Make KVCacheConfig an explicit
 constructor argument (#27887)

Signed-off-by: Mark McLoughlin <markmc@redhat.com>
---
 .../unit/test_backwards_compatibility.py      | 275 ++++++++++++++++++
 tests/v1/kv_connector/unit/utils.py           |   2 +-
 .../kv_transfer/kv_connector/factory.py       |  41 ++-
 .../kv_transfer/kv_connector/v1/base.py       |  16 +-
 .../kv_connector/v1/decode_bench_connector.py |  12 +-
 .../kv_connector/v1/lmcache_connector.py      |  12 +-
 .../kv_connector/v1/multi_connector.py        |  14 +-
 .../kv_connector/v1/nixl_connector.py         |  12 +-
 .../kv_connector/v1/offloading_connector.py   |  10 +-
 .../kv_connector/v1/p2p/p2p_nccl_connector.py |  16 +-
 .../v1/shared_storage_connector.py            |  16 +-
 .../kv_transfer/kv_transfer_state.py          |  11 +-
 vllm/v1/core/sched/scheduler.py               |  12 +-
 vllm/v1/worker/gpu_worker.py                  |   4 +-
 14 files changed, 410 insertions(+), 43 deletions(-)
 create mode 100644 tests/v1/kv_connector/unit/test_backwards_compatibility.py

diff --git a/tests/v1/kv_connector/unit/test_backwards_compatibility.py b/tests/v1/kv_connector/unit/test_backwards_compatibility.py
new file mode 100644
index 0000000000000..f51001a6ec12a
--- /dev/null
+++ b/tests/v1/kv_connector/unit/test_backwards_compatibility.py
@@ -0,0 +1,275 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+Unit tests for backwards compatibility with external KV connector implementations.
+
+This test ensures that external connectors (loaded via kv_connector_module_path)
+implemented with the old signature continue to work:
+- Old signature: __init__(self, vllm_config, role)
+- New signature: __init__(self, vllm_config, role, kv_cache_config)
+"""
+
+from typing import TYPE_CHECKING
+from unittest.mock import patch
+
+import pytest
+
+from vllm.distributed.kv_transfer.kv_connector.factory import KVConnectorFactory
+from vllm.distributed.kv_transfer.kv_connector.v1 import (
+    KVConnectorBase_V1,
+    KVConnectorRole,
+)
+from vllm.v1.core.sched.output import SchedulerOutput
+
+from .utils import create_scheduler, create_vllm_config
+
+if TYPE_CHECKING:
+    from vllm.attention.backends.abstract import AttentionMetadata
+    from vllm.config import VllmConfig
+    from vllm.forward_context import ForwardContext
+    from vllm.v1.core.kv_cache_manager import KVCacheBlocks
+    from vllm.v1.kv_cache_interface import KVCacheConfig
+    from vllm.v1.request import Request
+
+
+class OldStyleTestConnector(KVConnectorBase_V1):
+    """
+    Test connector using the old signature with 2 required arguments.
+    This simulates external connectors that haven't been updated yet.
+    """
+
+    def __init__(self, vllm_config: "VllmConfig", role: KVConnectorRole):
+        # Old-style call to super().__init__ with only 2 arguments
+        super().__init__(vllm_config=vllm_config, role=role)
+
+    def get_num_new_matched_tokens(
+        self, request: "Request", num_computed_tokens: int
+    ) -> tuple[int | None, bool]:
+        return 0, False
+
+    def update_state_after_alloc(
+        self,
+        request: "Request",
+        blocks: "KVCacheBlocks",
+        num_external_tokens: int,
+    ):
+        pass
+
+    def build_connector_meta(self, scheduler_output: SchedulerOutput):
+        return None
+
+    def start_load_kv(self, forward_context: "ForwardContext", **kwargs) -> None:
+        pass
+
+    def wait_for_layer_load(self, layer_name: str) -> None:
+        pass
+
+    def save_kv_layer(
+        self,
+        layer_name: str,
+        kv_layer,
+        attn_metadata: "AttentionMetadata",
+        **kwargs,
+    ) -> None:
+        pass
+
+    def wait_for_save(self):
+        pass
+
+
+class NewStyleTestConnector(KVConnectorBase_V1):
+    """
+    Test connector using the new signature with 3 required arguments.
+    """
+
+    def __init__(
+        self,
+        vllm_config: "VllmConfig",
+        role: KVConnectorRole,
+        kv_cache_config: "KVCacheConfig",
+    ):
+        # New-style call to super().__init__ with all 3 arguments
+        super().__init__(
+            vllm_config=vllm_config, role=role, kv_cache_config=kv_cache_config
+        )
+
+    def get_num_new_matched_tokens(
+        self, request: "Request", num_computed_tokens: int
+    ) -> tuple[int | None, bool]:
+        return 0, False
+
+    def update_state_after_alloc(
+        self,
+        request: "Request",
+        blocks: "KVCacheBlocks",
+        num_external_tokens: int,
+    ):
+        pass
+
+    def build_connector_meta(self, scheduler_output: SchedulerOutput):
+        return None
+
+    def start_load_kv(self, forward_context: "ForwardContext", **kwargs) -> None:
+        pass
+
+    def wait_for_layer_load(self, layer_name: str) -> None:
+        pass
+
+    def save_kv_layer(
+        self,
+        layer_name: str,
+        kv_layer,
+        attn_metadata: "AttentionMetadata",
+        **kwargs,
+    ) -> None:
+        pass
+
+    def wait_for_save(self):
+        pass
+
+
+@pytest.mark.parametrize("role", [KVConnectorRole.SCHEDULER, KVConnectorRole.WORKER])
+def test_external_old_signature_factory_instantiation(role):
+    """
+    Test that external connectors with old signature (2 required args) loaded
+    via kv_connector_module_path are correctly instantiated with backwards
+    compatibility support.
+    """
+    vllm_config = create_vllm_config()
+    vllm_config.kv_transfer_config.kv_connector = "OldStyleTestConnector"
+    vllm_config.kv_transfer_config.kv_connector_module_path = (
+        "tests.v1.kv_connector.unit.test_backwards_compatibility"
+    )
+
+    scheduler = create_scheduler(vllm_config)
+    kv_cache_config = scheduler.kv_cache_config
+
+    connector = KVConnectorFactory.create_connector(vllm_config, role, kv_cache_config)
+
+    assert connector is not None
+    assert isinstance(connector, OldStyleTestConnector)
+    assert connector.role == role
+    assert connector._kv_cache_config is None
+
+
+@pytest.mark.parametrize("role", [KVConnectorRole.SCHEDULER, KVConnectorRole.WORKER])
+def test_external_new_signature_factory_instantiation(role):
+    """
+    Test that external connectors with new signature (3 required args) loaded
+    via kv_connector_module_path are correctly instantiated.
+    """
+    vllm_config = create_vllm_config()
+    vllm_config.kv_transfer_config.kv_connector = "NewStyleTestConnector"
+    vllm_config.kv_transfer_config.kv_connector_module_path = (
+        "tests.v1.kv_connector.unit.test_backwards_compatibility"
+    )
+
+    scheduler = create_scheduler(vllm_config)
+    kv_cache_config = scheduler.kv_cache_config
+
+    connector = KVConnectorFactory.create_connector(vllm_config, role, kv_cache_config)
+
+    assert connector is not None
+    assert isinstance(connector, NewStyleTestConnector)
+    assert connector.role == role
+    assert connector._kv_cache_config is not None
+    assert connector._kv_cache_config == kv_cache_config
+
+
+@pytest.mark.parametrize("role", [KVConnectorRole.SCHEDULER, KVConnectorRole.WORKER])
+def test_old_signature_super_init(role):
+    """
+    Test that old-style connectors can call super().__init__() without
+    kv_cache_config parameter.
+    """
+    vllm_config = create_vllm_config()
+
+    connector = OldStyleTestConnector(vllm_config, role)
+
+    assert connector is not None
+    assert connector.role == role
+    assert connector._kv_cache_config is None
+
+
+def test_old_signature_super_init_with_kwargs():
+    """
+    Test that old-style connectors can call super().__init__() with keyword
+    arguments in different orders.
+    """
+    vllm_config = create_vllm_config()
+
+    # Test with vllm_config= and role= kwargs
+    connector1 = OldStyleTestConnector(
+        vllm_config=vllm_config, role=KVConnectorRole.SCHEDULER
+    )
+    assert connector1 is not None
+    assert connector1._kv_cache_config is None
+
+    # Test with role= and vllm_config= in reversed order
+    connector2 = OldStyleTestConnector(
+        role=KVConnectorRole.WORKER, vllm_config=vllm_config
+    )
+    assert connector2 is not None
+    assert connector2._kv_cache_config is None
+
+
+def test_internal_connector_uses_new_signature():
+    """
+    Test that internal connectors (registered in factory) always use the new
+    signature and get kv_cache_config.
+    """
+    from vllm.distributed.kv_transfer.kv_connector.v1.shared_storage_connector import (
+        SharedStorageConnector,
+    )
+
+    vllm_config = create_vllm_config()
+    vllm_config.kv_transfer_config.kv_connector = "SharedStorageConnector"
+
+    scheduler = create_scheduler(vllm_config)
+    kv_cache_config = scheduler.kv_cache_config
+
+    connector = KVConnectorFactory.create_connector(
+        vllm_config, KVConnectorRole.SCHEDULER, kv_cache_config
+    )
+
+    assert connector is not None
+    assert isinstance(connector, SharedStorageConnector)
+    assert connector._kv_cache_config is not None
+    assert connector._kv_cache_config == kv_cache_config
+
+
+def test_signature_detection_with_mocking():
+    """
+    Test that the factory correctly applies compat_sig flag returned from
+    _get_connector_class_with_compat.
+    """
+    vllm_config = create_vllm_config()
+    scheduler = create_scheduler(vllm_config)
+    kv_cache_config = scheduler.kv_cache_config
+
+    # Mock _get_connector_class_with_compat to return old-style connector
+    with patch.object(
+        KVConnectorFactory,
+        "_get_connector_class_with_compat",
+        return_value=(OldStyleTestConnector, True),
+    ):
+        old_connector = KVConnectorFactory.create_connector(
+            vllm_config, KVConnectorRole.SCHEDULER, kv_cache_config
+        )
+        assert old_connector is not None
+        assert isinstance(old_connector, OldStyleTestConnector)
+        assert old_connector._kv_cache_config is None
+
+    # Mock _get_connector_class_with_compat to return new-style connector
+    with patch.object(
+        KVConnectorFactory,
+        "_get_connector_class_with_compat",
+        return_value=(NewStyleTestConnector, False),
+    ):
+        new_connector = KVConnectorFactory.create_connector(
+            vllm_config, KVConnectorRole.SCHEDULER, kv_cache_config
+        )
+        assert new_connector is not None
+        assert isinstance(new_connector, NewStyleTestConnector)
+        assert new_connector._kv_cache_config is not None
+        assert new_connector._kv_cache_config == kv_cache_config
diff --git a/tests/v1/kv_connector/unit/utils.py b/tests/v1/kv_connector/unit/utils.py
index 46ea46e53084e..c1c0e13f77539 100644
--- a/tests/v1/kv_connector/unit/utils.py
+++ b/tests/v1/kv_connector/unit/utils.py
@@ -254,7 +254,7 @@ def create_model_runner_output(
 
 
 class TestSharedStorageConnector(SharedStorageConnector):
-    def __init__(self, config: VllmConfig, role):
+    def __init__(self, config: VllmConfig, role, kv_cache_config):
         self.name = config.kv_transfer_config.kv_connector_extra_config["name"]
         self._connector = SharedStorageConnector(config, role)
         self.call_record: dict[str, int] = defaultdict(int)
diff --git a/vllm/distributed/kv_transfer/kv_connector/factory.py b/vllm/distributed/kv_transfer/kv_connector/factory.py
index c64996f13cd5d..8d14200c52407 100644
--- a/vllm/distributed/kv_transfer/kv_connector/factory.py
+++ b/vllm/distributed/kv_transfer/kv_connector/factory.py
@@ -3,10 +3,9 @@
 
 import importlib
 from collections.abc import Callable
-from typing import TYPE_CHECKING, cast
+from typing import TYPE_CHECKING, Optional, cast
 
 import vllm.envs as envs
-from vllm.config import VllmConfig
 from vllm.distributed.kv_transfer.kv_connector.base import (
     KVConnectorBase,
     KVConnectorBaseType,
@@ -16,9 +15,12 @@ from vllm.distributed.kv_transfer.kv_connector.v1 import (
     supports_hma,
 )
 from vllm.logger import init_logger
+from vllm.utils.func_utils import supports_kw
 
 if TYPE_CHECKING:
+    from vllm.config import VllmConfig
     from vllm.config.kv_transfer import KVTransferConfig
+    from vllm.v1.kv_cache_interface import KVCacheConfig
 
 logger = init_logger(__name__)
 
@@ -41,8 +43,9 @@ class KVConnectorFactory:
     @classmethod
     def create_connector(
         cls,
-        config: VllmConfig,
+        config: "VllmConfig",
         role: KVConnectorRole,
+        kv_cache_config: Optional["KVCacheConfig"] = None,
     ) -> KVConnectorBase:
         if not envs.VLLM_USE_V1:
             raise ValueError(
@@ -53,7 +56,9 @@ class KVConnectorFactory:
         kv_transfer_config = config.kv_transfer_config
         if kv_transfer_config is None:
             raise ValueError("kv_transfer_config must be set to create a connector")
-        connector_cls = cls.get_connector_class(kv_transfer_config)
+        connector_cls, compat_sig = cls._get_connector_class_with_compat(
+            kv_transfer_config
+        )
 
         # check if the connector supports HMA
         hma_enabled = not config.scheduler_config.disable_hybrid_kv_cache_manager
@@ -76,7 +81,12 @@ class KVConnectorFactory:
         # - Co-locate with worker process
         # - Should only be used inside the forward context & attention layer
         # We build separately to enforce strict separation
-        return connector_cls(config, role)
+        if compat_sig:
+            # Old signature: __init__(self, vllm_config, role)
+            return connector_cls(config, role)
+        else:
+            # New signature: __init__(self, vllm_config, role, kv_cache_config)
+            return connector_cls(config, role, kv_cache_config)
 
     @classmethod
     def get_connector_class_by_name(
@@ -97,13 +107,13 @@ class KVConnectorFactory:
         return cls._registry[connector_name]()
 
     @classmethod
-    def get_connector_class(
+    def _get_connector_class_with_compat(
         cls, kv_transfer_config: "KVTransferConfig"
-    ) -> type[KVConnectorBaseType]:
-        """Get the connector class by name."""
+    ) -> tuple[type[KVConnectorBaseType], bool]:
         connector_name = kv_transfer_config.kv_connector
         if connector_name is None:
             raise ValueError("Connector name is not set in KVTransferConfig")
+        compat_sig = False
         if connector_name in cls._registry:
             connector_cls = cls._registry[connector_name]()
         else:
@@ -118,6 +128,21 @@ class KVConnectorFactory:
                     f"Class {connector_name} not found in {connector_module_path}"
                 ) from e
             connector_cls = cast(type[KVConnectorBaseType], connector_cls)
+            if not supports_kw(connector_cls, "kv_cache_config"):
+                compat_sig = True
+                logger.warning(
+                    "Connector %s uses deprecated signature with 2 required arguments. "
+                    "Please update to include kv_cache_config as the second argument.",
+                    connector_cls.__name__,
+                )
+        return connector_cls, compat_sig
+
+    @classmethod
+    def get_connector_class(
+        cls, kv_transfer_config: "KVTransferConfig"
+    ) -> type[KVConnectorBaseType]:
+        """Get the connector class by name."""
+        connector_cls, _ = cls._get_connector_class_with_compat(kv_transfer_config)
         return connector_cls
 
 
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/base.py b/vllm/distributed/kv_transfer/kv_connector/v1/base.py
index cb9f208a839f2..354aa9a87183d 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/base.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/base.py
@@ -58,6 +58,7 @@ if TYPE_CHECKING:
     )
     from vllm.forward_context import ForwardContext
     from vllm.v1.core.kv_cache_manager import KVCacheBlocks
+    from vllm.v1.kv_cache_interface import KVCacheConfig
     from vllm.v1.request import Request
 
 # s_tensor_list, d_tensor_list, s_indices, d_indices, direction
@@ -141,7 +142,12 @@ class KVConnectorMetadata(ABC):  # noqa: B024
 
 
 class KVConnectorBase_V1(ABC):
-    def __init__(self, vllm_config: "VllmConfig", role: KVConnectorRole):
+    def __init__(
+        self,
+        vllm_config: "VllmConfig",
+        role: KVConnectorRole,
+        kv_cache_config: Optional["KVCacheConfig"] = None,
+    ):
         logger.warning(
             "Initializing KVConnectorBase_V1. This API is experimental and "
             "subject to change in the future as we iterate the design."
@@ -152,6 +158,14 @@ class KVConnectorBase_V1(ABC):
             self._kv_transfer_config = vllm_config.kv_transfer_config
         else:
             raise ValueError("kv_transfer_config must be set for KVConnectorBase_V1")
+        self._kv_cache_config = kv_cache_config
+        if self._kv_cache_config is None:
+            logger.warning(
+                "KVConnectorBase_V1 initialized without kv_cache_config. "
+                "This is deprecated - please update your connector to accept "
+                "kv_cache_config as the third constructor argument and pass it "
+                "to super().__init__()."
+            )
         self._role = role
 
     @property
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/decode_bench_connector.py b/vllm/distributed/kv_transfer/kv_connector/v1/decode_bench_connector.py
index ca251cd0c6ebd..9cd7d93c92fa3 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/decode_bench_connector.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/decode_bench_connector.py
@@ -32,7 +32,7 @@ Usage:
 """
 
 from dataclasses import dataclass
-from typing import TYPE_CHECKING, Any
+from typing import TYPE_CHECKING, Any, Optional
 
 import torch
 
@@ -50,6 +50,7 @@ if TYPE_CHECKING:
     from vllm.forward_context import ForwardContext
     from vllm.v1.core.kv_cache_manager import KVCacheBlocks
     from vllm.v1.core.sched.output import SchedulerOutput
+    from vllm.v1.kv_cache_interface import KVCacheConfig
     from vllm.v1.request import Request
 
 logger = init_logger(__name__)
@@ -79,8 +80,13 @@ class DecodeBenchConnector(KVConnectorBase_V1):
     testing of the decoder with larger input sequence lengths.
     """
 
-    def __init__(self, vllm_config: "VllmConfig", role: KVConnectorRole):
-        super().__init__(vllm_config, role)
+    def __init__(
+        self,
+        vllm_config: "VllmConfig",
+        role: KVConnectorRole,
+        kv_cache_config: Optional["KVCacheConfig"] = None,
+    ):
+        super().__init__(vllm_config, role, kv_cache_config)
 
         self.connector_scheduler: DecodeBenchConnectorScheduler | None = None
         self.connector_worker: DecodeBenchConnectorWorker | None = None
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/lmcache_connector.py b/vllm/distributed/kv_transfer/kv_connector/v1/lmcache_connector.py
index 7232d947030cb..575ab468be566 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/lmcache_connector.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/lmcache_connector.py
@@ -20,14 +20,22 @@ if TYPE_CHECKING:
     from vllm.attention.backends.abstract import AttentionMetadata
     from vllm.forward_context import ForwardContext
     from vllm.v1.core.kv_cache_manager import KVCacheBlocks
+    from vllm.v1.kv_cache_interface import KVCacheConfig
     from vllm.v1.request import Request
 
 logger = init_logger(__name__)
 
 
 class LMCacheConnectorV1(KVConnectorBase_V1):
-    def __init__(self, vllm_config: "VllmConfig", role: KVConnectorRole):
-        super().__init__(vllm_config=vllm_config, role=role)
+    def __init__(
+        self,
+        vllm_config: "VllmConfig",
+        role: KVConnectorRole,
+        kv_cache_config: "KVCacheConfig",
+    ):
+        super().__init__(
+            vllm_config=vllm_config, role=role, kv_cache_config=kv_cache_config
+        )
         assert vllm_config.kv_transfer_config is not None
         use_native = vllm_config.kv_transfer_config.get_from_extra_config(
             "use_native", False
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/multi_connector.py b/vllm/distributed/kv_transfer/kv_connector/v1/multi_connector.py
index d56f30bd11e5b..d7bbf02c83677 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/multi_connector.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/multi_connector.py
@@ -31,6 +31,7 @@ if TYPE_CHECKING:
     from vllm.distributed.kv_events import KVCacheEvent
     from vllm.forward_context import ForwardContext
     from vllm.v1.core.kv_cache_manager import KVCacheBlocks
+    from vllm.v1.kv_cache_interface import KVCacheConfig
     from vllm.v1.request import Request
 
 logger = init_logger(__name__)
@@ -109,15 +110,22 @@ class MultiConnector(KVConnectorBase_V1):
     - Save to all connectors.
     """
 
-    def __init__(self, vllm_config: "VllmConfig", role: KVConnectorRole):
-        super().__init__(vllm_config=vllm_config, role=role)
+    def __init__(
+        self,
+        vllm_config: "VllmConfig",
+        role: KVConnectorRole,
+        kv_cache_config: "KVCacheConfig",
+    ):
+        super().__init__(
+            vllm_config=vllm_config, role=role, kv_cache_config=kv_cache_config
+        )
 
         self._connectors: list[KVConnectorBase_V1] = []
         self._ktc_kv_transfer_config = []
         for connector_cls, temp_config in self._get_connector_classes_and_configs(
             vllm_config
         ):
-            self._connectors.append(connector_cls(temp_config, role))
+            self._connectors.append(connector_cls(temp_config, role, kv_cache_config))
             self._ktc_kv_transfer_config.append(temp_config.kv_transfer_config)
 
         # A mapping from request id to the index of the connector chosen to
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py b/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
index 4651cedbc7dfa..ff9770b72bd38 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
@@ -13,7 +13,7 @@ from collections import defaultdict
 from collections.abc import Iterator
 from concurrent.futures import Future, ThreadPoolExecutor
 from dataclasses import dataclass
-from typing import TYPE_CHECKING, Any
+from typing import TYPE_CHECKING, Any, Optional
 
 import msgspec
 import numpy as np
@@ -52,6 +52,7 @@ from vllm.v1.core.sched.output import SchedulerOutput
 if TYPE_CHECKING:
     from vllm.attention.backends.abstract import AttentionMetadata
     from vllm.v1.core.kv_cache_manager import KVCacheBlocks
+    from vllm.v1.kv_cache_interface import KVCacheConfig
     from vllm.v1.request import Request
 
 Transfer = tuple[int, float]  # (xfer_handle, start_time)
@@ -150,7 +151,14 @@ class NixlConnectorMetadata(KVConnectorMetadata):
 
 
 class NixlConnector(KVConnectorBase_V1):
-    def __init__(self, vllm_config: VllmConfig, role: KVConnectorRole):
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        role: KVConnectorRole,
+        kv_cache_config: Optional["KVCacheConfig"] = None,
+    ):
+        super().__init__(vllm_config, role, kv_cache_config)
+
         assert vllm_config.kv_transfer_config is not None
         assert vllm_config.kv_transfer_config.engine_id is not None
         self.engine_id: EngineId = vllm_config.kv_transfer_config.engine_id
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/offloading_connector.py b/vllm/distributed/kv_transfer/kv_connector/v1/offloading_connector.py
index 7567c7fae5789..582e42cc466ae 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/offloading_connector.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/offloading_connector.py
@@ -21,6 +21,7 @@ from vllm.logger import init_logger
 from vllm.v1.core.kv_cache_manager import KVCacheBlocks
 from vllm.v1.core.kv_cache_utils import BlockHash
 from vllm.v1.core.sched.output import SchedulerOutput
+from vllm.v1.kv_cache_interface import KVCacheConfig
 from vllm.v1.kv_offload.abstract import OffloadingManager
 from vllm.v1.kv_offload.factory import OffloadingSpecFactory
 from vllm.v1.kv_offload.mediums import GPULoadStoreSpec
@@ -41,8 +42,13 @@ class OffloadingConnectorMetadata(KVConnectorMetadata):
 
 
 class OffloadingConnector(KVConnectorBase_V1):
-    def __init__(self, vllm_config: VllmConfig, role: KVConnectorRole):
-        super().__init__(vllm_config, role)
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        role: KVConnectorRole,
+        kv_cache_config: KVCacheConfig | None = None,
+    ):
+        super().__init__(vllm_config, role, kv_cache_config)
 
         spec = OffloadingSpecFactory.create_spec(vllm_config)
 
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/p2p/p2p_nccl_connector.py b/vllm/distributed/kv_transfer/kv_connector/v1/p2p/p2p_nccl_connector.py
index 780dd12fccda3..a124a0d519db8 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/p2p/p2p_nccl_connector.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/p2p/p2p_nccl_connector.py
@@ -2,7 +2,7 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
 from dataclasses import dataclass
-from typing import TYPE_CHECKING, Any
+from typing import TYPE_CHECKING, Any, Optional
 
 import regex as re
 import torch
@@ -25,6 +25,7 @@ if TYPE_CHECKING:
     from vllm.attention.backends.abstract import AttentionMetadata
     from vllm.forward_context import ForwardContext
     from vllm.v1.core.kv_cache_manager import KVCacheBlocks
+    from vllm.v1.kv_cache_interface import KVCacheConfig
     from vllm.v1.request import Request
 
 logger = init_logger(__name__)
@@ -71,8 +72,17 @@ class P2pNcclConnectorMetadata(KVConnectorMetadata):
 
 
 class P2pNcclConnector(KVConnectorBase_V1):
-    def __init__(self, vllm_config: "VllmConfig", role: KVConnectorRole):
-        super().__init__(vllm_config=vllm_config, role=role)
+    def __init__(
+        self,
+        vllm_config: "VllmConfig",
+        role: KVConnectorRole,
+        kv_cache_config: Optional["KVCacheConfig"] = None,
+    ):
+        super().__init__(
+            vllm_config=vllm_config,
+            role=role,
+            kv_cache_config=kv_cache_config,
+        )
         self._block_size = vllm_config.cache_config.block_size
         self._requests_need_load: dict[str, Any] = {}
         self.is_producer = self._kv_transfer_config.is_kv_producer
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/shared_storage_connector.py b/vllm/distributed/kv_transfer/kv_connector/v1/shared_storage_connector.py
index 9c230d7d0d2f4..016d1d45b3593 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/shared_storage_connector.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/shared_storage_connector.py
@@ -3,7 +3,7 @@
 import hashlib
 import os
 from dataclasses import dataclass, field
-from typing import TYPE_CHECKING, Any
+from typing import TYPE_CHECKING, Any, Optional
 
 import safetensors
 import torch
@@ -22,6 +22,7 @@ if TYPE_CHECKING:
     from vllm.attention.backends.abstract import AttentionMetadata
     from vllm.forward_context import ForwardContext
     from vllm.v1.core.kv_cache_manager import KVCacheBlocks
+    from vllm.v1.kv_cache_interface import KVCacheConfig
     from vllm.v1.request import Request
 
 logger = init_logger(__name__)
@@ -86,8 +87,17 @@ class SharedStorageConnector(KVConnectorBase_V1):
     # It does extra work which will overwrite the existing prefix-cache in GPU
     # - to remove the overhead, need to add some "mask" in the ReqMeta class
 
-    def __init__(self, vllm_config: "VllmConfig", role: KVConnectorRole):
-        super().__init__(vllm_config=vllm_config, role=role)
+    def __init__(
+        self,
+        vllm_config: "VllmConfig",
+        role: KVConnectorRole,
+        kv_cache_config: Optional["KVCacheConfig"] = None,
+    ):
+        super().__init__(
+            vllm_config=vllm_config,
+            role=role,
+            kv_cache_config=kv_cache_config,
+        )
         self._block_size = vllm_config.cache_config.block_size
         self._requests_need_load: dict[str, Request] = {}
         self._storage_path = self._kv_transfer_config.get_from_extra_config(
diff --git a/vllm/distributed/kv_transfer/kv_transfer_state.py b/vllm/distributed/kv_transfer/kv_transfer_state.py
index cabfc10e7f942..7501f0b373d46 100644
--- a/vllm/distributed/kv_transfer/kv_transfer_state.py
+++ b/vllm/distributed/kv_transfer/kv_transfer_state.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
-from typing import TYPE_CHECKING
+from typing import TYPE_CHECKING, Optional
 
 from vllm import envs
 from vllm.distributed.kv_transfer.kv_connector.base import KVConnectorBaseType
@@ -12,6 +12,7 @@ from vllm.distributed.kv_transfer.kv_connector.v1 import (
 
 if TYPE_CHECKING:
     from vllm.config import VllmConfig
+    from vllm.v1.kv_cache_interface import KVCacheConfig
 
 _KV_CONNECTOR_AGENT: KVConnectorBaseType | None = None
 
@@ -48,7 +49,9 @@ def is_v1_kv_transfer_group(connector: KVConnectorBaseType | None = None) -> boo
     return isinstance(connector, KVConnectorBase_V1)
 
 
-def ensure_kv_transfer_initialized(vllm_config: "VllmConfig") -> None:
+def ensure_kv_transfer_initialized(
+    vllm_config: "VllmConfig", kv_cache_config: Optional["KVCacheConfig"] = None
+) -> None:
     """
     Initialize KV cache transfer parallel group.
     """
@@ -64,7 +67,9 @@ def ensure_kv_transfer_initialized(vllm_config: "VllmConfig") -> None:
     ):
         if envs.VLLM_USE_V1:
             _KV_CONNECTOR_AGENT = KVConnectorFactory.create_connector(
-                config=vllm_config, role=KVConnectorRole.WORKER
+                config=vllm_config,
+                role=KVConnectorRole.WORKER,
+                kv_cache_config=kv_cache_config,
             )
         else:
             raise ValueError("V0 is no longer supported")
diff --git a/vllm/v1/core/sched/scheduler.py b/vllm/v1/core/sched/scheduler.py
index f51744eb2640b..aeb9869c52813 100644
--- a/vllm/v1/core/sched/scheduler.py
+++ b/vllm/v1/core/sched/scheduler.py
@@ -1,6 +1,5 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
-import copy
 import itertools
 import time
 from collections import defaultdict
@@ -92,15 +91,10 @@ class Scheduler(SchedulerInterface):
             assert not self.is_encoder_decoder, (
                 "Encoder-decoder models are not currently supported with KV connectors"
             )
-
-            connector_vllm_config = copy.copy(self.vllm_config)
-
-            # We're dynamically inserting a kv_cache_config variable into the
-            # connector_vllm_config. This is distinct from the cache_config
-            # that is already in there.
-            connector_vllm_config.kv_cache_config = copy.copy(kv_cache_config)  # type: ignore[attr-defined]
             self.connector = KVConnectorFactory.create_connector(
-                config=connector_vllm_config, role=KVConnectorRole.SCHEDULER
+                config=self.vllm_config,
+                role=KVConnectorRole.SCHEDULER,
+                kv_cache_config=self.kv_cache_config,
             )
             if self.log_stats:
                 self.connector_prefix_cache_stats = PrefixCacheStats()
diff --git a/vllm/v1/worker/gpu_worker.py b/vllm/v1/worker/gpu_worker.py
index c2bf1419bebd7..f3fe202cec062 100644
--- a/vllm/v1/worker/gpu_worker.py
+++ b/vllm/v1/worker/gpu_worker.py
@@ -380,9 +380,7 @@ class Worker(WorkerBase):
         # NOTE(Kuntai): This need to be done before `initialize_kv_cache`,
         # because `initialize_kv_cache` will inject kv cache groups not
         # related to kv cache connector (e.g. kv cache sharing layers).
-        connector_vllm_config = copy.copy(self.vllm_config)
-        connector_vllm_config.kv_cache_config = copy.copy(kv_cache_config)
-        ensure_kv_transfer_initialized(connector_vllm_config)
+        ensure_kv_transfer_initialized(self.vllm_config, kv_cache_config)
 
         if self.vllm_config.model_config.enable_sleep_mode:
             from vllm.device_allocator.cumem import CuMemAllocator

From 43a6acfb7de8c7ad839d41bc2109fafe692b77ba Mon Sep 17 00:00:00 2001
From: CSWYF3634076 <wangyafeng@baidu.com>
Date: Tue, 4 Nov 2025 15:16:46 +0800
Subject: [PATCH 114/976] [Model] fix ernie45 reasoning_parser (#27973)

Signed-off-by: wangyafeng <wangyafeng@baidu.com>
---
 vllm/reasoning/ernie45_reasoning_parser.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/vllm/reasoning/ernie45_reasoning_parser.py b/vllm/reasoning/ernie45_reasoning_parser.py
index f9d4a30398cfd..8dfbcc0ce46bf 100644
--- a/vllm/reasoning/ernie45_reasoning_parser.py
+++ b/vllm/reasoning/ernie45_reasoning_parser.py
@@ -36,8 +36,8 @@ class Ernie45ReasoningParser(BaseThinkingReasoningParser):
         """The token that ends reasoning content."""
         return "</think>"
 
-    def __init__(self, tokenizer: PreTrainedTokenizerBase):
-        super().__init__(tokenizer)
+    def __init__(self, tokenizer: PreTrainedTokenizerBase, *args, **kwargs):
+        super().__init__(tokenizer, *args, **kwargs)
 
         if not self.model_tokenizer:
             raise ValueError(

From 53f6e81dfd9cdba797ddade119a5e33389a35957 Mon Sep 17 00:00:00 2001
From: Zhewen Li <zhewenli@meta.com>
Date: Mon, 3 Nov 2025 23:20:50 -0800
Subject: [PATCH 115/976] [CI/Build] Fix OpenAI API correctness on AMD CI
 (#28022)

Signed-off-by: zhewenli <zhewenli@meta.com>
---
 .buildkite/test-amd.yaml | 7 ++++---
 1 file changed, 4 insertions(+), 3 deletions(-)

diff --git a/.buildkite/test-amd.yaml b/.buildkite/test-amd.yaml
index c023457fb03e4..5abf6122a5c39 100644
--- a/.buildkite/test-amd.yaml
+++ b/.buildkite/test-amd.yaml
@@ -629,15 +629,16 @@ steps:
 
 - label: OpenAI API correctness # 22min
   timeout_in_minutes: 30
-  mirror_hardwares: [amdexperimental]
+  mirror_hardwares: [amdexperimental, amdproduction]
   agent_pool: mi325_1
   # grade: Blocking
   source_file_dependencies:
   - csrc/
   - vllm/entrypoints/openai/
   - vllm/model_executor/models/whisper.py
-  commands: # LMEval+Transcription WER check
-  - pytest -s entrypoints/openai/correctness/
+  commands: # LMEval
+  # Transcription WER check is skipped because encoder-decoder models are not supported on ROCm, see https://github.com/vllm-project/vllm/issues/27442
+  - pytest -s entrypoints/openai/correctness/  --ignore entrypoints/openai/correctness/test_transcription_api_correctness.py
 
 - label: OpenAI-Compatible Tool Use # 23 min
   timeout_in_minutes: 35

From 4022a9d279d09efe1b8a36ff3531bf1d4c8f08ca Mon Sep 17 00:00:00 2001
From: Varun Sundar Rabindranath <varunsundar08@gmail.com>
Date: Tue, 4 Nov 2025 02:56:21 -0500
Subject: [PATCH 116/976] [BugFix][Performance] Restore flashinfer autotuning
 for all scenarios (#27904)

---
 tests/quantization/test_blackwell_moe.py      | 16 ++---------
 .../layers/fused_moe/trtllm_moe.py            | 11 ++++++--
 .../layers/quantization/mxfp4.py              |  4 +--
 vllm/model_executor/warmup/kernel_warmup.py   | 27 +------------------
 4 files changed, 14 insertions(+), 44 deletions(-)

diff --git a/tests/quantization/test_blackwell_moe.py b/tests/quantization/test_blackwell_moe.py
index 3cae6f46147bf..8dd4551ff4b96 100644
--- a/tests/quantization/test_blackwell_moe.py
+++ b/tests/quantization/test_blackwell_moe.py
@@ -172,21 +172,9 @@ def test_gptoss_mxfp4mxfp8_moe_flashinfer_trtllm(monkeypatch: pytest.MonkeyPatch
     can_initialize("openai/gpt-oss-20b", hf_overrides=HF_OVERRIDE_TEXT)
 
 
-def test_gptoss_dp2_mxfp4mxfp8_moe_flashinfer_trtllm(monkeypatch: pytest.MonkeyPatch):
-    monkeypatch.setenv("VLLM_USE_FLASHINFER_MOE_MXFP4_MXFP8", "1")
-    monkeypatch.setenv("VLLM_ALL2ALL_BACKEND", "deepep_high_throughput")
+def test_gptoss_eager(monkeypatch: pytest.MonkeyPatch):
     can_initialize(
         "openai/gpt-oss-20b",
-        extra_args=["--data-parallel-size", "2", "--enable-expert-parallel"],
-        hf_overrides=HF_OVERRIDE_TEXT,
-    )
-
-
-def test_gptoss_dp2_mxfp4bf16_moe_flashinfer_trtllm(monkeypatch: pytest.MonkeyPatch):
-    monkeypatch.setenv("VLLM_USE_FLASHINFER_MOE_MXFP4_BF16", "1")
-    monkeypatch.setenv("VLLM_ALL2ALL_BACKEND", "deepep_high_throughput")
-    can_initialize(
-        "openai/gpt-oss-20b",
-        extra_args=["--data-parallel-size", "2", "--enable-expert-parallel"],
         hf_overrides=HF_OVERRIDE_TEXT,
+        extra_args=["--enforce-eager"],
     )
diff --git a/vllm/model_executor/layers/fused_moe/trtllm_moe.py b/vllm/model_executor/layers/fused_moe/trtllm_moe.py
index e305483eb17db..132d35e65aba8 100644
--- a/vllm/model_executor/layers/fused_moe/trtllm_moe.py
+++ b/vllm/model_executor/layers/fused_moe/trtllm_moe.py
@@ -127,10 +127,17 @@ class TrtLlmGenExperts(mk.FusedMoEPermuteExpertsUnpermute):
             "routing_method_type": 1,
             "do_finalize": True,
             "output": output,
-            "tune_max_num_tokens": self.max_capture_size,
+            "tune_max_num_tokens": max(self.max_capture_size, 1),
         }
 
         from flashinfer import trtllm_fp4_block_scale_routed_moe
 
-        trtllm_fp4_block_scale_routed_moe(**kwargs)
+        from vllm.utils.flashinfer import autotune
+
+        with autotune(False):
+            # Enable autotune when,
+            # https://github.com/flashinfer-ai/flashinfer/issues/2023 is
+            # resolved.
+            trtllm_fp4_block_scale_routed_moe(**kwargs)
+
         return output
diff --git a/vllm/model_executor/layers/quantization/mxfp4.py b/vllm/model_executor/layers/quantization/mxfp4.py
index 597ee1b6bafe1..bf34ec0f38996 100644
--- a/vllm/model_executor/layers/quantization/mxfp4.py
+++ b/vllm/model_executor/layers/quantization/mxfp4.py
@@ -1047,7 +1047,7 @@ class Mxfp4MoEMethod(FusedMoEMethodBase):
                 None,
                 1 if renormalize else 0,  # routing_method_type, renormalize
                 True,  # do finalize
-                tune_max_num_tokens=self.max_capture_size,
+                tune_max_num_tokens=max(self.max_capture_size, 1),
             )[0]
             return trtllm_gen_output
         elif (
@@ -1122,7 +1122,7 @@ class Mxfp4MoEMethod(FusedMoEMethodBase):
                 tp_rank=self.moe.tp_rank,
                 ep_size=self.moe.ep_size,
                 ep_rank=self.moe.ep_rank,
-                tune_max_num_tokens=self.max_capture_size,
+                tune_max_num_tokens=max(self.max_capture_size, 1),
                 **extra_kwargs,
             )
 
diff --git a/vllm/model_executor/warmup/kernel_warmup.py b/vllm/model_executor/warmup/kernel_warmup.py
index ffa3bc8f021ef..28792338f036f 100644
--- a/vllm/model_executor/warmup/kernel_warmup.py
+++ b/vllm/model_executor/warmup/kernel_warmup.py
@@ -11,7 +11,6 @@ from typing import TYPE_CHECKING
 import torch
 
 import vllm.envs as envs
-from vllm.config import CUDAGraphMode, VllmConfig
 from vllm.logger import init_logger
 from vllm.model_executor.warmup.deep_gemm_warmup import deep_gemm_warmup
 from vllm.platforms import current_platform
@@ -25,26 +24,6 @@ if TYPE_CHECKING:
 logger = init_logger(__name__)
 
 
-def flashinfer_autotune_supported(vllm_config: VllmConfig) -> bool:
-    """
-    Record known issues with vllm + flashinfer autotune here. Return True if
-    and only if flashinfer autotune will run through without issues.
-    """
-    is_tp_or_dp = (vllm_config.parallel_config.data_parallel_size > 1) or (
-        vllm_config.parallel_config.tensor_parallel_size > 1
-    )
-    is_fi_mxfp4_backend = (
-        envs.VLLM_USE_FLASHINFER_MOE_MXFP4_MXFP8
-        or envs.VLLM_USE_FLASHINFER_MOE_MXFP4_BF16
-        or envs.VLLM_USE_FLASHINFER_MOE_MXFP4_MXFP8_CUTLASS
-    ) or (
-        current_platform.is_cuda() and current_platform.is_device_capability(100)
-    )  # on >=sm100, default mxfp4 backend is flashinfer
-    is_eager = vllm_config.compilation_config.cudagraph_mode == CUDAGraphMode.NONE
-
-    return not (is_tp_or_dp and is_fi_mxfp4_backend and is_eager)
-
-
 def kernel_warmup(worker: "Worker"):
     # Deep GEMM warmup
     do_deep_gemm_warmup = (
@@ -58,11 +37,7 @@ def kernel_warmup(worker: "Worker"):
         deep_gemm_warmup(model, max_tokens)
 
     # FlashInfer autotune for Hopper (SM 9.0) and Blackwell (SM 10.0) GPUs
-    if (
-        has_flashinfer()
-        and current_platform.has_device_capability(90)
-        and flashinfer_autotune_supported(worker.vllm_config)
-    ):
+    if has_flashinfer() and current_platform.has_device_capability(90):
         flashinfer_autotune(worker.model_runner)
 
     # FlashInfer attention warmup

From 2ec401bc39daf0c8daa7f7c6bffe4f5e15cb7c79 Mon Sep 17 00:00:00 2001
From: yugong333 <yu3.gong@gmail.com>
Date: Tue, 4 Nov 2025 02:27:35 -0800
Subject: [PATCH 117/976] Load tuned fused_moe_lora shrink and expand kernel
 configs separately (#27435)

Signed-off-by: Yu Gong <yu3.gong@gmail.com>
Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>
---
 benchmarks/kernels/benchmark_lora.py          | 478 ++++++++++++++++--
 tests/lora/test_fused_moe_lora_kernel.py      |  11 +
 vllm/lora/layers/fused_moe.py                 | 103 +++-
 vllm/lora/ops/triton_ops/README_TUNING.md     |  11 +-
 vllm/lora/ops/triton_ops/__init__.py          |   9 +-
 vllm/lora/ops/triton_ops/fused_moe_lora_op.py | 356 ++++++++++---
 vllm/lora/ops/triton_ops/utils.py             |  43 +-
 vllm/lora/punica_wrapper/punica_base.py       |   3 +-
 vllm/lora/punica_wrapper/punica_gpu.py        |  22 +-
 9 files changed, 911 insertions(+), 125 deletions(-)

diff --git a/benchmarks/kernels/benchmark_lora.py b/benchmarks/kernels/benchmark_lora.py
index bf1512268fe0b..6715c9b548aa1 100644
--- a/benchmarks/kernels/benchmark_lora.py
+++ b/benchmarks/kernels/benchmark_lora.py
@@ -19,13 +19,24 @@ from torch.utils.benchmark import Measurement as TMeasurement
 from utils import ArgPool, Bench, CudaGraphBenchParams
 from weight_shapes import WEIGHT_SHAPES
 
-from vllm.triton_utils import HAS_TRITON
+from vllm.lora.ops.triton_ops.utils import get_lora_op_configs
+from vllm.triton_utils import HAS_TRITON, triton
 
 if HAS_TRITON:
-    from vllm.lora.ops.triton_ops import LoRAKernelMeta, lora_expand, lora_shrink
+    from vllm.lora.ops.triton_ops import (  ## added fused_moe_lora
+        LoRAKernelMeta,
+        fused_moe_lora_expand,
+        fused_moe_lora_shrink,
+        lora_expand,
+        lora_shrink,
+    )
+    from vllm.lora.ops.triton_ops.fused_moe_lora_op import (
+        _LORA_PTR_DICT,  ## added _LORA_PTR_DICT for fused_moe_lora
+    )
     from vllm.lora.ops.triton_ops.utils import _LORA_A_PTR_DICT, _LORA_B_PTR_DICT
-
+from vllm import _custom_ops as ops
 from vllm.utils.argparse_utils import FlexibleArgumentParser
+from vllm.utils.math_utils import round_up
 
 DEFAULT_MODELS = list(WEIGHT_SHAPES.keys())
 DEFAULT_TP_SIZES = [1]
@@ -59,6 +70,8 @@ DEFAULT_NUM_LORAS = [1, 2, 3, 4]
 DEFAULT_SORT_BY_LORA_IDS = [False, True]
 DEFAULT_SEQ_LENGTHS = [1]
 DEFAULT_EXPAND_FN_ADD_INPUTS = [True, False]
+DEFAULT_TOP_K_NUMS = [1]  # Added for MoE LoRA top_k
+DEFAULT_NUM_EXPERTS = [8]  # Added for MoE LoRA num_experts
 
 
 # Utilities
@@ -191,6 +204,11 @@ class OpType(Enum):
 
     LORA_SHRINK = auto()
     LORA_EXPAND = auto()
+    ## Adding support for fused moe lora
+    FUSED_MOE_LORA_GATE_UP_SHRINK = auto()  ## Gate/Up projection variant with shrink
+    FUSED_MOE_LORA_GATE_UP_EXPAND = auto()  ## Gate/Up projection variant with expand
+    FUSED_MOE_LORA_DOWN_SHRINK = auto()  ## Down projection variant with shrink
+    FUSED_MOE_LORA_DOWN_EXPAND = auto()  ## Down projection variant with expand
 
     @staticmethod
     def from_str(s: str) -> "OpType":
@@ -198,6 +216,15 @@ class OpType(Enum):
             return OpType.LORA_SHRINK
         if s.lower() == "lora_expand":
             return OpType.LORA_EXPAND
+        # Adding support for fused moe lora, both in gate_up and down
+        if s.lower() == "fused_moe_lora_gate_up_shrink":  ## Gate/Up variant with shrink
+            return OpType.FUSED_MOE_LORA_GATE_UP_SHRINK
+        if s.lower() == "fused_moe_lora_gate_up_expand":  ## Gate/Up variant with expand
+            return OpType.FUSED_MOE_LORA_GATE_UP_EXPAND
+        if s.lower() == "fused_moe_lora_down_shrink":  ## Down variant with shrink
+            return OpType.FUSED_MOE_LORA_DOWN_SHRINK
+        if s.lower() == "fused_moe_lora_down_expand":  ## Down variant with expand
+            return OpType.FUSED_MOE_LORA_DOWN_EXPAND
         raise ValueError(f"Unrecognized str {s} to convert to OpType")
 
     def is_shrink_fn(self) -> bool:
@@ -206,19 +233,56 @@ class OpType(Enum):
     def is_expand_fn(self) -> bool:
         return self in [OpType.LORA_EXPAND]
 
+    def is_fused_moe_lora_fn(self) -> bool:  ## adding for fused MoE LoRA
+        return self in [
+            OpType.FUSED_MOE_LORA_GATE_UP_SHRINK,
+            OpType.FUSED_MOE_LORA_DOWN_SHRINK,
+            OpType.FUSED_MOE_LORA_GATE_UP_EXPAND,
+            OpType.FUSED_MOE_LORA_DOWN_EXPAND,
+        ]
+
+    def is_fused_moe_lora_gate_up_fn(
+        self,
+    ) -> bool:  ## adding for fused MoE LoRA Gate/Up
+        return self in [
+            OpType.FUSED_MOE_LORA_GATE_UP_SHRINK,
+            OpType.FUSED_MOE_LORA_GATE_UP_EXPAND,
+        ]
+
+    def is_fused_moe_lora_down_fn(self) -> bool:  ## adding for fused MoE LoRA Down
+        return self in [
+            OpType.FUSED_MOE_LORA_DOWN_SHRINK,
+            OpType.FUSED_MOE_LORA_DOWN_EXPAND,
+        ]
+
+    def is_fused_moe_lora_shrink_fn(self) -> bool:
+        return self in [
+            OpType.FUSED_MOE_LORA_GATE_UP_SHRINK,
+            OpType.FUSED_MOE_LORA_DOWN_SHRINK,
+        ]
+
+    def is_fused_moe_lora_expand_fn(self) -> bool:
+        return self in [
+            OpType.FUSED_MOE_LORA_GATE_UP_EXPAND,
+            OpType.FUSED_MOE_LORA_DOWN_EXPAND,
+        ]
+
     def num_slices(self) -> list[int]:
+        if self.is_fused_moe_lora_gate_up_fn():
+            return [2]
+        elif self.is_fused_moe_lora_down_fn():
+            return [1]
         return [1, 2, 3]
 
     def mkn(
         self, batch_size: int, seq_length: int, hidden_size: int, lora_rank: int
     ) -> tuple[int, int, int]:
         num_tokens = batch_size * seq_length
-        if self.is_shrink_fn():
+        if self.is_shrink_fn() or self.is_fused_moe_lora_fn():
             m = num_tokens
             k = hidden_size
             n = lora_rank
-        else:
-            assert self.is_expand_fn()
+        elif self.is_expand_fn():
             m = num_tokens
             k = lora_rank
             n = hidden_size
@@ -232,9 +296,36 @@ class OpType(Enum):
         """
         if self.is_shrink_fn():
             return op_dtype, op_dtype, torch.float32
-        else:
-            assert self.is_expand_fn()
+        elif self.is_expand_fn():
             return torch.float32, op_dtype, op_dtype
+        else:
+            assert self.is_fused_moe_lora_fn()
+            return op_dtype, op_dtype, op_dtype
+
+    def matmul_shapes_fused_moe_lora(
+        self,
+        m: int,
+        n: int,
+        k: int,
+        num_loras: int,
+        num_slices: int,
+        top_k_num: int,
+        num_experts: int,
+    ) -> tuple[tuple[int], tuple[int], tuple[int], tuple[int]]:
+        if self.is_fused_moe_lora_shrink_fn():
+            input_shape = (
+                (m * top_k_num, n)
+                if self in [OpType.FUSED_MOE_LORA_DOWN_SHRINK]
+                else (m, n)
+            )
+            output_shape = (num_slices, m, top_k_num, k)
+            weight_shape = (num_loras, num_experts, k, n)
+        else:
+            assert self.is_fused_moe_lora_expand_fn()
+            input_shape = (num_slices, m, top_k_num, k)
+            output_shape = (m, top_k_num, n * num_slices)
+            weight_shape = (num_loras, num_experts, n, k)
+        return (input_shape, weight_shape, output_shape)
 
     def matmul_shapes(
         self,
@@ -244,6 +335,8 @@ class OpType(Enum):
         lora_rank: int,
         num_loras: int,
         num_slices: int,
+        top_k_num: int | None = None,
+        num_experts: int | None = None,
     ) -> tuple[tuple[int, ...], tuple[int, ...], tuple[int, ...]]:
         """
         Given num_slices, return the shapes of the A, B, and C matrices
@@ -258,6 +351,16 @@ class OpType(Enum):
         if self in [OpType.LORA_EXPAND]:
             # LoRA expand kernels support num_slices inherently in the kernel
             return ((num_slices, m, k), b_shape, (m, n * num_slices))
+        if self.is_fused_moe_lora_fn():
+            return self.matmul_shapes_fused_moe_lora(
+                m,
+                k,
+                n,
+                num_loras,
+                num_slices,
+                top_k_num,
+                num_experts,
+            )
         raise ValueError(f"Unrecognized op_type {self}")
 
     def bench_fn(self) -> Callable:
@@ -265,6 +368,16 @@ class OpType(Enum):
             return lora_shrink
         if self == OpType.LORA_EXPAND:
             return lora_expand
+        if self in [
+            OpType.FUSED_MOE_LORA_GATE_UP_SHRINK,
+            OpType.FUSED_MOE_LORA_DOWN_SHRINK,
+        ]:
+            return fused_moe_lora_shrink
+        if self in [
+            OpType.FUSED_MOE_LORA_GATE_UP_EXPAND,
+            OpType.FUSED_MOE_LORA_DOWN_EXPAND,
+        ]:
+            return fused_moe_lora_expand
 
         raise ValueError(f"Unrecognized optype {self}")
 
@@ -318,6 +431,8 @@ class BenchmarkContext:
     sort_by_lora_id: bool
     dtype: torch.dtype
     seq_length: int | None = None
+    num_experts: int | None = None  # num_experts for MoE based ops
+    top_k_num: int | None = None  # top_k for MoE based ops
     num_slices: int | None = None  # num_slices for slice based ops
 
     def with_seq_length(self, seq_length: int) -> "BenchmarkContext":
@@ -373,6 +488,11 @@ class BenchmarkTensors:
             f"{dtype_to_str(self.output.dtype)}"
         )
 
+    def get_num_tokens(self, size: int, top_k_num: int, op_type: OpType):
+        return (
+            size * top_k_num if op_type in [OpType.FUSED_MOE_LORA_DOWN_SHRINK] else size
+        )
+
     @staticmethod
     def make(
         ctx: BenchmarkContext, op_type: OpType, device: str = "cuda"
@@ -385,6 +505,8 @@ class BenchmarkTensors:
             ctx.lora_rank,
             ctx.num_loras,
             ctx.num_slices,
+            ctx.top_k_num,
+            ctx.num_experts,
         )
         a_type, b_type, c_type = op_type.matmul_dtypes(ctx.dtype)
         input_tensor, lora_weights, output_tensor = make_rand_tensors(
@@ -432,17 +554,27 @@ class BenchmarkTensors:
             prompt_lora_indices_tensor,
         )
 
-    def sanity_check(self) -> None:
+    def sanity_check(self, ctx: BenchmarkContext, op_type: OpType) -> None:
         """
         Fails asserts when non-conformality is detected.
         """
-        num_tokens = self.input.shape[-2]
+        num_tokens = (
+            self.input.shape[1]
+            if op_type.is_fused_moe_lora_expand_fn()
+            else self.input.shape[-2]
+        )
         # check metadata tensors
-        assert torch.sum(self.seq_lens) == num_tokens
+        ## In down shrink case, each token is repeated top_k_num times
+        assert num_tokens == self.get_num_tokens(
+            torch.sum(self.seq_lens), ctx.top_k_num, op_type
+        ), f"Expected {num_tokens} tokens, but got {torch.sum(self.seq_lens)}"
         num_seqs = self.seq_lens.shape[0]
         # assert self.seq_start_loc.shape[0] == num_seqs
+        ## In down shrink case, each prompt corresponds to top_k_num sequences
         assert self.prompt_lora_mapping.shape[0] == num_seqs
-        assert self.lora_kernel_meta.token_lora_mapping.shape[0] == num_tokens
+        assert self.get_num_tokens(
+            self.lora_kernel_meta.token_lora_mapping.shape[0], ctx.top_k_num, op_type
+        )
 
     def to_device(self, device: str):
         """
@@ -471,21 +603,111 @@ class BenchmarkTensors:
                 to_device(field) if field_name != "no_lora_flag_cpu" else field,
             )
 
-    def metadata(self) -> tuple[int, int, int]:
+    def metadata(self, ctx: BenchmarkContext, op_type: OpType) -> tuple[int, int, int]:
         """
         Return num_seqs, num_tokens and max_seq_len
         """
         num_seqs = self.seq_lens.shape[0]
-        num_tokens = self.lora_kernel_meta.token_lora_mapping.shape[0]
+        num_tokens = self.get_num_tokens(
+            self.lora_kernel_meta.token_lora_mapping.shape[0], ctx.top_k_num, op_type
+        )
         max_seq_len = torch.max(self.seq_lens).item()
         num_slices = len(self.lora_weights_lst)
         return num_seqs, num_tokens, max_seq_len, num_slices
 
-    def as_lora_shrink_kwargs(self) -> dict[str, Any]:
-        self.sanity_check()
+    def fused_moe_lora_data_prepare(
+        self,
+        block_size: int,
+        token_lora_mapping: torch.Tensor,
+        ctx: BenchmarkContext,
+    ):
+        def moe_lora_align_block_size(
+            topk_ids: torch.Tensor,
+            token_lora_mapping: torch.Tensor,
+            block_size: int,
+            num_experts: int,
+            max_loras: int,
+            expert_map: torch.Tensor | None = None,
+            pad_sorted_ids: bool = False,
+        ) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+            """
+            Aligns tokens and experts into block-sized chunks for LoRA-based
+            mixture-of-experts (MoE) execution.
+            """
+            max_num_tokens_padded = topk_ids.numel() + num_experts * (block_size - 1)
+            if pad_sorted_ids:
+                max_num_tokens_padded = round_up(max_num_tokens_padded, block_size)
+            sorted_ids = torch.empty(
+                (max_loras * max_num_tokens_padded,),
+                dtype=torch.int32,
+                device=topk_ids.device,
+            )
+            max_num_m_blocks = triton.cdiv(max_num_tokens_padded, block_size)
+            # Expert ids must be set default to -1 to prevent a blank block
+            expert_ids = torch.empty(
+                (max_loras * max_num_m_blocks,),
+                dtype=torch.int32,
+                device=topk_ids.device,
+            )
+            num_tokens_post_pad = torch.empty(
+                (max_loras), dtype=torch.int32, device=topk_ids.device
+            )
+
+            ops.moe_lora_align_block_size(
+                topk_ids,
+                token_lora_mapping,
+                num_experts,
+                block_size,
+                max_loras,
+                max_num_tokens_padded,
+                max_num_m_blocks,
+                sorted_ids,
+                expert_ids,
+                num_tokens_post_pad,
+            )
+            if expert_map is not None:
+                expert_ids = expert_map[expert_ids]
+
+            return sorted_ids, expert_ids, num_tokens_post_pad
+
+        num_tokens = ctx.batch_size
+        curr_topk_ids = torch.randint(
+            0,
+            ctx.num_experts,
+            (num_tokens, ctx.top_k_num),
+            device="cuda",
+            dtype=torch.int32,
+        )
+        topk_weights = torch.randint(
+            0,
+            ctx.num_experts,
+            (num_tokens, ctx.top_k_num),
+            device="cuda",
+            dtype=torch.int32,
+        )
+
+        (sorted_token_ids_lora, expert_ids_lora, num_tokens_post_padded_lora) = (
+            moe_lora_align_block_size(
+                topk_ids=curr_topk_ids,
+                token_lora_mapping=token_lora_mapping,
+                block_size=block_size,
+                num_experts=ctx.num_experts,
+                max_loras=ctx.num_loras,
+            )
+        )
+
+        sorted_token_ids = sorted_token_ids_lora.view(ctx.num_loras, -1)
+        expert_ids = expert_ids_lora.view(ctx.num_loras, -1)
+        num_tokens_post_padded = num_tokens_post_padded_lora
+        return (topk_weights, sorted_token_ids, expert_ids, num_tokens_post_padded)
+
+    def as_lora_shrink_kwargs(
+        self, ctx: BenchmarkContext, op_type: OpType
+    ) -> dict[str, Any]:
+        self.sanity_check(ctx, op_type)
         self.to_device(self.input.device)
 
-        _, num_tokens, _, num_slices = self.metadata()
+        _, num_tokens, _, num_slices = self.metadata(ctx, op_type)
 
         # Sanity check matrix shapes.
         i_shape, lw_shape, o_shape = (
@@ -520,11 +742,13 @@ class BenchmarkTensors:
             "no_lora_flag_cpu": self.lora_kernel_meta.no_lora_flag_cpu,
         }
 
-    def as_lora_expand_kwargs(self, add_inputs: bool) -> dict[str, Any]:
-        self.sanity_check()
+    def as_lora_expand_kwargs(
+        self, ctx: BenchmarkContext, op_type: OpType, add_inputs: bool
+    ) -> dict[str, Any]:
+        self.sanity_check(ctx, op_type)
         self.to_device(self.input.device)
 
-        _, num_tokens, _, num_slices = self.metadata()
+        _, num_tokens, _, num_slices = self.metadata(ctx, op_type)
 
         # Sanity check matrix shapes.
         i_shape, lw_shape, o_shape = (
@@ -561,18 +785,173 @@ class BenchmarkTensors:
             "no_lora_flag_cpu": self.lora_kernel_meta.no_lora_flag_cpu,
         }
 
-    def bench_fn_kwargs(
-        self, op_type: OpType, add_inputs: bool | None = None
+    def as_fused_moe_lora_shrink_kwargs(
+        self, ctx: BenchmarkContext, op_type: OpType
     ) -> dict[str, Any]:
-        if op_type.is_shrink_fn():
+        self.sanity_check(ctx, op_type)
+        self.to_device(self.input.device)
+
+        _, num_tokens, _, num_slices = self.metadata(ctx, op_type)
+
+        # Sanity check matrix shapes.
+        i_shape, lw_shape, o_shape = (
+            self.input.shape,
+            self.lora_weights_lst[0].shape,
+            self.output.shape,
+        )
+        # Expected input shape : [num_tokens, hidden_size] for gate_up
+        # Expected input shape : [top_k_num * num_tokens, hidden_size] for down
+        assert len(i_shape) == 2
+        assert i_shape[0] == num_tokens
+        hidden_size = i_shape[1]
+        # Expected lora weight shape [max_lora, num_experts, lora_rank, hidden_size]
+        assert len(lw_shape) == 4
+        assert lw_shape[-1] == hidden_size
+        lora_rank = lw_shape[-2]
+        # Expected output shape : [num_slices, num_tokens, top_k_num, lora_rank]
+        assert len(o_shape) == 4
+        assert (
+            o_shape
+            == (num_slices, num_tokens // ctx.top_k_num, ctx.top_k_num, lora_rank)
+            if op_type in [OpType.FUSED_MOE_LORA_DOWN_SHRINK]
+            else o_shape == (num_slices, num_tokens, ctx.top_k_num, lora_rank)
+        )
+        kernel_config = get_lora_op_configs(
+            op_type.name.lower(),
+            max_loras=lw_shape[0],
+            batch=num_tokens,
+            hidden_size=hidden_size,
+            rank=lora_rank,
+            num_slices=num_slices,
+            add_inputs=False,
+        )
+
+        (topk_weights, sorted_token_ids, expert_ids, num_tokens_post_padded) = (
+            self.fused_moe_lora_data_prepare(
+                block_size=kernel_config["BLOCK_SIZE_M"],
+                token_lora_mapping=self.lora_kernel_meta.token_lora_mapping,
+                ctx=ctx,
+            )
+        )
+
+        return {
+            "qcurr_hidden_states": self.input,
+            "lora_a_stacked": self.lora_weights_lst,
+            "a_intermediate_cache1": self.output,
+            "topk_weights": topk_weights,
+            "sorted_token_ids": sorted_token_ids,
+            "expert_ids": expert_ids,
+            "num_tokens_post_padded": num_tokens_post_padded,
+            "top_k_num": ctx.top_k_num,
+            "device": self.input.device,
+            "N": lora_rank,
+            "M": topk_weights.shape[0],
+            "EM": sorted_token_ids.shape[1],
+            "K": self.input.shape[1],
+            "num_tokens": num_tokens,
+            "num_experts": ctx.num_experts,
+            "num_slices": num_slices,
+            "shrink_block_size_m": kernel_config["BLOCK_SIZE_M"],
+            "shrink_block_size_n": kernel_config["BLOCK_SIZE_N"],
+            "shrink_block_size_k": kernel_config["BLOCK_SIZE_K"],
+            "shrink_group_size_m": kernel_config["GROUP_SIZE_M"],
+            "shrink_num_warps": kernel_config["NUM_WARPS"],
+            "shrink_num_stages": kernel_config["NUM_STAGES"],
+            "shrink_split_k": kernel_config.get("SPLIT_K", 1),
+            "mul_routed_weight": op_type.is_fused_moe_lora_down_fn(),
+        }
+
+    def as_fused_moe_lora_expand_kwargs(
+        self, ctx: BenchmarkContext, op_type: OpType
+    ) -> dict[str, Any]:
+        self.sanity_check(ctx, op_type)
+        self.to_device(self.input.device)
+
+        _, num_tokens, _, num_slices = self.metadata(ctx, op_type)
+
+        # Sanity check matrix shapes.
+        i_shape, lw_shape, o_shape = (
+            self.input.shape,
+            self.lora_weights_lst[0].shape,
+            self.output.shape,
+        )
+
+        # Expected input shape : [num_slices, num_tokens, top_k_num, lora_rank]
+        assert len(i_shape) == 4
+        assert i_shape[0] == num_slices
+        assert i_shape[1] == num_tokens
+        lora_rank = i_shape[-1]
+        # Expected lora weight shape : [num_loras, num_experts, hidden_size, lora_rank]
+        assert len(lw_shape) == 4
+        assert lw_shape[-1] == lora_rank
+        hidden_size = lw_shape[-2]
+        # Expected output shape : [num_tokens, top_k_num, hidden_size * num_slices]
+        assert len(o_shape) == 3
+        assert o_shape == (num_tokens, ctx.top_k_num, hidden_size * num_slices)
+
+        kernel_config = get_lora_op_configs(
+            op_type.name.lower(),
+            max_loras=lw_shape[0],
+            batch=num_tokens,
+            hidden_size=hidden_size,
+            rank=lora_rank,
+            num_slices=num_slices,
+            add_inputs=False,
+        )
+
+        (topk_weights, sorted_token_ids, expert_ids, num_tokens_post_padded) = (
+            self.fused_moe_lora_data_prepare(
+                block_size=kernel_config["BLOCK_SIZE_M"],
+                token_lora_mapping=self.lora_kernel_meta.token_lora_mapping,
+                ctx=ctx,
+            )
+        )
+
+        return {
+            "a_intermediate_cache1": self.input,
+            "lora_b_stacked": self.lora_weights_lst,
+            "output": self.output,
+            "topk_weights": topk_weights,
+            "sorted_token_ids": sorted_token_ids,
+            "expert_ids": expert_ids,
+            "num_tokens_post_padded": num_tokens_post_padded,
+            "top_k_num": ctx.top_k_num,
+            "device": self.input.device,
+            "N": lora_rank,
+            "M": topk_weights.shape[0],
+            "EM": sorted_token_ids.shape[1],
+            "K": self.input.shape[1],
+            "num_tokens": num_tokens,
+            "num_experts": ctx.num_experts,
+            "num_slices": num_slices,
+            "max_lora_rank": lora_rank,
+            "w1_output_dim_size": lw_shape[2],
+            "expand_block_size_m": kernel_config["BLOCK_SIZE_M"],
+            "expand_block_size_n": kernel_config["BLOCK_SIZE_N"],
+            "expand_block_size_k": kernel_config["BLOCK_SIZE_K"],
+            "expand_group_size_m": kernel_config["GROUP_SIZE_M"],
+            "expand_num_warps": kernel_config["NUM_WARPS"],
+            "expand_num_stages": kernel_config["NUM_STAGES"],
+            "expand_split_k": kernel_config.get("SPLIT_K", 1),
+            "mul_routed_weight": op_type.is_fused_moe_lora_down_fn(),
+        }
+
+    def bench_fn_kwargs(
+        self, ctx: BenchmarkContext, op_type: OpType, add_inputs: bool | None = None
+    ) -> dict[str, Any]:
+        if op_type.is_shrink_fn() or op_type.is_fused_moe_lora_fn():
             assert add_inputs is None
         else:
             assert add_inputs is not None
 
         if op_type == OpType.LORA_SHRINK:
-            return self.as_lora_shrink_kwargs()
+            return self.as_lora_shrink_kwargs(ctx, op_type)
         if op_type == OpType.LORA_EXPAND:
-            return self.as_lora_expand_kwargs(add_inputs)
+            return self.as_lora_expand_kwargs(ctx, op_type, add_inputs)
+        if op_type.is_fused_moe_lora_shrink_fn():
+            return self.as_fused_moe_lora_shrink_kwargs(ctx, op_type)
+        if op_type.is_fused_moe_lora_expand_fn():
+            return self.as_fused_moe_lora_expand_kwargs(ctx, op_type)
         raise ValueError(f"Unrecognized optype {self}")
 
     def test_correctness(
@@ -617,7 +996,7 @@ def bench_optype(
     test_correctness: bool = False,
 ) -> TMeasurement:
     assert arg_pool_size >= 1
-    if op_type.is_shrink_fn():
+    if op_type.is_shrink_fn() or op_type.is_fused_moe_lora_fn():
         assert expand_fn_add_inputs is None
     else:
         assert expand_fn_add_inputs is not None
@@ -627,23 +1006,30 @@ def bench_optype(
         BenchmarkTensors.make(ctx, op_type) for _ in range(arg_pool_size)
     ]
     for bt in bench_tensors:
-        bt.sanity_check()
+        bt.sanity_check(ctx, op_type)
 
     # Test correctness of our implementation.
     if test_correctness:
+        assert op_type in [OpType.LORA_SHRINK, OpType.LORA_EXPAND], (
+            f"Correctness testing is not supported for {op_type.name}."
+        )
         assert all(
-            [bt.test_correctness(op_type, expand_fn_add_inputs) for bt in bench_tensors]
+            [
+                bt.test_correctness(ctx, op_type, expand_fn_add_inputs)
+                for bt in bench_tensors
+            ]
         )
 
     # BenchmarkTensors -> dict (kwargs)
     kwargs_list = [
-        bt.bench_fn_kwargs(op_type, add_inputs=expand_fn_add_inputs)
+        bt.bench_fn_kwargs(ctx, op_type, add_inputs=expand_fn_add_inputs)
         for bt in bench_tensors
     ]
 
     # Clear LoRA optimization hash-maps.
     _LORA_A_PTR_DICT.clear()
     _LORA_B_PTR_DICT.clear()
+    _LORA_PTR_DICT.clear()
     # Run bench function so that _LORA_A_PTR_DICT and _LORA_B_PTR_DICT are set up
     for kwargs in kwargs_list:
         op_type.bench_fn()(**kwargs)
@@ -793,7 +1179,9 @@ def run(args: argparse.Namespace, bench_ctxs: list[BenchmarkContext]):
 
                     # Benchmark bench_op
                     expand_fn_add_inputs = (
-                        [None] if bench_op.is_shrink_fn() else args.expand_fn_add_inputs
+                        [None]
+                        if bench_op.is_shrink_fn() or bench_op.is_fused_moe_lora_fn()
+                        else args.expand_fn_add_inputs
                     )
                     for add_input_arg in expand_fn_add_inputs:
                         seq_len_timers.append(
@@ -831,12 +1219,22 @@ def as_benchmark_contexts(
     hidden_sizes: list[int], lora_ranks: list[int], args: argparse.Namespace
 ) -> list[BenchmarkContext]:
     ctxs: list[BenchmarkContext] = []
-    for batch_size, hidden_size, lora_rank, num_loras, sort_by_lora_id in product(  # noqa
+    for (
+        batch_size,
+        hidden_size,
+        lora_rank,
+        num_loras,
+        sort_by_lora_id,
+        top_k_num,
+        num_experts,
+    ) in product(  # noqa
         args.batch_sizes,
         list(hidden_sizes),
         lora_ranks,
         args.num_loras,
         args.sort_by_lora_id,
+        args.top_k_nums,
+        args.num_experts,
     ):
         ctxs.append(
             BenchmarkContext(
@@ -851,6 +1249,8 @@ def as_benchmark_contexts(
                 seq_length=None,
                 sort_by_lora_id=sort_by_lora_id,
                 dtype=args.dtype,
+                top_k_num=top_k_num,
+                num_experts=num_experts,
                 # To be filled based on the OpType to benchmark
                 num_slices=None,
             )
@@ -1012,6 +1412,22 @@ if __name__ == "__main__":
             ),
         )
 
+        p.add_argument(
+            "--top-k-nums",
+            nargs="+",
+            type=int,
+            default=DEFAULT_TOP_K_NUMS,
+            help="Top-K values for MoE LoRA operations",
+        )
+
+        p.add_argument(
+            "--num-experts",
+            nargs="+",
+            type=int,
+            default=DEFAULT_NUM_EXPERTS,
+            help="Number of experts for MoE LoRA operations",
+        )
+
     parser = FlexibleArgumentParser(
         description=f"""
 Benchmark LoRA kernels:
diff --git a/tests/lora/test_fused_moe_lora_kernel.py b/tests/lora/test_fused_moe_lora_kernel.py
index 318a0e58805d3..91ab4a87c65f8 100644
--- a/tests/lora/test_fused_moe_lora_kernel.py
+++ b/tests/lora/test_fused_moe_lora_kernel.py
@@ -158,6 +158,8 @@ def use_fused_moe_lora_kernel(
         "BLOCK_SIZE_N": 32,
         "BLOCK_SIZE_K": 64,
         "GROUP_SIZE_M": 1,
+        "NUM_WARPS": 4,
+        "NUM_STAGES": 3,
         "SPLIT_K": 1,
     }
 
@@ -182,6 +184,15 @@ def use_fused_moe_lora_kernel(
         config["BLOCK_SIZE_N"],
         config["BLOCK_SIZE_K"],
         config["GROUP_SIZE_M"],
+        config["NUM_WARPS"],
+        config["NUM_STAGES"],
+        config["SPLIT_K"],
+        config["BLOCK_SIZE_M"],
+        config["BLOCK_SIZE_N"],
+        config["BLOCK_SIZE_K"],
+        config["GROUP_SIZE_M"],
+        config["NUM_WARPS"],
+        config["NUM_STAGES"],
         config["SPLIT_K"],
         mul_routed_weight,
     )
diff --git a/vllm/lora/layers/fused_moe.py b/vllm/lora/layers/fused_moe.py
index 7711f5c3208bc..f5a766dd5e45a 100644
--- a/vllm/lora/layers/fused_moe.py
+++ b/vllm/lora/layers/fused_moe.py
@@ -13,6 +13,7 @@ from vllm.distributed.parallel_state import (
     get_tensor_model_parallel_world_size,
 )
 from vllm.lora.layers.base import BaseLayerWithLoRA
+from vllm.lora.ops.triton_ops.utils import get_lora_op_configs
 from vllm.model_executor.layers.fused_moe import FusedMoE
 from vllm.model_executor.layers.fused_moe.config import (
     _get_config_dtype_str,
@@ -39,6 +40,64 @@ class FusedMoEWithLoRA(BaseLayerWithLoRA):
         self.device = base_layer.w2_weight.device
         self._inject_lora_into_fused_moe()
 
+    def _normalize_keys(self, config: dict[str, int | None]) -> dict[str, int | None]:
+        normalized_config = {}
+        for key, value in config.items():
+            if key.islower():
+                if key.startswith("block_"):
+                    normalized_key = "BLOCK_SIZE_" + key.split("_")[-1].upper()
+                else:
+                    normalized_key = key.upper()
+            else:
+                normalized_key = key
+            normalized_config[normalized_key] = value
+        return normalized_config
+
+    def _get_lora_moe_configs(
+        self,
+        op_prefix: str,
+        lora_a_stacked: torch.Tensor,
+        lora_b_stacked: torch.Tensor,
+        num_slices: int,
+        M: int,
+        layer: FusedMoE,
+        top_k: int,
+        config_dtype: str,
+    ):
+        if envs.VLLM_TUNED_CONFIG_FOLDER:
+            shrink_config = get_lora_op_configs(
+                op_type=f"fused_moe_lora_{op_prefix}_shrink",
+                max_loras=lora_a_stacked.shape[0],
+                batch=M,
+                hidden_size=lora_a_stacked.shape[-1],
+                rank=lora_a_stacked.shape[-2],
+                num_slices=num_slices,
+                moe_intermediate_size=lora_b_stacked.shape[-2],
+            )
+            expand_config = get_lora_op_configs(
+                op_type=f"fused_moe_lora_{op_prefix}_expand",
+                max_loras=lora_a_stacked.shape[0],
+                batch=M,
+                hidden_size=lora_a_stacked.shape[-1],
+                rank=lora_a_stacked.shape[-2],
+                num_slices=num_slices,
+                moe_intermediate_size=lora_b_stacked.shape[-2],
+            )
+        else:  # fall back to the default config
+            get_config_func = functools.partial(
+                try_get_optimal_moe_config,
+                layer.w13_weight.size(),
+                layer.w2_weight.size(),
+                top_k,
+                config_dtype,
+                block_shape=layer.quant_method.moe_quant_config.block_shape,
+            )
+            shrink_config = get_config_func(M)
+            expand_config = get_config_func(M)
+        shrink_config = self._normalize_keys(shrink_config)
+        expand_config = self._normalize_keys(expand_config)
+        return shrink_config, expand_config
+
     def _inject_lora_into_fused_moe(self):
         moe_state_dict = {}
         top_k = self.base_layer.top_k
@@ -90,17 +149,19 @@ class FusedMoEWithLoRA(BaseLayerWithLoRA):
                 num_tokens = hidden_states.size(0)
                 M = min(num_tokens, CHUNK_SIZE)
 
-                get_config_func = functools.partial(
-                    try_get_optimal_moe_config,
-                    layer.w13_weight.size(),
-                    layer.w2_weight.size(),
-                    top_k,
-                    config_dtype,
-                    block_shape=layer.quant_method.moe_quant_config.block_shape,
+                shrink_config, expand_config = self._get_lora_moe_configs(
+                    op_prefix="w13",
+                    lora_a_stacked=self.w1_lora_a_stacked,
+                    lora_b_stacked=self.w1_lora_b_stacked,
+                    num_slices=2,
+                    M=M,
+                    layer=layer,
+                    top_k=top_k,
+                    config_dtype=config_dtype,
                 )
 
+                # get the block size of m from customized config or default config
                 max_loras = self.w1_lora_a_stacked.shape[0]
-                config = get_config_func(M)
                 (
                     sorted_token_ids_lora,
                     expert_ids_lora,
@@ -108,7 +169,7 @@ class FusedMoEWithLoRA(BaseLayerWithLoRA):
                 ) = self.punica_wrapper.moe_lora_align_block_size(
                     curr_topk_ids,
                     num_tokens,
-                    config["BLOCK_SIZE_M"],
+                    shrink_config["BLOCK_SIZE_M"],
                     self.base_layer.local_num_experts,
                     max_loras,
                     self.adapter_enabled,
@@ -138,7 +199,8 @@ class FusedMoEWithLoRA(BaseLayerWithLoRA):
                     num_tokens_post_padded_lora,
                     max_lora_rank,
                     top_k,
-                    config,
+                    shrink_config,  ## pass the shrink config
+                    expand_config,  ## pass the expand config
                     self.adapter_enabled,
                 )
 
@@ -164,17 +226,17 @@ class FusedMoEWithLoRA(BaseLayerWithLoRA):
                 num_tokens = hidden_states.size(0)
                 M = min(num_tokens, CHUNK_SIZE)
 
-                get_config_func = functools.partial(
-                    try_get_optimal_moe_config,
-                    layer.w13_weight.size(),
-                    layer.w2_weight.size(),
-                    top_k,
-                    config_dtype,
-                    block_shape=layer.quant_method.moe_quant_config.block_shape,
+                shrink_config, expand_config = self._get_lora_moe_configs(
+                    op_prefix="w2",
+                    lora_a_stacked=self.w2_lora_a_stacked,
+                    lora_b_stacked=self.w2_lora_b_stacked,
+                    num_slices=1,
+                    M=M,
+                    layer=layer,
+                    top_k=top_k,
+                    config_dtype=config_dtype,
                 )
 
-                config = get_config_func(M)
-
                 sorted_token_ids_lora = moe_state_dict["sorted_token_ids_lora"]
                 expert_ids_lora = moe_state_dict["expert_ids_lora"]
                 num_tokens_post_padded_lora = moe_state_dict[
@@ -197,7 +259,8 @@ class FusedMoEWithLoRA(BaseLayerWithLoRA):
                     num_tokens_post_padded_lora,
                     max_lora_rank,
                     top_k,
-                    config,
+                    shrink_config,  ## pass the shrink config
+                    expand_config,  ## pass the expand config
                     self.adapter_enabled,
                     True,
                 )
diff --git a/vllm/lora/ops/triton_ops/README_TUNING.md b/vllm/lora/ops/triton_ops/README_TUNING.md
index fda95ea71891f..d576e261557a4 100644
--- a/vllm/lora/ops/triton_ops/README_TUNING.md
+++ b/vllm/lora/ops/triton_ops/README_TUNING.md
@@ -44,8 +44,17 @@ For `shrink`, the config file is named as `{gpu_name}_SHRINK.json`, e.g. `NVIDIA
 
 For `expand`, the config fileis named as `{gpu_name}_EXPAND_{add_input}.json`, e.g. `NVIDIA_H200_EXPAND_TRUE.json`.
 
+For `fused_moe_lora_w13_shrink`, the config file is named as `{gpu_name}_FUSED_MOE_LORA_W13_SHRINK.json`, e.g. `NVIDIA_H200_FUSED_MOE_LORA_W13_SHRINK.json`.
+
+For `fused_moe_lora_w13_expand`, the config file is named as `{gpu_name}_FUSED_MOE_LORA_W13_EXPAND.json`, e.g. `NVIDIA_H200_FUSED_MOE_LORA_W13_EXPAND.json`.
+
+For `fused_moe_lora_w2_shrink`, the config file is named as `{gpu_name}_FUSED_MOE_LORA_W2_SHRINK.json`, e.g. `NVIDIA_H200_FUSED_MOE_LORA_W2_SHRINK.json`.
+
+For `fused_moe_lora_w2_expand`, the config file is named as `{gpu_name}_FUSED_MOE_LORA_W2_EXPAND.json`, e.g. `NVIDIA_H200_FUSED_MOE_LORA_W2_EXPAND.json`.
+
 The `gpu_name` can be automatically detected by calling `torch.cuda.get_device_name()`
 
 ### Json Structure
 
-Optimal kernel configuration files are saved as JSON files with the structure `config_data[max_loras][num_slices][m][k][n]`
+Optimal kernel configuration files are saved as JSON files with the structure `config_data[max_loras][num_slices][m][k][n][i]`
+where `i` is an optional dimension in the `fused_moe_lora` configuration, representing the intermediate size of the MoE layer.
diff --git a/vllm/lora/ops/triton_ops/__init__.py b/vllm/lora/ops/triton_ops/__init__.py
index 436ea4ed00c82..7e8b9a79add39 100644
--- a/vllm/lora/ops/triton_ops/__init__.py
+++ b/vllm/lora/ops/triton_ops/__init__.py
@@ -1,7 +1,12 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
-from vllm.lora.ops.triton_ops.fused_moe_lora_op import fused_moe_lora
+
+from vllm.lora.ops.triton_ops.fused_moe_lora_op import (
+    fused_moe_lora,
+    fused_moe_lora_expand,
+    fused_moe_lora_shrink,
+)
 from vllm.lora.ops.triton_ops.lora_expand_op import lora_expand
 from vllm.lora.ops.triton_ops.lora_kernel_metadata import LoRAKernelMeta
 from vllm.lora.ops.triton_ops.lora_shrink_op import lora_shrink
@@ -11,4 +16,6 @@ __all__ = [
     "lora_shrink",
     "LoRAKernelMeta",
     "fused_moe_lora",
+    "fused_moe_lora_shrink",
+    "fused_moe_lora_expand",
 ]
diff --git a/vllm/lora/ops/triton_ops/fused_moe_lora_op.py b/vllm/lora/ops/triton_ops/fused_moe_lora_op.py
index 539605c7c534a..8f85f926aa4f1 100644
--- a/vllm/lora/ops/triton_ops/fused_moe_lora_op.py
+++ b/vllm/lora/ops/triton_ops/fused_moe_lora_op.py
@@ -176,88 +176,50 @@ def _fused_moe_lora_kernel(
 
 
 @torch.inference_mode()
-def _fused_moe_lora(
-    output: torch.Tensor,  # (num_tokens, top_k_num, N*len(lora_a_stacked),)
+def _fused_moe_lora_shrink(
+    a_intermediate_cache1: torch.Tensor,
+    # (num_slices, num_tokens, top_k_num, max_lora_rank)
     qcurr_hidden_states: torch.Tensor,  # (num_tokens, K,)
     lora_a_stacked: list[
         torch.Tensor
     ],  # [(max_loras, num_experts, max_lora_rank, K,),...]
-    lora_b_stacked: list[
-        torch.Tensor
-    ],  # [(max_loras, num_experts, N, max_lora_rank,),...]
     topk_weights: torch.Tensor,  # (num_tokens, top_k_num)
     sorted_token_ids: torch.Tensor,  # (max_loras, _)
     expert_ids: torch.Tensor,  # (max_loras, _ ,)
     num_tokens_post_padded: torch.Tensor,  # (max_loras, )
-    max_lora_rank: int,
     top_k_num: int,
     lora_ids: torch.Tensor,
     adapter_enabled: torch.Tensor,
+    ## adding for kernel
+    device: torch.device,
+    N: int,
+    M: int,
+    EM: int,
+    K: int,
+    num_tokens: int,
+    num_experts: int,
+    num_slices: int,
     block_size_m: int,
     block_size_n: int,
     block_size_k: int,
     group_size_m: int,
+    num_warps: int,
+    num_stages: int,
     split_k: int,
     mul_routed_weight: bool = False,
 ) -> None:
-    assert len(lora_a_stacked) == len(lora_b_stacked) > 0
-    assert (
-        sorted_token_ids.dim()
-        == expert_ids.dim()
-        == topk_weights.dim()
-        == qcurr_hidden_states.dim()
-        == 2
-    )
-    assert (
-        sorted_token_ids.shape[0]
-        == expert_ids.shape[0]
-        == num_tokens_post_padded.shape[0]
-    )
-    assert len(lora_b_stacked) * lora_b_stacked[0].shape[-2] == output.shape[-1]
-    assert output.shape[0] == topk_weights.shape[0]
-    assert top_k_num == topk_weights.shape[1]
+    w1_lora_a_stacked = lora_a_stacked[0]
 
-    for lora_a, lora_b in zip(lora_a_stacked, lora_b_stacked):
-        assert lora_a.dtype == lora_b.dtype == output.dtype == qcurr_hidden_states.dtype
-        assert lora_a.dtype in [torch.float16, torch.bfloat16]
-
-    device = qcurr_hidden_states.device
-    num_slices = len(lora_a_stacked)
-
-    config = {
+    shrink_config = {
         "BLOCK_SIZE_M": block_size_m,
         "BLOCK_SIZE_N": block_size_n,
         "BLOCK_SIZE_K": block_size_k,
         "GROUP_SIZE_M": group_size_m,
+        "num_warps": num_warps,
+        "num_stages": num_stages,
         "SPLIT_K": split_k,
     }
 
-    w1_lora_a_stacked = lora_a_stacked[0]
-    w1_lora_b_stacked = lora_b_stacked[0]
-    num_experts = lora_a_stacked[0].shape[1]
-
-    N = max_lora_rank
-    M = topk_weights.shape[0]
-    EM = sorted_token_ids.shape[1]
-    K = qcurr_hidden_states.shape[1]
-    num_tokens = M * top_k_num
-    w1_output_dim_size = w1_lora_b_stacked.shape[2]
-
-    lora_intermediate_cache1 = torch.zeros(
-        (num_slices * M * top_k_num * (max_lora_rank + w1_output_dim_size)),
-        dtype=output.dtype,
-        device=device,
-    )
-
-    # slices
-    a_intermediate_size = num_slices * M * top_k_num * max_lora_rank
-    a_intermediate_cache1 = lora_intermediate_cache1[:a_intermediate_size].view(
-        num_slices, M, top_k_num, max_lora_rank
-    )
-    b_intermediate_cache1 = lora_intermediate_cache1[a_intermediate_size:].view(
-        num_slices, M, top_k_num, w1_output_dim_size
-    )
-
     b_ptr = _get_ptr(lora_a_stacked, device)
 
     grid = lambda META: (
@@ -299,19 +261,70 @@ def _fused_moe_lora(
         num_slice_c=num_slices,
         top_k=1 if mul_routed_weight else top_k_num,
         MUL_ROUTED_WEIGHT=False,
-        **config,
+        **shrink_config,
     )
 
+
+@torch.inference_mode()
+def _fused_moe_lora_expand(
+    output: torch.Tensor,  # (num_tokens, top_k_num, N*len(lora_a_stacked),)
+    a_intermediate_cache1: torch.Tensor,  # (num_slices, M, top_k_num, max_lora_rank)
+    lora_b_stacked: list[
+        torch.Tensor
+    ],  # [(max_loras, num_experts, max_lora_rank, K,),...]
+    topk_weights: torch.Tensor,  # (num_tokens, top_k_num)
+    sorted_token_ids: torch.Tensor,  # (max_loras, _)
+    expert_ids: torch.Tensor,  # (max_loras, _ ,)
+    num_tokens_post_padded: torch.Tensor,  # (max_loras, )
+    top_k_num: int,
+    lora_ids: torch.Tensor,
+    adapter_enabled: torch.Tensor,
+    ## adding for kernel
+    device: torch.device,
+    N: int,
+    M: int,
+    EM: int,
+    K: int,
+    num_tokens: int,
+    num_experts: int,
+    num_slices: int,
+    max_lora_rank: int,
+    w1_output_dim_size: int,
+    block_size_m: int,
+    block_size_n: int,
+    block_size_k: int,
+    group_size_m: int,
+    num_warps: int,
+    num_stages: int,
+    split_k: int,
+    mul_routed_weight: bool = False,
+) -> None:
     b_ptr = _get_ptr(lora_b_stacked, device)
     K = max_lora_rank
     N = w1_output_dim_size
 
+    w1_lora_b_stacked = lora_b_stacked[0]
+
     a_intermediate_cache1 = a_intermediate_cache1.view(
         -1, a_intermediate_cache1.shape[3]
     )
 
-    # Set split_k = 1 for expand calls
-    config["SPLIT_K"] = 1
+    b_intermediate_cache1 = torch.zeros(
+        (num_slices, M, top_k_num, w1_output_dim_size),
+        dtype=output.dtype,
+        device=device,
+    )
+
+    expand_config = {
+        "BLOCK_SIZE_M": block_size_m,
+        "BLOCK_SIZE_N": block_size_n,
+        "BLOCK_SIZE_K": block_size_k,
+        "GROUP_SIZE_M": group_size_m,
+        "num_warps": num_warps,
+        "num_stages": num_stages,
+        "SPLIT_K": split_k,  # Set split_k = 1 for expand calls
+    }
+
     grid = lambda META: (
         triton.cdiv(EM, META["BLOCK_SIZE_M"]) * triton.cdiv(N, META["BLOCK_SIZE_N"]),
         len(lora_b_stacked),
@@ -348,12 +361,142 @@ def _fused_moe_lora(
         num_slice_c=num_slices,
         top_k=1,
         MUL_ROUTED_WEIGHT=mul_routed_weight,
-        **config,
+        **expand_config,
     )
     for i in range(num_slices):
         output[:, :, i * N : (i + 1) * N] += b_intermediate_cache1[i]
 
 
+@torch.inference_mode()
+def _fused_moe_lora(
+    output: torch.Tensor,  # (num_tokens, top_k_num, N*len(lora_a_stacked),)
+    qcurr_hidden_states: torch.Tensor,  # (num_tokens, K,)
+    lora_a_stacked: list[
+        torch.Tensor
+    ],  # [(max_loras, num_experts, max_lora_rank, K,),...]
+    lora_b_stacked: list[
+        torch.Tensor
+    ],  # [(max_loras, num_experts, N, max_lora_rank,),...]
+    topk_weights: torch.Tensor,  # (num_tokens, top_k_num)
+    sorted_token_ids: torch.Tensor,  # (max_loras, _)
+    expert_ids: torch.Tensor,  # (max_loras, _ ,)
+    num_tokens_post_padded: torch.Tensor,  # (max_loras, )
+    max_lora_rank: int,
+    top_k_num: int,
+    lora_ids: torch.Tensor,
+    adapter_enabled: torch.Tensor,
+    shrink_block_size_m: int,
+    shrink_block_size_n: int,
+    shrink_block_size_k: int,
+    shrink_group_size_m: int,
+    shrink_num_warps: int,
+    shrink_num_stages: int,
+    shrink_split_k: int,
+    expand_block_size_m: int,
+    expand_block_size_n: int,
+    expand_block_size_k: int,
+    expand_group_size_m: int,
+    expand_num_warps: int,
+    expand_num_stages: int,
+    expand_split_k: int,
+    mul_routed_weight: bool = False,
+) -> None:
+    assert len(lora_a_stacked) == len(lora_b_stacked) > 0
+    assert (
+        sorted_token_ids.dim()
+        == expert_ids.dim()
+        == topk_weights.dim()
+        == qcurr_hidden_states.dim()
+        == 2
+    )
+    assert (
+        sorted_token_ids.shape[0]
+        == expert_ids.shape[0]
+        == num_tokens_post_padded.shape[0]
+    )
+    assert len(lora_b_stacked) * lora_b_stacked[0].shape[-2] == output.shape[-1]
+    assert output.shape[0] == topk_weights.shape[0]
+    assert top_k_num == topk_weights.shape[1]
+    device = qcurr_hidden_states.device
+    num_slices = len(lora_a_stacked)
+    w1_lora_b_stacked = lora_b_stacked[0]
+    num_experts = lora_a_stacked[0].shape[1]
+    N = max_lora_rank
+    M = topk_weights.shape[0]
+    EM = sorted_token_ids.shape[1]
+    K = qcurr_hidden_states.shape[1]
+    num_tokens = M * top_k_num
+    w1_output_dim_size = w1_lora_b_stacked.shape[2]
+
+    a_intermediate_cache1 = torch.zeros(
+        (num_slices, M, top_k_num, max_lora_rank),
+        dtype=output.dtype,
+        device=device,
+    )
+
+    _fused_moe_lora_shrink(
+        a_intermediate_cache1,
+        qcurr_hidden_states,
+        lora_a_stacked,
+        topk_weights,
+        sorted_token_ids,
+        expert_ids,
+        num_tokens_post_padded,
+        top_k_num,
+        lora_ids,
+        adapter_enabled,
+        ## adding for kernel
+        device,
+        N,
+        M,
+        EM,
+        K,
+        num_tokens,
+        num_experts,
+        num_slices,
+        shrink_block_size_m,
+        shrink_block_size_n,
+        shrink_block_size_k,
+        shrink_group_size_m,
+        shrink_num_warps,
+        shrink_num_stages,
+        shrink_split_k,
+        mul_routed_weight,
+    )
+
+    _fused_moe_lora_expand(
+        output,
+        a_intermediate_cache1,
+        lora_b_stacked,
+        topk_weights,
+        sorted_token_ids,
+        expert_ids,
+        num_tokens_post_padded,
+        top_k_num,
+        lora_ids,
+        adapter_enabled,
+        ## adding for kernel
+        device,
+        N,
+        M,
+        EM,
+        K,
+        num_tokens,
+        num_experts,
+        num_slices,
+        max_lora_rank,
+        w1_output_dim_size,
+        expand_block_size_m,
+        expand_block_size_n,
+        expand_block_size_k,
+        expand_group_size_m,
+        expand_num_warps,
+        expand_num_stages,
+        expand_split_k,
+        mul_routed_weight,
+    )
+
+
 def _fused_moe_lora_fake(
     output: torch.Tensor,
     qcurr_hidden_states: torch.Tensor,
@@ -367,10 +510,84 @@ def _fused_moe_lora_fake(
     top_k_num: int,
     lora_ids: torch.Tensor,
     adapter_enabled: torch.Tensor,
+    shrink_block_size_m: int,
+    shrink_block_size_n: int,
+    shrink_block_size_k: int,
+    shrink_group_size_m: int,
+    shrink_num_warps: int,
+    shrink_num_stages: int,
+    shrink_split_k: int,
+    expand_block_size_m: int,
+    expand_block_size_n: int,
+    expand_block_size_k: int,
+    expand_group_size_m: int,
+    expand_num_warps: int,
+    expand_num_stages: int,
+    expand_split_k: int,
+    mul_routed_weight: bool = False,
+) -> None:
+    return
+
+
+def _fused_moe_lora_shrink_fake(
+    a_intermediate_cache1: torch.Tensor,
+    qcurr_hidden_states: torch.Tensor,
+    lora_a_stacked: list[torch.Tensor],
+    topk_weights: torch.Tensor,
+    sorted_token_ids: torch.Tensor,
+    expert_ids: torch.Tensor,
+    num_tokens_post_padded: torch.Tensor,
+    top_k_num: int,
+    lora_ids: torch.Tensor,
+    adapter_enabled: torch.Tensor,
+    device: torch.device,
+    N: int,
+    M: int,
+    EM: int,
+    K: int,
+    num_tokens: int,
+    num_experts: int,
+    num_slices: int,
     block_size_m: int,
     block_size_n: int,
     block_size_k: int,
     group_size_m: int,
+    num_warps: int,
+    num_stages: int,
+    split_k: int,
+    mul_routed_weight: bool = False,
+) -> None:
+    return
+
+
+def _fused_moe_lora_expand_fake(
+    output: torch.Tensor,
+    a_intermediate_cache1: torch.Tensor,
+    lora_b_stacked: list[torch.Tensor],
+    topk_weights: torch.Tensor,
+    sorted_token_ids: torch.Tensor,
+    expert_ids: torch.Tensor,
+    num_tokens_post_padded: torch.Tensor,
+    top_k_num: int,
+    lora_ids: torch.Tensor,
+    adapter_enabled: torch.Tensor,
+    device: torch.device,
+    N: int,
+    M: int,
+    EM: int,
+    K: int,
+    num_tokens: int,
+    num_experts: int,
+    num_slices: int,
+    max_lora_rank: int,
+    w1_output_dim_size: int,
+    block_size_m: int,
+    block_size_n: int,
+    block_size_k: int,
+    group_size_m: int,
+    num_warps: int,
+    num_stages: int,
+    split_k: int,
     mul_routed_weight: bool = False,
 ) -> None:
     return
@@ -383,7 +600,26 @@ try:
         mutates_args=["output"],
         fake_impl=_fused_moe_lora_fake,
     )
+
+    direct_register_custom_op(
+        op_name="fused_moe_lora_shrink",
+        op_func=_fused_moe_lora_shrink,
+        mutates_args=["a_intermediate_cache1"],
+        fake_impl=_fused_moe_lora_shrink_fake,
+    )
+
+    direct_register_custom_op(
+        op_name="fused_moe_lora_expand",
+        op_func=_fused_moe_lora_expand,
+        mutates_args=["output"],
+        fake_impl=_fused_moe_lora_expand_fake,
+    )
+
     fused_moe_lora = torch.ops.vllm.fused_moe_lora
+    fused_moe_lora_shrink = torch.ops.vllm.fused_moe_lora_shrink
+    fused_moe_lora_expand = torch.ops.vllm.fused_moe_lora_expand
 
 except AttributeError:
     fused_moe_lora = _fused_moe_lora
+    fused_moe_lora_shrink = _fused_moe_lora_shrink
+    fused_moe_lora_expand = _fused_moe_lora_expand
diff --git a/vllm/lora/ops/triton_ops/utils.py b/vllm/lora/ops/triton_ops/utils.py
index 368c5037d2e4d..bd413a6db26b8 100644
--- a/vllm/lora/ops/triton_ops/utils.py
+++ b/vllm/lora/ops/triton_ops/utils.py
@@ -154,13 +154,13 @@ def load_lora_op_config(op_type: str, add_inputs: bool | None) -> dict | None:
         gpu_name = gpu_name.replace("-", "_")
 
         config_fname = None
-        if op_type == "shrink":
-            config_fname = f"{gpu_name}_{op_type.upper()}.json"
-        else:
-            assert op_type == "expand"
+        # only expand op needs to consider add_inputs
+        if op_type == "expand":
             config_fname = (
                 f"{gpu_name}_{op_type.upper()}_{str(add_inputs).upper()}.json"
             )
+        else:
+            config_fname = f"{gpu_name}_{op_type.upper()}.json"
 
         config_path = Path(f"{user_defined_config_folder}/{config_fname}")
         if not config_path.exists():
@@ -186,8 +186,17 @@ def get_lora_op_configs(
     rank: int,
     num_slices: int,
     add_inputs: bool | None = None,
+    moe_intermediate_size: int | None = None,
 ) -> dict[str, int | None]:
-    assert op_type in ["shrink", "expand"]
+    # Add support for fused_moe_lora ops
+    assert op_type in [
+        "shrink",
+        "expand",
+        "fused_moe_lora_w13_shrink",
+        "fused_moe_lora_w13_expand",
+        "fused_moe_lora_w2_shrink",
+        "fused_moe_lora_w2_expand",
+    ]
 
     # default config
     default = {}
@@ -203,6 +212,22 @@ def get_lora_op_configs(
             "num_stages": 2,
             "max_nreg": None,
         }
+    # The default config for fused_moe_lora ops
+    elif op_type in [
+        "fused_moe_lora_w13_shrink",
+        "fused_moe_lora_w13_expand",
+        "fused_moe_lora_w2_shrink",
+        "fused_moe_lora_w2_expand",
+    ]:
+        default = {
+            "block_m": 64,
+            "block_n": 64,
+            "block_k": 32,
+            "num_warps": 4,
+            "num_stages": 3,
+            "group_size_m": 8,
+            "split_k": 1,
+        }
     else:
         default = {
             "block_m": 64,
@@ -247,5 +272,13 @@ def get_lora_op_configs(
         or config_data[min(config_data.keys(), key=lambda x: abs(int(x) - n))]
     )
 
+    # slice by moe-intermediate-size if applicable
+    if moe_intermediate_size is not None:
+        i = moe_intermediate_size
+        config_data = (
+            config_data.get(str(i))
+            or config_data[min(config_data.keys(), key=lambda x: abs(int(x) - i))]
+        )
+
     assert config_data is not None
     return config_data
diff --git a/vllm/lora/punica_wrapper/punica_base.py b/vllm/lora/punica_wrapper/punica_base.py
index c552412cfd62e..b6186e8561529 100644
--- a/vllm/lora/punica_wrapper/punica_base.py
+++ b/vllm/lora/punica_wrapper/punica_base.py
@@ -479,7 +479,8 @@ class PunicaWrapperBase(PunicaWrapperABC):
         num_tokens_post_padded: torch.Tensor,
         max_lora_rank: int,
         top_k_num: int,
-        config,
+        shrink_config,
+        expand_config,
         adapter_enabled: torch.Tensor,
         mul_routed_weight=False,
     ):
diff --git a/vllm/lora/punica_wrapper/punica_gpu.py b/vllm/lora/punica_wrapper/punica_gpu.py
index 30def90380db1..1bb80e516d3f8 100644
--- a/vllm/lora/punica_wrapper/punica_gpu.py
+++ b/vllm/lora/punica_wrapper/punica_gpu.py
@@ -367,7 +367,8 @@ class PunicaWrapperGPU(PunicaWrapperBase):
         num_tokens_post_padded: torch.Tensor,
         max_lora_rank: int,
         top_k_num: int,
-        config,
+        shrink_config,
+        expand_config,
         adapter_enabled: torch.Tensor,
         mul_routed_weight=False,
     ):
@@ -388,10 +389,19 @@ class PunicaWrapperGPU(PunicaWrapperBase):
             top_k_num,
             lora_ids,
             adapter_enabled,
-            config["BLOCK_SIZE_M"],
-            config["BLOCK_SIZE_N"],
-            config["BLOCK_SIZE_K"],
-            config["GROUP_SIZE_M"],
-            config.get("SPLIT_K", 1),
+            shrink_config.get("BLOCK_SIZE_M", 64),
+            shrink_config.get("BLOCK_SIZE_N", 64),
+            shrink_config.get("BLOCK_SIZE_K", 32),
+            shrink_config.get("GROUP_SIZE_M", 8),
+            shrink_config.get("NUM_WARPS", 4),
+            shrink_config.get("NUM_STAGES", 3),
+            shrink_config.get("SPLIT_K", 1),
+            expand_config.get("BLOCK_SIZE_M", 64),
+            expand_config.get("BLOCK_SIZE_N", 64),
+            expand_config.get("BLOCK_SIZE_K", 32),
+            expand_config.get("GROUP_SIZE_M", 8),
+            expand_config.get("NUM_WARPS", 4),
+            expand_config.get("NUM_STAGES", 3),
+            expand_config.get("SPLIT_K", 1),
             mul_routed_weight,
         )

From 03c4c4aa9deb2ad09a95c7997d2e5578c8db68d6 Mon Sep 17 00:00:00 2001
From: Jerry Zhang <jerryzh168@gmail.com>
Date: Tue, 4 Nov 2025 03:00:57 -0800
Subject: [PATCH 118/976] Support using Int4PreshuffledTensor after loading
 (#26066)

Signed-off-by: Jerry Zhang <jerryzh168@gmail.com>
---
 tests/quantization/test_torchao.py            | 146 +++++++++++++++++-
 .../layers/quantization/torchao.py            |  66 +++++++-
 2 files changed, 208 insertions(+), 4 deletions(-)

diff --git a/tests/quantization/test_torchao.py b/tests/quantization/test_torchao.py
index cab198a2a15e2..82413f36e997f 100644
--- a/tests/quantization/test_torchao.py
+++ b/tests/quantization/test_torchao.py
@@ -99,7 +99,7 @@ def test_opt_125m_awq_int4wo_model_loading_with_params(vllm_runner):
 
 
 @pytest.mark.skipif(not TORCHAO_AVAILABLE, reason="torchao is not available")
-def test_on_the_fly_quant_config_dict_json(vllm_runner):
+def test_online_quant_config_dict_json(vllm_runner):
     """Testing on the fly quantization, load_weights integration point,
     with config dict serialized to json string
     """
@@ -133,7 +133,7 @@ def test_on_the_fly_quant_config_dict_json(vllm_runner):
 
 
 @pytest.mark.skipif(not TORCHAO_AVAILABLE, reason="torchao is not available")
-def test_on_the_fly_quant_config_file(vllm_runner):
+def test_online_quant_config_file(vllm_runner):
     """Testing on the fly quantization, load_weights integration point,
     with config file
     """
@@ -252,6 +252,148 @@ def test_opt_125m_module_fqn_to_config_regex_model(vllm_runner):
     ) as llm:
         output = llm.generate_greedy(["The capital of France is"], max_tokens=4)
 
+    assert output
+
+
+@pytest.mark.skipif(not TORCHAO_AVAILABLE, reason="torchao is not available")
+@pytest.mark.skip(
+    reason="since torchao nightly is only compatible with torch nightly"
+    "currently https://github.com/pytorch/ao/issues/2919, we'll have to skip "
+    "torchao tests that requires newer versions (0.14.0.dev+) for now"
+)
+def test_opt_125m_int4wo_model_running_preshuffled_kernel(vllm_runner, monkeypatch):
+    """We load a model with Int4Tensor (plain format) linear weights
+    and verify that the weight is updated to Int4PreshuffledTensor
+    after loading in vllm
+    """
+    from torchao.quantization import Int4PreshuffledTensor
+    from torchao.utils import _is_fbgemm_gpu_genai_available, is_sm_at_least_90
+
+    torch._dynamo.reset()
+    monkeypatch.setenv("VLLM_ALLOW_INSECURE_SERIALIZATION", "1")
+    model_name = "torchao-testing/opt-125m-Int4WeightOnlyConfig-v2-0.14.0.dev"
+    # Note: using enforce_eager=True because the `bf16i4bf16_shuffled` doesn't
+    # have meta kernel implemented yet, can remove this flag after that is implemented
+    with vllm_runner(
+        model_name=model_name,
+        quantization="torchao",
+        dtype="bfloat16",
+        pt_load_map_location="cuda:0",
+        enforce_eager=True,
+    ) as llm:
+
+        def has_int4_preshuffled_tensor_weight(model):
+            return isinstance(
+                model.model.decoder.layers[0].self_attn.qkv_proj.weight,
+                Int4PreshuffledTensor,
+            )
+
+        def get_weight_attrs(model):
+            weight = model.model.decoder.layers[0].self_attn.qkv_proj.weight
+            return [
+                weight.requires_grad,
+                weight.input_dim,
+                weight.output_dim,
+                hasattr(weight, "weight_loader"),
+            ]
+
+        llm_engine = llm.get_llm().llm_engine
+        has_int4_preshuffled_tensor = any(
+            llm_engine.apply_model(has_int4_preshuffled_tensor_weight)
+        )
+        weight_attrs = llm_engine.apply_model(get_weight_attrs)[0]
+
+        # making sure we are using Int4PreshuffledTensor on H100 GPU, when
+        # fbgemm_gpu_genai
+        # library is installed, otherwise it should be using Int4Tensor
+        if _is_fbgemm_gpu_genai_available() and is_sm_at_least_90():
+            assert has_int4_preshuffled_tensor
+        else:
+            assert not has_int4_preshuffled_tensor
+
+        assert weight_attrs == [False, 1, 0, True]
+        output = llm.generate_greedy(["The capital of France is"], max_tokens=32)
+
+        assert output
+
+
+@pytest.mark.skipif(not TORCHAO_AVAILABLE, reason="torchao is not available")
+@pytest.mark.skip(
+    reason="since torchao nightly is only compatible with torch nightly"
+    "currently https://github.com/pytorch/ao/issues/2919, we'll have to skip "
+    "torchao tests that requires newer versions (0.14.0.dev+) for now"
+)
+def test_opt_125m_int4wo_model_running_preshuffled_kernel_online_quant(
+    vllm_runner, monkeypatch
+):
+    """We load a bf16 model and online quantize the model to int4, then verify that
+    the weights are updated to Int4PreshuffledTensor after online quantization
+    """
+    from torchao.quantization import Int4PreshuffledTensor
+    from torchao.utils import _is_fbgemm_gpu_genai_available, is_sm_at_least_90
+
+    torch._dynamo.reset()
+    model_name = "facebook/opt-125m"
+
+    monkeypatch.setenv("VLLM_ALLOW_INSECURE_SERIALIZATION", "1")
+
+    import json
+
+    from torchao.core.config import config_to_dict
+    from torchao.quantization import Int4WeightOnlyConfig
+
+    torchao_quant_config = Int4WeightOnlyConfig(
+        group_size=128, int4_packing_format="plain"
+    )
+    hf_overrides = {
+        "quantization_config_dict_json": json.dumps(
+            config_to_dict(torchao_quant_config)
+        )
+    }
+
+    # Note: using enforce_eager=True because the `bf16i4bf16_shuffled` doesn't
+    # have meta kernel implemented yet, can remove this flag after that is implemented
+    with vllm_runner(
+        model_name=model_name,
+        quantization="torchao",
+        dtype="bfloat16",
+        pt_load_map_location="cuda:0",
+        hf_overrides=hf_overrides,
+        enforce_eager=True,
+    ) as llm:
+
+        def has_int4_preshuffled_tensor_weight(model):
+            return isinstance(
+                model.model.decoder.layers[0].self_attn.qkv_proj.weight,
+                Int4PreshuffledTensor,
+            )
+
+        def get_weight_attrs(model):
+            weight = model.model.decoder.layers[0].self_attn.qkv_proj.weight
+            return [
+                weight.requires_grad,
+                weight.input_dim,
+                weight.output_dim,
+                hasattr(weight, "weight_loader"),
+            ]
+
+        llm_engine = llm.get_llm().llm_engine
+        has_int4_preshuffled_tensor = any(
+            llm_engine.apply_model(has_int4_preshuffled_tensor_weight)
+        )
+        weight_attrs = llm_engine.apply_model(get_weight_attrs)[0]
+
+        # making sure we are using Int4PreshuffledTensor on H100 GPU, when
+        # fbgemm_gpu_genai
+        # library is installed, otherwise it should be using Int4Tensor
+        if _is_fbgemm_gpu_genai_available() and is_sm_at_least_90():
+            assert has_int4_preshuffled_tensor
+        else:
+            assert not has_int4_preshuffled_tensor
+
+        assert weight_attrs == [False, 1, 0, True]
+        output = llm.generate_greedy(["The capital of France is"], max_tokens=32)
+
         assert output
 
 
diff --git a/vllm/model_executor/layers/quantization/torchao.py b/vllm/model_executor/layers/quantization/torchao.py
index f42c45dae76d2..3fee71e193db5 100644
--- a/vllm/model_executor/layers/quantization/torchao.py
+++ b/vllm/model_executor/layers/quantization/torchao.py
@@ -2,6 +2,7 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 import importlib
 import json
+import types
 from importlib.util import find_spec
 from typing import Any, Optional
 
@@ -27,6 +28,39 @@ from vllm.model_executor.utils import set_weight_attrs
 logger = init_logger(__name__)
 
 
+def _bond_method_to_cls(func, obj):
+    if hasattr(func, "__self__") or not callable(func):
+        # If the function is already bound to an instance, return it as is
+        return func
+    else:
+        return types.MethodType(func, obj)
+
+
+def _get_weight_attrs(param):
+    # record attributes attached to the weight, so we can
+    # recover later
+    recorded_weight_attr = {}
+    for key in param.__dict__:
+        if hasattr(param, key):
+            attr = getattr(param, key)
+            if not callable(attr):
+                recorded_weight_attr[key] = attr
+            elif hasattr(attr, "__self__") and param is attr.__self__:
+                # if attr is a bonded method for an instance, and
+                # attr.__self__ points to the instance (param)
+                # we'll record the underlying function object
+                recorded_weight_attr[key] = attr.__func__
+            else:
+                recorded_weight_attr[key] = attr
+    return recorded_weight_attr
+
+
+def _restore_weight_attrs(param, recorded_weight_attr):
+    for attr_name, attr in recorded_weight_attr.items():
+        if not hasattr(param, attr_name):
+            setattr(param, attr_name, _bond_method_to_cls(attr, param))
+
+
 def torchao_version_at_least(torchao_version: str) -> bool:
     if find_spec("torchao"):
         try:
@@ -57,6 +91,14 @@ def should_skip(prefix: str, skip_modules: list[str]) -> bool:
     return False
 
 
+if torchao_version_at_least("0.15.0"):
+    from torchao.prototype.tensor_conversion.api import (
+        convert_to_packed_tensor_based_on_current_hardware,
+    )
+else:
+    convert_to_packed_tensor_based_on_current_hardware = lambda t: t
+
+
 class TorchAOConfig(QuantizationConfig):
     """Config class for torchao."""
 
@@ -307,12 +349,32 @@ class TorchAOLinearMethod(LinearMethodBase):
 
     def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
         if self.quant_config.is_checkpoint_torchao_serialized:
+            if not hasattr(layer, "weight"):
+                return
+
+            # record attributes attached to the weight, so we can
+            # recover later
+            recorded_weight_attr = _get_weight_attrs(layer.weight)
+
+            layer.weight = Parameter(
+                convert_to_packed_tensor_based_on_current_hardware(layer.weight),
+                requires_grad=layer.weight.requires_grad,
+            )
+
+            _restore_weight_attrs(layer.weight, recorded_weight_attr)
             return
 
-        # quantize the weight on the fly if the checkpoint is not already
+        # online quantize the weight if the checkpoint is not already
         # quantized by torchao
+        recorded_weight_attr = _get_weight_attrs(layer.weight)
+
         weight = torchao_quantize_param_data(
             layer.weight, self.quant_config.torchao_config
         )
-        set_weight_attrs(weight, {"input_dim": 1, "output_dim": 0})
+        weight = torch.nn.Parameter(
+            convert_to_packed_tensor_based_on_current_hardware(weight),
+            weight.requires_grad,
+        )
+
+        _restore_weight_attrs(weight, recorded_weight_attr)
         layer.register_parameter("weight", weight)

From 300a2659785fb925f347637d5639d74cc2c5a9f5 Mon Sep 17 00:00:00 2001
From: Zhuohan Li <zhuohan123@gmail.com>
Date: Tue, 4 Nov 2025 04:13:35 -0800
Subject: [PATCH 119/976] [Core] Enable StatLogger in LLMEngine (#28020)

Signed-off-by: Zhuohan Li <zhuohan123@gmail.com>
---
 vllm/v1/engine/llm_engine.py | 5 -----
 1 file changed, 5 deletions(-)

diff --git a/vllm/v1/engine/llm_engine.py b/vllm/v1/engine/llm_engine.py
index f44b6b2070d9f..995642a8356fc 100644
--- a/vllm/v1/engine/llm_engine.py
+++ b/vllm/v1/engine/llm_engine.py
@@ -58,11 +58,6 @@ class LLMEngine:
         use_cached_outputs: bool = False,
         multiprocess_mode: bool = False,
     ) -> None:
-        if stat_loggers is not None:
-            raise NotImplementedError(
-                "Passing StatLoggers to LLMEngine is not yet supported."
-            )
-
         self.vllm_config = vllm_config
         self.observability_config = vllm_config.observability_config
         self.model_config = vllm_config.model_config

From 77f8001f533021ece46779f5b7e69edc1d3b514f Mon Sep 17 00:00:00 2001
From: tomeras91 <57313761+tomeras91@users.noreply.github.com>
Date: Tue, 4 Nov 2025 14:28:36 +0200
Subject: [PATCH 120/976] [Model][Bugfix] fix pipeline parallelism support for
 NemotronH (#27968)

Signed-off-by: Tomer Asida <57313761+tomeras91@users.noreply.github.com>
---
 vllm/model_executor/models/nemotron_h.py | 18 +++++++++++++-----
 1 file changed, 13 insertions(+), 5 deletions(-)

diff --git a/vllm/model_executor/models/nemotron_h.py b/vllm/model_executor/models/nemotron_h.py
index 457d3910d0e57..324b63c1732fe 100644
--- a/vllm/model_executor/models/nemotron_h.py
+++ b/vllm/model_executor/models/nemotron_h.py
@@ -20,6 +20,7 @@
 
 import typing
 from collections.abc import Callable, Iterable
+from itertools import islice
 
 import torch
 from torch import nn
@@ -549,7 +550,7 @@ class NemotronHModel(nn.Module):
         self.start_layer, self.end_layer, self.layers = make_layers(
             len(config.hybrid_override_pattern), get_layer, prefix=f"{prefix}.layers"
         )
-        self.make_empty_intmd_tensors = make_empty_intermediate_tensors_factory(
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
             ["hidden_states", "residual"], config.hidden_size
         )
 
@@ -564,7 +565,7 @@ class NemotronHModel(nn.Module):
         positions: torch.Tensor,
         intermediate_tensors: IntermediateTensors | None = None,
         inputs_embeds: torch.Tensor | None = None,
-    ) -> torch.Tensor:
+    ) -> torch.Tensor | IntermediateTensors:
         if get_pp_group().is_first_rank:
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
@@ -576,8 +577,7 @@ class NemotronHModel(nn.Module):
             hidden_states = intermediate_tensors["hidden_states"]
             residual = intermediate_tensors["residual"]
 
-        residual = None
-        for i, layer in enumerate(self.layers):
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
             hidden_states, residual = layer(
                 positions=positions,
                 hidden_states=hidden_states,
@@ -633,6 +633,9 @@ class NemotronHModel(nn.Module):
                 if name.endswith(".bias") and name not in params_dict:
                     continue
 
+                if is_pp_missing_parameter(name, self):
+                    continue
+
                 param = params_dict[name]
                 weight_loader = param.weight_loader
                 weight_loader(param, loaded_weight, shard_id)
@@ -678,6 +681,9 @@ class NemotronHModel(nn.Module):
                     if is_expert_weight:
                         continue
 
+                    if is_pp_missing_parameter(name, self):
+                        continue
+
                     param = params_dict[name]
                     weight_loader = getattr(
                         param, "weight_loader", default_weight_loader
@@ -792,7 +798,9 @@ class NemotronHForCausalLM(
             self.unpadded_vocab_size, config.vocab_size
         )
 
-        self.make_empty_intmd_tensors = self.model.make_empty_intmd_tensors
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
 
         # Set MoE hyperparameters
         if self.model.has_moe:

From e4ee6586721cd9e09ac50207cb5e754d7a4a773e Mon Sep 17 00:00:00 2001
From: tomeras91 <57313761+tomeras91@users.noreply.github.com>
Date: Tue, 4 Nov 2025 14:59:43 +0200
Subject: [PATCH 121/976] [Model] add optimal triton fused moe configs for
 NemotronH MoE (#27967)

Signed-off-by: Tomer Asida <57313761+tomeras91@users.noreply.github.com>
---
 benchmarks/kernels/benchmark_moe.py           |   1 +
 ...856,device_name=NVIDIA_H100_80GB_HBM3.json | 147 ++++++++++++++++++
 .../E=128,N=1856,device_name=NVIDIA_L40S.json | 147 ++++++++++++++++++
 ...928,device_name=NVIDIA_H100_80GB_HBM3.json | 147 ++++++++++++++++++
 .../E=128,N=928,device_name=NVIDIA_L40S.json  | 147 ++++++++++++++++++
 5 files changed, 589 insertions(+)
 create mode 100644 vllm/model_executor/layers/fused_moe/configs/E=128,N=1856,device_name=NVIDIA_H100_80GB_HBM3.json
 create mode 100644 vllm/model_executor/layers/fused_moe/configs/E=128,N=1856,device_name=NVIDIA_L40S.json
 create mode 100644 vllm/model_executor/layers/fused_moe/configs/E=128,N=928,device_name=NVIDIA_H100_80GB_HBM3.json
 create mode 100644 vllm/model_executor/layers/fused_moe/configs/E=128,N=928,device_name=NVIDIA_L40S.json

diff --git a/benchmarks/kernels/benchmark_moe.py b/benchmarks/kernels/benchmark_moe.py
index bc6cf83bc21fd..33c83574467cc 100644
--- a/benchmarks/kernels/benchmark_moe.py
+++ b/benchmarks/kernels/benchmark_moe.py
@@ -590,6 +590,7 @@ def main(args: argparse.Namespace):
         "DeepseekV3ForCausalLM",
         "DeepseekV32ForCausalLM",
         "Glm4MoeForCausalLM",
+        "NemotronHForCausalLM",
     ):
         E = config.n_routed_experts
         topk = config.num_experts_per_tok
diff --git a/vllm/model_executor/layers/fused_moe/configs/E=128,N=1856,device_name=NVIDIA_H100_80GB_HBM3.json b/vllm/model_executor/layers/fused_moe/configs/E=128,N=1856,device_name=NVIDIA_H100_80GB_HBM3.json
new file mode 100644
index 0000000000000..ee8a28b833d5a
--- /dev/null
+++ b/vllm/model_executor/layers/fused_moe/configs/E=128,N=1856,device_name=NVIDIA_H100_80GB_HBM3.json
@@ -0,0 +1,147 @@
+{
+    "triton_version": "3.5.0",
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/vllm/model_executor/layers/fused_moe/configs/E=128,N=1856,device_name=NVIDIA_L40S.json b/vllm/model_executor/layers/fused_moe/configs/E=128,N=1856,device_name=NVIDIA_L40S.json
new file mode 100644
index 0000000000000..09d3fa584edd8
--- /dev/null
+++ b/vllm/model_executor/layers/fused_moe/configs/E=128,N=1856,device_name=NVIDIA_L40S.json
@@ -0,0 +1,147 @@
+{
+    "triton_version": "3.5.0",
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "512": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 2
+    }
+}
diff --git a/vllm/model_executor/layers/fused_moe/configs/E=128,N=928,device_name=NVIDIA_H100_80GB_HBM3.json b/vllm/model_executor/layers/fused_moe/configs/E=128,N=928,device_name=NVIDIA_H100_80GB_HBM3.json
new file mode 100644
index 0000000000000..fc6454ebfb2fe
--- /dev/null
+++ b/vllm/model_executor/layers/fused_moe/configs/E=128,N=928,device_name=NVIDIA_H100_80GB_HBM3.json
@@ -0,0 +1,147 @@
+{
+    "triton_version": "3.5.0",
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "512": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 256,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 4
+    }
+}
diff --git a/vllm/model_executor/layers/fused_moe/configs/E=128,N=928,device_name=NVIDIA_L40S.json b/vllm/model_executor/layers/fused_moe/configs/E=128,N=928,device_name=NVIDIA_L40S.json
new file mode 100644
index 0000000000000..48997646d99b6
--- /dev/null
+++ b/vllm/model_executor/layers/fused_moe/configs/E=128,N=928,device_name=NVIDIA_L40S.json
@@ -0,0 +1,147 @@
+{
+    "triton_version": "3.5.0",
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 5
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 8,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}

From 938772af03ce01590c7e92b0d3fd0a5bdc899d19 Mon Sep 17 00:00:00 2001
From: bnellnm <49004751+bnellnm@users.noreply.github.com>
Date: Tue, 4 Nov 2025 08:59:45 -0500
Subject: [PATCH 122/976] [Kernels] Isolate modular kernel code from
 FusedMoEMethodBase subclasses. (#27123)

---
 .../base_device_communicator.py               |   4 +-
 vllm/model_executor/layers/fused_moe/layer.py | 261 +++++++++++++-----
 .../layers/fused_moe/modular_kernel.py        |   6 +
 .../layers/quantization/awq_marlin.py         |   2 -
 .../layers/quantization/bitsandbytes.py       |   3 +-
 .../compressed_tensors_moe.py                 |  47 ----
 .../layers/quantization/experts_int8.py       |   2 -
 .../model_executor/layers/quantization/fp8.py |  35 +--
 .../layers/quantization/gguf.py               |   2 -
 .../layers/quantization/gptq_marlin.py        |   2 -
 .../layers/quantization/modelopt.py           |  50 +---
 .../layers/quantization/moe_wna16.py          |   2 -
 .../layers/quantization/mxfp4.py              | 105 +------
 .../layers/quantization/quark/quark_moe.py    |  53 ++--
 .../model_executor/layers/quantization/rtn.py |   2 -
 .../model_executor/warmup/deep_gemm_warmup.py |   6 +-
 16 files changed, 271 insertions(+), 311 deletions(-)

diff --git a/vllm/distributed/device_communicators/base_device_communicator.py b/vllm/distributed/device_communicators/base_device_communicator.py
index 9566dbac7f22f..3a849da70e4cb 100644
--- a/vllm/distributed/device_communicators/base_device_communicator.py
+++ b/vllm/distributed/device_communicators/base_device_communicator.py
@@ -266,14 +266,14 @@ class DeviceCommunicatorBase:
             module
             for module in model.modules()
             # TODO(bnell): Should use isinstance but can't.  Maybe search for
-            # presence of quant_method.init_prepare_finalize?
+            # presence of quant_method.maybe_init_modular_kernel?
             if (
                 module.__class__.__name__ == "FusedMoE"
                 or module.__class__.__name__ == "SharedFusedMoE"
             )
         ]
         for module in moe_modules:
-            module.quant_method.init_prepare_finalize(module)
+            module.maybe_init_modular_kernel()
 
     def dispatch(
         self,
diff --git a/vllm/model_executor/layers/fused_moe/layer.py b/vllm/model_executor/layers/fused_moe/layer.py
index 55aa2593193ab..118d5fa6b45c4 100644
--- a/vllm/model_executor/layers/fused_moe/layer.py
+++ b/vllm/model_executor/layers/fused_moe/layer.py
@@ -117,10 +117,8 @@ class FusedMoeWeightScaleSupported(Enum):
 class FusedMoEMethodBase(QuantizeMethodBase):
     def __init__(self, moe: FusedMoEConfig):
         super().__init__()
-        self.moe = moe
+        self.moe: FusedMoEConfig = moe
         self.moe_quant_config: FusedMoEQuantConfig | None = None
-        self.fused_experts: FusedMoEModularKernel | None = None
-        self.topk_indices_dtype = None
 
     @abstractmethod
     def create_weights(
@@ -245,9 +243,9 @@ class FusedMoEMethodBase(QuantizeMethodBase):
         else:
             return None
 
-    # Note: init_prepare_finalize should only be called by
-    # prepare_communication_buffer_for_model.
-    def init_prepare_finalize(self, layer: torch.nn.Module):
+    def maybe_init_modular_kernel(
+        self, layer: torch.nn.Module
+    ) -> FusedMoEModularKernel | None:
         assert self.moe is not None
 
         # We must get the quant config here so that the layer is
@@ -261,17 +259,14 @@ class FusedMoEMethodBase(QuantizeMethodBase):
             logger.debug(
                 "%s for %s(%s)", prepare_finalize.__class__.__name__, self, id(self)
             )
-            assert self.topk_indices_dtype is None
-            assert self.fused_experts is None, (
-                f"Attempt to override experts for {id(self)}!"
-            )
-            self.topk_indices_dtype = prepare_finalize.topk_indices_dtype()
             experts = self.select_gemm_impl(prepare_finalize, layer)
-            self.fused_experts = FusedMoEModularKernel(
+            return FusedMoEModularKernel(
                 prepare_finalize,
                 experts,
                 layer.shared_experts,
             )
+        else:
+            return None
 
     def select_gemm_impl(
         self,
@@ -292,8 +287,16 @@ class FusedMoEMethodBase(QuantizeMethodBase):
         raise NotImplementedError
 
     @property
-    def using_modular_kernel(self) -> bool:
-        return self.fused_experts is not None
+    def topk_indices_dtype(self) -> torch.dtype | None:
+        return None
+
+    @property
+    def supports_eplb(self) -> bool:
+        return False
+
+    @property
+    def allow_inplace(self) -> bool:
+        return False
 
     @abstractmethod
     def apply(
@@ -322,6 +325,138 @@ class FusedMoEMethodBase(QuantizeMethodBase):
         raise NotImplementedError
 
 
+@CustomOp.register("modular_fused_moe")
+class FusedMoEModularMethod(FusedMoEMethodBase, CustomOp):
+    def __init__(
+        self,
+        old_quant_method: FusedMoEMethodBase,
+        fused_experts: FusedMoEModularKernel,
+    ):
+        super().__init__(old_quant_method.moe)
+        # Find better way to copy attributes?  Should we even copy attributes?
+        # self.__dict__.update(old_quant_method.__dict__)
+        self.moe_quant_config = old_quant_method.moe_quant_config
+        self.fused_experts = fused_experts
+        self.disable_expert_map = getattr(
+            old_quant_method,
+            "disable_expert_map",
+            not fused_experts.supports_expert_map(),
+        )
+        self.old_quant_method = old_quant_method
+        logger.debug("Swapping out %s", self.old_quant_method.__class__.__name__)
+
+    @property
+    def topk_indices_dtype(self) -> torch.dtype | None:
+        return self.fused_experts.prepare_finalize.topk_indices_dtype()
+
+    @property
+    def supports_eplb(self) -> bool:
+        return self.old_quant_method.supports_eplb
+
+    @property
+    def allow_inplace(self) -> bool:
+        return self.old_quant_method.allow_inplace
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        num_experts: int,
+        hidden_size: int,
+        intermediate_size_per_partition: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        raise NotImplementedError
+
+    def get_fused_moe_quant_config(
+        self, layer: torch.nn.Module
+    ) -> FusedMoEQuantConfig | None:
+        return self.moe_quant_config
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        renormalize: bool,
+        use_grouped_topk: bool = False,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        # Is getattr needed?
+        zero_expert_num = getattr(layer, "zero_expert_num", 0)
+        zero_expert_type = getattr(layer, "zero_expert_type", None)
+
+        if enable_eplb:
+            if self.supports_eplb:
+                assert expert_load_view is not None
+                assert logical_to_physical_map is not None
+                assert logical_replica_count is not None
+                assert isinstance(layer, FusedMoE)
+            else:
+                raise NotImplementedError(
+                    "EPLB is not supported for "
+                    f"{self.old_quant_method.__class__.__name__}."
+                )
+
+        topk_weights, topk_ids, zero_expert_result = FusedMoE.select_experts(
+            hidden_states=x,
+            router_logits=router_logits,
+            use_grouped_topk=use_grouped_topk,
+            top_k=top_k,
+            renormalize=renormalize,
+            topk_group=topk_group,
+            num_expert_group=num_expert_group,
+            custom_routing_function=custom_routing_function,
+            scoring_func=scoring_func,
+            routed_scaling_factor=routed_scaling_factor,
+            e_score_correction_bias=e_score_correction_bias,
+            indices_type=self.topk_indices_dtype,
+            enable_eplb=enable_eplb,
+            expert_map=expert_map,
+            expert_load_view=expert_load_view,
+            logical_to_physical_map=logical_to_physical_map,
+            logical_replica_count=logical_replica_count,
+            global_num_experts=global_num_experts,
+            zero_expert_num=zero_expert_num,
+            zero_expert_type=zero_expert_type,
+        )
+
+        result = self.fused_experts(
+            hidden_states=x,
+            w1=layer.w13_weight,
+            w2=layer.w2_weight,
+            topk_weights=topk_weights,
+            topk_ids=topk_ids,
+            inplace=self.allow_inplace,
+            activation=activation,
+            global_num_experts=global_num_experts,
+            apply_router_weight_on_input=apply_router_weight_on_input,
+            expert_map=None if self.disable_expert_map else expert_map,
+        )
+
+        if zero_expert_num != 0 and zero_expert_type is not None:
+            assert not isinstance(result, tuple), (
+                "Shared + zero experts are mutually exclusive not yet supported"
+            )
+            return result, zero_expert_result
+        else:
+            return result
+
+
 @CustomOp.register("unquantized_fused_moe")
 class UnquantizedFusedMoEMethod(FusedMoEMethodBase, CustomOp):
     """MoE method without quantization."""
@@ -378,6 +513,14 @@ class UnquantizedFusedMoEMethod(FusedMoEMethodBase, CustomOp):
                 )
             self.flashinfer_cutlass_moe = None  # type: ignore
 
+    @property
+    def supports_eplb(self) -> bool:
+        return True
+
+    @property
+    def allow_inplace(self) -> bool:
+        return True
+
     def maybe_make_prepare_finalize(self) -> FusedMoEPrepareAndFinalize | None:
         if self.rocm_aiter_moe_enabled:
             return None
@@ -650,7 +793,6 @@ class UnquantizedFusedMoEMethod(FusedMoEMethodBase, CustomOp):
         )
 
         if self.rocm_aiter_moe_enabled:
-            assert self.fused_experts is None
             result = self.rocm_aiter_fused_experts(
                 hidden_states=x,
                 w1=layer.w13_weight,
@@ -671,21 +813,7 @@ class UnquantizedFusedMoEMethod(FusedMoEMethodBase, CustomOp):
                 activation=activation,
                 apply_router_weight_on_input=apply_router_weight_on_input,
             )
-        elif self.fused_experts is not None:
-            result = self.fused_experts(
-                hidden_states=x,
-                w1=layer.w13_weight,
-                w2=layer.w2_weight,
-                topk_weights=topk_weights,
-                topk_ids=topk_ids,
-                inplace=True,
-                activation=activation,
-                apply_router_weight_on_input=apply_router_weight_on_input,
-                global_num_experts=global_num_experts,
-                expert_map=expert_map,
-            )
         else:
-            assert fused_experts is not None
             result = fused_experts(
                 hidden_states=x,
                 w1=layer.w13_weight,
@@ -1267,7 +1395,7 @@ class FusedMoE(CustomOp):
                 "Only softmax scoring function is supported for non-grouped topk."
             )
 
-        moe = FusedMoEConfig(
+        self.moe_config: FusedMoEConfig = FusedMoEConfig(
             num_experts=self.global_num_experts,
             experts_per_token=top_k,
             hidden_dim=hidden_size,
@@ -1279,24 +1407,26 @@ class FusedMoE(CustomOp):
             is_act_and_mul=is_act_and_mul,
             is_lora_enabled=vllm_config.lora_config is not None,
         )
-        self.moe_config: FusedMoEConfig = moe
+
         self.moe_quant_config: FusedMoEQuantConfig | None = None
         self.quant_config = quant_config
 
+        def _get_quant_method() -> FusedMoEMethodBase:
+            """
+            Helper method to ensure self.quant_method is never None and
+            of the proper type.
+            """
+            quant_method = None
+            if self.quant_config is not None:
+                quant_method = self.quant_config.get_quant_method(self, prefix)
+            if quant_method is None:
+                quant_method = UnquantizedFusedMoEMethod(self.moe_config)
+            assert isinstance(quant_method, FusedMoEMethodBase)
+            return quant_method
+
         # Note: get_quant_method will look at the layer's local_num_experts
         # for heuristic purposes, so it must be initialized first.
-        quant_method: QuantizeMethodBase | None = None
-        quant_method = (
-            UnquantizedFusedMoEMethod(moe)
-            if quant_config is None
-            else quant_config.get_quant_method(self, prefix)
-        )
-        if quant_method is None:
-            quant_method = UnquantizedFusedMoEMethod(moe)
-
-        assert quant_method is not None
-        assert isinstance(quant_method, FusedMoEMethodBase)
-        self.quant_method = quant_method
+        self.quant_method: FusedMoEMethodBase = _get_quant_method()
 
         if not self.moe_config.is_act_and_mul:
             # Avoid circular import
@@ -1305,7 +1435,7 @@ class FusedMoE(CustomOp):
             )
 
             if not isinstance(
-                quant_method, (UnquantizedFusedMoEMethod, ModelOptFp8MoEMethod)
+                self.quant_method, (UnquantizedFusedMoEMethod, ModelOptFp8MoEMethod)
             ):
                 raise NotImplementedError(
                     "is_act_and_mul=False is supported only for unquantized "
@@ -1316,20 +1446,18 @@ class FusedMoE(CustomOp):
                     "is_act_and_mul=False is supported only for CUDA for now"
                 )
 
-        if self.enable_eplb:
-            from vllm.model_executor.layers.quantization.fp8 import Fp8MoEMethod
-
-            if not isinstance(quant_method, (Fp8MoEMethod, UnquantizedFusedMoEMethod)):
-                # TODO: Add support for additional quantization methods.
-                # The implementation for other quantization methods does not
-                # contain essential differences, but the current quant API
-                # design causes duplicated work when extending to new
-                # quantization methods, so I'm leaving it for now.
-                # If you plan to add support for more quantization methods,
-                # please refer to the implementation in `Fp8MoEMethod`.
-                raise NotImplementedError(
-                    "EPLB is only supported for FP8 quantization for now."
-                )
+        if self.enable_eplb and not self.quant_method.supports_eplb:
+            # TODO: Add support for additional quantization methods.
+            # The implementation for other quantization methods does not
+            # contain essential differences, but the current quant API
+            # design causes duplicated work when extending to new
+            # quantization methods, so I'm leaving it for now.
+            # If you plan to add support for more quantization methods,
+            # please refer to the implementation in `Fp8MoEMethod`.
+            raise NotImplementedError(
+                f"EPLB is not supported {self.quant_method.__class__.__name__}. "
+                "EPLB is only supported for FP8 quantization for now."
+            )
 
         moe_quant_params = {
             "num_experts": self.local_num_experts,
@@ -1353,6 +1481,15 @@ class FusedMoE(CustomOp):
         self.batched_hidden_states: torch.Tensor | None = None
         self.batched_router_logits: torch.Tensor | None = None
 
+    # Note: maybe_init_modular_kernel should only be called by
+    # prepare_communication_buffer_for_model.
+    # This is called after all weight loading and post-processing, so it
+    # should be safe to swap out the quant_method.
+    def maybe_init_modular_kernel(self) -> None:
+        mk = self.quant_method.maybe_init_modular_kernel(self)
+        if mk is not None:
+            self.quant_method = FusedMoEModularMethod(self.quant_method, mk)
+
     @property
     def shared_experts(self) -> torch.nn.Module | None:
         return None
@@ -2167,7 +2304,7 @@ class FusedMoE(CustomOp):
         """
         assert self.quant_method is not None
         return (
-            self.quant_method.fused_experts is not None
+            isinstance(self.quant_method, FusedMoEModularMethod)
             and self.quant_method.fused_experts.output_is_reduced()
         )
 
@@ -2403,7 +2540,7 @@ class FusedMoE(CustomOp):
         self.ensure_dp_chunking_init()
 
         has_separate_shared_experts = (
-            not isinstance(self.quant_method.fused_experts, FusedMoEModularKernel)
+            not isinstance(self.quant_method, FusedMoEModularMethod)
             and self.shared_experts is not None
         )
 
@@ -2430,8 +2567,8 @@ class FusedMoE(CustomOp):
                 hidden_states, router_logits, has_separate_shared_experts
             )
 
-        do_naive_dispatch_combine: bool = (
-            self.dp_size > 1 and not self.quant_method.using_modular_kernel
+        do_naive_dispatch_combine: bool = self.dp_size > 1 and not isinstance(
+            self.quant_method, FusedMoEModularMethod
         )
 
         # If there are shared experts but we are not using a modular kernel, the
diff --git a/vllm/model_executor/layers/fused_moe/modular_kernel.py b/vllm/model_executor/layers/fused_moe/modular_kernel.py
index 3b5916f8ccaf8..b5fa2c71bec58 100644
--- a/vllm/model_executor/layers/fused_moe/modular_kernel.py
+++ b/vllm/model_executor/layers/fused_moe/modular_kernel.py
@@ -707,6 +707,12 @@ class FusedMoEModularKernel(torch.nn.Module):
             f"{fused_experts.activation_formats[0]}"
         )
 
+    def supports_expert_map(self) -> bool:
+        """
+        A flag indicating whether or not this class supports expert maps.
+        """
+        return self.fused_experts.supports_expert_map()
+
     def output_is_reduced(self) -> bool:
         """
         Indicates whether or not the output of fused MoE kernel
diff --git a/vllm/model_executor/layers/quantization/awq_marlin.py b/vllm/model_executor/layers/quantization/awq_marlin.py
index daf7422963f3c..3e1f87b59a34d 100644
--- a/vllm/model_executor/layers/quantization/awq_marlin.py
+++ b/vllm/model_executor/layers/quantization/awq_marlin.py
@@ -617,8 +617,6 @@ class AWQMoEMethod(FusedMoEMethodBase):
         logical_to_physical_map: torch.Tensor | None = None,
         logical_replica_count: torch.Tensor | None = None,
     ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
-        assert self.fused_experts is None
-
         if enable_eplb:
             raise NotImplementedError("EPLB not supported for `AWQMoEMethod` yet.")
 
diff --git a/vllm/model_executor/layers/quantization/bitsandbytes.py b/vllm/model_executor/layers/quantization/bitsandbytes.py
index ccd9b311cc932..e5a741e639ad9 100644
--- a/vllm/model_executor/layers/quantization/bitsandbytes.py
+++ b/vllm/model_executor/layers/quantization/bitsandbytes.py
@@ -518,12 +518,11 @@ class BitsAndBytesMoEMethod(FusedMoEMethodBase):
     ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
         from vllm.model_executor.layers.fused_moe import fused_experts
 
-        assert self.fused_experts is None
-
         if enable_eplb:
             raise NotImplementedError(
                 "EPLB not supported for `BitsAndBytesMoEMethod` yet."
             )
+
         topk_weights, topk_ids, _ = FusedMoE.select_experts(
             hidden_states=x,
             router_logits=router_logits,
diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
index bf38c15b47013..d95d49eddfe3a 100644
--- a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
@@ -462,12 +462,7 @@ class CompressedTensorsW4A4MoeMethod(CompressedTensorsMoEMethod):
             indices_type=self.topk_indices_dtype,
         )
 
-        #
-        # Note: the order here is important. self.fused_experts can override
-        # flashinfer cutlass, cutlass fp4 or fused_experts but not marlin.
-        #
         if self.use_marlin:
-            assert self.fused_experts is None
             return fused_marlin_moe(
                 x,
                 layer.w13_weight,
@@ -488,24 +483,6 @@ class CompressedTensorsW4A4MoeMethod(CompressedTensorsMoEMethod):
                 workspace=layer.workspace,
             )
 
-        elif self.fused_experts is not None:
-            assert is_valid_flashinfer_cutlass_fused_moe(
-                x, layer.w13_weight, layer.w2_weight
-            ), "Flashinfer CUTLASS Fused MoE not applicable!"
-
-            return self.fused_experts(
-                hidden_states=x,
-                w1=layer.w13_weight,
-                w2=layer.w2_weight,
-                topk_weights=topk_weights,
-                topk_ids=topk_ids,
-                inplace=False,  # TODO(shuw): fix later, now output is high prec
-                activation=activation,
-                global_num_experts=global_num_experts,
-                expert_map=expert_map,
-                apply_router_weight_on_input=apply_router_weight_on_input,
-            )
-
         # FlashInfer fused experts path
         elif self.allow_flashinfer:
             from vllm.model_executor.layers.fused_moe.flashinfer_cutlass_moe import (  # noqa: E501
@@ -1066,13 +1043,8 @@ class CompressedTensorsW8A8Fp8MoEMethod(CompressedTensorsMoEMethod):
         per_act_token = self.input_quant.strategy == QuantizationStrategy.TOKEN
         per_channel_quant = self.weight_quant.strategy == QuantizationStrategy.CHANNEL
 
-        #
-        # Note: the order here is important. self.fused_experts can override
-        # cutlass fp8 or fused_experts but not marlin or rocm.
-        #
         if self.use_marlin:
             assert activation == "silu", f"{activation} not supported for Marlin MoE."
-            assert self.fused_experts is None
             return fused_marlin_moe(
                 x,
                 layer.w13_weight,
@@ -1098,7 +1070,6 @@ class CompressedTensorsW8A8Fp8MoEMethod(CompressedTensorsMoEMethod):
 
             assert per_act_token == per_channel_quant
             assert self.moe_quant_config is not None
-            assert self.fused_experts is None
             return rocm_aiter_fused_experts(
                 hidden_states=x,
                 w1=layer.w13_weight,
@@ -1111,18 +1082,6 @@ class CompressedTensorsW8A8Fp8MoEMethod(CompressedTensorsMoEMethod):
                 quant_config=self.moe_quant_config,
             )
 
-        elif self.fused_experts is not None:
-            return self.fused_experts(
-                x,
-                layer.w13_weight,
-                layer.w2_weight,
-                topk_weights,
-                topk_ids,
-                activation=activation,
-                global_num_experts=global_num_experts,
-                expert_map=None if self.disable_expert_map else expert_map,
-            )
-
         # cutlass path
         elif self.use_cutlass:
             assert self.moe_quant_config is not None
@@ -1318,8 +1277,6 @@ class CompressedTensorsW8A8Int8MoEMethod(CompressedTensorsMoEMethod):
         logical_to_physical_map: torch.Tensor | None = None,
         logical_replica_count: torch.Tensor | None = None,
     ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
-        assert self.fused_experts is None
-
         if enable_eplb:
             raise NotImplementedError(
                 "EPLB not supported for `CompressedTensorsW8A8Int8MoEMethod` yet."
@@ -1636,8 +1593,6 @@ class CompressedTensorsWNA16MarlinMoEMethod(CompressedTensorsMoEMethod):
         logical_to_physical_map: torch.Tensor | None = None,
         logical_replica_count: torch.Tensor | None = None,
     ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
-        assert self.fused_experts is None
-
         if enable_eplb:
             raise NotImplementedError(
                 "EPLB not supported for `CompressedTensorsWNA16MarlinMoEMethod` yet."
@@ -1901,8 +1856,6 @@ class CompressedTensorsWNA16MoEMethod(CompressedTensorsMoEMethod):
         logical_to_physical_map: torch.Tensor | None = None,
         logical_replica_count: torch.Tensor | None = None,
     ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
-        assert self.fused_experts is None
-
         if enable_eplb:
             raise NotImplementedError(
                 "EPLB not supported for `CompressedTensorsWNA16MoEMethod` yet."
diff --git a/vllm/model_executor/layers/quantization/experts_int8.py b/vllm/model_executor/layers/quantization/experts_int8.py
index 754608af97c6b..5241f9a2301be 100644
--- a/vllm/model_executor/layers/quantization/experts_int8.py
+++ b/vllm/model_executor/layers/quantization/experts_int8.py
@@ -158,8 +158,6 @@ class ExpertsInt8MoEMethod(FusedMoEMethodBase):
         logical_to_physical_map: torch.Tensor | None = None,
         logical_replica_count: torch.Tensor | None = None,
     ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
-        assert self.fused_experts is None
-
         if enable_eplb:
             raise NotImplementedError(
                 "EPLB not supported for `ExpertsInt8MoEMethod` yet."
diff --git a/vllm/model_executor/layers/quantization/fp8.py b/vllm/model_executor/layers/quantization/fp8.py
index f82eccb88ce09..03eca199d536d 100644
--- a/vllm/model_executor/layers/quantization/fp8.py
+++ b/vllm/model_executor/layers/quantization/fp8.py
@@ -703,9 +703,6 @@ class Fp8MoEMethod(FusedMoEMethodBase):
         self.quant_config = quant_config
         self.weight_block_size = self.quant_config.weight_block_size
         self.block_quant: bool = self.weight_block_size is not None
-
-        self.fused_experts: mk.FusedMoEModularKernel | None = None  # type: ignore
-
         self.fp8_backend = get_fp8_moe_backend(self.block_quant)
 
         self.use_marlin = self.fp8_backend == Fp8MoeBackend.MARLIN
@@ -1181,6 +1178,14 @@ class Fp8MoEMethod(FusedMoEMethodBase):
             block_shape=self.weight_block_size,
         )
 
+    @property
+    def supports_eplb(self) -> bool:
+        return True
+
+    @property
+    def allow_inplace(self) -> bool:
+        return True
+
     def apply(
         self,
         layer: torch.nn.Module,
@@ -1210,10 +1215,7 @@ class Fp8MoEMethod(FusedMoEMethodBase):
             assert logical_replica_count is not None
             assert isinstance(layer, FusedMoE)
 
-        if (
-            self.flashinfer_moe_backend == FlashinferMoeBackend.TENSORRT_LLM
-            and self.fused_experts is None
-        ):
+        if self.flashinfer_moe_backend == FlashinferMoeBackend.TENSORRT_LLM:
             assert activation == "silu", (
                 f"Expected 'silu' activation but got {activation}"
             )
@@ -1290,10 +1292,6 @@ class Fp8MoEMethod(FusedMoEMethodBase):
             num_fused_shared_experts=layer.num_fused_shared_experts,
         )
 
-        #
-        # Note: the order of checks is important since self.fused_experts
-        # can override fused_experts or cutlass but not rocm or marlin.
-        #
         topk_weights, topk_ids, zero_expert_result = select_result
 
         if self.rocm_aiter_moe_enabled:
@@ -1301,7 +1299,6 @@ class Fp8MoEMethod(FusedMoEMethodBase):
                 rocm_aiter_fused_experts,
             )
 
-            assert self.fused_experts is None
             result = rocm_aiter_fused_experts(
                 x,
                 layer.w13_weight,
@@ -1315,7 +1312,6 @@ class Fp8MoEMethod(FusedMoEMethodBase):
             )
         elif self.use_marlin:
             assert activation == "silu", f"{activation} not supported for Marlin MoE."
-            assert self.fused_experts is None
             result = fused_marlin_moe(
                 x,
                 layer.w13_weight,
@@ -1333,19 +1329,6 @@ class Fp8MoEMethod(FusedMoEMethodBase):
                 expert_map=expert_map,
                 workspace=layer.workspace,
             )
-        elif self.fused_experts:
-            result = self.fused_experts(
-                hidden_states=x,
-                w1=layer.w13_weight,
-                w2=layer.w2_weight,
-                topk_weights=topk_weights,
-                topk_ids=topk_ids,
-                inplace=True,
-                activation=activation,
-                global_num_experts=global_num_experts,
-                apply_router_weight_on_input=apply_router_weight_on_input,
-                expert_map=expert_map,
-            )
         elif self.flashinfer_moe_backend == FlashinferMoeBackend.CUTLASS:
             assert not self.block_quant
             assert not renormalize and custom_routing_function is not None
diff --git a/vllm/model_executor/layers/quantization/gguf.py b/vllm/model_executor/layers/quantization/gguf.py
index 8a914c57a9f7d..caabcd0ca0ee5 100644
--- a/vllm/model_executor/layers/quantization/gguf.py
+++ b/vllm/model_executor/layers/quantization/gguf.py
@@ -585,8 +585,6 @@ class GGUFMoEMethod(FusedMoEMethodBase):
         logical_to_physical_map: torch.Tensor | None = None,
         logical_replica_count: torch.Tensor | None = None,
     ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
-        assert self.fused_experts is None
-
         if enable_eplb:
             raise NotImplementedError("EPLB not supported for `GGUFMoEMethod` yet.")
 
diff --git a/vllm/model_executor/layers/quantization/gptq_marlin.py b/vllm/model_executor/layers/quantization/gptq_marlin.py
index 0d5439357fda2..42a569e7770c0 100644
--- a/vllm/model_executor/layers/quantization/gptq_marlin.py
+++ b/vllm/model_executor/layers/quantization/gptq_marlin.py
@@ -742,8 +742,6 @@ class GPTQMarlinMoEMethod(FusedMoEMethodBase):
         logical_to_physical_map: torch.Tensor | None = None,
         logical_replica_count: torch.Tensor | None = None,
     ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
-        assert self.fused_experts is None
-
         if enable_eplb:
             raise NotImplementedError(
                 "EPLB not supported for `GPTQMarlinMoEMethod` yet."
diff --git a/vllm/model_executor/layers/quantization/modelopt.py b/vllm/model_executor/layers/quantization/modelopt.py
index 37b682984fc35..f61d2a52925d9 100644
--- a/vllm/model_executor/layers/quantization/modelopt.py
+++ b/vllm/model_executor/layers/quantization/modelopt.py
@@ -18,9 +18,6 @@ from vllm.model_executor.layers.fused_moe.config import (
     fp8_w8a8_moe_quant_config,
     nvfp4_moe_quant_config,
 )
-from vllm.model_executor.layers.fused_moe.flashinfer_cutlass_moe import (
-    is_valid_flashinfer_cutlass_fused_moe,
-)
 from vllm.model_executor.layers.fused_moe.fused_marlin_moe import fused_marlin_moe
 from vllm.model_executor.layers.fused_moe.layer import (
     FusedMoE,
@@ -605,7 +602,6 @@ class ModelOptFp8MoEMethod(FusedMoEMethodBase):
             )
 
         if self.flashinfer_moe_backend == FlashinferMoeBackend.TENSORRT_LLM:
-            assert self.fused_experts is None
             assert activation == "silu", (
                 f"Expected 'silu' activation but got {activation}"
             )
@@ -638,24 +634,7 @@ class ModelOptFp8MoEMethod(FusedMoEMethodBase):
             indices_type=self.topk_indices_dtype,
         )
 
-        #
-        # Note: the order here is important. self.fused_experts can override
-        # cutlass or fused_experts.
-        #
-        if self.fused_experts is not None:
-            return self.fused_experts(
-                x,
-                layer.w13_weight,
-                layer.w2_weight,
-                topk_weights,
-                topk_ids,
-                inplace=False,
-                activation=activation,
-                global_num_experts=global_num_experts,
-                expert_map=expert_map,
-                apply_router_weight_on_input=apply_router_weight_on_input,
-            )
-        elif self.flashinfer_moe_backend == FlashinferMoeBackend.CUTLASS:
+        if self.flashinfer_moe_backend == FlashinferMoeBackend.CUTLASS:
             assert not renormalize
             assert activation == "silu", (
                 f"Expected 'silu' activation but got {activation}"
@@ -1647,8 +1626,6 @@ class ModelOptNvFp4FusedMoE(FusedMoEMethodBase):
 
             from vllm.model_executor.models.llama4 import Llama4MoE
 
-            assert self.fused_experts is None
-
             a1_gscale = layer.w13_input_scale_quant
             (hidden_states_fp4, hidden_states_scale_linear_fp4) = (
                 flashinfer.fp4_quantize(
@@ -1720,13 +1697,7 @@ class ModelOptNvFp4FusedMoE(FusedMoEMethodBase):
             indices_type=self.topk_indices_dtype,
         )
 
-        #
-        # Note: the order here is important. self.fused_experts can override
-        # flashinfer cutlass, cutlass fp4 or fused_experts but not marlin or
-        # trtllm.
-        #
         if self.use_marlin:
-            assert self.fused_experts is None
             return fused_marlin_moe(
                 x,
                 layer.w13_weight,
@@ -1747,23 +1718,24 @@ class ModelOptNvFp4FusedMoE(FusedMoEMethodBase):
                 workspace=layer.workspace,
             )
 
-        elif self.fused_experts is not None:
-            assert (
-                self.allow_flashinfer
-                and self.flashinfer_moe_backend == FlashinferMoeBackend.CUTLASS
+        elif (
+            self.allow_flashinfer
+            and self.flashinfer_moe_backend == FlashinferMoeBackend.CUTLASS
+        ):
+            from vllm.model_executor.layers.fused_moe.flashinfer_cutlass_moe import (  # noqa: E501
+                flashinfer_cutlass_moe_fp4,
             )
 
-            assert is_valid_flashinfer_cutlass_fused_moe(
-                x, layer.w13_weight, layer.w2_weight
-            ), "Flashinfer CUTLASS Fused MoE not applicable!"
+            assert self.moe_quant_config is not None
 
-            return self.fused_experts(
+            return flashinfer_cutlass_moe_fp4(
                 hidden_states=x,
                 w1=layer.w13_weight,
                 w2=layer.w2_weight,
                 topk_weights=topk_weights,
                 topk_ids=topk_ids,
-                inplace=False,  # TODO(shuw): fix later, now output is high prec
+                quant_config=self.moe_quant_config,
+                inplace=False,
                 activation=activation,
                 global_num_experts=global_num_experts,
                 expert_map=expert_map,
diff --git a/vllm/model_executor/layers/quantization/moe_wna16.py b/vllm/model_executor/layers/quantization/moe_wna16.py
index b0a268b9950b7..2090c86f78dc8 100644
--- a/vllm/model_executor/layers/quantization/moe_wna16.py
+++ b/vllm/model_executor/layers/quantization/moe_wna16.py
@@ -226,7 +226,6 @@ class MoeWNA16Method(FusedMoEMethodBase):
         params_dtype: torch.dtype,
         **extra_weight_attrs,
     ):
-        self.moe = layer
         layer.quant_config = self.quant_config
         bit8_pack_factor = self.quant_config.bit8_pack_factor
         group_size = self.quant_config.group_size
@@ -381,7 +380,6 @@ class MoeWNA16Method(FusedMoEMethodBase):
         logical_to_physical_map: torch.Tensor | None = None,
         logical_replica_count: torch.Tensor | None = None,
     ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
-        assert self.fused_experts is None
         if enable_eplb:
             raise NotImplementedError("EPLB not supported for `MoeWNA16Method` yet.")
 
diff --git a/vllm/model_executor/layers/quantization/mxfp4.py b/vllm/model_executor/layers/quantization/mxfp4.py
index bf34ec0f38996..7b1600a03d55b 100644
--- a/vllm/model_executor/layers/quantization/mxfp4.py
+++ b/vllm/model_executor/layers/quantization/mxfp4.py
@@ -197,8 +197,6 @@ class Mxfp4Config(QuantizationConfig):
 class Mxfp4MoEMethod(FusedMoEMethodBase):
     def __init__(self, moe: FusedMoEConfig):
         super().__init__(moe)
-        self.topk_indices_dtype = None
-        self.moe = moe
         self.mxfp4_backend = get_mxfp4_backend(moe.is_lora_enabled)
         self.max_capture_size = (
             get_current_vllm_config().compilation_config.max_cudagraph_capture_size
@@ -815,6 +813,18 @@ class Mxfp4MoEMethod(FusedMoEMethodBase):
                     "EP batched experts format"
                 )
         else:
+            layer.w13_weight = (
+                self.w13_weight_triton_tensor
+                if layer.w13_weight is None
+                else layer.w13_weight
+            )
+            layer.w2_weight = (
+                self.w2_weight_triton_tensor
+                if layer.w2_weight is None
+                else layer.w2_weight
+            )
+            assert all([w is not None for w in [layer.w13_weight, layer.w2_weight]])
+
             assert self.moe_quant_config is not None
             if (
                 self.mxfp4_backend == Mxfp4Backend.SM100_FI_MXFP4_MXFP8_TRTLLM
@@ -838,71 +848,9 @@ class Mxfp4MoEMethod(FusedMoEMethodBase):
                     f"Incompatible Mxfp4 backend ({self.mxfp4_backend}) for EP"
                 )
 
-    def _route_and_experts(
-        self,
-        layer: torch.nn.Module,
-        x: torch.Tensor,
-        router_logits: torch.Tensor,
-        top_k: int,
-        renormalize: bool,
-        use_grouped_topk: bool = False,
-        topk_group: int | None = None,
-        num_expert_group: int | None = None,
-        global_num_experts: int = -1,
-        expert_map: torch.Tensor | None = None,
-        custom_routing_function: Callable | None = None,
-        scoring_func: str = "softmax",
-        e_score_correction_bias: torch.Tensor | None = None,
-        apply_router_weight_on_input: bool = False,
-        activation: str = "silu",
-        enable_eplb: bool = False,
-        expert_load_view: torch.Tensor | None = None,
-        logical_to_physical_map: torch.Tensor | None = None,
-        logical_replica_count: torch.Tensor | None = None,
-    ) -> torch.Tensor:
-        assert isinstance(self.fused_experts, mk.FusedMoEModularKernel)
-
-        topk_weights, topk_ids, _ = FusedMoE.select_experts(
-            hidden_states=x,
-            router_logits=router_logits,
-            use_grouped_topk=use_grouped_topk,
-            top_k=top_k,
-            renormalize=renormalize,
-            topk_group=topk_group,
-            num_expert_group=num_expert_group,
-            custom_routing_function=custom_routing_function,
-            scoring_func=scoring_func,
-            e_score_correction_bias=e_score_correction_bias,
-            indices_type=self.topk_indices_dtype,
-            enable_eplb=enable_eplb,
-            expert_map=expert_map,
-            expert_load_view=expert_load_view,
-            logical_to_physical_map=logical_to_physical_map,
-            logical_replica_count=logical_replica_count,
-        )
-
-        w13_weight = (
-            self.w13_weight_triton_tensor
-            if layer.w13_weight is None
-            else layer.w13_weight
-        )
-        w2_weight = (
-            self.w2_weight_triton_tensor if layer.w2_weight is None else layer.w2_weight
-        )
-        assert all([w is not None for w in [w13_weight, w2_weight]])
-
-        return self.fused_experts(
-            hidden_states=x,
-            w1=w13_weight,
-            w2=w2_weight,
-            topk_weights=topk_weights,
-            topk_ids=topk_ids,
-            inplace=True,
-            activation=activation,
-            global_num_experts=global_num_experts,
-            expert_map=expert_map,
-            apply_router_weight_on_input=apply_router_weight_on_input,
-        )
+    @property
+    def allow_inplace(self) -> bool:
+        return True
 
     def apply(
         self,
@@ -930,29 +878,6 @@ class Mxfp4MoEMethod(FusedMoEMethodBase):
         if enable_eplb:
             raise NotImplementedError("EPLB is not supported for mxfp4")
 
-        if self.fused_experts is not None:
-            return self._route_and_experts(
-                layer,
-                x,
-                router_logits,
-                top_k,
-                renormalize,
-                use_grouped_topk,
-                topk_group,
-                num_expert_group,
-                global_num_experts,
-                expert_map,
-                custom_routing_function,
-                scoring_func,
-                e_score_correction_bias,
-                apply_router_weight_on_input,
-                activation,
-                enable_eplb,
-                expert_load_view,
-                logical_to_physical_map,
-                logical_replica_count,
-            )
-
         if self.mxfp4_backend == Mxfp4Backend.MARLIN:
             topk_weights, topk_ids, _ = FusedMoE.select_experts(
                 hidden_states=x,
diff --git a/vllm/model_executor/layers/quantization/quark/quark_moe.py b/vllm/model_executor/layers/quantization/quark/quark_moe.py
index a8f4b1b0db68d..8825611051e5d 100644
--- a/vllm/model_executor/layers/quantization/quark/quark_moe.py
+++ b/vllm/model_executor/layers/quantization/quark/quark_moe.py
@@ -310,7 +310,6 @@ class QuarkW8A8Fp8MoEMethod(QuarkMoEMethod):
         # Property to determine if AITER is used
         if self.rocm_aiter_moe_enabled:
             from vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe import (  # noqa E501
-                rocm_aiter_fused_experts,
                 shuffle_weights,
             )
 
@@ -322,17 +321,11 @@ class QuarkW8A8Fp8MoEMethod(QuarkMoEMethod):
             layer.w13_weight = torch.nn.Parameter(shuffled_w13, requires_grad=False)
             layer.w2_weight = torch.nn.Parameter(shuffled_w2, requires_grad=False)
 
-            self.rocm_aiter_fused_experts_func = rocm_aiter_fused_experts
         elif self.use_marlin:
             prepare_moe_fp8_layer_for_marlin(layer, False)
             # Activations not quantized for marlin.
             del layer.w13_input_scale
             del layer.w2_input_scale
-            self.fused_experts_func = None
-        else:
-            from vllm.model_executor.layers.fused_moe import fused_experts
-
-            self.fused_experts_func = fused_experts
 
     def get_fused_moe_quant_config(
         self, layer: torch.nn.Module
@@ -369,8 +362,6 @@ class QuarkW8A8Fp8MoEMethod(QuarkMoEMethod):
         logical_to_physical_map: torch.Tensor | None = None,
         logical_replica_count: torch.Tensor | None = None,
     ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
-        assert self.fused_experts is None
-
         if enable_eplb:
             raise NotImplementedError(
                 "EPLB not supported for `QuarkW8A8Fp8MoEMethod` yet."
@@ -392,7 +383,11 @@ class QuarkW8A8Fp8MoEMethod(QuarkMoEMethod):
         )
 
         if self.rocm_aiter_moe_enabled:
-            return self.rocm_aiter_fused_experts_func(
+            from vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe import (
+                rocm_aiter_fused_experts,
+            )
+
+            return rocm_aiter_fused_experts(
                 hidden_states=x,
                 w1=layer.w13_weight,
                 w2=layer.w2_weight,
@@ -403,7 +398,7 @@ class QuarkW8A8Fp8MoEMethod(QuarkMoEMethod):
                 quant_config=self.moe_quant_config,
                 expert_map=expert_map,
             )
-        if self.use_marlin:
+        elif self.use_marlin:
             assert activation == "silu", f"{activation} not supported for Marlin MoE."
             return fused_marlin_moe(
                 x,
@@ -421,22 +416,22 @@ class QuarkW8A8Fp8MoEMethod(QuarkMoEMethod):
                 global_num_experts=global_num_experts,
                 expert_map=expert_map,
             )
+        else:
+            from vllm.model_executor.layers.fused_moe import fused_experts
 
-        assert self.fused_experts_func is not None
-
-        return self.fused_experts_func(
-            hidden_states=x,
-            w1=layer.w13_weight,
-            w2=layer.w2_weight,
-            topk_weights=topk_weights,
-            topk_ids=topk_ids,
-            inplace=True,
-            activation=activation,
-            apply_router_weight_on_input=apply_router_weight_on_input,
-            global_num_experts=global_num_experts,
-            expert_map=expert_map,
-            quant_config=self.moe_quant_config,
-        )
+            return fused_experts(
+                hidden_states=x,
+                w1=layer.w13_weight,
+                w2=layer.w2_weight,
+                topk_weights=topk_weights,
+                topk_ids=topk_ids,
+                inplace=True,
+                activation=activation,
+                apply_router_weight_on_input=apply_router_weight_on_input,
+                global_num_experts=global_num_experts,
+                expert_map=expert_map,
+                quant_config=self.moe_quant_config,
+            )
 
 
 class QuarkOCP_MX_MoEMethod(QuarkMoEMethod):
@@ -601,6 +596,10 @@ class QuarkOCP_MX_MoEMethod(QuarkMoEMethod):
             block_shape=None,
         )
 
+    @property
+    def allow_inplace(self) -> bool:
+        return True
+
     def apply(
         self,
         layer: torch.nn.Module,
@@ -624,8 +623,6 @@ class QuarkOCP_MX_MoEMethod(QuarkMoEMethod):
         logical_to_physical_map: torch.Tensor | None = None,
         logical_replica_count: torch.Tensor | None = None,
     ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
-        assert self.fused_experts is None
-
         if enable_eplb:
             raise NotImplementedError(
                 "EPLB not supported for `QuarkOCP_MX_MoEMethod` yet."
diff --git a/vllm/model_executor/layers/quantization/rtn.py b/vllm/model_executor/layers/quantization/rtn.py
index e4f7ff8339569..52656263a601b 100644
--- a/vllm/model_executor/layers/quantization/rtn.py
+++ b/vllm/model_executor/layers/quantization/rtn.py
@@ -377,8 +377,6 @@ class RTNMoEMethod(FusedMoEMethodBase):
         logical_to_physical_map: torch.Tensor | None = None,
         logical_replica_count: torch.Tensor | None = None,
     ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
-        assert self.fused_experts is None
-
         if enable_eplb:
             raise NotImplementedError("EPLB not supported for `RTNMoEMethod` yet.")
 
diff --git a/vllm/model_executor/warmup/deep_gemm_warmup.py b/vllm/model_executor/warmup/deep_gemm_warmup.py
index 78cbcd8e5427f..bdcebd498ef01 100644
--- a/vllm/model_executor/warmup/deep_gemm_warmup.py
+++ b/vllm/model_executor/warmup/deep_gemm_warmup.py
@@ -13,7 +13,7 @@ import vllm.envs as envs
 from vllm.distributed.parallel_state import get_dp_group
 from vllm.model_executor.layers.fused_moe.deep_gemm_moe import DeepGemmExperts
 from vllm.model_executor.layers.fused_moe.deep_gemm_utils import compute_aligned_M
-from vllm.model_executor.layers.fused_moe.layer import FusedMoE
+from vllm.model_executor.layers.fused_moe.layer import FusedMoE, FusedMoEModularMethod
 from vllm.model_executor.layers.fused_moe.modular_kernel import FusedMoEModularKernel
 from vllm.model_executor.layers.fused_moe.triton_deep_gemm_moe import (
     TritonOrDeepGemmExperts,
@@ -160,8 +160,8 @@ def _fused_moe_grouped_gemm_may_use_deep_gemm(module: torch.nn.Module) -> bool:
     ):
         return False
 
-    if not isinstance(module.quant_method.fused_experts, FusedMoEModularKernel):
-        # fused_experts could invoke deep_gemm_moe_fp8
+    if not isinstance(module.quant_method, FusedMoEModularMethod):
+        # modular kernels could invoke deep_gemm_moe_fp8
         return True
 
     mk: FusedMoEModularKernel = module.quant_method.fused_experts

From 5a0a6dfd55e1b9b2b518e0d2e91bd2c1241a7694 Mon Sep 17 00:00:00 2001
From: Nick Hill <nhill@redhat.com>
Date: Tue, 4 Nov 2025 07:38:16 -0800
Subject: [PATCH 123/976] [BugFix] Fix incorrect preallocated sampled_token_ids
 tensor size (#28025)

Signed-off-by: Nick Hill <nhill@redhat.com>
---
 vllm/v1/worker/gpu_model_runner.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index e700c09038e28..177542ed96c8e 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -524,7 +524,7 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
         self._draft_token_ids: list[list[int]] | torch.Tensor | None = None
         self.transfer_event = torch.cuda.Event()
         self.sampled_token_ids_pinned_cpu = torch.empty(
-            (self.max_model_len, 1),
+            (self.max_num_reqs, 1),
             dtype=torch.int64,
             device="cpu",
             pin_memory=self.pin_memory,

From 97e3dda84ba79100509fafb58d651bde25e3f32f Mon Sep 17 00:00:00 2001
From: lyrisz <145491716+LyrisZhong@users.noreply.github.com>
Date: Tue, 4 Nov 2025 07:49:25 -0800
Subject: [PATCH 124/976] [Perf] SM100 - add swap AB optimization to CUTLASS
 FP8 GEMM (#27284)

Signed-off-by: Faqin Zhong <faqin.zhong@gmail.com>
Co-authored-by: Faqin Zhong <zhofaqin@amazon.com>
Co-authored-by: Michael Goin <mgoin64@gmail.com>
---
 .../w8a8/cutlass/c3x/scaled_mm_sm100_fp8.cu   |   9 +-
 .../c3x/scaled_mm_sm100_fp8_dispatch.cuh      | 276 +++++++++++++++---
 2 files changed, 233 insertions(+), 52 deletions(-)

diff --git a/csrc/quantization/w8a8/cutlass/c3x/scaled_mm_sm100_fp8.cu b/csrc/quantization/w8a8/cutlass/c3x/scaled_mm_sm100_fp8.cu
index cf2cccc913f62..62aeb927ccdcb 100644
--- a/csrc/quantization/w8a8/cutlass/c3x/scaled_mm_sm100_fp8.cu
+++ b/csrc/quantization/w8a8/cutlass/c3x/scaled_mm_sm100_fp8.cu
@@ -1,6 +1,5 @@
 #include "scaled_mm_kernels.hpp"
 #include "scaled_mm_sm100_fp8_dispatch.cuh"
-#include "cutlass_extensions/epilogue/scaled_mm_epilogues_c3x.hpp"
 
 namespace vllm {
 
@@ -13,11 +12,11 @@ void cutlass_scaled_mm_sm100_fp8(torch::Tensor& out, torch::Tensor const& a,
   if (bias) {
     TORCH_CHECK(bias->dtype() == out.dtype(),
                 "currently bias dtype must match output dtype ", out.dtype());
-    return cutlass_scaled_mm_sm100_fp8_epilogue<c3x::ScaledEpilogueBias>(
-        out, a, b, a_scales, b_scales, *bias);
+    return cutlass_scaled_mm_sm100_fp8_epilogue<true>(out, a, b, a_scales,
+                                                      b_scales, *bias);
   } else {
-    return cutlass_scaled_mm_sm100_fp8_epilogue<c3x::ScaledEpilogue>(
-        out, a, b, a_scales, b_scales);
+    return cutlass_scaled_mm_sm100_fp8_epilogue<false>(out, a, b, a_scales,
+                                                       b_scales);
   }
 }
 
diff --git a/csrc/quantization/w8a8/cutlass/c3x/scaled_mm_sm100_fp8_dispatch.cuh b/csrc/quantization/w8a8/cutlass/c3x/scaled_mm_sm100_fp8_dispatch.cuh
index f876b7d9acd87..c950008b4139a 100644
--- a/csrc/quantization/w8a8/cutlass/c3x/scaled_mm_sm100_fp8_dispatch.cuh
+++ b/csrc/quantization/w8a8/cutlass/c3x/scaled_mm_sm100_fp8_dispatch.cuh
@@ -2,6 +2,7 @@
 
 #include "scaled_mm.cuh"
 #include "cutlass_gemm_caller.cuh"
+#include "cutlass_extensions/epilogue/scaled_mm_epilogues_c3x.hpp"
 
 /**
  * This file defines Gemm kernel configurations for SM100 (fp8) based on the
@@ -12,8 +13,88 @@ namespace vllm {
 
 using c3x::cutlass_gemm_caller;
 
-template <typename InType, typename OutType,
-          template <typename, typename, typename> typename Epilogue>
+template <typename ElementAB_, typename ElementD_,
+          template <typename, typename, typename> typename Epilogue_,
+          typename TileShape, typename ClusterShape, typename KernelSchedule,
+          typename EpilogueSchedule, bool swap_ab_ = false>
+struct cutlass_3x_gemm_sm100_fp8 {
+  using ElementAB = ElementAB_;
+  using ElementC = ElementD_;
+  using ElementD = ElementD_;
+  using ElementAcc =
+      typename std::conditional<std::is_same_v<ElementAB, int8_t>, int32_t,
+                                float>::type;
+
+  using Epilogue = Epilogue_<ElementAcc, ElementD, TileShape>;
+
+  using EVTCompute = typename Epilogue::EVTCompute;
+
+  static constexpr int AlignmentAB =
+      128 / cutlass::sizeof_bits<ElementAB>::value;
+  static constexpr int AlignmentCD =
+      128 / cutlass::sizeof_bits<ElementD>::value;
+
+  // Compile-time swap_ab flag
+  static constexpr bool swap_ab = swap_ab_;
+
+  // -----------------------------------------------------------
+  // Layout definitions
+  // -----------------------------------------------------------
+  using LayoutA = cutlass::layout::RowMajor;
+  using LayoutA_T = typename cutlass::layout::LayoutTranspose<LayoutA>::type;
+
+  using LayoutB = cutlass::layout::ColumnMajor;
+  using LayoutB_T = typename cutlass::layout::LayoutTranspose<LayoutB>::type;
+
+  using LayoutD = cutlass::layout::RowMajor;
+  using LayoutD_Transpose =
+      typename cutlass::layout::LayoutTranspose<LayoutD>::type;
+
+  using LayoutC = LayoutD;
+  using LayoutC_Transpose = LayoutD_Transpose;
+
+  // -----------------------------------------------------------
+  // Collective epilogue (conditionally swap operands and layouts)
+  // -----------------------------------------------------------
+  using CollectiveEpilogue =
+      typename cutlass::epilogue::collective::CollectiveBuilder<
+          cutlass::arch::Sm100, cutlass::arch::OpClassTensorOp, TileShape,
+          ClusterShape, cutlass::epilogue::collective::EpilogueTileAuto,
+          ElementAcc, float, ElementC,
+          conditional_t<swap_ab, LayoutC_Transpose, LayoutC>, AlignmentCD,
+          ElementD, conditional_t<swap_ab, LayoutD_Transpose, LayoutD>,
+          AlignmentCD, EpilogueSchedule, EVTCompute>::CollectiveOp;
+
+  static constexpr size_t CEStorageSize =
+      sizeof(typename CollectiveEpilogue::SharedStorage);
+
+  using Stages = typename cutlass::gemm::collective::StageCountAutoCarveout<
+      static_cast<int>(CEStorageSize)>;
+
+  // -----------------------------------------------------------
+  // Collective mainloop (conditionally swap operands and layouts)
+  // -----------------------------------------------------------
+  using CollectiveMainloop = conditional_t<
+      swap_ab,
+      typename cutlass::gemm::collective::CollectiveBuilder<
+          cutlass::arch::Sm100, cutlass::arch::OpClassTensorOp, ElementAB,
+          LayoutB_T, AlignmentAB,             // Swapped B (as A)
+          ElementAB, LayoutA_T, AlignmentAB,  // Swapped A (as B)
+          ElementAcc, TileShape, ClusterShape, Stages,
+          KernelSchedule>::CollectiveOp,
+      typename cutlass::gemm::collective::CollectiveBuilder<
+          cutlass::arch::Sm100, cutlass::arch::OpClassTensorOp, ElementAB,
+          LayoutA, AlignmentAB, ElementAB, LayoutB, AlignmentAB, ElementAcc,
+          TileShape, ClusterShape, Stages, KernelSchedule>::CollectiveOp>;
+
+  // -----------------------------------------------------------
+  // Kernel definition
+  // -----------------------------------------------------------
+  using GemmKernel = cutlass::gemm::kernel::GemmUniversal<
+      Shape<int, int, int, int>, CollectiveMainloop, CollectiveEpilogue, void>;
+};
+
+template <typename InType, typename OutType, bool EnableBias>
 struct sm100_fp8_config_default {
   // M in (256, inf)
   static_assert(std::is_same<InType, cutlass::float_e4m3_t>());
@@ -22,12 +103,16 @@ struct sm100_fp8_config_default {
   using TileShape = Shape<_256, _128, _128>;
   using ClusterShape = Shape<_2, _2, _1>;
   using Cutlass3xGemm =
-      cutlass_3x_gemm_sm100<InType, OutType, Epilogue, TileShape, ClusterShape,
-                            KernelSchedule, EpilogueSchedule>;
+      conditional_t<EnableBias,
+                    cutlass_3x_gemm_sm100_fp8<
+                        InType, OutType, c3x::ScaledEpilogueBias, TileShape,
+                        ClusterShape, KernelSchedule, EpilogueSchedule>,
+                    cutlass_3x_gemm_sm100_fp8<
+                        InType, OutType, c3x::ScaledEpilogue, TileShape,
+                        ClusterShape, KernelSchedule, EpilogueSchedule>>;
 };
 
-template <typename InType, typename OutType,
-          template <typename, typename, typename> typename Epilogue>
+template <typename InType, typename OutType, bool EnableBias>
 struct sm100_fp8_config_M256 {
   // M in (64, 256]
   static_assert(std::is_same<InType, cutlass::float_e4m3_t>());
@@ -36,44 +121,127 @@ struct sm100_fp8_config_M256 {
   using TileShape = Shape<_128, _128, _128>;
   using ClusterShape = Shape<_2, _1, _1>;
   using Cutlass3xGemm =
-      cutlass_3x_gemm_sm100<InType, OutType, Epilogue, TileShape, ClusterShape,
-                            KernelSchedule, EpilogueSchedule>;
+      conditional_t<EnableBias,
+                    cutlass_3x_gemm_sm100_fp8<
+                        InType, OutType, c3x::ScaledEpilogueBias, TileShape,
+                        ClusterShape, KernelSchedule, EpilogueSchedule>,
+                    cutlass_3x_gemm_sm100_fp8<
+                        InType, OutType, c3x::ScaledEpilogue, TileShape,
+                        ClusterShape, KernelSchedule, EpilogueSchedule>>;
 };
 
-template <typename InType, typename OutType,
-          template <typename, typename, typename> typename Epilogue>
+template <typename InType, typename OutType, bool EnableBias>
+struct sm100_fp8_config_M64_swap_ab {
+  // This config is for M in (16, 64] and K >= 4096
+  static_assert(std::is_same<InType, cutlass::float_e4m3_t>());
+  using KernelSchedule = cutlass::gemm::collective::KernelScheduleAuto;
+  using EpilogueSchedule = cutlass::epilogue::collective::EpilogueScheduleAuto;
+  using TileShape = Shape<_128, _64, _256>;
+  using ClusterShape = Shape<_4, _1, _1>;
+
+  // Use ScaledEpilogueColumnBias instead of ScaledEpilogueBias when doing swap
+  // AB
+  using Cutlass3xGemm = conditional_t<
+      EnableBias,
+      cutlass_3x_gemm_sm100_fp8<InType, OutType, c3x::ScaledEpilogueColumnBias,
+                                TileShape, ClusterShape, KernelSchedule,
+                                EpilogueSchedule, true>,
+      cutlass_3x_gemm_sm100_fp8<InType, OutType, c3x::ScaledEpilogue, TileShape,
+                                ClusterShape, KernelSchedule, EpilogueSchedule,
+                                true>>;
+};
+
+template <typename InType, typename OutType, bool EnableBias>
 struct sm100_fp8_config_M64 {
-  // M in (16, 64]
+  // This config is for M = 64 and K < 4096 (do not enable swap AB in such case)
   static_assert(std::is_same<InType, cutlass::float_e4m3_t>());
   using KernelSchedule = cutlass::gemm::collective::KernelScheduleAuto;
   using EpilogueSchedule = cutlass::epilogue::collective::EpilogueScheduleAuto;
   using TileShape = Shape<_64, _64, _128>;
   using ClusterShape = Shape<_1, _1, _1>;
+
   using Cutlass3xGemm =
-      cutlass_3x_gemm_sm100<InType, OutType, Epilogue, TileShape, ClusterShape,
-                            KernelSchedule, EpilogueSchedule>;
+      conditional_t<EnableBias,
+                    cutlass_3x_gemm_sm100_fp8<
+                        InType, OutType, c3x::ScaledEpilogueBias, TileShape,
+                        ClusterShape, KernelSchedule, EpilogueSchedule>,
+                    cutlass_3x_gemm_sm100_fp8<
+                        InType, OutType, c3x::ScaledEpilogue, TileShape,
+                        ClusterShape, KernelSchedule, EpilogueSchedule>>;
 };
 
-template <typename InType, typename OutType,
-          template <typename, typename, typename> typename Epilogue>
-struct sm100_fp8_config_M16 {
+template <typename InType, typename OutType, bool EnableBias>
+struct sm100_fp8_config_M16_swap_ab {
   // M in [1, 16]
   static_assert(std::is_same<InType, cutlass::float_e4m3_t>());
   using KernelSchedule = cutlass::gemm::collective::KernelScheduleAuto;
   using EpilogueSchedule = cutlass::epilogue::collective::EpilogueScheduleAuto;
-  using TileShape = Shape<_64, _64, _128>;
-  using ClusterShape = Shape<_1, _4, _1>;
-  using Cutlass3xGemm =
-      cutlass_3x_gemm_sm100<InType, OutType, Epilogue, TileShape, ClusterShape,
-                            KernelSchedule, EpilogueSchedule>;
+  using TileShape = Shape<_128, _32, _128>;
+  using ClusterShape = Shape<_4, _1, _1>;
+
+  // Use ScaledEpilogueColumnBias instead of ScaledEpilogueBias when doing swap
+  // AB
+  using Cutlass3xGemm = conditional_t<
+      EnableBias,
+      cutlass_3x_gemm_sm100_fp8<InType, OutType, c3x::ScaledEpilogueColumnBias,
+                                TileShape, ClusterShape, KernelSchedule,
+                                EpilogueSchedule, true>,
+      cutlass_3x_gemm_sm100_fp8<InType, OutType, c3x::ScaledEpilogue, TileShape,
+                                ClusterShape, KernelSchedule, EpilogueSchedule,
+                                true>>;
 };
 
-template <typename InType, typename OutType,
-          template <typename, typename, typename> typename Epilogue,
+template <typename Gemm, typename... EpilogueArgs>
+void cutlass_gemm_caller_sm100_fp8(torch::Tensor& out, torch::Tensor const& a,
+                                   torch::Tensor const& b,
+                                   EpilogueArgs&&... epilogue_params) {
+  static constexpr bool swap_ab = Gemm::swap_ab;
+  using ElementAB = typename Gemm::ElementAB;
+  using ElementD = typename Gemm::ElementD;
+  using GemmKernel = typename Gemm::GemmKernel;
+
+  using StrideA = typename Gemm::GemmKernel::StrideA;
+  using StrideB = typename Gemm::GemmKernel::StrideB;
+  using StrideC = typename Gemm::GemmKernel::StrideC;
+
+  int32_t m = a.size(0), n = b.size(1), k = a.size(1);
+  auto prob_shape =
+      swap_ab ? cute::make_shape(n, m, k, 1) : cute::make_shape(m, n, k, 1);
+
+  StrideA a_stride =
+      cutlass::make_cute_packed_stride(StrideA{}, cute::make_shape(m, k, 1));
+  StrideB b_stride =
+      cutlass::make_cute_packed_stride(StrideB{}, cute::make_shape(n, k, 1));
+  StrideC c_stride = cutlass::make_cute_packed_stride(
+      StrideC{},
+      swap_ab ? cute::make_shape(n, m, 1) : cute::make_shape(m, n, 1));
+
+  auto a_ptr = static_cast<ElementAB*>(a.data_ptr());
+  auto b_ptr = static_cast<ElementAB*>(b.data_ptr());
+  auto c_ptr = static_cast<ElementD*>(out.data_ptr());
+
+  typename GemmKernel::MainloopArguments mainloop_args =
+      swap_ab ? typename GemmKernel::MainloopArguments{b_ptr, b_stride, a_ptr,
+                                                       a_stride}
+              : typename GemmKernel::MainloopArguments{a_ptr, a_stride, b_ptr,
+                                                       b_stride};
+
+  typename GemmKernel::EpilogueArguments epilogue_args{
+      Gemm::Epilogue::prepare_args(
+          std::forward<EpilogueArgs>(epilogue_params)...),
+      c_ptr, c_stride, c_ptr, c_stride};
+
+  c3x::cutlass_gemm_caller<GemmKernel>(a.device(), prob_shape, mainloop_args,
+                                       epilogue_args);
+}
+
+template <typename InType, typename OutType, bool EnableBias,
           typename... EpilogueArgs>
 inline void cutlass_gemm_sm100_fp8_dispatch(torch::Tensor& out,
                                             torch::Tensor const& a,
                                             torch::Tensor const& b,
+                                            torch::Tensor const& a_scales,
+                                            torch::Tensor const& b_scales,
                                             EpilogueArgs&&... args) {
   static_assert(std::is_same<InType, cutlass::float_e4m3_t>());
   TORCH_CHECK(a.dtype() == torch::kFloat8_e4m3fn);
@@ -81,55 +249,69 @@ inline void cutlass_gemm_sm100_fp8_dispatch(torch::Tensor& out,
 
   using Cutlass3xGemmDefault =
       typename sm100_fp8_config_default<InType, OutType,
-                                        Epilogue>::Cutlass3xGemm;
-  using Cutlass3xGemmM16 =
-      typename sm100_fp8_config_M16<InType, OutType, Epilogue>::Cutlass3xGemm;
+                                        EnableBias>::Cutlass3xGemm;
+  using Cutlass3xGemmM16SwapAB =
+      typename sm100_fp8_config_M16_swap_ab<InType, OutType,
+                                            EnableBias>::Cutlass3xGemm;
+  using Cutlass3xGemmM64SwapAB =
+      typename sm100_fp8_config_M64_swap_ab<InType, OutType,
+                                            EnableBias>::Cutlass3xGemm;
   using Cutlass3xGemmM64 =
-      typename sm100_fp8_config_M64<InType, OutType, Epilogue>::Cutlass3xGemm;
+      typename sm100_fp8_config_M64<InType, OutType, EnableBias>::Cutlass3xGemm;
+
   using Cutlass3xGemmM256 =
-      typename sm100_fp8_config_M256<InType, OutType, Epilogue>::Cutlass3xGemm;
+      typename sm100_fp8_config_M256<InType, OutType,
+                                     EnableBias>::Cutlass3xGemm;
 
   uint32_t const m = a.size(0);
-  uint32_t const mp2 =
-      std::max(static_cast<uint32_t>(16), next_pow_2(m));  // next power of 2
+  uint32_t const k = a.size(1);
 
-  if (mp2 <= 16) {
+  if (m <= 16) {
     // m in [1, 16]
-    return cutlass_gemm_caller<Cutlass3xGemmM16>(
-        out, a, b, std::forward<EpilogueArgs>(args)...);
-  } else if (mp2 <= 64) {
+    return cutlass_gemm_caller_sm100_fp8<Cutlass3xGemmM16SwapAB>(
+        out, a, b, b_scales, a_scales, std::forward<EpilogueArgs>(args)...);
+  } else if (m <= 64) {
     // m in (16, 64]
-    return cutlass_gemm_caller<Cutlass3xGemmM64>(
-        out, a, b, std::forward<EpilogueArgs>(args)...);
-  } else if (mp2 <= 256) {
+    if (m == 64 && k < 4096) {
+      // do not enable swap AB
+      return cutlass_gemm_caller_sm100_fp8<Cutlass3xGemmM64>(
+          out, a, b, a_scales, b_scales, std::forward<EpilogueArgs>(args)...);
+    }
+    return cutlass_gemm_caller_sm100_fp8<Cutlass3xGemmM64SwapAB>(
+        out, a, b, b_scales, a_scales, std::forward<EpilogueArgs>(args)...);
+
+  } else if (m <= 256) {
     // m in (64, 256]
-    return cutlass_gemm_caller<Cutlass3xGemmM256>(
-        out, a, b, std::forward<EpilogueArgs>(args)...);
+    return cutlass_gemm_caller_sm100_fp8<Cutlass3xGemmM256>(
+        out, a, b, a_scales, b_scales, std::forward<EpilogueArgs>(args)...);
   } else {
     // m in (256, inf)
-    return cutlass_gemm_caller<Cutlass3xGemmDefault>(
-        out, a, b, std::forward<EpilogueArgs>(args)...);
+    return cutlass_gemm_caller_sm100_fp8<Cutlass3xGemmDefault>(
+        out, a, b, a_scales, b_scales, std::forward<EpilogueArgs>(args)...);
   }
 }
 
-template <template <typename, typename, typename> typename Epilogue,
-          typename... EpilogueArgs>
+template <bool EnableBias, typename... EpilogueArgs>
 void cutlass_scaled_mm_sm100_fp8_epilogue(torch::Tensor& out,
                                           torch::Tensor const& a,
                                           torch::Tensor const& b,
+                                          torch::Tensor const& a_scales,
+                                          torch::Tensor const& b_scales,
                                           EpilogueArgs&&... epilogue_args) {
   TORCH_CHECK(a.dtype() == torch::kFloat8_e4m3fn);
   TORCH_CHECK(b.dtype() == torch::kFloat8_e4m3fn);
 
   if (out.dtype() == torch::kBFloat16) {
     return cutlass_gemm_sm100_fp8_dispatch<cutlass::float_e4m3_t,
-                                           cutlass::bfloat16_t, Epilogue>(
-        out, a, b, std::forward<EpilogueArgs>(epilogue_args)...);
+                                           cutlass::bfloat16_t, EnableBias>(
+        out, a, b, a_scales, b_scales,
+        std::forward<EpilogueArgs>(epilogue_args)...);
   } else {
     TORCH_CHECK(out.dtype() == torch::kFloat16);
     return cutlass_gemm_sm100_fp8_dispatch<cutlass::float_e4m3_t,
-                                           cutlass::half_t, Epilogue>(
-        out, a, b, std::forward<EpilogueArgs>(epilogue_args)...);
+                                           cutlass::half_t, EnableBias>(
+        out, a, b, a_scales, b_scales,
+        std::forward<EpilogueArgs>(epilogue_args)...);
   }
 }
 

From 5fd8f02ea9f2bb12b9b68d9dbd9629d555482d98 Mon Sep 17 00:00:00 2001
From: Vadim Gimpelson <156319763+vadiklyutiy@users.noreply.github.com>
Date: Tue, 4 Nov 2025 20:11:41 +0400
Subject: [PATCH 125/976] [PERF] Decouple projections from GDN custom op
 (#27512)

Signed-off-by: Vadim Gimpelson <vadim.gimpelson@gmail.com>
---
 vllm/config/compilation.py               |   2 +-
 vllm/model_executor/layers/layernorm.py  | 102 +++++++++++++++
 vllm/model_executor/models/qwen3_next.py | 153 +++++++++++++++--------
 3 files changed, 204 insertions(+), 53 deletions(-)

diff --git a/vllm/config/compilation.py b/vllm/config/compilation.py
index 00e8cbfd7319a..650104b62d3ff 100644
--- a/vllm/config/compilation.py
+++ b/vllm/config/compilation.py
@@ -462,7 +462,7 @@ class CompilationConfig:
         "vllm::short_conv",
         "vllm::linear_attention",
         "vllm::plamo2_mamba_mixer",
-        "vllm::gdn_attention",
+        "vllm::gdn_attention_core",
         "vllm::kda_attention",
         "vllm::sparse_attn_indexer",
     ]
diff --git a/vllm/model_executor/layers/layernorm.py b/vllm/model_executor/layers/layernorm.py
index 65432c0fb2d4b..4e24d08f6dcab 100644
--- a/vllm/model_executor/layers/layernorm.py
+++ b/vllm/model_executor/layers/layernorm.py
@@ -12,6 +12,7 @@ from vllm.model_executor.layers.batch_invariant import (
     rms_norm_batch_invariant,
     vllm_is_batch_invariant,
 )
+from vllm.model_executor.layers.fla.ops.layernorm_guard import rmsnorm_fn
 from vllm.platforms import current_platform
 from vllm.utils.torch_utils import direct_register_custom_op
 
@@ -369,6 +370,107 @@ class GemmaRMSNorm(CustomOp):
         return self.forward_native(x, residual)
 
 
+@CustomOp.register("rms_norm_gated")
+class RMSNormGated(CustomOp):
+    """RMS Normalization with optional gating.
+
+    This is a native PyTorch implementation that supports:
+    - Standard RMS normalization
+    - Group RMS normalization
+    - Optional gating with SiLU activation
+    """
+
+    def __init__(
+        self,
+        hidden_size: int,
+        eps: float = 1e-5,
+        group_size: int | None = None,
+        norm_before_gate: bool = False,
+        device: torch.device | None = None,
+        dtype: torch.dtype | None = None,
+    ):
+        """Initialize RMSNormGated.
+
+        Args:
+            hidden_size: Size of the hidden dimension
+            eps: Epsilon for numerical stability
+            group_size: If not None, do GroupNorm with each group
+                        having group_size elements.
+                        group_size=None is equivalent to group_size=hidden_size
+                        (i.e. there's only 1 group).
+            norm_before_gate: If True and z is provided: out = norm(x) * silu(z)
+                              If False and z is provided: out = norm(x * silu(z))
+            device: Device to create parameters on
+            dtype: Data type for parameters
+        """
+        factory_kwargs = {"device": device, "dtype": dtype}
+        super().__init__()
+        self.eps = eps
+        self.weight = nn.Parameter(torch.empty(hidden_size, **factory_kwargs))
+        self.register_parameter("bias", None)
+        self.group_size = group_size
+        self.norm_before_gate = norm_before_gate
+        self.reset_parameters()
+
+    def reset_parameters(self):
+        torch.nn.init.ones_(self.weight)
+
+    def forward_native(
+        self, x: torch.Tensor, z: torch.Tensor | None = None
+    ) -> torch.Tensor:
+        """
+        Native PyTorch implementation of RMS normalization with gating.
+
+        Args:
+            x: Input tensor
+            z: Optional gating tensor
+
+        Returns:
+            Normalized (and optionally gated) tensor
+
+        If z is not None:
+            - norm_before_gate=True: out = norm(x) * silu(z)
+            - norm_before_gate=False: out = norm(x * silu(z))
+        """
+        # Apply gating before normalization if needed
+        if z is not None and not self.norm_before_gate:
+            x = x * F.silu(z)
+
+        # RMS Normalization
+        if self.group_size is None:
+            # Standard RMS norm across the last dimension
+            variance = x.pow(2).mean(dim=-1, keepdim=True)
+            x_normed = x * torch.rsqrt(variance + self.eps)
+            out = x_normed * self.weight
+        else:
+            # Group RMS norm
+            from einops import rearrange
+
+            x_group = rearrange(x, "... (g d) -> ... g d", d=self.group_size)
+            variance = x_group.pow(2).mean(dim=-1, keepdim=True)
+            x_normed = x_group * torch.rsqrt(variance + self.eps)
+            out = rearrange(x_normed, "... g d -> ... (g d)") * self.weight
+
+        # Apply gating after normalization if needed
+        if z is not None and self.norm_before_gate:
+            out = out * F.silu(z)
+
+        return out
+
+    def forward_cuda(
+        self, x: torch.Tensor, z: torch.Tensor | None = None
+    ) -> torch.Tensor:
+        return rmsnorm_fn(
+            x,
+            self.weight,
+            self.bias,
+            z=z,
+            eps=self.eps,
+            group_size=self.group_size,
+            norm_before_gate=self.norm_before_gate,
+        )
+
+
 class LayerNorm(nn.Module):
     """
     Layer Normalization.
diff --git a/vllm/model_executor/models/qwen3_next.py b/vllm/model_executor/models/qwen3_next.py
index f452ba871582d..7e305cca1c027 100644
--- a/vllm/model_executor/models/qwen3_next.py
+++ b/vllm/model_executor/models/qwen3_next.py
@@ -30,12 +30,14 @@ from vllm.distributed import (
 from vllm.forward_context import ForwardContext, get_forward_context
 from vllm.logger import init_logger
 from vllm.model_executor.layers.fla.ops import (
-    RMSNormGated,
     chunk_gated_delta_rule,
     fused_recurrent_gated_delta_rule,
 )
 from vllm.model_executor.layers.fused_moe import SharedFusedMoE
-from vllm.model_executor.layers.layernorm import GemmaRMSNorm as Qwen3NextRMSNorm
+from vllm.model_executor.layers.layernorm import (
+    GemmaRMSNorm as Qwen3NextRMSNorm,
+)
+from vllm.model_executor.layers.layernorm import RMSNormGated
 from vllm.model_executor.layers.linear import (
     ColumnParallelLinear,
     QKVParallelLinear,
@@ -436,17 +438,66 @@ class Qwen3NextGatedDeltaNet(nn.Module, MambaBase):
         hidden_states: torch.Tensor,
         output: torch.Tensor,
     ):
-        return torch.ops.vllm.gdn_attention(
-            hidden_states,
-            output,
+        """
+        Forward pass with three parts:
+        1. Input projection
+        2. Core attention (custom op)
+        3. Output projection
+        """
+        num_tokens = hidden_states.size(0)
+
+        # ============================================================
+        # Part 1: Input Projection
+        # ============================================================
+        projected_states_qkvz, _ = self.in_proj_qkvz(hidden_states)
+        projected_states_ba, _ = self.in_proj_ba(hidden_states)
+        query, key, value, z, b, a = self.fix_query_key_value_ordering(
+            projected_states_qkvz, projected_states_ba
+        )
+        query, key, value = map(
+            lambda x: rearrange(x, "l p d -> l (p d)"), (query, key, value)
+        )
+        mixed_qkv = torch.cat((query, key, value), dim=-1)
+
+        # ============================================================
+        # Part 2: Core Attention (Custom Op)
+        # ============================================================
+        core_attn_out = torch.zeros(
+            (num_tokens, self.num_v_heads // self.tp_size, self.head_v_dim),
+            dtype=hidden_states.dtype,
+            device=hidden_states.device,
+        )
+
+        torch.ops.vllm.gdn_attention_core(
+            mixed_qkv,
+            b,
+            a,
+            core_attn_out,
             self.prefix,
         )
 
-    def _forward(
+        # ============================================================
+        # Part 3: Output Projection
+        # ============================================================
+        z_shape_og = z.shape
+        # Reshape input data into 2D tensor
+        core_attn_out = core_attn_out.reshape(-1, core_attn_out.shape[-1])
+        z = z.reshape(-1, z.shape[-1])
+        core_attn_out = self.norm(core_attn_out, z)
+        core_attn_out = core_attn_out.reshape(z_shape_og)
+        core_attn_out = rearrange(core_attn_out, "... h d -> ... (h d)")
+        output[:num_tokens], _ = self.out_proj(core_attn_out)
+
+    def _forward_core(
         self,
-        hidden_states: torch.Tensor,
-        output: torch.Tensor,
+        mixed_qkv: torch.Tensor,
+        b: torch.Tensor,
+        a: torch.Tensor,
+        core_attn_out: torch.Tensor,
     ):
+        """
+        Core attention computation (called by custom op).
+        """
         forward_context = get_forward_context()
         attn_metadata: AttentionMetadata = forward_context.attn_metadata
 
@@ -471,18 +522,11 @@ class Qwen3NextGatedDeltaNet(nn.Module, MambaBase):
         num_actual_tokens = attn_metadata.num_actual_tokens
         num_accepted_tokens = attn_metadata.num_accepted_tokens
 
-        # 1. Set up dimensions for reshapes later
-        projected_states_qkvz, _ = self.in_proj_qkvz(hidden_states[:num_actual_tokens])
-        projected_states_ba, _ = self.in_proj_ba(hidden_states[:num_actual_tokens])
-        query, key, value, z, b, a = self.fix_query_key_value_ordering(
-            projected_states_qkvz, projected_states_ba
-        )
-        query, key, value = map(
-            lambda x: rearrange(x, "l p d -> l (p d)"), (query, key, value)
-        )
-        mixed_qkv = torch.cat((query, key, value), dim=-1)
+        mixed_qkv = mixed_qkv[:num_actual_tokens]
+        b = b[:num_actual_tokens]
+        a = a[:num_actual_tokens]
 
-        # 2. Convolution sequence transformation
+        # 1. Convolution sequence transformation
         conv_weights = self.conv1d.weight.view(
             self.conv1d.weight.size(0), self.conv1d.weight.size(2)
         )
@@ -498,7 +542,7 @@ class Qwen3NextGatedDeltaNet(nn.Module, MambaBase):
             mixed_qkv_spec = None
             mixed_qkv_non_spec = mixed_qkv
 
-        # 2.1: process the mutli-query part
+        # 1.1: Process the multi-query part
         if spec_sequence_masks is not None:
             mixed_qkv_spec = causal_conv1d_update(
                 mixed_qkv_spec,
@@ -515,7 +559,7 @@ class Qwen3NextGatedDeltaNet(nn.Module, MambaBase):
                 validate_data=False,
             )
 
-        # 2.2: process the remaining part
+        # 1.2: Process the remaining part
         if attn_metadata.num_prefills > 0:
             mixed_qkv_non_spec_T = mixed_qkv_non_spec.transpose(0, 1)
             # - "cache_indices" updates the conv_state cache in positions
@@ -573,9 +617,9 @@ class Qwen3NextGatedDeltaNet(nn.Module, MambaBase):
             g_non_spec = g
             beta_non_spec = beta
 
-        # 3. Recurrent attention
+        # 2. Recurrent attention
 
-        # 3.1: process the mutlti-query part
+        # 2.1: Process the multi-query part
         if spec_sequence_masks is not None:
             core_attn_out_spec, last_recurrent_state = fused_recurrent_gated_delta_rule(
                 q=query_spec,
@@ -593,7 +637,7 @@ class Qwen3NextGatedDeltaNet(nn.Module, MambaBase):
         else:
             core_attn_out_spec, last_recurrent_state = None, None
 
-        # 3.2: process the remaining part
+        # 2.2: Process the remaining part
         if attn_metadata.num_prefills > 0:
             initial_state = ssm_state[non_spec_state_indices_tensor].contiguous()
             initial_state[~has_initial_state, ...] = 0
@@ -636,30 +680,20 @@ class Qwen3NextGatedDeltaNet(nn.Module, MambaBase):
         else:
             core_attn_out_non_spec, last_recurrent_state = None, None
 
-        # Merge core attention output
+        # 3. Merge core attention output
         if spec_sequence_masks is not None and core_attn_out_non_spec is not None:
-            core_attn_out = torch.empty(
+            merged_out = torch.empty(
                 (1, num_actual_tokens, *core_attn_out_spec.shape[2:]),
                 dtype=core_attn_out_non_spec.dtype,
                 device=core_attn_out_non_spec.device,
             )
-            core_attn_out.index_copy_(1, spec_token_indx, core_attn_out_spec)
-            core_attn_out.index_copy_(1, non_spec_token_indx, core_attn_out_non_spec)
-
+            merged_out.index_copy_(1, spec_token_indx, core_attn_out_spec)
+            merged_out.index_copy_(1, non_spec_token_indx, core_attn_out_non_spec)
+            core_attn_out[:num_actual_tokens] = merged_out.squeeze(0)
         elif spec_sequence_masks is not None:
-            core_attn_out = core_attn_out_spec
+            core_attn_out[:num_actual_tokens] = core_attn_out_spec.squeeze(0)
         else:
-            core_attn_out = core_attn_out_non_spec
-
-        z_shape_og = z.shape
-        # reshape input data into 2D tensor
-        core_attn_out = core_attn_out.reshape(-1, core_attn_out.shape[-1])
-        z = z.reshape(-1, z.shape[-1])
-        core_attn_out = self.norm(core_attn_out, z)
-        core_attn_out = core_attn_out.reshape(z_shape_og)
-        core_attn_out = rearrange(core_attn_out, "... h d -> ... (h d)")
-
-        output[:num_actual_tokens], _ = self.out_proj(core_attn_out)
+            core_attn_out[:num_actual_tokens] = core_attn_out_non_spec.squeeze(0)
 
 
 class Qwen3NextAttention(nn.Module):
@@ -1270,29 +1304,44 @@ class Qwen3NextForCausalLM(
         return self.model.get_expert_mapping()
 
 
-def gdn_attention(
-    hidden_states: torch.Tensor,
-    output: torch.Tensor,
+def gdn_attention_core(
+    mixed_qkv: torch.Tensor,
+    b: torch.Tensor,
+    a: torch.Tensor,
+    core_attn_out: torch.Tensor,
     layer_name: str,
 ) -> None:
+    """
+    Custom op for the core attention computation.
+    Only handles the convolution + recurrent attention part.
+    Input/output projections are handled outside this op.
+    """
     forward_context: ForwardContext = get_forward_context()
     self = forward_context.no_compile_layers[layer_name]
-    self._forward(hidden_states=hidden_states, output=output)
+    self._forward_core(
+        mixed_qkv=mixed_qkv,
+        b=b,
+        a=a,
+        core_attn_out=core_attn_out,
+    )
 
 
-def gdn_attention_fake(
-    hidden_states: torch.Tensor,
-    output: torch.Tensor,
+def gdn_attention_core_fake(
+    mixed_qkv: torch.Tensor,
+    b: torch.Tensor,
+    a: torch.Tensor,
+    core_attn_out: torch.Tensor,
     layer_name: str,
 ) -> None:
+    """Fake implementation for torch.compile."""
     return
 
 
 direct_register_custom_op(
-    op_name="gdn_attention",
-    op_func=gdn_attention,
-    mutates_args=["output"],
-    fake_impl=gdn_attention_fake,
+    op_name="gdn_attention_core",
+    op_func=gdn_attention_core,
+    mutates_args=["core_attn_out"],
+    fake_impl=gdn_attention_core_fake,
 )
 
 
From 05cae69f0f4f0237779c45a3907aa13ee5a07667 Mon Sep 17 00:00:00 2001
From: yt0428 <51468697+yt0428@users.noreply.github.com>
Date: Wed, 5 Nov 2025 00:17:20 +0800
Subject: [PATCH 126/976] [model] Add support for openPangu_Ultra_MoE (#27521)

Signed-off-by: yuantao <2422264527@qq.com>
Signed-off-by: yt0428 <51468697+yt0428@users.noreply.github.com>
Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>
---
 docs/models/supported_models.md             |    2 +
 tests/models/registry.py                    |   13 +
 vllm/config/model.py                        |    3 +
 vllm/config/speculative.py                  |    9 +
 vllm/model_executor/models/openpangu.py     | 1078 +++++++++++++++++++
 vllm/model_executor/models/openpangu_mtp.py |  265 +++++
 vllm/model_executor/models/registry.py      |    3 +
 vllm/v1/spec_decode/eagle.py                |    7 +-
 8 files changed, 1379 insertions(+), 1 deletion(-)
 create mode 100644 vllm/model_executor/models/openpangu.py
 create mode 100644 vllm/model_executor/models/openpangu_mtp.py

diff --git a/docs/models/supported_models.md b/docs/models/supported_models.md
index 21235e305db4b..e3084195cd50f 100644
--- a/docs/models/supported_models.md
+++ b/docs/models/supported_models.md
@@ -404,6 +404,8 @@ th {
 | `OPTForCausalLM` | OPT, OPT-IML | `facebook/opt-66b`, `facebook/opt-iml-max-30b`, etc. | ✅︎ | ✅︎ |
 | `OrionForCausalLM` | Orion | `OrionStarAI/Orion-14B-Base`, `OrionStarAI/Orion-14B-Chat`, etc. | | ✅︎ |
 | `OuroForCausalLM` | ouro | `ByteDance/Ouro-1.4B`, `ByteDance/Ouro-2.6B`, etc. | ✅︎ | |
+| `PanguEmbeddedForCausalLM` |openPangu-Embedded-7B | `FreedomIntelligence/openPangu-Embedded-7B-V1.1` | ✅︎ | ✅︎ |
+| `PanguUltraMoEForCausalLM` |openpangu-ultra-moe-718b-model | `FreedomIntelligence/openPangu-Ultra-MoE-718B-V1.1` | ✅︎ | ✅︎ |
 | `PhiForCausalLM` | Phi | `microsoft/phi-1_5`, `microsoft/phi-2`, etc. | ✅︎ | ✅︎ |
 | `Phi3ForCausalLM` | Phi-4, Phi-3 | `microsoft/Phi-4-mini-instruct`, `microsoft/Phi-4`, `microsoft/Phi-3-mini-4k-instruct`, `microsoft/Phi-3-mini-128k-instruct`, `microsoft/Phi-3-medium-128k-instruct`, etc. | ✅︎ | ✅︎ |
 | `PhiMoEForCausalLM` | Phi-3.5-MoE | `microsoft/Phi-3.5-MoE-instruct`, etc. | ✅︎ | ✅︎ |
diff --git a/tests/models/registry.py b/tests/models/registry.py
index 00fe999805003..a4bcddc50c1a1 100644
--- a/tests/models/registry.py
+++ b/tests/models/registry.py
@@ -363,6 +363,11 @@ _TEXT_GENERATION_EXAMPLE_MODELS = {
     "Olmo2ForCausalLM": _HfExamplesInfo("allenai/OLMo-2-0425-1B"),
     "Olmo3ForCausalLM": _HfExamplesInfo("shanearora/2025-sep-a-base-model"),
     "OlmoeForCausalLM": _HfExamplesInfo("allenai/OLMoE-1B-7B-0924-Instruct"),
+    "OpenPanguMTPModel": _HfExamplesInfo(
+        "FreedomIntelligence/openPangu-Ultra-MoE-718B-V1.1",
+        trust_remote_code=True,
+        is_available_online=False,
+    ),
     "OPTForCausalLM": _HfExamplesInfo(
         "facebook/opt-125m", {"1b": "facebook/opt-iml-max-1.3b"}
     ),
@@ -370,6 +375,14 @@ _TEXT_GENERATION_EXAMPLE_MODELS = {
         "OrionStarAI/Orion-14B-Chat", trust_remote_code=True
     ),
     "OuroForCausalLM": _HfExamplesInfo("ByteDance/Ouro-1.4B", trust_remote_code=True),
+    "PanguEmbeddedForCausalLM": _HfExamplesInfo(
+        "FreedomIntelligence/openPangu-Embedded-7B-V1.1", trust_remote_code=True
+    ),
+    "PanguUltraMoEForCausalLM": _HfExamplesInfo(
+        "FreedomIntelligence/openPangu-Ultra-MoE-718B-V1.1",
+        trust_remote_code=True,
+        is_available_online=False,
+    ),
     "PersimmonForCausalLM": _HfExamplesInfo("adept/persimmon-8b-chat"),
     "PhiForCausalLM": _HfExamplesInfo("microsoft/phi-2"),
     "Phi3ForCausalLM": _HfExamplesInfo("microsoft/Phi-3-mini-4k-instruct"),
diff --git a/vllm/config/model.py b/vllm/config/model.py
index 2e80df4311035..17d3162695b54 100644
--- a/vllm/config/model.py
+++ b/vllm/config/model.py
@@ -1231,6 +1231,8 @@ class ModelConfig:
             "kimi_k2",
             "kimi_linear",
             "longcat_flash",
+            "pangu_ultra_moe",
+            "pangu_ultra_moe_mtp",
         ):
             return self.hf_text_config.kv_lora_rank is not None
         elif self.hf_text_config.model_type == "eagle":
@@ -1379,6 +1381,7 @@ class ModelConfig:
             or self.hf_config.model_type == "glm4_moe_mtp"
             or self.hf_config.model_type == "ernie_mtp"
             or self.hf_config.model_type == "qwen3_next_mtp"
+            or self.hf_config.model_type == "pangu_ultra_moe_mtp"
         ):
             total_num_hidden_layers = getattr(
                 self.hf_text_config, "num_nextn_predict_layers", 0
diff --git a/vllm/config/speculative.py b/vllm/config/speculative.py
index af1d640f8accc..873dfd0170694 100644
--- a/vllm/config/speculative.py
+++ b/vllm/config/speculative.py
@@ -41,6 +41,7 @@ SpeculativeMethod = Literal[
     "qwen3_next_mtp",
     "mimo_mtp",
     "longcat_flash_mtp",
+    "pangu_ultra_moe_mtp",
     "mtp",
     "suffix",
 ]
@@ -51,6 +52,7 @@ MTP_MODEL_TYPES = (
     "ernie_mtp",
     "qwen3_next_mtp",
     "longcat_flash_mtp",
+    "pangu_ultra_moe_mtp",
 )
 
 
@@ -179,6 +181,13 @@ class SpeculativeConfig:
             hf_config.update(
                 {"n_predict": n_predict, "architectures": ["DeepSeekMTPModel"]}
             )
+        if hf_config.model_type in ("pangu_ultra_moe"):
+            hf_config.model_type = "pangu_ultra_moe_mtp"
+        if hf_config.model_type == "pangu_ultra_moe_mtp":
+            n_predict = getattr(hf_config, "num_nextn_predict_layers", None)
+            hf_config.update(
+                {"n_predict": n_predict, "architectures": ["OpenPanguMTPModel"]}
+            )
 
         if hf_config.architectures[0] == "MiMoForCausalLM":
             hf_config.model_type = "mimo_mtp"
diff --git a/vllm/model_executor/models/openpangu.py b/vllm/model_executor/models/openpangu.py
new file mode 100644
index 0000000000000..457498d995f82
--- /dev/null
+++ b/vllm/model_executor/models/openpangu.py
@@ -0,0 +1,1078 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# Copyright (c) 2025 Huawei Technologies Co., Ltd. All Rights Reserved.
+# Copyright 2023 The vLLM team.
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+import typing
+from collections.abc import Callable, Iterable
+from typing import Any
+
+import torch
+from torch import nn
+from transformers import PretrainedConfig
+
+from vllm.attention import Attention, AttentionType
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, ParallelConfig, VllmConfig
+from vllm.distributed import (
+    get_ep_group,
+    get_pp_group,
+    get_tensor_model_parallel_world_size,
+    get_tp_group,
+    tensor_model_parallel_all_gather,
+)
+from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.fused_moe import SharedFusedMoE
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    MergedColumnParallelLinear,
+    QKVParallelLinear,
+    ReplicatedLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.mla import MLAModules, MultiHeadLatentAttentionWrapper
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.model_executor.models.interfaces import (
+    MixtureOfExperts,
+    SupportsLoRA,
+    SupportsPP,
+)
+from vllm.model_executor.models.utils import (
+    AutoWeightsLoader,
+    PPMissingLayer,
+    extract_layer_index,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+    sequence_parallel_chunk,
+)
+from vllm.sequence import IntermediateTensors
+
+
+def check_ffn_act_fn(act_fn: str):
+    if act_fn != "silu":
+        raise ValueError(
+            f"Unsupported activation: {act_fn}. Only silu is supported for now."
+        )
+
+
+class OpenPanguMLP(nn.Module):
+    def __init__(
+        self,
+        hidden_size: int,
+        intermediate_size: int,
+        hidden_act: str,
+        quant_config: QuantizationConfig | None = None,
+        bias: bool = False,
+        reduce_results: bool = True,
+        is_sequence_parallel=False,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.gate_up_proj = MergedColumnParallelLinear(
+            hidden_size,
+            [intermediate_size] * 2,
+            bias=bias,
+            quant_config=quant_config,
+            disable_tp=is_sequence_parallel,
+            prefix=f"{prefix}.gate_up_proj",
+        )
+        self.down_proj = RowParallelLinear(
+            intermediate_size,
+            hidden_size,
+            bias=bias,
+            quant_config=quant_config,
+            reduce_results=reduce_results,
+            disable_tp=is_sequence_parallel,
+            prefix=f"{prefix}.down_proj",
+        )
+
+        check_ffn_act_fn(hidden_act)
+        self.act_fn = SiluAndMul()
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        return self.down_proj(self.act_fn(self.gate_up_proj(x)[0]))[0]
+
+
+class OpenPanguMoE(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        parallel_config: ParallelConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ):
+        super().__init__()
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.tp_rank = get_tp_group().rank_in_group
+
+        self.routed_scaling_factor = config.routed_scaling_factor
+        self.ep_group = get_ep_group().device_group
+        self.ep_rank = self.ep_group.rank()
+        self.ep_size = self.ep_group.size()
+        self.n_routed_experts: int = config.n_routed_experts
+        self.n_shared_experts: int = config.n_shared_experts
+
+        self.is_sequence_parallel = parallel_config.use_sequence_parallel_moe
+        check_ffn_act_fn(config.hidden_act)
+
+        self.gate = ReplicatedLinear(
+            config.hidden_size,
+            config.n_routed_experts,
+            bias=False,
+            quant_config=None,
+            prefix=f"{prefix}.gate",
+        )
+        self.gate.e_score_correction_bias = None
+
+        # Load balancing settings.
+        eplb_config = parallel_config.eplb_config
+        self.enable_eplb = parallel_config.enable_eplb
+
+        self.n_redundant_experts = eplb_config.num_redundant_experts
+        self.n_logical_experts = self.n_routed_experts
+        self.n_physical_experts = self.n_logical_experts + self.n_redundant_experts
+        self.n_local_physical_experts = self.n_physical_experts // self.ep_size
+
+        self.physical_expert_start = self.ep_rank * self.n_local_physical_experts
+        self.physical_expert_end = (
+            self.physical_expert_start + self.n_local_physical_experts
+        )
+
+        if config.n_shared_experts is not None:
+            intermediate_size = config.moe_intermediate_size * config.n_shared_experts
+            self.shared_experts = OpenPanguMLP(
+                hidden_size=config.hidden_size,
+                intermediate_size=intermediate_size,
+                hidden_act=config.hidden_act,
+                quant_config=quant_config,
+                is_sequence_parallel=self.is_sequence_parallel,
+                reduce_results=False,
+                prefix=f"{prefix}.shared_experts",
+            )
+        else:
+            self.shared_experts = None
+
+        self.experts = SharedFusedMoE(
+            shared_experts=self.shared_experts,
+            num_experts=config.n_routed_experts,
+            top_k=config.num_experts_per_tok,
+            hidden_size=config.hidden_size,
+            intermediate_size=config.moe_intermediate_size,
+            reduce_results=False,
+            renormalize=config.norm_topk_prob,
+            quant_config=quant_config,
+            use_grouped_topk=True,
+            num_expert_group=1,
+            topk_group=1,
+            prefix=f"{prefix}.experts",
+            scoring_func="sigmoid",
+            # we do scaling outside, set factor to 1.0 to avoid double mul
+            routed_scaling_factor=1.0,
+            e_score_correction_bias=self.gate.e_score_correction_bias,
+            enable_eplb=self.enable_eplb,
+            num_redundant_experts=self.n_redundant_experts,
+            is_sequence_parallel=self.is_sequence_parallel,
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        num_tokens, hidden_dim = hidden_states.shape
+        hidden_states = hidden_states.view(-1, hidden_dim)
+
+        if self.is_sequence_parallel:
+            hidden_states = sequence_parallel_chunk(hidden_states)
+
+        router_logits, _ = self.gate(hidden_states)
+
+        fused_moe_out = self.experts(
+            hidden_states=hidden_states, router_logits=router_logits
+        )
+
+        shared_output, final_hidden_states = fused_moe_out
+        if self.shared_experts is None:
+            assert shared_output is None
+
+        if hidden_states.dtype != torch.float16:
+            final_hidden_states *= self.routed_scaling_factor
+        elif self.shared_experts is not None:
+            assert shared_output is not None
+            shared_output *= 1.0 / self.routed_scaling_factor
+
+        if self.shared_experts is not None:
+            assert shared_output is not None
+            final_hidden_states += shared_output
+
+        if self.is_sequence_parallel:
+            final_hidden_states = tensor_model_parallel_all_gather(
+                final_hidden_states, 0
+            )
+            final_hidden_states = final_hidden_states[:num_tokens]
+        elif self.tp_size > 1:
+            final_hidden_states = self.experts.maybe_all_reduce_tensor_model_parallel(
+                final_hidden_states
+            )
+
+        return final_hidden_states.view(num_tokens, hidden_dim)
+
+
+class OpenPanguMLAAttention(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        hidden_size: int,
+        num_heads: int,
+        qk_nope_head_dim: int,
+        qk_rope_head_dim: int,
+        v_head_dim: int,
+        q_lora_rank: int | None,
+        kv_lora_rank: int,
+        rope_theta: float = 10000,
+        max_position_embeddings: int = 8192,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        self.num_heads = num_heads
+        self.qk_nope_head_dim = qk_nope_head_dim
+        self.qk_rope_head_dim = qk_rope_head_dim
+        self.qk_head_dim = qk_nope_head_dim + qk_rope_head_dim
+        self.v_head_dim = v_head_dim
+        self.q_lora_rank = q_lora_rank
+        self.kv_lora_rank = kv_lora_rank
+        self.rope_theta = rope_theta
+
+        self.tp_size = get_tensor_model_parallel_world_size()
+        if num_heads % self.tp_size != 0:
+            raise ValueError(
+                f"num_heads {num_heads} is not divisible by tp_size {self.tp_size}."
+            )
+        self.num_local_heads = num_heads // self.tp_size
+
+        self.scaling = self.qk_head_dim**-0.5
+        self.max_position_embeddings = max_position_embeddings
+
+        self.prefix = prefix
+
+        if self.q_lora_rank is not None:
+            self.fused_qkv_a_proj = MergedColumnParallelLinear(
+                self.hidden_size,
+                [self.q_lora_rank, self.kv_lora_rank + self.qk_rope_head_dim],
+                bias=False,
+                quant_config=quant_config,
+                prefix=f"{prefix}.fused_qkv_a_proj",
+                disable_tp=True,
+            )
+            self.q_a_layernorm = RMSNorm(self.q_lora_rank, eps=config.rms_norm_eps)
+            self.q_b_proj = ColumnParallelLinear(
+                q_lora_rank,
+                self.num_heads * self.qk_head_dim,
+                bias=False,
+                quant_config=quant_config,
+                prefix=f"{prefix}.q_b_proj",
+            )
+        else:
+            self.q_proj = ColumnParallelLinear(
+                self.hidden_size,
+                self.num_heads * self.qk_head_dim,
+                bias=False,
+                quant_config=quant_config,
+                prefix=f"{prefix}.q_proj",
+            )
+            self.kv_a_proj_with_mqa = ReplicatedLinear(
+                self.hidden_size,
+                self.kv_lora_rank + self.qk_rope_head_dim,
+                bias=False,
+                quant_config=quant_config,
+                prefix=f"{prefix}.kv_a_proj_with_mqa",
+            )
+
+        self.kv_a_layernorm = RMSNorm(self.kv_lora_rank, eps=config.rms_norm_eps)
+        self.kv_b_proj = ColumnParallelLinear(
+            self.kv_lora_rank,
+            self.num_heads * (self.qk_nope_head_dim + self.v_head_dim),
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.kv_b_proj",
+        )
+
+        self.o_proj = RowParallelLinear(
+            self.num_heads * self.v_head_dim,
+            self.hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        # TODO: remove hard coding
+        rope_scaling = {
+            "beta_fast": 32,
+            "beta_slow": 1,
+            "factor": 1,
+            "mscale": 1.0,
+            "mscale_all_dim": 1.0,
+            "original_max_position_embeddings": max_position_embeddings,
+            "type": "yarn",
+            "rope_type": "deepseek_yarn",
+        }
+        self.rotary_emb = get_rope(
+            qk_rope_head_dim,
+            rotary_dim=qk_rope_head_dim,
+            max_position=max_position_embeddings,
+            base=rope_theta,
+            rope_scaling=rope_scaling,
+            is_neox_style=False,
+        )
+
+        mla_modules = MLAModules(
+            kv_a_layernorm=self.kv_a_layernorm,
+            kv_b_proj=self.kv_b_proj,
+            rotary_emb=self.rotary_emb,
+            o_proj=self.o_proj,
+            fused_qkv_a_proj=self.fused_qkv_a_proj
+            if self.q_lora_rank is not None
+            else None,
+            kv_a_proj_with_mqa=self.kv_a_proj_with_mqa
+            if self.q_lora_rank is None
+            else None,
+            q_a_layernorm=self.q_a_layernorm if self.q_lora_rank is not None else None,
+            q_b_proj=self.q_b_proj if self.q_lora_rank is not None else None,
+            q_proj=self.q_proj if self.q_lora_rank is None else None,
+            indexer=None,
+            is_sparse=False,
+            topk_indices_buffer=None,
+        )
+
+        self.mla_attn = MultiHeadLatentAttentionWrapper(
+            self.hidden_size,
+            self.num_local_heads,
+            self.scaling,
+            self.qk_nope_head_dim,
+            self.qk_rope_head_dim,
+            self.v_head_dim,
+            self.q_lora_rank,
+            self.kv_lora_rank,
+            mla_modules,
+            cache_config,
+            quant_config,
+            prefix,
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        return self.mla_attn(positions, hidden_states)
+
+
+class OpenPanguEmbeddedAttention(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        rope_theta: float = 10000,
+        rope_scaling: dict[str, Any] | None = None,
+        max_position_embeddings: int = 8192,
+        quant_config: QuantizationConfig | None = None,
+        bias: bool = False,
+        bias_o_proj: bool = False,
+        cache_config: CacheConfig | None = None,
+        prefix: str = "",
+        attn_type: str = AttentionType.DECODER,
+    ) -> None:
+        super().__init__()
+        layer_idx = extract_layer_index(prefix)
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        if self.total_num_heads % tp_size != 0:
+            raise ValueError(
+                f"total_num_heads {self.total_num_heads} "
+                f"is not divisible by tp_size {tp_size}."
+            )
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads > tp_size and self.total_num_kv_heads % tp_size != 0:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel ranks.
+            raise ValueError(
+                "Number of KV heads is greater than TP size, "
+                f"but total_num_kv_heads {self.total_num_kv_heads} "
+                f"is not divisible by tp_size {tp_size}."
+            )
+        elif (
+            self.total_num_kv_heads < tp_size and tp_size % self.total_num_kv_heads != 0
+        ):
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel ranks.
+            raise ValueError(
+                f"Number of KV heads is less than TP size, but tp_size {tp_size} "
+                f"is not divisible by total_num_kv_heads {self.total_num_kv_heads}."
+            )
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        head_dim = getattr(config, "head_dim", None)
+        if head_dim is None:
+            head_dim = self.hidden_size // self.total_num_heads
+        self.head_dim = head_dim
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.max_position_embeddings = max_position_embeddings
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size=hidden_size,
+            head_size=self.head_dim,
+            total_num_heads=self.total_num_heads,
+            total_num_kv_heads=self.total_num_kv_heads,
+            bias=bias,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+
+        self.o_proj = RowParallelLinear(
+            input_size=self.total_num_heads * self.head_dim,
+            output_size=hidden_size,
+            bias=bias_o_proj,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        self._init_rotary_emb(
+            config, rope_scaling=rope_scaling, quant_config=quant_config
+        )
+
+        if hasattr(config, "interleaved_sliding_window"):
+            interleaved_sliding_window = config.interleaved_sliding_window
+            if isinstance(interleaved_sliding_window, int):
+                sliding_window = interleaved_sliding_window
+            elif isinstance(interleaved_sliding_window, list):
+                sw_idx = layer_idx % len(interleaved_sliding_window)
+                sliding_window = interleaved_sliding_window[sw_idx]
+            else:
+                raise ValueError(
+                    f"{type(interleaved_sliding_window)} "
+                    "for interleaved_sliding_window is not supported."
+                )
+        else:
+            sliding_window = None
+
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            per_layer_sliding_window=sliding_window,
+            attn_type=attn_type,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+    def _init_rotary_emb(
+        self,
+        config: PretrainedConfig,
+        rope_scaling: dict[str, Any] | None,
+        quant_config: QuantizationConfig | None,
+    ) -> None:
+        is_neox_style = True
+        is_gguf = quant_config and quant_config.get_name() == "gguf"
+        if is_gguf and config.model_type == "PanguEmbedded":
+            is_neox_style = False
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=self.max_position_embeddings,
+            base=self.rope_theta,
+            rope_scaling=rope_scaling,
+            is_neox_style=is_neox_style,
+        )
+
+
+class OpenPanguDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        prefix: str,
+        vllm_config: VllmConfig,
+    ) -> None:
+        super().__init__()
+
+        if config is None:
+            config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+        parallel_config = vllm_config.parallel_config
+
+        self.hidden_size = config.hidden_size
+        rope_theta = getattr(config, "rope_theta", 10000)
+        max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
+
+        layer_idx = int(prefix.split(sep=".")[-1])
+        self.layer_idx = layer_idx
+
+        self.use_mla = (
+            hasattr(config, "qk_nope_head_dim")
+            and hasattr(config, "qk_rope_head_dim")
+            and hasattr(config, "v_head_dim")
+            and hasattr(config, "kv_lora_rank")
+        )
+        if self.use_mla:
+            self.self_attn = OpenPanguMLAAttention(
+                config=config,
+                hidden_size=self.hidden_size,
+                num_heads=config.num_attention_heads,
+                qk_nope_head_dim=config.qk_nope_head_dim,
+                qk_rope_head_dim=config.qk_rope_head_dim,
+                v_head_dim=config.v_head_dim,
+                q_lora_rank=(
+                    config.q_lora_rank if hasattr(config, "q_lora_rank") else None
+                ),
+                kv_lora_rank=config.kv_lora_rank,
+                rope_theta=rope_theta,
+                max_position_embeddings=max_position_embeddings,
+                cache_config=cache_config,
+                quant_config=quant_config,
+                prefix=f"{prefix}.self_attn",
+            )
+        else:
+            attention_bias = getattr(config, "attention_bias", False) or getattr(
+                config, "bias", False
+            )
+            bias_o_proj = attention_bias
+            if hasattr(config, "qkv_bias"):
+                attention_bias = config.qkv_bias
+            # By default, PanguEmbedded uses causal attention
+            # as it is a decoder-only model.
+            # You can override the HF config with `is_causal=False` to enable
+            # bidirectional attention, which is used in some embedding models
+            if getattr(config, "is_causal", True):
+                attn_type = AttentionType.DECODER
+            else:
+                attn_type = AttentionType.ENCODER_ONLY
+            self.self_attn = OpenPanguEmbeddedAttention(
+                config=config,
+                hidden_size=self.hidden_size,
+                num_heads=config.num_attention_heads,
+                num_kv_heads=getattr(
+                    config, "num_key_value_heads", config.num_attention_heads
+                ),
+                rope_theta=rope_theta,
+                rope_scaling=getattr(config, "rope_scaling", None),
+                max_position_embeddings=max_position_embeddings,
+                quant_config=quant_config,
+                bias=attention_bias,
+                bias_o_proj=bias_o_proj,
+                cache_config=cache_config,
+                prefix=f"{prefix}.self_attn",
+                attn_type=attn_type,
+            )
+
+        if (
+            getattr(config, "n_routed_experts", None) is not None
+            and layer_idx >= config.first_k_dense_replace
+        ):
+            self.mlp = OpenPanguMoE(
+                config=config,
+                parallel_config=parallel_config,
+                quant_config=quant_config,
+                prefix=f"{prefix}.mlp",
+            )
+        else:
+            self.mlp = OpenPanguMLP(
+                hidden_size=self.hidden_size,
+                intermediate_size=config.intermediate_size,
+                hidden_act=config.hidden_act,
+                quant_config=quant_config,
+                bias=getattr(config, "mlp_bias", False),
+                prefix=f"{prefix}.mlp",
+            )
+        self.routed_scaling_factor = getattr(config, "routed_scaling_factor", None)
+        self.num_hidden_layers = config.num_hidden_layers
+        self.first_k_dense_replace = getattr(
+            config, "first_k_dense_replace", self.num_hidden_layers
+        )
+
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+        self.tp_group = get_tp_group().device_group
+        self.sandwich_norm = getattr(config, "sandwich_norm", False)
+        if self.sandwich_norm:
+            self.pre_mlp_layernorm = RMSNorm(
+                config.hidden_size, eps=config.rms_norm_eps
+            )
+            self.post_mlp_layernorm = RMSNorm(
+                config.hidden_size, eps=config.rms_norm_eps
+            )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> torch.Tensor:
+        if residual is None:
+            residual = hidden_states.clone()
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+
+        if (
+            self.routed_scaling_factor is not None
+            and hidden_states.dtype == torch.float16
+        ):
+            # Fix FP16 overflow
+            # We scale both hidden_states and residual before
+            # rmsnorm, and rmsnorm result would not affect by scale.
+            hidden_states *= 1.0 / self.routed_scaling_factor
+            if self.layer_idx == 0:
+                # The residual is shared by all layers, we only scale it on
+                # first layer.
+                residual *= 1.0 / self.routed_scaling_factor
+
+        if self.sandwich_norm:
+            hidden_states = self.post_attention_layernorm(hidden_states)
+            hidden_states, residual = self.pre_mlp_layernorm(hidden_states, residual)
+        else:
+            hidden_states, residual = self.post_attention_layernorm(
+                hidden_states, residual
+            )
+
+        # Fully Connected
+        hidden_states = self.mlp(hidden_states)
+
+        if (
+            self.routed_scaling_factor is not None
+            and isinstance(self.mlp, OpenPanguMLP)
+            and hidden_states.dtype == torch.float16
+        ):
+            hidden_states *= 1.0 / self.routed_scaling_factor
+
+        if self.sandwich_norm:
+            hidden_states = self.post_mlp_layernorm(hidden_states)
+
+        return hidden_states, residual
+
+
+@support_torch_compile
+class OpenPanguModel(nn.Module):
+    fall_back_to_pt_during_load = False
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        eplb_config = vllm_config.parallel_config.eplb_config
+        self.config = config
+        self.num_redundant_experts = eplb_config.num_redundant_experts
+
+        self.padding_idx = config.pad_token_id
+        self.vocab_size = config.vocab_size
+
+        if get_pp_group().is_first_rank or (
+            config.tie_word_embeddings and get_pp_group().is_last_rank
+        ):
+            self.embed_tokens = VocabParallelEmbedding(
+                config.vocab_size,
+                config.hidden_size,
+                quant_config=quant_config,
+                prefix=f"{prefix}.embed_tokens",
+            )
+        else:
+            self.embed_tokens = PPMissingLayer()
+
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: OpenPanguDecoderLayer(config, prefix, vllm_config),
+            prefix=f"{prefix}.layers",
+        )
+
+        if get_pp_group().is_last_rank:
+            self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        else:
+            self.norm = PPMissingLayer()
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.get_input_embeddings(input_ids)
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        for i in range(self.start_layer, self.end_layer):
+            layer = self.layers[i]
+            hidden_states, residual = layer(positions, hidden_states, residual)
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+
+        hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states
+
+    def load_attn_mlp_weight(
+        self,
+        attn_mlp_replace_mapping: list[tuple[str, str, int]],
+        params_dict: dict[str, Any],
+        weight_name: str,
+        loaded_weight: torch.Tensor,
+        loaded_params: set[str],
+    ) -> bool:
+        for param_name, origin_name, shard_id in attn_mlp_replace_mapping:
+            if origin_name not in weight_name or (
+                ("mlp.experts." in weight_name) and weight_name not in params_dict
+            ):
+                continue
+            weight_name_mapped = weight_name.replace(origin_name, param_name)
+            if (
+                param_name == "fused_qkv_a_proj"
+                and weight_name_mapped not in params_dict
+            ):
+                continue
+            else:
+                weight_name = weight_name_mapped
+            if weight_name.endswith(".bias") and weight_name not in params_dict:
+                continue
+            if is_pp_missing_parameter(weight_name, self):
+                continue
+
+            param = params_dict[weight_name]
+            weight_loader = param.weight_loader
+            weight_loader(param, loaded_weight, shard_id)
+            loaded_params.add(weight_name)
+            return True
+        return False
+
+    def load_expert_weight(
+        self,
+        expert_merge_mapping: list[tuple[str, str, int, str]],
+        params_dict: dict[str, Any],
+        weight_name: str,
+        loaded_weight: torch.Tensor,
+        loaded_params: set[str],
+        flag_dict: dict[str, bool],
+    ) -> bool:
+        for mapping in expert_merge_mapping:
+            param_name, origin_name, expert_id, shard_id = mapping
+            if origin_name not in weight_name:
+                continue
+            flag_dict["is_expert_weight"] = True
+            weight_name_mapped = weight_name.replace(origin_name, param_name)
+            if is_pp_missing_parameter(weight_name_mapped, self):
+                continue
+            param = params_dict[weight_name_mapped]
+            weight_loader = typing.cast(Callable[..., bool], param.weight_loader)
+            success = weight_loader(
+                param,
+                loaded_weight,
+                weight_name_mapped,
+                shard_id=shard_id,
+                expert_id=expert_id,
+                return_success=True,
+            )
+            if success:
+                weight_name = weight_name_mapped
+                loaded_params.add(weight_name_mapped)
+                return True
+        return False
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        attn_mlp_replace_mapping = [
+            (".qkv_proj", ".q_proj", "q"),
+            (".qkv_proj", ".k_proj", "k"),
+            (".qkv_proj", ".v_proj", "v"),
+            (".fused_qkv_a_proj", ".q_a_proj", 0),
+            (".fused_qkv_a_proj", ".kv_a_proj_with_mqa", 1),
+            (".gate_up_proj", ".gate_proj", 0),
+            (".gate_up_proj", ".up_proj", 1),
+        ]
+        has_experts = hasattr(self.config, "n_routed_experts")
+        if has_experts:
+            expert_merge_mapping = SharedFusedMoE.make_expert_params_mapping(
+                ckpt_gate_proj_name="gate_proj",
+                ckpt_down_proj_name="down_proj",
+                ckpt_up_proj_name="up_proj",
+                num_experts=self.config.n_routed_experts,
+                num_redundant_experts=self.num_redundant_experts,
+            )
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+            if self.config.tie_word_embeddings and "lm_head.weight" in name:
+                continue
+
+            if (
+                "layers" in name
+                and hasattr(self.config, "num_nextn_predict_layers")
+                and (self.config.num_nextn_predict_layers > 0)
+            ):
+                layer_idx = int(name.split("layers.")[-1].split(".")[0])
+                mtp_idx = layer_idx - self.config.num_hidden_layers
+                if mtp_idx >= 0 and mtp_idx < self.config.num_nextn_predict_layers:
+                    continue  # skip spec decode layers for main model
+
+            flag_dict = {"is_expert_weight": False}
+            if (
+                self.load_attn_mlp_weight(
+                    attn_mlp_replace_mapping,
+                    params_dict,
+                    name,
+                    loaded_weight,
+                    loaded_params,
+                )
+                or has_experts
+                and self.load_expert_weight(
+                    expert_merge_mapping,
+                    params_dict,
+                    name,
+                    loaded_weight,
+                    loaded_params,
+                    flag_dict,
+                )
+            ):
+                continue
+            else:
+                if flag_dict["is_expert_weight"]:
+                    continue
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                name = maybe_remap_kv_scale_name(name, params_dict)
+                if name is None:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                param = params_dict[name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                weight_loader(param, loaded_weight)
+                loaded_params.add(name)
+        return loaded_params
+
+
+class OpenPanguModelBase(nn.Module, SupportsPP, SupportsLoRA):
+    packed_modules_mapping = {
+        "qkv_proj": ["q_proj", "k_proj", "v_proj"],
+        "gate_up_proj": ["gate_proj", "up_proj"],
+    }
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+        self.quant_config = quant_config
+
+        self.fuse_qkv_a_proj = (
+            hasattr(config, "q_lora_rank") and config.q_lora_rank is not None
+        )
+        if self.fuse_qkv_a_proj:
+            self.packed_modules_mapping["fused_qkv_a_proj"] = [
+                "q_a_proj",
+                "kv_a_proj_with_mqa",
+            ]
+
+        self.model = OpenPanguModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        if get_pp_group().is_last_rank:
+            self.lm_head = ParallelLMHead(
+                config.vocab_size,
+                config.hidden_size,
+                quant_config=quant_config,
+                prefix=maybe_prefix(prefix, "lm_head"),
+            )
+            if config.tie_word_embeddings:
+                self.lm_head.weight = self.model.embed_tokens.weight
+        else:
+            self.lm_head = PPMissingLayer()
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+
+    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.get_input_embeddings(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(
+            self,
+            skip_prefixes=(["lm_head."] if self.config.tie_word_embeddings else None),
+        )
+        return loader.load_weights(weights)
+
+
+class OpenPanguMoEModel(OpenPanguModelBase, MixtureOfExperts):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__(vllm_config=vllm_config, prefix=prefix)
+        config = vllm_config.model_config.hf_config
+
+        # Set MoE hyperparameters
+        self.expert_weights = []
+        self.num_moe_layers = config.num_hidden_layers - config.first_k_dense_replace
+        self.num_expert_groups = 1
+
+        self.moe_layers: list[SharedFusedMoE] = []
+        example_moe = None
+        for layer in self.model.layers:
+            if isinstance(layer, PPMissingLayer):
+                continue
+
+            assert isinstance(layer, OpenPanguDecoderLayer)
+            if isinstance(layer.mlp, OpenPanguMoE):
+                # Pick last one layer since the first ones may be dense layers.
+                example_moe = layer.mlp
+                self.moe_layers.append(layer.mlp.experts)
+
+        if example_moe is None:
+            raise RuntimeError("No MOE layer found in model.layers.")
+
+        self.num_logical_experts = example_moe.n_logical_experts
+        self.num_physical_experts = example_moe.n_physical_experts
+        self.num_local_physical_experts = example_moe.n_local_physical_experts
+        self.n_routed_experts = example_moe.n_routed_experts
+        self.n_shared_experts = example_moe.n_shared_experts
+        self.num_redundant_experts = example_moe.n_redundant_experts
+
+    def set_eplb_state(
+        self,
+        expert_load_view: torch.Tensor,
+        logical_to_physical_map: torch.Tensor,
+        logical_replica_count: torch.Tensor,
+    ) -> None:
+        for layer_idx, layer in enumerate(self.moe_layers):
+            # Register the expert weights.
+            self.expert_weights.append(layer.get_expert_weights())
+            layer.set_eplb_state(
+                moe_layer_idx=layer_idx,
+                expert_load_view=expert_load_view,
+                logical_to_physical_map=logical_to_physical_map,
+                logical_replica_count=logical_replica_count,
+            )
+
+    def update_physical_experts_metadata(
+        self,
+        num_physical_experts: int,
+        num_local_physical_experts: int,
+    ) -> None:
+        assert self.num_local_physical_experts == num_local_physical_experts
+        self.num_physical_experts = num_physical_experts
+        self.num_local_physical_experts = num_local_physical_experts
+        self.num_redundant_experts = num_physical_experts - self.num_logical_experts
+        for layer in self.model.layers:
+            if isinstance(layer.mlp, OpenPanguMoE):
+                moe = layer.mlp
+                moe.n_local_physical_experts = num_local_physical_experts
+                moe.n_physical_experts = num_physical_experts
+                moe.n_redundant_experts = self.num_redundant_experts
+                moe.experts.update_expert_map()
+
+
+class OpenPanguEmbeddedModel(OpenPanguModelBase):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__(vllm_config=vllm_config, prefix=prefix)
+
+
+class PanguEmbeddedForCausalLM(OpenPanguEmbeddedModel):
+    pass
+
+
+class PanguUltraMoEForCausalLM(OpenPanguMoEModel):
+    pass
diff --git a/vllm/model_executor/models/openpangu_mtp.py b/vllm/model_executor/models/openpangu_mtp.py
new file mode 100644
index 0000000000000..f4049f2d39705
--- /dev/null
+++ b/vllm/model_executor/models/openpangu_mtp.py
@@ -0,0 +1,265 @@
+#
+# Copyright (c) 2025 Huawei Technologies Co., Ltd. All Rights Reserved.
+# Copyright 2023 The vLLM team.
+#
+# This file is a part of the vllm-ascend project.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+# Adapted from
+# https://github.com/vllm-project/vllm/blob/v0.7.3/vllm/model_executor/models/deepseek_mtp.py
+from collections.abc import Iterable
+
+import torch
+import torch.nn as nn
+
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import VllmConfig
+
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from vllm.model_executor.layers.fused_moe import FusedMoE
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.models.deepseek_mtp import (
+    DeepSeekMultiTokenPredictor,
+    DeepSeekMultiTokenPredictorLayer,
+    SharedHead,
+)
+from vllm.model_executor.models.utils import maybe_prefix
+from vllm.sequence import IntermediateTensors
+
+from .interfaces import SupportsPP
+from .openpangu import OpenPanguDecoderLayer
+
+
+class OpenPanguMultiTokenPredictorLayer(DeepSeekMultiTokenPredictorLayer):
+    def __init__(self, vllm_config: VllmConfig, prefix: str) -> None:
+        nn.Module.__init__(self)
+
+        config = vllm_config.speculative_config.draft_model_config.hf_config
+        self.config = config
+        quant_config = vllm_config.quant_config
+
+        self.enorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.hnorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.eh_proj = nn.Linear(config.hidden_size * 2, config.hidden_size, bias=False)
+        self.shared_head = SharedHead(
+            config=config,
+            quant_config=quant_config,
+            prefix=maybe_prefix(prefix, "shared_head"),
+        )
+        self.mtp_block = OpenPanguDecoderLayer(config, prefix, vllm_config)
+
+
+class OpenPanguMultiTokenPredictor(DeepSeekMultiTokenPredictor):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        nn.Module.__init__(self)
+        config = vllm_config.model_config.hf_config
+        self.mtp_start_layer_idx = config.num_hidden_layers
+        self.num_mtp_layers = config.num_nextn_predict_layers
+        # to map the exact layer index from weights
+        self.layers = torch.nn.ModuleDict(
+            {
+                str(idx): OpenPanguMultiTokenPredictorLayer(
+                    vllm_config, f"{prefix}.layers.{idx}"
+                )
+                for idx in range(
+                    self.mtp_start_layer_idx,
+                    self.mtp_start_layer_idx + self.num_mtp_layers,
+                )
+            }
+        )
+        self.embed_tokens = VocabParallelEmbedding(
+            config.vocab_size,
+            config.hidden_size,
+        )
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+
+
+@support_torch_compile
+class OpenPanguMTP(nn.Module, SupportsPP):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        self.config = vllm_config.model_config.hf_config
+        self.model = OpenPanguMultiTokenPredictor(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+
+    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.get_input_embeddings(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+        spec_step_idx: int = 0,
+    ) -> torch.Tensor:
+        hidden_states = self.model(
+            input_ids,
+            positions,
+            hidden_states,
+            inputs_embeds,
+            spec_step_idx,
+        )
+        return hidden_states
+
+    def compute_logits(
+        self,
+        hidden_states: torch.Tensor,
+        spec_step_idx: int = 0,
+    ) -> torch.Tensor | None:
+        return self.model.compute_logits(hidden_states, spec_step_idx)
+
+    def get_spec_layer(self, name):
+        if (
+            "layers" in name
+            and hasattr(self.config, "num_nextn_predict_layers")
+            and self.config.num_nextn_predict_layers > 0
+        ):
+            layer_idx = int(name.split("layers.")[-1].split(".")[0])
+            mtp_idx = layer_idx - self.config.num_hidden_layers
+            if mtp_idx >= 0 and mtp_idx < self.config.num_nextn_predict_layers:
+                return layer_idx
+        return None
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+            ("fused_qkv_a_proj", "q_a_proj", 0),
+            ("fused_qkv_a_proj", "kv_a_proj_with_mqa", 1),
+        ]
+
+        expert_params_mapping = FusedMoE.make_expert_params_mapping(
+            ckpt_gate_proj_name="gate_proj",
+            ckpt_down_proj_name="down_proj",
+            ckpt_up_proj_name="up_proj",
+            num_experts=self.config.n_routed_experts,
+        )
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        for name, loaded_weight in weights:
+            if "rotary_emb.inv_freq" in name:
+                continue
+            spec_layer = self.get_spec_layer(name)
+            if spec_layer is None:
+                continue
+
+            name = self._rewrite_spec_layer_name(spec_layer, name)
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                # Skip non-stacked layers and experts (experts handled below).
+                if weight_name not in name:
+                    continue
+                # We have mlp.experts[0].gate_proj in the checkpoint.
+                # Since we handle the experts below in expert_params_mapping,
+                # we need to skip here BEFORE we update the name, otherwise
+                # name will be updated to mlp.experts[0].gate_up_proj, which
+                # will then be updated below in expert_params_mapping
+                # for mlp.experts[0].gate_gate_up_proj, which breaks load.
+                if ("mlp.experts." in name) and name not in params_dict:
+                    continue
+                name_mapped = name.replace(weight_name, param_name)
+
+                # QKV fusion is optional, fall back to normal
+                # weight loading if it's not enabled
+                if (
+                    param_name == "fused_qkv_a_proj"
+                ) and name_mapped not in params_dict:
+                    continue
+                else:
+                    name = name_mapped
+
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                for mapping in expert_params_mapping:
+                    param_name, weight_name, expert_id, shard_id = mapping
+                    if weight_name not in name:
+                        continue
+                    name = name.replace(weight_name, param_name)
+
+                    param = params_dict[name]
+                    weight_loader = param.weight_loader
+                    weight_loader(
+                        param,
+                        loaded_weight,
+                        name,
+                        shard_id=shard_id,
+                        expert_id=expert_id,
+                    )
+                    break
+                else:
+                    # Skip loading extra bias for GPTQ models.
+                    if name.endswith(".bias") and name not in params_dict:
+                        continue
+
+                    if (
+                        spec_layer != self.model.mtp_start_layer_idx
+                        and ".layers" not in name
+                    ):
+                        continue
+
+                    param = params_dict[name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params
+
+    def _rewrite_spec_layer_name(self, spec_layer: int, name: str) -> str:
+        """
+        Rewrite the weight name to match the format of the original model.
+        Add .mtp_block for modules in transformer layer block for spec layer
+        and rename shared layer weights to be top level.
+        """
+        spec_layer_weight_names = [
+            "embed_tokens",
+            "enorm",
+            "hnorm",
+            "eh_proj",
+            "shared_head",
+        ]
+        shared_weight_names = ["embed_tokens"]
+        spec_layer_weight = False
+        shared_weight = False
+        for weight_name in spec_layer_weight_names:
+            if weight_name in name:
+                spec_layer_weight = True
+                if weight_name in shared_weight_names:
+                    shared_weight = True
+                break
+        if not spec_layer_weight:
+            # treat rest weights as weights for transformer layer block
+            name = name.replace(
+                f"model.layers.{spec_layer}.", f"model.layers.{spec_layer}.mtp_block."
+            )
+        elif shared_weight:
+            # treat shared weights as top level weights
+            name = name.replace(f"model.layers.{spec_layer}.", "model.")
+        return name
diff --git a/vllm/model_executor/models/registry.py b/vllm/model_executor/models/registry.py
index d9299697fcb03..dddbc88069ef1 100644
--- a/vllm/model_executor/models/registry.py
+++ b/vllm/model_executor/models/registry.py
@@ -149,6 +149,8 @@ _TEXT_GENERATION_MODELS = {
     "OPTForCausalLM": ("opt", "OPTForCausalLM"),
     "OrionForCausalLM": ("orion", "OrionForCausalLM"),
     "OuroForCausalLM": ("ouro", "OuroForCausalLM"),
+    "PanguEmbeddedForCausalLM": ("openpangu", "PanguEmbeddedForCausalLM"),
+    "PanguUltraMoEForCausalLM": ("openpangu", "PanguUltraMoEForCausalLM"),
     "PersimmonForCausalLM": ("persimmon", "PersimmonForCausalLM"),
     "PhiForCausalLM": ("phi", "PhiForCausalLM"),
     "Phi3ForCausalLM": ("phi3", "Phi3ForCausalLM"),
@@ -406,6 +408,7 @@ _SPECULATIVE_DECODING_MODELS = {
     "LongCatFlashMTPModel": ("longcat_flash_mtp", "LongCatFlashMTP"),
     "Glm4MoeMTPModel": ("glm4_moe_mtp", "Glm4MoeMTP"),
     "MedusaModel": ("medusa", "Medusa"),
+    "OpenPanguMTPModel": ("openpangu_mtp", "OpenPanguMTP"),
     "Qwen3NextMTP": ("qwen3_next_mtp", "Qwen3NextMTP"),
     # Temporarily disabled.
     # # TODO(woosuk): Re-enable this once the MLP Speculator is supported in V1.
diff --git a/vllm/v1/spec_decode/eagle.py b/vllm/v1/spec_decode/eagle.py
index 1e18eea2330a4..75a4140fd6552 100644
--- a/vllm/v1/spec_decode/eagle.py
+++ b/vllm/v1/spec_decode/eagle.py
@@ -316,7 +316,12 @@ class EagleProposer:
             positions = target_positions[:, last_token_indices]
         else:
             positions = target_positions[last_token_indices]
-        if self.method in ("deepseek_mtp", "ernie_mtp", "longcat_flash_mtp"):
+        if self.method in (
+            "deepseek_mtp",
+            "ernie_mtp",
+            "longcat_flash_mtp",
+            "pangu_ultra_moe_mtp",
+        ):
             hidden_states = self.hidden_states[last_token_indices]
         else:
             hidden_states = hidden_states[last_token_indices]

From c9f66da8fdd0a082cd451cecfb7848bb287bf251 Mon Sep 17 00:00:00 2001
From: Nick Hill <nhill@redhat.com>
Date: Tue, 4 Nov 2025 08:33:55 -0800
Subject: [PATCH 127/976] [PerfFix] Avoid separate thread for MP executor shm
 spin (#28012)

Signed-off-by: Nick Hill <nhill@redhat.com>
---
 tests/v1/executor/test_executor.py            |   3 +-
 .../unit/test_output_aggregator.py            |  32 ++---
 .../kv_transfer/kv_connector/utils.py         |  41 ++----
 vllm/v1/executor/abstract.py                  |   4 +-
 vllm/v1/executor/multiproc_executor.py        | 134 +++++++++---------
 vllm/v1/executor/ray_executor.py              |  11 +-
 vllm/v1/executor/ray_utils.py                 |   8 +-
 vllm/v1/executor/uniproc_executor.py          |  43 +++++-
 vllm/v1/worker/gpu_worker.py                  |   2 +-
 9 files changed, 145 insertions(+), 133 deletions(-)

diff --git a/tests/v1/executor/test_executor.py b/tests/v1/executor/test_executor.py
index 56574124b2727..91bfba6826e09 100644
--- a/tests/v1/executor/test_executor.py
+++ b/tests/v1/executor/test_executor.py
@@ -4,6 +4,7 @@
 import asyncio
 import os
 from collections.abc import Callable
+from concurrent.futures import Future
 from typing import Any
 
 import pytest
@@ -27,7 +28,7 @@ class CustomMultiprocExecutor(MultiprocExecutor):
         kwargs: dict | None = None,
         non_block: bool = False,
         unique_reply_rank: int | None = None,
-    ) -> list[Any]:
+    ) -> Any | list[Any] | Future[Any | list[Any]]:
         # Drop marker to show that this was run
         with open(".marker", "w"):
             ...
diff --git a/tests/v1/kv_connector/unit/test_output_aggregator.py b/tests/v1/kv_connector/unit/test_output_aggregator.py
index 4dba203ebc7d8..d186f677c02f1 100644
--- a/tests/v1/kv_connector/unit/test_output_aggregator.py
+++ b/tests/v1/kv_connector/unit/test_output_aggregator.py
@@ -89,14 +89,12 @@ def test_aggregate_workers_output():
 def test_async_aggregate_workers_output():
     aggregator = KVOutputAggregator(expected_finished_count=2)
 
-    future1: Future[DummyModelRunnerOutput] = Future()
-    future2: Future[DummyModelRunnerOutput] = Future()
-    result_future = aggregator.async_aggregate([future1, future2])
+    future: Future[list[DummyModelRunnerOutput]] = Future()
+    result_future = aggregator.async_aggregate(future)
 
     output1 = DummyModelRunnerOutput()
     output2 = DummyModelRunnerOutput()
-    future1.set_result(output1)
-    future2.set_result(output2)
+    future.set_result([output1, output2])
 
     assert result_future.done()
     aggregated = result_future.result()
@@ -106,16 +104,14 @@ def test_async_aggregate_workers_output():
     assert aggregated.finished_recving is None
     assert not aggregated.invalid_block_ids
 
-    future1 = Future()
-    future2 = Future()
-    result_future = aggregator.async_aggregate([future1, future2])
+    future = Future()
+    result_future = aggregator.async_aggregate(future)
 
     output1 = DummyModelRunnerOutput(
         finished_sending={"req1"}, finished_recving={"req2"}
     )
     output2 = DummyModelRunnerOutput(invalid_block_ids={1})
-    future1.set_result(output1)
-    future2.set_result(output2)
+    future.set_result([output1, output2])
 
     assert result_future.done()
     aggregated = result_future.result()
@@ -125,14 +121,12 @@ def test_async_aggregate_workers_output():
     assert aggregated.finished_recving is None
     assert aggregated.invalid_block_ids == {1}
 
-    future1 = Future()
-    future2 = Future()
-    result_future = aggregator.async_aggregate([future1, future2])
+    future = Future()
+    result_future = aggregator.async_aggregate(future)
 
     output1 = DummyModelRunnerOutput(invalid_block_ids={2})
     output2 = DummyModelRunnerOutput(finished_sending={"req1"})
-    future1.set_result(output1)
-    future2.set_result(output2)
+    future.set_result([output1, output2])
 
     assert result_future.done()
     aggregated = result_future.result()
@@ -142,16 +136,14 @@ def test_async_aggregate_workers_output():
     assert aggregated.finished_recving is None
     assert aggregated.invalid_block_ids == {2}
 
-    future1 = Future()
-    future2 = Future()
-    result_future = aggregator.async_aggregate([future1, future2])
+    future = Future()
+    result_future = aggregator.async_aggregate(future)
 
     output1 = DummyModelRunnerOutput(invalid_block_ids={3, 4})
     output2 = DummyModelRunnerOutput(
         finished_recving={"req2"}, invalid_block_ids={4, 5}
     )
-    future1.set_result(output1)
-    future2.set_result(output2)
+    future.set_result([output1, output2])
 
     assert result_future.done()
     aggregated = result_future.result()
diff --git a/vllm/distributed/kv_transfer/kv_connector/utils.py b/vllm/distributed/kv_transfer/kv_connector/utils.py
index 7464f8469c3b5..f2aa9f0914ba2 100644
--- a/vllm/distributed/kv_transfer/kv_connector/utils.py
+++ b/vllm/distributed/kv_transfer/kv_connector/utils.py
@@ -221,39 +221,24 @@ class KVOutputAggregator:
 
     def async_aggregate(
         self,
-        output_futures: Sequence[Future[ModelRunnerOutput | None]],
+        output_future: Future[Sequence[ModelRunnerOutput | None]],
         output_rank: int = 0,
     ) -> Future[ModelRunnerOutput | None]:
-        """Takes a list of futures and returns a single future which resolves
-        to the respective list of outputs."""
+        """Takes a future that resolves to a list of outputs and returns a future
+        which resolves to a single aggregated output."""
         result_future: Future[ModelRunnerOutput | None] = Future()
 
-        outputs: list[ModelRunnerOutput | None] = [None] * len(output_futures)
-        remaining = len(output_futures)
-
-        def make_callback(idx):
-            def callback(fut):
-                if result_future.done():
-                    return
-
-                try:
-                    outputs[idx] = fut.result()
-                except CancelledError:
-                    result_future.cancel()
-                except Exception as e:
-                    result_future.set_exception(e)
-
-                # this check assumes io_thread_pool uses a single thread
-                nonlocal remaining
-                remaining -= 1
-                if not remaining:
-                    result_future.set_result(self.aggregate(outputs, output_rank))
-
-            return callback
-
-        for i, output_future in enumerate(output_futures):
-            output_future.add_done_callback(make_callback(i))
+        def callback(fut):
+            if result_future.done():
+                return
+            try:
+                result_future.set_result(self.aggregate(fut.result(), output_rank))
+            except CancelledError:
+                result_future.cancel()
+            except Exception as e:
+                result_future.set_exception(e)
 
+        output_future.add_done_callback(callback)
         return result_future
 
 
diff --git a/vllm/v1/executor/abstract.py b/vllm/v1/executor/abstract.py
index d76c6107ad2ba..1e913876b7635 100644
--- a/vllm/v1/executor/abstract.py
+++ b/vllm/v1/executor/abstract.py
@@ -171,7 +171,7 @@ class Executor(ABC):
         args: tuple = (),
         kwargs: dict | None = None,
         non_block: Literal[True] = True,
-    ) -> list[Future[_R]]:
+    ) -> Future[list[_R]]:
         pass
 
     @abstractmethod
@@ -219,7 +219,7 @@ class Executor(ABC):
 
     def sample_tokens(
         self, grammar_output: GrammarOutput | None, non_block: bool = False
-    ) -> ModelRunnerOutput | Future[ModelRunnerOutput]:
+    ) -> ModelRunnerOutput | None | Future[ModelRunnerOutput | None]:
         output = self.collective_rpc(  # type: ignore[call-overload]
             "sample_tokens", args=(grammar_output,), non_block=non_block
         )
diff --git a/vllm/v1/executor/multiproc_executor.py b/vllm/v1/executor/multiproc_executor.py
index 999a3ba870ead..c9a50ecaa1def 100644
--- a/vllm/v1/executor/multiproc_executor.py
+++ b/vllm/v1/executor/multiproc_executor.py
@@ -9,8 +9,10 @@ import threading
 import time
 import traceback
 import weakref
+from collections import deque
 from collections.abc import Callable
-from concurrent.futures import Future, ThreadPoolExecutor
+from concurrent.futures import Future, InvalidStateError
+from contextlib import suppress
 from dataclasses import dataclass
 from enum import Enum, auto
 from functools import cached_property, partial
@@ -54,6 +56,30 @@ from vllm.v1.worker.worker_base import WorkerWrapperBase
 logger = init_logger(__name__)
 
 
+class FutureWrapper(Future):
+    def __init__(self, futures_queue: deque[tuple["FutureWrapper", Callable]]):
+        self.futures_queue = futures_queue
+        super().__init__()
+
+    def result(self, timeout=None):
+        if timeout is not None:
+            raise RuntimeError("timeout not implemented")
+        # Drain any futures ahead of us in the queue.
+        while not self.done():
+            future, get_response = self.futures_queue.pop()
+            future.wait_for_response(get_response)
+        return super().result()
+
+    def wait_for_response(self, get_response: Callable):
+        try:
+            response = get_response()
+            with suppress(InvalidStateError):
+                self.set_result(response)
+        except Exception as e:
+            with suppress(InvalidStateError):
+                self.set_exception(e)
+
+
 class MultiprocExecutor(Executor):
     supports_pp: bool = True
 
@@ -64,7 +90,6 @@ class MultiprocExecutor(Executor):
         self.is_failed = False
         self.shutdown_event = threading.Event()
         self.failure_callback: FailureCallback | None = None
-        self.io_thread_pool: ThreadPoolExecutor | None = None
 
         self.world_size = self.parallel_config.world_size
         tensor_parallel_size = self.parallel_config.tensor_parallel_size
@@ -132,12 +157,7 @@ class MultiprocExecutor(Executor):
                         uw.death_writer.close()
                 self._ensure_worker_termination([uw.proc for uw in unready_workers])
 
-        # Note: must use only 1 IO thread to keep dequeue sequence
-        # from the response queue.
-        # _async_aggregate_workers_output also assumes a single IO thread.
-        self.io_thread_pool = ThreadPoolExecutor(
-            max_workers=1, thread_name_prefix="mp_exec_io"
-        )
+        self.futures_queue = deque[tuple[FutureWrapper, Callable]]()
 
         self.output_rank = self._get_output_rank()
         self.has_connector = self.vllm_config.kv_transfer_config is not None
@@ -195,14 +215,13 @@ class MultiprocExecutor(Executor):
     ) -> ModelRunnerOutput | None | Future[ModelRunnerOutput | None]:
         if not self.has_connector:
             # get output only from a single worker (output_rank)
-            (output,) = self.collective_rpc(
+            return self.collective_rpc(
                 method,
                 args=args,
                 unique_reply_rank=self.output_rank,
                 non_block=non_block,
                 timeout=envs.VLLM_EXECUTE_MODEL_TIMEOUT_SECONDS,
             )
-            return output
 
         # get output from all workers
         outputs = self.collective_rpc(
@@ -223,12 +242,11 @@ class MultiprocExecutor(Executor):
 
     def take_draft_token_ids(self) -> DraftTokenIds | None:
         # OPTIMIZATION: Get output only from a single worker (output_rank)
-        outputs = self.collective_rpc(
+        return self.collective_rpc(
             "take_draft_token_ids", unique_reply_rank=self.output_rank
         )
-        return outputs[0]
 
-    def collective_rpc(
+    def collective_rpc(  # type: ignore[override]
         self,
         method: str | Callable,
         timeout: float | None = None,
@@ -236,7 +254,9 @@ class MultiprocExecutor(Executor):
         kwargs: dict | None = None,
         non_block: bool = False,
         unique_reply_rank: int | None = None,
-    ) -> list[Any]:
+    ) -> Any | list[Any] | Future[Any | list[Any]]:
+        """Returns single result if unique_reply_rank is provided, otherwise list."""
+
         if self.is_failed:
             raise RuntimeError("Executor failed.")
 
@@ -246,63 +266,52 @@ class MultiprocExecutor(Executor):
         # NOTE: If the args are heterogeneous, then we pack them into a list,
         # and unpack them in the method of every worker, because every worker
         # knows their own rank.
-        try:
-            if isinstance(method, str):
-                send_method = method
-            else:
-                send_method = cloudpickle.dumps(
-                    method, protocol=pickle.HIGHEST_PROTOCOL
-                )
-            self.rpc_broadcast_mq.enqueue(
-                (send_method, args, kwargs, unique_reply_rank)
-            )
 
-            workers = (
-                (self.workers[unique_reply_rank],)
-                if unique_reply_rank is not None
-                else self.workers
-            )
+        if isinstance(method, str):
+            send_method = method
+        else:
+            send_method = cloudpickle.dumps(method, protocol=pickle.HIGHEST_PROTOCOL)
+        self.rpc_broadcast_mq.enqueue((send_method, args, kwargs, unique_reply_rank))
+
+        workers = (
+            (self.workers[unique_reply_rank],)
+            if unique_reply_rank is not None
+            else self.workers
+        )
+
+        shutdown_event = self.shutdown_event
+
+        def get_response():
             responses = []
-
-            def get_response(
-                w: WorkerProcHandle,
-                dequeue_timeout: float | None = None,
-                cancel_event: threading.Event | None = None,
-            ):
-                status, result = w.worker_response_mq.dequeue(
-                    timeout=dequeue_timeout, cancel=cancel_event
+            for w in workers:
+                dequeue_timeout = (
+                    None if deadline is None else (deadline - time.monotonic())
                 )
-
+                try:
+                    status, result = w.worker_response_mq.dequeue(
+                        timeout=dequeue_timeout, cancel=shutdown_event
+                    )
+                except TimeoutError as e:
+                    raise TimeoutError(f"RPC call to {method} timed out.") from e
                 if status != WorkerProc.ResponseStatus.SUCCESS:
                     raise RuntimeError(
                         f"Worker failed with error '{result}', please check the"
                         " stack trace above for the root cause"
                     )
-                return result
-
-            for w in workers:
-                dequeue_timeout = (
-                    None if deadline is None else (deadline - time.monotonic())
-                )
-
-                if self.io_thread_pool is not None:
-                    # We must consume worker_response_mq from a single thread.
-                    result = self.io_thread_pool.submit(  # type: ignore
-                        get_response, w, dequeue_timeout, self.shutdown_event
-                    )
-                    if not non_block:
-                        result = result.result()
-                elif not non_block:
-                    result = get_response(w, dequeue_timeout, self.shutdown_event)
-                else:
-                    raise RuntimeError(
-                        "non_block can only be used when max_concurrent_batches > 1"
-                    )
                 responses.append(result)
+            return responses[0] if unique_reply_rank is not None else responses
 
-            return responses
-        except TimeoutError as e:
-            raise TimeoutError(f"RPC call to {method} timed out.") from e
+        if non_block:
+            future = FutureWrapper(self.futures_queue)
+            self.futures_queue.appendleft((future, get_response))
+            return future
+
+        # First drain any pending futures in the queue.
+        while self.futures_queue:
+            future, get_fut_response = self.futures_queue.pop()
+            future.wait_for_response(get_fut_response)
+
+        return get_response()
 
     @staticmethod
     def _ensure_worker_termination(worker_procs: list[BaseProcess]):
@@ -348,9 +357,6 @@ class MultiprocExecutor(Executor):
                 self._ensure_worker_termination([w.proc for w in workers])
 
             self.shutdown_event.set()
-            if self.io_thread_pool is not None:
-                self.io_thread_pool.shutdown(wait=False, cancel_futures=True)
-                del self.io_thread_pool
 
         self.rpc_broadcast_mq = None
 
diff --git a/vllm/v1/executor/ray_executor.py b/vllm/v1/executor/ray_executor.py
index 4a69cca723ac9..119e4c0818316 100644
--- a/vllm/v1/executor/ray_executor.py
+++ b/vllm/v1/executor/ray_executor.py
@@ -435,26 +435,25 @@ class RayDistributedExecutor(Executor):
 
             # When PP is used, we return a FutureWrapper immediately so that
             # the scheduler can yield to the next batch.
-            return FutureWrapper(refs)
+            return FutureWrapper(refs[0])
 
         # Get output from all workers when connector is present
         assert self.kv_output_aggregator is not None
         if not non_block:
             # Block and get results from all workers
-            outputs = [ref.get() for ref in refs]
-            return self.kv_output_aggregator.aggregate(outputs)
+            return self.kv_output_aggregator.aggregate(ray.get(refs))
 
         # Return a future that will aggregate outputs from all workers
         return FutureWrapper(refs, self.kv_output_aggregator)
 
-    def collective_rpc(
+    def collective_rpc(  # type: ignore[override]
         self,
         method: str | Callable,
         timeout: float | None = None,
         args: tuple = (),
         kwargs: dict[str, Any] | None = None,
         non_block: bool = False,
-    ) -> list[Any]:
+    ) -> list[Any] | Future[list[Any]]:
         """Runs the given method on all workers."""
         sent_method = method if isinstance(method, str) else cloudpickle.dumps(method)
         del method
@@ -470,7 +469,7 @@ class RayDistributedExecutor(Executor):
 
         # Get the results of the ray workers.
         if non_block:
-            return [FutureWrapper((output,)) for output in ray_worker_outputs]
+            return FutureWrapper(ray_worker_outputs)
 
         return ray.get(ray_worker_outputs, timeout=timeout)
 
diff --git a/vllm/v1/executor/ray_utils.py b/vllm/v1/executor/ray_utils.py
index a282cdc9909db..07904fdec0d8e 100644
--- a/vllm/v1/executor/ray_utils.py
+++ b/vllm/v1/executor/ray_utils.py
@@ -141,19 +141,19 @@ class FutureWrapper(Future):
     the result() call. If not only the first worker's output is returned.
     """
 
-    def __init__(self, refs, aggregator: KVOutputAggregator | None = None):
+    def __init__(self, ref_or_refs, aggregator: KVOutputAggregator | None = None):
         super().__init__()
-        self.refs = refs
+        self.ref_or_refs = ref_or_refs
         self.aggregator = aggregator
 
     def result(self, timeout=None):
         if timeout is not None:
             raise NotImplementedError("timeout is not supported")
 
+        outputs = ray.get(self.ref_or_refs, timeout=timeout)
         if self.aggregator is None:
-            return self.refs[0].get()
+            return outputs
 
-        outputs = [ref.get() for ref in self.refs]
         return self.aggregator.aggregate(outputs, output_rank=0)
 
 
diff --git a/vllm/v1/executor/uniproc_executor.py b/vllm/v1/executor/uniproc_executor.py
index 32f00949b7f74..657784f87e2df 100644
--- a/vllm/v1/executor/uniproc_executor.py
+++ b/vllm/v1/executor/uniproc_executor.py
@@ -13,9 +13,10 @@ import torch.distributed as dist
 import vllm.envs as envs
 from vllm.logger import init_logger
 from vllm.utils.network_utils import get_distributed_init_method, get_ip, get_open_port
+from vllm.v1.core.sched.output import GrammarOutput, SchedulerOutput
 from vllm.v1.engine import ReconfigureDistributedRequest, ReconfigureRankType
 from vllm.v1.executor.abstract import Executor
-from vllm.v1.outputs import AsyncModelRunnerOutput
+from vllm.v1.outputs import AsyncModelRunnerOutput, DraftTokenIds, ModelRunnerOutput
 from vllm.v1.serial_utils import run_method
 from vllm.v1.worker.worker_base import WorkerWrapperBase
 
@@ -58,32 +59,60 @@ class UniProcExecutor(Executor):
     def max_concurrent_batches(self) -> int:
         return 2 if self.scheduler_config.async_scheduling else 1
 
-    def collective_rpc(
+    def collective_rpc(  # type: ignore[override]
         self,
         method: str | Callable,
         timeout: float | None = None,
         args: tuple = (),
         kwargs: dict | None = None,
         non_block: bool = False,
-    ) -> list[Any]:
+        single_value: bool = False,
+    ) -> Any | list[Any] | Future[Any | list[Any]]:
         if kwargs is None:
             kwargs = {}
 
         if not non_block:
-            return [run_method(self.driver_worker, method, args, kwargs)]
+            result = run_method(self.driver_worker, method, args, kwargs)
+            return result if single_value else [result]
 
         try:
             result = run_method(self.driver_worker, method, args, kwargs)
             if isinstance(result, AsyncModelRunnerOutput):
                 if (async_thread := self.async_output_thread) is not None:
-                    return [async_thread.submit(result.get_output)]
+                    get_output = result.get_output
+                    if not single_value:
+                        get_output = lambda: [get_output()]
+                    return async_thread.submit(get_output)
                 result = result.get_output()
             future = Future[Any]()
-            future.set_result(result)
+            future.set_result(result if single_value else [result])
         except Exception as e:
             future = Future[Any]()
             future.set_exception(e)
-        return [future]
+        return future
+
+    def execute_model(  # type: ignore[override]
+        self, scheduler_output: SchedulerOutput, non_block: bool = False
+    ) -> ModelRunnerOutput | None | Future[ModelRunnerOutput | None]:
+        return self.collective_rpc(
+            "execute_model",
+            args=(scheduler_output,),
+            non_block=non_block,
+            single_value=True,
+        )
+
+    def sample_tokens(  # type: ignore[override]
+        self, grammar_output: GrammarOutput | None, non_block: bool = False
+    ) -> ModelRunnerOutput | None | Future[ModelRunnerOutput | None]:
+        return self.collective_rpc(
+            "sample_tokens",
+            args=(grammar_output,),
+            non_block=non_block,
+            single_value=True,
+        )
+
+    def take_draft_token_ids(self) -> DraftTokenIds | None:
+        return self.collective_rpc("take_draft_token_ids", single_value=True)
 
     def check_health(self) -> None:
         # UniProcExecutor will always be healthy as long as
diff --git a/vllm/v1/worker/gpu_worker.py b/vllm/v1/worker/gpu_worker.py
index f3fe202cec062..3cc8f90a3e199 100644
--- a/vllm/v1/worker/gpu_worker.py
+++ b/vllm/v1/worker/gpu_worker.py
@@ -510,7 +510,7 @@ class Worker(WorkerBase):
 
     @torch.inference_mode()
     def sample_tokens(
-        self, grammar_output: "GrammarOutput"
+        self, grammar_output: "GrammarOutput | None"
     ) -> ModelRunnerOutput | AsyncModelRunnerOutput:
         return self.model_runner.sample_tokens(grammar_output)
 

From 938a81692ea318e59ead4750e7e7425bfd6a4896 Mon Sep 17 00:00:00 2001
From: Nick Hill <nhill@redhat.com>
Date: Tue, 4 Nov 2025 09:06:28 -0800
Subject: [PATCH 128/976] [AsyncScheduling] Don't schedule past request
 max_tokens (#27922)

Signed-off-by: Nick Hill <nhill@redhat.com>
---
 tests/v1/core/test_async_scheduler.py |  7 +++++++
 tests/v1/e2e/test_spec_decode.py      |  1 -
 vllm/v1/core/sched/scheduler.py       | 10 +++++++---
 3 files changed, 14 insertions(+), 4 deletions(-)

diff --git a/tests/v1/core/test_async_scheduler.py b/tests/v1/core/test_async_scheduler.py
index 6d870b5640dfb..e0645ed43015e 100644
--- a/tests/v1/core/test_async_scheduler.py
+++ b/tests/v1/core/test_async_scheduler.py
@@ -34,15 +34,20 @@ def test_stop_by_max_tokens(max_tokens: int):
     requests = create_requests(num_requests=2, max_tokens=max_tokens)
     req0, req1 = requests
 
+    expected_total_num_scheduled_tokens = 0
     sched_outputs: deque[SchedulerOutput] = deque()
     scheduler.add_request(req0)
     sched_outputs.append(scheduler.schedule())
+    expected_total_num_scheduled_tokens += req0.num_prompt_tokens + max_tokens - 1
 
     scheduler.add_request(req1)
     sched_outputs.append(scheduler.schedule())
+    expected_total_num_scheduled_tokens += req1.num_prompt_tokens + max_tokens - 1
 
+    total_num_scheduled_tokens = 0
     while sched_outputs:
         sched_output = sched_outputs.popleft()
+        total_num_scheduled_tokens += sched_output.total_num_scheduled_tokens
         model_runner_output = _make_model_runner_output(sched_output)
         scheduler.update_from_output(sched_output, model_runner_output)
 
@@ -53,6 +58,8 @@ def test_stop_by_max_tokens(max_tokens: int):
     assert scheduler.get_num_unfinished_requests() == 0
     assert req0.num_output_tokens == max_tokens
     assert req1.num_output_tokens == max_tokens
+    # Ensure we aren't scheduling more tokens than necessary.
+    assert total_num_scheduled_tokens == expected_total_num_scheduled_tokens
 
 
 def test_abort():
diff --git a/tests/v1/e2e/test_spec_decode.py b/tests/v1/e2e/test_spec_decode.py
index 9b55d2b14b991..ffd9f3e0370f7 100644
--- a/tests/v1/e2e/test_spec_decode.py
+++ b/tests/v1/e2e/test_spec_decode.py
@@ -155,7 +155,6 @@ def test_suffix_decoding_acceptance(
     )
 
     # Run several times and check that the accepted tokens increase.
-    spec_llm.chat(test_prompts, sampling_config)
     num_draft = []
     num_accept = []
     for i in range(10):  # Run multiple times to warm up the cache.
diff --git a/vllm/v1/core/sched/scheduler.py b/vllm/v1/core/sched/scheduler.py
index aeb9869c52813..97341c762b99d 100644
--- a/vllm/v1/core/sched/scheduler.py
+++ b/vllm/v1/core/sched/scheduler.py
@@ -217,10 +217,14 @@ class Scheduler(SchedulerInterface):
                 num_new_tokens = self.scheduler_config.long_prefill_token_threshold
             num_new_tokens = min(num_new_tokens, token_budget)
 
-            # Make sure the input position does not exceed the max model len.
-            # This is necessary when using spec decoding.
+            # Make sure the input position does not exceed the max model len or
+            # request's max_tokens.
+            # This is necessary when using spec decoding and/or async scheduling.
+            max_total_tokens = min(
+                request.num_prompt_tokens + request.max_tokens, self.max_model_len
+            )
             num_new_tokens = min(
-                num_new_tokens, self.max_model_len - 1 - request.num_computed_tokens
+                num_new_tokens, max_total_tokens - 1 - request.num_computed_tokens
             )
 
             # Schedule encoder inputs.

From 2f1cc8cef17de3b7a48d9351c2b71f1ba7c75d82 Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Tue, 4 Nov 2025 10:01:56 -0800
Subject: [PATCH 129/976] Remove deprecated `--rope-scaling` and `--rope-theta`
 (#28006)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 vllm/config/model.py     | 27 ---------------------------
 vllm/engine/arg_utils.py |  6 ------
 2 files changed, 33 deletions(-)

diff --git a/vllm/config/model.py b/vllm/config/model.py
index 17d3162695b54..44c044c76168d 100644
--- a/vllm/config/model.py
+++ b/vllm/config/model.py
@@ -168,12 +168,6 @@ class ModelConfig:
     """The specific revision to use for the model code on the Hugging Face Hub.
     It can be a branch name, a tag name, or a commit id. If unspecified, will
     use the default version."""
-    rope_scaling: dict[str, Any] = field(default_factory=dict)
-    """RoPE scaling configuration. For example,
-    `{"rope_type":"dynamic","factor":2.0}`."""
-    rope_theta: float | None = None
-    """RoPE theta. Use with `rope_scaling`. In some cases, changing the RoPE
-    theta improves the performance of the scaled model."""
     tokenizer_revision: str | None = None
     """The specific revision to use for the tokenizer on the Hugging Face Hub.
     It can be a branch name, a tag name, or a commit id. If unspecified, will
@@ -338,8 +332,6 @@ class ModelConfig:
         factors.append(self.generation_config)
         factors.append(self.model_impl)
         factors.append(self.override_generation_config)
-        factors.append(self.rope_scaling)
-        factors.append(self.rope_theta)
         factors.append(self.video_pruning_rate)
         factors.append(self.enable_prompt_embeds)
 
@@ -481,25 +473,6 @@ class ModelConfig:
                     hf_overrides_kw[key] = value
             hf_overrides_fn = None
 
-        if self.rope_scaling:
-            hf_override: dict[str, Any] = {"rope_scaling": self.rope_scaling}
-            hf_overrides_kw.update(hf_override)
-            hf_overrides_str = json.dumps(hf_overrides_kw)
-            msg = (
-                "`--rope-scaling` will be removed in a future release. "
-                f"'Please instead use `--hf-overrides '{hf_overrides_str}'`"
-            )
-            warnings.warn(DeprecationWarning(msg), stacklevel=2)
-        if self.rope_theta is not None:
-            hf_override = {"rope_theta": self.rope_theta}
-            hf_overrides_kw.update(hf_override)
-            hf_overrides_str = json.dumps(hf_overrides_kw)
-            msg = (
-                "`--rope-theta` will be removed in a future release. "
-                f"'Please instead use `--hf-overrides '{hf_overrides_str}'`"
-            )
-            warnings.warn(DeprecationWarning(msg), stacklevel=2)
-
         self.maybe_pull_model_tokenizer_for_runai(self.model, self.tokenizer)
 
         if (
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index 14fd4e70ad6c0..0b2b8bbe678a0 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -438,8 +438,6 @@ class EngineArgs:
     aggregate_engine_logging: bool = False
     revision: str | None = ModelConfig.revision
     code_revision: str | None = ModelConfig.code_revision
-    rope_scaling: dict[str, Any] = get_field(ModelConfig, "rope_scaling")
-    rope_theta: float | None = ModelConfig.rope_theta
     hf_token: bool | str | None = ModelConfig.hf_token
     hf_overrides: HfOverrides = get_field(ModelConfig, "hf_overrides")
     tokenizer_revision: str | None = ModelConfig.tokenizer_revision
@@ -617,8 +615,6 @@ class EngineArgs:
         )
         model_group.add_argument("--revision", **model_kwargs["revision"])
         model_group.add_argument("--code-revision", **model_kwargs["code_revision"])
-        model_group.add_argument("--rope-scaling", **model_kwargs["rope_scaling"])
-        model_group.add_argument("--rope-theta", **model_kwargs["rope_theta"])
         model_group.add_argument(
             "--tokenizer-revision", **model_kwargs["tokenizer_revision"]
         )
@@ -1184,8 +1180,6 @@ class EngineArgs:
             seed=self.seed,
             revision=self.revision,
             code_revision=self.code_revision,
-            rope_scaling=self.rope_scaling,
-            rope_theta=self.rope_theta,
             hf_token=self.hf_token,
             hf_overrides=self.hf_overrides,
             tokenizer_revision=self.tokenizer_revision,

From dc937175d496a801f175b5dcce6a8157506bae52 Mon Sep 17 00:00:00 2001
From: Pleaplusone <pleaplusone.gy@gmail.com>
Date: Wed, 5 Nov 2025 02:05:33 +0800
Subject: [PATCH 130/976] [ROCm][Perf] New design on ROCm AITER MHA backend
 Implementation (#25763)

Signed-off-by: ganyi <ygan@amd.com>
---
 vllm/v1/attention/backends/rocm_aiter_fa.py | 805 +++++++++++++-------
 vllm/v1/attention/backends/utils.py         |  67 ++
 2 files changed, 595 insertions(+), 277 deletions(-)

diff --git a/vllm/v1/attention/backends/rocm_aiter_fa.py b/vllm/v1/attention/backends/rocm_aiter_fa.py
index f7a4114a0a708..30e5cafe0c843 100644
--- a/vllm/v1/attention/backends/rocm_aiter_fa.py
+++ b/vllm/v1/attention/backends/rocm_aiter_fa.py
@@ -13,223 +13,204 @@ from vllm.attention.backends.abstract import (
     AttentionType,
     MultipleOf,
 )
+from vllm.attention.ops.merge_attn_states import merge_attn_states
 from vllm.config import VllmConfig
 from vllm.logger import init_logger
 from vllm.platforms import current_platform
+from vllm.utils.math_utils import cdiv
 from vllm.v1.attention.backends.utils import (
     AttentionCGSupport,
     AttentionMetadataBuilder,
     CommonAttentionMetadata,
+    split_decodes_prefills_and_extends,
 )
 from vllm.v1.kv_cache_interface import AttentionSpec
 
 _PARTITION_SIZE_ROCM = 256
+_CP_TOKENS_PER_ITER_ROCM = 32 * 1024
 
 if current_platform.is_rocm():
     import aiter
+    from aiter.ops.triton.utils.device_info import get_num_sms
 
     from vllm.triton_utils import tl, triton
-    from vllm.utils.torch_utils import direct_register_custom_op
+
+    def block_size(x, head_dim):
+        return min(65536 // x.element_size(), triton.next_power_of_2(head_dim))
+
+    def num_programs(head_dim):
+        return min(head_dim, get_num_sms())
 
     @triton.jit
-    def _vllm_layout_trans_kernel(
-        k_buffer_ptr,
-        v_buffer_ptr,
-        k_values_ptr,
-        v_values_ptr,
-        b_query_lens_loc,
-        b_seq_lens_loc,
-        block_table,
-        block_table_stride_0,
-        k_scale,
-        v_scale,
-        output_dtype: tl.constexpr,
-        E_DIM: tl.constexpr,
+    def cp_mha_gather_cache_kernel(
+        key_cache_ptr,  # [num_blocks, page_size, num_head, head_size]
+        value_cache_ptr,  # [num_blocks, page_size, num_head, head_size]
+        key_ptr,  # [num_tokens, num_heads, head_size]
+        value_ptr,  # [num_tokens, num_heads, head_size]
+        block_table_ptr,  # [num_batches, max_block_num]
+        cu_seqlens_kv_ptr,  # [num_batches + 1]
+        token_to_batch_ptr,  # [max_cum_tokens]
+        seq_start_ptr,  # [num_batches]
+        k_scale_ptr,
+        v_scale_ptr,
+        num_heads,
+        head_size,
+        x,
+        max_block_num,
+        num_tokens,
+        DEQUANT: tl.constexpr,
+        PAGE_SIZE: tl.constexpr,
+        CACHE_FORMAT: tl.constexpr,
         BLOCK_SIZE: tl.constexpr,
+        NUM_PRGMS: tl.constexpr,
     ):
-        batch_idx = tl.program_id(0)
-        block_idx = tl.program_id(1)
+        bid = tl.program_id(0)
+        col_offsets = tl.arange(0, BLOCK_SIZE)
+        if DEQUANT:
+            k_scale = tl.load(k_scale_ptr)
+            v_scale = tl.load(v_scale_ptr)
 
-        batch_query_indexes = tl.load(b_query_lens_loc + batch_idx + tl.arange(0, 2))
-        batch_query_start, batch_query_end = tl.split(batch_query_indexes)
-        query_len = batch_query_end - batch_query_start
-
-        if query_len <= 1:
-            return
-
-        batch_token_indexes = tl.load(b_seq_lens_loc + batch_idx + tl.arange(0, 2))
-        batch_token_start, batch_token_end = tl.split(batch_token_indexes)
-        seq_len = batch_token_end - batch_token_start
-
-        if block_idx * BLOCK_SIZE < seq_len:
-            block_mask = (
-                block_idx * BLOCK_SIZE + tl.arange(0, BLOCK_SIZE)[:, None]
-            ) < seq_len
-
-            kv_idx = tl.load(
-                block_table + batch_idx * block_table_stride_0 + block_idx
-            ).to(tl.int64)
-
-            kv_buffer_off = (
-                kv_idx * BLOCK_SIZE * E_DIM
-                + tl.arange(0, BLOCK_SIZE)[:, None] * E_DIM
-                + tl.arange(0, E_DIM)[None, :]
+        for token_id in tl.range(bid, num_tokens, NUM_PRGMS):
+            key_ptr_offset = key_ptr + token_id * head_size * num_heads
+            value_ptr_offset = value_ptr + token_id * head_size * num_heads
+            batch_idx = tl.load(token_to_batch_ptr + token_id)
+            batch_start = tl.load(seq_start_ptr + batch_idx)
+            token_start = tl.load(cu_seqlens_kv_ptr + batch_idx)
+            batch_offset = token_id - token_start + batch_start
+            block_offset = batch_offset // PAGE_SIZE
+            block_id = tl.load(
+                block_table_ptr + max_block_num * batch_idx + block_offset
             )
-            k_vals = tl.load(k_buffer_ptr + kv_buffer_off, mask=block_mask, other=0.0)
-            if k_vals.dtype.is_fp8():
-                k_vals = (k_vals.to(tl.float32) * tl.load(k_scale)).to(output_dtype)
-            else:
-                k_vals = k_vals.to(output_dtype)
+            slot_id = batch_offset % PAGE_SIZE
 
-            v_vals = tl.load(v_buffer_ptr + kv_buffer_off, mask=block_mask, other=0.0)
-            if v_vals.dtype.is_fp8():
-                v_vals = (v_vals.to(tl.float32) * tl.load(v_scale)).to(output_dtype)
-            else:
-                v_vals = v_vals.to(output_dtype)
-            kv_values_off = (
-                batch_token_start * E_DIM
-                + block_idx * BLOCK_SIZE * E_DIM
-                + tl.arange(0, BLOCK_SIZE)[:, None] * E_DIM
-                + tl.arange(0, E_DIM)[None, :]
-            )
-            tl.store(k_values_ptr + kv_values_off, k_vals, mask=block_mask)
-            tl.store(v_values_ptr + kv_values_off, v_vals, mask=block_mask)
+            if CACHE_FORMAT == "NHD":
+                # for kv cache layout as
+                # K: [num_blocks, page_size, num_head, head_dim]
+                # V: [num_blocks, page_size, num_head, head_dim]
+                key_cache_ptr_offset = (
+                    key_cache_ptr
+                    + block_id * num_heads * head_size * PAGE_SIZE
+                    + slot_id * num_heads * head_size
+                )
+                value_cache_ptr_offset = (
+                    value_cache_ptr
+                    + block_id * num_heads * head_size * PAGE_SIZE
+                    + slot_id * num_heads * head_size
+                )
 
-    def vllm_layout_trans(
-        b_query_lens_loc,
-        b_seq_lens_loc,
-        block_table,
-        k_cache,
-        v_cache,
-        max_seq_len,
-        k_scale,
-        v_scale,
-        output_dtype,
-        total_tokens,
+                for i in tl.range(0, head_size * num_heads, BLOCK_SIZE):
+                    mask = (col_offsets + i) < head_size * num_heads
+                    k_reg = tl.load(key_cache_ptr_offset + col_offsets + i, mask=mask)
+                    v_reg = tl.load(value_cache_ptr_offset + col_offsets + i, mask=mask)
+                    if DEQUANT:
+                        k_dtype = k_reg.dtype
+                        v_dtype = v_reg.dtype
+                        k_reg = (k_reg.to(tl.float32) * k_scale).to(k_dtype)
+                        v_reg = (v_reg.to(tl.float32) * v_scale).to(v_dtype)
+                    tl.store(key_ptr_offset + col_offsets + i, k_reg, mask=mask)
+                    tl.store(value_ptr_offset + col_offsets + i, v_reg, mask=mask)
+
+    def cp_mha_gather_cache(
+        key_cache: torch.Tensor,
+        value_cache: torch.Tensor,
+        key: torch.Tensor,
+        value: torch.Tensor,
+        block_tables: torch.Tensor,
+        k_scales: torch.Tensor,
+        v_scales: torch.Tensor,
+        cu_seqlens_kv: torch.Tensor,
+        token_to_batch: torch.Tensor,
+        seq_starts: torch.Tensor,
+        dequant: bool,
+        kv_cache_layout: str,
+        total_tokens: int,
     ):
-        H_KV = v_cache.shape[2]
-        D = v_cache.shape[3]
-        BLOCK_SIZE = v_cache.shape[1]
-
-        k_values = torch.empty(
-            (total_tokens, H_KV, D),
-            dtype=output_dtype,
-            device=k_cache.device,
+        assert kv_cache_layout in ["v0", "NHD", "HND"], (
+            "kv_cache_layout only support v0, NHD, HND"
         )
-        v_values = torch.empty(
-            (total_tokens, H_KV, D),
-            dtype=output_dtype,
-            device=v_cache.device,
+        head_dim = key.shape[2]
+        x = 0
+        # assert dequant is True, "Currently, we only support "\
+        # "gather cache with dequant"
+        # For k cache layout: [num_blocks, num_heads, page_size, head_dim]
+        assert kv_cache_layout == "NHD", (
+            "ROCM_AITER_FA_BACKEND Only support NHD kv cache layout for now"
         )
-
-        grid = (block_table.shape[0], (max_seq_len + BLOCK_SIZE - 1) // BLOCK_SIZE)
-
-        if output_dtype == torch.float16:
-            output_dtype = tl.float16
-        elif output_dtype == torch.bfloat16:
-            output_dtype = tl.bfloat16
-        else:
-            raise ValueError(f"Unsupported output dtype: {output_dtype}")
-
-        _vllm_layout_trans_kernel[grid](
-            k_cache,
-            v_cache,
-            k_values,
-            v_values,
-            b_query_lens_loc,
-            b_seq_lens_loc,
-            block_table,
-            block_table.stride(0),
-            k_scale,
-            v_scale,
-            output_dtype=output_dtype,
-            E_DIM=H_KV * D,
-            BLOCK_SIZE=BLOCK_SIZE,
+        assert head_dim == key_cache.shape[3], (
+            "We assume your kv cache layout is [num_blocks, "
+            "page_size, num_heads, head_dim], but got otherwise"
         )
+        page_size = key_cache.shape[1]
+        num_heads = key_cache.shape[2]
 
-        return k_values, v_values
-
-    def flash_attn_varlen_func_impl(
-        q: torch.Tensor,
-        k_cache: torch.Tensor,
-        v_cache: torch.Tensor,
-        out: torch.Tensor,
-        cu_seqlens_q: torch.Tensor,
-        cu_seqlens_k: torch.Tensor,
-        max_seqlen_q: int,
-        max_seqlen_k: int,
-        softmax_scale: float,
-        window_size: list[int] | None,  # -1 means infinite context window
-        alibi_slopes: list[float] | None,
-        block_table: torch.Tensor,
-        k_scale: torch.Tensor,
-        v_scale: torch.Tensor,
-        total_tokens: int = 0,
-    ) -> torch.Tensor:
-        if total_tokens == 0:
-            total_tokens = int(cu_seqlens_k[-1].item())
-        k, v = vllm_layout_trans(
-            cu_seqlens_q,
-            cu_seqlens_k,
-            block_table,
-            k_cache,
-            v_cache,
-            max_seqlen_k,
-            k_scale,
-            v_scale,
-            q.dtype,
+        NUM_PRGMS = num_programs(total_tokens)
+        BLOCK_SIZE = block_size(key_cache, head_dim)
+        grid = lambda meta: (NUM_PRGMS,)
+        cp_mha_gather_cache_kernel[grid](
+            key_cache,
+            value_cache,
+            key,
+            value,
+            block_tables,
+            cu_seqlens_kv,
+            token_to_batch,
+            seq_starts,
+            k_scales,
+            v_scales,
+            num_heads,
+            head_dim,
+            x,
+            block_tables.size(1),
             total_tokens,
+            DEQUANT=dequant,
+            PAGE_SIZE=page_size,
+            CACHE_FORMAT=kv_cache_layout,
+            BLOCK_SIZE=BLOCK_SIZE,
+            NUM_PRGMS=NUM_PRGMS,
         )
 
-        output = aiter.flash_attn_varlen_func(
-            q=q,
-            k=k,
-            v=v,
-            cu_seqlens_q=cu_seqlens_q,
-            max_seqlen_q=max_seqlen_q,
-            min_seqlen_q=1,
-            cu_seqlens_k=cu_seqlens_k,
-            max_seqlen_k=max_seqlen_k,
-            softmax_scale=softmax_scale,
-            causal=True,
-            alibi_slopes=alibi_slopes,
-            window_size=window_size,
-            out=out,
-        )
-        return output
-
-    def flash_attn_varlen_func_fake(
-        q: torch.Tensor,
-        k_cache: torch.Tensor,
-        v_cache: torch.Tensor,
-        out: torch.Tensor,
-        cu_seqlens_q: torch.Tensor,
-        cu_seqlens_k: torch.Tensor,
-        max_seqlen_q: int,
-        max_seqlen_k: int,
-        softmax_scale: float,
-        window_size: list[int] | None,  # -1 means infinite context window
-        alibi_slopes: list[float] | None,
-        block_table: torch.Tensor,
-        k_scale: torch.Tensor,
-        v_scale: torch.Tensor,
-        total_tokens: int = 0,
-    ) -> torch.Tensor:
-        return torch.empty(
-            q.shape[0], q.shape[1], v_cache.shape[-2], dtype=q.dtype, device=q.device
-        )
-
-    direct_register_custom_op(
-        "flash_attn_varlen_func",
-        flash_attn_varlen_func_impl,
-        ["out"],
-        flash_attn_varlen_func_fake,
-        dispatch_key=current_platform.dispatch_key,
-    )
 
 logger = init_logger(__name__)
 
 
+@dataclass
+class AiterFlashAttentionDecodeMetadata:
+    max_query_len: int
+    min_query_len: int
+    max_seq_len: int
+    query_start_loc: torch.Tensor
+
+
+@dataclass
+class AiterFlashAttentionPrefillMetadata:
+    max_query_len: int
+    min_query_len: int
+    max_seq_len: int
+    query_start_loc: torch.Tensor
+
+
+@dataclass
+class AiterChunkContextMetadata:
+    workspace: torch.Tensor
+    cu_seq_lens_chunk: torch.Tensor
+    chunk_starts: torch.Tensor
+    token_to_batch: torch.Tensor
+    seq_tot: list[int]
+    max_seq_lens: list[int]
+    seq_lens: torch.Tensor
+    num_chunks: int
+    total_token_per_batch: list[int]
+
+
+@dataclass
+class AiterFlashAttentionChunkPrefillMetadata:
+    max_query_len: int
+    min_query_len: int
+    max_seq_len: int
+    query_start_loc: torch.Tensor
+    chunk_context_metadata: AiterChunkContextMetadata
+
+
 @dataclass
 class AiterFlashAttentionMetadata:
     # NOTE(sang): Definition of context_len, query_len, and seq_len.
@@ -248,7 +229,18 @@ class AiterFlashAttentionMetadata:
     seq_lens: torch.Tensor
     slot_mapping: torch.Tensor
     block_table: torch.Tensor
-    cu_seq_lens: torch.Tensor | None
+
+    # prefill and deocde split
+    num_decodes: int
+    num_decode_tokens: int
+    num_prefills: int
+    num_prefill_tokens: int
+    num_extends: int
+    num_extend_tokens: int
+
+    decode_metadata: AiterFlashAttentionDecodeMetadata | None
+    prefill_metadata: AiterFlashAttentionPrefillMetadata | None
+    extend_metadata: AiterFlashAttentionChunkPrefillMetadata | None
 
     # For cascade attention.
     use_cascade: bool
@@ -260,6 +252,7 @@ class AiterFlashAttentionMetadataBuilder(
     AttentionMetadataBuilder[AiterFlashAttentionMetadata]
 ):
     cudagraph_support = AttentionCGSupport.UNIFORM_SINGLE_TOKEN_DECODE
+    reorder_batch_threshold: int = 1
 
     def __init__(
         self,
@@ -285,6 +278,12 @@ class AiterFlashAttentionMetadataBuilder(
         self.aot_sliding_window: tuple[int, int] | None = None
         self.total_tokens: int = 0
 
+        self.extend_workspace = torch.empty(
+            [2, _CP_TOKENS_PER_ITER_ROCM, self.num_heads_kv, self.headdim],
+            dtype=self.model_config.dtype,
+            device=device,
+        )
+
     def build_for_cudagraph_capture(
         self, common_attn_metadata: CommonAttentionMetadata
     ):
@@ -302,42 +301,139 @@ class AiterFlashAttentionMetadataBuilder(
         common_attn_metadata: CommonAttentionMetadata,
         fast_build: bool = False,
     ) -> "AiterFlashAttentionMetadata":
-        num_actual_tokens = common_attn_metadata.num_actual_tokens
-        max_query_len = common_attn_metadata.max_query_len
-        max_seq_len = common_attn_metadata.max_seq_len
-        query_start_loc = common_attn_metadata.query_start_loc
-        seq_lens = common_attn_metadata.seq_lens
-        block_table_tensor = common_attn_metadata.block_table_tensor
-        slot_mapping = common_attn_metadata.slot_mapping
-        if max_query_len > 1:
-            # We pre-compute cumulative seq len needed for prefill attention
-            # here to avoid recomputing it for every layer
-            cu_seq_lens = torch.zeros(
-                seq_lens.shape[0] + 1, dtype=torch.int32, device=seq_lens.device
-            )
-            torch.cumsum(seq_lens, dim=0, dtype=cu_seq_lens.dtype, out=cu_seq_lens[1:])
-            num_actual_kv_tokens = int(cu_seq_lens[-1].item())
-        else:
-            cu_seq_lens = None
-            num_actual_kv_tokens = 0
+        split_ret = split_decodes_prefills_and_extends(
+            common_attn_metadata,
+            decode_threshold=self.reorder_batch_threshold,
+        )
 
-        def schedule(
-            batch_size, cu_query_lens, max_query_len, seqlens, max_seq_len, causal
-        ):
-            return None
+        (
+            num_decodes,
+            num_extends,
+            num_prefills,
+            num_decode_tokens,
+            num_extend_tokens,
+            num_prefill_tokens,
+        ) = split_ret
+
+        query_start_loc_cpu = common_attn_metadata.query_start_loc_cpu
+
+        seq_lens = common_attn_metadata.seq_lens_cpu
+
+        query_lens_cpu = query_start_loc_cpu[1:] - query_start_loc_cpu[:-1]
+
+        decode_metadata = None
+        if num_decodes > 0:
+            decode_metadata = AiterFlashAttentionDecodeMetadata(
+                max_query_len=query_lens_cpu[:num_decodes].max().item(),
+                min_query_len=query_lens_cpu[:num_decodes].min().item(),
+                max_seq_len=seq_lens[:num_decodes].max().item(),
+                query_start_loc=common_attn_metadata.query_start_loc[: num_decodes + 1],
+            )
+
+        prefill_metadata = None
+        if num_prefills > 0:
+            query_lens_for_prefill = query_lens_cpu[num_decodes + num_extends :]
+            query_start_loc_device = common_attn_metadata.query_start_loc[
+                num_decodes + num_extends :
+            ]
+            prefill_metadata = AiterFlashAttentionPrefillMetadata(
+                max_query_len=query_lens_for_prefill.max().item(),
+                min_query_len=query_lens_for_prefill.min().item(),
+                max_seq_len=seq_lens[num_decodes + num_extends :].max().item(),
+                query_start_loc=query_start_loc_device - query_start_loc_device[0],
+            )
+
+        extend_metadata = None
+        if num_extends > 0:
+            num_extends_slice = slice(num_decodes, num_decodes + num_extends)
+            query_lens_for_extend = query_lens_cpu[num_extends_slice]
+            seq_lens_for_extend = common_attn_metadata.seq_lens_cpu[num_extends_slice]
+            computed_kv_lens = seq_lens_for_extend - query_lens_for_extend
+
+            # allocate the equal amount of workspace for
+            # each chunk prefill request
+            max_context_chunk = _CP_TOKENS_PER_ITER_ROCM // num_extends
+            num_chunks = cdiv(computed_kv_lens.max().item(), max_context_chunk)
+
+            chunk_starts = (
+                torch.arange(num_chunks, dtype=torch.int32)
+                .unsqueeze(1)
+                .expand(-1, num_extends)
+                * max_context_chunk
+            )
+            chunk_ends = torch.min(
+                computed_kv_lens.unsqueeze(0), chunk_starts + max_context_chunk
+            )
+            chunk_seq_lens = (chunk_ends - chunk_starts).clamp(
+                min=0
+            )  # [num_chunks, num_extends]
+            cu_seq_lens_cpu = torch.zeros(
+                [num_chunks, num_extends + 1], dtype=torch.int32, pin_memory=True
+            )
+            torch.cumsum(
+                chunk_seq_lens, dim=1, out=cu_seq_lens_cpu[:, 1:], dtype=torch.int32
+            )
+            max_cum_tokens = cu_seq_lens_cpu[:, -1].max().item()
+
+            range_idx = torch.arange(max_cum_tokens, dtype=torch.int32)[None, None, :]
+            idx_to_batch_tensor = range_idx == cu_seq_lens_cpu[:, 1:][:, :, None]
+            idx_to_batch_tensor = idx_to_batch_tensor.sum(
+                dim=1
+            )  # [num_chunks, max_cum_tokens]
+            token_to_batch_tensor = torch.cumsum(idx_to_batch_tensor, dim=1)
+
+            chunk_context_metadata = AiterChunkContextMetadata(
+                workspace=self.extend_workspace,
+                cu_seq_lens_chunk=cu_seq_lens_cpu.to(self.device, non_blocking=True),
+                chunk_starts=chunk_starts.to(self.device, non_blocking=True),
+                seq_tot=chunk_seq_lens.sum(dim=1).tolist(),
+                max_seq_lens=chunk_seq_lens.max(dim=1).values.tolist(),
+                seq_lens=chunk_seq_lens,
+                token_to_batch=token_to_batch_tensor.to(self.device, non_blocking=True),
+                num_chunks=num_chunks,
+                total_token_per_batch=cu_seq_lens_cpu[:, -1].tolist(),
+            )
+
+            query_start_loc_device = common_attn_metadata.query_start_loc[
+                num_decodes : num_decodes + num_extends + 1
+            ]
+            seq_lens_device = common_attn_metadata.seq_lens[num_extends_slice]
+            cu_seq_lens = torch.zeros(
+                num_extends + 1, dtype=torch.int32, device=seq_lens_device.device
+            )
+            torch.cumsum(
+                seq_lens_device, dim=0, dtype=cu_seq_lens.dtype, out=cu_seq_lens[1:]
+            )
+            extend_metadata = AiterFlashAttentionChunkPrefillMetadata(
+                max_query_len=query_lens_for_extend.max().item(),
+                min_query_len=query_lens_for_extend.min().item(),
+                max_seq_len=seq_lens[num_extends_slice].max().item(),
+                query_start_loc=query_start_loc_device - query_start_loc_device[0],
+                chunk_context_metadata=chunk_context_metadata,
+            )
+
+        num_actual_kv_tokens = torch.sum(seq_lens).item()
 
         use_cascade = common_prefix_len > 0
 
         attn_metadata = AiterFlashAttentionMetadata(
-            num_actual_tokens=num_actual_tokens,
+            num_actual_tokens=common_attn_metadata.num_actual_tokens,
             num_actual_kv_tokens=num_actual_kv_tokens,
-            max_query_len=max_query_len,
-            query_start_loc=query_start_loc,
-            max_seq_len=max_seq_len,
-            seq_lens=seq_lens,
-            block_table=block_table_tensor,
-            slot_mapping=slot_mapping,
-            cu_seq_lens=cu_seq_lens,
+            max_query_len=common_attn_metadata.max_query_len,
+            query_start_loc=common_attn_metadata.query_start_loc,
+            max_seq_len=common_attn_metadata.max_seq_len,
+            seq_lens=common_attn_metadata.seq_lens,
+            block_table=common_attn_metadata.block_table_tensor,
+            slot_mapping=common_attn_metadata.slot_mapping,
+            num_decodes=num_decodes,
+            num_decode_tokens=num_decode_tokens,
+            num_prefills=num_prefills,
+            num_prefill_tokens=num_prefill_tokens,
+            num_extends=num_extends,
+            num_extend_tokens=num_extend_tokens,
+            decode_metadata=decode_metadata,
+            prefill_metadata=prefill_metadata,
+            extend_metadata=extend_metadata,
             use_cascade=use_cascade,
             common_prefix_len=common_prefix_len,
             total_tokens=self.total_tokens,
@@ -401,6 +497,7 @@ class AiterFlashAttentionBackend(AttentionBackend):
     ) -> tuple[int, ...]:
         if block_size % 16 != 0:
             raise ValueError("Block size must be a multiple of 16.")
+
         return (2, num_blocks, block_size, num_kv_heads, head_size)
 
 
@@ -449,6 +546,110 @@ class AiterFlashAttentionImpl(AttentionImpl):
                 "FlashAttentionImpl"
             )
 
+    def extend_forward(
+        self,
+        attn_metadata: AiterFlashAttentionMetadata,
+        query: torch.Tensor,
+        key: torch.Tensor,
+        value: torch.Tensor,
+        key_cache: torch.Tensor,
+        value_cache: torch.Tensor,
+        output: torch.Tensor,
+        cu_seqlens_q: torch.Tensor,
+        max_seqlen_q: int,
+        max_seqlen_k: int,
+        min_seqlen_q: int,
+        block_table: torch.Tensor,
+        slot_mapping: torch.Tensor,
+        k_scale: float,
+        v_scale: float,
+    ):
+        out, lse = aiter.flash_attn_varlen_func(
+            q=query,
+            k=key,
+            v=value,
+            cu_seqlens_q=cu_seqlens_q,
+            cu_seqlens_k=cu_seqlens_q,
+            max_seqlen_q=max_seqlen_q,
+            max_seqlen_k=max_seqlen_q,
+            min_seqlen_q=min_seqlen_q,
+            dropout_p=0.0,
+            softmax_scale=self.scale,
+            causal=True,
+            window_size=self.sliding_window,
+            alibi_slopes=self.alibi_slopes,
+            return_lse=True,
+        )
+        assert attn_metadata.extend_metadata is not None
+        chunk_context_metadata = attn_metadata.extend_metadata.chunk_context_metadata
+        num_chunks = chunk_context_metadata.num_chunks
+        workspace = chunk_context_metadata.workspace
+        cu_seqlens_kv = chunk_context_metadata.cu_seq_lens_chunk
+        max_seqlens = chunk_context_metadata.max_seq_lens
+        chunk_starts = chunk_context_metadata.chunk_starts
+        token_to_batch = chunk_context_metadata.token_to_batch
+        total_token_per_batch = chunk_context_metadata.total_token_per_batch
+        key_fetched, value_fetched = workspace[0], workspace[1]
+        chunked_output = None
+        chunked_lse = None
+        for chunk_idx in range(num_chunks):
+            cp_mha_gather_cache(
+                key_cache=key_cache,
+                value_cache=value_cache,
+                key=key_fetched,
+                value=value_fetched,
+                block_tables=block_table,
+                k_scales=k_scale,
+                v_scales=v_scale,
+                cu_seqlens_kv=cu_seqlens_kv[chunk_idx],
+                token_to_batch=token_to_batch[chunk_idx],
+                seq_starts=chunk_starts[chunk_idx],
+                dequant=False,
+                kv_cache_layout="NHD",
+                total_tokens=total_token_per_batch[chunk_idx],
+            )
+
+            suf_out, suf_lse = aiter.flash_attn_varlen_func(
+                q=query,
+                k=key_fetched,
+                v=value_fetched,
+                cu_seqlens_q=cu_seqlens_q,
+                cu_seqlens_k=cu_seqlens_kv[chunk_idx],
+                max_seqlen_q=max_seqlen_q,
+                max_seqlen_k=max_seqlens[chunk_idx],
+                min_seqlen_q=min_seqlen_q,
+                dropout_p=0.0,
+                softmax_scale=self.scale,
+                causal=False,
+                window_size=self.sliding_window,
+                alibi_slopes=self.alibi_slopes,
+                return_lse=True,
+            )
+            if chunked_output is None:
+                chunked_output = suf_out
+                chunked_lse = suf_lse
+            else:
+                tmp_output = torch.empty_like(out)
+                tmp_lse = torch.empty_like(lse)
+                merge_attn_states(
+                    output=tmp_output,
+                    output_lse=tmp_lse,
+                    prefix_output=chunked_output,
+                    prefix_lse=chunked_lse,
+                    suffix_output=suf_out,
+                    suffix_lse=suf_lse,
+                )
+                chunked_output = tmp_output
+                chunked_lse = tmp_lse
+
+        merge_attn_states(
+            output=output,
+            prefix_output=chunked_output,
+            prefix_lse=chunked_lse,
+            suffix_output=out,
+            suffix_lse=lse,
+        )
+
     def forward(
         self,
         layer: torch.nn.Module,
@@ -488,24 +689,25 @@ class AiterFlashAttentionImpl(AttentionImpl):
             return output.fill_(0)
 
         # IMPORTANT!
-        # NOTE(woosuk): With piece-wise CUDA graphs, this method is executed in
-        # eager-mode PyTorch. Thus, we need to be careful about any CPU overhead
-        # in this method. For example, `view` and `slice` (or `[:n]`) operations
-        # are surprisingly slow even in the case they do not invoke any GPU ops.
+        # NOTE(woosuk): With piece-wise CUDA graphs, this method is
+        # executed in eager-mode PyTorch. Thus, we need to be careful
+        # about any CPU overhead in this method. For example, `view`
+        # and `slice` (or `[:n]`) operations are surprisingly slow even
+        # in the case they do not invoke any GPU ops.
         # Minimize the PyTorch ops in this method as much as possible.
         # Whenever making a change in this method, please benchmark the
         # performance to make sure it does not introduce any overhead.
-
         num_actual_tokens = attn_metadata.num_actual_tokens
         key_cache, value_cache = kv_cache.unbind(0)
         if self.kv_sharing_target_layer_name is None:
             # Reshape the input keys and values and store them in the cache.
             # Skip this if sharing KV cache with an earlier attention layer.
-            # NOTE(woosuk): Here, key and value are padded while slot_mapping is
-            # not padded. However, we don't need to do key[:num_actual_tokens]
-            # and value[:num_actual_tokens] because the reshape_and_cache_flash
-            # op uses the slot_mapping's shape to determine the number of
-            # actual tokens.
+            # NOTE(woosuk): Here, key and value are padded while slot_mapping
+            # is not padded. However, we don't need to do
+            # key[:num_actual_tokens] and value[:num_actual_tokens] because
+            # the reshape_and_cache_flash op uses the slot_mapping's shape
+            # to determine the number of actual tokens.
+
             torch.ops._C_cache_ops.reshape_and_cache_flash(
                 key,
                 value,
@@ -521,69 +723,118 @@ class AiterFlashAttentionImpl(AttentionImpl):
             key_cache = key_cache.view(current_platform.fp8_dtype())
             value_cache = value_cache.view(current_platform.fp8_dtype())
 
-        if not attn_metadata.use_cascade:
-            cu_seqlens_q = attn_metadata.query_start_loc
-            seqused_k = attn_metadata.seq_lens
-            max_seqlen_q = attn_metadata.max_query_len
-            max_seqlen_k = attn_metadata.max_seq_len
-            block_table = attn_metadata.block_table
+        # decode:extend:prefill
+        query = query[:num_actual_tokens]
+        key = key[:num_actual_tokens]
+        value = value[:num_actual_tokens]
 
-            if max_seqlen_q > 1:
-                torch.ops.vllm.flash_attn_varlen_func(
-                    query[:num_actual_tokens],
-                    key_cache,
-                    value_cache,
-                    out=output[:num_actual_tokens],
-                    cu_seqlens_q=cu_seqlens_q,
-                    max_seqlen_q=max_seqlen_q,
-                    max_seqlen_k=max_seqlen_k,
+        output_actual_tokens = output[:num_actual_tokens]
+
+        num_decodes = attn_metadata.num_decodes
+        num_prefills = attn_metadata.num_prefills
+        num_extends = attn_metadata.num_extends
+
+        num_decode_tokens = attn_metadata.num_decode_tokens
+        num_extend_tokens = attn_metadata.num_extend_tokens
+        if not attn_metadata.use_cascade:
+            # calculate for pure prefills
+            if num_prefills > 0:
+                assert attn_metadata.prefill_metadata is not None
+
+                prefill_query = query[num_decode_tokens + num_extend_tokens :]
+                prefill_key = key[num_decode_tokens + num_extend_tokens :]
+                prefill_value = value[num_decode_tokens + num_extend_tokens :]
+
+                aiter.flash_attn_varlen_func(
+                    q=prefill_query,
+                    k=prefill_key,
+                    v=prefill_value,
+                    cu_seqlens_q=attn_metadata.prefill_metadata.query_start_loc,
+                    cu_seqlens_k=attn_metadata.prefill_metadata.query_start_loc,
+                    max_seqlen_q=attn_metadata.prefill_metadata.max_query_len,
+                    max_seqlen_k=attn_metadata.prefill_metadata.max_seq_len,
+                    min_seqlen_q=attn_metadata.prefill_metadata.min_query_len,
+                    dropout_p=0.0,
                     softmax_scale=self.scale,
-                    alibi_slopes=self.alibi_slopes,
+                    causal=True,
                     window_size=self.sliding_window,
-                    block_table=block_table,
-                    cu_seqlens_k=attn_metadata.cu_seq_lens,
-                    k_scale=layer._k_scale,
-                    v_scale=layer._v_scale,
-                    total_tokens=attn_metadata.num_actual_kv_tokens,
+                    alibi_slopes=self.alibi_slopes,
+                    out=output_actual_tokens[num_decode_tokens + num_extend_tokens :],
                 )
 
-            _, num_heads, head_size = query.shape
-            nbytes_per_qo_elem = torch.finfo(query.dtype).bits // 8
-            num_seqs = seqused_k.shape[0]
-            max_num_partitions = (
-                max_seqlen_k + _PARTITION_SIZE_ROCM - 1
-            ) // _PARTITION_SIZE_ROCM
+            # calculate for extends
+            if num_extends > 0:
+                assert attn_metadata.extend_metadata is not None
+                extend_tokens_slice = slice(
+                    num_decode_tokens, num_decode_tokens + num_extend_tokens
+                )
+                extend_querys = query[extend_tokens_slice]
+                extend_keys = key[extend_tokens_slice]
+                extend_values = value[extend_tokens_slice]
+                extend_outputs = output[extend_tokens_slice]
+                self.extend_forward(
+                    attn_metadata=attn_metadata,
+                    query=extend_querys,
+                    key=extend_keys,
+                    value=extend_values,
+                    key_cache=key_cache,
+                    value_cache=value_cache,
+                    output=extend_outputs,
+                    cu_seqlens_q=attn_metadata.extend_metadata.query_start_loc,
+                    max_seqlen_q=attn_metadata.extend_metadata.max_query_len,
+                    max_seqlen_k=attn_metadata.extend_metadata.max_seq_len,
+                    min_seqlen_q=attn_metadata.extend_metadata.min_query_len,
+                    block_table=attn_metadata.block_table[
+                        num_decodes : num_decodes + num_extends
+                    ],
+                    slot_mapping=attn_metadata.slot_mapping[
+                        num_decodes : num_decodes + num_extends
+                    ],
+                    k_scale=layer._k_scale,
+                    v_scale=layer._v_scale,
+                )
 
-            workspace_buffer = torch.empty(
-                (num_seqs * num_heads * max_num_partitions * head_size)
-                * nbytes_per_qo_elem
-                + 2 * (num_seqs * num_heads * max_num_partitions) * 4,
-                dtype=torch.uint8,
-                device=output.device,
-            )
+            # calculate for decodes
+            if num_decodes > 0:
+                assert attn_metadata.decode_metadata is not None
+                _, num_heads, head_size = query.shape
+                nbytes_per_qo_elem = torch.finfo(query.dtype).bits // 8
+                num_seqs = attn_metadata.seq_lens.shape[0]
+                max_num_partitions = (
+                    attn_metadata.max_seq_len + _PARTITION_SIZE_ROCM - 1
+                ) // _PARTITION_SIZE_ROCM
 
-            torch.ops.aiter.paged_attention_v1(
-                output[:num_actual_tokens],
-                workspace_buffer,
-                query[:num_actual_tokens],
-                key_cache,
-                value_cache,
-                self.scale,
-                block_table,
-                cu_seqlens_q,
-                seqused_k,
-                max_seqlen_k,
-                self.alibi_slopes,
-                self.kv_cache_dtype,
-                "NHD",
-                self.logits_soft_cap,
-                layer._k_scale,
-                layer._v_scale,
-                None,
-                _PARTITION_SIZE_ROCM,
-            )
-            return output
+                workspace_buffer = torch.empty(
+                    (num_seqs * num_heads * max_num_partitions * head_size)
+                    * nbytes_per_qo_elem
+                    + 2 * (num_seqs * num_heads * max_num_partitions) * 4,
+                    dtype=torch.uint8,
+                    device=output.device,
+                )
+
+                torch.ops.aiter.paged_attention_v1(
+                    output[:num_decode_tokens],
+                    workspace_buffer,
+                    query[:num_decode_tokens],
+                    key_cache,
+                    value_cache,
+                    self.scale,
+                    attn_metadata.block_table[:num_decodes],
+                    attn_metadata.query_start_loc[:num_decodes],
+                    attn_metadata.seq_lens[:num_decodes],
+                    attn_metadata.max_seq_len,
+                    self.alibi_slopes,
+                    self.kv_cache_dtype,
+                    "NHD",
+                    self.logits_soft_cap,
+                    layer._k_scale,
+                    layer._v_scale,
+                    None,
+                    _PARTITION_SIZE_ROCM,
+                )
         else:
             raise NotImplementedError(
                 "Cascade attention is not implemented for ROCM AITER"
             )
+
+        return output
diff --git a/vllm/v1/attention/backends/utils.py b/vllm/v1/attention/backends/utils.py
index 07d62e9849e00..6c750d3448c41 100644
--- a/vllm/v1/attention/backends/utils.py
+++ b/vllm/v1/attention/backends/utils.py
@@ -728,6 +728,73 @@ def subclass_attention_backend(
     )
 
 
+def split_decodes_prefills_and_extends(
+    common_attn_metadata: CommonAttentionMetadata,
+    decode_threshold: int = 1,
+) -> tuple[int, int, int, int, int, int]:
+    """
+    Assuming a reordered batch, finds the boundary between prefill and decode
+    requests.
+
+    Args:
+        common_attn_metadata: CommonAttentionMetadata object containing the
+            batch metadata.
+        decode_threshold: The maximum query length to be considered a decode.
+
+    Returns:
+        num_decodes: The number of decode requests.
+        num_extends: The number of extend requests.
+        num_prefills: The number of prefill requests.
+        num_decode_tokens: The number of tokens in the decode requests.
+        num_extend_tokens: The number of tokens in the extend requests.
+        num_prefill_tokens: The number of tokens in the prefill requests.
+    """
+    max_query_len = common_attn_metadata.max_query_len
+    num_reqs = common_attn_metadata.num_reqs
+    num_tokens = common_attn_metadata.num_actual_tokens
+    query_start_loc = common_attn_metadata.query_start_loc_cpu
+    seq_lens = common_attn_metadata.seq_lens_cpu
+
+    if max_query_len <= decode_threshold:
+        return num_reqs, 0, 0, num_tokens, 0, 0
+
+    query_lens = query_start_loc[1:] - query_start_loc[:-1]
+    is_prefill_or_extend = query_lens > decode_threshold
+    is_prefill = (seq_lens == query_lens) & is_prefill_or_extend
+    first_extend = is_prefill_or_extend.int().argmax(dim=-1).item()
+    first_prefill = is_prefill.int().argmax(dim=-1).item()
+    num_decodes = first_extend
+    num_decode_tokens = query_start_loc[first_extend].item()
+    if not torch.any(is_prefill_or_extend):
+        return (num_decodes, 0, 0, num_decode_tokens, 0, 0)
+
+    num_prefills_or_extends = num_reqs - num_decodes
+    num_prefill_or_extend_tokens = num_tokens - num_decode_tokens
+    if not torch.any(is_prefill):
+        return (
+            num_decodes,
+            num_prefills_or_extends,
+            0,
+            num_decode_tokens,
+            num_prefill_or_extend_tokens,
+            0,
+        )
+
+    num_extends = first_prefill - num_decodes
+    num_prefills = num_reqs - first_prefill
+
+    num_prefill_tokens = num_tokens - query_start_loc[first_prefill]
+    num_extend_tokens = num_prefill_or_extend_tokens - num_prefill_tokens
+    return (
+        num_decodes,
+        num_extends,
+        num_prefills,
+        num_decode_tokens,
+        num_extend_tokens,
+        num_prefill_tokens,
+    )
+
+
 def split_decodes_and_prefills(
     common_attn_metadata: CommonAttentionMetadata,
     decode_threshold: int = 1,

From 611c86ea3c3a6444d825871061feeddf8d6076d7 Mon Sep 17 00:00:00 2001
From: nadavkluger <nadav.kluger@gmail.com>
Date: Tue, 4 Nov 2025 20:18:43 +0200
Subject: [PATCH 131/976] Added disable rule to track files under
 benchmarks/lib (#28048)

Signed-off-by: Nadav Kluger <nadav.k@fmr.ai>
---
 .gitignore | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/.gitignore b/.gitignore
index ffa36dee1ab9d..50070d7898fe6 100644
--- a/.gitignore
+++ b/.gitignore
@@ -221,3 +221,6 @@ csrc/moe/marlin_moe_wna16/kernel_*
 
 # Ignore ep_kernels_workspace folder
 ep_kernels_workspace/
+
+# Allow tracked library source folders under submodules (e.g., benchmarks/lib)
+!vllm/benchmarks/lib/

From 1fb4217a052189feb8709b67bb3209ab316d13b7 Mon Sep 17 00:00:00 2001
From: Chenheli Hua <huachenheli@outlook.com>
Date: Tue, 4 Nov 2025 10:28:01 -0800
Subject: [PATCH 132/976] [Multimodal] Make MediaConnector extensible. (#27759)

Signed-off-by: Chenheli Hua <huachenheli@outlook.com>
---
 vllm/entrypoints/chat_utils.py | 10 ++++---
 vllm/envs.py                   |  9 +++++++
 vllm/multimodal/utils.py       |  4 +++
 vllm/multimodal/video.py       | 21 ++-------------
 vllm/utils/registry.py         | 49 ++++++++++++++++++++++++++++++++++
 5 files changed, 71 insertions(+), 22 deletions(-)
 create mode 100644 vllm/utils/registry.py

diff --git a/vllm/entrypoints/chat_utils.py b/vllm/entrypoints/chat_utils.py
index 09641aaff3066..d7d6419d643b0 100644
--- a/vllm/entrypoints/chat_utils.py
+++ b/vllm/entrypoints/chat_utils.py
@@ -43,11 +43,12 @@ from transformers import PreTrainedTokenizer, PreTrainedTokenizerFast, Processor
 # pydantic needs the TypedDict from typing_extensions
 from typing_extensions import Required, TypedDict
 
+from vllm import envs
 from vllm.config import ModelConfig
 from vllm.logger import init_logger
 from vllm.model_executor.models import SupportsMultiModal
 from vllm.multimodal import MULTIMODAL_REGISTRY, MultiModalDataDict, MultiModalUUIDDict
-from vllm.multimodal.utils import MediaConnector
+from vllm.multimodal.utils import MEDIA_CONNECTOR_REGISTRY, MediaConnector
 from vllm.transformers_utils.chat_templates import get_chat_template_fallback_path
 from vllm.transformers_utils.processor import cached_get_processor
 from vllm.transformers_utils.tokenizer import AnyTokenizer, MistralTokenizer
@@ -806,7 +807,9 @@ class MultiModalContentParser(BaseMultiModalContentParser):
         self._tracker = tracker
         multimodal_config = self._tracker.model_config.multimodal_config
         media_io_kwargs = getattr(multimodal_config, "media_io_kwargs", None)
-        self._connector = MediaConnector(
+
+        self._connector: MediaConnector = MEDIA_CONNECTOR_REGISTRY.load(
+            envs.VLLM_MEDIA_CONNECTOR,
             media_io_kwargs=media_io_kwargs,
             allowed_local_media_path=tracker.allowed_local_media_path,
             allowed_media_domains=tracker.allowed_media_domains,
@@ -891,7 +894,8 @@ class AsyncMultiModalContentParser(BaseMultiModalContentParser):
         self._tracker = tracker
         multimodal_config = self._tracker.model_config.multimodal_config
         media_io_kwargs = getattr(multimodal_config, "media_io_kwargs", None)
-        self._connector = MediaConnector(
+        self._connector: MediaConnector = MEDIA_CONNECTOR_REGISTRY.load(
+            envs.VLLM_MEDIA_CONNECTOR,
             media_io_kwargs=media_io_kwargs,
             allowed_local_media_path=tracker.allowed_local_media_path,
             allowed_media_domains=tracker.allowed_media_domains,
diff --git a/vllm/envs.py b/vllm/envs.py
index 81f189ada9a6f..dc919e7741969 100755
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -70,6 +70,7 @@ if TYPE_CHECKING:
     VLLM_MEDIA_LOADING_THREAD_COUNT: int = 8
     VLLM_MAX_AUDIO_CLIP_FILESIZE_MB: int = 25
     VLLM_VIDEO_LOADER_BACKEND: str = "opencv"
+    VLLM_MEDIA_CONNECTOR: str = "http"
     VLLM_MM_INPUT_CACHE_GIB: int = 4
     VLLM_TARGET_DEVICE: str = "cuda"
     VLLM_MAIN_CUDA_VERSION: str = "12.8"
@@ -738,6 +739,14 @@ environment_variables: dict[str, Callable[[], Any]] = {
     "VLLM_VIDEO_LOADER_BACKEND": lambda: os.getenv(
         "VLLM_VIDEO_LOADER_BACKEND", "opencv"
     ),
+    # Media connector implementation.
+    # - "http": Default connector that supports fetching media via HTTP.
+    #
+    # Custom implementations can be registered
+    # via `@MEDIA_CONNECTOR_REGISTRY.register("my_custom_media_connector")` and
+    # imported at runtime.
+    # If a non-existing backend is used, an AssertionError will be thrown.
+    "VLLM_MEDIA_CONNECTOR": lambda: os.getenv("VLLM_MEDIA_CONNECTOR", "http"),
     # [DEPRECATED] Cache size (in GiB per process) for multimodal input cache
     # Default is 4 GiB per API process + 4 GiB per engine core process
     "VLLM_MM_INPUT_CACHE_GIB": lambda: int(os.getenv("VLLM_MM_INPUT_CACHE_GIB", "4")),
diff --git a/vllm/multimodal/utils.py b/vllm/multimodal/utils.py
index 7f259dad08f90..3fad11a2cb4da 100644
--- a/vllm/multimodal/utils.py
+++ b/vllm/multimodal/utils.py
@@ -20,6 +20,7 @@ import vllm.envs as envs
 from vllm.connections import HTTPConnection, global_http_connection
 from vllm.logger import init_logger
 from vllm.utils.jsontree import json_map_leaves
+from vllm.utils.registry import ExtensionManager
 
 from .audio import AudioMediaIO
 from .base import MediaIO
@@ -46,7 +47,10 @@ atexit.register(global_thread_pool.shutdown)
 
 _M = TypeVar("_M")
 
+MEDIA_CONNECTOR_REGISTRY = ExtensionManager()
 
+
+@MEDIA_CONNECTOR_REGISTRY.register("http")
 class MediaConnector:
     def __init__(
         self,
diff --git a/vllm/multimodal/video.py b/vllm/multimodal/video.py
index 666ef275a9247..369c5e6cb4d10 100644
--- a/vllm/multimodal/video.py
+++ b/vllm/multimodal/video.py
@@ -14,6 +14,7 @@ from PIL import Image
 
 from vllm import envs
 from vllm.logger import init_logger
+from vllm.utils.registry import ExtensionManager
 
 from .base import MediaIO
 from .image import ImageMediaIO
@@ -63,25 +64,7 @@ class VideoLoader:
         raise NotImplementedError
 
 
-class VideoLoaderRegistry:
-    def __init__(self) -> None:
-        self.name2class: dict[str, type] = {}
-
-    def register(self, name: str):
-        def wrap(cls_to_register):
-            self.name2class[name] = cls_to_register
-            return cls_to_register
-
-        return wrap
-
-    @staticmethod
-    def load(cls_name: str) -> VideoLoader:
-        cls = VIDEO_LOADER_REGISTRY.name2class.get(cls_name)
-        assert cls is not None, f"VideoLoader class {cls_name} not found"
-        return cls()
-
-
-VIDEO_LOADER_REGISTRY = VideoLoaderRegistry()
+VIDEO_LOADER_REGISTRY = ExtensionManager()
 
 
 @VIDEO_LOADER_REGISTRY.register("opencv")
diff --git a/vllm/utils/registry.py b/vllm/utils/registry.py
new file mode 100644
index 0000000000000..ac9b859159ead
--- /dev/null
+++ b/vllm/utils/registry.py
@@ -0,0 +1,49 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from typing import Any
+
+
+class ExtensionManager:
+    """
+    A registry for managing pluggable extension classes.
+
+    This class provides a simple mechanism to register and instantiate
+    extension classes by name. It is commonly used to implement plugin
+    systems where different implementations can be swapped at runtime.
+
+    Examples:
+        Basic usage with a registry instance:
+
+        >>> FOO_REGISTRY = ExtensionManager()
+        >>> @FOO_REGISTRY.register("my_foo_impl")
+        ... class MyFooImpl(Foo):
+        ...     def __init__(self, value):
+        ...         self.value = value
+        >>> foo_impl = FOO_REGISTRY.load("my_foo_impl", value=123)
+
+    """
+
+    def __init__(self) -> None:
+        """
+        Initialize an empty extension registry.
+        """
+        self.name2class: dict[str, type] = {}
+
+    def register(self, name: str):
+        """
+        Decorator to register a class with the given name.
+        """
+
+        def wrap(cls_to_register):
+            self.name2class[name] = cls_to_register
+            return cls_to_register
+
+        return wrap
+
+    def load(self, cls_name: str, *args, **kwargs) -> Any:
+        """
+        Instantiate and return a registered extension class by name.
+        """
+        cls = self.name2class.get(cls_name)
+        assert cls is not None, f"Extension class {cls_name} not found"
+        return cls(*args, **kwargs)

From 2d977a7a9ead3179fde9ed55d69393ef7b6cec47 Mon Sep 17 00:00:00 2001
From: Aleksandr Malyshev <164964928+maleksan85@users.noreply.github.com>
Date: Tue, 4 Nov 2025 13:01:00 -0800
Subject: [PATCH 133/976] [ROCm] gemm_a16w16 upstreaming (#26969)

Signed-off-by: Aleksandr Malyshev <maleksan@amd.com>
Co-authored-by: Aleksandr Malyshev <maleksan@amd.com>
---
 vllm/model_executor/layers/utils.py   | 42 ++++++++++++++++++++++-----
 vllm/model_executor/models/gpt_oss.py | 10 ++++++-
 2 files changed, 43 insertions(+), 9 deletions(-)

diff --git a/vllm/model_executor/layers/utils.py b/vllm/model_executor/layers/utils.py
index 925f9ac0a16ea..3d90c9513683b 100644
--- a/vllm/model_executor/layers/utils.py
+++ b/vllm/model_executor/layers/utils.py
@@ -103,12 +103,41 @@ def default_unquantized_gemm(
     return torch.nn.functional.linear(x, weight, bias)
 
 
+def use_aiter_triton_gemm(n, m, k, dtype):
+    if (
+        envs.VLLM_ROCM_USE_AITER == 0
+        # MI300's - fp8nuz=True
+        or current_platform.is_fp8_fnuz()
+        or dtype not in [torch.float16, torch.bfloat16]
+    ):
+        return False
+
+    # use hipblaslt for the larger GEMMs
+    if n > 2048 and m > 512:
+        return False
+    return (
+        (m == 5120 and k == 2880)
+        or (m == 2880 and k == 4096)
+        or (m == 128 and k == 2880)
+        or (m == 640 and k == 2880)
+        or (m == 2880 and k == 512)
+    )
+
+
 def rocm_unquantized_gemm_impl(
     x: torch.Tensor, weight: torch.Tensor, bias: torch.Tensor | None = None
 ) -> torch.Tensor:
     from vllm.platforms.rocm import on_gfx9
 
+    n = x.numel() / x.size(-1)
+    m = weight.shape[0]
     k = weight.shape[1]
+
+    if use_aiter_triton_gemm(n, m, k, x.dtype):
+        from aiter.ops.triton.gemm_a16w16 import gemm_a16w16
+
+        return gemm_a16w16(x, weight, bias)
+
     use_skinny = (
         envs.VLLM_ROCM_USE_SKINNY_GEMM
         and on_gfx9()
@@ -120,11 +149,8 @@ def rocm_unquantized_gemm_impl(
         return torch.nn.functional.linear(x, weight, bias)
 
     x_view = x.reshape(-1, x.size(-1))
-    n = x_view.shape[0]
-    m = weight.shape[0]
-    cu_count = current_platform.get_cu_count()
-
     if m > 8 and 0 < n <= 4:
+        cu_count = current_platform.get_cu_count()
         out = ops.wvSplitK(weight, x_view, cu_count, bias)
         return out.reshape(*x.shape[:-1], weight.shape[0])
     elif m % 4 == 0 and n == 1 and k <= 8192 and bias is None:
@@ -133,7 +159,7 @@ def rocm_unquantized_gemm_impl(
     return torch.nn.functional.linear(x, weight, bias)
 
 
-def rocm_unquantized_gemm_impl_fake(
+def rocm_unquantized_gemm_fake(
     x: torch.Tensor, weight: torch.Tensor, bias: torch.Tensor | None = None
 ) -> torch.Tensor:
     return x.new_empty((*x.shape[:-1], weight.shape[0]))
@@ -145,13 +171,13 @@ def rocm_unquantized_gemm(
     weight: torch.Tensor,
     bias: torch.Tensor | None = None,
 ) -> torch.Tensor:
-    return torch.ops.vllm.rocm_unquantized_gemm_impl(x, weight, bias)
+    return torch.ops.vllm.rocm_unquantized_gemm(x, weight, bias)
 
 
 direct_register_custom_op(
-    op_name="rocm_unquantized_gemm_impl",
+    op_name="rocm_unquantized_gemm",
     op_func=rocm_unquantized_gemm_impl,
-    fake_impl=rocm_unquantized_gemm_impl_fake,
+    fake_impl=rocm_unquantized_gemm_fake,
 )
 
 
diff --git a/vllm/model_executor/models/gpt_oss.py b/vllm/model_executor/models/gpt_oss.py
index 44f6824b52129..863e5654094cd 100644
--- a/vllm/model_executor/models/gpt_oss.py
+++ b/vllm/model_executor/models/gpt_oss.py
@@ -25,12 +25,14 @@ from vllm.model_executor.layers.linear import QKVParallelLinear, RowParallelLine
 from vllm.model_executor.layers.logits_processor import LogitsProcessor
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.utils import rocm_unquantized_gemm
 from vllm.model_executor.layers.vocab_parallel_embedding import (
     ParallelLMHead,
     VocabParallelEmbedding,
 )
 from vllm.model_executor.model_loader.weight_utils import default_weight_loader
 from vllm.model_executor.models.utils import sequence_parallel_chunk
+from vllm.platforms import current_platform
 from vllm.sequence import IntermediateTensors
 from vllm.utils.math_utils import cdiv
 
@@ -153,6 +155,7 @@ class MLPBlock(torch.nn.Module):
 
         self.layer_idx = layer_idx
         self.num_experts = config.num_local_experts
+        self.hidden_size = config.hidden_size
         self.experts_per_token = config.num_experts_per_tok
         self.world_size = dist.get_world_size() if dist.is_initialized() else 1
         self.router = torch.nn.Linear(config.hidden_size, config.num_local_experts)
@@ -177,7 +180,12 @@ class MLPBlock(torch.nn.Module):
         if self.is_sequence_parallel:
             x = sequence_parallel_chunk(x)
 
-        g = self.router(x)
+        if current_platform.is_rocm():
+            g = rocm_unquantized_gemm(
+                self, x[:, : self.hidden_size], self.router.weight, self.router.bias
+            )
+        else:
+            g = self.router(x)
         x = self.experts(hidden_states=x, router_logits=g)
 
         if self.is_sequence_parallel:

From d4e547bb7e06ab05c56a567b9a9f33b6c893dc66 Mon Sep 17 00:00:00 2001
From: Vadim Gimpelson <156319763+vadiklyutiy@users.noreply.github.com>
Date: Wed, 5 Nov 2025 03:58:23 +0400
Subject: [PATCH 134/976] Revert "[PERF] Decouple projections from GDN custom
 op" (#28080)

Signed-off-by: Vadim Gimpelson <vadim.gimpelson@gmail.com>
---
 vllm/config/compilation.py               |   2 +-
 vllm/model_executor/layers/layernorm.py  | 102 ---------------
 vllm/model_executor/models/qwen3_next.py | 153 ++++++++---------------
 3 files changed, 53 insertions(+), 204 deletions(-)

diff --git a/vllm/config/compilation.py b/vllm/config/compilation.py
index 650104b62d3ff..00e8cbfd7319a 100644
--- a/vllm/config/compilation.py
+++ b/vllm/config/compilation.py
@@ -462,7 +462,7 @@ class CompilationConfig:
         "vllm::short_conv",
         "vllm::linear_attention",
         "vllm::plamo2_mamba_mixer",
-        "vllm::gdn_attention_core",
+        "vllm::gdn_attention",
         "vllm::kda_attention",
         "vllm::sparse_attn_indexer",
     ]
diff --git a/vllm/model_executor/layers/layernorm.py b/vllm/model_executor/layers/layernorm.py
index 4e24d08f6dcab..65432c0fb2d4b 100644
--- a/vllm/model_executor/layers/layernorm.py
+++ b/vllm/model_executor/layers/layernorm.py
@@ -12,7 +12,6 @@ from vllm.model_executor.layers.batch_invariant import (
     rms_norm_batch_invariant,
     vllm_is_batch_invariant,
 )
-from vllm.model_executor.layers.fla.ops.layernorm_guard import rmsnorm_fn
 from vllm.platforms import current_platform
 from vllm.utils.torch_utils import direct_register_custom_op
 
@@ -370,107 +369,6 @@ class GemmaRMSNorm(CustomOp):
         return self.forward_native(x, residual)
 
 
-@CustomOp.register("rms_norm_gated")
-class RMSNormGated(CustomOp):
-    """RMS Normalization with optional gating.
-
-    This is a native PyTorch implementation that supports:
-    - Standard RMS normalization
-    - Group RMS normalization
-    - Optional gating with SiLU activation
-    """
-
-    def __init__(
-        self,
-        hidden_size: int,
-        eps: float = 1e-5,
-        group_size: int | None = None,
-        norm_before_gate: bool = False,
-        device: torch.device | None = None,
-        dtype: torch.dtype | None = None,
-    ):
-        """Initialize RMSNormGated.
-
-        Args:
-            hidden_size: Size of the hidden dimension
-            eps: Epsilon for numerical stability
-            group_size: If not None, do GroupNorm with each group
-                        having group_size elements.
-                        group_size=None is equivalent to group_size=hidden_size
-                        (i.e. there's only 1 group).
-            norm_before_gate: If True and z is provided: out = norm(x) * silu(z)
-                              If False and z is provided: out = norm(x * silu(z))
-            device: Device to create parameters on
-            dtype: Data type for parameters
-        """
-        factory_kwargs = {"device": device, "dtype": dtype}
-        super().__init__()
-        self.eps = eps
-        self.weight = nn.Parameter(torch.empty(hidden_size, **factory_kwargs))
-        self.register_parameter("bias", None)
-        self.group_size = group_size
-        self.norm_before_gate = norm_before_gate
-        self.reset_parameters()
-
-    def reset_parameters(self):
-        torch.nn.init.ones_(self.weight)
-
-    def forward_native(
-        self, x: torch.Tensor, z: torch.Tensor | None = None
-    ) -> torch.Tensor:
-        """
-        Native PyTorch implementation of RMS normalization with gating.
-
-        Args:
-            x: Input tensor
-            z: Optional gating tensor
-
-        Returns:
-            Normalized (and optionally gated) tensor
-
-        If z is not None:
-            - norm_before_gate=True: out = norm(x) * silu(z)
-            - norm_before_gate=False: out = norm(x * silu(z))
-        """
-        # Apply gating before normalization if needed
-        if z is not None and not self.norm_before_gate:
-            x = x * F.silu(z)
-
-        # RMS Normalization
-        if self.group_size is None:
-            # Standard RMS norm across the last dimension
-            variance = x.pow(2).mean(dim=-1, keepdim=True)
-            x_normed = x * torch.rsqrt(variance + self.eps)
-            out = x_normed * self.weight
-        else:
-            # Group RMS norm
-            from einops import rearrange
-
-            x_group = rearrange(x, "... (g d) -> ... g d", d=self.group_size)
-            variance = x_group.pow(2).mean(dim=-1, keepdim=True)
-            x_normed = x_group * torch.rsqrt(variance + self.eps)
-            out = rearrange(x_normed, "... g d -> ... (g d)") * self.weight
-
-        # Apply gating after normalization if needed
-        if z is not None and self.norm_before_gate:
-            out = out * F.silu(z)
-
-        return out
-
-    def forward_cuda(
-        self, x: torch.Tensor, z: torch.Tensor | None = None
-    ) -> torch.Tensor:
-        return rmsnorm_fn(
-            x,
-            self.weight,
-            self.bias,
-            z=z,
-            eps=self.eps,
-            group_size=self.group_size,
-            norm_before_gate=self.norm_before_gate,
-        )
-
-
 class LayerNorm(nn.Module):
     """
     Layer Normalization.
diff --git a/vllm/model_executor/models/qwen3_next.py b/vllm/model_executor/models/qwen3_next.py
index 7e305cca1c027..f452ba871582d 100644
--- a/vllm/model_executor/models/qwen3_next.py
+++ b/vllm/model_executor/models/qwen3_next.py
@@ -30,14 +30,12 @@ from vllm.distributed import (
 from vllm.forward_context import ForwardContext, get_forward_context
 from vllm.logger import init_logger
 from vllm.model_executor.layers.fla.ops import (
+    RMSNormGated,
     chunk_gated_delta_rule,
     fused_recurrent_gated_delta_rule,
 )
 from vllm.model_executor.layers.fused_moe import SharedFusedMoE
-from vllm.model_executor.layers.layernorm import (
-    GemmaRMSNorm as Qwen3NextRMSNorm,
-)
-from vllm.model_executor.layers.layernorm import RMSNormGated
+from vllm.model_executor.layers.layernorm import GemmaRMSNorm as Qwen3NextRMSNorm
 from vllm.model_executor.layers.linear import (
     ColumnParallelLinear,
     QKVParallelLinear,
@@ -438,66 +436,17 @@ class Qwen3NextGatedDeltaNet(nn.Module, MambaBase):
         hidden_states: torch.Tensor,
         output: torch.Tensor,
     ):
-        """
-        Forward pass with three parts:
-        1. Input projection
-        2. Core attention (custom op)
-        3. Output projection
-        """
-        num_tokens = hidden_states.size(0)
-
-        # ============================================================
-        # Part 1: Input Projection
-        # ============================================================
-        projected_states_qkvz, _ = self.in_proj_qkvz(hidden_states)
-        projected_states_ba, _ = self.in_proj_ba(hidden_states)
-        query, key, value, z, b, a = self.fix_query_key_value_ordering(
-            projected_states_qkvz, projected_states_ba
-        )
-        query, key, value = map(
-            lambda x: rearrange(x, "l p d -> l (p d)"), (query, key, value)
-        )
-        mixed_qkv = torch.cat((query, key, value), dim=-1)
-
-        # ============================================================
-        # Part 2: Core Attention (Custom Op)
-        # ============================================================
-        core_attn_out = torch.zeros(
-            (num_tokens, self.num_v_heads // self.tp_size, self.head_v_dim),
-            dtype=hidden_states.dtype,
-            device=hidden_states.device,
-        )
-
-        torch.ops.vllm.gdn_attention_core(
-            mixed_qkv,
-            b,
-            a,
-            core_attn_out,
+        return torch.ops.vllm.gdn_attention(
+            hidden_states,
+            output,
             self.prefix,
         )
 
-        # ============================================================
-        # Part 3: Output Projection
-        # ============================================================
-        z_shape_og = z.shape
-        # Reshape input data into 2D tensor
-        core_attn_out = core_attn_out.reshape(-1, core_attn_out.shape[-1])
-        z = z.reshape(-1, z.shape[-1])
-        core_attn_out = self.norm(core_attn_out, z)
-        core_attn_out = core_attn_out.reshape(z_shape_og)
-        core_attn_out = rearrange(core_attn_out, "... h d -> ... (h d)")
-        output[:num_tokens], _ = self.out_proj(core_attn_out)
-
-    def _forward_core(
+    def _forward(
         self,
-        mixed_qkv: torch.Tensor,
-        b: torch.Tensor,
-        a: torch.Tensor,
-        core_attn_out: torch.Tensor,
+        hidden_states: torch.Tensor,
+        output: torch.Tensor,
     ):
-        """
-        Core attention computation (called by custom op).
-        """
         forward_context = get_forward_context()
         attn_metadata: AttentionMetadata = forward_context.attn_metadata
 
@@ -522,11 +471,18 @@ class Qwen3NextGatedDeltaNet(nn.Module, MambaBase):
         num_actual_tokens = attn_metadata.num_actual_tokens
         num_accepted_tokens = attn_metadata.num_accepted_tokens
 
-        mixed_qkv = mixed_qkv[:num_actual_tokens]
-        b = b[:num_actual_tokens]
-        a = a[:num_actual_tokens]
+        # 1. Set up dimensions for reshapes later
+        projected_states_qkvz, _ = self.in_proj_qkvz(hidden_states[:num_actual_tokens])
+        projected_states_ba, _ = self.in_proj_ba(hidden_states[:num_actual_tokens])
+        query, key, value, z, b, a = self.fix_query_key_value_ordering(
+            projected_states_qkvz, projected_states_ba
+        )
+        query, key, value = map(
+            lambda x: rearrange(x, "l p d -> l (p d)"), (query, key, value)
+        )
+        mixed_qkv = torch.cat((query, key, value), dim=-1)
 
-        # 1. Convolution sequence transformation
+        # 2. Convolution sequence transformation
         conv_weights = self.conv1d.weight.view(
             self.conv1d.weight.size(0), self.conv1d.weight.size(2)
         )
@@ -542,7 +498,7 @@ class Qwen3NextGatedDeltaNet(nn.Module, MambaBase):
             mixed_qkv_spec = None
             mixed_qkv_non_spec = mixed_qkv
 
-        # 1.1: Process the multi-query part
+        # 2.1: process the mutli-query part
         if spec_sequence_masks is not None:
             mixed_qkv_spec = causal_conv1d_update(
                 mixed_qkv_spec,
@@ -559,7 +515,7 @@ class Qwen3NextGatedDeltaNet(nn.Module, MambaBase):
                 validate_data=False,
             )
 
-        # 1.2: Process the remaining part
+        # 2.2: process the remaining part
         if attn_metadata.num_prefills > 0:
             mixed_qkv_non_spec_T = mixed_qkv_non_spec.transpose(0, 1)
             # - "cache_indices" updates the conv_state cache in positions
@@ -617,9 +573,9 @@ class Qwen3NextGatedDeltaNet(nn.Module, MambaBase):
             g_non_spec = g
             beta_non_spec = beta
 
-        # 2. Recurrent attention
+        # 3. Recurrent attention
 
-        # 2.1: Process the multi-query part
+        # 3.1: process the mutlti-query part
         if spec_sequence_masks is not None:
             core_attn_out_spec, last_recurrent_state = fused_recurrent_gated_delta_rule(
                 q=query_spec,
@@ -637,7 +593,7 @@ class Qwen3NextGatedDeltaNet(nn.Module, MambaBase):
         else:
             core_attn_out_spec, last_recurrent_state = None, None
 
-        # 2.2: Process the remaining part
+        # 3.2: process the remaining part
         if attn_metadata.num_prefills > 0:
             initial_state = ssm_state[non_spec_state_indices_tensor].contiguous()
             initial_state[~has_initial_state, ...] = 0
@@ -680,20 +636,30 @@ class Qwen3NextGatedDeltaNet(nn.Module, MambaBase):
         else:
             core_attn_out_non_spec, last_recurrent_state = None, None
 
-        # 3. Merge core attention output
+        # Merge core attention output
         if spec_sequence_masks is not None and core_attn_out_non_spec is not None:
-            merged_out = torch.empty(
+            core_attn_out = torch.empty(
                 (1, num_actual_tokens, *core_attn_out_spec.shape[2:]),
                 dtype=core_attn_out_non_spec.dtype,
                 device=core_attn_out_non_spec.device,
             )
-            merged_out.index_copy_(1, spec_token_indx, core_attn_out_spec)
-            merged_out.index_copy_(1, non_spec_token_indx, core_attn_out_non_spec)
-            core_attn_out[:num_actual_tokens] = merged_out.squeeze(0)
+            core_attn_out.index_copy_(1, spec_token_indx, core_attn_out_spec)
+            core_attn_out.index_copy_(1, non_spec_token_indx, core_attn_out_non_spec)
+
         elif spec_sequence_masks is not None:
-            core_attn_out[:num_actual_tokens] = core_attn_out_spec.squeeze(0)
+            core_attn_out = core_attn_out_spec
         else:
-            core_attn_out[:num_actual_tokens] = core_attn_out_non_spec.squeeze(0)
+            core_attn_out = core_attn_out_non_spec
+
+        z_shape_og = z.shape
+        # reshape input data into 2D tensor
+        core_attn_out = core_attn_out.reshape(-1, core_attn_out.shape[-1])
+        z = z.reshape(-1, z.shape[-1])
+        core_attn_out = self.norm(core_attn_out, z)
+        core_attn_out = core_attn_out.reshape(z_shape_og)
+        core_attn_out = rearrange(core_attn_out, "... h d -> ... (h d)")
+
+        output[:num_actual_tokens], _ = self.out_proj(core_attn_out)
 
 
 class Qwen3NextAttention(nn.Module):
@@ -1304,44 +1270,29 @@ class Qwen3NextForCausalLM(
         return self.model.get_expert_mapping()
 
 
-def gdn_attention_core(
-    mixed_qkv: torch.Tensor,
-    b: torch.Tensor,
-    a: torch.Tensor,
-    core_attn_out: torch.Tensor,
+def gdn_attention(
+    hidden_states: torch.Tensor,
+    output: torch.Tensor,
     layer_name: str,
 ) -> None:
-    """
-    Custom op for the core attention computation.
-    Only handles the convolution + recurrent attention part.
-    Input/output projections are handled outside this op.
-    """
     forward_context: ForwardContext = get_forward_context()
     self = forward_context.no_compile_layers[layer_name]
-    self._forward_core(
-        mixed_qkv=mixed_qkv,
-        b=b,
-        a=a,
-        core_attn_out=core_attn_out,
-    )
+    self._forward(hidden_states=hidden_states, output=output)
 
 
-def gdn_attention_core_fake(
-    mixed_qkv: torch.Tensor,
-    b: torch.Tensor,
-    a: torch.Tensor,
-    core_attn_out: torch.Tensor,
+def gdn_attention_fake(
+    hidden_states: torch.Tensor,
+    output: torch.Tensor,
     layer_name: str,
 ) -> None:
-    """Fake implementation for torch.compile."""
     return
 
 
 direct_register_custom_op(
-    op_name="gdn_attention_core",
-    op_func=gdn_attention_core,
-    mutates_args=["core_attn_out"],
-    fake_impl=gdn_attention_core_fake,
+    op_name="gdn_attention",
+    op_func=gdn_attention,
+    mutates_args=["output"],
+    fake_impl=gdn_attention_fake,
 )
 
 
From 4ea62b77f5c009515f50d14cda24665101a5d910 Mon Sep 17 00:00:00 2001
From: tou <57480529+toulzx@users.noreply.github.com>
Date: Wed, 5 Nov 2025 09:25:09 +0800
Subject: [PATCH 135/976] [Qwen3-Next] MOE configs for A100-SXM4-80GB TP4 TP8
 (#27740)

---
 ...128,device_name=NVIDIA_A100-SXM4-80GB.json | 147 ++++++++++++++++++
 ...=64,device_name=NVIDIA_A100-SXM4-80GB.json | 147 ++++++++++++++++++
 2 files changed, 294 insertions(+)
 create mode 100644 vllm/model_executor/layers/fused_moe/configs/E=512,N=128,device_name=NVIDIA_A100-SXM4-80GB.json
 create mode 100644 vllm/model_executor/layers/fused_moe/configs/E=512,N=64,device_name=NVIDIA_A100-SXM4-80GB.json

diff --git a/vllm/model_executor/layers/fused_moe/configs/E=512,N=128,device_name=NVIDIA_A100-SXM4-80GB.json b/vllm/model_executor/layers/fused_moe/configs/E=512,N=128,device_name=NVIDIA_A100-SXM4-80GB.json
new file mode 100644
index 0000000000000..c7df36e8b1740
--- /dev/null
+++ b/vllm/model_executor/layers/fused_moe/configs/E=512,N=128,device_name=NVIDIA_A100-SXM4-80GB.json
@@ -0,0 +1,147 @@
+{
+    "triton_version": "3.4.0",
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}
diff --git a/vllm/model_executor/layers/fused_moe/configs/E=512,N=64,device_name=NVIDIA_A100-SXM4-80GB.json b/vllm/model_executor/layers/fused_moe/configs/E=512,N=64,device_name=NVIDIA_A100-SXM4-80GB.json
new file mode 100644
index 0000000000000..6825378d37989
--- /dev/null
+++ b/vllm/model_executor/layers/fused_moe/configs/E=512,N=64,device_name=NVIDIA_A100-SXM4-80GB.json
@@ -0,0 +1,147 @@
+{
+    "triton_version": "3.4.0",
+    "1": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    }
+}

From 18b39828d90413d05d770dfd2e2f48304f4ca0eb Mon Sep 17 00:00:00 2001
From: Kunshang Ji <kunshang.ji@intel.com>
Date: Wed, 5 Nov 2025 10:17:23 +0800
Subject: [PATCH 136/976] [XPU] Add gpt-oss model support for Intel GPU
 (#27786)

Signed-off-by: Kunshang Ji <kunshang.ji@intel.com>
---
 vllm/attention/utils/fa_utils.py              |  7 ++
 .../layers/quantization/mxfp4.py              | 94 ++++++++++++++++++-
 vllm/model_executor/models/gpt_oss.py         |  3 -
 vllm/v1/attention/backends/flash_attn.py      |  3 +-
 4 files changed, 101 insertions(+), 6 deletions(-)

diff --git a/vllm/attention/utils/fa_utils.py b/vllm/attention/utils/fa_utils.py
index b92b822c1d19f..adb9b08a65735 100644
--- a/vllm/attention/utils/fa_utils.py
+++ b/vllm/attention/utils/fa_utils.py
@@ -80,6 +80,13 @@ def flash_attn_supports_fp8() -> bool:
     )
 
 
+def flash_attn_supports_sinks() -> bool:
+    if current_platform.is_xpu():
+        return True
+    else:
+        return get_flash_attn_version() == 3
+
+
 def flash_attn_supports_mla():
     from vllm.platforms import current_platform
 
diff --git a/vllm/model_executor/layers/quantization/mxfp4.py b/vllm/model_executor/layers/quantization/mxfp4.py
index 7b1600a03d55b..fd91c78c7cc4f 100644
--- a/vllm/model_executor/layers/quantization/mxfp4.py
+++ b/vllm/model_executor/layers/quantization/mxfp4.py
@@ -142,6 +142,9 @@ def get_mxfp4_backend(with_lora_support: bool) -> Mxfp4Backend:
         else:
             logger.info_once("Using Triton backend")
             return Mxfp4Backend.TRITON
+    elif current_platform.is_xpu():
+        logger.info_once("Using ipex marlin backend on XPU")
+        return Mxfp4Backend.MARLIN
     elif current_platform.is_rocm() and has_triton_kernels():
         logger.info_once("Using Triton backend")
         return Mxfp4Backend.TRITON
@@ -188,7 +191,10 @@ class Mxfp4Config(QuantizationConfig):
                 return UnquantizedLinearMethod()
             raise NotImplementedError("Mxfp4 linear layer is not implemented")
         elif isinstance(layer, FusedMoE):
-            return Mxfp4MoEMethod(layer.moe_config)
+            if current_platform.is_xpu():
+                return IpexMxfp4MoEMethod(layer.moe_config)
+            else:
+                return Mxfp4MoEMethod(layer.moe_config)
         elif isinstance(layer, Attention):
             raise NotImplementedError("Mxfp4 attention layer is not implemented")
         return None
@@ -245,7 +251,10 @@ class Mxfp4MoEMethod(FusedMoEMethodBase):
             intermediate_size_per_partition_after_pad = round_up(
                 intermediate_size_per_partition, 128
             )
-            hidden_size = round_up(hidden_size, 256)
+            if current_platform.is_xpu():
+                hidden_size = round_up(hidden_size, 128)
+            else:
+                hidden_size = round_up(hidden_size, 256)
 
             layer.params_dtype = params_dtype
             layer.num_experts = num_experts
@@ -1071,3 +1080,84 @@ class Mxfp4MoEMethod(FusedMoEMethodBase):
             )
         else:
             raise ValueError(f"Unsupported backend: {self.mxfp4_backend}")
+
+
+class IpexMxfp4MoEMethod(Mxfp4MoEMethod):
+    def __init__(self, moe_config: FusedMoEConfig):
+        super().__init__(moe_config)
+        self.moe_config = moe_config
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        num_experts: int,
+        hidden_size: int,
+        intermediate_size_per_partition: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        super().create_weights(
+            layer,
+            num_experts,
+            hidden_size,
+            intermediate_size_per_partition,
+            params_dtype,
+            **extra_weight_attrs,
+        )
+        self.original_hidden_size = hidden_size
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        import intel_extension_for_pytorch as ipex
+
+        layer.w13_weight.data = layer.w13_weight.data.view(torch.int32)
+        layer.w2_weight.data = layer.w2_weight.data.view(torch.int32)
+        layer.ipex_fusion = ipex.llm.modules.GatedMLPMOE(
+            layer.w13_weight,
+            layer.w2_weight,
+            w1_scale_inv=layer.w13_weight_scale,
+            w2_scale_inv=layer.w2_weight_scale,
+            w13_bias=layer.w13_bias,
+            w2_bias=layer.w2_bias,
+            is_mxfp4=True,
+        )
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        renormalize: bool,
+        use_grouped_topk: bool = False,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        assert activation == "swigluoai", (
+            "Only swiglu_oai activation is supported for IPEX MXFP4 MoE"
+        )  # noqa:
+        hidden_size_pad = round_up(self.original_hidden_size, 128)
+        x_pad = torch.nn.functional.pad(x, (0, hidden_size_pad - x.size(-1)))
+        hidden_states = layer.ipex_fusion(
+            x_pad,
+            use_grouped_topk,
+            top_k,
+            router_logits,
+            renormalize,
+            topk_group,
+            num_expert_group,
+            activation="swiglu_oai",
+        )
+        hidden_states = hidden_states[..., : self.original_hidden_size].contiguous()
+        return hidden_states
diff --git a/vllm/model_executor/models/gpt_oss.py b/vllm/model_executor/models/gpt_oss.py
index 863e5654094cd..04038ae74882d 100644
--- a/vllm/model_executor/models/gpt_oss.py
+++ b/vllm/model_executor/models/gpt_oss.py
@@ -337,9 +337,6 @@ class GptOssModel(nn.Module):
             if is_pp_missing_parameter(name, self):
                 continue
 
-            # FIXME(woosuk): Remove this after testing.
-            weight = weight.cuda()
-
             if ".w13_weight_scale" in name:
                 # Handle MLP gate and up projection weights scale
                 if use_ep:
diff --git a/vllm/v1/attention/backends/flash_attn.py b/vllm/v1/attention/backends/flash_attn.py
index 07f9ef173b4e3..a41d318c3c2ce 100755
--- a/vllm/v1/attention/backends/flash_attn.py
+++ b/vllm/v1/attention/backends/flash_attn.py
@@ -27,6 +27,7 @@ from vllm.attention.utils.fa_utils import (
 
 if is_flash_attn_varlen_func_available():
     from vllm.attention.utils.fa_utils import (
+        flash_attn_supports_sinks,
         flash_attn_varlen_func,
         get_scheduler_metadata,
         reshape_and_cache_flash,
@@ -497,7 +498,7 @@ class FlashAttentionImpl(AttentionImpl):
 
         self.sinks = sinks
         if self.sinks is not None:
-            assert self.vllm_flash_attn_version == 3, (
+            assert flash_attn_supports_sinks(), (
                 "Sinks are only supported in FlashAttention 3"
             )
             assert self.sinks.shape[0] == num_heads, (

From 878fd5a16f349d9518f4a0121d28b3cd0d48b869 Mon Sep 17 00:00:00 2001
From: Zhewen Li <zhewenli@meta.com>
Date: Tue, 4 Nov 2025 19:15:59 -0800
Subject: [PATCH 137/976] [CI/Build] Enable some fixed tests in AMD CI (#28078)

Signed-off-by: zhewenli <zhewenli@meta.com>
---
 .buildkite/test-amd.yaml | 20 ++++++++++----------
 1 file changed, 10 insertions(+), 10 deletions(-)

diff --git a/.buildkite/test-amd.yaml b/.buildkite/test-amd.yaml
index 5abf6122a5c39..d61c3136f3d7c 100644
--- a/.buildkite/test-amd.yaml
+++ b/.buildkite/test-amd.yaml
@@ -48,8 +48,8 @@ steps:
   commands:
   - bash standalone_tests/pytorch_nightly_dependency.sh
 
-- label: Async Engine, Inputs, Utils, Worker Test # 36min
-  timeout_in_minutes: 50
+- label: Async Engine, Inputs, Utils, Worker Test # 10min
+  timeout_in_minutes: 15
   mirror_hardwares: [amdexperimental, amdproduction]
   agent_pool: mi325_1
   # grade: Blocking
@@ -616,9 +616,9 @@ steps:
   - uv pip install --system torchao==0.13.0
   - VLLM_TEST_FORCE_LOAD_FORMAT=auto pytest -v -s quantization/ --ignore quantization/test_blackwell_moe.py
 
-- label: LM Eval Small Models # 53min
-  timeout_in_minutes: 75
-  mirror_hardwares: [amdexperimental]
+- label: LM Eval Small Models # 15min
+  timeout_in_minutes: 20
+  mirror_hardwares: [amdexperimental, amdproduction]
   agent_pool: mi325_1
   # grade: Blocking
   source_file_dependencies:
@@ -627,8 +627,8 @@ steps:
   commands:
   - pytest -s -v evals/gsm8k/test_gsm8k_correctness.py --config-list-file=configs/models-small.txt --tp-size=1
 
-- label: OpenAI API correctness # 22min
-  timeout_in_minutes: 30
+- label: OpenAI API correctness # 10min
+  timeout_in_minutes: 15
   mirror_hardwares: [amdexperimental, amdproduction]
   agent_pool: mi325_1
   # grade: Blocking
@@ -859,10 +859,10 @@ steps:
     - pytest -v -s models/multimodal -m core_model --ignore models/multimodal/generation/test_whisper.py --ignore models/multimodal/processing
     - cd .. && VLLM_WORKER_MULTIPROC_METHOD=spawn pytest -v -s tests/models/multimodal/generation/test_whisper.py -m core_model  # Otherwise, mp_method="spawn" doesn't work
 
-- label: Multi-Modal Accuracy Eval (Small Models) # 50min
-  mirror_hardwares: [amdexperimental]
+- label: Multi-Modal Accuracy Eval (Small Models) # 10min
+  mirror_hardwares: [amdexperimental, amdproduction]
   agent_pool: mi325_1
-  timeout_in_minutes: 70
+  timeout_in_minutes: 15
   working_dir: "/vllm-workspace/.buildkite/lm-eval-harness"
   source_file_dependencies:
   - vllm/multimodal/

From 428bc7bf1c54674956dd24f00db43dbcf3655c4d Mon Sep 17 00:00:00 2001
From: wangxiyuan <wangxiyuan1007@gmail.com>
Date: Wed, 5 Nov 2025 12:51:16 +0800
Subject: [PATCH 138/976] [V0 deprecation] Remove VLLM_USE_V1 usage in most
 modules (#27955)

Signed-off-by: wangxiyuan <wangxiyuan1007@gmail.com>
---
 docs/usage/v1_guide.md                        |   2 -
 tests/conftest.py                             |  20 ---
 tests/v1/engine/test_async_llm.py             |   7 +-
 .../llm/test_struct_output_generate.py        |   3 -
 tests/v1/sample/test_logprobs.py              | 115 +++++++++---------
 .../layers/chunked_local_attention.py         |  18 +--
 vllm/attention/layers/cross_attention.py      |  14 +--
 .../layers/encoder_only_attention.py          |  15 +--
 vllm/attention/selector.py                    |   8 +-
 .../kv_transfer/kv_connector/factory.py       |   7 --
 .../kv_transfer/kv_transfer_state.py          |  14 +--
 vllm/entrypoints/cli/serve.py                 |  16 +--
 vllm/entrypoints/openai/api_server.py         |   8 +-
 vllm/entrypoints/openai/protocol.py           |  57 +++------
 .../model_executor/model_loader/tensorizer.py |   2 -
 vllm/model_executor/models/config.py          |   8 --
 vllm/model_executor/models/gemma3_mm.py       |  10 +-
 vllm/model_executor/models/utils.py           |   8 +-
 vllm/multimodal/profiling.py                  |  13 --
 19 files changed, 107 insertions(+), 238 deletions(-)

diff --git a/docs/usage/v1_guide.md b/docs/usage/v1_guide.md
index c47547cb0ea7a..8d8a9e0f50805 100644
--- a/docs/usage/v1_guide.md
+++ b/docs/usage/v1_guide.md
@@ -6,8 +6,6 @@
 
 V1 is now enabled by default for all supported use cases, and we will gradually enable it for every use case we plan to support. Please share any feedback on [GitHub](https://github.com/vllm-project/vllm) or in the [vLLM Slack](https://inviter.co/vllm-slack).
 
-To disable V1, please set the environment variable as: `VLLM_USE_V1=0`, and send us a GitHub issue sharing the reason!
-
 ## Why vLLM V1?
 
 vLLM V0 successfully supported a wide range of models and hardware, but as new features were developed independently, the system grew increasingly complex. This complexity made it harder to integrate new capabilities and introduced technical debt, revealing the need for a more streamlined and unified design.
diff --git a/tests/conftest.py b/tests/conftest.py
index 41fda04a6c92d..5e127e4e939e6 100644
--- a/tests/conftest.py
+++ b/tests/conftest.py
@@ -154,26 +154,6 @@ AUDIO_ASSETS = AudioTestAssets()
 """Singleton instance of {class}`AudioTestAssets`."""
 
 
-@pytest.fixture(scope="function", autouse=True)
-def cleanup_VLLM_USE_V1(monkeypatch):
-    """
-    The V1 oracle sets "VLLM_USE_V1" during loading. This means
-    that each invocation of a test change the env variable.
-
-    If we touch "VLLM_USE_V1" with monkeypatch, then any changes
-    made during the test run by vLLM will be cleaned up.
-
-    This fixture is used by every test.
-    """
-
-    # If VLLM_USE_V1 is not set, set then delete. This will
-    # cause monkeypatch to clean up VLLM_USE_V1 upon exit
-    # if VLLM modifies the value of envs.VLLM_USE_V1.
-    if "VLLM_USE_V1" not in os.environ:
-        monkeypatch.setenv("VLLM_USE_V1", "")
-        monkeypatch.delenv("VLLM_USE_V1")
-
-
 @pytest.fixture(autouse=True)
 def init_test_http_connection():
     # pytest_asyncio may use a different event loop per test
diff --git a/tests/v1/engine/test_async_llm.py b/tests/v1/engine/test_async_llm.py
index c9605ea1b07c0..25af55baa91f4 100644
--- a/tests/v1/engine/test_async_llm.py
+++ b/tests/v1/engine/test_async_llm.py
@@ -424,15 +424,12 @@ async def test_customize_loggers(monkeypatch):
 
 
 @pytest.mark.asyncio
-async def test_customize_aggregated_loggers(monkeypatch):
+async def test_customize_aggregated_loggers():
     """Test that we can customize the aggregated loggers.
     If a customized logger is provided at the init, it should
     be added to the default loggers.
     """
-
-    with monkeypatch.context() as m, ExitStack() as after:
-        m.setenv("VLLM_USE_V1", "1")
-
+    with ExitStack() as after:
         with set_default_torch_num_threads(1):
             engine = AsyncLLM.from_engine_args(
                 TEXT_ENGINE_ARGS,
diff --git a/tests/v1/entrypoints/llm/test_struct_output_generate.py b/tests/v1/entrypoints/llm/test_struct_output_generate.py
index 014e6eca2e02f..676423f2ca910 100644
--- a/tests/v1/entrypoints/llm/test_struct_output_generate.py
+++ b/tests/v1/entrypoints/llm/test_struct_output_generate.py
@@ -868,11 +868,8 @@ def test_structured_output_batched_with_non_structured_outputs_requests(
 
 @pytest.mark.parametrize("guided_decoding_backend", ["xgrammar"])
 def test_structured_output_with_structural_tag(
-    monkeypatch: pytest.MonkeyPatch,
     guided_decoding_backend: str,
 ):
-    monkeypatch.setenv("VLLM_USE_V1", "1")
-
     llm = LLM(
         model="Qwen/Qwen2.5-1.5B-Instruct",
         guided_decoding_backend=guided_decoding_backend,
diff --git a/tests/v1/sample/test_logprobs.py b/tests/v1/sample/test_logprobs.py
index 6d4a1ecf78c82..354fff22dc2ac 100644
--- a/tests/v1/sample/test_logprobs.py
+++ b/tests/v1/sample/test_logprobs.py
@@ -530,7 +530,6 @@ def test_logprobs_mode(logprobs_mode: LogprobsMode):
 def test_spec_decode_logprobs(
     logprobs_mode: LogprobsMode,
     model_setup: tuple[str, str, str],
-    monkeypatch: pytest.MonkeyPatch,
 ):
     """Spec decode logprobs should match those of the base model.
 
@@ -541,64 +540,62 @@ def test_spec_decode_logprobs(
     """
     from vllm import LLM
 
-    with monkeypatch.context() as m:
-        m.setenv("VLLM_USE_V1", "1")
-        prompt = "Hello world"
-        sampling_params = SamplingParams(
-            temperature=0, logprobs=3, max_tokens=10, ignore_eos=False
-        )
-        method, model_name, spec_model_name = model_setup
-        max_model_len = 256
+    prompt = "Hello world"
+    sampling_params = SamplingParams(
+        temperature=0, logprobs=3, max_tokens=10, ignore_eos=False
+    )
+    method, model_name, spec_model_name = model_setup
+    max_model_len = 256
 
-        # Run base LLM.
-        ref_llm = LLM(
-            model=model_name,
-            max_logprobs=5,
-            max_model_len=max_model_len,
-            seed=42,
-            logprobs_mode=logprobs_mode,
-            gpu_memory_utilization=0.4,
-        )
-        ref_results = ref_llm.generate([prompt], sampling_params)
-        # Collect logprobs outputs from reference LLM.
-        ref_logprobs = []
-        for output in ref_results[0].outputs:
-            for logprobs in output.logprobs:
-                for token_id in logprobs:
-                    ref_logprobs.append(logprobs[token_id])
-        del ref_llm
-        torch.cuda.empty_cache()
-        cleanup_dist_env_and_memory()
+    # Run base LLM.
+    ref_llm = LLM(
+        model=model_name,
+        max_logprobs=5,
+        max_model_len=max_model_len,
+        seed=42,
+        logprobs_mode=logprobs_mode,
+        gpu_memory_utilization=0.4,
+    )
+    ref_results = ref_llm.generate([prompt], sampling_params)
+    # Collect logprobs outputs from reference LLM.
+    ref_logprobs = []
+    for output in ref_results[0].outputs:
+        for logprobs in output.logprobs:
+            for token_id in logprobs:
+                ref_logprobs.append(logprobs[token_id])
+    del ref_llm
+    torch.cuda.empty_cache()
+    cleanup_dist_env_and_memory()
 
-        # Run spec decode LLM.
-        spec_llm = LLM(
-            model_name,
-            speculative_config={
-                "method": method,
-                "model": spec_model_name,
-                "num_speculative_tokens": 3,
-                "max_model_len": max_model_len,
-            },
-            max_logprobs=5,
-            max_model_len=max_model_len,
-            seed=42,
-            logprobs_mode=logprobs_mode,
-            gpu_memory_utilization=0.4,
-        )
-        spec_results = spec_llm.generate([prompt], sampling_params)
-        # Collect logprobs outputs from spec decode LLM.
-        spec_logprobs = []
-        for output in spec_results[0].outputs:
-            for logprobs in output.logprobs:
-                for token_id in logprobs:
-                    spec_logprobs.append(logprobs[token_id])
-        del spec_llm
-        torch.cuda.empty_cache()
-        cleanup_dist_env_and_memory()
+    # Run spec decode LLM.
+    spec_llm = LLM(
+        model_name,
+        speculative_config={
+            "method": method,
+            "model": spec_model_name,
+            "num_speculative_tokens": 3,
+            "max_model_len": max_model_len,
+        },
+        max_logprobs=5,
+        max_model_len=max_model_len,
+        seed=42,
+        logprobs_mode=logprobs_mode,
+        gpu_memory_utilization=0.4,
+    )
+    spec_results = spec_llm.generate([prompt], sampling_params)
+    # Collect logprobs outputs from spec decode LLM.
+    spec_logprobs = []
+    for output in spec_results[0].outputs:
+        for logprobs in output.logprobs:
+            for token_id in logprobs:
+                spec_logprobs.append(logprobs[token_id])
+    del spec_llm
+    torch.cuda.empty_cache()
+    cleanup_dist_env_and_memory()
 
-        # Per-token logprobs are expected to be the same.
-        assert len(ref_logprobs) == len(spec_logprobs)
-        for ref_logprob, spec_logprob in zip(ref_logprobs, spec_logprobs):
-            assert math.isclose(ref_logprob.logprob, spec_logprob.logprob, abs_tol=1e-3)
-            assert ref_logprob.rank == spec_logprob.rank
-            assert ref_logprob.decoded_token == spec_logprob.decoded_token
+    # Per-token logprobs are expected to be the same.
+    assert len(ref_logprobs) == len(spec_logprobs)
+    for ref_logprob, spec_logprob in zip(ref_logprobs, spec_logprobs):
+        assert math.isclose(ref_logprob.logprob, spec_logprob.logprob, abs_tol=1e-3)
+        assert ref_logprob.rank == spec_logprob.rank
+        assert ref_logprob.decoded_token == spec_logprob.decoded_token
diff --git a/vllm/attention/layers/chunked_local_attention.py b/vllm/attention/layers/chunked_local_attention.py
index 18422404d08f9..5532ce80d7f15 100644
--- a/vllm/attention/layers/chunked_local_attention.py
+++ b/vllm/attention/layers/chunked_local_attention.py
@@ -5,7 +5,6 @@ from typing import ClassVar
 
 import torch
 
-from vllm import envs
 from vllm.attention.backends.abstract import AttentionBackend, AttentionMetadata
 from vllm.attention.selector import get_attn_backend
 from vllm.config import CacheConfig
@@ -78,17 +77,12 @@ class ChunkedLocalAttention(Attention):
             kv_cache_dtype = "auto"
             block_size = 16
 
-        if envs.VLLM_USE_V1:
-            underlying_attn_backend = get_attn_backend(
-                head_size, dtype, kv_cache_dtype, block_size
-            )
-
-            attn_backend = create_chunked_local_attention_backend(
-                underlying_attn_backend, attention_chunk_size, block_size
-            )
-        else:
-            # in v0 the local attention is handled inside the backends
-            attn_backend = None
+        underlying_attn_backend = get_attn_backend(
+            head_size, dtype, kv_cache_dtype, block_size
+        )
+        attn_backend = create_chunked_local_attention_backend(
+            underlying_attn_backend, attention_chunk_size, block_size
+        )
 
         super().__init__(
             num_heads=num_heads,
diff --git a/vllm/attention/layers/cross_attention.py b/vllm/attention/layers/cross_attention.py
index 4b89c28f0ca6a..5b44c7e3e7ec8 100644
--- a/vllm/attention/layers/cross_attention.py
+++ b/vllm/attention/layers/cross_attention.py
@@ -6,7 +6,6 @@ from copy import copy
 import numpy as np
 import torch
 
-from vllm import envs
 from vllm.attention.backends.abstract import (
     AttentionBackend,
     AttentionMetadata,
@@ -150,15 +149,10 @@ class CrossAttention(Attention):
             kv_cache_dtype = "auto"
             block_size = 16
 
-        if envs.VLLM_USE_V1:
-            underlying_attn_backend = get_attn_backend(
-                head_size, dtype, kv_cache_dtype, block_size
-            )
-
-            attn_backend = create_cross_attention_backend(underlying_attn_backend)
-        else:
-            # in v0 cross attention is handled inside the backends
-            attn_backend = None
+        underlying_attn_backend = get_attn_backend(
+            head_size, dtype, kv_cache_dtype, block_size
+        )
+        attn_backend = create_cross_attention_backend(underlying_attn_backend)
 
         if attn_type is not None:
             assert attn_type == AttentionType.ENCODER_DECODER, (
diff --git a/vllm/attention/layers/encoder_only_attention.py b/vllm/attention/layers/encoder_only_attention.py
index 8d2a046757feb..4929bbf5efc73 100644
--- a/vllm/attention/layers/encoder_only_attention.py
+++ b/vllm/attention/layers/encoder_only_attention.py
@@ -5,7 +5,6 @@ from copy import copy
 
 import torch
 
-from vllm import envs
 from vllm.attention.backends.abstract import (
     AttentionBackend,
     AttentionMetadata,
@@ -74,17 +73,11 @@ class EncoderOnlyAttention(Attention):
             kv_cache_dtype = "auto"
             block_size = 16
 
-        if envs.VLLM_USE_V1:
-            underlying_attn_backend = get_attn_backend(
-                head_size, dtype, kv_cache_dtype, block_size
-            )
+        underlying_attn_backend = get_attn_backend(
+            head_size, dtype, kv_cache_dtype, block_size
+        )
 
-            attn_backend = create_encoder_only_attention_backend(
-                underlying_attn_backend
-            )
-        else:
-            # in v0 encoder only attention is handled inside the backends
-            attn_backend = None
+        attn_backend = create_encoder_only_attention_backend(underlying_attn_backend)
 
         if attn_type is not None:
             assert attn_type == AttentionType.ENCODER_ONLY, (
diff --git a/vllm/attention/selector.py b/vllm/attention/selector.py
index 9890d8d80cba2..9c26a8d40edaf 100644
--- a/vllm/attention/selector.py
+++ b/vllm/attention/selector.py
@@ -134,16 +134,11 @@ def get_attn_backend(
     use_sparse: bool = False,
 ) -> type[AttentionBackend]:
     """Selects which attention backend to use and lazily imports it."""
-    # Accessing envs.* behind an @lru_cache decorator can cause the wrong
-    # value to be returned from the cache if the value changes between calls.
-    # To avoid this, we read envs.VLLM_USE_V1 here and pass it explicitly to the
-    # private function.
     return _cached_get_attn_backend(
         head_size=head_size,
         dtype=dtype,
         kv_cache_dtype=kv_cache_dtype,
         block_size=block_size,
-        use_v1=envs.VLLM_USE_V1,
         use_mla=use_mla,
         has_sink=has_sink,
         use_sparse=use_sparse,
@@ -156,7 +151,6 @@ def _cached_get_attn_backend(
     dtype: torch.dtype,
     kv_cache_dtype: str | None,
     block_size: int,
-    use_v1: bool = False,
     use_mla: bool = False,
     has_sink: bool = False,
     use_sparse: bool = False,
@@ -199,7 +193,7 @@ def _cached_get_attn_backend(
         dtype,
         kv_cache_dtype,
         block_size,
-        use_v1,
+        True,
         use_mla,
         has_sink,
         use_sparse,
diff --git a/vllm/distributed/kv_transfer/kv_connector/factory.py b/vllm/distributed/kv_transfer/kv_connector/factory.py
index 8d14200c52407..494a4d3c33aa4 100644
--- a/vllm/distributed/kv_transfer/kv_connector/factory.py
+++ b/vllm/distributed/kv_transfer/kv_connector/factory.py
@@ -5,7 +5,6 @@ import importlib
 from collections.abc import Callable
 from typing import TYPE_CHECKING, Optional, cast
 
-import vllm.envs as envs
 from vllm.distributed.kv_transfer.kv_connector.base import (
     KVConnectorBase,
     KVConnectorBaseType,
@@ -47,12 +46,6 @@ class KVConnectorFactory:
         role: KVConnectorRole,
         kv_cache_config: Optional["KVCacheConfig"] = None,
     ) -> KVConnectorBase:
-        if not envs.VLLM_USE_V1:
-            raise ValueError(
-                "Attempting to initialize a V1 Connector, "
-                f"but found {envs.VLLM_USE_V1=}"
-            )
-
         kv_transfer_config = config.kv_transfer_config
         if kv_transfer_config is None:
             raise ValueError("kv_transfer_config must be set to create a connector")
diff --git a/vllm/distributed/kv_transfer/kv_transfer_state.py b/vllm/distributed/kv_transfer/kv_transfer_state.py
index 7501f0b373d46..54b46d98870a5 100644
--- a/vllm/distributed/kv_transfer/kv_transfer_state.py
+++ b/vllm/distributed/kv_transfer/kv_transfer_state.py
@@ -2,7 +2,6 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 from typing import TYPE_CHECKING, Optional
 
-from vllm import envs
 from vllm.distributed.kv_transfer.kv_connector.base import KVConnectorBaseType
 from vllm.distributed.kv_transfer.kv_connector.factory import KVConnectorFactory
 from vllm.distributed.kv_transfer.kv_connector.v1 import (
@@ -65,14 +64,11 @@ def ensure_kv_transfer_initialized(
         vllm_config.kv_transfer_config.is_kv_transfer_instance
         and _KV_CONNECTOR_AGENT is None
     ):
-        if envs.VLLM_USE_V1:
-            _KV_CONNECTOR_AGENT = KVConnectorFactory.create_connector(
-                config=vllm_config,
-                role=KVConnectorRole.WORKER,
-                kv_cache_config=kv_cache_config,
-            )
-        else:
-            raise ValueError("V0 is no longer supported")
+        _KV_CONNECTOR_AGENT = KVConnectorFactory.create_connector(
+            config=vllm_config,
+            role=KVConnectorRole.WORKER,
+            kv_cache_config=kv_cache_config,
+        )
 
 
 def ensure_kv_transfer_shutdown() -> None:
diff --git a/vllm/entrypoints/cli/serve.py b/vllm/entrypoints/cli/serve.py
index dc6f3df5a68ec..2678658dd1262 100644
--- a/vllm/entrypoints/cli/serve.py
+++ b/vllm/entrypoints/cli/serve.py
@@ -88,9 +88,6 @@ def run_headless(args: argparse.Namespace):
         usage_context=usage_context, headless=True
     )
 
-    if not envs.VLLM_USE_V1:
-        raise ValueError("Headless mode is only supported for V1")
-
     if engine_args.data_parallel_hybrid_lb:
         raise ValueError("data_parallel_hybrid_lb is not applicable in headless mode")
 
@@ -156,15 +153,10 @@ def run_multi_api_server(args: argparse.Namespace):
     usage_context = UsageContext.OPENAI_API_SERVER
     vllm_config = engine_args.create_engine_config(usage_context=usage_context)
 
-    if num_api_servers > 1:
-        if not envs.VLLM_USE_V1:
-            raise ValueError("api_server_count > 1 is only supported for V1")
-
-        if envs.VLLM_ALLOW_RUNTIME_LORA_UPDATING:
-            raise ValueError(
-                "VLLM_ALLOW_RUNTIME_LORA_UPDATING cannot be used "
-                "with api_server_count > 1"
-            )
+    if num_api_servers > 1 and envs.VLLM_ALLOW_RUNTIME_LORA_UPDATING:
+        raise ValueError(
+            "VLLM_ALLOW_RUNTIME_LORA_UPDATING cannot be used with api_server_count > 1"
+        )
 
     executor_class = Executor.get_class(vllm_config)
     log_stats = not engine_args.disable_log_stats
diff --git a/vllm/entrypoints/openai/api_server.py b/vllm/entrypoints/openai/api_server.py
index e184f22f36307..e77a6ad86277b 100644
--- a/vllm/entrypoints/openai/api_server.py
+++ b/vllm/entrypoints/openai/api_server.py
@@ -220,14 +220,8 @@ async def build_async_engine_client_from_engine_args(
     # Create the EngineConfig (determines if we can use V1).
     vllm_config = engine_args.create_engine_config(usage_context=usage_context)
 
-    # V1 AsyncLLM.
-    assert envs.VLLM_USE_V1
-
     if disable_frontend_multiprocessing:
-        logger.warning(
-            "V1 is enabled, but got --disable-frontend-multiprocessing. "
-            "To disable frontend multiprocessing, set VLLM_USE_V1=0."
-        )
+        logger.warning("V1 is enabled, but got --disable-frontend-multiprocessing.")
 
     from vllm.v1.engine.async_llm import AsyncLLM
 
diff --git a/vllm/entrypoints/openai/protocol.py b/vllm/entrypoints/openai/protocol.py
index d0061f9d5b40f..33256de6dd47b 100644
--- a/vllm/entrypoints/openai/protocol.py
+++ b/vllm/entrypoints/openai/protocol.py
@@ -79,7 +79,6 @@ from pydantic import (
     model_validator,
 )
 
-from vllm import envs
 from vllm.entrypoints.chat_utils import ChatCompletionMessageParam, make_tool_call_id
 from vllm.entrypoints.score_utils import ScoreContentPartParam, ScoreMultiModalParam
 from vllm.logger import init_logger
@@ -475,16 +474,12 @@ class ResponsesRequest(OpenAIBaseModel):
 
     @model_validator(mode="before")
     def check_cache_salt_support(cls, data):
-        if data.get("cache_salt") is not None:
-            if not envs.VLLM_USE_V1:
-                raise ValueError(
-                    "Parameter 'cache_salt' is not supported with "
-                    "this instance of vLLM, which uses engine V0."
-                )
-            if not isinstance(data["cache_salt"], str) or not data["cache_salt"]:
-                raise ValueError(
-                    "Parameter 'cache_salt' must be a non-empty string if provided."
-                )
+        if data.get("cache_salt") is not None and (
+            not isinstance(data["cache_salt"], str) or not data["cache_salt"]
+        ):
+            raise ValueError(
+                "Parameter 'cache_salt' must be a non-empty string if provided."
+            )
         return data
 
     @model_validator(mode="before")
@@ -946,10 +941,6 @@ class ChatCompletionRequest(OpenAIBaseModel):
 
             if prompt_logprobs < 0 and prompt_logprobs != -1:
                 raise ValueError("`prompt_logprobs` must be a positive value or -1.")
-            if prompt_logprobs == -1 and not envs.VLLM_USE_V1:
-                raise ValueError(
-                    "`prompt_logprobs=-1` is only supported with vLLM engine V1."
-                )
         if (top_logprobs := data.get("top_logprobs")) is not None:
             if top_logprobs < 0 and top_logprobs != -1:
                 raise ValueError("`top_logprobs` must be a positive value or -1.")
@@ -1083,16 +1074,12 @@ class ChatCompletionRequest(OpenAIBaseModel):
     @model_validator(mode="before")
     @classmethod
     def check_cache_salt_support(cls, data):
-        if data.get("cache_salt") is not None:
-            if not envs.VLLM_USE_V1:
-                raise ValueError(
-                    "Parameter 'cache_salt' is not supported with "
-                    "this instance of vLLM, which uses engine V0."
-                )
-            if not isinstance(data["cache_salt"], str) or not data["cache_salt"]:
-                raise ValueError(
-                    "Parameter 'cache_salt' must be a non-empty string if provided."
-                )
+        if data.get("cache_salt") is not None and (
+            not isinstance(data["cache_salt"], str) or not data["cache_salt"]
+        ):
+            raise ValueError(
+                "Parameter 'cache_salt' must be a non-empty string if provided."
+            )
         return data
 
 
@@ -1449,10 +1436,6 @@ class CompletionRequest(OpenAIBaseModel):
 
             if prompt_logprobs < 0 and prompt_logprobs != -1:
                 raise ValueError("`prompt_logprobs` must be a positive value or -1.")
-            if prompt_logprobs == -1 and not envs.VLLM_USE_V1:
-                raise ValueError(
-                    "`prompt_logprobs=-1` is only supported with vLLM engine V1."
-                )
         if (logprobs := data.get("logprobs")) is not None and logprobs < 0:
             raise ValueError("`logprobs` must be a positive value.")
 
@@ -1487,16 +1470,12 @@ class CompletionRequest(OpenAIBaseModel):
     @model_validator(mode="before")
     @classmethod
     def check_cache_salt_support(cls, data):
-        if data.get("cache_salt") is not None:
-            if not envs.VLLM_USE_V1:
-                raise ValueError(
-                    "Parameter 'cache_salt' is not supported with "
-                    "this instance of vLLM, which uses engine V0."
-                )
-            if not isinstance(data["cache_salt"], str) or not data["cache_salt"]:
-                raise ValueError(
-                    "Parameter 'cache_salt' must be a non-empty string if provided."
-                )
+        if data.get("cache_salt") is not None and (
+            not isinstance(data["cache_salt"], str) or not data["cache_salt"]
+        ):
+            raise ValueError(
+                "Parameter 'cache_salt' must be a non-empty string if provided."
+            )
         return data
 
 
diff --git a/vllm/model_executor/model_loader/tensorizer.py b/vllm/model_executor/model_loader/tensorizer.py
index 06b4f9271b41b..e4e530f0cea88 100644
--- a/vllm/model_executor/model_loader/tensorizer.py
+++ b/vllm/model_executor/model_loader/tensorizer.py
@@ -726,8 +726,6 @@ def tensorize_vllm_model(
         ) as stream:
             stream.write(encryption_params.key)
 
-    assert envs.VLLM_USE_V1
-
     from vllm.v1.engine.llm_engine import LLMEngine
 
     engine = LLMEngine.from_vllm_config(engine_config)
diff --git a/vllm/model_executor/models/config.py b/vllm/model_executor/models/config.py
index 5dda2ec97875f..936e59117232f 100644
--- a/vllm/model_executor/models/config.py
+++ b/vllm/model_executor/models/config.py
@@ -285,10 +285,6 @@ class MambaModelConfig(VerifyAndUpdateConfig):
         Args:
             vllm_config: vLLM Config
         """
-
-        if not envs.VLLM_USE_V1:
-            return
-
         model_config = vllm_config.model_config
         cache_config = vllm_config.cache_config
 
@@ -329,10 +325,6 @@ class HybridAttentionMambaModelConfig(VerifyAndUpdateConfig):
         Args:
             vllm_config: vLLM Config
         """
-
-        if not envs.VLLM_USE_V1:
-            return
-
         # Save the user input before it gets modified by MambaModelConfig
         mamba_block_size = vllm_config.cache_config.mamba_block_size
         # Enable FULL_AND_PIECEWISE by default
diff --git a/vllm/model_executor/models/gemma3_mm.py b/vllm/model_executor/models/gemma3_mm.py
index 748605b4ed5ac..630de816dc22b 100644
--- a/vllm/model_executor/models/gemma3_mm.py
+++ b/vllm/model_executor/models/gemma3_mm.py
@@ -9,7 +9,6 @@ from torch import nn
 from transformers import BatchFeature, Gemma3Config, Gemma3Processor
 from transformers.models.gemma3.processing_gemma3 import Gemma3ProcessorKwargs
 
-import vllm.envs as envs
 from vllm.config import VllmConfig
 from vllm.config.multimodal import BaseDummyOptions
 from vllm.logger import init_logger
@@ -137,11 +136,10 @@ class Gemma3ProcessingInfo(BaseProcessingInfo):
         if not do_pan_and_scan:
             return 0
 
-        if envs.VLLM_USE_V1:
-            logger.warning_once(
-                "`do_pan_and_scan=True` has suboptimal results on V1 "
-                "because of the simplified attention pattern being used."
-            )
+        logger.warning_once(
+            "`do_pan_and_scan=True` has suboptimal results on V1 "
+            "because of the simplified attention pattern being used."
+        )
 
         # Based on Gemma3ImageProcessor.pan_and_scan
         if image_width >= image_height:
diff --git a/vllm/model_executor/models/utils.py b/vllm/model_executor/models/utils.py
index 0690788502171..e5ebd8138b0ac 100644
--- a/vllm/model_executor/models/utils.py
+++ b/vllm/model_executor/models/utils.py
@@ -12,7 +12,6 @@ from torch.func import functional_call
 from transformers import PretrainedConfig
 from typing_extensions import deprecated
 
-import vllm.envs as envs
 from vllm.config import VllmConfig
 from vllm.distributed import (
     get_tensor_model_parallel_rank,
@@ -576,11 +575,8 @@ def maybe_offload_to_cpu(module: torch.nn.Module) -> torch.nn.Module:
     pin_memory = is_pin_memory_available()
     uva_available = is_uva_available()
 
-    if envs.VLLM_USE_V1:
-        assert uva_available, "V1 CPU offloading requires uva (pin memory) support"
-        uva_offloading = True
-    else:
-        uva_offloading = False
+    assert uva_available, "V1 CPU offloading requires uva (pin memory) support"
+    uva_offloading = True
 
     # offload parameters to CPU
     # use pin_memory if possible, which helps cudagraph capture speed
diff --git a/vllm/multimodal/profiling.py b/vllm/multimodal/profiling.py
index b864c52dfbc8b..cb70041e9744f 100644
--- a/vllm/multimodal/profiling.py
+++ b/vllm/multimodal/profiling.py
@@ -9,7 +9,6 @@ import numpy as np
 import numpy.typing as npt
 from PIL import Image
 
-import vllm.envs as envs
 from vllm.config.multimodal import (
     AudioDummyOptions,
     BaseDummyOptions,
@@ -306,18 +305,6 @@ class MultiModalProfiler(Generic[_I]):
         if processor.pad_dummy_encoder_prompt:
             num_tokens_to_pad = max(total_len, seq_len) - total_len
             encoder_prompt_token_ids.extend([0] * num_tokens_to_pad)
-        # NOTE: Whisper allows total_len > seq_len.
-        elif total_len > seq_len and not envs.VLLM_USE_V1:
-            # `max_num_batched_tokens` is defined by `SchedulerConfig`
-            logger.warning_once(
-                "The encoder sequence length used for profiling (max_num_batched_tokens / max_num_seqs = %d) "  # noqa: E501
-                "is too short to hold the multi-modal embeddings in the worst case (%d tokens in total, out of which %s are reserved for multi-modal embeddings). "  # noqa: E501
-                "This may cause certain multi-modal inputs to fail during inference, even when the input text is short. "  # noqa: E501
-                "To avoid this, you should increase `max_model_len`, reduce `max_num_seqs`, and/or reduce `mm_counts`.",  # noqa: E501
-                seq_len,
-                total_len,
-                str(self._get_mm_num_tokens(mm_inputs)),
-            )
 
         return DummyEncoderData(encoder_prompt_token_ids)
 

From 0ff05e3770ad5d819c813666b72f1954cf317b34 Mon Sep 17 00:00:00 2001
From: Isotr0py <mozf@mail2.sysu.edu.cn>
Date: Wed, 5 Nov 2025 14:24:41 +0800
Subject: [PATCH 139/976] [Bugfix] Fix encoder-only model support for
 transformers backend (#28021)

Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>
Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 tests/models/registry.py                        | 12 ++++++------
 tests/models/test_transformers.py               |  2 +-
 vllm/model_executor/models/transformers/base.py | 10 ++++++++--
 vllm/model_executor/models/transformers/moe.py  |  2 +-
 4 files changed, 16 insertions(+), 10 deletions(-)

diff --git a/tests/models/registry.py b/tests/models/registry.py
index a4bcddc50c1a1..b52f241719e85 100644
--- a/tests/models/registry.py
+++ b/tests/models/registry.py
@@ -899,27 +899,27 @@ _SPECULATIVE_DECODING_EXAMPLE_MODELS = {
 
 _TRANSFORMERS_BACKEND_MODELS = {
     "TransformersEmbeddingModel": _HfExamplesInfo(
-        "BAAI/bge-base-en-v1.5", min_transformers_version="5.0.0"
+        "BAAI/bge-base-en-v1.5", min_transformers_version="5.0.0.dev"
     ),
     "TransformersForSequenceClassification": _HfExamplesInfo(
         "papluca/xlm-roberta-base-language-detection",
-        min_transformers_version="5.0.0",
+        min_transformers_version="5.0.0.dev",
     ),
     "TransformersForCausalLM": _HfExamplesInfo(
         "hmellor/Ilama-3.2-1B", trust_remote_code=True
     ),
     "TransformersMultiModalForCausalLM": _HfExamplesInfo("BAAI/Emu3-Chat-hf"),
     "TransformersMoEForCausalLM": _HfExamplesInfo(
-        "allenai/OLMoE-1B-7B-0924", min_transformers_version="5.0.0"
+        "allenai/OLMoE-1B-7B-0924", min_transformers_version="5.0.0.dev"
     ),
     "TransformersMultiModalMoEForCausalLM": _HfExamplesInfo(
-        "Qwen/Qwen3-VL-30B-A3B-Instruct", min_transformers_version="5.0.0"
+        "Qwen/Qwen3-VL-30B-A3B-Instruct", min_transformers_version="5.0.0.dev"
     ),
     "TransformersMoEEmbeddingModel": _HfExamplesInfo(
-        "Qwen/Qwen3-30B-A3B", min_transformers_version="5.0.0"
+        "Qwen/Qwen3-30B-A3B", min_transformers_version="5.0.0.dev"
     ),
     "TransformersMoEForSequenceClassification": _HfExamplesInfo(
-        "Qwen/Qwen3-30B-A3B", min_transformers_version="5.0.0"
+        "Qwen/Qwen3-30B-A3B", min_transformers_version="5.0.0.dev"
     ),
     "TransformersMultiModalEmbeddingModel": _HfExamplesInfo("google/gemma-3-4b-it"),
     "TransformersMultiModalForSequenceClassification": _HfExamplesInfo(
diff --git a/tests/models/test_transformers.py b/tests/models/test_transformers.py
index 06e51df32d184..a18f5b6077636 100644
--- a/tests/models/test_transformers.py
+++ b/tests/models/test_transformers.py
@@ -82,7 +82,7 @@ def test_models(
     from packaging.version import Version
 
     installed = Version(transformers.__version__)
-    required = Version("5.0.0")
+    required = Version("5.0.0.dev")
     if model == "allenai/OLMoE-1B-7B-0924" and installed < required:
         pytest.skip(
             "MoE models with the Transformers backend require "
diff --git a/vllm/model_executor/models/transformers/base.py b/vllm/model_executor/models/transformers/base.py
index 41d170c9e1397..eb992f7bec72b 100644
--- a/vllm/model_executor/models/transformers/base.py
+++ b/vllm/model_executor/models/transformers/base.py
@@ -28,6 +28,7 @@ from transformers import AutoModel
 from transformers.modeling_utils import ALL_ATTENTION_FUNCTIONS
 
 from vllm.attention import Attention, AttentionType
+from vllm.attention.layers.encoder_only_attention import EncoderOnlyAttention
 from vllm.config.utils import getattr_iter
 from vllm.distributed import get_pp_group, get_tp_group
 from vllm.distributed.utils import get_pp_indices
@@ -317,7 +318,7 @@ class Base(nn.Module, VllmModel, SupportsQuant, SupportsLoRA, SupportsPP):
         # vLLM does not support encoder-decoder models, so if any encoder layer is
         # found in a text only model, we assume the whole model is an encoder model
         if has_encoder(self.model) and not is_multimodal(self.config):
-            self.check_version("4.57.0.dev0", "encoder models support")
+            self.check_version("5.0.0.dev0", "encoder models support")
             attn_type = AttentionType.ENCODER_ONLY
         else:
             attn_type = AttentionType.DECODER
@@ -336,7 +337,12 @@ class Base(nn.Module, VllmModel, SupportsQuant, SupportsLoRA, SupportsPP):
             ):
                 per_layer_sliding_window = self.config.sliding_window
 
-            attention_instances[i] = Attention(
+            attn_cls = (
+                EncoderOnlyAttention
+                if attn_type == AttentionType.ENCODER_ONLY
+                else Attention
+            )
+            attention_instances[i] = attn_cls(
                 num_heads=num_heads,
                 head_size=head_size,
                 # NOTE: We use Llama scale as default, if it's set by
diff --git a/vllm/model_executor/models/transformers/moe.py b/vllm/model_executor/models/transformers/moe.py
index 5de786f99580f..2056ebeb10864 100644
--- a/vllm/model_executor/models/transformers/moe.py
+++ b/vllm/model_executor/models/transformers/moe.py
@@ -115,7 +115,7 @@ direct_register_custom_op(
 
 class MoEMixin(MixtureOfExperts):
     def __init__(self, *, vllm_config: "VllmConfig", prefix: str = ""):
-        self.check_version("4.57.0.dev0", "MoE models support")
+        self.check_version("5.0.0.dev0", "MoE models support")
         # Skip MixtureOfExperts.__init__ and call the next class in MRO
         super(MixtureOfExperts, self).__init__(vllm_config=vllm_config, prefix=prefix)
 

From d43ad5a75790e4d97394940187bbf37402c4fa97 Mon Sep 17 00:00:00 2001
From: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com>
Date: Wed, 5 Nov 2025 01:54:43 -0500
Subject: [PATCH 140/976] [BugFix] Fix DCP Assert (AssertionError: DCP not
 support reorder_batch_threshold > 1 now.) (#28100)

Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com>
---
 vllm/v1/attention/backends/mla/common.py        |  3 ++-
 vllm/v1/attention/backends/mla/flashattn_mla.py |  7 ++++++-
 vllm/v1/attention/backends/utils.py             | 11 ++++++++++-
 3 files changed, 18 insertions(+), 3 deletions(-)

diff --git a/vllm/v1/attention/backends/mla/common.py b/vllm/v1/attention/backends/mla/common.py
index 0ec1573004197..413d20ce04021 100755
--- a/vllm/v1/attention/backends/mla/common.py
+++ b/vllm/v1/attention/backends/mla/common.py
@@ -545,6 +545,7 @@ class MLACommonMetadataBuilder(AttentionMetadataBuilder[M]):
         vllm_config: VllmConfig,
         device: torch.device,
         metadata_cls: type[M] | None = None,
+        supports_dcp_with_varlen: bool = False,
     ):
         self.metadata_cls = (
             metadata_cls if metadata_cls is not None else MLACommonMetadata
@@ -638,7 +639,7 @@ class MLACommonMetadataBuilder(AttentionMetadataBuilder[M]):
 
         supports_spec_decode = self.query_len_support != QueryLenSupport.SINGLE_ONLY
         self._init_reorder_batch_threshold(
-            self.reorder_batch_threshold, supports_spec_decode
+            self.reorder_batch_threshold, supports_spec_decode, supports_dcp_with_varlen
         )
 
         # Validate consistency between query_len_support and reorder_batch_threshold
diff --git a/vllm/v1/attention/backends/mla/flashattn_mla.py b/vllm/v1/attention/backends/mla/flashattn_mla.py
index 6baf45efccb54..7b084ae969d97 100644
--- a/vllm/v1/attention/backends/mla/flashattn_mla.py
+++ b/vllm/v1/attention/backends/mla/flashattn_mla.py
@@ -81,7 +81,12 @@ class FlashAttnMLAMetadataBuilder(MLACommonMetadataBuilder[FlashAttnMLAMetadata]
         device: torch.device,
     ):
         super().__init__(
-            kv_cache_spec, layer_names, vllm_config, device, FlashAttnMLAMetadata
+            kv_cache_spec,
+            layer_names,
+            vllm_config,
+            device,
+            FlashAttnMLAMetadata,
+            supports_dcp_with_varlen=True,
         )
         self.max_num_splits = 0  # No upper bound on the number of splits.
         self.fa_aot_schedule = get_flash_attn_version() == 3
diff --git a/vllm/v1/attention/backends/utils.py b/vllm/v1/attention/backends/utils.py
index 6c750d3448c41..ed0fae3828453 100644
--- a/vllm/v1/attention/backends/utils.py
+++ b/vllm/v1/attention/backends/utils.py
@@ -264,7 +264,10 @@ class AttentionMetadataBuilder(abc.ABC, Generic[M]):
         self.device = device
 
     def _init_reorder_batch_threshold(
-        self, reorder_batch_threshold: int = 1, supports_spec_as_decode: bool = False
+        self,
+        reorder_batch_threshold: int = 1,
+        supports_spec_as_decode: bool = False,
+        supports_dcp_with_varlen: bool = False,
     ) -> None:
         self.reorder_batch_threshold = reorder_batch_threshold
         if self.reorder_batch_threshold is not None and supports_spec_as_decode:
@@ -281,6 +284,12 @@ class AttentionMetadataBuilder(abc.ABC, Generic[M]):
                     1 + speculative_config.num_speculative_tokens,
                 )
 
+        if (
+            self.vllm_config.parallel_config.decode_context_parallel_size > 1
+            and not supports_dcp_with_varlen
+        ):
+            self.reorder_batch_threshold = 1
+
     @abstractmethod
     def build(
         self,

From b7cbc254169128a4203d111f3b87edaa17839a32 Mon Sep 17 00:00:00 2001
From: Alex Brooks <alex.brooks@ibm.com>
Date: Wed, 5 Nov 2025 00:33:48 -0700
Subject: [PATCH 141/976] [Model, Core] Support Granite Speech & LoRA for STT
 (#24455)

---
 docs/models/supported_models.md               |  1 +
 .../openai/test_transcription_validation.py   | 35 +++++++
 .../openai/test_translation_validation.py     | 34 +++++++
 vllm/entrypoints/openai/speech_to_text.py     |  8 +-
 vllm/model_executor/models/granite_speech.py  | 99 ++++++++++++++++++-
 5 files changed, 169 insertions(+), 8 deletions(-)

diff --git a/docs/models/supported_models.md b/docs/models/supported_models.md
index e3084195cd50f..eed1b3fb4bc85 100644
--- a/docs/models/supported_models.md
+++ b/docs/models/supported_models.md
@@ -761,6 +761,7 @@ Speech2Text models trained specifically for Automatic Speech Recognition.
 | `WhisperForConditionalGeneration` | Whisper | `openai/whisper-small`, `openai/whisper-large-v3-turbo`, etc. | | |
 | `VoxtralForConditionalGeneration` | Voxtral (Mistral format) | `mistralai/Voxtral-Mini-3B-2507`, `mistralai/Voxtral-Small-24B-2507`, etc. | ✅︎ | ✅︎ |
 | `Gemma3nForConditionalGeneration` | Gemma3n | `google/gemma-3n-E2B-it`, `google/gemma-3n-E4B-it`, etc. | | |
+| `GraniteSpeechForConditionalGeneration` | Granite Speech | `ibm-granite/granite-speech-3.3-2b`, `ibm-granite/granite-speech-3.3-8b`, etc. | ✅︎ | ✅︎ |
 
 ### Pooling Models
 
diff --git a/tests/entrypoints/openai/test_transcription_validation.py b/tests/entrypoints/openai/test_transcription_validation.py
index f6133d4387b26..88580ed899f1a 100644
--- a/tests/entrypoints/openai/test_transcription_validation.py
+++ b/tests/entrypoints/openai/test_transcription_validation.py
@@ -65,6 +65,41 @@ async def test_basic_audio(mary_had_lamb, model_name):
         assert out_usage["seconds"] == 16, out_usage["seconds"]
 
 
+@pytest.mark.asyncio
+async def test_basic_audio_with_lora(mary_had_lamb):
+    """Ensure STT (transcribe) requests can pass LoRA through to generate."""
+    model_name = "ibm-granite/granite-speech-3.3-2b"
+    lora_model_name = "speech"
+    server_args = [
+        "--enforce-eager",
+        "--enable-lora",
+        "--max-lora-rank",
+        "64",
+        "--lora-modules",
+        f"{lora_model_name}={model_name}",
+        "--max-model-len",
+        "2048",
+        "--max-num-seqs",
+        "1",
+    ]
+
+    # Based on https://github.com/openai/openai-cookbook/blob/main/examples/Whisper_prompting_guide.ipynb.
+    with RemoteOpenAIServer(model_name, server_args) as remote_server:
+        client = remote_server.get_async_client()
+        transcription = await client.audio.transcriptions.create(
+            model=lora_model_name,
+            file=mary_had_lamb,
+            language="en",
+            response_format="text",
+            temperature=0.0,
+        )
+    out = json.loads(transcription)
+    out_text = out["text"]
+    out_usage = out["usage"]
+    assert "mary had a little lamb" in out_text
+    assert out_usage["seconds"] == 16, out_usage["seconds"]
+
+
 @pytest.mark.asyncio
 async def test_basic_audio_gemma(foscolo):
     # Gemma accuracy on some of the audio samples we use is particularly bad,
diff --git a/tests/entrypoints/openai/test_translation_validation.py b/tests/entrypoints/openai/test_translation_validation.py
index f35742e166fe0..c060ee2b1922c 100644
--- a/tests/entrypoints/openai/test_translation_validation.py
+++ b/tests/entrypoints/openai/test_translation_validation.py
@@ -48,6 +48,40 @@ async def test_non_asr_model(foscolo):
         assert err["message"] == "The model does not support Translations API"
 
 
+@pytest.mark.asyncio
+async def test_basic_audio_with_lora(mary_had_lamb):
+    """Ensure STT (translate) requests can pass LoRA through to generate."""
+    # NOTE - careful to call this test before the module scoped server
+    # fixture, otherwise it'll OOMkill the CI
+    model_name = "ibm-granite/granite-speech-3.3-2b"
+    lora_model_name = "speech"
+    server_args = [
+        "--enforce-eager",
+        "--enable-lora",
+        "--max-lora-rank",
+        "64",
+        "--lora-modules",
+        f"{lora_model_name}={model_name}",
+        "--max-model-len",
+        "2048",
+        "--max-num-seqs",
+        "1",
+    ]
+
+    # Based on https://github.com/openai/openai-cookbook/blob/main/examples/Whisper_prompting_guide.ipynb.
+    with RemoteOpenAIServer(model_name, server_args) as remote_server:
+        client = remote_server.get_async_client()
+        translation = await client.audio.translations.create(
+            model=lora_model_name,
+            file=mary_had_lamb,
+            extra_body=dict(language="en", to_language="es"),
+            response_format="text",
+            temperature=0.0,
+        )
+    out = json.loads(translation)["text"].strip().lower()
+    assert "mary tenía un pequeño cordero" in out
+
+
 # NOTE: (NickLucche) the large-v3-turbo model was not trained on translation!
 @pytest.mark.asyncio
 async def test_basic_audio(foscolo, client_and_model):
diff --git a/vllm/entrypoints/openai/speech_to_text.py b/vllm/entrypoints/openai/speech_to_text.py
index 46139642c50c1..b9b9b1ab30ad8 100644
--- a/vllm/entrypoints/openai/speech_to_text.py
+++ b/vllm/entrypoints/openai/speech_to_text.py
@@ -170,11 +170,6 @@ class OpenAISpeechToText(OpenAIServing):
         try:
             lora_request = self._maybe_get_adapters(request)
 
-            if lora_request:
-                return self.create_error_response(
-                    f"Currently do not support LoRA for {self.task_type.title()}."
-                )
-
             prompts, duration_s = await self._preprocess_speech_to_text(
                 request=request,
                 audio_data=audio_data,
@@ -199,7 +194,7 @@ class OpenAISpeechToText(OpenAIServing):
                 # It will not display special tokens like <|startoftranscript|>
                 request.prompt,
                 params=sampling_params,
-                lora_request=None,
+                lora_request=lora_request,
             )
 
             list_result_generator = [
@@ -207,6 +202,7 @@ class OpenAISpeechToText(OpenAIServing):
                     prompt,
                     sampling_params,
                     request_id,
+                    lora_request=lora_request,
                 )
                 for prompt in prompts
             ]
diff --git a/vllm/model_executor/models/granite_speech.py b/vllm/model_executor/models/granite_speech.py
index 043b1406bd371..3ddf02bbba2ea 100644
--- a/vllm/model_executor/models/granite_speech.py
+++ b/vllm/model_executor/models/granite_speech.py
@@ -26,15 +26,17 @@
 
 import math
 from collections.abc import Iterable, Mapping
-from typing import Annotated
+from typing import Annotated, Literal, cast
 
+import numpy as np
 import torch
 import torch.nn.functional as F
 from torch import nn
 from transformers import BatchFeature, PretrainedConfig
 
-from vllm.config import CacheConfig, VllmConfig
+from vllm.config import CacheConfig, ModelConfig, SpeechToTextConfig, VllmConfig
 from vllm.config.multimodal import BaseDummyOptions
+from vllm.inputs.data import PromptType
 from vllm.model_executor.layers.linear import ColumnParallelLinear, RowParallelLinear
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.models.module_mapping import MultiModelKeys
@@ -57,6 +59,8 @@ from vllm.multimodal.processing import (
 )
 from vllm.multimodal.profiling import BaseDummyInputsBuilder
 from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.processor import cached_get_processor
+from vllm.transformers_utils.tokenizer import cached_get_tokenizer
 from vllm.utils.tensor_schema import TensorSchema, TensorShape
 
 from .blip2 import Blip2QFormerModel
@@ -65,9 +69,22 @@ from .interfaces import (
     SupportsLoRA,
     SupportsMultiModal,
     SupportsPP,
+    SupportsTranscription,
 )
 from .utils import AutoWeightsLoader, init_vllm_registered_model, maybe_prefix
 
+# NOTE lang support is based on what is written here:
+# https://huggingface.co/ibm-granite/granite-speech-3.3-2b
+# Though this may vary from model to model, and also many langs
+# work pretty well with zero shot.
+ISO639_1_SUPPORTED_LANGS = {
+    "en": "English",
+    "fr": "French",
+    "de": "German",
+    "pt": "Portuguese",
+    "es": "Spanish",
+}
+
 
 ### Audio Input
 class GraniteSpeechAudioInputs(TensorSchema):
@@ -545,8 +562,10 @@ class GraniteSpeechForConditionalGeneration(
     SupportsMultiModal,
     SupportsPP,
     SupportsLoRA,
+    SupportsTranscription,
 ):
     merge_by_field_config = True
+    supported_languages = ISO639_1_SUPPORTED_LANGS
 
     packed_modules_mapping = {
         "qkv_proj": [
@@ -816,3 +835,79 @@ class GraniteSpeechForConditionalGeneration(
             connector="projector",
             tower_model="encoder",
         )
+
+    ### Support for speech-to-text Transcription
+    @classmethod
+    def get_generation_prompt(
+        cls,
+        audio: np.ndarray,
+        model_config: ModelConfig,
+        stt_config: SpeechToTextConfig,
+        language: str | None,
+        task_type: Literal["transcribe", "translate"],
+        request_prompt: str,
+        to_language: str | None,
+    ) -> PromptType:
+        """Get the generation prompt to be used for transcription requests."""
+        # Audio placeholders don't use an index, so value doesn't matter
+        audio_tok = cls.get_placeholder_str("audio", 0)
+
+        if task_type == "translate":
+            full_lang_name_to = cls.supported_languages.get(to_language, to_language)
+            user_prompt = f"{audio_tok}translate the speech to {full_lang_name_to}"  # noqa: E501
+        elif task_type == "transcribe":
+            user_prompt = (
+                f"{audio_tok}can you transcribe the speech into a written format?"  # noqa: E501
+            )
+        else:
+            raise ValueError(f"Unsupported task type {task_type}")
+
+        tokenizer = cached_get_tokenizer(model_config.model)
+        chat = [dict(role="user", content=user_prompt)]
+        prompt = tokenizer.apply_chat_template(
+            chat,
+            tokenize=False,
+            add_generation_prompt=True,
+        )
+
+        prompt_token_ids = tokenizer.encode(prompt)
+        prompt = {
+            "prompt_token_ids": prompt_token_ids,
+            "multi_modal_data": {"audio": audio},
+        }
+        return cast(PromptType, prompt)
+
+    # Adapted from https://github.com/huggingface/transformers/blob/v4.56.0/src/transformers/models/granite_speech/feature_extraction_granite_speech.py#L122 # noqa: E501
+    @classmethod
+    def get_num_audio_tokens(
+        cls,
+        audio_duration_s: float,
+        stt_config: SpeechToTextConfig,
+        model_config: ModelConfig,
+    ) -> int | None:
+        """Get the number of audio tokens for an audio duration in sec."""
+        processor = cached_get_processor(model_config.model)
+        hop_length = processor.audio_processor.melspec_kwargs["hop_length"]
+        proj_win_size = processor.audio_processor.projector_window_size
+        ds_rate = processor.audio_processor.projector_downsample_rate
+        effective_window_size = proj_win_size // ds_rate
+
+        raw_length = audio_duration_s * stt_config.sample_rate
+
+        # mel sequence length computation
+        mel_length = raw_length // hop_length + 1
+        # encoder frame takes two mel features
+        encoder_length = mel_length // 2
+        nblocks = math.ceil(encoder_length / proj_win_size)
+        # projector output length
+        return nblocks * effective_window_size
+
+    @classmethod
+    def get_speech_to_text_config(
+        cls, model_config: ModelConfig, task_type: str
+    ) -> SpeechToTextConfig:
+        """Get the stt config for this model."""
+        # Default settings are reasonable for this model and we don't currently
+        # expose this information in the model configs, but this may change in
+        # the future
+        return SpeechToTextConfig()

From e261d37c9a5e88a6c86d32decf39f1fab7ca1f2c Mon Sep 17 00:00:00 2001
From: Chauncey <chaunceyjiang@gmail.com>
Date: Wed, 5 Nov 2025 15:37:02 +0800
Subject: [PATCH 142/976] [Refactor] Lazy-loaded reasoning_parser (#28092)

Signed-off-by: chaunceyjiang <chaunceyjiang@gmail.com>
---
 docs/features/reasoning_outputs.md            |   7 +-
 .../test_deepseekv3_reasoning_parser.py       |   8 +-
 vllm/engine/arg_utils.py                      |   2 +-
 vllm/entrypoints/openai/api_server.py         |   2 +-
 vllm/entrypoints/openai/run_batch.py          |   2 +-
 .../openai/tool_parsers/__init__.py           |   6 +-
 vllm/reasoning/__init__.py                    | 111 ++++++++++-----
 vllm/reasoning/abs_reasoning_parsers.py       | 131 ++++++++++++++----
 .../reasoning/deepseek_r1_reasoning_parser.py |   2 -
 .../reasoning/deepseek_v3_reasoning_parser.py |   2 -
 vllm/reasoning/ernie45_reasoning_parser.py    |   2 -
 vllm/reasoning/glm4_moe_reasoning_parser.py   |   3 +-
 vllm/reasoning/gptoss_reasoning_parser.py     |   3 +-
 vllm/reasoning/granite_reasoning_parser.py    |   3 +-
 .../hunyuan_a13b_reasoning_parser.py          |   3 +-
 vllm/reasoning/minimax_m2_reasoning_parser.py |   4 +-
 vllm/reasoning/mistral_reasoning_parser.py    |   3 +-
 vllm/reasoning/olmo3_reasoning_parser.py      |   3 +-
 vllm/reasoning/qwen3_reasoning_parser.py      |   2 -
 vllm/reasoning/seedoss_reasoning_parser.py    |   3 +-
 vllm/reasoning/step3_reasoning_parser.py      |   3 +-
 21 files changed, 206 insertions(+), 99 deletions(-)

diff --git a/docs/features/reasoning_outputs.md b/docs/features/reasoning_outputs.md
index dc2b2315182a9..28520a80ed366 100644
--- a/docs/features/reasoning_outputs.md
+++ b/docs/features/reasoning_outputs.md
@@ -219,7 +219,6 @@ You can add a new `ReasoningParser` similar to [vllm/reasoning/deepseek_r1_reaso
     # define a reasoning parser and register it to vllm
     # the name list in register_module can be used
     # in --reasoning-parser.
-    @ReasoningParserManager.register_module(["example"])
     class ExampleParser(ReasoningParser):
         def __init__(self, tokenizer: AnyTokenizer):
             super().__init__(tokenizer)
@@ -263,6 +262,12 @@ You can add a new `ReasoningParser` similar to [vllm/reasoning/deepseek_r1_reaso
             tuple[Optional[str], Optional[str]]
                 A tuple containing the reasoning content and the content.
             """
+    # Register the reasoning parser
+    ReasoningParserManager.register_lazy_module(
+        name="example",
+        module_path="vllm.reasoning.example_reasoning_parser",
+        class_name="ExampleParser",
+    )
     ```
 
 Additionally, to enable structured output, you'll need to create a new `Reasoner` similar to the one in [vllm/reasoning/deepseek_r1_reasoning_parser.py](../../vllm/reasoning/deepseek_r1_reasoning_parser.py).
diff --git a/tests/reasoning/test_deepseekv3_reasoning_parser.py b/tests/reasoning/test_deepseekv3_reasoning_parser.py
index 3d12f3e5b30e8..e1ff7462b1fa7 100644
--- a/tests/reasoning/test_deepseekv3_reasoning_parser.py
+++ b/tests/reasoning/test_deepseekv3_reasoning_parser.py
@@ -5,11 +5,9 @@ import pytest
 from transformers import AutoTokenizer
 
 from vllm.entrypoints.openai.protocol import ChatCompletionRequest, DeltaMessage
-from vllm.reasoning import (
-    DeepSeekR1ReasoningParser,
-    DeepSeekV3ReasoningParser,
-    IdentityReasoningParser,
-)
+from vllm.reasoning.deepseek_r1_reasoning_parser import DeepSeekR1ReasoningParser
+from vllm.reasoning.deepseek_v3_reasoning_parser import DeepSeekV3ReasoningParser
+from vllm.reasoning.identity_reasoning_parser import IdentityReasoningParser
 
 REASONING_MODEL_NAME = "deepseek-ai/DeepSeek-V3.1"
 
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index 0b2b8bbe678a0..a697f451d483a 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -708,7 +708,7 @@ class EngineArgs:
         structured_outputs_group.add_argument(
             "--reasoning-parser",
             # This choice is a special case because it's not static
-            choices=list(ReasoningParserManager.reasoning_parsers),
+            choices=list(ReasoningParserManager.list_registered()),
             **structured_outputs_kwargs["reasoning_parser"],
         )
         # Deprecated guided decoding arguments
diff --git a/vllm/entrypoints/openai/api_server.py b/vllm/entrypoints/openai/api_server.py
index e77a6ad86277b..5a05e0bf3a506 100644
--- a/vllm/entrypoints/openai/api_server.py
+++ b/vllm/entrypoints/openai/api_server.py
@@ -1944,7 +1944,7 @@ def validate_api_server_args(args):
             f"(chose from {{ {','.join(valid_tool_parses)} }})"
         )
 
-    valid_reasoning_parses = ReasoningParserManager.reasoning_parsers.keys()
+    valid_reasoning_parses = ReasoningParserManager.list_registered()
     if (
         reasoning_parser := args.structured_outputs_config.reasoning_parser
     ) and reasoning_parser not in valid_reasoning_parses:
diff --git a/vllm/entrypoints/openai/run_batch.py b/vllm/entrypoints/openai/run_batch.py
index 4caccf88fd7d7..7a39113961e1d 100644
--- a/vllm/entrypoints/openai/run_batch.py
+++ b/vllm/entrypoints/openai/run_batch.py
@@ -334,7 +334,7 @@ async def run_request(
 
 
 def validate_run_batch_args(args):
-    valid_reasoning_parses = ReasoningParserManager.reasoning_parsers.keys()
+    valid_reasoning_parses = ReasoningParserManager.list_registered()
     if (
         reasoning_parser := args.structured_outputs_config.reasoning_parser
     ) and reasoning_parser not in valid_reasoning_parses:
diff --git a/vllm/entrypoints/openai/tool_parsers/__init__.py b/vllm/entrypoints/openai/tool_parsers/__init__.py
index 7038d4c1f05cc..89e439dd53f5f 100644
--- a/vllm/entrypoints/openai/tool_parsers/__init__.py
+++ b/vllm/entrypoints/openai/tool_parsers/__init__.py
@@ -72,7 +72,7 @@ _TOOL_PARSERS_TO_REGISTER = {
     ),
     "llama4_json": (
         "llama_tool_parser",
-        "Llama4JsonToolParser",
+        "Llama3JsonToolParser",
     ),
     "llama4_pythonic": (
         "llama4_pythonic_tool_parser",
@@ -116,11 +116,11 @@ _TOOL_PARSERS_TO_REGISTER = {
     ),
     "qwen3_xml": (
         "qwen3xml_tool_parser",
-        "Qwen3XmlToolParser",
+        "Qwen3XMLToolParser",
     ),
     "seed_oss": (
         "seed_oss_tool_parser",
-        "SeedOsSToolParser",
+        "SeedOssToolParser",
     ),
     "step3": (
         "step3_tool_parser",
diff --git a/vllm/reasoning/__init__.py b/vllm/reasoning/__init__.py
index 3d666882efb59..6bd1d8463e45f 100644
--- a/vllm/reasoning/__init__.py
+++ b/vllm/reasoning/__init__.py
@@ -1,39 +1,88 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
-from .abs_reasoning_parsers import ReasoningParser, ReasoningParserManager
-from .basic_parsers import BaseThinkingReasoningParser
-from .deepseek_r1_reasoning_parser import DeepSeekR1ReasoningParser
-from .deepseek_v3_reasoning_parser import DeepSeekV3ReasoningParser
-from .ernie45_reasoning_parser import Ernie45ReasoningParser
-from .glm4_moe_reasoning_parser import Glm4MoeModelReasoningParser
-from .gptoss_reasoning_parser import GptOssReasoningParser
-from .granite_reasoning_parser import GraniteReasoningParser
-from .hunyuan_a13b_reasoning_parser import HunyuanA13BReasoningParser
-from .identity_reasoning_parser import IdentityReasoningParser
-from .minimax_m2_reasoning_parser import MiniMaxM2ReasoningParser
-from .mistral_reasoning_parser import MistralReasoningParser
-from .olmo3_reasoning_parser import Olmo3ReasoningParser
-from .qwen3_reasoning_parser import Qwen3ReasoningParser
-from .seedoss_reasoning_parser import SeedOSSReasoningParser
-from .step3_reasoning_parser import Step3ReasoningParser
+from vllm.reasoning.abs_reasoning_parsers import ReasoningParser, ReasoningParserManager
 
 __all__ = [
     "ReasoningParser",
-    "BaseThinkingReasoningParser",
     "ReasoningParserManager",
-    "DeepSeekR1ReasoningParser",
-    "IdentityReasoningParser",
-    "DeepSeekV3ReasoningParser",
-    "Ernie45ReasoningParser",
-    "GraniteReasoningParser",
-    "HunyuanA13BReasoningParser",
-    "Qwen3ReasoningParser",
-    "Glm4MoeModelReasoningParser",
-    "MistralReasoningParser",
-    "Olmo3ReasoningParser",
-    "Step3ReasoningParser",
-    "GptOssReasoningParser",
-    "SeedOSSReasoningParser",
-    "MiniMaxM2ReasoningParser",
 ]
+"""
+Register a lazy module mapping.
+
+Example:
+    ReasoningParserManager.register_lazy_module(
+        name="qwen3",
+        module_path="vllm.reasoning.qwen3_reasoning_parser",
+        class_name="Qwen3ReasoningParser",
+    )
+"""
+
+
+_REASONING_PARSERS_TO_REGISTER = {
+    "deepseek_r1": (  # name
+        "deepseek_r1_reasoning_parser",  # filename
+        "DeepSeekR1ReasoningParser",  # class_name
+    ),
+    "deepseek_v3": (
+        "deepseek_v3_reasoning_parser",
+        "DeepSeekV3ReasoningParser",
+    ),
+    "ernie45": (
+        "ernie45_reasoning_parser",
+        "Ernie45ReasoningParser",
+    ),
+    "glm45": (
+        "glm4_moe_reasoning_parser",
+        "Glm4MoeModelReasoningParser",
+    ),
+    "openai_gptoss": (
+        "gptoss_reasoning_parser",
+        "GptOssReasoningParser",
+    ),
+    "granite": (
+        "granite_reasoning_parser",
+        "GraniteReasoningParser",
+    ),
+    "hunyuan_a13b": (
+        "hunyuan_a13b_reasoning_parser",
+        "HunyuanA13BReasoningParser",
+    ),
+    "minimax_m2": (
+        "minimax_m2_reasoning_parser",
+        "MiniMaxM2ReasoningParser",
+    ),
+    "minimax_m2_append_think": (
+        "minimax_m2_reasoning_parser",
+        "MiniMaxM2AppendThinkReasoningParser",
+    ),
+    "mistral": (
+        "mistral_reasoning_parser",
+        "MistralReasoningParser",
+    ),
+    "olmo3": (
+        "olmo3_reasoning_parser",
+        "Olmo3ReasoningParser",
+    ),
+    "qwen3": (
+        "qwen3_reasoning_parser",
+        "Qwen3ReasoningParser",
+    ),
+    "seed_oss": (
+        "seedoss_reasoning_parser",
+        "SeedOSSReasoningParser",
+    ),
+    "step3": (
+        "step3_reasoning_parser",
+        "Step3ReasoningParser",
+    ),
+}
+
+
+def register_lazy_reasoning_parsers():
+    for name, (file_name, class_name) in _REASONING_PARSERS_TO_REGISTER.items():
+        module_path = f"vllm.reasoning.{file_name}"
+        ReasoningParserManager.register_lazy_module(name, module_path, class_name)
+
+
+register_lazy_reasoning_parsers()
diff --git a/vllm/reasoning/abs_reasoning_parsers.py b/vllm/reasoning/abs_reasoning_parsers.py
index ebd660ca5a84d..63ff450053ea1 100644
--- a/vllm/reasoning/abs_reasoning_parsers.py
+++ b/vllm/reasoning/abs_reasoning_parsers.py
@@ -1,6 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
+import importlib
 import os
 from abc import abstractmethod
 from collections.abc import Callable, Sequence
@@ -129,50 +130,117 @@ class ReasoningParser:
 
 
 class ReasoningParserManager:
-    reasoning_parsers: dict[str, type] = {}
+    """
+    Central registry for ReasoningParser implementations.
+
+    Supports two registration modes:
+      - Eager registration via `register_module`
+      - Lazy registration via `register_lazy_module`
+
+    Each reasoning parser must inherit from `ReasoningParser`.
+    """
+
+    reasoning_parsers: dict[str, type[ReasoningParser]] = {}
+    lazy_parsers: dict[str, tuple[str, str]] = {}  # name -> (module_path, class_name)
 
     @classmethod
-    def get_reasoning_parser(cls, name: str | None) -> type[ReasoningParser]:
+    def get_reasoning_parser(cls, name: str) -> type[ReasoningParser]:
         """
-        Get reasoning parser by name which is registered by `register_module`.
+        Retrieve a registered or lazily registered ReasoningParser class.
 
-        Raise a KeyError exception if the name is not registered.
+        If the parser is lazily registered, it will be imported and cached
+        on first access.
+
+        Raises:
+            KeyError: if no parser is found under the given name.
         """
         if name in cls.reasoning_parsers:
             return cls.reasoning_parsers[name]
 
-        raise KeyError(f"reasoning helper: '{name}' not found in reasoning_parsers")
+        if name in cls.lazy_parsers:
+            return cls._load_lazy_parser(name)
+
+        raise KeyError(f"Reasoning parser '{name}' not found.")
+
+    @classmethod
+    def list_registered(cls) -> list[str]:
+        """Return names of all eagerly and lazily registered reasoning parsers."""
+        return sorted(set(cls.reasoning_parsers.keys()) | set(cls.lazy_parsers.keys()))
+
+    @classmethod
+    def _load_lazy_parser(cls, name: str) -> type[ReasoningParser]:
+        """Import and register a lazily loaded reasoning parser."""
+        module_path, class_name = cls.lazy_parsers[name]
+        try:
+            mod = importlib.import_module(module_path)
+            parser_cls = getattr(mod, class_name)
+            if not issubclass(parser_cls, ReasoningParser):
+                raise TypeError(
+                    f"{class_name} in {module_path} is not a ReasoningParser subclass."
+                )
+
+            cls.reasoning_parsers[name] = parser_cls  # cache
+            return parser_cls
+        except Exception as e:
+            logger.exception(
+                "Failed to import lazy reasoning parser '%s' from %s: %s",
+                name,
+                module_path,
+                e,
+            )
+            raise
 
     @classmethod
     def _register_module(
         cls,
-        module: type,
+        module: type[ReasoningParser],
         module_name: str | list[str] | None = None,
         force: bool = True,
     ) -> None:
+        """Register a ReasoningParser class immediately."""
         if not issubclass(module, ReasoningParser):
             raise TypeError(
                 f"module must be subclass of ReasoningParser, but got {type(module)}"
             )
+
         if module_name is None:
-            module_name = module.__name__
-        if isinstance(module_name, str):
-            module_name = [module_name]
-        for name in module_name:
+            module_names = [module.__name__]
+        elif isinstance(module_name, str):
+            module_names = [module_name]
+        elif is_list_of(module_name, str):
+            module_names = module_name
+        else:
+            raise TypeError("module_name must be str, list[str], or None.")
+
+        for name in module_names:
             if not force and name in cls.reasoning_parsers:
-                existed_module = cls.reasoning_parsers[name]
-                raise KeyError(
-                    f"{name} is already registered at {existed_module.__module__}"
-                )
+                existed = cls.reasoning_parsers[name]
+                raise KeyError(f"{name} is already registered at {existed.__module__}")
             cls.reasoning_parsers[name] = module
 
+    @classmethod
+    def register_lazy_module(cls, name: str, module_path: str, class_name: str) -> None:
+        """
+        Register a lazy module mapping for delayed import.
+
+        Example:
+            ReasoningParserManager.register_lazy_module(
+                name="qwen3",
+                module_path="vllm.reasoning.parsers.qwen3_reasoning_parser",
+                class_name="Qwen3ReasoningParser",
+            )
+        """
+        cls.lazy_parsers[name] = (module_path, class_name)
+
     @classmethod
     def register_module(
         cls,
         name: str | list[str] | None = None,
         force: bool = True,
-        module: type | None = None,
-    ) -> type | Callable:
+        module: type[ReasoningParser] | None = None,
+    ) -> (
+        type[ReasoningParser] | Callable[[type[ReasoningParser]], type[ReasoningParser]]
+    ):
         """
         Register module with the given name or name list. it can be used as a
         decoder(with module as None) or normal function(with module as not
@@ -181,24 +249,29 @@ class ReasoningParserManager:
         if not isinstance(force, bool):
             raise TypeError(f"force must be a boolean, but got {type(force)}")
 
-        # raise the error ahead of time
-        if not (name is None or isinstance(name, str) or is_list_of(name, str)):
-            raise TypeError(
-                "name must be None, an instance of str, or a sequence of str, "
-                f"but got {type(name)}"
-            )
-
-        # use it as a normal method: x.register_module(module=SomeClass)
+        # Immediate registration (explicit call)
         if module is not None:
             cls._register_module(module=module, module_name=name, force=force)
             return module
 
-        # use it as a decorator: @x.register_module()
-        def _register(module):
-            cls._register_module(module=module, module_name=name, force=force)
-            return module
+        # Decorator usage
+        def _decorator(obj: type[ReasoningParser]) -> type[ReasoningParser]:
+            module_path = obj.__module__
+            class_name = obj.__name__
 
-        return _register
+            if isinstance(name, str):
+                names = [name]
+            elif is_list_of(name, str):
+                names = name
+            else:
+                names = [class_name]
+
+            for n in names:
+                cls.lazy_parsers[n] = (module_path, class_name)
+
+            return obj
+
+        return _decorator
 
     @classmethod
     def import_reasoning_parser(cls, plugin_path: str) -> None:
diff --git a/vllm/reasoning/deepseek_r1_reasoning_parser.py b/vllm/reasoning/deepseek_r1_reasoning_parser.py
index d5200145ea03e..ad4e0fe6c9ce8 100644
--- a/vllm/reasoning/deepseek_r1_reasoning_parser.py
+++ b/vllm/reasoning/deepseek_r1_reasoning_parser.py
@@ -4,11 +4,9 @@
 from collections.abc import Sequence
 
 from vllm.entrypoints.openai.protocol import DeltaMessage
-from vllm.reasoning.abs_reasoning_parsers import ReasoningParserManager
 from vllm.reasoning.basic_parsers import BaseThinkingReasoningParser
 
 
-@ReasoningParserManager.register_module("deepseek_r1")
 class DeepSeekR1ReasoningParser(BaseThinkingReasoningParser):
     """
     Reasoning parser for DeepSeek R1 model.
diff --git a/vllm/reasoning/deepseek_v3_reasoning_parser.py b/vllm/reasoning/deepseek_v3_reasoning_parser.py
index 7116f90a1ac0a..73292f9047c16 100644
--- a/vllm/reasoning/deepseek_v3_reasoning_parser.py
+++ b/vllm/reasoning/deepseek_v3_reasoning_parser.py
@@ -10,7 +10,6 @@ from vllm.logger import init_logger
 from vllm.reasoning import (
     DeepSeekR1ReasoningParser,
     ReasoningParser,
-    ReasoningParserManager,
 )
 
 from .identity_reasoning_parser import IdentityReasoningParser
@@ -18,7 +17,6 @@ from .identity_reasoning_parser import IdentityReasoningParser
 logger = init_logger(__name__)
 
 
-@ReasoningParserManager.register_module("deepseek_v3")
 class DeepSeekV3ReasoningParser(ReasoningParser):
     """
     V3 parser that delegates to either DeepSeekR1ReasoningParser or
diff --git a/vllm/reasoning/ernie45_reasoning_parser.py b/vllm/reasoning/ernie45_reasoning_parser.py
index 8dfbcc0ce46bf..11dc1d10f73e3 100644
--- a/vllm/reasoning/ernie45_reasoning_parser.py
+++ b/vllm/reasoning/ernie45_reasoning_parser.py
@@ -7,13 +7,11 @@ from transformers import PreTrainedTokenizerBase
 
 from vllm.entrypoints.openai.protocol import ChatCompletionRequest, DeltaMessage
 from vllm.logger import init_logger
-from vllm.reasoning import ReasoningParserManager
 from vllm.reasoning.basic_parsers import BaseThinkingReasoningParser
 
 logger = init_logger(__name__)
 
 
-@ReasoningParserManager.register_module("ernie45")
 class Ernie45ReasoningParser(BaseThinkingReasoningParser):
     """
     Reasoning parser for Ernie45 thinking model.
diff --git a/vllm/reasoning/glm4_moe_reasoning_parser.py b/vllm/reasoning/glm4_moe_reasoning_parser.py
index 09cd43c1d555e..d43fa77007995 100644
--- a/vllm/reasoning/glm4_moe_reasoning_parser.py
+++ b/vllm/reasoning/glm4_moe_reasoning_parser.py
@@ -7,12 +7,11 @@ from transformers import PreTrainedTokenizerBase
 
 from vllm.entrypoints.openai.protocol import ChatCompletionRequest, DeltaMessage
 from vllm.logger import init_logger
-from vllm.reasoning import ReasoningParser, ReasoningParserManager
+from vllm.reasoning import ReasoningParser
 
 logger = init_logger(__name__)
 
 
-@ReasoningParserManager.register_module("glm45")
 class Glm4MoeModelReasoningParser(ReasoningParser):
     """
     Reasoning parser for the Glm4MoeModel model.
diff --git a/vllm/reasoning/gptoss_reasoning_parser.py b/vllm/reasoning/gptoss_reasoning_parser.py
index e6766ddcbc687..fbfa7619ef3cf 100644
--- a/vllm/reasoning/gptoss_reasoning_parser.py
+++ b/vllm/reasoning/gptoss_reasoning_parser.py
@@ -9,7 +9,7 @@ from vllm.entrypoints.harmony_utils import parse_chat_output
 from vllm.entrypoints.openai.protocol import ChatCompletionRequest, DeltaMessage
 from vllm.entrypoints.tool_server import ToolServer
 from vllm.logger import init_logger
-from vllm.reasoning import ReasoningParser, ReasoningParserManager
+from vllm.reasoning import ReasoningParser
 
 logger = init_logger(__name__)
 
@@ -57,7 +57,6 @@ def tag_with_builtin_funcs(no_func_reaonsing_tag, builtin_tool_list: list[str])
     return new_tag
 
 
-@ReasoningParserManager.register_module("openai_gptoss")
 class GptOssReasoningParser(ReasoningParser):
     """
     Reasoning parser for GptOss model.
diff --git a/vllm/reasoning/granite_reasoning_parser.py b/vllm/reasoning/granite_reasoning_parser.py
index 44391f8ad6351..eae6c2f5c7b33 100644
--- a/vllm/reasoning/granite_reasoning_parser.py
+++ b/vllm/reasoning/granite_reasoning_parser.py
@@ -8,12 +8,11 @@ from transformers import PreTrainedTokenizerBase
 
 from vllm.entrypoints.openai.protocol import ChatCompletionRequest, DeltaMessage
 from vllm.logger import init_logger
-from vllm.reasoning import ReasoningParser, ReasoningParserManager
+from vllm.reasoning import ReasoningParser
 
 logger = init_logger(__name__)
 
 
-@ReasoningParserManager.register_module("granite")
 class GraniteReasoningParser(ReasoningParser):
     """
     Reasoning parser for IBM Granite.
diff --git a/vllm/reasoning/hunyuan_a13b_reasoning_parser.py b/vllm/reasoning/hunyuan_a13b_reasoning_parser.py
index e5cf6f399740f..1a82068c26946 100644
--- a/vllm/reasoning/hunyuan_a13b_reasoning_parser.py
+++ b/vllm/reasoning/hunyuan_a13b_reasoning_parser.py
@@ -8,12 +8,11 @@ from transformers import PreTrainedTokenizerBase
 
 from vllm.entrypoints.openai.protocol import ChatCompletionRequest, DeltaMessage
 from vllm.logger import init_logger
-from vllm.reasoning import ReasoningParser, ReasoningParserManager
+from vllm.reasoning import ReasoningParser
 
 logger = init_logger(__name__)
 
 
-@ReasoningParserManager.register_module("hunyuan_a13b")
 class HunyuanA13BReasoningParser(ReasoningParser):
     """
     Reasoning parser for Hunyuan A13B Model
diff --git a/vllm/reasoning/minimax_m2_reasoning_parser.py b/vllm/reasoning/minimax_m2_reasoning_parser.py
index 0d4f6cc270a1c..440b2b6e2fc24 100644
--- a/vllm/reasoning/minimax_m2_reasoning_parser.py
+++ b/vllm/reasoning/minimax_m2_reasoning_parser.py
@@ -9,14 +9,13 @@ from vllm.entrypoints.openai.protocol import (
     ResponsesRequest,
 )
 from vllm.logger import init_logger
-from vllm.reasoning.abs_reasoning_parsers import ReasoningParser, ReasoningParserManager
+from vllm.reasoning.abs_reasoning_parsers import ReasoningParser
 from vllm.reasoning.basic_parsers import BaseThinkingReasoningParser
 from vllm.transformers_utils.tokenizer import AnyTokenizer
 
 logger = init_logger(__name__)
 
 
-@ReasoningParserManager.register_module("minimax_m2")
 class MiniMaxM2ReasoningParser(BaseThinkingReasoningParser):
     """
     Reasoning parser for MiniMax M2 model.
@@ -33,7 +32,6 @@ class MiniMaxM2ReasoningParser(BaseThinkingReasoningParser):
         return "</think>"
 
 
-@ReasoningParserManager.register_module("minimax_m2_append_think")
 class MiniMaxM2AppendThinkReasoningParser(ReasoningParser):
     """
     Reasoning parser for MiniMax M2 model.
diff --git a/vllm/reasoning/mistral_reasoning_parser.py b/vllm/reasoning/mistral_reasoning_parser.py
index 5658c372a264c..af6d179bf6d01 100644
--- a/vllm/reasoning/mistral_reasoning_parser.py
+++ b/vllm/reasoning/mistral_reasoning_parser.py
@@ -4,14 +4,13 @@
 from functools import cached_property
 
 from vllm.logger import init_logger
-from vllm.reasoning import ReasoningParser, ReasoningParserManager
+from vllm.reasoning import ReasoningParser
 from vllm.reasoning.deepseek_r1_reasoning_parser import DeepSeekR1ReasoningParser
 from vllm.transformers_utils.tokenizers.mistral import MistralTokenizer
 
 logger = init_logger(__name__)
 
 
-@ReasoningParserManager.register_module("mistral")
 class MistralReasoningParser(DeepSeekR1ReasoningParser):
     """
     Reasoning parser for Mistral models.
diff --git a/vllm/reasoning/olmo3_reasoning_parser.py b/vllm/reasoning/olmo3_reasoning_parser.py
index b6c26899a1148..91512a2e34c76 100644
--- a/vllm/reasoning/olmo3_reasoning_parser.py
+++ b/vllm/reasoning/olmo3_reasoning_parser.py
@@ -17,7 +17,7 @@ from vllm.entrypoints.openai.protocol import (
     ResponsesRequest,
 )
 from vllm.logger import init_logger
-from vllm.reasoning import ReasoningParser, ReasoningParserManager
+from vllm.reasoning import ReasoningParser
 
 logger = init_logger(__name__)
 
@@ -192,7 +192,6 @@ class Olmo3ReasoningBuffer:
         return delta_message
 
 
-@ReasoningParserManager.register_module("olmo3")
 class Olmo3ReasoningParser(ReasoningParser):
     """
     Reasoning parser for Olmo 3 model
diff --git a/vllm/reasoning/qwen3_reasoning_parser.py b/vllm/reasoning/qwen3_reasoning_parser.py
index 2ec06720719da..254f0e2e066b3 100644
--- a/vllm/reasoning/qwen3_reasoning_parser.py
+++ b/vllm/reasoning/qwen3_reasoning_parser.py
@@ -3,11 +3,9 @@
 
 
 from vllm.entrypoints.openai.protocol import ChatCompletionRequest, ResponsesRequest
-from vllm.reasoning.abs_reasoning_parsers import ReasoningParserManager
 from vllm.reasoning.basic_parsers import BaseThinkingReasoningParser
 
 
-@ReasoningParserManager.register_module("qwen3")
 class Qwen3ReasoningParser(BaseThinkingReasoningParser):
     """
     Reasoning parser for the Qwen3 model.
diff --git a/vllm/reasoning/seedoss_reasoning_parser.py b/vllm/reasoning/seedoss_reasoning_parser.py
index 72f8dc54f1b37..d3d4d8ec0749e 100644
--- a/vllm/reasoning/seedoss_reasoning_parser.py
+++ b/vllm/reasoning/seedoss_reasoning_parser.py
@@ -1,11 +1,10 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
-from vllm.reasoning.abs_reasoning_parsers import ReasoningParserManager
+
 from vllm.reasoning.basic_parsers import BaseThinkingReasoningParser
 
 
-@ReasoningParserManager.register_module("seed_oss")
 class SeedOSSReasoningParser(BaseThinkingReasoningParser):
     """
     Reasoning parser for SeedOSS model.
diff --git a/vllm/reasoning/step3_reasoning_parser.py b/vllm/reasoning/step3_reasoning_parser.py
index ae066d96f2505..202da057b028b 100644
--- a/vllm/reasoning/step3_reasoning_parser.py
+++ b/vllm/reasoning/step3_reasoning_parser.py
@@ -8,12 +8,11 @@ from transformers import PreTrainedTokenizerBase
 
 from vllm.entrypoints.openai.protocol import ChatCompletionRequest, DeltaMessage
 from vllm.logger import init_logger
-from vllm.reasoning import ReasoningParser, ReasoningParserManager
+from vllm.reasoning import ReasoningParser
 
 logger = init_logger(__name__)
 
 
-@ReasoningParserManager.register_module("step3")
 class Step3ReasoningParser(ReasoningParser):
     """
     Reasoning parser for Step3 model.

From 0976711f3b569aae4a8c9ac148f0771624293120 Mon Sep 17 00:00:00 2001
From: Chauncey <chaunceyjiang@gmail.com>
Date: Wed, 5 Nov 2025 15:46:39 +0800
Subject: [PATCH 143/976] [Refactor] to simplify and extract the shared logic
 between chat completion and responses (#27961)

Signed-off-by: chaunceyjiang <chaunceyjiang@gmail.com>
---
 vllm/entrypoints/openai/serving_chat.py   | 96 +++++++++--------------
 vllm/entrypoints/openai/serving_engine.py | 78 +++++++++++++++++-
 2 files changed, 112 insertions(+), 62 deletions(-)

diff --git a/vllm/entrypoints/openai/serving_chat.py b/vllm/entrypoints/openai/serving_chat.py
index 25979d5502b07..b789acc26cdef 100644
--- a/vllm/entrypoints/openai/serving_chat.py
+++ b/vllm/entrypoints/openai/serving_chat.py
@@ -13,7 +13,6 @@ import partial_json_parser
 import regex as re
 from fastapi import Request
 from openai_harmony import Message as OpenAIMessage
-from pydantic import TypeAdapter
 
 from vllm.engine.protocol import EngineClient
 from vllm.entrypoints.chat_utils import (
@@ -47,8 +46,6 @@ from vllm.entrypoints.openai.protocol import (
     DeltaMessage,
     DeltaToolCall,
     ErrorResponse,
-    FunctionCall,
-    FunctionDefinition,
     PromptTokenUsageInfo,
     RequestResponseMetadata,
     ToolCall,
@@ -1394,6 +1391,16 @@ class OpenAIServingChat(OpenAIServing):
             auto_tools_called = False
             # if auto tools are not enabled, and a named tool choice using
             #   outlines is not being used
+            tool_calls, content = self._parse_tool_calls_from_content(
+                request=request,
+                tokenizer=tokenizer,
+                content=content,
+                enable_auto_tools=self.enable_auto_tools,
+                tool_parser_cls=self.tool_parser,
+            )
+            tool_call_class = (
+                MistralToolCall if isinstance(tokenizer, MistralTokenizer) else ToolCall
+            )
             if (not self.enable_auto_tools or not self.tool_parser) and (
                 not isinstance(request.tool_choice, ChatCompletionNamedToolChoiceParam)
                 and request.tool_choice != "required"
@@ -1407,63 +1414,33 @@ class OpenAIServingChat(OpenAIServing):
                 request.tool_choice
                 and type(request.tool_choice) is ChatCompletionNamedToolChoiceParam
             ):
-                tool_call_class = (
-                    MistralToolCall
-                    if isinstance(tokenizer, MistralTokenizer)
-                    else ToolCall
-                )
+                assert tool_calls is not None and len(tool_calls) > 0
                 message = ChatMessage(
                     role=role,
                     reasoning_content=reasoning_content,
                     content="",
-                    tool_calls=[
-                        tool_call_class(
-                            function=FunctionCall(
-                                name=request.tool_choice.function.name,
-                                arguments=content,
-                            )
-                        )
-                    ],
+                    tool_calls=[tool_call_class(function=tc) for tc in tool_calls],
                 )
 
             elif request.tool_choice and request.tool_choice == "required":
-                tool_call_class = (
-                    MistralToolCall
-                    if isinstance(tokenizer, MistralTokenizer)
-                    else ToolCall
-                )
-
-                # the fields of FunctionDefinition are a superset of the
-                # tool call outputs and can be used for parsing
-                assert content is not None
-                tool_calls = TypeAdapter(list[FunctionDefinition]).validate_json(
-                    content
-                )
-                tool_call_ids = []
+                tool_call_class_items = []
+                assert tool_calls is not None and len(tool_calls) > 0
                 for tool_call in tool_calls:
-                    tool_call_ids.append(
-                        make_tool_call_id(
-                            id_type=self.tool_call_id_type,
-                            func_name=tool_call.name,
-                            idx=history_tool_call_cnt,
+                    tool_call_class_items.append(
+                        tool_call_class(
+                            id=make_tool_call_id(
+                                id_type=self.tool_call_id_type,
+                                func_name=tool_call.name,
+                                idx=history_tool_call_cnt,
+                            ),
+                            function=tool_call,
                         )
                     )
                     history_tool_call_cnt += 1
                 message = ChatMessage(
                     role=role,
                     content="",
-                    tool_calls=[
-                        tool_call_class(
-                            id=tool_call_ids[i],
-                            function=FunctionCall(
-                                name=tool_call.name,
-                                arguments=json.dumps(
-                                    tool_call.parameters, ensure_ascii=False
-                                ),
-                            ),
-                        )
-                        for i, tool_call in enumerate(tool_calls)
-                    ],
+                    tool_calls=tool_call_class_items,
                     reasoning_content=reasoning_content,
                 )
 
@@ -1481,25 +1458,22 @@ class OpenAIServingChat(OpenAIServing):
                 and self.enable_auto_tools
                 and self.tool_parser
             ):
-                try:
-                    tool_parser = self.tool_parser(tokenizer)
-                except RuntimeError as e:
-                    logger.exception("Error in tool parser creation.")
-                    return self.create_error_response(str(e))
-
-                tool_call_info = tool_parser.extract_tool_calls(
-                    content if content is not None else "", request=request
-                )
                 # In the OpenAI API the finish_reason is "tools_called"
                 # if the tool choice is auto and the model produced a tool
                 # call. The same is not true for named function calls
-                auto_tools_called = tool_call_info.tools_called
-                if tool_call_info.tools_called:
+                auto_tools_called = tool_calls is not None and len(tool_calls) > 0
+                if tool_calls:
                     message = ChatMessage(
                         role=role,
                         reasoning_content=reasoning_content,
-                        content=tool_call_info.content,
-                        tool_calls=tool_call_info.tool_calls,
+                        content=content,
+                        tool_calls=[
+                            ToolCall(
+                                function=tc,
+                                type="function",
+                            )
+                            for tc in tool_calls
+                        ],
                     )
 
                 else:
@@ -1509,8 +1483,8 @@ class OpenAIServingChat(OpenAIServing):
 
                     # try to use content return from tool parser first,
                     # tool parser may do some modify for the content.
-                    if tool_call_info.content and len(tool_call_info.content) > 0:
-                        ret_content = tool_call_info.content
+                    if content and len(content) > 0:
+                        ret_content = content
                     message = ChatMessage(
                         role=role,
                         reasoning_content=reasoning_content,
diff --git a/vllm/entrypoints/openai/serving_engine.py b/vllm/entrypoints/openai/serving_engine.py
index 46e79edbde611..bafc0e2c372f7 100644
--- a/vllm/entrypoints/openai/serving_engine.py
+++ b/vllm/entrypoints/openai/serving_engine.py
@@ -12,7 +12,7 @@ from typing import Any, ClassVar, Generic, TypeAlias, TypeVar
 
 import torch
 from fastapi import Request
-from pydantic import BaseModel, ConfigDict, Field
+from pydantic import BaseModel, ConfigDict, Field, TypeAdapter
 from starlette.datastructures import Headers
 from typing_extensions import TypeIs
 
@@ -21,6 +21,10 @@ if sys.version_info >= (3, 12):
 else:
     from typing_extensions import TypedDict
 
+from openai.types.responses import (
+    ToolChoiceFunction,
+)
+
 import vllm.envs as envs
 from vllm.beam_search import BeamSearchSequence, create_sort_beams_key_function
 from vllm.engine.protocol import EngineClient
@@ -36,6 +40,7 @@ from vllm.entrypoints.chat_utils import (
 from vllm.entrypoints.context import ConversationContext
 from vllm.entrypoints.logger import RequestLogger
 from vllm.entrypoints.openai.protocol import (
+    ChatCompletionNamedToolChoiceParam,
     ChatCompletionRequest,
     ChatCompletionResponse,
     ClassificationRequest,
@@ -49,6 +54,8 @@ from vllm.entrypoints.openai.protocol import (
     EmbeddingResponse,
     ErrorInfo,
     ErrorResponse,
+    FunctionCall,
+    FunctionDefinition,
     IOProcessorRequest,
     PoolingResponse,
     RerankRequest,
@@ -1305,6 +1312,75 @@ class OpenAIServing:
         except ValueError:
             return None
 
+    @staticmethod
+    def _parse_tool_calls_from_content(
+        request: ResponsesRequest | ChatCompletionRequest,
+        tokenizer: AnyTokenizer,
+        enable_auto_tools: bool,
+        tool_parser_cls: Callable[[AnyTokenizer], ToolParser] | None,
+        content: str | None = None,
+    ) -> tuple[list[FunctionCall] | None, str | None]:
+        function_calls = list[FunctionCall]()
+        if request.tool_choice and isinstance(request.tool_choice, ToolChoiceFunction):
+            assert content is not None
+            # Forced Function Call
+            function_calls.append(
+                FunctionCall(name=request.tool_choice.name, arguments=content)
+            )
+            content = None  # Clear content since tool is called.
+        elif request.tool_choice and isinstance(
+            request.tool_choice, ChatCompletionNamedToolChoiceParam
+        ):
+            assert content is not None
+            # Forced Function Call
+            function_calls.append(
+                FunctionCall(name=request.tool_choice.function.name, arguments=content)
+            )
+            content = None  # Clear content since tool is called.
+        elif request.tool_choice == "required":
+            assert content is not None
+            tool_calls = TypeAdapter(list[FunctionDefinition]).validate_json(content)
+            function_calls.extend(
+                [
+                    FunctionCall(
+                        name=tool_call.name,
+                        arguments=json.dumps(tool_call.parameters, ensure_ascii=False),
+                    )
+                    for tool_call in tool_calls
+                ]
+            )
+            content = None  # Clear content since tool is called.
+        elif (
+            tool_parser_cls
+            and enable_auto_tools
+            and (request.tool_choice == "auto" or request.tool_choice is None)
+        ):
+            # Automatic Tool Call Parsing
+            try:
+                tool_parser = tool_parser_cls(tokenizer)
+            except RuntimeError as e:
+                logger.exception("Error in tool parser creation.")
+                raise e
+            tool_call_info = tool_parser.extract_tool_calls(
+                content if content is not None else "",
+                request=request,  # type: ignore
+            )
+            if tool_call_info is not None and tool_call_info.tools_called:
+                # extract_tool_calls() returns a list of tool calls.
+                function_calls.extend(
+                    FunctionCall(
+                        name=tool_call.function.name,
+                        arguments=tool_call.function.arguments,
+                    )
+                    for tool_call in tool_call_info.tool_calls
+                )
+                content = tool_call_info.content
+            else:
+                # No tool calls.
+                return None, content
+
+        return function_calls, content
+
     @staticmethod
     def _get_decoded_token(
         logprob: Logprob,

From 16b37f3119918c1e5a39f303e0d0892c65c07a90 Mon Sep 17 00:00:00 2001
From: Qiu <chunshuoq@gmail.com>
Date: Wed, 5 Nov 2025 17:58:13 +0800
Subject: [PATCH 144/976] [bugfix] fix wrong `dcp_local_seq_lens` calc (#27518)

Signed-off-by: Qiu <qiuchunshuo@huawei.com>
---
 vllm/v1/attention/backends/mla/common.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/v1/attention/backends/mla/common.py b/vllm/v1/attention/backends/mla/common.py
index 413d20ce04021..f57dfc1571b6e 100755
--- a/vllm/v1/attention/backends/mla/common.py
+++ b/vllm/v1/attention/backends/mla/common.py
@@ -800,7 +800,7 @@ class MLACommonMetadataBuilder(AttentionMetadataBuilder[M]):
             dcp_local_seq_lens[:num_decodes] = seq_lens[
                 :num_decodes
             ] // self.dcp_world_size + (
-                self.dcp_rank <= (seq_lens[:num_decodes] - 1) % self.dcp_world_size
+                self.dcp_rank < seq_lens[:num_decodes] % self.dcp_world_size
             )
 
         assert num_decodes + num_prefills == num_reqs

From 86dca07d9bfd9f892f820d2d9a45b102d1f4a096 Mon Sep 17 00:00:00 2001
From: Kuntai Du <kuntai@uchicago.edu>
Date: Wed, 5 Nov 2025 02:36:31 -0800
Subject: [PATCH 145/976] [Hybrid allocator + kv connector] revert connector
 test changes related to hybrid allocator (#28011)

Signed-off-by: KuntaiDu <kuntai@uchicago.edu>
---
 tests/v1/core/test_scheduler.py                            | 7 -------
 tests/v1/core/utils.py                                     | 2 --
 .../v1/kv_connector/nixl_integration/run_accuracy_test.sh  | 2 --
 .../v1/kv_connector/nixl_integration/run_edge_case_test.sh | 2 --
 tests/v1/kv_connector/unit/test_multi_connector.py         | 1 -
 tests/v1/kv_connector/unit/test_nixl_connector.py          | 1 -
 .../v1/kv_connector/unit/test_shared_storage_connector.py  | 1 -
 tests/v1/kv_connector/unit/utils.py                        | 3 ---
 8 files changed, 19 deletions(-)

diff --git a/tests/v1/core/test_scheduler.py b/tests/v1/core/test_scheduler.py
index 92e3831b9c7a6..749cf7dc8397e 100644
--- a/tests/v1/core/test_scheduler.py
+++ b/tests/v1/core/test_scheduler.py
@@ -891,7 +891,6 @@ def test_kv_connector_basic():
     scheduler = create_scheduler(
         enable_prefix_caching=True,
         use_kv_connector=True,
-        disable_hybrid_kv_cache_manager=True,
     )
     NUM_TOTAL_BLOCKS = scheduler.kv_cache_manager.block_pool.get_num_free_blocks()
     BLOCK_SIZE = scheduler.cache_config.block_size
@@ -1017,7 +1016,6 @@ def test_external_prefix_cache_metrics():
     scheduler = create_scheduler(
         enable_prefix_caching=False,
         use_kv_connector=True,
-        disable_hybrid_kv_cache_manager=True,
     )
 
     # Mock connector to simulate a partial external cache hit
@@ -1082,7 +1080,6 @@ def test_kv_connector_unable_to_allocate():
         use_kv_connector=True,
         block_size=BLOCK_SIZE,
         num_blocks=NUM_BLOCKS,
-        disable_hybrid_kv_cache_manager=True,
     )
     NUM_MATCHED_NEW_TOKENS = BLOCK_SIZE * 2
     scheduler.connector.get_num_new_matched_tokens = Mock(name="method")
@@ -1166,7 +1163,6 @@ def test_kv_connector_handles_preemption():
         use_kv_connector=True,
         block_size=BLOCK_SIZE,
         num_blocks=NUM_BLOCKS,
-        disable_hybrid_kv_cache_manager=True,
     )
 
     NUM_MATCHED_NEW_TOKENS = BLOCK_SIZE
@@ -1383,7 +1379,6 @@ def create_scheduler_with_priority(
     block_size: int = 16,
     max_model_len: int | None = None,
     num_speculative_tokens: int | None = None,
-    disable_hybrid_kv_cache_manager: bool = False,
 ) -> Scheduler:
     """Create scheduler with priority policy enabled.
 
@@ -1408,7 +1403,6 @@ def create_scheduler_with_priority(
         disable_chunked_mm_input=disable_chunked_mm_input,
         enable_chunked_prefill=True,
         policy="priority",  # Enable priority scheduling
-        disable_hybrid_kv_cache_manager=disable_hybrid_kv_cache_manager,
     )
     model_config = ModelConfig(
         model=model,
@@ -2015,7 +2009,6 @@ def test_priority_scheduling_preemption_and_resumption_when_out_of_kv():
         num_blocks=5,  # Can hold 64 tokens (first block is null)
         block_size=16,  # Standard block size
         use_kv_connector=True,
-        disable_hybrid_kv_cache_manager=True,
     )
 
     # Create a request and schedule it
diff --git a/tests/v1/core/utils.py b/tests/v1/core/utils.py
index 3f5e1b9eeaf73..6e739d6b0e77a 100644
--- a/tests/v1/core/utils.py
+++ b/tests/v1/core/utils.py
@@ -46,7 +46,6 @@ def create_scheduler(
     num_speculative_tokens: int | None = None,
     skip_tokenizer_init: bool = False,
     async_scheduling: bool = False,
-    disable_hybrid_kv_cache_manager: bool = False,
 ) -> Scheduler | AsyncScheduler:
     """Create scheduler under test.
 
@@ -71,7 +70,6 @@ def create_scheduler(
         disable_chunked_mm_input=disable_chunked_mm_input,
         enable_chunked_prefill=True,
         async_scheduling=async_scheduling,
-        disable_hybrid_kv_cache_manager=disable_hybrid_kv_cache_manager,
     )
     model_config = ModelConfig(
         model=model,
diff --git a/tests/v1/kv_connector/nixl_integration/run_accuracy_test.sh b/tests/v1/kv_connector/nixl_integration/run_accuracy_test.sh
index a756858e2cc51..a9817313cf022 100755
--- a/tests/v1/kv_connector/nixl_integration/run_accuracy_test.sh
+++ b/tests/v1/kv_connector/nixl_integration/run_accuracy_test.sh
@@ -136,7 +136,6 @@ run_tests_for_model() {
     vllm serve $model_name \
     --port $PORT \
     --enforce-eager \
-    --disable-hybrid-kv-cache-manager \
     --gpu-memory-utilization $GPU_MEMORY_UTILIZATION \
     --tensor-parallel-size $PREFILLER_TP_SIZE \
     --kv-transfer-config '$KV_CONFIG'"
@@ -179,7 +178,6 @@ run_tests_for_model() {
     --port $PORT \
     --enforce-eager \
     --gpu-memory-utilization $GPU_MEMORY_UTILIZATION \
-    --disable-hybrid-kv-cache-manager \
     --kv-transfer-config '$KV_CONFIG'"
   
   # DP-EP attention mode
diff --git a/tests/v1/kv_connector/nixl_integration/run_edge_case_test.sh b/tests/v1/kv_connector/nixl_integration/run_edge_case_test.sh
index a3eeedb2e5146..c48b452e24cd4 100755
--- a/tests/v1/kv_connector/nixl_integration/run_edge_case_test.sh
+++ b/tests/v1/kv_connector/nixl_integration/run_edge_case_test.sh
@@ -85,7 +85,6 @@ run_tests_for_model() {
   --port $PREFILL_PORT \
   --enforce-eager \
   --gpu-memory-utilization 0.2 \
-  --disable-hybrid-kv-cache-manager \
   --kv-transfer-config '$KV_CONFIG'"
 
   if [ -n "$model_args" ]; then
@@ -104,7 +103,6 @@ run_tests_for_model() {
   --port $DECODE_PORT \
   --enforce-eager \
   --gpu-memory-utilization 0.2 \
-  --disable-hybrid-kv-cache-manager \
   --kv-transfer-config '$KV_CONFIG'"
 
   if [ -n "$model_args" ]; then
diff --git a/tests/v1/kv_connector/unit/test_multi_connector.py b/tests/v1/kv_connector/unit/test_multi_connector.py
index 6748532afd971..1c1ac915c758e 100644
--- a/tests/v1/kv_connector/unit/test_multi_connector.py
+++ b/tests/v1/kv_connector/unit/test_multi_connector.py
@@ -114,7 +114,6 @@ def test_multi_shared_storage_connector_consistency():
         enforce_eager=True,
         gpu_memory_utilization=0.5,
         kv_transfer_config=kv_transfer_config,
-        disable_hybrid_kv_cache_manager=True,
     )
     # Run generation - this should trigger saving KV cache
     _ = llm.generate(PROMPTS, SAMPLING_PARAMS)
diff --git a/tests/v1/kv_connector/unit/test_nixl_connector.py b/tests/v1/kv_connector/unit/test_nixl_connector.py
index 1f3fdafc644d8..475cf2285e394 100644
--- a/tests/v1/kv_connector/unit/test_nixl_connector.py
+++ b/tests/v1/kv_connector/unit/test_nixl_connector.py
@@ -1020,7 +1020,6 @@ def test_abort_timeout_on_prefiller(monkeypatch, distributed_executor_backend):
         "gpu_memory_utilization": 0.5,
         "kv_transfer_config": kv_transfer_config,
         "distributed_executor_backend": distributed_executor_backend,
-        "disable_hybrid_kv_cache_manager": True,
     }
 
     timeout = 6
diff --git a/tests/v1/kv_connector/unit/test_shared_storage_connector.py b/tests/v1/kv_connector/unit/test_shared_storage_connector.py
index 6040ed5a6806d..e7013a794a8c6 100644
--- a/tests/v1/kv_connector/unit/test_shared_storage_connector.py
+++ b/tests/v1/kv_connector/unit/test_shared_storage_connector.py
@@ -132,7 +132,6 @@ def test_shared_storage_connector_hashes(tmp_path):
         enforce_eager=True,
         kv_transfer_config=kv_transfer_config,
         limit_mm_per_prompt={"image": 2},
-        disable_hybrid_kv_cache_manager=True,
     )
 
     # don't put this import at the top level
diff --git a/tests/v1/kv_connector/unit/utils.py b/tests/v1/kv_connector/unit/utils.py
index c1c0e13f77539..f0031643aa9d4 100644
--- a/tests/v1/kv_connector/unit/utils.py
+++ b/tests/v1/kv_connector/unit/utils.py
@@ -91,9 +91,6 @@ def create_vllm_config(
         max_num_batched_tokens=max_num_batched_tokens,
         max_model_len=max_model_len,
         enable_chunked_prefill=enable_chunked_prefill,
-        # Disable hybrid KV cache manager for testing
-        # Should be removed after we support hybrid KV cache manager-based testing.
-        disable_hybrid_kv_cache_manager=True,
     )
     model_config = ModelConfig(
         model=model,

From 377061d481f377d8e9b11a1951fdfcdc1159a72c Mon Sep 17 00:00:00 2001
From: Chauncey <chaunceyjiang@gmail.com>
Date: Wed, 5 Nov 2025 19:02:32 +0800
Subject: [PATCH 146/976] [Misc] fix import error for DeepSeekR1ReasoningParser
 (#28114)

Signed-off-by: chaunceyjiang <chaunceyjiang@gmail.com>
---
 vllm/reasoning/deepseek_v3_reasoning_parser.py | 6 ++----
 1 file changed, 2 insertions(+), 4 deletions(-)

diff --git a/vllm/reasoning/deepseek_v3_reasoning_parser.py b/vllm/reasoning/deepseek_v3_reasoning_parser.py
index 73292f9047c16..81f6e1f32eb33 100644
--- a/vllm/reasoning/deepseek_v3_reasoning_parser.py
+++ b/vllm/reasoning/deepseek_v3_reasoning_parser.py
@@ -7,10 +7,8 @@ from transformers import PreTrainedTokenizerBase
 
 from vllm.entrypoints.openai.protocol import ChatCompletionRequest, DeltaMessage
 from vllm.logger import init_logger
-from vllm.reasoning import (
-    DeepSeekR1ReasoningParser,
-    ReasoningParser,
-)
+from vllm.reasoning import ReasoningParser
+from vllm.reasoning.deepseek_r1_reasoning_parser import DeepSeekR1ReasoningParser
 
 from .identity_reasoning_parser import IdentityReasoningParser
 

From b57789b62b1f7451b0df099ebc9ac6358510cabb Mon Sep 17 00:00:00 2001
From: Eric Yue <jiacheng.yue@foxmail.com>
Date: Wed, 5 Nov 2025 19:03:51 +0800
Subject: [PATCH 147/976] Fix excessive logging noise by reducing the log level
 of the MinimaxM2ToolParser import success message (#27635)

Signed-off-by: minatoaquaMK2 <jiacheng.yue@foxmail.com>
---
 vllm/entrypoints/openai/tool_parsers/minimax_m2_tool_parser.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/entrypoints/openai/tool_parsers/minimax_m2_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/minimax_m2_tool_parser.py
index 05f4826028c12..5c2258ba62b29 100644
--- a/vllm/entrypoints/openai/tool_parsers/minimax_m2_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/minimax_m2_tool_parser.py
@@ -93,7 +93,7 @@ class MinimaxM2ToolParser(ToolParser):
                 "tokens in the tokenizer!"
             )
 
-        logger.info(
+        logger.debug(
             "vLLM Successfully import tool parser %s !", self.__class__.__name__
         )
 

From 6b7a81185d7e0f0fbad23d59db857eeafee688f7 Mon Sep 17 00:00:00 2001
From: amirkl94 <203507526+amirkl94@users.noreply.github.com>
Date: Wed, 5 Nov 2025 13:06:06 +0200
Subject: [PATCH 148/976] Bugfix: Cutlass FP8 FusedMoE bad scaling factors
 (#27255)

Signed-off-by: Amir Klein <203507526+amirkl94@users.noreply.github.com>
Co-authored-by: Tyler Michael Smith <tyler@neuralmagic.com>
Co-authored-by: Michael Goin <mgoin64@gmail.com>
---
 tests/kernels/moe/test_flashinfer.py          | 24 ++++++++++++++-----
 .../model_executor/layers/fused_moe/config.py |  8 +++++++
 .../flashinfer_cutlass_prepare_finalize.py    | 14 ++++++-----
 .../layers/quantization/modelopt.py           |  8 +++++--
 4 files changed, 40 insertions(+), 14 deletions(-)

diff --git a/tests/kernels/moe/test_flashinfer.py b/tests/kernels/moe/test_flashinfer.py
index f985f9ac7ca67..707068b2bbdc2 100644
--- a/tests/kernels/moe/test_flashinfer.py
+++ b/tests/kernels/moe/test_flashinfer.py
@@ -6,7 +6,10 @@ import pytest
 import torch
 
 from vllm.config import ParallelConfig, VllmConfig, set_current_vllm_config
-from vllm.model_executor.layers.fused_moe.config import fp8_w8a8_moe_quant_config
+from vllm.model_executor.layers.fused_moe.config import (
+    FusedMoEQuantConfig,
+    fp8_w8a8_moe_quant_config,
+)
 from vllm.model_executor.layers.fused_moe.fused_moe import fused_experts
 from vllm.model_executor.layers.fused_moe.layer import FusedMoE
 from vllm.model_executor.layers.quantization.utils.flashinfer_utils import (
@@ -22,10 +25,10 @@ from vllm.platforms import current_platform
 from vllm.utils.flashinfer import has_flashinfer_cutlass_fused_moe
 
 if not has_flashinfer_cutlass_fused_moe() or not current_platform.has_device_capability(
-    100
+    90
 ):
     pytest.skip(
-        "Requires flashinfer_cutlass_fused_moe and nvfp4 support",
+        "Supported for sm >= 90",
         allow_module_level=True,
     )
 
@@ -131,6 +134,8 @@ def test_flashinfer_per_tensor_moe_fp8_no_graph(
     topk: int,
     monkeypatch,
 ):
+    if not current_platform.has_device_capability(100):
+        pytest.skip("Test is only supported for sm >= 100")
     current_platform.seed_everything(7)
     monkeypatch.setenv("VLLM_FUSED_MOE_CHUNK_SIZE", "8192")
     with set_current_vllm_config(vllm_config):
@@ -184,9 +189,6 @@ def test_flashinfer_per_tensor_moe_fp8_no_graph(
         torch.testing.assert_close(output, flashinfer_output, atol=5.5e-2, rtol=1e-2)
 
 
-@pytest.mark.skip(
-    "Requires flashinfer version that contains https://github.com/flashinfer-ai/flashinfer/pull/1472"
-)
 @pytest.mark.parametrize("m,n,k", MNK_FACTORS)
 @pytest.mark.parametrize("e", NUM_EXPERTS)
 @pytest.mark.parametrize("topk", TOP_KS)
@@ -216,9 +218,13 @@ def test_flashinfer_cutlass_moe_fp8_no_graph(
 
         quant_config = fp8_w8a8_moe_quant_config(
             w1_scale=td.w13_weight_scale,
+            g1_alphas=(td.w13_weight_scale * td.a1_scale).squeeze(),
             w2_scale=td.w2_weight_scale,
+            g2_alphas=(td.w2_weight_scale * td.a2_scale).squeeze(),
             a1_scale=td.a1_scale,
+            a1_gscale=td.a1_scale,
             a2_scale=td.a2_scale,
+            a2_gscale=1.0 / td.a2_scale,
             per_act_token_quant=False,
         )
 
@@ -238,6 +244,12 @@ def test_flashinfer_cutlass_moe_fp8_no_graph(
 
         td.layer.dp_size = 1
 
+        def get_fused_moe_quant_config(n: torch.nn.Module) -> FusedMoEQuantConfig:
+            return quant_config
+
+        td.layer.get_fused_moe_quant_config = get_fused_moe_quant_config
+        td.layer.quant_method = td.layer
+
         flashinfer_cutlass_output = flashinfer_cutlass_moe_fp8(
             td.hidden_states,
             td.layer,
diff --git a/vllm/model_executor/layers/fused_moe/config.py b/vllm/model_executor/layers/fused_moe/config.py
index 2394053329802..cbc3caafcf2f0 100644
--- a/vllm/model_executor/layers/fused_moe/config.py
+++ b/vllm/model_executor/layers/fused_moe/config.py
@@ -463,6 +463,10 @@ def fp8_w8a8_moe_quant_config(
     per_act_token_quant: bool = False,
     per_out_ch_quant: bool = False,
     block_shape: list[int] | None = None,
+    a1_gscale: torch.Tensor | None = None,
+    a2_gscale: torch.Tensor | None = None,
+    g1_alphas: torch.Tensor | None = None,
+    g2_alphas: torch.Tensor | None = None,
 ) -> FusedMoEQuantConfig:
     """
     Construct a quant config for fp8 activations and fp8 weights.
@@ -470,9 +474,13 @@ def fp8_w8a8_moe_quant_config(
     return FusedMoEQuantConfig.make(
         torch.float8_e4m3fn,
         w1_scale=w1_scale,
+        g1_alphas=g1_alphas,
         w2_scale=w2_scale,
+        g2_alphas=g2_alphas,
         a1_scale=a1_scale,
+        a1_gscale=a1_gscale,
         a2_scale=a2_scale,
+        a2_gscale=a2_gscale,
         per_act_token_quant=per_act_token_quant,
         per_out_ch_quant=per_out_ch_quant,
         block_shape=block_shape,
diff --git a/vllm/model_executor/layers/fused_moe/flashinfer_cutlass_prepare_finalize.py b/vllm/model_executor/layers/fused_moe/flashinfer_cutlass_prepare_finalize.py
index 051abbcb7949d..97ee20ae9a11f 100644
--- a/vllm/model_executor/layers/fused_moe/flashinfer_cutlass_prepare_finalize.py
+++ b/vllm/model_executor/layers/fused_moe/flashinfer_cutlass_prepare_finalize.py
@@ -170,7 +170,7 @@ class FlashInferAllGatherMoEPrepareAndFinalize(FlashInferCutlassMoEPrepareAndFin
         self._apply_router_weight_on_input(
             a1, topk_weights, topk_ids, apply_router_weight_on_input
         )
-        if not self.use_dp:
+        if not self.use_dp and quant_config.quant_dtype == "nvfp4":
             return a1, None, None, topk_ids, topk_weights
 
         a1q, a1q_scale = moe_kernel_quantize_input(
@@ -181,11 +181,13 @@ class FlashInferAllGatherMoEPrepareAndFinalize(FlashInferCutlassMoEPrepareAndFin
             quant_config.block_shape,
             is_fp4_scale_swizzled=not self.use_dp,
         )
-        topk_weights, topk_ids, a1q, a1q_scale = get_dp_group().all_gatherv(
-            [topk_weights, topk_ids, a1q, a1q_scale],
-            dim=0,
-            sizes=get_local_sizes(),
-        )
+
+        if self.use_dp:
+            topk_weights, topk_ids, a1q, a1q_scale = get_dp_group().all_gatherv(
+                [topk_weights, topk_ids, a1q, a1q_scale],
+                dim=0,
+                sizes=get_local_sizes(),
+            )
         if quant_config.quant_dtype == "nvfp4":
             a1q_scale = nvfp4_block_scale_interleave(a1q_scale)
 
diff --git a/vllm/model_executor/layers/quantization/modelopt.py b/vllm/model_executor/layers/quantization/modelopt.py
index f61d2a52925d9..0946cc171fa7c 100644
--- a/vllm/model_executor/layers/quantization/modelopt.py
+++ b/vllm/model_executor/layers/quantization/modelopt.py
@@ -567,9 +567,13 @@ class ModelOptFp8MoEMethod(FusedMoEMethodBase):
 
         return fp8_w8a8_moe_quant_config(
             w1_scale=layer.w13_weight_scale,
+            g1_alphas=(layer.w13_weight_scale * layer.w13_input_scale).squeeze(),
             w2_scale=layer.w2_weight_scale,
+            g2_alphas=(layer.w2_weight_scale * layer.w2_input_scale).squeeze(),
             a1_scale=layer.w13_input_scale,
+            a1_gscale=layer.w13_input_scale,
             a2_scale=layer.w2_input_scale,
+            a2_gscale=1.0 / layer.w2_input_scale,
             per_act_token_quant=False,
         )
 
@@ -1138,8 +1142,8 @@ class ModelOptNvFp4FusedMoE(FusedMoEMethodBase):
         moe: FusedMoEConfig,
         layer: torch.nn.Module,
     ) -> None:
-        from vllm.model_executor.layers.quantization.utils.nvfp4_moe_support import (  # noqa: E501
-            detect_nvfp4_moe_support,
+        from vllm.model_executor.layers.quantization.utils.nvfp4_moe_support import (
+            detect_nvfp4_moe_support,  # noqa: E501
         )
 
         super().__init__(moe)

From 6ab183813caa26813cf71de4991178dd0017164f Mon Sep 17 00:00:00 2001
From: Boyuan Feng <boyuan@meta.com>
Date: Wed, 5 Nov 2025 05:04:48 -0800
Subject: [PATCH 149/976] [Graph Partition][Cache] Use inductor partition ops
 config (#27702)

Signed-off-by: Boyuan Feng <boyuan@meta.com>
---
 vllm/compilation/backends.py        |  5 ++--
 vllm/compilation/partition_rules.py | 39 +++++++++--------------------
 vllm/compilation/pass_manager.py    | 30 +---------------------
 vllm/env_override.py                | 26 ++++++++++++++++---
 4 files changed, 37 insertions(+), 63 deletions(-)

diff --git a/vllm/compilation/backends.py b/vllm/compilation/backends.py
index 83d8cdae1ed34..f37c155c0fcea 100644
--- a/vllm/compilation/backends.py
+++ b/vllm/compilation/backends.py
@@ -97,10 +97,9 @@ class CompilerManager:
         compilation (e.g. partition rules, pass context)."""
         with pass_context(runtime_shape):
             if self.compilation_config.use_inductor_graph_partition:
-                inductor_partition_ops = resolve_defined_ops(
+                with inductor_partition_rule_context(
                     self.compilation_config.splitting_ops
-                )
-                with inductor_partition_rule_context(inductor_partition_ops):
+                ):
                     yield
             else:
                 yield
diff --git a/vllm/compilation/partition_rules.py b/vllm/compilation/partition_rules.py
index cea4f9a816377..094b86dcb4aa2 100644
--- a/vllm/compilation/partition_rules.py
+++ b/vllm/compilation/partition_rules.py
@@ -3,15 +3,12 @@
 
 import contextlib
 import logging
-from typing import TYPE_CHECKING
 
+import torch
 from torch._library.utils import lookup_op
 
 from vllm.logger import init_logger
 
-if TYPE_CHECKING:
-    import torch
-
 logger = init_logger(__name__)
 
 
@@ -56,47 +53,35 @@ def resolve_defined_ops(op_names: list[str]) -> list["torch._ops.OpOverload"]:
 
 
 @contextlib.contextmanager
-def inductor_partition_rule_context(overloads: list["torch._ops.OpOverload"]):
+def inductor_partition_rule_context(splitting_ops: list[str]):
     """Context manager to temporarily register Inductor partition rules.
 
     Registers custom partition rules for specified operators, forcing the
     Inductor scheduler to partition the graph at these operators. The rules
     are automatically restored to their previous state on exit.
 
-    Note: Callers should use resolve_defined_ops() to convert operator names
-    to OpOverload objects before calling this function.
-
     Args:
-        overloads: List of resolved operator overload objects.
+        splitting_ops: List of operator names to partition on.
     """
-    if not overloads:
+    if not splitting_ops:
         logger.debug("No partition ops provided; skipping rule registration.")
         yield
         return
 
-    from torch._inductor.scheduler import (  # type: ignore
-        _custom_should_partition_fns,
-        register_should_partition_rule,
-    )
-
-    def _always_partition(*_args, **_kwargs):
-        return True
-
     # Save current state before registering
-    saved_rules = _custom_should_partition_fns.copy()
 
-    for overload in overloads:
-        register_should_partition_rule(
-            overload,
-            _always_partition,
-        )
+    saved_splitting_ops: list[str] = list(
+        torch._inductor.config.custom_should_partition_ops
+    )
+    torch._inductor.config.custom_should_partition_ops = splitting_ops
 
-    logger.debug("Registered inductor partition rules for %d operators", len(overloads))
+    logger.debug(
+        "Registered inductor partition rules for %d operators", len(splitting_ops)
+    )
 
     try:
         yield
     finally:
         # Clear and restore previous state
-        _custom_should_partition_fns.clear()
-        _custom_should_partition_fns.update(saved_rules)
+        torch._inductor.config.custom_should_partition_ops = saved_splitting_ops
         logger.debug("Restored previous partition rules state.")
diff --git a/vllm/compilation/pass_manager.py b/vllm/compilation/pass_manager.py
index 3bc35a8f71983..dfda2adf1d3b0 100644
--- a/vllm/compilation/pass_manager.py
+++ b/vllm/compilation/pass_manager.py
@@ -113,27 +113,6 @@ class PostGradPassManager(CustomGraphPass):
             self.post_cleanup = PostCleanupPass(config)
             self.fix_functionalization = FixFunctionalizationPass(config)
 
-        # [HACK: Bug with Inductor graph partition and torch.compile cache]
-        # In PyTorch 2.9, torch.compile has a bug where the graph
-        # partition is not taken into account during caching.
-        # Because vLLM's Mode.VLLM_COMPILE is the only mode that uses
-        # Inductor graph partition, and VLLM_COMPILE implies there
-        # is a PostGradPassManager, we put the list of operators to graph
-        # partition into the PostGradPassManager's uuid (which
-        # then gets incorporated into Inductor's FX graph cache key).
-        # Remove this hack whenever torch.compile fixes it.
-
-        # This is the list of operators that vLLM asks Inductor to split.
-        self.inductor_splitting_ops = []
-        if (
-            config.compilation_config.use_inductor_graph_partition
-            and config.compilation_config.splitting_ops is not None
-        ):
-            # Sort them so we're not dependent on the ordering.
-            self.inductor_splitting_ops = sorted(
-                config.compilation_config.splitting_ops
-            )
-
     def add(self, pass_: InductorPass):
         assert isinstance(pass_, InductorPass)
         self.passes.append(pass_)
@@ -144,16 +123,9 @@ class PostGradPassManager(CustomGraphPass):
         affects compilation caching. Its uuid depends on the UUIDs of all
         dependent passes and the pass config. See InductorPass for more info.
         """
-        state = {
-            "pass_config": self.pass_config.uuid(),
-            "passes": [],
-            "inductor_splitting_ops": [],
-        }
+        state = {"pass_config": self.pass_config.uuid(), "passes": []}
         for pass_ in self.passes:
             state["passes"].append(pass_.uuid())
         state["passes"].append(self.fix_functionalization.uuid())
 
-        # See [HACK: Bug with Inductor graph partition and torch.compile cache]
-        state["inductor_splitting_ops"].extend(self.inductor_splitting_ops)
-
         return InductorPass.hash_dict(state)
diff --git a/vllm/env_override.py b/vllm/env_override.py
index ae3e4e751bd9f..14dae2850c354 100644
--- a/vllm/env_override.py
+++ b/vllm/env_override.py
@@ -272,7 +272,6 @@ def should_partition_patched(self, node, should_log: bool = False) -> bool:
     from torch._inductor.scheduler import (
         BaseSchedulerNode,
         FusedSchedulerNode,
-        _custom_should_partition_fns,
     )
     from torch._inductor.utils import (
         _unstable_customized_partition_wrapper,
@@ -283,9 +282,21 @@ def should_partition_patched(self, node, should_log: bool = False) -> bool:
     # Allow users to manually specify if a node should be partitioned
     # Can only do this for FallbackKernels
     ir_node = node.node
-    if isinstance(ir_node, ir.FallbackKernel):
-        operator = ir_node.op_overload
-        if operator is not None and operator in _custom_should_partition_fns:
+    if isinstance(ir_node, torch._inductor.ir.FallbackKernel) and (
+        op := ir_node.op_overload
+    ):
+        op_overload_packet_name = op.name()
+        op_overload_name = (
+            f"{op_overload_packet_name}.{op._overloadname}"
+            if isinstance(op, torch._ops.OpOverload)
+            else op_overload_packet_name
+        )
+        if (
+            op_overload_packet_name
+            in torch._inductor.config.custom_should_partition_ops
+            or op_overload_name in torch._inductor.config.custom_should_partition_ops
+        ):
+            assert isinstance(op, torch._ops.OpOverload)
             return True
 
     # When not using cudagraphs, keep all kernels in the `call` function
@@ -355,6 +366,13 @@ def _update_scheduler_patched(self) -> None:
 if is_torch_equal("2.9.0"):
     from torch._inductor.codegen.wrapper import PythonWrapperCodegen
     from torch._inductor.graph import GraphLowering
+    from torch.utils._config_module import _Config, _ConfigEntry
+
+    # `custom_should_partition_ops` is a new config after 2.9.0. So this would
+    # not overwrite any user configs.
+    torch._inductor.config._config["custom_should_partition_ops"] = _ConfigEntry(
+        _Config(default=[])
+    )
 
     PythonWrapperCodegen.memory_plan_reuse = memory_plan_reuse_patched
     GraphLowering._update_scheduler = _update_scheduler_patched

From 6e97eccf5dd5036e26d63141d2bc1a9ea17a2cc8 Mon Sep 17 00:00:00 2001
From: Frost Mitchell <frost.mitchell@intel.com>
Date: Wed, 5 Nov 2025 08:39:57 -0500
Subject: [PATCH 150/976] [XPU] Enable custom routing functions in IPEX for
 Llama4 (#28004)

Signed-off-by: frost-intel <frost.mitchell@intel.com>
---
 vllm/model_executor/layers/fused_moe/layer.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/model_executor/layers/fused_moe/layer.py b/vllm/model_executor/layers/fused_moe/layer.py
index 118d5fa6b45c4..0a8c2f311f5c6 100644
--- a/vllm/model_executor/layers/fused_moe/layer.py
+++ b/vllm/model_executor/layers/fused_moe/layer.py
@@ -915,7 +915,6 @@ class UnquantizedFusedMoEMethod(FusedMoEMethodBase, CustomOp):
             or logical_replica_count is not None
         ):
             raise NotImplementedError("Expert load balancing is not supported for XPU.")
-        assert custom_routing_function is None
         return layer.ipex_fusion(
             x,
             use_grouped_topk,
@@ -924,6 +923,7 @@ class UnquantizedFusedMoEMethod(FusedMoEMethodBase, CustomOp):
             renormalize,
             topk_group,
             num_expert_group,
+            custom_routing_function=custom_routing_function,
         )
 
     def forward_tpu(

From 0606bea2b63f6b5d49e5d04b4561f2e606cc7c45 Mon Sep 17 00:00:00 2001
From: bigmoyan <moyan_work@foxmail.com>
Date: Wed, 5 Nov 2025 21:48:33 +0800
Subject: [PATCH 151/976] add kimi reasoning parser (#28128)

Signed-off-by: wangzhengtao <wangzhengtao@msh.team>
Co-authored-by: wangzhengtao <wangzhengtao@msh.team>
---
 vllm/reasoning/__init__.py | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/vllm/reasoning/__init__.py b/vllm/reasoning/__init__.py
index 6bd1d8463e45f..36e58dba6b497 100644
--- a/vllm/reasoning/__init__.py
+++ b/vllm/reasoning/__init__.py
@@ -48,6 +48,10 @@ _REASONING_PARSERS_TO_REGISTER = {
         "hunyuan_a13b_reasoning_parser",
         "HunyuanA13BReasoningParser",
     ),
+    "kimi_k2": (
+        "deepseek_r1_reasoning_parser",
+        "DeepSeekR1ReasoningParser",
+    ),
     "minimax_m2": (
         "minimax_m2_reasoning_parser",
         "MiniMaxM2ReasoningParser",

From 5d16d0fa629eb8ff3d92b0f1eed06548c5277e81 Mon Sep 17 00:00:00 2001
From: Chen Zhang <zhangch99@outlook.com>
Date: Wed, 5 Nov 2025 06:27:25 -0800
Subject: [PATCH 152/976] [DCP] check return_lse for all layers in dcp (#27929)

Signed-off-by: Chen Zhang <zhangch99@outlook.com>
---
 vllm/v1/worker/gpu_model_runner.py | 5 +----
 1 file changed, 1 insertion(+), 4 deletions(-)

diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index 177542ed96c8e..469bd0d435b63 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -4680,10 +4680,7 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
             kv_transfer_group.set_host_xfer_buffer_ops(copy_kv_blocks)
 
         if self.dcp_world_size > 1:
-            layer_names = self.attn_groups[0][0].layer_names
-            layers = get_layers_from_vllm_config(
-                self.vllm_config, AttentionLayerBase, layer_names
-            )
+            layers = get_layers_from_vllm_config(self.vllm_config, AttentionLayerBase)
             for layer in layers.values():
                 assert layer.impl.need_to_return_lse_for_decode, (
                     "DCP requires attention impls to return"

From e50c45467215f96068d95736b08d8a25f624e67d Mon Sep 17 00:00:00 2001
From: Ilya Markov <markovilya197@gmail.com>
Date: Wed, 5 Nov 2025 16:22:17 +0100
Subject: [PATCH 153/976] [BugFix] Support EP/DP + EPLB with MTP (#25311)

Signed-off-by: ilmarkov <markovilya197@gmail.com>
Signed-off-by: Sage Moore <sage@neuralmagic.com>
Co-authored-by: Sage Moore <sage@neuralmagic.com>
Co-authored-by: Tyler Michael Smith <tyler@neuralmagic.com>
Co-authored-by: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com>
---
 .buildkite/test-pipeline.yaml                 |   5 +-
 tests/distributed/test_eplb_spec_decode.py    |  96 +++
 vllm/distributed/eplb/eplb_state.py           | 561 ++++++++++++------
 .../tool_parsers/abstract_tool_parser.py      |   2 +-
 vllm/model_executor/models/deepseek_eagle.py  |   7 +
 vllm/model_executor/models/deepseek_mtp.py    |  28 +-
 vllm/model_executor/models/deepseek_v2.py     | 106 ++--
 vllm/model_executor/models/ernie45_moe.py     |  18 +-
 vllm/model_executor/models/glm4_moe.py        |  65 +-
 vllm/model_executor/models/glm4_moe_mtp.py    |  34 +-
 vllm/model_executor/models/hunyuan_v1.py      |  20 +-
 vllm/model_executor/models/interfaces.py      |  14 +-
 vllm/model_executor/models/lfm2_moe.py        |  20 +-
 vllm/model_executor/models/llama4.py          |  82 ++-
 vllm/model_executor/models/llama4_eagle.py    |   3 +
 vllm/model_executor/models/minicpm.py         |   3 +
 vllm/model_executor/models/mixtral.py         |  20 +-
 vllm/model_executor/models/mllama4.py         |  32 +-
 vllm/model_executor/models/nemotron_h.py      |  18 +-
 vllm/model_executor/models/openpangu.py       |  18 +-
 vllm/model_executor/models/qwen3_moe.py       |  20 +-
 vllm/model_executor/models/qwen3_next.py      | 111 ++--
 vllm/model_executor/models/qwen3_next_mtp.py  |   4 +-
 .../model_executor/models/transformers/moe.py |  10 +-
 vllm/v1/spec_decode/medusa.py                 |   5 +
 vllm/v1/worker/gpu_model_runner.py            |  88 +--
 vllm/v1/worker/gpu_worker.py                  |  96 +--
 27 files changed, 957 insertions(+), 529 deletions(-)
 create mode 100644 tests/distributed/test_eplb_spec_decode.py

diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index 4a898df8f2a34..88e557f1dfb3f 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -232,8 +232,8 @@ steps:
   commands:
   - pytest -v -s distributed/test_eplb_algo.py
 
-- label: EPLB Execution Test # 5min
-  timeout_in_minutes: 15
+- label: EPLB Execution Test # 10min
+  timeout_in_minutes: 20
   working_dir: "/vllm-workspace/tests"
   num_gpus: 4
   source_file_dependencies:
@@ -241,6 +241,7 @@ steps:
   - tests/distributed/test_eplb_execute.py
   commands:
   - pytest -v -s distributed/test_eplb_execute.py
+  - pytest -v -s distributed/test_eplb_spec_decode.py
 
 - label: Metrics, Tracing Test # 12min
   timeout_in_minutes: 20
diff --git a/tests/distributed/test_eplb_spec_decode.py b/tests/distributed/test_eplb_spec_decode.py
new file mode 100644
index 0000000000000..11e23f128f331
--- /dev/null
+++ b/tests/distributed/test_eplb_spec_decode.py
@@ -0,0 +1,96 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from __future__ import annotations
+
+import lm_eval
+import pytest
+
+from tests.utils import large_gpu_mark
+
+
+def get_model_args(
+    model_name: str,
+    spec_model_name: str,
+    spec_method: str,
+    tp_size: int,
+    model_max_len: int,
+) -> dict:
+    speculative_config = {
+        "method": spec_method,
+        "model": spec_model_name,
+        "num_speculative_tokens": 1,
+        "max_model_len": model_max_len,
+    }
+
+    model_args = {
+        "pretrained": model_name,
+        "dtype": "auto",
+        "add_bos_token": True,
+        "tensor_parallel_size": tp_size,
+        "gpu_memory_utilization": 0.7,
+        "speculative_config": speculative_config,
+        "enable_expert_parallel": True,
+        "num_redundant_experts": tp_size,
+        "eplb_window_size": 128,
+        "eplb_step_interval": 1024,
+        "eplb_log_balancedness": False,
+        "enable_eplb": True,
+        "max_model_len": model_max_len,
+    }
+    return model_args
+
+
+@pytest.mark.parametrize(
+    "model_setup",
+    [
+        pytest.param(
+            ("mtp", "Qwen/Qwen3-Next-80B-A3B-Instruct", None, 4, 0.86),
+            marks=large_gpu_mark(min_gb=80),
+        ),
+        pytest.param(
+            (
+                "eagle",
+                "meta-llama/Llama-4-Scout-17B-16E-Instruct",
+                "morgendave/EAGLE-Llama-4-Scout-17B-16E-Instruct",
+                4,
+                0.92,
+            ),
+            marks=pytest.mark.skip(reason="Skipping due to CI OOM issues"),
+        ),
+    ],
+    ids=["qwen3_next_mtp", "llama4_eagle"],
+)
+def test_eplb_spec_decode(
+    monkeypatch: pytest.MonkeyPatch,
+    model_setup: tuple[str, str, str, int, float],
+):
+    """
+    Test the correctness of EPLB speculative decoding with GSM8K dataset.
+    Applicable to MoE models with mtp or eagle spec decode.
+    """
+    method, model_name, spec_model_name, tp_size, expected_gsm8k_value = model_setup
+
+    TASK = "gsm8k"
+    FILTER = "exact_match,strict-match"
+    RTOL = 0.03
+
+    model_args = get_model_args(
+        model_name=model_name,
+        spec_model_name=spec_model_name,
+        spec_method=method,
+        tp_size=tp_size,
+        model_max_len=4096,
+    )
+
+    results = lm_eval.simple_evaluate(
+        model="vllm",
+        model_args=model_args,
+        tasks=TASK,
+        batch_size=64,
+        num_fewshot=8,
+    )
+    measured_value = results["results"][TASK][FILTER]
+    assert (
+        measured_value - RTOL < expected_gsm8k_value
+        and measured_value + RTOL > expected_gsm8k_value
+    ), f"Expected: {expected_gsm8k_value} |  Measured: {measured_value}"
diff --git a/vllm/distributed/eplb/eplb_state.py b/vllm/distributed/eplb/eplb_state.py
index 17716e8a07ac0..526d3ceac7b8f 100644
--- a/vllm/distributed/eplb/eplb_state.py
+++ b/vllm/distributed/eplb/eplb_state.py
@@ -33,7 +33,7 @@ from dataclasses import dataclass
 import torch
 from torch.distributed import ProcessGroup, all_reduce
 
-from vllm.config import ParallelConfig
+from vllm.config import ModelConfig, ParallelConfig
 from vllm.distributed.parallel_state import (
     get_ep_group,
     get_node_count,
@@ -50,7 +50,7 @@ logger = init_logger(__name__)
 
 
 @dataclass
-class EplbState:
+class EplbModelState:
     """EPLB metrics."""
 
     physical_to_logical_map: torch.Tensor
@@ -130,34 +130,46 @@ class EplbState:
     See:
     https://github.com/vllm-project/vllm/pull/22167#pullrequestreview-3086143856
     """
-    expert_load_window_step: int = 0
-    """
-    Current step in the sliding window.
+    model_name: str
+    model: MixtureOfExperts
 
-    Different from `expert_rearrangement_step`, each EP rank may have its own
-    `expert_load_window_step`.
+
+class EplbState:
     """
-    expert_load_window_size: int = 0
-    """
-    Size of the expert load sliding window.
-    This is a constant and is taken from the config.
+    EplbState of each expert parallel model. Key is the model config hash.
     """
 
-    expert_rearrangement_step: int = 0
-    """
-    Steps after last rearrangement.
-    Will trigger a rearrangement if it exceeds the threshold.
+    def __init__(self, parallel_config: ParallelConfig, device: torch.device):
+        self.parallel_config = parallel_config
+        self.device = device
+        self.model_states: dict[str, EplbModelState] = {}
+        """
+        Current step in the sliding window.
 
-    NOTE: Keep in mind that all EP ranks need to have the same
-    `expert_rearrangement_step` value to ensure synchronization.
-    Otherwise, the rearrangement will hang at collective
-    communication calls.
-    """
-    expert_rearrangement_step_interval: int = 0
-    """
-    Interval for expert rearrangement steps.
-    This is a constant and is taken from the config.
-    """
+        Different from `expert_rearrangement_step`, 
+        each EP rank may have its own `expert_load_window_step`.
+        """
+        self.expert_load_window_step: int = 0
+        """
+        Size of the expert load sliding window.
+        This is a constant and is taken from the config.
+        """
+        self.expert_load_window_size: int = 0
+        """
+        Steps after last rearrangement.
+        Will trigger a rearrangement if it exceeds the threshold.
+
+        NOTE: Keep in mind that all EP ranks need to have the same
+        `expert_rearrangement_step` value to ensure synchronization.
+        Otherwise, the rearrangement will hang at collective
+        communication calls.
+        """
+        self.expert_rearrangement_step: int = 0
+        """
+        Interval for expert rearrangement steps.
+        This is a constant and is taken from the config.
+        """
+        self.expert_rearrangement_step_interval: int = 0
 
     @staticmethod
     def build_initial_global_physical_to_logical_map(
@@ -179,26 +191,63 @@ class EplbState:
         ]
         return global_physical_to_logical_map
 
-    @classmethod
-    def build(
-        cls,
+    def validate_ep_configuration(self, new_model: MixtureOfExperts):
+        """
+        Validate that the expert parallel configuration of
+        the new model is the same as the existing models.
+        """
+        if len(self.model_states) > 0:
+            model = next(iter(self.model_states.values())).model
+            if (
+                model.num_routed_experts != new_model.num_routed_experts
+                or model.num_redundant_experts != new_model.num_redundant_experts
+                or model.num_physical_experts != new_model.num_physical_experts
+                or model.num_logical_experts != new_model.num_logical_experts
+                or model.num_expert_groups != new_model.num_expert_groups
+            ):
+                raise RuntimeError(
+                    "Model: {} "
+                    "with config {} "
+                    "{} {} {} {} "
+                    "mismatch with new model {} "
+                    "with config {} "
+                    "{} {} {} {}".format(
+                        type(model),
+                        model.num_routed_experts,
+                        model.num_redundant_experts,
+                        model.num_physical_experts,
+                        model.num_logical_experts,
+                        model.num_expert_groups,
+                        type(new_model),
+                        new_model.num_routed_experts,
+                        new_model.num_redundant_experts,
+                        new_model.num_physical_experts,
+                        new_model.num_logical_experts,
+                        new_model.num_expert_groups,
+                    )
+                )
+
+    def add_model(
+        self,
         model: MixtureOfExperts,
-        device: torch.device,
-        parallel_config: ParallelConfig,
+        model_config: ModelConfig,
         global_expert_load: torch.Tensor | None = None,
         old_global_expert_indices: torch.Tensor | None = None,
         rank_mapping: dict[int, int] | None = None,
-    ) -> "EplbState":
+    ):
         """
         Build the initial EPLB state.
         """
-        physical_to_logical_map_list = cls.build_initial_global_physical_to_logical_map(
-            model.num_routed_experts,
-            model.num_redundant_experts,
+        self.validate_ep_configuration(model)
+        physical_to_logical_map_list = (
+            EplbState.build_initial_global_physical_to_logical_map(
+                model.num_routed_experts,
+                model.num_redundant_experts,
+            )
         )
         physical_to_logical_map = torch.tensor(
             physical_to_logical_map_list,
-            device=device,
+            device=self.device,
         )
         # Assuming 8 GPUs per node, this supports up to
         # (1023 + 1) / 8 = 128 nodes for now.
@@ -212,11 +261,11 @@ class EplbState:
         logical_to_physical_map = torch.full(
             (model.num_logical_experts, max_slots_per_logical_expert),
             -1,
-            device=device,
+            device=self.device,
         )
         logical_replica_count = torch.zeros(
             (model.num_logical_experts,),
-            device=device,
+            device=self.device,
             dtype=torch.long,
         )
 
@@ -255,18 +304,25 @@ class EplbState:
         expert_load_pass = torch.zeros(
             (model.num_moe_layers, model.num_physical_experts),
             dtype=torch.int32,
-            device=device,
+            device=self.device,
         )
-        expert_load_window_size = parallel_config.eplb_config.window_size
+        self.expert_load_window_size = self.parallel_config.eplb_config.window_size
         expert_load_window = torch.zeros(
-            (expert_load_window_size, model.num_moe_layers, model.num_physical_experts),
+            (
+                self.expert_load_window_size,
+                model.num_moe_layers,
+                model.num_physical_experts,
+            ),
             dtype=torch.int32,
-            device=device,
+            device=self.device,
         )
 
         # Set the initial progress of rearrangement to 3/4
-        eplb_step_interval = parallel_config.eplb_config.step_interval
-        expert_rearrangement_step = max(0, eplb_step_interval - eplb_step_interval // 4)
+        eplb_step_interval = self.parallel_config.eplb_config.step_interval
+        self.expert_rearrangement_step = max(
+            0, eplb_step_interval - eplb_step_interval // 4
+        )
+        self.expert_rearrangement_step_interval = eplb_step_interval
 
         if global_expert_load is not None:
             ep_group = get_ep_group().device_group
@@ -309,7 +365,7 @@ class EplbState:
                 (0, logical_to_physical_map.shape[-1] - max_physical_slots),
                 value=-1,
             )
-            physical_to_logical_map = new_physical_to_logical_map.to(device)
+            physical_to_logical_map = new_physical_to_logical_map.to(self.device)
             logical_to_physical_map.copy_(new_logical_to_physical_map)
             logical_replica_count.copy_(new_logical_replica_count)
 
@@ -327,22 +383,20 @@ class EplbState:
                 False,
                 rank_mapping,
             )
-            expert_rearrangement_step = 0
+            self.expert_rearrangement_step = 0
 
-        return cls(
+        self.model_states[model_config.compute_hash()] = EplbModelState(
             physical_to_logical_map,
             logical_to_physical_map,
             logical_replica_count,
             expert_load_pass,
             expert_load_window,
-            expert_load_window_size=expert_load_window_size,
-            expert_rearrangement_step=expert_rearrangement_step,
-            expert_rearrangement_step_interval=eplb_step_interval,
+            model_config.model,
+            model,
         )
 
     def step(
         self,
-        model: MixtureOfExperts,
         is_dummy: bool = False,
         is_profile: bool = False,
         log_stats: bool = False,
@@ -351,7 +405,6 @@ class EplbState:
         Step the EPLB state.
 
         Args:
-            model (MixtureOfExperts): The MoE model.
             is_dummy (bool): If `True`, this is a dummy step and the load
                 metrics recorded in this forward pass will not count.
                 Defaults to `False`.
@@ -369,60 +422,66 @@ class EplbState:
         """
 
         if is_profile:
-            self.rearrange(model, is_profile=True)
+            self.rearrange(is_profile=True)
             return
 
         if is_dummy:
             # Do not record load metrics for dummy steps
-            self.expert_load_pass.zero_()
+            for eplb_model_state in self.model_states.values():
+                eplb_model_state.expert_load_pass.zero_()
 
         if log_stats:
-            # total_expert_load_pass: (num_moe_layers, num_physical_experts)
-            total_expert_load_pass = self.expert_load_pass.clone()
-
-            # Collect load metrics from all ranks
+            # Sync the expert load pass for each model (main and drafter).
+            # expert_load_pass: (num_moe_layers, num_physical_experts)
+            expert_load_pass_list = self._sync_load_pass()
             ep_group = get_ep_group().device_group
-            all_reduce(total_expert_load_pass, group=ep_group)
-
-            # num_tokens_per_rank: (num_moe_layers, num_ranks)
-            num_tokens_per_rank = (
-                total_expert_load_pass.reshape(
-                    total_expert_load_pass.shape[0], ep_group.size(), -1
+            for expert_load_pass, eplb_model_state in zip(
+                expert_load_pass_list, self.model_states.values()
+            ):
+                # num_tokens_per_rank: (num_moe_layers, num_ranks)
+                num_tokens_per_rank = (
+                    expert_load_pass.reshape(
+                        expert_load_pass.shape[0], ep_group.size(), -1
+                    )
+                    .sum(dim=-1)
+                    .float()
                 )
-                .sum(dim=-1)
-                .float()
-            )
 
-            # Compute balancedness ratio:
-            # for each layer:
-            #   (mean load across ranks) / (max load across ranks)
-            avg_tokens_tensor = num_tokens_per_rank.mean(dim=0).sum(dim=0)
-            max_tokens_tensor = num_tokens_per_rank.max(dim=0).values.sum(dim=0)
+                # Compute balancedness ratio:
+                # for each layer:
+                #   (mean load across ranks) / (max load across ranks)
+                avg_tokens_tensor = num_tokens_per_rank.mean(dim=0).sum(dim=0)
+                max_tokens_tensor = num_tokens_per_rank.max(dim=0).values.sum(dim=0)
 
-            # Just to make type checker happy
-            tokens_tensors: list[float] = torch.stack(
-                [avg_tokens_tensor, max_tokens_tensor]
-            ).tolist()
-            avg_tokens, max_tokens = tokens_tensors
-            balancedness = avg_tokens / max_tokens if max_tokens > 0 else 0.0
+                # Just to make type checker happy
+                tokens_tensors: list[float] = torch.stack(
+                    [avg_tokens_tensor, max_tokens_tensor]
+                ).tolist()
+                avg_tokens, max_tokens = tokens_tensors
+                balancedness = avg_tokens / max_tokens if max_tokens > 0 else 0.0
 
-            if ep_group.rank() == 0:
-                logger.info(
-                    "EPLB step: avg_tokens=%.2f, max_tokens=%d, balancedness=%.4f",
-                    avg_tokens,
-                    max_tokens,
-                    balancedness,
-                )
+                if ep_group.rank() == 0:
+                    logger.info(
+                        "EPLB step: %d for model %s: avg_tokens=%.2f, "
+                        "max_tokens=%d, balancedness=%.4f",
+                        self.expert_rearrangement_step,
+                        eplb_model_state.model_name,
+                        avg_tokens,
+                        max_tokens,
+                        balancedness,
+                    )
 
         # Update the expert load sliding window
         if not is_dummy:
-            self.expert_load_window[self.expert_load_window_step] = (
-                self.expert_load_pass.clone()
-            )
+            for eplb_model_state in self.model_states.values():
+                eplb_model_state.expert_load_window[self.expert_load_window_step] = (
+                    eplb_model_state.expert_load_pass.clone()
+                )
+                eplb_model_state.expert_load_pass.zero_()
+
             self.expert_load_window_step += 1
             if self.expert_load_window_step >= self.expert_load_window_size:
                 self.expert_load_window_step = 0
-            self.expert_load_pass.zero_()
 
         # Step the expert rearrangement step
         # Note that even if this is a dummy step, we still increment the
@@ -431,18 +490,30 @@ class EplbState:
         self.expert_rearrangement_step += 1
         if self.expert_rearrangement_step >= self.expert_rearrangement_step_interval:
             self.expert_rearrangement_step = 0
-            self.rearrange(model)
+            self.rearrange()
 
     def rearrange(
         self,
-        model: MixtureOfExperts,
         is_profile: bool = False,
         execute_shuffle: bool = True,
-        global_expert_load: torch.Tensor | None = None,
+        global_expert_loads: list[torch.Tensor] | None = None,
         rank_mapping: dict[int, int] | None = None,
     ) -> torch.Tensor | None:
         """
         Rearrange the experts according to the current load.
+
+        Args:
+            is_profile (bool): If `True`, perform a dummy rearrangement.
+                This is used in `profile_run` to reserve enough memory,
+                no memory movement will be performed. Default is False.
+            execute_shuffle (bool): If `True`, execute the shuffle
+                in elastic expert parallel (EEP). Default is True.
+            global_expert_loads (list[torch.Tensor] | None): The global expert
+                loads when scaling is done in EEP.
+                List of expert loads for the main and drafter
+                (when spec decode is used) models.
+            rank_mapping (dict[int, int] | None): The rank mapping
+                when scaling is done in EEP.
         """
 
         ep_group = get_ep_group().device_group
@@ -455,53 +526,71 @@ class EplbState:
             time_start = time.perf_counter()
             logger.info("Rearranging experts %s...", "(profile)" if is_profile else "")
 
-        if global_expert_load is None:
+        if global_expert_loads is None:
             # Map the physical expert load to global logical experts
-            logical_expert_load_window = torch.zeros(
-                self.expert_load_window_size,
-                model.num_moe_layers,
-                model.num_logical_experts,
-                dtype=self.expert_load_window.dtype,
-                device=self.expert_load_window.device,
-            )
-            logical_expert_load_window.scatter_add_(
-                dim=-1,
-                index=self.physical_to_logical_map.unsqueeze(0)
-                .expand_as(self.expert_load_window)
-                .long(),
-                src=self.expert_load_window,
-            )
-
+            global_expert_load_windows = []
             if not execute_shuffle:
-                metadata = torch.tensor(
-                    [
-                        model.num_moe_layers,
-                        model.num_logical_experts,
-                        self.physical_to_logical_map.shape[1],
-                    ],
-                    dtype=torch.int32,
-                    device="cpu",
+                num_models = torch.tensor(
+                    [len(self.model_states)], dtype=torch.int32, device="cpu"
                 )
                 torch.distributed.broadcast(
-                    metadata, group=get_ep_group().cpu_group, group_src=0
+                    num_models, group=get_ep_group().cpu_group, group_src=0
                 )
 
-            # Perform all-reduce to get the expert load across all ranks
-            global_expert_load_window = logical_expert_load_window.sum(dim=0)
-            all_reduce(global_expert_load_window, group=ep_group)
+            for eplb_model_state in self.model_states.values():
+                logical_expert_load_window = torch.zeros(
+                    self.expert_load_window_size,
+                    eplb_model_state.model.num_moe_layers,
+                    eplb_model_state.model.num_logical_experts,
+                    dtype=eplb_model_state.expert_load_window.dtype,
+                    device=eplb_model_state.expert_load_window.device,
+                )
+                logical_expert_load_window.scatter_add_(
+                    dim=-1,
+                    index=eplb_model_state.physical_to_logical_map.unsqueeze(0)
+                    .expand_as(eplb_model_state.expert_load_window)
+                    .long(),
+                    src=eplb_model_state.expert_load_window,
+                )
 
+                if not execute_shuffle:
+                    metadata = torch.tensor(
+                        [
+                            eplb_model_state.model.num_moe_layers,
+                            eplb_model_state.model.num_logical_experts,
+                            eplb_model_state.physical_to_logical_map.shape[1],
+                        ],
+                        dtype=torch.int32,
+                        device="cpu",
+                    )
+                    torch.distributed.broadcast(
+                        metadata, group=get_ep_group().cpu_group, group_src=0
+                    )
+
+                global_expert_load_window = logical_expert_load_window.sum(dim=0)
+                global_expert_load_windows.append(global_expert_load_window)
+            # Perform all-reduce to get the expert load across all ranks for each model
+            global_expert_load_windows = self._allreduce_list(
+                global_expert_load_windows
+            )
             if not execute_shuffle:
-                # (num_moe_layers, old_num_physical_experts)
-                old_global_expert_indices = self.physical_to_logical_map
-                torch.distributed.broadcast(
-                    old_global_expert_indices, group=ep_group, group_src=0
-                )
-                return global_expert_load_window
+                for eplb_model_state, global_expert_load_window in zip(
+                    self.model_states.values(), global_expert_load_windows
+                ):
+                    # (num_moe_layers, old_num_physical_experts)
+                    old_global_expert_indices = eplb_model_state.physical_to_logical_map
+                    torch.distributed.broadcast(
+                        old_global_expert_indices, group=ep_group, group_src=0
+                    )
+            if not execute_shuffle:
+                return global_expert_load_windows
         else:
             assert execute_shuffle
-            global_expert_load_window = global_expert_load
+            global_expert_load_windows = global_expert_loads
 
         # TODO(bowen): Treat differently for prefill and decode nodes
+        eplb_model_state = next(iter(self.model_states.values()))
+        model = eplb_model_state.model
         num_replicas = model.num_physical_experts
         num_groups = model.num_expert_groups
         if rank_mapping is not None and len(rank_mapping) == ep_group.size():
@@ -526,48 +615,64 @@ class EplbState:
                 f"{num_gpus=}, {num_nodes=}"
             )
 
-        # Get new expert mappings
-        (
-            new_physical_to_logical_map,
-            new_logical_to_physical_map,
-            new_logical_replica_count,
-        ) = rebalance_experts(
-            global_expert_load_window,
-            num_replicas,
-            num_groups,
-            num_nodes,
-            num_gpus,
-        )
-
-        # Update expert weights
-        rearrange_expert_weights_inplace(
-            self.physical_to_logical_map,
-            new_physical_to_logical_map,
-            model.expert_weights,
-            ep_group,
-            is_profile,
-            rank_mapping,
-        )
-
-        if not is_profile:
-            if (
-                self.physical_to_logical_map.shape[1]
-                != new_physical_to_logical_map.shape[1]
-            ):
-                self.physical_to_logical_map = new_physical_to_logical_map.to(
-                    self.physical_to_logical_map.device
-                )
-            else:
-                self.physical_to_logical_map.copy_(new_physical_to_logical_map)
-            max_physical_slots = new_logical_to_physical_map.shape[-1]
-            assert max_physical_slots <= self.logical_to_physical_map.shape[-1]
-            new_logical_to_physical_map = torch.nn.functional.pad(
+        for eplb_model_state, global_expert_load_window in zip(
+            self.model_states.values(), global_expert_load_windows
+        ):
+            # Get new expert mappings for the model
+            (
+                new_physical_to_logical_map,
                 new_logical_to_physical_map,
-                (0, self.logical_to_physical_map.shape[-1] - max_physical_slots),
-                value=-1,
+                new_logical_replica_count,
+            ) = rebalance_experts(
+                global_expert_load_window,
+                num_replicas,
+                num_groups,
+                num_nodes,
+                num_gpus,
             )
-            self.logical_to_physical_map.copy_(new_logical_to_physical_map)
-            self.logical_replica_count.copy_(new_logical_replica_count)
+
+            # Update expert weights
+            rearrange_expert_weights_inplace(
+                eplb_model_state.physical_to_logical_map,
+                new_physical_to_logical_map,
+                eplb_model_state.model.expert_weights,
+                ep_group,
+                is_profile,
+                rank_mapping,
+            )
+
+            if not is_profile:
+                if (
+                    eplb_model_state.physical_to_logical_map.shape[1]
+                    != new_physical_to_logical_map.shape[1]
+                ):
+                    eplb_model_state.physical_to_logical_map = (
+                        new_physical_to_logical_map.to(
+                            eplb_model_state.physical_to_logical_map.device
+                        )
+                    )
+                else:
+                    eplb_model_state.physical_to_logical_map.copy_(
+                        new_physical_to_logical_map
+                    )
+                max_physical_slots = new_logical_to_physical_map.shape[-1]
+                assert (
+                    max_physical_slots
+                    <= eplb_model_state.logical_to_physical_map.shape[-1]
+                )
+                new_logical_to_physical_map = torch.nn.functional.pad(
+                    new_logical_to_physical_map,
+                    (
+                        0,
+                        eplb_model_state.logical_to_physical_map.shape[-1]
+                        - max_physical_slots,
+                    ),
+                    value=-1,
+                )
+                eplb_model_state.logical_to_physical_map.copy_(
+                    new_logical_to_physical_map
+                )
+                eplb_model_state.logical_replica_count.copy_(new_logical_replica_count)
 
         if is_main_rank:
             assert time_start is not None
@@ -581,32 +686,118 @@ class EplbState:
         return None
 
     @staticmethod
-    def recv_state() -> tuple[torch.Tensor, torch.Tensor]:
+    def recv_state() -> tuple[list[torch.Tensor], list[torch.Tensor]]:
         """
         Receive the expert load and old placement from the master rank.
         """
         ep_group = get_ep_group()
-        metadata = torch.empty(3, dtype=torch.int32, device="cpu")
-        torch.distributed.broadcast(metadata, group=ep_group.cpu_group, group_src=0)
-        num_moe_layers, num_logical_experts, num_old_physical_experts = (
-            metadata.tolist()
-        )
-        global_expert_load = torch.zeros(
-            (num_moe_layers, num_logical_experts),
-            dtype=torch.int64,
-            device=ep_group.device,
-        )
-        all_reduce(global_expert_load, group=ep_group.device_group)
-        old_global_expert_indices = torch.empty(
-            (num_moe_layers, num_old_physical_experts),
-            dtype=torch.int64,
-            device=ep_group.device,
-        )
+        num_models = torch.empty(1, dtype=torch.int32, device="cpu")
+        torch.distributed.broadcast(num_models, group=ep_group.cpu_group, group_src=0)
+        num_models = num_models.item()
+        global_expert_loads = []
+        old_global_expert_indices_per_model = []
+        for _ in range(num_models):
+            metadata = torch.empty(3, dtype=torch.int32, device="cpu")
+            torch.distributed.broadcast(metadata, group=ep_group.cpu_group, group_src=0)
+            num_moe_layers, num_logical_experts, num_old_physical_experts = (
+                metadata.tolist()
+            )
+            global_expert_load = torch.zeros(
+                (num_moe_layers, num_logical_experts),
+                dtype=torch.int64,
+                device=ep_group.device,
+            )
+            all_reduce(global_expert_load, group=ep_group.device_group)
+            old_global_expert_indices = torch.empty(
+                (num_moe_layers, num_old_physical_experts),
+                dtype=torch.int64,
+                device=ep_group.device,
+            )
+            torch.distributed.broadcast(
+                old_global_expert_indices,
+                group=ep_group.device_group,
+                group_src=0,
+            )
+            global_expert_loads.append(global_expert_load)
+            old_global_expert_indices_per_model.append(old_global_expert_indices)
+        return global_expert_loads, old_global_expert_indices_per_model
+
+    @classmethod
+    def get_eep_state(
+        cls, parallel_config: ParallelConfig
+    ) -> tuple[
+        list[torch.Tensor] | None,
+        list[torch.Tensor] | None,
+        dict[int, int] | None,
+    ]:
+        num_local_physical_experts = torch.empty(1, dtype=torch.int32, device="cpu")
         torch.distributed.broadcast(
-            old_global_expert_indices, group=ep_group.device_group, group_src=0
+            num_local_physical_experts,
+            group=get_ep_group().cpu_group,
+            group_src=0,
+        )
+        num_local_physical_experts = int(num_local_physical_experts.item())
+        new_ep_size = get_ep_group().world_size
+        global_expert_loads, old_global_expert_indices_per_model = (
+            EplbState.recv_state()
         )
 
-        return global_expert_load, old_global_expert_indices
+        # EP configuration for all models has to be the same so as eplb config
+        num_logical_experts = global_expert_loads[0].shape[1]
+        parallel_config.eplb_config.num_redundant_experts = (
+            num_local_physical_experts * new_ep_size - num_logical_experts
+        )
+        assert (
+            old_global_expert_indices_per_model[0].shape[1] % num_local_physical_experts
+            == 0
+        )
+        old_ep_size = (
+            old_global_expert_indices_per_model[0].shape[1]
+            // num_local_physical_experts
+        )
+        rank_mapping = {old_ep_rank: old_ep_rank for old_ep_rank in range(old_ep_size)}
+        return (
+            global_expert_loads,
+            old_global_expert_indices_per_model,
+            rank_mapping,
+        )
+
+    def _allreduce_list(self, tensor_list: list[torch.Tensor]) -> list[torch.Tensor]:
+        """
+        All-reduce a list of tensors.
+        """
+        if len(tensor_list) == 1:
+            all_reduce(tensor_list[0], group=get_ep_group().device_group)
+            return tensor_list
+        assert all(t.dim() == 2 for t in tensor_list), "All tensors must be 2D."
+        assert all(t.shape[1] == tensor_list[0].shape[1] for t in tensor_list), (
+            "All tensors must have the same shape[1]."
+        )
+        # Concatenate, all_reduce, then unpack to original shapes.
+        # We assume all tensors are 2D and shape[1] (num_physical_experts)
+        # is the same across all models.
+        shapes = [t.shape for t in tensor_list]
+        concat_tensor = torch.cat(tensor_list, dim=0)
+
+        ep_group = get_ep_group().device_group
+        all_reduce(concat_tensor, group=ep_group)
+
+        all_reduce_list = []
+        offset = 0
+        for shape in shapes:
+            all_reduce_list.append(concat_tensor[offset : offset + shape[0], :])
+            offset += shape[0]
+        return all_reduce_list
+
+    def _sync_load_pass(self) -> list[torch.Tensor]:
+        """
+        Sync the expert load pass across all ranks for log stats.
+        Doesn't update the expert load pass in eplb_model_state.
+        """
+        load_pass_list = []
+        for eplb_model_state in self.model_states.values():
+            load_pass_list.append(eplb_model_state.expert_load_pass.clone())
+        return self._allreduce_list(load_pass_list)
 
 
 def _node_count_with_rank_mapping(
diff --git a/vllm/entrypoints/openai/tool_parsers/abstract_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/abstract_tool_parser.py
index 8d520f5bf8ef6..950139c69c29a 100644
--- a/vllm/entrypoints/openai/tool_parsers/abstract_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/abstract_tool_parser.py
@@ -226,7 +226,7 @@ class ToolParserManager:
 
             if isinstance(name, str):
                 names = [name]
-            elif is_list_of(name, str):
+            elif name is not None and is_list_of(name, str):
                 names = name
             else:
                 names = [class_name]
diff --git a/vllm/model_executor/models/deepseek_eagle.py b/vllm/model_executor/models/deepseek_eagle.py
index 107b1e1a05823..fd2f20ea501d0 100644
--- a/vllm/model_executor/models/deepseek_eagle.py
+++ b/vllm/model_executor/models/deepseek_eagle.py
@@ -24,9 +24,12 @@ from vllm.model_executor.models.deepseek_v2 import (
     DeepseekV2DecoderLayer,
     DeepseekV3ForCausalLM,
 )
+from vllm.utils import init_logger
 
 from .utils import AutoWeightsLoader, maybe_prefix
 
+logger = init_logger(__name__)
+
 
 @support_torch_compile
 class DeepseekV2Model(nn.Module):
@@ -215,6 +218,10 @@ class EagleDeepseekV3ForCausalLM(DeepseekV3ForCausalLM):
             self.config.vocab_size, scale=logit_scale
         )
 
+        # Set MoE hyperparameters
+        self.num_moe_layers = self.config.num_hidden_layers
+        self.set_moe_parameters()
+
     def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.model.get_input_embeddings(input_ids)
 
diff --git a/vllm/model_executor/models/deepseek_mtp.py b/vllm/model_executor/models/deepseek_mtp.py
index 3984d23970ac5..26b9c25e6bdb5 100644
--- a/vllm/model_executor/models/deepseek_mtp.py
+++ b/vllm/model_executor/models/deepseek_mtp.py
@@ -8,6 +8,7 @@ from transformers import PretrainedConfig
 
 from vllm.compilation.decorators import support_torch_compile
 from vllm.config import VllmConfig
+from vllm.logger import init_logger
 from vllm.model_executor.layers.fused_moe import FusedMoE
 from vllm.model_executor.layers.layernorm import RMSNorm
 from vllm.model_executor.layers.logits_processor import LogitsProcessor
@@ -25,11 +26,15 @@ from vllm.sequence import IntermediateTensors
 
 from .deepseek_v2 import (
     DeepseekV2DecoderLayer,
+    DeepseekV2MixtureOfExperts,
+    DeepseekV2MoE,
     get_spec_layer_idx_from_weight_name,
 )
 from .interfaces import SupportsPP
 from .utils import maybe_prefix
 
+logger = init_logger(__name__)
+
 
 class SharedHead(nn.Module):
     def __init__(
@@ -119,6 +124,7 @@ class DeepSeekMultiTokenPredictor(nn.Module):
         self.mtp_start_layer_idx = config.num_hidden_layers
         self.num_mtp_layers = config.num_nextn_predict_layers
         # to map the exact layer index from weights
+
         self.layers = torch.nn.ModuleDict(
             {
                 str(idx): DeepSeekMultiTokenPredictorLayer(
@@ -172,13 +178,33 @@ class DeepSeekMultiTokenPredictor(nn.Module):
 
 
 @support_torch_compile
-class DeepSeekMTP(nn.Module, SupportsPP):
+class DeepSeekMTP(nn.Module, SupportsPP, DeepseekV2MixtureOfExperts):
     def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
         super().__init__()
         self.config = vllm_config.model_config.hf_config
         self.model = DeepSeekMultiTokenPredictor(
             vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
         )
+        # Set MoE hyperparameters
+        self.set_moe_parameters()
+
+    def set_moe_parameters(self):
+        self.expert_weights = []
+        self.num_moe_layers = self.config.num_nextn_predict_layers
+        self.num_expert_groups = self.config.n_group
+
+        self.moe_layers = []
+        self.moe_mlp_layers = []
+        example_moe = None
+        for layer in self.model.layers.values():
+            assert isinstance(layer, DeepSeekMultiTokenPredictorLayer)
+            layer = layer.mtp_block
+            assert isinstance(layer, DeepseekV2DecoderLayer)
+            if isinstance(layer.mlp, DeepseekV2MoE):
+                example_moe = layer.mlp
+                self.moe_mlp_layers.append(layer.mlp)
+                self.moe_layers.append(layer.mlp.experts)
+        self.extract_moe_parameters(example_moe)
 
     def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.model.get_input_embeddings(input_ids)
diff --git a/vllm/model_executor/models/deepseek_v2.py b/vllm/model_executor/models/deepseek_v2.py
index db7b86ffaf962..a253cdffd9011 100644
--- a/vllm/model_executor/models/deepseek_v2.py
+++ b/vllm/model_executor/models/deepseek_v2.py
@@ -166,7 +166,7 @@ class DeepseekV2MoE(nn.Module):
         self.routed_scaling_factor = config.routed_scaling_factor
 
         self.ep_group = get_ep_group().device_group
-        self.ep_rank = self.ep_group.rank()
+        self.ep_rank = get_ep_group().rank_in_group
         self.ep_size = self.ep_group.size()
         self.n_routed_experts: int = config.n_routed_experts
         self.n_shared_experts: int = config.n_shared_experts
@@ -1122,7 +1122,6 @@ class DeepseekV2Model(nn.Module):
             )
         else:
             self.embed_tokens = PPMissingLayer()
-
         self.start_layer, self.end_layer, self.layers = make_layers(
             config.num_hidden_layers,
             lambda prefix: DeepseekV2DecoderLayer(
@@ -1172,7 +1171,50 @@ class DeepseekV2Model(nn.Module):
         return hidden_states
 
 
-class DeepseekV2ForCausalLM(nn.Module, SupportsPP, MixtureOfExperts, SupportsLoRA):
+class DeepseekV2MixtureOfExperts(MixtureOfExperts):
+    moe_mlp_layers: list[DeepseekV2MoE]
+    """
+    List of MoE MLP layers in the model.
+    """
+
+    def extract_moe_parameters(self, example_moe: DeepseekV2MoE | None):
+        if example_moe is None:
+            self.num_moe_layers = 0
+            self.num_expert_groups = 0
+            self.num_logical_experts = 0
+            self.num_physical_experts = 0
+            self.num_local_physical_experts = 0
+            self.num_routed_experts = 0
+            self.num_shared_experts = 0
+            self.num_redundant_experts = 0
+            logger.warning("DeepSeekV2: No DeepseekV2MoE layer found in model.layers.")
+        else:
+            self.num_logical_experts = example_moe.n_logical_experts
+            self.num_physical_experts = example_moe.n_physical_experts
+            self.num_local_physical_experts = example_moe.n_local_physical_experts
+            self.num_routed_experts = example_moe.n_routed_experts
+            self.num_shared_experts = example_moe.n_shared_experts
+            self.num_redundant_experts = example_moe.n_redundant_experts
+
+    def update_physical_experts_metadata(
+        self,
+        num_physical_experts: int,
+        num_local_physical_experts: int,
+    ) -> None:
+        assert self.num_local_physical_experts == num_local_physical_experts
+        self.num_physical_experts = num_physical_experts
+        self.num_local_physical_experts = num_local_physical_experts
+        self.num_redundant_experts = num_physical_experts - self.num_logical_experts
+        for moe in self.moe_mlp_layers:
+            moe.n_local_physical_experts = num_local_physical_experts
+            moe.n_physical_experts = num_physical_experts
+            moe.n_redundant_experts = self.num_redundant_experts
+            moe.experts.update_expert_map()
+
+
+class DeepseekV2ForCausalLM(
+    nn.Module, SupportsPP, DeepseekV2MixtureOfExperts, SupportsLoRA
+):
     packed_modules_mapping = {
         "gate_up_proj": ["gate_proj", "up_proj"],
     }
@@ -1213,13 +1255,19 @@ class DeepseekV2ForCausalLM(nn.Module, SupportsPP, MixtureOfExperts, SupportsLoR
         self.make_empty_intermediate_tensors = (
             self.model.make_empty_intermediate_tensors
         )
+        # Set MoE hyperparameters
+        self.num_moe_layers = (
+            self.config.num_hidden_layers - self.config.first_k_dense_replace
+        )
+        self.set_moe_parameters()
+
+    def set_moe_parameters(self):
         self.expert_weights = []
 
-        # Set MoE hyperparameters
-        self.num_moe_layers = config.num_hidden_layers - config.first_k_dense_replace
-        self.num_expert_groups = config.n_group
+        self.num_expert_groups = self.config.n_group
 
-        self.moe_layers: list[SharedFusedMoE] = []
+        self.moe_layers = []
+        self.moe_mlp_layers = []
         example_moe = None
         for layer in self.model.layers:
             if isinstance(layer, PPMissingLayer):
@@ -1229,50 +1277,10 @@ class DeepseekV2ForCausalLM(nn.Module, SupportsPP, MixtureOfExperts, SupportsLoR
             if isinstance(layer.mlp, DeepseekV2MoE):
                 # Pick last one layer since the first ones may be dense layers.
                 example_moe = layer.mlp
+                self.moe_mlp_layers.append(layer.mlp)
                 self.moe_layers.append(layer.mlp.experts)
 
-        if example_moe is None:
-            raise RuntimeError("No DeepseekV2MoE layer found in model.layers.")
-
-        self.num_logical_experts = example_moe.n_logical_experts
-        self.num_physical_experts = example_moe.n_physical_experts
-        self.num_local_physical_experts = example_moe.n_local_physical_experts
-        self.num_routed_experts = example_moe.n_routed_experts
-        self.num_shared_experts = example_moe.n_shared_experts
-        self.num_redundant_experts = example_moe.n_redundant_experts
-
-    def set_eplb_state(
-        self,
-        expert_load_view: torch.Tensor,
-        logical_to_physical_map: torch.Tensor,
-        logical_replica_count: torch.Tensor,
-    ) -> None:
-        for layer_idx, layer in enumerate(self.moe_layers):
-            # Register the expert weights.
-            self.expert_weights.append(layer.get_expert_weights())
-            layer.set_eplb_state(
-                moe_layer_idx=layer_idx,
-                expert_load_view=expert_load_view,
-                logical_to_physical_map=logical_to_physical_map,
-                logical_replica_count=logical_replica_count,
-            )
-
-    def update_physical_experts_metadata(
-        self,
-        num_physical_experts: int,
-        num_local_physical_experts: int,
-    ) -> None:
-        assert self.num_local_physical_experts == num_local_physical_experts
-        self.num_physical_experts = num_physical_experts
-        self.num_local_physical_experts = num_local_physical_experts
-        self.num_redundant_experts = num_physical_experts - self.num_logical_experts
-        for layer in self.model.layers:
-            if isinstance(layer.mlp, DeepseekV2MoE):
-                moe = layer.mlp
-                moe.n_local_physical_experts = num_local_physical_experts
-                moe.n_physical_experts = num_physical_experts
-                moe.n_redundant_experts = self.num_redundant_experts
-                moe.experts.update_expert_map()
+        self.extract_moe_parameters(example_moe)
 
     def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.model.get_input_embeddings(input_ids)
diff --git a/vllm/model_executor/models/ernie45_moe.py b/vllm/model_executor/models/ernie45_moe.py
index 192ca05852304..b35666175ea7b 100644
--- a/vllm/model_executor/models/ernie45_moe.py
+++ b/vllm/model_executor/models/ernie45_moe.py
@@ -133,7 +133,7 @@ class Ernie4_5_MoeMoE(nn.Module):
 
         self.moe_num_shared_experts = getattr(config, "moe_num_shared_experts", None)
         self.ep_group = get_ep_group().device_group
-        self.ep_rank = self.ep_group.rank()
+        self.ep_rank = get_ep_group().rank_in_group
         self.ep_size = self.ep_group.size()
         self.n_routed_experts: int = config.moe_num_experts
         self.n_shared_experts: int = self.moe_num_shared_experts
@@ -709,22 +709,6 @@ class Ernie4_5_MoeForCausalLM(nn.Module, SupportsPP, SupportsLoRA, MixtureOfExpe
             self.num_shared_experts = example_moe.n_shared_experts
             self.num_redundant_experts = example_moe.n_redundant_experts
 
-    def set_eplb_state(
-        self,
-        expert_load_view: torch.Tensor,
-        logical_to_physical_map: torch.Tensor,
-        logical_replica_count: torch.Tensor,
-    ) -> None:
-        for layer_idx, layer in enumerate(self.moe_layers):
-            # Register the expert weights.
-            self.expert_weights.append(layer.get_expert_weights())
-            layer.set_eplb_state(
-                moe_layer_idx=layer_idx,
-                expert_load_view=expert_load_view,
-                logical_to_physical_map=logical_to_physical_map,
-                logical_replica_count=logical_replica_count,
-            )
-
     def update_physical_experts_metadata(
         self,
         num_physical_experts: int,
diff --git a/vllm/model_executor/models/glm4_moe.py b/vllm/model_executor/models/glm4_moe.py
index a53f52852c6ad..b30bd66161da9 100644
--- a/vllm/model_executor/models/glm4_moe.py
+++ b/vllm/model_executor/models/glm4_moe.py
@@ -62,7 +62,7 @@ from vllm.model_executor.model_loader.weight_utils import (
 )
 from vllm.sequence import IntermediateTensors
 
-from .interfaces import SupportsLoRA, SupportsPP
+from .interfaces import MixtureOfExperts, SupportsLoRA, SupportsPP
 from .utils import (
     AutoWeightsLoader,
     PPMissingLayer,
@@ -127,7 +127,7 @@ class Glm4MoE(nn.Module):
         self.routed_scaling_factor = config.routed_scaling_factor
 
         self.ep_group = get_ep_group().device_group
-        self.ep_rank = self.ep_group.rank()
+        self.ep_rank = get_ep_group().rank_in_group
         self.ep_size = self.ep_group.size()
         self.n_routed_experts: int = config.n_routed_experts
         self.n_shared_experts: int = config.n_shared_experts
@@ -616,7 +616,35 @@ class Glm4MoeModel(nn.Module):
         return loaded_params
 
 
-class Glm4MoeForCausalLM(nn.Module, SupportsPP, SupportsLoRA):
+class Glm4MixtureOfExperts(MixtureOfExperts):
+    def extract_moe_parameters(self, example_moe: Glm4MoE | None) -> None:
+        if example_moe is None:
+            raise RuntimeError("No Glm4MoE layer found in model.layers.")
+        else:
+            self.num_logical_experts = example_moe.n_logical_experts
+            self.num_physical_experts = example_moe.n_physical_experts
+            self.num_local_physical_experts = example_moe.n_local_physical_experts
+            self.num_routed_experts = example_moe.n_routed_experts
+            self.num_shared_experts = example_moe.n_shared_experts
+            self.num_redundant_experts = example_moe.n_redundant_experts
+
+    def update_physical_experts_metadata(
+        self,
+        num_physical_experts: int,
+        num_local_physical_experts: int,
+    ) -> None:
+        assert self.num_local_physical_experts == num_local_physical_experts
+        self.num_physical_experts = num_physical_experts
+        self.num_local_physical_experts = num_local_physical_experts
+        self.num_redundant_experts = num_physical_experts - self.num_logical_experts
+        for moe in self.moe_mlp_layers:
+            moe.n_local_physical_experts = num_local_physical_experts
+            moe.n_physical_experts = num_physical_experts
+            moe.n_redundant_experts = self.num_redundant_experts
+            moe.experts.update_expert_map()
+
+
+class Glm4MoeForCausalLM(nn.Module, SupportsPP, SupportsLoRA, Glm4MixtureOfExperts):
     packed_modules_mapping = {
         "qkv_proj": [
             "q_proj",
@@ -659,7 +687,9 @@ class Glm4MoeForCausalLM(nn.Module, SupportsPP, SupportsLoRA):
         self.num_moe_layers = config.num_hidden_layers - config.first_k_dense_replace
         self.num_expert_groups = config.n_group
 
-        self.moe_layers: list[SharedFusedMoE] = []
+        self.moe_layers = []
+        self.moe_mlp_layers: list[Glm4MoE] = []
+
         example_moe = None
         for layer in self.model.layers:
             if isinstance(layer, PPMissingLayer):
@@ -669,33 +699,10 @@ class Glm4MoeForCausalLM(nn.Module, SupportsPP, SupportsLoRA):
             if isinstance(layer.mlp, Glm4MoE):
                 # Pick last one layer since the first ones may be dense layers.
                 example_moe = layer.mlp
+                self.moe_mlp_layers.append(layer.mlp)
                 self.moe_layers.append(layer.mlp.experts)
 
-        if example_moe is None:
-            raise RuntimeError("No Glm4MoE layer found in model.layers.")
-
-        self.num_logical_experts = example_moe.n_logical_experts
-        self.num_physical_experts = example_moe.n_physical_experts
-        self.num_local_physical_experts = example_moe.n_local_physical_experts
-        self.num_routed_experts = example_moe.n_routed_experts
-        self.num_shared_experts = example_moe.n_shared_experts
-        self.num_redundant_experts = example_moe.n_redundant_experts
-
-    def set_eplb_state(
-        self,
-        expert_load_view: torch.Tensor,
-        logical_to_physical_map: torch.Tensor,
-        logical_replica_count: torch.Tensor,
-    ) -> None:
-        for layer_idx, layer in enumerate(self.moe_layers):
-            # Register the expert weights.
-            self.expert_weights.append(layer.get_expert_weights())
-            layer.set_eplb_state(
-                moe_layer_idx=layer_idx,
-                expert_load_view=expert_load_view,
-                logical_to_physical_map=logical_to_physical_map,
-                logical_replica_count=logical_replica_count,
-            )
+        self.extract_moe_parameters(example_moe)
 
     def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.model.get_input_embeddings(input_ids)
diff --git a/vllm/model_executor/models/glm4_moe_mtp.py b/vllm/model_executor/models/glm4_moe_mtp.py
index 9fb1be7ba45c4..9a2ae3c476f07 100644
--- a/vllm/model_executor/models/glm4_moe_mtp.py
+++ b/vllm/model_executor/models/glm4_moe_mtp.py
@@ -29,7 +29,7 @@ import torch
 import torch.nn as nn
 from transformers import PretrainedConfig
 
-from vllm.config import CacheConfig, VllmConfig
+from vllm.config import CacheConfig, ParallelConfig, VllmConfig
 from vllm.model_executor.layers.fused_moe import FusedMoE
 from vllm.model_executor.layers.layernorm import RMSNorm
 from vllm.model_executor.layers.logits_processor import LogitsProcessor
@@ -41,7 +41,12 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
 from vllm.model_executor.model_loader.weight_utils import default_weight_loader
 from vllm.sequence import IntermediateTensors
 
-from .glm4_moe import Glm4MoeDecoderLayer, get_spec_layer_idx_from_weight_name
+from .glm4_moe import (
+    Glm4MixtureOfExperts,
+    Glm4MoE,
+    Glm4MoeDecoderLayer,
+    get_spec_layer_idx_from_weight_name,
+)
 from .interfaces import SupportsPP
 from .utils import maybe_prefix
 
@@ -73,6 +78,7 @@ class Glm4MoeMultiTokenPredictorLayer(nn.Module):
         prefix: str,
         cache_config: CacheConfig | None = None,
         quant_config: QuantizationConfig | None = None,
+        parallel_config: ParallelConfig | None = None,
     ) -> None:
         super().__init__()
         self.enorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
@@ -81,11 +87,13 @@ class Glm4MoeMultiTokenPredictorLayer(nn.Module):
         self.shared_head = SharedHead(
             config=config, prefix=prefix, quant_config=quant_config
         )
+        self.enable_eplb = parallel_config.enable_eplb
         self.mtp_block = Glm4MoeDecoderLayer(
             config=config,
             cache_config=cache_config,
             quant_config=quant_config,
             prefix=prefix,
+            enable_eplb=self.enable_eplb,
         )
 
     def forward(
@@ -127,6 +135,7 @@ class Glm4MoeMultiTokenPredictor(nn.Module):
                     f"{prefix}.layers.{idx}",
                     cache_config=vllm_config.cache_config,
                     quant_config=vllm_config.quant_config,
+                    parallel_config=vllm_config.parallel_config,
                 )
                 for idx in range(
                     self.mtp_start_layer_idx,
@@ -175,7 +184,7 @@ class Glm4MoeMultiTokenPredictor(nn.Module):
         return logits
 
 
-class Glm4MoeMTP(nn.Module, SupportsPP):
+class Glm4MoeMTP(nn.Module, SupportsPP, Glm4MixtureOfExperts):
     def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
         super().__init__()
         self.config = vllm_config.model_config.hf_config
@@ -183,6 +192,25 @@ class Glm4MoeMTP(nn.Module, SupportsPP):
             vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
         )
 
+        self.expert_weights = []
+
+        # Set MoE hyperparameters
+        self.num_moe_layers = self.config.num_nextn_predict_layers
+        self.num_expert_groups = self.config.n_group
+
+        self.moe_layers: list[FusedMoE] = []
+        self.moe_mlp_layers: list[Glm4MoE] = []
+        example_moe = None
+        for layer in self.model.layers.values():
+            assert isinstance(layer, Glm4MoeMultiTokenPredictorLayer)
+            layer = layer.mtp_block
+            assert isinstance(layer, Glm4MoeDecoderLayer)
+            if isinstance(layer.mlp, Glm4MoE):
+                example_moe = layer.mlp
+                self.moe_mlp_layers.append(layer.mlp)
+                self.moe_layers.append(layer.mlp.experts)
+        self.extract_moe_parameters(example_moe)
+
     def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.model.get_input_embeddings(input_ids)
 
diff --git a/vllm/model_executor/models/hunyuan_v1.py b/vllm/model_executor/models/hunyuan_v1.py
index 901f29310872b..8fa9776bd0186 100644
--- a/vllm/model_executor/models/hunyuan_v1.py
+++ b/vllm/model_executor/models/hunyuan_v1.py
@@ -374,7 +374,7 @@ class HunYuanSparseMoeBlock(nn.Module):
         self.tp_size = get_tensor_model_parallel_world_size()
 
         self.ep_group = get_ep_group().device_group
-        self.ep_rank = self.ep_group.rank()
+        self.ep_rank = get_ep_group().rank_in_group
         self.ep_size = self.ep_group.size()
         self.n_routed_experts = config.num_experts
 
@@ -1007,7 +1007,7 @@ class HunYuanMoEV1Base(HunyuanV1ModelBase, MixtureOfExperts):
         # Set MoE hyperparameters
         self.expert_weights = []
         self.num_expert_groups = 1
-        self.moe_layers: list[SharedFusedMoE] = []
+        self.moe_layers = []
         example_layer = None
         for layer in self.model.layers:
             if isinstance(layer, PPMissingLayer):
@@ -1028,22 +1028,6 @@ class HunYuanMoEV1Base(HunyuanV1ModelBase, MixtureOfExperts):
         self.num_routed_experts = example_layer.n_routed_experts
         self.num_redundant_experts = example_layer.n_redundant_experts
 
-    def set_eplb_state(
-        self,
-        expert_load_view: torch.Tensor,
-        logical_to_physical_map: torch.Tensor,
-        logical_replica_count: torch.Tensor,
-    ) -> None:
-        for layer_idx, layer in enumerate(self.moe_layers):
-            self.expert_weights.append(layer.get_expert_weights())
-            # Register the expert weights.
-            layer.set_eplb_state(
-                moe_layer_idx=layer_idx,
-                expert_load_view=expert_load_view,
-                logical_to_physical_map=logical_to_physical_map,
-                logical_replica_count=logical_replica_count,
-            )
-
     def update_physical_experts_metadata(
         self,
         num_physical_experts: int,
diff --git a/vllm/model_executor/models/interfaces.py b/vllm/model_executor/models/interfaces.py
index e133206c27a8b..33c9043405cae 100644
--- a/vllm/model_executor/models/interfaces.py
+++ b/vllm/model_executor/models/interfaces.py
@@ -14,6 +14,7 @@ from typing import (
 
 import numpy as np
 import torch
+import torch.nn as nn
 from torch import Tensor
 from transformers import PretrainedConfig
 from transformers.models.whisper.tokenization_whisper import LANGUAGES
@@ -641,6 +642,9 @@ class MixtureOfExperts(Protocol):
     num_redundant_experts: int
     """Number of redundant experts in this model."""
 
+    moe_layers: Iterable[nn.Module]
+    """List of MoE layers in this model."""
+
     def set_eplb_state(
         self,
         expert_load_view: Tensor,
@@ -663,7 +667,15 @@ class MixtureOfExperts(Protocol):
             logical_to_physical_map: Mapping from logical to physical experts.
             logical_replica_count: Count of replicas for each logical expert.
         """
-        ...
+        for layer_idx, layer in enumerate(self.moe_layers):
+            # Register the expert weights.
+            self.expert_weights.append(layer.get_expert_weights())
+            layer.set_eplb_state(
+                moe_layer_idx=layer_idx,
+                expert_load_view=expert_load_view,
+                logical_to_physical_map=logical_to_physical_map,
+                logical_replica_count=logical_replica_count,
+            )
 
     def update_physical_experts_metadata(
         self,
diff --git a/vllm/model_executor/models/lfm2_moe.py b/vllm/model_executor/models/lfm2_moe.py
index bb7926a9cfa9d..02a490e9c7fd9 100644
--- a/vllm/model_executor/models/lfm2_moe.py
+++ b/vllm/model_executor/models/lfm2_moe.py
@@ -105,7 +105,7 @@ class Lfm2MoeSparseMoeBlock(nn.Module):
         self.routed_scaling_factor = config.routed_scaling_factor
 
         self.ep_group = get_ep_group().device_group
-        self.ep_rank = self.ep_group.rank()
+        self.ep_rank = get_ep_group().rank_in_group
         self.ep_size = self.ep_group.size()
         self.n_routed_experts = config.num_experts
 
@@ -707,7 +707,7 @@ class Lfm2MoeForCausalLM(
         # Set MoE hyperparameters
         self.expert_weights = []
 
-        self.moe_layers: list[FusedMoE] = []
+        self.moe_layers = []
         example_layer = None
         for layer in self.model.layers:
             if isinstance(layer, PPMissingLayer):
@@ -737,22 +737,6 @@ class Lfm2MoeForCausalLM(
     def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.model.get_input_embeddings(input_ids)
 
-    def set_eplb_state(
-        self,
-        expert_load_view: torch.Tensor,
-        logical_to_physical_map: torch.Tensor,
-        logical_replica_count: torch.Tensor,
-    ) -> None:
-        for layer_idx, layer in enumerate(self.moe_layers):
-            # Register the expert weights.
-            self.expert_weights.append(layer.get_expert_weights())
-            layer.set_eplb_state(
-                moe_layer_idx=layer_idx,
-                expert_load_view=expert_load_view,
-                logical_to_physical_map=logical_to_physical_map,
-                logical_replica_count=logical_replica_count,
-            )
-
     def update_physical_experts_metadata(
         self,
         num_physical_experts: int,
diff --git a/vllm/model_executor/models/llama4.py b/vllm/model_executor/models/llama4.py
index 33badb13fc9fb..a7e0732ec71e2 100644
--- a/vllm/model_executor/models/llama4.py
+++ b/vllm/model_executor/models/llama4.py
@@ -30,9 +30,11 @@ from vllm.attention.layers.chunked_local_attention import ChunkedLocalAttention
 from vllm.compilation.decorators import support_torch_compile
 from vllm.config import CacheConfig, VllmConfig
 from vllm.distributed import (
+    get_ep_group,
     get_tensor_model_parallel_world_size,
     tensor_model_parallel_all_gather,
 )
+from vllm.logger import init_logger
 from vllm.model_executor.layers.fused_moe import SharedFusedMoE
 from vllm.model_executor.layers.layernorm import RMSNorm
 from vllm.model_executor.layers.linear import (
@@ -46,6 +48,7 @@ from vllm.model_executor.model_loader.weight_utils import (
     default_weight_loader,
     maybe_remap_kv_scale_name,
 )
+from vllm.model_executor.models.interfaces import MixtureOfExperts
 from vllm.model_executor.models.utils import sequence_parallel_chunk
 
 from .llama import LlamaForCausalLM, LlamaMLP, LlamaModel
@@ -56,6 +59,8 @@ from .utils import (
     is_pp_missing_parameter,
 )
 
+logger = init_logger(__name__)
+
 
 class Llama4MoE(nn.Module):
     @staticmethod
@@ -80,6 +85,9 @@ class Llama4MoE(nn.Module):
         self.tp_size = get_tensor_model_parallel_world_size()
         self.top_k = config.num_experts_per_tok
         self.is_sequence_parallel = parallel_config.use_sequence_parallel_moe
+        self.ep_group = get_ep_group().device_group
+        self.ep_rank = get_ep_group().rank_in_group
+        self.ep_size = self.ep_group.size()
 
         intermediate_size_moe = config.intermediate_size
         self.router = ReplicatedLinear(
@@ -101,6 +109,20 @@ class Llama4MoE(nn.Module):
             disable_tp=self.is_sequence_parallel,
         )
 
+        # Load balancing settings.
+        eplb_config = parallel_config.eplb_config if parallel_config else None
+        self.enable_eplb = parallel_config.enable_eplb if parallel_config else False
+        self.n_redundant_experts = (
+            eplb_config.num_redundant_experts if eplb_config else 0
+        )
+
+        self.n_routed_experts: int = config.num_local_experts
+        self.n_logical_experts = self.n_routed_experts
+        self.n_shared_experts: int = 1
+        self.n_local_experts: int = config.num_local_experts
+        self.n_physical_experts = self.n_local_experts + self.n_redundant_experts
+        self.n_local_physical_experts = self.n_physical_experts // self.ep_size
+
         self.experts = SharedFusedMoE(
             shared_experts=self.shared_expert,
             num_experts=config.num_local_experts,
@@ -114,6 +136,8 @@ class Llama4MoE(nn.Module):
             quant_config=quant_config,
             prefix=f"{prefix}.experts",
             is_sequence_parallel=self.is_sequence_parallel,
+            enable_eplb=self.enable_eplb,
+            num_redundant_experts=self.n_redundant_experts,
         )
 
     def forward(self, hidden_states):
@@ -378,6 +402,9 @@ class Llama4Model(LlamaModel):
         layer_type: type[Llama4DecoderLayer] = Llama4DecoderLayer,
     ):
         self.num_experts = vllm_config.model_config.hf_config.num_local_experts
+        self.n_redundant_experts = (
+            vllm_config.parallel_config.eplb_config.num_redundant_experts
+        )
         super().__init__(vllm_config=vllm_config, prefix=prefix, layer_type=layer_type)
 
     def load_moe_expert_weights(
@@ -499,7 +526,6 @@ class Llama4Model(LlamaModel):
                 shard_id=shard_id,
                 expert_id=expert_id,
             )
-
             loaded_params.add(full_param_name)
             expert_param_loaded = True
 
@@ -526,6 +552,7 @@ class Llama4Model(LlamaModel):
             ckpt_down_proj_name="down_proj",
             ckpt_up_proj_name="up_proj",
             num_experts=self.num_experts,
+            num_redundant_experts=self.n_redundant_experts,
         )
         # Expert parameter mapping for the case where the expert weights are
         # fused into a single weight tensor.
@@ -683,7 +710,7 @@ class Llama4Model(LlamaModel):
         return loaded_params
 
 
-class Llama4ForCausalLM(LlamaForCausalLM):
+class Llama4ForCausalLM(LlamaForCausalLM, MixtureOfExperts):
     packed_modules_mapping = {
         "qkv_proj": ["q_proj", "k_proj", "v_proj"],
         "gate_up_proj": ["gate_proj", "up_proj"],
@@ -702,6 +729,57 @@ class Llama4ForCausalLM(LlamaForCausalLM):
         super().__init__(
             vllm_config=vllm_config, prefix=prefix, layer_type=Llama4DecoderLayer
         )
+        # Set MoE hyperparameters
+        self.set_moe_parameters()
+
+    def set_moe_parameters(self):
+        self.expert_weights = []
+
+        self.moe_layers = []
+        example_moe = None
+        for layer in self.model.layers:
+            assert isinstance(layer, Llama4DecoderLayer)
+            if isinstance(layer.feed_forward, Llama4MoE):
+                # Pick last one layer since the first ones may be dense layers.
+                example_moe = layer.feed_forward
+                self.moe_layers.append(layer.feed_forward.experts)
+
+        if example_moe is None:
+            self.num_moe_layers = 0
+            self.num_expert_groups = 0
+            self.num_logical_experts = 0
+            self.num_physical_experts = 0
+            self.num_local_physical_experts = 0
+            self.num_routed_experts = 0
+            self.num_shared_experts = 0
+            self.num_redundant_experts = 0
+            logger.warning("No Llama4MoE layer found in model.layers.")
+        else:
+            self.num_moe_layers = len(self.moe_layers)
+            self.num_expert_groups = 1
+            self.num_logical_experts = example_moe.n_logical_experts
+            self.num_physical_experts = example_moe.n_physical_experts
+            self.num_local_physical_experts = example_moe.n_local_physical_experts
+            self.num_routed_experts = example_moe.n_routed_experts
+            self.num_shared_experts = example_moe.n_shared_experts
+            self.num_redundant_experts = example_moe.n_redundant_experts
+
+    def update_physical_experts_metadata(
+        self,
+        num_physical_experts: int,
+        num_local_physical_experts: int,
+    ) -> None:
+        assert self.num_local_physical_experts == num_local_physical_experts
+        self.num_physical_experts = num_physical_experts
+        self.num_local_physical_experts = num_local_physical_experts
+        self.num_redundant_experts = num_physical_experts - self.num_logical_experts
+        for layer in self.model.layers:
+            if isinstance(layer.feed_forward, Llama4MoE):
+                moe = layer.feed_forward
+                moe.n_local_physical_experts = num_local_physical_experts
+                moe.n_physical_experts = num_physical_experts
+                moe.n_redundant_experts = self.num_redundant_experts
+                moe.experts.update_expert_map()
 
     def _init_model(
         self,
diff --git a/vllm/model_executor/models/llama4_eagle.py b/vllm/model_executor/models/llama4_eagle.py
index 90273463d64ed..b59176191e7aa 100644
--- a/vllm/model_executor/models/llama4_eagle.py
+++ b/vllm/model_executor/models/llama4_eagle.py
@@ -189,6 +189,9 @@ class EagleLlama4ForCausalLM(Llama4ForCausalLM):
             self.config.vocab_size, scale=logit_scale
         )
 
+        # Set MoE hyperparameters
+        self.set_moe_parameters()
+
     def get_language_model(self) -> torch.nn.Module:
         return self.model
 
diff --git a/vllm/model_executor/models/minicpm.py b/vllm/model_executor/models/minicpm.py
index 09328b4722488..95097a6f832c6 100644
--- a/vllm/model_executor/models/minicpm.py
+++ b/vllm/model_executor/models/minicpm.py
@@ -578,6 +578,7 @@ class MiniCPMForCausalLM(nn.Module, SupportsLoRA, SupportsPP, SupportsEagle3):
         cache_config = vllm_config.cache_config
         quant_config = vllm_config.quant_config
         lora_config = vllm_config.lora_config
+        parallel_config = vllm_config.parallel_config
 
         self.prefix = prefix
         self.vllm_config = vllm_config
@@ -613,6 +614,8 @@ class MiniCPMForCausalLM(nn.Module, SupportsLoRA, SupportsPP, SupportsEagle3):
         self.make_empty_intermediate_tensors = (
             self.model.make_empty_intermediate_tensors
         )
+        if parallel_config.enable_eplb and getattr(config, "num_experts", 0) > 0:
+            raise NotImplementedError("EPLB is not supported for MiniCPM yet.")
 
     def _init_model(self, *, vllm_config: VllmConfig, prefix: str = ""):
         return MiniCPMModel(vllm_config=vllm_config, prefix=prefix)
diff --git a/vllm/model_executor/models/mixtral.py b/vllm/model_executor/models/mixtral.py
index bc56481820a92..c1f411b6cd2ac 100644
--- a/vllm/model_executor/models/mixtral.py
+++ b/vllm/model_executor/models/mixtral.py
@@ -98,7 +98,7 @@ class MixtralMoE(nn.Module):
         self.hidden_size = hidden_size
 
         self.ep_group = get_ep_group().device_group
-        self.ep_rank = self.ep_group.rank()
+        self.ep_rank = get_ep_group().rank_in_group
         self.ep_size = self.ep_group.size()
 
         # Expert Parallelism Load balancing settings.
@@ -546,7 +546,7 @@ class MixtralForCausalLM(nn.Module, SupportsLoRA, SupportsPP, MixtureOfExperts):
         )
 
         self.expert_weights = []
-        self.moe_layers: list[FusedMoE] = []
+        self.moe_layers = []
         example_moe = None
 
         for layer in self.model.layers:
@@ -572,22 +572,6 @@ class MixtralForCausalLM(nn.Module, SupportsLoRA, SupportsPP, MixtureOfExperts):
         self.num_expert_groups = 1
         self.num_shared_experts = 0
 
-    def set_eplb_state(
-        self,
-        expert_load_view: torch.Tensor,
-        logical_to_physical_map: torch.Tensor,
-        logical_replica_count: torch.Tensor,
-    ) -> None:
-        for layer_idx, layer in enumerate(self.moe_layers):
-            # Register the expert weights.
-            self.expert_weights.append(layer.get_expert_weights())
-            layer.set_eplb_state(
-                moe_layer_idx=layer_idx,
-                expert_load_view=expert_load_view,
-                logical_to_physical_map=logical_to_physical_map,
-                logical_replica_count=logical_replica_count,
-            )
-
     def update_physical_experts_metadata(
         self,
         num_physical_experts: int,
diff --git a/vllm/model_executor/models/mllama4.py b/vllm/model_executor/models/mllama4.py
index 81be1135dfd9b..4548abde77d5f 100644
--- a/vllm/model_executor/models/mllama4.py
+++ b/vllm/model_executor/models/mllama4.py
@@ -65,6 +65,7 @@ from vllm.sequence import IntermediateTensors
 from vllm.utils.tensor_schema import TensorSchema, TensorShape
 
 from .interfaces import (
+    MixtureOfExperts,
     MultiModalEmbeddings,
     SupportsEagle3,
     SupportsMultiModal,
@@ -723,7 +724,7 @@ class Mllama4DummyInputsBuilder(BaseDummyInputsBuilder[Mllama4ProcessingInfo]):
     dummy_inputs=Mllama4DummyInputsBuilder,
 )
 class Llama4ForConditionalGeneration(
-    nn.Module, SupportsMultiModal, SupportsPP, SupportsEagle3
+    nn.Module, SupportsMultiModal, SupportsPP, MixtureOfExperts, SupportsEagle3
 ):
     merge_by_field_config = True
 
@@ -776,6 +777,17 @@ class Llama4ForConditionalGeneration(
             self.language_model.make_empty_intermediate_tensors
         )
 
+        # Set MoE hyperparameters
+        self.num_expert_groups = 1
+        self.num_logical_experts = self.language_model.num_logical_experts
+        self.num_physical_experts = self.language_model.num_physical_experts
+        self.num_local_physical_experts = self.language_model.num_local_physical_experts
+        self.num_routed_experts = self.language_model.num_routed_experts
+        self.num_shared_experts = self.language_model.num_shared_experts
+        self.num_redundant_experts = self.language_model.num_redundant_experts
+        self.moe_layers = self.language_model.moe_layers
+        self.num_moe_layers = len(self.moe_layers)
+
     def set_aux_hidden_state_layers(self, layers: tuple[int, ...]) -> None:
         """Set which layers should output auxiliary hidden states for EAGLE3."""
         # Delegate to underlying language model (Llama4ForCausalLM)
@@ -792,6 +804,24 @@ class Llama4ForConditionalGeneration(
         assert hasattr(self.language_model, "get_eagle3_aux_hidden_state_layers")
         return self.language_model.get_eagle3_aux_hidden_state_layers()
 
+    def set_eplb_state(
+        self,
+        expert_load_view: torch.Tensor,
+        logical_to_physical_map: torch.Tensor,
+        logical_replica_count: torch.Tensor,
+    ):
+        self.language_model.set_eplb_state(
+            expert_load_view, logical_to_physical_map, logical_replica_count
+        )
+        self.expert_weights = self.language_model.expert_weights
+
+    def update_physical_experts_metadata(
+        self, num_physical_experts: int, num_local_physical_experts: int
+    ):
+        self.language_model.update_physical_experts_metadata(
+            num_physical_experts, num_local_physical_experts
+        )
+
     def _parse_and_validate_image_input(
         self, **kwargs: object
     ) -> Llama4ImagePatchInputs | None:
diff --git a/vllm/model_executor/models/nemotron_h.py b/vllm/model_executor/models/nemotron_h.py
index 324b63c1732fe..fb58d01be7ba1 100644
--- a/vllm/model_executor/models/nemotron_h.py
+++ b/vllm/model_executor/models/nemotron_h.py
@@ -807,7 +807,7 @@ class NemotronHForCausalLM(
             self.expert_weights = []
             self.num_expert_groups = config.n_group
 
-            self.moe_layers: list[SharedFusedMoE] = []
+            self.moe_layers = []
             example_moe = None
             for layer in self.model.layers:
                 if isinstance(layer, NemotronHMoEDecoderLayer):
@@ -824,22 +824,6 @@ class NemotronHForCausalLM(
             self.num_shared_experts = example_moe.n_shared_experts
             self.num_redundant_experts = example_moe.n_redundant_experts
 
-    def set_eplb_state(
-        self,
-        expert_load_view: torch.Tensor,
-        logical_to_physical_map: torch.Tensor,
-        logical_replica_count: torch.Tensor,
-    ) -> None:
-        for layer_idx, layer in enumerate(self.moe_layers):
-            # Register the expert weights.
-            self.expert_weights.append(layer.get_expert_weights())
-            layer.set_eplb_state(
-                moe_layer_idx=layer_idx,
-                expert_load_view=expert_load_view,
-                logical_to_physical_map=logical_to_physical_map,
-                logical_replica_count=logical_replica_count,
-            )
-
     def update_physical_experts_metadata(
         self,
         num_physical_experts: int,
diff --git a/vllm/model_executor/models/openpangu.py b/vllm/model_executor/models/openpangu.py
index 457498d995f82..bf1b7570a8828 100644
--- a/vllm/model_executor/models/openpangu.py
+++ b/vllm/model_executor/models/openpangu.py
@@ -1009,7 +1009,7 @@ class OpenPanguMoEModel(OpenPanguModelBase, MixtureOfExperts):
         self.num_moe_layers = config.num_hidden_layers - config.first_k_dense_replace
         self.num_expert_groups = 1
 
-        self.moe_layers: list[SharedFusedMoE] = []
+        self.moe_layers = []
         example_moe = None
         for layer in self.model.layers:
             if isinstance(layer, PPMissingLayer):
@@ -1031,22 +1031,6 @@ class OpenPanguMoEModel(OpenPanguModelBase, MixtureOfExperts):
         self.n_shared_experts = example_moe.n_shared_experts
         self.num_redundant_experts = example_moe.n_redundant_experts
 
-    def set_eplb_state(
-        self,
-        expert_load_view: torch.Tensor,
-        logical_to_physical_map: torch.Tensor,
-        logical_replica_count: torch.Tensor,
-    ) -> None:
-        for layer_idx, layer in enumerate(self.moe_layers):
-            # Register the expert weights.
-            self.expert_weights.append(layer.get_expert_weights())
-            layer.set_eplb_state(
-                moe_layer_idx=layer_idx,
-                expert_load_view=expert_load_view,
-                logical_to_physical_map=logical_to_physical_map,
-                logical_replica_count=logical_replica_count,
-            )
-
     def update_physical_experts_metadata(
         self,
         num_physical_experts: int,
diff --git a/vllm/model_executor/models/qwen3_moe.py b/vllm/model_executor/models/qwen3_moe.py
index 8452d7b04f5c2..a7e6772bb7082 100644
--- a/vllm/model_executor/models/qwen3_moe.py
+++ b/vllm/model_executor/models/qwen3_moe.py
@@ -132,7 +132,7 @@ class Qwen3MoeSparseMoeBlock(nn.Module):
         self.tp_size = get_tensor_model_parallel_world_size()
 
         self.ep_group = get_ep_group().device_group
-        self.ep_rank = self.ep_group.rank()
+        self.ep_rank = get_ep_group().rank_in_group
         self.ep_size = self.ep_group.size()
         self.n_routed_experts = config.num_experts
 
@@ -665,7 +665,7 @@ class Qwen3MoeForCausalLM(
         # Set MoE hyperparameters
         self.expert_weights = []
 
-        self.moe_layers: list[FusedMoE] = []
+        self.moe_layers = []
         example_layer = None
         for layer in self.model.layers:
             if isinstance(layer, PPMissingLayer):
@@ -688,22 +688,6 @@ class Qwen3MoeForCausalLM(
         self.num_routed_experts = example_layer.n_routed_experts
         self.num_redundant_experts = example_layer.n_redundant_experts
 
-    def set_eplb_state(
-        self,
-        expert_load_view: torch.Tensor,
-        logical_to_physical_map: torch.Tensor,
-        logical_replica_count: torch.Tensor,
-    ) -> None:
-        for layer_idx, layer in enumerate(self.moe_layers):
-            # Register the expert weights.
-            self.expert_weights.append(layer.get_expert_weights())
-            layer.set_eplb_state(
-                moe_layer_idx=layer_idx,
-                expert_load_view=expert_load_view,
-                logical_to_physical_map=logical_to_physical_map,
-                logical_replica_count=logical_replica_count,
-            )
-
     def update_physical_experts_metadata(
         self,
         num_physical_experts: int,
diff --git a/vllm/model_executor/models/qwen3_next.py b/vllm/model_executor/models/qwen3_next.py
index f452ba871582d..e4cd9df2c8dcb 100644
--- a/vllm/model_executor/models/qwen3_next.py
+++ b/vllm/model_executor/models/qwen3_next.py
@@ -107,7 +107,7 @@ class Qwen3NextSparseMoeBlock(nn.Module):
         self.tp_size = get_tensor_model_parallel_world_size()
 
         self.ep_group = get_ep_group().device_group
-        self.ep_rank = self.ep_group.rank()
+        self.ep_rank = get_ep_group().rank_in_group
         self.ep_size = self.ep_group.size()
         self.n_routed_experts = config.num_experts
 
@@ -1095,8 +1095,57 @@ class Qwen3NextModel(nn.Module):
         return loaded_params
 
 
+class QwenNextMixtureOfExperts(MixtureOfExperts):
+    def update_physical_experts_metadata(
+        self,
+        num_physical_experts: int,
+        num_local_physical_experts: int,
+    ) -> None:
+        assert self.num_local_physical_experts == num_local_physical_experts
+        self.num_physical_experts = num_physical_experts
+        self.num_local_physical_experts = num_local_physical_experts
+        self.num_redundant_experts = num_physical_experts - self.num_logical_experts
+        for layer in self.model.layers:
+            if isinstance(layer.mlp, Qwen3NextSparseMoeBlock):
+                moe = layer.mlp
+                moe.n_local_physical_experts = num_local_physical_experts
+                moe.n_physical_experts = num_physical_experts
+                moe.n_redundant_experts = self.num_redundant_experts
+                moe.experts.update_expert_map()
+
+    def set_moe_parameters(self):
+        self.expert_weights = []
+
+        self.moe_layers = []
+        example_moe = None
+        for layer in self.model.layers:
+            if isinstance(layer, Qwen3NextDecoderLayer) and isinstance(
+                layer.mlp, Qwen3NextSparseMoeBlock
+            ):
+                example_moe = layer.mlp
+                self.moe_layers.append(layer.mlp.experts)
+
+            if example_moe is None:
+                raise RuntimeError("No Qwen3Next layer found in the model.layers.")
+
+        # Set MoE hyperparameters
+        self.num_moe_layers = len(self.moe_layers)
+        self.num_expert_groups = 1
+        self.num_shared_experts = 0
+        self.num_logical_experts = example_moe.n_logical_experts
+        self.num_physical_experts = example_moe.n_physical_experts
+        self.num_local_physical_experts = example_moe.n_local_physical_experts
+        self.num_routed_experts = example_moe.n_routed_experts
+        self.num_redundant_experts = example_moe.n_redundant_experts
+
+
 class Qwen3NextForCausalLM(
-    nn.Module, HasInnerState, SupportsLoRA, SupportsPP, MixtureOfExperts, IsHybrid
+    nn.Module,
+    HasInnerState,
+    SupportsLoRA,
+    SupportsPP,
+    QwenNextMixtureOfExperts,
+    IsHybrid,
 ):
     packed_modules_mapping = {
         "qkv_proj": [
@@ -1147,63 +1196,7 @@ class Qwen3NextForCausalLM(
         )
 
         # Set MoE hyperparameters
-        self.expert_weights = []
-
-        self.moe_layers: list[SharedFusedMoE] = []
-        example_layer = None
-        for layer in self.model.layers:
-            if isinstance(layer, PPMissingLayer):
-                continue
-
-            assert isinstance(layer, Qwen3NextDecoderLayer)
-            if isinstance(layer.mlp, Qwen3NextSparseMoeBlock):
-                example_layer = layer.mlp
-                self.moe_layers.append(layer.mlp.experts)
-
-        if example_layer is None:
-            raise RuntimeError("No Qwen3Next layer found in the model.layers.")
-
-        self.num_moe_layers = len(self.moe_layers)
-        self.num_expert_groups = 1
-        self.num_shared_experts = 0
-        self.num_logical_experts = example_layer.n_logical_experts
-        self.num_physical_experts = example_layer.n_physical_experts
-        self.num_local_physical_experts = example_layer.n_local_physical_experts
-        self.num_routed_experts = example_layer.n_routed_experts
-        self.num_redundant_experts = example_layer.n_redundant_experts
-
-    def set_eplb_state(
-        self,
-        expert_load_view: torch.Tensor,
-        logical_to_physical_map: torch.Tensor,
-        logical_replica_count: torch.Tensor,
-    ) -> None:
-        for layer_idx, layer in enumerate(self.moe_layers):
-            # Register the expert weights.
-            self.expert_weights.append(layer.get_expert_weights())
-            layer.set_eplb_state(
-                moe_layer_idx=layer_idx,
-                expert_load_view=expert_load_view,
-                logical_to_physical_map=logical_to_physical_map,
-                logical_replica_count=logical_replica_count,
-            )
-
-    def update_physical_experts_metadata(
-        self,
-        num_physical_experts: int,
-        num_local_physical_experts: int,
-    ) -> None:
-        assert self.num_local_physical_experts == num_local_physical_experts
-        self.num_physical_experts = num_physical_experts
-        self.num_local_physical_experts = num_local_physical_experts
-        self.num_redundant_experts = num_physical_experts - self.num_logical_experts
-        for layer in self.model.layers:
-            if isinstance(layer.mlp, Qwen3NextSparseMoeBlock):
-                moe = layer.mlp
-                moe.n_local_physical_experts = num_local_physical_experts
-                moe.n_physical_experts = num_physical_experts
-                moe.n_redundant_experts = self.num_redundant_experts
-                moe.experts.update_expert_map()
+        self.set_moe_parameters()
 
     def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.model.get_input_embeddings(input_ids)
diff --git a/vllm/model_executor/models/qwen3_next_mtp.py b/vllm/model_executor/models/qwen3_next_mtp.py
index a447484ae82a0..271b76adcff7e 100644
--- a/vllm/model_executor/models/qwen3_next_mtp.py
+++ b/vllm/model_executor/models/qwen3_next_mtp.py
@@ -23,6 +23,7 @@ from vllm.model_executor.model_loader.weight_utils import default_weight_loader
 from vllm.model_executor.models.qwen3_next import (
     Qwen3NextDecoderLayer,
     Qwen3NextRMSNorm,
+    QwenNextMixtureOfExperts,
 )
 from vllm.sequence import IntermediateTensors
 from vllm.transformers_utils.configs import Qwen3NextConfig
@@ -226,7 +227,7 @@ class Qwen3NextMultiTokenPredictor(nn.Module):
 
 
 @support_torch_compile
-class Qwen3NextMTP(nn.Module, SupportsPP):
+class Qwen3NextMTP(nn.Module, SupportsPP, QwenNextMixtureOfExperts):
     packed_modules_mapping = {
         "qkv_proj": [
             "q_proj",
@@ -265,6 +266,7 @@ class Qwen3NextMTP(nn.Module, SupportsPP):
         self.make_empty_intermediate_tensors = (
             self.model.make_empty_intermediate_tensors
         )
+        self.set_moe_parameters()
 
     def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.model.get_input_embeddings(input_ids)
diff --git a/vllm/model_executor/models/transformers/moe.py b/vllm/model_executor/models/transformers/moe.py
index 2056ebeb10864..8e39eb0b9902c 100644
--- a/vllm/model_executor/models/transformers/moe.py
+++ b/vllm/model_executor/models/transformers/moe.py
@@ -125,7 +125,7 @@ class MoEMixin(MixtureOfExperts):
         logical_to_physical_map: torch.Tensor,
         logical_replica_count: torch.Tensor,
     ):
-        for moe_layer_idx, mlp_layer in enumerate(self.mlp_layers):
+        for moe_layer_idx, mlp_layer in enumerate(self.mlp_moe_layers):
             mlp_layer.experts.set_eplb_state(
                 moe_layer_idx=moe_layer_idx,
                 expert_load_view=expert_load_view,
@@ -142,7 +142,7 @@ class MoEMixin(MixtureOfExperts):
         self.num_physical_experts = num_physical_experts
         self.num_local_physical_experts = num_local_physical_experts
         self.num_redundant_experts = num_physical_experts - self.num_logical_experts
-        for mlp in self.mlp_layers:
+        for mlp in self.mlp_moe_layers:
             mlp.n_local_physical_experts = num_local_physical_experts
             mlp.n_physical_experts = num_physical_experts
             mlp.n_redundant_experts = self.num_redundant_experts
@@ -240,7 +240,8 @@ class MoEMixin(MixtureOfExperts):
         # MixtureOfExperts mixin settings
         ep_size = get_ep_group().world_size
 
-        self.mlp_layers = []  # Used for MixtureOfExperts methods
+        self.mlp_moe_layers = []  # Used for MixtureOfExperts methods
+        self.moe_layers = []
         self.expert_weights = []
         self.num_moe_layers = 0
         self.num_expert_groups = 1 if num_expert_group is None else num_expert_group
@@ -298,7 +299,8 @@ class MoEMixin(MixtureOfExperts):
                     mlp.experts = fused_experts
                     log_replacement(qual_name, experts, fused_experts)
                     # Update MixtureOfExperts mixin state
-                    self.mlp_layers.append(mlp)
+                    self.mlp_moe_layers.append(mlp)
+                    self.moe_layers.append(fused_experts)
                     self.expert_weights.append(fused_experts.get_expert_weights())
                     self.num_moe_layers += 1
                     # If results are not all-reduced in FusedMoE, ensure they
diff --git a/vllm/v1/spec_decode/medusa.py b/vllm/v1/spec_decode/medusa.py
index 150dde177ce8d..12b903ccaca97 100644
--- a/vllm/v1/spec_decode/medusa.py
+++ b/vllm/v1/spec_decode/medusa.py
@@ -8,6 +8,7 @@ from vllm.config import VllmConfig
 from vllm.forward_context import set_forward_context
 from vllm.logger import init_logger
 from vllm.model_executor.model_loader import get_model
+from vllm.model_executor.models.interfaces import is_mixture_of_experts
 from vllm.v1.sample.metadata import SamplingMetadata
 
 # Initialize logger
@@ -56,6 +57,10 @@ class MedusaProposer:
                 vllm_config=self.vllm_config,
                 model_config=self.vllm_config.speculative_config.draft_model_config,
             )
+        assert not (
+            is_mixture_of_experts(self.model)
+            and self.vllm_config.parallel_config.enable_eplb
+        ), "EPLB for Medusa is not supported"
 
     @torch.inference_mode()
     def dummy_run(self, num_tokens: int) -> None:
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index 469bd0d435b63..91015ad4379c9 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -2046,7 +2046,6 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
         model = self.get_model()
         assert is_mixture_of_experts(model)
         self.eplb_state.step(
-            model,
             is_dummy,
             is_profile,
             log_stats=self.parallel_config.eplb_config.log_balancedness,
@@ -2803,7 +2802,9 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
             else:
                 indices = []
                 offset = 0
-                assert spec_decode_metadata is not None
+                assert spec_decode_metadata is not None, (
+                    "No spec decode metadata for medusa"
+                )
                 for num_draft, tokens in zip(
                     spec_decode_metadata.num_draft_tokens, sampled_token_ids
                 ):
@@ -2934,32 +2935,15 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
             self.model_config.model,
             scope="global",
         )
-        if eep_scale_up:
-            from vllm.distributed.parallel_state import get_ep_group
-
-            num_local_physical_experts = torch.empty(1, dtype=torch.int32, device="cpu")
-            torch.distributed.broadcast(
-                num_local_physical_experts, group=get_ep_group().cpu_group, group_src=0
-            )
-            num_local_physical_experts = int(num_local_physical_experts.item())
-            new_ep_size = get_ep_group().world_size
-            global_expert_load, old_global_expert_indices = EplbState.recv_state()
-            num_logical_experts = global_expert_load.shape[1]
-            self.parallel_config.eplb_config.num_redundant_experts = (
-                num_local_physical_experts * new_ep_size - num_logical_experts
-            )
-            assert old_global_expert_indices.shape[1] % num_local_physical_experts == 0
-            old_ep_size = (
-                old_global_expert_indices.shape[1] // num_local_physical_experts
-            )
-            rank_mapping = {
-                old_ep_rank: old_ep_rank for old_ep_rank in range(old_ep_size)
-            }
-        else:
-            global_expert_load = None
-            old_global_expert_indices = None
-            rank_mapping = None
+        global_expert_loads, old_global_expert_indices_per_model, rank_mapping = (
+            EplbState.get_eep_state(self.parallel_config)
+            if eep_scale_up
+            else (None, None, None)
+        )
 
+        if self.parallel_config.enable_eplb:
+            self.eplb_state = EplbState(self.parallel_config, self.device)
+            eplb_models = 0
         with DeviceMemoryProfiler() as m:
             time_before_load = time.perf_counter()
             model_loader = get_model_loader(self.load_config)
@@ -2971,8 +2955,39 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
                     self.model, self.vllm_config, self.device
                 )
             if hasattr(self, "drafter"):
-                logger.info("Loading drafter model...")
+                logger.info_once("Loading drafter model...")
                 self.drafter.load_model(self.model)
+                if (
+                    hasattr(self.drafter, "model")
+                    and is_mixture_of_experts(self.drafter.model)
+                    and self.parallel_config.enable_eplb
+                ):
+                    logger.info_once(
+                        "EPLB is enabled for drafter model %s.",
+                        self.vllm_config.speculative_config.draft_model_config.model,
+                    )
+
+                    global_expert_load = (
+                        global_expert_loads[eplb_models]
+                        if global_expert_loads
+                        else None
+                    )
+                    old_global_expert_indices = (
+                        old_global_expert_indices_per_model[eplb_models]
+                        if old_global_expert_indices_per_model
+                        else None
+                    )
+                    if self.eplb_state is None:
+                        self.eplb_state = EplbState(self.parallel_config, self.device)
+                    self.eplb_state.add_model(
+                        self.drafter.model,
+                        self.vllm_config.speculative_config.draft_model_config,
+                        global_expert_load,
+                        old_global_expert_indices,
+                        rank_mapping,
+                    )
+                    eplb_models += 1
+
             if self.use_aux_hidden_state_outputs:
                 if not supports_eagle3(self.get_model()):
                     raise RuntimeError(
@@ -3001,18 +3016,25 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
             scope="local",
         )
         prepare_communication_buffer_for_model(self.model)
-
         self.is_multimodal_pruning_enabled = (
             supports_multimodal_pruning(self.get_model())
             and self.model_config.multimodal_config.is_multimodal_pruning_enabled()
         )
 
         if is_mixture_of_experts(self.model) and self.parallel_config.enable_eplb:
-            logger.info("EPLB is enabled for model %s.", self.model_config.model)
-            self.eplb_state = EplbState.build(
+            logger.info_once("EPLB is enabled for model %s.", self.model_config.model)
+            global_expert_load = (
+                global_expert_loads[eplb_models] if global_expert_loads else None
+            )
+            old_global_expert_indices = (
+                old_global_expert_indices_per_model[eplb_models]
+                if old_global_expert_indices_per_model
+                else None
+            )
+            assert self.eplb_state is not None
+            self.eplb_state.add_model(
                 self.model,
-                self.device,
-                self.parallel_config,
+                self.model_config,
                 global_expert_load,
                 old_global_expert_indices,
                 rank_mapping,
diff --git a/vllm/v1/worker/gpu_worker.py b/vllm/v1/worker/gpu_worker.py
index 3cc8f90a3e199..9178d929111c2 100644
--- a/vllm/v1/worker/gpu_worker.py
+++ b/vllm/v1/worker/gpu_worker.py
@@ -32,6 +32,7 @@ from vllm.distributed.parallel_state import (
 from vllm.logger import init_logger
 from vllm.lora.request import LoRARequest
 from vllm.model_executor import set_random_seed
+from vllm.model_executor.models.interfaces import is_mixture_of_experts
 from vllm.model_executor.warmup.kernel_warmup import kernel_warmup
 from vllm.platforms import current_platform
 from vllm.sequence import IntermediateTensors
@@ -613,7 +614,6 @@ class Worker(WorkerBase):
         }
         assert self.model_runner.eplb_state is not None
         self.model_runner.eplb_state.rearrange(
-            self.model_runner.model,
             execute_shuffle=True,
             global_expert_load=None,
             rank_mapping=rank_mapping,
@@ -626,7 +626,7 @@ class Worker(WorkerBase):
         self,
         old_ep_size: int,
         new_ep_size: int,
-        global_expert_load: torch.Tensor | None,
+        global_expert_loads: list[torch.Tensor] | None,
     ) -> None:
         from vllm.distributed.parallel_state import get_ep_group
 
@@ -635,9 +635,8 @@ class Worker(WorkerBase):
         rank_mapping = {old_ep_rank: old_ep_rank for old_ep_rank in range(old_ep_size)}
         assert self.model_runner.eplb_state is not None
         self.model_runner.eplb_state.rearrange(
-            self.model_runner.model,
             execute_shuffle=True,
-            global_expert_load=global_expert_load,
+            global_expert_loads=global_expert_loads,
             rank_mapping=rank_mapping,
         )
         if get_ep_group().rank == 0:
@@ -684,31 +683,56 @@ class Worker(WorkerBase):
             get_ep_group,
             prepare_communication_buffer_for_model,
         )
-        from vllm.model_executor.layers.fused_moe.layer import FusedMoEParallelConfig
+        from vllm.model_executor.layers.fused_moe.layer import (
+            FusedMoE,
+            FusedMoEParallelConfig,
+        )
 
         parallel_config = self.vllm_config.parallel_config
-        moe_modules = [
-            module
-            for module in self.model_runner.model.modules()
-            if (
-                module.__class__.__name__ == "FusedMoE"
-                or module.__class__.__name__ == "SharedFusedMoE"
-            )
-        ]
-        num_local_experts = moe_modules[0].moe_config.num_local_experts
-        assert all(
-            module.moe_config.num_local_experts == num_local_experts
-            for module in moe_modules
-        ), "All MoE modules must have the same number of experts"
-        for module in moe_modules:
-            module.moe_config.num_experts = num_local_experts * new_ep_size
-            module.global_num_experts = module.moe_config.num_experts
-            module.moe_parallel_config = FusedMoEParallelConfig.make(
-                tp_size_=get_tp_group().world_size,
-                dp_size_=get_dp_group().world_size,
-                vllm_parallel_config=parallel_config,
-            )
-            module.moe_config.moe_parallel_config = module.moe_parallel_config
+
+        def get_moe_modules(model: torch.nn.Module) -> list[FusedMoE]:
+            return [
+                module
+                for module in model.modules()
+                if (
+                    module.__class__.__name__ == "FusedMoE"
+                    or module.__class__.__name__ == "SharedFusedMoE"
+                )
+            ]
+
+        def update_moe_modules(moe_modules: list[FusedMoE], num_local_experts: int):
+            assert all(
+                module.moe_config.num_local_experts == num_local_experts
+                for module in moe_modules
+            ), "All MoE modules must have the same number of experts"
+            for module in moe_modules:
+                module.moe_config.num_experts = num_local_experts * new_ep_size
+                module.global_num_experts = module.moe_config.num_experts
+                module.moe_parallel_config = FusedMoEParallelConfig.make(
+                    tp_size_=get_tp_group().world_size,
+                    dp_size_=get_dp_group().world_size,
+                    vllm_parallel_config=parallel_config,
+                )
+                module.moe_config.moe_parallel_config = module.moe_parallel_config
+            return moe_modules
+
+        model_moe_modules = get_moe_modules(self.model_runner.model)
+        num_local_experts = model_moe_modules[0].moe_config.num_local_experts
+
+        update_moe_modules(model_moe_modules, num_local_experts)
+        drafter_model = None
+        if hasattr(self.model_runner, "drafter") and hasattr(
+            self.model_runner.drafter, "model"
+        ):
+            drafter_model = self.model_runner.drafter.model
+        if drafter_model is not None and is_mixture_of_experts(drafter_model):
+            drafter_moe_modules = get_moe_modules(drafter_model)
+            # Check if drafter and model have matching configs
+            assert (
+                drafter_moe_modules[0].moe_config.num_local_experts == num_local_experts
+            ), "Drafter and model configs should be the same"
+            update_moe_modules(drafter_moe_modules, num_local_experts)
+
         if new_ep_size < old_ep_size:
             num_local_physical_experts = num_local_experts
             assert self.model_runner.eplb_state is not None
@@ -719,7 +743,7 @@ class Worker(WorkerBase):
                 new_physical_experts
                 - self.model_runner.eplb_state.logical_replica_count.shape[1]
             )
-            global_expert_load = None
+            global_expert_loads = None
         else:
             num_local_physical_experts = torch.tensor(
                 [num_local_experts], dtype=torch.int32, device="cpu"
@@ -730,18 +754,20 @@ class Worker(WorkerBase):
             num_local_physical_experts = num_local_physical_experts.item()
             new_physical_experts = num_local_physical_experts * new_ep_size
             assert self.model_runner.eplb_state is not None
-            global_expert_load = self.model_runner.eplb_state.rearrange(
-                self.model_runner.model, execute_shuffle=False
+            global_expert_loads = self.model_runner.eplb_state.rearrange(
+                execute_shuffle=False
             )
             parallel_config.eplb_config.num_redundant_experts = (
-                new_physical_experts - global_expert_load.shape[1]
+                new_physical_experts - global_expert_loads[0].shape[1]
             )
         prepare_communication_buffer_for_model(self.model_runner.model)
+        if drafter_model is not None:
+            prepare_communication_buffer_for_model(drafter_model)
         self.model_runner.model.update_physical_experts_metadata(
             num_physical_experts=new_physical_experts,
             num_local_physical_experts=num_local_physical_experts,
         )
-        return global_expert_load
+        return global_expert_loads
 
     def reinitialize_distributed(
         self, reconfig_request: ReconfigureDistributedRequest
@@ -782,11 +808,11 @@ class Worker(WorkerBase):
                 self.local_rank,
             )
 
-        global_expert_load = self._reconfigure_moe(old_ep_size, new_ep_size)
+        global_expert_loads = self._reconfigure_moe(old_ep_size, new_ep_size)
 
         if new_ep_size > old_ep_size:
-            assert global_expert_load is not None
-            self._eplb_after_scale_up(old_ep_size, new_ep_size, global_expert_load)
+            assert global_expert_loads is not None
+            self._eplb_after_scale_up(old_ep_size, new_ep_size, global_expert_loads)
 
     def save_sharded_state(
         self,

From 80c9275348c1c0be21f03938c918d2ed5d98574b Mon Sep 17 00:00:00 2001
From: Alexei-V-Ivanov-AMD
 <156011006+Alexei-V-Ivanov-AMD@users.noreply.github.com>
Date: Wed, 5 Nov 2025 09:35:49 -0600
Subject: [PATCH 154/976] Enabling cooperative multi-gpu tests on multi-gpu
 nodes (#27986)

Signed-off-by: Alexei V. Ivanov <alexei.ivanov@amd.com>
---
 .buildkite/scripts/hardware_ci/run-amd-test.sh | 11 ++++++++++-
 1 file changed, 10 insertions(+), 1 deletion(-)

diff --git a/.buildkite/scripts/hardware_ci/run-amd-test.sh b/.buildkite/scripts/hardware_ci/run-amd-test.sh
index aa4cc7b35a543..58fd435691f4a 100755
--- a/.buildkite/scripts/hardware_ci/run-amd-test.sh
+++ b/.buildkite/scripts/hardware_ci/run-amd-test.sh
@@ -173,6 +173,14 @@ fi
 PARALLEL_JOB_COUNT=8
 MYPYTHONPATH=".."
 
+# Test that we're launching on the machine that has
+# proper access to GPUs
+render_gid=$(getent group render | cut -d: -f3)
+if [[ -z "$render_gid" ]]; then
+  echo "Error: 'render' group not found. This is required for GPU access." >&2
+  exit 1
+fi
+
 # check if the command contains shard flag, we will run all shards in parallel because the host have 8 GPUs. 
 if [[ $commands == *"--shard-id="* ]]; then
   # assign job count as the number of shards used   
@@ -186,6 +194,7 @@ if [[ $commands == *"--shard-id="* ]]; then
         --device /dev/kfd $BUILDKITE_AGENT_META_DATA_RENDER_DEVICES \
         --network=host \
         --shm-size=16gb \
+        --group-add "$render_gid" \
         --rm \
         -e HIP_VISIBLE_DEVICES="${GPU}" \
         -e HF_TOKEN \
@@ -217,8 +226,8 @@ else
           --device /dev/kfd $BUILDKITE_AGENT_META_DATA_RENDER_DEVICES \
           --network=host \
           --shm-size=16gb \
+          --group-add "$render_gid" \
           --rm \
-          -e HIP_VISIBLE_DEVICES=0 \
           -e HF_TOKEN \
           -e AWS_ACCESS_KEY_ID \
           -e AWS_SECRET_ACCESS_KEY \

From 6cae1e53326ab89551352b926854af7cd96b688a Mon Sep 17 00:00:00 2001
From: Pleaplusone <pleaplusone.gy@gmail.com>
Date: Wed, 5 Nov 2025 23:43:02 +0800
Subject: [PATCH 155/976] [ROCm][MLA] Support block-size > 1 for AITER MLA
 backend  (#27224)

Signed-off-by: ganyi <ygan@amd.com>
Co-authored-by: wuhuikx <hattie.wu@amd.com>
---
 .../attention/test_attention_selector.py      |  7 ----
 vllm/platforms/rocm.py                        | 13 ++-----
 .../attention/backends/mla/rocm_aiter_mla.py  | 38 +++++++++++++++----
 3 files changed, 34 insertions(+), 24 deletions(-)

diff --git a/tests/kernels/attention/test_attention_selector.py b/tests/kernels/attention/test_attention_selector.py
index 48a42ce6ffab5..8149ce7672cdc 100644
--- a/tests/kernels/attention/test_attention_selector.py
+++ b/tests/kernels/attention/test_attention_selector.py
@@ -104,13 +104,6 @@ def test_env(
                                 16, torch.float16, None, block_size, use_mla=use_mla
                             )
                         assert f"The selected backend, {name}" in str(exc_info.value)
-                    elif name == "ROCM_AITER_MLA" and block_size != 1:
-                        # ROCM_AITER_MLA only supports block_size == 1
-                        with pytest.raises(ValueError) as exc_info:
-                            get_attn_backend(
-                                16, torch.float16, None, block_size, use_mla=use_mla
-                            )
-                        assert f"The selected backend, {name}" in str(exc_info.value)
                     else:
                         # Valid backend-block_size combination
                         backend = get_attn_backend(
diff --git a/vllm/platforms/rocm.py b/vllm/platforms/rocm.py
index 0c03a5564db89..9745e4b08cf06 100644
--- a/vllm/platforms/rocm.py
+++ b/vllm/platforms/rocm.py
@@ -252,16 +252,9 @@ class RocmPlatform(Platform):
                     f"does not support block size {block_size}."
                 )
             if selected_backend == _Backend.ROCM_AITER_MLA:
-                if block_size == 1:
-                    logger.info("Using AITER MLA backend.")
-                    return (
-                        "vllm.v1.attention.backends.mla.rocm_aiter_mla.AiterMLABackend"  # noqa: E501
-                    )
-                raise ValueError(
-                    f" The selected backend, {selected_backend.name},"
-                    f"does not support block size {block_size}."
-                    "(currently only supports block size 1)"
-                )
+                logger.info("Using AITER MLA backend.")
+                return "vllm.v1.attention.backends.mla.rocm_aiter_mla.AiterMLABackend"  # noqa: E501
+
             raise ValueError(
                 f" The selected backend, {selected_backend.name},"
                 f"is not MLA type while requested for MLA backend."
diff --git a/vllm/v1/attention/backends/mla/rocm_aiter_mla.py b/vllm/v1/attention/backends/mla/rocm_aiter_mla.py
index 962cad927e6d5..71eac84b6f063 100644
--- a/vllm/v1/attention/backends/mla/rocm_aiter_mla.py
+++ b/vllm/v1/attention/backends/mla/rocm_aiter_mla.py
@@ -78,9 +78,6 @@ class AiterMLAMetadataBuilder(MLACommonMetadataBuilder[AiterMLAMetadata]):
         super().__init__(
             kv_cache_spec, layer_names, vllm_config, device, AiterMLAMetadata
         )
-        assert self.kv_cache_spec.block_size == 1, (
-            "AITER MLAonly supports block size 1."
-        )
 
         self.compilation_config = vllm_config.compilation_config
         max_num_pages_per_req = cdiv(
@@ -94,6 +91,11 @@ class AiterMLAMetadataBuilder(MLACommonMetadataBuilder[AiterMLAMetadata]):
         # so we can only use the persistent buffer if a cudagraph is actually
         # being used.
         if self.compilation_config.cudagraph_mode.has_full_cudagraphs():
+            self.block_table_remapping = torch.zeros(
+                [max_num_reqs, max_num_pages_per_req * self.kv_cache_spec.block_size],
+                dtype=torch.int32,
+                device=device,
+            )
             self.paged_kv_indptr = torch.zeros(
                 max_num_reqs + 1, dtype=torch.int32, device=device
             )
@@ -119,13 +121,29 @@ class AiterMLAMetadataBuilder(MLACommonMetadataBuilder[AiterMLAMetadata]):
         dcp_tot_seq_lens_device: torch.Tensor | None,
     ) -> AiterMLADecodeMetadata:
         page_size = self.kv_cache_spec.block_size
-        block_table_bounds = (seq_lens_device + page_size - 1) // page_size
         device = self.device
         num_reqs = seq_lens_device.size(0)
+        bs, _ = block_table_tensor.shape
+        block_table_tensor = (
+            block_table_tensor.unsqueeze(-1).expand(-1, -1, page_size) * page_size
+        )
+        block_table_tensor = (
+            block_table_tensor
+            + torch.arange(
+                0,
+                page_size,
+                device=block_table_tensor.device,
+                dtype=block_table_tensor.dtype,
+            )[None, None, :]
+        )
+        block_table_tensor = block_table_tensor.view(bs, -1)
 
+        # after remapping, we assume the block size already equals to 1
+
+        max_blk_size_per_req = block_table_tensor.shape[-1]
         mask = torch.arange(
             block_table_tensor.size(1), dtype=block_table_tensor.dtype, device=device
-        ).unsqueeze(0) < block_table_bounds.unsqueeze(1)
+        ).unsqueeze(0) < seq_lens_device.unsqueeze(1)
         paged_kv_indices = block_table_tensor[mask]
 
         paged_kv_last_page_len = seq_lens_device % page_size
@@ -135,13 +153,19 @@ class AiterMLAMetadataBuilder(MLACommonMetadataBuilder[AiterMLAMetadata]):
 
         paged_kv_indptr = torch.cat(
             [
-                torch.zeros(1, dtype=block_table_bounds.dtype, device=device),
-                block_table_bounds.cumsum(dim=0, dtype=torch.int32),
+                torch.zeros(1, dtype=seq_lens_device.dtype, device=device),
+                seq_lens_device.cumsum(dim=0, dtype=torch.int32),
             ]
         )
 
         if self.compilation_config.cudagraph_mode.has_full_cudagraphs():
             num_actual_pages = paged_kv_indices.size(0)
+            self.block_table_remapping[:num_reqs, :max_blk_size_per_req].copy_(
+                block_table_tensor, non_blocking=True
+            )
+            block_table_tensor = self.block_table_remapping[
+                :num_reqs, :max_blk_size_per_req
+            ]
 
             self.paged_kv_indices[:num_actual_pages].copy_(
                 paged_kv_indices, non_blocking=True

From 3f5a4b6473ad1948ec49d62abf2af48c7dc1c5c6 Mon Sep 17 00:00:00 2001
From: Isotr0py <mozf@mail2.sysu.edu.cn>
Date: Thu, 6 Nov 2025 00:53:33 +0800
Subject: [PATCH 156/976] [Bugfix] Validate custom logits processor xargs for
 online serving (#27560)

Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>
---
 docs/design/logits_processors.md              | 14 ++++-
 docs/features/custom_arguments.md             |  3 ++
 docs/features/custom_logitsprocs.md           | 42 +++++++++++----
 .../logits_processor/custom.py                | 19 ++++++-
 .../logits_processor/custom_req.py            | 15 +++---
 .../logits_processor/custom_req_init.py       | 15 +++---
 .../entrypoints/openai/test_lora_resolvers.py |  1 +
 tests/entrypoints/openai/test_serving_chat.py |  1 +
 .../logits_processors/test_custom_online.py   | 29 ++++++++++
 tests/v1/logits_processors/utils.py           | 17 +++++-
 vllm/entrypoints/openai/protocol.py           |  4 +-
 vllm/entrypoints/openai/serving_chat.py       |  8 +++
 vllm/entrypoints/openai/serving_completion.py |  9 ++++
 vllm/model_executor/models/deepseek_ocr.py    | 54 ++++++++++---------
 .../configs/deepseek_vl2.py                   |  6 +++
 vllm/utils/torch_utils.py                     | 28 ++++++++++
 vllm/v1/sample/logits_processor/__init__.py   | 22 +++++++-
 vllm/v1/sample/logits_processor/interface.py  |  8 +++
 18 files changed, 239 insertions(+), 56 deletions(-)

diff --git a/docs/design/logits_processors.md b/docs/design/logits_processors.md
index da61d2a85e466..acf7fc245462c 100644
--- a/docs/design/logits_processors.md
+++ b/docs/design/logits_processors.md
@@ -254,7 +254,15 @@ The previous sections alluded to the interfaces which vLLM logits processors mus
                 changes to the batch makeup.
             """
             raise NotImplementedError
-            
+
+        @classmethod
+        def validate_params(cls, sampling_params: SamplingParams):
+            """Validate sampling params for this logits processor.
+
+            Raise ValueError for invalid ones.
+            """
+            return None
+
     ```
 
 A vLLM logits processor must subclass `LogitsProcessor` and define (at minimum) the following methods:
@@ -279,6 +287,10 @@ A vLLM logits processor must subclass `LogitsProcessor` and define (at minimum)
     * Use the `BatchUpdate` members to update logits processor internal state
     * **Note:** batch update data structure may be `None`, signaling no change to the batch constituents. In this case, the LogitsProcessor might still want to update its state based on the updated `output_token_ids` lists that it could have retained when they were added.
 
+* `validate_params(cls, sampling_params: SamplingParams)`:
+    * Raise `ValueError` if `SamplingParams` has invalid arguments (especially custom arguments) used by logits processor.
+    * When request is sent to entrypoint, `validate_params()` will validate `SamplingParams` and refuse request with invalid arguments.
+
 ### `BatchUpdate` data structure
 
 The `BatchUpdate` abstraction models the persistent batch as a list of requests, supporting the following operations to change batch state (note that the order in which the operations are mentioned below reflects the order in which they should be processed in `update_state()`):
diff --git a/docs/features/custom_arguments.md b/docs/features/custom_arguments.md
index 74ed40835b4d4..7a650d0e79c23 100644
--- a/docs/features/custom_arguments.md
+++ b/docs/features/custom_arguments.md
@@ -4,6 +4,9 @@ You can use vLLM *custom arguments* to pass in arguments which are not part of t
 
 Custom arguments can be useful if, for example, you want to use a [custom logits processor](./custom_logitsprocs.md) without modifying the vLLM source code.
 
+!!! note
+    Make sure your custom logits processor have implemented `validate_params` for custom arguments. Otherwise invalid custom arguments can cause unexpected behaviour.
+
 ## Offline Custom Arguments
 
 Custom arguments passed to `SamplingParams.extra_args` as a `dict` will be visible to any code which has access to `SamplingParams`:
diff --git a/docs/features/custom_logitsprocs.md b/docs/features/custom_logitsprocs.md
index b8ad53863cd7a..52fcc44efacc5 100644
--- a/docs/features/custom_logitsprocs.md
+++ b/docs/features/custom_logitsprocs.md
@@ -18,6 +18,11 @@ In vLLM, logits processors operate at batch granularity. During a given engine s
 
 Custom logits processors must subclass `vllm.v1.sample.logits_processor.LogitsProcessor` and define (at minimum) the following methods:
 
+* `validate_params(cls, sampling_params: SamplingParams)`:
+    * Raise `ValueError` if `SamplingParams` has invalid arguments (especially custom arguments) used by logits processor.
+    * When request is sent to entrypoint, `validate_params()` will validate `SamplingParams` and refuse request with invalid arguments.
+    * **Note:** it's important to implement `validate_params()` to prevent invalid parameters for custom logits processor. Otherwise requests with invalid parameters can cause unexpected behaviour in custom logits processor.
+
 * `__init__(self, vllm_config: VllmConfig, device: torch.device, is_pin_memory: bool)`
     * `vllm_config`: engine configuration data structure
     * `device`: hardware accelerator device info
@@ -103,6 +108,14 @@ The contrived example below implements a custom logits processor which consumes
     class DummyLogitsProcessor(LogitsProcessor):
         """Fake logit processor to support unit testing and examples"""
 
+        @classmethod
+        def validate_params(cls, params: SamplingParams):
+            target_token: int | None = params.extra_args and params.extra_args.get(
+                "target_token"
+            )
+            if target_token is not None and not isinstance(target_token, int):
+                raise ValueError(f"target_token value {target_token} is not int")
+
         def __init__(self, vllm_config: "VllmConfig", device: torch.device,
                     is_pin_memory: bool):
             self.req_info: dict[int, int] = {}
@@ -118,6 +131,7 @@ The contrived example below implements a custom logits processor which consumes
             # Process added requests.
             for index, params, _, _ in batch_update.added:
                 assert params is not None
+                self.validate_params(params)
                 if params.extra_args and (target_token :=
                                         params.extra_args.get("target_token")):
                     self.req_info[index] = target_token
@@ -157,6 +171,7 @@ The contrived example below implements a custom logits processor which consumes
             logits[rows, cols] = values_to_keep
 
             return logits
+
     ```
 
 In the rest of this document, we will use `DummyLogitsProcessor` as an example of a custom logits processor.
@@ -180,7 +195,13 @@ RequestLogitsProcessor = Union[
 
 While request-level logits processors are explicitly *not* supported in the vLLM engine, vLLM *does* provide a convenient process to wrap an existing `Callable` request-level logits processor and create a batch-level logits processor that is compatible with vLLM. The `Callable` must conform to the type annotation above; if your request-level logits processor has a different interface, then in order to wrap it, you may need to modify it or implement an additional wrapper layer to comply with the interface specification above.
 
-You can wrap the request-level logits processor by subclassing `AdapterLogitsProcessor` as shown in the example below (in this example, `DummyPerReqLogitsProcessor` is a stand-in for your request-level logits processor which needs to be wrapped.) Override `AdapterLogitsProcessor.is_argmax_invariant(self)` to accurately reflect whether your request-level logits processor may impact which token has the highest-value logit. Override `AdapterLogitsProcessor.new_req_logits_processor(self,params)` to create a new request-level logits processor instance from a `SamplingParams` instance:
+You can wrap the request-level logits processor by subclassing `AdapterLogitsProcessor` as shown in the example below (in this example, `DummyPerReqLogitsProcessor` is a stand-in for your request-level logits processor which needs to be wrapped.):
+
+* Override `AdapterLogitsProcessor.validate_params(cls,params)` to validate request's sampling parameters.
+
+* Override `AdapterLogitsProcessor.is_argmax_invariant(self)` to accurately reflect whether your request-level logits processor may impact which token has the highest-value logit.
+
+* Override `AdapterLogitsProcessor.new_req_logits_processor(self,params)` to create a new request-level logits processor instance from a `SamplingParams` instance:
 
 ??? code "Example of Wrapping a Request-Level Logits Processor"
 
@@ -220,6 +241,16 @@ You can wrap the request-level logits processor by subclassing `AdapterLogitsPro
         """Example of wrapping a fake request-level logit processor to create a
         batch-level logits processor"""
 
+        @classmethod
+        def validate_params(cls, params: SamplingParams):
+            target_token: Any | None = params.extra_args and params.extra_args.get(
+                "target_token"
+            )
+            if target_token is not None and not isinstance(target_token, int):
+                raise ValueError(
+                    f"target_token value {target_token} is not int"
+                )
+
         def is_argmax_invariant(self) -> bool:
             return False
 
@@ -240,18 +271,11 @@ You can wrap the request-level logits processor by subclassing `AdapterLogitsPro
             Returns:
             `Callable` request logits processor, or None
             """
-            target_token: Optional[Any] = params.extra_args and params.extra_args.get(
+            target_token: Any | None = params.extra_args and params.extra_args.get(
                 "target_token"
             )
             if target_token is None:
                 return None
-            if not isinstance(target_token, int):
-                logger.warning(
-                    "target_token value %s is not int; not applying logits"
-                    " processor to request.",
-                    target_token,
-                )
-                return None
             return DummyPerReqLogitsProcessor(target_token)
     ```
 
diff --git a/examples/offline_inference/logits_processor/custom.py b/examples/offline_inference/logits_processor/custom.py
index 72e7ce24d7cc8..ce000872dc96e 100644
--- a/examples/offline_inference/logits_processor/custom.py
+++ b/examples/offline_inference/logits_processor/custom.py
@@ -33,6 +33,8 @@ Output:    ' in the hands of the people.\n\nThe future of AI is in the'
 ------------------------------------------------------------
 """
 
+from typing import Any
+
 import torch
 
 from vllm import LLM, SamplingParams
@@ -48,6 +50,16 @@ from vllm.v1.sample.logits_processor.builtin import process_dict_updates
 class DummyLogitsProcessor(LogitsProcessor):
     """Fake logit processor to support unit testing and examples"""
 
+    @classmethod
+    def validate_params(cls, params: SamplingParams):
+        target_token: Any | None = params.extra_args and params.extra_args.get(
+            "target_token"
+        )
+        if target_token is not None and not isinstance(target_token, int):
+            raise ValueError(
+                f"target_token value {target_token} {type(target_token)} is not int"
+            )
+
     def __init__(
         self, vllm_config: VllmConfig, device: torch.device, is_pin_memory: bool
     ):
@@ -57,14 +69,17 @@ class DummyLogitsProcessor(LogitsProcessor):
         return False
 
     def update_state(self, batch_update: BatchUpdate | None):
+        def extract_extra_arg(params: SamplingParams) -> int | None:
+            self.validate_params(params)
+            return params.extra_args and params.extra_args.get("target_token")
+
         process_dict_updates(
             self.req_info,
             batch_update,
             # This function returns the LP's per-request state based on the
             # request details, or None if this LP does not apply to the
             # request.
-            lambda params, _, __: params.extra_args
-            and (params.extra_args.get("target_token")),
+            lambda params, _, __: extract_extra_arg(params),
         )
 
     def apply(self, logits: torch.Tensor) -> torch.Tensor:
diff --git a/examples/offline_inference/logits_processor/custom_req.py b/examples/offline_inference/logits_processor/custom_req.py
index 87cd7473fa9f1..5763fff5410dd 100644
--- a/examples/offline_inference/logits_processor/custom_req.py
+++ b/examples/offline_inference/logits_processor/custom_req.py
@@ -76,6 +76,14 @@ class WrappedPerReqLogitsProcessor(AdapterLogitsProcessor):
     """Example of wrapping a fake request-level logit processor to create a
     batch-level logits processor"""
 
+    @classmethod
+    def validate_params(cls, params: SamplingParams):
+        target_token: Any | None = params.extra_args and params.extra_args.get(
+            "target_token"
+        )
+        if target_token is not None and not isinstance(target_token, int):
+            raise ValueError(f"target_token value {target_token} is not int")
+
     def is_argmax_invariant(self) -> bool:
         return False
 
@@ -101,13 +109,6 @@ class WrappedPerReqLogitsProcessor(AdapterLogitsProcessor):
         )
         if target_token is None:
             return None
-        if not isinstance(target_token, int):
-            logger.warning(
-                "target_token value %s is not int; not applying logits"
-                " processor to request.",
-                target_token,
-            )
-            return None
         return DummyPerReqLogitsProcessor(target_token)
 
 
diff --git a/examples/offline_inference/logits_processor/custom_req_init.py b/examples/offline_inference/logits_processor/custom_req_init.py
index 3bb82a786040b..acd2c47f230f0 100644
--- a/examples/offline_inference/logits_processor/custom_req_init.py
+++ b/examples/offline_inference/logits_processor/custom_req_init.py
@@ -77,6 +77,14 @@ class WrappedPerReqLogitsProcessor(AdapterLogitsProcessor):
     """Example of overriding the wrapper class `__init__()` in order to utilize
     info about the device type"""
 
+    @classmethod
+    def validate_params(cls, params: SamplingParams):
+        target_token = params.extra_args and params.extra_args.get("target_token")
+        if target_token is not None and not isinstance(target_token, int):
+            raise ValueError(
+                f"`target_token` has to be an integer, got {target_token}."
+            )
+
     def __init__(
         self, vllm_config: VllmConfig, device: torch.device, is_pin_memory: bool
     ):
@@ -113,13 +121,6 @@ class WrappedPerReqLogitsProcessor(AdapterLogitsProcessor):
             is None
         ):
             return None
-        if not isinstance(target_token, int):
-            logger.warning(
-                "target_token value %s is not int; not applying logits"
-                " processor to request.",
-                target_token,
-            )
-            return None
         return DummyPerReqLogitsProcessor(target_token)
 
 
diff --git a/tests/entrypoints/openai/test_lora_resolvers.py b/tests/entrypoints/openai/test_lora_resolvers.py
index a85418d5b5f4e..b05fa379c69fc 100644
--- a/tests/entrypoints/openai/test_lora_resolvers.py
+++ b/tests/entrypoints/openai/test_lora_resolvers.py
@@ -40,6 +40,7 @@ class MockModelConfig:
     tokenizer_revision: str | None = None
     multimodal_config: MultiModalConfig = field(default_factory=MultiModalConfig)
     hf_config: MockHFConfig = field(default_factory=MockHFConfig)
+    logits_processors: list[str] | None = None
     logits_processor_pattern: str | None = None
     diff_sampling_param: dict | None = None
     allowed_local_media_path: str = ""
diff --git a/tests/entrypoints/openai/test_serving_chat.py b/tests/entrypoints/openai/test_serving_chat.py
index 1b83ed7e31e78..dd10384a7e8c0 100644
--- a/tests/entrypoints/openai/test_serving_chat.py
+++ b/tests/entrypoints/openai/test_serving_chat.py
@@ -353,6 +353,7 @@ class MockModelConfig:
     tokenizer_revision = None
     multimodal_config = MultiModalConfig()
     hf_config = MockHFConfig()
+    logits_processors: list[str] | None = None
     logits_processor_pattern = None
     diff_sampling_param: dict | None = None
     allowed_local_media_path: str = ""
diff --git a/tests/v1/logits_processors/test_custom_online.py b/tests/v1/logits_processors/test_custom_online.py
index 0d902b46bed5a..3e0bb02ed68be 100644
--- a/tests/v1/logits_processors/test_custom_online.py
+++ b/tests/v1/logits_processors/test_custom_online.py
@@ -177,3 +177,32 @@ async def test_custom_logitsprocs(client: openai.AsyncOpenAI, model_name: str):
 
         # Alternate whether to activate dummy logitproc for each request
         use_dummy_logitproc = not use_dummy_logitproc
+
+
+@pytest.mark.asyncio
+@pytest.mark.parametrize(
+    "model_name",
+    [MODEL_NAME],
+)
+async def test_invalid_custom_logitsproc_arg(
+    client: openai.AsyncOpenAI, model_name: str
+):
+    """Test that request with invalid custom logitsproc is rejected"""
+
+    prompt = "Hello, my name is"
+    # Pass invalid (non-int) target_token value to dummy logits processor
+    request_keyword_args: dict[str, Any] = {
+        **api_keyword_args,
+        "extra_body": {
+            "vllm_xargs": {DUMMY_LOGITPROC_ARG: "invalid_target_token_value"}
+        },
+    }
+
+    with pytest.raises(openai.OpenAIError) as exc_info:
+        await client.completions.create(
+            model=model_name,
+            prompt=prompt,
+            **request_keyword_args,
+        )
+
+    assert "is not int" in str(exc_info.value)
diff --git a/tests/v1/logits_processors/utils.py b/tests/v1/logits_processors/utils.py
index 36cffebb3b457..b8548bc319554 100644
--- a/tests/v1/logits_processors/utils.py
+++ b/tests/v1/logits_processors/utils.py
@@ -52,6 +52,16 @@ prompts = [
 class DummyLogitsProcessor(LogitsProcessor):
     """Fake logit processor to support unit testing and examples"""
 
+    @classmethod
+    def validate_params(cls, params: SamplingParams):
+        target_token: int | None = params.extra_args and params.extra_args.get(
+            "target_token"
+        )
+        if target_token is not None and not isinstance(target_token, int):
+            raise ValueError(
+                f"target_token value {target_token} {type(target_token)} is not int"
+            )
+
     def __init__(
         self, vllm_config: "VllmConfig", device: torch.device, is_pin_memory: bool
     ):
@@ -62,11 +72,14 @@ class DummyLogitsProcessor(LogitsProcessor):
         return False
 
     def update_state(self, batch_update: BatchUpdate | None):
+        def extract_extra_arg(params: SamplingParams) -> int | None:
+            self.validate_params(params)
+            return params.extra_args and params.extra_args.get("target_token")
+
         process_dict_updates(
             self.req_info,
             batch_update,
-            lambda params, _, __: params.extra_args
-            and (params.extra_args.get("target_token")),
+            lambda params, _, __: extract_extra_arg(params),
         )
 
     def apply(self, logits: torch.Tensor) -> torch.Tensor:
diff --git a/vllm/entrypoints/openai/protocol.py b/vllm/entrypoints/openai/protocol.py
index 33256de6dd47b..cf80c4fccbadb 100644
--- a/vllm/entrypoints/openai/protocol.py
+++ b/vllm/entrypoints/openai/protocol.py
@@ -772,10 +772,10 @@ class ChatCompletionRequest(OpenAIBaseModel):
         description="KVTransfer parameters used for disaggregated serving.",
     )
 
-    vllm_xargs: dict[str, str | int | float] | None = Field(
+    vllm_xargs: dict[str, str | int | float | list[str | int | float]] | None = Field(
         default=None,
         description=(
-            "Additional request parameters with string or "
+            "Additional request parameters with (list of) string or "
             "numeric values, used by custom extensions."
         ),
     )
diff --git a/vllm/entrypoints/openai/serving_chat.py b/vllm/entrypoints/openai/serving_chat.py
index b789acc26cdef..a2d5fb5763905 100644
--- a/vllm/entrypoints/openai/serving_chat.py
+++ b/vllm/entrypoints/openai/serving_chat.py
@@ -68,6 +68,7 @@ from vllm.transformers_utils.tokenizers import (
     validate_request_params,
 )
 from vllm.utils.collection_utils import as_list
+from vllm.v1.sample.logits_processor import validate_logits_processors_parameters
 
 logger = init_logger(__name__)
 
@@ -107,6 +108,9 @@ class OpenAIServingChat(OpenAIServing):
         self.trust_request_chat_template = trust_request_chat_template
         self.enable_log_outputs = enable_log_outputs
 
+        # set up logits processors
+        self.logits_processors = self.model_config.logits_processors
+
         # set up reasoning parser
         self.reasoning_parser = self._get_reasoning_parser(
             reasoning_parser_name=reasoning_parser
@@ -291,6 +295,10 @@ class OpenAIServingChat(OpenAIServing):
                         self.model_config.logits_processor_pattern,
                         self.default_sampling_params,
                     )
+                    validate_logits_processors_parameters(
+                        self.logits_processors,
+                        sampling_params,
+                    )
 
                 self._log_inputs(
                     request_id,
diff --git a/vllm/entrypoints/openai/serving_completion.py b/vllm/entrypoints/openai/serving_completion.py
index 14dbdd4cb4c7c..a114b77ebc16b 100644
--- a/vllm/entrypoints/openai/serving_completion.py
+++ b/vllm/entrypoints/openai/serving_completion.py
@@ -36,6 +36,7 @@ from vllm.sampling_params import BeamSearchParams, SamplingParams
 from vllm.transformers_utils.tokenizer import AnyTokenizer
 from vllm.utils.async_utils import merge_async_iterators
 from vllm.utils.collection_utils import as_list
+from vllm.v1.sample.logits_processor import validate_logits_processors_parameters
 
 logger = init_logger(__name__)
 
@@ -59,6 +60,10 @@ class OpenAIServingCompletion(OpenAIServing):
             return_tokens_as_token_ids=return_tokens_as_token_ids,
             log_error_stack=log_error_stack,
         )
+
+        # set up logits processors
+        self.logits_processors = self.model_config.logits_processors
+
         self.enable_prompt_tokens_details = enable_prompt_tokens_details
         self.default_sampling_params = self.model_config.get_diff_sampling_param()
         self.enable_force_include_usage = enable_force_include_usage
@@ -181,6 +186,10 @@ class OpenAIServingCompletion(OpenAIServing):
                         self.model_config.logits_processor_pattern,
                         self.default_sampling_params,
                     )
+                    validate_logits_processors_parameters(
+                        self.logits_processors,
+                        sampling_params,
+                    )
 
                 request_id_item = f"{request_id}-{i}"
 
diff --git a/vllm/model_executor/models/deepseek_ocr.py b/vllm/model_executor/models/deepseek_ocr.py
index fa24db456af4d..bfde8328da6e1 100644
--- a/vllm/model_executor/models/deepseek_ocr.py
+++ b/vllm/model_executor/models/deepseek_ocr.py
@@ -131,10 +131,34 @@ class NGramPerReqLogitsProcessor(AdapterLogitsProcessor):
     """Example of overriding the wrapper class `__init__()` in order to utilize
     info about the device type"""
 
-    def __init__(
-        self, vllm_config: VllmConfig, device: torch.device, is_pin_memory: bool
-    ):
-        super().__init__(vllm_config, device, is_pin_memory)
+    @classmethod
+    def validate_params(cls, params: SamplingParams):
+        ngram_size = params.extra_args and params.extra_args.get("ngram_size")
+        window_size = params.extra_args and params.extra_args.get("window_size", 100)
+        whitelist_token_ids = params.extra_args and params.extra_args.get(
+            "whitelist_token_ids", None
+        )
+        # if ngram_size is not provided, skip validation because the processor
+        # will not be used.
+        if ngram_size is None:
+            return None
+
+        if not isinstance(ngram_size, int) or ngram_size <= 0:
+            raise ValueError(
+                f"`ngram_size` has to be a strictly positive integer, got {ngram_size}."
+            )
+        if not isinstance(window_size, int) or window_size <= 0:
+            raise ValueError(
+                "`window_size` has to be a strictly positive integer, "
+                f"got {window_size}."
+            )
+        if whitelist_token_ids is not None and not isinstance(
+            whitelist_token_ids, Iterable
+        ):
+            raise ValueError(
+                "`whitelist_token_ids` has to be a sequence of integers, "
+                f"got {whitelist_token_ids}."
+            )
 
     def is_argmax_invariant(self) -> bool:
         return True
@@ -150,26 +174,8 @@ class NGramPerReqLogitsProcessor(AdapterLogitsProcessor):
         )
         if ngram_size is None:
             return None
-        if not isinstance(ngram_size, int) or ngram_size <= 0:
-            raise ValueError(
-                f"`ngram_size` has to be a strictly positive integer, got {ngram_size}."
-            )
-        if not isinstance(window_size, int) or window_size <= 0:
-            raise ValueError(
-                "`window_size` has to be a strictly positive integer, "
-                f"got {window_size}."
-            )
-        if whitelist_token_ids is not None and not isinstance(
-            whitelist_token_ids, Iterable
-        ):
-            raise ValueError(
-                "`whitelist_token_ids` has to be a set of integers, "
-                f"got {whitelist_token_ids}."
-            )
-        else:
-            whitelist_token_ids = (
-                set(whitelist_token_ids) if whitelist_token_ids else None
-            )
+
+        whitelist_token_ids = set(whitelist_token_ids) if whitelist_token_ids else None
         return NoRepeatNGramLogitsProcessor(
             ngram_size=ngram_size,
             window_size=window_size,
diff --git a/vllm/transformers_utils/configs/deepseek_vl2.py b/vllm/transformers_utils/configs/deepseek_vl2.py
index 7abfe62298422..23b913157d6db 100644
--- a/vllm/transformers_utils/configs/deepseek_vl2.py
+++ b/vllm/transformers_utils/configs/deepseek_vl2.py
@@ -218,3 +218,9 @@ class DeepseekVLV2Config(PretrainedConfig):
         self.global_view_pos = global_view_pos
         self.candidate_resolutions = candidate_resolutions
         self.vocab_size = self.text_config.vocab_size
+
+        # update model_type for OCR model
+        if "DeepseekOCRForCausalLM" in (
+            self.architectures or kwargs.get("architectures", [])
+        ):
+            self.model_type = "deepseek_ocr"
diff --git a/vllm/utils/torch_utils.py b/vllm/utils/torch_utils.py
index adcacb34cb7c0..fd5c1b73f1910 100644
--- a/vllm/utils/torch_utils.py
+++ b/vllm/utils/torch_utils.py
@@ -2,6 +2,7 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 import contextlib
 import importlib.metadata
+import os
 import threading
 from collections.abc import Callable, Collection
 from functools import lru_cache
@@ -68,6 +69,33 @@ def set_default_torch_num_threads(num_threads: int):
     torch.set_num_threads(old_num_threads)
 
 
+@contextlib.contextmanager
+def guard_cuda_initialization():
+    """Avoid unexpected CUDA initialization."""
+    from vllm.platforms import current_platform
+
+    if not current_platform.is_cuda():
+        yield
+        return
+
+    had_key = "CUDA_VISIBLE_DEVICES" in os.environ
+    old_value = os.environ.get("CUDA_VISIBLE_DEVICES")
+    os.environ["CUDA_VISIBLE_DEVICES"] = ""
+    try:
+        yield
+    except Exception as e:
+        if "No CUDA GPUs are available" in str(e):
+            err_msg = "CUDA initialization is blocked."
+        else:
+            err_msg = str(e)
+        raise RuntimeError(err_msg) from e
+    finally:
+        if had_key:
+            os.environ["CUDA_VISIBLE_DEVICES"] = old_value
+        else:
+            os.environ.pop("CUDA_VISIBLE_DEVICES")
+
+
 def get_dtype_size(dtype: torch.dtype) -> int:
     """Get the size of the data type in bytes."""
     return torch.tensor([], dtype=dtype).element_size()
diff --git a/vllm/v1/sample/logits_processor/__init__.py b/vllm/v1/sample/logits_processor/__init__.py
index 566de5bcda772..eb537eae6c904 100644
--- a/vllm/v1/sample/logits_processor/__init__.py
+++ b/vllm/v1/sample/logits_processor/__init__.py
@@ -13,6 +13,7 @@ import torch
 from vllm.logger import init_logger
 from vllm.logits_process import LogitsProcessor as RequestLogitsProcessor
 from vllm.sampling_params import SamplingParams
+from vllm.utils.torch_utils import guard_cuda_initialization
 from vllm.v1.sample.logits_processor.builtin import (
     LogitBiasLogitsProcessor,
     MinPLogitsProcessor,
@@ -72,8 +73,10 @@ def _load_logitsprocs_plugins() -> list[type[LogitsProcessor]]:
                 entrypoint.name,
                 entrypoint.value,
             )
-            classes.append(entrypoint.load())
+            with guard_cuda_initialization():
+                classes.append(entrypoint.load())
         except Exception as e:
+            logger.error("Failed to load LogitsProcessor plugin %s: %s", entrypoint, e)
             raise RuntimeError(
                 f"Failed to load LogitsProcessor plugin {entrypoint}"
             ) from e
@@ -126,8 +129,15 @@ def _load_logitsprocs_by_fqcns(
 
         try:
             # Load module
-            module = importlib.import_module(module_path)
+            with guard_cuda_initialization():
+                module = importlib.import_module(module_path)
         except Exception as e:
+            logger.error(
+                "Failed to load %sth LogitsProcessor plugin %s: %s",
+                ldx,
+                logitproc,
+                e,
+            )
             raise RuntimeError(
                 f"Failed to load {ldx}th LogitsProcessor plugin {logitproc}"
             ) from e
@@ -206,6 +216,14 @@ def build_logitsprocs(
     )
 
 
+def validate_logits_processors_parameters(
+    logits_processors: Sequence[str | type[LogitsProcessor]] | None,
+    sampling_params: SamplingParams,
+):
+    for logits_procs in _load_custom_logitsprocs(logits_processors):
+        logits_procs.validate_params(sampling_params)
+
+
 class AdapterLogitsProcessor(LogitsProcessor):
     """Wrapper for per-request logits processors
 
diff --git a/vllm/v1/sample/logits_processor/interface.py b/vllm/v1/sample/logits_processor/interface.py
index efa0f62ad6e1d..0cbfb187878a2 100644
--- a/vllm/v1/sample/logits_processor/interface.py
+++ b/vllm/v1/sample/logits_processor/interface.py
@@ -58,6 +58,14 @@ class BatchUpdate:
 
 
 class LogitsProcessor(ABC):
+    @classmethod
+    def validate_params(cls, sampling_params: SamplingParams):
+        """Validate sampling params for this logits processor.
+
+        Raise ValueError for invalid ones.
+        """
+        return None
+
     @abstractmethod
     def __init__(
         self, vllm_config: "VllmConfig", device: torch.device, is_pin_memory: bool

From 6fd0df81320742a4552a591861a5f96e22f66d35 Mon Sep 17 00:00:00 2001
From: Jiaju Zhang <jjzhang@redhat.com>
Date: Thu, 6 Nov 2025 01:12:59 +0800
Subject: [PATCH 157/976] [misc] add vLLM Beijing Meetup (#28127)

Signed-off-by: Jiaju Zhang <jjzhang@redhat.com>
---
 README.md                 | 1 +
 docs/community/meetups.md | 1 +
 2 files changed, 2 insertions(+)

diff --git a/README.md b/README.md
index 2e750ef8fc894..687fac932f344 100644
--- a/README.md
+++ b/README.md
@@ -21,6 +21,7 @@ Join us at the [PyTorch Conference, October 22-23](https://events.linuxfoundatio
 
 *Latest News* 🔥
 
+- [2025/11] We hosted [vLLM Beijing Meetup](https://mp.weixin.qq.com/s/xSrYXjNgr1HbCP4ExYNG1w) focusing on distributed inference and diverse accelerator support with vLLM! Please find the meetup slides [here](https://drive.google.com/drive/folders/1nQJ8ZkLSjKxvu36sSHaceVXtttbLvvu-?usp=drive_link).
 - [2025/10] We hosted [vLLM Shanghai Meetup](https://mp.weixin.qq.com/s/__xb4OyOsImz-9eAVrdlcg) focused on hands-on vLLM inference optimization! Please find the meetup slides [here](https://drive.google.com/drive/folders/1KqwjsFJLfEsC8wlDugnrR61zsWHt94Q6).
 - [2025/09] We hosted [vLLM Toronto Meetup](https://luma.com/e80e0ymm) focused on tackling inference at scale and speculative decoding with speakers from NVIDIA and Red Hat! Please find the meetup slides [here](https://docs.google.com/presentation/d/1IYJYmJcu9fLpID5N5RbW_vO0XLo0CGOR14IXOjB61V8/edit?usp=sharing).
 - [2025/08] We hosted [vLLM Shenzhen Meetup](https://mp.weixin.qq.com/s/k8ZBO1u2_2odgiKWH_GVTQ) focusing on the ecosystem around vLLM! Please find the meetup slides [here](https://drive.google.com/drive/folders/1Ua2SVKVSu-wp5vou_6ElraDt2bnKhiEA).
diff --git a/docs/community/meetups.md b/docs/community/meetups.md
index 0dfc582c7f8a7..7ddd45799789c 100644
--- a/docs/community/meetups.md
+++ b/docs/community/meetups.md
@@ -2,6 +2,7 @@
 
 We host regular meetups in San Francisco Bay Area every 2 months. We will share the project updates from the vLLM team and have guest speakers from the industry to share their experience and insights. Please find the materials of our previous meetups below:
 
+- [vLLM Beijing Meetup](https://mp.weixin.qq.com/s/xSrYXjNgr1HbCP4ExYNG1w), November 1st 2025. [[Slides]](https://drive.google.com/drive/folders/1nQJ8ZkLSjKxvu36sSHaceVXtttbLvvu-?usp=drive_link)
 - [vLLM Shanghai Meetup](https://mp.weixin.qq.com/s/__xb4OyOsImz-9eAVrdlcg), October 25th 2025. [[Slides]](https://drive.google.com/drive/folders/1KqwjsFJLfEsC8wlDugnrR61zsWHt94Q6)
 - [vLLM Toronto Meetup](https://luma.com/e80e0ymm), September 25th 2025. [[Slides]](https://docs.google.com/presentation/d/1IYJYmJcu9fLpID5N5RbW_vO0XLo0CGOR14IXOjB61V8/edit?usp=sharing)
 - [vLLM Shenzhen Meetup](https://mp.weixin.qq.com/s/k8ZBO1u2_2odgiKWH_GVTQ), August 30th 2025. [[Slides]](https://drive.google.com/drive/folders/1Ua2SVKVSu-wp5vou_6ElraDt2bnKhiEA)

From c18f88c6cae04b59136f7c932c6e6a11d04e6e76 Mon Sep 17 00:00:00 2001
From: Jiangyun Zhu <riverclouds.zhu@qq.com>
Date: Thu, 6 Nov 2025 01:14:55 +0800
Subject: [PATCH 158/976] [Kernel] Fuse computation of g and beta for Gated
 Delta Net (#28095)

Signed-off-by: zjy0516 <riverclouds.zhu@qq.com>
---
 vllm/model_executor/models/qwen3_next.py | 39 ++++++++++++++++++------
 1 file changed, 30 insertions(+), 9 deletions(-)

diff --git a/vllm/model_executor/models/qwen3_next.py b/vllm/model_executor/models/qwen3_next.py
index e4cd9df2c8dcb..1dd67bb66d65b 100644
--- a/vllm/model_executor/models/qwen3_next.py
+++ b/vllm/model_executor/models/qwen3_next.py
@@ -551,10 +551,7 @@ class Qwen3NextGatedDeltaNet(nn.Module, MambaBase):
             mixed_qkv_non_spec
         )
 
-        beta = b.sigmoid()
-        # g = -self.A_log.float().exp() * F.softplus(a.float() + self.dt_bias)
-        g = fused_gdn_gating(self.A_log, a, self.dt_bias)
-        g, beta = map(lambda x: rearrange(x, "l d -> 1 l d"), (g, beta))
+        g, beta = fused_gdn_gating(self.A_log, a, b, self.dt_bias)
 
         if spec_sequence_masks is not None:
             if attn_metadata.num_prefills == 0 and attn_metadata.num_decodes == 0:
@@ -1289,12 +1286,13 @@ direct_register_custom_op(
 )
 
 
-# g = -self.A_log.float().exp() * F.softplus(a.float() + self.dt_bias)
 @triton.jit
 def fused_gdn_gating_kernel(
     g,
+    beta_output,
     A_log,
     a,
+    b,
     dt_bias,
     seq_len,
     NUM_HEADS: tl.constexpr,
@@ -1308,6 +1306,7 @@ def fused_gdn_gating_kernel(
     mask = head_off < NUM_HEADS
     blk_A_log = tl.load(A_log + head_off, mask=mask)
     blk_a = tl.load(a + off, mask=mask)
+    blk_b = tl.load(b + off, mask=mask)
     blk_bias = tl.load(dt_bias + head_off, mask=mask)
     # If the model is loaded in fp16, without the .float() here, A might be -inf
     x = blk_a.to(tl.float32) + blk_bias.to(tl.float32)
@@ -1316,20 +1315,42 @@ def fused_gdn_gating_kernel(
     )
     blk_g = -tl.exp(blk_A_log.to(tl.float32)) * softplus_x
     tl.store(g + off, blk_g.to(g.dtype.element_ty), mask=mask)
+    # compute beta_output = sigmoid(b)
+    blk_beta = 1.0 / (1.0 + tl.exp(-blk_b.to(tl.float32)))
+    tl.store(beta_output + off, blk_beta.to(beta_output.dtype.element_ty), mask=mask)
 
 
 def fused_gdn_gating(
     A_log: torch.Tensor,
     a: torch.Tensor,
+    b: torch.Tensor,
     dt_bias: torch.Tensor,
     beta: float = 1.0,
     threshold: float = 20.0,
-) -> torch.Tensor:
+) -> tuple[torch.Tensor, torch.Tensor]:
+    """
+    Fused computation of g and beta for Gated Delta Net.
+    g = -self.A_log.float().exp() * F.softplus(a.float() + self.dt_bias)
+    beta_output = b.sigmoid()
+    TODO maybe use torch.compile to replace this triton kernel
+    """
     batch, num_heads = a.shape
     seq_len = 1
     grid = (batch, seq_len, triton.cdiv(num_heads, 8))
-    g = torch.empty_like(a, dtype=torch.float32)
+    g = torch.empty(1, batch, num_heads, dtype=torch.float32, device=a.device)
+    beta_output = torch.empty(1, batch, num_heads, dtype=torch.float32, device=b.device)
     fused_gdn_gating_kernel[grid](
-        g, A_log, a, dt_bias, seq_len, num_heads, beta, threshold, 8, num_warps=1
+        g,
+        beta_output,
+        A_log,
+        a,
+        b,
+        dt_bias,
+        seq_len,
+        num_heads,
+        beta,
+        threshold,
+        8,
+        num_warps=1,
     )
-    return g
+    return g, beta_output

From 752ddeacaa7d759f5a9c105532e53762ff601721 Mon Sep 17 00:00:00 2001
From: Walter Beller-Morales <walterbm@users.noreply.github.com>
Date: Wed, 5 Nov 2025 12:15:06 -0500
Subject: [PATCH 159/976] [Core] add support for reasoning parser plugins
 (#28075)

Signed-off-by: walter beller-morales <walter.beller.morales@gmail.com>
---
 vllm/config/structured_outputs.py     | 19 +++++++++++++++++++
 vllm/engine/arg_utils.py              | 15 +++++++++++----
 vllm/entrypoints/openai/api_server.py | 12 +++++++++---
 vllm/entrypoints/openai/run_batch.py  |  6 +++---
 vllm/reasoning/basic_parsers.py       | 16 +++++++++++-----
 vllm/v1/structured_output/__init__.py |  9 +++++++++
 6 files changed, 62 insertions(+), 15 deletions(-)

diff --git a/vllm/config/structured_outputs.py b/vllm/config/structured_outputs.py
index eb1cc7220b8fe..9530d3d81e15d 100644
--- a/vllm/config/structured_outputs.py
+++ b/vllm/config/structured_outputs.py
@@ -37,6 +37,9 @@ class StructuredOutputsConfig:
     reasoning_parser: str = ""
     """Select the reasoning parser depending on the model that you're using.
     This is used to parse the reasoning content into OpenAI API format."""
+    reasoning_parser_plugin: str = ""
+    """Path to a dynamically reasoning parser plugin that can be dynamically
+    loaded and registered."""
     enable_in_reasoning: bool = False
     """Whether to use structured input for reasoning."""
 
@@ -60,6 +63,22 @@ class StructuredOutputsConfig:
 
     @model_validator(mode="after")
     def _validate_structured_output_config(self) -> Self:
+        # Import here to avoid circular import
+        from vllm.reasoning.abs_reasoning_parsers import ReasoningParserManager
+
+        if self.reasoning_parser_plugin and len(self.reasoning_parser_plugin) > 3:
+            ReasoningParserManager.import_reasoning_parser(self.reasoning_parser_plugin)
+
+        valid_reasoning_parsers = ReasoningParserManager.list_registered()
+        if (
+            self.reasoning_parser != ""
+            and self.reasoning_parser not in valid_reasoning_parsers
+        ):
+            raise ValueError(
+                f"invalid reasoning parser: {self.reasoning_parser} "
+                f"(chose from {{ {','.join(valid_reasoning_parsers)} }})"
+            )
+
         if self.disable_any_whitespace and self.backend not in ("xgrammar", "guidance"):
             raise ValueError(
                 "disable_any_whitespace is only supported for "
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index a697f451d483a..e91482e73c795 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -80,7 +80,6 @@ from vllm.logger import init_logger
 from vllm.platforms import CpuArchEnum, current_platform
 from vllm.plugins import load_general_plugins
 from vllm.ray.lazy_utils import is_in_ray_actor, is_ray_initialized
-from vllm.reasoning import ReasoningParserManager
 from vllm.transformers_utils.config import (
     get_model_path,
     is_interleaved,
@@ -495,7 +494,7 @@ class EngineArgs:
         VllmConfig, "structured_outputs_config"
     )
     reasoning_parser: str = StructuredOutputsConfig.reasoning_parser
-
+    reasoning_parser_plugin: str | None = None
     # Deprecated guided decoding fields
     guided_decoding_backend: str | None = None
     guided_decoding_disable_fallback: bool | None = None
@@ -707,10 +706,13 @@ class EngineArgs:
         )
         structured_outputs_group.add_argument(
             "--reasoning-parser",
-            # This choice is a special case because it's not static
-            choices=list(ReasoningParserManager.list_registered()),
+            # Choices need to be validated after parsing to include plugins
             **structured_outputs_kwargs["reasoning_parser"],
         )
+        structured_outputs_group.add_argument(
+            "--reasoning-parser-plugin",
+            **structured_outputs_kwargs["reasoning_parser_plugin"],
+        )
         # Deprecated guided decoding arguments
         for arg, type in [
             ("--guided-decoding-backend", str),
@@ -1629,6 +1631,11 @@ class EngineArgs:
         if self.reasoning_parser:
             self.structured_outputs_config.reasoning_parser = self.reasoning_parser
 
+        if self.reasoning_parser_plugin:
+            self.structured_outputs_config.reasoning_parser_plugin = (
+                self.reasoning_parser_plugin
+            )
+
         # Forward the deprecated CLI args to the StructuredOutputsConfig
         so_config = self.structured_outputs_config
         if self.guided_decoding_backend is not None:
diff --git a/vllm/entrypoints/openai/api_server.py b/vllm/entrypoints/openai/api_server.py
index 5a05e0bf3a506..11a0c8a07c3d4 100644
--- a/vllm/entrypoints/openai/api_server.py
+++ b/vllm/entrypoints/openai/api_server.py
@@ -1944,13 +1944,13 @@ def validate_api_server_args(args):
             f"(chose from {{ {','.join(valid_tool_parses)} }})"
         )
 
-    valid_reasoning_parses = ReasoningParserManager.list_registered()
+    valid_reasoning_parsers = ReasoningParserManager.list_registered()
     if (
         reasoning_parser := args.structured_outputs_config.reasoning_parser
-    ) and reasoning_parser not in valid_reasoning_parses:
+    ) and reasoning_parser not in valid_reasoning_parsers:
         raise KeyError(
             f"invalid reasoning parser: {reasoning_parser} "
-            f"(chose from {{ {','.join(valid_reasoning_parses)} }})"
+            f"(chose from {{ {','.join(valid_reasoning_parsers)} }})"
         )
 
 
@@ -1964,6 +1964,9 @@ def setup_server(args):
     if args.tool_parser_plugin and len(args.tool_parser_plugin) > 3:
         ToolParserManager.import_tool_parser(args.tool_parser_plugin)
 
+    if args.reasoning_parser_plugin and len(args.reasoning_parser_plugin) > 3:
+        ReasoningParserManager.import_reasoning_parser(args.reasoning_parser_plugin)
+
     validate_api_server_args(args)
 
     # workaround to make sure that we bind the port before the engine is set up.
@@ -2013,6 +2016,9 @@ async def run_server_worker(
     if args.tool_parser_plugin and len(args.tool_parser_plugin) > 3:
         ToolParserManager.import_tool_parser(args.tool_parser_plugin)
 
+    if args.reasoning_parser_plugin and len(args.reasoning_parser_plugin) > 3:
+        ReasoningParserManager.import_reasoning_parser(args.reasoning_parser_plugin)
+
     # Load logging config for uvicorn if specified
     log_config = load_log_config(args.log_config_file)
     if log_config is not None:
diff --git a/vllm/entrypoints/openai/run_batch.py b/vllm/entrypoints/openai/run_batch.py
index 7a39113961e1d..4b9dba085a8e9 100644
--- a/vllm/entrypoints/openai/run_batch.py
+++ b/vllm/entrypoints/openai/run_batch.py
@@ -334,13 +334,13 @@ async def run_request(
 
 
 def validate_run_batch_args(args):
-    valid_reasoning_parses = ReasoningParserManager.list_registered()
+    valid_reasoning_parsers = ReasoningParserManager.list_registered()
     if (
         reasoning_parser := args.structured_outputs_config.reasoning_parser
-    ) and reasoning_parser not in valid_reasoning_parses:
+    ) and reasoning_parser not in valid_reasoning_parsers:
         raise KeyError(
             f"invalid reasoning parser: {reasoning_parser} "
-            f"(chose from {{ {','.join(valid_reasoning_parses)} }})"
+            f"(chose from {{ {','.join(valid_reasoning_parsers)} }})"
         )
 
 
diff --git a/vllm/reasoning/basic_parsers.py b/vllm/reasoning/basic_parsers.py
index 621a73b2a59f0..5fb3c8d368a85 100644
--- a/vllm/reasoning/basic_parsers.py
+++ b/vllm/reasoning/basic_parsers.py
@@ -3,15 +3,21 @@
 
 from abc import abstractmethod
 from collections.abc import Sequence
+from typing import TYPE_CHECKING, Any
 
-from vllm.entrypoints.openai.protocol import (
-    ChatCompletionRequest,
-    DeltaMessage,
-    ResponsesRequest,
-)
+from vllm.entrypoints.openai.protocol import DeltaMessage
 from vllm.reasoning.abs_reasoning_parsers import ReasoningParser
 from vllm.transformers_utils.tokenizer import AnyTokenizer
 
+if TYPE_CHECKING:
+    from vllm.entrypoints.openai.protocol import (
+        ChatCompletionRequest,
+        ResponsesRequest,
+    )
+else:
+    ChatCompletionRequest = Any
+    ResponsesRequest = Any
+
 
 class BaseThinkingReasoningParser(ReasoningParser):
     """
diff --git a/vllm/v1/structured_output/__init__.py b/vllm/v1/structured_output/__init__.py
index 6f9dbeabd8ca6..acc00526ee89c 100644
--- a/vllm/v1/structured_output/__init__.py
+++ b/vllm/v1/structured_output/__init__.py
@@ -64,6 +64,15 @@ class StructuredOutputManager:
             self.tokenizer = init_tokenizer_from_configs(
                 model_config=self.vllm_config.model_config
             )
+            reasoning_parser = (
+                self.vllm_config.structured_outputs_config.reasoning_parser
+            )
+            reasoning_parser_plugin = (
+                self.vllm_config.structured_outputs_config.reasoning_parser_plugin
+            )
+            if reasoning_parser_plugin and len(reasoning_parser_plugin) > 3:
+                ReasoningParserManager.import_reasoning_parser(reasoning_parser_plugin)
+
             reasoning_parser = (
                 self.vllm_config.structured_outputs_config.reasoning_parser
             )

From 002b07c4b201ac0ec31ce69d820070802e32d13c Mon Sep 17 00:00:00 2001
From: gmagogsfm <gmagogsfm@users.noreply.github.com>
Date: Wed, 5 Nov 2025 09:22:44 -0800
Subject: [PATCH 160/976] [Bugfix] vLLM should check Inductor config for
 compile cache enablement status (#27637)

Signed-off-by: Yanan Cao <gmagogsfm@gmail.com>
---
 vllm/compilation/backends.py           |  7 +++++--
 vllm/compilation/compiler_interface.py | 26 +++++++++++++++++++++-----
 2 files changed, 26 insertions(+), 7 deletions(-)

diff --git a/vllm/compilation/backends.py b/vllm/compilation/backends.py
index f37c155c0fcea..38300bebb8705 100644
--- a/vllm/compilation/backends.py
+++ b/vllm/compilation/backends.py
@@ -33,6 +33,7 @@ from .compiler_interface import (
     EagerAdaptor,
     InductorAdaptor,
     InductorStandaloneAdaptor,
+    is_compile_cache_enabled,
 )
 from .counter import compilation_counter
 from .inductor_pass import InductorPass
@@ -239,7 +240,7 @@ class CompilerManager:
         assert compiled_graph is not None, "Failed to compile the graph"
 
         # store the artifact in the cache
-        if not envs.VLLM_DISABLE_COMPILE_CACHE and handle is not None:
+        if is_compile_cache_enabled(additional_inductor_config) and handle is not None:
             self.cache[(runtime_shape, graph_index, self.compiler.name)] = handle
             compilation_counter.num_cache_entries_updated += 1
             self.is_cache_updated = True
@@ -611,7 +612,9 @@ class VllmBackend:
         os.makedirs(local_cache_dir, exist_ok=True)
         self.compilation_config.local_cache_dir = local_cache_dir
 
-        disable_cache = envs.VLLM_DISABLE_COMPILE_CACHE
+        disable_cache = not is_compile_cache_enabled(
+            self.compilation_config.inductor_compile_config
+        )
 
         if disable_cache:
             logger.info_once("vLLM's torch.compile cache is disabled.", scope="local")
diff --git a/vllm/compilation/compiler_interface.py b/vllm/compilation/compiler_interface.py
index d15481b3045d6..b0cdb08884a3b 100644
--- a/vllm/compilation/compiler_interface.py
+++ b/vllm/compilation/compiler_interface.py
@@ -163,6 +163,23 @@ def get_inductor_factors() -> list[Any]:
     return factors
 
 
+def is_compile_cache_enabled(
+    vllm_additional_inductor_config: dict[str, Any],
+) -> bool:
+    vllm_inductor_config_disable_cache = vllm_additional_inductor_config.get(
+        "force_disable_caches", False
+    )
+
+    # TODO(gmagogsfm): Replace torch._inductor.config.force_disable_caches
+    # with torch.compiler.config.force_disable_caches when minimum PyTorch
+    # version reaches 2.10
+    return (
+        not envs.VLLM_DISABLE_COMPILE_CACHE
+        and not torch._inductor.config.force_disable_caches
+        and not vllm_inductor_config_disable_cache
+    )
+
+
 class InductorStandaloneAdaptor(CompilerInterface):
     """
     The adaptor for the Inductor compiler.
@@ -222,7 +239,8 @@ class InductorStandaloneAdaptor(CompilerInterface):
         # Save the compiled artifact to disk in the specified path
         assert key is not None
         path = os.path.join(self.cache_dir, key)
-        if not envs.VLLM_DISABLE_COMPILE_CACHE:
+
+        if is_compile_cache_enabled(compiler_config):
             compiled_graph.save(path=path, format=self.save_format)
             compilation_counter.num_compiled_artifacts_saved += 1
         return compiled_graph, (key, path)
@@ -472,10 +490,8 @@ class InductorAdaptor(CompilerInterface):
                 config_patches=current_config,
             )
 
-        # We treat VLLM_DISABLE_COMPILE_CACHE as the overall switch for torch
-        # compilation cache. So turn off the checks if we disable the
-        # compilation cache.
-        if not envs.VLLM_DISABLE_COMPILE_CACHE:
+        # Turn off the checks if we disable the compilation cache.
+        if is_compile_cache_enabled(compiler_config):
             if hash_str is None:
                 raise RuntimeError(
                     "vLLM failed to compile the model. The most "

From c765f0b443c2de886a5771efcbc154ee84c2c19d Mon Sep 17 00:00:00 2001
From: Chen Zhang <zhangch99@outlook.com>
Date: Wed, 5 Nov 2025 09:25:32 -0800
Subject: [PATCH 161/976] [FlashInfer] Avoid FlashInfer block_size 16 +
 head_size 256 on blackwell (#27994)

Signed-off-by: Chen Zhang <zhangch99@outlook.com>
---
 vllm/model_executor/models/config.py     | 12 ++++++++++++
 vllm/v1/attention/backends/flashinfer.py |  9 +++++++++
 2 files changed, 21 insertions(+)

diff --git a/vllm/model_executor/models/config.py b/vllm/model_executor/models/config.py
index 936e59117232f..33fa06fe0e9bc 100644
--- a/vllm/model_executor/models/config.py
+++ b/vllm/model_executor/models/config.py
@@ -7,6 +7,7 @@ from typing import TYPE_CHECKING
 import vllm.envs as envs
 from vllm.logger import init_logger
 from vllm.model_executor.models import ModelRegistry
+from vllm.platforms import current_platform
 from vllm.utils.math_utils import cdiv, round_up
 from vllm.utils.torch_utils import STR_DTYPE_TO_TORCH_DTYPE
 from vllm.v1.kv_cache_interface import FullAttentionSpec, MambaSpec, MLAAttentionSpec
@@ -356,6 +357,17 @@ class HybridAttentionMambaModelConfig(VerifyAndUpdateConfig):
             ).page_size_bytes
         else:
             kernel_block_alignment_size = 16
+            if (
+                current_platform.is_device_capability(100)
+                and model_config.get_head_size() == 256
+                and (
+                    envs.VLLM_ATTENTION_BACKEND is None
+                    or envs.VLLM_ATTENTION_BACKEND == "FLASHINFER"
+                )
+            ):
+                # https://github.com/flashinfer-ai/flashinfer/issues/1993 reports that`
+                # head size 256 and block size 16 is not supported on blackwell.
+                kernel_block_alignment_size = 32
             attn_page_size_1_token = FullAttentionSpec(
                 block_size=1,
                 num_kv_heads=model_config.get_num_kv_heads(parallel_config),
diff --git a/vllm/v1/attention/backends/flashinfer.py b/vllm/v1/attention/backends/flashinfer.py
index e71d4ca4629dc..ddc63b902dffb 100755
--- a/vllm/v1/attention/backends/flashinfer.py
+++ b/vllm/v1/attention/backends/flashinfer.py
@@ -402,6 +402,15 @@ class FlashInferMetadataBuilder(AttentionMetadataBuilder[FlashInferMetadata]):
         )
         self.paged_kv_last_page_len_np = self.paged_kv_last_page_len_cpu.numpy()
 
+        if self.head_dim == 256 and current_platform.is_device_capability(100):
+            # https://github.com/flashinfer-ai/flashinfer/issues/1993 reports that
+            # head size 256 and block size 16 is not supported on blackwell.
+            assert kv_cache_spec.block_size != 16, (
+                "There is a bug in FlashInfer "
+                "block_size 16 head size 256 support. Please avoid this combination by "
+                "passing --block-size 32 or --block-size 64."
+            )
+
     def _get_workspace_buffer(self):
         if self._workspace_buffer is None:
             buffer_size = FLASHINFER_WORKSPACE_BUFFER_SIZE

From 40db1944465da1dff7530e57c426248cdf0ac241 Mon Sep 17 00:00:00 2001
From: Samuel Shen <102553648+sammshen@users.noreply.github.com>
Date: Wed, 5 Nov 2025 09:45:57 -0800
Subject: [PATCH 162/976] [CI]: Add LMCacheConnector Unit Tests (#27852)

Signed-off-by: Samuel Shen <slshen@uchciago.edu>
Co-authored-by: Samuel Shen <slshen@uchciago.edu>
Co-authored-by: Yihua Cheng <yihua98@uchicago.edu>
---
 .buildkite/test-amd.yaml                      |   2 +-
 .buildkite/test-pipeline.yaml                 |   1 +
 .../unit/test_lmcache_integration.py          | 271 ++++++++++++++++++
 .../v1/lmcache_integration/vllm_v1_adapter.py |   6 +-
 4 files changed, 274 insertions(+), 6 deletions(-)
 create mode 100644 tests/v1/kv_connector/unit/test_lmcache_integration.py

diff --git a/.buildkite/test-amd.yaml b/.buildkite/test-amd.yaml
index d61c3136f3d7c..bb5ef5d624630 100644
--- a/.buildkite/test-amd.yaml
+++ b/.buildkite/test-amd.yaml
@@ -344,7 +344,7 @@ steps:
     - pytest -v -s v1/logits_processors
     - pytest -v -s v1/worker
     - pytest -v -s v1/spec_decode
-    - pytest -v -s -m 'not cpu_test' v1/kv_connector/unit
+    - pytest -v -s -m 'not cpu_test' v1/kv_connector/unit --ignore=v1/kv_connector/unit/test_lmcache_integration.py
     - pytest -v -s -m 'not cpu_test' v1/metrics
     - pytest -v -s v1/test_oracle.py
     - pytest -v -s v1/test_request.py
diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index 88e557f1dfb3f..23830c4e0781f 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -316,6 +316,7 @@ steps:
     - vllm/
     - tests/v1
   commands:
+    - uv pip install --system -r /vllm-workspace/requirements/kv_connectors.txt
     # split the test to avoid interference
     - pytest -v -s -m 'not cpu_test' v1/core
     - pytest -v -s v1/executor
diff --git a/tests/v1/kv_connector/unit/test_lmcache_integration.py b/tests/v1/kv_connector/unit/test_lmcache_integration.py
new file mode 100644
index 0000000000000..11507d7cd4e7b
--- /dev/null
+++ b/tests/v1/kv_connector/unit/test_lmcache_integration.py
@@ -0,0 +1,271 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+# NOTE: if your PR has broken one of the tests here (sorry),
+# kindly patch the corresponding integration in
+# /vllm/distributed/kv_transfer/kv_connector/v1/lmcache_integration/vllm_v1_adapter.py
+# or reach out to @aposataC for assistance
+
+# Assumption vs. Correctness Tests:
+# these unit tests do *not* test correctness of LMCache-side or vLLM-side logic
+# it is to ensure that assumptions LMCache makes about vLLM's interface are stable
+def assumes(obj, attr, is_callable=False, is_instance_of=None):
+    import inspect
+    from dataclasses import is_dataclass
+
+    assumption_msg = (
+        f"LMCache connector currently assumes that {obj} has a(n) {attr} attribute"
+    )
+    if hasattr(obj, attr):
+        attr_value = getattr(obj, attr)
+    elif is_dataclass(obj) and attr in getattr(obj, "__dataclass_fields__", {}):
+        field = obj.__dataclass_fields__[attr]
+        field_type = field.type
+        origin = getattr(field_type, "__origin__", None)
+        if origin is not None:
+            field_type = origin
+        attr_value = field_type
+    else:
+        raise AssertionError(assumption_msg)
+    if is_callable:
+        assumption_msg += f" and that {obj}.{attr} is a callable"
+        assert callable(attr_value), assumption_msg
+    if is_instance_of:
+        assumption_msg += f" and that {obj}.{attr} is an instance of {is_instance_of}"
+        if isinstance(attr_value, property):
+            fget = attr_value.fget
+            assert fget is not None, f"Property {obj}.{attr} has no fget"
+            sig = inspect.signature(fget)
+            ret_anno = sig.return_annotation
+            assert ret_anno is not inspect._empty, (
+                f"Property {obj}.{attr} has no return annotation"
+            )
+            assert ret_anno == is_instance_of, assumption_msg
+        else:
+            if isinstance(attr_value, type):
+                assert attr_value is is_instance_of, assumption_msg
+            else:
+                assert isinstance(attr_value, is_instance_of), assumption_msg
+
+
+def test_multimodal_interface():
+    # protect against interface changes
+    from vllm.multimodal.inputs import PlaceholderRange
+
+    assumes(PlaceholderRange, "offset")
+    assumes(PlaceholderRange, "length")
+
+    # test a minimal case
+    import torch
+
+    from vllm.distributed.kv_transfer.kv_connector.v1.lmcache_integration.utils import (
+        apply_mm_hashes_to_token_ids,
+    )
+
+    token_ids = torch.arange(10, dtype=torch.long)
+    mm_hashes = ["0000", "1111"]  # hex repr of 0 and 4369
+    mm_positions = [
+        PlaceholderRange(offset=0, length=4),
+        PlaceholderRange(offset=5, length=4),
+    ]
+    apply_mm_hashes_to_token_ids(token_ids, mm_hashes, mm_positions)
+    assert token_ids.tolist() == [0, 0, 0, 0, 4, 4369, 4369, 4369, 4369, 9]
+
+
+def test_config_interface():
+    # protect against interface changes
+    from vllm.config import VllmConfig
+    from vllm.config.cache import CacheConfig
+    from vllm.config.kv_transfer import KVTransferConfig
+    from vllm.config.model import ModelConfig
+    from vllm.config.parallel import ParallelConfig
+
+    assumes(VllmConfig, "model_config")
+    assumes(VllmConfig, "cache_config")
+    assumes(VllmConfig, "parallel_config")
+    assumes(VllmConfig, "kv_transfer_config")
+
+    assumes(KVTransferConfig, "kv_role")
+    assumes(KVTransferConfig, "kv_connector_extra_config")
+
+    assumes(ModelConfig, "use_mla", is_instance_of=bool)
+    assumes(ModelConfig, "dtype")
+    assumes(ModelConfig, "max_model_len")
+    assumes(ModelConfig, "get_vocab_size", is_callable=True)
+    assumes(ModelConfig, "get_num_attention_heads", is_callable=True)
+    assumes(ModelConfig, "get_num_kv_heads", is_callable=True)
+    assumes(ModelConfig, "get_head_size", is_callable=True)
+    assumes(ModelConfig, "get_num_layers", is_callable=True)
+    assumes(ModelConfig, "get_num_kv_heads", is_callable=True)
+    assumes(ModelConfig, "model")
+
+    assumes(ParallelConfig, "world_size")
+    assumes(ParallelConfig, "rank")
+    assumes(ParallelConfig, "tensor_parallel_size")
+    assumes(ParallelConfig, "pipeline_parallel_size")
+    assumes(ParallelConfig, "data_parallel_size_local")
+    assumes(ParallelConfig, "data_parallel_rank_local")
+
+    assumes(CacheConfig, "cache_dtype")
+    assumes(CacheConfig, "block_size")
+    assumes(CacheConfig, "gpu_memory_utilization")
+
+    # mla metadata minimal cases
+    from vllm.distributed.kv_transfer.kv_connector.v1.lmcache_integration.utils import (
+        mla_enabled,
+    )
+
+    model_config = ModelConfig(model="deepseek-ai/DeepSeek-R1")
+    assert mla_enabled(model_config)
+    model_config = ModelConfig(model="Qwen/Qwen3-0.6B")
+    assert not mla_enabled(model_config)
+
+    # kv metadata minimal case
+    from vllm.utils.torch_utils import get_kv_cache_torch_dtype
+
+    model_config = ModelConfig(dtype="bfloat16")
+    parallel_config = ParallelConfig()
+    cache_config = CacheConfig(cache_dtype="bfloat16")
+    kv_dtype = get_kv_cache_torch_dtype(cache_config.cache_dtype, model_config.dtype)
+    use_mla = mla_enabled(model_config)
+    chunk_size = 256
+    num_layer = model_config.get_num_layers(parallel_config)
+    num_kv_head = model_config.get_num_kv_heads(parallel_config)
+    head_size = model_config.get_head_size()
+    kv_shape = (num_layer, 1 if use_mla else 2, chunk_size, num_kv_head, head_size)
+
+    # dummy lmcache metadata creation example
+    _ = (
+        model_config.model,
+        parallel_config.world_size,
+        parallel_config.rank,
+        "vllm",
+        kv_dtype,
+        kv_shape,
+        use_mla,
+    )
+
+
+def test_request_interface():
+    # protect against interface changes
+    from types import NoneType
+
+    from vllm.sampling_params import SamplingParams
+    from vllm.v1.request import Request
+
+    req = Request(
+        request_id="test_request",
+        prompt_token_ids=[1, 2, 3],
+        sampling_params=SamplingParams(max_tokens=10),
+        pooling_params=None,
+        eos_token_id=100,
+        lora_request=None,
+    )
+    assumes(req, "mm_features", is_instance_of=(list, NoneType))
+    assumes(req, "request_id")
+    assumes(req, "priority")
+    assumes(req, "prompt_token_ids")
+    assumes(req, "sampling_params")
+    assumes(req, "num_tokens")
+    assumes(req, "kv_transfer_params", is_instance_of=(dict, NoneType))
+
+    from vllm.multimodal.inputs import MultiModalFeatureSpec, MultiModalKwargsItem
+
+    assumes(MultiModalFeatureSpec, "identifier")
+    assumes(MultiModalFeatureSpec, "mm_position")
+
+    # minimal case:
+    from vllm.multimodal.inputs import PlaceholderRange
+
+    request = Request(
+        request_id="test_request",
+        prompt_token_ids=[1, 2, 3],
+        sampling_params=SamplingParams(max_tokens=10),
+        pooling_params=None,
+        eos_token_id=100,
+        lora_request=None,
+        mm_features=[
+            MultiModalFeatureSpec(
+                modality="image",
+                identifier="0000",
+                data=MultiModalKwargsItem.dummy("dummy_m"),
+                mm_position=PlaceholderRange(offset=0, length=10),
+            )
+        ],
+    )
+
+    from vllm.distributed.kv_transfer.kv_connector.v1.lmcache_integration.utils import (
+        extract_mm_features,
+    )
+
+    mm_hashes, mm_positions = extract_mm_features(request)
+    assert isinstance(mm_hashes, list)
+    assert len(mm_hashes) == 1
+    assert isinstance(mm_positions, list)
+    assert len(mm_positions) == 1
+    assert mm_positions[0].offset == 0
+    assert mm_positions[0].length == 10
+
+
+def test_new_request_interface():
+    # protect against interface changes
+    from vllm.v1.core.sched.output import NewRequestData
+
+    assumes(NewRequestData, "req_id")
+    assumes(NewRequestData, "block_ids")
+    assumes(NewRequestData, "prompt_token_ids")
+    assumes(NewRequestData, "sampling_params")
+
+
+def test_sampling_params_interface():
+    # protect against interface changes
+    from vllm.sampling_params import SamplingParams
+
+    assumes(SamplingParams, "extra_args")
+
+    # dumb example use case in LMCache
+    kv_transfer_params = {
+        "lmcache.tag.user": "example_user_1",
+        "lmcache.ttl": 60,
+    }
+    sampling_params = SamplingParams(
+        extra_args={"kv_transfer_params": kv_transfer_params}
+    )
+    assert sampling_params.extra_args["kv_transfer_params"] == kv_transfer_params
+
+
+def test_tp_interface():
+    # protect against interface changes
+    import inspect
+
+    from vllm.distributed.parallel_state import get_tp_group
+
+    sig = inspect.signature(get_tp_group)
+    GroupCoordinator = sig.return_annotation
+
+    assumes(GroupCoordinator, "broadcast", is_callable=True)
+    assumes(GroupCoordinator, "broadcast_object", is_callable=True)
+
+
+def test_forward_context_interface():
+    # protect against interface changes
+    from vllm.forward_context import ForwardContext
+
+    assumes(ForwardContext, "no_compile_layers", is_instance_of=dict)
+    assumes(ForwardContext, "virtual_engine")
+    assumes(ForwardContext, "attn_metadata")
+
+
+def test_scheduler_output_interface():
+    # protect against interface changes
+    from vllm.v1.core.sched.output import SchedulerOutput
+
+    assumes(SchedulerOutput, "finished_req_ids")
+    assumes(SchedulerOutput, "scheduled_new_reqs", is_instance_of=list)
+    assumes(SchedulerOutput, "num_scheduled_tokens", is_instance_of=dict)
+    assumes(SchedulerOutput, "scheduled_cached_reqs")
+
+    from vllm.v1.core.sched.output import CachedRequestData
+
+    assumes(CachedRequestData, "req_ids", is_instance_of=list)
+    assumes(CachedRequestData, "new_block_ids", is_instance_of=list)
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/lmcache_integration/vllm_v1_adapter.py b/vllm/distributed/kv_transfer/kv_connector/v1/lmcache_integration/vllm_v1_adapter.py
index ad907c75a244b..94572b02fa872 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/lmcache_integration/vllm_v1_adapter.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/lmcache_integration/vllm_v1_adapter.py
@@ -724,7 +724,7 @@ class LMCacheConnectorV1Impl:
                 "max_model_len": getattr(
                     vllm_config.model_config, "max_model_len", None
                 ),
-                "vocab_size": getattr(vllm_config.model_config, "vocab_size", None),
+                "vocab_size": vllm_config.model_config.get_vocab_size(),
                 "num_layers": getattr(
                     vllm_config.model_config, "get_num_layers", lambda _: None
                 )(vllm_config.parallel_config),
@@ -746,10 +746,6 @@ class LMCacheConnectorV1Impl:
                 "gpu_memory_utilization": getattr(
                     vllm_config.cache_config, "gpu_memory_utilization", None
                 ),
-                "swap_space": getattr(vllm_config.cache_config, "swap_space", None),
-                "enable_prefix_caching": getattr(
-                    vllm_config.cache_config, "enable_prefix_caching", None
-                ),
             },
         }
 

From faedbb4d4fe4a56e111d23c9d657a1ef47cd7981 Mon Sep 17 00:00:00 2001
From: Paul Zhang <paulzhan@fb.com>
Date: Wed, 5 Nov 2025 13:04:49 -0500
Subject: [PATCH 163/976] [Feature] Extend batch invariant torch.compile to
 B200 (#27856)

Signed-off-by: PaulZhang12 <paulzhan@fb.com>
---
 tests/v1/generation/test_batch_invariance.py  |  2 -
 vllm/model_executor/layers/batch_invariant.py | 39 ++++++++++++-------
 vllm/utils/flashinfer.py                      |  6 +++
 3 files changed, 30 insertions(+), 17 deletions(-)

diff --git a/tests/v1/generation/test_batch_invariance.py b/tests/v1/generation/test_batch_invariance.py
index f05fac2478d8a..8fd038bca5d0f 100644
--- a/tests/v1/generation/test_batch_invariance.py
+++ b/tests/v1/generation/test_batch_invariance.py
@@ -456,7 +456,6 @@ def test_simple_generation(backend, monkeypatch: pytest.MonkeyPatch):
         model=model,
         max_num_seqs=1,
         tensor_parallel_size=int(os.getenv("VLLM_TP_SIZE", "1")),
-        enforce_eager=True,
         gpu_memory_utilization=0.9,
         max_model_len=2048,
         dtype="bfloat16",
@@ -998,7 +997,6 @@ def LLM_with_max_seqs(
         dtype="bfloat16",
         tensor_parallel_size=int(os.getenv("VLLM_TP_SIZE", "1")),
         enable_prefix_caching=False,
-        enforce_eager=True,
         # Enable for MOE models
         # enable_expert_parallel=True,
     )
diff --git a/vllm/model_executor/layers/batch_invariant.py b/vllm/model_executor/layers/batch_invariant.py
index 0234f228d700a..65babd10a948b 100644
--- a/vllm/model_executor/layers/batch_invariant.py
+++ b/vllm/model_executor/layers/batch_invariant.py
@@ -1,7 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 import contextlib
-import functools
 import os
 from collections import namedtuple
 from collections.abc import Callable
@@ -11,6 +10,7 @@ import torch
 
 import vllm.envs as envs
 from vllm.logger import init_logger
+from vllm.platforms import current_platform
 from vllm.triton_utils import tl, triton
 from vllm.utils.torch_utils import is_torch_equal_or_newer
 
@@ -737,11 +737,28 @@ def enable_batch_invariant_mode():
 
     _batch_invariant_MODE = True
     _batch_invariant_LIB = torch.library.Library("aten", "IMPL")
-    _batch_invariant_LIB.impl("aten::mm", mm_batch_invariant, "CUDA")
-    _batch_invariant_LIB.impl("aten::addmm", addmm_batch_invariant, "CUDA")
-    _batch_invariant_LIB.impl("aten::matmul", matmul_batch_invariant, "CUDA")
-    _batch_invariant_LIB.impl("aten::bmm", bmm_batch_invariant, "CUDA")
-    _batch_invariant_LIB.impl("aten::linear", linear_batch_invariant, "CUDA")
+
+    # Batch invariant matmuls are no longer needed after cublas overrides
+    if not is_torch_equal_or_newer("2.10.0.dev"):
+        if current_platform.is_device_capability(100):
+            # For PyTorch 2.9, B200 uses GEMV for bs=1
+            # Requires https://github.com/pytorch/pytorch/pull/166735
+            _batch_invariant_LIB.impl("aten::mm", mm_batch_invariant, "CUDA")
+            _batch_invariant_LIB.impl("aten::addmm", addmm_batch_invariant, "CUDA")
+            _batch_invariant_LIB.impl("aten::matmul", matmul_batch_invariant, "CUDA")
+            _batch_invariant_LIB.impl("aten::linear", linear_batch_invariant, "CUDA")
+        else:
+            # Only source of batch invariance for Hopper is split-k, can disable through
+            # cuBLAS workspace config
+            _original_cublas_workspace_cfg = os.environ.get(
+                "CUBLAS_WORKSPACE_CONFIG", None
+            )
+            _original_cublaslt_workspace_size = os.environ.get(
+                "CUBLASLT_WORKSPACE_SIZE", None
+            )
+            os.environ["CUBLAS_WORKSPACE_CONFIG"] = ":16:8"
+            os.environ["CUBLASLT_WORKSPACE_SIZE"] = "1"
+
     _batch_invariant_LIB.impl(
         "aten::_log_softmax", _log_softmax_batch_invariant, "CUDA"
     )
@@ -750,6 +767,7 @@ def enable_batch_invariant_mode():
     _batch_invariant_LIB.impl("aten::mean.dim", mean_batch_invariant, "CUDA")
 
     # Also monkeypatch torch.bmm directly as a fallback
+    _batch_invariant_LIB.impl("aten::bmm", bmm_batch_invariant, "CUDA")
     _original_torch_bmm = torch.bmm
     torch.bmm = bmm_batch_invariant
 
@@ -771,14 +789,6 @@ def enable_batch_invariant_mode():
     )
     torch.backends.cuda.preferred_blas_library(backend="cublaslt")
 
-    if not is_torch_equal_or_newer("2.10.0.dev"):
-        _original_cublas_workspace_cfg = os.environ.get("CUBLAS_WORKSPACE_CONFIG", None)
-        _original_cublaslt_workspace_size = os.environ.get(
-            "CUBLASLT_WORKSPACE_SIZE", None
-        )
-        os.environ["CUBLAS_WORKSPACE_CONFIG"] = ":16:8"
-        os.environ["CUBLASLT_WORKSPACE_SIZE"] = "1"
-
 
 def disable_batch_invariant_mode():
     global _batch_invariant_MODE, _batch_invariant_LIB, _original_torch_bmm
@@ -847,7 +857,6 @@ def get_batch_invariant_attention_block_size() -> AttentionBlockSize:
     return AttentionBlockSize(block_m=16, block_n=16)
 
 
-@functools.cache
 def vllm_is_batch_invariant():
     env_key = "VLLM_BATCH_INVARIANT"
     is_overridden = False
diff --git a/vllm/utils/flashinfer.py b/vllm/utils/flashinfer.py
index d7e4ea2e03884..0560fa15151ca 100644
--- a/vllm/utils/flashinfer.py
+++ b/vllm/utils/flashinfer.py
@@ -19,6 +19,9 @@ import torch
 
 import vllm.envs as envs
 from vllm.logger import init_logger
+from vllm.model_executor.layers.batch_invariant import (
+    vllm_is_batch_invariant,
+)
 from vllm.platforms import current_platform
 
 logger = init_logger(__name__)
@@ -222,6 +225,9 @@ def force_use_trtllm_attention() -> bool | None:
     return `True` if TRTLLM attention is forced to be used,
     return `False` if TRTLLM attention is forced to be not used.
     """
+    if vllm_is_batch_invariant():
+        logger.info_once("VLLM_USE_TRTLLM_ATTENTION is disabled for batch-invariant")
+        return False
     return _force_use_trtllm_attention(envs.VLLM_USE_TRTLLM_ATTENTION)
 
 
From 802748bddbe3759b11cfaa73bd504d6d26bfe408 Mon Sep 17 00:00:00 2001
From: "wang.yuqi" <noooop@126.com>
Date: Thu, 6 Nov 2025 02:33:50 +0800
Subject: [PATCH 164/976] [Bugfix] Fix Qwen3-Reranker-8B load (#28117)

Signed-off-by: wang.yuqi <noooop@126.com>
---
 vllm/model_executor/models/adapters.py | 28 +++++++++++++++++---------
 1 file changed, 19 insertions(+), 9 deletions(-)

diff --git a/vllm/model_executor/models/adapters.py b/vllm/model_executor/models/adapters.py
index 7990024c55d0c..f742090df71fd 100644
--- a/vllm/model_executor/models/adapters.py
+++ b/vllm/model_executor/models/adapters.py
@@ -186,15 +186,21 @@ def _create_pooling_model_cls(orig_cls: _T) -> _T:
         def _init_pooler(self, vllm_config: "VllmConfig", prefix: str = ""):
             raise NotImplementedError
 
-        def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
+        def load_weights(
+            self,
+            weights: Iterable[tuple[str, torch.Tensor]],
+            load_lm_head: bool = False,
+        ):
             # TODO: Support uninitialized params tracking
 
-            # We have deleted this attribute, so don't load it
-            weights = (
-                (name, data)
-                for name, data in weights
-                if not name.startswith("lm_head.")
-            )
+            # For most pooling models: We have deleted this attribute, so don't load it.
+            # For converting an LLM into a seq cls model, we need the lm_head.
+            if not load_lm_head:
+                weights = (
+                    (name, data)
+                    for name, data in weights
+                    if not name.startswith("lm_head.")
+                )
 
             # If `*ForCausalLM` defines `load_weights` on the inner model
             # and there are no other inner modules with parameters,
@@ -431,8 +437,12 @@ def load_weights_using_from_2_way_softmax(
         )
         model.lm_head = model.lm_head.tie_weights(embed_tokens)
 
-    # Skip ModelForSequenceClassification in MRO to avoid infinite recursion
-    loaded_weights = type(model).__mro__[1].load_weights(model, weights)
+    # ModelForPooling is dynamically defined inside the _create_pooling_model_cls
+    # function, so we need use this hacky method to obtain it.
+    pooling_model_cls = next(
+        x for x in type(model).__mro__ if x.__name__ == "ModelForPooling"
+    )
+    loaded_weights = pooling_model_cls.load_weights(model, weights, load_lm_head=True)
 
     from vllm.transformers_utils.tokenizer import get_tokenizer
 

From 518ec6b722eb0608d211902b27314d276d3c01e1 Mon Sep 17 00:00:00 2001
From: Michael Yao <haifeng.yao@daocloud.io>
Date: Thu, 6 Nov 2025 03:01:34 +0800
Subject: [PATCH 165/976] [Docs] Clean up README_TUNING.md (#28088)

Signed-off-by: windsonsea <haifeng.yao@daocloud.io>
---
 vllm/lora/ops/triton_ops/README_TUNING.md | 82 +++++++++++------------
 1 file changed, 41 insertions(+), 41 deletions(-)

diff --git a/vllm/lora/ops/triton_ops/README_TUNING.md b/vllm/lora/ops/triton_ops/README_TUNING.md
index d576e261557a4..3ebe1fd7c3700 100644
--- a/vllm/lora/ops/triton_ops/README_TUNING.md
+++ b/vllm/lora/ops/triton_ops/README_TUNING.md
@@ -1,60 +1,60 @@
 # Multi-LoRA Tuning
 
-**Note**: The LoRA configuration folder should be specified by exporting `VLLM_TUNED_CONFIG_FOLDER=/path/to/configs`. Without this, the shrink/expand kernels will use default configurations.
+**Note**: The LoRA configuration folder should be specified by exporting `VLLM_TUNED_CONFIG_FOLDER=/path/to/configs`.
+Without this, the shrink/expand kernels will use default configurations.
 
 ## Tuning Process
 
-Multi-lora shrink/expand Triton kernel tuning follows a similar methodology from [Triton MoE tuning](https://github.com/vllm-project/vllm/blob/main/benchmarks/kernels/benchmark_moe.py).
+Multi-lora shrink/expand Triton kernel tuning follows a similar methodology from
+[Triton MoE tuning](https://github.com/vllm-project/vllm/blob/main/benchmarks/kernels/benchmark_moe.py).
 
-**Step 1**
-Define the searching space. An example searching space:
+1. Define the searching space. Here is an example of searching space:
 
-```python
-block_m_range = [16, 32, 64, 128, 256]
-block_n_range = [32, 64, 128, 256]
-block_k_range = [32, 64, 128, 256]
-num_warps_range = [4, 8]
-num_stage_range = [2, 3, 4, 5]
-num_ctas_range = [1]
-split_k_range = [4, 8, 16, 32, 64]
-```
+   ```python
+   block_m_range = [16, 32, 64, 128, 256]
+   block_n_range = [32, 64, 128, 256]
+   block_k_range = [32, 64, 128, 256]
+   num_warps_range = [4, 8]
+   num_stage_range = [2, 3, 4, 5]
+   num_ctas_range = [1]
+   split_k_range = [4, 8, 16, 32, 64]
+   ```
 
-**Step 2**
-Get all hidden_state sizes and num_slices that the target model uses for a specific TP size.
+2. Get all hidden_state sizes and num_slices that the target model uses for a specific TP size.
 
-For example, we can aquire those info by simply checking [add_lora_linear](https://github.com/li2haipeng/vllm/blob/multi_lora_v01011/vllm/lora/punica_wrapper/punica_gpu.py#L192):
+   For example, you can acquire the info by simply checking
+   [add_lora_linear](https://github.com/vllm-project/vllm/blob/main/vllm/lora/punica_wrapper/punica_gpu.py#L181):
 
-```python
-print(f"x_shape: {x.view(-1, x.shape[-1]).shape}")
-print(f"num_sclises: {len(output_slices)}")
-for i in range(len(output_slices)):
-    print(f"a{i} shape: {lora_a_stacked[i].shape}")
-    print(f"b{i} shape: {lora_b_stacked[i].shape}")
-print("y_shape", y.shape)
-```
+   ```python
+   print(f"x_shape: {x.view(-1, x.shape[-1]).shape}")
+   print(f"num_slices: {len(output_slices)}")
+   for i in range(len(output_slices)):
+       print(f"a{i} shape: {lora_a_stacked[i].shape}")
+       print(f"b{i} shape: {lora_b_stacked[i].shape}")
+   print("y_shape", y.shape)
+   ```
 
-**Step 3**
-Benchmark the shrink/expand kernel runtime with different kernel configurations generated from the pre-defined search space by performing a grid search to find the optimal kernel configuration. vLLM's [benchmark_lora.py](https://github.com/vllm-project/vllm/blob/main/benchmarks/kernels/benchmark_lora.py) can be used to search for configurations for different shapes.
+3. Benchmark the shrink/expand kernel runtime with different kernel configurations generated from the pre-defined search space
+   by performing a grid search to find the optimal kernel configuration.
+   vLLM's [benchmark_lora.py](https://github.com/vllm-project/vllm/blob/main/benchmarks/kernels/benchmark_lora.py)
+   can be used to search for configurations for different shapes.
 
 ## Config Files
 
-### File Name
+### File Naming
 
-For `shrink`, the config file is named as `{gpu_name}_SHRINK.json`, e.g. `NVIDIA_H200_SHRINK.json`.
+| Kernel Type               | File Name Template                          | Example                                     |
+|---------------------------|--------------------------------------------|---------------------------------------------|
+| shrink                    | `{gpu_name}_SHRINK.json`                   | `NVIDIA_H200_SHRINK.json`                  |
+| expand                    | `{gpu_name}_EXPAND_{add_input}.json`       | `NVIDIA_H200_EXPAND_TRUE.json`             |
+| fused_moe_lora_w13_shrink | `{gpu_name}_FUSED_MOE_LORA_W13_SHRINK.json` | `NVIDIA_H200_FUSED_MOE_LORA_W13_SHRINK.json` |
+| fused_moe_lora_w13_expand | `{gpu_name}_FUSED_MOE_LORA_W13_EXPAND.json` | `NVIDIA_H200_FUSED_MOE_LORA_W13_EXPAND.json` |
+| fused_moe_lora_w2_shrink  | `{gpu_name}_FUSED_MOE_LORA_W2_SHRINK.json`  | `NVIDIA_H200_FUSED_MOE_LORA_W2_SHRINK.json` |
+| fused_moe_lora_w2_expand  | `{gpu_name}_FUSED_MOE_LORA_W2_EXPAND.json`  | `NVIDIA_H200_FUSED_MOE_LORA_W2_EXPAND.json` |
 
-For `expand`, the config fileis named as `{gpu_name}_EXPAND_{add_input}.json`, e.g. `NVIDIA_H200_EXPAND_TRUE.json`.
+The `gpu_name` can be automatically detected by calling `torch.cuda.get_device_name()`.
 
-For `fused_moe_lora_w13_shrink`, the config file is named as `{gpu_name}_FUSED_MOE_LORA_W13_SHRINK.json`, e.g. `NVIDIA_H200_FUSED_MOE_LORA_W13_SHRINK.json`.
+### JSON Structure
 
-For `fused_moe_lora_w13_expand`, the config file is named as `{gpu_name}_FUSED_MOE_LORA_W13_EXPAND.json`, e.g. `NVIDIA_H200_FUSED_MOE_LORA_W13_EXPAND.json`.
-
-For `fused_moe_lora_w2_shrink`, the config file is named as `{gpu_name}_FUSED_MOE_LORA_W2_SHRINK.json`, e.g. `NVIDIA_H200_FUSED_MOE_LORA_W2_SHRINK.json`.
-
-For `fused_moe_lora_w2_expand`, the config file is named as `{gpu_name}_FUSED_MOE_LORA_W2_EXPAND.json`, e.g. `NVIDIA_H200_FUSED_MOE_LORA_W2_EXPAND.json`.
-
-The `gpu_name` can be automatically detected by calling `torch.cuda.get_device_name()`
-
-### Json Structure
-
-Optimal kernel configuration files are saved as JSON files with the structure `config_data[max_loras][num_slices][m][k][n][i]`
+Optimal kernel configuration files are saved as JSON files with the structure `config_data[max_loras][num_slices][m][k][n][i]`,
 where `i` is an optional dimension in the `fused_moe_lora` configuration, representing the intermediate size of the MoE layer.

From e04492449eeb1ca945ce08b2740ea75bddd0c8a9 Mon Sep 17 00:00:00 2001
From: R3hankhan <Rehan.Khan7@ibm.com>
Date: Thu, 6 Nov 2025 00:55:44 +0530
Subject: [PATCH 166/976] [Hardware][IBM Z] Optimize s390x Dockerfile (#28023)

Signed-off-by: Rehan Khan <Rehan.Khan7@ibm.com>
---
 docker/Dockerfile.s390x | 68 +++++++----------------------------------
 requirements/common.txt |  4 +--
 requirements/cpu.txt    |  2 +-
 3 files changed, 14 insertions(+), 60 deletions(-)

diff --git a/docker/Dockerfile.s390x b/docker/Dockerfile.s390x
index 7fd7598b8bd93..2d2068d3453fe 100644
--- a/docker/Dockerfile.s390x
+++ b/docker/Dockerfile.s390x
@@ -14,7 +14,7 @@ ENV LANG=C.UTF-8 \
 
 # Install development utilities
 RUN microdnf install -y \
-    which procps findutils tar vim git gcc gcc-gfortran g++ make patch zlib-devel \
+    which procps findutils tar vim git gcc-toolset-14 gcc-toolset-14-libatomic-devel patch zlib-devel \
     libjpeg-turbo-devel libtiff-devel libpng-devel libwebp-devel freetype-devel harfbuzz-devel \
     openssl-devel openblas openblas-devel autoconf automake libtool cmake numpy libsndfile \
     clang llvm-devel llvm-static clang-devel && \
@@ -85,40 +85,15 @@ RUN curl https://sh.rustup.rs -sSf | sh -s -- -y && \
     rustup default stable && \
     rustup show
 
-FROM python-install AS torch
-ARG TORCH_VERSION=2.7.0
-ENV export _GLIBCXX_USE_CXX11_ABI=1
-ENV CARGO_HOME=/root/.cargo
-ENV RUSTUP_HOME=/root/.rustup
-ENV PATH="$CARGO_HOME/bin:$RUSTUP_HOME/bin:$PATH"
-
-WORKDIR /tmp
-
-RUN --mount=type=cache,target=/root/.cache/uv \
-    --mount=type=bind,from=rust,source=/root/.cargo,target=/root/.cargo,rw \
-    --mount=type=bind,from=rust,source=/root/.rustup,target=/root/.rustup,rw \
-    git clone https://github.com/pytorch/pytorch.git && \
-    cd pytorch && \
-    git checkout v2.7.0 && \
-    git submodule sync && \
-    git submodule update --init --recursive && \
-    uv pip install cmake ninja && \
-    uv pip install -r requirements.txt && \
-    python setup.py bdist_wheel
-    
-
 FROM python-install AS torch-vision
 # Install torchvision
-ARG TORCH_VERSION=2.7.0
-ARG TORCH_VISION_VERSION=v0.20.1
+ARG TORCH_VISION_VERSION=v0.23.0
 WORKDIR /tmp
 RUN --mount=type=cache,target=/root/.cache/uv \
-    --mount=type=bind,from=torch,source=/tmp/pytorch/dist,target=/tmp/torch-wheels/ \
     git clone https://github.com/pytorch/vision.git && \
     cd vision && \
     git checkout $TORCH_VISION_VERSION && \
-    TORCH_WHL_FILE=$(ls /tmp/torch-wheels/*.whl | head -n 1) && \
-    uv pip install -v $TORCH_WHL_FILE && \
+    uv pip install torch==2.8.0 --index-url https://download.pytorch.org/whl/cpu && \
     python setup.py bdist_wheel
 
 FROM python-install AS hf-xet-builder
@@ -199,26 +174,6 @@ RUN --mount=type=cache,target=/root/.cache/uv \
     if ! grep '#include "dynamic_annotations.h"' numba/_dispatcher.cpp; then \
        sed -i '/#include "internal\/pycore_atomic.h"/i\#include "dynamic_annotations.h"' numba/_dispatcher.cpp; \
     fi && python setup.py bdist_wheel
-
-# Edit aws-lc-sys to support s390x
-FROM python-install AS aws-lc-sys-editor
-WORKDIR /tmp
-ENV CARGO_HOME=/root/.cargo
-ENV RUSTUP_HOME=/root/.rustup
-ENV PATH="$CARGO_HOME/bin:$RUSTUP_HOME/bin:$PATH"
-ARG AWS_LC_VERSION=v0.30.0
-RUN --mount=type=cache,target=/root/.cache/uv \
-    --mount=type=bind,from=rust,source=/root/.cargo,target=/root/.cargo,rw \
-    --mount=type=bind,from=rust,source=/root/.rustup,target=/root/.rustup,rw \
-    git clone --recursive https://github.com/aws/aws-lc-rs.git && \
-    cd aws-lc-rs && \
-    git checkout tags/aws-lc-sys/${AWS_LC_VERSION} && \
-    git submodule sync && \
-    git submodule update --init --recursive && \
-    cd aws-lc-sys && \
-    sed -i '682 s/strncmp(buf, "-----END ", 9)/memcmp(buf, "-----END ", 9)/' aws-lc/crypto/pem/pem_lib.c && \
-    sed -i '712 s/strncmp(buf, "-----END ", 9)/memcmp(buf, "-----END ", 9)/' aws-lc/crypto/pem/pem_lib.c && \
-    sed -i '747 s/strncmp(buf, "-----END ", 9)/memcmp(buf, "-----END ", 9)/' aws-lc/crypto/pem/pem_lib.c
     
 # Build Outlines Core
 FROM python-install AS outlines-core-builder
@@ -226,17 +181,17 @@ WORKDIR /tmp
 ENV CARGO_HOME=/root/.cargo
 ENV RUSTUP_HOME=/root/.rustup
 ENV PATH="$CARGO_HOME/bin:$RUSTUP_HOME/bin:$PATH"
-ARG OUTLINES_CORE_VERSION=0.2.10
+COPY requirements/common.txt /tmp/requirements/common.txt
+ARG OUTLINES_CORE_VERSION
 RUN --mount=type=cache,target=/root/.cache/uv \
     --mount=type=bind,from=rust,source=/root/.cargo,target=/root/.cargo,rw \
     --mount=type=bind,from=rust,source=/root/.rustup,target=/root/.rustup,rw \
-    --mount=type=bind,from=aws-lc-sys-editor,source=/tmp/aws-lc-rs/aws-lc-sys,target=/tmp/aws-lc-sys,rw \
+    OUTLINES_CORE_VERSION=${OUTLINES_CORE_VERSION:-$(grep -E '^outlines_core\s*==\s*[0-9.]+' /tmp/requirements/common.txt | grep -Eo '[0-9.]+')} && \
+    if [ -z "${OUTLINES_CORE_VERSION}" ]; then echo "ERROR: Could not determine outlines_core version"; exit 1; fi && \
     git clone https://github.com/dottxt-ai/outlines-core.git && \
     cd outlines-core && \
     git checkout tags/${OUTLINES_CORE_VERSION} && \
     sed -i "s/version = \"0.0.0\"/version = \"${OUTLINES_CORE_VERSION}\"/" Cargo.toml && \
-    echo '[patch.crates-io]' >> Cargo.toml && \
-    echo 'aws-lc-sys = { path = "/tmp/aws-lc-sys" }' >> Cargo.toml && \
     uv pip install maturin && \
     python -m maturin build --release --out dist
 
@@ -245,13 +200,15 @@ FROM python-install AS vllm-cpu
 ARG PYTHON_VERSION
 
 # Set correct library path for torch and numactl
-ENV LD_LIBRARY_PATH="/opt/vllm/lib64/python${PYTHON_VERSION}/site-packages/torch/lib:/usr/local/lib:$LD_LIBRARY_PATH"
+ENV LD_LIBRARY_PATH="/opt/vllm/lib64/python${PYTHON_VERSION}/site-packages/torch/lib:/usr/local/lib:/opt/rh/gcc-toolset-14/root/usr/lib64:$LD_LIBRARY_PATH"
 ENV C_INCLUDE_PATH="/usr/local/include:$C_INCLUDE_PATH"
 ENV UV_LINK_MODE=copy
 ENV CARGO_HOME=/root/.cargo
 ENV RUSTUP_HOME=/root/.rustup
-ENV PATH="$CARGO_HOME/bin:$RUSTUP_HOME/bin:$PATH"
 ENV GRPC_PYTHON_BUILD_SYSTEM_OPENSSL=1
+ENV PCP_DIR=/opt/rh/gcc-toolset-14/root
+ENV PKG_CONFIG_PATH="/opt/rh/gcc-toolset-14/root/usr/lib64/pkgconfig:/usr/local/lib/pkgconfig/"
+ENV PATH="${VIRTUAL_ENV:+${VIRTUAL_ENV}/bin}:/opt/rh/gcc-toolset-14/root/usr/bin:/usr/local/bin:$CARGO_HOME/bin:$RUSTUP_HOME/bin:$PATH"
 
 COPY . /workspace/vllm
 WORKDIR /workspace/vllm
@@ -266,7 +223,6 @@ RUN --mount=type=cache,target=/root/.cache/uv \
     --mount=type=bind,from=pyarrow,source=/tmp/arrow/python/dist,target=/tmp/arrow-wheels \
     --mount=type=bind,from=torch-vision,source=/tmp/vision/dist,target=/tmp/vision-wheels/ \
     --mount=type=bind,from=hf-xet-builder,source=/tmp/hf-xet/dist,target=/tmp/hf-xet-wheels/ \
-    --mount=type=bind,from=torch,source=/tmp/pytorch/dist,target=/tmp/torch-wheels/ \
     --mount=type=bind,from=numba-builder,source=/tmp/llvmlite/dist,target=/tmp/llvmlite-wheels/ \
     --mount=type=bind,from=numba-builder,source=/tmp/numba/dist,target=/tmp/numba-wheels/ \
     --mount=type=bind,from=outlines-core-builder,source=/tmp/outlines-core/dist,target=/tmp/outlines-core/dist/ \
@@ -274,7 +230,6 @@ RUN --mount=type=cache,target=/root/.cache/uv \
      ARROW_WHL_FILE=$(ls /tmp/arrow-wheels/pyarrow-*.whl) && \
      VISION_WHL_FILE=$(ls /tmp/vision-wheels/*.whl) && \
      HF_XET_WHL_FILE=$(ls /tmp/hf-xet-wheels/*.whl) && \
-     TORCH_WHL_FILE=$(ls /tmp/torch-wheels/*.whl) && \
      LLVM_WHL_FILE=$(ls /tmp/llvmlite-wheels/*.whl) && \
      NUMBA_WHL_FILE=$(ls /tmp/numba-wheels/*.whl) && \
      OUTLINES_CORE_WHL_FILE=$(ls /tmp/outlines-core/dist/*.whl) && \
@@ -282,7 +237,6 @@ RUN --mount=type=cache,target=/root/.cache/uv \
         $ARROW_WHL_FILE  \
         $VISION_WHL_FILE \
         $HF_XET_WHL_FILE \
-        $TORCH_WHL_FILE \
         $LLVM_WHL_FILE \
         $NUMBA_WHL_FILE \
         $OUTLINES_CORE_WHL_FILE \
diff --git a/requirements/common.txt b/requirements/common.txt
index 724360f8bc9e4..391e5acfd32a0 100644
--- a/requirements/common.txt
+++ b/requirements/common.txt
@@ -19,12 +19,12 @@ pillow  # Required for image processing
 prometheus-fastapi-instrumentator >= 7.0.0
 tiktoken >= 0.6.0  # Required for DBRX tokenizer
 lm-format-enforcer == 0.11.3
-llguidance >= 0.7.11, < 0.8.0; platform_machine == "x86_64" or platform_machine == "arm64" or platform_machine == "aarch64"
+llguidance >= 0.7.11, < 0.8.0; platform_machine == "x86_64" or platform_machine == "arm64" or platform_machine == "aarch64" or platform_machine == "s390x"
 outlines_core == 0.2.11
 # required for outlines backend disk cache
 diskcache == 5.6.3
 lark == 1.2.2
-xgrammar == 0.1.25; platform_machine == "x86_64" or platform_machine == "aarch64" or platform_machine == "arm64"
+xgrammar == 0.1.25; platform_machine == "x86_64" or platform_machine == "aarch64" or platform_machine == "arm64" or platform_machine == "s390x"
 typing_extensions >= 4.10
 filelock >= 3.16.1 # need to contain https://github.com/tox-dev/filelock/pull/317
 partial-json-parser # used for parsing partial JSON outputs
diff --git a/requirements/cpu.txt b/requirements/cpu.txt
index d53ab3649308a..ac0c4d20c1c1c 100644
--- a/requirements/cpu.txt
+++ b/requirements/cpu.txt
@@ -7,7 +7,7 @@ numba == 0.61.2; platform_machine != "s390x" # Required for N-gram speculative d
 packaging>=24.2
 setuptools>=77.0.3,<80.0.0
 --extra-index-url https://download.pytorch.org/whl/cpu
-torch==2.8.0+cpu; platform_machine == "x86_64"
+torch==2.8.0+cpu; platform_machine == "x86_64" or platform_machine == "s390x"
 torch==2.8.0; platform_system == "Darwin"
 torch==2.8.0; platform_machine == "ppc64le" or platform_machine == "aarch64"
 

From ffb08379d8870a1a81ba82b72797f196838d0c86 Mon Sep 17 00:00:00 2001
From: Isotr0py <mozf@mail2.sysu.edu.cn>
Date: Thu, 6 Nov 2025 04:06:45 +0800
Subject: [PATCH 167/976] [Chore] Remove Nemotron-Nano-VL config copy (#28126)

Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>
---
 vllm/transformers_utils/config.py             |  2 +-
 vllm/transformers_utils/configs/__init__.py   |  2 -
 .../transformers_utils/configs/nemotron_vl.py | 60 -------------------
 3 files changed, 1 insertion(+), 63 deletions(-)
 delete mode 100644 vllm/transformers_utils/configs/nemotron_vl.py

diff --git a/vllm/transformers_utils/config.py b/vllm/transformers_utils/config.py
index b1f4e3e2a9831..771f16fe05106 100644
--- a/vllm/transformers_utils/config.py
+++ b/vllm/transformers_utils/config.py
@@ -81,7 +81,6 @@ _CONFIG_REGISTRY: dict[str, type[PretrainedConfig]] = LazyConfigDict(
     flex_olmo="FlexOlmoConfig",
     kimi_linear="KimiLinearConfig",
     kimi_vl="KimiVLConfig",
-    Llama_Nemotron_Nano_VL="Nemotron_Nano_VL_Config",
     RefinedWeb="RWConfig",  # For tiiuae/falcon-40b(-instruct)
     RefinedWebModel="RWConfig",  # For tiiuae/falcon-7b(-instruct)
     jais="JAISConfig",
@@ -106,6 +105,7 @@ _CONFIG_ATTRS_MAPPING: dict[str, str] = {
 
 _AUTO_CONFIG_KWARGS_OVERRIDES: dict[str, dict[str, Any]] = {
     "internvl_chat": {"has_no_defaults_at_init": True},
+    "Llama_Nemotron_Nano_VL": {"attn_implementation": "eager"},
     "NVLM_D": {"has_no_defaults_at_init": True},
 }
 
diff --git a/vllm/transformers_utils/configs/__init__.py b/vllm/transformers_utils/configs/__init__.py
index 663a8e44d71dd..405a2f6b23954 100644
--- a/vllm/transformers_utils/configs/__init__.py
+++ b/vllm/transformers_utils/configs/__init__.py
@@ -28,7 +28,6 @@ from vllm.transformers_utils.configs.mlp_speculator import MLPSpeculatorConfig
 from vllm.transformers_utils.configs.moonvit import MoonViTConfig
 from vllm.transformers_utils.configs.nemotron import NemotronConfig
 from vllm.transformers_utils.configs.nemotron_h import NemotronHConfig
-from vllm.transformers_utils.configs.nemotron_vl import Nemotron_Nano_VL_Config
 from vllm.transformers_utils.configs.olmo3 import Olmo3Config
 from vllm.transformers_utils.configs.ovis import OvisConfig
 from vllm.transformers_utils.configs.qwen3_next import Qwen3NextConfig
@@ -59,7 +58,6 @@ __all__ = [
     "KimiVLConfig",
     "NemotronConfig",
     "NemotronHConfig",
-    "Nemotron_Nano_VL_Config",
     "Olmo3Config",
     "OvisConfig",
     "RadioConfig",
diff --git a/vllm/transformers_utils/configs/nemotron_vl.py b/vllm/transformers_utils/configs/nemotron_vl.py
deleted file mode 100644
index 6f98fbafbed5f..0000000000000
--- a/vllm/transformers_utils/configs/nemotron_vl.py
+++ /dev/null
@@ -1,60 +0,0 @@
-# SPDX-License-Identifier: Apache-2.0
-# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
-
-# ruff: noqa: E501
-# Adapted from
-# https://huggingface.co/nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1/blob/main/configuration.py
-# --------------------------------------------------------
-# Adapted from https://huggingface.co/OpenGVLab/InternVL2-Llama3-76B under MIT License
-#     LICENSE is in incl_licenses directory.
-# --------------------------------------------------------
-
-from transformers import LlamaConfig
-from transformers.configuration_utils import PretrainedConfig
-from transformers.dynamic_module_utils import get_class_from_dynamic_module
-
-
-class Nemotron_Nano_VL_Config(PretrainedConfig):
-    model_type = "Llama_Nemotron_Nano_VL"
-    is_composition = True
-
-    def __init__(
-        self,
-        vision_config=None,
-        llm_config=None,
-        force_image_size=None,
-        downsample_ratio=0.5,
-        template=None,
-        ps_version="v1",
-        image_tag_type="internvl",
-        projector_hidden_size=4096,
-        vit_hidden_size=1280,
-        **kwargs,
-    ):
-        super().__init__(**kwargs)
-
-        if vision_config is not None:
-            assert (
-                "auto_map" in vision_config
-                and "AutoConfig" in vision_config["auto_map"]
-            )
-            vision_auto_config = get_class_from_dynamic_module(
-                *vision_config["auto_map"]["AutoConfig"].split("--")[::-1]
-            )
-            self.vision_config = vision_auto_config(**vision_config)
-        else:
-            self.vision_config = PretrainedConfig()
-
-        if llm_config is None:
-            self.text_config = LlamaConfig()
-        else:
-            self.text_config = LlamaConfig(**llm_config)
-
-        # Assign configuration values
-        self.force_image_size = force_image_size
-        self.downsample_ratio = downsample_ratio
-        self.template = template  # TODO move out of here and into the tokenizer
-        self.ps_version = ps_version  # Pixel shuffle version
-        self.image_tag_type = image_tag_type  # TODO: into the tokenizer too?
-        self.projector_hidden_size = projector_hidden_size
-        self.vit_hidden_size = vit_hidden_size

From 65ac8d8dc474839eafaea2adddb76fd2341cb78d Mon Sep 17 00:00:00 2001
From: Richard Zou <zou3519@users.noreply.github.com>
Date: Wed, 5 Nov 2025 16:31:46 -0500
Subject: [PATCH 168/976] [Docs] Add guide to debugging vLLM-torch.compile
 integration (#28094)

Signed-off-by: Richard Zou <zou3519@gmail.com>
---
 .../debug_vllm_compile/design_diagram.png     | Bin 0 -> 322072 bytes
 .../debug_vllm_compile/dynamic_shapes.png     | Bin 0 -> 368000 bytes
 .../debug_vllm_compile/tlparse_inductor.png   | Bin 0 -> 263311 bytes
 docs/design/debug_vllm_compile.md             | 239 ++++++++++++++++++
 4 files changed, 239 insertions(+)
 create mode 100644 docs/assets/design/debug_vllm_compile/design_diagram.png
 create mode 100644 docs/assets/design/debug_vllm_compile/dynamic_shapes.png
 create mode 100644 docs/assets/design/debug_vllm_compile/tlparse_inductor.png
 create mode 100644 docs/design/debug_vllm_compile.md

diff --git a/docs/assets/design/debug_vllm_compile/design_diagram.png b/docs/assets/design/debug_vllm_compile/design_diagram.png
new file mode 100644
index 0000000000000000000000000000000000000000..9dfd45ec1a3152cb28bd1996f30214d0076d9024
GIT binary patch
literal 322072
zcmb4rXFwBM*DfHaL=lcO6)B2JFN%P46cLpw5IWL9dJi=;MO36%=v}1+LJy&aq6mo8
z5K2N*K%^w0BZP7%dhp<RzxRIk`Xj<*X7<{9uf58%p2brw4HY`j84v{p1>K$7H?=7!
zXkio-ht3>53|w(OJxQdXV4%2j^SZ7t<-#aU;%I-($0b*6eysrW9N}*0L#5I~CcFfr
ziU;oY?x2=Y`~=}dHUao2?9*Uho?>m+y)gUP%XWRc8?E*-E-r2gSsoF9+t}0#HQlDC
zq-Id0IQa3>G-O8Uk1N0pp;N3Aw154)u?<5-^L+1I2nE$qF7k(UD239`9}a#fE+1Qb
z^y~ZImr4AJTFz$E*If6Gxhem9REFC@l<5oy<@hPqOS2H3n-rmee2Q8^W<d+GSN|TA
zD?~AfWn%c3L<i*O+NANlap2t^DHPWcBkNDy6pnJm9;cE$^!xdJ@h>z`Xg=Bh<+rTu
zB8`l;S-`V`AFO!~ypOyTg-qsxe_jH_J}CZjB=F$&@|~5`Un}s4w&(HxIKuhgi}-8c
z*kja3VKyrfjf?+UIzaesD%o@YUHDij$}oqdl}V@Hf`#sIH-i7QwG4{?ULS_rmcWB|
zw!bVtIBKmHGWP#7t|EbnD=%I~ft3I{xNplaijAoMWxCb|A(=*x+pkfQALPoVsgnQi
zQ~P6$+AlJ&=&Ba+OxgeE)YL*Ge$ReipntX{)Px(*p}|0=k)wZ)bs>X7^U?nz=+Aw*
za2|N_uZvq#_bCa-_uu?m>3*r`zb^lMUbtpyj>0bPsC+(jV5?(M6mtJ5{l67g8(1NY
zIZtP5hBi$qS%Lr8^#Syj@D@-%=%dN2f38MoD#Jwb|8;*akRP<(*7dve>&YwJjn)6x
z2Yw$Hl3_?DHt6u+w88&6v0pd*-WM)+K>wZ^_cH!oKrSCzH_88f*b7eqVJ~cQ`5mV&
zQwh2EUoC<89&MpPL+AZ1Pt?v8_vzhQUi}*ft(({(%Ft9+K#^B6D1H9aHQ~mUf6N?L
zNC>xE2M>B7wAgN#rdYk?NJH9m#nK@_?%QW5IjH}UUmci{{j%FnW5!i{)Gg!Rlc}N_
ze{SgFOklHQMalQx`fNBOQLaHn$#IT&OwhDee2bxbPkwyBdF-!IJM!y)YZ`D=s%cKr
z!7d`HG$Z~)aZj3G2j;b0*VtuhE4k|m6EdvD1f`cWYxqH)J7a6ax)oUILln!7zI*rX
z2Zzn>r%n_U^7p&V8;-jD^=lxHn}FU$mw4X$d)&4LDp{$6%4eP1xG<gK^gh0xIk}QJ
zV)M|hsJ%<|iUi;YZkXf0;ghb(NM?MhKe%v!sMNqYpiv&`CQ->!9(>!c^F=nnif2QY
zjt#V)O)B$MQe&e7ES?yZapk7K*&>^{?$k}LD*pZFV)d!3G=Wv;CtI#H_hr!o>ua4x
z!TtBpjrT)^a6Z^Xzj=K5U#j>e&Y2-`qGoBwc)B$bdSx_y$2lD;V_V&6P}2?}U;|DV
zOL2=@TzBGi-h~NCd5R6YVe(ZajK*DUhdE#A+r0mN{HfylvBC{q*?x?~;dRW%FbXP?
zen`QAiIy|~<{K|!U-S@|@dr>3aK{1BxMDkKAowc*)5SCcKccTgMs(gTU^jAybQHP~
z-713K&Gy6-M%MJfk~ms8`*xdKfgf4{;?;0(9Xo!^39T25$u!x`yW<(~ilyZ+#^cAA
zvV~={C?nfFKd(pii>-k&GjU52Qcp9)J9<v>4$|`en6J;jL8DVw>%{$sR{McNNE(X3
zCR5$^A}h=R^=j*+8es!Oj)hXeQX%8|VnU}1Z_htV_FqmHu`}ujID%7AN_dA6SBVxf
zMq&<k8(85EO^>q_4?9H2UTKDn|A;YNBUlG4&s1x)Ttgu0>`J_$53163o39zyy9Y#%
z_`G3FD-o5*(-XZY6(%Ym>9le=P&zQ*HG`dcIjr$<qi#laWcIgk+&7M&r`aQ%LNfI4
zCG;}|B)-2#T^;;O;PnWK!Gq_56I6&T=|r8XCSK2^Glm!x@2Pvk3Z_|5_dExsLd$hB
zI34Ny=_?pBPFwLP$b8iB^{?<=5bMto8T~#2<M)wUnmnrm$Sh>m&}l0&ZoQ{r=By%n
z`O2VPq|OtU-Z`NzG2dV&!Pv9c#ff6}0n1;9w9>JL3`2IIYN>hSf4#RWMmWnrvZX%7
z<98iiWj{NqtIGKN;la%hQ9Mb@pxbeg^Ad7@PXByOjyAptg~HvNS*GtYmE8hI8pD^B
z;a*gf$H4lyDsPo&g}N}GTzSa>rc87vuizESbt5(jM|f0fxo}Q%^423EP?)+wmHdKM
zG_oZHRDRpR<1mKlbBDW^3)lFu?;9!nBCxryce<aKcF~_G7f<=Bf4`r|A!1a0k{VOT
zv9BPC9!D3MehT%4iW<{w`at=&dbFibjfn3nbF2*&_%3Uum9cKgNo5dLc@&0ol|&-K
zH94FZx4bG9T%7G566efcan4z;kl3A+h=d1F&3rpxW}y1rAwMb3g)`EQ&X03M>7cQ4
zQ7%Ky-7ZCjLdWxSa#93zWThU8I!aClQfQ+DH;pH%$G@o*T)un5VnB5~^<8J;MbXI;
z&pMN(#qpG`>p@%$W+B}FEF++~M*urB-9#T{e2dGDrb>EW<oy${sWK52nT)N7sKq|a
z9VowqQGFy|WgAy$SoFj+(9N5)GEkWX4P$<EL&nC_s<kFt%#Eh}d_GO;CwKPqGv1C`
z1JRE6nmDB4s3;<O_=K~ru#y$NxJz}=nXX>9?68HN>j=wM-PQ9Y3N+t}M$URx2j>=7
zwg#s%qEXO@V63J$FSsI8Pw)?kxv5N;LU#m!(0I?^Q~cm@R5V9YDEvGLFSX6THq%}1
z&gOSKBKdjKJb^Hoy~1Xkd#EF^*$y-?>K@2mOK3Y}N!Wb(umD%sdcuRh73%FQK>7h=
zS>IAt$2UKO8E#$!Pg)*s4}F~N`2L}>_$TJ}(AxH0RbfEoKZ+Q*zG87M5m6EL47)xE
z6>X^)S#S5M-7831UoBoyV=gM&bE&!!#Qfl1x%KzA3TrDSB)d6>@lt%~O9#-0E$I@n
z#RI~J?tkJb24=22mTdE%4vcG<+Lz<csRh$IVQbK|)M;zWKN3~P0<=waFo?uMQax_k
z^LN)<#D&zqh^d49JO4UjKqPpl&Z^fVJ#Pyi9q=Ra^x`{l&AH8m_a%r&Fn~ohE|r&f
z;saPp$cIU8_)Nen^`=bC2oZ51vON{qLo{;i1XZT3E+pQhU9nbhk+!1|R(SU~Z8-n#
zclGD#$gV+@v&xk6dIgin4RLY$BPj>BCq%LDnDwQ+_|<E&T>n<4qo=5kaxtiww|1GX
z<KD$V+EW<ez3hk56tzm`^YQ$+)9lTM&NiW>svB%lf~8Tm;&-Q}@Cz#lNt*Qc?0H5>
zb*#F;*^V$>*=3TMdhr+8Dd<h+1TVB_%+$oZ&RVNc|3Zm6PItqO`YYhH6Xk~AX6-;c
zjb-ZE$L3yKe8yD4o&0(u4Pg<vXDX;8i1A5f|9gqs?okRy|1_M6mB#?11F;m|KLAJH
z@ie;s-igq<^O+8c#N#H`Gbrh?xebm7GxgF<L8p+-Vd&v(mfNLAG~ssLX=q+e+2oB~
zZ=xT9YB&eJ+nBak5GQ2W0-8y0I6OKl!kcY;+%%e~fR*PgC7aX-j*_nQ_*eJe%6CXJ
zM-F?=5cW2-&@W)k6XduFkzz?SWBzI@jI*}-21jDptYUIEoDAJ%d%MpI6vc6Ve4t(b
zsNToWGiBqZWXg)KWXigmzT+AD75RWgQ(iO6@i2$2q9aPKWAjsE&i{(X+s3J?XIvjF
zZ_G5J?T{3cf4V+kV}ZPMA%Z6mPox<jp=Z}g@4%Hd0ZzPknIHLc=%GKZ%{sAq7oa!^
zyekO?)fOqPu?xrZ;XwFEc6J>D&TFP(1rUh{U0srE%3VY8y3w_k<MUfRZULLcG^fva
zj%=?%Mvv&EdOD7+#(*1^I34}E&1=8B&(~lOx;FF%W9;<lYgE&>s~gOBb$GuoD>)9a
zv5F%~>AfneHNDD1eJYULDO&|bEo`@&glJk(r^`oHi-JXcOLxR=;>d9dlVE>XwaY#h
z5b1Nj#59BWS4@mo*N)BCy8$he2=V3m7gl)V!v@HR2%NiSR9TJ>od@h=J2&?r?S07?
zP&r(9v8LDdnqhy9U&u=J>JB6xPD|ULEt%7-?Vqc_R@(2U0Y?;fi`IL3;+D>d4PGNw
zj=4e!{+#R69LE5S078lznx?hGX7}JuOCKIObZ|E)xNJR0#?-Hw6%3Nh9NkEYc2biq
z?h=;K!OwboBGLaO*Rirxvb0o3rwoC>&2Rnf<i`U+`_LYh$zMOCk<e}73Azz#p=ejb
z-k|RoEJ3=oXgYg#fu#`pHQ@DQa3pD+arB<3-TJf6tk9f0$0QS*F9;D%JLSqN3`nn^
zwtf4}R@UGR1G@hrTN*|GBN{d}bg@6t6)h2b^j7Ov8VnFvTOfn3bh?nNYxqpwq3ne~
zJgBAa8!7dHuSWMUYHXs;-bSNoRyE^x!6|mFvQnSq*-`ycgHjBeSv{St@8hrO1i(Cu
z-tlemT)Zed#fYC6u7U@!+kH|7mu#(ltAvcVAHkLi@f)<f4419%8`JfMwFV_xsT0pm
zQMVTP2D}_ynO3XaoV3q@JvgFpW#r7*<(|^JQ=U50*NMy#T}JZ@8fG=U(rfIt9;<pw
z=q5x8GDY@qr@`A%K{F=a+6DNX96OR<Gw4-=@EcN(-BvSk1+FtyuY2(tA{QxWQs0u4
zjJWebjkt;cqFvH?V)y{ob)!*hzQ-<ajbvX$(_l3lRo@UZzo{8$`#f!V#9(H0fCTS0
zCBC0j=xXmXw=a2PH2ih8A=f{HV;d5WsCRt=y=Gl1a-pyrJl?{X!Qt!^C;<&dyUS6(
zGzy7002Oh`kl~96ek*daOA>BO`ooe^P*odb>h}J?1f$q$M`+o_YXeFc*R?{<vnt$O
z9ry+xIXgOVYv<ExdRV=JZz*3QdacP~pp>X(7JIYl5)FdsQtuC=N~iHz>cNv~%lDXT
zx`Lg<@<D^a9PD2n<wnm*_T?9PZ5^9T<=28eW-iRrlV0{i<QZxwJU1)~axJTud{A01
z^WX)a$?N;dISsi*%TZYqNyX<%%DqPQWR{Y8*B5=t52>V@j>kBTWmp1{HH&kBc1;QU
zNQslz_$cqoGo-=lK~BFA@%;PES7Mz#BRmISsTfqZ*8E<FiH^Z%`{SEg8-{wV8=TH$
zV;WzmUdNv<?+QlCYz~*srXxEb;U;pP>i$P$*4b^hqI1MwrZ<pu-ll;(mbUl;^BNsy
z+I&H$_`kCh7gIUx1SL;W4{QaAb!^l>@zF5CZyoRR*t49{&Xpb!;?yjk*pMEp@>c*~
zbo;O{YH`C=!A}<O$&TJchTQY!M%{CAB5=I97TiRd8RMm1?@G=mE7AsrTz6{QXs_pB
zBCP({nMMFg^PmhJY8XE1WzPCXN&vuJbv%viWIH;{-Lo9B*z;<`p+LgPGfW3gWV1Aj
z9$}MTUT;^&iN!lFk7_*RZwVwlT?mx(CwlUyPCmBQMcj?+Z>G8g8XZ}ge(n`9I0S24
zpZ^ed`8snHiMWc<5M7)AEY%3}ZqMivod0oj@m;52jrAklk0YqP>v+0B*Rq*UCD(eC
zv#$@`W=jg4JqjLH?|$pZ@3p==-HET^rZ3@OFBm#DBT@MjT06vvM4-QXe`&<E^vSXJ
z)w)xg8Ko4st52pjS1KzG*5U1Ip2v5J84{Kgv|3qUnNq}D7fonT8tof+XGANY|0dSd
z+dzHZ0Qr2QU(MBV?q2wO*kH6|$qny~U^%hX68^&+n;&lHdL)w!!y(7*1HZ&<4y^BH
zN%-|Xj(uC3a+S_?Xvv~{09&dV?U7UM#JE}S(d5Vo$(Y#OY&fU7Ft?F&4NPJ>D+f4x
z2?Z^oUi9d&ZjT1@UTT_G5O3lzU^H{`jnQ*3qO#E-II}+>$mok1R8u4n8nz=QUg>WU
z<)N$=szEfs>P=`nvXH%a==O!i^1q=a#rr1#6eB@ih`{{Ij*eVttpAPB0I@MWjmxz;
ziUKg|!41tKF0Jm3OSqInESLHfa;4Rc%X)ogq4{}w`MMV4ry>WP5NWlab!pU3pdO~P
z(`;UaXXLgc^BJ&lL^X}PlW{lPLG8Xrv=Uoti7wsuQBs#yD_zi#4Y%+9_okBSj)Y-w
zBV>1p;O5}8w`j@(5*l1R59b3`PLoku+v=GI@Hy~`K7kHPjxokY=ZAFcBr5hQ;np^h
zxkhQAT^~&gKB@Wb=YsRd1yS%R9WA~wzqAvAR(24W<>;B$i1YcS!BK^d0;jTPr5{?o
z7P;3pcr~cW->yc_b<&ilACVNpZf$0Y`xI204Ojn;9wx|_7BTZz5x>X~e_-{P8%nei
zqS*)EgpKZvAHu&Ih!YgIgiH9)rUZF?SU^D9-oF<b>(9I*U3W*Swa}*X<z*`er+UU#
zIdSYI;pcP(vjIJX-7JXj)Tq=_(&Zdz+S_R$O&K2AoJY(Gg2w%n!a!xCKYDd%5=ly-
zwF!HvM8e0ywfZ_ddiF9ti!R{Iv_~`A%4u?dJ-}$YfF~%`3e-nVMwvv{I7jP|F6Db8
z=ff?>;iGb$MI>_=AJZ(s(X`b194SkmjSb?X!sh47!}DQwXS+Fw{=4i?J^1I$hK`(L
z*xNhynSCRnm>3qJ@;in5J6rw<Os>R-+%O^MXp<b@om|bZpYwe&+4oNi+<Rv}a-@1?
z<@9>{VzztC%xb8g0P=@RmIdZ3YUd^d7B9RopHnhWZ`M`P>p8fIeJBHx2?wicD};}B
zK`&N%yp9G77=K{8Az*q{{3^pcd3&MAfgc%$Q0BvEX{UQ}0^#tw)@L7ShfEf?Zt5Iu
z!|4-M_R7y-Igyp+0w>@W<ScP-)rHlQ7!JzW8$^I^Cd~v#Dy6r0Ui0$oPxa2aF6}K}
z=q|-Jo?8xeS62-vQ&A$PI1($p4;SK&B@czhJ<E@Dtp)<Fb@UHrltg%E*v2e=adkMV
zaOR7+Rr)xNryK_x@g6HEC2FQUYgtH{H^$8aAy~(Wd<&7Z@gd#%u7LXH{L+l~8<Tn;
z9<hyjUfr4N2eQS01aY6wL3O23>OpytjCE+4xplM=W!WStrZT)>hnPvwZ|zsfx~AR^
z!vm;Ma+p1KU6_$&;Y96hEo5C_vOeMsj!0*8b|am0GYIlI0G2tLNRk<@Xe-}l_frs&
z%`@^6^idjr7=cQ`6SfAF?C@#wt1pN%KccH;K-M)lBi1`~^q2UVX6PpKi^I|%5*Ezi
z>$;V?(@n3ix@Foe+TPb{e3gQFZ%ORKIiV(8jY2<9e`3pS@JQZ4LtsKBOShlQ#7<K&
z-(@L#n;h@Me;*3*R^=JWqA-rA$yO@%-Z`QpXizO!VRhnaml*>2ETLK1hAJ!Ori*>c
zV`r4hc(kEQ@m_h)U`}HfF5zlqe%Bg)$OaWe=*o6gf1dv?Cj^@?SXuVhhSycFuJ)-1
z1jbRPuF28VPiBN_!q&Kbsm|d!15w4?o|GF;q**F~SX58V)4-<ww5nwI;}ul&$jWJU
z*pH7|n9`JJIJ>jXM5+Jq`QDwIl9hy^xCes|8v3t+J6xo5DjBhT^~y3T5==*>v%t!1
zZUF&2&*RSIDdyPAF-t%9irVGl+>E~IBg+Oehxn5|rN=J}>msg6{+PahT}OG>Lx;^#
zzxFk5s*v8rU_keJ*YMNrs;P;&7a6+>pz%%P&$L*mud-(?JRmLcu3O77R<E2Z?BmGt
zm4N1eB0_<WH0HCd(74=1BH)-;(&un`;`Jrw?{Ieplgir6F89i<w~Ge*>YYRQ2s^vL
zqVvqNQS|g_dgF)3hR@|}jkCQVR_0vyZUq^OfT)*7<mV-5_+i;BZuH87wdadhy<dzc
z^*(NUobwpmsI|c|9JTAWN*YG>*f>m$78(jqj=%jL;xy$=N#Oj)1W;0YR4Xp*u_ku7
zCgPMRLPvNT<qn{fzf!@FFxBLbi@oT18Or#~C;SC8IFI+c%iaM>wlD*xz4Wh~hBc4^
z;spKVHghGDHfj2s1Vp!d88Uep5eUr{8fI@>l5p5Uz3|+|3>ggw+8^>qBBRe)G&0X4
zhePa3v#x?|Kq)zH9qXoJ9m*dCCvh8uyf<LCt?TR}XSHePCM{IG+K{XBy^YDbB3~Rm
zeRQ8XT8;~A^xO+op=lnmdRpYe4}bk&MsDYf9v{lik$4wV?g9#w2#6t!YG?8pgsL%5
z0V!EIQpdVL`?i+)xi=9S1*}rZJHhg2Pm&C`iJw^93phWS#Z58!*DXERlY!Mbn~1NA
z1+Fz;f;@QZA$``TSIo?3ic*6{$~D)Fr|3DYrGL!46*#-bBAwr6Y!a(?Ti{fUZmrKf
znyW-qrM~NkOVcOY`sgBO8f~xshW>o5{`{icnMICj{44u0Q#%~nH(VLi?)!=}Ha<uT
zAK~8N+{7Q;QVnLS98MC6Do5^`T5rk2u-J1k&r5*3V#WlwlQn*sAmR8s83#6SNT0Gx
ziHk&zqBDfJ|4d#_GiFMX53Qp1(bU20WT?M)N21-m*t-^y0BSOn$&f&Gkswq-r<?47
zLmP|G0>Iu5nDWj!#Gy~D-pPBooR{U0;797F`OlmP?r>%=(${1?y+XGiW_Dv67&Y%>
zrn{+i{5eoubQ-D>W&<LvkFw{Mp-DO;rsFl{w_!8rzjpb-t(AG^cHXc#8IdZTN?(VO
zMctC(^@o_AN|z0V$gOusr(^leklAzMeKJD+Cd_SE%#uF+w)59d-`$<_{F4U8rsF3a
zj7yACHhlG*9i=~;E6%^zD{!@^xxD5+H&$mMK-_Vns}u7tj<LVrguB>@H;#d`Gn&&q
zCe<A}o`D!B3bZRjwj*~Ye=uJ@Cp4<_%3)V=w2EdPI%CiCK<5HNQ7ukt&6AaetysD+
zr*^*Zea-^>Y$BEK*XB|5D`}pE%~Jb<Jt!Tjdv0KlHTZ{`vk}w%`pNQH2%%sS4@74}
ztJ%8_?*7rO8m^f|WRy;kz&deaKS>P@<Y(BGl-Xo@*m{fXRezVTe!JKqPAb?IrY1hv
z|GKFU;cjpo7h-zqiin$ncnAK(E1T7H-Cn^lDWd7X=aJattp~Mla<TEqH!0DMo8E64
z&Knaa=ReTplXHEjoOIxpR@B<s_i3Ze_=&4=V<qXxNg!Cm4sDiR=Ulsok%ZTGPy|0@
z-NynxtpyaI^LL(Hnnrx;%QiT-XEs|j{<T<Z`o7arGJGJbTdN>wQeoZPe6DZJxUzQi
zjU!aJH;q~Xk~fu*n~`I?x?m()@y?3X3!Ve66e*B!K~5;2a7=|vmz(cR>~3`i%{bUR
zqpr2~ZE#w;;oiOJvasCq%$h(emar-C7yswYj!tJG17_E;XPpGT-nIUg-H?Q_U~o$$
z<mhnKcF&p1@TML^41jU=cm>DF(PcW?<As~%9TZNz^CaaU^lszd3nUxUbQ9w%wmkn;
zVdb);-VQE!u^C`aeekIK3}=3BL1-X%ru{}3IN&7o$5vcqix=Ioqb*+87`k#Qiv)gm
z{>W?})uk{8Nls&&H2WzTxNSi9Y8t4haAbnsm*$WtXg7THeV?~6{uy#oKdnzHS^n}V
z7{B4W%oEB9r&V{dIN1{$93r#9`9jykv%2^=PDvKNdA((0OZzxwfQCw!Fch<MO-35}
zb)}(uBRpNgX-OZ^Cv`dr;`O<1jV0Bi%rNTYnM*Z!(uQ6<W$xzLmU=Y?4%Pysz1O@8
zdx739?UCDG1Q9mYhMY&KSw2sU7dGs6-#B*o0-JthTA28lT()>i9)JFhuMQjfYMQqI
z%L-lT`Nh$`rqiLsdTdvaO<gz`i@q!b3gJ7R<LpDL!D)1nVT|N?*Gc?6)5etC`~*qH
zKRx)9+0O2dT%Q1$Tu)5mGp{q}5sJ^)hb!vns_N^#i&#mux1jr#TP_`{)aSpz!+4PO
z;$B);pQG5R{cs^f(S-8EKe5DAMdOB50<OI~x>Skdv_&U@!-)*7F!kJ-LR}IXF*l2T
z4qs+IPV{Zn{yvxRRKU6Cx%lN!7T1QtkpV>AB+Vg{F{`CYX8vP`-TL*>Pu8Vj@e)??
z5QHiT+m}prkKOTgB>X-Cf`-VT_8uI2Y;zTp(<~sZ85!o*aLWXN7hV$}9l8PgbSZeF
zib^J-L9Ts6s-n=aPi~<wSNJKNJTtwTI_#NKOpt<1Cq=B7!QmiY(J4I2x>Jwn;uWy?
z9MS9SoTnW(U{rY|r&Jf$fYx)2BV6$sFe1551$@EhQRt*7(lj;a?>6`g$G*6b>az$P
z5;nXlkw?aQg|1~g-FkciHCdkEDnXQCbQNSyM+fxGq!^-vVO6}6W>%@}>O3P`6nmr@
z{MHg!NbQ_B0s|Q4OM*|*f;^X!hdxDvra4Ak->Dlh;mjuINIArpm7_MJw!t<ihtSLd
z)L^pwAimh!4c0y3)y8&6=i%I$HGbCe*6s)9XwF#&g;fVD0Gw@0f3gtlqvV*f^!@sJ
zS9Yi1g3qI(1W6Xc$%7#QLz@ECZi7&pLU-q@^X8BLry{K4rS!$tC4o0~0%}WRnJwf3
zWnm{&X`xax2M54jiOqLGZ>rcOok#7-<?B&W%zAjLm&upBOPFnNZhw*TOhrR*p6Mc%
zS_Z#aI`AbltJlFmI-Na|u=6%cHBd=F&2v&k2mhS4)o?K4vGJtLVMBPzk!z97{$#ww
z&z5+{Q}2TwH+pHN%h_qE>`s#wx*?R0sy^q;eE9fG3X&h2S3SSbqoVTR6qwI+Xe(X2
zJK90-ey(!D%=sA=pYv=-Ffs5tFM<H$0`iVPnsO++Yl|rOPyliH+Y7Oc-Cmh2#jj&5
z<$I3$!?p8H3On<%j{bvOI_CI{`~o2ZIhT(0v`VK@J+y8#=th_6X&LZav7U6!xVxLV
zk*Vxo6#`mp0fdk^^G5Nt<b`3F9-j^_{ahLbfKw~@Lix_69SR6Ko>4!b0f1_Z+GshV
zJw(sdw6DKzvf#3TyVERoQ88`Hc1=6S07mmL9Fz<|J{wzz2G*e`Qu9uedV5~!pcSE~
zBe^Ix>7wqTdgP>$uA5{U;&_+8eI0zbVsw~(w?}4s_(}EvVfP$lW=1S9!e;MVi#pVK
z38E{6Pk%M{QO0Q_EilusL9+$KDhj0^Vf4y~JY?|^!}gwNn6U@I#1*xu#4qK;XZ%z&
z{agxVti9^bX(bhVOp#dSP7TLyJ`Qm&RYcU<%<o{B9$H9(FM1Ui@ox{!g}j6~Oa(w7
zGq5gCR{liGKR9D5A)ElTzypLV(@$fbrriAP3>CRHKyG%waHb0djfK;ILR@r2Vrw6=
z4AXIHAogUXn;ig{oD3Y3VRABfT>BM&2W8J<nvvV(G~u!}kP%}rm-<#KB0zD_cWbbk
z;1XZRY;aoC8L<Z7*6aWlGc)!O)5a9PH6D90CkP}xTSZWfydl$|X=FnWmBINaq*S(O
zaQkg$iGPMKPR-ZZsaU*{OX-@6Y2W3eV$<dOR#B@!<^f=cay`NUjxYH{Jp=c8FL7^F
z4S@Cn`^v+a1xy+>9B1gCM<vz|(1zt_#Cu!>wNNLK3ufd}i6PU_Jq4kB8tnzL0|NkG
zwXAb1+r*U@s&WCg3CiilJJ6^X>@=C_yWZ(*zV@l&4FM%9C|(MKosXkLje>v(GEOgZ
zy{!uxk;Gr8tZ{5d2LNEq0!sMPi@XT}lTc__licVe%@Od*S})0c$cj5v6gz76xr7`~
z#_Wi;l0za-R~|XBk5k`e_{uyto_Y&88GWJ(ef?%E+c&GIP1JCAW?*veQFQ*s7Er~<
zKGlqYjPXHzM!VlM;SZ&8!BB(JW0#i=1x=Bd(<<lCx4=7bKXjpm-c#i=JYR(bz#0J)
z^M;UJN5(?ssf{K8Q-12FsdH>0D5K8e$_$lzkgT8W`^1edyua@&j~rrhEwPB4MvZz6
zygyHDC@-C9t+|G7AxJs7ZkP9z_LAIyI$c*~I!3MtfjXvMkkDi6m49ENa@k@@Q50_C
zzPDPebLh+M@EdOr5r)4n_4!7!7U9t0%v47gcqoO*RmQ)akD@J5>9x^|T>-+g&;`~B
z(Eb;H-y+53b~oiNtr_@S#&qZ>#j#hMKZv0NMH=?5I$osO(vG*dv8eG&o9~UstWJ;W
zdFLLkKO!C1r<<k*es)FrF|NVu@?OO=&<JnfB!_;;bi9>gZEcq0TK+d$1h4EA`~t)z
z^4aB?b^|>n+oGpZITORhl1Ond9Nom75|8Xt-U&^d3ChS->YWZ>In%1k9LX_Ko;Bk?
z|I!wsxcNpyHNk)Pu9L!Z<1c^$>Vg+$Qm~1HR_9~J^M*{j$IeC)V9Q2cJSBe}-#VUx
z81N649%T~M6|WoEpj!%G_S)(^m(eP&a+bmB9SZce9*7refgpBZFQIyU?Yqt8NkB_k
zxgYDZ>*=IiRt=54q0enw966g{N(XYU_X?WyiqM=d*ZSVg_Rjx%#n$D?*+3d08*jj(
zEMzOp;EEablf%-Qy8L<8g1k=DsWb%<f`B^n&{H@hm^F;D<=Mq!!>Tiq?zLM3Jcyzx
zTt?l4hpxf66Twv#W-*6zd`1WP%EWAzZs~-GEto=Q`fOPWZCUDCfg-x#500xRbmRK#
z^DT|1Ji0h(aKdwXqr;G3L8JN>G9jZ=H5Z#1)Xk@r+c*KwP%9@RV-B9J7Jrfnr%r|j
zLfNP>%WJLO@Bd7ZHt&SkkvR)jF1hVq$1Hq&>u9)g=Ax3)*{9L#)-jLCnaNj(S&fVF
z_tMUDai4C;T<W>z-2O2!|2E?_A?!sUCPKhXKQSrRZoE767LV0p&h9R9IW6AjPSfip
z2%qlVTZstL^9>6EAV_t|o8O}0AhqD}fv!35m~pte4mHZ(f)N>6&LQmy2Xd|Nbr~)W
zj7X!noanP2`bTso+T~`j+$YFJoxewlEu9nebsJrqMx*4ME^P0@KgDu<&R6qV;T=C>
zQTa|+qjFAca<c<SUn(jf=t1&_$KdU_Mz7n~bBl{znKw2uJWjoK0i!RD43S}^cKb(C
zqdl2E&%cIm5Y1EsO4iU(&V{$Chwhq<k)9#pnTaeLRr2VWF8e9MrMiJNPPuwilwann
z*`1>@rA|xz-+kKTb_-{W<fQdVjRL4%Wk=><SqCf1UMhoXOri7K=ZR0K-nmRZ&ko29
z1>-8&Yb%}!gCP8hx$bYH+$H*FIvkC|QR6Sn7*UEYEsa+ZXS4_Vu%=95B*=4x!hqH#
zZ_6=N=pazh`bN#mJf*9wECgE~BIZ_W97T2s9a7Ut;1~S?1RU#A-Ja@S^frtNf2Lf^
zuPC~o{e7CN!RC9ror*5t3Dn;J7ndXTDVl!*oX`s=wXUhg<uOep?%vi9AOQz$I@m!P
zeU@MJjl*?|n1U6izI%x(U{u$F?!`jm3b<EqSg$kj<K<4PLwCj|PY>U3uu*9qo!1ro
z_NZJ~s;Y*McSV!9E-|y@vW{Pa!v}j2g*V!7T(<JgGsf;#A<}jrs>U)%RZQZf1s$mH
zEC42Z-p&#g>e85s;1}mR&e(meuZ4DP#NWhuCfQ=+-7J0gY~99vuNdj>THZ$S)uI!S
zmMrm9hS(dHxfO7y@tf&ut!y|0aZQY5TJGf{1rJw)PPW5+?mqWy#KSi}%JmF$Y&LA=
ztn~S_u<N)H06xdC84{r?W`HSz@bSpb-WPzcSwwXVPv%NK!6|nuWNF&f?ll}Snm5Wm
zi}p<u@0>*2NtOX65;B{jP}>~TH{sWMOWrtbva&<(1YvjA2$^Tt_jq))ca>w@OU*fV
zE*<sOVo<*}%(twkcFn$<<udp^)3(lSP2zKufW>5<x>frgI$bDjK4UQ3DEW)(TEn)2
zxEHK^#Ai8F56xJDhSJrPKa8qFzKVioz7k2CO`X`xGSnZhs<OYj0M50%*WEkRd4uLy
zB9&M0nv0!^WC6n#NB`69`&BECY9y9X(F2#4p~xYN)cBN`{OQ8ANrk9S_S43zX;O7h
z8%)7Hb!n@GuD1wgm&PE@4Qs^n^Gki#96iSw?4&j@O9RAQDG77zT#qPWU2*MNRMWqi
zc%A^k$)hVMqv-RUfB6j{m;sp976eAE@S?ZLamWA-m?P)?-jT!Om?m2}NUYFzpAyEA
z)BZjxJkQ_!EZa8(AU&I9$1*kQa-|E<W1?|5mADiR*%mYR&vKO_j^QbFn8v%T>f+#M
zWOP!8Lb*wX#%;F_o<>*qww}y$nD@LZCj&RN;bC|?q3S;fRxZC3YQNJ55c&W}`?<=A
zE8)!`*x6SzkMxebu5gD+r!*^rD!&I!zxkx?lVLD;X%%lNx%YDT+ddX>7A(-Y*ga`?
zRTQioaJ~#BsYTmW|C&m7BRw#4C5gXcZM!;3?LJ{?VyhBh)^zJ%|B%p^WTZ`5vr?;9
zUR>nN3^iMgesJ%HCb7GjhaM75P7>`M?trC_-50CcTinauarwT2XWQIfm10rNeU>za
zC&TCC<2_hgg|SZBvq7Gw0y<h+kz=%@#Wxaik;P{jM?hmKK4yao`Q8`N0a<sgo4SW^
zlC{XSpfN8sp_y{DkJtUF0GN*}WGbK#3O!+@8BkSVmE|Kaw!{C<$8{>L*GE|bhFxFt
zhA%`q8cAoYHOj~&3XV6_ReQtDE`3p{od=X=I;%)xvq>1TnH8YqNTAr_&=b-bT1~2U
zUK((Ai1P@NjEV`2U=mzi7sw2ir2{>7&_7p(6t;H|<Gutka=6#1spmgXKwoU%axCJA
zqc<vEi7n2vh(xgIRI`vl&?Ern)5%|CwMgLeMlimBx;7EUzstU<k$1-Qa}zb&37FXc
z?byYkG?#saQj9+8MrP4+HIRvat{K<5BY%f4T$I1dHe9OIuQzy&Wik1I?-axNt!%u^
z!&`2RkGFHk)Q9qIzk6l`dh(7{^wW257X?%_BS?qAZdu7RRVymY5|qj7o6Gfr-^s>n
z<nyXN12250zyC3am2dGKL##=<ba@uJo+-ebd(w0<=mf7>e;2_7vnoXsgP%w7f8*PJ
zyJ&LjV-M+#&&|l@>)7tLO&2qo*{!t)69s|Ub2>1sjovsRr@n`#3tt}=7~g6YiM1Ta
zb8xrYx&`j+d*gFsWB$Gjw_`Yr>6=cr9L>us9xjj#?{T?slr^$=@KqG75>c#!r45ET
zn52P})#FK5a>nNSTC_K&`x8A^qw{Ob78RQs8$fv($QW5B5avyYS<`X(=O{;&t9+dB
z@88$~yryWwa^X;#x`lkbrvtsPM?djBTTBtNPvL~rnfW&^81)7L`Pt#~Usl2<OEPq+
zWRL$24}q1QIv?7&r<xo|cy4^1B2-qm5&vhj0PK_E8>%=}W(oDA{6!t0bj>Iy^nQm4
zgs$*EEq|Fnd$x^_68!aNTCG$pvEHHXtd1)->+e6|Vj%IJ5|QeExF|)8s%gT|O~H=9
zzYT*;Kvqf-Y5dM2skkB9d=5-S9RdI&umi$2t;oU$u+^N#lp9sSBiJquSwuRYHLLu2
z_`b4`HKW9pDm7ej;3%LiXH;(e$;~}TaSy#l1$&gur=5b~eUZf{HF;dcQ~obr23`cx
zYNp6!Z_0mg4_Eop9y^W{asH;px()a*Jmy%+P#RCaICz2kQOdl+Ef;{D-p4p`ZGXXH
z>B$+~L;56@pBdb3<B+!pMf+JZARERnE}`1W#|UFXE1uJj@d1?v|1K=V)>DzV^Wy6@
z8^8bO3)rZuj{FVcwH=}YcQ7rDPM3KbLrDw2A*I=)Zl`{_^-w4aS6*eeSL$#6(1I&v
z(Z6Z$ir=VV@q7zx=EF740H59CA;re8`o{iIyO0aC2~2I9_`#se6SDs^f(VS))=K5g
z&$1@B18~~|4~PS}gR4}sK*z|GG(cLaCUAdwykB7>KlN`q`;<m#4(9F;mj!q*>*o3}
zc@M9gS2Q~?EbyzA5Vz4PIZpM6q44>aX99#LlY!3zWw|J->xfxZN$d}r`SNY)<G+{T
z*HXonD57R>YYB}9_RI3_@8YkiD;81+?XSJ!?nzz%%f#>#Gj>;66j-K2sMA@<>&wLn
zT5S9Ku2?qm=0Da94fs_g=1QXR{m)jKHZYZngaENNL*$k)neDuZy;Ap{c7LG#^?pb0
zvSH7xb4v_3fCc<Q1r9cm@rQcK=trG)=z6Ap+4<`4?LWE@Oj$&p>V<N0FUqc$-#>zc
zK0n&?Cp)E$l`5(ruH@ld!kV1p(`Fj7BE^27l09>9L8fAXH=PZeDLXo)Ntu4;r*a+q
z_`Aidj%)E_i#psHudP>f^IX8(=f`?*rx$f@xDoC@-gbu4g*x;(nO0eK+U_5@$v;U6
zG-7^+uD?{I?VV!&8yY+gs4+j1PlKzp@+X~*LjSy>OgZHG{+*#07y;gfH79S(&-6A{
zoa*_1QHnn`n=7Pom$5BB6T2I5qv#*r?fy+t7aP6zhxk3+1MOcY$!rk@#<YEP4jtid
zgdRA}v1?THfpQ&KInjQXP2Xgon?!tGr18nm{XWf<DRXd9xMDZRyz8CrSe`Z)%8&mu
z>EJDuPJ&ZK!fvW-q@HW(#u1T9)v?r5avu->@g_igKckQo6^hWa0D(CE?Y7C;-_iqg
z7w*Pa`*fEvh95pyhw-TB)bcI~m(eedR!8>le8Qu6P`)KVy<1*ou>)VX1yGG#{`Y`M
zET@p>(9fql<6Wce-=1rwt`hzCEk`djC~C`}yN-CbZQ%FshCnFmgc|us1s{8!(Qxjt
zdDEN_pwrfAjX<iDYOe>B{3S5+Wzlgjey_C`^|fCZJHV4O23n_fS!VqIK1u(=W~Yoo
z?Nuc{j^K(CS<aMcXRbVazYrgjJ1o}FRSpo<UdAbjvHV-{exBk*z>ln$UqD~#{x8}T
zi=hIDT;)KI%*W%#q8BgbL_IEKG^n)?@G9YKg&*BH{)T<%Z_>!mbqx*VX*@)Bq3vW7
zW+;Cr{h#I}fcbaocL!ISJ{8bE!MIgNvuXT6D`CMQwcOGZLf2XKbB152D*oQVpC+R*
zh+(2QasAMh1OUgWpuYB>jgr;M=FMSiSxD^*;^o0nr=$g=+^OrB2flh`o!;N?zr_qS
z;cXN;7h6dY{Qh+%y~-cjA6j>=(e&5Au{2c2^jvA#v(-xbdmv}ZRm`L8_<I(rsow6Z
zRyy;<Z*FR+tROI5`e5IYpWOtFyUY^~e;7T*vSWh4;aL5vgM}xL1@uZiN?^dXBj?3w
ziN7ef{xlH4bBgOnr*bll)@9G_kG5|)f$v;SPTU9di1nDD87oID%%sLm7&Sjtix}sD
zmu(hQ4u#kk;G=?Bu<RM?NHR-NGUzIXux0sJZhO>;<iA=r72uYB^!K80B~knS9cEgR
zPe5$XzHK=AFUCM9lyRuS+3xdGGOIj{M%xl=-*zSx=%X2m52?NJfSq(4A$I@l3^jUe
z%jX4D-ZFp3we2KN)%t?#%EBj~OE{ngWY?)K3Ig2ZJxUk0-x83`ew#5B&GG==19^1n
zB&EwgD)Y-FP*T4%<KmS65|1yvj<}nhm&3Bo?=({L{&A;~BbmPM6D0q>3+i2`v$inZ
zz%n$zpyKn~>{4L`V>*X3p5v4Q!iB?}&V};<&WGSZZ}*_yVRHTWTCV39lL0Cyg<MLV
z9jyWAKwY&tbN-;Kw%?xG77r~vV$ay}D`E_+TU>kERV!;dw)OdViqMR0!u84#!H557
z=ad{J0SHFc$vwn7w>rc3k1u(CT)d6@J*!i~p`D?h?$^|It=)A*j3+=pyV%S_ivZAG
z{%qNhMzBRH8DG{2f;=AunkoW38*iY!(qR6OJ$*5J4Smkzu~rdAeJo9}X2}cBfnk6p
zzAlwX_CYe$>K93_*0l8uQGWN$$3AuDeDaHslV~;?6C3LC_p6&7-SQneIb*8hEeFP+
zrMc;490=02q{!1<iKd)qZ4*%9?HqgV(PD86-HdwIh|6R;_;81$jrC9>suq$oODf}L
zG@Dwu@}%1E41?l<9>AaTyr8J14*FRHUj{8&|Do{|RCms2PPBdqXLI_H>OH)E(;}`>
z!(K-USHybuN6O_6b#NNf=X{`jO{1l>h@K9K8t?MBA=0#)G}<s9c{*naoX-z0tpvD2
z(1s)%b;4O|N$Azi-87UmobaOif%EsJ?#Ci@&YA_KmhCqnPLZJX#$fu23>POW&y4T3
z<Q5~=Zbzr&c<=6N`=a<F+??)|b{hexr6i^@8)(P!b~3(N$dqr*_*h(G7nC+bUG`C=
z4I1};)i7V$EEn~D;S13g_qv4*z0Gv%Gi~r-7*GCPqnWluGIN(qXVT3Q9BQpq2x>Y^
zbZN#dV|-w@rbq?E4oXRSQB!@3Ds^L@OII}@r!RQ9OP>Skp`myj5+^wxXf+<ZSMQ8{
zT`lT366v<D-higag~|q}W*VjM9rdFCH0PghegoHvRUyx4$Q;a|q>{d|A9h)cLA_pq
z0JMA=d<di<Pzlyi&@ifM8gL!{%TsHxr#}z`JquJnWR_-oA)B~YYWT}(XnQR!70PT%
zv|dC*P>|6+7NDnwJ(-smZ^YG7Ga&M+D=$f*?%eW7LcMr<(G%H0Kre18UG=zUlgk>E
z;hMH}y!=k&*9g0PhJ3!;`tXz0Ll&@*oNl$r0_`}p=JcEQ$<}~%H<1%^tpcC9Wut`C
z(Y}#lb!J{)*v0k!NdG0dp_Y&GJ;P&FdHJUPx9J@3mA{)6dn$EK<6+JvIdWxiYwVnc
zvT*nUVbddLvas>xSUzD#MFySlxIV!Bap$YfWa;wJ9i@dgl9#aD<K2*)D%qNG-ud-K
zH<J0HCGO=%FZfg0#W1k(0#LYPR}H6JJ297*d}ebebK}~J%ew6FogJmLXZBB5^)q~l
z$<g-rl*QE53;69l^<DIIZm8n0*(c{_AblHCPg+%^QCk|-c%%86E%t%su_g(qJ+`TK
zL9|D%<N~tsYfB^^qi=@D2-@PS=DZq_L8v97${mZUKNi)@@y`#J=i*1I#UhALI=Ev^
zsh;m=_rv7BRUqSidfyD5WX<F`5Kj2rR>Y7S75kY2rB-|Y>hg+)b!98I0mRx$opd%w
z*b^Xk-^y8g04lAh@p;0&^x?LnFG-Q~;QL9ljmYuD?`oY$$jbTy64EL@C5*H8v6qCd
z`kiwxvB=}1G_SjS-BWe$6keb52i4CSdS%qG617^d7Ms%?yO3D4oSqo!Ok*Mq@XyDi
zOw+#^`tK4nqbg6UzAvaU*%`AAaP6_=;q}6kbewKV$Ia}f*L?D+*HnU~<%f;71HFSl
z^=@m+-$xfy=oj@80+f3oK&#fkTPx<;ogdO;!oB!o^e`62s{#O3UcaIhk!M~eq9Z8o
z?{Z6mNqT;*A-}8t-9y{LJ1hMFcU0;Nip7UsLR}!qc82;y5zxC?@yHuowLB(bmps-&
z?w5F~Hw0o6=&eMgRN^*^)!oAUEx;ehO+%8wvYlsEIlezqXJjA5=Wc8~%2hFrkXM4Y
zs!pE$r49k>8EwQP&<4BW+cFo{cPCmPK;;>odO{Dg#>6E9v-gw9cDAVncqv^>C4~A%
z@M3?TGR90gnQxUCUi}X>{Q_40L=9*CVKM{*7BT)Hmr5`qCI%J1W4?gl0=-M$8Zj_N
z`b9vj;>p&Nf$k2^;>LKe@i+>KU+xe=#>j8+&ZdhXWqY163%o%tlZXwto-C!eB&P%6
zKy04k!g$yP|4Tc|sT7j?(cnLJmYfFKHiYntr0sn2t=+2Uvp<~Z#RH<Omom?im=s2{
zxUSL!)P=&yRT7ve3&f)#<J-_S*tq$GGLA`pp42I*Bc5Ht@HC8@tO`tJPt&XHCf`ZK
ztvlItlc^YK6DD=$I*YKfhQ0ZuCR-g$o&pc)q1}7CT)B&13vG5AaW7*<jWV8?iq_>u
z3Z&+UV)IDS!{pA%Zb?MxhOnaxnJ`NRnSg4%!Kh`t#*z5a;v&asYOITVW#x{Cj&aK7
z_v>W)jY4HVV_C)9S*ygo*Nqc6<*Vj;e0Xf}i>^+U_I0H14s(@Jh4gwoy5bGFCmtY?
zEC?3w)N|QBNhfMl>T~1$SxI|W2FWcRtI;35J~tnxxg8u;XE#fi-)#sLSGMtoj!ya?
zrm47<!}zS9G|IC)278kgP~-!r7&p!6UX)Nq0=T}dX2xinU$?F)k(`j>5+urJx}B}b
z74vLxwr1B>kjjx2r?c3+RA?ah7`gR~OtmI0%*Fp~pse;hGhA&7^Y_oGmjd`9^Gjc=
z5;cIj?@xL-9&~J1R9ND5vgzT=l8Q>&Ag8f9$)j5%p4}Ix#Rwfr>d9Bz57Tov3FsG%
zB%rOj?x?Rt<j#CfVnjzACOZV6{j(86{=beFFdZU64kKc}4Thoy$PM@#5I?;J08)Tb
z&yuEibx!f#I~;DdwR2U{WdoEA+Kd(&VWjH28m75>c273#^?e$_aF>&5W!h*a2Q{L0
zy_)aDC!C!b(!2iH{S*fO8h#lv^F2*5fl6dd12#4_I=Bwt9#;JK;J6ATRoWJHg0kZ_
zxKH9pjvRQe-96{b&dLA;g8%Et2fBB&BfhFBM%k%~xG0suGN7sP+I4QQ^~(BqmG^j#
z4!IFdV_FoPu@XJwBB1DVqu^N%%n+nljUPia$N9H{pMJ&_IfE1Dw<bg#fv%*0AGN~{
z9xUOVy2_u~*3l@*+neN|a=y1Cb(cU779&AD2B>*QF4sGPPaZFLJ%eW)(aXL8wR?yk
zg96CooDTS!Yk(0BD5Y8e{a+GS6LZG}jBn&{fV0bk{gLHpoW4XjH~Ngi!q98wFK8#&
z+<1ikRiq2uCtH~1n;f~_hBh(2shRp+n~46B*%&Vbr>m2d6@h3CYVnKNlk-OS3=Ve*
zAF^``x=<e?nJ3{xFu_%{bKdNtR!o;$o5={Sw2F}%@L&CI!IKeK1~*NC_{zLEGFpS#
z8}Ia<AGqjo2718ZF9JaDiaWViwpuBq_Fy3JGosv}&D$FK0?;)0BCXzYlB=t_=eL%z
zdJ?OIXpJ>)B4ggxFi=b%1@q6+KO{FLGU=hc!pAN*S2moTrQh`>ZA;i^=YM^L>>Smj
z$T1o|PhtvkZ*BYR-<gAl0F?K0;^DcdY7|0e_>KiDm^WZ=`5Q`=Swm<7H`w(?yp$QW
zi<1ZvuWFB!7y>XSZwD_vBVNeJ`;^x)92)>#%C{<;_2lZhrfaQNW>_+n$!r=UWP378
zwK-V`sGQaZUT4&ysnS0`58&k1hlmecxrumdRu0`xDT3U+L4_}~mva>3k<d?H>3U6R
zx`BjUE_^cJA!`zfv-e?u1kiNP&T@~pm(2<1Ib>MBZRa#CKBLI8UA4Z$clqrI(BPc1
zYR;N6gp8aumB|YlPLwC}3Ho5okYQs+C562K#NA=5T*;D{A}0%=g}}9(L#FLSp{}6x
z?vr6hJTZUwQ?Rr_mi0Nbk2Y@1rU@nlS>)yh+#EBmZpIfWGbk`Q8s$=eO%G}iJn=~U
zE&IulSXa?^>*PwwIh~CFBY>4L-<$Q!^#lA|R^7stMbpHzcg#cC6@@diw%zIY;f{=y
z;)Y%S)h6b#6bWY|uV6FDx=_WaQj7OvdzT(${H|0!5o!F3dL8s(7vC{v<#YgUA*W_j
zHk1T1NTJB3N+S$))c&lSVLBJ*-YgH&&A$r<+R@>*)#oLoE_`Mwykrxwi*%T*lrs*{
z-`i-uhC6xG)5QG&olLPRqCV}sF*?DeB96_nTR-Icn?asi{y+A3UyE(0N9W}4-nu!E
zT<P)U)e#)f*kJUcf2e`~c)|T|obKc6K>zO5Z=1UK`Ggd#K`k~r@FB-YNum8GHRKY|
zSYDgbi-3hF157K>PJgk9Y#H-zE)iL7d7_`+>}n34Oy$MTy^gjYw0rx^NJUn@Z#Rv@
zn4SOIqvH}zxKdYU42W6nX|*=Ml5v_yV_*27$7~f121+#KetP@6?QfH}l>GdWV|VSa
zSfK6X8YLnC^&~ACQ$GYi#P~XWE2XD|r6#d~suaT-J#k67hdx^Baem|m@g&Q9y-Hu$
zN)Z&G?9_YOi@8eLkpPgSMRyiW35M%<Uv;jHd>;HA^AXjMg|Nq})t3W2I!{<!r)jCr
z-5YDcK;Q$nj29`gx5<v&%EjpLgzsns`d64Pf4hmUC~#2q>YXXzvwy!O@MN&GTMO-T
z?*0>r1zDteL-)t7jR-jsKt<EAHy*}+Eljv2zh^AJbi~?-ePS<KhMilX>^;{N!Qkc4
z#;&y8@uWx=p-)FN)7H6*%!qqI@q&g|@Qf#~)rf1|bDsP-G!aDgzUN{s^{L-5XB#(F
zX)x)vic2c)7o5r^dDM;mpC|#qrxmF0lLD@P_R1i$vpLN$%}j@B`L{(OekJWpUC->F
zUllZ-p-;Box*4u>KH^QVKgWGEL2gqqV6npgGN#y82xp4m$4ZrDG2AWb>z$4m5DoW$
zB?z6I{j#@$0~+<3F0cJKAN9;x8dcm8p=2o#yhA3}3)GQ&MaYdfoqlyGqrP77#15BX
zRL9^zsmtkcl#kuq%P63`dI+W$u4AQi9~1-~C=X8?M<n|^`M&;6nQdW}^<z@br?Xc)
z#}Db#Xm1aWq2BMw_8!YA@2xVTHH+z|;#&te#c7N0h>GSaS#U{V7Y8B7t%t`skJHkF
zt8<AXhz^b|7s&V8xAHO&g2xR9W2!7wc2Cy&+{kq`pZQ9g7XN;ez1Lo4Re8p1Jy|hM
zMq^tUm>wUsaV02m^cI{)aL9Zkc$$8ik7*Mp<P6792Fa}HAJy#6b@th`-+tCZkxEq*
zJT@SF^;Etmb2Qms)h?&COSon$Z0Afa#RF!MTr0H!p=n6p$L{}tqQq+*W98Q0pEYi<
z@d>XpZz$P`Kt;g~vM&?110O><H+MD$UxOhVtYU@a1V!|%&-1q_n@TSTr3+WwTJ6&6
zsG6QR2<R2w9*a<4Y#%tBvn6O;=@e%7k;qb*7oU8Fttcv3Lgj!r84}Vm-{2qIo%(p-
z;xDK23+DAekO9brUe0en2&H!rC)ej_)Kj0`K^=O*uI{*D(Z=)~roqBOZCL5zI92!~
zxM*8bom@xNhyWHJqP7C+ss#Gi&iLR=gXJxgYG(_X_3nxD+3_qYb^Dlc1x`ZlF*vS$
z#FI&RYjsWblHlsXdzc^0J?CSbr&XD*(6lzYSQ=+i85;O%&ET;%5YslVSZO^i*4|s@
zy-bg58bl@^LHkYPvNZrMBKxT8YoNz*l6e3`T~sf=++{!VT)0Vb2%t11@nbGtiBA7N
zbp3fe)cgPckC##zp@kHoa!M$&htP6R)|eS<wz4ypEQ2wGv?#R6PRL;F%h<-QP_`KR
z*!OiN>)3rC&(7(b^Ll@NzkfP$xtz;6o}Tk~+?U(!dfTfe&2E)yJSaZza73MJh^x3^
zP%UW|(!z=Nre+hZ1)5AJau(mt71!t6%3V5!*wXxRVQ?$SE)Ja964@gx(bzLbY~@!5
zuDAsYDQYwJNOcn=)g8~ER_x0*b>|Cku;*Vf$}5A=?i#bQvMJ(+K=))T3+HQKpZ88U
zYUTk`Qc1H-mTbpWR4rx3I%-lPBZ-o>C+w0r6B`f%vzx(AAr+k*?&>)J22#tG(~RN!
z`Hb*-^4#8)*9;S@H!^S%sVDY`aYl#CTGb7gj<5<n=%HN$72(RlRDG<eUiNMJy}gAT
z;Y;B9Sc?6~hV1h`kOwM-4aFx@zdrd5Q$Vw@w82<4_V*g|rqA(V>3?UOYsj0oqM71U
z?m#m<P@bRS&?ZU5IejyZ{5=cU_RPwJMTWouSYUzWO`3Z3)y&#c^lB7&XY}1>IUiTB
zZu3yL|DoRbx_{SzCYKzilh9Z@)EpAo-a*!4`&70SIbh6o!W;fcKx|CFdQ48?bkE~Z
zenfIBX@Hg$o;@@<5Zp`AD=G*sE_yHLW_jn8RAwrjhnz8oRn!S_<J0_>!*}m2*6dc|
zjEbavuK#?=Go=Rvz<L9QdxT-)7*><F)&O|&3RFCLxsPl^&d?fq#xHVvnZBerW8v$o
zmO#rg4=$#@ZzzF{x)`1lUQ2F0&$*B-%W;L*{O~B4mS?Lz(bF+dB=BrN{7gE#BtvFu
zs>mS?lSh?m57L?=CX(KqOD}qlTj#?1@)0+B`VvTfcq-_l$<?7pi(U=ISc~1k3*bZ1
zTB(!-(kvMWZ1Tlqkqk^VGnmgXyQ|bQ_RvP8%O2*-QprPf?8HNe0*5){dW@lSQGV??
z%GY<4o4c4#CoXPx{-K*0lo=Hnk8q#wG2@i9e<7cD+cr)A{*L|5=4zV=K?{%I&-|^q
z|1~Flb91}WqT$CiSKuxQ_|K3CDhR-rfC2Nas1H8QAT0a&8L(OYk;k^BygwIAxY#kK
znvKy19tOz0y5ny-n{~54nq7+UfpuZQh}D=(w375m*y9Otvj?0K1I2I|XF65<(pr1`
za?(zXq&#P?c!p;@S%p>Tv<qcik@HcXX#4%V7rsq7D)41pRIW$Zm}@5e+cAR_Lh1$G
z&=BN2b#P(+xiLyDY_?`I{X{IC9RyVRh=Yr0PU&8m$v(t-G$t+d6g`RcDdN*zv$F18
z<J8INyq1$0+K+w?Xc?9%-ntUJAeTkE)Fy(sc-8oc<|Dj8FOZuRJPc&i8&FZ~WHr)p
zIKuL$qU?Na-O5dZ2=X~*WvgdKp!|+h<_HThgLd%HRA%3NIy3Iaz+3f3jAp3AoDp$;
z;a=O$a2;evsLPb~Z?3>1kCiP>8%Qoz3$4{Ds;h@hdvmSLZ(nx^bOW`l&G%*$17Z{|
zk<W(_FSz&CnYu^yOSpBt+(cN>N4TIElLMd!i*bSrMoiHJcdCZDDsq^07?J#~!J&yq
zJ+zPZ!3$>^UvWo-YgF7k{8mh3Tg-F%AhzY_kEI-%`hDR`*8*MU=DIRnx+tLr1lyA6
zNCQl*BS)(1OuIquUt@qbWpp>r0BjmWi?lbhxc_&T_v;A%<plfn5}Yey$T)&f-jWCw
zxEDnc%G}cZdNok5414NJ+R6%$`^U@(m17A;DYvyuBtH9*x>BVnCxj6xm>H-=UG_&N
zA5t?!2_85k!e{X*!CcEXRV~FB)HU$H%P4B&iKBP<uN8NkJO+QF48JJwWGrMT59b?I
zZ%QvzWK!mqen16sz7|19C*`jUSNMOB(ps-^iU~`qO>-3iJ=~y?VX07ADY-#<_h+?s
ztC;OR>avYVywSP*)X50N>S8;Eh!bL{nU|S@bt}Q$KgT1PuIQa<Sx7%dPLVUzd)qPK
z%f+=_R@bzw5RNgn>=L{qFfIp#`Or=4EXdtrl-rBG=lIhRc}`8rXV;67F?uFnem?iO
zb9Msbw9BSf$72+Z$a+^qwos8CvVD@MPd~-VRzXIogwT*2f;0Y8$xc7PKL<7tGDqrV
zy+E=W=XU8XZH<<Xvg|&HYh;qAO)ki)?{67$u(7M9&RA1T2K&X0viu8^D0Aku6v{8l
zI+tYa+`MSR&tRw9S!_oRbxJy}`G&hJ1Y41UGhv7i=~_ujA0P0a-UnUSxO$6!hrE8<
zd^uZ=hn9w1mcKx|pZ_1oQqgnwv)@%}zoIh^-Me1TO3^|J1}2JkJ^}!<)nNSn7N9F$
zCD=>>!z2)0nsruc*cyEU1FDmt5w?DSa-2vh5tNdpotPh^2m=|dYbd3ntMoY->#ZSQ
zXcKXh#JMk}BFK;J(W6>Zmr6hIf3&TB6G0~edk2x(%GYRgoFZ1S^tIQPjPu;n`S0V#
z24|2gcpf_-KL5)`F){7Ki(2U~H@l2X@d8$g3d1gs>RHd(YrqcyznI0qxTcYWb4S}C
z2*u@C8!;=DuQ@P7!$NAo9>y$#{*DD@!{Bg$ZE1MUliu*8Z8)e=M_9<QKfbeH5knrI
z+nEt()afBf5E=@GG+i<`1_BnAZ%&lqI#qkr>pOIcT*E=DZb19EYlqR?oW`F5P>&KK
z3a>QjV3*knpUZgQPYsn_>rM*SCvQFP!vvg)#y6BKY{m!!F+VT>mOBsx*VC(JV#~p%
zr_g&xl4O-kyEDZ@>qw2Dj@7@N%087^v+i>@IZxqIwkT4RgzhTwt70iP!B3_<G1oIi
ztu3iT_U%XVRH<Ek>-eK4wsS>abe!RVVu1~;dYGRbUZ+m!k%)^uEG~&?c&6Ih=|V~4
z4HrM17HzqunCB8gR#WIqOK1X%RM|?Wmx*m(e`|Ee=E1u=_s$)Q*%Yfh+^Lgoys(8x
z*U6kE4|T_0H7s1$NKT9j4fqXnx_OR|eyM}NfS*VUeHHyLlI_<q(I7|H4-s|P_Xi4T
zBirkjt2B3RbaV8}|Ck-z%uWl6!g;Nnb(b`$OikmTCl$K$TMg|jj`A$4vsLu(G?U#+
zqgxERwN1bDzFbZM7>o*De9Q!JMAh*yx5*WjIKF^*eh{0=z4kf$(QR9pqnwL7uT{i*
zGU9O;g@s<LEP<;CYtmiBt;@H9phrOy{n+&t>+~T^kt1}suX64=m#rR!7=<onkA}?J
ze(IK-2z*%M2xE<-%^oC)S}YFQ43BS(ur+6bWe*OoJ-IP7#T)Lm=I%JS_4O!t!;&_G
z#gX5&uQ}0<?`f*1r3UHZ1v;}r_LjBI%}<8nHZ*_EhY7!(?Io9=$q-%ZOtrvS(AowR
zLhW^YXmxS%R_+;jkbl@O<0FmPS>UA{jeG;MN~L$Nw<7)WBE6SAtPe(~5jC!u)@xR_
zhRCn5vNbTxMtQC&q?@@a6erjk;pL}L;pI|QpG^m6gY{*1QvA&a?YxRs%OJCx?T~0y
zDcBvs?z&^0^j_EAVp`K-6aa!g|NXL9DzvPFY%Vi9>kjtzVdBWkh&R-EjonWTU@+0V
zg}GxU6)3^8?)8y?F-=`I>cotdJE9HYEdn{XAd5U#GJ#v#Dz<!wI>`SF*siV7ii0C_
z3K0*Pcq{W)wv>1LRTKRA-L;BlaaDZ-d|j(Z6k=$%vdQgsVxPnDRHgOCFJZVK2bqtN
z7l}tjT{L5&r49zs<93^<w+IuBJC&~lbYAoP(bB+I<}#&Wg7&wSXLf&Q{N(W8(jC7H
zNF;)M_xiW-LjSh{<gX5NoNj+$q!*Ww;2m`0zLzzB$lN2%0cR&H9spn>iFWt~wt<)S
z{f{4@z=u3Yd~4VB=)q3J`DXI1u(q<TKIq6f=^9nx>S(RHV8EKOIa4R8lkt;MDO8qf
zC?TO74#-D_dPn&B&IfSjdCqLt&BP_&)GDibdp5<3&RRI8`??Ilyv&ac|F^GVpflGW
zIS1%v7bX#o4eI0pZVm_7))z*KM4C=bMM)M?Ep?{#Te>$}SsA;4@pX5Z4zN$L=3&;i
zhaHJsZ#vCaJT9k93hwG#KI?!1GX?j?++5@j)`KKj+7ER80<@YC80R-<vrM-|`wsRA
zji~5JDQD@H&r@KAVFx<%L+lOYDIY@X592H813W2W3ym`C4`8B$U2>9V(|qs+;7Iu?
zgTJ!YFHH=HrsN(5l_D|nhrxLX@J>v*5Z422Z85vF4Fl;{gI2$U<hNhK9tj)-cB!4D
zAPdlSoIWYA<-9#e(*qRBZ`g`Ri+XwK@BRx8JoH^z!10WAMhO=2m+qoQRjjsx_Bvja
zOvc8yI^oX?*iX6!E#L9`Q;t;o7QF~|&JhA_(nh=rE87MaqFdrKM4b+eDQh#b3LE#+
zyy;={yN;3BB0LM`y7y7!LX`a1_T-%e`=MLEaj{Tc@`CqG<zDvc^~)P+k-tnA|I>v2
zQhJFAJ1x9Dtd}Ed(31)yV13+Ft-j0B*6(EsN{4keEmwv<6M9LJ^RShJJE=0^LtKF%
zz94e)@k4Vp$0~Iai<jng>HEi<F;|MQw#4si6B1XkonJY01<hc+9$U<@gf3$A465Yv
zS>2?5${V=S;dxinGo;bDlprUCfsQ)bS&B#|TNTG+-RG%<zAU-XeVK`kO%~CKWXdyn
zINA{CvRT)(B+B2%b3KCA&k*WLZfVCJPQ(QuCZy;;bqpD~4&sA%eaF$EHUmQU15w}l
zGFy709&2?Lb<`94eO2UuiIfP80rO=-orzm79U8RZD!V_@gTn+kIAciHfu4{gP&%DY
z-255Uwj-;V%E@$1B3rB7SibV!ik=hidK@PG75$c_tFP6$tH@&0AS0d)=1LFa&5^rC
zs<hquOw`rWr%^l`uf4qDbg^SsX?wJrE_ZBalVFcwPi)9W6`c9~k&=k5YML4fcG?*D
zE>oh0OR__x0;^enwkKAN*tCYa;ZU8#<Xwtr?J{?`K-8?Ha`&UD?4mn7TxR%woPYy|
zDm8m>j4U5XIoPZ5vW(nza?M`NC{K1AZ#BbpVjC{;1@ymBK9w`eh|8$<8m6`C;jb;k
zeqbkuyptp`xh?XIE!TBz;?H0Pj8f4Ls)NqyKZUE5+F`7W2n28HWOk}f!tKB-8}r?n
zhEtp=h&1ir)Zxd^_n{#Y>bScfUCGX&5{3Vize`W{75&yb-V^$y@?hvecOOOC#_?GF
zRs-nXBLq|-0H+KX+sc{q^IPIak(En>LBfOQ?pM?Cw>Ya4QfKc5@;=%)bfouX%tQRS
zj~u-}P8{7SNJD<-mMiyZh{Qy*N@^j+kioz!ESHB-WlNp)@W013YmS{@RX=}yo)WSK
z>>utV5rVpsSKI)4crVR8&{KS8G_$_5P!m&l4e7hIW~-N6%v7Ep@a;}#9pc{Hhr+N0
z2q+UORp^W>SXt|4#lx<ZphTUE23EtKce+Yp?E(XUuw@P*2e-(8qzMQE2;>HDXzG^E
zgJ;?w7c@z{Z!Wmqx^TWaJ}2(+kB($Ff%z;LdzW(j4rDNsBi4kPVLL9hy2$7fAY33A
zS<XCNU#XbY>q(@koEM_?0B@EEm6-H%{IxR6FZ4>_u>ly?!Ix@))Ze;Y^?Meu;2Q5>
z2uMrEV#sl9b98U1FYC0PET;n_&ohk)JbDh`MP+HmSC>42Z{u+{gPZzp@*O%;jysc3
zU0kga#GyPQgsdSIejHVVMHxnF7I`Q=?@2T4)I`?##20*zG=}dNz8Y2I2K?T*N3&x_
zfR!p)O2)bKPhr?lKkXsQR|OY%f0=cl7Z82;swjQ$iVvn#COYa+Z|{rk;!y>O`5#IX
z7Yuh57<Ev&#(UAW&`6n8MRxS%TleL9QVjKF$Oa}FHIysZ_rd5;8{_zLun~~8d@QTU
z5xdrGZb0KYicjv8Vhs6uG}n1diBX61)l2~o=f|stlSG4($GJmDljjG~T^aggbNZj}
z)&)$GiyVtq=eoD*%>EG)0!<$z-ZzPt(tLH3`_ypPzw?&A&btQv{q!Et<Scrl=N2Rp
zU--Jr0k(_c`64uQp8ngyUwZY~Z&4FLJwxT>U;EQ1WHK2{CsyTN(+R=+F8`dAeNz{L
zi-=jft2^aWT9k2`1V<789;O=d$BBPUK1HwELN#cPlPA7~Mk{G}{ic@~4put&lNlnX
zfgvC$Md6F}C3muoCmup?EYzXfL$DoV^T@@9TavP)_#FV}oiAvlZZ+)mJ0Y%`-29F)
zgry8%mi#2wvzR4;TL`n;uha#+M2_r3g>;^q_F1w^`!L|nt$5TYU5>SYhuv_zsk(4R
ze`P~{$=BxaVPco?BUnqaL>8cwr_0wDY|iMBW-rEA@c{f|{jK<<+Xk@DHil*bp7K6Q
z2bK?=aC0ztMQ8mumfMq7^I&!G@^~^;)nIHoVo)ns3>Y`Snm8kEJ;@oatquB|L2B6R
z%JK@rOcd<7z?amV&x2y+hMO7(H9|wi92$Iq|3PgiTS~}w_PQMgA_^_!R3){9HG`$D
z*ed+G%lZHp)=U-K8u!AR+v|C!ugNK+tx{e)Ma`=~3cd3qosf1SX0UeJ@2JBxtzM*=
z=A#6=ERd7(#Np8MAouQ_8}42K(-o3=wKvBmyDe5{JJ*`TT6^f(ADA{rN#x78&FW3H
z#4da^bjVG(^L$d^6n%vJ`tSkb=4^T<xGr^y9E|Mx3et?+do9+!vYY4`R1^H^caZ1c
z+S`=}^2TmiwZzzT8)GtELcv}*cXM@){8pLU2D`OJFui|8HY>g>0!)E_a<$-tYzLji
zL~-(D7KQB}%(C;>(si@rmW5{X<@UCh7r^qd1-@T}=Zfs#+kiLs_G`3e1F_v)z;ge8
zHv~^^R<I5y{CaamuYPh;%;&f`KQ0+IpK3Xgshw8C5Sj+liAvNC3pgRq9~=T3p7t4a
zOM@q*LRT}i0B=b&eMtw0nOyW@!6zoGXuezvMGK#?(LJKnS&T3e%A9I!h_G2jUX(%-
z+gHNPb`Te-z|h(QI{YZyF{ZhbUAR`@U1E!UlUVdlN6&;%?xRJDSd=KAT&VAMrh5z1
z>0CsVkfdK;fyvLfAnvNRrlRPhPDo4jC~vR?>y|lH4<}&zy00gXs!5b;9#GPNRisz%
z+-0}&g46G@7QWBz6D^(IN`4ZHPqi_WeEB+|Dyk;Zt3F_-6}VmM28X@@M~kTqvX(I}
zr6T++0MOOU8kg0tVy3cA&h|a6FjDhtdhMOEGBAx%k(;6^gN2x{Mll#1L2e^8Y8WkQ
zvCvIelt>#tfO-($(n9@VIy8Unh%v9iJj)r;FU$(tPIKMa@jDw+@r7o!ho*AbuNs*1
z_-^OM`fSd$h@^-dP+&bBEoK$MboTlW`K@^|zCUq`^&wn#uh@lKs_tTlLV7t>Ei!Xg
zh&yZK1+rtMgw(NQjLw^xXPgc>uY^i3Zyv?8_Lqmf8)d;+Sh<M}kYmw<Gf%TBb~o*Y
z<kX`jn~kxnNV}nma`5jv5*>vC6vD6QKjc+<eJyzB8(;kOTS5!1adKqVbrthsQ1iom
z!3ik&mef9fQv9k(g?H4>K)~iU^m@$=5R3TxrwZrtcjmGyW6mY|e*gmwXO`R+mHl=9
zWF|aL0Bk9%NJhtZhJStUoG^n^_W!(ZKqAcl32zm38-ZLjuK4tl|Fg@3S1=quFI$I}
z>AhR$kT11YMb!f~R6d&|j)(>Zi&x-dOTsF^-VqpN8}6SIm0msRi>LGZ5#(?7GCtO$
zb$&MO)1-bZzHfR<mdsM#7lD6mv=JYLQ*rR>E|s`!2XO(5&Ki=_Le{%c3u<A@n=#t0
ztOsAAO<)HF-bl|>3u%Pi4AeuKX;B@3{%ii{rHL5WYZxJ|^b=kY??3eQux_Z-XVPE=
zP%$RU57Yyv3;|#z^@w+)Z^u%~<y{T1a5ib=BAl%h;?!9LCCf}b-)RsE$g#U<7+s^L
zDZlYK*17IXTa|8^6@oyh=f+$aG&9-C0%OT;6JG*lfJi?7{Ost#Mu)ORCHM=qTS+H1
zZ?u7<#60}L<9p8p%&~hrH1`fI<z&MVb+ckd;j(M4LCtjZ+j|`Z&t=P@atylAVZauS
zQv+97oxZ_N*;FwZmbN<GRy&BH$`$cbHb-9xyJwv&x-(q$`QH1OA3ER_Tj+pmy5R`}
z-pkDz(Q7PnEBEVdMrs26#2%r;g^XtH)YOCbjF#Qh9`Ri_vbw<5IquqP5#HNh;zByz
ztL7&WxYs`a<<>uCncwH*Kle<io@2Sis{efR@8R@6Fr)?o9X<&C5U4(ESdjGUa3z7%
zBpW5RgEB>`NGpz3y4?#33<{z6SPNXcZVkIidx&356pEZHs41T|7!Ul7;z;qbsn4aj
zpch`<@)h_%2ztFLQ~EJY<{>a>iLH3U^3zm?0dhWC;L7Ykr)w&pDfOpSrP|z<ptn`R
zE6yHr<<aFaCPBI+EaXF+ZZGc!x-?7tg%qDN`gx7#cxi9KHwB({=38lEHfK^!RzN4|
zAR<#R^Q3szZ5vnu|NSr>lfYhiaL5*v{ux@nz0~O5iPYV|zf)v+W^Y~E?pU#LY4UDc
zq9PUrEo&BtvI;vZ?<K5%RE5ZITFZ_+JsHEVg!F8Yi|g|0#3S8Xq^BbAIQlIv@1NDD
zPW5k2Cx!YO-JuP6PI1Yu^*oB5wMpPw6USeOlot*>P7@EzLWDJAs+g8g{l#r*wvrw{
zO;bk6KwOI2yb(|>NiCtcUrW`=Grvc>KfUR@w-p~4*osG{TQ0%kKF>PC=nj#4fqTN6
zx9Tq?^Ej^`-Nv-OC*t4VS^U1=cgA0W@SBfep9Mw=rrLB+{S{WP*yz3qe&UzTE}7(j
zpB7yIK(Ou1lgDoMl+y<7Vr9|H+=XpP%Jl^$Om^K_5=b>wac|r*t1V_Ov#8(<+H)*e
zYChpPH%!ilq%PIV8+zj*kj6Z2at`eD53c?cMW;U~4|A7W{BqKLV<H?A9s8tTk=@AL
zt}A1aa2Q>PB3n+yVZh0}#4WqKK8ET@)zSzg+zL3<%Z2VAk+X;SZ*b7bZZ?@a(FV|m
zL%s|l!$bp*BS(ZX!sFa(pD|V3!AGSy>Ak<CKA%&|EQSn(e=S;Wk!@vtGxsAQ;3PL@
zHZ5iJ*{Og>r}(wMpqZ#Gp$fa!MFZ~9Mc-6DTsF%tTMGJiuk~j=k1qf+kZsm~jtm+V
z{#*3DLx32HcRo2cbcBu%|HE4R{UP|BuGHX0XYq;}JL@oT3G$2`7=4!aV7OUo=qOVf
z|BYk;EAYZq@W*^s(T!4S#~cWRu`N-Qija|N@E6QyuV3q%bhuo$)@PU9TQuY|r$(0c
zTr#J<$=A6oblTxD^PfJKPou$Mp<KA_%le5!<l$2z^nhDSM`Bcz_-PM;2gNyipBs!-
zf-1cyz&U>*lem{*Sk&T4v5LpKqwfr-P;yNwef)IxvTmct>O*M~_!Ir$v@xA%3`h5|
z^>0@0Z7EohcSg!tikgW!H`S37WvD*+r3PMgTDsHlll=!`1RSDHAnFS)zdkM8!KM>7
zzuIl0iQZIKZ|$x0^(7G#W-UuY&~3!w0hX<^t`EYxS6V=?ia=?=%eY;dL_WUD+sc>u
zS#=<m-+VycK+rrzg7Gh{TM2Oe09c_K<g5}uf8ak#$tO468L#~o+e6<!bNr`<VF`9B
z>xS%(l~P<}#fI+9P6D_FJ5TQmjLj+@g~4BZmy3A!?qN~?<5xsG*ipBIK8aH5!2RL7
z@H<{)aSL3HIm?ZoPq^GVw7L=%8Pm0sRje;&fzQ|g#@2N!fJOd=1CbN2hx=~ACaB{Y
z9YdgVj}p?B#eZkhu~4sPeb(Mb1RB3yq4E{&EpS(sHH(0Yd#5n?jMycd5mVHue8-`R
zzSlx2@jj)ilmXe&Y^J~re^jPnQCGr`iLp=xcY$0_7F&b%c;DS#)+@3zpWkPI-o?FY
z|KSK6CFYu$e^EO4X>=>FXseB-3Cg5=HaK)FNh_ZQ_p`1qQ|cM<a<qPzQ%4*5*L6}f
zxTrHY^ySm-c0D->r00Og12zpOdkP<gukKl7$?a`<lS{EyJ{a#fAS+pdLe0F_6P6+K
z-^~~M)c?=T{mcKpG06ZFle3sEX+cTI#t57why;6Z;#DYXe-#Ui^$y0kvkJlK3tpb&
zi^7>+0lLOGUW_h`JuR^tAeQo5<;jSNE2l5P;}!O{;etbn{O7PtZ@B{N5rJ3p&g_uN
zJYC>!xz+(zN#@_);qVW~>Vn0t!W=!Bm8IAox}de;aP?{tq$T5_td10&Oas8cLl0rQ
zi>Q<`@L8r<x?YWzrIwLc1;Ac4g5MR#FG1j0VC}vCMmR5MLkzp=YNB_a3oP9%IEuh(
zrf>BstSxORx=1TNIIfM1TQF51l)QQ^M4T5TiKp^lSKea5NrZFyR1@UDgT`(x6h+g$
zq4?y;#7J#Vuj!Y25z5y`Ur`)f2hw$g-zVXAIubvPr=`Sk$Yn7N+!-i!BYcA#R^zgM
zKqJuiNTDegBtuzDl~1x<nvy-r4GbiC+UL4M6hZiyk9hyTB(-0@pPPdxheQ58Ux2hn
zJYB0D&FQ!|$FjK2oELDDoBhb48bqY(EqnoYx?b)>+_1JD5B(>9k{LI+OmN>H(lefV
zEo}jYbQ*es9yk38f;pu&qa=c@uc;+F!P^pdoziH3(6_3D3!%)q-M7+0iJ1f(cPDG)
z?E-zt-?M-|clN+)^JJ$uTrrq8>zvlGqb6c}!8u;0-nKv+#I&+*w!6l|jBRF{rmGvC
z)hU3(o7XVcccpAl2N^(etDy^+O}P*7j*8ECl|xn}rOAU%kt9INUyS!&x|b5v3r;8t
z{E_Yw7b`mwF4(3NiPacPQ{+wQX^Iq!-R<j2e3H;bIkBeybRcC@&^qPZXrxt~jREUC
z9N;%Sgx1e^h2{r?u({!^W4~NUG#xD{eI%Or*rn@e(`D#A7J|HjstTta82>(tN00pY
zzmn>kGIY)O@Sm$5K<$OwTX{L|$K@bm<_A9D>!2QB)mi-B%^w_VL&8NC-8KYw-aPmn
z2XV4O_gai8yyp!p(32cM!_Qh8lwsE_3`b;WW%u4+iu5-JD>r3s&(9}ucI}^E@*i^>
z31r7hmri@K3q3eJ&|R0Rm89l(4P|9+18Q{s(;wfxJK+-LZ?3TYGa!2>kli>ZN5F0N
zGv)>RK6sTHw(M0MjbgX8LmMh0X~;ISYIOKGX_+oA*7LAPk~8%46Hzc;B}js|sHjt+
zP#yHRBEV+;^5;|8+Qu9y&eow-5F`!YsHHn2B<*{1Q^GoTkM&fzgrB_JcU+$uI%lye
zffMSrCWUX-e$mG=)v2nPHWrrOl86;?u0Hfjkl^<jdYA<~3l$2dt^PGb{e2*V0F7V4
zjyFXaU9)uSXdck64>*EX3Aq6vT<q5f`7)?e7uCtrvJq7w{<eb-;l^HRNIc>jnRTG6
zBOG6F3U$Q(V7e7O6<JLP6VyG_@_pUGz)uv(h?z+aZ!#n-yt%{tGVQX|!!JjM0_#J0
zsAMWBB~;7^C-82AdA?U`m;&`ipew%S@Y8;A^lQb>XgXKeDax6eB7;2hmjfPS!4;C!
z7I6C7R;yUSVm-I4iQXGa2FWFeY-72)M_?`A=Ax~=oj?TR9_3J*JGZJwYM<MY^j&%I
zpD&52&&`M*@;U3XK4Rl_s5GDRf)j|sT3FvrT1cQ;8t$1)%J>o9IEY&WRDpSN#w~!A
zDxqFW=g}Wp>~-C88&!dOT;&uBPrf7Y!vl)%idR<dfvB&*vKE^>CZ<<M@7^mkbnpEs
z3+(-7^nPfl?spb=-9Ogy><j<bI(ye(KllHjFdyIjq?U`2&CwPa>KuBwsTqG*_8aeg
zPzMgx9_5nh@LHX<06*9=fv+^*Yt`1I+jn=P9vqpeq7k?XS6Xcs_&SB(X@VR6<l8`(
z!Tw*Tv~D>x(?I~Nd{K^zYdI*rT3~Df<FXleTcc9fMZ&jc^0A|SGsY6&*+1d`vIZ{u
zXnaCBs7}^^;UPL^+_>1ujC!qNLBg(UeeEz42kS{m_~Ae%&=8Fmhs|~<)0Tnx!A`7H
z9M#t$fJi+CJ`bFZWeLcrMzPi#V~ju2To(EWgvTHK=^170X!W3u?N_%dcS)(_ctcS~
z?zAZEd6VRJ!GCrQm~W!8mM6kZ`o6q8xd5suaZi~8KY45EAR(~vhMga^Ox+K!RuM37
zo>mo}^fB`GPY#6L&d}+pO37;GvQ-nvL$L-VcpnV~Gt=mX*6A^|INqs@{NwrEvs!wO
z@0x}yq*yNNh^$&MV_6>nll<Cy$oF@!*#Zc1|Lbr4wRwg9_~jfo9Xcp<JvEB@<sM_2
z#>fFPKAVFf(vuMpRvVxr%kW&DT>DweB70uIQBN%vx!(@_xVRZ1<So?Z%8af1DdZs+
z$+hkKJy01{1e*CsynR|wU&&OQovyLxL>xC!7j~EbLjlH-+6rb0BBi7>cuK@~qbU5c
z!rn%x5oUp~M$%M}P9T6*Lc=We*av@2uV;~BR(($yPO8zU%p4h%i9)-~HwIw>$bvKZ
zXF<VJQE1|`@wJF2;{vVvFwdXahCqpA*NG3~^4(s<IhQ2}4W09g<&dylH&}U4H0YJi
ze>QchW6G)92;JMJ%(D>fgXH5MPHshzDT$I`k3#=l<Hq8jC?$5}d(ujL+o9HHSzBF(
zj=i7=n6nuuPqWcRJ4W)mf{lH-eXnR{;;R}@7`+nb1y0IT9H`LTW;;ZXx$t$3kpk19
zyXal>o2Fo9?B2~T=557#@2aWp*;(I8Z?2``kQ&)dM_M75AFHO2$44=lr+da)iV{dC
zxw(l&jbs9+LX@r8M~Cn9=rY==LrR13<rrcSSY#A?jk%M=2@1g`X8401WImF*q?%kQ
z*@U`D$sAB%&m1&tdyHmOINkt4Htl?lfsY}NyhYq!Ni@If`n#%6{t3*uc>)$QkcJPt
ztbJ|M{Hq)pLayJX+fR=xbzk7v`~$`hrZb+n8DS(U9Sj3;_mSmZs~L)~PJt>X%4g{X
zZ%B@=3AXbL?-jMRssk)~pz_HC-3?B_7SBEDy0-1H_?2CKOu&4?Mv_3R&U^SZs28bg
zG$D6(KqoM-QMj_7)qv#smQvo8Y1r*b^?FvzEZbCyraFWhx$Cc#4S$HG_^Aq&d=W4I
zOyqeWXgY~9EU<pt949B+*O6mZ3)BgdEwOf>m_p-lNMx1zAV;fF#pbLa-wF==jz4{W
zL=iy`5Ydh)n|e-tTJ&42gDzV(*!FvT0KG&h9%Cj>C%&4G!%##5X~viZ2|$S&jKxsP
zySsH|H_O;=bQFFRwfJt$X2j~?ssINCS2!_q6+94|_k5aNmsC%|uILfIw)l8@H@$#B
zD)_LgCrI3+H>#X<O@@w83>6eqg1AZnYM1%7Rvh`b=Ia7rAZ>K({AT-6@FBo&hv9Gn
znUMQfcKz*$JBWKx+g~fL*~4;}ZIe@iudvTD@ZB!{y}p~^0bHgeG78#KLFicGbnr`!
zi&fB`q4(@k!;zHD2RcT=*&*=j5?|4Cs@*3L%YKkA;~wArb2D)-4*xybVuv}Y{y+6`
zjxRj`qR;l}v?%m<r|C7x7ngY!4(($HIkpE`Z@><H@uwxu8i5(^5lLm*z|Y7UbC{AM
z%O5!jwvS-NX><BkvB^kRt$j^~HVaX9S-H^;rTktu29*qG_{IKDAL0bBKl6709jReX
zZ&CKSkGIi-b#Hl<mC$5@-PFPDM5eb)a#L8^z!W0<)qLGfK8h^KDdi9YdUK2hk~rkE
zb+wNMj@Z`@e0d42HB2=6^yHasQ-b&adT)2ft)Zx4exYcn5cIeG-~f6A`i~N7G0_Fw
zyHU7#R~kV_Q9QF;_1e=eFdm_rSqZd3wY*X=$AldVS&MK3SpdyU7IN#k^MSo3(5;b%
ziY}xSkm7haV;{HE&v@#o%YxJlw3KG11pS0rXmHM09EU}@LaYOek8ESwDKyZL#12Ps
zD~*)-k#<Ovc)7u)ot}wb(Py+SU(}y>FAENOR<8jM%JoOqF_6dIP7+0PE1Br&TZ2R*
zIva@<YdNtXSI=FZ2ziS^awZ{G8u5oiPX+;pcdW)-F}X13ZwoB=`9KFj_((fi2(0T?
zl^PGul*KsiRXbX3tu2pfe7lfVQEyD_-OJhlbv7u)|M0t+cd+x_aMJMc|Jh_iXTUkG
z{mg%fZr_{-d>7T87Z{noD%n0mppUbhejvm9Cj6jySRy_J><R=eZJYm$zq4PoD4R}c
zhJL7{2s9!%73;%Xu5a99C%{l5{|<{>2f!YBgHD5jOaA=1$F1AQO1N@6Z)O|pB<xc~
z^=xM;zCA1&ZE0q#9WV{uw6)>H`yY$c6J*c|7cYL@Tw9o<D0N2(z+2OwMBvUF<y!`e
zse_@y?hHZ@-jMFIv*}*Lz!!lJnsF%st&2K5)Ao&Jb5t+*&1W^chV#XF)ad$YjFg)0
z(<GJI_T8tNro=oB`c_5$I9NEC050sIG>-6hquCTV!4{bk6^DL3T#y9%QwjBjnT4dB
z5ioQzA&xxbw6A)yzXhZMa47hcVYe6STL{eZ>!y6iQd>vC;JE;rs~LNY&{MD3Q;!!f
z#om)dPfW^Th`LwpJ{HJoq!KZFEISCjS;&vwwxiSwd9urwL!Vu}R}?DKFx6fJifehO
zyadsYsgqa(hYj=6ldz8Ku<(Js)usq%uv2V-uxu4&g<)LeME~SdKYh{ud`-p`-&nmM
z!9J%v2KCdakXk8iYBnvAcOkXVd_jju3E=M<jjLV*nl1Z{O;kcROtK{?;vjhqU^tO4
zFVK6pmO9UA49P<?vYUAf>%Mar$)v>_|DFT?5B&t1qKzy1K{bruComg}#)aMh?Rln7
zrU#r9$-mM8`rThAC#Xmt*W9MK2p(MfE|`72Gn3WyF?oQ{f*tldJWs9MD+JAMNpp(~
z_$8<Hb%K7$%0xjWOdvVTQ5p;iQ9nN2!W|=nO2H9qjuyFSlxc3nMRm3xgWk*P#PN5k
ziO*%-=dGcuz;$mnJv*c%WxBfRS(fLZ=aix$P@3!R+H|D8m0KSUXd9zEqtiq8J3n`$
z4i11=EgP>cMxo*=PfF$PX5+%7A*R+G6d=jiwO*@)_|Q0HYs#zxG|g~4y70hfW1=fb
znFS@I8YybgBwI*2y^)X;B~U^y*ssXEu{)h#1`Z<>7@fI;PG~d46Wxz@a3B}hkouda
zH$fRESq^V|CdUaQ#k#aecO|Q`*Uznwg%%k)lzavMr(DspXiA(hMi+m#2pxKrA@z2r
z@W~yj75L38ls85j>Pf1=g}B#xj-=%2RmMLImax>g3U1b?pgiv#n!M=E2n)LUp#0*%
zZqiiN@~W1H3ef!qGf)oRv5IFlv?Y!rZi9fQf^ugqc=XbJ-8oN>X4mXbHwU0_RKcOh
z7^hEy1Gh*s=U!3kghFS+I6VD;Yf09W-Q``1*#hv<QNzVDAt*L!L{(1t1aOaiE@LlH
zoBwu#ip+4jWil0P=)V3J`01TGm=)$>6K`n#H$~ugP4RnH2-T6GvUeJ(ac?;P{Q7=D
z^(kqqmb20F*i!XanNG{52(x_4W>EtFk<|h8P%k+7tw4_-QbPXlftBx=g!{Z6eE8n}
zTxdne`jk`xvz##y;Zx$kBhns1qYWFc2H(A%?nqnF_Or_%ukNcsfwfr_^D?*qTq&xw
z>A|_C$YT=k&-|VRh{YCynNA<5HO+udJ-?Pk;f7@lky6?i`F#l#nr?MLGjEgva9uZ`
zDYuj1*4n}&FM*#aR$5Q4Oq%*Ll~(3iG;Vs$8Eks9c45Gnasj-pXnzd89T(&bd$Xa@
zlb>`f0ayRwJ^sTtbrgnqO9wx{*1#Kjo#bfSr>(x>xwG0GEf8)q+iF((toOxnUNyF%
zAa-GjtW>c}pG}H%*f6VFht;QRMmeE)@{HIK#vb~uI<l_EwalsqWy|kMj1t6<sWADm
zy)0`7Hq|<f-eTuDP_=;DKUoxcYK}%a8(sLv4&I`AG5?Xtt!!|zSOY;!=$VSUw)^L_
zvtM_n>0OzO;Gk>?6edRYl{cpT3MIxFwB6oXYaIa?H`BqrG+6&^u#GN*pic1<><w4P
zRVkyrej%iK>m*m>0Pp~c+F^!{K}J~TJ5CNmO<6oU=e>iPFKkWcKbjKav+voaRIkkr
zG2V6*hKRH2@V=Ts62MC955Z@9rDM|r<D%m^R8K7)?lg~%k5k}}3wsVa#G?%JWZy_J
zR|c8?rP%!+MIO|pzhqz)Ks1Q6S=!p-*)G4y_2p=nhTY(g=^)tY0>jCJhwQ;C0y-HH
zof-OKce*=P`!UF{;)ZJsJ2u@}v2N2ps$G3<^Ucp7Kx=7LdQaWVtKYeP!DclZA)<au
z+HpeCmt`;RHVV%H@_nlO4q(}aw&j}fy4en36qXO>{q4OP_wHrny^ULba)8-MzI!;L
zdS_{(F&Zb>S@0P~FW`D9`+Jz6EIjwnRy|qw;&o~Mg4Ao~dJ5Rds5}JQ2CFUO+(~=*
zb@f8nTv|=s;2FpG?Xq&SMrPtl^F5J+nrqh62cJA-{*z-jF0aqk*j#LLs+B)Ikt|)}
zObZtS@^THD3zWbJr8ZgV78L+IXa1O>4kF)i!@cQoG{6;SUoBpC{*>4awn&PDi>BFM
z*4T1jYY*5rZuq0Bcht%5O3@%^&?Yo?u*$PAyv6bCW+eYUG(>AD>#ier-QAo1reB=!
zX>{+|Jkt-)=giMOm(`D=gh3=WGsgZi#Nr|C9NvoUD1C?R%TI3hDT{_SQJg>+k<!->
z86Bt&)~NS9^A91E$t#vDZiD03t{dl3*;x<>)wQXK4QL|pddHX7<Ci~loNs^JUx{x2
zoE^V=Pw>xUcW>TAj<Vi>2bS#aY>}Cy`b{A#GJHfmp+Hr*yd&*l3d{<08TstS9@Pw~
zovB*9er@lw8%65RJ_4dVX!4n+i1gDmyK&Vj#`zhjU>aFH;DPdy-*oC(t5oHKvA&5Q
z!T1qAXp(DWJF9cPNdsA?Ua@fRyjhkEThPYl_?H&QbHTZHWyQ#Vt%%jS6mS(LH5Aec
z!-cIMf~$UIwX=m~Ovjq7^mSy>pbqM%?hRrN@Z?pz6wewuE4woq6-*|{5h7A<NBY~s
z+-7=N2eqx|#?lS+2ziPR>o&0M0<udlwR%O_rXl)xNgVk;Fna>!q!$QNb^lq*Yromv
zBY=G_#cu@(_F)qM30lW~TM$GoyUFCdCIHQs3VUOZ#L3d!8~ywdn#_!Q6C?FwK+1Ct
z%`hHBJfHeeQ2vku-G84hsQEnUJw*RqnStkg$`AB5J^U##qX#qNJSWfa*(cxc17|WS
z>Jp-}T2z}sNdLj8oHAGm#-u6ocnt5yfU_)i0!;4E{yzBj@V7AR$JX5<>(x`33E{mD
zK>&W91M+plabLa!?&2T8eBA7Y<Gm!C_vej#@|OZNGq>0hF<e57KFa?v>~n+>_RIci
zODh>tM4cQ{{85_jQTS!N%1jL=#L}DKI?xsI-anx_g4t5%GU2A4OM!a)*B?Zg9-s*(
zAmpr9UPzB*L#jV`_?Kr@HwHutHb&ljm2}_TES~ys)%Y?cci68Imywqgclyl9xDJ;a
zz7D(?YTl$y(gXV=!q=I%a_JPcNj{DbTN}I^msZJY@iUEYhs313uXjRpCMfL=;!icP
zv>bt|CJwr-Jt<=jsoL|upP*^{!RrkF`-K1V5-+{2V)Sha_3Q&UR!jN=BRJEPw&kvk
zC@<FxC}ntFfuVAlni!#C2J7bnga)c{IY|5Brw+IkN(3h7A72`K^>){(83+WPuBepp
zXLuQ0fQvgYstxHU-mQ*!H7iy&n-c|?!WuXgyFq3=46RnF1!_@C$7Oj`dK4KI|K-p@
znne!n(AC0xV{RU?PAec%pYJy8>*GfWQX6xeTeXT8)8eQ4UV<Va^!dh}7nFOTEh%DP
zl)PSD5ligvDk~A<UWzlXf8X?~Ot*DcvK5>JPYGpKIm?l@v-)S!@$tA9<-pW}b8~+X
zF9OZ`8OG=LkcqOU-%ir?|M3s);nz+8>P9N}Y5o>K{wh4Bg>x*nG%#C3iWQvF!0nPA
zsX-7x?l;V_eMK$Hm(^Wepi*Ovh)tV7{*UezTK(RmIHT5>=43>aNybinO}EBb=~Ok6
zHyUucx1^|xD}`+Sur*-X@W|n}^i>}BEDu&>{CcRfe~eA_)MMPYGT;Msc%R=j<@?>`
z5vulM&x~>`GsA8%B_OTBRNvN*6*Iqbs3IRddtiz1h2jl}U;~@q3L*}u<HK_Hmy`8t
z1!jm}Vq!FE7veRf)UmQ4ub#M(WK(D}*D`&^7D`OEdpre5EJJs<T9bG)Ce`<TjYxCS
z9FzDg$Liih+Np(oD@aw*xAb?}jLF;7StZ_LBSD$CEWT3YG>wQZ38g0e=q|Gm=!lGj
zRO<Zl8oy$h{+iC6yF&;0=zhO`fBo$*{$#_4D&;%j>vT#S^GkPZt-~gl8lQ$$jKRvF
z<e2WlO7x)?Jyi9vUL(HE0R2VE4DhLApMU=viF^G0;T|Fqzl5y#a};i{DU@erwQlcw
zUl}fTO8BgTYvGhQ`Sg)+RBxe_>BJgC76urtp^%d9GVqZnj>g`rD11F%22j;j2Fg@v
zbj<yFfv_duUb?sF{<4=_0v!v2z&}K+0qSr*M4`xI=01BJ8;q5;EWt|HMydnntH<?(
z9k*!OvlWC9YBEo~#S>c@If2jzu_Uw#Qt?#%N;2m{m$*O!{|y}8do!*Kgc?J%F{>!m
zz$S!^ee1O|1~c-ARrTuI$V;Te?=HV0i5C!^LT~poddVM>bG$J1N1t+MTi=jE2SVg(
zn+t#%OSWaLKoP&95CyN+JO(`O62m9N|D^u@_u2mS@b~$Rvz?am#WvM)-LJ4#Gt3#;
z%5B7|bIpF#K;!QZG4$pn@$;6~76RBlm<mszf`~i53!ox+^ie2k_Fy76NNPyHvS;>=
z+GQJ^#|jQH_{C<D(S1DcbvFzI578NeOww2`l{=nmQjTQK;wABVdt+}WHzLq%Rk+i?
zGTy=XWnX<83nj4vP#(=KYzw&B3+U)?yiC0tdVBCG!hC4UiX37DV!uw7skao~R-+ns
zHPy82ST;T0s${S0gZ#efgR%C?@*<+5bsq5R5NT?m8!&VB#SV7r?i!emv45$UYf+?A
zkW`jGsjh!U@?uue+{ZVjpMvVJB9GGuMBf)&o6|>#!>bI?D09B0)v5;&o+P2)Lk4EA
z4OcO^*xsjOA&PY8JbpxC_AGLb)RCM?;d<DOy>{`E2VQ<qkyPzP8$->lYM*ngD(Dm;
z%{+@;{tIQa``xSB2S1-e8%xDa#PUB7Rw#HD+mF-E;oLeh{%K#hh9qFsep`FF^q-~`
zI+k^gT>F1un@7f9JfXW?&4~7Nir_COa3`%zpGOKr7dQo+q?_Gq?2m9lUVtMFTnpxV
zPs=o#L_%Ws6BTdpi6BbiQS|nG_UIoe`EFUdmsa{g_TNSyO9rB;D84NgBrJzWUu<(S
z%Himmd^3z_8pd!yS&eQoKlWZ@E8;AcbvFV$Fs0A4%$<S53R|zu__+s);%xX1J0y_G
zc9m5@=x4v<@<aT{Osv=5k|j<A%if#6Ok?$}(rkwH^PlY+OLm5GNz~Zt0W9O)0En@h
z+wHLCE5`W@UOe5;A>$Ive|mBuX~AIPRTN!h=l4@01LUNXZe17G-aKr|w=pR3?H$1|
zX~B#W^olO{j6g2NLWpk2f1TZ)g}euJ?SS)h9llR=zPK-l9=|$M(Md4^%$ejuDD2AW
z&pIf#2J{pUAkpk?6dEgE+dWC?05d^ItE&ze=74>lkHui^Fk9`G5KLsg;yp`2mECAu
z9mJt+IN`UxH}UP=$eDwGpH!m^KSF-r0skl<AQIHy<Vr0-Uw)Jlf!H?-+$aWPz`FFe
z%PQ9r%~Hr4cX|f#!fXDyv`Dy?gcy}INQ5h|<Q6T1|4MoI%>AMQw3KRL`G_1-L~oF7
zRH62m2V}4FLf<K>#XD!Ns+pbfdY7U#@<~eAVV2SF+x@VT8v~;bvzzP{B5jffaXeT`
zzmiU}tJzeUzn|+9oVXkFK_C0x3X*>}@;d0vqYOtns?No^1avOkcz#=I)f<*I<2A@!
z&9AcME!K$XVJ+bBP{we2>mG)tr;?*_A#3%S3*McZtm8M<zG(sT?T~347t%mga636`
zseA$M`&EXJLO2?gTL<DnUZeUsjLot=%qnManX=eg8=2vxt>8T15!&k8+7Yiu7&Uhn
zTPe5lxOOIR0JXIOP+QL|2pYb;kXvcj@f;$sG-&MKb1a)LYv1LG7X1Ia+5GqU-_&L}
zJCye@sx`?;Gm2~NEJ6WkK+Y!)=~m|iJDkh!Y!O#-V$dkk&+@R%QGK>n$vGE)8_CDh
zo*JWLBLs`0mpypLwR)_2C+{sr0qEaM^6}_EWbd+D(EN>!<p+!!chX?)e1s5%;74z-
z{|f3>cx#sA>mZj^$Un}CI?|h}U3&Mf-KKifsSdI#TYK3SrZ6^)GEx*xmNAn^IY0iq
z#{9X0d^_&S;As~GHxva1jl!79iAiu|6Zzgqb^%>nsJ8-Hyn+@3@hX5M{c+tU5iLvn
z`N?*$wxv)YQEp|x-b!|z_w;FUS;~p{nl2T;`@d%a&x^coG<)qh+W!17?bC|pGwj*Y
zN-$6O(Q5abp9AQRZ6d!Qv1<@!dnc`#@OyabcZ0u5{eN3k=m`32d;G@mAkekruBmlC
z2#zdE1Du7%@grM4UV0YArd3u$%0rk*$!6zbba(%o&=mfWW<OH*m#1$4uL7Q6UGvC8
z*0P``qNRK(C(1yP9r*PQl_Vaf*{41Xr_;f>$0Fa`UYrNC2x&4Uw3Bm(tpp5koLM%y
z6haI~$lXK_V3w;W%!xG&$t>4Ime#eHP&u;<A_v%pAytcfX<i^3BjOy{<#K6zM`CrF
zJQ2{~Ae0eAJA;^TGF?|u5{+!R-_DyA7F0;ZA2qZc+~fZYC9gqh>X!WO><9f2(uS!l
zKOjs{tAX4J5gnV2b9=jSvG4r8TXND6#>9;=8wgA{djhRr;bW+_DqFM+MXt0fJ_?8i
zfpU2#<GE4cWzr%mKK;x3&~xlP4`BrnXHNRPhW+@TwAWvc{4a|2KLyXZTl<kU+Juy(
zXyo0WuYWo~Ono09d=VHPFYoBMn9G(`R!_4aT7MGgc^b&MW^sBd26TC28RZHs^V8W*
zlX4#i*FY2yuKVJoN9K}Zrh&e%g{V|9D@nRN=i!c|>>h#PZDzSIB4I8-Flq~TytD1o
zo>gsl-ztw<F0^HFTrILul}f|7wjrW9#QKg|CD}&S{7Pt8^J`fHB3%%@Y|y(EE`_c!
zgP9BhzLTACl6h0_RXS9dYT)5cFK!)Dd-``;-w@+N+|~_H@j^k*xGhHG?dNY`Uii!G
z^C?*R9e<MJnoMb7poI#X!}e&@N0InyRJ<DLenqm!h<^n(@Z_qH&-FhfKc6~v1G5;q
zQL#M0MZdWF+M9V{_NivcR&6m`*J`zy`-JR!)Zq7?eX+94bJ%0UtiawT2%feO)8XH*
zGxT83WivQc{;J0R`v;)nZ%i<-;XUWx;aXh%A@)D(5`&>Zw*XuC_|hG_FLH$n%&9Ul
zG#Rw7NG&n?B3YtwBR!TWF4r=?4td?Cp{d8El^W%7KU2lVw`z83@eB(-EegWGdbj2@
z78RkDzm5xeU~j9jUB^<QY?ofWRb2pic(P^%V7C#HRz{E$t>Obu9{k)=$n!4B8ccs=
z>)7{9a;u;-;esEpm^0y7rRYC1+dXIzAHdawLm@vU=h?o>a80vlBbl$yCIUlM&(-?Q
zF3WyJxT*YRfP#JM_s7}BKfb_b>*%Z;1}aGMXG{P1VT*&gfjssXHsNVSTC|QV_id_4
z?Tc#U^9{lAKx94RAo*|rd%d?#X%`eV^Nqz#1Y0q<bw39+De7DNLoREG7j{(Oas<c2
zPd@l_-D%Wo#O;N9lDx;XJDed(@i{>#&@1`UBdDVP_sRob{C?WMr6<sL-n=@9_%>UK
z66}S7uu5Gsb?eYYvwIzpOtCi1q;&ZSSrJZm$TcH1+aNtR|HZ1VXH>!vyAavCp*i-r
zf+R69Mmvwp^NyvHO`6Qg=ai4(u$Cb0*s0V<9B}4fZCT>hUcDN;fKs*F%H~g>AC=;(
zb4}w;&6#vBo@zXE3635zQdnJnAWQ9Ja9_p1GXMum%}iYV_zX9TAx1E^Gjp0{FB4EL
z>*#S)M>%;jCFu*8eLS9i`$EoED!BkMK=Gb?DW5<l3fT&sWec;jksVCr|FfLbI7|FF
zXwiK8jxER7w-@i@)XCKo(Qj;AQV!u5kT;t!<-@1@Se||F0G*TuFf_Ip?Oq;*5HsAQ
zXZX}#nMA;>vtZC#yE7ssu`7!u=s2^}(<_5G5eUj?Q<f6~rFI`y5bgIoJVrlM(~`sl
zG=T+GK9!#Swp+0=jQ`KI`0w-o`)~TZ*L=e&H+5*I*wn((5%>7*vT~?NF+cE$gp8T^
zS?4eF1dY>{ApLYpK4(fzJvTMyeag42JtteWFcGRVwU9D4ZdDh7f8|MLn=AogKZ7{e
zB61y~TQs`Z=}zes|0nmp<wpyEom0PpGAMr<h+Kf;{nnJu{a|%@Ovi+8pbao(g22Ny
zpfAACX$_KEeNq0I0|f)*4?ouC*`gQTN%0wkhSz<4+96)$%drvg%$D&`cgLxtf8ehc
ztHJb4-0w1_pW++mTZY&vXD^iQO+Ha<L!loj-R;cFH#y^oAD;y6o8X5l=G9M(u4NQC
z&xH)zv|*9Awia=clT5KXLdYI}YTppNof&UawR92I3y~0Cvbg6$mLyJi{eU8Jr&R7n
zKL9@|MYT?@SwRVA=6`~9fKtKqZ%nMG@)Ozr<K_orzj5|qhF@|(`&*__4L}gDqGvHv
znz;si+%1Ub)t_`~0zQ)#!x*E#Ae^+>@X&S@G6GkBGLoqc<d)AIps2tpw}P`xJHIn6
zreyTzx`dZ2c;o_8{&WNg6uT9_Vs8duoUYH+tg)6Uc#$1fVUggshX|Db1p&n;@qNP0
zT;gr6P$&)U20x4)sYUptPG2z3SDh!MT#r{Z+5k0rV;6XFGu2Hudq7C#QFk#UUUn_5
zje(xJBE%F?*q1g9ovCZ!Y!w+RVFCoefdMraE~_q;A!$$w0&pj}f*D-29Hn1GhVnT}
z+r{In(JqS|zLybv%pmP9gd){`=_-un4}t!a?{>3uLUWQ^2Yeg5zxryL$W-R?zn+Pk
z%VM#aW?4^r7>l`5PPh_^(yBhxKR7s8QV`h*xO6KYqz+#x0Mo8q&HZ10?6-l;>=yt$
z>B5oiUa9>p|2SEGpY8uX^uNDz4$YX+JIzwgs-Zp~|D^Ivem~R^3wfaY)1q{rAAZ*7
zf77in!($0F7JVk=<jAh-MdR&96>jrl9g)lkTGEsExQB?lcS*<Of%cXNkk@NpLS5!_
zc_w=RsUlFvqjcpBhX^vAb=#KRvjR$Te9w+@s<Fm<OPEz3B2v>MyVhH7xi<oj<JvH`
z+}G2^?s)1!_W6^A**Dw3f?$)G|5(b@24H^^6&?>j+ieI<1X0jw-qIw7C%?8VroFn|
zgdhff8;({+<M^Bu-E|eXmB0&Ekj4gORg!xS%aAkbne%R;-CszXwI>FPpaNmIKT{%C
zxMRw_-$UV=@FPC~b3LNQ8srBOhAw5g;)&mu0W`VKuV~lKs|6DM#r=P5y>&oU+w(pw
z2vUMHD%}ktAe~auUDDm%9RkuV-QC?OD%~w9-G}DTy!)Wu`?=rW`<K^)m$Ua;vu0*J
zGxIzIHDx}Ez(ASa+_%^0NeuN`d3x;%8}}~ji*i)5x=c!P6L;s=%Zl23Y7cJqAGK4Q
z&XNFvfRd-ntPm>5@O<0za<`HkOCZKTXu#&_o0lpLjU7JX4onBZO)0*ravzu-%^a4i
z6D$J`)!f-t;|=IKvajS(sxX^BbBf2yVB+M$dHv=J@S0K?LGz$;*8Jk`9UiB7RY=y9
zgeJECAl^5K#r_Ya9t5KpNB{MI8gYRW`Utx5*CXr$+;VIeUF^P?)&-FE0@|hYbtF?j
z0AmV}@horn_{CBM(4X~c$twejH=GWV0cj3=5FUDfxYj}xjBA)63OWS(3^<?)DZSIp
z@4S=DRoa<<F5Nrp4!%S*;yLj?*Pp|ZZiWbtU#^i#>Cdzq`ruDl=eC{9Kr6UVy9fgK
z8f5Oy$>v-2*Y{aBh*PF!5>gx-mVF`<c0#cy?d`>{3$~g7TKmnwmM=XB6it*6ts&%=
z0)5H68kGkvof+>pKMt@pwE<Mb{Wk2`#j0z#Wv?cFs!npgQ|spEr;y27N#5O3$DQmV
zpiLd3VQJ;gmcBhUDs80zY135Bd&}nFyvnS<->O2%?klKNs9?whi;|NzG1~}?v)e}Q
z)*KPw@i?bBvpL*Uc5l$REGa}gi)M8;H{9<j0-Fvi<8_yvpHHpqKVeEER%DYi@4dK*
z4>H<TSE!l>*zh6v=qZXhmkW<l-9+626sFfl%#*Y-<@(P7Z4)5Z*YB5UowWgta`hG<
z#%+2;68vGvfDn=(xgSnFKt{Ma=K!Ls@ODPCnYVVs&Ang-CmKb3{YTLq8d;(o%EvVM
z|5x$j{{XB+zSN=L3Wz3|oB?5TJLidpd&_Z}WiMqARc4MU#UXc=m1H6n>CDeoOJfsf
zr3}s@N0&;Pvrqi`5S%z6WnMkO%@A5t&v^vE!j(FX2`Lo|is&O<^m3Vnv-3Z+UJeCU
zQIgHtL1+xNfYkRuBIU=Y0L54Pz$LyrjBKR6V3JwM4np_OmFY2-$ZO?atXFjMrKRG0
z_G+&#L=AF*@w0w$3+_zRe`RSRU-k*YBjB72ZTRY{HE>X4kBiSj^iZ`T$2<T(WIkW#
zi=g_h%}-)hV3HQmu_z>CzS1)2VR3IJM_{{!8=}q0+ECe<o<A2?#+6^bV&y&q3{lbL
zi)Vrx>)oIEd3nodmThilSJgElYlo{F;oqRx=ifNa`|ar`tJny}Tzj<kc;OLxUn^Vl
z)uYYwL2HmRLWVX5G6=x`1uynxpvnXO<`19XpA&G;)}9?MF9UqJ(L2IxCJ0T6fhi8!
z>MUAD*x}JDp*<V|`i7fY4pymI;G(3P4=MDt9@Qtz6L$s|?q8I^u~^`2<G$USBF&b1
zL!-WMFzH_H^5j{h*>l&PkK@dz>6E00G51qD(ThN_;_hL+WLI=Y(|)J<sOVW5s;V2M
z@u~~J4v<fy{_XI<L<LX%8zx<UuMMJ|=4_eUf`S$hTp&Y*wvj>jV&MxD0dPt+-qzOE
z;l<c5_EybrOm7iyJmsfht{n~_WV3CQgeH(09^}^jS~<8a2!I=tY5cFO$f|RElDSD!
z5blxy*%Qf*qENQ(T31{Kp4>oy0%O48y~2`xZJ9Awvl^_z8;Pm2<QcjwV6}IRe<0p0
zF9HqrBInh@Bz)j|>U5Fiwzk1?o|7j?$|9!(&JE|FohHmdyLrr1g}k@U+Is+j##p}^
zAf&KSx=1Mcj^3JYd9vG2X?J05sqWgt)v_d!$N*3vYFkXT3^>39**lG2+FEUywU0mu
zaNC#MM6}-<h$=l{gao$!ROkeV*apG9RejCE&4wh`fdoPa!e1-^pzR0B*6n7Y(GwQk
z)l$DH%#yG_Kcw(Yyl4Kq#|DZ%_kXkXzn`ruLj~Z~Ql<WShK*@q(~#k|OHEms&zq#i
z5`i6_@(StD)2wxnt{EphA?aqU>9weY5lDEeKkde~-vF(C{T<<A4zF|D(<HSsjn|aS
z%ZzC$Sl}EmBQ1!W3q;A>&B<2c$zo)Ly%_mrFf6)vD}L$nx^zJpyr#+G<+f$d?GEdQ
zRa^h8i$zz35g$E5u0uchrl3smqZ1t<{1y>d!`qtOgrTm$PxZ371aLn1%hlOD?$V?w
zv(C;@B?i&6I+0+4Lyn?y2%R|>Am3<RWBqYP4yz0(+!<q#tU)G2X#uLA8OkMTUuf!M
zl)QPZ91XMyM{5A;^mMeOeWV4rLoQ3(V$`I&KhL<a)Eb;k-c(TV>c$hx5x|=A3&Qy%
z$@OY~qDkvj%C(J(`^rLh{+op29H0|n5aEK_#98*PI)6u;5#RzaDBe*p=5~u}bNry7
zkSMWcIk#IO;-ocWW){)HJ(lBpsOomNIE>f}l$*^b+%qj37B%;3Isl@>ckMF96ZU}6
zL4gqOV~y>c_7E8<5Vmhp1>g^YEwu&6K~)Z&@@2JV&)0K{ok<V(Oz`)<Oq;d~XS6I?
zH^|*tOIFgP`gwVh9#*=806yMDDdRGg^Dq>p)Pr9yl++b|oeV)C9sKOQ$rDx>KuNBm
zaBv$1DjCQqUm=5Al`_y*^o8{@VyXYHPL->;&u><%UJ|GPbig&NC{m8Ahjt;D&BO>N
zAmCH9^t@;@c^&QsVnHcz7ZZpm^~hgv;Y)ID-#_Y;0_V7o#ehQ53;aD+@#YGQ7DK;y
za&q8GkGGlh1!jRw#s2$2je*!5Z~qWDf&4|%0G!-8`62z%Qd<Nhij_($>CdrlZ1@*U
zMw*Tc2LduUkT97#ItMUs)Tu?{8=T(YTQC!F^ltKw4T&sFjA^x12B%Gz+jR-N4ZW>U
z3rD}`2MAW*i~|G8>{wryT1uO!F~K+VmX@12a7h<fr8HQSwK%UR&PJl8`aiassQ{(6
zY7|F_`J}YsS<A(}+0(6e)z;<ahB=3a21q0$tN;ngFvO6)Ofb^TVmgf(?tzs%6+WAF
z9vnzbcm$qHm6Qp@uR6Ki^tUq@j>Gr5a+x*vKh&2Q6sv<zr7SIe;U64Cew^nJXpwQN
ze<P(*9F;72&QR0=zC}dCb?yKN!t+DSKwh)WAN{K@&VGicQoqN7MshbEqT5$g__g2v
zFzMju)3Go)jkyaE)O|;B!m*A2SY;76SQ3CV<a&dxj3)>{W_DiZUHN0*U|DP&Mg~2*
zY4VWfKPIp^mKQ{&e*tLN8(gEERi%sFfLVTlk)(U6w&iLMj+5d0*^;^)_mx95@59t#
zr30Xa2GZW?WKc7kX$p{9%wZU_R04f5KM2XvNZs1^B1+?>86W#Ffd&_`Qrxz``8$Bk
z93fWzM<x17AX7AwKsvs*^|I9e8FIf;LmDBdz<z7^#v&b`H>oLOFctR&F|)qW=7I}2
zR@L35V!ttCFf1v_{#(W<-Q(x2c6?uN$O^GBe|FrIp-`D3YA<?u;8P0aj*7cEX9B&v
zGCWRhPg_8}PxmY4=aRZui$~*@ntpn=@`ogWNXJlB)WHhvLd3C=G{!|SKeNL7lW25c
zPee?S(d;F+?p^e8-A`BZ^HE1dRq88=ogHnUo%9K}_Z7w6t3}_p@UFUv&-X**$`xQa
z(r}nn{g4v~<-aL5NoGtDHq_TWrNxps8l1I?OdIQLqQsA`%6~EC<irS(g9U2lt1uWH
zt@(z6x^w}%UhPHU)G+yAk{od1mV${~Ry#!1Ry+@plKWHsP+SeT8TRQ8B3t1mO7R|b
zZb2TvA%eh@<6fSh##5yvOq-@-Gs+`l?imRux+Ku%JokbDf>-DR7JBE#@+N@Vzh~{B
z<d7Ur#TnY&kp?q-Cfo^v<-CXX)y{jxnJ^3>HEGac|Jj?z0PzU$M1{iIaXO3wv=)*(
z1{b%#elT-s8I5dt`9Yf=8c%bT_=~97@+IMaqs^~+dm6^6qVLkPFk=~h4jDt(+ZlF!
z?SErSCFpICC$kMp63(_@^M0Mu+fJT;rNlgvy))?x)7Xuyi+EQ3(&AnsjU~Ao!QEg{
zt|P!~oNtN+5vganD`p#wn-Y1j{Mc8dkv~$bL&2y>R_CLzVF_UsL3BbqGCaQv3@_N@
z1?X%Giql%VuGcT>Gd*qi*p@p$N=iF`PU}xaLs{Yh+6RRR1QZ$=0MQ4=3<dxhP;n>3
z3L2N6TL4e!sFsyiJ-5B}0wC1L4h@@{ar>uE`UkEBriy$1y_L?gLBZnI<~rA3o5+a?
z>Bg3-ZVo2tCn57}r?W(WXlp{#gKu^WkMUy1L=Qc!+`Jw5+~5q;utK}X6M>)_7*@UN
zb>=xV*tV?!_HvK`0w;H$2cKK}ub9sXV7$Xa=(;@*&u1KMHl9F1B+;kXm%25ss^-M`
z5Zbre1)$RIw<m&?A1r!X7`4GeIpyf*4-xi-jN%uOd;~JgB$}UST0{1P^lV}L>1aUR
z-I$lg3KMt{VDkU}4mU#XR7Ly%)j+C^JV2R}W_pCVB+D=G6^0&>(xgn77!7|Ugq)Vc
zQ9DWVOj6BJCaDc4ZRBp@7tAZ`#+ATP$G11zKdbfniot4Y1{Yo|&j#)>;BQ*do0`F`
zxZKM;b(D6z5P1b(15_%Y+2@c+*=iOvZww*t5kvR2@O<uP_OpNB*Z)mO$Y}Wga821|
z_~44jq7G?J=Ii)<S#a)IK!bpd{8|{JiW7G?;D-BX@`^<+aA;>cf{n5kR-t<S=fmlQ
zviaTL-@;Gi2^3m)aL4|tn#BNQ&HvrnlW3p&6+S{9hRBdkEvS0nXpF#9r9#?gA(QB-
z!t<`1n@xa9aIZ5&4)ucPwAyk0ul{H*BY;7BlDZl2`;`CRmv~gECI;G$t)T8my@8>k
zAx#X`fyE3QXNW@Tx-k^&Wa~)9gV9chuDbjDPe?0-oj-qCh_Gh^llv9Lve#SCktF0@
zl_9CSnOyh(6!eKsp~L<cb`69*i@er-Xe4|NW#FPC{rG~t489(GR=}pdN5-sIuB#jM
zXMrGx9Au-l>Ilp6%YaUtb;cuwrSBPl>*iSty#RJa9Et$(kInz<ya55Y2kxwU0d0v{
z4CkG3^3tR~lAm@OnJN`pwub@&=3QpCuI!NCPc%w}s+iL5kQ1(5$qNViBthZ>kvnx2
z2Ea9~tK3GJ|8#s1u_4;X{8_rF9O!Gf+e#WU4mX8Anv%XSu!?dAIgz{}^C^|;8p(Iw
zK0sN}C!S7z)GVHHH`e7i680}$**IiE?;laYURx+DU`hXd35XfKfl`v4;QJMXZ$Ez)
z`2e^h|CRwx93&fa$U1vr$*Nior*dFdG$-GGEYNZCI$vpeY(c~OS=xFS2vLNBWb%Jh
zEQ#8m2(Z>%a^n402Kdq10orfKpSfr+xq<eb+<eE@AiIY#?L8Myli%ZmL~ICDs%grq
z^komAjr^@gO~D@6>hovA2O6wKx4=;MkJ_=v9Y$pUOl%=Q`JXrOeU4-U{SV>}n36$*
z&wVs+TU0W@uG0r{*YyBwwE~)(4f-c#6z~mg5BG-4noMsYNuEk3kViTJ>8d*}$wzWT
zoUq&V7mw!&0=}WkWxs%K685?I@A-hd$Rp<Yne<oS<SL$1zU0KDsiIscrO=~-C%+b|
z7;S03DgS8~vrQxrO%|Z7H5Mizn#vpEnAHWt7A8Pp{{skabEjIyCmO9c2*Q%S5;RQu
zKeflGWmp%lzpn^XadL6w6<}HKzIkc6Gk|{MLcr$TvC-4HlsyobA#hQahC^%+nEDgP
zqBmLATArgg+pz#DCw&nTZzzCwimC;^Cgvh%<16F^@UVWZ{;{%u&rOstU~jHc&e+!M
z0h3+#Onh1obQZ>cq(iHvh?cyU$FHsR>KC6sifTUo|5qQ02GY|r)xXHSMTM-~-#ZlK
zztreEU4DO*_~Qo7HDF@(j+FP0*f^O#e}z_?AR+0JH|~3`iO>A$sJ|$FPnGu)LKdWF
zYf#}2vd_;AHTP%W{I>=BYS4{#ct4D`kmh3d3z9+~!?FYO?5^_s4{a0Zt*%PA$n{l`
z|2#?54MgeneuQddnfS$j9`Nzueiv>4k;_kaYprvNAL!l7dkcR*HXxJe@-ReN`lW@J
z67&qHIz&E^34vIc2yk|d&i)sm^Sz_&j0e^~60vl)ipFj0ItcSHn}$Q3#Zt<N?ll)B
z_8~LHgwvV70ckn^ThFCnUI}TB9`rUNr(3O`%lgyhn)B#t3pXco+st7%)tgyQ5%XNF
zRc?;&zb?&3K8h*%a?^H(2LTV+AoC#gd`BGPpVj7PfE@HtK0GU+FmloGWafVz;~F$#
zw$vi$#4{_r6}sipo2gpvtD94&shpXlE)1()!TF^PU}*d;J)(j^Pj;2P-Z8KKTg#RV
z(!I;CSq9gw7@l8JFC)m^hW0Ppsylil&l;-TwY6|P13};^<jMmA#>2Z*fG7&mgL@Wv
zrhc-7Vbk+_?F^*(vsmsLWOG~^>i*Sp{e(1{j0@S0ZkYi0e-jAE2|KCg=WTQjn81`&
zAd=d%hP%}{<h`k1w7);NI1`Ti$vVVnJH6a-6fcGQj-2rG(P!Xm_(9k<Pc0D3H>O7C
zAZ^6gL01d(LyM0+$V4&H_K|<FfGAJsYwN78c|=QduAB1jy$DF7|IADFW&(Wx&;7<8
zWo(}KE)aF{{4rzxVfaG3WL#;5^YlaQ%Q=Kx>eS7^arpd=LE~>qfI<2S!TM#f-to$u
zX<QRmcEC0g{Ie&2jIR%nq@=%{$o;>~(7uH}xUwnLhWQG_QeRo<t=Q@3nEY{(Ia%I1
z?<}1fwA>GUTw~x&?_G^ZnCA3vNE%#pttUej+tVD8>OsG{-|Xf!z0;b@=;^XJyE3}K
zQZ^|A?hg4h=1KUWr~i9Wh-MINe$Rn6L25Y+S454-|9BM+SQi?I%Q!@8RB)$B+?3u)
z8Y?zM1TyZ?E@UTewtGiysxtSH*z7FUbL8JolQFG6GrS!$?edCax^1hkJBH`kt1G<f
z5^Is=lG5!A&5@X?HK$0Ap3_zITg^Cy8(pXCurn0XMV^xuVQ_uL!<3xPP#U&_cF&`(
zIiNm#boSd?{;v2naP-I7vf=)pjy+!sG}S8oc+=z&=M2yJq$Ot36_x;U%w$=YE@U~A
z7Wa`h-CB#L9Sc0gkvOc-=c>}x`)_(fMks6a4c2ITN8!I?jk=c{#(9l2ci6XpxjC#J
zYEh^v^LNes;a*6W;PwDc@jt<_mjFscn5YjhRq`vi!L{Ee_1k&y>p`ChcGA9a+>>;_
zsdyoYHQDaHLVK7sY8gO=88uqXMpnfYhwTO({`hJ?DKeM)7Twbgu00n#38BpqOPKIY
z>OHxi|0a9jk3h0{`tKTWPyz<CwciAZPEpG+E?WQWmJEDhi1bKJg+p;+p5r$}K^K41
zxtW-04!p<HKHCAk$m3fFdiA`F8uC^*;E32&Gj5pwYmfkn+{w!Wh(dent&#ox-G7{_
z0j4aGfRe+i)M*h>vL6a!q3PKDz4Nb-$ESORwY_voHs5AoAuby*b+#N3rWN_Wz?p%T
z&z~toF<wY3A2{hm=+A3KsX+}tM)}?ZXhagKDAdChU<ZC;O7AVjQuD068iPQv>rPO2
zC?nf(nZ>n54<hRq#%uS0z$+mP`#(BVzc)yy0})kmzG6XR5KHI3ceHg1C|FcXA^4U8
z5RXj#Vpd>m7s>>n&1?#90}m*LkG2)ilm@7%>@76am>w^++~Z~yr!2kuAEu;76L3O0
zf~Z1^L0FTr<sbV<|Ck057{Nvq*cDjlV?i_EsD>!Z4)_hcd0b+C1`JtMsra|&H%sp3
zh<T=bFO?Ohq`J&vbRUzUUMMJrU`Q$mp`dR$J$>Z_Om$mME;x>HU3%@?aUCZyL8i2F
zESJI|U88`eg~hGkc|Cdc0Z+G+9yDZL6;L)Nn|76{_<(i_G<;j*w7&Z~Z8g_k;CN^@
z!%&kn@a|`#>z?I#_w1Uxd-WrN4cua3rm7VZs(_RY0mcR9pWXH~!2XOQzqe!$2I`nc
zf^R<_SpYl5?}a&fc(tfoC(_=dqFN@Az`ztg1<18AX&XcM9{wB-y8wtlPxU^pa_O=W
zM1Iy9Mb!kNdaTmH_T$yfJk!7dFa-G%qF^@FfiqjFW}fDBrwXuUpSzf*PBootbKM?C
zI{_RM%52q(Am6NqktMZGQQKPG+u*3EUmy@jx=PTNejFPyFF-J>v85$|<VT37EFva7
zh=8s!=vO(h;HM|cZ4wvNH7(9fp;|Esg!as*5f5NHcjwauE>*WP1f}3(o0}i*rQFAu
z_7{BLr;!-Tu)TMr64?*iPhNZPyHgz#3#4oDm|IpnAG|3$k4xNm<$-q<m>MOx$H(|>
z%_~t>wqiM<{p;mi=k3u@!>s!OGB&=KMX5;F*OipkDE&?*#WV-(bK^A8l@$;b`y_tb
z%mOsRY*;+USD3^n7&_2n(mnxZV-bmPI?$3n2ydV$I$`u8pF|G+{;6aqi|;$jIer-n
zev-Opi<gNq6YGtiApZ>Y0e(ApN-QqFL0-YBt@+E`wwKV-9F^)^;2skcMJ8FNDe#+s
zZxAbl;q?q86Q_B*noA}`l9iYdpWZmRFZevIKGhq+`i}2qD6hvYS>7GAFr#+0Y<O#F
zJg)m|QEOL;^SBo>ZT|d%)aa7b2mNPj4Fd8X(SOi$oV>*4*7}uLz-Gnc{USNCx}4lp
z`x`f0>8Vg%AHmDpLrcjyuNRssOZ-{7pzYHU`o6Uk^1H&lDAdxyM1}3fv)2@djg+pb
zqykz~AB>N|ea2`fMBtS*W64=3oIKHtu4Dy0!gZx^c9wKcsP}9O$}&BP1-xOe-mf|o
z`W#(^f(zf=hmm0_+Mgjj|JuwvvI06E9`$=*hOAs7za*MYmbzqgM8(=s^W*ydUDU_F
z*hW1;fD*&ZOy@+v$`;JU#zXxCC^6Sh-Pxxj2*LWw1R}?5_+#tZR=B!&oa!n%yz(NX
zFl+TVg6^3i?B0zYIKG@F#i+|3!Q001AvH(&HCIJD#s&{g)qx-7@!>9|#*qYv0E(zI
zQZc<r`+iL5ubL^NU6NsJFte)<#Uw*h-abAgWZNZ)q)}D9H#tPCoAfc`qh&3^hzXPW
z7&*^gvSqa4H20>CtMv{f>3rK_Mi-7wV68(HFDLD}xNx!?e>oAI9d4w}-(*`rZf)T(
zxZOMCJgR>#6-8O~T7g?uZ<2bHDYsi>g{*h)<8d@))%7}{4xGF;H!(sUX?<>#-h;HP
zBZbfN6hH5$SD(`8Sn~Rnq~_M}z>_oWtzZv-8L{j)j!i|}Lj{Ygw298Y<Qn~2H+nME
z7ufKd#I=r-hnrwd9E{C8s=d37L)d#^*o`1|E5r<iT`bJ314{pG!he@uRnTV-VyyNs
zVyOIrPtHHPLBl%YOPtKeXb3OcExxH0(Y8oBuNZ=#7UOo-*&z6^z|y>=^So#p4l~l4
z6S{^|^6ULZ%kjleT!}Bej(SNx4_thyi(ZI0;EZpj7qKhgX~u42p==g6P?+f(81wGZ
zPdD8;iRWu%9=E9I`u47Omss5_FGCzLl=Z!4)KobPK9p8|u7W+~XA<N;)XJp9n`ns?
zGVq&hXl8WeCAqW1{e5UEHKDm{3Mu))3h15_#ysMpckl~2^cXHVM{X1&%)h?j92(m#
zC0}ate_p4STr@H(@rdcus%w$XF1rY=5I5`(S`WsTqn1Hjm)!Gv-k0|4!qbbr_>-BH
zJ7H$lJZvh`ma4?b{yVEZ{KB?C>Ymt%7fUd!Ggve9Cl*dS(S&BwJVBz?{_C3*`X}%W
zhjX~G8+K3#BZZ(^O|W5X-{o4t$mLE&Nem^2V;)^mD!G*z7n8y~)nTR{F6u2pM@73S
z<{No@L<i*l4e<!Uq!=Ql7@^BDBjvb}c)t+#M;DXG{~WC{GRxNG<>RTb!1#5X^k|lU
zTu`Eq5Wmcm(aetug>Bnn@uWwU`b$Pd@rSsC`*-FAWE3&at1fMHmpQ_UxnANHl*ezL
z?v6=}-cosOp2KJnG*p^ibA}c2JTZ1o4f&CDGWrGe67{9itz@P*5%<VKWv*J>6vtf#
z7e(DmST_(AS6-6`JYq^pH67>p$RT%pdXL>QOU2mvvz1`uL3gLvt<EYb)X!&R+v%uU
zl(h(;%}s1AKzQUIf0>>1WHItXt_axZx>S@nIcObZ8OBdDBP7R}L(K&;1=KJuIdKsU
z9OAn_Bn*BC*$4u>j88;V-05({h3cKT+(M!%0&X)-PjHr@t(OCAEklApxt~mi?~=Kd
z?(Xo>4-LDVv;^&(AFUFX7ACawXRBThF1txmb7C+m_Qi0mS}=*F_QzR-_dGXU22EOD
zOL<=8u1TNw8+;t;uwLmrZ?IDinV^vRl;$bEGWhv~ovj#pvw@Zh{#NW|;TAEyBl@wc
z%|;a=$};8+!4ee?NV3e2o=05g!DqaYvz$bPWjH_xMP0^u+~Cp|I9wkoJ5NJ%U{njS
zMH%sAQvQ3~AV-Z0X7!@5HaJTQ3IYAKgL(ElQK|=~byAR4D`{=pikDPxkAu;2wWjL0
zdpglJ6I;;6Qykw2dlr?T0lfsDIrE=2Tr&C=f;V44aoh<z$cgXFImx7VvsEzZ-@%E(
zNp+BY`8aOO>$enih{ivWh%8AI_XHuKuSVTu+CT_*rIy;N+7A}i?SNLP*g!y{yz5UG
z^Fi1~%XFuOZF^g<CP8F1Ir62OV<9-E(fl~Nr;u}p?k$)HG18s4*|MDPxaVYTb*n^@
zI&G{&3q}7fj5;;U)Uj)93B~;;L2$^gXi`|P{q)3K)p@f?Cr7exzmGqCe%gsXFvovj
z6*NiHo5rxuj6HPITh^ec#J1mY|E$N_9m$a8;hTSdr@g#kDuEn<e#*wP;GMYmTYui{
zwQ+Ot*eFodb$(RA;AkL+t*0Ql2Cg>3!#PbbjjKY88a&x5^G3kX;vW9HG<V`jN~X-4
zN;|4(`XYmdny1Ne;z0%s5%OAIqo;JDdd%m|>(`hg_gPPxr}}9=FZB*X_6#^<dg)J)
zru5P|B76S^c5WyJ!+%XU;7RbLm|`Y~yI9C<vLd~6?}z6>!iXXpMOPY9LzQc{TS-u}
z<8|PaWuw3#+NDqnUC7F0`VgkDT=D{wH|@KT+ZlrlOObmM;0z&FWAz1p|A21Z>}7k%
zF)gK<S5@PSp!(kDyBTsbD{@2dk|+6sh=wo1U+4YC*MzuJu+HSGSxwq_RX7<cGuu}_
zAQ>tga<<vpz^TxMv)T@AbGt3WGN9j;g(vfixfw}ZsFk%8FKO*fxewi9ZEEM#a=B#c
z<w_oBa7UXTYayFc>i=AEQXrIm#*n#2N7#y@sQiNlY%Hjiq~@-Ed+&R_xZJ^VVrV0b
zZVYE2wGk#gRsHLvF{ChxE1;U%s>7v%Ha$mQph!~9)nQ`c@@~&UY-ROxTzLdlEa|Ih
zXWGE{v=FM24?9qM+^ht<+oYB<SmvC8u`t#wGDW)EPhA^HE3C8BKA4E?MV<DuJB|zW
zmohEp8gSOqq%0+F!9W7A55ji_Ul?k|P|bC2&fg#Wc8yOkiiM%&{$c@;Pz^$3x4psN
z9{8%@y!4~3FKBpnagm1w3tNpu5WWQ8OMIkeDy65Q%laiUD=!SJzU_!>a(dsMQXi+`
zXrZXRL*fELnz6HJeV1+rO2M=HB`?e$S5dOqN1Gqc_<E$Rcq8yn8@5Tx=9-^T;HL)&
z#@D5wHzQ~FZYM8b@rCVV&d(RoQ~s(tt+jfEo8*%R^IG+nWh`44eO}-B-!Ka~_dGCS
zLL%7=3T-#Ap5MbXSJ6^%2(QhGA4cw|%XyA*_R~rXqlHw(^~Etn!?A}`VU|^T3rmYX
zXnXEQGJO<c+*gz5km!-^*ZLk8F74Jf@wwGW+qJB!&vKX#b!Mu{%qZ6Zt1Vh?F?SdR
z@R?|%vvCRED#Nwl;qS?e^HdipgQ1JGi)7DbTWri4Ju|c`$C=V3BDk?FxEMRS)*7;L
zEYNd28-7)<k3~d0CAT)8qHxz4z7G<d=LDLwT{+&{a^h#b9&%o7a4k%H`g=EK;i24d
zli+0h|JTO>d-3ZPkn2VHz>nhi*MND1PMZ>b*=paeGBfDd*xUQ7OCJ6BC_RaHMa}Hu
zrNT`jRNo`wp?k=2*^U;;Tr^vXC~}baNxG&vODjQyYNilf+(YyAoyrU06tsh=4nbl?
zGcBx**UDkx)TfDG&@(eKXm{H^^AC~v<;dmxde{i{rjGKOJ!^4i(3Zn*(fY>8X6PfW
z^mp7gj`s*V_E2hoz*iXgVXCZGghD6Khg{UB_>j@4c>;4MxR6$PeMSeF>K$aW=3!hs
zD0FII&Oj+{V3icjCo**6@QJ5-^`JBR@XEd0r+m5#z^&qC{a1-fL-C!km2i86cm1Qb
zab^|T1{q@%e8NWGz8^RT*l`x0bfl9<GbF|8Bru1*2!&>>4)VAT%W3$&#?vR=qg(t#
zduSl>f@E`d-RI{rPG){LKk!V#9ym&?4X<Gp5C}HI!rx<*4H)u|(S3Mtubn-#rRDYE
z6L0eY)(_(>qf};(Wfq5TmbD)}U>8*u<62w$3^6e(ipoyp<k<{HkDb^uy-;$cW5gPG
zaepTeL{9LPvh+@kr-hQ8g3ub_|GRlU2(!<iu3@XWW3S-OI%MMpESaXclIgXZ{N#A2
z3L5IPN#?n_heZ!Da3kRNa!AoT@Xzq~_YYvW4Drx8R!iQoj-6KAn{btr${W7DLozHL
zA$CF-J(nNuym384nBw)k{nQ~^CW~S$87o$%cUs)-VL=`;Llbb_!8-O_Mnl?~tEg%|
z-`Ci%1V(I9^6SFw8Hj0fmv-Px$jS{D)c-E^F_r!61W*x1$G(V5j0Q1kedYChcF%n#
zrbd?6=RR{hud7#)4uIRAe=6U~zg#bqGRt(6b*COknuc{F7>gU)28)>a{#?yKB-Tgt
zjD8JpXSpAQS0m}Gdw!?HTJXNxP*o5gSQ*1To|XN{&=Y@}@1wr3fqN;(@MZPm$g)J$
z?a}v-XP+qM<82#~)#BAIsjkVG7UFxdWn~L3NZymwv1*2pgh$M<G<|Tx&r%QSPg>WD
zNb(6s{bdR<Ew1G+%+9~l*nh8-z{LptR~3mA|9wmXXY;+{ZA^?sJ>Hqn6BccW2!|ZE
z=})vl3}(giT<j(mW0vq|NIqLhDP3=-yf0rf^l8B28n0476?~ry5BueF#D+vtJ*U6-
zV(lL5Smj}I1e`PX4O_^J1qacQi%sY{^%WKMrvrPo8WmPwcw-VlBJK*ad=N9*tI+ws
zOREDNP1ZStLFU`Kqxs2k+51j7v+lB2zpyQ=5351jgPgqJusQM@+YiDAhq7p;H7v<u
zyz8ibrL$3`64~NW^og-=4ZeOa%MC6J3N=+9MD-$<o@Jee>``#d+wNd3!G-$0t-w*w
zQcs9ylPuQ;wTgWqvy%^Ldn%Z#>eX1b3!cO9mi%ce!!R9=RC0ZW^nCBM>;0I7cfbO*
zjf0I^ZCN5(1Sel9DXuN&yIeY&%@0{z=@yFa(gSJ3uzi|%8^B^erplcnfTa(KFu?rw
zP^dEqN4NhZ(Y~MF6SZou&%H+AffDeylFIQ&b{I6ud`MvY7N16GhuzVs{6$#hdiZKS
zxqN`FD7UJL*b3do&URXooBhbY8(ZzYjm{gV;pO6;{Ec6Sa(POQ;XLn<Bcvlt*zS#o
zFndep@}A<bI04SY9O0Am@@UJ9Dwl{x(a5R6pPWKR0_Kc6`o#0+mvY&`L2?yNxx$NI
zjzsA$aJpUIbA*e%%<A43u+wR-5lQX@y%f~a@nmSvSbK@{q<GjlLel$xq<WP!-0SMm
z7u#+`XNXvcT!g;3lLhkK-aXunb7=gBrt@2ztTc`Lah02-sOv)A?a)t_c07iXT1y12
z*xqOBCFsR%#}gM^?#u5TG+n=~;}O2Rr0tP&Gj%7t{V|`W0m6Oh$GxNZrp%FdAzkAY
z*G*j4LOtx8#i-?_7P8iS#jpL+!cpY$7xtA4L3msoA>(lFToUDB3(5MwjawGub9w8f
z8NOzYO~-#O`H;wN3SIGBTb!Qj0>*!OS)}EM%BaZ&tOxTNcYB&M!Z$Wo-w4u6u`TNF
zJ4z?(LqI;YtQDx7$tbilFg#j1B<dzw9pD`HQ3(4S<T_hL+<&3$#-#8r+~yi2%$Q}_
z&7BlYtU~d%JE>8Ee<Vj;tkUU}sG63$Zi8LSr)Yl*@KbU*nwEKeM&nHqo5JUWW~Q6=
z+lP0rad8uU>R`HBthX1<OY!~penS?2u3bW5{O!-n1>a|MqAF&r61%*ycdEtVb{a#A
z0}vy>>*Z8JM4#Q_gZ@_kHYy*t3kFrS(v;z7iYlEKS7)#I?i`WN(r`WVoX)HGI2k)4
zu4{(<H}gwdK@EDnaq^gEWxVH-YOqU(=X@CQ+G)@4>XW_I)-=Q0CtB_V&yo)-P9`t3
z;uGK&-B!rOBRRsAKqHx#{qSHdIPtxxJ-O1`;WrA1WAE8rO=7qB1#8fM#$*d8on2<>
ziNy7%KM%$entpRSB9Q0dvVw8%$TWeE13*v^G=>FDwoOBHf@*>Oe-bQ<z$Y>g2+JIP
zzx_lVJr9e}75&>gw-s-YjP0-MkEtz(p|p{Azd+|G5|O+D16K*MUbnACD|pLxGWNRh
zq5B!}O{W>}&N`mtz5R%o@AZK&{TC65`4RYH!g4cN<F-qqK^_x#ncI{8Otn%^mv|(p
zQL0nx?x01NgU~Pg!umwNS9Cv-(oKQ%tNtle8FJ1~&_iGco9HUp>a(bX9(wK$N~_gb
z5Tc7wy|@nu7gKU*Wb&?C(X$@dE>sK{m*>Enp(8?F6n~K|uibH^aCG9&l3YdmLN+R2
zpEy(g<a&nrkh;vij;?b3rHp%g0mHfNmwwv~2XPhAQQHi=^i}=zrOd;H>I<$APUd0V
zn>-Z*Y(c=$%du*U-^vo_=ztry{P$$;!t0%BWK6pKM!z4=FHy09YB66w*rGK(BY?Z3
zVy&HhIYmQ7AS%wM%z|BvE<l{|#-@$Z?m2tlGb<cf*Htyebem@a&swU@u)f`HaO3w-
z7i=^R`OzMEF}kJ34wME@%>=-NuGm)PdzTOVzLChi@8mUWUeQYQ@q0q~j~|2V<0`lB
z7Vp<g#xhQZHj3bJI<--SL!up(jGKy%s$9;QV11ZWj9@}S?d$Gv?YvzCxGt`C`s{@6
zt#hu$eCmmU@jB6hF>rXrsAu~4)hBM_RbHsNm$bzJW;2o6V=fANET?Sj<jS|#i_e&1
z-qcQ2)+Z-LJF|yJBTIIQL$56Ioq;%%QNB+7=aERnGL@RnC_cuFmIxfzUT%~OQncm8
z_a))wByYa^8C2b=wXwc;JWu3td8wu*%*IonWOz3a{vr2Wt1Scde0dC&BI#P|(@3fq
zKet=nWrG<P-JB2>74)W}9|npdg6$+~T`=Be(Q^s<a`y5{#IkKjFFb4ym3(vxBu~Ca
zjLW6R<^KW_st6@!h4Gi$T*91fD=R7dIZ})Q>04r{qR=hAdpt~@GoDdW<t6P52H-|Y
zFFwI{C}>2TQjaOSoEZOt>F2J9CfeV=?B765B1%-R9;;GY96Q{#mM-%tfAqM*oG9z#
zr`PtRDdhYe(#p~xN4(?0d}qv$Kv;>B2(EUp@o9HqH0(~qDK5f^uakAE3qG|?<sVn<
zQ>2CWRuG!%w3zl>W6EkZsaqwAH1iu1VcvMHG&y*FrtFNHMlVClfChYwxjLTeS`PTm
zCuAf_&)C@58mav>x=R!JEzm1Bsx~^%u3G@+@bDw>`*$=A8&{_b=qSD!B}UJJvnOet
zoN9aa4^JgF$$-nja@k8frI38!{$5pVk5)J+kJ}dH@v1g`LP>i1EIG?!czs)$w!|uF
zjy+$^s+WY7W*}+-p<`-L{Dc0i*KxdDp|Bp4zAte!Wf~F+GM)dbTI_4Pm4}Q`k{8!r
zq+ZTPABv!v9ah$Lg0$*tRz?VsAU|bHCZ|S0p$ljEfPoMn^llKL8C!fUEddIEik}Bs
zHHPOjwB{XRXWYO@P;w2<-aRRMXbnq!8nLoxx|ORysNBT&ZII^$45NeVgn3113B~|%
zTq?&9<XBX~Lf`gVAgTCnLEM=I+ArIG%@7Of`h4R>XgR+px1R>Ru{usIbp}-1o`Gn>
zt{RIrjU3Olo<;w#d)zu|Bzz+$2YiVu;n{~?`)BZ1M{+pt`=2v0D%#89Bk#lv3Oid_
zgtfq=Y67F(DtEcsN@h~i;JOzKAU;YK>gC*+sD_QOwl*HI()`pM@M(jK2kqdzPj%P?
zf**ezeYHSCKE=&yxLd4ABM|x6p|0J@1f(MHIQXmHj=p#mC%}-?jJfV%(Zhm+!qNFW
zJIFV0#Cnx+Ca(kcdOlnARblFGv`M&N*u&RT9{|nqiOu2J+=DNCcdw;!L?@zG<=u?^
z)D@04ftDkXtv?|4TR(9?sJ@BJim3nY7V38^<j?}FlTEkG<7o%#V%lQ++J^V1<2w)>
z4S=C{y`Hi426F}|;0~1!qg)oE$Myw8pg4(rnS}!273%YN?kXowGB0y&4h(LQFEcJ2
zu{Uzv7lBuD?WRQzv*S51;#;y0K8WaWoU0B3H-58=4RM|6bMj((iQwuCBne0Aisu87
ze8MTP336s<)YOn$3bWHP9DXb?ibu02&$+HY3syJ}$rD%^)FoJ1H<vtzz@Je%@JE7c
zPoQqt--xD@{7+<hJey2HIzNsnUG^RXnAN{14l7UG*8jx<*x4(eOFyR%Ra@TZ;s1tX
z=YZE$cO0L~*fNRy&b5{0K3hSv`>OE+QPIkP)W+ab7`ZRi-<`&5gR|469NfCDP;(FE
z=shEz@0tp^FA+yy!q(;}WSbB&zk_S^TBTvwKj*i}yl4G9)FeDJ8yp+lf!R<K%9%Ac
zm6O0a!Jt@|*ljcr2#tkkn(usmL>?|>%HDB9hkc$J>P=bpb>L<sUKqH*h(J3KX6dj{
zp@TsCO)|dzv64jH2&3+N=!3n!Cum79bu|H~(M|Ta6gt#U5*ce>E=11_j$a2)Zy!bp
zn+uWiKAYE4C=)CqgHi%QlE7-!gCm2V{LebQ;(k|!U%QPV+Pl;JAwnqAp6Mh|llcVX
z{C=f~O$t7(8EWtI-Fy`rnX1sGpVJ2A;Unp5wLr^X-`5t)C&L)H-HmapIM6^BI|CVZ
zD!$wjyEELBvET`rsHZG$GGTZ_g|}&xm=%C|9wloCqkosON>Wjg6ahwwgc$5H6h%ln
zEZf9aH^28o@Y)Zk&fRY^;3i7+L=R(3<lo{e4izOaDGnu|iw4HQdTyDps3#T1u#vY@
z$B3BJ72C_1?gJ>ej@3N04LsHiLOlDo-x04$94Nh2g=E0}g_3oMp~|}<Kl@A!edzzq
zD}d_7hYq`isRB$y159BwMF#JmQ}ucx{jcB4_EK_t;hGHElYlT}3GZHIo@!LpDUEN2
zx=CO4V=1O&(>)N2(Vj?t;pC{s>W4DFZv(qVKBWcgocC_1UfvL18t*^YI2;JHx?Ofz
zurU(0c5b}KIlcucc*x&oC%$fT-;t7QMXDW!T{O~Ps$j0l9r3_pu~A@%`DFe*hCKo(
zjVP!`#=8(`d%pzmr2b;2^!wYZ8WuS9_d?H{Z7|#LlINdP);~BiE+I;7yY9!ZSh;Qt
zXpvE(Q+}W;eSbhMt>yw=#lM|8l+oa{AqY}Fj7^ux;PsSOUSWZp2O=Z*BPui!e!rLK
z-J>^rh-kZ?aDkK#)er`-lTYSk>Ny=FRC|eBdeGRYL{M1xNlljpf|t#*iC`wAWOb!H
z$q0iOBJ+vEAJH6nHA<En{Tvfy&s?EM8O`GA&+PF%2@@#WkTfuR)Qitm-Jt1D-ieTK
zpxaW<_n*r3?D9^z7H7~^JvGCYgk9Aw+YX!daFKnr(<^s<AAOC)I0}x%FEQ#41pUa<
z*O)qZn{NZ{YEQ~UFhtvW-<bLvZg@mn1(WQ*|K8|-uLrX4jO~yEb;Iq5rQ}bS61_^2
zlqNt+wAjU_ncsE&)eA-RzO%Qcnj~Gr;YXU~?Irl9EwMFmGDit1(O&2nq(RNHJJK((
z5yXEo?wQ8#nzJo=(|nKGCw)FSv?KP72{}-#tKK#|NJ0<SFm2|AHcidD1e7Ds$SrWX
zKx9@^pVxDQukoY_VM@}LJi3zZt_xk?jY!Fj5?*M2XRe@haXH}qyp_yETV-}BufKSN
zE=R3OBBNO%O83ntq(fhJN^4s!o7w1|9f5#L26wswiz_)f#bZ50<Nm59HN<28bWU`e
zOakh_yjAwA-yp__=s4#GmdnjPb0qaoO2^=fZ+$~OdFD-xGu#Uf9oWhyB!-7NkzF*5
zHsFc{VIOTDtI)N*7YI(*DT0`9u{gIRQz>;omm};Q>{`Hq(1#Iw{vMhY{d;1H+m8?|
z;vhgTiywvW;u0ahl`MHLav+gkkb>Wv8I#VC-#cTBUb#fED8`8M>^hUF+85!wJ~T@4
zA%WN+_Ro#E`Cx*n>};9yRE;#eQ2^o}EkZt>$Aa<f5$j389!XZ@RFC6cbF7HRTCW=d
z@cNzaK?w9GneyqFyX7pd5cCWP#XgqkI$6n<S~%%g|Kq<`X`s@b@hJI42`3pTng=UX
z6bJX{naU!f4m^)U+lnoKx=9R01n;2~Q}Fj>WGq*$^{bHYvL6@U={WTi5she^HV<}z
ze#{GKCGrM(xRwXO1oTRU*#@iUg_+t11KFys#kZ_kc1wEbJE>6aKCanfU5VqX*uqR#
zkJGFs&@tb8T=b5yu|P8T&_W!>8h=$aF~1g`P-h*nI^LJEMR47$uLF4vy<%I_qv1Gc
zTVjjhE<MnQ$K*00WzG`Od{{Ry!(#m0HqYpJ<{IG#{^<@u=QFycR~<Nau-`gBjKO8f
z&$ayEW<Yzatfr(@^TT`%dSNS^E!LbA8e3dj*7`qv0-j;F9WU>PyMVjq4fyPQ)7mcM
zrNt^YNZ6WQC{&G<I19=Zhee+X@~>8MbPPTzixu+!J{7|{etO#(!V{Aj`6=M+ma@Vm
zXa)~;)0if<MNvx%Ef|Yc#D8TtU_P*?@}Wt5{aNs07hS3zv@VR~q6A4bv2<5bWjb-N
zah$6(a7EHdeuAJamTR<Y9eLjlG%AMPfDirkIL<(exIpzmAYD5oTQH$w)chy^VB1Lo
zldRS&ph#s_Sb=<|o{5rgjLRtDB3C8Ef7i;Kz;=Ecf6%|xTvU5<=s#}9BR=43F-bWj
z`~oR>YWq;BBFqvv*h0uq@%hgQdA%YWdd9{Iiatccm#ghKyc}c4*>;)G^px<8z}CD~
zARdi0>ElYCb5Aa6pB?_~7V4$=Z<QzNxB6@Jp(XiAI$!+jCon#1L5Ff;cFmRlc+>7m
zP`ayux&D@~6;1o{nR#(xfK)P~#b*VWNrI{U{qNdSbE|p_i;JuiZ|iKci(Z-$F%5Nr
zynP}P7HSOOfO=;fx4kBxmoPf!kO>!5oA^Bq{?v!Al2Idhp&pb?>R4^@6nB@KePpA$
zjOT}2tG1!}bE)&5&$hs+Xd!%Fqao{YSRTulV)nT?$RAKev|6`cN}kX;84N*v;3q=@
z#T{hRN(sJ2-?U6?gJNOZU?(FZd0|I}Ng7QQ-{yXWqJpA534c~7`Kp%`7vEQ0)R*SK
zZHHtk#B}hx&S}{BOC{$hhg(vFlDIB`W)TCfnjw6JkC6e_$>yBTSw}gQQPlhnPU}CZ
zpOL-}g^7y&7!jRrd|lVBiop?@&cK(5S{%J?^)1f(sE2Wa>4A+6?`lh@5pT!!!7z?7
za<{5omEN0dCFO(@L)47{-CCgyH8k%jw%Do^&;zg)%PacKQDLFQK~$gApUy6qB>+#@
zUIBB!H>kl7Iv+%t55t^4EvS{Y{uX_z*AxP}y^-+|G9&XCD-rfqsb-hDb9SV?M7cj*
z3`!BW20z^e3@$!Ppn+l(iEK~~POUZvr(}=j6j}1~N}SV1>R_HJGTtD@n;yp2w;QZg
zWM!?xD|zSXY;N^O*K%Lj-W&tQwo;bRKQwVGFMeJq^SZ@%<x293kz6;@Au_jP@eNV|
zBr_0)rq;j<04-gL4n-#69eitlaJ^Z&b$-zW14%1<uwWW#FvL`W`s|m=a<+;uzvIzk
zVhLE+CkdYj#7i1)@!MM^qe+@LnuTjc-Ms)6Oa$VhnoHOuSreors>E**5*4GDk)bc^
z)Vy<O+1D|wxX*jyd%WP^=H}@1s_qHil}uGuQ0rTYub@cc60az~Rq&0V!JBb;*_)D_
zWG0X1N}EGUo+r8ee(CMi$}cLnY$W=(B1?=*dKWSZtR!`{Y7;9h(FaU6i(-@aP3=|f
zsX+djoEoRs7EV;uIrtQzE24rg4CtAV(CT`ow1aT+8oadCmZTg_OH!e?M|p>g9uuwF
zr(q4G4NnnTZ<nt1oO-BLNAF$??!CnjmrK_tkt-Em%}0)%F=;LvtAFRlfbXN5(vvms
z$1C5wc$pF4=IaGD{_^I_0s8*tTYImhXB`b*o5f;=q7NLOYvyG>m`V_cO|sqvA-vhD
z8~VvwH98f<e?S3)08Lr<GQj^~KJ;Tj`P$srfGV38*1I89%33Ak$q^`Y#Ns`ncQSq*
zmiF&<oa|569m9(FV78nyrs5KcKVlDE*NxAfKi_fqWR~Chf<h)mV>??TCqyuvS(2z3
zKI*dw_GDB;!BU&M=#1<FBgSVon1zLfOiKBj4oU@Y(F(qHWR*<pMW5}v<f2g`JSMdG
z*eAU)nUogQ(?)&lOmaPQt{>I;-r5(K>q@<G96H}0yTc1Bx(|NAWHnk=WF&SypVy%)
zB|wJk#wVXW1EUW}Zb2jX@L#V>chP8Hns_VHC|16S9cSIY;aPryU99#wyyQ2C=JN`g
zPLcU(Q0Q+XBC>;NWc?lU$nc;a(mk`(EWS#Xzy9d))}rMSG3|?XP!A6w9q-9YW6<@>
z1n|O<p$>3Ainjk{JDKc+vOLHhsS)UqR8>%QwvD0RmMGbJapQwb!1${k40X?Ojt8`S
zmA+1g3G07m+nJSY*DRm>&Oi4P><h9<wMqSQ8}1y~p-(gyE1xIDKGo@s>J1&ok$r!4
zdq|~dsfqs+X^X$6oqo*Gi!tjEP6dQ`Rr_;X|7`dJ)pBEuP6Nez62_C)Y}Lb0LchCC
zpGi4>$gMXz6UWnP%cx#?b|PkMZ5^q<hqCsgZA<<R7c>J?Vc>M(B$h-RuSmgH7!c6*
z<%Q4y@iM9Rm0xch8#AH`Jx$)mHD)YoXzN^b0e64Nd!YCrds(7aI9~mlrtY#|RZ_I0
z9IyF%;*5j`{5286lPSZW&u8kDZ>(hxT9QZIt;WxZDl8ooOPc97(lpbk-v+)A&`m)-
zTgW#5;K#q)qe{&p&|{j6^|k4<XG-#W6Xz8X)3*h}UvAY{&oA!lFdX6vH26h5LF$dj
z_MB2PE^`t<zVAl26RB-<`%EH|L@G_q-JuSQWbMjM4C1W7*>yDiWX;LS-@xZiDq5u>
z$YGr5lkBs!+0q=rdezvTWHqGT#DMXc4hp@w@Fuf^7`;fYl#bMQE*MOZnOSQ;#|`CX
zt%vmWmab`X8i8ed8iq_&VI=lGkn|>p#4#fkxW+u`jT5}Z0|S`6e*R}0@dP@_CpafN
z_HlUBucKXU{&qJZL(4HC-4t$ry7?D)`eR)y=(CPjte`eT)F+S&)o?`pgYCDqc1COh
zuP~t4&SZMS1E99AzYv7~!nu@Ft)WvSWi;RDPVXN3sLliv{4LP>1lm;{<2CJDptVpe
zyTQ>oT|Zjaii~F7`wqFB_aewUiakF&sV{ehONb6=CCn4a5R9B+V{+W`JkxYXB1<;E
z+cLy!J;u)9OR=z`tE|EBEDZ3d&5W*cTo8{^-SmE+U;<-Mi-;cWn7Hr?zrayoZ{=Y0
z2y9e%rH>!=Ij}#TxD(v=w&a8M>>4pXc`+T8LI*de^nu^^51MgCm+dGRg7N~%r8`vU
z(7{u4GP|FWj2~dmNio%<iFIQE^p{p$Rr$Q*C+<r7aiP^l_Ed;};)NO$yk*ZlOuum{
z6iU`#ETA|3Lvab_+h~D<U@4g}p>ryS<SFE<e(cQLK2&r(Kk~M%)#EZzLHy?YWt3}_
z37O#^y_Oi{$K&7}E|c#*>v{Vd{y2gk4LAF<LSKK?uX;^BYP_LS`*KzUC?P)6T7Ezl
zh{#sAoy;#Xk6(N>A<ZD&%|gx_;AWY-by&P2;rPQ=Q3l0aq@uGRGGo0Iwd4lUc_mJq
zD*MwfEGL%KEBy*r%%iZp9g^)g+2Edms~f@G+pcP)(Z4F`_2n}4h#l=~Tu)5INZuRf
zIgc#U)O0%(OBRg*{R%8QcV%SaEZ8=F2#G}e&?p$f7WGijkpw(lG2{|9=etU{iBb#6
zU4S&aEFd-qa9+HesnBj{>T58a5MeF=+8_Od%yyyGaz(0|!%l&q_x(9kv-Z2u<I;B?
z*J4M@MuQqp3CM@hJ|BIm$@@T8+g5U2E=^TS63bjRdw4ekrChsN{5KJ+g|YD765}$i
z|F?1|Nfd%$;|%-*p*SD#4eHtDO@98BHEUhEJxjdan9ZRh5v0TuZmivzNbg(;G(Qgh
zd_cud(0bn|S75Vx!Bt|6b9;;-y?h?sS~|ukIpnBg%^1>N2m&DO+xBaUkTCY(e0zp$
zaPr5OmWjB*{azX#SdK=i?}294n8b+PkLcU8V*og-x4y|Wnliy8V_mE1081{C_PvN}
zb7ns?x!U_kG*-a{2bH8MlT?N;Mt;~pYM$<h+x{tV&BLS+g~mNG6In{#7UM_vi>55S
z*2MMyF3AyU4l9ywY-QFe*q1hb9PhB6pPHb5QfYXIdLfs#n>K3$16%`ROT=vJ1%KwL
z9)6{+!Z35Z6rsw#l3{=I)SiL<D_taP47iTL-aY&JMIB3edGC9*B)5%#i|8RB!-8Aq
zk*LU+{x&C0u=d$B{p}Tbq@m^(Sg>R2y@1y2_GfuRF7?p286=+KhSP}@a=Jk0N|>uc
zu++qiA9oJ*fPF%LX!Ja#kI-kcv0sZwTK&cH*W<pY@}*!KaExlkrVKP^vvmJ8i_syL
zKmYSMrxR4?gITP+58@?}_hg55ija1|)Hyr97^A1QJarq5R`|y8qO8TaMndn*1p`xG
zjd{xPEmAPgOLg6r*JSoYf70(5+6%}nirJ}09!ae8`Tywp%CIW9ZCyo_2I-Ps(jh4g
z(%mhR(j_U22I+1Tq@_EhOS-#3y1PT*PQKV@pL?JCTOWlr=bB@Tx5m}amCMPu4V2o0
zu=JFINryP<;mg6P0-i6R1zeu@ygojKrx^sll*8he6WPps!2a-buyM@!>PWvb6rF@8
z>$aF);eCZMO4HrN`y`k9n%Y{)A&b|p%H&n=TR+P<D=JrSJfa@V@6tf?XqtvmFk+IW
zSut;5;7t4l0fGm^r4-^*?mo5X)sz}U??tW|jrgIE^IoOf-v6KO?vd4Nx~r~!J!Jwj
z`Esf5-|PF=n|d7ngy^;83Qbi)Np{v~x^b%tN3G7U6ow5VXWw4T!IlMS-LIlP#qp<1
z%dJU*W+;8(eD6ArO+EoCjD|^Ix`1D{@#NO)BBV-(Cz{GhB#W0OlC=nl1@hTv?(%v$
z7bBmj=^6(c+0gRr&3;@^XI5>Lcr|WQYb-lquJ!w0ZsUswX9OejNkfegsQMTk)q5bg
z3JxVZ`Z9@$88qr|bruclIIy7|8_o;Z(#oi;GF$rBCvkM9Bi#w8+AnvaN^>{My`vMD
z(n;A)uQr6kN*OBQ-^!V$VyZX+{pSbtxyr*XL$@*X=r>mTHL7^3HgE2Ut9%mio(<%j
z{G14dHu@?X9CxE(ypKu?X_pE5j_KV{f?c2pQ{-RW5gBIq=Jt<J=nUU;W%>TrtGltN
ziO`pFHVsFX7Gfb5k-ITRC9{`R;C+kH8`{jeIApWBI1_4IGm8e2q0{}A!?hnh)2Dl~
zukLTX6y(}se&b$#k!DeEWi%NlUhMX;p281y_;p8j3G3=-thyB0tytQFU&oQWQ1_*{
z%ret?m90p<N<=Oww;ONo)n1v&G3qOg+Ah-=OvtP<u_o=D`~%o#;>Q`)`<@Vck=rO;
zohaXue2q4WkT3phieUn?%`tfj^S6Wf6PLvuj`EhT^hH;HB-ZF%GAh!Lfbww#;*Eew
z>BTD#R!1Vc-<$=-SOn%v#w^k1-vl4t@j_2v<x~Bw_-}7-S64bhI4Uf;85Q{O`Q*(Z
zO7-{-;veGvdOXR!Uo3zg!Gtd7sF|y8rXUdmKIfYt1YvsS>DfX|c@m&%V`t#ALO#lo
zS7!1Hv>P(rwi$34raVdbOKeUq(ZcVuUxWW&D9K;9vP`f=%^wo+kv+#{3Gih4QhCvk
zw#vzC*rcM55<kR<`zS5zEk<I6kag>#zJ~d#L$oY@UIi~X(tlu4+$#mG;}xtw-t8mt
zv!ffb(%CLGJ>1Coh>f3S(xo}pB6o7fYS{1KH|aWyPOaj{6+B}u;plm`95jJL>=K%@
zxN@#|nKc;mxeC0@c>_v13@WZAC%Iy69sbt1f^GbH@3wx~r|SJ_IMXs6yrAIb7%|*5
z)6bA~@eJAXvxn#45>64H4A*^a!hXE|<tC{<Ky80wJPyU7KjSvrkhAWBbi7MjDLMX2
zvv@F|1<Y7-Bdq^iwN}FM?)dsDo0b3Yv#?X|6*F@_U8~yAkR?cyEU{6{x7L(OM3z_S
zvQ_Hvi3?Wvh%BibA_Sqmy2+^{9r_f@fs0y<Rq~AJQc^sU`!&u((>lL(oi4auvr{k2
zN4VErdNtfb%@;?n<2n)@MpYygAAVB$B&T4WX=8@w_m_F18tm?&_{725tR;uTdOQ38
zn_K<->`p$u6Sqbb6Q&f^+CSZ$KVbEb?taKw<uQ|6J|72aCu*%m5$B0E26bKOgf+(H
z>SaWk7A2T?#59I|ru-d0Utc}29=7wK+U7UvNvSa#q_n;Mv(|_`jIiFZ9azy_l;?U`
ze9@GXhxP2mNp?1|n7nTfIXnC7!7d}1W2*xc6`cuF_dV4x>Q8zwisDNJZYw6WegVXy
zb*I5lC3tsOKex7Q`wdT18nz|mf3FZWkoxC&eFCGcH>|wZ)Bh>W%P%>%&r#WPoR{K$
z!=+OqRNU`s!bqy7{PdM7`<hN6CF>p~W=~aOGK1X(0h%#*2)VKxbbRB@5Hh~<7LsOe
zQ)VO4#RU^~u}N(lRZ7NhEqQZtUm%}<)1b&$xTOMn3m4lNh7fmjs{Sp^QR3z0=F>4<
zj;1q|&RC)hT&l#e{6W!Wt~?gT&^#|A0bH?om5eC{g0$UU!nBK6wHH+i3|qfU44H|J
zHH}s@wO!UsDrqpMQm!mCX#1>a_D^?`JIB6p9U47aJ(5pnWj{b=AqUqlAucUQsPI0s
zt}5Xfvzfx{{IRz6wnU0$P}MBSw?#OcS53!3>`^{bT>JJ7&P7VOV|h&n^KqRqNgbIq
zl5X)_x;RGI5a}X5jB@Q?!9qlh$Uz+AI&B`wW6yfVf_2;atb~1pOPzeo6jy3L<gDj+
zeyt&7O%Jl@VhqTZ5$~{wAIEypjO&+UzDz)bo^L5aUbWZ<mkyX*v5H0e%@LISC};fB
zk1W+um`n$JU0*CN*DZgnRBDbUTK%>;f3sGi&}~U1jU@S_uy8k8MK@HE_cPP1|FZ6-
z_ygjC?Sk)Hk)!4-5z<i$MOXhIhXBR#Rsh%er9?v{VR(3WT5*1}dVA~gu8wj~@OF2;
zOKkxQ-r1fHrHC$KhGdUXvj9}@{Z^2uISlIHo2N+>f|s(0y+NXJ>Q!JJCT)G(C^nt{
z!#BbFZZsKEV)R^PNL4Ap&B4Kyl})R$6{TMYg<TG&=TXJ?h=)oX3Q#*`NSzRlwm8H9
zEyLmT&YAmv)lr$2c!Wa!Yh;Fv4?+ro&U=~Qws2fhr(du1s!f((&r5&hR*T_nfy(BQ
zL-}~P8eTDm6$LsrV+#Y}#j9opmn8+ndKSvJ3@S;Zv`i=2Q@Fz2GJ^s~9ZQ}zeVR0s
z;it3MEwzf+!$oRp<22t1{8(PUv-_3cgG&-jUdo=6B5id>e4*o>c|2U*_*oKQH;52U
z>C}D%$B^vSyyf+g3MY<qByJW5&=>lIu@uX#jHI4;T<+r@jyPY4wkExrfNSqcCu}%k
zB<)}Qu0g<88)zvLsUgZmh#|(s%|$EQdDbZXxzy>q*>be@@kSmYP^_gcdXRUVJPx&Q
zmQt7T%59O&D~rND(xU0B=-h7JDAlG6OB{&f^VFJ(1|I5&9rT$QJw(agHlBCnM6B!v
zmdj&+<&_l(kTd1kzHz3KekrqrkF(8HGPKM|DvIYzx3h5G_xeIFFr3z@<CRr+r8zj?
z;Pt(rhYbSwUS$Lo2k}JU)ANSHsGqzTB4)1e6+il^tr-<0mu^dIrJ&7Ef@S=F-|vML
z`jsQCyAbyhFF2Eqr^|rWk$Tj(VouK7a*`nBw|npmQO-9jr}g3I6+>thVXA(ML%-p1
zHX%WN4c}*Y4f*bG4P(|iB2#cZ&%dFa?|N$|7*gu(!ot9`PX(}<jZWXhX1aL<VFuh4
z-CkXZKp&2)gyrRnYUb4@^Z757_hrLG&8zLQoQY*xc!4IzI7NP*Vg1`2qBp_wW;YPp
zJLCtqaw*x%B0WZwA1Gj4ci;YdG+R63-^R_~tFg1~#eYN?q}DH&H2<ob29Yf}LoGny
zj8`gG4_)6gjaYD(P8X^E!OTg~7jWW1;=})7+9=F9JGb1d^LhlZf_TxLsE;;}{A(qt
z>zw>d*0^R;+3iG${7et(?_3B?C6S6&I43}<b9CoJ=M%P3aeTRAs>99q5&f$+8R-=!
z??F&f;hL%}gHFt@>-=S0jFL8`i5*s7ej|V7K`V+~2B5^1_^$PVAc~a9%r3=1o$7d%
zqRRb(5ie|>aR(9CjBi{HwQ>W+WVL1FrT=CfuSxLON9>u%ur|O2eVv28c<raqY+;C1
zKt`;-)wG<e(ABDlbr*F-GtBfv^Tb3HKr4o$QJP;p>=?x?lSn%#e#(jfG$+e0oq`qL
zMBOB8X}@+#nUx`<gj(9WFmbR4X<^g@Nzj1Vhz!b5Upn>7kN~-(*l#XYRH^P`a=B8W
zTj@{S)FhP)=Jr2|IZ8wmwz&|wI`<7qY=q_WRrRk^MmUcOhv^9)p}O!(rjV}8#!K`@
zf*ztsQgg+j+F{IcMIwxMN`=Vp5EY4LB=^M2bWG<9o}a`H=FpHc>u^jkSAS-lpB$G?
zq{TlI@uuQ<<(<cF#y!I9oP63|dDv;ufRkSUY%fHo^@BdO?D=zFdkgS$dZN{S?gV*8
zz&p9{^8$@~sjWXkE<$c&TW+5r-QnRO6LK<p!G)tn?n^XQIXSsb)$40f5Bte!P0QB?
zrt=n4#b#oo^+V>g(dJh_{>1`BD_REzWLbSilV*1#Y;0L2ZiSI#DITdRy%^X>!&49R
z_{Ud4ZHVCSj<aHldp#N(mk~lOk;(Hf%dW+cU`#A+?Crp_E~|e)7=6rPkEEnhD15=@
zf2!`kcht*sSiCaP6QM6WNGB~&_EC;B66?o8m0l?8zn`FE=BvV{$gNf(gSsE(ts?f0
zL5U)XUN4g^s3%r;G%Bnul;fI)g>b7|9wU*4j^Q@zP49+GF&qBa!}m!6yPk2yZ1CO*
zRc+9cC6=uYx5vgq-{~6r8)uo`cBm`S3vfoV$PVJId_EK&{&ev?jH)W}x$<&<_lc6i
zCG=|Jy|DD$y?oa@T9d7HTO_KtBwYb%OyUbl*T<d_dIqP8J|I0>Sg68=`>hBN%u`z+
zLp~`58%1Z0=xmNX)DrG0liMoce(e5+j-|{`PA0B6!ZV$jghnwc`(y6oV1nu;p7;vO
z4;PY0cVGpNT*tJS@JPJ_F8wwu$>LDe5H^PYI(;@D`Gnm0{11fYF*A85BZ(;f*Ag|N
z99;A}T)2-kYe4{$pg|pq@_lP=-50^3XSJvu9TstIEmagiv}|8L2!Ac8J5mr;egwu_
zyz2qMJ>4e4r%k%BR%d@)KAjWe+}{V3=f|QdBJ3_UV)5}y#UZ0XzUQ6Vy9-M_cy8CN
zoSxp4(bX;X?cC2Qj6Dtdd5>SAWQaB-xOf^~%onJ+Pi1j$y+trwrFv=m>yChujfm#%
z4%$4-PcnWkyRN&4`@DR+JZnk?1r>g@KZLfH^5=pp;XuSQ%r~M-`|po!DD5};LHO@`
z*9;MT0cz(<xrcL>MMi!fq|@{BjySp%G@4vGSE6^EGls0Wjd=?nqqHn_P>GWeG(^1?
z3zQT%G7NcWsI4A#?xZWQbyK~;By>hF?k4BTaWbGfpDa4&l>qA*sj`&GqjRy@lY!tE
zq0>&9_#aoNL8_Pgp1ijSAYlK;EckK=;pk-LjW=*CDp&=>%{NvOx~)Mifs{kR1;3&r
z>!9&QjJ0S)*8U5uY9frE{^t5r@GA(J`g(&dZ&A;4nhzZmWZQk*(!70EjikXXE^f&v
zy11jn=i;l8;x%ROMVVwj=9Dh_1^`WW2IodkJ!!r*7=CR<LRd1Ke^DJ}Dx@~-(4e@M
zG<s|GPt|JS0GLVh8(A$TwcC5Oz0+}`5xVc?0`Dcq6jLGJ6$ed#e*;gc=<UYChClOp
zfZo6scCP`A?0#MUevrsukiw6|EyXa}SGt~G$!Q?+NkXgpmJ7ZUHICfod<Y+vh&=Ny
zE?&!0`V-G0+Z3St^$6cK9eV?*ym7?DkGibgIKLEX*`bRqv8xPTS2$M{OSQN<ju#jP
z41ey>LOHZIzX`~-wLa{#$M*z1k}v_x0%WS$<J1~?rIzt4Kpq0W*f!qfC>5uImXuxc
z%S(z6lD_!J{hKG*5{zI4k+N<M7+6ZSmF#v^8Nj$4H~|Q>lEctQHA7{g+{bTHW`(oW
zv>SX^uvN9xSbwxXIK0~ZW|dK@R7ke*IIF~}89GGtye_fI{4CpA%CM?XsbyQ1P9{Et
za&t?lQy^gM_|@QC@p}nLGe&Vhy7Wi7=r81CFQ2vQb;sIhBW#z4l<2=;eK3I`fY}*v
zlJ(Pg)1Znl0d@vrAyot}ki}4;Vfwkcx^^9WT<PBWe6ZyTQFh4*Daxv;Pii_Gj!Ioq
zWT@WgTs4O;{l^q%>D3ae27T<=DLs<ZIYmiXlru45ffDS|ifMJB;@4dmG55D;TCgAZ
zRcq6oA>bX%h<I}OuRk96RlRdxf4a*Pcu{=Wt{yXJ-Y&tW1aw=`RP4btHhs(A!X<VK
z{?H7_U7t`0gf5a>Pfk#OMGShi=j)WG(&afx8!JWqHtyK%LWi1QT=2~8HSVbGH!zis
zox_VeF5Y;y1kGgx9s&J;?A<jS@$wSNNIhbex_^eI$k4k(7@^pXG>_+BXvd0`#6r#D
z-<OV#yp;MPuLn=ugrJgWz-ATn)eDyYwRys1e~2&rRJcxOfjASp(G22dix>N^C~kX#
zyngmty8Oy~#;o;#U!I5JpY%#&t15m9SKJr<s61JYNX=PpYqBRT(UPj?mQATFe$^BR
z%oT>$X`-a*V<uJ6!^6~{dm0|8d3kFA)V}slw8F(Qcn$h&qnrINm!nSO8Pet^2j%|M
z|Bynnna`n~SIANR@@bcvE>f@X_fEP*;!dApovK#w)VH0K1&?5I8n-{B_e82Tw^avG
zi7MBCiy`nPn2~gwG*f#!eCmIKC6Oyu#$8D?g$_wnnTvyB%tncGX2~ArD$?2v7tx3&
zmKq#k#B{~?#+ikm&3_+*z99bX0!a$91v>cjU$KK2(kqfeLpaZ7@%knZPRuXQE-<TR
zEboD`UKTpIva*Y%I*b{iW~KZk*z(O$><Y!x6Y^DH_%)JtJr%>+rV>flN@UYL=z%@o
z9?QY9g%4;6!Oeh^s;yHxqnb0|&Td9u|B6kg7F!NcGPE(rK=jaqu?_ZGbnVxyFz(1>
zKl=Euep5u?DKQYH=mK&rq<Jb{{V(0u|Ii_Y<ev^zpS%E}22to#$LE#y8teBm6wc8+
ze~QG^9wq8AI)_WwfA~Ol0zIxKQS%YX3+N_!i4_^Q0bv1;3On$Je(Qx{OSMP1)UkN3
zTyn>sw)y+5;^z%$?&fHD;bcX4OeS?Cx_zR4*o&&I5KaOlVayT~d$TvYFmem%ex~Ui
zou=yuwx{QD>B(gZQKt1<i1Qcx!-dkt85_%)82KY^Yjrzc8+JxY940Q5xGMJ|7K8ap
zDA%gM(&k1tnu(D>7sro;Q16{8OH!pDxE&D#H`Q1T*-^v$3n8Ud2{tMSwbDUCEIam+
zhtN;AX0(I*+zdgkZaR&>epy`F+Kn+6rq*bk)Ug*D>(X!C!#Octp+SOYo88_vIEIV$
zt2dE4njtR^i7fk+k@{mmB6l7xKY?MBT8LtUI#K%P2Qag+J57BoCP+#l6RpGATATb(
zB4J2(>}YnT!wlau>I>bbxt7HraM?=i4wEc=okQc~<oE*0Td+_@Z1fAI(ir0^tB(xv
z5Ac1FYVMRm6~rBWnB>`r*qD8sLfSe0-H7aJO}jgGIveY}=lScNWp_C=B>^k;u4h|o
zzxiDsnLvw<?f37=jYN+qIk!?=3Z2~tqd&|dXJ@(eW6}kUgHgHTuk%85RDU_rQ%_gm
z4$`b~{eqQ2FFji{$mc^CpRF`|Hk&pSMFBVN^GbQYe`Z3c%3*u-TLCdsU-WCt-(Rk-
zrkm8Krkh^wY=-fYynmVBV;^OxnM=9J^>-dZ;FGro|8e(%Y8i<Ac+s%;c&Q&@6w+mk
zrMSQCA3({(xv?E)9>e!YRzxNg9~pDG#o%_2sfR!l6x@U1{t@-R0djKZ`O6LyBu9&f
z4{m<thH{y|q6@Ajht+G#a*nTxt_^8_B_-AUsYlFc`O@1{p}vk_qF_C5_NQTwz=Ih;
z%|jW}-7#0{o1C)Zt~}!m1RLMJ+@vk(l`7K*m>l}7|Cr$vMx;t_*zMgVWpeuH_EF>E
z$Nr^)`58@S*dEqa;4sH}$N65(nbb?fCRY+6RmWfB$(M@yfAGVu!frHNRL)e^NFazp
zIyWzNFC;D1?zB|62~<CL_vUX%(|o<$des34Zg1qEp(diU<e6`gQ~6G-o}DH3E?dNA
zKmv^|Aa^x04ToSeYK(-57)ia^h0yG^*C~~bz!dRbW7d-lWCi%8v)>p<?Ure<8{nfp
zxVM}ge@zu8q$59RKM!j&)L6GEppi19l3d&X6l_3`xQQVUc5HE%P|b$#2BOCBcsKZ?
zXuZWyj(G6y<V!-r{880Syz2`iOlf!^Lwcy~|Kqrs-QZVrmGmQH-K|X7T-M0)?&1+{
zIo&%*+s&u1sHhOW4QdwLE@IL&SA3OTc=)v&eXXiQvsrD6yBQZzl_sA)ezbD3O&2=`
z*5U4+IRExlSw%(6v?K~L+IaRvDG4%7-+hckxpt;hXKz!9EE1=AWdRCCKR#UmrNs9N
z&zXba?;Izdn<eZ7^l@5lejCrUehtd$&L%ZV$RW>gzNqpnW(qvcuPpQjC@7vw>7GE)
zTX`!kG8Hw~Xl0zqyQ-*Tn`>Y{THb;X?-v&KnNjM6dsV>@VC2%=DsRRa#b@g_VnpDn
zyWmz-M&#z=Cb{Q!sG3ujalL&{G>4UWwmmkt7CV!aD64~$f`wTc=ylRqF;B`OWYt(b
zxfrny{q$c|7tA(%Pc7a92b`9HcIy9@xwH$zB*%YvyKUAtx~}8A6apM(X~%m=-2!K@
z-K;aqNj9<^zqgKIKBxt*@?Ro!?zyAMR0m1C%iHToqf*OklEC`8dt$N2275v+&e5pw
zT33pb$6SDaroa~mm-uFfeQH`O4!gs6?Ri+kw9$bp)_PZR=l44__Nh$M_#bH$LUU?Z
zjp9+8Ki9i{i5NrL#*lO0@SdXz0i&?Or(7P8U=p}OA)hgJvKvgG8*Q$iLL+YqesSSJ
zwxDLVQK$;ZgV_OB`WUa2EMVj`=5+^1cJ<mlR~0uCZm88VeIX*Wsz2$wF|iTGAFaf}
z1Njme6w1lb)25x<*IO((0T8?L3QRw)?ed(i7DtM#d)agSPHTGe=|&m}P7|Qa4s)#%
zycBhRr}JA2*)o$lsPRW~GEsE4R4_nNGEL7ha>pBJCD>HU<?tiB=%%nFUoPQN%e>)b
zvJ7)|4*`6kbX&HXu!mqGy_w&|veBq9a7od<kc8njIPVMn{l;MouO|6D^~`DffK54)
zfxMM*%AGPsLzJ^(v84%<j=d`!TrE5#aIdKpEj#7wmlSC@iMGaLxNO6lJm}ViiA|)}
zpw6;w|MVNSs7wt;8O}GtF4kew9Ew`5rct7beXYMGhZ;knEEFXOQN)fP5A~RW5NL`}
z-y7eBNW%>l04QJHS5m0#5JV9u{h(xL<Bi<pI+5bs?xuf~`(ZVaEVL>ZTt9q3sy3rd
zI^|3N_$cxmi`-3;C0|2PHUn_T5kDPbeS6-IGk3-@$zW}nopA%-<x8znq2B1x<Z(BP
z%*;p*^X}b^08UTjJGb9bj)p9`4{{oA7%^v1ddipXuo+5)*_U++c}mj}EEzV~^Q@SG
z%rLw!|3R<4okd&tb&C9P|IvUyLX6(j6fH!|z_AHr?0!_%<?%0|tK>r;e={|ZBcy}O
zhxBcO+t(v=0owWxj$<nvwc%CAp_A7mSuQvhN%*@{^j|S28vOpn0(!ryQK}GN^$^Yn
zL~s`u#fBko|28+Cz-|Iu)I$PrC?&aK!G)<$Mh?b~YUaK*`7Lb7&nfciA&J~9?X73s
z22kyIiP&{^rU%*8MrYcyM<v*#ZRv;QPXbJ`sPEhF21^ZchG@=!AbTGn{$&t{G(Nu}
z?63W8xKdu);oF=thD(%l5U+leAVZWrdB}#mPm%$<G`Y05W!-ttujvxcGeH1fNAc%C
z<9kshV8vmo(B~-A?rmh#a720>_xJV`a_!J1O{wNqgkCLCxU7;Z#@9k)#LIv~?ioT-
z{?EHvZPf}RNLr>WE5>W%!GsCg5-qu)WI>;|7*0K3a{Vw+!}UFp?1)@Y*O+t_Fb=Y0
zQl&WFV~ve`cYx3k>6<G)6U~Cq#7GV8FTd|h2PW-c46A4n?J$=>or5*45SKwe5a44s
ziI;Gb9m*^lB%~Ugv0BMEY$&*{h|TYL6Z+_ND02+(Wt5B*U%Z6Pq>Z69H1DxUN=~MJ
zqoTS>k68+Z8A=tv-S|oy=UBoZwCWtq>{w{TtEm%9|0`C3AsL03i12)IJOh^OGYBUU
zq{rAA%aNxK9~AyyZcLDt;b%TMyi%tq?d1y8q5sC>07no4OeKjfw>V3TJx$~YHjtu=
z{nP?ZiPspEQCE4+lRt2RiX`AC+$Urson^VYk$$6r=n0~$<rronRRk@t&$gDi$gv6D
zQ4_=iEjV4X)R^zF#dqeiK&1D)p6?^=5GUm22Lqy5-|%wflOrN#O}`~Y@fSQ@*Avm{
z)8iOw73qT&FV*CbmCX{Cg8IpUn9JJpX6!F6MEI&*anS)>KMzlLFVfj4?Mi<g>Y6Ag
zLf)n7Ni5-Ge2Y>rZJ$JlrYfpSCd_bHu#5g&Mt@x)C9V_?W;;mqZoN6YF_b=X2izQC
zxshKwZtu1)C*?H|iQs7PRwVq3i|q2H(33`qaYr3JigR3HsR!JFnZX&LBCo^9Bzu40
zRk$K{^DKX+n9JO4NGVlWGTUqK74g!25|66kC0uZ6rZu@gFKB4^>`~xUCC<(l!5BqE
zLB2mhJTcy-C-!4#+WK@`d2Nxz-`Cf--nahqp}|6(qeg=>Gb$0c@6ee=_^0<l*o)1c
z5ojd*ft{SuNXW?J{gtL88K0bRJW12@uztO$3aG*(P6+@9Mj8wc1X66lE;pmHhl`E2
z5BKhcAL`YDY0&Pw{zfmD<-NrJGD~X+g0sdET%rB1QwBX6pc_Ow<~!N?D4ZKJ_`#-u
z;Sy`qS9l69FtyfNkHl)<0Q*`br`a`=Us-_-&3v-f^8mQGR*f&o4Ni)L<^{Mqw;@SR
zJ(vLqC9&tbII>0kVrF$#9icVM=@=JhbbhY|u-m#RYai9cG&;x9=w=K+1V0|CNo|i2
z7KZ$nx61f0Z<R`yO743$lyGF4kT%L2#&3N1P8T$O0-p5n7_Kz8c{-%nz_v{jnuQbJ
zb52CG2N}UHvUk~a>rUY=)BYG5L*)bu6`uo^YUAo2G%E3Z@s4-r_J~%Sl?+}glJuvv
zlT~6kKV%8ireY;VIMZPhNfj}nQWgMb^+*}P{xTWX4oLbRnN)K?Dm6>AO9p1m5yp$M
z=YL9wgLUvKaQcmr#>!n#o$@m`$;n+xU4~7~0nv`0JYVPCFtv?R2Hj{TU?pn3*-txE
zsB%0vz5H>}eu|!5`RdClKv6fMGEEs{trQduO~AD%fsG}e*qWB-;i>1W9e@ARTK~`0
z@zuqgO%$Cv<63vrvnq?J&h{Y8<E7ST1(RpTnUk!A^WFgga30s|xZ}Bs&z`+Nj_lkU
zPJecPdniyFJaaXe%(FF;35STw7%Jq4NM^IxFv@Foz@*#6HaD5r_W5ve88Gk8w;Vf-
zXk)xS4&nEf)1_qCGuk!y4qY1??U)8I%%Wah%<?U2BC8uFJz4*CLnNkQE9=n^lHf}I
z0>{$Cy&l!*f03apeBLZv(aS4e5u>}xQmQKS#gg1=xSKF;CI%RTzUys}K(TjK7?9K+
zw6JuP^Yvzi{6-oaT(Ej$VQa@~y~2z3)ZYe>+GQLxm86}+il+2YvJFXhjNnAqb7p`B
z$5errp>DF97D|v=BNsKER+Y<Fw=R1~3*VM@B`#DX%O~X}VuWp%6Y1*~yz(gqIBz<e
z?z3#oEJcGzf}UIwo?Parc7!j!RwRF~6ytuDpNyh%IDTYT!%|Eh_*S)A-Aar~EpX5y
z_bWOT%K1<@eZ->$43Hno`RV&%L2;!S%ILuK9a=Yx!YFsa$x?%i<3tTX*dmCND0nYF
zv}O7ASGjJmSHo$P!r*+}*{pb+?EW=n{>{2aM!aB}?h}9peB5I*@>h|F=dNWYNx%Tr
z!*~0}H6&%lw~aG0J(Ib<e>ab33`l$_swc$_<t_OUONh;$lby|PbMC80zEt_VV)+q<
z{Aqz5XwTr!LC_Rr&5%NPvEk2Mv$JN_F{@Fph+^dn5)u;aTD#}<PW#ck(fiY7&(_X&
zF81f(;o(bNEHTcDwW<&ucgCX{l9KrdDFx5Z&f44jkd7zRb@jn>fpb~385IWWzEJ;J
zJOqcK)FyQja}_At`Y#@C&MlA$Igo*-qkXdIefpZ*DP+jfs4u?b{_b|*Lf8*t>Uy#k
zRE+x;qwRce2D2jsS3HJN_UL>{clG9ccf3DeQ2TJ9K7iF^(5pC1t08AoG0fLn4Fv-w
z?p%Zl{6=EGB<5d(W`$XjRJRs}nd?<V$A6)%>`w=~$e-S7yh;lAUtuMW@0CCN@JRHU
zt>vdL-$~ImSulx*`encIdPe1xLiZ6L<HR^YoCTodg)kcO=AwqT+rA=xouws_cqN`P
z!{NY$ikmZi_jQGc)Ww4?p|3&EU&I5bHqTsbKgw+v>ST*TflG^cdrL$0WKrxDgPAGF
zZIVvL%Zu@a(%CC4SN!}r<{*0dr%u5ft1offpu}_>0jg!8O<tt=lxSiMseOB?g(X^n
z(es6RBdw)0DJ;JS{5y$Hfjtxa&6hINeeXG%BO|20eFV~;v2)i|y0ujUO5GWl$Fz%u
zyqGEW1s_um#vLy8&#))=7q=@-5=jh=)?9?&1l=G@`}+*^bcz|Jm+(UGus%v?vs=$|
zV$rD~uR#kyE@`xQ`EQR~6sy_FC|Fga-q_YM!!CN_{eh&nSKv@yKh<y!<96KfeFlf>
zt1e5cjx-^mAqG=nHCHXU?t-@A8vs$tWRFghD=8YiI2{sL-H;t?qdl1y^Wh*U0fuOJ
zR8$TQs&`tMVqv95eK?t6od?rp6mISe^*NDn94A=nKP1pqN_2=A-dD#KqkMRK0xRB?
zd~<#MjzOg_g^%ZC^JkcAX^O@Gye}qrKH3RkAa>zzLzexX=)wQ{oB;G-m?~|yZMdXe
z?Ozs1hBO?+z5E4@uHbo}^?V-&0AwU*c*D1uwlm%9Afc+0W%vn8{lQ)?&Rk!!AQh<5
z2RT;nuMok-Y7SZ5fOo2{`bX-GrI#hib-!GbPqFqKEHm{2h4D`|vc4A|T96oV3}(}D
z6!<XOyTG4PDdIhE#S8fcFzfV(#N}=!Qfp#D!jLUzQ#$zR40S4u*E9)BOG|qFqa#re
zH*SwVHEUu03kyVR*CAkp$D!=*!w*V{r`I&7eh$S?;&!B!@G`E>NIwD)-Y9db>%|`P
z8vU(+`8c(&?^hgwzQ%4xVgV0i3}}>K$OdIXA9K<6Z_kI0Fv7PW#@%y<zP-H$91jLh
zdP^jkyp6+rJ{ip)-Fl~@NOj{_;weU*hCq{{Civ>c#>TALoq-sQffT;?Ghx;@!|B4&
z)M4$WJ08^XK71HukGiZiE7=(YgtfoDO8{C<eB!DaVxBQi@~_$jeBvuFfZ|0Hnq2dL
z#f0g>94ECTC#;~W8re~XC?ioaS@a@!UY%)vlRYwfkA)414Jp^}6_^I78O+_YtWu-N
zW}r<<Grk5^GHgq(;B|}>=D46>Tcsb;WDchX6Fg)j39KFF@ge~|$zjsD!-ZhG{a8@%
zZ#7K+LV%0CC?*UFtz|`U8hqpJD=5eSPw`F@cs3PkKIw07b-SGJEC-NyJb_Z&9@HNS
zit~&{MT2|KpjNDnAT44s_tPc;)(GNI?n@I?(yjc}#k#i|a&Nxaz_s;NIxBfJj!wO^
z(rj$_r;YB~U~-a7=MgBf!{{kuUxGvw6kf(N>7wpP4<Qjk(QbE3njtUNd*i-@goIej
zJ5-v3H<nG@CR)7qbaUtnZ(-DvPg}$3Lbnv+;qXu+F$PNtdB?S<#k$QNr0)o1{@mUk
zHV*`!ner2HJ3N8vv5xqS$oPn2FcYBoi*$zKqeN6+r~V$A*>GIe{M!Hlz_S8a=f%Ij
z4lgTU_Y9pliT|%$DG68*jyO&4t^B!-mzZmIj!eF;#!<!yu%j?@Q?zKdLS!Z&@)Dy4
zMCch;R;{Wnk56KX-6o&@v;_&FhA9{`i0f(8axcKNopzRgaWw1R;PHo6u2|G&6htMo
z17RZbO7pQP*OhA{Ewh2eWHa`Q5)!|s56E3-%BRDHx^y*^5${VDm|=q9BwxawiAWN@
zwH9&CV8N&i!()bdtQA?(2{Ppw6x8*OyV*2MD!DHy<x@gE@2}zD(1_bXUjxzqrX2+i
zs4)5zz`6-}qMF}WjM_3pLrRSY2r8`?2pV0^+cpN0q9BqO>9v`eSBv7*$OFLl_G-<Y
zfsIbYad+}LQL|(QU%DWbu)$9{^<wzf4&&Q@u1}-59nE_V_V(zBN@$FPNF=Cn6URls
z%Y|(TnN8yP%m|7i;NbD=vWba_%`0L(&v&pN`ze|t4{EJSYN=T2rx=@gn)$o4QYqo0
zRdKaPAXCi?xPd>w0H^bKRYlZ)V?U%Gm>_@mPg7Gv9jvSu?$CdgF3L2@BmOIj3ti7=
zsZZ`GGC=m?N|ERENU9$zmG`Xhw>tUveL3<65SeX1`O-*0d<QbX$T6<iE2nfl_}}}T
z$J}=U>a3%mgsR7whEXH$4F(rg^r-DQ84x41jW4_<#y+v-i(wI_{n#DXbEIX4Yaw0s
z^QZWv(9FB8_Sw<nOlCM=@n95~>Yb6G23t{oID`d{n{BGdVaWwF=={!1MUEb2Iwq8S
zuGXHa>EYfrGA$4oHScy*M}#+Kt1SGg?KYNw1=MBGV^l{4$`p&+24m5@aX!+MlJXAE
zkxAumjIF-#-nfdnu9o{33+N*8lrX4?rBU{u`vV#QJOPgeg%Z^QwKlihHxP)3A)RJ9
z1bh1h*umH;C)AA3Y7EbT5f`N=zwaKlgNQB6D(sIu;;aM=Ak|iLg2cyL-9wq;5mG)v
zOiWCXUG>A+om&91>#Qt#%{ye;aaheEo`MFRt!2!m=Jg|dTa<r`1^LrKX78(aV9GgO
z<vyYPFYfj)A{RcuYi<$lF`HU|u_@T+*L>OKETL?OVake_eyw)TQ(1;NjvunL!7e&C
z{s@Pbt{cp(JOH9GG$th$6;6Xba1bO}ayGaKaL8PX4-%}F@JzC1ubPvq2l2LzqZQ2t
zpuPL^nMQE=QOTev)-p9U^-&k%L_TD+RusY;0|aHLu~e<`<>(;Hx+SafIUL;Tl&+_0
zB4o&Tcd8^I9IdJXvm<})o#o}hf{^=3zSC*;1-}gW+w=@FVd7qiBV!5k`=2(yiPt9f
zI>QLRzO~Wu^(}XRYy@FaIXu@&d@79Mz-DebiZ^l-fI{fc=X$Z!|BaP2do3>fq*KaY
zB$?Y0IpXGFB14dyUqv&fm@rJZD}MAir<bKMQ%UkFo48r6NQ-pn(etd#kua)~%DXO!
z-|;MH7UtPAY#h12DsV=EAo%0V&rhUXHXk)>?TFq$|K=mShS%QfxBBic#t9t)5;oy|
zR*nC8#vEa5sQx{l5!of6{FYgOl8~kH69(KEZL@2;ZJG2d8(dCIVc`qMH7vVMy-}-<
z^8M0C6x-#=?~dy`q~BK^rFp`JLGEq9F156|{Xs9UtH5m?F->8e+?H7N9?{R29rgxp
z1qc~@!dM@FDn1yOHk0=YdQ7VMSZXCYVZQ><z;z-vov&f;R!bLpP9yIFsmdt^>=`L3
zX^XSIM7M|#Yi4VtMx6sqFxH4?@?x1`K)U}$vzDMJd#+9J`q3{mfi(SJ{&s3_<>Kk_
zwY9Y!`ntc83BLf!uzb~mHVh_nJGjH&&2UBPgLH-%@s0=c_@EDJ_j>v)Z9}Ee#WAS1
zJdDL^5J@Ln<{QX255;Gdk~N<yX6QKiRbeu;_Jf(<VJnhZ76GG<L8J7^;NW2F1Z)+x
zqGoG+V?NDh&-T{qmmtCWF;>C01d8{;=8eC~E=9*`Qg}-ts&c94wRMAg_8q#y*<i41
z1RBU%%sSTp(C~ut<pL}{wnJ@gZR>!~aJDR=2;_0NRKzA{;s1$V@?PZwlEqC>xP@Mi
z{bV9{{C(rs0^9}9v3Y^V3AMi{#Ls+V>(l=us6O`bnhJR`z%5ZZ>3s1#Q^N}Aw5~SC
z?bCI#8fbjow0qY2w#>iN5}CLxy|8)JBgngYsi=6uV#UGup@g?{FU4m^U>xytxa@5u
z@=rPK+{g-N>oCs4KPeTq`a8Vhk6j3<H;8CJsGxj0EAa5=8HVx9+^#3KOiG_vC>~j5
zX8-A?{$a?)!GbiUAt{qVwl8#T!fL+8wzIAm7J9C<L34MutsETc%^QHviZ0XL#;80X
zsUfB_$NxTeLjag4{@mTkI+~2?R9kBHf9D!2oO;WxG_C>%rXL?WhS<Rbrqr?<a9u*p
zxNP^PnYm~>?rzRmX_P3KK0%~nX?J+{emCoO^=A8uECIS2xQgF!$bAS2xgA;t@g+y@
zs}vnW4Jj>st2mF{Cwdj!(q6bS0s=}&+++37gXqaE8AvG@$}M50C{R~g)vS~QzP1%)
zcHD3DhCbnp(nI*_>LF6uAH7+~?nr;<%B;@R&@3t4J8*6z`7Lh>!(tD;k#d}|mA?nN
zJR&CeFc)M>7|!!wBa)ytWsCiz!n7EpJC#hPCQJKS(8SIVcSNEx-_hKIHFbyrwKB$!
zPqtW=wy%}xr7`sLkx=<@PQL5Ilu42Tc*~T%lA&(!Fbn-t&#C!v5rV|h>&;cW@7-MJ
z=J(XZ*Em}_*h8J`>?iZ!>t0F(BN;=9O)1>vLMiuMqjcNoWMiO!dCWGo{1^;@K-$UU
zxC80ffiq_{9VTt?U~tKc+Z|DigWN=)V&zDX-M?w+>kH|RLJYzP5>JoOlV4Z{MPxWf
zo+R=oo8vcbdGRn>D@glX1C&*($~=pWaBQuk5TF?vz~nNTEo)J^`+A&sdX3w#D_j)F
z!`BO$8P$uwGs}Me-RKIQ6`^f}h!dAC_vkw?1SycbmU1$>I&6M8I$jme>Y*G>VYZ8{
zm!)S{qbjqRVWi*YlgG%`WQhVf(aXTI7O%3-T_&>xLe!l1c*8)t!IH4Tr^0^!hj7E^
zJZR>mf<8!%OW7y9#!{RaR1(ap347VF>@N0^R{mxuo{!fU|LOH1Pe$2ahjx~THIjBY
zYmVVJL*P&6PO>&WZ6GqY!>k!xI$K<O<Pn($W+)Bh0j8Qy|G-GMhp|Fb8>hTpY>
zhR`s(DZ4xj|B+|x-vZiV-eXh@%g1w*O#?b<yjpj1TJ{oJnJj>L=1ygm>4ofmO9Uh_
zi17>Sqn<0xU{2P<Z1@Czv<yGNFama84@p?ZrIx3y*@KZU&Ca$)%vsBg2h1y@NPE9B
zL%?)l>WuXeqqnn}>e&f;rw$lZ>#=NEAHVQp6#~-=Bk*~{BOoXy7D@eX_SDV&ovTO@
zStIj?fQ1eBghM=owdyUmaM`h^o?aSw*iMSo@>OU+^FRbKn5%Q7+ZalXcr6{j)Ez~^
z>2j6}@v*nF%h;h5R#1p6&Z)L(x_+@g_jAfB2Pb9w1Co)j3+gas*r?d)!*)(8TUV^p
z?j#DtI(B!|@$=`;2^FuXNMV3LvU3A}w@Bx>XzXpF^)D2Ic(32@b!Bdx*y2$%0*fl%
zwis@H`<nbDq7#<<o!5a07BD?88N)9Jk(`NOWzP=Zq8X*xo(Vy+hh)DAw!LnllOKjX
z(~)K<qtT6_h~_wVAxZggxR_q4=voKY^G-+Fr>PrVgBNLn{7G2S|2PBwDteE}<zpCI
z{~%xAl(;RBRO4B=VuTqklvK;MEvsPi*iPR&?FDsqf;V~&HabVvyLy$|;A-;Nbg`Me
zj%g<(HTw?HHQ?&p@zKC>ro;cTD4>eH{fk1GX56&c(CTACpCk+bQAElEw#-tf<cWtB
zQ+gM9oc02da2cr|HP)_|Z``gvednVimekG=L8z&#BiPO3D@MV4^JI-EjCL43-9f}C
zODYcHjWe?*DDLaDKdU+@b=>@LPZu~$@OCmdrYnMkiAY__haC+KEfQYN{M8M}A75;8
zN8-LY0Ud|}2}%CN?8eFpIYP5(QThiw3JgQA?+R%kkv+!O1nZ~86e?&}I3^_%7?T0P
z0si5+nim+e=q3Irgc)+l+-b7N`G%6tCn67bGhdkvWr%ULauvwZcfo2`1n9YKw!qz4
zi~}3qKnREGR^lVFVD3$LK3D(QhRtSCd&>sQWkQQ;EGfs+1q2^{0gTn4uh8?IxJ@UU
z{Yhz6%_i?asaZv~@c$D{&E@L?f`o+li%oO{JYGYIZf!2a8az$zj+>dQJfyp>ugG8@
z(@|JUN~coZ%IhrO1Qkp-ni2v*B%JZ*@3cW!+gw+VTN>)C>vY`i39AWSynPAZO?Yo@
zZ9RGya`3?cEmP18v0U$6u>~y-_r|}nR&Q!j!OK_I{36T?3Dm>xQmC;xw|LL<NuK}e
ztY=)AdfR+_aB}1WI@VHs7+&^&8zvc2RE%8BH`sD$Oaa8YCagTS_*N(17=E6&fpqG$
zD%wrx^1DB?Y)ZugiEK838p3oNJI4LV2)Yj{xPG*_-i_{m{^XOJ<$uh*aA#O!ND|m+
zIgtQY6l?%7-OV)U2u^I0+{<FtGP?qkG#f)AhgI;wLj4z5J#dL&{lH5}4ACGTiK}Y`
zSoCvcfbRJ=<m6D9PZrVymG>qvMF7{ADespF07!%G(x;9AdP**DY!?7pU7QBz9w&^{
z5x4i1rrrR0&IFngYVDd*HsdC@YlZTUk}7#h&mTv*GG2Sie!Ah+u84K(9~u`JleP9H
zg&Ji-<#{9$HS8vXuOhp{cr)&fyGS}|uTMit7S^&X+XK-_-$j)v!D5)pTaAl8+}}lU
z*&9pkfJM(ph)#(GqmckcH&T-rqwE3Q+0n_mbgNv32nHcH505l&oF5=u;$gj|2y-$M
zT4wgCj@6q5$^bkxI+FC6(Km=P^Ya>0qwch;oc+8>hq3A#^DfAv<N3UfO{i8ZPGMzt
zbgS8gdN$NF;14#Uq>f!*2Wv@L#jJdML-;<>VE4UXyn&%c6(H7XBta_)BBuJ>|2r7k
zJlO8(Y1sy{ua==3lv~s4E~w#PZ3LX!o;O!Sj4d9V{DK(#aAOe18O`tufetLw)6`z-
z>24J$!9Q*E1A<5o;`XBGB{QOfe9WN@L^~5Og)9oM4%+!qhmv#tNqYJFZ~ryzlqPzC
zF4~{1Kj=~E3N~XTUW{pN3g08^6N|86uLP!h@{QELYeHt^;I>b}`3D8^_LWWp%~xkf
z%yclX7Cs8POe9_iuTNf*&0ICgT6(C6DVE%K&h%pP^-b`CgQ;E0?Alwz%53yURK;>9
zgqVW)JIL<?17pT^MDLoM(hmtTBHa87SgM4+V=(2g8*tW!8f2++VvI(~qUI^*#K(|6
zT>w!OQGBjWAXRdCecgyHfkycSq??rh83E%ejF^w$>C>nF-?tw~_}yC8`x4%PHYJ8q
z9~^pTZ@UW4NEEYjwoG(Q#Ar4QG(cI0MC)zP&DsrwKXxp>6SU-A>bmaFXW7VFQxj1J
z7Dk(Dbk-0aBN7}|%2s0|BM$n5P{e)7Kw4O+4V*h1&#z5t0JhmmtOb_Lj*AR6-$?7&
zDH|c)zGubix_<EX(D(ceFs;^l+(la_S^knm{joDgwIR>d$|~SHF#fK=V|6pS`*k8@
z?FF;MlgN@7yVVp+ECUB}Uc7%lU_6N6B^O4qV&tJWL@)D_5zF8cEeA6e(uCy-%Ms+?
zkyV7^=|SS(c!L8%Y+u|fTru?)z@kA~wfxuQNaf9~=#0mUNTx!w%Bj8pdu$YM83pZ{
zocB}OWi9RZXhR8r?Dv&i0&NUu)BPK@2<`B$pTr%Uu(N6W<r`0miRv*{4NtwQWxaR@
zMLLjOFAu_i9m)_apH&jX`a@wmU1Pfn6e_G!d<Y$2f<obLQ~D6muCitoY5=;j-(`m4
zk<$#eEA5@++`XfqSy28_bo(zBAR&>B<r9Tl3R<pA#Y{1OrQL_I`JU6n`RMSK*fFe_
z;ZOsv$bd>PAEf~{p<EKvq$j$=6iAL@8b<I@(u2SmOY1BI&P^1kXHiH=vN>%Hll3R_
zsB>G#hRbF-jzlFP;n24X2|OSJ<|8iv00V}AJ{60w6AnOqjxh2=h!t&ZKvr{afB){a
zg)?Nx9^%CcDY}<WqFj><=k25+bai&7uJ|6V4<pYjisn6uO0q=~s2-uSV%XjFDQVPQ
z{_aNYE}&#Nn*QJ+l4`!=y~1+Gmrb1U@&Q`lya+pLw@$8OgkFbO51B)z!?z%2UlKUn
zw;e+{+|5`yGu&<K!8)C(FU4pd2!pq|qZnw#Gd3e$Z3R5RTDt_5Jmi=AHlK-%UF7wg
zl*~}jH0p^x8|7;5AD-1F5W9(4dSTNw|J%*EMAoGw!H%$27s?;CEOaS?2$Fd&S+U5+
zbhXX;gsP}(l;)rRbEE!>342tj+r|iz!|{M1acuQ2)%NQV>?3!-D>9{+60u!7{7;4k
zuPtvHYapF5`>!6`2WA+>30h84csR9#))k%8H-B#<5)bZrOXRIdl&$x0vH-H0WK~db
zscy*>36Al`^x!8$H4!eu#F=-yB(JW>Af1z^H^+2f9}(6rWnm|9w3pg-V_Y?!hm;*d
z(|kp}nwG+Qv12sC!UrHFy35dM@<VNhz11f7TZJlf)tIp~Lyo-gyn8SQqi|E&f&TN8
zg9FwL&HHM43Emv6x|x|71jp`**#_w8C$LL6QX}8v?&b|uO$N(}-DH6})39O&KFh~9
z7vf#td-1tlDizX&fSe*Gp$foDOGnGUNF!`PrZ8;KrcjKMN}Ax)?LcLkOlMMg8^{}r
z;WTdt5t<KufN<9X3P`2j!TFs(l=j~J37TvD0{70IU5zCsjTwMpR1>+X1vnDUR7S{X
z?J31P$IKrcA9y%9w`OJW&6=vK^)qmkza_f5l{R~BlB65C-JjuutO`NkIn27m$4m_K
zx(xYgd|PL)<Jxa}O&Ql;Eh*vW?cr@}S9^B9eYA6DyqUsp@&c<!?G+8{kI|w>f%>tR
zwLWa<V{exhw@q2uT0pM~6m8$b@nIk$6p92^4azdt-QhBq0*H{8ksUDQk%EKDG6Jw^
zf{rvIPTJNa%rNbX@i2T;g$N^x2`Q<}L~G4a)4_%=jq%~)B^0l2NO@nxpM**@2J%uB
z5rNBQ>s%u5QsVaaWjoQLW@62%b8-J#F>;HGc+xmFFfgEf&iSEJsEX75+WF+a3QV9n
ztTVGr3oQ(YM{ZrAh&UeS>CSi3{`UB6y-b2-+~WyQbc8cp9j~gXd3e?RD+nxAqWNcU
z(htLLV&lYK70hnq>Xvqj;qEsApJmLM5!;2$s3P8wsC1>%^ks72{TWmqu8O+Nf`%2p
zg_q|wT&zgqg##-9*kSkf_8>O80R3$TEY}eL()6#6mbd19maH9H-d^lSQ->OG=Z|3=
zD}jyc@9sV{IHQB|14pzh2}5@hE_R1YuQ9xa1-JsV6K<!SaT+u26Q6ALZ?G1!NgU6i
zBs`xFUV%;s?xaP`yEC2F3RVGsz<V-=#YifhP75urM57EwIY$n=cl_ITE_;KMwVt$0
zg?fi=A3&5Eg8vYY^HW+~{#sTz2T80Ck8IW_WCxV-(}8#fLYd<?6ARO2hPJzt4D|1-
zk#{V_r@V`=LH|3PuS(Y=O$>G1ovoq+FcCSCs1)+LES9oiw-dLH%Ho^!f#}?qgx&7;
zulS!nz#~q8XhrYU2Y;f~>y<@&`u(3zQu#etxV9ET^u-sIvL2OdKp!6)y7Q9i7U|5D
zglZG0Sd5nW!tBsLY@WBD#n?03&51Z9|3+H9l<%76Q&wzHqcLKqX>^*WZE!{3XjNpH
zZF$yAInyGlAmd#OhcHI1pr!cHF`DCgTSxR#r_M%E#v2w!MXYs4uJ$Q-ewd}a?&YkQ
zhj-xv7Pl7af6ly2o?;YB4P<7+JKiDcjXh95X$(0qQZXK2+ak{YgDeIXo0-|{I%?(`
z@2UrGcEM)EKKcA#;&cGyE`eoje`>C1#jKjXm@D%h%~NrD(1)s{Q#^XjLZfV*UjnSX
z^zYeyXiY4=?*7C(<mjXosftTy^O9kK2Ff`0{^M-nb|fc|Kr2>Gzj{T)b{DN-Etz@^
z?_#q{ZZ<GJ6WM|g`7)R{<q@<4+(Wdl^jc4dh(7u|VIjH`V^ID0B=tmf8tAvX1_x2W
z+v3Z<Iy*Dd+S4P6$QGWQocvl?a&g*xJohOsZlBKE@{c_*C!t~~!;cvpVOP?`u^f1)
z#JunZG;{qO5Oa&^(sT$0g!y~ce*d|o5k$`3$tnAX^(RNi4taq)U%(Sew~3snz5Uqz
z((Q8La~hW-1r*bdL&5aa7iMPQ`7Axz@zc9r0gkuQyqVL4F}3VnPTxRKGJ0YgFnqD?
zchgPAYd)Col`jvBO#$=;NsXSq<Ij;_i)*SEQxNBcv-J@E0{+|WJBDC2rgW%h9Pnj0
z*zNk4qtKboe&BLbd{ixw!c?ZqUBV&8QYNu`ACzF38m7W5BvEI(V$T$9hwT1^1Y_Vl
z)hS}YOmoFs=-W!6{5`j2kNaGDQ#Q4gy8XiBjr694B%iA^tu4`iCYgVQWnK*E&ij|G
zoJ0?45nt;c(wRvp5QzU;^r-jRn+Mn05M=eKRl`^(H|aYj)y(R3{VAH}9Xs2ACPfK!
zZjJuC@~ION!3L_%==4nFCwS-bC9Y*{OH8^fL$MxK0wU#|jSWgD87b2z2V|<CQNVgb
zh%oCcrWku%X8=+3TAwgzS;hf>*LapUJ#C&B!A9xC7$FEFP}upLLJKV0Bp%5=&Q5mw
zxapdD>HKM*A0!q>@|GyM?Qa=5r!*o|r479PR&a2$9e50aM0ew_n~t&fpi-NdCkT8L
zuCA|393Zd_+a9uYsGCm7ouCI3yuM91Ogz`Z9YdD<=;?GzGf>*2L?wPs(lj}3^o)pX
z!Fqm3fdniQo5rq{Y72s986!kehj9#U>j;`v#HspKLgl?V4%Y>ti23>7|J|kak_qf$
z4Cnu>m^P#X(a6->URfK`8@ayj8?6<|CI-NS@P8~tmFP?Vtn%<e_)4*~Md~tIbN;8X
zc1Qc~5MWgp5+9$k$C>$6x3I?lcVuod{&$BHV~P1L!B+=o97I*djQ7MJ#HQAYuk>Z$
z77l<)`)NdSj$_|6*#G6_2)klub%H$A0JR_PY$Ngf;|*FqZxJ&Ju~0!krYeAeKPF|y
z61s4*5tKzp1(8v({@Q*n8#CR+kt*OmDWmUPbPr5yXfM<byz`2>d>UM%H&uf-fu(Im
zK(^zk<W`!Tqt-U8`u{L>mH|~|@7q>HDHZAN?oL4vknWZa=`Q7ffFRP{-Hm{>#GxCJ
zZVAZ)NO!;MI5Yp>`+a6U4EyZ8*7Mx=bs19md=Ycj3}QJAfpg)r^~HvX^*xmvp9{;m
z_Q0;h*$a=Kj<~_o^|)tARO^LaBBbD+Rzsjpou#H^4g$eRj+Rf-^c6hK@_6CukrPiY
zS;Efl+sy-xwOo$jV1P3;xRyziY$pT<v21d*ar%O09xq4z|DNu{FQOn!lTY@lKNHFf
zrDGKF>88Ow(gQV#*yW`Ee{BeU1-|^^<os)~>{?5rcR6|wItXZANPbe|6<zLFbb-&0
zf8?1|Gve2pVhRpz2YBccW`httJ-kn1D2#0<Srf~fz{FD#;{1#Wb$7*d<8UZYo9AQk
z-q>9DP7nwq2Z3P8PJ&c@r7QI4;xux}EpV3Giv(m)Mp;a$;3r1%mKU(HIerS2jE36L
z0F=i^<)C%+gioAZOC-lE<FKpxccD@yb)=pr?tUAXeN+~0>e;4Nzr_o^g8CceZ+^%i
z9C{v1JZkDB;+i(~c+16{eU2gem4##ocYFKmU!2Y|=Ch*>DG@7Kzmt6zqIr<MP1-$z
z!!<!85CKA^#?~FP<9P0u*!cGAy72p;#R-@&JtVBQ9<QRd7$w0b&x`E}cJ)YYayCO0
zdBo-=%7pY+^Q{=G)pQ9f=d9*@yM~Nz#P9#2%)5*cpwBX)uvZMBQ_OEej;a%BPVMp|
z%=RVh%<6>D|M}y53uzN6%rLzwzji<2{qKBYgZ%ezXYyHe8A+vR1M3AQ(fBgQ-~AOX
z27l%6AmvD2q<^GLZ}y|qgL&gyt<|uE@3$ktoQ@JS8Q(?J`$qh{@|-|jIF0`6U}`ku
zuwphS#ooT3lHj5yseJD-FB6{r41Qkny^#IHt4Oci=p>d(i~Vjig~#v7{JWy`$?<t5
zNAuK|ASsr|^0XHd(A4s8aivKc>V7VM>hvLN%YU@VvvTIx$bnn<BMNmkbc1_?;q^Yx
zzyw<)2o>iJ544jXo`Op6$iatEIo!#7(S33HgwMHZlmY}5tGa~_MjvB;Yx5cNoH5V(
zg5vQiknms_xPWsg<u6`Fq832vW|Cq>(NC~ae%%+Cn7!$*1G`w9t`kbxLCIKI-BEC#
zW~3bmW<r^O)h>)3!mdUNUOtx91uc{R@(R*@h;f-s%nd$c&}9ELr!NF(lPd%9vV8zI
z1HWS!BZ%|<>H)?9Wl#q@c;fBP;Vk~|U*$D|b+*nY+3&c?3}gU;XIl5G9cT=qw<O1T
z8?PpxcEM2vwjuBw-GqT*$^8M3UQEN>gpjEXXYUkQ&n?r3)~6NjH{R-=Gk($v8LA6E
zpYbeO7TI3^8Um0PQ2=?7CvV44womilGz(uI=|Kr5dN)cqyW#;y$<uNZ`Qm&|G@6Qx
zeUXK^53q5%M=`v+O^5jNmh|vJ-}}1;9O{sqS~$4+3zRgjMlcEn1ta#D<*$RkGT?j)
zP>2Y6N-LB<`*Ma#Y3n2Tq1zdy!0))3e*TR?BsRy(kvBrE*VxqLe7N|S`vx9Fq^nat
zf`ak>pXvBWIvWp5znPz){z+=Z;ajNqEk1&@&<%cLGSl|K9HtpRiq7;EYKZQush<$H
z`Us|+TusFkfaW;3YIWeBH1`{}WEoXc$G&QUMYHjfZ~I`|^*{Ma<FYO|D)ouCb;~WS
z%Q_)UY&x#X3Y*?ehNv9m|3wif+vLD^qm2^bq#<-KKf!w=gekKgtR6<!H)a1mq5$Sk
zf1+Jee@FK1w4?NU19HZ{>`e&*--`(q(Qhyng<b{~|AhGuyDV@L92&Za<f;fO<=Xfr
z@@cL;w*GBN?{6XSh6!VH`1Ri`piWA3m?*H!eKyEWr`@-G#%hLNb2#^3&r_{{<}rBL
zjy<XIz+BVV9rH!A=Gy%G8$=0sV3(#G1^xP#Qj&a>&@L-#+1DSv@>yuaQdl2xhKDdO
zZ!Q(3!*|2jBkGk|Kq@z{OQnX$P`y42^&F<*m^p*!9`p{6A1rSRH+$V_mN@i_gF~S5
zZJ^E=M@DCTL@)Pw1H8zz{Q(R#cx1`t?!HQ|5!1e^&QmH8_bZ3v%_$q50N$K*p^r5X
z@XZJMEkmgW3?0P4$mjR)UNuK?H~m+_%BNCy0zs?yr0o%xx_>`0Ix?a~_Sb+!UfcgJ
z1JQ5jx?Zwk{n4{&<L3bm1c6hX^S%)iKhy-t`l{3WdpNX3#nb2A0w_(va)uHdO~W8^
zSgifA$QoM$toZy``zRweJka;LRmzR%BLRZomp2vwcMShqO5Z@C7ja3hKp7EE-COuQ
z89L;QThdMI1xoPXg(KNkFzvElnW-=wN%wCIT)vGEu>M6*C)K|5qh1D?8(at6cHEWS
zBc+{q;Ek61zaO2fU`MuKrp-FDH**p%??a>%U50z0a3BkPQB1K$az)8%x)C-Je7UAd
zHZ`SovC__oKbV3MCt_cooO=To%VFlHJye!c_MG{oaQQY=gcH5c5YbdT6%1)d$@YZ>
zeVs4)9f&%Q>~i{Yc(y-pP`R13i%TqxL%nZM?-g}EgD->_xHykiyIb5CoZvmZZ)|->
zg>HpjzEE%U#3Y{lUbKI3!*6MGxotq$B%4tRp;8{gRr<A{dI9hBO=-5>>t1*G@Y^-7
zaBD6hQK;o|#CHAunJy~kLNqW9oo84Hl_%TT=CC(j7{2r%FeQ5axSKZM3Ca%{QTN*}
zjcnO7%9ZG1v203l6K+go?^`wfH74D*0^zlo56xh`%V3Va#+)G6r<<bUIfeH8>GdyL
zD>6N{J<P0WbC0s;4v$aflvcP=<DOT%O8l>35k!S(Yn_sSIt5!)ICo4<X*S_xR#$6V
zrvCdOeuee@s!QY*Tjcb=w;q(RPln1DVzmHj$L~3eM9m*cpFyOQyLm^D?44_(kFk#7
zvI~0QFMN=jA&ed{dhJTbo40z@nn%ET`~Jr~<B2F`3uw}z@#+q8-#`UmGtBGF%|iCz
z=oruYmsl?R5R>JN8F{<fyGLG?WE#F*+A26X)`~R{44l{djc>1?MqOuJj$Fa!`n{Bs
z(<0>M&ohR&rcBirUh~&@koD~_K*VCNsWGr-f7-hAPE46%5aWYRFt!i!-KX&Jsg<eX
z9rK-WFKW-<#C<B<iE9)J<!Qh)$-Og;3aVgH3OzG4$)Ox1@xhT~Vn5z*UiV00F5Ch$
zLzoTsQ}{s*`%x;7spd*w$|Fqi73;d#5wQ|Hk{htIe=6AMa_3;LY%n}x?3N3L>4*@+
zSTvus3$&xSem1k%e8q^8GMlXNulD3h?_)Sl+IbpaZ<!}-V@I3t=1g_D@cMAG8$3jO
zsA@ukw0N^0{p=z@IPtLUw_zud!gcc1No#M%`tMk6#D&O=@pV)<?bT;hTP`g0bY!$i
zvDc1Wh?s)D=wu?MbLH2TJolVEw;%B0lwk5J^H-VfNZs``haQyTpZ@9aukb$v46giA
zm`WKyd&LpEp(@;c55f$%xOudMTy~-Vi9RS)nNBdAa?U}$OwK~q78Gd7Q;>nU)6fSd
zU1UkfsOaVi;(FnHwTfImpVdruB3VNFzckT)cvEU@$0Hu|R~mJgASwan$9Qq&$DiZt
z|563Ra$JD%k=G#!4h7?;gje)3Lls5Nv}^^5{=GJelcVyA)O19K)=64q2o2)ZW24vS
zBJi7YXjAI(Aom57$4kt&+QuXs5Em*|4wjG*bpibM@D}zQzYaotRYpo1oGH1R=Fgn%
zM{yLzd%LFhL+F~$<8G3y_T`j#+1V1ZmvRqB^aUi)HX-1A|E3Z|K(&QU2mlv}k$X_9
z{8Lmt^)W~r0^S5ZxV9w-jXWzE!vaErW$3VH>`?A!k!NR@#}+p)w;cZHd=IZm5zP?|
z=a_Kx*a;rNUXGb~3{7~}ww7z3<oXV`h3Jw>c8cLMssa<yjxr@^e}$|_fLUd@dB$3}
zlIhdl<?|^#013mhUT4nG?Q@~^#?10$fRYB*3t|?JnnT=A|FdU+X*=+=yP_9(RyJg?
zKnqiMs7eNbaC%Zg{CYJArHcmP)kBI4>#?^#=8hi#x$^4p=g4p8B^Ral-)l%ScJL4a
z_N`i|#mJT}D&@|Uv5EgV7KsXxgCZkp-x&3?d3JucO_HfJ4|6@UJ|HvqZpRt%B+VV|
z@ISwXHTX#8Efwh{ei_`f2H#+9(Y86pw`gYdbu!Ig_gfB=zLmqNyh0@?l0-vsHtH%|
z)8o3W#2+kj)i$hVA3VgIkAelXkVjaO|5j8-oO6vBFnZ(;K|M@*AiPP{)ck>M$yoEc
z|GW21h`km#ri=cr2+5Wmv@V)hVKPl`!rM1mAED`K7K|3Mb8dItYJ*T1HrflETze)>
zu#p@mmrB@2T?7lgXJDdL+@?gXm3f+vs||&e;E*s}vnMVB-aniRy_XtcydKpmy29Gv
zJ!iYc;ju{#02(s9Z%JbDxCl*wN94QnT1<hL>tUhq^YUM%7)UYc`1hQveDW^^@a#8n
zbLKOl{mlMZ=PQvOySuy5+!~zOidEbU{x{$h<=@O=F=61f1tE<lLv;Vc&%zv=kxJlf
zj%}M3?1Kn{qC&OU>p2A%W1EXcpENXhfXnO()<Xj{_{+5o7i9!GgIP)F#b(TOTwfm_
zd>{n>Ym*>MXI|v`&Oa7%$D)^Sqf2QHME>kZs{<&L!3#(L0w~of3AJ1&{`=q9Ksi86
z{>19L9GQvexlL^>Rx9Pu{S2uDhK27(mZ(=dXY+^1=UD2u@)8CL#ugvrG!EE964Aa$
z1VUAPaHBRgLwWvuMT>3J%~k6wGppa{tCq8NaH;g4T2Gbu_*oA||Ag}_Alw$SlmURY
z?r<X=gjG}chY%4FR4D2&1lQoZV}Lm{mUcu=ILRo5gws-t*MDw#1mPlTu*;!-M>%X^
z-9A;Dn`kVX7N<vJqG}Lh`^Du`L~K|PyYy^i8g1k|=eap;hQ3Chb=E%dger8*(%Q@k
znWJq<(#1HlsXUo)lD)=E^V<D}R7qUDnTU==g=HGg>GGMl%fdK33$g%g<y&?2=iJy_
zY6;t4rC-!pMX2SdP@kDKan@DiwHkTtuU0VEZMlA`fc<7|qifr~^u9Vl37r0eH-}TA
zgKf<!_V{NP1Yrs=)W70x;{8DTFWvG29XU#S7Zgd@KR6WZ({y0v^kSnP&W|M##`hY7
zm*Eu3F9^XW!vy`#>G5ITvC3Bz8KN~W9M!#&b6(N1=sa0h{CiFWznZQG4{JA-^OadZ
z-(rCvtzqYL@ciC(LNaGY%k^`hb?jJesaVUm`;qYS!s}Gw#J~kjobOl9#r>X1e{?VM
zbBr%81y`}VfB$+k!=FuQf!vh%{v3JZeTFeFd?4*Lcn4RRbnd_LdAP0x?y<LnA65&l
zc|JyLkh$;|MQl5}qGC<;xZPo--)nRhv^Lshmvm3irvAh$QkLdw1yeaI+d8x5*)H0L
zE{3?h8_l*>wkCOawpI~BiQlD+#!qU=hb;$^H(BHHsOptOK?VC$b27u=p22~td4A2D
zTFN_aA!;5fS8LD@iL&4puSLF9TKhv?bA54`8&yxc3WhoA=iq&(8(mbc8R+2OxF&4V
z;Y*O@Vub=PIW||gCC_6``V>7DoKk-)0NP0OY8B06{;)M4r_4ZhTr+9%i-o>3zd*q%
zwW8T_-WG7pH6zj#1;#z)%X#Z}yhN`8f__axs>4ki*sWwoU#5W}{zxR>*W@VxOyTbJ
zPOwvMPhtITPfWGEu@P{<`>o#;4Wb%qD!01z&!7<hp@F>^jp(^$qgJX;D~+G4nqBVL
zPqEsfynZhZUw+YL(Cm#7E!)nko`EDso`*e3WL8ykRitkDQ5q=|s=oQ_zxfGhup-}(
zqjst`3KCkVG25uh+oYpgxASW7pSLAaE{JAGEj8l_7YTb4!D++r8a}Lk3JY9QdL$$9
zv_EVJB#`-pTq2Pf18^aJOF!DkE>4WpcoB>*XNQxc4AGeP^l{T>G7*Z&EsAk;YC&1|
zvvV8s&vSz~>i~~yKf|vdD3ESpG#Qky5)mR)q4&xaV|f2nH(fkZ-v>5m?nfcBz?z2y
z3oA{15r=!-y6bVT4eaz{8j*Q*hu^WqVAVh>(hBF~(tylP{!<HmK^Cq_aevWZJj9v|
z=k?vnTuMvav2x+$Z4nTvP1+P**BK~JuYUYRk=1fG^;6H@!R}>4%jRq<|IPVB0j6#c
zNN?K@y>16%$T%$#7&IYs-c3?pVW2cJI4&#z3DdLqjouTNygQ$&qd<;<c0Dy}74yUG
zQ8|i=AN(}$HO*-#3;{2e23?1`nQGsr+d57ZoS!+~t>XW9)%wEpy;A!GmJ7T0y(@hr
zf294LMO{Ovi$V;3y15${!wXkuCrRKCKNycQ9L>^I>mN@U@l^!he)^+OIWeBo(VCj(
z#PdwGcPiu#*7rlR^b-oHJR~8L%nUP>Dg9dIMiQxWl1=XXXu!M}Rfyvvm+ScoV#}cw
zIQZZ0o85N?JTKOb7O5$3+|NDLc5}v98S!(fEcQadC@q!ppo0%TJ<(9Awx5()xw@DM
z3mWUBf-?E>QTNa}j6`_bbCdL+w*xSAH>2MLaeeSQ5IHZzuNy_%#Wjp>4vDrL)KM}~
zsYSRaKTO;$*26;4uLmyVO-U`$-jd{SKOW3-FI`$_<sww;p(UX7s}uV?0XkBty1U+G
zr{P|0dxe#<m7o#WcH)L<e`66T677pv#2j60GkX@-uDAwgxdBBx0bdIPCFWvlK=$hh
zw_-;`^SOVtN{Ajfhc>tqSil#^LMW=SwY5tZ1G9%SrF;30NT+k%>B7qS@ZrceU_6ra
z@KO;D7`8dA<psh25{<W+UMrW#Ts~>kPCj71qCs-udHs8BV-;@d!aYx+gUq2-JOV5(
zY)y!7?&<`>4MK;_z&c9U1C$EO)kG5=4-odsdit)K`+HMUr+OA!3d^$-G;6t?fm6%7
z0zW;e2!%<t`JuAZK}tzc-1lGb#tXhQh?+>sA&{_`vMQ5tKQ9X?7wJwwOcAM#|4d_d
zvQ4blpv4}`-Uw>zjf-_fln|Z#X=hocN3$n;EHY{|8k$@MzYylQ|C<Hu+~_SOMOb#c
zW{J8ox_SwXT7Cieg@{n3Q6e_T9Jb%(VK|bQL9&yx3dH%E+<Q-TDxVt?p%6>Mq8DrP
z#b>mCX}>J9N6jF1amjB(>^P)EbVbO_5a224t5Z(EsWtB$L*<ZEW4s~$$*Ei6#<Y@N
zeqWB`z`-J{TUcdAvtEvBW?pKzj&gyBB?VtAgcre;jBi>1nlau}-yrzUApGy=37Fd(
zEykg`4!kF`VJ(FtOrZ>^M<izQ;r*-d#bzgB1{6)QR)%!OdrRYK<d4p7-iKOrNXDp)
z7SF{9EdG0l=~0@|kfS3SZNXjP==m#OfZ8`1xtiC0{|Du{o(~fQC)bqS^Uh0dmbqt)
zTV&lxHqyFE*ltWB3Ftpb<tsv()BpqjdLTJ(1sG|IfUYD0;;{<C^N4Ro#C@xCg=IIT
z11O%kNZPcjZf2uzOyTH!p`v|3>MI?O1P=GZF(hyfW`NHE8Fk1N6vhT0q8HSVhQ1Nr
zT)Ek+jwb9J>siC;9&6m#77z?I(Q<L?Wby=ZuUW=>qB?a<35?wTF3ex)shuW)h=C(}
z78yVSb*Ut&92mfM+T^;Kg&bo(4>#9wy^rP%`fs{io2Qvt`~K}}X7Vg+WkXT?wm;dp
z95-+5z`Iff^DER7qh(VN^DU`%CDP}TGlWW^Z_em_u|I$F<eZbJ9rx=qRusT~*IomA
zG$ya_frPQO;K>&!3BN|NpS@2XVyeHzwEWzr7xnn<#tP^dnQTuKUw~w)ku0%!IkYN_
zm*vM}xhV;^6Z*knLyx^pkaNe5Rj4Q*le`@zwz9)kGk9xncLjP|-`%zwNB&F;2xrkP
zX3J8a>AW<?p>gX3Ok$q*f~sn}`qf?2`O!aqL}#Ta%HvN+#XPy%LCfxU+4*`F``UN!
zl=_$Ehh*k(cf_?JHNFXrFi2rnj`GlXIC@ZirQa76Yb@xEh>dxSpqx%POVtxPJd5nm
z2bt&K!OlK^o4fryM(FHL*twyKUUST2xYN`IokFORMB!{Uy->SM=Mjpq-Q~=1UyJ!j
zBbKwHiwjrN$Hu@>uTEPU)*1~2A+~>JKhjx<e+LTC^;pq`m|-gqyW9@2pD)Vl^J0HU
zL^tByuW^xdkf*^drwVHPb3IyZ<DvAvdBJb8b^7Rb6ZtWAQ|G}|#VF!IB8TsHx#iB@
zVf_0geQd&w2yYu<r<=OVaPP?L94%rwE${1Y&#yv<*e+)xT~lam*=JF>1|kW_lW|^A
zS@Ovu?zd%=D>XodTNFq4_-cC4_jDno9jNSN9@Lj<$*d`!ulF^=wzUL4nCU=S&64xC
zroG7=$96~nJ4tuWe}~2hp|CC^s>=#o1f_fJJVel6c0}`X%H)ZYcHM2C)9nE$<!+v!
z{9c$WON-cLPyCMnz{wDUMl&mw0|a%JY1rDwcdL=+LK(_SUBQSdU6y*e#=sp|O?{xt
zWlj_ERe(IWtmCC-h=hF&hKKX9)Am@7sDUP~Ybpy0%F-(@Ec;X#u{aB*nkN&=2j>!0
z>W@_ARmmBNUDL!;N3K<_Z3wn$b(;3(VJzuNSHuKic57XLUA#u!EB~PKGT-52htkR;
zxkp|oWCr9IaWuY&YQG=LU1bZ_yf$Lht^zriGvnnpUwF3io8xb>)W)t8y+Y9(ZUN<2
z%`#(+!RSr}Nk`kf2`9Ps;*h23S6R~@vT9l2`yS$T>4dT#?;BBLz-vS?v6vg@rf4fv
z!ZahBB8%;7#uBGL%iLjAo5kA3rd(gqga;KRU0UnlnpYf<G5w0m9R2A>oVE<hj~vBC
zDEEDG)OL}$>+uIwlx@o!5R-)&P%(yDIx0j<SZ<$BY4tI2QF|vIZ$5Q_I7m*=PKW+X
z>WZ*d5x$Kw1_>bZz<dbX7MG#g=1zp0@s=mG!YV%dh)t_AzMH|@9;@gF!4sC%IyC|7
zu-fE3V`E&!{}uxvjr8TgLZ<?hEoa!ivi3O`P2xgG`GC@?Rs+%C+D1QSykG-R_`ekz
zGOWo|xDDA)KG2&rM;QrdbatlrqpA@68Jv^go3kuR$2(uPfykHP;Otf`D{oP{reM{m
zT-e2TKn17Pfl~nf&Ay%doHx3@)?$>ulh<9t7b2xwHytYlaC`UT_)?l1h0bQWWkqw6
z(Z73r!_Sq|Of5eTDE?R8u_QJ2r(Ov?VddV%`$7JNi?6?*3yyp<&b9Np4Q_Qkv8s%w
z8#P&^>8urb<ni3nCcxqF`#zc=YC<`S{`i8H!D{$V&yfSq6~a2%Pt7J^hL3Vjbd~sR
z%f`M1t?{11HZ7%;XtXMhKs9@JCUeAFm99Gby5m*S#w$E3;N%1CSGb;u+*fCFcHuQe
z&gxEWXiy>_<^{>WQ<7%if2Sm$cv0g`n|(GT*FWR>N@x!ZeK1Qu7^9|6n=>Z{BbE|f
z9?2eMyI(Dymx>=)V>tZK*Yv|Psy&7rGMXa*{PR<n`}UEl+h7g=cv)B5ze<l#W)X_?
zXe6oRSj5Z<*Vol29vYexHMG~oly-b)MeeKW-agh+L<)bhzqu~dz27x}dYGk+ff(@b
zeTUg=bJJW)>8PMEUcNQa%Yy)lyAz?Doj1NmziWe~FQq1<<6W1Uy*3I8m;_6l3=-eQ
zNGX^ZS55TCzm@4KpzEmrfL*WM*O@%R?w9<o_|3yKoi&yZrJJu6SYu63b@~+dh3Pes
z0EW3}N95e2q#W1&RpTX{Gp=y!s6YH%m4A!3yjy+n_)>i-CW`utdoz=8q<ruVsUC(;
zp0R~RKk}&VCP0I6KN`8Ff^KqZ<h2HFiG=k6?`RxPfRNcyuH^h&&qr5kATp$yWPv7(
z-1-}6fpo)b@S+h79}1p8egrjF`|+3D`C=E*{Q-FC=6rbop5${`kMwa10bx(q`7R}u
zQDMS!Q2P}9`XXyc9bz<Rd)p!==^n-yS%<?lU>>o`;QNj-()y1wONN1^!QXr>IVR#-
z0RZvmZjs>~{_3sKDg$p$a)+<AsQF^CF<T=AAD=w6N>baS{N+C1twsOph*~rAV?nW;
zfyi`*cZAOP&+Nq?$L<&rAJ{;4LX50fuk2-A1<<TWr>f8Qj2iq>=u2$JDH}8cy^)n@
zwvOcxdDqiY{EiiBCswXAZbl{k&qu3DXryb>QJT|jmq~^7m91G(N->T@*Iq%RxCVX_
zj!QqA{Cld|jKFnytd@oi@_#y^_Y<K?9jRD}Qo;|9WZxjv>Z8?fy;n5hz_f_gss`Q;
z!kwtVQh`=^DM!($QQTCNmz_%=fbT}7T!p5Fbn$uX-Qi1^JL}7rhx@OpT;x+(geCXW
z5LYlpTP(5SBD6@}T6}WU+stTvzw+lyt#KiyFiBE4#k8-7Bk7|nFT8=gFI6j5*CD`t
zx-}<%Z7-Cuh|5P&Y$6}_`>UX2XoP5fB^BY=JH=4I`LRyf=Q+s96<S9S+>XuY1-ddM
zj;LMi@q&+$G`EKU9A>nol2^=Cm|Y-t;Ei$C$cXJo`})Pm{JX*-=ecDboCzb?py}MZ
zdfpNKDMXv=!mE?@IvU?8BP->K%;N(1oanq1WS>*ZiNk5AC3A<K+C-e@ZH>72Wk_Me
zAQF%&DJ?jR8MavTCo_VskSfPe_#*{`eSv+QEGkeHF#ZOtW0Jg<=P&>~AH+kl`)u8B
zVfnMpa%iyyn2%MtE!=c5yMYHuo!x>VN}*3plEs5+-V<D1UBx4ERxFyOeiPf2Ps_L-
z7oNM-3VzHbNRfb1S))II^u4Uxi*ilhqCbAHbWUDL2Hk{5S77cZV3Y>BFILqe9nv{K
zJ@Uw72l+Sat_a(S_<p2*O!r-6r`!Z9)eXtW4a0~h#rm}<=F(^+Ex-`c1alTg5ceHB
zTGa13x>oJ=8arPnMdV)B(iBW%Ev!cK@wk|dT;rKrN4!Y<@5LWPga~s<S`<!ywe;oO
zn_N)Sl8hwXITO6gXK){4=A{#9JWTawdp_JB&ylO}Do+u!j)TZ{Ca$K8Kx)a>66@ns
z29l-iOpxIR$$K<mLD@gsrar$s?nqV0|Ae%3Ymd07S{$Mwb}ptpF8huOAJTn7p_V{c
zy=y{iR4SQPT;aydO()ZTeMB$0sIBG38UjF5CQ~0SqbV9<8-wldzybQEaix(wVXVxO
z-N0ilFhy<n_o(jp3a&`JGE4O5?@ksl$t$H(Sdz-Au&_QS-5(-l!X=HqPnoR)VLbXF
zD~l71_)C<L6N=u-p)F=j#r%y|8j%*(`U4)iZ2opJ!o1%;T7G|`emAiHnOb_hX_5K?
zal>qAN%FHykw?eRg<>Qe_YC%3cU13LHVqN<Jxjj*nZbfzFOkYy^O*zrC5%9c#R+5~
zhk%IJ@lQrEKG*<zun^HhxJ!@ays}AA%75;@Vwy2w5+`yT-V=J<Jt~ZZSsI;K5A1Fd
z$ye)CLd1v1s<s&-O}E<hY?!&xqGbk&k}*c1y!BhKO2)F1&%AR@Y};s<Sd2t!OKZvD
zybbYZN%)=pZ<;?uO-G==ZXdAHjxPuw&$PHJXu@dv*Q!?Y8VamxQFs_`n_pTP1B`Wh
zazwkuwkfM2NK#07!^y9UjuoAV%az-b{YBf>2xa1O@lIN(3l#h8?XunzgRq#0NGrZB
zyPbiAWSS(UtQry3Xf5(T+-MD0#-11acAUF|9xaqadb4DZoyJK$aB2KQNjjc^2UU|%
zp4OEAn{%Wj%yxg-h`F!}I{1M;#8o;)_N3_j?S)3vvd-QGV4J}&!V?*z;9sEB;^=Wj
z%;UgHag^D{Oc|3*J~G1yD`<8=iB~7M#$PrB`EIxUTW%c8tXr-#pD{O5^;*0q>f64?
zwO7XA2$?kJ!3@eiAzy?yr2Xo^zUjq`s;2-ywR2o-&&<w^ooNc@$(=KppT}_rIEOP5
zj#nl-%Kq`!A=$Pr5cNR=x!*QF`|AA7(LTXPmF7QWU)xHBOaGa5Gf<+|K%pxR6aPgA
zre#lD7AJs#Xy0(<P8Ra`pVJQb)TD`~{fXM!^}s4Te{_<pRKeV63xKMuRY2AGjRS!|
zjXzs#4_nz2CEIEYLl2ut+!^ms4%h6ho+A3?Id8#kBYLFgD_H9k*2DJ9ut5sl^<WDX
z%cPgvKllR))r6vImsGYat9Ecn#m)aPhhWxJwj6b-MOnm@1q^{STwQ_9WTc((uq=<w
zfz#h~lc*o1(RSaE_@lwB-sxFp+`MGJseLjfwKt7tAS<BkQi9ZMfCx)K@<MJ3+<~@c
zOM*2C)qND!7&I*+k2;kzPiezH+3v{n<1wzk0`$LGfKU;jd8HBWs!+RNn&BYQ_h6v@
zc$ZUZ2<bbRqM4=|O-n1dm~AqW@m~UWnIuo8N?<+tcyW=O0(*j4d<*P#w6<80b)#jr
z>;d>!lpOOwUlC(jwy?s)?<QsV%e=^bLj<q;3HVew8FiByTOJAVxQ=Vr;Ez19j#S+q
zQnhxsKPL#up&1F-J#JEh55{DI)_@mhO<?s``8XV7GNq))V%HXK$BpeZ;M#pb+nMjK
z8OQ+NXz>o;;MFTG1tm176dLj(y>TF``OWvc?dgw(8pLWLT<OJWIAI-hoMR-+fu>?D
zJXapdo~;}3D|wC56uu5U0hUEzX5yKPLjmR)>=Hc*OstYfTT0)VVwT?cNenF0BH@xz
z#65#%aTR~@|D<te|4QQ=!KOw50%jm9^$_S&qHq1&W(oLJxP7eZ$DTV(aJDae&A|x3
zk*~$HIGj%C>@=f9!x8eopd|H2jl}rFLm>s$HMo;o6Ky4T{Vy$m8SmM-KilFDKwB-h
zau}#C);ol=uqz|=%oYBmtPB#b@wPa8WUm;MPXl&7V8soud={`WvhC$uiR}Zn<g34E
zKCe)K+)4;>lmv~x8tw*bvQ~087M2(!J4TVV@p9ZV^P!E@r>-x8ow~L;=j7Bk<2K7F
zzcfq@cs??mF)#Xh4ZfGz=i0iZL1~S{ncQ!PGgFDbv%N5S5Au+I3~CfSmgF*4Pp-;G
z%XwkK`3AGVET2W!7PoW9SxPi9OwtgxdZ9%A{*CovCR;_+ziB&Bd918q^AiFE2R+Qv
zt=Zf`a6yJq4&HM5@=LVwDSI}n1z;zTIN*#Ao;<q=I<+t~YBn~F<4sEhU)sUQ8|I8B
zwTVoziIFeaT5Y`}@Au2s%yt(`*&x89K#fcE{f?K$?GeQC@Z%k+XGKf<Sgw-jqF9}Q
zJA+-@K!%(vQ3?m(uX#<<dKw+H*27(*uKEyh%+b@!O<eh4lnH%7z$(hLtlE|ZE>q5j
z@NlN|2%<HPY+2JCa4vSl;i)b>5$w60Ui#FfF_0tAknZHJOyI6q5;jgXU}{_a%ke$7
zNJdmrNJNx+U2e_qYj^#92laxdcx3)iDY%a8BSOtSB<_?U{l}Y|?wi|b-**wNK?B|_
z`dX6l^-YN_?fA8`Xn3Sacq${FdAarSWct&q`>8XodtX?w8Ux~w@<h)jf+_B)lv=tB
zf2s*tyR0EHOdtiq=tN12K%0p6DeyD3lm?Jj4~z%sZ4LYmbsocqrz-Zn7Kx5k;@!da
znwFa^7-VQnU7_tUg<*hbEStfVaAp_;T#LWKf;lgj%W7O(pd6@3zdHy9c*%WO0SI{C
zW_vH>tE{h>W>$q=D;7*g)?&TJvjmH!bk2&1M=hFPB~fY!=QIWDT+S}Pz(I@v?MekH
zr5d(8dKa^8%lIK_0!6VTmwWwc`+Ij5Z=VKby^*G8b7(LJX0cGos6XiLD5~Tkl!Zs^
zPwe>fW={fz<B>w)lPsHT)@trdW;^F>Yf1|`ieUoys6|vAL)lXq4SB>n(CkqAx4Nr~
zi+BXFfKj-p!s1ELvwf?Agjh;_RFI&yFVX&%c+tr1QGxIO&Z@&;TFx7k*pRg})zK!a
za0apgE;&Nb;Cmhd6Dg`D>(^p0AjJUsK!iZ8{X~hY0aR-LLeG@30{O(R`Z~#vD>0si
z$hRCl#t~?{o+YAiunOo2vcIENC;M(sJ;3|bXsd?%6y!aTk77y~*zx<g^uTE3DZ}CY
z)GX0ANRP*sSAjMHNPrNi<|!5P>ZYTkJa12>t9ZR{4DV!6-4l0#fD}A|CPU6w<6$Th
zbiYKFns*LeO$Ec^>4`_tGken_-blhy6J`ZRaDso(eUF^Tdv=Y$U8l@X4bQC9NVQh(
zO8)oF!sLB;^-J=#g0FXy#B00A^5*YY*!sDSt(Xr1mA+24P07s_cZf?3b^gjZoi|Sg
zQS;-P%n7G$1h7&emnyyL9C=m`2gbW<J5PSyMAwNmKz@2j4Pi?4Ifyo>94$DRqa?CY
ztdY?*|G}W1x#IiWN5A_(!GPR>0^ImT;k07_=jL{7dQietkH)t6{t(A9z2=ph{v5x7
z=aqo9!plI90Jm0lTmI4=`r`m7o7vP?tt3DKclt3-be>}=Zh)Tz=Z1h`gV8Y}ZT*i>
zPJvEdvo#bXg1va?^skQT0MAGrTiR(9wgS(@D#f|HU{Lq5S{qzO71ZIjVYF~9NqC&t
ztAPmlq%j4(U4cr{Z<5`pynXyLnE6`!_y?V~rG?DKYVUA@dUd0s`k9Tje#NZ_@^Q{N
zz7L5P<qVKrc7*_vAfowzpIxE>5Y%!*bmw7*9Z6cW1+_nsDi}1rWqUfM5gR;D?9uFM
zTneGcFQtlD@-F-u!dxuzJ3_gSAeF+=dJrXCDk@^UiCq8eq|xQXYxgsi&2w0SzOb{*
zG$}zYz|E3J8bxo3+j~0Q3#2W2i2all)O^33hiT?@L*5d=u%nt1kwl43QBy1pF++Zi
zZP;5yz>85fi(Fe@A9#gd(}dSWw%*l+&oE}q=a4&aY~UO6Wds<oX?Pc0K~oY=bZ#`8
z!cWHx%}m#iNqr?dl;RC6&)|?QszA=puFNhV7$WlR1u9ikHXxl8M2ilkxxZfEv2z}&
zIAT!N(I=gUU|NPR3ZOs+)~3@@XFb`-{C`$Ab%G_AGQ4}SOLyl7xG(s-{i>m){6wdg
z=FGVglT$p)FzibkafGj6z@eJ>`^go>>r5aOj)}{`<2CC9P_fU<>N)4=+qH~4s>1oO
z@Hxi8G8rj8pA<Bx#g)}SMUuBQDTrFr22aUDUgTbNg*N+-*1~N9jJy@H=CQwbB2MKK
ziqQaH|B2g6KK0bs`xSsFK!3|`vgvm(>MNAJd*f2-dO{1a$|X}AiOyR?`R?;&52oLU
zCh5)ff@@B(EoSlfoBa)=@-2u8Mk6|}nJEdpSidK&)wAL(sK)CL{(T=VwWkUR=T!?1
zSV+yeU+Rpa(4tk-$mv$Bcs)AC@u5WS6Jmek<Ln;LlnpH4hsTA45P%~V{;9V?lt&pW
zyClY+<<YIn#hO+5E)4#c^D2PZV3SJDD@I0MJW+$6)=DCD!EKh+dJe2WAoI{JM~#34
zM>2KGl^O?PLXk>LtUgdS{$bI#Ilh10S>8Z&U|sh4(U~fFE>l4brbySgkhiw$;{~mS
zu46}DD4WnheDl|SuhdYoW|Xc9rt;5Md|HtMting)L&cj1FuNCKZsOpghO7l$9bClc
zt(1}1^7z3}b9c-Mh7eTU?G%}=*YEzO(c7LNA7BI01t>1s!Ze@mGVS;fcmc<W&QL2e
zO1=`oUgnhi@8;hIMPHXHt<7bc^J-L5_H;{qSP*K1f+dz8wi}=4KZsWzYX9adu{%i-
zottjtanf@ltX5v+QTi!zs%U6k(RHQh&-9oZR2eEY3%RUi=fW)B-8DpY3(1pQYMlMT
zIlTE$EQ51#UtBappP}q&L_qiLbSd?m<_~1?F>MLIu9C}^Ae9V{&_6DPrWAn~anI<Q
ze|n-;+W=I<QK^tEJ(I25d=^Gs|9auQOJb}FZtF*|TnmFeaJ99Rm`}0U%){ga4G{o`
zd{-V`Tt)7ql9zRIWl|D8ch_|sZA6LgAS*5(7R{kVyB?*Q(!41A{k@^A)EPxtu&MI8
z_jMU*0O*<b&q{Z1&-=@%s;s>z{@GADgsB{&Y5P7#sM1}kt+!W7TP=oK#{VNoo<FAm
zMmP`^MMoKvPQsmE9B01OrQXl?(tO&nmRp^l`^_i$kSM^O@KL=B+Uv7sv*T1fUX%>!
zAKb@(GRfQLfu{i3O-4`AE9wEg)Tmz3Qf;L&X|jAS=}@QLoknWPm=0`4)g^xG`+FUq
z{q@fyZU$^F8u?W{P@SynoEFRq+(+}$bwRHrVp_S8)NbNkD1G%opF}jL_VBvU^yfNF
zmW|M$=|givZGVBp1f#w9R(3#4f4ao^d@1}!<pl-fwQ51I9jM*M(JG|)I{><FZuci%
zayHumR5I~bCLpx7TzSk5>&2Mgw14vW$X}9l?D^MUpJP)a<;=iR%5M?tamnH_!!=i8
z!H#W-klB?wtk(4b3=+?4BbcoNWF6EmA*W^cx>&KK8~&1M!Q+TO?7%|0Ibs}bqyN9y
zrV)Z9!U;ri-&-jYAfcHgO*>u@UT>6xLmCKle&mtzL8y6ahc@1NG=mOKc%OKCJ5wVK
zVS;n4EsT?N4rIHDdOWrWUuxwOnN_rVq6p8I^gB&w?$fOF9Zf9X_M`PBkkTx3R0%zQ
z&iq+*HkN=X`USvQ0=e;&B^ul7j4AU!-Y*PzPOhbXJ$+j7a43I69o-!|Vo$54t5vJ4
zP+RG9m`w(LM`)PiDqaFn7PZAMbIoI=_hL=|*$#d4LQsr2OZvsh#!Iy4OU*f!%7K#K
zZv*4w`ng(^yh^cNNA}9Q$27jE5klbQAV1MF+5fP*75!LSlovC@@FV_vJ+tLN_EEz4
zm;6C~+*K;lner#jF0%(Met$Ona#gL&ittU6S}8(K?*IO*lCj2P>0V+Mo1qEkRKI0#
z%3Ya#siH0Upw7@EpQ*rbv>16{4cW6o!Yv*s+HyJHwn<t&uajE_y_JqNa1^3ki%%Ao
zdoL|z#b`Hh0&IE9x4(|ghX?8k#t2+&x)lqyQ>w=c%){$yRq{35TqY^?Hu7AUH=7a{
zF}B&-ls+!q_kTOIQjnrX%w1KEx0^^k=HPf@N6EBFUN~(3l7WtjSOf&|!AhNL{%#-}
z?czkGIWfu3s9@y!k|=vZKxSsNSIl?F+}#8m0J?a60rO;ad$JUOZ8%=y`1tr_3t6d-
zFIM}9&~ny1d=1a{@~SAXkAv9o1gJyOhdoLL@^0A<>LYa^K-DZ2%8Wh`va35G#K2@p
zZLT`KU3&5K!ood{_)^+SmAt~5+B>I)a}8vD?0Vh0xX%SFxpLAS^@^)9fbnP%)}kck
zTrxNT0oTH<87aB$Pupi6m#~!zKHOPQcg?c_45n!6<|;L>sa(N?0Nh8d;-l8xU$#$3
zt32i_@^=(F_>M^F)RBjNxwZxXs&L>&4j<+3oCXZwmdOEAAbh9|C){_4a%K*>367qp
zm3@zCkYY1zcKG>|fP;07)zIR^O0V071~>?{A=V(ybRc#hkK7vUbEOM#cxvzT75<@G
zdVCH)7wgewy}F9!WwkR_pjNa2Dj(Q)Ip}3nVRa06o+C?SW0|AZ7UUTkozFc2uN^v?
zpGO69LtFYJ7j<FyoS3C5_C^8!*AXya8<7+sX@VTjdMY@9F*tj@-9syv`;(xfgEaNG
zMO>!mUKiW$6|qdat#?m)9YTpTxtBUW4@i5dWSXX~^OkGbOSx=+KS@c$F*%aY<wj)W
zJ)2I4L|j$>?4(m)F8nHGCHVaGr<@a2*dOA5w)5n7SoE1p0z#4+ZD03~s2n`JhS{lU
z9jcc(`$CHa+UIVk=REtVx}k3)&DWb5q9_{ZIn@@$Co`lzE4V)dLc3pT&BNQ_yDMwt
zNt31wXj_Zv4t*%^fS)5yGl5_{JNTc^&Dr$}!A4%4$p++i(S-4;It+>**Gui1&P(Wf
zvfk&WZb%OK71IM_vv5PSWrg!1TgH?;?+QXH`3qulQZ9(olE6?i!Y#r#?-gtCeIbt<
zjh6LmkD_4144@ylODs1u7{?<q)5tgDsUe-hb*-U-jAspjDd2|bcCbK_qa&@PT_*BT
z(d7NUF@F7r6yw+rtUAvxN&CkOMo#c>p1{{D5TSDq!t8QzUK43<FrK;i_@3^j1+E^D
zyB=PRj8NlQox05TH3D}h;Oq$CJguGH?+T!D-_O1MN+Ula-?NiOSK!4*x>oyBp6AcM
z_Q|Drc8r>atBrw0Aq=R-(US@R9eA|jQ_KUBbs5Uafq14|V63;Ct6{jgxrx*8KiQdH
z*--!m>MzbVoYbmWl`I%VqZ{3zd5-};U0>fCek_q&q4OXU7vn$r!+Y1}s@$l0T#}M2
zyE@)zXUF2&Y?%lVrt#Gp&VQ759-|g9Bw0!!@=0hbIdy*_)L<io$LypfTBs)aLDhj)
zH+dlFxn}*|AA*BS0W@D?Jfb--zFbSul+TQuf;v35@9oVWyAp5p`CL^*f=QQ9M<1uW
z>?Y3%&!z|}xy^ql#D5<lR0L{et#|o(G?^IrA<-YdMZWX22gfmx{1p|WTj$in?7owG
z6g=KXMA$vhpwb9n=KK~jLUc+NFFg{w(!qJYT8ZK0YdVRCRI~s?^VfH>za{ix0k!&}
z?cM!1b1zw1pVxkfk%g#AAHN-GA=inML7)3IoH9Vb=h|hf%ho(Wk{V{CBvROiZ&{t>
z?*iNkl)=@HiiQ;@tCo+xhZIG<{8C9uW8dnIj+vpNLr|2?$!53%CeAtMDY^rc3*01`
zCAvo9k{SO_&?V3x9+l65?GrJ9o@C?j6k{HnB&D$c$`srngV&N%^u@ej^R#+!fQXRI
zMqP^_<Q+yN2(=({;Lf-IOe&Cw5(`p*2)t8YI9Kw3VhNQEoW?nAQ|BQ251cGUMtLn?
z%}4E*sl87+mmrM4)oEl^6RW*Db+%lT8}S&}K%M_X?Yl_iqw=+2(`>i&X5+C%BH5+!
zNy5tsD8~da*qz*P67m~YBUa({GyJgYy<vf8;DlPwpMtn-hcAvN`_0Z>jKbUKh(1d6
zXEkpNYBIsqCOO<Sg?AcOR0b?r(apiY?(ztZ_&?8mnKgG_o0m&s#aeSIX)t8@nFCn6
zq!XzgImh>fr**qffpT9^*oS9wc+t5<eMiv)y6O41aaWQ}m*0yviMLW<r>_xs1Wl}+
z2S>FhY|1w*HIF*Pdfzh4_jKWN8!Q+SsZt{fZfs|AFg;GCAvlV7@4EZ?hqcJtYRRMb
zVni+5-qLG)*;~?SzdjN#vQh5s?yukCiA`@+C7%&8s{c*=YGMUBJOeDw$Lq9h09MQn
zs^AM|AXh768X2S<-ZKbPUCfv9&CJSF(S-RtSl=Fsi(xd5T;m_*NbcmX64^cQ@=Nmr
zq8-?+-QCgS{PP%4*JN2yF0xip5N=Fx?b=}D@{Sd%3ZLhDMlGFI%AXRqxcUCN8mw}q
zQl|Fj@Zo`e5dY+`J?77qj#!+(Yst%86Hw&RCgvQmQ72BZPfKG&iC1tc7_vSp$E3sS
ziTxja@GGro<}rN{(b)ClT9%UI4IBbd^~l~^c-Z7K;@UG!h_&llLRv(bJ6Q8H63v{3
z=C?<@qRIZ1#q&|>6Xt9TrA12D$nk@M6G3oukuxx?Pk9^tGCeeHGCYwO^7Pax^YrQQ
z+jCtG<5$kB>4^sYGN$sq(S%$jU6)8J6_+nHhr;5@=h%e$<mR>wLq7?%F*Lzbe-GPN
z@DjIe2yPCmUFGK;?whi08S^J|csUK&fAk+ix`YXp$^QE^>|teH{{epW{MBze*otLM
zSs*>AZ2XI0q;hNkmCa4aWps3sr@+G~@Fz58&in4EkUI;h@K))I5*lahFV@u5xuSOQ
z6zSVAr4pCj;MS@T+VsBm=WB;@Zx1@8nA&pBl?JF-3`-^S2hQRmz&!3P9+WQYbZllo
z8HiR+ievS`m2hwk8LK2Z+TRO%5O|p1fyo-*U%MU>;jy!ygtPE{OK>CCuub!79rGaN
z^W@m@?v$-K2i3Qxx*|?IJv@W~GAxqDfJj8B@`C5W%$zTZ{_9cwB-}!4-}L^Zih~RX
z<%oOK#E9tQWC7ra*W%!~sGUVK0Dn8~IolG>QGz)z4+owIa3N0`{_<qikA1vgZaUpz
z7ZcdzwyI@pze#|vlgkE=9HO9okqnRr-Ak2Pw`bzAH)L3*BSFc>W{)AQxiy?=^IlIt
zbd*WKd>mATfs*qZKuahHAI<T4Ok=}cNG^JK8nnYUr2%Z+2RgSLrJdL?l-ETW#Rs73
z7=B)7`^Gt`<mY?%srHlTGC(7MTN-d>bQ}8IzLBB$cyplw++{K`)YxyarQ<|N0aShZ
z6ECB5nxya8@5xPP@bCS=>eJ_ByDBI216DNSwv^wFFY8~dkyIF;7i5`Qx?m4|Q72IQ
zj2OJ(i7CgmJ`{H6gWky;`Iy|HojM20#xdgWNGRq3-roZec=1OeM=9&e(vvb@8pq~%
z_{V^~%nM%oF2ohQhagHi$ST$O#Ll+jpn^(?Ta7-0hXDv9@@9oJHJcAlpq!x{$+2zi
zi$5*pDg-6NP}4|uIkH+Vhy3BCqJf{+>I?X&X0m?W0hjdGiD+BMRXmL7R_c;c(It^O
zG%ru@FUr1CEH#I1Dd=Hl4c)ao;Nf}F7y%r{CVWV$hXghcrk|xA+u`Y}Xtz)|O%8;V
zt}>dOR?Hb*kW?=x)v!Si;MeU96h{Uua6h2tPpMiZEq^tI=YrD*3&BYbSw6_(EGnbY
zref0r-w8~iQb;Qv)VUuU)-q{z=>{~+Z>bc?Kxn$&FzDR%emT-vZ3H@>grZOc^@&cF
zn288EfB3HHUhorTweMc_0P4A$zxKQaWs_L4Uc7?qxXNS&%?@Yn&xT!8vD33Q{%O_O
zHxzS+^ZQ|DaTn!&^br)Pz$6L}C^)Ywu5Ox5AB0k<XSm~bOJ;PnTD)NsSI;b$TF9}Y
z@27bFf?lOGZjGg5tT<+qagLfQ^7%x8-f9Roif^+4N&sR^_A}Xa)y!YsUw`PN(e67e
zh1*u>-Va2}&G1^puKnKY6G3`S+9@5BuXTAnN;2|Y3$1hK^^65ggMoY)MdX`B(X|>*
z0}gkT2`OvFK?Vhb2{^_T1ixXZhb8yQXe0%$l4I&J`6FibN?@N9kh1**tn}SIbgu=}
z>z#{K_UYM<Ch&BAV8F*-ZOpz1kGuBW)&>Bd^h;o1U|PHhD26Ez4lXGHD6cP~HMM4}
z;5Y=(;!(yg+?7c9F*u#5Xvs0N&iw$5T`a<+VHuWpYh0y0e?$y*kXuXZJ9?tW)sDqp
zfA|Yf>=1_oAO81fN?Rhrs>vUpHV%1tt51hZXMC~7$nLSTjeRi8*nzlM+UywJ8;Se@
z_wloRDCz?{55^{de#Gc=A+WP&+#TQ!hCW|-5ov3s$C+M*Iz~I`?RcMUBDwI)!K_m*
z@+M5mGdi6&2rSeogO))f7HIB1HFx(x%x;#xBo2Iyo0^yRK9Sr>mnb2=QWkJPrH6J$
z&+@U`Vr3p>_R&0}5$gmmEFJ@egd26_PNH?c*j!<2T=_3xts!pX6Rcfy_T`btKWza7
zUzOBmcF!g8iDakeJcS<1zQLX<El<m}XN!@~(CNcD1>Ud$yZBD))OgTNdIwg@XpuB=
z>n=-hnlx<UA~Lj(=YT(fWE}OeHO|xHwSrBjlQS2uhbfKr&UjMYu&e%wl5@1ey&yjp
z%u$AEX(%^+LIPzqm^wUj(0?e{n|-GvjMn$4tXL+YFF~DNu*k#kjTo<RB_R)G`)&DP
zMdkPl7?gPSL@fRzL#NkL{xoZe9f;zGZL_YL`P3XvzW+6xwaV40YXp$1qaP-fU(ZNp
zP!QfN%3FGXMmXX{h?sh|n9$G~6WgoJ=1getf$Y}z;>^Mim5p8?9yJQYX7aDL3wHYD
zXN~2<Ua#g$XO89lqy60d{bR%(1oE<s00n&7`u-U>%s)IkGdA>`ot@7H#SeDJUF5A9
zRt2ihzfFTKAOl96*Y{UWhf<<oe*Z~M6|dUvJG(bl&>oxfDj(Fpz7ZTSe%CK~kLzEY
z?o2=Sl$H*PQi`Vh62+IuK_{E_3<a}DC99^v`+L|w`?M9dhr$kwhaYO2Il+5%1^ZzJ
zGkC&B6-D>GJ~a$St8iq0bNG{!!?*Vt4!Dq6hIWXfu#iWK|7qbC^2C!Le}Mo|le0HB
zO_s10)?AuE{zZtZM0JuoEfwxp>@Vm+a3oPs^PxQ94HYbAaLau}<Z0@SvjGX)%QJO5
zziG7H4UfclK5kO;iD#kjWGIuGHB26y*5WV{afS+Fi+x^M>A5;z=faomxFb8q=G*L)
z<^NYDa~R$>WMSAvRl_Q)mF|w~L;BG_GV@ie3>N%Vd+(7TDicq~iWxDeW7R0dM09pZ
z+q5Sf=dVb5{_zF&k<43t+4G9TM+2T2AaET+hx^!q&fZhbZ4y0M1L2Qrf7*lw_vM64
zSBu4-_a~rCHr^VgyV$C*DdIUzBflwVs9~gA6yZrHe5x|*;J!o2(Uj|zR7j0Ei_Y%I
zE#JB3Q<97QHFjB^MKf(wP^3|P*rY1*096{B%z%Woo&|xx#iHY&Y}G9?C@*;oLwvXA
zJ}jH4m%Mu0U5@d7Bk>B};{!zgF4d!*&+nwk(bw$uQWc+tm1>ZMS~GuRS7|hW$P3>g
z0ek>1ctqLfON{b6F3fry@O_K~xADuR#=uZqLM`0X<SAj3WYb(0RRw+7Q+TfXzG^`>
zHtNi$aQ`+o!(j-iX6h7IiUi(a5q~;7Jts1aBuv&X=^H^YWH8fQXjejqw2$ZD1hx;L
zmjV>?F(zQ=1BNNuVr^h%{}~Cr2ToMW;b~9+P%9uSqyhif{!$=RiB23uxEZSG2S&Cq
z|H}oyP)01N`~bP&WPoLxKY%eg#nAn{6+eX(y%TXo=%ImV2ZbmpFV;_M$o~vgpYjo5
zTzHSoZee#627gLa;+WRC!LwN@DZ1;_+0S9CHa?N3=mG8Y-ElY^@h`+t+hwjCcS_&(
zpuQt)-7TMEUjLxy@rBb=(YSO#jliyE11P2@InJ|YI(gpi*4`s!+b;2Vp(BI)R_{4l
zx8Wq(vuDXnk+)#X9Yuk2cAsA{BN87aRY#~MEV`51EI9IH>GQOSNDE{39FvG$tFwrR
z=77H>jRcqhc*Tp*yy+2L+?_b)!FBfg_m_q95R;Js5Bq3~3v`OL0Nc*>=bIDVonVxJ
z>%%pYbLyADb+X~FzM!Fhj31)Ln4TY@5-CPEGtO{j<>&tPRNBA1CRJ9+G8)ONwZEL9
zTwmf>ny%MTa=~+g78Me%WQI4OP+ox+>@`jZ^Fk((Y24hlvGSUzC+;EGund-(EBXUO
z$I(%C;^!+--PXA&|BtG#42wdIwk8G`q=pty97<Y1x`*x#=|)mi1f&~D=@O({q)R#k
zK@jOiT4^Mu;d{q(&b{~hWj)Trys`IMYwvfjwKo?R{YOu}Xc_#{d3s=QV$xNa6``T>
z%F<xlTT)bs8<d7CYgwjhXwc}ZFPzq5QazrEVSc2Djvi~u289dG-8G}A1zrl$be(|K
z@CVJHXGVIiN_;scGP0lvJS=+SaJaviH#dBk=g8tR{uH=_jyTL9YVX=!Koym+TvXy9
zi!M&^6aLF9N!&RReDtZeiRB~yes3(tqZLwrR-v?W?1h3lPgmzi=V<xc6AKGm&plw#
zJt9!}82RM*lgm=esFiYp{3yUCvFcHorEYG&#K(l1h4S<llaY^yf0>*s-Ep~RZ_7_6
z(@f?#HqLsYqW|_S-a&#tDH=r$%D5>+%eoE`?pRMI<}-Rz*)jR+ZpyC&;nz;c;nlDA
z<^xhv$Ze(IYMCNkL|~MBNDHqdFX*%4e4F{aRJW`Pc=sTBn>9=}c%rQjt3u}m+<M%b
zz;&2@jM~I8eR$>W^iQP`1W}X#cYc`*M@r*JiyQ-&xSzi75cg<dhZ@K6@qOJ7iP^)W
zf7^rCN42T1vBA3~iI4*uPRmntmWXPE$q>uhq?1KFBe4+v$B`Wz<kQCC12c@!raWNw
zI!tU;$DGocE4b<LLW@6N#kF9!-%?z8&ec>1KT)JTHg<2@Zhd$?3v?omj_6)qq>wo#
z=FkZ+CkMUWc-r<p#ZpM@?c|jGjrH5tyt8aYdA(~*B$uTvtF8NZ4{IJ;sb$<<#Y^8x
zLkr4r{Ju8Yf~T;0>+>+!<IA1*e=j~~fV)Jt!{EoJZFtV)yJj(DJHoH~?vTTKikXx0
zwI}m(UKL*xM=44Y=tp-4Mmq7o5(zK0n=nXFD<+hR<Y~|yVotU>KXi{`i;33Z2C=%S
z<d@=6w#Nt78*PS!gSKRbB<>9#%&zmPMo+T54%YV{?&^tS86>GZFySo`VY#fcGXCkz
z(Aybcolj>lr_;|gNYfHJ8={rxTg5?br=Tn^QK2#yLGjX3l3{1_$sL!dvwz(Q)mv6l
zXaz)yaep<i7TXyx)okGDYIWKNZDNj`OUxb@A2fG=?V$i}Mv|b>E)Lihltv5Ca}i-j
z7RQ{ad_CR*8ZFXOR640cMvw>_4G;?4L#XUjm`Gy5Kqhtg`xDd1q-X3Za_e{3-d1SD
z{A$wDAAj{|o}YRmF$tJ}nz3pZ6w~KMg~8P}nBIR|SIav1ozE)(nmX0FL3a(DAUH6N
zTe$-bjUFCf8uy}4mp_8wz7V~~?FZv#KIfnPA;8vcb?$k4514|yw7$;B(YYc3hog{l
zm~>}~dR0385MnO88c5+_-}|h~V$$TIV1Qn>3M@jxiera5J5i&fb8SpL-r9eeym!61
zyZbgf8}9DunQPqa#-vvX-)Nkyu~93Ixtr9x`u9O5u$IVO73CUyCx%tM&Pkht2garu
z<aOqHb6E7v?)zm@A_4H<nmWuFa=btwy?&7OXQU3chn!6NNy?wkEvbh0Ct<LN`$U=>
zey>Pt(gYV!dW~~Z)xY+C1G4O<6D)ygXWqxu@z@;|w6vw=i6wpJdGt>A9dDua5N)-@
zE{1G9tEEt(;twaFCiL;ILF7f`OvcN_PoD6_jrzH=;U2=C09MV+AwK-8?U0Fw2&LcJ
z^Wb1^fr)>wmP9^V&hnA)A8D;RU5OF&ZzF~aX+pKpI_+cuCEGh@&qIMTDfaFkV=wkK
z!32Nkz9zCoM;#*nqOQv8CCOksPuF(g<u|L4Cy%g%g>yJ;dO03QY>4pytIYXSJ#6|d
zlQFQF#fND|80&IRP)_2Q3u=aS-{o9xx42;-R@{iPM-H;1-*}}~;}<A!zIM>G{<v#^
zYv`2-*ZM?LQiFamIpO(Ii;updY~1Fz(64RgIce+m<Z@OuPx4{HvVM=?6qE5B*oM%~
zmf@Y_whry<wMWsTuL>j%YBvn%Sbc9;YDlJ-<0+BK;C|4?vyjwHW4e9uzf?K^k&(3>
z0C9Vh|Lb-uZr}h6$?43bx7LiB5yjy3`xx|Fwq9<^Lo`o2l@XUL4SOG_V-ywVh3!e3
zx{{uD!>gc5+@e%}Qi$jOnHlW=_L@#&2FzR?$&teP2(&ID;SrLrpQmPOY`E-3>BlQf
zO%E|;|Lk`~l5=nZ&pP1ofT@zkBeDKHgUhS~g}KmsrrMg}^6=-t0T|D>-xN7<h%Cf_
zsh%>cU)~n*4htF7JBEY0%xXpZO&6Hjndj)+Z8-CeL9#A37RF}u35Im_0{`{k!gcz!
zFc@Inlgw_Y4n{WuhmRwrDZVScDhrvxom{20T#7K{OfE10gkIfYtPsyui&rlC-pi*8
zT)Y}Y2R-9@BKZG%avPw-HjnOb@osZ8OLOs3#^lj-U_La%f$X*3ffY(n^#;=Lyt-9^
zgW9m1${Vuf?q|;hDHvXUuYEN7)b#^>IPLg@XMu)I%wAj3YM(6Wxg7OQM+Duz8GW`E
zCzmagEXikC<C0Yj7K<&aEhF#pW%x)^ra?-n^!(M$!5my6o1BE!=}MDoHk%`!0h{6N
zvQK3_bvT-B-n5<q;|MS_?ev^K%0T)@{k>`3rf8%``LQil*K=i`dU{_G;WeF(#*NBh
zrbuLTm3*bgsB=?RJCn|>*}~8a*!%HFHQ7(v&O}I*@7m;^jclTvDfg+J=W{7J!|fl2
z1qxdtS2wPF#jUX;m#ByPvL^ku8RJE&S~Z0LFVJp37H%AtY?7Tc3LSo$)+dY*34AZo
zV#iVyfK3laYtcS}AS+G@hWzxZ@p=s_zutj~l%V6W2h1*znwXqeUfRfJj#2zfJS3Mo
z>WusSw^-?BGQ`cA%2tLXEyB?Z?J2Z-jlAn=Aq`1fLm4I><&xj+WtQ0!8)^}E6e3$u
z?=y8{t8accSNexSx_PpAZ2Hv@`{ksnT$+~$D>6}(ym!C|>E0~AoA4#GGAvUm-pJd8
zX;tP?P5$|Y=UHp_odE81|FiS1NsqtXc7#>|rQYk*Nk#DBuCN=MVlrF!!D??1#4=4$
zm(ttECxmPnd&2e`7*$}o(jER(U#kch_Iv>r222!1Xkgme_|KKEkAX#)#`$YyS~lQ6
zk42mQI4gGSmtL%`7){M`9e2P6yu;@&yIrA0t$V`jd5fSCnzT57r0x>+9r+Jt#E?F^
zPzGX;T}CH9mO01<G&k`lp+W*<G+j_XTtp+uWYM1BX}{1rodta(_IcQE4PmNpC#*3N
z>C<a(3!O%Is<BlR3ll_2B@UkNZdRINmd3E;<;fD@u~}9j%p@a4ny8L96Bsn3po!ly
zzpWA4_eWrGGsKCE_wf;ZDOqPqdHL7vzLF44<So-fB!7>UE3=g9w=fTt9Q7&mt>PJN
z4Q@$|lmA$>ydY4gBj&iNfd>3s{Y75JO&bZ45{WV&(U)ufdd91g*>3xcpHcVAURwb@
z>NUGm+Fm2Z<0e`6*^!Co!Hgtt@k~n=gm1E1xBXw`o^^2?FGL>a9@Dnw`7=d8p@DcX
zX%Y<*RE#8A83Y1CSb!5|A(cjgk@)axQ^u1Rmamw!aC4rV&dL2wrI|iuzV-5l)vs2M
zv9=$MZZ>T`S|x}kSp63rZnP+bHv+yY`fejh<N4jtYOfRgCiltPU5vL$=Oxl}=$Shz
zMfi(8GxFMTd|E>G+-ug(8{ZtwJGkgz1yD0DPWQRlcE5HtIuyd4F*R}C*&E=7IbLn8
zG_ak@7?@VFpDhto4BkT>gYfjOn*B%PtM#aJpi36;J)6}tG)`uH620KDet*E^CYAp=
zb=|YM<fZ#gz_b@)0sJJKfU`nAf%uhr`4>J>5D7hx2KhHHTrUNANicmgXD1qNl#}{z
ze2;+v-gv9m>ohJ)%n!O<*QbkWNM9}&7y>H&Er8GrayQ_UG@K77r?C2=u~9U~qq+Le
zlBTivx(^zuW&M%=jtYJW6N4yo3~zFvK^(M|wQ<PejR@#qJx~!%+Jw=|(Z(^RYFMRl
zlKeJTOZG;SS>L-c`hvwpX1UvKjX2*8^@um3#;Hq!xRKpiB3jc1cNa$+?))6gZ*%=^
zN8_?F7Lr(A_c2*2ZWqGFHsq0qdt$HG@rj*T<ZJeG!%H0+_q@36mjYoA>)3N*_eKjV
z{Z_>lEU;+&zNcG57p6xG<Y}MS6x0+c$(FtMF<mT;XFqo|+O{Zf%e`GSVS1W$@^dxs
z=_&Km%&>?E8XWMJuweko2{u+9#+1s-Ao|jeZ2R=JWcmtEg%-s?<V-P{OtIJX6{Ny)
zKhe5DEM^hWXxT)rA;>{AW|z@ERp4Ay)zZ3Y8Lr|drSshJf@G)qQtg9@*TA|O)y~6D
zV#u`$g_3+w4>maV8xeTyZVbl!>IwdNI~2v<aXGiWDx{SxG81+FF=`PC8N*S|r>T3n
zD(m^{olVpa`;lA>y!%3l1`SRsz|cU~5jaSe_rZXXoh<OTV9=sI1P-{$z!W79I1wa)
z(6g$`=!i&m03}dhaYK+xv?TZuc&})e>asgfsrGf5^(QhP0~m)rGHXD(Fcyp^%~#86
z)eVm_r_#+=L0y>f{Ig@%Up;Ysbu@H5s>Cq@QePAwF{5fez<~PHYe@Ie+L18(L^l1$
zdG{0HBiF#aOuk7nM=}Juu=sQ+Qw2PNW~^m?&<-r(U|;rFV9ViWSJ#m*HX6O65Z$z9
z26`BqLKedJenoSUnPa|BxBTZYnL%<%P{%}dnBK%QktBT?67tZFLR`r#P0Tiyq`%6c
zm~#;|W)|*zm1<Y3S1cQQgz%+YY`Xg+VZk?0xt@R?PmK+ptJBVbE~+Ki{Bs0j&MBut
z@9t3iLuTVoo?0bM76Hc*Y&cM-lt=$*0lastvk8YtbK)CEhv^s|kJTjoj;j$ZtU~-~
z({-8^|0Kk|qZ!?1tDpF=fn6f~QoFGIy^y0YW>;EC{5(YhaXt1NcO_+~@ZhJ(9^<Fs
z8dXZPM6Mm%xb<7}g4rzWTL#gEt(v2U8`aO%U1!fEtSOJjeG;XPV2nDJgsXf4yNHK+
z=e{!iKX-!O|7JE8@L~yMq;Rig&E)1i-|`sJ%6Q+4Jdh}KvHLLjEKLT(thSArbm=ZB
zrkiN@lbfUR&gIO5g^zzS#f{#)H-pfkq3%f=(Ww`_boI2hk}IHshtM$f3y@T=eOELt
zI>|PYIqWv)_+%#wKZE+iFbFI?2T579voUbU^fJ2<Y};c+1e=C|Kta*ukOfx1bw50-
zfumh5u*{4+!z3^>^*v{JHeDGYcCkU%pUz*QNiMH#dkUUwMo?eNP$$AII=LxFvGDIz
zhS|vvpa!$`*?fOr)n_TcZ9bZ>P(SC|B{e&eCznLKF;%FNZVO-;84UsTI0<@DrPWs=
zO75po+&^z(swIV;*W}~0Eq)LigNl8UH%)dqaDai1M3m~3%D(#btx9A-V)=ytbggY?
zrbfyI<K5c2rmTFf{lo`FwL3a&ANtt-u2=`uUAE(Uo<Wgnh6wqZkt}?Ht^?ibpHmh~
zINVw``$MYF8cl)mPChKf9E7^F5QNY=+F`ou(ePS|BCI8`Krwk*01;c5?8d4#JxOHf
zgXdSzxqDyx?N-Wni&}!B!>*rHimw*xHym|osIF%V*i`Hd-|vWYFp=7$kr^tjDXP5f
ze_9Z#WR?5T&WCZ!++jFSUyEgT%LheJ&0%y_=(v-XqC_uxJaM#lS5X5i%zHW$Pg=0=
z2IBq|wGp3Q@SdMve>FQ@2RH%s&=<0Sl5j(z6aK^Qa|dkus{_}{l=2_>J;JJE9=p`a
zQKu^t=`OOg41vdcM#Q8uFR5$DqXonv^Qf{NtY`)HDLLerb+2Z0oQ!@X;lIu`7{f|@
zxLxm&xNzP^{zHp1G}k78FpL0dW~d}_MYP(f8wUo@yUsnX_C7y6K3k2!;T{-BQwmd{
z2YC9SD}Nwk1(>oN2l^-E6yl3Hc=P4sx(<K+0Zz19z%k`FnRDTA1&!1j0j)o`ez(_P
zEEc;|S@7~Im|H(y=kR0{+op?T*MH-omEfdkQb0Z*aQy^cU~~b+Sb@giRA6U1+#zFQ
zA};`5h=lbLI*Dm!4L!_IkLr@Id9xszl{~31siw#wfS2bycm8sAu!^0z6^!32%~&2T
z5={}HN7E5Pfl2@+u^27EauJ9Gd8&oR|B}T$Qf6n6FZKM>dLY)y(faSUY>ICejgS5&
zGFrR<_1KBjVlq3qcbA``5Yzy5T~sukB(E_;Lm%FX)QotB@XLX|vN>t~eM0X2sFDQD
zH`-g$Hp;r)vK=~m_Y%6ScmxLjxvH>1=$d?%(dNxpoE;4nRQfw1%QyrYBd59=125-_
zH!e$Um;a18<>^(ef6Oh_gJ;mzAa^**p98Axs2*~`L9Hmdeq2=4B)+W_7dy?fHyhP-
zJDk37Q;&sbEE+-i+D^7)ROU@eUo37atI9AG=`Q%}3Rnr&%j-E&sP@=o`N$g9JLZ77
z03$dYElcCYw{XQ0%3NSzpb4_OYaMM+$0WcRo?!4hDM<N#YE$Ji?PvZWpT%#^KF=;_
zGBaVr?br=!<wrj;hOF}nt^>yJ0^CvbW%k8VnBp$y^}fFs#HL<Bpd{e<k3SrcAFvXO
zT~l6dcK&%s*|<|$+px`B@YzDkjCByC&vt+R&1#e9iGA0nEZ+;e0dDF;8TZ4lj53c|
zRzw|M%gTs1CV=p^M1gwUe6PH$P~?<lc}-Sm0oeHFgCH?Fz|pSUeskd<eeW(T7yN}R
za2zWHej2cr?=81Cmt>8;z#z^A7=ndu*m&<jOaxLNTSxr7Pe%O&xRlA`QSxL1qpuL_
zX+ZQC=lOw?c`Aq#G6H+%cBxe6kgzZbGe}ne${qns@<;NemP@hW+64s?)IcAjg{qb&
zxc)pUz;njQsZc%TbiV$zJIvqD{%>^QL^DUg)qasEvifB-ee5HA^x~8U@?w$K{YK&^
zLqI)o!`QF(TP-%fnLib@Pue+x{@dmXs8wHPTs3*01b*n}DO!mJbZmy#RV|4XR;UsA
zyK+Hd>gAlBbpE@XRWb#*-9=fxiswh`DLRUji!s22rrAT5SazzSl!F;~Yz6^80GjI7
zFYv%kD~^mPh9_vF_sH0+Gv43qHZ0D|8*FF+Kw!;1+v?RoD>dx;j@!oV=rNWsp}!#r
ziov!$+)uw%TAb4<C9_rA#@&#FXbp$khZ8sdeuFY(r>fQ9$F>*raS{wwkJKw_$BTK{
za`au;>8D;N^0Xp~38!n^o)o9=7u~o!l$xIQAS4b6H|3)M%~jZ*EXxDAqUW%y34jxU
z?T1iX_&RzGu(}w_S4gnkn{PY@ke9IKdo&e)w2AkD3=42$DbuT>{eD5QNcBYt9hl4K
z05ypv(_G>hD}e3ZDloei?M$bfm24K+gR?DsdWp`04~|U-v|9-xcD|O79TORDFA<u^
z3Icq<3%W|rtcyZv9?u<+Gfz-n8_cq>&bz;95OsR{4`_wA(ZzBkC~6zlUh`zs%shJB
zW=Z(qOT+JA;SpHov#h&SUuAUD>kjCBnlC;*p8s%K@WhJjFV;muVp}=5nA4M|hte92
z&Oi0;e*lTHC$XIvu)*J|v}9Sp3c8N{dg6&GAsOB-?&L@PJgc9B=~D()ZyLx1SAi2@
zwQa%jOpju>cXq}=%8%b~Evn0)3j-g6j{|y~6zDUG>+QxK3eG8RTOYg8aOhWeSD&n-
z)APFfqR$LxIWN~wEN<91D}9PVY3PLpV}WZ!ovGWHBrk(t^uE5i{QYuNXMTXkemv|A
zF2zdSHIPC^0kKfqZ}~NmigzWs1hVz`M}6+<=Ebj>qRpl!7-M&XWndIR`ixUOe>c{M
z76r{|XZF-2E!=*A%K`_9S}h@NSFhsusGH2@BE@5hsYO`UV%o|Istc3~qke;Y6!8u1
zZ<+#I0xN@dpsL=mF(>V*8M`XS>4#B6?%1eV@38gR$M{so*%O$kRruCvRWT>i@owgO
z_rURkB}pT@B}!?W;!AD*LxC3Ii2lSaQK}E0C*#7<@$@Q_2D;GG*}Rm1>XLCRq&ycs
zI{^+8aWh*WW8Lqz%V_6c-xL5x(%o4yR@D%|$SD4$t#9b-ahQ#YcDK*0l61NKcHHA5
zP>mwkSWW8elSl_1;D>JMXjWLRtDf9!1LwB}k*1bEvkv)Q`BJUJou6lc(6b2^G&BPJ
z?{_no@y9MQ51E_RqbEjR7Tn$#$y02v8vK+CP1x_mdN3S)U--(NeJx+8-IMtG%YO1?
zrMcAHD#}phr}aC%^5Bp>bHrSD1MK7NzF9K-{lt-I|BTm@(^25)R!PJRJVp`^!n5@q
zoez9w_eFVJ&_%_(iFxl<g)19c+|;i|jmBIa<!h|j!kqKf%3Y4uFkBsQ84@s%8$=BG
zq=AfD_X5&F9y5jXvI&0dW0NL8Ykd5$sO>Gzteg8(m6DT(kH~a0MNQy;%*_n4f{PlP
za{R^AbCbbvh_tCpq0MzWId`GXfjmRZ$6(|gB=IxfJK%ezRSoX6(%1MBj!S0Dcz<>T
zI9HGC#_2`E1M)GSl^Zp}8qw-qow2#X0dDBY-;;%V);Z2-&iHOQJ<_Kab~hPwt^Vi*
z?wc*)k2W7ez8nw-SgQA~RTn8qr0YdI4q;?YRXQy7DpcaWB0e|g>$PT`XkBC_`?$m@
z3v!9581UfuH6q08Ptd<BM;Ph<W5t=CcmnwIZoet|I#-ge5lebD2q`hHsMjn|Jl?4p
z(yTCPWm9t?5If7ZSQ%)I*7V0PgzR^r)lZFwM>6@B=>l-70RJV0FV``EH+?fPKDk}d
zu4*%s$!lE|ja;FCV#yAd7_-;ngc}_I88A5;J(`BT@QL!LLi4e?mBCW|@k7%5b0^NY
zZ$JLJ)eqybG4cvlJ`e7KZ0)Z^i@ag++L_<B>TUfLR-@x-Uhw}-D@e+02%&xyr|?zy
zWYP7)l0$8tDO);je-yoOV>?AjGa8p=WPvC6@O(@I?`^SdwdH;Ah3T0f?v+u97DUH)
zVVg?E=by24(|GKPfxD$*g5Evv<q+~>5Ot1$eY9RCn~Nq%eFlVLyCVQy_Xea6V^?tB
z$C6~x+@7}_U<Sxz=o7$;uP?SMwA+1s08vbc#~ZQ&1yo%ZH?)=l4})5WLMhNO%U8Z8
zFf!`Pio05*{pg}=u^BHnP6yV=5|8<&Dol%>n0WL|ypc!Yh?9+aNkfL3y3NO|S$rhh
z)XSf-Q}42=DFm#hbr|HGWFpB5LLd01F4^I&D#z1@C-pw~CvcOZ3C)bx!YQBlth%jI
z2Y@8cx+lE6g9=^v-giQvDK3(=l4(1fEiqpI%rG!iGj=f)|Gwg<-<^CpY9a^0rMQe1
zp&iY?+mwJN;##`)l`$(H2}u#UuLf|dRzUbIpceJ~R2O*J3&_K#P2x|1p+g|PX+$83
ze-DD~EMUZZolYnZh3*KsjXX;|y1km3Ro(hkHs^A4h-c5`lx}f^h{KJz$1d5XycN8f
zyIZvR{+0L0sNWvr-y;}>pr?U(_>}1I&=shb6Mf~suh}3H(PHu{MubLv&O>?XxLE%F
zgZ|a8QDVMLvAy2k|D_(tgViUQ4ba&aeBfXi-Q>2b7$bJUM9Qog4EmPk_H_ZX7em9o
z^SC7(ej6u8{nA6_GhfEU2OX^~BLJ*K_dC$X3zWzMQ#jmJsd(*4TCe}i9S=(pXaJ`Z
zwyty|D9&d+$fSaC_1pJfR;uh+wWfI-CchbI%NpSG+K<P|G{|TOJ7+NQI8JloP`T@&
zHWC=xTYRK_zy)<VUGU<FFOOw6<a=U3?_!bGmXWk)hq*8&txsr4NNQMwE!fs`B$h?G
z_@;Z+9D;^`gV##>&03q@;HM*f7cxw{KWX?pq&`4zvJGgR4U|L-cYeqJ`JN$+ZKCiq
z+WTxdl)j~^{{o~S;ysQ+)eJ=d37LNmWto2e<>C(o0&DQoLFe06ECsyoj!*OptG;!h
zi`$9r^MOr_r&DDmGH&I<P_Gwo4ew#Sy1RU>L-2IyFMtm_g(iMYpA`5qldh^6PJNrF
zcs)5<C`C?^&bT-9p^t`8QoZD}M54HoV!^MH(rD(#IDgL|62}y5;!^#m1=P~U(#Hh}
ziN1fbdE+xPz9`C&5K@eQR~>z7yL9(Wn>g_8Pc`@veFy#SXbX(=d*&U5e?SQGb6jX+
zQM`;BovqPmzRe9UbD?FnE4xjnDf|f@Ei>fj=S~bIj{?qe`k7-(%)5Xn6<uGRHqQV7
zF6Gzv3?;a4qctVTKBX?uXISMJ>j5hdyZE!~@N@G4Ku|i`z-vrv&0(sX`Ekofe?$>e
z2Aar6bMuMdA&`X>OtlA7x$<hpfA}2>#?{|7%|-+?V}2h8><pWF?!ChHgKoYI7nI+0
z(=6N5Tti1n`xaR95_f}(8pDYhiClDh2oE(16iFL0!Cpqf<{$qBcp3pHetw@{r!Jwg
zd6!`nF<d2Y@peiTm*W(CJVk9ke`uk}bQv4F{U*g=j4b`rP^3eAn!uw^Mcp1WR)ni2
ziur<1!8vD=^l$zEH}k~Q!nI)L)L>6W0Yg1Omb#DDn#p9=Trhsl$`6%rYPBlo(XM%c
zsZXl2nHDnM7NhSh@Zn-8!}>okAVRZmkTE}AZI3@tW3as?xUo$1PW0U?6A~KrDumGN
zv4r*3M5Vus-azJ~cRv+&&sk30?_*H?4^EFltkL-IijzMw+Ti9=et=2_v)0sq_t=_k
z$gU}apTafjo?tu~hl#R~hEigWTfqgIIdIvL;S>EcZCTEqgK$U3=Fnl`j-#d*b&O=b
z^FYL1oxbc0SQG2Ai7heXLxjdzUEH`FeQ(Zf(8!wb<m~_(c~t^v$F5=|WR}RT8{Qd!
z8(IsUeo8_;7aZjdFnRFH&bc|@T#gNq2nGg}NK_1+s|1=_e5I=$z~&n@Lt=SiJ{QB)
z)&uGyE9hQ2k!Mof_pKmN&~KOC_36}8aDE2X6;iY|d`v659|;uwZ_<mAQI}`?4q$HC
zFHSor+|iUlFG0rsVUUQ6`|f=)?@v^lruEo1lpN$81DOjC!|YQyOeZJUfRGJPn+|kC
zy6*P+x1YqWIPpZ_9mXeLK(y?XM#&URZqds0HeS0oto=iXCe;U9&X^#jFQ4btR{QpG
z??O#PG=^-48f5zY-<%mHxdar|k<5SzTg2EUQyg7x)0d2J1~dg?;bNb%`Pwp5Qlt##
zS$`;6^^wb^2S<mEsHwm4DL59$$Os8SaQdlnE=S5V$fH%fSnlHS`r~L&Wf3A{)J0#X
z3MIY{p@uNK(+7p}#16Prm;;TQ6Oe_kvkNtnA$M|%4WpVeJ-3+C1YZ?S_<nwa$E;s%
z<>V$A;D)FtdMpxXJ(Ou27Q8FI%#2H4w&;8L_HeCgv3`E}1+1RCQ%^mB(QqyA8Ej+t
ziQ{Q_n-m9D6fiCifUKC7XcnxoF}&T)3zl3AB=KYm=5v_DRe0i0&Xa<$dV3Pd(FWHN
zM<z!gkK`Z)(j1SYU*o_;+Ci8-c45skc2dD(xW~0au=q4U^zmj`<u@eM_J0mdEiY+H
z!fl;Es{3#A)v^|f36h+@#xp2Rz!jM9kV(El*^_!9&diT8D!!K@`h&dx&$1#vlEhAa
zEa3_DVr|LJX3|H33b20aFtgk=w9t06Ib?03m{2~QmdkvuxaWCF%}MziF&?&rB$hR`
zP^<Ab1~S|RCQsK;9fgjw*qqalE06qu|M_JFg6fp`cRz;V{um8_gU-^*1AY^OFu+k!
z3YfT4tqb7bCdj^dK#nmqe6_dGnhv0t(lq7KQfE*y^>rqvIa;0lL<A9|s-q*Wp;6n-
z#WsY1!t2jYRiEL}ufaUQSHJWOy(}CaJ3cuF*t@wUn}T&T5qw(1h5t=}e}Q$v=jCjW
z5zf{yFsLUG-{-2WalWo`jbjhlgvp?2;Mv9Yfs&mx6Su=8TjW)U5Q6@*UY6IMpkf>?
zhVnBhAar0`Vtv0a?8Y-2p!cT>hXYp6f$>i5PuIgciR^~SWb6hcmHZ;(=+0)~w#G$8
zm>qs2A-%t@`WOxSF6s}e+&0&jXm8$x?ny6!-i7aKr?)SNCJ;QMUMK|lP0>Gx;VAJb
zdn$NyMd^KKIhz5$>xAy%Zvk6K!+_`Q*OMx}cm6JCE*@&eboBa-+1r3{`%cODZKTW?
zORLT%XAfGQF!Em4-J^&%oKp&^MK>=NQJ}?g^%STW9rc;fWcfEkbsIw5&Hl?(NWP0q
zHE7Z()Gce~+tu&MvF*UL6-G6uxHgCeYpic46=q9)5|c)tV#*^Gy{o}@+>D!6oTl4f
zx)=g0{$%cOJ{q(5w7@_8^#t){G7}0vLuD0QG!z0iC^!VgJ%D?L_5n@~JU8H5inyO|
z0tIR>Fy~%4Onun$nF5c2p`Hvw10pT#&RMk`q)oqrbiJmWgDi)LmQv(|8!?=+Nziqy
zjY53Rd?>F#AN^am(|KaCq1~n@4T?!D9t;^&!h`+(urmNXlbk`r2g5u!OFxtdNPY4Z
zt$)%+^FXH4=Wu0G{EuoIK{+)BF)$c`H2W6eeb=~}K3v}YNvW?Xrs7`WHpzf|yUU~P
zU*T*9y_f%{2M3X|()DbhxJFOrylDR)#0@qhOdbNXVamAc6;-ak0gnyxDRZAjz1Sj7
zkC*IQL!9LV;iDa5G+_Fyv*WUo7EjTOCi1EEY$Xyh<b*7HIQ?iM6gizJ(F(0})gMS^
z-)ucy$a~;>7T~rwuP|1qk_XVZ21qJQnzx9Rnr*5+dpD1dfX)K2*KzFAbHZ5P%41Bo
z11+z5#yZ<CM}_~S+=xr^o@#EIDqm=?j%AS^g$o4S5)Ol!r*Ac%*E}605hMyh!t63b
zfQ?Jjqe-I>m4r(dK!A|(54RujT>G>L&Vnq;!UVF6c0*~DQCQEapg&qn95RAGC^xv5
zCyHJ=;$L{GK`U1q^X3u>fB%8r!Vq`F|2<R?4Aik)p@gYGv}f`xF9pUG(g3Iq$<Hv;
zO`}&J^4!P?Ee5W~JV2(sI2_=xoB#B3yxq^QE09H`TRQiYhZwW)cVuOdTpi&vOq@7N
z<Z7!!lo!UA2D$WpOl%*z{MfG=bax>8I&IYKHW&tiz|7kVb*6($=Bf0DDwO(bE>OZ$
z5V1AAKx$-uPcKvOQXJyGTBcK)tZ8v`bsphJRBqC$*zkOj?>}lLActUV#(LEj7;gX4
z*S!(_-*3Z$#`br2|K5{-ugib8=1LCUBwNg(xjh#sGi94w(~ucP3NL*p&p9HfxyMTf
zyM=X}a%(S)Lk#x6x$Q4WT!4Y9(5fPbH%y;juF;^ZM3+42i6rMQ5#2(dT!4GA0k9kO
z?y+)4ap8KXR@=)}OqF+!Lri?ntuKD2m`15sMghO;0(2~VbspH}+n_LwE-FXm(Fm9L
z;DV^(7_0~0>YGUTw+Zy?2vsuB=b{pVLtY4)Q^r7N)f$`XKY5veP(8F;nwOLy`Tq~m
z|NdzO70oS@sOm={`-f}=L`JLIISYIGAF9E7f9UQnyktUs`#!Y)pKXUdg1D$X0;YTT
zPsZj|anYI@^6%EMqGA6!iGPM2d^aVY7_1>|9l9hO{<~;_@cE+MkA){Qd-}suhmPb8
z(9|&d{SQerQkYr7nAKX~yfcH&2<=>HY!=YAg_KnvDyJd}FEkDSrYr^|8maRGj!L9m
zj<S-c1bt;OU1_e{j?n!4T6XUiR4t*a-FF{&ZqT4<d_V-C9RodZ4B7lJF$NaFz?I-G
zr~gjN{P`?O-!=SMhTy9&4utoxW}vHa)_!9EwiJTE4uksLB!`H~N4FhQ)dK<|l@ECz
z89^(12DDG3^_lkD8>I~4*U?{>!~SNnJ_$s7kpXao9v14AuFIDAO8UPi1tBTr-}|@n
z`_EyC3+Ny~FB&<0;Hwh(@O#m6nRxC1`6C(G-cRJnMXDfV(yp>?p?*N1Dgy`NX++nQ
zj8Xv%r%DoG%2ZW~8+;dLxpRm<@`?gn1t>16H~B%vxKhK;blMWC%2dsJPMCn}7D<_L
zb26f~$@yo*W7~IO43DY3cDUk>?*_$==gQ!C0tv(p=q?ev0B4pwUu+|Lw>?aAnv%X$
zhr0~uG(7h6S{JYyF7mrMm(vYl$9ry<TZPp67X5CYg`0XGU`$k)E<StT*FEVNgo!6P
zO3KL>`@QY_7ga?!ckMYS=<2)1P;kF_sQP~6gPhuX5s%R>%!Tb^k=UOL?yGn##!WoD
zj?=N!V22`k3g^C7`#OS?$!K$#^re-O)AM*lt^`C%NY{G~QvXz}mSLONdjpBgQXPYa
zGqf@h>OfW?<-Qgnc?VX9P=OWH3u;J@u>PhmY>WVDZ0l^1@5R#o!v9uGI-pF@B^u#-
zNONVL_fp!Hu;?S{+MM_K$Vwifo34X;g7yZ6G2XfTq@uCkxY0ett$cnjUXYL!`hxLq
zln--<IIn*%J3avVYQ#55cNk~f#FDw}^ZVU*VOB1p1ITTohE(4F9mW@gy(ps<dENYn
zt3;n16QVpd!pY;{QA-J^bdHas>)E)Ln!Yq^tQR;d$hNS&&!GfVqM0D@_d1aCKbw_?
z)3ckl&FAfcO6Fz{xhZ{Yo0U`soMAl&w?6x$W<i8Z<vmePo&eimFH~ZQNXfI;*B7p7
zLar>E(mbsS@AglD@~v+&gAnop^_NXhfu9&8r3e<+=X&)^S>L5#{o6Y!K>pxnW5pVD
zAt<3jlsvWwkPMt>KEKjS=X<sRiZPEe-VeuMAC49%g)(LDgJ9DnGSHbv)%Ut%NXvRZ
z6DyFiWjiOT5@S;}f7c@Pv-vX3y5)^tvW(|cxiPI>5Aa5<TY(&Qenx8LOfnsNX=Hsb
zfFc65H+u6Q285!aok<YLKruV->~#ha?tjtZl;XTtQ@Wq!eTe-s%n8?9@Ox)9_AkLl
zQ=}hnax#}chxVqq-`zN|2U}<|m%NSN^)spTA3zy>?V70Z_qXshDCfE08ca?b9Y_ro
zqgg<>RgKe!5}-ZQq^!^8+LVYTGz@rb$1c(vY8VcItke?(W@E-vjutNLpNs`7UQGt9
zq0^25h>4xg;ZqAV)dCPS#^_>1B*ArWj`z8}KGgz~vq&-?U7fFI9nZfS+O!{NP6}VE
zw;7@yZLs>5##?IWVI0sll*$!^iGNR?qh%k>ytJ2yL2(#Rt}gxUssFS92f|&T=oXTP
z*S!ZhumC@{Xu<E+M+OU3n$bOzRlhoaq5{-2q@IO<cY+fUJy<OR;kC?|=IWE%b1x%W
zK&FVK&oQ;Q0-=xrHmcmsZ6;vR4Sgag`10b|PQP|^+H*`1vX44s>s-a_FgYAcBW0Bo
zpDFGqhAI`ilZacS4mt_fi%xF=t6`QEI917<kAJB0VLAX(!ld`lTB5<AKkLH7?FnD_
zHzMT>7y)dFh7*ks3O(!rJ(Ac~gb)d72_X`iyAalq-_u|CDl3slAM`BMFN!yMbC%--
zm{fS%8I~Iw(GlW^mghjlI=(yvAJhTWgBqRxuKw@FO33-MDpx{DnA8yz!g~!>!(~kR
zP(d_3wh;w80Ww>?DXCDDuGtLE^wdgBX#qeQWl(~7AhBbxSiU-xKz@1qGwSq1eR4|3
z3gvUhb|}#dC<C|R!@3Ir0aK}JUeEL*(I*Gy)wYApc^}_Tfy5Chf>B|xU;n1;!B6kl
zWUEF1K9U>w_1BdscY)MAN;|7lZuIUAkONa586OrDtMLK9Z0#LTYbxy9w|(;mDeUea
z^S$0PO5=M*Ny@7G%{ug;8DfKG=p{rq=a-RM_<V@v&eoic1=TPBIvU_pqJpI(&Oh^|
z0d5r*w<pWw^`t2wVlcTBz}R-J@MG)>XQ7t_y*Q^Zz))Tv)jnx(GDeH52JKmz?0*y-
zNk6OyzAxHF%#$<$q&t$JCdMos4dN0!9=6mLjEnm4LkO-xc`8`_T+{%d5|4$+fHcN>
z6aHq;`9U5Es&aIo9%>*4+9(um4=13x^QP1IuUZJFg>~=}qfV(qjGho845Sby(k_X@
zgxU~EeF`#JNqzCD`+`s-p$9D?0euvtr@{Z+Uic$I`6L$7PQ&ndEH=o%<D$<&2%ss<
z_d(oE5ZgGXSE?t%Jd&gA^E9P{w9D3m(aNj3v7}(*m)@YXi9_Lq;V3hMoU*9Z<GBy~
zTrc;&SiK@qBSfLt9OPf*iBCpsbpB>p886Yois}F;W=Zx@8X$YFJJWH&Q!KHqAYNtH
z=6KDaZEk_!#sF(GsI|?RzMw;jESR`=m(&Pj>OsS9!(eEGU~C)U%GM4+mf6GwTT>Ok
zN2u4tX5carB-I;=Hecg=fM}iHJtTG+1?U=NgwKDz!S~v;!COlhPTNFrQEdC8iFcFw
zyLv4k6Scs0n|>2$-s7O`a<N&I#ioDbzb^7#30XXypdP!3#N)gH#co389Q~T7wa*vD
zSg%0GQsQH4MTRV72?aFIkOr8QeFZX=W(?;kvTHyxx<lNiLi20pZC=c;``M>{vvOLx
zhkp<>SfbQ?{tv7mu_K5~1g>CUXut8__9gfhVFxV<T6yEjEY6C-I6)K^%mq?;m*`lr
zv8x!dG};)cF`~9d4{n$=KWJNz-diP?{|!{VGLp|L3}pVK)@#s%CdPg5Tmsk-lz{w$
zicCCtZ6BvwFmEEd9o`zHgaNR`M1-KznZ=;U+d|J4`cQ=~HKotWuCCHYAZqrRI|3Xo
z(C(i`Ct!QnpKBj(AfV{)unoNfN#3{v2{D+RNM-JEIZ&N<d>vBQ^d+0H_^!x0aFXXA
z)+dfP3?zz1V;h2m5jQG+wJ$X)YHMz&2^$7osIvQ$m;}%6Ml!MX0zE&eN3X#3ajMY_
zFvd^?Re}^9C%dH&tlQ%yd8I~&pu{#G76SAS*PjE}jt9&G0>BaJs_G+cB1V;I@16RH
z94*ecI+vl>s@z$(8jGMwTmCr}X-5!6OKCuDkyoEg7CD=q*}N*5wI~L0$)L2h)cxs6
zQdGNtq*i(!2uM}Obl*vl<+57%i=P+30#R98Ysst=9nJj{mY^j5um=;-HXB>*0L>(+
zGX^p=CPDkA0&Ep5QNL=%_7ZMLbn@OMj)Rv4RALGaH+?d?lFe4{SyCbEeV(7|=OX8J
z{S0sA&+eSdUbp^i`%8|ptoAQ=(#fA^@3Pj9w&8hg9QviOH+P7ABKen)OG=?o^B;5d
zK2>6AeU$7YhcZOy)=e%#we$|fipSJG_&%Dv1ANK9_RI2jzLF^PRsY|?XHIZD3(CNT
z-^uXe&dAx-i3dkdzn>qFpt?uIhbGg>;a`9Rwi(Wt89SjXq>(Gl<8f%k%I@dCR^xH>
zRR5=<C4L`6H~l^p$~BM(ZFgtuj=`DNd`rnY-}eM4iZRUQ$cku*mB`7s)-mYeLqc};
z=g(}hPJ&)wbZMRL{U`x7bqIk?)j?k&&lZU?J!?_gun8#50}NVj+Fri)`E#nBlJeaE
z7<4B#Ip{vc9yn9g6alGBtcbHNLG>~N-mUq@n)lX(#H1lwFzWsH3RAZn?N^e8>=MS9
zCPV_!pG=2a|8$m8g@uOwWI?Q?i~F@zyKZH8FN(d4zI^&s_iw79cLe*HTp1%ClL>Ad
zJ>*Zuk_-zrzA7cGgT4q}MDx~+^GH8LL5C0$j!vNB?C;<J(GTTuaYH>XgwJyJ<UUxi
z$inJ<qY>lZ@QNnZd#rI?<8;z+jd{@}GgQ*%)Ho8yhv^IXmQWRYOcA_+gOgO~<<-l!
z^NWHmX`1qhR6VKvx_fhg2_RhPUR+K-vqmYx&&q%Oz&&!I{7|UXv<L^!0fZ@UuPD+l
zt%4C^&u_7PM(trf)5VO&=GAF|_mP=*=>eKv*l7jCP>vgI`nv*SX{VtaPYiR~W%N2k
zL~5y#MsF1b6)T??zlQ1KUGML^GAs*cs%J;nU8h7t$I9wQSaoN1UT6E}vrVq0j|E~s
zA?|4=a&@(M9L?`oRzs~g<H!yG3&57>qZM=6fSEfL0|W<grV#Pow4#q~*{{xHvW(Cw
zP%J3Ej~_}aCI4Q4%Y1uO?txFDiO-1+Xm=s?pzFwaFAh3$g36!G)r;xm5l`$ju2auB
z17U-Hsffy7x_BF&CE`I8$K_v%5uawOcIy0kXPT?Q`C%?)^bdf8<{hs!{NMBYT)2#W
zwfDR~P3^WbT?K}xQHl=O%q+hUS8J);e)ZF_@2@^3A_??~gAKDo^}DEkgl1l(0j2!f
z1P=C(l&~pKVWS971Y*{djZ-4XKU_<B9BxKSS_KX4Mimx3n<Lx#dFX6VYaSsZ-qN$t
zz|m<adb5V!V0-5#ie0b1?H;k;v%m@dM(VLfa;gk(-_XZzf0Ksp)54>R1jJuZFW-}m
z+D1KWJ%J{~LsQ+Yy3+V-1+oak9ziP0)*pzoxjxGLUTF6~xp2tzzLSUInB2?dV~-~1
zgNSn7wVK|c;ew+S60oBPZ)yMDZtzt)rOZG9GI+PWl2g?4*tS0n%&TTuPeYSL8Nzc{
zg%)#?TL1{HN9S+jB2p2#?$%dTp2!;J3DK=EDT`X3vB|2FH;#BLEAZ+UF0x9;74O9Z
zKnefPcm}0;mo_GZ8HoKEPqZ?^d{4G?Dy${VW4SD48|)>*0Bw4gzL4*q@>2gfe>A8S
z64r|(J(HP@j&)n<#x`Fe3)*Lpx9^jt4CcxwL|93)VL1k!F9i|wv#^TVe80yUJ&0BB
zi9tA69t{+Ru`oiqKI!BdR?DKPaJwe9{s8|eq<m9f>vk8%5a1L)n3<t0oD#^#20Zr|
z_UJ%V3&soB=GRffHFrp*ijapO6ww9oQ0+{G!o%-El)uC8iMYqY=v=nO!(&62l#E9l
zgSaqRQNT8JQZ|U6NFOzJ`Pe|NBv2M{j0j$+^qi1JYCspZpy=j<hU5a`k}$Ih{+kD3
zfX$7(!Emtc?SFPdjxQ0;-K#n_ye^(^=Tiu4QN21?eLUNCHRNx|Vo)bg@HLTd=`esq
zq-7OWc75&#V)G0l;xEGna5z9f7A5j6U~4rk%_5*|^Kzcb$pr4d4)Mz*lomunv5wb}
zedR}JnFECTtx~wHzj;Hxk4_2B>mB<?UW9=GI9p0mNOdO}+`2-U@ql%<ya266zgu6l
zxc+x8*Uv$T0e}(e83epSzviKI!wbMP3^OMYxM(!}g9t59I{`wEE!i^R%f*}qZBPX?
zwq`AokCXh09^GN23;LCUnp`$%OB0X9Z?E$DBso1yrA!vvd`et4N99>^EP5gyodf1x
z0E$M9R&m9;WohzFE6iGju!{{%NG!?>;S@`AE-+T3HT{m$d?-mk;C9gnIJ<M)Zp6#7
zKt{27EucOod7s3tfAB}@H~?S>qA6=f9-{aCKx&Xnv@b4JPL_20>M*ba_H~0o|HAV>
zlR^(I_G9U=HefADKfV8gpt}JbgdG+nXb->mFnp|fUDt6C{Uu(fR9B}7&mtk$tdkC{
z==MAXlkeL9q1%0_JQHeJuc=+#ouPZ8Dz9X(r0HgH3)}D(YF6GoxHa?OZ+0DPZm@8q
z<FVX0<;fW!*G)Y=cf2?{Raq<9`H+=77LMMV<a@?~Y=~pwD^?s_^ve{A-j-}#$Ir&M
zT*$Rz_VyzFVJN)6Q15*4I3~Z%w0AI1V(?;kZEw}~uz59!<)HBL;@rX3`SgINQsMd5
zVlkr%usZThzhb>V=cip|jeNvFi-l@5KwHFrki#f~DGS{Cmd;TmMCg_TQBhy<(1wu(
zvsp}UO03b4{S<f#tX<Ir8cyJT1l`_@ZCbQ%^%BGB**H@oJ2EHeR*RR;W%m>oT0E>r
z6hHq8A`pYehOx<flLI@$_Pc;9mlWui0}(yF1xg=mcEH^xgs#D_KLVYna(4~c$Oot*
zFS36c*&YunMT9-AUqB0)rX!G$OZr|i3*6hAQ<^=I>%9-D0@W5)Fw8gRNxeqTsUaWA
zf#T^I#*pLifSdg1Z8niMnlh}|POBf_dV`+@G;XfyviW6aAVfEEGAr6HB0%?rfBv(L
znVKS*$!72K>aw>S6hf*@381tut$6pbRTwRLWS-o4qbX|0-~J(ah_^ofX~F92F#9&W
zYP`R=1{)>7!%%f3z^`JM!|=9Xi0oD+qkT@L!ml-Q;l`KXB(pK=4V!>G6@jrliah-{
znw4JC1PZA9T#i2$FGRUNOo6fw>SnF?uj~vnfE@QQHBU}Ar`>;ipf%J!_-1u0bZae#
z_ztt<YK24DsGc$kP3ijQ=VKhJzlh{18S(EmtjL%?%H~+4mQrfhcbrKRTheeGXU)><
zuJ1|k&3W7Yu?8(H*itAuA63P3EYr1FS?2msQg`Vl@OXn2ulRcXx#n$;RM~!4cFIP8
z&9-{nhaP5!ww*+#xa-=!Dxcfob~)9NGQ$Oh*Bd**-%W@4TNw@W#iDS8L>-OYT+hkd
z|I-3q)B2un-FMkr%i!;mxO3HV{Q{@CPP`(Qu9<*%)|CG>?={bwFy)1#Uz6L<G?R?7
zD6!v$?diUE&)&+=zCYY^Z*n{TQ061R?X+mYF}d8GJ_phUV23myaX<(;L+Q|dIm5sy
zG-vIlCE)4@pq|jmB1V4IL>nLbTyK9mDAM2C<g4AwJsPt0!g~Yj74ie;wCsLZ($}5$
zCH5Vt#JmN*9yPlEN%^_d(8ud3g)&56JqV_5C_TpB04<}(vkn!6E!JP%<b%48x{1}`
zn|Hv$VvNlTMl)21;8_8!Lp0TBVG{6W&>s>8T1q8AqiFr{jraWPMW2Xs@Whcs@DT<v
zMgR1JA|mRUC6(_WBA#xJg)Rl)TY}e;<aqZ4hLf<oU{}YF+pqtm4`5;ob2t>wEprlY
zMv$_;$t_1g%K^RPYhM#WXKU?<>3+QRJl-%r?r@vx5)C=Rqdr!j6rD0YT8$AO1=Lxg
z^hw1Z4{Ah3k2K!^Xi;>MMZTOI3vk>lw8Hp%Fab)wq?mCRGNUH@`)9NOty^Pqg(p`x
zYL~^cp$;X3-Mc(yd#D#~CoeDTuCXsJ{CaKYtLcuvR)lUGET{KrPXd38Tq0EEr)QGt
z#Ke4ITpGklK|fVPNl?p?W$YC)RIZ%pa1TiHg4rnLly9^5WUm?oQ5=y)hci_C$n=vV
zFVAh{3>nP;k)znng70uDx8L!-fxPKx@p{Um9EgO2^meC<?Hp>DVxK-!1MM8P9d|+A
zBhz*@JRva!h6hY4`-M+!97aDMQHZ3Slux}~sF(;Tzj{4m^=s6eO3gz#^5G-!^nY2p
z(;=lCl&0?=D*MF`M0yi`Hl*4K#&v$s=L^riKU(=_m%Ji6Tg~JwEZMhpnwF~kT}{N7
zwgdf+gx%a92n(~*?K6*K{pOgGUMb@e%gvMxp!IM5z*@+SNjt5(2swag@*`h9{8Rf~
zAwvCz6AsUmTD$v7&KcGX7fpT^`{h-XF>LqU%BSwYxwatx%};$oV=sHS8gMQeX|064
z&aV>YNH>LBl?Aduwwbfc0A<4hbnx=0C|4$Ol<Ikl#P61)Xc_pJXh}{-Fg7vN+F{}Y
z#t7+>4vs4nV+-^~oSA$}<wF0O4LO!5ht3&+re9s8oPC%&KMi1~)rf-u<Fz>}Xy@`t
z$_5CvS`+z9juBSs;w|BrfOk@69ETK)`az*H{!8{$iI*F32*QlSjxY!Xv%*I54@nSx
z_^VRz@F}>A*V@ob5NL3-_0On)<fi<+dbFb+&{XYg1nOa(XsOvZ<YP{XgeKyEeVbWL
zlGR4bm+Qm}D9d<<(cM}9BvnkboR$=eTm!3nmU|(;p_L4DFiy13<kY!MQvB+hCbxMl
z#!u8&<6gH?oEdKZbl|^c@A^X+f#Pc=p^k3eSst1CtuyEm+NhfwvNDKV_ON@9Zb)m9
z1AqB-D#W78VC`Om*=hH2^Pp8-hen(4uF$h9*Zby?s?Y04%0IR-<6WA5xlw*4o*tgB
zW^R!(;^amk@+5St*0X!GNIoO5f1*@==)@zSUtIU=Xn4#x#aLMW;=$lHzwMu}&2ndQ
z)vTiXevYrc7Iq(?_mc4T8=alD<Z@%DaG2zb+?R#zsGLitu=~07C(<P_n6!Hi&a$}n
zJ}|_F@Wf7h#9haFxJE-a#LRLl{Nz~?=_0#^OAeXtkcnN~*i(WmRomO01Mc#NTu)(?
z4OjIeltZ23x6VI%=mjhwwA83$&+lY%(Y3A4OCY~A6XeAZ3)TUfWyFEEB~tp6&kQsc
z6mAXICbiFq3VM&P)9hwBb&~la>FC(G$x*2AP~gNxI-_`=0@-Q8qWjU7Er4C*;0MZq
zGJgkO2B;g?jc<+?(0!XTl>8Q|EQEYA2hGn*Wn=Anjce$;(%7dt?QQhwMF1E_Bm;(I
zF}TmqHovY&w+7FWN*rgZBW^0%X;<G_UtgRkwzpuj8`kFosPD<02h0`Y;m{RNdh(9R
z^nLY*F8i8{t66}Zdu|q_NY`_zzI)7&#HK%*)BxrljA9%1Aq8d`TWJG)f!Dvjy`w9g
z9|a~}Md1AD8~SXy=CuomQ}R10+l}Vu<Vb~%0-5&57VM7urLgx|CCn!Rl!QyB0oYQB
z3(3wh1XPVwADj2rOJq9-niSwv*gO75FDOu-L%XMp^)9~6ss*h-$ltv+s%^>n0ez7@
zGsckjntDL4k-Kmo(^~y-$f!j%qj0zIY1XYm`t8k--g?!msgEsmHdl-NSOV{xy+7+c
zmsDS&fe<tohCoEZ%!zOlRNP;@c@N`U=0eIVl9F)qDAK9tM!hdp8mPFS4reNr12#S`
zbpEg4O>(f;t!kMpjiYBXmPMPFH>RvYu|1S+Gk>2Hx!&gRw?3|>YZb3~pkrrbTxH1f
zQf%;i{CfA#2NnBKD&i)CpU$MZtpyoE-lMagTIGGqFVquWXBNijMrC)h%8f=oXehE*
zd62!OCJIm2I83x(Oj73PTF&rm*6&;RHvc#yBGP95_e6zJ)5<rETP?7UOk`1+md}ou
zS(PT5vP>@W(NErwWi4DC-uLwA-acMX^I^6-v`T*0=K3%?GHLlrPrzI(;OwU|<*f}t
z)?Pvpzoof&;xzT2^*HX0($j~-Ns)U3sUIk>XNz23I9Rb=rC#(3{ezG}=AI?&@Tn5d
z0lm)S%->LloC;wde9t1}Y9Dyzo{6KyMjvaeoNWmue-1^FR{(EN_DdvUGs%Fe<)NQ|
z(*jB#!6G?xO|GoQ?Y=*Va`-)30-tce;+A}#fyYx2O-c**>5GlLm}2n!iA?{FbOUH|
z8b164dW39BRj<)a%B_BYx8v4aj+>ws#QF??PsO-aY-Y{;$}dO`NU4GYIw}Cq;BMXT
z!YRM<JlSHNrjvSj3{-=+ZMQdG<odAQJH7YZG6Q|T?X--y9`>_3?dC0j28R*wMkto&
z4R~>!0TkD@WUP3~Fee7ZMD@eUiFHu&cFG`D{C`ZHWk8f$+qPjGV33*tNtJG-ySuwn
zL_(xHl}15A8l*)!rMnvuknR!?0SQT^{MNYlexL7`{$ghCd&L#!d0cW)&S0y(OT73F
zuKrr{zPo*uT6AamLUF}Uve$f6H(mZpn<S(pkn44w@q~mFl^ynZ{$+%b`kbQ=+3>Pe
z)0RWoLZHXgpY0CD2?douw_ceAAH^k)-oADajLABS&N#biCNR}-9ve+(LPNSek+!??
zmmSnM+-39**YCN2N`_r<c3=tXI~hBdf*T&ryo9Q}LrxDLZH>_A_2Ddeq4;@LJ}B3g
zP6;@iaWY@7Ff-3u^NOAi$(77G;ShRn<Jt1Ka-%Zz8Q@o}wyI|T@qDLr+PYy_F?Us3
zW`XPE)_H#JFeH#gFR5}z5~mkB3734<nMXq3rSiM%U!N*4Jv*xooGn*u|5EKd40$ZJ
zw*k6Xhx|XS-MbztE_~iey!&UN^~uj`kFhpER;>k^{ax*qufG|A(?_Solk}5IcJuTA
z2w9(htE5P3mT-RIU~lc)?qnBy!3!o1ZD1hnKz#?<%VC6uuww4K9GN$VYBqVEpQ!PE
z{_J>5eU~vKuGRm|U9PRqkK+4(eH^)3I(>tUhqF`jOyh^U7O8^w$Cu~mNj{AtR_w7M
zK=~q-Pr<CL7*FStq@2tph$@}~Z08F}cC~iXo@v})8FKjgE0-HwVmR3ifU(oj2wI0`
z;m@b{#=(HILP=dG|MDSOll|IL2g}7A_x)<8G4G0CU^o2=N1b(2dT<_;4%D9iry!%$
zLXhx0htDHCWU|+9Y}dPA>6E=|(LcZ@<wEwkLW^bTmC|^MmHUaJK@#LLL|p|+nzpO$
zqEGkay^o}p0NkUyK6#M9le*n=KMe>{K<V<aOc~H&X@ixQbnT2O)HKZV%*hY+%@1G?
zqx~GvHB3Bc6C-{r;CD8y54~1SV$Rn=H77ojdc<|=AR4rfEK5@Q2B9$i5b2|QUiW;w
zn+tfTad&7%SbBb=##jTPpj*LIfcMv)>lHv&nu;RXIqX<|A|gEl!slX*94UonG&5v_
z7BYm$S`S6Nw3!uuN;5#&ofA+!dT{MDSr8o=eu4BHR9kwPsw52m)znen3xck&P7b36
zNw|9H@yAa5ZLfYH3yRct(rQr@{+=`>{C(Epk5N`X2c`GCkn?V}?6Z<3C)RxdUxaN3
zr1b^ss$X)ukw;=byRdoOu-*?r<(8Ny)KiE0R%#Xk64Ihp;s&Y@J65cG<oB+Z9hq0X
zaCrZGRloGxCcTT^Rnm21`25l?e`hV0?6iZNa3{g~uJ%d9JX658d!we_x7iI__uBZ*
z)K+iB_LuD>u9$>b?e+JC<;xlDx%JoxM(caMbz0o_=|z9f6YU-^lM4mNwvl%DZV;8<
z?1@C1y3QF;gg?*sy&a>b>NZa2=;lOq!JQMk{)yiFazA-6!s{ov-B?rBJuRX1MSU&O
zqj&x$J)N(Ry{NKsXO0}%*W$77_Wdcazm?skfmGR)ARW9vfhiD(-_C&?m3JOrrdVIj
zGcQVzYsj|Yv^>4xdyBvJ^6AIueW|{ZVkfTEM*mE<EM3urps7v0x%Udxh^AN^spJD6
zY~Lr{Ai-mNMq>8{;|DSAXr_pKhw5)#raM%!3yI;0Yc?WyVt?S%HfQ1HP7JU^TWShF
z@>!ci_+yv)>-onvadXX<H43k3v(AQMYM+fVH#G0H9>LCTJUGsth)f;do3&k2K6PFk
zxF`Ie0jHx(+x<Vw@xKZyq-+5Q!ucGGx?f%)4VmReb=2MlA%zv7_o*F2E?TzFj|hR%
z%M}gaiJrp2O&{GKL!q84S3D*H1T^*G`k>}F9r^oFNH{3wv*-E&Y4CFZui<(2nZ&5o
zn{!8o)glMZ2rx_PAe_kuQU!#9D&;%03G5@t5K!~k5H<Y(adIIBxpyF#*kN9Vn^%q0
z8H4_q&FS}XHuEI=3<h;_$hh*1kMf51K9FxpWJqWK_`$jIY$UD8>Z3_hyatAd&t57$
z7ul#J0YZxn3t~C&_95m;@SGI}D*1)wef1qstr`b<3qpbi4Df?{R#CB{FFYeD1wa83
zYn6mo{%^=kOM<NLo8j`}B_cEsbKc(}y1O08-y8+=pFPJ9*EkcOm$_0inQ{G0z3aeX
zp0KsNw=*7~)j)Bs^)dB|)s+-xRVQYoesN){igDX!UeWn}+2@pcnxt{G1S6Dr847LO
z9&q%Sxe_;O`;(F7F!XVH)S>TK{+RY4rE_N5O>6qar1nHF?);P;nPqzl{r-E>`)UR&
zE2e*ZQwF#w6Zb`3X013B%nNT@HmZ%--U*B^`<wls{L#kY-?A^TRqgA$`L&~b<9>Yc
zhyQ8;ffgm(LtK{=j>n#cgiaGc9nwH<qI#!WnwVS+o_@U1^fv6TWnUs#3MG`6zLYLQ
zdbDFdh+@x@DITF<R6s`N;U7``ZRFV}E%!g^O~Dc$;**Yuk~dZ!R7b3#I(*)v*_m2T
zh`1#mQ5#A`3%RH^Zh*Y_{q=Lzr0a-I^~_Bo&+p}i^CXqRqn4n&Z#vp(Q8oysuD911
z5aV1mRYGH7)J<`3ii8sekNbP|ecx!<rwdKR@hV$uhU$g&9TWQA7x3R!zXcVtQZ4HR
zm7VWxq<+Oii|PpnsRxJq7=*^K`~HTJ;df|aDdC+`@5D52mnRTU1qWfy9)I5_a%CGJ
z6cQN`qCa~H0CGt@@;Q39Znl^oENki|oqy1e6VO)G2CBVizk%c=AoZnzheV;L;hWZE
z0eSAQ@gj(<VdVWh1SzoUh1?i1CD6Nf-vP{;;8jo{z%<<rv}wFVsivx&XpoFny`n6n
zQ_or|Wd0Ez)%g`PplO$D$S#@nv0F4&pMZRD!u72)uqHRz?6vCOOG62!Z#@-!;5CcN
zOF;CGE~o)U8__@$Srp`Ajg(@V0qgbYuOn637gNVm(y=9%pH~itdOzK7KZ?~od>umk
zX#U{N{<+&s7%StxeJJ^6+4g_~jkh;}Pz#9+yEj>g7w>X`bmkJz^?dhKk-gq!<xpE~
zfi>O2A59OX6e&M#T8D^UU(M{zC-t|bbC`$L5nA|bE^7GYn?qO!2l?7``d8eJ^9Z~9
z8l{1!nq2y1%nAIgR*DIUyF_C$?4q&CpXe^XUi9!dAE3%&P}SAknhR>t6o;;QX5?&a
zFJI-7$fmBn$wRM(tdzW|rgHK6`y0)m=0PY4)8?qAiNwn_GbdPRnqsZ*y~H2SoH}}Z
zW6Fvt5kGsMZmJ*1c)r)@)11b~YNGzQv{lVw_1EX)dcK1Z&8fpT<h5=|m(|c#hn=jR
zCFV%Ycl5hX%dMmddr#a?ns@62UfjO0XAyYu6`S?aH7GHFf5%zi;4WuzZR*mH-Jox?
zJeCp&E8<Oi@=v^;cq95j@s3!L#Xs+{pDl^>%hKQO4$2H-x1wKvThTq;c6#}{o9?oC
zHbsduc1lRyFU6JUQ~vi?l^(?{UJd)he`qI3WJ!UMUqQ+Y@5N43UQd_bzf}qaAng3T
zcoE{%{RvQ~><oeaFgT3ETOtI5!~O=-mAF2|eyRx3cDY;112TQ2Z(xfTi*F>IpCNXQ
z+Dm7t1{s5V$&rqhFe@Da^>s!cAX5JT@E7oJH{ghsiX{wre^&-*Lh4{Pz(1~G`#ME1
zmW7b+Kf4ec6u(Ie1U|s15QNei)5fuKjecX1&!wH+k5>FNwJcHQcoWU6Qk2eIJ22&=
z+N7uPqD$JbYV+@aTV+)_ho8-lx8KppfB!yTTEJ}Yaa8fzLBQjV{rYd&;SW;<a%!J4
zIR&3C7kv>ezE`6>3o-t@P!x9}aiGmS6PmldG~mA9?=TX<XuOaYQ8D%?iQ|{|&ZAm8
z3Es;(Wy7@DVr+*U<5vZ(I>FV2%HNnTZWcDCoJOCpkzzhrMFLKiN2?=O+2kWzlC?i|
zKAS(N3I8hFspkj;U2j|-Q5LP|^t~HWLT2Y8&_?+v2{@wjjKb1NJL%Ux$BrSfAMD*q
z#&S*akZn8p(5WGJW9rP|mvDT#bFs`y>oYZeJR4UlWB)~k;f||JKK2#L(sK9YCBvO6
z{rg5XPsCJinp{-rGKS6qVRazloM<cT`u18*M>$o`?^$3pZ1wC$iFVn1awgXXTc*zB
zm78|)g4NQeMJBeaHnS9~9SZLPKHir##Yz1Gep^^nu4wijcQEg#<Yd2@uF-4u@v!4Q
zB{Uv;L3}H!K3s6~%-(9TnpIAe1*{<HzyNjX{cz_1WWCjtsx##8LZU>00yU%jQOOz5
z_~N%VJbf{wE`F2P>~*LH!asU@T~diU6IxsZ%6uib<NC=1dp*~KFQcLy#5h;=LAl5x
z)r_g?6?5yahoZhy<)6T~v_;3_-DjWwQT>CsPa}S@ZS0XeBjXY)c%nxXL2fBd8pAFJ
zv~|~pS`!)k!(T%A`ihtDG(C4O{cw6VOqYZnPgm7pQk!0zDe+qCt^k_%FS4aFxZiC1
zJ=R0hAf&ka?laY$&rK&Cw}Ea?%`Z}ggVzbj`^D0{B!(2@2PL%^lk$*q?*g%;onhig
z?TV-&!uzoO!XLDW@(bEX8@$2!><~-VXNQxw&n=sq`?%*9sPB-E!iTAR@V#QNE<n>e
zopCbnB_G*rGl|bJB+O!EKdkLTI3a_2d^nLOtNaMFWzC?k2GMY88u_Dmgra_<KTTzM
zya}O<0z~Fc3x$?Q**l_-G<kbVIRE6yK^&AQ)oII4sQ%L3U(g(>v0>i_yjQksy1&?7
zKc{vmaQ`GxN%;ItTK>JvOy@QAGde7Lr#Hu*=Tc89fA~S!O@_3V{C-Pq&i4&z=Q|HK
z`_A8N!AUYj{a^cvUh_rUUvT0$uEbP4(G|sHP|6d#GHJ8)movCJ`SX2@?tr}O3wn0|
zx|HGWsZDHtsI8cHVFK2*mr-VD%E|G)F?sd&o7%Duy^0AM#YPvPaM62D79Q$%|AMhj
zWWG+2utG;?e5m`!`s8xB19iYihA#Dx3k<PVViDHaI%a*J<x7BDlw8^W9G(B=KG}%x
zb5%5=$AdJE=YWWr2W+*?JJRKWUShEns{8Ky3rSM@LnBjcdnBmpFlTZaxDBkR=40H9
z@BtpEWJ3vqvS+d>mnVruoB(ww`O~&`!~0@Gfjhcv-d^e1^}KFmS6t6_5W!wNf&`1|
zqXBzw!#)z}9#TztIMpX63dDur-juQ(s{q?QTS*?Vqp<4SrMBMazRv4iV3wGx<}zNe
z)cI)n%xF0mzfF@r#{OB-9<TOe5^Zez(7gu7`Au)VL$LzKjuVyqAN6RSf(})61&*=8
z+IJtz3Ubl9O-crBoDXro0s@grt5W~ZK~E7Q2@gc}cPx7*e3ppEMfiw<Qs)jP2^4WQ
zLt#JoyxxFPI&$BAhIO_S*l3b=P{B|=!y;wj5X!>g<sgg)P{RQmZb<P&p&pk+D3=er
zc9eN&Ps{CF#pO3yz88XIm6jxR556Qz$hG9QU14%fpZFP1rW33dxEmgbMK0A<s^=@E
zd}2NM6tG(p#$h0ORk8gMt8i?xVp>=>nXqtb_tI`sOqo3(L)_zS`=0foDo*{jdZv6{
zXrj$wdm{~(D-oYlB-8QPuj`J3Ga&E@t1rwO(*5{(a9F>Dl3HJ&^(2<%VOcL?-<!Bx
zue*Nt$-r2yF1Oy?x5Hl+EI}I2?K(-LBt#@T4{m9)uw%mhaxsv-*HE+|n71R|us{<6
z+2o03)TAckvnSCl(&)lL59?Vkz{>v$&_#MrR2+b8?X5%!_trm-b5yxCHqf?hi9{<T
z3G$BVteqZM?*HX*rA4$e%-U1@?$*d=Vd3N5hYz$ugv8@#i#7i=JZw_9)Jr^ad|gg^
z$RC?=+i;j6OPOHz+iI`FQ7Ep%bWyG5<*mC8bAzxCbKD7eEx?x{0~gJy2x|usMdO%j
z>->E&d>j5se#d5~4jX;FnY~b<Q{B;&$vggf4eR%Oj@;=ds7JxnD4na*ChA0<Dz~-n
zFYxTkLm@vqfp6?8b8^V~_p3#9<DBVV4pY~W;z?v&1!_vN2b#omgdyQ@5ifI~2|fh|
zZIb9pgXLmv1`BeQe*+hMdWfeb?|BK4_$USeg3>?g(P^$ihD;`3qt8acSag=Ki(Zvz
z^EL;aa%u)Mf0<lnhi{75GS}Nn)(294{=dWJ97)xYg$`W@t;u7Qf_tZuC_ZWzGoH73
z3++X63^qGsP{D%{CY5sUy=qqX-9rLBGK$#>lUyfXRjt;bpw1N5j?3zZ72Hqet`Dmo
zI6l63sGV3t<J`tkl)2BB-V|9p=61!uFRLqwGs{+*wZq5mx;k<8DIjGh4D|^?Yw=L@
zUe;A?ga0iVz|#bU%bJZXWP<*S(_2Kc0dteU-{usEnt?v(`o#|lQ~ME^%pC}5x8;NC
z!vts_7rFBTz;na{TPjtu3lF8*c@R$Tj^|>;KlrCP&;Wz(p`m*88@`U51b+wq5#Gu7
zPRPdYi}r;kVx%Tn<hu;+2bJQ41^f@_pLH?yDUC(|BG0OhN<Z4zSEgb`DP*ngWrGi@
z&B^L+GM~Dw3{NR!XM<+jJO2G-yyL+)?fA_sl|00B1%`soq+NXvO4hIhd~%=4?r~5=
zb-o)ziEbOeXqR%P)!Mqn=lGufB^v9BiM8JtJFk8&mQ_B#vf*zTXN_DS_u}7x>0n#O
z8$rnl5Agr~?6??|LE8dTF2j*frPH0$S9e!#wS``1#V@Gt4uyDO8fQgNu}jxSg_}H`
zuU*BYWzRveVX=6tk|?N8<Vx!*_A)#QWy9T2m)#!74Q9&=xaHL+`=87(T|T(j(%Pg>
zie%yn9b3T3-CDg-EA=;0qY%HK3Tj1fgN>a#$_ip_5q%(Zy3}>RP?{7Nd*IeV5mx?~
zBYJP;_*HTDM$&$S#sT$i@6C!wi@n30kwIhX4y}8uRr#yeaszk|azR&j(kUSzpB&GF
z?z?3V_B^-NShjfHqo!%%n3>O}OzAFZh;RYuc^S^_1>;xrp@)A98%PD|2NcxFU>o2?
z$$h`QBr8XW3lBf0*Dg>|wCIn@k&7nN1U-RbpbJQ3d)!?4mKh9{IbC^is0rK><zm33
zALak&#tRfdbPcY$qW^KJjezv!+o;>>KMIynljikjCM`wH&YREHBweof;?y|qgX<dL
z?=lTu+3FpLTKgPI8R4y#yIh>2r~5Im(YU?}7=7%KulmNFDM2IQcs{Z0L|^0uLnqM(
z*B~su^M;HKKi|{r#F`UVU-vn=rf^Qbjc=^{H~Dt_J4sB!%coK<mtQ^N-23RejjxP$
zA@7C_ls_+jZRaRVCFv83#=4XV<tBOyr+c9l8GEN|*_o;n6B$C1L)SdC4_WEk5Wsse
z9*qJ+hmDIye7PXE<Z2?cPbz+)lyI`;9>jI=i8|*;FKE4w>>Z5JM?4LbTKLSY=@28=
z-+aAll{R;Vm47bMcY+vnt>!{@?n^6u$NYAW6fY}QbwC0^8|hBB*uitn`^lJEd~0IR
zEP!oZ<+*k}FJk(3#YKbfXIi_<$it3rhvMqEVWRVRmK^gNOHa}-CiC5h+v>MsB=cWS
zFMVDYEq@YnVPlrCayl7%c#qw^yK%n~H?-Wil-Ez9sElN@et%eZY)lV5fCGXEY`5%X
z_^%f5HyC)4lkg$>Z!i$#9gTwb7aj6XJRlVb_5c!b05l&|qxJJIx03Xq0~xL!1yZ{X
zvJUM1_f4LEgQc&eNV$$R22T)fSlIp@NO1z4XU&4oX?*&qe&4Ef1-vx}^NP!7Qfv8Z
zYG_e!*qBMaXMz`_kl{N}#S7}C+oOEamJ{D5_Gh2tru`(!{#!CzDofo5VXt{VggoD1
zJbm$_iB~MouCn>F-4Q4C4{l??Vku0VeC5ZW8~^b5#ps;6HMS+sCe;Jc7dUbFYvX{S
z^9m!v(%IklHq5&5PT|2hYSy><({d>%@m-T}<?^?NQ#wLkWS2S8Otu$+yP8s)^2#DF
ze>q#|ONy-Ri$#B_jQ{8Mmykl~AS{r5CX8RJlbC>bi*kTQ-5QCQ7Y*ylyoN&J*fYz=
zTa(jM9(hxz&v{^Hif{e)C$p^YXrRa=TxHL9y7HHO(k}YC)j>a%UYac5xYWA5wm#M5
zeE*PVYx(EYNlpbcIN4sOLz)J-XP$tzPilRxJ83WNg8wyhQnB%9{9Ro}^S<K&pxd>K
zd+=5!0(-raXj+@sJxi)x3oX%pt&CvrUI<B!L3BK4vG92Pmhk~?@TpHgX0;9wl8DWs
ze>F+@xayTu{7Z(gq58<Ykjc;zN==4(zJfm<7AE{Jo)NB&FaS`Y#X*&^Ge^0yzi|)P
z2bR!AC*;8$gK*BKiXI5r%Hf1yk_PcGExoaI=vYz{e=$!siCe=>tSdD;)AOe(ZbZZL
zWc82ce%GETeyxOedfU%?pC7MJ1stsO#s0pYE9ZH+PW6fwqYVbCVbt+@FITWMS!?8U
zggr+yAH9yyI~0!@B&<v-QFf+xwNg2_ZoLwBOl=-vY8_KG_WMy0#GRx`6SXhmJ6^2&
zCxOo835klO!6O}I#B%Vkup(xZHodBhlW2TO{du`mM~8M+e*>FbNLF)9dqCa2eKL(`
zB6l|B>BAGX;DnOsMp^}1PZ<atkGi5~iR$knrp84*fWtWuX=|D|9o&Q4@J!e{BIZio
zr|xg*U$%|9JW*@t*D6rmD&S^{r&m{+!`B{LZ1uj=reDfE^2eNS-?S#7^5HfR<se$E
zZ@3)UqJ3_(eQSQOoNAu5pE|5E)qcIAs|A;>5%;1Ws!~OZW%(5lKUt&?9bT#D^SbGc
zCq?eoNaaMx7Hx*)vkHS&*|d<V|3Gq?r_=B5sqK`QBKx+x6(25=SvIL3V{VDJ;6~;V
z7OEr!uPsOAb?EG9E5~10CiPG63{{M<O2_Vy`{f5Eou7{%jTA%-ZT-;^N&Jigm8ZrK
zT|JbY7_ctc&3fUcwOxG3<Zac;Kp=YSYteVD?w#M_tT<i;6nGFw*Yyp@jo5lS4SxTS
z-+yaj4Az@n_4DxAwP3Oc{y&)#^0-hS0d8m3rw^>j>1ZT&wCSn5KgZ{w`0Q*A2^WEG
z8IS)w!YJS<`2PG4B<S(_ns>qPIzEYABzS8$L#pBv_1n6v%1j9kfNNTOYm(=g;Q7TO
z+n#oc>V61G5>1HGk4qyOmrQPZUFKa9kw28W2OY_Jhx%<Co!pDPTYq5OEHjJsi4$Q5
znyTkg^q<!<u|2RzU4CX1BbtKSqjwuhV<rbW9(;%nV>95a$El055Ht1XAQm;^a*J|j
zxU}hcBaFGjUFB9K4@zBCZu;eOlb{CshVhNw`BmKjX24n#VG{%4G<)VNBi&(1ByzPD
zotnlzmvt^~N+mSp`ThGBDgP!5FJWd~bEk_ztE5>dc&jcjS>;QYzL{)T&U2RbDZ?gB
z4@j{>6oc{YkHn8U{#3rvkvgnuo~Fa!-loZBw+n>&ie2*|6*Xc39s(nzKM8^|EK7dX
zpL4x-)Xwp@GB!_j#ELg+S^pT<vwmwHUO8e)iE);8MHRHB3zE*zD)A!~2jA_MtkaoI
zM`SGW)V7b(wvOxwe@Ld>9_^s&xL5vbo?_9C@EDRu%2VOkcl%Ogs+k<w?>@`om#`Vr
zerR~|ESLUJ#39w}krf4-Q+~*A7xk_OQx={9!72ROZHBJa`9wEQ@-F;$r9q_P%I%Z4
zZ=qACsG349Bf=iGY&DE2M`;3^bGUkQo<yAY{)p;(hiW69<WUY|`v2MsfjE$BW7|8}
zrT<3K$UN&8%sJYhrc;KugK7hmX-}z-MlHUf(Z$yIjx4FGN6pDxcsx-=TlpPw?D<$y
zP?)_?>aZfOnxd@0h@!mVnC0w=G6S1QE_QJ|y#6Y29PlY0B^{iJe_FN@6a{Uav=-U3
zc=ScwIyd9qqHX3<EWSOwjKYWU@>M5%#?BvbLvyV^P9$VI<a{_R{~$-hZ@k~mGvxPT
z+?R|L+iL6m3!TN=G1+F!f=tV){Q*%TL-nFH%>8!z65=-u!&U_I6~8u~;7)Ax@FUDq
zCQ?y2%eD#76jlrFna;93(QXh{wKNb2NfEN<HT{ESrGGWI=o96~x>t7$<EcDx4N?3f
zL4-x^9KJ;N&xQ)(pblKco$Tc!nC|w5xAG7w@VzZHWqW7pa@xERlELUgZ7aTuQ*z{O
z6$wB4fx)ivLFUahnb8d{&dwI%<CU%)KYCS(<DPG`QQUf0x#o5ua1`bNfejMA`7vf+
zrQMq=<f2i2VY+biNt<$;Ke@!ni`w_CbjN$s&6eKgdo^ZoWDX&Fm*sb0%RoI>OkyF?
z%>rD(xKsE1)3=hrFqs2$A12wfL@|RE-r~t!1X=yLo82QD?!uOIMDINg{{nsG(#!@x
z?B$a-%>g}Xb?Ms+Qoprc^j?t+{Q`Q)%@?3oeCd87FkC;z9>S<Abk@|b^VS1EsVL2w
zosROKFotdG&3&>N{3nz6d-ik&K#yMR1~9Q9hG5RCe>04K^7Ct0nNc0HW%MO~%Y$l1
z=RV|(g$qU2404SL&laYp?>9Wcv!R#vW?c09F*?KIcb}Lib#7NeYwxEFDocl~Zc-8Y
zR?+H#W276XP!^f2$Kj_cUKqVrfiKM5daN98q8s88V&&y};x%^UvoBgs)USr7G|}hQ
ze>pv4C>krf(aHZ~1d19>Dzm;mirX>BtfQ_XOPY_n;OPY@jxo7VV@yBF=o<MJ(`HSW
zIjIsyW!4(r_Uhnl8jUBa{O90Et?S3#H={aZaoqYl3=HU^&wk`KbgW8Si+VS5C*d{V
z0(@c<XPuo<EZ=<9C=ROL-+dIjhJZ)*bHQ_73M4G9182n-V%9aykp!=dFK4vAw&*z}
zXY%aYKtWop@roMNqxDqUs`#QcNat*bOe{sd<>)iohshV>XLPZht%Ma*mCUL2-B8jp
zpgNt94|u8Mu_&TMDdSVh^5x~!<0?r)2-73QYFfu>fd{xHUwcvWSl7}9)xTyNzw&2}
z&sRCHe$)ARTn$7dMb{Qdi~&2ri4%BQ55w&RZi{FtXPWNOz=fbcV52}Bgwv=g(g0=@
z#I|1@2u}nQLMjrmxFGE`oyp+6foq2sa_MAk@1KxM20IY>F9k&c5df}~g#CnDlNB4|
z(-PE<G^kPXJ*ZiqDsNXOvRIf!5+q?2FhEb+rEcA)a?~7Y+g^hJKc2F<OW;Mb<*Dud
zl0tL$(nz6#0QY2DTE24XJ0xy`edhB{^+lq0fve}``m~l~C|8@x8<S!tAN(^d7`4H`
zN3ZdB`SRbt?64@s0oaN5uq|-s!qIu!#uk*c2VFA&Z%fSHm0dNUoQF>JM`iU|Qn^Wc
zt)9_Kdl7d@fLY2q9V#=pRY+3V|Cqs0NWm62bZpA7Cn5E6_k{KI^t-rCSN5L?q(pfq
zau(BqeDA^GaDtbC=`QoRvGhk_&UcO16iE4J(P~D=rtJrM2Wk=-)$OL-zmJLo;_?=S
zz6G)Qc8v;Ka>hld8P2gx5$KN6ZR8$Jd+8fl&X9dL`&#UJ-@>=#sz&EzXF;dYmDA2{
z9ONXLpm3<YpNuydDg7kJKk~H!dEHtnmJ9>I`fw<U!V{#>^G=GNl#~B&+&12(^sS-N
z{Q=-5#8A@yO8Z8&PpWKV7aZM`?UZY8=E_#Nds8@11peETK??FHGEO4fRFpUn@4SoD
zD`b@UlMt1h_@DO)P{F_YJ&*F~>ybd2BFXnU2Rya))^tWIZ4i%Qfa!S$YzsUn-?bUk
zRp!2(WDXpU$2?SO3fHSV9Dk3Z`XZk;UwQq23B{_4?pr?|^L^3uu8rBAKJFYcmOR(`
zTmT5g-j<K=#f@~I`7`vw=J|<KBER<CLcJS#3XRnzHLK@yldqTz@eflP0qJmZ81I`F
zOLd%tR{C#W8>RTcrxubt-;1xlmwM8{vL>tZ6qV3w3i4K>?@lDQ>lUd-XE<*4w`)XI
zCKU}fvKuSK)qX9rNkE8<8%lj1m`ti3$ZM6S$zoLz<Z4X7uNwIt`NXl%mZBm*Ui6Rr
zoY+~2;nmLeNFmI0_cYCENvDB!`eeh1&quqb7pkt*dlt8TP8!5P)j7fep^`!AVDLRF
zSbezsdTUS?MFs+G3!^OE5lWU0k+`%cEz*l@K6M`>I_(dwn6l6l-#zzZ_uZ=DFS2Q{
zE?UY>V%!k*$|iv9$bvR$kwzc2JBT6yQ1osdD_akEAD9@Z>L9aOO%4sgj`@d{^v~z=
z!OX}>f&yY3P|SJ%|NVyu4fG<Chk7KpbR)e*vTG~$OvTD=t+iz@e1v#v(Qo##uh4Z1
z?}U^ZAB*?c8vR5<v`h=Rrgqj_6Xzr*d@B{?764QpDTPwC*UpfuV>Hjl!!3TAzb-m5
z<>pP4eyxQW{7}Jd&sWbiZVg{hhsz*>){9+#Ot&fQb~cx~d{1|X`c;?oQoX-!nb`aG
zYM;rpw3=yTDL7r9cV0k|I!qSSh|5K`IN_U?#(5OX$wS8(=&lP9UMyc&@V<S(E?#=`
zvT`JqO3>jzJN31=@w*j&9tu%YA*?AS6v-o1YYIt58KD58q|XH;b`S;I;f$LK?MJ!E
z8!h1*7X>GCSEkghKop0^&lmm%(*pg!Dj*4}IB@&%2b)02r{R_l3v;nh2~ZK>{~zpV
zmyG}3=)sXFv(I7z8JuhjRtc}t1j7D_7XLqH)jt(8V`!s?956sP4qt~4n>sHduQCKI
zFf^IVkb0PabkOkDlNsn=PM;TlhO*l#*qLxI?n)TkvB7n~%I#g4X40e%8+7fX^bys0
zM3D3;Q|_nIH?AX2)EF1>Hq(W2T>D{6$b1FrbeV(jBrV>^#)jJe%@N>}>}>Yw`*Au$
z<HP#n%&~{tq~Y>6s}$8>ux~p*=|)d|F-hb{<M!Z;nKCK9$mflqYaDDX;I!YX+dfo^
z!;arOJ-+7oH<%00hUt_WO*@zstWxmPc%j)*Ls4V#5T^&;$BDU%)qnMM$deuh{Uys3
z1RePIEJOa(5ERh43zk}&tFqt$V?U4}8vLn7AHWW+rRH#25lItpp?(Mmt43jFi-$=0
z29Rk#2ev6kJ|I2KL4pWC|7+>k0AUK{VOH?IzdiH!u~te`R>`R-mkfDsL8g1K7H8UZ
zVWyLn9^XgtN+-sglBwW>mXOEq&*Y^9qtJ}o{r}i9?OrRG+8WT8*5$L*dz2fCBy8~>
zL?+9!;yKM#c=Wo-KANBk4~_d0piQyVR=iyGRW?{y;OIZHrZb%5rlL~5Zq4j|O5MBg
z{iC99Ll$Z#=P8T->deB0p+}2m^3V8gvU(q@6KD;K=>0E~f`PH2lQ7^}uny}4=GdZu
zKewj<TQmvW4A$2DmvAa)K;+o{l5+?A-Y9z2v|ic_`1*tF5<v98I0LqZET3<r&E7xF
zTS*pxeE~^U)oFIOv0bcZMRIOtK0Y}lTLf&yVxYR2x!5c&%=!RETr?gFApD`%G$pS(
z0+y)3+o9Efx;xp=IxXW0;y<s^IM;zr7&Rv<O0Afh@M`30pzmHj7b9CPDf;_>GLN+|
zhwV&qs|}g#7A#$+c{>()eQMTaAstUQ|6w+9K*T7`j@$bPTEtL@yXXZ9V7|nXGALA%
zvkU^M82_$`HBf88VUtu^^Xip(o}wZ!1kRcNtqu?y@IfTMKWx4C##Zd=2Y1}2fC}t$
zmS{QvP}=!K>@K(Pt7Z!Es<66ok4JO@poX1?9}uM0f=9vfu$%%&oIfB%%Sf6upucIq
zu5#N}OA!HTAN-Bi4RwINFaf;WCciUa?4Xu~#lEsc1|Gw&aEa!7%$h$||5RKV#E;<L
zg@FC9&M3X*(ytBmHb5@g#{e$$g}&R}Jv!or-9<7x4D+a>ANGHAo~*%P5cOCE{#}Vj
z5h(xTI{ti!np)%u<R8s1f4jb<aFvO60x&nF0B<ZkG+d%qO87_?aCKJ#Ob8E{D6zrl
z24DkISbza2x&y?5aO#1lGC-vI6q=rXmj$w9kVq5Dnz=i@2YA++V$=uzm48b*#z~Zj
zqs1Tp;zz-kpoGCXE$#-J5Wdh!7!O~meQ4+)lit;9S@&JEV(A3>3I#720V9P_76-N3
z+XiNfs}@!Me>FkmAE2UkzN&9#nFzXrflrO?!uJj6znC1HR$2|?HsU&^F;O7^<$71L
zJm=#v@cmA;`@KK{4Wgn!WjGSpbJjnVYUBj7urde%!aaj}R-$gkd9Vb>jO@FjZ)ldI
zNbqK(B&Bj%o>C73d!;-t8k~rcL_8Q9>FWgR0R#_~(Gn<F6V$Bcx1#t8GEUeK>R=nF
z=O#3P6*MOQZltdikSu?UUv$O4yjp!^{{J-u4EO-(YVF|14~p6bI1h~vhX?`iMu$l7
zp%heNW*&H$C%S=^5;Lpd9?(sIJQdh?s)pX!^VT;#u6-V7%m4<}*!vh<fi20T7~dk?
z$ou?DpoHlpmYJ}Ix7Fm?qc9>QFoWnxMJ71pAu^O8`X5>hAQ$yYswL)vlnFv2T~e;)
z%s^AApQ}~FEc8{<zu%8aCa~cTHdW)(vIQ9_nUkZUbKjwQXpB&-;J@2|_5oDn@zs8-
zi?3`L&cDC(?>{hZNI|Az_Y#^Tn-oI8<tsFa?QvS=*~1w<AcrG#R`-aprSylIkP@F_
z1p(sH!1Iq31i1(n0$Rvr6C%1-OC&)(Q)qhs7ZTe_#Ac#^bDu9y=8X>Xy-lE~o&d(C
z13gEeT}8^J`Tff7nat5ZcE^7{|CIXon}-qyNnPZ*@_PT=RlRiBwn_PnDJLP{=@?|#
zV3GRYMF&nb?`0`itw;)%C?u#paASAJ6hiJHf*^u8qzwPNTV&`Vjo&sFoOU1jvmdoQ
z{q&a}{l7Cn!W+J(XCBj8XE&RuRG^++F?b6Duu1LD>e=7UM9^a4cdsrE`Dbvo-g1T{
zVUnYU_2ihLnC}4n4B=y1EXw)woymdnNU*Xy(PL~KQ#m7mVrvpedKtmm<xFcC2g;hm
zyBT+p)>ACO-X-KE1&xp>HYrZ}kQ)%AHk<p2(g1cB$fS9_Hy9X`+~~64Ya;(1+&HK!
zm)dt|BV?D9Yk$lwctR;31vZ)?Tdc@G1HxYjs>z<q2tN)wE$_AIyJLd^ST8r!Ti}0d
z6D|u2w5$eXj|DJ8va@ZbA?CF3!&LF~Su0p^zqB(PEP^_L_$(?vwdfgGG@P*StMfoX
zIj||?{}*R>Uhk@ol+Ldx*mjd!0L*J8{4vsaZv%vvY^ek?IVM-YAuW^n6xdJ#5wVCO
zO~#N%6BIATCIBUbS%?Uq98y5hr_ny*zc<6$a6c<FOejVm5rzbx0MC&!80dy;#cjIR
z9|AMEk4MH6{)Ius(VO+2%$-_(;0nJyUv%05pC(zBT51jj@eWbZ8JTK_YBSF8cu=RY
zlg9_3!JhXd>U{+$dj$2+I^M6?a-9s&IV9eU8iA@#%d6tct;mWWLw50R<Na@R6cifW
z2}UCq1COyzq1wX|;|8`iFgODh74lIDmC&6?DU~b#<mBK_zH-XJT}&}TBNSlme`*g7
zMmYlm(hv#YTQ=A7qR#x~A%EW|8;pZ50Q?lDhaq0IPVK*6i}+}1-xYWTNRShNpR}h^
z{0He-C4BVi|A*d~M|R$k<!aXbxfKzx<X)y=0DCux(wGB7yGvOt`seyYr`6j908L53
z%#c*-b-Wu$@lJWe$_FID07=BwEzzkWm%7hquK+yOd2_8d_b@F~6#P0>&p`B21oW>|
ze!^Y2+Oge8Pzk`3&}AGV0cc%)KLN2~KLYv~FMff0Oho#jko$XJa?nhmS4GYqs<I1H
z=7vy7q0Ab$*(MaKgCya*1f|>8sMBQPYBB{|%F>|E@Q1lyO@R{zxdgqX*AD6)XCBE3
zUZ02Ly(V!L=m97%)!)Zkxk&oeP>qxTFtY#Cw&Q@9#3DCt5cI7Cuz4%er#>|$&I78m
zE)y5ZE%y%#V44=B`1LR}uoGa!mX*3J64T=eqXI)E05cENO^pWg4LY=h4(|28eW)zx
zy6IeSeFd1r!aJ);;5{KPj_cC!@;gY*0%}+PE99l}0G6ki_0E=9cgQv!_lEdwK~pqL
z&J0``j%`@e!Cl}%Vxr=7`?&)3b!^mRrNbg$BoBrb_yspI-p1&7Io>2e#!j(2axvtp
zNF_bENLkdbK1E->?hN>|+*Se3fUyQC$?9M%&qw~zB%Iyl{oqZv>`3JY^7FqOkhu|v
z*_$qv2NOl$%s{#qE=8%+A&lT1gf69a58c%oe#;)qFlHNwu`+GSKA#LoQ9OVY1xO2W
zlwvWe@F@uiIU@=d|C5b~Jo<!5iHHHemYqIUprQIpLHxV_5vbSbUmM^ZF|eO5Q6ltm
zlp0Xr9Q&?!y6m-@52nkv?6fg~n`wKb_ua<?(RW~vGtqtm<fx|Ubf8P-f5<|DN{X6U
zgl-KPjM)ryd${+(l>!`h$cc9ex?+XgmV*+&|K(OQyXeeqCX0mW8flnqDj}b(4$R$;
zCtJ%S=LZwOoQH;?(9@l2TKtrlMU!5swu;mm0TeRKP!3sAxu<~Hhve!@{ZOt+U{LpT
z3))i_tjA=B0Q8z0ZzF&d=?hK0p^<-UkTv{cl)>8o%Y#DZ21ve%6zR|fc{1KHMuTZU
z-V$qI18BMaTnv5B=tn%q1wj-gm$b_2vFKEV&#nM$O*L7tz6IZZEd|(rfClZtqZfGb
zX-w=7geH}ZD9c{uIyi>>cY}n}LM2r0DB_GQ|6-L1&%6CSPRwTol?s*sbmOSAdi(ha
zCw4_ZHq8Y$To`ba<6Qz$s|^5P5XD&>t#u(|C_s7&K09t*p?sk;iNK7(#`7*<y??Sf
zM39B+%%T|?*nY+^ny)|+bujlHM8^PR7-`^fg+%j%IGov|lf{Y$evzmaX2>z3|7#JA
zzT|f#$zNEp0fI4|pB3rz$ybgGWhPcpce3lPtMq(*Khh1#L7L+QiNt7DOS+Q+obo$*
zzkn6VbMlom5~b$*dn@I}(H0B=@=sZZxP)~gJ)Ft?obyM(=?ouCDL@BUB8xa`RiB(M
zPpNy}Ixm25s)IpCYFxe|0X!LSXj7J+WpaHfwdSRC3oGLrKCb8w<)!TYXZ+!yG+>#*
zC)aQYI4xUDzX}qttIlnONk0J`$%bb~D#(r}zbFe7^5EZf+RG0;YO$s+Sm)<#k4_o@
zlcXXffHoQs9gH0NB+ZU%vx1iSPNf<#`u)DUjfu)1wq1}v1zo<40l@pqeg6GRPN;(%
zh2N>B(2MgjEgo?6MPx7{wBh$8q-afmTg>1@^kT_kswN%*M_ykF49{``oJXlHV@POu
z!+L@&J5gs#Djv5mZ&gK3gK0^CX3`~3dESBFbx1J#7tRtGECD<qHrs(EJR4^diJTr<
zbTO|&Ur97FP^#qRfF;|H`5mM)v`Y_$qI)tu!E(lw$pWLizP#hK_zs9BNvbd?zigLO
zFBN5r<iI9seHXSB1G`D11aLUG3TJ<L2IvSjfDLmBQco>lJ$QfDm_)#tay?__J~Z_J
zOsJSb631O40^b;r9;_A#pi!do;#Mz!`|bEm8M*=VDGoH;ThXA0@}HOud8bFcwyTE4
zwt4&kdxHAW7oQp|53x(L=Iu^%QKEh6WwF`+fo*vqzuI~Zvx+GSRuvK+?vVtA2BL`2
z1a<xd%JJCi<wkJv?EuAvha`v9r+ap$BzAW}q*@3-(v8PU_@?)cGx$_~QgfLjByQn0
zZ>7TmTa6=^lmNZbDsB=v_5=7fHQfP*R&P@SM%ic{mJJqS7J!;bP=<HW!V0?o(*@XV
z0K!WvUs#iuU-Ug(;#Q*5uJ?d+=BS6X$EU05hx)RrJF&M9ftJ6Md?HvS$fFP<jgoMY
zL&CMR6ik^r>jz?p$AqrGfr;i6WLzx!_Z}I<&Qv_MYg+IJ;K*WNTn^<=b=Jm+*KG4W
zgYnxKSZdy_hL6MEyXDXmd+yCd1IlhlL83;rrD7VlHSYS7CRaD@T1LN5mZ00S2BLM_
z`BOi4Zs4eg%Rx(Yia*p6VSCLgy?P{r4SAJ7nAfnfE0gVzxyJnzM+O!<6FN&CJM%vB
zourHWhr6g5!g2T1oCG9Y8RJ_ieXuC~&{;&{>e>2q!$(M3pVDqyt7XKgP?e}H3G9~r
zst9~XU(qGCU9SAgVL&fC$G87<rkx4-GP#N|BhTLz@jt6ZY6U)k*@Z|n8kpKgpg3}H
zG42+fF%0XafL0o#A7HGn+XMSaMUd`C(@baa77*pxF+>B7T#KpPEihie*n8L?H&3PA
z@5h>~2==E1iTg7Lv@~$==O?P^XmjOCghzU0n{}GY>##g-cIPNj*YGe?g<Goqus;PJ
zGLnH?fL|F0LS7_7?q2zJ6v?{-&5`x+OlvO9kK`1>o>7(UcNp$dj)Cc`i7WnB4#PkD
zfi2U_#{oHg<vCdNzM8V8fZR+yTV|LL?6Itv#>0fvfhyf(UApZ|&~*z$5V0yz-X1R`
zK{Cf61k*2HN8oIrLPVe-mJD}=y5pk|;Y;z-E<I1%Rm%{lQhcbj4DRMly+4&td!kkf
z&0xW4M-jU1FMWyxWH=ze?Wy5Qtn`7bJ{Ul5D<;UHu~UGtZucpc>Q1i!7G<d)NE!Rj
zLF#3LJS>o*h%->*l7(|RwQaR{@s6{@X(fyZ^4^5X8TI_SgV{Nhjq*|&A>saJ4<6yt
zS1@W?zCtG`Vp7ECgSB-xImhf37z7wsc!cEif|%i9{Fn8n^Lx*awqKfZdkUs@w__SB
z;u$vN=g1gWw4kM`Fc$vwyGJYFk{K~WVj+oAFHrdNv1}AdoA`$BUU@^AY@3Fd#pNW$
z)5u%1D$POHD7VMSg8v7D?Inh`#!XSb(IJ1rvF#E{gbFtcp6&*S{O^E?#_&>|<H<s<
zJYGXdmG<lQx14}U#V_m>0d5$hmL@X>;<6DWod~#XCFaU|)-@DaeP7^)r5%=+J8y5i
z>%6mU_pwcG>r+xL1nn-o^)pC?-ah;M4&jcEKNvDs0N+QJ$Da4p(Ud&Bnt9KQ|C<mk
zKg_`GPAUN{uLuPIK2GZ%0(|i!bFDY{bO4M^{sAx$zX(|$sSxSY=7Vr!9PsZR;ghrm
z{N7tuzVIy?uIR#e*C|9SQqW~Q59WTTv*=fx8cYHonCQ1`ArGaY0i*a2;rU>y3mzly
zTI1KWLPm>F1dSYAq(?GTI~>GfB#OBH)S#;?j%wldPqGv=C`p;fzX<rh{J1&+Yg}Y#
zhHuhUnv_~S0>fks2X?;8Qu<w<Ds7Kt2<8rU;U6VqtmusIvFH@Vo^d1qhO;P(+9u%L
zHaa|wd>dH#2E#W`5U3TFFjNc%87uV(NTYwHqd(n`bj+UU7VWtD@mN(}n!X%U3r&Ft
zc8kv<v&^{7`rh9ObraVK)$g3ayL60=Lf|(+Yqa>6mqDBZ;~^*&192p4KPm5_5^T^P
zXQ<F8PW~DdH7>)X`gQ#Hbz9-uesl24mc#6i)=7*p%`#8Ec*XVCLHOEd7#1<94M2oy
z=^>LpE`QT5?GDdV%{Y|$hGb{{lc|eA*2@tcc8%6tbrGvQ3b!MCXQ>{T#HilJ-RGX*
zZ5F&ZY)f%IF!$%<3lB7z2DkmNaaz$f7`8!8nn*&+6Z?b%PZ(G^yB*o)hWZxu;&H>2
zRIofdg1H*sDFJq@`G~lM{oJ~=Jp+v04GCWNC<A^v=~#=1Mp<NV1dsp|$dQxexl7nQ
zec;37K@QpAIm$UQZuc!B+~0nwF%BFOGM5WMDh2qj01k7lp^zzdyOJKA{pFD>+5^g-
zoI9h!nqIU6otU&WApA%2Y;6iou9v}>zOl!z8+e{ZHQ(M|IVoR%jbtwZGh^7y<MX3_
zcRCSy3PvE7sZB7Du++F(2_iI1{6!PT`RcyHlm2q4LWp0_uQkmd(flivv7OHC-8OyT
zFxvsM>|Kp~{>;t_jq4xgzpM%5=PEl{GdV7YA}$Yy&cQGqCBBN%2<qfun>Nx_LG8L<
z{)3kahQ<k3_i$|JOJsXAzltGY0Nv7o^7b+){C@pWa7M5F1*<YbHnV6_Dy^?LOd_F!
z)8ZFPZq<W3jPjJgfcOapK&>CZ+T-A)CU2I_^xlJJO>sT@%&3DvSj2bMqJ7U(OrZV{
zu!NKgnn5kQ$%vHALtul1l!lan?o<ivq1c&)D8f#tXD_h6M>fFIt6U9{2c;Oa^)Uf}
zY{WWw`5kXHqu<vg_jq#)y`yN-v0jcXQ)xCu?EFyd-jAtbg84H7OIh!!qZ~56|6`m0
z-PU#1y4T2*;<e+(#g{~2>8Hd;pgctnrS;yD{3D^!b)K$(K_+qer48SQCiYEzWoC{-
z<Q&hR1u$xkS-T+0Zdl{#9_vgSr%&3(YhsSF4kTxIb7<5!J!msT0%?6qXpeqxIt%Xq
zB7mi^q+VKo2O{fuKu0%o2)P7v;=cD0l5Ql;)>q!_g6oU$enOxdZ1HaQq%kPN7i;Fq
z%~bhZ{~W+vY&TyXl+n3U^+hLJF|6ETUA6+uH4C*^t+J30CVuptvd4|&sN1uq;5hDm
zi{BMr5ET6@(WqN&9gvyIg3O#g=MbP*aM7gdd#ZpBFDv{xNyiS!d-X^n)@qpJ(bOvk
zc44mr`#8#~ku3ss5y>N-8RVQT*4>|UYpuNkoMOx5P`=nxphlIYtmw*3b)*>v8-=aU
zhk1M0#+$q6_qSmm4p95`1&(V`e9?6gRAYy){1hZ>89i#6uIavHmP&?zt1Dy}<sk$}
z@s1w$bCq4HVQ!eSD1x~<#ah+h1xK3LfH(A8aPU9GG7d;wRNzY*_DdUnP4;680t&I0
za|R;7Aui`vl;~|Rxz~@AQDGtIi%`fEs+;(&A(FB2bf`A}TgnrEMero`7h<5Orr*Fm
z-=0YV)~+uAB)@bDlz3kufIbqt)4<Gj+3!#S3)O-=#fhZz7RJY7C^(^xJx4>_0XcaS
z_TMVg_*;~U09Y3}M#Ut6Pp(}){BbF5NO2i;o4ydZP5S5{9a(q!x1c5?1o2MpH|O;q
zQ}OGo(W||2Oz-b%{z3y+WL-mZZxer)JMGc_>FC@tjU5<lTeQ%^X$$Hl6G??V%Vf>E
z{Aj|Bj@~8lJDKLUis_eI`ogvH6mm8f9He2#NtDH%C;9*l_8eKyp4Y$xrPiNH@8cE$
zzHE6=C{Mr4AZU=#Y#SdNbD7|tib!0zbD7J?ot?X2A(`UNQM-WIpi_-57MB40x%G$z
z$2B$S=s2j!Gj_rKP{Wrq)>R@3A}J4sHj%FUlpup*sst!LImH>%yn~Ki*$e1B+F+GD
z3eNF=ORpH;TaBPd=Xa`aO~N$no!kFjH9(#VR<{-~&MExC4L*8x8yJX2{hrY}Lh@OU
z8drhHW3SWinvkIp$Bb%GPa9h>fP80@ZJr*aGS$y%qrVyjyL2v+j`Djy3?b%^{gv3w
z32Ci9J6IN$)5^U|$PBNL1nZJE>IE1wk-XgkE?fi*c|>PuD--P4)pv<e0Dh-K{37Av
zi%&w@WV4(JSss8K`XSBwrNDm@vS37IdLEu!iYgvnk^Y50+GEB$j$&Jv>!>V1i(SoJ
zF}dXb2=QeorYg0va_<x13Md8yl5(0uQ&;e-N@<pSTS=e!7WErDtsh{48Jlxd@K38$
zEqsO)O)w<!kmL6&*?Ukiaq0_$KG`v6u~3$^>&U&pL#dZ{yE?h~2E^G$=YP%69}#cU
zPQb<m<T4^XZ~DKA5&hmjHXH+!g;6X1&R-0APlM8p?cX7x$F2Kz)n3Fd6}hxzxFB8U
z=XZiJMCgYs`jZ2Wui0A7f)s+^e`I-Yf(-OmI<j6KEADMsh4n~+%7t_?3-l7dPEBXB
zK@hDNYT7B$?#la3#Y_d9!BlYb4D-QT2DJ=@;Ice^fQu&%o_*x~X!1mbmIvNvDeSlM
zcvSil)NsQSQMeL5gd-$QyF|rBj{1s3<mO7W`Hwsga&XMXK{d6ls2qFD92C$f16l*-
z^@#GYV}Gr2;ux3smf~-U&!HI4Sq$rW|BN5VJrtS*<Ie86pux-6#^H9XM<)MrxYLdw
zLJ+u?Tu+9qiyq|FgXsZOJDh9pe0aWaNpkcGvet7<S1U4<?CfbB`NFuE6s%kg?QyWL
zEi)B*h5~o4kibO(&+9H;MypSW-6DFN3K3N$of?e_anunrwb9HlhvN$U#sg4%H((kF
zc0x{$;m`Q`CE`Ca1q#G7fp8E@R>1SeyQ&2cqmiBEXze=9OaaWkj;c$WOK9M2a@wr~
zJj$`lEzJavp5_QWsw}eC9c1rI&9BOpmJ`8Q0y?pe;PMLkjrU!`QHV6*65#@1D2h((
zY~?S4h(OFvGmJH|lE4kZk~QP(j+)VwxrMJ_ZNMW=nArBP(X*-qD}pjoZtIB$y{2a^
z@QG6_$NAS#uHn+e#D191(n;?0hiq7t5RZ+3q9V<sOF&Kk-(iCfp)B(8ecOLX?%zXG
zJoYo6z0o?H-Qvv@a<li?%}T^~d1e9rAk9(_XeW&rpobE)x<9h+PM-wRsTfPYgFv#<
zGPa}r=G>TNe_xt`cgHlcHHr8)7=ntUn6-iKgXZ^&nByt?!1u!eihxI@!D%ai)t34#
z)deS5U(h=|ctG%n!iR(eu=l^s5c};Hfeh4<uezHjI}?B?=X;Z0hw&tY)qveZFepYz
zM7_@pmw-Tdy;CM5L9CnN93@d5JSzb2V%9C$<O<;zc_OOPboUiw&>>X8K)_2ywR4iR
zpQbYS1Or}VIWavZ{zru?XL53syYn{PsXfP}$u%{t#{KBaYd2I&K4mJuz*clu;sxk$
zglS)%eK0XsOI0WCtbJx;xE-?R3-icPgG=^#YoeoW+@Zp=5d}1f)VyZoOwmy_Fh_DC
z(vT}Wv%n6`^AoCGa@;BEp?hb4dYE8wxG}!Ruu{gI>IYG^2bwqoGX1i(oX%?!02jp$
z(C;w-Tt_v9$=okUx`+ytRP``dpMOJg0Z9}B!W?@NC$V?CLA94#|J4EpaLN@am@|8F
z#MVGlN$B6Trl!*amE~v&P7i=KskP?Q567jkX}m{Sr&2qhAh-Ro0*T*`veDy$NXnr&
z6`?mNRj`p$2fj!~&KP2_?xe<op%(;-ICbf;kq9~Mqo>7iVhE#*X}t3GzWf=B&jGph
zSBLzrxb$^6x)92r#nMV9-~36X&K7bWirw<dn{3Vd>5`{~F%YajCffU}IRNV8BSso>
z)L2&$R@aEt<8TU?S1h6uD2s}<^2V-q3!eC$5eCUX;xUhZv=bZ!zkVqgm<SmYt5#FP
z*mZzqjcxi~EAG*fCZY{(<foW^099(KS{zVLqW^rgK-Nor2TIc>P#*v?GY+evc-bK&
zl^8Rg>Mg~fMnsVImmwqMOiyjQTXE+#l%S}h?KB0=qbWYiLHKgwnhVy&1toKkMD5ca
zbg4El<ixY)l{o-dhex5Bmajcj9fb;FY&L=^pBjMUg1IR24R8j*KnEEiAN-Zt&1#pp
ze!+-ss@U+;a{!-{rKIQvD=mbl|MiBgP{-zBtUueJM~K8bk)~7=#vh<KBswwsbS)0s
z@B1Ra4`1D{z!EqY@c)nzUiG+8VUM%5VMyo!cdX`5<GXlPMFgSxaO^7WX#2>$yQB93
znEDeKg(@SQHy#59H=!xUpl%8!pw^#GHQamsu$>=_`7El-WUgm?J(~TVV2@+Q>|_2@
zd6qWyW^P1WHjj-~{1`>f_M8_oDiYSSM|ST`;cNDCl!>r4Ig<+UsZEs0|3}q#$5Y+E
z|2rHUS?Ac>F(TQ@UdL7$Ny*+q#IZ-lIfx^hhBAtTN>)}G9h(SID5G<X?6PO-_d4C(
z_vib2^he`Sa^COPxUTEDjHUQ4q64J%gg!2T%3a)e(N{_AfrRc!@=(HE)$i!iIbCJx
z^le~UbJsc4P^S4)A%|YNWB3p_J--T-CQROq12cEKpC&!sXQjGRw|Z@GeZTxjEEznk
z2Noyy(t)-LRzO`9n!*w0|KQ@TWae^L!&=XE%VZQ782dZ?X~9UH7#1Ts_-Nm_`-iHt
z)1a&nJOzfq6FeE%Y+TyJGt?CF=3>;+v+i9NmQJ4_SkWH%r`Lbo-qCYN(8)_`0S>#i
zPaQnN^0{ZJ3t-dljP{;pKN%IL_A?#pw4gF$urHenCnTP*?*wOm$+@g}6y^X-z-Rzv
zGDFlE96Y*-OoDxqRIR<nOP90NYL|`!A0nEnnh(C^6lE3hFeGG<CCF8e$@B=~DL#S-
z0!dx*F69$~c`fq-a$2jy-6wp#l*)V3UN{<DhaSM^&OShYLo2~t`hbPt12s(V+<9fm
zw3i^d>5giMkJbD=s(8Hq0Dd=peOPqQU=HMQ>k8X}L}n2=KM7qfSzHL9hv;3RK?VTG
zw|}!m)I9=(K?~nh*3FM-#zX+3Nz$CVzdxqdY`h1uz-iBv6=WED7C`58&#zYS>DH4K
z3Xg_p1&%Z`zu~-aqWSH5dP0D;Tw)Lt^u6WPHrD-QvVSH;e>N$YR;!Tb^C@ZHqPINo
zpE{&S%w^{v4xOM@tSU~}+?UZ9;h3Wiom1smo+AsaqB*3<{H1T~z06?nS<dZUgM4iL
z<H<Xj&Y+3Cw;(7n`M~zZh2mUSXv}Sl=Zqwts)6HA1^gFJwMURyz4wuQ#J=C$)=l;I
z55Xll<;(KTZ#8Ocrt}5T<K6_W8#W1g;JPOiVtS&G)~!riQeGZ3Gr5eScNw@g-n~*@
zV<ZCUeaG&rbC|S=e9>@v`wYbYp)FLG#hYDh1(n=3z9F~?w2-IVt)Q}c2q+|=U1flT
z-z^ofzZOfTV4w)}cI8&i1J2k$-~;kG3>%7Hv+yw~SpZb`vIIfC0(3mLO<+jDR6ccU
z+<9-skW|0Ec;q$XT&0ZFL*Hf9$~XhX*ZJrYQR9bmqpo=>L8Tx=oKM}>DM$Y`azOKd
zgMv|+-*XXQv`Ixb$ozf)xZYyZYqabfNN5#(9p!}i!J#$*ieKdE82o8h#FMDJ()b(3
zdM$jjlT>Wgd^Q;8q>EN1d-O#Wz$*2fh{YiZkOKa_+=&^%3*<dv0HLg{%ltI<w(NW!
zzfvlI{zTIC{WMgs@clM!v^xgrhkSkeIW()=a>2)AYnHqGSlwUjM5e#bJQ+19<fvFc
zv>8;hA$ASAI_*(mdf8My#wO5CdNlvs?2GHYC+pG$=ewBh%RcZ((=-$l`@;RWYa1L7
z!JUQnjC-Bv=;Y3O01aS5r&Hge-T^hW)%Ox0Lo^OWae%USX?k}~j(FYy_#?)7xkgWX
z<cIO35)hxz3^VVUUYq8N7`iqZo{KFz=n+agHPssX0Zifmhj$=f{Q?Lu7J>6=4d2}T
z>@EhsI$Wp$ytYkYahvr$=8d`k6)&J+!l20Zge-O2wnPHc^|<7y|G6~*wl)kOihhBd
zt)~l!$r!x~bntL)=;p#;1q(Z03P5Z109t!#6S?~Jt%H>+J{XIn5-^2^3PUr_1M)C%
zGro`WSCQ?$D|V8AJ;!v;Aq^h3c&6pa`1PSVKbqj|B>iLz`v;;jjVA(C4$-2XCdkB(
z4k+7ZByhMsbR3*r4wzk^i^uH7uo~Gf5_;)vg1^)jR7CQq1ma|(oYFKDJco60=jkqS
z_vip8m&#v76+#95AQ%3mxM1i_iULEkE?6nW*gS_>BC7NfixW%bQ_0HAoQ~j>N0GY^
z3^KU}jJ-X@?zbPD>Jw?>Q@j75>1*#in9D!mQHASk9?UTdoui*$pXv_b^;E~;pRE{u
zO$4Co%C+0Jb>3EOdqx&B50QOJqOP1?_utSr@znW#&9Brqe|G64xtWDj?3$XJm8pxk
zRoPdfb$o#JV1gO|HOK{+7ixM}c)j69^Tb|;u+|fY*1XG~Dl&!yK$>RUkb7ul`vD~{
z^=~+g-t7HbjmrNhssvUnI{X=eF*&>h+|Ey5B+L1%qt1e+(&vHS6H3ma2M`LXi(p7W
z!x&Ip4_&`#4x)<5tLXD9K#o#r%?2<H6!R~l2_@6vUo+IrKcw{qrdo;}=qh?n#%=(t
z3aMoq=c_$f--Y?i5v@5Cv4d(`bgi*$-p!P17jM4Wkmq-Snt`E_|0sPppe54yzDwp-
zOx>n-G!0sw=$-kw;rhdrZ~D#18ZFDI$1i?nZopF#nA2&FBVFbJ8IO%706>%^r{fP`
zI2U=H+gEWZKGbqFD4mr08~?VRTJg>-V587t(ZB2|UkuuUbtVpNkoo7xL+K(hx7vYO
zgS9<(dMeJuPxQZwjvKmeL&+2eL%#T&T@7@<)=<=PrmFNPMbys?1Fuw@0cKCF%h(d}
zGEtcNOvrRt0_b7miew%8)RkR8Do3@4(aIc8Q~C`#s2FJCIW5>=n#HfJ`j>2|;u+Iz
z2@s=Q%WW|FP5=H9CjEl@Hg(zXIg#voO)%8P?>snhd-n8#(-fH(2dJ}FbmbzAPc$B7
z8=fhp@DdKq;P!09xCk#eCFvdPV~X5DraEokh-UH*IDoTvCqW!!yNlHqzq=zg8_d_M
zk3={{o)c|w;x(xo8PuC=on?16h3LvF|0Y#ypdEU5`YPAgbD`D&Vl_})?!((g3+$<k
zsaZbaeJan4e*3sg8P|;gE%iF@-5pEj%z5A?*;^=^rx6(*PQpI`w`qH4%z?R_Qly<k
z3jvp#3G#rLy`=Ew48>gg=Y;QK42P)Lr7vWe`S$#{3=ZbQ<R2=BWfPUFynyT#){T?=
z`@{v|kj5MjU%O6vWuMCRcx9ii*2Qj$X<(OdZgPByk+PJO^DF!|1DYrHcolRu9*Fm9
z>NtWH@%2K!P<q~6__{uf@1AR3ZkLVJpN!GU84-z#()Rv&RmQQF@?c^WbN>~HsDt~g
z176^bjJow=s0>X}3P1+a2vnT;BTa~ht3LW>)G}Tl3Mq-XkaM)mP~?3qY`ok~HAYl1
z`iOe(^SA-OuJS=B(TSRotMo1SI&m&@FMSepb{-ec&cAFbiFobXHgJE-a{Qrly7a~_
z>-4==<yCPp>MYLCN(fB==sDvQE7ma{*LB8-PUd6SN)W%%{!-mpnFX}3Z2tp7{tlW*
zWgtFMBZmFVA95d35PwA$49m!(m~}A*C63#y0YR|V(xep<4+uN?IzW7?EgS+n&mXal
zExb?Je>D4a4`fOAT#p$$)$b;L-gsyslGtl_#*Z0r9v&~6<f}dF(H>fG-eE7Q(sz8A
zq#p*ypjL-y_}8DuD+iC`DzClg%Ah-+TsMCkHQJV|U|)BC=T}ix<TLLy7m+^Xgp;xM
zC~?2HdRk*WYYR+|q?5|ej#gDZeSU#x<d_VG2I%7NzgF^#w}VdQa*I@d2KY3<y7l7%
zc6@GJKf&P~dEryM!5a_-H_1g_z$|Q7Pgg>&`<%r7A$0bOz4@gzBNw*l4<x-j3_)um
z`Y(0IiFy{}8L+D2O_0^sTkPXmR)7mSpW%6EPuwRcIYqRYr21(rK^1uvKkNUf&m99J
z(>9eyWjb6dML0ctc=ohIMoBk%oNUljNm1)k{n2r^dKZbx6CSOFKErzkF1k}kes`w|
zubOYq-lC`zPiOXV-~RLowg?j6Mx(Vue}e<UM<TZhBcbSaYrv{%+s!bXHKtZ`Bo@OI
z?HfKo{OH4Z+0q{d=1H~Nu&5ayglDDZC>_UlZ5Lyv8GPnQ2%`2QLMJV>N^v?gwq<{Y
zwk<_M&3?&E`{XS4IcTl70r#R&y~#0xS;PpL-l6+QMg!iyonvJF8#PXz;Ryh&V(<G5
zjLyLQ)xTGe1cI%sC4&Y7w~j_O4s^X&H*`hj5(RvKcV=Ps7>DmU$4mGL4s>j?OWa2I
zbC4!9cV59KkX0`kqiDMxOx3hOB16ka`9{h#LkjEJ&6@`iEoZ7_aSufHM%t+CSJxd=
z6^-UxFcCbe9n<7Jx8BfCYYYda?<mH~&=9;-PYq%b>+F!mgzM2OPB;Iy#OXqKdeYU;
z2nhI?TMz_VS}JD9X#>T0%AGyJ<DT)~E#H=mS$ZhxFwrUR@S7gPm#^c<{Y@$$AQ|;h
z0P`bl(zE}*%duAe$a@eXIYWP9t0eTpRjGvS$6B#H6KrvZ3aK89ZtAy;9>|G(R(VbN
zAbW&5jKLG}y?M_*qsF;O#^)p*Kl0hq^mH6&@Kc0m$G9YgUnRMk^HM<j_`Mpy%ZQT~
zNT&7T8DG+`Nj&i85lXi}{qYEgP-LXpT>&-zs2eIyyBSw?hHhIBzd_b>Nn1ZT7?Ffg
z(Bs+w#V$>eei35m7sz+GzQb9~Q)vQ1+b>w@h4%6sv%Rx@{rL7L?tf<i{)t7bE)k%`
zt!DZ%4JHaZiyweP$BBi<ZY*2a7R)%SkToLELa?7->7Hf4hn&s<T{Isih`UUTROj6j
zq9iz5|G2r?E4p(!xtiC{Tw%1=-115L8;)Ef$M^6R4oji-F9o&?Un57XXF!Im>zUy(
zRb7!(=B|V-j)mt#LS4RRqZTsQAS)LHQ#ia_aXS}5nGrK)ZpX-(|7*y%NRMpEtVoZp
zO>ER|ZM{80Wm9WY*ZK~#?100z)-QXIa6NmF#+wSjE#cc;r$@(L8+90FUDb?u<opRu
zF4?bJ3k@fPjsGcI0ZAA=LN9%N+J^(x2H7~@O|AI)jmbUY0j&+^LmvrZJiFre^_r(&
zJDiTrzs^?++XQikovwGs&hp&@gj>B(OG-{yktBTV@t(C38x<gxRZc(08<&(^Pft_y
zLz~n1+9KnLP7KqtbN-<{>26K*<Uc~H8O9xRLmerLL(Qp#&o18Loo3@y2|NV}@$I&`
z1NnTS+rB4Qw&w;oXUgsB%+fYy;wQ3~E-%kgX$?NJ_*Hd_kq=F5rC;EXp*)~nIL&v7
z)#aRwdPjDT*CoW;EIbFJPH~i@oNoH^_HDoZmcwOnyBl}F=DKhgLb8w5x0zz_?ct=i
z;v|PQkX+RM!j&Z8-NS&4mJ3$whe{)hiQz-pR?=D)>EUB&VxIYo{^jjL<H^eV8tTFu
zsb*CqsI!_QZWuJfzS(Eg%HJ=EX!Hke@k~tQ<H1Z@gw1R%sSLM>=;rr|v5U~QyS4*&
zMtdE>{d?wt*c;$(cWM*ZGSh7BS2G2yA)RP=?de8)mDdGDHs?7SpW?$XWmzLCX7u|!
zN@$cq;uRGzOx<37QNgu>VHZv(*RpO0%)Gc2S1dVYY3Rnx=!JDO(?vjMBZr*7T)4*>
z9;!^iNiXY)Ancr2p*T$Cx3tL^g9Hk4qDw8S1OX!O&c6wx0MbZY%wCFjjpv8X(2$(@
zv5s@^&?0lML;5RR5(G-V?4-$`3{7YcCFTESuH7;Nvz(XVvfa{wIISAmokQj?vbXlW
zMmq?EoZyC65VFY{w;o4Z=D@?ky+cfvz2rB;D#ip{BNTW1$30;tBB0>XT`!E6mvEAH
zhVy9cLzOQs!gZu8YC{FFZF~z==r-&Y=Ynjxcu!WW3G9qA4zGm5#ntP)E;DpdwN5tZ
z!TkfLpdvaBg-2b9Sb9ETtuFzbhBS`UZCtrJWa45;XbHd6cPeEWOTj(ehb*Jd(o>Cx
z#&RnI?%4D9<h@}iQnBl<4uLX-DLT>qJ^OGdj4DEg8~_dildDi$?5oF9DG$!{9d^GL
z^2wDD_(q{<1nLH$&0bH()N`ZcZuiy+s-b&)s)@h2@*7a$BQ%N@5PnTGMM6SphLFLb
zWt--i(4eh_Z{h$E8?{jz|BjF(7C;!y43pC3y)3{{$2$mkOmIFze&nuITP&|k<Z4wn
z3puk7LF?ixZbjRjnRp(>8l;ppy|U&I|Hl_^ugvsc`sJ5Zekzwdl^GTz-Mr0IplNb<
zLQ{=E#I^#vDSUhN8UN!I#kEihppoahjmm95SUX*I(r9`_P5rTFXG-Bx%E>08oFksB
zGYSy!;t~Sp#5heLzVfXjwqSytm+AXEn<rgzgMgitTuJ{v{FD}Crr#WeLJd;@Jb`^k
zAp}=|h8AjgUkuRsuiO2phh#9g7A~Y=IR$|Ta_q#~V)b;*QTbwyRr-vrT<l|iw0E=+
zwJm|gF%~NYy98HWZ<i#lL(B?t86-_ri*?lTn$Ca7FNqi+d36h><5tmRiAz{&zDk@#
zwu{1NQaoOzh2y)CAQdy?N4{fg0w5KeFGJjMfOXBuhcAB!SoC|Z&CST6MNrxx4P6pp
zHt^u-&)A=z0J5Q1Ld#Ka67iu|Fq|{mZIvok*~NFhQs2=%Hi%c2-LBY()9ZcrfW=}}
zK9+q@>$~jxSl`J8vuq~ATY!oi&?|`DIoZ_jD|id58;|s^(ia%Ul^EyfZ)R8ekT+LA
zf|BHUM#6rAQu@gH?$=->h0|5xvX!M3PUMagw{fmR)YVl9Ou)ccbuiS(UA{cJ><5|n
z{k8-s&I;+-%Cd3^ls69r1{4L_#d8dWx>C*FB&aSDaS*8bLAFjB*-Y+t-u}5c0$||@
z=f&OL^dCAB-(wB7{MyEmuD=iT7&NY?rh{1Ud`dtC@)`lJQixa4#j8lF{RZO?B?H10
z(;jRGa`6`!S)4b6lY!hnvZ@hIvEM2g=Dpi`hL07DE?;;|ouBZB$%8s80M9wcIB5tP
z-jN#(p=Zc^>j_S@zEI*fD&M;CFo(_UQSwQr72j6`eRjnUAgA-{mwV?t1$Cl1pwDQ1
zx$!4u4o|I;Ck83DVm}t#Z%q-Mo*CXr*BYRpp<zVeEeK(Q>U;2at@?35Q3Q-UZib_~
zQWW`?(IdW`6A_r~xVjzhrj0m7U9=Rj!I9il&6UPR%_vswq^r6{@G1vU-(hsNn70Tu
zxj3s9o1i$^@0_Vsr^Cf4Uc6<<&+LP9O2Z_aQ*$izO*bw81EaW>2b%z)B^CpcSbfd_
zKc%5#=*W3#ijYzCjnrQ*NtZ&OjU3T8t>dwZt?QWbG2*#V{vyYl-zSxI&y(d>G;N-M
z_^O>H67^&qu?UzPIZ4UwpJHpL1Scr`*KO+KlQBQF(>@CZTdQRWK&@$ec=O*04YI7$
zl~TjiE;>ApM9dHI;RK5@hmka;Iv=}bK^0mGBODR?_IkE?Syb*^^`bXo+7TG75UWns
zxOt*dj~BZ$V<Pr3T9j4s5s67Z#g)9DhQJ}AGjGI0owx!D!!=R&S|jAPvj^i8#mlTv
zY+C(^qUYx({566r(^v4hO{INOUAf|if(x<GxPxuL1x+_9j-fwv6_kANZP#y2zS%G(
zd=A5oce4_C-E)W<VMvHYm2;oDMn}}!MJ+>=4fEZpmS}?>F1N|z#|;2Ip^$C>G8F*$
z1`~H?kac1w7|HEFj*TgzPM2MIaqrUk>0PD?h48Iu(GxE3jmr5Ka3(5o=8(`qCbyr7
zT8Hg^T?dqxgmE^O=6Ds}QJqQ<^U73~)hb?Ka=SfJEqJokH$!u+ZFIy|iboi)4-M60
z@idhkZQY*rs_s6ZPM|_wOZ*8Y1|y`Iqpmm`13z++W7f8fK_l3ncu}80i5>f_Ovn1I
z27WeQ+NLn3^rY$;GFgUh<{&{rc)TS8(pqDy|4iKMty;ZF>J(npdvLT=ED!B)c}qSi
zRrWQPcuD{d)c!)c2Acj;;*CpnW5T)Gi)-yx@%HeqzP8l2_@L$^*?Jn?yRiM;zH1Ko
z0sp>zY^4w;htq-kQ?ptDkI%lAHF*XV;}yro*;ZP`FUUH)KI8cHOJg*gjNU-G_3<V1
z5P|$^1%GlxBegL+>|$D}c?VLONJS4RZ_sLr8B=KZz^WiP%D)+>F|-dxR&m_t%)<z<
z!mBSVUc!7~5Syk>OcY?gWst(hSla3H%JA)}5`CU(9AP(0^(MfeCo9QndUXA9EHzJ)
zr;s}cq<>WH@pPV=44`k>tA0Xxz(BnB_NkEXlh8r0^~a*_1d%;3r@w#2!uoAukka?2
z6sk;t9)PahXM}GXiG)v8TGe@T7GfxtJ8Wc-F3Wc@mY+e=J^8bXgYA33p+OD464ug_
zefGoJ`n9{|{}Vp_S4okBT-6Cn7HyQu`oq-=@z3p#*wz9n4V@pYs8j1A(v9Ic<jZ>}
zA2Uca(DQ3d-h5&&aWSEkF-UOD7sU&+f2dt&3K@T_fj}N{M_lhQ5Q?5q_<S^e$Mjn9
zp<5pQz4@xSjs{18UGxBZu1hhdrBI6h;kJk1;Y{BiZ0$4U9RoW)?yXGDGTFpyx(>H^
zmSoGP1RbTA1cs0Lk6oaG5XkD|nAbO&rIFJ;b5i{ev=fxC0>h;P`zB<{{VzM!!E)aQ
z{TM|ztAdIQCptqvyaopE!JlvQ&CxZLN%UOx7a3Kq>=Fz_=3~5tT}@?S!JD>+AbeW=
z0d?*k$O2(%QgNauTM_dZE0-&?BUs`mxWBbk-FoIjD}AGZ&3T$zdYyuzjMeFVm+n5c
z{`5z&<<=i1hC)=IdndvfdM;Z2@BkKMw@<Ya(eP0hK({O4r{GxuU!S}AS^-ZNO<J(!
z3L*%{F>(Ig+ozVl$rG1B{OxG)5YoOa3^IyZ*VY_fWE@pOYdB7kb(5)<IQCumS&Xqw
z*rI}}l!=XJq^xiL1R@6At7RN(v4r@q=INuAD+rzwggve`mu8rKS70?lZN`d~Lqmqj
zioWof#KhB$JiPS>z<ir(iYcHQZ5dK5d%xJ-0lvQhZUV#x>iy~VI1AdiwW`gUV{{p1
zJF<rMi8V}|@-bQvT-7{W6uRnQ_Q+F`HMkgri<RByJ>l5QoC=+b$e>b2G|Ce>h({RA
zicm`yDMo_ooLSL4$AH|BJ3#1iGZq(Uwp*Y|PU&lv)3*bRMib8lUu5#k9TUtOa*o(@
zK66dvc_&q~l6W8eUsC^m44IE1T1aGKhKgIb5ER)x*ROIZ4w8hn#THC<y+F<Z=i{)u
zoejmAh03(PNBa2qwI2iSO;*&alW*@bnSYcV_H97VCUQGKn|3hVmQ6sAl?=FrN$3DF
zQ-8yWskk@tGf&9(3G_5mJie}kcqYd7aK1wt-sy)ZiI`u(CwxZr@_A;pC>2MmO-y4^
zqF;Fg`FC0ytuqAmkZ&lxjh~5cblr+Dmt64u+G58>!+1CU@YZZ<Lda|QbfHSr&xSHV
zBdVSga27v0W5q2G#%}9611?|b)~9mA{xZC2p!HAheU)Q7V8b=;JOlM5TdG51m*0T=
zEvByTOOOlFPx?H}$Ci95b|UU^0v<8Ot8$V-q{;OG$&?Zg>tKLL{d42*BNjhC%bGt)
zP3ud|$R~_Ix@?TFpiNy*`2WaAQ*q6E>-mxB`{3f2+0T;MJF!O0Ifs>tu_|*>0)MvX
zrn4*ZSUb8BmK1*R5iI?fzLa_vR>bem89h<^iqSn9>XYxhO&!|jvZI)?$svv2l^?Ga
zIJ|!UM-tz$mS#lNPA656z`nCrHBIL$d+&13DzT)Ef+oJX71i=FK|%<s2=RnxnLyGK
zwFqD&e^s`SwK2e~_W7LhuS(NvzXx1?6Xa*Ytq|FY@`<oa+54$0tT@$mwYgr4xdPMT
z*H<&rb`nhnj&$Hgm3#u*;mPud{_fxVvuUmm+eg>jIL9&TluV2;L4SK0(iI4T;N5l@
zrEkw3#<Q<g(b71VIidKj4z&C`3rMIX<Dp$Gn(Yl>El<eav#;?$KpufO$E+!yP{0_3
zF(3$^>2<lMlJ2z=k!50paiUU8GL<ve03|&0F|~59PcwzmeE)+i@OOdm3@x!fti0_{
z)<Pnq8s5yFr9OZ!(5W@G2INk?#%v*UB?!<GIy|FFddhl^I=~5%(3IpXu<J+%qHX*v
zB|Ky38+hF?>FvJb4fz{_H=HFYy;%0Y1AqTVl_t03Wz*HG6k>x=k<BF_v9!*(4MG8P
z-~Ub)@;M;;MnN_mAR{%Tk^i#1N#2TZ`3iU=*q;e4CqasBmvu_D`=Af+8Ks-}RCOiI
zI7*xY7(QetajZz;SsOW>BH;@X18zLra4|PI2@rj_l5E-6x?!Natu?TBr_1EhdR+V#
z|3a0?B6$@&POq#W?0L62UwOv(gKpQ@7UvQHb;boY*xg^{(ZtE_J-u>9uQ$~aC4Nzu
zK-lE5vca5+l5vM_?I|_dbs1Jee44IsJgO^3&Mb7Xp%1KG_%$dx;G|+AxA!E0`0dJQ
z(pjJKotM0Ne6VW`t<2RpAlI<T2u#viBu}JQTtqvSaT9LPnKCN3X#fp@pl4_3h0gOF
z8t9SR+*<%#fe%w<Sw17&v#cOfbPL6N*r}!y{0tQHuB@$3tIB%rh-FE<84m61J~=MD
zzMhnGQJI?&*Wh$7NRTwCe+aVe;CC%GeRV~AEcCeiK$187GgW$r#y)|fKEj)IrT7j@
zs7EVBN>O#@`hEhnO4HiYw^ig6P0wywGAJ>+S{3<~Cj~y1<qOBEikw#aggr;4W_YuD
z<0NC~a&U2i`Bc}7{(oWIe|s(9Ov?<CtMP(Q#T;e(St^G_$v4dsOjAB{6sX}?a5s#8
zUV0++_Jl`Q>vDqa4exL2S`3*hw{NH@L?+&tDBi5%<^R?dt6aQ4%Fq0*>I1|p4z+?W
z414UBGN1cyJi^`OW;0sh$Dx5H+Bi^*-0(4jt-}Xt=tuVxm9mssFC!uijs>AZ>QW>#
z6fSb)d&1KlAfvOH`0Dvti&fT_b|$srZcIP4Ez{&Q<lKoO-m)76mDxT89P$vKm4h7F
z|3clr<*dQK!ieNNu$JNoUKIb9kC=GLOZkNNBUXWMg$~LS+7)BMs1%Gm#=@Y^Tum$3
zbZE1WSLO$*@~=v4#SsPVVKMRy-Uqmvb|T!0&*fv9-8BqnuHNG`K3b^2E5P5K>pO72
zem;bUEX_wmwV=H&(^8fEJGQI}!oSK8TdV0!n>ZD(J2mYb!CvK(Hd)?Yz{mcvVvK?@
z2#K6gO`a`WnCL}r68B^G-P~PDs56-Mm@I#v-JyX>!IiWuW4pB)!vod5wW?zSsB-Uz
zx1<x-;KIrRNgQM1bAVKJsZ_12G9i|E3bueP&vI)LCZBZUEjcCy!TlmWwVV~`V_C<0
zu~)9IiV=!-+0^dt-ASNcFr>>rTooJSHtE^B%oi5iO%py+b;SgOr1g;QxuUNd1Q^%A
zA7z{*(^s2ho7Fc37$#CVOlX84iQ@>k8mGu$8*>JmbIN^gho4a}^r+)S!3gTdnZxDF
z3CH}?v#9YbZmI)D`%xps!s@A9<p9?Y=f|F30jamt%R}c(8#rr(Y!dx(L4#qT=`Vn*
zSamYQcW0bf`c_%sG=AbT*!!*(AmCHblY5;iJOA0+_kLU7j60!xgDkhqG4(19l2rO8
z8Ac$1D@A^Dj%@Q$s@Ud6F#F6n)yE2Ev3V8Z02i}NwN$pJkz@99JNNBScv~}>h?0@Q
zzqwq0t3{X;xh=O4TndUR!WZHyI%vn8{jM+$Jt-gG=1#(tDk=o^xS6pp-wFCv<YGSh
zC^({)Ug5*3x~-CpX3Z8pcGX75+1Oy`0F#*`j7kh*C~bT+K?OafrEVxxN88X6N?R(#
z;nE&N2ibX`E%Sw-0!nz~FCnrYdg}~OX|44xXqqz;=@d21KXc)y!EJ+6LXQ65kqb#@
zM^B*&$se5PI0a86RMA0f@@G0DTAlF9qVEzp_`d0WdBkDDKNp1DZXKA-)7*(4u@E&~
z_E$O*te?NY71^os9&q{3!`4M`F7%>&N{m3lp=+rb6N^Z9_B)2WrdPePv{Fb?yTqbI
zI$l3rXbs?Rdb1R67k^*7thRRn=8d**qYxbC(M~`$2|OnXutK0h@N_lG@x|6Gbv9+=
z*7D?r^oP#dAIxD>1t!_@H`}<vid}>Qi)X!57$2Ycyu85SI>q3ohsrlh;!r_c<bxcW
zWE*4|yoc?lk@;xPUjmHfOuegIx&o6tOTrTOwT#H8%bYVU;`~*#PVg0@&c^JCPi|Ys
z%knok#jLnDrC_<G8x^lP_uFMe%{GPnu)k_=D+(asnGaXC0NIYFNZ_~_&e#%qM)!v%
z&bOMu_hE0f9hYLhKi@Po(@i-=QHd01XZ5rQ5Y3nC^u)WW+z0tO89L-cZ*J*Y#EQG;
zHH8w}D4+7>H59w5Q087Z<mOenzoS@6xb(%d{O9a@?gpQ$cT6CPM=dR8GiMcl&3<b(
z&Qb8O?Cr{)R00CbvJ*-v^{=+u4nrso)^EcuJwiT@fiJI6oOu@jur?0JcM=HnA4mtN
z22dkm`bE^t5XH9r^DQy%otP$P!KdRHmVxSrF`K1*CHgm#b(<AFN4+q6^z~K|d6lH}
z6}OWvHV)o>HhJk9&ZJ*lu&c_fddWENCuM!NbCY6+keg~OUrO;+a=Y(7W>@Xjc+}et
z%ZrR(w7l7eLQJ(jcFGDl#*)3@#42gwN!7imY)D#dvJ!y5xURtPH}ji{W7mYM%2RG=
zYLT}ca*mpTIj4!jcs`SjF@UhU*?M8RLf*`Wq>SL63ozsvt+c#Y!YWxRrIFXU7P6q#
zaoJ8fU1dE4CHZLRoR72JrF%~VQUJbf9m?EMMa53B&`L_So@xvcRoW%fLX7c8cTuEy
z0UCoM2+?I&cqFz3n(gghM?aW@rRC<^pX8hyd_xd~*Xqir2cZkvX_7E!$xXcH!cJ6v
zh!s5|Xb;qO8bFN}(xOteM%S901SX!Skq-p;4V>|N&mEKdXb3TscwJ<#wz9SEF3321
zMb6IGfqo(^t`+gQ?ncgqTlElIZ6jwO?~e;c-DyoxgvlW_i19GR*#@od_d&_8P0c_a
z9jj`d%v0C+i+E#xbVd%D6^$?Z>X+Ii%+sFs_nUwy1M5(86xbH*vN<6r+1=)nJv7ze
zrz5Q1bzj=SVpGfF5{n5WPKL)T)I8vJdGvwS`BOoRXs`yEtj^O3vQ5KUH?GJzL({>?
zfwJGZ`XwoY*}@ylC!N!YMq%0OcXmRzI2-y@iZ+6ooYfsKT^Tz#JqxJ-M6$TAVy14S
z9GcMm^tX!ntLpOw#>)JR&kqk`A{r75B&Z{(-ToHc|66rrLh0!U*!%Gpm!CP`m_OMa
zEX-z?ws7W7(v883)XP+_4WJ)+4N+kqS#vZBG)oOcIkkTH;yGeI@PA;Bo)}w;{lxz<
zR%2<WPj0iB@*^`{#KkmCNcR}aMd~hi&X&QQ&V~pYk3lKi8xW5E-=u;dK<0aMJ?0kB
zrQn^ws5g$iyGkmKeeKn?_ved)&YG&Dm3ZRhMa$IjOR@EmM(UrQ{?K;$0_iqCFzgu#
zxl41;1!KrzBXfvZyHeGj`AjM+fVxb%1;kaJ4O+fzj(DhWgNxWCf2~@s6c(3O$`<D{
z8zY<*h@>vC2IP6%c_{i<Ux$49XrVuH(o-K92gB3evpohv$weS|lKKSJg$^JPH*Lg2
z<Ej(*!f~j0KUTCz%fUD9g@vi;DKDVr$@+dx#k|1`7`sQ8`FO7vV_%&fdm9z7_73LP
zMnqfsgzj8h*Y6ifQ`4qA!GcV`kD4TxLQf<mFi-Kx^;`hvlfWNoA}8^#!}H5x;%xj4
z8Z!b^k+Jpi4Pq6SpD}5Pdc$Y;V=m$pBaum%`apmp8v5XjA-ZRixqYJuxl9V{Wbtd)
zZb>*dy#ym*U><X;M-sz=lhoX(OSCCA-vB})Rm~s2V#yM!raw)dYkgu9OGW=3HY_@@
zfr7b?Z?fp>nA@nNdNAal04hM!P*tjK3P$pwBW{@u$@{MX#^w6qZWmjvlz>PE7}#aA
z{1e6oJRr3&-2bVeKxBayKDA-in7<#gC@hqo{gZytSLRUoaK`uOO=RU^Z1|99bCi{S
zOFbq$2FtjNvTLCl2Pfa3WdNd>)`ytY$dQ+v61bJnFhveaUzwNYxF~!^oT1Qe5H<g}
z{`sEFlS#vOqkkV?&9Fj}GIM)s*xapcV$EX#3y#Z)TRr?NcK=$xtJ@F)ccPFBri3gN
zz~nLqvNUMxBl(bIm#EZU5|5Y|<J)x{p)oNifHK?-M?H*5IGtX!o&z)}SLCMB36fXR
zU-B?eW7CDMlHWT9;pMi^f!g}@uwnlr%}0P8c*}K&9H;N^1}JYQ^WsDo668|2HB5c;
z@UJ-32E&#q484&*9(ZrpdlBxwcP&{#v5W+*=UX%e-)P(T{`Ku!zocR5mi?IF5-=QB
z+e*H~!>9;48^0wKc>s+9O_L`!;KYLN-P2cKJ{87A+N;gdS0Sbz)e^(wg&%$RBgP3S
z!tk|pw$?xmp&x7YU-jqM?4yr^-uTbo&Y3R4>wE?BWA6-AEsd-j1coSZI6;RUfYNzh
z;wsnoCO<V4#~qqTDGF&C-V#9K<hYQl8e;MxR&5Ws8=O*M`*%Zv@*_$J^ZE&zS}jSm
z22PheyZ4~y$)BiF<Sq<N|G$c#bYGn&M>ApM1<Dj1k4peY#x-1vZ+dzz6IiF*?JPB1
z(Umt<-PY~IXb+tOeVrv^M-s39jwN@dTTzf&LF@>QKl*0|-_2E798X&uN|*VQ43Sb0
z0#h=ire&7k6T;x&smQm-EYAa#x)3=Em=G39MaARdmToG>JMy1s?7Rm9A{??S*=$%|
zM?`2504yWJKq)NT`1LMOI%Y(idBU81kqD&Kn4S|A&ASg-`}ol})IgZmoA90IWx*HP
zFR&lVf)vE%FSRdN(XlVNm#5oM4{yK7`2ftvhDo9KKr%Jbxb({Q)ivWsH?&gQLYrAJ
z28!_drq78Hlc7M&pQZai^ijkm*Vi)@Er;*!wnQDj5l;aS3Yf_04NDSI*z$T#CZjak
z*`90bm-*V9;I(DEIU&gA8@o6W6Vrj)4DWfQsY!G)9;0vwwHVoXle~6zV+bUM*8*lz
z+!438S<*`-KdJUliZY`sSh@(1q#IW>2<cGZHLvk{PNu76^?Nd4(9E`H_{+bufZHr$
zuB;`T*mOb6O1L36;oTDkNG`J=jEOcsz=c^?y){{nUr3VS6C|z1@9@hbN4@~xpw4eR
zJ5MF@ZFE>8JT<%GV_0Xc)Cz7nIxh4n!#z~}rwSPkn!5L-E{}1P|J6nPUr-t>n6ogv
z6*N}__a*vx=jt*rf9qx7Ti0&%HU|@hQd`lXJXR77a(^(HY@Z$2Ks*6d2OF>K_3aXy
zd#B9W-o^5n$WKRX8OLNnmGUvEI{R>(W#PkY)Ct#Nm@7XtH`!8&l?dj0aY$D<q75;0
z|6&3<SxDgqtbf*=hg<F9C<ATo6If5Tax!MC`)eP$NRO;o(mBiMzG`(LxC5N@j1Okt
zh0Js$etdpK+-<+~iThywZ3bP%0(?q8w{Mex?$zWQ`ov~>zHtRW3hqwhF99#`1E4=G
zfmFfjx}FYtMAVNz<_vEIvZMCU=9JQx%irbEFc-Xk#?TiHJP%;`J@#SqcQIc^5_SDg
z7SG-V6#UN}*;Jmi6RyjOYa%Y8r8%-L@kvEg-09uG2PvjV9Agyp>u1=7mY|h;tVwCE
zy_tv}*YSZ%i)x)p@#6|?`G<k3$1fR@A&Mh!^3FvqKPxd5iNg-LRmU<ch#g{UctFah
z@3zD#Z{Q+m8f-s|V#|?pyFGu`WL&6=g3R{RtSXrmqsoTq;MhDs(RHq7Ood$rlK)PN
zbOZ>Y19o*e&Lqc@eaUWhrKnjy%~VV1<P#yhhyo-Cs*2Olx2B`hK?vT+ZP^ta@18P`
ztWq|J6w6sJXHc6#A=c+3<UaSTB}N?NcJG<kI;894cWk7(J^#m6SZ9UQC0&N1`B|Pt
z&PM%XWdtKXyq6CMhkk%g2AOIK8~I{a0-Pf+Hfn>7X1C;V-m%&6`wxKEo1$X`R+J*y
zu?)N_L%@p31Gs?11vND)hg?F}VbsvFl{)YN=G8ZWqW3l16Hy(APci~==L8*mb5R5>
zvS-u~QC3hiVbevmm9X=59N2L|%of{%4Ecb2?gR{3F0gN{DdM!zy!k1At&k229kz3b
zW;Q}&BB-1*#Y`80Z<00|@^eUsk>)NFuqu2AEUCT?FF`pc_kjyk_g!hGb+R2$g_@HX
zth#5$@oe_BbBfAw>dpr#j6H%)ATm(!9QYKPSmeT`4lO~ynGRAm%Lf2bd4O97`om?t
zUmiH%#3;T7i5`igWmYa>Uxph?ZsM}Gh$$ED+0=MAH9fd<L-!EaGQT>Ek<%9KM#f?L
z>wxCy^ra$PuG>?rEL(|0>jC7_{izN3+-q<#S>0$8$}!>yV5|S7H5b!I1f=n-saQBJ
zeKF?>{s8M$_e{$D-b6I`Y-NhKbg2fEGe&2@{0)(sQJ#=2i6So1d8!lM3)xX~+Rp<c
z%Od#vV|D?+TnF?nS1u*=WB-<!pLhM(c7tUNW7btpEzBx1&1M7%rnm^SY~lRqbou`A
z4viy+OqL)CU*g@ZIvS`Gq*&Jc^8Vf!tp;Rc-cZ}OowXo%r`1=CP2S(^f9vHxXodrF
z+U`vag0k!?*sMvFyr*~&J^Gf9vgSR`sq!!kk117BnAB`PI^sl<(>%89fPa$V6c*W5
zC)z(f&+7HT1|9+zLZuO&Ni4{cZ$KdMG5Ak`mrjMOUn}-yqWCC;$e_<HUf%90AqC8m
z%hEvez?{^^=4eKr^(#$!VS2(37@N@QX=r;CQ0mv9iQ41{S~oWv?*y8P%lkg>!lOsP
zDCZ>9TzOLWNrmGfX=Zx|Xx6f<#)FXOvB>xv7Fb`v;gNLaYqEwM0b0iE9gsshc}Mm(
zI8AJ(=h3tD+RROuPS*n#EMbS3z|Yh)4U~3$D)!?u0l*3qT5SmmUs(6ZWzHV=@jBN0
zAC8T{>F<7t3^34R$ymYfSK(?w#x=PX;~I7!7Y>~FOn^qO_GCc8FhCRFbsu>YeRzn(
z-mgcTgy~{qZgM|5o5zJFjbw5nINNXy!|R|M79H7Wll`!!RYpN03D^_i_XNR{Z5z!A
zJwy4{1{R8I3wy#54hI24IyZM$%_LC2F0*7}eh9rI{DSk*&AXg@;P+1;iz4*r6`Z@}
zBs&tdThCDE{!cZBGXinu?1PC7U9(Y|ayQ>K|Ced>r^Eo%KGNUBF6t9%$LwEC8PnLf
z2=)kdJVcI`x!Rq5x+8C<w1_MI72v=LVJ1gtU2b<}6p56faa|T>^F~w>aG0|(z4w4U
zy|y-45eHP_=WHXfcZ93OVL$(*a71VsNgklfnjVI-Xb+);a>Fw#^8|X-+XifG8_-VV
zh`u=~HomTPUfp8=Rcu?_73X&?3tszTCG4F(g{tv)yH2xR3semnH#tUbcPE~z8xR(J
z5gA%cVR6rK3-TiX8Hyc(R_CNVFbD#tekq^|j&7W`sgnp3y4-u07y&`h2Em%A-I>kc
zx{7M6kJaJ)W@)E>Nb1`lAGA_rE83`k1&y_>b!?B4#}HC|!Z<!baU_h2F_gq$$JU6j
zw}mmzJRWNOv`s2MuzcKRY0|O-5N4|luvB&}d0gcu#UG|-b;soX@nZ#aNZir&NgJUx
z9mFG}=XXwN`G>v;3t%EPGHM{90u!D7Vdh^-QY#UEW(!&<d?5X1@vFwV2ipxIR7|>d
zh0-l_tYhJTtHo0+?KU2dFeJd%*Z&HH{=6+57Zm-L-vhs;B}4u#yHM7VSD2-ho6XX^
z{o#2qUWrf{G<l?9JiSa86y-gT1>`AWvmHst;Eoq^SfShgxm%Juti{%riczv~@>OD^
z?-Dbk#}H?3_418yRN`@z(FkPDswFj4NjMO?ehd&FX6z}K1j?3x{es#)cXbjX#0QCB
z2R0t(N%6m--m%ou=@BRtId%yUM?~SisCyIDZnRk32yk)f8_8)W;v%U9%c$~7i+yvr
zoTh5mObT_EC9_OyUrBOcIUmTm2{zu84!yMkMD#WlL^*Do<{9IsfG?6&!HDr;Jt)No
zKYF5{BA9+|M{u9F540TR*Z$aMf`$P3{iz?Xw#pC{rLs0$g5lRXg#gT|BM-=A5xSh<
zSr?YsB?qffHu`Hz!}zA1KREdMJ?8LN2Cj5S!rBp0^6SLjkd#BjqvJ$%JH^$_pU)h|
zzt~L}h5PQ0&nLan%_;nir*&(}vuQ~CrFruzM6`45)>oob=lMQ<Y5OKL%I~&~Ux|lb
zNJz*S;GCPEU<vW`3pw@u`#^LH@mjCzwY^}{j~{%R)#vQ(?K6G9>1X=d%iK?-#Nq>A
z=l&lOAp{({Fi)7H26Ri%8vja`JU<O_Q7V=508hS5$yT$wn)rd=AVyu`<r3i-&nh63
z+*E6;Hd<~pamGF(G<vp+zVTtFb*{R?)HCKgTds+6A*UEw2B538o@+mYo=#@GRW=B+
z`)vB&!f}k}<z&YAm4&p3vU#;HAG!*h#1?9!`huFpDjb4#90$o5$j*2%CH*uqIinNr
zmW(36YCK2c2~O|1oaou5e;y-#le&(2!E_)Exa)cb6z(x0GTuuK{`2R-HO5p6BrGRb
zPC0(I7=Fo1b8U94!eML&36v3Unkrm>{@fPUhChpV`s3PhoV!N)K>s@h?{QRUFLNIu
z<2w+TJSFL0L0Qo$c)x^SGpfwz{)vi&Yh7Ao@>#Ev!PC;FBez$Et7*<2vknfY0`C}V
zXa>CCsel2xBfl}|1HX-yP$-nm%Y{y26egJ3f&E-#!N7D|HAb?j!RW`yiyiH}-EIBF
zwOazG{0#=K+Pu+PqFAQd4e@wstH!WfJQcaNL3M<uZJ5a>+L9~O9p0jZ7{O+LIbKNX
z`(GnQs<O)j@st{IWZ!gTq+>8OY&8Oe0}jZ1sL3e#CYJIet%S$gXJ)U+8Iq}uHWm5q
z&neaC%;WOi4>s}TLA&?7#!S6rS3PEHgX3y{H3kfjM^=uusBbz7JcqzBE~8p0Me*Zh
zxo+TwcH}3ogL&;A(Jptkx7b&*fvpz`jC<EIB3|~U3&gss5(-BJ4N}Wq1^)gOX*bP&
z1}IXV04_*Qa3p9ki~U1reSyLXa6k(rZR)ZW<bf^DZGO!bPfprD#|fI9JoKP@>y^;1
z7MhHxMcX5!<QyCH9zm8m08PI*iKubu-&k1lT<dK8^W4rXoOcZBA2hlbFAN2oE89^+
zuez@IBZ_azH<r+xLhuL}ngqK2H!*FXf~f7i3pg&X>bLm&{3dUal}}BpxD)*fAHF;n
zl|Di^_uh`WO(+;7Y2y3fWKQq<8@Yb59TW`rF|dUsAl7A}K-r)x?a)&5Wo7TjSLV9R
zk1U1yDa*T(LbY|aye^GKA4FhRoTu4GKxh5LZ?+3j_w?>jnu}<kS_W`<m9YbcPBmho
zq7tA)`|o2@lZRS#-S@(+RWbS}>3gG+o78tKyAu$EazF?`;S5khFI)Q_*0ws&u<z0O
z=KZW4^}Y9(D)8S}ZWoDJu)VpUzgo4Br2>Xjq-7Do0_nFRsC>UMwRg(wJ)3O&x$D!x
z*U{11Oyr|I*BfMR75Qyif+vAL1H(L~8nhr;i-O(7)Kghu-z;}F3c!SU62PeaO_Q{n
zpnkF;@{4C=)H(rsZ+l6}qReu6v<CQ~jHL*f73#ieDv?vF@2IQU24A2QOhc^ix%~Ma
zCPCtb<Hj#8OC97B>>a8KRa^#R8N>a5nGS5^4Rx`V*OJQO5l*R{+@jGR6dC@!vrtv?
zNzK2N-w$1~Euqi>)|(0Pk!3VEIg>Nw<@yAW0Bnwq&wT$5kuY>i3!U#<{_7}Xt#{1t
zwVKkVliH_KBG=Jp&Ui5@p4lzB7Ejj~a~q$pezR07mg?;FkEg<cRQBTggTP4UYA&KL
zQ*@4oy3C*Wl29HjF!wZn8+9y^UvW>`0UQBAg^c_fi-*-W_k8R$Z0fwh+2O_{YErhc
z2?XbXVGi#*k~y<TJaVgQ*D5*zU`~9mMwA&y(nsY1)mJu%`(no%@_|3Eil7f&PxfX!
zM;}KiQu2BORY`hN=#%8$eUvav8I`kK`R~zwr_K8dR%He4{(nFJ-=7?G$O43&A8B1`
zr(O#E&N^?+)sasldM&edDBMESUl`9vebl3!O5nO|=hZ!Sck}VCZ0XJg1@Q|STn%3t
z_!@0Be;d+dMj8iE$@_|R%KkeG2wXg5`4~|4$(Q$;ch32bp|-Ry#*Dn8%{>}j$sSy4
z{6)pqH@1b}p0fLnDC83HD4VL3LBT!X0kAMw#LxW<`=(HYHwCa_Wd}uKBFR2hJ$xHh
z7ZrM;ecz^Cr)Zr2=Z)}*Tjy5!OTZq-AHm1L*t`H}`Cb-&pK4?-KRVSEu)rW`SxI*8
z!ak^9Bs?9A@HcbEe*mfHZL3En-8e+-Jt@2MpzM7@;=R;Kok)dX)2RgKfVJ`>==Y(f
z*MT`5EVUe+lZ=^yMMR}m+vKrEl0nq?CzeIjR=~<`i;+~9`ZJsYm)Zju;V|t8Q~QCa
z5%c<@*Sy5vij>q_IOt=J24Hbg&~<O|RE{mjYP$J#-R%cTW^7h3AmOQTnG8%O+OJxK
z8mO*}EkhW(Vhrl}hrd5n_2?x~o_%%f`fwtM>iENt5NnMHMBaGRo$2N<_T=W-;%0iR
zDZl22)LS;C4of~Cw@OmazL>qtWl^iy9C0`-WEbhbC!6wI9;ZLbV|aW%=<1-E0aw@8
z%HU>-2Wwk9^|{8(*T#HuSSM{45#XHCYR`F?)7|qemIji}3Ve*u0XDvQ{fbKX_NlPL
zM~hSLz+!uQov33P(z^2H%u&v(9mVA!3If9|6KLp1`&+0xr_79wUV*lSBnc;m+kjB}
zq;7fR17H?6mZ`xR4eTD@L;=%!oBMk^Mh$2p%(V&RJ5aA&94<Pi!zt(bxWR9h%1g7s
z53EaA9t>lNId|3TNdh}>Iy1`RRq?;e7Mq?%_MHM`&X0T7WV^Sjca|l)VUc)J+SA`7
znGg)!{XVs_tIz=XYJi_!_zX7lGkY8=cm3FG3l>2Sfe($EI_Rh;1s2_k{5G_Ekh8RY
zNKx~nqPfOvL*a{@JB6{QM(UeyUOMi3`J1&wzvw9p{>4IthyPYpO(-Ga&CP?<r?=c0
zA2GpP*|6Nq_fu^j|4y~PWP@r{GSDjjxlep@I$)c6>?`<xpXYx*e|pT-V1+uN<^1IU
z_x3s;XJkLVJxg`MeWEpibacQV>f`mk{9)}?Ez!R<-Y`F>P<t+bLpsVbXx#x3t)vCy
z1p{YGk2L~xTPZ4mizr4uwV|aNj}I}R8Y{{=uofXz9#X(*Dx0K&%kqo=^RM*rAqae<
zIF9m~5E;VB?2!gkTIJe&i|}mAUn}Sa2FN5gI!)#k?&gWX+H8S#x&QxUFa@DL3K};z
z#8wiE8|d}%82rRlUk}|K$oAOye7v01`eCOR*H;hW)~$!OT?YgM!bpkf>5TP{<;*^7
z{aH6nJ&f`M0<SOljRZS)rMaEni-XU-3o^e-{rVZ{$;=Uv-2ShyGT&>`dO3{VW!FLq
zlNI6j`wzS1#*k<L*yR;~9`*y+uz_->?lA$}mrT<>S=>Y>zMCKYW#Ohi@aM2kmvPb#
zO6mbB@d-+Oph$cMF2~@d@K=|>_>XQXt6uS>U@Qae-+MWN0^&8;zN+_LF_nMsA3I5c
zHd3bA8oiS=;YKR>{*ik9vy=q50J6PDXr`WcFTn5txlU-}!k&y}A5IAv<6WNZ<^2Xd
znUGvreE|`=v9Fv`s&VlolgV|thdvHXOP7uw%7$LxwtxBdQ$Vrz%59dD@dv4w9@1a!
zOdJuFm#+;TeiZoq>qxO%D$MT&Rfc65#rJ#JjNfY}60eU^dFbD%D(>_Ds!Q@9h);EB
z41SLcFd}5{0>VKcYj)`_Cj(p$p|POxduHY=puP@r{vv(v`bapmQg053_eoJ9SPv#*
zK0lBgp>~?=1pMcEF4uUN*(rvsju-R={JTCB5vA6(&po@fF1biwFCMB)N34^PPeO$V
zsxV8T7aO)oKX`P$i~YN={%kJ{A4IKh`Q)R3Yf#+a$)DU@h=$O09;cP})QU0HFCNVH
z@O}=&?Mi+1EX@|QIsMLDjQ`52ZOZkX3IoqA*P$h~=xw9>d!PCf_V^cv-bB`f?S_Z%
zeS2BK5Ig-g(v+Ditx#O_*Q;dW_q(cr;e+R_HE+lp`>JPr+soB!Wb-X~Au2u6&B!kq
zo+?Z*^F5#Bx4l0gq*LqqAk#d7a_X7KlgxOz5Sp0??)&d*U%Fn8vgr2Q-t46vsZJLT
z<Tj&^V}IdLRDa`w+&K|p>^ql(Wc<dgzW!$O%{>kF@WnkqBz<$wb>?BY%pErrPey|G
z$_mWt{??z9C619l9|Roh*wp(xrQ_UYJmOMm_&WCDs%hV0gl)Z#-4sW;ee-#KO_e>z
zvNIi=`bZKX9$ZZ*J+dF=*Rm>%E}0XF{D1eCD#F9&b@elmZwBwbpDBJP;Yxaaq|#~<
zOE&T6H~3qy9{X@xkB7zw9OTid_UE6hFkGph&fQ-*RdP;ufbQmOa_yVz8HM_VzjETu
zCzSJ^g+F?8xpLQZ?)O&O$3TCt=kkv=p7!2Nt-k;6+~@OiL!Y)j_2alGmg*VIJv(uo
zHGw_+Eh=<h6nus3RD<-!etW(Y8S3bIvRL6KzPR{JrzWIR>hQ@|The8ca^QAq>TQ&1
ziLWWu&V2C29|^;+OV=jL@0@k<cU9+#x_&X{bl}-2wc}Ny`Io~Z{j}YaN?ZZlpfn`j
zs{cuss<ZZ4;p^LI)A40<pHCx62i4T_>8Iy3ZjGw-2*GCdW&Lg=-zlxBk=te=V3IIl
z)BIde1#0oC27jdI+$8zofXgD#-(dhad?lQ|T<XZF?dB$X+K8iG-Nfn(5&F;a#JD3I
zGatHdeETQrXFUiy6#aX9iDr+nXr8S4p~UR}mmvpUDZvXSbMF0EYWB^eqn{rFE>MI>
ze=X?imbTjbZZxSDZMT4>y>VsDD#<zem^JeaW{3OtW>{(G_U?AyP#24|UxeN3ifj4m
z`!i+kdzov{LDv?Ad!l>!L+{Kk@GkE@ZD%hv-H@t@-m!07$@>x%!%%iG_Lwo#dJVfH
zW@Ontx=$A$gFJP){*;^KZftAYSMy(j8$bFUJ0=i*{(7Y%`GCDpoGw0j;$ppiu<X_h
z3*GEDk*Q=n7_1uGz_=C4o=x&<r_Z}K0*8Stz1+X01{y++5Y&APfSMs7wfeY*BIaEK
z!)+F6do^~;JwE2BsHn5R=$i|8WdQM2Vmuw^jC$T|J}4kDV@Ss}yB;r<#hbi-Hferu
zGkYnJoHft9zq5AV;04CLe-A`3VAbpwiQe$Wzy+y#WB<?GR39G+t8|mr!moa=b$#W(
zJ;nH}xhP?h-dC5*Ro?w*XZ;(+o2bLnP8a&{-nmD6$tIN3ANzYWRGz}~!vc>A22;?3
z)x0KqVJ7$gA5~u+RAtxhEg@_K1Vll)LqepxySq!eK?&(@N$KwH?nY^(y9J~qq?>Q;
z=Y8IDzVjE%ILzSYzSp|0U*b6K4Fn1t7->&GZ#Tm`uX#Nz*Db3w#iiQpj@rXnwq5^r
z^><wz?Jp3q(A*O~Y~2)C#0H48QUYT;OSNny#pgh>%R&%E6>3?j-^q4P0-9zJG|jP+
zFvPb5TgJoDqS7%SypSf_JWy#;zy%7Fpc!2x7b(bSpHK4C0I-I>P5;x$3`YAO=&-91
z<Jn+WJlXa29%lOoSN6{)c-FLzWL0}zFeU6RA0o8sLOyjo$HuK(ZOhi}kDQ3UIkUL0
zF*)DZ6p#9{y|~iK^7+S$7MIN+@ulrPXmUS#h6&Co&l>D&4tRdpWw`%);fi(fLfTvn
zbW+jED9}UuX7R+@zkbOfiNAZ*Q0MV*A3thY_$6~Z{z)VMSs*Hr92K$+j#(9&TsU8w
zyF53Rb@gK4uKtg#5q=Xgm)@{U7T@C4Hp0${R`z3=VU~?f@1y*FXF>~2)}I>G$TI}X
z)Ed0S#RN##-5MJhABe3&8%CEz?DRY9w+Lj@*1Y>BXb5MVkrhW58!}Dv-bO{THQ^!$
z9%k^CI#U!0qVsvU(C=MdgC{bG&G37OL3E%gjQ2KPN)#XXfdBWw@Ewon0+H(yl&BhH
z*c@T6C4^b;E^-~~t(3R*+IM#YyE@Mu8tBCj2vk-V+(y$R-?(4qm7(Irc*jzzRH@R^
z%rrCCXL5XNAmEcZ=J)tCO?Q9@2kS1EmPHRDis$pCRdW&wTYb*p$(vc~Efqn5fyL=i
zJj<^re)H8JRKkOyJ~+hP{@<e(^M21&ie&Lp^3Gu%PBjplNW=sLx}LnB$Z9ziT=Kix
z#TB-pq22$p_d*W{Oh{L()}X10XHF&I0Xe&|!1{J=B7){ezx1$%30H%#9;?EN@tzI`
z8#V6wv!)9C?_}x3uTAyZt7MPP*d*j=`cD>m3xjMu(|_UNHaWdUU1dzcjkFc3N0=_u
zD@9bC+XjUiW!?U3vuo_Q*5<G-JKF3Q4D_XapD};ra{1#aH9=NItw;2RGAFmB3NID!
zTpxb15@<E*4|Cy%d8-#$_aXc8H2G<VSSGnJ;wj*n)Qrpgtcecp0(+(`;`U%UJ1B^8
zgP;i6wNm474Z!~AQS(Lj?E-TIFktBJe<=p~rb0Bi7^1Z2aEIlZwLy;xSU<s0eO!i9
z0ZqLjfxsl^{m$g$ZC*@W%-HNlA}8%?I6k+qWVXeR>Bc?ccNHR_l*@a;>o%U|bg<i%
z%zQ5JZN=@x=RLq<sNU=5<S#WSt_b=UDOKv73pINoS_OmU6vO4_cZ8@}v;7}B95ix5
zUUxCoyK_ZJdwU0GLO0u`P+_wRqG8l@{>&k#gT7Ui(5L6vuuYjsqm3GOP3%p#gNOf&
zuj`}#r~S375#8lxE3lWq%j51__RsFlt8c8ZuLij713@JWU6_#WD$XB&%setYv=lb|
zTsz&bI1B~Zf0k52i!RE3zNQtl)?MhXf7(AaL?CBaNY(0{7?o*Uczy6(d~s|nipIIp
z!hCVzP;pL9%cN@C1~w6M2Be@Eaf#Iq;wXz^1wr7CR@<$(B6lZpQ-@YaJg$E3?lb1u
z3S+;%&#UxMRX)v0r`h`N?XL_i{E%pm3%m#M?n;1yLmK0Gj*LZajS4MwSS+A>8*FO$
zx{nXQ2~x3?s52mmol-tShD<Cx3-}q6f9<^_kpR&)s<{9gPy`aOVnEnC{vN?`X88e~
zIJ(5q-!hwqXBRe47P1fc(Qtg(i}?v3@{u@TFMx1_$K^KeE6r5_#ZdcThACPmw>aGI
z#mBERgxqDDdhn}lo>msmcIK@}?B0D6{?*s+u9EHU9RJ7MlutH>+|;mfpeGpFtO|M3
zBx-L8)gDU&eLa91!{u_MM4i=&=(?qr+dB0>Z+~FU(D{F{fd9kTJCl9dJ9+Nrct^6r
z;U4j_l3(DUurhnQ7i(hZo3#1pcYce_k<Pu$_*SGPK1)x@>y<_=C2R(~TSQ$h!{y}l
z_^o<+(FT>*e1`D4E8|I=SH~7^_E*(k7dlHXi(KID_{ACWJE<yjMr-F{|AfA8`s8+Y
zih6iwRaxQcqBN|Zi%v0?rbLC!Ok6edM_>N+1Q_P`2HUB)k`uti)taEP$yDxDAY##;
zIGseiH>XmkC|O^*i1t`;bnh%Z98@&FEy8LAp9n6WK<agu4-FVio_7t!LTxU8Wwwvd
z4HdQOKreUFhxh#3KPZJ{QmABwN3yqkp;s&(MiW@?oOZ_rDR@VdnS)>Ab3pgFEHF?`
z08D2WY%q0>drHt^Bj9fg1+e?Q6)F3dHL?OCUN;e7v&;t<7VcuJ!%n2&@Aoim&45fB
zGkgS3oC*Mgw5kmQMf;Ed6%MHqwG-?5)Ba}FPG@C@S-s+|j9%@jVwB*-55K5PzT%8&
zLLSD<w(8ks(1N5*YuKDf`e_F4YCd&{Sw6W!SCzrT^uz0+lz6GzyVN($q6v3*$Fhg-
z*Q)&!<|Rj1Si6M8fZig5kHVW4-n`a5x_0yv@Bdz6CkXIOX#bg)`QZ7y?j>rlE5SgY
zn<2_Ix&GDD-1Ke`x;xgH93d>SSfxuPz*<=9MXgDkUvBC1p*>7z1-$cNAJb(Y*sgyR
zDaOQc6lz&NJZL<>y`f$C(8w?^w1Qk;s929Mb-ZF);sWO$4JY_YhtZHx){-ko?wGT<
z6dONzb18B+<+)^ef96B6J$tS=V|q@EWGXi=#c-UCr00$IhR^CSpVX0VvoJPVhVbMo
zdzzgTip~5`(u;6!<o<@;zcqyiJ6D<2;`AC$JbjBBHvIk<9PVv@3x@*IG;=|KWPI{G
zeU1E(P`EjVpdY+p!W0ao>kLguVD=TG<|yoQs<t;UN7!WO;Sir_HL!GP)fk8BwsUw~
ze?Wcvq3iuhbdDn+GUC4@!e%Zc0meb*=%wa-m4WQ&ubcC-I@P3NQYdUqEJE@Dj5WP3
zi)zJ&(al1i?th8;C%Z=x;TdP3(=FG9HsEs^o733!g{$OBVBk(SfzMzrl51{S{)NGT
zeDpHP8_jiAh(`=~Ilg^fLXo79STJMIS0dPM?h8Lp(r`V_n5`xo-CvCF(QJM~DE>?v
z|1g!G%k|@Ha)M#$(y$s|0dqO@Z><WU9_uwdqpx5hDgo&!;5Yj}Z!<RO$<Zix{4QKg
zl%~tgIR$jqjkMvEIZ<&s-q*baPzbX7x_bfPs)s-=w|wq5Rz#&a51V4uJ~2nf+Rqt-
z8Q);^Wyin~3-&b;UUf9`=vfxd2ABJz;AySdSHVbyg^eQNxPwYqN|+poh4m={!lmcA
zFF8|{TmQ%oS|h8t_dV@foN%jjC8QbZKMZeU)%q6HCQfn>w0OvL<~~RHqko1*DlHL9
zOYq}s<r>?x(ynMIHDiuKOWWFko3Tx*O1jbqV}KUn<*8kG5Bj|`i<u3f2QZ6MAO755
z1Nf1)K606)Xyb%h?%->sWFG9p{%{=S5&QqZGT@{5^a94?9l#2SOF0eK!6fM@vQp>-
zkXlK=Mkw+QC!^*mWDBX(<gEr)CufuzgSlL-(U`S%4&<=MWa5mRYxF^94xd~|+tW$+
z^peV_=#KH<uVe4V`#_D3-dG09^_+h3Z+U*jVx8t9&70FYuPurAwgg^TT-=$Q=Yfip
zs00N32ktLncv3^kS3K`EMp}4QT!&tBd9PfnIs|PE?p2Zq7imP|zqgwr^!LPL$)emI
zN-l}4Kih<zf-atEqU(FgmZfQl_D&<2qyzT<K~?_0N$3c??|0yRaB3)-n{j{K#c>*)
z3*x$Ntit8mwv~)c38#$q?_+%{=qddrUo9E8SR@+?sy$dax7+IYf@;<6C6>kml$15A
zhIfNVFFz74H_5Y)=@+WUG*$ozZSuqtZnrDNd#^J$5pvVD$V?mcsERTK2Glpj`pXL8
zHfUC;Me>`GvW1_;3#WWW$*2Wu0ub7(HhOT3J7})Y6(7&XIbs~{exm;rjHawiZ!vWH
z6J8%4b1jLf;F}^!E$lneCxj;T$<~0*Fg7{N6dODrM&9LAY02L%fBxakuZ^V<*V0{0
zW!^hA9(O{^c#*m6WL+_aU9mt&QnDAlB~v6y+#XMlw){LqCLxSK+k3)Zy|u%9&e}>Z
zgXQ7}*`Oy>PApGc1#r(r(4m!G+~#_w1YA$%pm2)CVv>A+xw*C=x37s|5P8s25OU{w
z`3GmFSUGqk!~-}@3xHZ0+O$EP7OYPV78e;1D8-uP35r&rx);Hp(4h^|3`w$S{vBz<
zU+((p1zul%<;E9+BF{qk*fs*=#>M(~Gf$6ZTKp0A?Fg<mnoo}^jNV?#1Xylpuoz?_
z<4(UHH~U-KXqi*d2=iDe^=16>*gDPRzrLYQp-pud0H(9_IJ0Vei-_2$dD!#G(bSg<
zMkZoiZy?vSbIQz>mZn#v>UI54Yd`Tk#`??u9guwz$v$n4uoe#T5x+RpYw-slv&`{Y
z$JOaKuf5f<{;^{3y`z6HRp%SITeBbUr8k0|k7sO1xo;b@R)26!Wo5c!PI`WI&W<Nb
zM2A>ozf5yTN<)Y;*9?2evfY{Y@^Z#?`pERp&>UqY__-s(%0geRYfm<*>bAKSx@rG{
zIfE<(*=BZ1s&7BexVN-5n#mpV$PshDq@Ih_GPRaCiDoOg{J40&v<83dW&adq%S9aq
zJ8DEb$`gNv8REU7eyJYn-L8g~Bc)ra93X)KTYfATIMo_?Fk*x^))e|{&)C=GlWi#1
z@oL+fTFcvF`=3RjKAA3(zYz1%!cLq&Z7w@8k^NY(`nx@q_{G&!CZ0K>dn?)d{5!Y5
zAKHs^?`>OLfmAk|W#i=0MWJ<YU7tU;@7Tr6F4C!uc;LO%HhQM{LOUNCScP6CI|e!v
z^FJqRcL_CXyrNa3V;r`CfvJ_8%4)HCJ>u{mtP=DhhnRvW7RGSIs{$|zVhkvNpUwk?
z3dL9DVCpa3ss{mc&;~A^ea-1{Ni-yZac=L&w(NQ!&l%VEeh~f1gZ4I@lSCqehqGL-
zJq4%|jfx_S5PMRxeV&7B8~qo0*IfV)wKuz`g2VXGY>z>&%NDB+`v_QV_f7{?Xm#FV
z1cOwyxDX7dT$jiF`1i*pBg5==MVniL2o7r$Qh731SHxq{(<q|{@CLmB*#@$y`^H+P
zU?bLwF%s*_g`CJ?5(cK?{mYvCyC<I5!vjh~yz%`qIr<lYB(Cc#KCafQ*S_$l0K03v
z;<FE@7PN&U{85qKfosfti3_1IJzn!1XLY){-YI`|tluf#TXI>*iuuHX{z;+1VwS7L
z{+|C-d9~gNq0D%lv3w)xH_NACi5W7jhi|gf-Vs9ZOfj4A#S9UD?v0QSuZ?IQYV8{r
z=NKqNpisVeBjH!l#Jr8}7Y(1ia&%o_gdbODTEBdY*ph4Wd`Q5$$P|xFi6n_8u+zW4
zXCw%bPkgDL6`z|h87<|x2adaz5-+dIQ8KS9VM|NScHW3<GuVskT7K1I-QfG-o$P>j
zog~TEg;rg?$-Q`J`&#!M0$94M86yDJbh5P5Yn$Ev)_oJEf&BMzher|hz|WyYrm*{s
zn{t%U;a=Z@Rmy_ECMI`eaX)^5h>K-FdKV3a%niNhS6s=$AO{gD2n^2MPit;OOEGJZ
zsWER6IfE~<4*ZBLAXyEn6#|oHBvAHoOMN4KZZet@Ka|KI5AyhPfVMr6&trTo9N(H!
z;evf=t3Fu?q$iDhFQ@@zWXY-qP_C6kS^&9NfDeNlw8RoLj!{L=%g`c1fcJnf`WC-h
zync-1gyCN}?hNt=<cwG7&2;)eTfD$CYGTO(U?&<^o8+1gU|bbdPLC#EZgZ`5>rCi}
zk68qK{<|j0P2y5e-7R;NkphGfZMea=L<ryn41{diV=5k&Id+a`p&lDV#h5!EZ1jfE
zWiLnZE6HFo#9}>{yM7I;NG3XYarMJ$6Fyz8dvN3zy*6-!QMD`%Vp8Va4Cx5}*`07Y
zT^}J=zJ-tSwI^CvJ^byDSd(-X?&FRD)}j%}MADSdC%aAS|3NUSe4k<eqaR&2fIgzq
zOW4+mjVt&X9feY>NplWZqx&53eeAf!F#=rM7Wr-o_GWV(vhg90iSH$&Qzeo}4Wez}
zO}liHy7BPaxDDKu(cx__Hm9g^j%x~YDwREq6k-Qio}@Dan6L+>7&lvIUBhL#UU8oS
zP<#JIS$toy32t<cNtoALz|X_w%y%DEZn~Zdm8WXk>PqO)LZ!TW{{~6kHku^L<|AU<
zfnby^e_elC30$f$%|$i<DN0<e_}}g%aS0=7S6Om#4*h0|P7r`h57l!BKgz^$sdIgO
zO<zNKI&|Ih=+NRtA!XFD<S!>V#N&P~L*;t5U;ZBLG*d3i*iT4-_vskNX-WG>xYRDb
zu9-yE)<9$B>bTuu;dq>>k*ZR~ELB7nM0?gRGn0s7I8902!|Mr0myg_7M@oe`^&{hw
z(g*TqI~9ywHpFc;X?&iGM`2VTM>U-*9)#SBo$!4DRU18*hFU~K)R@)5@qwY74!;$E
z6=64+$SVsNAr`meWoom3fXX_``R=(a(XX!+B|k$6bg&jpfZ{L}R^}XBp26=?MEdk-
ze-M!efM+`o9Jt!5frVJn^O4Ce2;($^gfjrB%6{{ij%5A#m_d?Sfix={7Wt2mPdvEY
z0MIvIe-I{ZZ9@)L>#3M*F0Y$Y3g8=?@PP?AJJG;eCTA@-0%~S5P~E0Gtn~{ZUsK>6
zpm&u6ccQ?6$TOmj0kSjsL^-Txa_@(Xn_0LCQui-C5WOlno!k5TGPbJ8W(O<DNa1I&
z-zahxnYT0k>>ISZUPboNYny)HF4bn2Lg#J}BwY4G$d|(4X&-#hsF}IUt126F6(gpG
zXzZ^x3Gy5p3i|)IX69c|md~flA1z8}QQD;tSJ9K09*0Gr!fl?Z!*<`Y<w(rV#Gp4g
zx51%R0l-Z*L6OMr3K1PnNZQnW@+n=DCf3UH*7kUfn0`8;nn_h&36Eqj$9mF;3|Xy-
z{FR5oLC=0^{?4pXOwrkc7`<OAAf=GY49MyGDrRHqT#$(ym!&j1tk}BNIyv8~T&#7>
zRb-0vEoYZMulDtPvI`g$4VG)%!Z{e5ik}Goiv^f`BSGs~1oyS-nDL3$Y^ga_4_3h@
zZg>`0*rzsIeKV)Hv1}EQVox$m%>~e(HC{~3jsvm?zS#A2xr4bxcA9Z+Tso82L+YU5
z-UNeEE;DYC#$~5cQ)5M}zP|*9#r%%?qOFelU1*5lcRj|9%O_$zLk~mYwLB?u(?co#
zmi#9OqgM=rcjkwaU)8J07{)c&Yy*E#k5~7cKfv$(X?z*$)URI`crZ7R;=en7`;em{
zTR0jk7y)-DNsS@=`O!xQSA$od#`&G%sP(!jCZnkvi7o<z=~9DDE;weDfqf1_*t^B(
z|7jM;{U>>XfI;Y|&|{2KJ<p#wP{s|i&GJHFBLsDT-HE81cA?wf?dod-jS);E*b_?3
z*zyFi;NIB+SbrL%FAjYp3zpLH*J<#lA2&|cBwUpd14Vdh#xz!|ZOz5_LJPTCjtsXw
zcn@a{>vlqFXAOMz-v1Cu5L@^Lsj$>0b+D~4H??lRIRrAkq?2%xF9?JqK#R20mI8FA
z@goh-(s|t*<~@P(CEUlEZ2i;m2w#~W2D3bSG$QM==l%S&$T_v(nqkj$)tikK@xIWe
zGBqAwEyiv`262JQqRXRpFWAvHEBeh2h25!(8YYjVdvp4&J#E7_0myg>L2MR=RorGP
zTyDpv3}-=Nnq3fT$hyBg#pDC~QnFBC7qox+f1zR+;;wFF^sWZKpI<g-15@`Cf=*~m
zqEMp+f>e&Ap9p5W9nIu*-JM89z6zX_nbMNq@ZoG%B+0J`RnP4UvRGen?APS6U+C~g
zPi{Y~t`?+CI<T558i`F^z!COeKGdsIm97@PM_pphfP%2}1&vhU&E~x^ui11oR2j7X
zn5$ISP|!@&(NT=W#0Xs9aV4*o;)h6-)L`;2{kF+@@4BP_&RkVAm7LI=2&ow69paz)
z4o?{cZ^*E~)l6W1as38fUOmSqkKglNgjW20_7AunGAs4@dKbKIqgkq^v|1&&os*{9
zURi1HG9@2Nu+<P}`4Uspq^~+Cjg;(IZdb5EN0W1>(}1m=9q~1fLMoSb&j&H}emv$V
zyMrBS#v=_RL+<4nIIE|b8Od)K+`5lb{ZTDEOiazFOzy&QZ~K~c@RtDoHIv-cTy=33
z5pa;`(e5waqt@w^cX~*Bu&*)vUH-N{d-rd8FhVk`FS9qptaY>W5mQdejO3Goh?lQ8
zqYMu!A<ul30y3-?5Yk!zkP|9IFVSgcT8ZtbLJURC7_9S0ef1V%qNNuuXqo!K0Ji(=
zZChoi$z_2cb*Vx&>;tH1@Ky7jV+of%pEgxP@(h||Yerd$8e-z)2Z0@ceF~tXbdiHI
z?RpQSJuUXuo#0VqO_v!SAe;eeu%b7gt*KyVA1e;aep*6N_$kPz9TWI<#y<cc<6<26
z#U)5R+LcPflQYzt$!di~A(8czB07r{$ukh>aul<a!R`Eha15>H<qi}Ib;kJM-r$5S
ziAufVmG#tu#uVUEZAfye;c|XnTv7gg$cgiPY?)KiwVN1aNwa?ltJR?vfeio7u=w`b
z@0r0i`dE4=%MzU|p9<~y7RR~2n_M_%P?3Po!3V!3yk7`!Vazbr-Tpm@|M}8{=)06?
zJ28*~CwZ9@P>wuYS0ON3P?v8@dpjAOZd80xCf6c&&uZKJo@hClnlV=?r!G{I%(l6d
z|EP;jX8r^GNclzc-+8RKLM1-G3|0bW*Y8DcXqL|J*VvS6rN7)<Q-rOySd`LRkmvk}
zlq>f-kT~3Nrb2HccA)IiUi*q6jiQQ;nk1fTTFyMs$q*g7kNOn9IC>!EIfs_d7+j$A
z)w-C@O`M%5M>?26<J9oi#hE%w`L>H<UV-50K}#8$>Vax1m{Lj5$5Ui&N)s&jF-XP7
zW7IZ76wlj&5$8sozf@TgzkNZtHsw8yN0zZEM|^TcV)Rnx$3{Su`S;`1diR{K!h2iE
z%1RY4`Z%lT9oW#@uDj<`6YX{Z^K8B_&L2G!*rtlCwDW`aooXZtS97_{J^5eMA7g~O
zjXbQ>*GXOFBK70HvylQATyWtwN`RarK^Z2ay+Mjl1Bk)|Pk3_PfpZh=IrU`}KrGJ+
z>IUax=3a4s`IEKLJBrgZ-kqQZx*>8w$@(}*e?rP@0G09C1L#m^4X}v)2+S+<5!F7I
zPvDM0!+xJ8>qLj^yG}(T8i5<{_4MG3%Vzy{`)7Kp*X<saR;f&+*-)IMN-pSV*ge$}
z(=(4m?{-m~bmXK2MdaAM|H336;b3a-s(D4M@hF95CcwX-l0N{jRtX53+P{RKT&D1Q
zdkH_Clo_DcKo2}2I#>YBJ1@;=Xf1gCEq%+lJX=s~!2fXhl5=XG|B<o0R|o|Cm|A_y
zkE-EI^5Ddcd!N?fku0a*oWrbGDT1WCs?B^@s><wWbEx;AzKQT0>jSK<Kv(*Ab9To>
z*?+Y?|1RnQ_V7oYbMAch2rpe~Q)VsO3`)mpY-p4^BZP}Ja+Tta`cX>Eip;BXC(4o8
z9Y?z`XE(W{9GRTW1lV8}_W!IZLxliZtY2_s%~@igDvT%Uo3P-Yv=42PVA*FsmO{@z
z`c5}HS1s$F*eOObq`?tpk(}ETbsUjVhF=f!;I1CN4B_YJmr8ioEOj!Z!a+MtM`Dys
z_qFZi4B@oTP~B~^ecYf)eA1Q8zDR<b#5zYWH}0gC&s8aSV<svwwG<m(aZ<bfj(fec
z)I{^`xG%XhB?XsABlqek|3!Qzz<S?8Qcl(p?VQ#M9y4?PZu9>!dzY|6I-s8$LSbX~
z%Rj8Dv60v8yeAN?vNY(B4xG+;vCk8H`<WD}ye8rIt1(PWMLNR}$3kgd76JxA)WSZW
zc{+8<1mS^qn*moVpMgNnyGudO`+KEIy%{|d*%;^s5^N(ELqs1Va?L3EE!UAa9AXJ;
zn_z5C*3stmu*mcU{d)$22R#xRnQ6wrDx!72?;-a_^@x(DRGGG!@d<c{6(?`go;O={
z`#om?)j&fTyxd@rl-DJHuUvovf*T@$5wOV3foxA7^w;f9<}=8cl)u&X2l<oA!&-)Q
zQ?1T+@y`$$%z+{@3rYb2w26+(5Z0KNk)gmBZa<7EuUb{3!{a8pE&xo-lVlbLDFH~B
zT0=hqmMJl3L>$8{ob}AZ%c}$axqR1z1v;L{<<gRV^+g=G!+jQx+TfIBxdRb+%0Rd)
z`b~T4C+_i5V`Vl?20w}rc+`M&SfFc4yR6;iV#r6khvPGKI8(JL^{3ot+QeUf8;ONc
znsO4rqJL@>uQyq0JW!BIBZe`NN{;c^AbR|5Z#Iy1u)p8#?s_LrK$`X!0y~!Rjpx`e
zij8-YjUAey6D|M|@(KRuJ8=4QL+A+Fd;~-=+{4RXR;TCTSZrQ5<mQy5@Kvu+D<k`z
zob6r;18|WIwUW(;l9fQXmP<}`iol+&@RBn{@o93!!s8jIP49WVBc)FrTjdTNuC5sb
zm2NHeHf~qwq~J|}ZIYT3l_}#UZo9g{!4D;RFSf%lUZKtpw^3wkoemjYRBk2yh<w_{
zUGqS<f1vl%zIm^o=H{K*!m>))XNwZ%CKA+THl>w<dH^y6&`Xy(R!Y*FIVzlYxab8t
zzmG;2HIif^2Lm|Q6#JSd?bjKWwhmvJB2!qeb;W~CL^46UP9$Gc&+dj=7*!|5hYi{3
za`k?~<O18j#k4Gg1FOe;ZBHL_wsmvfel~i`b-uM~<Uf+K{#f5y=N{@6xnFoofwDiJ
zpoT@bWS@jj@gtP2M-(E?;YBR{)jn@dM#G|M_J{22D7Q)+5zVk2pRc{$$@Gc@w&Y2)
zP4PuoBSy%VzXjufhx-NC#bzw^*DsI>N6Toap95LFve(5^EQNFdHgz+{P)<LP#Zt>>
z@JRi<hgwdj4_T??GprTf@~`fC*#oE(f!Erh0mPP+=y&q@J`1*y!2_W#U^6QKG0u4B
zB+mq2R%>dsIKDH$Q>rcl%}3{;Tqcwhmb22JHz?qc?}uNU8s&hA{YRJ3eA>nJI!;)a
z*n;1IbpO${#gRpW16U!lYi9%0*rlLDrEjyP>c<W}!`^>+RDt?Rmm!LfR|;_2Q-d7P
zU|kY$BAaPHIqvarHJwu)e?B_$0VU;c`Py1jQPl2s;;gQ}5^$pscKOvS+uHJc-BP5N
zc{?X}LATbd%<iYe_dBBXBi2LW2JtsSPH#PSN=CRS$IV2B!j>VA0S%K5*jqzai2T{f
za-cw0e_4%dt$S=)@4p3V|HF@TO+kQ)f=xnpwb>)}QL|awEZ1>3bEf>IQ;*L`d#Ur@
z`4J{eGs6T4CYq?eRJycpQXN1_TkL=FbJd@55Zt?GrX(OqG?evDEuGI|?%n%lZICx?
z*pB3+qR$L9R>~+EieR*EC}?GPU!VMRtx-AWa3du+shUlOD4w?#-Q4UUITV5LGKpJO
zllL+4P?6TDDuYPz!$m8Kby{=6ckg+^`oZsNuUQjr#53Fzk6+Equ>4GYiquh<S{wuT
z?Tmx;FxjJthSAr=`KENTA#{P;-fDCt_h@ZoFRxoh?@wvu=A(5>TN9gaLoH8~%<cRS
z3Myucf4P`2Y*)sTV7_nrT*!}Kh-c>Ca0F*)HZ^Fo=e-w`g;NTnx4QWAP{>qoqD(F3
z1u)C>WB<U&6%jF3zdj0PLEydF<n;FoeqNE@9>=u?T!fOZT55oC0IKWOCO8Kf$13)T
zGHo%mX&eS^jNn1lRwJ`cPagRh7zH~0N(jeA$iQwz<-$H?JpT(NW2278FnV&G<UP=o
z4dB8yyk&*Ffq^(m8DBqb^dhEke9jSk1b$iNTc8z#=Wx-sT5e)|L!%P%<!D+ynjN&H
z1BtD15t{Gr#!J`BB81l*|6Hu=OOSQGz&lz)`6%+Vx(KI{q+4t%`Kx~IMWEwPuAn_(
zNqiUUm1>*rmuMo;lGs}3bfBjB-BqlM1ip-ci`zITp4Z2xwZYK6vTY~HsdFBUKPl8^
z=#kSk24N&!dQ>bzsW*v2+I-U&&bS=)t?)uaZ?MJM-qiVS@+$p(IU-utE7IN+(DGjR
z<*;b<`maj0nY`QWuRz;0#IcNgJ!Uf{&`weOu~cpP<E{cMhDGHdcVk5kA`?`l1Xw_>
znV9?VS8U-21#X|-^SYdh%vHW#^C}&7cc&b?TElB;x>*+lv4$f$?I~h(Iuh4-xb@~3
z5h{LaeV`)kHT)u*IeOf_&i`k}_jmzwL`R0+g2B;x75CET7}+=nEJ^#uhNcVAfrhg&
zd{CC&<LVp5@mC%sA)EhV0pGWc`Uv{c>fL_?HY`VIo^wo~_Og)Oyp6Ml^oUP-qaewf
z&rS>O9{?Dveqh`uI^n`lf}B#j|D6yyuffj4l5<V7z}dP5{)(eSp}My*CKH*mAkqU&
zH--f#zE-C`mD|lUM`tXPJ59Qr0`uu*0<ocHZL`fPrC)zn#m(X?3CG#<W%?-ecd)*H
zC>m;?D%%ZbEpO+4_adBHZMglQ_7HjCgutD!C9*}Ww(@Nu&K(NB&U?mWkj=%fSr79{
z8vq}QBiFxma7*9FzA!E$6=U4_o}_Ytr1)0-VsdJ!sHtS_sBQ{KI^e3MtnJQsC&)3I
z)<vxgm_EPX@0Jd2BaRYvQ$*YY=3KHGZj~Yh!9rv-W8frf9M}@oa<M*G>*Nna#hc9`
zqXZk0C~<2j6TRobEIpU=QCdR%cMdyij0>o*3?#U;7VFXl0Jr#}p|sq<+nXDl<U;%O
z@w6*8EE{t^ES^hZ;x1KBEZ<->qLQsGt$NFE_0KBPfxRIMFjVNj0RN-}z%-SdOQ1*D
z1)gMEg3dMwK4Z?K$v}C8d-Y!cbse~=gM=8})g@*C$FVtLj1eJ_{6|&&>6tIP-CBwz
z_CU_nALEkO#5^}^-YRD60ws%uXtGZS46sPZ2Is$iOn=%{pjpj^dvK8A|BI&(zbKoO
z<>p_qT#Bul*udGb`};0`7SYTIJ-1@5RlG6Y3{KppD>X$8QLpL?0e^+5eut~@!_G+d
zf3-%tfyj=MuHq|>plC5fMYel){zq7e?MMEk0TGDIScZN0n<Yyui=~7~>M;SF{n>oS
zq1w@B`IXpq%T@gWC768?$1O|~7^swYw^kyy$VB{}_Qi)Rk}(R?1K*t3oR^5H<TUH0
z3f;SXjj~GzaKr?}y0&x-?ORb|;9S-Ixt0D0x;W7SiJo(vQwio;3F{j}Wxd+JZL=`B
z!&}2FS`g<D(sgncgsdA5skb77?35`;nVG_Kzp!{Z8)31UvXsALmHS2?@5_>h#c_g3
zA*SNru)vn2pv7m6(TzzkiD&j0A%Sh|H-GbB=D2MrMrpCqZm&+)K>M(DWb|rKcMW?$
zWbGk(vF^R&&X-gJEd;2@FWcF!W8}G5NZ!>oLVD}dir7{SF_HXdIzuwz0(ycP1p?ZT
zfG3HJm!i7zd9h|Q$3?-No-S;4Gnf8&SA!@|%Wuv!%M-ZFaD^9s@;4|cG)lC4{-vZR
zYMB41jY%%^7gaQl=h4C>^7~0N717iQWgd^XwOeY1un4O-*H|8Q4oETQhQ-O3O-+C%
zK!Mbu57X|C_swz$O346A&Jky4%6?Nl^JMzH+AfeG*F@eH6_+JzU~;R%6#ro_i!RRG
zwbljrZ4s)&6?+1Z-dU<_%F0$G0mpn#PgDJ)z|-Lp13UcIg!p&-e>Kx>Xway4%mKlZ
zGz)sL7mCmQ1xzY*_p<=4QSb~E04`><7A!7Z7eNsD3%LD>4$r&Y39^SoZDIp%gUKVB
zrl@SsR$7kix6^Fn{P>8~7SWI&ZH<NCe<BaUWM-T&ch)fn-NWU4nW2D$10)FpChejC
z0rt&+oK1fe6?*u3dg;{GV4dZaZ42h7N|&?8c9`5h7Ly7dm}Bz@qM{#c_mpTBiZN~Y
z?L`KYpZL8WxKs~UQb!<axPrrFloDDO2xtX3L+#E_KtQMAHaETR!X?%zP$I2Zj=OC!
z8*cx2TPn3^$>YJndGP$`rd0i0juQ(N^!fB#S;?4H=rGbFB>x%HZB;q8I_XKMlX@fc
zEE}bt$hc>aR(&$nInuK|Y!k7@pcM%dVp0AX{Z9dHe}O_O8_nRS_EVIc_yxR9rz(bq
zKYSk+D#lmO<`Z<QQ8JF!pI55v{EW-9H<2p%h~nYP9+L84I@WM+6MFGSHW(E%=oGXr
zDfizXFnr<4j%hBvM;#{IVk(fxjyv%dBi@Bv?+lrI@I&K3{by(RA9D_LWhNBqDl2Z<
z2<LWB-qVb2cgfM8<Li7X6MPd;plXybacU5TVv_UmYVy#KZD3F5jW^4@&rXh`YiA)8
za$fYuRXA8kFFH*7Ic+b7Xvx-$%KCO8uH?K(G`@8vFDN%vacl;z_~5kT+-Cm?$C{J&
z6T9i@mk@&<_?2$y`A-H&^PxswmkP%VL?%G(nr~IuG1AK8e)8H-H=4I3ef~>anJ4wN
zY7a+C3s54>Z66M{dE5#Ca!rLi)gq7>{bePe&yik7ZYT;PM3kz5sCIxX#d?CHd<LGY
z{vbe<stD*ya(88TI?fal=a}Zkb{kt+xcO2ls0^9y7yS4fcDFGf{*K?;3v)J*m7uAF
zen~<3e8K1RP6~w=A=-*WnsKuNi$hM369LLaVz44i)&}>TsarX(>APE~9Fm-$n2vv`
zb8%an7YlD<tT%;?DF5~zu6$SUc_YS*eX>l4%O@SZxz{}TGewHMmYp$F@^YZds&Ia&
z=Q&S9mv&MSiafL7WBy<QaVGxtJ}8;%hmW$&kv)eAt55j@<e*wg5uI-&tV@X35tp35
zC}AnWYF8m5kz{?P@N49d7Lx=aaKTk8yMSYc7_*4x-J!kefd-a=TIMX!w6Zs}75?Yu
zFu86!qA1E{cpZikB+ROS0p0EFcZ3GM<)q99RMy}W#36`=s6fZ1wyNXjZf<P4BEM)J
zpp{6xECV@C`<^h``XFG>{5~f=L;X9K&|-8OP|nF_@}&<Y&`UQFZ7jg#F}Ot1>UZz}
zd3)I7!<BxI=bXZVoNwt;^q~8$SdH-@IwwH}4e~EQIA()OZ4%6m1T}EK2-;eIX=VfF
zoW&^UqB2dS7r5`SYb~`Xr%Ht$p?PANqFv!d3ACPW!Tq%!{V!pCAxq+<sD2m_hOh?f
z>;$7eg~+~$85@c*{Z`W|-Jze(TYrZWx$9;=o=xPU+O&J!%@Sii*M3Q$#2c=<zYxnb
zQ!1{B$EFghaq_<5GSfSaGAPt$KDF;l;>zczgT?qu3B3w|MOZ~-_yT72N-Y^%Zu<b+
z<yNynZD}7K1bNFET}`6Zh7R@BK@-l%LwTDerP696q}93gK-nq5wNLkrw4OLQZNp=_
zjdHXvSb`dPqL&rc5}0mLa|ruB4i9U5KiP0H9f4>lbftA0ZtMKuRPJzhhV4G>)NWKT
zX5~>i8n!q14(Vg?Hz9C8y~^YviKg7xvkg3Lbow<(A<epu+*W;YIKpaGG#vLXfywNZ
z=~8?~i^syp{T~N&2%15}d`oXpYKYHCv+j90rDI;UXZ;<(0RrP^X#Z5hLsub)6Xd%z
zzCQbJs3vpDUGCL@MP){3PVWKQxQ{)rd2e_<S3AlL(<DH8_Kb-ky8I6&asukRA_W?`
zlW~<=f>Ie26so%#@wXL3Qe=<mMXx5ILNU(a-vxj|rF6lUKFmxI_&BUY*Q!MY(DS&P
zLhCr<;sf4@Ry=0@(4@=V1kUO~MTy)Wkrkz<*9{XDGB5quxpXNgFl85SG4pbqD@S)4
zJLEDHivMmu&BXRy-7)0<E}loaFlMh~@0_!a|8TLlN!8-Hhef~7ABFI+Jp2nuu67!z
zQ+lwXv<UzDvObY23Fn!AL)xiHLAv&RkdzghDq8f13Rt0ZJr{$uf_rH=HhGb|`f<s2
zWk!3zJPSa&!3iR~+gRq|ae$FdZ7^i#=qhj4F_!r)$NP=&+#i6!nFDiEz+bE9Cmxq$
zUv*iUgzVrL%M{Xc;tFG&>@2G=034>0Wr{)WWT5!8HfU|7mL3z=?Xd_{u;WEq{-^<*
zlB%PAaiM3XPy6jdj9!I9_z$keLOkK|#OCmZ;&<z|p5VM#UiqwF%MUQ9uOE$=oPoV5
zpq#b-b9ZY>f|$qYmZV4mI-{Y8w3c+4PP3BqV)({8RPFq9es8_PtAonU{Zl4Q5+HzV
zu{X~04|GTlK&Ui7#VRmYC+tt>cDwuwOx*9J;;8q3u?!d`#)VpX=za~{hxQYGtOe?2
z@>l!gXhy{Tk*s6XRcNHJw}>&lAf#v)ys4&?n*XTc1VV(@p-x;oW8wo!$(R5ECRoXm
zkKKL&2R6V)EzzOY3KxJ9lZb4#6!Q9AOs%Ty0muayR(ZKGkt<#dpkW#u%csYO^XtDx
zAp|c^q=I&QtQTqkoeKx~@|k}UrP~NcLfPT>NH(Z)9|uWoS*vJ@@>583K^5GK0&80h
zoBeb0LIc~r+d!c!3-l4}zD+M<I&qr6k02baK|Sq2u`>lo38XPf(6Gy{%sRki_R~6g
zgX3)g9bmP56(XKV@Sfx#z(&v$3)q%Swl)e<Se2+CB-16G?qsqUZU|}0s3O0~3H&;W
zlg_QIwe3YuqocZ7Tp@YP5HAC1G9=(cMN=X+jL>a~ONqpne3VTo(vCdhy4<!>XpW>k
zrHXfMyD!(8XhX%bPMNwzq(JZ4e~B;AoXVPO6N7zLH0jV4NhS_iJywuM?y?IxJ!<_t
zO|4ZtpFG*Ydx+1UF-a*~Qe5;GVSDwZohz|)v7dk!borEya~>3!hUl&0q7dLFrBrzI
z?a$CCBCoDEK8H!Bo@~-jMt>vN1-nrJG(UB2V}x8DNBF)UkzQrdPZEU$z>I3-1j}b=
zO#Y;NztSd|&+SYZO?g-i!;6kP$_QEZ!vQJ|q-+*7mIpOzMKbY%wq&N~tIw?dMXUe+
zFX(<4K8^3hgA$u1*wVQqxG?dea)7>2QTz!D>WTIT*@^0wFN?%2917W8_7=J9a)0V6
zFr9pPer$f|bu1OQk41s5<!3mi>I53AWK>$c9|+sM9%%+vqA(Z=e)h#<KJA^Fo9SI8
zb7|hT;W)V(8-AaOO(bTvoqF-^o6Np2-Yk#3XNAFi1U@~Jr#^9P#WUktIae*k;c!$7
zfd#@khY2-ZP9|bz%Hg=Q`{8ZD*;kRad?J9TY1j&zW-yQp3k4L*IMjawgwI7b4F%Jz
z`r7-^wVcpZcG2W1?O3~}REw|5gTd`l;y7KQmcm`d|NeI%UI^XB_ei5Un@37%!q92X
zDbg1W=xiPwJ!|R9FzZYbIL9T`!{$?EPSdR#W+`(H31wn?r(W{gOX_R`qwu15@hl;N
zU$uEYWeD2J`kc9rF!b(T*)pTjP^82uN>;?T&VGp7NMSD=M%jMLo;~3d{0h>7K!N9H
zMOC>g6>BUZX3!HfG3dd&Su-);8nS!f!#U+mcMdY^RxD=#7o$jHF+mC>Xj~6qRya5{
z&EOYcnFqQ@Ir$NMWh|U3PpSdP=`UJiprOE=LHeVh_>92}#LYH@*wSDQL&a*~^3^of
zGQ2+7P-(h96ZQQs7VycSM=c`-<u54wL)Yw?(?7u3aflPWR<G<>e!cPLFx9Rj8^DH&
zNgpE9D^44-YSg*PF*P7_lUmkcDn)yrM*fk}GLStR(<0VXEmH7>S_p{`EH^>sx`@H@
zk{~+h?Fv)dYTz*Yna1LB@=?g!`ne09Kca#a!M9_R+4Dc~oos(gNM?U{VjCBM(gTd6
zl@qTZclx7b5Vx7%)fVB`1x6VQTo&_a^I22etq<ssFl+`nV%$X)wHGT3K@06O;WCwu
zy+=={%u=8y7-<ZD7R84JP2TM!gk}@<S6jVX4nDaoV-(9ka0n+lhCg%=W^sOSgDs|_
zRtP}e^8B5tTxec(Zu>lD<QN!gstRP^IR~Mf$DZmntGUh%#WCeq(B?EUzCN!|j{?-X
z(Av9W#Q|>2^}!O;r^jjQY3iEa*~2)kS_IM4G*?Hm#Mu^1+MmOV6lc87({4-*iz@7&
zzN<xOwF3s!LXs6>K}Ht-J`ONlYAE;;Ghwf@Ri5sMOcYmprLXUl(~=nBSop*_RwIH?
z@6x_`Wrw*{&D43g>RJScVyeO>$x)jm*sR&^SHCp=E@m>M5a@9O>DMhO$nb9WzLUi&
zy^)v<wq{B`Jw04fsjyPlGWk{fy2aBJhw4$KcSs(LCGq+XPo=LImGp64UTS+LsAVwN
z@w$9e=$mIImzVotzm=sg6-SJY%u0cdyP+#P%>9Z=zUXNY*XfwoD_jEGP&`UbI{u8X
zzd?3;h$dN)QedCv)4!(XfA(_U=zwQY6yHgFZdTCQsR^US(S2gks!7Bfze%U@y)&Un
zQ)Mw=Cg8V#-LESu+_!kA6Y%NWXvUB0!TV|1=%gf18R+PojehT#>6j%p209{$E#xki
zFb<nvO%epqqhntt3k%a+l0<)DS%R9i!UJo~HKp<C)f}a9k<hUp$QeFGlllCCuX#JE
z)#RXgj4vL$^i`U5ZtP%wQWQtRa-I-t&zi!4crtJ$tWo>)U2S0wWvrI=>FleMEXrSG
z`@SkpS3}sRsT!tYzfzY>xVp7BK*oc)+d(Kx{(?sJi|vx=#O1^IgWlFF_{r7PZSK9v
zZ^$i|^&?TLr>U240llbGbCbYL12LLAufINcy{6E<(HYYoP!33hR|Cdcp7aPLe}Vg2
zYnCO*xurh#F>hlAVf=^x4hq*iX_HFWDNQk(_h`@l1@caVpdv=rW2lXIT-?Lc*dceW
zvK)}Pz9-V?o3Q%w@p4&_u#Z5@Ahr=5{)LEQ{NQ=TP{7Gf+TTV{NUBny!zt_=p4o<u
z+Nu#9PwVICBYF=6@Jax~R~e%NtW^$p*_CiiCfz{+rTrV&J=E_^&Cdv(L>9n;uA)m9
zu3oMcU)6p9G7?1Iu&y-NXv6*;g<1s?87hbBh@uw>dEN3%kdSW^!ehFAxr6Mwfj8P+
zgWCQ*+NqNP8~kk}1Av`6KjPayjZW!jL@hQt`~CUz8jx#~J$r>aph&E_FvWJ>;(RP;
zIw$SEzf=l$teGnwMX7CYfBhGV*v4x#nop2I72IxP7NB^@R|CG%__Dz)iV$Lcxog4I
z6t$rTcxMgE#kzMJUXktvf09u(<dQ!4N+r-q0-$=fg!^?bGmV7j37@Ij1f~s-`{l@Z
z9ggd0)|St+?}NappOWFNUa6NqG(>u;fH}r;A_v?yol7%HjwXs)9altLjsq1fW#6HM
z1`$lOrCW+M1wO02F)WF--{~WBj;q7IV&O|xTKx>m*NiRkh*D!V(U}_*CH?1n3R8hM
zylx77dt?QT$Ey=$d$*}4rIn5sJwZsqGcT|UWQRPR6xTXhn8cZ_E|2n^kJq@hMho~L
zQpCl+<P@~9>gWMjv=14@%RAbtC3&wJW4s<%594_va^LgBk%)z0(_)cMJv*H$!lI|H
z5!sK4XD8$kFzv?+U~~D%otK6jLPgWxE<KtOM`ojy9(sdk<Gqb~Y~J!hN{o!`7d~$J
z^4X<)x|B_+ilWr{li)NLovT=|*cJo>T@&^v6}`isU!qXFWMR?tbpW5s^wfSxwTz$e
zLi52K2Irgghsw(?UveUMd?J@dZZ<2da>b*ADXuSh9Tx|fpRn;#>c7x0EF!2*znPMZ
zI};xv^L+YiBocHYoWc@d6lU~HC|A(;dAI;N`g+O#uiSt#kLH3|_Kmo&`7Qhef>UYC
zv@E$Bk$=cto7m=>`@f=r5h<gyGoVfgjH}~j47=)dK}hNme_<ERNdx>P=@l;|)QO8m
z54nUX%19V!KDN#PlfqY0)<f(*d2!qO{Zx*U<wbeQL94Y`_ut3Yv-`ps)Ha4RYZb3z
ze1o*$_G87A{FxwbCQB+Jldmo-AA<!xO~T`xn&chP-eI;GSTKqIqWe*!Jb4_eT^=Jz
z>c7h2tb3u>1oBAY=_u9d7Rt)#>^Y(i-7}Znh0KwcZv3K~_8L1aZmL9Cau3P(?~SbD
z$%AcFs#Sl-2%hb&;5}efe9INj7Bfo4d+f7uq6FL1^j;Jpyu3@p`BqI&=WAu8su~Z$
zW6tyIBkZ4Fbvl5qT8rBvo=)xTLj1nO7NZQ1n6C=urP32G3y7q4UPPmZhO#qUybUq2
zzg<ancD&3~=K2iuCXP4J(FQpwsZpeDW#0i^V<UR`KFH>$8#OYTW%fB-CEaKEnmAAu
z=wQMqGCd*Fg^AQwH>yPGQb-#{0EEWG(XZ<484=#CgH%FgB&QtwJ&&7H5+?ZbAB*a5
z-!kyDTEvg=EP>t{5n4+03y_~=JxB&41mE}Nc$L?<93gsP9mf3e{stcQIaal((3<m_
zXJIKY(aE_{xL8fSSnHV4e>+Koj0$qKroM9ilMN57S3U>i5|%YP?@*Y4eLTQj8Pxjj
zChB{U=%A5^Kbv^FIum^v^vn=L;v+G8Z>kyywRu;hEte8e>U_Kk|0>Qyo^h(4vX>W=
zP+~&;kgv|D|0NSys1+NuP98{8lp8yjJ3P64r-L?g;=?}2Qp)avLX20UmW!A+Nv`s6
zt}=%{vHZlX!>St(DwkZ1(8x_!LX#T43~^u<6^=y5Hu2+w*c0CkHgJxCvq3MyXXfY4
z-5uW0{nQ@SB+3gIKf#zp=8z3ptFb&ul}=+xnpkdj)%OZMxbg3V)2(L7T@L&r@!5{n
z7{cgofJGN4M1*+P<EryX(=ocqWfOrFpDV6nb;6q>Win`oCA?Na?LmEn0MuzR4>i4K
z(31&{zv}J;@S~*jco>;0c4;mT_V*CnH>0g|=Shsc0xEu=qvP442+L#Y>}mQ7L2>4E
zhovg4D^dV2bIqF&o1!q{D*`6^aP!%4(x66O800ad^8Sda5)H#>48a^fD%LOs$u_lB
ziYv*0Gm4>V_+*85Z1;%W3VdH4@Yq<QF&HVMFUBjZ^N#;4Ampf#hZbSI|FeU%Ce3cA
zRNvt#Tb*$DD=7)%mB}mo{X-6W_;0;1F0445ljE6CVeL=Bv@@+W*3CN#4?%k#x9<Be
zo$^Rce09!B-%^cB1yYZ%CTXVdfZ44$-&-+B`H$E5U!4zn3i^6=3l5ArM}yB!!F%aD
zg={WSS@*k6M@f|^<#N+6AJ8RpzK2W6Qq@yV2rC8*V8|W@kY{r<N~hBj<d4R7!>Zrs
zAwl}PNIx-c=<`Lb1mx1JSSg8N+F5E%{Yr=~cG%-bnRcw>0P2E-FB_iplDBzU--H<(
zcCD}6)mNGea6(?QzIs#kfC;t5e2|l^_z~#+PV7XfV4JKzMCLTo2}#*YnBZww5XikK
ztTB+})vHQpFpLI1zx2>2##G(YV^%meApI;?M^<Q{PT}wM5U-Qx_7ScaWwn=WL_?Z5
zoum&dE$ntIcOkuSBCo*6+&tcEpDn+fi8bfw`O?Jti*^gcO+|R2Um)eeVt5(V(RfoZ
z{fdXB!Lu8StNP(>Ov|%VJ!ftS4~~Y>!us5y70VdrIUk7$Qp~o@JzRArVuhcFT(JUe
z$~8ex@<%C{M1mS4T0FsmM6l7j`!6jdP{r8t0Y~B|f%^6UEkD9x$})R!%(wmt_mfQW
z1vjSb8dh^e(eI@yj=4LKS-nT|d*GY!N{<YtU)*!pXQ%TG)<I0140iINOz`OW>!Hsr
z;OP?hTu<R8r6r<?VIDwgCpqRi-3zu?Cw)QB^{i`y8b(yW+gI`mYh-A|n79r2vc%Ql
z@p#=Yrw0Wbr{Fc##fa+KuqyRCGpclHcqY5r=^E}^ydJo0lqnyoHKJ^0lnP{u-6r;C
z%Trq(c0p9LIlu){kY?^uDKMjb5>tKhD7YMchf_oZd<l>K{m)Y*AR)94nnYBfvHZNE
z_}CTh&~9aG3{?9uXvAG*O_63!fEU_>X07Q22m}97(w%@X@v?h`08&bK?&lbBhse|P
zJfHU?aty1r4hTv6M&d))1j3ndnT$i+h{CZM2siXzR2Ff($78ou;SCvl15I=$&Uep=
zkoZPAsGAKkuW^hcA)oXS4fHGEa<%|rvImHcfF1waivzr$Cedp^MIr4%*j*iKGe5N1
zEc8AxvwiCyTcE&z`1(<<xTAoZ{<C*BItR0_X|-6CpHV`N$#Y<NVnbc&9|W5l<#eir
zfIPnQ=_YuR_E>%1@73xoE*g<s;9^~NdjEMWx9o5tRdSIr<E!WpQr*hV2t4%*y5B(Y
zsxKNPhohXQAn9D&@`b_$Mfh6Wm943$&CXBa&Bs293E<Tj9C62PVAh?iB%*lDH$RCx
zJs{0Ah`jyT@Vh`B0%Q3LSTEf8_p-mRVqgq~r!{eE|Lh$!0ztO1h<^=f*JTkP{X6@=
zpW(&*)M@sU!2U{mhQQ?;E!gT5hK)_0XG>2LOGqXq!nzE1Oub`^`dr?X2MSR{0tHJ0
z_j6E;ImoNi5b@I|jmoXYe<b6Btg9LS=e-!YH#>Hf`d--|hMJ3L6`17p+CHQme@)u@
zD{Lw+fliwsHyR#LsJxCs2L1bI<H8XBpClSVablr7h)TAyD%9>~U^Rx2o1&CR(LUp`
z^P?R?SXfpMizehbi<+I?+BexnPxj7zFl|;vIBq#TX$EK7XFZulw!%@Rw(|5nA?2<L
zMs)CyRK|}jI9PkNR#)A3`WHg>-`;1E9yqhyXCh6zeW9Xxw8GI%P75WZLb%Z5PQs0}
zkmFUmm~-8Vb%GnF0@~+K6&GtPX<Bl2@||+#q7u0bZ@AT&(ciJUpP;DMt}(D2?K;MX
z%sOf6zrdWupW;~S0|(6lND9RLdn|(MY|RzH#}U{^m{BsD`N^<=hN#LlV3Dut1?IqC
z$rMITlgD?dvjkHdX3fjfHlqBn4K+R0qrn!y7EbgN>)U^^0H_dV#(f?vT#!8G@AG~R
zJ2~Y6Hcaxs-8Uzv``PVo<?T>)%#s+P-s`22J(>KJL}v8opCkRwXPh6<rGV9YI{oFI
z*T_dH79Jox&|-7U_SFdq`bEL$=KtOG2pG-3+90^}9Dw}EjU-Z^qPL7vBB@SwJ&E%A
zlefjC^<}uddH~U#aa8z!WW8lvlwJ4!O$;#f5Q3ybNQb1PGzb#Xjevks5=x77H`3kR
z-O?ROcPOCJl9E1qystZc|L3K=@B=gFx%XPfI@b62u&zPJbY^Hccf;8?Q|?dbfe2B7
zeST!X#``j6VPXPbmrpv3B%<o6=gn`2Zr?^9;{q$s%VO=y4251_$a#0_``dIDO%~rm
zKtYy$4qW|8qPf{mBmv&L7*Q$EN{X3xFWN|uxSJwfvOVJDo_EGE(#Im@VAHD4^Saz3
z9ZnZ+e3+?umGWocfma@oM}dj27cqK)AV0b|*&LFB&v&8X9ub|@)jiEZ`XzauW-p_6
z-}Uy2ugfo0>wyDMbO{{(I_&?}G*lvXL-c$wuZ;-oJl^D{@N!-mm^hB#oU-cn@F~!9
zeu5pWcNYhS@!s#w_jDH<Y$@0cnxgG9t#jGN0dX>B{Ss@=1+uKZUR(yc76@m~0X<1}
zyJWyAry8I&(ZezTz*G^K475a3H;k}F7j~Hk)wxherpz6M?fsu*5ZQl{T4h`Bz-I$E
z3mc~XhN7I$pyDAo_@xLx@A<-O)6H6TuJ~{kqXB;R?NU6B4p+qoUYzeT`7B`JEy1|_
z{NEFlh6ve9xPnwa-nv!5-E|Mefz{^ziS|zfeCNvZx|bz^H(308g<<VxeeWs}BM$Xs
z9e3}1!mkTl3dMZ}<!Em`?GgxIDou&B#<iJxss<qu^d-3j8_X#vw7R~)0NHlz$8<;z
zq=x;wL&zp%!rAn}C#<H4;q%luPR=kKH&~I`SF*O|d*caXS=h)8nUr<`aZLwnUfHHl
zp(uL==ExT}NcejSv!`BQGZ*(5`|+FmW;yF%3r$1a?fU=-Nb{L9+9J!53Bcklm%^xi
zs$`cq?gHHi!KtRSuNdLhcXLfntx@=7E_r}MrZJgT@6MyO%ec+kz9sA&eG^clWx*Or
zC|FY=pclu~A_BbV|96Ap@4uG)kOs8@W-gyirk1EdUwU;l0kN{f^=+U=d*%8xZI9rQ
zBcBD_rHe;1?B_nFv^Zm{MbY`ocodB?RpxZcj4lO!*235!@o|L=!TgG4J#?euj**O%
zM<1+(QYgO-8PKzCP<}C!2zd#>SY0Q}7iioBlK?H{oQx`nD_wU)(6f|}|1kP<)&n3~
zmTvO@KqIj_Ew+Zg@AlKKH>%f+eYNj{`=iwEYf_3X@WB@^$9IEGIH{r9_pfH?A2EHY
zD^nnb=)&@*e+|5Xjeh~11ucxGT+2BtOLCy3z+cMsJ#gm=4Q0&KkW5t68rA6PvMg5R
zDR1wLPF<_K-s6<|dFOOn;kQucYL8v!36n;h!W?%zS#ZMe*tFdf#%Mj{c5=m70=a<-
zkRDSf5Lu#V`!a_7g+M9^mLv?lDxECY9F8ts%^gAx5JxkuSR_Ay?NNT776*If=+XK2
zOfSN=O7V_2D?+{(F@S7@RX(rG@SNnybNtOJFi3!r{KO_^5=Y=V@P>Q&hh?LvmE>dT
ztF55lkcN<MJ86Y>hKJz~I@QD3T<D|F_Q4E6zhoUHszXza<c+u<t9AutJe%&MS|mXE
zu?2PpyX9~o0H@vrNB1E15q-`>rd}J(L=a8`P8q>T_<J8{MBRORcG8myg&uu|w%7NV
z)%-vF-oS_tM@Qj@4g<xKW?2j&h0brQ(l3d+9*IBnnE>#Szj-43hYPg>nk(G%F^7F?
zAFkPbbhZ%Ju;<x5^U);L_Br3zfL1~y+4+{RE!9L=VJxeGy(vKs2S3+hlRIt*`GN;_
zDlOO+6RNN2o`WlL9qcLYzSiM+dUN@fJ{=DPPte%x+sf`d7Ven8^8lO1{_H08vQ!aY
z3Jku3)x4Tu1Xm9>3`260r{r#63a9*XgWW`0`9eKN{-d;$6!~he*@lTFg;aFI`kBJ)
z$CHJryzH&v_6a>NX-}ZWog{MhnMM^fCP!x%xa>&#5HySf{@!sylngx~*;8w7XCNZN
zt<6{+)`P|~NozGU+^8+jPbP$tlXMZ=N=q499l);PezqL}yj1gg)3K_AM=-__;_3sj
zwymv+G+oAzQJKHHNQfn#f0TFNi+jc9iV{v%6=B^lU5qI$_``ambD>smlF;vl@nvZD
z!=(nA8exMrH}%FX#zpF-l6wKTFQ2dn*ghLzH?*>P@J*POic`H$+@IS=UES;Gl-UVP
zvnOYYrDPTx>gDMl-XUm9|ELjNkw`B8n2S1Z5gyV6*zy`-<9Zm>yGXOZ35~qjj?n4F
zLZ*8Kb&)$gYBQtJ*WVoi^qD{3#wDp159Q77oaY%Po~gFuJKyAD_=vm?>%2Ihp=j~^
zWs&u*w;_Apmvplc;ilNjcT~$zxMa)zU73%$WHL*({5ft=vtVXoleGUy_k%@b=9!6!
zC%59loJ>fCDX2S`v7GX*5lhwfBcwjD-3hs<jghpcpKfmsG-`AOWp+CL9O*nRv+`<j
zIB2OLu=#TBDRJADrQ9Ve+hO7N_@&g!H<@i7U+P2IK`WT_quK!dS8|vh@Z1IUHK6Im
zGTgSAGm_i@pReLk2a4UB^XbP^$X{^i`J!j4_Q?j3K(GZJ8&=P=R9z|_vMbdF8{JU2
z?X#SpB&=GB4;Ql8l}L2b1RP934W6K2+=<fO*7;}b@!IFX7&=YD9zd35qdw$q{mP%0
zvgh^ZIx}H&UI@jY8|q5z1K^MDb?wo!_XqhwCH@5$JA-2bSCNsJ8?ZBBjxS<C60ys$
zUmq!UKk-wgrh)s<C=<PVXF=k7qpd1ApRt4X?gEhd>hdgcj)?}fni4~?fLWEW){1;U
zT50|gHL4(or5{8>B?jrJ)Db*>V^EEqa9Uy5%4YeBs40k3lcdOe)Z7Ek?JL4LLN%5u
z+KRSyIrQaRHxroi+lY`|#|S+F*?Icf68g{6(-~A4V6S<Tb=wv<lebT|MucXbob7z^
z`8j17=O~6srlehD7HT%3+>^qeFXnzx0F-{_*v>yA{**iuZ+!F}GSNl67ivBnfBI9D
zeT>JlyE&4kOA^y|`zp|E2uH}mH!L=>1`Ol~g6%9?ju>X0Z(M6>H3Rqg8!3hI3i>kt
zyjcN%SBqZelXoX~o_x0Zj9ZOsJE0l!(o)g%PFQLM;t6cLS*mnY%%cdE_WM}r)UwMJ
z?}h<MfC+K?qD&Z2!y@+efrMXHuz%Ui7IAyMIaD4?R0#}!z|B-`Nn$i(!;(Zi{5v&9
zWUb8u{17kSje@_ZR|s|&$f09w%B~UOTJ`^kc7G3%M|8Yp>8Gy%?jvZI31xou5g4g6
zNlaD_O-!7b(aBvCrJPEXUGbm&**kv%RWS#Q31c6qe;q<l%jcLW-a0*>{(jiSdw!&W
zC}VvKd7{@+l-@{v!m(AHxt^}~pJex90Q^TLxnu*41|=CQo>m^uR2Bk&6iP#&O_Q-+
z)z=X$hX5yoTJiR_f9=dS?a!s(ubf(wewnIO_vg=4H`N}tCLUyEYhHZ;(|w#VjU9vZ
z?m%qoXbgs@R9wvxXv%yz-NwX^RN3!$eJ_ZB(krFJiEDX3PFNl8eg@{+GqzG2TR28v
z)-5rXrn^q?f?1EwdF<E4Yh=868jfWg<rjs}AO8BrQwu`u5Yy*qKcqG{pWZz1Kdm8l
zk>;zm@gFzw`!1LM4C89}BjUIj%!K7g&hKX<{pe`D3)Q`ljT?(L@u7K?6?{SPrGW^w
zo~K;953uknms*8vY$%Pm=HR-<@X*Dw1F3CSHrjMPh*8g4wklpw1XYg}za%ZhN<t=j
zcPR+T+KmULrmzIUu*B;-I%~bHsK@Sh>Q7pdoG!c@h=FelHw@_(jynAadsS(e%S1q@
z)^~Gh3BV=qz-Vz%*o}KXgE!<(zby&)1hOTGpBM;y2_Jhm>5u8ORaj{>vn855l)@69
z-Q41bP7rK(xcX@>ex=DJN*sx8q4;B0spj1%pziQ$;4!-WaR0M`+UtXEqr}W|Tkp}B
zq&Wq5xUF{MnbC+0V}bq-A)5M8|Nhr(Idc9BTGySc*y}Wu=IW=d&JcWafy5`zKHcQ}
zscCF1Bvjr1Qv2!!%Twl4TaA-#V*YT4E5_8J>PK{3S}f1SYpw)aUx(dUPfe(utTj$n
z8`ipT4*3gDLv$-_<|^LF(>81zVs7c_G`z%UckVo4ekTE+-l5~C%kX{fqT}A*y~ZDj
zx&yv6-%xL_mUj|-U1$HLEOmkf!$=;KjtHc-6Zr3Qrlt$<_-D}^jU4q)?=(hEdyK)!
z?<OEtk7}6j6>0ic-C8dH>0`8cR`PR^qHr`Lw1wmF*^%TnfWn?@og^9kdNK06Us4xm
zzx~6nl!F)T*3qr{M;Du#byX9TQx@VV{-nZFk`$8B(`qu02xn|GFcWCMDVkTk^P@0_
zoI>fJMvJcq;Vv~H+5&#t#XNVJ)M7RylhhWF=?4=j|6whdf$Anzc8^gx4Q@-pu=tf1
zG`+5vD9gAl?=Nfc0zfu>##eost!_GPkOTSd$`RdY#!UD5@sR*Y+?DAH&?1Q129n(d
z2+z`#M)KHrYLY}7UMOIX7M(D|4sAYv=>|=T{9OsV+wms7yYZPcg-M)@UG#AM2TQJl
zrHg}=sT$=z_#$wFM%fUMH8Npuc6Jw|=P9@xlE09oe2A~WAUJ~1OT)dru1=lLl+RNI
zt$vvjHd^^JmZjWY6|W|m`Sqmo=XWpE5HuVUkB~4O@|)i6R(259@`5$ym4+Au)5Pv;
zf4=muuLN!SKjZdC-zPG~D4ziGA+bSkYD-_(?p2QY4lcDKGmuNaQVBip%MhKhC4KwY
zT6T8ux%u(tmy*Ts%4CDJF_t{}SZPLdlak%(Vu&e?hy&QnGu>ZOe>L=son>riGQh0z
z<^0#vyN`@a4G?R8Zdj3!V%pPqkF%VYq@1y`Iv$tXxM%5nVP;?B-tXDC<x$L)-18~3
z_~{=#XepVr;BlOn^-D11r10Irawbprq5YO2)o&<msr&*fC9yR=<x{XJpeY~RiJdX(
z?IV)0I(*XknL+7!AEEa`WUd_hWhWsVGA#5b?7<6?7)8nel)J!Rqkg;?h)UEE(&X`f
z4`B|8&b76*X*{ACMH3Smy7iAx;|e;k-AT+T@B924GX7HZELir7eI;)xVDaHY#u>_Q
z0Cv&i`Le8Tp4}o-4C)VDPaMUpm}#(YOq67Gh;~HvZ!MrI5hJ;XWRDJk9+D7WkFKKv
zp_Q`ewy@D_15MZBlV;_&LEv?PKZjJE6&BT5jFG!re04)zW!uOmq@I!XOirt}S>Oh-
z4E05XdG7!-y$GO4geYDU8S&~fhm`{PFUM&(=N7P-ew5WDxvA-jivm*HMhcqXRjtD}
zSpbM7rZEI4`*e0~i&&r)^0-``S{kmdhLgp-*&2>_*2KVb+L_J<9?RWRL;|7VDv@oL
z#O1t1U=^4hN-GB}HQK57h2CR+q}_{v1bpoaBO1pnBqwCaR-$<Ze?F|=5V{2v=ledN
zeZ*Vx<egB_+?c&a5?GQ;tTLa(m0GGV<}PQxQ&1?djc3td(dKZ9m0L9;(8mh(f4I;y
z?+51M3q`8*9;E7{LbqalkJs++4C@<`6DvY0U_O**VG$l@KUuY*(n7EpoBBjCb%v?0
zRj~u}bd$G}b+NQ;89ar@rGN0%Xh2W<JVQ<|ibC!?$g*K&YW{#r{=6WLS^mkm0>PL;
zJ9*5*Ht6Oh<~NS1d~EX~{X{Gl+k$e<u<eQ$cEyzshi{Ai(BAu=uf@<mHVjg2cr1uz
zTHb926BH|COA0NV)5*PaW1p&acVaIN(+{V%O?<_3!|rp$poNZHDH%l_*C>PStKF`I
zffw9o)#6_x;Cq6Wr=khJQPk;3+k1GGnvP-l(2-U#HQi;uM9V3K9xD~tzX^Q2;#^3$
zCjKY-@2}X=NkLFGTX=Fkp~Gq__*Zs&;v>HKI;I%lo8$OZ&<(x5(TA3fv<ee(S<z21
zAgsgpgtYkBYabHJTh-)ZPg^fFu+vsza?q5ZH3a|Q%iW56go1)HPmZ^$2O;PhiB7`b
zxAZbsh1b38{PqeWiGso$->2?IdF1PKv@QV>K3RPBP&ust`hmfKLdMXhN95g)=c>|8
z&Ij|=QjFME=+wMmZ2WXA^>HBpiugr75K}(N0Yh&O&_EIc=e*XLD;cvIJxVpMzGQbT
z!{$*=0#K1qn%RqPp=D1Ra!8!;n6OI@^UKS69jy_f4MixBl%$Se7EDkWrLc3jeVX@x
z>X084VZ*`xd_(D$gIfntR7m9iu)y{Hw|ybhtkrox=Xkigg$(l%=+s`Tk*+(G14*6t
z&9VT>&}8yAWIyc+0|_%s3$MoslFFbr@t&Yr-xIce!fM78U3@2Kc`AZteD&DoscoDG
z%On(xlx6d<pZVL;Sl?q;2qB{X9RHGHbURmWs(m2J$x#rMo1%dz{gVS7qVLg*B+GR#
ziapDb3z6hzmOI5^+-((JD>M?_(Z~&)8lzW9ivF5v(_>`;(|?*06J=&-v%9F+{AbWn
z|574?;^Q_AhyKpA|A&yPx3iUu4$o9=#F!H%q8kEdhCjbJ)gKAtT4YV23u2;m(^n$?
z>gs14P*;BR?AO;8Q&)Z-I<JSfSJqZ$j-TYjHguI<_0oR>J+J7_G#7I<M~OxjlG5ub
z*@qz}!Uo}n(@)$tP||-Nim96Mv46Z2=LjbktdS72oy<em)fH~PAY=Kv&iz+}sft8O
z{7(l526B9oJz!@8v#V5iBK<Gy3c&dh<cf%X{=a?KX{9NwVIiDSQ~_RZpic=P6fA2U
z+z5=*zMt2n$n@JY@nP-qtRCDxOp4U1mGAe>-^`QCmq&09Y*(2))`EVMU9w3bI09qP
z72v3fFv{ATOt$gN3BDBj*Yh5MRACDz3i0!ntHHX*@_e<;t@zDKi+?$JpJU!e@*bFF
zW_L4S?-4O5RxSCV*`SfovSJ6Y>(yl;qNzZ*+SBtuLLE<)_`;_#-JhqydNOWJCj>r&
z?4paWZ`fVB0{W_A6_6-_@&ZJb6#-MGMu8&P)HjGE`BRe`c9pv9dd%4D1d^AO>K^Tf
zK4!Bzx<{3|wFM@vDlozgK06S*f&iRUV?HBKLN25n{(1{u26jgeqNC4@I~L<<y8l8f
zN;0FszneYHSU&jjXEq;uhFMFo5T8Oc-lLoe@<nMx4(CAzI_sPmdu8A5#eVMIu&D9g
zWPaU6FJ?D??%d%D9V}#B9&3r-v~*MrI4m12r>6JiwD(t)M#`gyHj));Bj#<wqy|L^
zZf<UhE+@pM@|^e6tT+lI%Js)0wSU`h>{%6>=PSes``uY9)P}+Zlq}aWtnN-f=Ffu$
z2R+qBh1p#N1$j(OLVi=LzuI~J5vr;xGxu#2`=jgWN;{^W*{T}*x?=<LiKZ#WXR>Y&
zE3GFK8<>J_wXmL8ECrA2v@cHA!gqqRLE|(H+*RN?ThX($cCED_Rz8ZJD^R$Ha&DUM
z^yiM%BH%P}^BVubYk<9a0a0LaK|lGHMlXS4NO3pJ6-rFwtLFEI2jxJbQ<t{h!@WoA
zzXjyK>`)WXc}KHq=h#avr%dZ(PP%nVNRy~+r{Ldb64B-Oxr7&d{gmK5{uE|?uUI=x
z_C{EBU#cAWj2U!M={3K992u7A)w3kWOdEe*dTRB9h-k(e1w$5&gnV8^f&@Y2a>H_9
zM<*w_z?37v%V6^z$_+TUCQQHq%#y6cixg!v@2eIU5cm%4!D$}8`Kkl7Vm6C?<sJ_M
z(6{4Ub&{-hA+nA@gh(MS==n0baY940K)C4XlHDiWGluUW{Bds(Q8AeQLV0~i$H`<N
z%F`0=;DBQxv%7Wwc5ZQ$gmCNl&WYIcEo4h!0O&%;3|9|p7TGVteI0CgLl;k~PNZ|6
zNZ~_>zzFpBeH3o8nV18=_Y8KrOmmgdoDcSab7!=H(VwG%V>EpOn~TAEXBwuD((uYg
zKR@&#Cxa~WT&I=iwOR#m=Bd<L?2v>U8JjmK(e42CAI#x2*fj<vJCPR{qdq_Is|kYS
zJ8tE?#U?45XV>Z%XwYO$`P{&ctKQ#I<zlD#!D3ZJ%8onLHEbqMNMp+5e!xHrbfd?*
zkN>6Xe#%-Y>6zW<P7VAfAMvxpIA(gHKhL|w429}BPNU_5$%mFB#D>L3F;s2FK4(uC
zDUxy1`D`p-*W2hKx~CaVU9~fgz!uY@B(YBwVn=xiTFsBcgc>HfV~#g!Ulr_d<;do5
z3|Dip+HhImh`L@)mpx_NRjXxSfBs1M^)U{lFEjpAe){klVLwdPEigb4`vvoaNo~u!
zFK!iKfEuY~!?)VxB?c(p;@WtVY09wZU*KCu#-%{td@3hf2NmoB(+Qt;tu_brE_&_%
ztjaBiA?YKcH=l=j^VN`xl$58}u}pvMM*W*z(3uMBJZsX8U@$wUp{)3(^Wvo7&dL**
zMgk!N*?2zllUiK!%4{ax{@HjK)KxCDogmlKAVM4f>WYfv17w=ZXUp}824&!AmgdGw
zJyMAYa&17MmCokqoJte;A?$JxtlK(;Nl2fCxNg&$FFGlfz?!2a=zHm@8Jist$JGMB
zHF49ejwNv+KnuCWWMBO-@b%7O(QD?xf+jPFS!r=c(7$ZgI?~sbl(k{eZeUU(KHTvd
z^d0DZV26_24A{Q+WZ+DBOdd<dq7yXU>@;%`_p=G#l@PN?A5}qOv4dYwm1r}@MZ8&v
zT@M-3t6aZ_)ms{oEBoa)zip9KmoK`e4XIH1OF6$~0_27a8-s>2%lOJqSD_6NRHg1*
zOHbZV=Kns|R~J>mrVGTcG)?3&6k^GI%o#tFp6YFjm>4uKG$fG4KCE3F10Bj2VA^8x
z0IsKfstvT!k{WsBK~<+v(!#J|QSt$6i|^ySh5C;d#cavb)ehw0&rMi0KbDk0ow6?u
zr;FeHZd_wZ6;~j}w0Yj|<|6>2b#@w(FbY+)Cm2t?Mv}PRIp4is<aOtDDm6?UZ7ay;
zK)DjBw$+bEYAEyan$f4)JP(`>AtGu^M6P5jRwEd9vv!i`zY%=#MCuo!W(_%ZIiBo&
z+gz6R{rXVz>&k)r#~&BeqOYxj@K~6CP3Fk(%3kWnHg@0J{U)+dlJ-gN)tH*C_c~+3
z$WLtrul4xnaelBQQ70?ayk~x{ST~PZ2fQ0^rzLvG9@BJM{6D83vYmA2;(6u|*0vHK
zN}s<y45CcDhS|p_$liYwla0LLZeu|@XCFN+uEoQO|3)`y{Q#+P0tz8T0e(dW8;`>J
z7y8LJbCZ;RBZpvw1c1tc4Z_7bS-5t<M4$kuBx<0df@Vxh<8-KzG;VCLHdo#1mg!VW
z$3OoVcx@0-7bF122+C1ZM%~_*P;(P-ROM*3`)4EDcr5^)hmiB${WEovb@jy~22@XW
zAhp!pqm#vnUk|RMtU_ZFNgs0D%w)n|3f}VmHJ%~5#KHi=oO1ysugFaFSKDYD^T(a9
zIt{Pb@h7Cz3zcW?ee0t7_61WAfkNmA^<K2A<s6<y5%v;iLXpQ^%_BMcnM;_sepYH8
zfEC9tPbgdt%fDLt1MMZXrtS#c8kAT9Ta9(*m8#M1>wGwnrZZsL<feGA)*D5Yy57fT
zRHk#Dg74h^o%03x6%r+`q(n5Z`JtFt&#ZUx%WF&ClOi0T+$SE&NEcUxI0JJz3Ji4v
zc{C6!8@GCSVnRhU^RpKWlWM_{+a~Ez9OC=;&9Kq7>CtOZ=<<cMX@Mn%7&_Uyf`Va>
z+vBi4;Y=XaEC3-<Q~mCVxE`>FM}Yepn%Dh)*t6AjJdK5!%jW)dVG-b(k+|XGin;yr
zwZgqGURY@WJoz8SQ|G+f^B=*HZ`9o}lX<e9Q3k*ucP3F*G@DP4AN_ZL)`?B9&e41y
zc{Ij%(|C++kRVf@uoRld2V;ECm-VNE(!l4sN6KX=oo2M!B`;uEwT2*w^L}1rQrhyp
zul^BA5}31hce>Of&~-acn|2d_Z|f>u&N^!sz<(VLrHTce;s}kWT-<&p+PhwsU2c>o
zzMatk%nU+nr$2dl0cu7^)M-lVzk+p7pxzp2Dq=_QGhhZKf(n6N;dx^MC65J8S8E>M
zu3)@OF9^jVY$))Ln9vv1o5E{82L7=WFdmi#?W|h6dp@vwJoUqU@I*wj!XOzD)65tj
zPzr`FQ-I>}8eEyD;GvxaqbE&4k@*dyhaRN0h2RkM`9REJkR<LZt%n0I=ChpiH%f`d
zC48trUs7V376i|hiJ~?f)4xU>_vCz5u<;SrVOm}k`!I_Ee&dv}Pj^>g<C$WW<}*#e
zpl3BIhA0Uf2?pbzw9nyj6gy@j)4W-$vz%@<5-l;TW7-;z_NhWM1B7bK-eO?PD%LkU
zNaqfyQu^8{8(~AZJ{a^z)bp3*+;h(tKmM%+c(~ry$evCyJNDZ`y}ci|$Y85q%W)cH
zaS$ReYkV2&MmWIws6`Pu6oCm=q^uUv)nEfn8RDx@fH&Upb}1Vdnff0-DPkYhpC2Ob
z`g*CMe9Xj;%?IhLe<k|qTB0AT{h?+dYcr3rwIsWlQbw|*0tozxYkIX`u~}ifzdZlg
zmT`fIV_ZaH+~2G4fZoHeGFrOagp62lup<&uhgOqPAI4oV2fzPq(N<|de^XK8B!SMP
z`~jN_D*!Uf(!079s~1L&l}{}%V)Bn8#y;L40QBU9F52&SYeWu|+J*FB4;>KU_YY*i
z3GxH1K2+<A(X;eNJ;(%$2{K1JTf@IDFE3R=F~lqthy$5020Qr-uF`M)UGM35-P|lM
z$$}AtVtW?&#-qSML>68i;@SJVs;`itN2_R_@ZM5_6}L+tyxwF)ZQ)Ku?3O-E0O2Ei
z67F3|h*WiJdK>%DQao4I-&U#`Z8Ies;6qirbMG|_-Y_UrK6t`??sN;hI6{4U#pQMj
zMe3*Bidoc?ZB-MqEs#U6F|WIYI@g}NTgahRK>#(Z;`aLkmiZRG^iLmFKI=^#Z!rTz
zAjKwPL+bxOynZByWaK9P;Sr~Ku{zW~AMlR1sXV#DsYO$k$v!*~OWnimkR(Kt7@g_T
z^ny0Y_Qar8%vIF<d?RdP@CB)@q^TQk>Hq$}N4AhEB{n1bQCVcW_w&A596cnNfNPfv
zZvUw@uRls_2$ov;O4I|fNwCRPY(A2ZGDwK9odXz>_0ZdY))?Wg1Ol$-WfiDoem{mZ
zUXAu77sb&2)O&C7)l#EyeJj~{Sd_<Wd$gc^+2ORPczFe}cda%RL#LG5l~7{KqRr3#
z5{P1$5Z5IYm8?<QzkMP|x(2Cjk3RWDy(Neu;|c6%LY796MeH!7No4^D6ogZBd}dqk
zADyj276@!F+BvStC6s!)9!m3#-A82J!%7I&yZ+uu2yYP!3ecI<<zHFJUM*Capn^3%
zrhbx4@LsY4g(}2!Ad;P=S>zV1!&!aK0`(gI=(KYX9+l$O-}tdL8E;a$w(EHW)yV=w
z1+d0g2hIzHeDKXX?sixW?H-7F6pUQ!F&NBO@m4rlJL&5+AA&@lXqh(?FPa?u0!K6L
z7L^z2<u&a5X@*MEe~ODTZYHFOuY;wQw4y%E|9;t>st{>4@>Psq5)V<HS}Pj8C03e!
z1?hkzsX?FwN6UUk`O=xb)EHh^WA}edK*uiyP?kM8rI6-GU_k`Y=QRflD^v_63%K`K
z|1aolK1>|kz)W6uHw8Q3z<d<ns_zP587u&)WxG(*S62+)5yA#1K6W$kRj5LmxMbm*
zbX8lQX%Ga8{8IHGmh(ONM7uS99C9<pA0cQ%gbc*BPvRpvW2!yVi_ni=%7n>|pyOnL
zwSKrYX2{pR+C0(t-={x6TB@Vfm}U2Yz5wjnD2?b2B3|kLth>W%5NvZMo@4SsTWE%y
zuf7@NJwCFlwiJ>jt~4e)JSuBT&?wJc7%M_xT?BftZnZ2i{!SCAnW?DjqJlEJaKML3
zzxHHs@zUzt1!7pYu^Y^-IyM&tzd+0f!H3%E0BJ%8XIT@KkNrmX7cl7j(R$dyQ+IZE
z>)|&_<lE(kF$MH+rBp=f7jOsk)`bWB`<aqi2d}Y)N;AWuu%{m1`}I+>lE<%Mq95)I
z#;gHG(%^HfRodg1vH&^nQpiQvACem>b?tU^T8zl)wU{pAEqz8h9Lo}KPU*&DUIRXj
zr<ePUkO@mY4+qo!Jmd&+5H(^dZ62Evh&>Q4UL@s>@pnlJJheNpPL!%#?53lpK)AaB
zwo~UXZ!%;?Sm#;_Nm|i3cvc!|veFYPLjQggUj{P}aQ&UBLVVz=h_IN*D5rapLXeae
zqq~c75CSFwbM=-=b19S;FYRz<udJh%sl!ogUpiCk3ahM~V|+ymT;cB7Mf>)Z<A1-G
zPAG&21-QC%z$>o`3VtV1`8cK+j>F<`J{4B5j*<%~ejX(h%Xr|kb-nM?*->y|?;>gN
zb{yw*=FquI;+vJ6l-uj6kEEO$AMMuKbAOg<ms;)*h<UoR|NQ8{^7F3I<j;pp${^js
zm(mdm&p_stQ%}%T%-V-sdQ8Hk;$}^R<MCPi+t;9GLS#BzxeOB{uEhXsirMo08bk)_
z|D0rpl1O3gI`p$7162Fz+YY#Se30|HZ6@Ec2WkZC4ggT?{R-xqJsNSQzOBP;HYg4*
z5k^=lARc~A=)b+amB-N;=}N&nK*VF`fen|EUE!R_cFWTx3cvQ-$5U@dB%t}SKxJ3J
zfB%~59IV^?Z<_Jz0H1-ee?8NH#`gQY3dkCj2fH>oz;dtCAN$zO=-J}OkjeaKyD6+%
zW%t3$769AD`b*&g58ApGgjO#6wbh^A{AU^+U=u9QAXP%|`a09=o%`L-$)Cp^3G%=8
z8(TOym+OWkN2l)nevR&5RVV*Z4ZynnY$0E0<q8y;)zwmZLzv$;*>}z2zeyr^BxQU!
z^wGjJ;V+syi>4Ex&Y?~Bk!>9)S5>OkBi9v)j#zRDW|Qi+aeNKFgO%bskg<FPrcd{A
z{(i7FwDxy5ZYYAb+oQ>l?v#SIHK_-}Pu~BICgC(H<9h~XQ#l}O8bOw3;|Ahqg}8T!
zRfTwr?Qa|u1T0-?*t8Qw*A~k~QA=;~7=DlZ&r$RwOg#KP*K3fRTL&6YA;(Rqi6f@~
zI;!L%aMvQ}>F<C*?8{hB%&Z2H({57w``bwJp#;>L=i&@~Of^NCutH4vZS|ikVJ<0H
zJWJObxiZ5!j$8f}FYGc*JKl<m%>U18^lwwT9znFc_1)bao)mI7Im&i@Qq}gO_t_2I
z;I%IXEwV<gEG{32;&CnN^Tim4y5b?P*<f0ezymf~XrkaCrle-@<s}iLGVCDtaP8BD
zPU`aWK{@dE()_u90!4#>PsMl$jC}n&u^ONPUH?7Y-bld>n(X8FZS??3tzl`gYQP>m
za8QogZ{X^T6518;MFMrMQ7BS_?XSs-fW<dmC$l#hqQ%c=%bZ_+&bLrHJ~^q?U!%B}
zD;udO80V2a-$+)fJvE?`DNXP%%hUh90J5C}9zlKQ0LMb$%i30UDL}dG`Iznq)Ui8l
zv|Y6+si|fNKhe4$)cCFj<YBe!1_*?YrwfPaHs*sPLIuos_~!>IoWLK-I|x9;0%1r*
zGifrBy8$4&Ywgnm+Wsy-C>8XG>HqeQ27cb3qU>mXk`w#RDU`kb@>*-I;?x7oD;_CR
zrluojv*%IP62^WHEOj~fyilrb8=3hxyXTaqlkV>-$-my>3p%7qD|opf2#pfgk+QGT
z{L(}I6g_hG)opZ?cazftSqddLQrS@&R|41LP0X=$;Y48B+L(-N8mV|D{L|tkSfDK!
zI*R*bmzk=MCAeL^@(L`NDq%p5$qzWeD3pucCCI)vn4rKyE`nSJ1CR0%`^)STsQ+w=
zq6T)kT*g2-EnEy<@-M>0|2bHEqQjA*#=>BOiOfW{_XT5zZ-3`nR;~xwJpIT}VBW!0
z1|+2HC4!!y$AdbE$BhQx$4fZ_$Ib66!QWT!@6RB}uvr-IWJ+!iib*-x?DuDvAfPOt
zxB?HzJnqPDbXWV5bQS7XG^!?#3l88ci*Y~SD}M6|TIo{pBcXM#CC4tKrrLajWVmwF
z1LRcrvuIZ+{<*!#EKE6Ha0YAqGVtP|IV_yl>zzLS*UtbGDCSIOFqwyu-LPf4t{q%(
zsl(vX6$k}iD5XsJnI}22!CoJ7lHqBeBZ6y<xQYe*kmeA0kH3F>8!Ga9haXg;8%Fbz
zaG+}-%9)huiuA75#lw|Wb>I1FTg{8&nxtW!Agtcj&0(`|jlaHLPTy~;{paEg?<9o?
z^da5^@xi~fS{}hH<yj57B(h{Iz5HM*rggL97VX`4G6*<I3#^%_KmGZ61dSX8lR&32
z4*dqjL>K;V9IfN$i~>7dxoPtUEl#_=Y=ug&`(htN4EcW5ft=8Cy?R9}SJ~4Zd@(>*
z^uvkh%3TDmAsj~l;Ebg01h6H76Lil5zbUAQ=aq)GHbccvEJ3NZs_)D4NXtiO#J-O|
zg$q3vs`&eB{-+uNrzD1t+OX-+I403+#gPQwDpk5GmmQ7a1fhBla%|aB#A=}6N(%wh
zniT`TAb7*pRRg>KgX7e{|MGwSC-K*^h#Iw|@nHnGhDbWZb>6;HEISlHxj0;#(+qte
z*1<864Dz5sP5tJle~<IZWY{{N`>(Gug~CT5L0rh~n10CmTAAXsI}~h|=YyA%+<msu
z?gf@|Y|3mlKt_K2^yw4u<$=h%syrYl{^xDIq(`a2s6T3huYVl)vLuY_OFn1?z2V;3
zmkYZ_Sm?5;kg5MQ0RcR78W`}7Tmi|cM6-^`^L9pibw-f%9N|)ebd!seHGgJH{hRUm
zpR2aY7b%R)Cky_$Kq(dOrhDRyZ{7Q6IS@Qp%jo4JIAX3xo#qYFQU^7x4IBHG3xL3P
zOC|J<$y{|?32b~86Xq*tKC!ja%$x+f7irm_fcrB0#fQs2I6j^Pkiwx$O~bZ`jBc2j
z;CC`)Ihb)y3f=4K3KhB|P^?M)$(0GS04bV26w9JP76MK$Uv;P8;f?>_qUE1|`LjV>
zdHG?#zi-M@<QpLNL;v}LI(!j{Ger@Eyqwk+85U&`0dvqY8lsvlU^lPFc?6c(h#x8t
zKg%Fm_48gJuVHon&e2-&BbCuc;2Z8fxY7`bMb9qQ{R_aVzd!K2B8MO%xWO0VM8^!Q
zseHDJ8jRQniU6>KkS-h_BR1>M$p8rMfB%}RGi#|ozn;HF(2k+BD1f+CZzb`bY|B=n
zyt@|>GxN{QWi0NEHV#L^ZycZgCiKsbK_vRtQln*8fzq_)v6+zPR;ZltF$h!D1D=}O
z0;AxQe`^82#nTQVvvO_UzWne1xULWNu4({NfUrV7503}G$$i=rbS9Pveiw=8hZ@y)
zTy9g?9Xb~6XVzwXLO~rhbVjwF(;x0TSzCRwqP2=)z5<dl)vnL?ndu4sfM=k9!UFhK
zEy2Mfl-y_rG!N+?ne&+-Tf+Z`t!`hn<Dw|^k?NReQw;!Xt|O9AjrxKKdf+dS>0la=
zBi|BFRr4_tBUys=V+#EM-@3rgu;N+RiFaD+|J-c<J&&P4j!<BoY+&EATZnB@PFFx6
zheAa?CWVRcFE<0d;KiD|Q$Z=<h)*w6{L8^3GneSaRjM9Zm-SxyCj;0Rq6q6;ZWBd5
z`R(W}sQ;iU*8orFfp{l5^4`!^+Jz^?ES8XHrtKmLjH3PCfSj^cmqRU48IxAfv0qOC
zlGAIj`^@`xThY<tTHa;h%!vL>6hsJ#&~$ptgQi)N5(DSHI1~{@34)nF17-Z@YP&~5
zsQgEU`n<kgL`$t6cfqT=UHbF;MCMd?0JhW013^c6gmlDslAs7~DNHYXN3YomLso?7
zFdyMP5Nzdq5qysf87Q~Xe2<YwEXrw-y2*`{QQ!WFNPN*2P3v73NUGlJDkxL6h(!9I
zN8KnG5r=FEAj;Fl>Wqa9_P*SC_z#|Z1`-#7Mg>)UF^`5uR51c=BKIM!H2QM-=`M%a
z>rNhEj=1<HB>#TylrqN6HIFpfq%efMZd)o?Dg^CT+oy(><K51-arcEi7eT&a0JcV%
zr-xql=@{+iKUvd=C%6d*c{B`z<dN7LR%7aw3~#}UPG3>yEI+sR)?K>x#`w2W{X1n;
z72ge^gR6PK^zq%0>Yaq$`!Btq{>EA9cQ*n<)*>+8nl9IWoFd}JjTk&ID5pJzYk(l9
zs8E2G0HOr{^bF*nrgY)r{5P13nFUJ3(8~NBwto8Hi4qBZ#0Y^QfrSfYu(Fm1q9t?!
z6M<16zSE+CbrBq@Z0;RtNI#YLypA`AnB^iVa|U-O!3IkfsN8>C^-1$lQPOaKJ3KsW
zaA@`~3dC+)avuyNLnfs;8aFeY+GF^hvptVPmqqIxq~G)h-2_+S-r_Gm(sylXwCia1
zBs}D0lBpPU0zjW4$$=umE!)XT(5W4e<T{usCgudvCG7u{>QvJvi~2RcL;}w)=-t3q
zBMWNk0x*&O4BGMKFT^11T#_B-LA?CH3xL2we*1lL-R-34E}8~{FP%*SqZUAX(xAY2
zu@w2h&WhE+7edVLXg0;IjolN-mC0b6d%AA}6D_@cyAxO1I&uzfc=$VbXD*He)L7YN
zG>MD1e*iUD?;JAv3WH>?+V9dqAGv9f=>3+)WIvXTeZ_BuPtBRz&_U^X&^V{Cy6aqR
zk5Tx_F<K*MtRv)9uzs8cKHAUVLG!%wd+xedqF#t+vdWEsngJL{A%Pe073Ej7?&*;q
z9Yd;q0AlBcdpu}~6jFGZ&-Rz*ij77fjldjN^qqQEv%da)??Z(+`{9m8&2G6_(@bFZ
zptoq}XaDxe^V)g!Zpu0;;lgF~J$nE3^_Zv`gi;nMEYbAg^5^a(Wyw%IU=lL$`{#HE
z509j4m8AW2&F|RI#P=dM8|L@ARQ1aqxDx;hTfkL4mH|D;@fABo>7qlN42iT=?=Kx$
zjM|!Zh7Ebct??K>Nhh~XBCxui*XO#UAYwEQaMEN!2Uj)tx5}50S_kQ`=yp=a9$KIE
z))&LQ3klZGeJOmno+T9ZYFpplpD&83r%fE8lM8=(_j4+B(U#j3(yl>rs)+qx4Fuwg
zv~9<gSUPri<!FP?j3eYD-reT|N5TO^Gm2mmQV(GiZdG>WG=Z*F^HWTtm`T=&_E|~b
z0z<eJrk}czfZtGPBX=6~OV5kd@{7Q2<nL5r{2(};s&h8>XdX=xw;`+7AU|Ex$qGd2
zX*NDljE4KLxFj0RG^LAyz*6-G&{QV`460;K(4ewH=+Xp#cBl5$gz`}tLn8smS#vTx
z1Lwz18qZhI@eNtwZMI9@gM0$v0Y8L3^1M<;u=Wup_B&g!7Wwz4^FZ9&qD<Aw!Qx09
za(zCp@riQ6r^3A%VMr#p$oMDlG8%y?4(hu)dEA&L^k$y(CS|ZU33`yz5zbGa0e$K<
z7(14fnj0D5T@Iwn4MLkJ!1G<cG6GiD6~T(wTNhG|Ye2=;e0hm+u?&9IVbk#-LWryB
zT0O>9{?S&Ig`ni`BM_&?DY1Ul?t#b`C-1PQ0kX|<e!F9#ZKCruYQMN%O6!|+g&HBi
zVx@k~waHg)w!}{k&@Vqbt$;xX<JD-^`(*Cqgw|&QO%5+Zt-f~cPnPTR+8-FW@QpbC
zrw3Y-^Ojq8gt%s`ZAH5;uY)~NCtG(vIljH%bv9k>B@PaaRUWUq%UAB#=jCr~R#S8V
z{J6&uHKr2W2fR)@8r^M#v&XZ{haZlHf!<NL_!jZKL}Y?*Q5EdLV`glKXFN;h&fj6i
zvwm_B*NjA=NyXx;E&3k9<{>l{p2hCEG<AI53(xmCo&VQF|4G-A!B?G=V$u6(bkf1b
zDnuky??2;QA7M4=xP6xn7rC-kb#$P8G+MX4xr?$H5-<3!ca_?Hd_y4gb{SBLlD2s1
zj31*YYSdD&Xq`GiI@w4EU_2IzAZ$+-t^@1*Du_b;u39FgKH!6OI?<M^1DXTwi|;;7
zft+VBX)5KQH;^~WO(sYDy&$5(Q~BrzC>CkGuW^DaXZLU@1wQM=jBLfk%a~h#Bu_Gk
z%|tU?Mdlxb`lCR^M+t(+g4T+q1=<)4i(jdbHy9%;0cV?D1l8{3hvun<XTm$kFFik8
zN4Srt$<H^`I3BK^p7vqm*O5D>2zXv{J0%Hxc_-eJ%17s_7Dj<Hm$bR|UaB+*ho*LS
z3GlyufZWCc&vXCif6L!ThLE!M(yN2urtcZza3*WCj2{mg2?S8MX&!>s(ns5|Ru<?K
zzRM_WHR<5;8Fb#`^Ijnb{jwbJDAGko0(^_i(O1ai3V3e!`Ch8y)7Odpx%tRp)b<pt
zDCL1pgwQ$ax2&63l`dDbr1k>Z_DZWuA;7s1_H)MKZZN+AIBm#;S?XguygWH+xb=$0
zs<jygXAzXvpj4|IYIKGmIR;>pGOUMlbN#;bWY`Pgwzjmv2c3{sx1is?nnc|-Sl4C-
zzwB&@0Q)D8i;A5~&^p=p-#xaP4hG}Wr@=88vcaHxP;xm~u5P8$HZB0^mZb0~umMe*
zh!(yN$Z<Q(pim`rqIj|C*Al_`gm{3Y#Z>NBBh$9vJ~>3v?;b-*Kw$3ZOAP{;-69O2
zDJTdqD4^@lkSY2MHccTnKsci-H^l5F$tFI+2a+2@IT}(oL2?W)<t<@=$vZI=z-lfG
z8P1_vHf-II(ci5XwzanXtuU$sxqZ6vko1C#=UKhg3~k%Z_DJGH*}N@x^!8?D%jf$H
zx+3x^QmK^h@sJOysGx1GX9|V!0>&fQ>Crr0k)2bCoa~<SA2y*YZl{B>_*UKN4StJ{
zRpz|dU4cZ}KmKw+WCbnL_V6|cf7)$FW9rT?PfJGkJs10FG|a5tVfbsf?%QwaM}x)|
za&aac;-hc>39E%~(s*09^RH1*=1N_kLtwef_l{y3D$yu;<ox($*Z23TWew-M^n7ah
zn=+IjB3e+#n0cKh`;A_ks=N&X#H2~$%{360v1=kaag4)y!Sop>l6HGKrGfx_#=nE)
zr~`ouQ@TbGtdKZ+R9TdQCL%CLz~SqCGeA_&8cpW;*gi05=!{FH4iSi2&oTwBG==f=
zKR_D$Sf2jy?rN7a{&NDWHV04u(#CnHp_U-6kO6jHr}fzx$ZkIXP%!0bgb$6#ZZX*g
zh9gZWgT(AJkYsszxuEh!omJ=vb&~37IHJHI<FSYy#e^w!)#@Ftwj)X(Ubka2D)gL;
z1m}AeDec!6ht~3ZfYg&cQq{!;Va9*iBM7jku2p_GZmxAbYlOj}R^OCw*2!tLTAg+i
z6h06mpb&c!Ko&dC%KOo2NXKD=h@S%`7ffda0Jw!WXf&C(|4>UJRS0dRX16PioPpFC
zb30AVL%;@P3F`n4sy_y-t*UDuIJkml906_AAOguqn!rB2D~x$u(96rKFa<dVNrJAt
z>pDd}uqjrB4o);PYDB*LSiHf869uH<<$zn^3rO;SzTjNYpP&|XS!^iuw3{?x^L6Gu
znhZ-c;9-U9`Vx~+E|D2ez65AgGiT2pGd!rZ1t4#MLTWy!Q_9lxc&W)@zjRQqE40&V
zI4`?ZXkB^fV5hcq&#29T?rFgT5l@AAJ-(;1@AHm*l~R9z`ZsVD@9s<+>ka75i-EB>
zZ$~B+;I7&L9~En-y5ase2p!CnVBH5HL-Rp;n~g><geV@p*n3*lNOd}4h<vixK~hE~
zryJSq41vkldAF6lV#T+yPqQ~5ptF0HIr1JAIXN1|PWp%7EX6MZ_9w^7VDZ>ww~bCN
z66P!|LH2I>UN;~ygG=L~jkzVOcNs5m)0U{_qMLLm?cz5uLEPB%>RzV|vU7<@#&f>N
za6j8I|M<?oe;|UQ(0x}@4-W{Tg`hYf7}T04GX)!pI|KFigNm%rH%fIl3Rldv-(cw5
z`Nm;XS~}{2CsOIVxC3sCQ+?YH2VDPhpxKnl{5Gb(pG?puE=?}1by&Uvyno>Ilt9F<
zFes&bw)=D|J5Nq>Qd839{XotEx5y%-s=(=NNAv3UuUr`hM)8&s!`21`Q{LTAWt`hV
zIAoGwOqUBlm@34(lNH^HJfSa3@(Eh4C=6XoQQe4^(z+|^y)PXE6ztFS=#22|_<=vT
z;vqoO?8(BzS5mSy2zr^CMj*BKE0_VzDo?S<BpaLbg=>g6rTe+~yKOMV(W%Z+aPC13
z5_RIGGH6<FM%nja%72?*#Jmvf>E!X)fGLq(U)KI%GJ_I1%9I!=W_gV}k!H|JBWQL*
zGsL_qMwWI}aoP4jBSLh)A6N|-41UDC=y)#(NZr9lS^lXP_11Im&Vjq6i4eIhsljq8
z&>pviP}<HKUbYcHhQ9@^*kfEeegoMIdUt6)+UoJZ-TgvCH*Z?D71X&w2G6a}%K8rK
zY|EAG;(18MACQTpIvp%8Od~zD(k#*7Vn2z4agHQqaa-GgUi4oozjr!RBq7)eQ>jC;
zVT!mE4Gp<Pf#}1(wE&FWC!``}f;xQ9om>|2>Kr)LVeMmrll23`1~QiiE6mn@=y8R*
zJP3ex*S91({`c}1GpUbxErtlC5<TWh<@gkXP0(fVv07$JWWel-w@v^UFL1dLSvUU@
zD<a|E&8t}uxkXdM3mPPD^6iCs@3!3X4Ux_?F_cLl<a!>;iZhgS(O@-DDS~9xt)Y)W
z>l;v`?y7$1p;q(T?^=xpy;moo#a`iW0@higHrfR&&;b<yxs<?}v$G)r&R1^Onh+g0
z$I|Ge%oT3?<XIe(Ny}EAn$7PhCq%GCEZ+bvoc0XRm)DWm0ClzGf+gIL7jkH8x|&hf
zx@Tnz?#M_h=0p15#yTHqI5bP*gtYAMRq<$nSO9o~KiJRLnRJxAYq|jaItykQsQQ6d
zSNF0JphLRTs&sG;-yTiR)LUz_7&JWs-FiAgD<S-|F+We69Ma-QK0q{p=`S)WII=aE
zDdMKKg}=AlOr$H-=?cmLMIZ&{1I;~#%mJ^L-TpDC5?&YKBiq1dC7(a?!zIIaEq}Xx
z<Hrt}M}2`D=^Wk2xV~&zFe>JaY7*5^^pQ=Mo2#^dYOAd%{x{<^9S{L13X$gb(6C7~
zFjbqP_0;?P&_op0C5@FZ99>UQPHsAVP$4xG9PY;cxuaU%hS6I`&%K>LQwOUVmo1e9
z-F@p1a~9w0&Y@~!-Y_Ap0eec(jARu}+3ON31Qw6(e>MKoU_BQZJ=-7l4O!7%9od@7
z^|kq|={jcuP;aD0Qwr9Yh>Gk#Vwu9<XcQ=f!d?ik&v&0>#BTiw_g*6CT;l{|Yu6B`
z{v~p#HMEHXBrNvtdv2rqK0xFv><EEr*4oZ-+An2@jprEAG<EBg^YiQNpI5Xbkqr@~
zLT!U1A5|h3f8Fy`R5W%}IN)Tc@J-DtIQt0*5A-5*R&MP5LFls#RJ>G?pbYO6LaC9f
zx0}yRajI%7+DxVhu{x;Rmw_$L#20cJ&F3?+o~3d5;bjWHBB)$zjFP?i74-1IB;m70
zyFv_=j30rTt*=!}D%se6`Wr=uknyn~Y^9$+0*)F{<~6#`Urj&UTZOhW-2y@>gJf+0
zFECN2;yR98>?Eh!KCN%|+@z}Sy6W&j5)lm%?bFLyNJ}a5J5$;F5wHSZR~pq%i#ARy
z0Z8zrcD@1u2DwR64g<IV6xmI#45Q{b$Y!w|PZRX#Gbt1NcKCF<i{qi`s+OJ+U4Kdo
zyQjy9fu#$Wyp|+#SKGoWz)30%R?p*EBJXq2ZWyTYAdBfN;XNg%b;H0B80s45SZBW<
zhlV`<%oT}PTI-{LmT7kF+im;1+=Z^BFBrf9z7&7)j7M--;<rDBsOyJaV9*2ANEjZK
zkn|BTldwbQCA#DiC{k55Nev=&^Pa}MJCDH}zQph)clP$9;_5_(Jz4C3FOc@Y=amn;
z1RvE6l}~NX)_#Qf-t&otm*FjxlAMUX!Ex``kvFz52~~N~k6wH8X0UIRt~l;(5{8}5
z5M*1WX^vi_6?va@j)YyW$V_mv&)AtpN^s9d5S#xAM@!RSC*CmZGlv;yv*CMuwv~?s
zrundq9ly~=*{YVCcw=CQ=&W~%0w!^Zz9x@;j^ay+Z{5tpTc==-FkLRNVTqUbq}gC(
zgnFiPZ+3Xp6t=ToL5v@1u~mapAy>}TVs7|i_?rxNSAeI5I)^M0XAQi3Bb$=55nfIs
zFo^?jEfOOxP8%J%d!As5(#KZVPK<ncw>A8xWvYSo`X{FTxT(Y5JQpa<DK_-N?^kS!
zepy?$LY;`P*xUxEMyWnBMEld|V&B~R<6h|LqanW}R8Un2M0zW7$b;zGZ?a8+0|fT7
zQ;DKfPKCA}ix&)3uCi|n#9CF-9%-buIX<)%vG0UmNcdEY91%Zu|7DuK*D4)S<dH5U
zl>FFSVQX0CGTx1?S;hL#r5uSv#(xLkl8;by=(?^*z)_2L??iU-M%46Q&t(wOEUw?A
zby>MGC<B=oC`-cX%>?$5ip{H!m+`&=A5Z->`@NW;#K*3}Jy*q2f%_V=*GHcNbjp0w
zsj5iA&m3Lf_8jQLt+F|DsNYqga}4h(y|i61GL$<_tH<spb|xWOLW#lhXH`YNuEE(o
z%85)$m<wK~vD+Ms$-(joMnq%wG~|4qVO~s@c(AWgUyPm+Q0853V@}pqVB(>l_U!12
zA;C`{S;gmmSU9HurN!<|ML!NTZr>9cTofu(In+Cj4JxIw3lN4y(C{Zs@GV1^AKfh5
z9YC=G(ya-O{-$Zzi|PtdOXJ|T($l!`k`P)j((<8QC(O}%>XFsrdCk9JqTZ3b5rqeN
z6g??!9Q&nyTT5-0=mZ|_v-xni?i9?vF%Q_r24C3khV(sF(hjR0#KJeW7}Zshi`=l4
zJg=eK@xBQN<4f9s=ZBbsEjC715mY)-{5kmQ5QhvXQtVK6Uz7%6;4D+xtN{2fI>U={
zEB;Ya*OZ>I`4q#2TymXl3um~W@C;CgKav4=>53N1$No-fqZ^!X2fU>Y;-l_>PiT<$
zG-m8s%X*!r4dveaWoR$Dhf}YxCdt83`n&b?;-azDgVqFhpzk2G><1BaaL#=Jw^jv*
zme^UX!>gGP#bwdiTujttM3?OYpyG5tE1MngLB*H^5?!55aM-U{&PY;J5FNn3aY<xp
zhsE`>pZ@(I`~q{SN!X*!T)!*xJM|-!44L)uT)7tXZ}S`ZdfGlbUA~={)^pR&5`-;|
z-|_Z^oWt*y>%;CAYvmqF(Rgikqe(WG{OF7lwiW)2TlriROd=NXUG@6bhJAQmy^iOu
z^h4sbT#BU3z7178?~Uh>C#=u7nF1L%LY|j3Z0A33oY7E|kA#{%Jwic}j&@Y3-R)K2
z-Pl^w7sPzvp9u)?AhJOoiA6f$mxaM)S7QiFji^sf^u$+VuG|gBFUe76XIbhUKs1m~
z)i%zdC1{;#%XUqbbXez1VXvy*lyCWw_o!l1MtOItffmeap(bC!qHEj$I&WD9b}3i{
zZ4uawdb?<oDp?#1PO;llBA{fdoLP}fcMP8WqG1bm%%QaYq2qxrC<{oP4GgUSHAsv`
z4(zq>ger~=zJLEt-kS7j+UfZakc|BSDYYUtTAaMsq3ah4vpjRd%>Y-8S)RWlQ>?u5
zx@1;57zYr|_Vn!>R}+lb<ahB@X}&2}WJpflR|{I%+`Rf7eFO5mqx)J!Y+fqsZ|fnc
zCkOwu8l{yE&f3N1{w*xE_tg7B;>Ix42`Hx00v~`+lBCaye3i26%X4rY95s;4*RzOg
zk|x{!DMs+Lj4@EahTg)L$cZ9j$!e$FS^C;#2^`c7tjFIGi^ldFzKz@t#z#do+gtB)
zq(h({%p;Cf8yiNdAHVtHekE;)jUz>o2=8`&X79jEgwt8kFNLyfVAarjpL7=m4XbDg
zzLBlR>gS=MznUnn-1GlY^;Th7Mr+hADJ7i((jZ88cc&oT-QC^Y-6bIn0#XV{cS(15
zcM0M@S$nO$_kZB^9mok6-}}z_jAx8{aAdb|8ILGl2GOlQ8(?xm^um`}OC0sI*znWQ
zX*Z3!FxuP@P;l~f2BODu^ajBB@eM|>(9<(YWv#-q=@Mdk+8B^PYv&Ma)|-&7befP6
z48}SnS1cmXGwc1Xf<?=>fhAP7hGYzA3TpI9SSA}N7}fG8b-#BMC1`^BV~)ebpxyPB
z_MnJfav;Pw>}T8@lH(sz8=;oFC{Y=pcxLQ2q?29T94a^8j^;M4&RKH4b9;l-wlL(c
zen3R^NeD-RhXS^(Ve5q?4q-wvg9P1lEv28;2W;<<b+uaEs)hT55+VawCxl5c5$0o#
z&b9}5M8QpXW|w<A7ykK|A+)LOLc(X2N{L4h5d+32Wza)W-ghtw!-93S`_oO;G%l_)
zx9R<9bm=X#KSh)0?f84_{hMK<PoOTN+-M?i#%UCfosCE!=ao>OinaLZbZPQh{TrQX
zH~?ACy`<gc@L5hGAw-I6Hywm2QCq78NwVkuMq&jnyyDkTwU^sXH|$TddiofJNY-DW
z5cg^SJ00MKAkGsr2qcAgglyDdSimDwftDaqTggHjiU`Bwav<bj6vWL@#T|SD>x7UK
z1a?X6itpg7GKX2ruSv=`S70n*iI;;Y!r6c*)EL?LyMLHBzQ~`r=_D8iHYm0Xx@tpQ
zF2(W?P(U!}Y#Q5evbp^yhkLnf7HW;sHaf*VIIwIZwt_5EF(BxSHNcUiZ4yEfLr_p=
zP6T-V2H)e1xzOLEwC{G{7Xsl1Hb8BHL|UzDaTfeTT{_b{VKO7`Xj_nfg3@{+1XbL3
z&LR(~w#IKk(4^>#AumEHH_JMNKdKSEx-qy=uuZmQy)lP!KDX*0Cw6!zrn(V&P1TgT
zihAMBctjrC;cedbW2jf@o#-nl3nomc7GoCbSjQp7cv9w9U685($aW?%5|SAr`Gziw
z_0B;tjFMzz{;k^z^8==&Zn8sQB9}3U7;zI~0TKZ@m|-Lt$ZEX}p?jI?&~Pa|Sb59k
z?7CwqS9(!^OGD@e<Mx6nDElY%^i*y2SI4d?c+VD#!aTK-KKr#crDT$@f=^ccI|FmU
z*lk5asuuxoIKP95nFKr_^mY=pJ@WWFygvlm8X{Q;QJKGe{ifS0QJ<}x@azEjDT}SV
zq@>@hn9bu{5$SQ@6nN@qwK}<tXg4UQwV23#fK+&E@<T&XZp6!JO{=3iRyDa5+F`*h
zT({{RAN-(x&IS=WAOEJ>d*Ka`jjiC(10?DnA`a~+>7yW_jl1~+;_+2m7*-XB^INf8
z4z%+Ktzgx7czjG;bbg<g?qEB>k*UYbh3g8HEXcx)%GhgmHmo~SEIWDwHaZ4ydV$Cy
zxQGughayaiDe9ySPhHTu{#A+AE;5ks>>~vH{)l}`xt|3@Wp7b;ovCnu0Q<e-dTep<
z{5S)MDyf9GA|%3=v4eV5Y(MabdE6C7lXz{9@vj0$xA!Mr7vHaQ=@E<T$JzI65gRn}
zXFLuZJ^C}PU!ULeE1g)@+i&+3>0*BPJa9BiW3@Awr4gGP@)Owd#0g02*WZlg2^
zA(QXR;Bg@fm9wKZD)HS<Kd12jpa0eq=7K@L(Mr{IfU@|s5rzyrG6_JHX}{HEG$AAL
zUkFm_z82)m=u=*UOh^yT&nGtAr}k*X7!lgSxE7Y?6_u%*Bibt-8_r2IjMJ`yOTrR(
zgJWv6Wb+Gk*Zb~-)Eiz^sZcENCuIPk*$_MeS2~bhkPTzOBF9T4(sK&it*$@z(exUp
zO7?XP1Ja{pf`aYpoON$<)*?KaktNyirIDSAFB4g&;DNp>iDi-Sh&5LWI{`)b)&MC!
zsNT@?FCxq*P01!??fST)$AihDW7G$T|Cbj~(SrXS3?#=V<iXqY=NfQ78Uv1z2<aks
zH@@@&)FhVX6j!N(e?5E%j2i}4y&EOiX?&Yz)h3^$0RVZXSA`FX+F<pyYd671AxItx
zHzD7-xW3}w!#3*dX*rc>4youHF%D?>Pjfi^LPV9o%70X^%rW)D**pl2^Rck%(2zhz
z#{`s4t|SOii2mEnhLUppjUId=EJueqP2yw7OlTYB#2p(>lQ~3xl(DL)h;o&#gNkbZ
zPyw;4)hUjO3I{T|zs1t<P^mpUYT;907_MYY9vSt;8lhSyXQ#AcPOD6y@QJc&Z7WKG
zxqz~XMHO@YqM6ywmpQ~V_nYt{$?6k40^a2%DuU$Y2;L5ymGylJBRkhFGQdaWvRkXk
zB$9<5slC@<0@`#G5YB{w6P#jaB$ZY&fqO|G+_V}PyQ<IM;$(O*d82e`T$qxs*pt8i
z9Q4ehU8YEi@qxC@HD@S^lHA6W<PKH8e{&l~ssA;A4^Ie*W+PUep;Q#LXdr7GR5L%C
zsZ#0hpH1pMU6N9wMlYk;&hu4yt$p+I6;K{R|E%zGuU~t+z8H3&$0Zz^ig2Abyzrq~
zM|#Blgv5sPu&N#L@k+A-3@2aFiKSP3E&}|{=3-xs5k<I+C860IlT9RODOYBrQu@-%
zdlHd&iCQXULQkn2e&>_HX0E3)1gWrLLBp(H;ybY{ILD-PVOh*k8uFT{O%yVxey1Wo
z-MxEF?7f<(q2V1cfz-1h0>d<c>V!Xt9Ff>Oz_&Ms&ZJ%lyK`DT!czbWWgA7j_qOYZ
zUWtzHr2rImZZ|k7k)M>?8i_Ze%RBx1?XFjSGu??DrT2&Fqt3<1w(V54Fg(32v}MHl
zc^WQ#=IH^RC$MFmA#0%d)>jGJ9Z!3br?_?tn;gP^l{(DZ!G7*U!eP|z16b51v1P@J
z$@A;%o}lW6y6CE=Vz*IaMFf+WNzn63jJ6(sWdBE-z&F)i$6iAEtA#h}E;-Pdd^k3@
zQIEtamcmW8ckZQ!S$z%_<jWB0qBE}SW*Z+e{+`n5{#3C6^%W*^b?YQ<TCH$hfuU`&
zl@^4jJYKPoLy8TXr^NNqzPk<gBpa<U_?!mtdo&F7^@m_LivH5MDT2AyRx8OBVO&Tg
zr3`XJnBr>F3mh2B?pZV$s~a07=v9u^xaxdd05K<Nj)F_>ffG$C?`I{mrB;+Rs@G4)
zpk}bUWOQMCe$sgYY5kpG320yq44OtQZH*?yFgh8-(ea(=dS+s(H`=4wo+_=5+i$vL
zW6Q!_K)WwI1zQ4ykQtr+uQr*ton&mojlWeiAAV1f()2%?(1sM(U1{9FZ|v$YZsstO
z2ZXEF{kuX6*4T@+Oeo$gK&<1uo5&Oh91QW^`&}Sf4m?RJbw=VC`b=!uE#_91)^*S9
zIlQ*o$HC3RtC6sSTHg0(l$mWPbgwd)7%ADtuCkwBuO!Yd7A`)<Vc*bZL(Tq2M)-~Q
zqDcD1If!HM5!%>La30D?1pT}vSmQeFGR||=MY#iUi*Ly$QS`nE9d*y8t^!+mQZCQr
zR<$-WTRs9g4!zUQZwq#H3Ux+ofaR~X)FJqn)fCaSLaE1SBDaY?c0o$#m#;QuXyZG<
zJbYvV3Fy6X)ku#|`fasJBdX$FywM!?C9=(ShoNqJz@9HExIZHKmw@fdBk&A0Ic{4h
z+@E1_8;L0+U6iFUDpP$-VW)kK`BB^84gBlhU`JbnmM4Ih*gOSW-Rf<84BacEFUlA7
zav=9!c7Q5);1y~;o@~JN!8P~4?Arf`p<JO5YwpbVu>lSI5)JGau^C}_EZ#@;3J0PP
z6tq>0(d3}r!Rt$_QD-FvJhu^lCKq`ccNT~CNIyQO+if@g2R^6Gm42KAjgkI8taBm4
zX;7J#QCDXX+>Nfoyj+7;aZUE}#0qk~EZ;k1tB?$c-ut4v?y|va*UOC$L}AN*sBda7
zk|>@^+4Zw>qIU~joyTBCKZf1FG2rA#SP<&%VTPPU+8+Un%-KfR@2>XM`Vn>H_%@{U
zVTIz+7=(x5O8)on{W@6wq+Ke8PQ|yKg?O4ui;o%Yv$3OJ1UKdf6yy8e&Z=8g{rz%|
z%cwU~Z$-yj4Y_$)aC27vQAV%~4$5eMJlB<SBRGQVC(?J2$2wdR2eTHt2{LU;wD6v~
zfv<>w{TEa|hxhe;hY&R+h9c{00lEHStDtHxS`$p~ZloIzG3mNyzRCz8OxFAZZi=8s
zhROpp*GZQFM-Q>gMrYdFg<qINQ;PFyont^_=x$Q607mtnPAd=_t3CMM*m<3!b`%ML
zWnWp%k{}@!*6@{8z@CCQaFlZRA_4jYE!ycj5_v6-YbOlq3Di6=7}Z5(^%pjPOJ}0J
z13+~`QUcu7@Ke%sDG{H?m!t(DY6x@%eVHS-3XQ6?-CubFJq89{^8<r_o8to9PO7aP
zA{j|Z);ml-C3dmnv~jV44J;6@P1yrrVB(D|r;3&Mqq}<W^zz=I63KZKw16Sf!FB!6
z?eZ$Xo9`^sqfQ6x4m7VhtUi&GSq|nlogPMW9(q6_p-t5`^3-H{Fa+Q0v}6vjW^x*$
zr~ER2lBtPDpwl!{7r;w-ZPc=u)wAyoiz*OeG8@Hnt;CdDAm12q8blN6y6}upL-V*f
z$*kF-wWNj7EeK}?kt7G{XkW82vd3ecbiAhN!SHzE)0yWgx9zp|2?Sn0VV@(tRu1~3
z<@7kPJI<DfFL^;G_`C}RdjPllh#2y5GKSYS`gHJ+H=YQ+Z5vqeKChZN_r<+$0C|qA
zmwElyJKUB1Qp%p~0*SiwNB=)prbnd)O29()8YI&F;XE*d^2bEWfNV7BBX(nzhSF`s
zU3`5&Fq6bP+1#zZ!-1H0G@9KZ3W*bPS@jX)x~(M`k5LV_veF;b)!N@sRelb=YO)Yk
zP5n_(C!0Ry$=hsEhu27M$mo|<{uEFAy0uKFh{SI_9(Zrk{+!85@YDO@*)w<)9g@+G
zHwXtf?*H?YJ`h6bEf|ijZt&wm9(MkW@MedK;MEcmsP)nrhldCRp-z%|m@4{i8bo+?
z977?fwPK+cD-e4L*pW>EArZz*l9DV=`<kSrT3Xzk?<Z^R*?<coPEu@GO6MaL>&yr4
z9U+Z2qyNBGQl=WZloT(SHqv>?;T4cXIg974NMZ;{>%j{hxnG*^M>bkii3rr(^gbUO
zA+^}ryVq(tKo69p63#qr3uxL!byqHyG8`-Z=pMQX+)L$64a8_~CUJM_=uJ!HGT{ec
zJPgKBoV<e?*|APOzjpGlhRbKhQ2W!NzULlv-ZEQ(z7f|!5`OR5j>rd>sUF~E<n6#f
zu~(OdTFSccULnQW5^aX*gHFAPbke`M-{D}3YFS}L*IbI2n*YTpZ2N<8WyV+FXjo!r
zyan35$SQ^q2Vinx^7}n!FiAL2T-+mL6t*$6IPJ<Lxg&&(8qp=djEgVs{R1+ckd-4d
zxq%qCH9}?>pc?a$z?jU!<9e~9527|jRTauXy(u)KMmdSc!3_oC2*FV#lw9F9sYuFZ
z7~OhrgA?C@fiTc>FZG9azR@LLlQawg0`Q911w?!`@8t&h(N-AgUgEDRIUMpiC>^U|
zmTI}^%?dTQWSaF5CO3IvW`?DRz5sDkX8UtDH4@oDPR2=;(slw!K9^-g+f)Sq?*Z3K
zbQy=kEZV1*rsIWsM_vc<mA3W#6XYcNn3um}zy0J}$25+<=!{H<_IWg>ADlN|5p1$w
zS9l0QV#Iow+65PBiETZ)E?mWNH`MzNE8YgsHJQwHVYujHL_1nblUz*8cMCnf-VOB-
zamLUXTd&=EVr>A2xum@Ml_#&4tf2lO#u*qn{3#wyC)b1nHR98yy>I!yn(rl|W0L1t
z36`C9e&x{{73XbP8`RH_+|8LI59qLjkqa;sA;t`AxjSg&!c9U?h_q576TiyZEJ>j{
z$T`(0hDRTqnDB9$)68x<((M57zqrbU@1;MnEw3t6RSOgSlc`|dwMD+~a2cwIJWu}6
ztVM+r5EE8SL6A-_3t~q~F=c`Fi$@B}M(e#d0Cz?sx!qsk&ZopsvWf8R>E`gYmrKb;
zDqqpTn#GBN9q1OXx}bWTXUZlL?&nLe*VqG5o<GCbOQn30FDvc5tIAZauER1^@>{*b
z_8b2;No{sJ17`}f*k{SJ<X(_gf{gJWvQL;C$^L?%fy_?wkcImBN`Ze$U#1dBv`E>I
z?AUUHt{(}V$o#o4F}B?;j=);id+~=$I@4hQr}KdTN)xrWy$Zak%ExmN@*d|-Rtbum
zSh8*YdERt~k}STpGOc-y@cwsSc}E&>uiiF7Mq*ouv)6;(`@?_7c6Jk3G~Ys2MH|Jc
z(De|~@DT=Lh5f*;I=nky&%a3AeVzU@?s0CTfenx(I<o#t@g#9WI6W$}eKxgH;g<|&
zO<hlO`l?M}-PQhU@xC|<oO<Z+7DmAu+np=l-i<fqOm|9vyfSES1BM7$;^O!X18p5=
z2w~K5Rk~C;jG9_n`@d1HPF1Jdx^u<St>WJ(KiQVO`ntL$7o@Ubxlqt{Gd^Kon^|U7
zxdTBW7k{s#uCbCD#!+_E+VY3}l@D87<mgu+Vo+aUzn-_@iV}xH_3?b1B(mEPV%+<(
zrI7wvx3ddvoMxwSgJHCm<3r89#i?QL+j}B<d-^vh8sTUo|DLZuK{ZnX4KBp7I}lC!
zpTlaPyMQNwCK}6b2V;2!B@&};nw*e`fH`z8;ST`OG#jTBYfQKZa64P!Uajj3MXq7(
z()*_Vjc5p$Duq*tDqiXAtu%5C&81M4waRd3Bdtbxl16$clGI8SJ1Ijk@S)7q|HQ+6
z0qPB&-A*9}gJ0a*!6-v<p}Yt7q)xDrp)6f8af{*|Fiw+B!L}4O_G`^yDa&An87x?v
zMmSDNR>A%tL?t2fCh*dD4i9e`A1<bf<2KQPnB%&87=}P~)qt2C=4v8_)DeV2Vi}Sh
z-)?Kf-Uymet5wA{CDF=&wf@U7ooZT3piw((UMKe*TIWQZ$T$2~HAJh$fL?ah{wn++
zL-}rc=*G!k-~<m^;X4bxnpY9#IQjx9IV5hTkD+Oep&#a|j`Qi#-SZW44=6+Y9t97Z
z;l%JTG<7xqJuHWVEWm&dzvC#^utAB&sP14Le~etie=+)T-kAzK^DWr}6mJ}A-P#cu
z=uX~a<_Qb$^h8tUC0|^D|MWo)Gw%b8(xemHIlbk%n~Txl{cNysQU=~`)%lADi=Hfj
z9gjV+s!*51DNE_*-h-k_<n6W;+hO90!QBG(_zqQV<AGuUDQhlCN3m4o`TzL>*0#>y
zcd5N6rr)+hg6B)&s}R2>E5vV7(g6h$s)Ol_zaiq)yK7yBaIilfT%8SfLa%&T_b=re
z7JI5{v_1qB0T`&XxwUFIR2A?tNj+Q1tW7NffV(1~ff8CySCAzXznUqPQz937lbY`{
zCJW1X;+|Wkn=}R8XeT%u;odUQvZTH)XzkWI>_ItuZ79;=x&KSS?bDr7^kmUtpio+V
zof$H40uoyNyx17RJfiWe3Kv=3>MJ)qoRY$5+M~<m<wRE93m)DZDgu>fpS<3|Y<~Q7
zz1INjoYjv)#%Nc7HCctxWMc>?TGNYqhh{S2lGq&{zCdZXcz2p2syRcz<1b*ytMH6$
z8Rn=X+!k#9%M9>l5=qcTl6?L)n$2OH3!Z8dk7)3WBm6IlK!QaQ;I7_Qxz!FNf{Ku~
zM#F7>JV<AIu$RaZ7!f6evU{gEQ>Fy2uf0aluc*(Hvd|ycqxL~^!H>2|aF!nI1Yh}j
z$lgyu&ozO!iP=3<omn*MMx7rqsR#^IxqMa3t?qYr3wg=AHQ47(TNLNTg~lqtjCl2E
z$?L{$mXAzK+zr^))FPpJaot%J0qMVD4&02pwfqAH*}Aom=1`g7;#Vy=?AL52q1Cp2
zM6id3Aroi~k6~O`y(#>n7Ut@*n4JccNR~IRy{(3&O^w6PaBh@cK5Tm>?7qFg$0B3`
zUq77>5-$WUwPB1%jwg;N2FS3--yJxDbFW7SHAslNjfti7>fgH?g|QPacA+i}cx=E!
zSZWu5hU%s$WK%%M0AZNabQ)!e*goP5?%uY>206aoN64)lcHcBss5vwT1f{VoM*xtf
zAlE6|@O@*4>$n+CE8Bw5*CeU+_CA{0-6aPY(LU%vI3zZx;&OJsW`#QQaE~{_$oCw{
zVUM*_NPYkQah;{7#j6{%hQ!sNkHy;-0GZMxH`s)k3nl~kcc_X6dse$FnQu8|!QEiY
zp-UbWsRaNsm2}krsQIl3aa>}WB%QZyVtn0+uqai1SN}WHE(q<PLFMtr@qH#97hSP<
zH4dBd-#}1Q5xGv-o5q>qm(wodBEd;rbU3^=Bx6jINCZDucjtvjFiFH)X#k~mv_V_$
z#xniQiHATHSS=l5aFjH`PK!AURxDev#t$p7e1m=pu&10!;kcuhLUA3~KBvJ5j0w>~
zYhBSeR2@u15L;=DN|qFM*1K7R6m&jg)4+n<y>1E&sSRY6bzlm&#;RGkgyJ_JC$#<;
zvX6y!wl|(@tqKR5QPl+piTC~F6g$Lg#a~#l2R9rzj{07q{3YJ^G1^~X;c)Oo4IurK
zAB>P0mV{r=*@w?4^8$RboA2PaR{?R(z--p3O`~U<XfW{VJ5HQ1@D;-E&jRr5EGpgw
z<%ilPag^k`KC!T+jA*}$swi_i8^(YRaz6d7bHsf<lLzhOfh~(^pjvRKIL;{7b_u~_
zL%8P%Mx4GQ%M(U(7_Eg5F!;njcS#RJgdj$I!v`YEH&<f>T8-YE$eDuqLJ)ztOdfVq
zZMe4?0=a4D3&QdFf|A(HZ_t_~nr);5VLjS-It(DIiFi_KZz%_DUnhF&aO9#tl(Ih?
z<C##teYy>QTTou9Mry5Iw)Ty9NK9BIriO3gZ-JZ&aTa$n%2<XlGy!`d#><OJxez3l
zHWXi<CW{-@ilz1$RGZ(dVn6lB-|15INcWLH_oYVMPJ?|n=jF<8GO0ZNTzySbF&@jt
zJ$hSvSq0^^EPc4mEhs2>q}j~y{_&KP2Ndne+bpM5U^B>pwooNoYeC^#7I?CEP5h^v
z-c4~WWs8zA9beUq2QXgN#GJ^7PmoD$QqQJB8P-}18>471r|~_>bm2_4vP$-)V)nby
z{hx(T0evtk(+1Vwf80yBXB}3mpm0o7c;%0BLm%*Cn~--F{Rf@c`5k_v9qZcJL%ng9
zWzCyey#{v2_R#qq`35zVh9n1hC9E0TvW-z5J1CSQf;C&#9sv<9*$m9LRsI)WU@?*o
zY>{9H6GLDLKrBzp1iw~~{##<OBCNf3hIg8vT_66NxjXq-1QGRxTR>s)S)j{MP0kqU
zbE_i33akupwX4dvUv7%+r0MiwT4L1w$!3T`)H*ryO+UZk_6iL3n1fpQ3V<m>jy9>X
z&EdB(CQsLYmt>@;us@tCi}OlkfFFS05xmh<fzV_C!*bzZQri5+m|IFu4&z{6nv5Hj
zkQ@OBeg=+)H@^RFb=F@M&r)hU$FSGk<;z4nZE~2(jp?A;&{mDN1{v5<66{PI!bKmC
zrvP{2*bngw=B6=V)wF?aASQqugwg0Bs#~bEQ4A&-zG%c=Fa;1$7^!Y-pfXT9eAg)d
zOzB#nRuz{G#ei7&*0QCv7m5mA>ncr_dH@!~H4*HC4lWvi(1#6GfQYo);%JDjJ}n$`
z8sEtQURP!;bvm-pNGr9CZG`h>O2M_Y)WeRGSl0*n8It%&&45c4s!DfYWOxf+sW>2A
z8L+V_?q>n9R*3v)_5>oIbsF-<a#my;aGZaE#3CMpm+0`Ftrfijk@NzN(JU?u4L*1t
z8DR&u&Bj<5k8x#C`<Nn*xWhtQ^ux{Iu63TzIlKae)844`!_QLSG&7+EQ|jDa^v5=P
zFC)SWI@m(gKT+ZC2^9@)j^CgT3H*~uls0LxtL5T^g`nz?ocN$;DpX}xhq3f8gi2r^
zktpQtXx&O}zq^50r0s*%nB1r2&E2`QQWc-gkVr_hlTBnbin{Hun2c*#^z>mUC%~0;
z$A+WT+GK<_bYT;=&#Uca^bX#W>-^%x6p6Qm9Ind`eC3YZDoF?|-Gsz?WEqCpGI6#u
zF_Q_k^x{mXzE(yQc<2$ZS)f6pqOn}sM0Ai>`^xDEg>|sY)x+G)eo>pC>*rTa+lIyf
zy5a=<hR$RjaqsnkbNQ`49TW+KJzph>#{3?JzR1QeF_mTD4gacorb|B%QvgUa7<_zP
ztawetGi|tk!KSuRmFh3cY^5a0+=}nbAZ-{SsgFnZT$(FD!$jH|Yc&<$3?(JD{xf_|
z^}3@lFrQPq3PC6bnb?nz6#%!6liIUCUe2WjBSHq?Tv%`vZo)X6W^$yGE{}J%0DCOA
zz;yP#`gRlW&{g~o6zQ!aTW6}Ik-YEKBHdpbIxOGweg=>q`dz8P5SGD)1eGfvS5UtR
z#avPTehr>Ob~(v{!x*&pZgz*w)?;aFG5s_MelRUJA)hpyqR9Gg_kOHl>k?V@viS~l
z_(<VHwY9sJsm0F4;t7X?Vqr@CS10mt0^bi|T)qBbms1(=Q>-b%8z|2vWb0qEIVV%5
zA@dM~6$v_QGRtE_9JkO0<4B5{sz3J?2G<2YBNSGP9|)1@CQ<O%zDf+haR1+l34EYc
z!Ef+moqwI<DHu!FSDO2Mu@>FNt_#lc8X*XiM%`g&zBw-F?DPSA#=W$<rek^H>{h7o
zPMeJ$4Ubi*H)cOcq77fr)()8R8IF3Ru%iK~M1E`KXBz|Ek+B^nu}m~bI5b56cmaZ*
zrgGh&t|=$L@~{Dff3z-rAom3bJSl;_3WDB&!(XU!^c|k>-1;+^Ly~w%dn>{m-Cjt;
z&`1{0*0{feacfn|Ka*OrZ}_Amn9ZehWd<k{TJHj9NArmnoKa?D2eAXqMnq{5i@U+z
zSGn);e=MB8vc!kx-UdMOU0Lp$)$ua-NZwuSd}u}*?*S2Q(>l_4XFM^D%eMIxCN+<W
z;38rNTDBiJ+dZyTjMko2qLKSiRJg`fzC*;**{4QibDJPVgA7Sk0ZRhCmFT0~W3&%$
z>(FdLIGd0#(bizg%Y@f0j<!pZz6r%hyHOGxj!U<*EfORyArHqXZX;N}i*D?Qikk<n
zeC1-yD}1E5&<q-)sY3>}V|9%w8ey;o4K%}}Qw|fBr(3bvXidpU$D2X4!?gz=8MzAo
z6~^WC8&PT;w=iSTX(aqk%QQ~|FRjChExhO;uu+WCWPjaqvCsL{O4&`s3QeO%G809J
zZngNh%5f2SI0(U?n6?7>zrvi?Z}D!n=yb_XFbOAY(-cEYpD$+H3&jX&u<v382Gx+H
zXCn`G%FRH3u%)n+gmXKm3H!noN$-o$+a6DlCi$)2))Hg`mA+7O5KT|ufj010#}BVr
z4bJPq3&Dg?6YebGb!XTe4F#pg2h6;}9!eOlmrk^Mr_!y{O)CO5vRr=kgp9QhR!EF8
zW_HVCe4SPt4d2=t+V;kfTt|OVP2V`I_s^SX5!F@J2GDCm+HGEv@!2l1Ra!l02Ss~4
zx5M7G8IQp)b#VjDOk5fJ(eyJ#<7PDb3}<y2ydymmuX-w3H?CJiBMIg_+YfT)Hr(yX
zU%*ncq+1Of@)Vf%r`0je!hUN5>v`?BqLoB1X~J4PFamk>XeWIlttHmQ>^h7m)gxYO
z;hp@4n%$E`L4#^vT&;gTZUh#o>el?*=|lQ+K1cuO;V^l`R-5(VZk5-H&j_Z=I;{-)
zT&~^kF;rnZS5|u<wupN;<T^p$U$vPD`?l%5fDPv+T}*zyMykmtwVxtztTj#iR+D7G
zAF5uE@ym+YepK^L4VbO>Mw>U@d%;9FjQXoyz)4G2QP?L()i?fo4yOJM(Opyq)BRa-
zoW`-nd^-@j&{B2@zwWI`!|m{cmRgmRWikb+jVR)kX)Kwz#ccxVO)Cp7>{MD`LXwcb
zFbO-k<_~B=o5@Nx>qpej$H&d~^q!KKqI+Y?{2ar#_<!@;Sp!?kJ+>d5v8RkI^(pBw
zPBG{UKTnkuOMOfkP8-G_R-?ccSwxhM#wnhnN_kc;m<qzsDn?ck8~NuKf3M@bH~!<i
z{oMQfSeJ<SdVG|1Vl?wH*Li}Y<2pN<A?aQsCgC6dpEADb%5+JIM(MbiT<0WR&dg_Y
zIAX&6{!46gm0+?j@YGOI0pR0=38s7R*5lW1E?M9W%CP~Foko7oHQI>{N8^5;w+ujD
zg{bn73<=R~@skoeTwhWXCtm%E|6vKQy~w6+5lxyN2uZ6~H}&S6mGoQU{<i)+-%r#x
z#G%3DA(Xw^C!R*@6Y-i1Gk)p^>FA<2o4I(z1n2g?Z^b<|q|{pzdbso_<7;hA&CTQB
zF!B!voU)o6qBYNCL~~4LnInQ~u!m20A_X=EaPy#uGm36PrQUL=2k`a%GRYh6b7wlP
zrK2WpXC>}BqNF}@JaHfd|7;EHB2A^nW;aGTx~DRGW3B_N{R2>aQIC`D!!rgPCmy)c
z128T3q|bgH*WgV~+}|5>QNh1)SPLv=G46lcwU@rke2rpYzQoP(xSH9-Cx6_}5+_7;
zo}N;c*7&+w-5WA6Gc`s(qI+i2R3OPA*E{~77GUN=;rHk8!zcVCV(JfAR7#IsEQ^vq
zfj0q)W~2sjB=Z|@i!iCf)kdM=)1#+CzYhE}A9HeU@6ekF-LlWM{6|cik~VMbl1AHd
z!<gV4QCfW+_lkRCgRPBnqmh#<XRdpi=WyFV-t8{B4R0$az4nEv3(2sP#aq*%@k3uc
z-<8z2(SJSC%Tz-@G)8iYK?;Nncu~^zXWy|d4$BKBSEC^z5aKGBvwwu5A?vJz<&G8N
zsp7$XYo~*-A{72u-hMzDfSAE;^{ZyntFwoB-^Ol+6v`QTVvNTGM@5K~;^HgfeAcs*
zLa<GDokG5Z*oOiS2XVt0LVc>KHn9!-u<qnlfq4P=86EGMcm<B&>T_0Rp2+^&)ro9o
zRM)$n+Ul#HMtz9iWu^}0noixJpeV%11<wcgBCbpcdU=UbNbEDGrXDW8h@F7!whDX(
zw;!p*qAg5LJ&Tm9Ii;~uNnHT2T3{Z!z=s1gRFv(q+=X^Fk86cx)K~7X7Wa)`$&4i)
z5qsj;1FEAmv|Vtp33sR7B2kZ1Nlj9iE&5x2;o<Un0ftCO4^Bi5sna!<sI73Uz8GJ*
z^M!_Ybat+`H{0A!m%4pF&I_!=*>EvFKB^d}VY44InVro8PD2m+##&G<5a^{{1%<SX
z_5Tz%UQ}C1`-ykz^Dwu*6d3K0{ZmABl4|V=rfl7}_EARmw_W`xt5$s#;ovWpPorL~
zNq$bRM>jE%M^DY*>bHY#In~-c)ADG>efH=0tJ~Av=i8sh#h(9OrhIQK0-0bv>1R)=
zj@RwGVT9j}-AK~d%q5UcU3DXw-hci&O7;i<P(pd5$JhIqrUXqd*Pl8E#^Df^M;B}t
zA62q~%h)y>=b==&{KmhhJ&L(jpFdnW78eiij=&vdy?gRF<#w|nd?{6}{`gJsB0wmH
z^;m?;BvO8QPeziABUd)$UWj2`#nv!nya$zsx~6=(LM?U3_s<~d(;0z!7%4`iRP}Z|
zu9WuJ@%#W5(h0O5IkTu58Ro;OR=tVZ@iO@nXI(pmBVy9x!QnKtLW00zK7V1yaWEam
zb}35Gznl9tq?u0~&LPIcRm-)ci$_PL|9cftLwN=SJhlz<imj!7ixC*WNS+90z>1PT
zAYloH5Tlb~iAY#+9C+Ui*GZQP=lB6#nu4``sG~XvGs=)UyiN=E(ZpN3Mu&S5<fZCe
zOXVZ@+rrs$H4|g*7hk-kp4!U}k7Y`~>yB&sv`w^{&o|i+oQFQP5Z82hPnzeM950?O
zc&>e89k5^Sxf+dUau@aYA)ZP&C&?YlWF5d<juhL<uk`g7+;b0<3Z$3XPH!~|aZ~gI
zW?!zY_q<#D7s5I(nYEPBiwvzNWN3Ffz5yQl7{`u}ECS<{5lRVhV)X-QZk@PfdWC;S
zo}9<k?<#yQ#LGVM;$sD>peq(;1umGT>r%;;;8QVrPRny5aK5coBh4;2>Y@-xPGnM2
zy5-qTQ4WdJn$s|Ya&oy5=ahBDz-$Yv5~S|DiTg#pFSd*87_?K^)zm_Bd1^K~)H%w^
zjmkaT5c)M!sC0dgf(!R?T7j2dF_ih?je>$-Rt8e!k3D8il@+N+)0q2On2{1DJD<N7
zz$pGG&1lyBTh`=nfxX;Z*k<A`PPC%aG03>l0V!!JxoqKaw|6B*h>gPbjmF4KxJ_p)
zLh>$C45`}}xo|{uTwbbmjbDgv{G{jwgEsopQ9^i7XqwzL@R4yJ?9@DeQzf8Se>#06
z3XE}0uvWLj-}g}mO~uT!nNHJsc1I#u<U1v?D#s!fd$QC|_<hhQ6^8jfSCIkesI@xF
zq!yXW8?r?v9~ge%G953;sF`V29J(}*-A?uw+pqtEDi~eEnOFGU!AF<r$@)GLhPbdZ
z;E5Stt0ez;Ex`ND^ancI`*_=sM>F&0dwLTO_4l}SZw2GXDdtJzuFxh1U{=%}{QG){
zi<O>MP|gzAPoG4Vwl~ujP|*|<ukNn>Mt$S+?~I?;2Ai*g`aWS!m;7~vyff)eqt_03
zanQH@Bf7M+hL1tcXaGQ}jAd=Qz)D_{J(|TX3qr=|wUpW1TM^`2I?mtExAAF3-XzzW
zDL_#`Ll(2cTd%A;d`p&lf4g`IZ}a$MZ~noJR&`jp!)v<>&UCR@IxlLHw<pXK(a>GT
zRaNJG8eFIlj(P%8PnCG|PH!6hZrg$EOBUxk-2j_4m3fmbt$g9cG95D4!C~ocW+p5D
z){>RzB=XkEC@hl6*73KIg#EnhL2F}uKW<!pNA<t!`}y9oJXv4MwB=7GMP<&LvMuAj
z>N_V)m3%0F&@<Z4H9k#npfNL?kfyG4{<B1Me^lwHYw#}z-xtnV^_$+5?T*wTmrqO1
z@50cSIw|P^$%*|^l^R0zb<Sst@^6bWR<CcGc-Pa9Wj?xobDDmQ8a9}XMz9jyztX=@
zb81{`7a~Iql*oP^(c8mb?>b$Mj)sxQeD9^_o||JqKMi#_ayJ6wXJBh@ezw)uM6>*S
z?*B}hOXNwh0VjPL>i4(!GrZ?yV-D@dP=*+2WL}mUUo<yA7ZvqnG6S+Nmf}L_iZED#
zZ%I3OvGOxY&PP~b>NzUmu>kJ?ccg+Et@I(_;rig3_j+ZtG~LC=Ci$dxdXb@+H^O{W
z_<|_b-KngvfB}vs*7M%`?1$vRKd^58h}OG-Pq_0iNVWJ<+7th4(p(Jvp(TgyZ-@&{
zB+UB1Qe$t}AIMCG3VrNvLhw7sRnu@e_Ds;s0}L$ezkx1|Ch6-ap(%Kin6k78#YC6$
zsk4k0VLg_@h`p>Ev7sv48*z6a8uGCad{9qwH-e&1EbIlT^&A4z&tcIr6k7u5J!iW?
zPR=)!yvc5U<Yh91-Y0c_95~aA426bQQ46GH%z=78T@E$)F%qT3GA#D?a{0PesERr8
z#upIKzK=TDQ2Q}0M&ukFmgdLNunE~5gW0O8P3MPGT>~v-V*HR6JcN$MsjV_xBO6t1
zVtokH;ICf0H&lUR%%A&v5bNG$-0W`IElG(+eOU)OH`+xnoIb;Y;SqVJBH|ZDd_+#D
z96@eLroa&~hR0fTR_0O1D%2H2`0`ar63s&V`mLH{l2f6WK&j+NXM%az2*xtHx?Dg!
z@-V?t`SFky63!^qRYvN_@FB-#O1j$<&j<-MK9ek4sDIN-uA{RHmA(jb3vGn->!N;a
zEmrxt<S6^jcDx`}rtQK{SL^@l7&P`@)W3FkzUa$bM5(Y&m_LDgM>Hod$ZAXcjW0$R
zi_@2+{yIT+xg_@qJ?;ZI{FaTIuWNXQmQG%tZczlE9R%M+zk}Oxd+LE$|IeYP)fjT!
z_IG1IKxla7o-(YZzlYpXaK-Dm8Z`JmgM^CX^B=!n>Tl@FUAMbm+CQD}7(V(<Mw+xT
z5Jw9MZM!!<owdSM6q?~NiLstMS)^R~<0{c-Zd2|eV;3Oi<Rh%aJLq>maxZQ=$M>|O
z-1D_rkW*-@|GgrDoWJc5Et0sJJeZtnv{dFkN)YYUK|~L&y;IjA^(~y2ZEYT6sJ56#
z8bJjiCA&wdM5goJJAv)~p(tX1xsw#5Lyc$?*m5(Ca1<ix;n|tid>=Am|65fZ^d_(?
z;vTmnkilUjVzOPUr%Y&OT?g$Wweo{XZkf4^ntc4WqG&-R7R~4T|LzyfSq{fIO|Pmn
zf6<_!TCHlityz`^jE#oSByB1;8uj5x$MOvvElxhkO!+;SuJQ=J!#`J{dr4iwITjeN
z8qMh9uCjkR|518)Mg#Na?c^wx>|t)*N%|OXszu|%zuYM7WZL7I$X#h4y!LY{4p9x_
zOT%n|p?IJAhtuPO{gLypHCA^kCyS09_nVXJ%ApBgJ^VB~^!l}jeQ&Za?t);&XhM@H
zWqKcjg>#gU|1;bCXT+)PL6_QnbP0D?<9!`^eh87ctCA;1T-Zh3&qg%v)HI$pk|*9Y
zX@hzhVVCfGd-(keM?UA7HePe0{1?{JU+r+b0)1`LUu9B5-0O?oed4d|Q8jFL!PMpA
zmN2`X1N)BS3Z(;xD_eh<@*iQnO>^G5OJ*~g!1s2j(wacaxpF;!QLGWdVV?b2@(<WQ
z80aDovrf#RaA&KfdgVV~FK-$}I4uSpM6*))!I#NA?7EGLr$j0!;7{;f#|&gh<OWO2
zoxFU`b>qL1qf_1oj2A3;d$|YWd+4|3GxP>Y-)B<nIgP295~tW~4J}pJETV@@BCJb@
zw>hp~LXm>r?+8%Ql3p@XX`CgzQ~cL*J<dy+$b+=QPSvep1_Dwx&NDlswuutVA-fX1
zV)`yg6P6ozWIGMN=4id(nKY4v!JP0GlBo8v-AQ5a)Dgc4xe-?YMv=)WHp-bn->U7h
zpP>6T$T&V*Vf<0*amkfrkL;c8vU4&qhfPLp8}+^%mJDeTsD63}gtXRSKpUi^(;RD(
zuSYf^lo|!_58MbwcI&wmm-|>p;VTL0)CS_tw?TySIO}@@XnUQ%C!Uz`o({$8eCb0y
zQU(Q6>s^}o8F&)y?FmGP?g?@RTEaIsk3ujN&}u467@x9zZI?#bDjLl4d~Nqg-TChp
zjJw&F)t0*%W2hxEiKilA|6VLpO1P#jpfJ?)_Y$5J*yyY0rK8;WVs=1I-`}tMbAH!b
zdMPUefnxxi#r^j7s}N)2tvPU_YL*+A#3uq9_CCf}EUtlzY<5~lUD3ugZ~p1C(jWP^
z(|)6Wf95Mtx}65sUK@WrtvKg^X<@uPSMsoI8p~SIKbuD2o4#n>(2%Yv@!G|P0_Gll
z17&PfE+M<tt6|0Z)bka#KO!S~h&SQ-ewWeH7>s}KmKz$jIg`d;gfG6U7WKQG(LJTm
zAKNpaiMkwdo5^*Wnd!*{Eqp&_Xw6WCfvpJW8vH`-E^+hocZ0qD;qyU}L?mx!O_Q!H
zvy<G9=AWyGL-tnxUWk~TTG=y1X6eum?H+8K``$O36T0hsNz9+CM%vMRrwlp9_-~pl
z>Cr7^%WBOjI^bGd_h&>jp9SXlp8sX2K0nU)DqA{C`IGm#Wf2lIfByk#EWrOz*ByC>
zH8kIPXmqzyeWY|G9j+-~_l>H=bm>6jyv$gIs=P9Z?|QMcV=u@0W+=Dwvq_B+WyLO{
zKy?*(CSf5VPm6#SfyDz(W#xl6U!gz4U_pw1fgpz<hJqr?LH5S0d8AtYu<H3h7IDAe
z%xY5#hBYYMu!c9{Bw&0{8Ve+hF^SLuf4`2FG%+WYOSzYL3|GVy+KjfQNJTp0p%A_g
z1m8Ztd8yUG;>;}j_1^bp(&$q!)shKdK7|aCs{d1L4)~o==J(OGA$7F3YBgPof~>Y%
ziCr|)1oxQIr%*u1M3g;VT36xD@Cmn{JK0*UA+#=CciC|3{VeAZGtC5^?sKBE^Z&E}
zzoCVh(gTuCF}h+DsKeUC>(;#mvILZC<yNu{kpSt>%P0j9SBxgLMR7bI9ojc?05ih-
zaJn>JS3XHsi@Bz-rxr8=Zh9S4%Phh~BHt=|zw1vSVEHIyU}*WNha#a^QI*}+EbF=>
z^M0B->c?HM{@FlNF;|qGUnZ@Y=4X{!ypGD1hOd>jgC1znqfKLM`}NY3(!x@^C99u`
zlFaqj|FUd}$&QL}+)G<MI8_xo$t<CEPzVP|;o{gNH;q~g^!9fUV$K54V>dqz9@5k)
zvnU6`*{7PetKk4#7=`J8pxn&n>3N9{&Y<~*kkwfbdqfPAP?GR|(q!Y`FEAz!CU5#h
zaiuc3oh$@A>3N@0t`In*;!_U}JJ__&z}NW#`l_bhkmL#Na<=hclcm5tyhCiD%7ib{
z{cL#yykYDU8B}qj%29>=9vYX&c{_CMw}0249{1P%p*hsej@SK>y69-_=!q@Ub}4iL
z7$8R_x)NIHXxwaUC*{D|MaK{Yxr{rrm}XFZ;JstWclMe3B@`mM1os>irEOOGcFM)o
zPbqaNH2$s$8AbA*|0FwZl5nrh|9GDxROlD?i2Pi7=_Zq9|E90M78Cb3l8ApN2%mk6
zW5Oww`o5jRA|VGYC}01u8D`seCyuxGYn$qAZO`+O-ZSVO@OCT|<mf_LkDY5IBG~j4
zg^e+lI^DIuTx_+`EY!$&IxMYg$X`JFyZUIk1-Mq>)Q1o>HqSBdApaeu(!yP3c26|w
zFJ7d$uaU~|_yGTS=RDQBtWfe2xkPjGaW?tDn-lS97!1SC4Eep%M(b_9yV^lNM-+s&
z;Ntp4BN{w2|GDn|Umu9*P?2F!1Htiap5}RjjEuu*x=yy?sY*niJLoiaG-s_ovuZ8q
zgQrh#DJwz=i4#UM;C+s(n?o?6FxPQ)T@slJ4w8!%F97m8av$Jwy!_B+<gPGBv{<_O
zStOpnWNNs|Cxp6)j`89_4hqTjiVh25mnaoUtWABRV~;9CFcFF%BqV>G;pDP8<Q093
z^eB=vnC;<E<vBZo(F1zBc4&JQjjjxJw>*rJ(uH_NKb=Mik-^wp;mm)GfHvGg>!=2x
z%&2OVtO&84d07sLKw8apljnz@<hin3g)y*>1M3_bfa)to^7fH~RpJLCS%c;Ebd0N#
z3(M$4cppdP^4Emjd2!8~7}jyLyJTsBtC3SKU0eU746fab`eyTe&(18MBMHScj6Cxp
zI#KQYT8#&og)^G+M^7Urk~?VG!9Rz!T)G+$r=nr^)4eOWXxUvvxFeO>yF<lF9qfN?
zuvz?|&3<I=38Xz?P4`1nT7{L2iQkCkt=^E1U7qpaP&>m$U^gKW^fvn5Ee`B5pzSFp
zI^#&h(zO%BCOzi=HkZVlZGqd+BT0quq)qMQNJ2I=psXOC!|jJTv;n-Bq-1ZrCTZWZ
z^aTlxbtj{LU|!oV)=I2VzE4qx+77odPRfA_l`#7~{b>MQIF4rrt%v-6h;~ANw<Zx^
zwPFx?(){5`yE%>KeuW&VKQ8raGS$%jCq7bQ!Izd%Vs@D|j|*YX0)0VG(+wd_CbO6}
zewVTpmm$g|1+rZEso;jYU)v8)XZ!iPOBRCq*@A*hI9R=M&=gJLai+rZ`A#@Wv9>SR
z^%T1UIHa_#r3)^Nw#Ltkoa=)MeNoatC`y++ZxK~f$fG++)|~XMr~A3S5Z(;-loev;
zasIKvQevLT&J(GBP%sEhC5gSLmFPyDPl_}Q)q=iCk`kGjwhxLM6>eN((?%E-WNiC(
z37C%b4@(P~i5kW?5WCf-<@$X1L$p;%5wT27=47KgTbaJDLic7~gDPtf%g;NNfj&LQ
z&&vg=>)$8w^;T2K1U74%`m}me9W!oA_+WQ&|Lc4HM~X#_TK`X2Z7GE!C-H!_)2P8^
z@U0z#L6pFGCglH9%6DL)ej@+x0sA6E-ub!w0y#tW60Y0ZS1?z-PIeJF4+aYMZbe4#
zR=Qca1x>L~i{lBi8(+qfx|E4I$|<Ddgd&-WbJZm|$LDG&DZ<B1>V}eUB$zoeM~a^!
zy9O(BO9gA{3Nhv5q;woO;1Cd*CItVr)y^EG&?vX<s%qlL8^cikYCDRzE8QUL453YK
zf|-hx=ni4nVS_pp`^DQN*Q|$z#`Ulf481CbPWuk_jg&sjca~lp*8J>-V>8au(@RRY
zBlF0bq4K77fR7SNHIC<3(;5EE<qHS_P|Ue58UZUrYJ1D4$I@h5=!ms`{AnU49e+I4
zb84D8YSRj>*4lo!+xn34Jo<OR;`Z9&J8=&C(rpfY{^E!dw#jLIH9?K>Yo=VWAjtA+
z>MmG|WvAT5aMP9Kk2!eb$G@z;fRFX{ydfFeg<4YDMtYe&&XzIfW&M6wZa;0iWqob*
zF>#jVJ(}+Js^fdZ^W+JEr_pa1(YjBmB4^<d$p|-N6vqW3?m3M!S?efA&OX#o@5Y-K
zndc=3?VI?O*2Ilgz%PWMI^^+g0&4}c7^5s%X5$z6A_UDSHpVRKaWsF)O280@ld}Ht
z9#LR2ttv)#%C!HMSSFu!+IL5+?|)(lJ{XsLil+^a!7?8WEl@gLVkwg+h|l2Ix?A3j
zw&=(^oRxhQCUi7Q<G%F6N|%^iZq+X{v`Q_my5pv4hA<7ZR1mslw7}CPh50|F(SG2t
z<9tg<ZSVI`P^I%-LZcroN5Oto>*OoZ1n(|ZrhtKv4x^$#G%J2secW}HHMcUnK*GXv
z1)ANf3X|{Je`vK#Wy<Up_s+TKB)JELOGrlSKHGAF;S`_t>5FnQRe|b=*nlmAQme<~
z)$d)hF^M}`?YU9Jke&e2tO7yCiELbX+kX>v&HT;ujh`}EmNEL*<#A|^yR+D1r)-A^
z&RajF{k!OCin*QtP&Ru$BdxXS@4u4qXVs%frAf-`X5OlwH;k8kh~Lkap<~5v>3BM~
zNTP4C=j{OKVW9RpSTu)C<zm{v!++1euM+>Ovd4_a$)|(gBqHM}^GYTCpU&fUyh=3e
zd{RkWw@Bu1VVeJE<@Ddp(|<oqFd+A?Gh~e@IeRfT$V{BPYnrqhtti_%!kOSux5`WN
zt~@Ym9%0pe8?oQOu<*X2tT4sVx8;X}cbH<WTulCHmRW)w7!&}J+#q+xawsb&P_>RW
zrT9bZhtpRk$WH>J>fk*22>(jK-9UL9qTq%_jC~8Eo6`AKS%jT#nlY12MnYZ3QM@zt
z7y|JVHDIeSi;zToPuT)UBp9eM02qdKB|1q6U-#HXetf>32z9~Bq^b?XV$rS|5{5sn
zIi3O$;N2uy2J~!|9*xnl$$^u!E3w$wD(Jd_#uy3#I)AB?a4Cv96q%n(O+!&9xGH<V
z^GKNh%N-8--GqS0nG%pHlWCMo2I-qu$P9-y{r*MHi+wnaJpE0<!>t8CyvrxM@l9zK
z+Yc9r7|+tUI4@Kulzh7TUfD7K#(B>N)fdaQehWlJBs{l-C2&HwWO+W_AEg(-9FRRK
zp^)Y;pwc0nl>W_t`yA)^x^ekpCYf;KYdb|d&=ma}?l75B=G}Mw^b7&Cr@(b>mXD#o
z1TW*~c34a_|0ckgAWAs=twEHSP(Cmfa1-aR2;JseaeQ##zHeII`RRS0Iv&qQR)(iL
zRh>O^yr9(o>)B}~qK5mNuPz-w#(6jpvL3&eErPE#jV?17hea87g=8eNS`@|FbKUoI
zrLDFlu+(FI7-YK_|CS4P*4~_Bndn9OufW2*$+E<@k!4sQW=#_P2@<<zISl#wyWYyi
zC~G^{WWGxyGWYK_1wgy%Q>(1^O&YR)d^+c9u9441H0f)B>T%dgl*H#wyr(zv`@%%~
z-F>lMv)neZI<0wgLh$RYD5@>(=pXGyBXPqHu*yr6Un_zzqO2oUDA&>aNaPTZe`}<2
zceLVF8L-|nA$b1xjd$ET^7)%n+F84{N%At`jjNnkL0iTSotnBlbn0;mKgo1PM(X9d
z_pCy{d>qFKr?Il^JmxeVO>^8k1FjW1F1PuwvQKXYPn(fKdi(ctFsY%kH7EC@1DJ))
z^284WyLjv{RA$Nkcd-2T0%yPrmGz$?hy)U<ZA4NtmOJD-IMM^n&7w5s5<NNhJRdw>
z8m1LSM#CCr$)W==W}{AOCOV*-v8Ct2=#~@xCBN`1!-!=_g(@bz<wkBJDHfI^cRBbC
znG8mzYWOcNmdPc5BtJlZ_>_0Df)b_a`{yQ+c~Y8T8ImQ*c0~S{eurO>lO>n{c7RNX
zqf(@SlJHGT!zh!oS&1)b2f8lS^^c|*I`2m-I&#Z+`YOTlrFgEbh?b8asD>HASNXd5
z(kLq<^?ds{;Q}Ut*4<wR6b+Wa8LS_&rCaJvN3vAgZctHD-%9Z{>~o9#6KbJ(rNm*s
z2<qA{hp<L?5wh;3kz&7hTQL0GtyMUD<M>tA*z})MOv`g!L0o^jcrgMRfxJ!aBI)bJ
zY)QtuEd0^bZ}bv;(I5H`U|2$E1?~F<gpq@Y^qCfox0-v-JFBkSjUO3R<{8>=K2Osp
zG%au7<2VcsUl5GR^ppK@+0S+Fzly{#=>5g!YuB>*=2I-H(>9=qQ0KTS2>x~1%wYKo
z9yUH<_TLSOZi}_yuuaBkKm4}MJoSn_4<@2dvBGT2Dwg8bqnq_zQ-#>Rd)J?|p2HLl
zu(Fza4NDM*CpeHM-de4#)aV^tR}-*FS;kQ7w0lhO*PExYWJNEq?ykCvF4MIi*EpJ@
zA%=H66vpImjFGeDP8Wz0W|sa4j<DcNscE7;>F8jq(B=L8e5CK6O4aU#FcR<vvFfc=
z)_Rp5y>b!W&3i$;CBB;kJ_7zbpJsA;O2Y_U_5Z`xSBF)(ZC?w5bV_%3cXvuRNVjw;
zNQWTZNH-`U(kb07EgecDh;+lZw&!@yx%c<|dmhf?-uqqeTw{(o<`_BN<;Fw=IyGU3
zoJ4!Y?whW9Hv<i#ymra5SQ)<->|7VS(S}RF`~WG1<t(!GvR)>-W$wP_A=~?jV)Hu&
z?1n-rg|{n<rCJ?hV<QHYV!F1t)a><R)w!m@eNep1R9Wd<@p4r6l%b029*ggEt_@Lp
zi1T0jKAem}WiYxKo$X~m%l|lH`B*kNMp`faco<lgA_mhM`3uLP4d?RoyVxc#_DAbk
zeXt{Pi%OfR1&C_{3i>m`|GW`@5&5^_Vtrw@rcVv7o<2FyN=KJd;8ZkAN1<06m6DtS
zu6<tugZHoPFsJ3Lw<|Uy#FR0_*o#4?i^~j%?4m19G4xn|1zDwU`cd8tGgAn3DhL+r
z&0XBH29$9|_TG-i@ADI#fq3Vv9t~KMlrPn$eEHljMVk~;tBI-lvibIS7()DEIeVXs
z@~-oQS1+E;8nbTeMxgMa67ndfnou7g)<4G=nN-o#{KEyHzYe<#K%8}GSl+U3Z4`g=
z#3*w|1>6PLjdL`^{tLERa~df15yWSDJXqfecPl%N^R3bpN`{$KaB=*=3i^t+efMFK
zhH^X*A0$M<%Gm-<7sfAdJ^}Gzr%GV@+2w>nK?B2`0V8MW$9WmY^9D(Dz&Kv+R;tz*
zEulc3Y#q<I!7<C2C{nFla-PL%;F%bX_faoyjq5jz?L5X$gEnD~al+&sJoa<ro-2XD
z@Vifg7}^Ehkm76{5{mU4iyZ1&pDOcpx(}WR!MqCF^KAPD-6&p;QR1$DSfMV>R3%E4
z*2cTEM)i@p6hW=fe7%q3^s9dF`+;}Gj;3_xS7Y%L-sKj3u6}2G$M%OS)eS&Jb4S3v
zQCq6@c!t~t7Fp&AcEd2SMP?vqOIkr&f}W1-!RpzsrQ<oA=amNIA65U@h~K8!?zAnz
zyxSiBRps@B_oQ;H(DyU9-dNG0^g27(_th>HZ47bk%56t7CChECwWJ(UeTq3O#V*3P
zT}V|{F)YR_-Q&DV%PpQn--cN^*ZZt<m}%tg);}m&RdM?M9Hi}^Cy&T`ao&~5?_$vb
zX`1+B1h}eoUgq3bFdT>K4cW}Wa~Je?vHcK1_jV6FS4-Asb1&1F8L7yzxjkppQTCF`
z5xzZ0J38nN9Tt7Kw@d#%nHl<|&XE~zzfQ*>&B4UKZLY#NV9tHb$Qz-*dG}^3lynHp
zu}sr5cbg({`{z}vv$4MuP5(!g^AAK4>y#1mt^g!igxCVc0G=B2f$+?eNMvZm<n%X6
zmd6uiMZ2eDame!w!ukvbpXQ!^+uBKGvy||9&vIzfmA@+_wsyYgbTPns{y{fAo|=H4
zCH_}kO5*9A+8YqMk&?rV=|Y7W4<fY-xwMlxLZZN^l70Twtf4SR#{8qp{7cJ)ky-_8
z6p3%Yc6uP0?7|XHVff%htc1gqtybPC>nsAb2D&C-kSjN+sA!U*xDVV35>|LueJDXp
z?7KGK8$<>}fa2{(Mroc%?0>%A`)IytiXdlbg|E<^?kSkX!gTBIke~iZAe6Mfr}bh*
zfrDivlV3yEHf41UIMHrod91`&dgnqte)5_jI9^WZYX5RQ7OfT~ZB$zkiO<5)cD6hV
zOc+`LS-Ob%b#+mKrjJ~|X?m$_Z&E;@%6<`Zb61dxFA3{t9gmWy8}v~l_AdzPL}E0i
zIz=2us#_G@oY3Do<ol_zs^u!_toe}QG>Xde1lO4^%=_iD2fv$N&sU16Ve_xsCWela
z`q^|O<N3kEiT|cB5z`S56SF7vg49=Yf!jV6OOMX<4QylON=eaBrfIiCits0+rfS)8
zf|-)Uq!ovT4mmJ%5Spw1B<6aIRIT4vJwu&xSw7##YxFX{wr#)K{>~>902_QKFsAXV
z3B(KGO0E|AXed~+Qu@xo^J3Zc!aNpXgEi&ZoVH!lm_{srU$?i>>D))(@8N;<-5k^r
zxG6VIO}&g;a}Mq+o<;%_ISOM!8e{>~$4A3+{^&TA@s~du4yXF&(9RPo+R%=Ai?V1S
z6u`@v70L;g`bsfD%KR~?lY)zQ(4CXb6ARWR+T5laI|mXSs<Pa#TIUQF+f409bUF8k
z!wu@A31dA=x7=M4cUTyR5`R;ues%2P5ZJ9{okLtxgZ2=)xfJgIaHAq4b7(xOUdh_3
z|Lejw+3q=H77HP#<WQl`exsXz(Nz&R(9bj(pWif#MI}=&jl{HNZ(t%@5i2o5&r`&i
z!nvt`&3R!NG=nzBu>|X2gb^nBC;_>LER4}51Ob_jSv-kA;AL^6W-+EFGnO>^YsbO#
z+7U;wh83@mOJGGO$TjH@sR|nTPRNA<6Z@5#efJnLu;9m%Q$|l$6x<d3*(eEK6VU_&
zNr6R~%@GpZJrgF4L5{3bH(;e(4Llgdm+hAtUAmf%HWF2E*g!^iYwp_+0^Db2e*J0(
z9N~6MdC%JKjw^u}zt1dTiN|pXZ)<PfhBJ$Aar@PDdkc!5ziM#Mz>Bn+(R@0%EhHQ!
zbX>h*r$^AHAg7>}>D5BL!;kkhH*fOucWX?$pKuZ?xMhaK^OASppNxsJ8|y%C8o;NN
zb1b^wUu`4xcdd9I5;K0k6krzMC*_oSs_{vFy?F4-|L0PZ%Xwlo`FxMoKyIKLEDZaD
zQD<yb2<$2?(+6<6U!x$EAhVaD?ALayXTeMkKKb%AYL+B%)vEfS*mw)W1i!hz`BfrB
zKiL1-{oT*ebon1oP+(jKHbi_k?&2vek1mg($t_|HJw|;(5j${Dqm4dxT75H*9pnT+
zWFv2u<h59`QaaTfIa~<J<1@NFAAXm7*$#r`Cb!g&*49_5-Zn}V9hYwwuzKjHKdC<B
zjKHLsn&+|T=Oy)$)6M4mCR0QIk~tJ%1@32^4iER6Ub=K<&tv&3F0WPf8e7#~mYpVM
zo$A*vyY8dhiyY+s<gLs2cfN{1v@rCu%{y$C$8FhmMhJRA!()}X!N{eT$9%weA!x48
z<!DAjWsnd}gl-CSydTaFS*P+%&jIF{+^OQOvQ{yjU)DTl&lsWdJME=~t!Cy#4*ULa
z4M&<vV@+T{KI(^Yr^L1uD)=&v{$k|^C`kA`ihTF;F*@_t8a~@umL{k7_dftg_E{ws
zF&MIt<nyNYBCP`G51N^qZ#_!Pi1VLe<bN0V%EuVvO1OA1NyXYG?phPOJ7DRN1aDts
z0=N9fYz5jJR{{Kn2TZD>Wx~5Pm0B~(jf*zB2QXldoB7$aP4cZ#Xi*izIhp{JAv`&m
zgM~VzxC(>&kohO5iTO``>-UO8w}x4o6<0jBi35ut_qAo=Q5S<vX`#vu^Z9B^dPEea
z3%utqu$Nx1N7I*RLdFG>rooH@(xVx?DK%dNhV>beH%Z7dTYq&SDZi@(HqB3DUNMw%
zx^2PlCB-d3hmfa%HUHOC;t~Ar8Pc@D^0bJ%T|o|@#?n-hVrCt(wq2Tu>!G>oQiv{C
zmJEYv;sMYq!*)?^aPEgguX}C2)3H#->aH~ZT5g;t0c$#_wqHCa4o`W2xUa9@gd(b`
z3rU;fFg39;z1D8^dR0W~9z(tW24xhWkm6;9@wzBHNd)h<j(rf3!`y+OU{b%#wdGr(
z6`vTMZJqCUjeDgZH^wE=u+5JB^zu`WTn)dsl}Lu7h8xr|ky1F1i`=|cz|XIqd2gc;
zOB5t9cklg^zPMtuo8|Bq%Ry5=NwxsN26?ic)F9)$@;e4Sbu#o24CfJdFC%~7%st|b
z>>sR+9h4m6=#smmWr_9zSq_q^89XKdOYWQRBpwoWAN!?bySzQMnODaVKG$91OSGXJ
zu};|$?p5wh@Hce#{PaBAEO(jY2A5--cH*WZgQZD|Om<$RTnMHXDDJS&>pm`77913y
z@=L{h(p6LD`wp-2sjTb%Mq%)Kui;PpI_gN$XV%1oyzb|leSwc5LZ2+ldY9Q9ryzD?
z*XvzZ&;&nY=+X6)Ev}e&yIh`@!{brjFkNOtX$W}ZFs^?PMgWDX1^Rd(!@tOxI8>Mf
z|C8jHPd0=RVwmu`g=Wpv&4r1EDkr~>G8Qxp2M3HCR9q1#M8cj-0!^XNPZf@V8bpo;
z^po@^%tkG9lzsacS&E}_w1~O|MY6Q*WXgF%r#(+qUKipH@DzukkO=7x2_|D7hr%C4
zyvHJ^op`dr(LRD*vqV0mTh6ii)(fwP5L5}clY{x*U3<dnbr4fckDgJz=$P-C^nKqo
zjK#FnqP`+W^r+{lCD>~?28}A>kY$@NlQJ!ieF1QD=kPwa4~&Dz%M|mVs?9(%D>S*I
zW9&=q)N=GTmnBqSuGVI%#XXtDkO8DNCLyu5uvzB60FDzD7xtR^`(KuwyHSpNagE{o
z8Kk6|m&V*$@`!e}M^i236V<vwGg_|K=$sb{WzjNg<gEl$U|U&lE=N-j(rpGj;?mo0
zj}>C0c)d<v)Xb&%?Y>WGsUPhEcK)e)O54y-@HXgE@P&yE5q20i31R~CUcXh4gX94c
zShgN?GQxn5<=D*j-dOJ^NnBxm{#xq8#&Z|%_stFi(!>PZ39<RxFO&H#`6t~zYCWA^
zgtyLe4&vg!Fu-@7Qp$G4v-Op9YSk+LsG~A;u;x7jkygY+6AlNln+v@cnm*bgjqs%F
z6Mu_&w=K1{rND|Jj3X#|9OiR;Hv7fP)6$}8>>Fzv-9i4v^*N88K+>k2L-Q7PpaDhh
z4EBFbmi~;J0wrPr|4=x7xDL%Lrm3nr$tL(^(uB@5l?PnjzYoj?N#Gk)0l6>y+eG4l
z2ni?~bYD7w1A6=1kV(_(^G+wAuNmlsBV_{Xz?hnOWQ+TN*^oy=c2%$5V4VI$7L*q4
z7Tp5k8(=A(!mwYPB-3UnTQ8z-?Vt^xO|)BF2duuI2p<#y8dYGz(?ep-0W^O5)x#_a
zLn89DIHx6Gp{wioLt!EcQ;GMqn(SazKM5mkrgKoPwl?{KGB`Vl4ipZ4%`{Cy#t@kY
zb)X^P+c1Qq0WGUVRiZMrg154L>*laYNA@|DK44%hw8;|YW-2nrFQR9gT#LW=^^=_y
zch+MVviIW3lyS-*5YBn~;r48LHWEvUL?Xnz(CNHBNl{>kvzJ=Ul)9RoK7Vtp{aH0k
zYI2o_!3<?gK*7tvBP;4)QrZfcU?T)!x!IeFd%%`1bW^sjt#v5rDCxKq<W(e;>U=(z
z6}JyvKbnXkmV9@5t&-W;{kG0=UB-srBmg;+Yj8dkJZ8ZITg|^v*56<YqJO&$2sju2
z3w@D^Qszq4-L`l{IIprat_5}M02|{?`a+nfbhSVKA0j(66Lt6ku|k9hh~EhMOc!C_
z>V0t@rr3n<^?6a|RqW=q$n_4T=Pw|%&Yx`B&Ss=b#`qGU%*SgpDW$q7!H-<mmM0lH
z^lCzW2M7c<t>~J{GaQ**m-C>fJ4Sg|iM*JA;enpW)kY$*0D*`ro`_Flt=%k3IVt)_
z%#yxdEmcWm@Q$p(sima)l(A7k;iIUhlMaM7mg@cWC33^aogux{kbk*pd&BFhvgOK7
ztt7QY2rClV?EWqd35T!Yak%R$u@Bmh{ZxYA2X{aL=B57s=PuqrhXPszbiPl?dN2e$
z_IM3}#CZ&uv*E<{<D-8cU@T@BaO*S_(hciYmr)Pt?@Ewi%KI<U8MvTW^G^b6fg#}1
z-oj?u1ruBNL=R=N^7g}5-0(uu$d?DE*RQPpZ~;ZPOQ`+p1+gLwbQ?|A^X>lrDf}w-
zKfZoS1m$B0*v@AyB5AyF6ZkkG`A7m#r_eTIscUE!TtV{6lsUN(IDZr9c<@;7Euzh1
z;sN~T3pD@|&8%}p0yS6tI;&{6r>7@NwlkTQ;ZfYBn(~@umjCmO#R6s4018N&D3Bet
zt7z5E?a#~7fpLd{7BtJKXgQ7`ORA*VnD>x9r8itOX!mQaq?iCC_<H(Mi)YP9j;Qhd
z{mo$`2loaufa}BhEwAk4DFQwZf`Wy6QVwz<DuoP3a{rsV2_%krq%eOh_G53r`>>VP
zZnpdtw&ira*O_h8<@ZQS;5_x^KrDaBW7Rjy(l$!=kvainp7lC57nUPkMVXR@^mJg6
zNNTlZIp0y~?=wsb4_Gk$zL&e0#h>*{)boaeo)ArCUIAC$Oy-!qY5AR^8rA53zIdE5
z#<(B&@x(~T*uc{F?rcR)t?kUS*Q7~s8PiI5@b=4}wVpRPGDm~j3J^R!LVt%$q9Y7C
zp~+cxAE=z9{<q)U8BD%{kEnyL&iAu%y(M-IY+I6%`kt!UW0Cs&3e0q0uvt0Wh+r&_
z1Bu_gLtOC}K$yaO$Ue(V6aI*{?`XXrDVRH1P(!+oDo}%0n#`CiH|y^=l#T%&M1OF-
zh;wU%#J4SQ+DHvL0L{@CrE!(y_pfkD*#jOG)>@=oY~Za?Z-C(N)|B{-$I&)2|LLco
z13%A{4uYKr^K8KgEO)ij-dAN$Cwi`CJ`Rs`z6s$=pLuYBFaEm%{M~fr7E=a1i;wLD
znT)rEeV)M`;5OXYOff!B%KzDR<Cw<hVn*Vi$E%@=aS2$i)^gxMYp~+=gPGM(_2Cv&
z?=Ejhgyj(6Nb&IcQjGoZhucpl6~4z3)^Tqk=%UbV<%UzC%jHC3&P;~BuTO%40lhji
z`d3xmVX>2i!hhzf5Nd+}ea)^F*lNQ(H<MSD=tzZ2Q^ihFD`=^Bf1Hb?ju-Zvu9&(j
zf}Me%8AHN`Y3jr8tA|bko{R59@oKdo)~lz|Xf)$6E?!d3`ydc*WAo-`Vr>2eFI@?-
z-?+G7A?s(g|DqEEDT2kINcMoGxOwaL<4GX*>OD>$5P}8=$j^kbqV@baSp~i{83r`0
zo*puHC!{|l@w+tLMz7JYssOAThsRF?YeQ};98ftR<0!*FPeK*um>+sU7}DdSK?BF=
zcjS_9dkEgN;0$k=e$S6&L9{;rL!=b2;E(8%E5?a{5fEl2X!0g=3+}i+cI(gm8n{H^
z+yTm4Po*4H!r}*4gNL2t&G)vw5!D`P9Q=-wi~y{O-Ajsj7ea_3$Ql<Nbeed_z4J@Z
zuBOe$)$d8IfpG!S9Ps&FhcqBSQIX7~mr%^Nnhde0a|QI}Fu*%&`;<X))|oCcWo6In
zY^!S1UI04f7JR@D@>8AxVpT$OZyobrQ05ls{J9za`r#?yxn7Km>2hG2=>k_4_km*a
z!lM~7SHOjw#zzrwKLhgFU&NCsK`j#?k<n{8G)jhT&}O4m;;!H~k%bO53V9i!VQe)^
z5^^>FSGN+_B5MNjr@JOSAT2~W&zDJWtH&TXm8T~C3mJ6WE0Cd1G}i^*Npd<R*r?sn
z7j_}=f#AutiN$RFY(7i|>=S4Cq4z;uN>SxGpo@k9aZkj!{n%r`4s5D?pEdT!)|{`d
zCeVYouw@Yox5XJx*ZQyT2Oc6VG;Dzm9FcQ?EOMljdoJS8gscL1BP|bGFIez$H@l78
zcgDrF%MIvh#FY@&+7*T6aK-3qhyN)#e|LJSCg|fa4A5!PVma?PBb~%;?tp?kVLe7r
zS@$~TLJW{(qb{=!(%fOB{Emu@AA&p3L~qwl8!p19<fElAp>F2r!g|zK^i(qW*c~5;
zJvZWy`v{!|s8b9mdLv*<R5z}Q@4Ap!qdxKitP5BokM(`q0V3$m*2JcR7m!b*DuzL)
zj>ZK0lGLW*&*}PK5Jv_JGp+T{0siX|e}}i9uci*@0Q>{#Kv4ocu-xsqYgqLI%F#rA
zm}FMtpY}xRF*Rb*(j<X$RF{GLJ(EDtRMfEsJy;Kx-d*lO3ZDd`NY{zw#nbCm7eYuF
z^)?^R?$6BpFUE5n5biQ)A@xzk<ZJYQj_^Ofp6W~V@%VptB>!%l#lFdk$)<{;2Uq~a
zYCH_4Nv=zIy^*-vjXxcm4{(aX&f)?%^l6eNz<&Ho-@D?iVCiT*___9Z@Sa<~+juAj
z)2(B02f_$E2O29U%Qz`2?sjN%Qa<P0oakO8T$UsdJ=OyX0u$tpV`^LY{HI#QA;8os
z{ZmN>V4+V$ZkTZE>Pr9o1>}Qzz724c`_~T&X!SCKCUs^0O)UPK{hG}spm+hf3ACqZ
zj8a<kWlVzJ098V>fZxxWtRiiM{1<3C_y~3K)1TsSTal{*F@M=~{Q!-hL(NuuJ7{dM
zz0=I5CqSSH)nMH8Eyhflo<=&C&39|_qf~ZtGaDrfNLk`P(prxZdz8HQ7)^)_WWpwc
zC*UFbQoNz$pPKRa4-Q@*kUfl*Ke40A@g|_Y^#A<9@4v$`fB~U<lr)3(!1N#5hLV=@
z8r%YI>Pq(c3!sp?O)Fb5Vt@InQ(;8R%Z63(J<3)U1{ubE)z^cPR$X=AJ!D5Qchv$!
z(o%yL>(OA61W3H>z5g_lEvye{=XiBN5RwVFkYvuKTJ3a<OF+oI2jdbB5XL25?gA1q
zY*vDJ{<SP72m`fT{O_Or_otK_WzfQc{r!jlQz9Vn*TV`V4tf+}d;S)Lt<gY=l*1Pu
zV0(LQ?`wd{GcOr#%aX)l4pawP2HiIY4aS*DKtCQHprmPjWl|#~`howe@#}9PVzX=S
zfYCR<i2{#Cy}jNpaKy}PZjI)H<1T~+zxR7s83(F{-*3%$4=BEb19mh-P|W|q)W2V=
ze?juD*nk+-e;txPZzW+M(6D^v@w@`kfcIqyTmY|J0ba-gkbB2~d>jH6ctRBY04r{S
z|C$V-XM|meyq4w(+1QCF-C9$!z0gLS<Z%n@=gw1#xZSVMQdo%RVEWZN;?OuD<uq5P
zD9b(Fz-^QpO20G>!Vf769rcKDYtkb@yReS$62}c5JfnH0sW7Fy`1#exTtr~>+Q(I=
zTbrTR=F=2lGa*CnA0^U2n|8~Ncpz;mX#x~#Ar5i^B!7PB*nsogIEvhhnvj?MdzJt5
zts!4>03Z6f0tTHX{OQkSeSiswd1>GkM-2P1E%1T$TgJNul2@R%+I}sg2fcdTlIM0-
z7l*fbUsOEEwHpRe^@S=qBI*@J!g?Th>ipTnbb0eng1hEB|0=U*;&U-FTk586yWn8@
zZ}F5e<08WBuiE?3T1|jCd_P=eXdzCx6m-2NXXZx`@rYM^{-dIO2sDk*JfnrAfl-Fk
zAizBSer0P4C&z1#9<s2t0d#|LAV)V0lWwx6pfT{7io!w!ICUFnFtxb<6s-TMPZLtP
zeeC^Md4WGv|GVZMBSIy`lQ}D<bIFff0db6|5#*-S<)u+fB?BbFr%bS9<f?eOate?_
z#Jl(Dl_}@7*fV7Qg$p09i(&#=&C*u80^vw@Xt}jvGU4YG{O^I}S-Jfs0ePbza7^nO
z^14{@t`I|)taJHVrZ?}n1xWZDF)~hK$OwirWBnA!X$W*Y0OEGxS*)~~qFL0GI^idD
z2P0MfAIhB{&p>Y`2j0rZ#7-dUgEo?Y&6dUzMl*}Wa=_IvFwv)+aN^0|Pc(uE8iWj?
z8wI}v$!hd>+4N$U5nBK~CWHI!Ibsmks}IiO?%><!!c*i*YQrGHL;Fh^FGTz8QhUDK
z)4a00yM~^$JNWQ_-d{TCD;OwQUhs9`Ja_U!g+gk;sioL*x!x@r<{T5EH1@x%t8|?K
zSk(fI?9YcnQ3z>3u0ayWZiL(fR7Gaw?-+HG!Q^Sk@8)2;?#Dw_xGiAodmvFW;=8uF
zIi^x|;QnP<D@xnPF!6)pum);{jk;MQH|>DtUo$$!2q)yQXQ@YUR*a?66ipg5CyRCK
z0Boq~KC1z#v(TRPz~6HcB!c7fyA~>D3(addw192$jdwamRUe-mgM=Hj4Y0bQC_n32
z1dJ100sRWQpfa5U;!QR1`X^*b4>0`sSD!H0(a=MR9hTxZWtKrrmY;yXeQK%pc0E~f
z(91VG3t4gRH&_awh=YQu9o#@)lZH25%X;-yZxTqE4yECFcT5x32kX)^ajEJ+kD>s&
zNFdK;alP7183t%P&A{?sBbLA@%3p{64})iSHwx_tPYWM<!Y9o-9$gg$wB3&J>3;sZ
z_yiJzn@jgkQ5xWaMmL$PL)lUW)EUDYIJ9Jd^>w{YcQ9tTHfpon7wApEm9_o&%7TM7
z`*r@3&&eoBUhqs01Qu~xjr`J_r-&yj>0L3R!emmh^7h>A7Wvlw1H`2b$kS#~g%Z1`
z7IAp2NAnIv0=j9JhFqM)B2A*c0o1)(6z-_vzT;0ei*gt?JAfHF9mtHE2A4a}6?kFI
zC?ED~#)Ql;8GmHCec|u&f$tyD(lOkOmoSg<Ox3NkeW#cuFhd!bcmIxowO3oX_N0k;
z2rLC}(SOL({@Uv8;R#S2CQlQ1I>DRmfTzoC0b<BNA4g8WKOu5KT}8PWb)>$-=dcLN
zMV7_+eh6+*F?GoZ2wsuyu)hFnCEYxpo~X*2(k)T<RTy#%V+fCAH_TH2k?7QVmJH%a
zrB#*5M-fm2MF_x!N{^A5#{A+VC>9uNBG3MC0icBV!;s|y<MHPtpo^?>dVAu3$T{1M
zYxG(ijAple1FaolTSh|p+L3o(kQ_JJsKDh#!Lgn&ri1W#-7lgKK8Mml?Ml(VE6gJ(
zUw$}5uuI$`yLOY~pL}KPgR%IlA8?)MqvlVP{(lHd4kKWv=hz*{367Fi_s8?z<aQ-y
ze3K~ue6^MFxF_|cKikM;Zk#chHaqQb|6t4GFOKwsa#V7P3LfpQZ!!!oK#9ej&ca&+
z7Ov*Q2**Y@0E^+CYn^P3J}vzMcBW+^U;&hE46K5Ehq)`k!xjz5B*N6YSblyp{P@%k
zn9x_hn4r)D{A|a}8A&#^p@vp^kkAEqMGzQ#iVXrEUtu$97gi_8=Q??2LD9-tjjTgL
zkk_#ayC}t&M-Mq2uFRwXst5yKS)wwE$G%~DCH5TwP*hogCmo<m7EZviP}`D)NbG?A
zTwc9D`lH%)-=!*+9T?w<L9f3S2K>`||A+f7+kkSf`caycNu5R7BG2i8FMR9BD(uYj
zJUjjrt2utx^r}9fyuuwfjW({3o@BVy4Ig&bf{e?rBenwaFdQ<PAA#aM!H{mwv2w7<
zq)Dc8FjHPnCv71JzERl^$Vsqc3V@NfJTUQk55y?0Kwj@PL|@nx-f<5IaTvm>%s*u?
zjs~Vt#1I%aOoFd;NR#s;R=F}lc47S^1?~v&-$?=M*}~;v6^f14ka1^`A0Sco_;NIn
z&)*~&r#OHNrJgaIK;6*dzYv@WWu^13y60M&wZ*9dD?+J}d(+m*lR!~kr<g_6@bA6r
z_5h;&`-YZ#0(AxeOJGp&qhNe^`8GN@80_TLkx@J{bn@?}_3^}kBNvwZlA;IwknSoc
zs<-U9OBVudPcm{ewnbv)Oe#7#!p9&)yhA4t1*IXsfvYXb>kiK~!kj@W*1YgWv8N><
z(z##6;cHo16tUn}{U>z*Etb=m@$@0(4f0mr?tw+uTl*Iy>^-(L{Xh)_=`taDEq?OP
zPAo0IB%J1T2JBe!33|H5Wj;Y`D~d~(gCAf;&|5p|$6Qr`$-1r>KXQw%<JZ!3r)p<*
zvOw{r?|h+U+&-7iu^M8l7&t*2X||#B7fgC-VPP^E<-TG$D?TSmv1@PDaWmg8I<*_7
zHk+gkgL<T^N?-@Bz%>QIL6{hYzQId-e|Y=2)87=vtSVQH?}!f-CRK`SX8NWT0Tf(J
zgGJ1nl>Ec*j!m1%!BS(Cu|kvjwoj!6*w#`70puT5>U&SFk=_TE$};8+iWoJE(P#TW
zn)P>kB8AMyBVd0{_^-1RLA_h#hyW7c-G`FsyTUtPnrHn4?G+{OaHMNGA^o&X>ZR;f
z5>hBqtOZR~{Nl?QC5tx}kga`$C=caSx9u;{=6STG#+pM0``_|8&gb~J^T1h<CV*-y
z=OBHqcJQ4*JxN?#J3F+M4H+^-w4Rt!5hboU8Sk0ZWtT+7^ud0Tx2*M!70K-;B>$sf
z9i&h1lp@<VP-BxVX#Ij3=;VJbPw?`PMKZ_xi@vMt#&pTN*2FO~`LCiX#U~ka9~JQ_
zPyja}P1Y^^QSJS+w+*>}IMlz3&;~AyZvNEI$jEWCo8V0~?>&H{4O}3ggC~rt+(9x4
zpW8M`*5unA%VCS!$oB&Cn!siE#nBO(tQFvp0NqvwQdBG~$&9b4u#?(#-A@3WF~%@z
z&*i!yHy9&ke*P#bRg%Y{aMkz1FkiQWHQ9yAo|?`8Gd^r?7Ck*x&{|LYcC-UCoatsE
zSNt(PyIHW_#(VM<&v5&D#Z)$Nvby;_Rd;SVe)IyeojFTEfw5bZLUB2h_WSFPHG+_p
z%q75K8qEW`frY7a$Z1eSMvr6GZRon&0NvJ7Z(cVzYyuY7fK2P7_B-IWptQeA7R-A6
z7z&BPq%5BjDlPh*9g(yP4d2tarLI03Z4>%&U@RJ;^pnHaefgCR=MSoAR~A#E;w+bz
zPC~I>6ink>SM4X?LP09FAR}&6sn$oD%s09Yp)TD|#qoav<ckTP5HDw@jM9Qy(`!H)
zYh^ycb(7<!!G(YG0NR7T$#Bffe$01vX@sCdX>yUDACgDVX2#X^vlx>$ju1VY)}U|D
zz+wnM<CTh==0hNN8<J)zGOqx%gt}Jz#fDvo0vJm&XqV9eRQK8WNTTUr?_<Te?hZ|X
zaEZ)}{9i~RSCw*&Lhv0haaN7xpIE!JJ<JOwasB)&pnn*p4c(Rh7y63@!%{mdPYxS+
zxAGL)C7oc5tppn#Ur>6;IN`y~C}u=fY5C)8hgEhKKWE&m;tKh%{trrl(eGBB+W&v^
zb5%Z!akcP5{e#dZEs=Zfst_sj(nongu<^l<N_tPJeIY7|J>wKZ_q2UnUy(>Dil7}t
zOTU4Vt~4dhn$?ez4ETU-6>B?gkRC||HuNm$W&_p?LSS2zy*i;a8p8Iej!IOGu(-vK
zlSQQY&0~c6f!=&-SwYh381pM>m<aqvZih8Ce@)p>D_jeY{VJ3&eE>phKfc}iCRXdX
z{9Ik_0nvd;2{!IhRnZ&Z)M^KeV^U?4$Oq7%!(g+z32hF&>!!v5ojs;PV!(?KbhPi%
zbSbSsUkHucbBn?b2c5>GcZ`1^VGArJi3WoMeUryK87yLg%@>TjrWtTDimjg7s0jxv
zB9@Gl3BKCXgc6<FD&n=DBP(C+26pJI0PvSNqe=vHT#P9p%d_*I8NSln9II_kRtp(_
zQqgm<-U69~UFk(@hyezSKHy!{4+u298-S1$RVptAr^kZPqD+*L(_RRcDSg%VJ07Hk
z)h^rZMv---iD`n*O@RIu70GJH=cdltVEUoy=$nOJkutH<)i}Tf#wKDJB39`LuQ@Ah
z{_4chp%-S5$xK95n>WTeE9ZUYsf-_f{o2|in$-bJ-C=73a94LhTcfVNPm+IAirC`@
ze^`Fk)y;`!u9q?OH<gkbMp5Z=W;=g<u`2!YRM35{UD{YRU6_xq(>G|h=&yeWE6^T8
z74ENA^mnhh4Nv6U0X2V)o`8Ik0HOCK(S$X-wBx=LZ^w~KLLcO9O@sC?AbO^N?H9>c
zgJo!a-AZ|-dRsMJ;YE^gn3*`mNhG)FQ*3OuW)jcqn~uk5aU*iNwJ+j9^D0>GkW9SM
zZHJYQu8R+@<GBs0S=k?eay8HW#8}b70k-K!QWopMBEbR;Ypg`N!ndf4)i_@=>G<<Z
zw@VNVyXWfuDjDCBRJ>Y(8<hf2A?VsK?2PIo+ve<`=7<wCCQg5h9U)y7I|=DW;ftjy
zO4YPN#w~0`3EB-M9sRiuzsW***Ku*U_*YLZ@raP(=I!AI?0#X-(QL?Ohz26+&FQ{C
z$|HV_QFzzEAMkGdMI;Y-(DnM6FP`ySW{i?1r+g^{r6+G00K~kiN%nSbS3rkt`>{6E
z_KPQuPv+SAu|~IcL>)4)`JasV2u#-J6WsLl^sYXEMug<(`rMt(P8P_bt(Lj`M#eTB
z$6w;9d-?L5)q_l6n`g7>#>#ooYqS0DJ-<;Qd&VTru=f*D7N;H+43@X)#rROtqT;SE
zo}NrqhQznDfVFhtNfKPob})*0<;Ssz7lNgGm$@IOy%{u+3Qz$JuCY&*bAFA=GpmBk
zQ<H0o)wKOV+gRaqwhTJgUEr#L-NgPQ;5QbQ3x33#Z`H&c;+TxR#dU#wF8Nv1NX{0R
z>w4;pNTxdgEt{{sM$B>C%<J&A(vdfH!{t2S#Lzv52cFXfFHm%42}3(bGkE*wF$rtA
zh~dj>!fYWrPJ#3p9;`s<=m3@ny<CqRccVXj5*-%&4yWtNejj9;Ds@}2whpvIT^g^<
zl<`Cd=z846U`Ol4pNY@+*WX-amZBVy%sElc%+U<0k|y+{@Gg-7Q$ZR+0$>`GqxyoX
z)(jICJ<6U}8_smTv-JYi@3rqi-E4#khsA^V+v*<+7R*~^4y2;(z)UMJYG?ayPC7!O
zB--PkEta&PvG<l)iW*)DA}?F;1t`-eMQjAo9O_NH_)G*^3reEcmp~$3_kCSct?EP-
z5j|A?4Rm@yy%Bk0ax>TbjFEGTg3#LgO@!C#0F?)(1We+ulaJ2LRs4GLi~Y?N;j>c=
z5tuGE*SuAd7Whjnzihm0Xx|;MxJ+Bz?HTAhc3-fB%=xqoKENwucUa_26k;cK2**P3
zFT_ruA!6k+3^_sUSL(nURb?gUy}xneJ6->f;TSRBjrmL0z_RSacDn4khX$Z_#1W1`
ztLdzz^r9yGRTOr$Q`a+k9FAEFohx9VV4s-6YShx0+8=8@ElN)w$DU6B=le{UUgArp
zA|JVg*v;vb%45py!iXMv+C)HJA;2)E4$I|9m>}_mT9CawlHBf+UhpVzP(}p@p}qq-
z^lCpPq&IWFDKJ-fdL)h&`Q+?C4kST}#%7l0Y*CGcERWGffVd`R&;g%cdjSio@W?t6
zZBltnmJjE!<RhyMoZ6y>Smt-jIK8dq=Gp*1OTo|a=7qPV%1<kcv#y)2oRRgXP|n9s
z<25U3t^y@^j~{v$Ytc7AE&ck5yMMhT`Tp5>!{T_$Uu}R`r>sdq9gJlssahvq;HP5u
zT!vEYDB_~l|IGC#!vpHyLomJ=hV&!o$3cXq-Lknbd8jo@+(iidHs||fgGeD%Np&Ni
z3r9D3yOVE#+%aBG6@hua=|v5SsKb{B4!^BbHAc5l;m=`A=oh#3lh~3;lD$LrXfC*#
zy^0w*D`21t3ypko0VAjHmqwc5wl-I)St7B4jGk!#Th8y)oHH#MeehM^2|I%dJ6tLg
zhHo#m)O6!609vz1IqS9z*DXq-uqH*QFz)IRaF=niZdY$BkiaX!I40lVYJ~S&1><zK
zdeB&_8X%g`G)*eroP`74o&k>3hi!2D(OVO9fl47N(z%SgqhagO^i5jxsz}8x+-lZa
zE_R`(DVL}g<={`ppWbwip#irXOpQ(SX3sXVSZ9nvf!7Qhqic!0N`(FMpbJz=OnJ)%
zr$T8jEfki(q=Gy#s!e-J0DonEkwPuQ|3Pxe&EjotT0z8fdfDHeJOwLQfzJ%k^}5qC
z5S4Y~W^PU0jt)V4oT!C*6&V?SNQgs;6d92&uj+P1A&78=Qpf%^-~GyDox(nw$&|Q4
zujXz3xJeF{ZuXSNmc-EDpy<3C<;({qLQ{H`)&5wACcV{cL%=s6cGh&m{^0_k`q|n6
zxus#k(*40ol*yn`HLf=pD|I=9rfl@qYE0hWfH#8QM)t>V2(6lmUWuSxPI%nKWi+dM
znPBy6t<yzXNbXl9w$2*c9N%XnDZbM877{Kq?d@!g61Ti3>Dn-p(E)zpnT}GNQ`tX@
zM%JFIJ~wQ4F$a8D-rjb_k6F0B8sjF{z!s}X!2jp}AO8R9X&`X!5UMqgQ@6)Nr^2Y|
zS^&EHgeaRg7O#ex8&W^$F8Fwi-a2yFN(vs-YLtl}3^4TYBg9ROc(sVuOKXtHu%Cn3
zk^UEfA52rrlwq*QHUn&=j_bDrl(At-UhKTRe5nQXRqVbaFPq}54YzV~Jh$+txVc8#
z(m5=j<r2*ZiHxJ-)o`F=0P=pK%z({|MfAmdviZ`Y`r`dD3vpFi<$d!tYBJqt2RqaL
z+gGiJvV}!p3Wb1OzK^!Re?Q`jOmZGpS!X{#$pd$cezE`F?i)qrP}Y2#ari3Ukh|YX
zEIEUO$=QjY;*E&fXhSFL(Ukj06$;J=-?P0L65OuZdEYmy6J>gwQ@skDhtMjp9NE@v
z_rb(SaVL;@M%im~Ox@_xE<YiFs9`7R`fK#Io*e>RjLQ}<4C$M9HGd@7?5F$SAUX<Y
zT+A8u{t>;$3G)C90tbPgacm_@3=4&98VhkqQggj;KC}Jc$B%apiJnL~oX=u9@H$P)
z$gFgaH?93)(eD`2Y5TS6ge@hWZj&ZFBOWA?c`JBoR~Rjq;q;@TVbKf(n+}YQ5jwSy
zv%RWl{wctJP&-u!Q9y;GXyM)jXPP_>sg?`34RLMQ%Y^{&6!^IaTOZHFVHzZZGhq3t
zyl=;k#>D)*R?ds5MUy>?^T-l$I8d^Kw?Wbiq`FskKKDXy21{h}Fw+n<1|k&nZ~^NE
zUf&k8zQu0C>X1IEFBM>VWR0?U#}pvi9P55r$!m1or&*fp`imc5+HijS8>{`9cu13p
zlIQxW!A!<Ha*MMnXv@cN>y6_Y0r{M^VvZC_VlN+?q1%Z55@(lU09##PnaqhvK{zAz
zDI*sq9UH!$3x*|K(O6h;<#eus3j(QIIsPlYE%T}yC|491Vkt$uZa_>O;(D@M5V)-@
zac&*Q-Wg?}6(cm+^QaQXh;^Wkk{NUlSx*$6Jb<Q-q_X09-7~y)r@~l3qBiBA^u#TY
zp}|JUyfxneJrD;I#k41gZ+px$y+Vcs8>NT8;EXXt_f}Q9g|Z89@vJ76jv1Q-7(HNL
z?7%ABJdv6il%aw&4~%nF7Ppesv@>)xjtk=8iBJ+Rxvtl6x93-%G8`^#;4}ReVh!8F
z_oYI>I7aH5$5w;*2!G%l8qrg~^w(ha<uY87@A?{y?U9BJy4C~eA}dG@gfQEqQfCg=
zf}L5`Q~Rvoww%Z;Tos!&4}JV~d~rR$T#U)@FIb=RPda&kX@EqITIKrX@c{uXM6H+5
z&yYt8N10flxW(aOXMA}(L^MKkl8^}fjCvsK^Vh8N9~kQyJ8&S+W(<zSY?|EQ)r?kG
zLYBe!h=YdAn#ALeS+&G`-xlj3``kb~u~ZDCL88gD-^_CI%bpNsxr(Ops?K3%MbV)l
znc^bX<7?x5)mCfxcr2wR3Vm#L3l{0g{3%V0$Ksj4tO_eT9X57u<qg@NfqIYxCZic2
z?5B9tm?v7L>Z7Th8v%G&Z|mv40~9;?<e$Mh4EiNVvHvbJ&vPAADRbKU{QU=|_dgFB
z6e6J>Z+y*@e1G-^&1;vY)!X|VvTIgePT(5Tq4MJ^EW@GJ2StdyBbSasb?P}zSjxFH
z92{}U9}W)k4@e_H$r)~i`Oc7SB{+mot&Y)_=DzG5G5{LtZ)hu{ARpsq`3zh@YpzIh
zLwdF*rlhwVXkQ}qG~fPu93NhbpW4rJVnvXEglN*dU#&1=@KKw&YWtIeR#U1Q>eG?o
z3@y)9C;v>x<ZY^hL!FwRpcSEtiVDtAqB@a}O2W`po|aC}v%kGO3hKfJD`6rW!{~YJ
z7id(UD)~+1RKw-miQ3VRM$S(d?tmRsj|0R2DNHa%k#>u3&3O){0Tky9$1gmpw}^cF
z9OyHOClHhgSg2UwmU^X>UyH-3ix8HXEN{?{dlPzRag*+up=tF{-z`_-M@VFSD+9J9
zy5FLNo0)#e<ga?E3mpgr6AaA8nafB9nmRTGZ6>Msfh;iOitaq^zzvYP^E7%buU#_L
z4Kg(lpUgHvC1fwd^vLx|<y?K5vR;%unTIG2_t~Efb>FkoQY59}ni6cod@a>tObC4R
zn9n543XpK4JH{9O(-ZrcspViXBMEFIy%x1s4ro|*&p6mBiE46WFlov7l39B|NL-VN
zlw%0j%K`Cod>98pd6uV`+GF*+fGjka6VH|GOH2%DZQtjKFf%fa`41-BN3V1`kN5gg
zu58M%{Vg!m!%dN{BVWpPp;}?lA=tO%ouS}h64=HN{1Oe9%U3`EYGbY(xhim*?Gjy~
z5RjN2mjOO8r-Xm)SJp;|Jbcd8z57wY;?{8v{4QXQ(+7#6MW3fKsxf=KwsrWY2mK@R
z(uF7T`PCVSDrpduI}PM40m~y|nx;*PH^j6j*<lH<+sOUx#p5it?uL??311w5%n{U$
zyC|iy8c{`=tU*7x{n?PHCsp0qa57NCe#YGf<;JYU?29~$fn~2iMH=R9dVOyV%UYv!
zo|YDBANoAa#{418)B9%4I$5V!wR5Cz62$L4)%SVJUhlXpuqD~0onF1Y#Lr`3Q3LGv
z2HvL_rN>#oz5N9>r)(5T8N)~6n20VwF5ZVNg@RrJ1`@REebJFy^$(#vo9a6YKdYDl
z?5n57yftiaG|c6Sk_yXT#?~>w_*KUVelkpN<)O3Y?*?6dW<KtO8~oY!L4-Ha9HMh~
z=LbEINf#e^;i&4T=iHn>N*3quQ26lDzz7Cm$c88*j4lL&S}j^Cc<?7H4DYPS8$KI*
z8Xb9WrsDN^l;h^A-l9vx1;6w$5{UFFR!yDcymzLzv5*`u_Z(pp0Mh70^^G8CyZay{
zmfYt|xj=b^hu{crPvZ<smU^u|yH-i0zaxY$_?)uw0Zy8WHSx?Ea50bt@#P$cuMYnF
zyW-G`$&2^AdNWCKRIjT&<lj3waSLgIiN7b9L1tNS+qwj;O9_CibMaBsj3*d|*BY_V
zzn}JZjJ4iCCu$a3DQ*%xyav)QVCX7;I+J~9-G7c0qlh_!D!9+~%?_sqtwpYibY#T!
zk35<x^pO-x@<?sUOT}{c>sA?Q<8hwdW&LZVRI-91m6Tl|n!M-8;h%q=^;Bg<zK&?t
z6n_$TdnBH<Z2Kn>Z|WGs!bS&2^Fi{MSMl<H^ae}t#s3lY$iYE_?){{ZDa0C+?e*%&
z(x-OeWb~Ke8OV5SV%7TGLw?&s=eO?NX8QI$XQ=O*90uI12tfzdnD#E3koU>4)m#2u
zHjE_Dho_fA1V}Jo5|SHc`CY*qzFe#;Fsi$eEIQ3?a^zi2EZHY9_-inpgF!A<;5!-N
z3^xlzYff|fU}&bz7l|$NlvvOmYe0R%VqbJI+A<%Z9zWXbp-3@}VrvOzkra?9<J+kk
z+TX#-cp{kFSZ>x!!|#nBI`GE>{rG^27yG(o9$Gc#;ys`tg(e6!Kk_{hE-Di}g*DUB
z{u){787_3+-DaVM?Ok(sbCHs$EHJ2Vis}c`PJaHhkqnROYda7;j8r$)oVUCk9;Q(N
z+v*B^F~mPy(Ch8zDZ=0lfh?j6Gu_J9?}nvo6-as&d8^)y-%6Z6U0+XK(>*)raVFpQ
z^w;m{-}<N;+fkk8EHAeR^<MPaVS!vY-E$IMIZYq2y8=K$34SV-$!Ye-{j9!h{weWt
zJ)XCaNgs%5v(O%MSunDik&b#<a((1IbR-k$+#7{4v;U^O(%hcayb1IM+i?fnMK0ed
zWcNeCxKs`d7F(ET@qiN@?f!@FpyZDn&ymdIwjNMZ09wRliHZeiTTmX+s@7!tYFH+#
z;f703$p|Q>Cvi}Q9av}kD7ITnF8!(;(V3ft&15slq$KAj7bwXK=H@Lek9@PJ@#(jY
z!2%VEq>E4GskI~H&*b<X9)<l3=bEz0_f6mGNmCC(_bvMEMdK_8WPiHtw;e$RI7~s>
zRV-qd(>9)q8?Vbq)@OHLvRbJ*fs0^FI`i?wWNnk%`|fTuh1MOUIX9<fr3Ezn@A3U@
z*Z1C2GigQ-{iGaL*DrTL4=~Ab9aQIiO8s=$x!j<pZ#VWRb~Ix%n>L#)tw8l)r(hE-
zDZDeCXj6`C8^5(!;^S}kIwPvH)Paso*&cl==j;D)5^K1>NpFp>&SnQZC2mQ2I~WJ9
zPbLzmU3E@-x2Tst%V(V*2phZ=y2u>SZ{ZuJ^p_>%bwGTH&Rv%k(Q70QI|O#Eu&7~d
ziQE*`2+Cvr^X7o!9Y_)VXjoYynO!`<z-$W+jf81Af6Vv8sIuhCAZN?P10lD952M-5
zJj1tK-%0(_F99UN_4acg&lQJ8h;)VCGvVQf!)71a9|!4B-`1@ce{MVE6I_BI!!Fh@
zuSSN*8kSrmYlt=D$hgFxn=7JcrNW8sS9Wit?)VBKDueNC{Po!nZy36EjOMYqG&d`w
z?9>)g)mDkjt>S{1V<n>zj?yjH9G-Y&A_#TcbiQD>37HGjUjeT2^{Y|QsA!LGa3rsD
z#n?E8bzhB+9fIwLF4r8t?ALqKB|!p2>%!ZaZat?(nd5bKIu*;{?8ZmKZlT!wNtUst
z%6XRq<^$Sv)DiFd3>dw$l!?hcbn#(NBMH(RxR0)9dzE)MO_k4r@HBpb>y_}>do?w;
zk}`4U;9m&*<Mz1C{J6<sFwcZz%wx3VDv8F3`ZIOtIN#hko`PLp&d64-^#Jtng*@xZ
z`;JW$p%3#odO??SBG)8H6jWW1=&WNoZ!2O^6nFHmK<$P_8`sgcfp_K`o|XfxF=-W0
z26xe2yGhk*(itT7ThkFo`?x7_4moab#79kjv0t-voh8{egw4O1lI7e&ce%@?L2nOY
zMdqeUm&1=#9cAEr`OV5Q<Y{CM4VV)r_E#?2n>eD|hwI#qI0M!`U5^#Td;vINi?^{c
z?n)aBv;?2QL6hJz4)0rf${$i!U%lBV*flfCRT8vW2u47qoE6g3*n)Eu(LKf*RGF1W
z5@mTVT#yJ&o8wd6(Fkk2FU{P@qAQK^n79JGIvc{!#jz4}TXqSRyG_vIf4G40LiwlP
ztg<q^%p9wmw2woO(cI2)QFlpT(SofqEQgZVYpw*M_c>iB<8ECi)o`mm0<|N*%`^M_
z^t<;)F$7AgyAU+UxY<ebMfU}Y0Nd}YX)?A$aorMS*x|m`{Zm6c@O{-QZ@w_H;eB0s
zxo0xmcBA~E?WVkeh*s*OlK<W2)q;OzL9jOG^<*RPjz1n5NjrvYtoQ6h_L3CHDtxMU
zfEDxu11mzFxew#Fj_;ohTGrVP24pxUq&z{6vz)*+8M`=OTrO{tVG%jt;=d20q>5jd
zMQguj81}yuzhC&w{gTkClX4=Z^%Ed*D9@Jhs<G&8ZT+%Dc^ncvMDM1D@9}#h*o{{T
zLZfonB}MM{7{#ek4M=>p@NJfw8z7rX*-q8|svX`ILs&NGzG+C|&R@Gi2DL}4R-fBF
z?Bn~=XRr6w=KmYgM~J~g+d{~>+n7gG`IRCPW@eU5VWg&{=YXQV3hI#8CH$~VQ+fcT
zd%zXIq5aS*JL%wv1)I7SY;D2!;MZ_a0YK3B4ChP{_`<jQnBp9lcQoR+>scjAk5p$C
zE&}6ik0lq`daX20R5yvMp`6&QWzLW9L$0pRBUwJnkwmo-1}t?8)jD06!&uyM6?RSK
zAJX2okd6WUBOred4I&afJ%bMIDmad(HB`d+KY)4kvWF7G2Zu0czUG*9aEcQ0qhJQa
zMh+#-su8T?u2V18E{6vD__q>15z2IMHRv;3e?cfy)OWWD(~GP9WsVv(hc+Vb(sJdQ
zfeY<2q21V>qGd_8lXgQS2vP(;p>C<$HiM2ICI;bESJ1L?O~tgSNCbNvjSx_clgx8s
zc)**I!-SCysr91)On01UgdB+aGc<+$-Z_fR`bDa`vc!0npoe2__UKd|x*2U1zCA^e
z-iKXhm`NE;q*bX2x^IP6F<3aIkuNp{_%F}+O6EjalCkRWztCk~zPf!4wCaA7kyqji
zJYXxh2Hea8de&K%x>U;P*rZdP$swo1KckfugQJ=CFawo>6nfBQzT-R*6!l5II=%T8
z(R5jG-k08A8Ez=DBzE>=R>h=9Qg@wd@0hWSXExyz&sA+@jIiwb<g*Ada*0P092}p)
zv>;V1>1~Uk?KIsLmw+B3Jzt_^mWc1?Ume4<RHlJHO6K9pxoZm0tYby4i-B2A=M5rV
zTE+7bo&=@ES@QBTAx#>6f7z>}4zLU3rt*`J-=>X><ED!nmC(4xB{oo#$C&)c*#dLV
z(AM?5Zo!^cZGomV(30X|DcR-0!aux+y&h;zmv}y%L3D8e6eg>S_lGrOh&yt}Dh+B}
zZ#rJNG&pj2Pvnosh<8<|1oT`r11XO{!^&R#{IAX}MDzR$Bx2d9I3Vg{Rc!&bM$k~q
zCdh-QjuR438tiD5z6k5Y2;Mr=tF^oivu?px2OAMifUusP(edu7dR>vb2|Qk+@X0RI
z3Tt%(--!j<11C*|VW`K!?E1Zd`zd|udF}W2%`b`hCn=Hgy{s7<TaUhls<&z};-mWp
zwg4pw;I*sRriSc!)Es7aZbCcAAeSZ<%;eJ8gYUg(ZZ8n~KRNzqi|n_ugw6my_mO6s
z&sC%NkzbO>5ti6X@zEg~8#X88i9wv}+!#iPrZ$(W4(Rimm!NqD7*Bh-B%r@PK7kAp
z6*;g)P6wr*yT*S<AEeW(rkcTgOX%20uIiXz01eAO0@msR4R|@O_kB8`;5Le}2S5XL
zI~3RUVhZGr+{9O*k%}1H3J^U$zp;hU8}UM49P!CNg_sbFgpXXj(R|_m!Vz(~(%#&C
z&(}}Ccn7qzQFDco!7!?0$3F@&IYT@Bwl2+L!kWUt8prG5Scyi--Gll?$CIrxRq9%K
z7rIp?p!M3n@EtrQpWsaW<P*wZ#^GQ@>}zasXsja~BZ@UnW_7g*F7fbnJ2nrHE`#UB
zRAph6%8+S17R!&*IX!k$<?ClsPM1clMsCYqw9(L=NqjRk<|cA7<rj5r1bVL4yATPg
z7MLw^1ft<MbMk|(*<U}<{SPix6U~XBSvRfLhy?7uGEF6^r)xcasMHp$)Izk0Tjkvr
zpM-(`P|mLLft($PwM*wk_a5#J{lgm!2A&Pe7$+=Bx|WnS$yxacv*?y1@r>B7hR(G)
zo8D|?IE6t6lKQw)u{(;5Jmc~HYBky2$9*SHxeL#jQOlT$E3VVz#0VA=b56}P7k=M}
zWH7L+nJ*UGRH!hIrg!<~$@PafT8ypwG9TTX{h&2aB(q7i4B;j|*RS)R3VC%azyhcj
z%8plvgF8U{@a%A<HKamA7d5Sd<~7}S0kgz+li{;pskG!V9THE@!*(`aQRHMMrxh|U
z4AdgxEmpp{LpMulJ{H1CHLm)#8GjgxNk7{N(R*f0$iFO~SPB5k5)+B3+vJ@Wb%%O!
zf)~T;(f*)y6T`kqC#6%==%ZPmVnS={fpqv}4`h{;-uV`FOL=HjrP2@g$96naYY`JE
z9l(#w!^9kYseET%!vLl}z+Br37{m?^pKL*z66#3Y6x@O_M{moLENzifRU5Z?OAe-M
z3b%~@^Y-_^WXPMQcY45P3Yt4RM_3RHf{V*PJ+GlLc}s-D#>X)&DUV{7S-@u%l<8sL
z8&P$;(XfgW=2BdUlF22%a=lZaJ1+}baul#rH=Gg9^9BydLUJnk%c)ax{(>WrX4AGT
zB>&gd2KGGG(CJEvx86LL6Ft8qUrF6yk&~KJ_4>RPgap%xn%uew<~awYd7fLT<QJEy
zVQ!bZm3W<)BJQY+ya#cdpa&wPG)}XmLlbvAaX?ogBfPqjVuxu4Em*ICZa8(aym`J+
zt5;CzQz|m7i8)8zlQ^|G+~U?e_|5;v)LSrA6|G&{G#ex~CEYCz(%qecbcfO<C7lA&
z-6bF((kYEfBT~{KDFTATrs130bI$X<e*lHG)|_{Yag7{(g|c{Iq8%NBg-2L47d*I!
zbhq3`GP(Bxw8mHVRzn&BAZmxyw-vX3lyM9{Mh-=f_4?0T{RQI9_0?{nPnDf^qI=29
zH(GIPQPhpqTW}rc3sfA$Q(_2}lvtQ=3?}s{|JY_~xg?0iJ=aAv)O!=yD~9}GSBf{>
zWY8Ts6i3I7WFcB_<3Jd#1-CEW&qc|R<)N4YjpywlkamtD)%G!wFLb`04=KSIfP!9=
zHfMkr10RY{Yl=-F#4Yvs{DailJJ;$k>!Vb_e5Mdw|9QiVkF}oH-!0?&=87WPF-Tl;
zXFf_PMk#XN;LB0>uN%5WTJ<;<ygeJF65{egRwzO}3~VuZ-&)%b#Xug_Ctiv}g(OdM
zOWAj_(nCtK(y`>mTqk!!cyjDlJ~ht|D$nH2Jb<+%>a9Ubnl-z{*vPBjGpuZk{qB^b
zFX<TJcPC%4SP-rd&*fe})w{ZW<pB!j)IPg{rhUaI$_%$iOd_QLR2L1kcdB;yEmeD9
zqum#@jXn{HluMd5v}0wx=;T2{{HQUH99oJSNG>O&5eD|Ol}1*4)la)G1rF^NnGga1
zhttlT{g7_^D`u)vFEr}v+x^dt-KsD;O2Nl)3G0V8t%caBqb99GA<8(qBnl)Au5X*m
zPfxcAc17Pmn;E(aMUOn{zTwPKeF&y<nx1@uJH7XE(B(5z730l$+=|8%znZ_4BCnv`
zN<XF3YoE0}KGnm<4HX-!u4n3LbX*HoTBnUhACtRTX7E^e@-pBsb)}_$q@9^(^km}^
z!5lI(E?9#-{rI0j>>QutqzsMEyOk~wIg1Q*XBypg1*hLWK3Ave+Qi8g_N{{_oyEm=
zxA_6<pG_t{qm@_i?V(`%?>`-zN)Fo>OPYV2XI07-&C^x__R4sICI5aKq`nz8FsTgi
z%f1+*KiO+@=e7P$vlnnayQ)(#%ch@jmBeBw=7-9Edlw=?ioz|adHYemd%!Nri(C-i
z6jV;Ak_0<#{K%7k+gT=oO&l69=uze>c3GqbBz3q;K2$*lPxLFGo{dZQ_A4T_2bt&l
z+XFX87gIHoP^`jS{!zWO$4iTA!MIIuf=HyT`up+x{mPE|rw*SB#3Rd;xDKY|4d~Lh
z&CIj-6irCb$fo1yv_kN*-p3Z8`W|iH)HtI5lREqxEz%Uy_2LI7+0h(G4TUYEB!BtC
z8Ic3uw$Uuqby95+FEMwBofah3)BGtCOUswsJ{tzL@gH;uZD*rhcee2JHJ8C^vH`{E
z3HdeRA|bm>=8<sh(}pBpnrMcTadkt0hl1-Ge!<5f5m%17xo}>>7Zyp&8?YOQ4E!r~
zmajm!{bZG&R_?Rn&vj3L^-v)hehKt<M9&dq7qCm>?~1(`@bRK`4n$$}HczANDISe|
zwSJQaGA7HkAUI;jQqn~s)^UM9U*qC-S4;G}BMGOp2Twt^xr3>^+1<osz92EnIrZX_
z+t5cVM$<^Og(09y$3Gq94da6*&oh14q>+G%grJ~uPBGnL?QmQk*5Q+nSV9|V{COWD
zz9&gaZU_c~rTx`#TbABpmgr_H@}IHkFT#-|@D=nM<on}CG(x;E`N<3MW1e5e7@K!l
z3s|GDh6y;q!SYHu0k?-@BeReR%~R3^xFbW@`ca`!VLRcB1wkmQIxoA|7(!n>QT+VF
z%sX5=zmlhUkH3Tp-3uo;%MgE&fxKnn;nVi7;r*5j_ji0y`sE0&yUh`y78>2f4~$=h
zjnEPTgSg7ufzioMAZh2)q8oepnXm#<{7VIJ5O`V+qqL5i`8xF_!)M2c;ei|PzRP!4
znRR_K`R$9BC>cskS5IxywwSut%_XVCX{M&;X?2F-2zTPWFR<27dWL>NR!=R|era#T
zlw%onO)MMjHqS!u#v_#+*F@STmFuUU^ET2Rm%h}!Sn$q-m{5sidB&~Jtllbek4n`O
zf3qB;--txE3#gX+F~px&LYXYuJEFdR{c5Y9OIJq^{l3W)Sm9~<5^#Z!kCW6s<ZWJE
zht^u9{MG#W2K^P4!Q~T1?e$RhNo<Z0*GeZrL-U(a4yvKlkGWOUzikhQ-K2QQ)A@R^
zVWhZ2CJ%lu*ROXn83`IY+2&--glu+QC0;E>wB_L=?e%n--uxWl)KsJ@DO~vm7B3dL
zPvKBBc@jkbt7bYZc^%oc37y`c6_NL_&OaigOJ#3OwBAKg0Q0ZTI~5{f$?IxI&c@-p
zFCS&!#C{a=wj9qn`F(exI{nEDwYkm(;QtbR_8<S6W5#I@rT}p$oMk>s@iy!Sj_2vN
z3f7UV3}F$K&P2EiK5Nb~Nj+~fINq|w$kDmC1hVUSlTW+_LQk{KT`GGIVBeXceKQoJ
zNV#pf&o*?0P1WF9Cn@>Slnr{Yh)tFEadCx>RJZ@(D_zxiLU-0jij~^4{bbf>Vv(J=
z@3<_qbB#N-ZnB8~Hwy@8=e`HaD^nN$OG{yi*R`0*@%5LRGX{7p)sSC}E|x2epqBc7
z7+PTvsT@mI`5i63KwO9+#)d{6`cL5@HE70x&v8;I%^`PYz>;&TGB34<?3wiNIP-Lb
zE588}21Y;eD4h&1W`>=BqPg}v`lw5Wl=j1VY~8Ok>qT+fi}*JQSB}wAW1jD7&}lI`
zM%P;Eu@iV;k*0P#!WwX`yk$+{D+c_BKmBJH(@nujXX2<?#b)x<cMWP^f!j7vXRy%m
z1}28ykH9Ip21i(pf>>+RWl!EjM2YH`gC>tgWy%{qVfDygGVOTNC$9$;2lmtk#mP{j
z$OU~qAO?a7EWz+Q+!u7B<{f!{qC;L#Les#oUQ|hxezMqb@4Gs&?xce(=FK*&Q`y7s
zJN4_MSFyat(V@Khz0_3krUUL4OJicEn(Ho$PxHx;zUp}5UhG7?$n5WKc8(NwZ5%R<
z+v6~9`63-6qQZbLHk_rA)H62h9>fhSHGHOD_%WPBXbz)2a0F#QA&)oYnkNJ%00Nc?
zsVv@ny*2Xq>A9?)9cOrUZhKQ@UnQu_UhgqBV!T+C(0+&C3bq;{T;>$u>}0a=%xAH<
zpCY~<QpQ|R%8l3+>>nnM5<x*Q_yL&n3z9*f>b}MaJE_4Wu;4)vV75wu0<erUz_gma
z(72-d+?~oN9&L)yJg{xV!%_AdS-(?BFEZ(_*L7dKYvwNoA;I>fI9e*(i{A8UiA4rC
zDhk@yr*&hpn7sY$xg+sncR$&fsc5cF`nxrle<L$I?S8zu|5h$2h%{)W!zZ(DKj%&l
zXYTiELai#zfH>Iit?HYI`6lnY-g6yfT3*6^)ot!wA5VY3{#jrAz{kwvxJ(-i=)MFi
zDT?Imi<{T}EKKbU%(^=#Hs{<f<@g9UFGUg{>NP7n_x$PEEhr|c=~+i=|5@@@X7mmz
zS{s(~0ifAGVRfB9uP0gxGHm@;yYuzU0Xc(>-$0UNg-^Ep{=?;Gp!&XFEItV|{Ag5s
zPP>5(l)Y^yypNM{&~q!I#&Px7o~NNNwWRAXs$Q3WpASl{vp==7#L)7`m|Rgw#}8Y8
z-t?Q5OtVj@U+*?MdOlmBZ<tM>B4#JZ{SejEK$kQDUH8eH_*D9ztqIK$-gl12Bq&*u
zQbIHf!>dSq+=p<3=@;7GPM)KDZH$dBj#w*bQdYQn<R$)G9T_G+(r|1S_XSD}CNI$`
zD-=YH&~qz(2|xhowFF`Er#og&#=L$g0a?_41NV?m(So{Zz6khDecRpT`L4h7&7dYD
zB!}jPtPd>#*_RdStDO{1IC_QdK|Y!xv#9#CMTub}8AG_mNiyw5%d7Fwo63?YZF<Za
zg*ri%5UT75eBPk1YyUK)UOj4N;LL3@UVjLts&+qA=?#AaC2f($z*k8&a<bVPQ&Fvf
zh%S36j;~{U?T$NlPbHr+eYxu-r5Cm@yd^~zq$@9Eix*=^NnzJk5XN${l9Z}xWbVA<
zm5f^7d4ET8PW<DYf>AmFYAHfb9LWZV1(yr$Qln%*S3-c2RqSFyk&>C3FVIu61-fgl
zuU2+`n`__1f8y54rPI=du18S_JANC4WnJN;%kbb9R=CQnHV3u^&9`)ZJ4FDt8SI}%
zz4|0)e5rzOEAq0fBi0A`!)i0(=@g-2*mwbeRE89jK<->)2(4{fo!0DT;a#emW<MW3
z$JiF>h$DBZ@ifW3vWj-TkpK`U!kO9IPSVq6?764Y1FC3zxIb%w!$haiPF?tS#k+_b
ztf}(EyGWDyyKuw7^eA7KCGAxC%EW!nFA_D1Vq(zV?EAlN{rm-7o*tiU-rso<4!V={
zP5gNW@JGuu77qm;(-}Y1sgXXJd%W3R%|OapTSNrmCZ;(8=Z(dGfAl<L6j%=qq_=kd
zqFeBLpKs-TTM)F*u}9eTV<2u4W$WY1w3*=C&d3dK9U>0q3|4;iitK#1FL>pwNd@f|
zp+z{4xfS^QGg%4l$Zs``rAJ}QMZnVs5c5me7&?-*=F}|tgkN2@n(PtDmtKRk2ET62
z!jSy2Fh<qrDXJi|R?bQR;UELp?Dj1X&xawAqe$tuFZSboPYDZ0m=HvL-@5qh-(_)v
zjs!%?@3>$5U39G7PQ)RaGUFcXe-l|f9}WrIztf<l{DcDxx(yIGw1_eK;(KQ<XM@zQ
z-c$vIbFouv_e&%bQ3DtOKJ=7%j19c~t%#h6r(|O{^k`BRv-x0Q1=(UmvSB(HbLV#L
zyA2)hQ)&rc=F94aZjS{>EAg#a!={4<Z8Ns#o?2G`00fP0Z+BGEkUKXpdhabZe<<P}
z5+m6y)Ex-fFd|`&x)Mo{)c1#|(xQcOr+%Q27tAzu-UAG4xn{D-Ve1ZmHL=B({+wMK
z`vmMVPCiYtJt>@ksk}BYj#cGdLg<)zB||hg#`o7@Cpjem)TR-S!t8NXL3O&)AJP1Q
z!d{;fvxe6x>Cl&DYamiA^eq$w+zknydgl-j5>rlhJIp@Wn|$}it;8dljfU0DgKs}6
zYD~%rjj6}-Wg$qYqZ$syI0p5IRvU>2o}6J6hV$*%>r&?iq?UeY8?<czakw8|DuKh?
z1f`9Yex82aWGKG7C(a|A*A}IWw}!sF_Ty`iW1~mLOH5nalDSkXPut+`dJJY%LLIk2
z?TQ)UbVG(Cd<fL}L`vaJeVGg_B?~FLzysJOCH0CQ6gcSZV+HXorWa0T#eWCyts?h*
zHKLc=yP{-t!m9<qXy~2KFk|w3i+Cgbx25|WeH02vMP(9AQI$aDp%U>z?BnZIxA23U
zh?BVwM?GK&eKO^;vb79mT+#O83W*tf?<R&!OXj2(VaO^L@e{&>6L#bv*6p%tvoQE!
zyd`1Oa&#>iee4ajZ;>3G0Jcl+qfuvx%Y()x-XCjL2_hhZ!`aVybk%oKUgzq&Y^!a`
z<xOt$7p5)FMlyzG;_LHN%$p;wbT-{22SsY<$D?q8&dJ`${QTA7pXXI+%Tq<6op^zd
z%?0dJZn-|yt^xL<L@u}VpSIsm);JzFidB5XA!Y+99a_E6@B12vOO}hK;2j@og%q{)
zsXX~;)Qm6jYP6M-W1UhKdyN|DXw%^F_X*<SHZ2@I$&Dvz9eU_xkOL@+*3#yuF@7t+
ziwL_Mg?sBq*lGz;@L>xtsHOGT(!a@rFJTfhVHngcjDl>xxmzt<$U_nN%%M}jnd4uS
zyK^qAr6tEVX4}u`j$J4$u#}L5xS<{`J#V{ZSf99=(G)dC2MzGg4Rwyhv*fL-q+Dfq
zVwLymE+NmYA0vntdWwJ=6GzahK87homW??{Jd)JFO{;1M;QuMbp{YTDNhj7!yv0rX
zb>Um}-?up!s!c5~CuK|`xO#A~=HS+6pmF0;D|(j6WnbYxA%5}Y<D>X~Y=Zruz>Ncg
zx@z;dYpm{J6y2$QrbTUw;=~&7%ab=T!6YrRQCNSK+|(A|30SA1R^YA*+d4dx?1}0N
zN8g>RvG0i$L&B6|g0Alqb(ntJ3#eQddGK^m^v>imxV(;Zj5U>{^mD1Al`0k+5cUNa
zH6+@Y+&<9BD8Ip>ECnuUq~t75i9TkEH2@S|C2q>5qheIm-87<7z<Qy^Qn#Q&1LCYR
z0M^ftMbI74M#_p@K+@)ZiJ{$xu#=SULElgAOl|x|k_^k8rxs9+wXuVV?J4|Adc6d-
z+sy~`Uz>Q|by9jJ_PSdw5p0{v@h7y)c{QoQHHlnECbF1Ezj!4Z#3{c#f#`XC&{K8T
zOzb*QsaR_`>P`h=N@?)A`uW4PW1e~K&bV!l$M(j7CECsEPVGnI&nA(MXD<N5__XIz
zh9);V0j6JN`!O@T{OFRDFVDf@^7dveST1zEpWsa{`BNGd5e6O3a6(uBh@e#-cdY}&
zbFkM4Hf#O%cKQz8<WNBLsRILbJQas2sN~>4M-`GPclNu*`&hP8%`>y1n!%L%7IhE`
zDlNAjTo`Ny?a2Qr;rJiaVrc@xk?yS#kYk;u%1i7Z2QZxn14KoWMIS}#0yI|0&TRUB
z5CQ~<RB0GJo&a;GW;xOvQ%$ht;gV`<zdPh~yw>}958qA3LBLzX_jT{_)+}7csoviO
zC3#$O9(7$%4Ywhfqih(Pgpy4~NY!OG;m?{pQClV<2+QTj6UKo7je&N#W+A6*_f`1;
z5VaN~+x8a{_*8_y3!x@uHZJ8kOvO*_up<ig=y>&t7x6Kx>f7<?ZlOXkzXmXofJjjv
zb)ITSKc1{6&!_>>FmUVxjh}XA%!Qm+@=FuAmu7ETktUt-vxGBX?6y2{Yj&J_9352g
zA>usUnU*>>z$Qzx!Ml(qt2$Wvuc{o~;rC)$Y0@azGw`TWq}GA#G82#@_}7Os>AU-1
z6w$CDTSE9%zYzu8rPyjXei@a!b_Z5RO#I2DNv*$Ij%Zs!?cQ#t@&$7YuiWXsHAmOl
zUxsDWB7AmX_nfxe3N}4&-&yq-<$w!aAPk~^JTG;Afu$fpCIk0f>kWE#?zYT0%%0$c
z@`9i||EY~wi}WJaS>M=={f$Il>w6FNMxxo5)_~Rl@+i3}?6&}iFcmJVO}b}tOFRYN
z=_A#SFg}T(b&~Z_cF97u1G?YLzcqQCs}kY21Sbk+*C%x{AAMnT<qyhdWCdeP_qY38
zhHbCxd(SWF6Chikc`pE|O#eqE!SjQrqx$_C#G3)h2du5}u@L6MwCj9P)ps3#Qr@q<
z9%aWj#&8CZ^H2}T)A8T4Q!kc<B*}>%8iE4zoOkoR@uO|*`T!wJHOnJ^??pKQ-Z+|k
zz34#*vYJmNaBk8(ybC8GaT~H6VA|D-gKf63)u!nzR2=btG}a$EYBjg`APEK}|8$gf
zG({-C`x}_OD8RdzGzZC&<9}|mK<JT}F?Y9^ykt#;`UTBkFA7)Fk2q`T-l<svR;Pb8
z?0jQn4xZptTnM1L5YnPt7Ey+Vi%ed~n>;`drCCR#5GHA+y_?E-T|uePBtDnQDf2pr
z(pBRc2+tzg`E%FS@w4jw+W3#j^Ju154<UQS>R8|i5NxWmX~z?@qjbDeTZdN$iE?xv
z2laz0SvmSHgNHhT?#+7yv$qXk*vmd{D1N<h1MXVj6kPbqHS%&y#~q4;pFA>#lg6Sg
zqb1U)NwEdobqs1riPVy2G}qbZCiWS%*2B6p=8LVaM;;i>?lK!-1l_v;z}LU^wI1PD
zR<=Xlqk82nx`JzHJ}P8iBmmSJ7`w~PRDKUWV4V}DV=U5w6&h34^f{w%Y)>Fhg@#fD
zvgI26N|DklEsI1(YWFp=^wKI5isKsE>gIXg|7HQ&v0Qw&Vm#*dZutO_YeH@c1Ehey
zXJPfDCW1?1)y4OAH&NT#ip`@mkj0jR6HW?R<`U@OIV6Q{&a{W}kEK?SC&yZ!Z(xs&
zRq3F!BrNs60v>D>lZh&M>#aS~Z7M)dn$s#f+1_;G{5<8_gPldop}xOn4!D#IAnlzv
z<NZ@gmY%CA)vgm=WrwC`E{WpNRzEMGC1fg&i5mH2r~V^!RSOZVi9Pp50(a;7V}&TA
zvECFsVKy%f2ud6*xgHEbRG!QdgbhNUW2#?UFjK2dUqhy1SML6^!PZW|c`y88RrLFh
z>t7NGA3`RR;Z{Ex?zgc=osIBZ2rUb|ERaHr+H$n$4*t4OZLAYqB$$5`pag6cemg8G
z0G@Jz7TY2J00UCKE$+XWUTe8HC&oA(CA0rlkziUHih%U_4K6VXQUHC#A-KAY$NW(w
z?gax4h`4Gm@lpnYVR<-nS5F1ZD{{g%zk>u&>0ShB#<cqb#D1P)EYUDZI8eMUjOJ8#
z{^=Gal09S9q%#hJ6<?j_cqfP<l7r|1=AxEvHji~wQC`?<^0*gD5KtYul~jG>O*_<T
z1Hb`IloawRH=sNtQ1Vv_D1ZY!Dzxe0y8$;mYkUgxv<R9ZVRDXM1tmllhDdB_=Hvb(
z?G8FEH#~0FZ+F@ZI$zELc}W|cY(<t7ZO8AY_*xH_z6iP)wNJRS#%C`%EH>HaiTnZ>
zF{r0B50*#1>$(x2%@DLcQ}=i@xppUKYj>Q4LYs@<xwIXImy3AL%U5W+*zCj<cm;e@
zjUUKZd?<sVjHYrzjdWjvjmNntaV=GJ`Lut)b2-GG`Za_lF(8Q&y$udrzc!kkHTj$G
zjhU5MYsOKLTK|e=^ff05p8~u>TTL*-?eYZ`J%Dw~_!U{Dkop^rAITE7Yssk2*nCCC
z#UgyDw@>Z7zP~|SIwm$t!tJ@`wGahS7f4r{-S;9%7kr||S&OQP*Fly%a|U%yqls}6
zf<8SkBM^tA3MO=*_df&KOIF(|S9gh$O6B}B&D@t>cdtqBrc`5Eex_r;zP2}XuIyac
z5}D9`03oALMB}e~&&(N#rC$CQ)K(f1a@QT@L(j^u1<AjnnW1<tvKlxq*9=fC)5{U%
z|3>UkiKL$Yf~4akL0vSu{<0{ph?^A&2gSqL$e|K8z5XSJpbT`GCm^g1a>@lJ@1i>f
zLSTSmy%&~N7vli8;?B?Ag*`1$yCCWw1g`%Gy?C`^jNlFkqgD&=wFH&~<{-v~Vvt`@
zyl~+sq+R1M^9=Kwqu=_sxptZQoX!ZyQteI(ADE?zXm~>iuoQ)qixAMKiM&1mIN*?Y
zC9eiAxG*z-I?K%9NrJ7Gc2qVr9}0Ik_trU2mPEqC=2l^;4oy%IR_%|_Kf07U$%?)5
z)vtlC(3^!5Htyvj@(f6ErHjYP3et1EojsnKuOBC+n&v`xAm!$Nf0fo1nuCEb*!MyV
zElWRwy^n@bi__j!<XxzRb7uWnt8+NS1tcwewn+d=&XfuxlWa$G<{Kgx7xOSWL>Hfz
zxT>~;oLrrLl-b}N3JD3UbxcJ&o?KVxHA5q)rDm7G6VRXUa9R*Lebo2@-Kit<2_y7#
zG%~92P+D^aD>i+pIw1K-?GKWoaAGC^x|L9KE0y)YknCh;*!0e~^ye3AT)1MVST*(E
z1z)d7oVIOR`Qg`gJ_O~dka&v*+)Qh>uv*@?t_AyKT*SbNK|lSCH;&n0v?dB~?|9r^
zs9mS5txWw!(VR@PfPZv>AwoDqlaep+wTT~yFHCH#l*VIu32Cblgz;Av#Vg-@0E4aA
z-UJzhhVFJ}3A3lC@;sCQ6LdO2L2B~Zf?&2^qHgRwstImxVM&5;AK@xv<Aew!MDRk=
z@YL{)4aj=rLY)~g&uF!|Z{F|qhxWSv@Fxz|1y@5V(Ct4O1!&66rI<&*F&*IX?a0<x
zL0JOMIfXMq>JSEzH}keJ-xLAP+%w1UvA0>%p&cdP_*KUG((UW5J=L7`VI@9$=Bn8W
zZCQx7D<V8vH4u`eYB%{CEZX7BZ$uO!TE=UR5<<d?qU<d^ElqhEYWj7ZIjd}C-A|Vd
zHj1zExkPK*He!3r+cWAJ7)D<tfIKw2u`JrR#9SG0ojCAJG66!~8G~;<_)Jd!;Ru0L
zowM|_l3plwX;!6it4k3YmxN*>6=hvJZ&Kl5tzV+Z?}{uo)!+f%Nt9CiIWK?EXL$@W
zW<s9WX}8V?yTt+_@IVhR@xFAp37#93%@u21S<088%065w(-c2XlUi&%wDg<HR0+I+
zop(E7eh8;*|FieQhW}(ajgdU)_U~W_TdDBSG2%NraL@zQ{<==Bdop?~A&WB34|!eV
z&Hz81<_lJ1frR5(&jW*O;;wJZvr@4d+w3J|4rXlCj{RV*AEO>C0(7Ol86>CM%?_we
z6;;>;VuoO7&t5BEJ8Sn7o7j|L?#BmaMMKpRo!z@%;&1m<7rV{4RNP6weSEl;<qLHK
zTLllJ*($``{Q69iKtcIt-41d6AW&+hJU-taB=Vw=F!|PXDA4|A)xYeNK5@u&a&tY!
zWu???Fo74gow<2i3!>91&DuTkOtE8oapY;x$sY<gDb`;H=Y*Fx!>MCn<AH-{Ot}dT
z88#1+dE}k^bo<TxgzO3B#h|$~aM@{G7kmBFHP9xlm{?bdw<yzi7x<0KA<8I}tP=?0
ze~tP5Y#_^%?BFj$t|rl7$<`X&nmGG(F3T`I(jr6JOtxa6iKw*cPT~~kM3;W9Xu^bA
z?mSLJHw3dBl+OHp(j!}fXZ5Ty8AYhCY+-GmPqG)2of5mbpL0*lczaB{EXFvzVv0NH
z*C;iSy~djd&_U#Qko+x>G#5vQfRvXM{aFTdhyAfLHQ<*)B?$#+HOP~67?jF)9Z`5Y
z?O7@OB;9z+_1cCT@(c{%2{Nio9_O=1QosP(6BE-3`uSj+=s@7v@CA^3(Tx4o`U|eD
zN2)3b@fyz?Oim+-&3>Jep0nx7(zZyqSr6+B^b<2A^*BvEf3h_3Efbx%<L>_M=22{3
z%_sAKzmf3HV<3){K;L9EYs;IXayVrMjt4wO0GZ_Mn)30sm50Rf?AqfE**j=7<PCBy
z_H1?>j0)N6i~Sj<7HjhoPDcPP+B9B#1(K!o<_pU|k7e_f8Nbq5EYkuYD>6;m2`_aK
zAg~>?Yfz_Oa}sH<6CCA-FSf6cL)BpY@|eCaPqx%t8ooDCx|<k34m{V>*$h9P?J{f>
zS{vx{9|gn!Vq>Du-nXpR0XNUjM6P=ICX{YyWlPs0Firr`Yr&;HU~k3yZP}e%<FCL$
zg4&)xtVR64R!xm0FN@5#zQQNuM$CEZW#f`Qa^^~mvS|)0MWM^t`~#b~lFLs0s?4%z
z#@(-*r5sM5F#LV5_9_oVlGCg&9OgJ8`RVUO&?jPLy$9_ZO<~R0q4ohy&cY$b%^%V1
zX18K7f-Y(jN$aQp3J(hDPy4f-?WU%ni7l4u^%8$Vh&(L~&PmV?phM=59Ad9cAV<%A
z^*3d4l{qM>_p+U*1de`1^Rs~5QmLgU29Vq938OupUoOKgHT4$p4#uvuUJRIV!tW7-
z<TQ{_Qu8A6oY>xb(exffBWUkeH-1a`{R92Y63p&)4Gxy~mXmz8U{?}&4E!IcXkV8p
zJvn23U)l-_N2OG5wiY_%rLJk0tl1eDBGl0pAbPruxN_S>R6K??pdvu7up|1vQ~M9s
zmE5~MCxO|28tjdv)6TU-nf~820SyV9#BpoBMbn+HUW3D?41`GNfYHnmTN)hUcPWGH
z)rdB!JO^mVDsYw@P^cvVriGxEq+qsAnTj$PMV0|F&nnDGFL}8sKjBm7jN@d9yvZ}T
z7ox5mz~ef*;UkiQ6H<>U=-~k-h<}V5M=!Td5LQTNVv43kF$=od_SngOfqA&tFw+#{
zunZsfa5nq^=w_tUTL47*?b(#7A_SB}WdKp<uBRmuzD%MIwR#EqX_H|%Hm~C2q{JYz
zkU*k_LO4-`RDyaVe%8vXY4vi}rL#`IQzQw%!<T_KbKur`4QVUT)6?c?-?T{7DccI^
zf?*0}Hm8juMLyqYFlsI}I{Rdmy<ILHzBK}9yP2#0ng;iOcfIye%359k*@4zl)pU1P
z9)1_DJrCg02mTSxzW&p}dtH{fHHb1onm&@5xW8Y;?^rtcYtoGTQ6^_|2d((KIWLHp
zw{&F+qpeA+OYsw1i<4JP52hs-s-i?ou-Hfu=-gNfNoqDTws68c)>og^g)t_z#{BpG
z7a1o2^LOR-az+Vf!N;5{|Ci=A$oxo^f&mU1lgETRsV^*kRWfHurMw>Ogi_!^2;Yre
z({+!P%AEo1%9{`gSNz7wVp_}<6$@w={{uiJR6+4Aw81%;z*-s2S{j<Lmk{B<(U*A5
z<+S6Ov)W|;tjGZ@CXoHc!8<NBDPyq*l2VipW8MtfiXPKzRx$(){V=2iepZvXPE4qU
zw=NuTU-v|v7XgmEr|R=iJm=3oWLkVt(@y!EUPX71OBId!oRtJ}xvQt2w*nDDYdlph
zTRu+^Prtr&@qerGWIS|OQ9pGLt*<$r(s7B$_ysGQ=V%MkTOhYBd4mw=%&BBaziWe}
z%vf!52);V4V>}^nJ4e>4d5D5U-XUjl)XIA>P3DA-A4r6Mt~P9pxXA}Z%+W#WV5bgW
zzix*;kOr0sdjKPU_`JJN{fS++?$Ar<cP*CiF}vqBH)2_r@P!n!HP7h#0bW)Hn&kH7
zb{DvisHQ}SJl3PeUn)Z>5KNP{z!3~}le6cj@tDy9c-^0tQ)a95MugYYdQyvmlv*2n
za6dX>Xh{shMK^3Hz1of*zwiw=O7<vwdx^I*UoJPc{a&bmvsLMnX}^17bETy>R3{n1
z)!v)&9+sJ$Q}$mV($0_4d8P$3G>R$)8d5)Ub+GT`m~Q+8Lq~w!jQAv-_nPkYA=PqC
zexBd5dsr;#XoSS-$J|cxKpvw;huOAItpW~&G_92G$9?V+l;r3!%g|3Mgj`g+nL~BJ
z1<(62IN0wFK*YhsLv4$UWgp0bkcM%r->}uti~thU8o|o@iL*Z(FA87j^gD-mg71F&
zPLVp@8=D;ShQ|_><Nq)Xz&Zk_$TntHusamZm!MV*lp=@24OKbXB}NE1;N_7AK+qYg
z*Dvcjd956Nwb5!UU;DnO|6KRgnvs3J+parkUzJhY!aqjlrQ)yf!twvj0z6HMi2ija
z^9fQVr?|G3yIiMYyDD$;x#~M^1If3YJpFOQS$*juio6DQcolRvw<Y_is1R)4AK1)I
z2EZV7x7mB=*ZZ}(hU&zYC^VJrLx@Za*Nn9>QJ{(Ke~X}EVnXeq^25>|HDjB-6Y@0?
z%gO-Q=kjfueUA<w*U9)f|N366v&{3;1Ykk{@yxhIUn%L+`48i55Dq|0xEj!kGl}8V
z@^d%l#aNc~7HYJqS^wp;Pp|ChGXp$&?qH7?e@Jgx$Hdqe$?_yP>hN~+6u#UT`Bi%3
zIU&w`MxUd8{jl8bxf!52VizV>6ZX%GIYd)58qC!CVSlcI7EHhnlgBy5f%3q9V9UYf
zw5smmp7*Z%W(!0gw2*pSW->Bfw9c#?l#>C($DHPp%Z_8AZ%HSwTagLK#wlOOj(X|^
zcFMdU{mD=Cbs#keX;bX%|5H_`8iRi_v*P1l43Z2zRKwBSUC@sj6V?7q4?fEg1wMw-
zKpYI~ZP>i5R`S~=DJ104D47Oh5&M*;Pg^M{1$(SvkW1fImy^|Kyc2`Dntq)+koB1a
zVj6r&Iwd_y*{LK~Kih)<E%gb7W+Hi-LK^P*`Y%r}POnP+7ypwj4wiGQXZ=CcIx{g2
zp!|7M)EazNAZjsWxdYtkI5WEc|BI7x^D23U#`=;0!|Ei$rms(sea1B~h5^%wOFN_~
znT4TB)$q<K+9Sx%;6dHL!MCCi)Q=1by|<>3Wp`_KC0T2}ytF>M&<kPq>a}ih9;6u6
zegEBYRoVQ8&9@QH$F!sY74}R}Efl%INQ3E#{j+fLe-H?*W8h902A(8jfpJ1{l*@cZ
zk-ZQ|&$B>jOnd;KED4nY87f;q+j+r|Y&dWVzpK0O)y{OhtzO|1>&yZ$65SxBkI5v$
z2nnN2GXUNWKGPHx71?tp{L1KOxX3SZ1x5l#ssILpw8gtb+M_%<Y-vn1djX8pqwqLD
zydjITzE%P_U7<haBNOd-fTge8tA?fLrm`#XpM)_$dKGa-MDxCfrXbMyFHz*YPy>LS
z3=nl8Ff+*Y5}*eKgOpxVyy+ItzFZ4_NKc-`aGlP?WdZLy-_j&}%0U=_()Q4-SRCsh
zK=%h={*u}DXOexu1U|!dxzgZwEg_9kJb>QPcNVMdtm<?U>5!r{x4ywjHm+@x(fS>G
zvFIY5?WFcf^u8f02;)jaJ!fbckKX1s-$y0=GtTK-Ui`x6%~kJlqE50Mk%8DSV;6Ka
zx|96@Cg)R@;Wi-Q%mLG-edUkz%>n&xUO<Clf_3|h0%#3M4ye0Yhg}L|??;J{jQj>^
zxq*8CiF~*Fsm1rWf6YOxlnSJx#0Xkr9(2WMF%OCm<f}Y8-&U(19M8)Co2^QShhlIt
zEw5vJ2^F7`t||K1i4)ZGdBZsZS8(zRJ97Ae3|+%p(+pE%JHI=I;a8kJb?)!2CiVl%
zmsF`jbz#<Y=5zI_Lv~b!m8FMk(gqUQ0{i|pAHVdh$XN@FrYMR%__~k>3mI}eoar*0
zw~nx$6%cdPC?n*Ah#|*BHAOAcyPZuc4)XH?E0a(zSu76HZTDrqt)LZSrR|%f3^urE
zWTr9)0A~r9)RIsiJsyIGNy4G$8BMp~$g%~lkp_=#mD;#{jM6Ghq9=qJ+$j`97yL<|
z4XRRXbvt~HI6+id23SK4Zw;rSdXSB}%KTme62=sVbI>Yef;JQ5x4EX+-w4H;9KII`
z>>$=cC^3`ET%sxenWnhjYS4|d>w@-T+us3l<Zh5koD4f$@|XLv3aWA1Hx&3RnvCH&
z<Pkjj`5=@Mq7qocn;E|eNf*gri!{(A8v`E(vjswOymeAQ$={Aem@`+`S&9$)jo${a
z5kc*>P<SIlT8tr3tp=mjLpg{tbaj=C_Y3{o=B`_h_Fn+i0a6~|n^N(ODbR)v=a1(M
zKbqV}t};&=p{dXlJMJwNjU6HR(n31vc%CZmKaz_p&fp33rt?$|cFKaK3E=Vv)-og@
zuP&*AwIe+H@Q<PomABAW4V=Ai<NB>rdjBG}q6LJMAS7J>HOImMbXa-JP<;h8&xF>X
z{V?eWH*X1Qa`hB7@4ahfs7HT53hk}UE`b8mNQ8JtH(}F>nuSeEHm6vBLLs-m_n?!3
zpTxcL<Dr`R;NHbQV*Lay&WbyHD!SGdZ~-urxAGDqK6Ywdi|J`4eMp!p;He-J4aSku
z!}Pfj(Z>mmP%cgX-i)|}SjtTu{I+kWOS*vkddwG(z;&*Y!OjZuP>ywb>5`So1r05h
zB!3l!Z{>M@OMd>*2*aihcoi|`EHa)W4C<mkj*;71568_gn#8yQOwi%tNsMbaqIl0v
zOGorOkNrefAEnRo&t&XcfO0HddgLh=Uu!*>@Xboe15R~pWFJ%N(G)#=s%eT%$AIYo
z9wD}si9y%F0dUQqLSDC+11_0!Dm<YBaOiqZS^KEEIUnrlQ?A4!_|v9D`0eRF1B<I!
z_mM=X?tn)YZnGn^ps7bpo=Ig&8he4~ESK(Qnx1_3Wp@vov)AM?zr;0mE~;JNi7Wvq
zCZj>uwq$Q;i@ZVkt%ZV5Z^2fzy=AJl!9iH9lUtEd^(1iq<pW5vkV?j%MRFs|irZgk
z?R{k?n!^Rny8pxWEl4WD?Qw-R-Vg#(k_+auAq2Tao5x5GcQ=IrJ!hg<7T0164Z=#F
zCOn3fns#z$PxddQ)0g6$ScVn$i4l1J3X~Y7AdgfU)A3^2kSXyCI~(siD+1>L=X^m-
zIrvk9xet3x`B|{G%zD*_8vG#rh4}0>M)16Dn@qs}7t9-^@Q(4?05~{bHAH6><SWDH
z+)96v5QKv-kAJSFeDFqZ6DW7wd(`0!r-1^ZXo$aM$1ck%A%;w-xZD2-p*C2dZwdkh
zz6+#&z2;;>h=EUYXu=`Kd3k+1(~Ga31UAPw*dHq4$KQeLr2(X?Fo>NFY{NkbP8B8q
zUlgFhM=sz5(H+OoKJ0n8PX(pc2pCckyj10bccO}rEf2nmBla7bpn`T9D2<2ktB+<<
z(D_dH)PS?!0oekVetriDinb=1+9zA4n_KPon!}yMYw416=*n}bHU^916f|{LiQ^}?
zftsrCbDYZ_wtYq~YpiX?oasHj>p1A$-|d?FHSBIqU2IT!TwIxMjSs$nw9FVO_XvLZ
zcGjA+`uH@WVn8)Z?g@F4gBGrKztJCW7qHshB$J|K{#Fqs6N4Zar}l;5g`gDE&e_+O
z-YnpIfDe6yWsA7yo&e~X7-;drjB*|GfW6%(o6iLd+wz;77Ie^XD1I$J&%)1}HjIat
z{|wM|(pi43T&?vJZMgd6Kdm?x612!!(iAqWAO{-tJ_VYd^LtQLWPqMg86NdsnyQiV
z8AnttL3oEm8ubpOP>lI}s2u|)c`XCUi)ByiK-+}y3!J3f{^Mr7U-ZdiY&)Fh-OD%J
zIAXvM#I8u;9`XGMSlnXN2_NnIlplaE&9P|j6>HTUxY0wsFXpWir6ja>0Iik?##nWw
zSEUP2wN?p7!?rn?uRj4&QO2q&cwSXfB2>w)n}^y<zeDE>G)vU4<xJ@PJF!*!(oTsT
zBE#cF^pl^XN28s@tI39%-FwMzL<(2URs#-Z>7vvo$^RspKhPkP!BScaePwB?uORH^
zbz_=nR%t&nxNcP-p<xs@0=F&FH1gMa@5Q(c|F}+R{&;BmCU{sU)RQ`U5>bJ6t%f4?
zoSx|j6Z#{qdPjyy*cixlwg8mit+40m#EA`$>`$d%EEEv8#tH_0bZ&?LX4xu<BC+#b
zgWpnk3Em0W0MNy^1~pPJ(c*yP3qi2)bUTJw7#L)Af8*tcXZTDi&>Sr2>dnT&+>75$
z=tEw<fD;CLA0!^cY96j9Ehre^gyztvw8y|zuA0iEUJ9N#Z{YQ-EB?2gUryq|VfM-G
z-X6%WlQg|j9e-3O1M8v^7(_6oGHX6wr2mHrq{wve2ah)eFja=Yn1LBSQe`)8amG*X
z4uq!$D7sZsAq$VqdIO?yxvkC$76tqg1zOj?1De!#5|c+DDohoi(YHRfuAYpueog8F
z2|Vn89hn4%!OzY7wuye4KEQJo*VELjVN-?RYEdsYYLPe_f29&t0Rykm5IkTV=vawh
zWro3k`#lBsi-R#v#B9hIFPwrQ)hAN~dL7K?Z<<?C5ku3iFP(Z~PIQkj5Os76ke^Wn
zXh;P5Ya7%rJ`zG2B@Sc^ujy6{y5g+h9<76k9w3xRUHXr%ow$wOZ1>sSb#d>qUUcdd
z>BMHcN}987cEm6I9C0`|HqWt|IQ=0$5$%BWHYUVo$f2qR%}DqWI3+SbE9@W9%=)Z6
z`bpI`)?k?KqcAesY>5vkM!YPQ@Wnj5&-aG7X#&U$&3oe*e8xPO8mV6>B`hpe;v~|u
zyv6i*X%-LMq~wTy;!Pn%RXaL;?pIa+%`20_gUE*L$AFRj3QyoaUkiw)hlVWc0(MHa
zWN=XbZ<Z`L^;?<C7-J8@-vV$eqaaJ+4{L0(K|;J(1bxd55QH%-*BC100;_8#oG<xw
zu*~mU&qgfU7Vrtjv#~vA7y8%?iW?#7wL06;$A%3yF#*8!mNGPPA!x1S(CJes<X&R$
zU2fd;@~88l;V<rz{vWNb=E8t_yA9xsX}K<+ltsX<8;&EW8wXr{MGc878|myZZE*|m
za|)5JK=Cb{w3eZKcLcTxNa^rok)fq*U=2_PLST4lUjG)!PeKTVEA@=n?Yr6l9>8fT
z473)Lvvh(S+YQ;D@@9%V^v8W?e!RPTt#?j3f6=EOGSdo0h}cmKaxVKEuixN5=Gyzt
z?IOh{VaT}_&?#p3@ao54{VNT8TNo?7KXs?3$!ytCFl}vo4%G|&&)z6uK4(jZr0TYc
z&#gBrKCoJ1Gw6VuckVI7k)^uK%-9jQQ?;nK1pA4f51(ZdmjnoB#?@YzVjw#Ii%tub
ziIaM#5N|V<#S@Cxz`#OlG3K@dE)Gu@OMn8Eq0W!|Pn04}ECSaq#-z>i!y6{e1o%ei
zzn30FzW0e+rRQ%^(nk#A@bB3ON&-?L6kSv@&XBVY0aIthdkNIBP$k8R_lzD2=T6`{
zRA&7EdXx#rRFRm)vr(E@Y)X-tiGd9uL14^a!Yda81c%z;WJM}gKp-eEc{M4&>QMns
zX$ids?251NFryrD4z2HTssA?%2mo`zSVuqgoh~PHeX24Zr63p>nPmowxUEaUahV4t
zQdD0>r`HLt?r%>u5gm7MwE}WM-77`d6yt1X%GU*GKzwX55H~1dZTI!>5J}Qiy!=4e
z0s}IlNh<A6)F=O9=1wROzb)-37%J3sS5;;w5iXp~QFElvDfF=S1U;x0SRF6n_KaNC
z^a*2#xDD~V8ByLXq|03Oj(mFP*_G#cca>#r`PsE^yV@ERmAn33-2{WKB>RmS6U<kw
zU{6$=CWW!_BX!Tcv_eaKk7lXM`CCVoo>nyFGP3kxwEi8*aB88n#V*|<vC6pZSL!{F
zGi;4v+drS#UiH_u*q-#QkzK`AbjwCN9H6@_(tb<QAWW;vfKYO<#X>Go_=CuY;|f!8
zdISS$bFhs5FI58*DL`1<W+=%Zol+WW)7G;Z8RX^d79MdRt5A&p4wkogL(_XVhqK^D
zyZW*`>M=|$wuFrK+0raL)C69ofpnp&^5<<AwFw${LtGFzJ=y~t`XU{kpuHUeDLq?L
zs+*a&q18Lpg#6(C>oLm(i0HVTl$*p21JKzs9?0?<!4qUJ+{Nuh;ekA1bRrI}(A+VP
zOp#1=-S8yaAC|&8i;lBZ>GrS;aoekD@adx;ct@4V?Gco6Hezk_4fOfay22B3?CPaZ
z9+6OF17@8eh_L*1{#Bde#WkoHy8=lRo?BN#7sq0gmT0E+YD^Z48weu>2*IuH$drVu
z378?pc~__zuKfEs_MUs1{ykYi;4(kcT|Wpa>Q;OJ$tUj8&e%i}jb<gA-_NFBP0C6s
z<^|&kous`xb=_@x;TP3A^QIv6O-+ZU8QDn~R?l9anCa^A%5dYxz`}Jh&eZloN9k8&
zLDiKEVx{rXiL_A>GuGCG{e$GWgc`rNnU1}Uw%4eWb@cTUgl5!TBIbX(4mhvY(%MhH
z@wtv}`7_&gRC46D4!v`Z5=oySTbos@ISdX@TdB=!%>S6%f^yK2xg?%6p}Z6Apg8PI
z@JZx@hM!x*bOEsf;qHl*sPM`F4t>?6Wi;RNmne0d^-Xk_9PPxg($B;+-KN&^MHMu?
z?h~?%J&`tpW3G=<jN$_ZlGIxs{^jxhC&z1u2MHt_Lu<78fNBu9V7J@y^PWc}4d_pG
z9^CzUmx#jH3=U_p_v7~P*gqC4h+CnW8}<z_X~_*caN5k2|F`;rAZF$m(FJonLpdQq
zTrr`QM%d7Vo52)5-&hyK0}4Kudd^ck!eKZR{Fn{ot<kvJ(Nq*q*)1v+f-%Vn&?&()
z`)F7!i=*{G9(HVJucxqzrP;uBqdUle1^P)_qRQtVbHHgP3rG8F;^qGZ(M|-2Jzxoe
zdSXMD4AEx41)GEVr=xl@BPF#w?~+5*&H*NdB;#@mB-ew@_}9=dW0!V$g*Xyg@K3&f
z!3Cn*Ox(W`nJqq8!#=lW|DCCPhALACLZsV0Y!h`aK|?(Xt{;xV;QRJvu%##Tvji!5
zy!I*nQ!r4@od=9bf+maTcb0&ty0E7+ONY95g|e&&3R_13+e8P=Ql<omebtC1=K7<@
z3M}RC9d>OS?%~06Y-P#d)`cJ6x@;_gvq5$^q4AD_17r{OU&##r?wuG&q+$%6c`}V-
zIU(sR^1PrTue-{o|Dbm=<mjxp_EY!A$sMLnCpc(O6dvwRYg;4sH}e(Ha@LyuPDrh$
zXY-seUTt?2ZpPA7=DXV-3U%1e-wrbIvDv~n$cJ{HdR{6ks%&=D#D7RASxoUO99($x
zsTi1{+o}3-K;hc;rVg!m08oKx_m1o2*A+yPUGG_^3*dEnNK9~omr@SM{<V)87JxY1
zwxs;kr~Y?fz?&Jte>id^VRn3sZuW2Lxs@~G@THBzY*hnDZhEhy9{BHcIfg2ou~(^v
zyoT--ra`q{z~8Iika-7(&Ucd+eDZe{-~X~9?Ew*o$)}whM-+aJn}thoYY-JI?V*ks
zaHjK*6a>Nyr8(l7s0~C?w<T$*Ou@e012Ej-BMdrrt}7r|yK*tZ!W&gJ2wwHw#IDEC
zOKO~dT)(Gr!;*Q`0>mV%pkkhz%7sgG0dYYZ@c$?Q+ii0&F%xLd=LP)zGQJ*w996J0
zD56>e=pf1cuPoUMEd&}ueQch0()rjYMTP_22y>t?oTVq?{izRj0evpkqa8twHHG(}
zy1BJUuuhve@I&_(o&~uWqDzJRjv4PATp#nkL9d@|Du&E~sGeyCST`=A1N^!^VMMwz
z&1XK6p5_Qcu;JgxLy6X33#?ZWa2_hiJG;wV8(@7o>+)JdL%{gu?=7?&N>n5ie%+aC
z(?!{WLqVQxm)p7nf4{&pHurNfuMVRI`bus4&#vUrR>fo8F5AsnvY0W`wH1t<GDl~Y
zT;<<Yu1zunk8O*1Zi2Y9+K_p#!YT&Z{47(eKat%d3}e@7u9J%S*1g}6&PJ0jqM`4t
z$7UVJ-Filf%O&OK#;8$NaQ%Pzg{Vk~ho%3DNPC5l8@sR%hJ>?P&pp#C|F1l(!*i>w
zWTcZ@I_HPm8e^q+AyPv*5`nLK(-T{@WFG<cEod4#-iN{9Dd&j12G6zGuK@$C6eKm&
zi^ag#kYMemTZz9Q74pmW!^`3pv{1Hnl5r44#CR=u`2cqhWEzo~fo2nczpv!FL1zYE
zJaT_U9Wv>52bIR-mPdGF=bT*uS0~+$>@Dd_w_z9rOqat3SZGPrGzWno>KUoHRwG|T
zMq-CheFkJuT?^hzj#vVTJtpDz;Kj)AL@_9m*Rt8zks^&qm@mP|fJfbIaTUFQXCHS7
zK1{O(M6CV*#2Z99dYd-(Oau7Okd_}8{EjZEe!%uFS>W^fug<(|=J8HS7|36Q_!j^6
z86bTz1d3tSgh&umBA)Rh;=iSMpZt2Qq`+>)=`@-om+3^O9@^929O4s)3~O9>oR*@h
zyTPO^lD{g#w~JKXpg75Mq&_?FLD7KDNCa#Lh89J|E^4y<*s37sqY7lLSuJZdrG3Gu
zY;<eAG9Y!wYp<jGZc?c}+GK_8e)T*zG4l~(VJFt8M0AhO*y!Pl){g<Qx~HN!Pb}kK
ziv_ryKB`CGSX}=#&Vwkr4d&l~E;RTg)H+KlC&{TN+hEg@pn=)F;oKz1;n{x%CI2lQ
zwNPTokYfH6(|%}=MwiE?|A&Mklt6hUw<jOs82ParO*!5NPyka};P;0-WhgiwG@Zhx
zK(Y)SoGHrkG^t(d>!SVp{5**n!ADx`{y^j!!AP#&QRuxQIsG0?PA@slI=v5#q`gK*
zZSF$bbc<yot4#tTjNr{|gv4N`OXIvPNHlJp-{Oq+X6G33$YFPH|G3lA!*2eGqxtR#
z9O|rbejT>{nCF5@=Ij?3#kd>uFde+b9uV8C{)|0-D(`T@8~)av@(|Q^;@9HKw5!K`
zhJmR%9xBq!ACTKcm=SUa)`_jvPv%MpG{v;D{6n^0axSTCgD@li`%(-6?ePKf!pKL&
zn4wLiBy6W%Ko@zMp=evFmw-Ku&M&faqLvHS;n6(MCXI;M-tTw8SZbk{d>H&sJGeeb
z7}M4!E(CQg-45E3t^^t6S>+fW<tFwBG<uw%zDGNe=SjtciQ*S(z6d<Pn;Gz;Viabq
zn0(-83ra(+4V2=2TxIH8HRJ3j&0c6~^|`hO-DIR(TRT4LLim+r`{j>OWwid~;YK9C
z@#rnllANArYW-wfUIG5RJc4~FE}z;L7^B)0zQ1+gh3tI9y<tdCYVA^e_;FkBVS;~a
zo%YnW(kU5T%?uN&^j=5*Kj-@YJ$v5R5COAZ=z4)j^(YjVh9)BY!~aDHuNzsu>%CE5
zD);+$ZFsy5>55~DwT#GXd9)C-%{+chuMh|I$I$Mf@X(p>;$vW0OZ2_FK9>u1`(4>y
zXrLfH?wV%HPn&Y(XO%XhC1LHStn?g)UsB<J2P%lR0i?|a488h(lo)X7{0kV~IJ4S&
z)`;NMQs;98#%D<YrIPcf{%NdNz1s7zz|8bGd2nKsK6RSs)~&}WYX+69<jxUu_tg%$
zBx^<QSKi5pF2a{Hgo;vMGSotP(e}7V*O0c}nd+g$q9Bb{+it~vDe_8MpgZ2ZmTWk$
zr~L8J&@p!_^C&1IMx2Tut#t$QT~zaj;J5cH_dOdiicS-Rle!vp6OI*j>H*IbS}1ea
z!gAJjvp3C7Q_VUr`fi5w#B=@jY#u=R;h%c_J(~|qhd!|8U5r3Jwp-Vc<<g8c{{1bc
zyOC)7_R0cguTu`~acXg{R}dC?X@f@{p%-_iJX_S!j)0>j!2{VaGDB<WqDR^spP<!K
zJ9*7sdB!#QS5EXSKdaYW*^RPsVd0YUm^Va9L^PN~9|e;cN#x1@E^~MjF!cuEVphyE
zsu_YPJ?voltK#2N3@wQd*}qQum7~)%IWqjKIRTtnS&)NI`!#mYX=?6Z#%?D9>q+W6
zVEK;4(j<Mdu{y8k4BmVX;Oyv#6<dODLBYLij#Ld82?Z;+;jc4+!b=3N7^}HXkvi~c
z5w|`73WpZix;*;I!`I{c*NSf+Z=hT)dxJFv6|;di2|2st_3z5}GRlE%GNtse&w&5C
z&Wy~nRmW-i$@hj&D=8gOaOjnxAy>m-ggdYcF{qFL4nwby*nGD+D}KzSGS~gxMbR~6
z05tb_U;E)ZyY(Q@XAU^oAw`Pr`~pjkOf8Oy>UaN3UAax{J&80QUZf6AJ<1GVdt`p2
zWk!D2(8+yFntjr1<L7s&>t}uN0SUB)AA<+c8a1!(tnB&ff5j(m#SfbCtJj}V|4517
z{y;&-##R-RXHl4G;I1YnxX!xE<g?&R-2Ump%fm8PHGjLs{d7Q`_o7`G(X-LtNU3sV
z^N1f=<N3}-;T$S^NBROslBQz0@9+kwP8~OLj4rR=xVMxzL71zyWp&&3-ehg2{_y=t
z0P9UNy`Y7-Kg-Jub^a5bMETgLfCMbJ3`;g+yzyOGJJUAvHdiF?W9lR4zT^MD5B%S(
zTZss<K$u|V1+h_sQI%9>&wno^EJP&-6Kbodmtj6aCeKQg@BVX@FXGh=D<`$obYDAM
z4QPE)v3=L_djYPwvEl3a_+Rwy6KHurF6A^l7kpsM+nhC|!j=m?R(v5OmSjsTQ*sG>
zmsx~dW@1`#RYu@NL2kJ^-9<lP>PtWxICFh}@xNI>zehG0rs69(!BM|yJ3!e+@3}LU
z>;rJ@LTi~U+DI4QEiTSMwUBUXOWgz<WN=|o8}IZn5ZvV$3h!iDN0dpZZ-Ql+on5|t
zhPiEk9WC|3jo<Of^q0$=C*Jc0Ptxacp(~ti>qycof5LGkl7>^6A1z7$jAyj$J31NN
z%<MnecdQ0CmS04Oivk`9NCsT5+W9ADY{bFz@C*8m9F|h=BSy!C?I&%g;cL1Y5D?XQ
zJ@hpD`nzX=PEO_Vt6n^GmABG@{~uXz0aaBSbqfO?TI3)tAc%AdNOzZXw~~UCAPtfd
zf^<lCcO8%h=~TL;L!?{!e~$Wo_ulUx<BWlX#NN+dG1pvkqMK4T@-Mz`83k6j#{72q
zwL5yRgy~g^ax7RGyhlHH8Lr^d!@SZH=L9eOevLX_HaqBk)qS{Oav5WIvVoMPy+p)w
zy_Ri!VTub!C<dJ(1m&gc$f-7aFdP$kHo}S=rVsJ&l`?tWWQ(*ESj<aHBZ_=T5QL!d
zL#Kk>=wzN3DkB8u8mL1AAUxsdq*J$tLx<r*j^Bj;4A=m55d(3z<iBb})Mv9_qWMFZ
zy+*lVi2k1)G;mNdf+?0L3)$W+EJNRb$nTpKBw`r$8%)nXseKizh3htsg4Jv{K*JUo
zorTXSwjabKM}AV4@P7>!57R@G1o*(b%lJLj!S?)@>Jq&=#e#F-Pbv$9WY>UUPRvBH
z*6Kq{x^N9Z-j1jB{q(s4XyXrn|Ea)E@cIr!n;3x8xtr2l+QxK(t=u*G&{FM6F*<Ji
zW-i-#qBjGIBC4QwyRoiLDA%hiBfR?42ncU=!Ii?ndvL|gudjh<9u%(~ZoZdE7Bjwn
z71Sk7ild)Y0t!#ID)K860F)txJXlGdkpkM;>p(q>OTo`LwRMqh8k8n$;9SuVV-_Td
zJ_scagIv7>d^C6;OEPKG2dp{l<R$JJdR;bzf*X1PLZXC+sU%oyz-9*5j)~o+;7WVj
zP5johL7N(kC_jp{NM%$E$=cq$DbDD}Be=c3QM$PP(RI`}_@V0LhIMUIL-+%Wcw)JW
z{v-Z#I2u*YlD+1ecP>+>TPJ(9Y8xA|i19Em`UmOnq!!wVViqq$ayozsKYCgss?VRf
z*O#ZqWMB=JwzpIpQ76nykU!8x$?hCu<azb)<5IjKGdL!)<oM-m`TkBp)jXY@-f6XY
z)8ER9lSS}p?j_IN@wsr-MZ|7@tJyhg5U<JdZ%6;0BSJ^Q&6%Tg<X43oNb>5{5kxHU
zO%V1F!JI@>3T0cs#K{!R5P1+_GKx)_O<E2~|16bsgv86U3nwA`nb`b$15DhP9;bL5
zO8mGpdS|@<P3jZGPmEF+APIQBHBU3J7?3Vd5X%rF6Lue%xnNb^{Oci#&?-_knCs?O
zN&>BbA6;n<IB}|=3*+6&iGiq2yb2=QD6|uOT%?vC4jeR%Y?}_H%CTg$na;OB6aL3S
z)m&vCK5YeXGi9-<$2jQnMBkREoV2($Y6xVJn({1~$CP?r0ikF*KxK>tV^>+g{b*{*
zf=YRVImByL?@1jCxAn-i>ve@)YW|xuur@#}{qcAp_{nFSE5uPU2_9kZaTQUGaPaHN
z0v$|bWbQ>;+CyM(|F8h?>DgbAKT|yG0p3@*+V1$9v)^xmj#3N=qti=^%&(O10P{8$
z7>^GC>MeETxw5ax1Ei`SV7T;2o&xZCX+>yOKcn%0rCdFU>}l^a6((E-`<v=30?uvk
zKM`FFX9-M$oMcSeyK6~u^hzI$R!Yr%`*u;|%)YV_WU7AkioIr?V#}a4xkmU_>dSt=
z(2;ui;n6^yaBiiv+t_##zHonlt;t$nV>dDy-|b{O`G-RCcrV&yF59Ca!=~lB#r50n
zo3*bAiwSl@hAeB%et35ox=!;mwEbV0e|1gF*ACjMww_Y6|GZgdcWswpEz`VHUu1>u
z*QiyBv}BmyUY)mEH$Iq5>=v3+%xTYb?R)5O)ybcG%ptg*mWVAg_uWNieXIzg8z=x5
zmD9VMr5qr9k59*&HLK$5$(|@Yi7f0qZBjnkr#?`rl&e<f4O!woT5lS;F^!7A>|vd)
zBzZGl@Fd^?8J|qh>m`~*5=$gYB<>C8jBqm2q2j_|%9rFMuiUQcDM#2gQIB~#yV-u#
zX-H&FykbN`$5|@w2za3T&uA3bme#<jqX>w5Ltm6=Q|UyMeF`Fbr3e0`OMsP<Bc)t@
zL79HKdV@U$oh$oW*^Yh^0o2%a;DFK#)A5**twxf6clk>naN8SoVr?EpCn?2O<2M&r
zGq`6WoC7S=M3LwxqXbg|Zcde5RXmr|g-HMQXl`h+)nNC-L@oWdl1xf|)bt_faJk)l
zB&k{Kf+D~+kXLp+wkdN3i0cvPo!tiv&-NFM7TmW>KkI>c8WL57wy4Yskg`gMdMYhf
zY21|qoLY?;CsoWfa~FZ*6PJQv(hdLnYu7Izk>%Pgwj6<BiR;;}H!PQ;(*W3@&avxw
ztEe*?wRmdU>ebjUci4oKw1SyZxZ0UXn#s{xU)n>X_+*aRidX)F$=piHG1~w&$(Y@I
zr=ATSb38tXHrLUFv{5up-Tin)&RMxe6T8UAo9|+2J%m_{ylbADtlr!X*riI8nsW83
z#yX}aKgE8&%j#`+!Jo)*(SfR}xER_naGkILM%4>Zcg??TON{QUZ|3ykW4!F)Gw6kZ
zy|Xjva(4r>{(CXVNOM}`EDDJ!n$E2b4x<<OGTHpe{bWkc38=!J5|<-xGP+ncj2>h)
zF4k9Nox{}54?eeF)~bxHA1XfmV6t&;^gbf4{DP+7;1OeQe#pq;#rRYHv&NeI8vZ?$
zEmtcNw+bC^x8q7J<PXA)b8erSn{VE2JdFyDEmsxo-_e_#*~weHyFYDU<wi1vf^M!p
zy}gw2kOj8m_d_wUSxwDppv<fBIwKo9q!9ViEPd#rQ;FcB{@cTehr2q4L^$=9uzN8$
z&OYjR1lC5vBcX++_q_U8s2(YaG7s1ehV;jDO)iqpbiKNof>}(38`+X;tqmRGjeF(Y
zDBeSw{RbVu=`rwZ;w$2F<&uUPjO#>{g%p7NFPy@mefV6rWpmyxBG5&n=`LjEkAvz*
z5fq$Y3ChtHFOP_C@8DviujPTvW5Q0;F--OqnhIct$QPvo(ou+#YBmz2f`vf#z8P~o
zR&Gk$Q94s?NEYFR`aOBuOQ&6GK1<9jO|UI5OLIT6>IEvA{d=K@A!s@D!uvf;ad3|T
z%r*Y_7Y42Go9iII08>|>mR-gWK3j*+f;t>hnVM&^Bry*Y`saa@SW_-n$PL$5WA$%v
z%=VAjNG>ows(g-)Hv<QGqATrZ%o5OvI`7L;{lvD(enc1|v0{~BYypUoXF43)QTqiX
zKy{>GjT5+M7=rZ!yAU-QOS&Dn6{Q1wa}~ora-X6hlZM;<<h5)Z9r2H_TP=`wkb)7`
zl3NJRBNKuYaDw@7A9`+2mc+TSwlHEFxTI^vhh)Yvq+aDxs(iUT3)M*cnN~ei>TMG@
zVRW<f3b}75TWfOw;Hm@X@~yaN-otW%hx?^-2?#w+D`V>tM*}Xx18v2Z{R3a~Kel2w
z`TZpChnI;Z*C!+)c#H(Krg!9BH6$o?hj`VO&73m20`}D@PNy^QiY~X4g}Ta)qSIt1
zNPaChlNDoi<1?c7V%&T0=9h`m1;;j9!BclNit((M{c{_4d4s3%zSQYsW-sfk7br(g
zQh(xbJmJ6neTr?!y>$ogXkt;*V-U4Y2x9k}{7QuRA6=E$uF2M1L}Wyhn@W3pCGnnn
znVfU7kh^L<Lwu`EPSv#AviW#ML$+mpxlbBZ;|)1E-39w4$pfN~_B3BOUf`h6HD+>H
zE@J?0)Isb#9~I8kTAl<OF4YHSsz-LtW_?Q^Bi=05ThHuTfOhj=^!)FQ@AU@}!_z<u
z+_WdRBMUlhvKqCot_>O*b0zpBAUP6{En8)k$jFD<at$hx4qF70zoAe_4t@?EeN<$u
zR72y%*_RzM+o7Gcy}`Y&5geN-=O=dyiTsZH)%$OsKZanUL0KtyiU!ypQXoF0@NJ{^
z8FBSoAkh+uN{T`|rV>E{R&#Ua9UK!!>jSx<`irJjdfX^3{uwf2a=?IsZ2=skzD;xy
zq=phOKg_0ORu|J74?<;M)l8@Ban1(Ln_{ZyfM>$#HqkMeG@bNrAf6e?7q7)6+bGv}
z8QB@_pn{sd$@dev@B&TISLeiEu-w;^;9)aMR?Yc}xpWKw%$cIXxsW0hYf+5D*d(o0
z;Glv58|#cOgmWOOl9fQqgKuXB>{8W>w~R}bvBm0)yl*rr;tI=DwNbY9tIa>b&BI~C
z6_oU<Il(J9STEG|lp}StQ7Rt^d}#*3-HLO7sG|c;>Vp}=9jeX9h=hMH-IIXXA1sNg
z2p$x6!_{iRgFaEhyijcsvE<312P;{@dGHo+RZW2xrysjsS4C&GbVP@0m`s~6nmxe+
z^})^-ha?{U=uWY{;JbFm$*RiGCVt;<3x<7(D(ve+50j2|yf3FlJtlo|OUZ>jsYveX
z4BeY?nT*Ew@`F=0PLgw72}l;LYVH^FiwLn!s2p~$OSr%o4wRkuCj}G7H{M9@m@`($
z2zawZXUizcp6jBhSvCc*c8${w#<GSssoW|wKCV{oNwwdd*9aPFxpl2?dpchej%&J}
zlUwDntN6wKx@pPNar#>pbVc}NEMH%Xc+B*3hr8mU9fWHQRb!W09BANe6PD@Jz_>C;
zmQPXpH!fOrw9u->NQsUPwH!`c8DD{|K)Yla2o=Tb*n=3R(wXB~8-HbHo!PaAc&4{3
zIlDa!UQ<hn%;qJZH7A;^Jg6;b47{Nm3k?ox7RQnsKf}Ma{G2TIQZ3lfNZAR4$oTwu
zwJ9K3OCf=C2VU>x5sW#5p&iK-o#2?VQv_(GumAmwujtZ<_idEaJyZ;#)lVGVr-<H6
zmNgtoNK`Kq5HOowP|(rIVBpbZxaR6MyVovZFD$>^?u~ltN3>A#lHY#G=lX2Ujva(H
z-ymR1CV~eD6y|1nQm)WsUdO!XK-x;MEXHV9Q!?AmF&B*UH1?1};;X>R>Y`+NH5y+L
zjKxYe+Cgl`uCs{G<$P11g;RSbBoN;fR_Gl$4Y(D+6{+$X6fXS@rQMYl+cVYqZCAts
zHLsex-QlCYK?TP99Fyp*5f=ajc%j7%#8}up&a5R1YVDWBx=0>}qfUl7Z49UCX&EIW
z-Xrw~M)G}tg^KJaZu2E+I8CteK2W!I-d|w8yIQ=%^Cf|VB?jn_{f7mZbcd<9?oL;V
zgQ}nU;CDQQugShxdGlFPhta7yx9h=6w#RCu3E<(;Rn8l3pCC$kYx`w3{8ZKlg5;0T
zslw6tLKBww&bj+demS0Ng#)aG<J7o2oI2IwJk~H2mG}OS&C@t+6wWwRtbUoK5=$F{
z{Ql3nvkDL5T|-vptXpK-vZo5pTO&Uh4RgBjbA;Eq|8n5nZu_bi_SyXjc9X{q&yKgl
z)|#Y&7BsC{C9`6UB}z-jacIdsn%9Ux_A^ry#CuMhp{9UxVs<K;W$`?^vN2z76_I><
zjy5=dpfSnq-Cd?WuZK>Wut(XOBpx?og9V0rQDY0Ijb`gPW`4)kuZLPjD_=5R6fM8h
zxjc<HT3qJP9C`<IRwfz2NzZ0{X4+;mRD*wX(x)aK!s}sr^(0rRhAkn9xvu<2^n}`b
z7(P`P#Tg9oDcj*v_(HaB7M{71rHkE9!6HE~(p$C)-RQU5BSdUQGP(A9Kbkz%6nBN6
zpx*tKKD#-qYg;7~3OZ=1{57DXH(RpxLPLq1$E-?H`YYz;_qXfcZHM%qp+_S8zb~Ig
z2!&XiI0xFpj_uWLWK0O6F=xQRuj&*?le|xJ6au<y41!P(2^J|Gw3zs+ixY7QH9OS}
z9;}0{k)U|57+-X<nf#J893I5VDgrgM-qIH4RtCk*S6dISmjY<tpTU~>r1&?2E-OuX
zxX?4hoN6yRK48j&MKl8||1-d7iVnf0#b|2OC{#tJQS+(e4(_c<n|l%W93{Av;-{a;
zE*SekrFVgwG0g!6s+}t|#WyjJv9T{BgF-feCACd2^@rRmWDr}Su5bO@u;#2Li?x*6
z7{NhjaieHI3?h79;fMOAVow35U$ab~{^d)CnrCf#j|E_#NO@IZc8e_FA*d;k#6^!3
zF~tR5;sMfXKEF*g&kL(8ei-Gwr?|G7-V`rfJof5Sd7e;sy|%DQlbnxYEq)<49JWGd
zN`FukTXG)WB)nv@)p{*Ye0asP^~K)jMDO;)8nZ#$7(I`5gpE+p6ggg59Y-y0a7`dL
z5f$y3cD3B+=TW*EA=uUnv~%7IML81*=crt9INo6i@kVtqBY7?wllqlr8X?3RmJBLK
z5~{_HUWKEuJX6M41B&1B=S2&}qylY)H(wr^>=}H7#rVc~^pC6(Y$p-YT?NKoWTXsl
zSZ@sasvQjsYOt3qh$PN9Rp|?R4~^q(ZbpB{G;1exR4_ZcuSZ}VY1g0_wQ0|5k^gY=
zdD(@`z-S#w3!_3HR{}eE3oR7Qicypzcjzjq*}0_mg>cik2)AcP4!V<@X&SLa81(Fm
z<3c9crP|lbQq;Ae_C@*ghv~BERR*S}tC{SFV{GiTUtNihzd!S(ZDx_2?GGD{Su3BI
z>msxBDy+`Y2&(Ry8ZoNP^@^*w)IXij-aC`eOln-44*xG2gP2U={&1;CmVy+?wE#yE
zp8)k4BHBZW7xo)G;w6ERxuW-czac*HNf<7S0S8;8h7#e`BcawqUfWuG*SU7i_M$MZ
ze}x5YB$tiu)?8irN;?x3mBc}!5dgEhNXQ^MK!h`vwdJ?ilAtZvHbN35gjkg~9my@R
zE_}jY8%R)kRbe?sLkytM8p|;$usED^fK&&wnd_gfG(moRzQl~}1h_AB&<71{q{-m%
zf*|-}IeORP6;ABUid-_0QSLVxDK6Nk8uGm#GdPOvFV|BknXY_y(c4cYlcdbP(Z^I|
zKcIEo79W=_eBDvQX|;kUn<JIqFlsAjv2`;>LEPe2@-FH0i|r#R-vnKvr{?!XJvi;c
zgvqWFV~g&>Gtw#tRfNi3ZI6V~vhoz|RqV`vuZA7fa%lc)>P7BCi$-Y{jzwe)lHFxF
zwK>&S*fFeD>weGPF>ZbPjrVA~WP--S*9Ehm_NktH0&lbFx1@5awerFv-Q^URJJhga
zE`BIOwvB(f=D{jwJYk>phbsAU$$PnP?;>(scU4C-rcg(1tu_fiyefaY(t|EP6VcSS
za7%}y=WrKpSU@0LIrHXKO1(Lk)}5olj?-MlI!*Y~&LF54pYG{m>rS*?gF;;8kaU0Q
zb{&}pXIyT7Y`<xv*J*qo!D|$Yz0jaK8jOjKr=1R<GDM?oLj+kOixu&jx*za&V{I_(
zvso{rm-@j+LGr#%M0l(!nt{-sRDB%q4G}R56>SolVl&_l&)856^xtz06pC-2+h;6Q
zKdPL#wihRuLg>_7uK^(r+%yShq=T25z)HT|1+J3b2O1zeQO(x(H#wksgx8!Q#A8n7
zPAZ|J0~4lw(UMEdrGQ_{ZZrG*17ZE?&WxJXR2lO@{dpCa8u)oCaR__I<yX$1EZv|8
zad$aYo#7;Nngn=wIl-0c;vj8NTU5?lO>Q23^}t3pF8->A-8-2M>jhPssaWxM_PRx;
z3y$aBJLTC(b{5m!<AgE3GUmEHhkQ{4-G#*ZN+@?naq3nY3P&xeM(k_7bO%*Vw~Kem
z)|k>TvRD$r^0}i~iK=&fwK{qYgQ)9kr{@?mM`=`Pf^HkKjs|*+h)TZ(Ept4N8AdBc
zf*KkQ!nDezO)UAEa>utOl@~1aHD?;swdk2*c#S42#zWD1h>>y$zYvyh84gf1dp}|-
zrF|FMp|KEcZD*PgTb>h5#Aed#9i-S=fOpp5*afSI6`HMEwu_mD9tYGlXgQdTYDnFE
zV8E}O>GxD#h<D~%RyZ3D-;xz9hC$CQci-Z6j+w{3v&O_(>=W#XW!Eya)o)mqb5i?Z
z(iq<BB52WDZ84mFT)Enf;~F{c?7S_vggH^O{gzwd|BV!F+mLuB9ZJA`jsdd)d4Ri^
zO_doKlKYcI!vn)}%C_9g&m#8r6)Aj9a&E6bplYqG34;@&{sbcN1`R61Gb0&W7|3}g
zj^G{mVTI|QH;?(*2GneUR9_|lM|n7xgd5WF9EfS61U<t-;)LXs{`&S`nFwxpl!VXM
zXdfdSp4$BYSpnp?c!0=_JCwp58aBhLBW06ZU@e^ZOoy`A%66{IsGi30%DdQlm%Gp=
zc<`5yhO7(Yq+vtLgkqrj{?pa3otE(0#~K}tZ7k(|_1bns&;ViWRbLx}AhTfS7s0}c
zK;Z{h>H2(bY)t2r9cPi#ez=qggz*XGS6n-8iRkjXi?3msbe2Uq!S4|D6g96(!iP8H
zXy~LO%PwPjl-{{%u}djAag(8iMCT~xZSz@F3aFlCW2n}+qq~*sP+Lydg*fcpHxQPa
zRobR>61JmqYUGY4Fq!S|`KmiR+u=bb5zHn2no|B&EBDw%kV^bPwbppdRd}*Q0Drt)
z?L3M@&<CGVGZ~K%+>sp|rgz$wLRFutPJd0e=A$o=SMXvinC`z$31;HJm@w9>_-M2I
z>U+IL5r<<S-MFEkbsYM#$@U>x&K0&-oFkfE?W1k-Yp>Rwi*?rQnO6%|S4u%xS+Y+)
zSbbj;aZLPMinma-2{kJ$Eq@JaU;&PGMFSk-|H}7U83aF0h(^uEM;}B#wBSi7MWl}_
z7NVub^8mgwl-kl_wr(fdm&1Dym+m7;k^>8EiedJHF17>B^u3gzh1aX47maff#rsZ1
z6E3IK{UoQU%`C5bIxg`iv!z?11+`YxbahjNoxOMkGugNXJNmT$r?8T+L*o6&x4*u#
zZ*(g5z_qyOM{TCK5A;|>V!a|d`2&>3#-K^(Pvyq7A7fAqW3-g+z+Y89(B*0#li+PQ
zuBhzYz3z%3TpOWo-JaFjSC*c6tZH$8Kwrp9mLe8?U^c6Da;GM@Hl&k4jMKU~i9#01
zhBIN5&G_d!wGz3oQ(-gAAqy|0R)^Q(fFPf_^CEKy6&cyG8uqU0c^|b>pQq~H>POWw
zOG$e5%HYnAxC5HE1A}p}=MO{FsG_)V`Q^m;S9(iB>oSs9mYR4E&s+KCevr7tI?BJX
z=2}tnmF6i`NDe%>-_t=iJvRA0uer}~&dxNiU6sEDKNQsAZ;I)*yt#Jc@|E=Y&(ri=
z#TYe<b5>-r^?r%{*3Q@=L0YC9equc_Yh~?WCa^oOflN{}V?WmIIHi^DI2%%b<W_1!
z7-e}wD=QJcGpJqi-~FV5mZFmi?KG2neSbtn2zo7eU<Z4|+Ww#0$-XB!M?+r}WId65
z!DhdN$@U?pa&~fpXte>i#?ggwND8c`K<3>RU8_I+y`!7Q{bO8b0fDpcRiu-9F7a=@
zZ?_Hx{SS!Jw|-l@Xh(hcd%FJo3<}7>4UI@%za`2uU;e2Ry}5O|=<Rjq^r(um7>@`K
zn{hS6o$Z6kdkt>*u5}se)*2cXW99@{>G?ymqklqjLfPDr73JIhPODJ@!a~jYcxPH1
zenV@6>bXFZQs#hy@_mmVYt`4xOvvv;u*7Ot8zZcew@0NaM^=L(oYsd;(}cZQJnmEW
zZ)DHOti;MPC9gL5wtX);DCgvVx8YH@w{_HO${LLuHRZ=W<6)!v_}$4)p&O<GW2SER
zeBz62k)@3yty+tbwCziJ^}=A!6G=>YC3mYXzx`%<>R<7i)pDNhcj(m4XI=Gq_2?^n
zbK|@22hdIDRWvJ^OkIfY#<Tyq7-hKiZpV4spQbya5kCF>D2@_B2MQV~g|7Jh2mv%4
zVcc*T_^tUK;X^5LwMib7Hd<1!w9G72J>k=&Avg=~v)hc&?G68ZPv{IJOzggEzn=_U
z)rMK^hdh2qH);#1J~f6`eg)>a6#mQfVZ&S-1vd8~RmPI^X3aCZ*<y2r!?L(J1z3PA
z?v`~q{xE%-yQ5qrRc4uzX$eHSg7q=mA`E$ll|!pN2lK!@k8@|SLV72a_U+1c-AI%D
zbqcId&C;3~!#75kxI@Il@9}u*5060I2|PQ!%OHXGzkAIiOe)RRb8!i+*B4}5W16`)
zRxQaR9yhJ!pPAt~wLj)?W*RvE0n2r_3n<v8qmn5(AB^YuqSI?Ru~1K4az<KJWLHDn
zmGXAw%CNvZ#b0=XUj4WyyMq^*5^*^3FV27pv7N79_BWiN{uehS1Q5~4DD=gjVN59p
zLJzA~g25HCg}#iTlR-#thvpTgkMus3XwP+!{deX5U=&nKj!18DyT?AgwVuLB{P8Al
zzSYslBBJ0$h`U{Kpx;YIyDcQuOiBEUp92J=TXQ4upq=wI%y!h)p`wQ9hvuU*8%iv9
zZ#w2yTiTm=?<dU!*wI=JiOu|pd@iH*=Nn`OL)rX;{DUG87?Wv~$VqOob?^1<s+7MZ
zmF7-@o?+HAsr%cz>?#}9!NiPtKB<m2);#}V0kGTMH+8i-)L1y9iTCnjpBvg5O?b@s
zGe@;&KZ1x5?glqT=PHELz%q8{%<t2_-Jditz&e=xI5aMXh9=!2tj?0!RFL$7ZKJ_^
zRem``B_#x9j88H0p5EEht+*wHGsDElpi}|3lg{ybldstWAAOu+!M`lJYxNjXtmG>{
zsWsfdi1k`Eqj_F?vsvnJ(^2~^_U4Y8buktnH~uF>4!{i(uvr~1PN)sys0yQh9kujM
z<G#E!W^%a-TecO4Jq38=zn2j%kN0g;dC<!{aOvMm``}Xg{uD((`jb<_MSMh%5G`E|
z)$aY0GF9$5O|F;3+}e5ZdRmz;DDVOxME;!j4npKIU0Xa?l%BYIx=Y?Nd`b^08<epL
z9pUzzq%25pq;t$=ouvNn2Oh*C%z<`BLIY`<WuzWPHc%&bzLMS-%_fWi+wt#VupvXM
z+FNYNN0VkD<)<YK_t>8i$<>@#Pwh6N*2~;ct@C(FT(iMQTx*j>DN{W0r3J58N7VtZ
zkNSWozS#A#uMgH7QkFs@c7GoUK88F%3Tnnq<@lU7o;SSLR4~k|P|=?M!U|ovUpk>R
zIjmh+oN$*qm3tZx&Nr7EL%6=vKE|gPDf-#@rpZJlysXmy1*Jc25eb1YdA11V!p|^+
z?hr!huq<wmjwit$HBL|Ps<ozg!jqKJgmRPAjZfI>?&=)&Hw@fvcfL3b50SG=x0H-6
zZlEg`5?ziu*^>9ga?8K|wSJe%2%BL)eAq=uN|^lQx$iA)?S*c)=kpi0`bUk|F2BQu
zG4)>KyPYgW&9^wqQ<#hKF5Ih_!(1@7E58e_5%#hsDC!EvA9KKP71m7^KSmiM@G$%x
zMz-#epD`S;%29bb<*?bH^EyN*;_jy0bIj&rMjGtNM%EC&+-kGuYSw$bg;-)WUaOT_
z_H6B;#XYyqgIT#5oIj7M$V=!FlPpCWnm(|I7d!%6HD;i1tOA<dIt}j%AKFb<h{AVX
zGBcRl9x&v~|H)HJkqEY=B5ipnX!Mlq1*?||^R2BAeq5>W*rjjE*D*>|^UAF)crIM(
zC3Ias(5dBQ-n#flK(yPj9?7U<+|tMh0Oh0U4#3swk2~lgcVK9$@NP|Uph@AQh8jsu
zyu22usZ%U=FJk85(LT@#T{^hO`wf%V`+p8F{2%r)ZIh*XPRyUOPz^Gl#8BTAM^|e<
z_CJ+8o3hjF>s0EINp~>F)vG)k-A)}o(zzvo<5*jUS^g)Ciw1#{zi7qZoW-3kmU?~f
z{i@~K=;u-c$H#!1v|PUyr4-%6g_=b=BW*2YKO%5|@a|riJEvM7{fgs}e0X91lQufv
zR4Ar*yN<W@=Ow89%2Jw{u=iZ|CRk*xnxzZWu9SXuckwu04vx<p#l1I3(BkMD%~g((
zBW2Be?;+JibQaBf(u5(;@O?(yB6fNv;djUiChTf_GH80|Sd}dI>o#+oqwVqaVojIa
zBjau@O!JtP+7rX(vyv-$mNd`9YYhAW?sC6gyzu>7t&Ni#slW*mx>U?MjbXQxE1vyE
zJhv!v_1Xm0Tgly9a4r_c(qQ6tRa0jq#Fp98qJ!;e(wx>IdQa;g7yayjV}08zLww22
zFGjx|bAkBUU>s}=ARek}kD*AjC!r9%9kFM8Ia1_sOuLOF2Zp%d9jB`?mPDF2LdN@s
zK`H$PKW2y#MVyxR;|7=ZH6s8$yveYK1OK5OS)9HgS0_#ym1wiM9S?D@gXM_?Ku4Ab
z+mtzAuR(4eC;?fH7epOJqEm9InLPRrx(<R&J0al8q-b}}9LW8|qH+=2`$i(R7g)FO
z@KCcC_tM@+v{M5m?a1YHn%^;;*JBvvKyNHrEeK74q-loxit@ks0|)mEA@#ab=$?Fg
z9B$3}PlB+X4Ek}?d&Did4H@dFS6B=uXp}UK%;@QXW_JDf;s#=zsQuQsZ|+n7uOeHJ
zL|0PfIZ==kb1BL`HjcN{RDLg>s*036x{64K=+O_8{7$`J&aG^3J;622aCmxNGV(zk
z<@?L5wUBZ1yx+BAGfuG3o{_DiVbh}8^4%AldSt=l3^lG#L>TosPYgemu1T((Ba;|W
zi5XQB_R-tWIAJL8-bOeY4oK^fEYz{2y3@ZOi+_^ZyEHV6d-ijL1TpP9#jO9!`-Z(K
zyT`x0wG=dV(I=GI?)b|wn<yzuvF=C?QdgoB-&7~qo=xN<Jt>8e4!+&%a9m!&IX3I+
z%%$<A`?cydWvS`ndoHk+iZ1o|pdYn8hr=e@o$NSYP2GrXO8Q^ZLA68(NfYuaa+OL3
zi;pK@=&uVp1+eZnIy@BL;y!WxVM3EAp2vAdTl?eRaPk+B_4(vey+SiN7D{M?koY(6
z1S24k`u&H5wT+;?q{UUr!()9VU`afxSOhCJJGx%CZjBQz-LRhUDV@qVM@2%^b;a}v
zY8bBekUKh|x7J{U6&M>g?$@>2tQT_R!g41hc3dkba^~LdJ#=%jdD7q~f@N4pp)GEx
zhd5U{i%YTYrnkS$@V1|7Hm~8Gp}!W4gwXD1e`=rUV2qBHOX2<t4NLZ#F9npG&wXS{
z^4g21!q>eqU|5p8NS*3l@%Pz6GL<)8(19A$lsR(9R>Q8Ujz2gPVNPoSAl0}04w^Gb
z1X(PuQUL{Tq&8(oS9cZJLBrF|RdgT*I~e$q$E=8Dz%Ucg_mH7-Z~em2VDfX};`Y64
z*}joIPJ?Gk)T>L>qS27i_qv1$5lRcA$T<TkhS7Vq_aC@(6Ov6gDOn6^=-(}T$9Lzg
zb{JJ<J^%S*k52uVWdvdS)7ana8mtHbMnL57HC6p4SGLiFo1fpGS}wLUuMpdG0`(lg
z<LLu>m|eu8NfT>h`AX%k`qd1_al2r6a|Ct)`hXOx7boQEe^NCCA}h{I?*FGC1EudL
zgr)(hI!?#tTQIyl)v(c03$%M&94x+I`@5{IF}_)+!vsg*LG#rsH#orOR%);4p^+UX
z2u4?<$34FA<}CgV61MBsFP`e;6<Gy6dePB<QD;?JvN4{+)!CvohA1rnB-#y#LxXOu
zQMhrt-XyT2ukAQZ06@ohB>B-SUa8?cjK#IVuMNk!IP&yV%V`tRDXw|iQ5|PzDB0k-
zDBq)C<9|5tUR^ZM=2EvpaiXkypR<_iPdD&TSk}|c7OIsyk|x@4_e~3>^g`~@$)$(`
z-jG=WVfR;F<)t5faO~))uXpm{(>yP9?2P~}7&?#4^Bt3+_vcBe9}Dh_(YWIH|Ga+)
z$Fy!Ed5>%&EZG6x;W=SnapIm|{f=o`?lN|l^6Re$ks;~fIA{+O!Y))MM+_Og@2ccC
z1+m9wez%@hd9NB$k)e><*&qkEshTNfb0&@^9-BvfEG<gfp*<r_;2euj-qAz}o}jo4
zfa2_<7xNXBE_v877~Y=)Bcbu-K?R%aZbBu)$eZL7(xdqPe1fazhP;-Eh2BbCJ+lv*
z4{thvB{f-y<$syd*M|n7+zjx-;=s;{EP#t_nSVcQ2Ar@ippR)rZ`9I6Ns$b^d#?c>
zy`e!f5%8t^fy>g`@rZB&0kf`5x{%iz_*4RzRO@JHS%dYu1n|x1Ewzju(!8Ks?~jWC
zs+9det<el{gsNVBMd^!YPA)dknM94iXVgTK@KQ<>s4Ve60tz#9gCOS9*4h3TotUeA
zldwWv23Em<-mA`s0f0Q40fei;-8cTr+tt7h_v_z>7<a%dwigh5*8mI67lyY#k{}3&
zzW#qN2`?o5C-9F;s3Cn>Y4E-yn^WJQPgHtzekX%c_Lv3tY$O&;z51sb^LpzA$IPx5
zh(BVjWIV>al)o|Dmk%T*&c@o}Ib4zXF+$S!IW-1f<wYo)P3~p~qTFMFrQCtX_k%Cm
zPKudL)<aLTb7dxs8;Z!iXT$*dr??cd{Z({`O6vZ|`V#;b<7Zp2{m9594z6DE{grw?
z@L^-;F6i~o&_yZ6g(6+0pD$aDU&|^hM|yIVR*O6zciDpWU7g9}7{0EQzpMN}RgZPy
zl=JTMf(H0fI+=)TN5Apy@6$AC9L^Xc_T&$2^HS=dS*N<sWp>a9R9m9u`aOTA!GZL!
zSuU0C-PE#_W1jQ33#(oTSKpknV-MRInpRioubQ`=2L{Vx;3*!7Z44wWr0>KlwPRZF
z0d(Im{v0H&ZJ3lNcTR4yw?joJ<lcy@6@SGJUtL7(8(kHgJI-HI5`KPu<Hn6|<G47P
znxV!6!>yWjb#sb(J|k4Yx0lRUV(!e3bI>5gu;N_OD}c6O46`<o>wU6eO*}T6;BsQX
zV)bC`X8k_#q3xMRls;c_IXm>pqpP#P`oZaZTDKA55CP&;8#w6QCW}-;&<v36E)Hl!
zH(<xxjNJm3^%_`fle>j0k-()Pf$XXELVNgQK?a~^6qhL;gb|>5zQ3sT>ygpRpwFce
zArFz-fuQyAI#`^H0}D_xpq5<+TlFeC1s2voGS@A;&sGS~x%)|<gzEy`kDbL<BXAIN
zgSRM(24ZL<IztIZY_EXOWFJs7SO+ki^Y&{@8l^NQ0L7|Fc!5Q&QG%J#gS<TRy@h5*
zJ(#sh6`<^@O#;0|gA1TZVG0PC{nJbA=7U6*^YxWGKN__Pw|6iFU|5d@v?(a9zh(G}
zBW6^4HK<`PtYQ!_(eW4o0Um0&l@O)!4j697vKZ*{8l{*qUH?xG{?i#dqkVhvUsC?t
zDnq|ON(A<E!V>iX9=cN-(iKJ~Z`|{#G}zP6IDl30aJKFJJPzayv<t6DTcSde`e;~@
z`&E@h^m7GvwbM@e7#aTs@_vi4#$QcQi3|;|eO#L4N>B8vJ2;3sh3;uSzzwdhYL5C*
zX!ztr><8#51NDTR=XsEntPWc6ZOv#IsFV`KmfS!BKt|pI<4aoIke9>ItYuQ?BGK2>
z!QYh0H-%<{lIAb>(XY%_2^u-`7(dxtSK;?BtH;0#+J+w_=$+oYDR^&}NqxAV7bCW8
zacOYf93*Q*<ucQqRBy(m5a-&*)#X?<CL!6mUku>km9)p5r^Al(mD2jpz0CWK-Z;M=
zQY~?&KU}Nd=5vhnMfhGsG~!UY6J-{PqjS$u|9_%j?^A@g_z-<gtMN#{DV$A3`=t}o
z4`%<xt{DEGv7C0Co|$yt-<m8<7VtQGp+#+>xM|@0m7gR)7dm7%l4fvVW;m7Te}9Bp
zOyfT+K*H_!5puaX5pD+?>O>r+E1KHFOjhV`OG(R2nt?l)z4@q~2y(`>u?q76xmVpl
z>hwdd1kR6IFmV&QIZ?X+EAlqZR7*29YrRn)MX=IV0qRHF0E8oY!Ah43wOGgQTpe8P
z)cB;+f|N8%vSbxx>Tb#nSqfboI-p?FTApzHe>L>~{h^@Hy@b?@J+x2uX};2f7Q3zJ
z4DF&<W-j9REaib29J~7!)mF7>Fnpf75_R7=eVoNM>ZeQS@iF?Bfm=Wfc37VNVy}fd
zVpPbUM_>&UfL=yfb>*nvxL9X8Z2v;aoCc`5Tvz;t4bPi*B~L}!{5r^bVlbdwny*#5
zszQ;)H+#3d6?Nk;W?iplnG@%^Bw%;e3kF+1um`T(U30w|?X2W{)0>qGHY`vB#-98s
z(9zx@`LcPV6(@1qv49zr6VEc(T$T;IPyEh_!oJw3wM83!`W^mP_JIV}1dvk#)(s^N
z29dEXSsf_BtUDG^Ipo0us1d`gn8H)ZylZ9rYrL?52Jojw*FO=vLioKdYliP*JM#HU
zqU<hdJm}yFHBP2~)e)eYA%dv)9u!G`I$c0)@&xMw4XcRla{=hM)=m?Ua9|vCGhU)(
z;+j<q3|E*8cjk>|tU))t#5<fHW4!slsw8-&%!B@a-H8TBm~kzf8KPr7%rgV=<D~wY
z@LGw&)~`NV$OA<-nKM;wj!Vkpr6FXA!NZ#5(mXc{Ml2GkS)hsoAJDg-<=@l7QiH8^
zIp<6h)WSyyHk!#^r-e<z6@|>|07M4>5w+a}U8Xf6$+Zo(uNJ$j^c(gyT>9S&$uKt0
z#DedYWmUPQ6GYSf<NbT`b0LB~>jSg**1k>N%X>xfGZYOmU(n9#v$E?joiZ(@_!9aA
zW%Prde_fL=ofrjJo^OZ?BjHwD%9MZ8$(5v*_X5Wi=POqlAc?6#)MsrtS@r8F04a?<
zWV}Lf6R0N8Lv!23Kf{c2xa}6gWC)j@?1Jq_99JTL!fMc~hfZiFgJI-Ets~d*S|6^j
zy`0`1C>>@?=)G3Ev0|{YgtBq`I7)56x9`_X*Cl~bkpaP1K%r!<GVObasAunEQ0lTh
z$;?^US(IM`cs%ramJCv%gu!!d!&$v=@_;7=To_HEN0+RvSEN>)^fxGmIR`%f>pA9W
z+v5NCJ^K?#qr?#S<6fh7J7<78Iw~>}df1@FxhwJlU{=4wM5?3G<$CNI27K_1`g?_G
zWkSE(tpA`{r`8H-ie^xI6hh1&KVV|P8m$J>AeF)9S=5Ttg7cT=Myw^BvYFt?XeJv6
zH9}2eHZ^M2M-OffBf@}HuCFwwN!@{*R;d?r_RO|h@c53K+Sf8!L-KE59{^|-N|6j7
z|AUtZ1ym-PtJF5>%~aXM`f?`boV;eCs-&UEE@!)uJdl2pUFi%lDL%ixaNHU%j3E+)
z?*J$qVw^1pkuxlGfL#LWYV)D0T5)5bkr4a>5vc)qZ_VvMbBU3af#_^{>3m#3+)pNO
zXCE~F28Eu&x~Ql*VOODA{^SJ5Q9#>ve){`pU=3tcvHlt?zCx_QR~EiW;C!QLa0^yX
z91d3`E$3jR!?tlcAeY9?P$xI{Pn8=bfK1&F{4f<XmK5x+&UPJ^+7NwFzce^)C;bxe
zx*Rvn_WiFB{4?zS*YQ(0pxLYcdxGra5Ylk8Yke(hxvQI>%;nj}XY)VM)5!b;p$tF}
zxcY)iQF9_imzYrj(RJllQL#MR3sPlN(x8v42$nu}Nyx138BC0!15^_@??5(%GK6Eo
zOVgsS06E^v0+3F0!!5Vt5x!N4V?GrM>UqyDwi7abp!1lN)cQNSg92WWB#U?W<63lk
zCvakfD1BPz4^^gAU~})bMrRE4z$MKA@=VSH6Mk`wS|6hXo3h&ZNgx(hf}K$PCz|4}
zNNlxf8lG2YHjIw-FaU8Rf|#V%W2%M)U3tZ9W%vnD=8I@-Dpd;18POEhM$(ODZdDoE
zFgf*Zu`xzNmuwfB=nt5Jb_Hv(mMRsKr62X&t7Po}RWh?+;VaB<Ku9W-!4q!72hmHj
z>iQtl6HYcqIA)wqwUht}OAmd|E35eN&-HDaf=mnl@0wYH9tp}#F|9X#zS@c({1m#>
z*JIdRU>-!*Nr-s=Ddm#uh1zc>Z_KycP3ie%^|%acbc~N7dU|MF_vmY`GCsL-oLm(o
z)Z@aG=9q>9OgPTvT@n3eIJP6?KP2H(zm4vMMI^r{H;;egZBTXpY@rp_ZA%rMFaOF)
zqsf_m>sfYkXUP6SnM&RRER+&)FV?3vbedJa@Ao{=mFpfc1nq70y^gJaRlW}^8rUP~
zubKlbfIQgOVj8IF25A+usm#(wrVcFL8F#sFVGy0Z|GkX5wb0D}(FSpaS&t?qz`0mO
zy^A0%*Z^xfPkjz$VGu6PP%4|y9iM-7zCSe+S!o>9qHK;2ue=WKTWFZq6zX{uIX?r*
zq%KKg1+cR)fFTt$kEp}2!l^iJs=mUw?&*PHMcefh`E&z(Jt6P?6ID{-_f2h~`ali9
z>}+SI!Lei92j!uCC<4h}4#t0fgg3N}oPpxy9HWbWou;4LbE|O~0W9qx?v0#b)Hy%5
zhn{TYN<?lRLTSTY$;YBbX()Cn{8r>VK_wga8mmQj2S_S8Ox#UK&oZgoo})+l2;<nB
zH}arSE%l)qKMkg#fcb$LuoBYcu~gf96MhpLd9hI2GfJfJP+??mzQycI{gewsTpXvR
zxbJ$1emVhNi??)jcFphH-)?kTZr#0Q9e8<q>pv7T5`2?<h5@7Onk+<*p@|Lq!rnJ=
zSJs=uWi$tACK4x^zpz$cY_t;Yo#VH=(a8zqRVzTjxDSt~&>!fKrOQJzdW3v3OEuU-
zy;tl|VQQI31lb_CjEV8d(FYWudln5C&x{>4U@uw@IQ%MfaJx=h&DXOPHR8|zkU9cq
zy5SHW*3dCVJ)WsCillIY3YxPx)THwnI7qbWZ~-5nL@GVCpwdm3$H5*bvkN@$a9k~_
zXN||`-Z?&xuQr<=9;;uc71#shyDnQoAS0CaB85jqDx8#F@*`fQUIg<03ja|rD58UU
z?A$a0jPbS$I%u+gBsR@X8iuh68t`3;-2L(taI5!w-_{Ys`%36D=H=n@m&`v0^o|d6
z$ZJl!JOy5@?OwR@5e}ky`NTDf3VMG_$Vc4dxO8-3c^!226Lm9l!t<pIR|dJ##Y@Gq
zupqWw<PxkKw@2TwH%#qFC&Ky8kS;~+U09Zic1gTuFbhJL_Oz`*&A&trp?GI6RgyPM
zkcA#xs*Zy^ng%)9{FE^q!3KYpe}8PN&L3IZTBUV3-!S0y_#IZoS(QD)>LNrkF`{|0
z{hI9eyrw`QZxLRf*#>QSl)#e*e}~K9UM+bc(W`#`F)XI6ktqh2`~9{14Z8r>8biR|
z3*>|NImribdbdVSvrx?$&)b#P)kv&1eEu}|*k;4Y_#q2j&&{bV@#^7B+e*D=&+{KH
z#_I}LPU(Ukfii?8u32IL(}nVq4X5&3)Uh;u^W~SYDu9fb0iZy9lpsv6WEMj}#(KV9
zW$KaG*EB(oU)F=*4{D;S04kIT#Cb9z5@`RE7}}B$I`2by3Mlc=h-yS_a%*{$HRonS
z*=V|9T91jH2m4~)3fkC_l9YVn(mG0sFwtEALrw2A7<bv^*rFtOJKQsNx(vqR=K*}Q
zgUC09ZZ5_((!#@o=uSJxC%!%oTAPSZNQI=oYhwKzFcdL>)QF2bLVWYq$$F9&(VH4-
zuz^oX$^;b@sUa|!9CZ3ayUD<5vv}TVnXi}{z4UFw#yeg3gVpW(03PALNvpjpj!58X
zq=1`)8Y<8lYw0sLt9RK?BdW`0(yqwR(1^i$467i^DQxpa^kcF)+?`|nar!a16wUD4
zuc>lYG>}W;L8ma&ANkB(tkH4v!C;>KN+&v8Af>PDQAy`ZuvhgEt$v&@m{FsM>P%oN
zbDrp#clIW`4Vf#Qnxs|H4G=2RjFI!)8l|Q_TOTMcZ(#s5)w6ZzPBH{33BmRo>Io9h
zAF}H|M3w>x$|3PhIsU8bW%JOSSkgmkIql&wo$R{(xFy7zY7@PQ<95%Iz_+sm6Pv4c
zn-Tf@tohg_G5CV15p|3EX=j_eBT8CV$FZ~zNG?U%rlDm|u=wwRs^ulr=O-c(nx~Nn
zT9}UGpQ;O5i@wB-jU<$g6M1&}v6&O)gH?-=D&mwd?VqmJSJa1_L!Vy}uxGhAd*c`r
zz_sIXSPLFbVb<f)fmtV(7&hwy*?(L%TmO(FxI1pY0e<1D43Jl!Rv~*JaRhII7;I8p
z2P#FqN9e0bD(8T7PFIEOY5<U>WM;d#de_6OxS1MTSCMMqmhQSc%gIko3G^M~0XHtG
z|C7niT-}IzkD9*<DXNlV5H|T)jUJ5lzY)R#KT--5{_sh#BBcqbpVl<jS$a4Mxla2m
z^^vlXLzFI+=Zsm<tQJy<97XN(ODnN9{9e{HM)&9o?240N-%u2Q(>K_Y>U=iqI-8!~
z!N1xhkQ$M{`|0@bo!2cF`Re6--|<2j|M+wugfblg@&@f-+8^N+L@2ukaf&W*<>Nh+
zyX6B1p;;6B)G;2HY^yepnB~~|4vMT{WTi#NUlt$Vwp2*p;&;>%gXZcH>m<$J-`v-S
z3d&*rVytQT`+#Z9GoofoGU5076pz17W=>BYgXSdK`}RT_NKSF<%@=F2ihhxFSxyQw
z?At-_3VS>rMkf9&zqZ|Drbwf>hQ@cQDwW^mmo;d@#@9j1RXk8k?5d$Q7M!{s(tvh0
ziLB%Ticd*=wcb?zy5Ws2qqSdrm;>52Z*&0<Q3qIG)i-okuw>hH#!0&&HB~-d$7Un^
zL#=>E<t0g^diwpYJ^f!8+<S-06S-1>{Xg$vLn<ER;6yreW?&0EKkWAWh7C`1?)T-L
z=|j)7aW~d1+uXmU%i}&%m-5*4{FYCPctad$4?dR`W@jCGtDoeP$v(Tv^Tqx4(RT4M
z(wnbP7PIe<y@;>0jz5=IBi>{PC(yhs2&;U?wQ}G$IzEg!>uw^XjlE%FL6k7~8TZmL
z7iZS>ji*+(nE`mh?`VBSP(AZr-xE3~>Nyw8`40=&2yJEm_PF?GO7|BM4gWiDhu@3$
zpZ?N6I1$W$UsiB@DjYpL5-i5KsZ&V<@^?DU(z`5fL?g6!S?nsST%WbKzc_9}KahlV
zuszoX7(S(*Oe|fL2vOj)`8$p%5K9c?=XoZG#W<iZ;L;<Rg$Z|`I_gPz9X>auo$k(Q
zRdgW;ba;V<H?V;5Gl481546sdx$+4Q6q>JrAFG@j08{1tQ^$cQ!cMGqa_Mgq{_lG~
z8uhr*YQb*0I=jU%(=TCHet!g|A&;kJD%pXBBw^pdMm;@P%Lxbw=miRQ5I@Q3a>Hf@
zFvin>8U6t1t@Uh;EKcncn_s~w|EJ@H4`uxkk|nT^+S}XvjcUbrd@>eHwM?$h#FdZB
zI$v+nWw0K02m^y~zHj76qh%;3%O47-8$`U*Q1mQRc$U$h+8H03J_fcm!#xwnQ`(Ek
zj$%gLw-W*jcEczqt5{M*bBSzUuXYYMJV`(0#`AJmxcv4(?f!NaG2-CS{=GpZ@OC~C
zb?#r?1)fzKB>hxxoP&vDSB#14Z5~IifBAn27fDl$GdLxM_`crTM|J0L1+L$}214GJ
zz_pHn&b_r-mvbrz#rUh&pO838zS#a~fH}*EXd`E80Q?cJ65rbDHBgH41U5F&92SZb
zIi0VoZRWVBOTF0K3$H*QRok_kM=t1YS~ON|p%haOSO?0PVtg?Z^Y8HW2bWy^KWJ2g
zX$+&7aPT#S?m#kkc@vO*RxMJeF9cTJKIcH5gbG^w<Ys`iRoh9N1YLp{Nu@ViH<p)1
zAML+#-scY2hX)Z+4B1B6qU=v{WQRZWzCRTynno0qE?!^tSbS+l5G4t)u@W&P5lBUy
zYgF*T`pYhcH(V5>=*k5ITR}d!f3tyoAcC#m>uuzC9ufZIURl7fOGI(j)JAUC0#kq&
zyI?1b32ckSZ;qrV_tyjh^tBK4b9nn^aQ~g)!I};Z8-tt}YWcukf~87KBz9M2l4mb{
znt+%BJ8*&0<9!IA(`Y<;Rf<APgGT2#U;!y_QQa@1J<;f5ms{|%-A}H>3%J3Aa=l5^
z6b#cL&?Q<vRCp68-GD9hTjWjE3qpET35y=KZ^TWJ?T33{W4T9Abb8}0?G9MA2@?UE
z7f9CKDJ=h89R&1gTA#%Q08T_R=~SWJ{_J_L5Z^@6ruFx@G9uO26{8e8{Go6C*MeqY
z`xZP=4;AVOW&Cd-R)<EVn4%4YcFW(q!3)^Jz)A!dU9bwp2L`x0KG<aI2X=)_sMwEV
z0X)T+HcY^zO#wuuwO}8abZZKp+b!sKe<GoUBh_1D`2#?q>DxRzkzjV_DA>5q1?Fx?
zAY*@2xenN62cwk;t30Uid(T`2u-2+z_RI$zV*gX`G%}D2T9&DgCADu;0j@oH6ia6~
znO=fRY##`-J~6telug=|#)UeK09yGZ$>;zIhwvW_djujW(}ilZK&0xUZLx~hrT@W$
z%}<Or+6fS(Pd?=W@+gl`hZ7)_u?VPtam3(fNJTPOY$!Lt9RN9tGl%%Up1cZesUcun
zMMefqa$J!Vf(EIbXj4kINP=9)Bhdck3`5P}C&>((nefm1D(MK`>iphePck~3Q)hu`
z+tidfS>6-<M}qD(xvwn&9&iNYHDp0ih|i`6I)faK^F8>a61^#mcV{{aibQ+zO2w4@
zRq{8uDlXXlRxm3<6oY|^%1}(q&QKH*bX%!F-Bi`CmK1mXG`OZ_1qOig;vX|B;5nTc
zm3eMCDgj^-|D3T*aAm5%wu2dohU-ViyeHjoU0GH9H(xcA<+|lrXKjJ(79|wDOs86^
z!q7GO>*rZMt4Gdgcm1*SPXTiEh0?I*$RU5y;suh5FG9Jv$}*h;*8lVnnvjDlbV>vh
z;?_H&kY`FrzVbdCw7w!#KHJbTrQjzSQf-`!(5VjIe^3q_&3Q*HlBxSn@JQdq6lbX(
zd?(w7KY=JoGV{y}YUNrh4c|6;Fq%*Wn;dU7@8`irk~oXu#tQujtmR4bA1iZBfvP1b
z>;ql@s}JAA&}t^j3>e*x*3gG|Z?Tok4)!=LhDqUKwWh$mRJBZ>*Y`(}S(EFb=|Yp6
zT$}zZ%;rr|Je!FWTrQPz*xv_pE-8tD_f;DKA2GYBeb&YR!v_rfXn>*(fF`X|?)7<9
zo{Q?i?PR7nD!c+C<*^q5O+a4Q9k>$=TVNze?>tYHBIp5Y`)ZIS5z@rL<M9MhnA+#~
zhm}=VC}AD@*uUd(gJ$1F1+9P_w2@=qmJ+lrZfL5%{&(!?kThGn-VSxtGG=YGz5RFS
z+C+SGz=KK%j@1U`GtIwc*a10GJ^He6_2FG21R0rr?p=pC0c=^luHl{82H0xQfb9h=
zVWst@*kIbdf)<EUq1c%neA_5szD(nDDk{W)k#|i)Ujvz7bs*$vR<x>cuc=5hBMxlQ
z4A?HZZ!`N!bEDPoOjKI`M1I=&ZjV%)^?oVZHP}Qvox#0w1O2xsQaHMVZQ;bwVQ(sq
z^q=2}1JP5{jsLTB<_8c?i=b_r$W7zZSEX2@@9pjF)pb~=ME^`|pwA$Nig;65311TE
z^&9Q6JS<=R#b^FT9zY)je`mRL;4vJ0_3fouvRIvKL|?WT3nLiw?JarrHLwcE3&W>N
zYrsM~2F{%U-jDeE=1{u{;3MsRzQ+tVmV7E5PIpS7?2j;{BLnXxfbIf=SOw5H8UX7(
zvCq2|qp3owe^fk%$H?CSaP}1Q)%t1wL(ET9OHN2oH6D^BgZ4NdRQ(0CgQQ0@?IhdJ
z&TwYlVAy%CdNxP7tY5!XpPF%;)E?Qkqi~i%l0wRKOL1{+rFbxubi2y`;C(_O#_PYS
z1gy7!#~?~@KdnA+xskFZLUJjV2k-yHX2=6XY>Qu|25A8AIS{Gf{qq@-HJrAg|BtG#
z0IG8P-iG4=NjZQ>cPiZ-0uo9p-60^|NJxi>l+vvrh;)N=D=pn{00AYWBnABT3*O&<
zz8S`u%gmkOocG;(t@W%YUVbIdpqD9wVhSIE9@7Gx;|jAbEL|Wwt)OJOj3@__;^R6e
z(^uqzC9`D&3<~e;ieIIvE!h)q9MRZawUZ7AB>z|3XTx=h8hRpwzVfJep<8GeH0{`)
zW#5%BN~!IIo0IAYD2j&?D)QatZh(j_3VN%}dY4O~f<kdlLq*Yp%(8-&UXpy<ohI9%
zUu=?N*dJV3L<WhzV5|o;Rm&iNmRnq;>iSsA@}YVjcUJc-)SXC#?QkCTS~H^>6PPUi
z@0M61e5c0#LaylgO+YfkX|#A$&;-Y#1lDpWQ8})_X>bddisMJ51&89ddaWzA29ucw
zu(TPK5j3@0mNwgbk)iczOF4bXo&*>+0mK+W2brT2<;M%vR@#flgPkYmP69%s)Egv{
zqg$)hwm6){M}e2yXw}hVIjWo#B?{Xx+iF2nj4>LFGHn%6Oj$0}TUVP!EL4Lu7Of|0
zyP<F~I;Z{biYXv!-fppZKF4qBKg`^KR_c8!YgM+rAxAodD4r)tX?U_ATik?s|0|?N
zCE{8^Hibu3Zvu!=)3q@W5>j06&^4#tugymlhcJ;08I`5d+Xu>{WIZYgT_!NPXw7LQ
zy-9}Zll4fhVSGI`VIW~hxw^@j&EBXur~3zW)_C|HX*5EipWCtUbh#3Rj{pB;O^~QD
zKxbgM8f((Vpo88glOhX#p3n+b#ks(vljp^WlQr0{rVBZ@8-MKeIt@V)g$jA#S9);m
zelK7Ddi_*52+C%Ty}?+>an!y6{R;64F60)^Wa6F?F@n9eEJhb_lL-TX@htd^3(W$9
z3b(!6h!*8dm?$b06`d&3wPzeb#rIsNZj`Cft1KOU9)%)N3I1f1B{CS$-dqZ3yGtaK
zuNAM2lkDiq<6Vw>M_xBw6bKXb5QJK(?#Y5ZKTS!WmIu^+$O5$YQ%9Nip^afC>Az-r
zmk1SW{KbRB3xGPvVxit51H*H7uyd%E;CPgK@_$pQBLOnX!Eq$g&-ecAcSLzh4LH)j
z>G6eFyZ4-#k(G3aU{Tw{2WhRsGD4$Y=@1wz1zD&kTk^Xfh0P_Bv&PeD9#>ZUyP>6E
zmk&`E#)~>_PBJ4FjW0zU2VcX_U$p}C;M`gy9UD5IQy5(MhZvyFA4cERmWA#$^~8V#
zHQd)-xHmhmfIw)Bvjw_FTSpw9$-6#>7juI@y;4vHDLp3xSz70JH~>G8KszWYsr46h
z&$qI|4NfTzUe;^Qjz5<05!V%y_=E36*?QO-*W5UK$F=oE(OI^_Km?Zk^<xW^0`m33
z#nqFGP+Mb~BHFiWUriOIXia{X<&m69|67eq(0~^f?_I^C>u+)qzpQ>5*)aTKn)lE3
zNE~hh_l%0LkslM?Y`cMvLAZqpi_Afa1#zw9+#2{WS~O&D+J2c*Q#J96B}!lrF7KOf
zfv^!G=km7-a^CKblaeK9^%)>W%@nIb-LX(@M^1Nij=yVm?0B7V`eOG%#_rmx<0|+-
z8WR4Rcan|AJ*s7KOEPQgsF3vmo56+lO`6oMWgFP*91Fx+7FAx-0awh2061MlfOs2!
ziSHY)?Wp`iR|<mNkXF!QidhfVTz`57Bwt`YtA;BXD(f{322OxFCnPvXEJzk9u=cO3
zZzYCr8M>aRO%hk#Xiyb{2O`=QgmVljWewvl1s~u`^Q8<weD%7Tqu6uzK50-*bM5F4
z$wswmLuF?Hsm>)OwFlHxUmU_u(o?eZJ{HKu5>Sq8)YFSjWD+0T;<)oXxQ5!EY=_@C
zWK!=tv3;x0bX@H60N>m8F2uqgUH0Q6D@C`Tc;^K+5`@l1OBav%e^<5>q1Q<u^_Cuz
zJC22FlNS2z>XT<aE9(7M{AmKE=#UCUcN8{}28uM<m<CPW{Mj$ve8p=1;Zp=~7LC^g
zFW<a|{yXr8a_d6W(GTU&LT1z*d=pjh#c*N>c_$ly=7Tul<RR=moQ&Uw0YMYOw0-&V
z+kK*s_mR6>hf@(;0}eOt2r-~!He+e>2gU!0JtC6V{xeRsTc}$4y5asT-Y5f-6(-cO
zcZw`{hC7KBo=U$jSe#IoNyl%TLAnK6<`|Ug9<ao{u12?*k*@T!*2<sYD4g>pmXmcN
zSFb<+VF45nGX(=IDUv{;>Vb$+Ami^L3BOIeQZg50|I7|DvW|w(oV2bVE2>O@bajBR
zM*6ecOs%<KaZo3PB1ndaR6e;es}S-Jt8*l5?Re^V+;f?I2lWMYpaO1rQ^NgzAPt6f
zSs$?stALY;LVO1o1L<l+RIKSf(nnT884cfC=+5)?j9Hxg{b9|%eJkc_BSceyiJZx6
zTKII}{99kSxFZ>!eIpQz6@8#fSAN6}2x0N;`dZK~9&`_hU}#}A1^5Av%XfvJU`Vcd
zHrzfI4UPPSs1Qw;0`X350F~m-^}^$X8MQDC=QiHSdiin@bi!%OFi#w+cB!aVnCf=q
ztcJh|#uKCAld^McMtr1|>NF|6wSE0HsK1mN_uxk}nkW#V)#-4Y*==_8e2vpw3#l6s
zTlO()#pP3Y|N4iMFsYNKW$%woF%*Vf)4x%uFFzAd+K74XN<qj+oufKPNbCWfGY%Qw
z*Wz4#%(=OZ@F?id0fS;RO0%k$`N-`8uVA`A*DsZHYs}=Um+csSVh>cJuD&DaFOMK-
zeU6yhs;(8oxJ{$+PHKRPb_P0RG&Y3!GbMQ%hrH!_b)CBZq1D+asNv%prUG5l>c{}}
zDT1<4rp~v}1Toj-Gs)-U$uH`2R74@-rT`?__V@6Hc6XO#KKuXm^Bj-ghn%FLZ16gN
z=d<6|U27YU+CwmN72eQASn+Gm*6S}$;>>3xmCl0PgZ@dGvMUz6ry>o(W3Z)!x!qE{
zy7`c#sQK0SVw<7G|6K)Muw56kQUM2%8P*(eZ-f)W<KUas1=}{MQs2Nu4OP7+45S{)
zu*<j;-1cM;Up;d?dlDaMbN&Bk^P(<1iXN1gbeXtSY7Um23816LmVJw{p+qI=#|Czq
z3Bco8@zdkn51^fX3({8tKUQ+KoIj>9d9q2i0>FZ=P?n8j^J(7q{*)&!>x1k<EutP<
zEMQjV)6(7tryvn<o@5k7|G?Dsz?6Cw$@Bb|!8GuMfhG;WKKu~5ZYLSN0q_N-R6c7u
zK#55LZEkA8S;TwmcU&Eyu}yH7Mj^3``1TC!;6?z_0udS;fur|ZK}Vxc+NGJGDR}T}
z?la+g*Ci9^BZKmEyWljH>(6xw1v78mdur2QXBvOz)>G&u4w%FUIW8mdf4^PbHl^N*
zU-sOu)rSm@8Gge-J^k8kB47wZ!=AYLIsbW0Xf1Y@au8*l)EHgs_&?Yw0B~(cltn)Q
zzM6hddzvmlAfRLvCQe(HG%$zcyC<NVaspN)etZI(?qh(!F#ysFE-QXus|{F-JqE1I
zTx0$FI&>^7ENn!6A=~%;0XPfjLjF$yzC8j)F)v_m%Ls@HO9CK4Hx37|%J$|wKpK$K
zCg_*-1soUHAf^mJ_|i6f;%KLAQmk(VOBDf6tq7D-Ky>Rp$_M0(F|9poGNZk-qit3Y
zD3kyKZ+gH6E@2ND>bO3b!2?{1!IO<>ZAgFIN(@!fa2RwG!)|iBB(|zwodXw49k0^1
zs23q$Gf1z8Ap%fZcgv<0Qb7=bLuvTYGbzx!6&~DJ=JR~~8Xcpq^V$7?*9@oxy8@_I
zoi@7@J&UyqOhcE~C-dsMaKRAs{;fdc7evyNxz6ju8?1nvIe@gsU1sz-G<o?^z*AgC
z4;RD>#RCu~UsoTeft@h%1USPm0vaB{?eC3sxXQHIAPFGm=~{mZtbDdL@P=s(d8^DH
z!{-1SaRDTghC}rLfnQt{0GV1YzGd`-OYnCtx@Tht_jI#wgUwq&SzyilZii0I<iw#-
ztf$%h_tNKOj?^=4kW&q~gpnQInZy-0uf7lx@FqRLv5LNKJdhSJ1Ud~#L$$Y#T~UV^
zbW@!Wp{jJ3VoHU7e-;Gt_nb8PD_E3J1U0sOcit(mV^Mo@T-`Q}vaO`$sZE=aNqMaf
z*WU$QD#{ly9fu3R&AKB$>9aOk-fu*^pHzdQZ`ZDWr{*F=st7<wSNtWQNzJ-9d;bz7
zNC>2*vVbiUv?CpuSq7r<*%1XWC-;E(Ah=NjKm_O)UmQe1bjQ7?VJ`e895yrKp1?n<
zo=I;hsf32j6}*0BV|_mWU7VBm{ar`ybMV&5`1tG@_u&WevA)E}{|s!<PeJ5B>~Gzv
zdiTOs?99FNGC>-#c7U1=8gXA;<p?$KqG0EDboGEPrA{WmKAQuzkQ(3f8HKxcf5LU0
zkYzv(A8YrK>bIAq-w!{T)Hxc&jTi#}tuqAB4!@RqS1ce_PUg4RUa9x4`1QemVB9sh
zX+82m1U_X%u+UJ|4d|JDU}q0PFz*5!o1!f-4HC=)&}X{9cdv`M0yqHaQ@sLMIfP<A
z1?VEg^?Kl$N0ef^sSuv3rj7ff66`ES!0N*btcw|(mpk9m%AgNl2G`aAu-jT$<s<Ej
zQ7wV!Qg)d$u)hWpbgI!RbVqKbH*}%J`u*6;lHtn`u2QMb7&%wGQD+;hPy%qc#DO$E
z>ue0{G>{H6vl7ueb&rS}?8O2wNZ|sYvxogTaXz}bf{QVMAF%-<65&a|_`h=h9Ak=*
z?vt-BX5M%O3z@4f&;*->c+#-hz6L4@M$kl8tcoj&)wwRlt=T<--NJ-q)OmgaDv%K9
z*L?kYSqUe0mbfp|$D^!RW6P4az&t3yM{wuNMaXc`69uSxR8Gx@ncBqMLi=N--~>=T
z>#)69B8Y)6#CYq$zef7%x}-(L=y;r`WL=wNJ(|}8aP3mUTvArBC|=}oT~o^V46Gwy
zc&1=~p|y4Y{(Xqd4HEE*-)b9Yig{%-QFeC=1Dbi4sjp8cF^9o7B7VCmwIo4HV8&$2
zrwB}J-31)EWM9hNUjWTVE+{E3fS!AM78h}&oiKAA%i#`4FP7J<dS+^4_(1_5f&c)f
z`R@J=Qod)gP-J$!H=yWFuBJdd!aykqT6;$&JeYP>!@*p@NYJYM0-h@^)#OwGeHt+2
zNYgMdbQ<Tid!5jtvf|UjZ4l(1=Jkb4oN*3al5uV0K7G-v`c1>R+GlkhzY2<y%Ve2q
zF7>>dMs+c7upY;oy5Ia7?_q8+TOk<&6D@sr<i)%motfZEe)Ki#kzW#N2J`6)u|iZD
zf<KK<Z<0=X=CfU#$wS0{9v~9b(rj`FR<Pe<rnj)1?AdQYUF`XR*K(U{?@Ved7M{+4
z$P`p5+>DMhtV~@bKz9DS76B#7q@nFAsqk486lBr&K+t|h1DLiv)diu<Kt>IL&6N)$
zi|^AK@J1v+ZN$tr{ZeQji@_5Sr{yl)z_jv0XlthgxUb(<t5d+jGqthv{hZBUCYNj$
z#%^|)4(^GA{cj~LU}+1$?E<~7JC3t81BpjkF#QO!^$>Q0B~83?k95f82w=5#OrE-x
z7Rgtw6ABZeDZ~c##XBMQ>uJjtwwoVj!qydon-lfln%OBafOit#;m=RDfqc!O%<yuX
z20bI)9~ZO7Pk|EYp>dLmQT&egU~F2F1Iy`GZ?F9yuZl9tAD?NT8)zw?>fX9+Hg+&>
z$PHn&;_UO6AMCwU_F4V2z-ys4zHmu<@`_CdmFHK^pBOt{@rvztbB!-X6OY|t3w=m&
zT)Og`&#8ZeH8}6pbCg=DInLMGeut!i+l93nm9u*}K6tBBCG<5%&@tiM#Mxyv&9`?^
zk|l>lgE3f!E#%paVC?^0J-cM6g+A*>o9UFo46#hgWKV=;pMo_8|8x{O#wSpjb9iMU
zCjj0KDRHEv4ngt@mPb<HO%D4mP^+F*a^&vGi*xW}6h_+1bi92S4{~xDYrIqVdd^~U
zAqHQ;uiG+DSex2@2;&BE+2e+faeV~zI*83!{lH~o?5^PgIVpvtxg<ov%t28v<~41H
zPd7X-r2xGVjf=+i6~aIh3&HST<zrm0+Z#2EZ-uErft(D8_i!N+Oj!#UEiLU5$I!+M
zp#!~Ecm<s1aj-nUBirtIxoe)o<v50oQmBN0nE#Q1C0sQgDF4#QFku3oKfKSre|mDL
zdl!^v-=anIwUJNQ_&jgE;8FMVbHowtSZm#|?2ns%+AS>fd0yw#dJLw^vnHQ1;+J0c
zXIFMxOs*)|<}tAhiTAG`{vzbO3<!0&6XpFf!AxE{Zy$Srmw}f@6{C#(s=W{Jfj|DJ
zVsA4AwnB=je4lz8_*z|4hr`Z6Swb`82VmbeeUyKHK(QF`iF4I(zemz#8bdAV0Wv5O
zfUk{%t_A3Vc>FJ4^zpFfFyjnU`-ze@CAF1=xvci~0P`CLkFBW)Of!B){392r;Ke_u
zvlFcc!WBa+&?3YEF2IJ}j8Y^Ccf2dQ{(GBkhy)5)m=K5;8$-2Dm4N94!4VvYR^w1w
zlC)j9=4)F=@Vh1a0EK~+&6`c1LgjgE5@$sv!FBz!8ZGPZB%4NqOLv2yoMFmV{mul-
z!ia(O4OOQkRr!T<!xUS$;y-g`yN{S(aB2h#Ic!+1SPa#-;N-M?%>$b5d;SG~H{Ih6
zME%FVUu;dsS+Tf?b^=B67G{v8TP91)FG;rsM?ta*OaRb;$Bm0dczxGF{~~tb5Z0|1
z%)2o7Yq5n>jyvuXJ@yS*8$e)uEUSE{D=`n~C4O#!uWWR6ydPl3A3%o)*l&0G*m=gi
zZO(sxI*pm667!@10nX}$$;%)%GsW%~kA`T)#uN6An(VrvoQN?K5O2jmr@vdHw!NlY
zDR^Mk6*1jyPS;C_gn>@69fFL|gZ`5m6PBH^Qk?VSOPiENR$jlRyO9A0#m)m<5o1MS
zA9bhGsYCg5$O6Hn;^nTm&fX|I-{{s+Xf8B64IO`A_N6>t`Q2YLLW7m*(3>w&Rjwv6
z=4ExfC+5n}jrj(5?If%2Aq=s}N8?-epMMtXO5#yEF1(v|dA5n#$Fb>V%i^1O>&^F{
zPm+777kFQHn{~aiC|ECezZVdryv}|W@XclKE1CjNtkefEF=_GoslJNGbWyv$-UxQ}
zVd=@daHpM)6z`%H;XqLSeu{W)7S}QWKDkJm=GwRSYGM2Q|6u_#BCg=Zd<uFj$nduB
z=m#Oy1e5~|LS@FPaXD`|r_~J3H%zpwT7hfZ=V(j40OSZH?E}&>qy5e*zz*`V0RYzv
zikz~?xCtYcYts9fkMxc<VDrNN>a6t!OrZKA@Ww=o>9~uwdEvG=CAV|6KOiqb)ezve
zdhaOi4#q*%@H`=adZ6!NQ8)RipId+s5%h6(U11P&d%y|cpiKHe8P+2w^P9%xuqnHM
zxam{i@@M~n*;^8mwh?OV((QSFi+Q6)pFVT_c`0LT4K$@!7CUvl`ukc@1UycMPM=2d
z!W#9s(lo5~pYW{qnAtoE{)-53QW8zm*LJX}G*Wfc1uAkNb^m0HLE*zeK?AAt%2&Dt
z5;{zNJ0t>8b+Y&^>&m>iUk86)Y5FJc0Jj)1s$k0408uz{8?UXPm=!NkT@Y070`g;f
zyX%=3dc&RIMILmRbr0Y_LZW7E%&_IH5@AE;Gv1H_15AIIHNQi2>_FB7Y>A|%2;fWA
zkRS(Q1cHWUT)_1nu4!Too!Cd~0~>F^qP2PaYUxl}F{FtE%?0}o8wRTvK4>T(O`9D&
z_|;_#ywr^t+Kp7xh42%-Nk8|gZMQu<532w?qgkRuB6hvon(<{|rY~n+cyh1q1g8GJ
zToF8b3ox6?@j}+G3_!5+LQEvoMgqP6*Y%i97mecQM&2}sTx(3&rCGM@dUIX(VSxeT
z)v(Fi2J%%0FO}1*M9vUp-c!coeG6kWR3c4_FU$qx`rl#P#C86*Bk3>_l~(J9de^8S
zelX9HfKiogT%wR2qN3Yu+fEZvemW$T=Lpns{+-Qbj5QAYs5lN@_H(n7&{ZQHeH6OI
zQj{(9IyxHgs&o|-dK!JBOM<XT!^cy7$9pTfQa|;vZ}YvCl0|$~=c}DJja*bNy0@Gf
zx+8$lG52Azn$bA~{DgnAFEl{^fk(Di0p-fHh-<t;!o$C5(7oycfQ?*5kWS19p37sv
zJPiC;E#|eaP^42H&-2_UQo8!@CGX!oinS)!brt>NXK{Sik3r)OgkSU(p<tBh15S*r
z06EZD29$%D-q;_2(xp*iK&q%8fHIVb`KYdstLU?im&c7tKs+zdRB{f4p}7f!-*89A
z<AFRG!R7zcI{<O(00ITr4C>TOEpM|*lVI#PF{@^3^g7Ph=WYgHf$tc6V6H=(!C!fC
z{eUP4FmByST<&_kxq-|Ra~Ru<?3a~?8Sp|MS%;vNA2x|)|6cq)Sqblqx01XgOtWcA
zd3&S>d%u;Y7j+4EiP1%TbFw>b$=gHTA9(tKmIf2LyajheCmlEU7y3c`*v-CQz)4Ts
z;0+ns!e{53Z`gsZY9#SUjt&S69v57S=9Sd^ZPet*6mqN>1@^)BTY-4r>PwiEvi@Z9
zWFogROg$bY>8fkLg^8p>k)78%zCj@nNf)Z)e_J=gn3JAG;jg?EBCSnS&oeIUn9n=|
zGW*+}UHChnNcRA1UTyb99={aLIA~sq74g6R#CcDOu`W$N{}=M`?R*wqjRr2Ux4`~X
zaWGxD+VT|GzkdgFmk6-^^}!iei45YL0#9a3Z4N*>5*n3gjxEMu*fihNPYWPXBiaR9
z{znTh4wQQU$pwk0N~0p%49+FiD6qWi1sStd11VRml>j<$VM$SP_-C=LUu~x@@3$`8
zc~`fGq~`t3c6}($Ls3d_yI<B8C=6uI8?Oy|$+DrYoT@>GqAV5rOYsA4Zu5q}lfyqI
zGn}5z-Z$j6i%Bljp~{F#X=Ow(`x(rC-&q{?VIL*ZvrOmB6!+BgDD^r`I<_f<j34?>
zD++X9?iuE&u{T}bkLc)DxihgbBIOiKUg((KF!;<Y6A~VT*kEV{la|VNi!AuXT5e_i
z*X4#|fo7_MpKwx>pOR?8!V$L%*MG{slxll{(d0LJ*uq~R(w4m?1D5f!O@g^vop<7a
z%|;S7F-JaA-wA-cT+UCNAN&s8mTCckP=Ny#F8RYhNbR8zNZ_ig``INIGO6uNWM>65
z5xnBleSe^DGO}!c?AW*$MuKK<`k+1^Xgwg&;VV+!yxSZGI@)3V00Y9G4r;&|zg1y5
zP{5QxveI%mq5p7Z0b8uZx{v1F=$g1PF{_pmsQE+=g1hg~9c{IUhO#6%we)lK#t-MZ
zsi5z@^$(cn4<w!(U32x2H{n~a#+`1o<K=z13!VD_a~N9`0;WaBf4Ii(pk>P(NFMS#
zFOQL+X$1f9VyU}}Jkex@Il{{NICpO`<E8sNaj}tsS?70lIAuJ_U}se6asJWwCG)Hz
z%YjIuJioLU8}?}|3&H7a(q9IG-WmtZYV43m9_X|4?%JI#34ZopZ|+gKfhh||^$Gg1
zTcW773gDIS@Vl-!*Jb)SMwxO5VOhPF+zEq_Nfix>s!n%k_v`h!oj+jZ{pjrXPxk>@
zlHjkH(wv?W!LgX8AU*-&;XDKdfYJZ*JfaTgxQt0DnFfRay#?sl&$D66qGsl3NC?%2
zJNsN3kz2f2VeyDNqGfC!L_x8*svXP-fes+(j}sxYN|hIHU%GH*D{pd5rux@)Oqt(*
zK*R<H+(*Iu7MK_wjF<)_2^T#mhO2to%;<C1{5=Pd$_K!Ia&UiTZ#-|mIT2uYwO%t~
zYHjE@Lhpr^Wx!0>iu4du>KTf9pmXjCw(vO(&rHg7{{*}(oY=V{hNV!Xtyq1WoVX%L
zv+tr7-Xzs*YTRc2w(!{l`_0`>)%4b<2h~fxDXjIh6-_BJNmfi{m?Xf4xAEhmQ5Sh(
zM@@>Hqs^4r!9Z{HU+;OLnmyk)eC|BvM5W)cHSf`RJzNz$JUrH`loxu!NOqno^-kp$
z)i|PP&C%VkqCozCB_O~RUi9mR(B#`{g;t3`$UwJDGe?ge0CW+tN&})1Ao-FL5pmzZ
zqDT;UMtlN^IVP+MA%IAQRWoS->}GVlkly>>UzKC)Q!R8X_#PYTFQ{kxU7YO$FiNz5
z4iU7pKqi*7`t^+rvI$3;JNze5)|lJ;0qN)%b@^y=rm4(0;}UH*sg?l{T15Vcy*7e&
z>;`$fsi;cl!mX(@HwXg)x!w=d!maeQzL2l9-&!&|-Cwo%8cWLq;wjRQc&pGZlM`c?
z-wEnmg}y}aUJrpzZ%|~>w9NSDJOiZKx_;?oT;U8f5r|fPlu6i%ixWL=kR@xwaCc*r
zRF#6=d_BMPgxAUlZlCkp6NO}RVV&f?n)`gm8=KSZ4@n-N!JG*?$Jtl*I^^pc1$p#|
z9f#fH?wQ+snmq8$7)a?K=o54wC&*PO>hs|pEjzxM_p63&>RH7wWFSu?KRlNxqw5=^
z&Z=ivx%=%AJ6KLZ{l(RfL&O5+ATDgzZvxn=+%>GPdT}_eO#n#1AARm><j0-^ewTyK
ze7h9C?L<774rr|fe{W5XI*?)^PjNP(MO9~1;a~PwF6OPzRXtTY<^XcTf{0*LvAYoE
z05-(1Av4f_YQlB&OtWS<yFEZpD&PF#lmTFHHUe`(K!jQG;?zYLP`BNFe50K^%hdQ9
ze>aZLc0$R?cpm_=&`oDC=l}OY8*qu30F$0zYOgs1_=H1bN{$Tq%>JlrF}OB#?GWi6
z{WBaQhQo}D)`&@juOyb?Ja8J>O7A*sQ(lJ?nrFn=q7G%&_Db@Su<nCwfG|h|?*3@5
z)@C*Kigoe8-y`Ub`(XWIrK@*ZxGeKIW@i-jWe1w7+>5i5S9YK=o$M0bNs1HN`>h|n
zac`<;u0EUCiRtLQ8oPU9)#J5bm->|S8Gq@L%jXZQ%mF_etZHLyqPqo+D%Fw}Eu?4>
zu=W3V%=j{`52vWO>E&D0!FS6D?a%;j%(BpBz!(dFMcp!!z-4Y+s_JxW<BF$>Z5M2w
zI>GDgo>s17w=z4RWx(!C?u1M|pfgo~JUWZbZ%`T#unf@K8W++k(t*|k4+4lpJ?x$=
zX7cd4|M-A<;3Aj2{`9$uc5pKON)Xx_(oIGSfb2AZD0B$=fVGXZPZigk$3Pa<0JCZq
z|M1UJ&^?KfghDlA_6Mc2yZ7YvgQ-ZEz}#2|KimRmI4NLUc!iZrl}gv~%Nw@056pT-
za(Bny($^SAThb%Ge37mOmSugx4S04dw0oAT+2IDaCOHizs}<wvUUBSf_opQ+^0=Q4
zt@$#M<1!%d;dA%}4>}u#(EsZarA+XFF}19Ta&qN3emF5_CPb5*rrQT{o;OtD-WZpN
zN`ucXP{h(Hfbu_p91hry1)$x&1zQTtUsg>Z1a*0<1>`P5HtrUnKZnRsj8XQ&pqy^;
z2BucJx)xIX(_ndq2J9_(f<)$~5zbH>qqeUq|5}L*6u)F$LowQituggL@#$|218s+&
zY5*Yv(0)Lf4HM++FE?SbHYeqwn}OvNlecoBPJhUwtiN;~2kU*l)W)~|=Re9VBo!Ys
zS67YxpoC2w?E@?5RV4La&yO7_Ke{M~EKAsI!6ffC&bvB5*E7O2Ih{T*SC>y*z^IVg
zI-Tb*-lvDueA3Vqc1Xes*%;@!r_)H@N@Gq^HRQVk%=fAA%Loc}4b!;76DSv-t94%;
z?*)d|W~d;%4%qt>F#bHORZsnQI(wsS6G%3Ng3w60%|bvb`J+75EDpe6P5>p3m1?&A
zAagC8;%o>AD}X_PVXTKnlEuFp1BnR`X|eZTY8VjZa3L~K&|ku7<N}^km<yhm-U@_;
z;B@o+;}^ivP$XveNF5E(97dMw-x=MATxH>%0eloh839h~uc+OVHu@)mK$1+$ZQjK<
zO-ag;)y%-k%$@)MKDAC>$tXP<U=Duo*m2QyOi5)+xFo!~Y=E}r56Jxy@=#Hh`+PF<
zxe&7VKFyoeNICgQa{7E7f1a!~tA$B2#*ocil9V>M@K|e^F^9OfM00j^deo}E9zUb)
z<k(>$0W7f_#M~lvnwu!y*yGbY9+SE>W)FyD_&KdNmpA|uYT(ncI4EwprL*t-S-RdC
z&t9D7*g?0&f43QO6W=my(HH2y&;+0g1F&!yt$t45!Nh<B3-?lPfe$x{=<)x33E85k
zb9h`lW%XfXo3hm}+zebbM8gcga#|{$ru9K=z#_r!>T|Tkh53Uhbj7CsumJrJ=_FSN
z0B}H2c7#A3*$s$Aoo&BA79a*T0}#lBBxsFc@l@}yYH%h3knJ6e;ax9B&1jxN^2u($
z<d{r2Fs#|G43(^Ryi?G0xsaw3^ZZ~0SNCMqfE0Lr6{S}xd9W=Ogj-GcHpp2Xr_x^Z
zK2KuD7SK651~yesf4?+lF)Kz*@J_C=uVNl4-(m}jLfAl-`z7h0zgI|MWH&!z=A5x?
z^x3|}7$xynr%Lfm^9P4*UTG{4-ePaiUb;`%q>TF(*qtwm<d*Pq4rP7jV5*$ld9(cz
za(TW=324-i|Ecya_r<7t1dn|GtdVH3I7p62JM=#5?y{|y7`0R`?GsJ=>~m03V$=Tp
zm7ABb1u%VH96Ri3`l2jA;%A)iuX^$Pdr|oDEx|C8@HIF<(1->wolgJnU9CYwU06Xu
z`#;%%HU^UPbxpHii>g|F9%CPnNJ35NbBq%&P5|U4i^yUF)Ds{&;J3icoCNjU6Szd7
zTCe=3)#`RfSv_eKOnmaelA-+^oD}h}-5+iA(=}Uox?FD2k#=GlVdIqVJPl{W{t7}F
z9|QCg9e?nY%~v_zOg^pTF`4a^Sgr5v{##soPs<MPmqaWzx<6-{--&XMt+C24;k<#=
z5%V<P-0;O)z!x7}l9dC~8r(2kK@P*D&lfG4A$q>O9&Z9Qy%oPq>fbdQip(5N&zJzv
zctQcRllY5!qM|tKBkYQdZ=w^vJZ_1QZzv_Zl{mCt8+)s?Hr}CYX11|{9gL8HW#1fb
z-a$iPtL*Tpck@%<-QCSC-k(gR?5%$}_Jclct(Z97b;iY9ghhc<qvNw_(Td{b#A;go
zTF=Pm+U<2<hU<0#ilTPXu_n_azk{Q!k4L)L<4#4@2cFd?0<ZAnYG<pIl8<mv3wMN@
zN$;i`>He?b0O>f9cuA**bTqffng7FOE@fI@^DbrZa<)I!zJ7FpGAMLt;rLqvB+F>t
z+LiJzJ+43~NmyMQ)*dNrq?>d(j7{Pgf8}7lAX?ACuJ6TfCKEAjgZVQ;qvWtjYL><0
z%ug7dkje0F-S1=02FQhpr^?d!r(xdfiq*9^;4E8KeqquWvgamH*uNx+cQ5l>QE!nQ
zqTf)m^w{(8``(kn0s->1M&P8CGA1C4Oeyx+8@g>e20YPLfiH32=Nv10ci#-pqpcLX
z^aho)#7!p9l?mY9EVZH?XnqT9jc0oYsl?cY?g#{Dbgsz9SRBt}M6e905TywN)9IS3
z)H>kwu4FB!)y+qm=UFuxF-?Qs;I^N=e7aS;<NwC%1|{~=m<0Y}i?6DjFP8@J^263`
zK)v8RF)LBByQl_6r;85ag)kqZ#a6<gR&HwCxD-QX*7X8SpYbE1-(uZ*<6_HG&Svy3
z!gHVf<R_U*2zPE8-Vo&d#PgB6TI^_2Jq|bQPwnsY%I`zyyf-jCqXG&iDNAwtqpwRI
z_&1vm)$v?iD<1te=IfQ%|IXA9{9!!HQuR;u{5Aggt?=u%_8W#&krP-v1U{$qah=4P
zh{P+{u6{564&!Q<rXGOOXfi{XZ|ZfD{t^Q>>u3JWGy$Y{fJ>*I=qQ89gI1!p)}yT2
z-h8}fwVKGPjYrk<z}1q;PecwFB^IT|pHvIFvXti#hlh99QdkrOdDWcPXSkg<C*7`^
zlK8!7_|o0pi1SYv2elEpG(%*Q-;rL*=rQ?e#UM(T{!}6wIdt<c@jq`kUl?fMIf{Ez
z;WYKPef!32O7;kFxv=mIzTaEknwVeqiPizu^s<DUxTGiOz3aFcW0+2v<wx)R)1b={
z*CiBd@#f&)x;(PLNFz7CkP{edAw1P)TdYfMTu5@L#O8!Mu)&D&jlv`Uu2{`xc%-ew
z<49>vWumtFs#E5eLuo}j`Ura!$UOibPPKSZ3Kel-?c<WgV*7$el68f|4(}1`LT1_>
z^W?Se%4XdWcL7|lAshav<x(Ag@V=B_m6l}a1;`P)jmom%Bc$yXW%#vI^|mp=M}=%#
zQ`H~I3<=Ff!y8@h+sU-3j)+#Pdfp2iai_Ioa;vZ9Dtxr977!IMK)Q8<inBBci>&$j
zlDoP9qXNdo!3N_cCMfRkuWL*ACRZ%$6G>E0?cngXVI@uH8=VM@=#7f&tf1CoxRW_)
zHZS~zoPJa|`2gbG`~FN~{_0z1W9Brd?5OEhGmWf2M{lb1Y#H$ySeq4Kt4H_bbDQXQ
ze#(j()iGkQbuZzhwDL$2ymvbhid85q-_DhOeUB5X!)S;?j55(1pQu1X77C3hY7A-0
z$G>C^(U8Q+WH;s~VL;f2F1A;bA*iAp`SobpUGgm2pJFE1^hx_^m^HStQq*uhAfp8~
ze&Keg*#gD+_vUR$Z>#HdX=yULF0j4jR<*pVc7&^#B_3RiOYr6IrM8>^8J!@9k-Qc$
z4MyMXnL9ykQ20mb_x@+BixnopQd?HMIt)nMTT~~J4^9`o410lb+`}<;_T-P{6bo}m
z-CI<HkrrQ>A7+xgVF&)nor!)<$AOTmDjR9jH_K6`HQaRe{G94njbC-WR2y96INM*S
z^PW%6Y9C5h2e<4baXgsqDf;zfH7TX=_7Vl$jW{}ku!tB|KXBmxWWgsZX(JzF+QF!q
z^it{$zfsTOzR-J;&1wRonv^NUd$lDTMEY6@9&y2pj{>#TGybEP{cBt!0`@LznOmM;
z*qEl{fUW@;fnS|uKmY?zdgaT+^|4kDLFu$v^3v{jOdBQ@fD8=cN0>r99xfP#0&M{K
zC&0g>iF$YYnGuahuoSMK>0V0IySp`v>e1c;HwYO_XiUUf(hr~A;M5uwi4^>OM2For
z1x0F%F0tqO4ISq`oK4+VS*hT}!Yy60pRY4(Cy3L@H_gH$QrA<9q%m|9<edMu`s9P^
zr#||)gW|anXG=lS{Y?eMIDU2|2Q)iEZ(vhgJ2PVo5B&DsgEoSsr(kdvcTrPTnlkTs
zLVcFt;}Csoo{vP~v&d8B*|mv;q;|#}HD!G~7_X=5qfCj=3A=~J7dsJ3HW$@Db)?cK
z_BTP?Xw2S-`F;NfTvH&$1BUv(CJxutkH}}%A$x)PwE*o%=mzD6LYiX62cwwo{UxO3
z$e)k*dxb52!_ZMD^Sn0Q?Z+dB)8;Baa@P2x@p{5Sj`^xfxWkei$G=<1Rlbd(<cub;
zH6Emr$N^2|1QqK?a_f6$xH1LDi6Ga@x@eGb)ME5C{_w^^aRZ=<tlx~5hhmrjE^kQ6
z%Yb|Y>$Z*O{9^V`7=W)7(D6nJj*mQkg#jBd{dYstpkR`;Fe5*|u1&oEKDAb%f*Q<m
z0nDvvu_zeun>Vp#u|c@p4vW+YN*h@x!R=yUx~{97x!p(<Kg3d{)<yq=1*4b^D<O%T
z;qC$sKehK%5(nFdGNPEC(kSgTIachR!y655;jOc}OZOZVhc_6%11FnYy+3-78}wyH
z1tLlOCkwX2*@Ee$0MKTrTT#`s3eq-y+U?fYcy_*M(+Zyn!XYa)(i0u&8O@EYC2xHF
zf&Dh{h>tw+O;?(dd?I%te1DJUXs;~s@drI_#RTr^Vk!c}=2IVf(YHp}2-mjRlyaHy
z9ufaZ8OWXwA9EF0Klb_>sGptl>CjNsd+ukKzv@&*3|YP=<cxlYmv%oce>}JO!(h6c
zIX5#kNOt2DQ3Y;8$e&vW)Mt0Is{p|MgN*9WW<E!Z>+0Agp-7s5c@f^u^Ic?aF(JJi
z&T9IGKxvG%I5c|HmM)BFX^%J)Hh)Kv0W)<)F%vvcsKvzfHq<e5P)Ir!n5|;&eys_9
zxR}?wM3PQaurw!_`O;=`Hv}EeZmL(KTA1*o4|~%mvISKpdR$aRnr}=QInNwM<M({K
zpMC%bwbd5BE80GdARwTlmB2bt?)auKXNoK|C(t}|KRUlvnmM`Pw#D)o1G%910jK}|
z^@>4(CJ4ic<QM}fTI$1|VVm2czhOW=@jo9XWfZ~l;NW1e{0`Z@^O{`XL>&(m4aTuh
z77E--uMhhXCeroxeP5cus*9QI7nU+F!iLPN%C)JpHuGN&dCOmv_tV4FYswSUT5ZZj
zwJ$&M%6ypEOZyd(#A$e6XKg5}COJffB}fNjp*~h14A*s%R2kOxWYJ~*DIlvn1<O;O
zk2`{pyJ-a|#D?>1r^X3ep{^Tt-Ad^v&hB}#ci$=meZVBrZ<O6*^gY6Xc7h<OPt^js
zvBYCDD|_YLUFlk}Jk17x+=qsajZ#Hbp5I?Q(MBY@XDzB4Rq9}i_0k%MKJOaiu;|th
z(SJLp2m+aqxWyV5JPIN>ErWXI`}^pnUb}8#dr?t4^YzRxYpA$VEp{9mz|=q`?#ZyL
z_Ogl$OWW^}a_TY^;xa)fnz}W`H2N$OyhnrZQujr-3_7hKkRqy4^Bs&hDu&cH=wIZN
z3-`+B{}w2ITw#vM)R}nj7ddCugTOqsEx<7p-01Q;S%-f*(zSm=Zinanbe1-5{td1A
zerMh?bBwWP1}_mH()xko`v<S(;H0N*iSIlUWkC|-ggwwlG&}?M1b4YGK$!dd?k}$0
zaqd_5E<}9%UTWj*5c9utP)L3@y0iFu*eOWjOa+0f=+g7A8$*a=dLA^uK_til#d5**
z3zANQ08SKb?@_bSnG0qMkYPj){Ya)LZ&!4|F*_nLm9iTIyLd36(i_|-H^m3r6{N(I
z#)ecoG0Mm{3%t&`+O7D^4l5^(e8&Q%aI-dTe7YHs*f7XN^btCz(XLn`NOI|0qG{K=
zQ}ML|r#raiZ?FO}jmHcql!JK#CWU>A#18S2N#`Z}vm+o!i#R8VQ{PmF4s=%GikXsl
ztmV-(6hR8TEPfRw+o^}USvT3qrD78VY(@Hb#!s?L`xN_m%`^LL$_bd2Gn8Ica{~AT
zD+ym#W7D#DLLe@^YhNKs#ob-NeoZj=nHu|Svz;xA8ShHp$9}3MBi3{odrQ)FmbZ`g
zTMp_=pe(3*F`oO}ziUG-1(EvGE!Lb7cC?@!_^>!6lj|{wKH~SVY@mec$Z;x%$-O+`
zWG5@?tl1rR>uKie6h%NWU+s%BW?jIfO^zgDPAuk^jn|wRiv^KVRnuc3;_4ZC4w2?v
zQTBY8gVb?v&<S?wVJFQi@}o-{jnV-bCvQ>wM3I6o1zOkoxTggnLXGENWUX+JxAE<o
z{KhpY{j|LXSTvsWyW-&gBQ5T-qrS*GAU5W<`40<N#W-tt+e~pc_H51I-xVMwgOVKv
zDJmDdX~MtV4o&L}r9c%FcMeA9?y_And;JZoj&wy)E#_kb_aLStdb$-pQKRrq_*UQS
z3xkXX*7b-SS6=Bw76}q1L-LcQWPsnyCoJufZsy}Uv`fDW3#elCt>gfFOk|79NB04j
zq_3={-+Mn)TJvJRyciluOVzUiK-Jg>c8P-_MSVTx4?U?`$}>@f9~J08K%r*i`|0A_
zS_sk1g&eX@XVVAxR2K~gW!C*?;)}!>6-sDi9U%B=wRBvR@6H?Pgb1vfo+?rqLL>p%
z^rcK>d@0E7Suk2&?!m4%PXZ7(h-OOo<X<hmQJT76nL6IJ8}{5~2QvdV1yH=`N6=XJ
zvP-0&twmvl$`~78w)p?K>{HU&_(|CGyv!GUm{e@X{j%ic2VefC5tz}@L;i0*DWcVX
zLqM0NaCfr#X@4&9jqI%<Mt%6Q#D@&rp{$>wHbO(do0QQRX8{>`k>K#V1nK!~Tad$G
z)N=me${d%#3o!8&rPLUlHBTzn6WMY?@q;HZaJry?@nf=;9Zhoyy0tED1sXLB<nxrX
zKOMt6ucUPG))iqOkf&vGPol%ouW=o5?wmPnt#a;w$cPr0w4sx_26X~v;f)uRLDKxS
zcxdF;x*b_T7@~-_j#cjl=iGUxG8z0(4%ZAmS9D*B5<YhPF+lh;Ss9h~4V^kdr_sI)
z<e<)sfKXy4TstL9dogQ}w4YHVWH<U%`CP)m1D_Jo(dfbF=7#nQ0Q?hD{Vp!<_d^Dk
zL_6c=T1lSzuU|sZGs{ctoz@r%4Wj6?4;*2Dz%z~tHu*^$jtSf%RKZEyh2CZMskKHP
zrPHrI%scHKU$`81QyQM?1}Bw0mt^DgO~Oq$8m$jke-{!~dZ$0nGi#&T^Bu?uyr;Aj
zR)_gpnm@;?!bx=38O<}>m9G=5EiANZ@0#8AZZax~{ghIl`$;drUb5pr=w-c}qgBej
z#hVXzX2Y{NYMe68riB=`!zd;Hn%-;ho@jLc2?mSrWnD+_XS(n5d>FG-UPoZ<7_~%w
z<&kQfw0tbD_-q$`V%bHPceWmrAvnEIpgHo?2lV9>Q;kDUpFia)S-C9!12av|5n%Dz
zKY2w%Qyi9DZtQLJ#6EgiKglsUVyS%KnE{XY`*X2h%odx5Mb4J%iYf!cQ+Njq$Z)_?
zq^|n%oa)@D>zKOp<N^yavT1z;JHZWHq&qP@8rgV(wIi<@e2{~tr93ELL*V4r+)!Z#
zp1hMJ%JEGD>%RJC#(<UOS^O!{D+mgL^l0$I!*^@|p<slx?ep7!6cl!F&A*Wa6&>H{
zfcl;b{Q1YAv=10{cLM^*^Dye1g9G@QZwq1NuRN4$DM8mh)7~@_FF`MJVy^4U+E$>s
zN8t3Es^U0PW3hH-YQt4pKf3Cu64Q(SU2&>hr1QAfX@oG<;PL?po)v!V@wg5UE^Xm^
zI;a&eK1!Rb*Z|bl>zqV;CXd@WlX)4ewVNAVJQxmx6e7i*d%aJ1vZ}xs4)t-6i8gxC
z$z$ou)O!$*1dF{u;jM<E`-M<1Nt62h-NPS&)2@j*5{;Uca|MJKC4jIwp<?{$;2HX#
z3(@0Mz_Nrw6P0Flvc;ai5({^uwPd>}#?Sf4ZD^s~%@Pvy1F>RTz|sRnqJeZ%E_+N{
zu|a?g+w7}&Owv5o5W(>!1!=u(*t!g0V8$6p`AZF2yg|<|((xXfz3hgR_IX{&HL&v3
zi7>ak7rOXA+duh!0UZNy#CDwa8^zmXuN8VgUbyS6+f=rDRIOieIm@r5>0YyH+Rj~!
zKO16mu$1d)(D=SE=-8!ShudA?>E($tA)S7J&Nj%HtZ5`B+=_swGqvtWspOb-J(ERg
zd9d36N42&}EWvUU88|aQ>{4Qve?+~gBTJ_w%#=68+#t(%m0{W~QiAUk)=(Z@`2`52
znHpV()g^88-Bpqc0cp%1<rv3FvTgb}hxbB6|I3C5Dd~ZeNAp6_%WC>(e<C@6!(+;o
zZ#Q6OrBh*^P@=9J-&AGJZz12bcC`D?!D~1cG6zBw-zPzR0}rZILt3IbAg|t--HAC!
zA|>^k-sHS!*iXQ^kM1pwAH&iCF>2PAuMH9s`mx{z9JH<+FYl_;T&j1R{JPijmuUP}
z`D9GTS`Ub(OBV6|=&ajgocHc_frf_m(d<@r%@GS1)*wyD+0Iwp+tV;vIS_N1pyO<C
zK$q)bvWodD-4v&~q;#bntbAS_bFBe)^!VaCH?@A<g|Pajg`aHmul<=Gb)ScuJz)W%
zSs*v?%hRNHG#T6bpB~jWHYwGYv2$0i#_7eVM+=7d?otUHRyyyykCwt=toBWyyd;5a
z-0{@g!}D#6e}|``keEJOUc@GD$%6b*$t?RuV(L()M4Wx!Wh@b4l1*XiNWN8ioZcs3
z8T__MK?T^y5i%&!fZg@vbfl{st=Nd>pQ1Z&>zx1@@YHunE@MEQ2?WgKna8aBS%168
zp0?y$_M?#csqYV;ZXHx<m7D?f%U;q8uUHO!?<ejUXtYYacNi4jeuKy$(8xwZfQb~%
zsD$xj*hjWgOd;r;F@yFpFzccl2qJCW<Fm^A^Y(AzXLd%P;Z^ad3gz3+>sEqSBjo_i
zz0ujI(6!yWOrR6ALj-X7ixofELK>n-xM2N)=ja(jz>wnqaj1dxQ4wWvIFj}Fh?f{^
zJTm0p=6@GA@Yx6}#~4D9Myf6hWeFZ)i!ltpk#q&aN`N(%-iy5D1I>%{(1DM^6|Mvr
zjL81rbR1#cu!$F^)O3J66sFjMHE;2F76D+?O1tDgn|)ZOpXM0%A2v}%B^bQN3Qf@Q
z4gB%*Th`67A{{T1G>Vzys7I6b?qbSP&qCO_sxQ*T-SpC;%J^#5&YgCdJ-*z?0^5SL
zPLpnQ1S*;R*DvAkTlit9lLL<g)xL8zz7>u8;KLqVG6+yQv@hh#!W27zJpZHjP1{kC
zg@mUnK2TQT+U6A_inS%uB>`X!_6D0g#iMXczshQm-=ivW$Bq#o!PZ4gz}kOeT1C(E
zz6=^h2LMe1Kg_FDc{>|UgFKT};Eg9j&O^ehJW-{v(T*3~k_5s;f7l)I2;nW-KVHxf
z0|QO3cblifUq_3jBv%V4-L>c!%IWqWW2M7IkZRDVHKq5$s(`{$sNzCRXX8Qq;h`NT
zL8^A)$^n>e-io-ADYG*v0&2|prBBRpQa_bqt3AZ7hS5gm+}fqYYbWEUi9zP$_RZ0w
zl&CY-$<ugOwR4vMr3H9WTGbh+cqCN}yIi+-G>fCG7x7y!Zkz82q05n9(FCvdd?0UZ
z{5j9dW12bH58w*0Wd2`_H-kwQ3I`H+tx2f`qBx^DVCAE_Bess)2_Qs0ycxcG8b0*s
zg-1cw`xB*5@w3NEz4Rc8T5TyRjrI#`qCS<h8XQkwtNo7WnT_bDxK5ne5nk;*vA5kc
zyTcKVG(ixJ(Ba+>e}jWJE=TXoxk+W!z(O(}REr)6Do-nU@^n*G-_7?EshG**(QwX8
zCl!N``h{B{6Y~w|6g<c5YovwQW+D5at=)bL9x@zA8d9q-6FlyG=gV2#n_@-~-q`ty
zS{t&^pG1PG-9^q7M^n|>Cb#=SQXqreW;)b-ee45A7_tm_R*R&S8&~hHn6jfSbMZS8
z5f|u8eP0EGz+WXzbAYJ2*Xtdm%)5q(`R<R6b@!?j``QP7>(>c8To$i(-?N0&7ch@*
zk*_Or*55XL88U8xgkHkNk5#xugVdgaA;;48O||4rg#$dwFe6%I|KS(b8xL|+ptNsZ
ztHF4nH<ZiK^s)LxE?^f6G4jD`a244Wyzp~Oz6nYDntl(hc~dQYjs9dS5zYrMxR+hM
z+hw!#>LI`383U<dV+0Xr$=?pb*3KFHSj$~bSUT>%-au9$5SZ<G`eJc6F3^iY3;U}d
zu$6bfkb3$aJ)9Fk)2eo3-zGq+BPGCZ9&<@W$XgSrGl6SU-GRhWRTOU)cga|}AT?1*
zxxu#n#hgshg;?i0<4pcGX<R@H0R|S<+hzCPbUgB|T{3A*GHJ8GiV?eQ=8JKS?8u$L
zbJyNPxooZVGp6!yAO#D8%%PlCFi@33av~(@)?$YI)0H`Qo`y*rXvcz6FrnXk@glWC
zd>Qzze+9hI;oQ3<;;~+%=4sYk%s5l^<;SYQ3?TDEWo$zGe%gmmaT`&lpMOsu8V#F7
zX9=NZJIO#1Cjb&&nve;-XK(v3j`sZ*5iO;s32M3a?4!<e2Ynp5IGo@cmU)T|I>2~9
z%j2<cu`V=Gh|fQ$fs)LZJ4YS8Qh|THjPe_~i&TYz$WO{1IjFNAwd{12t(v`7^MKL=
zq@>AUHR`Jk%$SAug0{r8PxK)i1P9Ccrs+hCQ&hiB;>v{Vvn5D}^^PxH#^l&V8wc1L
zp-oq{4)Ho$qJGj)x?my45Dw-ED=J3Po)j=xncoMBUH^<c)wR%_WFYNM0DkO`0JC+q
zhp<vxAq$5BO{B|RktiR~`c#2G%X;lP-k_sA9VEC_{HU9S-D#ta{N{wofINnFnx7ii
zDU@&T=wm2Rj_+ydy0x^JRQt(ir7SED`u)QK0c$%=O4gSe2&`L%f>}gFIbL7YoK{j;
zo#{Jt48C+sga?=rau&$jGRi5d)k9e?NeaI(6?9*IofBe~UytVOZQP@BuE8_zmu!^C
zIE{49jc(f0K<{>`cHH*qO&NMPL5u3ofa0tKut4E-GFi@y<_m*@FbM`+EFPcV?E=9p
zPegl+_&%m;EJI-dm2Zj@s`k*RM)Io2S%V9X-h$QVLxsxHr%Ppjd%&_s&mrct(`;7m
zcM7PyZDMcaJS)xAW#5oNiN3*;(XsD0<rQoH9=-wDs}B#<i_tQ>XOuP=e3Ndy;TC05
z95nNCJLuGNLs!nzDSlkfE;jm9nN=4{h*KcwSsBRp^FVWZP?!`OSorc$^-(oEn|0vZ
zTNW=mYu@s>!AE2@BI6*pb19b%pfe*LF3jMl-|*@x8)w^)j(@q$+%UAsN`328c9|(0
zyOQI>K&lGa@5^tN9WrON<U%``Tk|o!o3i%LOXh11b5*5Kj^9Y}Syq)M*J*%wt;uIK
z{lWSxm(-XGykJ!@UlDE7sUyTBGZFQ+x47_;C)M(pht2u<wCgF@kMkFHBF$ABb$*U+
z)Ep)_XlMa>L2lI&Hs*<F;8i5|=R9z;P!^5C{=))-cBU^Sj2#E@=)|jA067j2#`VY8
zR-7=>MW3q-W=T30x*z{CghbKoJF1xJi&_V5R%fq^F>LjSAny*O41gfoUcb+w-F3Ph
z#4qozvnGsMXe;^IXD~q=^ny&S<3PXy7eV#$=K>(o)?qH#^0|Kig0t(_48%_tw|0_S
zzc}5SG`T%3Tiw{=GC9~szMjnLd$KB;76)L+a5b3xa|#a|vG7-AP3C{B4daU`4?ylW
z#zz{e0>JyPN~2(dh6IWSF2Y--p!M4CIvWmZrg_Mt6=rg?oehYdEK0tU<DE=ZcmrY0
zhmQVVBbH|JKdYZXeP(Bckt{i_*uzAo&r<!``DXZDmHYbp9vwU|Dk!0O>hZzlwokpa
z1-r>ME_T8<>IofyEI+V2x@^r0s?O=3js*#T&}sof87*FqB+_nMAPY=+9CqBG2xyft
zi!DOB`pdqSc>I=_INFxT_~TT~3Qf!i{HKrT16{GX*R<C<jz3H;-;Z!AUFmm#Il9tc
zl5omQMiJO8rR262=GzFG%&Jppr^kS?iRaaiEdd<%Z~!XuU2Ht*(PC+!OYDnhcFi9@
zlMHbMdXyTr^aX3M@*S%9)*gP01Am2Jt-%!MgoGzxt3%|;xOHxb_n=kCWfR`jXLv5V
z$L@`>SY><Y(N>c^llq{5XwuUCCyubu8;M6RzpjIfnvQ1bjb3Q|hc8sW5?fpU_$=^d
zIpoV=-3Zw8(jZDT`e_voh}DTm-1M*-{(EVAha?La;AE7%m|+5XiHg7A3JTpE?x~;!
zHcxo)?5`B*_=VGisdD&mzjB;8yvo$@rXkhB`hUscV0j3_!%u=yS0c82t+*y!`BmSi
z7Ix}nfp%99A8GavumasL_-QqSO%)Ir70#$`vmprXi)n0E&IE1KWo#4b^R<iWgOQOv
zO)7c(;-z1Nm4N5lilV1n*;KN+$+Oz}-S=ReGDP}!f*9;j&mNX23Fy->I2ez=zQwaT
zu<SH5wO=u<opq0nGyFY;R?QQV+qW6+8Y?mi{c?==fAZMkAw44gRoq{sBD>ew?fRMS
zBW|-4#}yM%HP6`K+Rt#s^w|mxO86I|^_+xB{_5x^l7*u(+`FAFKfV}=PraV>(#N+2
zIcc?}^KVPZaNa)oV?ZcuG9biByHN=8$iX_85ei{NaG{fS`p)dNKibi&HY{T=DPP#M
zSma7|JN^FivBKInS2jSWU>nmk>)ydUIe^EIg^U0u^6s<x<6l3!8Zil(;@`dd;d&_n
zGDW`ZfO=6c#(RVb#K@f*o=fd$aqJbiT6j7%j|*p_jmGHyOgX(EfLtU%c?kV5FSTRj
zG3;5~y3uw3cqvU2lA`|>0)U>@3SzOR2n&6@|F(&ZV81@SwT>-n{Qo_de@{mro-HdW
z-?TN{t*?d@F0lC#Jjp5O$4>1F;*0o;S<n{P^F8amK{{=qeC_`u>nwnx?*4EuNFyOB
zAt_P<(j5}g-QC?vBQ1hbA_CIV-LT}63ewUgu!wYb!#%67@B6>^&M-SL>bUGVzjMCz
zd>*yqh5KF@o4_2TZHYiq*HVOm9zBlkV1nzaC<Az~Z?52{zn9aVj^TJdtO<Aq*ESx5
z%5-43M}+(bplEYJd_W~e!B$iWm#mM5DP~(_QpuRHx>1=MOE=5ORyLL6EqrDhi6aQ`
z*EjPrI4tE1MT)G0gO9SB!AQIGF`ciY9}u-4>lwFfeA_^f2jH9>yERWb<ES2g@T(cn
z2cBAte?QHGCTIn#`?}kD#sosQMWIx9ZqDKk|7w<TZIQP8PCHnoTRss0zVPQ>k$*lG
zst$CQ-(!#PFbj^zRBGl^E3uL-oQ1~Lq<>ePCc>L91G~5+e2hv<9yF34d{tJBnuY57
zC_md1u%>&D@!FjX3`_eG)$1R&&l()6IzFlFte)v=X#MSW0t`TtKs`&B$0K%GWn6Hq
zvSw5UOzOf4+EbEwyP&?OWo0SAS8L-yRT!UH>&YBm6i{FLC%tW!eaPq1##O(sXIX?B
zgc8nNLQ$cSE5m{qgBV7Gu!;_YqVL*ivF!OjuVBg^09q(jtoEst@zsJ#?Eg{))v&;E
z%1aY>tt^iz=zRu_mkBhRf0XwB%>(?NemWBl0tU~UD`$F{TaB;kNkof&%OV_h7DgiE
z-9i!G_vkkUj;(1-zR0`e-Kng(96=lMr6t9R1!#CZ?7QvOBV)2GeKwDR!f9adRIqT4
z$N+BV#EGN$WsASzt~-asn|pSuHQ_+XU8=tdM%diEtxC|_4u1fJlw#=3V+~HFilVzQ
zid~KU;8Ftqz|y;_7<sP(gi0vHmM)QkccoVW)*cm!5BYZ{vx4L@5EHp;05}VW_%VHd
zhTVU!U-;v;{onbw3VJ;a5!x6xN=Gv#=mJd@4bK~}kqhQC_om)z8j8H<cpf{JMi#`D
zS1^@T)U28Pdi|-8_th8}gg5Q^6#8O$%d*cj`JQ8$L#Dm13@tiPg@=z)si`}2&^kIN
zKhM+yT7hlNs1GN=5oTk;9q=OnqRSq!J7zN!W>*UE=mkA8F{SVo<E@nuW+hKW>Y%+7
zV~4glZr<RG)|O2gT<IyjKpW})PreS`JemRE9cGS=gLZDQY<V{T(L7`nd=w-@-}bj?
z_<N<`3n%uG)@5f+_Z-sAwXT*^dar0k9*mJ$H*|pvdwnbEz-oB;E@K>D?tIE*ntk0}
z+lz#kUni=8o4EM=bwzWTkb53i<10yvEp!UehnGnN<%Uc&d9d{dpp@i+E>>Yxz6T_=
zjah4~8cjaOMbW676G%YJV4?f|ku09PuOyj-xVVCZRxU3$K0c{T8zuUbZ@EBY!ugT_
zqPvoo(Rc;XyK%9g-@^%4Z|=~GBN_qTs>(@=^Yo=ZtW*{N4Ou>Hh5Zv|{1eksy}J*4
zA=9P+TZ`_rqGb`Gzw>PPj40c3^_^p{&R#G#Fw{%ES<U&)5AdP6<XNkG-~axau$B+@
zGspJB`pT=#4HiQY6;9mZ@y%hKd0T@C$ZODVm>Rhs&tP!QGN*#P;H!RdEu>)-Q2u^!
z@E*G4<DhJm{ZeQH7{?#iu-JW5ty+*E;BKcrTj0>96|Yxr2d3M@d;5-OW+GRkW-43J
z#>dWWmWqIW<!d_^`WXv?mxe?|@@J@hlBS`y!%A2=jaK?sgLO`o%^7{(DO#kBMn30%
zQa37uOP~RYcmgbS2t(~YxBZ#N$K^-jWBR|AmhTx16g6I4ChO*Kmz~R;@9vT4<B;9f
z4JJIN0dr({%t}ul-Q|FHV0d?1CwJWHw+qXvGOVez?5FD9-qYb%fScNdGCglr!3wUK
z7sdJjob384qKx4KH+0*@!}gexqN0j?!j$*xUo5{XTm8tWzHuPZbEccG=Q<9UIoA#z
zH~bHmyt4;6z&O7hhnl%GjxLS68Q8rtZH$PT+g@Tv<Gy4+pOoq-rg+$OsFr+y9$&r-
zAn5E~{^vXqYrF5_7FBl&ZCjTTP>mJmrl+dJ_`iP1KY#IzGpInM?g4wLv$0V9rC7_2
zSN+w+026$+@`}qY2wQ6Br?>mLSYJ+W!RZSm<riT$Lbx`4E_@4PNu%MeY1m|54NoPa
zBR?=Y6UnBIh(gK^4-Tdb38-AgI^yUl%6zN1mWZN<RSSr~Ks=ea!}U3E71B>f2VRqu
zA~jEBQnc8LASJ)dv*WudeY1!ul|$#ixl=ED2MAXp2g*gDPF&tBl%TbGxH<%PI7A;Y
z+T^<<*l|(XVhlSZq|iomkyZ8SH6Z`zSMw65YPJ__A@&++<#a6FJrWrG;Qr6f1{W^X
z1ujhPpX&xrpLn2xarRRkaSHJeY8C&aJ5a~5=M$ynC{Alqul$(rtOe#H2~c}p9uJ;&
zQ=jJu2!ZFD;A5MjH92l0ac47X4*y03SG3DZPksSeW%lMsno*r_X0oWmLrm(>QB3q!
z8hh~fCGilLgBbk-&cSuIt4AV>M&qvIJFgCN4b7;I^|9gO`}^jj?nv6zLuNO>&z~ar
z9?#XP7p$=ILk>9*Jbvr#{^>ve-nBQ%;0cwu5$$0R=+raZkpG&XnPy~IJ7g#SlOSl9
zj(K+$+0A~wdWWsS|0a2mNQY!F0qh-JL}`}h!fE@>-n$mr(%joTpH41LJud-HTPWGg
zi((vvs;o^O+aEwO!)yv%`JAG_XumMPlUM3H(l!kPt%QR5w+zwNFHvNZ7N@8Zpj&%w
zN}3AVFoBrB=&mTUfq7D5%-SX9j->Aig%U6DQ873#Tb#c)1z@UF8~0)Fz+zmz6_b$(
z=ff*BExW&{h_$5h*QMmo;|N}HHPKui!hc&_DRkieC1Hm$8RsvGL+FcBIhHH&SqmcT
z%}w^*^@amk@ldpK)i^Hd_pCACSWIM-Lay&&V7!178jlMCh08qvlLg5>eR<185zvB5
z0ZuQQvHy8)s)*lAZo>?I<FmFC;G`)Z&!m|H(8MF<#-el@<wl0nOoK_!qA5jL9}2j=
z2Nsud0GILz2*7)V*iQkxNpLh&-5o~g1S%mft{a^pJ=F&VKsU~vztSZK-na-2E^<@t
zMf$FMjGZcOrnG!Vr!Cq<i2(X;J4BQ0Kce+jNFXN-w{Nh!aY>*!x3P+42KdLS$#;nV
zpY_J|MjB~JHWKLHdR!|oStt0`%DDD}*V~`7EI2vA3f|S9fd2G(j9ri$8vi6feh}tk
zI~#$Ot7T#FyEuZ>l;eTq;{)K3^ns7UvOO5N3P9(-GWP)h7Betr^z_#8;!WYSj@Bqp
zc?K6H2zu_+9J?N^slsU^aI-@odM8d1Zhj3|l3C@zUAV_O!|yR16XsrNGfWewXkQQR
zC*S}i4c9+{{1~6bvmgH@n_5nIiGH2ZY(EFqvsr+kL9*x73dAh~!N&oRILQOe_cG8#
zRHv3#rm@Gg0OA%Sz>ndQrvPHoMv;!UM#xhY?H*+gEpcMeB+`6<XT`;aLkE)VzGo++
zzg5OMp-}70CKW0^cXRPj`bS$8D@nzKvsog86?`2269`r%V^{e8_rdw|y&j@M9BBN)
z3`;?=3qFztcf>Um#qtSYXps9gK8+|mTCgkKNcW2|-Z(0)p8szxAkq4_Wp*l^3p~;o
z2Yyd*iLjUfx5YPHMwQQjZHHPwte*>L*&`4~{q_(iv?2^*)+az)=jt;B+DARWtg8sE
zt;2o{s1t#Cogbjfy(neCOz(UiLs1&uLRF#8^uP#i+&XnKVgj+GR_i3CE~qBiegx<J
z0m}=BIul}y6K+jBgQ_@Hs_)TSY$+>}+ujbuZCxz|%RJzqhyDdHwMrRKMWmQ=F#td$
zdLa9X1^88FGhT9Dui%jSJz)J}Mo?rqn5z3?Wz0C_VN~bu5jB@Lf$`tnz}p|>vV6#P
zKTw*RGJL$5OVC5&uW}8BfnY6Zx5mcD_dxYEGR8Q~J#N&0a-N{S0pIVurdcsCU|`oV
zEBzSN**vXvlX^SfJ=RB<RK8s5Zf-y7ve4!jj=nW;c=oyFk|8}gS3xNue+*_n*TSlQ
zeFR5Dvtk?ZBzgFUnnMtg=dnbT(o(;=07xT3XA4}EwnO4Ah@8@6*z&!sd=gG8J_iIg
zbK2*TxM<(WweGP91>7`O4XlF5N#f<;H6_4^nOqL;*%ga(d*K%wG*kh%yum72fY-19
z`>)D#*QijZGRyMe(;ML2fV>q+2wTUREhXIs7Y=W-gLi2+x0iR5%VMya2UzhSDy(}_
z1aZJ6s4M!Rec!A++-vZD?z2d%EmUvt*@l;b+7Y6&{fs}=`_YwaM)>GiKr;3!Adtam
z5SS~IBMd7V!vKP9CRPUv2P#Y+Jn(N)_)6i<q`fs{2jV$!x_ktLb+1`x|BNI2bEW@{
zIwb{ygy;@sr(>ADF*k6WTe13ow+9xv%fQZ7cB9|+%7iBs5rn3n@t$IIP%(5Wu7l%?
zNnct#=eQk}60JFw+v$f+MJ+AlV+l~&_ooZ%r`|6u1$B!1AD^xLx<?;g4rA=+<8{;z
zZw10l+Nl*ad+A1Sbp8fR0;WHJWnewl=L4RNz|ML&p)Rp)YAO$Z{!2+$VB0<YL~K$n
z88}K17~xcHVdxk0*p7UuIeskEyFCxphnZp_wgE}l=8Q9Nr%0T%itOO=D(ckA1*%&@
zw2?1^t+&^^0oYPLpOk^aATq_&mYXT3gd6Jp>;c?lnM78@wc>y)RQ20W=+@vgfMFqa
zZHrbe=kQ)wQkLBZ6ab=E(iL{0Ve_EPqa{@nD+a@dVZg6{sy1|36TZ-^C7*}$YA&TX
z*wB?Q?V;Ia_U1Y2%RiL!KgE421a0&Rk^kbPdT|)MISqJR@Q4VnX=GxwQTw)u#y-FN
zV+8%6?+oE=oET6t<I%AgHS2WX$3Oc%0j?0ZF~?8E{`oJJ$d=$fRrm@J@Ud_b8jk1{
zRqORh3LKw!KcSG2njxe@Zh&kFTs=vWx}awCo8ko)EC&$9NB)5ondmDy`ub*ZIHm!#
z0uv2K<yjcn>4N`dsR<U*R{{JDk~++<TKT}R4({E+0CJ$HVu$iV3t)^kXQMMhkSiB2
zXB}eW43L!v0D82s)paj=z09yF(uyu%xtGv(I4kr6Pm78CXfQG+2IPdRifiI{QV7a^
zz8UMy&erll%nRv^0y{?KOZ*bR--c+>{#@jx2-c4u{)3K(U(@_ZRFArkNz7{ZtW=u4
zT-$4nXcj3$?PBkwNqqQs{Q2MO{m(ame6wTFN(-h%KN#)0B>*8sUmm5u`cF<&C8=*S
zC)X!+_X@@&5~2(rN!T65*K%t0j?ydBS~$?7n$`ktA#dEA;p1l4hFPL*DmVLyk|eRU
z*Uda_OIko8Ui(;ziwDrpbZhP6n{RI})v_efziyHssoY*2#+2;<>tT0qZb0!Tkyj;p
z?Fg=ZwPHrsksR4v0F;v>Wt&Qehut!b<WvfmK+_ygb~+e72NJJGK&&?&H45-%bFWm+
zKp-2p9mP8@7He4#9I*$nGZ)r|v)y^Zd#R>4eT*dx4Zl_>0818y^f4+G{gzh^ZL}1S
zs~^qY)iex39$TN<mJD^&^=tetJ@jW5@Id+Yq>j;51YA!PcrGiZ#bFW^4G$5$0v(l0
z-Ymg+KkX8(f&;dH2+4a75l$2kc@XO#OMFJ5ZWvgj3cAEN@edKSS*fML7;k>_;o<*N
zUHD_c9lp0nKZIzE?{#z4u%*+YsimMp1Mq0a$1Vt?x6>i{%Mp6lzjlrLDS`pe%dsIE
zjC(PY*Rjq&QKl5FELnQD|0UhLaidS1s0YYK-iMu1Y;5(v2c4{Xzu60D@VWRFFcRCF
zKpwIHWER|C)Jzf$q*Ph}G@1$=`#|aF_wAQ6PF$l8><y~?Y`}!CotBvwE^up%`k-YD
z)7;)Ot!_i3;RRsyPKhMf6y@42;4V!B*sN}A@8L#qpc-Xfd`$ioM509Dkc#cXY@Znp
zhp3_f+Nfi5`C&k-=!Ki0DJ;fgdw(njc9<A;BLrkpK~o|c`sm$QOD32a4gp0hpejVr
z!Mk(@$QSrt6U^Y^hBScYlNT7UNhaR&-h%~obv%Nf0+QT_1~GC}e0(~9sGx$1^A)7r
z?=AkG6?ow$i1jEEIVhFM)e_QqGFUHjRImsh{7E>j!tPlAMPC02I)+o*ih4x*z!=B3
zB1X}^Pmeo)fi!bCHT)aULiO&Ug!}?$O~R8AOL^z2g=RO2H<M%qE~&G(`nn>fZwsS~
z!K{>dQgU0$>=pGw$`;rAz<i|W9ll?-#7ebnKsMf=CaBHh^n(E&u>#04n#0$3gz5*l
zk4S{w{eTPHi`yGN{aaj)XEs)xuOGJnh(!;;f!Oq3fkPmk#;W=OvPMC0%l+cT5FC;B
zK)PF~+Xu=gU+{q4NgwFbTYL)yQ(h*gC$r8GoJM0~*Z^HYuT!2p*@c?`=p%A)do;l2
zB&N;hu<T{%uXU`kl{VS~wk&M8g}~}a$yTl9l{cN1F{?rS=f{rw04LyJ`-sXd1(=_J
zY=T%<{pmZrTEeUGVm(QyXU&tWmlwe67(UIM1d8?dN`9#C`@HkADfNeso>;&+aTlTX
z!zA}7caRawguISBT(&xb#VYX4xP>0o*~sDlJ;DQV&|sJM%b>WCO(T9e;bZskb5sWI
zyw?4<BJkfgZ8+Cr`EBQ@tU;ngj#Y{`?Q^Iv*2kpuMFbxIHidQO@7)=Jdn$v*Cs#b>
zw7*K5G7H~L-8@;cohRL(?vpyp<84vrcrb_Sr28C{s_=urd9t1t2P&!O!0Z*NqvQd5
zi8Ep6OSo&X+xGhgul;4~Q9$HHjALnwcmTnxB;i8$awp@k2=6-JKrc6910gif%m&1w
z`G&4mROHOY(q_(p51DXrDo>G3G@_Ht2DCkcJr>6~6X4!EU6CY9-#5u11l$nyLvVrO
zYv!PkjR2v)m>N3V7|LuL-n**NU7x8fHjE{0ZhQ8z!2WX&JVuW*=Mca<yPRyb5X()k
z0!o5ukUIv^tB3dAHwMDr=xqTS_<%lKunNWuq@*PcsuR)RB^!C+N-|}jM0*o9ds4Q4
z_Hdw7OqhDhUmx<PVID4m<N^(at2wo`cGd)T<V4daYFjR0w&nlMOM!<2*wJYJ)#rmB
zMX2{+gMNms`*_o*7&*lckU4K3@-yR$J~VHrBA0q83y&g4^2b^FqGnwm%WUy?gT7Xe
zU{s%8G%uJMc>#ngeH^5+ZN_Mi<UY#q5_;i)8G-actN5OD;ijI*Z4phlRrh!fUY*0V
z+S@2Lo6&4(oCc7=RLb<27t4jWd{mf{2iHNT8e5imw-9j}DKz(4#c9?laXD_9-_fu%
zoUF<I?$T)Nd#hP7=#z>!1GhyPz#^%!(kC_Q->V1!b}k>7G?`N7m`sn_@+R6(a<ug0
z054giG|Q#M`!J6s=Jf<V#evqWUxz=ixnp;t!)W5Ux;h*>I9gXPWh}~TV8uiPL-j12
z!Spl79(E1~+pD8qX<Xu_=}3t0L7Bko+rxRS&jcmNu=eGTe`3h1<U5kKaM93quZ8Qi
zi2KGzDv#W>@(s0u73Qj~Nlc_E<iAhF-%t{M!igg4v6<-j1wTT^m0C1`a-j`8uEVN)
z@<g?+#_iLzqESzLPZjy|8tIZZl0EpvvN1owDE7yLfnuGLO1lFNc|p*!vPbMn891S!
zXa!DEjfG-Jwf@&WX#<~vaBX32LC>oJTzS}v6JrSO{>QA2kE_59XaWG0keU2sDZ~Fl
z*1DS~UGFZ0J4wW^5g?}|?L8Q=o~1(CKR*k}@o}$SBQ&c3(R_reP`+ct5jgpArx9N}
z!F_O4v!A0&I)FVL2WSjEAXPw0pMler`JRJ=tFpFIPUzLy_Yrk{a1btodjw)f^L#OB
zyz)Db0zjbh6z8zt0<KOHgwb)bEKTf3fd+<OyXz?`n{=5-4tkovt*;F1Y~dEpvoqXT
z{&ph4T4#C}92d8b?zD3w*>~+y%}oDHR%}mBKpO>{mc|0aH83WGtN9>4_;#ONs-rKP
zE`uCe`T?T|*+f4$rtsgdKv7&6IXu&mgI8LOwqw#_0~6Y^QDbU!>Czs>&!@aMi$r0=
z^_#2rnyXO@ADgE<tDKt6Q*ksQxB|1H1}p~**zfK?;ttvDwGVxne9=zy8OQ~mPTNu;
z7~{7^Ssy=RH$y6BHwJdC?ON$GRd9m&&CR8AX-|TP_d(7PaHaFu`C(g4ty*F7O!hr2
zH+*8vwG`y7S?}5_q!=ItPgJvBi+v6~v1=pBbeySCt(Ln2AK`|i4WN{&Y|SKQN`x`Z
z#*0@#>?c`+(3JGCha7>cG_ix9H(-hkJ5gc;rML>?8b8y}0#-?mymF-CY~kZGb<S*{
z43P+~7sgr3dBBck?3M>v#{KDz+nZC-SyHN+yKFUZD|c8BwA766EufU?P6Sr4GBA9r
zdIAar0++@C*SUS70XGJT-3HXpHKO*S0i0X7y-}0Q><Cj;JWas;eQhYHU(Jr(d<frI
z7<aknSw77OmvdGeTS>kQxY~<V*yS7MasY!V%V2^%*C$M1#LY|ImKy@K=uMH*-rb2x
z+$A%77H9>hiGbl0MmX32;0umpG`+g0d6ECt0&IzfGK3Qs0)9Ng*NaN<4zcQs=TsfC
ze?oEeGsqcKxDpGbTAlX%?&7rU3x65jpw_u-jU;`n^KaC=7ksBBAJ+JGmkI4#D}(Ee
zCRAz3Gxe~PChu{m-Tls_Z1~gZifHiL4Cud|a|hikBygYF8px<0DG7B`cs8?_wH~{k
zz--$S%(}dxpoPLmt0vJjtL;o(6$*;-(<AARsXo|q)F)Z;+UK#>)r>yiMmyVN8YBDe
zr4t$03~c~W!;}V65YcNL+(5-N0ZrWbfLlKR@s1SxX5p|0*hhd(Yd<lz4E&v$0B2rP
zQr8)JobU?Zn;#FE?6zE%)qsOE(s6M>ep9m)BrXDMMjK+d8Ky1pDV#~;0K>m@F%GL}
za{gZ+XnqgSE3zOl`M9kJXrGx}-0x;gUaztGU!8FP=Fs{?DVaiE1%TAR4V4IRY;i}g
z!Py8A;D5OhTD+$LHkxSA=Wkj)QLl&9$r{_PI6!ogWBJ?E(un}I1>ofyUy!F{NkuRP
zOL{55vwpFXywZ>0A`Y5*>hz-?L)mc};HC+leV*v5aYo-V*w63Z643QeYLJ`u!Ji*^
zC79K6+8S`)S2Jh5Ka*?G)@wQf^owc@?(U3w(ANa7b`{ro>gu>QCM91G_0iI8G_yz*
z6Ha;(!5Yd%DOmfuSU+%&YJV#k%11u4Gg7);kIUyMUGhre-4o=mIS#yPamjYL$}rze
zVbe!_F6Xxw5!QmMx`^On(*Hx$`YkF9Fn83NLuXQ``Dg>V&qAQk#(%twfVVVm_!>WK
zCVVr8)Mf7VK$^FhB*i=w!Smu+E9JrbM)>vr?v#JN2e^=_RHQ87pe7V&a?qnEWJxNi
znG!!7kds>Oq|QK-G#eCaczF#e(;MNM-!I7XNEVRSE1athO0NC7SLAWs!3|3Gc;PaL
z(MWb1LZJRf2l6A;YRCieCteI8XjqFeqBj-sw)j&W0PA|C2Vnas>~Vu@RCo6ud~xv-
zUF}O$j=auPa7+ixK+7hTY<j+0gQ!X@I!PzH`3J>DV^l7j33SRgKM$!vw_3n$jcR5;
z%6(jj;#=`LU>aj0dD~I2Bl+J&#r_Cd)3o-yLjG4eC)>01Acczs+YN4V=-}Q?Fh8#$
z0os9tt{KUIDOEpu@TIZV{>|C<DeNscB|fwo%u;|F0u!*=)OrUaQC4Jr^PRX~nCs^)
z8qMC>qWPRmla|xyvR@jUy*-DEJ3a|oSixqWpjTfbAIi(|GBE@3w0hZM&uISlTCAh~
z5J9$u1=N5AHXx-%JEH3WW4FI&FBjejHv(3GpK>D3QKajvnI|P8ssO6<&;m(2sm@Zn
zZ}#&jB%|lldJ=ml22+&(Tnb2t2nNKOrle-S?*B*=+(8%n{Kmej$xl*J5Y*X%IlBMm
z9Ie!CZ~u3RK?A1=#Z|L6vhdowQ6y;=PGAM|weEhcA2_pL9a&<&C1K7R++ldR*{f*i
z%E9KNp)SaJsfsLns)xdDA8~tS8^JPwgnmYb5Z(#QIm{TfUUF%pB>(_;v4fv&2`c;e
z+5QrXa0bbyKd3DtR_X&lo`cj>???i=VjJx&pr4AXv)y!JPJtXX2cVGH?y<I*?d&zb
zu>y_};ue^=A(;Uw)LaPVW^iXp8mV`$S4wUrxbhMJ_#VBvsnDDI2BZ{(<xa2@;M2&U
z|52O^0$9IEPfdg2xT#=A^-5NU5CO|x0^9lKh98Z`9kdp}YQh3kv3bfs*B&rf#%{L1
zUSAyJ$0p|TI{m1ygn47zLrBOU8F?=gejQCt&;?Y>uM7-Rz!WvaNavS5;%fBG>M$;@
z2V9@5?kD!i-L2cyaE^nrnSLLi{`+*6{mRIC1VWQrD(W8gWSs#oJQi-%N0qFaPyI-b
z6A0yxDVWg)JXW#qSkA0?gQDRRxKw(bcYO@Zy<T+$b(#InDS`s&0`19x8_i1Lq{tMm
zkRd@?6K>(Nk`-Iy7AG*UQ-@ytk0<qiDF{^%gCe}Iqw3>lkQ#^dN@IH`s;M#EkGgCG
z3l^4S+^XxCta-@pNayim>TwfoXK9~LrXCpKd8p}Ge6OPcOyYCb&T;MXdY>F6!G}4#
z<l6LkQ>nE=Dlm*%ON1P3SJ8J3rcU<3nH&!Xzv<`5o2Mv_RZbcMz#8(bBybj20c_x0
zd(3AKzP!Y3E<}Fz%x70&uY||-r{pw%S%c!K65Nn68cCZWB(Yj4O#mH&2LODfBitA5
zJo$2ukC63kyMRM9SMF^FJ>XN-*u>HhFayL{%Tum=Lg!E`I_)xpUZQ*%`@7BY&rGy{
zqoQSm8hIyxg7$ukrL_dbtC=FmQMEOjsAwDI54i2|C{G~-<qcAo3UmeFkCkfl<AQ~w
z1<xKNCshH$d<IQw=UoCMAq8}F^!pC<dQBdV`hMXH4oPTA<lb&V!O};qi#sIEl>&ki
zHDuR|#3R*i74X7Ro@X+{)WNXo<x<lvH({%0_3IuYLoA#fA+-A3g%%(AgwQ8ygCVt}
z+9*G+_)Tvge<mzhoFSNZ*ndxv#ckm1GWSf3bdmz;W7s5WpKKdF(i9{7L9TyxXOhLB
z)rCburQE)LBC|h=RZ-E!PZQa$ekYmftT0HNTU7XID$#$Dprj|Ff#^R!0&HnrIdm^8
zyG$666zn+kzU-}3nxAXU>4}07o)Ig>{A&KVh8HJQWqMg~G>@}o6*Sfmj>g!;?%w}C
zaaRDayJ5~q!NI`<&c>jt2eLiLH$W*S+|`BSp@q_a*Lg#!yR_2S&EM<}KLz6;!8af-
zrv+dx4aoP`Z5Z>z-vfXj%eGmdC%e}}z+Ft?U~T@atNG@8321O3?wSW&A19^?d8@&K
zun?B0aM)NGI>{^2;hg2h3vfwWf+sP!mFE@~g5ze{r2xvnA07D@hp}*osW?)2ozunc
zSe0P9KDZde*ok!S=sN|0Xyjoi!ypBY?==>1N&x`^4JgjzEmd~90>TRL5#X}<F1G&x
zwcH7Wp|N1nYIaj??<q2lCT`nZLh9g<z5ABmIKiaK5@d03(B$Sj{|mDr`Ao`Y8y3pj
zxXu;&ljbA0@OOJm$tUASGCl-Za!aV5JIMWNK&e8%_j#gN!CF@^1Q8fKxgZFr3h{Lx
z-=DM=Qs|a&w@wV+#4Hm;tH)lV7DXKKIxEL2h=4gP%$J2#LP=`uBi6XiIJodQo^pn-
zy^LK7l>sr|P%y7(b@O;)ooI^Rc!md*+O%8dGAYxj*yUPn)8{2?eZtR~cW|ljH{a?2
z<5Q{3<Z|@t0K7e8#8i_1_Qc<7JL7(!Hs<z6y!@jU;-`+cHwicP$Jlcpf6_(L!^aS(
zQ+tGb_GGlNuD?W<p2Bj9VWxQ?n$4r|D4(;flKK$T`9Z86iRyK5cQsf#bfNdaM?(?T
zgPB#~LZ+_~_#I=upGmvy39e3iM4}XT93!}V0nV4cERqb2^6iDc33LVJw)825kk=$e
zAdg6NS|MiAka-^YfEqUtIOA}X5WjqliiEowl-n@o5LAHGOs#SWa)d9_9xLfbMB$@9
zK_Qyg?gcvDqxT@sg1ej$n9?+l17f~B>>A7dyN3Ix*AJXPqTL%}aBLcR@wv-Xf{oB=
z?jk?Y2jhp6lR@*&#IG0!K?}RnzJATB-MUr)*>>5!(&R4u(h#w#Y1YzA<+3|*O^hxY
z0QFvf^J?6r0_g)Px3);)6?s5S1_edlQf4EQUWm)ULk6$4n6TTK&lpH9!fGLQFX^;q
z8%diu-f+5u%o4tkSB2q6J<o=yvxcOiPiyPHwdGz6z9N!xd#Ekyn^w3xz+JFpd#Mo<
zdve&3W}m|8xR-`Dsfv`7X1f&QZg#em!$<!=$M_$i06AhRI26P*X!pSEanSd5AbGjp
zQUhq)8(j(?X)0MM$2nWs#+*a6YkbfX>#mTp1t*;VO!-lvAM=@f0#C!QCkfp=6nIUO
zTd<RiJMF-C<^3H9N$B3a*^h5tzec0zoh;In-|s+C)dMMTyrVcsgjj%culj2<+ydx9
zFSGwMOdR26YVtM-@)F8+ZOo>NG2z&R@)dmD>-qYl;7+Li>93<8^#eGnX|>l;?v=@*
z2!G>Y1)$Xe>9Gy}T;ap6zJRbHorF0a17l-f&M-^pnq9NYR%(@-!>!+PKOKMbao`K`
z8$GDu{W~-Pb_;K1ZvCGwSG$@W2^A{{9U=d`fwSMgFlHrcFMQ7xJkJ<!mc276jifAP
zAH9-8h{c!UF-F<<r(TK}6Ih*bJ2)1xHZBqQCUC)~-iYS8NY?7&_P&`{lf=p2mbejp
z8}`3VGx$Gk!$gA5Env2$GJ{0S;{lwBX85iqUMW;hzRqmhvR}FrPNJ%^Y=6%0yH`VO
zW!8!b5W<x)km4HAyQlJlx4udhj;kPWY8>xb9!>l*1!-$Sp4-6G54R(GET1Btax5!g
zypGuDPx-@-ivE;havBW#;-Q6!5iq~8t_S83Xp+X@-ip($wgS8hKtcu82*pPrTSXkQ
zzNz1W!A#mi0OLyNEZ>JX&<4v0wV6>bqKt+cZ6hiy$GO32WHW8>z`F;VBWuwlY1sS2
ztIKmPx^w`*>f#}z_FLG@3!fT;P~Nk%(vEbqxTLO4?&Je%eeAw${l%5@R>tm3^L8zc
z3OP0s%8NAo?!^=*b!0@bU(zk28diQH+#}!N!s|hDK1+W8LKI7jy_x%J01J=D>7mdk
z!1W=p91SVV$P?FPyIsP|AOJV3qtnZn-Mkf4G{Bc?%$+h{w0a`DyAG<hwE#5F#1d`~
zH*@*_zA7HWaI}OBLLaOHSj9Jha<Z6j+qGEEv3%G47WhzHy1fHY7d;rFGQxHghCQ_r
zjuvxpdv)3xj2Z(+40V#-!|R{Z#)rBuCzNeUBK%Z!JWWnJklOY?FdQN|IF|1G1s^hZ
zC%?TkmU_fjwXZ^A0IgHFc1SHrZdRzl>2Nk|$+Qnq*mz=lzkytVVqEQfo>_(!m}e;X
z+;$0v|1Qc?nV=VBA%r923hAN=5s2025tg>EIAsh!D*#s@=T}-{h|TLMf4y$>s#jNd
z@)mXF>#Y(xnvGt7Dwj$lAxBbURS!llwP8|yTA&>%OeX#LZ!I96QE{#KJfQ#6g|ys0
zemAf7yQ~Dv%q^Y)eKvTv1jwd8idwXtN-n)f<Hx4I5wUV0GCiMiU6RRb)^%Hgf>0ff
z)@l}onajTC$}Ec{!3)2K==C6G69<uEM56gkAXk|bT0sad$sy)PcK)FP`8%urZfIWR
zm-1+C^QxzFxb@7V>FRt#u2Jgc?lQ&8K~3V_oRhajE(VFYe^&C(YczVr$G-!AZ3qZn
zm?=N}OYRj5ime=_(7~yA{<p4ifK#Zk&&OV1#|9_bVf*ZrtbqhJ-5q!0qI>ZWX@0t+
z$|%Z-^ot&tK0dL#U37ng`g3u-l1VgROEiT9$B`Q4^&-4@530x{qZXfN@PvT+-$1}y
z^~7<CmiaMjyz78;?|OhzR?!b02YM7*iY!_W?jKNZ>B&d3atlt^Z`(P*@#FJ7;0&m0
z%-~xM5O(fV-a({DhdsjxrjG!0z$|VrT?sUF^!*$`!&y)hUOy1&<r`-as@&1J$^X%8
zL1Z2_*&ZjY{0oTT2!?DxMy^(t?K`=P4K;ehCR4p32vkrX_ye>IRRJI+SFPBN!|mF}
zR<tytCTUFe;t2`O`8?z2;(RN!uISvy@qAjTQ*z|vz|xdbue$sRz`?-{aNyAQy|8;b
zWtXMNbUz$7;ynyob{V5CxMS@y#uJPpP~^(LhCBl5)y9?#k(0qwE5m%yEd%ZU?-Y|X
zNJ3wv+uVDYK1Z6iyl=-u(OQ+En$7BS{pvesEdH4j=gZ-oanh3Kd*=3f>|-69ZTQ+A
z?s1T)3^4vN?|Szh;s1*m#HjH2D!eo9l}+g5&ZdY8B|ZD@wigqyrMdqt9SCG&W{RU0
z-vZw{nE@Yel)H{$u0Oknt)S^G7Yl^vu2VwoCwWsVHA|bNzpAfTK5n<0goM?MdO*Tn
za3zI#QhpolR<`H`)+g6nwb4a0kjv)MLnPW>4-0m4Kqwq@3|V7w3a-aqg++BdU^kOd
z3eo09I|SsHUr{^LsPMOXhJ_#`^Q=vR=$JZ+K2BZAey;|loiv#K`dnV$>sbi>#IBE0
z;;zrYcSX$LQvmbBEUU)d!vT`gmTh*$iGVsSSOaE!4Cq7z+*V=ACf*gwSq@lrmkJ;A
z5to(<=Q3GN`~XLqw5W(G_q+<`S+BOnH5eUxm#A#4hO|PgoSJB@oKa{+$Ahs&n4QrI
zKNasMIet1U?%%#GZR^|xa%+a!te^EdiUH?m872Kn(<9J?XJCX?3(Oz0rdgkU%-nn~
zJD_x&YPVS|cgCvUsH*$hRO174-15^ptc5-rwU1sPmF(jmmO(57;c38|pW-NN59(j+
zR5)4S!ahARc?>JhFg|<uOYUh|XY<IKEdUt%P<WOl|9vLmvkHy)unYJF2be>!AWDiI
zMLRN@y_)6z3eW(d-D_D<Fx1|FI~2eXP4h*nG(Yz2+8sQa%8qQgn=I1_boS9P4x*^A
z=a&;AjTr7S9lytV8K6lqW!D{Mf}Ji70HjQ`q}W8-U$tT=g%iHguJ*+`Mhm}NZ1-BJ
z*v@w{hL(1&zOCOHboVoU#!j<Bq%)&EfEZXErnEWn_4oLrBpu?01ZnsLjPOnew@{?3
zXVhNRo6qki$d6wx_qa=cHDd0BEbq8M0!I6`GhBt6z0dPT25MhwTdJkt!s(<ife4mi
zFal05sO_L$mX<wFS!Cc@ZtUjoSICi<z(M&j4jweL^u6i*R*FxsYlBNe2>4Yd_R`^T
zAJOagf*abGw#SCLdft=zAydrN43wuglnh)v+AgcpF79cI*d(sKU`F)w`Zm|-RsD1E
zG+!0-<F4S|k<ZeIySh3#XWVc!f?2D;9I0HsvnY-*_EPTd2=z#XGd^5Z+k9e$9b_#i
zsOV?yQE8n`b$=i(?*!_p7uoq|XyMN*?lHP#zhPs+P%QKBF4rHY)jwej{1q%=pv-o+
z>22J&dZK<-piEB{)mXjXG-YP_{OzsYV(J0FZ!NwldwD7I%~*Z;5cxVjECRQVu+&K0
z2X4H=!?=6>HuS{n^o@U0uS(pHCU5PVn`1Uh-?3?^)we0-=M4J!9hbddCXAWW#bA|N
zy-D%~I~rbqq6?RI_@~v*6kZf?wS1LncsVB|`jHyox^QAy$gi#`Eh9KUF(xSN*Dj7j
zkpm-23rnjL{ar0A{PDPM05ui2hk|x+37{oKW$~_E@45Ia-A*u5{Mu{tgX^#BeVms~
zkNeBwko7-yEG;aB#TYAfeANIO#OQL6(yxJ~C}OS>n0Uar!2UJD4HU!b;6|IEG6=E3
zT9hi>EZ1vKj!&#DRvrkZnUrR);{&(LyZmavOVw(Q^zee_wrw($k<??e0bFVw<lvRt
zZV*VN6<x0R&o2EB+f0ejx>a$~2RalMpHD%mpY7u0y2RHZQCNhSc}cI`EG%+jci*%O
z@%A3S1fj!={a?s&-P~bO+XNRKv&>(d_L6zBhH+hwt`XClpF?j$O|WOyEeG=#I5hS1
z6hXwft-fHdCHsP)hYnr@B0^QTSiBC)Yj`Y6=qk=ljyj5D^FKk4C{-JySJ<6UyZOa$
zM*l55So_~!uOtGYC{KeHtZvQlm`(ZLsy~V)%AW20CQ8p>RspbqrW2uIr~NqJ+z4r?
z@WC{BP#v4YB$BH>VE561&`yMGdJXyB-DAc{O}Nchd|U!ty@^5bqrC|ok>Z83VY9Bc
zm=K8gmfLwD$&!M;2=fN;$?eajnrU3RqjGQ&ug0}!j^x}3go*xyJaHO&Jex3$A%QQe
zMu+a_cfPRZx(tfHxtq5a4A(!~1%)P{s+kp4(EJ%DP+77YA<}2BBovVO(egrFyV2~Y
zT6^a@a46Ii`nEk=A>Fny(i8EHmtV*v42F|_D?sc-3om#BJlEQV%j3KLT|O;)*f!)L
zzl}Hcq!DpTsl{qg_DLn}ajP2yw9zJTOPWg-8`tatPB!3`7Pwf|Jo%owP+A(lORpB;
zPj&;&r}NGWw={<+{?^Pdd0cOI?&bz8CA{l8sZYp}$q=ss=2H9b^AgN`*JljL;A|?*
zI2IsaZeiIT_%hlZT^_1~S(btO3a4;h8jd5tJsTk7(g(p<xq<oO*YPC&%yhP9=+7xd
zCqXTL(%QBpTeRlh!8IYk$_j8Qz8y|vK?>NqbGN0tWp2+f2u6{<Wuh(t8l>YEV%;%M
zTEgg+3UAAZzhQpy=<GUgI-IuH3h^$-HKG4E(i#pFi?peD&KmpoTyLXBAo_2ZFYpvy
z3^%ltGD?`ZSW^w9^jZ!B_%{FzJ|g>r*Q#A%WjA|Ix8_TIU!0Fgxq9}oEzNZHEg^V&
zxs%6Bcp<Z~>|t1G;&c>~wBsYu@H+BS)K7pyH5}}B!FH=gMgDq~(<^p#LZUTMS>M-5
z{=-O1ViXt>Mx)p>+thRn=yKcga*cf40K(dyl}Lnio76(<^1+#PX3JN_!@*%ICmTA`
zw?p%3ZSvf=0pzzov_^t)LusgKR6iP?yxTg*mz}PfQ^^U{sH%}Zz<hgF=nn~(Jez)(
zWBm4!)Cr6IyNO#r$~4!(B+i%CD}z4-IZu~|JqJAn7Y?sQhM=BhE2F0lO`{&F<8;t+
z)w^mzcM#EjeGUv3BdEy><VG%Iv{7W7&aFqV_j~h$;1DRkPa>y@ik~$FF}B$)+GCoz
z?~fNRnAZuBd!kkj6kUdN=f(Iv-VpZ6piN0eOurD}{9Z<}Fv?2d9XfaRg=Iw~PhBu)
z{n~q~>2yl-)Y!V)O{85fBOuk8l}V$>KsM~-2Y)sdsydH%>MDtz@4^4JM}*(Y+_pQw
zcw5^OLQ!eDiUrxkY3R+1_WE(;t674;Q8`;&R_n8D*L3+all|_I`SwmR_bUiY9cwXX
zAYx~Ee90HM%EVN(mt)mcU#3}O)Qc9Zo$BRx<|S5qzEo7?ch|wM%GPT^T3jBBGO0qN
z3cQ1;%hL7>SB%OX0dZWdZb<<NSL_bLKQ9c12xV{XAo4$YdYjvzTCLeOGJQQ*R}q+-
zEkI!&=FZofTqpc(#!YY<TjYAL;BZtG==J@fznE8t^=E1oV*)PDwxv!^#_Aj{phE&N
zBjn?j;m7<J0-N4@@e{4vQ4`tYgn19Oj)H1DR@C<N1Xl3KmrgVMakN4cjx#qrur^*p
z3J-!dyOI%+<4^PG!xT8SBUegiYp0zioM)&6H=4~^&VnxTZ}m5}H-3c(=JLl&v5hZn
zRSmnsLZv9{rFRpw+>&>d#|MfpdYN8b4N40<O7p+muX{Z>ti+%{G0jx7JJLXz5{w~E
zX0E~1rgqvrOTHUhIPd@KK0{%kNBH{p%#f%D>{&Syt|Eve#0*cK)O2L!eC9?jrz5L5
z*;_+R>wdwSbg24vwMg1;e%ds!I!?>w>9xY-E}LS^{6aL}sm-W)$()F@g8z6;$|rqn
z3VX+<+;XNf3Lm{8Y>ys8ZGHr0AGey|juYX=B>XSC!m7JN^9yMN_j0|xFRzXUl;_RV
z&foe`xOlXUE4gxZDITUZ4Jge{4-DZzO!gYf)!C7eTL<cQ`8PcsaMS~hE1LYRd%if8
zUxcCHEO-Ts?TR$EczA5{7nWmrUph4{l@90mX8JhmRc|Oe4>M^Ln2gsIEfyEwM;nVF
z{Jty5h>CIXke_crVS9$SIXYi~=<hxdqf$mj)94!|>#G90BWMhX5A)wYx)XGS*6;0+
z;7sNBx#*$9(PB}#sd{Gbie{<ALbONwHnDz+({{E<&fHk3WEjqZjtvx>twvvY+uAQ?
z-E@*-YQRZk5k=i3S>)R*kE6IeX<H^2#TdUAY<W03$L&QT@BMGm3zhbgMf%-mN8KY&
zy-JC;^>k0eoLody#>0wc&K<_CT=S$0dM5-?2TlhV%YBL+dYU5Aa5ACs7h+fMTqkE%
zxQo1tY0u9&7b1Sm_4|&l*6S{?pS73HPBo6Yw%{DkT~wGa4`hW*i@aL8t|<FDQF?8!
zXhVsdm*&0Hzyr$_bQ}wI^*B75b%6C#d-O#LD#XxZr5{~QSwES_e%gM+H2GtqwaFlU
zAlvhux+osvSM=B07{HpT_)|WkjAFapjH}%Fr-x}MMlW>5PWi{V%)X$J#afI^suvZ4
za*dY3$kaun;&S?vq-wtSQJU3~vkhsompv|{zScQa4B0TQ>-j9IyiNMk>WJq?PSz&^
z-RMlrcF|Yf?my+(J&mFW(Q4E3xc=4xO5+HRh#;KFGitIku}|U;-3H&dZ@RmT1Z&@{
zl0(@rv;+fOv`5RFW)=r#6BLZPFc44E<9g<dR$GOJg4=@{PjvkRX1H+{Yy@}b#H5O~
zs*|hb=XOxJJ$iTgi1f8QtJ!0a2{B$d7W-dzY7dTgB#UMT#Hh7d*p^z$k|L_e+m{)j
z{@okj{DZbqsDtdLJ(WM*NBn)*{CyEC!~A%7ZjV|B8#JURPIs!^bX3pd7+N@V8$%r~
zRFaA5mOCvY0mGY-$<Y+(JZtf$6YG$&376aFD_C;HDwV<9f-Mb(+%48)-n$CNs2D8=
z-y>Q?xFKb>X}isj+&l%{4TLr&^jr2aq>T!dWZgympyIm5MJ<|VVGZ3zURmYF&EhWF
zc*o<Du^xJ=EjfjK6@6QIt0=SgS8E`pkcAm0jkDGAuaGkRS=RbPvu;kWG%07+ds<&v
zv`ZmL<$l#HS26yF+-hP}iij9O2iVIf?B1IP{JUkm<JnhgvKSR|+=Rr<gyq8H_8UUT
zujx|M+{e8w_uUh1-bVx{?{11b-tfG;%`tOW*`lP9JZ}%R*SVO-a~_@!Rosng=~WCR
zW%nS{yrX}awGhGMF24>FAsrL;zP<<u9{ACy5#9QV%-0&il%mOw{MomA&LLvJ;d`Hi
z<5BRX!`Y9@!5#Y<I;Gv(`MFiM=n20zbW|oX*`y!a$8)yTw3Du!7`Q@LTiGR4xF&fX
z*CFWJTg7ur0@!N~f;{uO<F2DV%I`A-Q2L7cz8-0R%N8xxikLs=A)f3?z5gxzP6!RS
zGQcW|sUhB8MH#5&50m^|ZU%jXvgqG`cn5L%3GPFeT6YrELfOp}<(3I*$Msd`th*37
zj(Q4JLZRE#8)BW(Hf+Oo5y4%}1-&$%g7S-Qwt(=Dgm>}{f6@?2B}GUZ+j7_K?_OzY
zY+nuUJdQ(AbUQF*+f@vpFKRT)eV2z*48?*Uvu1uWyW6WPb;Xo7e4`bc4Xa-S>?VOn
zaqKFE`9QQi#YKC~ta6b3c2mY85pB0|>n+^}Wx7t(rosYOB@RRklw|Hc%G9Dm%?t(7
z*k7#r^EViQOt$ZcKWQ51%a*4(z!GLfNfu0u=V;Z;5PMGaIIJrThjSu?d9Cbzs2h{s
z2K((VzA(-(Z%VbvHxBSvyA1W1y0V!FYq?>1;$@kRty<VM!JW0CF`TI^U0mg@X*rs}
zQ!@MhKu5FgjJ{28H$%_5q`k;tC8N$`x~O(8Av)1xV0_0OqiS*|7n;82OuIT~e{Ebp
zSHqd+@$?ua!16`i<ald&)h(27vM%yM(W6qmT)0nrm1WGf0$N>N?h#{8at7_49ZD(J
zXvnIwImau2c(@-$+YvHrACz(@VuG$57u_!D&uyKJZE1?XizoK^7a~$o{Ew%`(k6y~
zpVEI86D{YFie>eh^us}4(`ZH$rd)(kH#Mkm!~zLzti0po=jgN-+ew4i)^CrLYhpak
zF-{CMkDl3Au$Ej+7PWR1r8O>SU#-ltJV&rRK0Uv5)wWtWay6c~YUt`Zt)FbU-4d*0
z+BloQFAtmV+t5E3eShlz;32n+jMUuoV}%$!OdjZY#$>SO*MyL!`m23=vzVWHac^*}
z0(5rjiaW3$eVu0$ctrpC4!bifA-IMBiI7~XUBgbEt1zHQc9P8&V=#jQk&e*IsehC`
zOhx6Se}B|(+vjLWRy$**_>joR+vZK(gC2Y0(TWAvqA;YQ^=sRV?30Mp6uUgLr($;7
zjh`fJOJ~q`iep;uZC5XQ=$~)2>f+5SrxiKu+&*-^o;ee2V62xF+}PMp7Fb9z>VY|x
zV`v>2$)CS;YG`B9ly$C%4?g6Aq)gn@P7J)EI4;oL)+-Kd`;M)vMgqxBzEKsoRb<<`
z$-SJJZ{tEPB_txsyTpqO1E0M`_MMmFAQ-C>4-~5{smD@4{CBme0+4k`z;mc_gA^Q-
z{h@7Exz!TKfOo<_`cQ`PxX%J(M<CCh+paRKR^*m%ls3K0FQ;zq<N|GVSW{ww#N4x)
zzt=leb2lGliW}c|8cW@&3LY~056#=bW7MO?;w~BOnQY6Yg3R=0^AC<wxB-bDk=cf-
zPmMk;33?{xH9hZb$B8{&T%&(UBt0`1DIx^D{IJLqu;S|!|FWdgU2%1-g(2MW{Bk%3
zxm2a+c2a?CqC2BbF#XhPElJudLg{8U*EmJQ#1jL(g-fs{w0t$y+IqUmJL7C47<oJR
zz-9L`WIV6!OF{1gLi=02B}@#Bx>C<6JybkITYQzLx-%%|R7kyrZJrr^o0s0uf#_Mi
z{8?6x?J|<*SvNx<C@<;pzFM`$%vvC>D<Hhq*$Np7_s_t5So2A4+hS$=V3o2M`c=kg
z_iN`+>%d2p439X!hj_2^9uCvc6IhC%3(eOQFdfjJ#oYJ5U9bBNJN|~w&VjMjx8_tn
zoN_4;a~;i|_OZAa$)ijEdba43Im;`@pgFgzW1fqw%oCedRP&R*Hz?O4_^HyiC`HKS
zX>Y3#M-$kLoj_~mh1%n?_D}ykVT*`2t<Uc5O0a;{d_RZSkNxi&-wEQvw9)>gBf(==
zX<hPogBP7ZgP~#~EqYetV)f~6sAuUeyKw5mruk1-MfiM2-E7Q?G1enXgvZo-tCXy~
z+gW=z%(vAIL#<1fxaS$MYJIgr%eb3-d*bRQdWo5d(-r*YTO0er+coJA6=J;9ToOHy
zM|U28Ig(mE{ZAszbEb8TkWK%lBo8!96vteixV`ElQ|s!bluOd%%#~JWe+DicMJqPp
zy=LLDO_2qDCNBQ0LTsfG(wc~5^{JzS^5UJUQ{yyeQU87DOG=8?YxdR7(cG7!^J7c9
zoh_v)x<j&lx2#@93n@D|k%wGTRm?&$lu;T)akj2%%$S`1XI+<Z7kX25$Ns9?q%YT9
zE?*3<svct?85~WZ@|1mhbcV*)Fz#F>KgM6l<bQs$T97w$42derrjbHWdWlqX7!kKf
zM?)2-!#KjI^nA6;HjhyndB)A2^5shV9GmA%Q_J`aM9U@s`Ne|o*MjdnbuR`vog1dV
zxgL_HNFO-m?d%-?aCjRHuAm|J<6cpT?n}2DHF!Wl)yO|I7`>sL4H2dC+uxE>_4|Qw
zUG{TjZmC@K>ZcXHh?P&>WN%Q~0#_w+kl3s7c&>F%soe+60XK8{N6W_PPifUAM4yJA
zhL6j1bM%&6bNX1<V-Ox5E=l^|Bn}gkBuf3xzdrLJ%pB@bi3U{nZ|Zmb{GY50MBx2s
zPni(c3HW}dW-C4uF*Rqpvt6lA0r`_JLT7wx8b^HUS|(6xHXS`v-6Nv5UWLv1F5A$5
z-rk7_o9V)$o;7=ol`57NJWlW_FR-ElM<4$IO}63hG;ZHoc)#&j5RxCY!SMxMF6G50
zEe~W?rhBW<^!6<VY^KH3Q1BucpJr(-<ZD7cIVmG^w&D0u=H&qW$%~y%W}ManJL8cZ
zj@6^qHpq;r{cQEPQ41uIGTC%S>Z`tPrkRxUu!wI!QhBOOX0MfIYFoR>0%hw}JAndm
zNsMOMtc|ofEVItgzGb`r#>01b@)P3mW2{d$7Xlx*=ZJAQk&%5anQsGlJ*z6Z;|p1y
zgqAk!><GSb&&3Y<h<sFE1%x5egE7a{O&f8tq@2^gqBGXKoo*|#1)uBamk1C)Ls+T&
zFiStLy4q!*&vK2}?wdTw%pkU17J3Tu6#8y*4?~!05=Ndel*31x1K9=Vy!DxC%opsN
z=)*zI>L>M>nxPoOl&ua7E2>HC^yD@L_q|FAf+z19rkYJ*+bM;t(mgoJOB+0@S5Z!s
z(F(e14?NgS@W;1R=89XNGb(o06}Dr-zl`SHewV+1nnkK!g0_>KUpd+3b+x*h9{9|#
z?6X+;bkaoGTWk$xhHpR7t?A7thTft76Lj4{w4}qm4v@3t#xINb6NcSjR*3&i*+2h4
z8!M}eI{q{^NwB5yK`KBXKzGf_jE;meWytZ>-n_>RtV~t?YPl&xk&=8fWbanw;)RV$
zywZp{Q#rY3sb-Oy>{l59h<%ETNUQ>M&a=jzvSGN$`S=tS8kXuRIcB@7<SSS-sGlkQ
zdgHFXvmwp--5GKl!EH^^qRkR|BVOSZt|IE^UoB7F>MG{G*Vrd_dHanp=cQd+kny}m
zB*o#|Z>z`yNdJDrpZ252A?^2CunBO(X+KNjqo!C7BwISYxa&72?fnqSI1OVKR^yt^
zv1g$3Nx$fl+j&qq)42iN9H@FVp)768x&MKT@4@Dp2rJu!YRp(fqFZ{`Ad<$^snVXn
z>~57rMQ@h@M}NZgF21_UQCNAa^QjSg?;FoXVWy{-kz_YRgX;@Do-OmcM9}k~awWn3
z3#NA%q5+rc!}dM5^}9nmGBecU15Mpno4ix{F|9j9Y35L2j~CJNiOE3^$HyQmL)-$d
z^DY!g&o){Ou0p|1rXFpA+7TOEv*M@r)ikA7iIkSt-rl>Z8vu!M^=J_yf%f%9*!ujd
zrX%}HhjtEqkej549tw|Qx9;Dxe<7-cpc!@eqc?P8S`8jvcLuX;I#{Mm77)2RK{QHm
zkX~5zHGe|=H-QrKNBgDwS<n9mffl@e1+U@!eGwBugNK2~sXvB5X@+5W*^T`BG?UiB
z?wDo5feXLu&mj8RDkb1G<Wp9vBs|tA>K3xzxd7|&N!6XapNLv4(Fc#HG3X7P=cR+T
zJ%1oTE}upDU55nO335kcvleSKeArEu#Fz=nlgNn9G^E^c&scXg&5R0?+kWkF-dcu^
zrG@EsOh{-jZMkMSadEZu>i8=m0q$PAJ?5)94^bOs<0M27jG<vpyx8pM@|eZrf0L$c
zc!B&AIjq4E1NJVF;1{7ndr}uBp1S_tl}STI#dnOQN1kPs(e3A6eHT7kpd!P_SpLgV
z`BC{M6O|%k>`lAK@yU;#n!AN{M(z8Z0@#og<@)w6ga1R;bq7-Yet&MRjFO5}GD<>1
z5#naGDA{{&Wy`p-M@c24kiD`u*{&_wdtb9`*L7uYzvoS=&-eF_blrR3@8@~WbI$9W
z=e%BTp6U@-+w#JJ2AthIexin6_@$0+7Dp}3jlSE1MZcmov}<5J<;r<Oj!zml=hS)@
zBh%>lEQEUiGi?4H;##OjZW+zGX?|hh3@9w6rf_Qduaf!9rHEf;bKQ>?^?r2SyFor#
zxr(!R&_qPUJ-=)xuw8{Yd9g=S^D8m$&@;4AzGxF``t)Tbl~Fy1{>n9HvwFT)rYjHc
zn+^5Yg(Ekdt!5_LU&yQ6nplrWSQeC#yXuUZr*@qAzJ0~OKsC=K<$iDC7@700a@w!R
z(@#&}6D*0jB^<2uL^z(i@g`DK<<!xt`;*~+Kdjk-WV9^IiRP#lKyt2RY|Y!Oe$Y;>
z@5gXN3^(@5X_J=%l27O^(K+;fM6PZ`^)AWpGqCDK23xGMfd^%VM^T%4MLWyqh$GT#
zWT2YI{1ASmgiDTOKQ3e!J2ib=t>zf=6!yzj_3^AiP>-O^ZxRI)5b0_{wM<ArK!@mE
zXq0mrpQ9zTLoVCCm3y9z%S1k%K6_&$T2S4ksO=ar?rTz3g~_!wV1^nLl>X$G98rX}
z>C2J9$`wY1ssLUb5BFv>2`(60Fm<FUkjk0vz{e-xWQ}o4d>~s|c{3k=tXMaQlHeRi
zEq|Muma_75&lj@&4j%7KdcTdFX6-M$-AM9?8a(5Y<&MPTN%_pQe3asrK&*`SjGHzN
zlu%75C@A`k`XVXQ`11B*){Y}^XGw&+#%uiUB;{v~E_p_ysk{aKx+y6hxb7?scuc%1
zxpK^bv&VS1Y&=CRq3*?~bHhzX%&$Jv#xYUsXCB@#kDMVSjbHiLM!jUpbySLCB-?Ph
zwY>BvSVP3U`lifn>{QzBRzQ~1<O9;s5v=WKT=+nOomS9{jqaLUj7s{W-Kf*1;mRwH
zjUQgL4Tz5?4fdNen2j|!JE2lkI$TAg9G`ZW816GaU#j6fhbG;3=rt7F@Ywy;)cBfX
zqlQZ8>QJ!n(e4L+;3_K=9~yjxT?xp=9=iqn7d9+ijX5QdPx{WIm$3DcZro@^+oMvu
ztdr4*-bZ^lEgpv|XJlXXw%MXdO-5VSvH5wI=}nI>jR8TZUNgIq*4DYMj)j-jff}~^
zwn#;sHMXCfN!6>IMgrl<;xB=`ZbEf)z4T?B84}%EB2_eE?&utUmMA&0#@y*^g*AtK
zh1&8WJ&#Wc-hDXygyT9b(-`(=hf*s4r<EclpB$6i;Ruap$<md0F}3TVJi&#hoNdx+
z>v(K8#)(g*&}@P|VN@1fQk&OH>ZPuW&Ai(K)tv)zpth+ugd0$k@Z0*Z{=+HVJ9E?8
zN5HjBUMtswkebItzx)Xa(L|`5$D2=&Nj9#t7mJ9!yEG1eU2OL5L!96*SWWlm8UCi9
z=k{0ov}A%c${cLvHB{u8=_TBap451q;tdLj^qRNzvyrluSJCUvED9oHVS=B<ICFo*
zmn@yv$J`maH_D#Hq}e;NvhB0Jv&qrwL&2L>9y(jrb$4HZ)LuS5iSNgJ)NveT&w88+
z9XgIzB70wuv&-HorSR31y?P(dNGixflu);axn)NRTq4B;Z*<L63OM&vyuLfv*?0L-
z>}{lDPpciTpuP93UBLOSw`y#KNTrQqzsi_q><F>1F&T0$bM<xDlvp`a9qlBA{Cu{H
z9H#4P`HTU*87j{}<*PdH?AX4hLz|}KJY_g?y=x5@&U6RgikJ3<k592pkpS1+V@Ioc
zed?E1T5@BmSNe!thOb$XIsdku$`i+cEj<M(=(mU&&%dz-6nR)G)4|DsD4c|Z<SEKb
zAyai=v%N6po``Se)#a{UFEom-yPs^oqPMqv`$8g3_eHwWLSQK($|=n;TZ%oA!j*<~
zyoDt`NSlR+U&iGJ(%-X;Nzk<twsmBh_T3$7a=6>ev~oJWYVTKLNo(;jgcq`dozZWF
zCVH{e_+oraOr;8D4`47R_0CoR>@6B`rFO>xa<<|>Dee|DE|fe^c3%AzT;4@_iOO&S
zbalC3g;Pu<2uEsL9kVN~shy*~+sDRA#5^z&6+R<_uT{&K!PqgOVPW684|w-7O<D3O
zvho^6ioh1CjGi<mS(!Q06ltk7CUHJ`F+JnF+PIzRO~P#5X3~)vlxt!%*fglNXh&HV
ztm&}clSsoiyf?CbR^Z&yO4KuyL~G6@i`SjHPvsywJ6EGzuajpub~rABf@-1iK22Y~
zS-er3Vuy(3$M0W0coh0B6O_?7ZT)zdpR(JqVxASI098UN!cREZCr1wBoJ^d=0*Vmr
zjpFW(B)X+8jS`8YXKzcU+t^G42J*w6!UdZM8rKe?UUM&Q*UX$>0t>dZyj!4L{q!*+
zmW5~!if>4xt~fDKWO<FbkzJgIUHhbB(LQ4@t|*FUWk>|6^<$XFe(V9$^Sze+(kX&^
zqhJ9$CmIEpmBiygY&=*6{RwQI+K1tnWzJ7n+6?~sm?dFgC3lP7-2g6|ygnT-j^Q6{
z0>CRnd-5hN1PktQ2x1y|BQ*5xQH!T6q1wvxq144-S@2!SPaWdB1>AF2uahqleRFV%
zg&{psK<jW6*M0-xb}ei8t~G7(&>139`83d09D3uPh!KgToUGu$;~5iqk<TPy^8R6s
z4Za^u_XSjW3h+6GjiBP$Ku#X!ZBu0AeNnda&mzq+#=nqkJ(BV0k8-GJvX{RkK|(X`
z96X9EI+i}}*4lc$Wso+|(lXS-|2!N^b}^1cHe+m!I(pt>6*+oKmg@7sbn<S*@WcF9
zn0LXEmwIcJ>^ggr_!QAbt00$lGHW<Tv6D%o!UYcN?AXz@^X<95*-bd?!u(j;uv0!L
z(QVLhyG9rlj-q(53yxTZvPjoUF|HJ2Gz>R527kiH3oVrUR%~rm{m9Op(ABCiFY_sL
z3T$!Sqk%AEII>SpvQzRo`Z9LX%dmewX~YKoxmm?@)OAgxJMKZv6s2OJ?J!!WN5*!`
z;ZETUMiFCdi`GGIo!qDD@gh0O74Y2E&oK`cpG{UQ*i)zZTXTSZqpu^-g_BXBPVj>|
z?-LlPoSL81o1gf#f%O|`j8;m#ZT?s)jCWjvx;?Yd8MT5*j?E(#zd~m&8Yu<`pk(Z{
za)nD7n?_0Z=Nl?NQ+!%8Rr4E_ifhlQDT|2AF36|G+=eHyu;9X_VQ_dn%T0-t?ChKF
zT+M6AB_{WF&&<k8OKXGk06lb$Jj#jXW$Hc8Z$g3{lE!M-?0on>D>HNU=OkKVUa5)}
z_M%-~al_^@<*Khp1-V7JY)!vndH;^c+(&94E@eEzhE=i08f56Kzq%NXynPZomU4rc
z*)qLz(=i8`-1TyH1lz-9rd1Gg&)w*m7IrahEXTv6yW*K7#=d}?&q-@^18u+X*4ht=
z48<<5;C1x{Wz{5B{{&vV&VmCi-#9Pg?)^?(<XXo2a&rV(X?ttgB<va0=!4ccfX!YK
z)E||~pSpkBmtvhFzx@ZQ4_vOi@z1uA684kCaIVO9#T8X6uGfB<)akhZo<6%bjomX@
zATE33F$aPjU!KnsXmMolvCO?+9+H|2m*mq}H{a?-+2KNx2#@s`_hr)LT9i;z1SXE%
zW}FP58KsU%bow&gg|oni3!Mz-`krZD6l`Rd>&|iN#S#f8y7W<g1>#rO3wNMPJ-}$E
zHA!$)b5;0Mm#=AI#jVcPd0StozA}UXd8E<Mns%HET_>5@ma|?~&Dt$qqq_0}r3l?5
zb;m@{UD_{^`0GNk4=wLB{sTq=O8`_&kc{f0(qH=L<-=L<--oFbR)-CCe{EVQM&}_O
zTUt5jD`v9?Oj-mx>q(v3mzrT**~k*dm2_TL$~c3TWQ2vDp|50;`)a_uz*ab<%c_|E
z_Nn&IZ|~N?Q{W#pjx+;#v9gDQ#%UQ&lTRs*CZX(2xnaIz*r%n2sI0wwRzsJ_63K$3
z>)}e=*e{90^#wy@0bfhB;Ba^=gQlI3rPN@;Y-XbH_JgU;jrMCY!!{hNM7`|yIjoWT
zU2#T~{xgDM@`$|I7b(LFEVrRKILjf>;5+N&kw4oz;vmFLf97h^ruvJ~e8n8u+GG=%
zg9J@_0geX&^d}m?J<2jod;Gu20B*8@WFCYsl;KYw8AO^{+5K7UrHN+y@ki6-P9472
zJkMtGBD0AbrP*2CL8o_6PeQTzMS{FIRm%{~GKYboV(V8u1>iCFS{jLV@(}zDGH?sC
z%OOa!=dOR2B)p@7Eg3a`STVW+Wq<j!`wMyuBdERsnk?)jHe=vdOQd!#bm~Rnf8O<~
zD~1f!laHarn$=AE+9F?e`5N!h2L3fya%O7KE715oGVO|+a3cIX-T!zG9Kjq<>NE7|
zZ^J4Qh>)HEgKb%jXOS9qH#Pdol4+}YVl6~bE179Tveq(BmP4ldIy3oG*mHo7Pl;-@
zSE0{t6Wo5?`m=PoH5a_Li3XBJI97||$<O6hB_wD*34CLK%cLB{uwjYAU4em84sPd}
zOy!Ky&a=rg_#<E>icmoA8GS~TCZ8aSzNRT1TL}y(qTttgqN5vSmcwU{;sxg&lPwwg
zm;bXG!dvk3w^U=UiX7{RlX(R#3$vK%Skry%R>N+3ou0G!?kz=NExo(3)bBHg>mY1<
zGQvKIruPSPn)JsCL-94uP9bO5?1`Pnqv_{UuEGH0ypX}~E~oKZp}mco@{OOQTDw3{
zz<CldSvMPJnd3{mRe_F%1ga(hA>5*IR%<(xK$Kuf)NOzCI?Ayj==AS)4EIj*F^l#m
z_d`t%_Yb+6+qpl^91KiMRv3|r%~RUVTj2lHOu>^@4pm3Jd(86U6w)KgBc(ot9&<iT
zM8Zs8pCPv>siPCCHW5Mtd))E`&|`RXstFu{wuHobmq4*mS7L9r&i%rfORo^=3D%<d
z@^&&^eQ~hv4SpN*(;T2oZ2((n<AMLUZZNPCLiQ&O?SoCyOS5I+=)CX$=^#1kB@uO_
z0yi7uM9NGr<}QLRev*=Yo5!?YS~0k_2}5gDe>rix7>LLLsk%_W0q?o4uynjWQ@yye
z5D72dynf~e^H>WC5$?gek}L(cxytz(Hb*2a{@}eJxS4b}m-4HQlBIj#o&*||SvsPv
ze|?WX3AUS@o5^JefJ}S^eyG@KJp^%duhL;K^?zCzz!8fk{V?4W)7LR2E$1Hdq925a
zsSrKWU=3tW*&4b@QfSwP8i7oQze+xH0S8p{zS@mC_W{<Rp<LqATRs)fJH7;de=^|^
zI+qLfpyRj??>vxPDPW3r>I5P1(^3LOgd*UgwJ*Ew@7ifObNcPcFAfGNY0eJie)pjs
zG)G~lhU&T`5iJy@KdA3K64A0INt6SJ>L1MIr$6CYKa4p6znI_86{n;`ZvKd)a_q0g
zz5sn0-c9!zU<s_1J^yS`VR{t&;xU<oy`x${em?_>seT^B4<>?;tFU(@1VZW2+$M@&
zl0HAF=t)yjixzZF2O6hqIM;o|nYXKTbgp;Y4T0W8!C9%h9RtKSJ`%I37qzoj>{vm1
zS7&Dc7mgRTP=bm0C3WWq!Js3qEJHk)y){!8z03OXR#U1U410Upx=o<(mMmT{Y_s+5
z@>3=}3!r*u6s~&neD))si?zOGy0s*jVN@ZFZMTeX(n6@?C)ga|{$kGQ(U##GH`dLE
zRK59HVon(RtsNY75yIw^6$xk5&j4#@W`f-~i%;+c8a_`f;nBv1%*{&8ZQw8N)K?Zp
zMC2QFeIH=EF_Iv-zhjLU|G+ix%~Ae#KtkjhiLuFGL59HgeD1C7lphJfnw(fX<V>s=
znv|n7CiP4L5ISoKtS0QxdkPe!%xDnEJfJetwg&_xv(3x-;ZCbF9W}&xa+SeZImwHy
z2wVtk5fF-n907UQ+xW>IQ&F7i3$WV$VYH6CKo%sPJu~JeBQ|16&`@zQo{+_}Reb6O
zyJwmuF~G}#!k_l<Fw1pmtN+>8?k9-JlRsZpegmBeEUCHm9N6<87y;}+c#rgTmNWuo
zRG1CK5j^dPy070f?oO6*M^|{G?dLbf{R#m~dQaoySlai}ji26;G`$ov=P-F$6?<rx
zjUQggQ((J?_CiiKq!UO1f7x2WjgCTGZ19efljm<%5-SfDz0i{vvZ!7BQDe3=(J+$Q
zUJ65J7EfJ70eQ3ggJnUgHQ>#28B3F|+>xO1WjWuGRA_%E*C@C!o4%xm4ABgr2^PCB
z0pcfNB8ylCxKl|1;7I<H9c*5acEHd}XRM?bpE=s6hi?$}B_*J%Qv5l2^LO_7g5c{5
zrBM6jseyrK(KP%f*t?09nWXGRl?DB}q*`=v$4yYsC7I#hUFniQWl~bc?cD|<6Rkq~
zP8c9Q1O#C2rfN{4btL>~6~=-aNAiH@G3iMSvR<gzTg?&+@MxiUnW*t&=!t;t3JO<l
z?VULMoz`iwN=)Sf_RShtUsmd{a~ztcfObV{=B;4g#8%i3=)-#4gAb`RCelSP8&lyH
z_qO45yDG(2lkF}*dehbeTZ&N>#p)+*r*g9r{rXOAA#Z!t6Q2L@VlMstG4*pp1c?WO
zl`h2-_`Q!SPt!}c=#0UC8~2ieo9+KBf4rzLz6{{jzPtETM87LZs!-$=;XvrKC?oVc
z$N{ab4mvHjI2%wVN=ByMmzVV)1UltU^{&UHTa1>s>TyoDMw$SBXDd%00jp;(UA)&7
z$6xl!d22T5<Cm$m>1bE}$!Aga->W^!%XgN<lQcxs0OcLIR23{r=X_h4l4Tv!$MMOI
zt8m02&3Uovc!A}Qd(Q-b)B8F|!AC~T(`?ulMZ@CAWl_GFC?`)pqUR?tHSvn0gkz)x
zG)Fmje=LRJZu^Nnl$rY4#GZRg?|XkQI8>15>?(GUPXi~2pXwQ;cx~Cbj!}u?x$ltI
zf2YUp_#03jnT;@#2<#1-^~=G}s)mlD<R3>szYkZw49rLyJXYn)?8k6T60AdFWRcBE
zFP&v2eqv<F5I^?o)YPzEf2)?yMeeUkn)bE6cbCKp)h3Escm_jggHtqGfEomOiqa!@
zO(}uZz^}Ku0BhX@2niH~Ta@z|(g|GTx^ccuKm<`#Y>$&c<rtBTlpt`WUG~j}fMuEi
zJlwUojyTb9+UQwqQt4D42n_~$i9ieZdLG-xOxw*qT*dwfA=#xFgqDaW?~vuIEJ<sk
zUM#psxgf<~U%sU3Rtv5B1xgTI<4R8)wb($L{|jv8pI8fgel@HL5(m{mB^WW<4ci8@
zDQ8!%5J?I|$=Qy?$K1A1L8P#}O#{sNk-6kjk8;9Ow5Azqg=_hqEp3A$h)kpMDs4oe
zADWVgDotZIFLwY)M#iLb!0D1w@*|LFqjEuW5x>;Z^%2M6FV@|gKzXAmV7=V5V8HO>
zPbw{^(+!SX3z9F)HG-}y44F=BwBJAVaLL@TF_0xOa@?>vL<eYQ+!A=dnjGiL88j@&
zPwP0J!|xAbk{RqoV7l;4@;d{|vwnX{O#T7@q8YT6X<q|j-U$D@=>NhB_Z=#2&kLv9
zCG{YMWs7+r$)o~=u$*j1fc73GL>X61k!7^7y;=b<j+kaB&_`9lqVquwLm^$c!(nZH
z7PCIOzt`uX=YU}LHv?+VBiFTD>isXTEj4j$&yn3-6dtsnj&!z-c3OIumF@v+v9Sq2
z26*S2uk!tPefCC?$q>*T?wJrr%xB+^-`U&74T5;iV89zU#>bl#XKG{91uT8u{Wz_q
zcX=GL1~v1=d;SAgYc{QbLqFJG3noH8-!ja{2S_gU$Uw1+ldW=Gh>NXx<Iu<_-r+UX
zKL%jiYN_Cs(VwUQ8F|b+L1Rr&e%IrE{>{p(Pd)jezq)sxVQ!)^aM@k$OE#djX%~^P
zZICB8mJU`fNnf%M2o!E@nNa0s*J+kSKJvXZYk1#JWK_?W?>j|(Pr0+BmaD+MZY3Fc
z<pNWc4vdiN3Uj;blOM%Ep?b8B-05}F#lk^z1Wm+M4y@!f#a)inbqcnk8Z^)gz0qGc
zD5MCa#ijtJy9qM%w>_Q?&`rt{cnC#{PkvGVcKVMWBNr<KaBTLR!QI0FJz=jTI@;4m
zORvlW7xNMr;W{4?G|wi^__DF=4e}i6!kGdPrmkL+PtfSpg(qSzqOtQ)jte<pj#Y2E
zvEO*k@jP~T7_2~2tZpJW$=O0zf6tIh^37_C;Inozpaj|xU+!PcP%q~Eq-6M`+LQl5
zryKsUr>Le#`>D{6{1%URJUu-j05k{;n%Y86af(>Gp>eP}o?I-gGF>IN6Fd<2uLll{
z6y`fA&x)|j{BU&JzcX7DY=GjXKk9t~pLOOz!PK7}AFFuoQW^*Z=bSD*&z34(0;(}i
zEhN?GY@JtG?CIGKtH#uKEMo*VCj!c+#(fd3O1?_xf&2i-fY|c9VfjE@PtP1r8OR$r
z?+R{=9n(_r1l~jQxK`(-?N!V(9YjKkp5?OwNYJdOd}3He;-pU1#VU;n7XUbIed5Q+
zOi0L00dAX>Ng~k=2g2G$Wk8iN8h~4qH2`MRKnB8q@jLP050a`^#lHqxzrn_1h4Q4v
zNZqKTMH1#Axyf|6c1yxzU7Jm&Xbq`>=Hpt~KGZx@RqvHy(8pZdK|Zbq1f89av5utx
zWQhcEWe^|?(~d6>W&9%Lr3c<qvd-tW30kAeMARJe677Vs_jqh(q}4$6sF43tpYkce
zjTjmzH;73UyDu~Kmcch0s7F&xzTb}%wWkH><rc!2>9&RT2rz<K3;<?0(C7W!ho7(u
z#JTx;2EW_zS4LEK3U`6<EJ%(^iXTp&Kfx?#U@4jl)Lztk%HuUgODQ3wQurKz@Qkb-
zP)P`*zN#Ge=%ficFD2h>u-8{$O_`K%a#OPTBWypL{yy(}ozu(@-5;^-2-%7M>QpEB
z8*yqNZ*@N82WTG0oBoSH4~#-zQoB}32;FXdd|+8GItTQ!7X*KoY8$FOf5H6@?Dl2<
zWMLJ-sl`rlj+2pzu)<8#0zU$H7*juiwQL|gJqp%|gK6fmh~{-xf6$)2+C0pc4wO%1
z#)obDG!pT6un*S2c<<m_*1S2Ho0eJ9NOoro4>g+@e&akvZ~Wu4)Phb$3dzztT6U~>
z8B)=LGJUqJHf${eY?z|S&uXdw$pqPUel=(UE-ln!E#kXBRm*xKYgQgmNFOY*nf*zy
z24ps`8`FTaz^QwnO4PMCU4<)E3OG||TN08L#rg8>g^@2T{TTpROr4BawypnF{fW=p
z+6n&jZ+U<|8m>$Yo79N8XMbFK_sE<eBa>z)P`(OdJg05vd*-a+Bp#+WeYM4;Hy~@f
z5sHNF>Sv_M)x5}POo5BO5V|IEoJJo!3ylM53OB4J8QKDHYracL$o6|XyV)_q6P8OO
zRB#U?rmxf%r5zM_yjBxpj==cXOrK(xc<h(-NeNBt>z1b+SLX~C#&5qu1x4ESsz{QD
z7FL7{{rYwmoZmr)5D}+2G~5uVga$LrW~vdkFV0b>PcknjWYIbP2w)mRi=cp0pu5XX
zR4xg``dRYF4zG>lr2}Q$MuEdu4&0vhLn?Hw=7|pr<#!YV-;3VHRal&5lFS48kApxL
zB@PkvLIQ{<G`%EL2Yr~GY}xv)LPC1n1s;yJPj7aB4E8q&p!bHl?|+8ZbVGA7bVj@2
zpShbTuUwCIeunAGY})nAhJieS+Wo<?1kn%Ybx368vcr&6a)M`xK#(s00lFiM$1JRK
z(QL3_HPUf!b2=PJEsnhD6Ni_7oc3j9p15lNCV(!>3MQ@75!RCN3m^>oML14;6h&9M
zA7e19dfF~mWn&&a)~XL26L$vd#~4AMSQBW{AfY`<=f{X*`@X{6wZUz)!kwMP8r!$=
zKqGwvX#!#bk;WhpcYW@4$?C1qbP3qol^{+j$<hBv%PKcU4@jEyn-vbH11)Y)(6oTE
zZH<>dJOS9Qc$gXF6UsQB{Mo0_lkczp1@NbpSl_Ukl9TI3+@A)S-!tQ{1@lpzSK%l9
zdEJ105wxK;I*~nv;DeZ=aFx-BHAVImTM}26=wkqddPZK3pTvw-R2Ye}THFj;S4|z&
z@uG>Svo{XT0r*V~D8-d(L}+wrx@;Ou=Y&)ZSC!Im`+78uIAGYQxePxTc@=tiz$~b=
zG(|K?VAiY_6}!kZAnUG{M|kpLKhU*~plPMZOTfz&)1!~WyVWwBK}J|ryvkqF*KTeB
zgi^T#7UWk)u2Kp7v;ivFi6&myz{I^UIpC6mY-PRAu|>qKKXf-n*S4r7)j2veIb6j6
zZOT#wNlnzK(KNrn8{1Lmb=w64Alo(%GSEDrWmq8@J=O#QpofBis$o(B=j8NHTE!xY
zqgnuw{sa2+mZ|HZHX6*4dI=_yALM-D%KTs-0+=}|4T_XjFS}GYfB#>@ZS{{c`$eFb
zrB0I-$^!-Wr*O^-ZlC9?0lHv9jd_ro0x^{}kamP2FKmOn6B{5Um;=Oj(cm!vkq#}J
z03F#OFIc}S^5`?}&yHQi^tG)#e=1;X1ys`#>9e3rBhVFBw*GW{WqzRRC;T0}PJuk+
zJCOX!VX<WE&y3-NzoVr1M)uOWjSqxLiSg$dUbGI$YG!cwo;B~FX|9+WXs<LKDth5t
z1Hw#1KByofBvr17(%S2HZ+;BmHDE89xf0H8@>yWDTP|@gJeA?Nh7>9?-(qxxVy3Uy
z`WaNjV8EIu>eczSmdW}@s0GjG0AE=EJmfV;)s!`@pZ5CNDVibPm)(TF6L8X~D=I68
z<P>w=Je(;oeQsKA!rT?d6IO_BlKgq`H#*>B&E6_h;6tp-M%@X9P`eY1<X#t<HjtI_
zMRT|G<%HY=)se^;PPn~MFb6!O2dJcn<W`51g2UBumJrrbQLFrmOy_45q{mLlr%7Ml
z${Mz91)gRm9m4Ys8hOcf!zH#EpgR1pcu@#_%M4TjBx6Qfct=eYQss%U$=ZHUl0&g`
z4t-fV#U67jjYPUj68SEQ>io61hZzly?u>W0x|&32-6PI|ZfW_^h*zWI<=-htF18J)
zbcRdmFiVPnyKW4?Gl8lRo!6u<n=#xX|96=2DsDf3VWbnRxIa|U2*-Rbt6XoYu)UVE
zmc_l+!lX4=z2900x+e?lIZ81TLN1OU<#0AXp#--+TR85Vqu~b02`yQ7ZS63m5$kM7
z=v^&$E0ViidQy-#Lq8Tn<;=<?kUW8s_}N>r=mtqt$1F4qaYH85(^jE71uhnHOTA~)
zr+Vn4sbS5X2VLLhy?h16J&k;c%MXRt^Ds$B0tLZHJ+5<qZd}+2Anc#p?eFnmo9vZa
zzn$)ZvyhIF@fJ8U|F}^7On;G%UbhWh(Sjz%dd0SP*R9F4oyFN~elpIq`sDcho(b;7
zQe4T27js(CD^I$M<$-(pOfu1t2QrT!(X<A?1PY1`J9)K2a}CKGP-cRhOGyetp6fI>
z1(A#wp0J7??Bhqy&&=;7YAjjl-g19TcuWJ<LUCG{UK~DBzP_3q3R=S-^&B24K(&Hz
z6fu`EP-NIr`$q7e1lWC^O8X7b#Ctd7{qW5((zS1q0rT!Ab?A!Ba#owU3a54J=VgUU
zO%J0Ty(hp2-9HeKGe@58%{!GUs$cSI4{ToZ&w4Dx%>Av7EZF44i3|pilnt;-qkbwT
z(&u}L3eAM;FFFqPiN!V(6#cP&=`&y+pM0q+KJ>wXQFuyF_c|1_IM2~b({ED8)ETyd
zjyUL8z9Bloor@wSakxF|66b(s)Xka^KrV3JAFyN5GQ!oYNo)?uOLoVJjfU^}vN>R0
z$xBXOI{2y+B;BC$$hl=Vny@#bYxwa+{Z;mM@H`W_rKnq9muVhlhbg_j3tAJhMSC=`
zk*;OtRrK5~JR8m#{C}%T!sevp$>)k)_5WGxgG%*Vw#ws?IcC+WQ)P>p%P*UuUap!p
zYST1Vtw~J5ylZrSpc-8cqK)=>VIHbup-eXrYBky3i1c&XttO%FwaA97yWtoUx+o1-
z;N>v<jKe3|Ji1luT<>town>jxA|5waQpieEW(zV`kNs{3`z5P)t1r|2hJW=wA6%a?
zeC&4?^Ev^?mczTh9G0=Ox!%qWHE<9{yW|R34woU<Yis5M?1a`<w>QJ1=R-eAg$M=)
zC;3X9jMTM`cCDM3#6;Zp1TdW6-8VPdsit^zzuevfa8**-qE=%8ug#1s<8{gv{}Mc$
zP|9G?R453q&J$LyJHNap8^?th0$N`^1?TEt6l2%#msvdE1`iO28L-D_bdzNw-Ih_q
zpaK{-6*t@ss;;`RfQ|6!Obi#ak3dQQYB4@`|HS9w8<kL1#{KT;vHKrC4cA+IcA>m5
z)+V%<=V$0V6WEu&*A!Kx_vs|&PXFHaOjCi=kEGU2LtF*_XyWj0o=?f5<o3?1wutho
zU>|B;^iC*l0CdqEY_<G4%@>WhyIf5af!v^50cuWG`=zkL(6_f?U|?AkGTBnl-wgVN
z4EF7;nJ}P1$mb<a6E*ci6WPf9tRLzaSq-1p?J-vLw%<z~RUGIOFaO%Zs#G^WZl=tG
zJ4@}dX9ji1^vA62KAm<P4BG#(jH6+i44P^QiF;*sgVP?gf2HGc1m-<obVWq!K?IiR
z<gqf)XTfF_HM=6Q@=(OtLdv;mp<KV{?1MYw<<n;bxHEPE^Hd2nz4Vc1BQM-kcl1~5
zuHwy6YrUv~4yu#+du9%yFxoB$8N&PY#|f%EURY_P?S*Q=lXJFvH$ZC=z`>jx(#p!`
z^V7mIQ`b*=^j!Vu{>`5#o_>rlSwT6ww<OX!#S@+~yI;E^5Lvw#;qg1_fJ|%>%1bs+
z>N*g;CYFYHC4cL#6JeEFt~*8mJm%&oeSo^OPup$j_>uH1sH|%WHV%kLxGU!nDsP}+
z)WZg1^4Us0Xl@Do=Q*v*z0n<*OBfq9CB(#s8nfv#YUPCML8UD(mMdKLy@wr)g_u^K
z+k2Mr|4Jy@?b%q!8{oe)3%I?x>xug`uczd{y;RxVHconoY8P<mB4DD!OnRRR77e55
zPdtUefzBO?3p>fP4xk;T88AFdj!Dj$0YYm9n}c=i*-N~(-^O`%N1l1BisRa#?%u+@
zvJRUMwmn+q+XKWeo2Nx%zpElvC&jfJBK#WrJgjZ<K@}HeF$GoevYy7;5ab<`>kk^z
z<}N$_CSMNBNGKH%VY2N^dzE3^-t@XQ?!+~TunD$LhxI0U99)?mHu)I9q9vO`71n>}
z?<KsR!9TDPWI6$JQqL+X(cC83cL=5d&>yhGOYnr`+Mqqhe&%hE&g5>R{BFTx;U!+@
zKx5(Y>02Qq-y0QJ2f5E$<Xu$jvq{BZ%j0P5WT>ZQq9i@16I6YSqhzfH___?kVaY?e
zpmocDmwI`l=aVZkS}rL|Xz!j^(c`FP!&1!M>n!GVU%n5YGFD&NT91~R=3wKWHhSiT
zg4)b9OL3bO)bBNw_DVa6mzG;AlF^&X^D|6X;QSGrPs^G8CHpQ~4-j=pI=xdD_qzv}
zXYW=LPQi+q$({B)*tv>}e4V1LK~m`~4hrDM?RS!-;%!K__TJK^ujMU=n8JFWOuJZ8
z5`f3yNISk<A@HV(NyPm)0Z%cyeid@phwlFdIVfF{n#1Iv7nYRVg8rcRV%EyIo+n6L
zs^VZXZ{-(Wp_>A8U1}-Xw*)kE*X54QqeUH{-c>-&Jgx?Mu;1Hsv6}*(6VGk23~+Ld
zEfIBuIz1ThpD(<_Rcs0IQuFni$+wx?{~|+K_ddt0K5#{B&UHnK+VkA4tRR)-L?k~X
z91YyOO5UD4JWAn|pTf7Yxcy$sc{NRGZ<aMpI$u?R=E`iah3nUbV|4EVgJk@pd%LZz
zgitz-63B)bR*3>ODZU3Spk-blvN<t0x?;Pb!K^>K%09wa**~l+c4l%jr;Vb_aKSHP
zk87hN1XXC{oRhiN+Fhv24dl#V30Eo~LI*^2)u8xcI@KIn&QFrS5K{-g-p|<EL$Q-W
z)0_Fcvz8(|ks=MW9?<)jxWT$tUP>_v{FK8t*74i4$%>(ugQwJP@7Zo!Jvf|SFv-lU
z?w_=Rh4VjAb3)aZgQJAQAHsa(%CevRG@C?5!v=TCtV0p2fXHQ?+xlXET&+LfZ>`{d
z>zyHFe?}&@(?)3!*MIB_tkrO6zZBj!45%Kc+2ShXPXi{kSI&0%HT;(hoTD$ye87}5
zkIngMDVEgML){9r{kJlDdGfDd8v$vZghuwssOui!;bJd#gN7QIR%GEKX1yZBW1!Sl
zXV|2B&C!M5HFS5c%i?2~e&==yek=P6^hfi$?}$M`QS5a8BYsK)K)glGtVRowyp%KA
z>VIa|5l#w{z^OK;w%+tTRzt_f)SC7)waMC#d{Q(POHPzEFGM&8Lw+8El!{GtW;yRR
zZ4&P$Oh$Txn4rR##mSAsb6y-Aa~2*ub+?^2ry+m|c+@9S!d2`f4lE1rNtESe+rvJ2
z^afU!ufM1EMiP+U>{@S?!Z}-<MfqAIIc$z~>w+aPbkOQrPxpALaP9I@QwOMCw?QCm
znYwxDx53lj!gn~daB_<F<JYSA8{d(3r(;j;EkzY~X|7^R)lkYoEvYZl;+9y;w>lDs
zfm_ma*HZGs=?pHEMrH}#V9ro&VRLfUrM#|~Ibou@in*@E*8#ZJeGlM~G*;hFzmRg>
zjJ+U(RWnr)NM%2tJcW&k{GR8CRz#R$GbEWS3|B8Y?)Pjao|=8dWSTo(P<35xXH8Vb
zb~brq)k`Z<w1%*bKY6#R*Y!KLcYb3^vN9Tp8pLEf&&Q`pE!+A`k7LB}-7lSOKfcGu
zGifC-oZHIZRJdoqyd#1xe?)SDO1fQKIa{@q6tgRBq(6;#>Tbe+-Lgf(N$Pu7T*h7E
z8Ap-Fqtsi1GFBDOwjxKH0Lh4=?ZJLU0v<Qx<oIgBKcx*<0x);cj-gmq9hd*uEyzU0
zVjQ%O-^6u7y;XU+p@r->_M4NLzNGr`<CF)#d=~OI`IUakY{JuSYisUB6r55Q2dI6Q
zhN?_KnRI08^|I^ErLtFQ0Ss$C_InmWd&XRJPM1>!Zp=IpaV8P-o>Q0a*bC$O0$YEd
zdVil_dZVXK3;i0i4;pnpp)###{YnfXGn~w#OHutwWGwOW+>i#wG)v4c&=&1Qc$>E8
z*ZF5mWm9ISzVZx97QB)Yx;y7|oxENYU$DMy0fo-gKn#L1!j*t@1y*D`GX8An2NGsw
z36YyAniDwTh@?n2a|^t1m{lV`%gwhoUb!Yp1&F}az9-i*abcM4d!tNG-nm52mOUK}
ze$vR~pjoob;%^SBU$eBIe?f?P>1w4a1g`?Y{E5Hw`M1%VnH3*m2N^K>H+yjyaMziZ
zn6G9Szm`n0O&U)h0c0tkC8P64wSWS9R@W^D&oTto4AirtZ)<;96`WIbT-<UUm~cO9
zHdB1SS^(YEHvFazd<9MK!mVoQuFJ3NuhxG*N&Q}kCBCjCAM?c+lq@CWBh`L&9_t!T
z$DNPx8&tL)oN+r2x27yK33n{_1^hRS<62wGenQTZ;<)n0HNLMY3K@z$fOB?JORasN
zPuZgya6mU(6{R(S$JZsitvFDcYCAL70d@JAbY+woC2^19QIOZ4#fRg)4DL)-V72(@
z^qJTcJWU8Hekz0PKOH)P0Gj?c!gV$yd|^5e=Mt?U!J<X6f?_esSx#;+wG-PlVHaxc
zUXS?%>sl#Gj%ze1=7%3d|2L=T%t2X#qbbGG>?nA}3=wbaUn>}5i-tp0kjpUnKd}px
zEw7TV{dgxxz-s(c3I^*bT*5g_MOn>zzJvR>IQ+C-4@@4%3GGf1fF_cD*0tFk0~ze`
zsP4wFOSFzmxnsm|${kmMuWMQPRqP*^z_A4slm~$#$>5vSJ-33Bmk~L&Xg>4J?P%40
zJt5mz0PE+-gN)5k2J(>}dAjg|hqmmgpb?fe)puu>bA{8y>Oq&7J+5X4$OG()$FpgK
z1_@<-DDgYgSEwah67S2ukQ70xzqw@J*04lPq33XtnkNsO{|^A+Tyt<1C;CBCKG@R@
zsU#;G^HdO?9^}c`_kcdiZBOXQV|=46moAydw!d0gTX^8f_E|}l+!mpCe+Qe1P`svw
z>-hVl-wb=YLr(lp2x2Fls2R$gtqD|LPFGI(Vx)8fR~k-RR?(BJ(WOSoRRLsT$_ud6
zy{kcblw?BN%!u{Rq`KT*y%w6z)>^yKth<O0_SDg|dqu-YLs#mNStP{3D3vgT!_Vz-
zoNrD<!mA}_xFrYLR|fqm-t_kMqb-<5%T5h4<yoXR0`mE}v<6?m?|?KTvNRCD<Q1JZ
zUloQVI@xHC^b({bG<?>vQlY;g%{H<vs~k>i^0|qyna2GoF%SYWC-;H%fvDie$$k9$
zL;61W%I=qV91Z*nOYx{&V;UQE-}$wXJ0_o9?M6)_><Zf6ZT_*3cTi50OtE_y73u}?
z4PXBT-w8L!oe0!ev;?Qwl>`<y+Gwb85$zYj*_n3Jl=DxFW6OQs{+M8|FeDnCDMF(a
z4l95Z5^PaP?GOj!ASQ5RW<S(kF9dmuXVe$G++f<5f}Lwqt~>6=Rc^etJGvcKG)_j}
zi;UKGpN($Lm3l^3>^7)<m`LkEU-_i;NJPJ3J~7c+7hYwQE|)1FuHp1}oY(kQo3F6L
z$~0X?`pPPc5yZ~?@+M@x`cl_|t;|VzdTC#R&&`|6#`yzVv98?@QouRhxPi3rs1k{~
zoUEk}%&ar$w&wN6?m`XMG8jSwMP%Q!TDfOu1&sBn_4k=AZdYUDa5Q$!H?&H)%Cd#?
zK@Eh@tn@Eb(bohByXgDv|0(4LKErp`9@p3h7`yD@QZ12u^2EN0SN3pi^_yh!mlR1`
zPN15gXo6zH7G;{HkLDJl7mM|<kd#M87Fq6Pi&3*_AZ_8uSd0q!u8>-8U<>eFQkK#K
z@Z{7}(RF0(auuKll@s2=f=lGRRyJoCIsS9Ndmf;;JND}d_Jgm6z-fSK)z^0VjQ99$
ztC(KIZh-x}`~tv2F%C*oB%?{KDo1V21y}5+WT|)Fn@sI+H?|Pk{S2~oWpBznrA`wo
zL0B<8xl@}AxiEWkINuewN+H-*xdbE2BGbSG;Ymh^6NEIBN|H9}h0!j4?2n(+vVFAP
zD@KGiFmif5*ru4CR;@$48Scy8tI8_O<}-ZsK?d^so#)0J4&tQ&+t@z!_}8eDeSeR~
z>!t7&p@YYXWH-SWVo8DXcgRhXE~(Ln);%J$li0?^ae+g*WaGieLN2)1=0#a%0=w(m
zI-BdUam_AE5?Z^hj=YOO3jKw)Tr^jVdIK!_8Jz0|OQ}Zkp>wMa4X+32z>YW`zp}*#
z1`Ll;pPh4Nmc{r!5#Lq4-Fuf|_dchP)9KxrR-R#W_>KD|2nEE#>?kp=Yg0UO%ckr%
zhu!<4q#>jLH10TL0_h_S7)YUtGxnT=cDHsp)`p*rq9G2uvsC$h<G$&_GOj<`b>{*%
z870xgmr85B#77e0!<t{jlEF;KQncf0i4#7vN$h&KOErA1@kr^Ep*mL-)LLTG+(8p}
zhl`IY_{lHv*W!P6CcxGH;0&7hRtNE6sqC*6()(Y)citGMQ4zT{!nxTG0|;z|+huK!
zQ;SbiCpht>bIZQti_Dhu>k(P(8lG$gE4bvfZK;ZZQ_-$CYE2P24x!sMN`1G<0~5a+
z))lr_1yiIW_w(2L!SU!~4-Oz~goQK}I8aRK+U98MstWc1k5!B!>0h$Fo|wImm0wN^
zY1q`Mzx2prS57XhlPpj5%wk&%>XL!D-f_q{>pBHIG*BQjt!bq;?W1$ZUwv+yuxjp{
zaq@ZJ;KCiuIqHE;GSqrwhotZz;7jL&piz=EHTm)3WpZ))8~$wbzYKF)lm5zn9Apsm
zjszjZu+8hjF{<SwD!u<9`J@n8lEG?8ZUCLD9OoHw_C?@O7)!@{UQp%xT-1k%N1Kj`
zXtZ#)LiTtxtJ2^nJE}p5#`aC{)ScNrI+v43@4&R4<Z}(EP!tEPVV0CbEd+Q^3fTFx
zv^Se|y+|sXQyae@#*7i)zBJJ7OFZvCg~?9I?$g=sH_#)=0AA>+U%6?wuAc;(D_ylm
z6(Ae!nXi<(fNdWo`)lCM@!Lzb{BeEzeAbH!gd~GKS$ZR)VJ<+FMeSFQpSva_YwvGP
zbiu%j!80dUKo|zk_;_>1r>cQS{}nK%DBrM0IyyS?G)JvP{$KH!{(7N6cVH?8Zmo>a
zwp(JWoCE(JrnN(7W=6_T7S*7KkB3o<(No$z@?xJ~D$rd4#3AK}k%WVT?}DQ!dTwJE
zk}_PwHCyB8h19a=aiYR5TRzLrTT&Qk?U2JInUj<}OCE@Mh`_ZbXTd)kU`HkDGpRV=
zo*ZSS@{AQU;zA{ZaDdGOgw`&|Ee6QV+Vf>RJKn{>DxmPubbBFbFh^s@Z~4RRa|W$*
z&Y2oKQ^w1JR<}1cq~Nd2lyRqu&_K)K;j`_1Q`$57)3_fTkzM;R6Ni;ONdrLVEZn`1
zbhExFzyWMMdmmLCko5fw*`1Y0`KPgx9RfJM;%IIQN9kJvdc1bO*~Al6C|))q{Ul+4
zOJ1QI-?ZFKZv*`i)g_;0X@a3cf}_m;aGrLk#LPVjQW>WoTKxAf_yjjhlfq@6HMo-&
zpq3~`Z=4dqh^5Ih<_L2~zBKLQ>77_~4q8os>N>QjNgZmdR(j0vmMXQSEZwuZ+zaah
z&ko`x<{Ws2)Qn-AFNrD1U=>^Hc;fq3J561mux&fx!S0Dmz+%#!*SXRct1ywm*#Kwc
zYlLGBr$?;ZhxxYI5j*>;Y9j8gcDJ$F$f1X35zDJzHD2*2;@z4Ywvpbx|5UHoU^S&e
z>R4e&yNpTCj^hr>PeY*Gi&B2EjiHzRc*M&XqryA+tnC>K=Bt4cj;TO1OT%)zmS+Ns
z%D^m|OSY@teB18W0abaPuH@Suux`8Wm$gisu7B*Fy&jTX=P)(#GvxLk&?LMBi#TL<
z3)2$I*T>~&Qyk43eFp5rL0g8K8$sTEpHEBXx}w}lSN3H5tmg%PI53H&xddq3vlH{?
zy$3SP{#rW?BeRmoOId0;X3*{myVP;pyyBG<BE7#(@_NYp8y4PBkAk0M1t~8Ir%;2Q
z_c`(frA}p=&@LEcywA+BUv1&de?%u)zGZ{qvW=O2xtF04$Ionu?L=k0C$KOI&IQlG
z+fSo`llFpsd-1g)zzEg>q=9_!Z<M8*TKAPR>Fsfk))8xXOwY}LdK%Bx?zZVS$94Wb
zy3Gn#pfkEYph1c&1llupPHhWzQE<BGu(5=hH^PcQLoG3pm~hlfUi2Q2m?OUVw|aj7
zqJ(FOuI?9xCU9|N$_f%FGya)8=&$}~VLFI`ZzR|1-@$`^UR{0p7;Xer*?Z9DP4QXj
z+Nn@zLN=j+GzD>VR%H>;RLM=Fn>V8JEAOP(pup+FEmB5#5at+6;u6paGK45(CBt&h
zfk4(kU(`bN8frlst&#yE{~NN5&F6Ku;1;!mJ!~rzXB4kXXIk|%rhJh7X${OSVtB*G
z8B3z%KPG9(Sbp;uy+0%D9YLz+YN&uC@^iYI(P7~6r-6Z|j=T>O>vw!E&vgA@_nbK$
z12Md%(}DM?Jp+-Tk2aONDU~+JmHmy}vrn-@h^#Bvz{$@I*;JxCl%Gh`g4VE4g`{4d
zCGiN5SOcvdh*gb16xdP^4llek$z!>>kVi}Nv`QTge<v{V)jZAt$SG#@V&3f`4Lb7k
z&Y~rNyx=&8u?d={m5T-vi4=ZBP))l%0J=Y4XHl-XJj_<DcCvwrPgcTiET84w)@whJ
z0GRVTf0yQj&Vi=t2Eg5G5-2krz3wJle6IcY{u9mDjMnGEKNb2qO~Lcx28e_6a($0+
z*w7}WXn!@Kn>EvTqiJZCb*FZXKkuDFnhM+GyXSq`4k+An$2@cs1%Z;Zzp}qtBh|zM
zaBRr#&KV(*9?4HiO4?+psDAOt;SlXrXzpc&Q2ut~ZX(i#pb8#zL4fMff80}Jv@m<t
z9aGWp>_`hMd!Ob5CR~gu0Y&_|wWu>|BXT@k6RAga31KVP%Ab!{gT$LuF7{Ba$9;%W
zd+PVw{4eA0vN|&27SS>iRqzr1-_)n8tl3v3`~u8De{^?({Wleg$K~?bWYD4lUTXEo
z*;o61!4v*Ae?gp>EWpE8tD5ipv-HsLVoFI~V@=~|ECK6JUGwqM%i$YPJ%yPDAAYya
zf$s5IPPEQ$&D@h`2I_~c!|wACU6Pb^sWnrDiyBN?DW1|n2xFGOhkXeU?LMjn^gNLZ
zKV(cCnB@+GFf_V)5qIT%v}TntU(uz+gH|_xI4o!6eziy3+0abKsF7SyEf1_`S%Dls
zCu`-*(R3Z`)5>eW7<fc1h3V<w%4h$W0{C0JR^>^&Mc?#D%RC0(LSHD8lvahQGugp^
zmf6LZoDFM*o?CsOpjez%(|j0p#j@~l-m|Ovw+|++lWOce(ZnmTLpCj`RF3`o?fSBA
zIj0winepi7kC9>D#<_88JtH~1vv1_m{$V4C>aZG*FEv{-M<*ihND20ZBn@`=BcBl*
zDx)5}{Q@|;WUHw>anP3P{}%6v77aDxw6k;TaQRYNlJ^E5_FpcsN~`;;?zueIbiwhl
z9;{_O89tUj)y;BOC{h;L{9fe`)ZDyA?kGTzT3Zl%)ZzVSgNML$=!~C>a>MDq-DT-I
z`Qh-|t1#CJrMooNQ3NTq@v(<i;hsk{Q>KVYNieucC;|@Ni`Wk*fe*rRz9V-MeGXOu
zRD&2Q6%MD+624OP=93!I53S&%&8_r`0s4fSlCX#|17h?CXyVVW@y_x9Rph`>y#LuP
z<YE<Iu4j1-zI`IL<oS2H>HWE2I;d2mC4#ia?yrT_@h_fc4u<{m=qC6=qiJ*XALI>+
zDE3z>IiayegD(>#`@Jd$^D^O$hk=rtGxW+CdGW;%x5$4GRtxIg4nhrB1un;fWp5_6
zghRg^Y<A#;M8QTGDpqQy06ZQEx6MB@3>9c%>Rf&8ZA@j@w@x9_9)?Q;N*B>YgfKBv
zseY@joPU^a&YL*^;%0ZRDk4C={hz`)G;#hq_-{BUA$R5(>is`|{C1|^YpcL3;yGZP
z0d$%?NuGZ0;XQ}|D{W2?Ma{(>OV3TasbXG!Rhjv4swP1v_n%f8O8O%hSxTkt{`<<(
zB!Iuxr8lSxPlH4TS+rv*5~~>xhWb@l7?sST%r_#R7jRL;_}A;_;<9cF|9i*!`Cv|s
ziUm&mJ^wo#lA8+lz1o2Iey9$~U7}^_%IZ;fQn{M2lqLuKYj43&DL7(8ovz<ese4(r
zswv{HdiOH=?+k<Eg@ckJm=G2)8JvtwMSm~cKx#<{O%)Rm!j#6l2O8Sq6yq!5@N|~9
zB8c>qOFe*V1ilJ%m9)26!x>m9dF{(YXUe`5x#U5UVb5Aw{m+$zW7I*}M3LPB;mzI#
zOaBiu`3ayq5IImJdz{wQkij=0d2actS9diIN@m0q-S!fgVq)}mFZF?|q*2-#lyS@m
z99`t^-GbGLz{3(vgn@Y~M%IOJ94^h_8}wh{Sqsza;KLc1nPZF20#Rt;<BV_tX2vs%
z(nCdg!Ro^6mm?pq^K?DN=ZZ(%h!RP}iCh^^TC!DG%6k4t%*$;dvb=n6FLc-D-hJa>
z3HVKn^X1sHGe>2g0s6{Ie}~%147TXSTNe&GNa-VCAO56W6Mk+UXQ0yMJA!nh9uieK
zt5@_k^6lO*hQMwns!vm4Vx8zukC((4Sz@jR1vcjYjEr*(pACHLXpak+b@Z>__*E{c
zo1d`6Js)+}r1|Guz~-L(=!5bCs~^uo?0i)NFju7}6{fLgIkKYnp&miiQkPKEZ~?~x
z=m-=%Ve4Z<Q~XVyr2nyZ00Z_&cgpU;diIcGl)v}h(Qw>9kW!pG$6sYkqAWJ0OY%ng
z;BG0d#>SU=+#8B_kuhr3wZ;s&{PMlX^)Vhp6@2D`sB>O{{wGwFzF$K~7nQpch1i<o
zcWiX?deYY1c1e-^P}`||D&9w>(FP+tb~Lp#Wz#RSu&uQMLZMkF;fXB58QC+_uAI{e
zs4R~ziugqB{2w)52z-;-a>DVy?j|q?FZlN{?s4d(!9DyN=%_jH9DpqW_>Tt*-$2By
zEb`c$w1F@ko)s5E4EHQ*pjJNp*>1ZQVch&c){;FCe8}B~lwv)Xd8CcgLao28CYv9}
zH)4|Xm7P~uLI@KiW$@u?6bLi$OoOG1AAE!bNwTkj;CT{%-C5Ed{iOJoiQzlQr9j&;
z@D$iZjdjkgs|uVzsO66*17}G%0*ay-w|sqC;xId+8$|dOc#H&As=`8jlp%@H82;3V
z7Sc|yjVA+lMW+t)0O7ANlBaSv3r5ECypv_W>a`#A+tQE2)WIklbAXvoZcOFc{JDzz
z(zQwl&{U)bFU2=O8?X(&qW;?R(H@$z1h$yyz9-<@WXtoW{p(j(1kd*Rox;_~CqwOO
zOCm8&nIa;_Iyf^DRo3V$>4#toLI{FjIA3u<*$(_}fIsywLxq@tLM$d;`?#GbEs$5Q
zC3TTjQ@&m$e+M$4dVcrpXzSTjR`Z+%+m&Typ*SXqF#Ux#qo5wmq4NgAnZ?JaV@@rs
z#=2xj{q9CAz815dmrc)|!9X>V#4UA{6zIp|$vr_qu8+w;_|H%eY}EY|iRIoXY)kl|
zyU7!h*V57tlx5YFNib^a8vS>E%~5Rlzl+ZgP*p9b*8ge3q@nkHyQJ-N!O!yO<qUy<
zg<6&3zTP&y_3b5Gba(OcT&utxJ?G@CQ|qr*A(Max!H6%gz-3y#HGDHYs$~8&L{>R)
zxzgpp;8?ZR!+Q=v=opFRpYz&#@FBbp5Bx}+>K|CWx_3wNs}oQCw?4^|?@w18V{UAF
zx}24JCw$3WnXb2P%TlOS`u3zR9@hZ}P?NrQJ7i>i1*J1`Ec?$;>AfK1?r+i6{_o(S
z`*X!tgdF^YuN#bYHP*TRgPwCe-EY7G0_H<uzihI>3-UO7f)s-$4P9EI!ypVkD&_@d
zbXHpb#Gfy9ZzjI^dnFD>880DBhsM-wkGXC6YtgM8$FM*?J>goVCqzgV=>=5nQv%|s
zGhRH>f2^NgIuXL+EJ9SG^az3wC}JK=*q<L06?m)<Dk<Nt{wNci@AKL-7y2!6q#x(z
zk+$lRpx3{nTh`{en(!NaJ5gv$5b5WFyB%<{3!(n^3nw7{?7@BqKdc_n_j+w?wF`}S
z?epadUjrR~AaDi4(7RkC+kvz%XbP;Khuu2=SAvuNA+T)O*W-t9^DFsS*#F)uJy73r
zej8m@Wjw2VS?^#V6X9+i-Fe&3(rp3N5lCAoa{U7=ROmtXW|If;t$z{Bp$DkX#;ZAm
z2LQHcb2}$%1)kiEqcOQhoqT9GF%<BjVZm{D3d=?qeZFidi~4mtf)JL&;i_B%;pFo$
zc_M^xp!?XoTzQyD9{Cq{b@FzvEnrW*>Xetr(|iC!=VlF<6;6(r^(zV4tSmDQ;6bd3
zdddjfzoQ&r1Ye6BK4lnCgeUOZa~@46a94*cyFd>&!6BvWFyE>s&mQ=;^kI@j9{|fi
z%64VOIP5o0<X@nMwqr~;K@n&f4Ll1uzy=?~(7#tAdQB>QC~9~x05?8F$4rfj^9;`6
z<+3@AC}e}~>Xh}v_Fixa46rGWsfE-KzN59476gaztkLU{3Jh+-MkJPOe{2@IEOf{9
zuI_hLVg*<F7`g)k+X4)74$Rv9(m84AFzUM*G2B76%|94#*&e+eI5N#E;5MIpt84h@
zE}^MSV63z~n$_Q5-<ag)kwp1G!e4c>Xg?jIC_@(oy)MG}J7tCGK*0^Ve|`AO0ha$`
z>L9412>{Jd8=O1Zfojf0Al=|2b|t~=-ie7re{l~EXq09;ETPc@bC|tSJHJ%YGWwvu
zH#8{;E+JbsseX8g-xof-x|Z8v0?f=TQbm^e8hkyVfiMP8%qRXD$~hx2=RoqQeUtzD
zlZyz=&O7fk1E3Rl(8@P69kTu`#)bV2qXnIXAavn0jD5h|ZA~8Z0r4kB9~N<tSNKE4
ziH7$be<>a@^Y9S-qcwp>sh<z9OebHJex01#YmY1cSJ<@%HE~7ZK&zF<6h#z@Vo|de
z5D7(6A3P?!S~rmzFgjqN0~0MJh?Tkuj9?AcwoD<!00{(ArH#-I7z9ZTEn>771xbVz
zlG>r#!7(v1icL%zQk34^B(TuepG;<xn?2{;d%yFYn{&=0Ly<^Xb@-7kX`a`O#yq+J
zDK6iYhRR2w@|}XhgCWjaApTF4!xNmmd*d7rHy^XsXo!JdL;Td&6CpoJwfXR4mgYX5
z32L+GlqU$!E<bsrIR+~tbTF-1^Gs5du1i2^HK3&%sYvYo#t8pd?taK`qffxsphQKs
zjFMfCyexb8i|@@9i|?zOH=L^Cbt*RPI)oO0o=<|2w#`BwEofrfgsu*KbEi6vt+I+O
z$8x<zy3LTJGQvaM448`inVH7+(ouFFg*D~W4}vVe{+PexLAb_#6v_>E33YeAvj*&>
z??+tpbDB0z1}MdjrNsR>Ff<z_GqRYm?d*MPm@@K}RmMd{zaLv&9eyx@9mrpIS3D%#
zhNguJRl%^}lxh%{(d$!b8$HZh(kvgd`nHl`_TJk?9YUo49rlO8=O}lie~u;kGV~BE
zKA{>ac4PFGJ?2&RZ@Jt3#B%8{q|WIV@REdvv8?vw%#ce1B+^0%j*nrbY8t#`YFp@m
z%jb#Za5<5Gz#$G`?IA+psSOag`@OJ7WIVVjih#K}2a*R;!(ao*S>6*i9q1pc+orD{
zwQ{1aSxSdxlRX@UyqnBjZ(QVV(!6&l$)trUb)BxS()INP#Z;lHOxL7%Ye951;+`Id
z=@Z_B>(hde%b_L~csPLWf<8$w`EUwp61<p#pBWmC?LG-fPH#tVJ<dQC#v_^b>OySS
zjVuj_W^S0!_LTh{z*3#8Hq7P6I4uZJz)s%1WQnM62q`~L>&$o>pLfOkQEOgu?TMp2
z?HN!kg{+i!v#t*oB}Z-27S{S~)XKxsPv^$aYioAEs^H$vwkPSZs=r6~K79EyYI!b`
z8?%_f7vsm|tDdjCokH*X9Fp7Q?79><ScrOnHWl#ko48T^nV(^PadouFe#pc%K}ya%
zk^A0Ot_WSy@9kaG@WNOlmwlt;pZ8z<k;FM|6tWC&hH5Ld(wwTj?&F=1AH$qv;-#WR
zuxfp8r#L^Qucszc2X}zxY=J;febabFO76AcoM`B|FVfo3_AE*-+!@7*vPKW5T!SoM
zRwFWf)uYG~Lw4}ljHrEfT*P3F&H$K$3iMmgu2xbVt9J%@9HrO%+s>|@r6RB2JSoNz
zg!It2t%S{LCDq0Yteh5s2G%8?KULSEVO6Svj71}bRmjS74N~)<kGO(o6z_nqqs93K
zX`2AvdMmMgFa=5%buXmyRBj9ogKSJYcUEf7yQKqyUZmi@0o?uz&odw=*@P9aM0R}_
z>@p(}i97$iqAH&|T9PyJ2eLKr=NpNxK6GmK0Z1Z>sE9AA8?_AjqSV*RmyPc!?Z_?z
z3$Hs2E$Ce*F*G9T1alHvkO}8XL!BNGGzU-00iHrv*NpM#Pu!m3%z}XOz#U^iggYX_
z3uda!t6<il?FkMo>>qRYFU^Ra#WDLk&^4)Lv0X1y9OhgU6)m>5@E~6y)PDLy7>08x
z+y0y}2M7*8MsU4C;Wj{^>JHlQZ*pSQ^v7wDK+jR*fGzgGhJcnk*ue|I7MKDihwHJe
zY*4C&B|}`e$SYmTv^u9P`QHJ!G$7yv-HrRO_V?{f!yN9#{AxkUOgonuL(kQA5oi#w
zoYa7^Uw^)bbIZJg)PE4ucGnOW>GE%djP-kE1Vh>s;fqOGv(cqPx!ESnU^4@6T%r$i
zjHK0&2yDuJl{kxb!zs&X)NWT3D7N~qpC?$^&g-{?0I$NkM{6YT3h>_uNXaF97hh72
zK)@li9t#=jH>}0ruh(S&r)P5(%KSN;nUbqa?({1p()4r}M+6=`Lt2PAjF(8maqIR-
SSV01Cg#;(O8!wB^DESL=!ZNi0

literal 0
HcmV?d00001

diff --git a/docs/assets/design/debug_vllm_compile/dynamic_shapes.png b/docs/assets/design/debug_vllm_compile/dynamic_shapes.png
new file mode 100644
index 0000000000000000000000000000000000000000..7a018cc79c66404f89f72f13709f7d052ffafab0
GIT binary patch
literal 368000
zcmeGE1y@$<_Xdp8r3grOr%DM(cY|~*A)+86-Hmjo64D{1pdiwMbT=a1-ALy<d4KzV
z&UZND?BO1JJ4AWbTJyf<Rm)H{6*+7yGAslH1Z)L)X$=GfRQO+{0SqMgk2tj=A_9Uh
zf`YV!maEZL+K~^T?pWn)!xF>qaDqp_8RczV5*K!irYiUeSOOO`X!Q1p-V<UIRPCF#
zQYzjNa4R+c%KY!HgG!Tv!48uC7|vO0#MXG(ar#l(yBm(*oOhf5`!R%Y)9=yv|NXhB
zj4}dw&<m3P{dj|f-}wLeiEK(E%D4afm7rKAPDHE!zAWfPF6RILxBdU%E!k_AtD6%!
z-=90V;KkgNb-g<0^%2;q=czbFW%l&G^!NL}QQ41;`;5w2vsT)0eXco&uGs0(8jQYQ
z=YF)2r<52{elmrQ!*)1Ytn0EnQ*XcA<#YWnLo;86Qo!D9_Lo<!^R}St-rV+NrRJk8
zOj5$Dh1T%=rmKq+o0+;!dW@S!KjeJX4DZX+?{7^0n_KzCTy?~V0m+AHLN3;$McTuk
zpMK(c*_JI6j;qw4E}~R{cCl-_+LtEkb^gO*aA6=ziaITuzW<5M%v6DTPS=MAi5$ki
zl#{s`6%$yVSJ|4GnRUi7dK_&yZBOv-ibx)?E<en6fj<;Jlg;06FZ|K4H%1CI>)oBG
zBu-_*iN0zT4lQ-Yvp(NVYh#u>_-y*WgOF=Cl#Ss1Z>1M5ItYh4omG=5<IeTF@iNBz
zx+k9UG<fRK<K^bmBJPLOK9}<%SBU=HXICe)>bojI!GVD?($cy3Wv{ybR6DE&<50Wr
zghfaD94uj$i6vj3!F_$e$M;k3yXlSYN1JBNBAu`9n|~hdrgbjd&Ax7I2qnR4Jv?03
zR9-&X9Gh|Y@6gib3Lr)lReN3VZ9Gx>_>iq}2yP^;6x#KH&CXQyYVW7j`c)}ORNIxF
z<k)a(-9#pVX#TT};?fRt!aP(gf`Vt2*6mT07e|{<-c9@%&R6xYmhd#HbG4gm^n;6_
znHMxNL@%xtI_Ix~2MbS)K9{vinf-^JfKjo|qov9RTQ0sS?uToG^UcAPHnZNxTl&(c
z#k!@!bk7O7_vZ=hPSG!@oTQ(;V9KjM8g%b{;784xCb!MvndYB1QZ9-WB22^$gJC^g
zV_0STJ9$EUNF#yyf0x#l|1<@^5gy|6N^43aZed|z-IC{#<WHys?3bDX@3cpdYUawv
z!vCqJ3y*vB2M1u85E!NjI#G#vZ;4#J@Hb^HE;sLwLSWY_82J9O9XFXGR}Bf3A#UYh
zxqEw}LW&KB$KxDsXugUJrlyhD<z6$4FP?xq;}cQOQ(G80m`~$6SFR$$N0h|G#N^~c
zZ-y9lWC)+U{j;?*UAwavkI37Rb8)==iCLA(^b<^89HWx++Q57}wGYG3)aAj;%!kLj
zv#KpAeDA`(HF#guJjv9OI1Q*X`ThPya}XuJEsa{k{-MXoPOQhj)qZODIUarDfHxNx
zmzff`;W8Ft+~kt*8wO8q2N+#)J}Z8=0|wOj`tz6KqZ~tt?y--}Rf_h0ycy>F0C&Gs
zzkG#0jnn3Tb6STZs*kuuTqlQr-+HEQyvFG*3P}^%&FT7ZzWXIyCQI1UPkfBL*hk0`
zsJ41~dgEoUsD)kUZtol4#nG7Y+tDJKYhw22r&HAqGY_8A?3(wdr#*VccVhCI@nu_t
z)8?OP_%jdQZ^JAytE3jFWl6$>sfYS47RN7i#xt|9j3iuS35uJH6sTLY?*6*Cx2#|9
ze)LekY)wCx+n}3V4NLuv;!nrzi4Xbay(vxunG#Wbx-fX~q@s?uCs(^ZbW@6muRgK*
zyO(I}tx&`<#t|Mvi_vg%?QuxUM1Y5vbrM&Dgo^d$dG*1|k+6}4z&pg=*JrCXtL-;2
zqF(M{Zx-7k`!mE&W?uhyaz#X+0-n^s7{izD%r@*2A+u!X$VG3Msb8lHI(0b>xBrH#
zdHd&!!lhCIOKdh*JvBx&l?a)bcU{+4m<112W=YI+5s#ln_3mshr~F6HvTi=IYQ8?%
znU)Z9U?Di!Uu^GA<cL<@h8rA0xk7T6Ep6+llmA`IV~7PyE3L}3OuPAar=>a8>1
zB!jeQ9CxRx{dvBs=b)+5_VkNh+)a)&b1IQYhM}*soo_my+S{`&Vc?e5$a^Se@WaCH
z`tq#O|7MnJl%(g2etD5rp=1Zy&7QPlrmLgl;ZUBESV{GA0&(0gg?J_d+>}Swn)Akr
z4&5IgbtZ-VZ>z`3o}!?B>q^(iQ=CT}`}&NSYmxsK+$A}&rJm%+nxB;c4R1(<YT-QQ
z{SrmGMm8>ez_N7KmnNjnbat@(tiikf#F6gyOjcNa*bqliP8W7#DTQy>n<iB0u-X@h
zMJV}~#-3#sK-I%W1x3LPa0EWs?IYfs`%SBo?0vd7|M&Y#Cw4n{KKUwXa9Qg4`C5zq
zI?`Hlva&0^pLC-MIE+%w-I}qmA07ja-ywP^o+7BakBVX9xZV~?-f+5bC&OZlLcreh
zY&p@a;}2X0hY^52z2OM9m*~s3yOr<g@ph+c<-B!DjSQujnoy_+3AJGt4e8Z7zk5GQ
zwR?H?uf45J@WlHxM(h*cI}J_RXRxwHVZ&hJGkN~&ePUSaoVRu8ps?KaL9+%c<$pJC
ze|;YlYYx5_%$x@0mDPCJ(e~t6^5xm-{>wvU82|ma+fy<kKZrwmNOdiu&|I$Sjj<n$
zX^P_&NYk18nE8IIhaeuxGZ?BLxPVQfj%#X^UrOpTVdf;<=&WKg*93QaLun$Nw<ol}
z=yCPjo*t5*lQ0C%&~Rc7Iwm*v6kB+l9V;2$=a_|s=V6(*&_ejtu$E|gG)oFSiayBW
zc#HHL_w5tGhjs8+(v9?ueG!<@ISsZi7|G<%FHUxa{8GhysG8><u0-xR)YM*uzKve)
zOMBML{4-=`7mim;C_W$=!^GwEFE1g5Ii#*-WMlL`<b7%$i<lIwac+}Fghv?nRmNLe
zS_oLwd^H&|7(8tF{>L_lNHQ`JuK)FmootQ!Hxwfa{afnvw;IrNZG&^x7egzRB^l_v
zGj&Fb6FMT$<Hsf4Q_THPBNwBo)8V)oy%4aI7KPK`RZ9ro%rFug4?Fw4D~0{#?nIlV
zj@Wdr`g2-(uk%AeB|g?y7XadLSn*Y&C<K^PQc1cxjMDg?e>LExG6Xgd&#YSHEB&r$
zK<3#@jgykDim3NxmGeD08JX?B-|4@7lSC|>t#z^4exZ`cPKii2A9R=WK8tVY4NM<Q
zTgR&p4|IRo&c7F;Fr1FuqI<S6TD<BQ@s?>V;6=JdnOWzn?vJs4JEdYiS4U&XkIey6
z`gqOOzrAQq)x1H~NVLH!<o7uK;`}d8)^vwzKbB^*Bx}_vlOJpLHPZjsRIZ(<1Y#<U
z*Q*e}*S#t8NAP`J+9F8ZpUYLg?n+=46g*!W%(0n0++9q3_hxUf^m(=YTq7cbplMIe
z4j@-Fiw5E)SKkY!NQ*}d6f*vCC+S4Ek7m72rp+a9uCMCzWxi30dR95E4+$<GRnB_<
zGop=&pY^%%I^G&bmP2Jm?K%cn7d+vI%?W_j0OOV_;DCV=s$HN)YtFU~4-3v&eo>Wf
zsZpP$C2OE9d^rE7D}8CT?<Rl3zN&|R0WXkIIs3i#<`4yjzdn0%?Jny`9}O&mfRvPU
z|M+t|#VoKYcHCA?Bw}Rx%fEmB);Mi$;96*;Dd*Rq_Z;C6hio&era!NDCq!OhO@9<}
z$&EAaAad-vK9ooP#9B=+;G+hY@^)qf3+497y}C4{$nfw7x+SS4xGU+rnfqrX!G8Z~
zlfso@f=0}t55Y0wbm^jAWX2Tc#K9NmN1Hjak&@pNIE=5U@fz9mk*BSnc>ne|e0RzH
z9AEWnv$UZEj(O;P#)H-VXaZKv&pq!^?@V=JWAd1`gxsVcFgf{jsg&<dJ!h8C_}#j6
z42MHyB?r@gCJ>|Z(-V#f!unMaX1}RAw{lon^Yil^0x0<>SfQh5|5iWoyom!|D(JM4
zD&q0SBhZ&b>Lhz};3G>LZr(jEIVT5V#W+`48JWWKUO)v!?PZqEsY)B_)|P#sGq8sT
z$Q3(cWX#5ZWkgd5yeB*CCfR*6{23L?1a-e3RbDPy-41tLxg`6rgVg-5*t{kxo6eU4
z|6)MK@KAi_nO|NPkyd08TMWSpIZ?Gt&CJS4zDzE`sRSYY6>rCMU~jw+Ut3#?LrN(J
z6kfV%4JYO;f-Oc4NBqLHh?eM<0Me;d+b^r62|jxE^WmY2L4#u-9P0R_)$YXIU~2C@
zBihgJX>3M|2vH3xEJxwMZP+Q|j?V%qu;(wtVfjA_*UtRFcX|$Gw#p9qNFzrUTl&t9
z{qOgvmDbbeDuyY-DB+Gk3!IddmFK*Li{3<23jOrHItS{^m5iA!pR(8<?Xoi^0Py&$
za<D#SD$dt-V2{lgkFUf;5^3C@UFOBYVb1%I7aC<Tr()ihu9H9Ct!=~A_a#3@-;WtF
zSwvZv7j{_bIo)5pL&zq5Fa9IUV756@t!$}bZP0;4J};;R2R2%}Wj03w;*nD08`w89
z5AJI}1;L`m3u|0;L#ojq9fzk>O^zV`#PR-G&x?mGtf-Xos-kPD&+J!V%77*h_)QVS
znCE9VV4gc{{rxUV8Y%3!Hjqh;C*0Dl*ny#v(c{lpv=cY<P{wv+WZ`gqShrB)73|Z$
z{bR;HPgiU?;WKuuz^VG>eKkR7YadfzAcy^!6`)2^wh&v*%))S&&?a8UWry&Aj%!8&
zN=<<fRw@B7)CacPn*lAmtTi&Wtzm>m<;3V**T9}M%iR907?zoZp78xoO)cUxKE*IW
zY0Q!ehAUh>9VdPK8nzhshAA*%J3Bl6wL;ux!6u@5JW|qX*L_nLv9HHZBPj&RK#j=X
z5w=PAw)yAAzZTf6G3@MbE!a+;Wm#{5G{*Xb1j91w{Hl)E$l{i<m9yz+&KOcA6Ejus
z@r1QrI$^-31wT!*{B>`UcJaZ$&v%n_0Z6YNsY=u0PzmcXFPuyBeqhtKZ1hEx(5^fV
zx&JUxpm0vs+W4D^Up`KJOm_ln^9KyR6T83;8lBG3TZ%MKdD!f?QUCGLvuw)&vG!={
z6C>L7dZ$et(4C>Ov2-#&t*1BY>D~Y{DYF=)3mav=!$i!YW&+%)ucX`Oa=#sZE3S$#
zC8HZ`6)h4~?ijO&!_1ok|F4V?B(V%j=6*%@lYx(ksqLSkKR>;7TK)SbGraY+HH+!j
zr1&z}XoNAHjZ&SAC+C0taP8rKbo8U>H$1JJQwai~evv)H%!ue*;r8#f`DJ-ILlSw|
z%0$K6+$h&LqX|S2*Rz9H5iwiYL7zMRTbdEkDXN+Xn}1at)vc@^E*!&J>-Z@fNmecM
zISNB2h?aaW>w#7Q=ZmHQz-6@KWu`#()}{E0!0ha7KI^H1B4o@;j}z+=O22;?2}79@
z{?=1f^Yz9HXBWE-Ic&V9YcpiLmR1u#)@SNHScon?0`lZK_td2Eh>6*>*7oL`G3j<y
z(*#EW!CRC;F~)lON$Fv(f*{8x;~AJXrQlhC<7e0XdYebe)1CdelkI7T2|;abe|)3*
z`b0%K*GpMP)D(2CRNl8b+pR||4}LrlWM)PD@|N;K`Z~5=LWseskgbJzUh@kOr$ZxJ
zx-%HS-cL`MBVmimWO$Uy6Wx~)#*5U$bK6<MNp?8e7zIl~-E4_Z{mQ)72j48^Nuc~a
z6M<bV|CZo|74GSnP+@9rGx-7a7WZXX%%C-QbiNXxypj&hmu!2Py)-01Y~GhD0HPA$
zT+ngN7yEE){4qPb%DbcnX@r-y#;UDTFor;LoSu9JiiCQ#gh#+ehBd{UHUmJ8ZGdZI
zCiSN1!|{FmdX!Eqs~pqTFiSBBInw{OO$I~8X9QUqN+IVjfP4U*a)}GO3x$h`CmW+m
zC(@W<&i39X(=Ib}aR`MJ`1pW~RP~jBqx^?3VEQ$VZ@!zh;>vfl!Z=+!9p~<6B9Rmp
z;&s3R2F%$TjNfQ|YP&9V|9!#mJ+u5xZ6QO2_s^ct-Sq~p3rDDEr5`qi%8jnE7cYp^
z07SW%FFS93<i2eV!iL4OdcHMYo?|w^d<#mH7H+sMlp^k0M?>V}t#V@QxHo+7CU6O=
zpX%_u{S(osl*sP2)PcuryCeB8=CJ~%3FRUs)20}6g$*{>b70Cuh@pf$9<k3_5M#ew
z{ZKe+WR5nrrIvUWSHE_7Sayf2byf5t+7|W(yJ1ZXGJ(W^+gEG(3qZH(A!cf|6rMNs
zSLaT<GVGjaUH7(ElSIxme|esLeO7sm*TgoSm6;rbYFZp{ree6A7<#D3{RWfGH2!_f
zXKH_Y5auI)o+i;Lbf@qZvm>lHE^0<$?1E>~*4D<vd*?qd^YrkP2bI&B$DVjU^sf}v
z+ML<c6!4Nq20!F$sqN15u|T0podC5u0Yb_FEK{!THzQ({5Td<^>VD__T9#&zHT0p{
z*x3kp<ee9XMJ9tA6Rg2ybQ3M4uLuv@fXjPbY*#)9I#UgBn&ER@4YFy%Z>wkTi(&20
z$7=ehY#N%i=7Uxpud~6>x|0xRZKKqbubjNlfzWpgm7}{rc?Vv$pxBkc36*3@?+AtM
z_T~w_`v(tg+_+1r;Copr;1&IVEqtF*(ZZ~+`uKq?F&-k4#McU|@gad7UujYS`&?Do
zW^WKB63h6>!?3_OlT*5RB~b5TiaBi%Fcus7+;n_Ym%awKDu9T6QwHvEpMXk&Jh9BW
z{1+_;@F#S>8U%J`4~t!&=74$=RQ3W52H3r5+JkfCae2C*DX=2`GnL=&eT>&ZbwDl4
z9UfahB-EgLltnK;NVRa>>7K^tjC(s)^2TKc_(|w!64%R)40^e!wGwsA`!5){h-Vvo
zGI)%DF94o^d-3>n4+)RO05C+@-U_jJ!AtRTjUVEfp3>2RcXN8aS?WI{(^BKST{Nbq
zJ^eYmNodXR{|G}D5QhD_2RdIu_(=GylFDE7WR%Hp4#}L1xgBi~QgLpes-A;<g9j}$
z6CjErNUM&VgHUePnH@&=oR3;ogANZgHGY`KQ<T1Rk;yzI;_2d`$-(%wfBNOGZ!M;r
zotQN6$p(!$;&k#92}|S_f$ZOtYXG?|I^KzvR@x^rNX~0XU>VOD``bc2GLD@l_iDa?
zCgIy~aww;4S9UlMbbNC1P2rR+No3*&Iz5T}2%qHO_<jbyEsEF+3zD)$8McD`N)PGB
zD*G}I%7;i2BY6Bc%iOC~$gljaPdbrIT7+%A52(v#aTw)kLT++D?v0K{hkiOnKu=>%
z)xbRtVKFTc=`V7sXiiOvX@-yfZmh)c`Sa%kv6Hlt5<FIaIhFq;wmq-UNByvnK!)R_
zxF>dVrh0Jv`Pf&mm8wI8+Z@&%K-7}+qc1RAZqB-jSnnmD#gPN(Mn*+Ng@w^=*EsS8
z+%f0^7BTt#C3>p_q14}hYE~a|@f=QC-9-pLMmX8%B-|YdM7=|FYF2Iag`IPSWD>}Q
z0<m8roAw3>u=G3slYJ3C+VWX_wJ%4$=;PnqN(68M|14rGdR-h7KGahq*0Xo{{<%ho
z#fZqva-<+OOkCR<8U0?J-J<MT7TycG>eszw3912(sPyt743dtpg!(@6VRG-<ff5iU
ztxkDjW5g~i4+Av^Ca<vF+CY{Cd2R<FVBWuAJQ?j`on=!k^n+2-=aH_TIA0*0EygD|
z?&y~lSdUbca0GsIpu(1SPfIVV?aP#T0t*vQC*-FhS;paO@bP-+Uth<(dsEF+=;iAa
z@%>o$);@lmsq3T#GP@e#dw}G<iK|aBe~+HlxDvgAF>g2tBWUu6(F%_WiwPYD!Wm8s
z+ori;0&_Rst^;Pt=%-b(`FiO9V8-jO1{F<a+a*Bk+*O&Q-jo_Q{95sp9lx90@@sg;
zk+%x&;l&a%R!~dqtoOw`a8U_@QzSx2^CW1!n(y0LH6ru<0X7Rpb_qBRVmOQrUP%%2
z%qMmIchFvx7*vFDKJK7upz=~0w9N%9$$bEWjf{48&+$eB)fuaho%KKRm$L{0$+Z&f
z)4|X}@WXAjQk^}rA2=dy%({49mHjw?12u>fg`NR=47@w$(W`JykAo$JIZq|_6@r6k
z5&*LXaX%#fofkv3&&tdcq;s5Y_Y>O%`WLLg)B_n6<e-{VP}b2QZ!LXzK!C)+gCane
z3){3$3gC^$W=1$|xER<LvPchVfWtxy<|uPV5bVV23&IRhFG2G@ij0nYFx^Ff!^80s
z)h`M4(fy+5cfa`It;YkJd?4~&8V^&5?<%)+`0+%wDl0)(6s6FQ2hZfb3DqzfIg4$K
zmopbKMFK%qer-~&IE)2+zvG}`r(|m+ONcZ6v6&KlC!WU&G=;W4NP7y^OZ^!>SLa6(
z*mG%9Rd!O9+pss*{E*R87k#eJn8U0AHsR8;w+<g5GfskK57zig0R^u+wvDd8&Q{2I
zKLMxPTzIixrl1EK(2INPa?+;3=~o;Bvi3U24YN|FWQs<Hg15kKi!}1E_L=)(-S(m;
zwZKB^EJ;ctVfG2()7Sc}Oj<$2F6H4M;vByJ(tc(YRcefigZ<fq7mc^#$8;x=w-HnE
zX<*}YeB)Iawniemp<16F8QXc9zWM(Mi6@z73KEH}j}sl^dtChjbURPG^ZjyxsDG5_
z?&T7piC(^gH8lvO$X(L9FOTn<9Cvfqf##RfzDF&ZTJC-cagJokY@M4XM^s{A98i#r
z$x4p-f*NsT4#OHPVl0i`LY#%F@+`Z$hZniEBD4oU76YjocW*BL^;ZZH<DDKXE42(k
z;u7+>lHPUW&)0CtKa6R(+Zg2R4nyz1*-TY&WrvevV!wJnbr8xUgPHT)iPDP7Ph-?6
z+WTVrNnFl>kQ$;OW!;3&rT`o?yLQbcGhu<i3b1KiNeiPgw+D0Nz<m&ivet*en{z=y
z@5OE*sn-4F=~fx1j4D{1I(6K+^>&*nGO_OlnB&>fO9@aL@O1KJg32r>e!Lloberh}
zQjKTD&;W9#X29jWh3-RiFL|BKM7&2dQ~?uKlRqB`JO<tjo_N;lc#UsK89P}rRB_EU
z+yZVPnCg^2^j7;bGDfzk3Pck`C2x&R_`!%9u?++ifVmlglkj2W<sk2mt1@?I2!~i>
zL1>xwfEOp=ar}_@C1(PELv{MBo<Zg~O5o+{@jXgGi+20LY?(q{ijfyc1+&U!90bc1
zCclwR^xT_Pk){#!S8>qOZ2mLzJ>5OakWRr2kXLi^8MNuMV|dW?m-+raaM%(d4TO6<
ziZ(!*BFT8qx61on6+!u+-6g@r$M?q?BK=@-m&%XM{-dv?cTW<R{{uWu3zd>FD%}Lm
zCWO2v?uQmF(Oo8~t|fBe_urRj1q_KJW~&eOi>}Ky`!kE5q(1?fCT?(%8%&f&%JB>l
zk8%6(Vj-L(jF>|uh~_PCAH8gZ_?ULd^W<mzU>XbZ@Qp9yJEegZ(8zlE6}UOrZ*S>3
z@#L&<Z*J{6?lD}9I5gUM;#8JGHd)m5A9~(Cz-&;W_QX4d602!t0CwraJ<C25mzCSh
z{(>#RaIjX-Iqrk8PUu)p9qdYaZCL*LX<3P6AQr>0hm4~5*3%T8(DyW(z>7XdI|m`+
zD^LXlG;jR*qVG@g=fK`(ghH_3H{=8{%0tChA8Rzol1uA<Q8m3fwhFi#B=_5X4AO<r
zCTZJ^1Dkth*FagCQNuhSjp&#Lr+)>WIz0iM!9?uTZVSh!NMMwAq!=H3`|Fx4J@>mh
z{f^_=gB`^UQy+_=F~kbxpiMdS1=R_lz>i(`Osr&!=T|d)M4h+v`VURgCAEh*Sf5t|
zC?<%G{V$C_l|M5>{br5hZ^WimfXmkE<q6|j)y;ne{+Hu)EE0wptd>5OR|yRLP1SN}
znMMQOH)4Z31KI%P7()8JK)VA7TF$2RO-c)|sSUw83GU3D4Z<d82QY*0Ei07Of9AI{
zRKj)*AWd`y`ukbNVQ+Ro+IlY*-rrgm4mSDV^>dl*FGlrbgT?#mhqa9`RH2VIUL7oT
zzTjr7fVFa~i_2bxtGc(vq!rMc=2c2}EE!$XZ4IhVXv(>7j+O2zrCum5DKO#4gx#V!
z6H`#W<L*qFt(wmBQjx#&W#ssZe<|J2*=xP8+yPd#cLO_vG;o>lBRY>E&_&sC+LCB^
zIP&$Gu2b41nnswnocIksb%NMgjytBC0-}tJj5-k*b&Q=Uv>lw<)9KhTQhvAt+rT!l
z;s-CzBV~zg9_W2D$zHk2i0ub{196Hhpe}A(lD_o9h+QvZwpO7=9vtmz<S`LHikCFz
zEWEvXG%ph$J^QGf@2;l7K&eS<7vIhymF97{hG)UXb|4o)Vh46YV=c=7$h0_cuNGY<
z;{HnkI`=xUOahjF`=iHNf<xqjM$Q}}J=NeN_DhtF(W(AD+bgH{-&JLAvRwzAHpbh#
zUn_xa`2}doPpfgrbc<@|HVj#m2|3r|L4SyOo%0y+l}mIjR9xf|KLEslaEkpAuFtjh
zYC1n0fh$m$7!#28d}PzcQeTb5FG5%Q^jtg%gE>mr^K=iaxPiWBG&&%gFZSE11$Gki
z8agtVo~C5Fo_PQ$fYQD&6I`ov`&VLAABH67{$`bV0@JYO?HIfHrs0Br7vp1X7uvV6
zW&x@PV79~q*V?9*4SQ%<lVF~8KlmOc8B=|g!n=Q;Xj%ijcm90+)MYcuC;bb24r$ew
zJN2vY96jwpdJcE)?HYTZwR*^Oti>2`GXoI;_UR}pxK{R;&4u;e2-Ac%aRS|_u%OI?
zFd>?2E`uMW_fr<+V@&Ja{xMZ&6}!Epf_--@XfSiPyswUQH7a3RxIgxcsa)8uzg!Iw
z%IU!GL4F$I#vc|-EnNk1&0p<<v<+&ekwd`ZqxE6AO8+70SatXZlG1_F`!gQ7N<IL2
zpo%lV3W}=!zd8(3#uo$?+<uZP->t(f1^<WAV}=m&j(UvJ_~9m>j$_n81extRt-{xU
zNxJ_Jyo1B6$2oC6V_)=#GbNB)WJ`_eLws|RV;LbhUUrooAC-NjP}O6lr5*7kdPRNw
z4AS4{AaudzkXY=O7?}VYV&Em2sLx<L<UW$=lweez%=(P!3D_|qQP2`TmztYE{(|)3
zZH(K=?(C`&cO-_bpSeAU94zRF8BNrML&8lQGm;`F5N!kjSk*+23{K6aAKEu#GT>@=
z%b&n5;dwWaK(Y8lKo!Yfkqn2;SN-d{nd?sv>|Cuq5QP91huf2hwyF8}@l{p)Ek&wr
zwB~W!u`$11u<Cd5<8I;G)q0*C07<Rs4(SmC;}Yi52X?dJ!X(Em2LYXw0$x8pv&utg
zQ2<qf^(F*%<>ZT-XfE77a8kgkl4&z-19=Bamso~+BvlkkUi7^)<a?0DXSdY4>_#QE
z55;j2HuRV_=4wtXzWa~4jCgh-@zbu;CKgfD$w{H*;X%Z1(&!6MEQi@&ln$4@c@hj!
zLDT#7^HILWZEW<qxFxrp5de1x8o>?uQ}#;f8u}sZUG3A`$yzl8lCt|~8>HHb3eyGc
zP8miSR!m#+{JkZ)*2*#Wp798zU`yQQfCL<6-vCiUij$I(z@MS(;n87`9(y+Q)lvPL
z?BREr01v8p;`Jys+U?s4iEKYg_Qns$NY>4$=NedjA%xRpF0F}<XSYHaybzl{4>jxl
z_|(PE**KYwrxb}e$DN)b1Jj-3`?8H1{Yf`E8P++D-veao!@;ajcj!liDKjR#{ZBZl
zhN?bCXkeyzL3AEgaj!E(A&OoJLuU+2QewXM9|!s@tH(8Ks?4`I>THS-*=xv`foswq
z05@VhurSCCp>K`}2V$yQO+rNUQNUq^P9_Wz!yL=eB4GI;QBhQ&pgrnpqz>LN_sK<3
ztV2`^i6)5a0-v1hY&v>+Ct+J~?=>o^MuqmfMfHF<u>sA3tpj}oV=(E>WM{~B$-ABZ
zCnV@el@WYGP7PiA>&=art^EU1KY{E$al~N2cU#)eRfwNT%M*0?OUj)Fh?nU>&xjLO
ztC}IYW{KS*fgWSt5t9Y>N6qT?MI(p*n`mmWsGVt;I)ErAR;yj7{|YTHE+>-^_-2rn
zouQAjmwU2)B~<5mcK?H3wsa`?zYn2(u#W0&)|H@ek~=R4I=im2{tk*QoJz-SV?%`7
zuwXpkHXPn>C5C<Nu{Y;;^3x{)gx%UVhxlJXFFeUkUv0EAbIL4G2fK`OG+f$)1=1ke
z^r(e(06zEDbnOY$DP|nn8oG>|+Baody6qWw$OPNNEDylsxkgKi{Gh?}3`24H5w`J|
z)V`4=39Sjz-#z>Ng;o$iKP-SlYg9(rX`H@N_zH`B3r+?6(rtZ-`&AbJ@kbaca2u{+
zl6R&(pvp8eIn(-9AKi7KB~--Yn1avhFQf`M)S{lCnBd&S5K*0gsTO?_2_2;UQi#$0
z0ioFS%TPG}c(7yRbA0N7nop&CES-?^)?WJcoW#k`H^V`v(Ii|8yLAh0pW<=qAWe7g
z4@BF2rMw9wp*_GDqDv4WZ;t)%=<jb=&cYLqSKdp%n9CYre_pi*jU}M@A7o#`H>+|0
zB!{f~6^sMq=~qjg_`4!me*P{nN$}_(NOA5>;pLG76kf)Icy@iN`XAUpc4WwjbzBiH
zrnk2SgcjTdIcaIFFM9hBZO#n)kl##(bM8wu5D%S;`CJP-QIEXwbc=Nm@>@GlSJW8(
zirvf^VV1evvfGow`xfdiH+_8e8B}#TF_twEt>8}A=Zm>Q6lx43ySKLo>tKJ<Ly*U{
zKHK|Qg{5}2{VOwa8{1vNT}eiKBs8C#+Y9JQC<G<|zu`5c^n7Af!mfLnw~FE4Dztp|
z<;IF3$X^7v<Q4p~V%E!ZZnKWeoJ)QUKnx0{T@hMw(dTupc(k{}-5>A}DY}EkHdn$Q
zt*<RL2v3m77n`FFFZeF$Li|@>(9u>GEr4>lyts`Z-;X<uPGGGcrmHj;ApAjPn)vzd
zV$kd5GNCa<Vhhxyr0Z61Gc>M2Qh|9w>l#B>@COWmUJscvTMx(tvWdCk*$o8^(E}RR
z7zySeyB#(W<6OQ^N%_?KcxPJ3Nd)nR$Xg%#htJJ*-vm3x?N@-iU*NjG0JOvKmuGdp
zc=a;$(!{O~hXFR@NQ1;hVa_W-)7RuG(fn10EJ{<bJ+cFL9%AAvC<#$dR|fH55WOe8
zO^HVRpT56+jxhh>uuay&ze4|qdeMRcU}1504r30^r4_8Fnc+7i!Yi<2GBD=gTpi?)
zd%K<N7*7AX4(Iq)<-DD8;%G4!2i#PCY`Q@2`vPds+oYzW5$??o%TYz$9k9V4D^>wY
zw1hou-Cu*qqDZdCyN;%_>*FJ(^ccdzHT4@8iR1`svGk6&;au=YvB~)^;l2U7-R4#%
zVp!fQuy6s|@H*iW+#$3Ciw6B31u(dvXR!wt&_#iP1+8xZ>*==j2I~%(+zDJVAbd@)
z9LzFU7E4$clzVFsecrlJU`&9MmB#nZKw0_jhbFJcdwsV=B^w-3L%)4hUiovF{n*Fp
z%r%3ZsLvr%m0buruJyWb4hyI;b~com9}fC=(l2&%XtcjCE(z(APNq2Gm%uNXYMdW#
zD`pMeA~J6GLoiL6yP-tpn#}udf(NeW2c8zyE+L>|+iXx9Q9B+NE;)I(5LGm;`6lwd
zmtB^vh@JU9H=Ox3k+h(!5!+2M4MgSdGmu9^F2Uxj`Gk{K0;M00V#S?%XYOFS>=G*Y
z{}30ZkFO%`gu`3|4U}8Y7Bmm+^tV7YVKhW76GfZ~5bojNaA+54ai?WdGp*G?z*h+H
zB04UOKP`i~(Us}P7N`kSH8d;?>&_ji-=<;=)zE2!1hSbMvX}Kg9w_fyA&EbS?g8NM
z@0W;2RbYUZz%CH!vs}wi!gvQd0Eq3Flip)^h9DPPwBa)V<|&`TCtGL-yc-1bHnA_B
z8D~%`*#lXT5L!xb*q_2TQP_<jeJotRz>w^i<vRJ}4L+QM*K}vMG5%>Obg9M<fV7<)
zQ8~s^9)u-!z(Ryg((Dh5PZw~3%vS3}?uibg#B1Lir%vpvKRSwPnjjFschY1j6-T~<
zhu<iRTOb3i$WOd)|A3GeEvc-9rx1*@%_d40<qfDkNDFCz8}NDCR$F)eq>U%%Vj;%}
zi&2YA3wN$Hr8E@yt*68YCmN6x{#M##c#~O-m86{<24lB|#S~~2-rsNE9ittXFb-hH
zo|chiGa+R2jeQ50acC6F1AqF(K{v;~1#m0@7=(0kj=I<iVcf^kOovIH+%&#m-jq@^
zU5{s_-=MN^DBn(@XtGFRPY6QECE#|g<NEvMQxr;sXpuF}Q`mz)-c25ZO|kP#SgFQB
z410)2D(EioGDRa&L0h4pV^Eu-%8k}><(VHi{!?n4!O7JPr&-zM&yp6jML;91U_S_?
zsq0S_@UPIUs?qO+gmKE)O&*UfBjBGS-QrT{Yo!{;b;xW)UiT#Bp4VVv<$Hm6BxKW?
zdnb7+ST0U0@IwpM^m$d$hmX1-5Gge6e)4N;W?2~gv~rtoLfuWvdV%y8<KC{Tp<0(m
z6VP<|M^$!X@L8b72OgYl5bVvR^qHW=A(&Vn+ZMy3{cbwF4U7fiYkEVCst%}mZ2bMc
z=mG_peQ$&1imI3G_prjtHb;vS;igC46Khjy^N$D%Yih`)iJ}sjfJaIt;yy>`VIz;k
zqYMYeD>R;SabclOmjTf^@TUa5jQrUCg`UMf`oM`Shw{$9W^L`>-=OIXyh>YCpLZ@l
z!}}mz1;s-MR6YbHsj|^TpTSuIXoO`|th&U~g!VnL$3=XJj!75F7BH>1DBYqxTu=>l
z+q|d4(Ht;~&I@z+c6r%jUbrF9e~5VUC5Dzz>m#IGuw~Oy2mhphehIO76atd~BvJ3C
zYj`^cgR}h#b=Ky=>o}NX9+b+yIbDpV!Yj_8f?Y0$c3)fWLCt&?Y`V7tnZMh4v*WD<
z+z!m<n*!4U)Wpq@Q043oG4cc~1~Sc*8G*{(=w|VMAAxzgSrxk(q;$W=D_yXW%&~>&
z0M^hW<6oD6meO&F3*dyn1;EA%;<?*=%9)iX;{l+N4~6O~_qy(*N#ShW*<~>69~jm+
zW`_SO6{onhgr%8v_+R+=q-h&D!^Ui}`+e3tYY1mXPOyhi&IjOk!vh)yLmubNvbBAV
zC9G6u&A~W>1_0<S|Nfvl*`dw6@vi#xTvniHP^VaD`?iQ09*1xR*-NpPH9+&F{JS}?
zJzx{Stm5+Az^`7<Hl;>N*a8<fM9hi8e8@vE7JNG>mFPHq_I}>%x`U;+0<l5h3)`R4
zq4&jZF3V3=q!0B0-&-+mrEV9o)Rz=F8t(5RDYGEM7lP@_p*FI_(-0dQ3uyS}&ll2^
zu#olN(Cf)nd2%4V0h+M9z<MdP&vne)4TW?6wzi;|WjR*zl#=#mQVS>(KAV|{k(16<
zb-EQD?5V0Z!%QX2p4&W3m|$Ba3pg;bU%~b{>-MiolcR5dLgwn!#k|x8T+!#abgM#8
zIE9+|9k>Ktu)Lu#t`Zbe0^1FC(y)gEMiRm`M;0$MiLs|^T}pLJsW_<E2*2KdfpasR
zbq2%|>Y5@)%*MYw;bJ~ds4d^tA)zu|P*4E5ch*q-$*m4!MJz=XL-UJ$pv%5($)a0A
zQ8Eb~dt0vob?CjUylMc$3fJTD%#*qgCB_Z6#UQ5+jha47nx#fiv86M2J4+2JHpF<#
zcN*>@k%&Pr5~?Mxsy=^deC_DKQOKd6bemqBT8uos?=gdRkK(kij41|+43_N)mPs&s
z9vq5Dsn_6#8!u=m0D(w?MhC=4Gt5Y*Fnu$_)WUsJr%)UAgs$DpaA@YH#rcSRc1{i?
zIcv%xbM4^396dnz@D?Cmq4&c;VO@v_1FpSbf)oD2s|)M2t8{41fU~ffI*CUwdum1_
zm8bZ@`*c1S`jqy2FvY-RMxz$s)P1&o$nc2joe*uoM05=6mx8KHq$Fa$u4-WHbgQX|
z+&`MZ2>bn*S+|p`<?G}5<Q@Sq_F(9pwz=5FH8X?XRJw)Y^84*2VnLDlN*I!i`jebS
zQhbR&u|3eb5*(MDP<Rd6fM=e8lT}jz4ZraQ+mYr1hzS+}i!Y{W%ijk+Za!)_u`Pv0
zAq%^iv&~Qq3=EetD{z$#^1<8Ca!nHu*Isfuy*zW+?S%&?i(zpA)cLZYfaTp~EH&uB
z_V(=WtqM*062W_AK7iinqqNSOf4&0a-^_Q3n-fWsw0#0y!tD5|Jq(BCE+{_<@5&$<
z-Q%F-4i=toZ#ebiXK}r4R2+Bym7mhtUH8FgfOkVGe?JwrTL_4v1cUPYkhOEX&h7Cv
zW1m8R@|uXxb=}F&%E8_@oUbz?My)__txd8DWZ;P2TsovW?XIhm6(Jm@b$Q=hdznR;
zPcg}X0xmpwI66#rBO~7jQ%&i#D)Pug0B(#ulTNCTOW$KJ-C$j?EzmEv;C&2@3oVCn
zPyiMRT2{eyYT5|8UkyHx*e`-Y`|fGR`LWa~+1BD+RYaqDlQehQmySq=;~+vZhOa=X
z1pO<4l)&i_0*(iV0vYvN8}@RvEaZp&`QMkhEiJ&MDM*J!W&2CjF12pRZgI&R)Bz{?
z$)%gO8kgJH+Jf1Vc9`hj)`nj4<ZRW`AN_t$@#TcaG+F8<I(kmEB31un(IpTR{^4Ru
z$14nI02;{g>-7B(AIPjA`L@fzM!kK?1zMoEGpol^e2Ydtj9aY4q=7omWOLtjyBWZO
z#Tw7w@#VnQl9({=3H5RPyGcGu=YG45ZFreL@~rW;y<WB79mWA$Zm2?aZ-b1-!q;^m
zFmuXUI#Vf@X4jP>2N-vIb2u^ec?12OP&Z((H>}Vu743zWB|uE>jp`c5GN<SHE0C$&
z{eL5QTB)EpjO;H}4@aLJ)iFbe#yE9BqCvtzsaZAm?5CB2r4@6YDo+f0R@JpN3(_Ta
z-MzHNFG133u*FkEJorQ#pUirK#*^B8XOmNsk7d#X>{&IW7?&}`agb^byg|mtZM;q~
zHQ)_X3)r`i%FZX|+1aIO4oV!V&L^tWfm8SjBr%`>Alc*VbC7coGpzkVTcSOZMBNi=
zkhpwS7u#A;Cx_agoN`-@fr4(F!ISj&;^;&7=_Y?&?9{rB)#!AQCu0})LXPMZN2V`c
zpY+6r>SwTWnwXC_OJK33ny&Hi(d1zEdFEkR!jF4G%!-!<x~1t+2}V%DVevx`v@C<g
z3Y%&uWnK$Rxg<K-C^W3O0O{epqntGn)fV5-puSz1Mxjy7O?${xJcr~Apt}R|LEt1V
z=Ju3qPwI;C$1TA+4&vAL6R$dWMhsD9(qr>JXh?9*L2Un3zdXobg++r5mkg!<C}bNj
z=vKSTVw}Pk<*ud44D(n|@rR*>OBSJ|V99YtgYp-`8u#KOP)2BQ8Hp<}OrjYr1kwN|
znkc+x0}c?#$r&K((7DMyzoS_+f7JM?7RbkovY-5=QdR_G(qh|ln*&v9vz`ZD#CPs^
zy}PxV=xGO+n_j9BqZnhWyKMdCI`T+WU74A@pT*nO3H(?VPD$+VI>o)7wkXQ*hgQR%
zdm(B^KJqvIsHDxz>t^GB$2K>l2No;5OcGj3<SG)|j;Do~s->%}xZnN08H~*)O2?K@
z#((VetL^iwMc#j7DBZ(@9*AD1xL*T3w;M|7;~8UUpGSv>)5~-o%Aca1H1IpS=C$;C
zrB*WEH)NcGB;$|<M{-^{iPLY)eQttOn4rNKWCEnt3LES9Lh|6q!wUi+pNMRJdl+;@
zB_4Ie(ti&CY<1`PHsPD1W0GvY4{>=I0V^DxkFZyT{$W<5?o!0h*$j{rRa^R!a4tMY
zk9sj_v65NoIyVUKtuzX>IUfB(wEljQZBo!1<FvE~<PaPX-zyYnsn%{><bwb<sl&^K
z&df60m;43=ht%Guw1;>^0sY&0Z%n9|<P+rYRVQjW3z$3#p_aA*89m6x?`Qd!1jlJy
zWY#a!(Y#RW1mW#qu-+Bd<1l(YKB7^wALq5Svnm;)k=N@0a1b*PKQcIkvYy9%6$}tR
zYz99HjyoXXejZ&Kem95fA?#eW(zv%Fs^LVBw6+F!+)8oP<T`YlIzK*|3?qCH7hQ*3
z9r<-(*tC)W@nj<=6}%92RxQC_G1y^FUF-*^X~T$d65Agm=y12C=xp=RPm4=`*`pl_
zj%ngj9c?E5w1c#Z&D71GpZe1!clrGf1;z3)bUd6J2^yJo7CS5t4fh{_8U+hS$}!-y
zKEjpmxdTd!_M9A`Ckthd_#-*75AN);5_^vJaZK4@Y_SgES)u{Gp&gx4YK3xUXTAut
z6rCC6uK{EiPQ=TZ-*MpIN;S(pEjFw@hWfmth3J6$P}72*YtiouwD{Itpgd7g4$x7V
zfC70f<tlnmYi%l-%yL%Vii<`@_N_A{zL%a494W`j76Uj%$cR=uWh4Ovo>2y%MQ&ff
zV{9V-y&qaps*H~P6|$`}Eod2EMn@otxn^19JoR-A0J$aY)tkh%2tDw0F(1*d=O8zc
z>K&XufeM-hkpoDMr282RBhX6{Djq+FmmW3pviVMT549<A9Eu&u(ny84fw|DhGJPX8
zt$F<jGAM|hG%D3NclDps@lbJd!*XVbZ>X9EvI@@8K2Q~rC?;0P-fN)k6Jt+VWBgoA
z_z$ZVciwrs>Z+vhbTT{e4!*<;t(ScsRM}21?C=Sbl-l>?;n-pp-O!Y|2>6z~g-rOi
z)U3q2gbP=T?r~zmB~UBa$hp85vgabKK)gH!KI0}R+d*`<5X>EvsA%%8zwB5kCV0h5
z<Y)>yCT$^|hh=8g(0Z426bWTM3*8x&_+;S=C<yU#BFRj(LvROr7fF;FD@zEJ1x@Z+
zmPp^eMY+@ip}_Rp^7>fT*d<Jb&DjRAUqq%!?S*qoG^6N*t5~86KX&gCQ&$9?xv}Aq
zHs##DheAm?4eTkm#j@_p380rnR~mo8i+{u-;`gf(FC8zu|BeFoXd%=FW^5E>o-K+C
zTthXC;0h{?P@;R^ljCclhvcP%G%o=F$hZO|e90UDxPx8GUG01R&&aL?ZtdNUM{&M$
z<50}0y<bR^WnsYuZPz8NMW5ft1;zw)qjliiNT7cxxYAV69z}V?F&Y2`nE}#rT5nl}
z7;>&@K%Li}ajnepGvBcc(m{YgCxAB#tb*WfOAQhuZZ|5r9o&Lyz{h``7E9o})|4pT
zSKI>y*mT-#Mpz8Yx~7}Q=wlMRK~@ws&ahgIR@)i_osV1{xzK^@ffaNzDGd`V9-3dd
zwA?5vSMIbP`RY4={ZHtK&(ZFBHDRbPdr9LBbPSZB83rh4gd^Nb{93NLpK^OpBxX(5
z@XD%_SN&%jP<QV}JY&8bfE$MNGVrRkwRL@h<ayi0sr~(z>bD4wQ<``46HJ<o*DwK*
zOj>DKPs(uB!QOFYoomc`DKJ^@;c}gA4xBP?`YV5htBGiG1|PhCWU%O17RAEu4HoO0
z8gy*3C1SOF{$C(;yKf~b;u8$!T1X)Qmky-weh>o2NcUMvZ&c`aMXRdhST!MD8A@xD
z)Z3AQtogl%M%3UQicmdH7cpSTyO(Volq*OX?Q1SO;dFyz`u_H{IASC!94Z%5=1DI*
zmeW@)>j2apdP9Ue6JyeOyzKlX<YbN2j7Fb1h}g6+&cedPZ{{57^ef6k7Nm*<1pdLh
zn%jjrTUr<Ov7r^Gn-dj*INJeV@}!*K@C=X(cL<PUj6qZ@mAEm#4$Uj9E%QYr6g0f%
zNG7K9b0!@yR3sMh9<-y$v);@0c)#-?`K1C+M>4!uAs`|t9B7MFo2y2K@rDAyTH+X&
zKZ>_nf^_|_y6OEjF%;C_ImOfhuO!+aeER`y$`0Cy<kQ<X$S9vLZGeyU-LpjfpRHPW
zp08{K$-EWGCWgrYz>Yfx!>EAt{SPWMKvA&l>IpS?AicmCFD3L_@+{x$ZqEVC*+^JF
zEc^IOqdp-4Ly~~EI5e+}ezDVG1mkD$!AaGT;L0#F(qBC9bHkt>Qejt4GTyb5FLKdT
zS$XO-T0YxuIctS-OO|tEAH~ejYA1fa{!E0jjXAM3I62u<gt*2z!8z_p_;{d<<_sFa
zw&8jWhX})4CL|!T9Z~-^T+%9utY_*F7!0^ma@4m7mJrgC{U|%l>y8}>?Culqw5le+
zkhQ<QbfYk_BDwSX=h;{xDgh!<o-xUru$%qff^YA*<EL_xzG3gKBP_hKwgvXw^y-{}
zm(kYBv#uv8Q=`&qJkI_w^zLWpy~JA13mDBnQ7H*GdgMV^DFP#{(2p%R;wchLi+_K8
zJZZzb$)ZRn{%q+NRe0WhA-q%SKECTabl0mA>W!E2mQ9faC~ee^lynVutH*jmqoVGK
z*rMY%?h-dx391$ovwQ4#VO%_0`;>lysJ^frQoj7=fTG}W5~u*w3Yj+Z^D%lT)a<MK
z=0y0nhEvOxgLw}xT^A2Odq2Df9pT~2qLV_ZEGaNd?7H_5uH%wFik_h;+(}h$+nN`H
z*L4v}*T99qAm7fAFkYvj*LFEA`>}WWo4=*%q4lnuT;l?JK)0_TgE6>?7E7aY^D{u#
zgdBSItntG5HC)ex13eT_`xm%#QAN2XXbN{qGYd{ar=Z!HrgEt+kiR()Lzs(%7nS>a
z@pqx**H|1@uU(o!yJ<%|g6%?@dPvH4#!53bq%^uDP;Q{(q4g&&lHutG1a1V%zzpKp
zs+`Z~v3;DvO}ZRJT$$G_vA1tv{Nn!&@7s-k#p>YUsk5$-T#tDvaWOs><9z5Nm<1Lv
z702a=F9TB7_#%f4ZF>f<ak5$DQ|_%Zm`an7pFUq3&hLka=g4_fEP?W8z?@cVw?x@{
z^QXz&t$4`Zq>{ofnox2Ryxo4A$Rqi<3I54*Q)&y+6X$rf!!w@#$PP!f_u0aicmXb5
z<w__}FC{q(Y1&osKhMOXDTb{LZ-L4o&AV?umBA={-coZaaWrTz{Zj1{6vyAs%6R?W
zrcIRGLZL6>KOudELP6RgrCvUzbgEangDrb1d=4p?M6l%Pax;1b$3weWUG6Z!3y7xL
zzlm59jYbL|cMiC3JIku7qzgkXuppT5L-7OKQp5$j7gm$hSITdQ2j9THLTP$L<w1`L
zmV+Fd9EJr+k(hw2V)H9QL5+<Ld!z=R8&Pf6PgdXk1+vCfQu+NdoA#=HL6S5=#%x<6
zXH$%dM%cJSTOp)OM4lgd$CB@So0XfJTWTo0xV2l)g|b<m0)~8{o=*Q;yj<C-fc}Z{
zAJc)w(pUbbDKv4iXd2~6Voxrgb|6j!bL!hUL!LG>Y$K(Ei(Z8Mnu1-!2OMaXBge(W
zL28~)!2Pmi`9CO;<9_LTJi$oN5s7Z&&jr&MoGNFz^D#8lEQg5B=le|KCYQ;Cn?WC_
z6m>+Y3}1132)ihmhQGnz3PAOPMt%fX^cw>OrqQW43zF?9dlxbdulL#V)H7?Cj`H>z
zFnMuVl{{U8oz{l}j~Oi<C(!UkDh$$`FZE7?Ddb~GmIOvPbHw>V)w-y@og<j>*8LZe
zTdf9#8jS6lb~$udAC6@CJ`MW67;+l_{FIzhnv%m7@n+$A<D6wpuWl5W&|K~U>D)?C
zCsinm(dyvoEHsR?J0;?Ox$GJdY=P4_AkTk}^1d?i*U;agIeh#p*Z%Hs{zY?7ruZ%%
zMb{qd&O?=vyzsCvNlo~}lyTxTrZ0z?)0|v?REhFCNTj8!HCBLi>6s+H63@fE^viaA
zh*3k1ZzG+KB@9gaagG@AjJox`X$4-fz2cZyvk+BxD+;l@l{naK5?aB>-)Q~*lo)oG
z3onLU4Kd%kZy4j*_<8e7@3{8}uuvoMXmiA;l>*mKqCS_Y-Yucsz-Z9a#(I?%_ZhOc
zzX%`wvDI44kg6&1@pEVkutwQUr9))VN=?9>N<uLTD_<fBH7I|Ljd<U|9`rm}$cuD-
z=yG$%w7+qVB~+-!rMet?9F5TYn$Ap^Q(@o{ZS0GQXXNaLwH7kZx51Mw)DGwtf1CYu
zib~Y8qYz}jsU(rQY)3hCK-SLd!Rsv5`<|^sdSxpmS{J83yT6-4v?=S+2u6G1teV<~
zrGAi?5J`W@peoSGMSAeG?bIo^2J3#DZ@#E$3&uix0$G;DUa#knshausR1i=vUFSok
zNL(FZ{ilvvUky<{6<vFRG+plhUi3Dw3%h+A5GUS&%5P@)y$Z9(Ct9TfJS_z_nzk=v
zIhUh-PFQGzOt#XzZF|Ze3-ez!lkm%5tWaeu*Tl$*7Pj&b^x2_X*4#_WEYyeh{!f00
ze~zRQ5tQVUUzJnqls?3D;vvA}=I2`DTwfYw+x>~&5Rtz<Q!lhGX&XiQxUH~NSY?&%
zbB&CB<8_+7g7*@i>TI=xIn)^rCsB@N-(jB@w$d8u)DK06DkgcpwE#yOHEpBg;?;rJ
z_TAkS(BA_lrl~w?3QuPayQLkwQYPF%7*pN85##N#GRA-tol~*jX{`seVLzS7G1WQ1
zvzG#1ko4Hn2uVWlZm<ZCz}vKSJMsMBgSsH)acc#CYw692FC{!b63lqmpz<=fa;g3{
z&Tu8a<ePHYUW|;07&(%e-aBa9g@TZPbuawY4SSW4KnG48Fk+cZp$cOfQNPIMt0<Kk
zO~J>wUW1n{DwOcGLwnlPn-w&eKhTSgzaz{aezUrt?i56BY6afj1a{!2EqE!nmd=Ys
zoB6t;_^Y|!$fks}B9T>1@HW4$&E0%yX1-#{J9c_+B(o7@HSRY-Q-kM`t5S%nr`LT+
z(+XsKLdCw@ZBY>YL3k<;f5_G>R)arKg=V8OYiZvRPgfdwU0%N~cCh?cOSPpq&)!!&
z9BKatn2KY{Dlt|PWOiIl2k^cyrbdc9B~}yyyz9R#9EG${Whv9=45x3cu3a3L&rH55
z;<2=gKwy-14>;2~!Nw9pTAz!sW4_l2;-MRN=BhDMpC4}*`_(1XD^%P`4A+jpQzgtJ
z`0+Rn7oAvXF4OzL*ga}bk|vk?c~}fGU?NbAgnPe(MF0Np1?`+s@Pqli&K)Vn!Oeh_
zTa{oK1dS7l5SbM)+X6>s>JYxc$zNU`@H6dsYC%U9BSAFqr%GqUxZ}=0M2J77;*Qay
z?Q2He*6(GAXDifi`IxOd;}w=zp*8U12Lj#!s`RQkECD=!9Eyod`T(zkiolvL;j4iP
zPih~h`hBteW0=DNfp9lol*4a`qVi=_@8xJ~Vc2oVlsa!F?wC@j*QY<clKR<08$Q5H
z;(L6k^F<GDds~&_H3e-3TR|L;rWto6T3i1I9#oWNs@7fyJ3KFL#|G#v!ZGPl*2a#!
z|B6ztV)VryQO}`3MAx#8>Mc-8U}uNL*f<p8Hu|Ye!QW+&T~ny=G9EKDE-nDx#ZJ%y
zcV5w<$HSpR&C6n3o|4Ir`!Jp8lDpRoVj@9Tz3m&Qt$Xd2#L^4$1+d{WWqgDRceiF$
z+PP8~=clFK(O%;+72F^}h*yBjxPY`+dIA9w3@wHqR3kS~<@mclHE}2z>{*ng3Occs
zlJ}r}kU%MzBfx(pT{Jj9l9IVNgFIgbp@79CFI21>4JbI2#PMB|JTn&FeG0SZLcH`2
zO;oMswH(PLg&6Op3F~!Y*71<{;I9Em^*rSKV7EObX3lrXszJ*GxF}aNx3zcvxp00Y
zl3iijt?2VK*E9aW0y4)DC@0u8cpmhUw@Wsd=cHDkV^+VHcgA^r+<i$V9D%VO4c<Uu
z4laf*n2v%2JoQ_Zh12e-^^WUt;B40(@R!1Suoi4ieU4Qe+;?{cp37$ZKUBR1RF&KJ
z1xj~!cXvrkH%KcWor0h=0@7X55=wU}sURv{f=H==h;%6_9s1Vs{@!^1cZcJ8hr@gL
z&i?jZd#<_WnrrzYh=bPtP-XsMkkLF-As^cDN{YPn5*wjj_e&+mr7uT6zkV{~&s~u;
zY*Rnekw#0CAd~lK9w$8O3xDq=QltZgpq-3d8Aye(eJ=e8N$$~~JsDul%|z!W`F<q-
zonw{oLh(^8i+L*A-1Un?@~vpWD)!oyU8|ut;}<SS;Wdrd+8A##KGB)P{sF2hJPjL1
zxbIuVxTk|B*X=GF5}<0i4NA}^R@mP|ZIYo++amijd!q)^AVyw+)h*&VQ+nqTEj&$v
zN+BuoE<p$1d7*PYU2e9x9$@p)1h0KWQ0KR{ld=Ui5!J(?Gmm%Z%-hL9hi8uC9RwC^
z>w1onEGV4AGyG{~k{VmqO?bD(bH@?2p|1LdtI5C6$)!;*B3+iX-1X@s9s^OdjwC3;
zr!N5&O31yS_s<+52Ltd)T|&gtK_r@^2!~_1$|H9;{=KSd5%eNHys3~gZC7|yn<0Af
zqzF>iGfNH6e9cN_ysIA2iffjJ2$ksMqt{}SejDF@`F&AZe^$_&qcJM(b*GQBEcfz1
zv41bJ9rhH<4o#fid!N<J)(+>X7Svoe{rLHJvt-ojVt+I^py!I%NOXit)Gfc7BEeeC
zB8BEgLYL?ekD21V5DpEuPx&(HXg%eW(wijR+)DhFpqP<;=7ee9gK{l`9_Fl1Bz;y$
zQYHfVJx||Vx*;H~oi&D$y+l0l|DtKq+@Se3ZhNvMa$*bcO-yC@oB3Oxhp^8jb>8RT
z(TK%0soDRO(^DxhV%9Z@&yF7y^AsbNF3($+E*%YKs={J^r}LWmWmQ<F41buw&937a
zJmN(=dc05lcZ<-JY@=uHyiLz9>~Rc1%i25dTh9*ITTM@%QXDDsNpH48ISUTQH^_D2
z3gCPSq-Z3F3@qbZRY7+43F>M_Q)kbo=`1Bea#20t(SV>g!e@B<?m=Ya36%qR6?1sU
z4YU$or|6M}RA6>0H_cx{MTtg59d&!tjOH8Ips*dUfs4SysFd0jsopXfS19dl+cT46
zv01Da1!kq{$46i)j3jkzjp}vNO97Dp+*gm|szaL&!<411$9<{tcQ{;JC_cE_R}&z0
zyHt@lT-Vb0h5SWf`nlqmC*@1dof03z4YYJwcZXjR5jde(Yg@Zirz3n#a5FPqN&EeZ
zV_hRXPPYDBXC~TWvAI$?J}Lc{&UUe&bW_1>(Wqos<U^T-lG<aiZ6e(M89Qw35cT?G
zVkw1$(QdNAR(YWTn<Z?5Q;r%X*z8M;Phc4I2#P=<XrrlJK;VY3o*?fN7e=?u$RjSw
z`3o>Z@R=m8Z$3jbc3o(3Muva_yjYot*dR{x^W$XvDy5=^9*46qz4zAksMsQXK4A9J
zm!Ob`Z>;$TdV?h6aBD5S%YxxPR-x^`0o{*-D;s`ZYO%b$QIW_|e>|<5TYyO1O8;*4
zQ!p2)&|q`AIzye0dxldkUhj>LFs)L>CP>ehNSl2g^;Z&zY=90880_iHnBnPL>4nCY
zx;P@FMn3>9K&6D(K(1PUa~QM;X})8RxGFJC+3j+UI_%Ehh{#rI7zdj9@>x~L+k7Jn
z4xH`1bLmFPHYOQ9Q*-C9&=w=B_i{8SJ6(swL_neKd3sO3>CG!C^n?%&5zw2}*Kq$T
zoO@>Q<^3|&9Yt~ii@WjTK!)yRJlp_97BJE?f1wiBV!~({+vQid79UkzOKl(PkbPN4
zd)xU<s-m&+G+@SeCS^o+??D8`@Jv@N#`Om0t5s#ES=%9DB))o=<>c;aB+)Ok)H#Z7
zZgm@cdh^Zq2=UQ(^m2kcn6nW#;)g}sbZ}C^XpxqfT$~E5;sON?V{~~1Eh#CfF{Qsh
ztC2fhvmOQx4YE#)%gwhNC|HjlUnw2xU%R|)8c{;ciK={kr8gUM>$PWjc;JTHb{Q~f
z?~A&ZqqT+)lBZvi0jmXy57BKh{Axjsy_<$Fz~l-lHUxq(P;R!5xLO;49Ar{#d;mQp
zphw>ybISNL@WJiTUqhkw%Gni&()IVz64xLW>T%>E5HR7|v%ky!4C9&hj@Wn_Gomaj
zviQnxZ{d5k<h45pOP$k!tU0*v4~0{A<OTFI1t^LXS@z2;(Jzq>$F_O-#Z-PYktgh4
zoVCE*DEJmU`6J>?5pS_=UmuMpT~mI>wd2X4l*16w+uJlj3yM6$k|W+}3Vm!=73wTA
z`ZRLH+R~1h;~=iw@UzYncB3(FJBo+aVUbMtYV7!xFCG=2wPk|N8W=d&qq;g`7~j&R
zUB@xDycXz;dVU*JXn%a2<T(hrSule{J`<fzTt8!-didl0JHMT~lP})gL`XVYN0bA0
z?rRYvIX~Vo^DhK70DErR++8$hakQ9EtvD^o{$CF=pzC7o6r4u_Pj~AVnx&h#pDC<5
zw`1kvX||_+TlL03whV?=a1kS!T;Cu>$KW)^nKl{}GP@K7zSyF#GFzdEFCHP?^Q}j@
z)^d8xGJGUbcl5MQLHBC-NkG$|a%&1SD1r!wRAR)DboEZ?p<XaEsc1YC_-zh-kww;A
zBz=wDKR=JD%@;#T^m^n-3&Y<?K$@(uq}%gQo04U6gcAoRoN{^uhxk_>OR0#Hh6VpD
z=V#KXo)DDBt8qd#NjMR!9yO8HCv+^IRvb5kNRnHq<bou1pZTQ`{{_vo_qZTqn9oe5
zpn>Zx=;5za+Qhs;zmw$G({nrTUPitfx9j&Wi4iMXrXaC7+uS&sG^+G2YhQ#r+xGBQ
zltnpR09|Xr%H6gxPW~%Rmfopjgt~-8ZXiWFer6G~pMJAXS}Cp)^twI4S_Yn0pkFO)
zxeLV0#@7A2eRQqW@1|talytU7G$O=U$t0{^h$p=vH>)|&9`pxZvBx3&8Z452J|bmN
z=-AG<prxkPT>r_5^ng*xvjCMj!v&{>-?!xB%6=`_z$la#-DV5oFU4!ZlD$DNq48L$
z_Dt!7E>LFZFS=;y+aAX_<dY&+qa$8TNKb=Ae#!P-zquB<pl>cCG3bVpr|$Ej+H6*3
zpg>!}TjSZS4>a~GA0!UBvtB*JK<llz!4yitXBvi5QZbHVuiL^ruj@*E@q8KDOQA|f
zkfF*V>~dH32KjxoR=jd$Er`fH+TxoWn#DGVyG&~PRP@H0(0N(xgwaQ64wt?^%{50h
z_h_Rdf1yYF1*ml1-f87kh)>m&q+)rgj5l^Yk<8%>dO6b?QB@V}Yyxu{EgHFkL-pn9
zfSSUGVzG(Jj#z7#RVSQa0aVc8|1{?8dH_nH{L0Et5~lVxmzsKb#>A58`S+pL8GyU*
z4*htZG%YXHy3c7vosy=8en)^v)voPm`OWJcO(II<4K??{b1EU5E>I^DTgHX^h^*u1
z$5%~}(|J%FjQQHs^E@b&?4FN94L9y;X1;Uv)B6}{#kA`6HtB1Gfz=oj$4(UU9~%F-
zsr{=LiZyY1pQ8>$uF|{W<wNRgJg>B0s5~XUnU6i}dH^*k0>>&^xi6q@x)I*@gi=_G
zmNJ8qdf@?N;yzdWFE!|77<RIy+%BAwQl(Pk@CS`n*+(p$UGj}Sc-|vuAZXOpAUl!%
zL-d-wlI~+gZ%Xj;&)1+mDz~B$@A`J9!^Z=O>zR%S@(pR}IqI+V1TRjaHtqT~X!ydh
zs*DH9|Lk_``3UhpvmTsJXZG(kbHHUk#{ZLfyY6#;rO&uY=!dNOH^x*kT0O*{EnbpD
zrykTCsQIMvTe@&_f0ZSgCWxUaki>%;?ReQ%$k41qF7FE!j1^_l&rs}J)?y}Rb-4Nq
zTf)=$iX}|*y<j7z<WY!=#45kmQw!*ix{E=5VpgG(3zeDeBn%O>X7$B1hf3F7L9>n=
z+2Wj`AfC*c51@rIWC2-E%9AI-{Ip@evwyAqfD~B2y4TTIG+^v0RWU)ghugsH61U=e
zwPLE^L$lcJYVy>$Xw40VF=oOZB+wJrPCheKjv~vvwjaJHV#Hd#bXjJ=q6$5Ay_Dr8
z%w2ihRMNBLBM0$#tiRnq%sr<1ggeX2>uly)*{DbH6G+PRQy_m2?CDqOIB+^a+M3C6
zq7#x{d!dLwtNGxTT224Ra#JS3*V4AUJ?HAkikPGO^u@bBnFjrHo$B7TI^ZrNM6hC%
zaxN^+xAWXHxg#o2`RmzBF24+n^!Wz)dnpI|SBCXCVAlpU9o!f$dvS1I!SHZX0{Lgv
zgb*a62BqqxijGo`cIkX6IzI9=N4Ur%%(q$=QM!$j8Rd0d>|9#hR<Y4f4ZDz_z?ocs
zXu_Ls{r=EKDd%RqQnewz)Uw4V_ZJ(FL>y^`jLbwW<mC<2{fUXFt*Bde*c~XJ`!vm*
z{h&^J2xqhVas~L-x9Itwr0$PzIi5SZ(KlBVm(_rnDE$=qBjXdvkJN%v?~<}w5Sj;Q
zdO!00LZJxA%^PHX_pim?Ly>Z=ejrhn&vS?9na$iS9tCl;PhqqNHdPDT1`{#MYiDKn
z{kd3ctQ4P0ShiM)@*V$Q>g4*)lTYECH3j&4UO~h`G&J{~QrI5alKrg!`b@em)9J^%
zM7|nL8Bqi4IpPfh#!fWmG~IPG;))kab&NU&&S%kWLmEXwW_Y=$xB^3vBDOO%yAeiu
z*X>~iiM-W&O4`=|w_ME^4@aC2akmz<-p2bAw-qL5NA`Z?pWn4|5fAV{zI~N?e+M;y
zzZpM(ojD$I?1b3ZtFFuL2Q1-dw*I5UB0upylKNQd6QXI%`97gL%-dWVS{C?C`J_@b
z*Aw%giq6FFaaaJ_#JHR-XG^EUl7NMP2!3#nc81+G7_kPikhhuQqRYDjnaUG*+@8k|
zCTB5Q3!V}xEkOoYTbAE$tVsOE@%!|o&l};0!GqI^td)voV*>s>3eIV2Nz4`l^B^b4
z9|C)Ug1Rv#Z&zQNbJy8sn%ChGyK}9)j%6rJAfm7p!J-h2OGq$G3-euieFf>-y!K&$
z1%}xX*EqKx&T@)0I~U54X)9<xP*{3$9CPq|Kz8Rqj+_#=yi%-^WN6jmoHq9HL|bAV
zs^dYE*zqI;o|Cz>3GsDBI5vfI!3la0<OPgBfY{hTZp*=`Vr)hAEjycB_Mi)4@kyJZ
zK#hTC*ASvFF2m3g*W@0N{&S+LH~X|ondv=*(}cXlC4C6v&)t%7>YlB#udZOE6=Lw!
z7+*y3wvX=YoL1s{Q0Px{Z@&~+ED?>h9_~Stn`rU(aVQl>m(AaPSsVA;9d_I8-E_j5
z!bXZ!X(<IPcZZ%6T(ie?xU+A3dDqK6qJJC#$=|Uj=!pI7cGsWOiB}f7iP6SmNS(L4
z@oSF`a|vj?cUS9_*mBav`qL?jIU`6K?2?9+@Im|Pb5bjQ_i6)j4K_c?IU^;dx>fZy
z!9hkLZD-IQBdNP(8pL;Bp#>0?B#UePY`f#F6+SXFFxvFBWt|-TmY*kUv<&3SDJY@r
z8BVux9nx<u)WB_;f2~8Y^NDZDVWE99g;pz9?d<7j^hp73mtb$bOJjy$8=0aa)5Bv@
zfXBE+O-A!`IJUhl8!e;U4@|xT2WefUI6kmNXHys?S$3lsx%^O4`Kr;FjPJn@s4LzD
z*IZ^?ZJVZ+P9PxKJy$R|9z)s!$YYs$vw^}2NyGIS(p?F+yYd@T99|HLzPZ@8M{hu1
zQPhAj=aYTAQgoASgcajO9H9Sbk=8CjQNK9=;~dt%z;SW&AGL`EPf7#2$as&EeD(Qd
z$Muoy6iVcXge<zRIMx&rf$%~C97#=75-&U0l6^sv8ep{lL7^isD6P|>ehfnVWI^rk
zOkKZSL}~L6HBWNoOY_&s8}~mk6iDoqVwruym<^lmiy!6kM)~}+=UZ3#fUAih(QCrJ
zLZJiMxU#|a0Crkmgk9)q4`|Xz6ACk#tVH%W@~A9==>J^YUGKOrA(+-psj``VUxfpu
z1F9mjEIMjR#hk6**aEKNZ<2smZfePxxQR$xdh3{-U*iYBuAhr~@7S%r__6#*6_ySh
zr+@ZdqWQy#Z0Hcm$m)FzGfH*u+k(9r1K}J&TDg=rUo(-hI-q`@_BBisrAm1?Kq_E9
z!Bmp>PU5MAh{R0pjUCeSs4-5|M&uH$m<;m1gqieQQ?iHb6Sx_kId4)Lttl#$UZo9y
z?5O6UiglWm1zBNG2O%XFy)5SLh0zy6b+YO=1H;(gNk6~Pz#|vca5Ci>jQ<P_F4w7B
z(^LutiwCP(L{+a>o^K}!iM)dYF}PCy5sA+5y%srq3t@Mjf#aHJMqX*{sasi;!GUDn
z3qglLrY0rKzUq`R!zs?gblG;nj`hW_Q1aL2<+z>0lj3^%biCEo#B%*Br+1F<&_)w#
z>W3b1KU|=0tLz(TvsN16;?*$N&B0Xt0aYcpc<tL#=qj>*$y)5?BadcC%b_lFR`wXA
zqFd6sRz@|S8Q-Zxoh)zHRm9r608jnVt$b<nr_m1?#oef+sUufCb0j`@3-W&59K!9<
zyPsW(#$5_Y+BS#U-IvFht!nmvbd?kIESh+g0%eq4NYj-b<h1B3h{cSN$shWGwRqJ>
z9}$#74r2FQx~Z2@@GWpXr5+KQQq~KfYd){Q5w{9#&JP#QL^+pr{la&c`|25^vt`g@
z9=?-O)jX>^YB?f~2{H}|NkbA~?rbqY>XJw)FtP`ZsI;Z!V=;f?w^73{5RL0m52eq$
zC<QJFqT;D`LC7FIbX_h&jwl4!cnldYRNIQ^U>y%7?nBr8!0$zgm$p%BAYu(THY|jG
zw6zTPotA<(TJJGP1aYwqhkf@H?=#8aJi*#?vD{-Wt=q5o*y4@r9u4VBK4Ga>_WE-Q
z{Lm53kHW3eeTrt%Qf!vXbF>Rni0qPNQG03d_p1eHdnsVK?*Np8WChgHyN|nhRoy)(
zUeXZ9F?jqKF%LUMS4x(MzE3U@Ld`Qeg7Sz|9{Xh=P@n!TZ7V!?J|}*MEF1XagJ62(
zI&GGNWJw@L0F?z4@6+_GDP=8|NQIDugNtsq$pFX=Q3e?<%M(fD@%A1dI&g-m2rVEQ
zx4L&;Q&89al&SH_gZ3y-Gtp5_#>9Yoj->lotg9Ujes)o3V}_6DQi%S>x1>;u##|{1
zGGA)43a-hc+&Kv5e?F*h82*q&or_y6USNez@P6)45sxn=`#V0Xm@$$+gz{Gn*5g)v
zP_>FZte4{I%ZSwlbs(m#EMWw{dwiM=EgACH{fYsXfv&jXZy2xKe<X{jIJyvupId{(
zlVzQ6qt`QuC>qf*pn86{f+Lw$f}lLyxYxF8i_K+z*?~Ca%VzPYvRGJ@%1AfTegqI<
zlsPPzJ*!$?ULfVm;fhJ<V@aoClimsG(k*j$=(-E;s%e8Vj(H82zo23EmpZ*mp6(aD
zij($Zsx8$iptn6iJmBw{jKdNOTAH$l(t(jp;~hduTDMG4Ow1w{`)Uprec2)y>Yz?X
zpjIT10g!kMujZw(^p`3F)az>O4erg?kWHuYtAx?U)2`R+osP_eB!!oJy-|C%laYq&
zAop<$R7lQ5L${*@9t;5;(Xwa4s2(I>{XPlg9>#oToj;2E;yM}dvax4cNJ6OhBWg~E
z(SAWEQ=9$nfS_oIONEC|>tOm>>V^u^RAA-BEsZOS=(3d56uY^n&!n&7Gj@EXkSYZ_
zvyM@G-wRB*PL!bUz8RAqPz8T-o9#E!!@r?z?+r*Npm6J3pi0jv;V~iOyRCw~9bzx-
zM)iqNyC{yB!1x^kj^n#<8Z3tM$`cbjrOed_W8R~t5A>?a@gD4Iv@><VXI04dS+I+y
z1aAOtR9zJ`Z3vUa?l(?{!t~?Vth76FIvCee7zR#nU8*qXDyz%em!6(v|LUy}Ep@hb
zHbs5%bWVvqJ}JpKTIYJh&$1+=Mw@qiS3=*pj*w2W=sCkdO=)zw^ugh{(;Lu|D1Nmi
zjGEIZ)nRIJZHf6?`0jVohwZtG>vz_B8?TeR)vQ#1kw2|+uA7*#?^}2*Av_5GIx%g0
zWdG!yimCze<2|eha&lbpRKHNO-;RZY*GO_bs3l{6ZG>#HTQ{D$zWTf1`tre#dVMak
zgv>M>xj;5Sl>_qvmL^pkpJJ|kJ?HobS$89HHC0q`g|)eVWbjpGF`??C-`A&Y)fUn#
zj=y?|?|>tALpmwWaurK=$pX#a<<4+Z{s@K0w00$XD4M6!a5>Rex!X43%~n*VS5f>}
zptVHzas**!wal7d*z4C4=e58Jg8f^}*EIHgQG1?6n=KioN%fFQxoW}guJ@l6GTpvE
zt+-<Un{HTLKyQ}itaB*S%2%CL)-Dun_Wp&!fW~TQ{vnB^r_+H@BeL1_9LHz#-)YP)
z%nS2|>i$1h)V%Q0MU#^W8MZjGD`srsq|QK1@bY7z?ib|viqS=?uU|JQ`kp^NGQ65O
zeMdMErb8QI7nXYUoCLL45d+<2P3mMYBFnQE5TKD`_fNMJThb>ro|;jQj8*djreRkT
z#H~TWz3!48+exGc)RMEh_-f5^a&lDS1YFG@z}DdmidBj#s)RlX59b&T%{7FA!X^vD
z8wlbgQYz|;)x`(B>x(O`h1cIbWUkUb>ML`3!QCEOk{0U(I;6>JBhCY@fZN3&-~cB)
z)+qe@PrfDa2$2L>D_1C(r#Fm<o3fD8l&*w_hXY(*a%b~Ah*5nT&_eKJ)ONv5{?TsU
zbzBN^lc#TBI7!_uXU=0WLz{aN83}7K==;aVw|cMcA*Xwj(<KbhzdRn`OI6#yhn9bn
zg?a0FK&ma?CDd4E6q*<Yu_lK=mY+&gzq}H~9kZa?@1z)4o%#nsJXenk2BdWH-!w$Y
zTOu0E{jQTU3q*F4C;x&@Zz}nQ7Uyf(z>@ZkX73H%62ccVQ0#6u`3_LlZM{|ayeAz0
zY&4Bk9jn#jEBve#-!`IO&uWx*Q6T6Em<6~o(UF$As4URE+PecAbd~7d`vY*;k!$*z
zk!f;ltU><s#oGdsg&g-@9OMP}to9FvaS}hZp>_Bi62Db$6-#I(Vt=f!PjtNdyX;e*
zQ?N$3Kw$|;v?A)r>d*Ly+zX^I(a^f?<}>n?p;S*>=k{kk=;-SxX3z8kjcjiNl*duc
zV{EKD{P3Ua#gBGS?v0+_jYg7@m)F5o`oyJwpv5x-{c~Wf=m(4rC>bho`gz$MRG+6{
z1mvb<k=hnrkaFl0RYGN>5W3NzB|yLWcaqPT@11N`lF^UdppF7Xybn}&!9i#x1^Rgi
zXvOP5xO%uxw|ifHhc(T{<{Oo(m4fq3L$PcXr5)i0XMVZ&dOZvNSy6QvvR0TV9ol=4
z@*!I3ohM4T`L#DS!k|eAQCb^Ja}p%W+-J5X2#W@p?$*=uJ7{R83;FxMe|zJ7$y4H2
z{f?M0LFZ&ix*Q$l6rl<fXHzaV|CyhLMqKm8H=qetKs&EBt8&!%-|{PP&jOnUm<o~8
z?1v+xVi4hRBUht?E5m%jC$j2Dlzf)k6$&G<$xTcRI9{{0WzlMB=lN!?(;*fV1LnVP
z+q%2En;C7FGNkazNs)|--g~XiS<^)I`))|4*&@C;mHk5LE5>Zwun7aT54|ZV{Hr9R
zXvhazQK7EyP1pUAuG970a7>QG_FOK{&N6v!Cp@FDJ_G+4Y`NshHk1~z&_6*U8nBo!
z2f<)63<LVJ-EOA%TI79tS2O}m69|JR(ELMJMud@(kj#{S|2-V`E^30ejtD$b-!PuJ
zfF9w1*m=+fvv0`K52}3utG98@2aiGT4k}x4YmlDJL<PGeQaZXkn}yOGDQ_p(Y;h=1
z2S(UXKvTZd8Zh$EGQbG-1HdWFJclkqkQq!RPZJ?}f!jQa-)ia7fmyFslMy$c#~0|f
zW15`(I5=f=;T*11tS_ll5P8FGM*qu;R7#oZC@tXc;e+9bkTik9pJ-`r(2{%$6a5st
z5ZGI{ASms0knbW<|Av?bHU<Y`uD8BDyvIvch~v5bxc-pM8y@!L`xa{SE|fqIpAlM{
z4?ScG9g(>@nUX`pSqHVjh@I{$jON@*NdUlCRsB!oDH<CajptxLv+7BG`fC#OMITPK
z|2?@9eV};TT%qOAu;v7M*$C;S+4km@&CXH3%z<B4i1&;6T^6_Q5b*wH!G4+*84<z7
zzLp8PepsA1BcPs8%ufyvKe))XPq(-joi*IJhl=?g?2zUqpSNp6gH$UlMTJ+W<$Czp
z#YJGwQ-&$|Zz{$5LF`~YyoT@qNtB6VHT%f*+)O$;XFyHq3*6`z09@x5?ixFwY0v?x
zcVdFBw8aw~Q)Y!>c;Uwf2M1!cT*F#lar!yc-<qjE6A^*55B#}w%D1&qg)Tv%&2QFJ
z2F@gqQI!gmzpAtDlq2V6cLr@rwZ;^Y_Yf`^bAT{1VKosBY7&*O9Z;fBO@R45Zwd<;
z`*+ko8k=zOaUqX+5IOer_CiA#4l;C`1ZYXrl8l<{K_e5=XExJRnKfSA!w!hysT)wK
zMaRT6uN7g-IVLZ9sX~1|qpbUTR$40B2H6}61_w|@e&8(*KFMIYA&^+(&32<o*3eIO
zAmVsVNHJq`Wtk-pCt4}ZhGOL%$i!jGA^K_I^+PHUHO@wevpPnPJ_}k7^&nQR?`@u}
z$JpEnM`24gd|)n^IThrtc{`t&=^aQ6&Awcgn?ABq)hs?^OPvjZtE=*k8w8qGq_z&|
z+P?(f5Uu&~aeWr4r<|ENVWcD^UT}9CDrlvI8itb%K;gDD8d0;=R;Pl-LDMX&X8wzE
z{Wb#ju3Th`BPja8bfUYkBD}GBGv88ezNE>69s_umLAXl5FbDE;Pl{O|$l+B;H_9cW
zQ467CDht|MobyFoCd(kDwSE`)6eGVha=sSP70u@Wr)LR-GB<<H#{Eo7To?zwHQ&<<
zIHl4Q%jYFaNQoA*jlffMflvyzB?w=s`j=mwBpAb@sh~Bpz!WkC=8dXy58NtxIPX7~
zmJD9GnKh*czh()JOG&9b%5L=lpNRG4M-*fUItmfz3#LF@ull|MEz4FJZU0w1_+H^?
zznK#dT}@z+cN~{tlO>aqkWiwtbO!yJ^Bs>;a-LpvV8Z#yJKUUL9W+X}d@`=&<Ktsv
zV*?w^QQ8i+5@@Y$AHSi!cju%~+V?)N_sm_;rF(FC`nAWnSig+APxw5q7n(s}hRir<
zIiZW3jN4GfYWD-U_lKI)-gyAl1ZZ5AH-~mWA=(epllXJ+I$cdMemKN4i8Of%#Y|gD
zwmW#{_@-&)VVxsi+v8dQZ5dq}2YrN-9B^j3os)`onVh+F!Hw-?Hw=B2YZ)5T%0RwY
zK_hT~uI4JloDw`ZJjFsE3*|#0TZNwXix5%7uA}J770iZyi@_g1LgCp#s+Fzh>>z4A
z5mulW2^n3$*}g5i%R?2I>;e@@8|Nm4#*pV9-lh7+XjF)dh<VGom+H4+ZNC9Q0yz3}
zgYN<iaMJW!C{#Lls(`)!HSz5144hHGJ`pOMrdAjg7*ADe9G7Z=bfMrjM0=PA;S?kk
z`I4S2Pb<gai4GbygskZTpl=lRFSH_m1x^AI!jW2P6$UO(fa#FY_-s#e2Y(&mXNmzY
zRG3^f9EBM9_47h_7oCHr@Xy6oWnq?pWev3vELgByz+vB~Pr!0XgSW%f<HUrQ)LLPk
z_Z55)rjVdFOaRvzZ*iANm5M%vNC+~P4L047k!}oURDxU><j$X8hmzx{Vj$P-!_qD;
zE&{aG1?}<IuL$FkFH?(f0+b_BQBYV|SdOaiN{6EutN;ZG#uGKCWb*{mv=kIEfvl{o
zJC|e$diX5-S>Pc28MMAX@oE0;L2H?zFJLoJ*~SN5&pM{>vyR{c;p>1=`CC8^5EAh5
z@Pe){TCa7YmunF|R*+@A6~G1{Is?b02o;vn57t0tZv_+%uli@m$HGz&kp$Kp(JBdZ
z%b;%rI>^~-9S#u2A_yN6uxo%=Is3_&iwxGh*aKfHj69U`$kx_2^A{YhEKC##wbMnJ
zhj4stN_8`gxX=!l6@WP#;V6dAN@%bMK0ZahUHexK>Zju%I=r)23g-#}_|Mc+VK|x4
z+I=1@-6ae2vFtN=l!d{g!1#W3IV6>vH2^lC&i??`eXZXnfCdb`Y+H7I{v5G|w+p7n
z(-8Z1BFi9yL2OWwOeEev7;m#bEO<)ixivm8=6dh7NZj4s4M8XCcA`;uEN<Au8oaC`
z(zkElY6VFv$Rv_++hudJ8bH$@H2%!Bt}KPq@SnJLPu5pfawgmdixH?)9%sBld~<y+
zizpHs#1fEWuaA6#;Pn$kD$w7Pz*Y>I4N-d#bqajpH6NuWl>=7=KhYa+pj87eHpKfj
z{J-#oy!t40@E?rG0eUz1_<lhV&paJLzr284@*##jG?_uOWy42C1~F%Sh_K%{V*!O+
zaKwU!;f@vofK7Pqc_v<At0T*!X80b9uo+nx=w{@M|9d(z-Tyw{MbW}yo)!~4s6<2}
z4}jAFNb)0?5uy|}{NvXH(G@YDr3axRkA1VJg$#Jt{3#u18HAz#D|gry+)JTSwU<o?
zrw!<-S`O|~Xbt&Mj>O2wsHdkV^WzpWTs@3Xatx08w<q+u@`}*TLJt5^01*C(DNcsd
zPZ=2%6=ljv^b_C$eRT(`6^s*OL6?1eGCDSdU$h3!DR_DWu!&$lcRmwAKw%#AuFr5b
z7Pn#7nF4wj>wrQ>6ITmU$GL_%*rzSdz^TN=#%?^d{%<{du(iVeVyr=gU4(CWeSN(q
zqkve7v#7Yl#7GmkQ=9-kz?FY=e9RA{qQ=Tpi*Me%31LLmYjp^Kdw1jieYK072XL67
zGdP>epaitbuwehdFC1u83|e}6a7<5xDN)c|6g*j`2@mW7rWJ76n!qeEur2ZT_a_6G
z1}h7VD^P~*hiC+_;K%0Ir{w=$P!L`w(%&aTLr`T`H?%akn=j=(@ZKEpRj6ZN*i1u1
z1K><S(8z(UGIS#%te+sv!a$;xtu5^1<C7EECme4dL2n2oe9X+u;K~(rx|=U|eEZ+_
zKWNlPxsrgkUlFj`#{w03IiNASf9XBWYo!G}m~@xh+4&cAATa)C_vcUeL1u!2g6Akg
z(}?H<*klJn83;3^_#`C}W7ptVpS=3t`?ZK6f#reXF2oHZuk*9BUq3p3{P*y?VL>V&
z!8C`r7Iq4wENBwUfh+=lzHWc)9tex|uohso2M!Uhz^V!?2#0?!fDkiyq4wXQV7W#-
zHUvb3haz*=pFe+2z9W`PLt=S(SxH$LF)0gTB=7{}@L#>X$`q~3gzoNpKz;QlyngTv
z5zk;FD?i=2^<RL}FC&C)F#ui=Aj#4oz5|unq9UfthlmqgMh<8m!r}trc?lWjVRM5T
z3Tgm)@9i_engD@V!DIW=CwGWnkW<IU#ld_@-@1@A-G5t7bpS4^A4QU`3vZ>+sh`e5
z`UMyq9{1n?a0Fc0e;|_ulO}|1&*qC!@AXHp0fB20^IYzOFiY$UcPfG2m($1p?Fa`k
z#Et;`06o=IC>Ahl3K3}^@xr1nvx2waW8miCPDcP_po8`o5W6fOpcTF})J5RbB3uyR
zdoI2^5&iE2xkT{byIW<l^YPUIT4G>eK-`RbNbrfO7YA@zKrw}a_YU3yF7gX_69DwV
zwAvHYcCafEesjOA5Ua#RmP^Rq6-v68nwpA%PvajL_@&ll58nI<>!`|mxc8t*Qk08p
z6OzPTmSM5lpU-&65(G&mCMIAHfLVbukd7Opxuiry9#BpJw}(s5e+K|QH|}Kw(qMl-
z*k)5*1j5gS^VI2o(39rZqXcmPb|oTbf|5GSoiy#Rv$K;#m=}TL;Vv{D!|4a`Hj)Op
zj%|l;4!*@MM4{AeNJ|f8L_{Xf6$b&4!nct10PlX7hZXR9;FSq{8@WeBPS~%Y3!MNT
zAB=wDb$x+QfCow=-;XA>;Sp-9f@2X!%nBA;6JTxuq3G(*<=(WzxUp1>JS2etvE|p{
z)_{v}|F+Zt;4=WWu$CsE+;^ZTjEz+X1afW(CmyKLw~yFS#{vO#fw%}vO{ZU2$_OBE
z3Fs5i(9u=Z)nynkgb`~Go;Bdsq~?3J$ANg=xJnV>!L|Pu9}<?HY@IMiWJ7uRP6)vP
z0no1maSNiMC2VHE&cJP0erST20iSdGrPWOc1VAUmoHiZ6h6D^8SxUjBk2LvQ^q%fr
zF6;NQx8O<d!^qHN!UXi5TqwHtAulW}<n^q<e((PQKu+H8SI%v8ul}ws1%W|iXnI5R
zZe8+o|L^p}Z#~y%cGyC0zd=(CIVlg|4?b9~5{Oe^pXUwHxu^nxBEh+BR3|w;UJ9CL
zL0`G}2J(P(>`6e=cDQ-eC+1-00!>`k0MH?ql!iA68&XM0DLw!5Te#}sqC+e+w7-Gx
zn-N@r(58vJRuK*G#9S2Vd<7yW9V#XiGqP8DZU5V;|2CEb(R)*rD>!-(wP6h1L~n2J
zw{PGFKdh*z2$r%ig%!hx>`)4(WWk!LG#e&%cFL<ad4d7lzA4r|L>GVq5C<@j5pNrI
zb@5cS&T8aTfutwO<j<`w%}Z#(m4x{$@C{*a-UeH5u1C<{1Y@gsF_jA-q$IMz^%DNL
z^GEuBZ}8u<iJ)0?Ajixi)&$NzsE>yV<^Oj6ITri_-+K#o=;Aww4w0n*H*Z^^#$@k8
z7cr!Xu$D9+xr1#za|YKM#7tO7oIl_+vI||hT~B~11`i?DjeDJL*o1_!M_vw~DTAqc
zfuP-kV>~`S4!)WSWpHo&h895?xh+*C@BoTyFm3$5&qfB%1`X@r51|T|Of!6WZm=Nv
z1LYBM?{%G=h7?GPDmM`I3}|x-C_%7+uuq!lQ6SwrgFBm(CITlIvi64n#2j~O!Q%%)
zYBuWC_4U$Za&|M9Sa#_FG_WZaw9i8}*a<^0b3NaI%+Ga}|Np)?x%Ubvc=hk#X8=0`
zE0hMNK5!}J)W3fH2-qCvMmKJ7bpp@`{#R^+%3%l-cNje4LDhE~%cI1MUYdmk#R*}T
z0!`E~+z*LITLv%-t+1Vnf<oAFFzcT%o8A_wB7kQW<!}#Kya3g<MY6o492;AoC&n>c
z1yGQ91t$xT9Ix<yaRCtk6Lh+=HNyb*BRd`+9j%@M)PkCh31AqwAfcZC$?h%SJ^)tc
zqPezj!2~Y`$$Sq<M*JA6(l7!uG&Gd!AqdhIU+>=!QI6!i^~`7O19?F4YltCkFZGLi
z;KjN`v9?=)Mj8CiL;z|mF4_eAFzw=oqjGV+QAkV}V0d2E@PA&}e6(N&63~(LaA@HT
zN1cMedmCO0WM1b8`4!l29&g`1A5V*h7zn;Lt$-gOK<<5ey$1@~axhWia_0HlV^aLm
zV?8Vk>5RVxte)PEe+SNtfI&8Az;=jU+Q&v4HXA|%PeTLEMUAj;>A`dofDgQ$ruqVM
zdV0jWI(roxi|NJkeC2=F#eato?Y#~P9R<Y~AcQs@p<lnK&clR?uO;J0k1BYT0fI!o
z5xu4qR$L0m{^L_#%6r3@A%LZDgQLGFc>+ZJ3*FMXN%8RkFrY8U7aGvuQA&at84IBm
zqbmahRJ&VSW<Uc#091@`C&KJ}e5xye8NJQ}#;h@qf1g5g3~bC#2l_{FX?eV<$Nk@>
zgZRxu2C>l)wh2HK3JSi2n-ny53<N=7Z#%>}N-BaV{z6vr5i(b(iNWD>x&&q)Bo73|
z*GsXC5EwLY$5$X37-5-&USud9(ujev(Qg<y_zrd#(0q`NWCGC((XclcJVswZ6oo0W
zx?HEwG7KheI2|!ZhtF34v8-=w46eb88>DDMxPRDm!c^lhDf1tg|KIk*Q5{$sVe0}m
zLFhC56$)rBCou<OHpmAK_dv{om|qO}3dDnkM(7HKU6dFX2lI{@Iu_qFtU>VRc*fav
z#q27HntTNru5%f@NJzG;!E#H55+x5d2*9V<*w`P?V-Hvs3ZyGuS23b65Gqj|v=_60
zivVyvg{u&V2DeTa3=$L+<l%v6mxe!Q&o=rW)Pmns)mGq1<JWI~gIxxw{w)~Y7ZemU
zv9$0_k9J-mBR_;mUO+%X7#!|~B$EaLVH7qgB&K=J9Q^WtRUv}xn?q`$d%C~B__{Lu
z*p>}z2TmI}BH^#aOhE#T{$eD$ZsfqcLi+LJ$A}@Y=@9EyRDLge0`!M(f=HQ55UA;Y
z$AtxTzn^4L<##o+#uj+pU=T9!rI^DzU4W&797Wj&pdB?45z@%hwIX{vJ3#3$g6H?i
zj=9uLX67ZhLlL<>G`#V*fCv=B91b#E!vMRWUi%(GGeY1U^(FA-8Mu7{3WFDKTzjV;
zHf--&P;f8;?!o(kPx0P|kXa96>e%D-|9g@}Xskt$b;St1faD^lpzymma@pJkoCmZi
zc%IV`6Cc2c3KOgM(G@UpvHOW2aKBVk{s62H>?3SpHZ}+!oB+3yF?*e05(X-Mj5yd9
zMU8mw!wtnC>yMNjW6%5jzqH_AG}DU~%mWZe9fwIsqO5$Z9(weDe{p7nRCP^ZvUlOA
zJ|m*YIt%^lzWn!G{-X5%|0_dN-gt3(X)6qpU>0HXC~YL9FeFVCMdMpAxYM0*zT<0%
zkyfb4>Ba<LpD*>_L__~HH{Z)Y{qSiE5^&wzCWo{AXyuqIso;z9op08#0f<PJgUbGF
zewqT{<UUK%5ES6Apz!PC^D#_^wZc?X%oD-8Esg_8E1_4!0T(`3_2$Wsg)d8iM15fu
zd^(ht^Yd%I-d|(+m#|MC9c{wIWA{JDCQb7G62S(AzL$Cy9zyr!o4nY?|6a{YZJ-)n
zEUAoQD|<2Uows|R36-AA2Bap+A0<vlE}SvjNrG=lzC|a4ULRvG0e#@(<C@>X7rzbU
zqxgInw)ghj+zx*)&Il(Dw{eAkwBN_15Oi`74l(!nT&Qzhd{Ti@NuY-b^aGho1kvJA
zdm+npTwEL$9^O1uS>S5fxlBh=w*uG*hZfqK-+=`loR-d@b3^MP6ShRSwqXV6Bs~`4
z`hY`!^4*LU&geXp${?^n=)HhOakJ$K6sJ(w1&}4e(fvlzaMq&G0H}cJ>X>XF3`8$V
z<bL|uEFt;|0jod)XV4V<=mVs}k6{i~sS{%jTU2y3afYRt%bGXZHOn!bn8t}Y0|ZY3
z92}PKiz&s$#b35-62w?JI56^IF6PL?`<iXg8WkhZ8re)F1wdSTSaGOH)kL+Thn~C*
zu?uc_#9new65<dW5|^9vSVSw~izw`Z$v<=d2Z+Y?KrrFZ3bEm>!(q_xOR6mw!J3|h
zQpn(tC(gZ;)Eo4QF<J30ND<7F-!i+A&9oLjk!Aiu(=mR4uF#SY*y!i>r?iBHbMh`v
zY0RZfxb=3`grFGr!s;*Qc#fpSNPm_;aXguP<%}iXnJyBoY;8X~c#`N%JpC|f1{bOI
z9XksdcB{Ic{(C7h^Mayj2<nqfLy=WutwF4p|6|2M^e1BKdOwNfNRG_hv!tUe1_%1+
zP^+`LV~$t(#Fk-f3d4|>0;6yLV*^PW=`vX-mW!EJqvR}!2_x^-uT&ekus{HR;7;i8
z*ltGge}CB2KExR)#(|k%@;2ve4g(}}kh4K#hHiymSW0-ka9w{MbV|-t_<RhWxA0bh
zp_HF}z9z5?*9<TtN6YXIhfkK9QQt`d=mPHU6?If>?7dcX?_>qpbCmgSdN=b01q5~x
zRi~33Wnb6}Zvh-+o763G6Fr4wD0cg5I0gCD!Nsv_&v&RTe5dLY!N&@PzueW;1xay?
zoNvW5K11dwDzuPl00Xepe-f;z;PUGxAk;`7!KP=rizsDyve$s^s`??__dpR>PK!KF
z*VDv5<Vd_OG7eu^4DP%>`3Bcnareph1U{5U#*07@CWv*@?`BIe6)Dq0ZAQ*>Sp^G^
zY$POVsS1iJ)HeeW4cdVAVRmX@4dVv4f=e$XdEh+&UxgCD({_#nuc(Ov2V#y97|3k)
zQ|{lV4rDSHgo+I$*;VfV10ZG@!wNU?rIi*G@j-TjihBP?HeEv@w67R=Lud8iyQz5U
zYoK7EtoH)`Fo##VPrNBpbJ5dyXWF*<?Xv=D8@Xv)2<V6m&!*?qyCX_FA_|I=+n)AU
z2=i%39U|u|`tTZC04Lg2A?`Oq!bc`VBXl;RXJ3JShlP{@$6FMqroHS6v^vnPx>DgG
zUjbaYa@|SaxQl?jkdB?_<M1jxhBkJ(|8QxrH4amaeFBw(w7ch=Li12q3*@zz($zz7
zMMXqL4nG<rR!HNEi-iLTe*$R%;z{5U015bADpsTDb?-^0Q49?|)G^0-^zSGxzN9n^
zHQ!1Im4A76iL@87^fnIFJ#ZCG!_^BE0f)J;(T!brWYALq%;SRTEpEAd%P$OL<{Y77
zqMAS!ZV$tz%cV;7=@Ez+U=8?9jT*XfJ|MzW5hZGe-3R*@JQ$yPjPU)82?+@SQsNnm
zsYvX1*3lUStOT{yCaBN*C(>R<FA&g4BK4jFj)gQyt1$%rH;27nK|EdOw!~m4)1LW-
zNby*YUL3N-&6{s~UOj?q6x!BjTV1mgC0O6%6_Hj6QnUfP0k3WL5iQXVn@6Vfbdmtt
zpWMlwP?!b^69J_Wb|_$(JpqYa?~5M_-Q4;F_h7V7JM0dq%zKE@qHxG2EP|BQRp}k8
z#H%F;rjRkiju7CRdoPIY!K~v6ryDD8@=3fH(m*mE;3yb`JPDt^)6t1iWI80@3&aif
zrJSl)>ZNt+0^HFOFb@v$nlkK5MMjhXFq~=ugQAalQbyLNA4@#c(O;mQxuX5ixfuwn
z1tzB%jevVqcc|#-@MI$F+Y(QLmLOz05>V|z%!fl`G$phQ0Ws9|4wt8eaD@F(YhQ4c
zAX-jDuM@UcXy4sXrK~uQvL>&vRt_9Y)8+tXRG0^g;2WS$qjk%kJ|5{1lhSKU_*XhA
z$>^o*6{3|M>odSa=kdlDt(F({Q+8BJH|kLx@TtBAv{`)LmZ|(!<}1e}?s81|P2gLP
z(3PS!Xz!t>^$Q>|IJW_=8hn**c{g<`{FcepgP+grFSnvf_gi#s=>yTgMJ;0fcvf}z
z=ll&nVh5@^&;x`39|^OhN$&A2t$f6hPS)}c)|cdCVTnkEhMN*ZazP`8RY1MdP}k^a
zll;u{Rbx`v5pI*P->(@607`%QDcx57jCFbbIx}G-^H#Nlod*&T!d7=<<IK-(c}lnD
zVQ&FJzErt9lAQ45Mq=AgQJh`<&n9gF{;$`jk)A&6E*61lHca;)iP^O0u|Hp{v=dD>
z$)2Kj^!}A?LAfUhGG?f1z>FhQy$n>kj~rv8p&@WZ(dlJvv<mP`zy9@cvfcL$d*`pF
zS?_J4{KWmN_42i-vVBKUr1mT~vge9-HDtsiZ}xH`W^443*1no;e$a>BM*9wdY(uXG
zLxW&?D(v3wt-5zyL9o@~WJFNe<h_D91R=oS!N{P+R{#*Td<;jvom$?01I8)jET-@V
zS1Af^`Faw>_xc5HGu>uZ2Bkif2$=~U`p(mc7(7l=X7dc5HjEY9t@9fksJBnwd6rc7
zamAvMS1Qe@AslFAs6{yd#Wta9+c!J);LAg7!N>WI&7+^q&ZbW}IM|)H^4WVaJ2*5n
zy!>i|sqcJ4PQG)Go=N((Zl<EAn1;?Z09chVAoifPh)?2r!}Z3l?EPd+B6o<+bAXk>
ze&iftny}f{mzw3!rDPlnY>yb$?z*NkV1kWz+nqQ(5GiyzJ<xcFG0Q;h7-$j+a_AN4
z*ed$LMCnw18J_fTxO}~d3RS`&6l#mpi@TY^6$q5Ao^E+hLwPOSOMvQ)VrQ|096thF
zn)w6SEEs^}#sq;w^5FTKOzXo4>eemr=ZAJ!{UL0pLL12fR%8x)sKnD4wg8p_@T4!L
zNYbD%IO2)d0d^>lp%fWamTul?hn|FTj__vdpL2+$@|F^~HBb_?s&e+0ofbn+F@6+|
z=pJ}}s(Zan)Z<BwnsY^n0o0z9cnTo@49iuK8Qp^NnE1IDOuA_KQL0WDSEA$OL|M+9
zUg}L(4_N|8d}bg6@O@i4N1YFrPoj`gkD*a9Q)9gXo+dSGYYx(riH(jj%tc`AVVR(u
zD!p>}GV~gEZLyQWT8k4XZpdiV2VKs=o!A{B5L8^wDUst`AeRMRPfAq{c(8WqZ%`Ro
z#TGB}qK8q!@XG&QcK&_-3_NHSgznL#mC$7=b!PFIDRnJbycyVJlESdBRW-!CtqWw5
z8(NM$*D~B7iSLT3jbl@<_%pYzG3N0G5{V(3W|rnQc`*-CbkwyjXYL*<4h)G22Q(d;
zT7}nckS8)M<3s-#02RO^K83wZ?s<sn0v^U4`;U?RlL)V9T0|`u>PGTc`>1NFmsGMF
z1J9nb(nUU5;`?QX<stULd4RWDCt@vu4$mN5X$AM{<n%NpF3!VXCrNOy^fp~MbLjyP
z0^pNETcd^+X4Z(lmlc@VL)^(!7PoFd5F!Bydn2_@gkN7b>8LBsuQeMQhhIW?Zxqy{
zmS7f@4{*&Y^)S>YFfb6t^S#c&r@v=P?HZt%xmyVI-Dw{gwT~Tvp_yWs90^#|=b$zy
zl#z!nk>n*`^-16rM8)|Irv?*o6*8%1D)_5mwywm(m7~gelt`?&WQW8;NDGAkZKjA%
zqFikxp`}@1U%3u<F>Lf1)O0iq3>I?xSl76lQ<4+3CM2$nJy@Y0csIdC!4l4W@k_cr
zjW7cdoWGEQV{v$)j!383c)@gdfmlXQOC^Z{gsm%c7nXue<qcg<Bs)<Rw@i-HW-2o_
zMSGA1Fh_iTVM+Uu6kB)>xDOE)tP}<z(LN5@L-QWNLsOA5H0Cal?Udc=CRU>os+(y}
zlC;+vU83q+L5do592Z?F2$@vkOLyVGN)oo&hf9}PKcj}P)K0-O7WkASv7$OV1%CJb
z#rVH@5u*@zdP>=Urzh!;b-r9h)6Luj?|Ja71=`E-xhB<;ML<J}(U6Ry+n@z?pjuX6
zl-sX#Gn1j-O`C-DWMTK8+9pZ3X*jbD<<|IEV|cZh)nXC8jg<8wZIY}75s%C@Gf;(W
zSf~ib+(*-U;Szog+m=vwE?Yt6I!wbK=QB!-`n>}msjvZR>m)So-aLJj7u~lv1yPE;
zgP!OX>x`+2kFjITkX*pUEEPlYRV@trRt_fivv)aS;>v>)Nh%sr7|2}mZ34GRnYj`(
zcN0z*{|i;9CY;HO11dz-@$$?=IK~N4vOqJG@H|CpKLLz};Fl*#qJhe4&sbG=^J1e)
za9AWb9icNt%b83_$PJ8e(<(QFTTd$^doPq&!VE=+S?P(k98<oH&{fQ&eoy)@#|R?o
z?B#SajpxwYRJ2)1z}gX&!yT85mgB@7AeC;XvE2z>Uk0uFu`42+t1dWZ8mv~zPf<xr
ziI&Lb)V=ODY}3|A@Ys9V0vir$E#=@*Gh>@od0RU&k7?w5(1^Gx{6JI*=1P6M%QpvQ
zm|FZX`CBBI%t2zN^X03e>a-?ZS9#i#fi0P*MCiG1ThTL^2Z2n?MID#TR>RP!W1YAa
zk5o!@D82AurkI_$;H286s!(4hd!0;r0ibpWEA6$?XYq)9@o|(u*SQvMoQ+9~*T5)&
zNlOWaqXM=g_`;H-etZF?jPc+%nm1J*>ElL@a2a|0-3a}|*)JR!u~4LQc*s0hq&#5R
zlHeqnE;4pZnS?$}V&g{Q8pU!4h?aABzD84dd3n6yH;+>J7L}$0gmTYy!zAp=t0{N!
z%sf1VDiY~Q?EfC5gceEHNZ^sA^|4V&lEoQI+S8)eB{C0eZK@`ne_{7!TS;!c0<g~Y
z(N5%$0*PJFQFvG92X)|F?4#&sk0`jzg|Uy~GnV6h@;sOPM|0j~_S0E_jp`_NtM_*p
zF=8-lq+hWhh@0~eQflWsr!}4yHNRec;&hg$q0EmDg>V>|v4r|sQtS>?hOkj=MDuw6
z#C;rkOl@3F)`X=N)tzI&)MGE+qSl|%t$$&(CR(JD4(Qs8<(9BOW{m~c1d)wfI!|6R
z%;iw-9CFQ)n2^(n_cD8!Q5>31PgBuV?%7xBDyDJy1Wz)oSn-gG@=JLn%Q7V%#Y&uw
zScKDlGGt_VWEnO&ZB>2WR75{gZS>?HI12FV>Bm>KQ3d2ClPXt@EVZ<uDx-$;!PNj4
zg{tg?d=`^C1riItpVFWK*4_F$^>e^6@HH!n!Wk=X-pqO^ZAj*4YfL0dQ)V`|v5inu
zzyydWB>P%6bQIiDwFg~Y=NA{t?Pr3X7z3(tYF>THUTl4dvmL-x1Tf|-Ob|ray5}Vi
zdt!^Rw)c{-nqeWU)j$};!B^AhV|r6!NMI8*0iflb{SZLo@IUQ=7uL@llZrwmxr-x-
zVkLy%9|}>tQ2iPges${y|MMk65#l_H$qd;Hb+@;8k10}mgX5mCglaJ**^q!0^&*)L
z3lQ3P2~osUg37~j@HMG%6=_Y0?{E@R@siwQj!P4WCut-3Fvyn5c-n17f{)E+VG|Cr
zmNN7-{I6Z&9)@-K+Dv8SYC^OxdK#3pRF&SOoP!~PwINAC1m3uTMGn!C)xEr~cB+(B
z0$mj)r9McCz)^)0lj$#F3<Hmsr5Xh`c1lxO#Jm)HJCp1;1DR}&yLX$g4OzP4VpF-)
zbu+od5aYs6zAWts=`zZP$ad&g|9r{JB|`X*0l3G9#m>geBGQlZP-nc6F)f~Hd+9S2
z1bGe1G+>wnn<cUG@Hm@P53l(Q@X;Z~0w=%8lm8_Jd?-2$(FsGPoTFi*S{|{fk_*2y
zvXDk@Wk9gX$SC46{zjGtGCJl~n@J+Vq&zpYA4N1_VT$^i<<kO9=~=2_!$0(K?{kxI
zM$@QDnQ-3prubSu-Mif;5UO82;wQkVX8;2cbXm)8#y!#DC7-Pdu8ysGB*j2OO+}^Q
zf-aaID{oA)dbf#*oLMa1D?^|ZhbFvcILNJbZ`clUL<h5Np1@nV+L|~&DuNmrs?RSk
zVG1R7d#m2D@>9L<tY)NkVXr1IM1EtkYd}t*{)DFAkN10pO4!5>WcAb>IO@i?=0NHc
z2+9O*;kD!&I9JDCtr02m0B*jKmA9{7`Cql?nU6BDG9TjId{d$l^UxO6Cmh*P1s?S8
zCXL&Z#)_hY!^33>R@Li4$&vsqqF+(Oe*r93y{p=esvVc?@!kd2MT(xClx+*k^0F%X
zI-R}C(7QLSYGrK;;Y~*Exh>juXFFxE`uP^0g(?oKy2je}mGlc%Dj6~5t)!bqMhK>T
zrL3WJ<#0xJ;*8ZvZ&<gXyeC5wdAgN~#CJnRw3hBNR%S_%?EQ59on?O)3MF-44UMB1
zj$-Ax4WxF~NV#f`3AP|Sny^{@f<r;AqLsYF=Uoq|%;<=C`yZUs4(y(_2$`|vaJ~^s
z)GWdg)4|P4EO3eHR>jaE%fCE7SACA%rJ?ORB8+w36UIVb?Lmr>d{JO!BMK}96DBhf
zzTJW|M)MMxbn=`n*-^H3X@HN?4pauX6TC9j1{*2pZn2P)OpXCPj7{T1eba{g4pC$a
z6LaNa{|qg09aI<LH&m%&QU`@GyXgjs7fMm9O8yk~X&1Lh6-K*BZKtaugrXVFvghbi
z5IGWYk`<HaUy;5cO|iwvREhyy)nR2Dx^R8ejMWm2eu_HcTVB#~as1u)Je2d2Lz$g~
zC;})xAVUdXC3l9zGpxadwd*LKm02T7E-?yMNZgozJ}Er)GRGLJt)9rnSnGM8SfBkO
zRwN$I5<#z8p+<7$ib!66*V4nPh=ZQFcCMRi5;3<nSA3)soi=YElb)=dF-b%Ganh&a
zP71HJq4Ft)e!(UM%9RoF#x6)yrkI{_wk#X1a$j6_&lE`S&q7O&%_p?bCX6TE{A|o~
zHVGu%;{hPiqS9hPb&4D=M$1c9+}K9*tIOx7!k|&JuX?5tmtbgZYpxT)*Sn>!(nMRV
z(1Udnsii9V{{4F&y6vGKGkB3bw~LaKWReHMyetRMha2zxS@Rz-;ZR-S*f)O@W9%Si
zcY_nkNLfNkVJy0K3105F_n758gpe@{pI$09I-RRcB7cY-JbW#AW9+!woUkQ~nn`M#
zrF&`Gf~Ga@=D0|&7K5U=GtU~%N%J65O3{jQ7@y8BlE|_Ze~J>8$d%i9*bQ+XqlYT#
z^!8QoaBK_-#fPy(tg=25l~DV%Ki*sxBl;gfyO@Mtj3(cg2%O+&u;S4h;_-B|6TnW7
zK;=OhVP`Vrniqa)L}G{?;C66ybOh2%kbP2kdM0n0;5=%xUhiV*D&sXghVr<^C$@gZ
z(5o~$4=7a(&f3B4J}Iu5jFS|k9EdAC^{{v<Pj|WOs-z(DdXg!c;5^=tmV}o)G@_Tx
zx&65|HKI{5ozB;^EMNzJc1YPDhdie)SgWG4hc&=HtIR<svtlR{0BW^qBTMe5G^C8B
z)p#O1Cfd)~H)=Dj;}mJ^UmAZtO4dqytDXNua45+L0usu4*eI5ATDa~e{mzu4R9Yvu
zCU<%fnvh;VrpmDM$8Ke$N%8N+aZzhZ=}_Fg6|IFs$&-^Kf?T1y{k=mXur#M)S0(nU
z0)^F_mE2dJow$|hqRe%Zbhb@^Kd8a#FH<VMOd2K@9&)5^w~8hjdy!bX{kjb+k}^g{
zr689dlzM!g7!+YBo#PRuGjXa?*(Yp|<3&=rI}r}#NH9?I=~8|iH=2%%Zs<S$aDyFX
zl#6t;$ZA?MGg8PfAf*2!lR}TgCS$r4ZGc_ZhV@IqMTQ|;Ha2k;E{1AK)!dJqQ_G2*
zBW)}XD1dr!ZEFXl#~5>|9Fe*&VD)QKKO~FjsqbU%a3*5WnvInb*16)<vyeif38Pgq
zV4`h_zhx+0iW6eb(9(+}TsMxLV40L*(0i%B2!a)QnPt4yK|Fodyu2Rb!^k_tk#cra
z{|`@R9TrvleSH|Z8wR8qy1To(5tQzdM(OVE?vRu&k?vMX0g-M{QUyVLZ+_4BdjHi6
zW`;TEK6|gd)@Kv0^Ce|<5!1KJhuGL6ZbN!UbE3b3A|oMLcdd+;hfWUrx<p!IgqvHK
zjcT<CJu0DZU=@Ex&BRNl8Jlhgs$e|BHn+Vjmn5A#!pB5hHs$HMN?+^$N`gl&r;KDz
z^fsg?V6c59%y(E1L~6pn$?)Js;TJSr587p}T!5ZlW|P~SY-F>h%A)irIv6jl!6Na7
zFcmkg7w7_vWW4CHQ5T;`P;pE{_9Dpq@Lp|HCkSG^{-gos%UW-R=xmecVy*P9j}Y}I
z$Z;Y3i4(JU4N98wyiLqKEx@XA6u~MYaa`skrzC@(jr(h;%MBKY2YDFl(N=CPh`9n<
zQz8`nk;y=?SAf87;~Z><5knqR(iWh`sp?Vnv*P_M77&$G1kCBuj9TWdh9w0qv8ikk
z2YCM6-fBt*uxXI0F)GU~3a6L-vN}N@qiQU}u*OAuj2Vte`$L(1go{Q@rR4sTKzA}r
z3=1OSjhdO(H!_4M%^y4NaCw8}+*}=C3cd01V={8{i4wv%jhjN4F9PxC0`@C>)(aul
zgc8Fj1SHyL3X#)RA2BU~hV%*ZA3i~hBw;~{rvkzF-U4~Dv?WmvLDGO>xxV!<;rqC~
zb|qflXjM<)C5`YaHj48ximh#E6FGs?!L2#W>lKhYt#vvUMaepM+*GzsKuo5>e8AG3
zPkB}9ZAhwLlj9$Ga@k5b<oaym;Uj{TV+j;$_P~)@;j}#XVIZkOiJ2G}K~1s<Aumee
za^oqaR0eZ%Sv&WDu_eb)RovMaw4;CF8K#$L|8-zvkT<kbx&gXmY0Wypmvpi;ix9NW
zfa6%c#DJH^Le9)#5qYCbU9vTo%gd;bA-z}%KYIUvrO-|~Dwl6Y1wE12U9y<ENL7}H
z+88)>c;JPRzn1K&^YLRXv(%?uWppFfF~m#FFbz$JBq=MI<86ugUYWlD%U-a?J&9w9
z>&lT%*tffl!zv^In}>;GBsOD==$#01AByMOUmmc5GkOf2zy*>ip~o$@+**~Pa>vsA
zs}5_RDJVYk0_eycb6^I@z@vf<7!%eSe}N-W5O|pQqd+*B&yz96%vJ!{59sK4Jbb<7
zpQ{YY1>_Nqu!1c0mznX*<8W@1finzD2tYZ@JhZ4tmO5&yG^1DGOf#!nKasC@6?D}f
zsYGD^w2@(HeL{^HB+@E%|KdtTz+H3N5DbU<9g}^yO|14x9H3n<+FYt3ROaFS$WtXZ
ztX;E4S_2+1JRCd}4ZyjHNo$kXidGq+hx)`-buh@{l77MbiS%a4?#M!8Xr@s#G!go4
z_gk5sltYq+N)}seM2E?xGGdN)xrevFGk6;+)8Q=<d~*yiUA7@1DpF(a92jhyG5mBX
z$D0I9qM_ww)|d#cX=vRS=<o3c=vTtNpc1GeB`|n%Aw*PKEOXn6Q%*Uxyae!P6Pkes
zj8JJ0XIrob?g(X=fo+Q-d#2M=7_ZPRM6A0){gyEzrBx1@Y_Q#3P)1!PT`84-L++<D
z-2lXT;7bf#Mh9wg(B9Yx@cYDwF`>VTDKC}9jM{AI(Zl&x7SaGVC9Y-NyCBjdhZRNT
zYjPt2{e?G=agqn!t2jtI{v}R!6FPaKg^Wi|ruUnK&k=CL`c0;}7z0|gG_cSZpybDb
zftsfSB6Y-6y7+?^ShaoDB9<zoknOH1AkyayX&*pYZTC9XK{UrGv&2aO0!wvF-vsME
zu1r88yiH?59v`i4sxr6gM({^fCh&1Z&CPJpG#HaCWNwk_5!Re3a@iu_1o@nbxHDqk
z?#jUkSzDS@L(~+uPK;xk8F=WR-J?y5!k)mn1Pm8wX4(h5yM{hMg-DIo2K#j(B%|h9
zNH;H?qqY_93Wx{^t?|r}^_Gf|Wi*2C^D_&m<C4BAZ{A`vFMRnz^3CJ;skSk{eG7z8
zyGifVVztmz+~)KAWo|B5PN|yfnC_qaZ0Fd-o%dj{2Ik{@ucq3pEs-GRp<a?pGk5rq
zgo9O&n<H(-RSDF&(RfmZ2t~LNhNSIX{M3sW@Tl0`g&7>`KiipgEEGbW4<~L?m`U4a
z@V9*NS$%9|50&fhj`2g79Nll`PtVqNal{H2NzI%R++Kn%KVz6)r{Avjmhb<jAwpK6
zAMne!kux6U&{^wjcrF6Ue1X^@CN7?e=*n30^@lV=&Ycx#FUrG0VX73@(tZ~|ho0tF
zO{iST@>!*pbiS!^hzDo{o^6Qu0+G}i$qyFGNf}0ZU-i0myex^VRZzJmgTVZ3iM#?`
zg@dht<#TTDlYsLyGXNet7mx-=)BHia$Y7~OuQk?;(XzJQgJaZWF3qAB2dx{lMsq7;
zo>!_akhxURpr1__-JcYor&vZ)pDfUPuZc5JLKwePGq<oN)$DUHLz*TYo8@c*vT*At
zjx6UYsXXqie6qW#8u7s?a!-nORS7)IYDtMA7ueV`q_pkzm-!;el(z{-Jj|pzhAEjl
zsApgf=n|?vbCC_y&>`6wCgW;7EoN`HaorCkZsT^ASA3NET^b2^2t`u9jLA*-Gb%yG
zky;FhIcwQ}lBJ^`xZHpXR`wrAi;ls7SAcPy5>1;hbq`3#o$MY8u?qZ}7GHpye~fU}
zJdr#$(mb~znnJ~MiS@ihguvW!|I}7OAgv^8?7)QcnN=HnegvErZ=x5ZH>9^><oPS`
zCx5j0YJ+F4vZ6Pke}V}8U`bNg;vF5o!1EB7#F#gw?_w>rrvxt((roCfFFL<&o%#mr
zf@J)4f%H{b{rFh*!DWo$wHv<pOGKzLNU&)bhHy>DI?y7#b-^=FDxG6McNd$2^-DRs
zp`dF;B?}D@=VH=c&(J6daelYbrbS59dbJ4Yy)}feeN5qo{!!%vOR1vxWphjtgouKH
zRk9|QU9tR#acP~W&h76#WD*{tR*Jd5bt|_!pTLFypT5V^rfHNssGG!V4IXTA(S{P^
zhCA<NLeQpp)^{X?MAhf%+Cul*Vx!}heSLgNUX$y#$&JUZ#5~#hfOAWTNA@wxt`<xw
zKG;dPg85W42wD<-VL15YF2mX@#UfBfFC$I@JXeJO(3y#RV~`X0lg^YvVi9uCht*fC
z>*s~hVrUqe3^n_8LvhW+7}=h?9HnGhM>^`r?%X5hIF+h-z^6tK4qU|6jpf^fuFgp{
zjgCGujKxNTwg%WRAP@h&AS6_^9uq=4_96Z?ne#$mc!itxicK4pD=1Eh_TP9|>xB)?
zfPoT<5A82qkk;^uS9w<lY}1r3GeYR_V=@<!a=i0_z&2SOi3sCOoJX67<CmeEq&TA$
z;|cJnO3P6rm3kQACct8*pT>2dsT(Qlw5@sNLHm$`ybt}7YTh>u#l@v|5=_&NWm$o`
zXp}Hm<LO^eyq~o36n~`8F_!_ZT!OUpH&CQ*<<*cjZtTWWPYwfV2WfTImrAVm$l)~e
zZs=dxd*O`+=dTnsfc{P!ZP7NDYjSz~-|T1%l1&Fs$f5^4$pOHT=H1)m$vJ_glc)6x
zSBNP#ZT3h=Qo0xy2mU~5$ns=#=Q-B@+K|r=`i?FwsIj>(QUZ<*3AA?76PdDW47i`Y
z2RfzN{O<Sf>V@M93pA^cjz!>Ta}*-0;%DJvL6{1h;>V0t8+)y+L=4aH92m{w+ah2U
zthp~ytwZTg7+a{@nf1vg^U)K+ZPH}I;E@P~W8)&~CNK}>tlE~8VFFW%hNR1InbJTp
z+j7-oUlPaVWhUI4WlbX&rW_73m*Czp)Q4f52(M5ldZK4y8If+6$`Z=zw5Dm*5HV$1
zYcO1WqSJ<SR|)_`7WrM~?l!FA^-a_P1sd0Q`n|iR-<we|h;ou(*gik!)J$OZoE*PF
z+Ge(%ubPpSolHOqw8NN+V3ehvTqU$K=ohj9bqOIWp_Gixzi*ux(v9;1;-fMn__#%V
zi@Mx2dNlexeg|d^N?)pF$kE)|?z;HsR8zfxC$u6_HSe8D>bHrfLC%uJO_J4~NnbMU
zzzR*GxxfmI2#F^VM9pc4yC~=RlyFoCgD%e5JE4#(438KKK`#iqTX#wXPMC&t<&kI>
zXXShEx>4|>$kw8(AIi{dEA4AdYjq5<{%o_2H<!O2DJONW*RYkJGA+RP7s(q_XUbj2
zT8eIukcE)FTXri$hRRhQi?v%pSnnayJygD($b&@I83vU?gQ`4)^`___g*G-e;+jvu
z9Sr(RX3sRiLn(6Sy&(?^Y(;FahYX{MZ*Q{@Tl4rtLYrua*p*NrjWc$YB^DFO5jWY3
zqtx)VZ;f)0GvI!Oz1()OPuPAth(l(5f+#c}!5juhjLLq<m74(9+Z^$a8b0f8WhWtm
zM<Efr%&>zCJ;4FYFHuPnT*2Vx-`&UHsj%-niL8S?$y3MH|MYDgqW)!mU1tyL=Vn5r
zx`q9l3hV@;oade@ue+KHGbPxxauxn~Oz402ikpg5bZ&@^DsQxSbZ!4}8d#`9swZZS
zjUn7Zg-6@OK;s+iVQ%2k_!A=l;8dD#nn))pTxZ{uqUi#I2_t^D4+1N9EZlUDSwlS6
zh@l5LN66P56+}`YnwLj(zY=Ck44X+wC1?gPyX)WE_lICeSz(IH9v>c(*lc{j3s)5I
z;LDB7I_42MJW2b~^s*se1U@Stl7P)HzEaA{2O=g&J8*ssMQl&t64e35xqiNB5GU2R
zVM}L-fJ?6_o$^2fC&A~rt%WXRhe%vG!vQ7pR=zoo7UU(eQJutzif4OO_Y*Vc;OS}s
z=T-2aWTqwY6M=M7A!JoP+=~=x>K=d+oJ0#W-Yt~MqG-rj9VM!k*eT446mCXfTOx@>
z+=*^1YFiU^l|!CG3Yw|aa9KU~Cg4#hC4+hb-`Iv4$`VF}YR%(!==dF^*hA>+5o&k;
zi|bl0qImxM|H{OZ4%(O^Ky6DXp1`^H=~CI%a^XR6M`EAM=vR>uT-5GlzzUa9iWk`C
zExkZVEQ7^361BM}bA{dx(GL@&Y3mzyz}p%<z#s=P)Y7Ps6Rpn3Jbhp0dnQYe1+Xs`
z!3>(%+>^|U<K`5!Z03^>*L$e2@LkMdFJL_#*HTNrUsaM<a>x{PHH}l^5%gCsd-5vt
zcX6*47AW=~G4S;BoFWTXvyi%RnH<P@@G9eJ(}cR=qnC75D7z5S>MiR*+mumkN-3-l
zaE$09b<k+$#U^iq9}k0_5utx|lhSLM9Uasg<j3FN0O3aI`_ku|LYR7}{Pcuu?kN1j
z0e(j5?-^A;y<)F)nzt=&f8@92-DT0_1CtLVSIpoOb(uYg_k~7rvr{G;<f1HW@!0kT
zVK6y2K)i{1%y;c`hYetoBW8xaZ3yF`p`p*7;SS#)vZ&T&cB`=@#hx<e3&)p;gIf$_
zp_xIWA*DbJuR?>5LZ+tV$4#W8T#uT9TBSUP(}BR_z8hNqB^>%1N;ZC6UK3IzgN7U8
zSGe8fYA}nZ*ow;avyzR`MKoIkXD;076SG1q=(iJuBJ(c9g>9csBDYVJn3SQ+XAuv(
zWcISA@HSnSkc1OJOsQl}+U}MKu{quyNv0XNwAHtZut>1>dne}4rc)7vYc7I{Qz2lp
z3&h@e8odtS>rdgJ88B{pXVgw45GD$O{FE;uXS*~)NR6X%u)#_clxYhg+H}(b4L*f<
zOuc0{_Ne?}E=l8q%J->?n>B$JY!hHOqd$c7BJ-Xnf-Gv+ztsmCI9Tc?C_sxaE~GGF
zeJKsW)I#Nu<)g;O=Rl23`fVwp6oS^Df{2-)8irj;d^5H=f_@`qC}aya9{wwX%?ST$
zZ1ZE9gnu}G#L-oLj_W9V0{W{quDbPWlo7Nfxxy4qGYP(#4KToUW6v0K+pWc<6<~fN
z$qq^A<`V1peYUE*({CusZ4IW+1xc+0+)C(};?a2DzsZN7Dat9e;IJ<So)ti2RzGza
zA|-N(tiTXmfhAnf#MDX?mCLwr3}k%d`b$3T2`weD&+{W^xQ#P`y{)>Y_;1}GAnkH_
z`x!9NiHf5(ye&psER2L)VlLI~XlQE$NyjdyeUWv<93GVBlI@Je8<Ie^ZAl(p{SbPw
zLna3l+CcIwQ-W?~sTHWU%xCNY9~in3Vh+1U`l$DoO9DeUt&`&g3QbI1xk6879Ub)L
z#2TP3jXKNB_U^VG^g0pJjwM%_Z)DHvthoIIax^e~>?SD#=mS0@DKpt1t2^tTut;j*
z><^a2L{>{F@bred+n<u_W5ZX0`l}H~>ooY}JO#ogwz9&AaO~~vyTCVZ;Yec$Gs1za
z3%u#eCf7xpD%1hExFEsAUQu|K=GS}s|2v9|b`X<ZlH$qC=CLfkdx+K7XUsGDkYTo>
z3@jCs<Xqyujw-K4h&}LyGvf@_20My#&)rg<Q+MhKw@tp*aQ@Ojv3~ycjyM%aWe|Z%
z=uNUnGAu$jCF@rGvAo(+v?hinu7A?4qSx>`<W1_`7$-zZ;{P5dkTk9aR$F%y8U&cD
zFB&@hiYh*RVyb$o*;|aM)A%#mI_=)?e8mB7XZ|hJu{vuiyIyfqU)|C9<|5&)jxw(@
zGGbvFW-Yi(e&Hd@+?z>`uR=~hx=B`fe3{~0b~_X1F;ea*?fRhJdNl+8Y6%eKOxpRU
zH{4>Gb>B|J2i!chzDo2TgURyv$DDObY%W=3aDS+U9?`-da3LqXNGDU3V2GIg6gI>9
z_V3GsmxMQDujpQ@B1Da)!ZDKl5eM?^Se^_b+I$6J$<U7zQaAL(MMVf9+uw3ju5i_N
z3hoM<^WkcLi6F+Ht?DA3Qj}Rr+NX}4iRtJ}gWqB~g11U>__x#;1Jm39w~a8~Y%59p
z6j;X&08n!nij`GDElkn1885PeETGUsU^&>+AV#mU-7mu=kD8)tdEkE`U*UGG40#4W
zM#3bxf6r8dP&e=eKt*ImS0@6Ps=baE43WN7h$M5X2Jd!wCE{gQ6@uJpJ1SR!=THRN
zgVQQz`E_#e!!Wp*PndK_73-1Whf14XcNMQZqv!D!tNP?_NkN!|F>j`n(PY%|?@RDs
z5&^bBEb)n}<B2GN80{P;Vx|6-QFtXKL#rkUdtN>nA<GhW2<Gn&JoA76P%wa@>i2*5
z!T*v6#qS?2^}Mi<BjKyS;0u<v=p+)UQQ{e)Zs(D7Sq`s2)nRKQG7p8(x|{q#74GyK
zIZnWEr*yD+L^WXa{QT)<LGDo0*C`GNNomMDCs>t%`I&a$%DRZ1k2aproKX(VFI0M}
z=Z)8#5BCpXGz(Y3`)I;Afcrdm;T!}8Nd-<=&s2B_{}_SD8NV(9;4dB$mJwtfh`c0#
zB(T_<O~87ku0elOZgxIXN3S|_0>van@!~5cOpA;^&uj0CgquFW1T!0Bq+PoSE*}nQ
zQ9}nqL+IB_Aw3!l>2lf`qRl~63zr0c&>P+f!!28EUuhtgk8Sb{({J>A7xO;R`y*fY
zX`)_Helr%|Fv%Ks2KfuMOI0YGm45~SR2JnLUUGrpyE!i~U1hyoxPoB+v0hqPo(rgs
zoulOy8BcI$jmpPfu(3ov*gHN3@1xn4-(k)&Bt{;LPlw+@Nsz-(>0B`{zmoA2IxTna
z)EfIORcj|pTrJ+jsfCHMxB;RMM%)qz-e?EvjBEt~_zm*L9DR&|$GEn@ST4QiyPgS-
zGRlZ758RLceor!Q0Y8bJ{N4*kP8q4S4U@a8?I-sKEay0QPtu1Bsd%RF6buW9bmZhB
z65*$MEfQV>_q`S;OEPLJBCSz6%acoXk9~o?9s4-$YFebQ6+{^Mf!nZ!jJdc@>uiJn
zlu;X7r%~5R`^WSySwa>WlEu>^SzpCOd2Yp)($9P5YunwhAew4o_$)<zVo-k-r$kJZ
z6dE05?|fu&WKS*`DrY+W+R2$l_e?qamrZ024*n3JXXv22Ii%66AyA|-zw#@`l?(D(
zm<qtdTi!mqDx>&`5(&{k6PN7(Mo!)3)O?C*v&XUcd9*_hs4N}*lIk@+MV_23Gu3<a
zs`OFiUk?hrd>Y?}ay)3u17_Lot=ri&otf-}3u&*y|9T_-+y{wxW^AE1)$l{-E6w3F
zvgRCeUzm)ov4|dRWA?c}?4EYrcmWA`1%H{5eL^)B3TN%`WU1v8Bq?$8O5a==Ksi@2
zjN!(>0M<65-9e$6P^Q#KIDcPXZfoPV@IkQUoSD>w)cuXL7-Ucj&lZ6m7s8f#37EI5
zLnWf=tTY4mWAket`ZPnh&p|kKN4VFPBu}n+B!I<A4V$-QHz6<Q5AZ>LQV#R|nG|m+
zX;?2dB>@aDFAx-4GSGpy&LQ+DbaFCH5=cQ=HSe1b${TNmo>$b5XmL|^<GdS9*??|&
zP0U=jG&~zlB+<pveLWpdq@;nwnaRW<MIE-d=7GzzXjWhN+WfxlSSciR_N^ez03tkg
z$9GE%Y>sTJ9$>|lZ6G{}kASj&{-MTG7<vWBZM2?J_=&z&(U{y<s^m(1r9|xn@b+1M
zOn;OZv7^r0h>DcbW$916?ot6v7^s#?uo%VHfhwr|;R5;iUKvv^)E=A>xXzD-mJ)QZ
zZTSwy98Mx>=cBIm-SD56opKX$vIih4B!u^N1irdZwcJjoK%U3p0c0#z*zIU&1eDDW
z@sAS6QW5<Rykf}1v2A2{uTCQ9O<T5%g>bapffFz-D(2TMA%q-w7v>R}USzf7bmwYf
z(a|7gu2{-H-$5IE4=g|cW0y0F!s#fD%B4qT1vQrlPf!NDL#ZDpQ`|mSpH&Ta7d+l%
zrlxh)(|_m5m<WFr^WXqy8;ghUqs>N=R#}Tb`{9RI@olo6#~Y##HpWfpWpX)pltK$r
zy|5w3c3AIK68_tm(w!VkbjF=`HyKG2w1%-!;tPRF)EjaNyIf(d`#G_;BMvFQNWI2M
ze>Q}S0l<Srg>iP>Zd6W0y`2k%6v;0TNm<!jV9KH+6}=)ULPD|4UZ=Izin%isjZ*a4
zlT$3FB`*!ugRyE^dhmQCb(K%_GCF}*Nc@Z{fsgM1A1_}w@`|t6;ZEk#{eNO5o{fP?
zG+cUb{nwQSx<RpMU%QR27|+|4aHOyju~OPi-1lzgI&7m<gJDh6MEjM}WeF2f>&@+3
zm<{r?CZK}^w+ry~=B-;v%A_7q{+{L=$#-=~31>cF!e(M(wl2=0r*c*p?QcGK)<mvm
zS-zFBqsj0r{d}@<PvbF0<qu&B_2-^@73^|%Asqd%9<~ho9}_*?(<wd5e(ulrq@nn=
z>y4$BDR<2Pcxd<-WYZS}t7;{&_|cz?dY!7q{6X1SDbiW5yWoC}4cBIp_*Gw}@0WnY
z@G|&Sdn^kfsI3OAWFGki1kkL!&?`ZdtY~C1cEXu8Cbc*sQR7I+8zES!e{bPT=4*<6
zha``=>&<;56=P2HB#(mekDA>1yquef_{52Xy|!dgRV2D9t{Bi6#vwS0YP7YBfe9{v
z-T<Beo+As+Ut<(?8uma%S9{Gf#j!%w7z4b7hHu=B^qwK~`E4N&5Ai8H0eH5KozBVJ
zW-|Cr8O)J<bFR#1XW^-caaZQoc(x8^GyE*ai@FPaxaI&ISNj^B8WUlEBIbj}yG5K!
zRK)Zo(L5~lil=>_4wDMr!qdo#$-6i;Nb=38%I9CFyJ99yxa&;aL-w%?M&<V(Bb~Q#
zoG{`d`_}kf;5G-4%VzA9><cbw=O>&}z>3_EWHk6J|CeuO<0DZALL_*K-{7Z%MT^%L
zZ{aQJBtLU3+EgkkSqe*h@pCDfRnc~lUQZ;bL~=5;`QTZCD;`g=_PSaAtrTP4Wm!0$
zGL_>H8~qdwzIbK$>q;oDI4a#o%#nNi^qH4YD`YK*t!V{4%qrOw;Z@Xg0e|@y)J{6;
zX=!5No&ZnaIFX|nk)@0cIv2d?ACF(C4>H=?{Cod<cz`62AF2NPrLBkPT8Ry2lp%|S
zifzzTmz%JL1!wsENWk=X-hwN?rO^k($v3tdeL0BFgbSs!MJY6AetQTdgk+^ng1B~4
zxO_9`?8_Tk%;4z~Mly&PAix4|-@twYSqZ7a;QTx26qqXj$iyH{ETuMc|38~>+%1rI
z&{ns&Fj(;Fv7%>)D>##f-pFd2G4%3r%s;y;pFv;tPzj?MBX>P_!^cg-Frt}@bN!t@
z6l3M+<GA58AUF>r3v%u&BC?Act3vkphIkFQ&IGG4l}{u~qp_%Tt)Fcs_I%Lj_>w5C
zU;Jck#m`a7wEuA>#-AQX@nLMU!17!NAC)cv&&0<@!X~1dt@#~I)@$pM;})0%VoC!|
z$k~vOP+>1BvBPJ&6#sxMpIB^`ot&78)m=0OR|&yQ0tILtWm6aoMe1jBE?81jLN$&|
zWQ6)ZuU1STn2$sSWHIY1{4nZ{L2S*yaL0Q7L>vL#CBWRtUHLygMp#4Sz$6cYkm*y8
zuV)Ltbr*<{fL{e$pH}1tVXpY}`#*nZ5xkpN)AjLZYUP0uycG=p0M7$($L;?+3hrSs
z{K>JFh1HF$DMK7%J=sp1b}8mrFA@bjlNUb)<<S_iuU%|sG(2;i$l2w7%9DcJ&vaIB
zu;2nIh>eYzRn#B;e#u)$TRBFMzNU!z@*DH9aaZr|>n}8sk*KbVJ$xMKny<B@uqjxI
zGeSP9?%!xPaTGf5ZWT(a_)DTTE1Y_5!-0FW8AkyhWMVtOHk9#f#zN`6Cx;}kWc_`3
zsCM392ozfkTF=I4j)S)TP-P)@l2&^H&VZOpv(tJBm=MCk@@@Zg^KtxW0`$|@po>2R
zyG0ECPHn6Z{#apPh(vW~z3*d#!%N;U(oQl3iHV17v!G_yQMku`Fj@0u+}y|#O)*CW
z1cUPZ59-OY&--+7<Z9r^;Py)ze6ns_nvg{DRi^P#7S0s$WhhYozPoD>{p$$Q>?T#n
zfF-d8B9ZC9NKnQJkTPYF0M;TEXE{^#-g#W>&CjEG1WHlx5fznxdzysKU_LP$6JNrM
z8SRhcx8<ndzD7)x!mCoxw*}WJSl8m%%dw3PdlWt3|3cF&PT#zUt6<(SV(OorCRLvU
zmZQ&15&IJ~f5)PiF3^Uxp`~=c?}m`_Phuw}!g3(c*3jH(UJH4Hi2v1{LxM<5d)FV%
z`#=h>01@>)=MNv<Pf<dx#-hu@%AFvQ1Q;B(AX(MJ08jc_tqr&{U#)jFw}H`vpGO6N
zO^vjJ82QG=21wyO;Z-6z*+KK)3vNA-0{hpeHbpI(_S}P13%~Nc+rKnWsOkp103m;G
zFrNlW`u9R|2DKcw>20ftVrF25@9?>_R8c-m6U3mMTmM!p`lca}D~$^f%pl)(D;ld9
zFf7?d68xSvq@^l*MiJFe53Wnfm;lN}lhZmJ!`9*9o3F>^a9~cC7JE6VG5(iFs!_RI
zi~oZTCaCpV0o4kS5Bl$KKd3f<pF}SPIf2z;pP#gW7z^l?ljv`#%=z`?z&G_{v%epF
zZ(Nli+*n1~4&aFI!DUy?^XMYZ(;k{<2bykR-~y(L2Sp^$uzz6e3$DzA2m00<xWBp`
zG|9cg%G4vTR$KPx?QXxX`tXj1Cs={QV6VA$U2%FU<({H=9nj|gCkc##7Xgh0wlupz
z{R*HQDOu?)gWONKeaTf3SeF&ae7DT~W-KpK&AKugg!BQl4Ta@&cUKq0>LEzz6J)%f
z|JDK~kk{Et>aVA$pZ<XlHr*#T8d|nY+WCJV7X|#b;c(Au^^T*QSh*)&iE*H0gSdA0
z_vY3e*RJ8egvG>!q#)$+MHlWvz3|s!&I=nRn>GxpfGPA8$X^fx`8B8{<K}iDdkx^a
zx!BYNI#$xE<~C*nsJ7VEzqHuUh8o-vZYE16dUO?2dVZa6QsLr;um;xnWqlDWk$qhW
zgYUJe4z~CX@{}9xP9$IAG+frM4`X~<JAwgvN`-;(RJtPQB@GYH6(~XssS_*YTpU87
zw;)KLfvtpQ{1;@#o6LUCg{yP5#sf;a9k>a?W=YO<aNLcEF<DCoHY#Db3e^Ap80v2$
z|4*H5D*6Os6+@vk)vM$K{hy`*Qpl)|S?59fH84<j158VSPG5kp(GN@DI{+!rX9*d)
zB3?)4-;hCE^)dt=p@N@@BRfP`v;kiAMiQ)We7+552!Mzs&YBd6W+3JXNFSxM91?<$
z-N1JbF6fEGjU2))vF|6Iay^5G%XljK_vWy{Ob1sq+nsegx%*aB%USa0AI7kBbVR>0
z+im9HoUFYL<W9-wVRm2`>$%#hCl#a}>=DC^-+e*qSE?2@W7+P+i*|*|@$+%&%#4kT
z!Dbeg^E+knf{$~fNBYkc+pY6vwgfEaZtoX1<F?6^=Q~M^kzAw2Ntq!fvN4&`rs4nO
zrcn^&j|{NoCGP^6wkMblFl~T3`WaXV)(?0FA?*NWbCYRQL@4vLI}?Q7rbwi>dO>>#
za<t3|Z-9yiI5$zLSzs*8#H6&A{eEg82((GtV;!9VR<m&ie3`QWaSmW|m*lSt!8-w?
z1#l7=Hvp7ELyz#oGRV>%qSlT5VdE(#L~$sI(P;_zjAojOmIC3%LVkNohFg5|B51Ab
zlN|~T(Gc4AdkKDPYV*=1E;C2x?0o9t3MUT-(!l#ZO)S-p<iPHR7(rKRJN4v8YU_3P
zUr#~gmbB&nKBv6B{S&sQB{#Yk9PRl4KnW6JHrgM6h6kV*YC`O=YjEqF&n&*U`$g9e
zYCRfFKZ2R)`LQGlR-BaHo}Ra0X}6W_gq*zm-Q8U?0P&QA5GP2!W_%~+S_Fw?5OsPE
z^#E6oj-UQm6rf#!S3_TAF{rn{2N0yE+X#PlOXb!Fh?#&H0Ig@^nN&wq6=)mHf4&Nm
z>Xaaz+pMd0eDK7d17MQLowpcDHM>Uer0g#hI?ri;fVT^D5s<U`0Bu}IW?Q)Yh+Qn_
z`sv-%p)BI9Ql>>5o9hyxUPlO55e4{+*~(@sb0Q$*E>YeT{O|EUPV>QaVP8J_M&4*d
zC_6blOx%>%I)ZZ~&lSS`2XVNIP2eMB6;Rf~oNu=dmG&fPn7-L)bcy|GIiFh#sl`p*
zVgqR%2KB1%#MXX=qyJMY5uq#?cTed`kY_Fu4am<}355s8NqjF*j@Z{TEBb6_$pBf;
z@Ddy|?;=fC`arl95T;}mg@pjL76f)vKCU*OCQCk=TRp*k04C`n@dILOnF(;A2nzy-
zk+Ft^-mSD$NMJyK(CPhoe-#M`V|#s|8fyZ`3gC`U5#x#~DJcOxqGq88|4(mDUKALw
z%vW$Kfot=0Mv6%=_0H_ypD#~2?iQ-dOprDM)QpEOX2Ih8o44)fk4q(90KHdg242wf
zv0i2^q#IB(CJByM#NSK_ljH+W7l11L1BJ@MqF#&7uQO7GE+D|3VmFfUs9lj(s5SIF
z1%F8a72spUs5!XyWl>@W0NV{#)@}1i7sZN^>Ibb*Rbo%9eC3^2C!9Q>*M>8>gVok$
z1`J2)QjM2k04jkEvS{Fer`1^Bq#_@d>+>;(hofr&<dzj-IY^UQ%yE^>CsqRZiD0Jl
z9^iS{a^ffPfc^6+G6x(YAlRjjseGtnk{gA{+gT72yfqLCv?9D$P>JzSE9whf%mi#p
zS5OXuTo!XUt!8+0H@NQE4V%nO@j;G7*{$PqHRx8D6>0c13ITRbneV#UMP}<MD-VDs
zAa!^zaC~a>1JX-(^sU$b%iYhQ=ONC(6{0900{#1#4S~HZtpneya5k=)z{M)y{fHE)
zq{{A%l-t-ycUD~`$oBYp{{wZ=Q)QEK3S^&x{pI`3aTN-3WjK(Sya!nmw=BN#$(!d}
zv4H+fHj)jV^tQb5=6E9SnCMakxwy0#lmNTX5`5MX4C5gYp*6NgjlU=_?ZI=GEk+-R
zvp&w??f?brGuOAJ9%W5Cz!(JcKh*!6vgftJM)Cr{bx?Nk*mdzd++Mf7_BwHD2&z;n
zzAv><Dfop9Q$qgnQS#pzh)jY|cfq-(H4m!t6SikR+YE$jz^TY`=y=e6x9$aiQo;A%
z1tEVGBhLY4aoz^Xps?@vX@-0&bBT3H1Q<I3{+31McEyt3NKQdPrx6eW3f+n+$&>@A
zFCV}vY*6TlfE(677pD}&sChB{z*`105vxhx#|Pgjm$vO5h+9-x$}(UI0+lN|GII6z
z`)5nE2^wI+&#c32v{000f=np~SIqB3JTLl6u;-!#WZs;=c6=v5w)2t)so4s&bvWWw
z2aq0`tOf7<Wc@vF0V4hmc{vZ2`vHcj^#!PLQpF{6taZcIO-Bfh=?-Xi<83+s4rY9u
z>N{hAqZAo)SaT?7cmb<7WkKK-L*d;3mS%xaC{?Lr#1r8O{MWnC;i6{8jyC7jv|d7)
zCxpLns<f|N->mG9Q&8LkQvqOjKmQhTBMv~nzBUPCXlz`vNl)BIP>+Kf?HL)_pJrjC
za@sT9XET5u_Va$TQ<E{p8vHdd$(3`h?KZzdl$1fua<*9Y5fHeX_sF%mF?U$BIes>N
z4)mpd4pt*s19WOl#W5(eu&5-A``ELQ7(1&F6>_%#5|&FWEQZf*OUl>lu-gcqyqX2z
z)-GoSH*xnDBnY?yiMpiF+{PeR$}3?CLy~}UBj?iPk|hX0ZDjo1soWsx+OohSonGb%
zzHjmw1tkayu*`%<OvP%ggF_!LAa)6GfIe*jc$;k1WdmqFrwC7hX^!EgX?o6N-cXw`
zCP(7SH5@-GA!`8Z>M2tjEM#kZTua6Nt;%&OrLzt&TL2Xe50f7nkHUI}isC$oAA`3f
zzLd><9_*fdBs*n6B9>@X?>c^c-+ssP*9rkjVss5&&AIt4)AV<IjbyGZsD`G1vpY2E
zIS4d^M>IJ|&Cv>Fr*QhXa}XA0JOPCPUM+Q(K7ft|#mywh^P3`aR>Z`>rn4ldV8B`3
zB=y)1DHgjKFgnTzXf^%Afdb1R(Xc1ZT^)rdxBcctIJhT%H-3O%bteBTi7$%dllyD;
zKb}u$U|~hmj+88>Bk+g=unIqpapJtpZMXs^l>?mkUyCtJW^0EyrzZ={$X<ZI<kL`G
zya})ba<_)96<R&-i>HW>N!YI&Tg_vYm!WrQv<W!_xFh*rsI|*0i8T~oDE7KzqA1;m
zm{#3j!f!WAwX6ZB)SfhxN;#*Ve-0CUiP(NQ5}V447(uG!eW*i0-L$1r*2Vb@y0Rrc
zSR*2u+*;dxg|rde_apn!Yk~7Ge!2lc0V6pseVmn^UV+x2QNp!Ym=LuFl)fwkah}Oi
zN}C%JhE9vlq)jS^xU>Zq7lt4d5?7-2J8;v~qzb3AmP23OLA2nfVxY@6|6dzUrl)VB
z0(ts>y1pLI2<KgnG;)7dyC}dNAtMT6@@jXhQo+MimL>f`v+)L*9OIFyh^~Y$PYYjU
zr8^7;^@=jJi}hyntT3=;4VCkx+mxf8LNTMG_m<;NJYpLcei-8>{Zbn1yBvGwAd2|0
zZgkHGcbQznZ8co+xZ`;ILajSyu!m)6e5i5AV(4GEoo=MPyW2?KzD#Gc-)ehd!ds2P
zHBkMBV~Z%s613zCBS+QUp2;4hAE0T_T16ycPEMPK(n4o_XZgQWs~i^j{}BJZPKQ@h
zm0DiA;IPlOKsTCMScGxO8|?*?z)B{^Klnvswefp<p>DyG%BVUh$J9D!G|yX7?PC+u
zI%9zwL~d}zcH+e_uB2z?Mb>`%tAztbev?1?*rq<)k(>)z@A>N8WXU-DZY}k_JNRA-
z$QlYT{Nsw0-EhRKEe#+f-QCrrFnDWsH<T#Ln5r-pWrs}~H=8EKOv5)M0bqD!nPBD+
z`&RyaI?uLt661L^^9wrYsplHsHK|pr8|u8wiCb(BLUtN^KyIYk1ZB;KdX5x%L<;XE
z?I{l255w4^N1u7%&bB~duN(-P{P!0_7#3po#7lNznaAQQe!?_8yGf!lJaJ^M<lw+)
z{U~v7(d~d#0YD}rzK4ZxZsrxw!9RjI3ZN%Un;+y6H^$fM*Z_NFDABw78Qzb3p8lwr
zMv2FPhT8oG>Rs&W-c_I=Q6zVl13`G77ZHv|#OTqJRb6fg34#bzK3nh>IhErRLB^Kg
zD6y0#;RerEB~&BRDZ9s*F1JxAr8fBjyGC1E(wPZsqz4<x+?lKz(bQ#jXRvlJs}I{@
z{!vD)4)&yqPE5h2fxd|W&xYlr+k~^p+7?$;aZtCRRt+7Fbrf&El~f2IM}rf2mv}0G
zXZm5#SIfH8S?KW{<$<Bz8xz*@+7pJU1tA>xz&TplKTNIr={mQQhYnO-6I?UsmtlQn
z3UUcxH526{%d4+Z*G(@n;Ckf$%-Yte`1h;l^6V$@&aL>Jz6-ueFLq0Q;c4D$&n|M2
zfDZRCyYR&UheaR$D#Dz<5r3yL+w`QdzI#9GrAyNwa^4(Zg|Mq?rl0Zvs_>g8f{|}d
zjlJZp0Iwt4lcZ+^N(oLR)y2Mfc&5%CJK$bUdFSh6ZSvefsGEKU&E&d=wV^94Ig2WT
zj#3f;pk@WWViE!+>Uuhuqq@ytd)%?Myo@QC>&Wi74e7QN<BR&n>#wiYc1{~UXas3n
zwyt;b6iz^StWjei>DBAzwY~;#F*^Ky13JVr@9*tjAWCn0|D4p(a0DvrdBx6L0QO3A
z5HK%Ol+V7<*-c{mDdn+O98KwG4+_fV5TUK!-y8lXHC1rJ!+-ZR`X7HbUc;?KGZy(k
zTmr5p8QmL{drxZX_;77w9Dh&HCENdL)FkYjv{Ahd7;eX~?YrHHZ$6xODnHZ8x33(G
zxj%sYkARdY^9z7f1BzU*^}^q&>exUf5OZ5dlx*3_Qc6TiNqKQpya0<MzaP_4r+lyP
zd&gHx*}yVxAN@lMVG%)NEiIl$qrt&>6my-GsEM<MMl;Eu=eu6#1lJC+N7B^s4C=26
zZbrod6*iUGXV@8y-3F0vYOJHSNS{kb*zElMy;<zQvwB$)#$!{xAN9<o<jIB`C1196
zJbJ0=HlC8l!jn9;2-<Anne(9EqA`LZ8UqPh#$Hv0uh)Eb6SuJnaG+cRsm<NP00H*S
zhL890@1J$gkAVdr!bE@s0xnQ8RcA%-3Qw41GD-jT;9$hgMFIN1n}JFq4aw&AhNZHc
z!)3W}_?FNs7W$)&ocpqPjv?WAa3Rn^St}V<PJjzoa(GnqaH5ig+3CaZSJH_WNeK^=
ztI!P5Z{A-_9ttLJhi|>?tOShzaRY48*eF+Q7x_FgHaXPpwa*9AiAZsiMw~~i>`zin
zsLJ$iMke^E%ejmQ9!Z4MZ#I0Zwha!yw%sWE(Xf<)Ww}^<1(G9f1-G$Fmhh4y2Wmtj
zY1**|6(ql6{JMA0%JQG%Y8l(9=k%+D?+fYI&u!nSA@7CJvP^pKr79K${#w=BHlv|4
zyzN)w7JhZB=1nf;wflYfxf#*!nnYTIivPf^xsvHG^oU^O(F;odv(l{Cx1ZQ228mQB
zkKBhL!56v!ytTVvF!mm2<WPxxp_@%ZiX)M`kX(5+b?IQFXM1L3Rzjl+E+^B4PS3m3
z8ix8ltMWs)o-cEJ6?0?BTuoKc37kYir_#Au<%jazDBCWPS>Di#$t{DiQqI3De_KTT
zk*<B=)LgI9mL2G9-4X)I2nPBI<q#L{n9mXT=sIH{2&7-|N0t(<_MV&iM(VozD5r78
z@(29kY5HC3g`X%ZQe;{FI>yWMz$6R<TmTNy6t4|mFN;iY8-KZcSaoZeF4iV#u{xo3
z%#P&3G=1@RO|D|>r8)keah4Bo2&BB!q}jTVFf5f4UkO*_&ogf%*i;?o5#di7f316J
zj$0F#TKmdA`wTWJ?JQnY9j{MS9ZPp$!a1FEk-E=3IEZxO8x5tlY!1l9t<8y^&v>5T
zgwRc=%0Mc(lcxHN2Cveq_lQR9_yexg6dDho<y*@zPzxQjzeOQ;gCor~z4HfmQF!ng
zU3<v>v%bU5^?bbDj(~!cxojWZTSPtUgW8)lN1_x~nUI&S+Lr~sI?D!}F@GrFDxsD~
z!@^_y?eRP^DmuaeGh03yW=VlIV(2{K`ZM&mJ{qlzO-tvHH17?SZsb*s($Jt-cvkH_
zt%Ee18;j2EbM0ZnHZXWD?owf{90wMT`S)md&`YbJ=CSARrkNfysX(7mnW`mDPkL!7
zjIEp5jr2Z@3{BpfFh4j(twJl_tXy3tEEVD60y@XHh7cuSJnA0e7T=QdTt=NIMf#^L
z!?<Lm)r?(M9M|?h0+ak+F@(C_bx(onVv>N14iE5(WSXjb0;1?fWAO`kxr;M|-?MHU
z342!QOog^ISMI(>OL`8sMJ2&Z`LNZsn-q^x+r-**()h8@0c@aW!+q0xg`li!ptJQw
zGx;95<(o~mNkvr`F=LeXfH4Z!=NmU>N^+?+J?~zN0*ts5t7P%d-L@O<;}r6)8J&3%
zST40mV;##o?;m2qRGf%{(!$8)I@A1LV>G)~OoNk*qk+agB!iwkgXLa-jYVra)c^!u
ztLz;fe|>e89G_lFd)uHyyI~PcaZ?T|$tc5sPm6#xYCxIYQ(?QWTX_ty-1l-p`{@OW
z2UEYfSqLJmSU3*9V2ah@LKoev&SL12KK1?k+W+?@C0za{uCMyD2yV=gzvhjVf_!n1
zL}p~RcSI>n2+;8|kA^t}No2}wRI<H`;>x-agXg_-!iNR7#{kSQ9=i&`w|}DtnMkx(
z1XYGK3PptSHPegf#jFbKVa5)JnUk(HR_*npe0nn#IFI^M#-9iAURbySC64cl*4jJR
zWH^drYghuZ8W<dEBdnw44ys5KWgb|LGBi=){ZFd|;|kr!NNdaUX!h8p(O5{`35kZ^
zjo$R-X1k!@a;C#915NUVWZk}*R?j_fMcs)40Q~EO`Q+LM4L`iR&shl!6)6Y=cO_@c
zdPa8S5&GXnTZ_Cu8#PuwkJKeYT6mVlcLSb=Kjsyw5<QWUHFoN`Bujm-I@A%<j(u)p
zB^Yw-q<gi`{2O)o!s%y7zqF?agvsQLvE1UU@-szU2Slv|{{EJmKS@5&g5JM0QfNp#
zEXIx~_^yBL6fmr=45vytUZF5DdPgK!RbxNS{6^mi6UuO<oRzMSvpP;`aC6B}{<Y!n
z%JA9I`dh0SMsZHAq?G8=T!0kG<*qZKB6=a+wN_!VeWsuHg*n_j%rJ0alCk*gc`fd-
z2-<@1f*_%)WAHl})mv+Z(-STsXmZ*$l0W8`?~|}7PyAZqH^$W&l&+uE7iczCFccD>
z@%ZwXRo(%D*{#Bb0^cRM4_!laI%?5i$f{aeBgswUX-nJi1wnRCo1&VU;XIA?jGF)B
zD9)@d#+zlLyXU($G}@dZP>spq08+ww<vi7P{J0e1;OqQNE|o2{`9BVR$T>gn;EI&T
zUp^2Stzgs>eWx?2sdDGk_el~UnJHP={P*~~i=X`f%kE9sg`3~vW1d{SyEczPbsp@;
zn|)Uxg0%2OuUn_93vBpUS;<#=y{pPlxb<AOb=BsDPFTQX(HKko6)X*C2BM5rHl)5(
zlEV@AjO=~2RQF`N=2RBE4_UNGdL2v7ruTDS+t~h@8hBJLN+QRU1TP0GCaY@0hKi)j
z-PO>g6qxC$8S}TJwG{52F<!-xJL1%0z!6AWH@`q^=}+U;UqY$HQ!kexem^>sK+mFV
z(PfU-&TC&lFw-JlZWt-Ew5roR!@5b<@I5p}rn)5aSlHBJv^V$To-Z6*+()r%wGPxJ
z_0XXRZ8q&pgaHxm?HS(4rnvV&JU>&R+l?brb@K^Y)`DZxRYr2hGLpCb@v-jQzf7P1
zGDOa2OCwcY`LA!cU1>n~a_m((`FY1z7ms^ziB9eCF;li)S5>5|9Tn)h3v{HPDov3}
zXyk`FI1$;Hoe1uIw>f?b=e&s1neB#|fFa2?=M6BRNZO0a1y$+R*cx8ouz(KIYHNAl
zNLt&e^uM4Ojz4vG>YY?3Np6d=q*O&DP2PM#7=0`Gd)<@nwaPJ~$Z#RRfvHiEl=;R7
zu;P}PM=k{jHPD2&w6V*h3XaPO$<6*{6US30>WhA;43k|5B-i3ILAny`cP>Yb6GGCs
z@}+-8OEg1}f`1Vui@;qX1$2>x0@cNKqk+eReAgtxC7N$;G)L8S4XS3Oq|+rs29pDn
z;{pX~tMbGwm2nJis6=mCqwgm%`7}k~c>op42$cgjL8pL2qkD_j;Lu}>yU>%-<g-O=
z8CJT5eOJaG*3{chuVT96kuY?_r(;{cGGEf><aANpX+9CHmdSj_(cR@9H&-<tnbOV4
z*X-h&Yn4|^i}|j(Mvu-UzPWCJ9%<Z7WsX8!?HwVL%-1&4HEvb&_`Me&tBr;<*99pB
zK96QmX=~M7ZjUFiK@$lB(%Lh1!lRrEy+3PLWQt2{LD9T`j_q!#vp7tS9>p?xBO<_T
zik~XAswAWB(1vlP3MY_Q-@icabmCFbbM#=%T|`|quB+^~!}jlL7#Qr23o`h8)inwB
z4eCymw#Y5VlXYm$|DE<fI#I$UL%GA`YMH-4rehV<O#BPBmZEELKjS085#7+T+j{!}
z9;Qd-8QQkFIp7NA;bi(4b+b-l)*@MyGPhL2li^Xbbj!A|RyL!pg9k&6wh0QmTw(<4
z4V<u*jkS23v8Hw&+RxaatLLSWG+5{P8`JN?f(n0KP&<pAS_)Xy#p2oIfROF%EW-^~
zImR2zpAeb@!Y>)+4|U36NjWzqGfbERjJ6{@qqW>+AIq#`Uq!^!&xK;mR4Li@x-v(?
z(kCgc3jhk_wTk{ckBUhZqU=h{u>Hgg@nO$V;zu_kvd=jlln@cN7sClNHD-dJSyUHx
zGiW3_x1C3_O;<<``{wCKeC@j;nSV0Hkq;^>vU_O%+DdO&YD<w^J`RF|wHKoqe%=#{
zHbKR(+EN#l!D$;@hY#7E;?0ha|L5}wW^;I)JH|wSpQUQG0k3u~-924My&gMHI@di=
zs}TlaPxb!3u36O}ibv-t<{!y><nEB5*j(;1fJ<44L(JooWaZOBL#rVf8k{uFJE?kD
zVddg@nDt;JS}8l4Kaf!8hzMg-EF;ccXNvn-Sv(O*{|%bFqclt~&!xXLXfaPcHXJR6
zu6lFq??ODd<AYt}G>F6Nu02(X-arqBm7#AK(M_xLPF`&$XXLW&1THoV!72!7)$nx@
zJ@hiaYQ4$~g0?isgy5f%hTsRtPV((G-gv0f@@lmx4bs@W;C3lq<l0WpVKXciP+}tp
z-F1-iZd)Mik^V{*cr*X}m{P2vtV&N%_+3&uYL7{cx1l~Q#N(j&-@~B=|BP5JlLqUv
zX}9??ZuRxVom;7M8GV6WRSWx-kjL4NcaoZd#5&YoQ<Z_7{_!<F8{4OH>(m#F8$wXr
zQ}dQRP1Y@3nSmTqwm<SeYDMX$>bfD68o4*bc6>*(_yHjYk@(fbZ#di>XphczGq5&o
zr3>50Ib>!P5Ni<9<-&hh3sA6A5rkN>&+#r`f*l~kDvS@LeLQySR2BX-9=7e>a7|t`
zhv`ZeIuJFNZ_3BMac4Q*O4XpZ4Bk%+%U;UhJWcDB^~-bC7hw*t>duwnXwkCve;h-B
zB?`?(b4UG3d@=c!oS|RNT!6R+ErcDfe5+cBV1%@35WZSG#GoLqj2!+{NmVzMerPjH
zFH`|;OXmt@Rm}wu0?mx21oR2jORZ^Ag1)}$%>0OU3dN?LbgK>cUY$uk@FNL^eek|O
zFGZ8C@+Rd(|G7y!Xul2R39qkXV|U<l2Y3SvE$yhUt$+OSUL$)!v}FsClQY*m$cUFv
z$Eh`p{9UV?mQ#VJSz^8cBi7HaIQ_&}`Y_e?ph(O=N!Bdx>DekYN{4%cKrX>ScSjjL
zL$*DvuX0>O_Bj;IhTWNU%2Jm~UT0MPTf!fWNza9ilv;Ml)VoTT9<*p7WwPJ5xLWmh
zMTZm3wr^1sNbm;lro7^@q%rk$g%Z+Ie{NqvDQ}aLrX$ufx7Im-5WvX(RWYHFcFLtA
zuu~iswi;`*YKwlG>dk-Ekt_dBgHJtvsNy>f7-wu>dv5&$UGX9EW1iXDN(BbqaH|`W
zAtRU6XEn4eU#7eW%JvX=n#f|3s6t8Q)2S=HcvQEVBIWf-l@(&y;4YFQ`!wEA+e3sx
z4fGQxi)d+1ZFp-{LRK5|V7^8ox6VHq{pB%S7h}gJce^%aH+Q$ti(q0x&FGzz4EgpU
zZMFC+d{e93`o}$QV~7~@85a6EoR@x}N(MMO-%gUKWS?=KS4-tSR`U89jW>SRdSPfr
zsU5U~n9qk-g-K6%a3CxqR^wQnD6lYfG((7E5*DRk%ZD?3JYVT;WVrEs!}`^LW;97>
zP4z2}Q}^T5xe(S$J(70Lyl2e%-)2v$)yC;7WHwka>d3o`%^r40eBovge&(?xQp)^!
zy~21*Qy`RYnCbG!UE1-?QD@}}4%(HLp>J7}wRM1*KsZ&(Esy%onozWne(Hy!ez^OG
zQR0`Ms#MD54P0z|u@ZH@bD`@+?K>r@yI%DzC^bv$!E=eHq-rp|c3AsIig4BCdV}&p
zZOy=d-+JLU5RaJqSxpj<3bu@em)6Ec#rLJ-IVqpR@TaHj?!6iny`W~5s()A)t$4lU
ziyhf{@diD}u&)F1zH*zMN)?2pVtBsv#EZtLQO>Cv?)vn%&g`!W$+X=?f*^mC`s_f>
z7P&r(kankKRPBks5qG_BS=lGYfREN)Wm!OabePSqR7WA-`Xco+4eh68>>9<u;LNpQ
zcl!nm`f0VkbHfkH%PShCI)Y{u9SaesKdc}&`VoHPWh10UZAz3einYCW6D;G`ebstX
zz=a3qImlmevm|%5;)m;$r+i1|KEHH*2dn#YP+^@IW{^;EUMae%a$G=dM?n36f<ww>
zYY@mj|G>X~DK_OckBAx3nV*6XV^9<;Ym)K9&Yd=aA_H}7x0<Tr)pFB#OP9^>#syK>
zN?rqP7*95}Xy<nEeO30rX=Ocjq(Zevn$58?Y4jxu8xm?PXF2@Nb(&aobV(OVc?yL0
zg~(McSwNS3JhAbMh7!YQ?$Grz*nG(6bTR~$yI56EX9vZ8Ax0BV)=Cbn3v(m&A}cp2
zHk#jY@l5?_&t95p1;*e|I=}b;4ob{o`&#`c<X{Ge^?9vQ4;$;BDTTd4$QwIj$5J^3
zanUhy&9>}!iqmt;^65&+gnL{ZOZ7&)t5NDeQT~5)y>(EQQP(|u(H$ZnND2bdof0Y`
z-QCjNBAwDL-QC@Y#7zj&(jna-9STVN4)62MeDl0B-(NZ->UG`sIeV|Y_Fii<goy5c
zccfuGMU0opl^93fVxzz*Hc48CoG9VQ!hBnew%&YQ{6f;pJ>k}XQ~rdB4~OgfJRi>p
zhE5qSw$^>M^mh#>SE9ECjb87EdNvLS@&sNGKRb+CKTLVz(XsPKTgQs7g}SlKu`7N_
zs_V$@>3Fb%#?h&ihu{}+Ql^g<i?x-PF`n*Mn7J<rIUoJI<-Ss3Z+*BAlUn%U<c0)Q
zMDdW|k5CDs$XqVE64_hPq)(76i$&?ug*94E249ZA{(6nIU#ED`Me*qquUD<Va??pW
zax|5;`N2;y(^T$N38f(5>Xy+>$?-0^{H|=CfZh%p<CXiyX3g-3mB3qONV}Q}H;qbL
z(X;>LgLI{9X&bvm@}x`$AhrfeC0JzVDI$8Z&Sw0pT`h+42=zh~T-ojqKO_a*sk0@d
z(V(H1btREN@k;F_VP}w<75<4WB>6!~Zf!ns2bF6uj)<QC+xTp24^QaHRVUlaxXm0s
z4#qn}(E#qx_7-^Sc@5OxTQp&TrB^!lpOq>%-PUk<5udzGSabL*CK&H>yHYJ{*`y2)
zdzZ4DBWHChkXf3Hc`2g&IfM2WDhqbeB5qgmKB_fGcx_#t;Tpe}=LZk+5%ww51pbYp
zTvq2}hH7aI_2j}|R4+*#8MI6xKGhwK{7qa<CD<QH9ZbAMZ9MvrNY7WFZFRAdh+jE~
z+v<dvd`1E0UM5N&vZnH1Lq+P(@-CRz;|SoFt6n_Oy2y{ZsQzQG)!NocWg9*!fd8sl
z(f&$St<^H2yU}$b0P*ZYtF4&hOUe;khNE(hPI8Hsu=m)o3Z)T72Yov3CWJ8+I6q&p
z3$=yaOF#|yDbL7MBhB=h{FPTN#8SPgQjDqm>M~};gfSYRp5GUot*%cqc~h>Ly_404
z=(mL-_2LLi1^FemdaT_hY8b8E@VR{g?^24oJ@9P*l)_PQnVc}KF|WHYaas1p(YI8%
zFS+yI(s545`RHo}Yir6kbL>hPW7y=F8ptO_Lt#%nPun}_SVV%GucXZSb%>#)(E^S6
z`gbfmiD}x%ervIOaX2*ld9vl#KkP2<xR%}#&MFl66h`QD=-zd2LNJi9GsEkcgouj1
zsvf@T;!P<1Fd<^8xSkfskuwj*%S_23k|2NTvSYYtT1uz}{tex8*57^JHR=UaND!qG
zCGUboev4opq{yThI;|ql|2;O8tcWYHNp>=6NmNIg?mJh`4bc)pvSNrIiuz2kfRp1<
zA8y2i$e+*VGuesC1~LSQy(B1#%Tx8)_ZP+Ef&04PfU8X6@k>}nCtB$jz<<ZI384w@
zA*Y!=z@Gls@{iq)Xh<^teIIZza@<f>rZlyZ&4nL*T88XrDXZk-09&x(8%>1SHZT22
zv#uJKFv*IITaY~u?o6^9FthWKLCD}|p+4a?zD&>s0~tq2eVFQ6x-xI$b!=*pe)q}+
zQibaM7=2@}Vb55JkmH3O<2l+BC4&a3lpfGoRRr-eD=ku&{feH9hH9Kff8R!R(DhlV
zRA4`=)mUWImloh6#haA+j3-O-_tqJ6y&o6_sJbq3-1hS>W*L>T2Vx;QMvgWfZ1bw)
z8fkM`y$B^#LGS<s(e5(pu3^(3MwAGWz{+<69bF_NsO^<a3)1h)C-WRw4iQAJaMLpr
z@TS%b71_6T>?aFtt>YvgLWGnRlP&q_#_+KV_a_^N8|KZ@l|r*!l(;JmQa|(9z8QV-
zj$ZCJ=ii!=P*mRN5Nal|7v&Q{9T1EomzK#nP`S*zcWN39H$42`XPW(x30GFoQd)!F
zO%IC^mbqXc9)b2%(V2CI@-;(y-P*3puY%eSH<aZn_@B7z6~C;*N4Cd%zFK0RsJ{NH
zb<ZV-3k|;_v1?g-l<E#<Lk<~=pxgQ`YQg9QWxQ^(q;$fstrCri=-$O&8E=rby+;X|
zX_Bd*_0%f$^1U3uB4vt|>Q&PWFTh?!ZVR}+$`XF@i>g+Y7b5h#ol#iu?sz}e%`n<z
z(my2*=Lbg2FwkO?Q(u-t@g`oZOI%%<lnPeORhC<>b&49U>sfkp@=6W`dGR4d#M9`0
zTMD#E5*CSHXb5SjS#&-GdnXr`n?&xiehLU}Q3Mkq?$2yZ_UvpShteAw_?b#HzuNwb
zxEE+dyd%OlyZM)2TlJ;wSVzLWLtoJjJdNA?%*T|q<N>@eskq0_AimJUH>cQpUkhfP
zW47Op=R7gT#h~IEULzTZJ(oO&^HV!XnS|pS{!6(@_xrS)6T7;3ToTq!QC!J2Z5?my
z6b12(TFXj*vgSx4dRDJmMrB=CFbKgy3g{BoCFrVXlJ*q83@F#~3D6y`3!4q6wBml7
zF9_g(NKLer6<-s4@YCo=6V6OTwVJ7zKi!KXeBmcL>U&VzuYFg)c&^J$j{w^z!#QQ`
zn^GL{i;XM}y{-}WKA#0mr@{sU%=2*sg&$^Sj@C-a6Hn=81K=T<=WOmSHEd0SrKL|*
z@ZO1qxRi~XKH=5~GIc~L*Sd~W1#@#KS;g?sLyIJQ;*1*pE|TkdfRo29e$al3ar8KQ
zMfRV;FVtrvT5rph^1Ea1s}<5khQze~65=bomt4$s?&Roi{ay77?1LPeXcG7mF<ed-
zHe~HQnFV8_ssCYtSBU;1o$t+i3~abq0dZ?fSvh#}UZF9BNv&JTyIOaue<fH}!NAdE
zpWuvMDhRcKR4+dj3@_dNTDb=t|8J)j^^S$<0&O_9Juq&E{bcV~Lz9Pfs#5OFD<Qe(
zbf%Zz1pJIA&JF9zI#lS)gCUsoRBuC&z1qUoyKjEPTPU1qt1V4WZQ;gEZUrIzxaB*U
zbK2tJie6-BW_0j!PQ?k+1mBiIZrPy+YeAQc6OuJ%BN{Oej{<cxCxb_hwXGsKRGx`0
z62(sHR`krj$Sb(2)JSOoBiyfIEN9O62x-qTE%Hc~HJ2TsFGUk6FE#t_z+8Pt1QF3M
zk!zak26KWeWw&rYxl~hJeAd>&DnD;$hgA*1aQhVkEDf#j*+ihL^ng3jlk=4EdI=Ov
zh~!&8xo3@%j}5*1ab@!|I^_J~-Sk0~1@-9qdyQQBV$o5-m$o7jRE=8wtkJKc$UpaC
zzdp#hQ%fY4nV<O@UJ5O{?54YAuzFn$U63v~?$w^tm1o~$p+gntlSar;v?s3S{O2`t
zsD>vw|7=HaDo(tTJZ4+??qbsM92?QvO%AGX{4nVi&ArIJN#*I<n3_&p)t`5cX*)qO
z*`N7q{v=0guS;?yzT;2$g+=+5Uc#~fA(T?pz?avOz#|e^RB;8EaZdC*oB9!+zB6~%
z;oDSHjLFH_tDOg<F5LNz`bGJ(GfcXEWkI1)V#EmleMy@HHEAmp9=D*ExV+kvuA<+v
z(;zqZ1$DNnjNiG`6YdpUE!W%W$#8~|XrBcoF(9VfFhhLae24A$Nz&@V4f~2W0)(Fm
zHaBDhe<0u!D5b&~+L-JJbKFq1JBDav1I8Pf1HHe;st@@|fq}6UUD2Qm{P=*UY+!TX
z#QDHy^w^5(!Z8q<2Q|;lX{o9Eu?fCk)3Uq_Jqt)KgJWa=8osD0jT0&miQ^3QU~RSz
zS2~4-+W62I>M!U~ZL{0z*5ozZx^u1dOuE7A+`edULkClK%m^ZCdlSty)4P-PwezJV
z5Nxg}UQ)}6w#%Qmo*tdn-1_TMtCzlXu8t;+-Q)<-71d!AOg7j&ey3C&VxmF}s4x=W
z)=YIJ%rUw7t0Eka@&ry}kW2H-Y~crG$HO+nrqEG!<4(xPK&2eMX<)YAic055jo@2F
z07V!LYG@7m43<2B_^NEnRAl>#K471A^QscV5kZ>Mu@TbK_td*o@4uU=5`^w04yEkJ
zUsR#cvt+HKK^0ngG?e`0M;kpLk*e#%t-47^q!!T1A%(<biDe3GC8%V%Z>K`A1vDku
zHG@LA0|IzrwdhP8?@#U0Wyul$5}%{{B^Rc5n<$k#6zr7qvL{-yM>?ZL<r1?*h<)j6
zdQPCrhya^<m6)j9or@kE`|x#Z@ItU{HL72En7;f3Yh_cRPYoFcdR!sWGJBDc91L?b
zg_86(R$t2}v4c!j3<I$m1TOlp2J1}QOO(jmhzX#pesML+2>40_g&==|sULP7vmtvW
zGYXrYxnJ~X8A=GP+^)orOGdtAZVW8nRwu&M+?pB+1`6;Bk(Qg)D1ilUey^gUt>RE%
zb+X8Qjatf`@T-u!Tp34hWWH>lluIN%rh39mzCBC%QEUPKNX~n9by_u!SuOKS4#>tW
zV`3;~<dwQo(`AQ~k?vh+LOWM`Dz#)^@=EiflML3pwIxDjqUE#Q7A+-pZiFjolC!Ji
zJ=2A=#tl<t=4fJk266bK=^;GD<5zo(Zk&_%G*<_)-;kcm&}!_E<}-8ps(=3t597mx
zD)I}7rP_cT1xM%tx5pBGSSmgt!(U2pcX&!t&RLS|uw_FokHNx7@<yq(a>+@%3KL3~
zyDM@Zq4_#kR$4Y(WMkX1L9Bgw^Vj#`lMwDUKe9MK?a`mecvfB1=0Pv|#skMH?NyOj
zeSe+$0Qn5Q)4B^L(?$B4x*I#1!5EZq)O$;hbN}ElZN8Hq7t-ed_rq|oH*`I-b`j%i
z4eSJk#F_bSx!Ql1s6K(lQaSta((oL3k2a>+EgXpgk~`ugd3$JXx1zF(cIt+Uy1;O`
zz3y|T$UgDr=e#Z3r@<Z-=W}3UV8ilccXKYtj$en15#-oUIWz`scY{Gpy^9k}&i~Y&
zDln5WRV5{V>9N+WG0B}nq|pr!iI>DoOD&)%*h$^6WamkXb-f8A=CXa~*WVX3e+#0^
z^Slsa>r)HL`wc$`1{RfsPf{%=j`dba#!sp%kaClontT)ATV8eBpWDIJMcmuo*jt&O
z_GCh;d;&R>d*nMrvYY;EFwT%?iIwFUdtOQl>8ILN_VR4A!$b?{yF3>xi^FJ38yS=!
zL*r}xj`*rFEC{0+6T)!UibE<~(U`E_M@-(x?Zt$uWnZ(M_RRUN-8Bpt5GrODe!@q4
znpUts7w3;nUy!gEjOR6=Pnv%qs8M=DY#1iro%=vNu`F0Xd1-Cw$xNhnvn9BBBiKF>
zcJ7s+zo}k^45LkM9%8{!M}}<|x3|!|{rNo~z2jx(^?CD0O_{+&Z30Tpijt00SG5Hs
z0X#k)i{SC=KEPg4s0Ay@l8{7(eUc}i&sW9rL!wWF7m=A{+%k~~4kZCoUsdnQ@Fs^o
z!lRTM-A*o^Q)g=&!!L;(!o{)LuHh9J#<dhEh+v0`^&6MEfRQM|y@*Mf;NIi6mIgEf
zKR?J!+Fd&)P8i5j(QuTndeF5O0ejr4&jg6&Ro_Qo?)@ci)*2!v+69BplN2V6->U5q
zh{5?GEi6EWeR;ot1Wi=Y)Kbi){F&<Dic{cyL;$ZD0f+ygh|XOmZ-S`*6}t$6cU%^3
zm9&D`5ROrZm}a7m2~jPk<-aeU)ilry8QOrP*aR7;Bfqg62zK=^H^R8DU&zaR-_Q#W
zQdDLP3Oit)W>j{RSFGgUD~Qj7M~0FDwu_d!t&m`<vtU6$T|`C9gmbjJvqqtWq<j-D
z#I)8M_D^{bK~VRw{<C3mb4lcyq|e0JVZ)?6wqn8V;rWFTkHGM2uS!)4=z!#7QhI5@
z1+@ZvYjyR#q`N6ZDxNCMA85!PMh(P8t!%bjuu!9nGh%H;Yf6Io@~YNw2H{fAzj*?s
zYh-S641gnyrm~e{Z{?DDPZ)ZP03jd`Ld6NVBvT2uyCwc>8i`e0eMLyhviF#dir^nN
zPL-Hs%KZ^}ua=Qu-XdS6)Uyu{i_KarE>tOD5)wX4%b$(=#N|F-!mPlWz>_OaWp_Dn
zPMgb!pe;2lEA5HBckXjDnO)XVt<l-1mm0QZ1;3iON7~k1L`g66vvj@z<E0w;Z8-6z
z#NVRNvhto7zs*8VJUk=>SR(lKUHihOxrsUUCikY{;rw{#3=u|-z%chTos3Q00Ii^|
zLE++r+M;eH20ISl`&j0tIU~0PM8^GaZ6w07t*Zg_f#+~+Bmb7)6vAtAeEsrf`YE2N
zZ3cf7p4~zD=lFL7T3J<EAHK+q$PzwzpN&}-jtDNEe(M|3^WTn-?h|#fs-}thJcWqr
zPn#BI9_~6Hn)}uxT$J<**9dgQJFy4*I<YY*>JhJ6f7yLgY79uzyZQ0dk<E{>Vl;(4
z5NW#X4aXFfo?+H%D>^FNPFZOOT~Qw5YRD=#oI{3$R1DXVOuU!!c~_(4TmJG1TFpjy
zLuMp8cFv^k_2;N}@vR+8uD`^Yiyc-Jk?QN{yVMK_G}y5>10TR#VP?GkH`~362UK)u
z5inUjSoqW)`F>t=p*1u<He7=w=a8G4K%B{TXrtRoU(hpsNwl_vAC5%7f2Lf2brd9`
z*WPev(9b<Y-sIDHl@z?Otu~si*GZKeI+HX&k}_UyY9ZEk;-1-h(ADBdMK6H_J;GLZ
z_)*LBf{Bh!vHF{mi}gu_$!|s1U;Q&kNisOA%s5%(EvS#!hJVZHm!bJ>yhIJdd}%D`
zBx@Bu-Ie|253=voT1Zc6T`7Z#9Hg5V8%bJHp43GyYu`2Av7wSY0H^%zeg&EfH-(7Y
zO3?h=Bd`e|T47x)%6z{IlhZAhy^&gCs7iW=m1yWg(smxlhndd4Djq6H`FskN+F5;1
zDHlfuY4MpGnNC5vpYQr~aE-|_n?C$yeAtWy!o4lSdjjmm$gfzl={J3N_fCS?Pn$82
zAlhg3Ge~|LCeoH4p<6YN5iy%!+4j%jFNZ6})H<7KEi79{2fi7;aOG7qVe1MaMlg`-
z?Ybhd+lbVm=e}E%b#c%r8#*$4MA;druH@oW`u!b?m?>x>TB$7XGWcnGpj#n3ku%`M
z&=YKLVu`+!K`c$Lc07#7{k`G!QH$~B1ixi7Kax!3(AZhzJHw9)PZcW+@yM+y&2edm
ztyISvKDNQkgZLU5@WQr<f_eDK#mbc;CPg=hNg5{xFYsPF+B$_7!ZD;}l3U%qYPT<y
zg4np%_raKC4&2N@@e}KT;gCXa#35v}Hnb!ll|(~?v%9)&Ab7V~vSpcnb>dusp2|n^
zW5o+>^)s)fK2&5f_@ZniWAYUA%aWcNy(VxEb|D=T)W+7whluEO6S7f1#G$rGZ`5|t
zk)62;5C1BSTam^;TT|DuCHQo~q>ye1(phI}Q!Zf*7~a~dx2*maGtq8SKEZ;sn2ucF
zz5M81Ml%d+`Iol#QUY$BE-c7;fFyX*uklqI&?=CgRW!8c4G(|&`~s!i>z7`s59DUr
zidrGJ;4&$v1J<IKsWCQg#4rASDPs)}TVTtO;r>#ruOwl#>t+{m$u3CqB+gPI=KVQS
zR_9(m+!PGEP5m*{#ql*r#(Qv~J5uY?H_Fu_6r}jF{=GGS+o*!jqmWu`MIckoZt^46
zYm)Tk3uy&BBV@nAVvt8GI%auY-FU(RUdRn8MkBI;>44T&$U#+%K>kJY{S-1*)R@QX
z_#vaX{z3*c3{CBnUuN`@H_`p?<9L(;nr;+)&f+1M(hvf)(Mb#OTt{AHp+)ZD+;527
zi~3f7npOHPRQNJzQ1U&(JwvMiaC=HP`lXxDv_Ji2@Smf3Tm{*$2Tg&gcS@%&gvd;9
z3Cg;k?V0{nZd%i3oKHGP37J&wjoS-qJ}$IXT~A$}-?Q~`Z(>9+q%k-yKQ4~v^Or-o
zy3n{AvLn?_Y8rdNTJuSEVa-ge6_~ycR@$HR5u!KgBhrD`Zuo+DmQ<FHrCo!5gITf`
z@r4C7IpP_d@xx8^gOv}>d%9ffW{V8ox2>;K#$ElKE1{>oEN`=mJiUjuSqpzHX{r0~
zd{iHoT@~{zX0bx*#@WkI_iuoSW0Yrysab6FZKOe0zb|g<2@CWVaKiA2l9?7`-kU;K
zfL|Lxc-+d$c&j<VZWwG)P;~NiA}~{%l$p|((7Nn^#*%`TDK!K8>!RFVA@}fG%>arl
zSCLWP-nX@AGoUp?JezPK+N!@K>-x)~^f^S4!n42}VXFR5XJI_kj4#IDh!E#`jcT+t
zLG({c9m?o;S9OD;%vhr-r9B}bqokx3t&HcP#9Zb!Z(E5*KP=1YBqu9-%-ZhKA|Xwh
zCof1(LvD{PtVPl<`Yi95TT?MVu6C(z7qDw5zADiO!T*byuI2F};@Glf_`^Cqt28Kw
z-mf@&EKo1uVNB9CcvwrAH115i9y_a7%SnUyEWp(DcFgbP6fRDByD}fyRt~6$#iIlR
zau!iK9+F&rQU)IqVgj`!q<y@1u<@`?MrgQ<Db(xtu5Oa1yr2#Ia29((Sm-%PQcy9<
zT=;&JP~l<w^=OXgq;+h8#eq^n7KiIWeQO0xdoO>Q=p+l;1$Bbkvj$>KRA?p#BfAx1
zW4A_v6}pJRJ)>%TQ<PUimc;hqp5H1}B_;jy?=NJYjt|AUU5k0#CV%}u!khOc7V;s5
zHT&Ka`{pUL#HDgWHE(buhoy~eLa?rN--a2NO*m6cL~k~&1(WpI_PM)BWecjfYTLJ8
zu9K?&iC4_zvi$OLlBIp?NTc(H09g~Iz@6V#d(;!HPQe3hl6~(W*N`+Nt9er-a)^pc
z^i|rEW7`SiIbAY@CmXmJK?eZw(1zqQ6)1~jFC!<^DluxUgY?CAdvT!|tEv8c3cFOw
z)FeL*BI0z6uD*vft5n<_r-j>pqn=^vY5=%u^!7(GmWc|-`r%XqKh1Y^#6OAh8+ms0
zra;2m&c=lnvZ>m=sF{bx6;Wq7g-x;UQR<*60}U5_HnPCBahhDmW!oT!^W$fpO<Yen
z;7f&v^`~bb)=B0nv-Df}5XcRqm-mxBCh8y<FBoKf2(Nfy@=WV2UGkPH4spnLROVPN
zA>{G};X3DShPiaunIEztn6=^;v^{2W7SM$H9F(ZbQT=}?`FzC0ShxMioiLdU3b#S1
zg+VWEdm4WN<Z|g)*Ry8xWIU*E|8x(_fg7#{`kayftovnWVNx1aZmcR+{s+d_{}v%D
zLlk{R0;nY?;JG*!rU*ML8jt<*ZEHie&&X4lfHt!pP{HTvVEuf>3+LphJY%4jU{(1;
z%D1i_9sgO7iT*%45Y$i<2?>5gaCBFpTWYpnaa)kq$n~)xd#Ssndmn{`wm$I6TTSpC
zJ%7?tx}J2Ratw{5s3Usta5UC+vKWP`y_#v_s>o~K?6^FFXF|~inX2@pH)_xFZZl$+
zeY{K-^iAI^6wp0?i&Dbgau_T5uTZW*H)9(Isz~~o$lz(>!TNjkV*5))OoM=sMdxh+
z8BUI*(o64~y<#=|ufk2wMt6)lI}-F8e$xqE1mXynyc?6W=cW{%e^$V(rYY@B6`>vB
zdov!2S?U8PMQ=IwK>%T}_)WlT{akJl5_ZByMj{vjI~*tT=+#AlqR#}N4Z*ype6@;e
zx*aZlWphtw?XZ=Pl}Tnx_DEhupzrhiBy3C3h`DT6H4hUFM-E&WM+&n_6QyPGY-!<9
zOV*yTZ8(0T+0;LKNJE<*um9%hO)6_QF-j0CVN^1F-YNdOE*3AQ|L%iA_8MoQc;~(T
z0{3$UA7NVwTQnO(38v4hOz&J5P-DYHSt?(uFfEe?N2PL_`=l-le_!!(mTlcQI-fQO
z(=GEs<|7x|iC5iW6%Kmi>hqc3LOH*paLB-pp>PyuOgG4EJxr0}R)#YbseIy&@|_OP
zYCL|qN@Uiz1j-QD)cGk*Pf+0WWsv(0e*M!)&w8TSljXgUlGN=~iNHK0!Pi29sg)#9
zip6_6tL#4+PiGwoD-v4s=6Ka=G=+|GilTsUOWZzO$6&n}(<@0ifn7`YCob8<lczAA
zNUGs$DE_<gM`09F0wnm!IHo!Y$=JAgi~D2W2hXby5-uFH?T5E57ush2uxo=-pAoZ$
zPhMGcvf0Az!$$&6w!EnCy_mxIZt&kn^U?*PtHA>4ulc7R?Ii?P4L3)QR)Eff1A}n>
zji#l-)>;ctwV>HX<1-{ub<?O9zWz*BWDu!yV_meOJm};?A}U>qW$OK9J@v5HX;BB8
zk}OVtuzOHf#wmgk7BL~b-~AqzlxeXVVuXGGBsQ9q*Ekc~eJxQ{X@9&nW?N)PACh97
z*LjX@$OD+9>;=}`+OX-Q@o03S5w4P_ZsnfuG^C78Y|QQvS_t&lt1l~bIX`BZH2pPl
zxCplG6pl&fN|=%^@3&y$3rmlBAzMXOM)MsS88j1QC|J3!tk)JEO8&B3V07;*=0R44
z_&tBS;P9u2%$SK2^m{#4dwupmKMWHx=R}!)3bD$4JHu-NtjqNp8z#!rx2ntzh}wqT
zEhMQT4!JkkGB;f9{aKvZam$WxPG-xpE%6Rw1kX^vX_joi^61gYV#g1YzX|VY`F!7t
z>1OtqjpeI)A@7%0ggJWnv{m1wu6TN$gpAUJhfw(N(XQd_(>JGbTdR+_=t;n}(U=eS
zqV>8#eBY3?Yb3+)X)YZZ<`c#Fn6rzU`C@u#O73=D#)1sQ1zr)^l7!8<C@xUgnR>(o
zraWqEO4wf?<0^1TK69L8T`CKFf^o~BE2Qv+dF%xl7F(6lyuuvpVQKGjv`erW_T|s<
ziC7v%dH>Thf>1f)sm&>(tt_TA;vmr<s3#R#UleYNXDf}-XjxwmNg-PL|JiIm@UjD+
zxOKUhg{n}1G1JlYnB2(&{cVW4>1>4=cgpiQ|5<4yh@~V)LJ7b)y>Yhz^$m63@75A{
zQGh7*c-Sm+G5R-jK^4VEsV(8IxE<vgb^CnJQq7}TIx@<6%%ITrug1&4=xc$)ng^eS
zI*u%oYX+e|`Oi!91=zUheG};wI#fvt+<GoqhVW9^thooT##Cr!A_sSe_Gb|)WdBOC
z%G<-J$%r*nMcxtiFxx75;dx1UP<Ut5FsUJ|f=$8uf+i++SR)CU>QjGZw(Mz@TU{8W
zji>5c2zcy#8HO$kUnVqm$n&xXt9w5!3uToF6I$_2(w_|Ry;1VB-tRgcnoK)2YK0&_
zNJ{LjYD7+wTIV?}NjU;`rSgw6v0TkOdc48ncWUv?%8g6Rl}$lPMqvl5CvfOmDZBNH
z#@a65UvR^n;vQR_SIO5(r?8T8n4y|;7N@eGNG&+NJQhsVnb}t=bn!FT5b)B)<Mk!A
z+5YL}Q`xrEDL;nkEE(XHMcyO2ChzFwLWdv0%V}<P`gUM;zBh2!)Qo`!s(_nF-5Vgq
zZRK{?4_`HR_fTi!z3BA)KJew@;-LE?R;N<>$2T$k23h8$=rz-O-7><TALdU|R(5bE
zBL*qe^iU1skFOA*-zBTWtM%&R-Bw*~Vjr4X;sbKIkJ{KhPxwgi5^$1a`59HTQA1)_
z&&yDy;?#yqFTI+uwNvaEQE5J_m_C@{ORQlY7n8+Mi6)gU!3-;GY<SFT@G;Ht)M#!P
z^iJ07*W}lnQX`Oq{?zFv^KTBi%)a{M{klE&AmU<lXEo}@qeN#XCaG{X%B0>DKf^?n
z<1dD(I*m=I;Gxt|QBuv%I$fXW4Nk3ne)sKPFaAwj>{bul(a6whOQ=l?6R#)lF&hcq
zRu)aDzf@rPM-Q>Z5X5j!cupDZ9S~9Ql~D#Q<|w8VZ;#M+O`lzCFLPvZO7&<Go3cDd
zVJerWj?1ghRxhF(b6)_~52ZBw^2?1JU(Zy_|4kP}9@eeB5KndPJN@`w9Eo8PcBadq
znF!BAtLyzU&3z~u6YI0cCQ`L@P?)!+g2nsqOwOIvWt_61+a&a%WyM9GEM}#xZl3LZ
z*r=W)lQ^bL0~4XZLk$QTIw2VGc^;p^YYsVyk{dPU?hm(V1Bpm7w33x^1cJ$1{$=>Z
z+<NOnF50eYdAB8zXG4{;AEOvM;!#7yic*1cWMFLTxfB-=Io14$Z$Qvp?lrALG^HJ4
z`cmAwi3O34A?`JPW?0&u9aJ$3Ah13UPepcJZB&Ny!(b>;nu47~{L`b8&uF1+{^v+t
z@=mJ^M_hlD?n1dWe-B8MkdRhn(~~QN*E{K*R%R_V%Fb41(x~XRPt}OU>-6;z(01KM
zfoN3k)6z%Rg)hYw5Xv6YzsujepmqZ*Ratq=Vk?NdPpjMiEVMXon2ly!YkhA<t%!Ta
z-{mWZ%%GCco)#71qjVWwPD9{UE<GYPvPN84f&AhcA*tZ7v9IvcoR8kdg3}$nVA+h3
zmIC@|@@zHh@MPH((##fHA*ua!YNxz;2c2vR?1NQ%7Mt}<g~<JB4Df)!e=<LxbQZY(
z_Ju|zwiX3?J&y}t=xdLQU2-9hgReVT3&Q+#zLiqxK0u#`Pz&4|u3sI-swP{cDsfy2
z%xx+NUvExbV5hgbEc0>fVDT<GOi0m@si1t1=Dt)CC%P+NfVVoNpRnIB<JtT@HJ|Lx
zB<k>^AFK@<X<!$lHXF52v(mR_8Go5@YLFzgFM3VH`cP@NZU)B7$LNbQ@JR4eb7fhC
zgxolRb`gkU{+#sSbOQ0|I$T~+q4uPt;*U#H0mpgDadZZ?Z`OAz8DE4feo_*&3BFcU
zX{%)#)Z)UF?Qv!S``|^f`GLlae1KIo*HyL9uHZ@G?XO%zd-1%JH)&yq1cTgPUXg2-
zIAqT*Jnb#FAkT8m=#u?xb^TUO2I~N3T?h|7Q&r3d?BZXw)}P5Do_9;R)e~xBOMT(b
zXPG<yT};TZ4zz*y@(S{%wEK3*LwTLyJj(yOqMj7(E?OpLs!IAVeyxn0?wuax_jDy;
z83n)Oho+g{nV(C=mOA5SD?UF}6aUOe%zw||NCUn^AwcUtq@p0ySkaWu-7$30jlp^g
z{O7k1VVk0$yK(>Tc<1mNu!gGA`_{*4JRenbS%6BIpET{5=wxdF+!25`T=Dt&ehx4~
z(E0nCsK8o*N-46xGzt7iiw(dU7o^ja{$(K6bv*t=Y}p9BLWpCMz*xF5m<u<UniHwW
zp}-t4b6OzK&{fJJE3*WH#*XEZJiR+$cJFslx}5;%gKnMED(J2teOa?KyE<8WX5i)c
zRRRw*^$t7!9Sw=p{n`YaM;^GfOWFV&RPIpkTL0HaN#9+a(@2M856pOd|NUAS<oPr(
zSs)dUj7jvf-dsU$0&E(;kkT%vFyYkuxe$MIcY8i2@@LL?KE8H^+T(Is<9#F%yW5H3
zlD^<UCa~eRRs<`Afo)CO7WeY?t%&4mwlKjt>+D+!z%dMk5L^V(vJ74Tuaqlb0#%1n
zdEVQz<+?n&v+-y4j2it0?uoD4ar@uxf=`-L(#LJ*^7CI0)b@z~0eg{mqxM|4G{Y+x
zWzu7z<Fb0!@qL6$nu@;<<>ka_v%zMm5~X~7&%;K0m)wV<qFopUq^tNgDz6B&GhikQ
z6r0@T49fy73`>mZO5;+`R8wbml~%OE9ZFU=SG2~<7?iKak?#0P%8Wc>45-UzJ>I+(
zVbd03oO-u~fT!k=OM#iln1`H*V_{V$-F3yxbYU=sPv-W&Aqju&Z+m{3{n>nq%^CVq
z<S`?~36_$#+ds#N=hJu}PtzSz8jJ0}nfdy@;(8i)-#$4Ole@xPk`sV_bE>T3viiRO
zMCJ3!r}#3wMBj7^@df3p{21YIx$F94Ycl2E$pomO+I1!az<LN6SZe<cEG?gqFLr!W
zNm4u2Xr#AduBwJL!NKtQ{&&MtNue?I)~$kwSsqQ(Do$;_n;eaXntfb5kAhb9xK~tu
znTxV9v-`hXWs6`_Mn12(LdP=e3mEs8)jN*yPY%sN0q6|i(bD|V@(@@dhqp-F;b~O2
z9Y_<{@a5p%1LZ;w5a~Zpzk!&+ez>zAan#vBG7RLz_NJFbPhf|U#GDe~L;zFkIuz8q
z$NMOB0z&{6!T-*)AG~JuJ_&(=mfHMAeP?jY$3P?orfekbbw$^S8v3;*tiR7s$gy{Z
zQ#Y<UZ?{;1d0IOVSW|eNbZHoPUq-NYgi6da*tebbfjjvT9F%3JA!h9QR)o48BJY}Y
z>KMUwqW5OM1}dcOkske1<?A#EcPxPe29WTtpRDy9>tq6TtCmQmti4!hY9Oz#<;29w
zMUvnJ5AgU9a0ex$$o1w^YpqA0jSDPCec!vw!7&H*!e{S0AMXEYdV{$~XezC)I*#cS
z2sa%_)*nUcz{6$){~K3(5m;)>4y3qrzBx&`q9Hf5uQ|J)Rz$c9JNJ`)VzY3Q49qIy
zCXmVoJ!$0j#X4cJLQeD1&Hbw#Rnn{ito6!)fqh+h$ukK7gE|u_z7$EXwV-DfU;fNk
zh~3cr09gWO@bA}Lmgjb&JL}fKdE>)8*du!0Cx{7J4G<@A0q5U*tf1P$8nRRqU7NQt
zU4(&ddC+c=vO5<IBpf!7;lK{vbvX;(>)>f50#(JgNOw3Y|8@SF-`vQwm;$EZI@$L+
z**KaXIcc&@KAoo$ykqCpcUGUj-&VTVw3qobkKOu+&2P_=J1>M}(+}y_5pJD9VzN)S
z_$Su+aCZ#+QLLFz+X22O2W|#n%SKI;=C8ZnrwY0*<KnNu#Rj%CcHg<z!*{ZMJAexZ
z5JmF11MlnRUv{sv0SBaBc{|v!)ERwSR$jH>`*3%+357J;uaM)9{UPZU1$V#)XxTIy
zz}(F|<3bn?=0W4E{(A~<E(;}R6@xd=$~$kSt9j-O1HnX!N4ixj81i))3w{kVpG3C5
zKLXh_3Hg2&^<XwQC;F*^V4RqZKZ*dNWmV_B$I1Z^apkz(b6;?y!94d0lOKN?$PTLj
zvkXjsP5)lLMBM>`C}9u+d4cvVErfux1VIBh?R0|vfMAyba9h|h2Ft<WZQwtF-;d1!
zFN@F#Qc-_dSkd+DL{(f0IWp(K^-i|IhvehnFP7Km^XA!6=U|}2YEq8Z7VO#r#)wwl
z%qPtfInNV@7DcWH6vUp+QTXo-O)7|xg#gpM@;w;w_fnR8yGK_yFzyEOz&g*OVN?pg
zLN?HDgBu9^6I+3OgiX`D8N7cFa5MA<xk!sAhiWps2>e6{FS%pylauTHNmVK~f(+rK
zmW}oA8*(kCyC6-FEqAZ*04{+l!)cHncmV!O;xVOv3|0)gzjFU8uG;%^K(}KLw`2bf
zn^!<OM9jw~=Ggoxilb+q`4NbLFXxP7#5F3b$=D2GFG5HGDOLX{WceAr%tbjl1foa3
z$i0%a5AgB;0R!HQT-d7xTSo^o#T3#E>~L6nXUmJf1QII-Ynubu+MT#kt&^Cw*AA>j
z8pi=(y8UhNfUerl(?p3ryscrQ`Fj<RJC{=`$1NM!y9;o@913atL$I<{se$Jq_ua+K
z@9JvP5Rx#`h^i+LIHA7Bz*Pv<<vW3fAc#*mYEMTit@)sN&{|l1IQn+nN74nti+-Ew
z;B_$Sm)jnS`;!QuBuMVOrSUNg2L40i6A#xS59UCM9byS6a}?1%ka^khpC9{DS-Lh>
z28eSw4Fip_D*!v%F5uTShJ=`?tHf@Q;?aHzU#$k7!WH<_X)&-AuBXa4(AhW;#bU<V
zt#sUhAlGsukoXEZfdhhXfDO0_AhSj!3_{#P@SLB^zmncH*e!X0(CGyn9QLni+2Dbb
z&?ab>`+|qL7Bqk5S&G;4gP#n6u`YptO#M1aJsK=~%6s+C;NiEgk{gibBgFpuvUC1{
zp|WO-8M&AK)8SO9N}EbE;PEDl73^_uIT2>@q$9sO6KN<$SlpUFdtl}Q#(6TV?W$8U
zOcjf$kj*{#?;ZfYux5Z{m0E;A6g+hvVs5@T{FPjP2&U_<65#fYC;yX5Iw<}-RWjoa
zpMx8;ui`KI20mcA&cJ;uQQ)4CS=$1a6RIda28e6f^VoatLkO5m6Zr;=DD=HAr(4|q
z0Vj&bGx_?UrUzhi;rlCNy_QZe6QkYcR$C;308?a4_z146_Aanq2*8`2^CGD_M$!7%
z)9PB$7vav%4^)ZSr$zK3Y7QU4(DCCzx;f@s1!osq48=?kASoRXd4&HR)N4?Yxi8jg
zQ9zh907Evlng=jd6}fRuy+g)BA%dl^A>u6WJ7c)0MZJ&U)ZWm9u0B7NzXCcZtc<{9
z;5{3}iH7GowIXV;W$e^zlC0}A0O}H~1_Ph#tqS8Sux?wUP)^0#TfdnWi-?V~2Jsf>
z<HHuK?*LSTW78$N8-D+S>dmJfEZ(-&01VIoBjDkvkxS<RM?OQ)orBj6*t#gZKIG!D
z`Z+|z2@RK?L2kDA)}!WN*a@I=k=>j?B5z>f*3j!;dIPGp>Pz8kjyiOToH<}%0$?H5
zb{mLi@Ahpz@`)UgP_P>zs%Zvz>LfQ;mx<nDLJ#ZDI&sq}*8x0Z<NVN#IF6G2aA@ya
z4*3z!Isuy~VB+`sD<WlVj1)OZajN=EyOLI{LFz!O(ILo)CX*o4$9j*%`u;rzALd6O
zKyn@h-Df%Y59_pWFan#_GVCZ*e0ZQuQS)>72d<IOY420Voo-+v(Y3{Zp$~Erf$Gn{
zVgCnw3_>TMjsEHOv|sd#b`Qw?YUk(+ZzJLSGzznT_u3y=AK9nH@j6qP{@q}NE^G>6
zQVCnIZ3KuXA1}X<<NZ4=$nel+M+|)LWRj(c)juoD3+QA1z4%yV$X|mvOPtc!<}=-E
z-!Lw5qwVeL+U%M|$$sYnw)uUC1aOx^5rtrVzVik$6twTS-Uc(ur|#0+Z)dTaJiwrY
z1zHJ=L{O0e_%JAP0mo*5>D}D0(%6k9wyZbc{MffyUn2Ogfac?Sa`#R7*N2EB@6r?D
z*qEl6#}RM@AqXKGQ^<Uj^bJ5C+0nc&l4DBW!r9T|_WklaZa;@wA_2;U@vi=o&lLDx
zKOcyK6J37ekYj&;Gu!EuoB3&Ze&4#6^Kr&_jXle7!6_5Gz136+xA3c>fRlZ2MP=w%
zX<C7EQ1hHo#KTq0!>TceyiTsA^(=YUz!65$FSL{=3>!owu(TA9ljOC<&zyL90jb{W
zAuAY<?NuGTCoxn+bMQZ|6P$3j>J-p$rW>CQ!Y>3AY(zi)Loh}m)w@dzXTg{qYs6hU
z)+G-X(YZC3VdB0>{r*i&BAV2_3+dU3l&?6-@(ei?VVy=S;^XyIJOl@a9J3UciE%PX
zZ~GPmWD!FcL>xo8{Y)6ZEb<op4>pg7LGkShr&Tz18w5iln0jRue)5kHOro}`-L*%b
zY{o0heEWTWdFRm!!LUidp5TJw%%G80P*{Py0Sae7FIs;gkIVf+?%8C7=AT9Co=1yc
zYo*knRkM*aTj1&=0v5pJ!bjQ2m1z0j01xRGyKSe)Cm@3&Cxv>agBpu@&Jw61{(2vL
zRTFMeomhNKuy1|<N5K>1vN-&?Nvl~DXtIaZ_gW@TX^1#%6iCWjPU97X9icfXnQsSm
z7%!c{+X#bGPFt~)rQE#Y^ZLa2Aewtu!T09rID;%6lp>!)nJILOAXnR+8$vFf#0|d+
zKqQLf>+KX{SKu^+{y`nD3)$hx9`M=2vQLO94ScL}2B8#nM~wWV+J16Bl;J+cD_P)p
zIuQLqM5)@Ki&Hr{raFC<MZkRimJ^1%1i;ad#?Z&sjp&Bn!E44^ZZuQ?p-F(E-uKVE
z`L~b1``lA3LBK)0Es{-D{w<Xx=x-uh5852c7%Rp(pv<oV+A7BgH>MH2({qq^)21za
zfHB(4BPDcDp)PEkhY6i?>5l&jqs#hH7$oWq)mT0vV`1-`1_0V<n>~OPQ3xh+HyUxK
z#Z|=tC+4T~5ng*RacjdI4$$9-iS91&@`@8(C$~R+XTJ$T9g{ELeo6jwIKR_WAq1Oo
zWo>PfkD&j#nD_eVhciq2#RO1btMS=W4bz|mI1?-e+!b-0)bwB@_{|q~&;4)SG5<e#
zM-kcY!#la_C+|t&D&Sv2DNP&*Fkrpcz8=nai;*{+C8RUi1_p581{6b<m3~!zLTPQN
z^sshQ&PV$^4AwL0v;j=wd=GL`pnp2A{n0t#kkp=ORwlyqY#BqN;i5Wb42H;?bwmwP
zv;e!b@n<S6>Hw52rWIxy5y0tb3>cQ<$Nzl&qgHVIIb2QSBZP%5yEr*>!|~J}vbAsn
zv%lvU%h)2fz;L0We{|TiKJkg%J66BlpU)9Ff4T<|!$UexUQLWVhAA!)u*xI{l~#)y
z;^FUlANBkrfKfkX1${jMV(|Y-EfIM#`TT>v1PC;d0>*uqlSb3ptnC-dx-YW<t$~l?
z)9+&m1`P9H;MT)06BMve_if2+7CPIJ8l0iCac3d0<^vC|{ys~BBt!LeQU@4Zah8Xb
zU@Ix%ie+)8A-|PDzS+&+<FSXm`1sy>sKY;`y5q)5woe7Y$QBfNG_NE3mD`XyDt}+<
zy(NbFh)V5S){uRMewrCxfCH{(`LqJSB_+Pk<GCIadcbTAOz;M4?2M#8i@}@{ho8?&
zw`(nR83zL;b_(eJ#taLD-W9C-?$jT{v|!4@T_lCmB6Ay7%(1M)^NdYu`Od*l&$bAG
z%kLTpzTil2R7hXzPWNs}n!gjK4F|rMUdn$#oC3L-#J;U|O6l$4f9fCau@ZWLlmF$E
z=(~?~axfv$rso!!zoTCtp;ldaZ6#`e!F#pGp(6nAA5CMpqSKZh&o!{4Nv{4L^V?D;
zi3!e<s{)MBMl^Boq!0_bvE^V)K<zhXKw|>*Ft(2|0akr~Tv_}1p1W%0G55_zv!|e3
zeeUq{znsy*!TXsrdr*J5rL7+kfVE&6^1&F~j+n!a;Wi1VVzyu8>&3iE`Q9T=d1;J{
zUVzdzp6iY+uuIuCE+J<&7^=SFwt=NQT=mvOOaJt;9?tLYyg5ZIvSB_hE?Ju(puYAI
z{7xTs^JBU>HIYK*wo3A&jf@PD?NVQVvb(S3Ni2nj`Z`Nj8EFG+EyJ>VMbmYWvJQUc
z_5jYw{}=Ee<@5Ukq@U`<Ion}q!0NH@O|7`I*Fb0+HpDo)cQEg`@n)p{rF#G#zic{>
zEzIc(OLLt_G#Jxzsr3>Z6&|n)5PaicSh9Wylu|>D(tC2+fd6p=)!ujc3_Q>Vz%)+J
zZrj@U4L<z-yM3@i$IRtG50u_E%@UBT25|fKUG+yXRF&Y}fArMydu4|DR?af<uknu3
zV+971bkHAQ?b2Tdz^l1%z|T3x>b5iBZkK|~39L%jliDysl;L#xpQ3DW&PY_$1M68C
zmam(S<4x|^D$>b8-nbT9gqcF=UpC_YorO6y2)0-M20&^B_^*kh1V0v|^r1ULGNc{%
zEE@m8C!aF^FFrvqykoQ|PWEPrJ7R-Q08L{)l15P7x;Ix#jS7rp5<CxTQ8YFGd{MX)
zIzYL390C%!2c<8$D-tDlCh(JM4ko}|0x!Yc@>6>&_#3UIa@U^c(N`2@U`wA!_y?4+
z6W@5PXJmD<efv15L$?5_8Mb6G;07{l16YPoEOJK=+;1(+qaY%lUjQn7NJ)#|L9<Ug
zfI~ngb>ECr90cCQv#-dODa%2Gt2Dq0_(R_WuQ~)Kz20pD@`g2~OBsyE>U%?Mf$t99
zXaf)Eqs|APKSoS!1XMx*66X%KbbS+6eFjEOP(cg){>}JlKZSkbu-Yo|F5{6nZ$=6!
z4#PhH6lGr2KGWb)Knl<SQlYmFKLw1hKwWmiDw^=S!9YZDCyIBu#sjGVL3BOU-uVi6
zZ=p>DVzPIFYE|)xtwx7zcvb5@138UEsJgU90e{cqJ*)@_S~GS$Ot40htisuXI|1w@
zU}iopAh50p*ijZSAgr=Zviw}^03=0DY01~UqI5smC$@NlJ8Owi*a2WXD4CKj(?!{a
zx_<>Rf7&wmsWNL94ygLTIjIA+F%`Bp;cFk$BJN;OiHaVCuMM(z3$)MNHxSi{*&765
zzZmDZ?8=Kyd>{V$hWH~zw}Hk5D8O3RaCNKMnjY)olAL2=ZgCWSXf*)c3ZGm2${QmA
z1qR5SVYVy@iULfC)Dz#fWi1$(j1gUU%H;tH98nTVUH18B8!FC-d7C0vji%PEv5n|S
z?tP&YOYMnMV+^!IRi=++Dh^%mT}ipKs(cMDDbjSxOjnZMT}>@OCXcilu=<^d5JdtC
zoP)>72An=WeS>;zwku41a*y3yK&s3Hq3p1oAd}cYA)v`XC<5o_-vCTl|9#S;;?%TI
zyX1@l>s5&OoeI!4G{lrr9HG9N;<taRl@tJm`~J+J?f&LB0+F?tv>O6nZiSn(Q`Vb=
z8$kq8i0{E$2#&3!9#G$YX_&noeD3REbcUF>qQ$UZ&z0T^ijB<3g4^y1|Iu-6A>%%+
zs{tgNZo0{hkmVf8&Kr`ys4mCLOZy4egN)UF>m;@f<IK&AXQ1w$dCIgFyP-4%uy68L
zmX!WM(hA*Tz)FBq3uxu4v%-&^!e>9I!B+qm^%z)3$9jNs4#BZQnuzcH^Xe$kus5rZ
z?FDx}WT8dCtAi?pyG4BNfY1UMGtN95%DF=}X8I`KPk~(PPqWd;UyvXTj9l`GGON6V
zL9CP)JQaf*)tKMiFR#u53q-GLNS}}{E`i4p7ZTx(xjJ0we5`vt=S`El;=xXX9UsKw
z*b>vBB=C1fA9aUkSY2vbhr~hWY_E7>CKl<5;^iNQm|O4uTs_InsOjGH$@>Eu5<8DK
z7V=v0{+sFmwxktjI7uIzYyAHrUJG!q1EvpL_opnuE$smH8{l)!)v4wrP;i#pfE^?7
z#U=;vmrvm1{uD4Tel%l8o&zPv8g3N*ZOyd04jFJ4QH(9R27=0OAm^-^!xVO~oYh+v
zi`j!1Mr`&#c1M4n%3&Hl@T<|<yd_JsAID{{le_M@?$d4&KmY73uQMszBS2gE!r)L`
zjuy27$ul<8>AX+6P#!0oF$kFeE8qrfLorhmb^)VB^X$i3eeI*B^+dGliU7{0hF4Y?
zFpz-l^#q*;H_rN=Pzj9=E$Z-|ukIjHu(u<_X*=4xU#D1U%RrbKh{4T>a|n1u;$xo{
z9s6lO5e;DYtT`vctqz$P@=NUoi?>RYT&zY$&hNY-^NhV!au`Yb+rWmw->`$3N}c{Z
z)sf85dXRpvo3nI66DMrjLA&NBNNJ9s1T@9LaYkbaiE_%6&yLnfDGTUK#8X66d24X+
zXkgZcy^nzZY2Nf%tfiKa>veQ<KwKuL0~ikwx>P-SPU81{-x|&D+B{>O9bxCT^WpD9
z_s2vy2YTYnK6P5WFxkh(+v9n8w8;kTvmmvt%rR6J0tYtzS<p|(3$sXjvT$01u(!UX
zQT=jV9PbBkh5G}zEA@`d7Ybg1=bR-p<i5A3bBGwfFzHl>m<7BAMEiX_x1LtYr|iVG
zJ$e2BcE&yCw;%E-WG=XlgH-=R&VeAr`+tH^!P1nl-Pf%out+3Ok8`-F@^*vbq2z5O
zhS(djiahJ#Dl2$qHfNAODdb!L`nTBSz5&EtQYUQq5hAm_2@}{LbDitry^q@Qc`KYF
zK7?I&qq{a^WXt#?m*8lwHlKJ@_@7P6CZPEaf93|>tBF<=fAZ^CR0U<_D_VAk$4;g3
zNifSTKpbaxFn@&lfA+PAsX!V^4h!^Idih8j0wRc<H9&y<N#xrX+U_Zp0FOUL18~J6
z{I3X>0KL!Jb`rq<@p|<FP;e-1nLamrFh7Dvun8;5dR66!xcRgmKr^PqhkMYRD`31@
z1Cj8DuYvy?j3lIx&^Mm4oKBlR20!&63tex<FMaz&=LC=kfT((*aeLlR&53ty!O1F~
zL%`;vRIwpK(yjfx)os!s7XqqvlLMlRb`|reUJ`zC$sR_c@~nJ@c&SHcU%t+sUAMlM
z4?9XpB{<>6H*@LQS1G_6&5td2#&r7c9N>djhQT;FGmfseOD5vc*<-Pg7^O)OuZiSQ
z`+f{Wv^&s`sJ~{6_fL?O(AA5Tta<DLM@ay0_U7Yn$HKXCFBT*BPA9>xBd{lQ%Bz6l
zj81scuhdjTjk4qPY>4%-kFXxvtlGDUMMW>8crL-I;`7b*Ff`V88gy+Q3uh6;|5G@l
zt_LOL^n(>ryLR=zUVlhIq42^@Nqsb#JKg9i15jZ&otO3Xo7s}J;18gSS6tr-B>!u*
zfTeH%OwKH!s0v_JqmtA1%Ramab=;pStwo3x2d(&BnaQ-y?#gb*<2>5Sw)4@+-TrhL
zmqXwC^X#rm)(PvRb>M*Aw`<q99UUgqaTW9J!($7_W>0y)X009Y8cQI8Ji<H>+g8;O
zaE9UtiR}TeS2wuyX$5O#+gIFy6&G~BzH|kmAiV4%DRI8P-a*Jlp4m}eTlfi9lD_hH
zF-^8Q2D~HKFfobTmhjL4uU4p`7DdD!U_^Wb*u=`Q$~_CvZ~}1zP0!Q{&dm#9s!Nc`
zryGrK)8)^@Kr-&@trLn+j3aozuUI>K^YwHFWg@={FH+c>5!0)`9SMxie@3T!*H#8x
z8=E3ML0KT5##MS|?ZnwlfMS@rG4ag{Glp%zz^kYg@KNDU(hR`Yj{oBXw7<5RD=6+G
z$3W{PAmW*x%af1_2bNOW)X(-9Jwq(tFhww)vFL6HVQlZ%6G3EJSeU{<t+PJwpN0+C
zx6gpG^S_x#Ub@VkQ;UAfKLNUL`@ZDnQTPh4#A;-o#PaXFkbl}L_n+_k;rzb~ULh*E
z0&GnR%sDSm5?y{(Bt(STfJrbY11BOEB>O2eTGz*ogjxrzn-<;@-f^^l+}nr|soFsZ
zk$dOXllak5)3*zQfhHbK50p5iUY&m*P``%}+_wRCrB$~Io*281MZb;cNRPVab{TMQ
zL&EY?lt1qDa;hhTC$hmcP2T(deM<zi>%r4qco+Xy>)`kql5A86=8$iBIx^OC7a&X{
z13f-l>wI8A-xoCxSJNr2^D0q6NiG`gO;8ki2sgiJ8@J?1fV9-d+;;m({mX*Y%5gI+
z`^|7h-_YtgwDFFrmh3;D;=5Nm(*GBwD?U~HuijRSKiF__4)X5a7a5j4U6PNWD`F?Q
zET!{5nEpS&J|_9UfV~gqV}~C|1kJ(bw|c95Ul2e~bL_8c{zEYQPoor_A^*SL?7#k~
zq~pK7k>uiP&|<ni+gj;r53o`eyt@Jzt3tCjFBfOwyLHrh?#kH;`pvka;Lymg&KQMM
ziITiv0pH1q$3+A$t$I0!Pji^=p2ca#r*LOcRh6bndPn)d_<~hDsX2Cd#ndd#QATgE
zYE=`Le_Vo0-OsolkvZ`AkhD4f-y=3+ckW`kkdJqEfQ}{zqx*pDs++yO9aBD0XB6(L
zvD;2H&w4BkMePlJKnnykdv5?P^GW~3#~Ugc(p-duY(2@fgC--lTqc3Ch>F|DQ}AM2
zuq{($Y6tBE8h*l*s>c8&+9v=;5g}K=^N)>^;=PV-L*4UIp8rSIS3p&{cHM5er4gh{
zx{($U1Sx3*0b$c1T`D1LIs~PpOKAiIq@^24L6K6r6r>bEiMzIE+;Q)J?>EkO#yN77
z&HFyjT64`g*IF+>se_Xbrp%v!^0N<gr-ZlNd$X3u`>;lReJt0)i|9M5f1%B)UAj#D
zUA9`q(B0xw9#nirI(i5K?C7cSoO$+B{?OF#kZ&#WCVj!H7d&3DK_O}BN``bhYZrwF
zuzJ7x=-oaZUPF?weR~3d9maBBKz@p&6I+LQ-k_nYDSfF!gLa2&Cf_f$82rQR92Gvt
zTa`IM=f1*v7cYr0h;{+H0&+C`YZ$oMpmimAYqEIdj(_W`K7XBne781GwSjTLY1r_G
zX+D6c=77C`$=9nE8GpX8?p$#{|ERC+_;LA6bM3Zx)-b_(r#}GoGScbSPhVY3scWT+
z_8O4r`QHy?W|WpP%1!N&VAYL^NNXU%kSaLcxPrY>Jpd)n0cs=_gwoL#-$P{dC(;YM
zEi@p9S`Ckwb`N;{)Qh|H($4B^@)qZFCS+vSYzD}(P=X}C_y+Na-vMq13D$Id<MjO-
z1)}<PcCMAF9F(AzJQ#{zzNS=FA@yLhhJ$EjF_9GM1{w!cq~8HIlV29Wq9(BHCuNeG
ze)Cb@_rQjw>87qyE<>Y5dtk&+)<QTocRG6LBv6zaQRM8RmYMOl8od2h;v@l_ZUF|a
z8E=`NTL-5W*vXZgz67Td{_|lJ)Dhj-Nj@)y1OjV7CYd)|0e-h<0~Ch-+Rv;nn9p_+
z>z!d!6+q$lFqjtmRRFO4ws@OqFiX7}$jXcT=RpB5>HNw^Oo~Gk)}`@Vfw%v(i~fO1
z9dhXrI1}=LNkk|lxgW!XSXifV3eW;=mb&@$Aon{o|FAr0`0`M8C01;)?<xk@IyOIO
z83B;ix|7y!1X*LZoNZ|bEnk3yws7V1C&BL@)SiHJ_l!YWbaDxfXI?UpJ_=V~KR>o3
zAcZ{j70^f|91Cy{$@GTz!yI;IuVInq3!o)mFjv#`;8nI9s6YDykVKptS7VT?FdOX`
zf@+p*(f7uN5ik_*VdyvBIxMhZk=*px+>`TwAe~D>iDsqS&!CWo@$}AhpYBp|M}I)%
z+VJ#?J53E^z@e-g(}o(Q^v`>N=VxDb1G#nqE~&JijJT~n&^?4y_d@8d<X{$X{52n8
z2JvUfg@Cteqm~t%PxgB+11+;OY;@m;`d#Wp%M>;OR-#nH9xT{|pa?Kfxw=Gm_x*D|
zG@dNGQE?xS>A&kiRiS*`8&?h@<_uufqO%FxKUWcZK($pW0S+hUC=wCyAJuUq6gVdE
z^N!8ochx;Iaw;r66DB|YRz)g*+#&hrd1K34URdA+BXL`D2Sg%16YeoYq{D`s92mYm
zuKRPUI!rkZ=L1ZgZU4>=O^3ZP)bY_ij1h;V6gZKEwasJ4>C#^7V2OEPaDJ(y%v<sp
z)_4uSd089A{v_#3h66>?%8d3U_cTM8+cLPHa@4B4@;ShZE+q1+d})#Md2E1^c?jC4
zlCKgMV{J97Q|<;sZiWS|(!%&zJ>7pS7-yg0UxQfXz6@CP+vhjADst0A-QgyRuOU5)
zzg=+>y{k?reiXx3DFxE)P49l$2(xGXhUH8QeXVPJlax7Wg9{H_DKxC*f1DOH04=ow
zkH-}xC<r=`a^Ea-j47D!tV>EidLM9gds#z?Ap$RQDfkv^8+!#)<-mib_$2`h)J=SR
zG}UvEWGGs9nmYXHmKZGka{%}bQ~Nt3gedR1!isCuCQPN41Z6I3W5)D_Yx-yiXX78<
zN2aou7@aAeMyx371l&6#3p8`<cVG9MA*n{}K`@)Ew(bXk@G8+KAt(RF4>98W&s6;&
zx@WX+qf~UJv#U-mfzXF4vQMGjn<gTCA!XmL5vzo1mOMH(Cq2{K>^B^F*wQl`jK_pu
zoIcO7Bz&#V$wc(V(<+>Z((9+`pF&!N@w7yPp6%UB<Q7sq#(n>{ta=`8T=W<H0Mu)`
zHTw7f(*@YJEy`i33BWPH|G@ce;F0Xjf>zktEs8bM+3qs~abcFwzHfdT$dC^!{m<Ww
z&ERb>^(z9qgHtx5QmYw1Am;npHrPyFS6?52+%&lE2XIh;F(K!koPJ<Wl*N$T14AF%
zK?)YUq2m6r$tNqi`cS8A|6_S?I%zn42)6$}=Xxvbry&$;4K!ZhY|1U>dh-(xYM?2Q
z-uE_cTr`2f<g=MqTm*lPSnOS;qym>_Fo~kGCaCn&B7J>3HoI+qD=RC3Mna?gTNT0Y
z;3p0cejy>4S5(=%hqk%^R{#8c9_FzEUGTX)`B$AEW85XJ+HH^#KTH~MPSAY6!fM`q
z_UYmbB)w6rMKsC)r&XE{BQTH+_kBJY(jqERkq+g|zN_RE09&#h_701i@GkRUZ=;z}
zaDd>xvLxLQ)~iKfo56CArQ`i1ELT9-P}KAORC)Lv?UDlFunn?8b)=*~Q3_wTB9v8_
zdEuPhj*AeKP^=<mQ&x%lfOgzIyuw+Ff4Xi-OeiUkjg{+%UT#HU3C6=q=IQwK$w44z
zWwb+?R-VUIBzc2;2}G-dC&2tleDR({n>&Hgv5~^ldHPA<rgB>oIB!OQeqZ+oqM&qn
z=!(%JMn~$iKgyTy_Y|@I1>Zri0>!=TdV$qLz#*GSe%CS@(Sho15>8u~3qV8cjmgaO
z9Eb6986a5T(Nd6coyLFs@KPpX)-m+!uy!OYJ>hR5SMM&s;-(BkhCm>uWd0aQx*`#H
zz53Hkukqb(Ci#_SKLnC+3%(n8Yf9F@FJn~)JL=vTpQZRa-N}+lKx+of!vQ&3Z_<uH
z%Ok=kY<8>erP;{xx-?1`uBa$>o)}U<vqnLsAvn#RInQC!DHcA?dOd8%!OqujA`R!P
zXN|aD&UKJmd{0T?$tn8o>sC5=!l=dd?zr;4*RtN59gUY965DcTff(i-FV~twWpR)V
zFksZyt{T<IBHW14tRl*k{0?|D3%#t-QjM{oEOqa7mIvxmU`;@W6le#id8Wosu8m#Z
zcUzzG(vpi)^c}f9y6BKkjqg*p3@-g%)UeFclacN2>>)a=hDqjboA=HW9&~)!whKn|
zrLg2%e+@Xi6HM>}ci^&6kuAIQJ*^}z&aB5%k_AU^3R%qw$t|uXbfPJ+{vm>2(r>Co
zudjA#v)#UTUDo9$T)R-peeoHU@@mf~IhTwz2oV9^Y@Lc5;@Ty9>3TBJl+_)SQktOj
zDSLdK3#VA+KcrO^uU`rFxGULCb{PHpzYBOr;s3dSuT|o%d;*Yzi1(;5d;JL5lbyYb
zX<4F8-pU_t`oZ-&!4nfS#f6Pd9>tCCup^fR!(Vm23|n^XWL3cLB=}L;$%@^;LV%5#
zzH51u`nP>|H6ntHCHc(sZH?fgXWM|zx&wb0KVw)my!PND_x)yZVa*gF$>Zyi+6cXz
zTKWuL*D|mn6g1gbuiC5{HhHeGbt4E4RtJ?NlzgrPPp#IgiQX@R9NAjSqdq}insagS
z6+?9b>;AYZNdE}Z!4B0#Rf`NsH?3luVCp+hK)E?W5Z?(VgH>*!DlC+<ZwyK)q$y9F
z;(haZ)Tp=EsSnqNZifVZ`LS-<r`l!I9{6Oq2tf^f$r!ou?YNm-<?xoL+Mf8&v)%t(
zsvjA!U+L>2u|*|)4=f$v7QffzX}eGSDcGEqj-n0}x|Iet<rv{T$n+PkgrS8`s)I>Q
z>zy%t2&uRg>NnhSXu}K~-@-WaLiHEwz|H~WgXP7%`rU#-haZYKg22$R?%$_X4dq*6
z`?AcD75yOFB%uM9YCOxMAM=lk0L~P&!y>=}gcj;VBswM7G(f|0F_-6U9+fLc@mQ9$
z7*=sg5AoaQlO?^Io7rJZVvB}q3u;P^No22t(%JPM=oyy@X9^?UqVlVx!5aZ9&pbRm
zyCnR$veG=75duioK8?$dU-S(=pW!><J7+a;#}S*TcQGxSWURt_kJ)Enk2|=Yez~of
zTy7@sCRSP1ci7<4gIn2m-+;qp6LZ*3@5k9L^#|h+HF3pn#9#JFsABv(eKgg9$$WJy
zS{MPx7*=DdnvYsxz{&wpPEB$#V!W}a?~Crj(eX%>fN6b?1Tpd<O6gUIBj;+A&3d>_
zrz&wrHH&y0RtHM|{PZMU>Yl?be$_#SnOx!m_VsFT;`9jgwM^922$5e3ZsTxHlbxb^
z>5ApAnEK-B^~Nii9<o{;5)2eJIrob>I=WlLGQ&9MJtbEu9HQy2*t9^Ip!tHAI+BQi
zXcen3M9EF-)-^nga$B}4X8JV7Q_W=04x3%bmju+rDHdx?84V(muJdX8UDlojT}#3o
zN#-RwtZcc7Q?A1=wD!C@IC$|DEi5e3^-t9pD5wMaNcY5gSC2f`vrGEs7}U~ko3I4J
z(q0wBTQ)(nM&u5AGCna4W8~%K_<X((8kwF5n`<7z37o_3Q8dxqD(_`#7&#W=u~AzY
z`IKkN7?;?GWmndwUDJkKz`x7y-eNLL)w@Sebgwdc5ivmioVrK7vrxSEf(njQ&6zi!
z9^!7PK|;~zfesh+Ke81>3EsfKVhM|lbpCWie*>X8yAS9(*vp2rz{5t7gEAn{rcKfT
z=<ii-8!nE?yenHqOI_i?<|QaI5?tUMW&q<2%)Y#ts5&7v@n{;=#i3V_2<$c&*TYAT
ze*gT5Eg@<*tV-j+?%u6Q0+hGbH!KGXBb&aiNSmWoUydFCPY7KW5sGZ%YO5KnJuqHX
z-!N}^Y@?c{-mGMG%Q9YRG&!*=kw@_sxcu{RPR#$n7A_(Y`nkM1h{89e3bs96V}7R2
zCo^q5Gt0#kCu-JkjS;g<<4{Xn<eTk`d%O;6Gs~0Yp}VCald9%x0gr)y6Gl}p^34ru
zc5?&~#(TjsKvUPT&>q-O86BBk4h6#`=H}>jJR6sGPF5F3Cy-|>_9F@Gc+v}}Cx@Wb
zcW$^}^}jg}{({78YYKwv);9u<g%^f;KSg1G>Fy2{M)3}=Uz}_(uP5K@^FQJWPR|2t
zhT3qv{OkmbY6Sq7A?}Dolp*H!XmLaNGzqc#DISP?5uE@7eWI~-mDw?`Q9;uA1g52u
zuX8tYIgXf`fh~UoVh)sxj#*Y=lwZi1Gz%?rT&!b)OMn(kqI}LEo!FGeF>`wV(9^++
zqVnqZ`&CE`EH3qzk61+zv|)dNYABToJbhe5ud^yPY9Hu=WnX};1W0>xc4Q<@H%c;%
ze>qak@-n+sMiqmoFVg(UNWmm~lHzccvGGms1n`hp#g1W4Yl=+ne}B^+G9HGV5bCQS
z^hHGQE{0_m$Y|i@dGFIjM$U|{9Lzbj4yBEv#8@hPAxt9OqHHerYH#r4(6mlc;u}Bj
zokeXm`F;_amH<c9$p|J>J%+IENCD;7=?GH=^%ADJDhpy3V&luOlslAE%w_;FKU?{t
zqgpDGdV~#ghn8JG+B#kR;-a;9@lKRA)qbvoi^=jox%2XEE<_useqnU2LrvahBR53S
z4mA1niJw>&@Y~3fQPYyzc*Z9v)J09NODPQTlbrO1HQ%}#-1BW^Ky94jh=Esno}8d_
z{g)6G(g?&={QF(8%5fXfWOpM^1rI$x;I|cC3&E2r7Tg&KPW81clKNB4fKPp?;1)X`
z+a<qgN7?AJ2o8j1G6iw@&E@nC<aYTJD}n~Eg0;myT^zrS<6-`eW<WGtp2kDOF&9_d
zFY7DG8uYWCCapy8n6;{67#Hd(XRu`i&uPFv#>BHVpAO6o2<sJV31}zOb#ke3l`^IC
zHSug+-6C&P6rm70S4+g6qY^UDat1r5#`9sWr}2$gtsFE39<6@A*uvR5uUz*NH&CEa
zT!HW!#xO9XX2$U{(tq%?TK1p`i;AZ_ERQyQFp4J}YChZGCS<R(=6@hYam7UH@g55S
zWox`y$aNaTRck0m6&7zfr%*<#48++ahiPEA5h3(1XR4X1nX{7N;?vE#E@3%OYaGF?
z*B%@=iKsP%^&g><QtIZ~n1iUsc;2b^JNY()$9U^6N1)gZAz5vNKX<8!QGKG9{jkpw
z16e|x+f56ktqW`w&F{A6cnUQzYZ6v393Rbk!u<*IXN4BhoulS`PZP)(t8RyI7Z-#K
zAD(m;Ez&FpvrfuSVvkQSPJ;i{8Q1FVPFFaQCIb(Tz<^=n!Syvx+sMZrby=Jdn|ZdL
z-VDmVdZr4Psd^{`yDw+uD#NVUp`rytS1htUtNw{y+o?(=8LsORiLZ?$N#cPO*4L!i
z1>6ou%v~qmkqevQ?X^nA@6}jqe4Q_eFL=atbD9WK=Pt_7hJHv`qr^&%RErX%yI<w&
zb*+WuNGzaCRSr8-GH4=PE|yRWr4pj4hGCW1M?i4-^5v}OYs7I@QiMH;c(MctN-k`P
z{P?*mBB6AaECmP0x8PRo^#mk1DhyP7`T3M`QM@FP_c2zgq8XUIDQ`(?YKAii(;su#
zZQCDSv!!n{ONRalA|k|FVgl7Bv#jwe*B(%j_ckXn#}XfUnoZ&C<CaWgRn-nZmaZ4}
z;FnqNqM?w$`U+V@B-)ny^A59&cL|U_w=Nfn%JOqRGXXmYbPlJSR^b!}|K`_gkMDOn
z47OrWp%prRr1~5z$hJ#l4cHwdha#h~&zgq7o&*uiK_{nTWLw`3l*69qX2TX>WKH3^
z8J=`+eY-H=IM*e@ZB3p^h3X1Q`j1E0hHBst)#Urm^Z}27y##KIMOeP-`4Rl+pOg-p
z5bU>~t<tmMT`UHK1g~|I>oMV>v}0%l-UkUXIMT`9R&JuodZFy}+UQN6?rD2>O#Q|6
z|Nr*Xo(|LwVC7AkHF@rQZ8aTre=mq=1QcmgxiNBkHc>O)j`L1N@_a@Cb_usZ3E2SQ
z!~hR}O~4{6bj28O1Yu4LD5`!RJXIB4yzY7Vz`BMT-v$upPkgtI;g2Cvsw0_cZ2t9y
z>;(tH0$ZZdsq?+O3v-p)DQ~@26_}WqrtL70O<a_yhIX=#Y@U<j2u&L08p9DPN6Ee<
z)So|p)LjV;5MlAOEVnMN_Dn0$aB_{|pfF5WPd3)q-q^Tt6xldSg-xlpsQRwmy&jMH
zm}2u8x1)1C-_L_+Rbgc{s0$0T!(088X8o56Q%QHC<CnL~LXCl2gRtKT{I&Wc_vE*4
z#hw+?7K!5642N*q9MvkUXvWPm@V%OZytNzyiq4=wjm;;7Ky=-_F?V&Rh4h(eu@>Xs
zK~YUaibj-L5y|0)Hdj|ygs{s*={z5wc3gyK`enr^+N8OzLL5KVjnQNt%KLN0v%_u0
z#asbVO3t70!GV`V(3Kt^ZHd<bPJlkHqu+eX3X1q9B_?&euqx(7|5b;F1M#e|L_1Z(
zJvt1a-MCcgTN19cJIiq;)~H&VKUy06HoPzYU|swbw^R87J|p1uL}g>Ctc`C14#t&B
zvt>T4R>ABDTLu6ou*+uG5-@1hsVKenH|S0#8!o=|U7Bvm;S<|v@?h}SRdH2AE309-
zal&A)+)&&|!YlY#6ss>W(x}5Gdn9m&$}Q<xEw$NMXf&jNM?6CCcNvKr0|8xRxXkNG
z?ff;8znx^ps}3QIr$AG_Bh?+?VZ1^cm7qx(I0`aczl?BV{6OxFAmDynBoXxMp%mPM
z#1zN|hE|_grhR&%^g0En;B|f6lSFoo{_9iM@YtSpg!Mxeo##PQBzFmACw;W+a+mUH
z6r#g`VH$$to`3X1eB3Ez2SguJ$VpE$<@1qLYA@PSvnJ8o8uL~zoO+yyVau?pnRk!e
zs!qC@7u;E_*rZHGGp-TMK|5l%{k*d8axQC?$vy{BJ234AcsaH-4q>6JI3*52Gjg}B
zQ$jJT)C*&<mASDR(3b}C4BV8Pkr|}zoKI`!DI1T2EJAM`G=Kx^Ry0K%^NpP3<XU!%
zwty<UZ7%!tfe8m*wL}h^ljQBsZ<wX|eCfAu`QhE^6h0_nB7}vWg2g;-T$x!6Y>C!Q
z9G`^sl|0oaSfnuUtH&6jy$KQ4fy5+5&cR~#Bu)*uA~iDKCh{t*9Hg<4^NO?BJ_xab
z7keCVDFWBug*fJh(du>GDA3sszfMd3>=h0MQkb}s{j5+<i`%4@Ta8zmuJ06pjh;Dv
z3>D>7R<AmYs;r;+w?(BzZ_sz+BZhX|Ib1+Y-UStWo*|9TND%QDT6a)>aF2l-xl^Nh
zS)xDD)S}V-rkoNXk=^(+9F$`&%>Y$3O(LCqfYj+JtbrG!nM?m_zkb-Ar-O;*W?Ey3
zXoS_wdlFl1;+sEy<nS8uN+0qRi_=lvpA=2MUP*~ri$N;Ce{g__VpaKz;y6|HvQ%x{
z4;UDUA*QL}HL7F?bDYKywsqF!c=d#kk{H>3c5O~#P^qdcyajhF-It3soNhgV{dNH{
z#xODFUI)S=LMsCY_5EY1H3ssej_po{xTZ(mNtW1Y2O|AyO7wMvQp9lb*{)86;~cd4
zVIWZ{It>e)H7&RVs#lMB#)xM_BB^g#=wNH`|IA-!Q?|sYQplKA=^&dJ7JAADGqb!7
zrB~4bT``((&WAw-9|47AmUZ$lc|`SlV@6tSVc{1HoKfjl?_}s4Kww#pAK1SYxDv0D
zlTKQgberx5vG0S1R_<YPJy(+HR{w^8K`P41@=L1EyD!z@+dbn7=-!VXDBx-C*aiq(
zoeU*#q-AZ#X$`MX*a{Q!!w?2-n*E|Coaz0r1Wyj%Nw;1~L?3H?nq`$IiNtL=>Fj6B
zQrLr_Z^s$(Xe%v_2d7H4xN91}dsu<Z`ucfStOw|YM~D{7ZrpRR<#vw0PEQSZU+}WU
z=-|30z(J>GZT)k=J|YA7TtU%Oq0c&~Z}?aeaaGOg@(k+<%_jc6gn}+>wWO=}LCXH~
z>w9)~_6|lP?AMh*Ty@O%ptz!@zdFOg;cLU{Sywi#BC0Nbzux)Y!Q-JB3015)huqp6
zemq6gD*^4`2#f+*=c+eO`c*s#CPc)%;N0~E<;v%Uj92g~5g(yZqf7VzAyCe#Vg1?q
zu)3QJr|RaE@}KZC%nmwH8+RWc&i!5^0K8a%&=&R{Z!zpZhjUBxgl|pFz0=u*3=!zs
z_S1OOb3A|kjPGtZP6tO1W(UVO6;g_}g9^X$hFGqoQ*N>~)`<++Xi2c9^omWI{l>sA
zH9^PRU0bcrGO+)Q;C9#?=7n%91NBgy-9-I?C179^>3JHu57lmm5150ht_RzJeOrgm
z79Ry3(va&%_qO2rY*Agpwh~Iyrn)?bl+ZJ6xkcSXPX5`FYX^~a(56F=SfTSxjIX#S
zPnlvf2$BH1Ft&%ITt^E>j^H^p>Lg+-R9tn006ACKd-RIPE{wMa)e}vty>iPAIslM?
zn7Bh8LP_SYZV?Pjol`jAUK*KI5wJ3k;#|z_6X{zBh^P-M>FFE7keZh39u)1-eXJeG
zA7wVE$95j>12X^BEVnRH6wjbKD@Bd{*d+v|<53=WyNX9F=AN*5WmnbjvF}mb*S*$>
zbKGWYdESO5)W_2x`r<lRU5i(NZI_~QpZ4(bO3LT7>{EctNlXo0i&uV&{yM7vBDo-=
z(g8c;b3-d^TWQz3zd;`j=93vg-#i?vXuFe~(qz69X#>n@TK4BOq!K|qN}7T}j<=ny
zU+n~a@{0}`vF1NEnhogAYG`O+kj}?MC>>Dq8pPiw1u2!B%lf$)W}MP-&~0;xKD{*u
zY3OWiBi~rDxpar$%iSojAdmd~`O3u=yODDW?@R2rsIZC|Ph8k)LevZOp1Aw{B9^PA
zLK&9fZ&9aORQYBL(5fhoStQyG1zo(vpxv&;5cV1TqNc8@4_k6!@Dr2tS|(`44%p{g
z3++M12u&^GzZi}kiFsFgRTmMwiE<da2TU<A{mXHp=jew;CJW&#o@jNj$*K&8y#;tU
zr7(`0PF|^QTYeN26wJe+9(>YC5zKtB4V{yRBz*&=ZyBUL<1yd&HV`j-`I2q(G=&bI
zQG|@5CT@MC8M9+BkrV4MPhU^13~jHEm$)at#W?6qcNjdq`e(aWb(|aAaJ60w0ioP<
zVmJdEo63Shm(TbR`Y_V)VwDN$>EPK90z(pJ$jm|fgKli)hY9S7r|7Y}tjFo3on7=C
zjRgm_#Nml_llTaPE)n8}<d_}SAej9)iC6pXXZl7EbN~dfHCN4knYXpB^wRxO#Y{Xd
z5uGRCRO{ZD@WZjWR>A?{AU`BcRa|uFAKC;tY>jmytKlRr(zv7+LDTx!mXyA=F62rf
zA~xIoY8YZzOh_t)OvZbYEN<}?%OR_=5FT<lS2$nh%M!MKrpv2U=*F)iyCJOUmmG-{
zsSqDxsGc(B?-_*F$|!ED2r%Q<3Sl4}A~_M?#EhrNv!W*lVEVPMPaHxRV}%Umh%R6d
zOt71G+{m@P$l;>?B!cM~Em?R{5~Vp#7CvoD53eh%+%QJ)w{z-JJQ@MewVQ5sHG9fE
z<CLb)B4P#_@AL}Q;}~V{PL+PF%Q*PPR*SE-w*}pt*ivgQb2S<WDbO{bTaf`8%X+0|
zb#QM$!=dR_)uJN!ebB>AZAtoaP%PbLhw?su01b|_(B+1?hjezv6a@7{k8E4mFw?^O
zVjCPjgs^jHG=lu%9jw+<d@2#iS4H?axQE~HuHbDZ`N)1Ter`LG;|(1JWyJ(6p6m&!
zoAfk@&<r;`)V^=M^9(K3hi6Z(h&!NCqxkMpj&fz~5ubMoXwtFvlNrl1<VwHyXtAyM
z^xEk8biPb}$Hhw_pY;yz=ZeUYn(2F}qxPOs1Kv-3o77_Nk^eDSMrMH=3I(#OBsM82
zxqZqu^o&r}+<zz0OH7GCl>jH%t?G%9V`g%7Hyy$2P?mU-!#Z&<QP}h8!P-z#X($P*
zABBN6U<IS3wFlSM{qGHG9doG(+`6sB^E)}jaBrIOFt`JV1TKzjZx;-K8gb_oqh15C
za5^xEGPVwxW)L6N((YJa_#QIZ`6sMc$)#aqbj83>39bb;91g?84Xofl90A5S5=h#W
zF4eZ=%eBH}iMnn5K6}!3)`(~x9)tK3RhNlz0DVb@Z=W_VG8A<=uO@J~*WMTpctXX)
z7!|Ih`U{B^m1cO_0DdIZX5zK?*8(Np-o&giobBQ2pr?5Vor58q>>P~P#XLd{N}<`B
zgnNB>6gLl)%cc|EikNa2%~`TMbaA~|_4_w88S;x<UGxKRH$2yed4403SQ3j?ycqa)
z4QpnuVxH1ov$h<FeL7f3bgKENp3dgjCd(a%m^ezEf5s$!K|U>tkeYXqEsI!Upj0f;
zXtqB|T#%H*eu6H%MS4m&-wF^h?Dp;xqd`b$eze5pv|8J`OLB*tU=dr6cy-`)^s0<;
z1{()04vO5lEiuO1jA`Ab8oq64750!wPC?c!2Ja>}dHe5+ouQ+nqf)njDD?>-1f=kS
z2dGxqh*>;}pAaF4EMcyA!eCb+c4qlywy^kaioRY7_HV1^4ozkZckL(k>&<Se7lXn2
zssY>Y2igqEW|q<#(Z6y&P!*8W55CdW^Z+Vw(W`m~tUHkYSY8=#ofj!csf)4&D5`ew
z65nBxA6Cf8Of0p>FTct#B)U-VlG&ZK_l6e(`Rsmf(7E*6hy{McaI7%fycP%9W2szJ
z?R8qYfq>sap?8wG6M7=D=<2uNF2f>LtKgwGJ_j0cs(rs;Bl`z_3^!kIG1ie<imyGI
zw)zwePM<5EJos9viNVimb#L(ilXuv-)<O3%lb-VDah9Wjxnij@YbKAOU@P!Am4{QW
z(+}YzeMu!k+5EPgnort1oV*fv|F9`WaXt$!C!g0sCJUIRC<*psbZ1>AL<$5Z#dDiA
z3V+X7LG;^abzkU1-BnP@proGRW@~Mh!bb$8f9FyyU}AngMCOt7pR-&>-WTfBfvr}!
zKXeE?cn!mT#tc1|BX}61G~n!fxqSvc?|p#MULGC^`YM6zE1GIGgB=P~6yE2FTnQZs
z;qg;ROknRYtE3K7Trxc{@dHH6=92hYWr@4y;kcsK&xECft;A2d_qnf}bF>HBI7AZX
zw4{G~`G&sW5%T$P;_&kro3R3+MZ)ZfavSNNY)1?Dzkb|Nb%Xx7#M7ClKT5jHH!GpT
z;o5KmbCPm`)}1uro0T*Y!=@M@`0(Cmr_d4Aoy)v|gBs*<To??<=f`nK`DjsQEoY0w
z-ORvzjQaVkvn!=B*_&Y;)4{0H>}32$T}MPZWw&lDeouJn`e?SS(-i+P$uRO5fmNB0
zV;AF0`i*6$J5X;BoS5K*4n5VL^>xib*sE-2=nA{P&lO`<8(|Q+XFOVf5{btxm6l!x
zPCw7WfrNM{OZpJ-Uu9TJ$CNo{$s+cMUiO$b2KH>O$;(GgdKsrLqH0cSS*<1rG>Tr#
zd+#lFN-T(OeSGogRJamYRnZksmwL;bXWfczJz@<?Of$AZuM#$K2KI>sgxwKXZJbEj
zOM9Vi`|W0eTKZ&|ldCH$q3;k9p02{$f(;M3X~;FAtDNT>MdDT@+00Ne?Eo_KodVeI
zub8IoC7cAfb!+xpD#zMay?oP`{I*fbLTk0gJc_|e@9UW6(6G=&LF`ZEy-8V*t}qH}
zY^+rY*Lf*_#8WCu-ksk&bH9U(^b9fcfOj}1T($c|DQrdml;|NRuhg+S8H;e5lZpV>
zoXZ0s^^zPedW7b?wySEmXI>i#J(#gzAh-0WvU=}ORpzVxt|ij!Aprs_1)3~t;(5Be
z8iLZis!p;Vn2}W6e6Hwl)NCpL3B9X;!8GmCoFT2sfG7hHTu)PbT}^W&f-}M-pQb{8
zN~ktIqKQ7e`PL;7o`hi&mc%df^MaYAS`D?7CZ54q8nN6pk7UWUe%8EynEqxWTx_lL
z{$ocFGx+i5nYN6`jBgo`vBKnrZb$xxva8GQfAM=dO5y|zZw!7W@_pwI3xG~?2l^Tq
zN>T+(RebKo9J>HmuD7qBdldGLd!|&ME8|s*T=AVky;AdgZ_<KglmDwfmJehDPo<od
z{K)_OSTLecyP@_lOh}zrV!>Uh$bTq6EN=Cz;1?Ksuxb}onhvH+MySHo@=BSiD=jKn
z4)yFkb(*Ne#P6JBj@4T(ro6VqL3ynXV04GFakyX_9N99Z2?1NLUKw&VfpeE5IP*qO
zTfs51;_M{Gi24wd6?ud4`Zc%A+7x`#9;~`krPc>N@Do-Ma^rYNdpC~r5L~Yf_2R#;
zF*RyN`54T5KcI7B%_!*Aw%6gSdsh;OZdy2+v6Ufdg@-?eoqyq~4H=QV5$ZKeq>7YP
zqQ$r_X(5M2HCXsz>dO+D6ZYF^nI@+X&9cd-BdNbp7@G5-^X~*{5K6eQh1;WoEN)wU
z)MN{)kX7vYDp~!ri(MKghO0s%d^3XwbGW(t<F$9cQ^Gkh7NI=?h=d=|pC#&a6iOnx
za1k2>ZXZ&v?vsS`zaa>TeuXCTj^%Im>uVgboLLE{G`DV9>KTiKYRo9NgkKXP)(^aY
zZMa%YVL9o;2j|TfTH8x>GzObbuY`=y2e_sa?np+yBIFcd;h%HvGkp{m72GcO3Xnw5
z-T(2@l8WDgX&E;jUptU2g+tk&>7XSSe_$$PhhCJPnK>71B1va0a)t5D<Ujs!5=#6^
z>{H4Vfb#aTLMF6%G<i>15}~XBRdJ<ZKH)Pg6GwKSoYsfjRNu1LiwZ<aTO9wAIiyIL
z5k@sMNQzMY$!c*pJ>G}vKEV`EsX;-sc_JWKY?Q~M?Gzd%l<X^)bdA@;Ei6Z}m2fiK
z-@=T61Aqy?cg#OBh_n{%cNW3ARhA!My%xIPZ1XpGu>Ps4(_~ScSunE+yj6%I58DDx
z%4HQl0yO2+NNL&954ohwU1?k$QfFPqb4&S-?O<YWbGJdYRd19ba-GxFM(8_LV>V2r
zFgvs42{_umXJqsl1gHrj-I4wG2d2h0Jmul1Wu1F8-W>swo(XKq<xG+<z<mcE0d(*L
z{(kC7QC3zKz&tCj{8+(qp9gdFQ+pPAlC{U$_P@S;3iAe?yuvPh`7dZ{KtOzHX1|5D
zzrgJBp^I+4QiF>-|0Da5PO)VMQ5}3-<1S=5+;2H3si;cK<mPMqy$e%+z!I%^BVecq
zcEms291ku?-=?!-fJr50zVy!K#+O`Mub#EB-qg{2uQ6J}Z{E@fnZvWG(I?l}iuoJN
z-BO0M0uDyYcUR@UX$a!sZ>W9dF5Fm;D=PP%i@uggoBZa@F8p9=HD8~JJ5LK2CDwk0
zPYa!lc#jnq2+wJHq7YhLgAeqha5KNnHN5eOEG1`Gah|Om91FNrU$;f}rN!3^;tXJJ
z0-^)xIv9KJ0!9Il9oMd`|K`kD$O4Zxuu7hnP<Nk4Mj^c(KJ0rv#aJXIJp1+FETva;
zY5Y3O;TwLNVH;!I^>`2c%|Xp=c9ZX0n5|VW{4@6b|A62D<G`}dp8++uwzQ~bGhQ8e
z1po-#thV4vgKig09Qd|>{}j{Yhg@QmsfD)tDkdH8vp+tPl9IS>K%*d~V$5n!I%6Ia
z;p6Y^?@I$4E^>SMFM47|-R1j@?n}@lx{Gau&$Rao?ACWP6}>+u|C%Ec5j;LxBZtvu
zN_$LYtYwUfZ4C{-;mt;GK*L1U^g=ZAtBj};KBLM-^Vj`KJq1uQ_WW^)8qK}o=DXKv
zO1bE_`}Mk_OgZZEkOhUo=V7D%R>~Da-cPc3ZEP0*ArLCMA?-rFv)5hCM+Z$OQ??^0
zL%=A7e^69(bdCQ)t#aRieybNw=JP<%FVv7omLQ8jb&O>~LPEa>-?Gj8E<4LR_bn-P
zv9ZvN(p#y{CU4BdShLR))w#mkSn9$VIvf-J`uX#3__^Nr>bF9zU20JFTP-0Wm=E#V
zfLzapzx}rsQgf5iW4CU#?Bg}3sm7+Jrg!gPj@ryQqoTy1+Q4@pMdcp5LyV<*2O}>`
z*9DtH5s$W~JvPT#Z`^4Ayqg`oJJ+xawaA-8W6wxJ31*45N4w^vq@)b*ta=IOh#p%Q
zf=K?*$A?kMoyE1G<*OsuZQ(Y(^!VHGr3APw_=$!1L`B_kkS}-@V`A5S2l8-pZ~okx
z+!)Kf5NZwT8VguBfDQz-trTW$*xTDj?h+Cb6Wc5T!*xX%so-|_QXbB`|BzP41)K$X
zaffm6TmfAFdmzi(%`PPL26_*%N`#u8$XH>bJXS!Mfm8CS=ng%@_pPn1z0~kjqW881
zns;D+5^Ptr4RYeX4}d5iNHj1(vh(loLS2Ubn7h3H<6~}t5eAhj7jpy^(bSjS;?-NW
z7w2aX8k6Bc0^1D1rpsg?;MNXU97S#4Ckx(}QGd8Sy$|}f8y);cUr+EPD~1!^d;+N5
z?~Er+*isSXqD5b3X6Em0pDDflz#strQ-yX2aGD8hI0=*(!*&DUNDL1I7cnt`>5-@h
zyb}Svf&pN+*uK}e!>5E-tZVXrzu^Xc6v+d>KR<cQIwMgigs(tSeCWId??Qe@hr*no
z{NC75st^ExdNAF9`=QC_drC#+j;prm2|WKvD#LA|$rqxYxfMUz`c&I%hU}<wyMv<N
z&?-E#^4<JqMH=__?_bjh8fWvlSo^zg%tywd^svW3mOh5I7pOuT9(;P=-Hk<9nC(9C
zhW4tGzs-BA%=zHq-?cpcJEkcwqfO!V;g!;G>*T@kW(h<+$%us0Qu`bYq7tMtc!w|m
zOCT_x@$Xk9N!PLT&h?$i`qrar4*$|ixMQGKz^pNH1oBF||8GH>sn<qhU%q@98ynL@
zRRU6i2CNUo+PQGiuSbt_PN83+Ug=jZWfj~?M7f@_YC`qt*P^@x7$`!_Amt83AK-s1
z{|tb`Fh>m@h{D~xp<mxW1AR=av3CYTD@9=V!NWlf(R$Y}GSEB-Exufk-{362;5A(K
zf&$_sr#XHMTA1K84&A_D{nPBZM%daRSO0smOACtdT*n6xG$;IFvN`wBVkefi_82r-
zRXKrv1R?FmRK*;e`ruY~^R=gIARW_#*lh=E#?d3b41WLmMV-=p4*g0>>frmwEkySs
zs=YTgud9Isvp$j;iHqcCfGGgZS^W2E;4cF(k3szdQ_LPc77Vug2xt#Is$}#fc}v`6
z)yR>$xwEY2D*hx)JJ<kVZzZjTsK;^r0Fsn2@gqxmd1m>5$Do0N?#h9P#i-(YtAc_1
z74Dy%3s^Hni7t2%jhgAAT3R5x`E>1ojgSuJZNW`oj%?|sVV;l*w5~y2z^)fa4EM~N
zsGPs9y@S1@H$!o&FDE(Jz{v-P5q^#T4H9<S=HMfIgmC`e(UBnNmi0Sd-bwz9dw)#k
zpGJ;58Wtg#rzbt0BA}9VRb^{pY8M?Of0=Xt-&aurhacV-KX}K$7XYP!$4JICzPshd
zh3eF8*d}=y=u31Dx>+ibG55zsg>l3Ee0_t>7j1zsgVS-p%zy_)#unm#c6wSuq>kZ+
z%94AAAB9<{p3Ln5ad(R`9>P}zK#oskhBtNO$7Sa+e|J4rpgNndh6Kcocmcoe1plu+
zdb1JSDWGr$vVxTv{6fAAx9ToTuO$>^_8@*`P5a~njsRS>l&`@uCDS>`Zp=lv**df`
zXJFmLK3}Q^c&U_gLD&&{#ep9j`rR1hBF~RRutGa`!ML+{J)YWMJ%#@SG@Q#kdIj*{
zfxU#&X|sshgcB?Ca676StpfGJJ3IY3sV#wM^WLJ68Zldx=~Jf5=t`HDmtT@57%mS^
zmG)fawrG=^3?=~)BU{88w>9*~u<ZP$`IyOR4WY(m=$iDbVVw9eSxoBlH1m}pYc+)0
zzxVtZ5m$v5=YaMD?{hAk^0ylgGKGskXm1P`e%5iluZ&c6W0bDdpMEg0Rm$}(SgD`7
zp=0N-uRQ<zeI>3nJgo3o>hiC?F6;krW+0*c?ASUZO(c^>NWQ}8jmukmAs-Lv?H_?o
zyI=X{8jJ>0D)dtLLobf4hsy7LFV-xzs6ytmDRb}bZGQM0Noq0IbXXF3yJEg+E}2i#
z4W<aaHnNznjox)k!KA!6P1-F!+V=h3f$>M?$Ch-SS`tO6Ube|w6~E%)?ent}T&xG{
z?|be2irL>dPBKB)MS<^Oh+5Km)MYp4jZyj{t=@<U$I0`_w(IxD12?Ou-Ol@;-TCn$
z|8Wde>-SG{?;Jifk<dTmw`lY03VSX4P)Blab#T(@^VDckvDNx;w@LkcD-whKfo_>W
zy7!has<m@tOhfkc@QsYmmCFKtc3))v9?_AHb{dp<zt*+>bi7ZMx8MKuYkjk&%d|wZ
zb-x?|Mb({???PkM*0<}OBJs?!v-i2Mew){+&&#(M@-@@WzQSometXvBm768g+rl52
zn{>6%VmRl<WA|1}oQb}ePlYCRp&F@Hr_F;&nN)mtdGBQCGRkb<YmCRtW?A~VwcqWP
z_*du1xLz6yS4V2iK37`u!K#R#IIAwSC5#%rcJ=YGwZnSG?50yf_H4(bRff@0%(cfr
zevxvUi@2)7FkSR1l$R~$T3R#h7dgJ|RUY{+Q<b~3y(O<Vh6ndJCA!*mAFVZd(4t7)
zcIP(6=QIWVqd#%7t1OO<<9PoamwaV4&cbe5e=*j2Wcu#mR97>MQE+WmK8u?-1u550
z@?hWB;}Wa4ULpMIzc2m!TkFd>;?rL_3#I5dZt%JCUQqG`dO`T)4x?*Mj!M2t-=l?l
zZ#g69UMWv~``>@0z$&>Ic?w!9{)d9@8NIpE9YMD>X-fWi>1eB1rBn~J*FL9q4Ndfa
zu$vEh#J`l$8tM0QAWf{FTes_Ym6C5wW?s}*R3%op(xRb0AN@y>ssWt)FS+o!%-V=M
zI|TfCLG8ildgIK-`<o4eytB(K^dHGw@RbX33I2zV-w54|(3%OAPy;lW0<{kzeg}eo
zU|?WyaBy2&+h3>x{C<_yt;>FbkPq@*oaH;ko(*UVnKu7*@-QqYARxd!d%DX1x2yb$
zh?Df>7**exMCb>I1GK&EZNGb8I>Zya!ZCG%m<wvr@X*4Xnt+-2`Kd3!A-MCtj~_2K
z&`Y|89e$}ofA&9bwub5Q?X}s}DEO9T=G%_DO72Y>*S(J#zcBmn>%8g+_s8b<2oi%e
z;S=pbtpMF+kRT?Yj)37ZFygHOiXQOadHx6WF6NtkUe_JS8tUl819FD0ElB8VtE&b8
z^g+hIlPiBV>$K2urrr#-3*^j55_*;0X&s1`@Kmr;raafZb<opV!1)D(#dHPq0d~&=
zU)kQ?Ugs@^ErE3kB8nTNN%#*ODlEGrG}Dz%X)L>;<f?aD_*$rus{Vp^klqT!LA44f
zZf~<;4f$Kq?Y6hM-Tn81RUYkLS?Q;5^1MebSze)lVf~)!eD3YPSITQhg|Qg)34Yh3
zomresyMg$n;@m)9oje6F(Lt_-mqrm)2@tRS{ErhjegmOt41ipPS<{5cMK)m%dK4HS
zVhF}(=mCl70k5ZfSbGFxrcc|{aImo<PmlNZaso}4n+_5E9$2Ky*Az!<^`~cMqydEG
zW~gV&{DNv7=7w1dFkb3R0T_@AiWk7c<^Jc|PN4Kv>gM+WuB}j3`U&3(U|{DU{Hu06
zOD7<erPbABDUW6Ng4hb=*{Zuy@xt5xk;14Qx*DH`e^BUUj{G%nrI#6q$p0OVX}r|1
zIvCgX#6ph6;NKOg`o)BBM<N&D2evGRh7&=^sNnW{<l_SX#5JDh2)LDY@E?J>_;mTH
z5O@$)wzeEymhTf4VAn>FGUtFt9BNUKco?#nCI4jB<Oc~6)eWC-20$OXuW;oCBy#J%
zf>z^uMB(_@I67eBVH)`esS~<4x1%tsEd3VYB!IURdM(8&o}8?uYC3?_XSx0e68yB<
z5*$4=N(a~oL%-N7ofg_!L7A)@eXZfgngaI0{*Uu*Pv%S%|Gn&65NKUyY4?}!!ELAE
zdiJ3_z52<!I`V(lmVu`XOE?*G2YTK30iZKK`AJT@zP#-D>zm=<*F|84xumXp^=1gR
zE+vXQ05nAo;~$Ke!p)EO*${N_bc1jf^YZclmctzo&_hfMzv(mw(-OKr@C|~v<nQtE
zPw?Y5!&1E!u!#U$`SiD5k*2g&55DoN$p$s2eG@>(OmGH5`?4dDrEeCB(67f_BUOlA
zDT3B<(ggjPuQ%(~Z$Eu>f{SZ1r;9E~c%79U5j5)QP&L4Fc)0-Xp^c$bQX0Z1@7Cd|
zK_&A724Z945Z=0jz-7c(1lv)Y7vcv@Cp^YDhT&AP{D?sKZb0XEV|5I#1J#mw&B+dH
z5%BOl+-dM$0O-Ij==PdC9-^kDZG;d7fPN(sj+e)H-pzk8@0TkT8M3kYN^cAubC7eP
zS)}PydEY>S3da|s|3c#(-7Bcv>;Cm{J}EfW6#!@DO#s@gD%pZ^4#vqlPFKA|>_IRY
z%e~PKM%Qaa63)}^+tVT}c-!+ewoe0^AhtjU-|@)_fzJMKXtamQCkr4t$SBYZt4s$r
zbb2?X6~r_Qiz<+b3$+PQ%j{sSTNIzOekI(|-`_tnvIB&Qoe&n?b-!9AM8u|p7qFb(
zG9XZI<E=Nie)*I5)br&e6hZpKy}h<D;uy-xS5C2{XOkUZ*4mpMP8S0s)z;Dy#;-cZ
z$v#$u*l8pw^AEuD;M7QitFGsaPlVcv8k2pvod%Z<O4X`WxN9l)`XW!@c;xBJp}ZVi
z{`}kmWT)o@>M_Lo7nS;j>UH3|f!8jqfXn18Uyu<LGU<ICrm+#`%J{@2m{byV1f#2O
z5v#Dqs4a6Kvf!r|@qrExh;7fv*>QKkJUur!h_0u%{TRE9{;7vi?DeUsy6tWIYpHj8
zd>T1bk=|QY46=4ExBuN~Bi&?NB#Mw<Ekk?@CKqFuaA>3q&&<%3*QJQzT*1)NDHJAV
zA?%_SFcB{;g@p9z+ed==!cGX?g=$F=(4@4M3TOC`v+C#ZzI8_<z<I#d<p!mCaHnIa
z`BLD@L+txhVVZh>kNTAO_6s2kXy;uuh$Q&_=`|i7L{f}2%`7R8a6)Q@d;Fca<Cnu$
zG#anN%z;|)Po==)o5m9EcnEP1C_XD~VARk!zC`CGRP>WbK%7t#Ix*S|jMPH=+ny=V
z9FW9fN$AAvdJN8^gA}}Z2J<S-TM7HD?L)8$ghTfyh>Bn+Krs!XNH_&OCw58y7(%%f
z3cBlyY>5!oh_+r<s1`JUPYTAwF==px0tn62>Z8M+6$d{_09>SNU=Z`ZlNrkg$poIZ
zzcga97ltu%pTLAwwa+k|kuHu((2RE6b~|qu4rVpF^~L+n<+PhC@H1got#KM_=g3LB
zFCt3D;ywJKVDemhAO7@M4we-VcehTn?5q&drX{9fPnePbPT)0Mjkzdpek4i3RnJ!0
zEnugauf=FRa)te)P|H7@p{xM6%2LZ1|GZix?dj8@wV~9CHAU=Rj9gEeWKux+WQ<u@
zH<YBHct!j8(<IR$OSiHVR|<~1`U}XLk`F%Oo8!ns&aDTshJ~^y<XPL<ktr7!mz$eg
z2dUk6aLJSzl$MMN>d?4{aGh+xZUgkKgXcWH3tc;T3lOKTtlYeo_ZsNYkBQaz2spIg
z;DEw;j%B_fABW`KYk{8<Zm;cF4kKnU$|o%1Cbd)*)QsYoSpL4g(0~o4Z6Jj2LXUVK
zh+vQnEpJsVLzr@)o8u<_7WyuaMVRNKJ!yvl+T{WF2jT_6o4ciY;Sx?COKvJ>9^#;|
zFfsEiI_Om+zAarqf#$P0jxm520p~=6?y4&|i-C#h*^#14J=&U#^Z*Vf`Y6AZ3dMXQ
zuqEgsFt*ce;@U&KC(v($HjEviI~=MQ*wd-5QWY=pIY^`P-N9P7bX5b;r7$<e!x?fM
z!~z21ckkW}3E>c@H}yF#R@X8^KLrpl%}q@^GjDH?0ky{aDRW|Hu5Y?pWi$(Y4WIl>
z&@G7<dD6VU_p*-hU(zvG(!GqrS%Nh#+{qzeiN6lK<X$@_9&u<t1&6A_7Z~}9dk$nJ
zwuNE~l&<R<9d&T3PAN?yIMBQoy9#l<BM=8<RE?jSyzFBz;-RK9errc!6RyVMT4~mF
z%(NU%YN<SZ4UV2W6$1Bmuqhy@<e}K5KH!(>IlcnHKunydOoV}qx^iXrV=3hh)>lxb
zL5GiT_;n8bu~1Tb<99$48cuQNEF=sDKMNqLAXa~d>n&=l9ziK&E@vVS-g?@>#wrr_
z6Q;DEKY!ZXIu(G@vc#FR1E4GfFnfH9fPI|tOZSCLYVqefj=_)-4Q~!O#^{8PU9ZLU
zU=jn^qmgf4zve>>H)dRO!c~EOnS|(W+K9e*x>@L6u|zjxoP*isgE?V`C#%fY6lq1I
z#6a8znnVLk+e{|w7;LwN9yboYFagf$n5OP704ZIyu_BHW1&Fup?H7Ox<>chb?p6?*
zh%o}rhQpC`Wa(Jm3iQca`!Vy2A6Dr1a`rq&P9#O}8t+|ktDY)7xPHon`9VS5{r$7g
z{#6bMFH49z#__A{{i)o=4}GNci!>9SIu|M^D0H~oZU!Fe9r6pffr&h35VX@UqTvxl
zm;4zF;X6BE+Eh(ogON0vi5vuEKHVR|oKf%{&inflZ4;RK#gxbQ33{FJpWJT?@CE7*
zCD`%=GNA&IYuH)A8JzCHCl!#9w191@B}4S3L6Wb3@F~U(a42MYb781hvyr^U?|^ro
zQ{CxJh3hgH&x&=bwgSHLbq$r|>;4bhEYpxnkSY-^Fvg$gv^yr2k-L}pN^$>mwe=j9
zu!|K~g_f8Dk1@9K_?I3Gqe0bU1;jC=vv@h$!A+Ju@JQ^TTZ*e`BA!DIDu5ZnSzw!5
zv21d`4syULB}?j~OP2PvshCxkIoL&))AJqHm8ul{u3nO9g;WXfez`AhNYk*)fM6;-
z#-j`1v9?<LJAlfNRKG$8A}~WDsAuqP#2;=OD`a<}JF*%**i%p=;OdJ%`o(GtG4Pj4
zt$)LZvKP?Vg}z?BaZa@kmfN$o{}ozgs)iqN7J<IR;;kytQ5Qe7RE-}7_Si-!7H=b#
zLAnO&sn+d}#oEj|UQl7|@gh#aNp$Ni7V@zp<QK>l*Ay;UInUH^V%Is(h(<X9YX|y6
zgAa*+w<`2m?o#vJB|c8>7wrr_#qkCX5X=b@j_vRpgz0fyGvC~-3Bsp&JZKzN9nPg+
zpbB7I+++Dx8XY$YAz_V7uUthdd;qA_AfS3f|9317)?T7n^cf_R4=Zr|A%A__-sZ<A
zoIKk6pfs8#8$kFIa5v!N(Nrp2ILAz}b(btcv6Ud;Pz#zFtKelE?Jneg6;W|@gZV%_
z_28cp17cK91Y%XKlG9QU2?b(!c&f}$!z3>i$Qlukh!bu{l}N*%s=|v(P!Qg@IMsKh
z?W+ceXZs_~;pQU`eph?cqU4TnC_E2+bc0=)B%qGiV5~TU((<V9?oY|POLRKjz5G31
zL6Z;q%WvRXL=Y$<i(9Y=bb|Mh0%W83zJ0rZ7GSg+p1$t7m_FKi2Vopw=K9tafl>rB
z%F<xm0VG9u`{CssNc=mGuVoN)EP6N~1dS@Qc3$eU4Nzi2#^A(xb^EzF^q`iFH+Fw!
z8Jy8Tkg6uVivqXX3t-i8IiG*2ahtjN;N;IAwDJK3!%v*q7u>ob!IL3~JvhA3GRpqh
z?Y7wN%U-vJ5qou6Y^0mpF0WzPIA%B{mlpqLV%Y!^iV@g3ap%WqugQ2dROKHlpojJ>
z1sGaDIdCs&uRSn;LB$1DIdZ;x^h}p7oZ`(fJ04RsEH)dyzWYHJSlvw#h-&qjuQ3)O
zpe^nIqrT))q@Y>Y4~!XPpbenaASV7p&eVekza{O4g$XYQdi-^D7$<499dnIka@njl
zLO)M8BQ$W9fAS3+*)l#4Fcv{HKx46}7p+xfI1mjb0*>8}rykZ*)`wZo;M@*pM)43!
z#lhJI`1NxDoD2<k6JZJP0aIjsge=;&x3|%}u)|dZ#PjPcEG+zp6tQj;!xu~GBm4@8
zSELaQaUabU&w)Qhxv@4wv*E`I)61G*Lt)kALlB>K*XHHXYSZ<Fuc^=?h@(Uw`0{$f
z?1uh0dOS86Y@~A^sVALSH=y_n0QN#N1n0$1A<_->e#N&4ZcD)FFvd9*tAJJoEo;Kt
zK3fyL=fuJz@7c%uo-^kHFAKO&)mhl41siLqb?U$8L*RElZ`?3iV*0yxB|}NybyL7n
zab@fViJO~~>^~ILN)7c-;L$eSDsZ@r#u{2~kgv(j>w@&ibC+7d&2(>*{D1*WjgUQw
z4`;NNu#pZY5axh$iJ(Ro?v1W+7$JOZ!Qc&Hy<-eoOzeT1o9IVWs<#GE#u7ugZ+sCz
zRCTahhqPbhB#dD5Quy%c)2B9D^3{4!xBe7rLM?&eEbIee1Q28w(;OYL4V$R<vBD#`
z*ardDkqBae(0or^TGCji>sK5e;dek-f{HQ_z^0A&;#!&E>kuXEwPm#yad3@7siDye
zwb%QhBy(nzBeq572H7!8EDkP>O>j#QvJljMU7w9ngd@XA46)<Zsqh5!m<|#gLC5Mc
zGw5gPg?{%LZ@7AYKf-kQ_sH(@cMlF4x1aZZ5Bf)D`8|r6KrlFeH6`*G+`2<cOS7Dt
z;uH$yCz1R6-bx^q5%H_eTs|P4I3u=KS2;*K;cXhlUAguu9YH*F^Eqr;&5`o30vNP~
z$v_d6IOh<a&_&vDaKPH6nsx-&m_+<Nte{7Dgim&S0i3Dy1t@B9eD{f()KnwjhJd^n
zGlt@qKy|LcIjtQZX$%URW4h?#Pk1q%AhSQ3#oB`q2=*-zsD$E$GEN*y;Iw1L)WXcq
za6pqYh(^F_5o*1lIFLtZ0^I>wwB!;3ip-RlWefx@OFP^EC^0ve*$)MDpxUAbQRFV&
zx{U}S;dn0~`!#t>?DA!{CcLyJ%CS>E1aL?K;)tQS7n|9YH~wymt-C_ovF0XJGus%C
zA^d6X!-^+x3PiX_(Wu)OMPZmhxUYw@Ck%HHVzT1ywByBL3>q7hH~UV~UVA@~GJ+;k
zp5Ks&p%Sqh701LZ-}xtW{t~1r#4yIzhhZ9we$jR{W*|7hO|`c`f*iS+4tCAw%t8oa
zQC~klJNV!k1h1<$p)6k`eh^K;`6~T$4;T?Lzd@D{{fS`RdIiWET0wBHK|H-0YeU+x
zs1LEPa0H~rj_RX6gd>>`AccY_et2DL`$JXf(2W7}|6Jx9_d#Z$Qw8PX0eJK_Mj55<
zj%p1##Vpo>*<iMTKMre<m?J~&GudCLWIL3bRUxG`@*!H_;X~?C$OJt0+%Bg~;BI+Z
z3nrmK(UYcyV~`~9B1jI)51?d3$J2UCif%mqmpXG!@vwg4vYh+Q>@|ma2$Kgg7P!ao
zF#rr<d57)6?Ymd^z%V`#o`hyn1=}hy{g7De+RJ&UcFS~LVuscc>u|g&OJwHJi6EwP
z|6e>^WmuGJw;sB?L%O>}LOLXsQW21pMoH=JE=d9D5b2N*q>)lOL_|U)L_(1e#Iwfj
zcYf{b+K%JQJ5Q{2*CI#a0Fx0+Vgi<wSsErck^l!wq(tqe24fH{CucbTO+!9bmm-vl
zJ-bCJaRO$qml%TA`(wfw&7D|m;pz0}%rYUXJQ<(wYr3~LMrbCBjk)JnGo+e@?UGl&
zI{xdDy(&)-!G$*v%>Yg62rN8-(-0Ek6w8T=EqX}{xLSf$&&?2#Bl1-MF{+5>W8!ZH
zYe8R*h6fj^`xz;=(?T7y@=Wm!qC)+G#8iODO0$+IdE*TrO)%*43@Z^N!pYayanaub
zM-40T+bz29C>kIDOEbYBaHRk)6dEHY;b86cNiA=*!2$)J2@gOSVNrXY9#~YwABQ-&
z5C*Q(`N>gpOzkf=kBYMlQ94Ad(nK_keF6{($K&YWAlTp`mCzr^se*F_nLz^ECxW6l
z+dTd^;I`jSPUJjysWCo}xc~=dkMacSEoAbp+A6ZIn^#x_S}BdJ@_PV`$jKscGFSGl
z0w7roBkdi;)z^gD)IqbcHT#0<o4#I+LAm2rC!k-;iI31=Ju)z9@Nc8qWVpY?P8zNy
z`tEJ(IZT(eVRCH_P~T=)vk<XOMM)|I#bVD2EO=*lR`=UIBq~9H3CqD^$Rnh-DEr#|
zY1HGs!M(k`<d=VcvR}!~?&XsmZHM1l{x(!6ALH&aMjW31g~|-}P4-a`bQ~k5ul;F$
zRl@B!hW6ZMB<(qLpvgj~Pr=hv_YGDZ|LschcwGHqym0f$^Di&FxbR(jB-73y5y<@J
z3a)?X^}=cB_CsU<b0}zE!WyjsUt6ecFs}*QgWG`Ufd-~~7<B55hwc!c7i^Igo48vI
z;M6W)W%kM=0HxqN0Yt#(g!4i_VjTVefDRTzZ0f!b$;QxQZWC%$=@f>Rm)mZY%ZnDl
zwKpNc$B8*%1iSkZGH}4H^FaXZ(L@1CuGUW|AUvR%jki4&VvskiG88taVEB@M-~co=
zxb4tfFwxPwm*HRz#o>-GKG*?>i!fo`xSKi&3RP$5gAUmIU%72)d{JCdL1{O~hKYc3
zzDHb$v)%WiUmW4ygY&Cjtpls#N49HEC*0HzNaLsk6F&j9?LbqUpZ^Ie7C`%=KA{II
z*zwigelZ6dzz!L}^L@n9$0(~qq7r(U1;qVwwUp2pV5&X9Q4D=+aIp)YpKwy0MKIuF
zZ+Zbigd4a5loV4K)cF90K)Vk`+79~!vWQodm5pp{Oks&Yk|p^8HU^as_>2dGLgqaG
z>Mde5Vo4G744;#!{wR6?Yk=A(FS`W~rLcf-X>Df*w+EyHRC~S`r}fp8{GU2}rbkB|
zAsrN&6RhDmxYBO$-)~PFNA^CAOM9Sp<d>aB>PYOK%-zhF{kFc2w%ya|@)K?ws2AN~
zV;LDblmnD9s#N|>I-(XL=#_`zd?94Go@H|lcC_od>Ta%FkZeB4Y24TPaa`W@^;yB0
z0#|?78a3fM>Ywhrk}+3|n*2d|!-r*pMMyu?$|O}motq=$CvKH1VvReyF>Kr#steq1
zF!O{6V;xEucg#kP_`_Z|!z=5qwOw6uHHNJ&g>i9s@!G3!$q0o5p}tO__7e(633P)<
z=WIOR2Yh1EFtQ}K4MYf%^E{rI7#R1v0`mkow6d5y*Se9zzu+2$uS7mL1UGP0;1M}m
zKO63X^n0+flx1ne_dA0J)=&b1`=0jVzm8gVW$No^du_pFuqqm4jk^$$pZyxndFn6p
zhasud;s8;Ntmtjc2Qokbv7<E87d6;qui6v38jv&T+(olKNb|*=@^5Vs`^(oE!0)&a
zQ^XW3HwD>=J>VbYsV;tihU&F#tqIk`=NPjHCmn$xH0_U~11IBJ7&&YC{_6Dr;RXAQ
zYs)}NU^_R89QvZnZ?j?j0=^=FD=6OP6mKmV4lw7w&(8_A4qZ#8?$jZ*u`!|M_Np;5
z#!u;JQa37-s@A1`(SHg{Zo0NwDx&`4DR&3C-D}iL0lN^MV}>WHT&(L9nU-_}-+S&D
z8fCPZ^BqOMU(<^Fu@Myva9?zu2mko5BJIQA>Z@_5vQ1Amq}+|W#wKAg(8OsmURfoM
zU!}uczqK80p_j^JLG`D}r0Q}e*L9IOoQp=v8y4%15(!rKRmb?n=Du_B;{KQf2ATLj
z0r(|<5d&SbeKN!cHYT=UT1w@6Y_}m+%z|H2_+0Q?7fx5GwsdKGpQn@AqDG{^y3R5G
zhu1hS+JB!|q?5d-O%V|kbdnJ1W6=x=dMK2e>baZK;BR$Kf1&rr$N>rWVwD%)NO+f*
zaC%q`P1*T(&EmiSt94aJ*8eJGPS`+INJKGxr+R0Qpl@JcD0Ki?o7|EWj-|S0GcK+u
zllzw-sXWotMGgLWk@NQxJ1d2R4E9E-W{bejtlRD}n9Mww&iij$`pT95_olO01rI;O
zmuV*~)Fc1(II3~G4|5A$pBAJ4zR7-D5jqkILsq4%?JhlAALdUtsF3WU?4P9yquGN4
zp|KX6O5_WEe$r1vn9HF3{j9ei>|6!_8OItF$h#KVyfJL0m1TZ<cJDvdW2dW>3*{f(
z%Azp-jE46v$Q`K7{4G>~eV8gytu-Bd-}vvN{z}pS78%)|o|r`u(p-_Emb<ir*L|2b
zqf4Nr$q~Ot_m@i9>8gP@^~C|{A-tGmve|L)QxF}ED3W-A@IciV(!r&+U*fFD(jlPk
zZ{Q3((tzppH-jBMs>7*+<@rX)GJ-iw*uT{kXxslFK3O3Z9Axhd-;hG!;d@K5M^64f
z68<v7m#1s(TVYt$3I7#_h5!4UT($0-@ynfN*Bg1nHX@giPs;S;!O=_$&EL1NMp{6T
zpHcUAVBlbXjNq~^`BS$mkIuf+JmI7}+57j9G_3#s{mKfM`uh4R?tB|)Tbf9t^F2Sa
zExyILe&O@4i+X-}_iw)iNgXs-B+Q!}Z7&YOkRP$$icb3}wQ-Ble~(CmA`*ViulfbZ
zz5Y|->j;I_mJaKEslUJHZ-}^BG^|@0X#D%frFxyQ|NHHKGVe^XTD_xRKlx<VQFu*k
zD{@)HR@}rS{_A}8e^qfQZvH>2-S_Ka>!jU8_vsEV@@?1NT$6e%l1N`KUi9A@rug5&
z`!KaVJ!lq0qn>Jr{DlUnRI7~!cV-70ZU6o7pziwjtvW3}wpqo~*?u0eR#~ch8H$l$
zKOK)n^sgc>^_AiNZ;k%6IXZg2y7$PS#>xLU8~Ff+pV0mOMMEX{k8abTQ2+PC^E5Pj
z)lRlIAO1f13qHkIT^vT$TSfh26Ae=M|F&X!&so%8zlQ2f^{E*0bt*}Z(s*t8j2@u>
zkHORUX;boVD}Ci=>dv}4%4IZjdTNE#7&O>iy*zu<>NEWhcC5U{_rG^7SuwZj!z?zH
zVZFnLd`_fnLhYVc6B+-LBf!FZsQz!&-%V?2ne2R(!j*#jLc&(GkH6A7&eM+P8~?YN
zG=6&id!)BdJ<eYW+r+1^Mj>Cy81R5xzzGDzr|19w(!~FLR?VNEW9lEo=oW^OutuiC
z>f_d@MZ=`d6!_oj`&sk9ccq5n)b9OMG~GO$I@e-#vv`olf!_0?%6~ukFSGmYM{DGd
zM$-O1%IL$j&j+dOf;Y+kJ2+w&|2^}Ow5~sK#-4cpkCto<9j;}pd}#UKB8sj2@0GJr
z)tlpH*NfnKq)Kum)NU(mQI0Xaj=K2a!~dQnm*9U-GN3{#@M0j&hm5TbNweIkqN=_4
zShxDWURkd*AKo%Tv!|yARHYvvj}T<ENWmZQS-^vU>U!bh#{jr!FWjLDSYBQRZ9v1E
zK>#(<jSo~j6>w<7GXU>q2;4{hFKAoOPEQZAogs5L=<`rY3niNeGL3z+_VUZ^qTkTy
zL5ZCnvb)@QjuezC)(W^zf>gC%1>lX1#;7PPUOSja>CwLox=qLC6aCWz=;J^T@}MMs
z4@xzysAiqh@LLB#=#}~#(1sl)5`ZKFrfk9ZiB~?;r<;tdj(7g<*2@K0X0X_>u}`}w
z|DMnARgtAuRae;!AK@FIHNf(KY7i+xAB6t`F#{Ear>7_IvyY)MgYO~=nQ$L`1(%|D
z>gJ}Wfsc3!3|S1^<B-?@l8jeS=7aK*0ZKop7-{C!#Cs5kV1&A|f`Q0`iaXV`9avQN
zc)L(0_W@KyxCI6MxhvD#JqBbcLI+S@YPrA*z+Y}?n6DQBcmu#?oDGoaAE2CQv7fd9
zidLc$n*8T_rL;ig<mcx%FP?MzdqW2Xy54~pvQ215IZ2->Z=vYQ^X>Y69wPa3Hz@s)
zj?M%`zXtyPdA9>9rhql#EOAPHk&$%Kq8lwppkJHTYJ#b6etz-4YoPMv4sLhlL9Esh
zz%szuX#my$bG1Oi;sFI-_X_k>Agp<A+W8CC1>k=6)n&hg`gu60ffh#F8jL0>2EGQ0
zJ19_vKPkxqS&Qrqg1z8Z!Ol$$xD5po<TzM0T90}{`;UEuEeEX}o@XqLD8~^4cL;x`
zE=<p52F?mexI@L>+1bf#nlTHwL?CE7FCgUWJ}iSfM2xZ?j~^#c@-G6f*$!j|cJ7i5
z1N>i;615bhgt^tVuU(qHNZ&Fzc-ORIqMGM+yo4(f!#%(BD}L-~wQuU^{@<=#4np2n
zoq}N4Uj$o)UWwWvnES3hTugI%R^<VN2{Jcq`XkiP@T&ktt5gs4PM8$v|I6|JeEtE*
z^eOMFM>*~OXCi-&PEN3@-)rjc7D=fgoa^EQt0^mr>QGTpfmY3gwgC8~4nTHY@*Yx&
zegIji5D|5xgFI{5c_p_eN<}wwla>LoqLz$>l7W2T?nXX&8Ll5U5zAEQ{T4x?n5;r-
zzcWp2*iOJDllW`HF9UG;0&g`*GO1Ct;KNO}?T<F3LEM7^JiQgD-D%~YzLr&}=^tZ;
zn~8yDuL$b>K*(qY4%kLTXa{V=b(HX<t*@@S9<Hf;pzUEh#6;^?TpFF|XEt~sXf`tJ
z@I3VW0*C2_sH$aSZLJ^%4Eba0LLIVRO)IxHVeZlynmA2$c5*y^y6uU3!0uOy!B-e;
z&_&sxxY0uNJQRgIIcB91I77q%^ze3fVq>ECpON$}sEiue2Gi3ZduqV8%L*XQ6|BeU
zc!lhwLNTfS2-k;lg_b4g!&gP|P5Xy|lTKxmq<eQmD(E;{x2*v#D`k(szooaHN&sAA
zrV4C%AVyZt7AZvtaesk^4MFFvwBiXH5_(Z+Jr$vOL`FV_0~Xm1G#pSZVaf2Pqcwoi
zgQmY8R2s>85Jm|n)Gd`uP-4^p@!yRZ4{K;0SYK$HK01W(;NmG-F@V1d4<QQhQC{OW
zRB(paH#*GnxJ1}x1IYyV8L&1uoOi2@DC|(~V>6%@!$U_Ohc=np6IL=X#l&ooi<t#E
zXW(wE5P^Qi^Sx1I^j36Tm0l^XAI?iy#{~2e2Qc^rQ>5#34NvhA;1tv@YyC0Ml9ARZ
zGv$HV;|NYq)uE4-aQ+}IdH1CyC3W$MF@li^YXL~u1O7qiM9M9}TwnJ#(5{vZu>f)q
z$p0lnaD2DNWr#dF)e=M+<S+-PKn4vxF_OkV7si}1dFezGhlh4r2ACDn%7%R}3^pk*
z5SwVW)vLK6FUsW7T?3HWq60WnKtn3-HGToCl!leHG!xd9Vmdr)V5w6wGpR&FUm5y}
z!5m`IIljlEISvyAJ;1;j#^ck6!b0hh%zAV2eFHoK)FkfnfVScnjDUvVc_M*WD?lR9
zgMdn*8?b>xwgJO!;34X~Bhj$+yA6e&RWKP<ghupFfsg}fF2ICQR5w>V0qCKZ$twF4
z^d~R4km^h(w98;Mhw6!8{aTS;DXQD&I+jO<#x*8`t*(Q4(v&X@bnj`&{4r}n7Q(Yp
zY>5~2f2#kmcN8J3J@$$HI48sfOwCS>coO<#6xIbJ6ArjfE-xf8f(b}}!TI%MAk`F@
z-3ovMKpnw60J?Dr<(?XlwjeWuoz5W&b@Z9ctMc+qIMUUpVWu6{F~`kZqzWUnUfqXv
zV^yiLrT73*m!HqbW!&NInrL?L4NiLI+iOwSA^wmkiWq>28Z1C#r$u?fTmanA-g+ET
zwrFImi-fBk&Aa+${Pd6rfZtL1pfyLMMTvq-3)4eEkR`U)JO{QbA1ItvLz7>FWF8p>
zi88kG2|$ALqirQT9r`hxuu{0Hk{eNk%BD~=h>IqWmy+owejVZfR1ag_G_us$K%IcF
zq0XOa7%+_BG6~`zQ(zwf)FV=hLZiU}JOjAV4gIjCB6<J`D^<u~e%GU-!!iW_;v}`O
z<q9t)2dkxULt6Jc04zaUk(4rZAHW+stVk^o;y|(Biv1YKER~<Y+bC5dZRQ9j%1!yU
zroIQl+NT*i7uG$YTUGjm*kjT+-(~RAjUq+hZ?Zrm5NX-nK@hy1$X&p4K>thD<q|JT
zHbAOsxz<b$7%tG?li-7y^<#@O<1ESwTz`P9r*IX$f(PurPzd4?Jgg#^5FA0%<9Fcx
zdZ`VIl56G3HD?_O=R@t({?o65>qqu}RtEcVNcR0H@|yT{(0};pmsu|_2tw<20#XQq
zhwG+G)b&Af0Fsz5Bk6e8lWm(qkr|VA^EFrQox{{U>|cN@`NEEXfdAHjb8+kxNp~Ak
zN4-r@k_wu%>O8xp<f$pE?M76?rjZt1X9}C|y(l$V$g69&_ccH@_3YU*d2%s~RLC0{
z8Xb)bBGv6DTEQg-td1hhaydk1@qLGn=<RM!39N#MlNIFT3;+V(zqV!(g0HLm5pW_4
zNg+Qtt00>*I4}AZZRYela1p`@DISgSu(ySYi`r*rhTAfUs7VNPVV+2U9>D-0EkUq-
zb`9X`n3nbEEC&*nIZg=tnN@U&KQC%uvwYcbbIlkB;fLWJ2zkfx{|ad3&d!LXg&>;k
z00^HLQXd4LMh)}|#9ItiU0op?g^QACRn%c3&3a(rjMHhX$k-A03ziPlXqaNid2vR-
z%_8Nla9kP2c&FZuA<z*Mhg%#~Z{UZ=&gLc-j_p_$$)@}Y7#%EFs4=R01_5M3n7MLO
zz|)R?e@gRa5s^iK42S~sYQkXa&As|Dx~mTT<iz6fdvF*6@@wg^Wq`<H>M`dLd4S)i
zvY>TQmw8iRL-X0QQK*a@P6ZwZGVsp*@ckK|K*w)Wu`Eb}U!nj-WOFXP4)TNux=sH>
z^1J&*%Vp+4ED~O@4gN&+J|Cq9&h0in`$s*Y7=?I+q2@n+gK#0n30y$H2P}bpy}^)l
z2|gIyAu@0|u<gOYjFmBD7D8|Mw8S5Zqo9jJtPKk^bEQYD9mRLqUf=bVM1XrJw!0OI
zNx;8QCXuTh%KG-7aC(~O0B#-zQhkn6OOQ&$ghM?TVz@$lik^dVpZt~0a=Akg>M=Z2
zfJ4i#R@B1j1m`qBwUU0ve9^oJ|BVrfP%=-{LAdutp?Cx81DIY+mtRougoyQ$%Eps%
z60W=@?rsB4+@b>^WRVLTzsui&<QaT13&rsd8|2W&q`n^<biacQG=SL+)i2z!s7go=
z%ZuRK?tu6LysZ?LMG&GCS;d`2V-h}0LpvAx>U3#fAmVnP3t}F4g*x%)67aFI%C_)A
zk-R-S%}rot+&166-2$^Id|Q=usB?R9031smH@5|?3~1uQWGvDC98Ns1ngG!R?o#Lk
zV9EWP2q8P%H=(s|bmBp!_+ik`P_HA|9%x*uZVIEc0`aRQMV8QlL-EU6Kq3np5q790
zGXSOD02}b$2^mls94a;0eJfJ&OTO-7H$u=U1LHd%ngwp(X=~{EeV%NvUyUAYCP&~q
zjdb6I)FC#g<VRWYd!N@^{eJcM)&95NMSI0JditW|;O6c*`$72hsibIu)f+!7!t3ny
zU|KAL3=N`^A{ECu^q0;-<D<Mfd`2Cox>1BD;D2+Cc6ayN-KJ4HcmIMeX1~^Asj?D7
zrVwy0Yd15L#N)63V(w!)FIxU}oY&rm@3Vw2$vDs_bn~RV?wc?$$T5gL%9R_iiyeot
zPJITkAKS>T`+0VU<6J65$=Xd1I{)11F4bh5f3f+-*6ZX=rhts`%iY5|3nKfd_6tB~
zhx*oC!!XIcC#~jdPLi&;3*pLjnctm9(2F?C#Kro*_WVYJdCh5S^ULwp&g^E^OidnR
z-vgbWJ0CZGboe9<Cg2q~Mou@BnnmEYJO_UAiFOWZ&b5;qVb+!J8@5k4vFh+x4@tF~
z?Gzl7?B6c_j_bR7@GkF`koQ`Du)zJj=_>;+RL8BYr_$1LTXWxf=BjVGG}P|LK_*k`
zk*s+)nv_(~C5^uLgCR7hmHmM@!og?;IYQGGf#mkqcK!16Cg=rz{65eB{x*#p1;#AS
zSNmlO5-}25w!7Z_Iv3dN_-UYpfOhHO;?bXaF9vhn`^J5jPyC*of6Vc3Q-6K*nd909
zhpJUf=Se69Z_&b}VV##UiJzdk0!F<T3SD#oIRynexqXqCO4_?I1RB2e<;mDhjwdu?
zPvg|p-uWK)iRQky-EW>V^~?YH&fbTCVMjAFmL}Sw&+QDvg}Kl5DRxawOkB_0a9)WD
zcrQ!}%SpeYAAi**tQRq3yZ*j$0G}&NQ@XY2Rz5vT$e|t=4>gk~iIV40g_K+u3s*&!
z!h?eO>d|smlPi>E*;h4(ZON6?Wvk5c$2S$i+@cA{2k&ZTR@!~)QHV&OueYb{+P>YZ
zdF_!}!h|$`G5*i}CGO4u<5=|_>PRmOi-G6*Dy<PjW1-yoC5X6Ko`IT9KfFnPHf5!L
z5v{~T46&hTeSX>3X$ib{DqKbvn|b`>9-Eq~^iw!Y^ro;nL}I>;$-dV}j!w!^j7Er$
z!`)+;>+JZ#q)|2EBsUKan}@uQ#k1}4i?kKnz(YY(>kI<=EF~8X&djOxH0~*RlMX|z
zQL8s!Cb?fuqt01Wxk%sqI)95+qzutB*fr)F8C=XlV5w$fa~1&#f^_q&Yq!+xCMC#{
z+eAGo#BA%+)CO?}Judy(jqUQ!;=U<g=}UOItMW2Y*U8mw<jq~`o2>EJ#=lO+EpD`P
z)MQzoy1z+8z38Uz@@Y()?D1EPEvri;9;gq)+-P8Zk*sk$q%)4{1vaS^?KOcUW__O0
zgsl#DTV~%i+sJr{F7JADA|Y-&i}k^auk)H&F_e^&TUulB40*=4dH?LA23tQDu=FN6
zfB|a-PodgMrIhnNkT2Bf9~{J$Sf##Y^rr`l5jkBw$`(Cj3+1%)WEm}Fs9b&N?bw)F
zk9uNQSQv`=X;jA_@cgfB%YGMRoz<Lixau(vA?yVeP_VeVy8fy~G=jtS3985*AP^+B
z=g*J9CWorRM0R?FoZtBXn4PjksGXQ|v$CjBx?Sesq{A+B%cDNxX3v}{lrEqhL%WAF
zd2rxzNsB7<Sv~&!;$p8KFwLL{s6&{i6>_X#DWU}mac)0X<wOnM{teSLm{KP#0A-n+
zoQ&+0dqKU7h96Nx_uvEk9c=w`eT0pk!IrWXy15&4O>kK^PpX5uZ!${K4!awikYf|j
zX9d?H4xm?ZA?y~cVSbaJn3xErjov9}XrNv7_Vo>YqoAOGKLUl`K=bq#W{{glkHg~b
zV)IuJ;vZgrx-PY75l?+(D~<9%=*J1%dvI)1AmSe_u*{StBFwQfRKie-w7K${dx!XE
zlA@ylE4jWNL8y$u^j5?Yy?ds^eUp$Mzp-xNeW~U}(51eEVq1E~7L}>t<shBepC9>K
zpFol*Cnx9g@C;4ucB#U+agA9Q11V{0YHBavE0<N&Co`>s`q=6&;Hr{;dM9)332kap
zY6tE7w8OCAhnDeBrKYKbLkjmVT<woXG2P<7+Bbh_p=x@Rr(z0Wls~>)0Hji=<EG>1
zN6{ui!(#_tTFPM=n&VK6kuq)3;h)2kuRPzHw(30IH>C+Tcdo@Jm<{Ht5VKE3%|KL)
zy=@Hej~yzXTw0Vmnd2ugSO2apt6g(zxx?y)g}l7___O!!n>^;2&igD=mOBSDz1zz&
zIpNfoC0=f3RGFwk@gARs&=WDEh%{qFvc-O<UOU-IPf+>%D^JQgrQZq<Jwk*Um3aap
z5mN<DTlCAF8hp$?S!#6?ZDF!0dFkLfplKQ`cbNtJZZC8Glp90FzF2sb6@yqlGyo;(
zm6xVH?pl!-HbFb97uH?Xq>NS)tx$)RaL0KuZ>yOK6T>u;ek~reHa*n9Ci^EC_y+9~
z7+9GIzbsWRZ-!`GY%Wii<N|i#dh#2>Bk(08m)<_Bt}v4e6HmILZ-pVIXr``S%7xG-
zpiU0^R;T^qPIhakY6Z@?`Ny5vGjVZT!z+KRNWKK~wr+K!Ts4^P@ZsQJXE}EGC^bEs
zPQqPuqhn-C>GG6cs4kp8Ue-zVqJVT#ag>bnOS5C<<I}pQWz_euV?7U4^JU*RX=Rbb
z=1FV5w0)4)*ImGrUys+nvm{9;hS3s@;t`D2Q}<&tF65yl=?@$gVZm@V&dhq(*~*Is
z5xqG##iEBF_*7}e3q(JLm=cQwZ5KWIh+h{wuFQJXRU|pGvXzkFjEAcN{cD!K&c@pu
z+R*HZ6<%@<5fp<1qQ1jMdAq^1_aWmnsN#Ezx9uK1>r-Vxxl4A@FZpd9eJNBI!LTDN
zqj1B#^=4i?4jEf(LgL&CC6ATJ&>N4)1-h#v59;*vMqEVnDX0ex6%$bi@OUk579y5L
zD<(N2bu6|fOpZ}GxF0>j7$av%Sba37MH}Ez!2Md$Clak0=kAR81deEju%&WMsr4hL
zs?SitYm|E#^wQg)U&?vc)!DrDXjdihpDn&2&f0r@;Ki8rVD#W5<Mc%SJ*^6%vau28
zuD9I}=tCLplGXb1wVys9W!554%@5d4J7Bmjfu+4LRiMC;X#F^J_=UqpCW>K(Epc&_
zc})4huk-UKc~81hvrrk5mE7D!aK1udmUjCY45E{gmVPqy6jkT|oJxLmZ>FZc1B8GY
z{N4>*$LopK&k0c<Dd->2Js6chRk4)jOG{1`0t-6ybr%=@E+<gX_sc_56GL2pP3j2V
z8S^<1y+DIGNyx|l45tdqT&H^KE_%!f5$N3^@#H<2qy1rs7$7icKWR{fgmKdAO?q?D
z>0Bj(F8xuu(U-w*W&a0csE=J-nA9oWqGq55*Ox}!j5e+#iyS*u*<UBIJR+{Ds^U9}
z`i4P9i&7UTc=X0<YobDzH7z{cbw(c*5Sgf-2uL;}<X{qg1nC(^L-gcH+LX3KpzTnX
zHs{F-I9O5O<>eiMktLt-2?@)tcx1uumq3g6qsfCFd&R<=;?LJ{1X{ONP~l64;P<j%
z7)!fBCX|Eo=!h3n0x}WUd1~)9mI1H~L(=D9&={Hx9g2&o>2gfA=&g<)H!scpIB2w`
zr+Iyv1&j2~2WOgoP;Ze^$4jhBfX~G2f?D)mpq$=q`-vZvkhDN4Z~08UpSHs6!BJ|C
zF#~B4^FHS{*7T|)95e*=S*h9)9xl(2pgNbu&2?X+Z=o1G3%7{68*S93Q%8}9VhD<x
zs|-R~k^-T^HqG{{8$rXvHfZLF6+F9xoBEja4yg$_=8oF*Y7G=CYOi!-!n2n0u2avk
z+{ZLn>7JUxbsfxlK;>P4=Mb9mV3~+9Bc;ID=u4Gp^~eZMlp!X;NW|+c$n^T^<Ww^K
zQvPbV7GVNvnODAir3(i?8vbtdtdvORO`{_5=i-lbBEf9H-RoC!%5=}7&|{8}oNXRU
zG&OZZHE|3YU815sdhbZwXU|l2G3ru+lt|>Mt|q*i$GIoHaBH3m;i@pdLg`s;@?3E<
zl@!|~l)WNe7fmy~){dA_(eg+$qsv+o#Y}kQ$k8_j5vh+7wL&v@vqM1;pI$yL@`#S2
zw7y{^WI8sESBUs~|6@axXR8-b`1vQs&rGaeoPEl{$5S}3P-sLaO}OrBKp0yG^$_k*
z0zYm<6GkP<b>E+<=IPOv@h*9F7=%%4btG#M4?Xt<KELRe=RQ7-YniXzlrSZ1Unfp0
z7c$I>w>9U_B6zrsZR~sUu7}PkDxXF<I_2AzmVr(}NEseilSQ9aQM7~6$5P_p7lEdB
zrAj!zHOghOHF}-1tR6ihXp151$_k4+K=?;+_^V9euC1v%el-!sMHi38cCiEiuO;z5
zhn7x3hXy-05qgbb%DA_Mh?%f}1a3y8kUgb_^5%`Ck*uo)9}ATt#Mrs0JRf^ys%FQ?
zA9(DfX**VoFp)+Pvo5cgIWcQwyP}i+;NnnK%4tnGW!6zxsy4>cdG=gmX7c8AS$0#{
zY=xAA!K2N0@43R>FnO*p_R)MzywX?)`33$g5Bnlfot?KinM2VxvcvofZsaDt+R96$
zo-k?_F(k{<@m~ITpFhyUZk7j+Q@#Y@q8yHivHL9@AD!ce^VhlT7k4%HpG$b_fNucP
zh~KQHh;<O}$ssjjY^vVPIuNMuaI8)%zw_gJhAm#s7MTKi+82GKAsPmC&9@tbIm>fH
zikmBq&Vr~Ae1E9T?xSZA6HTH7S65fBnkH^#XJ=3B!&xJ5*<g5pcvj!ik`EaI>YUkL
zASLa=cXj1BJ3-2=9w~qj?Gz@F$-z`k!w5>%B!=I$LBHef2h;p_yxkah^Cr$V2Sv!`
z=?c9b!|B_(IdL|&&%lKdFT$oB!d|Taz5wk$@g(S<!9%Nr+Wqbw;rICXcs56TJiM@m
ze)b6vaG=k|znZy^Dg#k&Oy9suyrK_wwCHQ?hMm4wchSF{o}Vk->3;w)@#RU-A1cDA
zsukfw>PjR^h>02N-T}0hG#G6{XzA$UD&;@I@l4RzqlvHpY`R<SlpypsMr{)XDuPkM
zr2raoA!ZM49+N^pyp&7IUjSg8?9Adl*}nM+k8SvKukJ3yarjESgtqz=-S~iij1S=r
z#EDK(EBY^>)5JT_jbJjK`=$%w{l0Mt2!gPEsh?1jorI6Y09sO0J-sRTzGlALr7(mn
znrz>03v^CRael$?TfwL0ntuRgBhdL6h~mvW#%J6Si>De(Xz}Bjf@X<whs>ff92~0q
zWYv3|so)pT#~N4K#YZmzPs$@1gdn3Rhv!On@5!>L>e7hDdriTVD(m*PypzM8Rbpur
z`$vy%hE-tQpRdpjI}qxmxR<fRemfmg#u?CFAeE#J2am1;hp@_uA1;saIgM?OTq0p?
zssgpar7-p)b?NCiuF60(NgD#6+TP^W3-;B$DfZFv+UWjR6Gri{PY4`1JNdJ@DmsFK
zn7L*Dq&7}rbR#a3*+0GF<kvXDK0|ars0qeOb6XAd_)ai~5x9ab+UR7viTaw|wzT#Q
z%E9)uO2E0zG{(JVQxsAUl<w_q(hrE-Uis1nNVxa2Lx~1!(W#j132*qAajpd=RZr@#
zI8Ao-_dgN%FSk*$_Lu|=Is@-3jXKV2<PTTA$Jq4qlcNl#;;Wz!b`|NyEQv9r4@Y#D
zoSS1_Zhk7hQR-gUL?jYI=}pHeRABcysB3YAXTC=vJJ%#5m4zb1csjndL>W(M3a_x}
z6E=@IYr+p2Db!VjIsM*N7SVgu$4*#&TNq!3o=~rd;ucWg9-!P*;=L&7N(-)GChO?O
z-jP;3;2a_2@sGR>79EVm5UySXg7R_yuxGHgiAvC+CC)qaU}oN4Iz|9G2TRm_ppHwS
z4Q`#A^9c`UMv#3lh@9?El79Yt>bXjL;Avg1kAmUl`KP2Ua(ptG_IAqS-Rxp4^OwX=
zs4=8t_=Px6!~ZB)BMjrQZ*qti2>K7XpreyRW!%?KqJ-F6?%>Y*c|}qW)qFDX&b3>@
z*@~>KUMuq3PaksN@!=xAzBr`O!?3Q8LzCWGXt17p`A~13m^JH0g;m)dDO(-aT|<%*
zo^A@dZ@WmI5*vHot^`;4d0X3OCE4QHv20v(<KmP^3OYdZ$y5hKr9H{z(=9Agr(Fp3
zF_Q<Q!YM7ZB1%d`=yI-;Pv4+r1T!4Eb%<7>B(4=z0iK&<X}GfAr9Vu6p;;KxLSLU`
zoELU9Y8tYX%0jJE)J^;f@&YzeYP?_?L>UPs?{%$nrw3_Y=f@u?n4=VW(UQ-RFiSYh
zR{D#_T97JUz-X1&f&qSe`;FVp-$xOAqxvzeZB!h{+!~kwbW`>t6k#If!4^Q!0%pnf
zo4s~pi*P3%<VDaC0-YVHrDi((ZgVUf?PhChE26twlv~#4`p-{3n^#Ennfk}alV&aw
zt}Qd=1Acwa!J)Dqv*BVdf@yekG|WIjTjwQkdrS#HN4TQu$FzI|HYC%0>wV*<a2`I4
zy&W6l6A&Q8#Po~CipHZx`p1DPlz#<L4I#H-@*@ukhIO_q#dUsu0=|-fQ-Ye8b#*|W
zEdmjX{qnA<PlS06h&X{8PGpoL{7BNWB_8n01Inxd?1c|a_GCuy7ZzX+DJP@<K}c!o
z22`1#<WGFbC0H{J;P|zt@;TsE7iX4&EV!wAtXH3@iqXCWpTt(4O^>s$ho>iWv6Lt1
zYcdgvAt$urPFw=XHhR&<iL(wrfwx+o2Ai3Z9SZJ%6w?_TUjRlbzsNL0W|j?iUjS8R
z&p4)J(eYMc%~`4^-@?KI@L!a3;qXaU7nkmFLyhwz!lMQ#=k6EWd1?L~D8JV(tBRez
z6WhSM(=Z8<29~`F`g8sXpE!)rSj1hp5*U_U0n@g$^mJ=SN8Wdc_1kl}gHNSqlnMIs
zMGG9~!a=7C2@40{bZ<g-yLaMyqlg}YF>q>HW--=nJ^gOk<vQa><0iz*L;ik3dn*j|
zcc?1(#5fmm*C5bh?b|ngM&HV2gWI%69T7Oau^vDTfJq9v_v!rcZvH9#DIMJ57u!BJ
z!>dxriDSd))l3zrzW?m#(5NFO4SP*^MeoV`&Ch8{+I3_!m98>4RHJH%D2gAgq?+{0
zHLjCU-cc05OOB=|XDPk95~9*e96W3{Y*wf|fvU_L#4f|$S4P4`{slc}IO#FEz<q=k
zsn&M_3Z)xWT=E8L(H=f^68gBxg_us=i(woU+JU#)Z$)sT2|XRl<IP*g#ZSB09okbe
zIhv{2lDZ}^gkt;XlfeBX?Op=c$t&B^l{<(pehADlA$q|=I*KpjcTw?!*>_P2LS^i3
z;wEPD+!qSw(uplApf!5!--d49U9Vrp#UPV9NUDL7u_EPqRirO!k@)A<WSa!B%M}?Z
zL1qOhJgn<0rXqpG0(F*skr!p!rH=P#=8ldUR?N5cZchp-qc0V;aU-Vr5{hwRV|cwW
z5K31HNNx_E@f+KqW}Kq5th-QA+3%j>dXxxK$G=8L^ko=*99Wo})6=m)#XUV$;}k9A
zjx--8rN~mg>J-9L*!%`Xh>`|HXqjV(nSKyYGX}kS&)4P<4VNKokNTdI{k*{FY_oi>
z!Ys-`l5Oz7&vAokGu0j}uahE70+H$}Hw(8_Ei<!i+%p<c@~qqx-FMz33(5ShYK;<P
z&)D#vUK?jgt_a#U<zDYKsjELD3FhZ>W16*kGxPYX4fb;J)twbA@&W~>+yKBS-i|d0
zC%k`aD2ma2_kxj*_x@*Sxl9s#wHTXv<;7-p5Y&$zIM_YDyC}LH-G}?J?OyK10M)jH
z&eDh`Q@{`HNNOgI^WF&3#D+?tkt4P1<)!H)3{7J*#Tb~G?3SDFdf`m6jjxN|Qt>$o
zc|l_~*7KO_Q-v<alNLP$BxP0VvR>JUaW7*QO_a361+OhTbgXH1Y-7}p1+-{5+s?03
zPHFP8$t9v9EYFX7|6FkX?vG(Hx$(Jf&7uHdZW-L$uKN$mJNvB}u}4q@=3W+c_Bf0?
z81}@WLQ3FgW1>;ZN(%sjJemIt<TJ$i!{yJlYP4iKAAS&b#VGSG#N(FmQ&50%kga%b
zZmx-Md7YMo#G)#MZ&tx@e^os?a|5RUGRwD+$|<d^I_OQ)(#YpdXJ%$Vr%WblF7$b@
zWi4_lmtHU7_Y88XNn4xbhu^<{laZ1J%P2;d0a5G?{@&vGO}oeYNu|wj#>rbAA0MwU
z4)Ke;g9IIjdSO6tkQcs!f(QI@F?J<~VEIO@HsNyvTQ%`i?F;WqIKfBWzUAlP*#S7s
ziJ2qDC+!{-hQi|+pe49$cyT2BMB)wcB*{?JqmlvNUaecVqB^s+{o}spJibfm@c1*n
z3+ghl;7+0FGVt+N9_!%0&DLnb$y031n!9}xYR&NxtfgCoWG+m*Fa--ssIRjL?YYP~
zus8jpJ5BAp3(SKsy^)=RqX8pn^&&Z$ScYB1U(C+d_Kkr`6ezuZWTQl6WbZ3JgyS0C
zU=H`#_w=AJA%TESH+WLgYmdI;ZC5w{FFMn3EiWgFqs_NDZ;s6DY`p@19RaG?^yi0M
zS(>Afo2g#{`F^1J3Md6YN0#sy__e6|7{*8jxoK`ZJWa5g_@RF$q837YutwC({n!2;
z{t#}=Va?<IEnAvghL+2=^to0*0OJ6MUXPoHmwf7N`{&}-)u(+?rG65_S9v?Do+cQ#
zXtZGbI;RSITlfC*cf{u<JgUmj&=NeI=5{RW6tO4YQ{#JYKKx*#kjgf_f{w#0m7J5h
z_%5d$eF${v<X$9<l0`Oxh@_tsuUVpGy>&Y6^#hAlY4W6PLx>w~HCyUZ3#JLHusu*n
z>wbM6#+5)RBPGh~MgQ)d73KfY&@ZpfBTxG7%&QiU_wH_P+z26`29LJKPEOoS!>?C}
zsqehFgV~Dxl#n48uf?3>847<vLoj0d?6w5TOd%C<y;2k(7S`;+YTGV`sQiGp@d>ZI
zLg_duneD~S%rLd2p6?d9KtkL!g8%5Ipbn#9bmpUvQ&mRn3ViEZpV=k@!!T(+yrh_*
zx*q)U<;$sxlta2_m!!Rh@;AhyIo~8a3G@vPN8#^?8n?IjqQzbk@{%WAOiLm^#7a=r
zVTuid^4l_h_874hQ#5Kg!YH0x0!1>+rGWgcC9Cfg)64a1*Kavqdt`@Lfti*SOaitT
zmiFNZ_}2yoRehDSqi&FN%#>=1m+4|<hH7=+cBl+DHK$&Vi%n&6>5n$ic|sl5bcnBm
z9<xd#Z;(ragro8~IW(xA{8-)6eXOXMU2KK2)1#S%5EFSSME9*Yt6QaduSs+SVH3H`
zTGan|e$6&b+N)$5lI3kl-Nwq$uu3?sgjLM~(%%&n6ZL2b2@zMIZ<Evj=zBn&rG21-
zh24MVozBdv%+K#0GCo;cn(rk3kjML|0xHoY1j9F_)285W6|oR*gdSgB{?vI@52bsi
zoTF~UQ<lsLou?JsMs%Ip+J^n5@x2WpQx*nla!XZ{qjz08EURxQtCViZzG|Zo>EgKA
zfA=0bv&4wYd_@Y%r{3d6Ti!#-uxJ%(fizp(X>JaoGUD^!=hnP;E3;yhNkpGw%Xw4~
zSLR>UoUF6J92z0^ziex&HKeKNUUS*j!_keE`|+Iz+u1IoqT4S&AVYv5H7d0gZ$b4|
z5yqFOd<!Rc_wBW_x;j$Kroi7?xvCv)?UdLaoJ=$%u2!D6t1m<lqu-lQKe&)@5<jbX
z5+9Ghz$z_md@<_znw{bf7r7Ia7j-D_nz8OffaDO!5!_aejybux^kii2e=Y+m<gW`x
zbt*Sj33N$lCU0D$QYCZJ)YJ@P?n#=M(9wxiV+u4Zr@6O<En>lXU3DRPItkm4ga~*D
zCr;}A$8En5>u6UK_O8tCtR(+3UjRL(o&K(x<At@=g9mKJTWMvd#4pH<$Zp;JV*Hfi
z<jY}*CkqS9-g0N$OQ+%S@%c9|v7JaRntqJdJX7Hf$c@t}*Wb=)Wfa1vn!Nf!rTmEN
z^_n1VNlD2HJqO{C21XeXKKG+F3W6`6KNpDl#RR=iBs=<8pXuF7HG41%CSE(8+{)P(
zZzklcY410Ty~cks$?Zj*W#dW`7Kes${qEMgi?6ekR@JlF#rs#HiYq6s-!HG+Qo-go
zAB9i`y<7S3u1Gdq<audv&o>!#92@l%D7Z>{7Km5JVBl6$E6<Rfh!=Nlk^FSIdO2Au
zS~k9xTI#C~Tt!#g^|$*%RsJO}OLjl^)YL?{M6V8HM=ClF4_i+RC0>azz{KI{^t`L)
z+wPGV!RLN{j9MousxK9x@={~(#jNf%a@?C}P9@LQnyBr?Trh5>{zQ#>@Z;S(jN@Y-
zCdy<)(^ei|_7QFJ!mE~K=YisC2HCVdgWRi{>TX)EN7r=qP!SdH=SSmwj8xr#RPzX9
z!B@xd0Kbm+BnyN+^6c{SRW0Fig*trR`#hJ0FSkOI$kP<_^5#tpyU;I8=u3(WL_B?C
zyQrxIv}s}XcF~!3H;PkgA|w73lAGh_C%@hNtR@hOBO?=clzC2zdnY_X-33o^f~rqh
zdJUhB?#h)P^+vg6VKm*O7wSn|@plXcMLp0Z1x>4Z>(f08XY;-i;-@_e!-$_`G8isI
zYu1g&M4^B#nmjsj&S^O}X%(M^4fBd{)$uWDUhI>m6@pI2>lK5g=#fTVf_n|tJQa~W
z8XBobT3UQc*VNE#`kZGbWkmV#Dn2xnBF5zd4EpjBM8wgk2c$j4I%#P6@zRL+%8%{p
zRGl|e9S%6d0*|ZEh5XIs&$<!9l&4rPwi7)~OiFGrica)Xph2q6XBNXW7sX-iobLmo
zML3-8!Lc-s;+A|$eL}7a7B>pwq*QB)InG6{X5Fac+Uw;UV|9Ap_GD7fhKZWQh2-ra
zX^*_W$e#OVpz{^0azDasx1SCWEGKN!koQ_gf=xLL%~dwGC)Xncr;b-NR1K3ho7GZv
zf|hWp@rEy@RF!5WDgrG;SsMQqm#T6a8>ePPyszyzrBc?4FhWbZb#1D2t%#AKFVeTa
z@^aM^UrddU;iHyBq2x{T-8)suPf-=#3-i9n&B_&14>?)-SbAX2`Z#N-fFmV4i|aS-
ztt|!#CK<k`%qwWmEFQ!V9Jcc9vQ*Z~aH&Zh#xcXKmeuae*r?^pmW7RD8Lu8vAI_Vh
zxY8tN9gDh8vI%vie3y63*?^(BpcM(Rj$%nY$;lLI^gE{k=Zd#op8|RBm&+fC%>8Rw
zYuP^M0r&XAxJ3ZbA@3!Zz{Ild+i<}go?`94%0ASeY{cs^jz!sP<VcRN6x1IHXo!|4
zm8KQv5~uzBBB|Z&V?gyU=jL`#o$Y&me`b}r_-4+n6Q?vw-%)+|`H<FUT&I7ptMx=9
ze8&5y!^1qOvNU7$v#(~nV`Dso3~2(vFDisYl(&v0-ddlr{@sz)LJ7fS4Kk$DoK$pl
z+mDuI1KjxdN`82ganjxus*-fdGH~w>&K0(LX7Hp|H8E|uZmPxkU4^dR+tt2O{a5RQ
z8;AUzhDI8<{7XY6yhf0WKDSe$j?cyE^_`QwJSA;hV-BrT)7#>)WCKM{x8f*)-lmcH
z<yU<g%YR`__3?K_n~d*+#(_m6UpazTKe81aA<>VwR&YTrXP0Z2!qb9KdX1O7n@;SV
z>LJ3|8(((jzDYIeH=B29rh6<;6@{M`U8&DJSdJ!1jhjGW*Y+!45%3S~+`VeidxC48
z*5-3_{26I?biyxJ1>T*n@gsfr{kLW{MaW*{3mM{LDai{q@l_TwR4SSgKP|N;<U-Ym
z$w{EWE9{^)%d^xAsG<y0aV)yG^FxsCCnm1U`(Bp={@1;l7kDA^%F3bGM6@?7mQ=is
zM0CA^_>6@J1VVfItp>53N%)<p&_)Er6iM>8Rm2nnO!y5*Q@TyXqQ7h@T@g-fQnJP;
zxl10GMZP||w_r)mlNGkwA2x9h-_`8CfxgRgZyM5eVMC|MDB`Os=Y}_OSiBc9pDOws
zQ|t?n5-KwWgkzI|9xUnI)UDEcjcMIH=%Xa~gI||r=m^7!gc-H_x%Ayv6)B?QG&D2R
zx~K}!5~yh-e93=PVnztK(4v(2xz3+F(LB8|rty;O33&i^Oy@%AvtN^M63|N|NccI*
zbYfa5ZW5D3Oh?lkQxNg2HwJptsVseG@}+7yYTTG$-qr~B{aHd6R_MC3e(SotHc7G_
zyLhaGS)IIFXkK1}`=(PgZNB{e|CT#*Nr|wqFu*Yv;AA%Q`_>Gw2?Xk8Est}@@ikn;
zC|A$**4x-Dc3li)x$*Kp{^~GaJ-xFW#TLg0@a6B9s0cqF3Vu^Qc2Bpn$0K_mBhqT_
zH-7t;o++rADW5a<Toof3p#zN^r}hY1>0H(Dwdx<A$cc!yA8SAn`*7KWn3`)c+Wt!4
z+Dbuapp4Ay6{!cS7C;(LO9g#t2zcd@CmBS=ulI1t5b?dVG(AtoahLs&Rq^ZGJv>S-
zE348UO=a4*Ya1*hJlrqmsxi!h^7i&jKd&<1=R5e^;ASm*h(<>iC@ee`mjcK8Ki<$x
z39$kO%+p`L7$jWGA#54ck0c}{5fO4eV+DK-L*H#vy5*~zn~$64<4IbkzAyVhL{jrL
zXWDBlqxr^_JOsbqsuXf@qTSR^AFVYYB`b{^wjI;qGZW|xKIuVQ$DMt#^!mQ<=V;$W
zF_=}vP~&qt(b^kyZ*8sQgibq~<>Lx1NuhAHxxoQvRfA(@Q`{4M1rLws_IYyd!()8o
z?=os?BkgHght#y~pEqGs-zIChuJx?Suvw#>xU>BRHw0%iOz3Qv*}-wJF_pwXljCHx
z5JBT$Th7*TE02fe<@EGMx%{YJbvQHSwc9*F$r}5cX)2WWE{9T+3z}Qz0mmGSHnu-I
z|J0n3VFdig^Sp*3OBVPshripBC8)MD>UA8bKCe2?R&#Y#QH^{+7=P3%-S>yCFrXsr
zczUXYE-9g_Mr&pV_aO2<gDl_OugmXw;|hu0G)g^+Tld<g)6e17HMI*TTJ7ds8Z=8l
ze-U$w<BDp`{GZDzog1a8&!*oAcq{Gd{jWEEqBd}A;MDQngOm*-ZXch;haZ~wji_1o
z)-}G)8Qr~GJxtbRoid;U&pj2s#xtg;BHHb1x=VdqSxsuwZkxJJcLHsEA}&Nr`MOdK
zW=90k>fkqIiQ^kr(9moyzvYO9?>*8&V=wo|<dt2Dxa9lREB78e*ZTK%44k-+_u4*`
z&zqQb2s}9Z^_5q9^r_=0eQgcC#sRNDdj1Z}Xf5-9n+5j65Q}EIhIgyy2>G|^&bMmk
zzrHT+zn(UI?X(ol*Kl3;-<$GKXlH+Mi|tZ6;ET#}&v+wXLh{wzaG`;3F3^4~6k}C%
zE?jEKo7kbF3;q(;^U8EHOmq19@a-xUr>2@-+_CRE8>DvS<rnNM`8KKKcT{mFaJz-C
zOAX$?QlQAszWgZFH0V!iRn>RSB^3j`qE1((^;O-^UyU!eQjRRA-l*Tp7MC^keZ2Wx
zf6C92z_}$UhP(5z=97HEPU4?SZAIESxHq5ijSPAF8;{?Z*@?}$b`?ZeppO{*bUS52
z<w42dhgTBJtJ$^d11;@0PATudx}#^}bSf+U(7W}^?!E0RFEM8sc`-033JclKk0~s<
zUq$y=_ZJsy-pb|reweZxTgB+=i;vBvYT@Peb7OSSIow9xo=vzOcPZVh>N;)9`Ky9U
zedok1O3A6ZI&1Z#-M$z<FLtM#$L_l`E32IAgmmA4sY!(nKRH>)$mnTW+ULE!Krp5o
zE2r<VA1Hr--W%LHpjfA&qvP!iy~Bwc!6GJ>_6<Pf;~zibVq$;+x(Nue|EF9&#mc{O
z0ZQZ(&iJD^<M8eB_u{*}{NsnJKfgL&bDFSuK;6O$>jk+7ZsUbSymS_<Ysp+bZTD|;
z`2Fi5Ep22NH!-;Q%UgZL8(-%(YE80<NMsVPTwKI%j_J}%=xps6Nd&#-VN+(M&Qi_I
z{SF0YFz>aN-nTh;^jCg7e3;J6%%0@9BdPA|dj@qN?+cTlKbt=_X$-m?(j5*~Ow2yn
z?xAkUc-{2H+JAcWjAu5fX3~y_knxVRL`Anub$BR+`SE&Sj1CX)@g6_Dh_Wxy!yjL=
z8*RAvmieuzQ~}G~mT9NE_C?UJAiTm=_S^2#y@fXSjO^^A!MlS-QBUM>t>ARP$Mv-_
z)>6?;dnGvNa}eR#SK}eZGk4dwwZAs$UE8*=*Y9ZF`>I&S*J)pkx|lT^ecRvP|MCU%
zm+33dhhX{#VYeM9yCANG`NQ|`Zd~&{Jt4R{^}ttxan2lnqv0;VSz}{kU~OuLY^SEC
zrj-?Q7$u>$P#19TvI%y3P&2x@joR~@TGukt(|>1nk=9Em2oVK+H{SX|RT!kJOY$Nz
z#eU5=;igu8&LHJs`m#%5mp!YmMdsStT5oS}YAWgaKAaIr>|=Oqx%TXoQ6hQNcYQrc
z$TDmax=!`g<%2!@vA?~jrDc6ox)DYs;bLE0)URmUo_3oDpOTm2)z)3_b=od9yUlS~
z&sj6%R-z=OHJW<ml^CaK;pr*Kwb0^xTyN#jr=RE>lfWPGhUs$@(P)jCAdQ3&R%rFn
zYPY211{73pvx~!%_df~JUF9K~(YlpcworV-8jp%+{270!+?%Akh;AI5Qdif~UCX5r
zcS@(F4#_UFF8Va#%bHkpNX+dl2>O#dU7p{Dmmy5-1)3Vf?ZVT^;Swu*dus_w9-B$j
z>RWlKf!aa~KW|vL+&95}m&g0st@Ob!50%l3>?p$L#YJLdoIDu<w|h1XPWN7QsKgnx
zwQT^l5&Uo`taZLdecwgIfuHw9N2Mw*VwtYfr@$F+v^zgdA%uT3Dxvc!198@#48I4l
zv8w5oo0w;L;0?-!;NW10sDhErXJB~*tvDo#-8D2sx)<<aZqVoc{(g{oC(&Nr0l_y|
z3=CmL4=@t&!%R(2gI0bx5mL8y>5{NCH5(fm76QPCK=XaPtij;ph}myMR+D<6&QhB@
zCp-Iqi?sR_vPIR`&%f}zHzXt~`UCh8SIl06674b?!=WSCyEr&FZLaH>`2(f2<G0mz
zCnSNBDc+Kjl$6Z3*2`=b{SXnUtE-!mk}{*9^qS@IdgJ8_pmr_Ee>LJsHU6bu9(}Z&
z6&e#!$#LpmURW?Ze*5m7xQ;UAy+G9?xqj-PL-*c9<*RQbLvy<|H8cRate(K(>u=hS
z$V^U_ce(Q|Nu*+=!39iKAb=EM-HK=%e;{0Q!pFkFg!S{_;2`Igza+mpLSO68=!`zD
zJEhs=>#P+%Y;LI@dv7B5(>d>avwLgn&7Pi%z(=btX^hHU7B)9bJ(Dh<{cZ4uxG^mv
zGE&y3aBipLjhc$Gax&(sZEslmHxTv={(Pp}&vGjas2bn7!jug!Bt`riw|6qT6atV}
zxPwlF)8XuH_ZXH9dWJ4vG>wAh=JYWA`SZbpu-y-wc?{QG74I7v6&l=$r%rLSdg68R
zh+Qrk3nM)%+ge(hD%rIlGcRvyO5_@wvQdbI6Ia|`_wLJwjiANw_M^I?Y$tG^=kSpG
zwU0hp>e(5^r#9BS3b99bImNusJ)f7C17OJF89t4R$7|ku;6ku~`IdttBh-^hfE>+_
zN-!hXv$S+EEv=zW=sBviuMdSTqaWBL(6_zz_{;@Io(S^18{;Fw=acm{2>9s`<Lxun
z>1VyXtP(}^V)7mn*Ofxa*h#!+C^{$mg7jisRQSh-+(iuq8tq@uc74CZmwa0f^w-qj
zp_3MO{-TBPvh~#qS3-N*FU6d78h9{X<>*_Em34ZUTw`MbTCizB2UJhGDNUJCH*{Mb
zO%<32?k`Ikza*ci)w?I_Rg<bJgu<R9{uX`y;}UK}P`nZAzEafr$*6?Ro52iU?+Od&
z<g6h3{BO{~TKQ?=(+FaD49i(qu*Z{R=;7D8&7&M};N{z7T=Me?Hqm<*p2`2QNfV}e
zb>;O}H(pMs`!gLqDE#k5dTXassPFzxq_2b2B=k3KO)N<i+hSk&-+Y3M7J@5MVlaf~
z)&6TbkdB#}GHCvWod@|EL6DPD*9HPzuti{aNj``plN_TZTpK$A<?B$~OFk$??#dw|
z4Ipq&6vS2#o)%{nqk0m0PecXsncy#_u*vK#afn78xq@AnAADmFEdv^^zE41MBAGoX
zc3F6Ve)55B4kqLGz%PRTBgNzYh&l_ls=78>Z@NLHQvvDj4ngS#>24$i1f&~D>F(|Z
z=?3ZU2I-PU`b@s}T<7=$aI;x!&L_sW2f;6;JYS??FYu3#k1y~7Smfwmy@L`vGXSJ4
zb0uji;9aD6-NV>s!T?0cflpwVPFF2jUo-RqW_3E&1mH=a$tcrpO?Fgv^gkx@kQ4yM
zRsda7X%Q!H_n>5uu6xtP%EIzG?EQR5#`df%EoLjME?9lEKb#MNrsJ)EYpniG|L@^6
zz#Rt;LQ7NAz6ZF6Fz2VduBw>tEWj%X)Mmh_mR%wT{3$!TyHvD4q)9!Srp8d@);sut
zRTwOE8PzL0{vE#c#}^+QayMQTm|`JpY6FlW@R0={FQ<ShHZ@>%anTh3?{RQ&00HJD
z^Go+xPs`rER_oW76i$wp7Z!!de5rn>snNnq-Plg#%a;Qnm65QyyZQSJzLkvnC(JC?
z%b_pJ09ytY9DpI|m&n4!MJ4(M8;@^uH;IVOpCT=w3jCFGHQE!!jBf@0(*fJt+b7n5
z=mB8PHQv`hV=q6$V)bZ(W`sWYSE>~ElO&DHO5MiMk)r(*qfYU`JPQh*kv;RLd|Bno
zLn@z`uL5NsJpk;tGh>r#<m&K(&#^x+V*cw?zPs9-NC#>(;AmP-zTYc<PnzX86z|Sf
zLyw!_`|a?2u6zXH>s#j{{K6LF;1EWzlk{D9xVoelNn+HgE-kgMGC7=uMnC`$3+*_8
ztN+r6wIsGUY9UjZ)rPO%K{v*ro+%^82;;p}J3zqCjf?1yG=bU2b|O!u&oDAcLx4`4
z?6&T0?Ca;}*vlO_oR|fHQ^czWbh(T%^8ky>Ax68W%nv+3k9&7LqFaY-MQ3(jZw=>m
zjkUN)OC{5ff?ob`Zp&U<KWe$a8uNu*d?$h+PC7r3l6vgg+dDcl^Gz7E9t<?dPc1v4
z=ejJJ**FAOv>46`HIN*a>84e5Pb0erV0t@HyPg}vWgJcqByvc95D%37P}6|5<a2#E
z#}W2A@b9t)A_LeMBfw#^QM=tpskM0B=#UV0u73*6_3qqdUn-D~h*55P5=TSw&Pjz&
zwdQ>+p6UE|yp*FFj(o&=>Rz+GF-2BWk<sMb!P`H)>5dtSA{%(`#Q)||08&$a_wS$G
z7MvxWqfoMg0%qtj7#>T&0F)dd4i2XZ6`&SmM+60l1E)F>F|p)2sTs}#&<B7`(K=A1
zXUm>n09^T3`hQGb?eW_f?_OSTHi#*ikM(epyx^_BWLKEsPNX`BY4QMXEV$@ao4(PR
z|5gK~F6ZiP(D0k-_ef4(zb*jl7r^@g2?P*Z9fI0x-41}X|6zSJ&X3BQK+y`*D&l=D
zxeByf`<B3#4CdYd6Oq%Ln3Ri;IUasI4~OUC=BAufp}z<Yn)&&8eHuNGL-Yvp*rv^V
zxB<!x(F0hw(QA!gg0y+RZu;+q#%mZN5;)}w7Tr$i1yG05ivaf;KnZetzjld}tNM-f
zRT|b_!JqfbY$=k@scnFqutIbfSdvYe+S{Kqakpw0jkAiY#`^;M;{4j$GdKc>G=L8Q
zNgeq|HgqtJ@{Wd?PhvVaR=OeqA{5W-(Qlj{;r^%K-H%U5?f71gF0akJL1G<b9mvT9
zfV4wZMq0X?$NXe{eI2AEw2V1mi}{=6+UgyzJ(<b?jXqQRG^2(Hndx$b4HSs}pha;3
z``GjcX@rf9lam)bSdD@*<`TdK0-J*yj)0<16(2}}hdG;i^wjOx0ZfR^GT??A<GrkY
zD9<gP%-m(jr3PaIqRikeaICT<gj@0lbWrIuo9eYQezh_%fa8as4GdDN)*MYQvsx3B
zUWS(9WHF2ICGJ#w5o<ZlHGPY3Zq^h&+8Kdk&@@ixR*X&2LT^dqmyA$&O;Ef)L+3V<
z{BU_`FF{W$Wn>UF)yO81iV$2h6ZZ_?n+#<h{x*XueGyK?c0MvAUbWt(s`%TX3?6nO
zEE6uH3JG^6{JS8Gu{1VuB)KW3X@s-YraS|bzz&~>P^3bHGN``U*+v$YIJ^kfh=|*v
z_#$uJ%2$ADrvQe{FQw&bR@S72Iw$b$`M5bBM|;0o4B8?mdk+a5SO6p}xna?_?Ede6
zN5oOT76e9EKM$bct-^T}4<96C5#jwVSJQy9u0lKXm7qZmmm20`X?{z<Rpq*24aML4
z_dB|eAr<59<C!4r(*aM4{UZhQ)n@OTxMJwRR@XY%JL}2!Qwxn9c8EXF)aIZaxg90Y
zq%nvRQ94AsU^~jR^1xXF#x0q4N=o<{BO^7S?6$WzT&}51<MqeaFBL*6RoFdg+@4-5
zsrr_=(Am6{T}{ThoG3(EI98PFH^;`r*zlAVU^@ln8BWvf&Px<w|JtppFIqDtCFTC^
z?x`^8B%9=X9>ALsU|}Oi?CFhOn;HP4FtA$##bD&#8wWsscu(=}Eil~og1Zw7IY2d`
z)pnse;9T!Geu=Txyk*I9xIsTrrFpzsL=aS#4@aFCj`qsUx$V6x8@2Q)qdCn%ry
zGJ$*{pPDKwPeBQ6M=Aa;PR?enO#py}K`F=vQvrmffMNpNH9Lg+)j2tT02?D9A!7#?
zJtl^nX#V!nEKE_5i)(IXrVd=Z;QEu4k(qvul}g5Y`?ejlU?5sE(rk*77D*SozzeWZ
ztgWp_ve+po;OKhPraOsbFz4iQgwS6%vL1AjY`Fur#7;NUJ)9<vMn^Qzu}>F&Mq#x8
zUQn<=2T!&xqHV+%RaI5s#^JMD_ufz=LIK`OFOc#nFt)dQH1(s<LL~#g)7T8Y6>vnd
zva<9!#r1YLxL>r9ZP;_>z;`{jht>DT<_)J+h7Jg?oCm}MAgj4J15iZwo0S)6M>DXP
z7U&Tvcw5Nb11oBN1F1-f<*S3x@bDQXoBY5Uqt7Bb=7mn1ACI+c@n4#}5w5yFzbz|t
zIc$1_<zXMKt*kt8ya#;1Wqtjt{c&VuL^d_gEX$|`kMFBA9+E03=ru&pZd{k=@sTXA
zK>uP4DL?sdPp`_kBiJe50tKG$;K<lmR&b?qheP{!FpFVF0-3ddn`tO!BR!Hgz9TF-
zJ`kmM762>*3{0MevXT;1%hf>~xg0U!z-nv2E6T+8@xrePWmATy3PQ&XZtbzX2mAK+
zl<-jhVc}wk*1rQGt4Vg#f6}}1;#B*Q-^CDj_S30J(K9$i5c$N_jW2pb@pyXn4)fa)
z3<mIXSx0jdW#@l5wFRtJdEPnXJ43{DA1VX2Cle;HYL6ss6yYNOewqnv!2FutOI3)5
z2wxQm0}J51TfY90K_p`J&-QSC|9r|YBXOpX1KLn$=OUC>i<7Jg3@RzCpFWJlP=&tJ
za#!EKT0MRL2o9?0G{ZQXCMWwraUWv7-1`tH{UZV%R*awcf)qn4c8H@0DYnazB%j3a
zQhAiw4Ma#xX6a2zR5iK-w<#$-|2ohLpWAW#vBYB5Zx8r{Zrar<8nnY{8Q%y*tb-z4
zhGBs4PL)@L?}3}p<#CVP>^x>#QA)obgdw3TRQ(1b&U?i-<I>Sc=}-~g^3eZxv0M1&
zpTGvb+Okc>+s(QBcKMvA-CWk`=En`KH5g{3T~G%~a93zIX3vHE`xzQa&IC-n)Ce5$
zUuQQ!O$%VnlcS?AncwS-JY{Xw{~i~+x_nz}o9fbxpb*d_TJAVaZXKk+=6MFmdmtLz
zu&v)OOx@h>ft3tsTEBz#*3ic03E(UMsAGI`GJ5&PQ3#S~gmiH$I1Rvr2{`guDJcU{
zQyis^BmzLQC^9-M$toS~c20X{jI~3xg(N(=XvB0jfuul8M1&gU1YGYC6un&KXLtrQ
z0M;Izl!VXiqZmp19DO}Ooa~JQkh|Xx%YI3uA)w-|pPVqBB=sN}pBneQLcD!zK_pDa
z2uD97peeSDBoiMzW4yb`+wBirA%FT_nsWvqrar&8Am@07!}S7(5H6Vmc;Er7bRUJO
z<rMh&K*{U(UA*+^=rL7u#W6G@0?>oZ0b3DCq`TtB0XXmgH937j{IbgvIPGAWQGhJQ
z3j3%DD3L5J4?+ABusTOYnntr;0V=>J;`%URzW9N1FNr{IUtVtR7Er{$9BauxhUj|s
zKl;OM<opzL1zs5NC+cH~!v;WX?}6U)E*vltI_qZBVbcHrN#KSPiH~}TooaLl(&)1S
zzdj9S2<Jqqj_GLXcX0MiPpf2kL)M=QV%i_JnJ#;wJc0XNzRg-4F)c740O*ipFgj|*
z(8IAwNlDMn&cIN=hy7`jObMYLatq>1fDAGTpilsNMdMC^m4V?USkVO@<||gYU$>+b
z`2WR5p&q7wXga?MBJuO}olm1MIf*2l5DiqBE;I;hh>NSn)uaDAk#n@C2tqFHULT^0
z4)}&$C_*?+@hs^jF_wz#fB^>-1yR5C(TzG;1wm#daPkMMnd}KbPF!7FTK;W@0w((v
zsBL=H6%cM%m4Fld7DPGy=m6jdgLjl5XbI+`DnhqXg;^}%qzQ(AD&7ud>8l`Nkqi-Z
z$7MfWm21u<IM2-WDx2tMM8MF>byZ|KY9Yq6QWs!8lXbh3k~QINKwN~pPjzAxIITc-
zjN4^@n~UP6y0GQx`ttr%TpU?psPu=q^2sEDNg{<;DkN-_OpN8x?0s{;8l)4f#^toV
zPza!W95?pVAx@^IQWnv#A>BHsO28rq>i??yKhfm*uVF_cVkjkleq98W{pXl)Ak@ih
zbV+v*6XQvgg^Gsaf#5~M>LH*-JB}YrA5KvrNQsLk`@%0Eb}DJ4B5}Q0w;RvY*3!yr
z5GGg|$A2_1O}@Hj1iTlw39`5nOQ;bNfnppXFGX<(vyO|alujv_u|obpotc-^*0Kg<
zr*ckB<t-(8Ef%~l3=i5J{k*diuh*vS`xFro2Xp#|#5Zro0wvRCLFp9%ZL1uTkaA&0
zqB=4Li1flJ-4yGd7p4fSt5GH}Xe=lo7>Dx?jsXTdgMXB=tQ%VbZpb4e4wVw9Tq^P(
zS;*#BYs{{LF+WWs#6juPzmbLNXtw3P7MLi^aPIyfSjM?p`*SRGl-_+S!PVYf|F7rj
zq?2M`s)aMPeb9X9ax@HeW2cGVuVx4Oc`)Sy&7p(|&vNWRdZVbX)abAnt;0KJ_a2xe
z2;DOXlfuNrtZSMQAyNg;Xit=!o_M@a0a#$@Swj+0Q(CM+j@3)2hyyS^3K$*3ER*l5
z<(Hv+qk}=t6^uK@6)6`PsnKsR36F6L2nr%xB}8S6W&vJ_&|&$e*<FN*gGr`ISLPHI
zCA~F;z2s}2^bwE%1qKVK@HDL7nJrjq9NU5;&9mzTdCJEHFab(L=Y4~*eW5IT-wQj~
zanXNLvU&nP)cX|F*Tiy^e#4`qlrw+KrEsTlZ@+?Wgi*WUT|=wP&3GC}_gI{t_r~Ay
zrKc{GN*QOR0q+iW1VJul6!%jPt%mXU>^&&FLO-7k-gmix^}i0g5u2WF)8gmD59JL8
zhVLZvF=94B5u`v}a}VBDnXxExar<0YO9MPeqGTr#l=+J$k7$E>=&}gx<)@%hb9^_p
z17yCCwS&sXw&hF=^j3*Oz|u_Q$P>G>y$$%@vvWwxC_3H#-kZQH>^%$uCDb)FqieF+
z?lNI!vsMAzBFUzM({mh#SsGI-@oOgWyW;kW)mPrH)zPt@k7~x|Dagn~Dva~85!UB`
z@(&wBRy{(UV%?0APsa<CD|oA5LfU{{ZVE@PSXo!sOAV5Ju=?24k@ul$fd(9^gv>iA
zx|E6=dHj<Zjt^7&gHkC8n2|=%slxswPPx9C!)9vHM{df`Yj8Sl4JROWbToEWAR6p_
z-ns!pnSG$<G<}1CN>&;QO$}NJpL#%)1<A_v2T|jd$sex5er(*T!>1t^N`<`~{S?GO
zmGpn`kGgbckAJPY0!KanFh&eeNe#6FT{$4}{8pb;KM36=?s(pt1<-6%v(mG6h&~xq
z01z^cY|@uMvf#mLc>evb7K%s2q4Q0}`}4!fH30zvGtBR<e!Zud<U$fxq}`+fT~5SD
zxl%z$sD<2hysV+VkKGs*mE7i$XPd<_PC&U_N&1$Pt(<B_O@q@)ozXivT~`jC-LvK6
z*Y(+lTdA)V^!A7G`SKZ7R0V(6&br$bc%OZhI?5){3In0Hp-T`jibX}F-U+Y#;mc#|
zsN4=fc>_U!#ezB5bNZX^h{WEy)~eNH8jfsktapkLjX>{X0Kp6GAx|b%f7LXpm0VLZ
zq*!FFwV%rQ<e#zM-}@<>kBe&`-pJv?>hy09(zgW0Nrnn;<mXc+ZnPPgXA%-6T)-g!
zdWx|^5XMlSp~q4`g(X;Yx%wyf{XXhxD$g5;UXzNIMH0}P%0QT{p;s>rtr=DfP%ctX
z+un!$n<=3n<idg6s>n%D_kP*XN)6np{b_M_mKVk?EGKUDGdOBKoxfb<#^!xnK>RH|
z1aGW{eDKc<g|v!!orfFLvGCQVk1hgwA&^Z2xpS2cgc%*cdIr?>qZCjftJoX!zjF*S
z*wF6NEzFPSj{mK!R5eCfl3U%oaTw&Zsi%E$-rKo>4AaWC4f<BJ%ZL17wWJ?n9l8P;
zHvI!UA;EAN73%RC2O1$f#tx+g(0WzHp)$e`Eu%hhMmRh?zu_kG>Af_;`mx;=!W=`&
z$*DSSD<d-uPAya@ZVHNkmY^iDbE$~Kjg1e*1lZWU^qNhMG)XuJB&>=+t)H9w{;?{E
zX0V66goIfi!ZC!(n2K2tA(<kvD5E^Xx>6%4nVeL6wAAk9#r`@x=68%3DAXnwKd##m
z$lPrZNKEh@wBDaIUvBR1iu+1G$+}9_fWf~v??py0fRJI5i-m#l8ob5|a7he)Q~MCQ
z`z^}x4Q%f8R$VCpc2i6TSVQRVXW4^>1aM(q{IEC?0O<|dmJ;w#8)pDq<fZhgWXR8Y
zAr3jPHhv!np@&8F+|Nr`uLUk#Oe=Yp>WL``^Ra{Z`}8E%Vd$M9P^xf0v2^kXgUTQt
zTOVM)U^$^s;h;(Y`&;lm%)c~{fN+gwi)<q1&0b08e=*AU*BzK_K}wJ*Q)dT&I&!hG
z9WFQ4G|>7t3b(76(n76T{Z{%q;0)$ANjA`~9~9Ko)cQllE>WCV(KMX&RnEp;9%(+3
zLvVa6PDy}L)x_m{VibTm#Hs0a!f?lbhAW0;CH>6o20%CT#HDzzDCtOuH&`Z7`1@d~
zF7Vh)QA;|(@t-x~^>mRTOewtwuuSWH06_&}BQtc=9qfiEsi*>)@9QesXut1MC=YTl
z;4`%otu{I=lxb~Ua>wVfa&XKnFS~>9y8#Q&w3V3S3l<7G%In&J>WhPt3Xt@Y1ci)_
zZo2(34}3SQ`K763rnDX;P=6w-@O<+Ck||iC08fEmW)2orn<3qEOl&iRaS#1MBmNA&
zx%(P~9Fg8t!f)cI2C|(6L-ZSxNh^Q-q9U01;AIj?Kl2F`Gk4hjaXxVVd40@NE|fl<
zoVJXw{vOr+Qd8<!m#R?n4p?u+XNv{1LPo88Ukh@wHm~N2s8@d#DD(lv0xDcSDI4rv
z@h+i*;S54<re-TL46M@#Ny>wRqeztMoXRc@K^GAF?ZDW(;pQ))&=2*J?s{Mk)vOx?
zp-(86)m2gHf&pDq`7{SJL*5t$3>|naRudww$7Nu1`n0sti~=<sh{je}Z=w7IMxpu-
zE6pa5+h1#@+`Ks6r8#2T9M;K5n;}z)fzVYMd}^>m6Q6EQ7R(W$TwQT|dO+%gYzCtM
zHyF8>0*dHHA8<z`a}0si2EuSe#B5~%BXc-oU&M&zGPlED-K(d^19al*f2f{0TfL#Z
z`3b@?iXw}(7>Do(3Hl;2lu0hYxc+7(tvd-1#m@J4VYrd)O7!ZsCG|t7Z4lbf<HLoc
zV+Uyi^ly=_O2)gf^fEwxSdK(zs^qotQN(A`G<EEODe(cNYVI%f5B;tXK~HToPMD^n
z(GIX~G+^!QM$nc;K}8-PQZRJW*Js&U1GA~0V>d!xg&}bWWWTN)Y$xwkV5HWR!wcZi
zbqQFldm0%HL)%b=Ru;&=RIC<)Aw>kxVam}L6RjDju};418XD!)JvCAt92|IvVj=*=
zRe2fmNwoz)3?nE3{@>2Y$+R&dEDS4XdTYxV{jqdI-k~vx-plI0^Qf{R@@FF!0YP$N
z;)^k}+CWQ7Yf>TnB;c2^&KB1e3m}1QjXX$m#>B+bfRY<jP(LimlOhAD@O$Fo!JgVk
z3||*@*w{!j`V-5-{LmgL-O;C$I?&75(~l>!hsrIGp<7Y=73b!zQi|k9oKwGBq?r-O
zz`<0<Vh$1|Z$QaMW~4aA1l>$lr_rS9Jf6rav&x}w^1>##E)b4?2lXcwVcSi7J_C*$
zK7ecmdYKezgN=8O*5jEzX=%iI6YuahfT8w<sS1X{1e#Q#^zt~$5S;V5_NO=r_{mG5
zv&0Y*?-y1iJAr3jJ8Uw(2jJ&Jf-Q!6jA!j0jAohf-7fc_%t-j0!X!t|qHRBX>`M0p
z4GwA`_I`R=`K~-E`2UZ28YTs&HbA!4`}1J0Sg<t}<4XGx{KA80`J6?+7&M;9WaYn>
zsl8KYj_mZNAc{%1<wvwkHh`B2yNXp1Vd|tnpFU5qoPrbNt!g@zHj1?ieBum*`{w3G
z4@BKHLZb!~fTfff*1sWMVG+oB7LRH61E`(On8O(4e4-^=Zg)~@6>{CA_|2tUeGpDR
zXD1|F5ZY4fxsAly%SzuqKl}vg!wepG4~N|tU_Rrm%Zdjm1r6C^;RJi|TB>{LlYpJq
z1lBz%6hGuNJlEX*wt}G0P?ID)NSuLMJY_7)-Pwc!tz$*M;Ywgk3cJNQ7}T<<CrWxm
zKm$}G#HM$u*A6-mlR;Nk7qokww)Bax*t8%PU7QGU@SClEc2Qv=_3Rh;iNQhSa!Py1
z`sJl#cS!}H>%0^@wsfWHy}j5#`K1g=$<0-QeCB_PCpR?0z*R>1Wwlui2gpV1VyKcn
z5SUNZCR6Y4n<Ox@c!bEMQa9P>`Fnk!7i!N2>x6G>@fQrS+b6oP6wuP_5_Msy`<i<C
zV?&|ICYR>(l(6X;dK+6RkVYTCy4(gTjp`a@S2tW>v_OqFf;0a;E##1o_=IIk!t1V%
zMpUkzb+E|c_IT&cdwxa(Puv^&V;qV<2U@H%FVZ@1C#SvLi{<EeQwcG`)HFUTy}9`k
z&sa!k;2U!m^VXgsN0`Uf4_-z&SLN5V6Q6{=r{PxTf5{UQ6lXcFTx6r9rsXA^Og2R2
zVFie|?!Ky(^mFgvISS=zNb~rVl1abhd`#QpE=b7H)t+nn?h!0%vez+}Lsh|cx03jx
zNLXA&PL8n`7PW_ZaZ4{wYSHuA6Mv-&mo6zNh+wd{_TN7xVO)7bMRRi`6jGaZyAQnE
zq4n(2aF-h}e!f6rN6^$AUr2raWnV&5Q`hxMw`1DD&&`dKSx9khxyJK3MwUUYZqFe*
z>+&x~-cPd}I3G;INiTPPY`U716ha!tAX9XCqOTGKH;?bOYD=4pM@yHWprDAT;bzYh
zMB_?IN`Mjt=>qg!Jv4N)?oI|HyXr=cz#%11{jyWRfS5|50(NH4kJnqBxz1bT;Mm|`
zV*^SDT%_<qQBBeF5&sEtI*r%LKQ2+O$t3}W7v@6N3qFxYl2x{5n7tb{3?C6MlxjQj
zia?fg5lh|zq-#Eb&8jG+xZ!UV+!=F(Cs=MHS^r%8mCFR8g#8l>M?m?Y5l2g=_(Z-P
zP$GGbno%J=1nQQK1F)&d;Bn|X%{C$EG>(3ms6@%2OnodyV2eygC*rPr$&h1VVdlht
zAD&5w7J@MRGLAKz_(d5?FGQCQLA`sS>w-lMEWfX>@5^C=yfFxCi~~|fe+-!X!!GSo
z*_`kD2vGwJS6HXn616cvJ^?fn<~NAQ6U2h<cqD<kiCOND+8<t~n*b_#`RnN*;3V;n
zziYsWz>*y<%b4RmC;-%v-_eOea7qz{ZI<f88!;N86hW(J+U5?1wzW*<Cpbd<!EaZ_
z<MI8ED~SYO%bRnlbYOYwxoiY*t-8Qm@I;1UP6S?|eZuIdEOF6y%Q}JbJnGduTC6d{
zz(R8gz1!;+fyKz-Uj}q<2cp86vXIKX=f|~YgVF|mV=x&ZcfFJV`-`Q*D4K0mC0!TN
z61g;d+tzImlmyOP&_p}|mS7Fe1P24auMn}VtgM{D)Y90Tb$klLvZ<=9%v4UjT`<c)
zTC5lsKnSRUKkBtb$h68sLc0!mt9;7o*8ntPs?055qsD(m=>XNS>Fc10h>qUpZf3R%
zki`lyIWU7^L_Ftu&vyx)9yms7S<MJ|mmXI$Y8%(2qJfp8Lg-y4w*t~H#)-1nxX)G#
zO5?3=P5=!dq?OD$QmQAEqnI-s&k)|uN(=bi9E6<1Ruf(S=yE`!yD2a`VF{kv{^?5!
zCy?AFy_I2-O+KwqF^}x}wb$YFR2}6dyY!Zy+iaAm7fg9Gu@Ge&on&jigO3R|J%e^k
z1QzoOyqMB+jvpW6=sv?B>_9?F)OLS;iJK{oQ&HaQ&^tJsjuAYKD`IeUxC~SdC*BV@
zcI+{$4-Nkp)GogV&9<<;WXo1alWL?npT^tu=_uPdbk#On+)12bBF%!_osM?~w_X8M
zMuo~$ew=8{Ih0G`DhCsyO$mgiqy5wfHsU`=VLXEAl103TvfonHVvkHlRO&baX?5$;
z0!^03>x^Q<-riV;5<hFRjJGUPwuu%=4y&%p{n3@R>)DfUYn0<P#uGU3QFmVTEtYV;
ziaN7*dGqUP9|OvLoi0yK%F|^ijr$8X4^I>-URqT2_8857FEQmBF`KCj806hw9hw2A
zg06(-OFCUO3(zen7Kk{v#qx^@ne`J$rh(*IJ4_lyAm+y);_h&tI<QxcE(SBh^^ei^
zk41z^N~X#G@<NVl`?j#;GbV4y$|v6^ff<A|*f>(kr=yA}CxwL%uCp{QieN$sW+^<v
zWrG`+C~*?}h?n4OiGYQd2)e|5;ASpHBHeHREj*tLa7&|n!2e3jv7qbj-eQ0*o-TeK
zzLA?42|}aQ038(6(eNRm@RAE41`xFVnvaY?Z(IYoVlM{l4S6>=H&c9vvPl$;E2XUa
z?cTmVc;uP(VKKye)}M(xJ<Jf9Jy%y(^tXaU@FxHb?BW9aZ;W5#uwnul;m;`dUxq7?
zI2uU8gI!giLNI=3J2*%@z_{WAYk-IWVh3UekLQC60z%M>&ywFIGMF6l4?r_OWI0UF
z=W@6GWNy>$TOdB_a;n{20$mcDS?_{GD;{*EuwEp_lbMHp6pia<%sd*DI!G}s$<a1w
zgRH;IHuwXYMQ%J-K>yL@4+IWiHGMKwfZ=2j4r!=l{@uI1Q;-qg_Ai@dTUC`k!>e4Q
zws3P*KnzVba{;8@zoZCn&OxDqoONH99*6)CC_kGT_n!Nn1Lo>KK*h!9a5P=ma4<H`
zRruU;oy1Vvr-!5TU`oKbnPk?Lx7~!Ig%<(V!if2KxH)VcVNWV)l_IRKh{*8--Mj4C
zFDIp)9WfZD4v6|E#l3?IgdJXy+S`qSzw|<(-q!ys1bV<~X=j}DDqR2wg6wx>CW0{!
zI{h4)9S2Cb7;XDdx6ik4!CnR^?U*YqJUoyPsX^ehyf(`5UnU@uDkD#j8rtYS08AKg
z#Wv@IboljCpoKa;rTTu4L_uAs?&bD9pkAbm#=THVcC<Mr71vfJ`g~LQ{KRxih@O!{
zFuQ8i9wGp=bW=hE^-2a&7-(o9%+xTB^GPmVDDPz~C;&-33Zm&DLPSC$?bT?sr`VEw
z`lw`bC;W-@y}|zeek5&kB!wtw<*||@BQs}w7<pdNU=1Wa@yisQRMEY7kNK#6wp3tF
zDzNHA2_Y4Yw>HMch8}~5l5C0$slKM>;tUW@jKo<d$|)zoGUG)R^y+ZQCmzUbB@g%k
zw)fnkN%-?*HCQ;nAt1yUqhx3DIRcOZRPiS4b(irZ_xU~R3P)b9hkJmaIfasgy~o%6
zcQoXZv`c{h3c|UC3EJIntGQp-g6#>I+X+lrS^-He<kT#~;~F4r+HY3fhG{^HoL#QY
zzp=IJzYgniFk6Ola-gR#`d+Wqbq26&XlX;nG6{ls&vMD~-$Zt^C-FHm&bNSoUH}hh
zGD>Hi5GEEzEH)lY6!Z$s7hV9c1Z9n3J=at=GdVCRun4CJkemQ_7?3fF1`pSP;hFMx
zAVC^-J*@_{nT$+4I&I7I)BUECYGO!ZuqzD>jm$GBRW-D<F0gT+{7X3l)k_f8!N&6S
zY;|pIu138bH<z|NZ5*rL+&f^tzta1>C#PB?^SCSY{F;e9pM!~si5BpeBjKQ&tEhpC
zyGqr2aDL`C<9WEca{OuSIZ3J9g2wAYwyy5m(aFmF&EMY)nk!!h?tsyjAut8_x?tuX
zh9ZOC5@{s#>@Rn8bl9(mB43}Zpu7QuF8CF^L!c1(*wRw988r8<&U^ye>ICH3rvuD-
z*wg#6Rk7J?0Q#9qXs8Te0C3)aNmcOX_|7<7eH07~;aSGV6#PfW$6uL7>>c;!tH}TS
z5Iq$dm-DdtfFLB)4v3GlVmRF(?*VCK<9juG&Ki?3u(AKoBp4ejk$^_1qow76BJTI#
zo?qG5EegucyNBD&J@b8J-FOyyj<O0S8k#&RIjqJ;$@ed^^nQ~@eiKqp>R&b%cKQkm
z1Fde8C_x+qf4<0Tq@TDvU35W-q>getZEEDII8$Z1pQz!qf~Wr363Wj0+)J4@Iy!fE
zGpc{JHHGl?MxDt}4~f96e0pi4Ljga_M6F=J9R{PGVD*=o@&J^Y?k;HOzxBlI=4;Uu
z7M-2$DQ~g2cQ;wR`d`uRHTNST@zfgj{wvohxISsM=tBim`aQ#2=e0CP$6RvdIH}D)
z4qe?9Z~5vCkLI7y2sP`>t3V3bKZjlO-KXAAF^a3nyy0;LCzfeu3TC^NT*(|hr<RR<
z$uu@#z^<>HuQ69#UZ`2s`qebQ5I`*S1bDX6_ty->0(bnmuW|YqPY!2^)$5ODi<I$P
zZ0?=z4Z20R`+NG7E@ERa!+Tu5ubf?NvxV!ew!i)Sb+L1Mi0bO-yW`ctmNz7;CM_=R
zG*El%JT@R$)cv|tr};P68a)Ze!9kWN+{8rw42fFE=H`!imNZ^8>zRX|zHtAy9|#YR
zTfxpepClvHb`4$7&YO|(WF^J(m>_P+>sq6s`92_x?|!yIzM!P<r%=5qnnO(V*55ID
z^NRs0qh?1*Zm)DClX=|dbL&tHA#Ecghq<wzv)OVPre82D7NQ3z9%r|Axq6pVSCUL*
zV&eYveS10|`tFC2v07^Z7{X;jPl<Wn!TYARYnQDz^aNZ^$$}ouWejCie3!%SN2j;D
z?ETYy*vEp8v62Me&)>5};Riv}%bNeY0)n6ez2`1r)xfSqJaP&;h9fyyFD|ad(npX}
zgZ@yWw`UHerB0OWb=o-!hw?F{&{#DGzGU;P&XTx5_V8aXZUY^_emztfIXvCUzl^?2
znA%)!<J9VBOMW?bLi4wP&9y3O7K4r+pL^m5XFL{YI=nhG<^0QHWh(PAlB_qB7ueY9
z`uIIPD7f_?Kmx=MEC~vJ=dxMP=B;S$^HvInWA5rU(##NiBw*LaHZ&UXddP8Zb<Gn0
zxv3<&Tj?u%GGnQ7f9;Pzx7$spX2<Gwtk)F#E-PV#&CK(@kFeA}j947jog+(&YYdGL
zkJ2!Z(;}mSpzTU^=%-*8RoI`djqW00%N_;>w&mJxd(Gz&uHQ*X!TO%bP<L(p=UOjs
zVl_Vo&0MQL(wnCZrP&PJ2I->Mlj6@swBB5QDok#9pj=B{>6t`r-@KGgLS7Jb)akaH
zbc;3$+{XS-jP_B|-x!GI9Oda^w|_+!OZolJfMWd87}GsFz^|X%AK(8a+(omG3f0~s
z!);W#>6#eXIx*4k<R~g;mjHH(TaG+_Hc?D$jr25=hXB>4l{|Wex-C<ePg(9GHS}@P
zV6i@i@BMd`V-)Y@2fX~Bw?<eIU#lO)K=U2>;<Tbea!+}pUK`<AT2!iADWX3tkguR;
zqLclhR;rsSU}~53+aSru1jLJd+4dTR5D{CaGXC$QgO7Cno0{m4@oo5v6zkwUw&u#z
zUd92Ae39vG&GduCO7-NqlI((V{b_UDWHhU+q(z*T&u?}LlZO6(p|nxR){=@Al4oQ5
zbZ2I8B}0R`cDDn4$QGq^-z2_keDW#g)>Bk@nzB7JsM2)xN!{qvqui#Txb-x9i@uk<
zxHlv&uvqA1MLTr2@u40YI}geEJf6vAK5N3SkAt-jg9#DiabR?9uK1OFz?LXJ`RNpu
zRERB|N10B*Nx+ZIUg<d1$h;<r{~Yfxe~6dgCNu=Kqdg5Eaa45PZ#(TsCcL^SQ~SxS
z6Vc>~LCI2n=9f#cle+Ltr+D9mhm2ZL=k(7KX83z9^0k|BS?Ar7AWrQjcV4+9<-+HK
zgM}r7C!|+VAFdAGkKd0B4QTD83wW_t7oJwNxvE0J#Qb5ssX*$oz%N4nQ&A#fKlz#6
zbMe^K;K>N#WB|JQ4e98GI}Vyq^~x$2@0RCx4W0&1u5;26k~P<WYg=8J?Bqf{6$N`b
z?(O*<Iy0vr3b6u0Ux5s!^st4x;pY#A*ewBw{0veuF15>oc_wLYXl)XQtD03KiiY5s
z8d>?bynS6{eYjTgeCttzgTIu<F4QVUFdH5o4l-knqvb#^46bD+6ciLLu3s%JEyyb=
zLC!$22<~_g)$w<wIU(FoJX{PD8@mpSyXy5C>^49*4aPqpMv4_)O&QD&pVbib_4NLj
zSsbLherZztzu&MCkEb@DOXc-``T>3Gr8)456e;(G_iwk;5VeOr(8HYCQvGKDQgNQY
zCs`tL-`(kUK(Mu{xd{F#QF589-Ii@WHt79m>1S9`0PiYho3@LIpQ^OqI9Oe6|6{SY
zlZ%Y`tgknB#G#cbEd*N|jfKRi#j*Fkey3<mG@oMIIG={@c<(E;t&q$BgS%juj;?ML
z-j(@4e-6T|j(e9pq+Ph0q_}=5V~Kr<?#ibA%=t4Z+~DS`H9qjyl>h5a-bi?hnEY+c
z_1jH|_kzc@P4f2DI~Kkxn^~W_5978<GI!5rfB7?WxT^ymuh(wUA30mDD3=IZuU+TH
zn$fwJ^a+WWJAH_(n0a=MS)pIUkx4?sijaY7G8Pk=S{jiwxG)t?gy*MyV$$;=BOXSM
zcO?Shf`|OuG)4JuGi6%eY}ag?n(x9Mdqpi_yp7BF4SZ9}k90OMx7;a&N>XR9cCk&3
z$pRX|mq@T1X#CAmT1QIBXMZqNaBR2j;pRd9PL;UYiu<ijo5@P}jqb?tmGP>$Ew<*d
zRZ9}n<9sF+v?1u&GS`3=wN$s&73@sF3djX0NPz15v#zd<wRJ0qdjf6_42++kz?olM
z^lbwYFX6wjG|HSd%Pv6eIypJHxVQ)^7ZjAx{(gzaJM4WL!_xleG#ESaeUYFK+OI!h
zDSmt%+$<woCog1;C(XA^;wr&spWD-Ve&~SBQtkLREWh8Gyidx{)jt(Of-7y^U68r8
z?z0D5v*8fCS_b*qHx9ja7i}uF9EYqng<n1SeX}8(nit>G3+S^;26;1a4_H#R(J5zC
z*x9-27fUgG50SS}Jh)f~QyH>j{@6sO)v^DYRpsc2ymRiWudn5p`BhuL+7zg2pR?%c
zrtYuC+MDa9tTpqkm~z_ET2a}rAt-+AD8c5$dOfD8t$yIfyycgU_E|XXSMl;DSr`{C
zuDXL=f1*i+B^f<OJ{p-rEF&t^pQ>2io0>LyW7ATfizZ-G*)k5l+B+K?c@#io>SV(i
zroCMaF>v6a6`vwdvg`vU(>lJ$8tK&hDgWU?H@cM<r&Lo~>1kay;=1TWeHn|qz^yv3
zaG+>Jcb{iFliYOBw^*$8i)@N1Oj6WQiq82h-AqaHysceD^{Z>DzE%BVmH65C)l#t;
zG(BED)S-}TS&o!#r%|Rjf=MRaBi%g@do^QO6VY5XR^`LkJa$Rm>ExY6(yo?hRt{O&
zNyJs!5Y>kgTi7~&VFrfD%&DTK8Fz+*_?@QOSl=?r1>5$>$MdOIwoiLM9qwCGA19T0
z{8kyOSC>@OGaDT|I)OYoL>h<>;y~pN))Am9GBGg$y8^J1?;MPy1JonX+FKbKLZ1Qk
z|G5E>7-?u|oW4-jDP@y;6q}^mK=?esANfZB0Pv$K*8Xeo{8T_H$wH{J`~9dmI5f4i
zfQl%Pw6^BB>{spV?BbwQw<{J)_Wyr!PJVftzdr<e%kZ$U(!#=jrbs`h(y6DA3Znm<
z^APYZw)QW%$_g9UAUvVtrG)W)r{O0Yg_5SOH;Z!CJxD7-8?Yy(Hd?`@64j{)rVD4h
zH{_J%VJJryb1e`q=$$Khx50LeyCA2P){K{qh9db3M|?Y#$8+LX7<D@KO+rQSms7rU
z=I5Mlz8#ky1T&l+RfU4JDp=>ki>&fsirbk1T$}lnfX>rTb0xky<-UU!xVE|>{Tc#&
zUq{r%*Nl*Qxr(#SY6{9-=e4~Dy98p2hjLS@csP5ulT)s~qdOb7i%)L%6UCl!<Dtwg
zB*IQ=$I6F{O}LD8<3bZLVed%7L)~{TV^+b4X)$-G!mmeoy@DnG<IASFYGI2-9U(9j
zs#4ouMG|C4&L5NO*2S@yqOqN2GdKUIfsKrl8Ac&@bVOMv!Unxcd&k+(&BaNnO0`Yu
ztpnxA0@+=I23{|(6_#>=PSbw1P~W3|>ERRJP{l*b&mN;BOunvLqKzb((1qY$8wBPR
z4tN3-|0!Hvb4<dw(UNJXuaNIaLJQhowHd&$>U5VB55kvSUVPA69~fFPYcx7$qhc&4
zKJ3q|$%ukmzoEbGOqcoj$?r(v-82KsAE~UTn%|jL;I#u^uIK9|oGlgDjJ81+gJb_n
zdP=<bC~<~(T_Xp2KdH%gClQW9F01xQOgY~Lj<1#5T(fPg%Z4Oc8%=b?GH_X41(GHX
zi^6a-h6(;TZG1r4n_FLGS|@n*iW&H1K(kmDRsjbGw<)RL;0y+!>o(@*dmtwcU<f~M
z+}*j-(Ukys$I#5oH=qp~<G&aNDTF_Xc;4XQ{ebymvIij34}b&qlbG*%<Uuj&uVNVX
z?OQ~M>c{^bd(rirW$o?P7h`n*XcgF5(|sIFReLx~WBJ-kJUexQ<UNZjfnz%b1;sW{
z<1wFth^Fl9?2pKv70|zJ64y~PP8*BbwmWFO%-N_kHW^`jjMs@etI8M-jI>0!WChcb
z?WQVIRSCBoO=hTr96XCQl?wh&_<tss?@1e3*XzewEG_%uKV>EBSJA8Oyh`ZdD2>P*
z^D5rDdBdvK7P;*08cw~X&s<$%%X}s(!M9aHxXLsPnO~YGxchNL+i6x+(_EzNp*i&<
zb}*H6(w0R|7g!1AYts+I_B9J9%x{`><e6&LNKPyqNU4hOp4e0NcmCQTVO>^-!%$X;
z?TWM?{^mpA)fttd@4^}iA}+9~=*E2~D$LliG1*&r^hh_R@cr9&0T*~JCDs$Gor4MV
zG$>|zWMkhtd^KdqH||$QKhNcODi_~g`O53m=@Q#f(BhuvbVW|7?K2U1+Ue-uZ9^aA
zny%%XeV}48(zRV`XiBCWbXm~#zMe>W>Piii9aMA0PcEC%`8DQLfPK_r8kVz?uit=m
zaiX&sLzM87qjD+hn@^;BuJd`6Y-gcQXO?9c{Ff$;i~?tMZl04s1DI-a<B7pvT-}r6
zoI#Ll$bp*Z&+h9z1;<w8Ra0bxj=T(_-g<q8FTz*zdd~YPQk4Z$=@LybZ!*TzoCy8)
z1vNjpP-5?>vTiz(GL^AUZxbZSZofO5V8}v!m7h7vFr|&(!x!7kaIlkqQ1iq?j*!=W
z`l}ZADSq{^=#Z^%PN#V}T>>QG1qAd006AE?)>W(edK&0}U`gQ3@cvy@RrR7Y1zDV@
zOpwI$|E+%;Z^5ye?)7wQU9F%GOetMZH8nK=q$>!fL5qu;emhv-J9^cl^q}-#ZsjNh
z;d0#>My=Tu+=A!xghd+V+Kr9CIBI*nPdqsS5{9Mhd!9oJHD*(jlbV{E{X+vlZ;>#r
zqW7+<c(SS5m!LjyaR*&(uTJ;4{p)1Wa0x4ftG2_`v}U<CKpcjrO28c)sWFTa=F{*H
zTNI8oM`TwPdZ0hY!u^vmOSz_X=uB_0jd+jZv+o@~bs}-L#f$)LMRUeg+IGIg+kGWv
zjGpSGpC>fzm;Q=!8D&Eod2AKTx=y!D?vx^xzw?kGl)|Mac)DUy=jol2RKos*n%By2
z`skV`tZH{&RhG3KKs%1!6LK!8_^XJ<s%qHzhRn7q46_nVMRXs0#&>;zO{TxoUN4z8
zO&Hd>w?<(wQ^{74Y(w7Y@g*P#z-P3Doa>W>?bh-Ycf)nR)0%(dB4$=B6+Fb$U(_#6
z=f}BU2kw{{rc?#NE;@YgT)r=L@a(d({o<mKdG~U&yF6(051%8MXs&sw(K|&vf@FN_
zNA37_6K0=qOxBNGHTTndSL^f5=%l|eiSKy-V5a>+vJ)?nhC6DikN>5E8@qRMdym72
znArJKM^o+4_<SO4k{o|;AyoIYzCwH3_-tJw|8JeBgdBT(!$8zMo%>tKf>y;#^9^CX
zp$d0{`#5rWm-!ym*lE_yFz6MUHc!i2>N5AgT#=|-IS?^jj&uK#tJ_*>u25SQnBz$I
z2Ddk8*xR2&c#^)>jeqkR4rEHB$%xTzaW1M@$&W-&N1ZcIW}OO=QOj$8G(13&mskq*
z8X_8RKI&MVebcR>qoh=AIzj+xC@hrldIm5pdIkm%Tc`Z_^QR<0cWwtOYXGJOE-K6C
zr^hvq8=W>{Zo740<)BWAjr~}<2OcatJLcawxVX0Sl|H;E$jFz6DqEenMxUM#puLx#
zS95-Va^O5Ca?|kmWMxse6;;$EXi46yn3!APaIerh(#BSKt2zE8Z364orbpdk{1NAk
zO*HV*o5o3f+Zo2U|LO<L#X6KZn|8tPJbD9bMev1B9c$3j?O#4k!4#w90B<B}MD@1@
zM9lfdCuuW%F*+f46!WC9i(#o2KO+B*m`r;R$6*<IX_Z?r0@ncd-jB2Oc+-Hvz9u!+
z5M1;hM%B=55f@p06Ynh4byz+RvTdGNVtKC}{R+zBq=!|MX4X^1U3W=ZoQE8N5|$5&
zTN$C_UbP>hoqNugUTNUVc0?s$zdVhst8|?ABUKq^!adXe88bn@K8!Bl-J?Z`gSYl9
zN0E3PM>unF%GE8~Zzh}c&CRdWIF~D|BXIFMT8p2w6zWAGfiBKWmttn$QXE^c$RTcd
zT$ZD$4SOcI;&kk?)+a%Rq*?~T$O@%Z<@jg}3Aetn)MLNESp_Ns3zT&KfrX3|rO5^I
zI=BUF$7KUE*guH`85nkV#O?i_j;lOthwl2ks?{rasF3bopXTVY)=V;pVPsi6J!F+d
z)NxV=NDwYg(f|73l0`YW7Ci@to{=UQqA{bUBxrWoiGMFhT_&zG^cUFiZQ_#S9nnKp
zNtk1aO;mgs&BmlPFayVV;Qf63I7J4Li5Ls7PsAIH-|+dCc{~eSuELwEp&JV%L5$4!
znQJKv*a)ikZ&&S9Wth{<7Z(Ypl##j0rQB}vws13KZr882qF`d&gc2qXi-vtXq{^J|
znVFZHK`RRcuJLgmt&EPJJ_VGN9D;QgNQo(r(hKfEke43=J<!owyVrQ;2Ous(M?}N}
zS)PCfPyG`FRq?g~Q3)tfAG9<zn=GdC!6tIKWubHAbqIg|OS2;kImM84bWX=p4AU+6
zYN-rPR_(Bp54^WKGn|}X($ebu5G+9jfaYf$v~)3MIWkfg;Jig4pms7~bEDF5e=b}6
zc$PLnV*I~y0NBnU@Yh#YSJ&5a5)$TKLnb=1$~!aJmMq`rMt9@3)Ck9YU*W6B=|l{h
zEUL!O+N5o`E}j#iTBysF1Tb^S33{vw>CnH0`vaAfnQ6dNh9j}W-V1m4#@o?dtFTu|
zj~n4A>{JSej^TrbIA?%x3JGTwL|4Ro*5~unc<K6>Zz{52^AR6{iFI5B1T;H=jTBJ3
zyD*bXfhM-8E(bV}F?$38%Mt<`7(3R6Jec)Y36_~EKMpzSWD-YlCfsn`at3Dh_z7d)
zsk09YuyAZpx*|jBL8RV9Hb!Ru2B>{cH22U-Czp#S(A$2$DJ-yrz!yv;>7uaVY=2&n
zV1l{saBIRmPC(uXXwbf@4`su5W?kg^Tzc%tR`MVwwm=MNQG#9v#g5kYQcD$2h);gv
zud1Axg1?Y;e|OhngpTxiS%ePkUfLZ|DR<ApLk?!_-o2fxFxLFR2?kQj-@GD!iM6%k
z^8UGgF0>?@HFe?`N@(ygt84LAby7O(tb=OaaWm}hNjwC_yvw4tzV6HndwP9HpP{2d
zJ1ta4A!)3S8`O%QCG^H_9QhHxqoIY72ivnDRG=h6hs;ly5*Spd#IAiBI6~F@wtJ<?
z3;A5sJqM%blk>eF%OjRCu0jcyn=$(^cd<uHGnx-q@|=~7mAvl%>{gP&RZq*z`~r9e
z{ZXbZXrc@ZvU0_Yj6ezquyDeo6YXtn#U>>oJ<27s2cLhbTkP&O0<qDc)zbX_xeV}H
z0VcbxrNvJ#3hR3$xaFUJ!*%>aI+?Ivn-#bI@`aX$rl`1h(yJ9OgOGqgQ|oUvt-jgh
z@^aXP!ywiezoW8ws7?0IPS4mZTJ|1vcs)fS*V&mFq<aMz*^7z~Rpp<EJ_+!Whr%KK
zyB}$)_(8U&lsKQd0kSANjr-7&o^N<d_^|TXcc*RJ0*zH-4Xlpr+>Tg|H+vU{63{UI
z4*0G}s3Kwo>eXWU!vBd&OB*4@Yst^=qc#$+n+C;=(Z61uZ79B+$Nt{`9pCvj78d)!
zX&)>yyo)XuKwx2^SJ(3Gw2b}~)$zdLeOq=ePVqwX{H~IVQ_v|4i656RO+&QH)7>hC
zU}e(NpcpR{ijQcsY$p#51y>CnC@HS^7+c|SIGf+VSy<9af7w`Kn9AK1VQ4?ctcB4k
zfBTnc-K9~kEfuApH^|sTmu``L`|`}%Ah>GIARW8=Sip)=xcK7!trPQ42o|_OSW~u1
zNLv*-ji1DWbTE3xb3`e9nsHsBx-(giocrG+awsgBdPLrLs%zfx5VV_BVR-mFlhXB9
z7AZCfS_#g<IQD2ip(mIhZk<rK8zF)6c&&Z%tv7qdVWY+QzJuAM@E|t%5je^Nt-h7u
z9KxOmH1QY@{1%U}LKZagdX3mZlw{N{fQoff9qzD<-RQpe)#4N5&-YWo1u}g+o!=(A
zI~djWBU&})N5AVrj0eJL>BBnNDsZx%C*^;J{4SVyHUwW=yNR|u(@OLFJ?QdQ8eJJ}
z!MJ5SDl6<%W)aj`lYB`LZ(|b}=>|)}&?J8Ui{$T%b=}Pn+ot)-1yQ8`DM&o(6P+?s
zSmhCMnF9kEqYi4K==!Bz%HF=Xa>vj6J8i_=#;O;w9AWgWCT?PiW>?={!^uym=!$|k
zmIcP4pDZX4xv+s|J5KUtfufemK;&%#)?3TE2N}@wspC!=FlNzSkF_ZM$Vx06Mp&^d
z%)NmW6yPM5OMNd;+eGn_#-FEp&irJgXrSfbU@fM(I(rptE09oVw7xXwBWZFBmTcDz
z-1}b*v$<aJ0gn(sDgRw<T^b$^YX{4A!@lU{u2!%Fuc@uwYLRC=0EraauHV07V_~VQ
zs}Co#h%Wm^B`3d7b%12)+pbJ*KMX}*$b$fkH;)78_soEz3CMuo^4Py;a{>M+kir3o
z`qRMQXk~4^6r<|~B@4_=%gf6VBm#pi&s#C_lro9y8yf}+s2N|Kocas|@Ak-B=*Y;r
zGKGVn|9lb`XCs*oZbxeAA?)?k%>4%Aiw(5LuTD?WSOL8rupvehdV71hZ-GdA&GoPh
zFrqiN@bU5Q%vZ7^H)FInkAZ=K$8j&xM##r|zRF^Xl2?unq=j^0iO6RIi|R1oT!4A*
zCm+D7Frc;vm}*<#pU))y=D8wFCGr<9ANUn2zyJ`8e1S%yBMhy2{3IBYs_-}+Pd5rd
zq34LU<>oL_<_ZLZI8+<lwSsl6a=uLG)%<|FoV>gq2-gN3^AB^EK`!w@r!M#IVAWD}
z7RNmWU-&GTcEB_sXS7hi)XmMy1FdfF^fXq*a+Oig#@sJBgo^U=9pmM*TB?!9`!%%g
zKgY5_jO4MMWTwi0vmEqzCz~OdCd>}H7vPoiy4x=RRivQvNveUhz(+)A@dzS=cfhu0
zamuddMhdI=uNy-s_b*W5QyK#}^~l`ZT;;NW6aalxMSTCaouKE$&#v<$YScUg?^9SD
zyayLqmNk{#60wiNJ7Lg9GLv2+?gX27E}=xiMEF)i!j^n4g!N4<e&1}8!8OKZ(ucwN
zr3rki+jITAdCPyj9IF=yONzj){RUSNb`tpz0`Z1Oe*B<fvFQ2@0&y28yDYuHHvipC
zIXeQDv>lFBJEt_E=I?mK`s7L~9`uWasrLIU3RWh0JM;;uEiGNIYquN8Q$)%5V<u?3
z$Or6`F7dv2s@~Qm9x@kPtWvW_&2o*>2a(*ic(!1|wtXMm508=S%v0E|vd+@~oakow
z?Yj;rp(-6f?fF4Yt;4oCyfbnm?*|cKOeUByavw+VRt~P2c*z*pnB4#V`oYjVBO-Cc
zQM3w3XFlhB``Vd=Bkh5nk{)n(#0kfz_0ee9yj>+UuZ?f_dlPZw?CfBRri9jIl<0U6
zCAuwlit8EWDaNF2+KJR**AYAe88g*^Pxa;IVk3VC$+!ST``5w0|2_#Cp+yKZFxoxS
zJ`Y7T?mj5VTVdP?#6uMQE}4sK$$puz`=MOy=El}$sDPmconqtqS$&cXC?SlT4mqF-
zH5E%kFa|E`!*eW)kZz%+SWx<S+zyaM2fSIUGfP#;bx3}*PP9#?ZN;v!&QQ=?!$aH+
z#T))rz2juo`8@MZ$cSj8g-cU6;Ql=PvYHUz1f7o@@<*b=`0O6hFFHn>ep=;Mt%^Tv
zUN}MOW!GA?(18cIrvtlECKnWRaW&)Oqb-||;pJTS|7z4wPHQ)lxqf`Ru>`mgQB!Yf
zL0dhbA{hs@f>a&Z42Z&!M(P?GP$;RC+*hGS19=1AepxMu;1?#=6gU<%YXT?gaAREi
zF<N0i4C8;t2)OOr+l6=(z-uQFD3O+voeg+f!m`@X%U|}+gSmIO&_x;H0zr}x07T()
z?X5K5{PnzP1_oGFRVj?7AJJPk!NI}r&431H56C#ex*acWUC;rIfsKWQ^d|x|lr#~D
zGy}Qu+7?)EIPKU{U;SJGG$=fb(r9_V2!O1I!=R_9H&3tuYgWQ&<3upr0zi(pm!xh}
z6+Oa*F=ADyLBfqHbk{k+bT#+!b7JW5Ul0QVV!!?EJW)jwZcbJR!2v`-5YpucD**`u
zzXozlWKYbXGcl!vwIYU_$X~!|06#TH4gmo{C7TH#aNehF@=$k^WAF2H#ja~td)zx|
z|4nC(w&+0pKXkoiRFz%SHoEB!>F(~7ZfT@Ty1NAlN$FBjN|0_Oq#L9=rBgsky7Mfa
z_x;ZK{+u!P9~h1yW8dqZYtCz4VG0oc=hH6%<$85dgX~8r#iga)Eids(R)&(2pVZh+
zZ7nMSQrA#l|8(8)9D5ud9^TT@!fxD7f+gdv2I(>D_7tgJigx+;r~k|I+VdkhzunEH
zW6mNdz%N3&=#8f^V`}2p1YxrE4Qtxu!n)tGKCeA)vj^N>RtEU(jHJoE1K$IR^Plcb
zEld$LJ9~Q=7??<5RL^^Q%F9q&@qm}`BG8Or{}YH(9o(X<ihzzGEm4|_?~sx}Kt<H)
zxcse;47s)e{rklu@&^6C%~8-62YpUyS<R*Z7=!9UH7g|+t)PLOv5dpS@!(3l>}$B-
z^uXAFzqF>ry9c{Fn580)9?Gpp5#}4r?Qm~y=dAoD08)e_RL`4K>1zocZnyPFd4w>Y
zhjf`u%%Z>vW=_z&cZT@F=k~abl0c*Wlu$+A*<jQDt2$-5*7WOOTs>@O{&2Lr7z%H@
zv)o>~lMGIr%LeUE@NY_(PYU(>Pv6+cjmY1;CxLF3O0a<z(D<jez{Rn8T9Jb=2Rq?+
zC2r&9DaZkhI@oZMv(oo7mzoS=e45uiyBmAym+Ii~6|{#sZm-R!BMq$R1*f>7Dm4O)
zUwsTx#t@y0oDNcSOhbN4!coc@alSpc*8=UVNtwD~{-<f$6S6hImOR8#!3u}g3~gU}
zf>P><3-Ai6`M*xIBZXzC<&{buK=*!76w#l_+c7B;nSwj71W_}}%s5iCPnPsI>FF*S
zt)h1$k<nE=KY2uX6d8iwRUy&g8Wtkq^x;^4rmrH;m}Vr5$*aN&#qO@@Nw(WVb}{XG
zo8ec2ExV(C?AUtl*Rk&E=wp|aX1m{`ChauF$~)U!*`sBwi~v>_Jtx3VudE?7Uqnpo
zdwB~WvI_{L(Y$*OVOG8X=N+s#zPb0z)^vAEy1}SxuS@Ev$7fOf&l{cAwZ08<VK&6o
z#itbbqr6dD`g(feC_a49`6=f(7%b5UV3CA3n@Cg}bV&ET?Ea@f%M@p|H$~A-rB4df
z?%$s-=+${Z4q}UuE3Tx}O%~8|_9H|34CNQs-zTs>5~uRk*jUnJQ}ampgewN`0{jms
zOW}M}G6mt7!Hk;w`f0?P<g)2+);&-=_mEO#B2}#4-Uw*#1AbB}<&}=6=FRPGd`&Qv
zFEIeWT{nBIv%LG3mq~a5pLx~y{B0w?Uv?63&d7#|%Z@)5>k-u@oA!{PyTJb%wkqKy
zmyrrh3iS&RKYQ0VqX-Q<x!k8uOr(82bEGS|Eo1hl0ShS+!>AtXKY#x8#}L9`FD@+X
z2}jEhmuCoja~1KCsCtEuy=|s$mb&m%XFc}@t{lLHhCi!UNe1+0<J{w*WxK7<&xiez
zDi+Wl^rg&la*g^;hyNWG9^Ms@(z5`SUgZF(B<-7uaB}}f;2Z#&uI>_#4*4}K-wk@P
zCR~E=zUnRhZMCv^2JlN)AixX)U!P$Cb%lrnr0U<!q^qw;kCkqZb=-+^iBF;ITLJgY
z5QZbq+|=~+{QL6*;A+1iqe3Md{{)8;L8;lTdUtn+<&w&AC+ksk&me`fJr5Yxe}06b
z^~zcENXJltjb*#>WHIk6qruKuFm|jg;tlKHKmKcQ)~<O}Bh{vg+6%B$mA^M%BA<FH
zUV1h{9S!Rmv1;zJVm!T-$9IC|H~M^{#5PohD(W#?1^*au+}!c_+o%k^;V9`<Z}YpF
z`wWT9werYb(T~miCu5b%7=49Ct%UgBTsc{W&rjfXtR<W*YgH8P6B?fWl`qnYB52=o
zC$Ww;jQzxd!N=7!R9<(!|JmAHS0~Eeu&?g>K6&HL=o^SQb3@)ed|mxx8h%9w6DpF=
zI)E!gNP%HWst1gWL6CK}!g6I`o26Z8^aykxplQ}ONT!tyLCrD7dK2p_#A!*P4@$be
z{t~!Ff_!l(THq3ZRJcf=<+D4oFwFi7`rPq!SqTD@aK3C)fLRu>fr&+YcmxhWQVFG0
zML8KdHW87+s)M<CFoIE&oAg6>j}A>;z8McPK_IM++ySNu7*+>F01dlSH~$@24$^F%
zRDlZ@I3p&j#<a&R)(=TGw}M2v&!4c7QBc&fhW6+TVGN+$fQI`?`4>Ud#Mh&|4)nl1
z3dE>}X)4@q;unuMphA4@yc*-A3zJ0%+V&H2km+J(Rs(j}DEMp<i&cYy?`|gEwGUv%
zRrud*goET4-$M47(2^2HL6{SwTO(Br42(0Krw>q5QNrucUh9D>Vvjrq*F|EFwqO`I
zp?R9kw8l)uRoVmOT&%x>-e>twIt2v<fglab+LbxV(%Sk@>xhi-SbsmTX1n;}jY~k_
zwcZH@;u6|>D*~xnV+f@QeNTYb*(N@l8hyA+x&<AK8j#mCd7V-vb3doepI{WJ%gV|Y
zK7wzT9W(k})E62$I(S%Ez}K!0uMhd6fuYQ_d<7;1hDhgJ3r)?L4Ci(vNc0jjm_efI
zRm+^D(dtk;#cl^x$b5ElWXZfk>Q%#rj`{ceAF4mxxjR~H&3&|>w4<e=QGIsyKPNVH
zry|OJ06Qsh2|aqu(-av%l#L8)v<5(J5ZtzihzKVmvZl87=A>>Ix*3C6Qdt=@PG)?3
z7v|x7b+7^=Vt04ah6_pB*&C*6SjZ(d7NgQhzJH7g1>93LcPuCllhg`kusC`3fG+(C
zQk|fS48<Ffo6n*f);*7j!u=Zp(of0i1^w=LB!b;TR`;H<f_7*a#2)ul#O@Ed)5{XS
zukFD6k(-VgqX(+UdGjy-7Ji1Kb3G#R=ib*UtJvx=hgXJ$!S^W(-*)>G%?@}@N4A*s
z#3Eh9=cyk4@U-+i|3AEgcI!zS<|zBhBE<uE<_xDYwo3MqvWxm?nD2+L;eVL`6tjS@
zY@@hFQtSR~$ZEL)Ku4#sr4&WXA2L4qeeR<-Y@A%4(R-)9)V^id&|0f*)%Y~rmVf?M
zzi4<<ZmquFZpn{%3NlvujTE)Lnf?`uxC_}aOODnS)c?ZUE!5C~Ajr${jsyz}S|kD0
zF<$z^S8d3bEid2?U|}+`0@xOvYM!2+>P86};M66tyrbzK@jsKRk#VCSAaI~2rwXTD
zqYZ+8ma`i?L_i~YLsXRf^F5Z3ixYTzcXoCF-B=Ra9n;ewj_5^ZOJ`FH{8=j7u86+N
z9}Wz>WEg>oF@9DpwKl^Yjg}Fz9Tg7aAwZ5CH#U~e8~u=gxA*E}NB|a{NlcDZICQQ1
zxqY5HReqMm{%$3V$^I+((t-TJr#+O#ZiwD(P9tCpb=>Wj@o<9k0+QSklA}CBqZdP<
z;J)wbO{M_hFpFXH#fs-zFHw@(aLSwwbRXUQ%mDLDViOk?xX`rNpsx*HK_0-&{L~-t
zfZzhH|EUX1>gH3D{Ij#hYgIEwsW8xir)G2=PdeXbT?8TUYp`WKk3>q6%iciMGNNy1
zW!L3=b3ap}0ql~-zghg|4EissGop$E0Byd;*S=go(bwpqAGGj<QJ#W6*jYj~tXBsN
zNorxT+%y0?njQLk*C4=m;V@4dyx}+M0N)m<b=AfO!_q3GkYL>zj`urCEZC%^j*!l0
zN)&<@8+WOnCLI2*bL3fYke6<-<8HRnL~VxJA}Ag<4k$ILkbbN*I2#l7iq2~+3rogy
zLm$jl%6bzJq|h5cp4r=Ps0=AKHv)m0dP|p>n3zS_VgOS-X^2t&dXN7?5wbNSNs=v%
zIuN8HeA)x<Cs;{r1P=Z}6FSHgD(tKol%R5GkN76>rAo%@SUNckHskh@2yBGk<?pyZ
z9O{0e2W>>ye93#@MpHb>VQTFMk)b_QQ8oLl2JgF#BOV%pABJH9$obdQUxYu6aw1Lx
z)hSS7(Mdjo+7;bP8qrK*1DqkZC~@+T{48qrAi586oK_<Q==5gHkma9X-x5cKQCPgh
zqh;waH$Cj8p%`_>bf7gw)fX0u)8st0IHhfr-<)Nnr>8o->~$S#(oU>4Y}R;f^u{7T
z>?4>50EWKy3qsIJ6HOJ26Nw%}Z*(H9EY%L@62**bp`7mrOm+SkSO2~R)p77|4@@yl
zr3DyCe+zv$Oa;Bgg77<>65Ly!1+4Fb&>c6MC{UfOtgJM;GfF#e3mKfY3tsQz&qd4S
z^V5KyPG(RxNZgI3#^oZ1Agy}hd+q${YF4fK^6cTxj!anTngk9-27MbHzC+vlNk%MD
zK#kYj)Fn;%K=}_!*SH65(4uU*NClt&Z8`xC&c#MJIheolR75Uu1VoT>Mbkj8eB(5}
zt6@P~XYI^yFi_n|dvBtw1QBNW-`QqMKa8cs$4i(gwENFR&qoPY<zjS70!I3Mz>C!m
zrIIhK=kBMV7MRW%jGL~s8(y|?;U4d_?;~jdi}|$h^z`I{z9j(gAmMZ$e;{2EyIy|(
z_3Kv#8MM0&wCID6K;i3k3sSl-0X)P-AEaI_?xUoH%5wdp-Yj$F#B>6Qk0Ef2B5qrV
zN5Lq;`i*2ipy(uae6v8z?P<7E4Z^2x(-MS}UqZksIFePce-goj(&S{^|BAZ`Po`H}
zAhS}k9LD727(4|kwyq!9<~BAAR$T_}FY>++epJa5N>Oniol2u#gxgm4J$2z%GPFGs
zlk4QJF;xq|k>F4TAB?!g*eOLn31ZC!dKMN4>wD0>*r4#F)VK?OwQzHDBUQMQpS>YB
z!+{m@x!48rf=|Q)Xct%<z%lsY;XyUo2J_V`iE?UmZYhWf5iOgVSerO-nt!-)C4x&p
zvfunGkO}t&Rl;=N`>?v7!jwPlGt83Rtr_pv=U?PcaTyuWqm1&=;^o=yW3K>?RCuoo
zb9Hrk`U-!1(&c<-)Xazz!`OQpSFksqia<S~$`;d02=mX&M)3-4!sY%Wbo_6#j~Y10
zFF*E~R7fU4c9YBh;Rc`rr>rarRx--e+FsNLv_;;>ZPx?n@=$}TqPJVvu0pj}uOW$g
znSvfsz9}qG7I%OcMWW~f8~Q05ls0M@coevSpgL$#0d3(!g;n3(2};a#rO&lre2I3q
z*FeeFG|0eG*~k+0)7w?~EEhc^-z{6mAnxWcAwiHak{Y5OASM`G!eHg(G)B2{yHSb)
zp{sy>ZE_5-OH-25XvjO!cf4V=bG}y#*1+W|d%T%Mk}7&z?F;J7=Y1!|j}RGzLwLr2
z%S{?vb@`<h1u?Hs&AnQwMBXgIRK<a@r0DskU(7`?qWdIuDHq0MClU(6z2FW(EnXky
zXXl`Ey1<M@ClmGpc5;V3Kl@?`r9?1sKC86cu>YW3p6-+oC#v3OFTd}>R_RoWGy2^6
zgtyGAi#K%QEF%L?hQ>0<FuHNZPtA`oKTX1I42!pm?g{y2L;9odT_@AV8T`!*S>W@Z
ztAh28=f`7!Y3ADBZC^?wbY@eV4h;_vude!oqTeZ;{kbW^Kj87ecoO^13HwH<C{`o?
z5QtT-08$d#<v5AkQD=Xc$5KtELlsZNForL4Qhu7yx}R#qpTIq_hlsb+`l*9mw@RG4
z5?Wm8BcMP=D8fp$-vLpHyh)CgOjIIfVIVz_S;9#ohizjjN#q4Q{2`}&F9Qqx{LeW+
zaf13xQ%7f-0rD`yJs#NOo1C7`L=~2UWC1fp<wwqCF`xm81Te^pmG3St+13(A%8zSm
zEI}a6wr?J9=oIiH1eUmnD?F@D9(f&AeD7ntsUWGgtzgwitN3-|am<|q=l|~{N+=|l
zq<(EJDlU$Qk!{_h=i*8zcRE^b0=>iZ5Ob@9eSRwk86#J#0(!q1Rqrc^QmHH(%7y>K
zX}^WD3z61oiqfm>Stu8Of6;$H<gzq3r_&nEB_QB^b+`bWdmq3GbYM#rNu2hY7EQ!u
z9TJJpoA^CmySuM>jzwaCL7r{}5Qm=<3L=Xpdm6T^EfPW8eLj4`p}t@HXc<Qna29Ve
zyid9QzyOR^-eosp6B89#RVO}t5e0V?2@B=k@lwNa#4GCEN@Wo@CpW)@<FON&W$3qG
zV@gwXsKvq^Y;A8rxb^`M_UDpenl02=Rw2hZ{GY?w2>oy|tpdzmn}a>FE@0P!K0vB~
zIymvR<T=?3o`5360vQ?E<=5Y=kDtwyhQT|}r3R92xdAc_?%1LAWD_QuU**&+9Nee<
zSO4s`bWFL4XU{$cN=ZtBj7CJ5j;Ff=FLL8Om?{~6bHa~3escg{3fNB8Nj*{06DF1U
z6jJAgUtA^OKgxUb0Q`$y?g9=P*}W{0-}2#*hY2YRk*AwKJtV>f(U<fdkcR`~=X4vH
zZ4+Y3Pho+4*%v@f7$*ilm)u`pl^YrgXS!980&?T*wspffgT$L<_^JukHdh`LQ>s_N
z*>@J^qodma&W-sQ6jXRu*VmpN9=N_^YN@0*K=UjPrSu4TU`{;uXE4XQ@UP?>B0H?L
z8<vj+`gH<f$J4d3?<rh3HhmgL%C-*SG=q=inb`B~I48^Bs<Et{O>tB8zR<Yg5_I@N
zWl)F(3t&u4rD9tZsD||4y#p$)XfIJ9CQCA1G$|1Do`i~Ry_0HtP<Bg_X!!nkX#Jm%
z@<gExA8J`T##2UPYbm;VDw~Yv^75PhEK~B%kB$&N9y!{wvVtPUmajWjj+O=K6$RVq
z?CVND)Jtyl4Okv$pG&3G$^;~enVDwZzV&2(kiw05ryaI%+yYni!Lb6~p6~UCGS)%~
zz;s?oCAbr^x64<UXOyHkj}qupuI8MM5lY`Ql_H|<PAqZTpEDlpc<a9)^w(ZZ=8)29
zZW#|+bbBzQ<>z4pm6#@{_SUf}q`U+1tDX@`QV)K>$;E~5pIE+uib3=`PiT(F$*sXe
z`S$?QWMZ2{gaDNu3My*P<A=j}35EU*aQ)MF(9}^i{D$Hn<nZQL;9$&beB|fj!>{rM
zGG#`UQNO#3$S+^$De2w<z!DEKqQ)Se+1%^zV&0mLY(0`H@#FTW<+!_9aJ;{4(9$+Z
zQ(d-+$Qv#NB<7_9-%Z>SVZ+9Qa}2<S>$kG7h#SkLY>WGzziu!Kdu~o%47q~enXAwb
z_W?T`Jp5_ZV2hNe1jY|nH*9%TV7mis6x9T@)rSw@O?6HFfK3%uTqJWR%^Li*Kl4;@
z4<s<hcs)u0gLK2jcd7SnKGE%BcIq?Gz|B1)x57rPGZ&J)&ngAv9VnAj1l7Tj5nwUM
z9*#-~-LuKa|4DZ$Z9D|dH_;p}dmn{fFCClx4(kW3x<9y9IzW8|o_T%McaZY0IwQby
z9H=D=zJDjTnFH-J7zs4QT8Hwt^;d3nmnBGXapA0UX)xh1_q(H&Q6V=SPX`_Tmu1E|
ztVV;?h7*<A7=a$qCbrwMxZ=F0sOP{A6&%%osA~b+?IIdbrCLn7pt~ag9<Y*ctS9ih
z>s%1h*R>(#2f-8DGA#hF`-{F6AP*ijCPs^PiEA36b7JQs+?_P>P){TPitvxk;Sf3v
zamww(RuK+r>cOxefs2;RO3GJjCBu$PF5_*0y1@vzfq{yO1R*G^8$?ebIG=J5B_2TD
zYC7;ed4b|VZJsO!AVZ@znSCKGQEnvgOE?iT>4eCT!;$&ln63!T&z`9xZZ=?iV&xxY
zc!9S=o?C90a$k+xMEQOMQ1J|P2mx?o{MqDPQDFIRXOt=6S!TVbYQhnGbCz>I^iWVr
z@{6pgx6E}n>$kS+{;e4|csl?4UBUG6{_fMKCB;j-+9DOcn_J#2f$2sUQx9=*jlVgD
zSi-26c<et4R~{Z(CT}q`2mHQ$BeEJTb$f5$s-J#U5i%*S;%wN_Zne@(Bue1FqO71e
z3p|{@5U6pQh%XE!^D1Ff)UuQ<F15rH_6nQMn3<&`HK1<hO3zZuYDWOONT!`H)py;t
zNg6QpK4x5myw<rdLf~gw=eYrPW<g-zTm-ZLDDU5&@9x^fwweG-CluLLyfJ8Ci}uFB
z&11!lIO<^@U`-teFjd;hMHITe@G`VzPhf`XlCB}~gY<0=%npRR(8q7bt#&15>xqj)
zN^l3s-!YcpzB>d^Auyd-pw5EAYxuVjwH06yPK87#OH&a1k<VdXobLKK;5j2d@j?%w
zbCb~I1`lqYS`!Xs&}L8C%#4bW(fI8*ezk_&<VMT%B=oO%gFm##_9w!%L98U~V**d2
zS$)U6B?T!o$84@xnn-qr@<5XFJxxVE67n>uPgjupcT_hpL*@5U$rf3dm{3GM0Tql8
zxar#4R{<Aey)(#!!;i9;X4F!3fZbyxW<{<Y4A+6)$HIE?WYl+%hs5s>Th;w!`aiAS
z0&}^F)#&zS%vOl?OJ63zxS|Zz2k@Q^O?oSI-%kh|em#vZV*$q$xUoK7?uQDY5aBc&
zbE&mJObBrK!eMSHe50D)w!FYl`8`b<<bkJaz)%>=$VETt;^Lymk3taVS67Zu4lx_`
zR|3ofj*inlVnA&IW{Y2Rl|=uJS^Hc<-2nKC5o%~=<^m9qi+$#dD}`W9Djb+&ef4WZ
zAsYNNAeql|wd;O@QdpSe`5$WFi>EQ9^9}ct-$p3D9D7x&4V+3pBHtDtt|`eBIwIkb
z2$;zd6R|g<0|;?Wm!S4u8XxI8vpug537O(W!20w6Gw|>DcNJlflWwBK$xhk5-T)J&
z=0BA$->k1ZFLfw6_!1wS+{HQ((_2>A4vf{cWx~g8Bs;B<fjdWgM@Pp^$*Y#hE`Tpa
z=x3M2PTUO}KVg~B(R{FmCO!q2P6NJqfrN<U4`b)x@_J_-!}evjL*2(1Laq4tQPQ!6
z8m`L(+F9b)#haVyh6Y51DwSu~&RmVn%=u04S{yTw*OAa1kujWeX;4`jn+s*k?MmG|
zohjbAytkKo>-evVH4`&;!lgT82o9z6XU)-P3qg5B`vSMe;RF#K{#lbU6*1O^`X4Q%
zKaW#1wMuj<e+1bI@Dloa7S-0;jDNE=6P;iD&91NgxRX&}!Y${!qx9$DcJ}jUw3Cys
ztfiqSW#;A?KrLZ%cDQEjxvTo9V>}x}X4r)@b&N9q?b~v<Za~|Ca!I)+J#Ag>^Q(~e
z$VC`q1~ez%mIq0IL&1pr*J*|(sx;v=%2yfgN#~Pbt9Pp;dbqjC1;7{(CIMorBh1Ve
zP^yhE1X?4W|Mx}ghj5h8I8C&8I>&F@Y(HS_)YjF}s(j*>kLhu2-r}L)yhYoi{sG+^
zKhxcJi1Q|VeBGZW4~U!f2u0<Mz-o*Z69*rc{qPpFK&yb;$>kt1K$BwL7ejeUn?th%
zvo%0H2qH$-FkoWHMAE;-wAum21V6WYePc=j4-Pv1U7}Aes^Elyx;j<~B|~a_JY{=9
zDJZWSTU38$hW3PP6jCHy@8ndozkoZB&OU^O(aPCbMT*Ll7n942YIw=H<L!RQlDwde
zt!-pQgiyZ)B{xvQVwZ61wOuXR6VR};W59>;?IMl>?yfuGC|F8H^KziO?&r6jfSMWj
z!!6bqh06OMAodS-9Bk1S-~*RU;D5EUoe5mB`XXwzuJJUaeZC<=!mP;x9$dX56E&<4
zay=N7P{#ti@Vo|vUkROVg6-h(auar()na&PD5t<Fg-h?;TuNA~qLP3d(zP}EpH?rP
ztlpSz{7&0%h7C7Al}(tuQ2k%?@yR-NOS`&q8o~Q)r~+*j*y;i@#xwA&k`|7PiLq!t
zOH&P$JxPH%RUP7(eZCHO))8L92;LCAp@<LRhna>B`ZiXil=jKT%F5~vWAFfSlM_ys
z3o(KB@bs$t*|zS}_&V-(fcneUfC|e&`_uqC?yoLW<%`Lo;Y9&KK{JF_3}g6ULJAVR
zk5g3sXwr%D6P6?-D4ic+Ib(foQxbs1d6&-{c&07(Ner`P+GvP}t2DkP=#J$?-mrG#
zKhCnc1bQQVsp4^1o}V8GJOUW(*&7a-Ae%^NU=2zTBE!ijBP9Y&m$M@V2#{&0F?s&v
zbyFqOkw~urGS!^@wYR4S)`X7J4A0d1>BT}SFE4KoW#e>^{(JuY2%1dL_#3f81k`6x
zIbpTrlOwKrq~POi#an6lH8L9AUTiD;!N7_7^(Z_{xz`KqW!l>an9=rMx!t+{>I~X8
zGK#IJSR5Joog+2u`LDF1csEc128LMdsd2e0C#PDi`Qz>RIP+X(B_j(DELMfPx)bT^
z^6q7WQUouUAgl2o3i9zMmy2~@M>Dkkj`2>Durc_DnwM41sj^-asQW!8zG_Fg!oiV?
zKv(`%tI9(>gSMcpW6!T}!^f+NdqL~u+UA;v76sEVp@Acg#?;{lb66o#D~I^EbByAf
zc8K;&d5fjaVaQhK8A-Il!_sAeLxnHJrK)ZbjH$jRt&^y;Q(u*%w6y24Kg*H8^`#?;
zQ2pk5*AGbQFUH9F=G1T}&Co2Kpr`Jgd5!Bo^t6nsI`pIwCATS$N`djz%%HxNmFB|;
z*~hnk6IsH+omC>7aNnO{;!%>bS!mYcwNe6iB1)Y^lgs^TTiwHOxj0{8PdxRd5)%5P
zRw(+>5gI^e-^jd1I*+;y9P?dw4+{J7BbHfvrl%(Y*UCv=N(zSFRha~=L^mVzIlMi-
z0Ox2o+cQTqE&&MVcWl_d(B$OgV@-$hNd+}E2{TFOD1R$~2Z~x?;xO==jXcTxpdU~E
zgMj($8WlpfLRm&_Oc_rl4=NNxBoX7BEV<tW7^P7Oxk4NUXJ?apK0C`-2K8O91sE>}
z#gxUZB)G+MCH&ox3nX#68V`6%^vUMudVS^qhz@}0NO_z0-*^*n^NSoL1oT(u-;fBI
z^&q<7gws%l2?uZM)W?~}^Cj{pIHQpX-?V{M;N#_7j_hZu;PAc@1%pngie7uUflK+O
z;w|7ByjdX`0-r>WPw!okNUlSDOe17aV}T?HnSZ7SK~tv~f^cpT(K-`!-ehUb?K%9^
zIjj;vi~jdZYYCQTX=fCis!(Eq*a6_@VziccPOz}8D=tR-7G@_0g{0DhgS83#Hm7*i
zigeXtP{~|qXX&&GhPOtu%byZvE<z(@&~)AMSll%{-^Msc+RVQYL=9PR$^nyPL}eM_
z3Igrg{PFQo%RmAE%xi&AFee&_?<aGmA70F~tm|anxroO_rbSLW0%ys+9$2d=$*d85
zI<jf6v#r4@4J#`;_iM2IB$3Tl4i=)ei54{WzqKSuTs-0LhK}8AC5b4?MiLSru|7RJ
z`!sTYu@`K-ei^3@So~1*a>TL}Gf$we&3{20H+$u4IGzJeqm8Su8{o=Z%8I`G>#?}8
zVM)dMMqbv<83ofYuB~J^Z0l#{7`uGF16Gx$ED({XU%Y26nH;YqR7?a&R+%~?2oj?%
zJHN6UD_daW7a(b*9$1Ur6Mk1485-IL9-R^@G2)p3_r3Z4d`sR8&~Z2qGo#MrMg=HC
z*ogsl<zNENS7Xuai4i8WD__tr@LR1hIK9JJdg4H9B-!mH5`We4eBTin1vr4vO_M<q
zlvYk4M#AaS=u4|b2(7R$hA~3$%6Sc}!)0Pkx|1lf%#F@yDtr@BhEze$UHgzQC7J(8
z7s3qquNhb91GyU^VgWC(6L<L=E9ja=9}F6?(;n<MI!Um5w@N1YIlw>Uhx1#$--K^p
z<wby@_@1>}D$NjtHH4Hnt=LZ}D=FE*qcMH?>_oQ_4oHH<A+Nc)1OuByKHA-1v!kFo
zVCnLDI?djk;%@%XfjK>~xmge9`grdH1>C?(DE@*_Qfu}bLbh!NmGQpH_R^s2PCZEE
zxDA)NOtLRhb4i_+S?{0zgNpL~_3DOIrc9v*LAD>;6FJSi_I4n4HB76_PL)xt15NPk
z$_W--;-JpnUYtwM`(ND@r4&==eFooBcXxWR_4Scn@%-T4@2mpFg0h8Ze8qstu51*S
z#S#rPm&F=O-iiB&SGdLT>5B^23r$X$c7q9aau^Ek@9jbK-iL)6JNpAcyVu3Ch<H+e
zVG#C5Ml@?%e7);}rP|8uVHRtu!`lNJ>+3H!>rL+xGM4((X1?r@@CW!`5<4eN`TZ(&
zR@Bxm%QSraOj^gR^P9y$*V0_$@87uy(><<_g(~zlvqD0AssdO2I4Nv(6Qn%-(8hjR
zB2EUqJ(0;rN3p1c+Q5y8>q;e4Pr%to%f)3nvx90COJWC7svTz9XE~HKbaR8J#OZDm
zdea6Ygh8UKe9XYY)K#^!Q+F_@_|aX9bB*8{--sb6Auy0mGxK$Y-CDaK9a7$(<F$~>
zLZuQ=%#s4wjh!aD7_$}K29ONDZ3`4d8>EmVoUpCZRoTs!0-l5JGCm<G>F8~Q)BtCX
zbDo)+)R@y|HNLWZi0jy^%nGWU0SsLr9sCFn`2&*=AUiNDfd)&QbYOpD!}adM_Nvox
z%i;#c8o!20Ei43y0r$(g+fY!;2}v<l<?z4&#S(S+A9kcPxnsGpfqy3>fcO*_hiU!7
zYEs;Zy$7_`s>BZhAsCyPghaPpl2dO=KUqm=oXO#UH~?tY&3O}6TXI4sdf~-w2IU|U
zWjclT%|*x=+bJ$SA3p}CchBCU^e1Qt4s0?+HwKQVZF-x#Q^U=5Bx^Dkm8O0|#i;s=
znIx~G;v6S!fH7J54<M?*2-`l{m|v+-u17+|%|5{jIXVM=GUTZ9ABo(^)PT-+z&Wu=
zf6x+phhsd+j&A)%&awLEkq^EhH|U7;Prnr%F-ZG-<<LKYqf0%4Qu~GFiCq}t#gjtl
zu{H3jwQqbJL)0NoXCqtL$_p5BX=Dx#I#9ay`0+D=+`_B+`ue^(hQR1ocs*zjjZBC%
z{>oF4GDeZHm|f+4P5fUIycn#_Ts3%D>FDTyi8`ikpy{IJSsrdX3>{~<D<(1~Hb37V
zt`8qR%={|H8y8w<*JRK}qp-pJ903zTQP@1jvZ;;8685yxkc`MrBKNra3qe)GGm&Fe
z;eBywOWqr5_T!Ll9C&IqvXz^!knRSrHZPkf!D_5$tP~fO{d{Adt`7Gguh6c@?;Mn*
z^qTu?z&vF}B?%MXyf?G&?y~_sdwJk1j#u#b&at_3O1O4XoSYU)#N8CV1fE0YGUcNU
zB+~MaYlw(+Z<MJBj5+Og8Edf?RLWW#`KY@sOw6jVhrh?IRlh;Zz0V!i1jE>`M$G3l
znh{zBb#9!|4$TOO9#*mLRGjudHPRnBr~bdfq$F%bofAArPDogy?|+sBy9^fy#ahuS
zjQjkVNDIoG;48>rNxfcUN5M#WNa=*>^*fWlZF*0tboeX$fPw*{@&=!|Y_VaD?eYxz
zM=dd5skkb`z^}a1ye~th^_!coDNaWD6a~)Daa&<^@$l-Qg6QZ<BO-QEQ>|3-pke1(
zSoXuv$^s>ahh{!~O-#_UL97a?dw3-7xXFdSLP5485^f}^Qj)iYYQ<+Qm7z@~d>|HW
zh2{c2o~OSshCB64Vr1m|QJWzfQj>o7U%PHW|Dt)h`q6UcaEI<6=$x>^@&nV-dde6g
z&mQkng6c>MDQ#MuGJBf;jw_CHPs<WX%in#<0##M{Tiis-(MeEc4|R>nZ5SHwAp#wc
zhOQAp-tTl7py0*5;q3x`^Q!PYMom-D3!g?oOLW32EN}ebs2mN+Hl4eO=*QTgt$urJ
zSbQ!@?QmnjlK||}NOfhKHj`(S|41q_&+&<=bFA;4(LkL&)^#ouO{@3MQkC!O7k`(2
zT4&r{GUws0eBoANP5nmMXc$YwlpGe>rN+iKHI6-xZJBDQ1flzNdEgitx_^0~g-STP
zzm_Hb4Zrd|{$Gie1<YkbK*t8FDSn}o2G8TwH|ENmu+PAwj`dy58=73bg~%QcYFC!(
z%o{PV3?HLzAXeMz|6c~%?Aa!*mt-5ur(O5wDEF^ihe3++(Sv`Ll$2h^I;hSqQwwRY
z6c7R|=juYH_C=0aI;`UB@r3!88@!F+&vLgZhp|aS`+4vy(qu!4nv+fyEI5CbUV9gi
zECPi~6$oBIVt$U=KE4><_30<Go9GZxXJuERotcQ7kfj!b9YC5L8j8w)>luOh$QFTa
zXOZKU+3QZ_W)O=?MxxGK$@+$k`OM=pZ4-bh=+R8obBx+rKl99sYcD<xicI$Vywh4~
zn2)6)7J~d68ut(}Ol2}tC-k3me3giH!obKF)Izi+o$P@dwV+R5>E8P=BM|Ds<0=FL
z2OGKPo8Oc-H}8UY{&q&24uy9&312yAZFZ1d#V&DfEf*3X9kKpXH74NHM@^mN$C`WD
z1Am(fn_&;8q<qxg@m?V!_MU;fSKEyOf8mYx+&3G!a?C;vBOX>9?C;VzxTHAG`^^+)
zEPg%Rut8TnY*CTpzWQrNf8o*bzsT*v%Q0gF*+?=_P*tePzflX8D=3TWrqVpaWm02p
z<4&dDm5<&O-=FJc6OBHy-x}ys)|`qh+%1_<*rm9zt&~DA%jZs~l6eInk86EUQ+t|;
zM?NSo++ipnLfLS0>tkc<&r>9#!}NU<&>|1;MF~7O;QeW>2wC1Z|8D<#Mx5f+D`OZA
zgb#?F-~u+mDEA@`Jb;BrRRMfN+~ylUQz>D$fG+_;Jexpwh^S~RgMg(1Z7oura;mDW
z?K|c*vT_+_ir4hA%>zhv(4CDqGy;A;xR;%M*(r@_x80#TF{mZO=Kb1-^EpiHIvTh5
z#+p+MY=|(wzHM$;$Pri#4<#H8|2shfH*4RxD6_2h3F^J?o$c*V@)WJTXkd*CQH6Nv
zpMD+5BGt{^NnFglBV}8^!67?hz8_d8W#yVM)g+Q4O-+uwV)kEqPId!b#i!TT=~OZM
z`oaLDq8mJxD{xPkG6n{wNyn*tg;c`&=gny3TN!aQ3n2?RxUd34mz3%}Lk=>@FxKk&
zv^3=4D)Q;cXegK=64Ha}`D}@8-SVm`H0tU8u^$d7U83&3!+5w~tv`o`%9pCMlA2<E
z4`_#_!$1Av>gnOw`SdTqG-%v5b7NYejLBxA!}EBmL<9I=<R7#tVJQwbU#ZXu2?)GI
zi(G5tP=>gJSRM_HX(g)wdwamv0?Qz=+pR=E5>?I;z6E=p7sE^buG5O5qQ9-)=k6F2
z)qlaoildFE_4q2Pnkrx%vVIgTXQ!c|fzPUU0T_}bg6?uR7~TnuESO|uPqA~Ku?0NC
z2@~eQGHhTF3me<i1Po+cit(@PEGBWMah*DTa!(H6S0*GRfF#N2s3_EqCp@Yd%=Bzl
zUn-~L8AG1wA+gp|_P&wPQC@xn`a3_{1n0kC8xrjAF<i}*8zCbTKei(kPL?Ak*237_
zohjgaFOn&Lt>|xj_K)|lyBl6eh<Um<b+ydh`tZWDo;^E}t-YD=b`0R(?v#K%dDIXR
z7M9TXejiwNV0t<d;6TCyF)5JaPOgr;ysdT7F=Hd+J7E^{PXKoJ&lyQ3y97KKN=_@0
zzyARE1~q&|6ATf^J{wF#8y!`T7V=aOhw~8-;0@$lSWw@tMKpr$jE%)wLM7FMdXf;W
zIs&Ml$^3fPHUh@)Nz4<NO-VCS=&DNRKLhbokAs^=24`HGupEq##ztKq0s<b90Hb}1
zJ*>72ezn{oPID%uw*{6YM>CK1NXT}%R(h~sO2YG0S%g~&-B#NT;g*7@&*0Rx6cm_&
zw=t`<H0d+TJGC66x>9%+&;>(qax5oey3haWuo@d_7_jWceP4rLgZ|#)IcJvkcz-Z5
zYF|R${a4@R;(S~P&g2lao$Ir13`U^Hj<jPj*8JzsU+n^c#W}HwnuF*E2avXm1(}AO
zjruOu+Df#y7*CA_39fW?WhJ3%Y>uugA)t`?-7VQ%r1!Ae#S{I-S-`J32(2~XxQ#2-
z0O!XK?P(#U$)|)Gh)E6-_Th4q)s9k!zvT$>+rN;*_4SiUS@L+KgDW1;hP`<M_DA%T
zloF^ij*hI~yYy_lK`H`35rH-pHxxwC0+vk*tG+h#8dQEV)O>F*97Nlw?3Nk_sJ6+8
zAc^!FOs1x$iYaVhrr!k$q+TkKLj(z+^%KDG`$-(v9u((+WDpY*6Ve%*jBmF+OwE)W
z_0zUrZJ9uF^u*4<z`)0+`DvSXl4oVI!)PVcB&fEQXTPa(5ga|LsAbRp`yk=q<0l^6
z4@$zDxm<^6Z=#_E65-DF!2fb@G~-siIPKqtf|^1rgM)L7`;zv~(c2qAURqonJ7Rlt
zs*^FjRmx!M@MO`%&24xhXZ!3@pLe#~e7aBzN^{}{OgNu3Js>ReG6<dTcjO=}Uw8C=
z78VxE`3$+QwpK!=rb98gg@Z^_yDm+B62Z4hNq9+P!-;GopIRUssS2{Y=sZV%s68<2
zB)BF>OAqNFON$B+)Jo+vbz7^#Tzr#M;EwK&^fTz3m~XLIn6ClNpP6wlTM~KNwHeaY
zotDkDT#V6)!|&gkMJFsw^!Si}`C}c#92G2O3B>t_hI+tt>e&w7?SRp5wL0(jN*ma=
zSh18~bQa5c7AjYS#O*=La6nAb`Mqm`x@%YcAcaVMuPPXp=ZkZWQ$J-|SeS5VnToqK
z<Zu1n(5Y0o7W*~doS&SK^w(JPaX0U5eqLX!hXV>=<aZa-Zgep3#SuDzj6a_I#SoYH
zwbJ#bPfb6d&yomxsj@f+1xFOU>O~U*2H`k#;d9&j0LuiPruEg;leD=s1>!I9f09yC
zy=2n<!Y`_6DVX)ww|fh~UJ4&S1#BkZ;o$aGm-D_J``XX6@LspPGB8{=x4r3Yz;><f
zb*WS<(DD~i`Z&SccrsO2yqzKK(eUQKqi~`5e;);xBW&i|l~!+!=8d|%pG7kMsu~WY
z$UV^LP?7=yj#a;t7_|az!kbWAX#gT|^fObqN!`D^A=t;164P~~+fEJ@I{d)FVP6~{
zJ24%M*PqBFnOzuT5G=cjAMX`)Q6z$DlEN1{d)xgORZ(&^umqtuz<$l7dwaNyasxvY
zB;Bs4dwSZUmChNn!wo=bYG~l{T3ggg_S)?3{6?IEQg*>7&DRtBxcTBCjg>34)7zVA
zrOHEZ<eZT-gUmOUsULb4x7tshQmL;){T0N4ypx{xtqTZP0gY%@R;-5yDM5&+(_%i6
z2+@|dY1E0!9^ua6;cFkkj~{TOO#2*{G|w_ZG#x72^^gl-qH5uarGh~#Zsbz}yK@{T
zEnf)nXa?)Wi&Dw~jdC=2j9+m<K~qfH;I?$`U@d9>=*b!e_m-MEquLh~1%eP$y=qCl
z@R+*>hxn{|Gz@1p7TC!$wd`M>&>HkJXqp<hJ7AL-)?p^#>XkgS2Tcw4FPh{n>)P{3
zdBm5F<omi>8;-Mj$EjI!!TYNvOH^9$GE5JsnmNjlUqTLt6h=3GO+_3pGvfZH{Q|P&
z0HJ>oEFm&jfDb#+7Y4a?Edp4*5`>4$&T1KO3W6O5$Uy+No%{9>?grxns6&}AvDkmw
znUaTwhU^}0PXCcJsBR&!14V`y59Id%#(?YRlK28J5H=l1zkM+x1HLEuLT8!ZCvo;9
zfe7#t5lROOORtk2Kols^&0xZ}8Lf(AfuM506h|biu1-<6WV(7dIb{S(JqE#eXlqX~
zX_(-?aX-{;^GadA=^qn#U)r;&ML|e{=#K#Z`iHI>T8d<8CwC*_n}3U1%*IQawDb)Y
z)(xM2<J8xb1|w}0l<DYmaqF|P9(1l0D3*Z@R8({UO4teTC!d{3OPSj_UPCOA42IyM
z%6Jp$HCEY;67AIqZbrF(e8p@VOU_>53Fmpru8EW}nxO;7V8+8w&b8dEB~9qEGFfe8
zfb7IRJB!7HL8OWPHMr|nSaM!fD|&rMM4ZvvSfW&entY<w`i9D)Kknz7y?7v|DG~&a
z{?e%^b^YMfxf51594r@*vpp_W8Fx^bE!@`EiplPaGDJtOsAy-ZBGa|p`n8>#iU9M_
z0L(V%-D%yasYEE|#SsyO05_Uo64di?SQ0NSo7MfeGXfSkOoR&PIcn}>117t~1U`+V
z_q!&^5~diwKU((DA$c^J+r=RvR!Uu|W~M_N{i)ntU2ip8Y!hqG-aD|s(FkSdE2l+8
z0e*ipprGU7;%e#Wv@|tA)dB%ZCb#uxFK5J%Z<(3@*4L|?*V@4^0oQ(Smyih%`WEW!
zQ=X8yfLsU6_d=dWnp_X$IRIyVo`C57j~kuzQ8a^fErR@u3bX?{GSc2ATXT+Bm2yp)
zr40fCSc!^D{0OTZ7pU5v!V^p|U}vQV!Hab=5<`eZ3gw|n^(-05RadI?)_!NaGT}Sl
z*NImH8{BV(WNtyf*R>u?oKweisz>)a$`uDWdmq41Bx4O{iZS^^l=6^N7*pwVJZEAo
zxe-bLFI95oGBF`gLoxYCm_BWbBiGK6`!v*5q>x`%gy!zCObiFrel8`E^R!7pBZaKX
zC(>lvE@qPz6KB^|m;BXr;S@D$7P;S@^bu;g1EXW7@{G8ASm51Wp(>J4;DS5aQ%{)Y
zn9kw5rWzPWiMOeEzZU0bg0=&58$79bm^*Yz&>aOZQB=j}zwPXbKIbCQpvG#z%uc;J
zC1YGn2+vDTm@ZP(mM*w5XDttkS5tB5tZzgY1|2^4o0!latu~*2?3Hf9$N(N_5{zw1
zo=uWSvBGtlK<#IAcY}F^sjCy4nXVGO3XlaK1%|&}ePd$`_@aGzBcrTFyJTQw08cE;
z!EkgiGCn@{ue_}6{NjR#mp3%gqZjA)G@_d7*%Q4}LSk{*z*6J&f1i4?de<j)$W748
zxU*InA*7tbS{6o_^v{S71!d3ebiE6UMCOegGj{{~bf#k$^xk7<;4=O9B&oosr?*B%
zQ&RODc2<QKa_{e@jyzzfq2^vdPDS$XecaaRHj|UpqReGz+78A>4siky)E?;0&!4B@
zmaZ(xI?+A~3h?f(d9BUQ6X4@}f&j|h-CgH%aRbnNJ2<dh8Z^7_3HfKK#Us1{AYR9N
zi1z>d!LKdvO&yRS0Rb;oO82<2GWrJP%8H424BGV{SJ({g7CJhPhJp3!TP;q`(Y?Je
zxaOvU!ur+Lg%7uG(V@~SQw6gJb93_x^5YP0p4eETcDsOqHYaay$C$IpyvyOQT9t<S
z!Hb}`Nw*#yohsG*Hyq7MU&Q*lKJ6@#P76Hi{{Dtq_H&5S{LkXz(ZKh>_u=g93~=HE
zeNo#prhfm{HZb_c+@U{nA|&lk0`6pByH~@Q@!w~OZxILb^z<LOTSO;Yg8-x<;my~S
zmQKrNwlG#yOktUA_9JFD<ZLWy%_&2=hZH<y!ZgK%%hf%iVfXNvXzA)*A||!&K5u7z
zRsE+FqaH~mq65C2V{VAG6;UC|P@%*Be8gg6-+!Z8O9Xp6_5Z2QMK2HE58k9s?>=0N
zzzX&M{ih;+e-5u$$*eTC^rQYGm?;5g$GzUyp183)+Jh}dOxUyws0#J9HW}$W6&2}W
z@NdH_>73X})QvzgskW!=uPiEpoOUB>pO9otra_9ZP@f2n03u>u(spb``ZMML=Sv;>
zvmWkcMl1AS|2csVmAUb2NGxQyJI;!V(OnsD78Vv4?M_&#y--j?doNAZWI6(=#83gB
ztYaJ!6B2Gu9<a>etonbR{XrA)U*0jNDBqXI572K$KQpuF0?U=7l{zac0DUPNqvR(W
zVNLt22Wq-40Y52mjttYtC3Vf24;MC%St51%4ZoY4Uw=(rp+ZhSzerkr|I;eAw%E;X
ze?=m<R`cIFMMbW#wK8u1m4U(xepPgPxp8GwbRt>%O6xnlfxGTdvfKSk&{q;nfbu-{
z{a7~ulTWnWyEiHwY(oj(SfLlkz_A&BC9Aa(1b5ZPD+i7DKjBZ5R8q36tt8Vk=E#J!
zjSU=Xze9s#V`gqX4&tN?4gL0}3ILr81Na00dBGu+lj$Pp@j&`nKm!Y4sM{bNSXo*w
zEG)d!(*q>b>EFNW8yoqBgqCJ!d3kxYnvCxd=)mQCO&%D!Rj;pnZuI)CvhoMHfmhhr
zU~+oAI=-&15v=lU8r`3@g@W?ccR4b+sWzWPNAG|8mbAeEsrqNMfOo>#zXQ`UMTICK
zzx2{WJ||QWx1NQO5#J+&@wSf(##wReEzWCW-si<>BEOlnPjEw*bj-?Q{k06+W4g;k
zpM7@%p-$P@zzcWiJUB3bgmzh9E8OT-uu%T)Jv@e0UMk1}YA;YS@@kB3x?TPvX2j*o
z&#Q`Y&&+Ok)=-ak_wk+XiRb;{Lh7eQECa)oFJx^l197<KeO0F$(W`B@881l&x99VY
zOCxE!9NUlAvK>#&ds~A#ZLN#;We!8XQ`3nK4r5@9u1<DGdIgskYid%bMrx~_+ZUe6
zpLNAtH+h|%Ka~FbsrYA8`FOs|KM@H#SNWTXXoJ`Tu>(JxGO2_8u;$uNmyMEtOQ#XM
zfBGhof6xp~WX5DuY>2L`skU&??aYUv1!wu;T{{?yJ7`9~->{rlxbfg?_&uUTLgIKY
zdfJomMNB#0ZKWx3)bxDktwzyimZ>br?JJdaKxN~!^Lc*K5W9i=sb$YzN}rm-^7FOA
zAbMlqw$_%BCdHF6Q%U}Z0h!~&i1;V{d-Imnh(xlFR~*dqss8^^+&wk6?(zPk;6z2u
zMB~Y`&qYSsih5N!tqLRk5^R0WE>!@T^A~1WCntqqH}!X<1RceG|3ra6h?T{z<oCFW
zUXmB+AEt|lVRhzaZF^8Y?u=Cs3DwsK4InT`4$qj_>yr~MEMHpoWl<5u;u#2g*NAfe
ztSeV?v@5+k{OJZ*bidq0BtReX@oEO0Si8%G*q>g}&W;(5z>{wL<8g8<p+<ZhMFn%c
zX>hGSuLCMPH+d>(AMBW!_xj_b@%6!=1@0A5?;44K*Jp&QJM)#ED~tqRp&1#&;KY}K
z$t~cv0WR@N(0n71GZ}!Ghx_9WF}E!_kmPGsV-3O$K&oOm2045TU=k}RDppifNLU6g
z3=i86CeQ*KDd3e#Mn(qQP^+pXn4>O$Y<%na2jpf+9t5tbs!o7~GjI<`NKH-6%=Fux
z$N@^E#+H_I){pg|(*Yb$X`tuQuOFG2nHd^l0tu2G@GI=%z{1j3$Z?Se1dWuImICR-
z=X4OV1JI=0ygaasQA7iB{Ls))Kve^imJuMJnVbJH3=p?-bnJzB@8)J_XNTHxU{G9N
zUOqBC{T_7EK)_&RV`HPCfqj2)Z~(}#`ye!Oj*E-SWgSE-=e^dm-PT$M&VW^&!23g#
znjj@b14E6Pjm-&Q1n%KJQBhIQ(9pX(pkcSAVqpPXWWQ8qVc~DifUPZPJC#q!ZMF6H
zFL06$5(Tn`bP7pWLJpHoedjhyb8~Z-Uy)Q%6iUu?t00fEP${hjuz`-g>!jv-czAgI
z1`BY&hwF8)NI+>Y+vgetw#6TT2E?k-X>(<EuNkjSZ}b90WOM;duXUlHtLrHkA`A@;
zfimUa?ylVS1zZP(Q*B3V=|SObeNIl-+S)Tf+YB0Aa)2XAsNLS2bHKfRHzHa1#}C~6
zs$zXe=;$vDS90&I_|{fo-&SDJ3350=C`PArK9}%L{e;cjP(X*|HyV4>Gt48zrZD3J
zBtrm`{qpI_#d<do)ebncKvg{<d#EA;8d9cYh3DcUcXCpWb-;TEisD%3^VjIo?VkTJ
zLSb7;c#4--+Nukrp_6l@n9IxUObvk*{a!^kSf~3Rrs9}6uR0J5)kA}zjJ<3cUoJb%
zPyk%k=2dxFJIjRi(8M88z)GG2D^rEymU`{H@5rY)ITFo;x;L2QTln+Z^fa~NvP{Xf
z<nZwM`uZIo26wE`h#irH3sJuxr<?APOUt_^{jjC<)zWw`tMyIZCR3!@Y=4O_E_x}D
z_l&glj?e2H7wwc)tJ+von)V_BPhh#P(CK0qnH2J#|6X8A8-^4qnTJnt-&FjytG_w@
zA33R7Ds=0PAHjwZyFxp&#?bHD-#z|zv9WxwrCqxBi7hfudC{zXeqlDajucv$H~4OB
z3~jEm0T-t>En}{`6CM51$q5ZGPx%GpeLrqUo`)bMub&nuvYzi~aW2o!ruX!G1!EN8
z_RR9i4%*M@)jPzmPQ`Gg>O9Q)+1O8WT-Q5lkP2#syI#;Ght1$O(h?R|RM3k3wHQs?
z1W6?z8+;Ea5P-l+E@tqf00vgu#s>HS3ra3o-p_jM+o1ewT3SnR=Y3l!iT(K($R_~}
zJcxVwsF+H`2y`>R>$N?)e;7hSK!AAsVph}2!N_O}WS1izZmJa{wfPE|D?-PuQburd
z3rkCXcXrfS*<e}!sNEoueR5t`1oZ+C6M%q)+Y(SoWix?<3&J>9J1};N$3(+ujluEo
zydZ?pSp1_r$oWIZp}+C#7Woevd<$=1x7jMq*zjCo3E{CwB+d)r(U`&XAV*O3B44dm
zQNPAyp}6|gW||`SYa)#6{Bcd_)RK!kdoUrE=Dq*<AHG)4wKl+#9&h?9R#_b?r7)N%
zS0pzELeMyXoh?u+sv8|(6(EOC1I?5^sAdwX+fmrqoZWJnH^O#t`|))RHj`$zXWKNP
zR=k7M`z8ngzxm4I&IExu4?*38ZlgXfS_B1BvL2KlI+ByjSa<T&B3}y&ny&8g@h_}E
zmDykKkWa~Ds-RVAlsRuYV`O@S8NQ59Hv-H|!K!Jc<ME#}E|ca<+-l-i-W^kaHdE!z
zV8dqj5)e;YmcIQXDJcmG2A%^W$fDHjHJ7ccJ_S7^<6u5=OX_!i7R&*o0a=4Df{B`4
z2(BNj8fPLivUNe(F_AMMzUysb=l~w}oABXMy%1apYD!8dVXN*nV5|bb&K~6YiLb4e
zL4~e-W@8|ecjE8E?KweEp&HC5=s;UUr*P+Y6-bPWlEWXEUL<C!>p)n+cfb>UJ((xV
z&BaywIfaHGXt9`F2)m~Tx>hkX^~DfE=ZAp=`BN?y!T1lrkotr{tVWhGpvDmVcJt4l
zJqqH<v|rV)LnlLETmuM&kTt^ET<Eqr@t3NRF1dT=LlC7NXCNZEkPm$<Ac!)bOu>!+
zG-{C_53UO96c!~Ler+Mbk|D+ibsA{vk!E<hQr!^sIoPSq2(2bv05R^xVW9-IO$M8Z
zrixqsrd#bLo9dvV;pGr>F~ntMv8@!b?zPYSqENpD4oid-_2#~s($+haJKN$u66BMy
zAT)H5@=Ifq7SY9f6b*EClfgc})Z#(}THz19{q!i1&(Yj&JYMIsI)pIr7DlZ$e$Z%0
z=wnVZ47^NC9lC8BKaD$-vf(JI*{okXFDA`ZnKBhCaXy9W$}t2QwO8sTD~jCU5ohqJ
z<RxT@B&W3W^)bmKBbOV0|NGaPKtLTMaji+C)m}%mcYj9y@@h=bEk6)izkX}<TiU<l
z@3@#ICc~LR(mV)J_qUc!O?%qq1M&(?x^03fcd}o8AJ4}-Uq?B$wWk`I_gi(DQ_JlB
z>aIylK<0B8fLRnkCUtK%+q_t9lbIM>Tl;_5`l_%fqqXg!VMyteZlt@rM7m2rx~1Ep
z5drD$kXDeA4(V>`P(VPbp%L(3?!6EGgYQ(~Qik_k>v`^!c8SJeWgbNEyAud*^N>vG
zlD@$sxkE-_&462pQd3J@P7iH#^07uSzNh9YOgsCLc3xokd)3VwvVHkWfpU@-Cb19|
z{nP8P6v9vfQ*lUroMpXQq0;-#;>hh|ZXQ7XU9QA1EurM7RK-Xx`tT;9c`SW*mY?yJ
z75sVI5AuNiM;RH^>DTit!4`#<tIhYr$~8r%zb4ZY6MqN)i97%KGa|}%j&+GBpuG9v
zPrP#$4}H7mPb}LcGl=4wnttxHNL=G4hm<aB6`b+SFZJ*-OdHOZoK{Sl7!PGX3PQ3G
zuV+~pI_%!_@+oL*$C6#Vm+JcYJ-PmMiN|Y%b7YEH&PWojNs&N(vUjR!ps_XQDbeM_
z0=xzt!1th>&5qVqgoYroK{DuNcZh@ocNWsvKIo59)F1arCo(Yj2HKDDxBvBq0nujS
z;$#+IIrzGnnHgJwM^75Bp0?9G4;<FN+WJX<lOS7YP)yWwitnI3cM8}}sPXWmryd?2
zLPZ<Cr(|SZWFjp&&6Z-kW%5(|NWV-WO+iWddv|yD;6R0u;SJa`1}(|??YSLh8LAFf
zTeyq}SucUx>7V8Ib{FFfJyoeRuquK1!R4e>sM2>eMLj7tbW`(R7j&owuL6F%r(oY*
zbhELKD=Xv*T)rT(jRE4^^-|<6B~gnudyW-fc-cw+C9C@44QM%Zf~Z}AqB(2@0!fB6
zhHxw_tQyl+-d~)S3eP#~dw>aBc@6Zasy-?Sj+h%IBS5fZ^FYo>8F#l_NCO=NYqHn-
zpGB|$#9^qWv4N8?VIh*NVnU<6&l*X=LcPOpAeJb-Ju^j3nTf3j)gD3Q%Tw2Xu2-!R
z#SxCkcEIHt9sv$yZGD|}Tnh-FQC}mlQFeg$cYAyLvw5~2Gu^jb&_>AzGRXmF^Ms&K
z%sx8)3#xjw??0be0C1@dCQ!W-+HSs))Up9uKNh)2I6XNKM$a+bhtd4l+Z((x6hLFh
zs5S2tWxVYI0d{nd6>V)DX~>OlmBq*M{D4F7At>EqQwWNm>T;Vg`P7e>h&%QifghSq
zQW~}tDy(RTv~36nj#6nBq<j63rXrxPOv?kHBbqEuQuRrN@`ff|K_Zc2-iPwGb?)1J
z;6uPa&K7VQbl2pYup9^ORILwSDq~U6BSrSKd=r)FI?Hke;5UIY1hH3&9)$RqeK;j@
zmUOs-XQ!tYap*>dZ)Z}!tTa04{MP6QvsHP?0)dpQ0z~-jp;xG7o6k|UO=g+;%{{Qu
zStVE+Lek#Ks7>ld-kt*o^gnLZi@1r59!~3Jd!w1QATvwV${D53<7uC5mXwraj{=!{
z4KWm>pD-T}!`XZvD)-c%wVHqbC$YE<P&>*a>3iOjY}Rw0;UW6*J0vq@&^1_HALT69
zzq+e`<x@w@3#upego$quc8nX9#oT))xmLEfmuY@w3$%Xs@9m9RY0~M@P1IK3B*S9r
zny<-1B#_mtBREY-ESzTgn_LGGtTkcJm^W|JMW^-MPsG_;?=(T)Y-|5@gCi%a)EU6~
zZDKOhvcg=V?9E@bLa$r6sWK@vHer$)kjc9lWYXD9A&wduoD<-^n*V6VxAj%wori@k
zP3+2+Wp)&#5`l2DLj-rPoYW9~6fqai)~fhP$XCroK8o#)!FU}xSuD>z>sKj2-e_1a
zivU~$X?(ewWM=mBF^FKxox~w4&Yg~8*ybO%!sz)qNu-Sx40Asu6I4T^G<I?mEH5WP
zs%~;*MMb`^d#a}(&l0a+oj%+0DS>MqBijn9NsZm^JtpkYKUqiTT>h=`on>Y8Boh;{
z#YmfX+E`leRvq_%<T!Q(eiP5-ObH5>#A2bhEoP!AJ|ssEHN69uE>D0xCqTV`voz#4
zZWnnx!)hd!O}o#5S3xBR^*i{~6@d0!yVd-!M5Cv$2`K)uDg0z=xz6R~ImZ*IwK2!{
z?lvXM2rE~}IrDJ4s5_)n8S}n|UM>pD^2Ik^OO+QRT1H;z^TJy4^70E+dPWE6CmabJ
zz)S;B=a?ON?_`2S0S}L(Z)(K8%?-%+jnw&+aCB88g-19-kFCHt(*VM$dC2W9l!$HG
zbJj>Db69@laQGagJxaqxfiaxt)nKBHY!r-Agj!_@jCd+!p?Yw(&zz&690N^P!BJUO
zQBi@6jW*4+$&qNsL3^q)`B#c<5~-2xm27!wRE;B`Pf=c|?77R%hqtNx8E$D?QJ%_|
z7%3XL?K+tau1B$GSb@GJUtR@E*oOa4DpOH5Hr25l7eGw1vS!2#J6J<g^t(X(Hp2(w
zCWc+Fg4{I9`NKOs93T>crWZZk@AJrzqogZFsB@=+M@!uUSC9D(h~CK59sjGn@!};E
zB3Fvo!(j{~zQ8=^)&lB$1cv)FVCm8X=#Ho5E0${DufCx=9>;nEcBHHwKTWXc^@@|K
zRO^5I(W7JzYHLAi5>n%8{VOG4_s-rj)irPTaY^lcqO9`c`*%R;#HHXHf(*wIEfy7Q
zVR9`iU=fOl0o$Q844Et}9Ks!feA_@OH{)DHzfwk!4&gvVMQWUvu7RaAHKaBdBXGwF
zy?G3}0|lWR_y3k<!?%>#gxeqltNLZPWV45l&xZrhd-&vfNkKC#J~$}oG(c@0q?iD4
zGI=@EXK*5Y1m#EIyRGXgQdUUC_Nf{?38NHvmNNYYU{O&~+DOE5c8X~1JVBW;<S-Ww
zxi5vZiOC7d(<N+*P}LzT(!^t=kM4V*uGRp-O!nfl%@{X1xOAAlTVfBUlG=NhV=RK3
z8b^5I=J5yhUz&j;k7mLu#M3#-Q9i?^T+*c~J@!4UB@HErpJ)s=j|cF#bJKV_fHVTo
zq;e`w^#t+=49*xoz}5GGjTn7!<`_2>$KSfFX11`vB-6|q^9z=x9mrR*zST!DtUuX!
z7KQA(rn!ObbUkEeUux9QC>Nc2nw(OS`_0=&9nGy~ENenqJsh>NzJ3$o^mJPkXRT!l
z$Gq=(9RUj+GU8lc+ac?ytecwzC_RGoK&B@1ZtF~?VMU7ZgfCz27Vqav@L34<pgtlL
zZBtu((4bDNgmi2J(!7n`0QxR=9Ft_vop8Lv!-n%7!-$cY1R+qGD?%{PM=%)SXCd!u
zLIa9`1v5DSf6$d5_i}(4h*uaY>arp3(i?U%*}KuEhy3hh-Kn3cP;9VB#CWKRlFr~Y
zl0}{<>&rskW{X*;Z?U?GW9ZOPbrr4S&!~qLw9jfutr<IIHL~sJn1UYycF8TUVHwYK
zII*JsZmWq<xcPEu!XAr%t~9lxhKEIJf{gjA``cwN=pW#Wj<{^|8X@IZj+UsWh&@`d
z`3o$4If@w^BV`S#N`J+CV_&_BuNW%i^LO3kOn5Kkx-1)FPbqFlM*fA$C(>93NG#^=
zZ$+jh{hZC3BJrYdsn}p<Gg%c_T^@c9ca@}BkNUOQh{c;7M*X_-XiJY@aZfIfYvbB&
z7)@ICiijq%7F50j2R<F0wh?7F=ssCa*({O^(4594miaD{M26bD7E_m4->2#^DZ2(J
zQGGmpg6|^SYRO#R`0GE<*P3LM=3VlzvZ{zRgUB3U81gk;xT#M19DBcu3LCLi4j3+e
z1diE95KZ8;(QykJa2Zya-qM!SUiMN0JVh2dj7a}eZ5UCd+t6c6PMZf#i$jZK-r`Ed
zy7Kq&<ZrTZYinzgK~nn<K8Dm%nD(>Q5KT?I)({Je!gSK4;v_<C3SBi@;PACcex}XR
zoQPrz(ybyu8JL_)L=l})i`nfsBZT{w8d}Jg2fUKstQ|_@JggRpVI!vyh=&f`c!oL{
z5@lfS4?I#NzcU<-U@~6cF)^waZbe67$iM0SWH{AQeaB-5$J-O`%y_(cVEe3n-^zuH
z)N{j2GwOjdSx@{u^9viFh`9K_kc1n=eMX4sCv%BeRhF{_gO@IAUwA^IJ$vi*kteg6
zGsgZwFnILlQQ<v-_!?jUQEckdorlQOzU<B)(a1u@CXb_*%0KBx8^yD%$lBP}sfZ{a
zW1J4lUW(9Lh88#@-1xE~{RMH6{$O=lX>r4KG)`|J#D@L7|0xw65fKp?xjn%B6icOD
zz8REc&(eD!!l>6_LLjke>AeMF5}1$EcV#$f!((X;t!OqYQ;s4e>xiS6ZM#5E?x{Et
zVzhkbzqBEK`M!S{7pbY62qWCwgs+q?dgQ6!-1CfDV7HC?#9>?@rdX3Ml^b@RXSrX4
zP=t3kBir+G8T52?AI&>ektIQ{ivtukkvWUEK68xPf{z**@<ct$m|NTdTWvCxyV~FZ
zi$V|!bJ#6x9PhC7&pb7-Ve9(-UP@~17q*g?HskbWLTrd6M~3}NOOo~N4tcm~VW6Uf
zvphE{laXo}4mR;nAvt!)LCuvg+21WQ^}(#_E%2dU!3wNf89NVToi0&gqF%K_r+s{k
z;_6bS&#_QMqL8K<x4ka?ez-7d^o5AsV>f%XQYQ^bMsgVKV@gga!WI}-kUN$azPu)H
zoNIK*?tZg4l7cdnKm>X2Zs2-+4Z+ewlmhzVUcLqo=p=e#Nt&r1W=8VB^b2KBWFfvE
z6L4B?MzZ6ckj=+Tk%@dIJUTViqs5<>Y3P3AE;E&%B`Ili+N#pJs^2Oi$UO~la@nXs
zwoV|IFvbm2RM>rGZHUw4@Q%xVSW6eBch<M7y`3GU^aq&S8lN*l?Am>#AQpnC$fOnr
zF)<xF<%GMH^5qS^zC=tvCnxl?bW~cte~;50s2@vbz5cE!&+>LTnNg&0tHWQ!3VK&2
z@orUh>y5FmuR*?}V9=L@0LXm5{BGA8s}5F$lBe3+#6;%`3I^9zL8=`e&$-Z=IFt{D
zZTx6`TvRZwmz>2p)%v@(*2>Keq9Gj+MiF3_d-z$v-VNjK$70DYOfD$!hz*4AaEt{O
zAy^o{tlMg*2!ov$$$6i21(G-oKWIa^iP3Q$5g-JyfCC@bE_UImygnQK)Z=l0{EH*&
zR9jCO!;sOa(rxXFOtGZ>bRocuiHBC2oEo%Z3_JooAVViP-Q=v*!!KPSnF8Tnu`0h$
zPBe(o{rd`lJi|CNHI?vjz59*S%kiq!#8OU^=D5bUeg9Hk&6le*ZGlaCN5eY(MK(We
zC{tvbXDwJGb`ni55769s6Z*FSf;}4|YDKc6GI_C=<M!Q;1<Btr125%1Nx64J$T>o7
z68<}}Yza&^*~mH#;*-$nTAlJqfY<Hf$eBQxT1%C{@?a)Ctd$~y-(}Qbo8*`x;gtU#
z=N~L@!1VSTId64#N{8$KrR;mkZ&G6YA5%fwH`vB{8E#5bnJF9~rT_sa<{LA+;n*0u
zx9baM2Y@_R$0;KEs57#|sr)IaY>s5`T@*G2m<~|HdL3ZIG|2BS59Ws8{h!jNIgPcR
z+J-#d{ycll)Q#E`1OIySuxfMG1bTVEe)U1SOtqpn^y1y6VR7tzP?Q}}g+^5nz|$cL
zvIyDlUKz)lK_2t&ULou&I46l7#iI7Ws8N#=We>$ctXLn3!vz?x91Q+Yg>vH2YGIg0
zj7WiiG2&;&nG5Vg08`gYp45&yz5po*0F1n6HwePpj6s!`x)TEd9fK&CDTbQw*Q^yZ
zm_fN(3_%dh5$Fy88AK^H5?GA35j_WcAf|yu`hA4@E*fS<PW=b1!35Ihwy(5z0sh60
zoB@)%wbV~cE>?{haE1m40p*Zy-T@zFH!PIyY&3xwe)N<>YeRibF#9$(?)lt@7g-`T
zBwm_PgQe#9xQSyJ)@`RC=cfbIWvH>O)_W?qCVo~84{^1;e4mi80dgSo!(OhM-ysCZ
zG_SV&blJ>*bD&+c9?d4htGPCr2VF$un;wY3FoNZJi!}KE7!+4UG>ANW?o`z7*1f>U
zyxJ;FQb!w}$wR+tp=lgpVYwcT7C+w+)ao%fTZ71b<8^cD3&9%eO_|6p(^3>Zy1S%H
zgdeY4VZ%<=*->#S57$H@8A9zw=b%_`R}zVC6|AlEom2He2aT@9wV=gw$e^may6RBm
z#7FaID^2XwOuyGe!n-WUI8^kyx<-+5iJy%o@vXXZ)ew<fOF&9QNZ<D{B5><PM%f~z
z|G6S_K_G3zglbRzlI?SruP0!JCMTzs)bvAPWL=zQyu&m4HJXP{AcHiz3KNB5O?eU~
zF;RkmSxQdV7k9}<pr0!EWE${n$`BO>>T<*&ljFMi=WCx{+JXRN-ALnT?71e#w5Z^x
zs4%xp{bLRDR^AK*1vDm7YDcD#$Z<4mZO#r2H4exhG@N-Jywp~|dZ3FLKVIkKc!O9c
zjx@fFMdvvEf+WK$K_J5&HFE*M5O66A&3J<Vo>VcOq#L%9L48iDM4K+iov8;K5Cu>M
zE9+arzOk`t!(i%JAl(B_{6SS0{h~Ht;-rzDkrS`%r`?quWrIuML+*PDHnQe+q=iu(
zvc${wOfHRHKysoSO9dF@{1mnyhP7(U<(1eJ`yN)DK6xLn`GX|^j_lyUJ1gdo=n1kq
zRKftN03~{JHbAmPr=orK5D2T*t8RWZgmcuG%rFP$;SvV#WZUiBQu|`XqC1ZLe{C&I
zPi7Z^@Mk%ASXBj5gORVHt&Y%YIOB{9b6anV6i_|}VJozE!xB9^O>j7WgQHy=*Y!bB
zoDBh`q(R#3CoAt^H&bx8YrMJBi6<8T0b`jvHF`eGb;@TC<=UY&H-)>L9jGj^@81t~
zXRe-NOx}EC<Ho{4RBduu^#PQc!!-(X83Vcjn1T`plsMS=t9PO>b<&LTZfhciJwRj~
zs90YHoiq3>H4xHI7*HrVfU|W+NL2ee=Yb5J>%09*UMC$TqDu&{Jp;5Gws1hmSo=Nm
z83d&Dbfcjd#mOjH4kXJXS&T(nZ2z&~9+NTwrvP#XMoIR<q--rq2S`DoGY2cfeufc>
z#TQ*93;Z)sYGaJZeV4*+VVL<ZVwa`H$nY~->=S|*Z)EK6AeIJKCTeLcCM9T?pbjLw
zzUUt22Ezl}D7XdAK)!b&Ex8Tyt-5aN3NlRVZQb|{e#+6~nxasa7CdhwX%i6nQkU~O
z`x@-z5GM|q>-DuY?lAz7W2E)leRvU#L-ly~t(#Y`CMxQ<fl~b8Vh$v8j-XKo!BkhO
zwi7)VY|>C4*20wV-etBROLr^@Zi6eye00e6r?1C>w$`_gS-ri>G|)Aa95694+qu^6
zTpfLXeDF?TV*Q3SG`J_HL=%6NOZz<3v7_@c5#t{9#pQky8Gdr`g?(sw`BPnj?u*L_
zMBOd57<;&NczHSeDU-psadH9e!S_>PsY~cB;VR*%tS#`TlBSTJuhB2EOY1ZCn*eCq
zNJfy-?P}&a_rbxP6$Rqardh3Dm5XzEJ|?TzzP>H3>3`?7>&z@V9m|hhjMSDR$jbbx
zTJL#iOQ^Ll-i53jNd^`=c50_jt+F|__pa)8%#%?EA5p*a4<2S0Fodk2?U!~xy~a^m
zkb0gOvoKF-<k7hwFlkH{E3n`+9bjfX=|A2nb^j!OQSI%7V)}DZ&-FXe#|C@^3;Wz|
zujQ#JZofJlVzUn6=%}3qnS0EhZ=VXtDb*|to~|{$>3$$F4J~wa9Zj3!v$J(u%S7`h
zj~_+q**bsy<Fn@bV=T%{R$M{3zu5w5(YlspQ&JjK62{ad<sCmrOp09e)ALY|*H}Mz
zM+J_P?yA4KN#C$UNNs&xg5LOeSdE36)Ec1|jr(nexZ!M;aiDH~3S!n}Dz7nvz2&yR
zMiq#7es(rW|7C{~EUuO2=6Cb+R)aB7re<lazSqaT_Nq)h_;a0szG2PxKti$t+P~nT
zz?O*b!HbqYX?012%Q44*YCRw#A~G^EQnTI}c+HfC0=u1L<61`lEnN?QJ(H_>+Fj%S
zoiWmuAt`Ci4s)n*hB-z(o7on}g;@DmEDd%hhvFbEed@HJv+uy|`aUH-_<TZ0uUa1)
z9X%!?VKBp;yGv7%GlhwWJ~~IhDIF-#LG-?ZRnZ-x4ZbRVB}kt(dGwMOR21y6n|kU<
z&-!x--2KzYU8?V-e*;6c<1+d!|816!Nm!XU9&7}q*LbBEmdg#6lXN}J+&3dum3R*$
zt|}@HcOa>ySW4*$rY3G~v;1pE8hYl>!(}kV%hz8>W!SgyqGJpZPhY*4K+WG)y+LeH
zIL>X6+=@=l&OSUoegqihd*J<8wb!QJMrEQB@rdw$p6v&$pG+=a0+!DKiAc|NQKer?
z-ob1jREPK@?Tb4rB#xb@Kt@MvytK;$%Mo#bMFXoI*}^m&9rg$I?#tBO<u6O+wE`QW
zNqI|}L@RhZY3i`gsoJq*F{vs(Hab%}6#RdvA5Wt}!{xhOGIcQ!TKp{8=<PFryvfyf
z8U{ChW`s0=X)node|I-BKNCft0|WNw@|PV-kKrSr;fdJw8I(u;jSrZ<vgtGGH@a;;
zwTaQfg4S1n0%3rBi@binUFZ%%D0TV<1|q*IP!s+E!4|uRhmIt$UHtunxpJg}C9+!Q
zH#v5Q!*0}YE)->7h^;mmmc2Iyzf9NbAA=EM33UBW*xs&Up`qHP^J;rwV6E^rfq)L0
z4C!v*+6QP+Abf=R0NvUu<15vFSCzk1tn0hfEL+$Rq;zSnEjmi=*~rhrbG_j-(V_3V
zyDbM|O<BrH2dDDbb0x$mKH^}FNBLM(Nd&@aRYd%q^tsxp!~`+7O3ju~O+o4{eyWMu
zYV!*;UdvW?gIH@!!Zv3kP6iAbt@2SV)IzVZ^bS6|)F@G3{mIQ)==yR!{mc9c<f>Y;
z>RgZeBFEU$G9tMbW^F8=HbS}2&tJd@u+~0c|4zlwL9lI9Cjg}jIwppOf`#v*xJ9C2
zO>-Z}G;<aKcA<pb<+_@VrYQT;{db$U|9YE^v`yikI!jSY1)S1ukU(nMWr{9`SaJXE
z0l^^^;q6obSLqLk6t$b%Zm`z!vJaR9Osn;w6FkI0#U<w=#I+SE-K4Ps*lE)UIM=7s
zmem(tVjrZZ69cwP;!vZnk83+x$atd<K@gN&G8tKHtEuU%gv8|%wH!jDVH_vqzC`h$
z`#~S=3aO$wW0~MDsr(gh4Wa%?(`2b&A0Pi%e|X#VZ=S=;SXV6MEeU@Q;>%ZAMh&TN
zW$ZKx^v%gBpMD&trY_)6L>_)wM-wfhp~heJGts+ZVww*vb5Jc4n*v^{-jHpU^1MO0
z{%)8~*zeQ=azmjPaCz7S60#OCwGsVD1rxM3VTFe&z{G@0i-w9isTt`dtBtZ~iqjad
z6E8Q~l&ZJGMGYC>iJBgc0(6w};n%p$Hg9&%>^INb!V>y_fgp$+Q0oe8RpJK`HTHlL
z0gDkOxRg1twNlQcYo}>cmU_d{Msn}2j>N2o6C)y!*P<F7KqK77#)dIsl}h~`ooaFe
zm6%T<5(eV|6UH*w4=SR6`+tasWdMez`NiDCVal3ABXC>JGYS1t4bjjm{jG2qSyI}}
zFMr6CtqE~a=>lJ<UgfA=Fc$fhKv?<s`e;?DPf57Y__OB`vz@drPzX8qlN&cj^VC1f
zg;AkPETKJ+aG9$;5Q~cT)5fAhzW!r;u+aIzKDdN&-H1Zk9>%_n3F_NVmg-A<uo1n(
z^mscf4*?&nrp%22!@$H01kvXJgBa9C<9GrGQCA67Zf!$Fr#i*GAV?oQVl`jWhP4bb
z%+QVZ1CjM`47@XKJ;cJXX-$B)@?-R4dM_3=ZshfFe_u#XhlM=$l4X8kB3{84<mfcM
z3)dvVfu9Xgha2uA1uX(xs%aTsWs401xW#L~IHX?n9usw86MILcI_Bf|l1o{a8_5%D
zhvy*eEN6&i_|uB6GBvHCsThzAfxO9!BtN<-wZXc5jdE`EHFe+V^wAfGmoye4!m8+W
z4FATYezM;hmcxlj$!lSEWHi4u&>6QaxH|V<LNj$OOVNw4*bx%-clO@-Zum#P5h2b2
z%-}mp#>ls}5tU%EJ=yHu1Y#f1`th#4T};66GU;HZNDl2n1}$ZD2MbCLa?;7^zgEX(
zh$FwNM0A^bqRp5(G)eeMI8)sa1HvTPV9srB-{i5Yn!u=wFV1rUiY)<!`JQnk*R|q=
z&|O(1`QNT%L`w>JI!$<QbcZ$zaqdyzW}=ba7G33qhw627rX}N1P3x(u7?OOU5>#Ww
zy6mmsekzZ4s*E5ErHL?M;daf1ukE?(5!gdJ$hf72{68Z+ZZFZwdC@Q~jnFnKOVIE{
zVEM=f$jFQa2HY5Ikg*HkQh&^7VV9}1v|MaE!@$;SQ)_Z{RaM$DsdcD=UrrR$I$*wl
z33W}=R|fT?OPEyT;>>d4l;i6nj>Gu73b`eU8xUh@D1G*qc+A+WNgkkB{Do33GMUc3
z@Sq`@`S+8$VUHJK8_R4{%uGxLlg(fU(SJw0i=N@=9c#lfNIWj9N16q1{)b$Ul$I}j
zc|FQrQfPmhA=>LfSmG2CGCEgVkFj1PC}@R1hO;0UJFui)k||qbecRjY;r#b83%)Ie
zhKk0H6kS`F6W0}#Nvo?)mOYri6dRwJbjQPrG-PgEIu_I`e?b_zzV1yat4FEsrNl1k
zbi0c7T!crQhDMrG-YQGd<K<30jYk7MCi0V2-oMNTjLkYsV1L;$4Y{#xrEPZ77<@ha
zNe&DW8MqLpKbFQwAFcfWUdfQXQ^_C=xN63-WDh7v$EgJ2jkJGyOQLY7RAqh6zAL~D
z{Pj>(p1!5(S9Vmuk8`SzRPzOM^;W&<YXrq~FWW-p;B=1K#MG2@?}ORMZa>zZEK7Rp
zV(Y)nxv*$1v$jUduTc!Cr?()~j1~2|SOvtg9?+{$nC)?iROdDi)StO~G5LN1#BwXw
z0sX^n1sGe3qy}aF0tVz1CGOjWl3ud~=n;``$hH|3*#<!FKQadh+L-x3a7kH8${ZlT
z%i`oHtytA2K~}8Suf>V4Uy%-ba(<gPXeQU8Z_|u(`e6)VL7~}FZyrICd`D*|r~+d&
z5CG>zIHE<4JC`RMs8kB+<NN#o9fIn6W)lX9__{qM`NtU$VrMd~_Npm#mz*z8ZzwK1
z?S%;+7eK7|N}5xxk^EbvDT!-JQji$%mUkXWc-xDHOc-q&Xa&jlYYjea09E9Br;GiW
z@JvYSwrb6^JCzOc4veLP)Ij3RV+S(hW3h<EpqBj8zOk>l3_{g7oI*PwarPW!oFjix
z*Jw)1&y-^+B=O4ajzA2016IZ+#|0qpoT|gpLVp=`j}c(OZ2bptRrnKyudPrluv!Qx
zNyVHIDZW+epgHG@`Emw-0^`yW1_9_g8y4W*`%~^h#;XV=*U->lrfjmGk^O@aZfVwN
z|HLF_3S<}4L$RqPb0N<~Wl1ZI8utFF2NMRiNJFP1a3aL^y#VX>sj?5buyl7<+^`Vj
z;Cc0ftX$41OD5^sxYT~p(;UYvEPf@tR~?%9`#%p3M*KoI8|<cR7u<b(Lcj?O<e10b
zzlZ6!`<_HyIgsC#nWaZnR8#;ETp{F-MW6i?rq^%@*S`(vb685PVG?Gy_pkI@?t+hI
zwJoU^w+@WAu7QO|>B*`q#C{fJtMRz^OHXau71k@(Vx8O9ujt+G(o&Y37Fpbwo1eY<
z<8N_d(T73s8L~BzbKdMc629s(HeBvyB9oT*CWDhKPqa)&LpBUv0TN`8V8L)}gcnOs
zt^Tl9!e^zdz9x?w#!i0z=2NnO=Gqbzu3LZiA-S%O`*wGwPpgaM_Sr%}bvy$zGnaXX
z;jvHS#?M4JhYiu~7#bvJVNSj@IIO0W>z<K-&BmCd(ye(7M6uoKM6dy+ECVflH*GZi
z$Y5^;vsxO^p(ej1uEI^G)w99G-WHrLIXY*niHMqx-$@>SU&6T>IHRRvrOh=~ssQhP
zLa(@0y_4F=a?PF`gH+88VWlT0pKl?^SvcS3SF*$@f&`~Jp*N*$?0l9MxEt#4H#9%Q
zVwU4N?H1=zh6vNrhI(y+4)>)x%j2p<8T^3X`87UZ{dXtu55x}Yi{Q9V@>S>E6^1HB
z4Q=rcd$zH`<E%aiv3TEI9H3wla~}aMZQLranL}#HDLQDPTEdF!^#p?WuY@S^pqO)*
zxHyyuLQ>s=f#5NV+`%7m??-C*6y~g5;D+@VAay1oexd;vENWx-N<u-=aN#Y$1OvSo
zNIBwkOS(Ki|5~nj35NAAq%Xc6(nv`35nv4UGa73BP&9lJB;mD>_tb3m#J(AbO1f}#
zQGA<`E$B$AP*G8fr+^{+E$P5v8VC2Y(K!^vCs*5I+cCYx-~5DlA__zEc+emET<2Ak
zDY-2mNTE^4oC(D_gs3PO^j@YqZx!FhZZ-C+5E=sI>tO5!;pYLG{jWYNjG`kCgch~Y
z(P*6(YTy84cz+>>_M2%cl1Xx|80<}q&%&RDKd-am^0w0J;=ZG#E5E}qO||>2NqWav
z$YXhfW6Nh*`Uj*lGVp#~(&T|ozpy1_tPD+fQw<&ER*CTg3KpB>!UiPRSkgaL*%&nI
zKAu8hD1jB1-zO-fa%#CDvfXF*`Z(|4d$H+u&=zc_d0gX0Ug_uir?qbDqR+S!Bd7d!
zV!T76?}rDLo;>jfyRXAl{i{oGD`{FPD%P93$@;I#jgA5Bo@{mXkP4EarIE^;`Ke#c
zefWy`G(s50C!Wgw>Hp=*RN%@1$}B)v{bE!WA892mUnjXD=?7voVHBTA)G2#PKofTs
zF)RJ$mMz@f_AF8M5~bT$ujpB;$84K<U|;C``*MdVlMv-6j5CQLGjs<ANo*Cb^@0~M
z+ueVFG~h0e7+7^?SSO`xrIcgLBTI=yzHvlJ9V*qgFJ*?onHv+-(1qEyqY=kw;r`Mt
zRIKis`u*y+<L0>u2YIQfUf}xKtJ)i5y8J+OHM(ZIH^wE*bXjz)rcSJY^Q1rl4O({w
zMlK&a=lr`=4kmG%$!b}Z!=&b&a(2g8T=CkZ`vA^Vq;~uo9D_^9qF=z&<8$*uEO+s>
z^lRdp-fiFc)jh3oUc_nSOGD9<uQ9fCXG#}S4Sq_lXAepfC0K7zmP%<;34baG(dG0L
zXvLlA_HkkeEXBWJ6o+%=v1wAfzv$`ho2RF0(S6(8$k)gM3rNo^=5BgTb7gJaWbTO`
zFdOS!MC3?J#o(?Yv|JqjE=DUDKlGF>{aa(QmSCmEk*zyd^+`d>@ym9fiO+w?4jUl5
zBpO=<&x{U#eVPvaFry0PduJcX>!s=Hu;}GJOwS2UN0ENon}_xG0l0oS;DcknEHZ{9
z?|TiXs6@VfJLvfn>f+Y^P;bSZ$!V%-c-@b&D`F0pU4L1YIge(3U*SEckG|Jz6e<^j
z0_14jYmho7rpu7JXy3Tx(J`O)gM@=F!xO*6`v^JJCo|IlzvPrv?sAT$<cA#F<tX8s
zBzv^KEq#NNmz~74-uy;Rhr<<CK6^vQwk&o9^f!;9l9W_AF8?}IsSa9v>nkHwO0l}6
zeAIY+-LKuh1@F`(S|xrqHr&nVy?Hz>R@(88Rl|85BS-l?5l;8-{G^76_0#_EPd5Ka
zE_d+SwRNqVuiNK*i@U79EPY=|_25t}Q3*sMcqrDfIiug;q8}Kry|X%r-aUz=Z4h(B
z?LLztsorEidOUPwPgh!g{FS&F1NI_cNFDfh@W5k6i^FQCt?!`epEQ<%`Ez0n1FF4Y
z44OmX>NLObuXpb*LEw8TGws-Oo1-pdLk5XXzlrR%>FM7vh@7r&m-=<^$kFOKSSgzf
z<_$-WRu$OwcM_;_cDIW*+rJrxyq>99o3=ErllFJLTBue)!y#3Aum4oY``oq?`Bphr
zB^VQAYmYW$lhOQIuj;va{rVQDG6OC&&HKC_gJ_iy#+BX^kLOj76F=q)YeC|PiL(=^
zxzI8HxYDDjMjui$f=p*Ha&H1g+|`xyrD7cE3;>M)>jIQ;i!~caLBO{Fm{eq7f{2Vf
zGy6yaq-TT_po!IXBAXGnRM;PGZEanu9&FPo7a|6pfK7y+|9;-!lPS$r0l$!4S#6zn
zU<=mBOeCVn!TkgjSUVHd&B<vt<WiDO<D?HC&2Ay*(?z1BOPrl`PnutQ&bh2*wphw-
z^n{L*v_25o<_q&U9j%zQpLY1Yp8WFK2(WmvN`Y6TT&65)&l|pu?8@$Qt%L2|{|S%u
zQj?S7C-ba};kGq;F109tFQDR#|K5=J0k;vm3vUA8nplds#3k7NgRYE5m+FmJSx57x
z0MJ%g_)iy_!pwfcBN|A&!f|@Fh=xpxj~|DCU^LzWs!~sxiuz>Fk5&hST$geTt4QOS
zgx81%uu+lb$;rtBfJFn0lx}WrTwI?3J)~c)@3J$T1nTcBjxu>(fgzKanp(>H@Sjiy
zxLoo?JO_t{hNh-Yz*6~}T-=Y_A~!d;0|@$nM#{KLriZpW0Put-5R3mjU;iFy?a5Lg
zQSqQnO7aI>Os#odPJtVuf^my_0Uz_~v1eLOrhe`0*RKuOsB_>kp%VM>=MTk}-7gQ@
z$c(OgUaE?yhl;8<f5$DqdiAN3a1r0#SP%5?gzFWmt0%nm+2z%Xc|DA`+xbQF`$Ucc
zH{T_-q;qQLA(_H19`<Cfv!r6l=XwS$t`>b9Ld|kE)=zqL3&r7#Bh?F!7MN(GO4X{I
zJByrkL^ey$xf+`buLG}RE1~q#0T6Bmj$OUlE~&MTg*p2gdGj2io0}D;rq80Q^8$JX
zMr<#o?>-ut$XBc4{KTY}<$3<+l&kafVjK}hwtRxy#kIWr0lXUqwWBurloH0%4R*HG
z`VKT_KqUgkt&_DZ4H7|@QKwDG;KiEXD3~5AP0u&m1aJk4i{UHHz&fyQA@U&_mjoG=
z+~;VNB!!rWwaq9*MU5j<bfL~p;}KU(n~;EjFW|!7|107fgBnBH6I)Q8;08?d(%(V<
zh=AKh5D>Z&Cd9@%&V9h{ZwHI2ogHXq6KZ%3+B(6q8XbQQhi_Tl0AejZ!KvuY|NRC?
zwIpUUGc$u<IJKCM+NW=S8`Xlp_t!AJn6-KpPnnl*4s>6Gg)*DHRcYh7S?d*AY&}>J
zJA2u87bCwHpZ&OS5M%7kiNe;|rWTnH3kgb3(J?m7g&$|d#H<z4AjJgUddvWl+|p9y
z9=ydNs;Xz{&-|O5%8Rk?k+=Yyuhkhax<3QV%$SfmFuL|UP4xR4LLXUlM#lFUAmfvy
zawlYDi!2yfZma21fj&O=_JTGLHgdBT&J6O3zf1LqJ-8n467(l+8(yD%&!rGbjiv~5
zXCcNfHpR<Nv?v`vm_wNdpcWO6>{P~j`*~%=$$lKKW`KKLDDEIg<`MFBy#k8v>8)5I
z0Qc>|^HjyfFFFI+Ay}hNMRoC>=JWY`EY6m-wzw|Ks1APrJ|H_<h}8L1+%OtjE3OYr
zBhI)OJU2Ji2%$hHIU8H>l6X;Bm5t+VMXxbb$99xZPFkAS*it$QUr$aBdt>7cAYU{Z
zQE~aRFZlZjE2s!wSz|i#JEdPu2wfqNRw(ie4%Z0EclWGF1jZSLzm{^B_MhA64Ijjz
znl&@?Zd@poVH>SGyEzL>pql%0J+;G9$tKcj4`k#ERjfc~-t0E@YI^AXH$F<N&G9VM
zy@ipK$jnaFv{dk7%~u|{0~Sjqg$YpeYUXM*C%oL%T%wU4Kv2}_wkg>KW=pg;mSPrI
zzd}H-0SNWLCg%rmy6q33arw7|Zgd8Y{UHZBWm7Y=-J^V*+h@u~3L$9!-zDb3^dG{<
z1K4N4F`X~`IxJU`mbUjWeixS&*aZY#vY9v#PGL>p^^jv)+#TQJd3AC5t9-DZW#5XQ
zt(@Pa=?=%O2D!9Ghna{o&9i}q^DiPFH<1^zv}`#yQ6f@Ffd4_!noc=XJ)gtfL-p_7
zuegc|@h><yZfn9WGsU@1-=t*>g#!Ov1)Y8lyjJsq%sMWp9?j67uex21W&8{~))!p^
zGF!UEiX>hOSi+q{DzS{x{QibS_=jGA7kTzR-*Q~6aSrGV3Fh=E%+bXGxhIE#SL4=P
zU!H4hw}5w8F=1ZFHCJ^r<JnlR7hxf|3U8komo~W-NP2$o*cLj)<+u6@(3_<cu5?J;
zK%tXnZr{9!T>{)#g?$%c3q0f^=~Y3&4NNaa`v@<*PR!|F%(4EKKABGWIs?`5{go~w
z6zWo4B@a|4_Bfj!%7A5IiCWQpuIClX`E_t(V-#hCA0ce^8mQHJ0=YhMa5Q_`NtUjZ
zy#ozjCOsx0A+3Qee!rJEbWv>TpZ)0aae3N~LoFyORz9}~ZYE$12)kSwF4TFJZD$)I
z6huZg0F*mGs7wnwN1$3!w_D$ndlmOE(vcf@lrIliv9fk;W`PUk_exXsr%#_c^kf2C
z`oOsY{5(<suod<JhTwmMUzJ|<I5d#j?c2w^h6Yb}_fudNX!bj^8f9i=)KUS-tFWKN
z#dNB&lfZm6V+?Q^6M)NzL6-hE``|^V^8H77oesPQ1(Ly{LP7@R;S4Qi-688$(lVj4
zgy0qg2h<~(6-)JhB#wj$Wgx>S3pP4a;sYTKbDX9T5Y$K53PX%h9}0C(1zG|RB<>xg
zA0v@XMMcX3P9L0?5`B-1pQNI20<LWL)9FHy910Q|+q1Ap(Y#6%p<OG7SOi@HCTs8G
z+}<mCC1@dyfx&vNhzK4b%Wx=#(4K%}DwKqgkqFUj<!ibC!VIlBl*=>|NfoT^NZqaN
z?4{pYJw?}=yc}>S(JT83+<$y{;SV%Tn%hE~*3+zN(NQmhk_1D779Ss=9j$G)=3S;=
zTqr1Xdi@e9CZjDx@UU57d#AvMhLR_0)6?c0p$rD(o=kE`xI4ehFP#sh6=X<Oc&n>M
zPol8WKQPpmY{WddOMjM@pplD?RX%z-IL+lUGkS5boceo)K3uVuT^r>%a;jeZF!<Ky
zu4VHOj5y26dhWsxZGQE5(`n~DFN4#1?M^m=qB3Qo)#qkYDF$fu$eTW{$U-qEfKCHx
zD)4HDkFMSKr<jQ4Vce<vZglu)+6lrEkTTZSyR3Q%YJavG2vma{T@KIJ*=woi2p(Ld
zidb-G!ma?}Xvt*ZKbR^q4&&v#P!L<6SR5W61~~k9o|u8oV2wEm6&2Od_I7AFtRF;%
z17~YQASeisvK`L^_%lGdaJyVKyE;=+bPNrbKuB7(e(g%RMnO#tM}vp2v^9_hfV_5l
zqjI^Bf&X)&lWGBdlptjP9JpWo{rwq!0j^OWWitO+#3ve2ZY-<DKszoAR3k<P7Ru)c
z=qY`gW#D;P{`L*xC$GfbauP-d&QS|C^u@N^WuR<T{~84?#mG?4u?43rXak|v-w`v`
zLV5ui1e&q1wZLog%K)A0<1Fsv+`(LaR!nONzv-Age&jER6=!FPTTm<cc%P$LOIrSV
z*T*gn!@{+2)%KuhA_S??@DdtE(-%$B^d>vVwyqyBn1I+6%~|fP?WKn)j#B56A$_)A
z;4kkss|y)2$C4i4E0}Ku=TdMeDXmXiV!@|e3bZ90D&Eg!f!EX!?)B2QUBQ)n)bnxg
z#-xJVG}|Fd+V+_CJBgk@2|W>3YfZ|LDuCsPybLonOLPJDWbxxf8Af4VeVqgW=jQ-#
z*YiCGT3XcDqMjO~<-)zuv{pkJI=XK)kNSO-=ve&Icmyye(yqz8xgxJPx$dB#&zTfu
z5blAVKS0xlXE5n77ircG4-aqHO>z)$EFI6wiI0k-8d%yt{%CqcNqPSu(PQ7__Zr6!
z>v%LB$m*<q8crKGOAiA^UhCX<sDdkY6QD+TP8ikB;=y-b%F5{NSg7GfGfHT<pn7&H
zM+legqjuS792wsdDFwxt;+8)cUkgI+4uJY9_4&5mU&KrR(A6#+B))6`+s|JYgt`%H
zt0(vcw;~bQ!0ik_KYzCAz!dLj5D;_f7Rt6l>{4QOX?<j!@jxBD@CtOz0(6GugG*|O
zs_4#k<Y?uPJ-_5m`wD+j^fwb1!f?$Zz3V13pZFfm`X#wTnn8}rOWAkV6z~C-Zo_-V
zpgjl#22qih(S0N>5?3|$krDlqcqp>d%@n5#YCrV#)774ubpLUnn^Poqj=pE<bwy@3
zp>AQv(zmt!fJ`mxWE4+zDQupvweeq_H!z(xd;XjRYA=~?kdhS8xltu;Y|L|tdT<t+
zdi2@K&kx5QS-nnsz1;xoUEjFx@sg1%<e6%pMNJ55IL5~)$KUu`R#r0ah#fT3Vbc{_
z0XKL)dE(1;UJeQ7FUPk}kHC?z@Ds_d^@}x-$!U^F1Ay1~A1OJ^>vvY{(Z<WGjbLFo
z>{>1lu~<^+ad^CUPDMN1@z+vOK>^q3FovOj0;nWX$V3<R@=%o{YX}hdbn#?D0HUs@
zdu-E$Yyp|YhiQ2%ahn0W-)@p{1(AD8)H(*IPdwPzpBc}mFms*xsR<%Cqr(#_E2}LP
zq&<8{zU2CJqXYRBt9HSPf(pkgp&wtoD&5CPC5*Lj9ba~-joJ;8<AumaB(IpYYRiX$
zG!%%)5ft*uvaKM^W)^a@A|O^33mT(idWGC3$HsLzg&<z%=V=8<+S;iqOSLAbgQ?W|
znrZP~p&K*P^{+OE%&}qg^hC8cK)4W;;4)2f3Cw-G&w!7jryUg4gQ&(MEN&CfS%!rx
z*WK^0e|T}>^<5l63Ydd|*%wSV$McnQU@#g#>`Thd4ggg!K#9}r^z9fFmuZgxl*Xjd
zzTRp8T1y*!-&R&b_vRL2@p&9TpvM4(e>*9QPeQ_cg7-u0*bDe7qKj}$e*rx3-!TaK
zblyz^_Rh-63J7%^^{}|xLARop7e6@R!QER6T_PI(3ABKKjr$s}LBM-r=ipq9+RVZ}
z{s0>?=a-2FUiIa$uO%v=|K{1}yr&LM4Du7(`vepe&mUOanu3Z?fy`ogAQTX$G(p2Y
z@aKotGd9mzy@o!5pGiSM!R0gF;sIzso#B7-6A-ARj=Q62KmhhaS(%1SVtQp><-O~A
zo5C${F+0|l;KxjATA36Ry*a4d>AipP{J9vo;(-K87^-91>M_8(tUwk<LsgpDJflC2
zJ-@wFqVzsiqCWo~+QUi5@%M8QX#j9=fYJ@EG`zUlOxneTWdhv+tNphVl|N6nzsAMf
zLwbMrnc5_mNM*|kdFs}0oY6cfvGlZE0d(T^@8xh1?nosZp%Nx_ywOR4lz#LFi&W>s
z9QY)KT-UzXj1kkJ%Gm~@?kQm?T9D6W#KgqRo{04YpH66ZOntN<?!fXLB&a7!n2NLc
zyd7nT`!IGgCz&bo<(^p2nWsm!?r9_s95B8>WWliVO5>M@ly(d*GQuH{l1{v*B99i=
z2Dr-f)U#3q02X%?LY)$i5FOk8l3Gd%iggn}evfhSZPCS`EV;kdQs-MKQ{6(#%@JL2
zzjg&AB$R;DDEU?3-zp=2cp}CZlv`=leH?cvx@Nu@idATdy~j^=tv^=>)87W;TQ!Y3
z11bURqAf*waG34C8ylv=zq6Ct1!M^ob5(ler9y7zIHvqA*|eNEY?B7mDtRSl5>AX4
z5*)wV-#OfdY{8OLX++73!-3c;M{xJ@D95No5sJ+Di6bhoh-=GnFwVIR5_o->#^Yu#
zm_?Es1t%keHuqj>vUEb8$TTffdxk1PrJFe<`@EM3K1OAU`Km`}RbsQD?(9%HOk}ez
z0Yi#-UC_ZSWjhxdDoiPEy5zJgSh1>194dX_^)k3WHSA5H+mAs9EM&ZQ<ou4;doB$g
zxbBk9QjV$ld;3gnJUn$SIfA3_5ea)FFWx1s)YBJ0>#yLutq*ssa&n=-TAgb5%GtTg
zg*?oE`=?3@q3mEBP+*^=4i3Zn4|aCwfLEmjYst`@=Y@aUc&f#ZyGtN!0l{HVn$;2|
zOi~*1zP=1D5-U+fXdbI+cL>`n8EiuPC2nu9mscBfOZlr?ErSUI!~kULwgOXOclR6M
z9tX*VAna1`)gV?MF9wCAY_d3rjt4k?15R>j)<Rl_mnaJhIzzgZt#>Pfm<!mz*?(M{
zc@Ka3r(Oc2qwVZe7T?gw$N{Jc`~?OQ5NyHpB75h@j~|DJqursQq3PukM^Gby1f^Ld
zFVF|!3U0JZ-7EnoVuy5ntY~Clw<!PyjdkEz1z{j5d&ast#f1<R@gFlE&BWFW{eAOQ
z^%F@)gu0-Sqo0{2JFG|Wi>3Yiz8INNA#^7uCIT(ZOa`!c|F~jU)D3fmErOI032||d
z{0cyW=R?bkiP8i$AHV<x7QNqeP)ex~(+~wDNh2qfJ7DmHp!E^)J1*<IP*zdl1V`CS
zhrcJs8W{A!`(Q-|fF!tcADGV!fm6~1uuX&D%9^G6{N|T2M}KKP8NDAcnYMwSX-WRG
z+6*yG0k>tJ!OP$UWui7zbW4KYU-ze#Py>JfpnoWf&#te`*8BIg6o^p(M`0WZ15EF^
z6$DCvCPEy@X;=q&#j7FhIvBR7Qn)O;+po!?*jV-y2Z4LIq5kQ}>jM#<8RFHC#!a!T
z5zAVcMV8tlbLjN+^t8ktUT?p3OC}jieYO3f;^<g)d7NBUSO`J0z7ho5caPoC&VWlq
zU(9)(hjAV$DXC^Ylf{o_CbPqj$d-hlSqW4q%>umQLoe{zW%dANg(0*MVrYIBvkJu-
z!~1i0ho9h1@N4}#(sA1m@Iyh{v{OE@g@TG#7Z){#_22(#Am6L$Mt+I@F^#Ea7px}o
zq~?X6GqAdnVTD+CuF7)rCL#O;ZngCCDEv`iG0{j(L5!o~J5?gnkMMcxATMH-_bgVp
zl=2@&`4@$!(g5p$`5b#OK33aY82R!=W}$e|;nk5<dl6=ARQm@to`@)NnBo>ebG=D&
zd?IOuU~n5k0ydPlCy^49YD7djyjNZV%z&ZR1k7yLcf}B4Y|x$B<k2K3jQjR%ed2|`
zDS;Poh|hesS%D#ly6^YDMYO<$?45#*^+=R`S~w(#c$$LL9?~bH*@mjo>{^?<5Yc|T
z@eH-p(xL|!J^Fh824KU9M0L=<BK%?Oudk?Ye5PsE^Cbo&F+Fp0XDzf&Gec%jG(iGC
zb*9@a0}=WKe0C~7FZe)vJBc3U<Hu3G@AGOecbu8=hJA3{7CEp5Kb&yqTNI_CL*6|4
z$99x0PigqS=FGF9hyI%`A6Z!k?Acr91N`<&is9a(VtTYag4sP+sXKfDjZghPsH;Kq
z%-cVRH;~tIlhFS<s2p0kNQE9CZaOpu`tC{$Lh5RpHTT=RM-QwHPnLK(<)Xc6$jP#z
zd0L!DzCNlUsWBLAZMGZ4N$^n3y#f=$paR=+D<3tcC*gX(eo!4n3Ac|kaf;ngg7{(i
z%8lQT$A>}SZi9K+rd~bAUZ!9E_OH2GSw(V0>+R`3PejTIP|pEId!!IN<8tZ>JaCXG
zXWu%LVc+etDkumRsCXjN_K;`+8z4ylGh^A$GMrlhmH*mKzwqkHg#f>(-e+mJ8(s`0
zq38hhaQ<^Ni_boAi#1eN1k90YVlH!VvOWB3H6cy9HyMLD#EgQ$0e;>67d+^PU~3B8
za)3S|7Cc1w*rP0rjm#(o{u+O?m!WG|p&5Nr?QsQM&Y-)ZDA~x{!XEo4vjCXH`4bhJ
zmG;nxQbfbw$)i!`Kgt5x+?DmbB}SF3P&1xz6ljV>O<C&o@Cq$aCUD5O8@ahvXWS}V
z_bl%xhY?i6eE}5Y<qsU<r`&JFVzs3FnKe~Mm%#YMrdI{y1gS}jO@`<nXaswYN^9f3
zeS7)l*&dOPEW2ie{#G=YJ`5@}5eP;&57C$_?g0!*xDS-D4DA-&b+I_y5bs&m?^I_q
zZI%KfU;NLRN?`sol*(USS@6iop|K#L)*TFG7YT{6E)Fd(as-!hJCNx$^IPS!W|z~p
zO@J>LCPDA<y&t1ZP8L`ERZugBaU=RJpm@(;)mNFKua}2sCWTrwi<kOlE)-b?Tg_(+
zy4(TH=8pys%P^Hr$*g6>c)&ZnD>tORPmvFCuu}Y2J_d~C!jB*vWH%Ut_mh3h-hP6f
zKAW+TYd!v%)dvKxQCZi{KV6z}x2K2IpLl7rn8$mfe`ovQW%W|Hb)3!XXz(;~R)@W;
zF$bV%Dyx>3*5c4w1{&MnG3aCy;4H!I^R3!o>PkyGJq!haFXzDVr(=r}Y&ReCJVG@k
zfJDy2gV%EH5dR|jKvERIHt(updj4W03h$6){70%}*_SVF1bM9>zmxuG)XaefMGX9>
ztX^1YT107_iX{?xd{kBG?GSLP!L+ANB!U-_8lupBG)|+yFYf3^AGP7?Kt>GyQ=3o)
zp^Xhq2njKwS7OsJ``)uV=D9aD6*?!qc6#b;fwg{j{SBM?Bd}Bv0_nAXIZj~ZgnlT1
z&mb0~kgRvatnu2(D;8!|X(jfN31ef?w2q>aiib*e<gzVUd<_O4b@`QeQgz!C0n2oL
zHiL9tM|Y`n`_XLFXf70q$To+U(P<DXJokMWDpVt{3XjG+ffT`jog{QlhTPkGqSQOi
zty;VUl~hNBo9t;meK&pKQHMW-w(UR|k3OckkSni`&~T)gZTfmkhJFPw4K8aH;(JiW
z;9%^==WoamYx+aI_-J~z_CDN?ku)ld47?-ygY~qg1mlj^)sz^zq>fAG<m(H{mNtXy
zh=^^G9a5{N-|UW_c%{5fy30~GW=!l5k0TGP3ZB=<va-<U4!THnU`+`{oR_xSrPB4d
zTB`Zz%5iO7>NLY8l)=rJ;Tc<}nDPPtUIm?1QM>k8HUmZJkTsm))HqoYJ{ZPpJ5HK>
zh^814eeYQM-!-B^Rfb+Mj>ZKsWM>{>F7G#5MvvW&v1%qCGjsGBp~3bi)86MQyw60s
zRoNVL-K3C03)k%O{r{PiXcB$OS%zDH!V&=f+EZLzH;BY(N5ZvhipmrGj*VX^nw2|G
z3^?1dv9KZ{Efk<B$2y(>kfRYj$~Npu97&370h<7DUm^DFPj$PK9~NP($i4;DN!Yj4
zMF@8aAm99CwwN>&=_f(Gher$vSXVyjl;cd|s%y6HyvfSSawY>^tV78qfYB>}TG}?U
z>7SH*MPyM^0wI;?Li2KkGL`{D86b~nHsCa>BPBwNi79F=@2<sVb+J$eDGE0Kvh9@t
zgT#v$FBp5YZa_Ozat{NpAdHWU*YT?<2qXL_PJ+c-ft?xnI}ihKsYLth8QKjY`vTS7
z_cE-~k0ezV+Dk-z{MA2XN%mvBloF$oy~M*b^Kzbl`8{2PB!?TzjV4S<`XPr>VNJdT
z3^m#Fn|lbQK+83i$rH}SsGyxqZ~mTKAoeZ;NI3>06uEg{#UnVJ0iKM8$LNooxu#hc
z@*K|yyKV&}i~DR}AmxbmgwIaDt_nd4xI@Sq#ym&};)?9TM#`|qt+R?_d=$Lu11<%i
z+(|dZtwGIfpPzH)&Hg{8-a0DkuK)fXK)R$uy1TojTco=il<sbk6eOifx>LGS1Vl=@
zyIbOSxUcVe*7L7RahUncIq%r}wMRBsf#&ojBs8s8XJ5FhJX4WmAoc`whd1ZvVAm7l
z9z`EeNYc2eEfkIO(?-0ApjZC4ePmSBKj0mQ4dhpGp*zZ;!dX9jahJZtd&zS!b{UUY
zPZnY4ViM(oL;fY2toGO_sVgW{gux^sA5KF~#dIB~)MNajYL52b6LI51QViyexmFMZ
zkuvXHnVTA;gxA((5W_TUzcq!HUo<ntm(USv5_wdj9*@X&)h<;iCd$@S7=S&)hOlTl
z5E-}f<fOxX^6ZNcecXH3TwvJVAL#z#Q2Q$3b;t&6Z-*hGBbRl5{VpDDD1Xb{f7Fy<
zIWvN!`dgF)8MsbhJN|#tsC+RrVIKx`F7MQL-<3xO-CK`#z9${dy}#2wY7j0c=<QUu
z^IRn_4B%UA#QZBT5AC(^vFYEJCR{boL+vf7S!b9d7}31QBlo+@<4i<aiLCQW4!Y^a
z=xh3RhE!bC&U=QC1+q2JDu|g@dx3d;v9(^(2UN}c(^JxV+m&Tq-qtr;X7loU%(YDb
zz*D?@{`gB$SM!}Sl`~swnncZgG1>=uRvXH-d*G(q{0mCnhI{I1^3IR{`6%%Xp@sHm
ztI)ZSAc+qB0|Px}=XUWE;~;r50`<)ds4um&v{VSts5(LNBNaMa-ca4oeT~{x+&k-|
zg$B9UTr!R!Qw?KIU2+)*Fx_CVQC%^8x2#wTx|%r9Wvk}u2b!q9J6BBO2$OzEjP<6v
zffOjWSA01SfkUko5(Mb}514$A)EN`4d+~fv2SA_!ltN|qkD6H#UmA_OgMn)Q?*4vi
z;zbt>8O>}bQdR|uDG4;0KcE@v0BPv)oRUb|U?q&mY+e?MP6urn?+X<8<YFy2$yutj
zNr8i7SwO%j=Uf#=?kxbe?Z5)v0*@aR`GigO?Ry+Zv;ykq8E^FjHX@MW2I1p|6p@?Q
zLqQm1jz9rmEFc{}!Y)WpuUHERT~F=@Gco$v37aeU6=3w0T|5Q+BmDHCd!S;18JiF+
z=LLCw=L<kqmLvK{^-Z`1)Ba3_LVcJ!8-fk5EbATz!qN6N*laWJ0~Ao6Dh?<7bu!bu
z=BE6sAtH<GlNHuC?=jonMt~Qjiq61}*xh2ZMNIE~_2KHpeMRbXSOaq6p3U63ZKhsD
zZ3*=mbTerwif{MsWCwh_YC|d_7_S9~pZ-;CfG_-xMMB+|7KU;+@F@X*OEaty8UjMs
z$tte2I}jv%?S?17^VM$+POn)N+&CW;eZm+t=NMX~^bR!a!&=+{@Ifl*F0)%?mT>4>
z8my9l=ch6DGpBURQnr#$D2n)iLMkr|hA}Uo9>Tm+5b4SvdZI{v)Mr_P)YYj5i&DfK
zsAO3(bCwV)9clRr3!;sXxR82r3BAFV29)E`A`gY{i86%9$jMDWi^YeQKEWL<m+QSl
z-dzBG1K{q!NBSK@EU0;GFlYfpiptb2`;UZD`%!d!8O@Sji&R>VI1WSc<UkurLk8MH
zUr=a(KnLTs?h1Sk!k05WB0?tXUQDnDx~2xaOg=(Q3hi8od$=)}{X|;ODZ2QQ^KC>P
zQY^gw^vSsI2Z#&Mz9(*92I+*qqxq%r`sC7J)D=QAfI8K#s{I<cN7+c{zLgnD26_Y8
zeLaUs&#M-no&rOf-nmITeN1FyUnV(6GZM@X6Y<^s;k(g)lg~F&BuL)Atc+4{EEl&%
zNA#>V)`_yS&k|F$*#bJw$!dTNl6;MW{T7tvZU^Up`(XWtL6`}pa<qy0B0jq}B8FBO
zTdZyA2Ym{vj~BfIjIu14-_y|I%_p-0M?n_s?|n<RkbCXy=TmY1875plTpFDc;`6`%
z<1L^B%IU09aAY;u%>rHsG{3o}<<%nW{F{2YC;3v)unWjG0Ho9Aytx9^-~`iOYNd!9
zki{Zb^p^F!dL)UlH#FfW=!^Lna8BcE!5FK4IHx5{u$qd;=rN|!^CU(aV^I}z{3NZ{
zU<>R0g?PEuBTfiik)mYkhu9<42pzESOF_#p$R)pP1<}!7z+)^s?r2#z;!~`ovAG2i
z3Jglvbnz5K6vmliP0*tI;(A^3Jqwy+xRjpNL6%ZR(u6LoATjn7Ph(9W!3@(nFlZA$
zmDYfUotk@knsWud4M6scLz%8Rkd;2E#gmjUxS&PXELv#UL(Qow?x#@;pa}$bJ7dDZ
z^jwp*XJ|`c-Pvq_wQ;6^8%0x*AXT#~E-DZp(9(0X)0FgA+tb!rsq7LyKJJJ<->pTE
za;UONG<xH)uasny^OSLoM^h|SfnFJiPHt1^`^bJYH&?%h>(NXVorWWypzmq2e+6SZ
zTNxAX%U<>gp)xULbnnq9%^Jd_A0hN~yW!A&g*)E!it({>Tos%w+!~Nn8weN2uoL6<
zn~%zO;#YFc@t7CM^TDluz+&5KaMgHUfwespTEz&MLdsp)N}DDEfRpH*$enqid{U}t
zbb7{NA$fR$XOFoVv?I2df?o9t>pO6%@q^w&yGpxg_KBDX7Uqi0OgVvJNTMxd?2w`d
z;?_*HoZ|C5)=3SC3Uo1MV<8|Vt)jQl;(|!Kq+4e7{<y>#9F(_4IC=&+m@YInAdlgW
z^dA$u#vEaTCN@c3RsC^tc=!O?G-4)m!J4QZPpAPZe+~sBuPq!j6H~0OU}z+%hk_ab
z2JR^c1MZDEy`YnfB=N+RuGA=-0TY??Kk!5<AwuVYIWp!0jC+J{Q}JP?%rx{dDMQZa
z6#Mc?Mi3xaMJjPDOa?!&NoSQ^qp-_(lT<|ALxLiAnrVwzG~Z4CM*4WW=<=(-7@dP^
z=(mzM7JI};XKYHk%P2xc+Hg-0G7>Lj5~?lV_ZkA%vgZ%3fIW=vMTTAeO^lbug6LfD
zHU8m95``y9X`5f`E;&n|SM}?f7o(wgX}fEQO6$bUcR8n;bImodTwTZ3*CHvoBGtU5
zi=r}^(F=%9J?`Y{^Nx`4KYCH=Wk9i2BWc{<-zVIP7ns{@s#<RGBWVG{UA63n?7yLm
z+mz|gM6m`1en9FX3ev|je6S%jX*4)*I4wbdtPqTCPqO(Bs@lzWo9WJ&_z;>VN?r;V
zXiAXQoS2oRoJplvU<3#{A(q25a;rnwHeVO$<QmNVtwH(|%#rFZ-zzU6s>~chhHii8
zE)}Ad{6!r47Qq&7=0@wu;OUsQnCK&rkRD_YOoeh{;L?>6XQd60U6uVZyg|<c3Y(66
z&OjLfx?ci@KxmH0h^=&-_4Vtk*<2w5%DC@5D5h?-%<Ytq{rXf5$tmfn8Wpl(?9+fy
zLb7d}I0dDx+|~0CZ!0hVIb-z)NNUVS{Ph5^F56-P6k1eyICsKnTpO|5;0hD*JSAJo
z{f08*bJ9L&s3_x7&^VWdM8MSea+w7HHzYf;TJSbL;kmQ)&vIzE4cMJdVA1EIQjsK3
zwNiQO)7FtR;RHcR<ltJsYI|#ENr=KE!`|A31BWNybmZxUrw75Ugb5M7-=%an(Ks+W
z9_@uxD}PVqCG`cdxzRMepFNCK&kzCv0_>6BXjSOqeB(R@r@u)Lz(Bxg^$VUdjUuyD
zi^d|ZH8(dyf~q?187dS$kztFyonT_2jG{|KDlQ^-5-UQwh&ds10@mrYH|sqr6m+ok
zxwL36;{hP*d(G>}8*LWms0n!xyiz|!W^L=Thl1U!(wvj$g7~jT(ysDubK2(Ef~iN2
z5mWE9AHXxP6JETg6#I@JQ{uldfJ%WfiMYz7N;(He{^DYOMG+3CZ+?x*bG8mbM$|CF
zsgN)p+4#(rXMsm*7kg*~_eWPHy2x!H(jIdA_33HX?JHg<ZHhJUa*ETmBd$P9*YGv)
zp|47+Fg7f8`28IoMvTMdDT0Le{A4E<7?PsnYhJR8JCpZCDwP=q8i-^XgtzAfSoaE@
zfEZ?RcSJh++elo1JUy+8uv?7tgX7T)l*+I8bL?y3YAPB`h~)rBn6^wRIrZLZyo}BW
z1FG|jSQN-3@LsA(kZLxa=KF~&R`Rpt1W;>@j*gbMjk935fNF9Fm_jyl%ncG6dwi%q
zsh~y@B4!kPhwh@9c~Rm2EmO&b9_FHJ1}MN-Q_8z|2%93c4c1XDux!W=)||deV$c|R
z`#w@XSz0cKUe0h16kfJ87~dJ(-*@UL^~vGFz`)2&%I*y<5A_ZqgW~VtcFAL<kcWfw
z;*qnfVB5TY(`8p|7@Sn6tn`*w`+uN}oi!n;tbxgkb8xyUIY5j#t;ivx{B9rprUxZ8
zb`hMW(`knj^Ydwagqjhr%CjUSC=~offz-{o%USU1w@ep|#@3&=$v#K&^bjT;@Dt1A
ziU=ghKX|u;`*rS{2*+2dd3>EpiewiNHcSafK*D2woGUz$_w(b;TS_vhr`!blEBcAz
z5p%L%;HHQh{zjm0-3ba+MZ^|=y>W<-kB<xAZ#jQSbA9|9Py^>C751bL5g4P$vZE%X
zX`#4+aoLuJ+t;8PP_@$0-=fE|KAYkN27J$guhgyq=o|>=%6;lT03)lz9;{zXN=TqU
z=jFji$)Rz)z5eR}<D-Z;hI|oC#E*$r<lh*m%7;9LIH%v{34$v{U-@qysY!{p#Z8z0
z$WlZ!l>+-UBcCH~Y~w!q;jh+3^11idmNau<n~2{ERDP3Oobl3Ny)^u=x6&z^1<b+%
zfs~_({OjxM*7x8b$`yQt+9Ew$Ytssee)#qLfZm?(eElD-$V3Yo&0P?<2__|E-|SNk
zwSjsb8JFp`_u$f8tVhVFawM=pr++JfeSL8O^Tbb-nRcPV!v1+AYWm;uiuVCC*O$@T
zT+KWrT$<RmNDyFbd6gm<4g&`_%YF__(p~Qvav7izT2%sr@=1)0j9OfS&yWxip>)_O
zW1JBR0IDXl=hY_2iB?5SKAFsqSoAkt3eZs8uRsEQEN#(R3nTzE>0Oo#<OqOL6m7ee
z!K{Zb$VF9JEygy{_e#9%`*&K(*cQco?q&Q8m>L`in8-tKVre1vEKuGPt9AgrDOtoE
zj&EMEEdQ`hxOiqu3(eJ+oS9btkMvCHKQ4@3>w0;%zGo6$2~{HbiJ)H4ky&ORmX++4
zDXOVhI&@=tCHGo%@mb{@S<y72_`iF{5sXU71mwhqj{;v$saTSiptq8Vwb)@p!gYuB
zhwFxkyK!zq`xI)4pp2)i6AV--YPm4Iy<V}?)3jiC6~J|otpms?xRRv}=_0ZDn*dB1
zR2D;cHW;@-zOvJseP-a^8CIH14t=9dZNORfoufE0BYHZ~JRO%@LRGr!TSitvvVL+6
zwkO#eO4LHOv<&r^M*uj(;*-Sxalr>d`4@PbF9#;;ON*y$8E`m@43>Ml>FN>^Pgf38
z!4?R*Y>x#|4|$M7?N16BDF=V4Ff|#~np8pm{4;}}lZgq1&ugemQy$tl(c8cjY?O&$
ze~t{BC*H$AX<8u6QG2LQwIX8CSVz(yB^UxDtwQV4*JER=b1lB0V@Ez4Vd6ebq7L^X
zT^bl}UtrCQR`>O7%fWN!EF<7#=BRyrK3`|GwTV8=z7gv+xhCiqKnK(}V@)guKUAb!
z`%}E643`1bE^7ac{FbfiKv*fswz}6HrXB>&Zv_yb!BY8Wmhit9bDO@TZuxS*{4nSc
zSN#AnbrWQHu%YBfr+irYfpfs_cuST)oU@VTsVOP>Du3YXz_xEtW-4R?Epg_0OD>vT
z<9%0wh;{m;3EFS2kq}#ZV31Gr#^Q6KWMfldLHV+>kb3vk$`Q)=!jFm(pwv}z#bMiS
zNuO`wFL0?Vk^ybVACR6Qq8YAJ1#)wx*jiH%d|65|vD~qCu&CxaPw@gyGK%!%VSCLT
z&bruK@?fPbp|mdXKF+e5*gyzm^orH<b;kr)(s@M-4Fs(P%>l0eXB<XM!%q-=TwYPH
zbE*&vO`o@}u#||bp=#*pai9WyMHJQ^Sre*)v}*TqS7N;LSLu~JhwPvc3rx^mVXbV!
zQxf(sK~`TbjO_lQKC4!nSAJikn2Lk;x+g$oh-dejmH-(wumK`|gILgKcv-GdhWiCx
zA1EZNj6Bz1kH*@fiC6YSAP>NfpM(LnXmqi^JGb70JBEQ3?3yP_HCg~oA|hf3WPa#Q
zWu@!3eat-XGW6OiUz&xDGPh!M&`KBN73AXj2C={UvD)11+h~2#dG{-9r0L_&iz{xR
zfbH)mP?#*W-|7hy7iczqJN~CkwCY=LjW!cm*K2?mjtY>+kUj+?SD5{ce4`qQ*>kz~
zoz07FI-&Br?(33i24-Wg=IUryeyg1vSDMjSSu#BS9A-aSslo?c?BURmP{>=;hDfi`
zLyLc4y*p-g@Z$-_qyipF8&;bX5P*e+g>{s)mo~jAoMC3(Vxp^VftkOYyqWrndJk@b
z?@TK|amQL<(4xDR6F>X?cc0FklWT9XQ-uMwH07vyZ328EMK3?i6-qT+SAqPd9@yJ_
zaUrwhrZ@KwaS2Q=NN@lu*uM^)O5;i*gEdsXgpdo?NMbKlS=moi^VZ^)D2oYmP+bMn
zUCaawEaVVHXr(;4WjSw|bZgDbh%uZ;s5;;i2S_Oy2!1+jpxi=nObj>*dCS<ugg-3Q
zljHH0(6XrDf9-z^6rM{$iKB7@ud80_nr5e{x)<E>do<o7SaoBzga$bxgt|{sa<x_n
zq;>JXB|>(qGGEP<oDje51*e5h(e`v35S|E;W`!OXzdjur8=FR&OG<#G60(WVB!GQ!
zMh?uFoW~}iE|XZ4E9&&L<7~n53He>w!{~0}2FE&Z$pRK7xGc9E$AYycSTR2$vF(Dk
ze{g&i=^Cttzd&p3qGbZRC&?0fiL<ibYdoZs%ZJjQe{o~E{4HP8^AUnUJrP{Lb%_@u
zH4(~g+^CB1J>xSqB*f*V*8+HX2?+@-Ow3eTFI;q!Mx4a^P_}Y-SM~_zrVR`Gly5ck
zF1mgM_#2<#+1*j#2h0oD%HR6U@Jd^buVO%V@$psYaTOx;Z?0+7im<PT29pSTiz(Ij
z+c&*3zCNC>i_jEPYvg=P{n5-{_ho#Y{+7movm`_D!Q?a0%%l{h6&jNi`~XV%pC^(`
zP}(HHVHJ=efEMdcb`J271GL-le{ni2>a4&<^YlqKlqusyjx7e(PAlMKO4|Xu?(U@B
zlz9?}+8AbFq&=X@&c7hhUKG(JHu>J&uxJ#bcP4tK^k3j-$=ZghV895h8Qnd{ZB@;m
zCjL82j!+vCCs3}aL2dzkCqA1-i2?F^0<b<d01@Q4^`tgs)l%@o1ZqwaZ&OW5Bz(4-
z6)+GJXqItyp<sO&uETd!TufZcufz6#I2+tk5Au$b>A3&QNApbxmN2uuy&Vjhb%Lw=
zC>R08@6(InXiGdN>};csMsaANT~L%y+Y9GsiCUQZ4pS<-Tj}{o9xyOK0kh?01RBnq
zXDWrg{tqszTSo&)$>W6v;ItDMQd%bcmSS~&!z(t49`I%#II)_Y>G=Xhb~^z_hdV@o
z%fw)P=Zjv`=Wz5{pds-()K06(Fd+X+L2x)hP7D`*Q10;;!912;TpT5S8CWAE)ebO4
zLvqaJ<uNEN+BYJ4e36kj>K(Gji*-)aq;8%Mm*Cqp{v_R=4U49YnOi1Ab0!WKSVc$D
z(6C>BCRTa->J3t`Db#x|3WPk69@QPJUZ_L&*|mUjO6nC3PIXRjG1S)8^2xt|lX>U%
zma0$NHhnDz7a}JvC;a~o+pl%)PTKu%>KAYSrrtcE=^ufWKMe=_5%=t7z4aG<J547k
zsfYd^+)YHR&)eh7drN{(3{2!r9}RSVWt}zY*|ZyV3Z)m!sm0s1lTd>EA}x)d&@*4b
zMno78+iGR#BX9yh2c-H5$dmNaE3ijXSX0OqGx(f<{{~m^&P(T#4TCXOU8a#0y{UBM
z4YMt}@MU~P-S&M_GOIeF?e?=g<aF7b1WY!PL*;mcJWp30OB|U@Y13{%&kxJa^KrU(
zGCxklwyGJse2v6-{tX`pRzd7T;-dEZO4Bn6nkEGONK4S2Q%k5ylq6(0bO*yuwVrlS
zAtnoe|4PMXeP)-x5R5+(x`t~ub3kLW9Ps?u-B@4?)MO&o2%koN1tt@zGyZuG9f1!b
zY0g!tRF86|z>`WR#Z!+Wnn6=ILz$L+JT#5fgfNijQ9Pyjnck?NEtc<eM$e(JV6D_Y
zGSkFsQVMT4GSMMKG5K_pgg-A9e_+Z_0Mc(9z+GKIq?=YvT_5#X3BGvFyt^9BsKuGu
z!&-{ugfnE8=vjaQ3zoTuYt1O4y3tkb1|!y0hvMVC3Zh#64LEo+_by{2&Fk;KK~}L#
zK94(8>C{P|Gymq+8=j1TUpSAI4sz1CBqDypFD?O28mg)q=D^(L+FcE8-W6XL2vwTE
z64B74v+LkGK{-p;Izcx{2m<XH9Gi-V*X07Uy8EKj;F+@FrK&zuNLXK7`VCF>4KpHy
zY5RH0=m|D3vI(gDf(t!a>hLnToBQTWB8X=|Vg%dgvYXJ)x!9GgY(zbJRj^>O{3sUd
zCTstE78fANC)D#@h#Mqry`|7a<KKMkq<Vqk=;bQa%RWf75%8cd!9-(>LV8=F`%yIj
zAQG#IDo~bNPdfBWo@1EG7QV=kcpWv&s!9+X+Qz6G_NfkZVT*^8LwJ;dkE0B;==Ibv
zZ5I~g;irQ?mLZ|!8cHL_Rc33Xq++E}=hG+3*g1#JM`&{z_x?QiA)QWizSTfS>XrrI
zE@uD9vHJ*&^gtx%WJu-xDzNth;eaQ|Syc2GaAtyDU3t200=szOHr~WkHXs)&8!b0c
zPhWu!sLe`K!W$R5P(<D97{9m0){>shI4B}FhTCpF4auBGzvQ4?iXO~<y8OP~u1!_c
z?dTU_lg!~BLn<o5=uPkHOsdo$z7vXwC2o!3LT|*G56Nj6f7+D+K)G#0jY%2L)Ss^k
z!n*8p#(?Uk<1EHu(Rq|vcUETK$;k6I`Aa3wNGeR6z&@R{!rdbUvyq=oF_(4r>&3t2
zI@=p@cm%JdUBLYpC#3q-w}*$^u?g4`B1jm<Mx)*`35Ao|3b)>N!zTgq?>97ZQ)T6H
zweJ~*?dR@?pIATrZPJ29k0DHX8WZEDy{%^abT1Q4r{7#nb?Ty2Gq&vK;otPJ1w^a@
zXj77jra~pTPS16Ez_5><zp|`6l$hJUqq`KNtj8&Zt2JGDM*6=mf4(jjkluVbbr=M5
zk+@v({yUSl%2bQXc)1RBc{iR3j?z<EWqyBpLZ10&s@X;-v%6IGFwOqH%JlK8q|R#V
zGEJQ*TtAeqVI>u}>%&`WxJcwzwiUEG=ND$IZ7NTTE*1iU4u%hY>gYl$WT*GnKMy9z
z|1Eh)8UJa&!L7GRZ1DGcVDdhg(fP)!g^k^3?K3Gge=r-cE;!w8ud{c$7KYDfoiycv
zd|0Ys0e%GC6sC-Zj9prEjZ7R#GK9?7ApTg_q+$sO(>g$KOgYUIOr5;vQlQkJdzeft
z5&Z!&ZBV&9hn!bflJdG0H4?g*(r5||D)+_78wk^QPoe>u$gME}ZNe8n`N^)VXrO0p
z<QR2~sQz{9()S5t2Q;oVgCuWA%=ZI;ydOK<1uoE-Sj6`hfcymj)$;I_&F1A4S<XQj
z3eMWlFYq{thSmMdd#)X2X+7;h4vP7O$rQb*O$~T|xi~EwK-pI4bd*OMMTmZ`(2HVn
zPoylOF2%}@oF^qg7tM=k+I*cLvVclw{py|wbH(wmNwes@`=4-gcA){Dj5>~Ja!F8W
z`6ctsSiHmGAa-^ki<SCD2nIYpZUrQgU(XJl=P=Wa-IImR`mnaj^OOdYzRZpYlEX)(
zVN<mZf3G7N8Uka2E|e*|NKa#3i=L1wAQc%QUNs6UO(Lx_Xw_VQ@l*X9Q<~HGDI^GN
z4nJ5}YnD*JqKPWWexY6tE;_hbqZ86Neb)_7y2<o+>t@PhLH@Tx>k*HE@hfe?kBfXi
zsh2IWk54|}35(43;mImm<r0p+dyTBSkq`PNz#-|MmizPXxHS$fvW$+nY!8?%9G%4f
zR>dG7Dzj^k1F#3wF!Wk!ZaX#`Wu7GQ*V_7ODjBv`6)xF3S*VSL=F>l>lqg-1r;U^3
z_*Fo8{#qA1l4Y%+G5hh*isCaRX39PM8XAe@UR#LotJH=OI@}t%N+EB`rnQSGqX$!v
z&#<qxlN&)Y;xxbkd@_RzEXs<4sSNsgRkLdXU%)2uxbyi5SDbP@*n8qFyn)wN(!Hr`
z1eCR+Nd@V{Dm)Dqdt}4;bsJ2%f38<5h5y~Ck^fEW3iq|263VOeZ?6H8;UY2nAyfq9
zu9bdTz6?+1?>`(&jfNZli6f7+dJ^#b?_Sml1cn_%Ar9K-c;IuCA8g}t@7AV=aoH=k
zp)1NntF#;AO8bE6&`(YVof=aqmEpNuM1Q!9j6z4CU{sm~6IGrxw#l20oAy&Ne_ZWa
z^GNzI?|Z4E=liPXb<Gb1Z-K0EhcKF1x1No()CJ7&#~4qITgWEy-sTxeGkVZnfGuB*
z*TuFa#D5y2a?=7T+!>s=khyZB%WMFf2UA*FOlAJ9uQ2FBui3sy;IEa}jpv2jiMsML
z{|n_(C%lx3LhN?re2*XJ_E_+*gu~PEEkJ`YYW78PQReTjN7VsCP{mccVb?@~9NYk#
zRabRc<w(o<NXD#TnZ>qFTXVhB#+cK_`p%-SROC+9w+2fkq8L!Y5O5T%Ud=L+0qX=H
z<>AGU7~J+CTij|kkh$+qn??&enNGfOP&fV-LCPX<zq=$0$GNjz)YJIB!Pjek-pVS=
z-y05PxxPd{O3ZJnfKRey<h~>U_033ueIhO1+kEgJrgWka>msBD=H=IiSrPr)&6iTy
z??q?4`f@%kCWzLgBKqWcR&Ud9Hi)a7u3n(5q?oGGN4Arh@~6Yk-M}g^O`Ww!k)DKy
z$)EhVT&JJ4Q@=9qozVM-&BT7LG@%y!=x(2%H8A($c6yEKYzpcDlOLM4=)o>YV_IUN
zTC?Wq@gl9Jh`V$nv6Q}Yec+8toZv@ZQRlu4erkP1FYD5fn?<#*SyDgs21gV6e}{`Y
z3e;(78t+661pK_&L${gQ4Vx;N^v%c7R;vZFt~8i+R0T{WbK70b^0I_4VnzLLn430h
z27FGOKFaYuAI^Q=<*_MpY-Y|B*vfFzq*<DC-x^Wn-Yp@qu+pk9GysdzZJX~FYzvJa
zaK@x|YRsbWgXYz6VhY;y<q0IlMXJqjj#~tZ-{<&T{Pb$9i**0PZ!Gp?kzx^5xQpud
z$J=!~ZK^abyI8yz&xpz4H%;sNd=!TF(ck!DO-EA(lR`(T+AyC9)>F;g1#J&z-chW4
z_62-$-7NV$t(#%1o(SO19zm(Fb`C#n4F0@J{s&inuiXuBl$B@l9eHEi)O77CBBey1
z#L@ZXyw`3y3Ue)=s$M|?N^?{ua4Id5wq*CH^5^6v<)i$Pg@%tLE86i4Trsx4Aj3hD
z+lQS4t;Je1GKjo#p*cuADc4~u4|T#BwtAACi-1~fxW2Ew?fPyf8}Aa6+Y>Q6r{OT3
z!;xKI#R`Aot^6#YZryPup}-M*D;%#5IympgrqCcKj_w8eWG$JyLJmy9D?v#tXCwNO
zuUc5r<?4F=k(?h~?fHl|JL^5c68i_uK|3!damh}H+5>P%C?18=&QIx&<0U9d7%VWn
z{Yn@v!>b{EqKzDv{beD`X@I~=DsHSl88X$^O@BSYeZ}4~DK_3E?LqZ3h__%*7BK>n
zng~k7`rpdP4Hz907(Z$v>;EqHAtZR_jE6_ss!_RS2kdcz&@7<*xi|ruXHT{VecF{R
zgl6%WRi-o<$9jVotclf(tcsdvc-re8^?O6ycH4e+y7xRQ)T$Sbmf8d)xm3t}wqUoh
zR^AG;^4Tz*x;|9x<xt+W^t@|a8~E;KV5gFzF7+!N(+nh?u`9!dSabRJ9<=r(z_|64
z^@j?Na4+^SL&VgXB8kjm-qkcs4&Dw*ql@yIPiIWw8l_U-^{f)J83z(jwv|R~llxbH
z^t?^<61$BwHz}#s#st{sMr`8&8kujXJt4a!am$yC9R2%FgTxUNM2tO3eA78Cr^u9C
zxCRR!l-XoaliS~}kOeFC)kaqmyNt1e-hd}03?W+TSHlzqjJS$0$An~N8Z-O%$PY7i
z3-$DpT*auby^(wpRd1J=g}9V6%?6_1cYf4;iXr~JMDRu5ecoctW*9L^QE;1}n4q$o
zCmuDg&+m23ZjYtkV48_JfyYHY9%~taI;r2~WV0&(OSg?xxK@90`C#+6u|h|jD%2{F
zR@Yb5JNE_@1*Jx7QU}oCMm-r_2tjv~SHK9?<Hz!2jI4-zi8qLGtbbcWLc7BmY=G>}
zfV*kA#tgpmz|u3Y6D9oQ>laAmQPoPwLC3(9ip>Nbv$(Q#JE$Uxlwc~d;Hjr6XAM$d
zU?381LQiJIg4_DOPMQ@rR@Zxp5foiwZoU?A0L$bv&Y#A{(V*{kMHz>k>8c9Xfiy38
zD0H{U$N#OX3%?-fUEu5Q-F3_D7q8Ft95lMr+pJEe3JZA`<D*tq=@7b|g}paFEE7fi
z{TeQYtlzeoaOm>uXQ(0{u4c*W(^cH&xh4ma)7IywV61nGe*HM}vxeUUeLdIQX1AcV
zsG(>*kN+^D$AIi-I5enK@5)XQE!3N3y}%rz*hHu|;Y~}@?IEg2Iek$qBf*MpP;7o*
z)tR5{f73)|Md$cO%Ru?nM|~^}YwZokx!nEIYO7JgA%vM}%({uj(*)k!k-v>UK~yW2
zi~C*zOmCN$tq+E?UKrOtT~dgNdk%l^`meVkNSAo?AV5l`5O>S3M5B-Nua47ir52@c
zmSi6y`1D;UWpFtT`|+%Plae1y7QYYU$h52axkf*8uq60AXXe3J^d7=mxjjZ-g!pFN
z<YONC$LY8JKm;E02z<hazXHZ#(*%YHk#WC@PiR)uYX7agIv8z^+YXkjwyCUaP_7bv
zsJ5Ld$V+DCbYfLCs4wPv?Z6}uCFtWGiGTt(Z7Q1~<@~!SZ66&^{I1i>1y)Gp@iJN}
zO8)f7EDnc0XOG<s>7<R5G^j2*XG%$A%G7%42a`+P>rlq;!H3K3dL+vrlVv^(<A?8^
zGk-Xfx(RZbhIGdQDF2X!;m|}S^fW52a3$@2NU311JKFi>jo155PN{G{cR+QW+sj!s
zn`$o8{0}nuEb_M&h`C=gIw3lgN>V16>6E`>fAvGi9uzQBf}?T2C=91Iw4Zyq{bO-D
z3Mcau)|8qb5@Z{DdJVSpcnC=}S&b=!(C&)Qr#_}_0oRBE7Q;NF8{?-w?S%eugr-R<
z_UiYcH$6WqO`^Q5Yq`B2qRq#z9p@`t!Mb-v()2!dV&v&QYpQg2h7a~IDUjpKxm)H_
zMXc_77wfQ!U4mtL)%Kl&L>AiPu&AS!VfPKAC^I*m-`BS49gJ_^-DwDpA*ZWkeY8bu
zL`C0{uVfa&(mT+YZ24$_fWCT`Ewg|3o*6gOs)#xB4?Wzf0C%uyBj;$@7vm7)F>TkM
zZ6qZ^8AI~sr-hSmJ_5aYSgiOmsS4_kxuMSC<f_lh6lDvibTmgal~d~EvTQySF`K`2
zjNTynp~qRsFEx2!1}FapN%VbzI8qc;rzRS%b%Eq$_MR&1sh)XnJWh)wUe`ho*xR_i
zYo)`4LEyA-?aSK{eN*kbDHbvmBwb8~GMc)}5&yxpS-MvxxXM)G1BLugBz0+4tlA}f
z^aw4<cVu`Fq~bL09#pj8c_xhGZ>Rz)k)@H}Ja1HkBh_)>5FW8aeKcewG@{f|Iki)B
zM)CzS`q{Xx?LK1EuibRyq%t$qFpgy$ZrkB6<*HFnN;Ec8J|L0!Q_5;aibS?<`Az6M
ze`m;h6aD8J<lNcCUR?@!#&~_uGTg)u9B`W;AJfYH)<~E3@FpnXo{pynt6FL4ZP}^?
z_wS&_MO)?He#{I-j(Pvq@=$PdAP?12O!Ndr+;8q!Pz<r4GaHhU{0XK+s8N&P{3cCj
zkVFlmG>|3F-zmI(<!@rb#LD_a+hv!@+_T4bszbcALf0w!{7|l2wI{`qW4bkRi)~;?
zaxl+18?@H;@iPPt!X$zCK5ib=HoORTt05yDeiwKwOx?dal)q^P*F(WYOHw)>l$JSL
zn=XChtC7_sBlrw-45CU}vxS|OZ@G8-%c_z$Y>C3ECZdic!m+tNW<Z%uyNu8is9bEN
zjCvdvX9%@uXL{~sdN8b(bt-)uu_=3hfyJN+iCpsYfa-yd7lENw%BjUOr2E}h(X^cg
zr+t;Iw>~>R1KWj<GiVF;xTV&xfoqp8zmjYo_sd*nDi}i^RX$7=tb?-Cri|Yhk%j>G
z`-c_7;e}hQvs#IN*Yhemv(}Xb{)LTrk#{)n3?1LjjHR8qTnTz;)}r4AJYFFYZ>Ho*
zAcKyFWNy}0)pu0M)pNfDQ?vcy+`fH6W~AOO1r?V6V1&`7vXuqz7_JmF{@6Lt|GsCl
zY|*m-3Ms|R@jT}{K2YKDxZCHlL@~-Gp5{C!P!}@HBKur@QVK_B4IP0xsjDmV1-b;&
z_KC%Qyukog1oYZcdhahuVd4sRyAu+k`@d;V&IUJxx4KmVv7p!#vb-!UZ;rikXWKUH
z;z(K|uYzv=T@H8d=G}(<R)qIRJD!m6I0!rDv{zRC(-m|Vi^(79rr5*gwBE-#&bP7m
zJ^RU1&DD&I0q7%LJlpA1#oB=UHd^XrTOatf<Y+TP(=blBXZ5krYL2<=W)275IMm~p
zT!6m2mryfXGSlWR@Bb>mSrH?D_eiO@XbRj^uy;lp>7&=&n*?AWY0&APE&NksAI7X5
zgE(`0Xh`4mXh_8kBfcri`=*Xci}E0UNiotXQj9BCk}DwZP8~ee=RH-ced$`9Bevf`
zh*?-gsz+bg#*8!h&p3g1hEkFII}wLD0$Z_7;xA^6Ny@z&)fh<++vInt)D}K&(~|Pe
ztb(Lq@Y(FNvAKwdnOF`8+cNNWu&Jx%o8F!b`WP|(cFPIr$=D^)ERMzeEWz(2@C#Dg
z8Ggj&Y+wJN!i|~V-|d>vl+OrVm7B&*M>E1A4OW-xgg>!p4PY%<;Pfe=>%37V5ay|>
ze4kj%iOauRbu$=dcWSO9(Y6Wx`HITBAx_(S7C!2l!pdV>t)%3t#Q(Kt$h&_3j+%Ni
zUR1Llc5O_LF}w^tN~O2(W1Bm(m}N_?J6V3$v{r%SbVE>~C0nIs@F+tL3zvzUU7wEI
zF4k`}ijvDJvxN9#tKNy|L?`++%-kV0buEKoP3TC_;#|#H*{6nLlKnM_=upHX*a2%K
z!|`+tV7R04Ej=JvU0<J5;@w)m2Hl>D)oAirUFO<*MdNbN^Z6Xpi|M4N3N-LVyBSC7
zo(U~X&u_&3jd_3eW~g3%g9Wl@*YweA0<GBLuO?ywyGiq1i`xOyYi)JxfP)0|D?q+=
zS|#;s{7|<0mlvG}WFDQ>eNvg34Rj&(Rk^#}=%<v%&SNsj;waQ!vGExszM~=6|L&1u
zkSyUPaC4G<LbqGIFqwbQR{W|<&3QcIHcZ_+)JNm?wD-)e^vq;1mR}@})M%%-EbX%6
zA5uIs)32do=peMSw|q|V$JMk{mU(UmBiUX>u6t9e(q<At*p-D^307<Don6X2hx1sW
zJ7kJiy$1KYu)OcjgW!=|HCMPt2+554_ATY)9_DASmjeQVwkz9tzR#3(gj6S;!p+U<
zCt|t6oDN$Bz7yt#skh_3Lt*>MErzLfD?_SLQyuG~=H?pI4udXe&l?bS(GG2Vx(Z#o
z?~rE`c?nn(P^VyfkNKv8?C$OkEMkHB(BS=xqx+Y@L3tm+DoCZu_TDc6;`}yHK!U%p
zUkwMe%9?2ajiV)<f+PYaM8mwV3bz#E!_)6NF(Hf96coUUJO@U{A?PBW!0b#8gJvbW
zJ)UVtFE4a+8<kv&kjHgDXBJ1j(tmUHdI^!%_(1gN;ZI6NMg~aav<1BnKt8=Y)z)yu
z{Ro()c@_@d-yeW6p$N!UfGi{v5Uqcb+sG;CP9-G&V*cM9aSmqj%mCH7aP$m>Ggw+A
z)ROMi=5mOy!`^`|dU_-tT|^t<BAGeLW%PJS15ZC5hmZNCw8eUd9Z?sYG%4KWiBi_p
zGVT25&o7ZTq7jHeJ-yC8H{*7{X#nVq<1{eS*?Ap(QmX&8dh6;Am`!Z|WQ3BPqty39
z4Y7e%=9;bDT83uJlL$BXu^IkPs>ErW|BTj6DP7%Oa1j;6wV2?r{a#%17|j0cdcQ~D
z3ez+t00>y=Wd^UMA|PGzs&LO@g0EqpFfbtD+E<Y3tkUZ#g*ubYh24$UxOIhK1H&Wv
zy&P%Sa-4}kkjH<42R4x06r7{826&x9d{A9ohH_nL3(F*OaK^PZYW&wQJ|0U+Rd&p}
zeS(!sKbDKXqI6+5?-jKvXRbpYw!b++a7nOeuuTlY*RgTUK0HlzL%Pr+{Y8chYVzzS
za+<xY#y*K6W*{2|2$L{F=BywnS^UT`z?;himjHziDrbEb=UpP4(Gt?YkO|+*UGdB<
zkt9%OzgZ3yax#6NNON|8pzb_xG0)_X&w)LY(zgalO~Ha>e0#GIOQXc0EXZtjzDY4&
ziW8`ypg^mb8t81-v4csbm?d-v6q%^#Gc7>2!<hG`7R0zs0o(;JmwB8lKPD)!AoA|L
zL~ihi-0$X3wW;hx(q;ktHEYpyS~9Eh%Qoo;RCV#=sL>N<7NuJ+DlfufQ+|_<rVM#j
zQc~D_$5?Bd>7<X^OZ>KDlKuX%pMK9>-gL#k^wjM>MR#}i5wFA33&ZndZz@~^_9rl!
z3>}qJ^Y~89{PMIBsuMDx-sklTP{7Y&%B|x@o7b4CtM`$jZB`A8$8Bw;Y&7F!Jv=PB
zoGG|ZI#)PgLi2xEFh_r*nVM<P;8pia2MnYBcx#kGchTt6qC}8Us7%K*BjfhndCgYJ
zqc%8@2GrwF*)8&^<!etz*!*6{ldaO#00!Objkv)ocxiet*9jEr{b!&Sy09vb<%!6>
z<gQ1u8}>=lKpU1Ym;3U=ABKZrT2Z*w{oAdgvx9inA9M;SlY2FT$7s!!g7|V#yPw8s
zvomtzAm`u#?#738Tt(&Ggti>I9~X4eRr>{+w>5nLS!xkH8T(EG(QB!7y*XweF&R)`
ziJX<z8<Fw&3o<MTI=8ez^E1GoCgXiQ24noX-fS=fgL3_yRxC+5v8e6Yy6O^Cnw!O|
zoJxz)Tk46mGEH^=>G!P>Xw2GmMbYzb_mEkq(@bk%LJrRFug*BTF5weF+2Rb<c=(6$
zsjk0e$1>>j?m|JclF5u>QShTa#sJ)BZw4Ns4qq?&S05Jno+KHGMu!BTiGwP$RHq{H
z<Cc#cnf&%k2zn&2hIH)P?rmF+hAtZap5rlp&OWoO-$ahXf_B0&?CgkMIO#N^7l}Y;
zU2G_`9g2r8M_!OxUF|+wq4zB+@aD1qB>FcRinX0fFDl_@%$v~`F?APjaPtWM4P%k{
zB-b4KOivcr>vpAX(5~x#a~4?k`53AL9ExCxq)WV{V<RMTv*_{(f)^MD2>S|aV1zOQ
zFoTYa>)>&F83$#rox$SiSA+320Ez+oi8l2bIV%thQOd;HPv-R-<)zdWZH<0;IYvK1
z^l_Hte}HVDFYRE&>bRn7>M&C1WEA^gK&Uiol@NaZUgA$;a(w}KG)s(Lo=Z$BT;ck4
zhZbzo1Nq03W=c}@%Y&5X)etAik_L_ph!G&CMX)!cDVemSi>VR^@rJ5wgWDws@7C+A
z-#PjfNe|+3TbuSuhnG^ix$6nZj`>h2esS~T^)3BK1j*;w=Lw0k9cFM>IwcSIfRvG0
z-)!a)w`tG-ztxPto0QSm2Z2s)$4eJIzY{+6G2g;FUF{{NkkQdaof!vw{D`CBCoMS5
z!W`30JLdkAoBu0R-sNPJ<xh??TBZoGCnG1RMuRz=QgUI-lB@prhre4~l=G!q*Af$~
z3D}jh4fA+*3#IVk+PL9stjoqgS+M5rIm~AtymQhi`jJb-85<ui<1nPl4c_>BeX+;=
zF5M$AM~PM$F=~EAB}$F+Z{Tyce^}qtt%^WDzdyiH2YH+qXM<5GO!T06{U+kFlT2o-
z9}}ci5!`xa7hN)4sDL(`(_N^r;lMDEruH2dnd<8&e}@+8Uo|1{cwiMs@8YD^WkX8h
z$MsZjz&So-|Ch&Kjz46s(t{%Y?Qw_TQ)&$waczSss~?xJm2#x)yUAq6GtQGme;*P{
zP0N4R^6qoBg~3o)x;dp#^(iTXhpM8ZpG@Gin#-BOGaC9gD7xVrEyN~(6Jj~%?HyX=
zN7J~!E(bH8b?Vk(`%>eTUp<4>u;1SgO;<pqQeThVs+`7A2=+~2^441q6mj#FpGQVO
zChZ0=?~<|^cLA^nK#D#CtK6H$wFVmbdxwp3ow^<~74a|+umaxkXOPzwiQt+Zdv=3a
z-M20*iT-GXs(R3F`+v7=eSyVFQn-A`QwOFp&wB6HsKUW>FAo^5fHfhY1)SY1lBK0v
z^pN`ZD$9p+n!OXv)FnG>@^qqqr9pllMjeHl1Xf7mXg+Hb%}!Di9$k<eJ<nMKSo{#e
z9E9Z12y}QQ2!7z+A4atLeMK87;n#S}WGq)Iaq{s~T1l&<Y}eCj-dYgL<JKyOG&DK<
zeN_c*)~A3!ESTSf1uIjl82XZ};pxeF(;>!24W=pgYb>(Ila%Pac2Wda1*yUFMt<B+
z#ucZd(0VbXMxWrgZL5&ngzz2DH`hD-Hty}vA~sku#b>osV0)xCy1hr(1T~Tlf73o~
z1XmW~hd!}syu*4#{d+YYG$Ips%P{rjD@@{ZafN{aiD2WW9)U`{jNM<-0-;g+AKKQ!
z_4R@Y8lrgU<xIx^=v2;nY^6o5eAtw+FA-nTQe5$C47+iY!7m<h*Gm<@i9m^L^&g7o
ztFep42>zGwED0NTb4cJ3;a#NkZ?2z0MuS|lq{jHIFXi9T<aeOUvBN<bLUzp`zTE4-
zw$0o&8yr|7-^XQPn*4aOeD>YzAismNgOJDm_En&QygX22%mT+;ijjXyTN_aafJzw8
z*IIy`k8+z-&-Kkpz%z&s2G+eLFf#3l5@+iN^;H(24*UfsjHFYto7&o1z|2{3>_xTx
z*Bn&uOaC(dnSCAjJK?`WM{aah@8#I}_xX^hz21RT)USy*fLYHH<hT8(nd$tcK4o<4
zJI=4eto!gMNMyELrl#)KxFV5;R?Ypht)}V)t5o7wgX{%UHgSV~;MrcO8okvr%B(Y$
z+5?LO)^>H0Pj-*@w}q?2VTlJ`w`;f5eI3vW&2D>zJ_jAF&v6Nd`Y952+_B8v^x3*h
z_T_F46#;HZiuKyh1Dnil8cF)8R-^%Kba#!xfUoxss6T*21qe~2{&;@15m(Ks#;3|K
zK*n=g-2{%WSbX+%8~rSi$A4S$5<ee|5Ft;Cc(8^4UHYKJd=7b;p{{5Zh*otPl1CXf
zvpwEeJhT71_>~evtOxk9*I=FDaY7;*!*8WL97~);K%j9jlk`W3>fytj3Xh5SB>i`D
zK7gD_NQa#YFbeA|R8VO8SRqS;(tHL|?S;Xmv6gh6ttT%p55BQ6ct*bLThuu=cbEnL
zEi3-7`~a_{{;(Z1W?z$^M=_%em0L|D?s~$`kn4CqMvJPH4h(my(=*42T6<6CCEzg1
zuLN|~t{J`pg^|AL<nM3K(vB77<$Ya7A>X@>qrj&bK=}XrFhyuU84Z4Aw&qfXr+^b`
zqH~=%c~D@V^S-<#&rJ|M{j+T6em75Hzw_jMVQMv=@S~(J(=PLk?S+Mf78Vwfggx&Y
zG;ejN7t>DpOFv7gx|n$yYyUL(<F*L<KGQsOn%GU2&d3hSL~DOW*7iz4T=jUd7{L3O
za~pM!EX}|zSg{{wP@*T=S}atbWlddtGg~N<y!xeYS^Lt?qGF%AfCPD#OFe#*nSQW{
z=$t$L^KPbp?l%oL$t$ZQ<EHk2_nNwxss!yK6*G<%^bgceAtwx?v(s8-#k5DQeg@!C
zl~<_1gj7NGxBV-@v7Jt^+gfSeGcigK8}*^@zBMAI3@yBHQS79@lLo(alLGjy|G_~<
zja*z@fFmRym^1IP0q7ttZSOha%jV9`$xle45DqSG>Gy)oji$=57~lh62J_R^4DHKG
zXbbf+=8906t}p|%>0Pi0y#eR&KNWTLuh5v74Tpz^z;Ur!(X_0}G#QT$x*1p5M|!Q@
zq9P9(#4930oG+;(AhGrgWQKNt1-Ey5idUO00J^Cwto1!?g;cU{1Jsrg81m%k?Z(<B
zO(#oSew81dFNHZmjg{qkpJFY*${I(YBY|~D>Z&{^FTA$Y5;=nfzkdr93AWxmbU8AS
zjM_c86;xwoNuUq`kio0la<<kF%WXOym;&lDaqI}KV4E(9+M2NAk$vR15yQKmeQ8sC
zg<Z9mVpf(fZ*4mI;$j>ZJW-*?SJP`4fLU@4&01p*k>^+i$BAt+3T6fXdMd(w2no}`
z`HJYkkEX0;c+g#)i@$|+ttI{Yvb?N+L{_!QKb^|Q*NO`lvzN9lM^N%>(ZSuH4HpEB
z28*H74il2L#0T5@U$oJ^jX>1n{&<7IzP;ml;8}YTT+!odB^fGbv*Nc2x8uw%lj@SN
zv!+WOn)m)<gt00WNwNgSO|)Ur>MPsN($lRJqe}kv0t?avaD!dr43CuRR+BxcZ_;Kn
zEjLzl*zmDdF$n2<fa`#FrQAW8nLe^YM~%lubrS47J}hcyJ(#Y6IoxbjTxT6`$?Xmv
zgHoDmo1=-GFpe!i(AK`sU;lMw(8|+6SC~A<OWpRv>u|2e?ZDPZL(P0=T%M)l@%mvh
zA9=-dV}n=R!ctTC(RJ_k%<1HBYU&UCqkg>6-q!Sl{ad~MMLK$KkPRuZE)1yDPmlkA
z=U$!%6G>b81<3>i5v>KhkzB)l9|yqhv0=J@_Jw-_Og+3lw6@9$x=+$J#c2U65aU}e
z*WHPWaltA;L&DQ{d<%3_Kt!+r7Nt=vKVG6&0O;&-I(ou5S)RqP?KaIS>x|r<%haUz
z5!?#kvmRkJ!&oQ$0e1%;(1j|aPB0w<w+C4{rz-p4HL%@)$MSk*88qq)1aUZ?z_5SP
zvP1Gal;Eu;kutQNFVzSDHFyH65?6|^Gpm&A?=>JG;G<4>**z8{D%-AfJc4<H*jKL|
z@NoZL!Fnh31w%THq@5SxGt0y+h~T_D3&S%+P?vxjsxco<u&Zn-0@l)n+F8Z#g6<{m
zlR)1>F_{9sQ@jvuCIJ|UL_qdMAr<jm?~6=w%NDMT#Z)2=IPHcnsYrN{&*_YXkJ#;k
zB`qj}#6V~Z7)&X*QssB2YGCYNOafV!_vJ2BVgmDa2udm?Fzw(JO$UBr1SzI1cLHEY
zx~!DOL0$bLwt5bDN=H(8;9B=En%fU5TY-t#zXy>vbT;2CTE%K80ldq9f&M+KP*o$w
z4nEl0bh*t7EF%@Kb-|hs9*qe9a7-n|(7PlCD6A(f2CyriL_uDycP1vv!c?)8R4@s{
zEcaQmr*uH=E_A)wG6>XJ0$l?r&ft|?$#J2s0jjs(c15<ntl-o#56ooVAOwjb#vv%*
z&%KG7P@o!1W$#T+4;o>zeLawreWp*O;gvyC{!?B{->E-?-(@7Pu6F&mqu@b#9Z;_H
z?sZ3^QZUR4)@_0}hIJa00e-{ODF{4vF3xEMl-Kh3-QEt?r{_SBrs{EmF@P=J)_G$k
z7~&X8F8#qwjnBaE>Q7NC@VEW~!7f|;I~f}nz|E%`H!l+^NaD4L5mE#8?{Jp;$5bXY
zV5Y-vHjn|<)4Yq0A#=?jq&zHU@(bN*8U-8qT1@Qv#Ke;?cfl4T1-O8Yu%I1|J4K%~
zv%o4V93`@|0bzbdpel8U)VsLasI$%MLcV8I9aJcZyxmk$F`QP(m-|V)ZnkG&jPtMB
zR7$6LyQH3LIinr-^K|ci{NZ8g;-Yp1s)kHe5U~K)(+H7;>dg^`FQ2ta_wCu4R;Pba
zQRlj<KG8Rk_S=VxjbE|KOIi{l_r;$Dk6XUyIIOhcGIKl*_O`TWOx!g7T^Awd=Xko`
z(lUzqhluklP0e|jdfvCmPK&wd*Kj0#;ty`Q^K(-j9S!;*bN2=oz1YIwleUX-Fu$O}
zPd)+5t-q$sAsqao*K=k~K;#Dkkhk*A*G?J8_R{+1^j~CW)n7Nv6C2$oHlMXVfX*&k
z3rsXtz;n*?Qn`;Bp#wE#BpF@5GZ=~`j!@EtutDWD$m5U6j(u7JtTH;Hu02psJOcA1
z%N-BjR>|(HY_h3xwur&wK$|pxcf{gqR_fD3{mCGJ`a*%E4$~`+mB25D(-AB@Wf!{o
z8mE-%luiEqDo`~+zmZ+7x{Q*XIRF|r5BA(X-6ED1;p65FL-5hZJHm)RgY$nOpYrWf
zNy9^f?8&7aU;qGx8;QN)4_BMpLWl)9b+V+UfT`+VAhrcJ916luyO*FK)x>n^G_Yqs
z_C_sZn*)PxZa`4j1Q|-%3EMIg8V3ZP@znrD*{>b>lOUN8r5H}}7K9<~m$<rv)+U-h
z_R1S@-GwNwcD@3pH#@cuM=Rp&A|Xr2OY$_Afb*toST6w;RweToBUSLvJ6%+uSSS>2
zP#V0?Q_C^nKy_WqHig6m5OmjodFG3T6b3j2Ts?umlb%d%u(&u0OA1!0M`s>8H=$#d
z(ZVz4ZShjGlbQ90{aF^|+pz+D$36_1+cA!4vPu%qRVcRXYQwJgx=w!8`v6l^G8oPM
zPPcXd96LWl$_GV$R5cz{buQ;1%#AI~8hB)`B4+b{d5c1=Hz0%QpQDkA%vBoF7-}Sz
zD%(sGVj3SD49%09g`X2Jvg|F{K<a;+YxYj~Y8nQOZ?*C7M^5P;2PE$w_VcyBl?7w=
z`sCL8o>u5=w;#zR!XH2&?Ta=ZRe&-DBelm91r|~o!=2yckJxEf-4z5+Lg)YTJ^mw4
z3}P@vtsglv;VYwA6flBbI3=Ao?I-Nx;j)fZ#XN{qMVWree6vihKvnR@4o(?-g)wYY
z%R<luhCC-da*I!Bvwdryb0I5;hxb-bx?!wi{?f(tT&P|D>Oo;z|88jikA>rI&ERJw
zBvZTDWY7$7+a#P;SsZ)cZ8?{7n@W;b&$qR-xgC_h&qu;gw{7uUR`t5uny<DUL~~L8
zqoK8RxtDm;4S%-sYQ?9j)?wv=T0#EC`IC0lguz$S={!}pho;+okL3~-FX8X`PCm1h
zEx$yKaOM54NohOtdcv88=|O3=hul3=aV8Vo`TuzO3brbMt=$a>NOww?bR*K;-QCh5
zUDDmsNOyNhNOw095>nDFf`IT1=bU^001s?t&#d+4AKgKqOjvVOJ1b7J__(2edD3W3
z%==-}!w8D6R!40}O)MPu!cRrT?%#bwG|N=`NyAC^BlV&o503^AWbvCxW-qNq#2?Pf
zSxhs_ur<R<mw144CM!*)t|=ok3&t~RD6n)_ugR!}I2WUo%mdZvSw&@ys<y6qSj&R!
zDRbLyA~<O3Qsc#hMQn3*(`*J{nCE(-pnPEhBK3`ay@g_r?_-gvKM1K_FrqNrq!zq1
zS`ZW!2Pr08%2<>$@B~6%_>am8!Tnk?#rlid5-bZ!trwo4L9uJY=Xx??@FGkJd?m#6
z-$O0u$u8qED~DjQCWb{YJMpfLgeM=srUGIts2>}$RT3QHP%m9k*o2%uaxKs7m?8KJ
z<KjiPt^&uFA^4%EZVQBTfJB%5k02=rIM^2a2}~GyvC5V%Vh;Nr#+GG|5X7N!UK!{K
zl6vhX03Tzb@+udQ>w}3ej({WViMQs#n~-_Tob8WgQ))sU3x2#$wOs+<J6S!2AmHKR
zbxFr9ZhZNK#Lxr=Xy_9HMAs?~3f4eBYOolQ9KlffdnXDp>)(JEI9>nNlAOlH7*@6e
z@Ll1Pim2Mh+4K)(Vb&{5S##n#KH_Y+NK4=E^VDRI7{6TxJ%t%@st^9^3$C!Z5JTk&
zF(nlbVhiv9Q;*;C!{&V8EfXX%ho)WT6{O||h+GD>x(Vn)xB;N^Dr9;)33}_p9m3nJ
znG%IJehW?xp_1~ydvl6&JRGZHjNT6xVCjRUxulLcBoFa4tmLms-Ih$iWM2nNx^9aD
zQ`pVI*uYL;^2s7+qW@8O>8qGT=pT-G?qyhV7lkY0W$F?wBdUiW1_F13uJlkHwozgn
zxbCDj#Lq`R9pfRssc!e5U>m-0yJB_+d6|@qfdVFS4WU9BqNB-IynU$1SDVlOHp7rN
zBjL|}nVQXP0O}*?5g6o(c6EB8NA-fJmTFmmnAkMj8}c6c`J>-;rsxP~AIm3y=S=9V
zPj_44&%^$YQrqw}I2D1P4L_YWD_2<zS5nCM{ELznRWkMCAoit)ycrpq68bkUl#bH3
z_x6!mJoaqtpad>y2uz0QSN$`F?$1DtlsHrj<!O`#Cg`qLY%aRcRTysTx>x1S&;MY7
zB!*c}(}p#0@q6{o`3Y3b3l$h>wKGIO^J!k&#N;H3!I{@>%xfoB*SW|tht7VE%Ix>S
z=krLBZnD$1{cS>KU3KV|JS|Dd#lBGLo=@8Y1x$Kl#kz2leCO&@*?LzaloBq#l7-D}
z&v!>9VhK;rmf0-##^yRYbi*_(EEc11ihssl;eQ0;&g$teDlrH~p85Pj-8TJjWNE&u
z)&#+DduE<lwKsHXQEry~VRu@`yN`dVqw&&K5BkGNbx9c@InXwF{Q!5MPyRJyvpdq)
zY&+hE_Nu+dAqs>}BH>H~A#2q#H--|%RoD{N{hQ=wC{bV_0X)ps<<Vj>(9w7NbB7I{
z$ke*J+nGbtqi?<gl2Cw=c3#Oo5;}Jl1_(_GTnLi~vz`OtIi5kX@Ac$m(rKaOU~Op4
zG4#i4fg8?P#d9!m_&@s`qQOoH^4Wf`^6c6_&VA1M1a8OP2cYKMvsHk6rxgQ2EXf~V
zSL7$J_}}}s8z$G2+;%>B5AKc*mgZyx*1IYEb<F!(tO4E|kmc`EQShKF-&lVDZ@yBs
zI|e`B5c8s39@9$!J@>fm=|@&aU8i4vfGAE<NGtCc+)J0dQM2diEHjh!-^UlkM-Zk5
zz$V}JQuT@+B#j})hgJNNQ6H@%CDI&Zx%YnehohzaV}MKj8DfX91ceD9sOheblNKYP
z84MSOqjzt%1(OPZAq$JfmQ#OLkS>DYXPttNYa0Mo(nhVfLRENS5|64bK<wcq!r)BC
z8lmnoCbM>Rlwyx)SK}1#G3c#N>Uh2yXDKBwQ*K)^0j45lOAyzjtv>4LV$oXmJ}Zp_
z{-v|yYa;kY!)wfP^>`Y>tpM)vO6ik$QUz5;uPao*Vjhw%x1NSX>Ce1u*9)+Pn9|Zx
zsBt$Vu=ui}Q8?aN!VM_4!%e?jvV2lRPOo5-%i|P{#JK3n&jJvs#7yoib-}LXKT1i|
zOBY}Rv<K`D;AQW!o-f(bMqKXu`ZA{9n`eQJrZ4g@o}+lQ;5LN(*+(#455Gx9DCd~I
zYNc7gtueOblpa#U7ZeXoPy3~TF?V3`K2%Xd(!%k*I)Q*b{9Cn5*bs$QDfMCUdO;G$
z9;iN;5ZmNtf?Ol?1)xk2$4=oi8A4l<uGGYXG`1OfEh5euyA0w(y(SliQX__CWt~@3
zfWIhg#F4<>`l}ssE0@L$mU^Dj143Cm{#6`SieW>x2`3QKTIX5UqE%~n(q945b96Rs
z71Nj}djz3GyRR#bu0ZxuI5I)OA#1XoO3D-c1%NKJq=e8A;H+Y^gb+%k#b{Q+OxJx=
z{qf(v|C42_XHMeHGdh+y1LG#Z5O+QcZ7j=gn2YR*-&m#TfUnjg>Q@!tJi<Wo9tW_+
zBh{JUGdBn?4550r>;VKpztzzsD5CFR=knZVpRcNy22Sg>x?fB5gK@_lwh9qOjo=qv
zH+m0Ymbll7<xzfcq9<_d;~=qeetFAEkiCFl&C(<fbCun1dnlyhb-?o$=@S&p^R>`(
z<JZ<4f!JvA;bY9Nm`o+u5cyaDBt<|~s#HX=2^3F*1~ATw&*xnaHGb*H{nLN8)$p|>
zEfYhdbf#2-LJnh;*R?!BIx#>GEko|;G7rw+%!!yiR5so>7#vYvfv1HRBy+`97}<et
z<0V=P%UD9I3F;nv5p}iEN8>S5YD$Uhh4_19qWAIU*x!9+Qmhqr>nf~@0s=pdaTzB1
z4|5V+(ajU2WFV=L!V?Tyz+@1CLj=?oq`t246;*`owQd3mkJ4j@KBY?&rr%88Weg9H
zLs0Q5>d4ny1z-8={=or8po3`KLSvAn&=3Jku#uh9t^(4c!c*y%7Gasv3J6*TDKK_@
zZgq6dz^cQ_p2t4cemS(3$|NMnDq(y&`qr|iC|(MgK-Cc_nGQw*J>QT9$tVA4v?Td`
z^n?5S?A!I_MrEz$nv+!5DbOjpo@RVHuJ-CdgOIvRoH?vJ`__0JvS;aacRfZiG_bup
zgHG!C0az}i)uz#-4FNn|m~lXX++fIeJvi)L?G>91VfPJo`Chx>I`UR{UCVc#t?^g_
zA;KWGu<Mcdown<rlkLW7O|s~#fI7J}eX>};a>T1eW4ZGUuiwK>aj??>9(H*+_2Nw_
zaEx!+sF>LUq+`kZ=SRkBMqPCfQ>oHuk)EcHskH-Wt){`(^hEDjbN7tA%ZV(HU@Kf1
z?TK5hR1TwXF0t+e`Cfh7a13T%x=Ip9$I9=7f!jSs#X4Qpa9c9?dp}jWh(QixZ3JN0
zv#;$C{3xMI@mYkoC*P$MS6b^kq(1Yb*NEy*egUK<;P-vDBMBxNtmogh`0F7~h9@o#
zsG8?ArKS(<`CVZpb#wj%mb0%Pw50HO^mIPBYQ`U}LcWY#7DYG2-79GV!1WX5i-E`t
z!g!eAG!{;!hglBB$~L2JKaE*~LTRxhGwrdkVp~ZT=OniA)DH$j)yZu7eYzOy!}vA7
zQd099AU%oJIv6F*4A`H*{<RxH4ugbTPLJU5Ud@s}6B?IMo9x^D7Mj23j0k)n)L_r&
zSGx8#J)==Fcf9T=o|9Zl%MvDI<EXvJ|A=d*Kua0`tA6as+#-g3gLm6XKfqiWEBa<{
zl9GJZhs2URM?JPg$qP<F3k`TKWG5L4O2tB<on?RZ3DtI7$vU}uFjMX*ttsw1{;<*c
zy+F#VhGTMs?K8)MP`0)pZ)r1+u|{ELp*>&BJdq;+g#MD@#O`127bET5uwux;7^5p=
z84S(tjM}~(#ZdGbdHl1ZG?ovBaiYs)#hiC13AclO50mefp#Ja^d2#%i*!!k_SB=@v
z?SVvh28C6`HS(#gT2e6ycYnzstSPSXtI6T;_fz@5_t|rKpo8;`6!Me<uvL$KW-BZG
zl$4MAgSGa?-8$L?fFJfV4$)`l&1vhcl6Rq`lnWnYO=M=Zak2{*xS9{Ml|LZj;%4y&
z4O|sUX>9dx{yXz{o8<_NRJoF;T<U19v`CNcO;4Djf@3sX5dEC~I%Fb~o2Be+#flWS
zTb=i`eNB)NHB`K4J*4L)Y%luwY4iEPzxAy9>A1UfH0W)jn2VbXbbxgtbPoXmL0`X3
zMd@!#jXc|)quMPQ0<K^NMH3&{98mV1YGNVY4cw7MCa>qF1a9>?Q(F6ldeFolZ)*Mj
z34uG0Ldqn($HHN*AaWZ-YyAW2g^3h?W;UE3ePYPkQ!5-<W$+e^ltl_OCI(W!Oa-BO
z=!+}?Y$XwjOve9M#fuOS{J10ZwBynJU|^OH0{XuC&;4Dcg6i4AwAu-B8pymrAMH9i
z2g7V!SuFM+&SGW55XVY(i%duBAwYBEUvPK-jl~c18hRhTy4{FwF8LiR)kM_H5RTKM
zJT>!GheL*(|L;Q5!;+D$1eYnEVfg}_Z(kkOZ7`Js1Wrw<7j4qc7xMfh-wmNu0>{vd
zGJ9q^uO~UAt~|gSAc!+8FgjZU?<?YlqC2A^+4|q<2VwZVHhU>{$aP<}2FW``nsy}M
z+9X*}*rCAvNAd1`BETqRQA~SIJ|w3rK|^dq1*V0bePG7IFJ1>UoiO}Y7*C_YAtw2|
zOq4@)l0k$~6BqH7X-)O%QBrFji#G5R`iO{pIY3hAt$tAk9lVCr>Ju0p?_mpk`jz9R
z`748~8N$lQe^>;x`B5+_G59K;kC)#pr{i+<Pv_r~vPq(A@SBKY*mUlt^4qo9XdLE=
zz-k$$H@e#sppx=^Ro2rq{t)q9GLEt8G>*2>iEG4eQ}E&b*k#kF(R4IX6=lmNS7gU)
z-@Mm=*GiPYcVePSw89hL$8@kTZq@g^6Bh8+S$^I_z{ySf2v*y`d+?)__Y<Vf;8HQO
zN)$LQNX|OXyMj`g8i}qJ)Tp`FlUrP^=>~sIMCN|Y=4t%G_OXL4?Q6BJd3{A^IiXa6
zPv*N7wG!;^Yem@P;vYcu%16}6=L0bA7Y*K4FdDAIs=CvD_TOqf%kn6JL$BlN%MG4X
z-}{?!qq@8%^KtnasKxua3XNZVp>9t$jBFxBFz~o}YJ^7;n_YkJyl#$Kv7)2RTGmsS
zTAkqV)R$0t?5321UZtm{3=(m<Sgc6}ncQ9Up$V2@yEOs30wX_>0AzOuhRG`xr_st(
z1g%?EZlXvp6=EH%F(iuK06X6xF}dV8tzHd@DF%R)E{A{hZ34Jdb7fwDvth^`Fa!sn
zt2#zzxR$;QYnb9Zu@jPtlxZnYFgzs*xZxZU>>P}5l@QbB2o{x<B^i2C62|pmAaYQ9
zGYx+)vT#<uKoJpYR6qXs$sN{@bs8@TeCFmBpbG<t%<!mY+6N4p(+u2K2rRQiWDc=i
zn_iO4Rc+FXo8$=<IsrAm39KiW%Etw@TPs45n?rqG2<iG@p6)M?2~n5y@RR)|PyNYD
zKt=(gh^uFpR;Nk=t09s0OH@JUru*NI?mz|`;mwMJj{3iGPk)XSL6rJrFlRWyU6j!a
ziaq)p4DnRQ$;jPgtZ^Nrfx_%D18UCZ<rhF>lD8uQuel8^nCOy8yFwcB#eT6|f`{2y
zxcVrq;!1)MbDmiN5|d0pRv)QH!bq1Z<nLDytTDS@Dr<v*aG~3Z`Cf$#cfAq;b#j%L
zLVBT4k@sR9h-;fb5YA8n=MU8G!GLE}9pGZOr8+8)^Fu7I);Cfw`T*5r&TtX-ug|^)
zQ95$ql=SHW{&bag2XFB;d6p`YNfkms?~?q$IYp|M8&n`|zkbl}%X+I471#f9Yf^kf
zM5+HAy8eLb8GLA^0SDD_!Uhnrhyji)t1}M5bar!DVej7Qn~678{Md4EKgl-lhPa<@
zjGi@)GvxRssx(*LKs3A2w~-33UYNBFQ8~Rpa`Bf*cE=RWs{!sPQ{dCrnV_J@@eWfK
zmiBrcX-9#=`XMF1t0c)-LY>ms_iWRB@-~m`K^LeVh-Cf11qBbyjRp~w{51nozGh@K
zpuf0m)o3#Qd5vfjWf?)O8}jNc4J|WlKyXhRKpn*KFRnm3bA~dP1SVwSYepf=Pi_OC
z@eGYlF9!Z%p~o#WY64MTz(Z3EH}!MPVb@#wq?7hRP8Q0OE&@vQKMHb=g*5g2(ZH{K
z)zTP1Cpu>ql)>X-5spgicNuNudcI+Rvbybn(rb`Fc1N)JTMxtF#JEpAz?`}Bw<<G-
zZYZf`WK&@rZ&X_{n_MQ;1uHzkswD2Zc%ik_MKoLQXig;QUC=;5uC;iBkDTj25SizZ
zjDe>Jdrb3Y)j=9pVmbtmr2XUj*LHbwN@n`}M6NR;zcGv@u^ufXpHLt^!27>4;(@;r
zC=yQfwrH=C`M=Wqs5-K+&1{sY3naS+Z6+u^0LaxL645YAD&T&b83$SIK5(sO!@ScF
zN;aa`eif9Ev+qoJ;-N5VALfcEJm0w;4MSqc`w4zp=0vJ7$8b`ptO5TD)cQEfv}A?x
z3D7`_(8O29Z7L|EmR;c6!MQ~(x}iB58lJQtJI_{4b%Cf-zc=qDFf|1n^tWK~2Bs6}
zgWE;Uhhp~#B{E+V49V$%P5tX-iq=?4h|3AgNDAnR1Bt+%PzJAIFGvb3NOxuQe%Da0
z4kn3&1GeCDCpw<r#-Oo;5&i1h`S+*F;LgcROVl@-cfbSR5j^VRTv5kOZ&7(M&dLW&
zotzf(D*IDB`#EpmjlUNT0TU3^L;CTmtxKO+T^MTY$1HvxKS2WN(yuL2$+J?!6|dyb
zNc0_V*PS5WSB^#=I=y}G34R_ObX@`yQ{RuR;~E2vmbJv&a3P<f^OO`P?(#Z?H@Y}f
zMz0*^x~|3;Cif%da7<@w!OOtm@A<oM^n1k%9(;6QL%d@A&oW@J<7RM7_1c=oT4vlb
z1*phw*&wMHgsBY_qw~9?NxpC`i<hN>9X^9NTKEQAG?F8DehG;eqarNbk5@o05?;DW
zIOMFuV{W_yL=n8o4Yt0{RX(WSWE(1zAllxszjqC_4BS$@(X(S3L8k83J87M7rwyHs
zIJq(NhAAUb{RkRuX~@%(bPeeeLA2p&sut(8D;+V)4VicX{<N;&RT4iT&=SdZjjV8f
zxR1X&%C^H)qjq1U1aenI1^KN&J?F6=gRdho#dQ-`r9%H?{;=4ir2G2$b*(7qjs`fJ
z^M+r)OEi{w`zp~0R8(b6_K)jQWo$80{7UE>TkWO#XI|OhHH2p4h|+JP2+d@_D0TMB
z$mW6QZ1~;ZF{5ToMcpv0qGh;zC;dBXu{cy|^)CLyzw-45P7PyUzOh|kND<|)?w0G6
zI${eH)5s1LAeH*YpQ)v|a1^G^)Il~y3c-BJhPpieZD9S&VuGyva6XyOc#anAE0uio
z&Yd_u67K_Y*)VY-)(%Afn@S@lorVw-H<Y&#W!kP+W0F+;*juKDfM4A5Pi;A>W4#WW
zzv<H>>ciX`_}rAiW(HRy)))wf1wl^fhgn`$ThOUj7N1d;>3Az`h0nZSG7SV=y`O)|
z2Z$&@P_L>#`bJZ}n)`aN>t3A*`T4SPAINQ_w7$w<IUuFA1@OqWNKYMRV+4AY=}94t
zp{Ajc`d#McW0(#kMp@?9G+7tnFVjWWzdu0c#f%u*o^Pwww+lXo#Ha(d9Uu7dP~N_i
zrCL(zSV2i(8{^7G(GCZ-3UXHV%XNW!hZe51LsCP2S7_QIHn2baBk;e_1PD37iYv$n
z!Z5xjC#os@e4yKC5o@(umHYg-FW+n0g{ZY7L2wkhFmQ(mMRW87hD^%5LPv=TMuM|+
zsh=-2_8xQ9@QtVeXG7f?Lt*vN!OAQ7VPXp^2X;8(Ilzm37QC0HHdSJD8hCkAqzH=Y
z4=fC{A6|xD8l~_|WB-d_(t{u;aneSL7(CIADhV}H{El*(2;{O3opFBu5%Tc&Ay*TI
zIP2>Q;kl2yZ?}A)iAg@4uw8$3KqX+`1;_`dG}kaT8IS%SQa?$AEvg~pt(QQL4l<H5
zgEUm@zw~lq#Ue&cU;HLpwn|MXn|`IRgY^$;#Azq$vA83emYf#$nhe(|BV7m9?jqls
zu36vJgoAdl{#Rc?!JR-45a>6$*)j>8RcWh~P>~_uj{P}K^WO^9sY8zyx{A1|iJ~c#
z!Ye2VMUn#z!}GK>;%p$Y1HLH4U%LiyAUrOzx?k7yAd(Ic&$|m~LcvGJd`UG3{-%vw
zH25_t(3{VeRX|Uo4v4-8&@BCG7m1g55l*T}C#+Ed`I~&WDTLY+4^-Uz#=>1_!Wrw2
zy@L<upL2;cg=>kAd)i4R&6g&*_f6!6!h2`5*q(tmQu5r~{L<3Aa5K|k%*_6SVlkvg
znD~Q@A_~A1<~u(ze_JWTT%3!N<*-;l=t1y0EOyqft_FU3n?-u0N-Zg(@t8Hjj^}d7
zMCR5p-}%6F3#rq9lse*V$P!}DFR@4wpqNecS3otL<@}VX#Z;cEm@et&8ruDPG=?w-
zUzGtOS6BP(jMv5Q9@$a%$^AvxKnn8{C<t_Hs11?^LR=!ZLQ=AD1Yd~gt)c=b9^)Pe
zGTC%01trDbED74WOAtx8`(ci2B`4XSfi?k9Fjd&Ht3Y{Q8qW8yCl3}Ho*HDOY<88=
z0_+*dzk7fpJ7~mh{!ykvIVR0koTAz4XykO~RmIEuV7Z;=z8#a54tx5OEuES%!7H4R
zDLHNIIL#)Q27%2)E}9&Dl7I?o;zrH@B9Fqe4P=$dNzHAn-l&qEqI1Bc$oTQA#Y4~g
zIeky`g`~Z4U$<}pEDcy~)7>OR-be*dVbj6qZFvabz27PV*h6N2*acVBP2LCNp~6!g
zOuee`5Mi@Ot{ShydN*qXr}9R=I<6yF=4JfTCw3SxN1>NVz=-De{A}Y?9<#AAfLbLx
z3h056fc~1fgKD8W`i=s+m7@2`g=-m*%((->4;wFHra?W=8P|f2PSzh+=x4%;c4!rX
zAj(O;XnjCpws%!j-QvY=&JeQpGOWDjxp)b$DI-*M8QM(%IBm2N;%g>>AotsiPb}X?
zPl%<dKY?!C>Aos^U&JLCt+TdQtB4=ot4sCtj033y#wQVij2IGu)w`hV!Py^mp6JNW
z+j!mR(+JtN&@UUKLYY}i2)uImw@q6d8+>RmO%ogw*p7Z{!kIc(ksn5p%ph|=F6Oo0
z0^P5Ays~*whzZCccjK=In;?h%gtY`!Q8~4exfKUrz4ibo_mZ_i?7nQWHMH~rg4z|I
zBM8U?@5x9wi`JGuV6i3U68)Dl`)we)AUw7b{kjp2jFYP0;D8RX2y(#<!gtO=2**Jh
zMvu+pZwhh*$Oh0Ixz4|$u*NN`st472HQafA|Bj8K_my)5O<C5;>?TwVv$Uk{=tZ9Z
z<fvu|0Fg}@+rE!VO*k9v0aPMfeG5h^y?y*O<W=~bfw%lqbkpM8%g;wz-RzzyV&rct
z+|)YQg6O!{#Kt4%C{;|h7p;tc&6qOYGlhA94gUOvXghL}uHMxl6u8UdJql8>2zh$R
zSZWO8UsZxK<_bB>bY#SmB6eE<D~L(QF)$WCT|XWa$oDyf&f50SiE(%JoPy)OyVjW{
zH-DA#qJZkMVxy2hR}H<G7|g&URF_n$42pP4JbV9_L8rTm|8mz75?Ml{aF4IAw%fc!
zA3y<7`;qxk6U6Hf`_@qRO~!#Bh~KA~K+$%IcY23RcWLRlj#?dq91zm1Op48aJpoAl
zXrMpumPtY$s3f&r8nQ-rt~E69{<D(4tXdKvq^1{@BkgnA+=h?O@o`xh6q@E{K>_7_
z6)e&=Hwopb9P{XRKH(q5a?H}-rC5<Qp{R)aU_0%aKY8F(00T9ad>Aykdf@fc!!9x_
z8AvnVj>L*q<Y$9ngMI*HvE?K^R1z54f`s*4aeH~|z9W$7=K~b?38-cpkPYf)RqQaQ
zAZ98y0rCMT9n-uFSl^GvdG<f_O<i3r1DFy-8WHDwuFeFRB~uW*2Y!3qQ%IF<=DU>2
z^nb;6*gf?foAqX>*H?G<H|Ax)+|+j=hCpiI@B3&nyLGv~ID0(=?A$#mY8q4*bW$#C
z4CPxJpOEeny!$B8*~1I0jQY2}X8>)NTp~=b?&=3C3o|E%%Xk>QhdzOTtNn(9Et-H8
zQLL+1Z2+N56i^C8rGTlIA2-2l69=lqw*L^v$N@?U-mf*^3z7M+5(_A3%~6&jywymA
z(w_1K1iFk179E*jg6C-IEVf1b^uN1dA%~?JVk%9Tka&Gf2`z?EE)<a0Ll@L>u%hxS
z2tXu9KrxqG2%}}K32JYODiT$GR(#>-($~y}7}KRuvkL3FCD-T-{C>TeVP2Gz@7S{g
z%+|`Xs(k6SV+CnlARt;tP?n9ZmZ;u%TFvD+K^N*hu1IU-2~c+-S#GFHL;dM3OY8$I
zFP?bqV{!gQ;G*M-Bcr!e&GaZE3c~Nz!2K*2)D9>P+R$DwE(lSo-h9E*!RcNHN?2vA
zs1fCQ^Rk(G_pSDU&V-n}rvaSzi?cuYhzD)AMu(s<FetN(+vjL)<3F%wJPPs~GDvue
zJmvFU@MZaYH&1UWBH%oFj}-1lz4k%w3N4kFc|#rKv9gQ|7oqWA2t&_G6n2op3j!Th
zqz^Byf%9kgWdhxh<5V$*`h!=*+b=YS1opes`Rk7tp{!UiU)sEt%JeMGfZQ$L8R$S*
ztCk%jrVxb!hXs>C%#9i{mT*Dlw$Ol5UNhJz39wBR5G@06lo=1`@SEJ`WZs5a5^6|r
zQw5tGK!;$ak%KFzrTgFM3)Z!b=TIm?!{zcV<e*lWlQUj^+x(qKD|^<gTdQm<g2N@3
zHkWj|C^kV@UNrIYjK5dWDslmcRVGrVCJ{(M?_{+LX6cK-vH-OmPiX#kVhJUbqmYS6
zJ6Pfu-DJNA{}*^jKB3>A#+O(gyHBnT9Jm5rf-K&@-X)oS)I@1Iv~6t=ARmPg&EPeF
z#COrTfbU27n@3a-MgCWnyjQxdej)rowAB4~@?#&)-Jc`DePGd3D<Ux33JW@lAb~Z6
z4ha621ceU;y@11@d6)MPSktd#eqn^UPEdj`1=NUv>*9G^F2HC&u%mBrcTgfZ80p=2
zw;2B#dlBd-ZdU5JhQo4c%sxTz({y`Kc@M}2Nc_AXDxai2BEQ28l3^&k<pFWg&3UT>
z-#~69HUyW0{oN5r!vCyrR|#+(Nlw_V>+Ex?XV16JeHw6A9PjP>N)ha@3oL&XAH=8D
zw!XMosiif3f717wGZPf7#HW6b6%$LKwot0{Byfuj=-bnCsIOlG7|^3X)lV9D;MlFG
zJ_N@RJ6v|$eDBB?+d*@2evLig91MpOGHy$51R`x9pczHqzcf3Q&C&Q#Q;&o8pwI0n
zTve|{6ZG_~<cqz7gUgC%EG8chve9cAvHOlJnifN1;5mTta#^54fII!Xtk4~eKvg&i
zC{G*~tXew3D95a?jd-Ud$n%75hHk~8+T7y%V8=K{7=gD<57Kr2WPAJ)b83~-=qY!6
zzvy+l{?{0&j``t(Ho%xx`1t2Eg={A9J*Zi88T!mpaU;&_b=Jl%><8!_?D;bTk3k*R
zlV#E7t$i&+y6_A_-apIhRlUlVSqYKvNP&?BoiU<PjeFB>Fvdt;&_RFpa`=2`>*zz1
zS=`EG@Oz==(IcDAZ<j-NEU>^I+rS#~j%ROwc$3O!oCz41hJ1NF9YLYnKxb~I-XJP6
z&{+(DY@@A|Zfv#wIuoaEkHf_ICTp6cI0CgYMdS%GJfp0^lpv6d+5loR^1rs>!ob5$
zB!M=A*88K%+{le9^qL)xf3g=v4CDq>>};c9Ats>O&STw8tMzE|6`%i;k6aAwf_heZ
zx(>0zL!y9Au|Y216L2Sl02fR5G~|MBmd}oLzw>q@(=#k&@71+*S8?^6GJ-%nD|<gy
za1R8M%CqkN!~P}kHeWZ8N>7z7{Wma`@7V*_L@Hg7<sCgz@>=evv$i@}N$NmDu+i|3
zj&N7>w^qk&pqt^w%b4--Xi7^ez2ABjm0#$1;|yk6K%^Tj3HbfObG<aBn$tH-mI;n^
zgp!eQJ<f=|niZEdAP{Kt=nFykmA5yZM(IO$4%Y7ebouaQ3d`!7B`#g4cTHhynCNo$
zI<2nn)_xyo-^{~bLenqwzOO%sItJ}W6g7^1e9cD!S0=8XsQMdhT4C=2%nxdZi@kRz
z*8quZ_HHeMR>s^?hJK_xio`f<qP#SJ04v4@aYy<xA*|^=MZz5&Uk_b)4nUTie!EvX
zcHaWEEk22vX6M^I^Pw4Z7n!bpIjiwPcqbQg065xPPG695x=UXeM%6(G2ds@FzZPH=
z4f@A_7B?<C0;XG(+ZE08dX7dUgVclwTZsYQweaPfPXTQFxeaxuh-zH=&oQ*(qBl94
zf=vtsRq|k&OWoA-gAQKz+Rq-Nw1KkQ!br7gB+CYh;VrwiFaAI{j2!5==zRlzNUvV&
zL^E&uK@a<PAi`tAm1~E`-|V{iu7@z91TN36n`*#TDII%k`nEuO$>3cqQR<pdK<q>m
zLa=N(_*Sun_GTZ_Z&uN9ajf?7y6-{*X6fujTqzax<n5E$RNlkH^w{P=S#ZX&whJv^
zr_%kl(%zD+e)E$MNAbILa38NdIod~^d8g~J6__>zIBZ$?jV<;kXKX3jMiBNv`I(=c
zpO(+~Lu(*^zA$va>^Yj>1x#=swurq*&f|_swWtZ@<w4<RxE`LZZ2SZ&3ZX10R2EK6
zZPmVYn$DM;W_D!eNtLjKSSJW$AAp=~<(;~QC>s9#JNH*|aWa462k)Zmyr+qYA-eIF
zCG2dF+cSs+OgDy2{HytI0#!sz^dqJk+E=vCDD!-9Ap?0$rqcw*LkRasPZu;U<^yl$
z>p$R&N1i=YQ34HcC}O`7{nsz|*j+~zm1LaVE_<K-AI%66KdQy@thJ&pW#oAMO1D8(
zdS(19RTwTBEf82CY7PyloD7_xmA<3iyNz!0xhc+{%j>Rv?W49(qEOPS^ta#53Iz{^
z)bPEfB7%3h4$Wi!q!bAqw4AIi$x>}?BNa(-l`QHTTz`7@m@Kx!<$7SoTSW>6ww%{H
z`TF|%LR5`NHrw1*X*1$j=#@bFLfh<MVB-S3KTm+GsGC=5m5VlZUZ5Qw${hlmt6=Nm
z84MaWGSQch=NVkZm0D?i?>v#mPX_}DVVlN;yFh%HUh`2BG^z>-1wE^eClof3P!~GR
zJVC>K1wt0EFNPig`qpQo1C#o)?inyA9lup8`ercZl+smC%78}F=b~5i)crX10VDu0
zmMmR3Uv4Mj8AhmaKO7Jik{fo;h<rd5nJt02Nzho)T%zqkwJUqzEv`s*|5u)xt&^yx
z-fS^BZ0>1<m4OS<oo$MhKXv)A>@#USG6eiS;i$34JK9jeqyLt&5b+pkG2Wa=LgkpF
zgsBEZva<{7^eW`sN}hAoeFy10ZxE()1b*y-%!2P1nP!Z#sK8B6i@@f!O42|RU2gq-
zwbS#`blm8RI+#)ge$Nnltf@>>iUNC3XW9$shXSdIso6RK&i)Z+s<ELQ5%Z!gbRG8O
zb|AezO-UNvDsli7UVK2zyQ}?owmCZhDljDX?_TI&0=8uB25co}p8c#`Sj>mfbh|hE
z(&fa=y(!9JE~c1#_+j-g6WaLEu077|dhkq~!;Io~TovpgIX(mu0Fe<FQKyPHdIe`v
zQbuRPVU&k)a~y#PI-Mj&;|G4Q``-V4Q!rc{R>X?i891rMoE9nj>V}(NNKyuIL^B;$
zbQ~$^dgN%t6;m(-GMg^p{>Cq=<eI5v4fCvWpr_<5qFKNN1EhxIcC^Do{If^udC+Nl
z9qWh65w+V{;?H$MAUuP!mkSK9rD_w@hp+HUBn10L1NEr(bkk01q77rybRS6a<y)UM
zH^tbV$<YM~h&zV?JFAx0KR*IZUzW=U*2@wc8xU`m1es8G$oM5I%Z@ZT42ZpV-v06+
z;C9B$fbs3_vJLPVRP?<K+kCMUBx4{n*oc$`_kPwzOOxM0$u^f%xWJHwN;j5gC>YdQ
z!>O^eba9W9NGo{}eaFdORG5ct;+UB*+irFV1l{2518w+_vjlgm?YEu)?LR>#oFvS8
zz;pYfH(-xG&-m^%;1Cn7(3BUJ$YC9EeT#-TL}T>r!2)j1D(oB2B!T0<lLaN(sBe{W
zkO%v*X2m61voxq0kt^Y1EO%KUP$cf#7%0SkcUy0>T`@@y3H9o)D-$5Az&!M(8$lLL
z6{GVlL1nm6iTD$c9E^&1Q}N3d;^iB7ZiRL~te=b578~5&j4$J5ow)Zv!Lu^vB1S$x
zoj>DxN`?ot0e?w9+7Dr*o67_p>E8w3NItCzg0$$6JAf&^yARFw&X>9o_Y^gq^|BC=
zYw>@+^)EGKC#}G}iF8TLPmDXD6H_Sx+H4NXDI!j*8SsX!y<jg^Dn_76MCh{r^Y8pR
zav1`6#CIw9Mej+q0rEsc4I@rl!T)GDR0o<$kXl4v^SI#Y{mt-%Ci;=__A~#LbeK88
z><Axv8kR!EQOM<*F0O#7Fv<}RC__2TW;Y-6=(;9uoEbV;XC2*P=GW}e{-vYxR=uxz
z(uO%AC!ef{AQf+clK)O_X`(p5NJ{>R5R-oMVdJ*0z20nwEwqjs$FYSj?wbNMJ@VVs
zNv(UmrDdgYE#?1uAS3$U0$raQSaEajmpZ^*YB@Ar_<c>ocC>LS%D=3Qdyl2<!+go*
zd}JhzUDLQ0Y2S0*Wef+ql8}HOCYMTg=cko5!>95ncEXCvDJ7=(yF%?Khc4dl&l#cr
z+z#SnwSKfrzvQ7IpRa2C9b?#&_I&c0w}9PMOqO4M>mykj->Ol`NNW6*&_>hn*{F<l
zrEc`wpP|zHu$g8hH(6Ro5M1_#+b{8F`gOH$BCfT|7aWE{JV}~RdteRxxJSqEF-rO!
z6^?~5kIy6_xJahS|CeeT3|un-$#N8K09WAx0_rQK?w3{}>TT6@$1WhD!UYS=$9^;G
z6U4U!$chKlP_R67qwOk8UZ-=#a-N8;jQ0xT0q3jDl~<UI2w1I%mMtfVTm|Bzq=^YB
zG*kG}>#58JtDT=b;I|1*D!xFw#r|nHxS^6&)!q;SO~xSRUK&cQolYnz2{sFLuejSv
z<PXc%!^*TD&CZgoz>D-6+ek4IrnrOslb6kvSB$o+E+&f%lzIDdPL49XxXgEr!JO_$
z@q1eH4-|(b0~qlmG&kyV2rzXX4(n)ZQ4%ay_G_(dXDPlE@+%zdz3+basxz*2`}-5P
z17mDo@xqlePbJNXDZ_6;Ztq4bn?)H_5`owBYbI|TxOR2g-p@lFIx>n?>$f$4{MZbn
zzpkFIGNgs`<IJ`7$)(c7<l>4?p08M*3(k9sFt;y~&lkSlzP`v~S~JD96$4hJ9><FY
z9TMyDn;V9##)=q2wKX7Hd`WhFk>xMerhv_mRo~1A!@&Iktmq?G5`-?HOX9N%O2iS4
zceLs?M%Vk(OR(n4scj%@)=yG+b|hS|K!VzvzAWBL;&-YU!82fjdm<x7{9j}HC6ve1
z(EQv6=7H1BgV-@$Hgs$Y?s^sCP+Do$I6E0sGfl1;yCQn(<NL@`W?=sg536l8=s;jn
zyv)4{fKQA>c^tK3B-lW&3~=y6U$-Lr1;vDj$wL-96?AI!d}CzK8K<fUZ97iOw;e$V
zbeoKxxXdW55fJ-U$26L)3!wLqVs+dDGV30N-+{fHoF&3Pfr8TE>tBFoP55pdp7kVt
z9rFPRxO+2yXMc3O_>+zP9chVTd=3o>SYQ78#Vn41*R@Pm@TTgcXdf3@-u>p&>E_el
z+~<`#Z(vryT5|Xj*JO2st_5;xIp{PbmGBBPrN6F6pwqwjl$g+l9zX~b!w4*7(8?Kb
znRFHwYNb7ONX+asiLS}acl6@0s@pWr+P`74jL}uRX7y%Zc{mmDv)D8oqS4ti2`EpD
z6R{_dE8G0<OZ~Tp@d~-|;fY&gT-@fXreb<wN73Lh!%_43Yn`x!_in*oW=LIsQ1AYD
zbNbQ$$3zKvdCFg@?DpwdUQ=fdX(pmI`_#gIAf$2V$*?#iyIa|p61vBD&N!QheW8hC
zDeJYKiw~{;%E|!N!QY4tNbH>do~%&MmkcVAlstDK`d{y-RT&zD1+sLoR+<eH;q$v%
z^{OeQbUgc+0~PgHia8e=g8z70+RONrsSa|y<<e4li!9P>e{MFI7t`U@=s6WpC+>Ua
z9M^N3o_YdEql(5YTLgrh2v)xAPah$y`UzVicnDGAr$7dt@MrYYM>32BOehJMGXKn-
zl_a1MiW;{}8n5VIhj$rz9~SSDR+`TCr}i`w(H50z%uc3a>aTR~GIneg^2(O<Hns`R
zZ#l0dlXeCKV#J*#izox-rGr4JcSV5~Vkik+Oi+OSHr3~;vAOTmoio%IG0ZH|i9p&j
zPnDHjxC`F)0PYbPYb|&&F(sjYoMMNeUMMZgU-aJu#<3PMwxi*`QJ%n!l})B@xOpBK
zzRS=QbRFK>B3YV2&nz1@9KmMxK@p;r*0TqIX5np~&rutm-+)2G7VK<FXZ?YAx}VH9
z4OPtbTKuWwF>eA^T!TP)>bB+)Hl*<iqyj#AhJtTi#F=(bMzCT6%B5=j#e99iY~|U~
zE8_)~$*{r!*GJL<^+h+kG<^t_7q-!z;87c3C2W??BQ(bC(Pkm~(i$RYhcH`g@MANY
zM3$(JOFyg$l$CsPV|DsLRa-v5>?FE45UC%=4yr#^{2eO|=1Y~j!4?dwVeN{<=}RMi
zo}svwl07rvOsm*OcRNjP!|Fq85r6dytgC|oapA4iQ4Xi?NbG+bDfLUB1ZKqwQf5@R
zN9GQkA}@UJ-9BKy3wb5K?E&ZU6By_~6gN4lh>CXP4d<FLFj!*#S~RD|k<+Ih*D;Qi
z^4TLk<>g;vsIh?MJk=)I#1SCY)q|63Z524^S)ky^I#v2!?Ki74_S*O+y!D2Q4MImc
zWup3dIQBr>wYoQYma-uP%05`f4k3z;PMUTo)8y9&ZMQHP;pOAxx|Z3;(LO?){Vk6y
zvfq|2&4UyxIGwWGZEAKDG5skYU1zckD+8PDRmk~XOZTs_vJuak0PExgemlWq;^P}A
zUn0yBR4&#o*;YzV9{G_lv|NYHuI%jcx2dU8pYzbxxjXA{G>Dn!?6w@JCn4(13FpgW
zTD>LCl+<ek2{YtOMovI5OAFFc=t{W9tEewW-$w6G(0M)mZ8+dcC?8ZEV1Mz`C({ke
zr6!-P5%@2iburL5&YO+(-Rn?OW#u}wf)I?_|5<l#Re`depP@i+{YmK4J{0a^%DX3~
zO~2{07V6P63pw}3OeUFkD|TZ-88)Vooze9Jah<mTo!nIc1;$V~b>tGs7VvKdQQxW8
zQQCW(8~=L#c6;!FC_aw>Yjoo_J>0VOHu<(=Kj*fi8-z5xG+cpGuMT0I#l!$1J#r$H
zqGh$jQ4~MjC9}3)8wSKr*=OfezOJG`cb(LZjnJhpE%m8noMOGVg{2`!UjyC7d(<<Z
znUd9L&KouQp(U=zcexK*v$tO>)-~va!0PXu91YTRFR3#=<9;LH+a3NK925l7y5xS!
zol>A1HQV4=4}>X+)?ZcNUhs!0ONVxdWa#CcaBA&YXyShJAw{D%gJ2El?G@+eRRsvE
zBzsmZaYb82C>XjuYv?p6Tc>F7{W#+nWp5Q_bnK)SlAFd5eFhoG!$U(+0!eLCCXqlk
zFC45C0Uu(jp;%K;Y--i&rqkAuu0L5T<Fv)I8xx~%R-8t)vIkF*^#}VVs&CN4QnpLW
z%U(!BmHC-wyR67(GW4BkJ$-o5<eoq$8p9^NkXuZ)?Xt*Xgkx|4Q81%}Zlv7EO`h#$
z+n;2Er@%bfP@M9`?Q&LW3<(mNR+Pt?U>3SsMMwT3%eZZ|6jBXw42iCC&#`O&T2M30
zM&!zAIuOya>6b}sBrZLm^j0wolm#*@sCe}+XGHw#YR&aT6tC8_w6KW!=5w~6gL;{~
z9x>I}*jQLlV9YW5+110r;S3OG<TA#~%-!|>fD~hEYpV$3@w!?DB{Oo$_51zJabaO$
zw(a=()%QBu(giBtwntU{i3T9*1`>Xa5mjYnbWBW4JiKAN!0Z>83DgRYR_NTGVU+s`
zYj{=MGo}ot-<c3p^51PTZVr(3jcgXZ()zpFRoUj#e-g!?{qnaagh!SR#Txj*pPRjI
z6CN8LKi2U&p;^%HGQrto{WiRp`Cu=BU9QT%_ZQs$`phh|Yu`L-YimD(NeE(mIYsrY
zgYXZi@*ViMC}gYq1~zZbrkSgoL-W%hbFJ?5^t6!2S(eLRHkAF>GnJZ^#8;h^_;*)(
z;||}h1O-f!mYQ<kI~81wo8^`zj~^ER((_AN+FP)P?z!~=aTF6hJ*E)O<t;Ede?h(W
z%WS7Bh@gn#PxPcmu3##dUzwjPDpg8KoM`!|)zb0ZxQ>+1V!g}2+xP6|c(K~gm;_yk
zOiC(~*|4ci@r&hjYBrCW=AN9dEwhaqEU%iNO>1tY<`<tD{rbV7jG!RoZytIBe4gD{
zbads*-J6N=WCD;AzbP@%lhh<Jv&lEygynLDUQI)D-ED2}>NB}l2H*Jdd`YtuvuFMi
z6T{Ao5N@}q*D|)VQ_QVG{Z=n3iln;WDAX~!^%yvM#W7y}05K83Ku$)8r*!RvgQ-hJ
zMI|mF0Z2Icwd(qDw1t7;;qZ_Us?l0q+9V^z^z3Ydb&bjq|CW~nhX(bf=N}-@=;-KP
zEC$ZI5iX^;4~2}X)dr^ij-#8mdg4Ou%nR63@-#_}mZ!J3_kO$>Q{@*eo3{9|<UiZ%
z2nr*Y#3TJf4=2XlTcc<TM&_Av5QA+(@nhZd%+K_*J#*u`y9HTlkEG$wQIRII%3~wh
zn2a18yEwi!II>a?vfF34&(qA`-^?Ayv9nj18Wy8p_2mX6Y3iB0(@N=vQ`OgJ^Y7aD
zq35<cQuq%a#l1$`B;Wv-F|R%>oa-x1pL)ss3IhC^(t<oF!p&t9<F<<D<+z^BP!=P%
z<8kZ}HA_ll?CpgEQS6seWf6)KQ_TI!`fvU{R05O7dVTPr9&g0q!N7slbrw(i=??|t
zchW@oWu;8Se5oLiVZtNjC@_-5{J@F%-BNJPRo$x)6mWV_kdR;krgMeR?tux{1E9o)
zhKA@YPJ?YO`;U*0(9qDPW@bFFBv?`U-G150FmTAg>plI3%LW)DDN<xpl9I3p31zL7
zEFVioJeYH?9)aWf>o{5%#*A&VZnmN&D}K(5SPb|q!I1<Xs0a0bKG1*?V&3E$16x|A
z>VP!J7yBPnMNUflj#+$`58FtK4d(YjL03D&<L&M#&LRP4haY%}*~JA+g5Gg2x$j7N
zJwMryMd_oa-<K#Y(Y(zBzg@1-^Oxzyf~`bq@K?yquKd$)hPFo~soLmRaov;UX^#Gu
z@%b$e&)3r*lXxtG7FYq#Ue~ThJ}UQR$VOsNB6Or@O!O6bc#2uHSO&^sy?uv=-wnPM
z!3A|08W#VokyL}a|8rK&>pCJ^AB`(B^XcltN|!ID^*mnD`S<E3`yZHBywO42(>cu&
z66wqa-euLy`tg{Kv27$x<F(M~LjGNz&PN~<Qkj{Gh?Ep<C2ENc4j!IE7mb)#U0wYZ
z+%3q37>L9wFE95I0+vwle*n$6Aa7_qCI%T(N=gc5l(o^8DT<b2KrQF_0j}r&f10<3
z{5WvFNT$uYpsKh~vy$`^)aupVy~SkI?OC%hoyU2q$B{a(Q^D6UiMFjRpfiu&*`9cp
z>AK&jM7mgKax|V+DV(vOZrf-<U8%YLNdl4u%_O#(6_lJ;G9Z4vP_8SRDP#n$8v77<
zLKXHC6orIn`m3uka<QnOE@RfDQNN?)CKPs3%(Rr1;9!*X_VVvFTn?KKQPCXv*Gn7A
z-<${G27T|XXVZ*qW<t=s0-3MQHtaEu+vVgK;z*hc>}@Jw#rLCIndr{@?e?Tyn+}gO
zek@k*2@0;JGRdVf&F}B0=~ZL)4Gw&1ao_^?65Lt=`A~k@zlY)$+<cBb;rwLb;tL@G
zT=YD6JP_s4=eOYZ@b%kDJqMz=WQM7!JbnnADM3_JYzjT-2!~ZIwu!)Y0k@d&44=o?
z=$GUVU<NAEV!?^5C;tU|M<>E)CmBAOS=_>KNnBNJ$4lRbZ5rvRskw4@nSt^q#`V<z
zpKICunE@RV$hOeJ#I+a*^P#6FI@md{{kY!#>Qj`nbQtl_=cRWanL8)%mf1$hIQK71
z7zPV)s>z_1V3sBlslBzNnVFe^%fI~d=g*)xff^|dJ7WAopW$2()UM8eun^I192}gV
zPQdvGEM~rkbJUkZ%7wGE8=t=<CW;0Y<$}g8fE>_&Oe&9{0N*x52*ZEBSrHV?^58HC
zSd$+p$;t8g+|_wLq<N~X7mh90XW%l)_F#sG=;45?;?o~>&^=M#WB<o)-7*&kCYCIA
z(T0>ma%WFNckjwTxlJV4R9d4dNv~a9NzyYWCNK~#o{R4X96wA!V4(LG4(h=M<3N&o
z*!nP(d2w<4zyj;}Ci~Uo9$nvu3Le<%YD0Tz`KG&j8($wz9v*XuV}ICSQ7*R<d<#6R
z40rvyhL<wgL@3hD%`x8em;7J}m2!`d2>D1z40m!8L^5)X&giD_DS@4VFpI)fh9BYo
zC__4kxE00R1CkoC2SqaC<H@+7;tU#x-a8kCeKkvu#A+s^9lh)6Y=X|l!kpkVnWJK2
zMSv_-YH`|N!^(DJgoH>75xj4P6)aC?{K=3ql~o?xetS|skz2dtX;qdGvy7-VkzHx~
z<7-Gw(K54v>{3;Ne8Ly2FhzJY%_Q@`&M;IlC?@KJaTwpLIp$cvO)8p`d{Or{Dd5j<
zR|enp($9qBJ<G25AqcwpZ-3b=R($A%ChlO;M2YuXVef2dS@rs81i6SOclBT^lQ*E<
zY-{{r*q$lr#0F|CQH__%)uhd84IYlP0wyLVpkUy7dZso#T1Pn8*@r%pZi4dDV0g5v
zPLKxzQfF{JKY_NwQcxWSc)mJqM$<yvPD4^`?1e%pw98)-jVnY%L~F%zc&}G<qA8+Y
zUncKsL9{U>uvNf7hFxwBrkDenalnE>0zf|OONkl}kB;5MA&t8i(&pIhZ5H%Ts2&|1
zOeSF#$o_tATA%dUArWd_H3;ZgP(Pe9)Jb1o(wc8DAKmKLfUuImpNdOm4!CqPXyOY#
zwbC+A>8q-;*=L|;aipKbqy2_e6#INZ-iq{htyKjTKUiCt!dQ~o-~Zo6XX+Px4p(?#
zn`U=(?5HlsUN}ZBTg?ue6e#`hGb?E>2D{Jzl{{+@JmE;mn<bz(<k6E71`~ezLvFmA
z=e6RsjN&_(7ImoUd7Cm8!Hud}b-PVw5jwYgj?o@bW%q&ClfMsng_&7uiGIDhuqyfd
z`71ciKd*bBkU}q5LgcaD!`AHol7*}_S+jK@nu)D9t-C3)5XL2VoN-pF<Isj_lp|q=
zRmz05k=dJ6f;R%6NH5>=_N-#7f6?Py);8zikH%z9HB6Y9nS$%_(V}EoyrfA@Fg#Q8
zW|a<tqn^J0Ah9v|Zn4i8=vfi95%G^m3qx8fepM4lz~MT@b<M-`MIyYSM(Mghs8!CR
ze@?T~)r@FT=)UarL9v_bt0jcx#}&&#D+%a?%7Ow4X6C8!aRv&CzG7MpQ&WoH4=+v8
z?QCp7-q@T8CPGiPVbGRL$n9{lv$G@b51h4t&hPD^2wZmnK!qFtdXo|pv#h}hh$!WM
zR)gvpOFH|1Z-?~cpqj}{5^m5PIAyDQEtX=iAiCH^E<V=?^)w*E$GCKi51G7B>ZQ2@
zgWLJWn~!m|TJJEOLj!VArPE%bASa9+j@&aN_wWae|L8C|_DyUadmR-7e*!3I@#93p
zVUddTYKcNh+TArG2Z!R7jPpp)E6N<J3~Z~kYG2F4V)V+PM+aZf`^dSo2jzL3CC}s1
zVwe4Bl#+#Hdw;5|Q2(J|YD$GI&h0ERtDFuoew}pQbDGVEvk<BiAn%E}6X3$i@9O>7
zsxJ6mOPS1m6Lvu)Oh?C@cBRGuArGlTg)!1v<wFrh+3|M;3G#QD#AD#GZ3k!b<Ebk2
z=^*fP(iE$3=KK3MUq_nC!|$un#Zn}~iX$Nw>FuGP7f5&qBt_9;@zolA6c=Nu#S9#S
zFztb}oRe)J`SJd*Ok_P~MwN~kBZEtot~t>8QZY~YY=``Q&)M9%I;=1fU7?-Beu#?y
zhCv~{07uV1AB|sL3(=<YQ;TUo+|F1EoQ(%l$g$0qX#2y4TPSMT{pGNP_W4-Kr_(_z
zkfIdrb|u<c!EL{~07AzO4y^V?Ankd1KY@%Hp#HGFAdF_C&BZc8i_v-me3gNrhRiUb
zwX7@x6B-7_AY9VUjuG+#R_uc>KE^iP^s_po?q&M=&j|Lve|##)lc9P0HWy5eTwHE|
zG8-HmbU<*}V8p|RYZ0!{IMeFztp7bg6GBOgBu~h#xYLfjNS9|FjY};fGpE_}lQek*
zKFn3=ZMAqa=SOA%Li%@JIRbj^4^lW6B%u)=yCV-m<#EJ~eIekYhjH5;lnx;H-D;hL
zp!l#I{ppjwh&M5>bPMmGtbwCSX(Np8OrfVY0oC;%&0O9+HV7PLertbtwf&D&;Z<WQ
z%iHs`Bj=G<(a;db&m{C^@2Ll4%u^W?@N*gy5@_mp`1KonrgP@}RQC4%?2Q*=CMKN=
z5HN7(Lk9<hqO)(lRZ4{{w>je%6{!+RyE}<jR!2l9$qu=0w;<~Vdgtd4Emop{d;Mh9
z{JYi3&XD!P%_myO{81HSq{ZJn62yf8tC_oYw>eCwBZ{5ndcyiq7rUx*-v>-Z6-JFh
zNXG6jSu~iWy{8AxGbq+hI>?tseTm=B;MM!G-X;%$xErV#si@Su9c$8hfXd9NU{T|p
zk&zJq&WD7C0_(li#m`>Cik2Us-WFsFU=b0W#7`6}$ja(=db>F|Fdy2#%hZ-aQEaiA
zh5kRX-a07DwTl~l=<Y_4knU2tJEcUrTa*y#?v`$)B}76%x<f)G1Oe%i5F}MV#BZ_R
z@60(fXOI7EM@Qhf@9SFYm$+V>dPIt_V*YDKWQRJ}8|K%JS8{#QELHvH71v?#`lo8Q
zqH4$F@8wKVp2IPnC#jsp!y8z4vQ(j~u07!nf1Bjn+9;o;##8P`anq)CCOSGgn!mOw
z@=6vveABon^CuSW1hU3;LV3*}EJf!GSRehS`eyuhr^?b;@AvgIyROs(Y@z5dGn2t!
zd1`f1dm?(j*T>|Yinw%vqzO6=a!t+sVlgzoH7+jf@y+cl6n!Kl^ycOzOm;Rlj7<BF
zQ%kLPW?+Q!gFCtq?bXnGb$>?&9E!cp4mIz?clqM1+@iPnWUQUsF(@4+d?t_);lX^Y
zv1w_{=EeC5xSXaK1ITfRx)u}-Qu&Kcze=r_=`Zb=k*W;lQKNAa>(0JFK%qq!7gAkq
z?LFSw{C7Pz+MGLV2#^|{$VYR%F;Q>#RaBxbI^*q5H+ElFpn8Ki{WhNUQZlONIbCxf
zMAN>mHBHGSB()70lJyP_mW<#EGL1>PHyJTma+ggNOWa#+!8#>`SOsfQE5G7k;o-9%
z`HAKwSmpP#kka(Utim$C+1h9J{+sJvFi{jZ!8Vz6CZ#XS%0lgNZlV=C_^kZwz*w|3
z<Ux9=Lw$qKP&S{S<Px?EuQ}IaMT5j56;)|n{P|t?D#UqZR>I#)RpABEB)bZnB~LMb
z(|q4wF1vQdLP(|CB?jv4_Z{pq+?%+J7>}iwu=hT1oY5*Ho>fqWYtt&;b<)jGl|yz?
zY?SvZhsQ14W4798BiUi7udnawDxhKhLq<0Q+W}@|+Tp`bPhSW_=KTCT4FMkB0Wh2P
z_AESsa18*23OddAkvJ3}hgQ%*P92$p)VZ^>GmN~~F^soQukNEEg1MK-NJ$lxl%~EG
z$w!}ff65odq2S3Ec76H$`8d$$@E_+mTSi%9;~BIqLM5n;TU$X|a3$jhH4P110s;%@
z$W>8Mk&_Ek8L3=cG*#O7FoLf#d&F6{B(Gv-ue6jYKsK0yN;>EY79!d2>+9<+Eh3*F
zU%~tQXzkWL7a6*$u7Hc1zy(--^zfSDX>Yz`nmqWnrQlr5sv}?0AG+2uN<d5q94Vjz
z1T-Q&vMghe`G<jy4ymQq(AIu@eEa}^{5=Vcx~eKxq~7igqnvn4nGEdIV(#k^{!_|C
z3CUSm(eac5wlUc!uSuO9yzXmh1x*Wcm~dr6IvapYYjo)NG$PR0y7;1?U<D}en>;?B
z<8=VCTed5ik$)5KOb|6j9{wn&BMoCEj(?3NEozntgI!y>zd~;o<XMx^jh!7=n3W9c
z-E7BQXlrVpcj;-yW|hPVNZdKeF0t|MYURCp!7q;yV_=j$?_$wy?w3r49u-+=<XAVl
za?pAe%CF*b;jw#rqs4tHbBvIvHNW}%p6flNd_wAT3L-1i@=8CzC14F>qf@yhW%~Dv
zNn}vaWxF?X6rc=$mi-kIZ>dvim{&#VsMc9WB5|N+K>jJ47&US=qJQ94_HBJNVjtXJ
z{u_yM&J40vR)eq+-IwOREuesBC<hG5<Gfg7<Hlqk0ltZ&!{8O#yJ~5f_Q%JQg^2gc
zNz(&ExoYa1eSM{!UBl`mbss1!R0tN8lyW2ZpWkkh`}u57<vG6|kx1g8_FJQd)V2P*
zZX%QtF4>nays@pi!!h3UNaP}to1bLp;RhnkTepcl!!~)xC5xdYTWULC@VQ)_Y?3^i
zTyFw<)Tm9LKt^sKZk!?pEXYf2ak#(xU}P-o*4`IxV*T#G_DbJV;?zl7q2BZLmmPW8
z8oxC25{?e4jl@*)hNip~;`O7S(3Iu{1U3nEl$Ii!ST)XC@S<8fSuVU|e)L5}x<q@n
zP<C(Ac0}su9@(UMRX@HhYIyyJ*R{)oFDZD{4rMOSH>`b&{ycn+B*-ApEHFZysC0f$
zOpN-=pexBe5<U{2ctpq@pCFcxSR^dfX6>2tIT!UXvi*YuvRomjDR4i)(<~^Pr*USy
zo64+?PH_9G>2n0*zsUbx;zzS_YGrY8an>#!7vJ)Z7&fAjln6=SCG;7Hsk(lL(E9|Y
z*<KYkF-}hP*E4P9$yDNujK~$saIa*ml}h=Z*uLd+HEZ>-gGn*@9@ahA<q!1R7NhRG
z#m2H2Y}5}RSngxRZBdWSI;(!jXZj1-C9aDtL_e*qtrZfM%kLL}a_g@1G@HV*bFv%o
z$B!*9AQzKkCCfk|#Z@nRIlG=R1P&eXz{|!zyV3C<?c4o+I=i_YL4MUGgwUXPXhbJ7
zZK%U23W^ZOH4G7UZu%;DYJ+trshBN?0bNocCflg@wvvUZX}*fg(<D0S>k0;TF+odr
zqT23jF_bTV&jO1K=eppfn^SYy*O6y17#<%dz{EWNZt?FDU@6Gk3~J{(FMtA3>o!2M
z+Ti_@dv19JQxx%cXfE#m+Zew(g_Rc*=a%8)pAh1|X;JU|iDBb7N6_JRKeIsI>JS_(
z=Oe5IYzWiWHv_Uaj|}y&_kr=Vf~zYJN0655z#jNx-lo-a#6UFXoJN|bGbSdTP)9cv
zO}{2zDd26xSO}ety-W4QzLAMqobMPpjZKaUBBNKD(B3$gj1-qZ7#&>=r}P3@%-${|
z#e0(R@0T}IHTu53TkBC^e>RTE>VO+XQ6XD}kitPrv#G}XG2);0?Tlf}JRN(xHzC4x
zZfkOXhZ2>lLPB9^_DVMHFeIoWqS7&z3!^eE&0K0P``BC&Hc;`gn<-DqOx?^7w_WG(
zt(~9lZ7CNtd|{VDEcDUd?Dt8k<M+aQ)iZbMQNFbJ&Af9hKw~aa<|s~dR2gBKtMBg!
z?q+5hpd_?J_&M=v((_^=j2p{zx#UBI);3i~3`$EGzsiXg>!gRjV*~vp(p^g}>h(ij
z=6=t{_^J#4Q+v^jzWma1CpWIhw3AOSu!T*`S{bPvt^;Vl%)Qg}vm(wOb-!j|&RMgP
z$`e+vjcxN#^b?_yWY-L+z|q{ftM<yoi8f+fHck!$S21*Zd_g4~-!VHyCkk&ebD*)U
zdVhI3mTstCP?EnuV75TqJIT@?ZkU{$oDYAjFYkN=?lTAP_u)$L<}i`mlM|9J#3QaP
zye)oHtC_G`$MnG6RIn4LuIPNjQ_SKc>~S|YHwm$1qxd*%&|_vCg(8Z2I5w1BO0W4C
z_N>|D-T)p4pt3u<WKAgV79`6$LnX13lT&15Bo-DH>L?ubrHpb8Dj7cMDH;m5$jR@4
zrK)d*8ojBQJiiars#x!lmd?&RkI|1Hcrg%CU(aJee(>kdACk;93Iy(D6Wjt2(FmwD
zwNzL`XlQ7}A!Ir~r>+Kc2P1N==h@Bu3wLo((A{pbk!LtlZoW4e#}Fj+4`WEgH7e#-
zm89R9r6;1_y02ku-F#HObToZ^`6h$Z927~gHSixDE_aTt-k2qsR5Pchrq0iO?2Ve)
zGxaRS6cYmTM<91G@w1z>w*?#OeQ;p@t%49eAMPo=693{VR5Z4KtG(f_9mhjY$0fbL
zf8h?G&5T|=x;236gX^HSZLyug@#c6bPLEk55FTQ1X!IA%pt!la^HYpKawmLS#``Q^
zlQ!_Muqu-&3O1zOXP<Q2e<{7#aRa3t^wM<xyZ&RbFc~ND@dl=7C#zR@r=B(S<xSZ_
z;7qV_6Nl4R{kDUVtWgKfGT3>pzU!ShebKm#fvuC`)M@_Ybpz?tdQjpO<dkO<C=VDV
ziAb+wmgnAmEf)GnE$)qyWb?qA&8QNlLF^@ttX&N*PB-2h6?TERV9_66QJXu~^;#oF
z3%>l$qn|n&yc=JkA|dm=y3K>(L6E_l)QP3{%C`s$d3kE+9Y2n8psW@x^4kb~I(b3&
zR^mf8&89%bD~5Fu>eN)*8bwi(7Q3}-pY^ZL9^Cu<9VQ9j0<*miP8uQ}@E8yLjmxn3
z!D<@O;teW`BR4z;4aMsPfONaP5PWhm6425GvkJFan|_C4$mBDaUEmWSQsK`(&)QJ9
zH_)=mgR0($_ts+%D6p=sE<%>w!J|8N1_oc?$4x>)LO>^lD-Ey06Q~SYZw-)ZJUVg<
z<F*crV$A+pD2t+EA`$8Z=so}j#D5=N2%s?NtJ$Kr5DyZcV>4s@aK}SkU!RPLr{E=y
zC;2Tn3`Ie$-iPL&;08-oR8&Nw{N!Dz!<!;DxeO^)n2}4IdT`{cw^UJu+;kcVj!T@v
z0Z%|B5RsA!luQ~cGG$TeX4pTF@LHP9>Y1KG)Y(d>zwoT|h>R3^?NcA@s<qMa;o+F1
zq~&*yZ#hsY<C;XV$|nfX#Ky*o23`t<E2fW7+D_c06Qf2-^P0BwtTI!C6L}$5Q0f8t
z@!F*M2TX;hr>COv?JD>0!-jOMxM)_Le5g}iR>q&~j@-i<S;(Y~CyUh6LP~>UL-H6_
z-0w6+wzdiXAjMN56msHIh&tgc#Rj4ysbP(PWOP7Q=NiIb9yyIu8M%=P5#o0QTnJbk
zQC^kl`rI}hh)$0DQY3+=|9YkmXYHe<{S_+)Kdr&wxMfayI;nte%$Z;pSLxb5jM1tE
zX=(Dej`f9d>Y@hF(9qKFWBIUp_Jr%OKbvIK#r|5}2$L+nHS-It_p;Ng;u!S_DjH;G
zcM%#ZR-A7q+$qz(v??iH;apyCvPvKS`t{1(55rD7Azfed`3+M50h6~h3q$+L^imow
z&T8eqS&5}^i98mI*=P(4|9~m!|7)OQF6UEO;->YFLWk}>6vdZ*$NH3KOL0p-hCihL
zz>CX!HmZC<Bd(<2oF`%AC(b`0{`3_OpLRjMi>Q0C%WRFm@U!lP@u9@j)K6I)qMH{<
zqA~L%(N|5~at3!qp0Ygp7U_)aqIf+v2+!_4BtH5}xG<r8C`TodFqxi<jV;D)k>!wD
zISlsPkPrku@u6J9z$;YAh-p++g@Onp1;vC9eSLDsHw-P&+()>3VICQ<QYf<}C1B8=
zoUYWP;4<t{kpdef>>|>C_64i%tiIw2(?V{6MfPC>cCOn2uqj73vB~E*R0((vh!f&e
zbeQOE>BPObno1;?OTy246MVAx>Rng5CeYS$<$rN0xHLLK0N&`MUa|{(MFijKaX8%-
zLIgAn+y71r{(;Ssnhp8Mp!g3u7He9JRh?RM$!70cA-V|$-z4fKr;=#Jfe)j67f;Te
z%V&j5MMVlnKW-Vou{QyFNG*`NtAr8W29$H%1gsI1sYOLa*25yU=b>Gc8^Ko_bP!>V
zrzAu=Fc)3DN|VZe@1`o^=Jz=t*4S!q=o(ZT-XwM>ClgA9)YcwCNHvuo(<{TN<lEbT
z?x8#t2<okZbXG(YlAuozTtD!tMh(3nP{Bc5hjLjS-MoTR>bz^__gv;y^-rwi(%k7G
z1$PaOUmP*HZ*1~ulc9dc>MbI?yu1nF1ig>eUWA2*^HZ?oN(G9MpbQPXo~WP_w3o>P
zIPlfR<%rxZ9m?6?Ak&3=CPm14^6rbUf29X}tlx?oLJSN4LP!X;bdUtLg0iwVe0mV@
z53Ky$Jz-%`t6n!!KU!t|`}ePEf<+lBsf@|n_zZDKJneh2{<)6Bx1Nk+lC6X4a>83%
zcrEGs8=q?It*&2RAKl1i-2x%)ctFuc_=;(8y@y|lrOeQH)K0ZlM?9Dv@3DIk{>1|t
zTLpO@lp2~*q}9nqte%!dAjwGksnd<pR#-@V{RaLU+K!OjL;qgC4#{|a!k<_6=F`2$
zspR#_imIFy@o}YD2x(?I_f~_pgoBoKSD%GUBLsoPR(Rb12)6D_B)6ruXZ~k9vdPLa
z@;fMBi2sRhDt?Oagswzf9Gp9ZtW(SiQO2SwAA~?#0>WqHeAEXD5(Bmo-Vh~w2bWQT
z@f%8lDB1-6ZHe=lhZcbsTUoJHSgVu~5z63PfMQClV~f_S;dNNAF;_9giXM4$AL5`D
zGfXlRNemL7=(e9Or^_2;yQQr@uUlp=U_xCqdFK)u<n-#P)9(z<hdVA)B-c{erXaJB
zbVsvfkOoid&6x&a+2T;C9BOFF>mgi;g%CXLE#|w`e+oJ$U>1842CdiV&yWj;hKANL
z*g`!hyC+Bka3VJFD5qfyuDRve`)q=?1U)J28G|iN-_P%}qECdVVTSq#wUI$5BdoYQ
z_42n-?(y+yyL_2}v{&r++@+<ZM=!c3xPG9`4cUZPt>g0<r`$dn;M(2Yo&G`7P=nw?
z#YK0#X-$zA5EOjf%gu_ou`d_ueuxy_S!x$nQhIEP%@Y%~fe`)Vy-124y6&i`pr8Pn
zi8}P$)u!Q}FxFFZ49$jiL8QhIe=&DWY&dVn5praF#sTF$0RdtKCY%WzVO`{|^y|T<
zu=bWN$o7YFXyu9l_I-4M!-Zx7Z(-Parh1Z@`U87sT1;~hl){b^AqL@Ho{vBl5=0is
zFD`Z(I8i9853mTH#)038%$2Ta@b%SA{SRCQoY$Ehb9yct!F$u}=~v(`8IRP_*H`$>
zPYZc(w_Z<0z;#&sd?%1v9YyCE;B48B@HRjdAacm}=}PDvdNVPhUBh1^)HQolNv`;k
z7!Kmn7{>cWtN7gH?Y)-G#@!>_4-`o+x?=x_(BGw6L=IW;Ka^ywgOi|`CQPf33#muJ
z9!jp5dL(_0=-tP`xi=U{ux@5eU-u474k7i1|1^#itgYVzP%Ni9F>T4`mcJ8s6q9`p
zYFKeHm^I?np3{meVWOevq0Q_31Pv6b8+^XCS5t!Ji28^}3PGeQF-jeZraK8WY}=qB
z2?`2A{j6Y9L!}emQZPZ{sBE?Ej;z24CG`t(OEoxXWICG*>7xj)&EV_pVDsR=&)Ci&
z(dmcpk9d+0>FaYFVMLS_Dnd_+5{tA6G7UsUse;0tiq=<GEtB|cDI2DdQ@r5E$<3X3
z{0EM#(DXX;k_`9lHp;w7>~gH)8k1(84eF~Bw&4cTAWAZoN0Y^ohH`x^{bh(bTsK5^
zZ#)LVF&f&zpfKPoa|m{ahK5E&0n#cMnX>c>X?Kqao}BAbg#^<J9@Pf@<UAtwKyNes
z+#bh?aD{9S_(<S{`?1h`2)f9M->`4D#M~%`9aT(@xUa}=oy%^VE4iSd79%e2=Ll?p
zf=pdSWmVix;4va?f_^%#k{y*UQoOIZ=U+1Slg9vUfj&0av85$G>CVlY{cT-b?-Q8M
zT|3guYu~?l1_?$y{hlHpVBs&sGAh*U>W0ESHdS&*8Z<txd#D1FNdHtB3~$}R{B5#D
zD$~6>0(f2c{ix8DfK$z{>W33Naebt0yiZ8Ak<C6R4x;s2T#^cu@4=_{@0)P<T3^pg
z>O>X^2^xiMYZAm2=$t3q8&#@zYIHFaU)ulgSp(c(<uTEH-|KSZkVlNjA-!72w2a1b
zGGSxz@Ic4H2Zm0@LpNC4vC0QNHAaLhJcIX`UpSM|n#JSo*unxL4Pd=1800WfRh29q
z>J2epG(TQI*CH{8i7HPoVi&No(GMS(hRWE~$j5(>*bwy)iIEhxKk~I082i}K(SeyV
z=?s4qb|ve`26^*;xDP-3HV!}g!-K7ST2aA9i9+d?SnkAYOf*-tY2y-51ps5pC<1r#
z@4kcdpMJXQo@6TtgVRNP!oIm($PF{aC~bWirV2%~t-=3-dIY4U={_Nqw|>pyGD4o@
zzt?LMWu>jHt*cAS#+*$!fgG_M^ydJEUV|Vy-tZUHgLv`?0-mtr>yxZ*zDz2G_2|0H
zx5+ZqOUUKyG;Aloe%0ue<J-p9uHrPspHRJFLlH}*y;2&vQ9;9?TV=?-{z@hTag_!+
zDDw^lz|k**OpEjTKIts;gb+!y+uzG)G+K_1Y-)R+Vk$o&!lnFF$N3CMd)#y!Rv6J~
zn#12e9k#`cL=F|ow4b7JnW?u?KF%iB`q?yV-cMv_YkPBydm`ZxEnr(mWM@-GYZN8#
z-5l{dJ3IUPE*<mmQv0`1{Cwv!kNoVj#@<%y(dj8k=lwEMtQ$80KscISafADO<z|`i
zxfQP6%msks{N9<|u*wUvK}x&2KAoD<<-uL0(}RqJ;B9Kc`;TxCL!^xSAMeA9lv$ai
z9u|*LB75S<W5BGf4?A30Yz@X(@Wq%#ss}80JB1Ujk4f)G$~Gx}u>Vu3XBQj$O+MO9
zVJd7cI(Cq;v-lqSNWf9y){mvVAVF4+)`0nU4$qmH2R;7!wSJEZ$>N#kF|DJ*^=fKk
zygSnt)X6V8Z)$pV^!8-}W#W|eYNtQ9@RNY|w~%c(H6k92=d(YhrduE<H`rfs?Ttc1
zdv2NkR^ZRYDI7%_Iy$f7DGno}=l*?dItl#41<JG?isPp>B9wHlNeMzPB-lG=fA^+#
zrNq1u%C>Mh$)k4rBjUAKiK!_%3<S=vveHsQIUH`zO*|HuuyR7OF$Z4V`@nJ@Jeb09
z!VQ#ZFgJ?jtY)3t49xHf(WpWSmI!WH;*`V<Sp+%1H$3+Pw3g8y3UFQJnqe{vp-&Bo
zZ6VZp$u$Ozn}eT2Y!7E^Eu5V>f^P{qB5dNxruF$<=J?jjonIo6w-ITEZNXh82ZBUP
z%k4dFWJfu-VwvVQAwtx6Nl}>3Rg!#+SKCD39eo1>GVx64`<f5cF^ns(T9Ek8{={2c
z6+_91_7{NODZOV*^G!c!H2(ebJ6bHCw}D94&`<<Km!KKI+DFRlNfn0EBvE)d#7f3G
z$_*0Hvcm^WV$eqT3f*veZp&AmEQGt`B*@lVy)|2wkLRC*gAu&&L15L=n0tc2jo^hM
z7K!K7goGilVNxgx7~;+UhU(AHfrjX2$Dxec9{Kq38IIr*;v97NlMp%m8G237a6;y1
zCTjc9Ld=AFk$*i|?qH|xvg${V^Wc%|z3XlZHr^{VfPP%H+Gzyhd5qo;z$ljj#gFaC
zbv_aPfK_DseW^C`QMWR$M%s(_JI=RcN=r1%kz4c8y4r^6pFP@sJ^dPh({%}UZMJTx
zdbIp`Ixby41-N3enG5BUZi1e(z8mE6@_Q{xGXd(-@5rw}0nqoc*Ymsr$H}<lZ<<Rz
zxUnMj%7CPtEwS?P@i8>a_9<gB?}UV|<a^{KTXS103fhJUzOqR|>K_TeNGr_%pQtdv
zoFgH!%9pmFAh7}XjgHv5#kV0YbR$`mn`KDCAql?)8#CFQ)bpqFMSl+y_eU}RcRUiN
zeqW}?;iq%fDU7a%`Cxy}>dWrF$-8WjRO*X8&iyqITRV5SK$Pr1FA(_edT)CA@Vq>@
zVg6;ZB}^2gV<ImkqmV7$C(YpAu0~Iw8$NRD9aesB%)h%i@)cw&%Fn-GR(u-eFsYO2
z_G@zQN55l%PxnrDvi0e^3{E`CZio91R=TQCFu0zWh2ZZP%)A==y=jG&Et1_L?7Ezw
zJcuW7%zp}^v!?(NDD-*xcFUMbo<37hh$twaYq-rrO4sGFH3~5l{{H^3gGTSlyExxj
z{<3Qx%^2rn43y*}euVgDNR$Yc(hK+iOk6t^ZHK(w>1MEc;2mJq-XPtWx2`8tC-NiC
zCPoom;ntuTq5Lsbh7(>;uPN|}xU9+PGdd$#Gw9RSW3C5F!s(AIbV@Ll=%$Z3i%^HJ
zvbk;qFo!sbB+=D^Df3}yIBxtk@%ikcl9Es&^#A~-VjUl<^?M<*ix}VHL3azUjVNcB
zC`?wr2FXH-Rv@dZSw0GP1UAyFd>oo8A|96j^8Qey?-Ij5KWHPTWj`8xK9PVEMIgw7
zLg=NYqCyFUN3aG^)!~w~UuDuq@kyBCAq3H_ROV*<{$X*TlWN?|E`U!Y9M&K-LP53a
zgGEXCyU)^fvKTFvs-bpN&doB-yRN?(VUwV|9tD9vwQx9#;H5LExjn_KLBQts?;K!j
ziex%kTFn^kzfY`^st|@W6bgIjJxoKbMG^*sfwU4nb)fzsK(V|W!waboFfbs0LTI8>
zSy5J4h{$5Q_q~{q<<|ZR;5$2hFz5yN{`>p;*m5q>e*IamnWLVqG9Bq3sPhd=t0oSq
zmwzGl472DO4t+h+>pB6H?aj@JH+>Fbn+fZKW2g?KTV5FFAVW+SeEhW$2)WBhbmX41
zJB<m)NKR{ttv*nNlZb4MB~&&^dvhJaH<QR-)voz!SdaZbO=rH?19U&6VgRLCS=1=W
zDIA8HTg#t{cszX!WNqR6_t`N5+P7ZcUxm4vtr%{QW>i^EvwZ|2DW7K7tR2K-6x>r3
zWU44db#>O4p0pkBvxx2pX?toVao;J~PkG|ur$FBvg6Pb8=%hR4eHA06x7Zv01%z$n
zToa<5Xcl}WwY8bIkt}ZB3<h<zIJ<4F(~&g0GyQh2vW0g!GJjj2K9i5CxS!9~?$-Nl
zqvVBvqW^)huW{~Oj?sbM32mD{znHJD{brka3K2g&RMRsJmhLi%1a&0TaIyQ+Bbiea
zqCJZBh>gn;0X^(-;_4HiKQ6|&T7l>T)t-PX-yOlvL?74v;g0`csxb-+3$YxpapN#c
zcSK|*10P@A<%$=~&3W-~t-L|9ELJ+ceNzq|Ur`|!^d5a9nJ>ODzc8BcG0>=}@(L0P
zALxRw_z@bpAt51vBeJrxe&6~{`9jh^^E^Q$R&U^GzBQ%bIpleu&tq$`;LYtH9B|+B
zik5Krn9FQ#r(mk3^4=n~DBQ=BPfBX}8D1&yMzOI(yy9gtYD&KD{t?=^94vm}+b`Vt
zMv`bm<$9DytgNgQt{h`H*V=tv=?E1lrF^)Nkp+w~A}C*mR#J)tP~0bPDff@zLjY&|
z7n+g)pvE%v7{1lV4S9m@A4xgQjT->b0bE-!CS+>m-}P@*Rn<-8huImTsV`q@AuA~Z
zy=)XxAr*M3zx*(VJtw_RteWlRk?j!x+oZg*=4%+)9V@=uv?uFAZm%Zjak0iXl+1%J
z>^edVn;c&HqR-tC0bUs+q61oIkK1qgLURG?)_OpQ)lmCuYAwX|%D=xB9K<I4I<@gh
z1Y~j~(>{>34UH+H!cvW6-VJ~y;XIuZiVg@*@2e-^L6(l<cTxd*I7X$8;c;kjtfdNi
z^M*W#Fv9KFqP4%l?8f>ennTR{hX$62WIn4F`ums#&t;3j{rtZ`HSNBDB0{)=p~&e`
zDbb~+;b?@@n(FHrwK7nzBhKAh&yer^TRIGiMh;sZ!O!|qYf*5Ak9(;1UB-gSp*HQc
zcJ=+CY*Pk^nE7?K`<Y(~FGs>xU>2QLSuOXz@@G8-ds$goQ{wdJ$H!AQuC_cOr!eus
z#Epvn{{9@PmS1h2yK=vas-8b5px1Ot-_@5%F=qIWJ0|LO+=#jT$2;@EYh2B|%>8A}
z>9v-?cKC|b%e7`s1|?tg*ZVe9LP2&mW!lH6+B%ee?H@C*A6&`!o>fFV?Rlg1p75zg
zcHzOY85)=9rg(qI{7Xr4KFAxlrp!Kc82<{Qo*xSiNZAa{AbTS<VU7^D{m~XMkDkrU
zs{SZy&8uYclSLPu^pmCT738l-3-n?SO3O`V_OR=R&d;2PRTNms$pkyAEnFcKk@Tv>
zS<3s+;IX_ea;B~Hvnt%bzkg&9>yhF<??bTaI|-<Y6$W^{OGm$3fxM!p?RH3inXE%e
z9>`;snv0P9_D!w(Sl6dqtBi!znV%MeJ^9<`DKwlji-00xMD^@~YG$@$kxW<nBX%6;
zLNa^h?HxzKZ;CS?G<JoPoIZQzml?`5+q~CJXDBoD4LYxTcINo;l_tw99j?>Y)!w})
zOKRQ+0(!ho_%wA#XyTt`J&`P;@R>ugBL{15$sM)b)NzGb$}#Y8b8(S=^7?oE_gt6J
zknpA$!bgP#nP)XQIT^4a0owSVvgth%0)A(XuZpmZvPD!rTp6Aw%Yb=C{^s7qK#&;J
z7&l>G{)PKs*aDr^eGksySOEQ3Q!P^*ffBYq?EWW}f_H2Ley$6A1j&DMD<e>yFNpx5
zp(@)%%fl-9dvz64k6CntHo;O)okGY!8Wif7+7f3Ky#0w*&V+FZ+IkAn-6`3NjM}f>
zy7pQ76vFvUy1p2Kfw6XYcwd{6nmW#U^#_30gFlY0w#3a*0weMWNi|Jk)?x&lQs(mC
z0f)rcL-sQA+PuTZJt*k<p_dL&01vY<sYvNbY^)&d1owk-+%_ez>E4GH-1{*g9CR|B
zT7P3>jp5YL@m)aP17<#r9^7I;OrYJ5B%5eru+ZLAMmrf-0?SeI&wj(v?TBx`enom*
zv`)apN|F?oYsvl1-Y}-f`|@np<6_Y1==MC-E&znKj(Q?AW8G{$e5e_a?l3%I^Tol%
z19e5fby)&wxg}=h>YH$BXas{ZadKApIg%BLY<3T2KON5um~I-$aIu)Jk$Qf@a!J+2
z!^)~GadAIqU;@~@0p|RJ$r21yHtlZNaP%W9_)G%>1NnJv;~zhV3_g%u-$ZhXh*irz
zbsW6q+JS_v3mN8*f`Baxgvvxu<{IJ+w<^GqU~VXR<k;e-eMQ!8Yb7sn3$OPLoR(Io
zMSMd8cvHM0{EO5M{PeGSo)+)5gO&4h!L|P4i&vcPFGYlpvb*Fvp?CNKpx5_hHcIZ|
z4^==1Ru%{iWoOiW)?U;7iT&HzDK}8p-J#x#&upVb8kf1>o{FXr7j%Fl@i>>cE!Ja4
zK@2(2t;okm;vk;4i!BK2?+wIF4O5h)*FGglgdP9{9yhE&sbZP#+R8xt0Ow)mL-~sn
zb-X(4V6jp<M$XG$4}OB_!Mg^#`i1yI$Q<Wi9XN_CkzsLc9nDKC)CY;%71@0R7gW+r
zl`@GMjkb7{S^aeGhvkghL<1BOcyv5Sd_u#rYB)H8=;(VW$Y-CTA9AWIMKulxODu{!
zef1-rSB-)@)y?mlhST6-G6V7R&?ctU2AgQW>>lf<V_k#(7sD!v_BCi~K6eG~hM~3H
z5*}5(0EsLLdIfuxGQk74x}wqc7a@%0mMWvae;MdapC40K+(!QJp%MSqD|}2?akP`u
z?P1UWYJHj>hw^^Aw#%l<t|dr%$vDqI$|e*lhj5(&Id}<8&(zp!QoDeFMn2yHDUKd8
znrFy-lyr2i=Ivi%kfI45Dl6y*9-3kL<mWmoE~ut8`ug4zm~vOo+C!6mGH1ED0uop+
zUvWpb+(#h-7wg#BghB0I%$j-RX|z8pC@8=225xSbM=!M6Pvpc$qh_mY_PvHRXJKLC
z*1z4&2WcY%`%wk9aSmZBT3WC!i4xVGKT8d{0Q|l`RDAQ6s78s139`-c#w+=tUxd=*
zxF-82Jm`v~$1VS(uvr$Zs)_AxEIey{kr7qe%-U)J8uXv)rX7VYPW-uI(_#){T>XCk
z;QoPF*kXQPO6vNKDTyh20WQ=~<6<sUb5u#x7ci@rldF}`2(U0Q#oSF4@v+_lrm80+
z0S*fY{Tfe*rO$Kg07?Z$-eis+ii86j3T))G14dyIeO&8`=|r)SQ7vRNc$d7%kp`>T
zF@I=JxZlRa#6Zg)UtrL|x~d|nuZJ$nVZ?_BZ}}isO}yAo>|VY<1#r2RkK-dEB6`$i
zFy#%eiU(HXl9IlyJ4_>Piq|RB)2Z$vAtC9#(y&SZGZ;S;tg99>@gAsFZ8K;E8$y)3
zEjZ3b?_8*~!aW9xt(6!VU@J-+y!~mNTNzhU=WY-pjMz|%n+D7iEE9?gl`%QDAIi*>
zTG98v-a)sGd()b~s8Yg~*f%)(_~Fkgq6CfaM{?`izFn(}`CXBeXeh-TUWH~AW(>8F
z3{+}xe3A2pF06@Ddyw-gFu+DUA!2|mp2cGp_p}6CR~OB`*BcIicvBI>35t^5oKKQC
zGy-WhPxqQe#O)y~{x-q4#l&$Q*9T3HW_eV|#<3oFWL7CAqekoDV7S*E30@oQgxC!9
zPN7b32+)^t24tqEuX^x{*hNK0mk|3Q@2!7Axr}L^PsxhG>nSw9V%<F+FTU6bZwCGt
zb!G5Aw|?SFR0pAaUj@^9H;@|=GE3Qq_u(XpT_pd#?#z;sw9WFXp`1O<`sOvdBvc~W
zc>T6^s-YMfXm^o{>yrJ&qCM|4!*zc=;PU^~{7Y=zCbm95`@9auGGyzA)qDY0?mDLV
zRB@m(xkX|#<XTp4ve3wG)S?~y$4itFUDazx`)gMqR!DBTt-G((22zpC92xTnKEw^n
z5+Sgp@8?(iJ?dxdNid$8s@8ku$Y6U;lC6BO?~+$r`!49OwUBJEWvy!3`hbEU$n`5r
zQMk4b-t4Vd;N`SGWJi1GrINuSQ(j+hf0V&H!DX78^>DeNJTAEM(S?Vk(<{x-2P>{c
z%e~<<Zg*aVoFeJOGzJHgHLV`#>T*5(wgc5VPv))nzCLII<ytzexY~_d6Kz=G0cn?i
zb01cZj8v&+O^-}qIQn3+wEkhuPGGCon|!$*r_mw`OS89b3i(SNMwh<UGaS3VHa%pt
zU*B<8nl#7UF+O;x)a_mpFhPI!W5lyozB&#c0@3?<uQavZO@s?kWjGT3@?NfapC)*d
zC6}W5#fbEjn#2HhRrnR}V6Rna(Jl2fUu3M~#&+CMW@i4gKS2imif{BC>$jFq`qce>
zePc1qNp&`{fG-F>Kv>H0pi>szPvHt+NLs6%tBz!AkXz1-;)~%+;@1dJGW`SOO`O@Q
z7$;2I*aOP?b-U-bL|aFS1Fsm*$(t5C{j(}!&gU)`SRzS&#`%f<XtNmw1=;bP7KEDD
z3Bn?#v!bun<hkau<9mibw8am!T9y3ed?&>iY?-LYVkv3}`zOg~IpC{VplH9cW>C`J
zioW-Vtr)fDF*?2qx{9Do%kT?t&0daA9)ATF2lRfgi==UGAd@oT^k*`J<Krsv8xBx&
zH@8*9Fx*l4a@Xjb@fW$*B3<cvD>?_+BX6od);+ptD}!I1uD8S+l@yWxM9LFBcp9<4
zxo#okZCz9$S7H1t`JB)_SEU7c4I`gfo8@kt((yxmRu0BGB|1+fVbX84ipwiqDqWA&
z8S*(&6h-*IZn+=_sk*$4jAU09T71Avy<^&~>DT-sO($e(7;|f?;gdny;BJ|y9Ctcb
zhwzNMf>2tp>h9j62y;GbxoHz|r%P6_Y7yh*L)+@N7waCxo#RCAIatybT=6X~3M<F6
zSF7zYWWJ;SSt~Mc6s#}ImczOE`BUQOxqIK3Y)#+~HwLsK^$jStGRr6>PBlI;>oWoy
z1s{P5`tzG@+5W>sXgmhNGRo@l#@&##mS_7cx9(BO+OZ-qP<Ou1@_udAGftN9uE7uS
zRN-`aoP1A#!{D^9=ld5bX#8}95f*qDo>}$*@g8m_ud@oWU*E>Qyb&?q9TF&uja(Eu
z9VU9D5P{W&Hm8&@fryBw_}=cx9w~P)_0^K(ePz;f*scR4x@M7De(kuszVNaO%~Yi#
zw=Z2|LRVNbCzd}9{G*1zRqd;%WD=NC*umI-N+UQlm?P%NMnnb9;U`9E@j<F8$wv#|
z6sk7jw-`v9tCI}c`S#HRlg{qb%M7m?sOm}T?(Q-XCfh2+(#Bi1=)TtGbP}3Uns9T4
zfDW4>N0pV**hWUPd_{RbhXdnXd_Kvbt+>RRA}_<)jDJo<vr64T&hFk>Pq6Xtb^J6~
zYjLM`k9hYK50|!zhwWUAgr=msI~drE*u)nY$I-2=t=3OzTwM<f3k#u!g3G+a&_^*z
z*m>F!P@}7O-mTQ6=g$v0a2T59@u$PX!vT<dnVI>G>qcjPV`gna33<fkb)m!WPT~X|
zy@1A|X^L8BS%jpdrZSR`5pjr;JjC}NaG%xw@Kb;5Ou<aU6>5kw4nIm&W9tNMZDf?m
zEsF?qad8O<2&`=JBs0cMd)1Fgi#~W|z+k<vFJ;Jcxc=Si%8GF+p0~JWH2l+JCWF(?
zD4Sp6q$83`vq#7JWr+`rM|3KWI6mtS|M+bcc&WmO%hRP-c#5I$&|R-zQ-0fBxy;;P
z^Uuxt_p&ix#N8T3aSC4Z52K@u_>~<tbP1>eAHnU0!h>x81dFf`2O;ID5~iC`g^Z0X
zdwNnu`RM3=Jo%KGJ$mxI3!Q`^9_@oxLov~LFa=;yY6wJkc(ut#>kb=L2a|VfqW9oF
zG3*TbyKeAC4HhFQmukVUZ21W!ERI<`GrY#7<uv%kw*p#%yHU3X2gwlK1qD*fgHx4y
zyGLt#R{>Zdq2rB0l{s!60KQjHP&=1afXjA<s=<DDGq3HzQHT8H8(9wQ{n7*dhs+3N
z#T>Rwg9&G~jdK8U#J#e`ywWvf<H6K~puCp$(lAEuv`=K<(}r(1mINLv`K~pIXI1au
zoYy2lXdDjvmZ4{68XO^|F1>qM#l>{=b0&$Va{le$bj^##esZxw2{W1J;eS7+lgBsG
z8FmK|Tpg{U_ZYkm{LG^FLQK(<Sw>6r0dn1pGafGP*~y6qFzsS5o<M;*==4mwg972g
zhe878Cl`d$!jHai-MjZChZr|1+W+Ssvw3$|mO035fgu3Z$Ty7=ptLA}fjcAvkW@zb
z^^8C%M5BEMi%wx7eTLdrvOJsp3oav2_AWLAqJ;W`n>2E)!q?RNDSK9dzJ`iQOVHo8
z?~fh+ub1z_l^p1o`^GV<9v&V7cCDbU+p44?4%aO-l5%cpWYx0^tpwLrY|_1qjCo$u
zx@Y@_ZGKHe=uhu&C;vhv_m)N41qVKoR>fO2T$J%u`HEX!a?v2Wwg{>WMPF-c5fLOy
z`L=IVDTJv#{p`Bq@w|X!2S#4#gPBEC^io!>=^A4@#NY_C!Sa#oY|Yfu27D)VR-8yg
zTB9+S;-`;I+@=*JPC{SopZ0XRErp_xe+|P2?*tpn`$^=n;%gbq>?8ZwJ*V613(9&+
zIf7GDb}~fbt_$c6L1;b8%T*+-rQ$v2=EUpP0d)|(qwDCkCg*gkYCxeOzYLXe@EwBh
zJv+^UH4i4$f-cbka(2<yxD@BF-@>G%`lg*6OAV1ZOHJvA$!YOjO5^R`W1;590Vmn~
zQ?C}i4~gG@-TpLVMRJ*IJ2*InZ#74VVvR(Mi6#O_;04%Zr2_TO(722L>{L?;Hag-T
zrG5KEt2&N^GX1b-F8`2_C#(4$pcb5KW#?Jit*9?JIL_aK0RhOpeCgmIa1-=L;c>FD
zty&vHi#KeHFpRTiI%bUF2m<sZ{`jj9k^br7`d~b}o-b7@<9&Tt{~;{mL$)m&au0}w
z05<}7EBbVaDIeM3E_LE}>OohY^;gk<bO>V2%$*qn68`|6{hyoj!j%l3fR(VAawbo)
zC7b(O91qZFaB};4=s8`mrXO6q25Ess>lB|=nAdlMwC?WfG2SMyv~z@$dLkW!@bnN2
zM-YT|_D7d3ytE!^)OuL&lvep<saQ6=6vK`|h!kPe(D0b_&yV)V_4(D&*PH`*9{^~j
zA0fI^`l4*$w(*1+ydYy)-@(RR5r+CPFY7~IdHBJtyBtbuyPwOVBUm-3<ht)DJBNic
zbLC5!JuKH^X!Y=L30ZtkM*&{$7hKz<8mNCdf19V&)_xnp8~Fq_E;mxkm-jUN8Yx*6
z@T8@e+7HQl^Qow&NCs(ES|%}lK5O_;Qr;HPPQ)i7Vj)bQ+BA7jo%-{zcDcS^!Zs%N
z&Kx(}a7fXrZ4dFA;kS12yE{6ZBj?Mnv#|TE9}rG!-bdXr>ssXVYqVbyyVH{Nx1nLI
z+Q8rAZDd>FB3Qc(vyu7r6(Wd;&FlLRjkRWvO0oUY21xNQZ;LW6d0lU&F*YuBEeZL)
z&3v`BnSOEUyb{!&j6*LxJ5=fS)A8-{g^WPGou8kW+btRz!1Op(K5$(p#>5ylKY8Kf
z-m~0!BTl|WN;)7*M^|uz3|oS{(ie<hsB@qPLJo;-9()jZ@b#{x&uBV(%>oriam;(r
z*4<eBy)KG)(NAfO;%)~_8~i_J-izBY<$Z;RrU^>zN_skfmEY8a_>>fDXcKy-XWDbK
zvDM~llu86IqqD}R|M{)X`?E4%BjDu3MTR#0*6k;1Dtz193kb_2;{DD2k9k|Fs^6H^
z&)jB@H>O@cmuXsR=RR@AIm5B)dpNyg{7TDV*7@N2I?AeFD4F%_JK*O0^2$nQtPfqP
zW8*5Qe_9G+CiB*DItn`^)u^UfV-}=N#<6T~Wu)QkEw_Ho&v8-=EmQxAL12u7v$Oyd
zu;^nW(5p`rOB=tC<UEMeAfv&;N~s{;OG><}NBtO;c5U2l>`aKplWF7EfxTxTc5Vj<
z(?7c>AFlGSX<3u@(AP<7W7m|IslE!i*ZVA0c2+3P9(jmQ!ibL=)ntDENOazbg+pg`
z_p_a%;_uw#e3w^lx%W-#xZmp#G=N`|keu+Zxvp++cVkiq2EL&qk+U9YaFJt09)6gQ
z?2dYtix6sq4eIn$^Jg3xVCH^slc?;zf$r`BG;Se~6kZ{}fbU;dN>M5aO}i1k0Z|CD
zFj8{zI6QXMo6J#w$;>)@boTL(P~^uzrVH{!otMHoo3U{q@cE4wLiXPa4A9wOCm8H5
zpOh8%AtC+xUcUFW>Fkm8df+`UJ$nAw4;nrATyNtvmdOm>de6O0`2W+3?Xow<8Aoe4
z|5D4IefMuYU+4;CpE)jamOA*VYEfYpu&vj61={3Q0~nDCsijbV>FT|4V{xRVbS$j+
zb#S<~H&K+{#)kb^6!V1J5ISV&2^%*+uV}F=V=Xn!mcEv5()lU9l;|-7-by`uAHSU$
z@FIuB0v=GWC@Q%VYATSCGJgF;q0>GQeJ5Sjd=iJ0bCdx|Sw*HKSD5!z{-|0U!FyFM
zv6w!ywAg)5jKR1&0c#fcCxdsH6N`1H^pLj-!zTvjWs4Q_$*|hIc@yLR?8RF1kp-C5
zTMt5%bLiUJw*oJ;%4feXc|9h5#M)&1<|zSnitc_Xo9>CQu&_5MqJd@u%Sg^cBE^>x
zfO~KvfD-?ov2|MDX1!g)Mg**eJiG7+_hJ9>d$qwTys?^MG3*O0ggl0Y7WHy|#4W%t
z{eH6ha<5-XRW-BTrfhJCh-k>H{R7|AEuqovdg-&Ux%mb5!hK+8;1l*;>qDE}c+NrS
z0ZMDA_`H2cW)a7Bq5_Vb+W*&8t2_2T-647Wl4Ij7+?6zfkCToZx_aCU3{e2Y1I-I;
zEIFC#Eh(cnKVr?KFD|CO7he7S>E<CT>$`<Ix}6u$GBhw`Ut`@cKcJ4Wlq8)R^ZUT5
z$@n)3{9~vf61PCI{J)34PHARrc^^Ie1VY+nvW&S8c+L79<TP3QohlnQ>eU_~akLj0
z+<5+v^Z$Pd0Fc=PH%Q9Yo9Kup+>iq=e<P!u8Rs`wJfU%M*ztpXm9FPf<~orhwkP`w
zsZ|slP4g}pcgu5FjH<5C9(06`9FYD?jc3unr*l`1N5esgx?qv>1uTH#L^Y4YdkYO-
zQ%&MxuQ4x@NVf4^ez0$NyY}7&)2wjD`O%K^z`9sN0L6&jllhCc2>8CHIp7o1H;Euh
z%X_4**#sBGtIrRpNEb<1{&jSmGzyKylGsseK4Zrcd$PhK?KeHDT&?Rh`t$o1*g-13
zpSwTGs3r0uIWh0z>b$te&>L`SPj;wOl_<wqW8P$Et1`q-eE^9sjY5wyT<=vqllv@`
zi(Qi}=uj%m*IJON7^La0=v>wK`|j*ZOpcM^pUF8+k^ysm8%nJvi*Xq><{4g6{;NB}
zB*#IYq2ts&^o05D-Mj4UV1`v^9NoHvdUrcJTB!hVmwtZ|D%7B4ZoUkFPPPI>ig247
zRja%qhk?%+rDvcT5Nc4UuRt)Sn%XElK|JOiJJiDhh@{(+xhW|+rl$L;<7RM;gW(di
zyLF?AQ0qBri2N_6k<AunP3TNC0gZ9LYVB-0#hQ*)wXTz~v2j4al_pE#pN*XJeTbC;
zF4E+!?MNIMCpZyhPzHO*9jM0V82I^h_GNjKNRl?th;3E1w4|QxrO&lI=kNjrJq(Qw
zX->3vt#zF{o^InW+rry*eSHlJ(5I1+UcHu`iWtV<5uDnb@qc1#Nq7Y9S!(9$>TX1d
zJo})Ya8E|2sxu7&+yb)dKSSFe3@rZN-jgYzZe;PxCF1T)OiT<9t6X;mT)e$;QF`)l
zaRJ^Syb)uy74%h+QaPb_uW!5xRlwF#S758;;>OmwKSxAC5j|OVyFau3@MU=>=0kk^
zxTG67%IvjQ$WIj-aJpH)T`k+~y0KP*d9r93WRcaGTRQDZDdlRAelmk?#qvBhWqE~!
zjJdPUVMEDAR(3{PjS#8k{6e+12Mbgg%l#7n>Nq7iU%RZy?Q+Y$es~KR`D}Z9#lM*^
zG9r>HJPa4cU@B?zr@!_)X+vHUIf{zR(Z3xSQtMu5FRzFUySu(o)=Y>L2ZpT%hwtck
zy5(iQs}3!>n4O4RsnN~^Wy1KuptFi+=WZXv(EMK1?0stU9C-)G_`1U5TJxJ6iQQcT
z9wz*$F`DNw$>!In=;F0Jc^{M9Su`fvo(OYqK3b4tu(SI$+8s|k@KP!;cOpHzph84M
z#0LgUNP(sju*K|^kjlpjY~|7*1QEED=T7qHdchpxsXyoEfQ}N~6D%UM@98J_QmDdB
z0uSL=q#o0cAW20HUMFU~eR6tgLm4CU3zYOB{B@&5eU6wH0G28w|0o;Q@qw&0h~cU?
zgM8JF&Q3smmw@%Sk$q0vB2jOT7mT;u*z90v`3n5g^tAqOT?y94csII87;vEb`aXJ<
zj32thL1Jud4)8S4BL(!S1bCq+4JSk#Vnbr1bX;NV;mA-+@QPz(D-d?QjW=Kbih9O&
zpFGiEkS5*4*?x`RD7*kQ!yWM_k=jzAZj7D+?>YRNjV|*ZLkU!1SbkCkGm?B4ZB|as
z2p^IKlJW1)1Qg$jfP2P3MRi-7snm0T`f&|2>zRH4w5VEX=%fNfJTLLQH{9aPx{k*x
zj!#Z*RQxqIATmk_gXg!TTSfk9HV$1znA;s(nXf01FRGPy@8gZ*a4sw?4C<DxIJa?_
zoEb%s?ERFELE-ZA>!Vt5>yZ9I^au1Rfb_fHsP)EgxZQW^^Duz=?+<v+`H(4auknNx
zPr=c!`u)55P)rPFN=R3~jdZG2Bq<r$+OgXo2=%Y&*ilL`X8NCuLfql|vRRW$&NZmo
zb{zGZpTO>;o{=Sub@}^YxN~dkl(^GK(_@nv5$s<Ovjf7Pn1vA7n|fsAohpUc)YLd2
z6$^Q&M9Hbmll|F(WXs!C1$p_zbg!erpFK$GUccmBIlk}|nNje54QYcMq<UPY#jZeA
z-Bj@<Nvxv1{QS4T>lQ0Z@DzRnabKtZYo#P6pXy@l8Y;i1e<7;$b7<%#Z2y_O!j3{-
z6Itq!;c&_V8{+9_wbr>0o6>o+d1vw6N4PbLST4)$v$`L3!>+Dw^m)y$(#Z&lz;7RN
zKqfHw{yoVaN;B9kS0VR;6N1hM-J6Ux=T^YX0opwN8IYU2aLY~qJ@x^@@79&+0u}u1
zH{qeG2I8~Tq?O>tpZTA4iikCo>j-^`7VHSDtPX>5WCIiHzi=Ag0T&h=9Nf1EX7`>U
z)Oh-OfA$mO7*Nx=XIi1i$Ys}g0>OvXr8-^-TlmlrOdzVC!Oj{C6;<$u-i#PqPx0YX
znGG!d*uKq!t1@Ke>FEj5bTI#+V#T8c?O^4Clpfr&s9M=zHShHMsjZse+%T`<IP7!7
z-|T2<IAuN5-e9RiApM3_kk_J1<GUmE4}{z+TT35!ycG%{fT1zvi)^35KS)K)mhe3R
z?KMB<H^oGBJP1E!7Sb<$yW`nbSI1YwNk>OFWcd?!gTvYvd2^)n=g=)zF5||E#>QzL
zoLLaMutI!P5A#Q~UDGee6{dSE$ZvA4Zh~baB2bl3Q6j$6AnZf*S|%Mg*UNRA)y*8Y
z{01~d;%UKD?}*v|-&1bL5qLaEQBQ_#+Ts>Uy+rbWdHtUF>EAKvxBMVD4sLq#2ELT-
zZ{L2*)uTv<2zrh`wdgXqI5gNX4KN0IFMN=OTdwI^y^j=?l&(P&JyZ`FLtAiNwlsmk
zZ>{*?gqYHr_9}Y;`$eu$K}Uodyw5jsB{JTJ@JU)tG}9|!is03!uKYFqXuBk418CsL
z2zkvsFn$ma;qYmCsncW-4fnS2BLiYGI}XkU$m@~xuY$ZSnZX~sn+x5*W2n4-L;vB1
z!xTX!b>Exg{~m@WMjR4A@99zv8{v1@3XI>BN+*W+zI|KGs-^O}q;luPZUH>q&>d>h
zoU2W6`QWu|mVgJ6Vq>1EUnecg_DUM-SRw7yVwV}dvECiStyg(^2}Ay^Y>CEfaRy@#
zvUHmGSeXmN9bkYtnYB#DFPee@rE&fI*nh;4UhHWyf$w-hvkrTey}j}236tG$U$_1M
z`%cmxTV}!>AzEBKvunM5V*R68U8EjIIqRyB<kwe$y$mZdue_#NH2vB#?(3wKCa{tF
zThlo=8<y_x$f#8fv7n))vPeng0x)685W5tg8L3osS|qPKlCAF|szmm%R_(5}VM}L)
ziZf)lgvD7f4-dKvJ&zasy<0+kSFImy)x6O~K9!7A1zT?rLg0Y5lmSYwis;TXB}UW3
z+IyZm+Q{=_rFPk5{QN9D;lB>l7ZKTGu6z1GgI7uVb2Z}BDGOKUX0g7hFUJb_Ha`2b
zZ18>F<VsEorYIj@@^B`v2Hn8ix~96qK1lAc@bJjG(_k*q?#L36kjU@xfm;RNm)L3u
zvg--m1xPyOUz#+$eH()WC;Vo$T#7O4|A5z`cJP;wa~mg6@`s(r$|SGmalWLSWRR@%
zkQ5Qg4!*gBz(EEASOE@9$pa6Uk0A^JOgKbL)u5ult<O>_VPK3F1Ok6Vj#@?xAox2G
z-vEa(=?V}<dIDd<>w-qq%f8K{J<vRy-gb9Ko20ypd<xq+3)hAP(ee^xqOi#Hp?;+2
zjKTMbv3OIF5>?1Ss7}d>$d1YR+S$=jXy-{->wV`0th;v~vl?z%oaY#9NDZs6N&y@w
z1hEw&JMpsTLEv=Yx?1)>gd5m*Q&d&4%c0K>#M^IgBn~xyKvz#sSd#<67r9p|18h-S
zl-l6hDms;VNyy{EA~@92Ye{(izOc*hCkHHQs55-HRHUXO33u@Ycm^hH6a<Y$``FRj
zPut39w0!;jZ-NAt-`e41b^5r4<UChR+1H2wOHl7?KA~)ODgoR8bmR<=h_(UwDz6JI
z0jgd;Enq6uB{&K)Glx{HXdomunP;Sr@TpX395O)2SCh|!pf%+$U_)(izu7G6V4gPK
zSS53#{5Iu$UtBd7n6Y?~u8NRN((KFoi-w`Bkt)dxk485-wHz6<$x~0t;IFT{;ZqyA
z@!FOWZrf0l5<N*iJ9CQc7({G+9%Mql%U;kh_Ya1@?0B`oTp``m&X$(!!_6&v_Fc@$
zM*$R{Fa}kUb8<uj&cXP>v%!V!Mt-WByEORGLv=M2Y7zc<!#q%`K;k)c@P2S`l8uYc
z;Zy#N5ri)W9lMS2W4Vy=UI3rMV$C+D@$o~-Q<!wXCyfXZ<*bf-;u(k+T%^6pPV^s|
zN-1ty;gbL}k4LQ3^5Wk2*N-QQQO!M6f?AL<*HEf%$Qi`!P-46l@eoM~VaG0rayJ1{
zb#s}wcAl;f5tw3YaXhvT{QQcUon2Q6!NN3vDE#!|^&bF_TwTeSz5odRwMj|)2!b7B
zFl`L8CubjSY?p%=5#2#o9rk?Aht!B$hMXdEGRVnJeW(ZDKC(>7JO}Bd((^AzS$!lV
zAM?$cKOqXz;@cK~rrkEIm}?wSxJ<co_wQw8CeKWoy1r&TTLMb|!^aEu*aX7Gf|2is
za*NJju^r1&ceTtFzOPII05RX(YOnKk+5e&GtOBC!-mg7$cXuP*AV_z2mvo9q3sOTP
z-6h>6Qqo8_(nw0TNFynJo8SBYJn(1^obh?~zGJOx4F<uLeA*dHJCu(}_~9)bVlE_y
zhzw@CGmD(xG!jkuLg8JQ`IIjaAlo%wr%m}HUt<6pHHucJidG4}>F?j`19ei5Uo#~h
zfL{P+Ncd>40L&8^gI^`LS~k!~Y2Ok6+e*TIHNqxKCFS|+jW4mphKMDwqlSi)+Ko@m
z$XgGIfuaAcTDv`)osa@=-DEJr{hUq(K?*s(b-uPBU{i8O>7sN?Wgt#_?Ws_V0Ib5F
z(`K+Olk!aI^OWjqU9?9l_!R^PRBpv`n(eHR<l}J?GOq`)P*xc&iTqiM@-;aJ^VNGy
z`X(RWD)HO=$lS1<93K)vz%MoDaGAgyM?f$1x!l8P<_!Z~9LRsr!>(7T1=AdG^}-_{
zaI3mRF<XJ|3p@{mkQgpcaDfxOzFoF+!S`|ezq&(TAbU{uIe5dh-3@5v;pKofb~CZ7
zOPmjE6Z~<3B`W$&4)RCr*o=(+jq}I5OColo{;vLdS|0adIA(tS)M)}-++K5P0onwD
z_%0qR9EO(;GsWN}##*Tk+xTb=?*d3~S2EykB}qnCfbCh)MJYDg4Hkvvl;iY7fp`rU
z@G5256aaz}N3mu?7jNbEE$|%(9l)E9+UaN`$EKz=497ErZZm^8%SYcyh|Wm$9yoHr
zXTTr#gm9whbpe|N2~*%FLvnKr=8Jl4Mj@I37xuqDAXyI>3Lm@vJ#+yn5((70r3Wh}
zCn6S~#zeCgudf(rk3gg7C5rG{B1t9!8`%m>mZVj@O-3Xz`_f|2k>m)imKGL>bZqm1
zp#|cEPGZsn06f!<p!V-(Pw!-!1%N(tWRP~r+Y$y&Tpk?+#!c>9WrF8`92%c&I2}a!
z0RXs89TX%9hscx9{6(UBEme(?39PC$h-RT;Om`sjBwt{i##jWh+<Ufl<1pm^pA8m`
zvjgJFeFCnVv#<HG$rZaG=+6%T`ZYpuVtq7m^`#{s+o0gaER+KZ9!5`qDxU-xpBO6X
z5s)5XnFmyT%R6=-g(8cn*(BUm_-sZ~04L!%y!~LUQ#dSgQ=I@{AR0+Afc;GF&LHW8
zk;GIbQ%C8`Cf38%VF;Wg)#@q8q6I!-7kT<;WBVE$-ZWi`bf9atLKp|NvVj3{Qz1wg
zUgELrM}}maKvbvKhlXD8@#$#P%)*)=0!Q)LKh`fDQVu5OEzb2D2QG%7Mmz<UAkM%$
zWsw(gS=wNpxEWlaekklwde<A{A!%+-9iH{)-;yxa8B@(0K!kXmlzxNTOy9J<s78K6
ziR%<{*h$P5R9+f#fIM9#flm^`geW8L5n5hIq{#roLlI<OiZU%Z;~3q@>Y%^;_n&PX
z31@pWx<UVN=H>6Qcl_>St@~@fdyifxt0)*0LT>aE8hYehn1`5-@P}Z{sto6#v-z^b
z(`U7~yf<H-ecYyIVVsDZT3g*X?@nT-A{hsQ=zW`;^ZR&aV6nCU#`aQW-%T>y{H;_l
zuJYn<HDUsepY01sp3(&btfkT>JeQ?v-#PR--u_-Dj~)>6Yhhp<M4X34b1jCV7*dm<
zYgg%oi{L2(I4o211C&q$wHytVr^!A@T`#Rws`6(W2@S0|apl$Jm_erz&5Tyb%>6Yl
zj1~S`S-itAw!23o!CbWtGexDx1H!Ry5KBcEi#=zn-j}9naxo3=7$t}7UE$@ErJ~h*
zN|8l$$$_DLuiuWL_uW=mc-RTtmZ2ma^vd6}NZj|0dbpf|o5%!qx|`jGF0LGqbo7ek
z27?jwoPvGs(hDViyz=DvQC-&x$5nED`VNt~jz+*?i3d;cYVNhEB4%6~`=>aP5rmW<
z<%w!{8r*x!ox(SB%)bAgO66kFjhk7nkOPJW_o|K4`?~aNc0wFt$;gtDj>Qg19Wk()
z%}JoZJz0%PFw@u9kd*wp)Ay6u)9s&wX+kGT0vikreohnn5>BJ$iDGtqWe&_4eqszp
zPIBnGpDYHA3f%gcJPs)#HkJDNEJ^dc<)heJW?Avf_Bf%(7~KmsyF~<HT$UK&uqizq
z3A~O|{*1|&gR#L0*bV4&)zws_${C{wk;)BTGP%nDy+GFz8xylLGk8t0&S3{UfrA5K
zZ@ArKS*85^M2N=`6yVG`2u*;L6+kE(c|4h4Yw6^6c|&TI2Lz<bl~P%7uy7=1L0|X>
zg+nU5zh8!{Un}%|h|Utgv%BKr@Ji<y_<#w#3d$BGhU9MCDDZq_p!BCK`;*~Z;FiP8
zgC5OOoFnOr^Mv2^k**Y9>qh`fG-f2r!ZuGViBHGg;r`_(CUA(+&7mu5h^!i|l*VQV
zEd93iP2ZNupxRnmktSf{rjXCsocPfm<>A>T2n^Y6>#0Cmja!P0ib`9U8bWI=DJr!O
z`WFk)8|}6O+CrFG7m5pDOU~lf1N^eZ5J`jKQ^qg|7dj&Z{SWk&PEYL%N9*OLck8)A
zW5e)HE#W{MPj0e_`eO12&mr~VvkT<?>DmVQV(EFAvgzxdl(M#G_o)i)BU}xXWhyk>
zW%KcBR=qWn=kKNkqYikxxyEHe+TdVesabvMA>tC9Ch|d|aYdBL$`CLVBHpzS*%Lg>
zG$CDWgR4a*e%y-Y++xi*WZD3Mp|Wrr&nkQ!zzi9QAlnSA4$V89DuBcIqFY7ytp>10
zS|~bTF#72%7-B>$df^RCp8-_+xxSbW=Hx07(cNZ1KW6dD{?D@w`YO)KVze)IF1Wor
ziGEv{BXSuys~lFJDdAlB--mL+F$LRf5_+IizwP+S>lk^+k^$NPem8u~^`sK8Bz*=Q
zoU^o8HkSC22EQ2kXYQ^w`a_Q}dca?jXZ_FvwFefRt1Ucy``1BYM~4WH05EBLxni^I
z3BJ-6L|4DOQ;Wwhe?Ze>#=HX@8bP^^UBJSeR)S=#$-940y-(lt5P!Mv>Erj`Aq4F5
z7AddhiTJpFcD$?$;TCv13UhV~;i{+pA#GmP<{1bvAJ(24=FJ&H(19|MLg2EkRaCBE
zx@#?WN5vs7GBSF17Y=8?6Y2ica-qc_wMjUGNaU0CFRMZ(jl-xkeR+Uu2=U$?B!^<(
zu67y+5lRq!R?BUiC9l``vf3P)IE-MbjRS+GAP0xyrNC<$8Wygem#gZDgcZ>BFD)X!
zH7_sdSV%}s0gI`G)=gH<C<3FQyE%bCDLBi=XQIK5BAsJb+Vbg%B-^c$j3Q*~`WG43
z@KnKG)7w~LP!>LV{pK0TNGq+L4G%4_>8@6%;vMRGP%~sfzwGOD>{=w{<7$CB+xw0x
zaA^ZZW{yFB?%bX_;@1N;&Ho%bjmrvI4_SVFW9M<=6e?R6U;X`comA_`C|KomBOx?p
z>0u%cK^|VTsajLvqREvmj?|hUyK#jo<~$x4U)0c=Y4Vm5Ia1_4xXgUcGjZ!k5{Z)7
z#q5TPio2<In-C`f;oWd?e|b}lS4vV(Glp+|FhNv|?e`YUjFIaqSgEN)Fgty;4fQ!K
z`3SkxHvE<(RxDj7KH2@<NnYvcDXr2^rSrhUSB0%LsmfxOj+_{XWG(f==FG{?9_Jrk
zU#D8YAeyT-bO-bcw=`u45mB#Oa3Ji@=OM5`U17lAd$2{X*NYsZ)hDkX=5a8MD#B0Q
z=M;d9cQZKBP(BA8p$ta`WZ*9QD{s;GjHeE#qIBn{`yzx2gMk#oYkDq*8iv9dNCqs8
zdMSps!iu?}OqxLq2`^#|<MC|V8@o(}&|>(oalX<YppW=?85x4&__20maZUMo$_em2
z_-1Iu{;)1VZP+PZu9Y$$aldr_A;l3tZ(JR?M%)0yNo|BWTMv)M#zcug;I)$(0dnl?
z7Eg2*EHZ)dZC9JhK@CC7Enn~MzbPDTk=}5%!_NkGpZfHVdzt%jt5^`Yv|94ZFza#2
zQUR3#1xC?g_`n*&hHyoUuX^PgL06!Bc(&;>B^*vxr|W(-s=HvtT@bQGMISWjb_k9n
zm&pVj^`!Vea#D|SSUPUb76X9yaf!S`M!%#W(kxLTD5b;;WjlcMj=Vk6Dp8Vb0FHyA
zO>YR6-vy%i&c_$IkQM3`&<hf{!Tf;SKF8SsO%>>o*yVNi1po95V;?`4Uq7@Ecu9v~
zE!;-z_O>7(DL^LqavozXXzkg<1Gi<zMU>kB%!Hu0ZIMTh6b>V(a|aV(s7f%3+NSMD
zFOH#t)MQe0ls*3m@^%q!8Q?5{1&rxErvF*!)dnED2~L=ayx@rb2Fy={lo!vj^seJz
z3IP9MR|ridwz=R{%<)M8Ka2+nmxid)jQ>^3s?Q$&NvC?A7-#2Il9R%OnZ!#To}?pi
zNXIoX#W#67a1b7ZC>PUs9DwtWD-m+`JZ!XdQjlL&Mlz+eW3J>n&_vUOIgz5AHUH4|
zPvHe@Ll0J8#3%U}u098`cQ-xWF4e2UHjTlGl9G&EBhSZ5%zR}@wY9AbT&!t()^g*y
ze;_Vpl_niUHNg&W5^U|K;}E5z8N+(_vdn?q&E968QfDom^?XTm;>A$>q>|!D#A_&%
zhWwvdTu7RHitja#B1#12(wjMrnJ*?Nq$Fva`U<$t@JclEW9g|<OsG1St)a-6=_yk>
zQo$D#X+>IY7B3^w=)(tX)Sb5IvQ$jxtIGOp)vg^@Ec#N6r-<qKbPQL}Cp7hk;^god
zucR$vP);s7-<dH4aV=&GEya?tR{z52Uc{gv72tDP%<ni;jFIr-f7PxG58Z5AG+<~<
z7Oq)LPI|b~ge;aArOL&USS9ZMxIQA$2skleO=Bj9Isks*XwK1>Z}pJQ`m~Jg<QI0D
z;N(_{FCrdR`UQ2=3J=ZD|I%cE0b~9FmH&V_dRM-K$|_0f+anJing%Ad>U#~?VGJxR
zQfoO~7Tv%%!`}Nj#;GjKFWYu~oYKi4%Eri=3!lfBO<%>*#HyM&LypgdVfBqUI84@m
zVzueyQQ_cBgT)j8!GZM~@e7T7v5yU4?e$Di1GFAAs&vYl1`|wh>Az*l`c*VPsxg_W
ziv6>|D1D1TcK0qC1A;e#qlUwEeY)NS960b66t6s}Z9UZi7!k3Cquyn@LX1#34dkrl
z)v5K%ov~m+6+gi4f@Tr6?yT}*)Vl1Ri>${GZ~#hts*h5rLDGFeiEaTLlg#$M-*thE
z0pEx+pc|@9?YSQosYARfztENLfTb3fDM}BDakJABEfe_tWx9zY6xH%8oNmhn0>RY$
znSnUnAcsI7p78Nb1X)JuR*s;NeMc;p<KKuIC*<k+OCW|CRO<$=8ysiXi@~()?CfAt
zc8=8uF^bs%AR2=3#FvEDwzfRe#78MzfXpFx3lv9XDw(j0TxI1%ZkKV){1%i9FJ7o;
zaKRh|r?ryveBp=4?HodUD8&Q>Knu`n{(FcjaJ(8mZ8V(|YdJ_gcorC*QeVWvX!@aj
zcmf_1Kv^sra#pGFg`EA<K85Q#A0(rpp~3zpPpHZV314@i*q_KLs=I}W$;-%yr0Q$n
z{whR!I32Nv%`p6T9xyL0Invu!(TXJFvr94owgv>hpd%wIXqiofUPq!Mq7y@~lMozD
z8|`sqSXis<CUbvleU6||2%kRFDZT@+2*}&5UHh-06cG9r<+8|An*<Hm5s)jbUUKjZ
zD5DZ`>#sn?#P|Z-Mw7Td%<b|xH1TF;5kU0<vfYcjpQ{wUOdftn8Wn}0R5X~53yw*!
zXcof%L`9$FtEM;I*3oZ){;lVLMk6<|>({I<m<8rA`2IZ5`oH$an`>~txsvPG&%k25
zAUtb3YO$Lw2?g|9c(N8jvyKBOeVN+#KdnCREG=`px@cHNQK^4^`@9;15WD)4aE6{i
z)`tf#Eu_D^Q638~k52x$pdc+HgS@~JLL2}@n*}Ku#AIi3of4SUzI!o!&hND-(4}S1
z=ygyWic(ke(~#nUm#*A%Q;K!;4Mc@7OPY|2lXJ4wO8(@VzmHgRk{i;-_R#MsB6yAm
zA<g0YYoXsOtZ1Ktw5Ty!O2~2btI{ZO5(jXC+j~O37Yq3<o?v$S9WG3&^oc?Qxu$M^
zzQ<g~jMv2BM}_poBD@#qDdg<7s)VwuGQJ=I$wIGNkAKU;Lr2sI>!qjb=e-tc25rB8
z`=@I;mX=M(p2FX!sOS}gf_2G>N+p=E(ER0M8v*;*<$@5V)O91~3a*G$*9BX%Fr<pL
z8v|brtI0V>(Ncqatgq_u5P_NbPExY;<fs2BEPEH@FhFUbi(7J!FMi2G`O8gFMvM+h
zM@|}=_XDV8d5LuFx|PLXOLP!V!pn=+eQex}Di>309x<o0YtyU20k0->eZ-u#+Ljs*
z8zYT7g?e*_m%nSosGOg3REk?~44*E*;bnr*B8Hpb&P)@v0sDRT6I%A8;5VsMumZ#p
z=|g)UCh_s9hhJV_Hw#=)JWnmWc#KDY{IfrkgsmY5_8ZEV&g4P(uCD>u0jRm81<Q9C
zs$oo8XY7Sluw~rpEUxfY{BJiSG^kwT<uYW{WPC#<RS0g@pFXZJiPO>sf86h+jdMvb
zPsvDHeulsl`fN$XR#o62Sg#Oc2?6ic=xxj&KiJxK?8aDP?m{3^0{k%i)DD;oE?2Pf
zEPkGm6o|+RKGR;$%)tc95)ZTY1#xH#HgB7L&?!U!8U@h9AIx$+r)B%epa}kw{ou6d
z@fDMAL2f{Ic37yPxO4?3<dZVu00|uXp~q3ZbyN7+=iKmdo>GzVr8dtu-JU?{SWzj#
zQ%krCOQ}uj^Hn~OA12EB9ZR|qKgvcqm?8Cb1LB|jWN|x8Mk%{tJw4ds{tU+;L%jKO
zx}J9j+X3T73H`0{vgdvy1WRHG;3jhKqLU~C#>t>ID17c-z&p66tPDCB^K$hw6<gqt
zEjvdf-&~IO*ZXY5a5!xTvJGm<cTggG(;CN0V7Yd_z;L~W<&0uT)`1Lu5F7+Di!C2}
zG~3M<TMGxC&(zMhpl6HnrD-DOv)8E5D&fKm2(N{s%V&`s1Z04hOP`fe41u2xgeska
zMP9Jf?%&P{VaW61YswWr%<Ag!-(g&_@TC1_;@0-I#m0*~KiurWIa0`*F5#(10ER)e
z9}?0BC0PHhZcXAdqDt0BM{>kFK*{&!=lk=_#h&d5HPfgtd|l$Jci6VH9MRYV`(o5L
zbX;V}JxGgCmk-xGL40C?6^J9|C>luh!G7k;p`jvq^TA)x2n~Gy@O?J2fpc#6<n8S=
zhy5yH$>U%yf{bbclMS(2#Qjk42=;7Q0^g6<*HtXB_19)}isbIYF-Gb7-~8C&b1Yt+
zU+ofq_jp^KfW3=j5_Nyvz*pdU@Memd_g|%QmTGZmb%z~|LWfi4XO&Dojk_aVoAm8E
ztA^3E5=S`QKBMz<)c2sAaUw)W#h`Nj7(Etd&Wz^)->TWJPK6igeNhZ2_QDcY4~ugA
z@@De(VoZf)Kxqe|Zz5;xbau$(TSxF$P0i7Vyx|ft?oVN`+NDhIJL)7rgLS!Q=zz(j
zY)PFNF40QF`N1I&2|5yokZ;yVDr)2-3UWA`7*+8f%-<fvWlDEN6B&2ikHSL6+QXoa
zwOl1&uQ$4e9^<N!+BD1I0j;VN(1X=hPS<PtG&<p>g|p{4LytE$SDksXpI+zJ`W8%o
zN|X+Df?)1028a;n&N%W|v6>LH)7k1^W;{gOg7WI>M(f>UB+Rsj8y%L4>D&FNH@hY1
zKJN*W@)ROs^6_Rfs*c`Y%{HF7j19&LB{SL-O->j6!J!*xP+l8sTFhkI9WB8kvvm#J
zCroq%Yhp%_B^6EEy0dxLnlctnA#*Chxxh)A00yvt0p}W))C`BeiX&xXSk9miQ}d=i
zD6N`urbJLl)8}aj78<C73^f<;Wwz7~=iKBuHfr~Ji`d!JlHOyQ&k>XmcsD^#ofL8q
z8TI)0??*<I<sC}dZ*BbcV7iDtg2PUv&pg9vPz$*)q0MybHzuVKo^O|c|8l`bTgS$r
zttKS}dw`b1vlN;8$y*V;Mjt1w7dWu)G$D*}c7L>RYS~dbV2BR}7(I{XNJKyIS#V&`
z6Q>evgy!O|C8iq)fP#XL#QB{uf2Im(vwJ>CQ2Xtpem8tqI3-K;9ulwxx`crHLja1F
z1-VtW=mBy$>KQnj_#vp|AHcG=6}FWM>8P74L7h5whPZq@9Y~g*z^iHL7W7?$s9~nk
z`DvUyrNR^$vcJ2VBj_5O$>68V;ka3k#1EtCrY;9(j?0UXQKo`{99!k|+2||8+!1CC
zjK8dOlBz14aN^w;8|<)#0NX6y`QPo3xQi;~7eclcU%YC7qzUVX2+W#L%DJf@)2u;`
zwa~1c3qK=4+)bQ6yZ?R;Oa?j^m(&~B4Gz;bZwQxY@K^Es1G+^)At50%0@`aJh#dJ~
z<s|DMSPr0;9q^2WoPxmF@WN221L#7-Wxzf%)NKS4@|-=2e}D(A>pJ@*eA*$+k=Gu%
zZRJ{AZ<?U}b0X^lz(B@=mE%}W;EixMed+1Wd(rXe92j#_<ppyeQra%aUil}r?RPdP
zS0Gnh(FEj0tA~Y$^9b<0_@eBZScn=D0D4PSPqcqrA~dvu@J%ssO~J3Wi2VX2zFz-w
z*Zaa)^7eF1Bw<lF)(`0B7CVHH?!$nDXAD7=rcU*f8!|0@PbM$st=+jL*|nPpziwuA
zH)RX#qC`Vdv^8X=|D)mAi`O)~4HEuR21|SCN%7=$Kyab%W#D|M^$9;W+X*R(3BL4a
z!wdBjI&Z&m+g*oE6uf#u_WIIdzrahEy>X|O=t@aL79L_$dp2~Gs1R!=X&%%(@paUm
z-XI7WCDA7r>m!{oTr3K$CdpEAV)Tc607b@wY#hzc!Z1CRFkN+cRzY|R1-=JKF=N=+
z^K8;AV&zNaYB0^?So{1s)q!bo+x5su`$qjRlI%4X@{c)B8=G-Z9-|w#{B^BFt9snD
z2JVL)<UzxFnI+;@iJzWJf2Ese$TtYdf6ptovZ7V>m0uB|o-P&;N8}b}YP=-SyuCV9
zN}f*ROd%(!IJS&U<uGyaPLGGh=W$Fy*uD%iaeJBZ6z1lDmSvSTmfl6ha$yk)y%#k7
zhF3E<#A<9jCbkI@6<F)06FSfllPe(G@g&IuT`ui0NIJB20{kua<AA{ThMP#W=E2p~
z6#yq_e+*2zt0wN>S}S8(y445+>BQNhV+4d!&(bgl0)avlWh8Zs_C^o1I2lYZTf7n$
zMPoSzl%qy3iO3+Y>nssGUV0rH6skA01*wAW@ngb?XFHFX|5L0%!iGvNeKp|c(cr@*
zDEm)yKoqUz4vPNLDr<($$&}N{#YBGmXwjPxp7CjT(JGejAL+b46}X;5r6QY=%RuB*
z7ubM-E(RAB>l(LEv?Z&eJhcdg{pe>qxB+xEb+e=!<x`&7eIGf&S_;hyi&7+mltD@Q
zANT+-tUbO(b9rbJ5L_YAXKbcOKve5w9=)+q^6%=w#sebA!lD!{cusBbQ4bsKB1~`F
z(w?8Y?o(XbL1851><yTe>?Es8`A^M(w?k<7ESX!cC1bvs$se#M&EuOO#My8=8PprJ
z`Mu;Iy$R0>pj<D<E4m(cIl(H*b}K{$-Il{QJ1RatqOEmr1lRslxRJxN4l$$^%wdGR
zj)yhZQRvl4i<+uG>|Px1?;}|U`(WcYP!0$pn5hDGZA?9a1Q>VZ0bGa)(&ZZ<4Kfj&
zjyTGIb_?n9nq_pD`JE%^o0VpiLJ_;W?&rTKrE{p>*#{#fyh!-TcTGdzjhXTfG!>(q
zuFK429~wS@UP+^*Llt${x;Lo>EcNV>$<mp%5nq>>${^Zf%1Vb5!+)6p>^C4$LVdqx
z2#XPC=?EocIHbtJD#Df97>YTHrX3!3Jys_JuySr+U?sZM7s$d*sL`p=3PUBRjXCqN
zwx;)H9!mv`=>wU!D16Sb0c`p;<fe)SA#aCb$s+JB?dh1}0;3}%6A<2Im%O@<6Od{G
zt|d}ImyNuCk9KS^|4hI|1powN%-NKwX)L;xU@U{qRWE+tkEatc0VI9KASEmj`?DMg
zY8l@*&`95cZ5sXHhn7ws&pVP5u<*&#C%)}gjHetWGei5=`0m}~g>oN}nKhq%zKHx$
zPPeGd<z8k$00|6CxWHRf<&iR*F_pl;kgh<vDm|sq!B`9ovZn-AE)BzKWld0)uP|!Y
zr>r+t6sS>Pl7bBeJw}u!QJ!3E3SDslpU!7ZI@88o>N0u^ex;F%y<(}99YF{B^f?aQ
zWHkR`+6pw)TLrx0Ge%W({x_v#&XeSuoLL%}OF|4bj_VN^ynWdaF8+y}PZ(NCp5;;e
z#isVO3}<1LiX-o1Bv5qrKa1qGx_^d#fVQ3au8FYb6qXcQ&x?_ytk>ie(#Rhzyqx=7
zb@hcfbk8O9NM!VMW`G#C@K}=lSKjW=fhv90FZ_iBa}3Lc^bAFmVN>Le`_v3bh%88l
z+LeQ_M$I1r1!Z{#5v{sSk(5d`vkO(?*{=9QB-=8uNJ@l~5C(>OagKJ)8*HOQHAAi*
z$6O~0yH<`hIEsMdeKTruH>PU;t#1ANOGd|$NOIsLJliC{L6+S~qUY`g;4&b~6bI&_
zpDRRfm{}&xL?8yelGLBUxU2sqxCmdMzVO}}>kMeJo5G`4&3Tn-Ex~-INZ#aesMV@X
z|49T7t#{t&11+z223MTRGfy<Msow`)J#>3*EG<J>MM!EK%nX+r>;Uv#_2eAai2G~J
zEv`>uv%HXsL*YwUS6Js>{$O8Nu_y)&y4-DKrnrk_MpfF^DQBcMkt?O@d9RzC3@!Df
zw3NKcjoon?aJTS22Q!SjXN6oCHL4Z^ziS3yZCGG0<S<H%O$pcKuZ|@xWTTS_s34h}
zcF5+6y#;JmaLADa#dw|CnV}^DFjY%prU4*+JwpW^Anee$pzWb1C*rEn(y#>lwrY8E
zTV3#ud>n}cICz|xh=mZp;W3Sf*$fKKZ@0AWUSMlUnYB~3vezTabDoJKK^M{?8%?Ow
z<Co~aZO(f{D;#55Z>?xcD-u4t;S2bs0?w<ENqOZ`$>-wO7r_0WF;NfW32??4lH)`Q
zxEM4uV@J`^rbmy3QD9e|$umtzxxM^Ybnr{dA17?1{aJ+fyoFheII_lxQ2t7D5Xbo3
zAaKyintqFRhwf++kIRvqT@=NO1<w~4+TLiZi-uwKP;Ie7Om7ncneiqsf#P<S$Xovm
zH!%1s_kzZ?tdd8pPE>qJk&x`BH{~PQNqQUft>(wqefwZIo*Y9QVRS(K_+l;Q8{9yi
z--TkE)@uZLU>Nx^u(=U*h<}WwJi7=2e%_4vU<Xr@<1B9t*;72#f+<(NFn08U6p{(;
zz}9!Bgp;DKvy~X~lwz6`#qQAXgfs9h-aq=dxNy<g0Zn>~WaXd<2n0Yh?*N0OW0N{d
z*}+S&4f3n$nch85d9G7l(}XT{2)$q%hn+dd%lk#gsg7$OVN|A~`FiqURvdq&`AdbL
zkBxSf>Zg>IxitsMEw~!>oXXXAM1B;)0wDGdEyv0#wf)=2k3O=x(_R0-BIV*6(+!HH
zzL|a0e!7he7Q2aAO9GCA3-cA!+B7O14EqDwAh!X7w28?bhlv^=p#(hi9jw+3mastM
z@DBGjJTw%$_X5F<(K7885yI$1J2U?pfxdkhI}(qouk(4t2Sr0iC+By>*L0$>sFJag
zF#?7Y5U-YGhk2@<eN?5iJCLCx|0`)Orww8{w@qzv5{iN+5eFbnge-*o_Q4$xM22=i
zW`evp=g!g)rV%WlG2BUqy(yW{pGyx;l5mz0p5I*!h3b4ahxIR+m+7{?@o6wh|L0<H
zJfb{s>kA%Dq!NU1a;r}tMS$c93a?^`32XvJdpuSd$`tA4K+5Vuz87Qxj281s95Y<Y
z;A;WffxZjcaR;y|g^(Xx=ep^-cRd_w)y4iI|EjS7)Cf$;N7Tk0L2Oy(jvIs$mbI~a
z5_=Hb?Y#b&KogjGn4r1f=AIYbR)TnO5VsWcX@2L`7O-3037Z0Yyhzfy-qjSd-Rz^J
zccbu^E;yt;Pvu;R=gN(V7ocnz_DJ*Hb|ZY#T~$7m9p?E=8TK64i_3>r^TF&*6CR0u
zxMC6ub+gB@u`B^Cc_E8NEN?%)0haI9>m-otMHHM`+wq|4nT=});?K-Y@9hB)g{$@t
zIsrSv=?nE-biWxhd@-OC1rQP+`p_f$Fp)noV1)@%i(5!5yUnhFh#jan%2kzaM2Qqo
z68~tg*TgJrakes%kG1R2fvD)dzD26Fv>{Pz)hQrk@9pcOc|DxTVOz~(dmy$-T7z|8
zVr{~4636GQkU)uHT=~v*s5VTbzh-QkQI-Jl?{QLUn6MUQ^t`zE!jQSfS_Hf_Y_jls
zmeY-EwM*<g_kD8EmG<?rfi~NuO^46s!lKcDZG!CO#Y<<M*S&l;QT0*Yler>sg7YO~
zYlczN@+-ndcpR@xq&pXUL=#*vQrm}aq{-VvCctL=UmaxQA<^%8K8KpTj+%xs5pTOC
zA!DXOOhB&M{bENES&wohSr?nblM$O22dAy8an_ng^SG`(?Ce0k$gd*$qGC75IkHu!
zklMRM_CV1IDH9D5+Y89vGoUeo1iHJK0V7)ZVwoyicrVlvaNH7fgE_vMmP_U<CXdKI
z?gvDO2n!qQp*ynoRu-Sz^JJO7JpHuRcF^mRL}ee~p|z@PeZ}*cc+CYrkYsb&B+UV&
z(e|!}R%D#kTNg?Am$A~hgMtvST3*0}kWdis#29SE;{2-X=&f+Z2k{8~9@KOMiHUbo
zLKo6WCfYZ@SLD4|N=)nhDbyseZvf4cJ|TixkYfo05w4PFJ40UQJNXXsEMb^p{KSbd
zhbBU$Bi8v^S>#8is0-%gRwq|qdFO9!vy@7O0)aL|!Yoo2F8W?0xDAowI0J%GnS7yv
zb%^05Dkc%*@3WxqcBnBU)C%e-f7PJPVT>1Zl(lVlm$V1Uyf4Qh*2Z}i$vURB-W>Cl
z8)s+$Q{a>8EKFAfi36jZP*TCSZGF~+lx*C0dBrFB(UtZLoiSnu&?Y2Ias_4O*(`O-
z(Xu-0&3E70*u}#^s2RO*r=pTkR3*6#x6?pZjD$x%$8UML|HeMW(H!2w$rT&-*N<-&
zE_PFUbD1fX%!N!UM3j#&f9r{Bx?}>gicuD9ES6j1v~0R1+kb0_Xu<jKPLav0Aq`Uf
z6=EWCgz;BKLMKRpZTJO9xB#$3nylx`+J}?%=wfqJs636jjU9X)z|`$&2N9n8UbPxe
zw7P^a>g)7?U#1k!!Cy4D`x|Lh*?kS?ZXpD6iS~2rmn-($AMMRsK{5gUmxr{grcv6z
z^V=s`rM$dxg~d&NpKN*jB1J8J=y=1XG4R(c@B918zKyb~;{V=|!@_8ewgWAb;&PEd
zZa8yOk7-$==fBdy@gEf}m{ap>;S!6g$*g5#c!c>Fi9&0wP1ohB{O_^hQ2d(r__&VV
zKgJg;-}l-BtlE5d{~gWy<q;6zw@g_){8|0`a5;S9(`KOft*wDCeDu5Snvd^&<As!M
z^niR-bdKPBPT^#>>#*E+v9KEJ@~L?FxJ8Wc)Apo(5|Yt?4FfvXUlG{?pDssJ{hWa9
z$&x$o9aey#Yxx&;ne3yGAaK$?XC!xocb7axGQaV`Udqz!w`~C7Sh512Zco}zYs|W8
zKI6{p5<UM%ctU>s_r-`zqcXt|Plv64)8*~YEMeEei^lzz>(;=RnVfq<CXSl&zHTp(
z@zpXRPU83VPcQw;WYn^2)pN7Ix)gZ+sCE)F|D1puCL<4aJR`3ARH_n1py&j{r0d^r
zU_&-(&8p<0BCPF%?Iy-c*?|gxN+e^UD8gY!LD})Bt3q^9buI6Tso%+~=5-Dpxs%bi
z)xCxgLGP<_|6cgruQTjM)^SvMo`2iwAqP`5yRkBt`^I#1pWXKiHtiHUeBZymIVnwJ
zPi4=s8y`kY5>;aL)7|YPMH`apc=Mw=vCQo`au|esfeC9^L_}ZX)G3&{f+;pB35k%|
z&pyMZWoC`_^A+H71CBJ{QF}#8OUuAu1Aa+x6L?R_<NPP_0SB46ziSqFF8=p$xc$@8
zvCybXxZJ0ByTbDDH{d4c!g5XTGtc|u;p-7HpgDT~+mT#gJSp4BteFEz&#+zK#mfcx
z6q~QFK+zt;2X6m|Kf9V@=uUhrI(_S#eeBjZYv`fg7+R<pU+L+0k|2wFbTK;Q3}Dk?
zrw-C-S~pgg8ZdpT@XSPJMPYHCL_C-#oo}Xv#Z8?A_M->{0t2Oiz$4&WJd5+%xSf-X
zEVHmqAE=|ryiUf!2sp3CPKR6^<mWOpyW7zbv%QQ8+6?%sl7jdbw(mq;DS2Z@5eaT&
zKf|M<Zx0B+T1DhiK-w<Q4T4P?Q1<xWUF<%Cos1fpz{0E>3IoPyF!msH3cAwW-QC~c
z4=7jQCX^Zmah*W+eC7gfJfY{<25`k;_D+J@8E`tM-`CwCDE~JK1Y`RDy;4M`CuUK=
zF#J+MQZnc`|7lA6hV!)(=!qyag0eVFM<aB<JuN4t?QQ=!0h^t#jy7z@wjt^>vuIf_
zC&>k;{C1<TBt*T&!8r8%`%A+Oj>_wkx50nAZPh5mvgPlPFquT8ftxO6zSgz@uUbL%
z`@3n{2JIJgtKOTzaD-bANAp72VZlHcGLh|CT)Z<j^TwkkK=j|<cUZ{NV65M}SG|<Q
zJNT=zr1)Nf*^SXhP{+40O#@pZ?<azs%`@<&M)IF3w8iPS1xYpyo{}<Bu&D<wC_Ycc
zve`?SGBd{&(?4AQQqm-UfhJoZ=hfui4RIfeTZiKs&=UM!Ad&Z8!<40;6kRFP0L5}n
zuWXj1!B8{gc-gr)yU;P|Je|<u--h}2*{1FI?j;dwdT)dh-mu$wVTf}fe4GX~f8okN
z^qrxh8or=wuUa(3r~;Yn;%`5S4c1YqD(~|`u0q_l0RG9%>rl(M-D?mG-icc*r2By4
z5MOrPBB8rm#fXR~eWlvaHl0Hbk(i|wu5=1?^rcUKRS$d~ykMkL<bJkjLP^ny`5sS%
zkz}tAEDF;PiP)brT;u^=6=<u@=B;^5TU>f1j)H^dtMozDCL$*G1T;+GO(GZZc5!yD
znYIrN05UJNY(W?<02HYPH5k_=c$7lD-wKeC6l~?)PS8KA5m+X_z}5c$w@YjMKgH7p
ztk%|bOH0dGI;Z&R$)^ycPj40`6jXF_-|=OlE;o)it*;^Lc$d1j4#tjEz7_?rTN7gR
z>Z7%vbBz_72bxqb`}JxXbt{s9f{@^zR9FDbjgfABf3jJsiCWLkk0TVFA}qof>IhTd
zI6w1io;QJ!hNc-P%Xw^O24m_Vo-P+j3_q3{8YE8;(5lVp4TFPY9;2J^4^)ry@rOb}
zRR7**3VU#Im^rW1(SgXjUyTk*G*x;_-3l702x)9}(~TB=Y;&-vgZ+!;$lYYzz4a~y
z1Ow1!F@Kd1#7xZ$y-S2MGSTIk)&_3S6`U0A<cg}!5#U-5LLuUzfk!D6yF>B%xGiv8
zOy69sCRSVZCgR8)gur|M(2N!b$t<7yTID*7%}bzpoW(D|b-knb07MQM_M<7snni5B
ze|9u)e|&D`wX?PI;v1@E)mt1*Q!RSWRk7-QgB?kc<1mmdq*p!tCGVqN5rNVS_SHT$
zVUdbhV&W1X-dgF)L!#=a>u^kd{qlqWPKaEf7`CTdeGZHq@1|pn`ad2PlcQ72s|PR?
zIbO>d>xRTAr>j|wyG;3~3i3NICTQ1Lwsm#!1Q0ucTfp;|ZSh!P(OW;eeCL%k<-sie
zS?=Jb4^&eKW-vb&7Y%f&WRH)c10%4gC~<M!z-|v{r+)we`g20~Nsdt9(<3m%Bt<XH
z0n04d!RgnS-2M8}rKYHuh?|s@1YC?@DRDa`E^v5}0Zx|y3h4hoT+%I{>s?VtuwOK=
zwA=#c{+-m^GYBbjORN~20uTW7hwaYSN#_`pi}kZ&-#~JJN^o310Yv5=kh=akxvt~I
zCPt(PQVib7H)?fr`1NB~Lre!H7bXt~KZ2qk{wzr{bDf@9*jRl=#6S-U8vNOQ*{xPy
z?ferR;K0rNZD9UDI>4pyW=;Vh(2$VXbdLl`V2lhVtn%353BgI9!jc-kOieDK?76vV
zSgS1oEl|Ykt1(4|kt%R`r=o%>+hfEuLZtD#A4NFQ_{(d=4Ghcq@<d5Oqfo{(;x@og
zfMbHq%tq*})SuiC7Q|4tVo1PBwgl-tyxgUT-R3*XUxmu~-sKW3R+$KivW;(@4_6_7
z26tS8<2+bC60BZdjzNQ_ea17`62!Q<v8FK4$3tVei3H%gZcdx6II8R1?Klo4m!gRX
z9Ix4yOIDA-?kh%e3Zqy))@ICUr<aF|#T4#u?_lSLOhL8GjGR)*1|4{>;4Ali+rI1@
zSo8D`muZ-P@82i`eeM~%Qc{bFkd02uob243R_BLT0$pGx9#a-#PrVJ_{o`bkH-OmO
z`gE#Cq2%Q|!US}Tzkf0MB8-_v&6&)1rU1t$QxW#9RTBUdzx#GKxW1mZL?fSlWV{Qr
z3<i9ze!v9<8u%)miWv|M#Lxqtl;_YEu3K;)sZ^DhmxGIHQtZL$VrQiO?>q=E1ZDlC
z<ZspMw#Qyj=yhRs|KHVKsLY)V3O&lN{ey$Jvqa@zyjD7V+#MY&<za^%Z%$TY$=q+D
zNMdGEE1y5%#LYv9^Bq?g6H<2Ipg~lN(s1TnF)?nx7Nz$lzUoza5JA#8^DvF2H0b2B
zZjML7vbxpcBy!)bkZy7a4mo)>y|Fu9S)d=Qv?wEF=fNT$4#|1G*aXI5U#Vr}AIE=v
zXSVj|ck9Oac;*sga{cJ?LoT^I)H?7Vx+6^a#!CbIRnyL8xseS#`EC{+Pr+<CE0}wT
zlXQ4Sk6K0)F5m%bBV?<4e$TRz`Ygd;{%3%Q1P5n{5BLZ_OdstiM%W|A!#LohacfZ%
zuh#rDg{Wi}6etlu$um?lnKt|%mP^FgL|yV*K_~@k#IKE`N%2W)&SE4uxP+@cuu;M0
zVTd6uslAHCA+&$IzxH#Kfyp{_uX>x_CYR%eh$T=&+!<nnNvZQgNP1esUP(zT3~t1@
zX=g@~`qd-WH#vD$fnrpp$mp?>_ob?1X(iKZ!GD>tEvdv-O}_b&BL3U^R2@YyYh{TK
zDV2q|#F8Gys3>BUTamNPe(O9RjHN2S2XDonehr=v?^c;4@^BfPt&EpmJgy4K?@yH0
zn5v%i3A3}m9ZsMDj7@N6B+{Yd3=^JUprOINK>~uCbG-^J8^EhcqJH(N4J4ESv0hSO
z(6jZv5oEvu6Ag%aBByx(ml>!7%Tp`HI90%^;uoa)xi@&O0r7eNC!tdYCku!w{CLf2
z+6Ipfl3IV#!O-*ie-O|ZLb43<62Ya`z{@CO4+@uP^Wujk$UQXSh%C|jjD9PhCV_;I
znP0s<<e$%@V$k{FgHDR7vv_!f-Tdb&r;tYTAOe35Gd%%7rz$XH0@@kvzHr3u88T=O
zJ0xS~2wYd^?Wg2^YI%BkIH!w=EBQedn^INkl|-51>-W3q;h&8O%;8cMvD}qt{C<E)
zb+dJ@H+oIS_zaV)UZ>9RHevsIxQMadNNo6#2#m-0V^WTTV`^kqOaFtmn2i5X3Y;$3
zOc#ocA0Mxq)r}|8`H-JO%$H6wIEhW>KqYmv#5sp>ov4*oG)s6jq_=UiSZ65Jge|Be
z;_D?~1ap+iQlkCN&+nu_+6T5<?A^b%In_#VpS*M^B!>4cm1v>B1ZT-yYs2}Uw+L*z
z+)m?aT@QCQz-i@I@CxyHa&ke;5(cS7mfn5zk=IB_#44Gu$#Jzq@sRXx2?H4Je-Ts~
z_V^0%dnZ_FaNWd`aON{yQNWPs1+e%;oGfWLkdq(Z@u1RDQXnYX1z?DN=l`1U-vE<N
zL_|ao#&iN=HPRWTFeBh_In2I2g6+)LenUe;Fq`fnSZ(tJ@{2QI^ar+R51_+mkLBp1
ze;z}#!DO^<Y79JV+!$l5vXhUGjrFBJ+}>#t!~qX6PxNh7s>Fx(pEV{h0a?Rz7)%@5
z&GIxlGO;%wrjY$lN<P{y`jU*6DR@%aC~2;dox74JTgLiU>}#=uXhpi8n*ooTbF;hR
zCdBM9FRSKRo+QH)><W>HNMiAS`ADTx;jIRP@Zof#3+$K})&xVdNMm2>#BXC0dcjtv
zQD2@_80BG1|A1%dnQ#DVcaX3`{78wi!F>xexZ(cW=-Z@dP|p~+*#w+*1bScxVPVlF
zA}8OUNr_Dn4WsJWSmSqxcJngrW~$lXGHC)S)Z$v_CZ0`V1DkP}g~ay_b1RqH!yUz;
z+jGMNV(Un-SSGdLTDtSOvR7`f4S(0AE1(tLE*IB0ET&rw&kTA&A8JTA!J8jCC#$33
z>Wv70LVmsS&`4v@MxKfcr=c0eo35)9^2V97pJl|;5OM1V(yWbFg1_6ypo-Xpwlpv<
zYVF-WmD9<|gJ!1$SbzCK#Js1(T=JLJ&3Y7;-L4(QzJt8t2n+=1O7kTC^#Q(4Y|Qvz
zt*CF7^Qy)xCYI6gLqg6b(20YC7j8_G@<>f#7=iB2vf&QXQ84b1>pF@6Z1vnNoZ1xO
z%#T$#jzhxqzf91;d{xOxk^OBmTKqk;Xq8tUbOXF)DkB#pBZTE-As^K{14IMIiP2h=
z#S7<KT-V<Phf$QHoi!Qd^j<P1Cu5TG^g9W#zRu3=&ESg-w-TMfFZZ=9Kp}B(kdYzu
zfjQ<djqzJ0i^iiA59sLX`UhsqI{qmJrr9D2B4BF(SR_C_4Gdg9Ah9GgtR6)V^iB%z
zv<FI@c2k9{2GMaNl_Pxb)_`2eALWWu_j!9N4hfF~>l097yFNYo2=zKCs;lp}_4Xvc
zP=DR#q3DZ3?0yJ%E?~T<s-&c(rUojf&6M^sn!+|9H71D%f=v{}5Xs1N9#H*1=iHLL
zbhiKKkLn(C2coE+{NINvQ?wbf5k^_sYMnlln2#5Gh@So)%J_2@n6`v~+MG(z1$yKK
zy2SG>*;tw!mK`e$QV{e?a4Lwq5aN#0w`G4z^tSHP4-N;?Jx{EA#c-J2{kJGubwcYP
z0Tn7*$MR|;HM>&73DBr^^Vgc!1ETZX^rf$ceocS0?(b>sI?rxkOhzHoy7*gFraT=L
zLwkJcvo$0mw*VG6hjemif5&P!sS$WYh*^-ZD6MmO=qU@&q~PCzT~SWH5;&eW`yxm-
zL347Yazh=w+>!{`<Z(RAQ<sgOHeT=Whv&XPB`|?+l6p%rALFyfmJBN%axFM9d^4`C
z5;{>5eTb~EA%BOr4=w8*2Aghci+WzSfcr{;Z1mT#q&;Y&_6r9W28x<tlJQ2ww&V6S
z{@!r$W}c^J;3538O~F43`w4g<+P(Nsetz2L&4NbJyoM&gPfrUZSgkaf<UNk`9L_fQ
zUU3Z!vKW(l9$A~z_kY-sSUcO?``MmKHr)J<^^*b+F+N={jEc@oiYbRg<KkX`)8B<0
z`|FA+udTKIms~Z^PXfCdQg;`Jl9F->No-8D)*nAx4tNZs%3TPpL}CuceXj%tu^G5z
z^A4}yF^_25Ju}@x{m8UZ9&^Yyy_?XJIEvPKf!jsyT^}P2cVGeGi+H5@lY&1Kjv++A
zQmhGkJ&~JZTB39hIt*%#$YCVi{fV#O7NI41j6pb>(>%#cuJiW=&eG9XXN_#H`Kok~
z33bC-w;NX#feg|Aob}B-D0PMjHMz8OuSm#*l)y&RXGZOd=5X`+o+~OxZ2V-=LoNON
z)FKpuVCMf#9`y+wgMXHZDdmcrTL=gx%hZJ-I%kx7^m|!64DB)>SLT$7%>7Wa#n+b`
zD|#l?4KZV#^Zb&2bP5ZcYl@{xjY$Z1cDa?r*7P?){s83@s82U8Gl-2{YA>MN?7=IC
z$cE0Ugs+IE1{hN$tUw_M{B}X@pm*Eax?og)dNOZzmWv4i+;Q!uk9)#tb9x*ub<rO`
zI)D%y$$Dj*1@P7eTz-EkXcwmrc8{!Vbyq;+3mjJUpl$%YFQ~2UfD@uW2#BA_fw@o~
zg!(BH*5F?hv83Npihcm0toPFhD{YS*&*rfV7%n2*;4UDbntrA(3eJDZ<T?WIkmpPc
zb}-k@7I;hQ62?04l2;L+If1*D2MksKkN<hU57jy|pnX?30#<$8x`dpsRggiHLg6`4
z4E<45WTd$lP6b?_*gh^&!FP~G!Uy{ARu-`1b6joV9>u0gjwTVdpL!<9-ab6=2EBAz
zgmn6*X~{^LBk4~)Cn5`I*nn)o&<Qs}j<A0YjHP{_ytQe6EQ0pEI|z=Bj&3>|-XI@X
z-C}qhjDU91fi$gOFiE!NSIQ6IS%X!o6Y61jLS7HG09x!|D_W-#FSVc_<i{ZG?tj5Z
zmyS%d64BiI-#^Kxfsn_o0P?)j+=GydtPi)sY+ouC6bR-X4r%H+Zg5|ngOc6@qwh8-
z;57qXYep`5fzek-uqP1~6MIdF$putwS^Wn`Yn>0^NINi@9LHi!!7_4ZFWv!^5svKV
z%n=?i#bQUv=weJhlw^)H0T=+8eehubGW~IRMNwcNf)XMU3*CA;@ruHx4QUrFdFJGO
zHX;Z+H`U?uyFCM@FANeMc+x9yD!^-RfTU(;RcX|JB(QYbiw@pE$G|lJg@Ma>7=JGp
znYQsjhK<F9A5GM&58yr*H1)qOZWX`@F(5@;35h@Ugnu(I^suO*1Rv<N7ZYNggxkbT
z>{sSd@resg2p_HTvvE3{D;QukfB35E&Guqw<UKX&s8Pov>MU#{xG^EW7wb^hN89}d
zV@9GPhs6R`b2G}jS<FYwhzT5nm3tiQlTXF$R$|EzbVQvp>Nk0Fc{tS#zY1GNUVO_w
zJ7Yr)O_<E}%!kNBmUD#NEhehjUQE?E+88$~H~<qdLImb+Eah96HQ>!;Qp~*E>&e5+
zf?__(S`61}(!t@QHoaX+l8(j4WGduhpb{x}GE<@HJ}ObZV?s2#`Bj$U{?yS|_5|8$
z9&0roCrsH{1R~BoxI!klQ;>O<lBikh^>$)Bb98T<yx&Bw$o<ZZ%n6<9zW9wtK0z%9
zF$(Yd19SL22L#V)ki+(UFGcvz0TsntIN>@J6O8eAVv8Oq4vyg!sY|rKh_Zg5u3^hm
zl<qVV8Q7>#j%lB)&%n!twOux)Qp&unPj&<IHtS-yP?jBCIld^qTJFEfzo0Hg5e#)_
zAV(|Pv|*4Cw-5yH!c1PVsoKstyaG5F0Y1Kz#qLcPY$thHSs+EW1ZXrat_8`Zg(Gl>
zdIw0U#(gnt*aJwLVnCFkSwJu+riCW&I@e13kADLXMd-Z|!G9g)^XfoK8u69pF)-fr
z)6@9Dgm$yjvg~2Gvah4Kf5d-YE5=~bOXrR!fTjb?P!n(%MZjjU2alwOeNWxod;{1z
zG8{k~q9U;M&X$xMK~W1q<2w-}Wl((t4}6P^`3_(?ATSTbQ>nKQ0zzl!2hS)3D9ZUA
zkK-JZH?fqookXIN=;%4K{jEgvvIb&;#9NaQusO|lp1TG5WH1A&l&D;3eupGdsZ-G_
z`M$}cV!pryNQ9oVsa0e&L(9Br3)Qdk08r}ur3t_p$}Te{R%v%GDZ76Iai6#hN=~aS
zi9A6D=u%ZM<|^QA`T;VdVCOR{0S5%3o&i=)9bF438bCXxs9D|&JSGMR-(6jp`fz^B
zBYo>OMZZxO|C=&F04g^rgE_d2>8J^CcCvL+PX--aFwwKJz5!Ebpii_>o8De~b9cg^
zqT3eJf!+lWBgwcmCatvZp_wu!N5nPtiz5$ZnGtwOh|R=pfM7+~efhh2o#&BQ#I()B
zu+B0}xl?P@X8uz!s=VdQwlO#+AOEbp<Fyo3U&lcWN)~@S>jMH-fQ+10$rCU1K^r-f
zO8Ey;M@4{2k$4}<a@*`MTgu(j3Jl}Sj8gkE*+BBG2mS$PRFy7_=(PaMLG)Di8`#u<
z{s252jF?LmPbVXMLss4~X}!W~^uofQfOAThRkt$b{lYJ;nCIapkQjwvBV^BZbzP9o
zONoI|A}EcW|9-VkM9J`Z;iA4&kzB9p0m|wP^P=~#H(1sTH?jq6PjA=78s4r@jqY!x
zn~@6Q;um*pM>IU{B2#@!sMhDiyKi(X@jIQBU&^is@Rz>a8+ES*2E-qqyVO@pqH#WV
zyeWGGs}eqZDFX5WiMY8hd6Joa>DGK@u2yhE`~$aA?4G|^RzP-9jYx8ga|#I8);nU5
zZ1;+C_M;LOc=Pw3+>u0Z3O%t99Z)*!ie@An;!59|=WFq&70iGE*xZTs-INB%FBfXe
ziaDdXU1+_;V!orqPT1T}55g>$=V^<F6&l8QO7+sD2ozO%cB8lBR%kNz!37|`2PJlJ
z9;nnY&>9k=r9Rx~9ZSG{dO6vj)EE|GA9r3ykS58!ET!C;x=$x(C1b%yTIDc7bdRQ6
zA^S>JYlgXgzM<nH9qV(xpJSr#lI5!`=^#GBpHmSb_6kBe(~T8DChx^Hv!(6tuNTbR
zV;PJ2h|x`6w!U&1n0sv1?lhC#7)sT#)UQb@re~X5Bdb;`2?oYS_gI5k^Pnb7opiI@
zXV0Y?WSrbw58LONXyI`<!}Y=)I*sKX034WLU6hQ_9olimg-6ZI{2apx{|Yc$Xcleu
z62cavwQHRL)4F=VaEs+>-cq{-jfIX7Ne^TxOKbWe?O0QAj*uS}eWtaxo?&EUEF|WB
zqojnY^8=t0fixl?1%|wiGdXiAFCiMc%cRxKrKR5KV2##XF-_F>k9~7xfKI;6h6Tt+
zX~9h?7~!HRo(92rpYDglsu9Ahder=4ksu+c;OYJiBIq-DY#<weaEE`ZM?f9a&}a!f
z5ocVtEL|fONSHG-K;Y~E@dJ_3XP@YRK!lcL0+|>S89AR19R!DK-lHi4L<Ye%kkrBd
zin_Q^11@^9K7}mdS@<<*Hh`F^jHCA1A6fWlVvSAa2&dx)%yqOq;%{d0f!|AA>~1Fn
zODsQKa<oG#ujV}wBD!>nnB|3|v0xO}`wV`U9Fs=WxiavcLYov`+nVLF)Gxl)dUX;R
z!I*8Sv%vr)jIAIFlow6G1?UE@BG?s2sAE8hqcC<^9;~Z{nQnbkn0-W7#IsxC_{3vb
z7Xqnea?)=`chTQ?4kJ1RzD{6l>jHLKK)>xqSnAA8yJ1do2kZ_|x;<@T1)3WvW|CVw
zZXaX}-yLBh6cWr1nfg4<AJfStEA3WG`(qnDESxlPS9xi$F)w|MOVDdyF`HOERe5<H
zo3v;O^Z5-ur|HyZ<CiezzpK+;<K21zvi@^+EvRo^P{uIF5AB)ZZeyS6pVd}>pU%pw
zit=^P3X|qf*`8p;0s9n(wT@Ou?GMy<6dpd~|0hCB0t4sJ&<siBzn2GMfX|T5p({`n
zJSy;3>rcfWwaa`ei1)eWn|80!N(a<DG0_#_?|uG=7(9J#aEMI8-n;@D0Z)E5cJ;Tn
zt0^guK9?y-A<>5sXR{Pg(@|58S<uVrR~ww;HGih{SOtMOJ^zobw~VUt3*Uqf-6h>6
z-6192-7S*RN_V$(Nq2XLfOI#K64EWGv^31-|9jUvv)0Ua7aTdyv-f>p`PC19H<jgu
zp~r@BwL;B+{55R&Ud?G{N(BQ00}w$6#Nfyd0t;}n0B8mM)o^LBiDGr9WM3jFkaXd4
zKnFAmCz-Ghfs^-1=QRkRY6nR3K3RUn>QsY%bx0a8%mLVyZtUO$Opi!u;g#W%pt%$i
z7guUk(Lq`|HUL(C7dCn_i~q}I092a$3uJ?3s>)7JUj}9|ND*wRaA?7_+ttwmc<f(G
z&bj$Lt0m;ccZh#&G6jNvO&ORAO+(jmc#v8yyt)n5^Lib$pD;HL)Ir$m8Bj%uhDjgt
zK1_l3dV&;(@_NptHt;AUP|KJ`#)&-XLI_Ajja0jV>?Tt)(E1l=l_a3gi~byO>Q}&6
ziCM`PegjYbi@~Y4w-*e1;)JobHgjwNtOk#hyc;*Sw=<3FM@SxKo^@ie;O+|XE5d(z
zy6%3FoPs-!n_hvAbLGUc9J-(E#(KHI93;r);a_V+(|pTO!1tXz1xbJdAfS>``Ywrq
zqDLAZB-zXjf-~fOoiWr!Hp7slMF&R(e_xilyiFW|EZ!`P+RYe<z&p$kbN%;Q50ZE$
z2>4jAH{b828a*9V)}}2Q1QY(8_zP^sVWFWw2`y<QX!QP65Nso192&;pT6JKCu?Nx?
zZgPmU$q-#=9t+I6ua=16-g7xLd^a#f8MBAlvI#OvmL-+={#&+$)O~y>YK;n_I6ZE0
zBg#JuKNPEzpp@liWhp|$3RTHuK3|OLoV>1m-|hwg*9jEV&|g3#nUj<R3Sl_zKoDFF
zj`#+@7N~Sw2H2F6mmmvS++TDIjFb6tZ0D@6({A#IAW2qH5p^m=KK-dlHVu1?{u6MQ
z^66%=`^u-6i5cyv*P%wp)qw>FsH0$d(h|`7Qn$7Cr?M43+srK&he_fDt+8|J?dm{Q
z!jF4Kccc_jm~Vmd+6k#Bkb4W9d}X{qO=^>0{7N<f?s&#Mnnoae2b|EoiMj!fh(K0i
zbXG^%21bJ_q1Aka`uP8pes1gpX=}IT<#z{Ieym1Q!<C~N0|@B5o^&4J82Nj>!JcMA
zx)fWJnaMi3o~53x7(0~I63covL(#wM*vE_H^k!yY#XW)74+J1IH9?;+5AO9BN7!Zz
zGjHnm!|l-tQ--&wC@Jl&>;ibtDCIv}zv2hQczI(4l2_RMI?z1>(%|r_`6o%}I18o@
zQ5n;>s*!BTj9OHyl(IA*^?_p)f@+J^ld$(vTF<Ci#_n}_2pA8LTauEN8K6j!(nvuc
zNEE>kc@w9a=v0<O5c@ksL(=bWB{Skz#MNJ~lt*LT{)*qoen4Uobtfy8{Czan2pbhI
z8VrvH4FiKD4T>D!LA#4-xNji_ex$tqYyuMwXw9&JhLulfxu7mf{<ka)Qi(Y)bb(gf
z#uk0x*B0AFJKzv>+6em%(2`xMqrnQ0sZkDL&u51ckoE>{nJtnkd5Eu`VQC&!;EdI3
zvn{@Mg?2U3sRJl(m#02wRVx@!VC$R*5Z7{792w<M@?;G=DHh{VATL;v;Q~6{Cx*`@
zn{<EEJq491Z2eDm3A7;)Z{We3o%RUk5Uv(sLX=fhEZHGFiu5%>0g>zkt9{1C85*2d
z&<dE!KmcyLPyx3;%0mDmh|rk_URQ&1beNt;TxveF5)33`S3Mzb0Hn2T(Ay#t6qEa$
zLJ3Q{9TeayI>3`P?-&x6p^8|T1Bv;-1u8IIw~fx5mDxf*HtW-YB{ZA{ZBEi#yN@(L
z>gl-q=@|4=LnsJqG7^P>>5sr3oSPGz`}owkZ2&<~_8?Y)R=dBwb^SHFw-YB)l1|SL
zLS^ag=F8N82?(0OTnlmI88o`9{sMZ;v^cE_&0ePMOIc~RXbFilt5zcBXrc7^8?=rA
z5c2s8Jvt119=fFvDMf}!&p0gA7N~@Uq28kWP=}t6OavLo;P}0n0EY_4oLa!EP5&fV
z8MuI7!t*=KZ)UHeq1uEh^#abpiyE^=p*1E5V*W~K(H6kyUJVXkz?(5oAxLa36F{00
zgp1$v)q@b^{Eg{pRidb?)AVReL8NsUavDhV;#!yQ+hIceB~?S}^8b82F1IR}?Q5<V
z7QJoG=<K+b&L=-HF(`mf7Eb+l4Ds!?SN4en3fas@H|YKWRa%Xi!w0@`6{FybIfd!H
zvs7S19fS#>NqSvE2~QJ7D~=1H^`Tt9`?>K1&pnobKt)#21dar(e?U!X4bBV6ELh$w
zngD77s?(#NEo@R)BYxn_?qP(&%r^n|7ym0_ViYl`6v>Ma?E!}nTO3(t*^jSju$9$t
z&I+ocek8r-qlTK{5A_!Gqrl*Ih%B4;e)mhzwcJ5d6Q`FupDs&|1c?s&5?c%~1|;xS
zt}VceFKw6Ng+oKdYbXlG`RxRD6FUG39@?EszbBY|o(?j{4ZRA6BycdMoNynEBv7kH
zt|B@ifVh@33==Ehc<{T(+~|0^JJwzDMJrv!qJpJ6XVoZ~03|B)@pirdW2)4tRen&C
z+LS4lPbS!49|fA<db-Z|j11)X8(3p#)6=xmjPC1a%?efw;QxAfp8uKI{rq^6t{2UE
zvQ<6$2w~sjYJ{lKq6kf;6$wZqI`dOd7{8RDbI?8k!)KqBNe<^xj{lP<!~^_=P?ZD5
zc6b>IXGS&y3!i}3%<pnWX2N$Y^=(Q3_Ar#$5SMfO4k%nUW#>8}=y_u^pJx-s3Oiy|
z^r359<I$Mkt1kvq^QDVDY-?-Fs*Ghgd8HGI;C7+bZ?MSt<6MfkHj@?Pp?%{K{d&;A
zYznY0_|cLG4;b`MtIpq{nh2mi0YEMEU4T?Q!4&d!I27rTGx>+WXKT12%OHq1u=JX*
zC%_%tg7n4+11AKsu%a^1RSgRd-*wuD@(@Lo6o4|w5>Tl42i(?ykB9vX9eCN|F*leN
z<ci8sbu7XN=71p*+J9qN&tBb==Avp~K+=f{z9i-_wqjQg;@>Bvts^k~s02v^qlGZ6
zI%KGYM?lupw*c?D;pdf3t1%A-n6oWoekF>xUx5NX^@GX)$f_0}DeG;01$jCUd5-9N
z+2!xI)P0Wf#&?*3{NVo-6TT2=XW=&%V8<TdfGvkL1fFG{bVbRJFNrGk8LLpV4>V6O
z8b|>k=#8Q>4~aykOk7prkOU78KHLw)*iO?rvW!SF%Nipzs)aJw($oNXW)^TpPn&Cn
z_Qb}gCNjjdf>-vFm8rY;Dh^yY%FAU7yYI&&(f4MV>KG_eSH=vn<Y_}_?j(7qaSUGX
zQxknD#pGA0YhO>rM9JZI9_pmWI>>$>3X#hA)iu8i6Oerr70SK{IHh`A6Z(3#q_@CP
z2&koR$4Co#A|^~{RKoznuXEVy1H)n=q}1vSY=hIDJOt8g&HNj!06Wq26Foj37V9AM
zyetJe*Yt+~SnpSj1-Kg#zkVUU!W0dr3MrMWgkX>=b;2%}$#;8K(#4^?I_yXFLcEt9
zq=TR=LJ0!2GvUpjmje_MZGG$~5BUhf7El%T5g`Tzl1Q}7ji}mC_IWtVPU$8?ho)aS
z^$+c&UuOO&rjDYnC&ur`pMJs}g=wLF3>!uOr}@;|6ZU8fQh^XoP~@Cjxvff$W*(4$
z%4n7*CU3kRPbopL?&s&nhdq@TMkr~hPpMMPWkq=FK_Hvhd-A@S7ed{AJ88cTJnT0y
zC2ghd_-FySUPlZQ(0!jax=1I6+_zFWxwz6@fPMN1qysw7^IDkk`t(_7oxV)JpJlU;
z<k7Mg$e&ITmZ<_GV7TU}meWX&w*;+eF94+A#Lh(@9(sn6<^nDO)~iLD3>7YGHtcFZ
z-hjknPM!gZY37S0Cy;X<Wm2w_^4S=9e+Lkmaa@u@vkx!v#GVCo#U?^`sp14kAP&Ef
zM2~En1xG5E^BNGL!jG344vQdgs5`ZmRsLkI6vKh(DdulL%^B{EVbbuyv@|^KMtL~Y
zrY5g;9{p_u>^LAzNUHT)>|(A9Q`dBij$bsfeR<nd2CK7k$?v1mxrL2vcUjZZ$FfH&
zbuOHp{a>4Fr(A4H$;d}izrC+Xf|n4}CwkIgD2?|mdP7O{%~3)Rm-!y%cw0S3Ny8Aw
zWiK*Ls#}UR?eToi=i8=V5CyAtbnzFuKOn8CO8bw@Pj7VMG4Av%Iu!xs+<zo=B2o?=
zu(&rL+SHw0DFT|-mseC-O<=P?pa$7B&ugD#eAw-yy;Rj}*l!O(#X!6Z-nY}}))-?N
z0P11Zfi%n)_pHrg4caCa&dbHXqTdu>95+EjMX4weK9NP)5D^iPV9+q=2$l?_bM0Eg
zHLyvWQk0}9tldNgG?)%XiWZVMmJv5_fj+9cG<%BeBnAz{KG8h@u4A&=x(D!&Yr-xd
zwh8{=<>XIgGeYOV47Rxze`B(b?JTha{1iMa860NtVvYYKX~c+?`2Nz2j*bS@mt?kY
z(uV&Au^&QULNDv-6u^KC8DV1fe~~=xfe&;7k9+SFsO0TCTCrPDb`9hx1&SvRxwW7;
z(J%fcIsu;xGI&1S0l>-_6IEdhz;IW8ex@R(#ius1v#;e>2ko;}E2yZ@#fQd&Pz6Pa
z9?By)CrOiUiN-{A`EwlBVAkLZ^<qbT{98@tD9G_`_2&#x<#-{cJp|tOB{Xx?UJ=xR
zhISP27`>lgDN!O0gWZ{a#Bqi#G3^oMY~V{L6yw~#0(u+5gE~UVVRr~TCoEzd2|v}(
zDG)mTY-;Rb?<MA{$O@%1ALcoY`N0>=fI!?u5b_toEJFNgwH2%A!(aA*Gh7c;>3NVq
zUku`*KO_;4Kqw_+7ziHD!$XGW|G{t4<#=o_TjoCA?8KcZ8&|ufU*n+#$f=Cp5YC&G
z^kfYnG)1++OYP{s?p(7QzG>7X1kv4K*Givfy;2KD!lr#Vi}Nq4M|bsya==*}?zW1$
zs)J8sWETMp2-u~VQR&C<XFh-cb8ctAfqDqmU36Zro5_O`>&S#U(?R46IcOlv12KPU
zUdV=nT&fIZDsBu)7EJ#Wr!ex#=b`%Znj|~=dQUNH?iR|Qpuj+zEdF(%2Ws0=LE_Hs
zii(adO06d*GHiE4YoUl|*4iZAD@V?VyY~W4&^EWzVob!vJ;#(6iFqi5&ii^F)SP#I
zh+v_j^1j$ND4gL<;#>lvbFfvB;+kg*yaDB2tgT%d-;&nkNE$8Q;j=bPWtDdvB5Hp5
zHL{UL0B(V{b~o@~+QdeUv-m{jt)K0<sVk=^y8hA6mpj2@Jl}&n`3CLBDF=dRHpzEe
zTdJ#tj}d5hYxUGE_C^{mP1UD4P7G(&=jTO^I}P95d7JI+K~9_vAmS^{mzZ_)I(}F!
zFlO@f<Xr=NLGDWf0UgLf0S~U1`}4nJhHLqNFJPqu<as6%q*XK;c%S(ATETt@R`ve+
zoiA;>j{G^LW1u(8e#29WYVl109F=-au)%U$Jjh6O!gcPZE*@voec`t;AQs_V9J@2B
z(1&0aeQBm2kbsp4$-%@@m6v_pVg(Wq#W$t6Ewo!o6Y;09&oB`a6Q=RpOwZXTM_hqq
zJXIijM620G%ZVe^z(#UU^%`g4FY0M%Pt+y54H(GBlNexNZS0q6_5c|aAev_29j{n$
z1U_ltWFI_)MP?PoC{jwu32VC$qgq0xp{G;P!qa`mfsHV~%hkH{?#RJC--jT$%msAl
zO~0kVJRL>DOl5=6I)dDSeR1a?DfY0k3<#;MM4LLT(vG*NXb<2HlxVRD)sVQL=?+l~
zq3gd3U6W7*ULj7;<j%@QYdP8kpuqtg&_?q_eaF?{oye7(anL@v*TLF{%m^VcI1185
zhKfM?!JwgmLGSf=wJ0T&Re~e+W#;n=s5-Xyi|3s?I>+1wYKqmDG_xR%7Z5#!-SLB}
z=YAXY`5gQyjO%pw-%?S7J59TZG4wy+uV5A?&KWJIo9YS03}qZGnlE-5Hlt8XqmWXh
z_-D3EF6Zt;AoGu6o3IUlDP-{4KY>KXKINnx^d7|K>%$o{a9c%du~ur*K~PsX<hPoj
zU5AZrWF+=EL0!|3^`^gUo%I}T+|~hl&k{1S`Qa?RW`Rvy>1#nr7~@aa%&99>^F!Va
z9{`3K-zEsVrD+t%1Lln0U<A+^_=c7iUPZj!zz`BW6X59%DPe<XuJqx{5@4$dx7E=V
zWmMbwV({$zO$*yCzD}P3g)fDaK5YeE<B?xqLJL3?_?O4dkaT|WS~Z4?3~TR)8%MQd
z)6o$u+N+l#q1U%7G93@=E?kZQutM)HS3osDG<i=2nR@`Ch({3=4E$!unP4=bK<Lm{
zn}s8gA^b-#NOd7*$IS}=DINv+?{Tt@VS@LJhm=oY3;H*~{r`*s^Yaft>0$5<1Py%8
zwEQ#O+v@F}qvGy;tPMqGcc^M!yS6v}33Doig<trD;9!?;IC>ORfA%WBb>CN~4Kb^y
zXPC4&2**l!W9y`x>jqTs)ETFv>>2FdQ`ycwx5ZE;UKC4jUB`M44!&8V-iWy@{kV|C
z8U-|*nAp&dYOXI|$XPOHx-T1YjfTq9@NNLfxd!I4C*TygBht5<llBaKB`vxDl-huK
z0J_7d$cC9Xko-FRD;nWdi+wH<JGqG6fzfqB58{Uq(J2v<Z|`J%o;nhH%o5O2xoX}T
z<g{)&(Ev>>P3jupZflqUtGtaYg(|4+druo5t#fcEuFE81=^PUb$EOf7+HC;$>eVY+
z;C+KRwtEl}`|q`;{a})axf&o4qU~T0wwukZmzeUb=~7_T@M&582rC4{;^uY`P{64C
zTY<CST|<2KY<P6<2zY@&?Zj%i@K<?FWFx48>y;51ZE6klExszLk1}b+YE&E?o={(b
zwD=ZxtlX}*FXV-UPavVh7b8BSp)pWD`DjIDLU_hIia7Fm`h{L+K)O0b@d)|qj-r<L
zac|EsR$^@ihn&N1m2Y_wp+&s@kmAfJ?9TLqh=@p#a^oF6X+GWLat*R9k|y?a@b!nq
zq#|pG;29MI>CsO~L{M?{ldjG971arV<cQS=5wP}yB!H$F>?F+(WMb|C4W}aPDmYQ-
ze8OIlH#yOKZ&0K3MnFm_SBB!P3stx>zL~oF6=E0vVLq9bF_R#zmTkB8;d!_u<feJi
zFqnzrGhpx)bA{heFPcHsshFU$E6XR*LqS`2V~_U3^<+ML=r=YV;Pkp3r+5bU?-(-*
z5|RlHhaK3g2I-*-2wtHw!V4C2oOGN(#uIg>lbF%3$k@!{paWUu3n>lWrk_XCCw-o1
z^8w+Dlpx@!CWqJF5L~1tPGgqRc`*1E1ZgRM)j}`J5T>^g(j37TceGSbUAXwz!h#m?
z3_uT*sNQu&2TgIUjNc{Y7`^Ts&LRMbv&{9yYku=nKugRd?GJ!ObiaN~SIE8r_Y{o0
zdAC;y*(Ewu0V;zv79{%FakUM`0Hlq3>IUq0fN)tpX+_DOX9YO2bDN`}mkz{YivQak
z@K@*jH*B)){IW!1V)k@TxU}DS747cs0zls>g-p!Zf|n<M^ah)8Fq%L$p13!P^BAxo
zF_vaOx-X{Q!t!p%uCnwP_nd4Qp3loTCjjhM?ALB`EI=Zkqu9D+qf}o8uS+;cG<F{M
zw`e~A)D4cB`AajCipfW-$Y*sk2bOR@ES2W^$(yc5JzeP4zsQE4g!<-N$>}`Vpv-OO
zM|8V|Kexj7Rq1?Z_wz~lo;+G#-v&ZTne|M^CtacYMXjyMZtq;lqutMo)X|M4_$M04
zgpzdH`na+L+$NqDbW-fQC(R-^y0S6o3*N$6Scp@=CAr<Z1-f;k#do=}kXMTy0@FZJ
ze2TUxbSzh+{ptu^szKK6ID>8!(XHQ^=~GYOKDe3zbXnR2ZT`I!I<oIT&g&{%9kIB$
z)Zc$vg3pQ@FHKQiD(`nTIjWHS{d%VZkJg$QVf;=7+{)E)X$S78&DE)>2x4`~hlV`(
zA9=bqMFJTCp62$9M6Um;8Zc7+Nx&H0T(9yY=w$x;6O(rLSKS}e<;(l*Vto1-3|A9w
zy&z?1B4D>^z)g8j7ll5ef#LzGy<WW}(0v9pCKkGBQh4vZS$H4BKtGs>?}{>O29L7^
z4=QS&-D=ugT|OlzXJ((Zf@=Kv7!}S^8y7DH5OQzk$poeaMezvndAZ<?sZy`ZB1Z>%
z`Se!o5^?nP>54O5|Lv#y92$z%;n+!WG_<u7*!BbSile+O9&6S)kOF5yXG3q~O?V}X
zrefAhe6p!=5bP&$a|;V6rPq<uEn<%<@&6%DgnJ>;JX(lTDXj02Pf-auC8-2W8-Usb
zVm(1vpkA;GC_2vUtfO&zB;M<j4V6>LtQLnYalI%73iN?jjjt#<Fe3ilh(n7nc@LIo
zHUS5fL##vArJ_Ou_UWiz36-w!$0hbp#kuTcP%k}z5fg|KFETx7+K%r+#z-{w6(?V_
zUls-%pstzud=tmcI-?*f?eqI-HWvD-n5{LSq(T)-x~Chn=+(%6Iom-|@g@S6f3C1^
z___I;JPX~A4X(%9(zwbYtwzCePFQ`W<mFSI2kWi7RCh({1uA`ZU30KRvJOZgUlK&W
zXzvUn3e+03iF<T{lA#Bpu?tdjD+;(i@g}07p=&HfvjdQ600##*+SsLzRn=uSjDAPz
z<){;P0%j$1_QTkd4GMz-igl-o%iqh`OQ&t<&xWQNEhrWrC34tb`J#<+rlpg*JOc3$
zfet{1CmLP^PxmNz%r~GdBo8Mq%2N|a3<NTg6fNfi+>F&k$G?Ba=o)Lk|K-(Ie!rh-
z&pC0^7jV!Aj-qjp_6pLM_g;q$+@!)rGd;j-z^D8LA<)!c^z*3M<LU)W`a(d6VJA@S
z@ZlXLKh{{idHDC^oju1_YdC6Ew<W4hHxb|v#(oKP!Vta*h~g~;4R?R?i&QA7Q=M0d
zz6k;9|9mIGt=PTHR{B(=w&NUmEIzS(QV>*;JPi(5a>j!ET&J*64rT^N>hB=(AAo%6
zIhYhR4Il#Ci7guz=jA+C3{=U3EfI-L61QR?eO<{@<^_0SoROq~{T{lmSbqi$O;b&F
z0+2bWGHhar+E;~8T8=KEMoplCk+Cqy*1o{&_l4A6LMD&6YRa9Y`5u}lE$f5Ft5wo<
z7=LAn)AxLlRaMNlG0~=kluMucHvFG`@1V2Kyr=o_dSW&!f4$WuRUyE_3dHWOxZ$WM
zRNu_qlJPe3`bEPS855)A?oHXj8rS_ls$sa6Au0b_MuQS^yXep`{hpOhZ(M{R5is8a
zvs|d0;9Q#l&|GMBdffp>(G4nQ(>q=>5P<@zwiHOUy*kRO(3-<%X&8ga1$2n;vmngo
zmbYe->q^saY`Wh-@sCPsv)-)W`S`m^Z+RMh6j%eUkIYv(Gh6#yuWbBWnqtKFCmXeE
zvdC~g02T05cf788A}LxRc_g%?$!q$kfrqzFMdsggI+B?_nU9zF-kQ@+`|U{g0?i_h
z`1(vC%gl^+(3=VZ?h!>bn@+vcA{lH*wd=7HC>Hzcfk9}Bj><jjqY2mf^^*p;;I_7s
zEMT;^{(<o;3ZLn?bFpev?7Q8XB0W3EMH2FT5`Y>^Z~}?a^u9fi&;^E+S3N7!s?NY;
z3Or!kk$5ccZ88P<qfXcv>wr8fW(DkBclVY}AJaX-%zyUv6F-65Q1r(tATxN*?YxJy
zR0v`V3A@vNpICjH{@VFqed6_(U5i=lFKJfHYBK}SR?(&rxNr=NlR?OMqIDXu){IiH
z<+E6@3{({IGD!s#O7UJ^CkLw=`nkV9Uh`833?rpI3g7d87q<1^^W8Xk?0S5<)<1rC
zYi02MtJU-0cIRemM4vGhFB3!+BI>bIr0<Bqf7dQHJWEL+QISkFBS*`Po3U>-nYp>k
z9|x%*G^)n$SUN9{lD~5WBj6*lcP<WSYrtQ3{nKYq^1JDOr10zs=;JVp{GxJ#kEiW?
z@~f1*<EWxaDoS3bnsG5Ha;`Krn)KZSy`lLy|G@{Vu}z{XRgP8KxdJJaaqlXXOH|L}
zZr64E`dWP>&sRDd3@MixH%!v<APiq(!vIv)+<bq2P}x{Z`O9H8bmNBD9e+plQen?m
znmo<UVkBE$oBVtO+57-iz==B=A5y~DMUQn0QdCes$ZIJfL1<Z6W69|mRiM8$)C1+w
z*cQ-SVmmQ^ne=90o<0Jr5WrcBT}o154;{Y9{Gj;+_WCad@;{1GlqLQdk&4ia$n4uJ
z!KIoezJDHDDoRdd`IWaEwJ|RMT`?Nh{L5CIk)f1Cz{P4Ze@?iWrkH9S{byy4=YIOP
zxnFSj2Gb4Z3fA=Ad+o1&fXXIFgaeH8m>d@i<Q{C1=hEld-+|b22C=L8HBBl;-}kL(
zOgjc<<|K|_LkaA#;Gb`-<i_IMIRkza;3<DLdiqedm7;bunn@Yctb)sw{n{_*B)y27
z8r7gxHrWelvJyiG65-YMnM~wM%6An=^s;4izyKiG@mWQMypTlpVu{{VfTR;DD3=J>
z{8v1hOfhgJAQpIG0Eb6>I}m{k^R-1~8Q=56g%bV4#~Ksj*Jc?#3Y34M*t2RBW%-~`
z415`oJA{4j(o_X-Q$VUzS)_aCIT_rRKvX}71Xohg2-EHgfJ>I+1_LoBlc^HZ#UlRK
z+v9My_ms$9q>?UagjpIV`Jc%EQusb#;mE_<X0|9oPw`9tV}tg)q=9s(KL5M9+&&&L
zvI?EyMdRZcN%YdLNjt+mAyy&4!R7G{+I8LTH%<vejbh^a2T7!;N2eYZ5_B!>1N)8d
zi~YV6Y;v@P`m5esq4+$&W}5W|?M`!8L@g9yobYVhW6qU}!*QA4n}u|%%@MFwzX6QP
zTzWS)mMGFWRBRH(oYo1bEzl7&Cnh7W&*SP20{tq=KAhu({q5`NGv%wI>u?;z)v-#k
ztk`*{AZhH;)F3FgGT&sa@yQ7V^0iA3X4&fTnhj#nP~!FPH_}w7($d)$C^X=8AWE_z
zG$PgW_`>^7Wt@ZcDjD8)ol2PIj%w1qX*9DzowRt>%NAW&uZ<Jhcyr5WK9F5wd|{qq
z$ocyu<n^1GYYW#>WlwygtlJ@C*N00U7ps|NOH0KZ0}?+KGQPSzvEX2jS3EG9lJ2L*
z$=wi(r8+8Z*Y84}r8!=hoIr(EhO&w{1gfY)c#Y*`ARcoik#xDtr({3+lz-0`NV%Y$
zCNT^`Fw(m()sbiiK0EIx@z^9S=S!eVG(mo{ub=OkLkKwYWyYpY8^#+*!~){^24QPF
z{(=E?if`$gs|#D@y8m@Ms;Yp$->*+CQq}pK*@j-$c$ZS{;n%kZQE7rE;%DDn_k4g6
zqJ$a&eZJEjr+TG%9I8h)Zj|Mng_+Y>meUy2?sBOL)Uy?Ad5x}`+v5ASmW`ZtSKHzt
zsEWU$!U~-{c2&dyi?wVgOB_1EKCXModRg%Ko<pJp8|$5g!_Uw++SLt4p2e`sUu}{v
z_A|{_XY<71e~|Ll$eyfUA88qf*LDlvtN1(B>1HbKug^cBBf;}fVcs>(p-0k;T_i%@
zH60d0uptN8sl9<p86TWZ^29>D7R|2zdU{{`aU&NOFNDn^I?bf8;J$U!RNtv;MCbXG
zvDR$6UL-dYhaPqx=Rd(MK+Ky$$Lb>DahiAXCdzF)f-JEItaSPZDneJ9D6Q83!dbNk
zTpkb#E(}C`j-Ek&UNVb&@4BEhrn_DYyI%Q<2ck|Rh;n+^Z8PVTCGT7PFiZ}Cp^T3h
zE6Rt0o+Ob01a_FWZ|{gwKb))f89;kN6=<-p8);S&-eiQNjg>O?@p%5j^2<Qu`(vvZ
zRD*A1k=Q2bIY1xS?-3#R#(*<>sfm9Cw26TH_ooQUz&@#&1_`6A@?28szE4hF1{z*T
zv!ULI4AMeyeRfbCNr^{VgYBnhFvGMPwc{;-(XsG8zfBL(98%$#r3md0Ejc$Et=#fp
z!DDE(z~!Rvp!+nqMKZ-dx=3P^B?6#rJHEq@EDC{@6*oag?0-j(ex;_n$Yx<Hj~~#P
z{Mh_Pz0v0dixkKx=u;m<F5(AbzNZyFgvntE!?{uoGxvYox_&<lw*Xj9W8BTacR`dN
z5AM}F?&|~Ox*l3-b3pedKc60-9;_s(pM=*6Qo=`RD-vi1>Jhlax-1T}FykK?$&^{4
zcsi!ZId@v5!fFfpVnXjLne4Q9o0GBr-0#S|Lm-`iqs;a}yO;?lV=!y5GRoYVcckjL
zntIlz#7k%Hy6@K?wjP^{KTko&P2bdrWU$`;9Y+p#umOm9#ylnNvPif<wGv|c7k&Td
zWSQ<!?8v7TOAA+K6F6la#;lzTVw7sW&kML`&S}x;=BR{`JbV3n$B}yCZ3*eZ#mSCx
z$_9spGD-}J5@z^eg?#HMnu6?;y<o@G+a=ZXxV!wdVq(Ug8@4qb1if{p3^GU6)W<a!
zGU^+9BB_)w%Hz3`Tx*=H`FV=FX7j$klWbqYZlW^a{;^)g!OQy%8<*Krj!D&49%}aM
zrzyZCaX`WZY!`oE)x7_<o9*v6v_0q#Z;X2kySdemvSs=Tf?t5|5NhmwIr4d0>ul;>
z87ibO)$dVQK+a0ec7_V!gvCJDZ6{{=@g9Gy?fjzhXHx`g;Cff*cH2Q@&#RjRoK;Ut
z)+ZAp0pFu?Xqw{J84D;6?fV&3hMnhc%Fd2!qLg3j3)d4u;J@VQzddytjzw-hdPtNB
zOEt_uT4*(2sNifJ{7_q2I|W^dtcwI(X2uJ>7LyH7j8v1O<<LiY33lZ%WUrXLZuio`
zMDcM=KhUqYTYshPut1TAs5Ls8QU07V2mrs#)svYzD_y=dY9r&71zaixKl-8Adxkm%
zYnL7BFTZ}mo#$y?Yd?UIjbXRh9@t)PRG@gIN&R3=zEJ7<{OF14GFNgqP`j1J-#9=l
zIMENEuo2*E<NtYJ#P3vWugRL`)6f0wpX;3$Q0#?$C$vZq>HQcYDa$JivS_!@Jlkl*
z78AM82ccfe4GqUN<Jv8>cT?48ohI|jLRZFu(=+%3M+<wv%;2Zch4P+g6_ht*+I?e4
zfXyIHG1};k<+YkN2Bt2s$-#WnzRK|6LV@^9@gE4D_P}h(d}3&k{@eZR7dly+ap-nT
z>b~x22?Ut4yp29v#a-G@I~V~NbPH$2ZKM3@gfxo@^r^$V6*S3@jeLLS95VHeESn_>
z|L6=PCeCONWfGGI=86P|{8f*8YEdxv(by<mc+L0Y+PA^%&9?F8Zc&4Oie%tC20B}=
zQfJeHIn9LjhE1TQx^P8oM9aS_)JA5SvRDeOvy#a-j)T)WW2k6q8HhO*y5c(wjVgn?
ziNkrYrEq8>7qh(wg4zeLRS!4RvBw6-nrz{@t}aP1F0eCFRFJ+d0|tFK?=Ki+Qx8Ws
z2i@QI<C{pv)s3vD4_E+YZrErMQ(h13Wx(+AddiCi_5zhe*Wsko^KfrLN8#9KLJ?fo
z5v#l#(W+?rt1cS<CV3AwW9FUCXr^O`Eh(59hfO0g`dDSk_iPG$bMnuZ>Ib2ey{=gU
zL{EpXWWV})a}Qs6jM891Qj;_>2vnDf<nYiONhv-j$yc0DaD@uLIeF_c658$x&Hi!d
z<2PABm(N}Ve2~*XnB-H8D>#@LisJz6rQj+dFG=?FqMKn!LKYDFB)9@W-3W5<7dtuM
zQ?tFl*0HHJA19d?a<Nj|8A=C_3f`Y(K;DCXWpw<MMFtdnX=InbSqNTR8?BB~K5*`&
zu*GlAI=iCqlF^7X4~=jl;fG_GEZ*)GVwm-Av9yrj1@PK2Uo)(gD6{NCnGL(y%yp~e
z2GzlKJ-RjVU!btzs0BYK@Dw5ZBxt5x`B^;X*p<P<vND5gPwbL&uw>FNyyb-#wH=9T
zF2C-qlGFPpiKsRrH(x59R;j>w=f+4^J(!<b8YkaWS+)rhAce1t{=9#nbA4iT(@*~Q
zWS$|;^v!3;O)r87e9zWYGq{gRvck%vdAlJ)K=45XLX)@AR1}j&U%)&dx(MlAG;l_n
zZa!xMVxb$Z?}A(gw4I<r9gM&0APe|c6jb-Ax)IYeK0?4;VoFmH4U4thxKYHs4$-CO
zIGEO7(sqFD8W@+Vjk>%3ng8>E`7El<wv--?jMS^+e<QK~dwFK4qupIc9Go-A&}K!5
z6rjg|D|s<C#lDrYT_LqYfLtkLjI~>^(*HSVb@dRTp#5YD&WuSXg}M^oh#9>oQnopa
zSOe0kl!+LSPhk`E*Z5USi!FXO)X;@25>K#UvnmH?5$^nD&^9jaOv=phqRt_Tuh5yK
zpR_bCkKGcx^HB7NsLdQKfA^X6@(hIC9+jL7>eTy0tH~+>_-mp3-d?Xpr*kR9|LpQj
z);A+nf8Sg|veT<D8T1Z<s+Y>l@OD+j?PFjP37@$<Qh&dpX;s%zMI1yI3SNAg^ev+p
z8_^|$z^7$S?}MpB?OhqNh$#s9U$V`rstPC=WZjBp9YY4B7AiUzcCvl)>S|pzVHc}>
zKN!db@u1B%OSV?`LC)bvPfiGz>h1iKX?f(ovpXv;OQG|Hp1@F_;>iT+C=&dTl}r8h
zuYw<AXlEIjY(@EWzNcfyBoG9&Z=s$R#_j72e;4RG8d4jHK&JeVSMD{ZG=n=cDq?W5
z)_&b}{}-$<dP^vcjKcLeeub!S=l>lq+MjI?F1~kv4=^T8u3+H#fVbPKk3{4*uzurt
zz6*+SPJsqB7H#?E`1@(sUj483$oe)&4$M2&5M>4Z+5aAe;q?D`4x$tvL3_%pOEB#e
zua-Mr1~~`d9r|9cMb?`|z56=RYw!BL66=p_^l;yhEL*2$K~c9!W+jeTDLu*-^LzcU
z9!H{RgXRj<k^J%i?lM$4XsOBVEYV~KqOqVRu%e!PV_FoO;J49q@xmOSnnl7ca2`jL
z4~`)+AHvs9Jv@%)LN6#BCjWjt3uh=5osq%K@QvYG#eb}CHeL~!EcT-bu^C{x#hS@5
zhReRq4Ze5Z3;Zb-jBMY|A~SCM#^80wr+0fnaK#S3tF5M;#(heejPMw&1EXVt7mE4c
z^03;@q;2MAmhTULsrrmuoMLnqb{*uhnXc8DgzoJv#By6F?!Eb_i?uI!kagI#tekzG
z_OKc332H0{mcV@5rIdB2j7Qc}v&9Jft0+(+uS?h~#mwwj|3wWwRy7t-Zhis#(#S%X
zXd~}>8XDX3pupev9j(95#~YjAwM!Kl!1G&ZzY!!r{o(irGHo~&S#UWFJPvX)hH#nB
z&6ZEXj!>BWBCGq|<*TH(t~MNyALDmdd(fL*_XXq{ZYMQ9|CYsLRF_UEEvI1nRYXYt
z?3>?^6m5YU&c=~q(7}5f&#uuJXng~Cej~O6%Q8?>zd&Le${E~9k6i#?#{}i}T>)-@
zegljzSiaVPn;sb@@D7BNyaVBnULchi&^=u{v2Xh>4i-B1Qr>}%Qq6+}IqO@h|L5c4
zVh~<MRv2d4f=;Lo+WH!gg&89C7ptTGnP|UC&fkDRIAYbq&h3E}=L6BHREXc4E%(5F
z!zf^gZ4@bJCOx|5egHk5%rwr9u_|R0K*$X(2wN=Z5R@@?gMx!Ke}5u#Z_E%4?;E*X
z)?}{WQhfb#<4CMFyW6`2xeSCCC}%t6my=n3XZ^L-4&f5HHkg?&pZU~M+fDWd8V!B1
zrkYsQ))dlpSTKRd;xu2-zuHFA)~4m@xzK1KHB#-%R^7`}!5P>oubipf;P3C^&9dUZ
z9pQ7d;JKZh+aEeP5ASqCg69OPi`p_4Xg8>~e%i+|UmeZTsEkX?FaGvADh~ocj%QDT
zfPe7xNw)jG>D9DfyBpTO3wF#sQ4dtHHw1q7n}ouPY%-vDPY)PYtdpQhq1)ZG`jnp#
zI?Fs(noJAfRk=8i2<|{Z3jY`)(OH|b0<T?_@mtN3X!g7S)@bk6E>V=rt(KX>!p^Q3
zk5+gwlx@}Sta7$2K}+RPaH@ddCt@!QQhkqM(l%53;n=ZyGivuU;?D?h6_u4BW5as?
zMTh5c1$-We-g%%3$PeU2AMzS(y);F~M3@7X82DLHGv9;$R1hD24CEYxJr%XO^;E0u
zZ-9go04W_nd_I~|vWLQO)qGwG#RqPU|4t1O%a`H7NPBajvNq-4u@0m^_MtCO^!V<$
zF+siOYky}_2#Hdrv^TX_!wOuYk#414<L^5E*`2t99gbGGpFZ<op<`*;y_pBWtl`sr
zneXgl?53~CwuLWMi;}xYuKUE}gozje{7L5LKeg<w`?{}F$N9|bEY<%CL@4MYnGv^=
z!Idp(A7}fnp1}Fy!@2_=WPyrmK|E67j?+k{g5$D;Onm?*&&Vi>ChN~pbIxaX#~OHl
zYQoTF=Se!N`1Aeg5yhDQUEc5QL34$aBoisE%kX3R3FLj%%+Zcs#pm-Lp=(J5Tw^I?
zeKV{H6+cQX<bHh*)W%d+7Hs&H&lzBDs1HhHw254~o8`>rhs|a+AXwYBEi&|}Ps>H)
zI8YVErMW7ryUrT@&hY5Puv+upWu?u0ylj#k(=Zy%WT!P>CF#0LtMX6>QkWM_9VX3|
zgrwC6nb|GLq{>dlK)yK^diJQ*K4&@h^aL&8N?t(vsmAK_c-oJ#2+C!F_%bUiYj={i
zp`n2X)MqK4|Ii*B90UZO_x+z1O2?(I027`B0%K5c|F)=PFNzU-gXGwd2cr#+m&^aZ
zukqnZ*0)&9Uk|EBqcp|k2uDbh=kczowls(FaDnML2&G`$7oV9P?o0Ey&sY2=;x`qD
zZBXL&B}z<Wyfq%XBL(j33`UK#UQOzM7;}%{+VYttKhD0kJ>5KH{yPvcgS#So^LSkt
z)nu!K#0D#DCM^dBvz}L6g&Qm8vAv7fXV(8Dmvn|zu+uor$ABq7<Y#d2D<?3O1N3Y%
zje~k`Cdc}=;AK1izi+G5WRKL63iplbr8>&TyZPFy<MA2mpI>KSQhwC1Y;^E9_gMP*
zf<5BtF<BM6-0dVs#7ea{1ZnUaJ#*F6c;(8sH_Z>FzMnP>Jx`4<5oxB^ixvF3{ou@o
z@$xsom0wVBl>L_J<#Y2)W$Dd!`MPL(f<<EmE_M<>uK4!{yuUFU0FMIk4d-VnOcnO)
z9sEp8Ojp58K4LEmf*JJx9<vnmV-1g((B#L@m~<U~ejRIBXWXdE7vyTJSXU{*!PlWS
ziP>q%%Ce%{y-RLrIO_Cf0>^;INoQnqbcMimm3+eNtSk*}@blySu~G4}MR_dE)nRGU
zvlogre{2!>UEGk;|Njf!QGEGL|KBUh_A>BsK=sHx@5Cf()z8<QN02WFKM@v@WeUj8
ztYNviiUiS$EzB3nB=zgLhm-_;*NCHyP#GT|x6O12;Q@2v9qtxB8CRMvjk<ylZFyv_
zVVV~=OYZAl`{u=T0UBnC+~Fl_o+~T;Sf=t??nA!BhX?TSD;pX`ZZ%CzOs=|owbIkK
zAFyfl<>amcVYCbxe&QT6@wSX@2zfI;Dm|4cpV6q)M@P@Q&8ok<VWcbd^C^Z?G6(Y6
zt(s&Tse<S;E#|A>LhJ>w@)fXN1@EZ#6(+Yab#$nZK^w7&XV*qXiI^Dp_@?u%CT?r}
zA^su2yCEEO!^-KVuOMs{d%<rWyRT4NR_3)>GbYeKik!E%!U$&;s+4`7yEuT$;BdL|
z#gvV$HbdvCczO50?-vtW?NL7llZfM%JR$~{j7Bp|?aQ(UACR2DwRdoE5=Fzt#+Kl9
zC(F1Kz5@cQbZBXqSeTf`r>5LGc*1C+=$RN8)R@`ikWo-1YD(-t;g_`ZOG^+?pelUH
zJ$mGqWoKNv-}+3hPOW#liH2aUTdIa$q3|<)mm}tUw8Zm7_LGdcxj9YCFC|CEdTK@G
z)&knmgN}Ol6GL<LeJlDrWKvL%R_@i1^Rg<Epq!^u4p>EgVIPB*s0-Ca<{EcIP^$d?
z<7P|JHUqa9Ajg>YZEbB-9eH^a&8ww20=EBv)vMk8MEQ|fj$mYBzA*Q-iQ9!-8j1j8
z<REbd`Qk;N1Hm>>LH`A)Vdi|C2<t;0Djg90EEr*J+Z)ar=H)8&38;Jq&OMQ<#wHS-
zmpj0b5^ucOcKkCM6A@R*&971vBk$^_yu81tlB1yFFUPya>hkcAkpE&od3$MI{PTzF
zzhkE!nfVeZrOGVIUaCryReCfi_$jRVnk$7ePv9_ir6Kai8+Y?i{tad`?`yL9L!-{q
zKVZ(k{GBf1U`+X3>i1whkjJd6>UEIa_Gd+^{S$Gofd2_5hVLDYVy3pwu2_`@`)n5f
zOw2S}x6i75-S13i@b13-8@`Hbh#`{I?R6y+Vrd|JljqbE0BzFYd_d=c{A)6cux;=`
zo+QL)KPniT7KbkR5f<vFLaKD!4k-037!V5)tCt}gC1=k&{nEuK;w7yQh68wktHz8B
z@HF3Fvk`C>(G%(^>h@Hf{asU&CLNNW)~;ss-i~+}n9Gb~CR(j8RJZK_cuCWNo=3Fy
zjjWN&;XDKHp71HPtcgi;eET)<96D?KsRcAk8f3E&i(woL^uXr62vVhitwIRc*TCe4
zMlOeJ<o|djL*}_VL~Q>Ngl2*1f8Fc2dY8me<{{}1*x^Y$Yx%SIKa9kKD}2>KmU{^p
zA*+AA{|b5*>wu&)dE?~UaZReBmmFvIilk5kj#ADw_)#t=>yN;$X1CJx>x+tT8wk&c
zR~$zv?(5(H>MszgHI8Ddlga>sZO+by$uW?=xio?l2XGZBr~LpV@GzP8?`-#Vx%q9-
z0K;Q_F^F%38aw;a{P31D1yI#!Ao?7T>fZ_>xj-(I<y`aah*9_&>x2fA_plpic}q?8
zfPE@jC0bV1ezr&s2k~g@3()8km&x3IxSDlh4yP0*P&h)!eZ9B02eiBYK)%BS8`NB}
zLMj{zUWft=cr%v4ko(TAZ4V^t<_P<G3EAz^t4cKtz1)dF<htSZ^OLq>LI-fw&KKlL
zOLD#@2BDb1K9~bMb@Oo;a%r?c)O}tm<uy-tK8c9kt8bYibaz<zqXmJ?BY-lcYv)?+
zGwl<&r_e$mr@~h|aVRGYK66UEXFb5*?&r^pg3qeRa?LPk!v%<$vlqXx%3E%0{*od9
z8t#bu^vXNzfuux3_?LjBgt0}!?(-?u_vd6D6c}BxB!r(ZuZ}8<U7Zq0bhN$h|I8Hn
zZvCxp*_T~~(YddzWzdjc_iOh7lW)s<WX_WpY{EPHbpyxAH#5$0U+t=?QADyj0A97Y
zm2>v)1aM)YI@#-dK_52^N59>vC)T!>fg}z!^$exQn>ob6yDO$1V(Evo;liad=d}3I
zn=?>hx%g<E4VonY=7HeK)}`xnHkfYA&^&!cdw(s1@yTwH6+ySa;OV)aoO819wA^vI
zv;Dm5{+zXg-FdD=g#h1Us2HqrR_u<L%~R<beL8&X<sa7y-dYinVSWmGI*UuE_1M;M
zcHSFn*q?L;Jz~nj$@--P%!jrCN4x*PO(*vy(sF`c4t~?PN^ASN`}<Ot(1I?S-A`@n
zUwju6!P)^yD#tiXLzlm3Kmsw!AOiV>|5j+hfKPcOIZ1V`(c_V5P^5^OrvI<vMDXyk
zyI9$5E-a4u`#|cr&A|fz8gYUw&qWwOzg`TP-;GHdr|i3LF4n`kyW9uhsU@_`qEuP2
z+D=J*iIZqM$jJmcj|{K<bjw|#)?*+&R`^2!{~PEpN7!oH|9%5(p4`j}Nd}grEZ~He
zCHC32S^Wu?Y^IvlZQyf!0xgkw%k$btav%I&tOsC=b_c&l{TFC&5#9>H20!5&n9VYD
z7r^TcGY-6jhHlH|>JLfIGb290uV)}Br&uYtWQ?B!);6IzzIbb;4DR07`H^^aR&iuP
zB>tzp2%QH)uD41Rk;a6_8lqi5i@UvTiYpUM5NHWVF$PTQkroqtVO%uroBEzo;GTa5
zArpu3s;`JOPWk{a07COnzqmXD2^-9;j4B(;a5xSg9<ZO!af8^6ud=d_H>c1pQfvkf
zf9(D5vrl}6>Ft;5dc`!}Qd67tg&>vuA$4D^_c+_WyL&I!VQy(D0{G1Cn?W{3LwXw8
zNe}`34!K*kN75U3rZh^v(;;Vr5VU*1(fL2$Zy;Edlas%iG`)A8;s>Tr{u0Hb;m`O1
z)uw<U?tW<)y&X3KJLzSUE=Y^ES7MiWaj)th@L>fjcw#?a149)^!%-JePAn*(>ZQ;R
z83P7IZi@*5f{)pRpn8wq_%|>MJQC*I(KC9SSAoU+Pt)8i#K%AZ%(}y&ikY-Or?Pme
ziwdX&{5^gZr!O^6Md>@%HW@<e8yKKviZLW9WvwXTUE=2CF-iTyjd}0rD$05567Xql
zRL{I6MUJh_qjjH0q+5W)yKnG&gD0XdSit5l%5^+FUEG)eAwa<SAXo#Z^lJ+1q#Qwt
zLeiA0)FIU7hCBT4VM;3gFNcuZ3Tj-5sp>Sm%gP!ZLqk>C75#LzZ{uT;C0%`v<1=st
z6>ncPxyBP!+|Yki2T{JgVB5R@x8T{iCR5-$Iiyqi%zuKBnm`vjKhWj$0ZcddC*N%s
z7>OS~Csxg^VXa`iVntpEVhpo5-`!4Oab`cQ(AwJyvhgeAy6BIR!l{g|ZJnBY9H|tm
zXFrTc>ExYup=XI%FEo<qw>iOQW9{4u`wdnAQD4+~zlPdqr&EV*d3}3s+%W16)9;!H
z#1d>{0}^<?@<RT;@)E<3$86262e?Ghxc7};*KO%c)RaCZ`Acbzi7Cq(3^PrnfQ4zx
z1%(~N_$jxZ^4);k0gw#FDp|LcFeq3>ow0l1zxxw2lKawcG_e7QB1kwT^>GLZl+UW(
z>8w}j@j!ndMGLMy#3U)e>ct!qH!@hMey8cwABKDg>U!Jqwd;~t@~|Km(bPmp37%HE
z)Y<*NPfM7)E(P+O(&A82$!WscX>$VPZP>eR+Rgz@IwizwHlBjKSALnWSYSU|0R$Db
zT>|$LTwJdpBrO;9-ZW{y5ib_jx;hiN?7M~B*E`e|#J2B}rh%3KmyZWh=Wk{&S(6vt
zh03ZG94KZ2e`F4bUeNHk+4vnVOp2Q0?UC)Ch%kg;uj~2g9`xycBe?^(TH;BGQsy?(
z^NZ7E+7@6n!2J;t3JNSmc=2wjUVSMPxtx{&d2U@>VZ=$P!Y=_)gaMUi<q@nGBa1<b
z3gT6@FL^8mt*SK<W5!==fOhHr#bnY4?&;Bd|9_3Sl>LQmU09pe@w76YTg5bZ{@|*{
zGBiDL*w=gI4^lB+YI21atZ(=?<LZkbb(-&tjB(XqAr>pZECLm<1LAVbg~P<4ImZXC
zLICB5*#gjDz--$<jMHhnO&Cu?QLsRw+XQhW2W)4aDMF_|@W81E{CfQ)1~(tv4v8=Y
zJ-VwPoE7=~>-o1A6I?Km&)7F0_AX_rq)g|2*G>Pafyy|9rVNH13=L13s3d;z-}W<X
zmHGFQ0A59l5XM0JFHen%0vnV{y-reOU=ssz=bytv6ZR7b@VqUispACC!O=xe(nH)^
z^7_rf=eD;(ZN6W78o_~oiwLR0>V3HO2gk$x+KB*&Zrdh#Om}8v0cnytpiArdY2!Il
zrDFT7abW#|F#tkV2_hGGIv7(1x`)GGU%pO>1+$V573AH!yX%wZxaXTV0HdMd4>hhe
z7?)qKj~SElv@(dKk`&*P93FF_^$fTFhnep6sZ%twm$N|UvK)C`j&z^)DN5RK$`KY1
z0?ZQDM?L|7$3#369(%Zrv}21un?~EthJL%Rm+x>-MHA8h7M#OrSLVQm%$wOryxvO9
zrFRP~shcu9&tMop)ayRP(qw|^*t-TyVzn;T7Dq5(BgnW)tOmmA)9p5d-6u27&vv5j
zE*W&YbGBv%TZC8Id8wA*P~@9IuV|=>Fd@g!BnBGG>}1D3&3Zs^FtWJe)2O&2WTUCJ
z(FF%kT&jHCt`5aGKB(wl?mxc@{7&|_O|fh6q+y7bHUxvb_w_?4io*4u%2^6hm+S4Q
zLC~*$3P2uiFkjX4koyY?V9Q#@bl=;-MUiCjYb?&lafNAE|NEV|@hrS^KF&p|(x$)_
zj-}>4mb49ktXNuQW*$+@)ORkAmvf;6);mMU8(fJusYa}h@fGxyo)?G#gm!gd7;Hhy
zJHz-e(evo0fylOt(zIn$-c9NWbi~|zH|-ndt4<2&<W6u+(}T|6aT!7GV6Oy*lrrEs
zI9ZEDYzq1xZi|PaOv4Dw2z<kwDZcc=XYC7RWH}D?0@9Q7QlCe<HP$uz?SUHPEg{j<
zmb4AKo)MFd^qKMWa4gG@dGIqCAfK21&aHQ%XxFmhJ7o*(#SrT#s$>JKliO0cJW)Db
z%_FWhUj2K{ZU1L{w?7#te7piqfG>kVz&o{Z^?5SD7c5bND^Xz!ba23FkE}UmHt+qe
zZaCYDuaL^Zgp!2&02-5vXBMHe6FTZ<3bD8wiFl`cj;o!H9O0_D!L;hR?of4py(aTa
zRkKeRJaREnM3!np!fNR6`!Dw?X>iMDFc*G4n%yYJqX0sPOerrgWo?<8JyWJuvZdQx
z5$#R<W-RYj*sdiHv~lxcqoqo6{oETGJxWvD9j({=?snxR6pw&mwFw<|QTuo}O$F71
z%l?zuqKn_ka3VviKwzzP#Yh;oSP^6Z)Y>iz&KP1prxd|S@K~wlPn%-pR*w6KaemY_
zsWrSkUX(%C8M^;WK6Pzzw#_+bG-2STmlA1GLh%lY{iE*8QhkEimAM6rz9!I`cy=7k
zt+f{#k(5>FmMXVNi@be%CpM-F1UAfk;3N?pPvLhto~G1kw7@feIYen8H`rY7H^^U+
zMi_g*O!O>(H$6Q&`_HkY8%i)#rb?$hkf#9(S4}UV9w@)>fDK043XO<6UIfalJXzBT
zSorENZN(<RN@O+ch-Ont)dfuR?!cN3+<oU3#{Yo(G;csv&BE=6p5>bB;(Hm0v2;2b
z$ar|kqxA<vTYnfB(~9vb6v|?(1DOyp7Q<gkia`fgTawz;pN*rNSBGFK<OX3DZ~^5l
z;NOBIz|nIoDTwhe>YhBoPq@a^Q!n~<Pg+gQfQ=jg9D~4&3oVE-0%Z*zYwKpvOJn-c
zs{iw&Vi=|g4gmA$VT|gJX;KY10o~&;Uf|Exd8ytUhCv={UGH_9pLuu{D_3?6G`e3w
z-Jv6Vnk6^Ee4(W(hP}V3anWA4Ui3?BsQ+m&ImH)y-{W^bD4fMUl9*7v9@q@ZCAMqb
z0&T-MFr(z@zWXbn+i<cO^YwaWrUeI3L{P6AdjDz0qLzM<^gX0iZ<Q8<|EC_IjA9c2
z8)-20aZRe0*}!ZD{wy0{GwsVB8aJIO9LoQNM3*H>_^X`X{44Smh)4=xofFCWx)6KQ
zB&jO^)Y%`@)0C2YfH4Y7bJNnK3JVQ5YiA$i>GPJmZ!^1ZKl|T&uJyaB+y^l=>u+6;
zG^5n}PWvNxCbQ=N(*eOBpfjr2k)ahB!5qiJ29x05T4e+@B1sACjXOvqgNXOPj~*&e
zjdCkOPP?)hz)W~nab!Wmr8OV^OOKT6#qp*j6v7WO*uoF_;`GR>QEA^;+W3P<V81z;
zOJqGq)QA~*JPB9b_6RU0v{|EzB?}S%i><c~s=DjHzYj>KbeD9ugoH?^bT`u7A>G|A
zNFxnW0@B^xAPoW%f^<Hc`+9!=eP<j-#nB_2&))A?>$L{-JvL##I%c8AB#UgufJ>QB
zMGYm3`j<b=Gv+3x$zu_#&%sB(J1mW`&eu4bEYY9?1yH4(^{3-?AW0-(O#Hh&XV|W<
zIsB06fq^Exqm_*kzg@B-!dS-3<-NT6)18&9%yeJ)tn8?sSmnPhyjcz%_curlPXzUr
z3Sum5XX1G#{;gdbH++`V%!@`%YTh(Iz(n58vWV*!lQgr23gu%;ph=3uIg(+P&y|Qn
zc!L9Zf9KoxQkWHma(6&_`tjW{Ib?rbcsSa$4J^mIDTeA{9(U7ZP5&8!;>n4LmdA59
z1yfq!A+?*IE+Dl@l-yR|RSlO(2|1uHL@x?&#Q)!GCc{5#f^n|X#vv1Yv<1>ha)>QE
zP2<+wXQBhKN{7U25JY=bu}Y4;)m5u(WjGqXK~CEhZJd#kO4ByO!K-8EbWRV4u2xTK
zus=47BfZUq)zEcOqIt75)E~pCnWugZLP4drTzhGo5}fURGUNG|j_dJ@zf<L)BhM&L
zz*O&I*3eCG?LnPF$9j*DBz2v#usvH!_EVLcBK}ngJ_5E2sJpLMvGlB}_)n%w1Aac7
zGs%4*I4*ER%5t6WVyqtJxOng$qMmYX=HpWn67LI@P{CFtNpq^6;z8nK56|MX)&8E>
ze7i@S+m}N)&>2g_6x{RPZi@Fqki;EkRwzz*w*Xq$0P*K8SOWZM5z;-)oggz*s9hi7
zaIS<PZ;vCM4nBlPQa^z}mh7z(aL*@zvxtD_S2F6_&GED>=Tb<f#afvfTGQM;kgj5L
zF0Pa`Sf`mFG$|Pw_zPH8h-3WoDby0d&l>94ict@guZK@#I9Q*rbS^<9H0p3%I2cS2
zzg|tEJx9&YouffF<V-Fp>~fvF;2QC#)5TudiW$$xm?6Y|%!J;u?Fo$p^XeE%&W4FO
zMJ<EQ2Fn>H48}-{Zg0EQ#>&6|q~2?s-_A~SrPUz%Z&3NI6D;p+@khV=6^nD|&tBjL
zo1hzIvgxhl#p~?E!~~cV_*VGikAi9?cOU&))@_d0JKi5T>NR!35dBfLhVt(@ZjxYr
z@TX3dh>P8$`CW(Y!N^Jo)|^I!zq4GFU6vb5N(ga?=<D8FGi!@M<ls@NS#hS0?oTzs
zOTZevs1kp^Hb~B5fu$ucJL#jqSts|xCjw*j=eq^?;6DZ=kgx~2R7$Oc-i;yf_yQ!d
zJ{(g}!WIluMeIjbDQWwb0~)QgdbxA=0TOpZ=J6I#*MhqywM2Sk$CggXYXOWnL4zn0
zU7vGfIj@l{hbB5)S-zcZgSqlgN^~~?#55NbA3o6kU=R}d4zN=|h)P89xFtanAcv^i
zl*z6|m0jD?E1o!a7OK-C>ril!DK3}#1J-~&!%|xTZX^DU>?KufOOh=-1Pv8Vtu3w5
zSeCEEo82OchpGWn49Qs)ve7w>F8sjuAwFo02>IL46Bgl1)jw?!`65B23s+w)S$yeY
zohJl;yx7bEBxtp{F6$lZnx?G!q2Q%IOcokMmn3IdCOy~3lkYOxkWH9*AQlGl^divK
zg;!`lPpS64{<&^DUqOH-9Xi1;4uOFP{i&#vTic22t+b4?QnY|zI;+I*k2r2_t~h~)
zed`Jg?Z7CvAzoBIU-cbOOST`?j)-N`g_xIxz3o%J;oEz+emj2Me%%IuMFj<b>b29S
zQ-R3oc(YCRd?P7*Hw9j<xjX{i!wW|%7FhwqqC1mBCi4KLo}3q0hu+z~5mkj#EH&R#
z293_!_ZS2;ZwaL!Y`0|3+kOw#&zBwTptb*k2OMJ$VsL1X2SAO%<<lX)8GAtDAxUps
za|hfVkV1*hW8Ha!!>E37I2Sd;Bo9J=zqP7SulCp@-i_J&&Qu!+t7}eHHScBG{c6cL
zExrN*2j4DOJPU#3Pa#+G&*0y#m1QNK0~u3f4;%36N-8)N-QyB5gpRO0c1yK=lSGuH
zY<F=&cO?xM2cTxy2!Qtp(%9tD{o$tc{u^+q_y8i&94aKb=XN#l-=rwI7TmSZ!`%l4
zr42CG!8HMDi|iu$qar*v=(^}Epg%XbUtU-=&3jGSVwRwAK-S+vqfh&tXCfTyFr;QG
zJOLGA6T|&!ndhWkEB2gcxSp8uzw^HRdaOFq!~7>GUKhST!NSgwi{wX`=PnGeO5aL>
zFrARsn2(wG{zXB5Mc-y=R~5slzQ?=u8KZ!xV|*`6je_uQX)0oPB`1s0cve<mGf7L6
z7}Qd=<a#aE><3ycf%6~(39=1FZG|I=pS_`-{-SUoroHb`jo|JK@@!u@ZRNyM?PRl0
zj%IDFI8U(o+E%*)<bxu!V9>CjmsY9L454~O>i#PQS!!oyd8flc#4-|57al^jw8>&>
z$^Qw7mUMeXy<p_zFQUO%rds!BDSsSgXD!|mQTa^NN$9Y>i8uw<T0N-Tl6jy7^MKHO
zz<?{hAcZlQQjA*-;YnvRSD<I<wg;p(@zyv&xE&67^w>qXAsB-^Y{g!5v~%>k?ic~`
zzG@PP+-ER+U$LJkVh{r?Pkv4^7JrS!Wj-6t&D-DR5K`vtd~~631^ax~%9LbPMlyr6
zFJW}SVa7#8PL=!hw8DlsnZa$j<opvs!~;N>tV4<RMi9TB+1PNkX@8Y_mfbsE!Wu55
zI+JU&{LOcl$IGc(@1XEW4;(_J_sp=1bSSF7C%|SAV;so6&N?_AOpYwteLmMGU}o(}
zH%YMv5wYm0%RU?}sVp@+e>KA7M2Km`qQxyAOj_m{_TD$O3g_vvL?{_U2emoWGqf!}
z_7ip$gB9^r9kuSDEp8`g5DS1sjN#&VdL|TD4BA5nMX^0tSEqz<c1m%tqN5lXeT8Z{
zX<?$=&1GYwv-t+09+TO`_8kmAt**)?r9Pl+rGHOWCyE>^d#q7G*Kyk33Nn}dBfz_0
zc)T;>$IW%-hv1{?3>LV(F~)!~;w^Hqj-A8`$L+`%de+S$G!mz!52#qf#O4S;oVjTs
zpGl6_NNm|VGv1gF#_zj0HX-DT1V!(T6h!sQyQM~oqSi(w>I1!Bq`v%FUR>EW5%K%#
zglX&oIjGaiksqK|(}Nz11f_tLi3fAkC_Gto@fWktSEIs@7eOw#Megg_-?W$&(Q|(P
z*2rijM)=jI^CG*3fshqR)lso<;AE_WDJ)b~q2ds%_s{>$If|oC@rTCFcSnkRFeUj2
zNIwJi9bhvODCCu}kj!oXV<~YO0qu14@Qttd(kC#<S8gx&zIeJn9Vyw#h9Xa*&T^W1
z0y6|KbQX=st<du->jLGrnw^(5a{`)-j+&e$bGVqI_<^<}2XO_K|87VkUw`}gFry;D
z96Ut9jyWr2I|l48h}!3S&9x0HAD+ORUtQ^h2-3ta6!f@kT@4lO_qgEqxHRG0|6O@{
z+C#ME@a9Rnl<zMuI3g4LlQX?GXCtFC{uF+V6TH#{jS6tC$t>p^91bZ0GwaB)7a~Mg
zN3cq^BrVlMCJ~Bv@TG!8LZ`BP8v#@(j$;^5nl><y`KK4!NT`~!1ePRzl$-Y)*tURm
z3?=oH^_>B@P`d2_Kx+MAkH_z_+yHbx;l|ohLO+!W3|>u_s?b6t%#&ch1}HO%HvJ|G
z%^LvrKngm&RquaeG=b3Xmsc^$iy^BxC3M!{+-pJR%>25EQgeF`)<L<fYNO<Pw7x%N
z;5NwFZgQS)bBMSs49^na?N=I^^Q<DNAU7ihPqi7`VD!2eJ>xNiX`cGa^LO_8O+U|M
zMNz*hM_$F-RNl2OY({~naOyKK1(^}g=d90x$IO)TuWyjLo1>~bD<wu%6ifoEu}Hv#
zTUtf<cIcynrRIl@%Sw9!U3n!<>-sGMGA%@TTVGD^{wPKmh<V^dd3C!stANepcikQj
z86n^e<emSfE^u?GQqC?I<Fq(NQDGudwv9T95@wO-e}0qdDnXTHTRhb9eBbepEoVmf
zeMQ3pzGD=uSdc{TbfKiSmUlEO9%2Nfb3YSNH_w!DCEyi&?B0jadg6Eg9oBml;SGBT
zs#qOYea}wnCG!A(z9&;ga`IUYqm^m}jp%BSMyGzT3l6h))`^?Dc10qF<CS!#n$wwe
zb&LmjgRa~=Oqb@*i`ZpAKnhA<|Ez7G?GFA^4rVb&iL!4Xq3l2m){W0B>x|J9t(Axx
zhmqW>o5?tlI{C`b+8hbe^Tk2W!tudBBObI?kiSolQ^&C$^!Ny`v>S%))&#zA#5YLB
zwf5MOe%^RLH^yU9c;qls+;LZgk0}LMkwQ?NEkR^1U@o9LBF7SYYPwtW#eTeaXA_c2
z+*}KR_(P<{L{#z377#lt;+J}4d9j~RX^Z&ew~fR%sVS$c^jKbzc~Y(C;v0JkkNE`4
z(V_gU-+<My%F#Tl%+Eg(Mv>X4)(U>@-7Ooce9vhnw&!fQxPez5jtgo1B%LwHj$~AM
zdA-raP;AL(qX#F$#|G62YCa4|5dR*Xu&wslZknWn8j-(bEYpX$JJ`2Y2T`1t;&VV+
zVqWoAkv;1%Na8*6r}JmfxH@s;mPK4elz1I|_tqn4XE=+_V<#?GPie5phzaTKSNVuT
z{z(pBp{)$RY8jNQlNd%OpEiGV@T11&NBiCiJVZT`deODCxA3ne=zQ0)i;y8q%M*=?
z{*}t?H09)IEu*fk{ss08?NL8fJfwzVe%mz7l+b6tbMwpxeyZ3pzt2X^X)2#%8;zqJ
z$n#MH;)><yF;cT|A-p!;rf()i47imPNFU!gbiq2bj3$6lq)+@DwygI%B_OcXMZ?=!
z#kaFCw-18DfPDE9+EW2DbSAzqHFx8MVMbGGR5XpuDz+leDE-5Ee5msWg1SfglNrw+
zxsuN(L)>&=yxi_~obTU!R9g}7N_aV%K~CS7vmj(w(uxE#$W)r|cUBNkF&(O2ZfN?z
zLiSkdKC*T`h2TYstIB)7`(BebDtNskpQHaKes(Jr$b<3U4y^sCmU+M@L{@q^hOr>`
zPw~M+6CjS6&KA~8xvlqGZGO!)=6;~<rc2c+(GGn|GI1Oc51O6GJNR8eK=Mv_k_q26
z+T2mwa;YMgZFB*J(dJy|XOW#xiOkYpAJmZ2Yrk=M%-jGb(~kc62bahs>g>&P8{0c1
zln9&1Nh7fLab2U(B{`L+J{`zNZ0wC?ZGcK|+y8)z#vI=R*4}E(K)p66^J$0staAJ!
zO;A>%M=xPH;I7t)L`n1nLAcv>BqSu{{0X!OBO-oJ|8hjNTu8=i)CSUw{zzR#%lV!~
z8Ay5Z$-f)i2}EXzPqS7$-3(^a2qq)MJUkF*`I=8ktB7u?!kQgT8l+6*ALM-?Yk>KR
z9ErMko{tI<QuPmW9|j_t0CIJ@X(@Idfjj1Wizp7nyBjNg@)ZQKYYWL)M7=Z0mQm;(
ztYSCuru5VJ<blu4h_qdyAR6S}Mg~-<4IJ%tkflt@vYUnFH$tE&wQHVCNG#@~n@)%~
z(-3dvNr6tq!-9w8xJ*maz}i;Ar6%t*<QKC*p1z2pL@$ns*ktGmX<<StYH(O}yGF##
zl6<d^SAdyPSQEk8(jwv?-XMMH7)Ys~9QLk=tR_00uOx!Jt!y<v2W0JuPgVU7V9oFV
zuu-VbqwZA}fZy_Fck}+_XWZ>1SC;s1{Xdo6sf1R~`;x+5pb~B(Y$BAGjWp{jBp5@S
zJDWEEm&N1DEF3WNRau80{&YMsV#U)=!hVNnQmSu&HRx>`XVMf8#pc~7#(o?P-LsjT
zr;A`Lg_?6l1Dw+c3!i!MMVijTVT#djh1HNjTi9X>jfa(v$1lE&+rO*iv-#C{&w^?!
zL2L+H<Au_SlM62iSoOc`>2iK(W&-6pD(Av=>0)`?4{-?zmx;3aIoa{FMH3pW{^$rr
zEahPpss^VSNwTr(f2pd7Uf!`R-OHc=v7wAfh542m)w~b7@ZAQ0117QJcOMs(WK<XX
z$Vn*NPG@66d6{OK8^{lZAN(Ez23Cx^{rvph$snvrdYyFA=u%xlc`1~fcUc{bm{B^A
z5~mv~%lv$maCJm*+>Mj-JzC+_v{)+2@137byMvGls?L6!fGo$TEFA^_s-KFmE-Yld
zVDb3~VT+FnIGlh)W4?0<-^ZAy>m-I#_^Mlh`$P8Pw&q1LU+q_X{C88_!Sv?ue&&S7
z@2^hj-&lT__kUj7g4%|Sd;r2m{+tMS5P;RAkwk;DEk`pcqOy;tIe#LRItw)Kg(AG|
zTTV{-NhW71YQoF-a^i%wJVMAM2`jD(rga!32WW2yp#=%$f1Mql{F)-j0a{ako^VvW
zAr*h2P<%*1!k_Aiz;JFd_>F@ZVQ9mySN=<MY%oL|P@Rgnm3bD_c+7YEC=O~DD2o;y
zXTXI>XZD`S6dOyyNcdY1)Za$i6wo51K@3%kS(1K_F@{8KsY||3<^&o7NtNWO@J-HI
zrnxAd&97E8`)}g?TwDFrfI{!!I+NF|NjC1atcqwTHljyY26X3w{vYJs35Z-+0n|o+
z3?-y0B8Mg<2iR0!(MUDT&5J=gpHNS+AWUXJy3llYcmy<bJY42k7{4@F(=YM+GY3#+
z?0uc%z5F{E*0>oUY}~z}d0f)4IA6Jv1r8oJAvZ^Lz(;X$`s-cGzom+u&Qm`>VUpgr
zIrw%loNg1Ox6&@3{h<AuXPbg|7#}=7?Tgncz=nFv<EcS8G}(0JT3r1W7M?6s`8uC(
zb;cnTM)vH{fw5jgVfAMlqC2EvyS$^E`=S&>^e^9%^peT*PIEa~y{(^7_`IJN)-8!^
zZ#j0fR97Sd^d(M6nKIQ=cuy$tS~&IsQL9veKo{^e*$!-^2H!$;mW{N0vIMGJIXiea
znafW@U_U777;!FAs95{)@70&}2Z=~l$qReqINYHu1?t{ER)~Ft(L==e!AfO8(}1VQ
zMpY4kUHKMrkBnb9=yP|G0nC%py57L|Nk1*3M^*Cv5G9d<pEcy4i9<e6Sss>A=R7^0
z`mu_C74SR<C#h+M_RrhBFSissz01KDc@4uiN+les0uZV9wX;jF=_qfnObtlZ{b>(C
zx!FPg3;eIl!6Fjtu(Vq#S&PWPf^arzz`1%h)oW8qJC?o_wbSqZhhJ2+FF2lwwgC2x
zc#}c`TH*n@5zKadF7~IuBs%ZMFSjp8lT?5sl%^H^NXTP{vL>d{BziL~%Zf8PY{*yg
z5Bv<ItcZpON>gb6TrayxsPjB)xW-i6DEkBKc446A#pg7W19@=}L(Hm9o{ozU&M~_H
zE6?wP>Ez1;mU%u&v-|~xJgL~~&akOO?8d>{^e~{}m^yua$a($;<{oG|fVp~0x$2k+
zF>E(2Sj%`}XyO@opMi=$^*!a>%P1iN>tOUd`OWNT{#$hLnLh5bs$XWrPbeQlO~#pj
ztOnBdjA0KFXlkQ&hwA)w0v=0&qtg<lf(ildvu>QLpL<+=6>RH|C+-b3029xDak`#U
zwlUuYWK&GK4N#Ik!2)^Jhh+~P&)3g#{|+@PvR3aKs(r@Zc;4=&h3POP$~{X3mX~i=
zwx+S@$w-?FtQZH~(nCh)y1eya>*ocne-=qgwvwbi)<}i=5U1Ne-X3anSRrC+Z~7jn
zqE0)F{&%Q`SAoF}P=R#?zShIm(dZ0o6=*%gR;3qDB{*Fr__ebH7ViD!DcoYU?)F6}
zn7zYCK>usICZN+oJpQvdT=jA@>>qoCi`(N}q<STYm1K#=cw^9)8zFc1@Q<@QcE)K7
znPo7GlXe+drp^L)XK<Y8ZL|XP$1k{DHF7?i-OB!jxKv4g24D(o*va5ziV&RDL!%iv
zbnh7A3%1BGG3Y}0g6`Np^r89mK?5hvwC;X-KQ$M`kX2n;q)Ej@wYY^;6Z|?~F%<7a
zvEpvGsVMLbaxDQBi-b9>*0(~STa031*duFr&AQc1#SlxX=W_ka6F+F&C6~f3i?6P5
zd>w<U90~4Zj?r&2_ronew9&gQXl8Z1{qXmT_wOHO3Ca|5NVD~?d}mAE%nzOWV7onc
zvqg}&U@4Obr{1>y<M4RJV=Sz0Lh56QM5{<j47UZ#Rw7Zt7B;TGNw^0pwUrj`mZry9
z70TD#NXvN?!aY-<%Lao{M`AOgh6d|`v8>>X?;EH+cax&GySoWLVwloJ<cU`brHjAA
z<p2QidnV87mPjx|xX1H{g<Kgwk!{mHP6pUP(+g<wvR2Emg%f{QCCN$H<EO^KA{96d
zL2SlWK|~LhBSSl#qVxlX^s$p)It?C<mIV?@9g}DmaM&ock@OY(ebF{IDKOuW-;M$G
z6IbTalA6R${Y?If-K~sAmdiBM-M|#)<J$nD%RnN&`RHw{?LLjgce-v>BBWR=LfXx>
z(I3-GQwf%HMO-Mo(ia4zr4^93i8}A6WeajhVW?WaO`rTqfr}E(xO%#87cAgx>!-7+
z2+1;CpF3O9NN3)GrsL=R>^3A#OY$krOdQ$^{`N5Ns#1rsp@Ls_TQ-*y4lNq4FB(@C
zg=c<~-g<PY!@!tKFONJvoiaX^HI5}dv{?9l$=6WWMw7z5?Mgc%qK7vB$D1{Ao4X5(
z31)bWDwK{~aXX$#+AN38_nKVz_id-gan(o>RdPnyq>Y7CEH`*yr;(QJu?3aHzIxOt
zSM?UY(h`VLS3OMJZpQNeJH4^q#3j5p=>WsyP)g-0u=NrIG6oP(fq-7f97XNTkd_F~
zh*g_)c(b(z2B;vspb1!rIXZyYiDtZ7z3;j=pF3g-l&<KP1k{1GEcETOici=lQ}S7f
z^4Rzsp9a-5^jv|-G*>0VWs$#}qum53_c_~BJ7oz-Q!wS{i23_k0NawjcvUcK8R=SJ
zVHUQtBK1Iqj`ime2MlA+Qy;4@g^0_i$y^b{nNK;O2#5OJ9>KUh_WAEK(5!v7W%`}t
z*DiJiVh+Tx@n50m5_(pyEmUYx!oP4GAXdYsRnwAsl;#j7W;>7<L9#cVO;pi|SZgl1
z)0NhjsECe#pB4c1RK8{Fu~W@;LDL)s#+8ZCod$Q)Y3-mPNA!rMBBvO@7+)b;hZve=
zm8LylAaVTqt0wOK^AyA*0VF75m)l|Kw?=>$G~~>GrERF$dH<6Y7r`A+HMg^t+2~8;
zkm`w>qV^z|Cr|gFAqOiz<j6#*bi2&ygMv6AD^vnDLx1ThFt?EH0&qXuR>^<yjT|*}
zxB+9YVW<=3v0A-?IXj_zU<Do;t#sh6us+vPL3ll}nCuIuXbO1LDK-Rw@h#IMm2a>J
zn4Rk0=binH{tgDIIo{_(Fc4=1Kblu;yQfXtXq+UYI=J0W2*LIl#4NIF^_EE=`ECI<
z!)qr&QWahJuh#2|_)$Qk%XAIWOKr++r3~y%%vWKI#vvD&uDE**@!KX^XUpw)*k!Hs
zRsXiJ@@bQdm{iw_ZmxFq5nL*My%UX^&=B}0(_*z)8Fl8bmLR(ghz~(9qpj}C{GQ6r
zzBJPB1L}`y&5)<l=f@5|VEjz)_kN|V6IM^W{hzd23Y|iV9f%UTojhvCXF9m2V4~yY
zq_ZGSg?nb5oB5w-iqC-^O)@sxZ5Z}Lt+{j~&!&--@+XoZNs3|MJjFCPcsH3+;C_-t
zdz~`V!**J9l&E*xBBmvTs`pp={)*3O9XNsBruUhhwqlv~V_t(2c#d+iq0xv9fmtv0
z2zu&<U0ghwjI$VF0gA}h?GJAD60(lkLaNU_1AT=lWJv#0V5%jH%D2iRf@aslWO(vR
zx@}1>j?d4~hH@dVEyiVehdKO{XAkF@TZ9@_zFC-1HPlbwI)uO||BU;1ayA4kK)}6O
z`LjsYM^cs2fjBT0znj<uo&m@%wvqNkjs3^$kv@9{Ih?e=bCS(|r?=2cJBD8p_4i%)
zRU0qCymFklfUd5MTHMK#DfG{qq-XG@l92rID|H0DpZZ9u;vJ3=X?Y$ET31+B^_$T>
zR3R>|<K<m^!s9S}z=B(Lj)J~eZ75e}SDh)4BsB=RS4GXBn8g0-E~WzIZ=DZcBRTP=
zIN}ET?ec0J?ediS{S}h_^iwkZ6xyQphG-B=6?qmum=Esva;Ja#@ct)-X#QirPW{GT
zggA^nV9j&sj4uwIFNtZw|3e8>r+Q3-6pl)*ur3>$-*Q+`lEulgBgq=-?fqR~#=qm<
zsrmeBaoQ$Y9e>sRUb0`65>8Ldc2$$zSj=c7b;?X{OQwVk3W*T=Q1ITyi1&D?NWknv
z2$XpGs>S=;7$qSNmOUo)s21R3)u@bA7~fVdwDo#xomyF1gHDVUZSU`V(tth5U^8HP
zHI+m&%NZC-WJqM)LxC_57nh8Ovn9qxL}CT7BoWP}*Jvd9pAUMpp}57cw~7$C)H=o5
zf!ALp!b@U3JUkWH-o|t-#&G2?Ps!xpuOa`AWTvF4?!x(tE|h*6V}bsA+dnfL$^9#Q
zL=c5na^_VJhMBV3s`f=U%kJh?{GIk~96BU5b1<M=B6sc#{dSrr<28PHgo^TQR+j5%
zI=d6M2i(vnDa_p2P~)j^7f&!VRhG-xN99@l3*d=fJA(<E?2VhDqRrVh9FC>RYOMto
zM>28$ON;&^jt9UE(smg%iOjI?1I>1Gfsxe*Xw=+KRwGagPirUs9_4@PD&aV-v9)~t
zmgB_?nYawnGls-^8U<@RgA?sr&q7(AJP`bQ<Rc0I`HkOYAB;*UKc=h<*^z+_9vB{T
zzb>Y-?+S#io%q(P8lVQ$#~y|jOm~SYU)`21moG>sYOaCAxBqRKN@qu!t`j2Z9#ZNw
zTVV=UnvXu%x5q=8fKEMQb9%B&^WrHf=Rs_w3`oY15ic*^TqY||<OmDb7l?#ozQrp0
z7x=gSp^qA>)9>2d@A~8O#Yf?XP4pNWk4DKG%e}!j>ZcvgPo3HkWO3aYM#l&@=QrcZ
zGg>8JTlxf~2{Y)ve}e!#18EtQNV~Vca~2YKr((Nl2!r1p6eeMsTO^5xR{^Or@Bu_!
z4TqCa7OI2!Z^w1psff@&4c0vbO(fb#SXwJUsQMjyqrVR1FgY@71-d1cP87~{{$84B
z()=H&iK)}IX4^iymy6V5VM3yPjTXU5Ew&^fj}N*hk*iV^8uBH2lO4Fbqj-5~jQ-&K
z4wF^IZX^WYqICP_ke?ul3X|nnf$x>vF>oc!1!9d4oRf}u_H;<C@kG+=5=X^>j>MhK
z*DlF*yZDP8KbZ91hNVS!1K!i$l^eu1xbF-?_g1k)6<}Q$+_0QaD|OO#t)FeRevb{A
z{{^5!Tu$J&y%~I6`1dy;!r{EyQ48~JI08h;3E!(aTxRW?!DZ`+C(y}QI*e=`*ZP8$
zD$ut0sJqH$HT2bJ7u$6_x;+7RMN6J}NMD9VjA0Xuwzbf7ct|pu<jpY+^FZ;72rvx?
ziZort?eoq;u81LrMk;*|s4vMZXIY#}KIP476$APCMRY1<axfI2VGM02MC-11Kp=5L
z(LRyXR7=ZBkgr2=)E69<(tM;AzxZ|B7+2sT$G({Ngo3r#6stlpM2$ps<Qp0T?p=Pz
z{NGSNdYa?;_Kq^C@TpR69oE+$-b^+-SLwIbvl+fGR6b6VAkSIV?h9_yKR078Al&n(
zBNdfgwp`+9alkIgHSp%P)5WN)e{Ho%cR1ATTA8|SmFM+z211}*|GanB9MSLRSjT9<
z50TD%`}j|UGMw%&MI|q;k^}P3`qg^+a!Q!p)a7G%PNT9&FQbqv5!jr8lgO$&H!=3T
zfgWr}r>2Iv*B&7vswmh5#{5*?MUn$CQHM2$iL&{1#n$s;7k&RC4qJ-ZINQFpuH8oJ
z+ze|vr_IBm$C7HAGQkaeq-r@IW|Bf2svmXDDviEAtep-2qj&pd`)5-_1tcrBfc;&2
z;qAnC^FlfS8_f%q4~tBMxxk;7PpP*-H`@zib+Mn|w_?jDu`cN)l5Rn!6c&GV4i<cG
zHg%}`AURa4;#mEWqK)`MS4dwr0ygy3?-xX#oszG+#J~GFmB`$Boa_V-5DF4a$dF>)
zMko-JtJt1@>Ef>5_QW2uQ^I&SEh2Hdby=**2PQpJ0y6K{w)X<2GA<Ne2q=OaIUFeL
zf^FBvfNu2cDB$p+u<kmVW2--~?a5W3om`m1;G0o1!Wakbjr=|X<yQhbEjFIZ?iR%m
z%X|{jbq7&wHX+ov{8f|<DC}6OXG#`10Y;Z>P}fHhC!bmABUnt~7f;)Dpz?yEnq=`-
zyHgzwJmeq2;1(Vt8&{Zku19a?=Js|t1qEu>fmHOvtAA7yortDGZHl<qa!ZEv6nWgu
z+l<w%Z<>jD?6P{%%;8{Clq|)jQ$18IUA=uSL81+yg#pTvM!FzSVEHK-XKNe|KX-?8
zwRv3zhJf0#O3o3qw9}4$1M`^7vc*XgkeT@Nl12PK;;9nU64HV_dT!_1hNX^{cD&on
z^2yP|(OSLY=X~VDRW%(hY-0TPAW`IHIYfvesXA+~&opX2KBr;8Y@1Rbdu_=mm|_w7
zR*U)9Z@PKFpU}@oJW}I9^4J@q&AF&Heu&`bWq6S5R091`ZSg}C8Rp@TdeIce-j?W!
zfvj>Vt-1Wm0!<#p0OZN}0xHEzY1RY`4sa;=hBBm&h7mfVz(8+q!Zu4~EW2&)f=bLg
z`ALNPsn3um1cA?C!(Z!x?D>pLO0Lr2={&8oA6xN#G?*z!*?bvfgX;{oT}iwT)Xzsg
z3H_6FS%mWNDt|Az1gmHEWy#ma9LQndG6h^n;D`3d*LuKoo5F4YdD%uXF@gAc#0eP8
zQJUPASe@7x$CEcN+u9o6L#B!|g8%c$>C*|=pmFf3`uv%%jIa={^=G%5{A~>+1&ueM
z55cZRd|u#nEA0aAn(J?sa)M-Vqa6d;9x9Rre6Z2Vr%$o@0RA-oD${DIb{80~Djc8K
z$6oSgKt!g5w6i*LbOVF7Wy5ICraPUUW`Vbr<NIauI=~+XZBpQO1co!XkLM5~)bD-=
z?>%3AoB3kjehY5dJFs75Fk!F71u2q*!Pah1XJpR_GN}y?jeJIw6V91)?>&NlAp!dt
z#-fcy`ox4f{#fLj(Q1QGw)HaEV}pk+yyb7-cyC|IdvI;6e*tqQ5Du(k!LDwoDS%3*
z#w=z$nvdt(!Fy+@Fk+w!9IJODk)y!$Wn7w9!S#4|>M30z85euS4=n}kcN2A$dVAH!
zA=N-S46+^b|Ba8}v*%l!tnM41Ph16hFQWA5dKkHE*7E?9awr}eaCYEd11wsq8JI|B
z3wMC%jyHvmPxn*1uNum|6ZAVdjxhZHvNLn6whMZFP&-Z>SSYt%X#LyjxF1y%h8p!X
zOTfX<NQQmyV>Y4QXAU#D|LsS>WA+mxH+eVHx+<Ym;A+vtY3#3q)B!ll-_no>fGbtu
z-7%LmrcKhvuo=7tafL>=W9<wUvs82t{_q1R$vHOSzsSVxNN={P)15XIzLxX7Us+Fu
zJ^WBc8<W~Uv?(<2k~mmIM^2ISV@fv@rz&3{i%J8;07`<}#~0B0UV@1Pm~kb##I@`f
zm62s<a^{o;#aey|Nbz5)5}d+c0e8=^OOks)s_C0Kuy+WlW2aXp6u#j(g093v9bPDP
z)N5@ki^lDjE!L>kAN$SUx5l&PQ83><Be@35Nr^WY!^vlsV3bF|LZB8Ud>y7YZGw1s
zxj(g?A9o5}`G(a}QQ`}4I#^S0pe`bODWMiV|4k?EVfbNlw#KLj_;2a~9el60nI>JH
zCnl};qb&|+abfJJJXA9<ujYk^`18~wuW)BH=MSzvgTYi}fMg6|O1_*SbNo!9G?qho
zAuf>O3j7K|b|2$F^4?`MXa)!hGf)tI8ho9!ObDI$(y}F=2=)gpb*`-P{4pX8k%y}J
zlnIeF9nE}^{(=xAmS2iXFYZQO%Vxp$eofWw`i}yCzP#p~!p^0=>w9snKEDHf4hvjW
z?8j$qwW^M%JHOjBzwe~VaT?49FK1l4oV0{i1%yH^Cc$+(=jkAa)aODelKpoy=lBMT
zXs$fSba{T5_?G2_q}<S1278}Za5)^F+nf8*wH1eq#|eWr47n!dyJ{%(kq?;KRX1%R
zF&=`j9%dEYO5{3Uz|#-iAbZ**s}P|1$^BY;W)rBYlz`_6wT0ajK}wy2^?+SlfY`Tk
zau)bSJnw--tnI324;o+dU6u(BA)iyBTXfoG4S1Z|$?>=T_(Q7;cvSnm?KTwYqk!wP
zDqepP{B94#@o>Q{`~_fNg>6Y;Im_Fqm&u=>*4gfJ7uaHQFsdgP89WPCgJG0UnReso
z$(rD44A1b+dc(*APCGE`{8^~p2qmfwLuXyBFU@xgDDbY-)uQ<d*0VrpXR%VoZGAY<
zwha0vr;*hC!~+M%^LPsJ^!PGr>Ny&vV+MmlJf4$Pt=oB>DUyR9>!f-Uy6Wm}?x&9S
z4ZxpiuzPVZg+tIk%bS|2-f^vOb;Ay<nT%!=ES`V6TL1s{;9<zL$Xd~=Hyi_S01{<G
zWa;Ya>hPE}$<q!$OMPnbV6wr@TvlW{e+gwA%Mmsp<N-5H`w!<NbgH4>x@s(~=nT}=
zX-rZds9VS<6*78BHNuk0JbIWB%e$AP(JlA_rB)L-D-(ZGo(see;anu#bzDr#PTOfq
z6H{kK{8Qj|{Dz&hC=Vh$jl|_!`({CI5I|(<ep^mC(-(2x8&zV@x}|4jO{+O~<CPb5
z+!FKj^z{`opz!kz9q0=Cx&0e1%#C5|SIw<rWsR27Ic2dGTIshCz#^nBA5h{A_LB5S
zRsdcYWsK9{R`9z8D0|Dw80!qe;Nm@-Dc4|yVyeLs77qE?2j2cBU`E3j3DI};R%15o
z5kMEbPy~WOQN^jQdJb+lG~y-zZTjS07V%xaQwOQr_WPQ@n-4Wh6Hfn~c!WPH{ie~N
zd^wP$BYrTl_l-~vam4uK1$>`SpBCA9SEq8VZ5lxibUp4e-d{~Ys7{(F@^zB8s{&R=
zOj4Y`>Z|3or<hm!6tSLt%`dmfqSp4O3SJ_JO42_P8<A^3w2|InVmq%=%@xNzjOYVA
zD9~k;A^%}07!_)G80p!JJ=u{BJV190vTXS$fjlIE(-$YVO;+c7zB6PbPZvcd_NjD7
z&9^39bBVmfu`q}_mMG&uMKW2g9jSlV&>=(G$c!UE9rw^dN5=CZ_#3S;;>sb1`a5hk
zO&1d(5}7S{czn>cd-h^TRTtuXEi>+Sd{s%=aI>UrM%S|-qaBM3m;`jpezwZGx^14$
z^-$-4KXXRyQVRQoRK&mL4-Av%3kIw!HF^1061tMCnZp2n_ZIBXp&E~lT2#&^XyE>I
z29yD7d(S`1q?6Zo<?#S-@ME0?*a9LQUj4%pjkXLIy!djbl_*ug!BI9}&HCcp27ug5
z-d9PPgIc=<DQ7qxn@x+?)ve6}(hOUAwnA&21HIpdEfiUFaE00E*~1vN$6{2j#1MB?
zS`^PM%=9N~1P<Qxe@qrjNhY<{@!{nrR^r{I451#5V9d9cwRpQkv{q6S*~`9J;t(HI
zFY$dDiOPyzQE5RfBuwQa>;HV5fx+MJtD}|D<+tEnLi9Y7%*(F>hq-uAlZ4A6S<lgV
zwnB5ugt+8Cd|zg`#m3R-{W)OT{|@pwi6bJ|f>%n+!?LwmFI_jHJLPOEi7un$%c?6E
z&h}8cjVztI&Uf(2?(?FOaRXl^Ed=L6s59afg<MEvLa#Rqa?NeA0(m@|_9uM<hA;_H
zPDSs@o*xQQIN6Iueg~K34N(4xpC;r^-!3>hvgt85m15a$qeN6oL67pRz0K3~Y(+Fa
zUxcm1<cC4E{u7^S@=_PPkSxv(Fp({_w8l2u54=f;H)rY#cUAre>_mku^hU@^l^x2W
zEo^MY`a$i~WvH81@}tv?(BhUb=j4I+fJ&**8>s~X#7)EFZOM2=-U~I_HDVuYNrUs7
zl!=YaPkey@%||thU^`!`mJM$`qJ%3uaz+iXu|)u>aXYH4r?38WrPIe*tZMVQqj+9M
zM^9C=<>+!tYlZ>6*iJPgwch*f3l`Y}dgDK)+W*iSnRl{5FK8|BITlt{y&p8cpWdPC
zPSO3i?%6%<NE_``gT3vmZckilT<WrBVZrCFcr(^%S&9z+CSlah|Ho!2+~rNWlL?B&
zD=jHmYH8R4hctMPO-u++o1)5`EGjkIXt}_f+1Xvx&-F;Fsg13*r2rEX5gv)a&G&L1
z0F45g;@YOBmYN!`<K=SzMpLh#8yOSy*2#%WPSa2^xjZ}vNRi*uiOZNRnsqeG(X^L!
zcdzw-)fRPY?(F)wou;Iy+5gh!1F+fYqA95m_R5m*w|-v##%jSsFfnvXN5#NcU`|P-
znAcsE43EuV@=2qb<()$=>4TP<daAJde3-`DHJ|hAYc2u7Z`Y!`VdJkf@NjThvp)ab
z`y(uH{O#ui@8<iopE7QCA4~Nygp&b(pzY0zeFcQYYSkEa0Ufd^x%$9837E&b0lqv4
zuSark;7$MX<sJmagWLNL5!f`xiX#sZ4Hxc4G5?>4B1ekdUG6%wl#4$ae}R1sNZQ!|
zC3h17M*{#7gu;e(9vhwep2B3lnx4FH5{=pbX`FA=lTYhsx2B7MuSv<!{@{c-J%1Wc
z5%N($X%ZkR0AV-G`p`KMfG{I}`F>`}l6|cBO2t_h8PK9xyW@P2UthoMae1Ip<N9a7
z=%NHRzd)CH)yIA9a={$14-GFU&ho{l-p7&XJRH@9Ob8nU+r-4Oo5u1I2(~o&JwxLp
zg^k{{-&uii_+GW95_-S7hFaJ1<KyRJ8<&1~TA$~h(2lW_N2%L+=BeiOkbh{aPCZpK
zzP0~m$xho3%Ca=f)OvrG(-hX%yMWv@V82`g3KlR&$pKnr7QL2Lml=6rXwe6G9<C4g
zA)8>qOe)}UwD|q;{@S3$r8G#&16(_l64B}Wu4O@hI~3Rs@`z@}0mdY8<>LsR8t`R(
zeC6=}&~cW0<Nx6e);?EnfvSOG5{Lp8i!Eo40L}{i81<R`b|Yw5$8HF!90(}|xy34n
zlA>f~4m;-q0}tUz2Y((nt^x`ec;|E+6d!d3A@_W3)6!A{!^G=pS?ZfQlL1}wHgC_{
zEWV<5?xd+j!n7hAZC<+uUY2`Vd^rnf#}AV~>;qWL#vgQBN=m|WvE7`^4$UQL0clGi
zL)n-ZkcuznbpULFf$=E78_<rg*S`EPmF)xG%SxT!(F7{VUv$7&36_L^r}fdTc>&n;
zg`PZom8NnAM*o)5d7zjoqvz<cIh@7X-rrp>Pu)ZxcRa0CAuCLH7s{TL7~R|1wQSGk
z*a%<J{?yh@c^n>%477Ol9IUFQR;g823;-FRgh4_d?WqSAe1I6EWog-ebBc_F^s;XT
zeylDLf#?`O<6xmS@V(sy;&mX4!a8};H2QmfX1ehNO9NM-Eh=UMw*T{Rcp?&OA!|$!
zo(>t21SZ-j;53B<sHtIW>APv|QO4~ocwz$7SR&9P(kd{qFqZd!Uogn=0mN!oAp?-E
zb{@q#?hSVLtE-2@!-O@#0RZ4uLTCW>4H!s`R>bj4^TB9sc+IcFc%~Q$wkGNN#_Du!
zmeB^QdlE2D8tR-(mtsj$nldk+pl=)mfi4jc*3>|WE$A*;N5>_A3djpcu<BwHKFr8m
z<5$*ILxen42ohc-x8M11Z`A<A8K4|{!}|IXei(hz2EE>07#TDsp6?&i^>&%(4+GZK
zW4@aqZzAbO?YX}ruCXN*G~GG;yjRk({^>5s>Us&i++(`Znc`QrHSnW`k(Rc_C1bN(
zUHs#jQa`>@MB66E-soscwZ?B;q2BM{6qpdw2@g2nbF~@*6k4Hc-2{eAt97AodOwNP
zg>MY?lV~ysXF-^y=N1*LKkD_>af)g_Q8ut^7JT&3HdRc)i3OxS$zkX2`AVD%9?d&b
z@kA@fFZdq6uY7{OuDTfoRf2cMm9uYK-C4$p!tL2Scqr@UT$ldoEAU;*g2QY9;7LGh
z254*8I5<9l;IJ`&^u8N-p<lv8dkQvm8mv-sa_qOFiTTds{2sP};*3Tv-2qGh0P;aw
zd~&5it1dgbx<a?rgZ;x-PV;f|uf~>q`u`^b>aG>`?q$9U^3Zi_KMlnentS;%1mxoB
z<158nH(``ES|r2}z4*!iR0q5h3I6>KI^N$}S+N@dY<DJvG~hVc>%)th0ABf{MTC^c
zm7nfVPG5Og%Xqy#FebZOgurGLrT6lDgc@)<d8^i+C)PauB^~vmp80MQpJny8s1%&f
zx6FyJ7rWjzvKObX$-%40!AHdIOK?S?eNaVwO%8rc1yhy9i&aBMR0YD6D8gE;%r)*m
ze`z*rJz^QtH%=bCy_)%v+3bA!vfJEya5FoxS<}TNw$W{wO;0teDsdPiI?9Jz#DNgK
zmHTNNayFPyOD&5c8fFD!X}_!r-3kjwXn4uzeBtO=)JX&jhdM3ywSwrK`bwSoS(%!I
zgHq`82ed49(Fw52l_kAmV<soWQG;ffAwCMj$mLblYaB&by}LbtG6`p)FAemw#QXK|
zi0c0avfA1_E1$W+`nf^7WTMtqXQ;)sID_+2Gli6|4ksL;>F(}OB4(OJ-v(b;pU0{2
zf||TDe77`)9eT0`XFX5yqN~t)KK;fJ3R}pl9>vx&eEekH;EHXuDp~)B-8-*(?;D5X
zR!_KGF1AVV@CP(m>FL^Jb4f4c1-Y1}TM=>5?XR^B4oLF2mOU-9mySg4>`GsW88sTT
z+n6DA_sD+uKxK`O^7b_kl~^q>#}*&VT=Mp0zf-;qcvU2l_f`T*C&B>tNZfdXsM$UB
z#=!RCAO*clI)~7H=i)>a=8-T4EhGWl2_Qbl4<wcjpCXNdsKjUjPBZYXOk|~1$g%(-
z)IWaw@PO?c&wlrX%d!?kzZ4c0f?x1h&!c#}=!j^%bd;6pf897_GlR5PcHXW=hG(;_
zs=;dL8iulx{7CRYxvy8xa<VQJAZh_M;0S2^y}=-^6EG-=Wd#BtzQA~zo=gQ*Gi5=<
zAvV+OJk{*XQscHIMxu#qt3Est8%tJgJ6HDi#t{$Q`$OpEA3T5kEe4ik%^!A8u_Q(Q
zum55ZXd%In@+qTvi25&7WppVZREkG+lL|&|3dSR%IGc6L+~!-n_wQ{9Lra+&{+6?+
zLU98>KVRW#Ka5RMgGZ#pZ<mE81&48e#T+_MKE!TP-(dZFBD*{;_60ea&O*kk2<IPg
z(cbPw{_v+d3Zfc6_g&gEgKiN;4GU}Jb`tk_nhq{t|GgwrsJfO`YO^!yNE*=rhQr9(
z%(oHxrFu)K=pUcm={JrKO1m2O-+I-j&X*!pcB=k<H*`R62x8a)#29u~B4ck1x$8bX
zUAY8ki1Ww3$olJdHkl0M_k@jfDTHE@?!B|k>*)@G`#53TkDOdohZ|*r^}zx`zsNnu
z?`vGB|H;wP9cw$Cp%}w1Q6H4eXh>IG9dq<JWA#qk{fS;Q+}ZMiilSk*@VdXOn0QKW
zuatyD56JGocdwAih6ua@%`M;LN_7t0M8I$1TPiY2F^SZR0~NW`{RE%v4@_QqMq-O8
zG&!cKekmW#VtA_14@?C7BwE5BaywhV903$_kKlDD#{h&O0K$QQR}k+hqN+N(*7iA1
z*F*EQ6Nr3XF(1n;nz9HC3IYR~N6?nJ0uB{OqTF(5)9<jD$_HEq-Jfpqr79_YvW^-%
z8c>=zYN|@&;6thLRu$L27ILY#x_auES)C@+_wU~UxdILL{9om31c4!VLMBG%fcHIN
z)&Mwx=HC~TJDF|LJS;;-<}*_qf&}sV7vqvUf>StO!Om@SLjr+^BRrfNS#PdOw#uVN
zgR)am83TS17$VWWlyh;ZNT_=9`MGiyI#q;Y=+s|7@u+FjL=|h+`(vnQaj`!gP3F-F
zk&Y&%qpq#g7Qs|N6SlS1H#eukBBK}{ZuU%vD0ZSG8vLBE_iBhJAm@q=OzIL&!>d1C
zYd|Bb3OK1jFU(9-PDn9rcb~|NS8TLY83K>5*Co<Eo&~>43GPirGHaMJ%KfWOx(IrU
zK#pH6I0ZNiU4K`8q~*VwjD;SD=+dvi*oC3g)s1Cjn4zN|7?(;=KDzzAT<9bJzGTzm
z?+x$8s#^kaU#X`@LE$pa%74Sy7Sz_(%2oe0>EEPeg%Zk<fJY6A{DwYC$X67yuPXGv
zu*o0Ipdcpvi}<jis55LQ_^DRMf{}LzgyXLuDmvd3#3%0$=lW-7BMT%)mJ|f>bH3(#
z2Ek3ELMIn8{3Y%AFo+*%=ld;#Nj*rU!~WDYu9{QGm-De_VOr?!eiyw=&sO&z0NR;q
zu)J#}TeRSUgM))E2dTfq{aagGGv7YK!@_p8J>Ffe0MsI=LV<jm1(Gfe1DVL+q~+mp
zA4;SK`{6&}4+13i!{Z||GBSPVVufyVEf}k)=FgT6cN8@-o@+=$_QaIc)k9}~|Nfnp
z=7%?*L2FibYlLo9Q(jouyZcMhhATtPIL4KNtE)dO#g9RR?9ixtW#Rcq%tFDv*Op@Z
zGjnZ|w;Z$@I}?phI;tL0!xZseLv<2iNm%?R4Moi18WL;XQ_MFP3kNO$b2RgZL_>aq
zj?0_jQuP)cPhi-P4P5w}d^c7ZOtB$f^@DlJs`YP31AlQ5#@rfBpe-YsNE&^Bnv#Q2
z{t=zc8{}~3u$m{6g6Uo)GNBDJvs{6_2Xs2R?cRJWETEyB$b&4_IRScvMoS;I|93xQ
zl>~7AC?;)aZj`y78Y2wsmUY*tN8wIqk3yUH3oaf_Q{!cfR_PUuW#ZT@8e;l$xmV4?
zD8eK{3G>*?5JZ7*CGE@QBeap6e$(03aMkVBRBkfR4X#dAZrjYKQ3A_bi<YIf&+PJw
z66Gm1&YK@zi2;rs#!)26MoV=E3uZZc5YU3-K;`)J^CNr;x%0Z9gCil)7VFew$l+I$
z980N1b9ugVm9;3bJTn&6Oz+K@)UznT*m-3w-u+?yHWyJoSGwpE{42<)(jsc~#2}lB
zv|HoumF);6WU;3}lf^7FgFrGI`&=?-cZ3?U$GQ%+v1M#67wtlV(<r8PrpcWern>Tj
zH9FQ8qMi+#Ju^KT1ZU~(?cx#{05`(88&c8M=6dmGXXqTPPADa<D304ckMO(D<<~r7
zZOnE~Dq>c&IS&MS9(W|tz(PSyLvNFF(O{<LK`yJcO~uMV+sTg6a(n-0>fiY;Jn_T_
z_ieY|SEs2@XF8TS?b%D^+YOFAtUpSUuDYx<VyxCOj#V-f%=}0+Ar4^mn?dL{CzU^E
z_4x1r%oX?q1WQG-cxF82wt;?fa&ll@1fsy*juxjt=*QyXB4EgYix%X>%>(^GWh;7T
z=f4b2bK*nQ-F3NDoZE7INRR|j|F45m5(F)7Z*TKuBg7iNGskPR0idvV?^e#(JlnGc
zJe>g0IU^$j?PqQUXzT#GYxCsSss1!-q0%k5sZ;J5Non@62nqQCxU~7&6g)`AA^c7i
z<r>w>|LQGgz~CK&lytn~s`o^nLIN8bn^?%(10=nH8Gp90pU`h@Ddi>EPtpns{VwU<
zd~sC6J9~R}U^NBslEmU(UI6pAv0+$bfWVHty+RwS`2+w%z1h*xC@m6Z5rQhp$`)SW
zF{$svLt%{n*_4jeX~fV)4h01T6bN+#hFnZcOkzCHWU0b_PXfCsZL|KRrHV@ECYY$l
za|H_Um#U7{2&{Lc$jlu2K=GT^lTPyV^aNlTd_d;J`+bwt;}^I*&ho(^d<Fdu9a|So
zqboZdSq>?)IHIJa<l@3*Apaxf{^$|Sti#u0r-5H?&^3;Me#`6D=_)Ya$G-5W2sZ+N
zXH<ANxfej)6Qa|GZ{EfZsA2?s&bUPBjl^Ljy<dTvFJSw}Pe&IXi)E%!seRd#L==d^
z4wI${)J!AmP->+N|J_V1Ve23|II!yz`FMwXPijWSbc>?*`MEADBkU8%KyGq2r~h16
z%k<aWFt^K-?+uKX%}OJJZovG>uO!?quSF-VzntVS&bT<ze<)%Ii%8f%AeVOAcgB&k
z4>p4$phy-K+TYokIUt}P5z8f>Qxh4BU){^V(AD1lIFT9-A;y;=X4>XeC_qr%bVAWT
zO35(5Pk<sezA-G!Y>|!m5qb^yc<gX!tR%#wa`DLw;0mV<&T1GTDAJLPn`nUtaA>ps
zR-izNaL3ExQ)%~fMjZIyxZjDFj^!Wrhg_%T^{c>A^8HX$On3=NWXQY;uEpd`U3y~)
zyh>-%K&&*L4T(-0dMEI@nGi!f24BZiSC13;Lw&~n>C}hP1|n0R#(1><epOdiE_8oq
z;vf;@C6z`@6u*8g%V;cSXok;C)eHEzGLIr65;lE`ULa)UL(rdiHc>4_!`*m3=fZX5
zee!MDvGhUXTQq-q@11ZLjkj(lBf}{YgJg!djJ`(v{m^LzJKzwp;@ZbFuDf@YuRJpw
zrnT2QSZ5Zt`@tf3xmO!vIcD`uwc4$@i<Zq{DFtPhpY1m<=Jrd5d?e#8CwEeJaLZew
zW`56KK+G-01S;VD&CRY0Bi6GHP`t|JgGCFFJBB{Qe}(iI_*~-nG49eH54~C3#e`D5
zb;ooUe=39Nyy0;Xqk)m*AQ+4RLjN9OL$iM&t6rV{P+z}(B~R@Mz$RZI1>`#L02t}r
z7lwICWrJhi*h-`|a6MfcK)0e}V`-qMe-%;;v+*65C5!21FaC752LmzuXrWrRBH+tp
z1F;YF^<3vR^`<n}hjTAO{}@8<H`zXJ6SVP)-7(;jBopvp6D$MkKd|OodUJ)Tt^igX
z*7HnTu-bgpSP-5>1LHRw;{XHJML~7#QV9;A7xs<yOB{fL4Rm;<Xbogk&iug1+grfZ
znEK5uc&aS}OM2NbKu4@2`N#N%+{(bfpdb2IC<;OTLpwwuXtMAIg(WyzEyDQ9L+<sC
z=7k7U9_egv2Qc;H9iFv;JLBrGbj!_1EFDertM^GMTQuL`L!dVZiv!_#r{G(FZI69z
z4N2l9U0K4%!=tq`zuSDn^3dPk|JHK)6QG3Vo@VhmgEh$h?ry{9YdfXTlW?u)jl4LF
zGaZ!Q%jiNkohvIVj@LeU+AZ_o3ubevD*Ra~or&P1FTl|lc<$m9D~B_UMu90<96o#C
z(x!(T4u&zdQi#-tOs9W)^5Ad)b%PsN+=0IR5-9d-z*rJ`+->U;KOaJmL3$&2GD$J{
zl9&NxWW77z9&JCQ{FYfwfqO&_*6g)JUcV<LWrU$QyPONEeUClL=~Q?%Tk4eNo?_YX
zR#><#E{=sl<b!0>{)Wf`t6W)0O-QIrTyuYKayMU3sHJ~TZ?Dr0k_RPAYVu;|0wDK8
zaSoy?>orY6*m4AQx|CcGcfx}4^;mRAaUCs{TK_+`&MGPkuI<(jE#2MS-QC?OB8`Md
zgOo^jcb7EMp`>(!NP~1YNJ&ZT#ruDU`-B4>q643`)*W+RGahJssE53dQsJr&=Tc5>
z=Z@^1USIBp<OnOLrS<=8ZIm_3yu9Sj|FuwOkQwxiLTgb<*Q?6H9`qTXu9Jms6o4gt
zstAbYdd{~#Hdr6Uk)@EG+Aq}RgPLNZRkIK}Ge~g5hY9u#rEV*Pc$)Eh*PaHa(T9nA
z$b)p<{a@tPk1$!Zql5j5h9?sYlr+qvDvzd=)GoJ9Z?gD8$jJK3%dG^kE%#jvG6`4Z
zVq%C@O+^ZWo*Lnp<mHu_115!fBNIwhr!CaO=$Ll$m?Uf}y8|{hrict`k5<~Ih~wx~
zCQjGbQLh&2T5oT;P?Y0DM0qus4OJ1$Ob_23L&KnYsyWx`LYbn(dhd()b>vQp`!thO
zEx;M&i7<*<j5$qU$j^RFVIP2=o~=kzkLtOp+}UZh2y+qXP<y<sN{(9#_C>xvsp25A
z)2le}K8-0xhJ~@_`I^yW>i#?CkCr?ZqS~N2CQE|7S{5HG6H{bzO414deukeRA|h`8
z0^JP_JQ%j_vgA)6EX)Fb-gs!XJ`iV!0dw?u)HRTcmze>-%lL5B|MkKqmXP#er_DY@
z8>ChXG5>^krai1IpFx%gy30N0H^+Hj@uA5;`8%7|@0;L8XRM|+4s;)i@3MG5q-JK0
zR0jq^gU^B`8;E|f1H4e5wRW!t7shW|xj#19???y%yjv03AnFg0hzD>t)Ysd50OFl^
zK_`Jv*T=w`SPAM2m4iVmqZt%MuDovL!O!TJPz20+l@ycoo$?zXWxXAkfZmPuD8Yt+
zcNAM@9ZI2V<J27TcPN1xL!rvxTZvkZQX2uPF!1TetC0#gnS!mPTfi7D5-vXE0B)t!
z1F#DF{CSjevez}crl+y5`V#@^1THQ@&#v^0@(mb7yWO5`07PzL5RzCJ1HlBK7)l~H
zDr_oCH2PV<&Iy1LviBUQ3Axy$L}PVlw%C`|d@DO%on|0OM~8G{sTtk&COv0T`x*#&
zo|%G+@C+|M*3Z7a>r-}DI&UqiV1WWgKii-I85NuIW*!AzsWd@i%dkh|O1&jACk+*q
z)PB$}?zZB*zLRam%mGU0TX1E@kqAyXuYHybc(F_ZzLPl}R()bp(uu_obsya`lG+5|
zO?tfOHUdFA>jg%;{Q?9So)%Qhv?-k<se??<HTbf$@cfL7<)H5!`@FdnR7{4^1J{B%
zN9~5aN+>2J4}M69&U$yoHudCE0n#L&5>E?Zx{H7w2X=cf)Lb{$+8M|R3z0F0?7oZM
z_r8CaDvngmD%uO)AkUXAtP{e=CeMc(+k(MAS$YlsERcpt-u#NB00cv;u46<am4l08
zds{)B7fP99HkxqCevFaPN&=0?92s|DAQk#Gi7e{Al}Ty8lui>IEP?kmOXxX8#TRK_
z2+fR)mnoM}D^6}{m2O3JyqQgz+aPZ;GVFMEIf9tvV=V`EUNX)>q5un0L_i-tyIwv-
z7wT7SnX5;cYcD)D?9oXT%$Wcm_jJ2wo!P}Z(r;k!CaKDS+e(cXxMQmM^yBjq79k^V
z-RHI$*!z5V9tOPn>x-$tX@aC&p(cgg#9RmCR-LbcoOLAIp{wur$1;#u(50*2T0_go
z=6t$Iy~vS_2<HG=XlN8`>#VI!8Unec@Ng^~X4a2(f$04Vy%J71B;&W{W@0{)uA%7T
z)@=kfb!EIK^~m22FljY&-FtWN;kY+7L<^%6yI9F&r^~vXtgYV?P`66w_>AXPF)-Ac
z<C(L5)6AtTq#le*i<<3(S}%Y(Cp2kNEx%K<>STjEZ~Ix|IPa56Ai%%pz5dX+`*G?}
z=U0wc-L`k^<|U|QsZr0)&q1Q-_Lzdu-qDfr*j}GJJOi7r4G&R|ucxQLfv6qJ1*#hA
z8OLvE#6$303PwbILKkFpX<Y;LgM~WOSDlYwwoyX_iIz@+>nQ+}lC$e;cu$4g=$kaX
zrV;clP!AxT9xi^XfPo}YYLb;v_rlNOK)#RgFGH(g)2a9$nbJdbB_sS&s9FRn3y}PI
z@iA5u^c#%$(<rA(%F01U3R^=C8;xUQV_^T9kK7}}%(VhwZ@>!%wJrSlo=272sJ~y`
zEvT!>e(5?qY;6Jwt}N+&yU!gk#t$aFYBi&}u<#DxDvAzH1cCSY;sakyc)USx4qP%&
z8)%R*HiKZhfLXA?m@-kC;uT6yN|IJoL3MShY?h-xwZ=<J-usn@o;DQ^F`c>sxalU_
z*~o4xgM=$|Lax5iQDg$V6jQvbFN*-B79SKD#%~klBscwTKt>3y2pK6gye((LR_-gH
zH>1Qfc<Yn>1<Ev;E4Ot*-DQUCGJ-XbO8*CdfUG8*Q-XtGAD%JUs$N-wO9r-grrL-Y
z_S;&>>sRwwaU)x-&F6QQd(O4V$vBd{DpUf5VP@X-_^K3y4=12&V65j*JSW+yhAP4G
zg)Zxj7eKG>VRJs>QtR2+<V69JKmq4X*x)yMdIQHLh}o&XNAR70r<R<{@!&UzQBw!`
z9Uy1URKCH6;NjO{V`ER^X)g@YB0X=@iwA73f;{MgX@Je^`cB`{7lWx0bpI0mypsm)
zR<dPh{e4RNYJ)u{@TM#n^}SlVJzSP48xCY9L--xMTYQWgVMU^s27&6Ulw|yA!Y^Y$
z*sUN?OS5Y(jF;~_CR^CYd1%d!h@g#bF~wl78P}YWBdB2C*e|Dq#nE48)Zvp613IMw
zj<qm!ax@4wYAtS<sp6ROpJQhna?=?gh0cp1<PIewAU&3FlO?pJlO_^&XVIh0otDJu
z`daWWnobn={3qSBh|*57wf}+|`+@@hxilmlX1ET-!k*JVgn+6?=B4Us4xE?H#aK+|
zT$J})Zw-LqHSsfAZgS*2+coTZ;`Xd9`E;|n`Xg$CfA7aNIRr2(%*A{Nsn<r7AB~Nt
zJf6Hg6;jR!c@%oXjP@mt9!{p^nHXd1pW{tn5waLyT#Y;I)Ko*xM|OWslZ)uXt83|Y
z`u2m_-u}2h6cI&+?Z!JI=qkp!;;6<|-2DCl&BDgy<293BO`Lp@!Hb-^-#g3rVqJV6
zwL)PAhvc@pjDOJJlv1Ljqrz|KtE(St_pwdFF743qT&qTtl<&k>8$~fFejB%sxaZ_8
zS;sis?!|x7?a(GB*Yv+H$3XUb{D=uJPm8w4jwD@#Qz*MfcbiZ1)dlD80<mGEuU~%W
z3LD=hy^R|CZCZ>5bNHvNP`7!0ow2U&J^9#V&BT(rIF5OO->yO)Y=;Y&TMBXmhCKq&
z(4w0X9nwR0cUsMK*{Qh8qf11&qMywrrR+k^11f6xD*8P|_pF94vVV(ZZfmC^q#aYD
zB}pXiWWL*g?Q4lh3Ve+4hm5!QYd2^vOS2=>)2W$duSM)l{o&ywwkAK19!ttL)-68-
zqj(cu2!ThKPWL2u_h8<GzCSc=sQm;#iGnw{k0VkP5_KH*1`0KiL(&l1U)BnqJ1jUj
zUI*$uM=iwkf>K`%#{p!Kfo|mvEjCdT_$ZKlP*eIrK>Ua$bwqwT;6dCU{rU4}YfD-v
zWL&4%FowpG=5@(;U_EVaKc<*SGj9|FsllH9W9&jgnHlP<?i-S3$RrMHpV8<gCJH>8
z)Bf<l&fXkM%LiaPYr@qwA(+mDQWX>waKI5-1N&=!W){DrxzNAr1WOQb^&b3F;^m5c
zf~ely0`Fb7mBb@37vn-y;3LNK#dwrAfHHR~0qndZc?SfP41d#Y$ADV@oGMsTP<Qea
z2nKmQ&(?v1ARqBQygl`YjL?%M2B$DQtbfjI@5SosDp<6=!;tON@xtr5Wix2p2gvl7
z+~XI##2K7Fpr!K}CO@vT9*y_da0vmqv^kX{;CK1rOOG8xww>ZO&DF;KK|@3L^!DPj
z8HVFK=X;XqEK|nqsbp};iX8uR8;DB(qLKj;61rzcnB~rp#zQ0}CBgcS{Ai}U;oUHn
zT9XPC9Zvg*$?{9S!ri~M=MI4Wti^c!PHt<=lSpiU<cmCChOe2`L-s}Exce)OWhCPY
zJ=U3l3PuUT9<BvRFIXeUncpxK$89gVIBXE(!@{7+0axWMaD_xMciAAbO#!?uKeS69
zk6Y+T1RtnkL66G)76d!9BwORD<ca0150C^{OoD8P4s-S-&4tKtd5NtBFvHhIY>2>+
z<S^6Ig2B~_F5DO6_6FV<kResWjx#cII$uLhtzaKabe45$p<mhUVU8@%`A#1_O~CVv
zqHuTyPh5-(!`RrEVPN7iM5y5%<%p&)nDU}TKB~Vai4t!IA=9@6RY5-qP^mdO1St9X
z1Um12Iuf9bNpZwQNB7a0N85zFGGrX|^AzCVh*yvuj=-kh<iHug-iL#z3=(>Ka{}j2
zdO88sgNH@_h%5W4Qjo9V1`UX#JSb8WlGs_>;&#k+Lj=lIDg}0q2?$D9Xr}vVG8=o4
z@%T;(y8G=eF~|*od)t%>_KsW**%nZLFMo(PSS!C?r>0ik9iLUtVOpWgOR-c`VR`nA
zZ2}pZ`4Ynx_Lj0Cq04qVi#0zMD(9viJ{^A(T4@-MpcWL&SpU<`^GiFTnV?ru^7F%q
zxXjB;4<3?qAHUrGc)jF52ZZ=T)$2m_{1+Uwd+zY2Q;aUcBk}y)KZhc_=&>j&+UGc1
z81L8+X%Q#DI09Ja=^+F}G?#QcRF?xCMcO_ABMR*bUlr!@*o{>j=qZ+;%wSv?=_p%p
z7z=y1>^Ga(5}Jc*uG{*I4=M4ZqoRT;6crIr2qaqJFAK5!B-_r>k={;3UZCkB)(wxU
zV(NkSDs*?mJq@CAEZ}ontDhLz*bM4;X#bQ#rk(1#wB!V~q%{kDXWEz|JRJHKu%Ir1
zm^QS#;lY5kDsres&;?|JF`j5$LEy4BS}9FFvWN!d0KKAY0C=&{iMre4QSc}%>65Hj
z`hNcMp@$j3xe9mtO{re2Sq3>Q@j&t|yI_%lGVT62^y1igQ7i-XE6RPyKM%H+WO;~_
zq+|fZ)R2Ld6_wodkki^(;d|6x@41&kD7XwIRzP7Lau13v1Zt>M0oF_8ye7XvIs~l}
z@aq~5U^>z_-5`LACN14OZCyWs5sb*WnW|zeg6g+b24)_bFwdJGComg`LuLHTG2Kn&
zoQ{DE-%NZ2+c-Tg+drir`WQ-o=p|xtPyCrso|eIR#19sp8S+qJ@)+4O#%o1*9@C<J
zrl_P;umZqS&(!&toaqg>onc`J+SHVkQ1DjBOPXXBKo@WWmi^RFs9Bdyz)cL~0CHvp
z<lp<fo!I9nuv`SV!v$A?84dhb_dZ0^sXlL@`<W_D;p<3wH5L%GQMfJ;kJ@}QI35V+
z5K2#g0sLGU+QxBM$K_^DUdYQI#H(O}bOBxgTpIz}F(EFltfG1T&(k^H%0ZsJGO%sK
zBy9Eg6H5wNcX_kVt~y-<emHdrPV)TcP|?yij4I(4$>4i+FJM+6c7oB+&N0Q@D-6ik
z?_j3@v1nnr{Gh{L3ti=x$A3TYPZ0Lq-7_6|POQiXlW{OIN?35Zxkd4ZIJ~=Ad2poE
ztx5z1fO=eVbiU?oHgZ|spGQWfL@{S)%P2fTJ_i;>wba}gX4c2t*wR_0ijqesN?iK!
zBz2)vPa@14cg(SqUld;-h@;x5o?W53;{GmXXOlGJj{sl<$s4YAnQCbwRf7_dkbOv(
z-d*=Scx)i1+dDWgmWsB&sY*!R%!4JfVte1mXs}T1a*?s|KLfu|>)__r*lgVG?!p@*
zhfPkd{uDMT$#o%;$nkH7WH_SS6@dER1)vdh)zM5hO4aYz4po^-xs|Y9@YTyD>O=-4
z*if}fL~W7bT&#mRy_g*<2^30Ek^hfJ^$+6^mDu#$Ts1zGC<*r8+(NgvxAD}ACM9&;
z#oF&?^&v--q*$sP>;67L9{TzO<=bE`&uEqMx_~YN{_~3%2(Tz~RE(C@-Y}N_jfdBf
zW>N`7r3pH}N|?C@R0=v>T2wf0|7$(ajN42Gc0|RR>O+(K{CF@0_fMcKY=@ePih#&R
zdind;5pFDN2p%*%cP7x)dG)E+B0=WMwfD?k`<Lgv@27!wOgHyrr$$co_Z!nVuN7TI
z?guT&X&DQE!>+BHnM3QqoGq|BIwZ}f_Srj0Q5*tENs$3XOKmNNW%>;GhtkH{riS>P
z`*0xUBcY<&&y-=JZma^~SP$-`%sLMW2_fO|GOWMzr}pu+HF7QlCDOBDLjPxFE7RI4
z0AB^H6A|al;Ll#4>JZlB<1tKA=w3PKN3a!c9RF^}Fp+`B=`}ZJ6|&;5i_+*NvHq^5
zXlzVo`O<}R^{21zqhwC;?zW|C=x~98Vv`a(&nYs8(s(SS3S!{=441tIv~Qr)rxWYm
z11X64qXem}WAeMgG%9fe(S*IXQy&5kK@cWn9w;ZlbB3?<5@}GLK^8FqcEf<!>crK`
znXmIfJO`ICjU0_$MyJM@bg?u7<Y_toQqa@Gvjez}f1R5pmIZ`$v8UL45xC7rD`wOs
zU5h$W)$;NL!YqofupkfMe8V(wbZnBjqzRQ>h(xtbQRwD|IE`CdN%z3Nm!%o}!3HPN
z@p%cFX|2VAk<m-Vplsv@BfP0rgD7E;cI9i?#Y1EpmESC&o3L<+*BcK-+C>~ECCe^b
zf7+j*)Et2FSKcWN{Gx;<Ur*(H{vC``w#^=pZJ^@8R%AmM(Gu9A%Ccb;cVQ)+1%}yL
zE&#Me_K}MA@6{CzIyV2?f)p1I=i&#kBG8s4%}4GT;8NZcV4Y<>M2pN){-jc-hNH=%
zr>4<1{AP<wiW!HwxSgh(_?@l|t88@#_0x>spH<O%iF-84DB6%<0Z6T`FAOStH`ibs
zIlX<cwvE(<5}#vdGLEf!7GF%Y88(abbUvEbCHT80@mMJ7LBta;yqTK<8`zHxISazJ
zQjF3V;dy=4^<_vHdn+QMVvf4+f&(LYLx@SlHHuD?WbI1P!idOx&*4*s!28W%g-G2=
z107qkUj_c})1Ec!I0R)<vh$@-$miW%EQCszJYH#Q8nyN(wDd&zWqn1jl70qe%Yh8d
z%odSrQo<Ujmr)tSVA+MQAHE2o^!e4>+j}>gnNr`mp|&X)?(gpph+ojLJ<l2Vfu5bo
z{Vd`#I);WQ2`{J-LQYUQ0ybj-d^KD(wthMzbg7x$t4M}!9w2160U=!<hsY;fe0^qU
zA<tK(;*UG*eu$HtqU3eK>Cj!Z%ni{TaQ0Y_fF2>IZ*gHxm}%u6ezD(s-P|mIGP*43
zHKxnBw$^?10QfxW)(3Q#AHcqVgX0+~+UF(V(R%lIklYXD+@)E+JqNKrx;nWxEiMkd
z|N8iMP*3eS0D)S=V{QeFjA^uH#K-$9V_@{5-=#xeJ%VT=iN+#LscyiO<2TP&#Un^p
z(kKV}0*%&3neX^tQ>rx<>|_Lm)C>!Z2E0LW@1_T3x)avk*VlJ@>!~zFdf!vKi3JK{
z5N!0d`Fr$w_KciHaVN&bAKx3{z&pTuo7kw^1D|kdFwH7@5&IM<>0*LC$R4ymIWr9#
zs4qeHK!`~Gn<GNg+xs5WF<>H6(Y`wf<v;vhVO@eHmTI2zi1vU6otl$M`f$1weVEpB
zpc)+I#MK04FuFv=!X|9j^({(mUw-<E#>gc|KB%P&*a`|4>!Nj04~inn-<>w361jKc
zl`_Z_-!iJ)+r$-0DU_Renm)zwuTn_TzonhV#gDhYfNptbXKjQi_+#{++|aA?csFr6
zI=Pl#Z^FTpg*Wjn3_7pv3}7>J3r#Ry$a>4~ey!{bA==&q#O7Csh?IXzM}gz~VB!nR
zz@RsYJ}A1U-o#o)=R@BHz~XNe-T~Du*vw4Snn~9i|074<$KNI5diTo6YMqLj`pYYS
z!MDBvZzUz6JW(Lpf|*?dU?wUl%4G!^cq8g9sW{`RDEYNnGaKp_)E9yl2r-ZVr_4)c
zHe53`PF|2v64x1^f8CaDbBppY49hu!oQMv{pKpdAK%>KkGg5T4P`3r51{{Za@CGtl
zB6=l+Nj~`PHDEkcfs1>vqTMeKZuQkCkaso;mb$zdDrgXuc_*VxY;~fo4A@BUvId57
zn`Z6E);`_+@_WfV0G{$ZQ#BnIe+FyF)3Cbl#eC;e3Su*;Amk?;i%B6b9vY-h+~H9T
zPK4jk2va<K_&bvbZh5>P@SH<2`l1U>Qn(<OHPBr$DCe;}P+j_QY#0haX7&p|{h=oW
zIWi<f@u2@;x)c#v<rml<hvQeJ|LfzKI0yXJGEj!<X-dGV6Gg_xR_j#}p`O36qiS0{
zH!@DdATZY`%fJGr#Ng_6kOJ|&eu|5uU`CxR1Wv|zk|+lx2=jTyDYq?b0Jw94zJU#I
zDSkHE)9s)*S3M~HZX%4p38#__?THTg?50)xHT>mz*3sNCVbsf+^P!%<Hx2w6{;g~x
zJIlVIEkhYs_qg9E;kgB}KKOKx=2fj<2mKTfrSJh3lJpv+=IVGI)xbcabX|ws=!bgP
zxD2!gz{`@<%4*a)Ge7_O7`k_;ch%=o)j5jmZU@GG4L==_+1kLWen$P<$HSTTfY7HJ
z{$qPOFh;Sy|L>Agi^=v+b7vxFWZDdpw<M>5bYaR$N>a3LF!OiH*3(l{U8XJ*wY9Z;
zYS4|^(LO63xk_(Pzd~;vgnJU<P0&W*GnQQ9nqui`$SefVki8_CeR|iFU+MBb=TxGd
z$NOwuQl}sSd;(bC)XR{(fLz^QZYd~@-wdZ}f0mjYeSF%Rdye<^ZU9x6o`#0Osytcy
zo$2u4U@4gU?MD#S(T`E<EkOH!VS$HB$;Xrxb(sSO`guuFcp)YxBy|jBY(`a3!}pQ-
zn}A3KjuPcGHcwv%hw95XVKnokKc)R<`LW<R0&@P3M|cGAXX^w$2$vL`biz(jW+do#
z1JXbmK^dCvB@=bKK@DkE@l9ZvMe4V^ARbTO(!ied7qmg|!dY!`rPqdmz=!Q)<|0D4
zCH<QKeLeopCShKv1dAwyrk`~JoC<ixHQ+x6Z+H8OG1Mmr{AZ{hu+`)I2_|)<RQ?SD
zFiyqGa1|_Il!@mZNeAvXb3*G5aTI?<4{$apWQ)P11f4|S3~W6MzV!4+QAOx$Ch1Fd
znXwprvxS4%f&jHWH4!=iM;Ap6FRJ(!mJH2T+!2^AyDzM1kmH>lSyvg#R{v)VtbS^&
z>%ap#wd}HoQwe6b;0rJ_kWvg|?wW}R%|?5_16)>a7?6Pk5fKp%G2epadFs?y{0a$e
z;)HAb&RaN`lZSsHOusstnNhWX2=2+!eAZUUUG_tXSJroVgTLsjf|d;i7Y@XHm2)b2
z8s5k8BVAvcabDKYP+jjd<8jN;4_Le?->jT(4Q|kKaagv{)l;dft80<h@g%Eum?Xef
zOW+M5*+RboesHDh@=2RyBN}NMTQHH%S93PH3i$p9xeY9ifl~8yv>xJEWJoh&&OVIi
zMR}Mb;4I}f$g~#O4oqb(9u(Lj*cB>JNzj+a{d6@-s*fBrD>QdtD6j@lL13@4VQ)eY
z#nlaSq4rNn;ZK<vsK~C8$8NWWlL%sV!3`<<ByU}gO+5x;g_gY(tna9fCGhvr%DKxj
zGBdwc?gWLDC$W%+HVsQjFKCd!QO3*6m1$alt@n(C5-W@JU>(FA4H2;%K*I$Y&Uy)q
zet4(k9`1OkPGWf4rK}BznD@OplWyM%R@w){UjY2Y`8%{yXB>t`+E+C`k}@Fdar!d(
zP{DWbs-!NzfRTlqtvx^8ykM5s$t?m#MO%Iodc4B$18Q91;6ghTbo4=bXATLR&VF=C
zl9FE|Da_9gd*a-uQTXhk!C>LetQXp=4klGF2b}v9*_XJBN_VS9&8MK4UT(0C^Q1-B
z&Lxbj8PDR6BM9XG{$U=?@{H{kZ}}ehdLgDI^q-3is8E>x9!w*Q=W$sg{e*fAHjZUs
z^PGj{kzSIJml+t4!eu~T|1s5o+**tOBfL_`!RY8!B}B*e$9Q@GfiW+1i^<emDCKa~
z4t?;Mv)#e7@gCvv1F<U*!O$QhH;}<dcNK;B%35kNST)ipZ4FtrrhM7`8PCQk8F8UR
zl~}+J6c?MPSkObjA>PMjB!jpKAO9<vW>*6jey_{lAMypA5}FKto{-T%Qgp<^E0A>%
zjhOHFB{Sytza|L_+f7zb>ZP|lKdwFhd}n=2a{p=sobQAU4K{xZ2^21~9$1vXo@o3I
zN<8O$N*^r8q7=}I_yTqm3c}KP9=@?B)SRq+YrF5GH;U}50wDHXDT~SPyVa}ELq+(s
zpq}?tqzUM5%4~<R!<NVmrl>k|7IvzcXlUGi72xaGq^^1%H?J6JX;S{U`|W(Bjl_vd
zoAamE`8{eHafqq(oo-v~QfJr%^YpOAjYwz5<DK~FUpvRea|nzy2oRI>SmN(6+RF=B
zHKt9QK1O@g>pPI}*^s%bjb3?^jK;uQrX~Bohk+iGi)JeAWw}`{;YK43G|(H!tL$^$
zl$=$sYskvc+Z5u4itKOL(<zE<Xad(c5gTQFTVm^xmkSK)Mxs7r?NYq^I8oEo#P78M
zn!@3+brt7s*cPXaK>g>8<F8udpNB~c3kwyc*8m@tYaEneNS-k4kB^W2_8H((HF={r
zjwCfL@A4Tw-SE4LFH}iGeD@OjZC{-~)Zu5~{>=M)P1r)sI>neM-dJ4J+>rb(xiN0!
zj*U&4u>^zPLYu6s!+9$di())a{Fj_}mEk(phBT0MA^nJVO8RF`<;hD&X9bqGU95sU
z3J@2SOdiDaZZ3ZwJ#+tj{PXd|tE(%eyB^+bbQoz#FsDUBMWsy{d?kCKEG#Rn!G9~c
zD5Ps#WS|*m3<4kEDqT9@%OaO#4L==E79wm7t#g&c{W$x;zH{-(@*FiB^VB?_-+r-g
zAt24!*?EGfFgrfJs}oph#KG3r$;k<f3*XBc)(4%Na-=7<#9h{suKfcDS{+b|ZTMc>
zzuC5|hUM$EP#FLrO^vp*NS+pvb@&oe2xvE#m((mT%j=fj;QsEiJcSE@Pmqz7t*Zcn
zOOXG>c8TxZ7nUI$Pjibf&ucS50fu)(U6X(r6HZSmL(naI_XPOwlK;lwO5!}rW{nlo
zq&O#VklR5$^?WJ*jE#fS*BP0UQA)v}jq>vjxgcr{L9-q_H`!R}4l+_g<1D?<ec2$j
z^fg0hi-ZS@`aH)gXLJXgUz<Qb@6sQMOCr19HI8x$w0H!V#nfZkXxaRZWZLLMCO`zb
zRUjkoX2EbEMy(uA1C0@0M#Ima77+9i95WMhwsS0M6-nKf%O_%QY#(Hu?99G4p%p0n
zdQnI$)!FwpQ!xHj=)9SqIT6gy1*mFRjA(AReGPBt^)4tW4Iue{kH6QA7LDJXREx4;
z!9c~4FAU;IK;b_STfzw~4MWhdQ{(qoar-9Nv|v?MD+I{+HFOh>=2?Lb+2OZV{d;XN
z@q!bKwTSrV^6$Ilo?7|#Kun429urwzezKf}ssh7O>o*#aWw!^<7PT8A#V66vt;?pK
z`*pusx_tM3y@rJ)*xDLZQeK%umhyD}Zn+|aEjK#)i4N9Khvvsue!7yrclWur(jo8P
z@2;CpH@?5$8I5`WKHHmytiyYjgw%)#QxgkUR|yJ|8}s}3E=YmlcVzn_Z~aTDl=0tJ
z2G@O!HwxkByQ=(db5?xBzw%nRt<L@$JU44zp0tTB5jQ!e5D;YkaDCfp)t~bn)p5r2
zQLZ=c&-gXtPp@@nsfz4jdOA8#ZiHzgmU63+0L>;{D0Y+m1*_FIIwmG&HjY3`cuaQf
z5bY2T$mi<G2;9z?0fK-C5yR|topP6##fv3mfu&|Wa4_k%IyIzHfr79t9an&V7h=h8
zw-BF@uyMvh)$$j(?S_`}4Z}#154!6D0s`3PleL18hTX~oR1!#HrPFmr?0+;e=*i-#
z!*SP?r5eVdd<4S!e9{97KQrasuNT|34X-e8`Squ?caSbEWFZ`|VgRI&C^bnUMU+Fm
z2K}><-g(a?@e>8f9NhPl4_(n$QarZLcHCy>;2{Ab&-%`=H<)$zXzSkRo3cGI%^@i>
zgv<%=U^v!)f@-aQWU1()Xb4Ek2BRUvV0HrAyR^MWtSHyNq(^ADiBDMj*^_J3Lp5pe
z&q7`A6PnhPcQ{;S{jXeIFS#C1DBNrd3M&80^8F?)G8+t{W#9^!yglFg?Bmm=mYtdr
z$ZxRoG0us`2cqAPPHoxkC4hvH10n=UOX&%Mh}Tb4{Kjoz0NRDu7H4^fqpIu#pq&DX
z-$RST9(KJx?Dn&}`1-mJ<BZ@>$aMY)*pzZPgJC%EQdu=ec?QyNWlZ2>XT0xkNfl&s
z@Og!d92ABq5De!n;~{|8UmM*M0}E9fiFi>P5^JQ?(jF=78eBaI+aM<*L3zEoS2ltJ
z%#s}Is38VBS*o=Q3U{BskCD!po)+>AfL9PvGa({6h2xbgMw=$RYdl?_rOz%VcB+F`
zRZTm_kH@!}HpzslQ~pF_GC2O8DTMOsh;Imj$GN<^l^2K`H2mL%oEPAp2f;-kJ9`3;
z`~s>d)Te0m;J#Y@VUTbGpN2%pejjd*lP=&)1yV85m3Da1%nVu;NybM<EoR!=+lRtl
zjl1Rj+1S`Hs7fuP3glQR()Owcms-TD2rdD{1rfUij_hDx(M?Ks-CTaqoa@jQH7^|Q
zmEQcF9j<ZVJ)`B-Eg-VyB(jHs3XQ=2=yXva8>*P(W<8$V)~+`^pqiy(F=#tqonkyI
zY!!`1fM<v*JV8PrXCE6TDs#G=U~ITu|0OI!&3dQoPmEU_9^`g^5~MwYpm*9w=eO7k
zBHYs=rv3xd+DW-jMQP-DN*oqWwVW(tSK9*~@s%u>_kZd9{CbBH7U@)xcE?j#oE}>(
zyP=0UgOPzjq|+rN_$L;DO}daSKDPGZ9{q``n(w+U5ekE+h-0o8{oeb~>kV^8)=4sP
zm+1;WwJHx+ajzq_xa-i9gdM_z#fkj4_QX5BS2xS>ybk|-EfiYzoz63LQj?HNS=C5D
zfwtw=EBFJDT0n14!AeO<$x8p#wSLP^R%dS}KgncVYHCz4#}&gwK+@@uK5WBeFN;&R
z9P9rMbhDO~hzpl~+WRgO7p3#<bX8+kL2+?$c{~?MEcP(Bq$1Q(`oGQtG!5<gXl=*r
zWkOM=3Jhpy^oWJHj0MZ$&u5Qdx?e_rI#@fL=30Ke7$mi-qPF|cl@+AFGn=Rg)$iJ_
zPSyA--yAOtPgDOYO0F*b$6u2De!4XtwN8%YM<ZGp3@z)Y*0FWCsfkE)*VtkXx&q2g
z9FsoOGIQAvXOLLj`GjLswlU=mp#7-au5HqC2(QG?5-5{Df*vsZS{nIDRsfOuZ{vQ&
zE8g_&lrFP&@WgVvV}w5%4#afRSp8P@BBcxX#&_3Y;uCa9LeGk{j<PQSm7RSe5Zzm)
zA*IWqzMPSlnmQ10TeQiPY~2Gr<;fURfXlj>y-y7d&AVl%cQ?qg9z)c(QO0Db$rHot
zB$ch_+1A@|Dy2)SAriqrSKzBz`dI>-d#9uw1Ltd`aB#m72SeP-gx<1KKqvz>P8)Nl
zR+bS?K0YkoQ^@vvkSB03pgHEoq9Uq4;4Ag}U7s!_h5c%@Lz{uZwh;cQ0A-*Qp3{~=
z!s|N*Y}uR106$s&-&80SIt)E<BMr!}1GWzmxNc+@zOX)og^$P?ysIovy+5ej@A&(~
zJlEfgzv<*1`PB}`p|`U~hCrLWCOUr~tPt723h`?&iGar3S6wq18N`k4v5ZJG(n#PR
zYH1hA${t(oNnwt8$B=I@UoESgN)Y}ocBg1Bi{*zmE{u4SV-lG@0_s$kcuUI^&)E2P
zm8_CdO*+_aGOR+Qf5VgxQMx6^KR(SBE63E;Sx&G71e|1F-;LvExiy_Nh1}`rEZnN;
z;`sOR*-@Ms$gr4E->SM^pC?M&WV%WGW;n$EtH1pr9VeglAGiMkL+hWT3Xk^;lrwUo
zIC}Rz__orb|5Q#oh_wE=2`z083lRwL>b9ae`dP=7oz(H86z1MKRocMq+_ABYc{C^g
zdNfMp;-R_L;$HhL#hF%BdwyYgxzW3W@<A@tYX}3CT3KMZ<45D$CMuNJ5b#`k->{*f
z@}B<IUIgCC!&$mTA>a1wKR`oD%9f6gqYoTOn_|#J-(Ht!ogzPe;}6vB_?sEG@N}Xl
z%$XI91rtY<u6wj{tiIMU`|a;aopepp`}Dt)N54_UJ4Amj#d}X~$oBRff++`B{$Z90
zdXR|wW|xhpO-ul@`4X6(r1^nBNFLBVn2VKiobTQh716M>vv)Y*?dtTbg6YdzGX5kO
zUe5xpFw#k`!GALzDnDIlQ%V{JnGkYj)w-2V>UqlcH#_*%&99lWSYqEk@0kC17Q-4O
zjl(fxK$vM7&bX(pyjp-BH&62W;AsGiJ(D4tp`wO?jmmqNOF!!c?EKQhFE*oWM!UZS
zcQTGsTV>zAzT2$dzGS=>@)Or(y`a`*qtE|5(J%~iweG7Z@L*<f-)QdW#8hOkhqt5f
zup)<mnsSnI!H&5Gwp=2={__t+sXjgKgW=f0!NGNtph(K?KVpMM1`(fT6nQq5Mky|f
z0UNkVAqA(}x;G8bU2^`}rKRvXLE$8$x_Wdp$-MRk1Vpx2cHEy^JAhjNo4zP7*W-lA
zsC}VJlixwXLt9=}@kRk=6)YzI_JknuIV{qwMCar>gf`x3m8w0hcN3w7wO#*V---uf
zU7vs$cH>G&U0-!`v(`jTCfI!=%)C#qxV&IFmday&t29@|J*irym$`U%HwPSqV4b&d
z7XE5Ff!dOXlsHPP_-H;WFfh7QJ&jz{pu;}P4T0SV?}i2+_l@L@{gRSi6<5LRO!<A7
zky5{yqT)_GWz5CRI4Ses6xF*}y%!4t?Y5bwkQBC=8Qn|?%18GDEgTF}{pN{U_bNta
zWv&`Ii{dz9K7~cCv7OKJ@0d*m|5}hgu^GI}H$p0ez?W_b<;Y|)s7E;o&tZQCG>zbK
zEo)GxhSgf$oNCDp)<F%gF$roI=6_)g{Rm{#e{b&y7n`2leSnqd@g5hQy!y*zDl772
zFeobVGzj7KPTlD`R@>-fknK4od?>8HsJPU-!9b^KI(!*4j3#<(Zmx8fW_}fG*6O<w
zl9)QBWxsiTM2%qlc)U_U{`hDMtdhRBi{C=?ma{o0<K2fh7TN0_!K4#7Z{xzlYlr8h
z`m&Zj3K;?EASMMhwZ(k35y;d-MMEord;*OgXsgCM*U!PIooQ!O2Q)z+mYdIk7+Ii&
zM8p%r6cnhX-nL~g<>s>?r1sG7f2P}lktDEt%C~0acUV>c<|8E~A>bMSCDN7pcdXnX
zPp|h-xC-T3t#G}3PWeEqMb$M`XJ}bmQ&a7{1#MHLHBeP&@eTOA=;&ITyHQ;#OgbUE
zIB5r|ES$i*06CNxzuY61s1Jl@W<hu_Er3n8Z#6by(q<J(0Ce3!zd1Q+f%mHOPHq$r
z$?y8jQ#hsp1)-eO61XveH8u==zF_!Z8rPrgV~-R`xY*<*?Nta_9jS5PU@99g@L_u#
zGr;{772&ai73=L)E>W3;0&2kbZ@)1WNnv2xeV8nWryGcy4|Fe-|L{cvT!XbF{;(-~
zV+mi85IN^6?=&DK^Aop;v~r#<-Ow-+ude^Byj6M|&;2g^pmr%o7_Zr*ABh@wO7htM
zcX@+ZFZ3~oSADf=mQ*}h>h768gj%R@7#xVP&4nU2$0*eLljWAOPdDbt<a{dA-|Z<s
zZ?~xwfy<A1JeT#)T4(y)<wd2&W07Jju$F5;=)z(&?dDh>$8)e&kuyIs($Zor#SzoD
zs5)_kJACO;%ZXgyQ@ZnV;W=LX_DcHmxhzx__r4v8kk0fM=`R<qh$KiBTbdf2Teze~
zhbL9NhA4fZsB|p73|qLjDDYQj3<K&~+ROx)BJn3URz7vBFqtd(QNuco+=m8Bav8G~
zmO3@5cN=T2|J)~Yg*Mv16ATyu?-2+f%Mde<()I0&hyiUMF@W8IN*<^sUYDwoo?F4b
z@&aur7!`m-fCj*Z6m?pc2<kTFA$nbH_@>5K^xVeG%4!#UWWk=VM(kQ^r|-X^xat3_
zxtg*m^!Wc77=eq!4KxwwC_UgNc3k!Q7(#`Mn_^J)tybfH2pvW6IPKj8#m_VoyvRLn
zvns%B1&&*{(`;l&u7D==I<<TUoT;NDD*~DLX<)LcCPaYgs|*GLj!vnXn5XMMzOh0C
zxG&%Amx`EwG$PM-DNh`aWq7Nr$Fx_sqap>uP}YH~sLKH8#*t8YNky3+i+$Ho>!I&T
z)aUW>-<s*fJ5JMqL~1;Vn=D5+3cRu9Vr5JW<*0*$U5Ay(efGcLNZ7m<nPei@P0VwI
zYsungUub`0&f2QTj)gT+P@qI9O7L`bZ~>H#>*nvvS*d$b`~%9_pl)|nk?jZx7*?2l
zcOqx{hLd(6*NfjuECxr)k?M<OYg6&iNf-({YnfNR7(mjW>d(RTI~E9rdP9T)2+)$M
z$s1AA_RLsXT8YvciE;t9_t0jmKbS>tqA>l3-!{<*^$(%+9nNYEa<VWL7o|&rOZMC6
zdz@)!fxAOpeEjPW4h)KlxVUPE6=+l92I)Vy(Vh+&9lfg$$_T$l_hn=hqF2f=L!y#D
zd~c?*f^~4FG$@j&&<oLrc=X&5TmeI;lzl_X#b$q`@sCK&<A*z>i6+UQz=ef+U`SyC
zX{<-Vjasv~O^$f5tR0Jub32DMN_ptUqo*^54faX0N6kuVl9Jss<=Vn-`}vhKFp$07
z-O$ibFzKrUjvpXy1JyOy;;jI>VR3t`oRiZT0DJaa4=2$BXQLmm8G`HW6m0!0uSfr=
zgWD-KE>0a>fTXJ?Wh0mDr;!g#kc$5x0^p0T3Xq<Neo$0Uz^M3^1}e~j0f4qy`6A)|
zot9xpz%mleFo45oiYWh89OG+$1eA%ZQ={z6!$7~?u}OYMV+B#ZJFgi|3z}nRFJ7!f
zsFW1ut|)xsOdiICwx($GF>1WuO3K{5#S@q^NGd&=jmWuBjww_B*qIEP*s?|57)X^%
zhxNo`P{Se@LeB!M0}zGHSLdMX2R4JywxpBAZX<AwvT&^4o(p-R*F)FkOB%rb*%-b)
zL8d&5!2U*o_xTH!|H)8-i%yQ{+qD`KXP0`|XM-wS^Wa7p=xE^AEpYd2E(Zd&vu3T<
zYX_)3h-uo9oterZB5Deo??v}913ICcoYKg@`$J7cf&mukP@6tS)J-#soN;)F>v6F%
zZgMF;0U<Z^Clso976&2(y&R~Q?_{%!p>+6H?|k9pVrOaub4J3t?ww`=ZfeOGxC&bl
znR<)21`gD+8Q2+W3*JWI!Chfq`1Fm8@!e^fvDDfm1aJmk(yL5tAnqG7vNF(e@<~S|
zo}W*}5xFJR-EJrO$W5F5c9KJQ6=tRBFRfuUMMFv!LWfF>m+w^U^N)XdsX&%eXN-Zv
z=T=TGl&~pa;avJ3(#Cw`TYlugG-G>R@fU~qk)HYoWBQZnCU(CEEB7Y8OnYM1i%&ve
z!8m$(ef<Q)h{tITyrazj`UVFZKA)|30}<;J2!Ky!?#llIauCL6g#Dh{J3F62)%Wo5
z08~QD07a0Uovn0mdj9~#I-qu(yF*~q&2|0%Qw6R*fgR(EZ4U4$`XaEe9XT<ep`gW;
z(}>boxqEQg)(l{S{W%fPmGqI#Ksf?iw%l<N=*MTz6tHZ{0re5M9zS`#uQ75B7@=2B
zZL-yUC66d}bv_y7BoW*EOju+l%p~c-fwh3B5?G_7!0CL$OMs#+na+c7sev0#0Bny@
z6PPsMFnodT!htz4gyz^@&JS>_BFG7#^+dsuNlH)05|~~yQHPQM8Qm2SQ(*YV;wi~T
zF2g6V36ElyX68Y7^Tm5adlqOQEF`@b3rbV4EZ;D60$@ov<{~PwikVpn&^VXbZ%7?z
zo#l!a>v`GJH-?bmLUz}nU}zxlEu3%!5kDEd{(a{aUfR6iH2nm@Q(%O69_isjR37W<
zigDn1>vRn=1!;=|Cnfo9u<eZu4L@s~WtjEyY;4eSa1fCR(>>w@?gH-@MV&Ewm3D|(
z9X;7BFpi6UER%$A>;^XN9Bm|WiHQkKw5sL!B%4v}^DZmb0k#D$q@>jJJ2hm<4!6l+
zy9TBC!t!zEaCYiwe(3sc*Ij1e8)j}f@0#Mj{lArLRV39gK*$Ol5-z@P{{i0W#sa6s
z!13x2;!LAD^N^ob(>6T7XZ>Ni<R@4suw2~N5E2q@Rz(7@HBN<&2JT1qqdC>jK~^c)
z9<si;{<{CMCBOs5L<icv+;7QgX(lZ$JC!VVcX!pPH%ZkJnLnoncX*|@!OggD^Ve3}
zxekC*FTjhjPMhWfmwbKlmITAp-&R1W^8DyRR06uOE4SkH&)T_s$xK04l)Z69ibju`
z#-~g0@DLTi6WCqZ*iV<hVPevWiyuglw<GA13F*w0s&fvZl1fH&(Y)hzue>@Wop7FI
zI>21^x<nx)oHF_u&&{#BXAOd_eB%G!f4rRdG8NN-h-fM7F3~@g^3L<msnJohv%xKs
z@Dd4`Ltwtu&nd@c8|bn=^O@<=qfb}yWQwxV@ok!gfq<Fw_Iomqy@A3s2c@nV)Pl?N
zQ$2uIl|jAx$XDr!hNl}87=48w572IQ;3WTmS(JQZdwr7@o|)NgWFsPEVDK49RRg!d
z)R@T(zYE-b$pGFG9uZ5%8kBdCHoC?&HC+r<Kv^}1#0Fg)UnJ{ItE*V5HdV{z1ho5%
zNm<OS9U;!uM%*wJcE3A*0D!_2sH4m+Momrq*Ss<;ml3B)1+@lh@o@AB8SU8SLdXO(
zg8H38fvph%g#quuE-6hnDxATL0i4Q<A6k59mC6Xre_%K)eum9CbNJ_-atks1^1um=
zDOH=@py7!O(;%bm{s>R{@N|ms>TZ1RK{w#F!JKlrF>94?O!fix--B{oIcew3^ACma
z#Xk4$hw_ewM^j%3;O9PnBGngx0VP5jSnBC1)xa`~y(DaLTi^DWh>LfYl`-gh08c8I
zA;H<O1MdlzI<PpmUl$h@$y9#n9~c``(cGJ@cs&?HEbsM~aGi<%|MQeRBFj|Tp0+36
zB_XdPY_S^JU^w1{DCSeAsUu6vP+;4@Mz9*$Zo||y+hz2|k+UOc%vW+k4f`mnRb#|;
zMk2RkEJhRFqmdT1rG54(`WR;>i<a=5vdWEOCEc>VbFzfDKG-V_qYc&MzZ{M^wWveF
z<y_EcizDQ5Y6#nZes_Ol9^2~N3+)h4e+=Dds-_X?3sqp_a-1#`=ennKLkZ&>pXJ$p
z4Jw}Vt#9jY@7^f_%VozIv#2^ThG`Lj1hU06=~vmj-wm`mpw7=q)!Vpg2y!bYto<`v
z(QMRKpjlX?Jm)X8uH+|(XA^u5ig@r}8ykv2`Vl~rx(y~`g#<C|Lb;(#3DElqD1^|k
zdp4L~6P5q;@*f!~GC>u99a2|g3sd7nmg{gU59}yp-NGd|k&|Z#!sMv0sX?n?(>Kjm
zD<dm}gID^X(VekgcR5ra!r3$Ky1QRTV2~q3yCP()^KM5N7@E(-X!<<&Vr5H{R=>iH
zjAxaWstsuFk5Sq*I~T%+LHnbVr_TB1@~PsJvNHC{4dlQ8+r}J<#SDQ%bX<cOj}R8N
zc4U>mExa0M$hQJ1*Q@o}(-W<V*UFEZg~#Qqt&KQ!yA8#Sjknu%6}_TbVxQ^%Zt=Ue
zi=ZBq-+a32VwwOT)fb@0Z7a|~0=04fzyKZ|UTR8;rWGK-0U9_m8k%vl(?$p~{(>jq
zDeUj>gB2EwQ7aEEt?Za2(--jI1yNH|8;QHtjJUG=|2|30QunB25@-`Wh2s7Q3f#W!
zXhnvAKI2gXOTZ=$wlzJ1tE*V{p`n>wB70n$4c6+6&B`HbKGdu-?H^t<h9ipvr5(pa
zF^3F>qNk;b!DleYebdyOy6>I9+~$6th~^-JeJI%k>h&3T<=!x3V*|7dAzgGdSsADB
z2v#4f@tMmntjR^J|4q3BHS7;{NS_0{bzJW12|EJMDXP~^4|bgxCfC*|Y8vhQ%S|mj
zQT#zgh2SS;qNAKvhq5prr>>4_TN{$7Lq`6m=amG}r+(3~0_ukyVWUDR92l{3)Yd{K
zrfgni+hn@3R4z9R-2m%KD0S#mHz+iDQI%~MfA>EFMN^bB7z8%?L2iWDX4Y4G!mQ?s
zZjhee3WQAL{A%7}B0Mt+@(akOTk!fYX-*E%zH-vG{srZP{RE_Sq^`~axKl_u=E$k?
z2;T)}LURZy>df&fm%d0(f{I=Mi`E%8l$S+CC>yB`>#<)9XqerP<BiornxYB5gp}2x
zn>b~G?xXJr*&Z*7l3LVyV7u{qOhc*aM6pr*;v<(CUq+-F*$+N%C+{{o{vf=x<tO*y
z3Z*;IE+E^?052GL$ztRzTwE?dQ?|9asim!*VmS-cKU2U@i-iT!r_wVr-q-2FLIwv1
z^T1L-T-?NL1-N8tYdK6z*4o=eiV=0cMgjm%1*Gyn86Nne!}(${-HM!Ls`7=UM<LL7
zScogNt_ushn)jOTRT5J)`<Lj`<S1p=^vsZQ^XE@%(WT}HB^pyi%=NPtJ$Xl0#l(By
zx|&FPSg#Od`pP5HPQ$BfkUVPa754o&t6}Y;Hm(6}{F@;Drv-VOPl<`@x0pf;S*MDb
z8j*r&&I{un(JXcjCMcPr9@SKWErFd-Q1D1a#k!E^@mcT1m`v%nn=oWs8zUB7dJS*<
z1W!(5?eDJ~YaSP)iW_xY`67Ol5YHErhn*rH1E%RWAQx`NC-}aC-zMG3TyEDi>|vY^
z=d*_Ie+QKM-QC@aii&I>G<F2>U(_!MT|HlN9BIvwjmO!n!|*y`baixIpgl+n^Na=n
z=j@R#xF%f|=?%P+IUjxTsCY_+c@CS^@hVu@RJ-LWWzvjJKc{OD{}dFNmqDG`stj6S
z3+**aqtdbD%4jsG>TMug18~u&UN}dyYeE$GYy^|4`2M<y>8SL1oug*yltDyyZlaiR
zb*WYyc;(V*=WveZwgI*Oev66r|Ewu??i*75*C(_I35R=aKrDX;U;&PfE9>2vgxpt~
z{S95|#*V_SCCe@C_s)Ozz;b0q$JMD;lg0g;murOHhaYa`JuTZ7;+&jQ+SAwPtG1j;
zMT?cy>QGutCVGe2yUrv20cP{$x0_ThqrlVzpluIlSH>yivM(kSEJ#xOX7h_-{qud}
zV-&1{CD>M{BqzIpO%zam0<=Wk2-PLR#K_N|E1iDNK-y?wZr&$-iFO&eeG4>EKsYmH
z)A80V_5~@Um;)$WYq%e2K|n7_+Xv7R-B<#+D;PNxQd;3-{{>?M;3atRVw+rCT;#4K
z_lkM{5EB&@Wn+tdasbdU;Kf9ep88P6#mtP1ZE0mCw3k4Vo0k`dS_e-X!E5sg=+*#U
zh8LSRnOKc!C%#X=Hir^JoYVBz3n!`B3F-ql5749pyaCJaew5)86GwRi<NNT?Q0?m=
z==DA@=fJWw%RhNNS`-S5^h`dL-nPd7j%7R(^z}E(gE!g$v);vpt08E(M=&~rwjKJ$
zRIcF>z->I~)HXfOZg80fp8;~Jf4OuLkSu^q4t?Im7j;-0(RM52D#RAh8V{S7)F6Cn
z3*+<`^2i-ORb<o+iM|1UdEgScxGzcJ#>UtLx##^eW=OZ?95;rF-#?B`ty;1Wpz5fD
z3FG(;xIQ(;KMwUz8AB+NGBaC2NdeF`rKCi<xy&!3+L24fot^KEJO`>Rnwqp=I=a$q
z=4^bXm|{&&mjp&rNXL1}I>v?%HO;=4`k0+YLZvn8w3}E7L=P3!FF-6p2;Bj!ox+PH
zSKMJ);DX*#IO7WJpulJm(1?H_`Mc-&CNR?0+a`#^As}dX02T<ijmSm48yAXoMpYog
z10ZJztP{a>&6irb;GL-{1tJ3@{_?&LXM@)6JFIDtPY?WirFkqsKl~y^1x=VurZ-S^
z(W_?8fS(x{1ZY|TvDUBC1Q;yg#4S)%#S(Br^UC<ur7tLVN+?xs?Cjv;;q68frl-jy
zSp)?J4%L>UB2Q4ylz^n>#c#|;Z^85Vh!tka#`SSzD=HphD5L)+1x!h+3|p{{O@LN?
z3;N@PP+RRGFa>gkgYEIGIql939Q-EG)HEvCr{`3rc^{|H7+J9pl)Tvg$ey)W4b0wt
z$=&Bd%P%X9Tnc#;pO_e!wX?e`HaiNF&ZxqZ-2kMLz&P~ckJYf|%gX2kpJH<rXVzt2
zKEAmpSwC@&Ga-)I-rgXI7Mn>bKtoy1>da4O@Yh?j5ZkP9BUcAkJE7Qd^S_Sp-{6Kv
z$$mhraYyPN5)col21<C)p6ntg#qQn)J^__9d<1D+IaSYkV9txHut%tKqR03w25j(z
zlq)GHfG*AzfWcr<slGCFEwmVF+|&iG$;rs9hr#k3b#7Oa=;kK;Pa~+K`J!s2@=JjN
z=1nbKjBvN_x)pk0Pi!u{0I!><DQVb6hIj?6XC*2bJswkqz%$p;5OszBDM7U!9|e0b
z@k?Sn)GzYSSC}m<OZ|X+=MiKEijni{Yr2DNr+T)%qsYz8*;rCx38gaP1!{Fm1p^So
zwdxM)7T_iVDbFcId5iGqWQIVa{lXEx5x-8O&+=)=lPh%gHCyiuR*Ch&?D%_mDUEvJ
zVsrL*v-Xm?)I1*g6oyV-@=rCBCqvky8rb+V+dwR9v-1`QrVz+_Asq@fRcsy>D^C>y
zX%e%|&K6^VX3UnfP&zKoME7UC=$u3!@o;e^JL6Flk`fZ?{GNU5CPbDFke{W#CmS|7
zkj^X?$VLHa%NLQK2`T1^II&Stqa!0d-<8~>yn)TM=ljd}6G(7^y-^~6c=H$lAH|Ev
zEtlz+6bd}dbPUwrn;YwP0E;437Ln=0HC-<S+&Pf6h*s$H@7jJNV<rNh^FtXoE9+0A
zKQ#GP*})NK1H_K`+%#i8;F8(^ER80+-&DSbJ+cQOFmR&7SA7}hmq0$7wn*Z!hM)B?
zhLuxn0&sYsR%Bsjc4gUCa{5$&@%MFw-U(1Ei2z-W;2R)UqV+uhO5MCI&YOO^sI9p@
zIfCUN1ax;m?FLkuxTi0Xp0ZcIM^#N$KQm?5I4L9xLA^QVmi0gYx8VRpgJ|O0qKY@F
zk+#(f5QslSQASdS4!aaF5WQOlZk>r0JWc<jEdr+1i+m+rB}9g>GQ?FONZ~Wnj$0Ux
zJMc&W+nN<VA?q8uV9>Y%&G(#tevt-{i2eYw-lg82p2L~)X%OmoVd~5>JPo9$U~0UU
zF9~x&3DspvuLExh0%HD+vUkG1xkF2g2%DP-SjNEtd?mF67VGhBO3q@$W@Nj!oxY-#
z$S6r`y`TKO)zr|+#ToIxy#%~*bWxuMe*b?oon=^+Te!6sozmUivFJv+rID5nDJf~B
z8|jt~0YMr8>F#dn6p)hIq@2k)-}i4{UK@qQ`_B2q821=HK-2B=4Wt=5(%Yt%a(X2i
zSXl!<VrgyNvrBhyrMr4eT{X_3R|A;|L<P=0qp%S8a7@Z~V3ZBfGuj9tPD)BTU^DLU
zxn@y8Yc$t%si-f*Y8%9UeSbg;(}njHCBbXDP?iWOl?a^7K4xTr{Pgr;4fv#*&p=uN
zJRsrvfUrq>CuN|bQ-eCPw2>d|qerS7Jb2y$F=devLo^1SEHFABPH+U*8`3&O(FiR(
zo7pFSAZ~mHQgmm!t@UjJ&%r{~;1!c*=K}E2frX`c*3wzeGGHAv*i2IR^)hT&jo$`W
z$F^R$A@+{6nbN?i#tP1c%KasaD?vA0>fhC2AoO*q2V<^(|NiSNwQkc`g~!Ih=^^Xu
z1~p?4Yg-&@>hc?0UL_qr>>QjbRb2Chm__y}RHJ(UT7m82&)mv9JC=p%e-g|-xB@ad
zJVdA2udgsL`!$A>vBXE9*W&+fchcYaM7^iqhrP$0Rm~RcZYZQahKrbGT9cuVm7^@D
z+?#$Y${WL-Vip6%6Win5U{+Bah*L_bwGescZeija&|XdN&Mtv|*Lv++9?H3`_{nFS
z<F7QLkE`GycYrJmeO4_(*q!ngP*wryC_3aT%N%Y56Dli#DO&9wFhbmcZRj-d8zv!e
zpMz^kJ;?$Ey!(7Om~Huxw>m%7y!XP%U0w?rs;74L++uwMS24uYg_F!*Mu4j>8upv$
z^NT(d6=k~LvQ9BxO`KyJ2bo#l;Qls=K-o$$>T`VW30{MFfM9(xyIj%9)?Ew>CceYy
z@c5p6P+lVR9dGF@HYs@ke!~!F&RhNq*}oNoPoHk*%u^TFYKAH<u}l@I1s??I(9@6>
z%W-TtT;vPXhiIyYF4thbJ=y@@;>!t4U2G19ibzNB5S|!N!z1e?=_KPU@3QiMsW(GQ
zrjQ#$6bWfR3*RxU7SJH0$3~GN%ObXcIH5pC;Qx_m1V4|M9XR;GsYu=J_^aU%oZAY*
z!`Wrom7W0lS5Qy@NP1voN%h-8oK;J=EhpCEzmt{0WBlcUB@m04Zt4LXkE1I$4i{Fh
zW@I#lsS*khieb=y%{Sw4YinxmImh8geLdj(o_sYM299)=pb+@Pe^RAD15XI06{A@!
z7KOwfmSuBCf744U@&lT!38fYxA9)kN-{hhS*Q|of%7E;vj{754&H16BAy7^Rem&Nt
zA=yw2wgF^$utxeTLrE+;;0<)gL$O>Rq@;QPk>ju^5?DGwRt^^5!F-jm2t-dqtyYvA
z$(lhe*AK9ZKKPc5@L(B*1$mtS|GgLR-<$Z=f&&fk(?BKJ|1aKnA+lYCi@_As8^l%*
z##E?uE#SNtg^w5%dvO5M?IfRn6AamA@xnvyV?shg;_-F~1iuHM3=?ExvK`Oj16f_m
zz(+vAbkyga;qNsHRF3vcgwMMsDWTL`ni&yFF9eT!Db`!k*$90sY;5Y&6-+cVT%E1j
zV_9O}0`?Ax>9KN9s7YRweRc{B1A7ZVGt~@nwP}WIJ|`idf4UqOK;g#gm8JCM7<`NO
z@OU{H02JBXHyL62RPW9MUATF8%)BB=LdNo5Z;X!q0p%E@S}xrcc2?gTRtGbWsW&5D
zzP`A#(CK2u<O~_VL8r|<V4XT(wy;YMaHkrX9xMm@nLa2?Ep*`T`FZ}%(&tElcLW_Z
z>F-C2;bge5x0uAmbI%&$%=J(Z4j8mj10@uSrM`+XY@?yVb-}xtBcJwVY-2Vjv_I$1
zgW33}>k5;gav5KjCx9VR)@D6z1$zh#3We<Wn3!Ih1ME})N6exq2uEhyE)~P;%0bqG
zx0y=+YcBCu+HOGRYIJfkzC9zQXXA4a%Vaw!M84tl44;qSUoL!~`4i0V00j$=zsOl5
z<Bbk0H;$mia4nm!?ek}5syY3o!=eO+d|yS66x~2=n<J`^@gs^oGjkuGwOHV3cTWtX
zT*q6z!QfAazZF>4#8C#Q?0Tj{8i0C~&CnVQ5d;D{uClCxvK=NzxOYfn8}-sM^S>mT
z#l^CjSvEN^D=K|cPqY8GMe}w^QALF=*KK`wRS83pVR%^y3dI&=WRzz^rNuC76<oxf
zyi;CRC8ps~q@q7z)!lpj_N7(gha^M0O~E}skuMnnZ+EoEC<|liD)La`RC(dspy=c0
z@1Gg5J%Z>Z_pML67-~rm$vCkLN>~DEK60@{Tpq`I|B^})7n4L2)siJ=n4;Lq3-aHT
zM1i3qH=W9dI$o<*ERqtbZ}g+?OFGPy${6zR(EiSl-3g1)#8_QW0upC#a>6b+{Eo5F
z&hv?&kg%jtmd?W#c++4sY}BhTtOH%ZnGy<hzij<!d9Bd;@ZXslq9R@0@PD5u1)U-F
z2`b6Quu`yrir$JGTqL#{0G<UlvqkKRH42X3FODS11f5o!fu<6!eQrQ5X%Sdy&Qo>Y
zQO_fO0EP4*p*fAB&{0WA$+XEft^Nm4{}RDQi0bI&cH<u{pK12D7eZ<_g?B-o@iP+A
z%Z%c$IfnQ)(ylxN8Vgtjo#P`T=5MzVyC`C#7o+}!Cg9(~|KaA#68I2D8pwg?1)Pnq
z|J_<-pbqX!WGKzOPuA@+UjWF$r;_w{cA$2~Lz1r3cr*ybcuqm+Ec~{+YsmsL1EDU2
z&kYwp7#sEiM@S%jzv(fk@r&T904;c#r7GG22Kf@)8zVSyHxM>J<GCCDQ{6dnjD>!D
z&f4701VL{f92jstwGn<8>A9k|d_~N?`@LzM#x81w1{q<DK@c|(>34>w9-{f<^KlN6
zwvO&XAR|v^KwZ)>9Z$0P2pw^9=2c&YuwrZ!iSqH<lCSo$a5NK9Kdd=i>yj)UsYh)f
zKE8$wo_e=%blAGc+4K6^{{DUkQlYuIkZ*gx&#Lc;_(OL4*}rwiTUqei$n`xHl9!iH
zIR@`tDvOSws{+w`;HqBe4O7&zg+Zp<$3i8dtyHBN9~$Z^c4k;Z`2-?~JZ)u(67z8S
zNN&qlIV1_yS@|tF@}10?tDb;aT>Sa*GE^LuXH-uSlHoi^1iBDKc0>htZW0-`c#;>^
z2ny%LO4=jcAUZc6?`Q+}yB_Y3nY2E1W;EQmeM1e=4G-cqDAN{Ti!vtuoy#tmR0lqg
z3%hkHZK^vo?O)O-de4v)9TIo7p+@_#3xi)D|I`hBuJ70p5PcM$&!FRLjD(GgE3bHK
z^(Hfk%h{9#-QmB%;YYvGV1!Knhp)G{mau^QUJCTj>_+1o(?#E_C&$OyC}wDBFAW<M
z+?^GIdIP4TlSol`xILY$zZ;-D@}03Z)<7omIEN-UZjkL$GBW(E33e%XnHmimZ?S1L
zgPda)fJsIFGYS3A=HlT=n%@)nH3s46wN<R@#HQB9#9z!m8~@an;M$QZs)=R_bozQi
zwlicZB!Oihq=!`@)a;DDN7W;#PO+yjw6~-I6cJC>G}}D=OkFVPmLX*m8mV)^JA8xW
zT6W)dyHo0-AO91D?BH{DK61CDH{-t7mym!!z`D^_L8V$D9KJL$6oi3<v$5#6P7nvv
zzZL;;WuTXEhgdIyH;*~Ib-SY29-xAY-nhDRYs{GAuwDED6?{@C@tH)j;pk6~6QwGL
zpFE!*lTMc!0f2IPmMIj)RnqSZS(Y~XBki<27jKKl2??Bo6|Lom-Bx%EEiIaiFenVQ
z1-y_Mt2tpHr(Hai6qmQr4`Yb6U=5d^s)9KiT|Td}QSz*e9ONt1P(d0n?^J$H&c%}O
zDOK4w+Sa@o?da&JH0J(*qdwzKf+Y0L_k^!(U}fct%*OI^i)M+^l*lx0E;X|aL776D
z17TpTXfzjxrpJ!H3%wP`4+z^u!1I3rFW8CM(#z8CDTsju@@<$IF!LO?u;g5wm8b^@
z;oZ2##>Ox8HL@L;40){rY7f}g$);g##FL9yyNgLuEieu)0&T#>i)mNg89Fh&{!7+x
zQ^5$>JJRT5U+Dxdz^4JR9|6=40Sk4tj^ur&RlE}f{~rxx4EBX#vy1t5Yx6ce@!1jP
z){_M8#iE+PsH3;;W0rgXdGSPX+xb||)zDA}Yk(K7Xh2I%Y#u0D!0e(o+X2SM1r#Qe
zMJQDx90Orm7AnXDA7qJDLYYHN_joUW8O#&W>-tD1dRp+Z&SggqQFf<~H9T<R2_$IJ
z>?d?XMRw^;Uvn^b&hlXGBL@`ge*;Ii9<My{tsfB9$ml+1X-uK9TQmSeA|ylZ{4FAV
z{3=iG!#qMr$X=hc1YvkY-g{~tUxHpRMw#9XBYc+-5G91}4PcLKuY33kLZ%r1Bdr&W
zEEy9_b8&aKyf(*$*+j)>F%=^uB&4LIY#I4g8I;s&IKuMkCnFsd6>0Fr<><&TGpq&(
zHqGE;rDY$-z&Ke+H>`fwlP#1<<~5l;3=j&~HHr!~y(8*xM$@8b<-Zzt7%6D2wK8Io
zWk})2$f?uH6`w36N-Mwx1=25-+e}*8-t8*FT5C8tCAKAEb#93S#5C9!UtTD9MR!@R
z<t-&8Y4*u?3YB;Hpl~2mro)eh<lK#V?)1;6Fz?B>q{xVg&(Q8oM_~3Y3K%rlC|#PN
z(X!vMoYI_Zn?*<Upi}b6h|TSz!KGN=DcA1q_T-tk8rqVhAzW?M#Bgr{YKY?HZ$p@j
z69+|Q);TAJ*7fr5Q_OQLY48PvoD<pNVzeApfgDSP|Cv9~B0J^^CQ_1Rj}`-V>Qt+z
zQj-&1@`7vGPZtZ1oq?!8uCMtVLgcLQ24Bb5THRI}m9s>JjGHhKGEU32c-~glbPT0$
zU8YxA!JMbFYiQi%<{pCM%z|Ub84TPN_`vf!Dwzq_4U(#muS0EJy)IOeykpWd9M;=1
zufBv-%Zi*2uQ^*zlXZfagQ(qeC`>k78X&<CTkMZ_hDr_lGg#r@oq0nT27RvQb-{d$
z!zR#-{qe<QyX(ALsfpIpm$)fxH{6&-*J>$cIe=v?BLhFL7&e?dl)1|$lXi21ccCgY
zYEZnEEO8$*U7=GUr)8Pxiut9AH0}+z04TaIy!?w~M?+kUYceVJcI#a@N8k|=lfEaV
zCdFvQe%hl;%I={VU3F4ZAG;B)pDPsRLWs3&8)*Hd0%2>wJW3{ng*(8s#_|DE9F;1E
z%E;-})z$l(6XjsmW{&ibr0@X{;`8bSnE{2HeluZ_90>=N;pn;r(2cGMoO;wod2g*i
znY6|Skn)+2o|uSr2mHj+KgKv2tmG6Dmt%6vWQGB&W(GU<P0!~a4A&VxbAN!*#LKI>
zLt{86VH*PeX3DhR_{+x0G{TUO5pXsQ7&lYfM$^`?W%?r_MKrDZ#C$|P-R7>;WMnJ_
zwKLD?6vMj#j%I`@bA&oo@CSstkF;SRM>1#t%qC|U&X>VBqDCIcl+MJLh_8aMsmEoZ
z%2?TKlVGTinaZrCt5~7+b#RC<M-<^^;Msf47FR1QZG|x=kN-PKZntBCW4^NdJb<ua
zb_47Qy>Hir7koi%hcof^dN2Z7aa%TC*wZ;-;Vh7%ybKv)2;M1><QpNf5`Njr5X6Qb
za;{mouWlcJqNGv=JaV;yfqDdOJgERiGENMe!FlLst_#q8L8ZVX40uT+Bq0_*E%4BB
zFALG@X**Tu>FEK2G-zs!Hs^xS&k9*K3tG_3@)>JDF(h_!w+X+Ny2x5M*Y9GOMdw@K
zI1%_U@1|eTgJLaOJQNuN3lDL~%s_=YL8X(o|AO`wD`uBs(<av&Q41X)m&uhzq*GVF
zYrcIym6IlQ;thY>+J<+&K(Mk@`yO&$W!y5Ss=@|u^l;UJQNfVOMO)-^9s1@=9a_T|
zUl7xAy2QoIJ)=52{-wV2iT~4jn~Kn%KSx<W`>>rWwlM0xSUHRs8b}G{hC*%jMk?u*
zD}O_Muaz)RhK<{W?PrRwz}vT^JgS^-eX^0KT+6J*oyIntCBy^g_}}qxfqqLLi60Fb
zGV%~iuWHUn#9kVEJ^#UJ?!Zlsh#LXN7#(X6&Yl$32q-09ofMId2RmBN2PBQAqy6|W
zS@5J^&rRg&?k>JIo}1I%$t&pNPV)KrEMS2<BkW{nu=M%Xf`ooAw(L9PV+4l&h6ft1
zX8)o<%wNqML`<@wcCW;29<;d6QNxT?H90}&Ftp1bPmN%Nc?dq7si<HRq(#8g(k+nk
zkNGg9MeCtY6k{8#|7=_;$Pv;CL?~lIJqBlO=cgXe4SH~x6bKN)&7?Fneax^m|Hca8
z+$F<KJljqhh&>=2<1xt*VMK$}yYz&DnY_O4LTL0?J$AngKIZHcZRC%--|)^h6WTmK
zVAPLwmNj^O;GkWrqyK$%=qGo7_j^(AvwYm{@FX$8NkRjFV8r3M(nJ?Q<<;(%Q)puz
zo7w1vXcAaaAzIepA^~H%UFY7;Vq7vdK_cui#XG@!w_E<)Wz7pyC4Jd{zNCRJj5u$X
zP_|RG)CBQmBHlwZmT4ZNw7MN!O~~E@u{k3#4oY6kjWr$)!;B|4OC2lBdsns@!3)`^
zG^rRw171y#GUrt-8$$pl0yCUJ`w4P5LcmMu>FN2XUmcvFhl>mXuDZG>Zyt+{D!_F3
z6}N)sqmbKvezB^j_pb`^LdVeJ1i`}BltWC#o&bXmFL^kp-38wj%f-!&Q%T<+!DNcQ
z8LE;VN<lDRU2Sb^tGb#ffNo}n92D5k*0r?Bgy{Y6?zbY-9)ZZy));Tx@=LX$GTw)B
zr_8`2KnA+pw2mPqFzQ8R1k0Huwjfw|k)%U_84KZmxc;LHRI)yaO^V%6fO2V66caWl
z^e_LDch;~33q2T}aRlwi3Rsso2&oea-F`fnf?0rVh;7v?Bl~@m;Jvq>M0Nl0P_MM%
zcR3DrAa$`pE8vChVPRvxO+K_9pTeUU`PoBUUa{d_f%fN>)viYGEjB&aj%XK1A*2i{
z{*|GHpsj*V%;g(HrSK-MCj)HT#Rw}_zELxE1>x`_MesEUL6n{YG-tL~nq4W2zhKX$
zF~#6xdY(hc18YLH;)Eg3Cm#ZOsqV76vXL;z1dGJvFzSbx-!f0WtBio#MgXJVBD4Xk
zX-LLU5gZf)wr;!SG3E#FHK5~g>(#yLP<H{*#O7v&nU87ROs2}=iXx-woQw+Gc1B6a
zDik68Oo1e>-y@tHm85dPEUG~3mrWR!G+P!-5g+6ea2ap-o{9Yu`goLLOd;X+B>t|Y
zEL2h>rfb6J52R9l6W{~5UGyL;IFnIj88I~=nvruP-hW2B;O2p$_jkhIC5!m(=ND9m
zC5l_YZdGcXQpjlomYm=^HidqP;3pKxI`|-oO*OqC^Eaf?pKhsJWMgDz=fBZROuW~r
z7#JO1SzRp*g3~&hSB4mm?XeM@*SYT9?v2)m8j6a|-Vp|lO*S>RmWF)YWU@u#k`e)T
zd62W14;`g&3fj}Bn`OR{-Va^HG0H4#NLIDj{cUYChb~=#csLwHt-k+R3TFv&t#wl)
zc!~H4R=ex~H8$?@Otp#9c-BJF>{ly^!|#TSl5b7v9*_6aFkqx=PJYqfJ(zStSLm3T
zWtpP5Nd>G$gufP&BEPcxbgkpJ(ZO5{J}5eM@-?Q*z4W(h1D};Y%rVs}Cims%ldZUw
zA|H=CuddEOHh+G^HTa=YEUX>hgAV1W>YC?!_0;4z8kFq&pX%Rpg;F|;K5-TKQq^H1
zN)mVxf4|DtxKp(3f+B{Eg>+U^Q?op9<6JQ(sl5azcwCVyov$N$*kWV<ntgy|Y(YiF
z6lT9h%~vo!{?}PfbabF0V&7G0+^5RUdv~(}&%1cG#}5nj6R}iafv};Wgxko(p7urk
zQGd0|!*|Z^*4I`aE$pH4^>M18{Ayy(q*=YoJ>dSZu{%V|Hq)Y9dsnXuCPljR9}6zV
zDH%dI2D#D_V>j)$(HmR17x@BiSJb*x%kH_C01BOu=rgF@ld}`(mQSgrheK%puQb}v
zhZR_;(2aNh901f0VDPvrWu?jV7@8g510oh_YH9!Uqc9J50?-Eo;cre9tT}nu2wY7~
zSHbs2s;`DS?|%7*0Ecb^;4SOAvN>x!v!hzRLPie6QB?UD!8t=Qf>1b0KkgdCW~kzc
z(K}z`4jz8Rdl;0*0PvoGJ!vU)2$kZ$Mr>Cl=C4h(Nkw94K2Z$l$(0y$b6ReOkTjDW
zqDVbB<s|G8^3)4I>zJF_H83tIF!EO5#33SLI@>KKkPA@&LFI=47t-?cXI;$HfQP#@
zah>55N%I=`rqZ^ynu>>NU_N)Pt6(+mdMND=6(UI5elzcn1`D@RJ`GHG8jLhflXrpg
zx@xD}6##4z@Ht$^m9Y=GYm*H5FK~GW$pzwKjT#;NGiR0krB$9`wK@)HR?XynCqPX-
zq?<2RpKjIVFv6+TfO%ajSfO3sQ`l4fH%8?I#SM=YCeW?1=`fD+b%%uSKRRU$J9B)o
z|5n|u5Ohdj^s3If0`!47h4S4G2jW4~xD8P7!UeMGeCt!<cs%@QE{InE*(|nC6T?6#
zuQF=Ud|enr1ak`l%%6BBMWsaqIoWI;6Gy9vV3xd)U{w2>-63DKVivHady$z`q672z
z?dHk^Ap@l<kXWTy;|?q_XqXJe80&A<T6XaXsEapbWqKN$fPP>GuNAe?gt`_-Lt`Bp
zaRG8)*l=3VR|o=8IGNNuAL+%1EV2W*K7A%;c#}m}+o0}?0P*9{AfbO_6G*Lh!MK#6
zNR5G82_LBOQclXTwrEGV4A<v_^%O8Te4YrUVjIiX`}m)dX30i-VR7Y5eqDOK&F8#L
zdSz9o<s{D|Z3CIUxVy`pn-d=VAu(@;t*OJ&2a7vPve#N(_k_NCJ98Jd5g&SJ7IL<I
z-_B*4eUJC3{<wP^PPCG=<3nbDEvpx~q1f?zFx%x1fn@&_{zCNE$(h>3@z<|bL}`Cg
zE!>~=U?;v27jFA_6V>crn|x2U(SEQypRm+D9zQ{XlZodc{Iv95n0%RQdv#(77lv!i
zj)M3>y02tY?^#jfPg@~#js4cJbzbPWM;*b<v1glSJFQuT8u`1AcJrZSaHFbq<lp(<
zyzXA_c-3>4{fk68C{CwGJtGKdEcW!macSWF^p~&lJiPx3=ZD$3{5;>2x_r{D{Qgh=
zQLO+IpV`~Ne=NLwx^~6lH)gzpZf0DeR($R|-WlOSd<qSF2KlCPynPXdq|df73~u4F
z=5j0io*aVHJFT>=gYpHX$}2?~IaQc!BJ&kaf;Yn=A3ZV+@er6i?Cja3cSet*H1skM
ztH~nCA9`z5b$WkH3Q4k$iR?ZUiR|Yw3A^z-pQ0d2)vL%n%WYNV(A?Z-_r(s&tF9a+
zP`Y{KD$_X@3Vn@P2I0+2JFEM)+gr2GE4Y7_dW0W%!=Ch^KiJQQ<HSS!+wLhp{MFBp
zKB1Lgd}jhF8_zDZvEC&f7)qa*?@@KC%}Re)W0U?N-qfR=d^$VPpdl>UY$bqvq0xuv
zk^|AQX3fsvneT?8@x9iw+-Et@LrpAS|7};b+}QOt?;pupUzAdZNdCLO9lBXMSwZ4|
zzdZ-M9=??Dp(?_RiyxAp&Vid$fDCUE7iAejhJ2yi5o$dA#PM>vaX}c)%&tehsbkVq
z6ZdLLe6EjPHaP5QUl0|;-&X1cB_}Kd1{W(mD$j&y0U<_w5>Pi4w;=K9w|Y1N``2*&
zUR>k06O<}7^iw&2*-_x((Sfw5JfnyWpeC#b>J6|UCj8Ad!y&s4L^pSZO--J*woKw+
zi|y-bElqeKtCYk#dTF2$-sT8I@0PB`PQ^)L4t?F-LDti&OL3NuWiT5+ppezAnG@;-
zCRIt#iH${yK$ai}CT!*G?@LxEV@;DmN+gzj{y5kLA1$UNo%V{B$)FnMi+#`So~fJr
z1+ILs@!s(H!(OM;gKOdL;la>5kWu`-c)9_FF(HG&?o7R<vRw^<R+<kzEt^l?H%Alv
zOJFO8!T8%wEl#!<pvGP(T4n1mWXJ<RcPE+;NjoI5k)Z!b@>?|q;tVpPfk<H*@R`2@
zlnv++T@PE?dzVoEtgfxKznr5#KhB;JeC2TJsS9d$ZHy?}lDS337##q+By3JnF7rO$
zv-aP+yP=e|qDz1*D7?TAvjxNmNbSe#2Jx-_pp?|!5~;|!#*7Wx0Eb}&jo#!fta|j@
zN)<df!L`*@Jy&oO-R~x=Nhm4c3q)it_rO|s@1!<EN9r&1moChqfi*yPvC<gfb%+Y)
zPZ6&lC3BrS0AW8(c#Zf&P7N!<FZ%@X`-7s+f7jLUTt$uuJ>cfyJQMg~YYLc3;cBm+
z@FIGU3Ov2=)f8uQH6|lXMSIBmq2#sLDXC~lwd-F#bS#6Io2yEL#v_3ZKOQj9DI+=_
z`~g-AX%SLe1-F7XjDlEh=i)}G0busFH;90Ey=;@WRkPAK7{0YuhI9qUPC2UG#ta%9
zKRITq7O8@{I1g6A;^$@SYg+aC!kDm!umuB-&PYLaHCy%J>QFjGP7!gm?K~%;r?@7D
zosEJ9vpXA%XKG(xO-ZW=NPfYWT@9bV3+6+v*QPGkO7ga`izR$mZKM&nU24Di4U+;Y
zyAe%~(}omQo4d8MIeGuN-}~ZwBPHKW)b2+>%Wxx%IpbUBd7&6A^o%nAp5yq=jdRGi
z-G6B>V^?&@s3K&BTOn2(lacz2x|&{$hS9VLOjdk{KbSHC7qF%<4vFh5cuaN5HN)sI
z&5x_2;^X79O~$8pfkO!d93gy*A0kKZ9P4$bP7S3y41-5gm4>;na5lJ+vyU&KrcH69
z>Pagevh*qrr}MiK2klGt%Mk9uK232KoreOWmZ#cMXwIO;mA*H&hH)yG>yYt`&e3Xf
z_fPRP-TeWNL^AlD51YRC1FH$TKgGojkQqWd&J1jk1P&gF`;xKDyehpPdYl<i@VZ3R
zqQo%;waQKJG&OPV{s6pVY&n-;Cb5t^P}c$Wxo9}e13XToNtpl;MSx#QFbCa83;{dI
z>rbN0?-M<8vjg^+XMu9S7zicyX>v-^G{m}IfXSeO;rTXrC3)<w+q09Nl9CEV1N-$V
z4d9c9P2r{$xZX5s!^iA51VX)&!^5cF(~VBb4y%tS3Ov(nQ7E_!Kz585VA;KSyooy1
zFNv*gc39^y0Gb)MeH9`U*YNx)BsJc5=BCqR(IE$5vx322Un42L`O1}+>Rh%;(sZ~T
zG%j9O;0q#2DgDl2$o`z1yh#PK%1tFUZEr&yF8FH8%x-OWmc`T*PLmEGh&}*Wuo76h
z@2vd5fHjI*kTB*FC=>>E$`D}cCX_E{KL*`Q7>aHK#^vvw_}6irM3lH;`(Rt@?&9*&
z@VRho!#SGk_+eSqu)tC8Lw+Ab!P;K;;i^Fg09%tr6MP<KpS&=2t?o?~(4{Q%B{T8}
zGTy4=(rPj2`WkB$+#vhQ1tB22Up(M_RyWqBS<oQ=<l*UQlQD)6ZuhH!d3?L4AqsX3
z!0|*iQp)KHf=)8SKrbEXAL!xzrPc|4n-sEItcWX^$*++QK2wz|Fc5+`3`jA(psX}f
z&CES))A$s<5=p}|m3ok8N77%WS5V|$5fPDDX7ay;j{2kxDs4Vs$*n#E)~HyX0;O-s
z4m%cQ#87o!$`bD69;s2c$;?@wYYob4=C#r?qZU~-0)U#NqN3_5+?&V1z_|E^5aWTE
zu^U92B0T>$Q2C{wM+`)3ASCQ|EtYH^1eCd9kv$rlAIZjv$#1}v3Dn${3i*UW#8DWA
z`I0!x0Ci-_Ib+h|vv6Cc$E}c$CoJZF@9uJCKRp3Su1;Q3^biNxVgHUg`;udlO}i@q
zW}KOJnL?4VoI>%7CHq0(MVUblobN@$mrsA)%94%=-U_5M$tmcBeHeyS+%J|NP~IQB
zfj#-80EN`hmC~6o+Vkef<=f9l2BXatoUzO}K~6!Wqg=i3ZyW__IkaFzBqSTV>N~Md
zkAn47vq6uyJMkCd_?l+TVeVwyFY@PEy7<dl+sdAI;VPOUKwAgZdv`&1*MxkenB}BB
zSx7$u$Q}^LTxw8fFeFm~K_#+#GF!;vs%S=`z@z)MQ%|%xJvu3WEb(Az2EeA^!Q%94
z2sU?izK*d3O*k_%vul_vINs0w%Tig&U=SrZ^O=>ihVnOj^8b_l0%7Nnu)h^tpKkZ{
zOer-lxS3;ZyM4jsOZMnW;GIT|)|j`qwFw?<O9Gdgbw;JIIdc1de-<&H#fnf~0esnK
zZYK1i;6zti-ajU)OWPt~Bq3$^4a+b#rp2;=u7ZSC8(^MY_eN@%o{yX()2C_URL;mC
z$RS>y4i0P#{TN_dG~j=`BH_!7msku05nU7;8t9{*U?w3J<mZZpXF<qdeyh&Pg(b?M
z!sSsJIx#~F2X^0mO0Kw}qO%kka{&+ekdCM|rruZ}KLA*0_u=8;TS12Yp$mpBaC<~!
zltp(IX#!sYab$8bF8yZ?bnDS^yim!nQC`9HTnKiflQA#7tI3ZK8x%WvqTY32XR87O
z$G8v0>JgVVt*vzc!E>sf+BSsqnNNVjsg)rV)>X@1#NbdEprD}Oq6>N2r@8v`G|Y$^
z_>sASw``1#VSv9>m-1R8ZzdqFTE7=2a!33<g=7aHNPhbC$yH%5e*+-tFv#fXj+7|i
znJb0@CLuN1FbrWdx@hR=@bkOqHG8GF48=ahoKqw%%u#rI!(RXt`^P`cA#%>=3&)aO
zw_UZ}MEVWMtZFeaR$ksKAn?7yAtqMzs4&S=2v&tH&Ff>Dq1cT5@pWC}ovQeA;d@e;
zn@yYid*BA#_wQE-^0=h?ndu|yb)NsI5@=o~4-<?W;K+HyG52nU6|<8oH`>gWh|IRh
z_agce7uu^r=Z+gF^|9h74**XyeN&UMx-(dOo)d`}!J|bqm~qB!d928e<Kk{Dr!uQi
zCWaP)LeDAiO}-OdYa)a=nze<t$2~-BY;L@;nxmmBg=?CM_qN*{!~j-jA2r$5k8uwW
z>kDmL9Vf+L=xGDx5WG8Z)2hJ`z@cUAjU3mD>qEaXj^V#gM+K>3wM#&M+Xybd&%f-w
zY~|BXD<buPH`idKW(e$A^U0}$7pR1@QU~{I-%clg(!dWLozI;M^KpM;Tq*fjU?nu^
z(Dnr{b+@mYf=P+ioF?nnH?d_R&rOpZV$*DF`sJ{C1zrobCHOrJxIGx<8*X@GE;6Kk
zq9K6l;G#va#U&|5gM|(0SzAK3f~i_kLaeF?{nx<2*c8*y8vK4rkjX)+=2r>I&)Rg2
z(MmHpAC%ekg_zO7zP?Bd6%OkZv%0XPfv!mLt071U)GgxeZO2$$-y;Y@gEGr#dl!S<
zYZt{ySTeVt`_Sw<)n{1HB|4b>tZ$4+<aXxg_FRfi9czf@${cCEM6a1T`zo-0yMe35
z1X(Eg-;;G`&=L3lj@2i|%S}mFI8V?2z!nDRiXA~I?OIMd*bKDFJ-zpTj8jBwG~XsZ
z=fZ4~Ds6G*>3?J_R`5l12=bt;ET`q)x8)?{b835&Xf)e)txJd~yWmwH&OSpSl2Wne
zTmFG<uBw@1>Xei><w?J|>rDaM_tXnSZF<jC=qOfYlmYu|cHggjll!0G^`pPa>IB!Y
z>^3DyopkTa@p+e3YWn|;3{l>>Fy>@ty>xnKZO%JARqS_2uhzQLRRu?~_V)gM?^A_3
zd2ULp$M}Pjrlp-F*XE{5o?|>t^ylYaIjuA&NWq3YLu*vRPf6q~5Pl{75=kot)WCUp
zf2T{gM=u{A;S^FlJa+(vE7*`a2_gYKh1>6m#&O~lQQMav`X7uby;2I3M&a%!9NH%X
zJjk;q*fg^6)FNztH)OXNkN?f*kE)ip2IcdSi9jACkU#r3nKYfq*wp8ADPHR=Q|$Yn
zg|EM=TxCoq_hz%>u*vhzmh<t!uZ+81+Sa$2hJT0~$JjN0oay_yj_)3THg&;U_CwaE
zp7N5GLcj1P5#dStx`3kd?(tqvPGRD9AqMw;<_)gIhxA<0Mm~=pv)2oArOlXWoo&y*
zBR&%L4afnd+|vBV$?g8->FFP=8~5Fk4v?kew*<;YM%j6J8%gxab4Bk`^hP)?SRro<
zWukECl}?4ZrmJC1lYz29+u9th>!!{-84q8-u<)YEX?(ev>*4g7Ogx(q*TSFB>2f~`
zO#Y18^qlvUwsOT<e$WRzO~#Q6l?nK`8x+aCUHjqK>NGPoW%SQ+3F-pY9Qpa?Czb8L
z1U%Q<(2*i`!JKR`UM)|6({1*v!$3xYdUL?DG1oxro!hyolbv0niz6`6%gM=62s%^M
zH`}nLOjzw!QOb5I$&9dEY~Vxu9u`NLHU9Ve{_peBOf^QAt9(-uD5cC^{mb%P!kxAM
zc@~+%@uhQ-p0V^`C{a}5Vx}ax^<*FzEJwOF=PT;XT+4L$FX#mYJ;$?-ySlQQn@Mf6
zvkZ`B0R->1FY2+9Ej4F7ZRizqKf_&#Tc%-0x%{v{GiqQecnD;ok{;BLXE^h2<tZKS
z+LH_ufrnsVaPZ43;~$zo9o~UYb5XV>Ht9?H!~g#R9Qw5FLtXLVcv07r+QGTsU&XQa
zM*N>yjfDSISYDRA2IeVxG*sZZz41&f*xkcFY(EFz`OyA*PY)S8z*NaIvAnz*FvK=6
z4J_f3MR9%jJSFAigq>`@UJxZ(tlmLr7hll6oJdG6a>LpjoAjW92VwnxpHFIvO6QTA
zeV)nT`k@F)S3-Xn8p5ANn`(p9c5~UcmX@Df^vrA5dGu@EYuy~p>yM_}ghl+evLQ6&
z7HWY)p%F=+KIuQ)?0qeHG6GiF)v2k~*jV#F>m6Oz_6vFuxP-bxk=ElQ62Q9XB;kNg
zCQ@mnINbWDPH!KXl;d5t_tD(<*%lSvA~#R9JW(Mry1x5$xR_KZ``^D|D^0%v4mCOV
zlfNdkKMMB_42mgVJADdR>5oAeP17fY#B?`Qq$FkN5n&~WeY68)X^-{QOaSX9An*W^
z(Ae16goFg3LH|rH;sLDV0GX*t1&T@*7CWHaNlZ+vLlFI%*5<*%#g)j8((17$l&<00
zIpUAdCGb#`2%dQGLc8Wg6>f-JwO~R7naiD5o3G4zHU0hT<vuHsii?8W%MGU^_&Qkj
z5TsHLgOtOqL~(apJ3YPJwb?+2P+uf;g}*lw8A3cEoad>|d}Cn#jVO6o`H>MG;lSrt
zL+s^mG#Z)<ATc=xTSDPq;$r4O6}o5|m}~o!lVDxH6YyLw@J)oX%>T|6M$qmTMv>Ec
z_Gd7|92Ye3QB+_us%P*$UTTmG(X?AoIam>(=U)&W1G0echHeIpN=J*FvKa(?fWVR=
z$kh&p=k&_lZ(^wV`8T?$TXZV=ECxRnpd+@qmS9<s2>in5&E%#pvYWpp=HXUp-CP2o
ze<0a}Z33<ckX_;W@guNgzX7sPe}Dg&hV&)i&-C%~;<aBGo19d$1M;_%<@&+y?gCJa
z95*sS-nuFmLiAn^jTEL9HJRzNoQG8;2pL|AR;x!(5<N&?lPxIlenrXv8|0xjNg-^x
zhSpI0l^{nn69jh_mfHL@-fZ!z1=*`~gz4HH>Y!_|WGvOzOEI>Yz<a#4FfcX6Sk5#;
zLh~SDHfS}vBTQcm4!9_&aVS-Jm-{j1UD(O774kj8nERV}-ifq#?V7^w%@|#Cg?iTe
z*GbO6p0zML2ZgqB7_&4xcN-{^n4uZToA_`H6SRbWIiWXUdxNhb!g=O{#tm=5zMNDV
zM7ObL2^9H4ex+^hbUJ}@`Pu<QbxZ^D0#Z&@AC0a`K5(HdEVb|;(RM9WRlUdhpb*)(
zlakT{R<~dH8~@4W!$D0Tn<RYOglteaD1n=svi&T>;lZ@%xZr{e>8t-vMz3!s;HPC_
zh+Fx!7GSf;E1#p`;VlK69E_F2!<WBw`agIO5~hQP*wV&^QphzlpxU^VfQV=bNbM78
z<+-IH&{IUnBEUTZkAo%`E$t34!-C<C{jY}iDk`zE#<1Ua({^DHOuY$=Kthls{trA`
z^VUDsvQE}aH4n*$<XF>f%`1$SLmr;`PKO;a+YYv#MY61U)lnxL#$^g*W5dH-V&!K9
zb6SPPV_~vG+bMhO8a+na`?6Vu`j;5=0yxLk?cb{1&4PN0A93VHplr%R+#jA!!0(;>
z>G20-Z02)J3<wa9jEhrMQxjNZ$?@_kUaZW7kZcKnx7^h6`5*J|iDeh0^RGVFx35U+
z{^CRG+<q5x7$=?Nf~$f(B58e{7;ncUlJFM_#*cSrN*{+<SXd~B0DCe$07zSQIUiBT
zWo339f2Fkhc`roc>tB@Z0u5ZphxP1sJDs$2U19q2y+2=uJ-w;GC+00dVzoapPA0(N
z|8#$Bzlgd89`|f^L)TsN{SJSvU3BRA4}0B-EWQPfmp%EcajWZ}ImO$54>Bw>B09H$
zk$T|GWHqH?)wRC6f7#1_$ujV|cNfQhdiqWXQOinE6}hq^X+=(3t);a&`Q;#9Z(}p|
zCEa^dg5x_-{M9<>6U4rGNarLp_n^#E3CAVQL~@HG|8jG^_?LsD+<mYLTt7_c^xSrc
z%37`{yq_;Q5eqnuv(n!7-Mslyxnqu3TkB!nSD4eKrd)5WNi;so<3Cr%JC|UrSFX!h
z5f!V;H%ne`jn<_y5{hyN29hdY(z>0QB+m50t+Yy%L=7>>N2FORL%CH(fYQk}W|_Iu
zQgI=ZXMqDM&N>dlxu-z}Om<EV2&Ru5W_yn^4XS6r(K-jN4!R#a;lQ#lU^^v&WEyi_
zchm=<Qy_0g3eqf?u2EPF-%<@}<_+ewva~b;kiQM^m8+n;`71{2lsI0K*o$6eTV|66
z*qmSt0FIDc=nzn~XlZHDD}P1%5gHao4oG%qcl6I*UcNLT=7Qkxx$**Pcit$!*C$r$
zpbIo_y{@DC;s>CwwE*NfjqE$j3`Qg>dR(tQpBFFgq1^y1G;EI2=>&m~S+QPxPlkYy
zkiOh_6@U%!7p{PprL4bGj&CY~T|0Ju7YIq@D6p=93$KJAtw~2Myi!-gH9cm`BKHyJ
z6OWYaTjrQd1m}xgMFRZMN(I~nbmapuBV!8(PQbL<mJ7$oM+_j+*C2o@C$1kFoQnUn
z!e*4R8MYm7eHDzhDrJI0piYX^{kHiC;ms7;)1B+6(A5VH6?rfw!R?MsAuD6gx@L+^
z#H18g!B0b4V9?AQT`R8XvJE|_AR)0M)egYbxbiK1-N_D_Jp&$=8vxP*winpx@8lO$
zc?OL*T|6-!uGRL7yJwwExvM<s^?Ko$Y83{26jiJ<6RQ|R2|#WDTV~B+Qwxy|%+51;
z`!07Ln?X(Ww+Z#{zdN(bXg%GTxw*vPDQ;~kX>!Wx>r6O_#C|V<&AU>Oex2H4X67BJ
z6@rN3xWdrw00IQYJZ}@uz8lcr9B0P<f`EZ)pXWgW{L>G+)T=d5lz;!0yWH}`nSna4
zw}Ai-GK;X$-o|}U;(2Bn>HcSdtmYNb?7F}gr2db8($KX-rtrXhA0j0mr&45(I%PbX
zrg(isA4}o5Hd81|W49u<<MY=%sNRib1f4YP=zsMxG~p%P;Hvw=s~B2l_Td<g!^hVq
ze`TuR?ZHPE#fRg1dm^*n6Gp<{-?D?A*pdO+z0b-0l_mqdKI;r#Ge`;idUcvp_rZjt
zw?O1aO^#${<DH^9KzHXI2HpX|kxnP`Js`AJRBumbs`Z9Py?b}K^g}*=7mU<?T^$m4
zcehv!6wj9>ZXRSr7Z7pI3Ro%qOiuoI%wuDnA8rg;2k<5^owosG)<LzpzhLC=0W4mi
z^Z<CLq&^mKAx7*5!I{ojVNe6rz+gH7hmoMo1lc1yGxM-{dkJ+!J7g&upB2!CrAHzK
zevMZ->k`Eh0IKg)kvt}_XZ-UxUG)Y?W3cD&VjwOBBio`PV6Gqs(l~Lq{V|}+{9?#V
zD@k1TMY5%}^%<D`0A`Gc-+`zWZqJHS5vu<S!10WXjbVIe%Q1t|mJ9OoC`Wia6tCLb
z+kv#>cYYMQBS0vSxm^Fecz5wW%M>-{rWb~JAM^pXb}vRR4^S}$Mo)2mWK_*oum_im
zw3>pR>KA0>f-a!h1x^;p?_kwj7>LnTNO3ve84$p&i^>B}W4+Pg|MB{#`(f}!!+YTm
zl|Z`i_~-{YzB-(}D601M{M!Q?86BMkLL;@n|M>u3&~2B7fjQ|Uhru;)1i`_=j-2bz
zH(-jnHuo3lw{viCG-srz>nbQj;w6|kf6_l32o{)Tv(IJX0>ik=(>!>}?sQP1xLkgL
zWzSBL2;FH~u<Qv%@dDYAT4JK2&NlyGL-&RMi-fj-pl~WVE?WAcO85kzYyIzN9t{n+
z5rUx#-+>?S5J4}f2}>C4Zh=rjX~7V<wLcX2WX2S3m~36Hz(TvQC@56R%oN?c8g*zn
zCw+qKrGl^FnwCBj1d?SFkl5`ljg8UdV=D!TjsvxY7a}BFf&JHP5)!6rLE+kOA|SZZ
zXmNe~rlX%krIM2cJbQ~>JY`^<-!OcSfK{SrXGg7oh<CD{19uA)BV;5>>YN76Q_)in
zNd17#69{K!fJK5J7hCgA|CIp0Lk1+}bQ#18pT`>^-h^21x!P~my!j%dzF-d7l#aNt
z<zZs7nJyg5;=|n^ug`6FSe)=_<d@0H8PC_;3UHS&yanFK%16H#BVtwBj4+QWr2S(1
zTguR6dBsdR#!_VDP}870x8JCNc0^v2xkgt(H$f{v&bF-32@%zrYItuBs<C@sd+QP-
z1~h&EqO$L@^YU6hoJDZkw=C>EnqMaJ+w4lwsi^E^n4;35`b{mZxuqB$Z?2)ypKDYw
z@^|O1hBw+wQ8?+O3DTt^HY;hOLTtZ(u?L%FwP(sYR>n*@NtY{T*j3j(hjmtKvCxAh
zGEj?PiV;veWqJa#Gp;_<P5xP|X54xNt0qAOYzubKRIPG>t7z#{n*cIG7afp50vU6a
zVH1WLDUUUJ3)|JuyCm5JqI+_XmDhmS-))>C&{SxZhP4Jj35u*>jl%;5?*HBbpT*_m
zYsP92vy%&AgxYJ!$)4gFz?;xo;6u}gfPq{xS*E@ZTv|-hZB(?CzziLRir*#0Z@_Cx
zHEhjx4ZbVQk`d;f&Ml*cO|A%?8z6Tm)mBti7IEH$G@uwmGNo>{Ep3ZOH3`@9)irOx
z4+EQLicY#kEFjPX_?1BJlxV?o$Vae=h6<?)<l3ucDFA~{JK*wiJtx32X!GJah+Ezw
z=pk08>m|IFFgG^=TIyP%XMmS0%+L@cc|5M4RPVTw)4Etey^Mqd>9E5a8z7*pz2r51
ztS887C7803>;RDdTVqR0I?`)OrH<Qew6|x#mE0xkwr7Y#Ks{&xz0UDm56V|3GWogz
z1id}4)ACd&>y(raH-AP_j%RS~00&x;BzXBktzEX1Qdy??EE?J+^98%Vfo&a9;AkrA
ze=m`clzsc))(5U;HxG{iC3p$99A6ntO-&*NFna5}+b4yM^lp;O4+Hw|Z8(DPOz;-V
z$B`*YfI(B1Y`r7c0I{AEa9F6Ss=jD0E~R$a_F`9sx(k4{TBt*l-i@G4-0J?$5ylG)
zWx?uWH-Ff5t>Jz0N%c`aVFHStlu=-XQGx@G?Kjn&yh%t%7P!@d6!%>TVmu7ae)Dua
zJ(NNekT8G20Chv%ChHUWd9mW*BiaQ5{4OX~DMiwdkVfFrB)G+|eD7STpL#-FQ#t2!
zTYp?%F^2{9ZuM&6;-Yoymc5_IMn^`)D@LID{CU1&Q0+^aq{w0weqq35?r?4GU5(Yl
zjUod?Re`B^<nb=^^z<<QqEi1Y<SWt1Xi@3yOkK(K{!$d~?3N+k4?W}7NP;Xr<-YJP
z3Or9xUJ`^Ph>6X{_~QLY*F~&EE7F8Wgt<ySp%J3mN~)Uka8w5Ao0^8>k{UwB`9I{s
z8(5fu>hhOK)2R;?Z2z(>*AzKI20~2uGBL5N-iNyjwi>c9F)^Nll2BSTr>c1+ATi~p
zEs`%)%>Ri1ahhiV@$K<n^$^L0>9{!fxoIOX4PV8Db$<*bTO+b)^-yF~-8K2CJyo4|
z-5^Tp2$NyeX4)ML7WLR^*Pp|F=_r%UDq0QS(?#h(Dt9r4LlC-}$%IV6!#fnz#V^D&
z1=PlMG&gdxvO&(KmcZn*6sZBq!ag|JXx>^|#TVCsAT01<eeoC?Vn#dzK~i{&Vjw10
zk)1+01n?5$;^Hii5}e;VU4~efG$yIpA4u6IY>e$Tu#6<Ep;lken<N7VN5U-#?R^A$
z2W}YXTF@V7<W~4VMI;zwl2w50c>jiowuM`IR!stC7(@!lFwH2D2bSy9TfeDOxzHe?
z*8T`)4{XWO9~~TyfihAZt~IC+j}!!!Jr#=fUj6-Rh9)seFuVM|$OpEIE{AE@Ip4k6
zV9w$zAnU29`t>5@?{Z)-Bmq(AdDmE->XlY`2{r+gHK^u#m@&^8p6}FLXsabZ@smsb
zX?+u0rRG}$@Zjco?-So!z1be}8U*e*uyT^w0i;LTz^mis*#mvezu`tQ_yp$>l%Moq
zA+tju-}fc9%bX)Su1hL@U#cG&Bh2yj?Pf^l)5(V=8I^81G8;g0_Xt?SZSiki(~uOP
zaRd%vC*&?R6xbo!cv0Br(O12(Im4i`C-CTE07lvTA|uWs<@fs&g$QCt>#raV)02?S
ze?Nt=we#v8Kr5$0wgkvXwzjr_QVH(;y%D~m$Fl$gXFN;T3D5|k{mek6l0Ysa#<T1<
z@IquG7M}Boo;Omps5$FU*6UpNImJFbTAKFxShXgi8WQ669`}Y|H~hbjXYr`dKyl1z
zl#!WYDZ31c+tt;o*V1SZxZRZoMZ0+xjjE3D?fi0JZH$S1Bn~WCKI`nn=mIsTg8&Q^
z3k@P7q(6zc0_&`;{cj>i2)Z<uN!&A8Z*7H#)CI9?v|C7CB6xLYi+g=@IzA60NJmF#
z1q$INdz~1VKolNrLWs4T&s7a96kk%NODA{#<3GRd7B__T^-Nc;ABbK0MB@a3X3Eyx
zi;F%UIngdIVcLB@%4wF3j$hyxq^A4Ji_wZs*F?Nmn^zD_WBE-b6d_~6W+DU&FwKSn
z50J_{n4ACpdv4)*gIro1whNk?tqU+mrT3INWrcJUY`Ow%OBwKzwuOcy`fN*qWhI#^
zo58mixw1mM-(RrNbz1qsZUqD$+GROL+g%~JNwQm2HjOLK3c2u0x60NkPDe*asQWJN
zqTUyDW!AO-da^peXXe}hcHQ)FP+y_8#3>NOWeTJ$gUY|#55h@Gc@x>EtbudC<KO)s
z(4Z;H#rYicLf=5fJmeyLiZ9$*AhA8@?6kDfnm;Qm*)SR`e-kO$VXp-}1H4;Z*sdCq
zDISB=G^bpMDvawKr1%iyH1#oQK|uf@P6Klkx0h83)`2Y-?6jw-+KWn8BPuH*#t&^b
zyMkc5v}<+L*f@`vTNvR1)7E7hnAj&@qNISD!~N<08sOlNbkg<*j0q59zJoObNK`HP
z3mDL4KL4GL7be-fui-9$O~dM_0Rj-3lUm2y7aY`!lNzMOf!OZtn&su?=5_EyGxZWo
zA=@lQMY4GDj*H(cSpXYTgm)dUSxZkE{40_{ParA@7|(nC8U(XpO0@$6Y5ocrsNB*l
zdd*_|@dhO>*sFzNr+`>!X~p}b%Va-*qNakK+5~kf4i1hxg8G?fmgwVouj%Wsbaq2f
zpbPnL_M`lentTbHfz+(_#zQUnxBCOdPV0fD#XWx(NC)z9VBptY6igQ{9dI$P)VDVc
zecb3+(q_Wji0euh-B3`a+RE%>I5O9R!jqG;8Z^kbs7rCZGvZv}`TOtj?y}*v)kq3x
zEdbaiIW<uKAO?GHZ*Q7VPt|_Tik2RwxFL!Jv?2fsI>7BP7%qcDgAP&Q9eB&6f=;~&
z72Y|swVh})ZF)JXANPb{W5Z0P7I`%RiUc^zTmjw4A!UOS4i0WQ0BpcxwV%HSDO#TD
zDK`vw#Hxw#_6S?v9R3A3qEK=7qBkwBXN!dWU7q)#B(7PV!}^AjIM_TP8{IH?X{Scb
zakJHBsuDvGrH&hi@Lf_LjEOxa?WFX9{MXyN#H8H-`Ky#Cs1Zp_&MTCqq|89`*c)CF
zJP5@<23rCW@}Pw;{CoKfZ18xX?}7veE2=Ma__t6{9IA7*@1!KK2qNw02qkZnX%yDi
z<Ex`kydu%dYnKVaXRSM0RD-BvQj8%4zVw$}RmMWRt+t8t-_2A9@JX^pmway;au+Z#
zC*cNm4~<;YFCwwue&1}$71P>uyQR$8vWpWnY}%ju{$=whYrwQXBwU)XSlPIhVHUw8
z&<s!7rd4fh;3Ao!WK_`t6`dqSiXE9uuLMDUP@5MCdm43h4NQHuq$&`mzP)RQza>*e
z#9)@Fr8#j~jv=&JsLqRY2@ZBWno~5jJuc)xev{wx?NOHgfZVX8cq!8Xv8OqXa#C5T
zPCP$`I7rHhaE(jew(R*_GM-h}V3K7r=Ya<zFK19K1vD-j<Ls|k!$NnBI~;Nj_#Kmo
z(o0LPf7<Sc$q~VRY;qV@eZx*B!v9?s?T_)^)eNwBrE?53VPPeVYpZ4^nHAg9u)pU|
z{Grf_&mk<FMT<R16^9&p4_G9l$((w>;U9rV$PH`y4^AeKxvJiHJ^dx_Z;r*Gryl}$
zIl&)3so!#-JR8t2QNmY1Kc`(zx|Fr#d0YX=9<WQT{R8f(u5R#OvNv+?5UfC2o`N2i
zcB`Z82V4(&@;-ckaB=uqkXW4TP!8T>P}F%$mf^i`8gkVxav{R!E;VswGY#DRQ2sfe
z{e5;W*$S%Sa{{$A5o~6YLoHgD?61av-IN4~_iJ7nhyx8)om#LexIOpMgt(^x#guI(
zl&luSvI|3Szu6uE&lS*vaP#*m(Y5-}L}Iv(8i7O~5V9i~H&ljV*4O-!qt;9>BzHm~
z<^%PZK?62C39I|7!`+<XQrNDq_Es90X}0s<@aaFVq^|B2!qqshy*LZr@!L*85PNra
z2aC3g;US1lLDFPMc?b%iwI3=phlwZQ`vy96HWq_$D9jJ=L)K!rs1Oiw1?eE^eR{fH
ztnB*G`Si9^W~0y>^&L9VOY*2GU2YiWj8_!{+4n6D#0!A*4G!xf#Zumxn3#Z2EUDZ9
zSp$Kcu1M?8pWG57(oP4MoCT#AU7;8$W?Z<I=Pu;!u@JT&u)kTf%K}FwYF=Zm=K@(B
z(D?+$d0_=;jE#@8Gch3x1HmL`ZWy;r+e_v=g$LM*xV!hklHvbq`Y>r4^<l~t_@Y2e
z7Jj(IBc00pH=URS<Uw;YrmJ4e*TpW(!%S13k=2`=jI#iK-}<L~EKv|f^Xr?Sk6e6+
zgLq@eU1M{z++0D+jM@N>5-)@3FjHrx{F4d~%QdqS1dM}((@wzX3C#hv7G#L@aYK}N
z2;wVqu>?`#?m$I(`e0HI+OXgXW;OY{U()h02E6iI4yuv=L)%-oRn>Rx!i!Q;LO?)N
zy1ToiL0XUwDd|QK=?0N*=~O^U8bP|0luijjMN&$HJ=T3cd%wr?0bc*Oj^jdHEasZ?
zH^w-}84t-@kU>M*NFG!oZ@6iZ_&eOQex8ckeXPUbSQaf9fl(^6NhcZJaTwcX>7k~N
ziP2WZN1bsxX~KFtKIii#raa#GX)mtArY>-Ub2R6JMB%J1)gZvEAT2O$;ft{V91I%T
zg-yG+d-Ewjx2(liaHfK!I*FbO__(!XuhQ>4>5%yQcP}X~4*=q}_DaDRd4=z-O+^PN
z1)UC<1RFPe4L>NOQsF=N^7I8#KDk}<^js(CllADAKpk@fTS{3EZ}ro|+G*4**a-!-
zPFH;{DF}JUvwiECcDO;iFFmh`@7{`J*hzn^QX$-W(=S4Hw*T%`-npME>D=y{El(vC
zzWO^S{Hi~06N#U3p~W+ytptx9`Z6W~y&Thgf;c@I_1{HtB<jA)_b-FE8Jw#Rk_Wa|
z&56<Ky!XEBOfhG4&H4aJjJR8g(34m#hQT;1B+bPQ7PSw<pFHsEO+~7~L|M2~;i|aT
z>v3eEAMs$r_Jt`^-OMb`#m&HguseSx?q1SH#zffs&pZu$RGSvfSj?g9i@!D@tr9?}
z5NMzDR8-_>C@%1y;cFFe{!&8fW&I{JY%`zED=_=h-hJ^zYRBn57<_PVI&zv`&H2(L
z^%#C*xfuy2UOeI!68T?OR&obMG(Rf7kVEYqKt#2`?&;eAtFXJGB4$6TeFfknzRa?a
zhAtar?6ZnUCw{e&i2fV6a5vf&ixewCpRZ0cN5e`lO7{;e6z*g3k*@(<Jtq?^7X)(3
zF3*iZk*L8rtRbL+Tmx&iZ<uN`8~;j`RMEG{dFJ%nNxf2V9AhET95p$$4_z~lK5bNq
zSbHB6XsXj{=36@)F)GV2(}<WuRoHtG)v^SMif5NlkiAgSqb+BP!jDxJYivukF|{^=
zH;$=9u*z<A5;Ne@-}Bqbu*nIy@;UVXRgrtVr2;7yQT%fP&7zu|pxde(NMu&cR8don
z4H18<TRG&-gKI2)7V5D`8YtHebC8ztl(yUZNUXrHpZ9$>2-}Dh%qCQxZ@WH2q@U<Z
za^YeQ9p0!xaNVleCpow!xB`6UD~u3nZLT%I6LWljlzT7x*fcOml@oU1e6asR&8K(>
z6xZI@;Aj!?ee0Qw0$d=Qor!XzM1;eO7cc4<?ywu^zz`I8dyKwX>LnMWa+PVv{R!*G
zrA0+!cdBlh5Ya^P64S<#IUn<*R1f4{9W!2Ho=Ur){CJxwdvmq_{tMi)?)<TAMLE9N
zd~uDN2<uf?8`6HKiX8l~3ABm&sM1E;anuJku|0S<FqpnM2}vjq(c)LrT@!t<4Xy61
zz<VH(&Afkfw9w>Ai?Rzo7r`n~!m4wUR|ohF1g(+IxVb-ip72@XV4JDOs+Rp)Y(7Hr
zXsp3<ZvjQery6zo?@{ix>b6<1Zj})jVxNFDn3*6k5(^diITOCERU}Ru@7aZ(zX2h;
zpT}>#+0@~BY#T}tsyv&0)_2$~%gxO_LfHP4DHTt^56<aL*C<NV7VkYZ9lA42L?Ja!
z?4MYaO$t)lpzDhQva>HQVfDtLMn!sSuk%Kk_Tfzr6uBF>RD&K%>Bdhq#QNpw&fZX_
z6cZxh!NugdGbX7)5Q;lL&W7T=-siCDczMPbsNo!~ChDmid|IS^rjcIf?fj0xjPXM!
zSKiN#>qo_eL!v@YT5sSO8&|HZ$%~){mZO57ai)m#eM7gckwF-~w0%!hr56A+D1Jmn
z^rrk)UC>4KyQHKPv2x7x@zsq%axe;KwYog>7$8@s6c{l`|4|kMF+jS1#v*=byd2G$
z9<EGds{viHkk^$J?NB7@aSWkGpaIiE&(6Deci4w0`38Kg_#F#we4u*bTZDL}4a9Xz
zo9}#F6ElK1EV8#f<XIcWIA@t9Njp=aIg{cadRnkK{N8Z(IG@gAzF4J}ENN}Pt2*_d
z;6A%*di<A;5sZsGgta+M;Nyn8`_}!wPy0)b^uh(KltrGJ-=KC0@8&w^Qmx<p$~p%P
zPHPQDQUSGB3Ek$>Vntu6>+#$NRz}Hdkt%m1OiWBFk70Ky%p6J~-AaRA%|oa!hpg&B
zUaolk9u4lYoqs@Rt>z|0Et|v=AA<zp?GHOqxCRN%QJ&#Rsa*Vpv{}`3F6rMiwByu*
z^eNPj=-hih?Y{$aPl2u^BsEu<&lAPEVVn6@kD_uYM$i+bx5ppLTEU0SF2Og`Y39?>
z0i+=7CFLOvM=T9C)Ga3t<L`$4ivGB@fEk?-(Yx@Xi{1G4J;jHEgoAJYxR1jCT|s@6
zRf?5CAF8zVZ(QL4VfgV~4EFiQ0jqou-CbStu}@G)25v!nq)LLF^Z{*yEV_Mr#H3a!
z@*B*746XDe)26?JQ_5<AoyN$>=#?P;u(>FI<CEnz4k=rp;J{z*uD^R7ufY&Z?{-PZ
zu7@&MfUUnvM;B0h51eT`5#EXojyr}3QXf$KfD-c&lgjmZpRNbuhQBJpZ+D)5JEog%
z82EVIf!J1gw7Lu`81t6YU_iC7v~<s@r#whRm+B|>#RVvt@Ge)Gn^@u;EXb~Uo1c^=
z=UW2w=!#8h6Xf+5jYCyzaAuif*v%Lq%6@CVo7UkI%s!h#B;OoB`pRM3Q59lHIey?h
z%~j1f^Qhiw$#<<Q%<Vj+#=aF1D|R?Qt3mGnsKt!UnfP8H$iZFxqQ|5u*0#5qgm0RM
zjvXHkbE@ZvWst9#_I)86WEmS89)1UE2#{SePuzd_`N`EuV+Wv$I1hjU;sCRAj#~C7
zT~NF61$W#wd8<<nMlyG3NJzZ^h@9N~cBi@;rYYOt4?B^z`XBv#EO1u1iOoazWmt|t
z`#EuI{51<~9w~q>>pm(T(V$~fo8y1+>{n`he4vEv5<sOBn7p_2COuuH5okmv1NF9R
zfS3Agrsy$^CYp&3JAh3YXWPEa+miu452`IQrq~cGso&vvcPH+h_?*ny3=YCwDv!27
zoc9Qku8(#I+SJI$nuboi0`~jwVk}mHe3FIIR6T}@1Bbf$Gl@5%S&hV}%^$#*xYE{J
zrBuzUVc}nep-pkq+sEtF+yU2YXG0Amj{eH;M=D?b$}Hx4pk1lepq<InF<)vkx?we3
z8|%$>+Zen}2MvS|N&nG>%NZLeVcq(Ok*0YVIE+N<NQHlbG(|}XA}FO+d^6+U?U*o@
zlaS|JQBYr|B)9k+ZP85@Ezy+&zB`kob10c;%)>G^mEN4Fl2DSQ29R*b<yQ|Ancqbz
z?iy4NGAPMQugDlDbU!9#%gshEHm5z?d&8;&@`PSwwKA7`kid>e+Dg2M_HM(m=q&;2
zvqgaHL?C=!_yq$=QoW77CgI<G&T}SGn3>;zmf-`)7v#KHN44n(tvMHpt4m95060LJ
z`0%hZ29bZvHVYzs;t01l-VXm@{bCi{YZTcUz?D}sdNPa1vosRpxTvfd9m6Ix)dM~z
zRDqFhu7f6&Sa!tq8h$_^H-e7A1IB-PvF}RLyaUJ3UVMw~GoG@LtEt+Ta0v_h{3Dp%
zoX%(+o_#7;=w7$%8_6_qndYHbBbVL$OppZU)Zp!meYC3Kc0Zkd9=3Ey5p|ddto(F8
zAh^0vIVQdcqAFHgBG=!Cb)yn@p}QqSJ4S6NeyI%7XpwZh{s8cP(qFEo#9p{+u)^uY
z7e5{Yg1^o7okrtkH!Cc?*q?~YnU1TJihF6FWL+4jV+d{z6?_K|1xQ-uVdhMWN9->z
zFFy>&mG;RVFA%qUetC8faQ%0M+~MQN#>oT!vwYX}zRThGC`IS?KcsX@OGpJm1Bm`q
zXNgluAEmSPDJu4C!QQ#p)PhsHv#f@$+j6-EZHzTAXl}g7sM!s`+yZTeg!W_G@h-3t
z;G_Nq$R=GVz%h+N4CcYrJ_%m;M1$Ux^~$z^Jp{}`DP*h&HcgCsmS;@Dkg;pP5J@=q
zgbZo-xX~}2VPTN8A^~XrIgAary8#j&I^^m-U(tY8K5BFcx07<eyX#Q5sy;`u%~X<_
zx)}gC<UV%8vYl*pbks=d<?pT0!_DcR-J6<gEd;s3q)Btj6c^ESZpqC)|GBe~ysqO1
zVy{OkV8Mqpu8oSK#-N)+?c2aDO{T6y;T&w=ASQ53lz~O&t)U;#Sb$fB+Pp#mgHq{6
z5BT9x%h9$@)a8opE=eBt5EE$#m)naq8{{qBR-sVVRfzjqZT^stx{;x7WE%ZX83*S)
zKlUI^`+@{5MHtB9nWVCct`Gu+1Jld9<~W^nbKn?@GM@!H30NH`N6>Hl(5{wU{>l2i
zw)0s!%EOv4y5+B5KfuAX%5;YEE%A>Gs$VI;+b8hF2sxfANCQDv5V}i6eF=_NH^Y<_
z_AOu$q@DxgT+8^xg4LxMMsIi~Cco15(h)MA%Zp<g^~IHE5KqwxvTvewCohUypsq^(
z+fiquE1Br;XA~35{-eJ*CpN6ECsNIZ)T)D4Xq|)f?no3ZvF)g%MbH`{_)1#*tF{&H
zsnxar`ZnzKfIj%^^?-sT`<C-R*f^uG7>*82n$R`)ogd2VPKyrMz)Dx>7aW?v7op0Y
z$Lu_gsS^?vUH=ja2Hw^{;ZLy;>Q&)vM=w2)qr#4O^c7tKodS!^jOFd&`<?IXw1|+8
z$PDMJe|rHTan(kHuhFW>5VL0lZ1XnhGOkk0m4kn?XL~`3;(dJ6C<8|<!Bw9R(f7v#
z@$vZq&50oDe(T;xoXN!g{jdWt0yZ<re!~Rb*D6#6WZZbP!z#TXQ3H@8V()Y^6j6*;
zeQ7`L&p>sf7URoz(FN0&e;#*Ll(8Ui(}=t_<~{$N`^cl1Vl7!{QAj@?yH^&jHx4c$
zs^;VV+Q^lnW(-NK$Bq__J6xnE4s1El2FF@aNxE7*4)2?a2n!<=d-f`X$-2k3T=2YV
zOO%D4*X5A*HKcrV|7k8)4;7g4W<*G02FL8J;G@}G{53SC)w$G^8EmJcv{X5|940CX
zTn~05rx#>CB|)rcD2gbB58P9VQSwt7SFEOL2|~O1;|^|Cs8IxQlGq;b_Q4G_-?CUa
zMNCX=gRsJl#v3eYi!3gpv=ix`BxHm6sXLU%BBPB>DT=wo17hx#!49QUCBDJkOulC_
zc8W3`;P|a2e`sbq`TX>~B6JR_r-(bxBGp6*Ft7yM<Bt+->f|_ftug7w=qeEVO1tdA
z8T0npih{7T+j$8j2FvFqyqy~rV6~Tq6T5kgxh2D@7-(=P##Q@J7>$yGB6^<gVB_Cm
z3(|TwVHH~6^h=xxMIy@g?Y_|oRR$lT`GQ;Or7FdCQL6d6IzU%xP-B5na{G_j6>MTM
zzaS<lc!PZ{-(3is)1O9TBEY8o>NVK5fnODJyAliD6(lhV1NiFnF^l%th}+G_{runU
zID2kX<#9F-<dP7Pko3xQ*>B^}gn5C!kQOM%LFW6~q{9B}Hh~9(3%s3tIEo=9Zc7mr
z=E6aPhlSo#RRGZEvHn~H$FDs&%ESR}1{4(O5@sHZSPqJDoUKMVrK2Ly+Nb!qu3Z*t
z4-E>rgr%%PeW}ua)Q!MEx&I?vF|2Bo*quI7lZ&C<%mhK!GC8NJNY>AtgHpnUZdhr+
z558MIcPL(>1TmpKhy(i@L@HJIcL?Oc%hFIqoPl>;-(0?S_#B|$0Cp1z>?Abx$A?Xf
zPk;Kf1`T3~{yx#(jcUn%$J*hlcj`mljy!|<6p7~c8Ph6VXgWL_#UIXy&0aD<(8MMv
z9!e?AgUM%Ur8ID$GIUFxSa6c)KS!1WGF2{Fci#XIk7W>65K>a&Ch=AtcM;fv$3}<M
zGB@T4qYI&ChQ;iQj+0a&6f*;`pm`34o>6PIw<5AU&hUzbZo~x~kEgD%Hj_M?t1aHO
zqOf8^a-Ex*H8~15wl+VZnz`u{1;cUH+SC*p8VV;#{Q0LUvnQ@L*`d~h-S8LQ5R<q6
zI`(EQ34(!hvCW6qXBJ2-bj```U3?25I)Ght;?$5_+ieEbCw11ZcHbLal)nX7DPCIu
z7Uv-HE%GQ+kZ7Ecr}E;lUZ)MVO;QDUOco`#1^T(*ql9lqVSH6!2N~BB_l!YdvC-Ky
z^W>z&Xm^Ruk1@oCO^RQ?$taxtd(C+Cr^MF64vBhLgoLZI6UV;@%r|--qLX4&4Uqup
zsF(>0FVEHLEK@h~$OtHcM9x%DqfrK9HO+vYQ&dV8ot;?WJD5msIckPxmiJD99UuSo
z=}Lg<eMZ(F(wt=qY8CHFH|`T{5vG|Bw*URzTK&NOL(}(`ITE1=5)6e;X8R=fqn&FD
zY~6uRbU7Rxy1B2P$`{WI#5!a#cgUX(xH@_uhSA^ifSC&fXiYJ4f02RoP&g_cuD{nI
zWk&_>UVOVO79~3e$E`+q6>Tt4EX#TG=JR1+Ggarq`IrP?+OX=BjlDOOq(R&0L(Hk%
zak%c6y!vFe;|hKG^D?7~Po|jBWioZ}xb`yavr81$QR3wIgSc38|8-fg%^IPbtHPjG
zSv&2k$eUT>2R*mZ$=BJBLB8APBA?m&U``JA`1G`YT*T{F6ZGj&yQIH>7hW$kOiWm$
z$URKTgMryDDbPfH^!%xNNxTvO?K9w!uXE1aV62G3O{c&aUWf%cW5Nk?!3iOXW?E(b
zuur;tXBvpdScijNj4fVEr|~)<iU^%D_Gn65eVjJc+&_xW!CU~g8TyjQN<wv8fQUS{
zBR|g$WTKIBZ1@#;pKg)!gi619AeoccL%9`cJyU5Ip<H%)@$-ElTISQ+TQW`teH38a
z{ujOywb8@$gD5%!LxxX!4|;q^1#cg5hAkQsC%5j*S|dp-E?e4R?MM}KvlpIoF9p~#
zRx{Esy1IyV1)rZ^_@sPh)pXM?Fp?kqjBK;%0_YxF3cx0tfO!sg4nJPr&X(gMDgG+h
zy=d5Nf~bLR919yeak8k$YRmvA8-t-mVrEJ-av$XmkI%p74)cdvM(ae7J!<~IL3vIk
z&cn#_+)cr46L78}eTr6#ipX26x)oIS7++O^HHP@%9WJT>tLkIL0s-KQA&DlPbSoQg
z`hI1Qni(JJ*o~LRZPUffMpzQUbKVlqnxroxEc|D0#nc}M@%LE~py`$oe&pp?8LZ7z
zbYpEk?o!?$1GKDP{Rf<_4gK;dni)F$8?FEzZG8JCgChKh{oWvgTl8Xhvcd8%1Wc5u
z=bB{uD*tvfKMBH{#!ni+P4&C?zOq^jz~C^w;0mZmPm9;4gpd)M(vMK+vOQ+ui~~_Q
znf^%=i3$Z-s-fY*o##<sWA>^8^=sa@pBO-W1OE>vUlZe?lab2zA1|;w(H=dEwua0L
zFd<`^GQpLf*&I&0NeC>mjnE>ab5$ioIk0EA?n~bo3VUTgRfb}bFJ=-bQQ^0m%>#>a
zw5fcBAK#c=KG5}?iBc3Gy3wm0)!j%L&uYc4D0~BUiqpX5?M%<xWj?<jb_HXieJC9@
zEKCdVMuAF-=BCrr#>FKa<qu6ALs=|88T@LVTz6Uv3JVX6!bh8+B?}YPju`_fpm^|o
zUbpQr>YaojqqgTYu;xsUB){1VV`en-mt09s46;2?j8yXyrU={trXV!SxEP-3;L>bG
zz))!R<I_{b-Fpa~V6+A+HF5?89-qWqKHG5<oPM?$fa}kL-$k9^#-EVCNH}2;LOqM&
z{5YUF2Ey6iZa;1gY_PP94kGA-9mo(L9vN34i42_$?E(3O_3}<;!pG~Yzp<Gue)(eW
zG9OCql<w#e7~Z%_`EAv%fK=Lkqhn>YhbzTKbcnvbE*vY<79ADU?7vz!xK$_f@G}Wg
z0TuIV7%2dFh?F2YBdX<8uu-}?JEd$>7t@{+o$F%_D(9b|YbLVPa@QKNBwhqsCT0!c
z1@RTEh+yWslF`;=SrBM3)w;~ryx5owYfq-0*)Y=|I=vu%Hp5+zSR)!roMa@R{UV*+
z=Nfu}jS;Skq(*Xe*-2C}+>6AEB-<a19Alw{{0|#&7;z=R;n`2`nq5jn<_PXVizg$)
zQnsNV6*t!?2d4Y`Z6I*NO+9b<)^5^LqSn(s;A<sSQ@p>P`dWw(|Iv{Eh^N#{nRowt
zd2P3wvK$qGZ&d5`eG^Q*Tv)Tgnhj#e-r*1=z97f07oF92V7og_r-C79!@icYe|H%r
zy@raJ;Le?XmR{-oOxT)#+qr1RrJ3sDbP3S?pg}G^F$1UHMwfA0tpD1R%a{*%6}4x~
zArHsrq4MS1`=Kb9y&3MM(&=Z`AW6$d7<YdiW6lpbDSec+wYP`wq0~h1z!V}IxYtU)
zunsK^gN(N1<-9DbL)CR?sG)hluMlUV_jyA!yLN;QGUj};KB^I2t4UR4fzjsVnAbce
z*kc$$!5ooXxY4tU@oT1vDeR#PPwS-v{74^gPC1oX$JU!s689~(zYz42=Z=-~J{+>D
z`25T4@h?Qf+8=b2Ey8=4(&-82wQ20he0}a2Mg|Yf(=({K?jhbv)rS7W$_$N&D7EMG
zE4f#eenO7fCw-G4(_)11GFIBmSeZu)mC9h8s(~oA<R651aitUs%U#<?M+K1}?jl8p
z-(;8f_~Dkf4l1_Kx>2os@7_KA^IjB}u8HE*IvbGWP4!>d{M5zhRCdxus=as-Y&7Lu
z!pg3tmanvmu;`US4nJfe{umdz@>#sBXf<DV#D1jYWxIUvbEp#U5w0BjI{jwL2T#8b
zB-rr{sT!ShVe@}x-ArqIauaXLr@!20qNndYk#ISn)h*nmF{drkyZC^YKPcCxQ^dL2
zPb?T+pZm-szR>hvu)G&J%Im$*gsg9~rusc$az5md&9cm)+}5_EO#*vkV#eO?8F{9^
z8?pOTCrqUEE&?^O6)BS-Cops9I6u&JnO<ZknWH;RGb`M*tUcgx8rMxQGU5MSg$+Qd
zpv%mV4EQK!|5^705+R_&1ICo`^~w#TG7)JEfn+)=A}_*IM8$tZddXrM1-#X$W`&E^
z6goOO-~=4W&CAQXdsV`KXahz`E50Ht8(TJ)c^71T_<x*LMyb9i8+G&tIaqVTqV>j%
z97^^7D4+CVxT;SXb3qEaDKMD_iED7fo@|dl1zy16#53)nL=+)r=5ptikHB%3G{qyl
z{q)P$f8JJ!gb=8w=!YET{f+;h%*?wL6OHx1FEw7M(6Qfz6L8l3VEOqvp3wBkPyj8=
z7kdcx$xu$nNP@Y++sjMB>sR_>rukArqLxlows8J`#Lrs(IWNArEi{fYHG=~eZ3oBy
z70@NVkTP3^L(>E#o^9(v$qT9>fZ8K>kk`MxJO08LX>n>5A&>YnGGYWNn60gUfnjx)
z7$48&IM3(oya%m(w#3U!P6x<0b=WxGksFn;SNr*&-zPlRZIey1Jyk9$k!a(8|ICLD
zxpz-Hha5|gLUt&$TX&t?#!DV$!H6&?(Oij+_z2hh`syE~t){<uQ;Eh^>%1cI6K!`i
z$J1_ZqWcrI(~88=Q|JHO)V~#?5+?@#*F{tQ&E5Q&j|q~XxVXlE{Q)ioUZw$7EjNWE
zB_;K4e}u;jpMsBxjZHPjfD@li;W*+IlKTz&beBU;1D*fq9~&7P$<IAC|L^_5)ZG7{
zle{Q2!mMU|VL_CG<4e8q9eA3MYB$EB3Yre!CjCdtDmy67V3l%%gb}q9(B<lv_%3E<
zW|o$gYHD%MKs?pz1>8R5O=tBV(;jgI$A!{}Xua{)qYmO$l3k~%#)T!%IxXGZWGyF!
zBg1#LjmoZ%mNeRFb_;4DW@>?lUQef>r;6CFfU~XEK&DpXvmxBfPD4(_(+{QRzP$1O
z@HX*<4pK&|#$oz#5rSuc68jsXj)aBhnoeT%M6>9C56;F`0sSOw$ba}OA>XxD15%G`
z0^<ckoXE3h&&tcoff3Y4tn6iFWwp7nF^j<%<JD78bycLG)O9Av%bOHkV&G?^=j-c>
zC3z67!2?%zl<LxcWY+d(n6Tf3&d%gV!`p*D$kddTu|q!aV;GLzq~FbqY`4H0uiMDq
z>GHbZX;AW1o=}7E-tsn&ApYt~M^x$y-e!nfgM<@q@!w&_d}Z$#+ZQ#&>8)7hGSeGV
zWh~vShR)vo4R+{opHvvGXoS0`_W8baYVOkCe@@C8TB!iNw)w1ZZcZD0)cA{{X!^Bf
zpu@_k!1R%2)xkfQm&CFfzog4@;%X{}CJ2tDgK~r{i+@ksO<f73%e`1X9f70+rY7LT
z#EVjt?C%XK8qkla=7{-#j*l|(bL)R}s)LS-|24uG)Q7AsXg`2RCIUHDaY{f^JD<nd
zo&yqO4Kz`8Gcz;Zz$&`KX~OrIaS33{Q8+(rWr^}&aDz}I!2G_fteD!lhE68L$_n%F
zBpL&I_uNXwS{No3VEd2T^{DeewiZhP+N*3aA2)boaF@crd?Oif1w=+C#i>R%rT}OI
zJ3Bk!|Di3n1il)u^vCc!i>CY}fiWG@OWa_m@rL%a)@r!HX-QehA?6T%o5}vLSV-a4
zLTM+}XTHr1<S2+9o$qO&!-E;H_$MH2V|Ps94r2Sh(rGYNNH}%0zfYyYRZ^FX!Z`NI
z04}|R-x-&C(Vm>R>Sqqk*Z!LL!*{<HK1%Xc9@0&xHB0p2+iOaw&bF|yaM9Yrw8`MN
z*R{1RGvgXY8}$Sm6cTvT!$Lca%xuD`*!I>yMT4z%fjt0dkb=72|2ivXIkuYk;5US7
z0Wv}K8RS7-hrsgVuv)Ibu@{A;tp5H8`d5{ap74}W`9hFY5;Z{&G>=wQ?yoUfZNOWO
zhmfn<=aduUCm{`2Fi=V#yPSaE4G58tA3T92AigrsJ>1<}=gKwR^!|GX42S%pF}|%N
zpiJA`+zbJ~hd-MQ%>KUzWEo)=C%($GItAN2aEJ4QNgs^G2O+^Bki$z_nSkM1Id~RW
zvLFJb2v{l|`4n;!KyBl8Ur$6-wkSWpCtP?lvT~q@ypz(kt2Ay+&5kuL+5*dzRV0UA
zT&c@zZ}|-bGL8+fP%bErm;Hfd8_b@iAQ%I0f(md<2d+FNB_$0Xb>-e-vpe7v$T%H{
zSBSU#{e}KLQwR8az)u}kM52+9pYv<;xhlu4h&r4~RYpB>V3q4t_cgBg50`NoH6bF{
z^lLZ3YX>;~PSDknQ>?7KJT(UEZy|j<^FatUIfZpUSY8EkIJ&LE!N)jAA1c)~4{6ps
z&j+cwXpM0pI06rLQ$s5d7x^r@D2SP%-_yfG76O~5$72#E%wHs0%O67lj`j_F^~7Xq
z{jZ^OyOoZ*QU(r=1k?8QT<cL2d;f93YWK+gz3u^?)Edk98d({AgV0DVr5GK9Waa4s
z<9fxc%89p+m0u(%%f%!UDPxf&@(+)3r6%NjKfN;k{_f|C*4$D{|1;+A-(P?C^fvzP
zmfi0|sgOJRlKs>ur}QD1&VTqdxo|^M!HcLsE}B?)BmUu!>B_$&yrV))q02ts-@x*3
z<=|aai?YB!oeo!uk1-h{o^Pk@m)n|Gn|B))h(E(-#TV?F@?UL6wmeYL>eiE+)~Ys>
zUVHP>mlc;)BP9$vvLeBpUzmKlbFzp2u!8{mu#7UO^1srw|NQv+RFc!`bWTaikLZLY
z%3<khJt4FoG!mxyGGP?_c1*vJYy+@`0T}?lS!du_=Q23`Zz%{1NabrMBv*j@;ZaAc
z#DfFYPwH|ZG{`?*q?bA=0pAHar*6r4Kn6}h-SZ=$Y&{1}Od%(&LfqwQ2tN45>VhvA
zU>cf%k+eY`pZRCT8lQRN8k+7NFrtzLc%m0h3`^Fy9H!SpefSCAE&;quSZ@#p$?^}$
zy*_s+XglShR=0)<FEZE1VsL9xu5$mmjwe9m4%6Nzzvj{@uaxU2o##tuG8!>xwG-v3
zIO|3o(WK4d)3P516YUEwx^yQf+}DSg0_UWxB&-(~lLbub$s#HU?NXShKUIzjt>X%G
z`~juV$G;pouY3)rko1d}C;Dt{Fml2mdrjj*tJq`)T;C@islHgKLS?px;r$v<a8uCU
zH+{o4*?d=;<7)?}c6JAFceUD}uuA7bc4S88kFk8T4=!*&>wCt_m;1Eka~?&LvfBk@
z0Do)Gl~aIn<S1?S<FDG`!<XhtJ?a>mQvl@D76HK%;F^D$6lY+AR`W;%mX<pOe4m5!
zf_g{J4%V%F;|qncKF(Y#bXCJCYrELQ-QEtHBh3TYcd_7Da^aD3+!}r)!pr)=+tRMZ
z9=g5)S5ee-l*=Pfb7X{S(*Qj^xiQ=U=bNb#vr!Wl9@}sehgd}op#MO0RV?^*%dm#F
z?>YcIx5B7-qU16U(O@_C`2`S76R)BNaX8!ZG7rFcNk*<^Gu05?()#^9{g1z~KNb*U
z?0<>NjlLl#3x9sGot3j(zn4K=Q&~xeYasKY3#$Q}CrMc-ki+52oR+bIeXfkqT4p3$
zKEK0kwTS1B_=jucyhTYv^i`Cyiy;Vx+yQI!Na7;id$N^WFJ#4xn2T#Unm35-;wMh#
z*vQBzqU#A;ns&gG3RCTb;OU4v=|g@tlxcuCYR9Bw9YIpvlo^-KYVP;D`TMu`3(XmJ
zDsF{5akl6znREkAHF)X4PO{kS5!_Q-z^IpT)2nzgF6o|lGY5%NNr&8c{8ooq1#$CW
z<mpDuAEM6WZkybfTh7WKcg*pe+79GpJXG8y>j=+2Y1o#vW1^;CGd~Fl{dwetH@8V}
zvfmBQv$LoCdObMtrIA{=IJxc4gFq$K0rF42wu2>~3{wjI2(J$KRXKcvOaxm|GV5&B
zqgd5kQ|~2DOC`Dwk`K1=?s_k}_V2=$@hUL@auid27qE7S=fM<DnIe@*(*g=sMk&%}
z56;gVN)oyg<2+<QiY1ijBiorgJ5~0mq90Jg-;m@|v-PG6#EAjG_l>Syo0g;#087p+
zkSMSc_I$0-uj{G)9j+y~F_5G#!F=%MtBDsN(UWlT76Z-f+I0dUy?N*Ytn-wn4PydW
zsKm@@4jfdc-Q+U$r4f4#3r_G`p5{l~hX>{{_1l@a#ez{RU5{yfo86A<D;BMNMAjxV
znq^DMkVL>E_?&e}-7>XreaYZem;<`x_B#iI+OA$rqyBe8$$m8>%-SWk4^BAz@YX71
zr~QF~6nE4KTrF^vE~*j7ek}mMb+^P}os#fSbXVoC3ZBeI9vUidJyqP^e}*TQ(hqV6
z9zK<*pF!s;JxH;zUvHZE!NaTfh)l?3^#QCbp~t7#%|eeZ{X;Q_`o4K9voKC1+R?8I
zVe)mvcFRrRUzKz`nbDgX>9`0+;fMSUFE1Tvp4NVzuA}Cs`Zn|Wf8XC<r~{Sq_GKT%
zn><HGf0XM};NLC$NWo`Ikn^|q1=k^LsaCue9H$6RLKL(bFa?$5St1Pc_`9<e7hy=e
ztpjE71?Z&WC8x08b>ldHJl}$|SmX88g_!F%S!1q-i2J?+ww9Iv`Gn(=cd=-r|NZw8
zs7+Whs6?AxgR!X-u9u>*QM;S1COWwPy4KjD51>TTu|0tGR1(J!zM`aL(Goj$h~U%s
ze_NXwu(3-nQcWo;2By|!?J&nMacAtB$Q8MO!z@VQU=2U$uXEPAaZfBL(Jq7_Mj(^&
z`<F*f8a<*Pz`KCXS%Xj-;f|U3`I_?X{LRmoo`(}WXgslLstOr!#^N<KeRB1vlGsXr
z8ovYrlccd<vbBPYdw)Ouf@bdC77*kz{|(vaa1Z_h@O^F0+?Y`EW-#IkwkubyEB~Bc
zi=PN>=Y>QQGg}lQy)RV{GB_PF(y7IiQ`s{9Y_qw_DG^c2Qz^p7Hx0_#<}GJvYCBX+
z^kq{33zKrulAzFjiP~-Yi9w%|v9h;1#C#-sBf~w&WB=35T(==+qSOnX1U4=V3??TW
z5*AB#2)w8E4~;+AYyO@CISN_zFcodss}=Y|3Li-=QnjsCvw;*KQ3MSU)riC4|7j6=
zXXvU*8eMLpT(+WHa^3Sk9#_CI`*ayXA%wXKk7=t^5Nhp1!uUW^R-8!H#6%mw#j7;x
zZO6ZXEx2`un+LFs>gxX6bu;{+8-RM3JOn-Q58G#y^m|<)W5z8W=CRSTP0D<|J)htR
zF*V&xZY@gOP3;2j`47D#d6FOWq#RyZ6qn4!n6&$bi4Hz^zKWuI&UlAhcDL5v%g6#5
zDVOaI&w%Kc3_m$U)=WXH8Ob+klA$)@(RX5gaGuObsObv8SZnM4d6<RX;Pcu9>|^F{
zrSwl{&EKMU^+A9}P_sisM8cv6la;0|<>gW{E9UCH2X5njxc1Qa^>1l#%L=+NH*^<F
z$Y^N%?`j-*-$S`94E&1BtG(T8O(3293tZ3Jf4BS`D_q>rU8d?(WX{IzFUY*_f3^lA
z32ktislPBvc2e6Xk{7hakyY>nVoUeLceQ4Av5yrI&xcm61(1Qmy^u_J%Q@per7m)T
zBPYYBB2_5=Qfv1ErRvCHt!r40bev?oxIHKCyt*}^Hw>Sc1RPnIH1~b9@2@7ywx(F)
zk(dQBN#wB0vPp{Pyhq62bd{Y%`mP4*$P#oud%tM;4Aj@&L$+&wD#?UL@$ZX~_4bEr
zqd2gG`ct6?`hr*}Evd}fHxB**7!jg{m$rTIy!P^VQeB~>#)mFNMq(}Wb{X*$IY!6H
zy#0=O=pWef32Z^X+MK*<!}!u^rq;x*@4n$vzQqehzc4LX6HDyXK*`HBeBjs%G0#E=
z4y+UB?^j2=m}Z1-+BAWZ>dScykDZ%0N#}M4Ai3)TT5qAUADT`ujHIQ&=8R!tfK1r-
z1lFaGbKYWkJm0d<=y<f8TvEI(vQw1wW9B_)FOzuxHSFC-Gk8m7Q77KmLGr6j7T+_F
z5$pk9URp%wt&UP$l6jZ<5@woslqyTy#Cn7aMiVHG;#S^t5=P}pH03Y{q7AH~-4a@z
zP~j||>^bsUmdVCmZ9iQ$^dJ0i^MN0iAG7?taPQrSdtPK1!(?C8eQHKT_u7*1lrvD7
z9$AtS{%lfe)>&4PH>d}?Nv#8jQ{Lk3xt4E|<)S_OP_Iz>#w)X^j?_d1+Ta159NdL|
z7ONiSADNinA8e|O$2Y9`RuGbveAzEDc=-wA&M!D6!SzbBRtV`06m40qRZL8|d%lQ?
z%}?^?{4>=a^A5H(th-)IT-d7J1z)LvdBV-)o5_VCw?vql5>Rj_pP(BAx7bwWU2{VF
z@OJ>;3%LONMrZVW#^jZjQbm|v3KjqE^*@qH!VbF209Pwy1JmP-|0Cce085fcGy`!9
zl_aU#d5o<MudvvRxlad?)C8%f@N~mwcw-5O5<=t*vKniaFkAf<K>5LIJC+AuJZ)N!
z6NQrNDlJR;t~;oj8&^q1hS0dXrK^_!jmT_^hL~B9?$^)Q6>aG*vXIz|ti;tt*|>1M
zj(Uf=L`Qx6%HkOlf|sHcRb^(Ow`w=wfGI=~`HoT&lN0`q(&rOPFv?u7?aIh=TAftH
z7bX9KXW$!bkoaD94+{EhCyA`X)>kqWXc5W&1u__9Zaz_r-#)J9jv-;S*6ymz=R*vc
zG`npE&~<hQpDb*&co1|hMsk>XjLUhb0Es6yJpX>c<v~MikCiaCA&5oV$R$tIv%i`k
z)dwQs?@UI9+YA%aW&@A4cgzbSbFq9dTsn~j7T|^G!I4&?+IVcUOm{=Qz*p*bG*e)P
zCVsk+L`?c_BZF2eq=%%cK!ssQ`YptO1<T&seApk|UeQQ1h~e0STf@?~%|xTi#x1`A
z{D2&(`RvO}q6G*Ere1kP+wk~?K0_N+N^6U=KQpF+wOUdp%BlOcjS#xER1WLKV_1FV
zSsNopSpx&oY*&#P%;9vHX>9t5a}u{RP@hkgX;xTxK{Km^rNsD{zIWy7L{NJ;4BlUv
zbp_ta@iUl+F!;H2RBn?nX$0OC?vLfSn_@C-sGt|JVhRC6jL%h%fj|W_3XdKQ5Tb(-
zPS9^PA^c&AGltcu{K;H-lA6e%k$_wRUrfb!?icg$pzp{11A)z3PlfwFbQ$ce$id+T
zlk3`DrN1hOyBok(6bMVSC>!xmJ8(P{aKP?R&ENqhO2xfj&_Oh@Ia9v<Q{8<FXLHJn
zi8+<i?D9it*HgIHj9j6*)%BA`ETAM4<JbuQGb+=dE-*+is<+iFi<l#oy=<Y*kuyH|
z8U!9bk&(s}EZ1ISQ@6h9Q3rZw`-GNuXwdkwMb<;drJ-MD-jp5OPoQE;zJ$c^CAu>9
z@7{!iBY1Ep27fIW5DweiK$*Ufgf1{+D^4RF6s!1M(|^Catc%cnt!b94!Es;8hj&h(
zoSe^Qn$>RmiR!&!*$eI&wzmp3qv_mef7!H(Fr!Dscnz$bzNI=Rmd2%R-K6CBDdLED
zTZ+>XMKhWu$SJmZC!Rh~Uj_@8g0BpwM%^K5vA`WS28<jZAMB-i4u`v8AF{s#kc=sd
zaj5L>^=p>!4ZXj{2~aAql_mNEg-K6~-9$Zq5Sut9C$$M0-t9Ad26KSs;{|D*P-}B_
zSQ5`b(Y>uMHhzK!nU3OTB1hoWVU~57MD&Gk502cf!)H6sua8DwwV?`$tt*Eq(~zf~
z-WkxE)xWC)FiK0D@}QU;;+<_*N;t6tlxt?)iuBd|ya7FyWGx#0-tX|z(%q5Kuv-OC
zS^jAhEnU~CX$GdCFWH#sQR0}q5Hv`$O6$U8=v<+qyWP$n37I;#pAN7~)Ax2+nXG@O
z>xiP+XJU#{7Y8}g85|%_5liW(rTK>>oiAXHF}=RfOW+jkanwyCE=MrjV|M@0t07y_
z!st!+UbX~FTabl#EyF~CE;ue)$w`ZAX9Q01PK$1DN1fk5G5eh>EsuPtYaPH;4LXWq
z753Z+XwNG3&Ju$Qb%^*=7g9>HoLY7wY2%u}>o`LY`X1%<@)k@idX8ToGv%uuc#KKw
znZEp>B&?kV<%C)X0lBJwW_WjkaX89M+AkVRE-IfsKNDWuHi5_-?!L7XZa;+#=D<0E
zR7v24dX_&w_}1`P!EI?udU1<x)Hn3KBHPL}A)pnxuLum@YJbEQLv|H3G!|(+Fg)&2
zb&-%A^SzXsN`OtAMOh^A*R-TI#v2jcqw&qiF4G+zPOAN?mLDw16e@rMQ4B_~Q%~L^
z%4H(d@&stCaO;VInT%oLDc93w>6k62_V?);J>kIM^BI@BWBz@o&X0^tKk`QgU($?|
z+Oo44$dvrvv^;fbT1*y@Dj$4WF~#ykMMTS2(d)S_>DNMho9{P=k~CENv1Sw7(laHB
zNFXFUPFf`K?J*k)WtDHjaXJ&0E1(=yp8+KMR+g0*@mq%Tb0mSErYR3%9oJ819eAF)
z3RMriINOi4x;YH$F%`bkWKOeac&Q#Qx{vZ}Zhe^Rl;&pz)}q--X|BJ>)`k4xw0(9H
zET3gPVJ|(Vy<Yb!CO8mlYwnaQ8KYpY;cKkqnXOgNHEk{W{vL2k(D22o;R8m_jsU%z
z1pNE6yC`c{S`-Mhtoq3fvn}SkjOKs`vni@lV+>@~eG!2K4J|0Ltz`txUe~~FFIF5(
z-#<mtl5pj2NvC-K6lCO-Cu)(tv}GIVx%<^p)#nX-q@+36zvt>03F+}L*sTUuVTjhE
zEa{R+zPD2zo((N`K{A2WCF}dPM9)*{RK)Vr*WyeZ#ufBBAtQbIiWn|iD%G|Q%$zsx
zaii|OIj6Nbev6)rp&TFEP_-zF(4H?xG+_5uLy?t694!MktO9i;OYn7r!^%f-&wozA
zcv!(UI&!E@fby}J0ME^#@#W5V;mzW9AoJnbKK;Shz9P$6<+TybTD7l_t+D{aE3;sE
zfiwc=?hC?YsZ`H#38@;Q8=s0d+Fuqe;1DypEP2jwvypVJY2LzP%cTg|&X0gxIQtC%
zGqH&7+R*%=)A^IV!P=|gXE#&jC<=gVetN_UA2+YF7qkC4T_YpkP>8-l^kHJDuthvE
zuC>HkMj8pz*b%ci>H^9J2nelV(=C+n#n7L*k-zR?1;>d%14$v^Amn>&i%RsO@D)H1
z<}P9>Wbcfc4*^-_<;<`~b(cx_99%;#a4Gd0qF=l9(TTs?kL7&=AV~W&B}enBCBE2x
zVBEaJe0`Kgsphr!ViD&JdAiBx4ow$7-nk07QLNB^8Fv+{?K{;3cn=U`%O!=(q{~{I
zB#6MHG}$I{(v!~&+2~^yjzCxkG@*`=sfsjV2Ebl`L&o75tR8yyw2x*xxf1U_+VBdl
z3%I_@*MrduZkfZzj(@L4!Gx$Z?IQq;IGlGMP7_)c<xa+id~s5%Y6y#QBj$YiJmip@
z`B^BvsQvAl6MzvX?;n`h-QSdQw#?{X@bd?>(D3=zo9{3UYN50(IJIheoGh6@bnZIp
z&P`_te3s<5MIQh&NM^_sqRvK&KVLek{Wgtfqr;~5hG%$CU!Qq?RQP)~6l89y$PK8n
zTBg#7+j2e_TyJPe9%t$y5P=9KS!tctH_8~6O<(+a2o)ARCLiU#Jjr05!b>>H-MACJ
z!TE}vKUVcg=Ebz3Gre~A<PJ}A!<}n8wWcuHwl}VQ<cZ_9wc$dRK3icuswkJGK)?lc
zCUNJ4SlfY6_k<q-y32E%`raFksYz|aODj}?Fk|wWcZDum(o_}VpX+iqZynL68P(FC
zlX4zm?>C@xB>@un_E2%x`F5EnpUv|ElgcuX!a%Kh+y=|ClbuP0TP&q^TOCPy;_vE_
ztpK(Z%XbFP*J#KtHwO!K_B$JjQITQ-Oo6U!+AE6wC%<0&RJY?9+|_CE!pZMG--mn8
zYw<UxWDZ{#Z9^hm1IKv5TXYnMn(R?AmFnR&C&%m8p@w;{1S|&#?r)*Uxf!NN{?E~S
zr(2CSkkH5gQ(Ky^`_HJtgO|yu*>BpY%i&bHio&IqCr-1Dqpetb^&Xy27B`$AoDTlz
z8=6i{@2$&7GGh`ZbA?tKYzeUCo=bvy|KghqoGqe{gkUG`LONG4H_~c5UeGzK@#GL+
zy*N6`i!S!_JOrhta<AMK$@iANku*eh|4=!GC?j$QnPW<ifB5potnb_d*>WqI?F+Yr
z(KQO3b8cv{0neDi^s~~6k$WE!gJ~@RLEgR)B0@NHtaaZ&-G!zVAPp>;VB9hBV>i-L
zNjUr>EsrySBM8v(;Bb4zo8;ohU87}Wp^T4)s2OB}8|gY|x;=f7G`KZ}C-2Nk1<HNM
z&fyG=bYzp96zk6br^Z5;KSJMZ<On+ZDcx0rP%#GT1RUo>bD4*n8u2g>p*4z%02FMn
zkU*`Em|Z5b`f@AF*^+>r!au>V>Av6oCv*XBRVig`?rJz!prmP8Kx6eBDyWjs5c?iZ
zu`SDv6#bCC^auL$IlIJIGg8mwELWytSb$_G%If1h_L?#Fj?yw1uEs_sx8DDEvY@Uu
z$bcdY_$f4Tp*BpB@<Z9%T1sCa@d!C&9+4Q8|L5d|xJt1W&0&|`!<*FJI(OHzM8s;c
zbFl9hF8)I8*koW$S!aCXLG;LWP>qDs<PwT`yz60dQRzW&ZHn!Tkvra-2UUy888FVo
zQKmH1?g2~hG5Hjw7Z6?5*s)JN-x2kR!6W-sT`kY8`0k(CM&}i?*F8wCKrfnJmKC(B
zcEJgN;BDl>`(Fa2@NHAr?$!^eg{j%rZy#Mx=3Y%f%J4$k`BIRzSC9ri{#|FKyw110
z0>MY*i&e&=HTkL7B*UdOSZ2e-WDV)Echo>qz5McY>3!Rwvgfh~;PiU_A8b?sE^MBe
z7KG~obA{I;i<em9e_#q&SD5^wL?tWC<T96mF-cu`lXxVYkA^VH1RFcz;Q%tX`yaT7
zq4w@T+-~a8;OYC?@CR4DWnC#sJzoOL*h#~R^X<{e?6Q`()9)xU9y*d@XKVagZWk?%
z7zwLmdiq?NPd+Eh#gykRd-qYC$d59lC?n26UfgqWy6~-V6mA2hQ8TOtk<bTfT9VPp
zU`!{&<i`~T&i<{NJ@>A8?{ON#=mqVJ89PesLE#=y%jDd#uyX56(k~w!X63H2k7f9q
z;olI3?M&O9Ik%)0Lke+Uj|);;6Pe)VV98yX=h=ycm}q{-fX8;fd~v)jJsZ#W#M9*t
zzrEeJ&}9D1Ixo`pTli-fPf(R|Pua)FTwsK~INi%F7pL)Oh*U37xg0aF{NZ&-ZyKq!
zCTpi`GNGvv6%Ro1XabOP6_4I`T=@b;{7NZu!hlAWY}mENQ7iMu<<Y3~SRTq}2E}EN
zrS)9`CzRd-!{=i1J<1CG`(|W`ljUS*B#)vLR-C?Z&Uk|UJ?Q3r#Xm}p7c7{JM6BBz
zz*;FIQkOVK4))uuFMmRGTe{K;0GWy>4{r&F{w^*#rY|Tnl2$Qwob&CjWcILZ{slIr
zqGtj=FKc96$E0uWf{_(Zuh0&^)}YK5tc^#yit8+7@_3>?(3Q0zJ@0_V%Wm{%6<iDe
zsQx|keg$ks9LPtL5)Q-k9)LC%H48i*IQ?Oo`lCf@nPeWNb(he(p5TPwJeAU<xx(!2
zvuF3#e?U`jmv=Rbsg~5CT>N%exJ_a6hsp<}*H?W>D%clP#Jmy$2^_n&mVL&uC|U*m
zBM3EgXzg>T6}V(Fe*Q|*(OC{izqv{W+)w*P-iS6n4~A9DtVC7bD0=`@&@^K&eK=BP
zy?ROX;=ipiCj1lpgvG*ZKH_<N9>tiW=%BrnvBw|#-)>`;{@@)!r{r0?Xt@AD>h(=?
zx_LZILc7tInogV_&uAn<w<bE7)Rr3`n&-yR`Y<Kza0w7&J5Fp~p^JpyX}9)N4e~Cq
z#jNU+rI5IHUw>rD*Yp7zQ@u-=jfz`y)aUX~D6{TO4>(^O<C494i`&7#1M7KMVIqd3
z(2IoKMNGOxyGKO{lgh*nqOvYx&aJQva&Y$wWu_+$`N)rkSl@f>&Zk5iy=<Fo+XnMF
z@ov%jM!KQg2ex;$*MIkjom@H|&O0tM7?TA~85orK)o#FYM1z0+=TC=eXE&bF8}RWv
zfSx|XJD!5_1%oGz`#+5R+>JEP?Nq-Gyg9;1^n4oqE_~m))-P{FWBND~SJbg>l<pAn
z!@z?5Xnu?CJ!=4nw|_US-}<3vW=};nD<yl*xFknw^)jE97$bd*#KAg&f+aiv2^t2o
zGd9O5dunUYO~M92=Z4m0_+6)M=+`uiVA3aY=rZBc(oN<qZ?hezDVbRAX)YgZgJqDe
zm!jiKlAAOvB%SpIDOa-#_M3!^iVxO@?>v|#b=nhTNMX|M;&d>KE2yVGH+PrF_tzhI
zUL5i%j;jJ7U;|~!rv{M$2FRKcJJ?+k|C*G3>A03wtYShfOMsm>e|GdMi|W~r&l+}S
zTLn{mEotIzi*3Xu7DPG84WhcA@PSF2IiyOB+%M>~5H=-@rZ6kik6d=Cyex6(K8+O{
zWB3$H&fCQik+~ui#PelTIl>C8Et%V}Mv5G&$1~@=4dxRVbDqnnus&|@_Aa@)sd+z4
z;p|n*zV?1O9%wF+e_H9hZlT0_nu|UE{+)b(G?~~*&4gU}PCjRo8&zHgCM8AMBc+AZ
zja?1jf4o838K>l1a%zVgcIg<JIL>L0Mhkq&45_Bq6sv_N&CGI4B%7A23*Hl1<}L_$
zm`hE^u5FDjR^H!NSJ@Xd<va)s6H0lOPb>7z%Y^9m)>5|EVpi){P2FgFWC*7OnE>PY
z#HXpa{e}=}_R^4|-=3)vbzg2c47VXU`F|ZV?i@^Z$uE?*wbrd;q8!1%05#y#a#;4G
zMox5mIY$4UfHO4~+4mt+!yusdyo2jd{WsT{9m5ArDsAkEg2fZl2NUQcN+waVa-vPb
z(gVM_GRyDbho6_O6N!lhQ3mUWaQ$f<Oxkrg5w7bBWtK4?v|sRwPbvx+*z_3j2#sf^
zPIyF7vXI!u^}64~-0{ib%%J+#jqWa+(usgt7UHt%&{b9Y4SM196szW_9=sO`SwbgA
zd)H1H`-$T8u9JA!CH@IhyQ>izB-d}KW(gM48@Zg+{F}C8&{ch5I{wGYj$^*DAF9G7
z!M1WEY;)ngMy&v&x=)#zxnLvR8N>Msox^eJhSH7(i+7Qb0usQ49qg~O$C#_R=)#5x
zFD+UJ=6pk3Pof-YSM<Atd|vON4k&G31=Q5H#VrwX{xb_<LqDp0Er0ogP=I5l9fvtp
zko93&TYqDiN4!T>TYieLLAv1j#x;%U3x7w&-IXsg4X@+t&QCs5x*M+lY!&tye)-WR
zfY^=4uD9WYV>tFW*XOmfz2<-JB0|Cr>0ctKLjP?q|L4CJqLKgmE8hfzm;(Q&SpWBX
z{BQsN^(}9-5Ri{{$tb<`3GAc%-~z*z{!Lv5IH4n}92iCVsAFvZg%%nzRBd2woif@y
zNIV|^N|`I`#;XL(X&$QBOLy8QPAzQLMK+Ce12ZI_beu*`e>Ir##SI;{jrI-Ncb|M-
zxaGko_c1ks`{@4b$bm;)4^5ED98?}1tO2Lvb;88n>N!Rlf6Pmy*MZ{qU$@UcS(lHr
zxHO3zCH*pXvgn3w7knoF{WLFcR3BlPp>KnJAp>OQur><blD1m*{aFdySrMUtt4r9e
z1VAuTvtiU8jNLp>`(mMPi=A&Ifr>d;J3~2&2uL<d&{G$$1GW4N27QcP`&8glJzMuX
zfFMbV08j=zZL|Qm9tu}Q6z(DL6f%5~s`7BWqqQaPm4D@!MkZ9JOiR#u_XNVA5=YJ(
z9)tPUW%@00>44mWwAI7R-gcpViZ5|SC8VozocsY;JnAzTfM~2e^yAy@HFj=02w#Wu
z9djsS6lv%IxCi(Q*#c2P{x57-LR@-%GX!A)y7efXi<*BOFt0S9drFKD57zc^ujAU^
z$wD}z228d@&!D+3F;zmBameagE@pjoc5e0n9-qHG_|igipCJfb-bFbTdB$0XaXt#|
z2Z)%R1&M#b$EqK1>3!vF?xIO8Cja`rqZSHGDzBsXG?SN(`vY%VHhv)U0(Qw<DKC`-
zeEeS@{QVk>iJ!qlm@W=l9Sr4th+IlK-3WV|xMaf^^f~2E?Sj{J-qnWqE70eftBuLA
zX99o6H)rX$g3Jd^4)Fg-0RGg!*~+N@soogXNmyo6w_lYof+W)u?!I%zTkRk;fISwV
znl&(HLuTnHeAegNg|DG!xTbT;g?mTzcT*ui9v}_|w4)zx+c*^XefrIr*huSO@ni!V
zeb)-WvR5q!#N`yW^4D9a>=cEk!(Le#CfPds)gw3b?{wQ~q(PhmqtXKWIH+^$bF}iY
zO*<u7d`+vtI4pWqU>a`rL;OW@E@tGtr@+QtF4Ls7&W4|lN5S_5SVuxCX%q2q@CHC{
zbrY8?Ue9`r8q*u(erNGXuV5gmx5Mh105>Bu68Kty@WVUDnkptNrXR)B-R|WkH62$*
zX^h;w|2**e{PG<-_$miL=LKu8R2cM)K<EZ9P~*M*aUD5%JeV%i?3M*GhPfY*es+WP
zZOPnPAi@ROy!yI6EbXkAi9QQ`+ZN!Tak&cvj9?j*T{|Q2TVb#oe40|z3B_c}VBQ2W
z6#MvHj=`ZwfDIQ8pav|gz$nesdK3`0Z;YG4QniuCcgGpoc8nKboZp)tSb?eaZ~t2=
zeg!-Dc$Q#Qw+CDDlbuSgU+}NxUSJ*~8C{I;?juoPqo#eN&k4q(%2rs9q%fB|vIDzl
z@ONEO=N1bOvay5y4*4>_Cdmoz!d%)6{(Yc|XKzjU4J;r1@w|wKXfGI11CpPjIYeJe
zbAayvhT|}&o1WT#pZ=cr*szDXf^Iv(nXOtefd-(!E?F#Nw-`Gbe&(-Wgxm-(2LV6Z
z{J~)^lh(jw^o6m~(_y(y_(J7&LHZPDP=q^evhUib8w#ZZPuVEfi+;w>wEk{kwG|HL
z8YV+Oh5Zt5Bsn(=5v*FqD`fV{K+-k6R{lIo8%`4Q31Angz0LS}Q(v#CVKDLD9Zw^3
z`5{ux5-cEnBUN7(qtGm2&&*YP>3W8^XoI6hztM>(NtQt`+jCk!meCb>HE7>*69wl1
zyE;(Ig%ju-%*zKpzo&8P0GjHeb?gVo@po>U9c@+XZxO9r6%Zv^uE9v>ZuB1MaR>ci
zgEi>jZq@ckcJsGD4j-g}69{kFspN$!9Z;#kjmHO3e!Bqg4tB38b3T|S6#0}0%z`HZ
zyh84BaBn!&{BxWrib`)ZT_gGz*XjQfY<+pHN8(?@^qaVWeQJT8p{xVk-*XsI;!Dr{
zCy!03{Pdy2YP{z;r3tSz3zUEhSmxiN;8WC!smb2>wh!JV_Xb<;2tG;ip~LwS-9DJa
zXc(D1DA7)W`+pdF3!pC7^<5YcknTp1mXt106p$_fk?xj8BoqPZR=PnDkd}}}S~`@H
zk`5_J5d`Jj@7`;j@B5#bGjsOL-fL!U^Y?q-=eh2y?$>b`xD=~gcG8%8i>f$Fj|jw>
zDu8Ni+j)x3-JaJh1P<FBNrQvH?#s*Ip%;Kx;V<_Dbfmr?@R&T%cN`;@zm`MupaX_n
zu>NU{tN*-lqv0$=w4P}@vYAd#l9ntN4&q~Q5ni-wUi<G|Te)p!L(=y0n4uKjRWUe3
zz)1D%Pc_&!ZO!Z1{K+TE3@9Z`sx14ob&Q_EX1-<h1fG@&Fq01Owq{s9+sO1Rl#>3P
z8+nsPz_J%i@h`t%(nmeZl|QD^P|Z10HY6VDEs=WdwZiar35QCfP5?E3YaA9tBbC2@
zzpNfp<%fO<wie?uGi-FXd+Z~j!xKPnO24TfvNANyQ;TZv2eVq?0Z7>b>mY9Dy@a`M
zl~cQz!AHE0v|*5KXH&aaQVYdEYydkQ-V17ee6*AcUkGpkIVM}k@Ybvi-o13D+b#oY
z_;|Wt>I1bA6SW!0KTt>B0Zmd+u@A@J92inAF5rR_w`T^Hz$i<|7iJJW0jP1f%(JK&
z&ms(`C{8J_XqCd%qxn6+nXVRkm7G|CuT!YN#i{kr3A?`^ssgEm?^e+}dN8BZ%9Qs>
zq_;4SJi(zwg-s}kB}?LC3?;+uG!aK7`Z2+!l4v+NdX-R_9|jbk{oa0`pXEatKa6uX
zKBSlIV_G;<d;I*Y^R=sRy3|8Z3)rqlUR3QV1qGq9#1k*J%j!s^Z{gg=W>QxrUQHro
zRDTj@b5%tuLxNRQhU4`&IIBquX?lsLHylz}h1=TUA~y0-x_}gw{+nxau{|L?j-cn*
zWVm9k)DY71y+=(HUf1Jzej&_3Jt7?(>DcX=RC5szHJAmex(xC~4{x{G(byNgmFk#Z
zWBHXUQ4)Rf80(y8?6g+5p;|cZtKQ$_;tK~&jA=20xU1J5;=SG6W>A)%#-13I%EFE&
zXD8RptPJ<bkG!LbuXe{&NZ%9Qiw9RbR>(cx!A$}E48j7>L1gm)|JOkXhCUi^@LH&W
zbH@w#5HLNvb|lel^ofbpP$cZhC%>1{sXzaZUl7o0$CMp9UreyCSvfkN(nGkY{0;=o
zYrsx9rBbgSHVaWt`aUP1|BK|FBys5wl*qWh9tShRYmsg6S$Zq_(>)pFAC`mx9DKy-
zP)y$#rO&wVP!Ck0UgYs#>XA&xP?yHx&_qvrbpI2ZT1J?fRm%{DMiYD^s&`<;tfA8R
zv9DTGG?`En>uL!FnqC+8w20UKqJdKbMxC|p=LtR2;-A)%k+fYX93;n#_8c;YE!IP6
zn_4|otALTtShT=za{#Q~XdT##ia?DjvU4fNQb!B5reX>81hLX{5d2h@m`Cn8VeBs%
z{HO2LX?+7fG_nj!{>vaVg%I&hmtH=nJ=QTfz`g|Lu>c|xwcQ6J@swm3zXwtvfD^wA
zv1u%=4K|0A@)o$QHBmE`p%<*?)d9{v@0Dp+AUKfTg$2jDZzllXm}DaiT|bd`2>V=3
z_|<->67(KS##_a(9zdyaP)mBbo7OqON<@c`+qhZmcGtY<%b46){U@;1>_-9%?RWO}
zTGMtkenniwW0j?rbsKitXQ!i!#KRRKCDXqQn5IvvL!E`xDEAW?z|ex#pZSAyvFS{c
zuGI=x`%>Zy7vN@kbxnM<2r3;6RzNa*c?XyhmNu3m?f=}I-it4<PLXC+^nT+6y`G_W
z5pb=5@&3jO6h_=6m26<?rvaT`H@d-5{~fGa7CEgf<!gn40DvkzIIMF4+y%q}It9`w
znbT6<GN~oT5WLnO>bgO|086pG7m@xtB7tEpv5pl9Ld`&e2(*M)=jDiX8Sl69JmT?I
zmrYFZcns(3?IN_o{A(nZA{*zWe24VA{mREY&go&xiQ{$OJkq%ziD*lsO>sP32QKvk
zdLO;J!xpMm`j0n(1SA%6ZyM<swGt(zY_TJbTF!simlKIZoP?pPXvcEj6+Ii4?bS<|
zRvkiI)KMgPVc{}px`F#^X<-8EF$-Ua{yDgh%-<2Wol?*!wVJu<5~#_&(oog?3aA2J
z+jPu7fh-#4=oQRxuRjL)2Lz8JfXY|JBZ|Ny(E?iTeK+tl;E=IDDAHv8Kwbjjh%7=e
zYJwm`^9VAU-1RFl3ImL90P-DC$Kw1_kVsLqtQ5_7<?^XPqx0CyNjjKVtU86pZ|HVn
zI^R>3*gtTGnwh~I1lQdbgtJDYt?z3$t)b3@rWB0)vSzf|=1D`iN|k4~O;E2n`O5Lf
zdNtPqzxmyCGO#~M&e>%h5(%e0ZeCZG*7@~=GXXvkqNPw(Xd2)8Ij&V?j>%9jhdchL
z$A$SARCoOX6>5VDc$Wslg%)qEe<ANyd?k;1!6n7%A6Om;WH$1beQ!`#{@Dm77!RR+
z5A=#ZH7jT`(!~1r6Pn-l1U*6!L>*58t&zNW>=Q~Ocj8z%0uGE(lheLQxSp;~ClPSf
zt|cf)fWMsM=BQeINaV-ABt~6{_cDd;le%t*DN6LQ#?_EDDn%zj{Mr^!LK?&3bepdp
z!+0RdBc|_`A;A*xp&DmeKPo^Wz!K24i?ctpl@JgEFYQh>p_$w_MH}S;MsR_0Q4c-e
zsqBFz1RoJo;m4;M)vN5@iur<?PNVtP%2Ten^)iC4_CYGc2ku{BRJG1V?|lJeztUku
zMNv}h@?LAw7#3I{Hu%fi&2T!6O$FuRfRoCqg#MPhZM_SE;_<mt2Sw`RdY`+qb&4HD
zi_S9$<9|Z=8@soY+!1vb?tRvJ)S;i?!5__E()LcJui#kTLiz<zv~G(#!U^foRa+d9
zZ0Od9di9#=$L=r5-6Hik)@NI-0oLfk+0>Fx(u@R?1rEWQf{DuQa8cJ$X{|x!Jt0P&
z{_pc@Zw}^vU16Gt_Qe1%s<VjxH|{aanSgk@++4u;$MaUuX1G+lghDN_B2M#0h6|cz
zWcacufJEu$3)zO7P@FoZCV`(WZwUa>1d=c=-bwm0X^5bHxzrxUn-mg>OtWE!i8{u1
z#?q84_d5hWr4&8wNpvmZj$J1+4$Fb*lWn_lp5YPpH)KQLNp}x{hPD=i4IAr9`YI}c
zBRO0~L)SPlV#1!~zQ8nW@$r6k`#nmxSfz@VMLyD&!5Jkn4^as{XH4_E+0{dwElR!`
z-G|~s&!QEdzKH|bqWU#YU&$w!5LHXzlW57~;CHY`tN8}utQ!C7+>W5DY|+6s^F%RK
zPkiBJnSOot`6*djE6FN(8!9{l@{qC1oA8*AO2jecIWk5iK$|)hd06n-y35k5^jpjT
z+Gyl(!uV)|`{pRj?#T^*y<rZ*Z3V&Y;c;A7s&nD6BE42}uk<gZ^BoL+EHO8iyss9S
z5#4(HBmitMG5sWsNep=y1^{l>Oraru`0k}oH@bKkxcC|T5u=y*hwR0NOug?0OZ)!g
zhcbO^NT3;BCFz(E{165DyZw@E3*KxeaA)aNn4+#J?r4N0SrFNM4;wk&fWxyP;HKl}
zH!o$OBSnfbwJ=XiR_0Oh!|=<*ny)5)M#_Ox4;o~aIVn$MH({co&MAM(y59}Vn-B2U
z`(+rl;Cqb{9R3cg&b=69=?ZQn5;(C)Y1<izJqj4xs7gf5K&)h30wQ5o617-kwqX<Z
zK<bAN-$t5G(gQkW_`*bGTOf|oSeTtr+M+QIW<y=C#1F0REe|w?I->7xwJPlUq3#aF
zms-8s6w`9WMVo3AyMIS#uGUKCpP8vVG*bqJG{0UrDV#9pnHZ^v3aUAe7{#A>V^p>Y
zA~7_oD{mPqH4Q7^)p8_x&>BXG7X2WuDXmP|cMa>MJ@n5RhgpT_RKNC4v8oq}P3N;K
zj@!Z|Bqx2E$553xZ-lpWumWMCiM-ABxu5~_k#FF!{MIBYogrIYA+%em{g^0x98Vsv
z^yVDdP{)m<dz2TnxP#X?8E$wdy&|=hb{9EHl-5HN`@q5j?OEY}3}Qy+tgw+N(|GE|
zh+RGJW7;s@;vt=-%3CF16k%U`qvyp<bhls>ajicY7VqJhC#bSiKJ<D=PRw}Cx1ZzP
zRL|h`g5R(@q?i2GDyVEqHY3q!r#gW?7<?MP?p_|<g)5qZ<*eKCo&q{G3uku}b-Xv{
z92!q?tAa0ED3u8GUCjh<KVQ0aL-rP^*ARk;_3Of;wzwq_qCfm=eIjF3=Y8jHKjIAl
zGZ$Tcr5~7P?ifqH97%Ho6+}86bPb4#1vmPT<vxrrBpuA<x^YIw%i*ADf$;3_SlG3T
z6W-v9r-%Ds>^n8>o<LVg?3M7gLEd-Z7F=w-SmRZCt=YXU`QrD3mEzY%ueCaSyTXWb
zK1%0sD{!Sfy18F5*st1;oByH>^=it10QoIFMTI9uuVcY%Q#A-ciZd$7?jC*Zr{jv4
zhQ8!iwcQ?6*`f|Z@KL~b;e4y4Vh}3u_`83EQcBG73cvhNP^hZZ{&&~ePfM+i<rPi|
zVa(@z^fDaoHNjTl-mWBc97$y{@5?{GblP@@*H_<t4L~6<i7)ER+X07V;R0NDncnNE
z<eU!~5}`kzXeLO(3kKoIawA%&mtd+E!6lcu<eh4Aoc{O7+%|(Fv)AO5Kg)%Zf8D(U
z`v!wd*bJ~d-Y{uEb#vlN`0#-!J5c8wCcZR;chVYZ8KVPnO3gCvv28A@>zlT(MeU$O
z(GZ#8#Ca(nGEJ6lIPh~elU8@-J?$YIOQ$-x!7`dB_H5GeW1--*V(UjJs7`egYQu`+
zFsS8Li(015R@{7%7e?n;!FIP9Xo$_RkkmJXinb&PA%l%?d6iK@x!l;fBSsEk<~o>F
zypb7Xf7l5L3>jW!188#!pNEtZNwR@gN)$iA)-_}1Akwd;dZbc4<Kd|2lvfCn_lChb
z4f1xS$hMMm{X5tpH9DDIHS*?z-m=4tm?+Mo3H~9@BI1L-PsYl;YFm4Zx!4STD)Q+9
zTx{1YZ>86f)Jp2Bmt5W*S}_o1sALLdK>{XVZ&t5`s>scnGKRK}D<8of)!5>_kbJZG
zGO<~OOEgvAw(>!l*m4+iqsQ)V?ZdaAeGjXCVEQ?G<K-<Gp9q=i&x1fF;EJZ?O=UEr
zL%(Ts%+~zJCQLmh&i5z<zF?%e$FKfzpy)sTB)*Av_g7hnmMrsFC321Fz)eMZLrrD&
zC@asx2Z}VXO}G11DOg=KQA=6=LwHRT|Fyd(lL=8w3Rs?Jcpb(_k9_8zE~hnuC0_9D
za%)-9N_cQjE8-<{Xmz&~eiW)G>Ujl~@jxG8FVLrjnI*gn_W>_y1KtamcirO6NznHJ
zz&mCjDLsw>9iI?`(oP$WyWWSEPwhbb5unj|hb9(X2iQ-qiRV!hmT9a-Pa;QBDDU}S
z&+l`F1C*7B*eL4;&1R!ELjTb2zPMB3=zLXS`8nJVDKxc#2Y{<34(HR$&sCs(jheDd
zCawOR1zc|z5@*fH+H;kVUgb}2*2C*rU+Z00K-7Mt+JN2uY&BNC@WG(i_Q5x@CE+}(
z+ngRS*Qe1j%WHN{1A|WUyd3c7^w@LHCvm@&&5pzhSr_L{KQgC|{9R+={Q>IhBZ$3}
z1}Fmip2wG(<64i==t>VRbrvDz9&A%gx|nq2Zuem}wevbkS|wO*M)QKOZj#EcLn@}Q
zS4>rfE&%$+&P$><1!t+k69xXlwUdYcm<>FLx6)$Fvf+(d+A#iX{_O=kSanfC!VDpq
z4Rp5r>bb>$4K?cD@rxet`58mjN>0Iqo`MKt|2=vtT1o~pW7nWR>Xq7`GSjKOit|cO
z$5cgwv!(iP|NVQuC-Jufmp4q&Kz;u8ldAJ^ba*S-{4ro<iD0LvjC3%Lz@`WIfY2Us
zV>rggUvToCdBSxbSqb|wgtSm-UH)F2EvI6QE4P)92V`J9d^~(>o7<e*ux%A}5~mkV
zX3ax5!5+n`fi(exW&6B91+^K(_w=tM`gKlsV4!TCv}SydGW_kC6m1o{%kLqy>zuX#
zI^q-0a2DYrRp0IB@-JicF?C7l6?j3AKiIf)2(m)y{i$s@sQ3pvXoVlcM9Ee?n+$;q
zrO8kob^fd?R{6~E(`lXRL8n(+#QEs+C|UYtf6%jeIOP4<TI-Y2OTRqAX@+?|#8b}(
zXAx))IN{}~*msb%ANAXzr4uPfHH39rL9{u+QeL=_h`Ig^`X&&}4v0yu<iS68@y%Co
z7stmeDGIh(V-j3bI9}FX^5liXL0Wz&Rq!frR}hiA5aktR?C2G#%+YAu@-ISfGc;}m
z5Y<Q{yKt1LN26z-5k^Q6xz7;tc4dF&B@<74GyWCKj{dsu?jCLPS}FfA&$s^K3CU*L
zJIZJSD(z}Q{LPOd@M?uts~}MM+dLX3=X;LZe%D{_6nynV>%cAi0crw4s)!>E{d<Wz
z#K9sZlDF3`$9koPmE?2#qOQ3YaPb+Y(7l?JU+12C4mW%&*y>;mpko&s4Oa{`{$5I5
zlmJTtmP#=h1Hlw0;Cpe()2Dq5+DIHbczgIHwBIvduB<)8e`%JwSwk89^YLWqG-$q6
zSo|9mFMYkhXIMplxT;B#51FI0d34%?F(xe2{+Gvp;BwSx@^C!hZal<E@yU^>be*w#
z7b~|JISGrul+#`xve@F+fZZ`bDJ0_Nt+UrM1m5uJ13UF>Is66!zJL~ZYDnwN4~m6!
zAyCFZr>jnq&&=Itu{W%DG4pFx^o<KmdkigaCzgcDmh#Zc1ZgX3U**jhi62CTgQVS-
z#+Bxu@~TJv6WEysXb#*OyJS@5DsbcJpGPGV5&(zD>+8w>Uej?3K|zQIb;d}KKB_F?
zKT>7+LlA<HH{F9D+-TV-TBx<@0drA^M4$F6pfysZDfr^Zc#RrA#IfgmNDzDY;diz8
z8HX6=fGajV`u;)Bb-$Hp(c)ahW~^twBq<>Y<%p0g58cc0iZgKVJY904)+u?!b9fGH
zalhglWdPfV@5x0<H>CfW)be{p#W~n~aC^=jzaOio>h(g$QQuZWS>Lgun%h@J@V-P5
z`9A88-7myQyosV)_>lhD_Z+l)iW<8}KI|-F9*(;mj!)(I2d&^rESea(dwF5s7g<&F
zu*$2GB&wUSU+e}u_vU%$zy2ae#9wrN=EU`xY_1MQSu8H=5dM)&iR9bc;N|o}kGY_Q
zTp$|V&BWK12`qhIb7ZdKcaXkgr}-O!zW^$pB*WZyGMpIFch9(S3-f+p`a#pPhUjnc
zqr~B`<S)nzXtd_UT6F3J=Q)wn`j@9*dUt|2DQD5auMo91eI@^Cb~d(94=qZpa#n{y
z!g{;)L`!StZ7J5}s&xV8)R%j1l)Ou^x~8yjV+4+#cl%#ltT>*QPG>*c;)r*9xNl5F
zy=il|dh8diIC-OKU6SH^3SQ%k_)deSi?L?RC0(Hz{qm0|GoA}CD6j7V&ZUf<7CM9F
z9>`!c=xJ`>=}TMbvea>G>U8+?>M-4Wx>a%?OTjuzt7}B7`N(~=YM}EIjJYCDQ}>~>
zV74Bp>xZVZk{ZVoug*3f8n78`Y9DgX-IIXqH1tS>e5J&-)8Mpc=R$j>L=E{vD^|2%
z^h(Y|$jx&dI5+Lq!pNuS`0~D?hC~3*_N4z_TwT?e-NU3sGU>e74~@$aT<kVEB@)W+
zqLIu(BC<dzPV6h$JgWk*&z%ssp8s?$;o6NXVPAlEdZ1~w!`;UB>JR!9GH#Nq1vAXW
z8K$r<@`56^@5|OQ6YGqld-Ln*8H{3cfJWfzb{;&&4!C5w8~Lr)(clm^JA3RkAH`^?
z#0BCdnQWzu#L4nMjA7X``Foh`qKvfxvV!>Sz(4I*uLtRbx$b~$@HFo%wYap%&7((O
zn%}Z|RBC}Hb#c5BPM57gV3=uDs_db=8f$Ob<AL}1VR1?MvKjqiE-+%D@!DmGwFm$_
z*{R*TOcASoGK>viqL36=$5$JvZOqRlAUIVstqr8)c1$8Mn&u5u5#$fvC8*_C&R?eU
zfMY=9JB())FMv`SJpc{i!>8iVJC2|iW$y>Vy5Ynst4U!18_ypWsH84+hQ?2BuH5)X
z&u`)cUq}Y_40*EbSFA7hgpf%RTq{GdfZT6Ge40wLegi*I%62~;Xn7le@LfE?Nt%st
zWssc}Y#-y?H3{c&+`yJQroojTddmM3gf+;xrnQts6g<Tt#~oR7QY`1RD4!DP){~F|
z#sJ>%#(T%r@(U4raaSn=ZF@K%wUC(}l})KfcNyQzPD?C*(77^X*1d1fZ>GylZGp6Y
z#)h9;e+%uiFti*UjARt=s~+;YTb%a(NkCr1K{qYZ4F2Ol&XNOvR!U)?GlZtRaTfP?
z(khm^QaZ-&aDsYa^T!IUCB+Uhg=*Di&_=QFID^NrzeaWldt+KmUE{(mwUtMg>+*}<
zH#a_Svg{+7|Jy#BRsA}?*;92VT;`c33z0s0nb-|wEb)UQ&~g=Zd-7kILJaxM_*kSh
zc(`BgpL{Kd6y?;Q(Og+JTq))9GKdq+5Vae<k3%HeP1c>O@B-^sQ~zfGV@R+lhS#`R
zH-SW<N^WI8s|+|T+}q1q3s7Y}V1*g)xSoFnZb`uBvc(`^%0g82<Rx`PpbxfGO8nfR
zBVZI85{IIIKT<*Ibyg3&*gDJ+E(@pH<rn%@PHqzMInkS*$Q~IK`SE-6C6ERLZ3TEg
zHsPtFF8Bf>QdWsZAJSSBTXb)zi|0QJGEU;i+?*IR;9PB~7BK4IB!j!oRQp+j#Ek~5
zLFLja6U<g9RFM9}SG9?y^DMEz%BDh!ysANo^oV^Qil*&Tz5isyYZE5vCRe?w!lpVm
z2hGEoFIxS;4JpeiuT4oiNaAHlc}z|d%EWE$a2?+PX?cqj`gEf-f#lJ9JWZg$a*Z5p
z=1ocdp-+{~H%Qy2=w-=%_~6P1q<t!XaLWPnE1nLPhMW(shMZz-mJ6-rt>L8A=&l)w
zl9lwn602I~>=xylAPb0oIw9iN;dE4w(|845&MEF24U%>zRtupG&`5e3_z>9Ifb4yo
zY`XTO)tGG^V{cY_IWj>*9mVVEEE0d#@&~thz%z$cq9`tMv^$w37q9DZ`hx-2ATIkv
z*!0wmvHnhT{ebydP!C=cYeUNr)!aARnI~$KtP<mb4)>GHqAFi}ml(je-)F$|>T8iW
z1eG^Ea{AW#pT`W#H}3b+gukwlmx$r%i$3s(4$2aB&T91#nFwW!T1yTD(Kpd*>E{6a
zR#_A%LQ{|t$c!s<AmRatNv5Xv__mKMiKc&};1}SYnHf4&dm9uD6?GexJzsWlnsJC>
z<a~LE*@L0|I=P$w{ST6tMdsR9u0q47th_tr%jM6F0w(s{4^nBC?~c{(c1A_TiggqI
z`Vk`U*r`{2beB1GWA9y`Gp`=*JN~R-P}@CRaB;Od$y5S$!~EP<ey@_7_eWa)wZl#*
z3mlCPrNhHjR~2Xq4&u#ni*x43%SyG!!@A3x$LlOXJ1@{SyY%J<lYIYxm0ViF<2AVw
z3*)Ke!KzOBVZ0I7?@s9f+Kj(sru9D9#@^AMy!OE--`K()Z=i1V0h8EcK-Mu+PCT8=
zd;|hfLrWjA9r$#n=Eg(*$z>RkwBn#%#D^titUArB<Wk?KoUEZ!i;utU*OZBwinY4e
zgsvx&j$6~O!}Rwn)|l1xKc6aD&lpp$e_DJ}cS|JxOTpE;wfu~rp1nn5FjWy@<|)kE
z_cHE$N>}I=9YF6RKwNK6Rh&lo2NTJ=85za`&F1;MPBUupPA;anPlGFYRy?nz$4Bm;
zS=(BFnVmdsyn1(U5!3OixS}xD%ICt6q2fky17+7|mIecaGHdoO|3GGEqNW&>n1B8f
z|M*4-e98Z(ZHj4mLyoNNpL6-Y|7gX&;6!(6#<=zWH(dSSe%OD1uYdlxYb5&r!Go2l
zjku@&<C+4?@A^@vr1NwY>mKPRg2&K2vF@WT{ud-lE4s@{zAD#2^R}HQcL_Uk8P4wq
zI5se4RL%Q*tfULV*h-lgi1l%tYVmI910%?YAA%ldyGmCsgT0A~XQjhFfcC(7e@{Jb
zufagD<6ox~gg*C7i^fkuuExWVx^t#@a?^9WVp{$m80LEg@x0L`+)5Y)SkeTFFlfy;
z^{OnPpaqEoaQ80&l0&Q{F+L#v+ffE>0!RdE_zeE&;KqfO7LAB~HgouDv<VP0FjzUC
zH%F*}sPq-i!&-MPACFbUkyP~O=NW7V;>SHgil}!upNC~*Ijn~wt|#ut?Ex4R!Kxv$
z7%``SW2-lSp6@NWE4=s;;wk!17k?zxf=LPp+?z%-Fx_9jmUvRt4N7=d)P=h8D%<e^
z-2N*rGMi2})vzST{k;*Z1Yk&L6fIOO5DlQI<lqJrli!N$D-`q$x+CIxzWx!IoYZyM
z3v;Zc<e!<JV(wvKQ++vvfptptIVWa^r;vLXU0oTt1>#Uh2d6VH4T4NbEpSQMY0SL<
zDFBolboy=ank_bgaszQa9WMA?{-G;%=BP*9`-2p_K0jf3M{At_nAhHfj>%fzj-&*(
zG(O>k!DE~3zmi_+7HY_j<fp{+#XpcJIAVM<gSP7{SH?%KHwpiX8&Kf!^^*55VvvD`
zpl0Zgfu*ZRK^$n=!zujCHyXwj|CmQWO@hg<AKzTNK4bVvyMyBI2@VV+uwj8^K^qj7
zD+f#y3MPg)yYzgfP{;Ueo2QD$<gko?YZ@j`WRZeh0Bo87r^8p`QZnrqz`i^KGZ%1n
zh`$KLz*n~qv1Bvv^sA%eksQ%OZ6I8o0L~u(_X-xQoS#z3n$69}5c*$m?V*G1lOrW0
zJfGvdH?yAqz^+;tMK)ATV!$L^YSM~4>8h3mAL~75KG@aGKP!nX)8TDN1L*^hF=)(U
zU_%9<3hOEtI578%yMgUlDz`6hC;$MXf-@uLqvzin10`t5K%GvNs)&r-mItU$F<2eA
zigN^|?r~{wPv5Z-9Ev>sWa{Vb3ysE5j}f~&Ecwy#JG&lC((JY++9i`PO{CiT1qba@
z-S(;|jQ^qzT`w>}Wqdnp4bEerGywElpi0Zg!vSOh4+9`^G8(LbOKFv@d_yE_3m?~G
zHSjiJExcEh(eyiCcyGlRb^=x@6OU;tsGV+v_W+;Cgj<RLKA=RJK`=HgLRXA8%ySPz
zATerpZX&avg5v^Ux}@Z9@r|urc;pMw^YQO55*W)32kk!a>q_4`HgShloXCHsrYpy=
zOgji2KV8}~Mp3-<1sT}3VJ^sk)X382Cwh>cQ*KSg$mZC)u~6V>D4mQTKnIN}%$n#d
z_zoY4ndR`VOI{Q2Hop!-8zf&4k!+fDV;w0;2k2AaFf`B6jt|{WP#^HQ?Yl7lJ)Nt*
za_O01L;~Mf2K+b1(7-gWU65DF`Ffg}GeBS*LH!xnS%u8bzps_Q)z|r42cNZt3q=EA
z7hR?G?L*4)w{h3t0VKcFO=fj*P8G0ng1#02C85T1%2l~JU^iqNRnM;QhL_*E=aZ_a
zMK_-02WFVIm=i0X^d~vPLpHz&xOzF-B|7c*L~M<FFDz>T9IB-7F1aYR4p;<$&xp$o
zCOjOS9Pbw3Z3e4X_vyMo`A)Yp?&8Hp74be?h4)KqdFog5LWKja$S*Jf)^57(gH150
z<K$P<YL=z95*b1%!@5995(&xm6En-oVkHHlEe)cOy^i~bLD-~j@om;5Qa>%UU!RP+
zz={Fj&zV-M)SWS|+_!^?A9mcxeIE7o-s|n9T<YIgY!4)q*r|ZQL*D3_0IJsWpIcVg
zZX!)1YG~<P4p`4;htA;0c(Vo|Q(a<LD93!4>3(9%YMe5XE=doH*Dq_nq^x^WBCW)J
zh3v!irl0@&H1ME7jrxIiO$>^dL&mwyKft=xT+xc_KEw@OCFNjxdWf=;25wQze&r~Q
zW;nj3g8Aw3ZTWVP8()Y#Q5Smm-6At+AqP`$!hbux5$LUPL*?sXx6prscUNwP$TJ~<
zr1L&>i7>zY1_v7G-_OCrOI!stJ7m1ZbB41wny{`>hp*o>ZuWu-2??(O_r^jvL`LVi
zmq@vrp%N>BM?l^tcjmjK*<gnX>a_&SEtPK4eDsPRG~D_h!ln%^?V7u=)t1uQ>$+D-
zAJ+nBUg$&A_6)wlVlbVMamZ_wA@MhIN39MF<LiU@`6ocwT2*|3XD1z~4b)6oKj1YK
zeUF|LU%cSszEKAuJIlT}DHMs0yI!p$wdt`QT6lSIuy<6nf=lbBMsAm$O(yF%OY>7{
zOZk>|;#D*mUONSBo2=X$yJE3NFj|MAA4|<+qg)^T5qFS{eGQK=7^iroPP(^}<>Mr$
zJF6@-_7MQr-8X#bavtbF{#vtd8ubb$){Tiyv6*vwocJ`RBYTc$t>@?$>*z4D9aGz6
zNTJwUua1ydQZrCr?uXvhMc$YY!t3--RMWmzSbV+kZmtajMS9&QuIXn#pKxz9TNRU^
z>SNp}>f%Ry#>x9@0j&gwDlQ3H&;Hy%RdzofaZjB&z2R)j+v*mVZr^d*?jVD4d0xTl
z{X8H^ZH;9y=z*ZjG@kGN*NqC{oCBbyfisr#E2bSz`*Ki`lS=<UA6};>xI$-`MS{LL
zj1@%pe$i|zd<pK>r?2_N``%tp9Z;8_jhnk}nM9=AeufhpK!Lu$zG@d^dPFd}^xsnm
zN$iHAbUQytf^jMvs4O60*>c%bQtlC3`TD76BK+|8r$lXqgWxmrclAvQyT_wg1a>vV
zQUlbh%umFY76L!39OyL&$bf~_09N;LT;LtO<>9CVD<HGMIOPl(yPIhQ)?`;WsR0C7
z(aoQ_^LkUHkSclh(0L;7JK0RFt<&PPgUlP@rlk;CzT0!#+l~xRu2nAv7vOplVkY@O
z(lrrQ6$5N(r!8e=;TDA22ps1Eg(fK21IEt<W2$`+R}1qxlzjwWz)`Ty<|Il3fBLUR
zKugq=Gx*bG2-#`EYi?^AF(Zw**6?Wg6fm65L>j1PM>!vr!lEDE-|yPXz7l}nHZTU_
z%i-S?tuU4OES|N18K|B^oNQ3gsJ=-;w81aV+oK<??k3kVB?jaF_8Wn>l~8QaA7~A5
zHF|@W`&efEEA^Rlz0xQ+j*8)thFe!*oukqfSiLxpD&F4P2DgE?;8=g(_V;E3<D-i3
z*Kqvxsy46<;@PsFv73*b?{}sc#HE*D93dPEl$`wqz=e&bP4T*&Y#dOV3K~dn3TapE
zihEVEB{OeRSOZi!zx`!CPK}+$WXKz+RUy6_FXMWbC3t0IQS2EyASvFjufe0Fb%lG?
z6T5d2Ea65<F;x8KAPf~L%u@)Nt^#YSigL7D*N1yK2+od?mg7<7ouwz;`zfgTQRcnm
z#T3lcBaBO^SGx;CZ?iRcjb8mB&;euke*}0uk`FiQB+8kmr(6B}vR1j`MsopktiGSt
zR^ae~%Q4-ECB=Myu|4R!Uz}%@UekyS>3$qZk056v$zv6(`#<?MA+tkv2TixHY7Z6y
zco@?12!1o4VEY3JNtSMRji=E->@vyCP;z~QZw$Pork1qr;t{p`rmfTB?UNg9<SIQy
z*zjgb0uK#fGffsROs475$jzdo0v&F~`M*Zf|DL{>$my$ulux=F0XlwlYm40+?`VL`
z3p8n5xi&huxn=>2z|(E+Oyvmv8o+9X07f43-L?zS%eAtk9k#jfz!u<*JKcxaG@!^5
zK>tgaJ1UEsz3h*Jv8*$3+Ui^+BMtyJ*?oQ^1<bqw2;FszpL?fe7Owsc<sIFfe(MnY
z1^)jA_}OFGA^2C1$lL10{ziPKjrWkf$8!cS;&h=hE<bh>Ojxw|BdHC2!MrVvAdGyG
zPXhM}s}#yg6P7z12Cwe^^*T()T+}}PHLzM%EZ%1yEySPzW_Dz2@I6O6yzM(64MG>o
zBuoV0Elpj|vF!L%cTXm8vGSD^icRV-ND}}K6%poLPL}_V@d((?ZKyyZKas+;@$78_
z)6p9e+0|>GWCy-*is<(uuh%Gxp&g4u$CG9^LqiQofiF@Wuuf?7P=_6Aza`kS=U8B`
zJb04V%)wO(I4wyrSg-!CVivJ8m^_Z5KSlZBdj-=`=&d<@xA>4N=tD2dk&4nOKJ2!L
zg|9D3UQP{zZ}(T*6~eG5YKZgxH{KJlADzOegqULt#t9|cvv5qeGTq+|s>-*(zL{to
ztCTqo&Ac$#gI9#Z{qlCbJb#PrlwJ?UwJI3`G$9xIsa3`fo!Q45?1{UO^kvuoP}m;$
zy9Ot*3=U5q_&@kq%s73V`V5yc{0riwpc0%?0_Yb|ltaKEoF|EU9t+LZ8nP4Ja3~*A
z9TeT0<~C@{Uk>7*qXGdeB_n3dV`2}QcSgwCB3{{oSM3Q{s6|D_RzKL+xBUfCs!#zu
zt+T)+!`0Wv*deoI?r*(AX>p>DGDV}^d&2SVqEp`<oLYnvvkd-2xf0PJDal)`pJS=~
zt0skjngkw5k~Qh@&*m9>dGTr;CG344+D|a}*kGg(D^~yI!kb||6&DD0Ke=EemC;Pm
zlN%pv#~m@J53&<9atmVc6@-n}z*5r%={<pWZTT*bSn%4BF+)&&jqPjf_cnN*84r4`
z0JN32{{0QC^sTUu!O2yISyz(+E7zWz@!aqx=TSlyTEJecygKv^F8@>|U43V-tIjQG
zR7P?Obn<4Rtj>*0d|{fHi^q*1*ot~nxP#{lQ8n}tir+vWljx?@)z}ftIFy4sD^Y@{
zlQd<ShvI7qS};)vLJM0AlTjE2+Y9)*6Zn3>pn3>u)Ebw+cNR&-&-&-j5_y*?<&06U
z5tWaJZyf)&G2RJ75otlkGl?PMlujrhnLSQ)XRyw@oyp<WpTxsOzsgJQ4v`V0<<k5q
zP=%?L#5Yl(9-f(9F-M_{*l2;RwSakQO2yw%&9`l^*Wqp9(;WIwwF>d(=82k2snUa@
zjx!H&(t{=Oeu)UC-?YNk$V@Hv#@OE@!S?|}L+^{-qetOTPBRaK7`tLBEc~G?NHe0Z
z%xD64V%rUPO~oYWiu7wZJ0F%I_RYVRDY6{4I0K+{mo=eIQ2R<CEhY8MEBt}`#YS(X
z^;m}*^ohlwDr^T$FmDOUT&eppMy8S>HoPA`k*b`@ADpRKq++?}UdbC(sggw02VVyX
zJ%FyJ&9FhZ85t7ZJ>|#)>viw1d5d8i!k<mRonwh>%`WWo&{{abo!v<w!R;X0S!loY
z2hcPuhV%gVMs)#HL&?+P_;4TNYHR$xqLW8t=zMpfWFT!U=tE5Ep~Qdb6?4jNs7ug7
z*Oz%q!Sx6)TKSc;JPLEb6g>_!PPVB`gdUhmchS~R(6hX)`XF?QL1{=-zVXI$lc&DH
zV9!quU!zT>YFiK^YzZ2>i5L1CFH>tRjls}W`2hgQI{?N(_RnhCBQj)vcKcpuuWAU}
zAI#CDBHjK7Y5WI`D&bi=C}V_66Iyt<cew(v%uCpY3~7iveCHniVlW?a@?n{`IUy<$
z+Jd10sxCaEsG_ViKY`jzp#Bu|pqkZtLU36EboZEB&?Blb1us0~0&LHdG#>6;svSMq
zou%Z~-3P~OSHppY-x*O4_<Z<}-1`nM!0_xi1e5z{AaN^SEvx_LEdx6lS!IvxG6f92
zgZN(*wh?MR5yrPvQC`<qrN1Fr?a<W^7s@$=mwEwY!KI{Vu!KhDLSIrPjFhtt9`XX=
z+G($Yxk3JE_^gD%=b&aRr;3K{l@?u<s1@Y^8zjxZn8{AlIg6@`6c{0Oq$k9KP`+Di
z9hat^>iHIZmCN4@u8H$)lS`$%*eX3E%{;V}6J}TM5ck!2IAaxvn)smZ!k+P~%=0y6
z#Z>VpY$c~<(6xmGbi~vs=v~@SDeO~O?7>RgYyEV@%}f1R+?%|5GBClGT!lOZ6tz_M
zP6H3L&Sr8Oc1k<-N?qMF(-)fSTOLnZ-Hd~dn_6IGmqa5Tl1RBhGTpUCaW`RPD<z3d
zm@@yxxQ6`neXFf(>ehfH%0_ld(6#;~w_fCfpHnF{un1*6VlIy=f_=co5_(~kl5aYG
zP06W+hR2sn99AEL;)5gk{XXG2mXZ`}WCPja;qVWNo%#gHz{QMJ)!tJRufKeET6j=P
z|G*6Qp$E5`#iagT5dOQ?vH0}nSD^%@4|33OjNhrzxor<bd0sR_@A0W8)Vc7Nxo6DX
zr+PD7U(o99jIO%y;u+KjA+p02Odx6JX@`B2FWANaCNK0}2@?KTCr<iufFuawUt`>c
z&+vP>{3|u*$d<;Y#!r6$pwNNtT-?6qRvKD4p9V4=Yub(o^T}du+#5d@TJKUkhokIk
ziO#FftSDhYV4$mkoDs6}Xy*(WnHqz*#OKyzyymOGe>VJBozP;U@CerQJc$#PuD*n3
zDn5*#%GvIF^DkhFl!GZf&Or0=#$$g!tT-5#Q~B>u9pEy*M`3$`?A?S1tqvY(O<w2y
zcSIX7Kr*s{X(Q_=3AdDQC%))sk)@(NAQPw_G~02z0@bg;tzD!UJj{X{oLZl6mRHP8
zWJGdzZ!Fy)PN$Ss{6@nKlg|;^pig8a<i>XVk_Ug0;*aEl@2h_S{mQ=-9F16Q%D_*4
z+nEB<F~?`0Qch}5TL0`iyR8CO(nq2Joiv-upEBJ?6_*-at$F&TIsK6kop3}A5;6Va
zmE!+UU993kjx_W=s?R>@l_9({-sI_ARjpfT&Z+Cf<iDoD>7R(ErBkLq0ae8|I5<!`
zaAzdcKyZCH(|#Tz^a{H4xXc5FxjLH<=IR5iA9X=|MdL|qW|BDY22f|o$-DITh(VrE
ze3gi4A#cf`f=?g*48U>vJ`i&6)A5N2+P82s`~#ERuie>SQ1b!w){8`5{*&%UsMoT_
zL;}e5TC9O3B_iP#5>RyB;;n7bxtK-Isl4QX>?f~{ooRc#p7j4GiTfZI-d&}78!!2C
zl$Ehl>i%<}Brhbq14~*{mr0G3o!gY(8!sn!(Q6{Zd;m|c#VV|wvkIfUlPdW*CEd_m
znmW7=h^%Wm=OW(MIr8w`zxqN0@YD@!xt*V|(*(NrXq?sN9hEoD;=i>J2J9oI6Te>q
z!8Z#T6KCI>v?45PMI*Fn1Z#sU_xP?}<WGHNz^c5B-<ihGQY>P=V16UCpm~|+JXOJ%
z7P);y82ysk<k@C^+NN%mrJ`XrXPdvPiD7(hfoZH)amd3rg*Q}Eh;H_xyR5@dXqu1E
zKCn*r?)8Nld#R^SX23Q8mVG}k$y_aBbv{fJwd{S(myjPUUoS4M5F2*M+e^|0PRvVY
z`JKN&nAm+f{?>ZNbfZC8I!?1z?`}4iT34befeB_A+%o|PS_OTV4Xuy7PZ#v#YAk2X
z&-d>~QbVY#@K7$e7g=;3Y+JuiHUIpb<TdD*K{IHv#4&~E1qi5b<A9oG)V(5Qw)H{I
zgD}}rb+{XePs2~g?lk^AP?>naYluXLMzS(-%KTMORen=I>ER3>p>WErYROgE0u(h9
zvR~P&Yg1-tIAm6muFG9>Wig5O@v?xfghU#kYX_qSZ}bYzJZ|`HpG&<VX_Ne3e*7ZQ
zf6GI}=a;;Qve~TJ-i|L!55s^1f%xpci@X~H8DN^zkf(bJZ(&e+BlTUVu$Vz4ZUGKw
zWvDjd4uTS8Q|!TWpKbecL9<n`(_kjkJfIdO_@q2`_?XjQ=88>`r~FR9)<cjyzjQd%
zSV7+=8D@?Mq~>|=X~V%qnRyEkWarTQQbS6!$Ug$dP8?!?^A4#u?K5F%efV-04t1<Q
z{bZq2Jl=Y6>VxnZ%#4Mf6_Ekxn?UP+^Jl$V)aTe=DGmenWzGxrq?7MKIF+LqRN6e3
zvToa6)~rzNm9d-w(Z2WR$6FJT?kuA!$b|+ohV`9A%6iIqae#1!*;AdX9jaNU)ZtF$
zGv5Bp`gUxBofv1R;JynFg5%FDqSvaPUqCdLed-2l_-4p}YlihaIH}`oyznl&UqNqa
z9Q656E#P-9`~6i!AswNxr-)#>I3*QRpdy3y6w+-KFzDD3DZv(P#qu@%aX5r+&_6!d
z*dN^)>a*IqY1FuwmLfVs<LlmU9%#PN4Y?p_1`j<1T{tEjcD&8Qyn0J~;C3|d(yA!c
zeiC1Yn0%ekQB`I?lS2zN`>xG-Au)}$e0dJG!hz`+hURaqkNB`8+!Zd5{ED{y<l2P$
zP^X)04-J==r#YLD%L7a)L#81y3=JJRA!)ziFu|uhXt_IaN%x3itQ-#G=?uda@+3G-
z#K3tqWW`9vo6q7@bpKmtS@qJ@#;zyO+CpvTgFnURd*Su$IT-#_679RRPpR_|@!R5h
zUb>Is^-m*1L~Wq-JcrRHk*%^Ux?yyyl1JfQ_dvZ1hS*O>qNQfXQSjzPs~XqZJRN-p
zO?Q*|^@@Ha1t`>S^U0~Z4u%Zgqg-a6{J8DAA+US>(rCziMCJU0N@RicOw9vMrdTGX
zh^iZ`xvIFbIoyoORRbh;l@BK!tVV7+YRcf0&FDCu`uL8VzwrI&r}MSvk*A=in2Dd4
zVfL?c!<ZwnS1bF^jP}+Vq2xcIl))c9A?H*dr;kF_`aR8ngi|ga33gt&EH($?;%p%W
zB%r(law5OtlBEDnb;!`W_*I=iO1Y4s(u7S|@+zlPyRTxIJ0*u^kTP&igD8605f@}C
znlVu8cC2+M7G7P<nm9ZXK|j#<l(;ai#3-Ph0*fSHv9gix<q-J1STASwp8p01N`=%Q
z7X5&ZQM9!vvj5;mZbs*))qgoLdWjH}?sWcUsKtJ()Jw574bL*DVqbh4uth;VpnDmr
zwsdEyMmvmBS`ZSqx2oaeJvM;kIT-yH8lT#i^1Bb>t`J$UN&n@m`0=gjZP}?OgBevK
zGjP)H%w*18bZopV2}Wd2sXQPNz4SQ!#q(;{fQoB;ruQBMLa^YDR9HOYpRps9oI$eD
zURDzIKOqv*odb5Nk2O}AKsbxqfzkkIO5<;aL5Q)PHvYQtVfz-lVhCew-qUsbCHE#N
zzM12R$)u3pa%KMj=9bB+Y8!RU$!rL@L&@3<TxmmYE4q7N^iix7i>%IV<-Rensh#yz
z%uuvi7zv6~iU%*u64399Pu1Q$v(p;Rv8fuYHlY|eO0gFsIq*ZHz5fa3<Wh*0qlsP2
z51yFZs{WGu5wZ$o<A7()A{FmT++?vt_hx&bNTwCW^bQlBhU{U4F|wQq4Dc?9dlr^F
zu=Z{O0$nH4m(!xCYN3wBHQxcrX>Y3XZADI6o-PEu0rl8yU5~pyTx8T#i%BvhCP$z@
zlM85({KwxnPqBL~V#L`lylT7?iM7MhG?~=Ime7Anp={^#qIQq(ciB0`l|^(y8clhH
z`1MlEtKGBTa`JuVeJtfa`oB^35iW&PGxmUQ-39(Q9zW*vl;sO0Nj`uQl+ig10%Ur}
zs&4L|Bm<{uAkL?`9j!d!)@;x)uX+OH`w}&Jur%_;_n8k9{vsh%^=0G`<-mX?1tJCJ
zpGKB8U--q$9@|?EHi2`7eIJCRqiV;sCu<$2$o_I_4wvXwCExlfx5sR)?GlK4>80aV
z^<g<*hyZOH%TPyT&3{C_GoY1t^s4fB9!$w*Zkg%kch_=;XE-ofJ>Vwp99(fJ`3oLN
zSIC*VQqDqLMSkfBy8#%cX+T?gQ5-q)*Ic_G<@^bA;we`h-@iA&wJCmdKD$uP*eWV2
zv|BKu!H5-{{@abzH{{k`xG|PG*rFpQeLyA%BcKW0%>;gSmC3vGr4-))&x`3xqeJ^7
zsT<7o^=~$#NT+U8QY!GpB{wO0y>*30BJb)&<a9a~p-hL%!p;{_)DeRw51!%Zc*dA0
z7U9mC%;w%5+m8-!yf%FdE0oa2o1w675bJ`(1kV|d$-gIxI?&%b+Fyw&0M5kT3kv_9
z!Ue?e_;t$ir9J}*+=%!3eX}l>xeh+V(%Xmxf=W89O2417Dm)SKdr%b%jS6ixb7VDZ
z_q3R+3iz5<K)OU+I0~_Yk=8R*4Pb)RTX(HTb#z4v7cafBDuB_56HUP6IaW65`N-&9
zBc{hC4L17)NE`yVd2qXT8p>X^S%Q+4#cyKXk4Z9D`HhQ76H-7jbwAdNd8xyw3R1@*
zfmOoW2P-b9N%fD%3u9ZB4&2bh3|GFTT(rdAW;IL~b(VxX6Cw+m)sQy}pBl>&d2|zx
zHmghwMpBlv-^@-{p8@FTs@dATHOI1eDrd45;D);fn8;f<5Y~0-8vUO7B*NILl7mB?
zP4Lc*Rkk?eD=VSlgTP_UG7mGELl1tEA3$HXKpkGq#w_m5`g>>k&0hSTP~d#8n?I`d
zJtT2G4?_4InWjtmMqlIfLS2{vnA-NsGA5u9UTDykaVs&<(6Z+%D=&Ey=rUuJuk_v%
z1Kp{z5kGXlez#iqcop>bhBdgu)~IVDM>;)i*fepdMyPNrG4!pItX$1ocfvFs*kxbQ
z*9tGq2n#ykW7tn@ok0zYd8_RV9M37e(&Ik%WQ^SWlC-wZUAO)4(;;6^RB5UHiHcT<
z&32-A0<KJf0gZnMF12tv85Cw#TO8xyvD=WH>79fH&Y1$z$GEcH*&(d=-t@5;T|<P-
zMZCp3RIgeL8jYU3I82!X`WW<bn`;*4NmAAuEW8WS2_~=-V1H3h?a-7_-)?G957^=I
zp~lsXTeWDNNVgIQ8PyqlpG016n&%>cxeNkb<?l2>cY5#KjEr3g?lm{o-Um{g2Uf*I
zI&G<G=<Zk#iSTlsfu~L5r&P&#GUj6R!Ag%hl(pPOd+foKQDGA|WS*$kVU&QH(CX?C
z(ZHsjRcbZK)e_)+dZ*4Zt>;M2!Z`2UWu0#JZGVPt-=bsHO34Od9qzs~(4iD`Un<#S
zyr5!IHJo<xX2k2@8apO=ery17%HuT27mcrp9A>aYq+>=0o}r80@cxu}b2(o3uste)
zR=d=FmE|spy$h>sM}%>>`m8;3UMDG09J`@z(y;qCn5M{_CQXa$C)&p0?nSoia8Rl+
zuFDFakL{Jg(_=8*C~`)(qcU3?v&bY)e%O1pHeW|xCgzARURroSu_b&(C>kofU>(KV
zS5<se1^Ib`1;P7Qvh7U=A?0lF{w~iJJcX~ztXIt<naBj+_f+}8_O_+)g^bmjfZN%6
zvf^6W8X45xreho&a*MnBxKBJXOlz4VNN7*z+~*4UX|H_|5NyIo!Eq2enH6^I@CY(m
zXHwo?Xl+&X2AqF3eOP1WFRX8*D_~-0Eq;7A6g*F54}%Zht&qLHD;^yTH64|Sv&|BB
z{voF1dtw;<pOD%GdFJxIY_`t+yZbu+!W1*WDwjJm3M1FHwG7p)ap&!&YpJ^NOmpU~
z+ZZdZhLU~mVQUvDrpm@R_`bwnR?ke#jJx)znL-1G&TkfGpfAm4G-I>lb?ES=_S6MM
z_eH*W5+7q$UP{!j*wTrUd-KCr0hKL<g2zA4dRC`Tk9+s<+wIbYeb3uzZzplQ(8>$k
zV1u?=fi1QA^%rk`>6ls^F3L@%fwnVq61)*ThH3V(sK`LiSMAWMXD?^)-|i#&icYM>
ze*nrq|G31@{h#KjDOMtkf2>pgvc&&qqm&2sebj$?GXATAR4Oyz{Lf$42u%a!pZ=`>
z{wg~p|3?dzd2$;8hyN3j)jKfjbvO5P7J(H+Ed7N!sdQjzivjh1GW2WpT>fIzZOQ-X
zH2ECWu7^i>io16C<IoIIbLF&_LC+-5h$I<tCHC?zgqUz%e$219$j6c?GijAPzu#3$
zbWxirUUC4>C{^uF-AvP*B|Bs6i+>V4=9FzQEdIo732R6d3B;m7SeQK)<2*tpbttPs
zmZ!krkSo>ikO64z8;lL7aE&6{yufPIlV24^>9%u<<f%YG%e(p%DJaE5s`PC>e8a;-
z>`Lj&fvUP7DpH#Gv}2M|$18#@2Kafz5aco1VsiCETszXjq`L>H0K2D~df8{ucVafy
zV(~2KR~ke=YjszP8|moM{IZVo9f~>w?$AYtYK*%!@Ty7|&pJ*y);sr&$LpIN<DWnI
z*N!Z1-oJG#?uUXdrNv;Pop<9;556b)#Fvr|3a?+d8(=N5aPCwMk<*e0-Vffdco8#e
zqH#Q{q*Q=Ih>es#0k~<hC&lX6@n|J-5ZM6@$x82}0WWN1P^l&pt3|+90lnq7&`Uy2
zO>5&FmkPRC-5(_=vxXRZeb4BPTYMUBPC8u;e&Eq$f`!V4f_Dn}Xs&a^e;*!yIz^QD
zwBFAk+k$NP8+ePLz+R@f58!bJ$N)QZ=2{_8qTArcniP1KF%tTIHlcwDPE&v&XV50K
z)ShZ`u^pp_L?0pBAuIZXbTT+K))8rQffBA7s6yW(b$C>N%eD<J+X|p4%1Gf%y#qlf
zTJXD<hip+>w)vyN*Xjx5GnC&Pfflv&XZr1hT!m%4TAEN1P>lr^ePP7RpZ~Z}{Jj6h
zW+?3^@T=<ClHVeH=g<A-kmcvF*d*mjrHWq*5H!Ho;cnw7!@P8!<-Ja=BD8Cj0V{0)
z{dohRzObhF3#$XZAdfZJ+vNcY{ydp=t{&o`%LauGDQuFt<^J82YnSf2`B|xeSIYN!
z^o#DghVZpVW=5b*KZmKCnxcT<LYD<h9WKx#cKKYJv{E%lHG$*gH>J@%Qj{u9<Eb_9
z+4Um(>KqiD&?_3yY5<r(vL+ikJNUt{^tEHLl$;(C@;gxK&=y~e3_zuL_#K{)@9uqY
zq&fj%3DLfSE5CqaC7@l~AG#PllqW2dO-WwZT54~DSsb9!>ye18sModvvRT%@rlsCg
z0BQ6Vz6J1KX~a~i+xYibet7(rA&erpx0N&falD8^tKPXR-+Q;54)&SW+~@y11TirS
z!6@_e6an{Esy^t!x6Y+qe7`?rMU3d@bEwK;icGng<qqaF;2LEB%?yL;5UCy?04=vh
z;2wgyhe2e|lLowP#<#fX)$wmZuwVQcZ^g|kqt;;2x(~0`XVo-ExF)=VOS%bSpcuw;
zMMvEQ^nRpvTJ)Ry81kBf_0D1*&jSi5a}ldfN8M4Cj9NhRSG&3ZWQuI7n1>(L2ylFm
zU9XA-n`U@<xt_V-7%&bj5xTqGU)xYfgR=xrFpInQtC$yX>GSNuulZi%Z3yeB;hTG?
zU9KR`=1?Blj>DIpimNTmmVK0{oo)_IP|e?<6mIb6Hu|b4o%y@+hIJb2aadOF!)m)R
znEC{w-cyrcW=t&vtEJDHiA`tBQ~=ZlRYGrz2&=<=HMg}?lJC>i8=$}kvub@w<%&4<
zT!aU(niBi~y>KM8f?m4&O8v|pap$>%hw!?`l$o?UGGrKVnpZ)kOpFA3JBG2xhDk7y
zIMU#u+X&J}5K}vVl}wnUK&#;tB9e}Cf4-&8_WcC<%nSw~g~rod4UdP}S}fl>7pY_K
zQA%491M@@d$-mH0`wg@yTUm_gKcm%P&I1mJ3Z!k1Y&vui9UK!djUfuihGq6}8$4?7
z36jD034tE4%`7{XKSG6Ccv>2lqKHgiy4pWj3*o1GZ{SFnz5cHWR|4OI3RUI1rr0Te
zl1ga^F0WKAJmE=cOnL`K&!VK?zK7U`%sXWL1c^aP+X1k$qdKdPs7P5Svik2p3q)ZP
zgZ~$1vgikSW1u=d8y7bW>U+LTcX$jLN4_FxhKr=&>DWUkN=BIw!>1G4Y_hQ&_aZ#u
zm(4?)mwShJzkonqSf|UQji;>ux^345+x>alUF)1n*Cyy^NI8ZJVJMmRdMtH$ybHk}
zJB=wMVpok`u?bI1hnr>+iuDED5TQ1-L%Fc%IT~&PVvP6tHN_YqO}D5O-AMaDyFvQ2
z15j$^Z5tKgczm1+eF{m`z)CcG?CQ7VW;z5J!-%|i0wNX?04cEEg<NHd4X!cht6;Da
zQ9?pM)fY(X6y!d^tM{N(7xeJw+*qd72E^IhwyAQFXs35kB=^3&4Rvn<69z0JVdASY
zaG+jx0cMEg^@$hAr-JI(ufU`*nxC3{Q1_180Rx(exiCVZV*{|aGzZ4do2=Teh;(2u
zrO4JhONnPVQZRn~qeHvOK^8^OKL**|a~3hyyVxvjscag@o%Be^rCyoo8rgnvKNy0m
zBpf<Us4o4mYWrM^KB}UYDjmZ%Z*{-lV<3NZ3bt*fFYhgOueK+_A?ntmI=EAlIY8)2
z^$!f`Di23a58uy05T+~#X@jWk`v3%~!Om+gpK-VWcmLKyIPD=X3{EpQ75=&R+hl0P
zh}`^oaZXiqGUl52A+$L+!72`}hlNDwe2?MMFwboS5(@yQ{5S~2GKq|4$kYl-{OcPs
z7<!RkTEGh#b9FNK1F<ihM(6)g9!52KOvO3DyzvoK)7L%*4cl><OF!(DUYU#Pdqnd1
z<HPrcl#z7Y84=oo_1f$z%H8KO=}5*1%qri#;DI2N02UMiTo5HfAs8WyPuP6&EJXHB
z_!cmT>umSOurk^dNOD2D0IS#}kf*RG^0f}UIo6&qP`;;h=3~AXID&iUrlNnK`5AzT
zJC#GbFQY~~SIdDT@>J(x$--Ag1oB{x81Z!~5vYH;j`EUI4I$Ha;GTzJ{yw~ch`Xxt
zW8!NyvxWQ=LkZ|P3B{*P@>W`&gNYpu1pFm4t~G{WLCDL3&kjS|VhbK#*Nz};cq2ST
z=JI)8qx*}*sAPzJIkodbN9Eo;0k83dDcBJL^o+4)pmAx_>6%hjuMa?}aDG>+DuW;i
z^Kzn#f+R8MEy}p_ytaiGnoHn-P($HDgH^6M?NrUsg5O<z0#+3TLD-dcsk9HYL?s++
zaNP<jtdpV}1n{p_U9kFF-G^0(6G9eMT5kMpt!#9{j~{xOrZ^G^80!abT>R87U`fDm
zOJF@JcGs%G@}jFDBs8)wjjl%etZsW(g<m5S?VU20td#E-4N%d!c{-i<xQINM>kN7G
zz8qWmCoQ?Yux1Y=IE-4MN&f|lTr_odWA03R>UMoUVb!m}u>f0heYNgI5j`%QjyAOn
zHj2Hw-*!b?|9`di-tk=SfBY~)_TD6WZ&{J-?3ul1$S$Ik84|Kb$liNpkC5!09gz`{
zRf@#@y3Y5U-{ZdTzwSTo^XEA|9DP35^?tuz&zU}olElsv01-$AuW@W;Z9Mi|W4~m$
z(_M*_NAs0G>JJlv{zLamF|vP^Ly~+xzNk?oIn|DCzQL4vOy_X^Ly4qtB1ik)c&Fny
zk}NmG+sJS;C@n_;0w8I?_kLs!lmtWIA!F!1L{344rE?SK>=xL{z9>;ytaLmD9BRBo
zkNrz_T~IpaqJI}nk6!s|$6)lpx0oK|oqF(#LflZ-*d$-tTx{D*+`U2_;@%;?)^adM
zxzw#2r(Y3DS&pP5D#Q)RD^g~!P|MAqay3BNVi9wOLh5x0H!W;zj!DhuM%&U{L_!ae
zmq3>w$0XKFK11Ud!u0VMD7`e@gZf^?4GE8m_e_ViAjt>`9z|<?>zVp(y-~<D48suN
zuT}@ZYse29n0u8T3*dZS!PZ4ppN5KFHyDw&09$o|-m&>J+^n}ufqVR{oY!65ni4Ky
zCfS*<E8=mRt6mLTA5rmI1&XZ`w0`K-vPw}@vhR`70e~};c!CpN?*UwP7AUXj6>YeQ
zgj3{w1hc&AR;n`kYsJtZ%MZxK3G_(>lQm}>Mm%~aH0|}enh=43m66l-#KRU%4KE(Y
zDhmi}mIgpy_;4r1hsnCC;c(pr<O5JhDgmo5QCks6E`n$+jItwTnfpk23U6ufp%#R&
zL-dgWNR1+AOMvOF)oW*>Dd@~+mb9PeEXp7mwE)poWD&;TJQ97PM8(oZ!MMc#04AK$
z0+8d44;@JyfPMIL7jQjcj?>v7{43x2)Y@p18`N%v9nb-184`YEnZZCWKF$_Np`Q!b
zvTFVON24%&I&lFkE7rKcDzoNV-c9Sr;uXowFFf?c5MWc#A=<7Pr>grrwoO&zJOemX
z5a+$hRqd<OV-<UTtJV_%Zbz~b+SJrPz&VA5*HLO*SBRF|Dg>YL^Tj)5M7RCB!=g0)
z<IE)vTZy{T$wSi>lTnmX$9c}KZs8hA6K?<{rt7I}v{`1;-P59AczN-+Mk`=VMjFy}
zXjI-~IDP7R6dj_U(4<U%bB-Ccpa?Q!x=u-1MQBJIS{~v=xq{K)w_t73&u1wh4Yw_B
zYPAjt99C$;3EGd(E?y-!G_xi$OMnpBa@il>AnkEuEQomR!QDGE+NiV%PwJ2``ezKA
zQ(w|S2A9`BbcKUw(hPPnhQKL{=7GtG1bEeM0b63p!r#=_uQPB^E;0|*e9`Ij+dOxR
z$05tf1K?1`!n9u=HZ|u4V3Ipea?9}&eso)kGg5vrPMtOv<sy?o59KOyro#4A#jM-o
z=J3fR>%|^%S6|Wh?;U^K(4trp$k3^%zl5ysO%;s+7F>p={U)+&?fuJ-L0~fd3f(99
z=KHPt(#`z+Q`RFKA!Olj%}7{w_@k$iJ(2WdO&0{01}(i3KK~Q;(EOxv)?us#fJWvz
zdwDSwS>rR&;^!Bz6pcyI1)2-u$IWk=WCq8UHu0dITMigv-tYi5;>RF>#_c+y7;sBa
zW;!f8pVg<~LFL3%{r+z91gM!#&2C^~iZw{olaldJ^;3QInXsziiwD<hto54&^~nIG
zAv+D6Xe?#2WH>6Wrp+cQasBIj8}p#>I|zFYSWu$U28E=Y>4G%pSa_riVB4$=S){R#
zIT?0}9_RLFz!0Tb!Zm}$xzc7Fuw88HmwAjE$6Hj?(P0RDi#Av-3kRVP(#;IR2A1KR
z4LuSOA<r-|2SG)tpVl8>a<IYO{@@&PQyr3iW1m@K3+2_?wvy|zX3oo^WI=FDch4mn
zPE7G1AYvQ0l>T$8UArdPhEhlfThCW@R4I_=oD-UBuKX;eW{X^9^p7CGP<+0Yn7RSG
zF4%fwV)cu)SHZU+7bsvGO0_7zNu-KH?I)*?paKkNIx=JrfFXyY%XzakF;3tpij~T!
zsZ4+&!ddDkY~~6Ub(QgH6J}Sg5|l%k;Z3zhy(B6|mB6lvD+=DTQq>fFMTEllQ15?u
z)1#IoY;XNf&)_etckdq-X{0MPnIPFB{e;g(+h|Dnf@?fL*H&Je0o3sL={rre9w7;?
zC7MBVpDkE5kZEz;u`NR|$k<JJnNeMh2#-Q7IrcCuIQhZ&L%RhuVM}*X5Rsw(QzLkB
z5Ds&ap7^w)PnHIBMZw*1w2Y>Kf-CoB%4^*KcGV4?-@0s4zDTB*HS^EnI}`dyR097!
z#7L%U!OP0Yn3DFmS>>6IY`q>#i|?^Ny}$6N(Xr%e1n1PZ1j9sb;&qBcwyF}1vuGn5
zD(kAx<Ii57rs(hD83rPh*e88LrX5Hq9e&KHX93UU3(P`Hq%>r39xH86I1a}u`c&1c
z#IT-;x+Dc1c=xM_x|tw_CYiZnPReUt`KN|79G(UR3#o0Gmd<n_ELyMp!SV{ip5HsD
zWv_0ygOD%3)BlmSz20@uWFw(X$zc)$nOm9&;jk+htOwdS8}KX0KiXhw`_=)2)ea{6
z*KRc$AT@}0qQ3i_BWQ*BU(h?$Cj4F(3@O$Wef=(@dHxbjltrxPHryv~F93!3sEFMl
zx$1MDWR`3-$5TZ1u2Bbu*IjV0C}7>+!+m}UPXVmqOw~6oC5s(gh;FaRRss4CeDOoI
z|3jMl|2D_^ymu!Vr7x6d2FeXzEa5lGOnJjxB0q$s(=8-6k!9radE^IecPN>S+}BLz
zbqWoA=$3@n5L8!Wh6I$}p2nXhdVds*Y$B<|=_2=iVA`}XJX;IcX0B}>&=|$K-tyvI
z(bWf}I``;`QX`ukCd#b@!oo=t3PFHmC0}}&Dx1>LCcy&{Mm!R@RJZw!$tK6*)vu+q
z239zNcsuon$gCNnmc(m-aA*YwV9&lT4!5F0rB)EzTc@cou^HB?tQz$@-B*H)ICJi+
zn`C0G+TE+MevmV5Cs68)>qTNjY|{ejN+7U9`(^cc1%AG85HC9k)A%Pu>rn_q(10%u
zLBTex;Iwc`8tJnO)FxX*JZW)EinY&f^>>geu9|;aj~qv^a&NAA41IA^xKDvUcLewb
z@`LE4{hNr$w?egntwz!yIxYtlutYuSE3c4N)?dFyzRb#}5sVV{bD+vX?;)PRQCH9v
z_oh`$Oe~i^?dA)-FSN1#IAXE_yPzl9#OYQS*!ugkunjHs43UQ`yiJ?t@pILLXR|}!
z$oC^jp=PEk-q6#R@n$nNj5)V@Sb}Sn{*nwtRl&35rt2?$465RKqoMkY16BV36QQdM
z;;((+_kykD3?dmzl@0|~Am*53J=@~elM}oLCG27={>M<){0PHiG(*Bb!`pNdtVF+q
zXb5NPH3r+Dt3`oz!W;>giQL2^m%-y0z2OHh?%g9^iJ<UP33fjeQx%=cd4?&7Nvl+V
zNq@<+%RITNU$0a32MGIB>L0wW7WC%WmKb2Q&wE}`1&AfwQBUAL6LDKI@*Ch9`fvUe
zg!xkn&~8}XW{J@S+5NPJ!AXVv8Q!?CEw!5KZEr!v04tx;Lv2=`*qt(?8m2*{kMNQt
z%U2hM^6fH@t%@A@;gWd;?y>NSTEDbXddb;{pb?;N-ga&AMLN`pHee9Dx7@16*a=e$
zfo^KdWonxW_pwr|#}oEZRYPW1#G9u7;wbD1XHSnev)I*IiKjgVksc$VatzFVN{_+{
zD8-<ZFKoS__UpbP1P^(mwb2d1MNPEk7%Q-Ow*K^XTdxG2GFnY+?S{;ymkFFyU?8=6
z3Ze=%a&1mHT_;oB;9bS3bP1_G8UAJ~ZEEOCHtvId?3+4Sm;r8*xSx+#A+4AlR7C;j
zU#=f-4BdOldbdeM{Fpn3CzRg|OCVlf$?i>VFnZ7VdUza5=3NrCw@3lkj{&f1Jf~J<
zKiEA2EqeZ6m`C^Pf*H)POWWL&<L!T>hT^vjRp-`#)DpSTcoHljAjuT~D-v56;OK5W
zt|w&DGq|a|4|S*_(YiUUd_mg$+Sw?6{@}M9%=}Sc%qawVw?A9AFHZrKEIM<P(5t>(
z=ScyHwWlOJ612~<hKbjXf$}CK6c7EVatb4@cE5DLBLr*J7dL=%Q+~bBISt3EukOS0
z>3Eyp1HUsJG~S9&HX^1i4@+=VJ}e`Mw<0Phc(>r!`hDlgP(9txsjOAWJEZW*4HA3L
z-D@!k3;W~gC5mm;+9g-|2kzqK-F=oiS!^7>hNKqIEc}7g3};Y&_2{C~^;X!Qe4EuG
z)~32jKv$f66zDi@51x&!or7E10S$KvUBT_s5XDBnYxR4Rwd%i)6iHSeDb%P9GtkCw
zk1+sL#KR$W7f-7@3WD*q0ilA3eI~6{3M4I#SQCnC*}hXPCq;Vy+?_uTLSHw4)EWUP
zX06PdNiIWgL}Yzc$~)#rT3$(*!<fCA)ZhF<fWfmzD+=>@a)Mc4ci`a!m}H2`9PZ55
zoR+_&UqC7s00I=}RlR3IKoQfFPOu`fJ4S!0VHJda<!y?@Xy5w8%0d2hhjK}iUCWTG
z7k5w)xBx7ja&|rBR?Fi;zk^Z`n8^$6(e7jcZs&7rUi?LZS^p-orwU2{?9e<GBu`>N
z$meY8?e1vbEeH~@_2=G$nygHLr)Lj^O`Lp3_{XXvXBw70NNwG`wnQgJF~5&IPMj{J
zLgY4n7}eC<HSlV>Z7kUKx<l^dKHxlvvj&?zLxytRY;>&Umv3DxS}%Kr{kN&A<QaCt
zXSmM>HtOhp$ws~S2qK6CKhVdJ?!mTA4er*6T<hKtOvsxUPYom%_Ty)X)W3O0)QN{|
zBX8Gg50F0%NfrD$qK_b3NnWr7ODJeEbO3fOVU!Oiyv{cV!GoeEFU>%+cL|nY>C5v6
z?FQvWj1O6l;QdEhgK(^BiZs5aZin7Q(d&eX8bw6S8ON%CA^Mb8HU@%{!B5nUF0iPJ
zwEda9+Mxv^7kt8$T!DSH`V!6y^(7YIjw>~)$!#bOH&M+1S)I(0a})j0lO6i9h&|}r
zRAVwN<dagj=5kvNa=t@GH~EQ-#8UQ4{qd-z)}8eJH-IL+fdvPYtM*F8PfBOt4H^Rg
zGVQJ~YR}@k3x+@yOY$aohjB{u{5r)ZqAvHmip?E#5;Xx)7MbDP#7+fnXX(v?^bmMs
zqnMK=Kw+`CqxHTHfc<l%hgFcMLt0=KM#vuCaV1d3&w;Am7$kx~Q2on`>8(9t3~W3u
zdt`?5vo~_Q3hpp0%Xg95x+aug-WelJ2JrDN!(|vj3CWSCb@0135$H=nE;Nu&B%VJ|
zpHChhqZf|>uouWb3i8NfTz_u<19mCG8hJr)L7wgu3pT~lVOlpfyrEN0zZ$OiaHc7|
z&>FvOAG|rPXQB_+Q1z}(zRIILeSN=jd!~XmUc<*{>>oJ*@e`ptGKs)QNQh=Xg~^pp
z%#F_T+m(h(+avkcU#mKP@D9ejGv!P%F+2!iZb?0ZZInTI@<Vz>u-QACo>wGWEc*uU
zKg;vmF5ohSUiL)42BU0Ia@rP8-+Y-NzljYT!hQDyE*)))fVW<P83t~FqE@YI#?oI-
zxrA9n**fp_tRk|~ql)>y^@@oL`+Uy>E1e)xcc*=(XWVm-7!}^d$LaQ2;4bV9uPm*r
zeu5}uB$-u(k;<ijftc_lv&|Un`{N|XcGxf0nx;i3V8yz>0=ZN9DR{4w&Y!*F(+x>w
zY3FEcYvo79p#7^pkAQkd<|qk+xytHc?wOU)AFUeYku;GT7xR<9XWa{G!yp&wzW31~
z^hA>;A90)uoj}b3zOrMc&w|rJ#2#QJ!_@$aSt~s*k|+A7OIY^mwfvyxoo_2B?XRx0
zG-e?lx-3MG{GRKW#_9K)A(G-jZOn>9d8)jaLw$HUBFQ*)a}}`9PV!z!$M4>~QDq|Z
zgbGnw9_PgDN<gtOqEPt=VUP*o`kLRo4ASDeS3iV`&tyfd@_jjY@#1`d{GCaOIl!9-
zZo;qA9!%d73CfGO7ylEY%hCW@qb8^O?iHE=+EPr<4%oYnD}w9XrU-MM3+|O~-+d!8
zpjAu#7VhU6#LDhGBa5*L@y4R%`bHP<`hDQi{E`5lqvVpeTqP1YhJFb%0dx+sL?$X&
zTfMwi|Gp1<<pn~p!Bma=_}P^7|2Q6n-HbVFbdT((H&{H$Et-NUF*|}|MckL^yyYK#
zT?9rZx0FWD_=i5&gCRDn98_Mb*^t%?qLKxOPCQcSGkxuu4f#Yvo-8ih$<P5)X&j*?
zCEn&O+O9`ApZjiHI$v0<hQe0<EtGn6!&!6)G~WA0@Lcx)hLBLErQ5WRNrUnF&WRd;
zx*}jzeEr~U)NqHgK!aAR36kZbK{=y#E=<cQb_9Cio}_x<E=1eg5||tbi^{o=FVuC{
zK{snN;7}EvR{;{YuD94ab}1Q3HvlvmB#BQoYlc;DfaO7)7<{Ds@v7!V*%dXG)801|
zqa72vqAoAd2QZ4UN!g6BR9*8RV#1N%E8fy&Ga&C8c<bqgP@K7rW&^l)G2)oT2ME)T
z)Z8Trf7RlIKwQ>%E?FLxFYG?iYz(et3>i1Qoqyk=y<WToYMx4qb`v)^SYmCOzvjN|
z=2shf_>Q^j;^J2)G!L7pI+z=<F6PIZ5HIiXsBV<2vov-S=BViFyoNCIgEPnYN%7Th
zj336pw1UWaSgnmfrHoWXc#L)Stxv(fo@#&ch@>7cR;8&Fg4tPxANp9`85+N+#GI!i
zN|!eESIFAzVv#G?;l`U%rboKw*DO3K>C2NwbpuQ7NYwJJ;fS8IgxK)`xop(}u!El?
zKwD%|CTy?8*gIE}9Mz>Iz%N+t21Jyo9RK?qV4B31ee-Up2ZZzRDBP+U29P^G??kb$
zfWLmrd7yGL^_KrwaV`?P2l&KiIyb4W*&(~Nf0_C-8~zL?w$~ADObEeXS7yK2cx81l
z68HelRG)VyjxMGWppVK}w~>BI|15Zji{k|Dp_P+)@tR(8U~8tIf35-<I6#=s23S)#
z7*uaO-@U|mxe*E*GLrKRyfgOLQw}{ewst|rf0ZBi-tWtyxD$%9bY=^Kcy@Rf+4Vnr
zw92H$I-DgG${hg|DA<<vOdbcDOJOS+@AHUbK}?#^3ugqXeOvD>dflyF7=t2WZ`BU&
zSuCw%NO41<vlycL{^?Vyl)&)9@I2}mt{An$t2aRz>t}?0T29$N=ZhKxJ@f=?Q$?7Y
zW9n+JUiLYHcLjB6y3^M#IeSAeKj8}JoW};cm>^q(I{m2shBwZ!O%0~mTNmRdwy~_Q
z;*Xu39|!i!Hb@K>dc^Tsp@_OT8NZS}>iqi{F6Hi?MNX<O46Cw#X&|G_uh7cKH)@L5
zHWG)1d1?3cyx3af^QSCa2t)BJZE-J@I5hIyH9i|oi)%L@5=Ap|qUY58NQ%f!REnYF
z%zO~v>b%$5hfat=`)s7&2dNtl&e)CXHn#lgqW&yS?W=BSa1rd0Yag<Lg{8>(nTORf
z<JIk&qnJe?=I8_vOX@wiG8tFlhB!ArQd2H$0xb8Y&#p4JP!d~Fm&Ub@xVURfu^qZ}
z$$aLoaXurFGRh-+&9|kVzxP73jdEA_>xJCgPayq1ye&BP#7P7<7pZ&Tv1>ysP`*im
zSI3cNua0|I<c$EseaJ|y?g{IsDReLnr2@Tt4Z8x%Zkc5G!sFXu-@1d>_5RUe#gZp^
zO3^l20H=?rEpf4NVY=5TgdK%2or1S+U;|>e(z_onIi`)?jHehwNxzSS5&h05cBCcr
zk?|HAAI_uiGEI_C!KWKVsaEP{Bu)EURrtwtwY9vY^7jQ|XbJp_M5w^~!SSj)B&&JU
zz~PqlzZ+T2v2{3c*CP6JI=7l3>BB|TW8AvXmE2*epSDK{imRD|X&)}dx<mp9fBi7I
zyKI><&t{}45&G*_{?%D__w}`|k;j}%udel~oHR#d;z|r?c_3~_IqrSVI4$;j%cQiQ
z84B2o-yYv5kfo|@-J#mVSurXQ7;RZs^kiJ`mPfVrxOC`ii&;JViRg`zyZWuHlMfdO
zm$7D7>$F(B8NC05tqWdcWnEtXdI9s{Up6rt7i9~h4G?B2j=$wEa|^9foOIuKTk9Xd
z#nU;;_}`v+-G~1FDHkHHA^-nHKqT}3N^ELH|No$6%CrPNqhI=Lzqjhm_gU}rg7&xb
z(!M<Ib!~T`-WJP6^i2Tid3xBV?ZcPn$!;tBI}IA=Z}a|ZSK*i&z&HSDAmTX%`Od}d
z9`E5Ju)n8`cFu3b*TE2IrF-%M{oORc)|X6r_>MO(9q4aNYheo!Zn9yX!<uF)#2<)i
z3Gq3g`zbNrJhZ%Lq0oCNp|A^U*e}Qg!hT}SgYlN+a`9EHMm+2PgiOi$4R6t-Av*KH
z`|zH>f6{laQEdSb+%HY@@0^Kib(Ny)_Y}~V5W65Cb;b5W3=)4F{Ok#E6L5Rq0D&%O
zVBsem|KoYnt+Yh#J%fAR6sB-czJRp)2dFX;8Ry5?(X|zTI(NX>0D+pkLPuNemn%>$
zkp^}_p>~fBz%L%0|2|ApgS4ZJI>d(ZmE>zSGx+S`{eKnxxgY*O9mp7vMCE-DQd&Ga
zwXejAuDP`d0<S2)FrjB`Np_6M1KvD{@DlO}-V6}nU%=7oQTXLu8~EfM(motR2GedL
z5&H^TzjO^RRt~bx16l&_C5?pF`uaeEq7{}&kQn%$5u62J4?hT&>h%C|18xWuTxd!m
zmDx-yZNUZ>{qJ@QJJB<;Q;l9)^RoPTh-vo~gcXNsox-};rD2By;#HOVr-E^6a+g_r
z=3hjU^*;%NHC-A*Vqt|$<^<C5hyMh+^m>ukR(5{x8DpZ&^U+kOPdP0xCH?n1Aho(f
z-W4QfD*%6SK(0I{&|!u@0<y;oJT=)99GU>;S2e9gf@g#d+U7vG(`#@WY6W+Lo-tFM
zf-0d6G_yls2Z9t$MA!tXX7qdFFHdyx!Hl^Gc5meAVcxjCp9xIH0?a%+f5znrL8o>H
z%MGc9orHJ~AFv0lk7cdwK-=6KFUuoxN|&Xk8VpG8LN~sFTe(uAR|IBM2!%?&4yj1N
zhsPhmDG)8T0x|_yJ$Q9;(cPhV5ZDoYYmTP?j7vjr53EevitTz>1cjT#bCB-c1&V_e
z@VRX22mvdpI)eM=Hl!ZI%CdTQf!k)Q2WH<+sJl^B??Q?R;5x%wtp|}7OdEO`bl}1S
zm*{-HN<yyyKF=H^_HX}&N_V-va|1@Q>8ff-XY>Ws0l2uzf3-Ll0F$^l_LRc2a;{6R
zkbMERRA;!l0Qp5s$GcPMRz~xW;p=zK_$66Y5tv|KZ&M4DJEY(T90na0BGP%XSa>sH
zXvO$i#|Y5U%X&GDVR}YNx<JCjFx?0=DyJlf3xHP4(U5{+ASrviYuR(3-^&Ft#Vl5s
zim|GlE=>Lv|L;f>^tp=~_3N`%uib~3YZFLW(ODy0lJH8O0@zsdpvbWqN``L3dj9Y;
ztm&qJc))-2OShwB?M~;MggBTRf0ih^s6rb+uLhE@bOGybSZ}}xre2GLCzyR<dIdsu
zJwV&)-M^0K7^D3L;j;ZX60HQcI1OqUWK_O~!C8((D^2MAq%y|i1^`{BU7CJVR2IdR
zgO*E_<`*cHvO^$dc{2!k;^8eh1-L-jEowe%Sa=h{lj#I&1)&9j2FDH>)2unZJA*EY
z8MYfgQ0;dDtEFx-umBqxqPc+A?B<cPMTpTy-Y<?QD0Dq43bJ<<o$0>_PJ=Wn{g<H`
zZPZ-Q0djunlsp7*8i_CYBjOR82XPq`4lsc2f;^$AL`3X`3{4XZfx)WF1&vNF!upK_
zFVuH#Kt3d(TUijw_|RbwA`>86rBs~CtQ;B}l&S8OWM`nK-8l+Y(l-M4yVd#b1NhR@
zyrI4TsVEcr1)72WKO?ga);?cAwf7f@wdu@x_%2w-)SL<KS`?q{N~c%f>btzolsE|g
z@3;n2$}Wnsjy*WQ;T=9ag-Nk-2gYq+9fhG9&K{VN$lHx}Ckt;ja0L#v;bHkN&(B9=
zR{$-wOFjmCVyBPMBEQ2D*Uj%~ra)1LB>6#Kc+ji(m&L&2*MXVzCB1}N=c*|{mT}Cc
z&A2qwXP_i3X$5lBEz{oN-7aVtaYXvV0M6>`L{>(K=Zer$;1$bx%2O1M=vxLw6Ruu@
zIyH3(61uZJVW%#^#hFq~vyP5pzw^@-YP<#xL9_3segNmg=MONX6~kl56*%$)GI8#f
z8%;3u9>74P?6$T-hIJ!4hw_Q<J`ywxa2G5P8R=%N-=Tb+@hN=arnU2FDe=lrL2Lri
z9+WY>2IW+!=P)k|z0%Yif#frCwP7T@?v7mZ19>@^xOkx}6%>~TfClpMfWMuA<ZZkG
zr`<bvZ@FyX2viMrcyk6vR*3>NORk*n%hQ0r-z<^3WkT7Hp~?wpWQidrG_g10IddoC
z5Er@#7IjK`e%%TD=mJL8Yt-9`2S{^Vx0uLX?cbWJOYt9sl=+mIQ28@|;*VjivuIJI
z%B_jB)}1@;fR4msrXQEIW@XaoK7~&qrcpP*Q$CP}_Qs<d8|J)Ea7Alix*yN1EGgux
zXqEh(?Y#K-@ZFVncrzyDNi>6<Z01cKIeIKii&Q13S)n{^`Q$y-GFO{5NAMo&s$Ih;
zIpJeJeG~I8^2N!?L)#-R)Gv!R(XQ=>DJ%kP_g+tzW-i3GEyx%PyzU@yre1FA!h7>D
z_MWf4ZC;5tPOT`kyhYdXNye9$Hz&>@TB-e(Z+z+9B>0$kR95>xY?8jLdBCF=WsOor
zBS1xze7&zm53|wPK%z3uco^xz@T!V2u)gs&jrCao<v&MI4Y$<?qOLh|pWqwJGIzfN
zjwA*PN-xF-oJiavMrM%Cs`!P4yL*29VJ(+f3@138=skNv5(beBPvi0dzltky6l4WA
zvz^VpW%?D{TKc$;pW?bw4~IYuH{LRmE~fQ7DCZ_LFu)_Jj_P93b^z7s&_Pq>odnV)
zAJ$z@&vPMj8m}-R68cpijZYQ*WPl;rxpD>S^nv3oy%Di-c>^-sGm9!QFw}@g#RBp*
z<_P?2X=F_d_#U90)O)`))P?{+<Cg9IRMP&w`^)XdRNu!%U)npo4wr_lcl_bk-<QYA
zy_z^&%8q}(T))izb^%$9e`E$8?o2zuMwzzuppHmW?)d@I(D*+EllF^`aLGlwlGp=R
z1Y^TzI96e!n1lNge;|EXolzR#{s}nz0EHe&6%4V;OM}<XVV>)-U=MN!*q(N$G9~OV
z=YAc75$5Oi)E)cS{2K><u<3|T0N<}4Pm<lerw<CShk|MV>tdB=tRDu!+V4n5&uujc
z?v{!~6r|Oq?kN(82-|T+ykrTgEXt)}FtA>K0ixlA{25SSDL1(~Td6rrf}K~seQ5r`
zNWqsY^*T@Jt@ExU_`dWj&E|=BS`5)foj$dQ{N>T&&4K(VLrBa*lxPJ<iJ3Utps3c@
z(Vt+Tv$<)SUF<wn@1%D%iMe~y$29S*i?RM205?@oQit4b#w<6i{h)+_^S;j=CmJ{<
z#=`Vfd_fXcn7aTdP=lepo{zY;Wqard$WaPnkv6CNT{zkXFVigZLTR-KZl8My78)6A
z#x|L)hP(&Wa~h(0c)xJ1+Z!aoGo!p0ludBkBiZEX#g^B2RZAYmTEi_|9tSbFpjZ;o
zR&!-~#Tiu-{J%+h7YFf=MXJOgt#Tn(2@AgpOu&s<WN6}*fSZ(xkEsszZPezM;i{u=
zZqd5mU+MT;s-e|hh&A~LL}vZhUwgxizZT(`u^r2Dqs))~b8!7vkbu^P;q<G}pEFY;
z1FU*-mLbah7XyNejz%;VRD8=0w~AeysOV$VGVbqd^%5I02kO{4vygYS)kE&I-S_$_
zP5B0(Kvb&=^Dsn)@<B)o>2`F4eHuS&4?wU{EE9y*#98xBhvsu_@0EtY5KO<oKhUAb
z_n>Q9N-eu3I>B4grgt>_F3MH&s|byRq(=fhl#q=m2WEzPglouAd5VKklA}T?6g9$B
z1f4W_Ug%P*vgz0}9fO#ZHH)t3%#PGn6FMQ}B07XzN^d_%SXAmySL16|NC(9G8|b4*
z%V@Ana2XX4RpAGfLHN+!0aIJ;aJxCxDFjLOI!YeN>rdd|+#E^2qdGwF^Ug1ZK)C*u
zxHMzXSvMbS&YG5>5HKKFgaUbSc_3L_8Z?d2Lv4c}82aeZ#7Vw%vm`JQJELu2EWZmB
z2i7P++`{qo$=!o_YtY;2Ds6WT{epm$J^|E9cnr&V_Bo|R@u+|iuL#yyC_m|lTnSK~
z#Q~QWpf=NH@;9*kDD(5(=NTIdlh^uZ3yx@WSyFj?hj^EZnIKPrxGX&tmjW(lC1#?Q
zw?@PSXicDchKSWkn1xeIU$+Bm_*VLOaUeSVyVY$drbO(&H%Q~=Pexmizy_ReB*Ht4
zBF{!dW{vXx76kdFx^2lXI-i3HDim!<Cx-My7G?2qkeL5(kFq-TchoD}*Zyy3s5tBE
z;C`k;M-JJS@9cE<;6uPOXAZ=EdtG>WIWgVi8{!w2fJP>z#~R`&DY@7aGr+;D$+K|d
zi2LjsEs>GRbqdri9;1kS_$gQokuup){S>S!n)f<fM4<u*w;9VGrfp*Fd^*$ynO#?q
zvZN`*6778~qudD_4FA(b{D_5oLSY}0l!AM|eBb;O+g3(Rs%Y^F`gafko!8`jns4CK
zZGS96p}hVrI0>qHV;@w@OT~YS)mbu0fys<<#0~{#v<)_sYE)T-*oV=AeoWFA)<0e5
z&b8+^h$ShYC@2s*9qNE_$$i8<JFbgr1~Oq@Y^yI*?X?YXKuEVimiv+7f;6mfcIhSd
z-1vI%D*@WAj-$K-EQnc`p0onP-?Y<qBRAcf5Xd?QGg<-(Iw!3KmR2AVZ~{7g(<~X4
zW;hl;Qimwx(6q{j6C{!wdxHkQW*t7o@d6mI7yJ|2X1+s8zFiUXq=LDPe{$#$1UV!*
zeg-K~Jw(Xt$Tz7r8|S0>f)XydsQx}IHX!mEP%F*qX41MmY3%&uHN<Onli9DTp(P(v
zw{5z?pJlq|k%iqQ99h4>QC4ZvpsIUJdswniOs>1kuxjkKR|Pf5&kSO)rb#u$8J9ls
zt|Z~MtM}3>aT`@<*Y=F*TA1SyDwu&@J<3yol6NngVYLq~j%@gB;V;9#IIS)>TS<*f
zVULn~jLX787gcJBIy$v8kd)3m&(|#<Tr}TW6c{DpTDEY`mW#ZHSAMTbPW9JKaR|D>
zwM)_+)07kem!dQ_T56?e>tAw4)7t+a#;qPOmrbMqW@Qdxh^ZPdHz^CDb1b>j1v&!U
z)Lx8NnLt0RLLb!A0=h{0^H=@D`QqT!<`bHRXwI0)oG92H<Ue&|WO&%mRSO?mfp{qO
zn}g*gsRG;E1(1T;2u*eKpq8_~(GXYyd_O|cCi*i|94tFZqeA=zHp>vU%S{o{xa}z6
zE73iIiIW3iU305&KMwzak&+=LqTz(2a6-U5Utr0oN$`}D?XLG^zDg5wvm7}*LfzU(
zc(Sn^dG>E#e_z!p9=c$CVM15vwfKcZCwLSVZXOEsIkmuzW^CpBpm#J9^dCsJ(EjDc
zKB7M>Cs$h&XdPpV=z&Evb3FIkk@OYBG_00}AcU3!xXHlhz@f(M)C!tyKQ4`R0#sqR
z&LPPHq0OY#e7t4Ok!pFr9{#1%OIx&o$&RN_P<f_RW?;0?M8ibIlXh2s^Mw_Q934kB
z7^oM8yJ`>GIeHG-0?}_U<2$I!A;8Bi*uxtVkNo(z+ze1IR|x~=V1pu~TX<zOvJ=ll
z-c`^2<s<7eL@BS29l)g_eH}`2&4?GcAA(l;8U&@mcv(TR@DeugO*Z~HW&@-I>m~lj
z60k)8pmB09HV(p9+U(B~QXv5C+uloAxiv_J5fdwEe;Z<u0m~oIvn5Ng&(#7b`gYP{
z2|hh_eUOK|$I?FpasTu$m>gEc5)d0fqO<QgI@ygoUv=MuWV&=vbF&eX)0barRj%<i
z_-AMk;|HCP%bb8c7o0$Uw3Qz%&cYopsS6^n$drwR(ECH#XVfFr&MvT(f(((N)t#<e
zx^(4#l1}rhNN$07>?ptwP#2Hg+`Lm-=23MwY?be!6U;5K-NP%|vbx0M&#;R>WW}$T
zsSM2Yt$&aLsAJ$IUkg@y8FWWcl-+tuhIQDo{*(9RF-k&DoA7?U`qgvL+W^w5&V4ou
zkMIY_o_UZe!c=q%P$?D;oA3e=r%7~f#JfRM3xv_yz3tSyL3*qAggt)%b~URR_!hE-
zQU`AVXaj46$$fS`Shr-)oQJz%xH}^E%Tg5VJl&+FX#$jpgMmVg5otYhAsFfRqWc9E
z9SmF?u~zh=W(BI`bd(jtH(uqzQ)#a^OtnwHL>|i;h&aT&VvJb5(c`g}2JeTW3xCpu
zoW?y6AjJBqioRF`KKUZCt=e_1_r*hmDqJrtx2$uBc5DMz#hqvx^5sVuUczm4Ty3s=
z?$WBa2Gjb<J{B5KL%6gNplqF&fA_(ml@yqUW<(pUe}$$4?#GAM@KwCiH;VIO;w_!5
z1ry<_%JLfIj1Oi&CgXbbgj=p@oPobUfQGdCnH6CX6`1ODHdCXCAF~?G^!IS(Fb`tw
zsg{MGC|vtF>N}W#h7jxC8*FGs*C0SFsC2V`gCWrGRanYC6to`%u~|Z6k;gtfrx~A8
zWeRH5HTC>`Hvts@ged<77#%BaI(6Y$Ftzo}UT5=S0V(Q_iZSGfs2Dw3%8$Q_ibO<b
zLH;wypCQ+0;B4fR#F75d{dU=u1s+BnxHH;+Et^i%QNoB}{{bs`1)vk%W>`r96C;-Z
z-@<o@iztzrY|KG9GaT|b?1ZlX86@>VU^XFY|LH$*d=05B>^C5>xN;OOBn{X-EQR=n
z;kuYF*72|1Ow0vR&g2XQa({;*Mrs*yDf|gKCtTombqZP1i1!Ag!VmU>JNF>Ozzd+t
zrt-cP+cf+ml#pqczOfbJXp`q3&;+XiHSANslWCj8)iXw$i|ki6t8hb8r~t7=@hL<_
zzw`<JQ}!U9@_->Tbp@7MXKYM5VTUNpoD^2(ysOt9j@zf0hiwXBODc%f7)3i-<#q?2
zVX9m=VyG++N}lP~{B{dqF%Qdn-7ELSq-_S-(>8S$s46BRR$*A&^mCcBu(S9cGiMx!
z^BLg1=v>Lqfmh%ZxN{ayWEybAz>P$p*2w=2yj8%f6E3jP73ud2m_&$UH%^bHi&eoX
z-JOm{;cizaKw4Hm-nYKM!24_AewC{tN;nyVMu74&ckC!0KS=M=_5*6!Qd<_tR>DS^
z`@-Hk)7+I!Oy`lmA-fScT<+<DD|;WJh*nLI<oR-av2NaRI|<JB{RbyOu{Nk_Xuk;q
zeqYISsf2|o&e?dMv;U<!YKAmjdIE<ZJYw(Pv^pW-tOtyioFRa5NuXvVoKNc|qZmjW
z<5;!x1eumUwLNOc)cx|n*O=1MJTWj}x)J%xAzVo{4ULJuzLCkI1%ly120vzAd9mz)
z;ai6$4$y-0C;(^o@60%ypXlQV%6Ki#RQuGW&hjJ=R1b4^(IyzOKs9jYU#>-<bM=oH
z0zdMNZVh+{risA~m^WV14!oj+KCEa+pw<MH#h;Y_(`WimC_s4n6Jp69_ONzGKn_>~
zWcSdIGL^u+h$KqulyxOn^X*=})7$R2dB9D%FxBE0;4j2}`u7!>uGX|1Nd^62K!IF(
zPhgf)|LXe%ZUH{Ya~|P_gN|$OK2?aH^evIPhHt81gowuumz&kGhw#}~n`J_h&kr_*
z{($%L)lk?LRh%5p!S{9cm(l<fdZ5!P;q;`tjM((SZSoXcpUNybWvs#dIwnUbHk8wx
zS1XNb<Y*PHH{ieSgs3U;>thUu_4N)VE}Ir!G_!=8t0{nGF-}N&?<Cq=z!!VUa{Oj5
zB9lrMWs1?R2iAATZ;1a?{bQqdgvBQn1C>OFHSm0Km<|d{-D?HJcAovQqAvug6G*Jb
z!Z;bR4jR=GzzTK({bwD1AFRH9Zki3lXcmMLKGs(i5^Af5EVn)cY3irk2xevKgpIjA
zV^=^Eh8QTX#PgciLR40b5Fp<JPxcFyo0nkh$bXFx0+W1+#Lqd*&P1QV2YB3Zm5;m&
zY5E1><n}3~M{Tt0J+6y2+j(`Uk@<61N%N?E4yI7`ThMxzB&qs4QBSi5{iW_9kOpl4
zKZaWpexIvhMs0&Nj=)+pWaAHL>_bpC^^>OJ8;Xu0XdS>&uK+GiaIWH8a#O7wZSMgg
zZUuu3>=H%vBbC`0PwEjC7-H=zQ~Gw&o!OM9Zw8dIpB`;|Y0p6483t#!Wv;>t0GgJ=
zE&y3palbua#%wrM1K}Wsu28<`Le%^{05zGr8zer(__;ekOE^s#cf7;Ev?b$qh0hsr
zplx@j<qq{ZodODYtORn~=)xwQBP6~0>}1>L^58$aEI~A+R^+i6eFET0v5;vA&Ncan
zDef*Tj@9r=43aiMKhGh+D#9iiTMgM|9!1=YC*(exA5X6qY^I6oMrH(G`mkRxWv{!m
ztjANPJ&luUBYmY{1c_6`m|*PuAcCKouI;}h*7h{ArLRkfUtx>w*Kfv|2&c{a$pbpM
ze+Rj%dfDn0w%9NqsKNRImaV8UCzsRTi1Yb{$F4sNWUJd|yIJL|`8w7L^9twSgh4qH
z5sSOA`nR~LaNEPczXr?(X?NckTnCb<z$w9L8BtxR88rI+<hR*E*%tBmEb}@CF6!X*
zim2H(SHkYh9-xP$U=#qTQBeb+8Qb;#I1r$;dXSGX?Ll&e>r`R1GIJ2(^BL}ch*k*m
zc_^Sv`k_Bu8$T&2>vbP}0|;5{_4(i+F-`o}o1mnzL&w&TAfy!?X5bMksY9}c#<Nk0
z71dRJ5+I>XCIplX1NMUlfRpFfP%GIc1jw0tGURM?3~E;)*EJlOMP6Xg=m0V9PVEq%
ztw&P=lh}YZr-T0&ylXda_=h*#($<OycveV@tl^QPsoPJx{fh%*r$FjSWr*}nY98h<
z<a!uC57~LsfL>EXw+BDX%WMed{fYDSmZM^`@iN3^2^2`KzxVc}VimAM+C`7ptNE>!
zaCKy$ND!<RrfbIu>nS~)!#{MeMp;BkzQb#L4=9kqi0{q}?ITxU_gX|^V%6=_F1B<v
z*`$*aA)1sP^z_NpgF2f}@clkwL3(h^2Cd$Fqo?XP%)3bmX2W8(5CV44GYa558Ro_P
z&(v993%+|&r|q`{!#7#LH{GDU!so|PO(dE$>Y%J79hEv(7mX<P<$w5(=BHQl6&N!|
z&%X!M{pLCyi3h>^nph~Gv+@tj!d!l5HCkqsAXH>;0*pc7m4{wvi5yy1oFR|IH^p(N
z1${##?;2Ne(2}`JVTy7Zskk~{D6Er8tf#etW2=srN)HzfjdR2!hfi0im!&^KBG#^e
z{u_#j>PgI1-omuK2c-8KdUv<=mjsuxnjimk=DFQQ$aC)C)KoOl35IXdU<42VsE?`b
zifGd<_S5FOQQDN>6*rDA=-JdLc#Ott?bW0tMP7}BqDPOkwLKD0+D)w9<_B>Rzz)jK
ze-7l;&GWv+7!V4$@R#+4MvMg3d^UR~hMthux7{9FC)u$p1H#DsMlr>L3k4NfmyssE
z#K@aETw2@Q%}Oy2pD@}5{Q}~vQ)COXUt)1727W)|@-u(n`*k)@$nX|pUxaDMefOOM
z;pT_TBl}u<{okQKR5nZ~Nh-mt5Z2hzB|{@TIa4l$KJ0BP94EJe)uf+```pnIY47?B
zRj?L-Kt%UUO)$GC5CA6D<>rvz#p#w9o8@v`N0c4oeMB_!eM6~1XE6NN7DB6m1$A}e
z1t9k0WX>g=rG`~*@(91%9);NCJrf@%8FTGPK6m*7!co0qun(1z%j4G=JICeDHrzLy
zGHwVix1rM0znj><3vcCO|GO|S?sNcb0PM2oTi6!p(*680Hlez^@u1kUvqN_VL0-Lg
z#`p5w-PV|JAtVv+&qtZ7<XS%~z-|bu1PM8teRZ@!9wNhgS*y2dSW7kl3zO5ZVs}_R
zA>Z0f)8?d0hW}}Cn0yF!snC3FkA72pKLS!B_c72r_M5DC0xDJCEZ|c*L{nH49IuWM
zSMs}#nazpDwEk7^Pi<jnO`Cc?bS((y&#WU)BYHh8|FCY95|$XdWRiu&$vfiShiVS)
z>dVviT|aiTQzKaSS;ud2Y<WDT`h&#GH*A%uU(x-gOLigB?em)Q`?ctlfJfItm9aXT
zlb*W$AyOg=4gCN}*fR7t`NgHR<$juvRY2ou)8}UQyCSTk;8$tZtb2uVBrJ9_IGJbo
zetgc|Fc0=izz1O5&GDq^p-m8L$F;iGV5hH4cX`tdXMn^)=BM{jp5x>l-SF_(0`kS~
z>6p+D)EOVSm)x%5&BaQo4^5A3?kC5#a3sc+3(5!8aumsF;9k|}RlaIGB-;09)_4fJ
zp`StXG+`tsbTVA?IcqT^feABV_%9dxg^UC#c9QQ(qZ%FW5AHdHL=UKKdav6_6P6KR
zIJ*XW^z!7$V9?Ul+`M;fpq#fkUDd$R>4S=WnVOoOrmolX*k(D25tELmH=bd!f2kgf
z8_&ew?(WpI@S`$IZ0`Ek5SU5TiHq8Ht6!yBP<Eyydf<t1fa%)NV$4YyadI*eMG`Z}
zZ6oIPm~h4+F5%o|*nnpJeU&gj6O$PB8;?b~lNV7aqmg|X8t#XmMmg~Jdcp+^mt)fM
zHeBS+BwUk^hw8rEe#J}O`4{U<z&(28?`f(jjpeT_5|@)*emTvso}N@=0}NUr!a@W4
vv=oWE|4I{k377-_4O9L1X}S>meTm{lP4>l2+({e-{!vlXRH&4*3jV(UcTwV|

literal 0
HcmV?d00001

diff --git a/docs/assets/design/debug_vllm_compile/tlparse_inductor.png b/docs/assets/design/debug_vllm_compile/tlparse_inductor.png
new file mode 100644
index 0000000000000000000000000000000000000000..cbef753e6dd698e8f65d874c7b2388630cec5992
GIT binary patch
literal 263311
zcmeFZg;&;Xw=FD4w}8?hASvCAG?Ef3igb5Mmy*)mAyT3uARyf>9a7RDp>#KA;k)<P
z`#XQaH_jN(5PSr=@9SD?t~uwLKi@r3k;BFy#kh6r7WQL#Y4uyTkl|CrK{Q18@Q6wQ
z;npp`TaTqBG~IMJGEm(J$LlLIeC*P_N{gN1rXTRTyfW%+U@LzjDd)^0lzkj&{*4I{
zA^(_0iKyNvbq!G(75yE}r!|V~AP=J9V@p*L5_WujR3ua1?bg;ZA<va^LGIP-t=|5I
zXxacgNi=HsrRo;D0K>n}Zhje{#n-?2zc-(=y+P9Y?>|tyk8tllUyrtcFYg!l-`|Y%
z|GxbHoy`B=i-0iT7Agvg&(-NF<-Z<SB=Nr=@uW}CgFrH5HU2H$ywBy?rPRMx5sAb5
zBq(PmiME@rj)!<LX_n<+YcuvGWnV7xKi|48;U*g``*DT59-X?)Nue3Nq`&Cjp9~OU
z3<uzS4f;>dwaBPN(+Ak|K4|*)hisv5d8h+EQ~#$4?bQf#(WzfyqnG?^!>|wcmC+U~
z|Enus5h7biqCJ;FWVvbMg%6DK1d>&x|J9~MG7_nHEkC1gVg74<#(zJugPXc3B_+jm
zYZ@H`<7K1I<)5FQ;WzH<!+Fcg%bv$u86xhn<4jCU3kwTG4MF4U>+Ah_B2T}Sm03*G
zy#9N%G3j)?rL$U@B~n^i`uyvw(jZ20+nJh#)YLz9r8lqeRctT{yr$js-FRf;c2W4d
z+ujlU{rUNMwd3z+MK9ewJY3cWvnBjdC@Cq8I>IeRKMq}-?icGdiWzlaxw;-Z;sjxl
zyxkB?I@HV#6!kp1nD@sGC1P)|{K*_XBiI=iU?5#bQUk9#jT%vx-)iiOavC4}_xttf
z-tWi8?CF9|9q#80SbePn1o-&yvNPrg;8nGaEFr*YNQxwhC?oX$_<@0j_GnnwbF-py
z&c}1U=}oQ6rjXCYNrU$}y;Aa%e5I7<dftc68_#}zRLj|#u6A1Px<j~yDt^+8$zJD2
znI-i4M`3vZrVZQEPlPt-3%I^(o0}9QB<tx*kKby|*1WdrjHLMa>FIg5s*fbM&&3ke
zc#*bicPyQDrL9h_OHou5E>5q0O?5Rg3W|{3b%3Dnm58uIYY?`Dg+>21I$YP{dW;^_
z1m3_yRSm!6?K!;y6^bt#X5!~51qG|^VMJ<+<ekW^YinyVVfXGbYpxZDUoveuA8*a{
z_9|(f%88#1l`%C5P!@UYwiEg8r_J>ybJB8h4#D{`(9*W{^!)vuq-PpJJlyP$Dkm+?
zk(=Au-p)ByVfpjZi!xILOpbF~xTNjIYcc%H^z@C3?>9G_NqKrxZM$`Qqev(H8NwOD
zu0HE|NhKBIdcNM5XNQbmMWw8*H<CGx+<MSBo=tx<>7lwl=^V(vRgjlwkUWyFtX=1}
zoAB_td682jgQ|<mQOF%y4*Q@r@v9|qH=BkCuk)kLFe3Jjwl<{<p$e&B9Au`Z-QC?X
zvw<rpg26o|jr@OgA7U0N;twt27U^z@SZCUoiYtCGI6Zu^UXVp8?lXP$bpdXyY76Ra
zn`pi@7#9^4m0hpl;&X9>kkd-Idx?g#GtX~wXTOz&iK?u|M)66NbOD1s{dfF!v(r%H
zP>w`wud2)jD8F;fDMy5b(WXt3Lyg}hA$c4`r<nLfyAmh3x2x-svy_z7^P-nB_3~9r
z1kV{9wrA@JYmGW1$@p!feHL1fr}RS&wKaF(?+eDE;9}C0eti&zT}0a2+Dc19;{spp
zygq#RcU-T*OOTs8?!(&XkA#QHs#Nww4w;BbG{01`#3)$B9hbZ6-1iyV#Gau1`S2%>
zK{Ztzn#EQuN?u+b4FkjQmIeO$0Z-@dAeV>nVPK}ZzPx-_=-r1O!zfdVAB{-p>CMr|
zgkBs#fwZ&x48d7K0jhDeCMP7cKlAbN=}Bb$Rp-v_8Rs~`t|E$m(<%gX1AsBqnMRqB
zw~QRT&yT!+Cp_1+AN>5BJ$LAPyLfYa2}=O0sOSt^lSxma4cu#c=-oNb?fS;6!(ym<
zsSkMVB_$l}?8SS(d#*R_d>`u6@Ssf8d%7ZR%(%|kOjmIx1}4LY(*G3i`+y*9ve?Pi
z*4s(>Y=jOIB?bx1PnmV=1nAs6J@=oz!>7C2OKSAmX+|}c_4oGj`t+>m?CN}5gPncw
zq^(WbI=VMsSF7Co4p+5)Gh*8;A+P!1eQOeb6LN(_md6U8pA`+NJ+R-IZ+338mZ#=P
zRyN<czMQ)rGPO(>ad(6t^)XVxYV_k9o|WT(A`xU_kApP{IpXx(+y~@o*QI*+Bs3a!
zIkFLBUv)e;CQ2QaIyjTJwzk$>9UZySl2>?brsA6mju396lnAeVt9MPdxxTubnVz0?
zdSu0EutzRn?<XRDeLB$R8awB{ngKUFkR?u~oqvIXO*;DN>1RNMBJE20jD_}#jM@i)
z;vo#(m;aDzPJ{v>GCaJkFq((9$=pmyDcmN^H|F>K&fRu>ML!3T<uWKWfrTiagPg33
zWrodPm2&h;i;MTzb;G~J1|RUxc@fxM_+D>c@2*1S*Es%G@WNL;|IP0EZqH_><~3Xt
zT-$l^^%*;<{}tVX2lq{Llm8CeHD0>J(JSvPSI&C;4Hmzkrg>g&t|n5Xn8dd7iT-eJ
z^&J7j1m3#Li@u;7xu|?$2Gz_q;=ZIrwaLN3CrD&>c&Aj+5fBidZOgNtWJ{Wo@64|B
zrO^i1)$O9l)SoPdt<g!zMJ#6vF}Kg|dxn?A-SYJC*qSUuEij4Sv9TWe@$RikhS1$o
ze(bM$jXqDF;MwGJLY2w13;^65{`o29eRi=M<!dZr)|VRS_Wa|Mh2zF+Q7%<E;;$Zu
ze^Nx{X{LJFI3kcb2o@Tlbi+xwd$-=RZ%$R@TtMwpih9JWTps&g^W#T8I6ps+Yt$@M
zhjuMLl)ahgs_EzdaHYXr2r*p3`)s|S!_;80?H#VSWxS4`_}N+xGUh$~I%2{z1%(tY
z6C4U5>F?3ec)DqZiis?O?t9CCijDjI!o;MAO6bYNWBeAwxll)KcX`{@^gPz-r0?7o
z@xAhbw=tx{=j!S@*WfKY8^UUonX4b$(9l4{u1n5k+(mV@gQ{L4d=cT{@9*D}@X+iJ
z1+OKcX<BCH>~|aO5&at9vjdB7$|+pGRejG0m;y10Wc?mX5I%hV)tb+G@O|@Fo!TdD
zfMcnAUVGgP2l1r!b#*@Hzvg1!2Bcwccd|8EN6r~06xSc64w=^8S`~0X@VG9^x(x3v
zC%;4I08^@JEnhk9+qZ9ttlF~M#Gi#;{~;ImNvAXz3cst;U((jzez-BYpVWBq8xzM)
z&Y7tZF3OyhX?e2Ri2<2X#BC6(r`YH4;SsWt$|B6^Nq@}<?vWQLp`<YvHov}4YBT<;
z^1lDBa$bb5Pd_KpHLa~x;_H7Gb=e?(r}g>HkYpgn=44qg;c$dQwq?D?;Rl*@7XYi|
z2>_L$ej@Vca-8+ns6ZlCD0O()d3X+n^Avfl#(4H78-1^ZUAHFot6;t&BdcMmhiW#?
zyLly5+qxgD4Po46PTnF$=<n^d9{-wgsz#&eSD=z{_6K@IpFkh01V*5#R2?aLK?hu~
zmZ+%XGTJ1Jn8OY-yXd{~#;b&_36vGR3FKstzvIQ?roG8fcJ+Hd9v)+I^ri9HkZv+?
zlbH6WyPqG~sH&=Zcpv_GI{W)DjJ=_&w!&&WKT5zJz=Zf`lAh1x_&7fw-*?yT*_A&+
zh`wus)RxzKJ?zTc9A@c>gtfP{ahoNJ=6tWcN6(^sFKB7YU|azH4=a=E+hzY7$UMiW
zHv`#g-x*0jL?oTi>GaN*)w|-iYHtDGIEMN604Ce6@Aa|o<I|I+DA&!Y1S5El(S{MK
zrY0t(r_deY+w}*-iU5*a?Tel(uKr?B<j`qT$Zmj`LqkK$>yu>#YRzzuWE46uzH7G|
z6n|u0U#w!2@hywcBTx!DJ|K&o$WtV8>PyM|@H=-t-LC#{3^TH)D2?BaFT%BD{oY!(
zRPbz-!_v+|D=~}g=7T0bm(-q_K`7B`r&T_?SudzL;F;*?=mKTc5~&`4M+;lCV9@3^
zx}5-@`|#ld3xa9eTYrD1=sWbSn30OV1)O{kdx^(Bs`=|!*zV`c5k~$LKaj!$O7Ift
zzsb9ZE05J!IAh>-#vGt(0TSjG!R2IX0c{hITc{_l#y3a+gFyUJZNfxOa1gD1#Jiad
z_LjR>j+UP5x|=|k(mOQyA*|5<fl_A&p!Uv0n(+GK*B414Jl50GgSG<)75#H($6hxl
z=Qb+N#bL4U<=Z99fpD_JRK>rXoSe$3Je)<$8u`5k>m!vDRbHo#uU<{N-kS$dxcl%~
zJgfHDtLMRb7mGyUo0+1XnLh^PKqpA8j~CC0-|%_0`z0Gf#cfeh@S;Bs#nLH;OEt__
zRZI|%Ubb~~&_8%E?X+Wuu>(gm>$R^u>v8%!sqyU3!?><_Qe1ZR+^(&e+AMJd`pdy=
zDX7dE?{hxo55N6Uu(?cPsnS@VeIY(A+yeBx3_vI7r5CUayT_{Z`9~5v^p8&`_R=*C
zC+Ds(roE=-C_s$M#ssH+lb@>CX`9I7Fs!A{C^J3Z97U);YyEp%I&=gBR5hSN-10dX
z@)*wQ!{H^{@2~WY6=`2D5;Z>Z@j0%YqjpnqZTg@({#A!e$eHowT}sNUZOon7dQZi8
zMuX)+FVy5Vz^<!R-z$c9K<V3MsB&(ZnV7s@8*E0i2X?HQDe{<)ii)ZrSpTlyE$)&!
zd1Ym6EG%bN*Mgn>)qynSlEtIVUum;<*>!KI<O(TE#P+YsV)u@p0I9)(PAkN&%8H6o
zK_nN+$;ozfP0Q&#7Wmpw1Xc?zfg=T~xR{tryu9CSekJminE`0h(9&N2q=KR{?Q)_f
zSmbOuv!WrO4zM@D&~Ns(MC^U%Gmt5IL-S7ud?W3jebI6Nfa>_>NPa9&C1C#^Du&l`
zRI9<uT~bog)RaEb(&s5!n6S@<TjVCS7IBjMhW(Q#gLBtc$3*1fBEsf_??Xb+KFjWh
zRk1f-aQ!T$Hi><ky0?0LF>u|RDN3fsBV>u>23qBW`174Uj@Vau3U`e>#-vIHw}C{i
z3N%ofih6sT>@0vVvpzXp%_5VLu7k5y%!C1a{pWe3N3%l@C)r}kiA|nDLT?ZpC^s2g
z>(ECrQQqSRfHsD$7d~uVTA!Jye2<QfzI$=8vElqQzU6!QSC5-zEJ}s*Qx_|g&Oqf{
zh>E}X>2e&^#XM?xTVEgcs<`tSUTD})yQy*}X68>IBUkn@WqU=)tpAJ_%5DQW6!nmk
zBW4?^%@XkW6pBT_pt3Pl@sPIKe2B({9~+eA!zC#-D5~*su$u<x-Pw$zF#CbN6&4n%
zcKK$$I!$j~T3X`f;!2-$<B6q6rV?h+Cys#GI<<Y#;TovR(RCwK?L<gfMqrBaP`w4s
z`*2^H=vAu*!902A9swSnAHmg8W#i=y0jlzFcc=cK=W}WTBz))-P_cO(E%MLtSy_5e
z34KN>v);!ufK4#WN`UZnH0!$mzUy@tn~c-2&8oOw7DEumGQaQD1@wN|^8WQgYp_MP
zB71#6g4$j@lg8EAc%!;-{*M-a*7K7S{qOnr9`w!4`GO_{sm396Hl}T7;72%I?PRv^
z)WF_w@}Z!B!Bp6BS>9=PAGtFp?RfK7Cv!+mnjXHS0uYPGQ6D3f@vPMWgDYX!4CTnB
zk(KG$zfzD{DkMzevuS$Z?d{Ff2(xwNnGI3{OylRpx)r`UiC+T)1GB#+=UOm7-SOy(
zrpBVTkrD%e)&G4|k!W~$_>0X=NBOT$0kmwahj&br8j(a$U9QPtaZxbo)HqLmGbugb
zHtPq$^A&hfKHCLJnW+8zBLI_dpPWhWvxDpy;@4%SeZ3?7S0|m~!ze67x37Ejt|Tq$
zI`S+YRA_$DQkw%CL!@lEGMa>=X<}jmCi8pF#QxpXcsWiQzSUe(eEithSVMIIlG!?U
z0tye79|~kzwpw*x_Na&|ZD$PgmaO51`J1s`guOV(7=~e~Ox!dmm`8L=E{byIn@QNE
z#-4})E@(!PP=>e&2{F&34c8s_Bd%ZHNHc-Clx{ds2b^5(%_AR|?(iTBbUG-q@&)#N
zw;IR!+d7GtJyl^<X+4QA+){{kzgKP?NYn-#ur?~FBshU}Xr0EBMa<F2cwhtJz!ZOd
zw-K;OV$)IL+Z#yb4GWxnse*>6wJ#e%`ZM=&92gu61DZVEXU-c*zc)J~$d(K2%LK9W
zAH9tQYhhSKozWc%42_x2d1E4ma9GXuo*LHRC!*ul-yz&u0x{}5l#@=bu2f=PC-cqz
zrP2pJEdl5cpM9CAup)YEX(KQ5tI|%d%oJPF){;jQaO>f(;m+@onUN&iL3CqVp>_1%
zQUn}61P2E*VZd-*+1%_4g1KbO*t_B!nto(s!Qj90`?pC$o^|v4J3e<N2S*%#|H!Vz
z8sC^K1A(lh)S<4NGFH-?#ve7){3QA11X5{d_he(Z0T3i+&5wSjWvcA2svdPtCQ7XR
z{7gh)EVq*?_9xDcx{bT%_PuXyZEc|0S+z?1G^RoGg3cLu*_zto4hl9V{a{DiiiE3C
z;SolGoD=hkufijrE;|+fWrNKntZw&&%9D{Z;v{UQX`$f#x2}afqsdvqYG`ItDcokV
zva(bB0}i7yp+8%!JGbeR$MfwyYr3rynzBHA92^`N8&qH{vvLgze-^ES67Ga?*R3RD
zsy$1SLEo3m*?L9hmLFxkHEN~4(ds6ClwI=hqs72wy=ftxwf<qHdaqBZ<DPh4X<}(p
zY3lxz*nO0TfkfbJ8C1xuvue}NSTHJm7*XkU5ZMYijCY&QZVUmXFd&MnWlu$<`oa(U
z@#DuVl51?=+B~A}f&CytPv7y9QcI+zwYA%6!Agt$MYNXP7eZ-%8k)tk!@tikb_!l=
zSG?hRcZ<;%&<Ey}@asSE4jbgb7>i9~-!+Nu-j!j60{ez<H&Y|SI%<-4KVZ3ZyeEif
zmZgcsl;yNd7J$S^icb!+Fpx3$Fe>twRqltiHFFQk;+RaKpYp}vdu>>86c=`hk)Aqi
zPVq8V@bL_~dBm(HAjn2_AR!}Dh`8ZN@g>o&k?MRWQf!oWu*|K_O2H?_`;vA?UxdV$
zOV56z7$CZ2gekq(eT)s>F4`%pF^j6z_*d{ZUw~|3P);3vFX0dN(Na_T>0<|1SG^i%
z3w{0foZ2eq+1c4<{pkh>T#dqhm=1>0_g`G~W*ILXbO~vF(q#IQOq5O?F}iCA!?Wu_
zpcDOoi<eUO-}(7@kg&l40n5ka60}VdCoZTw1Jm15LaPfvv(#BI5h|QIRx}6RN-nU7
zuJ&hen>pU&O;jYM!oz!XI~?zueF;yApbp2~Ar(IAC@^(44YYscHr=6>9sTlRWPCiS
zqKO5mPNs(`6h*6tCxt04FQt!!plrAlEp^9FB1gBDe~Ox{&!{3#={xV|yE7u5N7jC~
zpV5q1k#@7)4|FIy!i?Zl#Gf%p@AEO3`~;&NE`i^AqKSS~MNccg=rC#5OwdTLq-UZh
z{xP=_CJB`bqnMK38gGnj|2Rc1?Wm;Mv(D4FNtvGgzZtNH!8v8Eii$ClyjiY<n5A6Y
z<LX5{*J<!N-CgQ*=m8H73{zY^Qf^Zv(3voebmAw#HWKl`EBFw7gEe3Qy{xe0HtoGn
z$H<8GlnpQfnmB^K=tWsR+){DFnPnix-KlbmGSD*<6I#qSV*^xhj3u93_)xX`{)(Co
z5P+c`=BJ<LOUHi83CsF{2vE>qifidJfl2cm%&_!(->Q?6h+2Xgz_NYQ!W3-k=Hane
zFNh;W%WybWs1ckvqVeNZog3%7-#tlk!pbrerT~u?#!DR$wa)8rd17q<zQADdSj}*q
zxY0QwoRlHPI8<VFuc{pZnA+<5Rv66z<?U5GMjO060}{mmWy=9XukA}-{~fy!V>Kc2
z0u{cT>!NEtTbGg^&Prj{X6^)d#E91_y={Tt8aO$u|GnM9f{%9cgG?A`z>!>d{{}^~
zv$Nav$GSrwWJoHz;~0#}ponH+TvU@QtAS(Hx=B(APNcfz?;i>7<6fZ>s3ZuVY=?8v
zwJAW*JbW0215S4wf*B*R(9!dnC7jbjje=p3eft~w=dh=3PxYVG*&;OzwuNYzgc1=P
z{N>mSOqw6@4E;|)oaezCaMP5Od|S=HNJI0%dh%PmfAS1W0hkKFYEFjX1r6q|j})W{
z>p!l0{r6t~%HO{|+86JvvO5VIj5=|8Lwn_?`qKCtFZL99ehm!Z#z+~i_NK(Gx;_rS
zW#np3?5LX~iyd$TdYCXI3K<EhH%q+HxI313`vwEKjU0eFNc`#bC*JJ_2M~*tXYK8h
zDV<XiLC`y94bmC@y9+nhEEmp1-kCqUv9SSUD(8oBS!QzkN?q6~c+Oe9f|2KCfLXzo
zTXT(buk2TRWw8qK%BntBvp!U94Td60U{o`NBVOadv7_94(^P3S&L$v`9JzE2tRWXc
zQ#!7fD8H9oL0VSUFn2?O8QwD6`7VsM@;E51>fEgKbS1u^7_0)-EF3H>EL_}z0H9k#
z@<DHziG?}_1&W}LJ)=b>x7ma;ZQFg?J`P#$BQvsO>>A6(r4Vg|fXi5*0(LoO?A+UP
z;+TJn4qWQSz#G;nCMK4Amn|TdTJs~+)_M3hpt`%gDcsLYl?q|(P2`U}SBrkw`vYIU
zDG9F;ET$C9%*n{CyYF3=LV<{Gj}{UPhuzXZ7E4S_9LrZG%k97L$Rd#SvtZsfd=Xz~
zF+%TL4y34V3wUgv!3y|eGUNLM`T^LbmA>aF_KL%-2rC0OKFVEI>as&@+VW`W+1FF#
zmE;`ye(Qv@TCfSIF}+lgh+O*oxZd-ae#T4g3`%1qC&0S%dC2Bmk&GYbMRasDd8ggp
zLQ@D&ZFs%W)|#mo%L397PKOoIJcu%Niat{$Jk7X>86nG2##j8E4$rw!ZiuAx43KgH
zK0d3hFS4<~TCCAI*k*>C!4asmo1@(H!-9q_u$ifKEq+l(FMQAvh-sX!g>(Y8dA|CM
z!1=!_9CR#tX*!=xDiGD9*L%y4bGy)PWakr#^L^wy^H4{$j<P8%TSW5#0Z5~S$h>+4
zdF9~Ly?<Lp!^ZEjp_Ma+#&H&kPOC$_vfLe4RJ=6Bi5Q-zA(m)@Byj)!d%&o*$v3xA
zcXXZ9NNsX1;T7jTni_bPcncOhEF2s=&4}SNFk912t7>auHhKW~u6S$%ciUC9bO$L&
z4+^Njs$-#yV%h8Ry@m8aE3P<CBSY4bTg#CF>Pr4DdGM_pcVB?7HV0fm&?hEIL&P4+
zt;AHHJpFEIVAh+?O(G{RP;eRs9450Jp=mz_Gz1HZr`wBBf7TISUpnKmMJ!JPEYn{l
z2Dk4iqev4`@!jrk;5bjZoG8>_;2wqj+v0NNyqN62HC~%kmmT#vxJoEE<RPktuK;Yp
zFVX`v3}^iMs`}gGIC|~x*3~|jHJrLgRRHM%v2;zwt;eu<@N=eqdBXiCY%3Pw4h6R<
z))hG!S(tKmF*q);o_IJGkfgpILB@YYfsj88-$>nL?E_QZdCF^~%4Ks3?Sb#&ukvPm
z{exk)rct-mehSUWzCIg}sf>n}mdy0;`qZaD;sWjmsHZ-hxVpNM#p#P<VnT9gmnoIN
z#f|bu#U19*thSqLpb&C?#Kc6+!ongZmf6R&1LieP8a}b^exQMLk_Yfo^T)i1ufAJP
zf{#DMPF|s!B}UA29=6-OBPA&r{gZ^-^a*>8gcXT)M?es#A)J4&s$b#I$jCl0v<>0e
zJfZ1KkNWz0i(48kB2%f6OTX#@pX)h@jNMV=m%4+8*Yspi<g82g?`*yB(?Lw3E;M58
ze4%`dh#{$x06dyT<YP{ne=AZ-Ngqs-4<RHUTo~uNVrV&sVSHxuYmpdQG`Rl-zRTvg
zSYtC)E@2pPv@GzIV6odx4QAsG+x|n3l~4DBOex<78h>~Tve8&uVab=p11OpN9<&51
zHffu-0P!b25PBlMa>0ler!Zfbf)mTF#`{I2Fm-Y<2und~9U%6#;xeIbZ$kTkX;j$%
zs+nF~EF4Q4G2CaVJ45I-oHZeGs$R8rtqbd0x&9TLK~1Mlu7udQc;HW20uFD-wkAsb
z7bM$Zn>h)tI!ulsN1h7!ps9df9{T5FAm;+_(vu3yr#1SS&fc(#{BA-%(S|<{xc-DR
zf;t1S^hqwEjcMCSBfNFcMReTwidHe#a9<i+M)FjBIhm8}<<$UDV@CB8Wnity^uQ!B
z^6~iq&9L#rg<yt+(@?tVww|7zP~@8tx1$jEgYwe~agR2)Vf>)CD1##EV%HZ=;Yqvv
zjc<BOG`>VdMO_}*0a7UcUq}Ivg1gkdWzRj0P9+=H>)lud4p8NjPFC&j$-g}M=%l^6
zYX&<pbIrjUA|s!#G0z=Z8XeW-iK-mr)?F3waqb)#hzeE76tVb9tyk}n;7UM1z{J4A
zLpabzyt}Z^$B5T>v!?|o)m%$m9e*=CB&5sbBA-I2#_Mzs_M%i^KUdM&bWmDgVH-W%
z*JRz>pPER0GY)sk-4_J&2h@bDjLa?~Zb2`c$0U`O47&V#7&A*!^#%q8b>I04c2|CI
zY?|Rk4_}@ir_EtXJFIh=prD}83;Dz`b?y@QkE*;$+@Wof)hJ9={-Q^081)6%4768x
zLaBr9p#0}Q@891~?W12I3V-q>Xy%N$;-}`m_Opw3i6gv0F+|VF#gnCla^%XC-)wM+
zr0hz>60vBNSWj{}y_+TMQkgEdAXqo%mNFQ&SOB}UPopppuO*?|uGu^MKdaB+9lt;p
zIyw^oBG9K6(^U?zt${HUv>|B5j90>BT?alupLMzAPmJ0!>A&vC!P_&nm8V1b+qA^I
z`5CLoUT|wnlqK_GZ2yH*Zab2Rn<u4Npe?h+eZ@pXre7hjxtVvsqUYlBvU1{P?GFd{
zMLQ{r7aYal^y~9JOe`#T(|L#CpSSNElV6<E-Up3<imPi+h50Xhut+UJi%F6n57K_l
zZo%gv2U}>%&wb5e)Vf3BYCvC*b+F|znfVot#Xv_V`hx)t?3?cH?zzn$e68|#kMz`j
zxLkb2Hxatql@*oj=9?lInXck7@D~g98O^W{Y-B*ECzH*<*|anHAwT~Ye-H^UGo}s;
z3)??FZUh``yspxBwgN*AuGM{tz9L=Bd+Kb(GIPh)*m&7>jIY-o_WCf`PB;E$we~r9
zJ#~X41zq83jtXmCe%opD%SS^w{(MGI(%ZA(i2_+#M}Ezj3#F7Z9*j#B85+tpMhf+b
zkB^Usheu9sO*bsL7wrb^i8NczEha`8F$WuwKxsL-xQGMrJxUh92Zybett=NSYeXiT
zr7K9FI{mdSQy<z-8U-o`Yma>wZ%$GSxny49pEL-5vV)mY%{{jDW?~3twy1~*2jgFw
z5(ifQOOJewAD8nMfD$@Y_SvTkbm!j(fk@minNGtO?~aakR`V2-WFyJl!MZ({>6a^<
zdb9w&Pa)=2b?NY;$|QzHCXr3YGJI&%%Er)F)Z|AzNDAsw6%xu<?AsqMBS?8a>DGI|
zsgNic3vhDAm}(ZitbjIyp8z2duB}kmMe}rv6r`pD*ZRobA#6QSl8Q4uJ>45c787Ui
z1)vdd7QnCE``o35fP_TQxGNe)z1n?$ci3QcJmBECVfmUmkPLxU)9{O+$i8(M_^}PJ
zjp=l>(L<wd7$<Cc`|!U|9)aE1{O%7ze0;;qdh2p-5s?evGZV$`K~9lNs6Jpf_yRK-
z?tbS?tw};c0yl_;jZOC(9Gp{~b{RidD)`HyprTU23a}-@TW#jX)ZUzW-M$;LMBcfd
z;-*Z4tp5DfEAq|kW!NL>hdZtGQpXH`OvV40YAqK@o^1eogULu?pAj1^e)O`(5O{#j
zeRTTlb2?J8L(}OxeVVk4j847BPmj9&OGN9h#kzHFLl-CZnYqF~9M!O^Eq4dnGO-TJ
zdGlMOUYBRDQ4B^uswM9LJB4PD+1}ALc7vS8i4C~IK!)Vgp&O-Upz`jqz8rjkKQlAa
z89^rZ6Y3dO3*iHR?lH?iQ&?Yo%e7x<0sq=eAEqgACojluz|UJ~0-?iA#W~&JT?=^|
zF#fLklSTsZ7OS&w-Fx*fPqd4N;YcmDyh9iMcSKbjkeV&iv<^)|a<)Y5F9t^<OwXU+
zOce1;S)BS3rKh@A9vrQYtb))~nR~`djF5i;z?1m!xoum>ofUL-!dY;qcm}R=YDX1W
zPd=rk{Q_bLt}VEe4&TKu*Hxc>(zF=Kj{vl_3}ra}^E1o?q}t}fg2UFd;Fp1E4(m7P
z)a5*oL{em=$@q58Oh51)5(*vl4n5E-U@fC#W^fp^fPC1sG^$H>f>6bmIRq3-yW!k-
zhrin0TPBXyhWrh(p8}GZ1*}J&Dl@fR0Y?O%m#+2gb8cJn%`Y#?%vZsuTN8T?(VNts
z74uUfJ+C3yUP-6A7RE;o*24Hz$BB@OB0)%Zhhr>myz&4KJ;rGxRT&Z+%0m8vX8q**
z4>i`DfzcIC)fBvh$WtPsmOb4~c&kl{u`7^8M5GQn={5=$ngi@Wlyhp~zN$2!uwmC_
zeS!D74*Ee$i`cY_9#EmJfkW2XGQl6-^+38{ob;+t!@YS}I2zPJSDg^M1S=U9jB3?;
zy!Ps~4#7@jeu@#(x@A8DDKx0HgbwRp-?6DWYIbFvsCc>F;lh^u7(`BUbMqRxkG!Yl
z<a@o3^PpWJ(WIU&83<!|V*5PL1&f55=Ve%GB)K5|P&?o5CeUZ?@8Mr*Yh>?Zquneh
zcTQ2SiSdP$xhK*_RgTqc;~ETFQ8vn9qrX;KJt_i}z9So?8l6J?dy)+zui2g+OgsK}
z;bh8mdEi*Yzf*x+OoBv6XlRQY)FkM;Stu@$T@`k7nPXt9N9&fjGLCsg8;GUB5{Hh=
z==|q%z3ekbeX#8{Zef1?7mRa5L#~cCcmWJbav3Vkl=71?$q?A`CC?Q75Ihf#kNK16
zN+rrm)bkWprq~Uil^V7iv<Ce?&1Ix*f@Qzy!%-qmOf<BTuXo2kKObOgy0B=N3MDv#
z!ZVGIEd1b=tKIjj%nVo1^I#3W6=Rft5<%BvtOE|?j?r?7R;eM3QW;FDi=r85DvrIz
z(>^=k+krMhjW)L<a(SkI`KVS9g#Uu`hTa5dF461gt4VKw`36S=$+6ZhW`9}Ln4hrW
z%BiSpaNAu32%qGIp+j8?X8}Z;J}?^y{|@9p%q?N|sJ)O4vZfGrF%DSmOB*jUQ@v^{
zcQCSipbA?`dwp?naVMKBgd4*Jd2xB8?_%pE5rqHV|F33tqn08CQ#4$x{&?0CjZDFM
zI0K2;0RtObW_V{9woB@;Ukj2pcy%%Xk((zhTv~H!6-G$JHnKzzHMlbmV}6C9iIK`t
z@io|gxjUe*hoh*(w;nW=hgt(wWQ8D4UlZ#(+SBk#cn1njZ<1UU6PVkxaF0a4;Kv!0
zdwF^F-cHPL^1`k#DuM(dF5?d1FTiO!uwb3A(9lmhwR}>Yn4c%$%_p+!We#aK`qTqb
z084bY0`tf@*g#HWG9WR|3F3T&K=Z!Bjq=*flCRUn$bJXW&Bz!c;kMt$e`7H1a~o!6
zW&+=ZJj)@tk>*l{hBP?SjlRA|&m))I^~1$!l+B9rW93!$Bdi{(L8QqOHg^gCu?e#8
z6MZW$F9#=&+HrLt%Wm}JorDjMAsT7E17q59^kXTIG9}!;C12;yF!9XO-0dBdl$1ag
z2H{Y6tn`wI?1S@i>RrU6ijbdpa^e<%S3xG~QSSbpupy}cjDyKUmKTy%g+jk}YbEMr
z+jnJoVqG%Dyh#~0?2P);1y@3OCjX2T{XM{AVZf6?O2C1-#AJ|D*pGL=eKe6HhpRbq
zrj~b39aUR<4ytB7)#4hGbzg<%Sv$PI$gA1{aJ{^^fYOmAl5cz6H#3FCkyfl-8QBIJ
z;Aye0H-rHNM3%}NmSoQ&+hEcq#F`Cc>U?}c4UsVL6~Nbl?N5sLn}cusKzP`7Y67^m
z5qtfTSKmxF;wYO<RukHahG_%3z4`y3+Xh@HKp)xSdxZpMdBQ(oeKba3wgJ`H8Y}t*
z*lJ$@LKSw~_lihiT?YBdoe5z02fgOpOknUHA0H3w7j}h|o(?l9xL=$&IBxx_j2efP
zlH?1fdr~<8Ft}o7VKp{QhR|^ao4Ekd6@i90CB<+%4c^%X_kGis@<#HVAHkox_M1C=
z7Z%n^#wpdy-Dq9q3Y(}wHRp_>NB#~y7i@?|2`i-rW8)s%45FeLD%7Pgv4I5K;P7|5
zIUlfyVDQo$>FVm{&i{(Hhk4u)a1V!4gjjfUqLlXO(mocZ4t<Oyu`x3p!;+LKM&Zkf
zPm_AkrL@|A$BIadT~LkWe>$!9n|y};9*Kc*oQC?O%$3-8_;kc)lXTw~s+2(~SzqV+
z|L#&p>ei5(eL8G{m4?CC8<0NbXo6brzet58^?Wx>c+e&l_(ObH%nu*_h1-WgZnO{b
zCdcf~ojd#u-2kRLs?*ybQoGDFH3^F!w`I9YEIdoONn@4Y#CaiolG>bwic47@zX72n
zupY8RJzdPr84;Dbwa!3U4Dn6v%u^k9cXc&clq&NTkgrx!G){)`gPql*DMz_{0UMmt
zNiNY3oMe2~?}hufCz}MB%pgAlz<`C0o*k3RF@GTljPG=RRj=By{o)(vjKM7u*|tOI
z3i_BkORC)8jjL8q+Lt~*F9wW@<^uii1vN=7w`9T0wXwA1bg-tj|K8%yRJ|v^rwa&~
zDsM?i#7Xm3=;WOvNd9Ws4)|;UFaS?Yr^LSr!;1b7FW$M-=^Et20+`R7v4MC6s;E={
z%lY@y@Y7@|`q(+D?-OrdU7mCP0iXE+J^jn|2_IlzKp8w>B5S+AQvd3IDTnQCNto`U
zzP`SMJ>wm3kuhJ52{sblZ-qHJVV5~KcMr1P$^X*^Zp@f3o;`c!;o%`G8}!<Yg`JC=
zo0Vx%=H<(m3JRg31IK7nsy*vDI{Rzyt0yNex@(=IZ55C~t=wh&AGPvUudAeCaB$Gi
z&u@NS|L@8Kq(UG}w$Cjo7>W7<S_Sq$uL0b=o0ej-luM?8zil}@iehOLef?(?+O0Rq
z^l|Pv5TtM^XXgX{?@(pCBI^HZb~Z*s{OKnkK9CWBTR!o`+ez$tTcd>|K&SfrWBRki
z#etE7%XPRmv;=T6H*uB1KtuDkK@%J*fP1a4haVa2?6$$kdEX`&+0zJ8^OJgBDBv|f
zWJA>RYS><QJ-kUn2qC5?B$#Y@aB1;7r=-<>aTd-^ONg?Gi;L6H&~P`nd*b!z8ts<4
z`nR~avXPOpb*k&Qmau?;jq-AaiX9C*FE87?D7tcv`uD$&ug^WG#7y@-bJEh*`fVrY
zctS1+c5G1-s(+6fojY|RR~YB7<Kqc2s5wDKIiJ&;UNO+qPuZcB<B<R5C}qeO&crwm
zQD)X(qo6hQ)%>#VV{OesyHj7g6eD3;-q+yd!%nqD^~UU;kc@`%c(R%U4yB21DHQ>Q
zK;v#k2^H^H0K-tOR_Bn>>Q&%Iw}B6;8zfS1R92-e#gP?Tu&kV1mauET$k)kPWh{5d
zV<g@xbA^l&8|d-fMHxQMhb&_5V7rCZ*e@WyTS>Qvq6fLEKV;p5Lqo;{CLqHA*!nS>
zKq`_yrTna;&$t$pETfn{r+?;2iM-(o=n6T3rq``4Egv%wnNq%jv9u4i>5;!7$XU=}
z-!M5&i(GuzaUh$57bTCtQl%>4S4PoDGynImFobmAaw45L>}Eyo)j>dE7<?=qfEx%Y
z0BHIGSFfWFbRN?gTL)g~@@KTWwbcl=AS(omtG6$lwr9(Cmk3a?6^O+|3=Y=X9>?Jq
zs3=dBG1#<+#*29`;!=2wMxXt1{QGQdqV!!)q5;Jm+uQEAiHVK&usBrgP%3Wvn8<@|
zDsgMAmMVvL{-_MSsR_=%e=J=K27{2cnN3$<y^Yc~62qi{&!DP8&dY4j63|A#&|nay
zN=m;B>51geQEs0pvu9zl!IJ<jSpVYD<T*S0`$l_F<bsYDC%e*35HVdTqkMY~)1nX7
z@U(9$JHkm?=>y8>O`&T(pRV7Dq$Qw@l^>O-N%4RCcJG3Eu%JJNR?eJylgB19Drydt
zGBEC&-O5?N6~nb}Vs;^eO1geI<csZbS1b3aIXI%r(i<DED-VMagI1s&qw)b8F{54r
z6))DUhnVdJBb78)sUVx_KxTxrVB;}swve&K*}*z=j>!t}@;-Tid;FjlM52QXp7p1R
z;$Y~Det#sluCu$?E`Boa4@1<ki#sTnUHkhNm?I#~O{OM%Ng<#ajxyVm2^2&Pa%!?s
zlzsCYdxSTM9#>E#(991U_nNII{X<NE2LQS1s1AukDJTXBy_k0q<+FbcJH*Kwj_{=p
zkOCAJHcEeqMvns-V5RrLfIzYe`4S|UZ=?;(LXYFEzU~N0Alad}vkrh=LzF`6Gy^I5
z$o>fE7sY0_97HN&Zezj|EK)b6Cg=Aq3yt8#)C*^CipJPZ(mB|>L0GRGVpHkTP0$1o
zb9RLgbu-3Hv7Y#qG5Uj0!@L_DF9e>R$O4wP$Ns`WSrhcYos;c*#S9OO*<Z#_zn4%N
z|LWkh@}T%dT#dej<L76tpEcj<Rxq0^wzbj7&?K?@sv{Cm`b055`>OOV$`^|oT)-FL
zPrTlytTcYC5Jl-=*Wg~DQJ_V-y-5Mi%f{7Zl-^QY>^IjfrO#@#HReO|NW>(wCDcF1
z`3sFYwZt1c3GU8R#k@X0YL)V?OZsSgb#Zz$xQT#gi|-7o_AA6Km3+Rp7`@xyF=$c#
z;3fGqlF(3i<rD}I`XQRZ^DkP>R?ct5&yTmMNJ&$pqwVLL5F)ugbi?8UZ+k_+P#P&#
zYjR|Sz|8HyDi#^tfxA?I)aWby!W*d|ECVGzo2li^O=Z<A!&hnP>Aez{A+=nc3#J0M
zJp5jhi+YTnZh8rLo$LVTyIEXqU~)Kx=L2p-Vl+|188Y$75vP}uOlB?GIF9602TEyt
z*m<YN;(^&D8-$7B5Yt=Ei4t36ly{k~b-cQ8PYi<H()M&U*iy6ZWt|cTUpnt8ode5o
zV1c=uZuEwBiX6>+2TJmjW?>6SQ^Ob}T+^YF+o|DMh_338irDKHX#%A%8BQT7Ye)hx
z#5~-!H6I}LrtWBO@9bbil~XCQ7V>vxdmrYscna==T<L$H`9rb}#1P!RQM=OZ)aR`z
z+74_UZ5F+3wLX_Z45BY3_XX^G*%$Y&q4GjdKc@0&L+!bN<UR=8f8Z}g*qjorG2N(e
zGu*uMZ{3?NxZi{_HVQKfo0!Azt|%8*?BV%l<(w(9$t3sl&sw>2klX?Se5VimJ`cbI
zu+`cVZ{NNR`Ig==cupjmjw<OpkrhX!(TigR5~Tne)!wVrbM7?!4JP`uggBzM+Gms>
zmSH<Xy?mrde*D~wue$gvd3w>S>W^oKMlPEQ+{Xj-^rm)`u~T1lSgv#OO?qS(qI2UW
z8+eN|@ZC4#85*s}tQHxO*l89iv%e(t)s>iWzdLeF|H1RBI#$q5cdx;F9gL(hQ#uGa
z@N)iX4@)UCV?aj9|AomPct7#Ni8<Ic1AqTZzx}@Hv;7rU5-F5H<FK&WU=%9BSOey7
ze9nL3N3sOJmwp@0$=O!UOh5VgoN0y4d4KB?yWc^iE?z6Es!yx=HhpqCIJhCg=u~&8
zuZ*vfSYE{5Pr!#cwS#Rc)^G<Oe;BAaxFfLVnF(llK=Uh^yR#o)4jv&8Aiqg#I*clT
zKCtO-y(X;EZ+<Jn+AfxbeT1Uz^b6f;MVoAj-+_7aD$>l?n=n~iP&dRs!q{;XmyECX
zCZ}+{ve+K>JXuMvQe=R6W8$;ZkB!mTbF#!=2&m75BBmkEMB9t=4WoPigg4n{5;H^^
zxOo(XuxY}I=C^L^JRoe2ICY-KUoTk;E}os9{<Q77TA6tH?wH7=_;<5=Z^SqH7>&~E
z$JCv>hnj>v`1%@ep9=eC!jo%5QgUS!m4RtXEtYBBzP=jRxSRC(!QS<!D-fU0tfZh)
zE-fo*fN4(B>B8K0wx9jmY>q!DUoU!9@<<xOQ-%QT={`k7;$Jih`fnp8BS_!~>V(5%
z12A=LZEeY)K{q_Q4?bL{rRPd-3V^X1q8a|!81S)gQ|fojGQlz^WsI`{h-ZCSK5soz
zZZQJJaTF<Us0MaU9~b1Z`TL*4^nwV3khMQ;AW7_8(@Hn&fh-tYHp`#Fa`WRZ0-^|X
zK3Jz5sOGo^w`Zt1PM$r5K%<)}P}bu@^c^rmLJ64`H#cptTmZCW{a!5ey1p5l0nu*<
z(voHP%K-$K7Fe(NiN0yIeAX<KY+E`|3|hv*!O?|v9T<2o#?c$ma?sy}po7N`1|5`#
zq=>|Xve$R}1xc=w8r5WuH-|sl-h(HvSq>phg?Sku=f7+nN<jAGzc@rEeL}d0N0%<@
znHX|oq=T7i8c6>sBr=k|>%Q3i80IePhI?IHjSzWO5BXU_^tlgA^!=TX^Zl$=v)-=D
zqmK!ZJZGnQnF2ATE;bmJ{D#sk!+G6Z@C1d$gpTHDy`NvXa+>=1m&Yl*579?xcL%eb
zMM$pU(V@e!A{NP!UzOW7ld<28<Y1R+!EHv*`YPG$%z35Re|=QuJ0=kqH`ljPy}j+3
zG!?(ls{YIja{O2c&2IXU0tO1<L<z<I%)VFkLJ6c6!=r_d>+ar5?6#uHntu3|@x#xJ
zfPiU4^Z++eSKB>pyP0OnAsI;pjO+kjD|L&bx5(8Ib&hmlglD|IKHnOBQ<)fedDBqd
zU!LsOymk&S=Vjp9qjXe!6Lya-ODJL8Ir|b83Pmqxik?tg4rETROI#5!aQXXl6X(5u
z@9UB{MKU{63xQP?K_~h+6$;VRQtKBOmwC$*6TUcw7PIMsj}Jt7c>JAHUsl;mkL0^n
z+A14`5dXRRP~9A5rl8;%8CpyVvvl-^9(@xyODQjVgF$-Z>2WdiDTk|Yhz`CaKLPQ0
z@wit(Yp&Et?#g(IV*vb|NGf$i)Gm-&;XcG}mEiFs<qNxP=zqY+<hx1Ce>Wfc(CZXQ
z%jHDQX_ukoZ-gO5o3UgIJPVD1)Ia3rxg1FNkf(t^siaw>KZhYtJwSunR*S~BpKj|Y
zP=byvU_b9yO(SO}Xe{89vQO?WOYPQduGNV=lHnhNV&6Ng*%9&RJM<2DLHSLdth{Yn
z$(HhU&ogqr(KY9HQ8}5zz4SNf={X-`q_uO9*CZq;p;8IsE1u!Y*%+ijcR3UwV^){H
zR35;Fcc3Bm4tz~xYq@Y@iG_5tHJrdFEJd$thFV{}F;jwJ{T!keE*P(eRIWrk4j6w8
zTLq=+Ja#?Wo*T&eNLpm_{Yebue&Jy{+D9v3rw_$KH2=PMyng0i#j<zX>kTBTD52a2
ziJL)4E>ybGDdDWF%ZH+!&kLENFEsnKttHF)Qlc9M`(ULtOnXGjPy=cSHhTA2Si*~X
z^}nfFpb*63CzGwDKh{VQBvkQV&%dM3*X;W-3IF37yf~P2`+IxL5FUqJ5L3E%VN6_6
z^^f2Q4kHq_y)tchqLpKzaOfbT{?Q7m$VhU7h7mxe_|=J#N9Pqdg)9wy?g>X6h46G*
zkNuFNhn%4CeKJ(qr)B5FvMYWgmlM`qUiwlUgXt56fr;D;Orf){!3hfd0=jZ#BoA?Z
z2-)o>7%Wf=!Ps+WSj1?B3p_9rnkX}isz&U!!l6@`f3!4D!{7s{2Px|~ofjXZ(On1-
zmFhPF!BXP94bOP=r$2~6ChFru{<h5+(2Hrq;XJxm#B!jG&LOGd6IbSYeFdj_xfsT-
z<f-*H<@MYr%l<bTa*@vG4)D0!;*0yLPF{5)-U#&fX&=yiy1!-C%(q(~cPmX<YrCi-
z^nS<8Oa|I8QwTNlAMh}$U%e_bRZg^D6lt+t)Cr|QF}y=}+kslq4N`I;4xQm7Qh54?
z&pzGvyLl2Ph9H}48=nO~ch44ht`OKFko4!<7%3QNdUG2+9M+n$e)5bQ5Z=NSJGo_N
zz{-F@UBcaL0yZR5@cnS-jX;}sU%QlYO)5x8V9j#Yic8D!Nc*{CbA$sQQkC?(F4Mj(
z!$xyrb{ukfTpSg<nX|8H+Rm%}rL5YsI^P~3S5xpX8tg8<lCho>yJsNgD@IUcGs>9n
zvPpbJ&T&68)Xl0TK-z9QAeA?VL0O^BM-=nYYJwvuK8%PvW|)-sLxHlQq@M%qi*lYw
zydotk(qyWU3Z4Mnq}Hb@9<epfp6MuWF?b(^yO%q(1k=8MT#t`Un=dr6(#F$u^dr)P
zGQ}jVE4hC6QWH#1;p5@slilj)uh#7@&p4e?2ijilYK>H6iY}!$Oj{vUJ;|2mYd#t;
zR=wOPb5oFi-2ED&&)Z`~WMD#*2A-eM<5HyB?-|oia=3Ry7#L`h82`A~D64Y({lViP
zgiJ)h)$8PXx>`wZF86pY>V4n&Q6808I;WRgOFYwKO$ogXSLdbAZDvXwPCcA=L>!po
zq9;aMTXP`I-Wz<rJ;A`kkVe;}BxyJTj}m7v$!P|=anP*sl&!&1zy#-)zew*J`50&E
zu&PA&o;z<)^pPRD*TLD#I@wn2g0OPm@LAgSPl6S$;CJ*XA9xyoZw6HNZUSu3e&{tg
z7yYb-p^@}H&OhmT^4{b32GYNrqb1jjz{^-e%<QFpWVG|tNseDu;VyXs&)uZ?uEhyC
zH1|Hdl-pFrOVBJ8OewdcyOIr=LcapaSi|!{6GRpE<-@$6pJJgo%JU0W1>sVu-2Rv<
z<p}BwoZ{b_kIEcWrkW7K6z%cf>pg2FcIklC3kIRE?Q|6^c6JdT=2-FgIgNtW1rpHS
zz)hzF(^hNFXR5iF!we<B!8D1}cH_yHsPVe@G%i%vBkX69qQgv|ASeNYA4Dt{y#V*-
zgSQ1lb?t;S8Q#s4K?D@%kypbGseO|{5-ZZuQ7qS-LZLidhzF5u960eo+=Hg-=IEXz
z5{69<)bT-rvUk(bQ{2*XI-;ne76v6%f*7fO!_#uvNnMSnLX7^PqZBm+{W$|S00QW-
zQYO=2Rn2gF^^wZS%_HIMjw&l!@74F-^W>*(P@u#i6u5k+X<QecG$*e0Ye@5?+4DE(
z90t2eMWZlmclC)O7e@<t8b&+<aT=b$dp>4Ff{=aVU_|-NYK`!=VWVdVHaO6C#P`?3
zQ^<M|I?|=ExXt8AwC-{7B!^mKyT27c=V<M3GwS$uZmtf`!M^rIqV4|E`ld<n&1r{P
z)7RyRg%ZO+WqbR^TijvEw|cet3^MKOmKmDJdo~E~jX?bMPyLdg=<GB~+yYpIDp?hx
z$>+$)BNWPcmMUpqV$(VLw3iJe7biyhdkbitgSk;Cc(Me1e-*po-M0U*)V8-a=Wz2l
z7RRzhWK>cCQxmMUKWUZHgyB78>tR6P>?u&27D1kPD-)xYWgp7hyDp{IqVZPcp5mBK
zqRSt;P(xORRB{nFj%I91MXe5@8Yob3ZV9IG>hEO2k{}k%Pd=$BY$Aj>)qK6Ea+YRG
z(0=}w1go-1X|C~GEK(&u6@7!R=ucWeMfD`HtB%UJz2PA6#Vb+2&$$TC<Mjj~;gxr4
zN?<7vnpd3eEI6m{Z2LyF6kF?@5>>s}U5x3P2*gYg6MJm(Lwey&5}S!(3!S2@q4P=$
zOXP7o(Qb&9Qm?3WB4TOnQYW|N&(N>BqNJa(Fcdl&cD1>(#4_F;R#-R@{S|)A9EWwX
z`t$RP<-%8jAn>PqcDlF&-^Z7h9+&(zY^OOtcn4o&G+Vc<o=4+(94YL<bGtitx14z(
zSW_6?UQ&|p>SDL^j;`+R$tpZ)V$Lc=N}m4aVuZsnD9Cia(l{)#A-HKI_Vr)&QsoEt
ze&<_yo!1|4!TDI@mWSWUDV$*Omr5hSwp3Le=y=1F>vj4O@=dXEWe%Rq_4d?ZM`h?a
z<CS(IWJiDQc4{4NQ|XnPKd9KRaaw&<iHoIV<~HfI+=bL(e7xn1AB@#KLsaXM$Laix
zEV)M78fcR-7l9CgYFX#dU8nO~8fdqxuNSmb5PPePgh3Sfg2vp{A_(Ljk#`4MUk&;E
zJJMTn<i_)v?Pyd5KC0<gu!}A1|3a&4R^v!6h|WQhybyx%hIfJ1Rs$mMgoKahIhsu&
z5TR`R4kxD5=MFs$4WfIF))%b8M-M=gp$&%Jec0ikASZC<CJIr`tL3Vu$2&qo{mnA1
z0z%*^N%5tIVx&gBDIsjJjpV|yWC>|XlG^)pdlXHr+HIHSH8{Ape>HcMS|Po=E_$X$
zTFNCy&RKdYN=##99U+CE!f$l5Izb7RPL&{!@*d)FiKzaSzJHrCkSV3sWr!m_nL^@`
z9t6xDyulYxUhu)f3>IfVI$uTHFn4Ok;ID#svQdwkDoujp_hz~h!kTUYj;{2i2@?qZ
znS5D8F2HgA4CW4)aVAdvxLEfyL>(59$YLXFhw+vCby^F<In5e5SPt5!3V3k+e+Nh{
zn0K?FE-zzsT-DsT0CWmB|3U!v`^$|~*rGV4exM}`do-+h#N-s7ZPdVt09s<Wd!FBX
zunEY(nB&zl3%|(^LI#9<wxD=~)qviE_m^ns=SjUAyh;hqBEgjtMd_YQgI=yldxbGA
zf^?2QOxQVoCkHFt?XOfRyYxv;-`KsGGc(JptDOsvR7oBS!CG4EhuH*Z?Q|}SyN9WT
zfe&LleU9<&wc)|D&T*W%yF5XqhK$MGD+rngseL3uFSYdb_)V~0SbahLl+rm>S}bS`
z+oeiSO8r<XtguH|VGuQO6J&M|Lol1-h=a^fkGtRF7Rz=dZrtJz=hiJGenh>xLW)<7
zmz(epJ_!&DYB2_9a)px<!K$X9rx(@HF`n~DudY+Y>0AI)pFzI}&tHLSRAgj_=*86=
zWvOqxl57-F-=Vp1@#wZ&L~B|?YGJ?Mp#Dm=(>iXzOM%C*oR}Inym?dw(LHr(>9++2
z$JL8QAMa=8Erd$}N89JW8JYsTjp=7;{G4ho(w3_H<Iysa)68R$V^6~UP{QuJ800<h
zxR0oRNsnQ+PS*u)^(%Oe@zJAOyZ44r7Dzciqp$R4xYfys7=M*7SsUh<GO~3=%3*7Z
z4|o^f#HBRa?x7^K$?qDXhW1&&hF&+<#!ZZxH{qpChYa|7Z0Zm2hrYf3t#`l4_u6xL
zvAvof$#y#V&&oYft7qz77ow^I5Q;S{k$W3lVWkmvFCtk~xLdm2xHZM0rzeS94R$$3
z?7F?-5q(=zykEV~C%DbHCXoiLrv*?(q<F7)qiSXSq$Ih_!|%*ro{z-X7~@Awe`l>w
z&-<9d9mmD>4VPTr)itUaAMC+h$nNEIhCgoO&PdI0%DUD1=V$e%UdesIo?VKmzvE>k
z4&SiJ68(CkC^JgD+%baQZS2^}%5KRlef;RT)X6YbNU*dN7t*m*8Ane?DH!|93X`@e
zzQj-lO8JE|-q1`9Z^YQjvaXqY@e6L!p_yv#%^vnRb8#lZkOOsyPBUo~(A!KzliqQ#
zo33iJ{P}_3MxlMxBDUJL&Q8xGPhqG|#*<C2|IZj}Wa)3;auKdQvLs<NHgtkJ`uQ09
zDa4T>5%zI-iEC8PookH5SJM!!8*D-_@NMz`4^?Lsm1P%gVY;MKy1PrdySqaWl<t-e
zl}0+GySw|R8ziI~Dd}#`=8SW5E*&xkeDJ<|uQk`4&x(6_KK1wCj^Y8L-uDz!4iNY!
zfcvzbbgzPNw<q$Ns%KXTfi+i9RD{)xRf@R=QnrC93kSHCg%mHrd?~$qz-RL$=cveR
z+n*Ee``fdzAM41J#f1=sPAwNk1`Eo{-gdy5U2bH|X(idzJ|Q5D+vZaX(e9JV7`Wf0
zG5Ik0*sPG*`ESHE_!1UEQV6|s)UBzG2DXMo%_3u*=o+kM;6_KBTvOTW*Ws0I_yqAS
zm?i}IK)wKGB>-{|X-sW$NR<Y~q@IsKsh5{_$|lH98p0r3pg#Ual`=z$-Ye>$MuvBR
z&vQ{}H>mnqQOZr0ex%PP?FR#=a53>7`j#hU_kJpU5;Uoo=slSCW*$SJ<>)d+=zp+X
z5LFlwRiMMQ*o7IQIbt%;bmypA(BK+-Ax4shP{?^Mh9Y$C{A7!dGM0og{%y-B`Uf1l
zfvT81pt)e|n1`y8DaT<CZLq}wSIa>1g71-@{I+DkvWv5sxh2WtgCFD<lLJ&R_abGH
zH+%1|uMEwLqaoldPVoc6JAQgdqRNGcGhFGc5=?V7n!R=iQ3kpXSiJ`i%`(}(?kZF4
zL@lOlHw&d;ad&WP_c{&snd~g$UCkn}MVVTId*uf?7Vz5q%Y=4~^{^tD32tQfw-hPE
zk%9lKEB%mfIx*w?50knrQDXSfW<g9_Aw}>gh}~>}4GjQibn_R`y}o>mAF5{K;pJbj
zX_q<$_P_9Fj#)YuPF%TN2vg=x$IYO7+X%Ud&bFgF5_pZE^!9$3FGw{ri+VTsmj6BR
z%$prc@;S=0C%Z4=0Vl*3l^G%%waY-=!;m1m4Yj~Gvv9a-bC<7U&Vr5;KIAPxDS&~#
zN(-!=kE7Mh@J?29Z}dW@-M$YYNd@EFErIwVK4Ig`LWt!q=p#u#sPyCJUOP}=+uBnc
zlsmk1)7#4hDEOEO-_x8>Y2RF3QC%&zc{t=kYl~^iQ#in+X#K?QxdkqSO|-r~Ffk+h
zZo+tpBcC=HuDt(!A>}b?F&&O<xc<K<Wa!Nxqku4lP|NWVC34$|T<`4x6v3<w<l{k@
z^7T?DY|kpUe+xPvQ9d@a-G&#;;ej_;A!!HcEQ#3);V=@v<&Evta(hA|lt#GmDU#F|
zo89+oTnj4)FK@@EemaL!&-Ny%h&E8m8@DFllV+{v$q-eYOI&38zuw7=)tJRlb-%oX
z+F)-f?T}(8MC0e?A)JL_wLmGp$Y7gD68B2(p7N2fH+VQabO)Zx((^IuM3aEI*hKmY
z-tLy2@(JFha~AvuOVysDtlc%sahsRlCNGPFBL@QAe9_Al4l6^gUYrqD;)5cuf+X-K
zQ{+iv1H~RkvU&JsgS*BSh20?`w(_B2!`#P*a~K<jE+p&}IsqQ1FGUcSxMm8<33qjq
zTOb-ewA5h6b~rZX&mF8g!qN?zogI}RO$tF{EdF)>hW`-Q*lNOB&f{eVW4zfrfL_>R
z%l<WttmEb3pKSEA1gZS)5QAPVRSj$WI70P(p(sGNob$f`vyu~qXB)(}8W5;xc|XLG
zD*fH>77SxWOvZqwp}mpqQ`!2wJRhJ&EN+U5kD3Ikh)r4|86pIP?=4gcA5}5L)qQXV
zf!&x(h6o-5o`(ANXmO@BUr~lvmxQ5vRu;w~^0(~}VjxNd3GlVPAEid1fhuGf2*e|5
z!In)>(Xbi=pbfbX-xC%xOg9_c7&gwRzDhR%Q|xf_W|VFj@Uer$;~5ai^r9VDu^2CL
z8wWb8C-mF<<$}*8UwLyE!(H@2?-D!x1e1bIK!lENBJYT4qAv~?E~T?z4l-i46D8mA
zd%9~Qob(B7@jZd<NE2Cr(!|$4<jV$5`nn^b%e>HKxZu$YFc#J(8`N6{dQW-4g~StH
z#@mg5a~*?+Ec|<<cj<&YFv_cHl?gS*%W0aD3ceT!wfNqt8AHY&pcDsPY@x>1Bpu$f
z3@j3K)P5el=%P<wl$zfch#Lzq@Et=#MY#+X+8z1?w{=E@twS6WoEuyYg-n0*VgmU^
zcWiD|auDsFt?j);G!!ZwoI9BIB1gAC8UBQNa`<Gv)+xL@oVUYnzJ43R21MwkeiEVw
zr4+&=*COmfy`%;PADyFPQ*jQ?;|2(u8V#hn1mE#;8iozJY7!?}@D?wU|F43>4N0>?
z-aL8AK2a{m^yReu67@XGC;*6BHk~uFN8%7lJ2H3nzIdp*+K2{WG+~~hU5Hb9WcPKF
zVVJ<Wx~C#fNwdu??yeAkc!!WcpDJ1h4CXLtz?nshN_n$d`}tiBYYt(h4NMAmrXUuL
zVs<?kv&~i-J%VeBN*&6MCOVzn3{IKDeuWpx30EJ=@Q}i1&=ElbU>p`!1b64_@#poc
z$?jiYSZ~=C_KR_F-otjd(%W1gCa4#@c)>2n1^nV_@!pZOza7@AG)yS6AQ~CWf`qiX
zBN2{-UxID+zU8GlyE+hrX$JiSq;wIz|Jeo%CWbQC+pRr2>u(JC0gC8-iue7jA*5e5
zgjpSEqAjNLB^eDr*3l$BNe3*#ypy1`Iu3+BXt0*rPJhpF7(K4eajlML)T^nG7*4=R
z!%neftWWSE^ZU0Y()YMv(rLd0n{u(}4w8fK@SIsaG#u_P)R2Ggj+eAcZMq#w^4Jqe
z_~XA;vk_4yz8;igm>dE6159fe#0&&a(~2++tp%w_CI)7l-;FI8RmdfL`05(;+>|$l
zWAa5oS2rad0?RhX-yKpK^9*tqP9xMK)mf2k7w5<Kdtt(FCN{eN0UH4r=l#Guqjkze
zytCx#R4Y`(r`ZJ2qv}O4AY(Rcp0XY7+eY6os>g4u9xUHS`kV4te;;oZMu4$Cqf85V
zGL;i-6c9TN>@7Vqv(X<w(vx7Ftgu|WBJCcRRDE!l2p0HKq_Ne=^uJx03UD=m;R%rw
zD1cSu<Z^UT@n3kL6nzxy4q&;{9xJ0DetG-yA!0LXk1e0KL%7sCZy5aM43_?Y97R6j
zD99Xh$cwha>lzyP3|MjK`qA16-_MdYAYs!$(gSOBY<xNiLIc}~>@oln`n}Ht&Q(x!
z-niy?^JWuO+S0)_s9wND@(oFvFSDfg9=_{y0`J)YK|c+jU)`*aR1mUs0FV!@<f~y)
zG~(kSGz65W(TpT|7t*n?nVnj{^rOF#^FH;5r<;!*Lm!2L`BLhyf^lx2Li8`8Xel;B
zAU4QW^f^D-=#;8^x9wkgo}=tdVGB0+*Hw`5jDR~=ybG{BBlGUbxl`;}fEZ3%{nu;j
zU6Q3?*IdYSh4EXZLgfs3@*~%Y)}ar<-L4HVDdeAtA|W`L6p@p{1f{+eI`e-nN}(NN
zm)OU+PMgHzT>*1_VB+&Y0RBON4ilL7xV!Dog?e8welRdhm}g77Yzr~ME_0yK`+(^U
ztUv6XH+=AbBFTkPWGH`uN#+fj(~B=J3yn&qZPn+{?c2H3jvMS~nIt!NcKCO{sP<m7
zxj}285+OK#etzK!lVXw}`WnTvMz%(g;QEzgN@$Q(2owHwm#2%on}UlyTtQWwOTt8H
zL#kR_a23Q;L9}LBMAo>)nff=C+PnW48QFh-_>b#9(i}83yjaqg;c(dky8S^?f5kF7
zcaSdydJBcK6kMnS7;9sF;&#S##r$5Yh?$D<_w>KY=^4bdupC4dwH4qN%s!W#3sKtH
zRN12Hk$g}Pup;^9DRAO75Dta|fee7y@J@`Pt78!u#G{B(Ra;#v@5p=GJc_o>W(ujt
zv$A}46?c<A?h1z>B1*pQPAIV$^4>mnrx<`a>}W#R#ic?&mD#5ga$DZ~Du;`M8T<wP
zD&zAXXcpCcVb}i#Vc_?y2?q=+^tpP%-v3f4)Win2{nekc<X`YclBG_o<Pw-)Z=?NB
zJ63*(kPp}Azc~`P1qE&9N>@&){9n9Q{*I<DHx?u^;e!;|%Jo0J8;Hbt&EHK9PY(Ws
zYYjFaUzSQoEid9`Jx!Y>IlWk1yt3!*d!x4^Ln@X1R}&Z#^4q*m#wRVGz<-lvb$Ab=
zkPyWL<<{1RBNGb@Y>frOQIi$mM=$?!AySE2YvY+$1LN|EsT@Q?o?T&l!g~iGKeOlH
z^F@E8wV!9f9WJ8gi*}%lAxKnhc7*9TSr-9t5l_w3nun)LPis>=!`6g@O$?n}Nvh-j
zJZoHEVkeaEw<2KRqWmLYBk|>QYpmeTi8kGUi6wM(+@t@TbQf_3ZL}Xfv}GL2RmsmB
zPV4OK%wz!bmX<fuIGAc4B+3zoHB*Is`3*3bFrP13g2WIeoB|n40(QuwPk-mZU(Wcv
z?`!|$5{<{%FhzA)a0_s3z^9O#67?Q6ajUic&4CKwOl+jH6XWAibV(e1BWze{rb@HG
z$ilui9P^~gDjjI}TM#+EMM-p6Y!Fh4ls@p{x48Z&IU7)2B=Pw6-gA+%Ih9xF*7U4E
z=z-z|F0iL0q4SqoE_?e%_VxlfaqlL=-{wLeWnwUaN<zix`6N$dKf3^u5Aucc(m%$k
zN}P^dNZ53G-T6qklzJ^i_>_8qSI9757Nb?dd#dp*q>eE`=z8;7=do_8t$DC?_UhGj
z=C_x@xgCj72NmZ6r^XS70YeoA8JV36%^Pag9TJuw6iNYyj-!g~*@qAwVCCw{mOJ=c
zZ7_gO+`p?*X2jX!_5|*CFy~{-&D{LSl9r8-RYmKme%T-KcF-r6N!e@zu{#%0mUyOL
z!@m>YzM_x1USF7C{{!TSe6HWI(275i_cFaJMS)EoEin#J(c}VzdnKd3Ph3@HqEz%y
z<x%Fo;^-LWP;RZgStzu_`<dNn#^$}-v%FFbMXwn&kEe2=+lm84k(8KVWT}@JqLzP)
zj~OQ1!=P-KM@!+AFxV9r!5DJwhK%k2!SYw;1G_(X@{CpzU5fGk>4SUWVTdv&zcCyb
zq8SPA<2wukZ{Ogool|<58oE}w^a|8y4ntZELoB{bgg6w|YR!t-6%+VI_gs2;2E6i>
z9&~9Zl$s!|#NUui{VwNURs(9u=rGfqH>doTm0k}m3jqQLu7Jb3%cRgjug14Qg(0Bp
z$JblCGKS&V=#h8u{pUg4#(KU}OeT_LIm<6ZpUh&{z#dDQb<LQRWf|>`p@KLA^AZO8
z!f}C>SU&XkUZq$Tv0w!Eqi+4d5_9KMa%@)drb>Hz&;^#weOU4<$Av~h`B20C<nXHv
z$>P>K3Hgq8DwmbR3lY(P#TNTj{xgIv!PlotvFW&9X%IpH>INs7%@aVMjrJb?I~3P>
z9C<33U)3iV7n|$C?*oS9#^w)F)SrQRXXw=kAtk71J$`fhyGZe3;k<D5D69h%W!S;*
zAhnyv??J561?CVopqr*Tvvi2B8@^iH%8@+59moJdG1<D^4?y@LCJ64=;xX-k!3nG;
zE4*|{;Tuk(I@qHA#l`AJc=Pa2WU!A$@ouMfRJgy~zV+Z;!gYp6I3g_#pNBm=zH#%}
z==rwDfb;9WuFlrGEfreDJI~=b)|&O)EqIvz-ne*L|3h)X`<lVdm%D8g&x`v#|F8eS
zW^Mgs)bSItnl38d4MxLd73KasViC&K8rr9veit^wW-7Jn_n16%tY_hi>|*S>NqeZ&
z`03%|YDPpX`1N6aYc-}?Rr7|`|9-dgu~S^8Na+!|W^BSzq8U84p2I9Fchd?H3Il$z
z7J~82Iv=0!ZK`~KVCHST6bwAwe>8L+F1kBBoclO4PTdTmw*Tg?UmginR~}DUg)jH>
zL_S?i7xcH`7P#Fjqqv(+7<wExWKE`B-%H{7^1B}mDn_JEJNB%4_!qP$RH>&_VS8Q-
z|7&@d>i>LwYB<D2qFc9XW0+ia+OnsRW6GPU=mk5Grqy0D9mV6fnfEh6pMp~z79L`s
zR8f**m<Sv7Jao|`j`<rCrojanM7NM^2m2z6)=RdoEX{<=Zz;U{t)lEIQs1lJAi@#x
zYDo}>($I^~g`{&YhXbtFeO6kr!fH@)8=ge07JqVy2HMhzPI=^QsV!Z(685-&SF)v1
z?)B)B-Us?);=qe_*U=}Awlgkm)f95NanK62_;qxz2HKjuLkhzQ+i6eY;J|p;7K9)o
zDTuOEwf3lxKgga2eibt&q#~cAz>r5P)!B%zb-R{ML<KC8{DMhw?rYg{{C{NFxz!cb
zko@m9f4IT&!y5(e#&AgKbmM*o#$k02F_fa!um38DNC;(|bQBX%HvN~7>fc?<9wkCo
z_G9wN%aF5xABB&fxfy}YOsj}ai}H)LWK((o(ZfW%C7V)uHkw)nODG`jy3OPq{Q0C9
zH&GHr81F$Z1%ozkaR_}Kj`|QWE0y3IOa4_{Z?HFqyuqxUC6pa{yRGMZ0gU|=*j~)r
z7KW)GWJC_kkJKddKiR_l6JL^N*i+a@Im>lKorNAX;J%QM)R<#QkadaA2nXYH1@;b#
zrjX+&+(wsJOXrMCPTKu-zencD;@=t6)?vz8_u}Q&s4XmuNpj@u=EwD*h$)@7`v#@X
zB7i_|Jh3OC*LUVAqdzc`r2Fvea&;(L=w@Nu$iXV2KT5?tQ4)??>Jjtgh!YBLKwvYq
z&X0Uk>%sOM;?!ff><&<{!?=gHvnTfY@ji}KW~e1q>mM;Ve}R<>JRfjAK@$<nXQ6f>
zdDc-~5v!N9Dyb-#xoaSM84gr;7G>t|s3>?!4%-3a$_uI5^ZZh)L?vi=w?{seS_Zmv
z+*Zts9j!6ukxKMfBpsVZe#Xq0Ov%9689wv9_XED+arUuRKk^0u?yx`h$h<c^V%8TB
zot@WG@zQiN&+t&A1{#F*@Ly)kn|@#Mid26c)kkRx@xKV63Hi$L$5-Syxl<|Wr*5+B
z2Q}YKcKy$7&wx6s;p1WtgM%GgkPqczh~3oa%w3i32zz~zJmBs$&(CW(w|HfcRj!)i
z+iK(#7TC+xp^)ehzsmAv+>6tbVVv;V{D!v@od+vbI&~Ire%ZsTwAPt?bY7Ah!`asP
zj?tyjRy?ZAkP)3P=YF25TWWY=c0Im>0<kEW2r>zB3!64ShObWN8!z)Rbw{kNFyc3n
zRD={*76}Iy&2Iyg_3ca{m2of=9;)P@j@o+M#@DIKhMJQRs{QkPzjNf2{%q^3VlSC)
zASf-{%8tzGVxW>73r6|3^YipUtR#Nsn(T)qA!cYbu~VN6Jn55Il`$zY$<ro%QTZS<
zu_P=psqj;tTHc?cb>C>g+B*THJ)-1ClV8yAex5_*q`aZ+8BPPVlrohb(UXX@<sv7|
zr>uN0ch|x)#9B|jeW6>qTST;NhXD3@ch(#6Ds<j=ZB4|vYxbAa`{?$Xf!0+u;W9>`
zve{=H$OBcas=YsUE2BQ;xx=UrV~=LW%rL~$SgU2|6FIHi=17QKX-t`sCb!*8N%*_6
z2^VEZcaR>+i&*nr&yr4DWk6voaBGfci}f$ds||E1Z=m3*Z{KZqdAyUM&tmTVjw2w6
z=vVLy;@;zMb`pp~rvh!Vi9?EuIC4_?8dSfS!tv&}eZny4$z7%&1M}l@Cwu@ff4egE
z7@NYuP2ID~TtR?FN(zUn@Okjw36K7|ayPqDn=eh&yn$1JA)PrY@I{NY|0R~mREmcS
zQ?Exi8%w9)SdI0_S*bg9(dk2fp^*hwR`LGxj@G@U<*Oo90wMy=cMV<xDTeTH0eE8F
zSUbbnsg+uue4>8!`LKTP;S04+oAyfQ!r;!wTwM>Q?*efhX5Z-68=OQUsNs67(#Ld3
z+<PNVf-+5YG%-9G1<#Zza^%uP{G$Aj7o--dd9ew|C7){jOlqesQ^vzp15_mW_;W)|
z=+2C5$y9xGj1GMUf6oK|tr?kN=@>-$i}WoaR@_WCdz6Iur3&VGe0<5C$&Qb{n(OYY
zY96wTJv3AywRv8*`^$MeE6Z4m#i)>;WGWrs6TV1TGG+NhuH6B_l(w{Qg6zbxyIJjb
zy~AGKTqGGwg?PYe8pPg@Lp<Xg21DZQZ*wc8@}ZBb?1MyaD5qJ4>KCEgl}qE=>~2;j
z2dZDRgG`ak=rzJSKP3jDi5ZtQ*gR&Gc-)Q_oB+M=uei_ZHh`>?cy0tbPnKt|07&=J
zM$+%b+MTz0%e?i!xi4WMM}Xy4oCjM_!s~Hj_!8FeR~-XNFV<K0M#Eg9_GKUBm7Oi!
zqb)ZuPy4V`-incyz06<2(Fv)*=WPr&2#|Om)vVYskP&!-LhdR=?`yVVh8%%q)aR*e
zv6>UnXiEan<=d~dx7agh=Bt_kCKPSDV-Lui<jo<}*nns?P<2n^mHFv2Dyhj!o&l-+
zfHYMIgMkGwJx_s2KU&*gg@#YO$bgY6M);xFKmv7q0wX7u6NI9+k(jwUg4tfD6<Fu?
zNxtsqkbYDn$4CRgF8Lu_hj^?sbo-dSNBVwe4S~xsPNRw5H&?>tqHlO6$hb~lQSiS|
zU;sC^lU(B%lKdF!F8~Bbm5Wyc<?<58gr2&2Tic%hp0D`f2iJZa9ZTYA#oAT>*JmqM
z5Af0X_jfyCeUq27u;<Fmi;8flm6cr-Y0A#y6j<oJ-o^g}9=RD&x*MQIv>wPNf~*C@
zS>v*O#3gm)K<-@VJkTNDX8#}TOx;`}D-=KIe1eSj)MN7gzd}(Wz@KK*mj_O$lVtCt
z?bNv1B+zyKykMrdQAw|{+*7T9GWxFi?0(L7Am)`9m;CV-`<64~4Zmet{-h%GuC~7x
z*w=LzCVfM**aOQdTMy3%N!NqC&82qQ%%3Vi)_~&I-)Y$UetUB%L|lLHaW=kGn}Dj=
z(XO6#f84_nr72KgMn-3!B?Lv^PVvt-DAz&&Y1$RnIUoz(HlcRh<@!0As=nVV`4W3H
zi7cL&sL6}wt66G(T}bJDj?9>uz?ZA|@sp9O<4uJ*wH>@xvhc=`hC=AfdzR(87*Bc3
zjjPSrF8a(oT8|O}g~-{}pNfe^_ugS4n`b;_y%g)v1Lt1)Ch5DUpj`l50k)xwREx|o
z_>*<2HoJZeaCoZxS$^mHhxQkyjHP%1(Q8PYQ~`#GMdvT3?c{Ynso~O7N7SoSyI<6Z
z)dP=9HdSC`x(`+!C?jTSZiaZCe7unR#9)db5}NE>j6In%B@Tm$kOT)=hMlX3dS3P^
zBNCd7lQzqT;|k0M%fQM9wuSzI5C}6pJ*X!o4&;9qf+Hab@&SCzyD@!TKe_JwKzXe$
zpyd5^8W-nwhPi146U_%it^5{De{d^E7PYd+!jpJr13b?8#5=z`00nwcgwag^Uf?}h
z{tm{>no_z<zumxcj;Ckyv4PaiwsgLi0+40T)1mRkl6D?xLQpa{K_=rn?uJHN0oSC{
zudCrS@t+hq|M^UZQ*e<|E!!8tD<rBTvSDqBd8HNDy6%EA0=igc?nP)b1j|)Jyl_UA
z^u{XYX&t1&KoH<kz1ed64^8)UaMjkiwyJ7_3^rZTu1d*;Rc&hpYKTIf3yq-=;2%&%
z^L_%nO26<*2Qba}uw--vjc^Ed0eBrZ%pVr6sHSJB|A~XSYcp@=jj|%4PlT9}rxhLM
zipSUh*7HM>JSzvq6TI1NK*WDkfL@i_p@ksR0`I*CD05-C-?j>D`~)JSyp@t%do9d+
z>NR~B-lZc}$KK~;if)c0@Ou(I2S<+3wdU#x_q<`AkVA!xfJoNUWfmc55tc17?+f4F
zfIpSb?#~a-XCqyu`;VDGM``K+xC1L2$W9j(h9MQ)rd*JLX*q8uZ@~dBP52-tx3qO_
z4B|pUw(8<m>=Nw!eZ2Nq9O^QI-Ur|-`wnF)3Bhh}{(j?gvXT1)-(G;yAhE~FyAz^y
zzjx77^6ft%?a)nn{7gX_$Of7bNYRdIe~@CJ@b_1021y7XDIr7wQlQ4WK!C=a4`i_B
zcT3|o%p6hfA)RJ9fUTQzQV^>W>PS>bbMLGdO^1UEt$7T{QU=8Udzao0ww%zzd{PhQ
zkRkQuG7x=w-|;aymTc~-$O0IrvU^=Oa*I7*+m|6+?GdSNm1=d8q#=bgAOxOS7SVdN
ziZa{@Xf|Zi5nYWP|AXbqhrmhzOQvd<QXeY8>Wuab#Z35dBU!orT+t`!RK5yOV27@N
zdj)z`d;qx%$O1L0$$h&E39RzkgD_R!;9779*o+VpkYA@v?P|R>QlJZV$_u}@4g55D
zIiHIf)*cr6dL_DCI|wis0U`M?-;a?5w<9?hFwsU05sd$d5+y)G{976`-qLeIkKST=
zsFvD~4eSCdA}Xcuz#N1ea;m8M0ceIBqQ(S(Z$E!d$coq@*>9T0<G_O7ql3Lc3Y$w|
zWkklUl<@Sm*4CROCs<jobs#;~6Zs0bNvAoDPaGwOYdZ6gRR;g?rZ$31ECBe0i6Zza
z62?}Fw&N1R=t^g}{n3Le;wprUr$5)=ZBVoHdNeCwpjtxs!2~QPFMo~0t;CiZp28AB
zy@XH)Mm<yn&m}+HYdF1m+KaOMS`~#4i}OO{#I08`!Pq4!cbklM(7A%+jnh8Q_L(e8
zHF(p0@ggw!DS^6M$I$5;%Nv--%IJwE^{?Fr1qGZOC+1g4QtH6qVM_f7TxNN_`ae`t
z;@c*w#LUW%b3sA*ux73+U7!Q_Z*V^q)1*fPsxL(GFHR!(-ug?EU}+1nePYssI;^$8
z@BOV%xUKAcOQizgu<V$Xq^6>D=kPv9#2;PBM<nYYR}dMy>ud!8R9gixpR?g8tREH_
z<A_J|>L^}t(iWs@=?-9?eyujCkI<8jgi9yLG;1RC=?nLDy()hAH7n@QdQf;9hr-I6
zY6MT}Q~i|FV(1+GeH(SUNQIO*Ba13>LSrZa+R9{>9`esGV)q5pG3@LVd^|1AkU({h
z(M%;aCFX-VL=VVHtbZRjzPBl%n^YKWx4YSdl8Egdh?x_jZ$xK$ON%wKJ7GDSt!>>q
z!`^3M`f_a`M74PRyMs#J$<+Lr#Y7mVBkuV=;%uJy+=AHFqc^&LSPMS!rQGegHGhS0
zQ5*Z2{8i%kCsF`vIs8)dVQCq7a$u<bW3hLvqVjeUxm|GqMZv$7mbzj)S?Lh6_a35_
z$TwfFe#`ttvxOvt+`6OXb(<1{Xa3kp#1Q1U)Z`Gevtd><<TI>Yj&ud*WA4YaP`LAW
z(x!46RU*!ipeE2>CXtOy7u=)~CXAjk3fX28pHZ3p1dYlIp)|Lbmrw(3h%jS_s`I-V
zkZ<|^NnSwQT}xj$d#m-drF8SL)h|60goV$JX9_L<jrLC-0vn=Gmd~Nf!07z&ozBMF
zC<P8hOj<cwsbw|nNxlX&l^j3(>$z3m*g4h2p-{zdJ17h#m*3lHaeqf#e4G$PhLQUP
z;ELc7Mihps9oZz60TPAhn%7=Ooz-LnsPA+N76(yS-ay>th;fDRE<0sAN-WXGz`==>
zCZRbfLLX(0y5<Z_Y)v4rXLN23siY3O5uJy`Z>EqjKW?Qf4*>CG4#|ClEWhU@&Wcgn
zQqrB_0?{=lG_ymYO(+!bRog)IkWMPmNr-ir*;z)Kn-0q2(LLQJk(e{Vt$Z~ffT8Cy
z*KbFp;35htg7nsH>J#AAlTr`;ZS)slOG)l?ra|<8sK~K>Lp4E?oVt4qLw-K!ZUxw5
zc{A+HvkPVHcB(Z!5*eM<FY>w6jqX5aOUQ!ZrBDMnIO(2SVLn5fpg?;tnK@b4bE?%g
z1g0ih%g<?>C_F3OSt%mI5-!R>p`kUS;7SGq+B)Dq52Ax61;rskYGZKDXGFF{^M>8j
zZ>A6EHSv?3`S5RVsa@-bAB8_q$&D=YSuvrRbZRR_CoZdlbI8q}6;eStsh$}xq7c&4
zd<y^q*L-?VOl{biMS(jQN-Am><Q;idt1%)k%}Z{H?CwfJM(|3_i~~=v#-G+la`OY(
zasa{tToY3^P8@{W1td{M7gL701N%*#IyODbbGa6y{CbzkUnpgw6?L={-WNACrn~p(
z*AES}mOAA#f#8xuh-eq~%kO<Ibm9cUBxBUedBv4?R4s~mIVYi|4~}Z_xl9*TFEW%$
zG8YGVn=p`TDMw1n03dNJ`)Nv^X<E#A&PvAMCS*vfQp-WmIWEg5SLF`YzIho2@{eFN
z??q_ucQj)6v7bGA>xV82za?64_H*OEeQ=)1C4;4x6>G$&zm;yBgPmyJ3TLd%dp^?!
z8KvwfqO?PV2Lc%0Xwd;)QGR;}H^`Nm8(!Vu7_s6FVhALp-n?oICJ=H(`(kAgN}0`f
z1uX^H;HVOL{hxF<DH-ZQe`&m!nF%);B7s68j1&5YY>`GTiS8}((GGmbN4hYnyjayG
zKvdU^3oq({LBP@YruWh7Z(>Rfk;o?VnJc;pQ;>n>#E&;n{`|Qp`UWt$v}YptMO64c
zU(dG(ij9M8`xJ9C(PwqIF8QLaUGnZJ(}xpw%ONWy8Or+~F46pl#p&~xwOh0WVu1(E
z@^WIi6TI7zt~FOHSqeiS8jzAj-Hkj5$Brwgy&+G0h6d#`LSNLLgnY3LeI7^UiF9s8
zvsg;~zU;Hr2m_?eK+j-G_2ue{OY>LlDNJ;t%SA(NED3}ClghS}a3eAjOleD1SbOuH
z=iBwF`=M#xEX23FIy;M*N+F;CDT9#Pnu?Fzt_12fc|^P^{47TrTqiGyg41yHTRZ9{
zI_Mi}dD3!Ua>5FTwquLGQ}P&(+8PwITO&-fS}2RjK^d0PC6U$#jeq7&FH9ug12wZZ
zxCf}?65ergOGE{k1w+`RfK>#%*RvY13IbdH7_+&)E#S%eTVXF*q;|-5^e65;vjSrE
ztX35PH}0x}yiy$|j3-EngB)r89{}9*v=|6MSfX(F+IVG-A|pa?&4;4xy;%TaYXAt&
zHc90|5;4zr*`;Hsp1|sp)(y0KEwG&+11*x6vimC<yA~PNd(7=h>zo$c*td_Y=Q~WD
z9IA8G3YK%-&Ll+*?BO+`A#S`}zgux^LWC-(N9Eo62^o({;A!{c?XjHkmu@3CzP0+D
z`wcho7w+3*iBvl-+rm>@!BT)}Qrtv!M3)HB%R>)2fNA=50rjw-ADuG<<+=ASI@}$w
z+;h`WQ|U863LoUhSGHe_EY?{(=2nq_RXZT12#@@J3b2P4?8PZuy&3fq-Uo?!t3w?*
z!_<PI(G|YXS1yFV(J_S#dpD7)+?EWLK?B)a1<F$>_a7FS(g;9ZPiDaO1Do0ck<C}t
z70xfVJ!DKbffC^i#I<82JDzWr(~<2YLIR8c1pv}%0o4(nR02|FYln{XPzjL@!F$DN
zumI-0L*%IxA_Oe|8w&hk4-~#EiE|;L?=I^UJM;S(tIo=Fs|;H>Zuc<N;~?M*(a^G`
z3p&YgVcr)+>P2^M*T2dpAu}aHL_lHw3c3TGW^0ZDvI#*i-_u#|jM0n&QvVcZNW1x;
zzZi`sOwFka$MrMHmS>=%hMpSq&TLwBH&DBnun=4dRT!b}-ugx;d%ED^0!U>3iZ?@J
znOQjJxqO{zw8mcfRFK+jDe`85H%E1oEZ2}S=q8BWx;f`UJ({?X(p2{C=L1AgdSXyd
zMjXB#E)p6EwmLb4d|RQE?#p&fAiAKO%0X?YuNeek!$DD8f@_y%{Li6XDct6OQNPia
z-dZouIb<^d`D@anK|j?G2pc?)HLs%YB6dq$e5!|iA!Oa5&!83SZsLb8!7Ran;eG6r
z!HPhoT8`4tjW^u|yKFAHE<~}&9hFJq3`?6wlma=xbqIFeG<?=9|3*K~Wug2C&ZEAb
z^H8Z47~RZKd?OoIUk>fiWM+dTArVFcB7$SJwL?GuK*Ey`5&<#C0{eg5C9*8F?w$;M
zQGN5h{*nlAgFDLNek2GxpA2@f@PA7ZJl<<ijlwy0t<~dW#v%UKXJAZD7^ej9sH}=f
z1Q`+BNbUv<M8Sbu2!%gZb7r#FKm#xX!g%en!v>-Ob3vEcr05KH?`<%GEjN@6BOVy6
zffFD!i8A{=0~ALoYPKyPrU`(M=cQU63x1A4BzIsO9g5#CWo;&U#b_NA`~|QRYX5cB
z+yQM6e;U~1A|Ecz|6}8VevrKW&DLK?*^QdpM-S<@6-N7Wj?lhYtOlKLCj--jCJ(py
zXAf~8WvumKO|lyMWFwu}CAvBPN9?wMRg8&Qk^7cD(EFlmDt4}TH7dR}I}^ZfhFQ5G
z_h;30MhQ|PQ3T{!kT6a9jH|)=nQ_o^@m&J!uIp2I-9%5PZeOb-DiqWB9Rmt3>I?{v
zHNJHirQoE~{9xn)Ly<hak}3SLIMgS(9f^?z(+cb@$t5*N9v%a<8im>GVPT&%m4{tB
zRLH`1cQLyFV~Gt?c5%2ZU*{Fkz=;^s4t1%X4cR55)?#(o&t?~$?0b&oa5y<)v{W(J
z6$p?dfIRf^<pQs=7mKBNBj`5Xh{{K7A%qeo>I^K)Y4_4Qxzeg_tt#(kTYo*L(c;T(
zaHba-)Tju52Sv{X>`2Mt3rrO|F_I57izDO<*@Z>c`R@*-VEIh#YbVo-oxWX}=>wDu
zgHENQmJ(%Cv{F#cc}~J;WtWy%4upfMR(8qW`Zz^5f07J|SBTUJ0^mu<VCb(x{awVt
zx{knvVoG)#at#lW*UH(ROZ$`+B&arZB8jdtamiGu`5RGV>{x=;SDK=xgz8m+{MtHE
zhS)7(sxKiv4kjh@fj=;GEisOQT3SD<^3B(iW}G=p+-hi)TgmNvninK4M-5yK|L~eO
zU-%KuHU<q)zt;C}Br<<5AAUY4@=xG1*BT8^5HxpFNb4J<mSA)oM$6)^*caKa!9@aJ
zLF?10WA&N-;qKsZvNUq3jFYyU;pJK;8Jm<|`}&cUx^%f#g-+Ev5Ei({g0OdV$p5Yl
zHMWuw$`CohOxyqn0Q^Mf2QNJyfuFGCrjj6h{|yf?iI8Ilv7X;!edqqocLqxq+ysY4
zQV!E?50)#1Qb2*QiztlTCb(*-^#5JNQH^6ro`4gu^Q85k;oA!<t{na?6@B$`LI5pO
z!VJvPi9(Q?_lgm*XiRe0HDRYjm3h`Y^PH{!lppK}Zj*Gs0p)`l6S>>r?!?CeSSg|w
z7|-&|yLf<C6xf+KiBe%AAnB>#O@O?PwQ04>iAyB~v8MEaa2vAw1V}^!$#=Mb@{nQ%
zp8ljxpP?obe&o`#nE1JBzLC_eAgeY8S=J3dPz;#Qmj=>2r#<}Ok*7{4zXE}A)P~V-
z7YLDG&Dgq_UeEZxOH=DP?WS6Y-xLc=Y-|8kAQnEr2)kgGzEdm!ya+HtGe2%&2)xzs
zPHTKe66iPF6tf1<9p6?==93xU<^RC+Yz8^aqY*3{`RSj@BSzb_GNO+3DCWV}=Qs3u
znO_g-QzcBtqO=c!L?vfL2c|za6(D6<j)F!QSN=@G^2`DyWSFi#Kkh8+%Z>LW#@aGi
z?l;@n65muJuae#cuD9akQZ>Cr7BB58<0y#1X^n!)a7>tHP_8B<OzV>l;HV68vFLpT
z6Csw5or2Sm$3V9Y5|l%%p3w}v1ccd<Vb`I$8(m(kS4CQGO;wnns1**YX{uCKMS@z&
z3vH}y&QFn&rmp%m+9mAMlCO@3B}HH6rRIHL&Ouo;!im+#2N)oOQVJPm=`x<v)D)HX
zfFEG{Ul44mHo@mBTkF|16_MvF^{iDG$mk-$p@^fzo!=thB2@plCoUDXF<@@p!4>aE
z52;;v0-Bk|Hwyz%L;;GQrkFH{O5t4^UVUll`kTm#`TL5hjwpN0VwmCfVlMz1^(U>9
zfNU1JTFUDThS7&sG0PqhrH%9s(floUF)2rzk#80&0_5A#%aDDrXmTA$zIytH5+Q=Q
zD(>47?Qa)EqjCU7el({w51(6BE9H$PuXUBXhRsb|)xj?N<b^Q&`dabv4#7*(6aC|V
zTl|K`W#{ydT>MrJq#yOOnm(RNp{TXR(e4?ywSG?Kb0dsdD_XQlRH)dW`jJN3o`0T$
z#^bU3p9dHJPFGrzJf4e)jlNq~iQnU>O+!obLm-~ksf)$-6|G`h@0C7rRk_;~x0}IB
z%g8N%%v#(1K_ao*?`$0AC6x-VjeP4LD>GCq_|5HJk5=4mhB^-2(Bn%gRf}Hk8G(%Y
zJAay`vLuo|Sn(8mnS@1=C(t76eygthaMVwtY|Gw7zCX1CKmkr^8B)KyP2C$BA$a@&
z>*xh46W4Occeug7x`l=?NAJ5A=}@@xL`7-Iegm5bWPOf$HgfURipwOVHR-GF6vP<;
z&-V&|G=v`lWi(86H;pI44BVsW9E4XlbsRE@saTBQ1p*ARy9V<6prdni?Y?S>lAsX=
z6fJGDZ~~VQ_--56o|(?RLYbitim9y>e}dpd&)s<mH*6Mbsr^QEAy7-qmO%XGzZfzS
zTgdT1apSFNAfWK?|21&v=zsNtf;YoqDUP-B<ZvFv3H<n*&3L4<6z_8>0kv5y!6iBa
zNpMlkNv)zXtZ0a^sibu>w;_`OOY45_EKUtB7p&^DKb1lArCfP(JeCawS0s)`pNVDd
zU%7`;Hs|P@JS{MlkK~Hi1SB#)>zVI#QonSQ_AjZ{cS%Jg107p{^k{d&7)}0Ea_AZ=
zM|P%eAClRUF-(7pRlAT*^YS@V9^?9K5_FaHWbAhz%^NU|DG(IXvnV4I2LKUnH%c(o
zu(X(fc;vfuU7R5A05}&*kC^~j7Oc#BN+L`FZKvR3)Z30^X}oXJIzNTgG2~z0u%7;?
zABthrq8k9*wjFf_Yo+)rDCoR~Dn1mD13)J=n%o3sdP&5_+!^^eecoPJDK~sa{Fzk_
z=u^AN&1M3RW|}Ord~echDxJjj)ac~hWr9gCCdP@s<j2_b^P|8}jOf%TrV*U;w5wIU
z=lofh`}<%J#MCH}7E0_neH+AT(gX*Q;;T6ZhaVIVk}L5FUS}QhuQ@~}Im~LM?$Zp0
z=ZzUCE=bq^jP%s}j#n_^`Nqa~Y^Qr%lu&+1afQ>`top`z%BA#gmVLymQWco2LtKln
zYpU}o3rE<~2p;b0M)CMX)BQtuw!A-t!P{dg$NDtG24%UzI?L$Bwn=Dr(F4n3nIX%b
zXI4U~ZB3O`q>AK8H$q>+W4Yk`lupBJs&ek(xb_j!znIT;KC|fqotN{3MR)MHHF4u|
zrroQk*HhyTVyJJt$jS1*Ki{88E&rJ87~8Ryv3q{LZ*P5lR?1khHT+v>cDvekiE8OM
zGT_Z@tJ^R+QEGEjG}6|vVt*PfFiTW#6BU?vb65}UUs`#(s#J<rTrZKaek9@~GCNQG
z{8DChEy2irzb#yNWUvSU5da}4DW=(h$5YB)tlk^z&8J>F&3t#&RaG*b7QNhL{{L@X
z-#})F89~kyblPT%ff(32X18KCnEIgOiv)bA@P6zqFgHY?R{IEZ+VhTe47xL;aLu*H
zLJ#w@vW9z#v_!+1L=db$I2?P<3E{n5-sxWgUoU%@6`pR0VS1Y3u||(pH{?AEb1MF^
zuBH<xZO!l4H+;V7Oc7Flo2wirP0Nz|Kr_=dsx(x)^Gou=<^?#EG97ymbys$y?X?W6
zJ+4@3x!#WNVcM+7Es7)qqBJ|D4^*s93F)5dmCfi<r(o)Mb;sHA2^8q;(0q)*SjL80
z5`1CPQc`O-(iCQ!IwM)S;@MAhktyUo;B&E(#Yk59@TOa^K$6rJYPHdGdn~`+7N3gE
z&mPz1vlr@n+>s=vy_^KRD<ghzycG8MaN@1AO~S*o&rx(je#=Fl37u{@ciLIFU_0M(
zjoJc|+l5-|ZG_w29riZ+ibwWSc_IW0f_Kpa3>SD=k`-vi)5ZU;uUjX}L^g81=*bI$
z5{d3JyLY;J-Cz)0LW##wCIZ#x@8$N~XR*6N4pxp+4Q}4751mghqiHvCvl;|FEjAIy
zrB_Rfhzm4H%g==mMwMm%U=psuAwQ4bIhc9eG-x6)UT#!!@9q}8BIKto+eG+Jt?h1|
zNWQ&L3mn(C0_Mp#8aDhElkUs&0$(Q+OdEwAx`dYP{k!w6nQ1gjW<Lq+)a?bq3GMRm
zp5-1Urr8Y^tlF1%IW%RwWUaqc2`$-Ac1UP937T8Q`?j5GzTOFWul=cZp3FETs%fKK
zB<O8g?P*f@g{({@>?rjvT4+CwpNaTP^)f|xd=q}W<X2{)<F)p`CWRl2Hh%>_)1hy?
zbv|84KoPoOB?E!7B|zYodC~=R;W&Sy(>-*E{WkNau@%w}8UXGp4Cs(R8U)5^{AoIm
zpz|v6=D%%{e!2buk08YU#msk%eX#r1BEt>$Q~F-XU{}l87-)006IWN(8{<|$&j@C;
zBZ%W*;N|fjEZ!KfB)aSwy(%E>u`1=y_K!7%3*Ic4fdgwuI&j5vJ1W`uYl*SbXd&~H
zK<E^cK_l|x_~o=r%f*|fU<4JZH^*<=)WLre@KR7-a@+IWyZ&BcJg3bx5k-07T~W{9
zrwZRY`+eMjP^3QsUt+AG8MOX=M2wQ;z?c}wyIreVXW{;Fq+f75p@p{A(u>njy;x6S
z+p;O=%~*Z>nL9zlOqCk;WZ7=;%Qj=))Pa>)!0o>_m#S|l+Xyu6z7^~Bym?4z^FBU*
z51|>gMC#SAArpUgK%#xHaj}Xb2zJ*}PBa!Mx%EhV?J_d3pWmH6G}`@R=ef1!L?gjw
ztaUo`d2s#o*58`6#rt{tW~Fk(Kl}N(Xf9WfUq03P*`tKra~?H$eq=(f5DnS}bumiV
zw%ld*1j$LR=3f#|6`$vPsjs`(SA$F~w_E6!DR<|nW+aKVqJPopj#EdiDSH!9er;yY
z>wknl-GbMKB^kn_twi{`*r?-`rBr$s&9~X>-({H=X>(cd<MnF6VirSQr)#l5J1@*o
z%S>~Vr}6D^RO!`P38-<JsSLgZLg0b+_+INxp9!*M4$Kl(!JQg;Hog38R*Unti#q&4
z+g$UER(%9%gjHiS32~Jz9Nc4`Wq1BApUtG5{U4j~gzxwBVqS{GHGXOW&v!gPGVA1v
z&=28`g6ZI@J0e?Yqel_3<A$)u^O-ecc!bucuXZdYfrvWR4+8mRb9}sOr{|`c)hY1q
zs~E(quj$V>C+!ledAE+Ld;+sCC`*e^S0jmO&!|EQAAN|^&KArKo20ijZpAFm7qqc%
zd-ZQ^o1VeBBB$~Ws@>q<I!~5rKXoXnew$10dhU29<>7Vo>Sci39J>nFMYhf12ZD}C
z($eRw(hiS8(|GpB>@>PusEkIPBI2~j#inboIY$xX#_h-@hKgCAHe9SyB1hAP41y<I
zH%V6dss$Q<CSj~t_v*)|hZ5nHp6TzDw*+UR=d#?~`;D)C&u~@Ni^t!;db=%j4wFVK
zei^MRJDJ|`2)E{Gpef=eYPeOt_BR-F#^dUC27h^+$Nn*c45NnI-0xlp)wzenb$i0_
z$3sM&T5cJe-maak%88i*zsLXjRk+NOfTLn?l8(nBT)g2WamiTUY-$8In1ne~G#aNU
z2Cb8|Q8eJ4`p=*zg8XvAMUW!Rp7vPx#rypL)SpJ%0X)mc34v1xtzX_=<viQ^Fs!fq
zy&^xRZonUyL681HzTm2%X&kfC6J-8@Vw{HRV)tYfug}P0>jkFeQ(fax;@T8g7dDSK
z%MOEW%`GCDig(&0T9R^=+XJ9q_i^!GR#aOZ940U!1*_jxSSy$|pTH}A0L&-xlZ)+J
zlW{Xjz5JDQse!O1&6@4Ld=|bGu@Ee?d$M6*b-6<OCk?t>!dWDu1W$wX9RnJ!1o5Th
zzB}s~VU;e$!|%m(xWr@6rV&*9>b|feMzJ?9RaBo>9h-7(+hCecg_KlR_+?HqiN6!q
z7UE2NuOjhObL;veVn6wE%T3%~`*{_^+ob3*t8LxBqH#IznAB0ka2~O(=|y5Nwc+-#
z*>^73L;4Jk#lhI@ta1+iB(1<y4=NqG;}217>0d}ZO&7lDluTS0&$iOnzyyX0`KpYv
ztA&#LEQVX-+2Y+PBM<AdECkaC&Qd!6M}pU)zo}Y;kt+&TNQ2LsQT058O;zzm#wCmH
zy1DUcgBgUcmCslDQOawCS|?w9JA#wBq}zW*mqljdPFf4QPlDSBMQ^qC+UxOm(Rlyd
zjN7laiHatR$K%+s6sOhO6Pm=fQ*4(at$hCPE_hIpbEiw6+DhS1#qGF1wOcYcNBn&|
z4q03dPv$Kw#%{Xh<_xuPAx~<u#qR15zj%MeX}zCN0Hsu}<53gnVK8j1xrmz_3UHTm
zI?FA+wCBM6OP9&iQK;3c=3Ua^DcJRY&(solrtmGDL2o&bnGQ_JLU*08@86m5KVQu_
zbl&gAj2d$^X?kr0!UMYkUR&@4&@@1EUWxE?RUgVm_-abxOmD(-6|jbZ!@aFV;qm(h
z=i8VbsDRV-&1_e|v;=mxCT1<y;~9JA0Ov&wtLBLVPLjy${UjLc>%I8;D)S%YYXEZr
zV9bm^=X`QrvMMt2SarjZ!x=lvjbLfriBpg_((<g^xt{;n1!f=0g6H72qZI}}p~24`
zoLHc;8!(pXHvo{dMx8-XC)jNdGz{}{$INhT7vN!>NaZYIGk7eLWy)e9ywqU2Zv?~r
z1F#$PYCf*Ri+v1q<3=2BZ55c~B4PhPW3&TF7ZCgtz8IpswgOJ4{Xd_A|AyPn?<uBn
z9i*5=t6fuqK1r&!=7!LrJ;x!T6*RmjAh_hGt?UOr`_M4+zX#`#UWc~h558?Lj$rn6
z5dP_vM*R<p2jfViLcpWQ6f$?u;@8z1XuadEa(c|aWYeKBn?KLL*n%?mA1^_ROWyj4
z-v;U1HIuQ~rt`1sUF{F8t@O^Twx$ChCH>*Ez6F=naVkBhLcr}ot6AhjZl`y{`kKmt
z)p`uX>FeVc|I(G4S_15ScZs*#?J{Rl8O6`QSCl&Ok6^iH4GR+iWTF3AN3eqfHca!Q
z(shYW$-yZoxqrpmAeV+jd88UtQ9<7L&L=H%3)!vf&LjPDYxfNBnBmaLsH)tSEvqXV
zz{u}dKs54@lt0k$=pzyPh+#t1HlgM{m8zCuG54QZ#tNwL!~!0lb!Jd?W|y7=M2?p2
ziZTdjf_n=vHi9cl3_!Ux_PW*t&4BZG)B5$8wMxrn$llvyEyvUP;inPk70|T4L{HyX
zKEi90dOBU}nwJfyY`u5OeD2MDn1X_20kek-#@JeW^V8196ES#VF4uikNdT++(D`QR
zKad^r4ue4r#)IrLaeDcNZ8io&_6XwkzzWh1jMYUEBLn;4Hi=oNOafScJg73@!s5X?
zDbz=)E|7aeWA6WDRrxHqh;R!k@UZyA?1A@Lk;JZBLxaQLTMz!rRoWJu=yTA>+*Zgo
zpq&{R?lkMNjq&B}9Z-ENDauR}@%NK&C5nu-F8a-2o1>0AYK}q$kimppmgr{$GKS5-
z@ezzB{GPJszfTFv_f~xM1&EW5g{-dH3hrr^`fe@TmnMv0b0;5Xn_=B3AMLf5CZ7Ff
z$m9pRZTyDN36PRi19pMu(-J}j?I^;?_v{pH2MVxKQ6mWqo>KYY`k!)^iiKcrb7Gci
z{?<+KGbUkeQ#AIOLq14iey62$EYWe1ta)3l2P*#=!0l7;isZV@=b(}={8dU#Rq=^8
zg5yB)b}}x*IoG<2f~|-6)Scs}o9;NU3s!@*GhDPK`Q3msSP95Glh6@E2G_Mq>s(o8
z-XzolB+$WE`6|juxYRgO0`jZ>iY%9uqiGE5OXm6vBd?tIG#37|eY~L7Kd1fGI1wGJ
z=X>#!t8^eC{;J+mevvZA6giN8tF3HW(@P}wF0mAtK>AF75P$#E3C1^{sYTT;^qpf!
zgl-lsNUZ|c@TlimbgM=4fv2t%tZCtY0X80+ioGoV&V*m=X3}7%E5NQl?Zm6>CMD{8
zustm4iQlZB9Vnl4>8py%2RO9Sq+B4EhL9u<$0gZYq&rCi23!o7M}}7wx3eGg-ZRh;
z++mV$kHytQOU|*qJ!P(L{322S&8~U8|6i_}<f%?6A25>~F4paVeYZu5snbC614}L~
z9t*+|R_TZq<JMrOXQN2kEH$L1pw*=6G5jgrdN*679O7)Ne(hckn1AcB)xm;4*k0eq
z8BLR5Va`jY`}e&K=kqdkw<qz4X364d^~%<Daa>c7L6(l7#Cwf?stB2Ym~|}bw=R0A
z*S&Y~Oai%LpxY>R;e=;?P?HeE$p*)-&kc~#XBcU^`|DjmQ=Oz7aC_XjEr$4+nWmdq
zp1ga}BVb#Cu`h-LUa>U#v7x128q{RnoP?Rp9ysal_8mF+P%GYQ5{4Lm|2clH09S|T
zN5b@Ko!k3s_5p^Da1|Ds?&Bs0{x9p9O<ef_xev@X{N_q!+IyO-71yU|W04SelP)LC
z5)p`6)3>R_YP<$?GY?PJH4N{e(tY81pPxhnlDV1vlpYd%-HV@py?V60maVZDV3`yi
zFS<WkKfC{DLcj8K^=bXn1cP`5Xw8^$1$Z9p>dq6rM9J80o+nqU)FY00i#+`cxhn`V
z>ODX$)o(CzK&ueY@Z&a4kE`Wg4XEPzWUn*of1-|7Lm)na5R?6DwmDcBP}O$APe#eh
zY#si7-D!~6{%}(8@~x*)58?-F-+)P>W&QQo!T*w2ID$Na?gnt6oNH|$$&&w(WFUTg
z^K%tteq~sD+bAeb*olnKLFJw=iU~pE=wepOy065u>U!Rfm*qMw=bD%Qbx!<Mgq9Ek
z7U~jf<KNIhQPv9(i1>@gz=bg(W&u?z|1SFpr~*?mh)lWDVDV1}SWN<a$G~(#oZ&)K
ze*d|a=@RS&XK6nZujXA{#}tIxrBO`jCJIgE;PL_9Kf0<AFmUfHl$1g=76egmBE@?x
zWd1oYc?2|B)oXB#7I10NopqQ?l>xKhU!Wr8teM3K!G)ITGmCz^;GxnW1yZy-+_WC=
z1|Nz0rU5>r1a!FA0B9EX;uBPz+D5@IM^PB8EVvPQIY%qcBn@gq;?agUx}b8%4$Ykb
z>mk1Khq^c?zdNABU64X@0qw&bmWp8P?zuz%-zxuSM(+K1d+Kivs&^xdRS6<v`ReGI
z0;la7ij%^Rwp1Z|^pqlRYb1fY&+!{}BHGzL@ND*UoA`o4<QdH9U+pRMUS(I`@-m=w
zXdjupr~s5q@uaw>CkpBm6^s92>n)?QTDx#zy1PWWyFsM8L8JvqDFqB#Q0WfoZjkOU
z2uW#>4pF2VL`n&XZ$A4y;~VG4`MviZuor9H_ncSy#uW&@slqu-_*SPG`Gn8(<6fez
zehLlB@MeOEwUbFgdXb<j9~w&M8l~5zOSWwI<e4hYfa!-D=$^-Z6RX+qAV*V{lYKEw
z9bZ10Cz&f?b-Ro<+jWpLA?v1H)06BSiK1AFruo(|Ab{GLqQBrQ@yz1QWs7YlQs$I@
z77$+7_oN4bcK;12ae3P40)GC%wdFBY<suT@R3~DXZ*Kb}RW1vMy`3+R>wL@3Z1xiL
zJ{7vl^%9=VzTDe-1_4BaZz1NA<5vJCU7j<jX$ZvEi2m%LrM*+OC0+Vyt6ei?9pmKE
z&(Og*oTO$}5&{hlW9^nN9{x6;AJ;8A3PN6w!0mYuWgipw6Lx}Jw$ab-3G+pF4x7I9
zkmgn<Y*GBzk^-|;LzGA3DJXLoYzQ?y)i(4hDZdxmmbLM6zNrY%SJd$`ohD1Hv;MlQ
zu*A-;RNjvx9UVNSFj;+{d(|z~DTn0FEAdTDfo$?H?qENbCTo4uH?ue_1JGX)l6Iak
z3g6KulOMD#8j~9$!zQui<E`0PtjcDP+$pPJK|jX9*R)3R@k|p27moQ0y|N+40h5%z
zvvlr)+3BC#F^vkJyho)^w=ig@2CY@=8t*vA;7w@-m#s1V)z(k7!ge>gJ72|tfSWS*
z*7dK(GzOHmq%&Z$uKG2zb82h{Xia`n44^8qhgxf24^`epo&GM%<SB`Eg5kyTvUWdQ
z`qfXPO9E$cw8mqCU&YTEk$cq$(+r-)e(ce7gZ5nvgYTdIX&YM$mPm`GA`yD!rLVrG
zISae!+n)oZz^CO`IK5sm4An26)tLhv=#g&vBDY#{f7$`FvVLK_=c85sH#WQSzgOdu
z9X)PoEx)H27Lc`Lmg+tb{P-n%dbY@6cj~>EYeI*-K#KgAf7b9<>+#K1?hWob0g4&S
zT{|>QuY+`7|EsNlNo@P`<Cb6IW;|Ze?2;BH6&L;*d{56exun{ET=(!Zx?Nk)etK+w
zNT5~aR}-nY|BOU4W18l((}-w4=mF8UYJRdz{Je!&7RhXXAZ8;I6g&a>9f3I0mKHDg
z(w3BURzbXsmbBaek%!y6Sr~@@$aOI8=-kOGgrg71-QSmpLS-BBCY6Mwi78R0oChGC
zx?>U2D3EQ-dl^Bbf%LJQ_`AP+{%tGt4X3fZPK4N&)xVv{7!sT1&LQlainHs%vcUJQ
zwn*2p4@AP<7)k_GB3MuLg!-}McM{85Z?69#Vh5FxBfu!Y*r>{DfG!fyP(vE<8(F3t
zL&KBTYRwYIUkRE*)1i1R6yv|7)Kt0mRz1oCap*^ix$Zc1-^qbIcFRDzzk?nQO)#2@
zGPazAG%&-5OFVrDRtOMGqx{gty^^;*(B!S9{Xi(TgrwXQ$);)_?6;ti(iBR-NlMLp
zi`Cf7*nGso`E6HH04{`&E~V8g;T!yg5pIR1<Pg=O4xDF?(z=Md)dRv4%N@F!1qQzo
z9OI$1n*<66{VvU`RVgo3_S983ua9ylPa#ymQ@Z#B^5K3_tH^@Wt#RgXeb|bY`LY5w
zy%S_y2^*5*s@JP4{p22>s2pL<L+<2M2$GG{a*?ZY3#I5&WBA2E3JE#>xavi;>h?ML
z(e57Fd%Tz0^_flt$SS?H46FwNUrmTRy9CeT7>$)!?w55jd2^52p&$2fV0@X=yj^MG
zu4F{i)P?=@*7I_v7oENie5WhK$yt53t(C?Noj>!}wq?1K=MG712Y>5Z${7Y1NuJaB
z*AFCe1xHAzbuL$--xa;x!(}vVVsh*Mo!a-TudoilB)a|3n<Hus#zTLjQQe1i&bTx}
z?<zVa3|`(`ouWQ?Q>s_JL{x}1?H*SF&W8%jxY6rrS{H(yWHzMS!q?Ni*8?Wd!8%0$
zG|_r)RYK5Y#}%JT+PGRkm7crr#8m>*q1X^7J+${lLdvw*Ch)ypoYQe<4}67kKY8%0
z)ysrA9L>pR2RZdT@GIgiAw@olLet@oRTnmoqe}?0dsn!k$T&IeR)$f)yY);={4WK8
z>=quna*-aok4KZ&wxK(7h8#ecE04k`?y=q~{wO9+XB81RT!?`(+*&zeSobua<N`vF
z4dbVE`-%t0aTtDm(|PDLVXn3cdU>}zo(Z?X$3OYM*va&mb*<?&)N!N-8kA_$N~rqr
zIex1tF61zL!ntql%9is<!+?EK)x4{lP`t<`hKjW$ROi2)PxPKYROcO2i_o>+|KQsb
zh4)WH%=dnh>)1P90*eVTZ`MDjPuLUY4+>ky)izHXn*x3tvobyWtarF45hgSLc_7Wl
zX0y<`{?(%oFk*d;dFI(t)<#P786as<&4q0bqJZwOmY-*+%QQz`no_krxfQmH>M?{u
zb31$GSQbEhym^@W0Kekt-70&S$O3<h=WjRq*!*!YXc(YBEn@s&uJ`%lG4t1!pE|K0
z8w;pRvl}cwT({6T%YUezoz)!S;rlqE+w!ux+|!eMYvpck>;iMxF!$H^nau~1BDaO<
zGlr9Tl^a64!|rCht$DN5Gp#$8A5j5Q+dXdEw%-$MzFZc9Eu(z@X!R};SUt@T;q)J7
z%;Q-fv+bulTZ#WX{Nm}BFPC?Mxi}s!8}I2@OYnH#)%<5??5DjDgVS#jxi%6fgpRgY
zwK>{BvCC2OWC+!nUfhi?=dMZ$$n!#2vQW$10o+DG3h{XE#k?0|N|%n8qHsWj9ULFy
zrqEk^1S;Lzc{hMqp(;IZ{WDXO;E=e;TJU-g8jWdCedR@yykVzUCLA`Y)8P!qa8Zbp
z_ot0My24$TW3NSLMK(I4GcF_)K#TH!4rD$0(Ns9o1jR}4be{L)1&}tuApuSVC9Luv
zY2gW-c2?+8gSY9Oh34rwh+YNRZ=sTl6L>I^ltXW}RH4_b`Ag(^dcRATq@^g~{8B%A
z(O2@~ltTyZdB4BjT?}SBe3YX!D=%V%i+s~P@1WgVriAQ>=7;RQ(TKM41_aarL)1cn
zbtN^K_P=Fz>_R%w^}%!CS;~U!sq`dHOU51hY84yn*|}`7k{%v~mWj_!2QMibu8xNP
zb`Xw6GG*!IuH_AmA@sNCQH&#phDr)P#>%9ggBCZv9C}dyhbV{DtT}>E>X3DlS^3kV
z@9P=am2g+2`eCIaBB?vBzJr^`QAvqE)B>~mWXY9T)eYrQXi!)kjd(O-$ylpY6s<gb
zQHCX&*tsE7oBeih3kRcXf~?+4MIn9>j1wkmL82tZl)yhp@tex(l1%fs&=W<$IPefZ
zEWC2cHMv_(Mpk{pYe;Wed?cW)&&=eR*_R~p?@0_ysArD43jVAS8$=(HGU#Gjf=|a*
z-wtr&1*3)-PEu%)4;brcP|Mbfpj5sj5i0|SoW{?BwKAMLSv2=W(qb#PS?(d7#}Uk|
z6InSn#)ZLOQ5x!Q+#fTvqAluS=*Gs>1u|KLS1)j85&5m-1%6!~ccvk8sUBh3#xGYq
zP+?<g8Ijnn1P0{6bLZ_iMn$v-T~Qm1VKhvsN5cZ6IH`lpQKX0K7rQmGAniOf{0c!K
z|EObV2}2JCL>^=Z-4FFc179ie_tbr5rL%jZY?FaVnzeA@FbwC5C&Dn5x>Fy8YIp04
zN5j4l^m(7f`+6&jqz}L76gDiR@X7O)Bh2H4#9Y-x_pk}OvLWn4D`Mo7FM5HDLP}bb
zw*^^Qb2<k3_|`4dSwCIb<yoX2ujl(g-R3$&$3vyh4CapXjf{*P7q@>Z|8JBMLB7sm
zmY%}v`||oV&l7>APJ2b8Tl9D+(Xoux{f;+w_g2rw?)3b|e%aoHJUDxr!`Ab=kK#A#
zJR162=>Q*bP($EZoTDao%VsbA_Wzg3*jrajmNRp@--}A>dUo~r-eDg1-^>>J7i9IH
zy+LDv;C<(kIOZ_V0_Zi~Vc3oJFb?=?SB7T?|Ko9>Ax%pjVB#U>|Kl`jN?qFOMZbjE
zCYu<#{iD51hSFnNM)FhZdzA}PnX;_+1uM;Tjww!RN1O{)FC7xQUo2W`P6Jc2kt@$_
zdRDf{i$6g)VKJO|{`b0AI@0G~kW3FD^K<?M@uogrb@v%EHwO!appZQH5q(jo$j^Ni
ze8b%VDL&pq-J@8UX)*D!L!2yumqM^M@@V=$A}FP*_de*vJk(qIc6EKAgrvcM-PK`X
z^#NKx13q*99%Sq=&T?Y>L&n5$`}6ae%5>a!avY5I#P0^>M3r{S-I)ZnNZ$+ag}K1@
z704FgP8Pbvx##-*0wv=!AR29oFU}AhpG#GxtVpkjtTx`6noNP`GkVZ^s$ZOg!cH%l
zKu*fc7r<9*qiqS5OQc*oRsSd<G_h96G2{U>$8)0FQOG!<NTz_ECXpH-KM%AN^boDe
z2+IZY)h5p<mcKDqYS5)KiOfJ-+A(Y|#b{~Y1M8tV!X0bLQ%1FOaWl(}U=P<sq5-}L
z0Xxtt6JJv{^B7vwIY^oHUsVOK5n0uRo_RBDPy{xC5C@m9L@q0_M#p8W9b|@5x2qcg
zoVD<~@|ZsKCnNC*pit!@+xdEd>7}fRRtL|h{J@+faC<qWCQ-UV!zY_xY3ktFdF*5X
z&e)q^Hn#Yc7w%#ZPT_`i0He@H3S<hO@Wq!FM?V(}g8Mtyw>yeyq5_1r2NSc3?=3eo
zyw+m4kE^60;jz<gGf$V(9r#|d%J5>~@mt&$9fnb>=Woc_hxBlqlHCai7(SR4%u%qS
z8S^=iIViJ+SOdC)(WAs7%^~-sDl#&`zWR$U*((aPG=eQ|_!Qp-N+3VRp+9~XvO%=O
z-*%=DWo4g%bi|nPSQi_GrXU5>D~9D!M=u9nA5o#-6Nz*ea?VPTH4Jx68htPqlp)L(
zVN#?jmPP2-58cpLLz`Kg-e_u*ld%JW=7KX1AhI62W=_N39Zl?HK$wc>3u_0Ih?!Io
zkK-fvYL6?^;=cB_7zjMNF2;Y+fF@QT04}7O#M9}X2cvT8`_n_Z%<Ib}T8i4w4$U7I
zoW|%nF@-d;(iuNhTgbgtT(4rMsFe6oNW2x7BYouJOTQ`lO6k*O)2ez7lg_A9q9rxz
znSsZ2lMjb7_Lnibt97DN&Gr>Sb{!`y?wYsBw-?^Aqkq1kMr3tYCo<XN%g@LoZibE`
z-;4R_Mz7QChI0FtCs!~3<@MpK{F**X^3j=3Xn!tAFVeVB_ga+p6TfHnvHm0C%KyVg
z@2Y?ldaHYGDd*#}AAt#Zu|ahPkgSlv-uW!hEr#k24z15tei%yUQ#A^WfLj6BVgnAw
z@({_p%*%l(gPRm8A26cfNiKHeUGJ}RLEvmu#L&T^gfnz~ecHa7?#wdS>iO#-k{~TI
zK@MJ`2VD4K#fTKKyz>_%=T9e@?u+p*^mOnjqDmwq(G?9pvk}T$#zLXdPuh-nl~1vS
zA9AI6E=FL;jci|F8u^Qe@iRwDFG;qGn(@pz=j4X;tFFfY`p4XLCAKP^by=_24<^;l
zL)sJ&sG@R4``URGb35QuJsvyxblI(T4gO7>{B3|w3ri_@$Uc0b&X<sI;|Ys;hZ2vY
ziy^nY;p)hM>W$?*%)Gv!SLVgFY!Q%WSg1j?l=kp8T3RT$d~*!sZ{<JRM-Q|?GsXeb
zFoyRilH05x4nQE<$4=t~=$AN|E0F?DGqPAn7L1RbtypZq0E)uZy~rBa@HJa9_1aGN
zlm}S_Ne=~YJ2HN#Csp~96wP>0+;_ie6L_1<Mb>xw1lGhn2`t<3ZwJ0VG|oCpF$<F-
zM>CE*s`Ba~Gr6so<nJ-Ae%m7&={S~R(19$xGOrh)<y??6=5LC4kF*{ZY_ks}$d14F
zK8muf6B+1uU3a9vhWBpE-;1Fd$2R;V>hy)Uk^2O(6~=}ozoViMO7x4$haVzkm`WX=
zS(-*6d!Li?x7DNknXu(3Q`T&kLi;wrp;LMFk@0q;eaiyFJtT@A)4cL`{(kFUJ`MC5
z49ChuZg>^r8DJ%!nVipS4s5N9vi-;eZ6g1xTAE2cd7q{Sg>Bj_d?gJikb7BBP(w2Q
z0?U$3U9$I>Sk@=)Y0!JGL+jK=0hK+Ep|o22Az6^r{|L3UO5ZG6KOU9M{mUh;$AvsI
zO5=BV*i3sbVz==<4@zYa`7SPqlfT%y)j&1hG2PA9Q`R)sz}J&3_BDkct!BN-UWcVM
zw}YsjddkY`^Hp{0liyzUIoE|8j2(yjE*A$1X5HG+T@|^kLxtNrcSemr1yWrGAwAYl
zJq;H6$H2_}TyEmNr?{of_;&tW)-l-X)yXER*&cGERHpl#tbUkpsDDI?490T#|1Rft
zBa~>d54jfH#nP#le-_spioKqdYd@IYKecS?cFnxdsR0JNl|uB=H%aE0^Z!?Z?5beo
zb?}V|H*TX<;;jWfMPeI9(?Z72XKEBTW)jc^7l;+djNJFMy@>#f?s=;%`2YqK7UZrj
zrWl4?vGU&|$YNtisybMuxKBfl;rQpWLemlkij3?+jxmpVWm#d3C<L{09Ah4d9Fu}J
z*s_jum=vP`yBwAJ5kXzB`f%pkrc?)Ik>88$vh#`qRuM=qD~aCOGMG9z6Mih#QXZ$N
zMO_TwMc?^L+ez2JCPsi<QXy9|cububFhUu%#ANjxh_lZd8BW%rbSE>QQb*FnhJF<r
zV$}R7#YFG+0we=LBFYek#ZfhZ^n0RL3}k6Sb~yFyZ`?yO=Z2^iDk+u^dTPATwfkR-
z1e8D-3Y}CUp#ukU9BJfodfk$K8H&GAg%Q5oFsdUbwqDRR1Lu<=<$490b?mHW#&iqn
z!kBl~yk;^lK*y-0O|RXt$@yiI%v1cw=5YEdL#!@R+}rh;Gtpi8eSEf#M7-c_moDR2
zRi3TSAcp4tY(S5=YChV?STh>hT15+mB)A*d1JbOIQuzxgL-nq)UqG40xNJa5yTiSD
z+Hh4oQ8p)n0Ts+U1K*-5rt+n7mXQnN-+DzQuDV2cb~D|(qrED<oG4na7U{^~7`9#X
zWKC}vb<^~j#v7Y4EhDixdC_t#Z#ShUA{LJ#MWbH2e9)4+-sZ6otjVEYsZ$%~3;p+p
zQE*lw_DRBu2W&P&wm4$BlLz>GhIvVoo(A&tg4Q)|5R7B|EQ_ks&$=@0dvzr8<5zmd
z2?7B^G}qf8>Qa=^FdDrEzO2l)h}L~fKAdKOL*jdqnO@^bZ+cL2*(s=ZiIi>->recI
z6c0q@Ru7NPagvKOeQ~I!$SJvRTgIo1Gp>`De!J>y_1=(4*x3WjA;toKuD)SYjrx!l
zv3s`Z5#GHAE$-9Ddmm;k1QjwXRGChc)*xV!%ap83Pn_A@F1~x!R2B?V9BjgUtcYqx
z?Ajr8^Q803`XN5jmyytxwWWNQm+$L0FRHZfD=pfiZ{^wtX+Ef_ZHDFWy<}c`^!&zR
zd}3|a_HP)PrpM&_t0CbjqF13?I7()0Po^>i5WQ>c4y@!ivIiZgm;BS><!gb4j8dd@
z&ZLjZ@+Nc3k8~cqn}v-LTJvNA#+=!-v(j>rGzqm^)>BLeo0p#}&lzDkr^-Oq%Y%yT
z#=(%$4WHiqAGX77*Bf+;DKa8Fngc5DPUrGRUf`fLf{m|Vl+W&G|NKY*3lS-;1kjY@
z->py%3jDxtG*xcMeG6ingqF04q~f+F*WS(mHZPh&xE-ekDAMZO&2CLQL7P9bKLHg6
zo=+l=I!+9?P92eODX}Ks<{n22qY1Huy?rrez9ABV1%=cmRDKz4Q8W3XSAX})MDi$7
z@Ews`k@I#ugsA9A?U32*Hh2`vnY_pZi$4mP1S9#EKf*=MamITk6!2E$_hd=z0^QO(
zKd?*1CsOL*zaV2>tsZ-Wms3J64LeTK<{D7*90wxoU-VAyV-_Ks71tGk_FLcttU<Mm
zbNA6ZoXw_nn4hNlh2K$?Q`wqa|M$CH*0(Ecr)zym)7y$Fk=SJrK>h4jX98(al7hEK
z2-uvbbX5<rDXy-I9~IE(vZ;XC4&P!hh+vut&7qu#G0LzW`ChLpv&=aJNz@&dS5y~x
z0v#xK13iQC@4a|>&T_eFFtrYGk{rONGaRf_!jjO|o6bBOe0@%#(JN<d;ZGSb0tulC
z7=u(QQ9W_~4n(*6iv?`1?6#pRa~9lZBk>Bp8k<tW^3L8~5P*F+C1)g11zbwFOSGSg
zN(en#b}Pwh6#dZbKxU~{O0G7pD`m#2J)a3QTa}k^C6zHgaW|v#J(Ebs9SqB2YZP?)
zVz?EDVuvmvPwx<_I<6|y*W4%Qk1=?hHd*+d;^bMqLVc-256Nm_qITpR->8J!6m=Z#
z9PjEjzbROc84`dDUn?Ew(a#5#J|TZNcL2GyEu%T(nKM$AReTo8eDfsMO-bjvJ9-zM
zExkv?h88mBo!b|h$w~a{SoLdJQ_Ee9Up!o{?L4FoBJ;Jqk9-0>w>lg;C&iTV;C$l7
zAADs*QqV^!Y>(%*hCxy^Oj%|48vcP{6>`djQ8`|>u6V$URs7A;@Z}>j<DzOT6<HpS
zY(;w72PPL-6k!~RBWb)6T#v_^ASA)yyS~azZ)=*ZyU|Hut@UKtUfo3=%@}1eQPn>P
z7Z@|&!Z;qq=o9y7cO0+F3vn=;*ASD>SeH5-CbrkJP|fhE(RobwR{Qz@BPudsA^8hA
z$Ga7L+PB)}2WjtTed_M^F1V2-_)!)Nj0r4s6H97a6<4eD?Yo}dGQT%GH?ygk5dO2*
z_NF}xB_c=Z!N9=(G(<2FS?ZTO|3&-v?2Bj14Wv|jy10BkyLj36;^xzW8zl2IIsA_)
z{1Kh>nwguEIx(AYIrdVngl8^oPvQJL_T>hel7Cf==r7J@lX}K<CtB2T<$-=eZLHSi
z9dUFFkKwWlb{xEufnr+sD3aX{TAi{&-hPs*qv()kBG0gC|0Z|iKi_Q~nFLO~BTn($
z$`{Nch9-rWE6b>lX)f93f<Ml09V3n5@o(VO-jHz`<`xuIQ*!?Zj1*-doo#rogno#>
z$34Wt&9}%Z%=<}<&qSWkIrE1vkH6%>+jqUfsjl2OB|dcysw)O&XX;0xemn2QgsJEI
zH)$4CqTB@7G21jO9`z?u0=q)9lKlZ4Uz5JtC-bRF_Vi}Uy~Mgn5{2A^w@$knjvh_q
zt)QDh#lQ<6z-nqwj>8|Qw-vu4q!w?mb+0FJIp>)h;eGu^QAkyKmww9qV5t-K)>ptl
z3b7j*xH2^gKJq~!TfLe4^Y%+h8b%gfWu6iyiJOH28N%Scnk8&MeD=mIXT3;I$YT*a
zYQU$h^frEjWR*$Q#Zun-amSNhomZla1E8Wokez});2UpOqZ_m3zTleUmf1b79Fu>U
zs?V^W?fK6Xl!s<>Y*+`NEvg1Hv?k8cZ?0PHvKlLLkUPQ=%LHC1Uyndx8VK)$oS|#$
z$&D{R!u_8tK6^FYVBo!1*N13gXoV(HDZ4wk6g+7HkGkxiB{#jrN`l(=;g<boZpp2y
z3Zig7P||nlQVd`9pasf;S@YGEF))=`(2(lbkon=w{znEt^RgG%oHTQxk=gFwyuKf6
z!6OU6T|hPT#N<m=do4r9$v~Uqp+4Gaq65TqJo(uSJthsBw0R3$1rNGOYT7P#(gxZM
zgS##!z}*f~A>kHNQ=|8X-%hxbzn$z}!q~c7+3+!M*5`NYDPPN8{nG#zAO6;@TTRQ)
zN&mZ2{sTjwnOy&QZY%c#1WAYEs`SsuvC@*W#%n2Y`eof4OzL43pH1kAtVaiiB<w}&
zAETUE+)sAPMP8>zQS|)#RLrl%6S17HYZ60JCz#2TYDfo;Z5i7OHGI=~^2k-&G-sM3
zT*`U*&P$@oZ9<)mtcMQ(tJGruc2ij|7(f5cltpB;F660vH#ZYXs&GA3K#GS$-X}Tu
z?{+j3#k2H@Z{9Q%ZD(r?5R@21i6+(koT3PKy*`Zf`+U%a3zyvA(W|(Ez~?-g8Wz=I
zCM}-7Kn_-Pb6Fg1Lh{DY@!u;T8PY%7wLTwUd7w;{4Y3xc|8vJ6u$m<1^B1-ZJurua
z1zlCHQahe+urDqBPN3D`LdlW2xpb?wk5UZ<wV59uxHX`NwvO&w;(ZxJat<G45dmvj
zrS^*zUFkI}WgqeElUbhzo80_szoEXk|3RTjmeb~5rEAXzR|ZK-mxi@YOnStS3Uv(`
zK89z2@%;cznjhqR_2}6us}uMm6e~&>j+SFmO{v0mBC4Wn6;XXdpPJeYwboGoa5O<O
zwR`RNR4|r_HA3f_`%=_%>+H9)y}@}Kr4M#Gr2-$SRf+K4WjofERTuqvbr{jK0&%CQ
zHg10Z>c-~MiIv#@Ss0ziM0rW2Id351LHOcn>S+xhyH&0jNp1!y9ciVEFfTsMkjt#f
zI4u}XOKK7H-t>dF3iNajnk{2?g3sXA1e33cr*L^>l(nVLpXolj*E|%WxWsLdQXJk8
z8DXCG*r~!*Sw9251)$(_+wN94eyn|Rezfke<BI;L{*ddAND<vI^LHEVZl6@H#iUMN
zeO=`>H{TmF)(tV?XIOl?Hf8HW=f+=nuK!5aC&|n`d~+ifpH=dLd=Hzv;?eWl$D2P!
z6Fzk76TZ;OF<NV1eop>>))<82X)ylsuF(7{IHTcZAFB6%QGuJ}f9_AU&Qz$k4o_RP
zluJnZH_+vj67E}2?eeLz0ABh!7!Cy)Z~uJ-+wX|%%_WEx5#o-bg7>cLAkGs9fqML>
z$S-4;3U48*7>`<%hhiP43-wn(|Dm4yJ~}xO%R!R9_P|`l#}!x5$-dm4SO>v^)~THR
z9<0Q#PqqX>8v<y!q&4z3-OG8G1D^xq%}Vo@8EkMJeMYR?kh3Yp*9^t4vEmzPVRWxJ
zM#a6+*l&wDTLG&_!Dp7H7d30~x(eD?GeW!c9Xmg<XS*kO6`j8ekovdRP}y&UAJXSI
zK(5sQ+FFPCMwhx+U0nqus5Tkdapi1{M4XCBt@DpL;P+^PliEg-N#Z`p5ksk;8@D^O
z?^pIGg5Focs1N-Lc9uzC5eaA|5YakLF&mx`^8~qD990jweZdB)RBl#b{u&+>Ld;_K
zOhG?|;~f6bo24KdkpZW=!?fP+jOmN3<J_A!@UQoN|J+49G~|T4&89V+U(3dGWjjl_
zZe-jT^Bv(#avGriC}<EK5Bdmv^shH@YFH|7sgy@~ce%rde!O>hCtZw-7QO`8cYxcm
z2v1^arQLvztYboiU0g$9qY^c&&2h>*g{7ZZ+x{PjKN3i~ppeCBR$P-jh3xBNaAVfl
zJ=lLCOL4UWpxNQ2TK@U*rlsouYh9IG%sfnOpbhbsuzWZ~D`4f{U;NK2tn{#Xw>oP2
z-wKum*U2Ey=`t>@@m;9y-pd>%C%zRKWnm46z)7^xM?votcR0V-{~s@4JqSqA?!sI&
zocW?HolYxk<MOTQHgzJp+R~qs{!rUT`Dr<+<~*A}Y_l^d{Ud`$ydiZF+S#$S#p&Ek
zR$b8*2)D-uA4GtEF8a9J;mo_zC4rBGv`<#c6Js!D7%2qdx5S%drcSJTmrya3#07_s
zMYHq^ER6`d;cUrIOeZac^I+~qxFNs#uJrfXCRzC~m2E7tM3EO6-D0giFfZCo42fBF
zRRx13q(#@jk#?IywSy+sDj)%bATKpaSMnN_qPzZzRBq!4GV1U%A&(ZRcD2rRzLi3W
zIyN2jjUp*#S$7WQL2dyk8uYCFphF1`NRqwSdN+s2$AV8tQk;<bgp|r(#6IkgHQGjn
zE!>VxMF1AciQ{Gq(j-wjj<R9MX|cB9vj#or)*B`AoLXn#>!!%d3h>^rSFOOVoNxE@
zqvOz+vX4QrbHEGbX8d5SSihyK)aQ}`jTHalRq52l2ks77y9)ATeZ0rT7*H4cQn%}k
zb?!1kikv-anZ)AXRhFOLUAo<Cn>h(*l~#hAvSaweZ&4A;T%C@WhG&Qjo9HS02ZiF5
z&NnKF54PdEXBQMb4Y{xKND20!D`;Pe4N+;_=IPXNzjOvS8zN}of($ir)~ca}Xi@{)
z?_x6dV>A*%6%>)}(dDS!2-lJar{u5qq#C(jHxs%XO4t*Mt`=E$iwtWy9cI;h{|cs1
zHN`8>9WFpdQ4O@WKaCaYNv*3tiR7+cI_FOum^j&_c&mB+ChKKY%@(5}OItxPwh}f0
zVqFe@DaHNB{ClF(pt6Ne;!}~Lu%uCk8oeVvouopd@_|o?D}>|Sw6OTcDQ$By@1oJ9
zIL@NjO&x_GhZ5BOB$xa*;pStJB&>_@^20r8c+|bJv&c&Neey543Dv8KfKP`zmo3Jr
zWP?x8N$R1-#UL`-f9j6Y3=f&~4gSjtwg0(7{^L+%*4pDc4Z~<XDUH+jQ?Y6;|J3-Q
z7auY$VWS~ajoFwHPy{#o^CF=%2E5$|r~{gHnM&)-YlX+Bpj#Iy>KY|b1GR>~^<)CR
z?JSVIF?2zu0%~A)Tnq}rY(DCfHr)9idm$VFJrzG8^;-bH5O;oz{yS3Oi>CDy$|%(5
z9q(You^d1M$2K!lWL=KnXvdN&dP2zO5+}YM6Wq8qEIhhax)+XCjlx(bk=@v0qA&n%
zrUvei_V7N0P~3qDF>UEILS`IF4I=U_*E(zd{uBm9lQpz|3$}G8n!V*iWMdk<0%=}T
zsv^WaGT}7Z<=J{5XPDtzj%41A)ePvu9|-53XA?<dsm(;u|5Gpc6S;`vQ8eY9VuN_b
z^#nBIB{B}=`i5-iwhf|YIB-ET>uolyv;Ruf*`s_+D1Sd&!cch*-yj%!PsM2R@JD^&
z3R>DEjh1R@H~QPBfaj*|mVj_DQu!PI{CvHgCQG91os{}w9gQZ+RXw$*qNYiEtjzT*
ztS?wgB9~s=rq+La^`}BDViq1wO@u>`6lq-cwX2-5ov%cz*{^!#(7uIP<xDI@VGcX{
z(U>A(NYvT_M0D0P?{HzKue+A7=JFt?&}Ed+tU4P?R-5C>gSHH^b~yUHRniIBUZbln
zcjbRQDo^x|Kq+-73wrI{9rC#wHSOaFBbLC;*(oAcP1UZXhvEtk%~%d$3YzI@@5*;^
z$>1wBLorK|I*<ToJ{^pcC*jxn1W$s<9W=;UI$Yb}eq(B5^uBEzT^P*sR{AMxP&h-n
z!~uw6Xua3s2^@dUt&QSPpPThDwI#@635-@Kk2FZ1#FKn~DxkN%`@YGX#{y;&1W>j|
z<?7B!&}%ODi9xPTnL@fu=`kO|0<VWcqq(w+_s6xl?Cro(`DZ<kr_8xKoEQ5HCMcCY
z;_RMYk(fyr(uVFkQxSeF(XJfrAos_nH!oE%E3gaEKrmkDgFkyDRJ#Muab~;qP%7_I
zyy}+xe|{Sh&ZDrqrfD;xy2C0E)X|tqNH0V43L{h-vJjP??|rLtmh#6s@xN1wNc^OI
z3LSHlICIQ4ahUIM@|YbMWIQoNA!_(Gq*qG9%}N`##7G$)tbwrFX*GZjsxP!zPS_LX
z2`Gq=YBX>0q@;aF9+jlv>Mln;g<{pC-6OaV_^t5wPvl47uk!*ZPoINO;SZp!AcNd_
z%Um>gYrx5aStS}Ny8%_qIXNg?@DrN(fSEy?0P<%=s}%*akc~H9kdY8geV5=EEyqe9
zgMeBz`g}MVpM7}=E^69%tZEO~ELI$(2AUyl>4@-EhgP+mc%w4bCE0yJG5j5A2((4(
z`9RadD^T$yGN!g`&iUEJ6w)O+6a%3%k<G!@V*PTvvmVlf?y~&QDI;h?G*Ri7a)oSV
z(QXtS16fWaORQ9Z$avFOcj0G^fA3D=qAR365dteD*GvA;NK&gtBb^Da^9M2_Prr?=
zql8^d(EF#nC&0OFKlF`~cbM2CVD{nLTF{_<fNmHDU)?TIc{g|T{K(Jdjn0o66^e$}
zIQ~$u3Y#15Xtm+Ixq$=YWM_J}_6xz6XJ@>{Gj2i&Y%Au??(z>KMTwUH@>AT@PBHKL
zs<oYe2io>JYqm#P^YsXj?a3w~^APHc+zl(xs}jUr?>p&9K5Ie|oP0>kIIMbir3Lpc
z+m|4<S%51ueR%X-<R6ahB_S=k4)HdV-3uL{N$@zEVeOz!RJGz7yxlkx=4_*kRf{)1
z#0xd#_qasV^+_fpMT#J*1>X|OJ)fF1o?WO4cvLFdl5OrYe0C{VF;5s1=H(p=e@Syo
z5NUmYBt^$@o2g0@VXWE_q8F*HD8%=(MWlV=gS2dlSNEy-O7IYkIVwd@egkZi__mqq
zXP~xejbT!^@<`*$?vY>d4iae64X<cZQ$%!8jzN)myasnha{0pqq}}>j%Y9m5do8I&
zcNw-CVR)I}Wk&so{I(tbq{3kg`RcE<K|xUD+Ak;5_mHXLEymi>#i%Y4a0y~ervJr`
zAl7X)aY!h@%Tw=TA1G8$?6{*N>CZEQv9i<*w=DHMcE&#f?auJFVaWTG`FrcOe<B2i
zqIZ)Aqj1*mas?=fA#KFPNUYd+ZNNcCX#5X5I52tHRc)(Csa7eNQRTH2+1LSuu}3>O
zp#PB&o+(Gh*T1@(@-19V8M+!m<0ghQBab_o?Yi_Bpwg}(cZpq&D7VjEf6q{UU_8vc
zcB9gyK}MZ|<3egKj<h)JmQCr~^n+6vlyNY>_z?)z0{+-<y7a)x2@+7itmc&B-sB9=
zVGtVy4;fK#W*MSbM2S0s#1Pm8b3Pffo&CUNs4bnxjKfOEFRLDLFfwtOpbYcX8Y^QN
zI_Hb2{;F(*{jdwCZ`lAt$Zf4ZKB>gkv%pI|-izT5Q!1VO>jN4dZb>bJa)T_SRCn|O
zj!)Ssv>WEFukNf19_)P(XIdm8soQWQd(eUfr>s^!+PdH`hK|owArhoTSpZWsx~%GX
zM&gxnuy)9KCLuEEdXx6<eIUn_*6|%@L#Yh71nK(Z;I|mj!qv6FJHD4^muQU~`4%|c
z(~}zvr&|#UC65$Z{ja@`HwH+x<Ywa&KH*2$;#M{S(a-q&TP>qX;hT+EFqE(+nx-PP
z80~(UbEPYTUlt7Hlg0&FnhnagN;n_A`rmQS`dU0>NY6V#y0plR+3rXwz(I`qdyO6$
zY#)%Uvie|rGmfDHT!R6HJzRh2hR2`kf6`RG(GzM`?F+-ZT_73RBKL8;>fr~ChxXXD
zqNU4{s@lL3bKTP%PPuzTx>T^%$(k(2o4xc7*R^4Cya<~gP2$`3WXYu2s-EsE*MYwl
zE^}u#C~u$>_|wz5dVo*X7o7c?$*`RNQ*nU)f4zTWp<nJc2P5t*;;w>98VFGN%#rWB
ze+Y*zrhBrssKxsy#NDWsZ*nTzAhI%(&%7B4Gfq`t!9$j<gAaM#B?mGl<pyASz$8Ll
zl>5b}T7*Ql`3^sT*$u092&yLN+_5Z`3CS{*!^G<a=e}+Yeg0AKREvTGV`)nmHUgeu
z^jMucmE@5=aCir~icuc7`f(IkqgZosNh-E*$hT55+&Zu3Ln3a&+!iAu-OyV`#k7%d
zQN|L$!NKp7Y`r`0jCv3jC4uR(6Ni<zJzLMVPr=%FFtqk(L`qweRnvc2S1TD?`r7aB
z{=c8)I~TWZ7M*kd&Ch4fze#vfkgH@}q#2>6Z@`1KQK3Rs^i6<^us}~q2`z~aCy>EV
zK4U_jEO?BZoRyNiGmw1hTe4eQ&2K8p8T0*yQJFB3;j6}8!p*tIzf5{*Y=*@bez$I9
zRCw$nB0cU9(`5Z5dv*qt`E!6#fvY>@!`p<&?MGSlN^P1Jrg~$40?~1;))~AQ7uoN>
zFD7hEiQ6Gvf?S(30I0rZL`id#EY&3T&9*Px)UqZ-H>6XoWAFFf*x<T*qoY(3AI83P
zh@&-T4mm?dON&Pj<&cJ(8<tkO<|3OKHUA#e?$M?BPWf%lmtpZptCVN#>%`-c7@R~O
z+U{9U>KC=+U^&y=W8e5-b+7jM7KesWBGQ8frygTA-+)02ehvQ*fA58)(gE>KfSe=x
z?BRvx;^}~5$#j;+G)o70(FNLB=9<zj|Ea7qHy-4A_75e!{|KN!kq}Dd=W}jJ;}=(U
zZ%+a)QBZieDsAc&X*e1olvad`i^PiD2J@))(U&*L`zqCH{;cS_RmOjfJUy@kRx@!Q
z+TaBJIjvQ4m?OllO|oq>ogolerVCy}6HA3^6xLL;@;KCcwqUkEYXSkqM}Bd2bTa>k
zI$vQUR>ZJs9fd_BgkK*;3Y`259RYv+xkQeDI6#S5Y0Su$e981a(kGebXpO%x1eF6@
zN|(Q%`b`kI0ZRwmvw?|Y+epvs2Hax%gBD;^c@4hEf@1V{YCS|-(Jx9cHx1ZSG>TBp
zaQ#;>AS8Zd!CuM8;|ge&9{imh+`^b<|07G*z5z6Un7ls)^fgVw=cB6Q6GsqULx4=+
z1d(v}q{uEHBboubF;0kKqbSuPvUXcdFved7`ignzG_uB=roi*T)BfPx>zQ}mWB<-W
zIPvKhwVO!qc@c5lbJ>BTItJ!Uq@Nw)w9mf1chFC=ErOBW-m+XtiLBCrVVhif<(rwM
z`-{g$1R+SrN016F>V0I}T9}p=dWPYeS+oey$ZbLEU^U$Pu##v-`+w$afMX&2=BV3p
zm}vsdQ0l}uXY2u4)E&qk)Ub(-x}Gpo4Ocy&XVk#&?j4p`PtsRXj#g8j)c=_lEAOB0
z7Eq4+wO5NrGq@qx=z_-HTS(=v{AZh2DnYML_uu}rznQ<Wpm|OnNfRIQ-4a8I3oc?d
z6is?><wQ`@3u<mZBST4k+=D7Ds}|!e{9co<Dfk2a4Ww`s24NARm#h1KV9p_K+S`bU
zEV!3c1Ny5ujF3L?vO4*+0IRG!>5fg}Rs2m-R*Ez;q4I0yw(_IOT`vqqUZZpx5oFQB
zn#L8Jkqc38D@nc#lS3rul#$z13BA#Ebmd;)_P|x9J=cJ$Cu4Gap%;4?T=#t^>z?nb
zRX)s`q|6gw{koFIyvV-ki_NuAH^oqTxTI)OZ~71HLBzt3R4PbSGsT!9TTEmKY>l9?
zT(vaGk&lb45sWT>_x)mDnYi|w5m{|BYX~Lvd?io0zngLEaspPGW2W8t$by;0>%VvH
zH0Upgq?+J41um*xIX!6>U?u#2yy<|wivjrc=(!Gg!k11fT!Urspj)<h^1dH0zDFIm
zML!_iai4W_y%>$Mw@3X=l%)I(C{uB%Q0w!`&SH1RNGNf3I`wei7QX^<o6053^2D_X
z1f0kiX?V+U%Jkqd=DbMI_Y(;rDKQOc5D?+6<qvV1D$Uneeo2mS00KukwBmI^{SOSq
z4M=3qB?0_^n@MkFX{7)K4ON|J6S2_Rfa!<|FI(J=4WIp9MlhYgcfcIR=vJ+rS*n<j
z|Gr2;;>Nq<xif|B(U*NW#N%#10q#iaF1XkN+sk%LvyTYI$_`0lM_gIgG}0$9^+V8*
zwJqoMa^{znN}VHkw!%UY2_9tQk@Sqn@?9$&t>3~aI?QfnfDr!I$gecQ52x!;j$sUX
z1kE#OO=4~}hUi8&Yh9GAg-UL&0^+DGP$KzrrxXaRyCA(&`L5jGW?RGm=X&$zGWR6<
z-+>hFZkYZncxP)e*diTt8Vf#9zQeYYc%uIZ|N1DkeGeRGXFbXdawXQNfAr8H9=48i
z3YQ(R%sfA~bM0#4l7UpO8A=~f3;i+}9Aa5rA?7&U&i<{%d;f{>jv~!eA&+7H*`85=
zXJbpLnQcdJg%-<a01SJKz{GOiF<HE2ETwM0Hm2umJ<-d+9iJGUIcOpe<2)SF^ggng
zgDy6$8^{~fpD>Q*pc|R3Y2SGL%Gz5O<taWVLkF7z6xWFuujiW?vH0lTxiV35hg8{{
zXyFk7w=Xj5139=uvtUATIx1%M5%8{hKR3JcWXynMVme*JNEu`FdWHh+Tet?Pm3%l~
zq;v(%Vu%x>Th&tQ(M44A7-`AXbd7JwR;bS~7H$aEE!`)ckh@%Y$@h@YD@CaCSphc0
zu?P^oPmy8M7>%D0dTD$UQr%yOO{n*Us>`zA`_#3V_v?lM>R7iST$)Gn4RNB5Q~e5D
zu}bRG_$IUViPeC{+KBeN_b}fxX|d(Fc$1kWQ>9AWqco$JPm-x>t&~;NXUu-bDgVs!
zX4em&QXuc7;MtrwOj}iTMOQuj8^v|qgc%a9A?U*`sP`H%8O4!D;G#g>7F=s`q_?%C
z?1$4Jk9i8NGKjcZYT-s2M89RWgfk&&(~I{FeGu7X<!#GQDu17ChfFt;RwYzH!yffW
zhEhT&RcNb%f=cx18FY}K-45EjgJo;;MCTSmh#vw5w!-H?tx^yOSj+nb!9QKBl(@A~
zmiRPcW9{X49VTqSZO@wXHK?_N**xibS#}Lzn=RNNI(yxELYp3a!SJXHPm*kkiMxdE
z$$ZCcY7J#{KHCCVKFFE+@)*QhDaF3bRGR4j_D|)L`vSVFFNPP&1>dAD^ypT?jDnhp
zdVr;fz$q}!2w_V`o|_x=80>p3^G!!`&l0Q`d2fg6GfQ#Nn#qOFOd~K$^aIX2tnqlC
z#Z4mX(3nbYE63gPx>wdBG{*a!;;~OrK2tD4z6}AicK3^B8m&MdWRX(oN=ibRxj7l7
zjQ$R3Z29$Htry>!MR|e<(VkyFdV9k>IBAkpAV?^EqBDPYH3{%5-JDr8&w1vz@2XZ#
zqmEcM;tlO>4~!yoj8*%i9Xuw~*$;2M48LqNERyhxc%K(v9F#V@9l@T%A<*5loOx$Y
z=Pt3o48dzfVPjK%jpphOu(>EDZTCi3FQH;^myX#~&(=H<R1dL~+Rh^`47_8lD!~zZ
zZpAi!N001x=+D&8uWoI<L=TIQp00k!s-=5@$!5NF1r0?u$er9o=2~e2ohxp@T<p^R
z>NfXSuJIC8u?*=PO3a>^L0(RMo;0mlNp3J0%6C1wG}GaZs$kdE9yrIM@#0G)QE?uW
zAZ0ltp#F2)(!6kMb&QCX`1OIGQy@6WQEV7O$zZ{#o!rr46`peDDcr6+hj_^k4qS&;
z5m#&&+JamzU!nWgMl#gu%i7#m<?-Zw_FI}MyLbQQUUt9g|12gbK^j>V{3-30?B~(v
zMqF%n1m7kdHg!nc*4^R1h4s3JNn@4LQKG`m(dPS#zVc8;ep6}Tp4DN=0RaB|kp2cn
zf)?xTs9ENSW6+l9nCq5Hz3d)pwN@~Zx)%v&m)jVaua(a@Bhob3yt-M0D(_hALUib*
zgbFgT69Ln4S$pIl0v<1EOZEMC2xG<wcuyG_3q3^a29wTAX7oJsuumCS*gKj)%nVLN
zy$~8Rro@ruBYt63)&R>xMc-FNrFnu}u<2EYyh;B2^xdGfauJXBG){5+^ud@NY~C&g
zLe46!Ua0z6zmxwKEQ+n3K<cn;WA#wNRZ-rvSHDYn=009HY<LWYafsnP+~Th$kjFR+
zy*wF`<n)%|3FPhQo(p@A-5Vof0eI$i#Nb-I(nOf<P$H$(=u<qa4J1CEOqoZe5{(gW
zQrg^%6{0g}$3~D*F$z!PR%7t{>A<UahagkHqZ5fxx9#4-*pS#Xb~5OgSB`gDk^e1q
z@2#EyQ;q^<ii*+Iu$z^RK;AOp^O;%}+2VG^+esagaNdXuzLr`5JT)Y4>Biwb)<0l~
zF!j04kc&!_So=uxqFllngyg54eTBLItqvi8XS<#WYo(;o`j`8p?*$8XXx@1^A3Zyw
zJ0fWhr!B2*Aga=);8?slc;lf#m-S?^@;5LQ$-mdRG)LHo3?PuSO2{BG@*!rbGohL*
zN*3b5!_zlZ%jqXj%PT^JkkQ$r4#mAi8TqXN>^dDtHg}|^PHnJJ=76VyH7yGoCD1n?
z(t8G&wQFeOjxIb@uS!*(RvUV0n9bK<JCN}0Fq5}9>Nnxv+L<Gzbe*Fg!=wpz0}YcL
zW`C{uFj-(4trTck3dA+CU2r!yK>Gql$KF`_+^h3dqL9@UviDDCT?BXa8BalV0}%@a
zgV`vI{}TEnH3=WX0ZLi6{5Z-dwLiaGuZLK9tG7qd;k<;0f^-k64@N&cNiCj>mhwJY
zg9y)Ga4H_OI1Ul3HU3{`cj2HC1!aZE5;vFKKtL;|t{{2kMy3*uGt11$3*56nv8&zv
za$1VHCO3Ara~P{XUmgt=<qk{j)$@x#i^6PRE8p7k86bADd>}@9>)zGl4W9KQ7CM|p
zC%zlDBOvb(i;d}7ak(^lT|dpd`3J?+tqXzPSTC8zJHn~V{J)`g6f_VYUo2W=o6aw?
zxpL&|*>y>~4`4h0@9)rLz-Y);53z9~BS!=FS3Uz#&KeCm!y3v5D|rD7Tc2UB2D-@h
z^<uLJ_t8hVPfrFce*K0V1Q_Z^J>T=kpDdnOV~5}>soUHjIzl|7XOkyhVk^kpFVvu_
zw0ozvoke)f`(4I=zamLZ;2Nmx11MMWP5CS+W-7#CouWy0M_D)G+2%BIAUSKAAF|yQ
zpLl9og5@v2ak39!k8ic=MA_ru9T@-o84@W@&hH!M_+D%SHTb(<YQ8@QHXQDQHWUzl
z7@a{Ba%G#F8)ChR`D~ExOlbapzi!(~Mk$|rJ^_7<e*gVGbQZ#;<fRtzv*C#`1PjCa
zV0mHol>~vXgA8#C!3kTsC^ZAh4M+@Ji^Y9pPB+jdl_~CK?>T!2Q8L+dN4E<?fa=9(
ztVu`>T{4I53s6Oi?>x-WG~z=4BBus}g@9P(aLKwKo&v+>(Wmw+Ua<v;&AiH#&J|6D
zO%AAAcZdsl6oyYNda^aX3M!CX5eK~sk*8Q};w~%Qd#H7L9aPi#A4(l)o|xSuEjscz
zqM>DqoGX6k8Q+EA^1zr4lrPz<Hej+uYT(5NgN0r)=oVhh*`-4K2_a?-H%=_A<VS!X
zaY}6DYoXb$4nTTy_i^Rz0Trsf$&yjdk}SOgx_AH08h&><vz-Z}E-h93+cifvw3n4X
z_b-PjU(24SKCk@#;4LOKfil6?c^KDk-v1q<u3LH%@d(W0fw>1c-I?yjhYE_v4-jep
z2)6zt$SutnM2)yP-*~?5JyalCa;j<lxb%$@tr6yvIbWCWaOe}#hzTUkr|#tdwcCL>
zm?~8)^){gm3V4pxFnV7xi*-Gw_HG}|bx=<Rf9{E>S!8=5-m9>BN6qDnFs*V%_bIFC
zn-bOpx=Yd!7)IT`7OT%=X6R7=!b3sCg23Cq&>n!ShkvJf5+1{&rEzB8E#bbVG#OEo
zls#tUJAIINR4ACVz1V&OHBLd7CB^*&H$R52M?r6hK=lz!-FV9wE1JjS3fOu+ad696
z=5Rp2*=QCdro$&lfeO34R)loJCCE>5Bs?5b5@liE0gmbrfx=pF-jDg&255QR)}FG`
zCs+YFk@@a3BrYJzw)VL7{(EPye-^rTN%I^*y*mP-1QUR3?0e{MW!Y_UXVOgeRZN|4
z0M+}t9S<*ntg0HCmb|n_kO$VUo{_AeQTQu}bel+S{0sv98aOtc2Y@c;ltj@IGE0^n
zquT!Lee53%<tNw1gu(y)-7cY{lW8dO(gTo|K^;!!1pfoM%CpARm|eJN9Z;hER%8<%
zHXoTzKLDjFoUvYyv>eK0kX3#_k~Gcv(4tqT7RYzT%yU6D`VY`a>(F}{BJ!m$qXx(r
zdj6*37Ty5>Z>R~vpq2q88RPnr%K8BjDl=y0q2&SjD~s%X2trX4r!ic##`Kf+&!@M_
z^E`q47~|oh?kyyV6np*mDSaS0bH|h~7_-PH<9&nnpTqYK;LKPLpcDE?9fbgzDPBB}
zZDe}kXbYtSb&8aoqHms(ewvaDNw<dAPRKPHh1CM~%)22PN#gJq`QV&~mSzWEyB}bQ
z4c<gnHaAX8dvfV}p$9vpRuYzOU+<v5C@oj>ci`5JyZqu6tcN%zhaRO)V4v3Z$13`-
zcfs>P@bJJ~frzdVxE;tDY4*DB{<*NN)VRfE15t;1EanVH7vxtd-In-=DsKH|i1(Ao
zv+ra?Wg~=}m@E?{N(zsgG#q&@n+px3`s)f9IzshZJfC&94F(CmeGeBmsD$I!A{Q`5
z|62jpoz;7kQj(!k%Jx$xi7nfL{T!^#bLAq)AD3Wb6ZILeHH&vz6Qijdq<5=O_rK!{
zN~NOT|9-alv|Mtp0<F*hm?<hILDH<wSMWIfk-a&Vy$`fEL<2l>N^VV69)KeuzYXZB
z8EE{~yw_7VI&lIn+6oC@)0}U}bJQ|##Mo}14tNCnZ)=j9+myUu`8^>rj0ogXwu4n~
z0@2FQtm2X^4&_ZyVNWAVWR(LEf-eAQ=2E*MW>$G(=J7_%r|O9YGdGEqCrEmpfXi%r
z2)>YUM7<e0F9for%%oX^;Bad4Hw;yTnon@1Wg+UsekAL*`uw*RkKIsN`uUns1U|1R
z?_cCv9cHS+R`B&iTka3Gz*>j3W(v>1(PktXB?k#Pw4yfXmJk{sfXb%J7WM7m*T!po
zj2*V{Qzv3sO-EA59)HaU83I-)zgx4KcgA%BfViYn6Qd`PbO6aIDXh)^5@tnmy*JWt
za8S&0q{diJ5t*0U`i9fQ;;s;x4aLtDN9rXYJjjL{$x1#MEe(C`Gpru!MgQmeKTp*d
zS4zPNWcMo~o63mwHG`RtACz$LKWxH^d=1nqIRr)N42lY>o1vp8ANd-83^zzb>YG^%
z+zf&>-Ur^%$9@w<(Nj_&YdN_rj3hC@`I1^cogCpj>u&Q4+A3KG89L;h1O-v$dl9kw
zAXqGp-j9*o--5;sBCBT>E<NNL)|ptmbZM=(zQa3nDGGT*^?UaXZU4ZJzyI<^NKD%z
z11U^^>M95+Y%EyD!L=`Oe49}*RBgW00lpwk3d>)T@7eR~(bABiLkuC*rc-*EpNfEn
zlWJs;7ho<h1TwlDQJ;pNABol|<-J8!(YFA1xA|P_)qj@?{R0j5`7cbeRLChs0@B{x
zlr>Y|pxg`Ixn~QX&mnlrq|UkrBwlutewVBCrIn)-`63&Z;><HIv(E4PUFZ{89f9Lk
z6MJI85~``;#^5)pXSt^>)Bh&rb)~6eJYx#4X)&?7GVko&r{5SJ4Lv*R1dzewuHW?=
zzww_>x;;#kRueF#5sh02(G{R969>@CCjts_F0$E8IZBKoTnCHv*4L*y3WLa;Ta^Mz
z1uoK5#hvzkA=8y+-vImG(ySAkCe1=9Vc(aj+O7EDAu_9OKh7eCihz9aJ2~*8fE?#R
zG9s>Pkl(yH>E{z6IKgs#lrinnsJ^C%%~qNu$`U92w|FQ-veg@?#L~eB`Z~((GHU$8
z^Pd->IZXOK)umWF*=TB<B6a=H`56DFp>(5>nXcTzIYdC>fHk^|4VjM%pzD9WXU()W
zosAfHlnj|1^n<rpJJtu{bzxvloT?pzso7TiaS9UkQ7|^CZ3pNvW_#d8E$XgeLWVQ6
z%6=&EXFp{P4+SeBGcuc0_-P<%?I4U2nz9#UI)xIS3>(ml?ZZOc?@6a$WVwyx8|zHM
z@ff!XZVVezoDw>~)jKibA@1)1mBG`-D1WWP|DBVud_|=DkK*amk%rt#H-LbJV6J%>
zw|_iu;m!HogJegGd-sIF15P&w7<>A6K$Q7xIp%!^YlrK%v3x~(XiWud12LPxKr~EZ
zbxz2eqz3XohRGq)c$>8c=a~eE>H#wu*R}rjp;XPpyl9c=bpjf(1IQFi{;6w1rJW(-
z@U8Yyot<VZq64DD|6mPHA2SfZz3TLhf0V(2XG|HQB?Zn)eQoh|xWT6?iPd#M&G#Dy
zr;ES8qQdP@b<mNGj^Iu!7WmE+rrvBYO`E-{`tpNqcM{S+E&8*d4Om*7pTt~sVFEs*
z4yhyos1lSPYRtk!3%zlWOq0eR$j1!-54+)3CN<$Axg8ohp|lV`1=s}7Kmi=O{~uZJ
z;g9tn{*SutnUS3tviHbJ_LiBQy`}7sy?1t22-(U`$ljEYnKBb0TUMOw{(R4QobT_P
zKOl79@AvC<UC(*{Vs0#OKhAvc2^?^V@Ah(GhA^J0PwUa~2gFT<Xj4wQJv{(|oX8eL
zkvK3eA|sO7bW_;&i9ks>TMh_|SwEgazbLO+o9Op}aI@hj$mSNA<)OOtVsdoD^fVNu
zV|bcxC)JVU*!b2xy?~%_b}X1V@;DW-Z8e7;rEj}w0dY5A?r5;0h+4jUyQA3VmY#Gl
zdlHF-i|W4nJ%{8Q15pf}1<I!Ent^yo+|hQz%CtaOOpnJ5RHZTWOlxi;#jcy*D!N48
zIFhFp1O!5AZ~{hy1xr7=1qcqv?%&hPN8t?nhl*)*{wNt`>xSPMBobubD=-;c9&-q4
z`X6kIUi*KJ1_8vAF9jj^92nEkSO%Jh4d>!(7`v^U9di7c;x6zFmDeVw97|s{fwJ}h
zA8`f9gz)X2A^(cX%AYVLmh7#7fG_z*BX3w?T~e%2e5;ep9nn9{t9mj_kCZToAI~bR
zyi9U+*VEVO%6*N%Mj7jUFeUpHFgvsb^*l)<3Q!i6b*CgP%t5Umj{5J3#1!a!lXv#Q
zDi}<3XV$^RAF48D6Yb`}u8FVA5Xlj7skn_>-B#Or``%2M_9`r539Id)D00l$E)EY=
zvg`39o<Sk-cdwbDg(}vbp}L)K?*}@|5mi;trO=(Kly&doFzA04Fbo}`<Ts)Bkx%G>
z_TEED7nqHjbG_O@BSId;&U-_>1(at&hdGO&?BIF6QN%J|*MZFDqaAdHiASPs422>c
z!kx{$rXIotsIrK{yrW9<e!(42pFKHZ9{GnpYCQpnoc8ad^6=r6G97L!Q)t73z!U2x
z%*656W~Y)(+lMnl^(B7EFOmA6pJ9qC&;8PFzY%d6HWl{+y(83na3l<Sz7qF3FnWY@
zBQDi<bxL)+#5U6s`i2GS$dg(``L{m){ZXV2KbVa{3Cm=f_Js33WcCG1LE9s$!r<o9
zCAZne6uGDyJ22BvlluMIH~;tBK-6{fy*Oz1mEiHWi#js%)P9}f%|QMkCq-0DNsb|t
z!_L{1+oUONqv$U%iu<br9!6b+b7VMtT%O3FE0YsPu3%ge&VMMz|4nJhY5y~&sRt8l
zZ>t%DI<%GOzFJKmwHti=yiMfjr@%VARJE@E0#iQIJyIeIBXdMNPa<J5Q?jCw2p%=^
zg$uBZnGV=-E`^2uw6t4Vv27GZP_GtRLG~p+epPz|%yKC4{0q#7$Z{QR(;+fT#fmT#
zT};83WkM|0XR4OviBF!gJ~ir<t#!_C46dA9XeRY$c}~xO%@@whu7l%WZt|YzM2+9^
z3SQqJ5a}<cK(ET+5l|VZ#b$oPf2eUXZcHjSjE-12A;>8nc_trm^;yjr2agS>7WGw}
zl_dOkqvltUYS@$;DkBN1+1{4y;r2BnqfJK`#@!U~kd>d1QJC^$K7GAr0Omd6kHp4#
zxj7Df87!6c_plI(d-`upvjPHw16lCOn~oTXag{v|7;w396n~gDI3)jgl$QPT-2wAm
z6}ij_Ko1I603S>&ny7)Z8KP5FFBP{<NGo9!XnvbZ*<hNZ=mutqVy=;Nz)ovntP-A@
z8i&io_J?TCL<cM#8BJ@ROtO)y>~ly|m=A?=O^W^Dh4v{>WN9v&9x$tpE2-cPensYS
z)^Y!P1VhWj+XW|4<GpuB0RXqMkGWa;s!}IoCJ!BrJ3CU$@tk%Q7J_^uOrT}9+0A<S
z8Pzx!PXH7yA;o|FiQ%_|j}0U5U=BKy+`XU_B|?2}gR=(`<~w2LKFbm82oY&JEHc+e
zKUWKX!{<i}%|+16mD>LTGYi|-``(4>8jMkOVT|-&hVJ}_Rb4|-HgYE(L>CRfoW<qY
zzg(f{pu8X0rtU3`ehOiK(1MB+ZrS(jA9R<zbciFd*kBeh55WWNuTn5sKN$s&X;}@k
zJPVGfL-90Rib@{g`pa;AaTfW3Cq4nVW-fcCH^w(qRj%KqQY>O2GJabS^C{E;`~_lb
zmyN6lE}3AsNohWif0*)ua4-Blh^U<W{5<9hk&i0Q9>}@Y9>)msWh~qo8aEYB+gn2U
zu98%P9Z~!2Ebrhfu=Kx2#tAu$ro-!m9Ag0(=Q+K%4<__~fH|xd9-H$d#n-*NOuyp#
zjGUw24s}^V9&S;yn2|AEz>#*AtauXMgiFi51g~BC#Qd<lNb>v&-D6X2x|wrGIz%Rh
zJM6(apvz$9nZ|txnTf;B?GuCTYc4IGiINHvBEq-%ZRs5|RvYp&;@@2=T$}mt_aSBW
zKCNbY>T!Kc11Wd<^k!N)-M&c*sjKM-+g{lYp-l}RMwm4$eQRKrD1BkinUO84@-rlS
zgr}A3`{zeluJq1KvvWC>WD500EOPlZ%v|A7x(woefJN}a_XZy{Q`x38NIfuX_q_b_
zjhKL4>duAs^Q=GI6w0*`JK&H|{fpu7r9=8N5K|Kgn5LK#n;2v79u)sXt_?JZa)D*K
zmdjQmi#Vy26QoKW8a)o!N}SSz07I|3@Ue#T&gugpDosa#@jIZu<58Y2G!y^p$^Y41
zXH!Y$lN^BA?0+B8U%7f?5Aq9;4JQD}+=r4zc0|T=KAo@pHw3gv5Q#evCwc&8Vq>3K
zNrha=Nw~^BSagNL_iEKfVo0NsfIpTirc2(o)AS7xIF<niRh}TEt)+Phb#_qUQ;V{_
zUt!Tkz=G=yV9|7V1GLNsF=Yj$hvhK2!a_>XPj`c^pTp*?`^i>5zq}eBP4y`Zg9$sn
zo@M48?H!v#^zQf5-39)GW_6IGX;m7_vmKpK1HGyfP}6l8Oxg#G+;let9GK*rpUO!H
zb!7`@mztohNBLXjzW{qVO%x*&0xKn1b$&;Yi#+{dn$2op-YoDyX5>Hz=apvtuJ}Q9
zL8007u_yL!(Rumb<egc!R|!#~imkxS&V9%F?=`#s_CL@rkOq~eR0o8Vcyl?RW`+*|
zk}!jdUwgoZT~`M-(DSdlnmaH7srmwT0Vtjacn9i;TcSNcx2&W?FX3Ia1!PW=Fs(}e
z7JzMcAqSZAUE2YGt2D57idaLGi;(dt3=jjm1waAL*IHvKRu}faLAVTi=*4=FI!5OM
z(HsDh;z2>w7^jJw<5Q$0?N)ub<=VPw^6W1p{xrjYGTs3zH4L&cDN6B_uPJOE2Fm7)
ziT$E^OeHwOKKu{DJ{>yX$IRI`Xw3m2K2kIW$P_$`lrDowj1DevQa8p-Qa6e?-hOnZ
z<|}U9X7uUTSpFikbHgdyM=l{rKUDgf13GT(>?2l%)#^4^U)<-pCX<xR_#Xrv_?5aa
zqB(-+L+<IOHx!0XI%YRr$3IuWY>0(#*z|Y~t{2nOM;J1qg!=~Z^a{f%_KhoIJKekP
zLqCa%x1$EWQ(We#@x1w2!@Mwo1f5{uxCcSl(5Z}3M_qciC=sdaGp3B9FAM_qyoVbm
z)dvfNSw~Z_O+<+odMiVCpb3biSL-|27U6S7>bzmJUGBsM{R{?sK+yHKz2Uz%EkZ9~
zmd6)XI3u#ipHv(jh1EP&O1zIwDS=wp>$lzlnb~+ze`D1@9}XY5I&c?Zi&Cz73kT!3
zMrVWVuV0|of=)@3J;vC&)W=S;NZ54=Nkreyh5A+qbG_ppM`!<DTCIV4oVp}|d*J&c
zF=YE6erUL0wxX6*EW5NX#4*7A^}yqI#QIgq-3(hdv|_S?f;D*ICUhSb-=jSSccS=<
ztpDEmOPe=Vw=WFTjOv&S&dY8%#dl+M*$k7gxB1Dh5w%_cbnX3T;S7M>9auOtCfUSa
zew6VmICyxQY&UBp58yt9O*=wcE(L{W*O$NU6Lyy}y4`GE`dkx2Y2g*BO4VN_YC|BP
zF#p)-AiMvo)o@Uba-TWN(ep1IR}PDY4O(yJ72cdD>wmJs;wDyBNa(a`uW)DbJ02*c
zP~;3i?|iLhd%pd>m10RfKbJzyjx*Y%!PTqS!s(WQZH8q0LBN4&|G<5J?z3dl`q{F|
z_}D_L>9Ub0MmYxS?_zZ_F2(ivHY?2k5&gtwUZ9UcSq*1fIJ^Kk6Su<;*xu73UlLNn
zH@%gl?s4ZqivL#id%*4@L|G0%1$#L23!oZp1rL<4K9Waic$2I2x-r~e;JZA8MPB5|
z0_CmO^-jH8-Xk|#ntc!LJc(K3zZL%+>MeSGvZ|*^W<7mYAZ&VGEk8<>pp}QJT=L-l
z;<Y0Bz2CNgG0Yzs=uR~8+s!?V9x8bUmQm_?0Dno0$ES4)W9{U8akuWKT|?&cND9^)
zhbwsdKcqOB<@GvCUg+gf>Mwh$9FXOyCmgB%&p=J~-!~Yyy$58sGXIpXJO)j!sM`v#
zuoZ`pf$yI?*g>sCPA0~Av9upD438P|#ROtq{gt@z1Fw{EfEVuCjZ(5V*LWVI%Vt8t
zcOSvnUMH-Fsx&wI046<0-?bzrNTlSKeZbo(I7P~52hjcI@>Jb5ppvlV3xWm1#i{M~
z*cfgbKPb3FNmw|86KZVynaCc4Yco=WN>UbEF*d-v^Pyk3kMBx0h)CQC+V;cND_Cd0
zg3$j1T!m8<J;gZKdT*R(jfT)($zU<_{RY+TY|UQW+8K6oZUDcRHiEd%USY#fn_&nJ
zje`e{O7w+%TmiV#Y=LkFK8956$*?(e9T?sree-pgVvZZ`;}+YAZc(WB48DwdbE97C
zIoQvDz}SHeT~+-$C^>o-xE@Kkp0M7l+zf*W=MvKW>ogadqowqI*%Nzw!nLSYe&w8a
z=%uQD^~N2Y<PRXCFKW_QuuN4_;kd|gkV4HH`5(x#BZX#J9<#oi3T|EFHXpY=dV_XN
zbZ><Gggofo{BZGI7TfQIhH$XmOu8GGq@k9<a(AmBtBmd%bnDwN-h}N;h)h~xcuoH3
zD8KAOEbew7$}sxc7q5%F*|PNGd9<>TP`>=!+bIp<(I!)E_y&8KM1%B)K-LZU?oUAD
z=~(;Ks@!O$a13MGmAEmEHD&^{L&GeM56n#f4;grOAO0PB_XC_^-$B5*^475-!<*td
zgQZovN8V^P&7ejT8+8(-Ir_1$+!&o64v5-7WhSJK2eviET2z2-DFCiMq})K%Mk2d<
zloWm};+%NCp=)mwqMX67jLS9iOEhh(<KO%1{ugezn@A5!Hx4W0KU6|4Jlw3v3(P8W
zz6~}!xSnreWz&^0L?OL)0EywW4v>jcgsVEOor(xITYB&QcxAsT|GvT1hw&E4<0*io
zKr?sF@wW8AsQA%^JZ{B+mw_qoGVP?;4{?1h9f^hS@67LiEH&t!aV#qi-2C?b9rpE~
zsJlP13Z?0#oaX9&0y0$SXDnb+D=_|Y8rRNhR&wVJS5_Yo>c5QI?tQCL3HT&DQ_#Bk
z4hJ{K2sxE>?cC*3GgCf!*>TAd;Pw{+U@PMI41Acq0%k=X-Z_4RuAUapQEO<c7TGna
zZDIg>tg}<j6-=6mz@is+4FA1bHu-htBIN`5Bl+EO-wxiUrkpS&KL9J?s%k?P?Nc0n
zXT$hU*7qMnX%@h|G(ZOdDytJ@TTOhzuGs<!VlUvb<%e5W2w_BN9p>~nN<}FxA+|Xs
zd!=<a$hdkG?`I5qqICB^6(WnbK*j->^2+}B{ppoj(2xJ;xy*y-vg!HXCzO97{T0ld
z?@^Oc_-l7@BF&)Id|^BkNtWKwybtUSg{dnd8mAE;$!jgny)7umCN&8^VfotyL&qVE
z6TzMp)?8z(yI3t?U?pmU(b^woPgN%wglQtGsN51sueI}SHIi{Xh0`}md!Bu<WNC9X
zmS|rhr7)W3pm`p;G#+|J==;sk-f;!LixhZQlWe!OVQ_u<8+?gta2A)*&TfE;{oK97
zCci#?nq6~BFSQOAU6iZS>TSWhO_wp3n6gUZZ2v48R4Y%>umc21gWZ4f%TGW!PQbZP
zh;A4Lhfe>(2M;9R4{N{N+F%ViSl4ZP&O|<744Y=#x_a*+#tTU>P>pmB;99fgq5X(7
zx^8!f_0$hKWuWY;Ign7M9(0m~qTt0abY7%P=7Hg}o>}a1Zlvd7mlxeQaS#qZTD-;#
zj9IZE^2+kgAP2MLnS$w{#~I&N6qpC0HP|%*0GWfv=;!HQ8HVRupY1kBjb>WhodKDn
z6li|;dMHoZZ8USWAPu<v1B2cP%k$!LS`5ksu7b8025OT=Cokx+f$Z;51xEC=)+gBI
z6wNVsodKBi;*g|~6&%Z-m_iIMOvbZj=`u>?UXNx`$##eF+unj}!>%24&|H215Q45E
zZ|&ct1IgR#2Gzza@*_7rV$eVCMT=-~?gVAE8KtV6B~uul!b+nx(Wzlm@<nu=>O75t
zsk32aYgXCN?W&|u^3d3S^hN~JrH~qn$XzG9OYymEwH}ivANsn>C@M-U9q)ZO|6R$R
zv=h-?a@pWGsY6i7JHPqkV{3ZFZA1xXhc5ecRHkZLsf*`Y3#z*PaeY%wF!6rLp52~j
z0>Q97DINt+aYe8u`y5OtUk0HbluJzUFL)#Lk|{>_Gv~Lt9(by1eyr(GZX(~8dUiiY
z`Sf;%e0xbTpPG?_0_x~@UgnhVn?`!QjB($QEy2O*rLSXL!4RjJCwT^(PTV9xyLwae
zgwaf4bik|z+3K4nH;kDCw8-8ckQ&}uUz-y2QZj1AT>Eu0Z|cr;sFDTc9o^{BVQ-hR
zx4eC$T5e>lSe2h8JS9+Z{<6vh8=047CDq$~BC-5`L=QiM*RWXyzPz>`NJN6+^k4^@
z6*`4?Hy^0fK}FzAkbLSa>3r(E@%twP>mn}mM?u%S*92W*Fkc5UP@-V_$UZLcb|o^C
zpZI+5uPHYQO`RnS{#U01_ovIWd-{NVr;SFJVtD*<19_6dFG~2{x0g_IbyRvER)#7V
z&l$eYkcrrB5&sf{3i80et&6Yx4~AeQ_J{lM2oKdtiaP!;aj;Qm*`EiZ%i;GgmkE!s
z#u*qL#;~l%lX>_!E%@F47F|RTOJBZAy;)i?0ds;}E@T_WAP@0<S@dfii66J*AzEqH
z=U?5HvN5zn;7>-s?YQ#$l8^^iUWHNp9UqEsp5vu}VsaD}FMsJ^LtxGeaf)26-oGjW
z@I*?BB*F3<xT>6{o9TR(5XSt?GE~$OuIMKBUM(m^_>D>IO8T`#(;|XG+R8(`@PgAK
zx?eVsk%5+$O~yhN5{eu$_f1edw6{T)U_Eha#3;?J=8nEQpcapm3<swl_;B4jrZX`l
zYXw2??Gw=PK`V66k_aMg-*P{L1j)o_{0peWy`)t<+=UsKYI*4iiVn^*YB6`4qm_5H
z1&!V1aL0<1{C2Bh8%bkDSLfQC7vg`B2*3cODC2a4`CVCeL#xf_0{}nN{4;!arAVG5
ztCP2o*e;xIpD?x`l(zrG!;O|+6@Iaj{uO4sKVQpJE$rx@$mTUp19oFcZ_<kwl|1Sk
zQryyB7CzwqmNHY^i^IvXU%T1=nvnc;UIEFiqvcj8zMpw#ehsBO#HsO)b^$pHlZU$y
z(IFQCjUesmZOu7IlRi3e0(-LH?MtN&WQG*4ej50yDXScWZX%~~6V7-Aa~f`xa9lM^
z3~D|Llvfzc1VCa_^WyNT1#Wjz;(7bkOPW*4dMn8Zv&^qex?Grlp+(PZ<#)QWl13jh
z9*BQ@i}fpRAlc?-{hpor>q^?TKOht#9a=A7=gpu@u)jFovJZ&MVk_2_GG{?FVQ0>p
z_F$kM0K%g5+Y~yruvYOO5ll?CEpZVaM9KHQ=)OHb%{eNnJ=4Ae*KV6;JD0C{3r+-U
zX+X>&TztQ+fT_Ax3bV43|5{>*-^*d|NB!<Cf$8IcXf0Db42>h6*+1<UPfU>)8OgU?
z3D1o$KAwx&PsL3X`d;*{K|ka)mm+PGt!vyYP=%i`9NDU>g@ab_Nkj~@T$<w3gS6i+
zJY_|xQ`y_DknjI~pa0V$z>cW3HpnW#NBl(vhp!XsBjQW#H>wE?T@b|3Jss>ZVW2!B
zL?|v7{DJ}rxzVK=*gE&~VT>Wn?PEoloA-S(`&8J<Ml^Wqm8|g+_80u4GE^fgE`W4$
zlTtY$6uGv=ob-7sNibeO1)k{-FmiXDTWDQdL3CSnXvUXE!CX%~WUP@gh?-9a|DJt>
zr3)wiwwmf&&}V0$cJa>gcBwNME6;Q+?DrEcE*`qr3DUKcIX~*XhkFw9>A8658pETo
zhjclrLy~)?{*rgqEH?-qTHsm`w{fZl%Q<{*g9A(T>Az1|f>G<|7;<NLiQyD7CVU1X
zJk)sWk(NksD(K&qc{0|F<uh-*{#)q6tt=BA%8lfmTZNedoQo{ad3#6;LqE6@YULc`
zn|9>0mX_2q?zMnWf=}VxmHi3ky#a!|iD=C-X0dMc81bC30RZ(X;M9x(DP@1NLUHJ6
zDnSNWPl-55$*K2spf(RVvvO#MRURViK|%Iw83u@h;5m_h?(06FehPas$2u`aBq)er
z^uj2zCg1xA?5YfPNMNt%$8Y^om$%mwlE?L8tTiyw`!&Q<wHcNzwyi5-ef7z%@6bx=
zA4!#RG-HiqDnTxd^v4O5A9c2IJfonM8=B>(d%tvKrP%vQNZd5&-|?W!*A?4b5$_xm
zey$si9gD2H1|vV>Zv2h0NiCDV<T7rEUeywodQ<9Kd|Q{&XB*GLUeOviK@!Trd>l`n
z5e(y1obGc@{=R;OmGT{FBqvmD=WG=ida!d~b8kCo5N;n%0Wkx~)4M+u0ih6>iD3Du
zVV_~s17el4oHYfj1z`RtjQ&=I`;SB8h~NsSz2i)_hM9(HKQUJ6(V{+fa!xf@r;4PO
z@a9@|&L`&js*koPz^*zf>ZcvK3F&9-)Z79>U&{;J`Snva#O>Vt2s<Q~Yf({NJ$M>v
zaEITyeJI!GS6Ga6$hKUc)y0au`nMX*s;F)=2cx2ifhGd^nJVg5J)hn>@^7yGEZD28
zBD(!fO#Lts(kanWyuwpOM*iSxb#ipcTskCpX<vz>;@th;deSp_{bUq5%;>jct~j?F
zK$=m2Q0T3ae&~t!j6*ee*`NVkOl9##k}3j$xzKp?{X<4dEqq+`4k8Ouwu?>|1w?d+
z<VKdCGzp125FF0MAi{_A5E4mTbD+h{pScAU1)~I|wq+19BJ!y3KJf>`??(1Iy)8No
z7AG8!gl52hYw@yl3gLC0<71;=R2k)mp;#AVnvGL~dvR&>7BfI~D(NmEH_DZR8M^^Y
z?CN5ps<)6D#b!CYfvtvRp)G280N`NtqgIi_i5kFj{3%SxIb)68Fm?LA?Y>bU>!*iq
zD>SQkP|0;Ru1vGg)*+HqGf?gW0vs7kf6kSw_4hZCg;pNMM3gaMk*ifWZjrFMjjy|_
zqiQgSCG@Ef<oA*E)D`(r{D9@TRx>(+oFp=fWXb1cF<rVn(TNzCW2uE4ItPIidTUg_
z4tq*$o-PZ%o>84mj0L5nPYopz{{BM+R4!8MjwhuLUVSNUb~Ba^PM5#+847+3aZfAd
zAG6WitdP$-2)FXup4HAF<rC^r>c$9m<8Ky4=62UUqu^xfgrn=O9A0Sbl~oaF(Z~q1
zB(VAKmG3WJUj+T~{Hj-4yVVW~h4thZa|nHF|5k5LxTt*v2*0Kyb6(8RL@uqmv`vcn
zs05l26+sQifu=br!k!wWqSVI}_yHFx7R@V<ZD!9;N=DsKkfr;T==roFf$?MR)ifcN
zgucR3XU--J-H;>gXw>nUAM&wv!xK7Gi1jBzjSN<m%$=A%Cbw&UnXANo1C%X6nL>8P
zhM$02LSew_tS_sYa-M=CbRmA}#^H#pA3DjC2f_dMvHb>D>>!4VrPJ*`(NfrHSduhS
zpvH<y^PZfMtQT{R@}6JAnAY>hxDgyEycV)}!6VS%NBpei#MW#O=e_MyIfNOu>jGP%
z%NRT2hKOM{N+q7K4&kUDBxw;X0aElDU28Xvw;h}IH?}Ro#x!JpB=OJM`MOWI!@*s^
z^0>Eb`Dr*ZJV~CC=Q}SK(e4fWtKgVEo&oxeTJtZ;T9iJ*mmqtTZGi0#AGJzjiZkUG
z7a|WzycSsX=<;O>Rf#Ni>Zd^8rmI(xQ7e7fjky}T>SUC|grw%qZ?(G0@+IM7i#A!-
zk0}ksaR+`m4`f#}`x`t;!D7IIjv`F{eRE}mw*y@qtpXE~=)hhEsjnTxPurf7nyMg1
z4?&>{O)MF0)}iJb^d>(W;~(rb()Hcqx^;h!G<`Qk&Q?X+-&9uro!O@xN$i2i)SsJ?
z(zqRvj}+cvvBl8o!?l<I($00_NjEo0HOVqg!s`YdN&kagz)jfLx0wp{Y!Dx@nRzBp
zLDC+EqU0QTCu#H@s8x#$;oye@c1A;-J4k0p<wIPmT#Z93@7$VtDk^GK<H6c`wN`Ih
z(oLZrL-j+3PD9<tfe*fsPS}M^C$XIm7{<mvAZC?|X4T_N4H$A$qH*!<!qI**&WTbb
z=9t#cCDI?e_C-Ol9=C4{x12$;Kan<qNw%U$Q@fTf&*QV0de;T4V8w)}j}s=OT;x<L
zZ>wd0#ykK>t<;N*=uN2nQdY1`@WZt^h)mj6?$ybH2B!L2rJ^#;5dd)U9NU`i7~aN=
z{@O>#?`D-hg^$pmn4g8$6Od|t_5pTvk88!5wCjcgxsj~zByL3YB|v&idrb>lsRxg9
zKhOWrMu}LLkrSL-#Uc$v=ArkwO0x1=RdbXus~Il{Ij^MM=_EnNb6{;M7mO%h3yU}c
zfHD{5KkXKX70KM0ZyFi76Je_di-*o9(R@wJCMU8GEeCBb;)pl}B1wYp@a4x@3;+n7
z@3Rtf^MNR0Hq>B=4xj3?Tz<jqQS?jDGf6YL(Ge0Al{3V;X7ccKT)H>6am}FyxT0rL
zry=N9@hc1jcZu~%U~a^A33l|H@fm;MimMpD{%D*@mCw3kH1A%HaAC{1HZQi*YmOM{
zM+Lq$7_J}SfY>D8VCbBa(C&O2BxC5QT#CY$BRwlhDA78|#e!YKNGZW^;dfx%Ra1Qc
z+2sB20*@<a3yt!KmVgU@KoUZAc_v1M_N8eMSW4!dTe=tPT4KduqxF=p3w9c@t9@Pq
ze<-)j2j>}{(O9J;GIYwIK@y9{@_Z;ovTCL{3gP5kaa!`U$RJ#F%ICy%$i!(kD&kwW
zJ9F#UlEK`2>xA2_b!>L3@0#$a%Oas(B%c~DAd~cskh#2QD5EEA;SZJ>I%U-|sp|IK
zE0?I?gs>o=0640Lvd?!L!acRLx^~SKEofG|$xSJqgYN4bfXG-9i*~u%6=jbM(lvU6
zgYIvI=%Rl%UoX-y%Tt-B=_>|fydba9-Cn6&qpe<#BNBf1$+jh3)J`4mGI7$WxQ>!j
z(<~u!uusf?Thgi*yQm#fR=?aT*~`+0ly2XHRH|e3{x7V?d%XWCy}pgW|KnS&wNiFz
z$FBd&?L{Qr2+|GR&i0BlAIw>jE_P8qVFxdu#0qU_Xw@`wc^}fEws~$&0FjG}dH4#e
zFP%*_Mx5dTS4OzM@a|YWXh1_zfEP0I$uw;%dZulhhGK%AsdlkFnr<~FZFOHko1ZFS
zrYeT@Eur#o%3`G95dJx24v~B}Dudv5Z`^40JhE_g;*pZUhQc~NG+ebmA~c8J^-?lx
z{=q^=9e9jW(*iqCObE8JRJMR^tQd>?`QP23|IbOC5`%9P`V6Up1#X9K`vf5xxfk3w
z+kz=8GZsv}j&ih`5Ir4q^(zQO2ju-2>u|lPAEDVJnRl8{vim>43$JsAtbP3KF#Z)x
zsTQUYGUPRPMB}Y~BN2Hj?Aee0XYN{<#hkcXa-ABK(G_2BK{bi=kSR6^U9<s1s<;3R
z8*38F0@^<<OtwYPqDdx|qv#;>Y3Ui(Nxo~Vgza&@;*>jVS#K1*y#cI;%j2l&5;~dp
zF9ht_<t#8~!5#@9Rg>f7I=I55?Uwi=ZF3>+4)KcRiJcD0XI)A@1%dk-Hyji`GDxDS
z7>SSMLSa3yJVhxf@r0h#%A&;f07^~9m(_hrAS$K&f_iD(EuetG5^U;K4d5y@)jX{F
z1PElp+s4B4A>Fy3IP!{PN3yAaksV@)#{C7bm`lA&Uh0df$_Xheq(*In5o=HiLW)T<
zaC7~Bmjm|{|9q3>sP`Qb9B|XX=^-bJrcv$hDQDGhEO5??=rH>By{xMY1tl0oMP5b^
zg&_6k<hPVUZK@fKq@|}7IZT+cLChQl_out$vlC2)+bsT+u~CbS6!_?;2_#}_On{&e
zOjXcd)lncc{6*<epb%bcfAJO@x=TP@)FJ9ks?WguI&{aQ%H@FWyUz}i1o8?j*NFp3
zWNcGl083vV#NpjTX2+@DX6&_f@aRkUSDrbNEkMMtulJD%4}0B?!S4f~Z*0!ZRm;E<
zzD?8j0=-Yg^_jzm$%F*n*vO8sA=OruO1|!zCfJtabD!SZ@!b8lOc+$7Ps4`j&uZ+~
z0yHir|5BcKn6}bLoz1q&{V6jqN_}97mxhbiqh+hG<2lO4u&P*Gxphx;;g2sr<K^<`
z|Kp~v^rMpWaiyV;IJWFYGOAk3(|0to_o^^`2mHIjxk>eJ9X^4`!8<SCU^<d!5!)35
z5W^DKN92XfW}@WWe{PDitd!hij!DV7)<>x5sU{c74q;=ZFGWkXKuH+K+^uv}T1uRS
zIz6`6UNFUw&Se`*mCRgdL}Ox1jG0bsfp@hV_*Y^az((EkXqS4!k+(D<;W;;#{?jv<
zx|ho)+T6b2@x8`%Z)GQ@w<_HLSl{{`Lnek`A9=6OYrH(FyM!H@W}VH#zD0zRwJ?s?
zNGW48SC@m&{vzj((;=Da9*hJPbS78ep~9<XMCsIM5hgyxbeOmoG93J@HHb|-_Ljch
z0XHcbFZu+A7WRa~%;ujjbv9_+l1kscMBRb0r~5gOU>X{>?^X3lo11_Xw&3}rJx6e}
zQ%wR4V`v^B9L<6b9Vg{!KVmpE=_muikl(%3Yf($RdYq*?x)Ez;(H>ir=&eQEIghd$
zBl_bEkTN8IqkQ)#Gd5opj>f^~oD1{G?i;up82-PoOUmMfWXqh`b?1E4;+AVf#&izq
z*GL=c)^_fU=Dk^1PWwuVe`<TX5Y@vPw<rF$+lf2rVTit4M5I;0aKJnbEROd^8O;WC
z0>*_$bTQHVnUb-|7+FV~b3R+~63jeJH8?Hc;VHqoEE~alYcufq^xONV1G%f~uTL#;
zw+9u})AJTtb^~HskE~4U`8!5i@20*-=YQ9o9-+EmO0X3p9ca(8(|chdYd9utIPu<`
z6^o(#;Ofd?wXBS`{vm($j@su26Qm9!0*}8i&6PaeVc0Y7-|zGxiXqOfQGI{KGtcZA
zl{Q?p%i>B^qk|P8=RUQexc0*0#1i$a&>y9qGp<h{Mii7Wc17Lq%SdnJ=IxjU@P`9=
z-Pf}3cJSx@>{Pb{YL9=ZrvFH!Y3jemt*tc;3woB_0xSNV-WPc0cX-tWq`8ZC`S5UZ
zCUr0Tlf5c8i<o8-_P@!0eQ0NXaN{=|8Q6lqKPGSAVvW_FLVw*fwmfH8PHBqWC-c{F
z2IIiiy^2Dm=OVb6>qGL$LFCPGlIg)eU!%{g$mONo-&<ndD=F>fPY<1@)>eOWbWahV
z<o?^U83nJbnZBy=ADU)*-aQ0&A+{*4aaF!0nvMA2FQBCV=fIP~T34l>FGcHKeJz&-
zVK809^<g(1a2(M37)FNoR$$JFf_N(MS^$J6(&RyrAxb2(12S1HKBsVUcW$n1$qAf&
zB-$D+uga(u3O$@RUtY<K=NG53ykG(;dGZU?(<=j#u$F^iPCQwbfVRt02A}NBtgFz-
zsnfr4^z9Lz5cOgA6WBkFZwGr%*+4Z9u&U8?HDD3lCviX4Mk8uQfvGfNcNP*6`p2CI
z$y98RrSX4S-<UORjC>)|6=?CkPxsTlU(n-S{!NDY->So68uWs#FxtrJ?dD%!mMY>Z
z(%x0Zi@WoDgb~@=Y%g;Sp}#==o1I^M(^QhuT$BFWer3+Mk8LYc)&@=*1-YNBoX{OA
zEceg6H*h4?WX`1N@leY#oURbP_gD2X`*jSk_@Bbl>lCf!CN05EGd)y@aQ#28VD{ue
z=F<Qwb~g#UCAq@jD>)mhsbpkSZ_el~2Ex`Q?y^_Q8yi}k`7P!wrQ)U6w{fss=%=Qp
z=4J3DTM`p~MlAmGk*%D?GCA#&iSfSC(kS=rQ`gxW$t<fmpTtZt2aOwj*hcI-*%OQU
z?2A`>jql6T9{POPLf{mUW%B4(>w&VMnUZBB<<*bP4#(r|c(pBkJ>GWJcLv)mCM+h+
z@;PM3F>!jT@1o}CI5B4M{K{ty<^qSz&UliKtYnTG*4kCK>)**zEV7JgkbeE7+Vt-6
zF2<wXZ;RdS{~nbRWU$ChtH~JlAEOp2P;90jowr+MQ>gD0QjGkqOmh)z;b|^Zj|qR?
z{J$NsY05Up&N9gq3Z%R6VG}Jf^aXUA@O3@EhI$ryA%VAvoi{<5_Nd+8cXPmjPywh(
zuqhRT3&t641FUm=d;K3!patG3a6~c{Ou*wO_++6OF3L@Y?XZMvpwkRNc@I3hTANa_
z0P+b*Q2su=@V96XZu@^o6C^ZnU<uJoTZhC-^vwCfcehWsjz*T34etW@4ucBbz814Z
zLNP$O^?Ia4uvCy(N<x}fUV=m!+;v%E9wjOUhHw3>PGOwqZgKk;EMEm`)FmLdxPQZ!
zkwN|tc05{EK{9`qLG})i6o=)^>*paw5Sy}`C;qUfO*W1kjdRhvKsLf#WO(r?nfeuw
zLQ7pf;i6V3FZEwlAoX4Z3{b!%)^l(S7Y{eyTzN4l$iE?jH7z8hwC?P{WzmH`PkiE5
z;AeEu_H3ibHbFjz^h;>$G%md?Jy`&Gp)5;Yu~%Q)51@&_|FBBAxABN6`%y>Wy`RT#
z#6RikvQho=*;NZXvLw36mv=L<h5QU4^ec#dvd%ryHY`f~ZD)jD(c$@d{uiv}(PpIj
zFB`*>&%uR4O-I4!_5}6YZ=t-hAh!<ZLXC)-J0t@HTI$toCsqedVzzoS!UT;(no2iS
zC*=3qGIN=TO1?bL+?cb^Pf%)~<Hp=j^^Q_Iy-nx#g7bH*hh03P|Epcn7gvu1u7A&l
z-f>5kliT+t<Bpf4xOo^d_lE7`I%|C=!TIZ|^1r|cc)#d?{(+5b8F|X7#6Yzf>y3M{
zi(l(ILVNClg;o<T19%c%vaph=Wl&tyww<F!!<s||5RsbSrOxH!>ww#iyqizY5XZwL
zDi{Bx&Mc)Wb@VMtkh2~*aFH2w^_n93+i%*sU6Qu@;P3|a{|_MIvB~G}VZH(#z=-TG
z^tOi;D%kSEHiJpXEfKgNAd!t49L7UPxC@ZFRxkvpg!m{Fy@?zSykQdYVdZJl9I8sC
z4S`P9xG5qIZov-NCmcQ$Qac{+3Ooz%RQ+KNFThD&3L#PT)*MAy+QVjpRLYBMdTo7r
zBFIIEgoXdU)(re6R`3R{k$S9wBrN<%$9-vB?s%{yZzEreL;=)cUhwTe$|fmW*8J;E
z42%=Ya3GpJk<a|Y=?aXg)ye=eAm<09A)V+H%#7r;H}scG1pno%oi0?REV87y@a>4J
zo^zOmh0l_v$qOQ*!{If$_iA4IqbhGWKq;kOThkzBj~8)Mi2V2IY2Z!gmn?~Hm;}@|
z2?tN%Ko2~r&-dDy_W~u3vKn|{xjchTd+524v@zzx4+ZcZ15f@NOrq|6WCjHT-HiYQ
zAz2<r9{_8!B4xZt+d*lKq{4sz;QegY-Gl6s{^)QBr6OlW_OJT#UKh7JxSwy97CA-J
zbZi}g%TNNid~VV8&@#oI7SGK>ikYX)%b3^H?d+rL^TlHzINCDzJ1>ZXhG}ifk3}|V
z<L)4YHGNhKK%Gp>N|n!4H5x$pE6qqJ#!7FD&})>4k(;_E{Zox!At2+W6o{I155Uy%
z4-T6_s|phme(#TPqkaTHm4I5P3}8htVGT)@<eAMzNu{;HAGD&*zIZ;P;F75MnX<Ia
zED+%TC}+x4XG3cs&gS(p*MW`ToEe2Y5~L%^;ejFAW~1nPhw*OX3g>Z>U+ytwz=@SB
zPYvou)&nQ$vl=WS9G$-v{f~Xs3Ran_em765>L=hpvQ89R2Wlqq9yay~Tz$WcV+>2;
zKbMIiJ7y|h4T2Q8hg8))yhe;A8Qy710{xUtb(`U`&%t)@gYEB8XDByEsr_$bbBw$Q
zG#nx`mK;unh=ZS+yI+;|64ImG+a!oRSo?F+HHoDYPN_4{Ko&BG5)ZV5;(@{>E3N>?
zqEy<ez(pSyyGG;~&+#KT&-r5G5M9XJ{$??0`~2mc??Wb`>0ORp0?G|b3)!e$zaStx
znZ%;UAMnl9?Jq}W=J9<f`4Av*v~Byz$sfi9IB;!0LiE?gn*Sr?H*F1N4v5Ia_b(_F
z79=>h^mK5s`7kWHM7^@s-F|Th>-oCVlZ>s=HvQZJ(bWK=o53;W`QYxIr&Pi;!4jh*
zs`HloUW?zZQ*1tQtloZ$%G;f$T0v>=u=~CBFVwZ;&d7UtW$}2^JD?v6X8^_%-0imI
zXznikwibKvs0y;-O<d;Q3iCWDc*wN!s=1Fe0=$PV6+C4Vf+2Ck@N6-zGaf)hyY%l<
ze0nl+4t52cJ>WqT`cSN=<+rJnN3(@caJN?%(@+NXp52M6tW4Z-(5QViWI4_+{)had
zdad(yZRh6ePvDvm{bC-9Vl7-2`gWCvCSb)ZpT~b>(CwY3Qi}+=M>zlLTL#pHkI$b4
z>KW3MM6nt$ciIkpXuTvGpuVOjh*d!#$Y(Rj)GC~JtQvMx?oHIDS=PgB1mq=fmy^e>
z?mvf-y&tQu1Z;<~hMdRv3PrExw|mHlb08<f6+~Q^p+km(s|iwft{xgZiujCS#I3ph
z^3Rc#r=c_Gz!o*k6hGa8w67*?!!C8F;Zt0k_cTcF?M6oJ;VSs9KH;4ZCw1$*2qh}-
z>46QQdQQ}1#Js)eHK)3hC^8#h(z0(pzID#6G&>K*Hxcwz0h!x_t5{4fD`(_y4s3>x
zcE0_WB+J$04fgw`v8ubSOVTB-+Rpnnt#rtF3J!?Rp%x5aPb;dxEdK|R@rnb8TVUwP
zY)a|>OwHrHHLWq*mNaO7bwJUBKhql~n6`%W)yAbn+TGTgx+EF<iuaDHkq$V{;7?G)
zVfez1UadWcM!K4vu5=9KTbGqefi`9u+ERah--_nx)*2<@xj7^*4p*^Ju$<RgSfV`f
zOeUUk6?>6P+e<etx5xtCdx<n+DZ6FVZ}|<mk(&6nf;sT1RYRtiz8DKT)$UdW*D@W?
z|4vF^A)!L0`HS#oeb;*`;5*562Xmp*6;4o8dFkJ5rqaP(T6|@2II1Ee3SdHtAS}KH
z0{s<O13!_3B&m9I#G=~E-AbB!K6LSjkxXl~P2Op$0wYuQK>^`Hx!WSD324G%a_)ac
z8kZ~<L@Nb<JT#f@3ItJiS*S=Om~GH}4C;T&+HJ%l^1SCAmmbh43PUm)nqD0c@F09p
z$Kj*trv}aNgWbhC%<o?#oQu@8L!KZS;eK&NH+@djL9Nve><&Z(pG*3705AK!|H69m
zxsqEP4uKZRbx5C#PUp*)R0)0Y7`M4<C7wZAW^_0|2Yx1MkZ~{)WP~&X>nAz}k0E)0
zX<xu5KAB%ejxz0d<+I2H#>;xLumTz_yGi+8*7?z;FFRvFS00a~FV$%a{J)lI8^#)H
zJZ;>3)#N9`xY9(nu#09Je-2svug9D(-s2wLadwdOO3+ez;7Zoq6z+_UGecQYiwrAh
z_|%TyByMFV^TU+LB($74WoxREH5|R-B*e~Ey#Zu@HPs!8{~YTUg*V>v392hv_cvSJ
zuzJm=+J<SAQ&n1+Vkb_4CmBARbo>x_9J%0wxhM=%{FxdP9MpK+Sd()tFHrSUlU|NG
z8~3Tj&m|D>BT|*a*0F>7XchKHUtih=^JGU_T1L2WEcSop(PWzgrMss1Ci5Eizs5oV
znTxsm$1@&7alH?f*q^b!t5g{%MEM=JiNj|%kX%FCro1c5X?DaR>F_xRLMjwTk!Fer
z$6I&Rz*$TcS(skJ_b_>ypE#o4Beh%uUCsPbebpqf#xIkU9iiA`XaQ1YRd?0QT6ihp
z0z3x;-TD2iforXP`$qqfV6sK)Vq53BTIbXh(H+R&^(W8Rzg?IaDeEwl!b09~+Sg@%
zqdSYc6n@qrk>p77l(fXgdEOdr_j)7G1Sa=9CbG08N57=HAM8Sf85<B0MR|;#hrJwk
zO1zdo)SAY|a7V$I$l}u<)gR2vKAtYPc;5|!bjCx|V_z{L9PQzjC2a=>eB-G8{A-W+
zLDwp4%H}wA7Ysi1<zkJNETuUM{mgrtJ$=~%rCfcHzOeYBPf?&uOA{cKvKHElFqydR
zBPpooo9PfLQmPP>Lu&Vp>|*gyUPUjTxEDu)#$%Mf>Tf{Zn1U)tvMb@s{~e)75`&LW
z3}m=~lbrY?z80SM;JI>Ikj(7SBT)==%Btjx5d4VM;}6o`Kqqctu8wbrHD@X1Q&uyR
zqLU$6l`d6*MIs|6O%jj&4lcyGBzjOlV=ji-Em?FD8-{dBiyP7~N7z~u+FN2>K>j9z
zq8aNgDuO+}198_=n%gjp-GZx`J{C22kJIZ>c*TB08p;+P?&!n}L+2po51mk383XKF
zH)7l!h$OfJc3TSlQzgkMUlgXZa>WtH|AAFR;p2)T7McLHcm>L2*UwJ=Z%9e;<4zAk
z$vu=}lVGiS_irxmaY!!p&9`ejem!VJU97*4O8!DR4mXo*z(OZY{RJP}w^#z=gIVhr
zjLdA)u)c&BQno$~_>s|eV&rf}@fW4pXsp9FM!K`DoH)8(@<Ss}i)-X@Of>E=T4RBr
z024Dn2$nT`&Xn>JZuuNu8bnLcXNAms^1K_kqKP5}i+<>>czEfg334Z!x^bpVfqeWu
zYZy0&FVF4W72mTT_TPGny}F^0WWQsbL1nSMC!ascwf;R_vOgxbbx_JxEb%o)wam^s
zMtgApJ^13^I4_>;F6Qs*bs4J>S?CtPET`&zu5tH!vCPK{=k_n??=~PiVOw<S6fWV_
z$ip9NpC&|cUhq{V6;WQ%>|X{Pa6J)kL^4uwFCy5~&SGN~4Fv*M*fp_h7_K4PjVvd;
zhkBoEGV56h3^wCs8it%`uQd1%Lz_bL<!*^QHiU!)9uYQX4wg<uC)1M1Kan?RD>`8#
ziJ(78{}Z$yLggi&dayR@Euz$x@N!iL^|4oi@HF}_rt?f&PeJ}qw3RG)WBK>ZXJU<P
zeos}}cjE>}KMZ<E%qOeu16>Yxy@@YOAhOIW>rv+xf8J{c08G476E|~7mJVzxqx&5T
z-)?0{*xh|r_WGRu`cz4dC`#r+!^Zign5^bW7a`2dqeypqRRDCOy&h-*uWs~u?<|)K
zh6O)*rc2P-h<T(lI`b#7L8sNqFU;~ut}>4+*P~~tEV-5?Dsd?)DJNOI^XhdL+<(bT
zDk%)#df*q-E*aAR3sH?AlL?u^4LPHqqoS#568m_>?|*;3l#S2o6Sq4p{9ecIiR|wP
zj;px*^Q^<#(Awtazij;ssiNuV4Ny1NqvNPectD#13(245l>bG`>D*54dR4%og&{t8
z?nZ&3jB05cK(u$a<BWiZ_<kn^k;UMxJ7`*+ZYVd*v?+uTVXlORSP3Bwb%ZW-;phlO
zr7$!H56Dq)b=5}2{}b$2fPaMZ66N3K$w(~f%}I!iXL#$skR!lT#k40xgMXLlF(tBx
z$K(|Ml{J450+~w0r>q*x3C_oDa);J%YV?)}RBZ{U#5~|NCnXmrg5%v)2c_4BXsMA6
zvHlYv!@66n98}NV;^utgm9_zSvM=M+F@mjF>@@mT=Q|)sZ9KaAmDDSE^FbU?CNOYz
z_d?m%*L`*h(kQM0l%+6yDDf2!bu^E%;Ey~;(XzGwfVt4JK85h-*Ql*^7qLDVilwTm
zWwELtF=WG8>TU$;-5!>ztlF9{A=ooZnA@8CnCNxZTfKmOTK8}aGY)n=AyroK9@JM7
zg=~fW`uu<RG6^miio{QS?0%PhZd)K27L4#AS5xP=9VRV%g%DGoX&coCR#C)$EU%h*
zxRjknQz`eSU|{zQb|>frs&A<t%)mXc5s%`Z|2QP^V#)#2)<6A;DKC-P9vQE{-x5}b
zHjbmbjKa(Icp<h1ZzxCzEi-JM#o{I70Iw;rM*K$@;2rpKu<24~3YW!s%R)J!O4?bE
zO5}0o@7zREj9=P!zY~XD*Z%_QCw{&#<VIFoY;7jp9Qkn_UA7gdAgx@(Z#vqrWXurT
z8wJiyHV6o-8>YswC+QsOF)iMSY7x8u1?8KfQ(_HCLp^R)abanfiVKC?i>!pE4kArM
z;VBUAAI!(+w3XA@l&Fy_s(pFwaqWA$&GZ&*42%g|vZu9#apTiO4xjJj#tE%F2O65Z
zCGBgYmZw4(=$kC)xeNvwYnQ3Z83XYOa@G#6FL)sw?zpNlIe65xGNhKNrCZ%pMOr2}
zOSZ$a2n`Ka+c^;CA%|xBF}lg9n^0$Anpf45{X07vV}Z<RqmN{Oy5jHF46hxH#Kp{n
zCnzB%G-{zBgIf4!`b;Ca=-1JMcTdehoe)z1UN$#_+-lJyXgkrKAsHr(WM54G|F3J9
zAu_SxIq~<y$V}P}p_8XTeGAun1_~P1p8l|5u;3zUG*UPF8dn;NMw>R?@FjK=(XXIC
zYINMwKDOb-0ywA;1xe`@!d%9Q&DY3CxIw^mD2B~PgjqC+C5(|$Mm#V}3bkMwp-!QZ
ze4KnpQ)&<Y9!~?hd}v!|k_aQ+S5z&uoG*;u(^*)DZSoOs*=&cXx~ufg|ByQjF4ev#
zPYNAGyHjENb>Gz1@>L26I%V?_6_I_X=uBFZo31CU8_0<L;A0G$`devYkg;Lt3Y}3A
zpLQseUl|d7J*Bu_zR^IWi2tmoor`I9h4EoN?}I!9Ce7+!Y)OQ&?ZZ>D+z6>Y&2Zh}
zpiq><M_oXvW|}m{Kd<4wOc-Ut@x#ituIK-LL`ll?O_`%54vPYB<5>uH4D8K{_0;Ga
z+HtNoze}kU*PU>tGIYilVC>U;Yop*b+qMGJUT?JpU&E{rUICNj=Bv(wa1<C>B|G0U
zc0kfDec&nMF<XEAGDg87dRJBEZMvp4{n4majo6x)u^lxjw8tcUANN6*@1(lNuyYwo
zQU2WJw%gJNsw3D`a$nNW7E|a7+~}Hkw?tuASSbLZFbgvY=KQ!FWuRJ7BfvG_`@p3y
z>4gmCtvOh`V#bAIexDvNF2a%1(I?nBwP0Nc{X4m+u_D5SI{H=C__4F;5G0p?q<IzG
zi0_BbwktOVdx?KLWnE1tIKTZ+0?PwzOqJ#xS76|;)<{jf>sH(>7&Ei~73BO`e<(Um
zBVw4!HXMJhJsFLCZOEHvz9b<cbD8A2Z!sQcnXTLYN-98{^+1?4HeU$)6EB*|Q`MK(
zNho+ek0yWZykBgpDCi<@@f3f_+T~cySB>P1-)nAK8$&2g$T)iD+c)^D0pO1qwaVUA
z$s>I6o7^V#0YAFo@zS2-YEKj)MHH%Nf<4LomRc3#DoHW<;Q8i1kin+zOJ>cg>_5Up
z?oSos8&GLz<Q`7>{ZGerAY$mXPcw>0*a^#kPV^ZV%kx03fqjTP)t#^(wW#>F5Y6_J
zyeQdHt_Gq0tr9CmZae=<87ASJQH&TnBX`tkBpo<)mKdO(3J&l#o9=t2DgTQNRAsJ<
zML&fe4~O{%$K0D?X!-8L>~5GUz6VY5pdgTFl8`mlqEJUE48Z`OTUg7Iqy;K^uTJQn
zz?$n%^ipBOdn}_bPae{;s|JtLosyWLlM}oKT^ANaM0<B)<c4BcQV{)uQ~_&T7ofZ`
zPpxrlAj7l_r4DTEUa;ZRyoy`;3?^s^NGF+mAW;pM9E!BMBHBYvPC3I{ev^s(vTykG
zzqnVSb;mtQjPO!bg`01v&!gt@jmAAXbOh#xu5Iv@#SK0o5M?CpPN;S2o`jf|hcwqQ
zzumeW9g`bPM5=}ur0YGZW+UMswi{+6QVQ(@#dFC|kSL+w+@pE`j|-<9qTP-Dq4}^u
zJ_=sEj~>|>*D`hSN4M2}*`F|XM0M#%B}(`K#GUn^n0DjFHACm9!`F2R>V6qi6oP^n
zM!vc@Ew6=^-p+t%qkigr{2Gpx1ye2JuA66F+P*TiA7dbByiB50kQ6Vc4+5j~A$&<O
zoZ_`+keXTks)@(IY*upP@dfCjGrxz*yqIF`bc+&uuvI;(o33JuKFeYGA?{ZFPZf%?
z5>XqMS`8IR4WDQoKU`x;qcb3G3>+S1(uCRu)9e&_sneVjP4^_snR>ZUH<xEWnO@3<
z-IdY3@CdrlI+2NbR%WgZ0-{s!?@Bcoi#60@Sw?>M=B#7j9Y!1Dc4V~qMyHH+J6tt6
zO~tD2GgmhXiAtun2msVOYe>vlz5hG;#i?3ztdsggvEr1cW%^_{<QmgQ-NNHoxJ9Ku
z;ZAMIMCVy8F*&Sfbyt2Sh3)YyZarDjv~&c!iihHlbeeH>L_+jky4plCmd<IL#g#*$
znNZ`$hG{5RhcgWIw-^Sfq7k@WGa62U*oQ)4;$Q^?!5qN>Z2%->Rb@hCl$IKAK8vic
zGlQ<{?SJL3mHJ8Zg<hm$n_i1251PVV>aNY}XA@=UgiZK6dED@YkvbMmbTw4Wl?j`b
zcq5scHCFjx4eqO@i=$tP`(0n!u58`yRE%|cImroIqA4-ZjV?Ps@cKS@^^_Ev<akx9
zPX9Anf4F>^OcL`LaLqj>Z<Fk8hPfVl3-WERQT~DA_x_BSo)|yT!iZ#Nu^r@`Ef)YU
zN1H~$x<u?T8oN^ZqgcGg{W-*G*|h+|E1C_aG?J{6PSZ_7@ynnT?#81KUO)+MB<2F<
zVT{SSOj48AbQHzqh=G<q`y7APlDgs+sSeh#MUxh(C&s$0Pk&rOXI;O8JQ8t+R5ncl
zHu^lfyG3swR+8)LWoU-5c8-*(r7_ltId8qRgc)8Gn#yNiIv0aKwC+bw<P?P{Wm?p-
zzhWgN5jqx1=OP@ZR$5#oy!uv^VD_Nt5@bVpIj$;+hL62s-FkB05yx&RYU5t<;O0Wt
z($XEnc+(G{VL|Ib_{;RbN-CHgcgifE$i4mTS}R{vrtAq=nni=QD%XDUzZIm-9bRJN
zdHhMZO2g$6vBk%86>57N!3WuOi5<ZgfY0U6?W0>Gd^w9AuCzg32nb|}_!LwuqLca?
zR*T>JTuI{M(cSFoL;Frl(0EI>%~!#pFSUW1AANjKiVL&7s9-eiXLguXUH}l>-g^P?
zCQDyWtXa4qUPK&J{pL6jeW*ap#+!#M^(+bg8_LR{7COu<jEngTgZ81~m9T?T9R1?T
z^XzUCH~fUjRH-9-rz=^yW~n@43xc(^k+oN5o|8`(?1VV)f4`=iM?K>a%h-g)u}@HK
zH>HftFr!?%GneX<vO=Q8gQ$LaPjXg#x+Bea?TL=<X>sBOQT<?Kkf9qg`d(CHG%u#t
zMW>4>%E##Em!}O_235`7d)ZX>bOEm<nMXh8I(Q>Nc;{eWuj3Koj5*QX%nG;SHt4_D
zNqv9NO!rQr@B@31^AGzUq9Jo!({|gI%SE%poLU69jnj>ZHJ?BkC-5#SI`HsiV?@q8
z%L->azpO%7g~^wVn<vXJL4wjusZ@?5#$Qg+^SU&Jf`#|)irfBZTV_3?pI6?^{?_x+
z^R#uahktbp_k)>0zMXP4*{9loL!TM(F0*~5mXutV>kc-S5%*6n#iILy#^{CulFm4F
z%~MrIx|WKqKnD0sx0Jp*m62DN(ja*4d@{Zu-=yE$GjykU@R>G#?>jUe4)(S)*&MsM
ziM2<tDOnahdrea0{Ya|t|9vafh{qN}r3HLIkk^|#BnAV#^IeN%cZ;}JUxFBY`QH-`
zM-vi9VvZ0LE|S=(8Xj|)y!fvf!u{+WGvJH@^>AQ^UI-pw3yDAmBo$VCs+$fQj<=lM
z0k%9g^N{ewmrQ=^q}&GLGKzIdki*wRwESO8opn@{YuCnSh9QQAp}V_51*N;Y%b_Hs
zL_|Vm=<Xo}q(eeP5KxezQ)!e?Iu#`q5b(Qszwce^JL~*)mg}tXnR)Je?`vPzZ}&2z
z;M9CdGLyH8OilJlJQUr<@CjqKuqrM?r4iGR(6C3X<XnA0Yyx{Y$wdMcb+ZH1s+{~Q
zMkp}iMJ@6UF$M#pyZ#pFl(dVWU(uRegdd!_F_uAY&ncF<euFtsQo{N06>$M|QWe12
zOR(defO(XDj+oM!w0NwdJ8-HSFLs<c90<T?95Vi-zX<>i&5!7ibk5jf+~xF#PWTcU
zf4_6QKfoL&@^G#G)-hkL3?O%0AiFDKmX$v}?3M%3d4_2pjgIQWk(3Y$eUOv@S^c5f
zYw$9qb&`iyKVLfS^W?(GJ5&sBVIW6?G~@_WO=Dk0f1D{DDw{?ciUx;r2ED1VmpTON
zEX405&?o2%O8)&b^ya6VF^v*6bw>hJo539}DNgR&3A6`Rre&M7*64$<+p(mUWF&L!
z{jdr8R-=ZXAV+(e!TEuck3;ug3?us#ABuxBbSLdpi4#Ch{Um0=c&?X9e%mM$OoVEL
z+C&}IzYpH^$Ps$2rXaW(o`tKfE46ojxR2nT1DWy5zkY|4oHIc(Zxdg3TfHoD_B;tX
zJY=M;HkunF7vGT@j41CgG^$d40c7=ig6Bf%xRwnC$0hVhbdo+_ie*=v+7%yeKD`m-
zaxgGN?=-so?sWorkHc+}eh<Se&*qKTP@Wi;1m_IFJ#K0{Lo8;CHURrmy6*=n#=oVL
z-jyew<9uLO8yc|5F#dISw?xJ<N~`Bv$+`aFp-tX%bDDDLpe|}TV@5s5sb1Ci%?^I%
zlIoNUSMk6|q*+U_;E`7&@=GU~{3)9mXVY+oq6<FP>;>W9vh(c(7%MOPZi%I%x*&FU
zomqcl=u`H`p*u5#&+I3dN45(JZ8Dq|oE`~?m9Fe#>Tl4w_k|bb*gA=qIa}Kky_Qjs
zwJ8*OFdOruDk@8Ym}Pi84A)XCRZz<-h-=ic@P{8|QgqMVo#}7cvZfc;XB5Z&zsARf
z6GlvS4Bx(n{tf;2G$i2j)xN9PCpsLwxO~q>EuM%W3Hl7xWDedm3MDpGsv$T%yCNMq
z8#x=4M~hCETwAi#i1f|a^o_j=UOvmg$PXGCt`+a!?N+=DUfS6e(Ylw{AI22+hw^@m
zwq_gq50`FX(VzqZF-$Y4|KRp4dnjWNMut4&Wm&4}n0FRY$~gjlB;|llAlwIV9*GV4
zd!Jvi$|bF!iBYXSfQACz&B1h9M)5u>6J7BQ5{!idhZ7G-U2_M19r^m!kCuEFOfK0T
z2TEDB`WDwZKJCL*ya{$Vf$TcEO=pB;SV#(v0i=hPZ%$s*>aCk8n|aISV6rfDo1o>f
z;ays&f&L45JJ$QxiS%fTlRUt=;Law@@m=D8wF7Vrm_Mp%XdImZOF^O`n3JXtI9*&`
zf~cFot2s>N4Z7@G-iu!V6cme9eEu;jFYh*hUV<3i@M=kZK9l+$z=`F-zx?Nud!=4~
z^6uc%{o+5gq?zy0zphiHQwe@&hb~sAi`@iIU+eku;!w5qZ>FlMkzMX!Bh;+-v%FQq
zKQkMdGX2O`nS<e^Dz&90CF{vq{1rLIc-3gc9};$~u7IxJpI=L#MFk}Y;H`keq>PS;
zh<N(s3Bbn)arzh<roMXh3%DtAIfZFPz}5~G6%`O4QO~{n`-fHl^xyixII#YJtv+1r
z`Tu=ZVG2>CRayd_j%>DU^8k*dChp>4N!`W86Vc&zLgS*cNNr<d9}3on*D%=~^YOCv
zKP%<Fh>z1c)fZ0WB0>?N$L_Upug6C)9MrQG3Xc+~#Urms6@|U1WD(*n$3^-EBgG?X
z#LOSxV`S{l;Zwbq+b)DkN=NB`R&S|mQ!k}!76%X5&!x9(Zlv6&YS(Su;P!z*@A;kq
z^$1i0ds|!A++Pfa$_c^E0PX(@rZk|+$@=ZBB0spG;dyfb0HH1~FAegg#eqrTni8e1
zKD+@yvsc@tDay*qv9Gnzde^_FZvqDrY2pt+E&1=~!!$i~Vid*}Y{$C>ro8n6#Ly+%
z$_qcLP5z3$oE$n)QQv1;>8}cZ39~DvBqV^JfHlI0XQ@31nb2g`YfDW{Z3YO?+}WPo
z++h!T|A4mgu&DMRKY`qB&b*Si<+jcSYXoTcaUd!;84LocgH|%KMm1mG5zBtHTz>5V
zdgnhha!D+z+`YB^HspW{9(Arm`9Xq6|L;cjU6AnNFyLo2$krkl0Iukpo?m=Vc4x9H
zW$VT#)(@r~ac{wLls=Vf`}D^E)n$8%SW91DWTn+eMA;A+o&&&N$ni~|+2M>}txkzB
zag=Ugb?MXUGEKQ<y{o`bURd9H%Y3?Yj8b%D+E$E?U>W^ofzhXBT~VZW(9m;5G!lut
z^Z4h*i+^V?Ko|ZG>f+KXo@H3Viv|1SK&+^uz3^LcfHWF{4~LhPmy0(F*|zQj7Y|_i
z?w_2@+!Q1tBz$SzEZ~Yr|NqY&IGTC}2DSkE;9PeIAVJo-&D3`LWP>5>J{A?kIhHB3
zb~?jK6qj9;gv+hq#srSonNE=r6G1=2(8Um~9;M3zj+5@<a-Hn%5AiPPRE2jQ*Lxb3
zGEejxQWnnxv~a|?^+E6x&z(wPk}1K@_P#InWQKJ2<BE!#8(%TzvtEbgEFVpR3&7-p
ze;8sf-k8yTbRYoYrR`hK+~42Zi_5Mkdk)&PwYOP&9xTq(+ugz8@avdmvjxMiuV7Gp
z3Xq%E<JZ9%aC8l?)mkIZeecsU$S1gIXp2Br0XP(J2K7^39VdBc*eV=30JHY7M9s{u
z8ml}P508jdqpCf!PT}Xdk|_8a+1^<dpr@y2XJ-fB*Y)mGDx=Why^VVO1lwBm6~KQ+
zQlVZxhH<W1M|`J{sq$eiy5lj;$Cnh)YiJxANl^jJvR7AE=eKfq?mrZ?RYTG#C!4)A
z-2o!P1!z}jMD2w#-LmiBXni*RVK*UD8`aq;mwwY&%dDP7^2z2uz`tk}yLofAPX7Fr
z0$4!<%0@~`%BHn?>S27nrZ?wn=MnWK@6V%#Ni>)|JS^M%Hh>wXxn=dc$mJWZQkt~|
zQ1R~ty#H=RA=CX27-Ymg13uKC@2pORy9U@EH`+TaRP--51!m8)c$j`G3^JtyCXau9
z{k!`0@3+st-(V$&O2FPj>Pt$uCnRQg;e)+Hz6fZRT-SC#up&A*Lo38c2A>@af>*ig
zR=$ALFUWInOjoqKth#V4fH5kt4nuCIV6e&SSCq(J5JqE_4TMn5iqYJ?R^xfGb8~aH
zYFcy!o}F8Uw;EX#o)LQnpC7v;LZd$?2tx7fW95Mdbp6e?iuf)*g8QYO+XkCng8aUS
zk^*Tt*AeIW{@p1J`&9NDgHOBH*VlnTwi)=Jg@h70=Qrw=r_f&kZEvcnHGDQBa}Y<*
zROA%#Vp$54D;ILJ$cjMBl^>5-4O)koD-+}AN659QdT%+>exB5}w$4+}j3fO?-TXQ`
z-BR51i&(`Y#qb}e`?e;fzQX!w<gkwS27$*>rg@dQWDJdXq&bKKaKm#V+>*U9sx#m)
zzDTVNm=`i7k~kBZ3x}<;dZZF=2;sBxO`xk!@s+}kkNx-52~D#Uw-I6|hIlvH7iCqE
zwF&X@F!N%`8Dkcg1}Qa!_W+0PTG0=DtFmv^f*MTkre`X(hx#%hI=hp6dI=93jPe4i
zM%O7B8f)|fyY5|cU=tFMk_ppf<hIH3l;$D>I;pJh91IP~AH^S?jUC7~yD{0U%WXZu
zZsl+ur2B5wJZ47H9%|RmeD@)@?81iO+<@7Z*>eb=%Z7aDY*`EPMP_OmU|3>iq_|Y#
zG3#$G3ReptCJ{3p+)t*9ZrM_%=e?PEU%~v+{mG-d2wXP;nC@My8Xu<;hS1&G*kUPj
zkrL&fk?j=XmwZYy;HU{aS0La#<U0J2X{?m&_7wR9dx3OGR5aP@!;gw}g7gb~`d~S4
zx3*Whfa9aAc|8mHseCmrPF-MVe>+j_0MFr%cx%aJ#ZH0A!Gpt(zkj|?^BYWO)fnrF
zu)|FY>+Cs_hK}`qJT2NJ+L@2G!WMP%NW-^E5yMj@$KD^A1g0CQHu!yyHuZKfF3iTn
zA#Ju2b%tI~pKN_%o=iMT?xrfjo1T5en|`GnWvlFEtgG)(n&qCi$%MIBkv4Nb@Z-j+
zd4$0Jd-4vE@zh<vBv-HgoxcJJ(!TzF1|7Z$<T6li#9K4EB+lXZ_<zsOL6vd>&@Vua
zk$H9zn0CIADFJNFS%v)@n6$gnx-d`hw&Wa|$7RP6!-#Y6)(BO|$5|;UVV5XM_wgd=
zRLtA0-UwQRZ`yoi6Bs0ef6KWP$x%>e{D|QV&_3f-Wd?9d(h-;fp~BRib{{%h`4xy6
zp!Nv_dbPpKPaz5l3Q%{`a9h+`LgQiCV(cX;OpycOI&KALX@o}UCSVt42AcZbBp?W*
z?}FPq=`Dc$J_njAl6y)#TT(|NH`rQ^2phg`=(#zXE0F>FdvS5WrXU3ZIwYy$mPyf@
zfaq4Hg`B<uKtvD#B7@RY0@_%_TQQ}c)#Bn}Afoc>%FD~wO^fs{cV2rq03-fm*YUnq
z*kh0#=wW2K02tz`6~Od2{0@pai)!O?;9$d|!MfOvqI&&jS7)w8?4LbsNMd4Q$iQM@
zaNV@FfNLi$E$#G01r)*L4nRL(=SG9?in1S$j!THW$UopcW7~(jbw?sp;gEQo1IW)l
z_Z&o8kAkAg88wcS46u>Uy=ej8TVsu+a=;4fZm+WdeqwwfC`D$)QZ#jSiL*;*z;V?a
z;T<*mfZ^1>r+Ql^_}Fc3G<RFbsu8{p(hN*8%Jfg9LC>3<D!}&})Fh5<)kMw$Uc0bl
zaIN0~1ggE3=fLunK^fQx9##|4dIaw>p(d^?Am-^!0bVAXNZ@}C+Lz{a@#$qGhR-1&
zk(~9a3=S<3gno>B2E?(!Nnp53n*o($CJXT4akOi&tg2J8n4^zYWNbBuSZBOnuaAMC
zhkHjcC3-bt%jWibY8)t!eQzE?2^r$a;kuR~A88px3c<MJKPmS*88%5$oSpvLSVfCK
zEPDKs`-q=RjOP+e$d$aBlwY_IbbFkWl7cQk@hSH@rFV8$jQ^q8f?g?CpQge)%3SrR
z*6@0+^HjRl*gO+|A|^UYend-eu4vT;$GRoRiqi8naVCaYi}Lv9bI_<}P(;ixXH?<S
zmWNL8eI=n4C!ENXP4hAcAB(G9ob}^NS#dqUDa<aIjOzwv`nL438)e-1bse@f1zmdj
z$F5(_legFZOKYoiFwO8X>rV8s1YXPao*S?RzKl?%7tr5_>`5h_7_k=)z^^3d#jaB0
zSC4>02*q|#F1Ql9TedLVfND}gaNhixexIJ5{$oRIEE&B-Bxg><l=D*wE7dV&`gg<~
zJ;el6<{4z^>lm)RooPUneg?etbgkRL{_ntrQY`SA&s0JCkkw}tY*r`SDRd@UdrPBg
ztR@?`>91v_t+<pc8zj*qJphKFjI6ApXPh>KfLLuAvJP!obN%mekudE6U)0DelzG@c
z<yOOs?TtV`;4<6WR=b^UZ>z%=SM_6F_qU{~grNjFJ=XbV53<-V=f4#{QWQz=_6wxv
z02tyn;4LATVb$otuscQE<BX#u>%y`h716o2SUGaUU=K(YAZPXrJs{tEG;?1TX`#}9
zQpsR*BA}Z9k?_c14eAms;y9&lpf)8W40{cc#vY8`XA?Vy4-XdTPCu7^!13m#C$laI
z2%N**B%ENExu=RTRockZcc2y|K*7JHcSIGBFI#w^Wk%}mDaq6;H={&TMWhU*83$Q@
ziMJ@*=6*c*4GO<?5fYaE7u(|iG~I^dX|$jQYdk1ZpWLVOMgE8?{E`4u6lq`{R#j7r
zLtu|VVW&t7Kt+AFV-K#7xR?P(Hut%|pGTNcgh*29!e!IsAKy9{^$7@y?Me{wXzFpA
zR+#VT92hS$38*zM2NEuG*b<^}z5U1=y1KAfENC#Xz)p~kX9{!YrRkk0W(mV<ODAj1
zlZ6}LaDakBR}Mnm4z(GtBs`7u{eH{7gg8h|a8*TgRU7?)r-=l&C?WE>xu#e+w+~rg
z4;Lj{d|)xz+l+T`+HPHr4$H^l$_b|R<@G9ZG6veIC1oN*XdR_5jdfJ62M`E@MCn&3
z%PnsvL%pAnhfFP4OG6xQv_dsga?+U6Z_}!;P#zC|l~3u`0Lr;a$rOudY6Y7xz#T{N
zKz<zlB>m;KlD`)vKNnZ8&RaSHv3X^8KrxOBC71=b-Rr1}N`r|vnt{PtKlT$lPLaGO
zI3nD38=te%$x%-<UvV87(J`o}{{sMMXIPuwA%R(s`h57$61*2XqD;JD^iWieVK(@3
z(#7^UWL2`1^S9IC44=bZ3^~tn(=8Zf2D*<BZXa?<${E?$9);f%0guDMJh8kN<}#iI
z8G1uj6@yTXtcdFd4b()^u?nj)SPAU8N9v5gz1&fnH^?AYxKJsLya)Vrlnj2v3~@N(
z89dvCOl9oh$@BBfs9-@%`eKCG)DlA6yh!*{+1k{NA`J24aU=}NYYTQpQ~RabkA}j!
zxT$(pi0}4h`^yFH7ZLMRMb6}(OlPuH`C4dlB5*!Z_}y{nhNo-)rsTCxU5B0E-DqSG
z^c79S+@FYnZ%<bvx#_!3b?Y6|WbuckReWF5ZcRN74-X%Ndthnw#kJQ|{4$|Qg`Wo5
z&Lg9v(?h5#D1$k&2UD~YW7f%Z?SG^{*`z8+b~pOVjO2chmyKv?U)N*9a#P7c@8wl$
zq!}lYDw5n*SfgOh$&D6Ddr?auFai1kp*gM5LCs0cP0Eb_tANcw1sqY>MFW{?U?`$I
zl7mn!;w8hQAe_Lk-2u)O#M%vVRFwphTq7p}@}bd<e4nt0;t6s3{=osjUf2jH8S=K0
z<iQup=Km~(vf?T_p(*#}(3I==4yk4y;|K^LMBg6M-Aw)!sMWAakdDNStp=dmMXFV4
z6Lyd9Rw9*=y}>0Pf^z|AXsTWv4fWs~q9SI)%P>Mn-nfE3({jL8sefxFBy|GDOJ1LI
z->SYQI+!cYgOavauSDrc6|nJV%i6GsNS?^hU|LgLeS-c+e6YlakXKDajc{~0Ll-g1
zfBA+7b^)4gNKv02qO={sI7Bk7_z$Q_W`Mjcq#SgaB=l0*CJ92c%KK1}(^kjammNcg
z(UOkkfqxtE;Z{W&z@Er`<sI)8hVtmF*fEr<3tGSuuTu+YrtFVE_C!c$_p0_CCj3?`
zft{{#3ow#4#q!!A8dQu#tN6FA-ZN??8tS51xoC2pfv!P5V*&K)P^bq<5C?Wyarp|^
zCI~pZD+S)^0)0qYjcH@ZOk`qLJhl)*TfOxqF55pB+!jSL?wq$m*zwNCB@?lNvGOux
zxtQ!}X>E0MF}Gzr>pCR`9W5f_Z4SaGMv79@P4*evlXE(8Ux&P7PPE8vph|>U-f|m9
zfgLN8nS)IsW2_vHsAXvw8Hr@3Et7a3=%7PRcKa+}GC$zP9*fpHqIz>1Kfy$UteTA|
zU)N;s8p(J$@DJgw_;X_?=^egG3IFYuo~~Kj{{s5BsZ6ou<tFE5G7w59iEG6itD@bL
z>EVyNSm+Dr&I#@USFR@UaTtr_?8G+fyAOQis7aPW-S$Bw70>s5vIv~ZY}FDqOm<}2
zMD({Zie+#vYHF1zY6T@?x^)9Axh@Noh;OR?s(4-`aBh-r&+o3%aQc!0CB*SwT6qcc
z!ten@^mM)5^NX%`puaI{t1L%O54o-VM>f;}-@&Cc;pg&7ia}8EPGr203+bP((NpMM
z2Kqui2Y;^l4xax##M}R`D}>>&S)W(>D3UFc5kQ)NPzGunl$8~>zm^OG4I+XDRK;v7
z1}aVhOA)>{!V^|t7#-yLiV_tGIp;Wm6w4M=HJeec_@PABeE~VSs2p4X`5qfxk{JBj
z3jnU3CP(yA%1(n)loSsS5B3zTw4Vg@CLBx~`4djTstI%N>Yasf$P|rKDOb~gBKiR*
znl4zKJ5^2q>I0SPdQSyefWGfQq9Eo^p0q!~jWR)xILKEe9WDnd;}rE;TAY%;n=!`=
zrnP_(Gnf0x8{~*Ve-Lrvny<3@;<}vb#!fJmqF;idmHH`o1OrybF;+_DRT)Gb<S0VT
zWeC?ajx97@8R6{SBFniK1(_lr%E-;F_UW!`<;G%J3^U%6BI^j6{(~s)YGpHp1F+89
zaY-$^pySt?h`q^o<_-v4{8hONbqkJ1UE``qPj%(VCY6p}Oobc;DxKyX9TM5I1yVTJ
z+Ojfo6iFke*bCN~OA$@ZOmb0n>?HTb01<3pgHBURH;c_LF8dDF-`-E<H?nK5Nx7gg
zi~LWC%zC^wok-Cw>+G)b;{=}%XVLkUF<=3#rqdfP;tM8=?O%J0@E1MCe5JfY4OH)N
zDkem}!jBxR8ocw=wVwK9W~0E{7dPflbB?Pmk>?P5?}q;f5ss_xnx{UZ5b{_Dy|X#_
zj$kKJUYdjq`;!iNx(KQR>CD;YmEWu6j!Jp%2GZGve7bUV*3I3Ls=2Mpe9`{>UU=lT
zF~VTO-2R_Gp9#d^2Ao*p8*tn{Pi^NFya=vJ;6Gf`Mr++W?mgqGBu7~<wg<gYse^3!
zG3hVyLYwNTC@2oT^t|syNIe>cb9KgwbF8qYcN)r#>qq(P4zXImbf+->RX0|qdt!GD
zZ{0hA=hV32s%+ze>|O~g1wm3OBZ1hbN`dKXly>fC0+9&H?9_~7t2kOa<B;voW>sAy
zkv8^+0Tif;AmgMT81|fhT<|w{;xvK5kFy6!)V6zr?C_#P<q>62u`&=Q|J(3o#b(Ei
zW<q*CUPFMK#}=X5r(ji)gHSh<q8c_2ba_MGT835?T${{_Z-q2Jfd2rRy0FS|MDhE1
zIGhIBik5}H$JkaK0qAqIi}+HQ&r6F}q=XK`BZkVC%bpOCBKT9csEE;MMMdmwRf^Pj
z`9>-IS7eLmpmATp696&`jHsTyvrvo|D}wd|O9qtLt7d_;F!dzrVTl2NBy2cnVq#93
z-6oU^^Rn*3*|2=I6sTQjBhJ!_j_%@gYVor>=$W1kh*xX2IzLY&Ir<LhAzE8oJ;$E2
zyBk95sx*H7eou*lMcSp}W0VZqK3*+%;Y@=Qoypg5DrTgOyhp1JjIk*RP~K_tjL1G7
zK8k<)ONwadCHj$6n5!SP26oDxK&&FoY2SITd9o1P5HxsI6eug7cCgOKm{wD-ebBNs
zW1n8jE+N=GRpqNv-c2utUOZ;)K3zUC;khPvq|vt)pBE`9Wcm08*W0W;ppg+esqesc
zrsqEXiruQ@?4GAvAQoavs!$w?pzqfKO>)+sz^&@XE=FXZhn<KHWAklbqgH{m$2nIC
zN$$HJ743zT#i`hI_!A}BWlm!P(*oBSxuAzCO#C<pI9`Mit2j;Y$?%2Z@I*Rr-B7|*
zHkZ|hJPe34=)|=L{UAo^oKkuPpi3x?Fp<=cfJk~wNL|Fx#AOHeWI{6fr8RzrYVXd!
z=+qoDGmK+_u5@|qb?F<dW<jRj_0utXAhQ4+aLPeErnP6-FhYVjdb0UJMFkn2F`d)Y
z4B;LnVGj&$z%o^CVj|;7vV}F;G3WXQ___NK5o(yO<;E5SAz05?4S#Cb2-;7s=Y|^h
z@JmJsvdX`q)i$0KNV<}qMU>~PWkDp5#Wj4%zumV;aWH;fxnwoY6!7qL-yxX3XHfHm
zN1-VyGNUIjJuyl%Ll~a@a`RJxj-@+>@Yho3uPjKZFee=g4-RO);Qcl{O2n^BDoG<>
zq>&_O3U5l2N-Vk5ki2M}eOc(hGp6+hv?^<IwgclD4|@go&hBFqv-p$*ZCCy~m5Sh@
z;8@w7v7fC8q;16KQYuUnPeh-$e9OJo7jq6P;(=m9{281ea{}s-ZLGx8VDT4$JrER@
z01g)%g9Hzk6}Df3`7-J|$Rvalqcf?1s1Xc2QDJTSgr^AbRKkL(D$t9ZQR}DY=g$Dt
z*7o{-fp+znLA0cRGt9Jl5<K!;d?j}@rS%G16%mF^p7E740P$~g{t<Jhl_tO_4Y6hp
zdZ?g~*^FPL$?;8N4!?jH6Lm`w$u>@RgyN((;DD|KuB@yyFw~Ngkl-pjpc%(2?xq$K
z#Ndx#FGeZy$m{Pw3)i0md}490&P=@y)^PJNUG1U>4b)ayKKEQHUzLlC3vMaYB65I-
zNi->vLXeCjBk^P4z9Hw2o~PrJGNDz#ZgnC&wPrTLZN6S(0-R}BXvs}I6UI~q6-`Lc
zR;(<C;A8#?{QQ_dVkEV3M;klReD#5f7ZKz)E^rK@J11^SNBXY{OhPIt7$lO+_f!6C
zg|N$lDMo1-ZMsmn`Lvdh6f9B2w^<0A#i^Q=-=$vU1;T#&M*uv79%+m$1hv{h^marc
z{2egBbK5c$A!Ne{jnuQ$+CiRLxn|!IL@0JtfyjP;vMlbc6St{tIz8<J;W@q(=@R0z
zQL8o?A)>fy=u&r(n6~nig;u738IZ+wm&&NwW55al<dJ(YzzRFwAg1Bdyb3%kj`^UH
z3v}>w&v8vzvZV}*v>R^Y5Nj|#!W*Q&;Jl9nydt&G?Ch4bF|L2WvSMIBr5^JKu;s@1
ze{j$*PRb7Z5<VQnpYJ22qkuPpQe2hwBfHq)?Co#@=I)qnmAmS!d8DMI{R@W)ELUB+
zwdjAoh|8$;0cwBl=P`GH3Rr$?E|yF#b0U(dRNt$UI>s@vsXp`@wPW<=@zdM-pfuUI
zCoP>XRjQ$BG5MRzi5#%T$(EmKmCr#L3&c~UN|gybz|(dA2}JWq;*>N6u^zD9I9w>5
znj=v;(yY)WDK4%niB9>MG7<mS7Z@*<a`IuM&Ch{vrq9DhMus$v-Vw9%(bLinC_=R!
zR6Qbu7Zj(+YkHZgS#aEL{c7?#8sa3u&2JC|vNVo4s|q_w^Xp`Uu`$5a-)Xv+tS;XD
z5gqZuogsPH>NW+*gYjY}<z}i3SG8Ovwn-@^=xw$(?PuvB#Qt>pg2Y0qAmd9?MH1C-
zRFx#z7TFffejj`z)>q@WbmxouB&5wx&_9>|`^r9WT<4|@<G0UB4y2841A{5UF<^1r
zfz0couHRY5VMZZ)9tk>H&w>3AzSz5OZQzzFsYSQu-?{kq0E#n~X_@8y*H5)n<m8ZX
zI0QN$$pVo^=b(upG*xOW^YCh%Zj^jsVc{Xis4ckwmLm{|m3CNL#W-1{=9HpG#h`NY
z5G!GXkzy)U$nPg6w#QxZLm9j{*&DM`_+f*i(Rc**WrfQnVt9aoZTHiSKC%M31kMYa
z-?ll%?nH)yW4+ySzSZscbgH-;kR)g^+D)0RySuyTeptKifGsYn9DQXc&DWzuJdh!U
zpOnT2*#>N)a2Y;C33Zh=iJ`VwzU%>fM!c$^8r~ftKPknkn92oFqQWNG1<q6y7W5k(
zZH?iNBdyReLL+5j#Q0C$7^cRV>cbr|_!O)7MFOYamR}4GY94b17^l1WsnV1nrDN&E
zs7?iMDcm?B2{%GpFxmY09_}l_mu2bp_-tRM?xAYug}k^pg&-<(UDBOXN9q9QTsK!D
zYMR?=gN3dBx|Q?@F&fK2Nz|pj)0if*@?|ie!rdopBL5W?6LVj|a@=GPY7EO{t6ybR
zhA<6qc)2&J)b%aLwtI+JAn+!Uaq_w9?d!#c>G@ct9Pw0?R*v%nd0o8FcY4(IGfYu0
z8yLtHjMn_3VNx+>>3j2%@1_;MgS$@|ddO?DH=-7A?Ab}V9fK!*whwr9D9$-$@y``Q
z&J5|J8bd&5n+%<ZsoCyi>XmV>?IlVv8uR4tO?Xwt$L*rX=?l(S3#~_%Ofoc7RArC2
zExNYc5<0+IphHzZDfUth4vux^J`P{~x<?ezM2*ZJwfra*ZNua-&WUQQwo2wjWYI?_
zU`_hmyGJ#(#{6x|52e^Y(h;+VZL{h3JeeexN022ZC)1p>1*usgxV?+*h6uYg9;b2|
z3*T5az<a0#i5bSHyk3B58oRagxr`f+uru@4(GW8GBD+2kMoiFnub150wu=tb7<c2?
ztn!LyUzd<^A~wbRJjl#bcTcq$&FF?3!Yf?#<O_f%VPZ{I&LRagYmz?W8GX&un4Dp<
zpktz4E?;S-8uFHrXV1z+RG8RRyoPKp&^COWXDZ^kR<>$Se*WL9)o}g#fOiO^XCD<u
zOn%K2#%j2~{<_4+#!eR!S}-W++Oa4VLJjwZJf5jZ!Uky{M*6A|_JUnp>kU9JH@trt
zl48${ASLylc}cDM^M>|UN<t}wwVP%pa2W)@yK9lGJhhL!jrri-HuEFSu6-^YgIV9&
zx&?Id;yj-mMYn+z)>kPfU`q6OZ~mG-%{tR>+D~Nf3XBe)xv>BH>2iz{+X<2MRX>4>
z|8~`!`hzjd4fI1_wF?Fd3=CRQ>?ySL^nj@T%HE4hNT}BIyMUmggoFgx<2(;W=YR#=
zJq8Bacl9<Of;=x!;<L_n-dI@Gntum}195dDh=&=}Y>ybZ-IkTjCoT602DKEx<Sf+W
z;)&Y)2>1(>Eif9jKUgXEq-167bQz&}S_@RgM__7^nwkob5;T8N|Gslmi>>6rPcu`y
zl{KDyh#<8|XRjfSI+LW@yzlLucEuZ*ynlnYa$Aq-mc6^tYv1TnE-3W@)hsX@kXcDa
zSf6P(HT%x<o9G6GlzoXC)#+R|<$w2hCu-RJy!_^h!2F<L@@!k3w)stt`pS4}(ZT~t
zQBmV{j($o}E4PVd?%F|fW4wp<_bDteA9pG7(uPT<mPU|yzR&+vV9euX|C~1t-K}oe
z-f(rdw`cjPaO+kJ?67j(%KDf#f0M5(^6%$9E^O$VRK~bC+<}xWCb`{<_d$}ZgdRf2
zwtN?Vf8nO3eM;9zb_UaX7ndNRAHG-7cBdnvZB+99e1BK_WNS{wy7S}XhqW|MBcLkf
z-d~58+9bb!dCjEn-lrQhmtJ7!zoBifscG)-U!OgGUzt=k$T)BpBMCiCNc#9@A))i7
zsc}`|_g3Jr@bhczbBs$)mJbGLc}@+`@@D7d4S(T%{yh6kDHuE-=DxqG>Yc66F3-VN
zZg-a$DwReeJ4}olPyPJkZ_u`w`(~F-<mBYU#>SqWo;og_SW|}GTka_<<C3#nKLXWZ
z3ai2=#r5A$6~0Byua{dzuPOF}4kI!$((#4Sv`+E73BXVCraTH?AQISjUBh57BiW)O
zG^MY?mlcB&8V`CCjLW_i7Tm4>{w=p~kVM(gIv}kk;LkY6psRuV{<W1=F2tM#D{^<k
zE{bPcn|d)pPOCV0x{WKY;1x@#uor>-OWELK0@vXXWV<H9<a05L6v|U{!N$iZqCsLB
zb2D^2X+nL(_+9(=bq<)=d;c9ul>@K`ZvE*qQG@ZwG?RZq9lT0{wIW9)WWSK!ZLwPD
zfA@keT2Vh26Vo__1uf<WQosPp1MF=co6=0rw{3OS>W`(!!Yck<A2JUO{oa?*R(NiD
z@1BvS=H~uNmRf=Y4CZM|%~FW-HT@0wn){Te>)4g}wo1pdE1Aj%YZ!JFp+7&V71le>
zVM#5P!xB6ICU9~!qAU|XV-471_x9$;!0wJR>LoX8>y>wpa(kk!vP3@Si1*y|&c7iL
zuXGVb^x8W2SKUnxefpO5GmugQ=8HQ4KbCvIJ_RtdWFaR96Si(JCIszc%+48@*9n@}
zqM9-v3xlhDf$bZwM6eGyp!*Z)OGBS05U?rQpIA{!S>0>{b2%^^QrdN)KO7cd>jpJJ
z=*7VRFrn~e^Zrx}*;{BKLm(zNEfjY_hV{wQr@#Uo_;ax>y~wP?6YOyX{Yv9el0C!~
zj60vp1|2$)+1!6ejamYJDbP^bf>{N_4G-`W8ccZN(lZvH1{eU~R(}k-SZezF2Fm{9
z>)-(H`-F@AGd@24<;xepAGm-#4Uj(@fYX*xej6`L`1t47=WMeU-P4;pXG6eLOAPQC
z+L;1i04E@c5iK6gyHNuoW5<qbah)o30|2=42o!LRQ$iqn4~|6YhHvlJIbK~Iez0Kj
z$JG1(_#z(k;>BZjIY6_%KDE~3C<&zFuYWYZ|J*soe+mpMHjPcdo!L5XsW}8Dp3ZzM
zz&NC1NAPi<k&5aVj1q^Rmvj)h<dC2I`XiDV_`-KYO&50Yn9$_xQ-PJRb(!baJltQm
zAB(g+{X6Y4@<Z&FlM#0enQQ2g-tc^LZtBAK&qp8riaeSX0zluNM0eZL|LnC?OS;Y%
zeZ<g9i!smoZzX4lNJ8tZoGOcB$o}QTk4KKl1(zA|h)*nBaP3F@!(-~U=+|mlRt+6*
zM&CF4*4J#;p?xSL*Wo*mT#MxO^LzM@udZN5<ndn_g{23Zy55$SzkND`9)`!-eC%j)
z<YOB+Gf427FB>h~<HFW&kofJI>c0=DKH9o-%jkW`Enw?97I&&mVY#dp&R*)g+we4G
z_Ux#w@Fj<_xOmX}$F5rP+qjYVZ3Te%S^68uxO5Mp_=j2DV2k9w+3#d0x90#75r^c}
z{##lB+$I&PPdOfPV<AuH@NdY=vkb$bpFVxM_k#vzSoRh(HZ-(SV;48$k*R0mvXNuw
zWhD65W;k7PSckqk>s7d((m$|uA$)CT=^58wIX{`~z@WWUJ}q$p%wwuM81LyJiew!@
z&5C(XlPQfFb~ZK?m{2l6H?4PzjrOeT%9MIJ7%1h=uxvQcZ(!}olgXDiJEpfqWa0h5
zh1IHWJ@K9M)AaLF3Y56gn+aj)rqJ;A!VQ8#c&2@;FSOnmEKmn12B;Q2%fn0*tj-2w
zn9e!pVWAuIQbxmT?&X;VYnO3c7$o7-&hE!A=FMRb!>oOF@)WGJ31>=F<pZrG>dwp)
z!fiQT5KYU!NWA!R`eRP=bOpSixuQ*r6*=ruO(3rsp=iFLPIJ<FLdN>T<Fm=rtNpu_
z#xKfA$$%$(Sm)E7{Hg6~fEXD3JCg=pDCa7Y+~yB#$?4tOL%o%}SnE8kZ`xX<_g<3t
zkyP9GO(0QP7S$vVrFyEZ@_Q%_a+(B%9mAj8G_O+)cQd-Q{_#lmuAHDzk@DH-zp5&}
z;6)(w@ClK$sViMH02(@oEf(pw6$@0a8p^LcES%qC>LV`AS9xuC(Do;_80{RTcET_*
zTa+SC2sgc{I2-Stov_)|=Z0ek)>}D(7O#RKp1bBGDgM?eHkOK!QBbt}ar?H``{1p&
zOrz#LL@n((3ia?-&ARB+V)f)!>IQSrBY-+VP;@mpA)yrS=}-51Up}v$=%x}1loq>+
z)@L@4kD03R_FUNW`Q8r4)>aO2aU&Ya;V4Sgp7jlLF2Qz#)(sA@kGhonE4Z41)v`Xz
zjdu{q22Ar2t!w=3ttg}Vy_-4v{_%Mdqqiom%6OCe+j}34IXLob*fhVgKGXa)&Q8ta
zB=nN*Q#47gy!_Z(uaR^qB7#A;Z?YSM6wwG*l?>hmX*KSE5Thqgu6Cvj^L_xVPc&JJ
z?fWeJplG?nB}e}7q=EiTyN<j+;D*Pv2Tlatl#tjuJzz>UWGtQCTR6+{J#_wAt`n4M
zkgPbw7jzjcuaV3=5|=U-a?uJg>*;w|b=O<gn7EOdxgca0bEMpKxX77bR<K!>(Y^I)
z!<bQpPdDY2TV|Gd;CFL*a5+p*E7J)jGu)Yt-<0Yyn;tX6C%gATHuq><3+iHsx0#DE
z9kh`5%^LgsYD<Z~^RI~4SfS8|V8YrN>qu%|{q<FDkLXzW5c61x=^=}}*n|-seUWvA
zWHps0j#)!<`J&M%B7Fs>+nA(JmR)AOMqfuh%J^}`zzUy1i}%yH>5~|For+Xsd?&eV
z5@`6PiZhim`V#i;h89Tp*!REc++1qUWu?y4@n3!ir;tRD9B_=2?|ghNc~BN03{CY~
z>gn!2Z3m`&5TO804OP71lkcA+)>M?0Pl<nqK@9SwhEASkgF_<?92!pD(QXr*>-q#w
z;ot6{uxP-G@&_#;IQoHRgVLsx$SKl%&<ReRAB$}!KZSjnOpU<)q<1WQVcr|Rel0aP
zsEAze<<TS{mjreX>F2Lr`GCVjS|7hmxIr0(Vv7$mFTWQ9Q}O=>Y<MQEK*k08c@lVi
zgAP{JFlClNMNz!jc!zW*yd3OtA|2@AAYhSX9w&S{K0Y?~i?V0&h>!$MM@cH|IaNWz
z;8*wKZ^?~HS|Qj|U|eYi&eXe4Pi9v85&&}BLL@TxNu4wJrO*2r;z0Ycz<07nQpI-F
zwGZn%07k!S0&(8GvT$05WO5X{%y!$O@8)N@=zonL4}n)yDihq88dPA%c&gbVvl>i8
zD-aW~4%AWjb`0yY@qpg1;KT+tre6|r>sylX(O}g#pMd*SSGoPgnwGB`X!+=>h-P{M
z0g@Jo$xh&+M%>y{*3gnI;{D)N<P2hisRsSN+9I~ChUR{hcM~7|RTf=r1<puP=G&Tw
z`&OrvAHqXiYfdhJ(9ia8(Dg?h5Z^%jX%bL+cO!Mk8J>It;NJ9@H)VvI8P+)$o&WxJ
zf-a=&-Yy(ILZdp46Ei<3B`r<2g{?4b1vz72H(Do)E+V79j#5=<Hz>bfBDE;HshLM3
zN?6KR_hSEiO(;x-^_VJ{A1-?PHbc}9-@OhXXK7E7J_hh<Qdar=^w!6~K(%dBMYG#u
zw#_M>lsB?3@)J<bouu1#4M&PWLuBA3opqXSN=NF-d5$S|ckBRVaUM^UFDW7}SQ=h=
zy>!+)m-<03VJ)ZBQYaw9k=uxzu2WeFyk8~{2OpoDVl(*NKY&OxsWBJsr=iEN$ObB^
zRH<$`jux+xd$-$xNeEETQX)V_(;rh6#%`;;;eWdyKTlCB_%?1VE#Y9ma3VYSAg&h<
zrVgo?7X(S#g2l35nHaRbOXrFsV<dGcDtNRTbczUe<iNhZ{C@s9K~h-1YhFbsQuG0*
ze*xk3#{!$$jB|7d=sni39Ng0e_H|(Y2qS3oqQ(w-Ku}nf)$?ux3c5E5<g5dhV>*Lp
zfTz+5t7$Vlj3Kkt|1&`#c5jk%(D>JP=|R5e;CIoUN?cqozI~LA9%zV?7peDc<;1pz
zzv|8NWY;Yr!#_)mPGl!m_11uhDw7bmkNX{t7qf_U8K)yHQp^1f<^~GaT?5%?6Z;$Q
z+#Z%>o4UWP%{R8V<vu~aDds@JBt8B&(niFQa=DSfNy*lh$u3r!;;TfWKd^Ps`2QT0
z%Ex=|CtV}VATtSeKoB+!TbkB|{#>}#@#y>X(N=*9qtjmu|INEg&apN3$sA>0Nc0J~
zM)lR*{blRQNQFUU7e`l{cvb3ejB`kNUR@-b)%<wly71C0<feZWZZI$(Uq1ISzW1^5
z^0y6;hH*hf1;g3fza1KSzf!*%$z!RJ*wEyW*%;i+%!B9)*B{Gquxa9R`XV+mQ7Sgt
zy}VreslcSTXuRRq2c0N0<E?y|xAk^Ycx3vWzFlp8&!b!6>I0zywk@CPJ2R?jb<rcm
zINaHyEhcmY4xbI*7s^dl7_>Z~*^TwKgbu0ZYG)Qs&VK8d1ECtDXa%}^*&@~BeVKxL
zzJbI3-?O4?CPIH$>b$adr_<yH_m1y$cNBetiN(O}X#=vqzg^ZcaET=FNVF@{`w}Fp
z@Ku&yt3*rJD33AUX>_BIdvH>wWlqkiO^HcnHkn}MmGa6{Zbe*zp2TaRLRq6y@6E|}
zTK@(Gg^c&s&*S6niBe(Pz>8K%6+@70o<2KrC5?GFrz;<1+~!A_XZT}(#k2Uhm39mD
z$Tok<r(t_cUZ+Iu!|twu>!eF$`Uy&R4+IInG`VLaHYj?aXx8lNgO_7g615T@7^(+>
zUh)m-CGqC(-A1EbURF9NtuF}{N1#*DS0HnMYm8%~lpE08$w$t`!2z4aS1%T1mVZKr
znFZ2J^5AAXI#5yIl(?P<Q}&3QOd2N<7Y$KRQU=<h_HxoRza6zD!Z;s{KTr%PeEEk&
zu`&dTVbaBn!zOg{kW?57_=y96;)%7wvJRu)OyGODhX?Q%bqUEq)#>?2cEg^r=`6FO
zN-8VOiX9B205K(^2m4`~_>jgK?*>f7i6W!c(wPn0swRM+ZcN;Qj;<!(TE-G^=a;yT
z;y;CLA2f7!cD{{EQw(LRDEuD&3ml-MgFJtd+hYZxn=h|r;aTzgH(0$^cqCz?s*OrC
zvC;x~;d_{@-+IP{Vn5_S_Cy18>?2V86%-hbM?~HL^MqCl%RGgSBf{`EjYFNCxpEcx
z95#!NzI?GXCXh|ag)_(8Z%H{0??K>arjnJB&#&q#l4cj(EM(_Xw#X4(=b<iuS)_iG
zHu*U`{H&~%;ACGWI^&zO1XF~(^6iPcC|Z9Kk0K)`T$N>M@?0%^4-Iq3!Rv4ue!R1;
znnO+@@ysVYt01)gHM;3ElH9b~IEo0&)CFSb{LLDj21wl)Et7joIrph`Q%KVp@nEAC
z=bWDLJj*)A6hVd=0Xx4`L%+2LHGBs&*0x8lXwxoz$~(bKH-kq#g(XSSL8(DCUst07
zqCH75D5761FdaUIVaJ(3!hX1C_#UeY!X9jn(hD3P9XXX$-W|ELAtZ;LAA$zcrPD3=
zwmFjRLg*r%Q~JfGrd_|dCB4!BW0QVR5DE0S5nwIWW#ZG6{cZA!Xt7mV3WxCl{EE%Q
zcgqBCrV9WOyp&5LQCm<c36SEbz$5w4*HhKo1v)|TW2h0`!y*jd(Ef;}lraJ*E%x!e
zMwV~Ic^6e*O!qA`X|7ICG=zUsQYaB<S0&I?YfSbp59!_(gDwDVY}ZgG`n6Pt=UgKQ
zvZ%XDFiE7CGcAI`0z@G=8F%NVYw&?Y=KD&h0QqoGFqXqgTRwyrYkCTzC#$!nD>_r}
z>B3LRk+GbvJM+qlwg@ryqF-yQC1{wfj#gt8s1XwPz;8-b>r>WE9eSJnoQqF7pp=jz
zV3lA?O;R<#h`S}-XUJLlT18GZ=_N4UC<#VW<hKFstmSPf7r&Bv(Es+Hwlrav66aIz
z>4JuUWpSbS?V!tCozk)Zxpiyq;$f6k66-JLI$zDtI&3k9E^d^j!^J;iyInnIg5QQb
z&bkkCy+?C-T3Y_>aveY#OJ54xNbnPfG|k1|^d5~Y7Qf%yzj^XKoAh<$z#+XKK}1Jr
zCqw{jQ9RsV`83w~&z_t-^}#;scSpz>4t@pT_EPS#+}U(~-f-iTQBQHJDB0rGW--fX
zYC8EF19`1gX<I=y?C-NJEgZbEp6@Um$)fD<pYK@QHBorNxFr{445{`WXQOY-Tl=YI
zNKdau?#>kD=<Xh6Y1HC<I9VPb?fd7ad&78SB+N9*hLk@2Q%pz58@9mhR7|gJVFYX5
z4V|#Gt7DUZg}3~A&v`V|Z=ZQ&@C*U2&ejICk_r1o45`b*x_5{d(YKm5rtpdZk8|hh
zYIf<FpyfNMQtKPMN$pQ$$ll&<lQ?Q|xjY}`)MzXocj}i8`c)`rRcBMVeDwbD(dES?
z;1RliVq%O|OzAxBrcX1e^yAwHJ-ltRy9v+yr`(K{-$Bc+V}uX*-!7ZQa9~q|x*4c2
z)!Zm^a|%6^dw&DAcHs$qXN!Ry!9z=-FZA8qXhZ5|m8IP0B)~5x|9)E2xzE>kxSt@%
zkr5X3TYv_mM;7M0{5(E6af!@yC^*PwPgxnA`p69q-;6R-B>e@xGR(F#!mib~YhZvE
z2(a!j`)hSLm4i$5W{oNvwoyT#^(7$oD2mswDr`Fgw5#tu6nvbV4xc$HLvbBD$5$#R
z!q?I*1=HO?%XEd>N78_Uj4U2@yOdHfX{0NmNGmnh|6v`M8}VR*eE49OgP*nmT09jB
z$0Opwy8{dAnky{qbxKWRyuqM?cWx-tKp7a1qx5e62#W_JZi1<dB+(A9u}=5&m=fg7
zt_eiH0_+X*m!@$eVSm4c);Zl9c&+>0o7cbN+HRwl?52k;B8KNcX>K&68BzUP=IcJT
z2uPrYCEjvN@P{QShC#mflHSJ8t2DA!BFXC)UMK7Qb@^ure|SXnMt%4d%H;y>qy)U5
z78F7jupfr4G`q0b&)>-44LsY2<2O>7pALq`%y$71+dh>%2``WXE2T|<I(3%jvuZ^K
zsl9{%kOAh{Z;P<?A6Oaspv@*wSUJa+$ji$}`R<4@QRR+O!=2q%01)tT$OnlBq7_AC
zl=t~=)AyN4!HJZ$Y<ta)`8A0s4*V6~a4Bz<8!bj9xG`AY0LDmJL`UznFvk`}K*AbJ
z!0ZYNa^PoXSyX>UC23w6S<5q5<O(L@SNe#xXhCS!2i>djK50RCoW8awz|=O|=8{Ve
z`lh}eB*e5oIcscMje|%kPH5~?6OMD}vd~W4!Y5<V&6=bDnp-crdg_k>@O2=WnUf@%
zh*ZOR9<BhK`goXFn!=&gu%zw^c@pHIa9(KuxP~H=7DbHj`_qp$*Z6YY<yW82pi7jU
zPU(jE(9w(CB@pZO{n#)hov3Y_?8H7)_88!b3{#GmapVu0T&2yi42C!oJN%ZUYG|#H
zm*t!p<!~aTrfK`|X<`x(T`NB82-d@MS_dII!5QpQ+Pdr=Wg-z|k`$i?E+m$)4}o#<
z#g4=%Y@HWLbH>Suqb!AJDuk>#;04t7w-gp}c6b85ZflDv(tEBKU`r`@tj{BeU+E4V
zKlw~;Vo*rcZM<xH(M9P{77ZiadILQZQ%{1ZSg;xSQYSU<;${)7MDn=9180R8oh5{X
z7BV3w)V2)T)n?R8Ke&LeA%#^k{L4+BPmzvwcK0>HdSVJ5$Gwmjjyz3bau55gB+c&Q
ztI1~-82IU>S%6febXO5ue8b({m_}vkv4WAO`$edKSDsg3MoEEWQ4oo=R2F5w=Pcb$
zTdy`{`{?S4_gX*yzB(VDuFua!;)BtN(m8qgp=pH6jW4T)$-6*(c&lqex<ytVB&OaD
zEr@tU2z_>3wfz29KAg@YX@0v66srM`{|3n0K0S6LibjglwWf?owug~^d|p}P`s^8n
zDLu&njy}4o=g5vVc?RB}JmrhYnS1NCJ6mTZP44vkre0Xj6d^@hF!k>DMERTN=R8jG
zq`b~R{2RVp*xt6qlodwczd?M*@SC?jwaq^o@@jp(@c2Px8P#eeFfT#=J;0Y18^4;d
z7(;z#K=m+bJ{rlY-saI*FWd*qLG2pYaCW~N62a9I8^*^o1x1M!M+=I)@EVCv)R7hC
zpy0X>r!(zJ9BJiu?IP4YBQB~R@`>m7Da3ei;LwKxPEo4(K1mVMlUKCM5iH6riCS!k
zGMLPaghWvCAsitplEqAN!5E$M;~hyrQ97k$#eNvqFDgUP5;%ZvS}ANYzYsD-NCjg{
z&&fFr*Z&FMhkKUX{RbeGu$C@GMc!?^uBo2K`*M-cd7ONh0$@y2LwGBtVR)3|!~_wt
z5wEc-BbjI_xeigPVR%e0_57ZB5nX1)i43eZ5`vG5JLJYGsBi;DY#j3#@d(bmO5ZQy
zKl_i5t$W`Lw12=eaejWz0wQ~R1-^RHU`m~Jd0Q5&o@2H&xdSAu#nr7Xjb$`RBqB@M
zvQGhxIv`8BCl@+sUQ=wzJ`2wa_GLgb;yCEN&lHnh6E9JbG9tcfB$=A`3Wy?q{QrI~
zhVXet`r@d>3AI5<rjW}(3kcYmRO7@p;L1V!r3^*04(VyaNDZ069Ro}?iyxl87lf*d
zOHsjyThji{h!GwpEq8x}oclv_;-vLhZe6O_(WWh+zeQ*+4@${>g(aAT0ya5f4g@?r
zKG*AYrj8RpqkY_TiX1-YBr<~T^JzPrgl+7B^tv{1pbDMJTgWl}99k%ZAF6vfI5-eX
z>tu^W{Udjqz84VPGTwDS$*-q!xGr2=4N|Kvz6F(3>38bag)1oZ4zK^uJgiK+F_Lwn
zL{OeI)rY#9l*P?VVULUBnl^wpiOzh=K?}l;rF=?g$eTS?Vkk{a1!m4bT)r~3;0?4X
zgg@Z3RQ7R<yZ|h*s98$y=~)(q2d(6&!`yRz^-^bsF2{T>gX`%A1uC&52E>0T-(G;r
z)DPh;^W?NadP))Pj?oX}tud{JX++_H@xycfsJ9bMIX%m->Vg8OmCZe~97Xj@pKr%;
zJdM}w2{?;N^N%vVU5G>lIjU(-a?^)vy7z+vi804uUea1StKRZ;I6RfL+l@m<u5OP%
zXpt}%EUOQ6SmWY~5T@63Tdx&_7D~7fUgpIinkTx1p;`19tr(AP;paJEoidEZfuQ1z
zxV=jBR}ry<q(>r+QF;e0E;?BY7G_<pAO6XA=wvGd62K8xcuL`B3<)o{^kc|c6kFDX
zWbxne)i~HmW_jZ-ge7-}uM2rLcz<2@T4)rpA1#ocAdKUlS#biWOT`ELI7dIGc)h0i
zc%cD&>V(h=Flu?bxA3N@*O;Y*px7m^P-+MdDj#z5&(&r4$@hYh=h;FJ-U1(=Khlwg
zI+N&gxS9&u$?=e_AG6pZ`u^TW*P|`h!M|A!nbWfVRT&>XxW${)+l@pB`u+a1RNy)_
zWptz9wo#)cj5sq2^6#{CV+gs`90<v{<u$B|Zvf9B1ZG<%T&40yfxq%@1lV#VOp0e|
zukYAaB<f@zx`p%U=B-~C;Zz8~a|o2LnDrG?4YuR>Z#Vh8xb2lk{oea)_--YrQ!^LE
zn!Xz*tRrGB@Ky}rboi@B9U%q8w!N7UmEbu2OaZM@jeiujNsyk&f33Q4<fzclP<mvT
zzv9E9Ox-Y){09lop{kE4!Y{bZ7nw_Kdg2?8(v0<-M@fs2d?IwQGB8zKAwI*ubK&mj
zPs{1R6%x?{!jh>~vZL<J)?Ff4X7D#*KvS?ejemK-gL5La1~fh;C);j|{nxzKW@X+H
z&NZ|x;~d+<JUl%7{BbWKQf!$_C-ap46-J7}d^GF$>Z)2vkcdyvgl%0x%r(<t@Dz;m
zx>eTOnrWY3s$g9YA(e#?$t%cHZ0)iSf!OcOssaTLPR`e~toN$3Yau`O@oclt>BIMD
zz%g;44(waka?lXfi0QAV(2OuQ_Wj1%WDmKWHA90S^z+=sawAdTQ;hiSn-&nct&+bC
z0i)Y!@lUyu_$}zKN?{0(zuX<6ns^WnLN}orF7QW78Ec7o5FP{N&$O`^$kVPrpe4aF
zauqJrqI;Yeo^guoKb)kiHDFkiV}GZ(5ByvRX#ZFf(P5TZk!dXJps%JxC0kD<sAwQ3
z!xDBi^Eb4$OX!qT#V=IM!Mjg=0;gNnFRZn09xk!}tLn==loYJ+KWx2aP}b4*2KtiH
z-2wvA-QC>{64Kq>-6`FTw1Co$bax0yw;&xNAmZKp&pCJQhdbj39hG_Gx7S|lSx?}<
z4^csA!k<0{8Xug`0~k4xk#qP(ed57YQTv%?L*{L_L^T5#qdGvkC#Ot{u{!?A_?Qd&
z{DGK=XguxH)c{tkKD46ap8nVJ@=%zWIWYtw+oT6x3~`0ubAcSLxOp)jZsD*J?aevE
z{$ZG+_216=M`Mxq*0Cfg{2qj%g!JWr%_R(#IcDEM(IBR0EL!`|@3j4rW5K}?=@cM<
zN>ca?t3%r=Sg2Alt@b5%KJSp8l60d`EM@$-7~|cO96QJ2Z2G9s3LR5<wU=Zud`I#Q
zncMD=>S+c<1Lay;C3*1xA$CU{foX}2+AaNwUxJErM2wi0dpwcoD1NIAHbH(B<u$jW
zY#U{8CgXvtdoM;uOa(hYJF}44e1O5mAi{6<l@v<xV7j;Z9<v*R#DpPoksoYbke1kF
zO^2|8tA0veZxvHRyJoq>RDIHPo=%6D;kczv%9k>19x@c#RENX1sh-&;_$hGhWGE>@
zzsEDFF;6f@vA8$poa>R2cvsFUEPT-)@&38U>if*^H}lAK=6Ck`U?)hU%u9E)H!|(l
z^;V`M2%V!82J73$h|~%-0&Xs6W8bZ>$2?9Q#kM#rJtCcQ*fekvxf}z^g^pns`NH{~
zK5mEW?JaAqH`yd)fpxP*WPX;Gn6(nr7T*C2yd}c9Kilt4QNUyTLD-}fmcSKYd@<U^
z#kxJuNF@rXnOK0_%}s>Bn!{<EhJuQ%>~|3B_Hf%|!`(WFp5Ec9RKnNMA|Zr^3Kdx;
z-sAUMc>pmhH7O}EBrx#USupx)*+`)9*U;IcK(9_;9~z1AG#`WZ${Z!*Wc!it`THL^
zI}%Z#$@+44QHX~5i<8;JPga)Nq74aVPR!Bt1hH;NegDGg?|CQZ_o(c>B=zcF5dyuG
z@aLiA*a2;oK+qNKi(zcf2`W(+Kkv$Sq)qB_*TO<=b2SK^*piFtbvSI2-(151?s){g
z(@GLz+_3q4{M-9R*;dInNrOi-ljPVvML*kDsx}!rTo2@jeb0XVj<*B1ongIc#G2Y9
z@YrCb`z9$JWYU07jp+Xmcu2f)cul!I3cURkSW>-WLB(hVYTa#gRRnKLNrX@+xd~hT
zQXtuIjlw2EF@J?D{vb*Z*pqOuFkwYPIMsmb%hX>~L<=FoK)*z=hVC~jaGf}U5CXCg
zlu8K}goqLD_SKmfcacz2gX0E2nXoZ360BK8ppF>Wr9+jhVjTgZ(%1(CU0URVNRp6y
zU}~wjki@2<a9Sjk1+h#iTqFKT0t<2*P=AG408LHAH)v53TRA?*eFP*Josbq3;cfeM
zeXyRX!%2g<1xLoKDWnB&WarEgi-<;Da&Yy2?mqQ{eFd&(EFAH@{Q_9dF;zNb87Tz9
zBMnFOnBW%RPD}o~T=@CkOt(z|c1R>`L}c;pGnD@S^?Kj!oN}0AlGHT&N8?*<5SXEM
z!?~bxfCmEN?%>B4B_g#%motf)@Mlj=X`hd$cWAf>1#R25yfCDHfVGLL`choVj4JZ;
za;2Jt<7pA(VE~g@ff@sjh(hR+ub4dQ$4ns$PZS%rG?W4g3JT>w6~?J#-S$k@B}l4C
z9=MOvHZC4SU|-koj>yu%P$Hnq`ye?a<&LM4iuPUn@P%gU4y$58{PWk`tdy&kfcSON
zW>aYYET3ud22j;3Yb5U*2UwH(#A&-rq!qXB>aQf%tPMKrCMav&D&@fl4B@&5`M;2#
zO_(F8QkXDE1*Lh41O1g{!d&;<q{G010L!<7=9R@U`vO}U;=eYke<)%EvKd&CzNmz*
zcc;3#Rtnam887_a%B~DW$2<_0lrLD^$rfzCQWv89>J_!Qzwt`)mSeO4*X*zD)*h%H
zBqV2&J#<7BJT;p7B6wbU3D|=%l{SVjEL65b3>HCYe9Ow@2$;{ItpL1=udYfJ9hDDH
zO2W`f_CQ*Jo}%7G30O?T=9P*VR1l0QL16oU^?ui|a#J(D(;2MtW-zqpQ@)N>iaXh^
zx3Mu>K#CKSD!t?1E`~8xPF*Va?qTq=bInpHrQ&jqV?MGY_KK<WNERV}SI#hP%iP)<
zv>~XrVCUbXg_mQdVLRf=f+<YXFh@pWg@()@x$}mLj?Q2YVm2sM45X$NGZc3vX+`bk
z-T!=vIU#O-4H6Md_jd-OP#ihMRynv>SFq6X23%|{6C|{V`!Rj^2uoo9=0N4ylT$eQ
z(V8JVkL;A?I8RW&Y?xWCCiFaWPYpD*V-lt#dioN8U&2-^%WM8tGntGECF?JS9$!lc
z#$lC0Bkqn<hZWE6Ow^*>h!_aC#-UL=0jyNOVXf*b8hm!X@dVZws!Q=GKeUpQ`7nCG
zk=|(Mi1RclWo7eWPBU!x^IFO@5)R`ZH_(kMQ`NREp^<c1VT}`%KyLq}bpllGElC(Z
zQd{ekJ{k0Ep6~7X_u{IzdO2~w>-(FMg0vF|Mof(gJt#e}^U!bg<VH2wY@h-buD4;Y
z@>TYUnA8|L$UT&D`SGztyj7h~b<iT}Ly^;orgOV7{EW8tTO2gVGgRdfE|bVJDl3T*
z=;^Oy7TDO@2cjxe3hb2>83CpJ%SD&b2R?vZC6t{kS+M&KpqOOka${~mXa0FqmQ!NN
z6W;J~3YsGN^VvWbHguJ&H4fj(c=hpDw)LO=n43-EaJMtPKVaoy6ma0*x$^7e!5gvF
znY@rr#M_x)&jgKnmbp9`9n83@?N2B>^x=W`&d9<QkqZ@WRUy9H-Qh1QiznwBOH$1)
zlL7NI%5(29^vlgu8n@LJr9Mu*@IvrH2mHrVy;t3qjd7&44k>j72Ge@8xPV)TC1$x?
zQdC#QLb0?WeAUIG08>}|Hqa~#%i7Se`;<BSd;SZod{OF>qFA#TAtuIjvoTLgXrqzY
zqXwCP$22>uN`TNtNHpABqz=K*`3W{n+X@g0UidcnPcTk%gkol*^>Z_D;mMVoh6?!b
ze<93bXTkl9_{ARZzQ#z#IC{{Z;hYdDc53V)Xru6xA!VYjw_Zhp_wYlIhSgl}cG&mI
zoxSdyKNtoRO<+;vUz`Z)s(xn@>9MHh`WQnmYU+y&x#SGk7`sd75)7aGsHj8mjx8fI
z20v+FH&`1Yc`HVk9ifKnwZo%Ybb2|amE`Or!5G_zBDC?~&bur`Vlh}^xlCmMZz4EI
zE{-e7Y}kbW`L^(`1|BoC0?KV4!m6iTJua>-J`nUdML^0N0V7BV+sb8KpT#__YXLz7
z<^+*nGLAPz6Y~BEqB?A@oE&(Mcb8jSa0_;;!jNH%OvYvuU|joXMFCk&$s<tcGB==j
zkBnYY(V~|wSfN%94=o05j4Yk391idQrFQf{q##Nu8TVfIJS}DZ-l{$Yp}AfV8|lsd
z!DOBACyJ%}aArtCW)xo;L-#g9{%jZmh4Q6(WG|+$18x{X8?kTjg6K_BP=D!P&M*-~
zs)tBl|KSh&G^L?$y$u_rqS;C@2iQ_qSqa4v7#vsXitn1l5hE0b%^wBK;X9Oh$Y&QL
z4dM}L<#4Pc`ofJdb$!0(6B3ggEz;T`RIj6#DiZ^8f2850PKaM|gS)3Mo<ZVa_}yMN
zAmWH(j;WtcsS6-tS~I`Gnr-L&k@Vv}c20WzT-ECjxG+>edD7y&zrQjgragIkFRub6
zQo>5*;sM+sWx0_=c@0Kl1wEXwnU$bb<9o-p!-P>ZT$hQko1*Hk61hpmQ^xpfhW{-}
zxcM(_!UcDdHI*_?54PgPMeLLRmDNitrq3I;Qk<nPm0)8wf%X~2i26_(-c>^yHCsz7
zv0T0al$AoY&eGVt<mcC4>-m%=-t1QY<AYf{PWk)zYhZv9VxaFAM~Z}jpHqIpVFa>c
zNf$0(zx6jaFID8J9A6AubwxKSpdb$+A9xdRi+S#<ATK26>&tH=CqW5m;aIs&=RelH
zwVtxs$IXs+Oe0s^^=w$>T5>hYksqy}S8lVwNQL~H5^p%$y6`ud2T;__4;c2m(rKNe
z_SxM20XMSVzP{;JomzdX-wg&#8}!tXAp^Sh-{}7Uf{BZZk1FH+{8(zxDF!kss9cTu
ztxX{?3&o-Smp5)-`E?v^HrtZXdse>+DfqgGhu)lx19Dv7BlG*wT+Xr8Mk_#9*1g<6
z-&nZM6<ULzI@u5)!D_S5zRA~Oc*p;SbhG2zcUV{gIM$YTUpT$Vx{!V0QNs$<$PatN
zH#VPf`_!Lc3ZvTkt4-XAO+wciX{r_Qf4D7T{CWPnK;CUNz2ARh(#{zUEt6>Jb()35
z1yUDaoF?<_2AJY$f-Bj~@>rT9efmGP<9&I4_UmhL&|Tqm%)>oAz56O8JUB_jRnS+z
z)+Bel&X*o7DRr>B^RjIIsDYReQ8+MM<#~6C@{CTDMoO3+R$myH!|86#KZzZ&vneMR
zF&ntj&_ze&uyZ#^!94w!$(pl*38fF_9ty^3%QG@63G?7hpz|iKh!^wn%*+EN2VP%q
z4ACp{G3%AD0rW~G<Vt%@m~R<Tu2*4xO8q3oVa<Gy)2?DmViSQXHcyXZTy?JuQ8COS
zpKt<hfgds(l+1noVMw7Zp=8K1hQ1b$7k~Z*ofw-=(VQ)l?E8*Y6v>!ViH4Q=xJ!?1
zc>?v7L83QSfE*dow$2u(Ad=udA_>2tdk+3pX=24*P+Z%$!6Nd}bT$0SpT}rAgr$_q
z!O<!3k+TTSUViOsVUA^*R3D-QWyek!8`HXCKBoL4QVj&il*wXQNByBetQHm#BI;5U
zE+P_AN`=IR;mKW*K3$7PG8UejAPXII>-!G(DnkcpCLQd5<Y$gXrthvJ$KP@0Z;<j3
zGaAwPU{h&gwXB1MvyO{6Tt8pj5EdR@c_J5d*|OzugHl@=a0TeW30dktM<X8H>}<Uk
ziQY<~y1Uw|Rh2xdw1fKl#vXf>!z5J8(ELEJ_mT#^O8oQEm)58Vi@tGdi;WHumT;Bn
z+#i$~b-d4LB;(2|EU?+EFw#;7j0QO_JL2a<aXx8j0q*5WZjNU#MrEYJ5)~$<&I-4P
zNDUI7d6DNrtz0wM{mTP|Z(cD(wqHTX!?T5TUcYI0Wmk5Xlw>;jy@}3k9EX7z-R++7
zReP*mJtlpdzYqM~F2(a~UcboSG!pE+E*O;8>)itSNVClN*M(o&NUC9A&M@9pvW)OJ
zP7dOs^*^B^^=_&ZOzw!^X1)`;*vO60H=e*bJk8_dZWEHBl@P+&L-;h0ksNU|LFBqB
zuKzyd=3yXeH`QVy?~h>2mst+R$s?$T5?5v#b5-j+mREF&rWgpaEaTg5HAMut>KybA
z8#z?d=m>SiugAhZ;e;`r_&fuDL7)^91i)=lM|?_ERn@!C@7ukvC>B1|8Es?Uyo9)e
zG!~=NS}d@~;@JP9Vh+f}Bp@XPkh~H}1hhZN)INU{4dwylEf6o~!Vj!mt^r&9gOpL|
z3(2|VR;fhJ-o6GO`l%&m!!at(u-o_Bnf$Lz8X&uKM*Xnv&V|QSrbsbi(Tsni9sfcX
z?+^eGU4S`w9lFW4<tXZ<EvE2(N8hN)f$azii(Z5I7{lj(Ck#bj0qxz+md9hSJ(JqT
z#s)+$E{_nAk2k!kC=sMyHw83*7OB%a3R&epcU5)y%O@&#%R-)vuM%MS!V84Fx4VA*
z)VprJ58D<yUTaYz<X^<XJ@Cg_YE~Tk$L}s1Ve|Vad8yqEK=j%5_0!ESJPrS^o>T1`
zYMIQWZ<#N~a|FLHb+z9h8n#v1Wyk(YoytSy*#uef?Lg^YSI64=#VG<NEO+^fkqVTG
z%I|E`@m!jq0E&`}QR&XlB4hsyC`4S_yEA{qPAF*ImuWk`NK@n+8XFJtJ%_Q&yV|dp
zY5w~juCMd-e~G?LB%KQEe*SDY)fpfFXeoBJdNYxzjlCzXu6Z-0of-bX-a8MFQYJ{Y
zFE8^z6J{`x_H?m7Mx57ZCZj!5VDqGuv)@ICmR`1cdipUu{Aq7QNSav5)HKfzZh&vO
z)=fCsZ$G+za_ib_PrAV5!lHKzOu9fMw0>@ySy&i!JWusKW!ifh488Atq^Q~XjrH`1
zqU+wv>dDK?hx%qqNlQz&Yu=~8R{u(Lx3sXJqM_+2{ZrQ7-VTWCH?DDpq{b~ejJiM5
z7l#-Aqjh=W`mgeZfQqN}XuhngFmOEbv^{|8n;j*fasvHC4QFJiudj(t73@CYn+t!l
z?_j~(^OW-E*2Y9GFcVgPvm^ZtUPiZt!r@#A-?jYDce+UF1c~%MBp3ML^EOI*XHL-x
z$m4)f-#;**@T&!@Ra^!Q1*HZAC5Sv<B?2_Qt09p?)Ey8GefNe@r}hg2AFF^-6makI
zt2cg-wYLZ4c?XN!H}6c2I>9Ed3&9IeqQF$m>7@97BHFYsn!Vw6SjND-^~J%JPMY48
zA~k>-xCK7V1b)?L908345|1BnMZFUheo8V0CWv}$t<Y{0YOgg{zXj&5I_UtP)R2jY
zhzOe(@MlmqVzpraY^ZCkKQ51GRqAf?*af-JDB32K=lh{lhJ8$2WE4>E_^bN?>5WL>
zIuP{$k%w6)j)3>2F<?S`{P?j_wTBzaNwt`^ilhSmtL4$1M0pnHCoed>nAasGCBQLo
zF9uQ~0T{i1eqZzep)Gh=mGb$&oe4+(S01HHZ`{v?c)7*^Avg?po`}MVP2(9N!@bCe
zb*k5)Q#Td-G`QdbN`XNs1x*9+SNK4{whMAZ^I1*A!N&;fV-I}7fk*(1Z;3=)@}A``
zmEA&_O#0j)P8v9mf_KYDPTr?sq@b*9*leo>lm|r#;1h4wVRT&=4c-a4y1Hth`B?`B
zhQfmF?QIa&STqAv3UgLqyX07ySY%`SVue{)XaqJ(FfcGXpNX5k+XIEvfw*2~K>GeR
zU|51T2jc%`0ptk>2iG2OEb8se3kQ;h4UCMoK=pB0Z&UMp9f{>etZ%JwGYsf?+hf4h
zvGf;6(J*Ltg^P__XiK^V)h!h@)p)wC9@yztN@_J^?f`YWIm0p-C6=o+UWsN+wL>7m
z5IIRP%@HJ<nOQ^`UckC>`~FlCg7w~9bM?g*cPOog>_1wmi_E5`euj6~(|Kdv&c*k?
znzZe9n(e0h=jPfINpTzR=mk2D4yT^nez?+o@ofH!P4N9p3iMcjxk1)UMT0+6R(Up^
z{{#-Ue(QC2>mTiyq22h=7;L@*&vPa(a!($|eLyajP*j)>adVA5-<bF@bGE4*WT390
z0pwtCTB(^uKY@!C(#NTpnODprz!WIUpKB=XoesS{MOeI?KER;<0(S<P1Y%vlqpT!Z
zOcQPf26ABiFWze|bO|E1h3~gvyxI5ffCw?1&&tAr&`z^DdgR0FR|ji=X(K8MF;}nd
z6AeE8q`C#<N@wfsH$WZ~WimWG+#lHKb%8eW44gWRhhCDnAKSh%5KNI59>L(sys@Ti
zTC!~hexap6+Ba*kQU&Y=hzZyc6CD=HrvP!57kKg|oUXMdzKuj8v5iCHbq2lhNIc=&
zTt!o|nr48dRYvjf!jWgzie15zhMmlx0}N$%cNav0D=z@?i5|#Ee!MI!H#x@P^}VHC
z-9_SMk~d}N9=|&T8tGleh%3eJAHZ?oiZeuoSK&PokE3Efun=dZcleLq)+h<sB`ZNc
z@gRqT?8!;F)S5Uv3&n!d^(T1JgB^VTA1&RTo)$_4_WEtCX5%<(*9V>iRWwMj8z15)
zv$?0Zy&Q)pv#0-hGaHOAU?8XYJwKtyE`HLQHt_#!$n@;e0EmA{Nj31ODeu0tyf)0$
ztTDI1?due*delR1LfdL_%x~~=YN_Z=2WIcMSdUA!8i-NIupTT`RS|=}i?kD=aD<6(
zIuT)t$0ixCNwwKyc{^GVe!@w-;dKTp@4w(gLKgt7ZUB&Bg6MTX<!zD(xrmNNNTS;Q
zw%-e6AL=I9*%-#Mdq84PWUi*B#;W2lQ4h|OnCdUsHoy%8?2D<%$<uGu_(mEU8Xvg$
zi4hSIRoj3Iv^W>A4tNK$(vB+AI5D=tnFrKw#awPwW+Ag-6a-THg_#+2YQzc>LGMeT
zZnIX?5M>b$R@(!T?L~MgphciSlIQ~BD1^7DKvTKd^>BZ+SKK_i0nV+>`nR~!ii$m-
zN`ZB)gd!{taJS4;JbmBV5)pGq4t-ek0j_+y#SV?%L0HCQGltWtEijc0!=mCN#m0s~
zHEega08;tlW-#FalWjy9f+AMb&&VfV{eClRk@zvAn8w7!goK1(Z12cJLqoHUESTE-
zr-F}D|L3?mWkg5kaXYAMe{Rxel#)r<cR$VQu+b>rI4_9G6UtrtY(Rg?LsfP;nY|9^
zs4y`3_(T(Q?Ld?Rrj=2q_?($;zly%RH$txS=yhVw&eXrwJJN%8#F_bftKyeC5#EV?
z^bbhg`MH^$B1TJ$o9_3}aOE)I6e)@To&p}nye@EK4*@5Z@JDWkoUXv`4Y<$_%qDq7
zMzRsxMen--^o%I<4>)Pi#FTBn&)e(Pen2~=dmtSj4{ORPD8MXF7mA1g4UgdXGH|a5
zoeP-@mZeKgOM`tf=<=@L)&#}-thAq+oxB&L7Wi%fA5g&G?f`5-5Q(1r8w+@jtQ-SE
z2w5H=mq#p7)6l%O(`4~{vE>1Bc;n!b^j@<ADPY6hoM{Yl)oZ}_rTU(Z+V2jHkRA38
zh_7Hz!jQx#f*y})=)T~S_rCW4_Mo)1`<{TpZZ(}}^U)mmJgL*X$DtzcC1`Njlm4*e
zi}e9w=Twks6?{OY<90Y1qBc=5yo-9&iUV?lG5zm>)Dft=vN*dzEe0~W=^U=OIYb6v
zlxb8ZpANi}NJIkjOxX>0oL9J-?f~cxv}p<c%-|Te1^p9_Xuo?=F$1wQxPRE7Ql6qd
z{`abj`oGJ2n;nTGpgg6=RR&p{*Cquxxu<DV<gM`m-R4TOT~479zyCKKO@~^}pg`$V
zYPw7FsE*gbRNEJD++187c`?%9h2eE0lm{}mKQEMj*K3vsCx0hxN}DsF!{O#oQMlJC
z@K0?pI!+k;Kt|BN?(N|ZPe5B%ywrcx&=8A-g=A`W<9RmzN#n=&-66u60^H57`9VLF
zzkbsjv>Lx5Oec;l5Nia7a4!+5u`w?2feOD<b^CD2zdhpqzTWMaD@P;vOH+R{Cn{=K
zYDr>Xa|^YPj}+kBIA^3Ju`#PCFzoB)Y?FQH-<pm6WDPeS1zkC1WhTYH<9aJYNUtb6
zsv_q?KS_m7%KJB1&GenCD>+)ofQEGStSQ~ouVsJcJRX)3-Nv+hfsGo$#qes?M50UF
z!#y5*oF6wbLY!8u0^f#bjwIraBFAvbAtUKy52n|BVc!9Bh0*Bz2{CMM<=oe7iHuS!
zk<>;avW>h~r4SEmVY7PyXn1xR&!yzXOR&%e%Ro8f<n(WYd-i{HXO6U6PN9J8f*39+
z-b$vJ$?<XM^cG;F^R{;s*mOc|8C$n1aDt66ZYEOhXgFlx08ln-us(xMP5-{)G+dI+
zcMC{2y0Nzh2PGfPoSj*TQ~2WSnzNB9kf6X7-T2M6EKt?}bRJ}Z81_B`cyG45iJ%gq
zqc4?%!3jXLvUDx&0U8&?VIY|J1JnvMR8(`c@6?#6Z16jcOFcU`R1?L>dVx_BxUrPz
z-zIl7BSS51LOYQ4S`z^GN_<mHK_5_W!I+d@UJv)K*CWE)sM{CUGT{usgdlQ?E{xz#
z-3RbtL3IYUV76#W-poK+9r-shA_6Gc96(UO>>h}lHnvw(j91qEPi1=k^q+^d0pZ44
zT)ZC$wSgi981Lqr{%}%(z6$R1JkLXla-mfgaIZW74144F;g3JncErNw^_%7SyrzBd
z5Oyw{YK=tr1lPxGP@zFW%LJemIBzF<v{%1d+xgtrmwoy9{{Cq!we~&2z|LqqA$K$(
zqumhFpDZ?@oXtC_wgDN@_R(xLj1&}66U(2ch<T<TpZ}<kE6jqNLJrknWRpn1=BHL}
z5?{0Cp{54Tw3E$tX8_*LWNI|(%n$)rVbAlg+s+GhHTXbWlKf5+iNjA?cYJR4IKdZv
zSE61e(z>%g`?3?@4sF+{#WzM*wC@XzuQ#iOf+9?+7Y>*QV{&+LK7YD^WxU6o{cCBZ
z9P=SRH8nogAn)VFD(*=f%X4kArd%E?)4AK@mU=TL>j>ZXp*93ufnB(p2@hgo)2|N|
zGA(Dvzc;pv%2fL4=x7_0IoAI^&AtQNsV)rTm5X{azLf~4D{`&@V>V){xx6n~5<<p$
zNR0Z2?;8@dd7(@NgT7|jzviB_VIMI$egFJxnGTR-_b^0yZrj})BnMZ1#zFs;Rsp71
zzVExTmdllXRuobzWt$3l&|7VNwf`8rV`B21K=$Yxys|FHCr)-cs_IcgDR?2FunI9V
zD+?fWp&@{fK4W<xQ1Srw?LE(r)t<9B8ix2)bulQeyr7Q;a#x`3b=&R@0T<lGdOJrK
z^5d&|6huVeUMLI<YsXSqCA^P;^e6&?PQYpmG&qh%RB&Iy;>3B|iQxr+<K!XB!%*zM
zTO(PPCvGuB`&52(68@&3e}RiHf}+vnw>yPN(!#_dfnDJG&-*1A3_QsBfeZ*_gmT(0
zA`HupprfF?2&(*3?23<`tmeZj&6c$-<0cg)gaBks$YrYu1|QXDV7R5Lt2^uD9-WYI
z2=rfWAh;j`vWLo98t=&@-E99It5s53+B9x`c}Nr<7?36gfV_C}UfMmt$ifEaIcxzq
zcYa^!w_I1K2W4GDA9w)~9+BM*i~o0mg!|6~X@O~}O1)iKSqb`hkcNTpzip#}Z~+Z4
z0q$m*#HQCgd7`j6umYd-mxU@Ks65YdmOdN&EK^W!L3tI%+~0Y3I_BDqsHF98W>fdo
zyX0ELr<sk_PaB_VH(GzWTWxjywj?k?$ufZ_FuxQFRY1TZ4wabQ#uIGwyM&F}M&zdy
zo!v%+jWJkW&t>>?B0THXE)Cz0a(ef!RXu+}=Iaf~pTGdUB5ET+c=w*aEzWZk9Gq<)
z)u_BUYhC#QC$@`8A2+&mp-cK(gO|qBm-sz64LXhx1byb`sxwKU{T~-m+XA0lpxUgP
z<^4u~o!FthVfN(jo^|^BC^eFR3u7<(b`;j44@kgIg84_2D1sTRIo=M;l|+&5M^^E|
zosA3<&<4zs4QxHbQ=X{$4I$ZWGgFn7RtV4@>?Ph5Yv^>lm^pm=Bn2UdOJ~S5YIVev
z8W_Gg%m!=ZT<-6-%gnZOyV*m~LpzrkA8gf;?XRbJB9wA%>u3ZYjw>D((fA`oLPTd>
z2H+V+S6gcF4vLMQBLvZj>wX-x&qg(^wMM}jD=MM&a=>3K$o%_m1=mE<Tz*{T;ohW7
zfZ7~|!uG!VXL!?E(_G2}P?)0<Sx2L<lt`CI6RqNO_Ek39;x^k?88i+f)o53#1NI;m
z4Lb_t$B)iGzj;)*@&(TL^Zz`0ShYIxD=HOh;_c1mGaJFDaH*+vAmitK#m6c74ju|H
zB|rLxh(Qtj@CHYLw*+{|sY7e29T+4Vxskt2FY@xBAXxP&FJ*#wyx=|{d?W!+@Qbg_
z81#@qw{N<2(IGI0-_b$10aA7T{OMzNe*f?w-C`tUWN-pOO2!QsqeFtg;HkkK(%8@d
zMDa3bvS<mew)>;Wvm_<yAKl#Cc2<BYzBh?jl~yo2IT<SYF(WjI9KyH=9G%9%Pbd)d
z*-bXOXEbDfi61|@!nx6NVG9A0c?-gW6^0pf%{~>k`gf=4PEYWwZ{NPfXVOc{%=7}N
zOcBw9b1W5sE$$YDX}{P2=-KHqB<1R|!*NiX%gf8L#EV%)uz{sxYF6j`{5&o44VcMd
ze}oqwfxR$o_Wc;(Cmq8RSb^Z);NOj}%QV%baJ4k)-ag>sy~hnUl5&P~h7SJ?foUX&
zt7!C>T7QGgeg(r9y19T1k&(3S!{S}|LmXVK#UL+-h}erXt;Q<~w{X6Ki4|-@c_d{H
zR|kAd5g71r+vVC^%cRyvkxoN&B=-oU|L(k^L*x~4uY_6=_L^o3>_SBCBmHvgoE9cX
zuIP*t4sVo5oQ#!XvNucw@qTc%n<;o~v?|LFIkm@+_qr%JIhr#yW!5p~&K8`=(1q0Q
zo7)(5w5`DKg(a|7cz5G%qw2-weuRl|KC0K{m?~4aciWuGb-<;^na(zoX7~h=Q0GcX
zB(V!8-5DbhIK3oILL7KCHEZswp_GNkSiwZ`wz))_Fhrl-eqItA--@2meJ?oVi`}x`
z@6-C55(;B_%MiU7McC^d`+>+DR!BU_&&9dPe1`81SEk5WKzm^x@^HgMkca2ae}yTO
zbQX!qYlSx2s7yka#|^Dih4v(u&f}Oy<Z@@vVWCD*Yt!ntZC;sG^P~`<CJt5iF0hA(
zDs(|}ox!U%?9~}65sp@+YMt%3Mw<D?Myfx(Pqz|VO>HTl?;XO_{Q7AZ6{>d>JgdOU
zsoQi2X-iZ~(}!k1UuP6z;H=zrERTus05FSP`r3Qt3xzK$zWa%{^jo8-IAnyUw@h#*
zbn$U<uQ@DHSm`R)cw%Vz7bPU5OE8}RIFs%aIW{)7J0SI3A5<Le*B%h(Ili08feHN$
zjlL|gDwh6J<;QWBbR&~KEvS2~7l(-B<74VnL>Un-E-nrZ4vb*1ZHK0ph?Mp7-Hw&U
zHZPl;@d~pd;TQBvz@LYF7Ol~!cyeO88E+L03lcqk08-D8$lKnEG#tNedK7D@GO{uV
zllc&mLbGi|(dw_0>A8{*e!o{EI9SbwXCQ(mq3$RnDX^Ro(Y)uYTE6r5!>EXJea5|v
zI1reQ($IN0CclFXsX+7j%4FDH-)_HabB(iA5j!{|Knh0q5ax-KpJk0&6GuUd65MQC
zhI>&1-#BKw%83mxmMWL3NRUKPr{3wg3Zg%bkCg+9O1ulWRmm>HVL1*$4`@}yA)EGh
zMM2ft9mfk((j{pq6M&4(qGukH$OEoSPUB#cW#-pateL?QmFYjDpp2tQqR%$;J2+YG
zGJGzL2ZrMA4Gpis!-f3Y*P?4=^khjFpSj8X;`0}^66-bY+_|H2UPXFeSv@_MzmG&U
zQ*??Q<}siImzT?X7BxO(K7Q=N31+K-81G-1y;F>TPF1<4>&FK)P!t~@mZn)?>i~cZ
zLEx)@@RxIQ7SaW1L7<&BIi4^38uF>~T6t8UJ_*V){tK|2X}w7XH8MUvUUmP$_C>=5
zEN<^JLMf@Jlt4)WTwQ>=->O`)k4;RN5yiyE-%dG$q6Xrd0s|o0FQr25fF$LA&j9cx
zalQa8GmFvJyp)ub)YQE<11ACZvvB60jhqf%-DN3?^-f!+7VJfE%;Y8a!YIcjEdBmj
z))OEwdXtA1W%cMD!(pQQ1T_!M(c9=9xS|rBlw}Q*_z<@?&~tS)Gv9B6vDj=k6N>=T
z%cN%=gB}lMz{+QxlT2Q}wBBx+md&T(d$Uk1ffWc-i27PSJMoPZG$tK%dFW9?qk&3c
z2f{1WA2U3!QO^0?Cbt6h5zb?OQ}qEJ6t2Un`9_nR__z^lFBt;{*hAuWX+j9h&$hN^
zYqIeoVvN*xF`d349sDtQU^ci7gO@`m{bFF(?WGb+15>9BVSNlf0S6GDnbWA}JU(Fw
zl^6k{khl#!xew|!i%cr(3?x^vfRJPIZ1tGcKs@wdmi)NfR0J|T;r4;RWN?*`P<c|^
zj1IE?wfp?17Gl<pGm*uEtAct83k1K19kP(nl=kh>{?+}%-hp8akAGWoMn77GibBTZ
z7+rCrnnlk@qf3oGxGVATE0#~vdsQKTa1ja67?8yC2><EhxB&SMenUzMmL(zXw|ME2
zK4XL@$-0;03(jzwdOu5>1qD5%=c6EK@j#OXb}7BivK{mh!JN)>Ib7PcOQ;^f{GiMZ
z4x1H4BN(GsqWtzet<2?8c%)1T64X6kr#oKN5^?#6C>!P@DszuSl*j+A%e_jfB2~Tk
zet)byhpUW9w?gCNm0ok{kC2^@CIj&p$1&JLIBLb><o5noAF=1FRf~;BF<^kD$L#gr
z-w`*5a$aO%4qN^j2!oC*#(?41?|Ih5dKm)ai4<Bz#_8;G?+jzz>QP+_KyQ-)6h6NB
z+$6Cp$Bo<lI+qf6<l9eL^8y`DcGvG=A;_qOf-YhHX}KAPvMOFnwbf!i^isr?4eDj$
zthkqvGjmCLssjH`_wnt{HXUAN6>DVOJ^8$9OMq5od*XA<!(2;Y72eb=lQ$6$C1k)<
z#-^lM^Shk|r@YNH;$W4FX64_n<rF$-5ll*0Hxtp*$bjv;Tpk57{r8gIZOZu+)_6+2
z-dWuA@-nb`weq;fZW`aeGcVfBigvJ&T$eJ@W;zD@gc#}&C6y-tUoqueOQZ`oON;a-
zhw8KMKsQ4nxtJzDCqaw(dj2c1Q73h`kKLX$!$yPeuaCtNWy9lB9#S$VYfZ_YWA+c^
zJn>$de_#j&1p|LC>_xNb1$v1M5EI1^az6-gJBQUKK9}8atjbvWi`a0ZQ9!^4+_UeQ
zfpao12l?eRBeLw^ud`#~1_zn35v;3H+%{Mx-ohLA!tf(C#~Igq8)GGDbp;XlcDYLV
za&lJk=5Gf4Ijz$*{fJseD6oVO9SRKVvyDmB)sT#(VcU>bLq5oSVCS~^7%}3wK_9Y|
z!=1jlhGK|DU>qGin?P(s%sC423Ng>lp57aYd;8X-j=8Frd(`=t?a7DNR14+Vc8j#o
z1)c75K=m^<<0bL_@1xvW))5K}i;*MLfcED!LthlU^A!`nOVLMpCO(LFCC(>l=wOj&
z-a`5seJc{-^{gz~Zu;z>P4-o|UlO5z0yFTwNZW6vUXp4UdJjS^pQ7&@aGtih+FK-E
zk<d=}93P|Iw`egiJs9;Enzs5CDJe=?6iZ$aa8pO@zkS=RSx7G_bF#exioWJx4~p*K
zHzZ@Mx9;bRXXF=~OoTq;IAizVppZGtgDjh$-%<<MNVzAYxhgS(V~@W+HHdcM=TNV7
zeV0yWW5lGr+7!xcBO%H)w*41c7&nJNgTJ8I?RTP5=o#IagIM|%SdIHlgC0DG``hfS
zfR}tGQ{{04@-+CJ^+`0s)O0@gYQ&Pwl48fzYizn@x;*6{VEF+M3?HE1t^YgJUQ<(p
z`Bqv|QW8)I#j3x>UV_jWwT9kF;ZIc`$2(t20@!E(Q2Pvw??2s&|5FYsulcb8`<SrR
zpzc4&%Ej=|jKICi6S?p{23bM7;jqX}FnYmneoQ~eT>j1HB^Qe4cdsO8o<_)uNJJ41
z2^xrcZQPFfx+ZDnv%wvxcVyUBL62ilG9L)di1{@iv1ZoW4_)@+2O<eAXEF>+6?sQ)
ze&j;Y7^B~cOU#e^h0Vw1%+C{7q89W?A>-+g>4@H*>W+XzKPpHqJ^tfz$FvxpKh^&m
zz1*wOY>gtiBPn`YNvUlfdMP?{W$F-*cJH}|{g_*F+AECfCYy3N<jJh_Z7~7hmGdop
zeKgOvm{se1P6Ar*7Jc%=Ryu>SDj&JnW7a|*pQSN7^E7O^I{q!8$fhjXM5exmMwx?o
zY?v||zE-dHHU*weeLvE8|G$NbT-BJClJdZ^;N)OO`B-;1-m|z*lofcKh5on$inSvN
z0ZVCQj`lUT6empj_JgHkj$0WRO=2*pNJ#_z5gBG9vA@q!iIVA4F}(4<{m|jGn|%Yz
z@F_UGZfvuA-m}#jpC}H+>!M}h5eIOL;ou<KrIg183uOF6DdD^^G4oQd9_6&PV=k1?
zx6eU#BtY${&qKL$r@&%SPEHPt%xgVC|AYuO4(RFV_&iT_?CnoMew(Ja>VZMpC33cQ
zwF3xK0*bE>(k1`+{(I!r$`=3MuRMBaHze(2iAQqs&oB0Y5RTxD=IYN<$V!&w*u3$v
z*NHcAfx!%lE5%`G_JQ}RzS@MOhTVD{QhY)iP^j?KJ`qM=41JB$)!|WC^D>?4r>D{l
z<50z6hF|mO!KBjmP$@9-IP#jA-hz7&qDjliI{oEe31Ui$z4pnB7hP{FKy0%FyqJT+
z0<m)uKn%8Sll2^Ui|+jS|7<{4i%<C^e(2e`x4X-mo1cFcr2N04Mb{i|<UAp%2?=})
z4sCEA_~PAueCla<U^2A--aLU8%w=Esy>(_9kR1N;_8hgEMctm2Dd)SB2*|Ve!-s*^
ztM}XQi_HD~Hg2aDIPf;MVsSIN{m#sW337Qd9p?)~wi^7~EuQ_4>&@eaQZuxPvm_tX
zMp9`=zyJ@9XN`efL<Y>>)1yd@`*~hT+kM2^EeYBP@YVyO58T_kL$Hu)YH9)+1sq)5
zhe8dhbT3K6jwG;O{|sRF?Ck8H)ph?VziJ2R2W80TCvix<pSoV}I(ttScuZ!Qkcw<J
z1#~j8u-q@S^vIri&Zvm+VPTaD1mZK+iRStSeE;)#SJ%$HK=3<onQ-^J$rqp!Ga5gj
z5j{L!NVxaD2}dk1rOe&>9kt2r(z(H%i;8t8LSERgb|$9sQVS?p3`Rk+7;ySLxxKw@
zD3tu)i~0AV%e^lkKn+UgzaO>X%Rj{ek%{g{&S3V$4c7X<TjT%xvY$*J{vB@o4XXYE
zIt(n@9enm8FJSl#ZXv+`|NQ^=)V1PwZlva(jE~c|2W?rfcbnhz?pz86GD>~*YaKN9
zmNU<s$Su71>QNnDD1CF&s^5Km){IWt=IUC?BO>HW8Sr%X!>xG8^2XdM6W|(P==kY=
zep%L25}IE5_OMw`2oL#}he5ZVy5_C+R^WRgm(DUL$BnN{LOY6?HzI%ER|blO{8{Dt
zk<KvPC3tK$WWlUl(O6kIYR%cP;n-~$1VATXizwoMKbxROny6f{$LR8u3O+U`dhp)D
z`Y>>Do4v10Yqd}Qe;&x^4{(M5R_aZ!2#ed@ru^<!2I}y#d>@<4cEl$>N@ajPR8Gzl
zg9;}?oZWcx`T&o;kY}dLF(0>ATUZokI~kGc?!4BhW%A><NJdS}`2xN@GM+23?Zw62
zdBM@gX~gwT=VCtLP1r}%GMk0TjgDiR5>?N@cj42i1?L2UI*;~Rl_N3796V0)BqcKF
z0c$O*V6<^3-#VcdmzNi0fit6krM?|!83gi%aR7D$R53L-w-Y#i1HZynn*~b%MT2gT
zI~TYS*#X$3!(}gW96Xp>Sb^jvzrj+jKsaC(w`r^TrICE;Cd*PUksY(6k$QXT-*@bv
z&WgRVS?|zluuZ?Uc|)*rf!i5tZjtVO{P8u%u=n2%w-fExh&)b#J7Jt(QwlFg`4<VW
z&3L_(AAMQ*z~&CG2zi2vX02S2jfyg>T9b~LtzSnKBQM&2$oLZF4RgTF-D1@)l|tz|
z>2%kv`wgtljmCgZhrhljsWhKQ5)JC>hl#jiJ<l3?P9Uf5@=i~WS29Xp3?IQt?9Wj|
zgrlBkFJz$2Wq7H!`C$AY@wL@;Cxuy~kK=k$OY#80pmo}=u~3im$~L$ifjJYj3o<e?
zn0nCuCJ=IzgI(Ag;G*E}ehZ8-n)R481wpl{sbTyT*Y~MQ2z)yF;J<)kym)5x-y-Xy
zgxIs45mO0y`l(Jap>Qsa#y~~239d-g*S2URDcl5ZuJT0*D>@RY!Y=Jy3YmI87ompj
zC6}z%^92+Nv%CFxMlFdk(TMAoYjh>CoL7%;LHA_8AdL*|f)oiB%}uUl2iF!>jh5;$
z=Fk@*Bje@F&I*_h56q3<VIq?dYc@Ydfa_rI?;k4a)K>wLd0m2;hW}0tbxpChtldxC
z9j%eFD8om6d>l<9p)8wrYx=eiWyBxubYi6VBKJf5O)Q^X6%kfbYPa92(S{fcYGJd@
zy+Uc!5tMwJ*FzymoEmPu&mxaQh?OlGxF1PZ$v($w3_v`n-hTJ}UX`x~%dPM%2$qA?
zi=lc8ImBkn$$6sBWrqEAno;ZFwf*Kt={J--l_@>@61hm&YIMoPm2Wd<rqYG&YTgrK
zDv1KvbGnk&piuZxloQwWAeMtp?opI&bv!^qqOjfb>_@(iz3X);FbUdw{H1*=-9kH%
z2&1NJFWY^0)`<SbQBk=CIhFnz#6N*28`yP9l*|ERUK$#jLVl0&V|T30FGf9pNKjT<
z8f}eDtr(p8ZHBt)`cC#fV)DSXYT538)$kY9Q>Z@mN9fCHgal<n!%a}XU-s6w#|!VC
zzasZykks0JlSkIS{xY_IzV_}7W-*k;-;!~wS17YEW?)>i5_2Lb0rSe<NZ5KlGQw1j
z#q;x@{(ON#2Lon3^D4t`>l@40h!-0SgdD?dUSIw`2jIU<gr0rS6Qy$HpnTx7@P`nG
ziLEk)NA&i9?gG@nqPB0<wdoA_;u`{<E2P5iP<l2tLxbcq9w#+}uLi(m2KC|I>%n#6
z^!p(|L|dIQgMY&^>sx{hH7Lx76M6-;<UgRRQcw0gR6N$cJUzwQby~C3Zx~F;vxiZ2
zVIgld8z~h>EPcNi3<K5j_s`kj`_82fzt((FV@9EkcGohGKc4#PDI^+{)T_$*u0?!$
zRMdK6k}IUjZ{Mg-<yw*QOb_ZB7lhWKw5!<}K@PJtG_zghq+*I4wWA<2`ED3iQ$%BE
zW+OSHumXUg*cV@|t!p*OTFARII_){<Z!R02mS*}G7GyXRAw4#lR1?y&uUK+<F_lY2
z5NoTB;h`v3zmUw^Y!c>iAdh@kN}>h`z*x3T9@P#2=bp-uGJ#|v&Cl-Y!JoaxF1eT$
z%T51vgNsKY+H)|0e~AxAixz;#$ZD1WP_{I`J!wQekCXC$yK$jcdrGBRMG*0o4iCHk
zgl-<E^Y>8m@GRRl`<5Aa`T6_%OG*xc7~bydKj8p-TL$|$fbLeR7LV&w{QHf^{=ZX?
zeDF@kSql<~8xrU;1(FxDQc?iM0usD4?KdMZ?i+pF97YoO>-reB-V?pHgQz7CBlb7d
z5wgXgYxy3a?u?}>X;sU=?hirFPyRNVJm1}EoIZ+F_jKMVzJdq~_f)RTWo5~4A_xI1
za%A6M^D<J$!hf5JWYGUM+bP%CuJi7JMh5dOFyX?ZrpzKIygXcULhkhZmMlmk^H|4J
z1rglF7+P&zCK1#@2?)4RB8Tf6%jZAl6$t2{6W&BA<#J?npee6-W#ShuE_XdA0|!u!
zwdRGsC>$iQkhs5(grZ((z1+7nN%BhhwxJ48;zwSKv~PX;y_4JqB8i^Wx#DlGMjilE
zQ=!OqgFn^jwG8uc6cbS_HVIltz%zXsl{K)hxr%xdTS@mQu|d!-hmDGHg4_!s=U2=k
ztHL3veJdOik|9$d?4dR*^X7oZx~Lepa_&bVevz|l1IaHk33<s65y(u4h<LrZ<;CZ}
ze%e%uS6bOMHst+%Jf<UQEKwPXg>yU1>a)@OyN^vL@iTOY7VRE(x*p3%J)%NogCNz}
zJ4>6)gaC4ftCx2t<v{-#b{=tWH$I&nH-Xfl%U{<Qf3-*q-ZuPi6gtoFP<D|~<yVzA
z5<{^OrEq_6gSm)4fLzj;*w_yD<CK)*BrsxurviM@_uvMlpk!jI1%`z$jD`<J@zt^P
zJs-OI#SfE*M1V&{zH*O#Y@ph;daMLqk9|=7$N#ocWt`VY$mcA$FW|c}pvmm?!@YNF
zU7KP<3vh9%HzIcVbDl~wpYXBovj24!E);qW=Nxpbao9U$=t|9MZ9oJ}qEQaX0B}iN
z-U>7I0O$*xNhEP(m9(p^R#;1nZ7>^LN}7TgNMQ=NCIBA<?iVcN_i0s+TLmS{4C<sN
zfSR3)3CBtJ7lG*Ls$7Yi0)>!b<E>J=@lKNs^(P7O;Oxuw_s6=bv!CVDKh~QmiDIU$
zHI%(zCWO$v#snxnKhw;PRLwwu1ejFyt3p5%Yc-QWDr?xegw$wZ&dY{u?sr|<#Du~F
z9UBv~biPsc*Xn1&aRyUkX_=f=(32X42{avM2aHlkHvnHDOspuE12<XFl;!6%D*O}_
zoNhoB%8w#zo;Gsr`b2Sx{<VJ~1mb^J19J|9^^$0n@&<T}NuR0jmnFZd<lZ;i;fodc
zcK><&g=LajA`@q3h8kX?A{O#m@eB-8R0YCkqB9*HT%57ri76#0>Bb^4S(RPtt@>fj
z7Rqz5X=2r06PM+zP>O6x=^F#Px5*})DcHc&SYN2MU?C45fNav3Q9PCgL9rnH((Bob
z<+7I9`W&5Hd?fv$>6Ra}py0g7bDJ5({~&gegDyJOjPr43hOT>aeSQ72L8r8g3_}_N
z?2kWS<2s4{vX(OR2j&;efKh`=$Szs2@F1-%mA)n4&teXttcGYH2BojzAt50Fmaqf&
zTAWK5LKSf6Ov}r&XU~?5o;c_L4)D??bZfwe8T@o$G!5K={=hTqHCZ2wr&}{Tmkk1@
z<<*x*ahCs-r@(;!^(6GJVEr>WsTc(#>RJevU_dRutE_AUMYmj&eC~eWb(BPcaUHiE
zFx`|y8NZ)ig?m~9a^YI866v>CHo7}WA=9Ht+-e5Qh~b~!v8=YTAgJ>b=W&U7y+RjW
zgEH)1MWU;HZ-e<;Bur7c;+Bf?J|k#oqbnwc`?3>w|C2+#yNznQ7jsNINA4B*yB`c0
zN#u$3O}3H@$IF9>;`dC$h|3e>a;^^yKn;=--oCBX7jZ&-L<&*J(Anny6b9ZV{(zs5
z?~#;vAQ@+d{g&ZLloqW~Nu*>KMQS*#8>j%Uxpk^|i9$!hE6VXwIl7S8EG_x<o9Bl|
z6kg|=%ib4DsIUI{t+3jh$~iOU0u>ktL1}ebx2}Gt!r@#bcGL(Oa(VP$Ld9StH0BeH
z!?e~u>bB8f8WixX!6c5L@4hY&94;P8M`3xNbT0CHM&bW16k*3aHi6D?YEc#XP+wL-
z1L!?(i_5^<(exB`#eq5hOF{TowNQb2vkVSR9UYzle2|iXYz{Q}KK8(6Z5&AXzvw_I
zm0XSyV5Q*$TG=Q6DjPTmkK-wNud|c6xj7(J2jn{mo&r|qG??nw*`4Y3DUk^+*J
zsi`SW#d}<>Kz+o<q`q#D;0>IrJOEc}wZ-8N_D#uv*j6O{@xXHSR>0l6p@sgJVg%Ki
z2MtJwhWQy8)EQX)9{dJ?J<08~iGsy|qNsRvjz~4ggzSSgy2ZNIl1I@GR!U&DEfX|g
zf%XFSNM09)F7+|%la^p%nGa%;i@(_p{P@p`D3;!W*#vLB0qdopIc|OZP~rOPrxqFz
z70hh)#@*fvA|lS?huu?AeGe7hwBh!Hd|Ik4+#o<v4E2ZXf2$S~hJdcTm!_AINog0U
z*X+_*;^uJPulA{A90U4~Snyh_f_~5_K>rbJXGjHT;gX@9U>~7avtFGhGeH!Ip<2l>
ziqL?5?w$iu;(WF$B@szbAe^pB&!R%{@Y&#(Ik;{1MijOy1j`tEv=n^X7iVIH@kJoQ
zuBB~`8x*7RU1KqntZQj>So2Ps_Sh^7;zI0$U7+JSUw^2{!4O92aoIzL_+OWX+0sMS
z8!Rv&kvjtJv#4(zOPRsSxzce~6h<HEFB9HzvpTg#Qirz@tg$J$M=0KU&?w{lfo9d^
zvQ`cMv^!+Bt7RhAn$|t<SNvY*^>b$7n+(Tryf4?+aK^TrL0{Y7u^i(aSxm5&<K<T<
zbA79MIAvNYgEGd*Ja2U_KInxy#?{t|H~eIL=>}P%73k#z45UM+uXH%A&KjAj5Jt~n
zz``v^O?@lwT=NnjPq}@tm%L}Y=M#6<05*pq*Z_#o@(R}SQJ`EDhxY;G6E1dkS76%+
ze&qsgH}GOvSXdAn2Y;dU#V`QS;KBcznwYqeUugS4wFj1e+f-G6c!(}&Wn~3gYnWbl
zKNk+nu}l`D=Z7DK9ELz-f}#d9T*F>>3t&n>1oYV*L@b#bMWEOR#7_*ykR*q!WmOJH
zObf8MPS%D!{PCmY2jKG3_M0YKP5><*<Oc9w5@KU>M1r0HX&VK80GY7rKZECZZkj5x
zBVjC3?-vU1pMY`#47S!At<axkW(C%JVXXTOt}optE{M@^ps}$XE(yX>Y~FVs+Ak~P
zzi~p7pOAz%A~&prXAEZ*@JJDk!9lWQexKCBZz9`<U=C;J_j_r8JBgK+mivTMIE_?1
z;X^umh#MBxB*uM<LkqKkJK$urI5uyzYq;Lkn4RgJ0AR7M)<j~eR1S;3-)y7vgo2{T
zMMf?rs<H0-?J@PPgs-{lzpqUT$a^7x=pZ)}w+TjMn^aV0E`rb%XniPy{T{#8rs4q5
zkb*U{3H>!J2^)?Fm=6#($ZY9D=adW53hbyb7^8L^xY3UypfOm;3`!zzvFz&$Q5w};
zqR|?Ym~^6(V^Az<XcP)l_`PS9akam+IHSOaeW_3pn6;gwKwekKTU<0ntMjq_1e3lk
zamCL1FK0A#)#Jo=^o_on3*#GntF8e3RX?W<J-@^F!RkwsZeOXnIez<5IwJgd^lv%6
z+=nEbqjkQ`xONz*i{T11D%^cPcQc^kQD)5i$%5|e8@*rgVgPznL|SgX0mZfmz5I_q
zj`T(#VnM_)FUCH^b{A|+3k7}@InC~Z!KP5yW1+n6JQjDJ=~k~cH)lG>qJT%m_pw8t
zM~KgiQ@+CX_Dy_^eagwNM>exz_v3kRr7;+02VRZ-n9P>g1{@E-hs(>z$jHe7N&$^&
zfJ}6N4f*}8*sDzXPfw3nw&W!utqyA$n|=W0xWD&yZUsDb;8YSu4+^GUz3CA6qf(*p
zUr^W#AIgsa;1P5+gb#58q>d1Mj5J~p&Iff)O-UKeAPguL`9S3a*y$?`784*)1LU*k
zDpC*2f<WTcRws1a)H7~N+gyjak5ZKOn_YZwPa0>0!$Ksw)2_h6RUw11*!@<GRAO{&
zj6CY%>mSF#XiPu_q@aBJ)(m7Z?tgD{*#lwceUn5V4kP0KH+(9|SHiWTNWpDy=|FN3
zu@x@~P+;tU`<bFjrlSKY{WdHPr_0A<0Mct!*8qIo;`ug_8kUF>jW9G#z-!f{V&B})
z@iQ`>I_Ya>+N9n#l{ej89Pd%8pqapG9L$}!Iu*)uy&>>{`YkK6ve$rx6!z-12_<`!
zKe!cTu|%Ppq!YROJ;*e2x%Dt`{6TFV$|8^`laC<bKbp<RfmRdy0w<~=`tEEMt1(2Y
z)SzYZdc!M%^+yspd|Cw(+4}v}@RzUj*6TV8tzT{fse50umPo6zr9;!n#Ivf~K`(!4
zRgcK#n5v`r2IVd`+vx@M4l&XsFkx?R3XnE{`TWMogwYCV;9H>lhQBYwdL!sujO!Wv
z+toGN>62!a=(BU0%aQ6{^4n)G1cp$Tum4E3m)#&MX6894b|?hKqCT?*{x&g_44O&o
z#QclFS93-WDCvd4x0gO~c<OUzBSiR2>_%<dqhraW?;@Lc92y8ekX}7nG!0GTXx8ef
z+1Hr-3l#W9K7D^h9ZZbO<HWonP3r!pU{m%YG*1mt*>UUtVd^Wxvf8?}9~$ZIF6kBl
z=~C&E5Tv^iRJyynI|M;Q6r~#^l@t|_Zk3YGZ+PDKoa@{F_Wr@v#aeTYai__B9poF~
z7ZxR?%&F8JQJ90*huJ6?WuvrUpXK3vnz{#z*T$FhH#J505^()jr&o))H26X+5UBjX
z4vXI}dI%yrXrQE%@`sgkF&NBkuvF%Jw)p}W17###3}$PC99-$dw>~7Xvaunzad2>e
z$bE&|!045BIi!@1KZARB9O4oIhhh~(7(+5Tm~bHODhqSy$(SD3N;P&+)!c!ZFjcOw
zeYcF}8>G*9VnUpp+du~}?0~Qd1D7f-KOeVU+r`JH*`ziyo)Xe;`p~f0rJk-n=-AjR
zUI1MI7UFnlb_!<@yvx<T9sl8s{(W6tJo5i2BTQc00O?cIlGa0vUOBcsMx0xoKii)W
zQQSY1&HcBA(REtRicpUb!+&_vwr%{bS5DQ=`N+YZJoBB+XTctRCS(H4dBh+;kvDQY
z3*#lAvaR0hADuspabsxy+L}yBf#a01`i|r4AYMfe897WtyMV0};?v)=`ZEqM=K$h3
z*;OedVY)T;wYD(WQW<9|m7YDE3J$J!A*8n$#e!y<KOCmBJ(WMB8Pw}r`9z82nv}wF
zvh#44MqP~u{Y*v>x%e}LT-%N+*QU$Oy055?-Fvi7aSvhhcf-i%cuGFEH(Tl_>dTZQ
z9mL*JPoFMUwVVq~p07kn!zx>zP0Chf;Z;R;8hxCS`}phItjipxNoEN03+)uoI)o2u
z)hlxK-|^JyPd}0Hb7n|*D0S-#N6vT6z!(AqN!M=Y9G&#@XjcVuTY|J0&+RhD8C{ec
zOO3aw^)!VN92^}_%hLnLDL-pH>qcc({5@;iFF3~ib(Q2pgi5GLZ?Sxz-E3W{`dMG!
zLxX^u_Cq{3p9iobe>S&wsPk*8Z^LP}G(Sgi4s%)6XrU3)RyFiL-_+4ABah=)VY+?W
z_Hc6?Fv|&t4`*j*q9>OAR$ubOfSE8k!+r=a7bxso7pi?g>~R;a+8^NTMEV9bLU2s|
z1Za|vFVW5%(FmdgBMKqD`I$X!1X}|fq&;syJhHj~f)LQufp6y*!VTsK4rI=q=^AQ>
zs14t~(5~QbiMszQB;m>Y?=|kK;3R@ykAj1sD?h`fvLaxi^y1t*iDmkW(tOI%zgKWj
zdpbzDeI>|3VD;yl#;B}W!BC>88{Ro;fp!4NeW`%(jP?8D0s`0KZW3le9Um`asdRZ-
zKMuJr$$98ypni|1R%y74QdnMJ;gpd%MSdEFPAxpf{n)C>ORL$85Z+BK7gg0poTW#8
zX1{S(7uuhcj5o?I!#4Wsn^CX<-sQ5TtrofNqt~)g{8Sy<IRm@5pAy*n`|4H}YND|A
zeLj|xpwn=0*oGWWVAw50a{ZM?MlA%h@#rKTfHPAAqj?uZI7SaE!*Nj2?sfG6RAAcb
zB_Jg99z0jbL126ZIpQdcJnXy4$U)S19AL%!eX@i=3rdglqQpe(DXp`eeK1%>G(y|J
z9tdM;G;&4$b^QFZ03HJU4@<#0(jNQ}tu3g)ULG`2ltbDJyG8ue!=ta`c?&HfV9Vy+
ze-Qhs)?2qeEM^n~Fs;<<klxNT+0q~-{<z|LzMEe6-zwjWxrIA1oT*ZXhZXmCsN=``
z&(Im;JDke)@NV_ryZq`~fxwbw@_tZI+?uH$=LN#8X%g=c`FkY(tQy<Nbj`<37S~by
z&sPNw&&Bg$Aq9o$Pw)r(_k=J0SeXRm^%^86+qVsLy{lpJ{0Q;4;Q7mw@Fuzjn`Qts
zL3W&Pa}5w9&^>eSI4Xs;wo2?r*A^jgN<pV23?nM&7vP_XC&UM{1xQ<P8N>0n))WMS
z%;Z@xN5bVUZatKCdFf}0*qLu@LGA=k%=ORRfV+ODZu^>TOaTa|_djsZQH<3VK?&Jc
z{V@q1C_cnH7i_#1C;AU2b9RSyD#R!Pkl);tB8}#%gJVFXS&7-Qnmxy5)A8w*O@(;5
z28TV6zK$Q<4;2#1U(Wwp%k1^Vc2xXR!ky<k+-*I;(%`g3o?GnA@_8MLt_?*R_@Q;s
z%dvBF>z)KW@}7miyHesmau&3sAQlx86f_%$`o}1LeQ|FfaW@JBP1^n7LmG`u0vii-
z#hQ9QA~nMa3^*9P9eBAy4{Z)N7oqr4nl54UfO+()48TZk{=|TU?)vxp(Rtt9Hb51g
zwEJb7zk>>R&;@8RQHHz*UW?p!faPqj2OqfC2i=9w(tAh|5l%}>VEMZ~8x6c3HoZP*
z=(utQd;q+gOYlQ008h{Y><;FouGMz2{}B;^5Rf|kzu#`vr8H^vBOly!rIqQekihJ%
zbhKsCLc8Vr9M<8}?DqVPYHW$Esb#<zT~-m<Fy3=tR#^EIABjVW{0_NUOiV1`g=l7R
zmMUADi7C<cm2WZH+=s_C;NGEw@8D^}`~Q7yor!F^c)0$5W)cJq@Wi-{8~@eyK^k5b
zjDQRA{T)p~?Vx>8%Ms=<ZNG%aD=!&b`(M7Qqv^lI@%5j+KgU!!05KU;#b1=?`qCwS
zvrA(lCv8&kaIN{e4ZqyAjhjm`Jx1P4{px2%+>9PF<-eW20iU8|nf=GS9hb>uEdD4@
z9bakeSNRL&Y}FfbhX)&kvtNqa%UQydDu$Yxv}+bLhaYp3?XS~C_GlRxoI;;-jULzW
zYwmZguR=hO9RJXsOi=ve<d$cXv8xfj?ICzfw&0q9g$7(FH}#yZ+7j<hBdh*r=^>I+
ze!tlM624n%Y)!Y72#<ce*-!Bw)pDIEDZlV*V!i#@#O&W_2fFP2(Sm0(71zlH*x0;z
z?*ltvvG{d<G!0-_v6MAw!1+{qnpI1Hq^R33&m9o+z%>o{C(Wg)g<0<B_ulWFKT~mi
z@;>NI&$7!G9!x8so5R~p8cPN_kKx-+IlhwOD~(|}=JmCvEh11yfZB(RZRV|v*)S0i
z#pdne<;I`zPz&<JpKU{b3tQ?|MPUHEK;r;;ZG6rJ2;ola9ys?a%FCk@i_UKY-qm2B
z+>|svXgbsI^ME`kd5_rf^nJVBh|D&x|AAm;(K#w<9|_-`89t&+?(1S#lS)C-{Tk7$
zC77(ey}jGd)8?hh)3j|^r~Xdvkv|-Bb!<yWGfDlXHG6?B%opFdR-2seY}9d!qui%<
zA#lFlY<qdxqUGl`R?h-+>_KhiOKt0g$FX}d%wDVRe{AWKLy2}Wr%z7r^zqU6k<{+B
zj?6NY8@rj_*F{{%uU%iIwEG_cqJWr!I>R=fEsgxAVcTyK>6)T`)D|+b_DQ{X(`0n_
z3hw6O<6vC$lQ_zWlgFtkzhO2Ie>Q>SJCvKMtsMiq)00*Tn#<?AA9a#~dcv{GUC&lG
zTIB7ITyBvSDS-^ib%D3Z=PM;`%>^L;+rQ{{pAZAvX`9&Q@Kvsv_^S7&o|`Q8Hn3vi
z-!{iTMPWLx4TS^drJ`)I2?3=nk*WSDS7nU`GxF1Rmn-}?>+9=~jA{WZ6x`1ef!CMd
zur6Kz6TBbn>afg=j*i~;1F>kY_u;0N;pYput+*b*yBXUjXg^V=qq;o0;7-b(Hv@$-
z01v=N_xmE+Oxk_;TZ(FVi^d8ZP;h^>d;fh&lpO{hY}XyF)xD?i^TNVVJ4bJNV?%5|
z{zqu)`Df+`UI<S4`_3TEr!YLLJoxp%+???&?NcG!mvC(I1Uku>we*O_r)yXr;58}q
z!fhn@{T?!ifqLU$tYuEaHlsFuUYtYs?B?2k1h%mZfH}^$b$ko~PEDY_mzMaf?d4+r
zd-hZRS6rH7G^qvPJ7s1LP52YoOd?kW{|7oLzsA=}s833uX={Z4WGK8q%){o#J8Q`I
z{&&ORuF{vrg*~rO6sG!I{ej~Z|E@{})#G4F8&Cy!1_92{7<g2Di;q+nQV_PGw+BEo
zxRHq4pIwI4#|^<_h;i*OADNn(%6<16c1pnMF0Hw9_ZcJ$;L!<~nhP(`uqR+bz#nXV
z%*5}qK1W@``Whj<0%X1OcU<~tZ93_I-|6456Grpzot*pk*t{=J+|?9^+<3T10UuFH
zjlOpfpjND4^W_^ygE01vBfuaX<@~|iPaN#OYoY|zwc1#V!9?1f7alHaL&hXu_Usp#
z^A8J4D_M@@<YrJ$HZ^sTuY;Hc*po#o^w(dvDMiP|%44sGNbLhW#U;b|3@td=la9m8
zZ<lH{-=AT2{S|x{E`3lznl`UaIsAOFn=w-0Jpb`Cx>oEK;iKr^Exy50ZX~zP!m~-U
z^B%HRq+gR-@7KB#CESuVH#L2LdTyOSwS2!ZYQ!{w^nUoIVzfwZS~1ZViP~?{EgBTe
zm=|0RO&()2u5!nOa;7WZ=hb=__cjre!#cvm9yy)j>(c3uw=`x3a%nhXN`WP3=aw`&
zvX8L}DvGb#CCUaSE8Z~Qk8z!2m(2!EA@$wqkv#k3wz~z(K#zXTV!YEZ_j0tVltzaj
z{qum^mt0#m4C%t8hct~a;z~H82cTbLRZ9&cc-5gm)iA?=v~}X5p%#Kpo`Y;^J2a}Q
z71YIye+M$p+~r}93Mmb}SAu%(Ol#ck*W~iE8HNk>hYxQZ6+bBv$e|Df{k&e`-7W8e
z*a5v;sAUyuxt|7z1kSKGaA?KT2s$SGi8(3HIVg40vf9T(UanDSW(!y<d3F9BSdf4y
zI4L$suRVtO+=2UpLw7YAM#*Aa&CJG`-om#-!E%}Uo$2Llf85SS`DsKPg@DEN<(aBQ
zI~rO#0CQJxp_6jzK2T91&Q7v|V0KsryDjxf2(t<bq+aY8uN_2Ie$Zs|<7gL1CwTB0
zU|;y2%D-_8Dyl9xal8Q+A{Y|kju&(haA`<+$Puop_u2qSIut`W%9W5$>BcZbX$7$g
z-ZDgi_;8qOqp8*RQa}c8&TDUGU_#i-=d4V+h2jh=gr^WvX9=cOjJAvBEnOwl?s^EN
zw^00xeG-pzY_<Wn@m+_h&Fb3rf3YrnYk5VA7qq^s{k)s%aiXWnV$`|{e#sR?Df#)I
zjb-1*;J-clq|4-is8Uo=02BSMT-Ww3u)n=M@o48GPJXo55ukY5cNqV&SIgo&JT{QB
zBCcJ;c?KqeJ#xukvTQ+ID5zmJG(4v5tq@#MzZimsUCH;sW^pVEK4!Re!4MP115?f`
zmWoY~E8Vpl3rYZ8z$45{n4(byQ7o%DA6315K1QrpYl52~SO;%N?wbdh41@4t_ZXub
z+<Cyxh}?%uFLepqbj%%!GE{9cp(T}j1%<5Ps1caf3XQHs_srHI<A(k3JV2O!9(!Dh
ztLwhgcP0K$Sm12QFH_K@dRO&zd6Ni@Zk!T~_2=uK?`&;Nq;poj_I>eB#4|F&kh#AX
z5`lkL#?jt>0tXKhmL$8WC|<f%PI4+9W4l*+HEtKrb2pz5?BYw4{F&oO770RK9_pF%
zxOjex#bYz+YOHt}tTa~7j;e@hi%NSHsBOV|9&q8j6oeE3YcxBK!jsm`w3XTS?^TL^
z<<Z=#RxjY5?^p=fE0W~ni@Jk@&S6xdrKg=DDf#o&c;leNov(GS^f%&__k4)pPQOh$
z*YYjkydLG!MrLiJg+t)Z2MEZu@MK_n+2~QR+8e$6-j>$wI)PS%Db?t4PUv}o_}bW3
z*^7I_K4kQgkK^t&n};3&qqu3HyZU9o%}n^6VqLikkM#8^P7tHtA_4BJfwf`AUB!w+
zqXuOV#n9hl>jPy%jKyli$4p+ahw7pq%RPsNhI}#@Zz8-WvK-deo5wg=%d_s}a3&G-
zXq%>3-rat%KE_c|N%Fk?X&*-`tuiCkbkWWs1|m!3fKP@@G>>ID1xf7im+b@f3>kgG
znM@a*SK8)4R<D01ic@_O6)i{+#^$xxsd$@GWW=D&M+@ZP{(h<NW!`ae8-0w+&X<)v
zc`8anV`XbAbVmbF^G3D2K3_z1U!*x~(fLXI*pxevw97U(T$NbJg2*a>ui78;InXEE
zWS7Hkoh#s=JU>|o#Mk+EFinxI!P4Yjfgs%k7jE0>k8bxsu*Rn;8hTYLj1B3qm@)H;
zBvT6^yU;Vo5`KgH6abH&V#yo~m<UR7-CDwx%?(TX3btst@Z$=&ZHuP`v6$F??0m07
zsZe$jNkKXP7uF=RPs>*86a$;5Ci{D&>aswk(LQEV%m)u1RKoV)=O?kR_0XwUrlwN%
zi6|L4rs$`)aB&q64XtyEF9x~H)ZfY?$()!wz`IS#cz5YI9N8?<&;Q@b0By9Lip0--
z4_0rT)fzSM-no;0PLz_F8TrWF2wHzbegZ#3VRMm;UgA3S+K?FE0LhGd0kjuIT20?8
zzHh*UK=h&XU09S-Z%X~MN`DE#F1x8rI>ilh@p4#=Y4Wz9NkdcoiK5@g4=(?BzC_FA
z)Z0s!_uvl)mwF>Pd53nnGF-)YU#~*2lKG4q!NEdUes^MU@CLB2#-ByV(`0JI?0F@3
z1Vo2`TU*@Gah!rETP+~X{;frYWf!+_$fg+tWkS-U;*gM1U{b;Xik}pbHGaRMuhmn3
zya(cVRJTf`C$;47a3znUe%8Wgo@^OQ(ks2y4CyD_#T0{m%@G9#q2poEAfFV2y|0XU
zJV$sgiBbOi_z(4ZLZS>IF{U%_&E!zGD2_04taX>BZWy8LpQ6`LXz#;EhW$Z$)T@kF
zp@`Q2<%42G9P&CAMb`6G)A2@OjF}0D5Opa(53)8kHU?%e8^bOZ7C7YK@&yY;jW}jD
zrfb2pO`=0~8=;p9;)z*ly+x(bT3?x6>$MFNUU9f<Yim;^mZZksRvX9=Pzhv<F2S+s
zZ#gYT{7#Qf#uI^7N07M*Y4;+EW3?Rxw&H2;W#rYFGa!UEAIw&0(Blk574cBGuoQxc
zxxeyHifMP^SkZ|3YeGOYLjndlajs$*l~Oq}^N_=1Ea~f=rz*#R^2z4h;<30czCE^Y
z;NFeGpDfU_*^tKiyh-4mWs-Lyfq=|da7Y$v)?W@qzrmFHI6k>e-(FkKu|T_N(A7fR
z7)fp7tz$qq>CV>O@a&{s+P&^=WRQ;=tYje;E_-<zlcvZK_n9Bt#W4CGEmSYC5^NY9
zVO3|<8lH2~gMF=3tv7>5>xpAqtEvZhIT&3-#4k&gO>;e8?7ViIRz>OXw(bQ*fkDmV
z@dC-`g^mKFy)K#0-NBI%@-oc9aoPYRiN+sCkdcv8h;Qe7$@h@y))baz=M~hxYZ*bg
z4!UEL_cnxMTyzLfLFv9R4u~atoF~p6Me`|MD1piv2z0wsH%p}mk9~__eN$4z2xx2W
zJ)20bDHLQ!7##072feQ3!;!X*u^%R*204sb$sC)S@D#Eso>YY<#cNknNp1`)<c!OE
zUT@9kB~$<xPYGSyg9f;Nv>zw~sfjHSpSGvJ%2+GNcqHJ{uq!=EJG=agEbO{qq7TNK
zazsy%_$$pvo39XW8^g1PN*?`Pp8?rOFOJWBI;C8RABX$>Xu4&-FC^78o1Ow7pr@Hf
zG#)b|MoJGUXFo&&TBGS%KRUe%w+yw}Os9VF35OV$klxi{tO!#+p4Jg{W;{=?bo$vg
z$>(g#0<lR|dV}`7SJPv)h4qEC-&*Wjisj>V!$PFa*$el8pH!$lDJv(vfBzS#m_X9x
zFKJSxG<>~6f2K=sr}3~3giS-4e4X53AXTYIs27zyp47kwmAP5Z@`h=W#d9O5SCm2$
zDotUuu_m<Eb^&ktn~3jZ@>veiO;&>`f~{Lxq>tt+!wd)9vf80~@WCr6D7`r{z4?%x
z?D~GG4meHP+l#>HbawQ*c9v&BX|npL>CO2!5Lg`UE=W(Qbz4P!JId_145!)4*pox8
zUi68H#}xcmq7gtkKMH~gcmMY5b4MD%hE{Cci{w4PVgSP5{8me^jy{imO}1T(zc=~8
zQJ)|ErW9a4z|S{!0o9?SrRCWf$0V7v<~;ouRJ{a;9af_@mdTey>1)j0Vj{5>$(8fP
zr6r%~YJL2HevgCE&8DIaXb#t+*3rxa)P5PGR0DVf_x?IMY_3gq7d8x$N+(FSc*~#B
zW!igEf;E+VY7k0Phc6aIn+4;{)s{wJw<$har`KQIV@N75m5m;mQh0i)e^5cfEoL{y
zU@UM*5B}$-r)!+Lm1B^qVXR6cdedsvh16MEP6l!(Mh&!}ar#i8ku~=T+<3>ywo8q3
zG{P1iSsFF>-d*sUd~GPytgM-c92&bTN1S?G5`sY3^#2LCxjLzSRIQ{Bxf$_|LaFKx
zYMH65$5Gr{+<yS2hC88oB7M1p@AXM0A&{~-eB#y5`}F={YQ4C5r#}qhu4Qh{R#P=7
zsEU813~ApHHvv3ZfK7QK5QZ_e?tc)NFr^v}ax|?|m3*!?t?&j#!*{NQm-k%eL>c~&
zA}ENFMi2j5H}VNO70HkqZZ;dxbx5-hFU1P^U0<JcOxBKJIJ;j`FgG4eDeBU&cMDdk
ziMH*>^0gDh--9@#{fExABcBd=(@xq58CtzoC51ncH;s?h30V@bT3T8fYSc;lQ<rKn
z`*1KC#C^1RlrL;g^!ra?KDXPw;|jE`)OzHcQbxa7SeV60Nq<k2WB;VM$(W!l_}9St
zRWnFxu(E76NZZpMFW}~4VUh+pSedyIiGfwb+(63(3a;(++@Ebh^j2BUA$?M`iL5>Z
z7<GNA7rlzF%9r#dy9vhhd^&@Cl}%kImQzHL9~qF4BD&h0?`4fp(!50-aJm%fDdB#B
zgNXC5lsb*4ileF`!0bHqvteN~Ve>Y?L$lif@y|@u<5MaJSm;&R(n7wd{xskG#wE$@
zU1*=wM4mZ#Gv`q(x=5^2BEn2NE4UPOZLEy2QI}yAm!UQ^Xv&h`v>!<l#(k1cvq=gO
zJ)fpXx%A4&1ss-FR<sKG!s|WL0ic-_py(rs@vo%i=>s0%qC`Ti$CQnCCU$k?65{AE
z{OgFQCL}ip4+&BxeZgTMV-#uVHmnS`4pOlfJ2Wd{cwGeL)pa}QChx+zvPM8tvEi#z
zT|3wQ1UX$+4MgrMWa!jlL@#+HyvFD#ZuTw74UluSa`e9hf~_|T)KS>EUUFtz#qz9F
zsLcukpW^jIov;03yBHYPF3)W2Hl}NczS~c-*;kOaMkh?0wrvaNN`l4_!ISXN>(Wag
zs?jX?ht+|mULu`O)UV%$7^jC<Cqx1CQpRy#AhJOeac}86xo$F=j%tq8`S1530F~Q*
z5!Kd-l{F@yy>UK!YG3iVQv?L&c0I;20Zy-jM}pbL9tY??YQ9HKhZ47Rm%mXtov9M%
zz05i(7a1O<h1cOg_*Uhe52Xr0d!X<9R`VWw^!jh=1J10G+_*&eyR_;&-XQp+)VGrU
zfH4fj<O}}#m~QC){S*mm+9~mQ<MdMG4LJ>tx07$82$i;@y#JZ8+D^7CgZ4%XUyS71
zDj5~gnjDR)lR2QSm530&)VTZg%@c)kI|iycx$qFM>sW<22RjJLKJx6r8ypmQ9C`g7
z82{4oDCb#+r3rq7Y6qA$igVnaH9bAksW@M7)gb;>tq=XJ^^r1a=8NY?cOcOL@sui-
z0IOSykZ`8-zG<Us=*lofzw{?x9c06p=~~lK&hX5h-=A`BD<R8ApqYWWxYz~h5#WGo
zay(XteiDe*yKk{>llp~7x@qi3xcj@zH3knS&?C-c@+qgi@^Jj{I{YqCGtpkizO5(1
zM5K0nH%HG)dxk-ujKqpC2wS|r%m%4{k1mHF^csS;jqMEuozOLw0;DJ0XHbs$tWn=x
zq5E`?bUU2<ivjwry*Q*AfPO-dyhd;w{G{;q9MQ<Vtyeo8aZoztG^r=Mnk^nP6v`kz
zrHGm{-1UmPk8N36Y*qnLl5S)b#GkXD@1-x%%;`;aYL%K4BPeXKJ%V5HW@6u4`Lt9x
zF3v8)k%c#08Wa_W5_uC@V=}UW)}>(`Q2OM7N*^iW6UY6#*GI95{(I#9NLktpl>ql!
zB5ji%4l$@pcPcTLY=aqUGag8k3Wk|9%RIA%H*%xFCcW20PtrQr(GiIh0wGeW9H;rk
zZ(f8E%HZ{CBeHJMUswv)$x~P9TapQDK*tN((lPK&v2B`3aRs40HFG{P8l9mSqV_&@
z_H4#y-;m5|TS+x!+Yze7lUN2sA8bG8ka|X{A^2S+Gsyi~tOkkdy3|u(?7ApnBMc&#
z(Q+c0Br73&MJQje(@Zw{YAR77C1WTggapYL5<w?!p=F#R@p}_xpG6{J=APNEG8<6i
z7HeiaQKIyYss3sv=7F{y-DX<*TBwI6ZlT_uSWSs=D&e{(sRFwgaW)o<$RfwW<e@u@
zaQlS(`*R~1kNOQp7(d6ykeBFqG*S7X$ozUw!1#<_p;?rS^0ZTGSxV3o<$n4v!CI6~
zmg0~`E|QJ3g%Jz{iZ6hj7mK0zFhz7gN`j9fOs}ItT!MqKbrCMQ7&bdouZW-Yo!Ijs
z0Ban&In=m8H4yxTp6^O(Zu8Ql=#KM7;Etksd&#t_XnQc|uBt``O2n57p0CT)hdbK2
zxSM0D2%_3?BeGoL&?;8|PaVvD^Tn!fwa1D1y!9z#G!4bNfz0JFqL%^3*-skFf?p7y
zf3uRDty{57pFc852qmvX!0f*Y4}HROB$Tf_3j<%M61fOOYuDD5UCkmUPs=Orr8Q`r
z4TWOx);VIOdRZ%nod=v2W7cD$E&|J($$L)5Q%{hik8E~}L-zh6j~i+<t=T((3Jvw#
z7&I|<iz)a~4r3}DgoMg3!n)KMFsuh8ND%TLL4Qvr5*A)|*Ro5UfNlQ_$#Sf5oT4Z)
zk=w+Hkt*$1`kPpC$ogPMW{6xHvmGY0k<p376PNwXO;f}mt%-|Jc}O_=$157e+hxY8
zd^$*APn8tR07*iegNYU5y`?o2#3?MsR+uy*jxXb*$36I6@?NP?=hGwPXJ`(0YHrh~
z^!H_J-kDMxu6F{}aM{riJ_<gy4T37zfJnr-ijexWcd60$#Z?Fz8JkSpM~{l1W|%Ha
zDMg&eBf}o4&Q@hs7*!(HF|WX;=&=2Md!g-DiR<q<jwcbYv|=t$)Vs_Z`<}jSl$`kb
zp&EKi5u#oka#piG0~H`PuUTxc<U@I@gm|le&|S{vwc94~-K5o6oCNX9Q(TWjPgD<?
zHAyj{FNig73#Xs9;gP6#uX%!H0M1%5`08ibipd09c~75%j>wD1jA-)%sJ%x<MxgEE
z`j2bi1+<rUoG!;gw}{44-8WRTIW#m!Qg05#%1TL=Ced9gmtZ7139le|6w#&qB7EKf
zz=T5P(QpwSWOK{h!}RAKaUHCF?$ffDyI|;MmpRHojQCW+r^qgH1EbJhde`FIoH5f1
zNlY7qQ>^RxpN0kP7kO2;h}oj3-S;;Z>oq5b`3?8x(+HHiEMU@L(Rlm^3OMyY8k=Bs
zp8BQT0bK{1cuoNohs|8e3%)-kZ|j+Y5plob61^a@&jFVm-9-Cj2*K@AUaTNaApjPq
z=mkowAVtFNk5=Ect{)u1h#ECY#Wf7jMBtY;&t;6xdcn9bDL_5<DCU+6WyqX{e}Ev=
zd+nQDS6+!LDw^4Aq%d}J9cYGKT=d08BEswx<|;203y{E}ulGkoU>}rulu#V9KmQwo
z%<p;skKcWQ?Q!ix2PNgoc?#XJRH>1-$V7H}oOlZsd+<2LH{d)Ri}_e2&Ckeh8HQ}O
zo#4SGNAZGI+|#V2^p6>}s(?i=rgdzKaE%Oh_h{TSFygV1%$s>rTKv=ockITBu*rGh
z59LF<H02H!#Swf8bC@cp))E6RnKg%KhO^4CO2p)l-0ah=x~<r+mhc0M++V#zn59`M
zY;0`kh)?pRYBL}vdBpD6exadCAe1x!G0`tGU(;*UpkGt3P_SZVJ^XBoWn_^Y%v0$r
z_oYut(&&OD`K0cvjozn>2;%FDlI46eCtx@}nI)WcMtLVr4>>!=p3mKzT&jW;cnT1#
zy)=GsfMTYE;Xxj81x&7jZlLCuUX`=sbi45LOw+B>tZkpEJzwM-CoY_Tc$jbF~r
zMqJixS0Zp;z_YRr4DHfMY@4Zd2)f>{Z}Qchwvnkp{ec#Kem~uGiJIEcY5MmM`4068
z+fz5@k>>|x%x=b|cuu#<ke)36?hc<2>RkLhnEFpI6RcD_b@YUQWFRfiX%{?Bq~+Ks
zoqPCY7^N>O?y0OcFm-96hej%*dgV$znPCdhiY12|1KSRZ%%}W?<}BJfs`v@)jI3u}
zzFwrwWEvd4Yr{xs>@KTh-{TNAm)Il3YDi`{$irvI{9)@Doo0a$z!Hptd$NOu0pxs*
zg1TybF%G9;4PE}1o0Y*BP3$-h1jS$Ey|Fu#$jvln0^JSHsZl;(IkyTt1g$uy9m*>*
zul}Z>9l@el@67enR?0RZ`y+E0TY>o3sdwcfJZjqM^$#D4<k*0Fh?E51UL(&=j`&a(
z7tsi$9RvmJ?YfbL)U1EG)8JZLdUF~vDZl;g+iR06C(be<v%j?+yiVhCzUTF!FK?lB
za@&u*IJNS!Z(ouF(rSq1t>>2Z()TAF0koshud+W3Nmp@JwWfm%u}7c^pnVrsJX9{Z
zHlL#+1|P3@symCsb(UKP-m(ukAg78Np{}ZWc%*_bYwhX0eG6_mlh}h2Dr4L<64ChC
znMQZZIlOwbAa_>x8TgWWNnSvQLkImg;)SSvI&$)py(RgS#fs%U4w)kdL|i61C*tX5
zPq%XPX^x5aT^!#K8i={(Fp;98?(3R8ZE-OS^LAe`V`*i-?xQ5-|7}{vy+=9|b1^FU
zE~-TysDXGqRlOjl`GTmpyAdmNoLsejfAGH%Gu%Lb=XuM*)sE@)n(5v~*!mudX4vpA
z+ec2D7@eYiUey#ydI)!UB>v;#it$&PStbf!un;TnL7V-9llne;P|x|r!VR5k7F#G;
zSWW8z8Nr9iv>n>+07TrkSSc1i4g{Alp2V1T$<1GKx$iA6YWWb@p%-lyci9o|H;V>U
zOih2M7Z2bEnd2*C1Pu!5USJ`}^tJ7*<6izIm3KGG+I`U5r@yBi=7!J|;5S!X$nAN>
zt)^7a{%7sBFxGKdVXXev#B<#nP$^mUbpdT7N_OV}ZE;VS^&CeB3u{cew4?+QY`PKr
z1Otu4j6Q92Oy`q@*Qf;A%ATIW11tr@on@*V&6#Z+wE2vzNgn{Fzq@wwb&{T){M|Bl
z8!{^LzexOEl75c3P-NX9@*sN-ysWS@m7}eZLnLc-f{gx;hklr!U#wdhPd+-W9!U!B
zHnc$>$j~Fh*DXakDsK@?_g+=|4HTxJM0VsWY>%QW$<_m%9hNftO*-~YfuTwLan!Xw
zy{4#<EK=xYO|dEn&X$)9*-5XELPyT-@VrZH%^pkIe>aIEd}8VOn%=#{OB3Gp!r9RU
z9W{)eMPg8&>$8TXWM!^P1zd_U3KR5C<#Qx21<jaH1`SdkGYZlM9b1TjqYYWAU?AgG
z-oPd4+C;ym>-tEx>WlV2;St|2;V!YYAwHou7sinSNa+6#A=Mn!!;zUo9K4YBhuy3l
zoRp_a<lAI+%b>7A0ufYNCEvZ4GJjuZ<2->)p4T`=47d}-e7wkbrKLxjI?tac4a{#W
zHiI+CErjTPf^c`kTP_AHi|7~kWBdJyiMUB{4L`Wlz_51!0#q>1?GJ6%*IP7tLYS5x
zS|U(aQD06e7=CqyPB>QfqW`Y9pAcNF4NE-TK>)6lE0Vr*B^5YdJl<Gq%J-w?oBH~{
zoyl^cQ7Z&ZTgPyP_SUWSp>*trv6OX)DiPN=lAe`bqja~5(GaEY<2K3McZIDe=v`k<
zBiuj`je+;z-s;8|vBwS5KqPW-rybWBeMoWp!e!|licW-p&Cs~z<01O1*W6oZPbjdS
z;vI=w2NAbG<d@QF7KLQT#mSQcytjJ45ter!K+f~lo2Sc~YiViAd3lSJf;>8z1(HYq
z(p1b!n$~jT*J#aZz9WGPzU;}pt*)Q1UlZYIH@vX{b;j}8dahh2b+e6JY+Ntt<YbQQ
z1vRC%f9E`F$DN$|qKm7G38y|Lx#GN;x*k0U__HB=u{+sF;W5Ur_5A$1!B+Z;m7IGC
zhdoKfrHg}@2S)WXV6nr#4J&+VG;?9iTS-eJxx_IJ6d;P~@#}A;`Gleg+nMse?aXbC
zRzg?LrLxrT?BKEww|k{uv2)aHuwSb)ny^3?j<Q5)CMINjd=33(Y6UvcV8ri?2FyL(
zPDL7$Pc?gc&;QKynU!(3HWQtFmL%Yq7mDfwK+R#PKWL{MV-W=2E9BiH062A>p?oqE
zQ4*+da}n*l%POBzn%H<m{%%b)u73-oQ<w5F!g&AfnNiK-JH||&p}PAV*&6KR4Md@f
zjVKwH<<BX|Lf>AF<liH2NN1TU2W6N!1dVA2T<-USgV%x#2U*Lq6aMSJF#C|bCPo9a
zAOWg3XMoV{SA<T7bLzOq$>@DA1Ml!EvrKG<8Tyx!WfshfpjenQI%jBNZ=<W+>V)yC
z7esHT!kd(5YVW6LDS{?3^>Nf`VUe@bGzF0_X2oD-d*i(st|qL0DA1F`TiT6MVtwi8
z{uM=X>lh?#@Hd9Jal)4oX>J)La8Zt|%X$oXHv3q@OMV#0{28|y<#F!k%`@>wWa*xj
zCQ5;3J-qUPCL>i(WPpl1;#oak&k{Kjza(yRk?9@#2`k{MLx{$+&nH6STm-C;k+Q@s
z=*PzpZw+wU4p@b3;s5{@knmUbl^r0?DbWISCbA$7<R?2ZRo^2C#2<nW4Gm$5D;l#-
zw!*qea6E*VgQ&!Fp{uYi<cR2D;YBXy*gS!ESq>6N2vy9U4v>Q4`~jN4k~ku9VzT}6
zK!pk8LovZ?g=g$&C^555*^F?F1$+pC@mSSC?H7z)B?5|3vseQ(D?&V&e<xJz@4WV0
z8zQwH5k!|hTP3a{*tRh%kxd-2TphKey}dvhCxze_66+IaoBXR4tyelc{`&h;F}E=L
zlW-PKoAcYr*}l=CY{CSSr;u77CGXmQpsVJMEzC>6gPaiIAQ(ZBA5*t-;gDV=mnpLZ
zIl`6(0%@)9e%z0zVtsQrx;!`p9fx9X^yYHZ%Q3`@vek{FoPWifMu2`|>D4eq0NCq%
z7Zn%Jp@G5lNbcdgW@t#s9>edO3#YZ)fioxCRxui}DHvd{SKsXYm+g<W@AXIL*TR})
zHd?<`F<B!XyA5jsj-^=an{9pTtGf!vUDu4mUDqsu9*Dp4_$lrPEN>b~3o>Z{atRKd
z6C#E|UIvW}IYJ(yDuq&S=K|GRAgblJ9EQS+Tn9picsic8Cl6a&FsG{?f2f3MWhh<m
z^eu!!k#fC$YhhJJ){QhQ%P_#hBqyJ@YIU*xSp@U)Vi$W5l?9?i6xPSg;;9siR(`g0
zcl{+-Vj5D-W0!m}q-`y%eDNu1p4^lq=*QS;mH^Q6HMU<KjFJWd;$*GWzrPYccIR-Q
z14P(~bm?^bFU57SCX8D2X0RffyPm4bezEEnXf&$UBP97OV9WI=WiiP*!BV))0aP;Q
z$6vuo5w_LoR80C6gRhRK{A9DZ@ZL8Xa@(?YSyyA&GgPatuZ|EBpA_IVDxXt|;}5v;
zCuC$xz0Ef&>5!I;)ABrBu-C%i-qe$2ejc@j@>smef8jG-7hm#;s2m3fwlcg%64<gz
z)TnthdFHXuPf~8LeRQk{zX5gX*mE<7zw1P^_d@(>&jA>`^Q3-24)v4<@$!9imdwRi
zG5Yqi%_PsCsKi}2sM@G+<GbqUJ^{O<t-Jb?P~f1^eFArHNau4Lrk;WxnjYa&noyrm
zT}b=CaXSR4xBN!$5oS|V)|a)lMKPSNP5*d?ae!ShXkPzUNNK|`b|cF+$Kc*i{>~`i
zYk_`12>L?ziPo8Bh)&e6zaWbfOhCmaV0tc<F1m^$=ns(X%|89jeisJ)RIMpJeh=5e
z_i3Ym4@6?1jZJw)*@4SC_-8lpro}6e=uOIZ!frK|!siD<<+A$1Nn238P(h+atHirQ
zBDVOH@BsE16cN$D>sFP3H~6<xn6Cdy-=v;yMo7svjdOLVp|~12m3ggYn-8Y2n))A+
zX1vxajqn;KR~J(*5eeo;xo&8@?KV?yZ$NF0+0W*cA%oXMm`VehQpwAeqLU9kg@JD<
zYuo-^0oFs^qp{J^j694oHsM&LB#Feii#r}z(g)@EMcu(c8M}HC>MR8%$V8{%GE&E9
zAj6IHucUfbW_Rg?)LD<54LjVN^@R2>SS+*h`gGPTcF-dE(E@m$?<vP#h`c*$`yxl)
zt*N_L8+cXiwQ7*%4=^%9y4^nOO1?@6qOU;OdIf0y4NPh*=c^jhS1bj7N=7qi7yJa5
zIz!01Nyp5FLC(q~uR}1<u>G%&z6nz%nPr$tV_U|yB&4qrC<5cVwRCg6djru7yYF)-
z)=rXyD9*@pa6K5)Gtf%xtZ~$9i?E|<CER;>9AsRetwgpZ24Tjj@>E=`p6z36>r<n}
zQcKmf(7UiLn``w@4V8Qhxbm6M-hq?l#>``%45!xbp1>dVnjW3cAWt6D#4*_a!T8jM
zMex&>nDE^zQ_T$hb^3$bf*vZB8;Z9g%^s>ei)u3KLar0Qj5a5riV8rZh;3+|Xi-X_
z*}9M+&g=2w(|<#Aju0xz^<L%iN4~W`TMq#+ASJhXi7X!7sMjqZnNc?eG_AV|kC}wk
z009G50ji@Gk-uh&Q#PyJCb*;oR$)3d^ZG4=VG~3Ao=YHGd}NgV18D>0q}6g2l5$9n
zaIlxs3EEl#_FtT}iATLAlK%3GG*@{e*<T0a#Ry7>cU?=z{x#|ZriV{kagQ|$Bjs4q
zqvtgChN@*bY|dvz9hcNj$Zv{y+JBj_eIUmp*M_Tw;Fo9f)88LDDdu<J94c{I*KvQz
zhnY9A^u6K$`?&6J$JJ~{aXP}R){hILr?{0H#2?IDXc?&Pl-#d5Jaq-FrX`=QV#aZb
zJlmoZR@T!ayAg4j%L>DBu8ZY5m;OS>Dp==t@uz`XfLlg?m9He$X!;Da2HF{NRebZP
zpQgG5a24n`0rk_veZQEI{y+M6=0Ia|EQ<`h8x*uedcFvj;BrR!vis)6X`OaM_-v@O
zFpY-DAcW#bz#<U*NXRy)Snz4Y>!3ee`gvi9R3_vbJZhV;R|5nJzo#Bze3fy89AZG^
z7<ND`PQaXoNg}(|yU;j3{jQu0eP>Lz!8S1;(~V^8Yk91~fJOo8c%-<TF}o@o;*nAW
zF<raoASLz1@AA(i|BQgai^4Py%&f{>Hq?D(gAXbAkAvG`t1V&?M?BGGk(wtVEDn!^
z8lBKa$Y#DcN;Szr`&mra|CTo*M0y+sJ(TjEPcmEW{>N{gJS)q;JDQhfb(?0YkiUy1
zaJ^r4i-4PPH8r2MjQ0|J7vXx<dQ)$UZF(_L9!|fmvnYqSAsDq+K54sTXRABJ<5fZ?
zvQ{WMl_>p7+>v<F!Z&i|2-lcTRGngD*c+}tIe+fWl|@Iyn0Y(Jez78@ttqu<j~(Ig
z+)y`yaXpPOk1Q-3>07tl3p2w*jLrg@<`>`k`&H-<9+mw0Zq6)Lz@HVL-{&#qv2NgV
zGCh26f|Vjn220X=LRN0SjW_1_%3uoA;BIU-pL6=Kx;#0&vIg@NV>urEK<Rp6u0@!u
zrTiGO!iHHd<=BpiWR+X7){rIIIoi=okfq9>J{#i*Bx618>n2C*PtJ;Cv!+LB_~aTH
z>DODG8&(vNBIMu}<9^$2h&k{ABMikDEx>DaxY1%XQkO=^$^HC@4~um<pey54T-2fc
z8KV?0)gsH7B8f7QB7Nwky6*M4%|M47t5#(#2PSzgXPI0o(b*&)&C2iP*wkX}7kFc+
zvr=ArGR>xnytMMgIQ;U26or8(v1B#!UzpBPZ)=3zsl>J){LB&?Ql!AfHS&PrBbEcb
zBG<cvYQkys64VCYHLUZGnfz#C-`6zWrX<=CUZ1Cj5b{204ohsb9wvJo%=Zg>knT)L
zp*f}mC&yql)0e}&_32G<NKvd>z{0x+m_K4-sbpUn5ynNs4SlA6Xk{*`Me_rFCNc}c
zu0ub$7uCIWW%gN<k|BCZMn-^^oVcq<Jf5o9WZ_QORsvJb>8~M=Dp^HJh4#Te2eJ7I
zyF`6xe>g?=D?dA+#hyPGVx-VfAbw7acFXaS&v%1X?`!hS%}v1Qi;lp67k687ty0yV
z-~C}lOzg}3y`_%f<M+OKUvli{b(XT4bwRY6%*fAWx_Ge+G-Dn_4)e^(ZJdbP9<KWA
zqK&f)40=m%EH#Z}A7qb?ND9^Zu8-6u6nUv0ZeX4L__qEz*Mn87p!ga4_)D)i$EdBd
z;Z6>;m&+>m6%`_NXOfle*8;jRF0SP<<B%Soo}DGnfxAB8J{Nl?)e=)~VNWkwJTH&9
zN4OJy+&^rkj%q>t9n(Ipb~||q_frB%Q?J*W^D-v&m`6kl7TXpXCqyeGgxm*wrpl_x
zSZ<^X7QudU2CU81n@}z4{Q#igKMkciEa$}&w+6e|cj@lql@Oj)d#dDS^r>$%oolCD
z+LbNSCktg#@wP6bx17FY*EdUHr|mH*(TTov9{n+RUR{Qo5?UFuf40ovILbc$Hqxf=
zflnrXL<blFa2$rv=&4l?8rr+7eA5OJ&Bjo1aF=a4ST!t&O1?8Uvwu4VDs{3kjh)wX
z=-YkKy!U1zr%#T8E|kiU_lyY1SqFM&XB(e6en|M7TkfAC;`A2xg;&&o8K<g6;Pg5J
z-dj}v<e0!S9K-!uBJ)W$W&<=j;>pRshQhg)D@yiXh248Q{7jmNP@GEJwq*@hQS1!K
zl{qLLMo$ZvJ2CkE5JZ`t*{}@!{nOFsu+nNxIeIoUlqadipC%IH%#vuQrn|xR3(3x`
zt;1K&Own((<bS?1Hhq!G5v@${r>((PEw9$>Qj9Gl*C{VgXJbjDgZ6EqpqvT~^2hht
zh-dsK*<PIu7}^u2OtN3D=~|;jhhh!we5heC<Pe*rKQ(?PrLc&3t1c?PF07GCP|*Y=
zrQn$9ld(vC;rt<6nE#RwVgUN-17H6xsa5`ZuX3SBhK!ha5|+TgHg<h|eOFi4u~^qP
zcQSN!MiQZS!SNT4^v$Km%i-zDJ(1ouJ5Yr`+n%c9Z3Z#i^6>}f-`iU-A%FSuWty@C
z8jkebZ4Hdk`!2s98?%PIiomCL(NTs)`XhvfbwZ9yiTL{^hZyg-EiEm%xkg6|V>;p8
z-QB&C4vwE8zyaj%pp32hQWd$)1>HTPu@|2{ZkTA5AKbg75^=I~J`TM8TL=cF$+PsU
z*@d)_kdR)KjIX;ywJdg4kkU5&Oct=j84$oj?SnHN@l|$6BOH*5<nMme|IR0JLPxl!
z7XE%GS+Pw!2?GBL)$Hyl9Tb!|Se>qlXlN52DbBO&;$pA*`P>dSi^bf#1q0hbzdsj*
z_^Y=SZ8$4h>)+V4)n^o?U&|}%H8xkB`AJIs2%nrBw`jh$@X%oy1!IJtKeDh;j2+Se
zb#O>$Z+pK;@cw(4NY{p_V>^@FH8C+sSF3<TXn%iykl5N+`mJC*s+yO*qC*$d{IfM#
z5zWU5vGyDs{~T-JJFFG39vvJcd=Xt!J|__1%X9<AFJ95<HH+x>p?J3{vTO4a*L?F5
zzv}JJ-4g4`8!H<`<>1K<dkOhK-Hx-awNKA>@;;BI)$$;E+Hb~?Ab}CO3^|RME_^uC
zO;Zk)0<epA!0IUSMA0B%f4MI!i{h7&gS6=(na7>uBY)@d96wv<ZMhD$hYvw}V62^f
zPqCwF-s#3$#V7QM;@8;>z3O-f%}z|L4Mx&OTWny8xLum8Qsr}L(ck9FYQeGl(fLzv
zFH!u<5veb~XkWc5H~RR%$hN8JAy=x0N1)yp^w4_L^VNsLi(M0f>j75>x7DZq%&_vf
z*!ubP`x2%aT;w*!g@bES?ZE>#Q6|B{mcX0#BL~(;RRN?v{TS~A4W~_;pPoG<7YW`?
zn0NncqOtbQN&Zjwt2=Hk@5`py)L*sgzim3GFfx545)mD!SS+Hb|8mGekBnFS2RitL
zmA?+_{?D(!Dj?Ki<ns_`Y%CYLCZqZ032s97<C^*fL9vB4qr7A-8;zh^#*xWi!^FfY
zsi`XS*ENKXs&w1l&94P>Gc)(h&icY)03yjT>4o(}AeKQk{?8i^Q4J<rWY$ez-*>@l
ztS^#SmLl}hVlRr28R+|cbXWW9kP!W=%S*82IeK^`HbY<8B50_FuvDugAg&hrGnWXe
z3Ntdu=;#7|P4ldYi8E<r@tcDu!qw`Er{-ax*ZJYAM*N6Zms}rz#v~*_E<{Xh?20LO
z#UXet%F0-%k6)6pfbFXZTqy4XDpUhl?l3WhOvlB?v))onnr3mmqsy=x_=cnkV30>&
zb#ZYTIT6+HT;SjM#`#2(3_~lgYDBK{!3+Xgstj(!ryy(YqC)`A>+f^8SqHe=T6!X0
z>MX`%?hJT+>49cdldO<ghwiBYP>;D)lAx;n`PtF{+5@N>`}zZ~vv}=z39mG|Gc#iL
zzK)zzH|;hE8K?F^$~E1p&%5g(1V0ys@wLI)Bvva3DS)#>dma~?x&fXkAZ3OA$CMSl
zM)F*%ciozsn`6GA>DOfD*k&x42?LKOlQ{|sSF&1>;GTczNz65Hk6UswUdfkoEe})K
zezZC}!p#H)E>2@bNCH29{_OiW_<b5g!r;mUpt>H2OI<6l=ztXuC1Oir6{Kq4pwdnM
z{7MlXNtJ_HCxrZGlK1FoX*GEnxjqZPuyta6*QZ@GFv1n(B$7ER;VSp|Y2|N!73upV
zR{Uv>!q#a<wAc%cmG8#c+kAf<_ZsQEx_taozu7b-*~i~IAmGPeHH-ztXmyJP@A;xV
z6rLlI^M_5X<JCts6zgsyJ<6;8Y}v)_ZTH{mUa>t&MKOH-{G*qeMR=>DkDOe{_brS{
z#A9H{y70$?`|$DripvslraEO5d7-AF0@+7$AnBKskdRsS;}t$oUV)bah{$L=Cb3{B
zDIg>y1oI5j-=}9yhG2)7`|<fRZY!ZHW59T`Ezy`Y&n(5e(@&DnLJR949Pj_MN%8fM
zYZ}+Ex1#UH>LGP1l?oUJi2gIr1Aj0ynPnySYygQFgj$>~c?TzODNJ8;WIC$lfvhb#
zT3a}{x9gcG>fc7epjQF{0+4+YJkiHI1YXAyW2QyovAP&F&jB7OscQh?yo?${I_jAR
z`(h<Y5D~tx({AnV@@>mCrCOPf0G5y=Z2xq7io;xDAN)gq{``5;C#6xs?F5y%qVtun
zNjX;=7K2JxpM#ql>~`={Mmd2ROA6@8s)zKY<9*m(e~_~1Sm);o($ha!_T#0ju#4kd
z;>;2gV=QZ5@*%Rw452&^x;4#Dht3n>7q9#1B^3oE*j<PB*`;Ub`JBBwbjXe+$A;se
zilO1Dx3#NhJxMk*V{zHLOa!*T^g^qlDunN1K^*qSfNGu!c45{vTp@%`Y=5GPoIFp<
zi(K`*B$Inq)GIu(;t+h|w;ClT)n0ax-I+_GMnG*uL}Ay}Q(pd+GleZ7ma9wJEBd9D
zN%@6(^h*f3n6Hitr}}JEm-LV?ph&u7|1w)ju*SCeb^3yb0iy<S_K=W}O~xnV_#b<4
z$1VJxW~&OAtr`sG78j=y#KFM{d%2hj6npn=nE^0pKq`_c7~A=8^@dabt0jeNwB!1y
z))drL;2nFuJC94`y3kHL<-OZ>0xiJUVV#^ZnC#1|tKdAThPxH&5yT$Ot89Uj(M@pa
zgTvPxu$BcYQ1hF00{(LIRo^t3QK4)ush(_s_N~~MvbnkWGH!{8z%y~$N1f~V(w7A9
z_Ze^X@pNq?_}>uh8nE#^D{~M(J4)B2QFx-S2iG}t6BdbH_H2N?M2C4G!)ad|be`10
zc6&cxEck=(7d~j>-5ZKK4kT|F{(LhHlmzi6;we;|0iWnF`;mtf@+~>1+5ic7cYeB(
zC=C^#H<ugIg@M;%c8`BJIP>w<f>lpP%{tS@El01&F6TF2;Mp)p;?WQo7#N`+$oWi2
zZrSUVfGwHS4psK%B=Cm3TQ`F~5ybA`Hd@ZFKJKP)%YR>7TnwQm!S!dEIJDQzk#|AV
zl{i^>0H|q`91${NG-+YuVX5W|COcs&UxbwJG55!D?KBE%>R-#tkUhlfH(RbkE-fwX
z*ozkQ#5$R}O|IPZ-yIY2pF@XSPhI^-3~9vv$}^(|stUD9K7*pfSgto#VKoDze6w$h
z&3+ryR8&Bj%2l42&*}8|gWJ(s*PTd0$$iy{>~aNYlDYXZ9kJxprxz9_RSL32IfGXB
zI_k(+<PCRrQk;7t9r>R4gkLU1rKGBGG|Pt4NK1QIyZF5aW!sbXxv{tA37MH%?yg^b
z_KK{Q<gVUXM{wwPPFDO{UU57;V;7GwxjDGEs(^|89%OI7wsUSy>sGcnp2$^jy$>LD
zJL;1V6R7jN^!k&;c=lrFyH8PLV_u%XSGKvwUPcwE8FJslgcL0~Tj6km044!u^5CRB
zc)hahka7HQvtGNxWeLCi?H>E8s#iHQ0}R3sYT>&t;#)-G?&5^okQr4q1QBdfslCL6
z6FQxy@2oG;&l#l%ZBtm>^kPp}!Nyd~9C}$W3mgvOQ%}zdTsg_f$w5rIgAFL>A;E2J
zZD<bSBw4~x{qS6mO5BruK%bJnTkh>N%$hZ~n#2(R>si}PPfn)R@_S8p1P1QU>$m?5
zS_6>1@|mn`@VMP7^-l;L0i%V(?aRNAu?pVukvy@~oDerKcO4%c-5IRaMe_kW1tA?>
z0{wujQ(pDAUt+_3!P`M;BzGOBxl=l;LDClarnsHc<r5_AKp|yfPE0x*HW@dCq>r#2
zRFXOS4IkY{{EIqRlIN9Dt^%js+3Be&Ow}-bKne<RI;pL>*5xHI-{mBZ=9l1$v{RUq
z8`m{8Ugo^8$Cn-phbbC!M{nSPYH2Izai9%l>E>$TM$55Pt>74;+FwK>p~JY)g&rjE
z6fi~LYeF{C?MMX?P-9tfvwL$TEn)hj1)&S0Q<cNl&Y)`KJw6T_WC-uR_iX6z$=x1m
z{Wl~{jdmi=oMzju)Q=Kqh%C0g3%K^<5vN}Jo+tzSEtAVo@2qPmAkg>ai#FsK2qtKi
z))U{}?p1MI%mBn&zgx<mb6n^~4oQST%{`1gm6B3l`E9DxpMd2+wr<9G`hc<1i(GaA
z#$r^9+N8f5Z`Bn)(l8l|y_S#Sz9vQA<0EE?t1mF#|MBU86mk5-Y{Tf!js@fFe7Q2F
zcb}cq1XRQRk`poKq@?q!mXSVx%D+G`tA^rq>^&3p{^BGz0(Tf6n@d%LuUyg2MXQAU
z@t_{6o)$KtS})1?YiTZ`A2Bk`Kl)<B`x6Y=ABPP*ORKWXuQGn_rKk5}AbF-({;&P{
zM)1Tt?>@1?!E%U0sx{%!R?cK@?M0EB^7+QAlP?YpoQ_Ti3dfaY<pjDrvGk!sg%`%U
zdVZY}Ly|sI$cnR5cZGyJYPk2)9*6ri#B4c13{H-S^U&|Nawg9kZAa-|yf}f}rVC%a
zD%~H|5g39=PS7YC2zqH*=DPOG67#0jRjV&=j2hIrB}tP_u{tr0gZ&oiWeAHxJc^2-
z4aM*1tG>+tqw1}LvfkGI;rpf=q`SL8ln{_qq@|mi6r@AxPC-IJx<o)qy1PpdL=col
zKoLPo1OfeBoO7O;_np~)?3q1dY`$x)>-wZ2Y+2m+Ls<S5=sgso#S0@hqhACQAry^a
zZsS}7KQIho9(#+D!gPq}-vF%?*}|Ql&weH#gj$0Hjo5oZXC=C9Raixv^@vq?{LxEc
zo?sPVv5ksqDTL1wZhl#VwGA*LA0V5!_~@$^LmqQGA+Y*b<f;_l#b3w9H(H{FW~9#Y
zqQc@Dm-!ki)Xf_6AVgKNVf$2K&jr)peQaI|xE%LSs!1^L<3fO@v_>`|R^jA+5Pbjs
z{k)uqSey(38v}zIL7<F}I5|4nnXi4-Qpk%Ix~+$hlzB*%?tAvc8?MkYe~$ltt4?vf
z5xq}qH7Z}%$(YML^Zu@9{(H~w{{3ls<ySm(qU`x>vdg{B1vNE+YYK1=`F(wN&nfQI
zXHmjsGB0aqj$yG6jg;Cy>*j=vdk-v}v*qC@yGNS2b^Aiz-?!`~+~w+IuGjzATUw_R
zk7F@4GMU0mlMXcUJbx^5*TjTpJSE$7YtQxc@40jx#d~KZ-ac`+n^KaSmBzaJr?m~)
zA_adp?(v+#=y0(rk6SNM$4birar`7It>nm?=+c>)#d^}BbvRApw8aiNsu}_mnfsYp
zq#CbN@|rk2ohwtH;D}L=y}Y3iduRKNsT#uBY2C}J+`yFcwLl+2R{L)G#W9axS~8t2
zW+y%uid~tV<3$|Z>qru86h5&~pWbs}FNnLH`XuSLsoLM@q<rm~vaQjlAWwVF<gbgZ
z{v<(PHOUaT2+LNTz#RjRJJH9ms<Vm?OP`Vmt=)<7dEsI6xT#^{#^ZHCoiz)Efd^|n
zcr-p`v;t}xDbH0)(e7apj(u%$mpAdB2%Gdkiz!u$!id>aqTHQst{$4zSNr9NDNKE9
z6pt$wt8mO4S4fDhGj@wJ+@0zg?@=g8^!o(ED*kWp712=(2w}l28Pk={_UJoB=tV`T
z%PsfGnS_j0Zv0$IxrnG9diwt4d+|#()9M0ylaSRO<VYAzJ&u(WH5pm|kE^ms&?xJb
zIF0kbJ_EI*-^Ck0B$cl;J@jS%;2?%r&i{M-`pT3tGG`{|05N2%*blZRy$?Z5+C>X{
zXcWQDYy~#u;Tddc+JyWVdauXU+vVhEk*M+P>kl*y`K-X7?nD2Su&x}jT2R1j$AY!;
z5rQ8E1_$pq#Nr}g%07e5{(_E?k*Ekf3s9Ow?e}GfkON}oOV*f>J;`6M`kxITJrLOm
zZ5Cq>>R8{z#KhDoU{pg#$;8BjhBVe<xjvuST~3LApsy`}!mzJU1pZ}nv$&wFvl3}k
zJ%`@I+<-ulm>{7!9%VwAK~?6!!+ZMm_CG(k(}Am*x|*=xq|4dp+o=_JP*I7w&y0?i
z0dt+q^(It{{%=8YZY~T_1)0|$Oq0xfgW(7*6bk-?3^a6&ne*KP5JOzlchs&W<S9Ps
z>gqa;{2TG<Cj3HBNi{c;R^M~xq?HUW#IJV!|E!bUiPSmPHa3}7F_Dq6zbWU3O7k+N
ze(z?lR9niH>ay&fupGFzKW^=L;-cqRpHjEh-?-Ga8TNqU@F)eJ>U;K$w=#Y@)+TiF
z8u64gS>ls~L`|{pAAHrcN#T^dh_bCR=Zh{DGUE=9oU0OmOmkwfMEbI&&IJsg-upG5
z)(4|E-x6Zz;B7rCax$Fg{+A2sDL19sMuLCyJ3|v+Y<+%E+6{Nq->x8glFjMjKD)OB
zYU#9F<L@K*;P#g1DaC4{5mC71>;AXKYC6dAp@>%rqbJ*z&&sB@7!Jlg&8#9ats_Ar
z=FLzUo8gCLLfQ>3+0WF4f5tG0^^l4++QmOpy`P&Wb7Lhi#T*my<v~cuQHS4j_>pXo
z7(JahWsW3U=Jy|!FY!<m4nC`)exJpbo^xPbpx5;U`vxC7yorw|$M*E{92*oi65+3`
z@%k!#*t-gMPHC#A?#vyDe?N?$q;>z{&8~!}<jZ$K^Fw#cwdLiZGy$*Sq&c)TxgX=1
zQoNh{xK^~TE3#ydH8To|S#zZ}!=BBAPi_o7=(tN4)|D+zSH^j!m09>IjEGSz<lN<P
z1ePS90d=VU;w`_r#IfhZEZ!<pse51dT#Xvb5g{L|atRS!oN0Yvznz#^-6|Ot=(#-_
z@H;qAso5NX2u0jelGpplF))d&x8L5HoQub4C{ZNV8!?ai?B`F5j>fOlgbgL7tX-J@
z&a^217PXe~yr30j57{wbyNsl~rll?ZFg3#On6kVq5VNkXu0%ak6wFI@G5VZcva+%e
zH38im4OpnHMewQrSn0lPx%S|Rep$KM4asC<eo7-EGr%X+U?vQcsc`{3f7Mb?k9;3j
z8_>n}KWYVGBs#s#7knpj;p!;mb!Vs{78j?AzNe){m3_Ncd4CO{!;x;KWiicBgKH7Y
z%>F&9SA<*arm(1W<&TACAtlvWauv#K>E4ZXKfP%kOohK+L;l7HRTfwyTENiN2Z=~?
ziWzAB2e{-92zyTBSYwIZA@GVC8{}oakPr*O`lyZ}iv5=@TxAGhzqkhX>izon4(#v1
zFoym^pDA>dL^P7xF&1LfwK0a!tM)hGK56M|aQ^hXA_0VuV^JfMlUn?GLn*+N?0tAW
z3GC@T{FpC%b}`rcS_Ac)_Gn)-$OcM?ijuOiX#KfruoxW<p0f)iO3-!n^_6f9>oI&|
z@**=67ZEW40o?!~@#Kq8<6ws#(2-Q6L`7MXRe~&p%mucpby?{yR@@vdhB8l2Ptj*D
z%nJq+tPvLGIB!&6lpFrv=?3hIj*>DhBV**WS9o-GCHVdQ)(&b4^*7cU&I$_mnq9Nx
zBM#TX@G=uo1U0;34O79C&+;swz5UFcYV|(LiW&xv6@q!}@0>;SDb00n0h5h9*~_QJ
zFLCBczY9~31qEsBe5B|pJUAGXYfMVw;VAZAlwe>--`QJo3TKH3=ePIrLlw|SVg5sD
z&TpOnJVGd+uSW`xPEO9WJrb1cxj*ANUlW-8V>CtQd4E;UTCI(}YD_P8-`lq;e_v}F
zBNT+G>0l$*)Rdf}n(;ZXX4#LH@kK8hVC=xKea_-Q_$~NA`R1COja(?r5PD6R;8+wo
zo%lPXrOR%BpgX?!^N2gTSj%4&MOn0@PpU)gG;+&r63OYE!(z??Fa1RpiL7*ZBuJiD
zT3W^ttLs=VwSAJHRC)C=ls;^sna)xEufZ0FJtv<brJT234ld*PlLvoJCaA>MM4lQH
zI5J9ezhn*V4ALr1rm<+b#&6pc!BuO!D)%J75$zi^B8CI9x~Ndmo5IK#E%m5wTX?3^
z@-|_@-&2o!_MEfgBr$Dd`GqWgV+`V&_@rOIrXSG2YWYO&#x~15dMU)<-u?G}d#n`4
ze0`XyIPS+M8(K*nHH<d1-+Q#I5*<F~EK9N6uil=WXKzohR>&YylAFHGi~O7}W?jt4
zvygI1>(a<xthIUM^pSjuV{G%ympe%xPkstr`r2M@wg;WxOu4?*Wj!`RE+8zNOhcD)
z-O|$132|rK8**~Si;i9&1Ex|)OE&`bRi!X%31gYzog*Pz_5D6CmKdO;kfI0sd-&}a
zbgxk_2@w&gMN+{REhv@)m4|SuM^ARDyRX`!S8xh&+%biE>mlJnLQ*o!Z+&YG_9KXX
zTW)at0QKP#ix@llm_*3pm7w1YmRbi@xp=K5%gf7puY)iD{QdjazcY_FG%)0}pQ#d=
z!5eb6nf}J4@y~j^Q0hap;HmT*2=ug5`Hef~5aOXo1etVapooA!z(S#NJjgSQ_+v`U
zGAQ>A5E+H?jgam{lF%?fu2ujUl*oDADHx<t3YCvQ-%mJ4KOMZ^i=7(vm4|Af?eT6L
zaoI13BWs4{^MgB<s`=L+5KXYSZn5Ej4<&K`3<i438e@+Zqo4%r)No$1K`T?h`*xpv
zz0y?$lf+jz`V?eEhc=j-oBspB!4${7FvZu0qc6y&E&=lVca;Axkk1Jsc;xu!Cc(VB
zYHEUPwzad<AK8?;bqmaCNxI%I!Qdrm+C-p*)<bdF=h&8(o}S(|b_a0I>Z1REUBL|U
z-5wqu>#z3!dIb#d?O*xy#YNF%thg_}r&9-yClC}fNL^fny_tO>abq9L$vk?MoP?m@
zZKQDI$D(_hsDi=7uHs5~O`9M7B181MB`>E5Oh42wMK?nh;^7r71PQwsWfU6<5mI9<
z_dL4%v$@hG@B(e4hpXnUtu4gH{&8J8l&hpt^}mlzoVCz2fhk-2Z{*r_+@Qcb7sAb-
zZsnG@=|X#p-sK({R0|>o`D}k!*7hMtq9aw@l|8@XoH;K&l=dDW7_|{zqYo9lktKEy
zTa59xD^eACUo<8M$<jleZ>ZvfHD04jfl!a{sUVNT-bWt{bB|0hh3Q||FY4l4+1VMl
z<c<=#Lc}VEdVG6{#s_3_v+KQg$T`!dar3qr_v6x5r@0P|?4k#uPqZjX&F!-JUcAs>
z#h@l_jt}wqdGo$t8lp!}X>s;7<t?8q(d)ZeC#|-Yo5)d$>5H<FPsU%??uQ}~ER=%A
z))J4$6;=!6&w2z>Z=piHv0vC1Q-vj3_g>#8_#P8OrI}gS&m}KEJv4KCPgZXvyXrkn
zG+|08J!%N$|F+5Hjug=BfqF%z;tAhulz;$4Q4~+bc*Osz`VyD%n^Bhk5+$$RCbKzx
z@NM5eD0BL&nrhK9z6syk^J+7m!q)Cn)_7Nb`s`c*mx4i`7@@g(+q#U`eGTKEGq*%1
zK{7&0rfPqt{yX!h=v#;?<oclPLHzxSWm{;%OyV<b1}FK|aUR<g{|&^4QYC*e7j#8w
zdz;J)@$%vcN9R`lc6$}@bz{TmAJN-S0|QESEFP^FI!xTOIp`(@%-1yY$T8Hemo9aO
zSQ`7O8O)QAk)eO?EK3LsQ;%zb#w;EGDD|zGsBlC%sd1_=U?H1!3ad<|Sd2%roLQnX
z&vDZho_0X=*}(Aa9GwfrcTeX|6ZjNYk9>&8SZ>`~@Gldlc}^MGk5D0<yB5}vp<!F)
zBY}aU^eK0VTv6#$UoGMPL6xVarpBiDw|M>3l85MKw6vn4qB4$1n1%Io1L>dUEdPAP
z;bIanZNhP`GHIZiu>Ggl!72@451U;hZKjQIm;}=i_iwm;$d!mv^PWAEzy73+**|^I
zx;LNwWyKWU7{m7A*UPxSWK2v#d5uH&3)!Aro|I)>GB{o>spSecgjdTE7gFn<lMZ83
zBktT5bPgdw560eYbOrbjVymp~N68_wD=NIH)E1HG)SQ|#$jtR;C^~tZ8YXvzcNC)R
zp@F-fH_=E>8pccUh{D7QawYJ)Z@A^*N5PJyq)-s$KIGs#IWbY=S6{2eM7T&tZx$=_
z@tm}GgPG<4iK-#|SSL7g=Od!SDSdSGo{6^rg8FfI3`7FUnXT@D4t8v>_v<88cx8@B
zR|kR~Gk@#dY_*9#Gl~v}olIO@=6Ja)NKg<KQyCA1G23AxoBQ`AOB80<uT6%>1r3%X
zP}(l1?gI2UKFH)ABj-vzV<U!d;dFc(D^w$tiRN8qCdc@PpV0SV_jIprKgUO?FEqO4
zH+$NJnJ4*j(jo2~9B}x;5XDf&EXDPDk>>g_!d6>bpU&76-QC;!{$$=HBBKqpwmyiZ
z-Q;9Q*bxVXc_r_rpCxM-B7}DpoODQBM6AMzaENhgP;?WK0el-ib_opU1ffha&nX2`
zcH=0pXk$(A5hVffT}4U-*A5VoKS)Ah_;zs6SsNWqd8CoG5qMVIKueEfxOH@b$jLRo
z8Pv9SG+FO(t+qZ3vC5)&SoZ#?gTp*|WxN*B+wGmlao`#H@#Du;1##8wsh?NC`V}8>
zJJ@VI8~BJtFv0`d4)t-JdflC2KMYw4W(Eg2q@@>6lzu54f|%OZ&kur>I>3G+zR6Hz
zX&TBm6nIj2CyCK~kW-&%5Hn^p!pPk<V6PQ*e|`R66LgXA>UaD77wy<ldHo?OIvNWb
z8#XUU9#s8wZ`x#4UPov2@_dk<Ij6t*o$wdz+o;d+R2-2bBisyPD*gu7B|r84Y!Tiq
z(U?qoCu+_WQiGJZ=99EbL2m0fCrFGJKF}i>i`j(1^Ly{c8xuQ{d4ykhB5FK^s~CYr
zjWr(1!A#<7Ao#QKmRCuap%7^Ml;f#(dZi_r;*^(AT#mngia(=_efW_-1`kh=Lopfa
zPWa*}im=De&kjM&kKqc_1~$RSzdugf7Pa$b^K)|;jOS;Wq-6PF*3dGEouQ6_xb3U0
zFss60(2sToUpr~HD4RgqVeTyrTg(V#vbZaG{K{r$X9yaK8y}B@NbdYg()2=Tlk1J|
zzeo|kw_mk-DEjwM1P@(D)faexcj#OVNv*|;P!~69Qa72<e3y~%&uMmSX!k{9WwHzc
zJ%;mx7J{CH`I1C9ps68{;iHBcU)1~)T$?2Nvf`wrZc8+|L^`fF?pQy!aqlKVUdGLj
z)%l8AWD923QY1F+<s(0D2SB*!{ZCQ&zvLQAAwr0SOp;aN)>lky)6j=m=;-vW_EmG~
zYl7e3)}q3?9_=i)J*xL;yg;?iR2)bXiuqJA2H+IQAMk1jdzBmq-jHEoA5aJg8zAF!
zIO`f1PER#)37o)4ciijnJIXMN3vz`og^*atye&0z$Ivq9hWly{kjMwexz*Kf0C@DE
zobdI_JWE%W<xVQJJv|TMvLb^n04+T&$kB$O=_(hHD$G}q@`X&6j*N$XD_|bKsD8l}
zxB0I1iU%wEb5{Nzs((%oD)FHE&fdP{vUA07`URh|V$7D?Cu?<8UQnr_InztoK5nsS
zQ}91&p<Xv{*8FTkL&Cwr{B>W}G^*jZ77zE0kgmV)7##C$9sD*`(Tn96ib(fyU2nMN
zTz5)itU)rvgHOTdwn@>4DXe2=c2Ihsoj+7u&Y(AJ|9QV*HyUpa=EhAo!B8)5r*Ucl
zZEQUof=BFpHG~$dOayG&R(e*rB$(b|`mj&H+b6T2jzMz8YJ3yq9$9>;C^(MW{Bz!l
zH8CdUn7-P;l*siOb_rT0s{YTf`dWiU-Ucc;iJ-QIYKlhAik-Q5(d%l1m*e&mo@*|=
zhfu9*gVE9$(oGXHSC%64AW@d(rS}*)gN2m8-sg4v{?*4OB)WrzmK{pF%x56}FtRhP
z>8PWPE7_aK{t7d_%u~+3$y`2+&yGU#R|L(2-tDoxmv53YTBW&1piyG)aC17>2oIBp
zhddpvRBpS$(Vqa_^`)_o54w50$&Y21!s|~NDjq%l*mE`$u6KF<Rq>54`aiN5=d}e!
z8L@pYhtguxX6b|Mx2FefB^t#GtG;=7XhRUs+Z?#fTU5v|MQtD82O(WWZ#rTTD8nvR
zEz(YhQPPNt3Il#|ZeHG)1o&?c-jq=Za#UawfBUX{^i{3-Q*8=X;lc-jZ7x*3(T-*W
zFQ%QH-BmSuUnK4cvEbgP`q%KOe9T6@F>h~z#A29~{X`0R^@)zN=|}V~o9x7BH8?+1
z2Sus*`AL4sxqO>YmTpjCM_V$tQ(^R1<1^fn9UUF{lBT-Fs`?3KSXgGzy=+B6Wk`R^
z-l9RpB$9wio=RW(WRyade;n<H%V&0hMNFPGu?3Y$OsAy|V**sqqbtzDNSL}Soc*Qj
zwXY|;)^eE9$WFOiEjSoacUE&mY`jy^tQ4OA-g^;Cmlt%d`nJf5{rt_7Cx|rNYp2O^
z14EP%2dky?CBAclANr!AzYGgd_k0yJ7ppPW(|Z>FXP=!h_G#)~<#Rk7!@ZE`NFy^d
zv4VHunA24=Qw*~nULT+z2pi2xAV+<+CO^41;)tbfZ|MdJxu2AoC6?^9HwJH<V~O<G
z6kBo&McU2VrMYPl=(@EKhPb%gd7~vu`X1UH&79K9?-l&iq~$r1x>U3#Dgp9A8RAZ9
zf4|RKGuL~4?I_cIw3_eIE81ecUvzKUVx>ijXWN+GJyCtYRVS2##Ar}(jN(wn%gqhK
z%1@O(=h3D=-YtK5O~{;A%6sH#`%vPndAmX2iSt@d*cl<+mi9GkDF1QeA{B3w_i4%H
z{SpR`7!pP6v#!LDz}mFEMScCw=O0;=*wNdhEzJSHrKO4M09{2IAiw;*yup5abRF5R
zgvj852&ZkUN7U_j(bdUrgSxtZ>Wz{L=G1=bdp?>NPVlDi>^Wt)^|T>2J3Gt(J^Hmq
z%FSW4r}cHJ@S~6xewcdF7nPr;710Rm7+4TNijXsLs4(RN@GD3Z)>i;O1uE?Ws5REA
zZUXD^je%z5TUBpwFWgzPFKK(2xw*d`d>Nj7auLrhDVZr$nVvoezYck{-~MVZythGt
zfv3+6YE@3Du2EA`Q@2<T#(_hJ&vc?YTQqyZ+Ym@sJ7QjGsLeQ`y}gJ&4SJ}tk9M}D
zAGYP3N<~4A1&w!qTucWVV)PI6B;PpKziMnL6Wl8#i)paV-ora{+1=1Ghy+!gFD!;*
zC3Xrq45GFp5AuWVc%h<y@i_VU`vVsYwXb_)?dke}j3!q6=lfoXlM{6yNk+G^@K;hI
z564qKhUYQ&mZ1Yv@1NMG{20=Y_r${KAH3^e7sZZU-*E~ble_VaTf*q`CeD<OCq9AL
z&rfVoJ<WF$RRTmU+t_y>ZTxh@3VJDes;k6FBDRjG_<>JqCvVA0RH@R*{VWIS8jQNT
zLUpNxD0So=R0r1dd{65uW7R#MT@TcJNzSGDEUw}F<US_;36spjA$xU-%n>Ko;*7$Q
zmMC53HbpIqR@P2;3E?R;MkZ<QPhQ{k)=D&n;9Zj-!{SVi2(P&~cEoQz5PF@+aNWl0
z;X@w8$NJaD!Jk7B_{FH(m{!Cr14WLhleX4wh?4cIQV59){XjK|lYCi$Pfzt(Sah0B
zMqem8<KE%)jef@_tINH}O+b>@E6xA<n$KQp$K7HTH7x{#2OH+KyMZN%?CgBcSN#HU
z^vK@H7Yiqmj(%8KiF_uu`2N-Nm?!rHa5nh=#Z4+P<Kk9Sp<$n_hB1Yt@?ZOBjh-3X
zSrQfRPGxLG{K=X<AD4^P<6G@9p77uIuSj>cWj<5_W#zKi@@)IruOFF`^haE^M$fuI
z2m)c`@lT&#@D%gvzu1BA57O&k^#-v2K_{+(UHBAi^!^Yq`dz8Y??8XB0|0g*lLj0-
zQUpB{)5=Rl>^^7!B5La<MWn2O(y70{e+3l;9i|{wVm!clg+~(_5fQ<qo-qZDWplxz
zt@hp^T>&vAFP|CIoB_UnGzrSb&fm*y7r?g7{ua1=11H>?*abB^IEcALfQR?+bHg^%
zztiFF%Uw6y_*a0~L1D%xI0gW&7>gr~KpJxjPLN~JHmJd8dO+u5uA{TQvttTlL6YpB
zZxGa#0Rtysf4wsRIZ{$mPEVeLDC*%%DF}ZIM{XrqU$-~<m#XN2s7XrFn$=R(o#^T5
zfttSx!vN6Z3H)~~Xl9Lg>3m=v)an1}-=$lcf5)w10L!0Jvvejnp6&<Y@UpzzSnDS>
zQj;U^`8Of{;wH^EzLlwuz!`7&pgHb-DIFH_1h5Qs^fbuXx$^bvufX?(S?sv8Y*~P2
zh{RJxWn?mtQ+xL3UBG*{y`^H+m@x(b&g5||b8IxB7GhzM_dk>`Ne>T4`-avO_MlQc
z{N2O^2L>%thyuYm3xXJV`~zO*zt59%-fsH*JIq`Re%EPz$U@d>p~V?EWRh@)Esj&0
z$7EpO^OxZyXu4fqS;<#@@}iA>1+pQ?F*;;|{^-rnF2uS+LKFz>c7n>G5USU{_+u)j
z@uTf&OxEz611pM0EV%Dj`gyf!Qba{Xfpo>lUTX0`Ur0UA0V0J-7$rB0P~V=Xq@ubz
z_~N8IneH0AreS|zq8h9#<);XQ8KYFxaT{U%+9_1`p5{2n78X_B<xmXiQhD}M9FrAG
z2}61)8GKWMt_jZr;rlFbba3GAdITfg$w}3ZUwtQqxLcF?#4Z-?k6qUKq5^vY_HDs=
z28eHL8T|Mok|7^4{#8zHE(DF^f^EJV>|5~5ypjT$0sQy{DY{|f&-DWPBl~c0`KVoH
z$*^YIp0+U%Sl1|CcU4tY!L(Rn{K6R%LAF90I+~DZb)<K*vI?yR77*6|E+D4YQXZ~;
zpDr$p#rfqMlL(|J$fW`UpDwlCOKMf92YSGuQrN7WlknrcdmPW6HQh^P6RbKNdjTrq
z#-(;OzThycbBXT<@${pkw`J4?2Xdb9kk^ZxbA|D3nD)Zo-JbJz`3^$=G7ofdG`6!4
zd42uCJK_4@`}@@5uJo6g`+&t?@oMl7A_GAH03;PvI)Gt;&}bxJ(h!@N7@aF<)-nZR
zC{UM(JJ0WfpA=0xHt_P#BkP+EQ>%b6mQX^BM*;Z-0w*j{&a*rC5;8g+{-uztaIS8E
zMCkqGBQR@bZ&D~EQxDwmJKTV?5>ZL=7RpdZ=^M}kzR#2$ZKhj#QU>>{h>JIa%CH+`
z7ZBg~iHttn#r|E+*@XDY1%#x4c7*Xn&Un5aVt4K&&<6cp@&PSkRORX4!wK-2JOV*t
zHw5-|gdMnl0a-_uxSM9Q9*Gb<RmT0#6Jm*(Kq*-t$HnX}`qvKv=HQ^~sv;xS9&XO4
zAv1O+AwgA3*&!CPROO=4MgW}@friYd|G*=*1f5Z!T47G6EOLx}Vp=c&9TBv-CfaO;
z_r=2G7;?jI4%)CYiC8N+JM$L+uKPGEuc2jRWyKOD;7shbj^Xj*mE*qjE)kbjrsyVI
zQrD{<`}$R?qXMt;+R7lAgi*ph)N}1#SYzOFogKcIS`xsaPz6c@*?MMX^!bhxfb;^m
z7+)36^es(QObQFp0bv=7%OJAR<hgC79q(6H*{oQPjry|z%7br)Fby>9jb6!Af9>e}
zSFrkLY1EphJEVJKhG+ZQ$N72diu|n#(pQqt(9w(ahp7a~?H?HWyUEYqD)cmNdRbR4
z0RmUW*$ufN@NGlBP8cwpp!C9jx>nty_84S^Na|2*cO0a`2nmi-dRiKmVJJOlXn}na
zet<$Tmm+F<?<=8O!inh&`4?Oh7AZUrTE}}kAc5F_QBRG|kIc8cO*KzLO1i$k%(IC9
zLjW2KrV8YN(;>&tmam4`C?I093&YwVF$TR>n~WM)7Z&wHx3UW?lNK>%=Fo-$iLDo7
z*&5ahATX-4m5-iB_l8Q$7a6Ust)K@AZIGAG0j(4R&MqKu1wvbr7m59P<QlR79WOyr
zA>`@)lj<;3mlx)0bocRz;i}bmV!(hH@(imh8syTGZ-G<XDkrO1a37TDA{3>sW{>@Y
zjEty%0mLqGBMJeMleiBk6RBmuuepg<*{xJn@d&op*U|3e-SSD4gM-A2rb0|FAuJ`8
z6}Qsims07TT0`TusvoFqs>>#YkU4{Aq3MocmFF4bA<RL5&5Oyu+h<=SQVRhL{3@j|
zUBHwxO%BNX1PS|b>Vy8fQO9?Nc3bwK6fc=K+3gaGhgCZrj>^yce-~WeTrZhLimQ$5
zqfd`RIHp(-A82I3kq~Q$iGr7>^FJ>S{M(f*={raHS{MOmq|x6$bKMI3a;c<5!tj*#
z(}se@nSzOlco3-!WhhV;`xzaZ2;sIW*faWrNz{3<1qhX2NP?DcAGB^`)~sR6e`X3g
zeh*6R)rS1Iko)V{Y)+qsYDjaiQu=-6`1jG%6`;PL`ZZ++My;=}FT@*@fesdLge&V&
zG<>0vR&sXNVwqNpK_Q8p9iVC!rxG;7iG&~<O2Z!1OuWJq;-eIn8N<PKA~X4D_A966
zF&xILb`tU!beAtOR8x(fo2vWMQZ-Ttf;~Xr;{WIb#kzvt(E5fbLK<+e0|%$UqfOqK
zD%iVbzNKi%zTD-mg3Svo2HFR3^YO$}Vlz0d19Y!HLU*gTc8W6*cC*J<8JWtUsfNpo
z%QcuZp((l;s!mErU&A~>@(W75*X9lVgG3kz*#5&S2>e`XH)KI~hd^e)veeT}p`l08
z1_~(+T@V?>-tQsiJdS8<cUNQ9eF<{^570GA$XO6Ziv+`NV}Bm7Jj7GcO(V4??qS`B
zhuoWPr{Vv5aQ_7l));MyZ9P)Tn;mZ|Qu<8VDkTy!TNpm;9owm@#uv15IGNhH^49iK
z%#|p;6x2>CZZOk_oG+|E;!AjmTo;@rvNJe+S3OiQ0+erI;JNCaBO#rKNecdy{fHVn
zZ*T914|yf!RQU`lPeB1HpE`!f;ESlP{+Y_7%PBoqbT4IK-FBh04y+NOE~V-S;VFF2
z_}AhhxYN;G^>t7Ygx$j}AVB!s+ruMl0eSn4!L2LtGCDS+q^HshCN~=S6JrJh<pPmq
zn|B!~<K?#D-0bJ|PoPDX<M!xjbkJPWu1t0dxFTC}B7Soh0!YJb?eFg&MbP8w>Ix4G
ztJUMjH&t*yVPRo0N_m$;Fe)D6{PYwhP*qY1A`Y<TtjlCQ*8^7j)##~uHYr&NMHRE?
zsz3p)6sD5$^#iKaqFczqoI=d909DmE>wjv>FC6dwx!s9RJ}hj9D<-o6(tOap6g?`f
zyd-tNEB3B^8UlB2gOFYlS?P_`3MDeNg3$|r^^X_8-^LS=WYyi?ehxyFH!qi15VunC
zddl@K+x}~n=<e`tI~*98jv-bfB~?8<9ODhi&MgWLKP+PB5xuLaY0Pmw`9Yo0n67T|
z2r*--t!=7_8@cVx^xMJw6b~pa3ArU(k6|}YC@FUiYa1W0Gi{DzW5fTs<aMFCwi24r
zvH3OqN&0WSlPddw?O&T<uwU#n4g9L<0qv`FmJSmePs?6pupAgW3q)ijURhn-x7_u|
zG4;#-ER}O&i^ihWAlaE^dTy|@E3vetqX}ooD`;algWT2`Y6+S7x|ZNB4l5X7t5%BU
zZovuF-ymM?rORpLbWx`Ef+|j8;v|Ym%uMd=n+rHY=<;EF$;2l8!i7j*J&Zf+>qn6F
zf*<>)lo7$#J>k(wd)<B<P7LzVeo`d-Oa;;hd8`POxYFcItMeX}ewRk)$2jY+x|#IW
zni133ts2Coj`NLh&X^sd0>98Yfo(oc(OuRoMvEL_QG*IY%P;I4h_lRk1yUTCBYbdr
ze1`@HqZCHzZ?7Upm}WN62e_pRTKZ7Jt3z<W;~&lWI>LYkqYN|Ie0HD&$M;0K?Rl}}
zzKxUVZEu+SuPi7q#g4|D!nBka8>@|w;N-+wE)k#3Izjx{+`Jl@_V?Yt<1~NKF-nhY
zi61Hyx4wR3kiwdbpI1f8b+(-11qC7r2@h8hnMpV9C}U{Z7A!3$&8`fTlqG^;2F2g!
zD*h*ow-Zi1KhFjO&qPiclelKPOZLI`hv~7s{!H~vBytM?^y~KDh7)I9=d}?8hL2Nf
zT3V!83uB!@%B+!506_!@Z5}qX3`o3Tk-qqZA6CIuiI(lsw9xoIO<)Kl1Z=G3W0c=5
z>Pt`{+gs_%I{4DqljrhuC6fA5D_`)(qNLjoqg>y~T{UIhJPE5_0RaAPy5-%njyxHo
zSU9JqRBP>UtkBrkBAwXS$LttS$WU`x>B{v(q(p$6vg?I_t;nU_7#h~~dfREU%O!dE
zpmIxxutd9-YmoIJwFzg>In+=B+FUnoP@Mh%-33>E;B>9c-BUcgMl4jQ7c`n^BUKQ0
zk&+NNat=jQI1pbq@Nlt3#8_SwCb`RlVWu!jckljaLOEqQIRra_TP$713FjwJUh+>v
zX~c^Q2+(~gI~I<B(yK(K+slw1j4FfC6*UdIs)4pe(8ufDbYGR*FAMqi_bQ)&o1<x@
zgq(|u>o3@1^jq6;eu2_BQ3teMr5*o1S_~fI_sh4WFH0{%H63h(fTk#t#r8loJKU78
z3ea(Red13KQ7zT4pk$;J$}SFviT>|i`%jR5zK5X@r1|b3q9;O9<6-WqsJyj4!)6L(
z-b3hG(jl<yJlx=K(rSIhm)Ed%hW9|)Ua~vPIH}6&@~b!<UsLPssj1$x7P)}W#_^!W
z0n?}!{*vs~&dOqqN5{uSXVkP{fDiQ&7Z;y@VNZcy^Y8L!ND7xg0Epq*_O96Pzi5T2
zzJD+LYBJf6@BJ9yTIFV#cE0%qJFWzCGz>bXTbL0>(nT`P^TNn8Y7zzp!W~{|{tc4Q
zgC6iU20~+x6Ph8?=ta3@`u_y<kb4(p-nP-(iHW)S@@14vz{8Ut&z8~M=(G%gKWcXM
z1D%OOqg~+Mk}32(-LLkcm*gqKpv;vq&CfE)$}y9&Rq4vkmX$I8<C1aTZAEtbMt2gU
zKK^*5r{|a;IM&rGdG9$pAGCT!Wo8oX5pbj7%eTYd$irjM*67iOW#ja;Y7C(b`DDmx
z4ex87vA29)KH^Uq-~2ijo91|zFEq1l;b2yC0_#$?c=4`zW&fMv5AW5dcM@ItGFya2
zOgelI01(LV6aI&?9-jHs-yb0<_5qW#vbeZd-GfrV#2X4<c|Ver>-@T<mq2J6s1LS{
ziDvx^B23)Kn3xEQ0-{L71l9=Jb7bhiz`#|h+T2DcUh<u1m1^mNXMg_mF$TVp*Y;qd
z5QM2zh`<j<bk6`NS9o8r;(5l&tAugC`*_)rqK|+YJ!Jq(kA!M5{L;)w_&Gk&IPMg0
zb7C#hmK2LSvnSY^q53qv4Mol03^m-o`c@__&)&{7xhx<8PA%6ScUpvils-9ox}qyq
zKl<Qicnf$Edpv8k8cB&FZHO}j@_tN=jrGm;ba+zbhF!f$t2A#yO>6F+-ULJFZPN&G
zl~D@ne~8JA%(S#S>MgV?CEgFm9xR6U7C!bycL#(oN$?BVSh4ZdjzvcHssoABZ)R?O
z&`KJ91e6;A>cgFI_E9pXU|0e#-Z<|Pi}ad!QeOL}B0;Z9MoL-}Sryyt$i{0S*nJ+i
z$J@poz5rG?RZ?EeD4n~9_y15wzgKj>mX^Zhc$RL0FM1UvYr#GoI#}ntcmKmbq%(;>
z2&V!m!!l?|NfkU)&)36X`1SraCI6pM^?xAA966Ok)sl6#>VnrSILRcn|6Km|TU(o!
zAjCV_frql=Ba5x5iJvd^=f<~$xX-YNU)9n-#qj7=Stvbp>FJM|n8@1PTTY0YzVdUl
zJ)S_9I2*The9wwrq`?^~o->pK@4b%Q0#1FaG+)J2xz)@Of;$&Wwf$ng?y{f0|FR=`
zKt!%2_E28dsN#L9oo#CPL@0%rCNJy8*L38vp5KZr#E;P^#gN6mqLwpG)#Svmrj8lZ
z5mb2oTopo7**DO)kVmXUd#tAKi3(#=$$66N(a1M9?AV7HJ?ljlOxTB=pR$OarBFC3
zdscENQQzD4y)&@JUv~V*Q*_udl8ZfcKdkVcrc+zn*4?{QR>Z-j)}7*lgoFb0QhM#)
zWozGOS)Vp<8xIarM3PyZd7>9@Y^7Nd+}K2ahTH3T!9;@ETe%%_{`l288H;`9cxI@n
z2UU10=Fw}2rV@E#+xK!@CF3qke~;lntS80+YZbZtEUa=-6)c#ku_&@PS&l2w!J4f^
z9}MnO#f06y`@+tF!IkN?=+O`T+zfR|)JT7w6qI?bt-aK?ROXOGw3U^WeY}k^uf#UV
zqgygn`{I14nm1-MPA*%Q$j0DWl?t;sTl$1|MN7*mpv?gAgq-fboJf0bP|MDxq@<+X
z%WDx28)vzX>i;qPb=hfYj};9(J?kd;<|>2=Tzf(<x`K{utl49ul({sfAAL`yqS;>c
zaq_i4b`T)J*U(pyHj@Q2vU0px>1gne(5_W(uGcwaT>R_&N;3_PL{s?gL&H?)%T`uV
zSc;#XvDu@1*A)6IjU$bEB$>aDXZ9t~;V&)~_jCqmgnk5uU3;hd?~5CrMU?3D%VFbh
z`EL2oNIytqJZHJ%=JsJ@REjtWP4s0JHc`fE!_n8`_C?F!OqswI$~3GS5NvUBATp6#
zkuRlBMQ&^LwB5JX{f{?82Gl(SFH2tn4;bmZ=#V38emkU#g|(1drt`-Xi{sMi_gPG8
z(ELIm)SZl!-U9$?gU-j_rqK)~d^r65_mZ?+@j0kyHd09$E%a#6zi|J622G`xVgso>
zQbIysCb9?F^JPrCZJ&f~z#QRDq`WF8F5VxG>Hkhgh@We;FUp^H=SL+=OuJ9Kye^_e
zEnRx?*27fFx%WmyR9uE5f$dJ|@R}|r-G2AyWWhN{%e-=~`HMx|`L|c<2S-Q&H4nw;
z4PXQZG#433ty_aT9rjl*y8p?LVaWzGP5JZ4J2*H1q7fJrG?=sl)*)CH&(kZf0?J<3
zD~$v01WhQu0119n8v%|qcc)oAx$MuQC%s?59br~=e!Tr<d;1J##q!o#DN?np`uh6W
zica`6ml^&?)^mgB8x|-aJU|0?H<2E=i?Gl*LyE``o$dBh1s4Ioi%h$ExC&-F`~)2y
z(&?ML)5DtumpXEkcO&2h!UE*bNTmIF_LS`nr!*pIPCgN(aP<V*P3L9)H;vJZ5QLnJ
zE(UK+Nl|JdLq)E{{qxnZ<M1o$sjG`K+4C(Wn{uVOX>yhcUTTw5IvuqG3wBKZ-j`vH
zFT*>uVk5YCqM-SGO8xS3BZXg%s_IqNhToSvA}USRQ7>H<%$%oo-u_(V;aqsMgQuA<
z$gc1<trhGvPY{mHPU+$<S&5UWL@E(`Q#Y>lKx`@{hi0_}ttgYU5mW&%hB-PGGqdXV
zn;iaJlqB{iCTt9?)5Bh-9JR4wNIF(l-ZTpDO&6qKkanoj=WD;4B;8RP9Mnr?X)7tY
z8U79A+9*e6GEGgDWXjCRoU-;H(?9ZS`Txc}J>G}D%DCK2H;yDh68+oCc3!2qW!n61
za8xUAzA=s8UmFYyb-7zThg!EM!gu8zIM9yBK4+<q2wbm!YA|1`_)wP~2j#Y4ADQg<
z`-T&qNyA95bm!mK7REX{b)X%DqaG6#^@OC;f{BW1*!v+^Sgve^nfI5vf=qMTz^LwP
zS6YYu8h*&Z0qB|KmbujagAX4M+W<le+Z5-2x2ft^(1bfYG=$d?8yDC1XeaGb1NG|u
z=P;Uq&E&cD&pGKB%<|Dw<jf{4Ki$M0BrcEgaIp{cYAhXlJBEqH79;i#H?dB!`5RX7
zX+fc=yHc(%XvD2>aiP8vl#brftH*wPAo8%$j=3s7|7@mAVG5q2K*ag_pu&|#{jl0H
zT@}f5elqL5{oH5Q<bRSoR#y7OTmw+hgK*}=ZP5tv1{2d55C5&zFV`h8@Wc%H`m3rH
zl-Wcb3u3b|hEmi%ICgkqlf>AljZs9nWyL}cS3%VSEkf#!p!Ne$!uv9d)_v<idS%~i
zE$VZWl`SD+I83A$!NxE$Ge3%mD9&C!z4-A-;USVYg`OW{3!5NW!i-;{nMwt>M;F6L
zGhUk{+DcJf-D9pQ%eej+!Rs1x^n3SuRHV`B1`yt_?l^+OWYy*BzEHs+p%N~cI{J!_
zMB!n!ZW9OYeYkrxt<n9>z{7(BZ29|-^=9x(@?>3J3OFbobO2Ju<NPlv#CEOi^z=b)
z&)c_f1T9dj_zcr1;qm<2E1y0|va<F`btqWSc6x751AhDSbE8^h(d*a53{o?*vp33~
z&lQ%!$Td?P#0=ZiGGONq?L*pu&W34PYEk#Ig;F~JIhva9+z7sx-d9nH&Ch3Qte|PW
z0yJjb6#w@k;1Ls3-Ae80BpC!|a#x%P$<xcVn$|yOXmaU9_EO>V%~u3Ev=aNDWbRSp
z=55c6ir8*_O;2E`h!{h?$HNVMOU0i|LPc8NeM#WfpR@nEK)%5y=KUxSl^QdL@c95P
zekqnrcr2Yb?a~q<h-QB6W`}%Fwd)BD+*v64P_hk<Cdr^S5@-fqIyiJzzKKxJBiGZ>
z*;}(>epBG#gvh&XNvz0t%l?|s<MolZeC?jfCa$|{_Yp%8m&uY8*qF+ZU~B&M=P&|$
zf?VlQTpaJo50SM7bZqrxmdJZNg<~xoY_Fbfu-$zqWcin;Rr9NFVU##P|H*Ii^J!Y5
zoI5);FqS(_*TD$!M=E#2L4t-0u>q6KfW-v!!CL=w8L&%pr~X0PP3C=v;lGVI?Er@s
zEP>S)SqsgUXgvxwGLLWxgRBHX5hyLKSH4B@bv=Lo{PKz>p3}K;p9k3^FE8Y+lB+2W
zHgd=qxudLX9D^@%8)%RPIB}7d;4*-i638T41*7_>JNm`nf0tXH%WduL0bYI#rp$#r
zUwpI+NJeBnQ4B5v4d8pQ$pQY_xvWs`V{q@@Ju^MP6s0`Y2eLfc|8u%;{@>{avjW68
zK*8{JPmp~{i-^3x86EgjjK6Y!isd?X^7g()jrGKJb^JX25n?|Wi2BWm#0jJQ(uBl&
zZbSXLHb#a<PU-H-?G+Ynr0Ds{JttSNgi)#-{ro;l`na!_nd}UwtJANZdMrE`$dww5
zV~)OW?@e%2Lj`fazMJ*g<-I(=AgYPj{1k_Qz{WDb?8&}~i%7#sC<Jv4hvxlf4VSYi
zT+>yWsl^C)82V1*tTI$FdKf<sH2?jpBYzXo@u=b&>#viWaT5)q*WaQb9%j31=hu$1
zXqM_|zU-q8FPfVlNcMR-1WoOky`HixVugaVCDLZ@4PTGrY1{}NA|+C1pnfq_e9D!u
zN4G=|vnMstuTNOEe|jL~uT9L%;(Dj*<WGd!(i0+df-knz)NXVHI;%&wdM1NUNr0UP
zNA>pmSHnO{Dyux<m+t_#I+Kk5G3b^C%TiNQ<s+~Xm~LDAaD@Pi^0+L95j=eS7YvkV
zd6eYj`{{5u=jZ27Vkg|`PdE9&IPgmlwq>w;$G-h`RNXmfJqpaAnG%~V1fRhE9x<Rq
z%6g%`IzZs4hA!zfi27TsG^U}Up-*|o*p`L>OTA7yB!MoZjLQD*ojWJrXVnljDw<-s
znp{mhoU$x&d^H_XS`~4Dm6n;WR60BjMltGn!sQN-#9vHnoybo}xJB2hg(I?_=SUb8
z&OSWjcV-iHtj%GMvk|cYD;?xC=!U54U5$y~|EmtL)P3rOQq<GaGcfo#nRy2TTkU5M
zromu#Lhz~l=gE7?Pdoei@vS5gTCaHGlY|(>xS1-W!kxd2h8I3TjD*D(tb+Up{1g}p
z-Q>^mg^EA7&s`0QnW5?ZF=`7pdJ7B8VPtSm)#Ta@mbQQTc!(g#({nqHVw!OV#=gP5
ziKflb9IWsrhi3u%1(|34SvN2ROjRcd`fD@Zzl`v{n@U4FD8DtFc+VD`B_Ct2fr=2H
zMUi`NUPR5vhy_!?{9#XMUmu=Ii)JppxcFrP-5`S31J>ll#<w%&6qS4~wiA}JU;3xC
z@g*a6$W;@X+{ASlzN;Oc9Tji*W_<2lBSL2Mgd(nsTwbWx>_lKs?|xff_asHz@Y?$3
z<ylm+-12_D=$_yPXvaMAWzWP`Kx&w(X*Vh@-b}z2Lom8hBk%u~-1nlNI4gsCn~Ef>
zz*Kyq(P@zA=j{*3DoY_q5T^cJQj%tUQlg>bniD=>W@2WB`(vrqi?IsP`sDGqWSXz^
zpcOy#sGhfS`l`7dlO$mJl!j)St(Vp7$8w`ndVKs_P@V8?jG6@oUVvvXv&jCzgP#k{
z#L@<N$iyd4XdnVXhqmCb*#UO)09_3tTi^hwB|X`{;IlWu?E%oa=pqPPuIlbBLoOcy
z{R&{c#wr+lz;QbRR}9z_A)X&~xG@U!lN?ox@*z-z*JQ2wFb>GxAW*Cz>KubNh@E{P
zc#YJtl^HRLYY?uyJ1k-C@8>rGMY-Vq30(ob!Q30u^k>hIBv5x;2)G~&uk9eIj=d@`
z2QbJ70#AT=0P<*18V&I4B?y*-mk!A9F5u?SLSMalg-t|1(hc3=YtJ!v^JN0k*kMj>
zv4&MwBFrhh@9YHaZtV(~;{)9jFOzb$cXA}Xnw&o=Xp}Kzg8d$&pjc2bn&7IV^iErQ
z`|H=QZwLKJtzW;}zrVkaiBIY7vIvzYjpvZ#$v0kt2RuV$g3ph6`K#O!xUxr!^{w1G
zUS2WF5Qp&me`pTn1(qt(Twb0sHbT+(?L(pX;=o}d$8O7(Ylp@)av@(6ZL-RfJ@$r~
z1U|f0Teu6EdRemO#J1r&@s!(Id4Z1u_Ak!*z+X@>4F2;@e@B#|kB_3S?=@vPS9y7R
zoU4Gf5yC|v1Kr@6l$Eo*Ir!|QZ(EDs5k2Dkzy?pW!I7;qW*e%nTfKgP-BvB$st>e&
zu$ZIGuX2QTy1!goaI5b{O}U;OhC{ftD=$JC#^A_tR%@GhmW}GJu_5UP4+ulkpX<bZ
z7@=PsFmEaJ^LnDPcBiM>;|slLkq(%GNUqCvQAbzn^JPoah*V8EI44l`b*iONcb#$4
z9Wh&s0PYvw(z3pa!p8+*HT)YwS^$cR7_mP+{+Tz|<RYljVHHsud`TbpZHLd#c})R?
zP`GcdJ7+XO$hH;gyQqJ|F&Vn=Pj_OMDW7lJ0-Fl&3WQ|!mZ#MNp1B{{voUM5uX6vv
zP0STh{QA=^+>?j=>v&c%7w%bmi^ISP>LZ<NZ!_DSrzndNvjkkez@3eaf${O-;bDNL
z&Wc+&`o=|p%KYTz?p||QY51ai<;_D+W^@e}nXVe}-=JmzV??Q`T0+7H^mH;W1M%={
zcY%r*YYiHA(GFpMClroOBg8`I$BTyiA*|z0n2vqV;}IyMRENNwHMs>HJAd+9Xn|H7
zs?EWUZwhB-^!Snci;Ig;J}CNp=LS_mPEHQ69>;r2bp5;=YGcstDeoh31n^)aU2C7M
zy?t9t%Xrp}cwR_QxaNux%A%ulEp`Gdtt%n_WRji5XmM#Ecwq!D7goEemm(C0QdH}T
zpI3s<-@y9T-Q7Jw7fs>O%60@6h_!J@7g|%Kmj&A_;G9vBk)fZ+F@CS>=Oj%~Oe>#m
z08a~1`f@=8STBLaiNF5xPeDNekX46Pur$Iy{ZO4=!aY#&zpwm%NkeaN%*Mxf)l_^>
z%$#Pi^`Nz$=J<2lY^ij)$tNVCLiav#205d}>1vn@#t!<o@LYo`u}TxW(D=P2zE<~_
zQ^Ui)Tk0>L(<uWtvE;)+(nLTc7`a$wA<&lr;T`c*YHn(*Ostme1{jT`!Q0Q#*`A=g
zxqY@JU(g79FtBlbQ2u@7KFw(n4*%DqKff?TIqa10QXvDhMKX^hMeAZElvWE$gt;>F
zZyDljl0NtsOtyzMGO9}6;Fj-r{+P$>FDa3i4%<b&P0TYBoCOt4jOQTbR*JrfE$|{^
z<UXG5yZq{vmRi)Whv-cHCo|gk`xFZ!Ydy%L1Ulu7ng>a^0X4V9W)$RWAj4j+-8+4L
z7&}0H25kikOZApY3P}pLNuaFvh<acET`5&!)-A(shi7@=uFDrZM1%q>6E{=7uJup5
zF(HxD)BdOV#Ck{H?r&c|`+y-vCjB(Uqr?-tMZrWN>BD1Tw}{Bh*P>r<1)g37YfR?f
zp6t-g<a{WW1y{O|X_LD7ze?2?jo=SQXAAiC{nuRgUkX-0DABBeqM7tDKv3vmA^L5m
zn4Pg+^qNC#4#$dF*E^Iu3=~f&85rIyc4LNuXZ(uFe#YYA{5C*P_&K`?pK*0%)3vDu
zu$x}7;c|7qG?PJy^?j~7AFYRk-!KoPMV=7>KD(bWEg%LHy|uru4<u%Ih@+QRKJ5)y
zQ(_2c4$r>k_y60!fEAKu_x8WD$(f};6U`r4>B9%nuf|iauZh2;Yy&*-#xDQtRQGy%
zq#GgjLF!_)1*?iR9Xmhb6jVg)y=!Qp2fXhKb|A9^4osRJ-0Rs=j~)VH_KneKxkMuy
z<Scyc0;LG}KLPHr^8dQS_;|Uwu`$~pz1^8&F_c-pd<B?`;ap&7$o^^|w-{dqKi6H8
z7=k$T$t0$9exrhBtz!E9*WKOon4igMO(dL+x`J}DZre|O93JZ0$1$_F--6#IQx~n7
z=s^P}CZ@c+y!y{j+n8$rr!196W7k1Spoq;-;PLyrAjE(o3ht;zNCuLYmImw_Bkva+
z^1o)#QVpjoo!=Pkd6)%4xB<>^61^l^cre5S6?}nb?NkaM;W}Hc4{t3)6=7Af6$NnK
z$7W6(zIAoOu4_`B(9B3#R>{=Th>hZpw0UV<$|y@rM6?G1xn&aZBHAMPNsKaaego3H
z@ng?#E9(aJ9QG66j?Cd((9GoRZ-5ul!_%`5*R1!4<pfHA|Keo94PG!BDykSlw9w9u
zj{WO<r0#hc8KsDQm>sM<kv$MahBzHgprc}Bgbf5$4)JFWe}(`q7p9w3JPd8%R=Gls
zA;Uudf1;{qgF3-~1J?jX)6)8NN<qK8TvAih7j&*J6QEjc?CF!9*KOW0FXyYO>gekF
z=?NL-x!#z^_H*z44#y8U0M8T_#=&~_X}Ii+jeF#Ip6jh)J0d9OU4{}MiA6?EPR=cW
ztgPFd12o~vZiXxS3qH>8$J^6(0C4nBTN;IqF^0mBu>1Xc8)%gv$G)LK%vvD{;a<i+
zb<Nia-fU2!t@t2(p-PB(5fY|A*2w(0zfOp%f$cLjA9R+J$5B;xayvW*tvfs)-#$0)
zl-_?;SxqN|xe7~j+^_NE*RUiL5F;$%4d9Jt8N@PIR#vt)d;>hV!ie6LRIR0trOj~U
z_oIVpkQE$UrSz9^esi_F3o8M}AGBGC2k<k7G65o_1e7du_OSRq*EQNB3H=S*wfkBh
z%sgI~{3#s#RCe%7x?Y?f)YjGtWffd~-Q~RhH8z91NPTc{x@kUJTumtI@KAKQ<E)Q#
zo%i_E<4JS#vGWNG#B<eZ_*gDB9crX0HVfLu`Z=IK@u`A<B1mLgXmI@U^C$6yW}Y-n
zAv)(Sl3HxDJ|*P?^gsg|cmyueBcXfJGBOYvh~pLR$IOA^*+Xb$-`oZ13~<Sq7qMUV
zWjgn>TZp(lN0P(Ua&vRxZpu$iMijtwNKO<}A^#iT$H1cr@tz~-M*%6msMnS{9iqg6
zKQbW91@&v?-(PVAfqldnIMxP6p+xWJO7}mAx*O?+Ne{%xn7V6^CCKC&8;4ZaAMb%O
za_!;Y&q9%c+}s5Y&hbe}#Ds(#M<9|xCCMPNC$@lmf(%c_a8SpJ1XmG+9tf8{C0krt
zf}MGHYpZ1Ou-F2a=&PS5h`y$$r!5-(6Pc$csr~;;6}%7JlrYx}74XOJ9e6jmsK6Z$
zJzKdj^@i)O@1lbm;vzdQkEjNTBAJ8VlZZ)n+&E<vqc6-fqYZ-1TUsP)LnR@~4E5n*
zqcBS-139_gU`me=g*#3{#3nhm7hK}$1oDe;fubJ4#|R_!rcjf7P^y~xNPTH3PJPrp
zVXg<ghw%1VOXipfcDLgkVtgrk4<bNMFE9A8-?YF_FJdIr$xf|~;+cNtg$~C883jcP
z(K^Mg`{{4hx<;7{BO@bMZTX8TdwS$}Sy=->%Hit^DNJZ@MG&0bk9H^>G!)9Q6jsuG
zoQn1!MJ-Dv;3hO#r7|=*PGn?IYg+liPKRGo`k$c1yZ;r=u2j=c5L#GnoOp@y^PL-y
zu0%ha&J)+CJe$ejs>ra06=LCPg$SQW4H=}GuoyGuR^#uY2-`gL(Z%3>Uzrk%vwr0C
zmeXrc#p(&`H3tUWGiS01DL$(XjlgFEe^%y_M^=^@cfwO~SnE#bq_PrH^=`^i@rL9*
zc~o#USC^Hm{}+mSTTxRZ&Gq^RaQEZmI%mV)3pgKnd3h%%Ua-D?olZ&K!S3nk7<ETC
zEzMx;<%bu>LaqXWf|FysZ+=AeR~J1eElb_l(0S8T`7nS!ZbQ$~*+*UWXCHf*L5~d$
zO)=%$in*`)N_K!1J$+hNR7CnY)zigB&vbB5hYzA$U>&1PsLoGPq@bVxHLsm64X2-f
zr|gXzH$c|!o?GctxCs}blMc4%)t?wLsIdMgNvT16j*abm!AFQsNlhsrnj`IqWOHGY
zp-T4p^|1B=3l#ypt?(29f#FcjK8{MOU%dygBOQMJmX>4=MRH?+a_8m!KdRm`EX%ZO
z8@}kqqES$hZs`tD8kFu1=|-eex<e$SJEgk>6;Mh#B&ACUX}-nW@AKpH*UUERz{PnU
z$69-iSOsGuMKJc~^7jp}9Q<L&BZ;|Qj!v3z^Cgf4pHVXJtADUd3VFyOvTP#M2_!Db
z%;>rZA-q>HIrDRGU#i=DoWVA5b5;{Xav9~RoYD{`U?|<Yr9!#Xvnrn&fkU+ZZ`W(_
zs9k*Q57wRgU+9^bT7V!G6@}i(TM#F_e{`e^A`p-~1BN&NIMvDiBJ6<0xTTvsrStou
zG`6qWR{o97`!RSdXx<!DDr33-7YzsC=zQBLK;cSCGOl~vM_ccGmICvtbQ2Iz90qUx
z1WF_lQWB;2Hxc^|ohjYEw6rR4k}QAOu$^N7hHMk~wB;8$nO5&kG9UK$C8E9ABPz&C
zjGGy3G=I(g-fqs)*|Be`esCowv-q|Fdhp<foOaJf%rIfc?$V!^Od(w^|8}L{DBCEu
zgaJjE<se8zc};{wqW{(-)$GT}e4DQ4wRdloDY`*J)p)5m(C^OZ#Kb=$NY5G??w$uP
z%jG+|M_on@jXx#H<<-=zbC3a6H9H%Q5!b&f(nIwiPks6n4#7vDI`+Kn@j1Vszz!}W
zP_jWnE_W{|HGbS!LgZ+aVQAPW(X%X3k&p;{|6U!mP&=W-&$En%C0)EXA1gq?yRGeR
zD%Vk7HZP0vI1yRoi|=eCxZ_FoJAM8A=hxfm!RmyXP4(Boc3xIqTLVBo7ko~~cQS99
z`50A~PM};ry*keQcr^s8$2SZUouJzPA$FKArp$|82F=(fQcAsR5P^8Ry<ngY&XM~=
zu1yYKisp-Z7>Zrp{xz3a?yYU>Hgl3iz7_J!24g4OX?K3zmxEB%Digdm^sLTAq?6Mz
zixH8(0qj5id=zRL&Pl|=x+^8<KFVbp7RWAI<nmJ4fY<579xd>DyR-P}_gBnXxpjOp
zp|4)OvVryqUa#q);o)cIh;L8+%+yDw`B!x?+u5P4Z>{DVqmZGwILYK~sxdT+84YVM
zu!i)sXVQ~<KDWI8imoX&wRvWS8Y3{cK9V%&@W5&j^XsE>^Yw?)hciP%u*;_4VFq?e
z>F0*BZyRHsKS48gA|mJQGQ08<oiwWpj9XnHdCxj=a$bL11K0MR?@~yvyBsS+^=GlW
zD-Sz)#r;pJi;A>Mb~+iVv|F{#XzUdfFzB^cU(;88mNNP?aq;TWU1IzvIE$hRSj$1w
z+u@(oEI;^HXcrU}u0MJ6^s(=LYF==t)b8bJe0R}$MVr#(Oi599TW96k+0k*W71t1#
zMO7>@dOTB7rD9|?<=qkNu&-b04k~^VLU|pEq~upP>g$#gK7NFuR{_ZU@5$`Y8=XXa
z4e!}_x$f51mX+Sw^Q6-Ea;z<nmZNYmF(FHG6v8WS?nyv@uc^wSHD{|qcgqV26dJEB
z5q{yy`EreJf0jBjCJB+L%m+Vufm)(W&B|-{J!Tjrk>OxrfgYcvp=D{J2@ECj>HJ(A
z9Lf<E2QSH>i&5LI^$6rZ5KD=@PHh6|fdK)ZgJ~L@n<vJ{!w4=eFTp(5t8BXv0hR64
zvg3BeVz2E@5#AKTRmCdBfB*gs3&SQGEhv|o%IL^CJy5l`(EFHxELvs#!K^EAH3B!s
zWk_$sbU2X_QipONE_6U#|8{@KoiK8q>2vP!%HB4wvq52HoyHNG0l@T0xaGtq&`gR;
zw`Z%K<J6*~)wZ46E`N))ui~^Lnw62`gwlHP1=;sn{eApmQ|JE#yu7qe-Ur-vv#>BX
zH6_07eOTzn<jeS-1_GoAX6h`k8jXWlI8{<oZETb&{i1R?tTleV*JltEI>N%*NnYD6
z#}Ftf5g5#{dvrNFiy!CzryI_>&*;b|X09E9Zio}wEh<S|2}Nm(uXS8joE5F(l_sHQ
z<IGeK!~Pf=+R!S>B+=5;;iQ;isA0rOhb8#g-}l~4OGvM;_oI9H7$NA89j9^rZ;LNV
zS}hUxmXWrBLBAi$**#iZIH8cF1i8kfmQEPhDhVGG=2Qp^zr!JZa;~fEvaPNzyC<vP
zHY?Lv<kf|NY7oJ~RH}+w4zFI&R51PqJ+XJ@7jkl&L6?d$=m)K6{{;)`?y=2sy1)Y+
zl_U~5>Veb(?}H!cf&t+TTKJUX#uUHuQwpsjzJKS0&?V2c^cTd$575{@3qFvcq@;BJ
z1bAL+epFRz>dZ~x80b`Ksi{rP%_qjju-a?t>-V6d6F}*|Yb>U%rS6M(nlLYbo%i?e
z--IM2n2qVnAI3(E9<0A-gg*sS^o7@E1Iw*II5S^RyimlMvO->f>@If?k83JKsanaS
zF%bMlQV5Yr5T8tEfZPVyDRBJcz)l){Y5Oxyg#>2eAW#Ht&ovXHLyGjOVJ+lcLOA3j
zcJ@1p_~hJ7f`U2`DC(-J5X>C8KPY|zneuVeTRbBVIUAlLM4}0>VXW_lwCmTru&5T7
zlw|B-EQf`aOUI{}52_IoN)sR{+sqasg?0N@CT?yuWAZr|aj=au;&~s7DnARB37L5l
zMk;MHoqM^2^W1v-p5VKG!l$`dDk!~~ZF9{o`{X7^r)yyrKT~pYW_(%p9XpY^48EXS
zJOl1!2M9O)w|Q4T6;r=NDqrmfgeeeb;-n%)h7*^3qTKZt|Aa~gHxT$Keyos_P92X5
z-%T<=A&sP*m!n^>r27|eD<$(adl^}P-?ROQQZP`tYupJtKc7!cVi{ZD|ArS4{Ci|1
z0w3QpEnt4X_k53McQOm@qN-XTiFE?8Vqvipc(KWd)<R4;rVu6iH<`U}@pGd6a*;Cg
z)`YAG#?TI_Pzu#qN(u|&B$9`0duJ@|vE)^4np))N<>i@)iV4wewu?ZlAE`W6?4gID
zU7aBz+$V2$bqED<RoX9IsoWYZ6VWlCMK`iQv3}io?$f7{3UnNz!or+`HSJ(L<x-8T
z@{;%@#+h1K$%W+PV|eL#Gn@;ZQ?F287m0N(9Dg!Sr1Y7U2$kx-?>n&B<dSkr#2R^-
zQgHoy-_wEQtjDYkbG_2Vk|*ui+41hQ4;IplQaCJaZS^3?*B=e1udmOYI*BC}7VqnG
zpX=y>b-)WY{3~=C<M2N<oNRC@B(psN_vPs>nr78iFIO_&6bMrRZGQ7_SNAp;nfnzK
z6sW1G0Z>4hG2qMGO;p$WAmZblx1lVgwz<AO^qTVrQB}&N74?nomQgK)=fXq&XBNb4
zB=;Imylw%26Iv|}4i5Z!A%(jU@C<Su{F(0NTd*OyxB_R<5!Vh_0jkyO*ONfyfz<$A
zy6t?o8RjN*UsZ-N@XA5%^A*%eDTPf>Pv7KF<NTmY)6vk7GF)C>J|CdW@*M)lB88BQ
zM9MT#y!Bl-FE1f`g#}p7aS*#)KSGF}bqW>%>h7{T%SY!98cG4z?ZT3h<qzDh+Zy=T
zOTSsIw^vuc&~J^J{&!d#SllMlA@$9WJVdPD3z?6IkB>k2`&S~kL&-?3O#G3}>Qtp#
zlTZ7>j9sGBYN3owZtnE-6UztuHS{#Ay_IEonN=G<Q;`hVb*xi_%dXdR@)ry&UQWoM
zKf5()+&hAV#EgpWmXg|R_(+Q6GllT><4(8$Yio7uZAm4gRNUP+{S><>`HbBD&AsqP
z>UDJu!y~V$t({BbcYAp&=vOP_6k;x2*rvm6{mvPf^hNLZns)^#?d*8<4M}!TIIk^a
z`ggkLQK*vd<05WuQkfJ4Ti#5gGDe&D2LFTKpi`Ze8~6CPDf*I)M1PnXMc7ZT3z86S
z3p+T)zrO!&FOgp<ox_YXnzEwh?N6ycz2ML%%bO_nGyg`}&y_;KFAhg|WaM4MGO2y6
zOm0he(AW>NXUQGy!NC+F_t@zQ3EjQ`9m&(&u&%;Tv=v0X*E&(-(=II1j^eCeBNbUM
zeOrzi_dTk2Dwix;Mm*Xi7I}qMUU|hH1Jib3VS4%o&#}Qu$Q>CwyP0J{f;7)yT#J>e
zJ2;^z7o%jTwo@XxeFola%@drB{7;oqp5nzAr@FBxKenDL?r|$A!T=%Vq0x;mr6~ZM
zJfL|F^a~FUKXSi>jdI>?8Sg5r%@|Bjy1lRyAGSiHuR9iJG9KwS?9ej3R(@XI<e9#S
z3F7>qyWr~t<sl0Cv$%`j3N=wvGaf)S1H9W}o&`swnu>}>FbCGtKsIoLs3|K`McG>k
z@bmk3Lozm`!|^&Sp`J`zouS)lX_4KwqIf9u_V1I>JqTHoxQ0|J%p$cCFhYaH<URpG
z_W(H5@EcNY-DMXP^z06~1IQQwM#N3tHS9VtBWD#C_jQ%iE*XlS3A#SCR8&+1_7kp#
zv(wY5v@&LIcUfuaPHPTCs-octWEMlta;G;qEa4^p!>0DC0Nh58S$x1O6gu-m1mhbF
zBT1#56aVkbe=UKA_^Ah(FR825dn%m!tD{9k-y)eA`i`du*mnNS%Tjf)DOOlW5LgCL
zpjB&17j2^x(8^m53?$Lzm6Tw(o?STg)LL<W(dx9L+uEuiWM@}=;hWW`C}Q*XnA<l6
zPQ+*8)BODIXoz@v35=fBYw!4I#c<4w<VpN6yP5o+WQXO1jwhAaaboWfPNu&HeSdMH
zX-O01VueSMQpr<zCmp4IyyFX(d#-d}u5=^9fDS*m`)<j<Ja8-$2eWGDqi=Tm@~taq
zN`VX=?;&c$@-j7TJPpPEKOZH_M}P3a1k$WT-?0eE%JsIFsKL2>-kt}sROtO0DySPC
z?we?*^KCZwg?0RbwhbVxnrxviGc%qHhN$qjmq=_RgI6tYiv`~B+cOz1oMu#=HWt>h
zwyPL~emk6PBx3l};YZ7jsflb~(YuC#u&!CikrKO@9HvBo%{1EfajRjF_%LJQ`Z2@;
zevV|i%F6+vwf;!Gt)=BA*Bn8bi<49Q`<U1xCCeD{DmbM<`gjSs<n;hB!L-ZI&)+a%
zumGly&+)gHf%a&8R+jT&l>!33h_%)M{kptldd`UMgZv?haWa+*6EX)X9QUg2-aV^~
z$M7fheWdqLkd`*s2Y^&ZNKA#36Ljc?dd9|7SW#qLn*cuJ;o%9AF6fz?uK`cv1=+k$
zv~_jM#w_Uv^soLB515&nPTe2f;c9jB1gF_e@xs&;#HumS(@Pip#AEx>O#_e4O@2D~
z;Fb&tNlCGK;}>A!zV&MPg_A!81;yWz`!^%Tkr5XrUO8^ZU=D!oKj&B(8B0n^!b3vX
z29ax33=O|#Jv)meueE;9TJKk(hUA`?aoVh2uJTOM-vTMCCp@pH#s0m^%X^7@0#=5@
z2?RxqC`-uY9ps*-4@NnM-Yf+oabn|nJtc8lkLesxz%u;OUDLUusi{PiMAh+f++&Z+
z{jHE8tsKPSk(J0PTw(dD7VrM<9~&|-%Rju#wcX&T8;Mg_FF(ZT(A8C{yfV4xJD3)W
zAn`zayFw&GG<8YawVsiRry|jlAnGJUi&4-!jiREsW_YG&=Uhmz^0kodt*yx$x93WT
zGbCudJ`t(=AejDkt+~2lcYbQkZyK`n=<3oExz_n)MI03u*YxI=lv=s|bvP0U`TnoM
zSJ;1lGufZ7$CjO<&`{IJa5Vkfj(wNlA%9!gC=hk=$zul003TEX3-?FYaTCWoO%wWd
znJ?kH6FSD|FhWhX<<Xtg`$_QnY!>$D9Fe(mDhkjyY8}#p4PoQk4deB?#zCwv?x><%
z%=Vk8vTeD#-rL{6C8Pf|@*?N4y_kpKaKPtQS688igGH;RFgLfGKgEKE?S$AU3uG@y
zdfmUHz(BweVI$ndjO%h^Cp$bisJ;-AEmPA*Vsk*U?m9@gt(>s<9k9oHcja!}DuCv`
zwKd?F#n%P~8*&q%Jm$9VT{Lv`tJ6Ur^wl5zFEyp}lot1aGDky2?U)2wnUvd_Bs%5F
zt!;t`0S~yc!^&d=3SNvoAk}0KbYHz<hxAZG`w9ye=;<M@)M+_<1ey}fD!q{ZZQO4q
zsIXD=+dMxUH#am)x_jm7XLod{h0rmT;$hM=Yz8I>3OfJzQ5XBF#a4y@Ie<O$snqQJ
znvJ8AfE4Ko(pn~!q~uQabIU?pe*YpevRo!9lfHyiYS~dVG^o27+1BZrZJ)=geeqmc
zfBersyP$bqe2!G2XS+xHL)S+Ykp>i<GO_|F$hmJIs-~g;YXO=YI@6<_&%t@`Bd0n9
z*_uUey;6E;|4UF+^8;!}2On;uT?Ux1aeS{=;`5Ea;*u!t4)M~b+N)sHeC?@43f4ew
z7IqtwX1TgzUYI>SU`8-w%J;eb&56zxvokWh$d{iE!WrY^`*L}H^sp5ne*dXO++DV)
zkk=*UyG;%`=?}taypzB6Z#{gI7Qxs(ZA|il>-UOt$Ij<>^y}Dnak%mEY|wngWO$Du
zx90)<5J4`gX|I1eA>-&MfrLCBKc59VB;ccb`Bf)BO&d$fq4F3vQI_yoZUWk4YROOD
zwen-5&Yh>D1`ZCiorU<{zufJLC&*WVmWm@tI$+VY3>r!7v%TMSha~`RfiBuy#i)mW
z>gO5$h+Noxd{v>s0KVnLg$2=DRTGE)_jNU5G+I!TlajcNzu>ypWOI<+zb~gAH_#O1
zQf1OANcR0*1o=mDh%b1x|K$6J*x2E*F*Lch<7ul|quJ!+<72f^OEo>cUtl<G|1<;u
zy7fB(e#ez>5bV6D@rPAY9|}MquXROscR%;^nHV=xLt)`J+z!AZMK1O~gS_0=-tj&x
z^8nYUrlf$Yd<DipF&Qx@dK$&pWoV}00h2RO+;RCoK2Y7Je<;7D@$w}Cf^%sgD+fbw
z=T@@EIbt8&S>``dVB2y`v35Yk{qpITAO;>Mi#y$e>yY^q-mc|cAW)Vhg#aRg(@>oA
zztfOa0}oGkpOERzLH?cBI?ZZ~=;}7uO2}yS*2DR^QWY)bT6xk6w)Lm34iy$`2cz_$
z-AVcOjXM+n1@g#3-jCGU{o;`4{-`8EWNnFU-CMu&KtYA|w#%&f&6bXib5Kw^O{OX@
zzhz%PHQT$A_G`VP)l|Iwk?$WE5Vzb84y^7l@=Z*<!9c6^zIq#<nyQcmnM&({BXHA3
zMskNq)MM|XlTCe_d%b-}|M|Om9^28Xg8_lat#J!SCom{kww=i!O{l867_#w#<W$?S
z>Q3cFzdjkQTnrOZd+!~#eBR?@OSfCyd84p&RdNfr*&JE^=m}?zrjTCF(Dy0xB}6j*
zcCjM;Ip$Gh=2Jcv?R;se*R;e&UI&qPL-L$gLZsQ*cTk1BrV-xZgw^lxRd3%}(5V#l
zI<idd9CF&#!NKpoCA#N_;%<q()ao^ZdD!)f_nxej<*B0!KpK|CvAI(BeS>Qpkj(;0
zAv6g`z~`#b=#P;_6wk+QTz1hpbsdH@>P~p~?0NZi=Son#_`Fv_C~Tv{tqNWgiYYCF
z9<iJUe+i?U@@Ln=2yIS?Le%}N6SiupwDL{3kvA+sgBDKZ><UZH`sSuP)H=af1{Wz9
zv-Ez(48zI-GNI)7c;h;Gz@(%Drecsj!JRJbvZ?a?IhquW-Vy-r==7(=<X6z~8c@WI
zA>JvttCJIiex*bC7O4pWzKyb&UdH=?LRBIPEUyR$G06}fdivh4UxPjQ93d36xVRXg
zElnhQUEK%VK#)4ZSt*F;4IKg~9ZN3y0s;bXRIYmgd$PE=Xitv>;-KeC;48N0x<$%i
z@sIGe5cJ$bSV+f#Z~c!qzKbTJ?w$T<b}fItfbeIM_C4Sk*Eb!~fS<zfh!tpVW(LR=
zP)|$J9}Qq5gi{*}8~g5--K(3<C{R&PIhWp`puJ@G@x%idQTFW~@1q#`oqaS7IO~v-
zy44^r$Jtfr^*OnIX-R>^`qKT!co{$2>YrslWE4j~Kju_!>7SK;8GU^$2H-UiBB4R<
zD1l9*M6HMqv-%DqLAOZ-&v$2@wd??lq+f?~&>Juh7U*6^(gA!RI(l(>_Y&FVA^Wg;
z`RMj^9!gn{@P67y+uYap1)W~F|7oar+wn0v8mR^y+0SPrYkLK`*pTB8KkV7w;$j&9
zUeb_h;YICjoDo8TTgJy{v9qIkf;z~_DRtH9i2LsJk#zEHluXSkL}-71b9VN$lwl7x
z*Vj)mbiP7)=r6H8YZ`UdyG2NRV|keAa$shW!A4D;{^(KJOubd_dxPY#iX>*`XR8<I
zIiIzAVoI9@HtLo4VfB}Kd+E-+FC8isHu8$qx1Luafx}#DAH}rMTQ_WJvp67lZ9r9Q
z;&U*g*`S(3OXJkEpApKNPv&3onTt9<sgPpO6Ne};ztrS){b&1tD}-7yibO}JvOUt^
z1WqD6S4Y*{Jn8-KN$HnA&12l<g~Z)s4xM|ncb#)KPS8<NVW9jvI9O3rqf%O_rKYyJ
zzAhzMx7WW9$L@Wyns>OjTY>UwZ}+jWDNDBLPEX9pxMdC#VW)NGGH5D#O6PoZjLMHd
zn+DKpFAGq4ZC>CrI|p>jBt1SJ#a_G)NINuVEZh)B_%x_FITJK;eTCqC8Tt_TTLWI2
zCiw5b6n7=<J3+Yj9WY}z0?G>TuF~y~3_(Fb1ZpK?{^O7rgYy07DxcHdFQFL1KqA{u
z_=YLj$mH=jFZ{;=Apkbv3kik%MZd!&c`6oqA*HaV8@wF&_%|`X>>hE4kO=ay!WWhv
zCQVkgfT4vx#6@ahUf$YLkD4zkzxx;Y%ux>8!3W8gZ4PBoleh=7GZo3BPIm3Kp&y%s
z-neFZ7#aq*`}Ch3kuA&`tPgK_6qhtF*efbteiY(wXtgWVf75KA1(Lg2tIanf>@d>H
z2Cp)|c+Mn{=}fu7{?qSW@DB{rUiV(uGBw{zFR?7M2GZy6g$?VP2%ndP2=F|9EY5Un
z%VG72s)}fnyZ645r;Svu*~c|&?&b+2o$31%jyls%e_lPYCgDxai+${67@^rk5u3o4
zzx9<*WxL}5*1H#P2~lodJohZJKy-EVg?Wk0@C^O%fB^S_`-v^RGaR<ft{dxK4+IM-
zxnvq$O1POykEUzu0HQS?tdn>llVSUjXOO?IqRnAWi+S<|B|CJ1!S={a{4VR+hlGR`
zXy#H<dMf%=C8^ZMrL`OH1LFDVRc*K1|L(Kw|J`Tpp;tQscdI_?-=cJVAYhivp7Zw1
z*`l$uu(0lm=s7tjAUzC;GO70nJme@PhhKA!)4~_rcxX2na|5}+PbZ+_KZHDqdMiUg
zNN8j&hhG5W%s&B+6m;e5CwQ8QiqXmO)?Q1LFTK6J4Gb3G)@8m0*6QakUcg`6AK*1M
zHfG93g09itr<4p^Or9OZh5PZ0b4aqOkUfjqovDrW_1AWG^=YYdR%fS!o0)F44K+2+
z3x__j_Ee1qzI^iO3TqIsotkR(F_-z~E4rrn@AEYH@B5_Qq6Z9@^r4EL-tO*h8<5!W
zs9tI5pgJ=H<lNui|93_N7Ai24V`5?5(HA5Wy$yXnKY>FpRh*1_k@HB?;Cw=h`IZhY
zCMK`bYJ{7gCT6LS%O*i19RYTDr3e<XqP#pnKwvyM@5abBaC_|ppfLDzp^^gMd`4bB
z!}x1wry=0%)n-3{Te}<n+zC4xQsNuh4?X1Hz0w5!2yTFTpU`hJK~2^wD2(Kj*^sJL
zLF+@0rl>dw0)k1;e-i(V%|`z_p~FEgsi-X*toL)gn8(#c*z{XPL32T?D)wx)osav%
zM?GVY0<jshp}IFD%}hRJNl&>*_`Z1;d<sY9!bY)heIrEuV_v}|QhHFSyi-}x&RmlC
zmzCY=M)2DWd&OH(V<j_e$z-2G_6el#%<$72hwt{jz;1VcyKz1I`>wv|@P@M%PVI*$
zXRhPJFc*!r>$yFHb_`~c4X6aW+|s`$BPO00o}U==$%6Q$8$b{i7LB_{P?Z5)aeK3k
z#&?G55@e`N=-P75Rf@)L8VEB0|DHfL*mr>xFGQtY1rH??2q7dOW$x1J2c|2UGgz)w
z8B{zGjcske=H@P835LrNW<iuExRZd4gACmptl#$A5Dac$@Mnw%)y3(FfIxFQhK00r
zFWiKmY`|9yIun$Ln9skg#!EZnz;|o-8G6&OST`TDvf4pb5U6TVB;Mb^EbkTnci{Ms
z&5bFmm&vrN-G9ry=Dy$Bm;D0K%RdzDua#<9!(+UAkN0Y64&&6NqtYdl@_BQqjcu=d
zafomRu@_7I!tpbyhJRnbXpQA6wra__razdY=Hpr{;ApM?`ZaA(d3?h=sm}n*iqNHL
ztMfEjOP%`i>T>X5n)0j3+ny_{JIPA2>d(r8NN)}9$tz&7q8c$92|nj{(KhqcY<QDD
z*`;9i(u4(3Vjx7L`JhJ0M{J#M3|c4i@`h2G;W2{cP*8rl-ABZS@8gFLy$<f#b<6#6
z)cr~5)sFyoT71XM%1V3=%RYos6_%H`dHl0AF}YE;8RjB^wOf?Q^g)+6OdaqsF*7hc
zrCcQKioK!i#>bCSlmhDgUTkmd?nXsN(_$a{zPJAiVDlo+pN)s&U15NZIXgP0uo-p%
zboU$^T2ny3?2FEK1*{tmLaj&zL5qPj0P!vLb#;HgL0*Wyf&zZaSK;Be8h9_|B=jJa
zt?uH2m%E{{ky*1!BBo3p=@`&K?K*4C2Kz@fvsP!rFTacCZzI;AZcd(kQJa^Ki76rg
z*yqgVx0&Pz&{=_8b^LWwB|bbHhZM?<Iw3EqWb9ZS2Rq0JT&XHN0tjxzeG(Enwd_^a
zyqseU63e9j|4&^dhi{i)xtc1AZi_wB#o5@|;n=uvl0Qwlm?ofJwyT%<(?45P{iEK$
zju9>KT2u2Uh9#YDrzbnlq9z`)@a}Yk?I$n>nT1h3o=TiAsVK7+ZluP?ZT6<WPLsSV
z>HYEh!_YRdskx>({H)#Z&j^pLpR7{8yOA*-jN2_Jw{q*&eKyx$6TDkLXpEXa)8&mR
zRu(Z0%hXKx^XtdvCF5gmdEs_1wV`857M81vm4UaN)O;cyN983Y+GVd}z0211AADiy
zIyBv*_}S77dUIISX93n~n~<dRf~1_AOgRXoy56au7Y50ag9Cf(cTk^wV^oJ7XB!qb
zTq6i8qzFVOg&YKmm#D-Za(kt}0N<anYkz?7^?MQXR~g69NmVt`rGXM{D=zjoP6zlj
zAmATjZY$nu)Rvdq0#Xn6dkk9vFup&2LJ-GOfSd4H#5Y>=*KUoT4G8R6&(uX0+&;wQ
z>1w)=rEh6%g-o!+X{!pP4v9C;&Vi4_*1-oKP0H~uuCBJ04`yOs-k52?KR}*-Q?OR8
z>V>8okBn=5N{7;8Xh-3Tg8MXF-KUq>0~MkDvCA=plaUc8<MXjfU_k+G-l~I^rY60=
zLs%({+avSJ32SV3-X2Ghup=YBeBfn!^eD@&%wYu}*rD3yW`WrOuB6yl!+cX(+5%Xa
z05QH0jJp|-TfhJBnqHew_R;hy4xzXgv-VVgjxnng4&Qv8M)Tp{vcW%V8OY_HFC>Iy
zmvOM<>oVt`+S(3LYTQ|@KYv&C>o}QNqSa=#Cxk;&wBl3iJ;!4$kFw(2SY<Y+hBs!1
zjXJ71!a~I+dn1gb4tX}r4-l#z+L8r_RBk+mx#<H1rBuiz@x0`(a$^E_Vn>LF1tN75
zaI6HT1=ydRO(c-{JSPz?Z!J?cI{B!Foc2%ZSjVgOP=R?dk8cKLfTd1OB9K-x+aUC9
z`vhn8nRMl`f-DMu2FVn2#5KFT#X$AGMm_!6=Mft9^O%lHdS4cdJQI2P1?gyNLo>uK
zdtwTc90kYB35P>i*gy!YDkE+gdXB=_=H5qVZ@Z_e7WmKdqbcb=w^lpGGdA&4U(4Fo
z6yCW%pa9Q#N!!%(57DLGjIT<@4zpp(do~f{ZEtVS)=<K+0rM<$$q-PHz>hXpnUIKx
z#^;YxQmOf<0k?^u3G|x)=QCM9@0~hx4BOf2+P*T9Mv=;0nqT6u-LQjxWKnLZ7rDUC
z|L6#E*RXJ(<w9j7XM2mxt{`XI>1ry^FE<o?)Pf+Pg~x**0I8*h1<(M_JpdsfzfCZ_
zLux(2{Eh_nGX{b%(B(nx1vX-!zaIsEQRv$~OjEEf@p+!Gy`lg$I{Y62TX+MP6hNvd
zo(Ul>zUD8lA;8RR?e?$!ew;v>OFwOvQDR>YIo3<ywX|+~dw2-c;XU9#gzOq0Pzy@K
z*rypdYFTUI1yM>@L|9ZsFlj*SUuQ1?Y0Q`B+*U}bMe;3TETB>thm<Hk^XflvH$sRK
z0m}A&Foa$9{|OR!Yinxg<g%s7Gh-<<%Fd3LQ;m<ATA02F;x!!`D-18Ze(o3fuSir`
zq`v!s6APi4RJg0Ni*v@*Td%cQ*`6s8auEXmoX3N!yz=}$9GkrpniU^=r=JS#yMFgl
zC?Y#VI*;R1)i1*qj9KD56%@QElzXLL_O5g{UtP#M6LBHcSXcGIvrPH=)t9<~ufO}6
zEmVidMr8~#@tc}6v=0{aygJK*Pc2mY_#gDH7O0zkc~596yuy@FSoo93REVKjS#owX
zBs(sRY(q#J;b!;um#O+lMdAug;@XoWp0U?w<hWlMB4~}IZSfvS2Qy)F<Q@{%PG6*|
z27QR;>?4XRqqA(tP}laZ5I%o#nm#I{8jloVZ98-aQE$w!um4IzarY#Y?tX96mG9j#
zRjzw?>$ml8FYUyM64ht#5zl%Tz9JLd+B}yZO+Xk#Jb6qSdv!UhW#bg?yViEMoj$}%
z=Z&Sdj`)!7!JWX%wb}TINCA)2?w#qd)s!%^?QZpxx~jq~&I+}$!U~_l)vB!V?7`m*
zTP~~RcLiXIfI$x%56@J;1%*igse^?kRQ*Ux8z6e!4UM1AIm}^3Ek)w|hDZ7Xd*uMY
zf4v6#PDi$bB1EZD5vU-4GO1{2OwQZW-NJr2w2D~?Cc59@wH^DQR<B&^OJqzEN%JeZ
ziN{1;fa6JgdxaN7&hYQ=6B0zfL5Ocn;$w(&KS%0^xvByP0ss<9)XJcl`d;J)=qy3;
zAOgJ>%!OB|;c-{62Qp9WW)nazQjnIRMR;Z17_sl7tK1SFR<Lr?;i0nuNk2I``Cu9!
z49Fy}zW*{OL1JNH(fef71876XDk+EAO_imfoehh*s=of9OD$j<(1Q(`nSW6H-tK$?
z&BCH0JE`8y_<AM(zm;Q<%KkCzhiq)%0y+ROMiSmWtJ1P@<kvXHk0lktOo_kt*&ppj
z!U4K6Us{LHAm42BM~i&pn2Pz$8yEe*GQs{&<#WEO`T2eK^`cKLKwqIz4f*G77dSh^
z`$tD-;Xxr`7|vfA#(}rEq!c<%Hd7M?ingIBFCXdIy+1*tq(qTG`B!jXgD{pt(`cPz
z@Ho`neJ@v)!X*r!&;1^S_Qfd{lVU>xrQ_jv9IGO~BF^m9=jU~=uV<;qvpsd~p6Io$
zeR{&QB&YV=5M{k>z4{)>t&0k>jcUsT#iie%{qUTK{5RkFaP-Hc1c`n0T+8$d>3;{7
zQZ~P(D68!6Z+XnpyAO7~#JslEGL>(<``!rm8+M=4CYP}%R?ALsxNI9Q*5<QBUJR5v
zZ%Q}&qcPQ-0Vxqi6JblcEnI;Q4zGW3dAe9y%@*1G8LB`mjO7e&rx1UifBsoPhd-^{
z!uAvD!aK<n#sZGPw@)&D5h-T*N6(JZSznCU(Pwh)SjPT4KFOBbSi`NhWJvg$mR%HU
zoNDw}i9u}FhJ&^Ia-8+TIp1Vtya5JXgI`__lYbX~8N8jE<L9vcshvj!C(&%1>;wTJ
z;V}8Z@i9?&(NKMky1Y8;lP4>UK5enoTk|pjvoXU}lT%Y-p^(df`u+RA4P~SgI3mF&
zaor&fqj%AT!>+CV173SX724!?NjDkMcQ7oh<|V#0>S%?h=W_q^Er{{B^(xip%@$4v
z8+nHrx<O_F!k<u9R<=_L5v`F6{!$5JY=!#z`f$?>skd+*!+tOZN+#e?**lgLfy^b~
z0L;yChXn*b$s8OU2SuOTTfGn@sgU@+y0Q{jA#n%>6R30dV?xEf$x(uJBKt8NCc>Ie
z%9c88erPBY_%y0$(?0)s@n_G@6`C4-u7wFVx3**n*o)3Vq>p@6WE2Lo>c_QR;~R2z
zygmE>aT?ACtMcwJsB#X%Lk>iW*Nlb5uZmAN)0`>!C)3tZVq6oakAm-0QNEY`Ss1aC
zz9tyQt-x=duO>^s<#L{+J5{~@6ftEbBXT%dcC>tHsB(a-S3RvI;Hg{jEQ_s}H_kK9
z{_>=H!n0bdX6Kc;Q~9YWPF)0E3(6Hz*yG6@3~Wb-4}>d?43DYmRG9ABD5s~-8SFfg
zw9w+B*-0bcUQ2=_7<sINb{L0)!ry6%hoZx=NIg7-{18>Rj=l+6Ebi(_us@5QAEDFE
zbXeQ)(~FvrLPh*KyF`l^E}2oVi!P`{e02FjQ(H?CfS*@Ju}tp8LQG^+Jl3^Xeh}cN
z*Ye}a_B`eyb!>VyDSqISFFQ++$G-|pk;VJk*DoVgQ}fe^?|ti>W1h$Ot6pN=iHIvJ
zQA65nejr|LmmtEFh&b7w{ucZ%wK$CYR%r;r;XsMuJ3@}=)m5X02T$!^F>j%5ym)0-
zt8kz4<MF5tlp>^a<x<S{<`RLw)&u3Iogc79G>~fLdTdfWy=NkD#Plp~$>!PKM(dX1
z2_DKW&FFM;ap7vEZgN&tRZaT3(TdcBU=!jy5Nnz^YywNbxpwz+IINOxCgC<@vVVK?
zx6Y6|pn=`sNofyr3p}7VBLM98P|n2tl@Cc=yiOy;!_#-Z@$~>Ky8=pexXS=XK>4HI
zVe*5Q`|wn9y7G#ZMnA{-=8$|(Mg%M-u<%TR!QB?ELniMoa^M!^;8ud#=Eg*XV0-lT
zF-R5@C6$egvOz{`Ys-=>nZIxb{+ay)Pz6nX3aug-0uNt{-22<VI=DYtT*}LGm*nTu
zfbVYBPz#racorwq{~w&v$rw|@?uVH1q7K`kk&(J>o~Mwgxt}QIhe$R*t+Le*Rqp=%
z0g`q)4~V>XXH+|;p+m3p*FHDbRVM~zOoJN}P*8e}j(K+f!NcyM|Bnu)TFA=G6lKbd
zO;4BSnEE$I;kIYn#A%U)S5w`n<D?wPiHu7m%n<*=SL}DSZRiM_nR_CLA}w6YCz_=G
z^%xqZ7w?vTgh@G_CcQs|aYtYgl5NU;ds`A{5uQ|szuxU#7$fIOSEnJD@J~}W)FK;*
z>GVswQR-2uYM-un(WZ83WjvVB-FfEQ`sHg%K-2^ah0IUx`f*jRXAwi`dQ_L3zov$J
zrn({|UtRG<&7Zu|C?v^f_>SL1kv2F*q<j8BcVdp{U03=3TAS%&-rL%J5$g?pk=*??
zlw32zHLiK<dbF&@UPUzwEP)SyI1qXdkt)Szyv^2*P#CEgus4r3$Cb60qDrH?W==O$
zNpA0^OShWn`&3%#*;^Y>C@3@Hs;Etm8U5>d&!f;?Z^}k1{i>!e3BT08e!_bTgE`<5
z*_YgkleYd#XW^)BjQZKB7yT2)cZV3ak)muPqHZ-=slE|Gwhw81;asdn`O}wA)7Wq?
z8qs3D_<LzPgRdYr*908NFfrGhJ;5TT6?#4#%uPv9eZDUDkB3L;zXumUVE>!E3|PN=
ziu*yOJ=?;`3A-<ZPRHD3>Pv5fzVknLGd?dX$Kl*6ZL`GDfIUsu6N7{tl<zniYHDg#
z8A(ZXppVyT1?vBEQw;OPcm3OUC}^+|n)>>RRnP+&5fwGQbu@{kA?^#BMJO{vujA_%
z>yy%SyA7_M^2*A6Ffj`jb>9My^w><j9ftCGT^XIQus48X@a80$kiZ#^_Q!<W_c+L&
zhECXFNrEYu4RYAuy4k{RNX45(bp!9%@{mO?Fy`W&-Q=qz<W1D@as>4}ii{jdAwvnr
zU|LahgFM{SMc7e2oODC?5FQ>L2Z%lPP$q8cNne|BhyRq4dE@_2HPcP5=6ok5H5JUD
zzJ~pp8sgM^(TcoZo4#Wkh41%P>8yWa3drA?%ul}T|J;*lTk^}z((1m{#l!h8O5YL5
z8C!U8g2bhz=>0^LwtI{WG<I^|xg$u#dg*V!^yc+`sE^%?L;_P`<e9MQkCic8h&M+o
zc`8x|VeNmY_7PMabURvq#`jQI-SWG>lQ_|qVSAU9DDCLownR5D4ZznDXl16je*|+*
z?Kqil&$Rlvx&*;&k}%UDs;`F!D}@}PvrT%5^j*Zc>2l=k3T@ym#2y)mFIQQ^zi;n^
z5uVFf2xEIoi91LOGmHgK>4LZrsbO;6xt0E#lt?FkP|#i}SV!5o9hz|Fx2kFpez&&N
zm%g`IPH2q#ypEq5K@!I^Ar)SJ`8RYX{9QU?j`BUDhg^w`G@@m_YHVvB0@9tMkPHsG
zpFcWN1Xk-ti~ZZc4)ib}k$L7beNpw{2Jan$oy}fX@@u?Zbb!<C_b0815B|{aasLc%
z!yxg#c#e#jrPfdRP3jaD8yJ&~IBP#YiG2{6UMWdpRwo(3@h0VocvuBCR?>2*LczUG
z2`Bn6Dq)oYhoux{?hGzkQ~D^;P{AQf%iR2zAuS6wK0epxr$#U9H*zG+`g?ndnWRX1
z^)c0QhW96C`=I^|9JmFAh3iGR%o1lN=G9E%bNQ_G@i@LV#~dH|AX@~U)3bq;|3N?6
z{{#F4vqPccZxs?`*Ew?w3VwQP2eaKFbEai}X-!~7uZ^+J6%;C%x>Lu-$(mQCefFio
zZ2qtP!<S>P1ClHV>;iwGjO9L>FQ<6Dv)}Yhd1i@>VmcWuxI^Uq)cfuZ8uS>Z`x>tG
zEZh%Sy9BC>jzfR2BfXt5NBiJVvKWi*9%x}`FsQ1|7*2NHW?-#$bV+k9B<<a7_XKq<
zwcS8RyJ*_x`X{D+S6;L4n~~qhHr1T|JB?=ypGI<Iq(pZ855*mwT6a(Kli|!An&XQ$
zDg5jGakQ*){R8&UF^FVFF!ycQk*%NZ_ie~w$C2s-I*hif=(qWYf%{}zDs$mC+7Z9Y
zR&SX@@WgW=Ce@B!mTLblMOlR0)SH3UKuVdtaq&d&avm~Di|h+0*Y8*g(M&}Q;M<1B
zxt1)Vfqm6;_t94?U#nUR!u1Xm`abvciY>fPzerljRBM&QdibIt(pHwI<j0W19|Nt9
zHj|#{TG2bxTDdM+o!0bQjqh!HX7|{bE7H?7C;<J$TAMt&chTwSM#91JHcvJ%L$7Dd
zRFAeaE6Wh_65zP0(_*K7@+5E>B1!56-N1qf8JI(zn|t!&fYfMi{<iw|{qBNgkomse
ze8BaSDpbe*fB<7Q&6o*}kv%6Xd&k%t#Lq|ke|Wl+%!Tk=J>FGbF<^D81YW;Y%yerR
zjx2|VBZu?%<|l0rQY>p|>%0A)RX(0{HF-8#wtk*|i915(yklRww@YsN#)@)f;=vpV
zT8mgJtc&+pi9@n<_xIp!B5yxX#Aft;?pI>JC&&F1nN>Yn_@3i-l9pkm<_r9H6z#v;
z)}J2h+!|<qpsl4lB7wbv=INgv8O`<5>+p1T%y=N}7ZEF-n2!(AF4|7!65hSR(`H)L
z_uSOM#Qq7SpYn=nS~&~c+qzxK+^M8mj?QuTLJ7Hv{m~_#Mg5xQJ}{cDUBdrqZ)LPD
zR3N?9q24fU>N->$E3APQnK5}EXB<{>Tem{t7GdlTmVu&9t%y#?+H7j-Y)pv)?A=_I
z-4x<&ei0JXp8ArnCtV)^_53_&?yBpflAn;YH|-+SCqkUW(&sKAHAEbO=EdW=*8bKK
zu?UCNZ#&aZkwvy<V=CMMOT%lq^EBOeECs1sFj)y_%N3e*e1&d5)tr?s6I_e!4gy>O
zc`m&G&4fDPl~t_wl(xA}=I(yoX^y7z74#CVe*X~v@uTfPc!@I*C0jmMk6!YtLQnt<
z-vB_@Yc>KdQZ*tw^?!uawe|neX>37<K{Mk~$4Lctu!21tQ=ZA?@<!q)tID$@IZ)Fa
z#niv^H`mEpOCq+ZcZetAEs9u{rjl?QsDVB8K2y1<I#7)!_*AD<i_&=Z(6fzrcnIcV
z$cbyl6lW{o5V<qqA86cl<v44rYdkWiuXmLS_o#iNchK*8C2W6*>hsm^Qf*oq=jl9V
zEAd<IuRk6+?^Q8|W}$`g>zcko(WxJkNHxKe`=Z}M?y)$K-@8_SeH-;6AjLvGoE~$<
z$HZ$CX4#<!Nd}VxjqkttD;+XV&(##ewpKTY{nw>cFG+u5+^Cct@1cOauum5sx4lo;
z^~df*tDec_#?4I_zzeJS+zhV6?CXQF3~B8!wq>XISWi}xCRZ4Pi1BlgzmEh*jg&n0
ztg8Fb;w$}X&GAp_UilW_bV^iV57(YW#pZfatxyaUl_&*e4A|G+`lI7T=xkR!`~>xP
zz~vTg8ugE*?XM?w6+euutTsA!MtPriSUU`5+Q?!yc{m%ZC@AsuWO={&ajVgtW@}{8
zStlV?1qq?N=QcTb82&C<Q337ulcYCV7dmn8-`B&i0_$P@WdpZ`m)9j^d*Adt@I@;W
zsX$*U1fk4r+8DxXeN^D{`Q7#uwO5f2MM=Vc<YW80|1DiSuYx~SKU_Av=n)W|sJ4c0
zN0il|Vy~!;+}Hg`dSSNBybL8{Fd(P=%<LZHmzrBadPhGt$^TB(Pj(0v@@}1>7%&M{
zY2<Kn@@!f$q*SE!eT!f%X`4qK(s~!o$;=;#WDUb442uS|-?9FxCUW|}_o{Yli;UQp
z%hgv%@UcxOYH4@=EG`#$IM`{I6j~X*RemZ>FgO1K?_I_KL9WpL3zt9-^A}fwxhvH3
z)=!Nx(yc_)G<{MDzOWVmQDiXVxj2m13QiEvHUZ|zm=wGyWo1=DeOX2M;K9z)Qd~+3
z!#_>nqhGY{zuN}X2Dr>gHlM2t2ywY;6Fs-;1+Hv<ets24Sk2PTZoa`G2YO<h4n((T
zt{x{QB)EBaD4X=tg9en|&(ANZ;z}zl20Q5S!-pNvhI2m_!@$~ln=IZIDqw&0w0d7Q
z<>V}bSNbNo2DC7zZcMDKHw`R`Qt1Q7#3wgH6*!~H{sSVf<Wb{w1nInT%{SBw^xJHD
zF!#LrKSx`KOrKo_0S-Zt#62dWLToDJFSxfhZqogJCyjWPC+Y3Iga%XhhraJ!TEBZa
zXw0+yJ!YDzs!+tBkWwALF3o{zGU)dKs1+-fv3rER1>6U)48cnD8@c#KtD*sRF%(Q_
z({|Zk5UbpQavmIf{406&N*p{qH2jR;92Pb<HgHd@7X4+yc_|d`CT9ac7~B)UcWI_&
zPaK-00-6Dwt#x@`1Z0qX0jnAC53QHSGoayFnh<gY-$5;80Pz9mOUiK*k3bgrWoqh!
zyC7s$tn|k7NlC=|cN*9`I-Wszayy73uKv4Jm^9mK|L>WMezFz7`XRxkNjBKdHqF@<
zwsyEx2X>{InzbjU49|m1WVv|OS>NUf$n)<3-BeZB>4;uYs{i~@Q&vWXLb&FWw}zx7
zhL_Cb$?tYi)7~>xFnN%!klw!i@Et!esZPh+n!B3m3K&_Wkzb%}@|z9J_}33}V`=D#
z2?(5BU4gCxwfPN|B8kcef%zuj^(G}HT{6X{pxNj4167Aqo8Yq!S@9Q=lFKnSzmG!b
z4AN2%_Uh^r;ERD2B7CP85)z`RFWn6c44{boOSKPNz>s0=_f;JP`eIY?8Ef6Wf|P7f
z;W<N5O5427Z3ZT$6(;ZV)l@t1J2lDsXM?c+MdL&B$(zIr%UZ3HvAUX?g<jwQeIN*U
zl70mD)-C;-*TeHy$2@P|{PP*Azk#}`w;KPqae_EOH+^n;mFRi8T7~VF-C}v0B^ODm
zW$wi5sl&~2B()F!4RJnq@ywnbpZr+{y)=~STth~r3AU3~Te-ffDi??g!Q?)jmLW&L
z-af&Ut?j+^jVT16njbLE`rhKPnXUm#A(*&6e*6eK4+a{V7sOU9WGBDI`{{kQQ2^gr
zfJ-p6wk<9WkB*|of)u;2x7Pwbi|Zr(>mGUpFE_U<m>b<7)@-MwqK)6@O7O+m*_jd$
zje%b%*j#*j*4TXykzRe9^}MZo6Os`>!xRF;>ob{^r;sUy)ZyOh{Uw4l(@tEx3x2Xb
z|C;B4_X;>$rGxnRFY!h}7x1?Mhkj#R#DRN|5vB4!Qi|@s5$3;t1_F-&J_7XXL33XO
z!WSVeA*O-~e%+fNDl|+1<5GFCVr^x$1pyb{CyT-G0!(@ax0jdi!a%;pgla$SX_%}-
z0R{F@nJPt?5QNe*Q)%RU!*@Vr$Gto3W}wLgZ0#X6K@((C0dWCZGl1Ow05OwEWe(1W
zEa%d64s!)5Da;SZ8L*_nxiPWfjNmr7sBgc-L#J>%sV^<HhRBB)CkSmieOPo;wPUcO
ztUoIyEzOR?mLO~~@&s4A(x4M`@_bR9usc3}^6r&uSio1hJvbV5baeh69Eh2c`ra6R
zw$Lp9^ZV$x<WlDdxX(<xM|?3)c`t(@idr{z`bkawJwZcj>sQNh64F?4$zbQrsrKIz
zY+YMNLS<#+SZ#9I5!MY8DqKp28RHvg>V&2%Pu(_yXv?$b2X2`twyS*?&z+h6^-F<O
z-xJy`KbSm_1Ovv{Lmm^I16X-0+ON)FPxwyvO^lV5^)>X5^tFsMCmN_^)^vzJ)c2|Q
z>*xanQ!7wVqFnc_-de)io&?i0c#;~0;1~E*P~rhsSC;#{YMU<Na|Iuwm6cW2?3-V2
zG2Cbb=|vNlbR*yw^oBWuI>9Jr>M50MEL5dQf{X%eP2W4EDAj$3REg#tw-l2Q5q}``
zhDtw~n}_EOP;3BL85!{nHIL?Yb%~3EQRF<;u5AkR0CyZ%zh?ZoG>7{Xo|h7<|9yg$
zub04v%)t>kQC^#uOJZf!jBbF7Y{e<W$M+yM)`rKnM#Pi%<$_+({E+g?p*#0}5|Pj7
zsf}Zeeo(ZiohvHZ;jtr=-aNL+=^V0)?p8{6zjQzUvwYUkk<`~$ZvJTBhtE&<gqy!9
zvdgkoXk+6AwzdjqX3jO&^P{neHx6%e^T}MAytk_I@&Mq7m!*50&CF9Dz*um-yLAv^
zTdr0DT|dID=I&{UiHVT-2nIBe%9trD#}B^-p%NV<W4u64m0l@&<D>q80SYh>>tCNu
zfbTLfDJe|fA98~s(-#_nkbi4Qo<P|AoWJ0F?GSJ&jiIHVKXl7WW(l9J+yj<*XxPzn
z4BOZId$Jfp<IWHvqQ!nu{Ddg3n}pqlB=937QbM<!*e+3ggH0%M3CbiS#~p#8nDF*(
z12z)xs)e=3TuL{)u}t1m%I|%B{)McdF`_)s?z`&?E~ESR@9V)IfD=<`1Z)|8@Y~|V
zU!fNAf<2jlw2pRuQ2s3X`Xm~({y|IM^h4usb`;|O$M<zAl{D+>)Epl(P-Z0k?&nfa
zm|j{MxI#Ru*qf?X6tVlb398)bTF%9kmX@e1y3yC$c(~T-9Fi{knciy(JN{@4lVh{3
zjV}FCdQXnVweeE9Ey&5wrF+C<7XK{2dm!NKalGDkUOqM7j@D6!e^|j<+ho4{Vy7!;
z)8iliKA<)~D7_~MD1MFW=Uu$$s<*L0iAcD>&d&ArW~THUT3;_Ls;Kuus;U16onB4W
zAHK}Ybg1$;<vV9-jR~kflw|VJ+bAh#p^q4T{ovhQcu3DrPltc!{gmTL7&wEc6Bz|%
z?MEuKT-r8`LgF`!H*h&sUTB4az^t^>`dcQKn>8327w&Jb!3jJ$NkT?;qa!HQt_KZc
z%JStUL$^(r(AeuowLs&oviaUPzu~m}To2t|&<zQY6MM4!VM<C0P+(x0KyKP+{<i=f
zE6hj@xw(NJL^E)@e3`?Zy4z4xv;nf9ecF6S0f+_`U)Cx+hVwWO-b4Z%R&WYW)kxw>
z!aWOL&CKf5+_v?vmJj#o_XY#B!#Q!VvA-Fu4`uo80$lshMqhuPwf!Ql9juS0pgn&V
z0B>am+$J#Lx)p;|=T8h$*{6G(-XOp%+*?}mzvMPg29XZ@)aSMS2S_|d`z1=8^MamL
z*D_BeCjKXq1_giagk>3@7;036b#=8eGPAFQrsmpc(GP()n<**QJR`ssd!Cn#{E){m
zw&I)vBkp@<Wf8ZBE&{K|71P-63tLOca)2#5FmP)tPdZ=ihtPGHMMrD?EWGmwvs<^)
zm8NvnC(wjL*(7RKIFF}Fm%@B982TH;lQxn+#~9Dcotr&Ux>vx&ykS+Q>QC@8Yd!x3
zChkG>gOVE5g*KY01imf52aF~bDCDKzsP8<O<7QJmp8o4o5yaE&;7TW}AMKFa(gI5G
zvFX~Bcjz-?%9>ML9(9&mYGs`d<rB@nc8dL|HOC(^ZenYQP*$D^`s2leyU>**!N>Q4
zQF+5ZgV(_bh8U2m9<FXgeQpJ1kh2g(>#Yu?<J|qpoF6Zrk!agAOPzR>&G{OSbkK;`
z9)>=UrEWtzlNV$x$2?g%?IG6pg!?Zer3RWLN~HUf?pEBw)XX@4HLC;q!AD-ULi>(W
zRi-dfSJso1dEHdHovl+D+)epC4#`5w0Lk+hK#ho-rm8BMmfc)aBElH1ZZ6A&_I8n6
zyl3E^0et|Bq#od{p=Ej53K_%$jxssJqDLCG2ik3EXu{I7f1PA*^Gev%KCY36CPiM-
zREQMo(!WoqC*tbl1i4fs6u_{(+ewtk%gLd#eS(XTwFElI14S&sSUTaWYr=L5rW>te
zm3Qp_rcJ)F;bB8Il0)}aH|628!)mMn&FU8%;F{Z+85vS@a^m6aGIQ!;9%}Y#Cemti
zcxG8FmIKE~JPnt*`HY6bz3_oF3sQa+qz{-T`};%SD-A4imy0h4Tf=aUuZgIwwQnnu
z86Dcdo$l<PM=Gi=M8t2pnoQ<KM&gqvh23i$f6~~zdKIk4+WHu$P{ec6<=T5KM^aZ}
z`)TA~FrNHjHBnU>!SblDJ>ukcz4wkv%clLppBOw{o0}}$Vb>=P#Au_h-5D5~qzbaK
z!V!;2z8IT}iD8h2-gz$0%_WU7g;4M6@R*Dy^%d%rx-E52a+3H?=<|hQ2KuiT7g4jb
zQD^Q;GDQw)Y}paCiew=Cz=8@Gs@|X_L~q>}wkHnv2V<)271Y!)NJ1&ysn4m`)K#35
zl4PO?jayFeh!-to7`7uqE$XY4t*5ek7OqH=Ljt=+8nUaZ?%mpFtrb;T>5pA9l6jK%
z!d0cb5Z|FFj;7J+311_?h^sDJoR{)QnFL@d&R4J*=!;ujtI)5YW~(*E7lrgfI$f;-
z1yU(g4mu{5o?sKdOOg(UZ*OOLP3`SVrrzl(Qwjl7`Rf;yiydtL#K;r5gj_lBzvLAa
z^+KrUFFvnby^ZnL?;_LF($Lrc^v4~gTC$Np%^98?AE%*s56M)Oluy3nJtlkb=*nw1
zUs5WU3Ej9?w#ALrj49P=ICYxWaV^u0FvF*(+su&`n*_JPDETzcD<arsYjg92@otT0
zUi;jWRAw<Pt!Yqs!79Ww2#N$lnE2q`B0{o}oiyf7^@_!x5*sBk<}7pdEyaG#cb}Pw
z;E|7v*3A=Wg7<&S=aaSs5)zX2t*zAbbel$v->i2ZvU@dIuF4VO{<LzRa@^61OizDG
z-}|MTJH)6H`3SuCA3oe=e&Z@5cmWXug>>ZAP8(!4^X1ioR!fUCSB}`Tb9M4KL;gI7
z{Yt~ISSmuhmSHv%DJmpUGF$<B(RSw|_wOXsL^QPIi_d6jceW~cJWunC4$PQG@zi!^
ziy-i%+9=5V!tM9sXZI)_NSGjS!z!i~AUWS0s{`+1wOLWymDVSp_O|xeFU@ZRq_8_a
z3O1fDN2e}Ory*)swQ|wRR|nOR3=T8tn#04Bstsl$NQ-MYsT2Yf4Ba}m&-YS^nO^4Q
zlYKIo7rxwI#9qKVpZC6rU02!N<<G7ZaVg#$XI|c!`Eq(Nrtg*KYbSD&xsj+&M#Q3`
zESDUk@mNw8LG<iUz;zwM38-Gssg;c!@@Tde7duU`Jm{emPz%L_5DqA5jthHjleqo$
z|D)=!qpCo=_i^~pElPuwh#=iamx6$FgEWey0-|&X(x7ygN(xAq5{E`YT0pv6x}@IC
zGoSCf){nJj*37K=1JAkdeeZqkD<WF6S$Bz~uq_kf-e~B%{v1#*w~hgo&eXX6S;m$A
zRU0{O9#L}TFC-&2^`2psQa#vrl=mffq8|S{t9B56mkih4=RloUHivfiQ$fMYzlL$S
zxwPlYsF1BKhG}ZiUQqm-5P_usH}EC!!Hiv|%uj6cshT^rZH3TOuxKV<?F6}VW`RWS
z8(nJ463Bht&4VAz%V~b6?75(;%k6)Ze96Q_e|iUM9ia#11G)gXfEsI#@&SKn;iKf`
zW_h0u#9#VcdLqZfHe2ci;r@(`>D5}WZUn3XX6sFQ=puRK;)!U=E~ywHk49*vsT>n>
z`X5ub|0jSZ&;CF56FdNb|MK(m_nU%*W%t$0Ou2`5>g697%tC!g?`mc(e^DTnZ%k~5
zl=Rh93Ma@Z%6}IR0a;pp)b%-TMbPZ{rbgbh{#Ox)l*z;N^UG<C^7SP{g>3eUKk0lg
z@Jk{o&fh=vjj<j5gN^eeTJ&s|2U`~^SXESKC}}c?UG~}xct@<hzk4QigSx9P!FxQY
z3?xB03mpW|-pYrE&$gG82!a8SV^iJZkKbn}?mSEu8mqRF&tA{jEN=LNhy#~l+)o@&
zb5MN2k_8RzUiYWJ;rMs!u9dOTtp@U-@xZ`)C+>JN6tnG<;R$5%#5Z0PIi5QGbn?3Z
z@gkDeyB#4adQWY1c(~p^<-<ZIRc%e}+O%hR6!pgXcd37`8ntCQVd4<k7`2`A>}ob)
zfYxFAOvAQ#&1)2o+`xAo{3^5@t*qF7z00$(m;euK^~k`$m%haK?bWgT^qHi2?OP5W
zuC8pH_1^Vf!}l>fC$2hpJpi4gBpEg^nITBlaB206|B1bLw9{|YFzLSg`G5#QSVYRc
z$TVIxP*P`q@HL~$AlolILqSkD+O%NyUR^Z4xyjC?e`D@QF<`6dU8cm*aWa#@&1JZ9
zj~c39io4mmZ0K0;q1IlJlvf|atOGPX(1a`##!%n~f-6AX<-d)qm8)~Q$B!SQCT<sY
zc6I`%k4D^G%bQs5H{L+^=>H!De*b@LO?4O=)zzcM`k?uO+5AT#T<w=j%ZjgUrI}K)
z(07zl$M9LP5ty`sFJm#^EX-$(vJ|0Td+nkg$(M{i(nqv2XYe-(d-+f^voJIF>Y7}j
zBN2D>P*0lpI5|ZU`%PDGAvQM)weK^2g+xM0s7}xD_N0BKuB9h=DLaI;&IYL5c{qJH
zGi&wdV>ay;f^Xq+hjUZZT19;?gM8_7FmJsWHDQ~5CexfTlq1km;N@69+Pc5Pm(;AT
zhw2$kUUkc{m#R0Gg*E!m4_&OOcW(7LcmDqQ^D-5`Ci;z1_#+eQNpOj<_nQRm9m&;!
zb-wY-Nh{{(LPbSISldkzj2KSaQw3OwyMkuOUpU0cD3%mNB+M>shz6%@`va?c)5t6k
zR%=n?=L2IyP7#GzgF%VmOQr3-gyt4dLlcppW2K=U`Dq0a>PnR)+9%(izKfth(jt6+
zrlF=w&d5;AlC|*iW;yd*PQ1!cBBpn-VZHm1!DiK^hk~<6P*qi&^o}K^)FHQU<s=>A
zwRLtjrEc->^BsR&+a~Y5N<%(Fu(=>cOr9|+ANpLrs82|kt}`T4Y4OlOz&9uMyek&G
zN%#c>Lhgbb2@E3v75oO27PjI#0GG^-g9Uhac7dBb1*YH)SBI|vCEGgK6L{A6xpmll
z<IDemq$j_*{-1GzhNk9gC#MPndw@Z}EoEQ1B~!;t>W1kdmyfmSM1zrg(h#duv9%80
z35vnw4`$iX4G;PV$Av62k&Vnj)H_pby3Iz4O~SKF@f-$YTz8r<IbM^sqe<Mon-N~)
z=a>0LN(v7hdl$8xnjCJPo(u&yAyIj?F5&GQAy+jjwwKmXg7{xN;}NOJHjMa7sL~$F
z4mW&zQ(2Tb(#4-vI_D?HzN6DvHVL&*!9uSTrk%DoNWh~e#eDp@8ZB~6iG)GM5T>9t
zGc7Z>;*efb>skBNekPRC&WRt-J0qD)X2_l(+6_Wk5GTLVKKzVHX;NWB<oI#F8RvbY
z9Y=r&^j3I%?rPmi`sBUB`PSKxf8;%|ckmT4^K<$|JyK$(oXF@+fFccECi4tV{7F+M
z9g@Gpj=eK5d}CrF=$DcOs5ohNi1x^bx*xpyJ)ga~$&Bb(l1@a!%KAAtcJtPNBAF{%
z#zC_2F2EV|h;Kz(4D<gE4c=;KWF;VX^>lu#TH+uskDlhwx8C9nC^hjYYWk@#(ZACw
zjq2Nr)+~eS3vlke-*r4x5x~y{0q@-Md~ALF1%&+(0WBC6q?<t40!&C7(^Q}9(Y3Zn
zS65d?Mn+9d&B$o#RaYw9@JTN(pNTCt#}(u6&I%xP&$u3<uiNBL|Fy|(!-IoPAQgcj
zd=Sqp=tJ-u?4e|B1Y>L)Cd+u11UD(apImgzy*#wL@60GD*h_ENFhqbv8kv|#Pv8rV
zZ-K_GtEF++h;r#`or1Hod@Y(hF|*=W%PpiTJC;2T^3l7$zDMF72Rl9UZR>-BD)W9n
ztgYpmR~FCFkpTgNi(43YTISNT$;scg8(+2W`Jq~)yZ$7?@eO$*m*K_4(Rxqfou<|>
ziY)QepGi8DM1BlJ3rO_Y=Du}&%y#Dfcz2>oL9?Nkt1SBP;%soD3WoB<Z7$N7VCXU1
z!=o_mq^+JH0&zZ4543!yFvUT}@(b!XNl*w|1oGRGXOScDi@^87%4!2#!6qlOWJ`YH
z(f4$6|2a4MGK!8&blgmQKl!Y}%s;-%$z{~*NPp-9jRskLPKG@Fx<A(8Gb8=+wiyty
z!*#>9eprOyzPGh~>}NdGchA_^eckrdDFXCs<3z*=HVlNt9gOh?qp)6*r0)&xl>{HX
z{^ifl%UUmcy16CjVSI0xek;AVf6t}%`+DnV?pSQq`3d78(q93}vcb1ZHOM3t94duG
zpAe@@Ue<(!DdW3nx=_z)CA66jLs&>Ez-1s62hq<Yo3g(yN{hK1e-h})ywA3(L0d@n
z?vxxM@pdy&48s841WAR5@o{ki5Wb@-ar!=OhQwDjT`Vaz^?bN8!9#ibFF3j$081;r
z;KBc9Z+88@-2a*kl{YRfY)b2*M`vN^pOHo-CKeVhhN%a}Y|jQ~n!)-g?Iv$0`nSmj
zj)=;1i78ZU{UE*&?k5RfrEf`<e*WCuByE7RHrK-GFgkJelU*mzdVSdP@nZtdr!ZcN
zLX&%!{Oz=R0Sag6hnJ%6TB;vpWz$$#1~ufKR@<Pw8KeCi$ZclnOV-V^e11wM_3}@J
zW#ZQwy?;_X9YHs=$Ho<?Z;VIVJ$jVVJ3ebZ=Fp1Wmi?p%absGqN@@T1(+IuWw<oGz
zWn7*(qB(Ya)V;Qq`#a^n*M<N`D21Vv1g?bX?KbYQxOr21J-v<oPs$~fESk8YqBv7`
zUX+j-d`ToAAVLt{{_XtN@QJ48gS_x@3jBf?)VWuaRvk~U2&wK1j5i$({{o*5GyEnH
zuB%lmCvFR%?7&0Ti4nxir1<Mo=o3YeCeug(;aVE3=5^4O|H8zqLajfMlmHVv=MlhO
z05_z7v@a&+j^H#wkJ`1hc4$c`(57F!aM99Mz;i_F8K%lpAj@P@0|Z|ANrH`hQlaFT
z(!1W+;~3Rs%U+Er)VDY2zGWHCR`(8U!UZV^4zCI2r&_z1e%_rG@>h!!0eO#eztV2d
z(fyR&Oo)HGyiB!=-}bX})wgB5M(vaN?A3l>cGT(DuPXbbw%inkMn-0{uyQsYGB1K~
zU|34#PJkp4Xi3)z(#J>1OnM-}RZ0=$fQI(L)<JjlNCpV1*f==>^S&vjZ){9UN_uY^
zV>VtNA{Y{REaW~=gZsfQ;WXai;UUmLwZ%l0W-cQ>eDIcf(mxJ48715R5&=ZJ>p@%#
z;8I&h2PCY-ik4PY#TSNPyl<%oMmK0{u7l#a6XQ$4=A)xy1?Z;$V%k_+&owZadwWZy
zD%pUkqOh=VU%gY-^+fj5eeJ*1Nn_l1A43$|Spq72!dGalzY7O?lD=T>XVx?{wPM;b
zGgcJqebTQtxJz~zV0wnh_v-YN2D}1%AFh%+aInV)DplLZL~5X`6?ojBi4NRe?n@v$
z!C=8b`$j_cHu940Qtc{Na-=VXxhM#K0{Qt>BL{~SehErmWKVm<A9#NNJh*kdsDKuZ
zKIeJvI21&u$aOo6>z{*XXJq@##kWg;!mRN|#q6!Yrfe{-0@XS{Sd|Cnm!LQ#^JbqO
zHx~PBRbqyEZW}X;^H5Oy25>Zw8E+5ON?M|ndU(EVP{~NJ=7VvnsVf#1>A{ontGxud
zX0TRVp8MpnlGYBd_PsAs<{v&%WoMS~S>|OL$|vqvbg*6>`!v}ZIXJLA`qzG&z}z84
zlY}k?sAh$EC0m|fX-m#G`F;|T1bH?|$|tUOcda8w5V_^$WX+A9`pIep`>H8SUg4qU
z%{~31BZ@^)-GKyy218y$FZ`{yHc1-KjG!|aUZ@7UA*o*^Hy2<WbllLP89{N<6hO~R
zmOl^UB5_??R$eHz2yDDEa{uIVV6_CZZN6s8!u+4s@RtPyDMN$dt>&+t22ooKzZDe`
zS<?y8dtC%G1nU;&&j3&>CHh`<cTH=d0!(G-ah++%e*bGDSI+R^j1Y^7Iu#5F3xfrU
zw3=F^-sU=Nib1Qr+zD7E1RlGCQD%hPkZtnoQrK6*@+Kt#N}g>bY!&tO^~WKQ8{!k%
zKGe|I*w~n=WIDsf^j!4K`Y<@^q*#Gl&;~pDhvb>;>R5xK<#Z<}Csqy)D3L(JZhXCR
z!^IqMG5#~~*3J-f)0p(l+)Oa>wtn%V8jQ*z&Ni|fxUP(}qHhbqa1*llV3d>u?GF}0
zMO76mP{F1xloZf1tgJ(K@klWUjK*(pTEboOTj`ydiu>;gFZ_Rk<=F?mSdrb`9{=J~
zCQvrp+A4FiDpnRL&M-@GQ=`n#y`y6$%F8o|5((Z097vJ8JxO3UmA^D#!uC8;=H?s1
z-fnBHFuQH$<dk*yS+AT1^{o(MOz*pR^G=a>8SvkQFbpy;b;?`kz4aZuHI>>hj$ig6
z)TV_mmFV&NN*o+}wWJbh>O~-k>x_k$$N%0Vk74H^KXYi1xf6kS*bL?Y6ih@FtbW3u
z^My1Jt5Ic)jAFaFy^yAniZbvpC@bpqtx?bT;Syq7O^x)L;4Jxg^XS6btoaS;=2M+D
z3(x1z6ToOIH}~D1Q&Q78m}!cOA4<K_*3KO_MI}b`?I+Z=c4WNwsllvay)WR1Gx>nL
zI|ALp;!4tE1%<9HYT4e??D*(yW4*XX-x1Y>>$uShI%Y~LkMLt+rC*e{2!h$8Vtxv*
zq{@;6!(a09sGs<SUntBBX}XGq%Q4_29sa%o8BXr^=BKZ;RY&=zM(lHoOS=-H?cL*z
zV%sq*v0sJJGHTf2Jqf;p^7HTXn=oAlJbiXDrXl1OAl|KZ(+j)Y)nGDVIlUPc5*kV+
z;=Bq+uUzt_ks_;4Yz8xL`zdTtKn0**@BW5W+~qIz<0eqCBn#MLibL{9bVMpb2uPxU
z)6RMSsd2REPl@^I4FE16Q+`7bQnGYH^gt}k<wi>>^oO?)_`h`ubnJVR1q_Pbf+;a%
zCWJ;r1f<Tbz-oD>-h=!%0UjP&`JF|0;*sroc$hJ~ckW1MYaFf)_y>}38B<d%BMA9r
zL6xnjxX!%Pf}@MNgBR5ld5g&0btP?h)c8r%+&%n$mI_KT%dh&H<!_6MUZ{E<@%K?1
zR1QYa+MgdiJuK9>w5l}_P=^0X97>|_YDiAE^t1bpsfAtP(}G@k<wM_H5ODJ+hYx&F
z_PKm*8lS*?@Yfz&PYC>R{lN{6_xX#LTXbBl)M@!gpgT`&mHg@Sh$Wvq%Tpq%*6<r#
zV4s~PEYsXJ^U{eeE#)5Y>;TaL=z6xMJZs13B;0<PJj%(*nLgI!eDcP03Vc4U^A<jR
z`h-GQZZ%m`Dv7w(Ou|MZYsGYPw3yCw;;S~>s))Gwluae<f#XjW7Z(jGZAgKG4m2E6
zR;?3Q+k;G&7;+WW!^dHb5>SD%oH@w}(--{25;7a&Ah{mVs#+?BuKeaW?oHvOG;WSe
zTy1#UJ5v9n!D`^ZdZ<VDTg}T!Y^D94citI714=)=&ZsyI9h&mShs0Fn75658tWff`
zW8?VjN8kot{T1aX3J%-nE>%+P>r7u-!Xcz}E#q>0(cpcuV>VOJcE02+a!m#SNGbER
z7fZgUrbI^P%c<`eN|!*r2oi+kV8lSWxCa@0qhA^KMs!Vz^h)Q!?GLs5`E$pT3cK;L
ztPBW{lfrqoRySzHPb2#F9Nhf!HemnL_4z{v2?7b``9k0+DJRzsr3nM!vf6J3TWadM
z9Z*m6KF7tL%2J2{Gy=}l=qjn564{4&Sl~&wT`zNh8M0K$e*M|Rh3(C~XG76jH_>u*
z{OgZJ1DmrC)Q*hISRRPsa#oJs*Lztp(SS}()-L>-8|>Z>H76z#V^+C;%vdne)n&s1
zUwiJkSd?|;AE?8J+cR{Ag_^m)>fH9}M?i`t1R2cUaC3In!7#~hn%Imt$=uxh+X*DI
zB@Hb(Nf+_k051SS7ILk#AQ|GlE{nd{C~m`>A5&m4AXO=eXjuUYL|~|Dnh20)nm{Ul
zZRm;D_Igv^S}-M_N(J*HM4o6jdS5_fdO%=cmCeXHY`&a0{2|yOR!gNTi1-`2DKLoO
z_w2Y21_HDnvF3qQBan$52JLA+d?NJO-Dh7Ppp(MqHwSpOG*2`-<v2-VX91LU%`(^V
zZ8)CEg7(+h6~H0yZ-*wHoL#R3cu&`#BvgSL5bRj{`h{M?=MsCcOaR3`G&V-xolnpA
z`<}$!m*y?4c>uP%aM!O_ub^l?fNvX&9L^zFrQ$glH^9%$Ye${O;2L^$c_C$+^}nCG
z|NZi_2{K7ZU9Y_|9L$FK7;hv?SY@ehI{k=SL99eCXJ|Fwk*QD-(>)z!y=q@(oC$V!
z^x|Op+hCtFa7pJip`pQ5w737rvU;M|vb^RFC8l7K(q))y2#S8(%AsV&{g~*qX%|mT
z@`)Qk{uVLKhwk-%nQtj5nna9QRvIX%Dwg>+nR2X!kOPF)G+R?s1Bpot3JOm>Jy;%3
zlG9j4Tz|;1vAU-Y&2fnH?ywL5<mF`iR+`Y3w7=D=;wKhl<-TBKa*vLVO~7ADPh1O?
zi*ejeFMFm{?6b(JA9R<GXP{^ZqffPKSnH#!Wtl6-P_djVyTmjx`AXF|uOq5NqvyD+
z1=`TXK3?84p|<w#lpNy;Q~z4)3<|u2<S7XI#Pe@3SoTpx1lICun)x?5TwQuG^#WU`
z&ODalNaD)QSaCf-F}>4|b(K($f!Cw%f4}drMcn@?LSsqh3@KaT*2KoykwAs@7cdER
z^LnW=gz0KF#Pl@i#=q(MxYih^B-4~sqK8H5>Yy|@6!)OI@6&nH!nvXw>$+mdg>%yi
z6P-T~=i%w{aQ^XjB!R1#R%BS7qcQnO6L-36*k1ONu5OR@(NXXH2%C-%^mvQLdB}Ql
zWlzk9%Y)g!Kg$kb;dAGW2wx7qBbJeg)xGJmnYS@B<8V~CN3@I(|7|dHfjYkAAOzA}
z5qN_jrDv+n?e$`3)O9(9>kW%VxB<_rC&0al-)(OZ6l{wJnFcKR3DSFyn69t*y*R@E
zPLhdU&<$am(ckQPrlkgacNwS&ZrjY6rEmz@rb}!w?jEdJ#<1-7P`-#^`ZHe6VTYBo
z&nhuJ^fm5=r`Hbh^;N^l+4h^3pxc@nByuRaIz?s5N#-9Syn+QT9lDRgDVHU@@aMB@
zR{BK2mBp}ObI-?XBTOf~rK(t}S~RArpTAs~*t8`{yWndEmTyM?uu|jga5LHOgtwh)
zxi^MlVz*6dd=`tI{%wz_+$oYHruN;Qe&h1D@M;dr!rdJcEyv>V(n|FE_m8E1uW5NJ
z)H<^~7RhGll5}jQBqo;sN&E47!hm!bUnc>oUg+KW;o1W7mZX#eM!>-Hx{khEbA~8R
zM=*E;xpizpc$TrjPhv2gfgdf2`*bQbM7|m7KsDnmPJh7>(;X*Zmv}2j+}p60oCMo?
zKxXty5G^~7(t5q#1MBE~1A#Y>-pklZIpwOj-#q?PIs2^4%)iJ^UqFb1bNU0N#aGS8
zuNQ;;?Z;j%$`k*{e3{FqS=^^qz<1IoSY-A^mrERp|0)JyXg6i>;LTUc{rkAC<$Ao8
zfAIb9w45oC8ARc{*JPr^k>*-ZXD@ldZy6a~7b~USs)kLMFY6k0Rq-UZ8<B^eY3X)b
z1(gA3le9paCl0-J--INXvcbOWro2)Fx<Rgnc%f`-jK-L-PeZm2M+Cz32=(+c!?vG5
zBj$<1@Q0;}fTMY`uQzkbp74hf^(+Tf6B8?pP{`dpoF9C<6^nOLD_O5U?8kQUvDcH4
zOIE#jAdjR|u!xLc@vilIz;^!yhbHq6+@LTu6)kZtuCgz0x_Z5=$4%OwoxrB80WbLe
zm*@G8GZI*6rn~0PD{kUr-cuvjHpSd(OLyC6hiiAVS-L+k^9m{^sL9h5Yc2UapTemI
zR#AEHH=y!?t&$r&>u-OEb8uXjR_+qT?0>@LvBTY2=aNy`xw$DyIWL6T9BzWw!*z}j
zki!;d-2;iz)gTn+T7zF=hW7Y-o&Uq@W{FkxzdoRkVVM~CI1tGlbc04wUfy+?*hewc
zDeCCQcE!MeB2K@0hD6}{2;H88uW2Hu(ZQPyo4G;u?YN#>cf(0p^NzR5UpyA5vD(xl
zMgYUJr5@H2U9sw}6u)X6TLe679Iw2w#L$@0<S+hFes>w&p0f4XL6*CgE)^6HN}jRT
zdwE>!E$MKdMLf{R$5sjr+fNnWNERBvZ+x?vhvkZFgeQ3F`x?v5{qJu_OzJ3B3Gn3=
zHA1(hCb+F4Q5aKrT09p5Jq~SbXBse*B^^KGEMrX&5sTxI>B-38a~P~zO%*-u>QcM^
za**-$_Ov@|K$f}16!+ZGmY^N2<g}P;NvRw-u{ORb@anvIclx$q4+Zf;`!IAriSM6)
z5qCUWZo1gG=T*a=lV#`YMfrs|w$L;QM7z8V*8UD!<wNKEe9Cc}l<YcTK8p+YrzwJ6
z1T8|jS}fXq>48rY497B}qf4FhNqsc7k?#V(Jf`tAH%JZ|l#vN%YzgFhk?N0id)oDG
zwx`=6tcE;}{fN1Z%I#CUW~J`dBYftkw<fltqCV_6>}N{L{h2QL6h9pjtY*;r*e1)S
zbTEaJo-!)&crM6VFM7!QmEwJMnZt#TWSIDLYhR#>LdTDA@w%%2fZ`jYQ0J6g`4Fp3
z@=3g2t`g7C_Sx|SB_{qynE;K_n5J1DeGgztKnFfi{(^9VnhP4pSr4QY{~nm^qCrdw
zCGWFfxi4l74M3#@C%dhwAEOWrvYxGRnbGNfuv+?d%YZ`2p<}@rNQTgc3fPU6C?)a2
zEOG5f^PzD?JV*%Vx=juJs#BzB1mND0PejRoFHbqke`Q9thZ(YwyrDaUp%z3vQ1x#2
z3D(!V?jT5cr}5ww>nQHKd#0G2sLJID38|?Ap98AQ9!AhBSyGvqF|FEmlRZ7s$2vi`
z@w<2H7NPFxH-qOK`WnDVX){;PBo7X-M{HvfRQNJH8!JdCtDtb!$|o7j`KFnh$~axw
zZJZtI-i!`AkH4wJ{|w68-RJxYo<Era-%MZSBs$MXoo}hQJN{bbCQ&&YYPM%b-~BL1
z<rv1J@5T445eIu;*5Q2%tS-fR1?!MokI?S|`!0^<3+f+~CuOd-ePcgH)oaVBGBKJv
zK0Z)qnI5b7iMi|NhPY#>cs^=UFgx}hT{TxlBrp6R<-x?Cs*xzn$pFa|fuY|;1;TC`
zr!-Ai$jpV+0j8cBxJ{Pf`L4UpHiYh@54b}*E|01!FbViwqXX4=xx+U)$4bA@a<#S9
zzEib2@4wU09#KUret>mDNa`;<>dthWMLNp<`86WBm6eY_2<>nyg^5!r%?$YeaG5AQ
zsy`lFr8gi5c>A|-vcmKD+lznBulJY#SaeW3+xDfqi=e7uJ?@UzUP47Wn~ayOqoBo}
zEvBg~$^2!`$m&haH~d8ER7(O>kSybh&Ms5rlZAE`T3P|cH3`Qb5~MsY9oMGo-_B^S
zvTv`?Ks5vZnpJQc@?7+RAl11!;Kbw(;gAAHw!!D>a{lW!JmVX~`Fwy{kh@gESmy>)
zXBilK&`5gM!5}cpwnC-CZ@L4!pSySOLh_myP<UasaGIXGd3Oow<VPCOs^{Hgg28jM
zxHvd#<K-(bNWhzS0JMy42&NZv_&eTur<X-_4A}uK+=u6BA715VL-riFgzNx`ER>W@
z&WI|4iM#y2Q>w}Of2R}_Z#}ZDN_6;^BIcC_XoK7{H;;>noZPGUI(3WF$pq01%IXMP
zsYHgcOVR7|Qc^ch|BBjwkuxZzB3>mRe9$C&)AVgHs&5l*4F)<9Pk}Dm=s(NeGE>4;
zj6Mo{-0yZ%HfR{dMz34uX1sEV!z?@wHE4<79Ddcf#fa&AaRLt1N=fG5bd(8xMNnI#
zx`vV|2XVX`OBN95zZ)AjWtV|4^3^xA#i)BHg5c#J9;^THNsosVp)j}gXYFW9bC#}O
z#On`^V9Og*#@U3W`c;AvpTjtt2|>|Crr#<H{Os?Uea;8``uftf;}tYXc1`&LrPK8l
z9|#xdXlp+4th>Dc=Mn?q@aTQLu{Z%O0!I2Fa+c4iJ5KIzhttK6LP_H`s`ZU&17&Q7
z`;n<6vbnQT$x@9Z9ABF`y5se`6LkIah1UNXRqLcUo|K?%_a>VCvMzOrcjEc2_(jT{
z%I{up%7#jslg3`~Ev9y42=Ona?XBOpZru<gBVTEX(f)e>FNV1SzUvDX7y2Kc<_!@-
z0@`kjdZp%TTBV+~l`1p@+>K64cl{~5vft=2Nbu@BtsJaBwOsFvl0&3Z1U~4s8+>$|
z^stjLB?Ow3G=nNTH{k!VFJWTAGn*xUYxw|N<^e{32w5H-d}Q_I>)@&6+wqXzdi&4}
z`bXtcHwIDQphMWIkQ5M4JESWh<O8MvKu2`*)aI_q5ipWM2HwbLSv(3?kh|VfjLkEy
zcLz+PD}k%8mgU~PfGtQSfefAR;1O3`e?(=CkNMD)W_l*ecTC?KOgGB(yc<wjnN?nw
za0b~!+!FA<!MgyaV@yI?d~5%4;P-QB<*5O5JiCZYh5rG5RP#NB<`fa$WZ+1bSl-|&
z%D{)2bL*|gtY+*7Iv3~FOn*=89f}jGNc!$Dx}v8W*z;dm=utkQ-0t{*aau_mxb|Ba
zazu|Nh41n3W54q?^P@mpbb2mB7ROcqfm@w}2<;?ZFdr>K;K!m!H7|1Nk_m~wObww}
zC2{!faOW{1@GU038tr|8m8=|hY-{T-UadsR<y3BIH-24T%1hLqS+@Qtdu*WYamc5}
zX2m{4wB;)EwPYhd$!Dy2h4t;s$wf{C?Lyz6n4n`&`lcXl@B|xO#^0_l-TssCN*~)q
z$$dLe#wK>2&A!{)mmdB0FXe$h8uu`k9@Ked1vjhcrX7b{PHzWrJ)aowMxlOkPSvR@
z#5H#jA(fmZ+xg-0YU!_)`+EJcMi_~LNk!-0dj$TzZqZjtfi7&mA!&Go=jSJd82N{X
z%d%C%QQRZzBd=zg+H;gE5j$1(M|9q5I&lxX^`~DL4y?ne>)xR3f56x(WS5Au*zVEH
zCxL?GZ^c65i%njRzgTmQaIK0b^j*Wg3h#-V08K@e{nMEWikc}Pt!7I5w-T2m)&SpL
z{XDW&y7ieC(icS}?N{SXIA4$8d=bC;cm4VSfI%nbiaZTi@cRS3IsRL}OnM#!eu7Gh
zV3B!SD2N+^JVc#Wx#2Xz0Hh6VA)sx*!=V&$zTX2b;ES0B8*p+&%v*zvy@3*DtERR5
ztlG56&$2gJ-5UJLVSA>a1f$ZY0|@GXQTqolFgyXIuryWq4;;wVl1O#9hmZ^dg@7QK
z)k2kpl(larjS^r=z#VWLq9fJ$4(&$s;RdG^5Bz&HmjkLx$n*M4b$B3E(hkNma#EJO
z7zf8naR)+N$Wgp+>h3QSa$#d(=lI$nEox-N1aO(qEsnNb?4}DRnb~KLnlYFk^>%n1
zPd*Hyl6Is+R9o-g^!-Tdg^ldL;eb(V=6j#-o~)Y>``CU30v{#R!<U6m(=A8q_twNq
z`mct<hh@)ocIof!I{oQav&h$AwIicwd=`R1o1;!&K<JB7m5QL~#z6S{^(I@F(k<S=
zMaJsqM>ki@@9I|ElbDVfD*s{?AfLKaPa^p&xYX_Sl7v0O<8ba!!+`-#&j4L(DuVIv
z+ANJ$>e(DvH^%7jknUcXQx{v+HkmY!)5JGOK2{MSdOFy*l~L;5*M2yw=XuY`uswe{
z^%da|Ld3d@))9j!xfuZ2zy)g3%0`&}(TSTcs|UL;5vglNEHq@6|JDnf{{_e=JaMD?
zoyY^s^@5SN+tX>3ua%U-eLMlv0?hC>zg0gRsFM@dTMGC?7mz6<)>oeln1;%!4}<M+
z-T)vy7*TtWpZFV`_L6{QYh|?xm>O~btbtIF4#hQhLySsz^qxXC4P?^Fd<9cK<T9kF
ze;rvz4%X}0@;cUCvCE6*3Shg7n+O<9`&@acxPcYy!mh)4b3H`n{ed<PW=Uj|H<U`G
z-T$}z$N`AFOg;L|$YOBE4$n70iUr}iWsp)6i<{V+WPu`$Hsto^yrx_lZEG;Q%cf^c
zZ%IX~gpV1RfIGyr-`M#_HuyXa`h(t61XDlw#qaVBqoLU*l-0;Up8`LtN&Rrc_U_#@
zn>TXDe=+aldB~%U4Cj49+L(X7y?D0Q?Yu+r{fEaW+MfN)%eyGPk4j@Hty)#hRb)A0
z(QL{HZfaaUn92KHR4(l}QN@B6@}f@=aEY(RMho@1qvE#l&qp~$wRFm|%H~N5OpR=;
zCv>10jB&~%$!mWV6?MZ&Ipf>p5kBR=zYp8%y5hhKfelY{u8)kP;<n%zx6>H6MN1&`
zN+elX#%ihcE5AS{Rdu}SXgb&x_Z!?92x-w9(UpqhxQf$7MwGUYFV2pDb983+LY!vN
zt6X(?y8dXnH!i`ze%!nR^X35(Wl2C+h>oe)=qVb%hI;?=_SJuHo~P}9)z+aG6c|B^
z^#3Af!PNe6uV2*Y^+Dd?4hmYhGn;a|M}h7H8D|9vOSA-xM!vb~YL3T$-Ag2Mr4>P+
zlf<V|xHYU`w#Lr2I$bj-;i>0{;a_f}9dOhpzHc|XKJ_C`v^_;o+uNsUgr9C(ddjkV
z&(1-ew?kG>PcMc^8D6u6FvnU$VBte&4~4+{*|V(ev5??kL<m^@a7idC)Z2Ak5$hum
zK0vlcT<hxqz^epy_RVAXX9)z8va72rs6N1`f*^s6UC#k195Cuamj|YhX8my(u;mK;
z%yw!GnFrG9lmP3*e4cjSD1vjIm6Ox_6MPW8R?=Jo32w(nM)rfO?RqZ0m8g6@%qp(4
z{67q9mX4zEF=2}zM%TmWJK|$p+yknp9Pu2Qw3_&ggw$5lBEzm1?jJ%>QZCMDjDD;$
zs|vP6ARM$}@A3>h<dl-l5_W1;&kkMoCyZSYZi>n9Nx$(=Mva?sOu-02n2A^DeW)$6
zjPeEzi)z|i^l-{Wv+-O5!@Hxk=F{qY+tBrlo{#BO$`KwDIeX{qF<o{9jjbQ6nQ&r>
zo&MqNS6P<}bY1%erouwFnHQVo6|kOgyYjksZwzyNNY5@sNL^oPq9DP0Lhz~kcdQe3
z1AZ7w7e)%YEGi_<*lB#Rq)|qR?r8y35Q0U21^xea!;nmKk--|Ws)B#1S8B%V@oTLx
z@~6m?>H0%DpH!8H^y23CS9%|4N}hAqTRgr9z{9=5B1MGzuxhFKr=^K*tl>39RD5={
z;P@6e;TT(U2rlooDS{$3<S7qj@Lkt_(JT#g$%cLXcO+m~bMxGfdB@~?#d=Y-hU6(@
z8d;@nF8hYK7nPEBc!#=yef!o#SJ&3@^b`O6+X90mZ1K}sAv%WWm#be66yt{bw>#)^
z<JfYiD}K@*(4xx?*Lx6hP>cT|p}TSr;$gQoNaF3n-CyX4n;|JN1B{4st6#eDdDxyP
z>YC%LtIMwX@tTX2S6bITr8-vuLr}Y5op}Lx^W@71e3o&FmGDHtLxzTg(|9~kJhb-g
z^9;PD@IIdI!P(ThKAT{oCKpZt*TU$=%`}w+V#IYo3p{^-e<VHtd;}g=pr+J83kPDO
zagYftb;T(Zim6Jb5D^o@tZ{tC!o<`*=UOw}YGP1CR`C~BRN&_W(mQC#M9RnOt|fKZ
zPaxiF5B8#<VM^qC@xi#5um?In_&JRI4|pVJU^)^^+4CM|#zC~yzUGuiYp(T~vEavK
z+95RU%YFh_kNw%v_@}N(;&O8Ci7Mq<R2+6n{G{`b!6h@_myY7z9u*SPVq#cWhyw~6
zMsAd=BFvJC_|?|oaqv$`Es}rqTP>0{GnNQINjW(Y4Gl5R_p6WG_i}RCUUd-Iw9mEN
z80?qZQLST12rPX1;>+A-_A`y<iIrc%*3hP?^s7H(j%Fp}C_^A;*#J$PLW*V6h^->u
zB=)|2^d3z#fTwkV+N#Jv;IJnto<?*NwjUeu^>GpvWZ%AIkF^{{-Mt}XlHDcrx*dlg
zI{l;YX?%KsN>jI4OSs4JpW|&^k><v1ew!xLuo_QA#t+%&1h?%n^Q~A=Oy)H18`Y@_
z(IX1@Uu^0P73zbF2gguO63Q@-h0=*3MGt`KDeK>iUR&UsDyf=@wehB|lGx<VSPR(K
zxoNJ|Y*yYZp>B!i)J|89$ne^Y?TO5c{NXZ1608f=_~yfHY9Z4`#}?V4v7@(nX*aUv
zJU`f@Y*Rm%p@!&i05V{mp;z=9Z20)zfX`CdmH%7h?8(Uq&^CT03$UHFEJA%JTDl6c
zgUJW>m>fWZh6fg=P?T9XXt)SWofH9ECPdAn5F*)7lIwMc*%Ww9)f#dV!NeQf3G;y~
z0M*o9(yuh<^)SNQ@U{ZPXjPA5TS0XC1y(QpWj~*pr!=dk3Pr`oV-i_R!*XO8UTV-k
zEjyo8{5Ooou>EfsH3^;#nrl(c@Qenge=`0l9W>8mO@Tp@p121GYs-BS-Q^9df3yJ-
z%Qu%jtaFR6w6$OA$}i7#OW#>aSc97JRYzMjy>L?dWwqp@nJ*bS0S?czzP-Komlp(5
zl~<)V!84GI3>HXVQ)lB@4x0n;a+Q*tAV&-71uaL!-qrOQ<y{ZNL`TRiIE#$f2w+7u
znf7lS3Z^J$YY0={K-9p<{-4bdQ?{NAVMkd)A|R3!5$!808fhwz-+gu{A5TqA4n-je
z<9SfuT$M?ll>NU=PrA;38x)yEXI529^Iwpai{B_URx|K+_cO5$yRl)VQ}$tNNZlr$
z;@R%wCCfGSFG{(pqWNqd$tyT;#=d+`HTu4KXO4`+8JhdE10H-D8;BxsBhY{{?*ZFe
zYRSL+RA|NYK-B@z0k(t-D7!KcbZ6Y?Elzxaq=7$RjCT~V{<1331j>&SLImWVKVV|Q
zq&`$d3R0Y(ud*$cHysaDr_E{mUQcQ8(^vSvAuRqMY1e{!`h7uYDh{lMnghD-Htbo^
z=H0*31Tu!W=v);6G-R#V&r`S9<n{5=78TOhD+aT3hP2#As&{yv+z3BpO#sJtu8+pQ
zh{s{G21RG7yXAkMinqZ3XM4B0Bo-ASTh};@G3LwG;`VtHV_74t$&?$ImyHjqp0dY7
zG3)5)D38+Q%pE#~WdL}lM_=4KJ>*CbTyES6(JAO{dw2btb7}qW)BfN3^WGr^9B_P8
z$KdMElJ%Vww{PPujBgQUoL;3i<Cl*Y*3E4(dq6D&gXl>(mDk(+gFQx{wzjrj0AN5h
z2Wv{{qR)%hmXUMtK0}*el*!_%%4zfI+xz$EKCi6!lc6JhIbAn?b&3ku_SfZ+5MpL@
z3JX55@CTkh9iG7IQUdZ}K=&6`tt1|Ie+Tjlua(P$t2ZVugleZ=y8rh1c>vPl$KezM
zjXqa!U9k?8d<9=l1{2x~E=_F;<7^L@xb{g#yMOue<r*CNcVK-LXrZK}gwILzJlYm?
zxWEZhRaCr2&SBHx{T~GB<K`IuBHE&wt!X=GbC&3pJ!y#WyJZOh^I|TZ73r&1t!KO}
zyXOxmcqbtNWiND-Q#Z#r!>sgK1GQvwV-^w3*HN~<up5)d=8SRy19@VcY{z%zxCTC5
zqP5)qQim2I^^WUv0$+VG>XA{od3-zmpbzJLqOp3SpOHfaxmGE$TE=Wws?Qu|A+s5o
zh@|;A1RubUHycOCjaT&`g1r{;PhKbuZX5!ZAmX}{NqFikLbLcA`f(IAOkcl`OoSw>
z7=>_KaSKsj`a9jlI)S7JP-E(X%jd<}F`nm=<o(-JRDWQ`1Jdh19~|EX_`;Y5uUI*w
zpq#aEt7By0>UjfA0Va$bhp0eaO$`lzNED1z&(@hx76Arkd0NH(_U~Bff<oko2}DLv
z3Oi->Q8=&sqUl2U11n%t-lX$E%u(<k2Sc9>4@D|@pE<0I*ZfqyfS3SY@>mvFBAByY
zy1xjih18(J0;9t;Bp9Ux^mq@s>KJu9;r3r<|F@NBED=IU6IsH?;i-CAv@xmQXq!M&
zhp%)HBSdV}ut~++dUA36{q2@>ir{#7JGH7x4>6$rW@b56_HQ_zt}pjh=j2$PFcHEI
zABR{8-crb#tN*(>PCpcd$j*M=lWx!QRHxqb9flO{WLiPq@x6Bmo+XQe_jIo=17YD-
z^T1&y>{h+7dquvnc<*v=6?5u0?j0f`G1z{BZ_%nV;eMVL<^Hn1h;u&=RZEMq%io&v
zvvmdPL`^EDV%T59X41?Uwv?^Ug8<Ad)+?2%^NK|WBf<<pdxP7>mOY74v9Yb+>?f+C
z!f;ZbndX})!t}3MFamwVSA)uRF!{TtaY>t%j|-6n*SYR8&`D21Ek$rslYq3gH3onA
zmOR>M1SKD)?I%ra?vjJt1jTF-NIE<M=zR%_HEew5J6JBkw3}A#V?+c&&jRy@f1RE3
z4v=)1>U7ds`tgFE-?I%xWoXtDmr+7Q<U6o2pkN=)QC4nF*2Yw&LITh+f$u~2<G<oy
zZeVcnT3J$k7a~L-DK<QCz>uGW_9%7viQJn<zcM7RtWiz?vM)IRN7>b2Oadyk1VSo0
zHUqeS^`NjHlxjEtTvcu>X}Tj$y8M9L${y-(`RPwn?n$8dNUD7}nd-NxoL6vv|Jw*k
z#$<JP5SV;mXG07)jSsKP&Yhk~IJpG31$Uwj8bni1$6$*9OyDfo7I@wX3*|0^;lLBk
zw$i`{?YdU(N&okN;NfK!nV9f7eojh4{yVH<Qm&Y&8mFzdU3)Rru*KArr=D|gfIo}d
zYEb`Y-2weEYNf~*4;L>0yq%2d*KK|)i9Qb<KW5J^dTO8f%DE!U>Hgw$eTR|z(LBgn
ze(^pZ*33<Q{gppY=x2L}M;=4&+ohD*x0##*hd(KH^_SkhP)V@_u6*yWv{Q5>t?Ke;
z*?3lM{sJBS40K<G*RW+!rE8hFj2ATZjrtUwZTR^oJ|17CUB0Mev)ffeP!pd+<~zza
zQgZ)pIsM9JQ}B;LGY({IEeyk9i&3%km~X!Ex?d&$w+T7Vid%jPO$w3Q;kq_cGLT2;
zgq;{)OE7hTiLp6v$0M;4H6Yxmt1y=_*Pb0)R|5A48fCb#J797FR`LVTm|#B#)SyT!
zUxUtbr%Bh?F>$iN>vpo=6E@d-f6oHKgc=ZHR>Wf67`_Yh^9&3ORcAPi-SAc_0l36=
zetI<V%0dc;L}2O9+X_5Bh`jUA3B|Mwtc$Clc!3YL4lJ0)$Esh^k(p0i=M0Firfq=~
z2>Wx(EO-o_p>Z?dZ5?8nHYiaE+R5Wwa*_6RVInuPIgxu1YS>4Nm<ALL>^q=2$8RD7
zw-0Es=)FuoQ$Mnh?t;>?pWWf(Z~&F(^T>^$FYqdT#F&N1rz6k^OdlKl$Wh1d2D*xN
zu`!JY8Hd56I#VNR&=#x#8djuV9(YN`Z>0vQoj_1~3sIeYZLdBIOMoFW44#p+_(v$*
z(~y2)2oIAJrR4t}OnKonhkZ5JjvFNzW3)>|NCoUTXhu*aKMac1RM&{c%Aw)!OiZOl
zr_HnZYe@f?qom8U(`ra=w6Xxuvy%yO=tg6?z%#lZw?J*6|C8M8X%FR+BG-w?%T%0a
zM6ZGu&%1rPUNkfbUe&v_UwUG({|I&w;rsakWhghLjbM!7i~RNvx~H)Z%^AjL7yPkk
zsVW^lX{5<76f{3*xn+q?LQ0<z(43e_woLRBkcGGB4trUAE{Y^a#GdK5WKV6#<JAh~
z7s}&X8JwoYp47YlG5Ud;8-2O=;N##U+2)MavpVwrZ>gyzj$ewP`gO&15i+!%QKy7`
z{$d0S2`_}_?&m$nG43xaxz0m=7{5i{R7_M~O`<cPEWk>*+;SjJv4zs0S!Ir3AT*J}
zMLyVUfT5sdhPhxw1ZI6`3i!5;WO+@Xc>tU=3H{ojh^4aE@^!5toFH>nrDySbngdHf
zn&UFA)9aal+pI6G`V2g#i|h8f-tRbEb*_;6PnvRrxzUTRSQa1`sio=^WWV)|_<}(C
zzou8<zUID3{Q`#7{KCSW`<eFy1hh$b0TqP@XAzYf`XDB03(2M!>EaVdSEn(Eu=juk
zQfy!8<`2H3QUrj21|G1OdewMAMikg;Mf2DNY&lkXk{<GXdRZksnTu+Qi|$)(H%_z@
za1())sVRVN#|;&U^nn`$EBcTPU`(oIE5=<1H!yWcCqB|O=TlQedn1yzt+T_7ZaTQY
zBi9T(!PYO0z~c%4Z>H<8XI;aHj=6z>0nf_8Pe9=L_zdzDw&3)ej23*=F7Rv80_JZL
z6j5HH)knJ$941D1WbBy{z-d3Jb-$)_d8+plznoS?-6;<qqIhxR*Mr?!37frAR54i7
zG-W4nvXBoe<@CTx5El3<88@6B@^%jVsBU;`PjDW;RNo`?Ech0+xTg>{VTsEiqvm+o
zSNn<0W|7%ifL6c15nQGS3858&{Hq@$$qGi0X8&r^VdF5#<7ljD80I&~@RLW}!U<H6
z-|5MCwKg-;Uz9TU<>Me?7LVLeGba&ewD`vdn%9xufA~Sn-bGUmXhA$j)jKo-wSHI)
zM&c|(gq=p?g--di5Yo<|;;NUG1hjUo-bAjt^e>ElEPoEwE-0Lv%US9!Lj8%#sMv1M
zU$07swiw9Ps-Ycvk1Os2wRLEyhOzSdd!?m+llXdpZD57B>OJd=Mp$>{ZBYHvop;%p
zfH-4w+MbRZDJ3T)$U7)K$4{`3@5j`aUR0-RedR5BKbR80lRM|^Z7cf2yf0I&XQeFs
zF%7;mkt5p0aGUCY@AO43smiX@<j1m#3PdG`k}9G-d>8?U@b;wRkfR>2XU*CePj;!b
zHKj9yN@gwv2mjW&TXqV<RPMuSuyH-Ut5CwkLcllUHv%>XH+@TAY#G=F;C>x1r!$^@
z;i^@bmoBD%TKX`Hd3<NC-48<(!j511n=~5Nh9H<t`ye-p$0B^9dV=Do-eLRgd;we5
zWAKNNoNxdSDW(rl?e|P}yEh~BD-ov4KYAW_!;UITxyLK%IdAO?jZV81VQMjWZjYgw
zos>OMSW59r??jfM8pE^NBPpQ@JfORnjjnpPu28bzM5Ckv;V(!p`N6ASb7-dsCvHX)
zH)yuEM+y>N4QyMW=$TgiQl)+_Ty&}hc`z#g%b{}KlEgt=C(X84_<k3vI3=<g%nCuw
z!k|!gQGrm3DSZJq1f@G<AH{dq6H*$Qo13K`H8iAC`v$<9(r|To=6n2E@(uzoYKqPm
zAnc#6NDt2+M;oJreb3x{lCAqQQKomqpM)2ie5Z$8A|9Tos*ez-3+&B1ckXx==YR_c
zIA|fbRV>a=M6Yo{Rv(gs_bJuUh;w#x)@yra=s=y`0&n@yBI7D52FTA3?D8%yJ*Ik7
zx<cse(C|LpxPPBJzf6t!%NtvowRe5&+eXC;9Vv<ln2z@2T*vApV+!hL$D*zLrb~*p
zuw}4PL>TKO;^+u_PwMA>2$W%9pyoC^T&I$+G#2NuB;iV*&X1uD3=eU1+4_oAfUKkQ
zsW?9@&gZjCWbx^t(5$opNfwPBYG6}!rVtYCZj&sxAhvE!IIfakp_Jo%Q|%8I@mWe&
z950TimOyAAC^LVyzYIaNsvNp17!PEAX;Jkv<l(2Y1NCD$B_HT6?#F_jmu~I>xa)Tx
zQ)gOCREc!P7!orjmQu?pEBwq%4Ix&Z-54un>Oo%qN;?#=vC6dC9xV5zBB`B9a&XO6
z`Tj77nq=>|F?T>N_4g<Lzg#{FEXIbie2(3Ok`x;w0LfU0`%L3(%v0aLwY)i|UTvRp
zF)g0Wpw!m)j`W;ywc1Ej+|})GYPmk&mgHp=X1!|iv&(<Br0?~Ml5=dd321YSU8Cou
zf2?{@;n@R}`fuV@F0UQ%f<V#kUS!b4#e~=aq@Lc>;k&ga$8Av;iSw<y%ovEBRADkX
z>@<dx*y%z8?cV!)((LxF5pk^fLHIoFZM8oGnhsE}D2Yxa?=)GI-q&q>60gN0w1zq}
z99zpCBfDJL<4Y&!wnT_jnr&`rX*^xN{eitSVcZ_Nk|e7?b&}TLLGuk3wa~V^EoY==
zWu;#~IjFu^WcPQri@_7hWxI|h2?c?F1oQ)pLJT8BGr%(GVs1n?VVsOP(GE5ecR$$S
z>9Ihe=w$SIEqR^Qyh=J-Xo%w4pDBHbP{J9DgfzF0IpZib;Lwfgdu=KN+;|_vGPe&q
zLX&=m8M>MsA9Uy6`zYKmFzm3sU!EwW2->q6R9FSzl7gvOBBt+OyI>>QVp>tm8`MHK
zNqpz@sOQm4yPARy3ImI0A1mV`Oq1o3vhH}OAi~XHQH<r%7E=JI#xMEn_6e3gu+X^x
zYnlcy$n!bvHlZMFxYv7N2ixdH!Vl2coEB#?Pu9hu&pv)G_~Ok*{NY@X{&s!Blal(~
z!2P1?)~bu%2jjokweEYA^~exDJThXa!6j3?+IAW7aZMnIGCr2v&bb^Ft$N@WyX<`?
zKC(S?uYSKM$b;bO>}A)hnbLEUPn+5|zg#Tbm5mB-ZP%UYb=Cc8<z5uIk`@$@b@A6I
zO6e*$qdYS0JGBqXBUJWh{_>YGzB2b`B=1fzRyFDe8}MJLj?)u~_WE$P`bb1;EHVVz
zN1ukbvTkfB$|<(9_H<8En`Am<VBKdueGtl%$YImB=Z<5W@5ieU-cgd|8x-Int8^4C
zi)3D8h)g%QAK%OqVwrRCm!?WVN_bc{=9Fttjs5m88<FM>f;$pclA*qC6bi&;-h1it
z?3jpqns{$0O|(5b1N$bLWq2&*AMQKSkIYG3|DL5BxPA9d!pZMSlPq;FZB@Fg(wFL@
z<I{(&cCoijC>F$AF3>3Lxd~WpQPcmEykNO#yh>SUlbqg7XuSE8lPH*<1&jfft}azK
zD;qA|*L^O?qbRo<Hi|AHDrPQzovasJ-s_})c=`U_;W`U*nfsyXjTy>^2yUMgT#}RC
z#*3#wWO&_?o2wB<#sNh&Iws~5xey04f)l_kND)K+0!}uRMhVv)<d)aKuj_~~F}41v
zmLIWF$_VT13=j_7M8-&%Av#4swj)1A2cCK<qp&w-M+ujm0OvoQEcqztJ^o$sQzMY)
zub?vlVVtShI!p}FgucYY#4w1}n>L{$KT@dQiqwZG77$U?Z=cbr<ViJiloV7|k4K{8
z2z(Wky5RWF^}ryS5hab{3T;;87Et)}|BzE=g4tYTAZKt`*lli8M5`;j73|x5rE3>d
z0ybht(Jb~TC&27on&GlTmYN3yyCM^NE&V00Q?aGC8?YoS#5kJg_zjD6_Ia2QmK6Me
zxYo^!|J+RDvB12$2pjbS`W(oMk`dF4XnK9HsxC*qcDy-$H(f*}0?6r~$WF&Fpo==!
zm5BTTH(=z;W1V-Xyq)y^_`IF7beNENk=kkVyJwG6k$ew@8|R4R{?3o96T<rgS4>wc
zx9s$@6-g6uyCOnDcClswa5+Oz{9%VD3>FBds&zwa@0*a_FqK2;NdZ(3;<DZPZ+n#z
zV-gor6YrtCc#EPwkD@Y$miDh^6}AbphR~40JIeJ9&Em*oyMDCn`ID=TyI2VBN-0}V
z)8|92g8STXzW0O<VKMj~hj>g@b|(?xWLgYXS<rgg{Pm)Yrr&`{2*x^s_xsht5c}mR
zbb1|Ov=H$il#By+64w;A;IrZ?czAd)*X<JN>3uU4u2U|!PVG!@j*E`ogM2X<wl-sD
zw(m;IKIKj!f?~JeaX|iAxTYGYF9!)VG&D+HTa}~U=ev&`^%Fx&Zg!BdYORKGHRS0Q
z(_V_X?$CRs(f9`3W+{PL3o6{rge7a<yI(c370-i^Thjr|^YzZqW{{711k6y#K-K&M
z$^l~n%j<@g`TxF(!`+VY74iSRiu16b4pi<rt9PhACw*7wcBp@ey#-OM5kEnNL$5Hq
z0<Ay^09P93<_uyjoHf{pzk}J`FxQ#30m%%-Lh4#u1GN-l(Y(Qybap6ih>tK`jwvSO
z2#n!GBqXMfS6L7^9=;m#dc*0dso}kPc+IDK(X`zAJ~5PX=Ejd6p;JQXRth_J86d+|
zP*x^I;!lCcPSba2#1S`S6<Pf*V4m2xqPP0r9w5^Rwxk_r?sr1>YGw3j$;pF;rakwS
zBd6(nAIiuy{99-1<aTkP#K-&tPmFO-j^~WPI#lT93|CR^mM@<<D#EIKyIAA8Mr{mG
zzJ=*h3#X|>U#C>ULUrCtSKn9{?9DU;-VBhHEuctOH8Xo=SvTK?zn#RRuF>OW-Bgr-
z+^hJZk0=TMfJ4;D#$fI3>UsiqHysq*fPN0|->2(TN8S1IZ(^pb&*NF7G$!S<6LLaT
zROEX;4BYeWS3XZ`otAt@_r+3LziK%)X`c7(bRFM9kdgmIp9?lLFFs>lnll>ztY_xS
zH8|6`N#}(d{PUpUko@<aD``o$uKJO@iQ*CP?omb>0$;ezQPQJVMaWs?=#CqiRZmF&
zfIA;NQ7bF=uK<7oz&8Deys|OkN(_Z2U-SS_aBVL-i$pmlHsmGvgDkWQi!9IGeHAu#
zFLcjsy3w|5v>EfpF&(SK>B@7ocwj214w79T9kKsAI`HCOoo0+DyjybXbk)_zdUCVC
z{$f<al92KDm4bquPkH37_VYV=dM8x;&&V`%K1a(HmS|rX>$`2ZJ=TBD8b2F~dYX8C
z`}v*Hl1GJ|&u>3zt<u9&q$*`Sxom8_`x_@rwr%q>u3$7&_t0iniRi$CN9ILmTS2zU
z3JR#adl~kMOz8$z*g9rk_4?U<_b-#ktI7(6ZdL>n?0v^&joZ7WiDQ>?W!QO9rEv?R
zjJ&&T&uCB+k45%&dBXN<Y_jO^aE5HFLOo8l-;x%A^82%raq;Go+9hd6qW8#oAduwV
zFXJb_TS%)EWzBC1VMJ>bZj-*uB|Cpe)s;oIPITMczI;?ykvvjYhycygwytg6s;lR@
zKxN6hZwDOGeS6=O$fk*3X5p&)>6Nm_i(7ElTCx9h2-d6W_30tLyroQB0CLfh^15!X
z5uX$PwaQUXo}>U=eG?z?rRv6!%iWLZF4MPomL;!}p2c6CNxm&@dR&T3ziQVt898sf
zT6yZt<&S?#>12Yo`LRnEm&EnLrI8JA<o??q_jSNd4+!cTjhiyc?`lwZD5nF;P<Bze
z(gQyNNE-C7tYt0+`$kav1(*AkCfg5->%GvP@~PAZB44^VNksVtb=OXV>yd(=TuiCg
z4=>oX01z>z_i>0a5h+Q5PYFw)jtIWq<ma_+Lunr7Kg9W1yLcQwThBk*hka`b$3Cdu
zz&~o$D&eWy|BtNq4(Gb<<Ho=CCVM0^E3(O+g^-z$J+q3Cz4xY&k?a*^lf6gw&Zz7i
z*)sFI-S_?co<Dxq;W(~;B7MG}^E}_@Yew2VGtYJE#>Md@=d3Exd+~u!e#WrjdyPrp
z%Qa;S&)?6WVtsu}i=4KjW3bcyXJO-3w`nhb3a{&*s#t34*~Xcg7qM5ZNIiiVeVV?H
zTWk{FbYd>U<rWxuQu$}L%z~kzA3%p!_JsJ`SZT%qO^){kwTCy@<V%8a61Vb|c``)u
z8ar7%^?uHM9dg+%Db-PT$L9GnTiqY?yOZ;tL3#UZ!&j42hvjf$6&sVOe^)NEDg#@S
zeZP|wKo|-2!4+=hOcI7?6t|L3gs4+M<1Okk0ZtM784c~?_xUntZ*-EaR~3KfK3?mM
z9}FcBEdy83@WJZ$&GEz+Lh^F=xH#)QCSMA^pb=T2;OhqEjm03<?KLLmdNyvWM@M%;
zs%`RYr&Ok@KGlG*eX7KxC|!6wiuOHcb$4g&en+{P;@_9E<~f(gzh8ou*#4K}o6YP-
zJlj(T;x~&f+jZVQqVderAY&#~tJu!;Vpbq8rxHW#aR#U1Wtn<HT3n`3=i;|)u8rU2
zW>2afHEt*Q@qk)1mPX5T@16lA;UXxgrRTyhJryHDW9^o2b$@vNvHT5t`hyJNW#>Ad
zbeWVv%l+1A5Jl}G$+Q@Olw=WrA%KUQoz_*#1&3E14In!5CV!qq6)NBpc2$%d@hG_c
zI)%k^<-rYgZzG(86+vtY@8`we7A}q4Z;^7E1>?OuOTKT_wo;D8CjN@K|A&^mB>mrA
zvhV=YZ&7w{xnVcqD_L(GOBUP}8}U*Ft+UY<OuD+GQNSRXSqYMfC@PC3Ft91JCT4J_
z4Gp~cZAUlX6<GpA_>7adtkt|BfmA><UA9{j+G01}6bQC&KlllZ+V_%Anu9NfMUae7
zsYwcgwyh1*{d!vMu9uO+zzf^|Z|z-A->a`&dNomvj?fSL8S-$5ebnFl`B?`L{^j3T
zF^2^yH3air5>~a-Sl`QyoLCqLQEnfaAGCZt{<Pv)2k5Wse+LYVM&`fnM*}D3?o$Y-
z)A4Y3D^(W@53Xy8%C{>5pn#6woZ&=<uGz<rSHlndsX-7}B!+BUEI|BjbB0)L6#nrh
z3sN1;-Y0@DodH)G%5W_)vOjb*Hm-PqkAhAC8iJTRw)ZsU&^~hNS^g?(Lnna6U_a*!
zDu#6a-URU}KA2sUZNKZ>7Mw`9mzOPKquV%5MPv#x`R=lr3Z}0v_w}v9BOHMQvYpW&
zCtOVC>v<<W*iXDi;e#W@58laqm5=p6va@7h#J@W_TpuP+ipl$jhBnl6(8rEusA%%N
z$?k|<#?c>{_G(iVs0j2#ln+O!RN#gI9x~nKKF_8v#7Gh`DT0?67<<WrxEIV0zHlN(
zi1=Kd#?#hGj9vngXgXYw;UfaPjaWHLA*(P%N5ES)T;>L4-nIZfWOyB5UBeiR;`-l*
zmGu7})+e!~!S{9Um3Vu_n)1XnuOcEnx6TIRznS*_Z2krCK(jjIOK{kTdv1Gp&&}&4
zr+oVPRLmrx4m3IUQw8z5pZ(GD`K+8D1pwHS4>sUQ8Avv1cHPZ5;0<;=?29+bqi5R8
zFqyr7T>Q3n{M7Gn#a2I=M&;{LUo}!zwUuGtn?MyaQ&VKU#L6f+K#K{0(I+J%llvh+
zg}0n>{SYdKw7)!qIl`uTHYy4?zBhM#Gpxn?q9)zGI0_g4J&b1=;+`k)$KdG#leI)F
zk-|nU-2#JVS31x^b9GLkMQpeD3K=9M4D&RA3N}Hnj(-;o!hmfPJ^fg4s@lM{1OOgp
z)pUKJ{cdii;%Vjc-Q-uqzI>>d#S4c(7(wI(s%PQHQmV9&U^oJxkef+Ej50ET0&8_i
zu5yOsk0A|!@Q~RGN5}*e4!akG-^?#ug<f>>Sgo;&$TyCX38nnB_p|>rQN8_<^XA-^
zkEe`460T_6;Wz@8b%;SY`mSg14SD4-72n(orhA2}fJ5m-Sc4Vy4RBS`4d4`T^!Ne;
zDtLwg`|{ZwV~XuTF|2P=RgwUDO_%llhNm}(V&Q7#^<8xdO$@1*^#$O=Q1RVKv-QQO
z<sXds5D*PYhs!}|)`4C+Zoz$MAVp#W#$}}T^)ftvkWv<b#S740lCWU#d4s*%ZajbR
zCUYEORZjUb$skER8-`g3mnPOA?Npg8+W<n?n+&ubNOSo0Ym`DawUBKAXke%vEmY3|
z)5CH!T=MqHArbmC3%>d3lM_Nlxws05!0%kv@^AQL7#tLYOU1A7-v{;odv3lq2xc8@
zl0yBm1qcDWP8W7!E_>N#Uam7XJ`S*mut|GRaxz7eVd<z9KoUsQVAZLFUjabJ00ny4
zF#J<}xb)q`Q3$>if#~shv#)f+kc{%K&0m_UIG`HL6`vLgAc(&Zw5HB;EYtp_x0b<P
z3{z>8T+X1S?Q|Laq;xXay3J8cG1PjZZ)?}s%>Xi~-{|%hmBI_QQD6_0p;WELSZqL<
zN{z29<}*iXqtDg(E(Fzq?S14JD1++fJ0Rw0xjNCy2%atjqAQa?Pmlr^;R}!-Q0sDe
z(*tFTjQY{UK6^IcpN3z#{b}D%VAtW644+H2<sjAT)tOaC|NY#zh#N)3G0wgJ4amWW
z<le_}AqSGv987A%aXPsKaXmSmhZ%9+_G)jHbCWy-&!|s>@P~=dy8YY`)xJ^J)3+G!
zd3vR@diFAeNhhxpO$vV;unHWyG|J>{?0Gupv0I)k@?6pLa3tlGYyMx#HDM8M&kXeK
zE`n?vnwkBh?80L0>pG-lV=lE!l`I+G(+*lNy;4oL8@KNwRzU09)sT=W%K8d;F=#%7
zHak$8Ys2RO#IeB3S^h8{5s}&DeJDQ22No4#90_N#)NWDbqN1TF{q3`<hD<9T28)r%
zV$70P0IXVIp9YoiAolR_@a_PX1rLjEv9PcZRO?U-|D-XAA~{I79PgWXY3;oq01S-5
zK!*Bkp?c=k*T8cJj^LXt-UZ0;6*JzhjN8$F6%Usb7eEo<(Q=lUnaP3j4)F{2kmX)9
z9I~LGAY+1VsXCx;?sj<APW;96z-ql=)>>-+w{IFD1E?S#Nv0cuFQD?#CME{oqj+{$
z@rl;l-@^`qZm`6i9hTU+7K=0F@HqVtTz&E=D=WVv^bT47aC}HrRg^{lXBHKqBrfgr
zODHs0)(%TiP5~<vz@y-?F|(wu)!TYq@q<tGqa!};EB%Tf_ZNG*mg(&DZL)8kDpCjz
zxLwx9(^pwWAEe(S4100<tLb;MW0!zg$PD@8>FWMhg6q=ql5Tr@gF4Oal%BN#-_&zR
z;*t5pGWKA+EZK7ykE8DfB(;uK&7C!t<?#H?R1j7^9FYJegL-Y<kI0?vUXxRgxN8a1
z-OgH{ru(H37u~#*E;#tJBCiB!;mvVr5msSc%16$5rK*&cxPs;6GW6ssnK-9wz5dVA
z6`beK4u?t%hA%5oxZ4aer7Bylc3fL7e!-cB{DV^Y7UMMfxurW2#nV7Okm`upOt5B_
zK&65o1L7y#fI(>c&Jw6I_?*MS!~F>!tAQT|_Lsm~;YEhVn{!XvC!qMzn;A3&$_j!z
zDs>gjSdEx2v>xdjh(=@*L65V{7>5;vGUms#?rjJ7z9DQyi-t=)o)9uF+;j)KGcOw2
z7}#Li2aONhwqe_MWSxDn2pL_lg@3q`cuC(!fG~~_fl&pBRUl=nU<tzlhSXd%&GIK=
zk;Sk-o@yfM{*zV!=I#H^{#wl_4jS(Yygdy-s1Zq?$mZGLB9h5p;9jYiIGPihB~Kt8
z-w$SOaJkTprIqyXV&LKMfeZ50HB?y))_|p>SX<9~!DBBI<xgJ8+2Q>K=hojg0oVw`
zy0P=K^-aI?ab#|HEa8;%fKJeDy9ow$JkQ~Y#X}!B`BM#&@%)CYk=9@Ccfabnk5^0<
zRi#1{9EU}JQ3R<Hm!ZCZvETmp`ws%MAWNk8UC}+Q39!)MkgM2!S9bl^Xbaxbk9t`F
zsizuwPwiViD&h)aJljjiCjVYi4bHiQ$GxQNMf09q)mrTLtzZUX1%--*Qd|RNhVJGj
zC4l(F+EcAT)Lg;?ml==T5^qsl#21F;yfZudVLy4gcRZyDGn65S**dn|A95}K09zP1
zDVCRhwmKL`ym;3Z7fxXEyjcVtm%DWm3F|Z<dul^*v>+<`@4Tw**h6-j^N;VAki3hv
zwfRo?Q`fhU?=7*%yz74-eNGB}mN`=XC!h@YFn?(YXPy6-!F<4T+P=bs$gYh5<oq1$
z35#R!_C*BO!qx7JLBk24dW$0E6hdWIr2sE-gNNj?4}+OXQsf&EgBz&;P#U}`6%|O_
zE88dwFaWd`l11i$QNh7dLxV^`KT8G;y9M4Fu%!a0N_jN;y{hD<&c$Xj6%Oti|34EI
zu)V{if6f6)m2)i>ZQ;w$i69Jz6ZRNach_PIf#`OlMJy|yv@ZhJ1VZ8WhNV49Pcg1|
zwV_ILu-E!#$I;+={{OvM+~dwx=6_#_zW5>P`V;&HS@@RGkTw!voMH=MoQyogS0J|z
z4x*qH!;I1Bi51O?f&4S>sQ$#6uUv;L2F_Ky_I|&aRRuMxpMPx2o!P-}^yXnPs9h*}
zt|jhWKeOpofotfW$!DnpMuan?fFTTnx}|{0oa_L|TYE$y=9KS#Y_r<*(ElP`b$_46
z!(@bx@fUe57uQ2cWZX(i-4Y{h5fQ=f;;*wQmjpiWHFikVu^As)dOi&5u+)^`g_2IV
z27l62=_c*y*nC<7pbCJw6ZW$t3KGL~O%f<5_%zN!)QZu#Q~oH?V4F2|+&5MFC_<&S
zg%vt)_9&$)Pl0eU0PR^Qqr>i@Leyd~PT;_7@E!}J*B}+UnOs4CXVkESl3o>S&(ScK
zht1@@-`Yl>LU4K3CWDQ#!0a5QasJKoMfCxnq7?E+PO~0-(fQ{~4NStqjQkV)ra|E~
z#ZT>SN0L1;YMf3TCvaEg#E%!SwTp_|*syKEM=+a{v5s7ft6pEtUwfY&toq~mJoU2x
z_!Ni>v^szDe~3okYad#KFC^orF$tZ+Yy|}QePQ7gj@`yX6#%KWK#UDaGliIS<0R!a
z1*wT`mQ~ilMJv?YtQnZMjM0Nqpn(bD1_dZch|9%L+JO0Fj3c69R(cx68`u>7QV2-E
zYeWBnW(PM#lGZ4#<_G)le$C6Q^tqb^j#|OQ^J20{3$6~e;A+4g!14owAnx$gCryl%
zoAOIJIdnNN?OZ`miyK%V{2f{^tc|q)6S|Yg(ud)gfVeD7r|=Ut+B)_KY}*qnP4bfy
zas3Vyq`0qP8)^P7h*lv$pgqO^ag(+uEYyk5pM-t%Q)c-vFtK>R?t<lk!KSHtt3;WS
zbeldOJI)~(+eU)7RN=`W99iE4<62jakE~xfR)nSyp!z^g%_djn5AcwKlB&@o@Z&_g
z-R+|*Amgq<Hx49bCKc~o<K}GLxX(tMtkj)V{idzw4d2lTIy-BhFrzU`p0j?D#kd;H
zQOO@_<#R)S1@@EzIcCcV<Ot2<I;SDHu-L5x^$m3S*Mm}^Y^K_lvoP?$|G}(`LDlM>
z3C0f+&%^u%3nc?EXf7`H{jiFECq@#Pky6bkP{0ru!l9$$WmB}i^oab>PXFz@r7VAt
zGS30!IL#x^X_Ym}`@-?&%GfZK{yzT{`|EtedR7D=3{U-EGBCMlNIVp`PY>oKMksrH
z&Tgt*>c(@$PvWP+4&}bLflTG|x8y_7aE7Y}IEnGke|KWB{8LqaI;+!EpARmK%d<X%
z!TuyYNFRWYY7AzAG~t{9|KPXHGmM*_M{1n=XIx4rZoIui#>9Wo_6T3J(;tC{c<AD<
zxSW|B_%gnZv;HHFHABOZK0S?7*w!zXu_iZIGh#&lyOq~7IiVnrXqEhDl|>HATmvWg
zXY)=>SlRBpeZkb;ZCXl8XV%45B+)0#VbTG^l)cFh-#k3<1v2?9!zQ><dizIL7$1aC
z=UBj2@N0;iQ|PrQH7ELQg8>RlodceGeg6B|?*X;yO?Vr(VDfNLq<imTx1ic8D~IfW
z*DpNxOz-PG>g4xpS*1LQZHzX#XK(<m50pFP0<n_c@~y(<%UGa!j~hNls@yywim+#o
zIXaCQf>wA*$gwkg__5UWpC9YSdu2~NDXU1_&MI&SCW`V*gu>OgE}mf9kIOq?<g5bH
z)fG8(>bCmNMO|RkY-^^Hv&Ndya8>HWo%Dra%b#?Ce*KEvBEUoh#tg+;4KG8KUf&T{
z*qL+f3B#_;&Q9|_r`WsC6P2eb`DFL|lVOFuH%RkusmZ4umO~=P%J6!YkopRK&vaWh
zn^Qb`D&O#)Lp_EqI>h9?v^MYDzZu$qL~&epjg|R-JM)&q=~pA+ZMoz7q|Ue-Xe-kp
z;{a`hvS;VyWa+zndU_8*F@3S$LkrkE2=5719^YcT4MddzjQt*^L=LYFe-37kS{Yk!
z*Ew$z(RqLlytDIRRGrHX)dY4!eqJ7^1@NQNAVCH)j-YS0(>8SB#uJRVgo!66JRD1L
zS$D3uuda0`KCDp(dEXS`TE4<{=_Z==-8)BU1At3lXIEFbKMT?V%)?9N5Q1l%T&u6F
z=Qk%{_;R`oawvWX8@zb`4*v7V`oCKQE^HB?vkfG^gnXyzh0nCfOTDP&ehtd}Ddd*!
zJk}$0vWfR>*1}+$AeV*AfHNyf4ocDQs9W5D13r0ZaTF3iG52}jkd0&M6gpe4_EA)G
zo6(3rue(mEv-?$#&GqP^P+^rK>668FYhcjZwp*_5<Cz(wj5x0-FbY+@{D2qZadk{`
z8h6_4ji<byV$y-~QDn3C5!MJ-6vhJ2a)E(Xu}!A_SfI%QYhi1Z+blodbc@y7L~y%l
zqQog@&Rm@Q_{5}Gh-!)2#Pq?kM91XixEuyASk@VKS9&dNFzmp%UZA6#cf!@I@B-a;
zC$+)d=~t3be&G47*}wC@vB{K!V-V;?bbi!Q>JUP(+pOvH+K<=)&C(bbT~nd|{d3Dj
z;rrjCBb{O?OsFO2s;u4ybLQMv=6yV0^6?cQyc3_+B1k8}p|xqcdu*;0OXGow^!55`
z*IFokE|<YBaJW3WW}!SSUoQ@U_KpJEw3YwW=jbTsxPM?TqPs;AE-5Sfgd6=5fgo1(
zKqu7#^FZ$W^=Z#atfWc@0g{%n*aoucnY_lYIQo#+%gX41yySUP_0FTqb0F{u#?BiX
zJ(axMc{<gSzi5blcZkc#5Kn?9tqemlP&F#rb^ZxxH&!K+*<ON<ygAzy6`_gTcyv6~
zcW0_AvY5gQ=87UMO-*E!AB*2+0U&B>Kr#>L<?&-)Xlf7Eq%??1L&r-XRPsEFWfEHV
z{l~J}&!u%*2|oW_G_`ys!{cMhDG>};D!{sh@b3iLaoTOe~mX?5;w^+%_=_~lwp
zAgQd^IBi;PzSNp7ju#b5$(JzykV;_e9YTy<OYs<fZ{GKN=;5-mDeKo_DinpeZ4})o
z_w%G;9@Yr=QIOVd{1hfvNf#RJ<d%5T7yOc%&U|sN&EN?0uBxZxKOynEol?ZzQ9M`6
zwAR$S6YVCVAa5n(nV5HDOk7UjjU?0BUqu*e3he#N3HARDXNp;&gIZuMF78$rZsF}x
z4RXU^$xp#0owv<Fp`g*=I(2x=3-Lla<<9tcKjEZ8NwpZ^&8B-nS7RjEF_2=}EawIM
z?Su@~w-h;^HQ(!t6^2Joaj~!$i&6e+s81HzD6dAM@kzj8rc9}IadJLeU40~hF}pdg
zg3F8)Smg1BY59YF{@&H{#o6W*Mr%;&Zu3PSdnu|neVkhU-?~o3{cAp6-cy2}`X(aU
zGjM`zj;{kl`>a@NB&RlU>Q8}K*8FGr9l{?-Cwqhl8Yq3)+pLsdVTv9sZscWVIZNH$
zWiq)<M2oZl?Y2K#d}$fIB~2=|8?*H{+<j*MyYgvPQG~(2|5O#d6=Hb6zqYPF^ogH=
zVF|os!!8w#?&E{bx3Y<C*E7F^8QlTx{kMONr&ky0aGe=AKr7+iP2+CE<w2I2VaKRH
z|NDS@-eQZ*bU~bmFEP{xL2-+R=~3Mt5t$`&%7RXfG)Jo$L_SpNSyoNF+0Vw23mAcX
zJ5wSD<mU(!2a@E_{cJDnPnz-_KkxK6yy4>>W#PHL`1?SE*FOOcwGdX;v>iYq2Lg=y
z@$Wb*C$OPPV3;AE=U*u2RDQ+eX~A$y4jUIiZbnWKd|7cvbPZKHMN0Ie?!c5Z*K>I+
z{sNF2;s)~ELL(ha$ytF#x0G_S^9C}qQU=FG@{i?m##WwvaUNLyyQ3M^sno3N;};ex
zx4@n}zBxcL924NcioKw$q{-Q{XtRN@nAJN%)hQFd`C8=l2puGl;oyUv(Cwne^UCA4
zR4}_#aBFJgo#=h<i+jTi2X4HZuPQqDvauH`A(Tpj(6xPB#1C)jKzuT)h8Rm2<r=A2
z1LCHPiAIhMK9OZRVC#O3S^RQDh=L^(8T}^E@RYbTAX1HtqPJvaCF;K3_Dwng(lGNA
z-i{y&tbU%A2y$&7Ke{GX-8>CMI2F%h1ovKzLlzp!H{=t9aV<%+>1R%ZB3z<ryCG@|
z0j?ee<tWGS#8;+;+tY2-0>o+1iQs&hk@i{t>eYAUend!$rlz>_t*2r(3E}!Tb3tNi
zk-p<+eccYu5DZ2<blVXr;Y?QAi%&`uIz<T(Ut@8_x193&L)=14l(Sz$)FH=i6NPLD
zg|v{IkUW#xuk2v_>r-llm4!CBLekI$*>1#OX9n&E^&IG?YYc6}A!9WQM9uV>skn!Z
z;*DKBW{8h85Mo`<%`@6TQKGF%Dd<ee?9Ro(-qO<e*YIAmqS7HK!OY5dE``vo*#hIt
zqH9{GoiQ-bLeZP=X{&T)g+jhUMO&-LN5@I3(D~ZM02$%1&Yio|YR6mF-LVfWJTfMB
z3~EcVAMvN5PHbFXkchXx4dYoF!mmdR8=GsqYu`caK<bU0x=!*z{4Ik(lhgNx%VC*P
zv+dd#=_|$P`u0;`Aj86<k;`P2pE&r9vang&C=&@t*Pp|cN^3|qP)gz?9d<hJLh}N%
zkvrTXhc9y+{#gM@0!{YNNbfItV-(0WME-wkPpZ^y%kq7N;h!;(XbjHKP`6hly5HBA
zM;HW1M1=D%+#1)fW&OQKYRowPkhc0fQdp!?b}ejxq|&DzS--w2RoM9?W1@@HIDdA4
z<Iz9_>9c9S$J~7O%%1^s=n{_y?@01YN1+{`mW7^Jb>j8}DQVt7!H*iPKWu~N)_7$I
zV>K30gc*?-LN!7Wt(%xY2#E+i(D5Ul&TPZq#W&W4D9O4t1AVyZMdkNA^}GVYl8NKx
zyimO(Nz{{5&cvUgp&5Th{-J<7sU}hByTpT%p8H0q2cs4Gq>h6S)a2{0=JX>myuKcc
zQZxT<MYjxN3A!U$qW>p{fiAw&l#O>}GCvyMD_|a?`J{5C0x%(uD1Z|eoye~nj<qN<
z!sUzCK_wvhBba&h>wJ%#7^!tHnL=HnPCw-|NREfu`z@}L2>I|S(^J&9$m>h4WXjoF
za?w@bDfMTPqYFeeTGSdD?RQIQrT-x%^n;()WwyoW(<=CjIgeuQylD<ap%q=*7+qc*
zGev5JyEkR4uA!CriW=du%%)quEQa`xs9W73R(E1PitE)0Nty&4$f9q2Yt#B#BKJ8W
zbZO72!R5TcHF1j-m0%e=gx1iM+$<Tn<w6C=&%$lD4;@*UwJ>0xAUr&HTt{h=LMrL4
z-#sCXOQhsBg5CZ7ZC#cpYsssuWDj1OyAz1V2#77qE*-8L+@%mwtIKQD=DO0e&*OF6
zz_f{q)gBvh>83#;(){#x&D?E1uamx`6`ktqD=nXvLS0Q^l_ZXGW1?e6624ZyNsiUU
zy}n%%NJ*m{K0;%PY>?R?L2A{Vn~&X~!p#H$x6Y$(j@{%egADKdOC82$;!C7yz1mQo
z%bl-%Nm%l?f-fYgqTjY+X2n)CN)+UQ?K{&*B3*Rd^xJD?q(hKZZ`vYFFSTLtzZYC$
z$L+oiSrz*u)^g;>L`L~hsj`L>j^{^{M#PA9(kn~%q;Jo^d?)wTJ?^!roGD`|aAjMq
zOEWy17ua!WICDX~a;o!BX`+gjE1kkvN$h)c^r>Uf&0Q`PNR?8Z|3V~_@ko2XpyAU>
zeAf6RL<`q%JoF)-X2~~wz4{rtye4bPtB$r(0UW!P=B+6CYfJUieCqiHPf`)LuQQtd
z`o%Ex5>>knyEh!VtY>`ubv6(AK2;{O1N<nzPG2=XXpiU?n5*G#XH;Hp+T&Mf$BErj
zaN8wRK}N-7xkc3eEvc`tXr*{Ai8Aivz0g}SM+5zy2NS)05m5m6$gN!6W8gE;uRBZJ
zc;A|kwsY{SY`Nz)jOc@R;`_!!I-5~D{odC$M_RL*+M15AX-4(sWQn10vtrW95E^G)
zy+L?gx{;|%EOKPkWQQA|wN4~4jBK^~Cq0)o@-nFIQ#O7wN>86olUC`NS7$T%G~4$r
zFv{B^Z#1yR!~1_BIe=yU1w!xxlNJ4}91j5km%PpsowrRyp#9-i4>F4521*=`T};eS
z;2=7F!as?<14Vhg23&1qzppPVJ>2uugEWjjd>|LqL`}*3a!Md`U&H|E{Q8e;c(Q@m
zv)MZcMmJ>r(A6&OzF<itgYs-c!W{MI*SHIB>kR&7SX{W+HhFw<TWfSr$(8he?iibm
z;MT`*H`Vf&H4i415$cPdMn#~wxzwfdW2g2LEWJyY!M#?at_^0|sqh}kNTRBjkHsCC
z<<v%cv3K$vE8FLvekyf7+M{1*itE`Akebw(>Y^#l?&?XlWX%7TRdlPh)xJ{_Kpe4_
z{~}9gFjXT_T41#0G`Dmx<&X*?$HWn(x}>gXyJQc(Z3hbOcVp$lFw?hA3D|Nhk?ATU
zZB7=md{J!e&B-yU!IXP7Zz%tJyk)wL<&$V2mcSAT&kX0k#R{Ffk^7`C@;_jp*CULZ
znvG}q8CQf&gZwo*<4@Fxf^8=i^HK~O)&3Q*qPBX4ge?8AmXPpBmECM~nISo_v1zgz
zXHh*EeJ@9HE#29zc%7`KYlDhdzKiU~cE`*EVLZ0*=0MU^qkoJulFZ;b6lsAd*T@z5
zhUD+;?uL6Gsr?%b^@j!Hz((B^Rs#O``XA1;t}^pDm@0vsj5X!lBq3X!z46OInkFRl
zVDjg20vwr_01Ej?3{!SwJ1+g&JwUs+UMOZj*$wz$?}#`<I`cajTT}Ha#}sJ2rv*L}
zfKad;>5>e73|6{!(ydrYl3{ztBw6u$=cURo@UMn*mUV-0Aq@q(10OEM6-3q9;}<66
zP5owLVq}!{7U}sEdEkm}4XMe>k)ls^iJ$O~=62?hd{akRXxHFJtTD7P`9jPF5)u;p
zlFnzJ6*wvNQM=xkdbGzq7g7+yK?%b=?utZau-^E_bU!}X!6>DZQF;59Xkgg<YP~M1
zn)NKd0e(fE6ILz#P8jB9lYCGY78Y0J9&Rf+r#bPjXP@3V?qyazBi6C`sRK<N9x=|9
zme!g0;V%YxvnW^`%k=BaPl<^bYgt5C!X&+PmL9*pHBhJ~ooY+8PcX_S=^rENqOi}2
z*j_xqYX@2sT`6q(PNGmSwI6XNISri}`nS~=MoM8Sq?!1puRdHd)1diD=QMjCPoK2~
zHmc{`)o=6>*LJY{`==h#-;j)vkNgl{`C4^U<IwR!bytEv%{;{(VTwO>`}Bxg0D;RO
zb0?8q$<-~J$hb9pxtp>ax4w-J*|u%!qiCMIvhe#O8{X^RrJ5_B6gJ&eo?b%HiSSYV
zo3#|aCkZ-r6-O<I{J`oE{6yxoPiWO^VVG&Ce<Jdx81&9uo}k<>`K(IjxT!JZhjc#p
z!PkeEuK=N4#i4Srt?O?^M}ScN!jox`euiqjHW*KXZ<q8Nvt;?+QZWhwr8f}ccX?Fp
z=6QQC_3ZBsf_N)5p8LI<BZT;L|Hj>qSh<*)?XNtr{CGYZ_>7SzJlbqeLGy`cVbNg2
z4b~oE>+JKTPeW$+IkVu^VRa^B;KF+UiYh~7GC7SyD_LZ$mOJYg9>UC_A`fRFl#p;t
zA{x!OW6Me@gY+*nwxp}o*hO?)Kct{k<IrRdAIcN+)GtlScZXd6hc^CZe|Jk?&|;FS
zZvCq4QJl{b9UtxF`15!Eh1!#mJF<(zxmlAWh??H7PE#cx0gnB&kY{C7K9U;a^{;W_
zH>I)=10wmo25xW%AO7WjY<N{>1yLJkiwgBRT-jL*NsaOzRuNrOskz4ae7hy9q2Z5$
zFcYtG#AtPFFmJ!C$WXE&p!GSXMe&;t^MPbQ{EKjTeo_NtK40JK8z>({m=HDT@9%G1
zW|sYceD4iN`QILGX>Xrz&+x?ndv1EPF$!5V!SSNlm?BW^34&(X0&p$A)@A#74!M@#
zKKyLZAXv*@8@VKCH$4J&L6CW9)O)m(Er-dg7MJ6>{h2JD0!kw{@t)vqaTDM@fYPF0
z1^L1wDrM*0IdNWnsCaDnOXC>_GDXl5S3)!w=m-Q%5az5gm9lB$z{hg`d&2VmQ$PG@
zI-C8(afo){u^!6>D!aAy56$iTuu-d{<Ktg_Z-x?0NZldQ6*O^$4cRo>tC^XZK#F)B
zPioK2%|Y&<;u1`>pz)zJBEs3`;T^p3<XW74U{1Bl?iGEfK_`#rhodx#&<T4&){|q;
z`ug=5YG%-v?N;t44-0D1HPgqHapYXN7TLrsRN)-5vX%9&!wch+lAG@wjx%_>FzJb7
zh;4}VWvm`%8xu$u2(drV_ApW!OdaD@3YaQ4!-J@oI}&Mw5^oD@MUxncwBl)MI(4O%
zduUmZx~EDYL+=BU*#XPaI!6qOBm!L@L--pzJySY;2@{XlOo3{5{hRl)p%sNWm@nz$
z2^n#hRGzo`DUXcYahhGFIy<Ap+#sO-rl`~}@1)Y=`GDYr&M?$uZLq(S8R9n|5|&|<
zyB%+h#m5b$^%_<@Ocl@nQ-+u4yqPUaEQK6Y4A@7Af3fu62+}+~;;xP~EApaku|yl+
zvjtk51=OT5hG`dQ+^b<#D~LJL;rggjUq{HFm%7wD5O>>JL9Hb1=v$$<XN4atqV#b*
zzl$1$7;$_Fen8|X_M6{|ss`CEdwg@q|3G*kJIQ_eQPjN(^N|!eKfB=d$&aU7!Bnk#
zwXes5Sd7v0f`TpB_=sy!Uw*aL%<`pXwVk|oxX>o4iX;2XO?^DyIsq+`$jD@G+inwm
zw>x_L8=pWm!sC;k_PH6dOBcqyrwVNcu{5hrojvlUVq?^uMC>J`%<{5DvAXG!!#(K<
zN^c&T#y|ErqIwk8AeH4!(&0S8DJV#ACm>*8I!-kLo$XQ6pI`l5YYcc#aS_W+R+w^v
z*6$?V6k+|$^M<Gt{HfA)<i)hSe^cR0BiPS6k%DR_kgGz}dm;DFdJ*CCO~up{DY5;u
z>R_f)7y=`0CKbDAt=RO#@X_*q7~OZw$B{~g77~}8RDbcw-#8oLkz^JD!COCQv2&+(
zEI}ejd}TU$59dzkA2y$^*(%2t9}SFxBP5igRzA`KI(@Wl{rZWhchmBSGJ}6fCez%3
zyum7=*@rUAWt@{eB$;gYaU2}UJ{r`$M(M%CDqre2*ow`V%>PL*d(@YW+i>}Zhkx<s
zDYUM*r25UJzE$@d515(2uQe!>s>jd~3r@HEVkG&ppNyTwWxLRpQ}TPdxwxkyN@N!@
zp+#?O*SWkKfy3w~xeUs{>{t61(8xd-MftZBRs4JiO&+wA$b0armp~`PT__zWqF)xT
zD#LqQfeexsg+&LeeiP`;NFJU-GEM?8)W4c4`2}Y8_;>F*KhwD*r@+o|8%QD8L8yn-
zu_C%UJF8y(O5Kvm8k^@sLo;WXtG|1KrX5d&ZaY~t3CR_~L#8y207G-H!#I&>%c(5%
zdZ`nbOwboS)JnLcf3&|3bXJ4{)-KX8C}8YPM`B432tUN*htf}h^3pH58%P0@2Ofg`
z^!dZKp_|-49#ho5hw}1}_wk~?R6nN{LL8uFpc2x0xzB9Z?MMkNbMrz7XjRhtmR{Pa
z;Fvm<JtJ9EIZb>%vJ~!YHe<D7{FdqdeLP#ITgMI`U~4?unzRMU4TOKUpQ^b+Fm&rF
zqz^0z_EC$n5LJ2u2M2%XDMu7i`0B}@Ul;HH<c7mew4|%(Pc4Ap<giC>Wnv0i?rcV|
zs4ve{5_yT_tM$gSoT2XfWn^URZ;aZxmf{d0tF=+&$WeAGDUOZjv0xE0MLwE9J3uk(
zEpmGCv84rz44JFJxfc@`y#KnUEGN=98_x3**7W>~Z2V~K?e`vz>Dz>>wHY9+7u%Ij
zkPv~=9!XedQjHFGs(ORRtP<8{M4T0j8lF9O!)hd~4NOwQNS2Nc^Y$m6kQ&}|2w(cy
z8%cf^wBUz2fn*ULibbpu8m#M&9fM+RRbdesoFIimNfcvLOV>mfnoPrt)LY1_K(~!M
z->y`K$0AeUw5}Mbt*LQ<g3OzxXtPD6xN}hd-Jl^?2JW1pZ@U_q{3Qxn?-t76p;xt{
z=Nfidlo6Cdwi+eNk-u$XfQgDHO)`yjyF`~!e7(0kN}J)2G@9M>uPPa$<llP9xlV(B
zzxw$NtvnNF8n?u+)c9AkH=k7iqkKgnK5n?l<0yg7r$q*9DU9;Dn;xsLUeY57enLH4
ziVKOnT6!rSRj&8plPztdJg*a7Udt8C+==R9{8VJCeb$Ifn`uf!i8>>x%I_cAv1V$8
z0S$4uJ`CT-aM~glXsN=AMr|IvT4CkltmqxSFZ*(2lyg2J3P)Yu3#et3wY)z<1o*ve
zJZ8B`VlyiOE7=du&J~*;8-9L)g59ZE4TnOJT7J~g(VAvy`jaPmW)H;TZ>g)}W;tQK
zxMdVRtzG(_W;=>1?sgMOXBU3l?I;Y5Y+M&QBwUUfP6KCW5&uZ9bm92usq(;ewR)YD
zQZl>XaO$6abM$kV7D+F{V`+z<v9xl~iIfB@jo&)G=hE!0=V*Nyp=$9lK!Izm@bB(0
zQDT?g+5k@$MBl&DvJTrEf70Npq*S|kkqoOE2URUu9a;66BFh7-6hV!zY#3d>s#T+%
z;c{y4&mB3bO!G47_zd1`>vWS@_aabmtUC>6j+k8>`1&kRiaz0cKco?Hj=pVl>4~wB
zJ<jF0F+vZmUy>jy1(6F<U|>LishJtbj{ofJ-0({v!jg7|$sHoCDG_|;-)?b#f{4xS
z8vvNa&tICvMFp(BpnL&6X1#s_jsVCe#h+q1ucr|yW8>kWkxO3g$s$TY*czA4TPz0Z
zEn3LtML{@;U{1l>CXhJI1UKupp9%N<6<kGWiw#5%Sc0^SC&Aw9r-kMh?0`M}3ElW9
zJm(J`m7fs{Agz%dWmtven{uKBJal<ExqH28ez=iHt;q?FJfitzN|}$O{jMOP^jrLi
z2O|Qy&{|2rK6KS@^luEJHz3&T(W6J<<FM)7_;ja`_xw>Xz=t>ud*A+div}@wrOwI9
z7plAuGvM#g`+_?m3Gruz5JrMW#g7PtMCK5}%s=o53~C+x$vR2e*Sy9$!5K!+bjFJK
zJih4==;wzZh~=Dm2zMBFPc}5i2}EsK!Yzc;le_$vn=Dw}5fy~jgw8`L%WgkcA(8Yp
z)6iWz3$xJD&IZ4fbN!U_T-9>n-D18)XTjGF&5AEw6h5y!riv+!jq@8%Wc2zdVc?-$
z;`q=YZ9RHxIGO&VUM-nMxT64MvU!<T^M$vB7qrn>A(`Uh*A((St<stb2($?{c!gi%
z{bmF;2AL?KSVft4=Gn@blLygoD$^Y<#jZ#AHj$qW*v!T2@^bG)$Wlf)4ACA_&nnne
zQ0Cnk;gm2;B~23?ta7y{v%@9DS;EGNH(XFg&I)7|zx&YRszL`DZ-81Xd37N>`ys}Y
z3BjPS5<~Ca@>T*?6~eOlwZUg^HFnarvhN(MggJy%+ul#Ze?Lww9}{*@!Jgaj>k#r<
zcnP*J2HIm^tdHU!P>v#mhtsI7-38-RkF~#eY~D9#*OxIU>1f`5Bx!Hc)k&E59bcrS
zD6@Al)9W&CbfuD-c))2jNJoNB>UsE}bUEtztia}~VW}dUb3H~ejl|^vmtgkN%O4#4
zw?f)E`ZlXRDeY>cwi-y|U+B=hY<SauOVvoPWiET->0Jt8-lbitn>l^w;I=DBjg6nP
z{)JEuI_kzLcpbs-=g%oM8b!%R*9&uUpbIE$4ME!pu}@NTYLtrQN~(rJtLy6+4l-SF
zU;4Wg)u;hTV=BW#6V8ucNAXuZ0!=@CFf%jrJ)A5foK_d>PhJOL_mXm*h>VGm>qtwZ
z&JKWjSqfbA80SAf&o)ML0-7Q*TS4`JxPXPT>7Z1Ef{=Z;4d)?x1Jr(o1_enaQjiHj
zO#LF{Cn+<>cbT?fLYXK&E^e-&J!<O)Ejc;H%l2Xu6BGXT&XsYWy$F$#zh~J{yu2g(
z!Atf#WUY+gm7q_Jh6*wi!;*&*jnN-JM1_PX^b1G_EcpykJs;S9kD`(u1@&Y8#*L_i
zMofsGzsi2T8CJ9wBAE;+nMEZHvkHQ7{&Qu2_<yhLG6*}~$F{b`T1xkg3_S)v)ilk&
zJagpJ%aOA--pi8J-T9$pPdh0%{K1WhmlatWN%*V1lICFCUH}>qT3a-X`i0|v|9pJ?
zM_=&g(khd91Ln2s(D>oAI>&p{lr-sw%duky)n0RTj7`3UPU|vgq~5mUa?iPO6{d<=
zn%E+K(ujRS8Io?}dr|S#t{j&lvmmoo%KH2xYNo{Jur*Mpgy6nquKEPf&gPKt^}$!>
zCs1YZS&j9Lq>FNq-DHuy81<7>^W3Z~wX`f>UvcmCR{zg1>85EmuL^qCZ~heC3^#)7
z?r4ptYY*A=Qskj;3*s{W$TsQ46M9wzLB(V*--QEYHT;4u0DP2==P=};QE?g6qdLE)
zW<_K3F9eltcX#(}-sC2E8x38wxmvUm4IfpslzN&XYri}CH0N)WPM^QOT=!@ua)-XK
zA_g|4o`UvVO;5}%MMK18TVV%bJYh!L>CK2hA1fp1+;H&yjDo;nlSVKXgWC)+n_J@W
zf#O$3V7S7*6}E=>Cf)Y{*|<S@vp<Q87N)F3qE5~jazekysvU$DAai?$*n>oqGe{3q
z|4+WjQ|iEOrgezeG7SYN$js)0S0KOGjnn({9U7V;A1Ns*Q`05zJX~H~?c;Il;I)2(
z_ceSqDAqa~Ca6Zn|F`k|SXn0s?=iCe;W^)$Zqk7pG|GK@@BPR7O$=H;3>y}^RWsHu
zE<O}#tA2UPmgnxY*`_c$TIaaEl1yRW;>J^8I~7&hthj&3C-tH0(Dy8T*m)W%)9jMa
znno?-X_EvjB98ht`Vys=oE`9e6_ny%O^0B~#|no1B_%Aa@SoqSsb$yt{L*>oaMzTN
z0{djAKf9TqTHuM|yL7{o{M+c^5q&#Tsz$}nwu-d;h8uVl6eIW-Rd2WLK)0=J-5nxm
zRBggIJ(axDyyUW1a%3<(eujIll?$RyhqrEu#2Fwxorb4$Q!qv4R|c{_HBN+>aVuh9
zpP_JIYU(eXS1xDGYNrt4a}%$EhlTa}EVmm3$)MavD_nu^`;#64;epr=pp@t^=_W;h
zJs^$Bk4=P;G0<xQ73WE{-Hapj9WK%3pq%3%Le3+QT5sLyO{2XyDnWAlQS<WY3YaMO
zR$wth<rGTLI4Xz)1N_g<SCfnmj$ulVdEr6A4;g3X&dycmnP9C~MKZ?D)8#4cFstHW
zT=;^%0CMK>)Z80$1pFkl3df*jR<0=78UXtC4i9tQaAOYffessY8a5t~@<UR^jqi2d
z>u|70tGKh?FD)&NUN*$<s;{G-e-w_rx!?q3VH<?Ljv}U?z}X|LyC{3Dh~8c_hOnvJ
zuz)X^Rk-NAe$4UrReiE+l@^6+g3ZhL!o}zN{zyAI<puX8<VE<*E2?p@^yE*G=N6EE
zBVh5>MdP3NohKSJDbSZ>uPcwV`f8;`^DR4ru-M?+x9XWbj+3{saHB@c49lHZBNog^
z=sgORmRauJy{uGz*CHkT1(oHGx99mIsZJ0LM_k;ePrK0<w?goYpT-0N*Eu|tPnN^f
z1z(MjFAla_D~LL9a41vyeA5ZY&8NtOC~7ER`0XrW4ASE#Tdw%@P~(hr2^3roH4>(@
zYl7Fwc8cQ&lHb|(T+;<;T|henspYefo{#1?no$bUVGY%tbdfg^W1wLFGVmEY5EUIg
zf@waY5f70e?1T=J65gBIQl0zUcOAlNtSTVu71(?HtD8V`9kRU&$b15EJaJ_{grWVb
z=xqAKHd6(8OR}Iv{Uo6<KHdk5`aw$W`tXmu0^>#saS#6YjSh<e^#Pnv+RXZR6VO>A
zgcmraz*m)3CY1Cnv-xxYmh~rIW)Puv!|e^ii$Xsveg##k4V)(MDF+j4cmVsTJ_)SM
z&4;S^?0;7xDunIL3cozK3kKDHP1rhUHV2<1+(2{W>sTpxaetHCKL>!V?mQ>BcO|Ui
z`#}?Gi<H2EE&OaaEs+PL1i(Z>e-mMAoD3_cUVl0*F%j+G=2Hfm-R)!*GK6Pm7-1&c
za{#TCr5}z|LBW9j60~tACMSO*bdk8&=Bv_D#SuktBhVAoMIAee;MdniQ1AyAf@MRo
zOZpkl+2dod5Xj#+^x+Om@(tPZ;_OVgF|h~94@sT-b_6>F0Pck#q4k3(Tj;Ext0hg`
zv!?%cR<J{TX(<=~jRf+ZgxxfEQ8?3+3cI<+IymfZ<tJx(pYGAWIXXC~f4v-HCKtR4
zs|EZj@_EopI2wSRX&MAT*GMXO7?yN@QY?acvX$u}l@7^eh$E7{z9|Gx!!g=D#EC?K
z&w@wgxCen@(<gx7?KPHiz-|DEwHWW|Rn_m%($Z2HP^8^pY|=Ge^-e?phChradi!5&
zEE2sn)#^Zmjho8RUVfFSQ}iEQr)9q<N&Ic^e#=oyEdH||!X)wvQP<q+nIXjG37ksn
z1STKgA)%zfC&oPtllqP4=ijBf8#6!u5okdX+!Opamv25xDObq+dsci5@0Q;P?CzNs
zY9p)X>!z4qN`$wl9)1~kEMwtEHqu}_#n~1er)6wRms-4TiL?e;ZS1TTNuvox(xxj|
z4+314SZX=x>HRywD(|=2DaOr8apz7GOwBO!NBq#;IWXOXSKEy2SifASO%%4v)DUy<
z=D}{(fe$Z#a1i)~0@tV?c3_j<Lq$a`L~=V==>-j~li{;3WFNdF`BIIYPE)8pUF+BS
zUQ3Y5`$`w|#L|{N`!f6OE#u;KMx_H&@;-=8+S=Myl>hZ@|ADEfkZ=~;@R1%xqFjOg
z+mLQ?w>@JuwGr5WyEJS6%r!-3INbV6HwcWmHJATYVPC0^Uitk3GvaMN+wUAdqb?_j
z`{OPF+~~|kXtZA@tBaSH-arKhoSmy^U(Fu@Pmztj;Cn{ynZi4p|8n-3)x`?&58vyI
zOQUPOHs62WPZl$%eeY{_pA=lPoyN|uT%XUs^gR_1|43~0q2@~bm04p`9!|>FuUBJC
zs}YMteo8?;JG{1Sk5W=nykz{mkhz5`%20A&-&&)T@N#?llq7+{u$OTNS;(K#czE@v
z{r<x*u^#x`4<1a}3F@sRk+K`z87qrzx3LhCc_#C6JwvFy)I4ubr}>iE9RD8M8EF+t
z)Z|wtaLdUw0y2YO#DVW|dY?S}&{zRqCUB4bR@kqEAGR}_H}1f6@kJW}R1qcr%Oz9(
zg4C_si95U|5#2;aP~$rbN@Wyqr2MS-tr7I=Ry7;Rhse-Sw)g5|4snc%XoLsq#cko)
z-x-=r<+^I_w(1qeur6u!zKaWY<c#p|BbcyP|L;xdfd=+UA(DfMI!alM^@sm{HAX`_
zTYX%$l?m{Hb*4fn4v$Ce2`zxhg8kQh2X$GpsMXF!p{Cyt<CchVZlIKN<{j&a^>>rt
z=A(8vzrPBq#2dP(R_Sc_DK`oCc3Tmk%;8|-2N4(*g8Y5U)u8a7QNfqv@Ktl&^EDgc
zz&2iL(3~`B%x$G}aDu!L{^`x|c#Hkrm9^IO|9o$1<Nw_V12IH<#BV-o_&T{hJ$a7c
z^gci4Fg^Z!SpWSm0~#6{b9}E&b<xzL7B03pBjyCqMy8~kDUHbAjLHv*tN(XO^78Ej
zqR+Hkj-8>GxmHp7{(XGV;%$Bv=v-|6Cqv@#+27dX>$BJY<YRg}-=FzPJU*YNO}W-n
zR8E~R^8I`f8+$0>tjt{VSyC}Py5(Z}<T0h7M*fvA?fT_#zb7x=^>O*;^>yyTGVl9&
zUl|D*q<6yWnl`udUR*xY;JpZR^;u@ER{8few!Gj_m8l^y;j#6fqj`nyw#S{?2?dki
zGQ6oC>}%7iv#k>=DI$dqo-BsCUms_<x13Kk`d%5q|C8Va_na%ezQ1d9{pkF><yzp{
zwWZSg=<T8I46Rq@MeH><lw7mRAAk<~>OsrntK(9qf9t-d&-eCwE^W@Pc3)<AwX0IL
zT)kW>^<f%2)Vj{NwmvPrW{7qgf=9dSap*;`*N{06h8;OMIWo^je;}2_+uIuj8JSMJ
zXMRq9!154Si9ccFUM*P^xFHa~Pz|<0*ptnd7MWxpkspDgTie<B=))GuJ~|qj034d&
zzu2gRE%$*pY1s|&5YD{&^uNbjz60Ttq&!xFuMRBevTZ<uK{V^zw;IgofzhRRL^i<m
z^tNEe?zZ^sNcN-iv%@i2QAekjK0YC9gX5jr7`?+^@9VzPZE%_W^GkPW{yI;I@AuSt
zv4G@!dU7%(SifFZ`8`=I+}wN)64TzZ)BWwey)+bz3YYCN!{#(6xb1`szk9oQLg1)a
z=Pl~G^ZYPXU~Rmhl2&3MN6v12cs=fLv17*b1Tf+E!~1c!aL%{qGZNo1TrCc@5wqkj
zDfpQtB&Jwb>evx8Q^4JJx}vN8bxyEmy4e2FJ)JF5@+8&!0Rg<dPfC-HlvRf28>SS~
z^}aq|UOs&EtM{@!IBm6m&^(e?hmN1Wzn}f8AcL2HW&kopsVP$!=k)s5qi@&U7SwUs
zsnDozs6(oFqRIs~+7F#coU3+oc5SBC)@bBhYig+Soj*bzJFO|7d=#x)=^#8A^&haG
z8yFm_Nl`{CY_dynzw*FQ&s(3G%g-mnrOE{cD)8s_n5Zxgjd<VkI48R-b2QcC=wgZ0
z#CO7fch|F|WCF~KN!bT3PINOQND1W2AIY!3nl+d9|2^gO<=N(B!zuc6^<d3{3hQTE
ztLM?pf**wG|IKXo#@hH^70RT@lU{SY+~zMlU~n*b=J@WZmkIsWM_!9QIOHa|<R2?3
z-G&_%W*z%q^%hA+JO_J=vh|4u=`GKp7CJ{RI!tZHG4@BZcSCIKFt`X4#sx-mCpuSy
zl@VpCkH@)&00@SB{s;AbF+QBJ50~DmV2Y|`2(i*cbxN;>#ldh4$Da53W&r@r$_ff<
zG32V>C?g;hfqekWz4@&K^$c990GNiE>j6YN0@4j{`q1KxI%gMi<g&Uh_DYW^aB}fH
z(kWeUKB@Y1$k4vMZFJL{3nLeZxHAcKXlQ8u#I^kIMON20bWnQ6kKl~a;dozGRu)}R
z#%SoHgX=#c;xci(@%HuKl7|Afz9sWOKJd6PK~JuW=mw<FhRF1{LNsK)$eXcD#TP0l
z&p{C=(<mR)h-zF5quPX4F-L;qiQP~XB{LlhP`RfLpxtJJ9M2N{-qqiy``w^{Hmv0)
z7NQo@As~&P<N2%YxS{sF)&G3K80Q5n`rhNMJZV$29;*I?$3@Qt@;r_wQUx^EhXjtd
zQ>6d(#8`CLui)M$ps_n$iND*Icb<4JPmKW=-5RBJwJ#5GmV0^rJ3&1M7kM%*Sh39-
zSa1K~u1M*tr@*h%2#;}ts3HSAmV4~-Qu4mO<J&XL)6KS1xQdM)0^~PH@$nCP&5OTN
zQ(r!O&wVU{h#f8LU+I-&Er0prXt!nR(ZkwP7Gxxe(VcPC_`(GO$&KF=kMlU8z3lfS
zI|`!%H~)kp738=i^+IQ`lhcmFS~8Cuhg>llYO?iUBKzRo*7k{1BJt^&Kd7xwjqF@z
zhzpIszM`af=8gSjbNxl38a>)pcNC=Tt_=^1dGOmVJv7tNA(O&C)AT0!z}FL0Ji`Cg
zemxuaIQz`18v48!Y^YQ|?hKo<fAb<r;<iv$u5Rgm%F6gspkLBR=tpY8hH{I`*(xiH
z$Z5bKpMPY+M{vj(5*83uf<-M3A}JbKi2xdX*8wrcb8AK{Px#r=Ya8RR5S+T_)%~Rz
zz_WDT6c$4;k_KF!*&z%Uq!+jc)z;&dU?&Eq7Vbs}WRQqR!e9utv>PJmBV<#I27+H2
zVBk22Nd!CO+#Q78muDLyPnfWO76t!=^L8CJ6L2cPec~&i9{Q)OH))^7_ft>L&u;(?
zAiAY^gK)L5z1N05UL0*|eyjX1nA8M~c`!;yoGt{y)*b%fcP%kVWJE-&xTj!U_}{-m
z-@y0YOY9B7P2=#R;Y-5zU)o~86`;oeaA10KlPlinBf+)_P@Np@tb+dMu0Ds5w=lY!
zWW&fSGWGmF$8P*zCQhzeCU!Xf<)QaiiJxokr^CU@W6sI0$Zxyz!$5Z4u`%u8)MP(J
z$_M!H-SbK04(F|06hHf)aeYf3;;yfl<LaCWCf%_p+)%Ovtm4qIBN*xF$=nD&1D$C6
zh=PMhJ(Uivsj+eF?@l~xYH4}-nL)kz#OD+_Y0tmUogCAS+?Xy=#d5?ZoPR%i_51r~
z<}UCz6oI((#Ty$xkB*RAi4>sC5qth*=R@0mD8XTk{Z|?Njn+0W^rt>Z3VXoI8@lz?
zE+u9NPN==b^OK$NJDDnkpQSgEkW%E#kS-8{K?KzJxAO_G`;?W~{rKnsps0j4M`P>*
zIG}dtUIwF-8pI<g(B5<Kys(_5YX$g=&Ow1dD==VykWe_&dZwaxCFA2xJMuJk8alqT
ze39QVm7wwm!NKG-eTRQuf|E$h!fzw^U!~z^pnP?B6N+DtL+)5MnWrSIn!XZCX|^#c
zTO>ecT&bf^k{gDCC`J=KBo^8k(P721&%s5{l54%reXN0!Wnym5S)WCaE>%~HdfX*m
zMi3MwV1;?h`}Z?j5Z^ddDDBp)uIn*!O5Ps1lFn1z^}WK<Q(omFx<Y^PE7}FC6<|$p
z<6~iCYpDJcLX<s+As)KK)Us_>#hHNJL`Q_Zio8mSXHF&2(>MHv81jX&<3I1ey>E0_
z7zBHzXJpWFQxg-%r=|S_(i8USwlwZNz_I+BAX*ge9ZyU2XXfX9;aURsJOX_Dko%+9
zsAxD4XeJ4&1y=;_UCo^Cd;V3M?_xG{_fOb9V_vo2Bznh0M+>AV|1ZEAf%|eS60$ik
zjsWb%ACZ9h1Aw5cVYvQjYHF%e=&vh4nNZ*R`$|+v#TE1~>rY^uQELXM!2vR^YWuYh
zfKOck2^JJ|WWccncaTCZ8`-twJb1SYAs&vkuRUbs6e1cbtwtI6_YV%*6_>tzyF}&w
zYBL#80Un||I3qV~#OTUZct6go-U#&8E<zckY^QSHoml~6AwIrJ2cm#CSck?0g4_dE
z&i<%sx0G>Y=Nee(Ig<HZ?C5Q@a4=D&fRJwRxmu@OfE?cT_KGy^cxj_s+RNQzM<4y(
zM&G_KV4EM%0FwW}2YNL+sIy<5TZFuA6@JYyK|*EoMS}^A#OrdJ%_!0Dw`{1QQU#ac
zz+=UG8#8=neI$%4So0p91)B9bnMxs6_+uS~r0n@>GZ+L1i2HPuYe6$*0~@2=kce-}
zNn+FFr5j+VQ2pe?k<+?<ayzGhw98b9NC0KqPF-D1qu3`7Hz6^x7j4MaO%L||4@=h_
zj^+FIAA9dz%HDgAWF>oLWJGqhtYq)KA~R%fvMVBc6EZ@`9!avZ;yrzT?|&UfhdgxO
z*L9wsiQaW_rlj40g{5W8OUkw`u6+8*=`AVN9r0wm7d$3T;W}RjM@K0sZNlRyc!ax(
zMgq7oWstT<4BF|)5zJx>4j(!`zB4QWbkfyzr@^QG88IRW-MUnVEsTqoSAg%4xpcWn
zl@az#)3Z21x*dIKGZ&2ZgGH*19RJq`Iy4l)4DX$|ka*|sc{f0W@aw&g+9ic(n-H7s
z{3?O4BK^#?L_TivVGO@5+fj~y0`e;GqPEJU9#<3y21EL4iR0gXZG#klTd&r@NwQd>
z8U7Yy@$$H5CePsSu4thGU@5YppP{Yi*fQoGf;rOUg98;2J7X?2fKgOPevkn&6;leM
zihK7$*f0}cYtfj3tD9R-1N)i4)2(CgND)RxO8^YFYM|TJ`wPGWuqn;MvjstB?JuOR
zP8m==0l)!t;6eCKEG1tj3W9}+$z}gjC2_mfXXyt-qzE;5FK~21T7AEajGzmNIL(Xt
zUwTF_c>)`_GzHJPY_<`3oIFDj%qnCzb*D_9{J>2LmNWS|fEr3K-qXVy3@15r2SC<H
zI_WuDMpeP`Nb)F{)TPC=t^DQ*Qg(q`0DRr#K>(fx$90T1D>)fikI?tNz6g^XsQ{-m
zo)u|8$5O;7Nk~@p1OI;p(wH}PR?)nffdH{y?T#Wb%C4`ggZ|00?Uq1xdiu>i8t~d|
z%{;CaW?^YwN{WpQrt$AboaN^;mh-)lR=yuePcC*3(^<&15Q(<QT?t$B;J{(EPvx)(
zI?-bFcG^|{otIsle9lru_mlbc_TD?%^<=hU9Ezve>xg#7XEfx&Uru%gTq6Qx+f_tK
zcr%5DP;ql4->Nn7BYp*%xg7Gg;046rvO?Hj91UzO%n=24_%~8;ycN^N3@lMQL~W;!
zcyC`sog7jl_<ncMgrLdA8_Eccn=4V!w=Rx-#QLftZv{deD*BnUfnAW-tGi#q^?KxA
z7(Fz3jfv<jPsdc3cVs2CAx&DwMidkxO#OkfV~z$(QDLn`Tsj(dSTw|7{p+G3hWg6j
z#(1mJZYBiEVW!BF(u37LFYaRrFaF!Nk=qM>&jkZER3|obSOSi9;eZ<Fnticd=s0gf
zbe-M)SuL~pOD4+#Y220D<`r%`Tt4_8k#Nq{C?|h8t&jfk|2MGkDaD*Q)|c0HX<>VP
z*Z+9nb9sOtH)UguIy^a$yrJamyl0P;K9(bWlK>M~C4R{i&yvby`hsH2K7XJ&X}m1~
z$ul=spKF*!?jxvDA=%+U3gp0s|Aheu69LnS$t7L0^RldoiOJ09&`<@StAHLsc8%m)
zCn$&H&N)1Sa}#d=U7Z0q!Hq{6zZcQ5zK6IMkhu^NtOqCk{E&tG<^1B}&th9ntJm(l
zSnK)OS)#xK^>@_%uXvUJAV~>H{gW4nTpkUt<L*HR22>+GhK$ToA%6aG&bviR@{L!r
zOOTu-YsO0%5;#VQgxM#V{tIF{14Y!xZ{JqQfSut$h?{$ad$BJ$JKKMIl5NQsAdDXW
z@$~;au1wrT&K*;TM$y+fIX6YZaLz+K5#$VYT6H7zEUo8gF@#V1)?dssOSP85yt>-Q
zH0*Ptnn8$;ob=kLehetqNIhPz8Vpr@D)Yz~x1evBrt_5s=jFQO$`PWu>rM;&RmMYP
z+HVIxzsE<YIyo<0p1m2nGl<Fmk_D#Dk!(k7TtSn@1g>X7zqK@VF$49g1c8G<kL>i3
zl%y)BGCkEce6M09^9|&4e0*N`2;8V96jQ|A^g{U+B5l*nL<WP7j&bv6(vvpHyBChr
z+;_4vMZZFy?O-_Gc&vyc(m9Ny_kC56OnEgBd$7@NPl4&cb88p`T8#eto$tM-5V4&z
zgG`7RDpT5=Xj9)|NxS4c+lixv=K4}(^w_vBAr6lMyKf#;sz9^v@V+^7dUPFl`ys`p
zB+%Y(jA=|Hb|FR!6vJUE8>+R?>WLr_S@P5&-y^ptu_2o5RnA(W3UoX>8~c+KbpMae
zIp=wW#_nX<sh~}w5L3_Pj_u_R+spFnxR93>m+Q0XbolmpQ9_?Te@=rI2rn%6r%#{S
z*sz-Y1Kgpf8(+rD*SE#kznqH=t4w8$tqveSd98B_egqFMujV|eio(`xJqw}*I!fUN
zzXR1WzzHD-!eG*V965r#fRqC{CV)2!Hz;Y8f$|eX&3QIy6O)$w?ptF{>_IHXKipyh
zV@TzYYeRumbK4jeb6yHWZr@VMVL~##i6wD=N_a;NB9c%kQL<n&bDa%qdJPkTC2&Nr
zVusFrjri2q((=71!o1Kl2PO?HKT^cg1{)%TD#%>r`S$nh0AN=AoBT*r$|P6l{6=C5
z2Pj}wwTS<4DYYL-$(?9=C`;zi`uX9aqyJhH5m{1~xjB*xs3M)udAWFZoPLl6Qo)`#
z_~UaX&gIcoVl9XRXx9L|PZ|)m2*<Ju{)^DjC;En_-4`!JED%|LnkB$e?`mbMoFFR}
zR;`kz%<&9KuaPKTP1#i~aPqdi;}|Vois>`{SFy?2{(v^%gyB==Q&hymL~1ou3<}9i
z!2$jEcI;zh)DGdd+x`iskSGoN!@a*BxCN9V;p)$c@uZLKS+Knt{lIrjWAPc-0|~O-
zv^w-%6==}huWWvvBlr@}P$Sy`m47Hj<&F4MgU7p~r=KUmy^Z`1<XPz=JOYxEG~*W=
znL1;48s=)d44Xd)o_Vdxb2I<jVqja3BtrLM7USR<eYjtWdK-x54&mI$*D%DDvfVfK
zCKPPH238u|nH|I?>~Wc?kEO40$Q8qTXz4eb+|)E}TwRg+Y?)o`KdR(GvdDo=hsW=y
zl5|<&bD&9<SzF8tiGOE1Ay}Gu8Du9BUEG(AjWB6?E#OvsM9FL8wIqH2V#m~shv#S8
ztL|=OPGRqcAg!@CpT>44AF66jG!7#Bd+q++PLlcjN9PQAEUrqMjm|kwh{-_fkvI2I
z(y2jGfqilsW#e~~oH(kC7uTEb$GSUEb4gg#b^2OiRtAMIg{d#pt~9H*g|>motO8gU
z41*b#Lh=go(HtoaO_ig|)VJy+YSDB>0dy#|a3%kp(2zp<1mLh6M!Sjs8T@`2X3F4)
z2j)z@BqVitYHe)|v^B^{z+!1%|0=}X0`*cxA+hL~@#f&j2(w782rVrwJw39z2Sz*W
zd}wW7>p}YiXf*98jL!8^AV+{ss0O>KZAc>HKCT`5h-7VLm8WZI$+$-#(ClMGKC5L8
zCo{x4qhA-a+(U5dRZ%~L57Z2zB^%<~x9`EI4R=PhL47gw_duqXl=o5TJ-`3>EI~Fu
zwlJJ3^!7gn2n<b2&?fYwHo)$@x@_Cd=nqw3UvA+<(WL^YgrwdlR~_2TJM+Quab(Dm
znVA9Ymk<muB&6|o?>yd^j^>Om>mgjXbynAh#3Jym68RasWtF8drSAx<23&fkHg5{Z
z>~K9P?oxpP8It1pYfy#V2)mK3WaJKH%rLQQ7F%YKpFQ|vx_y33K4J%_=g1mnH^&bh
zxu5OJy>W1aKlk%3^h^8Or`23o7(7++Wuf_3IR4ZF@ATmFeCg_^R4S?IY{p}MCQ8mW
zN30;pGteKjCSI4KH2o38P!M}Z?DZEJ><qC9Pgpl~bhy`H)GoMwBj7}%`jA<Ws(joM
z!AQ-)Tsx~^Rxag~Wws!WV>z^sMH0I?vW`dsT_XgLc6P1BmN$DC^u;D-pkIVWY&Kpn
zba8Y2`_gCrAbiWu?>PBl&+P6@i(N`scvp?zx#I0MbJToMz6gyTJoMWNEuUYMV$5o(
z5mMM&(7UoGn8^2Npr9+p_2BzsO1aUCL%2RR-g|U(bEcnIKR}!t-A3ndc4k|mA+h!C
zL_JJOVY-a6%_e^ROu#CGLSn@Ca%;bVrl2CNS$ltiGRKK3Q7_pL@ey*ip;<WLU_9}E
zS{9f71iIGNRv8%?;B*z0lmM4?ghLWb^`gJCI<zD!Gc&Up(w{*Q1{JN^1KL1xswrQ~
zqL)K_vmK;LId4EvV9)??^+1(EjrAT-R(o^s=jEpj`6jq`CDQScSvXK}CS6t_6hV5W
zlZrw?dLlhN9Yj32qd@#4Ihfu)2z~T34|u;H(31iQgh8Y5kA&<(qe>A^o98~VA4D0#
zx+lF4lSPjBi@~!*su9^V3>Ra`6hq9uKl4o}|MEwH#HSJ;i|AN}N!GVV62=1sGX$ky
z4M7O*EoK&$0)Q3!;qCK>9aBn5N^|y(#eWp7&B4<`QtrlEh&Gae!MYCFt1ITE<@dL<
zm?_D$GWdH$9WyMD)1v6!OfzrjImdS+r=Jb7nVT>!afH22Va-_GamHqw-4ul`*SB1g
zAI-y{RGZ@zTkm!p8eF`UIOp*5zW}4iO3#}ts4*}*DAa7NtA!_Cn0IGA1;15ZZVeUH
zGCG=dFhSKO-*UxBsK|r1$Q)bPj9T&`{!T8U?R9waN<|Hwf*gM>4=3-7@&=y9$q=s;
zYEhN9C>N!SC$lb+RZgO2W<?8cRUT2Ws8fg^>P{L{KN3z<Qj8=+9~nqYJ$);hxKNhl
z1V}kx(^CJE*(7Avc#VZ=FP!gXnp0W-gI3(PQaJ^3d1te;Y<>8PG&3A@Hv2<OCMoUh
z8`c`DmnD*v8%h2@ePxz66-tVVZrcBVC#PQ_9b&DkukU%HbQ(QQJ)niv7Ck^EI|us_
zv3#?y;wzB2*t7k^p}LR!7}ewq74xk7>?i5tiWDb$eB|~qV@pd*JG=4&d83D%b&VGN
zB4pn5n$eQZY!|XL6`VWHgzq4A3e639dpnK&Yqb)JfLm4brXkq_RK_Hh7dl6e<|0O+
z&K&sPeL#h`7*vCDDNW2aUQhjxIl7^O8<*@5m+FiH6Ca$-Aj!)1#joP4RY$zr#dvqh
zX(aSb>YuR}y6>B->m)ZY&MitE4yMdo^woKv3_DAz%m#;i;m}joSTn5e^*wk0@ak1b
z_jl03^xq<)QxgSz$hi62%C8EH5KyY_el1A%aGGT0Vq9CVuM1tXvNCv0Tz^c3f5ah&
z?J=RvHK25+UN{IjPy4{h&9->e4`m`2l%S;0)YMd8pE9vx^?8Pk7W=_aO9JGCbSy6B
zIIW*{T@Z?&Mw4;)11t`6z1Y=Bw&ngx54gLyX~f^%(5m?ZJle|8EQYjqkEoIM-rTd=
znc<CqVJ?oLla;WB1j_zuU5@vDK0leHU;f!xUsJ4Rs587XQ6cg=?v_=lK3|c~UqD+6
z^{&KAzJ4%&E}E^*@_D=Ig}rf`Kh?#FmDRJ>)<+T!jkPiBv%)`%P5MHj8?RFc#kjcQ
zPW2@|6-NS9*U2`B69oJ7(R!K}or=bPMT_g4F@ypYZPb36%tAs!)9V$(LO0q7!Lx_T
zY(~yPh;N1I^t2|N{=$@ujNB{Y_h{eLYiSjdhz;Sf+G_cB6fQZ*%LfgtonWo~dE`*t
zy^rztp!g?zkM5iA;WjJO{RK@nndNR;qouVqfb6|}eJG#3s<Y>}v~q@rhapcPY21{z
z<%_pN{j7uFt(3ZMlGU!Rt|^=cqKdb|+Ksml<K-mEmmJx*IN`o4iidSbm!=SNP>Vv2
zBc@p~nPF1=2|0$J=p#-d9=7@ff}(q@3{Ivl-y%YK{C}kDw?5Ufn=|?OhGCb&n~8LJ
z-s&`Zfja)4UQ6W4xa4ylkh6V<o=W>gqOBcvsK<ojV$BOm-J2s64k*ymCWriav_~Bt
zPk)8NEipfPxER)Wl=_;?#ZBR{%i=_D6z;3RbOUkoTK%Wc1GqLo@>YFwY|%E2ep?%x
z!U!)=$V<xH?VdvEf2?}U&GH8v$2J_JJ?UzojpzeOuXlePP<zA%2vyn_AP8t|6lKc2
zF&jZ}C}?!~Ja+WW-*yh*+=S?(<5FstX%zvk(d_d@>yahwRaaLxErR4GH&a0ufmCja
zcvh!5ToCXCa+U4<1-U?OSo23dtUS(bQQy-&(8_==?%Vp4_!v6V?Lws_cv@L7@Wnj$
zmOvSC1F?&q0EXuat&_hXSH~7Jo-h!;28zOO8Yz1>U~HmjApftC*XH^2KOm7Z{rpkn
zk)0hB|28|Lm@08@djZxCdeYX5U62TU=Q601GbNLPGME4A0>#~z^dvUp(t{$;V4H+d
z4HqAun~1Ss1xB7O8)#fS2786~v0cz*&Lf~VLEHRnBrA%dY$8VaQP|Ou`}z{Z{y<bM
z^{rcm$q}E}pdZ?}u2U4AP+G)OKL+halB9u9egNdTO+1-HgINLS{~2om3&$fvI$_~&
zqoX{GjB;uQrxIUok&~aO=--!lc~{E+@`hUva3;QVT<#2m{~&Y1+z`*xk6}5muWq6B
zJX0}pf%8)^fAi}fuCQ+%kA7NZ`)~~MYKdL{1Fq!*NOGbmdeSn+@|?3lCA8vze~0{)
zY)-z!V8ee`)&DN8`~myIBOXgY^3l(JY&m%~Q*X$sfjo_opTQDiSb2@DFZ2q6P@!v}
znx6pW4GRkkNxFFw<n@uMKUG|!LDn|KP1R=T&ct43zC@3kSwAKFP-3&MOLPDOppB9X
z8b4rFgU7=SFqsy36r$$b5^-vQn9tF6qi!r|LY&HlkI!>%$?^)N|LdVJ32d~K^_^`C
z2<Y^)srNeE5ELgDg|tV=js(sSC$1}h#YzWWhcz(Y@oHl9(b9}!kJ)AC5QbZuUwa>K
z`<={M4;J8oa9lXx%J-6-5`Yh^z8B&PAlQ?Z%*7dk!5|zpp}rs0lp!dBijI^v2`YK6
zem@Tgnd=blBMn3AlXe@O2_HQIF++hPa2%jP6Qn7YR*JpBA$WLrgzU{wS57sg{vGwv
z1n4+9^<@kGjiB)tg$9(KA~u~C6;-imnNpmQs3cPw!|34Cqsuf+B4f1EptU?4g4D@h
z$L`Rab8f29PlKO#{e7JtB%M@(lOKx6ohjav{Gs)2bA`;QEb0ldD^2|xV*JsukLEqt
zh7<J>6P55$EO6O=M25bdt~AgFv(Mf8-lS-o(Oiufmq6(F5!@#VI{675m^2=u_~+pf
z5k99+){HR=Xzp~3juNC$U&1Meu6v)LME1YK{)UV{7-9OeUr?E(a9~dJDeLb?1FqRk
z4eN-U_f}rfw}if~-B-4K+OM7?sV1R3jAu-E<~ZL-6v$}9?0*N!Rvxio0Q01<B|iv@
zNZg%!<l<Hlk*T6lW4<fhQK6Ew(Ggos(odBt$kW&!PD;A2DT+oU_<`CF;2_PX?@+Cf
z(6f<dxa&Izq%Nh`-i2mDu<IW0GJ}|coLpo|DZHe_&u=r2LhwcbF-F-cU`uRit9zNW
zPxHM-@PLOn4N8W(#ST&(DRFVb$#v)|1_9EIIe_yiI4mPi--g*x9_ACEna#oLjCceu
zawa4R>zVlJ7Rcjy0`FoK902Z%C_hN?yAOB(2s1$*7#?{0#)k3UaZY&r!DF~-0SF1@
zeJlK;B$l33=3R&BI_5hui(cFVXd)!vlh4Jv4PP1*UEl_L9MWxR3IZw#PhJ+}qE6bH
zFR)38DGCnD?DY!JA8>F%lkWC%Q%E}I?oH)tES~=ay$4m64bez`G6WLGQSz<89HO7y
z8_X_-7RkiFVH(tuO;wNca)pD%oGOb;Kp<(}M$}Fr96m3TO|dQLD%SS`BI*gvLflw4
z@F_*(&3e8gnPJ!VBjdKZu46yWXLAu_+J~)h?-S@@CzyIdg)yK%WDMg9i6Jir*#Pq#
zQ0UmO9zFM5?BFV~$k7^&G}6&W5lA*hhJE!FV`VO6qY3g?D|dpRnwLTW6qsF6kTi65
zc6P*Y;_{6B7<yrz&(t7UWe7WduQU+Ywoj|5heDF&ljyHAbVcb3y4dW|5?%+P8^!N_
zwt%gc)DLuU?Xi-PUjUX-4S*LxTrT1ce6if<HfTA6(QvwB1+kOv5`Ykj<ja?S>EEP?
z-UrSXu%I?GvZ`B4x0i#dx42}j>6!;IH1^6yGK1`0&E2=&uxKRzT3r=*v8|JADX6HZ
zNXw)v?U+Tyq{OTmYVKYEQo-ExPZ8t~O=VTP$7KFM+&}Uz#)=jjU%*g%<jbhlhJFZu
zb|KDCwY?=zr*7S@;C3tiC~NKpO<W(kDQzrRo;flJr>G)w7qKfD#$C<N8ZwRiJ1$Qe
zqy&F0YvuBMJN{#HCUIZc*1P;WRFqAvGi%cyCK_=$;iS(KN|E|-8uj=w3a?aRAfEu-
z34MeZj}Stortnk_B++l}2=eVd`rpM2>cf|8!cU$WRhspNt}#yuFuxj!Yx>jPE*vvU
z{ehuKJ7#j^9Vf;KqHEg(-cSnqA}=}y$-v?zZsakz3gO5~VvWEI*$N`Wz(xy!Ht1d#
zWXVp^V8*>lD2or}H+L$B%xdV=q#G0S*h#+^PPfExe)Kph(5}z@pmG&9rmqoMSWTGP
z$y6gNNW8Ud){oFSJmuO=Z`bl*JBQLomWtx@2G$|6OP4+_`l~1hNhi-#8Q%-kzCW#8
zso@zB1xz*fW2xX^Q@Rdr%}~F{Jmae9Zn<>ia#T}I+<b-=Mt25L1`%^LT$O%~XRAoJ
zPxIiMZ`T5O<Ni6&fsfK<u|z6#%7S0ptmua;YlfSCKdi5dq8%U);ZSK6Lmnk*iuN)_
zYM0wARp^hghTfdp?=Xv_mXzcP*~lNE<aF<Eh4<8mZAPc8?Gk?F#wZrOeYxQ!nPeF{
zIhmG9hN#5sqf<I1e2mnf_#j;+YXNk_-!Z4(N(D%&Ka^0D#zmRXVq{1z5eMFpg$W<U
zuR}`gVD3X{GXM1-8JIX8K3O{1wNr4KL2d2iOb_<M)!p0v;C1U32^&IH1C^7H-vNP!
zh3IAJv9F>cltTkCNl0e{{yW-dFU=^oF%_15Oou^*swA!akfW}XdGh<=4t2>Ydp3o?
z1+_S4s?N8Sl~Oq8Q8r64<+?RYg+HKuf@-dQ5?6>iUxrIe&b$AOVFCECow+UW3*>?-
zu6yRO<m5_n567paY2Dk6Chv6SwF0Q!_d5M;-55CydOg(&WtpPtE68ll)7<H$ZMO+D
z$3}!`=x62;h`OKs#bX<Y_BIO`{WWgV;wh76yV!c4-4V!yD!gnnrdvnQCHj26k*_i4
zmLRJ<iMYVk(kSjrLHZC%VNwoF>Z^S3cZe)e;^UqGN;}rb?WL+U6yKG*qHUC_GXWsr
z9oW;wWikxPXHiWLd>xzQu0c)ENT%}l=fzs=tjl-gGcxZ<oZjA`9_sf!<}v}>iYQ;X
z-35C^9O9J#`Tt-!Ks?wp0<Vahjv;xn<$Ra<k%=T*jGGIcVX9x{SE#3JAXW*@LQ3aL
z&7vBkjHHa0yQQu`v(t_#%>$D%zpbM5MB0Dos!8<BkG1TXj~Wh1G-m5p1a)mH1EXo#
zJ;(9vOq?5blUzyzU)~$M`%{iB+b_Y=x4RoHkEZfC$TvpJqN{vUtz4?&a`y1nIzRK-
zy5yx;a9#&z-o4jzLSB#84>xt&6mN}B`%d({4-GnaKW!>&ckIT~9k3UcWRtJ7UnIz5
z+4&}lWhr`X%`*S~R<LLYp{8mcVJcA^5jVmi_!}-dN?%VXaqR-PLF61@ArJY}{E$%T
zi)TxS`@gL(UT;09M4=;z$WyA?CQ|M}G0hLKQ=ol#q`^B0f$9xKHp)SlWq0-sKs#ls
zvLb~n#IC4H@Pe=c3pLm+(j;nQ>aU_UHXlv8LN}+ZS80?hRyk|ps@xnmz>GDRh}gtw
zR}%O9OnqN<jzDh6tYp;JyL(5jT{+=1j2*IO<AITZRJ|-tA;l1&VvL^HK%~o{Lw2c3
z8-q5#ART$t-Mv*Um!K0wAL(s71~54$0-Y-|?<;joB3&(iBU+D{7B8ZLxV3;wT)U&X
z^*maXjHi<WbIX{!wFs-9iWh)SbaIBV2wjPJd379d6kd7sIo3qX%xJ;_68)}C5V0eF
z#@tu(-592tsf3&aFoE@&%e7mEMbV1vXv4L=|2)1wA@vxyU6ipw)so;0uEx)>63o0Y
zyeA?OBpP=NT@Km`<??@Jbged`8L$zn2}eBM)RgickON)Fcw^o6r9HKV5feWl8UjBx
z8R{6|71yC-XOI5Y5j1cEO?if$7u)+Ag7gkGp2$dDXI#zZUTyx5p&@%1a%hoES6^?}
z5^paTVY4LRvgTg|9DWh0A@|57bwzBG>g8QPe_k~19|)wawNN<ExD^PWFFL#-X6S3z
z+XOo9&@fy3b0Wt$D%dtPrURX~Vm&FGRR7BSo|(}Pj0-QO&A`29p=%gA!AJWbhcbR^
zWaa~48NR`)ySqF$TI`yLo~=7I9CzOA2bF{G?H<K_ioacDW5Npl0iwTS@P5(?l7Hwd
ztl@hbHox`3v+^`*Ul~_ZKgIhq8)B6>Jxo%C$er8hPQ59{Qqo58!q=efzV7as^&pCS
zrh>#VkJ|<I#ar_OiaEUw>i;61eWJXqR`rXyF4@}Ptr<&@5TkfohGP+VdQCLlbI>kT
zFbe}zS^S~69UZl`XNQtaqmcbKUS8L;bP!?)6U8x+XR=l>QX}-Y7;rgK?<TxDt%(1H
z|4*k<&s?)pxBIQopYt08!iO9^2edc6@j{@;;j>A&+FRy~>FGhRgmwc~sh-8kbh7_7
zBHU1o`D4`Y@nimg9}-EgG~@x9g+3T9E&sbcD=P;S+`|$ts}wb+F4l2u26^Xd3!KIo
zEsU~ah6bJt{+??BKehK!zo^^Bf}z8zyvj$XPap>{GT!(hP00?DDhkg2!i5)~(tc;Z
zv1Pah!Omcc%FhV}8luEsM%Y*o+IdHOjUJP`c*Y_1v@dERz*no@NVZ5yszUdv$P0(v
z0!mxa2E$>q=GWq$Ogd+mw(A->?t99MZ7hqnWP)@=U7s4`UGZpB=~?NVb&AUy(Vfv8
z!FLY>edCNkotxLHH!XQQ`G_ju|7?K&GsrTPlYe}CpcLC^J$kp3A{gDA$Xtfr{~X!n
zm1i%Oi^MX{Bij2t>^Lsyv@)2#i0z{;w>YhJWvMrIA5{<{i>_tq?jzE9DbNeF-KhO-
zCW`TlA|%t(v?6D=`n#LueAYAqnez3K<zycON&6DB#sq2@6N-`4lp|3dOZ(M;XMLpG
zk-J0?4H0vje;^^ex5oU9ND!NNX~`0%FYtCLV)B{36E9#pjcj3~V6r7j`-n#TQg*33
zLz>M~L#SiAQLh5&PN)MG9u_JZ-P~GObLfa%RyvV5Sw)A8WCrD07pWzFOlMYi9d!wL
zAd^RLI^>pwHig1kxG0Y&8{qnQBXz115tBk&RjykBLX6jusp(T)V82C>Y((2~=n#{*
zjNxZUGl;V9F<jZ0I`=w(>v{iqz{QjHSW4r|TG@h$qbzl8_7**uCWFHEVYZO9e|-g7
z`;j3U8x!`2&+}jIaeN6<Udlh!#cSWAlzhNZY0`FAAUJaDmbywGHN)r;@*&XJcmxC`
zyMp(pa~Cf+M2y0>J_MJRNwT$_uHbxE|0-vS5Sz%HSJN@ql_pxSnFq<<_|pVjc{i-~
zc9b0%zp3ea;`}I`n>hiyfBx`X{miukIaP=5mc3;>GJrdTQG7x_kax<Ue4$_}aP7uD
zc=<=bK(|yAX(Fnmj?XR+{kVvpGC|{#q`mhb)`E2uGZ22)E<z<Zt0)bL`Wo?$kWu{a
zXGxAZ_RGIwb8G8ID_#yu{{oRvf`fx0^7ywCmWY$|gmk7kdbWJWO$K>kQTKxqX`@Ox
z(jbMmu=oi20>-hNWR@!V@MV{zpm@rQCg<KF-f%bUZ^bTbn0gW}E2!^_ZITy1KBvjB
zphi2O8Wn@ou;{3s?J)k79Fp+Igq2+`<z4A)h*Rh{VvSANaTQ^q0RaRR73I0yv_<0s
zj0n|GQ++`q$u5=)Fu0O^oa2?qzxz%#BswNh0D+U|@>K!B>la#kr@rF)9s|v`;>Leu
z{po!i%c-V%r(L6o!_Biy5fmvZ41#A(+Y7HHypu6P)H0t1JA&76`@0b2$8+p#rmLqO
z9R-7awJV&;X<-oUMZXwry8~~F>hMpu&1YKP%SjSg)6Arr+U`V5VpKK*e-S6od5lPT
zX<zJ2^Pn)@3Gla<IeR0Z_Vnq`2!iH#d=+JG<3TL^5A#ijk9FH`brXXi_WFF<(pOrL
z3Iht=fYe8Jf-|R5i|NHM<pZtPt9H@`NQZClJzt`%CVL_yvr&+~somEz%}HajKdNDu
ztda=^kQZMXe108zsI77Ykei%MoO*m2@ATL(pbjCE?}de$$oRA8elT6iFF}_lu&Yvu
z^cYK1uSNG;?ZBohmjsdW43&WVqEa>vyUAIYswv9>ogz=Fh|3a;a``49W+^Jy10+Xs
zp@hK*Q)C6_n0Q{`t+Pz-FfBH@Veo<|BvS=Zyh>;;tcSI>%Ke%_m2sD4#U<UJE|h*)
z*8&S6&+@{Pl0QgjpL~y5k@(0C(6;_KzfO~UH)PJOw5<q1R9_&xnP|I^6Y5K8XV1^i
zqwB^Z#@=*vEYq2dAXJl;h@_FfD2Q$$1@=(i5=-g=>FYz~@LQcW;iOD_2wWVt3QMA;
zHE@J6UNKMsOqx9ufExLGj2wrAe>^hyp)vOcX&sD!$jY@D8QT-_q2-N8c#n!z-$2?C
zvZwSz;L+KL5_(0t1#h7(^J-S48xUV>?nOBf&`2_V!w~DfMvi|tn53Q+b0^oTR|6sc
zZ=2291!1a1yt<O5i8Rk-^k}|0UL>0JO;!gxY3_>|YmDiKqu}jJ!ZOB{Ersn~QuBz)
zv{~Yva#SOYXdH!^^{oY}AEMCUXGE=}IuPwsp2GAC`j3#94#+aE0Ya((9SN802z2VK
z(!LLO2y#3k{kUWvfItZ-;Pzy`3b;IVY0;Ut!S<h7Q{u(MzV48mnPnRLzJ4XUP=*{B
zR59QD@>Tb)QCN2@$|+)`nz|cL6Fs(&^HT1TEp{}}nKz{|inN<73d!eIFn;MbjDUhs
z*~f!2rM3X9Q7T+=Y^v{3na0*pYEjme^2ez!_UYv*S52Op1#+gZgZf_d_6s?h#>l#@
zSkh4Cl@43Vpxt4`hdirt)NJhRgR@S8O!JD!{yj#FA?>x<L)kWI*R)G|v}(B8tZdm)
zOjrN%GO!U7-&muN^eXlFoR`{R*W}j(>-?M66KGW!+jlYDzvN{fi5jbmV4=8s&jWX~
z!@9jq&|pssDQ9cgbk|wn0}5h7o)Wtvx?0#^=b(*jCd;XaU71)2p`f6kEy%$B0!e${
z?u1Ij##_}ojb{1}RUjW)9BVKA5hIg)!7JX^k(s15ZKn#a1dlkY6jmze?GVNF0)$@|
zd#>%3jVa%ks{BU__~*zz38DXzSweF^<BPwq@6*2cPr$E^=+hHd8(6>`z{NQnz4^->
z?Y_@5T&nz+BFkPo`W_+Zwj7VsdpeDsOI0Y0EejhA!4kXi=egng!OH1-Pj5@~|D2dj
zVy5cqTHJX{{j45u{OO0`tke^9E3yat0*?RAe<Cf-=ue}2-R@Wl3VQbZ`NDD+_ewu8
zX(#UYp(!=H=gey)WGTOXzlCa56@>5`hs4Atg1c+$8{c0i;h^J=)iW`Qrs`;6i(-mp
z&`5a;TU@Rhn%u8C-E7=m&;H<;wWNFDvOaoO?^3WzJEq~E&%to~b=cgRbsTRYyS->s
z6{a$#29`lLgJq+>Ytd$~f^&OHtY_j^qsw0)x$W8;?BC@-pO#A!c@0Q^lovWOzB#SA
z+)D&Bt9fC@S%Qg~UY>DDAH;;9D#!XBnFSy%ZcQ1B2Ps{rKY%vD%1an&Y`^)9$LcY?
zBljXtk|lfe01XWY2uLO}GjVoyh9fEpKgwcKjBp6~bEr|bnfTlI%2Fbt+xl?QJW*$1
zmwh6uC2P5&vZ5C(d+rZ{v4NahL|;gPuu${cEHGqs!&V>!ff7Ye&}J-9`o_Smqo7((
zN)%{6S&H;A<Oo6OQqCKO>A}aw@G8B!E1S|p6&owakynyPfL89O<%-iY4a^YYj)q(1
z#>$?aqT&yb&5sx~(C?4P27${X5$joD)3RAcc)KxWw4mJ7j5A0!6Q07RP4$ou-$V(k
z^Je7@X@7UXC}2I1^87CI@UbRQX3Ge<Y$@cusVT7mz4P#iY6oGQH#JerVF#CTp-scV
z$q9MP-PP6AM`VI4dcAfnXpHTF-CKYhSYy;D-OgBo_9$v;FLp)d>_xoZ_krYpF9)du
z6Xu;2O~WO64iomtFCDkW@@hn0^aY^im^xo#I59e7+~&pfb|rip^n^A#I?_MXTvVXk
z6^S0{2j)@`lJ(kjU=Rj%iJm!)a-XCis?#4TW?SZ+g32)u7QoaBIm1lL@V~qMgy38f
zGiUr0m|8C#8FwovuJJ9*&T*!d$62YyJARr##>`_BTvK@hv}5C|7xbaqnpVBso|!IK
z&CqIX3m6id-`3q!thes*hVx?bA}^uGy2d^iRD)Oq(L~&y`|XqQ@!>uRZ9}ag-eZ!-
zosN;Hl9ziA&`DmZ$LDR`(GU6I{p%YS?-K-XR~iZewz4~%a$ez>Mll<`y2Ms_YCZ!m
z$FU;{2WK$slX`1g^g0bFYk)-?W5CwV%GH+lbcTNJONL$|>HdT;1vBbOxh7FYF2$rg
zTzO0!90rVVHl)2Hxm#(}{Yiqcl#Jwm=d~2VdFnb<%wB|(o(pAIaNx!)lHUpZHCYz2
zaRVe<xzN#80PEwT+o_o^)T4|sJQUeY6ssEATN;zS!%G`;JN>6}dg4S60~YHooEWJ;
z&WfMB{yR>%i<fq5>qL2K*gk<hzTM%*mu8Z7H6w7#5u9Zplh&*LL^+R?4*7JTUdBO1
zvw+p5z00}GLMw{IAs6Q2vb;PViV1YIH@~J-=2{o9mnHl%z@A2wfF9eys0GT@bSbIB
zk+()w^@RZ-g;@|koT=@dtyhD9Jk4)Y6;1D+lmuLPxx$76>6ry*y9<v!J%=e*v+qA{
z1s@xVPPMVU*C{W7a+bs_l!7%}PiVX`@l90yy3^ge(bY9}1!7s60KxpsTyy16!>@#f
znPL;9<f$(XpE+r1NeV4Ae(mh-_;*nsD3S|}xG3vS8xt6=aE0DrmjWg#uUrXko(P(w
zWUYR3_72W0MJH0Z4@ydCq;c=TO=K3tq{7eE$^9!NN|D#K&}>_0B88)AcGiRPE+Sii
z#qAp>iMXi;-`}bUGSeWJRa{HgU#XVTX|iAc?yfs7*xmQ!#TnB4_t~fDmg9_R-kk>z
z-g*1UsK@_4`E3+0C#QJU-J^6|M8>*5&SV?dlU>?D6mUHp8A&aYxUJF@AVn~(g-BQa
zdL;XKYs=^sz7TaPfoAu+Ctje4e?H&Oba)7f8pFJ1b4#W}t9`Gnw6u#nD85O$&}V*Y
z(02guT;)^8*`|q4?q##1qs}|}sYAM0#3)ixKEn3n1sUr!x~zva<0S+fS7(oUr20JU
z-gw(Q&z^W|=;4)tIcC+ZvsfWN)8Ppd@G7Scr>t((V(cH>W_t0>#>StKI5n=HzzU&p
zGm@F2`r%QFCeTJjVt?yNio(Z=!X(ASi#irlTvC)k<sxh+N(6~G{y|D(XlbJJe3!f2
z*RXhUA|e^-C`s1b(3G9A)owfo^IC2f;v*b+@p(~YGEqz{LUy9Dt|Zh9bNa9Z944$&
zsB4U@Efvkn^hDz6`5L1n&xUF@=xQWd14Ny<#}Ie*mOMtV81g+=!ji5ox!PDV^IOsV
zGwXPv$blV(>XsOIJ)Mfp5=(?rQGao<OljQ<Xpb$b8Yv^^HungLwY4{+6y6i=V5d+A
zuyV>#piU(JYL}WM%?kY1AM_}GhUk08>jwN!W_aTTbW?QV6jLQ<&bZrQOiD`KXG<L@
zF9SSg);E~>doi;oH0>jaGUzpsSNi)E_s}<%Iq3M+n19Hs`q_%oQl)IkgdVJT;jING
zku=AY8Scn`j@;>yI0LpA`sJnPV^?JgyT4?qXUqK_d3nMvdy(H{om0}Z%pvhcqN#N(
zS%>6L&jTC3@(>eHx~m(R@3>y9tUdYQ@TjGe`w&a*!KAuDKDQ;#7;}I168(eNkgnCx
zEPRHj^~NKG_kPZvqkpJ^(_XKaAVh(D(^S<gYJ99ky+m~PuKHJZ!OG~(Cu=1hD4!;8
z<#ryJo99GNL>h5SUE{g%h0&GOjhmE`nsDfpwl_svWibJOl#e7()#-9jj_QepSWUvm
zaU9RUwYdS6{fp~OvBfDqlTDUXo88ABe`RC8cYD2-vCCLflQ2gI17##bC`J`^y8`V(
z;B~HWi3OhBpyJl@XM;<*JohI%y^^cAtq~izw;D*x$LqHwaSJW`8$(|wS2*E}uPzTR
zA~8bXfJ9eD^9w-_uTOVL9-&FRtGL{<a0$Sem0dXPZPly3U+@!#xQ;-1pXCI1YTQV)
znl2#5ML(wbZnm7Fg!Ni26%Fd-uqSkZp3jy|oz!Bd&T44OM6iP2?=vvBEn&66+Y^qz
z4<4YhJyIPN$2qgW_<C<^XKnPf>*o<^xSGG#-F2>U0mGFa>1h&Fb$j>sk9Z!5`)z{k
z%1BbvBH=PLV5fNaH;uS^>3=*lg#xAho{qdo7W(z!p7ks1Am{HNr~l`k6vQ=n$NR2U
zCPZ+oldsHuAi3BVvhrU3&X^QAI4pYD1PP<N3-&KsWfP}P_ruSRwO`%!!)jkL`jSxw
z^Bi3&;5u|qXfY7K=EW>Vs7bJK?>YoVBT2<W-chZ)Ei=Y)*7@<o2gmwW&qOK9$h+}q
zqpy<=k?J8@u7;Yl4}Y&q=CsA<FYcs@Iyc0+zxn`UTi+{d5r=ePn}qDusHn5#dk*PH
z*l4#hg;Yvfv9OFh50u(WktkkeaU1iuUWr?M7bL+3|Jc)FRjo|npInB81xkyp=Xno~
zAz5=c(;C^m+Gqf&J=cjJX|;^)+tTT3pZZ1uT5QB<kaeKP;WM0L!xqsb?)lHnPFKF1
z2{EtrY58gq?u=BE7_6`9gfafmX^`5_J;w0O*XoNGCk^D<9392Q<ejkm?5*@})hV3X
zqen8}OvM#cOOyEZdgaOE&~`ION`kNXk^6268r=l;qJJjT2J*deaOP2q<tP1Oh1pZA
zA@Wrp#OI)O{P;ZWs%?)J9FL(6uc!xPH5`0)^goDWT&|t`Zn^q*{NBDGHpS&`m)78W
zdoj^25ScfSD&#I^inzHH%Eyh{)b;mgfte~NARBaQl4ilRFMheRqg7pJRVzE7p%wdl
z)sV-JEjyYGsUGUqVI`S3olEBWm8B<%lNaOV<KuQm%VZlMLrgtM^qa}l$IFY)ojr}U
zHa1!%IfC~_AxjSkSyx;XK_Eu0W~zp{ve8@76yC_0u+tFCSCJ8lY3+|%G*a}l?gSg=
zYm6}YzlbM|VUeYA2?!d`>!<eHitYBzUnGh~;<EWw<CLl`8mYW;WOTM`auk}>LoeNY
zdGx)cPLq%dTP_qO2vwFfm}^A0Zk^MdCs-%w0sR9$0frhRw>Oq~qB4PN8r1Ur?+uu0
z2wmuiD1&JA6=f(5==7sW><V6&n#N!55@PuFjF3ieF#7+tVelN-FHK57cg(|&z_7|A
z#%AS;5r{0KTSj=yPTC$My{WnVP5ZHm77w4^z|Xsng>cxSU+4dvLWh*cM}{(_I<(dQ
zdTUDM7|PZ9{C6v?%ds#>Mgl1<m)-5ynT^9rpY$0xT&I0Lyeel``ujJ)IiT78%gY6y
zX6s^Wr<bEMGIJlMg!3t7hDA5B>f_VV$OO1HsCntq1%jza*mD_4A``Rf6;CCt+g7uG
zZ#d)UyX|B@$>}kFTmSNR`NtpS#>bK+9%I?*Hgm2g<}7yz^tS$`Ui*Gi;qx#Z-?Y=X
zC-9;2h_!&vA&={*K(X3nWyGUg{$b_0!f1W@&bNnh{DGnIT*hcLuj}VWUm+QMk11ns
zz^U0UylluDeT|p`6glpB#yZM_=(aW~i^$eQ`j(a!Fm}7k*0Y}nPBt9;W_v~B`kqC&
zmP5~HjOe;n;S*o)7@_CWs{LmSIXQOYnc>kjdgTvByswze>=IAV4dYXY%C^1iCNn?k
zT_n*B)R0s--=XPNbnOy=gy*17Vr{C%AGL00bnhs?TdA>vTpLrLIflR^H}?3qf}z<g
zO^-saR^v|<{;*Ffs^k50R((xl!oK+J?R+VI)kZ~Z*ZDHPZ<J5Z<~S2?3VXlu-PFA|
zNy#>YqO$oA1ItIajD1eIZXPR$QMAgf{=2+D`OQgTE$Q#?*wMnX3|-AxQNAh69ABSG
z#Q!@8{T*-|T7hU3{scA~IXTqNzu%wWSHMO26Z;RxDTyf}%QQuK=nUokhO7(3C3>Nc
z$52@9?!FmA3p6Y<PHwhTdfF9k+ipFzpA>)JN;y8U$c&x%;(Wu}It|62m&_<RT_0WZ
zt++0(QQYmc5T;xlPkEWVJf^HpKECIHpMQLYo;BsoFGK5xMJlm>QWWAzs||GnXZN^h
z8=k4j$jhHCUT3Q)=cd&Y4E~;A!Qn<rZGY!=crZRb7!s@ua$2LdAFe<46~e)L9<0xz
zPI~WN$)A}=iX%GZj&trGc$*#sCeUGxPYlsHD?^ESokO#$71Cw+Y)1$AB|5$sA&Ruq
zZA2_zSGX0*9`56T0V~po{lB{@TJ+(|cqc1JcG%Nu*;y#pNnH4-J*%rjdzA9Kb9!>W
zeSHt|{#x`!BR%w8Urwxdd?GWN{RYk(T&l;8@ybK`ngg{kK|dIpoh8G-Cj|rd2lI!m
z@`X&?+*GFt?AqjFU7I@AM_be)BDYqAsPS`Hm<_i`_gY{45_%dJ!|~oQfx7~s+Qatg
z`C=s$S?+!pdcYku{V@E=M{@VA1R_FBQc@k&&8&OV2RLX|C?hVCcLJ~Ejcw3|?Z49B
z$?7dS65LKn(H#j;Jl!+<l}4RLLH3Mh=A!$3Pskttfa|%@GavoyQKh@9DtEgLPMf1a
zg4*Zqv(%2XDqn#Z-UR9L@t?(OXqf*qS(bD~vH>cy+!fGu4OAB@E5H9%?M6QbraMRx
zKmMq_T|Q<xfAC93m!ZO`md>2VKtk|Osr>MyzrR12SMNL<16f_JjhE!RI1YdN{J;FI
z%&!~g(Vx#G=vqiR_ML`4d@@!2C7XcAFZ0Kfq$>0B_m`E=#1l@1O?*0QTG6tR{BvoW
z;;t<Q>_~h~dHy9>sL@xYgQ5mTt>Js+kwKCAOtiG^yT{x41l1Pr2tN8Pfrke|YwW1$
zB5a=reFxb#Oc~Gy$~)+h?NLO7uQ>YlURwJo5=j;E()TU+84mEblz+dNflMb|o>25h
z<XnTd?~7+j_4jSxsTs{lJKj#gav#8UHZ$viClN&>`<^vg$$(5%+BdyGxc2P73*N!4
z5Wh%E*54zZf888I)H2=Z^1WCsY!5g6-8&jXr(@r<ao2Y|m>8ZR&U?6&v(+Z466jH1
z33#7TFnf7#c<g2&z0$Sg7&bGj4ziBDh75!hjzhlZ-x~rDyv`LUyb@RqK3?lG?(KP%
zEJM{636!e%sCOleCR@C2?GAq7!gz&&H<(Y#j%NL-$ttjn?0aTbT^+l6HfQ!dk!rsS
z+_KZ{snj0*ZT+$Z6x@HvwNprYc@G|r9egby7iMt#{mo|R!arM*Ywp84!W>iF6O)!x
z@8NWZ*1@+kg=}AcP@o|mgp(TDHVu3UE)(P^RgH0&)$%+$u-81>nSI^eU042vPTU={
za2S>0jm;hlZktO%(OhVF>e7sf{{RnnRl8U+GD4eG?PTF)85j$>jWaa#%y34|&VNn*
zY14S}z8rxnM6p*@iCm+T#r1t1<)_bI@(lm7`S%rsyJ&$wDOY=~uBQW-P&OOybG@6N
z5Fp50XCa%fv(vpAl`4^G)1Rv{26sI9LEkgOh_1x}9c?eVqhC2=vtm`dG^?!_ehv#f
zr!f~NhZuO*2X-54D;LkuH!clp%^!l3V10$!_%TvCX8O;ZDC>dOOhApyg6;nj6;cfr
zz^0;>Eirp4ahIvcaBEsD5en9sn3>C)=j}_e9gPz)pPED}j;B6O@1WABWOCqHU}gK4
zqZ{@?u*5`jFF?+fDQtgbZ~N%^Y7WSlZu5i@4)lye*<zyg!oOcSIyy(7`~ht%hH4{r
zpgqI0K@f`p5X&PeDG7!daq&;vuV@JFwt!63bh%UFO8qVS$Y7nT^4hwA(>dC`Fk3e_
z4*B@u@Y_MwZd!3-_a!*(Yl3qL`zOo90+XhO)Wnb=3t+6+pI~o$3T=<~6r(Vxz|1U_
zK3jsVD-eo+(+G#`{Sl_=sSbbU&lEn?TW@}_O#;MC3W@RrAD6Rp#P0(8fo$~b6B5M8
zFlWTyKxf6D$M!L5`YUV6`0K6Sy294#+-n;6?JUw^)}_d*iczvgHGH8G=5oU5?Li5Q
zFM`_5cnzKxYR(~WcZ8nfmyiu^9c{#|UrlY<45f@FR~h>|xJb6#w^W4mkZb+a>Pd-F
znk&@nc$$yNXuK%xJ}0DRh)C{f;=>3$F)^|!V;2SlC(gntNzHsinIVE%<Q#VmB7b_V
zbC@Qu32ot$Snhh5zJInk@Z(47BI&Rdr6pP5L-(j$+99Di-WJ=+VjCpWa@D`NR&Cdk
z04$6nR-4?orXezG|CI^hUSYl4ryP^z?EBJxq!5&MQ_<F5^1rL(92)vEzxj7&ifyA=
zs@wPP#l?MbW+wv*sZoYvm$&K9C12U^9mkYeMCb2bt=?V#2w5`k>+9=(4qQD(((ksV
zBqrtu4Jo)a-h=|Z4}rs@;IytFGc6*RgaedgTIU6_YalDd9ycdvGRN$2Gv4b8eI<kQ
z6Z7fs13I(VzrTpM3VmzFvS%3kt4G-c^35X%GE@3?_srr+Y|?=w<6*o;9`<kLAp%=(
zCIw}G&8mU2f6MutO^QESx|Ykws!U71F@49|KJO)<F<or&Qypkir0G#?F85+9Yy#~Q
zsCABqn(VpR(8NqTbrD9lzow876N3TU2cj~HsVb(WCgzr@2xHo|dkKYuA2>O^VbL%o
z7hA?N_3Q|is2J*D49pG8LBZf0lg+sLSATW&H;aO&GDq*DQ_42QH)Nl^-%A~{OQqG%
zB?FX{hULkbQEh3dTr(xaO7yCSIrKQwq(y8Hy5xz0&Q|k{Su!DY78Z-cIXMd96g;Vx
z)=#R)JzkDRN3wqQokgx~zs)P`=gnQ|^ZUEKD+AICECQams9FSXC{{R<@t2IEBu=It
zEr63^Lf@NOm@Fb=CLJAgGDZs{@pj|8b(%7w2cF>~9$3BjW#~j%>|P0?BKy51JCl&m
zby$u5Zkg3adna-U!X$H7M^!TL*VfnB&puDGr8kxnFVflytDfj3Bx%R{)F#E*e_Ok)
z7dY2YtB?O@sv=GKH;f?z(40VD7T@HcCXbMOSrs~8UWIs2_<PRUlt8juRw655PhNl%
z=U}aLYfA*)>Ad2lir*iZbkR(yRjf-V&xt)o(i2r!5`RZUS&jd4M-;OdeL51qH+K-c
z?(v&{E44yzbGkYw`fVK}{_Ry&#i#XWIUMbby%y*X*oR`G>yZCS?yiykTcF8r`{!pg
z8qdZOpS-cYAr+-z#LMyN(c3L}P968AhJKPn({vlg`c$;HOY7-P1F=lSU*B@AeK#`?
z#W}H9*>Ot(B&DE2KUT?wY}qmJ<I~XOWEfEv7g|1u&*_Kcjf<5YoVkyfhGbt+IwDF+
zN?N?9k9f<!M+va<^Ya_{EEYH<{&fQ&-4tX6VA1mtIlE_GwF42`Aj}83;sG5FCP-(O
zjr<QzY8!CTC<&>l9VD9HB$lYYp|2*G67i2*Sy^HIy3JV~lgJ_<0Ke7{ND}DfqT!e+
z!UhcZChpXsfwmcfkb6Bv!40tRJm;lu*?k$!UE>B9g2Jv)4I5H<i(iQeGIGO!dC*j_
zadHlOFpPiGnedpHA*}BORq9p}2!1#GXf!}jniZupcrq%;2-(b4=M}qvJAgEmlK|Tz
zJwHFc_Z1C*no?ih2=uLG!4Co1zLTe|MFgaej$rnIs2b~!&-KYlq^__C2t@vP>K)yP
z(`TKK(Lch=1$p8&Gc{%&0uAgLud295=_Z(}MNFDK-u=d?pEC0D^1@YyEW}TJTgE_1
zth#%OEMwgCHoz9J(r|ouSkHIG`wf!xeL#TUZ5(@e&c*2a>}kzEUXMA~_M2HfHGk@j
z9;KI*b2$ncoyOMD`SG+$>KXw}HlFn3G$u<Sw`aSj`(kO_DV4^V1ZW+KQx6q#@sCt)
zAvTs|hEziS?!Gsg7I!p^Z<E4(Cgx^pd-~30RnTU;Bxk(!oSjTOY~|C7dZTneUEovo
zjPX1WaX`<#+Ivvm?6Xm<h6Y(T{wD@?nNNBbuTqaM7E1&jGyK;gt?qwNe><uEmOmVK
zph}x%J%&f?aWyw${OaW6a5&xs?`=eQex9aOo9td}bXOIOR$<|-=sUlrHBe^4@!w0}
z;W&gVB0V~NT!j%I%gOY`<T^vv>G$`dBrzd?Y%t5O4~9sUsRfuXMg!EB3CbJJy-Vhe
zh8`5woInv$rl3;a6iEETP22u`J0NrIMR+8J$Gv-Eec5)M7CXBH$_TVm#~%_gd^_|x
zMJk7FXUt?$?fEDe&;H$v7bgg=LTvUYZ|jBz**`e2wGUK0CR^Lo+gY%0YMGr#qN_!&
zTX%NW*>$UWB7*lJRMGa=!x-nD+n3T6#!XtC<Q_de2H7PK&kGCf#G^mR;&3H#ZQS?2
z40j=JEo$U8=A6W<8z(GLC!45DNyXSTAe`=F$&oBT*&9ge(Jo%I5iv|l!1BFV8_3*W
ztzX}@FBkK0z>gp#m>4{wZx`kIvO;x^xTEn(aVRFH9v?$ucZd4lKN_TkMyKCe@ieI=
zPj!=1)>)V(_Opl<mh9t#+Wf`bT=yA<?y1Z1@$o?ttC{!2Cf5pGerYP#6Jia4c>yFa
zuX+0TG&cdv|IrC_%;18QQhycT^N^Lu4d^(?F)i3EE7Z9s=1<Rnf0NCjR@EvHRZ{@6
zoY0i9KOi&7wtJ2yz~Zfe<hdlsk~VVNm-YiZz28CKqV`;ZKZ>0&5K^Qjrl+TS4<G%G
z-d+mu!XtiwRB{R103}oGdxmH$>V%Hv90mVC%vH>%j*HU~c%mgi%&QMh%eBjxo5_hc
z_{Tb?gek$H5;{hresXXCQUIaiXLbZz%#w5&H$`PvJ{>GN;1qrr0EyPky3Z<$2MHO-
z5+ejMwOe$<PVygl>%4oelp-Pwew`~QLAiPB8-O8=0C$k>MH;5J(6HA^H&#;27Rtd>
zrq$kn_vz9QI3fu;`w=IS#|xi*C@fR@@&ZVIFEpq9ynxtIkBe|!m+fVmW+}5uqo&u=
zvH^iDx}Uuc(SwUt<L=%U7ZjXqX-4mS4f{!YcK-0#bcG(zNH@XR?@`wB;as_r@lkv#
zEUA@hV%(QHg}^)=AsJ%)(S3<$4BX*^MerIx(t5v`|IQ5G+1KcLVo&rT`?!Dj>CR+`
z0CShYu69~NQxqfHYFnX_uMbyZafigqtDj$Od_nvA_5aBF%BU*WF50~}-QA6JNSAa<
zHwcJ;0wRdgjdX)bi-?poh=5252$BLyiBc+EiqZlScWu9W$GF48k8{R2!{gq(@AIsf
zYpyxnmaG;wObrb^mJ=MoA3Vj0i<_f0JmlH4b0h5JfHgyr5zn(=JUn5<3HI>9;y2eB
zbKJXvwz)VP{dH_bK<S*%6pTignVRy-wK|)yS>xY5{6iyu&nh$9s@=(;pwZ99&=B@l
z)hF@DIw44AR#~Kk9=PK5EH9-;8YpqC1?}Au!R>puvo^}m@!IX1Kz{o9^s5mWrRn2+
zEJn=&4!fUC!ABCd^IrI08efpAU~J^d^Upwye}Ekm-YDjzEh_f>+$HHZ57QNBbx`4?
z(qx+E<}x+0IKrtdsw;*bpt|CtCJp;Yt;wW=2~tDN_Ltd;K^w$-UImX+Wt~xT9S_g(
z5L1JSxw`r&|FR3m1e?KwWwF?~qpsLQRxRD>*Nt)KR`i26q?zsi)HxoxmQw0E66Cz2
z=ACwtP$yw&pXVVitz?unC$thXwP`!f&Q8V9>zEH*El{pasE$b7DtPi_nGZwK*b++8
zl$|Q&X@236on!tlV)5~NJUZ9hnFQN|8kgH|HLSVOUgQ_llMOvk&buh$^Cs^5DBDr@
zym1%NZsw{Aq~$C{F-Xf<d2h6=8}jES6u;qhMyVa@Ga8(5T#b7ffA?N+a9j{>sZD#Z
zRu8T%t<#j|npS>(ADw6%1(vp2S<xPw=aL#VH8q-(`Q~i@1yJDFJ=rT*a}fZ!F4IJu
z!QO(ZY%nKJv(I<x6qvgVJr=`b2W=c&8!T-+Gp&5Z*oIFPBg}XNH%^y@LOU^N5i)Dr
zBdMG^h#J^|eiM{zImtRWdI@3Aw^|n)i(W;DKa-i_U4sR<B?I9`SVu!$j^Bb^Fdj#c
zbXii$;za0LOMuj_eGJt!6KN8LLm9>vaAvo@!s=Z767X{!ta3)912}en|K`^2Z3Kp0
z%vD%{k%DLea&Qnd+@*sY!ygFK=K;@~f_)U6=#x_?{h&j;c=2LGUJ5_#Br00m4laFQ
zwmI9J)=zG~#9wTPHT%{g803qfo(XuUnR*a+B@h%3?cJY#rQVB$&6fG_&=m`e<>lq;
z43REIMr3*A>rnE>uls?Ev3m<_(#`59ove*s(6D0sfY2#=4bGgbMJg2G=%rOI-7KZb
zPB)7|#Mft+N#tUjq@%1%{fwlpMckARJ!?JtXj@r$Y_S6XiE53v;saO#n*i10EFo#z
zTM`LeNWq>Yr9?aCnWGoyv{A36^_DVvyxqKzk{Nl!jDao?7k3nxe?(1ms?1jgZ#v4=
z)1M(pcs|a|FobSUP}s=dI~I@i`rygu5wk#{Kl$s;dG2mvx42~i*Ci?@&&mU8ahZnv
ze5HgH@8m|U0$@*%$T(BN^6G~17YgK-jGofnoEtgPdlb$>AB3h&^-0?d#$3eN8J4{(
zgRcrz=r(>tW_39eAPE1^J=N50Ak-Vfd$%;(>@}91+Fk+Qt&67=L-_phva_-VHuj}}
z5s{FQZ;EQRh3&ehO=MT*@?gVn{cPU-Fu9W=NXat5k{27cMq2<JO8Oeypf?EI1H0r=
zWEOzdw2}P6#wU@nP);g6%m&3Fy0M>x0{#zIfLuYgD$qsa6i#US3foR5gLY(XKIex;
z1dcn`s&piIy%u+ArF-teIV@C;aIVq5_WPBY7qv!9SekS*ryw}l4D)P!O1gYK(?62L
z{CP|85n4Q7=E>pQ#>RB94vmJ47cinOump(F-B-uCDVOe^*kUh}oBl{{LgjBTJ=ei>
zL8+hqaoXQ-Jb&S2F!<fe`kL66S<#@qes4c1ZsD`q#@nBNYtBBudb3nN^UcpMg7HV+
znqMxz%nd7?(h;5N!I3=p;r#B6eIFryDn^jyk9v+|&!a_*&>ua_qSpzi*pRU`(Ta69
z2yhaJT-jJ^zx8lN4$0s%C&tyt+0sX#9<v(I?tgmzne?W=^qNgaxN(9F&4UI0^LMc)
z`zlj!ad?X>`1g+K+nl;EjFpWCuJ~?eIB>AGomsw+kf{5@p4tp7mFLHnb<j%lm$Wo#
zDraWXH^#YD{uw9wwE2;Vr@c^Oznejlveh41W>vx>ec%>47?s?)(thuyrU21#1Bu0~
z`por6SB}*RpMurFw0CNbJw3do4;6EEf2XHiPTJ#-2;Zex$g8qAbXZ<E>Bby<{|#H@
zl`xSQ(}3{%GQLKpf%}(4JB9HFso4on`$$UgOZaaFqR1XwW~3{qJ;>?DrH^X?t%6us
z?WKq&y-&6U-e5_F&oWA&jjiFobcw$H_DDW*N%hC~A3t=Jx_B{MlbGeR?}NAv$I|nQ
z$FK%la!Hj49~ZYQA&xwjOv;{QY6r<UmiNa(7Ll0<o!DVU3n-SUXyT>fAb4(cgdyu{
zbPqLoxTt_btDweBb_86L7T?VlSPWZqyq`Y}vs}>UQJNHt#8{EIGo4<AYX%G<ok^Gd
z-$oUxllX>Yr8fwP^g1q+C9&!2>kE^U35GxG_U#~4W-}%1=!j|((Fx)uLud?SBZSS#
zn5ILJ0&i=@liOQ}JCYcr9@qo1M~8H14*NsKn>PN3<|RRPsl?odbQdFTe*4ZBNFMn>
zT>Qfl#&ZqQR?t<iSo!($40;O~(35`ny}PTUrPV1|f8pJ&3lVN|nc3M17#>_HBCog1
z%6+%x?&y({2=4v-!jM*>AZ3dACPn5;zKf!`c1;8Ha8WB93PA?~{vEnVs+wZhwAxDp
zsR@)m0HB46-rqkFd48X57CR-9GQLb3&y0oP#oR`N5c{QM{xRYK{?Q^4Ym}JE2MIoc
zy#-_-aq&oHxoBJTMZw>yqM;ttb41w&C6d!LEziEa)!*|P1GeVqvpMR7d_0Hy*$us$
z^{BQ7>4!Nboko<OTLZidV_TBIHlig%Nr^^rj!2+1Rwrom(V8Uf@ciAocVQf!qN87d
z5<XD11z5Nk_w+K|KxzR-Xlm9jG4su$X;8)=7b(-a(JX!YZ4}<Iw5mr<WlnRBMDj}o
zJrhQC!wUiG!kayl5qBns`g_?3#9>u9>7v@c4B49No>?uofPgFPcrF<*cu*2^a5|3i
zuaSI=8=g2lWEVxk45HbS^B!T)+O?!!giIH1^~!9~(d1j{r13Rp_yoyS*2i`Ygc3Pq
zwD!-2uW)~`<%<wo=gaB$^uSppueQVQP|wNOA*Pob5>V3CAf!(*B3oVba(2v57dZeJ
zZ?bDEu`lFg`!b!8GgpV%aTcx<sEwKM&f<=lc-XxL8xeD%XM@ATvDI|foc&t2Vc&QT
zd9Rh7C8=n*HONqJISlU#a_fy+bTrkU11kNTEV01)<Cpt5fzi>HUti4>X-%IT1%!vI
z>r#ZC2mK7kP@kGwK08x4BQXkPIekdGbFgXb_6zhT@mD^)e|kyc_k5Ss>hPlxQZtIr
zOT%3kt}suOR92PMaER^drEsFkDiZ4IK2KSmSmx@SRnykRhtWmj<+=*sW|<ZUa*A9R
zUY;S+$Vhi#zpU>NCDcugE-%E>YaR+e8f&~WqmeEXa&ic^qPrP2Pr#}fNrzCH>$ka~
z{Pu!{QD)+NeSSV`<s;kP?(QGo-h@6;j(TX$a`kQbWdR*V18;q0wbe@+pNPZamGRa)
zxLHX<@=Nk%r*<-MA8wE?l9#J;VFq9xyJ{I2aObf1r^V%Tq~Bs55;nijSf<c<aUO2o
zHl4tG4FLz)ke61<t$InCNe>L-WbxQ}uh`gV$EzhUeh5$H?(~3`8ZS{<uL{D2w$~&!
zaBq2kPQAoAOZiM3scYu;hti08l;hxg&JcBk>-1B}=-0xkLUGsf$)+NLkEONN9?FY9
z-n`0E31q-4!ib-R7s%KnKb_=3{*sR(JkllMSSjHikx{1MTb`d+zTZ9U&J~4CH8K!A
zeL)^~d`gpl(c(vu*ws^`)OKYB2ql=arcp0It)?MRLYAu38TydR?gpXxl(*6pRGSI^
zc+=)2CEil=bocd*QG7?lRZ4M#;}ri}u3SK>AV-i8B4lrkOd^_Pt+oku+ao&pE0kje
zOgj!jx>pO@{2r}5!?}^MMG}lFI~w5bnaMRa;wH1-Prced<`-SUzA0b7Bp|1e!N#sH
z<=WAvB+X6vT;L7$d_Y|E2I!N0a;@jmEu;!lnvQn;v;Y0Fb`_JT1FW&)o*^^$IA2#F
zhNw@Hxapj{=Nw#C+*!G0WuKfWF_kAOkrCnS&%5hu=(|{{u{dop%n3SOT$eGwBxnX4
zKC!0`XmtQaI}N7wU5mlyVVor7=T3dONcoe}cxUbAp>RSOQoqssCZi8}E%@i*#+QWk
z`A5Dg3iMvhzzgGzz+Hkzv`2kRb(+?2bJAfe<+Tn^v0BhAYF=lBA4ToGpS3fbg{I#(
z9__ePzSS|MRvZ!EyEFS?M9mUb_ApGGakm-tpW%oGr|f`>qrW|9j?~uHTCkJq{OGnD
zELX<3F4#Aw^|q@^tlm#(oHV)OtN501MzN(<<apLE>8W=)!9xemSGGqqq%()s`50AJ
zj(-UyMNJN$`;k<XGYZdNA`X+8>g5NU4PM?;>>f%k3cAtKfYd*q<7jUK&Q%vO7@EL^
zZwX4B+nluzUcY`VkV|@l{AY5^H8n**m%xZ#Fr40lp_cwJY4Fu+1{W;23tQ|-<xH4b
z$>hk?u`n^SF4j~rAxx@6UJ1)YYIJ*n9}H+UcdwD6l(#?t0P{EbXat3^GD`N8{FV|*
z<${&O=|zo0tRgxj?UnAnK8iyW?J??+7OErb(c{Nj=?1Fb6O+^RneIzvlQY^2t7oxW
zy+-JMd6$Ve1t|gW6=NgPo-4zM(dvGMU=}IcM%rUe84l!~pE%7~zVRg!>rhX?zR9D~
zr|u${xFm7DZm1R$^~XZ9TS%yRvf$czFz5!*r{I(Ss0PO}<DI>|qGCi1P#%?m(r()u
z)RgkVjyt8+8W$h&^7qSOg+FJ1eyw+zhdwC(cz1v^bPZL-nOY(}UEM;(QN@0UO}K<7
zAG{2H)T44C7@KzLm#A`)g$}0)C*@@KV)D~Z*evijCTlN{ntd@NH^Z{_2r-hiT!XvK
z%{fM`gu8r0@O-`O_!s?>Zt)~Pg0N?_tvq|r;2MA+dpH(7AImlIj&L6$tA(-k3|KzA
zf6pZ8N^5pg`Yqux6+<o2O2I%cqc^f62W4@!TAt(Kf_o2C#dNcnfk+)}Qp46UdPJgw
zAh^(^=9IkiHWK;TONf7i<_orV(S3yAy`1oN=>lEmvX8jFXD3I%Y`)>%MSe`xa9y%g
zQU94l!7WSEkFqjm9rLJ;!>EgWytY2~KMxKjULQE<8D^(|UQ5!QxziIO8g`P;VGhMO
zy!D9*s^RZWJnu^xcIQ*Ka|-H=Bd;I7JTZ>sUMJ7_+=8)wjrN^o@1fGSl`02nJAc>d
zdfsP5IG*^)F-R6fuS&~(g}|DWw2zbGpi<(L;|eA6%bV||9~B&LNK?lyPQWemvSO0+
zC*`)!3VAQ)bV)w1eB(=`OGPLJVukYf3FzabrjEJUqU?#2@xt(sc)YN!s2{8vr?n)A
z81ltSjbp-#jI+gKnbNOP4MTl?=j8P>BO^+n$XoOlEF+kkn7jPy;=t!9lMv)4FDCP*
z&r4UORG-AWM*FLc+x&tJcWrA{EN<$g(Z%nqUn97~ljr8_cpi{+mtzJiQ6hBBG2QJf
ziZx!Uxsj(}&~k8bNh0r<A-GKSG&M=9K+NkU5dyoRz(YkfSf`aIm%Hd{{jC&{A}(oA
zGs0;&-SyY=Mbf5;*3-DY^>G)d<@#EqT-ua~jdg!d@GzVU#8`gC2{?OOa)VtZ<8n1%
zIXU+aqn^5QBPN`~>B&^>OE<a4=h*v`w;qjT`gW^iV;Elw+~cWI$MWE%ZSY#vKV}Y>
zj_SJ7g5!PJ5`HG>NJ*6l5_It1&o6Q6WRi~9%aFA;YwFca2Q2mywTvgTslrxFSLmtB
z)ij=4pm5$jTc>gnF*K#zOlk!Y*OIJHHIkM~H*T3$7ggvh3aVgUpnlTfX=s@F{8r#e
z7o9_wqPLr{Cn(YEja|uhr@7l#89Kh;Q$rLt_9qN4Obc7ko%!)4yyru{t}o#b8-{WE
zbnE93W{!xh&j`<h4$E2>Aub2V_cn>(T-z~L`XJOnrBo;_T58m9TVZek<-db)I9Xp@
zRQ1vAdP)|ir7E>jxvp%PM70zt1rx-m>!65Him|px_@VT9r49KIUId78u26jQjG(+-
zsQR`zr-<~`HaFV^MA|%|o>?AU@1%t);$~8h|A|TYR3yck<|M{%{gLiT&WD4APM$Hw
zLc#3Md3)Wdvv$Pexwz6`IyUBe+-zw^c#l%>eJwQO3WJNUr0><Z!z@+<(JLc<qxJxS
z%Y_?=YF|jQ^QJNwbJ8>zPxkCdplaEb>7;wVSCWFWK57G3Z=rQg?Pd~_w0l0GpMNg4
zBV~qdIPU}ILl_?f1_hbWe7JlmDWnJAiN$x|7w@Z)H+YEgo8s}?rQYZfFK6+$WX3lr
z-8}<@vg_p<^*LiEL?~z)t8qm2gBJf1e>_C-r1C9}Zd5O6o@Lw5N3@p|6wca}qn=D$
zW6|v3Xlx_<6Coa02L)<VQxn8{qQ?FO;ZBMuY+f>QI<F2_*O->&$0GjZj1j&|e0SOP
zT{fTx62=iy9t69Rw*2@&G94r31M*h{2tZ=9H6O|C-^vn%cmN`IVAmG*ev-KI4Gn_g
z1S+$H{#3*%SX3EbM%@hnEvu&;e3^!1cq!_Xf)5>CzP8Gcu^p_wxyKY|HW~*iNWQ<2
zTt7f+p|Sm|`ghV$3db7^IjY`?-0?!PJ{xKitoZD1D0ALy)lV;MNoHuBDQ^B8D<+7#
zxp<ke(80<u)4Ky3zpw`{q7o%+s@nxt(|F|hZsN{km>9UPjtm6!=VGtZYQ?4pg}o!i
z5YEu3J(jb%gs~zBii-|mBcE+U_0}xDV8oWQ@`{kS&1oGoJCaRZ!Lkz$0huQU1?Mr2
z7DnREB22yXF|f(l;8gr>$8GC;ckv-H*E@RpAuXx=Vbv!f=OImW^X4DWQ|Xys@R}#G
z!nEs6<9PPVsQv`s{b<LrwVPK!5wFvAPbp`pHtb^Gm_4XgxeK*NSFO!361$IydwT}>
zrneqetRQAVKjMP`YhJMCJ8G+!F!Kjl$__<uNh@<V`asIBbHVA~&*?ywq>PX;BAcgC
zEvQ4nd9vR!et20w1heMepUuV}g}ChtIKjma#W+6n_tyk!)g-wl;ZY9Mf@;t+!|Ch@
zFz`M{uPMnm=8&C_yjvdzDW=0%!AV`3!b_BWBg&S>_-83Sp)F~fvMAc<qPAPoF}$RY
zUijm^cpEFuSU-F*`{9r?7Hi(92EyX&@80sxCT)8&oJK+#C9X)0`?n|X3Sls1BHmu?
ze5;Drq@>^C@|$Jxy{)bM*V<Rg@jHr^6y<T!gk!1@&e-BiVf%F9mlj;?$4A)K&rPH7
z;!Gk7=?<2~iz1s_T0{rlIUbmjHrC&nq4tYkbtb0c@Tjw<IjuOp!ZY;=uE_tbcuJPT
zjwU%s6O*&IC@t7E*mA?7Pfkv7FXE};hQ(#XQ{uVIlb%snP+*WPL(E2ViVw4rM+XPL
zLoqfHZ8?p<py>GZ4yg?39BOG2W4*ZTo*=0QcmL%fz8uSP!N{=ulG}d#uVQH_a(p(Y
zGu-b#!xhJyttFL>XT^(C#!Zf~UuM!L&!@Od-s(v?O0_LMk>bc$6}`1gre-YLV8YX^
ze8WK{pCpUymT^wacfw7XMzhaP`M#lq6^d@1o!{`^zpJL!4MWc5a&=>I5AF|A)w(yG
zoFa|uQB_#Qi@`I$qS;x(`n*K~%$Apy`o*Gfy~>4*q?ZT0Y@G>EmMXzzWAEQT2m7IP
z{V&@O>rq4;28E*FVY7!8Q-_O^>f<}A>n(;~jK#*89RvV_5*8DAf0Uau8LTX6hArGu
zwu&t&dWY7uVe|e7ojN(SDuK7@WLQ}?MQqoRZZ}~*N)lK|B{rs|wr@g~)_?xgUnJjK
zJl_c9I%T;sF5Z2NAZbdRidup43g->%K|f@a@dUZ)lSmP1oSd-C`-<3P-@0;+uVQbx
zKoXAsbLXUA-6@iDjXW9gB`Lv#nlvJ1FSvzA;n8iDtrJ*{l(B`>pz*?vh7lH)y|!v9
zx$Lw8>A!|;uhnyOHRccic_ntn1FKbe(U^Uf3Ut|P(-UI>qTZ6^#&x>i>XbDe3N`;k
zTX4q9_{_KDXD0X~{k2;pOi6-Gnjy(!p)(6rDXR(d>?3im&e9)<*ImWs-)l21cix=D
zyFMnh<j~D+(a-zL)@bLarhS_-|Eo%uaspkQ7;(l!Zlw?Bpv5>qh4gGXyxbU@i)b)n
z{1O&!rGYrTH#hlE#G7iC=kuT`H(`FG$urQ*Ss-c=f7L6~!9mr{cF1^Tjz6J<@+ALT
z$wj{~vDA@Wna>qAi-I?B7wV74^Ul<iC+-hr&}VyYjE3@P{=}deDk&(g9Ld|JvcICF
zgm^lia$x7%l9RJ<q2AXKOB=7aK2t9+BO?o?ts`S_g(T4t*sjEcM<ket+dtUD4^&uQ
zusJ37Xt_jda9%)}5L6{^)oT3Rl@Qm^!{<%ebOr{OHCBiA-yh#4^cA{6sYGUsx*4Y#
zw;A`vt6qwM45OB;3}XVf2LZ&OrlKN_aD2-^b~#S$1=Z)Oq-owkVP^6MC}}p%Ht#~0
z!U^%sVy50MnW+0ale7x<as`T}gf;Kfi>Rh=x8a$I$XZfx)}`<b-t%+NLCIfLF?-t%
zo%wYu?Y@}q#=x@^nV+evghq@<{mbvuapRwg#ko`46nl7Z38<|z7UH~c;J<1A(3Es=
zyq-I}?fK)L`R?|>(ZGQX(-JLqbq4luxstW`gNwEs{8ysP+wTzEu$5e(Zd*%Fr{tx-
zySKlOMYfOoWVT;$)+-Q!2t#P8DVtU(M`B04k)-Y{V|uKan11`VU%guc*Gc?&Ph~nk
zfp$HOUgT<zq*d&&G#&lu=OK~!HkI5Hn!)Ghc_rNwjQSbxaCBU=_@t6`#tliS$ISYX
zkuvxu<yanXW*-i$hlS$5iuGKVvBNeSc|v{;ei^qweck*;)`)tuX>5XhsfT*X?Aq8Q
zt3qkKh=Ch@)Hu&I#T>6s{vy!=wW+!-EVdr`Ap)<v+dKsn9yu&eKfA~2l%wRMsU#(N
z;Evgkg@g0^JNTFv#V*=7qfSrW(k2MoBpa+yDr5Du6-iBBV31+t-pyE9QOgt~OH&fn
zF9WBM_Fr?VF%ED2Rbs>+D+I@j6&q?f?~t^q#}HU6Z%WG<-M*`(%jK^X!`saDZHZ+>
zKZGxpQM$Ch)iCH4=G{)2r6cX2yO!k#rh;_|4<3}TB?)TwcyRSC)Ncg(7h~_vi8~Bx
zxqNj>ws<?DwtigBF$0HpxAw7$GwN8b#Qc^NYrjUh=pDi8Insj#4dWXQJ`L-IS4;@_
zcphEp*P!#|vHG>!lG58;qVng}gIx1{tG(<&G$YdPZwbUH>)8=(P4Is;a*xTQjI7*m
ze?7dN=Kf++Fk|9lv>>KegiFb_iFm|a=y}nqf-WPVFI2Gh#+hV_I$4<IU|kLOV!`u(
zSa~z~<Vl!xwt?rw$1BbX2~`b`I=m(}CCDyM98XpN<@ha(J(op2X9A4ZfHPuVWr4gp
zt<Os?`~K=}f!7C<$(#1duYj2W<DmDG@0^CR=2us_X<nJjw{B$qHjXZMx8?(}@cd{s
zPhMWW@^$c+>Lj{PDh(ukiePUfd<o}0XhpaDK~=5X^sy((NKT$xTr~MI!Na9B{;@iL
zfaK-N74<86T#6sf8?kLD{xYGeiqJm}mx;3;-Y)3w?uOf#jcKf%LB9l3b2%8!jOK%!
zWM><Ql68Oo_1bQq!8p3XT-Eg0&AP9mu=!bG;nLKiulmP}I>9SUZ+P26PA_qC_DptB
zyuvb;{0e%8EuZh+6UazUhrfHa{oa!Zg{aUopSlf}=C9p3d$tz{^Pjv+tqRB+yZYa+
zLvN$|=Y?UkuL$>cwY8n=*E@Pt2bmZ8H(qfqPG_gT4IK{;21Ui6aQ>1$-$B)u>OaLN
zBwXqW5*#tw3o35pckzG*A}lQIiIkhwy`4{QiuY`cUbQL2-!ch|Xx;zV`s+OF)`N#%
z-&JaBADKqN+U|XTJopgi#^|5A3phi4Txj66?DXChBYb>(Vitu~7(-6DQPI&kt94Ju
z=fm!2Y44LhW`$tsn?tltPOIR?`)SE2ZwHj)pI%~;5B#{1Dk1X%L^mOk0#jY-ncBvS
zSEceM_%MO!p?l_XBIf&J5~>;op}pvkFJHdEufW&13WYBZ7njB-z`<X`0IwDv9Spvz
zt~L_WY)-vg1qHi0w76$MK|%Ac_H!;-**`!Y0@wufKmn&QzH|<1Qng?r0tYGWdSKwO
zncmKH5v;BPN|~n;ZsRfy{RfP&jLJl2=<z*e-RBT8gON{RXxi@%Gfr>^2+p^zjV+0f
zi%Xud-k<maJ-`o;*ZKUJ2DfiUT8xJW_xDCy#IdnuYdsY4Kme*u9RBrMTDL*GZCk-B
zP+-5ftqAX{-d%OTqG<8*r&o#zH}{Q>>6zM#F9EaZ?GC&X&{D_0bMFr@l0jy-;F>;=
zH4O??EaF7`$FA!HL+W7R`AZjtlLJ3L`jNY}TC6ODyX}dwb{#9QdTx;SbADa~v`f*(
z!cl*=Mp$wXww*dpi@{`T>B~b{JAQdOvZ#HZ1GF0TwVSX~%O7m8(S<btLVcVV3^Ia`
z=wU)i!uLreo&>r*7OA_8{%#K3e6nDc49)qEqEA5ocq)7y#erP}x`8N%2=Z7WhEJdt
z3WJBy{OaoJE7jHo0<(_n6K~(D9996eWQW#5m^K}C1Zfkic>Ge)qdv+Y7u3B@XVKC$
zIZ$fX4Uzz^iPtRx27_x2e90j|7(bkcCERCcH|ck}u|2zTsRgY%?vpB5=##++2@K+1
z{N9}5CVJlsuiQj73HpH)TSnF;Fq<)a4>iEq;o?K!(3Y2%&x!vmWQW57n&}1>7L!5G
zNyl*d!(&FADacFOK+2w`^&SkE{nD<I<pSx~Nmn=N4&v)eClZIsH*T3XtpLBP&XNnL
zOG_IEJw@=+#oI8s-GX@r0*;)?Lgv@UU>aWj?7ovM)WxS2OK1qc<}YHB$|Pf_@QI3s
z2B&}Gg>5KIrhpdH61dM-Aa@RKCT~FDan2n+IXHSm6YmY+edvLexVX5YqHXRj9txS}
zt_j1NYTGwwHm3IE4&+o+>dliF``bv;3{Gp`aM<=B>bRii?|%sR4g56(l;L%7rbfzJ
zHD1-%Q%bJv@^9YBi))+Xq^(jFWjMkw{nF&2+Q;F7Z)BnzaKGZ>Nw4pSjwehdB&!lh
z=H;`0!LLV0NB8sRPdMdG58B|Sbx3MvROsbMk818@eSs#)n#lS&pnC=p7KRr!3FA=q
zl!CuW#`#P1pF$-OFzE@)<kHsXkCjFSV?wL6ZE(HkI>JH!cEKhfi!Z>KT`=(lsGUlJ
ziB%Js<iYOlOr4_+d~>8xz@_i;6x@LaKeXIrKtmC<#L8%VSC&BOIlnRN6#Np|RW(!T
zQ|`FC3o}3pxwBY4$i>OQ0lwP60BnH&0@^dh$Ecj9r-j?xr`^Fx${ZIu;e+RV`FI3_
zRzEOZIsmfI`f!s`uI#;oAC~%<RxYE3>REbTt)H0R3r>WG;E*uuniwBbY#Oz3WQjYI
ze^CmZCz2TnmG)3rQZqC*_RRV>{Izr-vYtaE+alSPr^V<%$kC2~1|_J|+PQ)hJuBn8
zNg(}pz~LNxTfQy9R`giPEw_rroGPpqgv6S`n-uGDHL^N5sOJ{|`L(5>8b<1-sTr4>
z^rGR4v<#zKDYfmreJWCwc#tCsBMPpA8wZO>KxW*f6VDjDRZiLOf@!DLri(~YMHq#>
z-|MBnfVkqKQ@&HN1VjO5TSrI7&Txb<56JzHJZ-o&s$y8fhhX`iMF}mJ*{z9+3HWlg
zn2O`<$0&)L<NUzUz)?DYZ4U^az555#NcZLg7m5l=P|=;Oe4`gt2d5f@kSE)M{E`{I
z@(T(U3o^_3D_xm_f!$$(7N82!Nb5WZ#<piWG>pY>HZt3Cb947N=W5=%>qt_0dwF44
z-wt^d?CSahPV5tLXO*6J6fP5?No8z^@qxpfm3)ne67RRbOoMiaI@I`b1!6gs;ni&b
zFVNG3U5d?OLq_6LmBFH-OSC2h<;H)C!_plJZ6ozwj`_eu%G|5<im~x=)L&kt1&}JW
zwB9{n6lVF(t~)$5<n7^slwFo+4lefgw+Frds6SCV!9)ZEkv{>ByAUM@dcKFseb)|B
zF_bK>jf6tg2;o~$1a~rRMo%xI8>DVOf`pnSG3WjE)SEP6{1TKnjX6)Bg1#cgaQ}DR
zpuIKa^*Nr`hlCdGGzc$BL(FH{He?PcJ4z-dB9rhJp7&lL+@TMXX@&CFf{LDA+tLi_
z51&HodwT4n@C_Jdid{qg?T`rP3UhT4ha{ngU7;s^p$L1WM>gJ$caRn|lunp-t*i6%
z+h6>?K}1mm3!2#T?rt@vu<~b*9({%ZByTo7deys{{Z(>0WM^yOp||dvawJY(qWV5_
zr&28_Z5ONqs0Az#;j1og*qPTPkaOCb=3ik%zJMOstsBu2mM_@!Q!AQW)-HGluR<fn
zb$DPPmD)+xAB|rCsV_Ej>=$JR*g$;%%tiaxP;vm&bYRh2dDi}{sA!Kr{oe+s2uLB|
z(qzN@ygO7H*>bhTn>U^RVIa)p=@D`c{iMy&<kVQ?N-5ez7)uBG44N3G7&kqzJMkvu
zv3UgriOO(safQF=TT>vaKjyAtDzbo6d`+gY0%@35jJ$Mr{S9Z7-5Ko2ltb!4-<aO6
zSX4)i39tbzbe<Svb=2`8;0wNnS}2(|?*co!lA}Li49*ZNDOYh*Ag~{9M_P;CDXMx%
z&{14m?D>-aKJmf^e-0PIrpdh^F)<OsK5PWS2;(b=LeJS68-uzO1j=Ir+WZU7b6rp^
zd<s6gf*Ed*B^<7=`CItz3pT{Fk&%(kNE`+vt>5TXrQ5nYySo%=Ykbl&AQY^aoXJU~
zK8IsvZHqRNkQ_2t{VY^j{V_zEwGmX8+I}(ZLxRs!`%6#xAJj6Hg0W(sri&o#WrPJA
z^X<JoOx#Xdq+P#ZN5{-e5V)T0<g>DeNJ&Y7*AIhRs7&DA8t86W6QaIW=;Y<*65l{d
z!tVppW$C;oNe^iv29)#y`fJ)pF*{CxyZ#x(vS3>w+|2V6@PV#fy9QPS*D>u7@f#+#
zOwMrWw}xT$RZr&=7XqvfIqBjEEFl5^fTx1$SfI;CTYIrGhFMXC!BWc<#A7HB6k?;I
zI?|wEYw_Q{0k%a@9afzivmyv%!fkd}-c!hZy8i;dgBC3fleuBOa$gi#6Gwji8e?2q
zG{b#_b%8w8wxOq$C-f*nfHjPN#uTfA+OT>|(W5F>i%Ig>kylB%LjwZ~$xwbjrk>PW
zaL?fy9v8h^ieXsR{=>RlJ|p`q21BpR6=j!g4^x=rJD#3sW{}^{Szg3YydBDpETq>n
zI0V`i?M<f?vI`nRSt5}ny=SUYtWtC5_wa1BwAR!5|LKEV$@}5<A-j|$5L!Nn*?eUT
zf5QBY(Pw>y>WNCW59DFT11>boSlqf1X~5c}qXs%~epFP{1}>YB(8CQ3?xOH;AJXW@
zoh1F#xs+UcyStT;-9dA9*+wq~FRXyc-5Ul1ABlrqphhL`us~azV-ZjzCL+8trk7_S
zAy3vjQ!sLB#t`Mx3>gHrr4RTaY2`2uVu+dO>FDshRNg`qo+SANtqy}t8!T}`#o;cx
z5}p`|O>_x<`3riaOr*;T3lW^btn!z?G<(Im5Yq~WrDv&))?Dm6yB36-DNs6&Z<u5A
zy8>1rp=gSAy(2_`QRyx;i9KqBZ(Gm={lWsW0^yd1H_@HO%86Ho>nI<5NLo6YE@)NX
zA+tyNBRqUwYiEi7c@3xqIy*jye*E<5)A9?JMnLd!MH<CX#(LQq8>hY#ezwGEMoYoW
z{Gf5)Y#9zsU=PF_Y3u34YE9*O0flsNj$T5>2a2HLfARL`38e7TgfkMw!RSx^bC5pl
z<l-I#m4EC>q?w9)0k5&kIpT$T`k6h^)it-G@}Dla0N>kY{F}46l(C>Gx;s%pWf25|
z<zSI((Ri1MkWim=1Va!ZTs97AhD$FytlLnzyktE)3D?SOD~96})>HG#xEwKpLHirg
z@^GBVhpIm^Ye+Z_P)a^vkkbDYem#RF<ggR7!&9B#q8Ou@H4x@&teJ2Z-WDEDfaD3x
zqo?9<mL#v##9E~>Z-BGrCFdH79PGRIKdWDHLCC?$2_Q0t>5l^3T^`nMwwhy@6HWG@
zCFSR9p=7=;$sxd831u{-kSETC(iJf&VY9=E=d++i1`R`NtK11G8JP%FR<ruVp5Lk-
zJ$h7H$}OkCON&^+!p2@%UA=mbh}?Xh#kJ=2Cyxt`ClEv**@m9_K&hplBkchKr&%>%
zVKy1L41qHG%De`I5^nBNq4vXt8Mil^pI@*DXgA;fRK-SwL(D8kYu+b3tFu~gP04VZ
zmSNo#aurLN^i(RIPr8p?e_G+{`zKCT(-QH)c5W@~XOCsPN^IWm?d`!l%r0!U+@|2m
zBOQ7OS4?3SE?nSk11nZ^;J#bxvIp*2tHw-gG!=cOrv=uB_)@5&ooX(%@kIW$pk!YS
z4eSS;;Y%6>59q`+%#)n0Nk~YVz?gm2jR>9j&He>0T#c2Lk%R{TD*%W_`rv#=TwpEY
z8Y|}(1_Htgxo`|WLf>*HLQ0dch4lD|*eSwj4SEDH|3RE?$V8e2W8D)m(~ceJpc)dh
zktetfdU&X&vFjPbP-cViW8?#e>R*M~t_2In5gf0}{9C!?DH_5aDb=;6X<>dtwXyQp
z<z!?;n;n16$zddo8-mv1NQt5Y`*!@(j}hd*-cZeyU+7E4{+61BQEc5{B6~<=N0C?R
zk{aBtLrE0<)^m=IHlD5}8fFn?5G9}{O1gQ4%Ev%cb7XU#AKMUwp&2h8%&|OMo;0zr
z==U8<3@Wb^=3rQt8GBTO+c1aUhPx4`v+P8sL@D0W==++qIRy`Ur2Tjq!vU3YL(nYQ
zWyhA<b)Vo(tw~E-`bA!k3mWaCQEASiPbZ3>Xo)^3E;&4hUXoF#&U3SQ%JpOAvq$J&
z<}_C^)aIfHl*GsT|2}VP0%QlQFGjHsd}|+Gkt*`kdnNhAzEj3<-2buEB<~~k-GWat
z44lc968w_W7Q!z+hR}!M6&NnMA&bDn=6#jr%bJni+KG780r82YNvqdVii+PL!NFkf
z%?jsu_G^?~N#5jHvoZwdE1dsyz#f8>6ck>NT+Uw#`IV2Drrpm|yAl5`tG>P-(8w8*
zN5}OMd}(QE`%hZViT3!{Ng&Hg{9CIuQS%83Viga3QwY}7T7RZV_6!E!-2eWm$)b-R
zO#?Pk0n>sG9MZ2n;QO%81m+|KUuL9l7kX|wclFBpd;>P079_!GXmbn=4b9Cn1AhOh
ztg0dmN|K`bY-l<Uydr486^hnjp#Z|%8PCPP=*ltAza{LGrTO{mfwH&tFw5Vz0f!E3
zQoloA4s{KThfN3)Bza|JgP@KDXUbPizEW&#*O&TJKuHVj{0;UcK(T($`_=aG<Huq*
zhY+QeL2f2Ks3%af)jB}O_NB!KmaA;+?DE%_d;j9nd4~U1AJ-tOy#c;Ayd^IE9Dh&}
zj1z&Bb`EVmY&ht`C<Op|*x9mEG~Qto7vGz#wXegni}_h2CMue`39`l~N*$GDWtzIW
zXcf<cp{KGm7|=Wzf@u&Hl@CloppF8=h(V3Xtn|qMnBEPAfO_{;>Dj(MC+Mb%f=jeQ
ziEGfK7)(q|fD8J2$L<CPpManXO#4M3F2TJ8yOJiTVJ}_E_Kb{-M21M-!2Zh0$pS4)
zoV>fgvvawe!C`p`*mXgY#d{HQNP_wImu1oU&o3K>ws<-J9eVzGY6@*Kj$pGxlie;}
zYZ1RYOIrfIV)E$(UUy+p8oE#DmtoJ`&&vxm;_Q+bVc!d&lLB)Ho*OndF*<>h;*_Qg
zez|4GHP%XdP&z_~)Xkj0>NO`OA>jiJ@=nPVD8y|eWeYw5b^L|_yjAc@AAjj&5Jx%N
zBY98_VIR8Wk=J+VLyvZrA)28}jNpcsS}+G@W@ZLEzT(PCkQy@q@7*3F;8ZSGwhmLD
zZ|wu;78r21VOyqm#1}{e_yh#wmNb{|14aV$?p{C2zucvJp8ukYKAksV$_(X(1vp7k
zKFY|*NJ&v%heLuL3B5SJ?hY`Puf93i(E-2;vVmqDIQI!yH*En;PRi};5BMffZ$Kr3
zv1rzq9k@I|HD(}zYxm*ZJCV|Hn;`}Y3JkNmKsSOPS=rY$H8s$^15^X44WkErC=)zs
z1T01XDF70%+U3iUPx;NOSmkjNI6Wt}0Yt1q$xMJ_&voFZ0Z3G^4GGJLrjpmo%WLZU
z!UD>zudmNutgq$u>laq9@XzhYX9|A82fT*@Z?=r49y%?*AKhuG?_fD%dkmh?9gOC`
za82Z2_T~Qv-ALk@TfYfuBjr7Zs*YgoqGg=}JT){_2sJajW8@sPa>{<NR{-!L+{ne3
zj~>yKpm(T%^#<T7Ow!XQ7#utML0p@gKK=1y%P%drt*q#~8AwT4n+}inZ--F?=D-7k
zWnMO$IZ1JGN<?PyXZR08*%E_YT^K=1H|(SZ1PBx0eu!mhE3csV_=j_3#GqR6Kl6L@
z=NcgHwTut+^z<Z3$I~HF0oV)W%>dTKN30-NwouCu!8_mk{uvGI!2QSryv|y$4eFaH
zEl?AD{xP=zD~E(ucn&rg%|n?WqC-qK{ZHs|K+VBZ!te)d{rBEp6cswqfs;7GAMPbc
z08<Ou5C+?{c;k6viYoU38k+11!l=h}rACGe5Y~d|msVGusPy=sBZV=UX=!m!jei2{
zAhHOcM=%pyS@7#+9fBBw=m^FRJOZ5+!YVjY{;=){!E*&wzv|l4*9Xo3qZ1R*kUxji
zYgj!&H8<dbpe4q+9qxVt%X7ecU{MUwrB@irkugEgVrY^GUcs6CUntZ5_jad&N&xJY
z%)*OQdIE%<38Z@(mmYY`obD{^B!jW=cR-dA97Vt3wXChJ!AS>8$=;18u^lSJ>5a&E
zSO~2MQlW~%+m3idiJ6|6o=%HA1h2kJ2$Kc4>+`y^Sl8dSK|Es?xq%sj?1F2wwZH$I
z_$B`<oG>E~&$7FMR+wX|HKw)~)8I;wAr7{;MUd{G5_p)LoQ&v5vk4(!Eq?N32Il0I
z7_NVbC<gy#yIL&})c_KTx2LC7or9LOH6sFjC6IFv0R0URO<?E=KpR@s8~zFJ_llum
z4RDos(lJ8Mj#i-|2P|+AOp;e-`T3`Ce^S$95}EtS3rj;eX<my{h;4!uR-i|LINuvL
zfIrp8jJpe<&`1zy!t{FC!C4pi1EqoaCK(+5@Z~KppUk*^YBAtAd;^JWkO+C(IOzqO
zc#L(>f}E(vqdJJ_#cz!kVyP$cmuUtB9062ueFvbdnTzUwVVdp#oVxV1v|WgFaJS!8
zMxrUO5QK7aPBtd^ec?Q;uC8_kq2onT_;6Mh?HWy?y_>hU_#q8F{W1LA8`M7EuA~!-
z+(66e>S$}*={MNv!s+()^}TU}{Re*V+srT?^)%YD>W_9*i>eaW8#ZJ0l}i~NBa_ul
z#V%Y>{n3fNlV0joTvTL7!kn-6<FSZ+FXU0E!F(Z_<&?ih-QKR4xcclb0I%@;-!{X%
zSjZ^*6W=mF0<xW2z*_pYW5bUOzpo*)R3Gs5j#vHstQrs<kV_+4^wf8c?w3?tz8B{@
z6N#{EPHL@?k1_pwbl<T58<%evK=*}>gEP}q{HYV4hzQ-``T8~l^l^_t5iDfe?z;a)
z|9}6l{(t{pNY4Pq&kQGe7A1(&eJ)gd9&+b^2b}_@{xg&=0xAbYMJwy7t5#OWFhPOy
z{I$i0AF>*?j42i2<42EvLjc=-kc}q>(a8%su(-ImhzQi~&)+nULBHY`)HXsktu;Yi
ze<SLco92J+A;3`XK=}FHqprCRp8$B(4_I%ntgLKol#08hzjqd42ayw<@~nin;6=*I
z$$>@O($Al0E2n_l+p%R$P5vPJ3Uv;E|1fPb@Ojw$cRqD2IPg#FUd4am!XiMx5SDlM
z_6P|GFj$pAh|Z>V8-3aDz|y7d;J|>Wn3##N@ni@9e+o66{QLxaPvKjE&@c)Eqw@pY
zPLicAXk*|d+!zMN1T-%|DeADRO1OXjenJ8o0#{R0^Yj!gPD>>L7t$u!ns#yF6Spxk
zLetoEF99A5rGgBHkkGJon8fnRim`0vuk~pE0^2%yI4F=!0paEOm;?5uP~tZ7{!`-C
zRs-m!2Z8GMoAY}Rv#>!!046p7FhKDIv$9$+H$`vp0<sIYdtq_$^yCCkwrLn@gh4Z&
zn|vKkKc4T;SxZAhbj$=)=NE8jp~$w@aO4c)U5ip4ah~v_RIY)dm0s3Y;2?PygqvZ^
zg5yriAUX8z9bOPXp0$0Dn=XVKC#{18>)aQB#cCK$OYnaX;o`Egj9EBZU4xjFg>+6E
zhS>RB;oEH(H#xu>o=@uO{)^B}z)NCZ@cl)$PPP9tF3EWM^c0F8Xq`XgDJp`R09Y@|
z%Re1Mi$23^pZxX6He~)g<ZiZ(JWwSCN+5*t>w};VSorK&xB+yn#Nn}E3|j-MV3o9V
zjEr)Q1L>XEo8R6j^79Yo=m%lA`}_MtP&9vGL-e$yxLEl!>u<nsu!$M_!vTE7O6q$1
z7Ea~})a<xN5abX?5Yk{Ay#lrl;5P;Nvg6B_Hprhp>RQ;Jrlfd4E!>ft0|qmQnZfUg
zz!c}FxoC~nB!DluNTiJn^N5y7L01@KZYKY^0}yW;LQVq%qDjz21_R_rFJMZ2hjaqv
zS_{Ag9J4QM-#`?E@TWZJejyCs7gd>G0@)!H>Qjs^5Ur8x{DB#%WLVh|ANCbS9@v<e
z{p8!=8p~!78hQ@xbYMULq@Y`ntzjmL5WbZ_1UM(U91yYBFg2y@HGBlWHuM04kYM3o
z<{}LF;IifcRVehxsN<F8WwYPjw_UVFU2u|vf`Y~`F1hOeor~|y{HHPEpg>@>xUaz5
zfG6h%pu*uUfQyJNSnfpVkJa3UGYa<tVGhDekSp5ZGBiS3Xwk`ER{2hbjpk{#Tsbty
zvcqL$ja7$QA{ZVn;t*XbJeBrX07u=y!NFQDXmsGh!$zo55Crw>*XJR6D4Q!hAt<Zr
z-iaolX>j|-Tz9QKSZ2w3KhSj)ZYo-b7YCUBT3Wd<ERx_xmpaDBcm9nMuEy|N(+FDa
z!6(+$i8j@Ps~tkPb#;B+8Pg6zAD9+6+`Oss7J^~O_5xPZlav&s!|~CP&yPv6kykC%
zP}wg2`t_zKA0mYL?-6H0cRxSd#=F-711}xGp!WaO36bC_tEY!{uv1DrH7V7HGDwc&
z<mAX}?o(eM&h8MFsre0#$7xBf1-Asgy}JF#j8zfb{Q#+PSBIVloH1{H$kF<+qV~T?
zulH}H*Ry(glSmlP7aX<GM#CBiVto8D<RO>@-h$c`peWeD!i%G(p@EtSNc$;(^0`57
z_CAK>TKNKneFG}#mqdK<BP1kMI*$1iRegiRS}zyXf#y*l-Qi?veuCx7s<-+-@Q8>w
zMGl%;T6{M?u0zu#nHw2hu5<_wDF3*uj7L|rw5%%X09`Zx_%U0cilZ%a@7UYtcF+I5
zy3BvRy0(rEdi@qkdr0R+^vuk;>FH>JBpA;Xm6SjRA|S>L!y%%F*}Ay}<p<0gNOW}#
z8#!a(HEX|oM{A|(b}>9^IR9y@aJ&cz2+-#YD!U})2k8C*{~sG4hYN}u1fg#c4i0Tz
zT3V#MlB<Km66A*|O~ERghu6$rNLZ@-Npf*<<w9u+d=@CmyJgJN{`O0!)c@@i%7S)R
z^dM+Mml=E!bjioNaU^$G5V^wFRY2lNSvj0zQHi`G$F-c8^)~kx=CfT(!jVm~UBnzv
z4e;2$ADFrj^hak`*(6;fFf#Y>sC76b`(B2=Wqa@b{jln2h>W4oHv$L&!ar<Edk`<7
z5dzm*sb7%3;HTp8zZJ<VL+BOn-u>BUWq#_uyt+E$e{Zyu+~L7>h%S=943C9Jx0l8+
zc8SrfXOiT9Cpa9<^^>iyZZ0SVRA+qXMTG-a0qaa>7TxSL>I^TGLZB^zX#k{CCU76^
z3cBZmECVaVhs^TFYjP|!G^?ANOk`vQe@rfZt^V?A96kdN4-X1?z$0EMos#fo#{?bk
zIl~J`q!DuI+@-YoUMN#hQ<MBDJ|SVCzn|2gq@?8H)rKVVF76c!c)95={QqV~Eg%&U
z;^Bo~8j}6NtDwLv;Nj^>57(-Ui(x(!-YYEeRzpDybw7*^0)OXE<I?VKZ^u7)@aZu=
z;^6mhfKhf~@4c%1$LE-xot+x6YK=6{JF&ivybsZFe{b*OHE>RCNBf5Ukm9IH*_wf#
z>b3X!!p4SnXp{H)*q;a<qFP9Da8R@SCQU*@+F!hIlhT7A1#Xl6-!zIwU}i!)Q@OIh
z(_$j4cWCle7VGzb{X4jWt_n(Ua>^V2t%1Lzux#4`p-RAZ?(Xfq>ENJbdE&GPqq;-H
z!p)mEGao%l69sw;nBD@0v=mu22wt*|fK~t|0jbB$+S<Apn-3gb=`MM%LCXb4grGG#
zI(i~7pxO8;Np})J?wYRWXQ#;=naOOvDvr=Sg0{w6zTNBDnwc;)n*2_S{Veq=Tvf=j
z^TyId784>_dqAiF@&Y$3xeU$wht<JcG|GTOBnUdR&iMsKExd}qw&a#6Ttv-i))=H6
zs6063`yk$U#R)vLmz+rHyA2trmdSpP>I!jq$o3Z0EHK@XfJB~c;%#Y3NA(+C2=v(S
z-bAYM^I_3iGtyXmQ|GR0w?CuGW|`HE8-*V)ii(n-k8nb}Ee|RkKb#VqlU$-Id81Vz
zS?UED)mu~O^DY@=@II|u3YbpUd0rcpkd`F4mj@SaH1q+py!QH@R`ylTb{J3rxgI=f
z6pCcg*PHI&`}PUTQSY(nGOR42m({l#Krg_sdwiT?4;Tbk=ixJ8Ka5_yWo5MkZ{nSV
zYYJ-W>YZ%)1j1q<E&>%99wPDq5cJVO84s$l<Gk~uJUAs)E#8&|Z7O(G_)@sIRRfZ)
zNEFPFw-wKK6=}t8jj+0YqNx-K0m>0fK9(c;@+phBukxhqq1Sn-fpFhB{Ncj~fQG}S
zcy2+`0^(h#YefLag~)6`-wNp+2qudA8&I0VR6$_%`}glZe}1^~qdDZX#d`hy#jvzJ
z&t}o0MzC`R*48~31^}w4B%sjjv4|}<1u7u#?$aBMK*EJeaHBeY6KeB!A3l@_@`wuv
zB+W{Kqpn>CB5cG^<|>N5+!R2ev%@~colv+o5CuR6Wd+8}@b)={v`QAli8yq<OfFX2
z{ehl9<PUVCv`KV_bYZ2pSZA#@B;HO#UvIQVV;ejQ<x9$i%L~cS8Nv+G$fi{HgJ~#K
zk8tJyA4*RgzvTNPj&83Q#3^24{k8!|q+^M8zXam0YB=)~3&vOwS~x5JbB_jwhJs;t
zQVH#xVnL7^r4rr&lL$hlOOzZd7`ANeS(uuTS-yi%MTb$7W<Hq$a+j4KId^#I-$Cvh
zAva|K4*_n}mA1=QYBF<P(_&7+VSZwqs+jBxJ8!`Fm_yrl`>R&nL9AG;-2-BY1(qd1
zl|SI=pB!$RA|){hu8R?~fRQld+HwUBjW&e3ov!TxAtB)jnyx4(2eF0lJDf$7KJ+6}
zmL9lam&uYDc*}V$=lOY=P9Vb46^~~FSRAr7hYXPh>R}(ODv=Al&r@V!Ky#Qpdzo>M
zAOS<P>e)oB!r!tjR?;4@8)JS8cuKQ(tDX|gvjnTyBU_eK#|?j@r}yp&F)FJd2?ERq
z`UeRF5xJLq@P8Y#KM#wY!b*==Yq|%HvU~VmbQ8FFi|qKz7NVH<fChK#6%@n9iSPk1
z?tN_jL_SC|SQZF=e9W--^v8G)X4(;vk@HIc-`(JQy~W(D^}$eHQs`<!)k-hA*__J!
zH@g(UYX_DSv&MqhIa0W67!d#7BsvIJkq;1x(nOw-c=IB+K%OW5_)C@s0((~pDumwf
zh%H^Hm?1CcJb7|kKp(OKCQ}bBCa>8wB(+iXlP6b!OT!y}2cZG+Hw%!j%%<0`P0FEB
zG8P&@4TEc^j$<TvguVn+^M(@uX&%wm&8M)5Uz<1(;S`Kzt)ru}e65=mC=~l!*b}Z_
zTbmOTb)Zjl1Y`SxjfuCk!oZ8UcOggXYzazq#j0%hD)9UZ+M((BHT{a<4Cfx(Fa&E2
zb@l7C#k$$z<*+OOCmrkIeVG|59vxoR`e3ZEPM@>!_IzH~cz!#7?Qp*3jWqz7508$v
zkx$r+Yk(rw;2jAJN58rTZv0{l!_2C0V^YU(J8apnx(C9|fQ#PeEUYL9eKbXO2<*Lk
z7eUpd`o{DKW~BAF9Z9Rpo_mFb>|^#`o}P8ha&SM2t=|399J?BWZbuS=Py+e{TprXg
z@bEBLK~jJS0pv}8S6A0!jaE=99?h$Ez?_4|p}}Qh!yxpSf=)wCO<GnK!q4jsiAr|?
zJB&X8^xi-Wtf0|JbVY1IAlg?~!E}Ye0iUewRr7dcD~LYyt2RT(!AkB50cE(zDug~E
z<WX`eLL#E#h!G*u#Ot7ZgiwALyMUMjSULIO63J)^gEc<S!0Wi>!dt#auuxCERKgGm
zeXKKT4rpU4G5MlO?Er<u5gTKLLDQn*0T~J>>?rAu0~Y^+mQuPTbW$xMPOsUo){NtJ
z)JWNu6ZgKbsJ#Kvl~Q@X+z0q>#>V6$;8knhpL0Je7Dv;$wfc2T1%Aht;Lo>V0BHS$
zfd;f4(6nIRa`w|k-VOIU?t<dFTtVNS;3<)qu+mRm?9_Lla`pROUO(VQMW#>xt--jO
zU%!qFU0+|H!(YRdKz8hmT)TkqTN^>zL}-A-oFY`l7L6)FGw-1g0a-0BKdeENXbzqT
zP{qIvI+L-Y{Z3rE`vu{bAM*iUG5<YX1ke`^4b9qUx*cFJ6kNIpdLQAhb&dqZ_IDs_
z7i;L%0Mh5v*4kRO;`i;|Wv-9u_mgFOMv?xI^%267krAMLC;YtC0|$X^zEALkY!>%}
zk#c~P=gpfX?m=+YEuk}+y~QE?ZvHr}!yCa2g#_s4wMyV2(9rto?&E9#qtckMdp`mT
zi4hjJia_|z%;gHogr=cih*(l>qD(X-Q;K{YL8yT`|9c>?!kj+jK%gQx`L(f;&?#K{
z<jE6(z;TL0-3zIBKS4NCVxl%kN_1*07Qzd!(2FsoKQyDP^1&c~8-nn@ZYK<z=c@K%
z#dG+9OoA$}<AUB{nw*}VR{qIQLxU#w{!QPKc-Y?o<Pb+)<KW<+MOsvoQX|d|X51jz
z!f-4O!W1?(c7)R$KJM}2Lq!OskKmC(%%GjE1H};cyFl9<d11}_T(Pg8N9m%VpkNQ{
z;ed-aCXR|WB@zc!dF=IMUP~bM>6{H<_*;O=Gc6B%_v(<$uXG&DoXg9?98g&|LrTlY
z&?yw*P7;>of&w(c$qdo%_lx=B#(3#4XcBMr!s^XjqxPL`$Wx;oPqw+th&e(9IJ%%t
zK!lqX@F8SnWnqLwYXSmnII{yxgNKYdfl!r|=rLHSQIDCJn6Nnn-}O_bB>}jfBqm4H
z5#OEIG)+-L0x8^K2^ksEs_*((bYKcOd&bO5=*N=!)@WS|oQ0hsWrv>a=FMOCy8dee
z@M}|2ZU8r!WC7fgNq$y=+LHPfjKMHI&-)W9-g;bGLeGbEVkOYEGWOI`Wv^XnqKT~h
z&Vlade*L#92Lv#T1C1Y5Lf;(WWG6i50oa-*JaOW1ku_WwD+oMLnqF_k-`qA;657I>
z0E7T-0Sydrfadc*04H&tv19#N)#uJy==mW5_Vz<{@I63f6yO2O`*Rk}Q4CMuS`x3U
z8+?WNR^+MD8iaIX3Co(ExA4c&DUi>w6E5V=j%OSVPjQ4P4s9ACcqSdWI#>~xmQbP*
zGN?c!nj%V;5G5+3`A><RNtv)QT?z$G;_0MM&KrM!wKdPMJUh1)`7Z1HzKS`he&+5>
z$C_qh1FLc&Zb>I~5|5T)5E*3(YoR7N6$cK6W^xq@6_Lsz&cjZmXO4+wBog-g<L_4=
zY;uOT%_p9tYNrocZ4|*j_or8G&F_%hm*0MKY!t1$!b^995DsCnkE3<>gY0DrpggNN
z#Q;b9dKJBoaT8R@w>*6fUYl|yJqXc%B1!aYbFwzFM1<f%53Z)iiH_O!M@PyXv0=Hc
zvRY>Q>tX$KcobZ$D;{VH2NMbRvmOX5g*yDf{A2J^yLf7P6NTF2%*ZyAqKO3n6o7o<
zpR9SIjI<t}N65}QZn{N4{TCk(yK;BLvADj5_U7<!&+JVex!Cu%S4~YngHL*nFHBuc
zjV~YnK_6EBrDVE(lC$27YTT?5yEq<7GKNK0juu>`R(MnXBe&7Vc~8T3*v1y_G`jNM
z+ur3>Wm!mFtj`DwP3iO&ZJ|6L3*Rfe)zJNB9mls+&VEVtQb(#<=a^b6jnx04>Z_xo
z47aag=#Y+~Yv>LsX@-HJ5l~RNK@bTgq`O;6={7(@MMSzmS_PX>L6H&>koeBryVkdU
z_kTg=o##EzKKtyw&!cE3$NaXz9G5R`F~|#H2U7mhzo@G)pLv&BRI3vn&wi$>FY31D
z8xHRtx&2P(X5vg`?o81}7ThIPz_Y_BrLL|wRm0Lz?p;c)`Pr<`eH?EIglkrp-%4QU
zj(q%LD!yAuyF+h``tcIA-rU~DP941y9qk#9z^F)1ezi7eAc09p+TK7qf3cD|Pvp=8
zcoE9(@9OJ1OtiwrjO;fUdmsvp(UfR-#T*xW3jI{ZweT7h8eh`qxs0A5%8h`lvh}hx
zvm<~TIHVY)`}uw0*b#OBhS!>2-jaL1^jr}@jdncK$UpOMFSfdFe=Bl_3YD-eaootT
z^KWpJ^%A;T(eg%*C0=S$l7$8%d!`9~9$n>w&O{4rluR0Z=VE%&vt9Xw%KrQHW3y9Z
z67;tYukN}u^hp|%d4ZXs2ljv36_Kz1_Vn&RJ%4f`-0rUlJMk&~<u5z)ZL<Y>$F_>M
zHmp<(CD``;K5B+~Vs3~nwFMp2Z8b$QM4(7YFk_TY$IOXHY=|BwCFv1a^zO7PdVB;G
z7SxPzSP8ja(l&Vb<3SUw-+BZ<gxTfU9Y+9Ha9^oC`S7)F2*7_?@NzQTsBXV-dZW6s
zh)~dMETZV%XRw|Zxy>ahf4o+e*(Gv@bx<d6`vdO$NocUXO%w%JB>jV#=H7SpGbK(&
zyMvF^31;-fxQCieb<9z584zuWO31EfCxW+;U`j-;R>LMB!V3fU_OLd!YT%ra0>If+
z&wr4)Q~gY2yFlDtQ0fIV&i6janC5)o>*=l$<nCDRr&d>i{JMS7&a+X$GB98yhSo=$
zO`9IQK#K25ezgzzdIwnZ&v2WzpFdX!<9Zkg$#d4{UuySWYym8CDOmf0sqC-K_s^R8
z9x$%;KyinKk^aEe^lceOxm;;>B6{%Qu5TCCn>ivJ(E(k@8xTiWe9MT<jUR(DcKYe|
zmULU+Rs`!~UWkzl1%y)fvo7u+`SBM8)&!H)vX*$zRt0@83A*+34Xlj2Nt@*vN7KI}
z8A<l9osX|8g)42%@PCdX0)QZ{&1=df;kbjEVi7R$fd&O0*696i`={PC#JG3;*ORx#
zOAI?N|9(nstDo?xQRf(;07iQo?n(FGT59Tl=FL?@_mYNnNmj4I!~rJ<+m-pKCy(h!
zu)sJB<Ujiqn#$e?VtDv41I%>}L;6}@JwCSC&Q3$41@u%Mln&B5xeH?Fe#8em{58*Y
zAJjZLT{nr;N@QNw;OEJWSc+$!{!zndi(fsyR`$?-EOxu=d+F^$0o3$5W{(j+l6*E^
zAGXMbzxR3e@#b6G^_77&;$22b@SMk;UjEjyjga?V*dA6t^@IBwnVVL2fE&`ot8+t|
zH#fNI*?ic^pSO^~*#r%FT2ejVY!WVzY*@6*+_ain?cmEDG6+-&RB_^XuXeba3nzuo
z)a)JfQnqa#GjJvhRryC(7H{x+<xldN52vvNjEg@jFS*zd8&-q&zBQM_2Wzrs)p43f
zHfTl1cHS$n|D1wF{qUN~yW7zJty?l8T>w1Bg^Hvj$D!ovQ3JlPTCKQ_rtRmFaUs1V
ze!NM7E5|@I0tsS$@NqP@bodVAKK%vRIkE(DBEbwkQ|W&{o4QMtY2Q1I27L<o{?AoZ
zVEz<XD%fi7^=9;72A_gP>)Gds+i)fTBs}waeLvUMuKpHq5<wsQNNi75b4?0$GgWp;
zD{)<p>-7wFrQI1_t{SqK=WqcM{)UH|_{zFxy$4W`8cZ+#r?3lG$D+tr2Ued{Q@K$3
zT}lj7u#<;8?BkjnWn29cq(Js7<le1q>Z!RRUt3@}Jhh$On$xshgi53K)}_p{g*HZ9
z^l+hsFrKy23Y#OC{b5>E=G{g^ETYT64sEzw^76{vUEK_JN4^(zjJpM5_tNF^N;AGl
zo@lb~D!h7J^}Ed=Qm=T0vLE08EgNcj(fHz3kYSEAw#Xz`@Gyd+A@5}$i}dJb!zX7C
z9Q`%lKwtFr$y>WrPHuBU3T7V8ua@mk*pal_0)NnKSsqUHzB$8DJNWoFURz$~(Mq{@
z^){?c_w71#J4$1r*!b<L6+PT+`Q~YR!b>UI_vUxl8Y_^>;tv@(G;TW3vuh^u@nn!M
zmWX@K(K6PX`!8m_2#jqm7teOwae5^4+w)enEujxkA~ZUSb&+NS7cTl-Qt#fIHAu2V
zocBt#?$3u7dAXr|fA_(vw7*pp=WN-UApfGVW199tobY2um`#~hz`VTtPtK~h6n)kg
z%_qFH$@p!qMXHhr0>S#Mz0draA^n3Ox7FyRjSjx&Ra6af8!Zi9YPX5P-e)keba_+7
z1<=aquuUW(Hfx9vgrdjvCMwZx<tl!s6S7l}FGP|Nd&jty%DC!-KnNIglb=a6tf3HO
zaF%Z)m^sjg#vLnVM-~BnobROlf)52GMSpw&@P5#lGm$rU4LARs3D#l458izK-Ri}f
z3qwBzAz2sZJ71r(c%>|wq3Rk88*Xh7nNr4QhB?_RQpj}~a27I8@|z|{uaJdtM<mtD
zMUdK7RytT#T#1RR58h}V<_!K49avPOB|mF=%&sB2=qfUnhvLn5n%N8*O(zRWYB(8U
z^PR5QjnJ#i0ig>WW!xrk2MeMd46+%@trTJ$Lz0Bpq#rAzbL(~?Um5d64D3~ev!cU_
zR32pV%t^$i{K-nUFlOn}zpT_5xstA67dWFcpm9u`cyH+R@2A_65`1l&-DjudL}B=C
zgFOxSMx4LsrXE_r*vF<bct`x%2d(x-h=hG})faFVUx_X!{UJ`wbst_x!J(!Yf<}ZD
z8eNUJ|0Vcd3(U2k`8ru<?rw+g9!oov!Ev{1D{-EN|B?+}ZUEXBs~GY7?q`ttq=qHk
zOSqS8bMF@}^sqroLhWd+ib3Eq-#K0)o(nv$`Lut1dU;{++hobzQtW%UGT=T#m!j3=
z;G&YbOed_2IZ8F%f_#p}fTHh_BM~D{v6Cad3nlYq40WjI1I3+EBGu|U2*Kiv%Ns4(
z4~y+)p1}~c=;JzdgUT4n-&BA9=i5xe)Er7L;E(le+QwMi@A-Ybb2(?Z^|FmnhDK!~
z%zcEWjY-KwMt>B6vV=zoI1c9L-=Jyv@wUmt_&HoJFy@1K?4e7u=hCd{Yuq&-4!PiA
z{y`Uqd{{=VjjKG<Zie2`?$)Af_rH%@S#nmK2AC#2%z8*X;s5}{b;vBrM?2CfIdV~I
zJwfIwH@kOwk_}6HJ<a+&_j)CnT`St*>MhvV=HXEYOnMf1YqrW0P)GAbjaH0WFUIsH
z_W-DnVXth~LEP%^t2o9MlU<Rgix9$0WSsMRRpef34TCnD*m<$vV+g05?Vfo;9{`3R
zC_raD=1A7lN)xWn9a}*$o}h_ozON^T4<+#)!MNH;#6(>;4cUtX&e0^viMIniMP}ip
z&En+#)S28X>Dr3$gpCHJX&U=WloA_O71*LmJnUij>Cf&;v($r1LoK{2ixqprxcVU(
zC`^L_g$UVY;WmYx1icjk&XBE_e*uzXsA=;(EoZofl0?_Vi5(|p*b@@a$p&8=&OH3D
zFeYN2pjY7Wny(K|FBCHNL?L*B3uV?ZYF~ox#gnx1Q*bMKmelu;4@R;&_&FH$pYEwV
zrMW#}A7+#`a|EK5<+xi|-a9)H@rZWNt5MPm?iNWYmfDaQBk7T89blTl6^|?C)ONMV
zH_prSw>|Xw2)b#^()_@4wUGV`O=0YqF%QnRd~4!(l7_6D3DSJh$~?WQ@6y+ZDUmeY
zw9vA}G76_GF(1Y1Zl5>*cQ0TP&c-!Tr8oI~*{FwB&6R+iAL7MH?7LLX_;kck9Q=KE
zt!eQ31{;%rJSpd%%S2$utBcq;I5CT2;f5h@y!44*i?IVpGI^~~AhsR~ZVUz&J@W2F
z@T|k~fSBZ@8%H#V!eAV+`I?Rn&T<Gm_7utR8Z!K}>P!P<hG4<N*0eeDF1N44PsIY!
zim7yTC1kUp?FZtpnXq}1e(HZ9w7K35Y|w~`2bEb$n7$<Xp($RjNv=l@Pc~uhvkK*r
zLvXJc>d!z1|1M>Y${t<Oxnu^c<2@pN0*X6&ZrB9fAwvlr&VA3_S=&5RN>ZCAC?EF{
z_mU=(y|6jcji@=7bb!JpO<%;LCQ5Bbsy$Q1++kuySqGzN7xloLjSvV8_RHkAmRwXy
zDY-OqA^Woj-L9F8!P9Ayi}fS*3p=w006jZ2<411KD$4VgnFdu~LtXSc%^E1)9Q;}?
zyvA;5abwVdROBJYSq_u4kcj&QB_V4u%y_<uqarC|-l*keTb+*Nz~1oS3Qgi!wLpud
z(qvv<S{IM%>eUmMMnzGSE<e#W*XcINM%2u5^|@O@*ha!ec+-Q~A5TG&^2poK(0+>5
z;_6Acf{uizQrw(%-(5z-Ft_Z2m*T?)@t~a<-`v?>0ic(=*GgOGz&{{QrtCPXk)?np
z8dbPHXv3g=SblDSh!3zJ$=j?C1tAId$dgBbNuE^=O&y=^SRm=AyIt?$L@8?aJBVz6
z`dp1!VwjU+J2xR`0HM+V&9qkaM_kiDE)~Ddc*mJtncm$d8#^F-Qf-_Qk-&l|Y?jho
zE}7c7N;ew1uN*UG${l4uS2J*f<_D?8yBagK@-X;PVw0y00yB|9;!)W&dt63?VFN*H
zgerqK)=<}9op#1-HMTF4D}&_o1XL4lD|LqWhJp=;i|%EwQmiUt%;tXY=83;w{JNYf
z**L+XwZSC#eeS|->#s@dVd-CVDd{WMMJ{9U!$$cF%GK8iD#o=K3dkI;4rLti$`o-7
zpmLQ35Ycfn3rT;F97G4>7`JoT+FYi02as2?UuWjTO_OkiX?V+aFO(E%B|?Ub^N-cv
z0Qe@w`q75xiUs^>76M~`5h|%V9=?NwRYRXkw#AB2|CjXWNC|HB616Aj6y914g4IP9
zNrP4~YgWMdEZ1otO*r)hl6E_gyRpo~5WB5Ai`Pu;MSszB=j|km5S!Y3_@l5G>AcyB
zHx#~Zp|wiy%OG&iNgfQp*|mq`B1Tphe}g5P{K)1W0^cTQkDl#~kpmjO?EW;XZ!r`S
z<q<Z?D@oeQ<#@0y_OJoh_~vcpjDKIQ74sLM%agnM2;L;rdCysw`Fb-{vCC9FdX@@J
zi{-KAV8Oz#8BN0;jpiba0a=WWa77;b`Bw$=TC{zFVsr6~rpM*evB5irt+)JV-z2U1
ztSMO7M)d)iXD9h~pWJfvrPIq86~<a&y*!KAv%L%B9>Sic>eDrL|FJAC25$8#+nhng
z6N4(31wGO{%H#-m$5t+B@2cy|w6!m1Z=|H}m02Jk{c-)~s8yY?no9JSUTt@TuPy$=
z*!2O$>Zo-Vk?Qk{O1sI~PPYODLawg2Iu??$IpNFb4G@R-xCY{JJ$e<jAo06Rka0F3
z!7y@}X|XL?pWI<NPR3%g2kT{~n8xv1AL&pgNiRhkA;>&@2br(wc!onQ1VEngkJkPP
zm{Mi-)9FhQ81P`=`v?w3VauhR;L>vq`wFA~ax?jxXx(h~*cnqc(ATmD%muS)-0w+k
z6^z#0%|jt*hxTND79%QGp}@a;>hl6D#Zp9@JrsJT#CrTl7hn<X1?q~gKJn5qrB!LZ
zJs=*U-me*9${3TvQ+0)fnU2(YL?Vs(`G^f>+tdWDb!4u032#MnsISvuV?HY1p_m~=
z#=Izxsi&P$^|$2NuH-xmbFM6flmomRQUZ1q7YdkqNQo2908575QJE*V99mocPMMZ}
zVicWyx^;HC74p60@}n!~$A)WYG>Z_(I@#wm{)?%K(`9kyB5nGuj{U?(J*z2fibbc$
zrz)>g?josnWlo5qy{t{vDA~xKZs1;}G#A{=l+*E>3<<bw>7Tk<Lu2!HW|e4#R4a5O
zG^rukB!;Fp4S$E?W%^t-R0nXTsBI?wvu&W6F(4tutHopFwO^simdqW_p|!;UHG8o^
zX4^nBpeokXv*$pR1n801wCK`sj;@@n(6OH7p6rDu6g>=Ltn-+)AtycTEj0P8duXa%
zjjtbq<?~>}M&MuH+^e^eFJ6jLWX!~KQ{ok|dLbo=pD<bHJRz1a6f>b5^{0?^=LMPZ
zD7nK#{Lf~#tJ6J5@%J{aP<58Ta&>yL6*;9fHeZFeWB6)^0^#i5P;pjhj4#H^yK7#7
z<Iu9+<`Bda8fhl$xaD8xnc_Rq_w7Ud)?PC%l8FyY7pntQx$5O&{KV@u?<hAv?{k!(
zK(j#6if9{o2pKl=h%hfIP@S=7!}wNAhe59QJ1v99lCC4i)2P)CBx9lNqWm*R7jKlK
z%e~dFlqq2p(*0I?5-az7?tNHj_v2%YeVCL!e++$L^JUN*afa`iU12GUlIQN{ldMB7
z`aBgMGAKY=?Au+~wPn!Llu->_Gu<7GF>mqEYU$a_xkC49T(X;;Omj}pepUHu%U1#!
z=Z+M-TIk6MvNpXPqi|}3?23c_lpWGf!iszxh{8AK_{To}{ZgC8BuRKfLBUxA1rM2j
z9gT@LnNr&3-7!(5GS6)=7c4WQs4hg)atxhcxX1aX-Yhl_nOo^zX~rPNc#%;n{?bTw
zD{TzPXx+?f9EKL~qvt4hc6mmvvW>SBTi;LWcf}VhIxZc-k2>FTn<tqJc!dtBZ93Oc
zyG$ez?)rx@zop3P{R=Aqcm>NT*~|p|?x*u`(<Up(c<)9$WC-th7pxvb;`vJGO=<A^
zfJ-<(@m;fH@P{b05E?8~@XCt{h-ydU4H;2p-63oad}|vdZFo;7Ywj0lGo0Ozh9)Wr
z2rZ-W1a|#M!VgsN!(-^d;Gi*#Tq!7eu~?J_5q9UbtMFu<pnNy9h@0cdhG9<nC?s8o
zr1+)Zf-7n)*GEhMhI1OqvzGdmc^*`EEUhG>v6?Ron>VaY(~=vV4~V+Y-GSGYZlzjb
zI00{{ZsL+5B$=4BF-bEa3Q4hbl;lj>MkUIB-mj9#cpJ3K>=dmBmOjp$s}{R1CKFam
z$)itdrbHk2%R&!XhbdR`a_G$KwHA9???F7cQL5<2+wTb}?Ey+B=d)z|5|mEGsV`kg
z&?s4teN%XSp6MFmC+8dImI7445j}DuX@i>HP?h}gUd<Wrpc1(hz4d}0jcmMBxmIyc
z+Q<gbns<9LKJ$?iO6_-Vw2WJwc*L_r6Ft^`cM12BG_d5_-Tw6i3VjvzP7*$G-?Fy5
z6!W8jnhkOXTH5R~a?2Yk5_lY10*UWNucJzM|Bi_$?9MCxd;(}HXH{z&$bbRsH{kNI
z@gL=ve7Q&0z(e*o*F+7=LMKL-A(=yR4Ps(Qii~z&JzLA)ux+u%H~f}Ps`(XDsvo0=
z&0)JJ(I(9}JG#M_+LGlxL-_IEPy4f!Rqm$BcT+ik?WWJ6n2K0@;t@*4Dz&KtNt8Kl
zcc@qM!VL1cjIum1Ua4sn8uzcpfKEKiA$!Bkq==X2@hSk%mX9m;GN*foSp17cD6u<s
z$md}BSzxMB0LP|CZ>i@JgO>w0s@)~UrGu1ukIgB;c0}{Vy{N#aBL=QQhRR()TWw$x
z46FQhWuIoDbADFEOcQ5k=hCkf2Vaq7WqZUpmB1e`cwwEI(B*9JT)|ADVu`_<jGdWW
z3%y{eAJFAcvdSf;zZEpG@7Hyi7@)I^4|V*jsLJ{MeKuwy32@sA!vFyf!#+BhhuEXo
zkhzy$`22-grsSKUMb|>USa%c@vofZbfF053bA14KrOn9JVb9mToEkx0nRn)ACoMeZ
z9st)%6ogV<T%yv+Nmv0Y#}DA8lnX1abtjVAuM<3f?Tt<Q4IZi*PhJ$E3U6Emtq$Xl
zB?Nw2spF{(N8$BAf$QuV_`H29uhDuOL;s)xlykuu$;~bl%r6|=xoV=)P-x7{ykcyT
zU`SnrNQ==&GP`|$zt?vvLnPH${b-}A;xMYK21Q_!${1z2!tnJUtd(q%=-k#~un5sK
z?va}F(|y_l?;2x{m}NM=w8kr-|Mi~@uo(A=rE7FTH1$L4SZm~$SZX!B`FK1|d2g$Z
zJjXNeB=ZI)vkXXe^$fNX@K2Cj8V76tinR?k4M#*yh}E)HOp0Of=o67rn<qm87HqF{
zzBHfG=*fjkg@`g%^-#3MlhBq`yk0E86KyA|k~37GlAshhiH-`r5u{RwcV|R|L!?+B
ziHYjmVwuXe)`zDwoQ6cWtkYHmGI2KGcyL;Z!8x<0MFY>-r>~STnemRy0OlA;dpWe#
z$)f%{Jn>VfO`6;d;{_=qU`W%~2FFcQb_g4L9|hBYOtt*aP(qy%I0+j(rLWKl#GCS5
zHJT#G&3yCVawZ{SH1G7v8Juy}8iu-fY~*NVvAmCdu~y2l@7ccZ&Ie|HUHSdZk9Xr@
zErjiUXwPDt_8!=uq__x8hUHL$`lRf`&*R@yx}@j8MlKisrh&df$6ar*-VtP`F0-hN
z>f~ytRnhA6uBG_3jI)ZwTC-D$_Q%W2)paf@a+)O;@lGffev_1Inlp^BovHx>aIE<n
zIFAyK@3h@%;tW}(y_IayWr!b!3zm_5<uIza@<WYIpH9)jbbo`NE~b;|W(lLzs+}B~
zj^!w&N$*Qz=dOOWGjO2Nw%O+GpZTd1YWiJ@D6^Kbu5OKK%vz)WRj5kQhKT>j=*u2l
z=2$*wPD6$&-!N87q2KWg)lWG-fL^O6H?Ro~v&+j1IhS4H@r>uLlUG@IE|=cktT1l7
ze(&vI_(nV_YF%X|O;+!g`q3KS>7ejIvC8R2>r`o;3Sp{HrKi8s7@F9Sv{~}PMb3YK
zeq-D23h}y4-)#SvV<6GnUEw38hDZ<^O!oWJd&YMBcj^7L#^=P}=`J4>*Dl7_lFeVu
zB|&8W9A22I3C_Rqs`Od)$9A01{rQ55XcTQ+1D-(V&iUD|DWZ)Uzvi&_Qg@_hd?S9d
z$=vM2qvl04Ge#VCuV(u%$QEN>TRgawE+x9vIGOhl&uzXiL(M@sCIDLYvjP<_s(=aw
zB!x823qJgc6ir)3c6yzxEy?|GT(0xq=8NP2H!dcJh$U9F;U<T)0@AcHt;dv~Wz3<E
z8(_V71&{vnM$$!n9e*s{v0RG#iu)6pMZgg96+CYU-=yI5>2=OLrsHuDyg}<4@8mN0
zCRpXYllazrj+{ROi**IOh25ud4j8qPfJr6qG}%g?sK|fsKhs4_P<c5>$Y#wV3VWPA
z77`N{I7FL0q^^-xD_(nb+;<?^eeCb?v3?syq<jc#vmHs%i(++F!i^dg&o%~`68hg6
zyqaLGMSXMnRY_cH;^n9|&9r-GO}|M(_?({_DC_#DTg@36D}Sw!FD2$M`_=UB!%Qfy
zyQMb6ptu=%$3d0BI|Om?Az(`9r$1@Alzd(8gyK-}j1IG9lU)g8W+cqBhb!NL4BL2A
zRd}7B5t+-l0^N|F$@v1^Xgs&)J*8G`B(!FMQSnLog&ypa%iv_b<#Vqc9AT6rvu6J@
zJj0Vw9}r(u^3)fJ8jUz8_^=$$Y)9IQO-NrYcL|k6DG`n`k@2qc*=HL9Au*Rlovo8y
zlTDp%I6P|7!VgVWZB`6Vlo=@lz_Xi#+cT^2{4TF~G_i}clrFzve4$g5rIL-GJ6F))
zH4^86I2_AxX%^zOAZ!o`kz&L0E-En4^20nymwIvJ@`lcfy)f`p)w|{h?mh;YWPC==
z<<&W&%uf|kMNA!te_3h?cy7)%X2}(^6aVh6o>N#&TKt{3mm;v{?vl?iL<E4bQr*fQ
z2<1iDRo6a=dBYYf^w0cJ_p<PWMNgu^JLF$-R^=_8W?AMw;WFYJoao+@+I%B{Z44g1
zpH@)nd{qv6uW~?bLF9qmjYSx}NlWGr1lGUU$`Sm)>#=kGwG)jT9>)1#Aq#a^s{C7U
zlMHQ={;=f6<TIEq3OG#P+(;#%B}O$7GCJ$}HD^C8;Z93*xP!7Q_hqQk8VD<@pc`0;
zEX9)U^b0MAs05Za&Hi2@RQa8Ky>3cR5^H>Z4*!bgtP}=~b1o&5PozqN(uwogeQ<gA
zROL!D7aAGT@UjQZ(R2{0V(2$wdinZRD%R47$l{L3XYR<`3Rocz<64}8h_yZ!UXv#L
zHV-SIGLe8}-WJAYs_r9Og*QuTuRM(VygnL5c!UX2PL`=tZ@>F;`N+~nyJV-I(EP5W
z3}!5`oZroZ!Nif@FnZeqlrNX?_=IU2C$cx3+X{2){q{xtN0sqM#ro$9v!@4h0!yRB
z#DWlRqNkOKiw~~ckTzg3Mo-jzk0#3m^@*8aGe<5hwG*%YP*X&El%B(Ny5Cl@_$^%=
zCU!w_-IrWHT^%PGSOTw55|<ZuU$-IW!36J6#(=E-64BV>5*;$#R@(6@t)0`L(Uo4$
zg1()5VGmz=&Iw>R=pBQ1trQWlt|=8uh!onJ>qr)c+k^9yrvs*VCGN&cHinvOvvQj~
zq<cj~@^L|iH7lbAeLGZhN*n_C{T+~>?!nr3NiHsxjG%bv4l>T8cLvB&9gE@2<UkoJ
z(Kw-iM_{?i6r|<0DH5Pel)iXX4(%cja$2CIi2j!52@pzkl(@#-$yF9KDn^rZ8I`La
z8>~88kxOCT@g}gGZ*;ub_wIivK8gd05M5EvpYBBpmiegXR5B~m$psIGx~pY8S#mNJ
zt90lv&3mC=_(pFBVYL?v?WoyXME2Y_{(0_3%;)VrSSayQKRdnVfc?4hwb8|5)oWd+
z8-M+6_G(SbhTf~d^#`jpCH4ZD-mdmt`nlfvL&7ncxtIS94f*E&9h>#JqMp;~Als2{
ztuH#;PLr*?!n(DfSF-xT+R-{kPnXW<-Pm=sN|ww;HTj4Fl{!H&>yAfr1_wJ|lK%z}
zds4<RcNvwwJu>_DtI8@F5q#tGU;9==pZ10?m4PCT9(l*h1LMBkSi2XjjTPT+7^M|E
zm7&7Im($1W1)G#!4N?Cw-RNI+y}xbb?<x21B5}W)a|_Dv+||DGs29|Ne{a+VLbx)!
zDudgAi}J+EXlnU73O|>s6D2(fl=J7{mGq70;qsWy@ZwIhqAALhQZ6j#2OZTgP9=ZT
z5&lOyf=uJnUjr8|#|F;oEV%nje!ok<%u(k#=c-kf9S_Aso50l4Yc;3(LEB_jChD&X
zr`{)zk|FWI8y@etj)rbz2(nVgZkc>4EqUrM7ow}+cBU9o7BG=PTD>y*;z>ViV6c{!
zjU)%R?_-r8q8FI<s6|9?N8T(Nm{M)KEfq2+Q#Gz!A7!dGQo8rOGl#ywIM41YFY)YG
zQQNPxp2(ngkzvc{=N;P$C9V1GbK2Ni71_+BnWgw{w%lG2;br&uJCgh_y()2|v{8L8
z8qq9f8qh9gqp@J_)8R(EKJWHQbIh%ulP1N_O_8lbdZJ#Itp@*WC}6jhZAV9psx3k+
z#DeEVWVQ<5_Jh?1&pmYs#bNuI(S>YZzGEuXmNM1P!9XF8Vxm@H-GTp|3Vp0nco%A9
zv5e~&%tt(b&P`m)$`okYsD+Fs#W(E6oK05#eX-sR|96gboH+?zB+xOb9sH~QjylUg
zyIGeLkN(j2Mg8Iv7hMplD*;?xu0^3mbkl;{RwQovNG3$ecZpdCXIX_iYB}7j4$t2M
zGLTmP-dPuS#Asz6U~g`Hrp-g%7Z|wFL3=*tT<gXAC}C_Oh5YG_F>g`za#{CR#g;Vt
z;4pj#W_ib%%D5<#$fEnGcFtc%0QSmukC+7W53d&8nsd1D<WDy_Rr`NhGxGYFl^u0u
zJzbg3%r29i&a>cMn<8GK(@l1hMlS)sGvPh@uQ$YaCWDCl^nYx9dX^ir$6;heBeIyg
zPZV~ylmEeupAA}er%Q=kZd2u@4122&R$pC>w@+f=e@V(aE?AV<aaKPaY9r`Bc8y3H
zq!1fhMs=9~uXVW5GVCm~0R&N_RdWor&SY@;!_!?@+5GH$solr}@Dt)j;pUUU5#BJo
zQUIwUFZDYmYb{=;wSJ%s!mLk!x~IloOQ2+#h4Cy%PKIuVdY)J@{>^3>3enqRJF9(^
zCBSL4>3C{)Q&1vIy!}h->HvQe58_bdh2)>AHwQtmUWQu0#n<)|{5+Ti3>Zo<l8GBr
zKfF%)&ClxRC0WDN@>LjBK8}!#IXsgyGyX+ieJSOdWb4}}5!<~agaq#ow_zp9Fwp}B
z+*md=x-IE=Lurv<Q}{phYD3iWuyf!yP?S@<aK;{gyX&jAH?4iy#*gUv?d$=ZtLxdv
zTkqlOGN}s1E<W?MhXHiHnDuUdWUFp&IiBcm?s^yu4-f=XbPEwx*280hxAWiHfOcAz
za#Q!|5ttk^EcR{{%}zJNGlcO(E3lMo3fC!<b?D*HcI*tX?R;$WoD&K7c?DmnE!ctX
zrc+$7;bj}ue{Z`_pMd-ax~XEd@K6|EH@?{H0OcAawBGggEHR@5J3mh2^NvbTGPFka
ztxdoy2nGO&u6@oisSIRyT-fStg*jB4&MFRd5|B`(6%6o_dV;fZ$I26wDqur^+OKp;
z|0ixSHHcI$fVHjvb7aAUa4gmEB{WrSDyP#k&~v~Z$u{Ve_X1#$shj((4>HQ`%7DHF
z<_xz!TpYnzDF2hu=y>ToO!d_8o?<h^t-URA0EY@Cx#oMI0zoMw%kE7_tpHO^uGWO5
zRuFuJv-r**0v7xTn;*b#aUc!JugCL35k0EnLjTphb*}8}tn%6g()Kxk(&=;9ZzDa)
z`4RX`u?|SkdAN`EUm16S<bouZfgV_Wz(M^y`IjH7)FdG%IBcH|FFxJy9P%g$Z)G#c
zp|9{>><YhtAn>CrxW;K>{L_`qsX*~Xp^tJ3&;G1=$$Wy^^TTg<%|c<+s&tlLr@c0T
z6X=~cSd?vE*Jvq0H#yD1I83Qy`0^ehQR;QH&M;QzmSK~I@swPG-!j9s(9LWnV9)nq
za0*~H96}amXev)2N;PshSrDf0_<Qf!d^@v$X}D_Ky4a7~p~-u0$^2BO&6!4y=Ut|m
zsk+E@XvJWAj~Ewc#DU|Uy3yHAW@PnX+x?Z%pCM*ZCTfSM7u-QJFDdaU2L44S@p=iQ
zEKrE2uh67;Y+dzz$vDUstK<9mM*q1~nI^qK2GS9rgI;_&-={;`pTCZN>Ks|DxYhZ4
z*~o%_)N>o=FkLV_htQh#ulZM(RaNVq(85)U|2A4#jE~!+Kt&ARZ_Rr9o3AZ*Mm~eT
ztN8+PuNs`+i~<6BgFMGHy%Ug30`0}P1==b#yUnpg*fCly*x^aV$Dq<+g^p;<3+ho#
z|Nq~lbV%gtk$Y)~KxI5)=UrhATAmvPr{b~=-rM_@6gz1iu*BmRxLcRspj}>@o2dQ)
zt=gws?|t+Tr>g#|q`W+zoTZ_|K=C5JK}MsFG$`d$ocJ(lNkP%vTBhct#ON9Ddt{E0
zpG)rQ0DaT-j`iBxTQ8Z7w6rafX3Mpzspv!->1(OMa$bwncLP39F9QPLK7if~X7U)A
z)C#GCpV>r4QU>cdzqeF;tx@Uc!`8-^`&SH`y<UsFgA6)6t+l6d;HHt@uPGamCv*{c
z|M)7L;|G=x_Wyl8E3HkWWa&eK0@%=Z-4M#gR{IK78-0~FFD?kqSO$|PjwxS<{~v@7
zp|E}ra!$Z)2nevG8B9!09yqPA@IKDN<T0PCYQ%~_er1|XU6R7^;@=rZE^@xrTj3-A
zw=>MO!fli6ul<GR8i=ThFa5!-x}z0)?mEuIAhTPjPl^|sRGs$L$dSD>s&F_Bq>^s)
z4B9+(bpzULKo?2fP>wB3>k;jHHcHW))v{M)od2fBn`a@bJdO0{U}{pA5hrrr649({
zF?`qCGYHNxq56|}$7G={olTiz3dzoG5Q+?3*lDHsx-<Uzvb|9eq~dTGmby%4K~N}Y
zGiC3)ZZzOshtFRq9jfy)PQvU&^RUT@DZA|4SB@JdeE+@Bgtmgi<U&{kMD}*aC3RaW
z8E0<$6*uP~3OR)3BaVYxA_*N)CoouWx!~jgO}>zXe5D+X5}^GBcy)^9Jp1fXB=^^$
zrPG+=KF(sQr?No9?13h0M6h~AGV*X7a(K!$mM3^pQe{SFKtsjX213XFO`%ng+C1}|
zOL#Yp+Kc8edtQH`ns3$>ba!&m62HK7FG7Je|CZc7Z49^q!bt=Wj89rYtZuOeBMnnO
zxv|T7B{)ub^6SO-U|HuXc#gQG9mjWkz3cEB96Bo1<c~Cs^)?I<z>^4by^yWMNnVq%
zm~?Z{S0zfM+`iOM0oqKSsAlymJMdNN`tj6Hs{A%g2x%d|uYp&93JP+r{CxaPArkf{
zOedzX9tOeGQwoDp=0ZxkiNSbv*g_|AI)Z1C1wllU1qFTLwDz&nAi0YQag$jUaqY+_
zUb|YnT7v=Nii@jGw?Cu@d2pDer~=Hf`}F8-Fv;L;UoFxv3!tf#>4P7@DDpS@41ELL
zxBC~Mw$P*wY7Xqn<SR5i!2yspV@9A2dP~Wcr(X=u^YtOD3iX_iChjU^E^XuMI@b%u
zDwuV9I5<hZXi7R36W)rt&1&{v@odQO%F3wgsGeBcx#tlo4~4q!SL0#Ed2CH}^*#Xj
z<y)%9InBLw<9Tb;u%8A~@HE~)6cbgArUH%N+QniG&5E0}(V%(N{!~t5+E;IsHwykA
zkQipzpgUFJawhdA^ihc_5Kkf>5FBIrm~r$HYMF2*xlUV~_aYrf3m6p@1=9jG#p3lV
z{%ri2C31j&SgTPHey0-?-$z;v@=xxfdYTeUK-wB)M2>WW$F?qr!W?-r)V?q>y<B-c
zkfAcw)^u=01U9@DL1=MkVQJ*idYzC2gUm{b{$q?tl(Z+@ykOo-meAR1ehG|#;J=}4
zAXXwO2Tl*m&WbYPwY2f(xCX-DTyC?9%hb;zf}vQzFwNK`e;KWuP_oGU>fY-{Qir%b
zYxk0yLoDu6ke~b$C|7(;b&W`y93g=Ox76bvkTteLkO4c#<x(6AlJS#h6ZjbzaTeg$
z`X&vI0L`8!Qx5`O?i?2Gm-^xwczK&BKOLmQlp+U*$>`D5T^W&)(rHdP4;nN5sX1}p
z-GG`-f=y2}ZZdWee=u_x)H+)E3@+bY$sGbeUM^C=#^FW$d3~AI+apS}vE2#Cv9MG;
zOc3N#3#9D)3jh1@EnEcPV!DG$c>pq7z$IGbpFjt!*9816UlF7Ly?|>FPCTE#shEWw
z49o%b&C(ALe6H=NL4~}b?boyba<2+%p<7TO-|ZQeJQF}d%cn~;ZfiYYVbXcxdCoN^
zDpOD?UeE2Z(09SIFuLZk?;cdD2}hM?E*C?I+fho`5zIi?{S?}sq>w$q9~{E*lx`zX
zo)GW+A=iYV$21HhjX8XXM`djV<I;Ud<>6C)go}F!QNEl%i$Id42uq3O+duJQJhzkq
zR5XN8t%4r4`k7n@WZ1(OdH+8t)7ptt@hO;pj*T$=FxB42x23Fut|JfKWEb%2{K!X(
zhxx)$X07uoV0hW(<iy}p-kwzYZpvnS3~cu-saPfgpIu!Dx1fs1fCTAn^9|$^$^ES7
zy|~wlXcajk<FAntcP8-r8HrqzX2y@IcQe(^B~dFN@u8K6OM&+rMK^tR8OI=XdmYh#
zb>R%^oK;t_n^0cweoP8PvvCv9sH_jcmciqU3!55Tm?16%(kH4*O9X^P^gh}hnT^-r
zMGAGIKbd}TS+W|J0X<Dk`kdzGu?`>LH!8;{mvGo2yhyYJ4p1w!<k2C}wCS=v3^;2K
zqIPxQs^$7GsPpM+x-rIuQWY><Ny=3`9Ae62D<&W1s53Mhhw=*gwC^j9-8xnf>0ayb
zm!?NZ;YWqDhm;&$8AJ*&Y*n&@h}bsh<Dk%NxMv9ygs?%5LFob=;^6uB(w~roatUuZ
zy^GQXG80H==6B&p`}i^MLE0IB3r=N~KvuUf(CZ6bT3ro;2Y3iK&C|UfcP`s$?p2PN
z`i;DOfBl8{z4IZvE=Ny=LgWJ1Z%4sETbC54B@E=_8{|{Wp26*57sgHumQU|nu?;U>
zN?B^(6W4_!kHB*^INWs+f4%wcN$L*nu5RbeDGUA40E&YAAc5}He~3aa?ae-zHJNUB
zUL`^lF4=>+@$ctI^;dt^W@2{|Tm~l(Vw&qxj$jzZBl4K-<$bAop&L`Ge;pcgPfoPZ
zr?kTV2h|?zAc-zE*{Kd(y=O=9BuXn7dXyPkxNme*G5MLn2X&E0f+(9~Hbh}M>2t7`
z;FOt^z3{P@;A^N!hEfGRtIDPVE;Sh-{EE1Yw>lsdh<H!lE@un8lRh$jc93}%yk1iP
z68Z!OSOVQkK&>JLnW`4kxZgK<Ve2uGZ8UN1vC{W@u?(7DW^%zP1h(L27=U{ewtMb_
zJO&fNcZdOXo<pioKJNY;oH6#`$>W@*c*Qk^)#{mVw1wKY$a4x>gqy&`N!YYYsq!ar
zYU}fiFA}9EVnj^vE<d>REC1?s7S&L>+Ml4ayt3)BE5p;aycO~HLLhV5jGNwP1Id>R
zv8L3qHIrFBpoVq5@TT6>)Rjo;AN=J{fhYw+TE=T1fZgyx*ig40*`9Nz>MamZ@{Tl%
zBMyM1FIP7aFfBB`Nd2+Lh>-a6va1-@9ZAI0zd^0KNAp8rGd{y!qCQdCFH~qkhG-kG
zL)KTK?(Vz<DQ-8R1l8oST|166l67~SpZ?9m<Z(Eqk0FckgDw|R?S84*aD(sDl_mf^
zS>iax<pbSRm_QnCi);I?&+(CV$kVy0J$+xqI<)S?g?ZJoY09^0gYjV={^HM@tDy2X
zMQx*3-L-e1+G_s)YP-4#xMrh(M$prMPAPFnqnjsqI)6uqZ$MCA<`bPojt$X~2g2zg
z+$a#*K*bW}z<J)wVn5+Ev<8$nKSGC%674`VM{~Z1iZ)vy4k>S#hv4M+4%+h?f;Rup
z;eY@9dS5_Qb$Olo#cy%difx?Aei%gQTJa23#tf`~%3lg6OlVxL`moT~#dC>;!V5P8
z@<#76hEzz<5jCeX3@~i;NwE-lv6HdhM`BqzC}JPSmky7+#X`a6&7HO#*#)P<jJ9`+
z|5trNRQNa1Y6dp5H1KiPmF1;fnoc3r8+s4^xpz(s7O8QVakI39>D=|$TGMOYN3Wa6
zIaMtM_Lwxm7k<qK6R&rjA-J<08J+I0J;m2**4^F&Hh1rkpO2m`C!5z>AI+)a7f8$9
zDuO{d+YUm6Vau7^I|IAOe0PN+f!?tdcQNWx>++Ys_M=gIWL`H3ZlC=9EM?kbtM<NT
zLeO)QRITq0pj5f!JWQc+e=MbH4^9!<_(7Q54lp6^ylIFot?EzaZ&R>e+6-<x0EZ}&
z;;Ix;-}!HSI5){T2E8d1J=r|wz>Mcn=h2S`I+H{6l)+gUcN!LSR^2iG=euR(%%pAP
z3ftCHQ4}$n8$HG4RKa9o04oIYTq@IqzIDdF5fS;y455US)L%RG_i09j>oedU<q2Pr
z?rXjvk}b|9z|8}ktCsvOqpkkG{zNE2@J^neENICl_f%*csbQ-xXn!35c$LBVuQ!PY
z?UL?yY7XVNA#HN1Lp2;i`WbgP-j#=T<}$H+KQ1wk)ov@)=kBU3g+a9Ymf^Rn-a6DQ
zRF8fa*-BmRlu3;KeOOaq2kK=0%53E-tBnzwTP1iD1Gn0aCgau&+iw5;7zEZ1Ur1g2
zYAbuM&kp#4E!YIBd<+3{76$Rsgg<&OCDNJJ$>~2kWdHlq$tSIBKXIzC02ZScBHU|g
zdz|K@Yz92S+^P$e*-4Pm6@$NrXlM0awc9B>Fb}LkgI4fnpTKcMn!VirC`2x#!1CUg
zuMhUrZcu7XW3WS<9N(@Ir(T;C630e#^<G+J3zufNQ@4*5)bm_W1I3H!$N105BU9Pr
z)a~l*|KB%tz?B3d1xln;`S9Ol1u|wP@v)iJSI>x)yS11kY!)Era^qFMAd!|I>?#20
zGxq7OE$2=u-hJw&E2UZwWU^{WPigu=1<Z#wd6RIaF<^qX?u+5wZLRxXI*taX!w$`n
z;#WO?<Q#hg5dXCh6P3m+#dG7EmUCBWX_bWUe~Eg4Q}8uJi70ZG*>xG{nH29V0pf&U
zQP=Ee2d6idFMa|=!@%7L^6trPoG%J^l^h+;a0|}i-0}O)3}yV)KGH+b&ES>@-^S#n
z=Lw&_d(Rcyee%l}dF-*PwE~VNJcw|!hpfW=z4NsP@*yoj9r3k0IyQ5q*H?dECL6T<
z-Jg8Q5XZ7VEL``N0r(Q!=!A-0(ez;OZ!as6QR@o$PbqGNfl))+o8PzQw7J&^8ivWz
zACict>3aWmYH#U(aM`Jn-}Bj>h}nzC%8lp$3Otkgtt@7ZRDe{jn*G;^G&8QLogM!s
z-+Ee)8qTdFW>*P*oYQQ^dKA#H(NB&eeA<)01)h71vTlCxe;*6;W5{^HF-bAre14D#
za1(@Zm`qNNsRCZ3B6*)H&|QMq?)8&vm%CKIt_o9JT>A6Y9+2T+KF+LDk;r);BAfw1
zq>j*yL4;>3lqTTr1|fJXLQh2AA7Ui<Fx5e{U`mg1taNF)Ig5R`1KzjVs}bDuXW$8A
zeEy>l-)R+yET?UtFbqqS@5DWMJT0tQiPMmGZTC_5A?{iHgKqD;{X4iOEYY|GF6fvd
z!Kw5i;@>au@AoS1k@TuSbcc5Y_{W^&_C+csAS$a1pzN3puN~e^TvRQz{NVJ`a7m#1
zvISJo47}UGoz7Y&n6|$c);yRY*R-oH+jEBqNcadfp3A84-(VZP3x6v(ZNIsGe+zVV
z(H8^b&gFxxaR>ldk@k<b&qKJwT8eGJem#ALJ$+5GG|j#*|1eeDCV!y+7`~di($F6O
zu|#EFL@GjQ!pBzullbxpDj|7xgKrPvw6R`S_UTTi%*!!{uei`TgU|J5Rpb%#&c9q$
z4ejyv33>&jyFbCF?AsE-r&y`R=7Op|zssx9&?ElPK#?)17Xan<Jcu9uz&*p<^jO6z
z-?RRUKj%}6Ui{1dz4QJfD_TNVhLBUAhU_o8`?fD7;D`iZS_L$PvDFCSU7U(d!`mB5
zou@ACi8;1D?!IYkgG2eVwgpIwbGfmjK*@7AyQ{$VmUZ^Cx0i@nd6|K)b;ss>1~tds
z$ZWzz8A#^~ho;3-`o&Hn4tu2mf*7fK-24mT_*N81k8q+yV7-`VCxHKAA-7n|gYSgz
zCj9wK@`CHfxOIi^!ohJvC%!`?L;Mfur^>%0MxLy7bFabKS&An>JWY&xNQf;CbSjD&
ze~Vo-o8Q4S<~qS`kHjelzuya>YEh3!;6^3U2i}IB2Rt0|5FWE9eZ{p;NW?h>tenm%
zz#%@@JLawdu)P4GU6fjLNx9psMuD3jSRC)A&q94Q_XneLok8Upjj12<SGvL{q2uL$
zU!Fi>&u1JR#!C4D2$w!O7PWsHvXy=y7^-`GKM(c&D<*?Iq?d>p+_Vy(giiUQGa+g(
zsz>y6ZUL^up*`IYCU4zUpre24L@*snJEX(C^NZ{3K-Vq2_xA*BpzL-T%?S=XrY4c3
znUJ#x{c<Nd3INzEU_n#u*P{|L|K>7w&&ByB#{rSt1Pr!VYrOqsM85Dqz<xMM)bsx-
zb#-F)UF_@rZ>-&I!PYs#7DpJO5<`B{(+yzd+ZG(65r>gXz(>;{V`>Rg1D7t|V$WuE
zf;W#iSR(?ky8&t}L%=#~lU5YaP`e5g_%*N1P`WblrE2l<%uK2Lo`4r<Cz^y)gShT~
zLRgXnBXiGVP^keW`3h2e8Ku_X;U>ZxSo+b--dnI&>+K*#@W>Fj@pR?_Jz-)4A3hvl
zx7m3>@sXqs#0!-=6mssxQ8G7f)uAv3Q=~l4vm;U2^(C<IHLrj)=P@sbXB(Wbkp%U#
z!>M^7A4TL=eL+(JC_-u?_<=cg_Xqa}v`pf0)pKAJgP_s3!ZXt0oRTUF+a2YNVOd*(
z_8~=GCoNjm>S4(b_AB-v*s9V9s2tVCYo&cZr1K3mW|d4$dWDej9o{RPrBXJmlE2Y)
z@Y~wC55wIX2C6_DoB}z>wVbHvBDSH!(n({Y_VeS5zd(ogZx&`>m$eHdwN~4&uyyi<
zKo=ZWoz2v%?Lvo2%b<p$#QBE-#-gO^7EEvrW@A3nyl&7Rp8QV*l&*v(en%<dpnd<{
zwIZ=LyDH4N+8d!63>?9rw|r#xQu$F9hgo;vmdn(mB`QNrN}6Ul{W+`HS}sr#E#p@$
zArMid1D(jk=OKU>=<64vF)T8_o1yybk-YA`$3J3@KOtd7SHdM3BN3Ieq2)u#lFE3P
zO(e*B0MsdFttE=41C0p4Ph8ea!+H#|#u!0n2Ukg5?tz?Fxh(7vUQR7aTl}7NnRsY&
zqrA+}2ZAJVCNOxLhl*UfTswEHF0`>24O29?iW0n#b+nGAeYWuj%mj8pA8(?CX)|K9
z<_BNXP)5rjl~iR7zoHq8=$|q0=>tB)X_CP6ly(V8E1n;uGXce|ejD6!e6ytyN1p8I
z-Bx*PA<$%5<3lOGa}@8I=)_?Bwv1Z+nC7!tj?$gRL_@hDV?EqU_rt}q2!=FbriNG5
z=J-(_w>XAcrSE3s)Agh!?H*)H(<RF3+c<J<*yNx|D-_))*}XCz$UdeXoDDdbpV%yn
zIUS(bU!xWnoSASUZ|!6-+d{g4w;63A5@juI#Z;f3z97i70BnRAb#CgfhY#3iJV?9e
z?_2(?OqFn20XQ~Sei28$9iw1Y=to{eNXF#Z`|H_f<1Q^V{f-;M96?z@yfrj}VO_xY
z>wU$t>ivXp7%lR?TQZchwTjUg%xyR&33$fIzja`abWYfK{in*JRtHAH{~Gb^tJ%e+
zoz-&~Iemn_fbNUM2Tx3l@P@HUXy%L2-4<FUD7)$}t6eT_3LgXM#dAJ6((I}Sayz3c
z1jVWF(}*2Bs%;u5xm{7uw0ke|tUKJZsCJXXYr*%0`?jr<UKmO!ZWR^cHVllca^`P=
z&IRS8N9+CRzNIJ{;YL}4IkE#(0HwO})^d9LI+<bUYgiF;jQr820z9HDcxspLXIkV4
zJT@r~a8};+4AoJ`idH4JdG6Yx`@nU33RG+E&hWah+$Wq&PXJBHy*2Y-O(M<k-3bWo
z%YQdp!QapX3b%>W>jRl+BJ%vK7a*WLNO_8+dWYu|0vAiJ9DSD6c?pU-b&I|%bNsYz
z?s}XPa*Rfb(2_QObaNmezUjPMnpN6@v)4dAT;a`p$rnxpr)qzP#ba>>ST}RH6t-Cd
zP^xwMIqA~0#EWIYQixKWvg)fM1e+SU)1jnfy!7Xy8XCC%y?u1G;Gp*aO;y@ww0eTP
z=i98_SRqA}gn6i+SoAhfm~b1o5wl06Gmw;!FMQn@Ge<~Yeb6Kb;dEtynZUG#<UU6W
z-k;={@NH-4U3Vz5X}TL;H`=nD*QvLOJo&RH|H)}^nnr$){C8;{p4%kv){4*Tjd8u1
z4nh}zTm`V73V)vUy;&!Ja#$ZJIAXaYoJPbL3?1LO1}R6eG-RDR->A&9Yfgxh({Ww8
zq<>LuZvi3)Qtr8VZ0Pk&ll!GIle+a4riTr-n18zQ7-?k6Q`-|OM)Xh*W=;-&0dCPP
zcvl<lwYK32NIA*V9{N!X?W}H6dmFE1u*eeAPP+7xKKwPn8Bup;#pz4OWB4GDqxM_-
zn*`x*$Ri@J?vBApBo8$4T4lc2JRC5r9)ybTuh<hB_Dxi+>NwdaApjQ254+0jB_?A}
zyfth1Mu0O*4JTC*7(b`*K|}lDGotTptzg7>Sf7^qHCt&!ubDc0$YU>k1u>)Zwf+PM
z8Cfezy^TSwJiF@tcUS+fxJ)rV@CN{3qhdLppS<CkuepgwNU?<wccOnEeNoFxi(C(1
z4%I*~O86e@G#hYjq!jo@T0P9To$IGQU6EKJtygMg(Kgi+28OgEsE4Z(K!yp7PuR7F
zdLar4vw3pkq?yoSV_pzZkjBv*r;h_o>q^P2gL>MuZPl?Z+loXXGzjD)W05JlhUyA~
z`WTo!Wb6v<ukpC?w4w`I;!oX8G~IawF~r;+ETkOe4^~T-SS`-Q2!2{*>*g!>qT!K4
ze>Zb#VBlF95MCpn-JI=K%tNs<itFEpvvc!4|Lt1!uO+?}ZVYOUrrbA?5tr~t!UUvW
zuGij`8i#-rZ96un4H(=AKC$f#mbT?r;14+YxD|03@PcAV{A7i{9OETkN%zOd#A0cg
zmTG{nib;eeag5l6EKI2*$t@JOnSf)6O+I6fT=YJ7tl+xf;Sh76z%O_5b;%;>@J7oA
zOc7`ex|GErw7VmEb#CP2p1<omt<DOO#gfU~c=H6)I;A{1S>~NsqCzpVQatX%+T;z}
zjCMuiOLe_AEZbr!85qbZ&Foz~0j-#BR{5*Kgh0H49q|meTGJfiSd|`EA&tJY<PUA0
z=C$%}So^v((BA>!I(-HCw9|dCBERT>vM5@XkA`QhNX9qPwGb_no$2UoSt08o%c~Mm
z(bG*R63zxG^ck4)7X5ORAJ;f3J&mlB<?<m|3(Rw}_=rh4*)<85J!0b2T8UokzZ$@N
zK*RDdGeflcp-4oi^FdxUL0+{%8A{T)>TJZV&l6a7s|)w^C>?~HaxT$C^CyQtR(I^V
z(knJ}A^2X?K~xNX;EGn%^imB^f_0LWFWIEx++^iW4*|7<M4ad~zU#kWMTFr3@Ybha
zjKn7Pl7GKHPOZ8SxYpA>;{1)<JWZ39Y+k#~9GTdt&+RaK6B)#9ohc~wNlFVV^NLK?
zLRp#XmEnW~{Ux>m!St3ZbkvY|aN$U{u_W1^P%3!M@`|A8IyLl>12+lN3VN3roCIvY
zj#anexy|qyTU~{`Y(tk8i;D!|sT7V$>_g*AE54($h-B5F)blrNI;gn*@K`~Di#pMN
z#nQNG+H!~WX-+d_ZkMzrgvF=PoKHGMHS?LL1yF?PD6=V?<md56Vc%*|W}UfCh1O(^
zWesFeNQ`PMTe&%MyK5mTSjcCq%;|gdWKJPTg7%{WgNuLl{ne)GgtTn4RwCvsk!;Nz
zUtBD94T=*h87=TrOYu&ZaNdV())qwJX7)81IW(zfVA1zCAg~X>B*tft&C}Ov@bUDu
z)(K@NB?S~8ME(;Tl~@;henH72#Qi$}c3e!h|7Qw`_9%gAHa}Wt$LEB*-hl!~)nCwl
zp7;|<SyoUdVWFwN3jf``l8Hi|FHL(k%DjZvjw8wHSrb@lt3>>rP)_q8j_X^Uc9}g$
zHLhGBQ;(r}W%6_^qdg%^mBAny4<iKwPlE52xwL|$6*6VN&^_fL9YI^CFk<F3|Kd7;
z4KaDsD=ega@oYmj3#oSd1hhCVb_3$&q&MYOT?=gG9s3A35+v=Q$O{>^aYsq($zPdn
z^uDJa8PQRb<8Wj41T-{kD>Mu9*w4$2x1AX0vcEcK!A0WaUYYGHO*`}%HleYeLSrZp
zI5Wi{(ARAs5e>_#QqO*NpFV)ub<+MW1E~Qaqm21Bvym)@ReXzaQHVW{?Ig`IUWojo
z!Ow}NU<q3r(w==%H%h%%=o#2<2qSSuW8c|oviQ_{jAD2zD?~9Q>pI*#6U)yS-6S?K
zy)6<;M|+&)d7K8;B2i=nVhNpRb~U3X+ku5Qs~j#gb39-#^Gr$}Wfx>fzKDogA0k0Z
z64XVAREP`cX!7GrRCyLVtZNX<#wO8FYCS7T8(?cT8X1(Nsv)`&6=F@-FB~WON}8or
z0X?n2p7^RrGt6MGlE<1L`E?+NTZb!`LZOyIp=n`(g!J<yu5SVl#$t#l)|4`|BZpqI
zn3axHpYBmA-E6rKA>979V8Oxj{|z)_qWz_)kzv`t3O~lML)^f;=l*EZuf*b{d9Do)
z5<mK^U)_KDH21t)0YR#;6Mc?+lz3XO9e9@ipNxVP;8TYF%msG2Z~q5gc<eFtK;rff
z9yPxLz!RtkfNO?;m&(QbFy0DOKPS)PLD3Ce8=?7jBA|1SfM62$C~Gtf(9^;F#+-=^
u49wp=T^vJ3)5&NK8O<T+Ib`_eihuQ|Q~vl1wy4cw00K`}KbLh*2~7Y|?TdW?

literal 0
HcmV?d00001

diff --git a/docs/design/debug_vllm_compile.md b/docs/design/debug_vllm_compile.md
new file mode 100644
index 0000000000000..3b454e851b54e
--- /dev/null
+++ b/docs/design/debug_vllm_compile.md
@@ -0,0 +1,239 @@
+# How to debug the vLLM-torch.compile integration
+
+TL;DR:
+
+- use tlparse to acquire torch.compile logs. Include these logs in bug reports and/or support asks.
+- The vLLM-torch.compile integration is multiple pieces. vLLM exposes flags to turn off each piece:
+
+| Online Flag | Offline Flag   |      Result |
+|----------|----------|-------------|
+| --enforce-eager | enforce_eager=True |  Turn off torch.compile and CUDAGraphs |
+| -O.mode=0 | mode=CompilationMode.NONE |  Turn off torch.compile only |
+| -O.cudagraph_mode=NONE | compilation_config=CompilationConfig(mode=CompilationMode.NONE) |  Turn off CUDAGraphs only |
+| -O.backend=eager | compilation_config=CompilationConfig(backend='eager') |  Turn off TorchInductor |
+
+## vLLM-torch.compile overview
+
+To improve performance, vLLM leverages torch.compile and CUDAGraphs to speed things up.
+torch.compile generates optimized kernels for PyTorch code while CUDAGraphs eliminates overhead.
+Most notably, vLLM-compile is NOT torch.compile, it is a custom compiler built using internal PyTorch Compile APIs.
+
+![vLLM-compile diagram](../assets/design/debug_vllm_compile/design_diagram.png)
+
+- Given a model, we do a full graph capture via TorchDynamo that is dynamic on the batch size (number of tokens)
+- vLLM then optionally splits and/or specializes this graph and then uses TorchInductor to compile each graph into a compiled artifact.
+This step may use vLLM custom Inductor passes to further optimize the graph.
+- The compiled artifact is saved to vLLM's compile cache so that it can be loaded in the future.
+- vLLM applies CUDAGraphs to reduce CPU overheads.
+
+Things can go wrong in each of the four steps. When something does go wrong, please try to isolate the subsystem
+that went wrong -- this will allow you to turn off the minimal number of things to keep reliability
+goals while minimizing impact to performance and also helps us (vLLM) when you open a bug report.
+
+For more details on the design, please see the following resources:
+
+- [Introduction to vLLM-torch.compile blogpost](https://blog.vllm.ai/2025/08/20/torch-compile.html)
+- [vLLM-torch.compile integration design](https://docs.vllm.ai/en/latest/design/torch_compile.html)
+- [vLLM Office Hours #26](https://www.youtube.com/live/xLyxc7hxCJc?si=Xulo9pe53C6ywf0V&t=561)
+- [Talk at PyTorch Conference 2025](https://youtu.be/1wV1ESbGrVQ?si=s1GqymUfwiwOrDTg&t=725)
+
+## Use tlparse
+
+Use [tlparse](https://github.com/meta-pytorch/tlparse) to acquire torch.compile logs. These logs show all stages of the compilation process,
+including the fused kernels that torch.compile produces.
+If you can, we recommend sending these or pieces of these along with any bug reports --
+they are very helpful.
+
+Install tlparse:
+
+```sh
+pip install tlparse
+```
+
+Usage (offline inference)
+
+```sh
+TORCH_TRACE=~/trace_dir python my_script.py
+tlparse ~/trace_dir/<the_first_log_file>
+```
+
+Usage (serving)
+
+```sh
+TORCH_TRACE=~/trace_dir vllm serve
+# ctrl-c out of the server
+tlparse ~/trace_dir/<the_first_log_file>
+```
+
+The `tlparse` command outputs some HTML files (perhaps into e.g. `./tl_out/index.html`).
+Open it to see the logs. It'll look something like the following:
+
+![tlparse example](../assets/design/debug_vllm_compile/tlparse_inductor.png)
+
+## Turn off vLLM-torch.compile integration
+
+Pass `--enforce-eager` to turn off the vLLM-torch.compile integration and run entirely
+in eager mode. This includes turning off CUDAGraphs.
+
+```sh
+# Online
+vllm serve --enforce-eager
+```
+
+```py
+# Offline
+LLM(model, enforce_eager=True)
+```
+
+To turn off just torch.compile, pass `mode = NONE` to the compilation config.
+(`-O` is short for `--compilation_config`):
+
+```sh
+# Online
+vllm serve -O.mode=0
+```
+
+```py
+# Offline
+from vllm.config.compilation import CompilationConfig, CompilationMode
+LLM(model, compilation_config=CompilationConfig(mode=CompilationMode.NONE))
+```
+
+To turn off just CUDAGraphs, pass `cudagraph_mode = NONE`:
+
+```sh
+# Online
+vllm serve -O.cudagraph_mode=NONE
+```
+
+```py
+# Offline
+from vllm.config.compilation import CompilationConfig, CUDAGraphMode
+LLM(model, compilation_config=CompilationConfig(cudagraph_mode=CUDAGraphMode.NONE))
+```
+
+## Debugging TorchDynamo
+
+vLLM requires model code be capturable into a full graph via TorchDynamo (torch.compile's frontend).
+TorchDynamo does not support all of Python. It will error (in fullgraph mode) if it cannot support
+a feature (this is sometimes known as a graph break).
+
+If you encounter a graph break, please [open an issue to pytorch/pytorch](https://github.com/pytorch/pytorch) so the PyTorch devs can prioritize.
+Then, try your best to rewrite the code to avoid the graph break.
+For more information, see this [Dynamo guide](https://docs.pytorch.org/docs/stable/compile/programming_model.dynamo_core_concepts.html).
+
+## Debugging Dynamic Shape full graph capture
+
+vLLM requires that the model's forward pass be capturable into a full graph that is dynamic
+on the batch size (i.e. the number of tokens). It (by default) compiles this one graph into
+one artifact and uses this artifact for all batch sizes.
+
+If your code cannot be captured with Dynamic Shapes, you may see silent incorrectness,
+loud errors, or CUDA illegal memory accesses. For example, the following is not
+capturable into a single graph:
+
+```py
+if data.size[0] % 128 == 0:
+    foo(...)
+else:
+    bar(...)
+```
+
+This problem is easy to diagnose. Use tlparse and click on `compilation_metrics`:
+it will tell you symbolic constraints on the batch size. If there is any constraint
+that restricts the batch sizes, then we've got a problem.
+
+![Bad tlparse example](../assets/design/debug_vllm_compile/dynamic_shapes.png)
+
+To avoid this, please either:
+
+1. avoid branching on the number of tokens
+2. wrap the branching logic into a custom operator. TorchDynamo does not
+trace into custom operators.
+
+## Debugging TorchInductor
+
+TorchInductor takes a captured graph and then compiles it down to some Python code
+that may call 1+ triton kernels. On rare (but unfortunate) occasions, it may
+produce an incorrect triton kernel. This may manifest as silent incorrectness,
+CUDA illegal memory accesses, or loud errors.
+
+To debug if TorchInductor is at fault, you can disable it by passing `backend='eager'`
+to the compilation config:
+
+```sh
+# online
+vllm serve -O.backend=eager
+```
+
+```py
+# offline
+LLM(compilation_config=CompilationConfig(backend='eager'))
+```
+
+If Inductor is at fault, [file a bug to PyTorch](https://github.com/pytorch/pytorch).
+If you're feeling adventurous, you can debug the triton kernels in the Inductor output code
+(that you can locate via using tlparse).
+
+![tlparse example](../assets/design/debug_vllm_compile/tlparse_inductor.png)
+
+You can also use `TORCH_LOGS=output_code <command>` to print the Inductor output code.
+
+### Editable TorchInductor code
+
+You can edit the TorchInductor code that gets run by setting `VLLM_COMPILE_CACHE_SAVE_FORMAT=unpacked`
+or passing `-O.compile_cache_save_format=unpacked`. The default is `binary`, which means it is not editable.
+
+This is a useful technique: you can put breakpoints (e.g. `torch.distributed.breakpoint()`)
+and print statements in the output code.
+
+## Debugging vLLM-compile cache
+
+vLLM built its own cache for torch.compile artifacts. The idea is that the artifacts
+can be compiled once and then reused after they have been compiled. This
+is a layer on top of [torch.compile's compiler cache](https://docs.pytorch.org/tutorials/recipes/torch_compile_caching_tutorial.html).
+
+While torch.compile's compiler cache is rock-stable, vLLM's compiler cache is unfortunately
+not always correct. You can disable it via setting `VLLM_DISABLE_COMPILE_CACHE=1`.
+
+You can also manually remove this cache.
+
+- Remove vLLM's compile cache with `rm -rf ~/.cache/vllm` (look at logs to see if the location changed)
+- Remove torch.compile's built-in caches with `rm -rf /tmp/torchinductor_$(whoami)`
+
+vLLM's cache is a mapping from cache key to a compiled artifact. vLLM computes
+the cache key via combining multiple factors (e.g. config flags and model name).
+If vLLM's compile cache is wrong, this usually means that a factor is missing.
+Please see [this example](https://github.com/vllm-project/vllm/blob/18b39828d90413d05d770dfd2e2f48304f4ca0eb/vllm/config/model.py#L310)
+of how vLLM computes part of the cache key.
+
+## Debugging CUDAGraphs
+
+CUDAGraphs is a feature that allows one to:
+
+- Capture a callable that launches 1+ CUDA kernels into a CUDAGraph
+- Replay the CUDAGraph
+
+The captured CUDAGraph contains all of the memory used during the capture process.
+The replay of the CUDAGraph reads and writes to exactly the same regions of memory.
+
+This leads to some restrictions:
+
+1. In order to use CUDAGraphs on new data, you'll need to copy the data into a buffer
+that the CUDAGraph is reading from
+2. CUDAGraphs only capture CUDA kernels, they don't capture work done on CPU.
+
+vLLM uses the raw CUDAGraphs API, which is unsafe when used incorrectly.
+
+To turn off just CUDAGraphs, pass `cudagraph_mode = NONE`:
+
+```sh
+# Online
+vllm serve -O.cudagraph_mode=NONE
+```
+
+```py
+# Offline
+from vllm.config.compilation import CompilationConfig, CUDAGraphMode
+LLM(model, compilation_config=CompilationConfig(cudagraph_mode=CUDAGraphMode.NONE))
+```

From e15601789be803c8e27a7806b1b6ec8924f20b03 Mon Sep 17 00:00:00 2001
From: Snehlata <sneh.lata@nutanix.com>
Date: Thu, 6 Nov 2025 03:15:29 +0530
Subject: [PATCH 169/976] [Feature]: Add corrupted request metric to V1 metrics
 system. (#27306)

Signed-off-by: atalhens <sneh.lata@nutanix.com>
---
 tests/v1/metrics/test_stats.py  |  3 ++-
 vllm/v1/core/sched/scheduler.py |  2 +-
 vllm/v1/engine/__init__.py      |  4 ++++
 vllm/v1/metrics/loggers.py      | 29 ++++++++++++++++++++++++-----
 vllm/v1/metrics/stats.py        | 22 ++++++++++++++++++++--
 vllm/v1/request.py              |  4 ----
 6 files changed, 51 insertions(+), 13 deletions(-)

diff --git a/tests/v1/metrics/test_stats.py b/tests/v1/metrics/test_stats.py
index 67a2d1739b6bb..b12e97a875f84 100644
--- a/tests/v1/metrics/test_stats.py
+++ b/tests/v1/metrics/test_stats.py
@@ -18,6 +18,7 @@ def test_iteration_stats_repr():
         "time_to_first_tokens_iter=[], "
         "inter_token_latencies_iter=[], "
         "waiting_lora_adapters={}, "
-        "running_lora_adapters={})"
+        "running_lora_adapters={}, "
+        "num_corrupted_reqs=0)"
     )
     assert repr(iteration_stats) == expected_repr
diff --git a/vllm/v1/core/sched/scheduler.py b/vllm/v1/core/sched/scheduler.py
index 97341c762b99d..f558306e3b2fb 100644
--- a/vllm/v1/core/sched/scheduler.py
+++ b/vllm/v1/core/sched/scheduler.py
@@ -1023,6 +1023,7 @@ class Scheduler(SchedulerInterface):
                         kv_transfer_params=kv_transfer_params,
                         trace_headers=request.trace_headers,
                         num_cached_tokens=request.num_cached_tokens,
+                        num_nans_in_logits=request.num_nans_in_logits,
                     )
                 )
             else:
@@ -1259,7 +1260,6 @@ class Scheduler(SchedulerInterface):
             prefix_cache_stats=prefix_cache_stats,
             connector_prefix_cache_stats=connector_prefix_cache_stats,
             spec_decoding_stats=spec_decoding_stats,
-            num_corrupted_reqs=sum(req.is_output_corrupted for req in self.running),
             kv_connector_stats=kv_connector_stats.data if kv_connector_stats else None,
         )
 
diff --git a/vllm/v1/engine/__init__.py b/vllm/v1/engine/__init__.py
index e2c1ed7b561c7..058a4bcaecb58 100644
--- a/vllm/v1/engine/__init__.py
+++ b/vllm/v1/engine/__init__.py
@@ -122,6 +122,10 @@ class EngineCoreOutput(
     # The number of tokens with prefix cache hits.
     num_cached_tokens: int = 0
 
+    # The number of NaNs in logits.
+    # A value greater than 0 indicates that the output is corrupted.
+    num_nans_in_logits: int = 0
+
     @property
     def finished(self) -> bool:
         return self.finish_reason is not None
diff --git a/vllm/v1/metrics/loggers.py b/vllm/v1/metrics/loggers.py
index e85f85bfb0aab..eb113c74a22a9 100644
--- a/vllm/v1/metrics/loggers.py
+++ b/vllm/v1/metrics/loggers.py
@@ -9,6 +9,7 @@ from typing import TypeAlias
 
 from prometheus_client import Counter, Gauge, Histogram
 
+import vllm.envs as envs
 from vllm.config import SupportsMetricsInfo, VllmConfig
 from vllm.distributed.kv_transfer.kv_connector.v1.metrics import (
     KVConnectorLogging,
@@ -116,11 +117,13 @@ class LoggingStatLogger(StatLoggerBase):
         # Tracked stats over current local logging interval.
         self.num_prompt_tokens: int = 0
         self.num_generation_tokens: int = 0
+        self.num_corrupted_reqs: int = 0
 
     def _track_iteration_stats(self, iteration_stats: IterationStats):
         # Save tracked stats for token counters.
         self.num_prompt_tokens += iteration_stats.num_prompt_tokens
         self.num_generation_tokens += iteration_stats.num_generation_tokens
+        self.num_corrupted_reqs += iteration_stats.num_corrupted_reqs
 
     def _get_throughput(self, tracked_stats: int, now: float) -> float:
         # Compute summary metrics for tracked stats
@@ -204,6 +207,10 @@ class LoggingStatLogger(StatLoggerBase):
             self.last_scheduler_stats.kv_cache_usage * 100,
             self.prefix_caching_metrics.hit_rate * 100,
         ]
+
+        if envs.VLLM_COMPUTE_NANS_IN_LOGITS:
+            log_parts.append("Corrupted: %d reqs")
+            log_args.append(self.num_corrupted_reqs)
         if not self.connector_prefix_caching_metrics.empty:
             log_parts.append("External prefix cache hit rate: %.1f%%")
             log_args.append(self.connector_prefix_caching_metrics.hit_rate * 100)
@@ -275,9 +282,6 @@ class AggregatedLoggingStatLogger(LoggingStatLogger, AggregateStatLoggerBase):
             self.last_scheduler_stats.num_running_reqs += (
                 last_scheduler_stats.num_running_reqs
             )
-            self.last_scheduler_stats.num_corrupted_reqs += (
-                last_scheduler_stats.num_corrupted_reqs
-            )
             self.last_scheduler_stats.kv_cache_usage += (
                 last_scheduler_stats.kv_cache_usage
             )
@@ -481,6 +485,19 @@ class PrometheusStatLogger(AggregateStatLoggerBase):
             gauge_kv_cache_usage, engine_indexes, model_name
         )
 
+        if envs.VLLM_COMPUTE_NANS_IN_LOGITS:
+            counter_corrupted_requests = self._counter_cls(
+                name="vllm:corrupted_requests",
+                documentation=(
+                    "Corrupted requests, in terms of total number of requests "
+                    "with NaNs in logits."
+                ),
+                labelnames=labelnames,
+            )
+            self.counter_corrupted_requests = make_per_engine(
+                counter_corrupted_requests, engine_indexes, model_name
+            )
+
         counter_prefix_cache_queries = self._counter_cls(
             name="vllm:prefix_cache_queries",
             documentation=(
@@ -933,7 +950,6 @@ class PrometheusStatLogger(AggregateStatLoggerBase):
             self.gauge_scheduler_waiting[engine_idx].set(
                 scheduler_stats.num_waiting_reqs
             )
-
             if self.show_hidden_metrics:
                 self.gauge_gpu_cache_usage[engine_idx].set(
                     scheduler_stats.kv_cache_usage
@@ -979,7 +995,10 @@ class PrometheusStatLogger(AggregateStatLoggerBase):
 
         if iteration_stats is None:
             return
-
+        if envs.VLLM_COMPUTE_NANS_IN_LOGITS:
+            self.counter_corrupted_requests[engine_idx].inc(
+                iteration_stats.num_corrupted_reqs
+            )
         self.counter_num_preempted_reqs[engine_idx].inc(
             iteration_stats.num_preempted_reqs
         )
diff --git a/vllm/v1/metrics/stats.py b/vllm/v1/metrics/stats.py
index 7868141d1b1da..c5f06a66e21e6 100644
--- a/vllm/v1/metrics/stats.py
+++ b/vllm/v1/metrics/stats.py
@@ -6,6 +6,7 @@ from collections import deque
 from dataclasses import dataclass, field
 from typing import TYPE_CHECKING, Any
 
+import vllm.envs as envs
 from vllm.v1.spec_decode.metrics import SpecDecodingStats
 
 if TYPE_CHECKING:
@@ -169,8 +170,6 @@ class SchedulerStats:
     spec_decoding_stats: SpecDecodingStats | None = None
     kv_connector_stats: dict[str, Any] | None = None
 
-    num_corrupted_reqs: int = 0
-
 
 @dataclass
 class LoRAStats:
@@ -196,6 +195,9 @@ class RequestStateStats:
     # first token latency
     first_token_latency: float = 0.0
 
+    # Track if this request is corrupted (NaNs in logits)
+    is_corrupted: bool = False
+
 
 @dataclass
 class FinishedRequestStats:
@@ -211,6 +213,7 @@ class FinishedRequestStats:
     inference_time: float = 0.0
     decode_time: float = 0.0
     mean_time_per_output_token: float = 0.0
+    is_corrupted: bool = False
 
 
 class IterationStats:
@@ -228,6 +231,7 @@ class IterationStats:
         self.inter_token_latencies_iter: list[float] = []
         self.waiting_lora_adapters: dict[str, int] = {}
         self.running_lora_adapters: dict[str, int] = {}
+        self.num_corrupted_reqs: int = 0
 
     def __repr__(self) -> str:
         field_to_value_str = ", ".join(f"{k}={v}" for k, v in vars(self).items())
@@ -258,6 +262,15 @@ class IterationStats:
 
         req_stats.num_generation_tokens += num_new_generation_tokens
 
+        # Track if this request is corrupted (only check once per request)
+        # Early exit if already marked as corrupted to avoid redundant checks
+        if (
+            envs.VLLM_COMPUTE_NANS_IN_LOGITS
+            and not req_stats.is_corrupted
+            and output.num_nans_in_logits > 0
+        ):
+            req_stats.is_corrupted = True
+
         # Process request-level engine core events
         if output.events is not None:
             self.update_from_events(
@@ -339,9 +352,14 @@ class IterationStats:
             inference_time=inference_time,
             decode_time=decode_time,
             mean_time_per_output_token=mean_time_per_output_token,
+            is_corrupted=req_stats.is_corrupted,
         )
         self.finished_requests.append(finished_req)
 
+        # Count corrupted requests when they finish (only once per request)
+        if req_stats.is_corrupted:
+            self.num_corrupted_reqs += 1
+
 
 class LoRARequestStates:
     """Per-LoRA request state stats."""
diff --git a/vllm/v1/request.py b/vllm/v1/request.py
index 864b0eb7fa410..7a5f1183ed48e 100644
--- a/vllm/v1/request.py
+++ b/vllm/v1/request.py
@@ -168,10 +168,6 @@ class Request:
     def use_structured_output(self) -> bool:
         return self.structured_output_request is not None
 
-    @property
-    def is_output_corrupted(self) -> bool:
-        return self.num_nans_in_logits > 0
-
     @property
     def num_tokens(self) -> int:
         return len(self._all_token_ids)

From 5ee93a5956e82a260b9944d2f0cf42f0f225204a Mon Sep 17 00:00:00 2001
From: Zhewen Li <zhewenli@meta.com>
Date: Wed, 5 Nov 2025 15:40:10 -0800
Subject: [PATCH 170/976] [CI/Build] Update checking logic in
 cutlass_group_gemm_supported  (#27948)

Signed-off-by: zhewenli <zhewenli@meta.com>
---
 vllm/_custom_ops.py | 6 +++++-
 1 file changed, 5 insertions(+), 1 deletion(-)

diff --git a/vllm/_custom_ops.py b/vllm/_custom_ops.py
index 657b11046809d..cfcf534c613f7 100644
--- a/vllm/_custom_ops.py
+++ b/vllm/_custom_ops.py
@@ -836,7 +836,11 @@ def cutlass_sparse_scaled_mm_supported(cuda_device_capability: int) -> bool:
 
 
 def cutlass_group_gemm_supported(cuda_device_capability: int) -> bool:
-    return torch.ops._C.cutlass_group_gemm_supported(cuda_device_capability)
+    try:
+        return torch.ops._C.cutlass_group_gemm_supported(cuda_device_capability)
+    except AttributeError:
+        # Return False on non-CUDA platforms where it is not available
+        return False
 
 
 def cutlass_sparse_compress(a: torch.Tensor) -> tuple[torch.Tensor, torch.Tensor]:

From 0b8e871e5ef2256d3e62a9a4cb111522c5c93372 Mon Sep 17 00:00:00 2001
From: Zhewen Li <zhewenli@meta.com>
Date: Wed, 5 Nov 2025 15:40:24 -0800
Subject: [PATCH 171/976] [CI/Build] Fix `test_defaults_with_usage_context` in
 AMD CI (#27926)

Signed-off-by: zhewenli <zhewenli@meta.com>
---
 tests/v1/engine/test_engine_args.py | 6 ++++--
 1 file changed, 4 insertions(+), 2 deletions(-)

diff --git a/tests/v1/engine/test_engine_args.py b/tests/v1/engine/test_engine_args.py
index cf632f1469893..e96759ed66a79 100644
--- a/tests/v1/engine/test_engine_args.py
+++ b/tests/v1/engine/test_engine_args.py
@@ -53,10 +53,12 @@ def test_defaults_with_usage_context():
     vllm_config: VllmConfig = engine_args.create_engine_config(UsageContext.LLM_CLASS)
 
     from vllm.platforms import current_platform
+    from vllm.utils.mem_constants import GiB_bytes
 
+    device_memory = current_platform.get_device_total_memory()
     device_name = current_platform.get_device_name().lower()
-    if "h100" in device_name or "h200" in device_name:
-        # For H100 and H200, we use larger default values.
+    if device_memory >= 70 * GiB_bytes and "a100" not in device_name:
+        # For GPUs like H100, H200, and MI300x with >= 70GB memory
         default_llm_tokens = 16384
         default_server_tokens = 8192
         default_max_num_seqs = 1024

From efe73e9b57574934d5d30b889d66ef54b1f16711 Mon Sep 17 00:00:00 2001
From: Kuntai Du <kuntai@uchicago.edu>
Date: Wed, 5 Nov 2025 16:12:00 -0800
Subject: [PATCH 172/976] [Core][Hybrid allocator + connector 2/n] Unify
 `remove_skipped_blocks` by `get_last_useful_token` (#25431)

Signed-off-by: KuntaiDu <kuntai@uchicago.edu>
---
 vllm/v1/core/single_type_kv_cache_manager.py | 186 +++++++++++--------
 1 file changed, 111 insertions(+), 75 deletions(-)

diff --git a/vllm/v1/core/single_type_kv_cache_manager.py b/vllm/v1/core/single_type_kv_cache_manager.py
index 8f14fb1894707..14ac83028ee44 100644
--- a/vllm/v1/core/single_type_kv_cache_manager.py
+++ b/vllm/v1/core/single_type_kv_cache_manager.py
@@ -243,18 +243,53 @@ class SingleTypeKVCacheManager(ABC):
 
         raise NotImplementedError
 
-    @abstractmethod
     def remove_skipped_blocks(self, request_id: str, num_computed_tokens: int) -> None:
         """
-        Remove the blocks that are no longer needed from `blocks` and free the
-        blocks. The removed blocks should be replaced by null_block.
-        Need to be customized for each attention type.
+        Remove and free the blocks that are no longer needed for attention computation.
+        The removed blocks should be replaced by null_block.
+
+        This function depends on `get_num_skipped_tokens`, which need to be implemented
+        differently for each attention type.
 
         Args:
             request_id: The request ID.
             num_computed_tokens: The number of tokens that have been computed.
         """
-        raise NotImplementedError
+        # Remove the blocks that will be skipped during attention computation.
+        num_skipped_tokens = self.get_num_skipped_tokens(num_computed_tokens)
+        if num_skipped_tokens <= 0:
+            # This indicates that ALL tokens are inside attention window.
+            # Thus we do not need to free any blocks outside attention window.
+            # A typical case is full attention that we never free any token
+            # before the request is finished.
+            return
+        num_skipped_blocks = num_skipped_tokens // self.block_size
+        blocks = self.req_to_blocks[request_id]
+        removed_blocks: list[KVCacheBlock] = []
+        # Because the block starts from index 0, the num_skipped_block-th block
+        # corresponds to index num_skipped_blocks - 1.
+        for i in range(num_skipped_blocks - 1, -1, -1):
+            if blocks[i] == self._null_block:
+                # If the block is already a null block, the blocks before it
+                # should also have been set to null blocks by the previous calls
+                # to this function.
+                break
+            removed_blocks.append(blocks[i])
+            blocks[i] = self._null_block
+        self.block_pool.free_blocks(removed_blocks)
+
+    def get_num_skipped_tokens(self, num_computed_tokens: int) -> int:
+        """
+        Get the number of tokens that will be skipped for attention computation.
+
+        Args:
+            num_computed_tokens: The number of tokens that have been computed.
+
+        Returns:
+            The number of tokens that will be skipped for attention computation.
+        """
+        # The default behavior is to not skip any tokens.
+        return 0
 
 
 class FullAttentionManager(SingleTypeKVCacheManager):
@@ -298,10 +333,6 @@ class FullAttentionManager(SingleTypeKVCacheManager):
                 computed.pop()
         return computed_blocks
 
-    def remove_skipped_blocks(self, request_id: str, num_computed_tokens: int) -> None:
-        # No need to remove blocks for full attention.
-        pass
-
     def get_num_common_prefix_blocks(self, running_request_id: str) -> int:
         blocks = self.req_to_blocks[running_request_id]
         num_common_blocks = 0
@@ -389,28 +420,33 @@ class SlidingWindowManager(SingleTypeKVCacheManager):
                 computed.pop()
         return computed_blocks
 
-    def remove_skipped_blocks(self, request_id: str, num_computed_tokens: int) -> None:
-        # Remove the blocks that are no longer be in the sliding window and
-        # skipped during the attention computation.
-        last_useful_token = num_computed_tokens - self.sliding_window + 1
-        last_useful_block = last_useful_token // self.block_size
-        if last_useful_block <= 0:
-            # Early return if tokens are not enough to fill the sliding window
-            return
-        blocks = self.req_to_blocks[request_id]
-        if blocks[last_useful_block - 1] == self._null_block:
-            # Early return if there are no blocks to remove
-            return
-        removed_blocks: list[KVCacheBlock] = []
-        for i in range(last_useful_block - 1, -1, -1):
-            if blocks[i] == self._null_block:
-                # If the block is already a null block, the blocks before it
-                # should also have been set to null blocks by the previous calls
-                # to this function.
-                break
-            removed_blocks.append(blocks[i])
-            blocks[i] = self._null_block
-        self.block_pool.free_blocks(removed_blocks)
+    def get_num_skipped_tokens(self, num_computed_tokens: int) -> int:
+        """
+        Get the number of tokens that will be skipped for attention computation.
+
+        For sliding window, this corresponds to the tokens that are prior to
+        the current sliding window.
+
+        Example:
+        sliding_window=4, num_computed_tokens=7
+
+        Tokens:   [ 0  1  2  3  4  5  6  7 ]
+                  | ---- computed -----|
+                                         ^ next token to be computed
+                               |-----------| sliding window for next token
+                  |--skipped---|
+
+        The current window contains tokens 4~7. Tokens 0~3 will be skipped for
+        attention computation since they are outside the sliding window.
+        Thus, get_num_skipped_tokens(7) == 4.
+
+        Args:
+            num_computed_tokens: The number of tokens that have been computed.
+
+        Returns:
+            The number of tokens that will be skipped for attention computation.
+        """
+        return num_computed_tokens - self.sliding_window + 1
 
     def get_num_common_prefix_blocks(self, running_request_id: str) -> int:
         """
@@ -511,40 +547,51 @@ class ChunkedLocalAttentionManager(SingleTypeKVCacheManager):
                 break
         return computed_blocks
 
-    def remove_skipped_blocks(self, request_id: str, num_computed_tokens: int) -> None:
-        # Remove the blocks that are no longer be in the chunked attention
-        # window and skipped during the attention computation.
+    def get_num_skipped_tokens(self, num_computed_tokens: int) -> int:
+        """
+        Get the number of tokens that will be skipped for attention computation.
 
-        # [chunk 0][chunk 1]local_attention_start_idx ... current
-        # we computed previous number of chunks to get the idx of
-        # current chunk window starting offset,
-        # e.g. for computed 1024 tokens, the 1024th token (0 indexed)
-        # is in the second chunk, there are 1 prev chunk, the start idx
-        # is 1024. for 1023, it will be 0.
-        num_cached_block = self.num_cached_block.get(request_id, 0)
-        local_attention_start_idx = (
-            (num_computed_tokens)
-            // self.attention_chunk_size
-            * self.attention_chunk_size
-        )
-        first_useful_block_idx = local_attention_start_idx // self.block_size
-        if num_cached_block > 0:
-            # Make sure we don't delete the last cached block
-            first_useful_block_idx = min(first_useful_block_idx, num_cached_block - 1)
-        # if block size = 128, 0 -> block 0, 1024 (= 128 * 8) ->
-        # block 8, 372 (= 128 * 2 + 116) -> block 2
-        blocks = self.req_to_blocks[request_id]
-        removed_blocks: list[KVCacheBlock] = []
-        # we need to keep the last block to get the previous hash key
-        for i in range(first_useful_block_idx - 1, -1, -1):
-            if blocks[i] == self._null_block:
-                # If the block is already a null block, the blocks before it
-                # should also have been set to null blocks by the previous calls
-                # to this function.
-                break
-            removed_blocks.append(blocks[i])
-            blocks[i] = self._null_block
-        self.block_pool.free_blocks(removed_blocks)
+        For chunked local attention, this corresponds to the tokens that are on
+        the left side of the current chunk.
+
+        Example 1:
+        chunk size = 8, num_computed_tokens = 13
+        Tokens:  [ 0 1 2 3 4 5 6 7 | 8 9 10 11 12 13 14 15 ] ...
+                 | ----- computed ---------------|
+                                                  ^^ next token to be computed
+                                   |----------------| <-- attention window for
+                                                          next token
+                 |--- skipped -----|
+        Output: get_num_skipped_tokens(13) == 8
+
+        Example 2:
+        chunk size = 8, num_computed_tokens = 8
+        Tokens:  [ 0 1 2 3 4 5 6 7 | 8 9 10 11 12 13 14 15 ] ...
+                 | --- computed ---|
+                                     ^ next token to be computed
+                                   |--| <-- attention window for next token
+                 | --- skipped ----|
+        Output: get_num_skipped_tokens(8) == 8
+
+        Example 3:
+        chunk size = 8, num_computed_tokens = 7
+        Tokens:  [ 0 1 2 3 4 5 6 7 | 8 9 10 11 12 13 14 15 ] ...
+                 |---computed---|
+                                 ^ next token to be computed
+                 |-----------------| <-- attention window for next token
+                 no token should be skipped.
+        Output: get_num_skipped_tokens(7) == 0
+
+        Args:
+            num_computed_tokens: The number of tokens that have been computed.
+
+        Returns:
+            The number of tokens that will be skipped for attention computation.
+        """
+        num_skipped_tokens = (
+            num_computed_tokens // self.attention_chunk_size
+        ) * self.attention_chunk_size
+        return num_skipped_tokens
 
     def get_num_common_prefix_blocks(self, running_request_id: str) -> int:
         """
@@ -590,12 +637,6 @@ class MambaManager(SingleTypeKVCacheManager):
 
         return computed_blocks
 
-    def remove_skipped_blocks(self, request_id: str, num_computed_tokens: int) -> None:
-        # Here unused blocks may be freed up for running requests.
-        # TODO(@s3woz) Free up all blocks that aren't needed by Mamba2
-        #  (for which find_longest_cache_hit returns block_pool.null_block)
-        pass
-
     def get_num_common_prefix_blocks(self, running_request_id: str) -> int:
         """
         cascade attention is not supported by mamba
@@ -676,11 +717,6 @@ class CrossAttentionManager(SingleTypeKVCacheManager):
         # Return empty blocks to indicate no cache hits
         raise NotImplementedError("CrossAttentionManager does not support caching")
 
-    def remove_skipped_blocks(self, request_id: str, num_computed_tokens: int) -> None:
-        # Cross-attention blocks represent encoder states which are needed
-        # for the entire decoding process, so no blocks should be skipped
-        pass
-
 
 spec_manager_map: dict[type[KVCacheSpec], type[SingleTypeKVCacheManager]] = {
     FullAttentionSpec: FullAttentionManager,

From 17676585599934fe3f6e1bff61185a313c5da2cd Mon Sep 17 00:00:00 2001
From: Dayeol Lee <dayeolee@gmail.com>
Date: Wed, 5 Nov 2025 16:52:52 -0800
Subject: [PATCH 173/976] [Debugging] Add annotation for easier trace analysis
 (#22496)

---
 vllm/v1/worker/gpu_worker.py | 22 +++++++++++++++++++---
 1 file changed, 19 insertions(+), 3 deletions(-)

diff --git a/vllm/v1/worker/gpu_worker.py b/vllm/v1/worker/gpu_worker.py
index 9178d929111c2..f13ff4e726bd4 100644
--- a/vllm/v1/worker/gpu_worker.py
+++ b/vllm/v1/worker/gpu_worker.py
@@ -509,6 +509,19 @@ class Worker(WorkerBase):
     def get_supported_tasks(self) -> tuple[SupportedTask, ...]:
         return self.model_runner.get_supported_tasks()
 
+    def annotate_profile(self, scheduler_output):
+        # add trace annotation so that we can easily distinguish
+        # new/cached request numbers in each iteration
+        if not self.profiler:
+            return nullcontext()
+
+        num_new = len(scheduler_output.scheduled_new_reqs)
+        num_cached = len(scheduler_output.scheduled_cached_reqs.req_ids)
+
+        return torch.profiler.record_function(
+            f"execute_new_{num_new}_cached_{num_cached}"
+        )
+
     @torch.inference_mode()
     def sample_tokens(
         self, grammar_output: "GrammarOutput | None"
@@ -536,9 +549,12 @@ class Worker(WorkerBase):
                 )
             )
 
-        output = self.model_runner.execute_model(scheduler_output, intermediate_tensors)
-        if isinstance(output, (ModelRunnerOutput, NoneType)):
-            return output
+        with self.annotate_profile(scheduler_output):
+            output = self.model_runner.execute_model(
+                scheduler_output, intermediate_tensors
+            )
+            if isinstance(output, (ModelRunnerOutput, NoneType)):
+                return output
 
         assert isinstance(output, IntermediateTensors)
         parallel_config = self.vllm_config.parallel_config

From b6a248bdd7bff91a15c4f2395762f8ce4c19c759 Mon Sep 17 00:00:00 2001
From: Vadim Gimpelson <156319763+vadiklyutiy@users.noreply.github.com>
Date: Thu, 6 Nov 2025 05:01:12 +0400
Subject: [PATCH 174/976] [PERF] Decouple projections from GDN custom op.
 Attempt 2 (#28083)

Signed-off-by: Vadim Gimpelson <vadim.gimpelson@gmail.com>
---
 vllm/config/compilation.py               |   2 +-
 vllm/model_executor/layers/layernorm.py  | 103 +++++++++++++++
 vllm/model_executor/models/qwen3_next.py | 153 +++++++++++++++--------
 3 files changed, 205 insertions(+), 53 deletions(-)

diff --git a/vllm/config/compilation.py b/vllm/config/compilation.py
index 00e8cbfd7319a..650104b62d3ff 100644
--- a/vllm/config/compilation.py
+++ b/vllm/config/compilation.py
@@ -462,7 +462,7 @@ class CompilationConfig:
         "vllm::short_conv",
         "vllm::linear_attention",
         "vllm::plamo2_mamba_mixer",
-        "vllm::gdn_attention",
+        "vllm::gdn_attention_core",
         "vllm::kda_attention",
         "vllm::sparse_attn_indexer",
     ]
diff --git a/vllm/model_executor/layers/layernorm.py b/vllm/model_executor/layers/layernorm.py
index 65432c0fb2d4b..a883ac81f41e4 100644
--- a/vllm/model_executor/layers/layernorm.py
+++ b/vllm/model_executor/layers/layernorm.py
@@ -369,6 +369,109 @@ class GemmaRMSNorm(CustomOp):
         return self.forward_native(x, residual)
 
 
+@CustomOp.register("rms_norm_gated")
+class RMSNormGated(CustomOp):
+    """RMS Normalization with optional gating.
+
+    This is a native PyTorch implementation that supports:
+    - Standard RMS normalization
+    - Group RMS normalization
+    - Optional gating with SiLU activation
+    """
+
+    def __init__(
+        self,
+        hidden_size: int,
+        eps: float = 1e-5,
+        group_size: int | None = None,
+        norm_before_gate: bool = False,
+        device: torch.device | None = None,
+        dtype: torch.dtype | None = None,
+    ):
+        """Initialize RMSNormGated.
+
+        Args:
+            hidden_size: Size of the hidden dimension
+            eps: Epsilon for numerical stability
+            group_size: If not None, do GroupNorm with each group
+                        having group_size elements.
+                        group_size=None is equivalent to group_size=hidden_size
+                        (i.e. there's only 1 group).
+            norm_before_gate: If True and z is provided: out = norm(x) * silu(z)
+                              If False and z is provided: out = norm(x * silu(z))
+            device: Device to create parameters on
+            dtype: Data type for parameters
+        """
+        factory_kwargs = {"device": device, "dtype": dtype}
+        super().__init__()
+        self.eps = eps
+        self.weight = nn.Parameter(torch.empty(hidden_size, **factory_kwargs))
+        self.register_parameter("bias", None)
+        self.group_size = group_size
+        self.norm_before_gate = norm_before_gate
+        self.reset_parameters()
+
+    def reset_parameters(self):
+        torch.nn.init.ones_(self.weight)
+
+    def forward_native(
+        self, x: torch.Tensor, z: torch.Tensor | None = None
+    ) -> torch.Tensor:
+        """
+        Native PyTorch implementation of RMS normalization with gating.
+
+        Args:
+            x: Input tensor
+            z: Optional gating tensor
+
+        Returns:
+            Normalized (and optionally gated) tensor
+
+        If z is not None:
+            - norm_before_gate=True: out = norm(x) * silu(z)
+            - norm_before_gate=False: out = norm(x * silu(z))
+        """
+        # Apply gating before normalization if needed
+        if z is not None and not self.norm_before_gate:
+            x = x * F.silu(z)
+
+        # RMS Normalization
+        if self.group_size is None:
+            # Standard RMS norm across the last dimension
+            variance = x.pow(2).mean(dim=-1, keepdim=True)
+            x_normed = x * torch.rsqrt(variance + self.eps)
+            out = x_normed * self.weight
+        else:
+            # Group RMS norm
+            from einops import rearrange
+
+            x_group = rearrange(x, "... (g d) -> ... g d", d=self.group_size)
+            variance = x_group.pow(2).mean(dim=-1, keepdim=True)
+            x_normed = x_group * torch.rsqrt(variance + self.eps)
+            out = rearrange(x_normed, "... g d -> ... (g d)") * self.weight
+
+        # Apply gating after normalization if needed
+        if z is not None and self.norm_before_gate:
+            out = out * F.silu(z)
+
+        return out
+
+    def forward_cuda(
+        self, x: torch.Tensor, z: torch.Tensor | None = None
+    ) -> torch.Tensor:
+        from vllm.model_executor.layers.fla.ops.layernorm_guard import rmsnorm_fn
+
+        return rmsnorm_fn(
+            x,
+            self.weight,
+            self.bias,
+            z=z,
+            eps=self.eps,
+            group_size=self.group_size,
+            norm_before_gate=self.norm_before_gate,
+        )
+
+
 class LayerNorm(nn.Module):
     """
     Layer Normalization.
diff --git a/vllm/model_executor/models/qwen3_next.py b/vllm/model_executor/models/qwen3_next.py
index 1dd67bb66d65b..b095c79dc954b 100644
--- a/vllm/model_executor/models/qwen3_next.py
+++ b/vllm/model_executor/models/qwen3_next.py
@@ -30,12 +30,14 @@ from vllm.distributed import (
 from vllm.forward_context import ForwardContext, get_forward_context
 from vllm.logger import init_logger
 from vllm.model_executor.layers.fla.ops import (
-    RMSNormGated,
     chunk_gated_delta_rule,
     fused_recurrent_gated_delta_rule,
 )
 from vllm.model_executor.layers.fused_moe import SharedFusedMoE
-from vllm.model_executor.layers.layernorm import GemmaRMSNorm as Qwen3NextRMSNorm
+from vllm.model_executor.layers.layernorm import (
+    GemmaRMSNorm as Qwen3NextRMSNorm,
+)
+from vllm.model_executor.layers.layernorm import RMSNormGated
 from vllm.model_executor.layers.linear import (
     ColumnParallelLinear,
     QKVParallelLinear,
@@ -436,17 +438,66 @@ class Qwen3NextGatedDeltaNet(nn.Module, MambaBase):
         hidden_states: torch.Tensor,
         output: torch.Tensor,
     ):
-        return torch.ops.vllm.gdn_attention(
-            hidden_states,
-            output,
+        """
+        Forward pass with three parts:
+        1. Input projection
+        2. Core attention (custom op)
+        3. Output projection
+        """
+        num_tokens = hidden_states.size(0)
+
+        # ============================================================
+        # Part 1: Input Projection
+        # ============================================================
+        projected_states_qkvz, _ = self.in_proj_qkvz(hidden_states)
+        projected_states_ba, _ = self.in_proj_ba(hidden_states)
+        query, key, value, z, b, a = self.fix_query_key_value_ordering(
+            projected_states_qkvz, projected_states_ba
+        )
+        query, key, value = map(
+            lambda x: rearrange(x, "l p d -> l (p d)"), (query, key, value)
+        )
+        mixed_qkv = torch.cat((query, key, value), dim=-1)
+
+        # ============================================================
+        # Part 2: Core Attention (Custom Op)
+        # ============================================================
+        core_attn_out = torch.zeros(
+            (num_tokens, self.num_v_heads // self.tp_size, self.head_v_dim),
+            dtype=hidden_states.dtype,
+            device=hidden_states.device,
+        )
+
+        torch.ops.vllm.gdn_attention_core(
+            mixed_qkv,
+            b,
+            a,
+            core_attn_out,
             self.prefix,
         )
 
-    def _forward(
+        # ============================================================
+        # Part 3: Output Projection
+        # ============================================================
+        z_shape_og = z.shape
+        # Reshape input data into 2D tensor
+        core_attn_out = core_attn_out.reshape(-1, core_attn_out.shape[-1])
+        z = z.reshape(-1, z.shape[-1])
+        core_attn_out = self.norm(core_attn_out, z)
+        core_attn_out = core_attn_out.reshape(z_shape_og)
+        core_attn_out = rearrange(core_attn_out, "... h d -> ... (h d)")
+        output[:num_tokens], _ = self.out_proj(core_attn_out)
+
+    def _forward_core(
         self,
-        hidden_states: torch.Tensor,
-        output: torch.Tensor,
+        mixed_qkv: torch.Tensor,
+        b: torch.Tensor,
+        a: torch.Tensor,
+        core_attn_out: torch.Tensor,
     ):
+        """
+        Core attention computation (called by custom op).
+        """
         forward_context = get_forward_context()
         attn_metadata: AttentionMetadata = forward_context.attn_metadata
 
@@ -471,18 +522,11 @@ class Qwen3NextGatedDeltaNet(nn.Module, MambaBase):
         num_actual_tokens = attn_metadata.num_actual_tokens
         num_accepted_tokens = attn_metadata.num_accepted_tokens
 
-        # 1. Set up dimensions for reshapes later
-        projected_states_qkvz, _ = self.in_proj_qkvz(hidden_states[:num_actual_tokens])
-        projected_states_ba, _ = self.in_proj_ba(hidden_states[:num_actual_tokens])
-        query, key, value, z, b, a = self.fix_query_key_value_ordering(
-            projected_states_qkvz, projected_states_ba
-        )
-        query, key, value = map(
-            lambda x: rearrange(x, "l p d -> l (p d)"), (query, key, value)
-        )
-        mixed_qkv = torch.cat((query, key, value), dim=-1)
+        mixed_qkv = mixed_qkv[:num_actual_tokens]
+        b = b[:num_actual_tokens]
+        a = a[:num_actual_tokens]
 
-        # 2. Convolution sequence transformation
+        # 1. Convolution sequence transformation
         conv_weights = self.conv1d.weight.view(
             self.conv1d.weight.size(0), self.conv1d.weight.size(2)
         )
@@ -498,7 +542,7 @@ class Qwen3NextGatedDeltaNet(nn.Module, MambaBase):
             mixed_qkv_spec = None
             mixed_qkv_non_spec = mixed_qkv
 
-        # 2.1: process the mutli-query part
+        # 1.1: Process the multi-query part
         if spec_sequence_masks is not None:
             mixed_qkv_spec = causal_conv1d_update(
                 mixed_qkv_spec,
@@ -515,7 +559,7 @@ class Qwen3NextGatedDeltaNet(nn.Module, MambaBase):
                 validate_data=False,
             )
 
-        # 2.2: process the remaining part
+        # 1.2: Process the remaining part
         if attn_metadata.num_prefills > 0:
             mixed_qkv_non_spec_T = mixed_qkv_non_spec.transpose(0, 1)
             # - "cache_indices" updates the conv_state cache in positions
@@ -570,9 +614,9 @@ class Qwen3NextGatedDeltaNet(nn.Module, MambaBase):
             g_non_spec = g
             beta_non_spec = beta
 
-        # 3. Recurrent attention
+        # 2. Recurrent attention
 
-        # 3.1: process the mutlti-query part
+        # 2.1: Process the multi-query part
         if spec_sequence_masks is not None:
             core_attn_out_spec, last_recurrent_state = fused_recurrent_gated_delta_rule(
                 q=query_spec,
@@ -590,7 +634,7 @@ class Qwen3NextGatedDeltaNet(nn.Module, MambaBase):
         else:
             core_attn_out_spec, last_recurrent_state = None, None
 
-        # 3.2: process the remaining part
+        # 2.2: Process the remaining part
         if attn_metadata.num_prefills > 0:
             initial_state = ssm_state[non_spec_state_indices_tensor].contiguous()
             initial_state[~has_initial_state, ...] = 0
@@ -633,30 +677,20 @@ class Qwen3NextGatedDeltaNet(nn.Module, MambaBase):
         else:
             core_attn_out_non_spec, last_recurrent_state = None, None
 
-        # Merge core attention output
+        # 3. Merge core attention output
         if spec_sequence_masks is not None and core_attn_out_non_spec is not None:
-            core_attn_out = torch.empty(
+            merged_out = torch.empty(
                 (1, num_actual_tokens, *core_attn_out_spec.shape[2:]),
                 dtype=core_attn_out_non_spec.dtype,
                 device=core_attn_out_non_spec.device,
             )
-            core_attn_out.index_copy_(1, spec_token_indx, core_attn_out_spec)
-            core_attn_out.index_copy_(1, non_spec_token_indx, core_attn_out_non_spec)
-
+            merged_out.index_copy_(1, spec_token_indx, core_attn_out_spec)
+            merged_out.index_copy_(1, non_spec_token_indx, core_attn_out_non_spec)
+            core_attn_out[:num_actual_tokens] = merged_out.squeeze(0)
         elif spec_sequence_masks is not None:
-            core_attn_out = core_attn_out_spec
+            core_attn_out[:num_actual_tokens] = core_attn_out_spec.squeeze(0)
         else:
-            core_attn_out = core_attn_out_non_spec
-
-        z_shape_og = z.shape
-        # reshape input data into 2D tensor
-        core_attn_out = core_attn_out.reshape(-1, core_attn_out.shape[-1])
-        z = z.reshape(-1, z.shape[-1])
-        core_attn_out = self.norm(core_attn_out, z)
-        core_attn_out = core_attn_out.reshape(z_shape_og)
-        core_attn_out = rearrange(core_attn_out, "... h d -> ... (h d)")
-
-        output[:num_actual_tokens], _ = self.out_proj(core_attn_out)
+            core_attn_out[:num_actual_tokens] = core_attn_out_non_spec.squeeze(0)
 
 
 class Qwen3NextAttention(nn.Module):
@@ -1260,29 +1294,44 @@ class Qwen3NextForCausalLM(
         return self.model.get_expert_mapping()
 
 
-def gdn_attention(
-    hidden_states: torch.Tensor,
-    output: torch.Tensor,
+def gdn_attention_core(
+    mixed_qkv: torch.Tensor,
+    b: torch.Tensor,
+    a: torch.Tensor,
+    core_attn_out: torch.Tensor,
     layer_name: str,
 ) -> None:
+    """
+    Custom op for the core attention computation.
+    Only handles the convolution + recurrent attention part.
+    Input/output projections are handled outside this op.
+    """
     forward_context: ForwardContext = get_forward_context()
     self = forward_context.no_compile_layers[layer_name]
-    self._forward(hidden_states=hidden_states, output=output)
+    self._forward_core(
+        mixed_qkv=mixed_qkv,
+        b=b,
+        a=a,
+        core_attn_out=core_attn_out,
+    )
 
 
-def gdn_attention_fake(
-    hidden_states: torch.Tensor,
-    output: torch.Tensor,
+def gdn_attention_core_fake(
+    mixed_qkv: torch.Tensor,
+    b: torch.Tensor,
+    a: torch.Tensor,
+    core_attn_out: torch.Tensor,
     layer_name: str,
 ) -> None:
+    """Fake implementation for torch.compile."""
     return
 
 
 direct_register_custom_op(
-    op_name="gdn_attention",
-    op_func=gdn_attention,
-    mutates_args=["output"],
-    fake_impl=gdn_attention_fake,
+    op_name="gdn_attention_core",
+    op_func=gdn_attention_core,
+    mutates_args=["core_attn_out"],
+    fake_impl=gdn_attention_core_fake,
 )
 
 
From d79d9f078079e4108ec9d28b261a8e002e763338 Mon Sep 17 00:00:00 2001
From: Wentao Ye <44945378+yewentao256@users.noreply.github.com>
Date: Wed, 5 Nov 2025 20:03:09 -0500
Subject: [PATCH 175/976] [Bug] Fix cpu disable shared_experts
 `VLLM_DISABLE_SHARED_EXPERTS_STREAM` (#28157)

Signed-off-by: yewentao256 <zhyanwentao@126.com>
---
 vllm/platforms/cpu.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/platforms/cpu.py b/vllm/platforms/cpu.py
index 4b9f4aef022d0..60a8e90cdc1ac 100644
--- a/vllm/platforms/cpu.py
+++ b/vllm/platforms/cpu.py
@@ -299,7 +299,7 @@ class CpuPlatform(Platform):
         os.environ["TORCHINDUCTOR_COMPILE_THREADS"] = "1"
 
         # Disable multi-stream for shared experts as no Stream on CPU
-        os.environ["VLLM_DISABLE_SHARED_EXPERTS_STREAM"] = "0"
+        os.environ["VLLM_DISABLE_SHARED_EXPERTS_STREAM"] = "1"
 
         # Intel OpenMP setting
         ld_preload_str = os.getenv("LD_PRELOAD", "")

From 90189c71a9629cf2c866b213d6d28b08937a7566 Mon Sep 17 00:00:00 2001
From: Wentao Ye <44945378+yewentao256@users.noreply.github.com>
Date: Wed, 5 Nov 2025 20:04:20 -0500
Subject: [PATCH 176/976] [Bug] Fix env string `"0"` same to `True` (#28159)

Signed-off-by: yewentao256 <zhyanwentao@126.com>
---
 vllm/envs.py | 10 ++++++----
 1 file changed, 6 insertions(+), 4 deletions(-)

diff --git a/vllm/envs.py b/vllm/envs.py
index dc919e7741969..99f2ad2bc3d00 100755
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -776,7 +776,7 @@ environment_variables: dict[str, Callable[[], Any]] = {
     # If set, the OpenAI API server will stay alive even after the underlying
     # AsyncLLMEngine errors and stops serving requests
     "VLLM_KEEP_ALIVE_ON_ENGINE_DEATH": lambda: bool(
-        os.getenv("VLLM_KEEP_ALIVE_ON_ENGINE_DEATH", 0)
+        int(os.getenv("VLLM_KEEP_ALIVE_ON_ENGINE_DEATH", "0"))
     ),
     # If the env var VLLM_ALLOW_LONG_MAX_MODEL_LEN is set, it allows
     # the user to specify a max sequence length greater than
@@ -1313,7 +1313,9 @@ environment_variables: dict[str, Callable[[], Any]] = {
     ),
     # If set, it means we pre-downloaded cubin files and flashinfer will
     # read the cubin files directly.
-    "VLLM_HAS_FLASHINFER_CUBIN": lambda: os.getenv("VLLM_HAS_FLASHINFER_CUBIN", False),
+    "VLLM_HAS_FLASHINFER_CUBIN": lambda: bool(
+        int(os.getenv("VLLM_HAS_FLASHINFER_CUBIN", "0"))
+    ),
     # Supported options:
     # - "flashinfer-cudnn": use flashinfer cudnn GEMM backend
     # - "flashinfer-trtllm": use flashinfer trtllm GEMM backend
@@ -1449,8 +1451,8 @@ environment_variables: dict[str, Callable[[], Any]] = {
     #                                      top 5 collected objects
     "VLLM_GC_DEBUG": lambda: os.getenv("VLLM_GC_DEBUG", ""),
     # Disables parallel execution of shared_experts via separate cuda stream
-    "VLLM_DISABLE_SHARED_EXPERTS_STREAM": lambda: os.getenv(
-        "VLLM_DISABLE_SHARED_EXPERTS_STREAM", False
+    "VLLM_DISABLE_SHARED_EXPERTS_STREAM": lambda: bool(
+        int(os.getenv("VLLM_DISABLE_SHARED_EXPERTS_STREAM", "0"))
     ),
     # Format for saving torch.compile cache artifacts
     # - "binary": saves as binary file

From d71af5f5020e0fee5375b3cf7898852abbae22f2 Mon Sep 17 00:00:00 2001
From: Wentao Ye <44945378+yewentao256@users.noreply.github.com>
Date: Wed, 5 Nov 2025 20:21:08 -0500
Subject: [PATCH 177/976] [Feature] Enable TP + EP `shared_experts` overlap
 with router, 3.7% E2E performance improvement (#28164)

Signed-off-by: yewentao256 <zhyanwentao@126.com>
---
 vllm/model_executor/layers/fused_moe/layer.py |  2 +-
 .../layers/fused_moe/shared_fused_moe.py      | 22 +++++++++++++------
 2 files changed, 16 insertions(+), 8 deletions(-)

diff --git a/vllm/model_executor/layers/fused_moe/layer.py b/vllm/model_executor/layers/fused_moe/layer.py
index 0a8c2f311f5c6..1236116386c97 100644
--- a/vllm/model_executor/layers/fused_moe/layer.py
+++ b/vllm/model_executor/layers/fused_moe/layer.py
@@ -1178,7 +1178,7 @@ class FusedMoE(CustomOp):
         hidden_size: Input hidden state size of the transformer
         intermediate_size: Intermediate size of the experts
         params_dtype: Data type for the parameters.
-        reduce_results: Whether to all all_reduce on the output of the layer
+        reduce_results: Whether to all_reduce on the output of the layer
         renormalize: Whether to renormalize the logits in the fused_moe kernel
         quant_config: Quantization configure.
         enable_eplb: Whether to enable expert parallelism load balancer.
diff --git a/vllm/model_executor/layers/fused_moe/shared_fused_moe.py b/vllm/model_executor/layers/fused_moe/shared_fused_moe.py
index 2db733b765cea..6b4a0b8cf0730 100644
--- a/vllm/model_executor/layers/fused_moe/shared_fused_moe.py
+++ b/vllm/model_executor/layers/fused_moe/shared_fused_moe.py
@@ -3,7 +3,10 @@
 
 import torch
 
-from vllm.distributed import tensor_model_parallel_all_reduce
+from vllm.distributed import (
+    get_tensor_model_parallel_world_size,
+    tensor_model_parallel_all_reduce,
+)
 from vllm.model_executor.layers.fused_moe.layer import FusedMoE
 
 
@@ -25,16 +28,13 @@ class SharedFusedMoE(FusedMoE):
         super().__init__(**kwargs)
         self._shared_experts = shared_experts
 
-        # Disable shared expert overlap if EP is disabled or we are not using
+        # Disable shared expert overlap if we are not using
         # flashinfer + DP since there is nothing to be gained in this case.
         # Disabling the overlap optimization also prevents the shared experts
         # from being hidden from torch.compile.
         self.use_overlapped = (
             use_overlapped
-            and not (
-                self.use_ep
-                or (self.use_flashinfer_cutlass_kernels and self.dp_size > 1)
-            )
+            and not (self.use_flashinfer_cutlass_kernels and self.dp_size > 1)
             and self._shared_experts is not None
         )
 
@@ -65,7 +65,7 @@ class SharedFusedMoE(FusedMoE):
                 # should have been created with reduce_results=False.
                 if (
                     self.reduce_results
-                    and self.tp_size > 1
+                    and get_tensor_model_parallel_world_size() > 1
                     and self.must_reduce_shared_expert_outputs()
                 ):
                     shared_out = tensor_model_parallel_all_reduce(shared_out)
@@ -81,4 +81,12 @@ class SharedFusedMoE(FusedMoE):
                 hidden_states=hidden_states,
                 router_logits=router_logits,
             )
+            # ensure early TP reduction of shared expert outputs when required
+            if (
+                shared_out is not None
+                and self.reduce_results
+                and get_tensor_model_parallel_world_size() > 1
+                and self.must_reduce_shared_expert_outputs()
+            ):
+                shared_out = tensor_model_parallel_all_reduce(shared_out)
         return shared_out, fused_out

From f948ab69458552b18925f82a8833c51d6f5b6f67 Mon Sep 17 00:00:00 2001
From: Vadim Gimpelson <156319763+vadiklyutiy@users.noreply.github.com>
Date: Thu, 6 Nov 2025 05:22:13 +0400
Subject: [PATCH 178/976] [CI Failure]
 `nm-testing/Qwen2-0.5B-Instruct-FP8-SkipQKV` was removed from HF. Skip it in
 tests (#28170)

Signed-off-by: Vadim Gimpelson <vadim.gimpelson@gmail.com>
---
 tests/quantization/test_fp8.py | 7 ++++++-
 1 file changed, 6 insertions(+), 1 deletion(-)

diff --git a/tests/quantization/test_fp8.py b/tests/quantization/test_fp8.py
index bb3572752d9e2..f02da2996ffea 100644
--- a/tests/quantization/test_fp8.py
+++ b/tests/quantization/test_fp8.py
@@ -18,7 +18,12 @@ from vllm.platforms import current_platform
 
 MODELS = [
     "neuralmagic/Meta-Llama-3-8B-Instruct-FP8-KV",
-    "nm-testing/Qwen2-0.5B-Instruct-FP8-SkipQKV",
+    # The checkpoint below was removed from the HF.
+    # TODO: add a small replacement checkpoint.
+    pytest.param(
+        "nm-testing/Qwen2-0.5B-Instruct-FP8-SkipQKV",
+        marks=pytest.mark.skip(reason="Checkpoint removed from HF."),
+    ),
 ]
 
 
From 07d614511f8b233650596a86b701faf0ad3a41a1 Mon Sep 17 00:00:00 2001
From: Chauncey <chaunceyjiang@gmail.com>
Date: Thu, 6 Nov 2025 10:07:47 +0800
Subject: [PATCH 179/976] [Misc] Remove the duplicate code (#28111)

Signed-off-by: chaunceyjiang <chaunceyjiang@gmail.com>
---
 vllm/entrypoints/openai/serving_responses.py | 5 -----
 1 file changed, 5 deletions(-)

diff --git a/vllm/entrypoints/openai/serving_responses.py b/vllm/entrypoints/openai/serving_responses.py
index 2ee8de5fba07a..dacf61dee111f 100644
--- a/vllm/entrypoints/openai/serving_responses.py
+++ b/vllm/entrypoints/openai/serving_responses.py
@@ -1000,11 +1000,6 @@ class OpenAIServingResponses(OpenAIServing):
                 # to add the tool call request to prev_outputs so that the
                 # parse_response_input can find the tool call request when
                 # parsing the tool call output.
-                if (
-                    isinstance(response_msg, dict)
-                    and response_msg.get("type") == "function_call"
-                ):
-                    response_msg = ResponseFunctionToolCall.model_validate(response_msg)
                 if isinstance(response_msg, ResponseFunctionToolCall):
                     prev_outputs.append(response_msg)
         return messages

From 43ecd0a900e45e0c594bb428f18b8f2b14434391 Mon Sep 17 00:00:00 2001
From: Isotr0py <mozf@mail2.sysu.edu.cn>
Date: Thu, 6 Nov 2025 11:46:30 +0800
Subject: [PATCH 180/976] [Chore] Clean up deepseek v2/v3 config copy (#28055)

Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>
---
 vllm/model_executor/models/deepseek.py        |   3 +-
 vllm/model_executor/models/deepseek_v2.py     |   3 +-
 vllm/model_executor/models/kimi_vl.py         |   3 +-
 vllm/transformers_utils/config.py             |  10 +-
 vllm/transformers_utils/configs/__init__.py   |   2 -
 .../transformers_utils/configs/deepseek_v3.py | 100 -----------------
 .../configs/deepseek_vl2.py                   | 102 +-----------------
 vllm/transformers_utils/configs/eagle.py      |  12 +--
 vllm/transformers_utils/configs/kimi_vl.py    |   2 +-
 9 files changed, 15 insertions(+), 222 deletions(-)
 delete mode 100644 vllm/transformers_utils/configs/deepseek_v3.py

diff --git a/vllm/model_executor/models/deepseek.py b/vllm/model_executor/models/deepseek.py
index ac934abea45df..adba874a2cd56 100644
--- a/vllm/model_executor/models/deepseek.py
+++ b/vllm/model_executor/models/deepseek.py
@@ -292,6 +292,7 @@ class DeepseekDecoderLayer(nn.Module):
         rope_theta = getattr(config, "rope_theta", 10000)
         rope_scaling = getattr(config, "rope_scaling", None)
         max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
+        moe_layer_freq = getattr(config, "moe_layer_freq", 1)
         self.self_attn = DeepseekAttention(
             hidden_size=self.hidden_size,
             num_heads=config.num_attention_heads,
@@ -306,7 +307,7 @@ class DeepseekDecoderLayer(nn.Module):
         if (
             config.n_routed_experts is not None
             and layer_idx >= config.first_k_dense_replace
-            and layer_idx % config.moe_layer_freq == 0
+            and layer_idx % moe_layer_freq == 0
         ):
             self.mlp = DeepseekMoE(
                 config=config, quant_config=quant_config, prefix=f"{prefix}.mlp"
diff --git a/vllm/model_executor/models/deepseek_v2.py b/vllm/model_executor/models/deepseek_v2.py
index a253cdffd9011..4858c30baab84 100644
--- a/vllm/model_executor/models/deepseek_v2.py
+++ b/vllm/model_executor/models/deepseek_v2.py
@@ -994,6 +994,7 @@ class DeepseekV2DecoderLayer(nn.Module):
         rope_theta = getattr(config, "rope_theta", 10000)
         rope_scaling = getattr(config, "rope_scaling", None)
         max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
+        moe_layer_freq = getattr(config, "moe_layer_freq", 1)
         # DecoderLayers are created with `make_layers` which passes the prefix
         # with the layer's index.
         layer_idx = int(prefix.split(sep=".")[-1])
@@ -1024,7 +1025,7 @@ class DeepseekV2DecoderLayer(nn.Module):
         if (
             config.n_routed_experts is not None
             and layer_idx >= config.first_k_dense_replace
-            and layer_idx % config.moe_layer_freq == 0
+            and layer_idx % moe_layer_freq == 0
         ):
             self.mlp = DeepseekV2MoE(
                 config=config,
diff --git a/vllm/model_executor/models/kimi_vl.py b/vllm/model_executor/models/kimi_vl.py
index c2630fa6ac2b6..b54f53931d714 100644
--- a/vllm/model_executor/models/kimi_vl.py
+++ b/vllm/model_executor/models/kimi_vl.py
@@ -50,7 +50,7 @@ from typing import Annotated, Any, Literal
 
 import torch
 from torch import nn
-from transformers import BatchFeature
+from transformers import BatchFeature, DeepseekV2Config
 from transformers.activations import GELUActivation
 
 from vllm.config import VllmConfig
@@ -91,7 +91,6 @@ from vllm.multimodal.processing import (
 from vllm.multimodal.profiling import BaseDummyInputsBuilder
 from vllm.sequence import IntermediateTensors
 from vllm.transformers_utils.configs import KimiVLConfig, MoonViTConfig
-from vllm.transformers_utils.configs.deepseek_vl2 import DeepseekV2Config
 from vllm.utils.tensor_schema import TensorSchema, TensorShape
 
 from .utils import PPMissingLayer, is_pp_missing_parameter, maybe_prefix
diff --git a/vllm/transformers_utils/config.py b/vllm/transformers_utils/config.py
index 771f16fe05106..14cae2b168e19 100644
--- a/vllm/transformers_utils/config.py
+++ b/vllm/transformers_utils/config.py
@@ -24,7 +24,7 @@ from huggingface_hub.utils import (
     RepositoryNotFoundError,
     RevisionNotFoundError,
 )
-from transformers import GenerationConfig, PretrainedConfig
+from transformers import DeepseekV3Config, GenerationConfig, PretrainedConfig
 from transformers.models.auto.image_processing_auto import get_image_processor_config
 from transformers.models.auto.modeling_auto import (
     MODEL_FOR_CAUSAL_LM_MAPPING_NAMES,
@@ -68,16 +68,18 @@ def _get_hf_token() -> str | None:
 
 class LazyConfigDict(dict):
     def __getitem__(self, key):
+        if isinstance(value := super().__getitem__(key), type):
+            return value
+
         import vllm.transformers_utils.configs as configs
 
-        return getattr(configs, super().__getitem__(key))
+        return getattr(configs, value)
 
 
 _CONFIG_REGISTRY: dict[str, type[PretrainedConfig]] = LazyConfigDict(
     chatglm="ChatGLMConfig",
     deepseek_vl_v2="DeepseekVLV2Config",
-    deepseek_v3="DeepseekV3Config",
-    deepseek_v32="DeepseekV3Config",
+    deepseek_v32=DeepseekV3Config,
     flex_olmo="FlexOlmoConfig",
     kimi_linear="KimiLinearConfig",
     kimi_vl="KimiVLConfig",
diff --git a/vllm/transformers_utils/configs/__init__.py b/vllm/transformers_utils/configs/__init__.py
index 405a2f6b23954..ac612b255143c 100644
--- a/vllm/transformers_utils/configs/__init__.py
+++ b/vllm/transformers_utils/configs/__init__.py
@@ -8,7 +8,6 @@ Model configs may be defined in this directory for the following reasons:
 """
 
 from vllm.transformers_utils.configs.chatglm import ChatGLMConfig
-from vllm.transformers_utils.configs.deepseek_v3 import DeepseekV3Config
 from vllm.transformers_utils.configs.deepseek_vl2 import DeepseekVLV2Config
 from vllm.transformers_utils.configs.dotsocr import DotsOCRConfig
 from vllm.transformers_utils.configs.eagle import EAGLEConfig
@@ -43,7 +42,6 @@ from vllm.transformers_utils.configs.ultravox import UltravoxConfig
 __all__ = [
     "ChatGLMConfig",
     "DeepseekVLV2Config",
-    "DeepseekV3Config",
     "DotsOCRConfig",
     "EAGLEConfig",
     "FlexOlmoConfig",
diff --git a/vllm/transformers_utils/configs/deepseek_v3.py b/vllm/transformers_utils/configs/deepseek_v3.py
deleted file mode 100644
index 91fbed79dd021..0000000000000
--- a/vllm/transformers_utils/configs/deepseek_v3.py
+++ /dev/null
@@ -1,100 +0,0 @@
-# SPDX-License-Identifier: Apache-2.0
-# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
-from transformers.configuration_utils import PretrainedConfig
-from transformers.utils import logging
-
-logger = logging.get_logger(__name__)
-
-
-class DeepseekV3Config(PretrainedConfig):
-    model_type = "deepseek_v3"
-    keys_to_ignore_at_inference = ["past_key_values"]
-
-    def __init__(
-        self,
-        vocab_size=129280,
-        hidden_size=7168,
-        intermediate_size=18432,
-        moe_intermediate_size=2048,
-        num_hidden_layers=61,
-        num_nextn_predict_layers=1,
-        num_attention_heads=128,
-        num_key_value_heads=128,
-        n_shared_experts=1,
-        n_routed_experts=256,
-        ep_size=1,
-        routed_scaling_factor=2.5,
-        kv_lora_rank=512,
-        q_lora_rank=1536,
-        qk_rope_head_dim=64,
-        v_head_dim=128,
-        qk_nope_head_dim=128,
-        topk_method="noaux_tc",
-        n_group=8,
-        topk_group=4,
-        num_experts_per_tok=8,
-        moe_layer_freq=1,
-        first_k_dense_replace=3,
-        norm_topk_prob=True,
-        scoring_func="sigmoid",
-        hidden_act="silu",
-        max_position_embeddings=4096,
-        initializer_range=0.02,
-        rms_norm_eps=1e-6,
-        use_cache=True,
-        pad_token_id=None,
-        bos_token_id=0,
-        eos_token_id=1,
-        tie_word_embeddings=False,
-        rope_theta=10000.0,
-        rope_scaling=None,
-        attention_bias=False,
-        attention_dropout=0.0,
-        **kwargs,
-    ):
-        self.vocab_size = vocab_size
-        self.max_position_embeddings = max_position_embeddings
-        self.hidden_size = hidden_size
-        self.intermediate_size = intermediate_size
-        self.moe_intermediate_size = moe_intermediate_size
-        self.num_hidden_layers = num_hidden_layers
-        self.num_nextn_predict_layers = num_nextn_predict_layers
-        self.num_attention_heads = num_attention_heads
-        self.n_shared_experts = n_shared_experts
-        self.n_routed_experts = n_routed_experts
-        self.ep_size = ep_size
-        self.routed_scaling_factor = routed_scaling_factor
-        self.kv_lora_rank = kv_lora_rank
-        self.q_lora_rank = q_lora_rank
-        self.qk_rope_head_dim = qk_rope_head_dim
-        self.v_head_dim = v_head_dim
-        self.qk_nope_head_dim = qk_nope_head_dim
-        self.topk_method = topk_method
-        self.n_group = n_group
-        self.topk_group = topk_group
-        self.num_experts_per_tok = num_experts_per_tok
-        self.moe_layer_freq = moe_layer_freq
-        self.first_k_dense_replace = first_k_dense_replace
-        self.norm_topk_prob = norm_topk_prob
-        self.scoring_func = scoring_func
-        # for backward compatibility
-        if num_key_value_heads is None:
-            num_key_value_heads = num_attention_heads
-
-        self.num_key_value_heads = num_key_value_heads
-        self.hidden_act = hidden_act
-        self.initializer_range = initializer_range
-        self.rms_norm_eps = rms_norm_eps
-        self.use_cache = use_cache
-        self.rope_theta = rope_theta
-        self.rope_scaling = rope_scaling
-        self.attention_bias = attention_bias
-        self.attention_dropout = attention_dropout
-
-        super().__init__(
-            pad_token_id=pad_token_id,
-            bos_token_id=bos_token_id,
-            eos_token_id=eos_token_id,
-            tie_word_embeddings=tie_word_embeddings,
-            **kwargs,
-        )
diff --git a/vllm/transformers_utils/configs/deepseek_vl2.py b/vllm/transformers_utils/configs/deepseek_vl2.py
index 23b913157d6db..8b02a4ddd4bc7 100644
--- a/vllm/transformers_utils/configs/deepseek_vl2.py
+++ b/vllm/transformers_utils/configs/deepseek_vl2.py
@@ -3,7 +3,7 @@
 
 # adapted from https://github.com/deepseek-ai/DeepSeek-VL2/blob/faf18023f24b962b32d9f0a2d89e402a8d383a78/deepseek_vl2/models/modeling_deepseek_vl_v2.py#L115-L268
 
-from transformers.configuration_utils import PretrainedConfig
+from transformers import DeepseekV2Config, PretrainedConfig
 
 
 class VisionEncoderConfig(PretrainedConfig):
@@ -87,106 +87,6 @@ class MlpProjectorConfig(PretrainedConfig):
         super().__init__(**kwargs)
 
 
-class DeepseekV2Config(PretrainedConfig):
-    model_type = "deepseek_v2"
-    keys_to_ignore_at_inference = ["past_key_values"]
-
-    def __init__(
-        self,
-        vocab_size=102400,
-        hidden_size=4096,
-        intermediate_size=11008,
-        moe_intermediate_size=1407,
-        num_hidden_layers=30,
-        num_attention_heads=32,
-        num_key_value_heads=32,
-        n_shared_experts=None,
-        n_routed_experts=None,
-        ep_size=1,
-        routed_scaling_factor=1.0,
-        kv_lora_rank=512,
-        q_lora_rank=1536,
-        qk_rope_head_dim=64,
-        v_head_dim=128,
-        qk_nope_head_dim=128,
-        topk_method="gready",
-        n_group=None,
-        topk_group=None,
-        num_experts_per_tok=None,
-        moe_layer_freq=1,
-        first_k_dense_replace=0,
-        norm_topk_prob=False,
-        scoring_func="softmax",
-        aux_loss_alpha=0.001,
-        seq_aux=True,
-        hidden_act="silu",
-        max_position_embeddings=2048,
-        initializer_range=0.02,
-        rms_norm_eps=1e-6,
-        use_cache=True,
-        pad_token_id=None,
-        bos_token_id=100000,
-        eos_token_id=100001,
-        pretraining_tp=1,
-        tie_word_embeddings=False,
-        rope_theta=10000.0,
-        rope_scaling=None,
-        attention_bias=False,
-        attention_dropout=0.0,
-        use_mla=True,
-        **kwargs,
-    ):
-        self.vocab_size = vocab_size
-        self.max_position_embeddings = max_position_embeddings
-        self.hidden_size = hidden_size
-        self.intermediate_size = intermediate_size
-        self.moe_intermediate_size = moe_intermediate_size
-        self.num_hidden_layers = num_hidden_layers
-        self.num_attention_heads = num_attention_heads
-        self.n_shared_experts = n_shared_experts
-        self.n_routed_experts = n_routed_experts
-        self.ep_size = ep_size
-        self.routed_scaling_factor = routed_scaling_factor
-        self.kv_lora_rank = kv_lora_rank
-        self.q_lora_rank = q_lora_rank
-        self.qk_rope_head_dim = qk_rope_head_dim
-        self.v_head_dim = v_head_dim
-        self.qk_nope_head_dim = qk_nope_head_dim
-        self.topk_method = topk_method
-        self.n_group = n_group
-        self.topk_group = topk_group
-        self.num_experts_per_tok = num_experts_per_tok
-        self.moe_layer_freq = moe_layer_freq
-        self.first_k_dense_replace = first_k_dense_replace
-        self.norm_topk_prob = norm_topk_prob
-        self.scoring_func = scoring_func
-        self.aux_loss_alpha = aux_loss_alpha
-        self.seq_aux = seq_aux
-        # for backward compatibility
-        if num_key_value_heads is None:
-            num_key_value_heads = num_attention_heads
-
-        self.num_key_value_heads = num_key_value_heads
-        self.hidden_act = hidden_act
-        self.initializer_range = initializer_range
-        self.rms_norm_eps = float(rms_norm_eps)
-        self.pretraining_tp = pretraining_tp
-        self.use_cache = use_cache
-        self.rope_theta = rope_theta
-        self.rope_scaling = rope_scaling
-        self.attention_bias = attention_bias
-        self.attention_dropout = attention_dropout
-        self.use_mla = use_mla
-
-        super().__init__(
-            pad_token_id=pad_token_id,
-            bos_token_id=bos_token_id,
-            eos_token_id=eos_token_id,
-            tie_word_embeddings=tie_word_embeddings,
-            **kwargs,
-        )
-
-
 class DeepseekVLV2Config(PretrainedConfig):
     model_type = "deepseek_vl_v2"
     vision_config: VisionEncoderConfig
diff --git a/vllm/transformers_utils/configs/eagle.py b/vllm/transformers_utils/configs/eagle.py
index 4da877f9e81f5..f5dc9ddfbc575 100644
--- a/vllm/transformers_utils/configs/eagle.py
+++ b/vllm/transformers_utils/configs/eagle.py
@@ -3,9 +3,7 @@
 
 import os
 
-from transformers import AutoConfig, PretrainedConfig
-
-from vllm.transformers_utils.configs.deepseek_vl2 import DeepseekV2Config
+from transformers import AutoConfig, DeepseekV2Config, PretrainedConfig
 
 
 class EAGLEConfig(PretrainedConfig):
@@ -20,13 +18,7 @@ class EAGLEConfig(PretrainedConfig):
     ):
         model_config: PretrainedConfig | DeepseekV2Config | None
         if isinstance(model, dict):
-            archs = model.get("architectures", [])
-            target_archs = ["DeepseekV2ForCausalLM", "DeepseekV3ForCausalLM"]
-            if any(target_arch in archs for target_arch in target_archs):
-                # AutoConfig does not support DeepSeek MoE models yet
-                model_config = DeepseekV2Config(**model)
-            else:
-                model_config = AutoConfig.for_model(**model)
+            model_config = AutoConfig.for_model(**model)
         else:
             model_config = model
 
diff --git a/vllm/transformers_utils/configs/kimi_vl.py b/vllm/transformers_utils/configs/kimi_vl.py
index e8c19d0ec2ffe..6d992464cbe81 100644
--- a/vllm/transformers_utils/configs/kimi_vl.py
+++ b/vllm/transformers_utils/configs/kimi_vl.py
@@ -2,9 +2,9 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 # Adapted from https://huggingface.co/moonshotai/Kimi-VL-A3B-Instruct/blob/main/configuration_kimi_vl.py
 
+from transformers import DeepseekV2Config
 from transformers.configuration_utils import PretrainedConfig
 
-from vllm.transformers_utils.configs.deepseek_vl2 import DeepseekV2Config
 from vllm.transformers_utils.configs.moonvit import MoonViTConfig
 
 
From 80679f108ffd94c165ea11adbc3afcc43f24a06e Mon Sep 17 00:00:00 2001
From: Lukas Geiger <lukas.geiger94@gmail.com>
Date: Thu, 6 Nov 2025 04:05:12 +0000
Subject: [PATCH 181/976] [Core][MM] Use non-blocking CPU-GPU copy of
 multimodal data (#28141)

Signed-off-by: Lukas Geiger <lukas.geiger94@gmail.com>
---
 vllm/multimodal/utils.py | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/vllm/multimodal/utils.py b/vllm/multimodal/utils.py
index 3fad11a2cb4da..aa61bcc11f9fa 100644
--- a/vllm/multimodal/utils.py
+++ b/vllm/multimodal/utils.py
@@ -444,7 +444,9 @@ def group_mm_kwargs_by_modality(
 
             if device is not None:
                 mm_kwargs_group = json_map_leaves(
-                    lambda x: x.to(device=device) if isinstance(x, torch.Tensor) else x,
+                    lambda x: x.to(device=device, non_blocking=True)
+                    if isinstance(x, torch.Tensor)
+                    else x,
                     mm_kwargs_group,
                 )
         else:

From d72299d47ba64e38f6876f3d5fc69ea70d13d718 Mon Sep 17 00:00:00 2001
From: Jacob Zhong <cmpute@qq.com>
Date: Thu, 6 Nov 2025 13:08:55 +0800
Subject: [PATCH 182/976] Make the cv2 dependency optional (#27780)

Signed-off-by: Jacob <cmpute@qq.com>
---
 vllm/benchmarks/datasets.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/vllm/benchmarks/datasets.py b/vllm/benchmarks/datasets.py
index b1aa8530eb026..1704130d9131d 100644
--- a/vllm/benchmarks/datasets.py
+++ b/vllm/benchmarks/datasets.py
@@ -30,7 +30,6 @@ from io import BytesIO
 from tempfile import NamedTemporaryFile
 from typing import Any, cast
 
-import cv2
 import numpy as np
 from PIL import Image
 from transformers import PreTrainedTokenizerBase
@@ -850,6 +849,8 @@ class RandomMultiModalDataset(RandomDataset):
         Creates a video with random pixel values, encodes it to MP4 format,
         and returns the content as bytes.
         """
+        import cv2
+
         random_pixels = self._rng.integers(
             0,
             256,

From bde5039325a0b60d7021d6945b5abad0d057c72a Mon Sep 17 00:00:00 2001
From: gmagogsfm <gmagogsfm@users.noreply.github.com>
Date: Wed, 5 Nov 2025 21:41:47 -0800
Subject: [PATCH 183/976] [CI] Add compile/test_multimodal_compile.py to CI
 (#28151)

Signed-off-by: Yanan Cao <gmagogsfm@gmail.com>
Co-authored-by: Isotr0py <mozf@mail2.sysu.edu.cn>
---
 .buildkite/test-pipeline.yaml            | 1 +
 tests/compile/test_multimodal_compile.py | 2 ++
 2 files changed, 3 insertions(+)

diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index 23830c4e0781f..10d1c33f816bc 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -460,6 +460,7 @@ steps:
   - tests/compile
   commands:
   - pytest -v -s compile/test_basic_correctness.py
+  - pytest -v -s compile/test_multimodal_compile.py
   - pytest -v -s compile/piecewise/
 
 - label: PyTorch Fullgraph Test # 22min
diff --git a/tests/compile/test_multimodal_compile.py b/tests/compile/test_multimodal_compile.py
index 6c195dd93f423..2727821162ecb 100644
--- a/tests/compile/test_multimodal_compile.py
+++ b/tests/compile/test_multimodal_compile.py
@@ -4,10 +4,12 @@ import pytest
 
 from vllm.compilation.counter import compilation_counter
 from vllm.config.compilation import CompilationMode
+from vllm.platforms import current_platform
 
 
 # forked needed to workaround https://github.com/vllm-project/vllm/issues/21073
 @pytest.mark.forked
+@pytest.mark.skipif(not current_platform.is_cuda(), reason="Skip if not cuda")
 def test_qwen2_5_vl_compilation(vllm_runner, monkeypatch):
     """Test that Qwen2.5-VL vision submodules are compiled.
 

From e31946f86eb7975bb1483cff04ea52ba9b5aa79c Mon Sep 17 00:00:00 2001
From: Xiaozhu Meng <mxz@meta.com>
Date: Wed, 5 Nov 2025 21:52:16 -0800
Subject: [PATCH 184/976] [flashinfer] fix FI all2all with FI cutlass moe
 (#28166)

Signed-off-by: Xiaozhu <mxz297@gmail.com>
---
 .../layers/fused_moe/flashinfer_cutlass_prepare_finalize.py   | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/vllm/model_executor/layers/fused_moe/flashinfer_cutlass_prepare_finalize.py b/vllm/model_executor/layers/fused_moe/flashinfer_cutlass_prepare_finalize.py
index 97ee20ae9a11f..bc9aab5208d9a 100644
--- a/vllm/model_executor/layers/fused_moe/flashinfer_cutlass_prepare_finalize.py
+++ b/vllm/model_executor/layers/fused_moe/flashinfer_cutlass_prepare_finalize.py
@@ -233,12 +233,13 @@ def flashinfer_alltoall_dispatch(
     max_num_token = (
         max(global_num_tokens_cpu) if global_num_tokens_cpu is not None else x.shape[0]
     )
+    orig_topk_weights_dtype = topk_weights.dtype
     alltoall_info, topk_ids, topk_weights, _ = (
         MnnvlMoe.mnnvl_moe_alltoallv_prepare_without_allgather(
             topk_ids,
             topk_weights,
             None,
-            all2all_manager.prepare_workspace,
+            all2all_manager.prepare_workspace_tensor,
             max_num_token,
             ep_rank,
             ep_size,
@@ -247,6 +248,7 @@ def flashinfer_alltoall_dispatch(
             top_k,
         )
     )
+    topk_weights = topk_weights.view(dtype=orig_topk_weights_dtype)
 
     x, x_sf = moe_kernel_quantize_input(
         x,

From a404e2c0f1bf100d28453a5a2ab7bd2a29d9aa31 Mon Sep 17 00:00:00 2001
From: Julien Denize <40604584+juliendenize@users.noreply.github.com>
Date: Thu, 6 Nov 2025 07:43:16 +0100
Subject: [PATCH 185/976] Patch Mistral Tokenizer (#28146)

Signed-off-by: Julien Denize <julien.denize@mistral.ai>
---
 tests/tokenization/test_mistral_tokenizer.py  | 29 ++++++++++-----
 vllm/transformers_utils/tokenizers/mistral.py | 35 +++++++++++--------
 2 files changed, 42 insertions(+), 22 deletions(-)

diff --git a/tests/tokenization/test_mistral_tokenizer.py b/tests/tokenization/test_mistral_tokenizer.py
index ebf107217c3cb..926ad2503398c 100644
--- a/tests/tokenization/test_mistral_tokenizer.py
+++ b/tests/tokenization/test_mistral_tokenizer.py
@@ -334,20 +334,20 @@ class TestMistralTokenizer:
 
     def test_encode(self, mistral_tokenizer: MistralTokenizer):
         token_ids = (
-            [1, 22177, 4304, 2662, 2]
+            [1, 22177, 4304, 2662]
             if mistral_tokenizer.is_tekken
-            else [1, 23325, 2294, 1686, 2]
+            else [1, 23325, 2294, 1686]
         )
 
-        assert mistral_tokenizer.encode("Hello world !") == token_ids[:-1]
-        assert mistral_tokenizer.encode("Hello world !", max_length=3) == token_ids[:-2]
+        assert mistral_tokenizer.encode("Hello world !") == token_ids
+        assert mistral_tokenizer.encode("Hello world !", max_length=3) == token_ids[:-1]
         assert (
             mistral_tokenizer.encode("Hello world !", truncation=True, max_length=3)
-            == token_ids[:-2]
+            == token_ids[:-1]
         )
         assert (
             mistral_tokenizer.encode("Hello world !", truncation=False, max_length=3)
-            == token_ids[:-1]
+            == token_ids
         )
 
         assert (
@@ -358,7 +358,7 @@ class TestMistralTokenizer:
             mistral_tokenizer.encode(
                 "Hello world !", add_special_tokens=True, max_length=3
             )
-            == token_ids[:-2]
+            == token_ids[:-1]
         )
         assert (
             mistral_tokenizer.encode(
@@ -368,7 +368,7 @@ class TestMistralTokenizer:
         )
         assert (
             mistral_tokenizer.encode("Hello world !", add_special_tokens=False)
-            == token_ids[1:-1]
+            == token_ids[1:]
         )
 
     @pytest.mark.parametrize(
@@ -1088,6 +1088,19 @@ class TestMistralTokenizer:
             == expected_tokens[mistral_tokenizer.is_tekken]
         )
 
+    def test_decode_int(
+        self,
+        mistral_tokenizer: MistralTokenizer,
+    ):
+        ids = 1
+        assert (
+            mistral_tokenizer.decode(
+                ids,
+                skip_special_tokens=False,
+            )
+            == "<s>"
+        )
+
     def test_convert_tokens_to_string(self, mistral_tokenizer: MistralTokenizer):
         tokens = (
             [
diff --git a/vllm/transformers_utils/tokenizers/mistral.py b/vllm/transformers_utils/tokenizers/mistral.py
index 7033523224c51..34433484fc14e 100644
--- a/vllm/transformers_utils/tokenizers/mistral.py
+++ b/vllm/transformers_utils/tokenizers/mistral.py
@@ -165,6 +165,7 @@ def _tekken_token_to_id(tokenizer: "Tekkenizer", t: str | bytes) -> int:
 
 class MistralTokenizer(TokenizerBase):
     def __init__(self, tokenizer: "TransformersMistralTokenizer") -> None:
+        from mistral_common.protocol.instruct.validator import ValidationMode
         from mistral_common.tokens.tokenizers.sentencepiece import (
             SentencePieceTokenizer,
         )
@@ -175,6 +176,14 @@ class MistralTokenizer(TokenizerBase):
         self.instruct = self.mistral.instruct_tokenizer
         self.tokenizer = self.instruct.tokenizer
 
+        mode = self.mistral._chat_completion_request_validator._mode
+        if mode != ValidationMode.test:
+            raise ValueError(
+                "Mistral tokenizer must be in test mode. Make sure to "
+                "set `mode='ValidationMode.test'` when creating the "
+                "Mistral tokenizer."
+            )
+
         _mistral_version_str = str(self.tokenizer.version.value)
         self.version: int = int(_mistral_version_str.split("v")[-1])
 
@@ -205,6 +214,7 @@ class MistralTokenizer(TokenizerBase):
     def from_pretrained(
         cls, path_or_repo_id: str, *, revision: str | None = None
     ) -> "MistralTokenizer":
+        from mistral_common.protocol.instruct.validator import ValidationMode
         from transformers.tokenization_mistral_common import (
             MistralCommonTokenizer as TransformersMistralTokenizer,
         )
@@ -212,7 +222,7 @@ class MistralTokenizer(TokenizerBase):
         str_revision = "main" if revision is None else revision
         return cls(
             TransformersMistralTokenizer.from_pretrained(
-                path_or_repo_id, revision=str_revision
+                path_or_repo_id, revision=str_revision, mode=ValidationMode.test
             )
         )
 
@@ -339,20 +349,14 @@ class MistralTokenizer(TokenizerBase):
         max_length: int | None = None,
         add_special_tokens: bool | None = None,
     ) -> list[int]:
-        if add_special_tokens is not None:
-            return self.transformers_tokenizer.encode(
-                text,
-                truncation=truncation,
-                max_length=max_length,
-                add_special_tokens=add_special_tokens,
-            )
-        else:
-            encoded = self.tokenizer.encode(text, bos=True, eos=False)
+        encoded = self.tokenizer.encode(
+            text, bos=add_special_tokens is not False, eos=False
+        )
 
-            if truncation is not False and max_length is not None:
-                return encoded[:max_length]
-            else:
-                return encoded
+        if truncation is not False and max_length is not None:
+            return encoded[:max_length]
+        else:
+            return encoded
 
     def apply_chat_template(
         self,
@@ -383,6 +387,9 @@ class MistralTokenizer(TokenizerBase):
         )
 
     def decode(self, ids: list[int] | int, skip_special_tokens: bool = True) -> str:
+        if isinstance(ids, int):
+            ids = [ids]
+
         return self.transformers_tokenizer.decode(
             ids, skip_special_tokens=skip_special_tokens
         )

From 201dc98acc5f9be105281e674b46c95ad68d9fe9 Mon Sep 17 00:00:00 2001
From: Seungduk Kim <seungduk.kim@yanolja.com>
Date: Thu, 6 Nov 2025 16:07:36 +0900
Subject: [PATCH 186/976] Fix hard-coded parameter name in gemma3n.py (#27946)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Signed-off-by: Seungduk Kim <seungduk.kim@yanolja.com>
Signed-off-by: Biswa Panda <biswa.panda@gmail.com>
Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
Co-authored-by: Biswa Panda <biswa.panda@gmail.com>
Co-authored-by: Nicolò Lucchesi <nlucches@redhat.com>
---
 vllm/model_executor/models/gemma3n.py | 21 ++++++++++++++++++++-
 1 file changed, 20 insertions(+), 1 deletion(-)

diff --git a/vllm/model_executor/models/gemma3n.py b/vllm/model_executor/models/gemma3n.py
index f7a732e3a601c..547884f393eb0 100644
--- a/vllm/model_executor/models/gemma3n.py
+++ b/vllm/model_executor/models/gemma3n.py
@@ -357,8 +357,27 @@ class Gemma3nAttention(nn.Module):
             offset = 2 if self.sliding_window is not None else 1
             kv_shared_layer_index = first_kv_shared_layer_idx - offset
             if kv_shared_layer_index >= 0:
+                # Different model wrappers expose layer parameters under
+                # different parent attributes.
+                # For example:
+                #   - Gemma3nForCausalLM → parameters live under "model.layers"
+                #   - Gemma3nForConditionalGeneration →
+                #     under "language_model.model.layers"
+                # This logic extracts the portion of the parameter name
+                # *before* ".layers."
+                # so downstream code can consistently reference the correct
+                # model root regardless of which wrapper class was used.
+                if ".layers." in prefix:
+                    param_name_before_layers = prefix.split(".layers.")[0]
+                else:
+                    raise ValueError(
+                        "Unexpected prefix format for Gemma3nAttention: "
+                        f"'{prefix}'. The prefix is expected to contain "
+                        "'.layers.' to correctly determine the KV sharing "
+                        "target layer."
+                    )
                 # Only the greater layer is required to specify sharing.
-                kv_sharing_target_layer_name = f"language_model.model.layers.{kv_shared_layer_index}.self_attn.attn"  # noqa: E501
+                kv_sharing_target_layer_name = f"{param_name_before_layers}.layers.{kv_shared_layer_index}.self_attn.attn"  # noqa: E501
 
         self.rotary_emb = get_rope(
             self.head_dim,

From 3755c14532ae7278ada06c02aa90aa92f70556fa Mon Sep 17 00:00:00 2001
From: Aditya Tewari <aditya.tewari@arm.com>
Date: Thu, 6 Nov 2025 07:32:05 +0000
Subject: [PATCH 187/976] [CPU] Enable torch profiling (#28130)

Signed-off-by: Aditya Tewari <aditya.tewari@arm.com>
---
 vllm/v1/worker/cpu_worker.py | 36 ++++++++++++++++++++++++++++++++++++
 1 file changed, 36 insertions(+)

diff --git a/vllm/v1/worker/cpu_worker.py b/vllm/v1/worker/cpu_worker.py
index 5b57df2d472c8..2b54228e0a4ee 100644
--- a/vllm/v1/worker/cpu_worker.py
+++ b/vllm/v1/worker/cpu_worker.py
@@ -37,6 +37,28 @@ class CPUWorker(Worker):
 
         self.parallel_config.disable_custom_all_reduce = True
 
+        if envs.VLLM_TORCH_PROFILER_DIR:
+            torch_profiler_trace_dir = envs.VLLM_TORCH_PROFILER_DIR
+            worker_name = f"{vllm_config.instance_id}-rank-{self.rank}"
+            logger.info(
+                "Profiling enabled. Traces will be saved to: %s",
+                torch_profiler_trace_dir,
+            )
+            self.profiler = torch.profiler.profile(
+                activities=[
+                    torch.profiler.ProfilerActivity.CPU,
+                ],
+                record_shapes=envs.VLLM_TORCH_PROFILER_RECORD_SHAPES,
+                profile_memory=envs.VLLM_TORCH_PROFILER_WITH_PROFILE_MEMORY,
+                with_stack=envs.VLLM_TORCH_PROFILER_WITH_STACK,
+                with_flops=envs.VLLM_TORCH_PROFILER_WITH_FLOPS,
+                on_trace_ready=torch.profiler.tensorboard_trace_handler(
+                    torch_profiler_trace_dir, worker_name=worker_name, use_gzip=False
+                ),
+            )
+        else:
+            self.profiler = None
+
     def init_device(self):
         # Setup OpenMP threads affinity.
         omp_cpuids = envs.VLLM_CPU_OMP_THREADS_BIND
@@ -166,3 +188,17 @@ class CPUWorker(Worker):
             [(x.id, x.physical_core) for x in logical_cpu_list],
         )
         return ",".join([str(x.id) for x in logical_cpu_list])
+
+    def profile(self, is_start: bool = True):
+        if self.profiler is None:
+            raise RuntimeError("Profiler is not enabled.")
+        if is_start:
+            self.profiler.start()
+        else:
+            self.profiler.stop()
+            if self.local_rank == 0:
+                logger.info(
+                    self.profiler.key_averages().table(
+                        sort_by="self_cpu_time_total", row_limit=50
+                    )
+                )

From c3ee80a01ae8fc2dc7fa5ea007d38221d6095f06 Mon Sep 17 00:00:00 2001
From: wangxiyuan <wangxiyuan1007@gmail.com>
Date: Thu, 6 Nov 2025 16:05:32 +0800
Subject: [PATCH 188/976] [V0 deprecation]clean up is_v1_supported_oracle
 (#28116)

Signed-off-by: wangxiyuan <wangxiyuan1007@gmail.com>
---
 tests/v1/test_oracle.py  |  50 +++----------------
 vllm/engine/arg_utils.py | 105 ++++++---------------------------------
 2 files changed, 21 insertions(+), 134 deletions(-)

diff --git a/tests/v1/test_oracle.py b/tests/v1/test_oracle.py
index 5d3bb924590ad..f989f0744166c 100644
--- a/tests/v1/test_oracle.py
+++ b/tests/v1/test_oracle.py
@@ -1,55 +1,17 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
-import os
-
 import pytest
 
-import vllm.envs as envs
-from vllm import LLM
 from vllm.engine.arg_utils import AsyncEngineArgs
 
 MODEL = "meta-llama/Llama-3.2-1B-Instruct"
 
 
-def test_reject_bad_config(monkeypatch):
-    with monkeypatch.context() as m:
-        m.setenv("VLLM_USE_V1", "0")
-
-
-def test_unsupported_configs(monkeypatch):
-    with monkeypatch.context() as m:
-        m.setenv("VLLM_USE_V1", "1")
-
-        with pytest.raises(NotImplementedError):
-            AsyncEngineArgs(
-                model=MODEL,
-                speculative_config={
-                    "model": MODEL,
-                },
-            ).create_engine_config()
-
-
-def test_enable_by_default_fallback(monkeypatch):
-    with monkeypatch.context() as m:
-        if os.getenv("VLLM_USE_V1", None):
-            m.delenv("VLLM_USE_V1")
-
-        # Should default to V1 for supported config.
-        _ = AsyncEngineArgs(
+def test_unsupported_configs():
+    with pytest.raises(NotImplementedError):
+        AsyncEngineArgs(
             model=MODEL,
-            enforce_eager=True,
+            speculative_config={
+                "model": MODEL,
+            },
         ).create_engine_config()
-        assert envs.VLLM_USE_V1
-        m.delenv("VLLM_USE_V1")
-
-
-def test_v1_llm_by_default(monkeypatch):
-    with monkeypatch.context() as m:
-        if os.getenv("VLLM_USE_V1", None):
-            m.delenv("VLLM_USE_V1")
-
-        # Should default to V1 for supported config.
-        llm = LLM(MODEL, enforce_eager=True, enable_lora=True)
-        print(llm.generate("Hello my name is"))
-        assert hasattr(llm.llm_engine, "engine_core")
-        m.delenv("VLLM_USE_V1")
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index e91482e73c795..fe48e4293c03d 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -1290,15 +1290,7 @@ class EngineArgs:
         """
         Create the VllmConfig.
 
-        NOTE: for autoselection of V0 vs V1 engine, we need to
-        create the ModelConfig first, since ModelConfig's attrs
-        (e.g. the model arch) are needed to make the decision.
-
-        This function set VLLM_USE_V1=X if VLLM_USE_V1 is
-        unspecified by the user.
-
-        If VLLM_USE_V1 is specified by the user but the VllmConfig
-        is incompatible, we raise an error.
+        NOTE: If VllmConfig is incompatible, we raise an error.
         """
         current_platform.pre_register_and_update()
 
@@ -1324,22 +1316,7 @@ class EngineArgs:
         self.model = model_config.model
         self.tokenizer = model_config.tokenizer
 
-        # * If VLLM_USE_V1 is unset, we enable V1 for "supported features"
-        #   and fall back to V0 for experimental or unsupported features.
-        # * If VLLM_USE_V1=1, we enable V1 for supported + experimental
-        #   features and raise error for unsupported features.
-        # * If VLLM_USE_V1=0, we disable V1.
-        use_v1 = False
-        try_v1 = envs.VLLM_USE_V1 or not envs.is_set("VLLM_USE_V1")
-        if try_v1 and self._is_v1_supported_oracle(model_config):
-            use_v1 = True
-
-        # If user explicitly set VLLM_USE_V1, sanity check we respect it.
-        if envs.is_set("VLLM_USE_V1"):
-            assert use_v1 == envs.VLLM_USE_V1
-        # Otherwise, set the VLLM_USE_V1 variable globally.
-        else:
-            envs.set_vllm_use_v1(use_v1)
+        self._check_feature_supported(model_config)
 
         # Set default arguments for V1 Engine.
         self._set_default_args(usage_context, model_config)
@@ -1708,17 +1685,10 @@ class EngineArgs:
 
         return config
 
-    def _is_v1_supported_oracle(self, model_config: ModelConfig) -> bool:
-        """Oracle for whether to use V0 or V1 Engine by default."""
-
-        #############################################################
-        # Unsupported Feature Flags on V1.
-
+    def _check_feature_supported(self, model_config: ModelConfig):
+        """Raise an error if the feature is not supported."""
         if self.logits_processor_pattern != EngineArgs.logits_processor_pattern:
-            _raise_or_fallback(
-                feature_name="--logits-processor-pattern", recommend_to_remove=False
-            )
-            return False
+            _raise_unsupported_error(feature_name="--logits-processor-pattern")
 
         # No Concurrent Partial Prefills so far.
         if (
@@ -1726,12 +1696,9 @@ class EngineArgs:
             or self.max_long_partial_prefills
             != SchedulerConfig.max_long_partial_prefills
         ):
-            _raise_or_fallback(
-                feature_name="Concurrent Partial Prefill", recommend_to_remove=False
-            )
-            return False
+            _raise_unsupported_error(feature_name="Concurrent Partial Prefill")
 
-        # V1 supports N-gram, Medusa, and Eagle speculative decoding.
+        # N-gram, Medusa, and Eagle are supported for speculative decoding.
         if self.speculative_config is not None:
             # speculative_config could still be a dict at this point
             if isinstance(self.speculative_config, dict):
@@ -1746,35 +1713,6 @@ class EngineArgs:
                     "such as ngram, medusa, eagle, or mtp."
                 )
 
-        V1_BACKENDS = [
-            "FLASH_ATTN",
-            "PALLAS",
-            "TRITON_ATTN",
-            "TRITON_MLA",
-            "CUTLASS_MLA",
-            "FLASHMLA",
-            "FLASH_ATTN_MLA",
-            "FLASHINFER",
-            "FLASHINFER_MLA",
-            "ROCM_AITER_MLA",
-            "TORCH_SDPA",
-            "FLEX_ATTENTION",
-            "TREE_ATTN",
-            "XFORMERS",
-            "ROCM_ATTN",
-            "ROCM_AITER_UNIFIED_ATTN",
-        ]
-        if (
-            envs.is_set("VLLM_ATTENTION_BACKEND")
-            and envs.VLLM_ATTENTION_BACKEND not in V1_BACKENDS
-        ):
-            name = f"VLLM_ATTENTION_BACKEND={envs.VLLM_ATTENTION_BACKEND}"
-            _raise_or_fallback(feature_name=name, recommend_to_remove=True)
-            return False
-
-        #############################################################
-        # Experimental Features - allow users to opt in.
-
         if self.pipeline_parallel_size > 1:
             supports_pp = getattr(
                 self.distributed_executor_backend, "supports_pp", False
@@ -1790,18 +1728,10 @@ class EngineArgs:
                     "executor or multiprocessing executor or external "
                     "launcher"
                 )
-                _raise_or_fallback(feature_name=name, recommend_to_remove=False)
-                return False
+                _raise_unsupported_error(feature_name=name)
 
         if current_platform.is_cpu() and model_config.get_sliding_window() is not None:
-            _raise_or_fallback(
-                feature_name="sliding window (CPU backend)", recommend_to_remove=False
-            )
-            return False
-
-        #############################################################
-
-        return True
+            _raise_unsupported_error(feature_name="sliding window (CPU backend)")
 
     def _set_default_args(
         self, usage_context: UsageContext, model_config: ModelConfig
@@ -2000,17 +1930,12 @@ class AsyncEngineArgs(EngineArgs):
         return parser
 
 
-def _raise_or_fallback(feature_name: str, recommend_to_remove: bool):
-    if envs.is_set("VLLM_USE_V1") and envs.VLLM_USE_V1:
-        raise NotImplementedError(
-            f"VLLM_USE_V1=1 is not supported with {feature_name}."
-        )
-    msg = f"{feature_name} is not supported by the V1 Engine. "
-    msg += "Falling back to V0. "
-    if recommend_to_remove:
-        msg += f"We recommend to remove {feature_name} from your config "
-        msg += "in favor of the V1 Engine."
-    logger.warning(msg)
+def _raise_unsupported_error(feature_name: str):
+    msg = (
+        f"{feature_name} is not supported. We recommend to "
+        f"remove {feature_name} from your config."
+    )
+    raise NotImplementedError(msg)
 
 
 def human_readable_int(value):

From 981cadb35c199c3c018474fd5a3d05bfa387610f Mon Sep 17 00:00:00 2001
From: courage17340 <courage17340@users.noreply.github.com>
Date: Thu, 6 Nov 2025 17:52:13 +0800
Subject: [PATCH 189/976] [Bugfix][Kernel] fix merge attn states when both
 prefix and suffix are empty (#28181)

Signed-off-by: courage17340 <courage17340@163.com>
---
 csrc/attention/merge_attn_states.cu | 26 ++++++++++++++++++++++++++
 1 file changed, 26 insertions(+)

diff --git a/csrc/attention/merge_attn_states.cu b/csrc/attention/merge_attn_states.cu
index 6bee9e4ce1166..229d9862fb670 100644
--- a/csrc/attention/merge_attn_states.cu
+++ b/csrc/attention/merge_attn_states.cu
@@ -46,6 +46,32 @@ __global__ void merge_attn_states_kernel(
   s_lse = std::isinf(s_lse) ? -std::numeric_limits<float>::infinity() : s_lse;
 
   const float max_lse = fmaxf(p_lse, s_lse);
+
+  /* In certain edge cases, MLA can produce p_lse = s_lse = -inf;
+     continuing the pipeline then yields NaN. Root cause: with chunked prefill
+     a batch may be split into two chunks; if a request in that batch has no
+     prefix hit, every LSE entry for that request’s position is -inf, and at
+     this moment we merge cross-attention at first. For now we simply emit
+     prefix_output (expected to be all zeros) and prefix_lse (-inf) to fix
+     this problem.
+  */
+  if (std::isinf(max_lse)) {
+    if (pack_offset < head_size) {
+      // Pack 128b load
+      pack_128b_t p_out_pack = reinterpret_cast<const pack_128b_t*>(
+          prefix_head_ptr)[pack_offset / pack_size];
+
+      // Pack 128b storage
+      reinterpret_cast<pack_128b_t*>(output_head_ptr)[pack_offset / pack_size] =
+          p_out_pack;
+    }
+    // We only need to write to output_lse once per head.
+    if (output_lse != nullptr && pack_idx == 0) {
+      output_lse[head_idx * num_tokens + token_idx] = max_lse;
+    }
+    return;
+  }
+
   p_lse = p_lse - max_lse;
   s_lse = s_lse - max_lse;
   const float p_se = expf(p_lse);

From 59a50afa084dbd26b8a4f58b960ce337af6a4667 Mon Sep 17 00:00:00 2001
From: Chauncey <chaunceyjiang@gmail.com>
Date: Thu, 6 Nov 2025 18:40:03 +0800
Subject: [PATCH 190/976] [Frontend] OpenAI Responses API supports
 Tool/Function calling - non-harmony  (#26874)

Signed-off-by: chaunceyjiang <chaunceyjiang@gmail.com>
---
 .../openai_responses_client_with_tools.py     |  83 ++++++++
 .../__init__.py                               |   0
 .../conftest.py                               |   7 +-
 .../test_basic.py                             |   0
 .../serving_responses/test_function_call.py   | 198 ++++++++++++++++++
 .../test_image.py                             |   0
 .../test_stateful.py                          |   0
 .../test_structured_output.py                 |   0
 vllm/entrypoints/openai/serving_engine.py     |  12 +-
 vllm/entrypoints/openai/serving_responses.py  |  65 ++++--
 .../tool_parsers/abstract_tool_parser.py      |  24 ++-
 vllm/entrypoints/responses_utils.py           |  45 ++++
 12 files changed, 404 insertions(+), 30 deletions(-)
 create mode 100644 examples/online_serving/openai_responses_client_with_tools.py
 rename tests/v1/entrypoints/openai/{responses => serving_responses}/__init__.py (100%)
 rename tests/v1/entrypoints/openai/{responses => serving_responses}/conftest.py (84%)
 rename tests/v1/entrypoints/openai/{responses => serving_responses}/test_basic.py (100%)
 create mode 100644 tests/v1/entrypoints/openai/serving_responses/test_function_call.py
 rename tests/v1/entrypoints/openai/{responses => serving_responses}/test_image.py (100%)
 rename tests/v1/entrypoints/openai/{responses => serving_responses}/test_stateful.py (100%)
 rename tests/v1/entrypoints/openai/{responses => serving_responses}/test_structured_output.py (100%)
 create mode 100644 vllm/entrypoints/responses_utils.py

diff --git a/examples/online_serving/openai_responses_client_with_tools.py b/examples/online_serving/openai_responses_client_with_tools.py
new file mode 100644
index 0000000000000..276010197b5ab
--- /dev/null
+++ b/examples/online_serving/openai_responses_client_with_tools.py
@@ -0,0 +1,83 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+Set up this example by starting a vLLM OpenAI-compatible server with tool call
+options enabled.
+Reasoning models can be used through the Responses API as seen here 
+https://platform.openai.com/docs/api-reference/responses
+For example:
+vllm serve Qwen/Qwen3-1.7B --reasoning-parser qwen3 \
+      --structured-outputs-config.backend xgrammar \
+      --enable-auto-tool-choice --tool-call-parser hermes
+"""
+
+import json
+
+from openai import OpenAI
+from utils import get_first_model
+
+
+def get_weather(latitude: float, longitude: float) -> str:
+    """
+    Mock function to simulate getting weather data.
+    In a real application, this would call an external weather API.
+    """
+    return f"Current temperature at ({latitude}, {longitude}) is 20°C."
+
+
+tools = [
+    {
+        "type": "function",
+        "name": "get_weather",
+        "description": "Get current temperature for provided coordinates in celsius.",
+        "parameters": {
+            "type": "object",
+            "properties": {
+                "latitude": {"type": "number"},
+                "longitude": {"type": "number"},
+            },
+            "required": ["latitude", "longitude"],
+            "additionalProperties": False,
+        },
+        "strict": True,
+    }
+]
+
+input_messages = [
+    {"role": "user", "content": "What's the weather like in Paris today?"}
+]
+
+
+def main():
+    base_url = "http://0.0.0.0:8000/v1"
+    client = OpenAI(base_url=base_url, api_key="empty")
+    model = get_first_model(client)
+    response = client.responses.create(
+        model=model, input=input_messages, tools=tools, tool_choice="required"
+    )
+
+    for out in response.output:
+        if out.type == "function_call":
+            print("Function call:", out.name, out.arguments)
+            tool_call = out
+    args = json.loads(tool_call.arguments)
+    result = get_weather(args["latitude"], args["longitude"])
+
+    input_messages.append(tool_call)  # append model's function call message
+    input_messages.append(
+        {  # append result message
+            "type": "function_call_output",
+            "call_id": tool_call.call_id,
+            "output": str(result),
+        }
+    )
+    response_2 = client.responses.create(
+        model=model,
+        input=input_messages,
+        tools=tools,
+    )
+    print(response_2.output_text)
+
+
+if __name__ == "__main__":
+    main()
diff --git a/tests/v1/entrypoints/openai/responses/__init__.py b/tests/v1/entrypoints/openai/serving_responses/__init__.py
similarity index 100%
rename from tests/v1/entrypoints/openai/responses/__init__.py
rename to tests/v1/entrypoints/openai/serving_responses/__init__.py
diff --git a/tests/v1/entrypoints/openai/responses/conftest.py b/tests/v1/entrypoints/openai/serving_responses/conftest.py
similarity index 84%
rename from tests/v1/entrypoints/openai/responses/conftest.py
rename to tests/v1/entrypoints/openai/serving_responses/conftest.py
index 032ed42f43d1b..8081e5fa1d837 100644
--- a/tests/v1/entrypoints/openai/responses/conftest.py
+++ b/tests/v1/entrypoints/openai/serving_responses/conftest.py
@@ -15,8 +15,13 @@ def default_server_args():
         "--max-model-len",
         "8192",
         "--enforce-eager",  # For faster startup.
+        "--enable-auto-tool-choice",
+        "--structured-outputs-config.backend",
+        "xgrammar",
+        "--tool-call-parser",
+        "hermes",
         "--reasoning-parser",
-        "deepseek_r1",
+        "qwen3",
     ]
 
 
diff --git a/tests/v1/entrypoints/openai/responses/test_basic.py b/tests/v1/entrypoints/openai/serving_responses/test_basic.py
similarity index 100%
rename from tests/v1/entrypoints/openai/responses/test_basic.py
rename to tests/v1/entrypoints/openai/serving_responses/test_basic.py
diff --git a/tests/v1/entrypoints/openai/serving_responses/test_function_call.py b/tests/v1/entrypoints/openai/serving_responses/test_function_call.py
new file mode 100644
index 0000000000000..cf57956a9dea7
--- /dev/null
+++ b/tests/v1/entrypoints/openai/serving_responses/test_function_call.py
@@ -0,0 +1,198 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import json
+
+import openai  # use the official client for correctness check
+import pytest
+
+MODEL_NAME = "Qwen/Qwen3-1.7B"
+tools = [
+    {
+        "type": "function",
+        "name": "get_current_weather",
+        "description": "Get the current weather in a given location",
+        "parameters": {
+            "type": "object",
+            "properties": {
+                "city": {
+                    "type": "string",
+                    "description": "The city to find the weather for, e.g. 'Vienna'",
+                    "default": "Vienna",
+                },
+                "country": {
+                    "type": "string",
+                    "description": "The country that the city is in, e.g. 'Austria'",
+                },
+                "unit": {
+                    "type": "string",
+                    "description": "The unit to fetch the temperature in",
+                    "enum": ["celsius", "fahrenheit"],
+                },
+                "options": {
+                    "$ref": "#/$defs/WeatherOptions",
+                    "description": "Optional parameters for weather query",
+                },
+            },
+            "required": ["country", "unit"],
+            "$defs": {
+                "WeatherOptions": {
+                    "title": "WeatherOptions",
+                    "type": "object",
+                    "additionalProperties": False,
+                    "properties": {
+                        "unit": {
+                            "type": "string",
+                            "enum": ["celsius", "fahrenheit"],
+                            "default": "celsius",
+                            "description": "Temperature unit",
+                            "title": "Temperature Unit",
+                        },
+                        "include_forecast": {
+                            "type": "boolean",
+                            "default": False,
+                            "description": "Whether to include a 24-hour forecast",
+                            "title": "Include Forecast",
+                        },
+                        "language": {
+                            "type": "string",
+                            "default": "zh-CN",
+                            "description": "Language of the response",
+                            "title": "Language",
+                            "enum": ["zh-CN", "en-US", "ja-JP"],
+                        },
+                    },
+                },
+            },
+        },
+    },
+    {
+        "type": "function",
+        "name": "get_forecast",
+        "description": "Get the weather forecast for a given location",
+        "parameters": {
+            "type": "object",
+            "properties": {
+                "city": {
+                    "type": "string",
+                    "description": "The city to get the forecast for, e.g. 'Vienna'",
+                    "default": "Vienna",
+                },
+                "country": {
+                    "type": "string",
+                    "description": "The country that the city is in, e.g. 'Austria'",
+                },
+                "days": {
+                    "type": "integer",
+                    "description": "Number of days to get the forecast for (1-7)",
+                },
+                "unit": {
+                    "type": "string",
+                    "description": "The unit to fetch the temperature in",
+                    "enum": ["celsius", "fahrenheit"],
+                },
+            },
+            "required": ["country", "days", "unit"],
+        },
+    },
+]
+
+
+@pytest.mark.asyncio
+@pytest.mark.parametrize("model_name", [MODEL_NAME])
+@pytest.mark.parametrize("tool_choice", ["auto", "required"])
+async def test_function_tool_use(
+    client: openai.AsyncOpenAI, model_name: str, tool_choice: str
+):
+    prompt = [
+        {
+            "role": "user",
+            "content": "Can you tell me what the current weather is in Berlin and the "
+            "forecast for the next 5 days, in fahrenheit?",
+        },
+    ]
+    response = await client.responses.create(
+        model=model_name,
+        input=prompt,
+        tools=tools,
+        tool_choice=tool_choice,
+    )
+
+    assert len(response.output) >= 1
+    tool_call = None
+    reasoning = None
+    for out in response.output:
+        if out.type == "function_call":
+            tool_call = out
+        if out.type == "reasoning":
+            reasoning = out
+    assert tool_call is not None
+    assert tool_call.type == "function_call"
+    assert json.loads(tool_call.arguments) is not None
+    assert reasoning is not None
+    assert reasoning.type == "reasoning"
+
+
+@pytest.mark.asyncio
+async def test_named_tool_use(client: openai.AsyncOpenAI):
+    def get_weather(latitude: float, longitude: float) -> str:
+        """
+        Mock function to simulate getting weather data.
+        In a real application, this would call an external weather API.
+        """
+        return f"Current temperature at ({latitude}, {longitude}) is 20°C."
+
+    tools = [
+        {
+            "type": "function",
+            "name": "get_weather",
+            "description": (
+                "Get current temperature for provided coordinates in celsius."
+            ),
+            "parameters": {
+                "type": "object",
+                "properties": {
+                    "latitude": {"type": "number"},
+                    "longitude": {"type": "number"},
+                },
+                "required": ["latitude", "longitude"],
+                "additionalProperties": False,
+            },
+            "strict": True,
+        }
+    ]
+
+    input_messages = [
+        {"role": "user", "content": "What's the weather like in Paris today?"}
+    ]
+
+    response = await client.responses.create(
+        model=MODEL_NAME,
+        input=input_messages,
+        tools=tools,
+        tool_choice={"type": "function", "name": "get_weather"},
+    )
+    assert len(response.output) >= 1
+    for out in response.output:
+        if out.type == "function_call":
+            tool_call = out
+    assert tool_call is not None
+    assert tool_call.type == "function_call"
+    assert tool_call.name == "get_weather"
+    args = json.loads(tool_call.arguments)
+    assert args["latitude"] is not None
+    assert args["longitude"] is not None
+    # call the tool
+    result = get_weather(args["latitude"], args["longitude"])
+    input_messages.append(tool_call)  # append model's function call message
+    input_messages.append(
+        {  # append result message
+            "type": "function_call_output",
+            "call_id": tool_call.call_id,
+            "output": str(result),
+        }
+    )
+    # create a new response with the tool call result
+    response_2 = await client.responses.create(model=MODEL_NAME, input=input_messages)
+    # check the output
+    assert len(response_2.output_text) > 0
diff --git a/tests/v1/entrypoints/openai/responses/test_image.py b/tests/v1/entrypoints/openai/serving_responses/test_image.py
similarity index 100%
rename from tests/v1/entrypoints/openai/responses/test_image.py
rename to tests/v1/entrypoints/openai/serving_responses/test_image.py
diff --git a/tests/v1/entrypoints/openai/responses/test_stateful.py b/tests/v1/entrypoints/openai/serving_responses/test_stateful.py
similarity index 100%
rename from tests/v1/entrypoints/openai/responses/test_stateful.py
rename to tests/v1/entrypoints/openai/serving_responses/test_stateful.py
diff --git a/tests/v1/entrypoints/openai/responses/test_structured_output.py b/tests/v1/entrypoints/openai/serving_responses/test_structured_output.py
similarity index 100%
rename from tests/v1/entrypoints/openai/responses/test_structured_output.py
rename to tests/v1/entrypoints/openai/serving_responses/test_structured_output.py
diff --git a/vllm/entrypoints/openai/serving_engine.py b/vllm/entrypoints/openai/serving_engine.py
index bafc0e2c372f7..8ce4ff574699d 100644
--- a/vllm/entrypoints/openai/serving_engine.py
+++ b/vllm/entrypoints/openai/serving_engine.py
@@ -1098,13 +1098,13 @@ class OpenAIServing:
         )
 
         if should_parse_tools:
-            if not isinstance(request, ChatCompletionRequest):
-                msg = "Tool usage is only supported for Chat Completions API"
+            if not isinstance(request, ChatCompletionRequest | ResponsesRequest):
+                msg = (
+                    "Tool usage is only supported for Chat Completions API "
+                    "or Responses API requests."
+                )
                 raise NotImplementedError(msg)
-
-            request = tool_parser(tokenizer).adjust_request(  # type: ignore
-                request=request
-            )
+            request = tool_parser(tokenizer).adjust_request(request=request)  # type: ignore
 
         if tokenizer is None:
             assert isinstance(request_prompt, str), (
diff --git a/vllm/entrypoints/openai/serving_responses.py b/vllm/entrypoints/openai/serving_responses.py
index dacf61dee111f..b6fef7d2fafd2 100644
--- a/vllm/entrypoints/openai/serving_responses.py
+++ b/vllm/entrypoints/openai/serving_responses.py
@@ -94,6 +94,7 @@ from vllm.entrypoints.openai.protocol import (
 )
 from vllm.entrypoints.openai.serving_engine import OpenAIServing
 from vllm.entrypoints.openai.serving_models import OpenAIServingModels
+from vllm.entrypoints.responses_utils import construct_chat_message_with_tool_call
 from vllm.entrypoints.tool_server import ToolServer
 from vllm.inputs.data import TokensPrompt as EngineTokensPrompt
 from vllm.logger import init_logger
@@ -196,16 +197,12 @@ class OpenAIServingResponses(OpenAIServing):
             self.default_sampling_params["stop_token_ids"].extend(
                 get_stop_tokens_for_assistant_actions()
             )
-
+        self.enable_auto_tools = enable_auto_tools
         # set up tool use
-        self.enable_auto_tools: bool = enable_auto_tools
-        if self.enable_auto_tools:
-            logger.info(
-                '"auto" tool choice has been enabled please note that while'
-                " the parallel_tool_calls client option is preset for "
-                "compatibility reasons, it will be ignored."
-            )
-
+        self.tool_parser = self._get_tool_parser(
+            tool_parser_name=tool_parser, enable_auto_tools=enable_auto_tools
+        )
+        self.exclude_tools_when_tool_choice_none = False
         # HACK(woosuk): This is a hack. We should use a better store.
         # FIXME: If enable_store=True, this may cause a memory leak since we
         # never remove responses from the store.
@@ -511,16 +508,20 @@ class OpenAIServingResponses(OpenAIServing):
         prev_response: ResponsesResponse | None,
         tokenizer: AnyTokenizer,
     ):
-        if len(request.tools) > 0:
-            raise NotImplementedError(
-                "Tool use is not supported in Responses API without Harmony"
-            )
+        if request.tools is None or (
+            request.tool_choice == "none" and self.exclude_tools_when_tool_choice_none
+        ):
+            tool_dicts = None
+        else:
+            tool_dicts = [tool.model_dump() for tool in request.tools]
         # Construct the input messages.
         messages = self._construct_input_messages(request, prev_response)
         _, request_prompts, engine_prompts = await self._preprocess_chat(
             request,
             tokenizer,
             messages,
+            tool_dicts=tool_dicts,
+            tool_parser=self.tool_parser,
             chat_template=self.chat_template,
             chat_template_content_format=self.chat_template_content_format,
         )
@@ -802,7 +803,8 @@ class OpenAIServingResponses(OpenAIServing):
                     delta=False,
                 )
 
-        output = []
+        reasoning_item = None
+        message_item = None
         if reasoning_content:
             reasoning_item = ResponseReasoningItem(
                 id=f"rs_{random_uuid()}",
@@ -815,7 +817,13 @@ class OpenAIServingResponses(OpenAIServing):
                 ],
                 status=None,  # NOTE: Only the last output item has status.
             )
-            output.append(reasoning_item)
+        tool_calls, content = self._parse_tool_calls_from_content(
+            request=request,
+            tokenizer=tokenizer,
+            content=content,
+            enable_auto_tools=self.enable_auto_tools,
+            tool_parser_cls=self.tool_parser,
+        )
         if content:
             output_text = ResponseOutputText(
                 text=content,
@@ -832,15 +840,33 @@ class OpenAIServingResponses(OpenAIServing):
                     else None
                 ),
             )
-            message = ResponseOutputMessage(
+            message_item = ResponseOutputMessage(
                 id=f"msg_{random_uuid()}",
                 content=[output_text],
                 role="assistant",
                 status="completed",
                 type="message",
             )
-            output.append(message)
-        return output
+        outputs = []
+
+        if reasoning_item:
+            outputs.append(reasoning_item)
+        if message_item:
+            outputs.append(message_item)
+        if tool_calls:
+            tool_call_items = [
+                ResponseFunctionToolCall(
+                    id=f"fc_{random_uuid()}",
+                    call_id=f"call_{random_uuid()}",
+                    type="function_call",
+                    status="completed",
+                    name=tool_call.name,
+                    arguments=tool_call.arguments,
+                )
+                for tool_call in tool_calls
+            ]
+            outputs.extend(tool_call_items)
+        return outputs
 
     def _make_response_output_items_with_harmony(
         self,
@@ -893,7 +919,8 @@ class OpenAIServingResponses(OpenAIServing):
         if isinstance(request.input, str):
             messages.append({"role": "user", "content": request.input})
         else:
-            messages.extend(request.input)  # type: ignore
+            for item in request.input:
+                messages.append(construct_chat_message_with_tool_call(item))
         return messages
 
     def _construct_harmony_system_input_message(
diff --git a/vllm/entrypoints/openai/tool_parsers/abstract_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/abstract_tool_parser.py
index 950139c69c29a..e99e405f5de65 100644
--- a/vllm/entrypoints/openai/tool_parsers/abstract_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/abstract_tool_parser.py
@@ -6,10 +6,16 @@ import os
 from collections.abc import Callable, Sequence
 from functools import cached_property
 
+from openai.types.responses.response_format_text_json_schema_config import (
+    ResponseFormatTextJSONSchemaConfig,
+)
+
 from vllm.entrypoints.openai.protocol import (
     ChatCompletionRequest,
     DeltaMessage,
     ExtractedToolCallInformation,
+    ResponsesRequest,
+    ResponseTextConfig,
 )
 from vllm.entrypoints.openai.tool_parsers.utils import get_json_schema_from_tools
 from vllm.logger import init_logger
@@ -56,11 +62,21 @@ class ToolParser:
         )
         # Set structured output params for tool calling
         if json_schema_from_tool is not None:
-            if request.structured_outputs is None:
+            if isinstance(request, ChatCompletionRequest):
                 request.structured_outputs = StructuredOutputsParams()
-            # tool_choice: "Forced Function" or "required" will override
-            # structured output json settings to make tool calling work correctly
-            request.structured_outputs.json = json_schema_from_tool
+                # tool_choice: "Forced Function" or "required" will override
+                # structured output json settings to make tool calling work correctly
+                request.structured_outputs.json = json_schema_from_tool
+            if isinstance(request, ResponsesRequest):
+                request.text = ResponseTextConfig()
+                request.text.format = ResponseFormatTextJSONSchemaConfig(
+                    name="tool_calling_response",
+                    schema=json_schema_from_tool,
+                    type="json_schema",
+                    description="Response format for tool calling",
+                    strict=True,
+                )
+
         return request
 
     def extract_tool_calls(
diff --git a/vllm/entrypoints/responses_utils.py b/vllm/entrypoints/responses_utils.py
new file mode 100644
index 0000000000000..6eb7c0b70a670
--- /dev/null
+++ b/vllm/entrypoints/responses_utils.py
@@ -0,0 +1,45 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from openai.types.chat import (
+    ChatCompletionAssistantMessageParam,
+    ChatCompletionMessageToolCallParam,
+    ChatCompletionToolMessageParam,
+)
+from openai.types.chat.chat_completion_message_tool_call_param import (
+    Function as FunctionCallTool,
+)
+from openai.types.responses import ResponseFunctionToolCall
+
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionMessageParam,
+    ResponseInputOutputItem,
+)
+
+
+def construct_chat_message_with_tool_call(
+    item: ResponseInputOutputItem,
+) -> ChatCompletionMessageParam:
+    if isinstance(item, ResponseFunctionToolCall):
+        # Append the function call as a tool call.
+        return ChatCompletionAssistantMessageParam(
+            role="assistant",
+            tool_calls=[
+                ChatCompletionMessageToolCallParam(
+                    id=item.call_id,
+                    function=FunctionCallTool(
+                        name=item.name,
+                        arguments=item.arguments,
+                    ),
+                    type="function",
+                )
+            ],
+        )
+    elif item.get("type") == "function_call_output":
+        # Append the function call output as a tool message.
+        return ChatCompletionToolMessageParam(
+            role="tool",
+            content=item.get("output"),
+            tool_call_id=item.get("call_id"),
+        )
+    return item  # type: ignore

From c757a15f0f8ed54b7f85b849d5e075226fabbcd9 Mon Sep 17 00:00:00 2001
From: xiangze-arm <Xiangze.Zhang@arm.com>
Date: Thu, 6 Nov 2025 19:04:18 +0800
Subject: [PATCH 191/976] [CPU]Improve cpu fused moe perf (#27244)

Signed-off-by: Zhang Xiangze <Xiangze.Zhang@arm.com>
---
 .../layers/fused_moe/cpu_fused_moe.py         | 52 ++++++++++++++-----
 1 file changed, 40 insertions(+), 12 deletions(-)

diff --git a/vllm/model_executor/layers/fused_moe/cpu_fused_moe.py b/vllm/model_executor/layers/fused_moe/cpu_fused_moe.py
index 552d9e9cf88f3..23ace3408562a 100644
--- a/vllm/model_executor/layers/fused_moe/cpu_fused_moe.py
+++ b/vllm/model_executor/layers/fused_moe/cpu_fused_moe.py
@@ -5,6 +5,7 @@ from collections.abc import Callable
 import torch
 from torch.nn import functional as F
 
+from vllm import _custom_ops as ops
 from vllm import envs
 
 
@@ -237,7 +238,43 @@ class SGLFusedMOE:
 
 class CPUFusedMOE:
     def __init__(self, layer: torch.nn.Module) -> None:
-        pass
+        use_onednn_mm = ops._supports_onednn and ops.is_onednn_acl_supported()
+
+        num_experts = layer.w13_weight.size(0)
+        has_w13_bias = hasattr(layer, "w13_bias")
+        has_w2_bias = hasattr(layer, "w2_bias")
+
+        layer.gate_up_linear = []
+        layer.down_linear = []
+
+        for i in range(num_experts):
+            layer_w13_weight = layer.w13_weight[i]
+            layer_w13_bias = layer.w13_bias[i] if has_w13_bias else None
+            layer_w2_weight = layer.w2_weight[i]
+            layer_w2_bias = layer.w2_bias[i] if has_w2_bias else None
+            if use_onednn_mm:
+                gate_up_handle = ops.create_onednn_mm(layer_w13_weight.t(), 32)
+                layer.gate_up_linear.append(
+                    lambda x, handle=gate_up_handle, bias=layer_w13_bias: ops.onednn_mm(
+                        handle, x, bias
+                    )
+                )
+                down_handle = ops.create_onednn_mm(layer_w2_weight.t(), 32)
+                layer.down_linear.append(
+                    lambda x, handle=down_handle, bias=layer_w2_bias: ops.onednn_mm(
+                        handle, x, bias
+                    )
+                )
+            else:
+                layer.gate_up_linear.append(
+                    lambda x, w=layer_w13_weight, b=layer_w13_bias: F.linear(x, w, b)
+                )
+                layer.down_linear.append(
+                    lambda x, w=layer_w2_weight, b=layer_w2_bias: F.linear(x, w, b)
+                )
+        if use_onednn_mm:  # remove weight
+            layer.w13_weight = torch.nn.Parameter(torch.empty(0), requires_grad=False)
+            layer.w2_weight = torch.nn.Parameter(torch.empty(0), requires_grad=False)
 
     def __call__(
         self,
@@ -287,8 +324,6 @@ class CPUFusedMOE:
 
         outputs = []
         start_idx = 0
-        has_w13_bias = hasattr(layer, "w13_bias")
-        has_w2_bias = hasattr(layer, "w2_bias")
 
         for i, num_tokens in enumerate(tokens_per_expert):
             end_idx = start_idx + num_tokens
@@ -296,19 +331,12 @@ class CPUFusedMOE:
                 continue
             tokens_for_this_expert = sorted_tokens[start_idx:end_idx]
 
-            layer_w13_weight = layer.w13_weight[i]
-            layer_w13_bias = layer.w13_bias[i] if has_w13_bias else None
-            layer_w2_weight = layer.w2_weight[i]
-            layer_w2_bias = layer.w2_bias[i] if has_w2_bias else None
-
-            gate_up = F.linear(
-                tokens_for_this_expert, layer_w13_weight, bias=layer_w13_bias
-            )
+            gate_up = layer.gate_up_linear[i](tokens_for_this_expert)
             if activation == "swigluoai":
                 gate_up = swigluoai_and_mul(gate_up)
             else:
                 gate_up = silu_and_mul(gate_up)
-            expert_out = F.linear(gate_up, layer_w2_weight, bias=layer_w2_bias)
+            expert_out = layer.down_linear[i](gate_up)
             outputs.append(expert_out)
             start_idx = end_idx
 

From f32229293e3c779004d9f90503b4375a3716879d Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Thu, 6 Nov 2025 22:19:07 +0800
Subject: [PATCH 192/976] Disable nm-testing models with issues in CI (#28206)

Signed-off-by: mgoin <mgoin64@gmail.com>
---
 ...Qwen2-1.5B-Instruct-W8A16-compressed-tensors.yaml | 12 ------------
 benchmarks/kernels/benchmark_grouped_gemm_cutlass.py |  4 ++--
 benchmarks/kernels/benchmark_shapes.py               |  4 ++--
 3 files changed, 4 insertions(+), 16 deletions(-)
 delete mode 100644 .buildkite/lm-eval-harness/configs/Qwen2-1.5B-Instruct-W8A16-compressed-tensors.yaml

diff --git a/.buildkite/lm-eval-harness/configs/Qwen2-1.5B-Instruct-W8A16-compressed-tensors.yaml b/.buildkite/lm-eval-harness/configs/Qwen2-1.5B-Instruct-W8A16-compressed-tensors.yaml
deleted file mode 100644
index 1bce7e7fdf146..0000000000000
--- a/.buildkite/lm-eval-harness/configs/Qwen2-1.5B-Instruct-W8A16-compressed-tensors.yaml
+++ /dev/null
@@ -1,12 +0,0 @@
-# For vllm script, with -t option (tensor parallel size).
-# bash .buildkite/lm-eval-harness/run-lm-eval-gsm-vllm-baseline.sh -m nm-testing/Qwen2-1.5B-Instruct-W8A16-Channelwise -b "auto" -l 1000 -f 5 -t 1
-model_name: "nm-testing/Qwen2-1.5B-Instruct-W8A16-Channelwise"
-tasks:
-- name: "gsm8k"
-  metrics:
-  - name: "exact_match,strict-match"
-    value: 0.595
-  - name: "exact_match,flexible-extract"
-    value: 0.582
-limit: 1000
-num_fewshot: 5
diff --git a/benchmarks/kernels/benchmark_grouped_gemm_cutlass.py b/benchmarks/kernels/benchmark_grouped_gemm_cutlass.py
index d525bd5faacf6..9b426d8d5f778 100644
--- a/benchmarks/kernels/benchmark_grouped_gemm_cutlass.py
+++ b/benchmarks/kernels/benchmark_grouped_gemm_cutlass.py
@@ -16,8 +16,8 @@ from vllm.model_executor.layers.fused_moe.fused_moe import (
 from vllm.utils.argparse_utils import FlexibleArgumentParser
 
 DEFAULT_MODELS = [
-    "nm-testing/Mixtral-8x7B-Instruct-v0.1",
-    "nm-testing/deepseekv2-lite",
+    "mistralai/Mixtral-8x7B-Instruct-v0.1",
+    "deepseek-ai/DeepSeek-V2-Lite",
     "ibm-granite/granite-3.0-1b-a400m",
     "ibm-granite/granite-3.0-3b-a800m",
 ]
diff --git a/benchmarks/kernels/benchmark_shapes.py b/benchmarks/kernels/benchmark_shapes.py
index 18c459c31d3f8..3e23c4cac059c 100644
--- a/benchmarks/kernels/benchmark_shapes.py
+++ b/benchmarks/kernels/benchmark_shapes.py
@@ -78,11 +78,11 @@ WEIGHT_SHAPES = {
 }
 
 WEIGHT_SHAPES_MOE = {
-    "nm-testing/Mixtral-8x7B-Instruct-v0.1": [
+    "mistralai/Mixtral-8x7B-Instruct-v0.1": [
         [8, 2, 4096, 28672],
         [8, 2, 14336, 4096],
     ],
-    "nm-testing/deepseekv2-lite": [
+    "deepseek-ai/DeepSeek-V2-Lite": [
         [64, 6, 2048, 1408],
     ],
     "ibm-granite/granite-3.0-1b-a400m": [

From 8816e375d34c43ac946a3e97f5f76b56317994cf Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Thu, 6 Nov 2025 07:06:33 -0800
Subject: [PATCH 193/976] [Docs] Switch to directory style URLs (#28058)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 mkdocs.yaml | 5 -----
 1 file changed, 5 deletions(-)

diff --git a/mkdocs.yaml b/mkdocs.yaml
index 6f2be65a18af8..bf97093dafb11 100644
--- a/mkdocs.yaml
+++ b/mkdocs.yaml
@@ -142,8 +142,3 @@ extra_javascript:
   - https://unpkg.com/mathjax@3.2.2/es5/tex-mml-chtml.js
   - mkdocs/javascript/edit_and_feedback.js
   - mkdocs/javascript/slack_and_forum.js
-
-# Makes the url format end in .html rather than act as a dir
-# So index.md generates as index.html and is available under URL /index.html
-# https://www.mkdocs.org/user-guide/configuration/#use_directory_urls
-use_directory_urls: false

From 0370679ce9fc5245953002e387ee9a86ea562b97 Mon Sep 17 00:00:00 2001
From: Eric Yue <jiacheng.yue@foxmail.com>
Date: Thu, 6 Nov 2025 23:29:46 +0800
Subject: [PATCH 194/976] [Kernel][Model] Tune fused_moe Triton configs for
 MiniMax-M2 on H100 (#28200)

Signed-off-by: minatoaquaMK2 <jiacheng.yue@foxmail.com>
---
 ...,dtype=fp8_w8a8,block_shape=[128,128].json | 147 ++++++++++++++++++
 1 file changed, 147 insertions(+)
 create mode 100644 vllm/model_executor/layers/fused_moe/configs/E=256,N=384,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json

diff --git a/vllm/model_executor/layers/fused_moe/configs/E=256,N=384,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json b/vllm/model_executor/layers/fused_moe/configs/E=256,N=384,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
new file mode 100644
index 0000000000000..381eb5d826a5b
--- /dev/null
+++ b/vllm/model_executor/layers/fused_moe/configs/E=256,N=384,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -0,0 +1,147 @@
+{
+    "triton_version": "3.5.0",
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "512": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 64,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    }
+}

From 2176778cd384ca930ebcf5c0630f7bbefe4a9aad Mon Sep 17 00:00:00 2001
From: Milos Puzovic <milos.puzovic@arm.com>
Date: Thu, 6 Nov 2025 15:30:26 +0000
Subject: [PATCH 195/976] [Doc] Add Arm CPUs are on the list of supported
 targets in vLLM (#26018)

Signed-off-by: Milos Puzovic <milos.puzovic@arm.com>
---
 docs/README.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/docs/README.md b/docs/README.md
index ae95717def4cd..6162b6ba4c97e 100644
--- a/docs/README.md
+++ b/docs/README.md
@@ -56,7 +56,7 @@ vLLM is flexible and easy to use with:
 - Tensor, pipeline, data and expert parallelism support for distributed inference
 - Streaming outputs
 - OpenAI-compatible API server
-- Support for NVIDIA GPUs, AMD CPUs and GPUs, Intel CPUs and GPUs, PowerPC CPUs, and TPU. Additionally, support for diverse hardware plugins such as Intel Gaudi, IBM Spyre and Huawei Ascend.
+- Support for NVIDIA GPUs, AMD CPUs and GPUs, Intel CPUs and GPUs, PowerPC CPUs, Arm CPUs and TPU. Additionally, support for diverse hardware plugins such as Intel Gaudi, IBM Spyre and Huawei Ascend.
 - Prefix caching support
 - Multi-LoRA support
 

From e52e4da9714962b8db623359992ac3a5853879f7 Mon Sep 17 00:00:00 2001
From: StanHatko <38304828+StanHatko@users.noreply.github.com>
Date: Thu, 6 Nov 2025 10:47:11 -0500
Subject: [PATCH 196/976] [HARDWARE][CPU] Add Option for Disabling Binding to
 Specific CPU Cores (#27953)

Signed-off-by: Stan Hatko <stan_hatko@live.com>
Co-authored-by: Li, Jiang <jiang1.li@intel.com>
---
 docs/getting_started/installation/cpu.md |  2 +-
 vllm/platforms/cpu.py                    | 13 +++++++++----
 vllm/v1/worker/cpu_worker.py             |  8 +++++---
 3 files changed, 15 insertions(+), 8 deletions(-)

diff --git a/docs/getting_started/installation/cpu.md b/docs/getting_started/installation/cpu.md
index 747035d38e3b0..2369eaed1802e 100644
--- a/docs/getting_started/installation/cpu.md
+++ b/docs/getting_started/installation/cpu.md
@@ -94,7 +94,7 @@ Currently, there are no pre-built CPU wheels.
 ## Related runtime environment variables
 
 - `VLLM_CPU_KVCACHE_SPACE`: specify the KV Cache size (e.g, `VLLM_CPU_KVCACHE_SPACE=40` means 40 GiB space for KV cache), larger setting will allow vLLM running more requests in parallel. This parameter should be set based on the hardware configuration and memory management pattern of users. Default value is `0`.
-- `VLLM_CPU_OMP_THREADS_BIND`: specify the CPU cores dedicated to the OpenMP threads, can be set as CPU id lists or `auto` (by default). For example, `VLLM_CPU_OMP_THREADS_BIND=0-31` means there will be 32 OpenMP threads bound on 0-31 CPU cores. `VLLM_CPU_OMP_THREADS_BIND=0-31|32-63` means there will be 2 tensor parallel processes, 32 OpenMP threads of rank0 are bound on 0-31 CPU cores, and the OpenMP threads of rank1 are bound on 32-63 CPU cores. By setting to `auto`, the OpenMP threads of each rank are bound to the CPU cores in each NUMA node respectively.
+- `VLLM_CPU_OMP_THREADS_BIND`: specify the CPU cores dedicated to the OpenMP threads, can be set as CPU id lists, `auto` (by default), or `nobind` (to disable binding to individual CPU cores and to inherit user-defined OpenMP variables). For example, `VLLM_CPU_OMP_THREADS_BIND=0-31` means there will be 32 OpenMP threads bound on 0-31 CPU cores. `VLLM_CPU_OMP_THREADS_BIND=0-31|32-63` means there will be 2 tensor parallel processes, 32 OpenMP threads of rank0 are bound on 0-31 CPU cores, and the OpenMP threads of rank1 are bound on 32-63 CPU cores. By setting to `auto`, the OpenMP threads of each rank are bound to the CPU cores in each NUMA node respectively. If set to `nobind`, the number of OpenMP threads is determined by the standard `OMP_NUM_THREADS` environment variable.
 - `VLLM_CPU_NUM_OF_RESERVED_CPU`: specify the number of CPU cores which are not dedicated to the OpenMP threads for each rank. The variable only takes effect when VLLM_CPU_OMP_THREADS_BIND is set to `auto`. Default value is `None`. If the value is not set and use `auto` thread binding, no CPU will be reserved for `world_size == 1`, 1 CPU per rank will be reserved for `world_size > 1`.
 - `CPU_VISIBLE_MEMORY_NODES`: specify visible NUMA memory nodes for vLLM CPU workers, similar to ```CUDA_VISIBLE_DEVICES```. The variable only takes effect when VLLM_CPU_OMP_THREADS_BIND is set to `auto`. The variable provides more control for the auto thread-binding feature, such as masking nodes and changing nodes binding sequence.
 - `VLLM_CPU_MOE_PREPACK` (x86 only): whether to use prepack for MoE layer. This will be passed to `ipex.llm.modules.GatedMLPMOE`. Default is `1` (True). On unsupported CPUs, you might need to set this to `0` (False).
diff --git a/vllm/platforms/cpu.py b/vllm/platforms/cpu.py
index 60a8e90cdc1ac..ee904535ffe8d 100644
--- a/vllm/platforms/cpu.py
+++ b/vllm/platforms/cpu.py
@@ -14,6 +14,7 @@ from typing import TYPE_CHECKING
 import regex as re
 import torch
 
+from vllm import envs
 from vllm.logger import init_logger
 from vllm.utils import DEFAULT_MAX_NUM_BATCHED_TOKENS
 
@@ -151,7 +152,6 @@ class CpuPlatform(Platform):
 
     @classmethod
     def get_device_total_memory(cls, device_id: int = 0) -> int:
-        import vllm.envs as envs
         from vllm.utils.mem_constants import GiB_bytes
 
         kv_cache_space = envs.VLLM_CPU_KVCACHE_SPACE
@@ -289,11 +289,16 @@ class CpuPlatform(Platform):
         os.environ["VLLM_WORKER_MULTIPROC_METHOD"] = "spawn"
 
         # Note: to avoid the error 'nthreads cannot be larger than environment
-        #  variable "NUMEXPR_MAX_THREADS" (64)'.
+        # variable "NUMEXPR_MAX_THREADS" (64)'.
         os.environ["NUMEXPR_MAX_THREADS"] = str(get_max_threads())
 
-        # Set default threads num for OpenMP parallel
-        os.environ["OMP_NUM_THREADS"] = str(torch.get_num_threads())
+        if envs.VLLM_CPU_OMP_THREADS_BIND != "nobind":
+            # Set default threads num for OpenMP parallel
+            os.environ["OMP_NUM_THREADS"] = str(torch.get_num_threads())
+        else:
+            # In this case, setting the OpenMP configuration via
+            # OMP_NUM_THREADS is up to the user.
+            logger.info("Disabling binding processes to CPU cores...")
 
         # Disable torch async compiling which won't work with daemonic processes
         os.environ["TORCHINDUCTOR_COMPILE_THREADS"] = "1"
diff --git a/vllm/v1/worker/cpu_worker.py b/vllm/v1/worker/cpu_worker.py
index 2b54228e0a4ee..4420a057d1e58 100644
--- a/vllm/v1/worker/cpu_worker.py
+++ b/vllm/v1/worker/cpu_worker.py
@@ -69,13 +69,15 @@ class CPUWorker(Worker):
                 self.local_omp_cpuid = self._get_autobind_cpu_ids(
                     lambda cpus: [cpu for cpu in cpus if cpu.id % 8 < 4]
                 )
-            elif current_platform.get_cpu_architecture() == CpuArchEnum.X86:
+            elif cpu_arch == CpuArchEnum.X86:
                 # For x86 SMT-2, use 1 CPU per core
                 self.local_omp_cpuid = self._get_autobind_cpu_ids(
                     lambda cpus: cpus[-1:]
                 )
             else:
-                self.local_omp_cpuid = "all"
+                self.local_omp_cpuid = "nobind"
+        elif omp_cpuids == "nobind":
+            self.local_omp_cpuid = "nobind"
         else:
             local_dp_rank = self.parallel_config.data_parallel_rank_local
             omp_cpuids = omp_cpuids.split("|")
@@ -86,7 +88,7 @@ class CPUWorker(Worker):
                 ]
             self.local_omp_cpuid = omp_cpuids[self.rank]
 
-        if self.local_omp_cpuid != "all":
+        if self.local_omp_cpuid != "nobind":
             ret = torch.ops._C_utils.init_cpu_threads_env(self.local_omp_cpuid)
             if ret:
                 logger.info(ret)

From d1dd5f53e4bdb78d5e3b7b4dc1c03f6e2a991e1e Mon Sep 17 00:00:00 2001
From: Roy Wang <jasonailu87@gmail.com>
Date: Fri, 7 Nov 2025 00:25:39 +0800
Subject: [PATCH 197/976] [Frontend] Fix logging format when enable response
 logging (#28049)

Signed-off-by: esmeetu <jasonailu87@gmail.com>
---
 vllm/entrypoints/openai/api_server.py | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/vllm/entrypoints/openai/api_server.py b/vllm/entrypoints/openai/api_server.py
index 11a0c8a07c3d4..aba961ac6919c 100644
--- a/vllm/entrypoints/openai/api_server.py
+++ b/vllm/entrypoints/openai/api_server.py
@@ -1572,8 +1572,7 @@ def _log_streaming_response(response, response_body: list) -> None:
                             full_content = full_content[:2048] + ""
                             "...[truncated]"
                         logger.info(
-                            "response_body={streaming_complete: "
-                            "content='%s', chunks=%d}",
+                            "response_body={streaming_complete: content=%r, chunks=%d}",
                             full_content,
                             chunk_count,
                         )

From 4507a6dae4311940910aab739092f1e23243b103 Mon Sep 17 00:00:00 2001
From: Russell Bryant <rbryant@redhat.com>
Date: Thu, 6 Nov 2025 12:39:42 -0500
Subject: [PATCH 198/976] CODEOWNERS: Add myself as reviewer on security docs
 (#28216)

Signed-off-by: Russell Bryant <rbryant@redhat.com>
---
 .github/CODEOWNERS | 5 +++++
 1 file changed, 5 insertions(+)

diff --git a/.github/CODEOWNERS b/.github/CODEOWNERS
index ba08a43352154..43a024baf4bbb 100644
--- a/.github/CODEOWNERS
+++ b/.github/CODEOWNERS
@@ -127,3 +127,8 @@ mkdocs.yaml @hmellor
 /vllm/config/pooler.py @noooop
 /vllm/pooling_params.py @noooop
 /vllm/model_executor/layers/pooler.py @noooop
+
+# Security guide and policies
+/docs/usage/security.md @russellb
+/SECURITY.md @russellb
+/docs/contributing/vulnerability_management.md @russellb

From 5e0c1fe69c516fe4796965185c7d7ca503e44e92 Mon Sep 17 00:00:00 2001
From: Andy Lo <andy@mistral.ai>
Date: Thu, 6 Nov 2025 18:24:47 +0000
Subject: [PATCH 199/976] [Structured outputs] Upgrade llguidance to 1.3.0
 (#28039)

Signed-off-by: Andy Lo <andy@mistral.ai>
Co-authored-by: Russell Bryant <rbryant@redhat.com>
---
 requirements/common.txt | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/requirements/common.txt b/requirements/common.txt
index 391e5acfd32a0..ce5607b7fbf2d 100644
--- a/requirements/common.txt
+++ b/requirements/common.txt
@@ -19,7 +19,7 @@ pillow  # Required for image processing
 prometheus-fastapi-instrumentator >= 7.0.0
 tiktoken >= 0.6.0  # Required for DBRX tokenizer
 lm-format-enforcer == 0.11.3
-llguidance >= 0.7.11, < 0.8.0; platform_machine == "x86_64" or platform_machine == "arm64" or platform_machine == "aarch64" or platform_machine == "s390x"
+llguidance >= 1.3.0, < 1.4.0; platform_machine == "x86_64" or platform_machine == "arm64" or platform_machine == "aarch64" or platform_machine == "s390x"
 outlines_core == 0.2.11
 # required for outlines backend disk cache
 diskcache == 5.6.3

From 7a8375f8a0cd37ee7e3d2be8498b5ae543694179 Mon Sep 17 00:00:00 2001
From: Julien Denize <40604584+juliendenize@users.noreply.github.com>
Date: Thu, 6 Nov 2025 19:55:17 +0100
Subject: [PATCH 200/976] Add llama 4 scaling support (#28145)

Signed-off-by: Julien Denize <julien.denize@mistral.ai>
---
 .../layers/rotary_embedding/__init__.py       |  9 +++++-
 .../rotary_embedding/yarn_scaling_rope.py     |  7 ++++-
 vllm/model_executor/models/llama.py           | 22 ++++++++++++++
 vllm/transformers_utils/configs/mistral.py    | 29 +++++++++++++++----
 4 files changed, 59 insertions(+), 8 deletions(-)

diff --git a/vllm/model_executor/layers/rotary_embedding/__init__.py b/vllm/model_executor/layers/rotary_embedding/__init__.py
index 64187c97cab7e..56c165f9c041a 100644
--- a/vllm/model_executor/layers/rotary_embedding/__init__.py
+++ b/vllm/model_executor/layers/rotary_embedding/__init__.py
@@ -191,9 +191,16 @@ def get_rope(
                 k: v
                 for k, v in rope_scaling.items()
                 if k
-                in ("extrapolation_factor", "attn_factor", "beta_fast", "beta_slow")
+                in (
+                    "extrapolation_factor",
+                    "attn_factor",
+                    "beta_fast",
+                    "beta_slow",
+                    "apply_yarn_scaling",
+                )
             }
             if "mrope_section" in rope_scaling:
+                extra_kwargs.pop("apply_yarn_scaling", None)
                 rotary_emb = MRotaryEmbedding(
                     head_size,
                     rotary_dim,
diff --git a/vllm/model_executor/layers/rotary_embedding/yarn_scaling_rope.py b/vllm/model_executor/layers/rotary_embedding/yarn_scaling_rope.py
index 93c92e7801e13..ff46ad74b302e 100644
--- a/vllm/model_executor/layers/rotary_embedding/yarn_scaling_rope.py
+++ b/vllm/model_executor/layers/rotary_embedding/yarn_scaling_rope.py
@@ -27,6 +27,7 @@ class YaRNScalingRotaryEmbedding(RotaryEmbedding):
         attn_factor: float = 1,
         beta_fast: int = 32,
         beta_slow: int = 1,
+        apply_yarn_scaling: bool = True,
     ) -> None:
         self.scaling_factor = scaling_factor
         self.extrapolation_factor = extrapolation_factor
@@ -34,7 +35,11 @@ class YaRNScalingRotaryEmbedding(RotaryEmbedding):
         self.beta_fast = beta_fast
         self.beta_slow = beta_slow
         # Get n-d magnitude scaling corrected for interpolation
-        self.mscale = float(yarn_get_mscale(self.scaling_factor) * attn_factor)
+        self.mscale = (
+            float(yarn_get_mscale(self.scaling_factor) * attn_factor)
+            if apply_yarn_scaling
+            else float(attn_factor)
+        )
         super().__init__(
             head_size, rotary_dim, max_position_embeddings, base, is_neox_style, dtype
         )
diff --git a/vllm/model_executor/models/llama.py b/vllm/model_executor/models/llama.py
index 7cc908e52c887..0a08bd376badc 100644
--- a/vllm/model_executor/models/llama.py
+++ b/vllm/model_executor/models/llama.py
@@ -160,6 +160,14 @@ class LlamaAttention(nn.Module):
         self.rope_theta = rope_theta
         self.max_position_embeddings = max_position_embeddings
 
+        llama_4_scaling_config = getattr(config, "llama_4_scaling", None)
+        self.do_llama_4_scaling = llama_4_scaling_config is not None
+        if self.do_llama_4_scaling:
+            self.llama_4_scaling_original_max_position_embeddings = (
+                llama_4_scaling_config["original_max_position_embeddings"]
+            )
+            self.llama_4_scaling_beta = llama_4_scaling_config["beta"]
+
         self.qkv_proj = QKVParallelLinear(
             hidden_size=hidden_size,
             head_size=self.head_dim,
@@ -221,6 +229,17 @@ class LlamaAttention(nn.Module):
             prefix=f"{prefix}.attn",
         )
 
+    def _get_llama_4_attn_scale(self, positions: torch.Tensor) -> torch.Tensor:
+        # Llama4 scaling
+        scaling = 1 + self.llama_4_scaling_beta * torch.log(
+            1
+            + torch.floor(
+                positions / self.llama_4_scaling_original_max_position_embeddings
+            )
+        )
+        # Broadcast over head_dim
+        return scaling.unsqueeze(-1)
+
     def forward(
         self,
         positions: torch.Tensor,
@@ -229,6 +248,9 @@ class LlamaAttention(nn.Module):
         qkv, _ = self.qkv_proj(hidden_states)
         q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
         q, k = self.rotary_emb(positions, q, k)
+        if self.do_llama_4_scaling:
+            attn_scale = self._get_llama_4_attn_scale(positions)
+            q = (q * attn_scale).to(q.dtype)
         attn_output = self.attn(q, k, v)
         output, _ = self.o_proj(attn_output)
         return output
diff --git a/vllm/transformers_utils/configs/mistral.py b/vllm/transformers_utils/configs/mistral.py
index d5bf79e01f954..c6f04febe37e1 100644
--- a/vllm/transformers_utils/configs/mistral.py
+++ b/vllm/transformers_utils/configs/mistral.py
@@ -24,6 +24,18 @@ def adapt_config_dict(config_dict: dict[str, Any], **kwargs) -> PretrainedConfig
     if bool(config_dict.get("yarn")):
         config_dict = _remap_mistral_yarn_args(config_dict)
 
+    if bool(config_dict.get("llama_4_scaling")):
+        llama_4_scaling_config_keys = ["original_max_position_embeddings", "beta"]
+        assert all(
+            [
+                key in config_dict["llama_4_scaling"]
+                for key in llama_4_scaling_config_keys
+            ]
+        ), (
+            "llama_4_scaling config should define the keys: "
+            f"{','.join(llama_4_scaling_config_keys)}"
+        )
+
     is_vision = (config_dict.get("multimodal") or {}).get(
         "vision_encoder_args"
     ) or config_dict.get("vision_encoder")
@@ -66,19 +78,24 @@ def _remap_mistral_vision_args(config: dict) -> dict:
 
 
 def _remap_mistral_yarn_args(config: dict) -> dict:
-    # Direct remaps: yarn.X -> rope_scaling.Y
-    # Source keys are from mistral.model.args.YarnArgs
-    _map = {
+    yarn_config_map = {
+        "factor": "factor",
+        "original_max_position_embeddings": "original_max_position_embeddings",
         "beta": "beta_fast",
         "alpha": "beta_slow",
+        "apply_scale": "apply_yarn_scaling",
     }
     yarn_config = config.get("yarn") or {}
-    renamed_yarn_config = {_map.get(k, k): v for k, v in yarn_config.items()}
     config["rope_scaling"] = {
         "rope_type": "yarn",
-        "mscale_all_dim": 1,  # We hardcoded this to 1
-        **renamed_yarn_config,
+        "mscale_all_dim": 1,
     }
+    for old_name, new_name in yarn_config_map.items():
+        if old_name in yarn_config:
+            config["rope_scaling"][new_name] = yarn_config.pop(old_name)
+
+    assert len(yarn_config) == 0, f"Unparsed yarn config: {yarn_config}"
+
     return config
 
 
From d4aa65c9980fb9287bfc2567a3b0c3efaae68255 Mon Sep 17 00:00:00 2001
From: Vico Chu <30412827+vicoooo26@users.noreply.github.com>
Date: Fri, 7 Nov 2025 03:09:19 +0800
Subject: [PATCH 201/976] [Chore] eliminate duplicated and unconditional object
 serialization in anthropic messages api (#27792)

Signed-off-by: Vico Chu <vico24826@gmail.com>
---
 vllm/entrypoints/anthropic/serving_messages.py | 6 ++++--
 vllm/entrypoints/openai/api_server.py          | 7 +++----
 2 files changed, 7 insertions(+), 6 deletions(-)

diff --git a/vllm/entrypoints/anthropic/serving_messages.py b/vllm/entrypoints/anthropic/serving_messages.py
index 11c96adf332f5..340dabf0e7117 100644
--- a/vllm/entrypoints/anthropic/serving_messages.py
+++ b/vllm/entrypoints/anthropic/serving_messages.py
@@ -231,9 +231,11 @@ class AnthropicServingMessages(OpenAIServingChat):
         See https://docs.anthropic.com/en/api/messages
         for the API specification. This API mimics the Anthropic messages API.
         """
-        logger.debug("Received messages request %s", request.model_dump_json())
+        if logger.isEnabledFor(logging.DEBUG):
+            logger.debug("Received messages request %s", request.model_dump_json())
         chat_req = self._convert_anthropic_to_openai_request(request)
-        logger.debug("Convert to OpenAI request %s", request.model_dump_json())
+        if logger.isEnabledFor(logging.DEBUG):
+            logger.debug("Convert to OpenAI request %s", chat_req.model_dump_json())
         generator = await self.create_chat_completion(chat_req, raw_request)
 
         if isinstance(generator, ErrorResponse):
diff --git a/vllm/entrypoints/openai/api_server.py b/vllm/entrypoints/openai/api_server.py
index aba961ac6919c..cd55993ae4bac 100644
--- a/vllm/entrypoints/openai/api_server.py
+++ b/vllm/entrypoints/openai/api_server.py
@@ -648,10 +648,9 @@ async def create_messages(request: AnthropicMessagesRequest, raw_request: Reques
         return translate_error_response(generator)
 
     elif isinstance(generator, AnthropicMessagesResponse):
-        logger.debug(
-            "Anthropic Messages Response: %s", generator.model_dump(exclude_none=True)
-        )
-        return JSONResponse(content=generator.model_dump(exclude_none=True))
+        resp = generator.model_dump(exclude_none=True)
+        logger.debug("Anthropic Messages Response: %s", resp)
+        return JSONResponse(content=resp)
 
     return StreamingResponse(content=generator, media_type="text/event-stream")
 

From 449de9001af69592618516b298aa1c5f321ded34 Mon Sep 17 00:00:00 2001
From: Aleksandr Malyshev <164964928+maleksan85@users.noreply.github.com>
Date: Thu, 6 Nov 2025 11:46:44 -0800
Subject: [PATCH 202/976] [ROCm] triton fp8 kernel (#27058)

Signed-off-by: Aleksandr Malyshev <maleksan@amd.com>
Co-authored-by: Aleksandr Malyshev <maleksan@amd.com>
Co-authored-by: Gregory Shtrasberg <156009573+gshtras@users.noreply.github.com>
---
 .../layers/quantization/utils/fp8_utils.py    | 99 ++++++++++++-------
 1 file changed, 65 insertions(+), 34 deletions(-)

diff --git a/vllm/model_executor/layers/quantization/utils/fp8_utils.py b/vllm/model_executor/layers/quantization/utils/fp8_utils.py
index f25148abb619c..7fecda2166ef0 100644
--- a/vllm/model_executor/layers/quantization/utils/fp8_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/fp8_utils.py
@@ -69,30 +69,67 @@ def cutlass_scaled_mm(
 
 
 def rocm_aiter_gemm_w8a8_blockscale_impl(
-    A: torch.Tensor,
-    B: torch.Tensor,
-    As: torch.Tensor,
-    Bs: torch.Tensor,
-    block_size: list[int],
+    input_2d: torch.Tensor,
+    weight: torch.Tensor,
+    input_scale: torch.Tensor,
+    weight_scale: torch.Tensor,
+    group_size: int,
     output_dtype: torch.dtype = torch.float16,
 ) -> torch.Tensor:
-    import aiter as rocm_aiter
+    def is_aiter_triton_kernel_tuned(n, k):
+        return (n, k) in [
+            (1024, 8192),
+            (2112, 7168),
+            (3072, 1536),
+            (32768, 8192),
+            (4096, 7168),
+            (4608, 7168),
+            (512, 7168),
+            (7168, 2048),
+            (7168, 256),
+            (8192, 1024),
+            (8192, 32768),
+        ]
 
-    return rocm_aiter.gemm_a8w8_blockscale(A, B, As, Bs, dtype=output_dtype)
+    n, k = weight.shape
+    if input_scale is not None:
+        q_input = input_2d
+    elif not current_platform.is_fp8_fnuz() and is_aiter_triton_kernel_tuned(n, k):
+        from aiter.ops.triton.gemm_a8w8_blockscale import gemm_a8w8_blockscale
+
+        # MI350 case uses triton kernel
+        q_input, input_scale = per_token_group_quant_fp8(
+            input_2d,
+            group_size,
+            column_major_scales=False,
+            use_ue8m0=False,
+        )
+    else:
+        # MI300 uses tuned AITER ASM/C++ kernel
+        import aiter as rocm_aiter
+        from aiter import gemm_a8w8_blockscale, get_hip_quant
+
+        aiter_per1x128_quant = get_hip_quant(rocm_aiter.QuantType.per_1x128)
+        q_input, input_scale = aiter_per1x128_quant(
+            input_2d.contiguous(), quant_dtype=rocm_aiter.dtypes.fp8
+        )
+
+    return gemm_a8w8_blockscale(
+        q_input, weight, input_scale, weight_scale, dtype=output_dtype
+    )
 
 
 def rocm_aiter_gemm_w8a8_blockscale_fake(
-    A: torch.Tensor,
-    B: torch.Tensor,
-    As: torch.Tensor,
-    Bs: torch.Tensor,
-    block_size: list[int],
+    input_2d: torch.Tensor,
+    weight: torch.Tensor,
+    input_scale: torch.Tensor,
+    weight_scale: torch.Tensor,
+    group_size: int,
     output_dtype: torch.dtype = torch.float16,
 ) -> torch.Tensor:
-    m = A.shape[0]
-    n = B.shape[0]
-    Y = torch.empty(m, n, dtype=output_dtype, device=A.device)
-    return Y
+    m = input_2d.shape[0]
+    n = weight.shape[0]
+    return torch.empty(m, n, dtype=output_dtype, device=input_2d.device)
 
 
 if current_platform.is_rocm():
@@ -101,15 +138,6 @@ if current_platform.is_rocm():
         op_func=rocm_aiter_gemm_w8a8_blockscale_impl,
         fake_impl=rocm_aiter_gemm_w8a8_blockscale_fake,
     )
-    if (
-        envs.VLLM_ROCM_USE_AITER
-        and envs.VLLM_ROCM_USE_AITER_LINEAR
-        and current_platform.is_fp8_fnuz()
-    ):
-        import aiter as rocm_aiter
-        from aiter import get_hip_quant
-
-        aiter_per1x128_quant = get_hip_quant(rocm_aiter.QuantType.per_1x128)
 
 
 # TODO we should be able to change the type of block_size to GroupShape
@@ -293,7 +321,9 @@ class W8A8BlockFp8LinearOp:
         ):
             output = self._run_deepgemm(input_2d, weight, weight_scale)
         else:
-            output = self.w8a8_blockscale_op(input_2d, weight, weight_scale)
+            output = self.w8a8_blockscale_op(
+                input_2d, weight, weight_scale, input_scale
+            )
 
         if bias is not None:
             output = output + bias
@@ -322,7 +352,9 @@ class W8A8BlockFp8LinearOp:
         input_2d: torch.Tensor,
         weight: torch.Tensor,
         weight_scale: torch.Tensor,
+        input_scale: torch.Tensor | None = None,
     ) -> torch.Tensor:
+        assert input_scale is None
         assert self.input_quant_op is not None
         q_input, input_scale = self.input_quant_op(input_2d)
         if self.is_hopper:
@@ -350,17 +382,15 @@ class W8A8BlockFp8LinearOp:
         input_2d: torch.Tensor,
         weight: torch.Tensor,
         weight_scale: torch.Tensor,
+        input_scale: torch.Tensor | None = None,
     ) -> torch.Tensor:
         assert self.act_quant_group_shape == GroupShape(1, 128)
-        q_input, input_scale = aiter_per1x128_quant(
-            input_2d.contiguous(), quant_dtype=rocm_aiter.dtypes.fp8
-        )
         return torch.ops.vllm.rocm_aiter_gemm_w8a8_blockscale(
-            q_input,
+            input_2d,
             weight,
             input_scale,
             weight_scale,
-            list(self.weight_group_shape),
+            self.act_quant_group_shape.col,
             input_2d.dtype,
         )
 
@@ -369,7 +399,9 @@ class W8A8BlockFp8LinearOp:
         input_2d: torch.Tensor,
         weight: torch.Tensor,
         weight_scale: torch.Tensor,
+        input_scale: torch.Tensor | None = None,
     ) -> torch.Tensor:
+        assert input_scale is None
         assert self.input_quant_op is not None
         q_input, input_scale = self.input_quant_op(input_2d)
         return torch.ops.vllm.w8a8_triton_block_scaled_mm_func(
@@ -391,6 +423,7 @@ class W8A8BlockFp8LinearOp:
                 torch.Tensor,
                 torch.Tensor,
                 torch.Tensor,
+                torch.Tensor | None,
             ],
             torch.Tensor,
         ],
@@ -939,13 +972,11 @@ def requant_weight_ue8m0_inplace(
 
 
 def check_aiter_fp8_linear_support() -> bool:
-    """AITER is only supported on ROCm and only for FP8_FNUZ
-    and at the moment are MI300 series"""
+    """AITER is only supported on ROCm for MI3XX"""
     return (
         current_platform.is_rocm()
         and envs.VLLM_ROCM_USE_AITER
         and envs.VLLM_ROCM_USE_AITER_LINEAR
-        and current_platform.is_fp8_fnuz()
     )
 
 
From da855b42d2005d9b701758e9d59836131ee8c6fb Mon Sep 17 00:00:00 2001
From: Fang Han <hanfa@umich.edu>
Date: Thu, 6 Nov 2025 12:27:16 -0800
Subject: [PATCH 203/976] [Doc]: Make extraInit containers fully configurable
 in helm chart (#27497)

Signed-off-by: Fang Han <fhan0520@gmail.com>
---
 docs/deployment/frameworks/helm.md            |  49 ++++++-
 examples/online_serving/chart-helm/README.md  |  12 ++
 .../chart-helm/templates/_helpers.tpl         |   7 +-
 .../chart-helm/templates/deployment.yaml      |  23 ++-
 .../chart-helm/templates/job.yaml             |  18 ++-
 .../chart-helm/tests/deployment_test.yaml     | 135 ++++++++++++++++++
 .../chart-helm/tests/job_test.yaml            |  61 ++++++++
 .../chart-helm/tests/pvc_test.yaml            |  32 +++++
 .../chart-helm/values.schema.json             |  70 ++++++++-
 .../online_serving/chart-helm/values.yaml     |  59 +++++++-
 10 files changed, 439 insertions(+), 27 deletions(-)
 create mode 100644 examples/online_serving/chart-helm/tests/deployment_test.yaml
 create mode 100644 examples/online_serving/chart-helm/tests/job_test.yaml
 create mode 100644 examples/online_serving/chart-helm/tests/pvc_test.yaml

diff --git a/docs/deployment/frameworks/helm.md b/docs/deployment/frameworks/helm.md
index e5d44945ba725..1d9e3632593ad 100644
--- a/docs/deployment/frameworks/helm.md
+++ b/docs/deployment/frameworks/helm.md
@@ -13,7 +13,7 @@ Before you begin, ensure that you have the following:
 - A running Kubernetes cluster
 - NVIDIA Kubernetes Device Plugin (`k8s-device-plugin`): This can be found at [https://github.com/NVIDIA/k8s-device-plugin](https://github.com/NVIDIA/k8s-device-plugin)
 - Available GPU resources in your cluster
-- An S3 with the model which will be deployed
+- (Optional) An S3 bucket or other storage with the model weights, if using automatic model download
 
 ## Installing the chart
 
@@ -61,10 +61,16 @@ The following table describes configurable parameters of the chart in `values.ya
 | deploymentStrategy | object | {} | Deployment strategy configuration |
 | externalConfigs | list | [] | External configuration |
 | extraContainers | list | [] | Additional containers configuration |
-| extraInit | object | {"pvcStorage":"1Gi","s3modelpath":"relative_s3_model_path/opt-125m", "awsEc2MetadataDisabled": true} | Additional configuration for the init container |
-| extraInit.pvcStorage | string | "1Gi" | Storage size of the s3 |
-| extraInit.s3modelpath | string | "relative_s3_model_path/opt-125m" | Path of the model on the s3 which hosts model weights and config files |
-| extraInit.awsEc2MetadataDisabled | boolean | true | Disables the use of the Amazon EC2 instance metadata service |
+| extraInit | object | {"modelDownload":{"enabled":true},"initContainers":[],"pvcStorage":"1Gi"} | Additional configuration for init containers |
+| extraInit.modelDownload | object | {"enabled":true} | Model download functionality configuration |
+| extraInit.modelDownload.enabled | bool | true | Enable automatic model download job and wait container |
+| extraInit.modelDownload.image | object | {"repository":"amazon/aws-cli","tag":"2.6.4","pullPolicy":"IfNotPresent"} | Image for model download operations |
+| extraInit.modelDownload.waitContainer | object | {} | Wait container configuration (command, args, env) |
+| extraInit.modelDownload.downloadJob | object | {} | Download job configuration (command, args, env) |
+| extraInit.initContainers | list | [] | Custom init containers (appended after model download if enabled) |
+| extraInit.pvcStorage | string | "1Gi" | Storage size for the PVC |
+| extraInit.s3modelpath | string | "relative_s3_model_path/opt-125m" | (Optional) Path of the model on S3 |
+| extraInit.awsEc2MetadataDisabled | bool | true | (Optional) Disable AWS EC2 metadata service |
 | extraPorts | list | [] | Additional ports configuration |
 | gpuModels | list | ["TYPE_GPU_USED"] | Type of gpu used |
 | image | object | {"command":["vllm","serve","/data/","--served-model-name","opt-125m","--host","0.0.0.0","--port","8000"],"repository":"vllm/vllm-openai","tag":"latest"} | Image configuration |
@@ -98,3 +104,36 @@ The following table describes configurable parameters of the chart in `values.ya
 | serviceName | string | "" | Service name |
 | servicePort | int | 80 | Service port |
 | labels.environment | string | test | Environment name |
+
+## Configuration Examples
+
+### Using S3 Model Download (Default)
+
+```yaml
+extraInit:
+  modelDownload:
+    enabled: true
+  pvcStorage: "10Gi"
+  s3modelpath: "models/llama-7b"
+```
+
+### Using Custom Init Containers Only
+
+For use cases like llm-d where you need custom sidecars without model download:
+
+```yaml
+extraInit:
+  modelDownload:
+    enabled: false
+  initContainers:
+    - name: llm-d-routing-proxy
+      image: ghcr.io/llm-d/llm-d-routing-sidecar:v0.2.0
+      imagePullPolicy: IfNotPresent
+      ports:
+        - containerPort: 8080
+          name: proxy
+      securityContext:
+        runAsUser: 1000
+      restartPolicy: Always
+  pvcStorage: "10Gi"
+```
diff --git a/examples/online_serving/chart-helm/README.md b/examples/online_serving/chart-helm/README.md
index bfe81121d1fd4..4376aac488f05 100644
--- a/examples/online_serving/chart-helm/README.md
+++ b/examples/online_serving/chart-helm/README.md
@@ -19,3 +19,15 @@ This directory contains a Helm chart for deploying the vllm application. The cha
 - templates/pvc.yaml: Template for Persistent Volume Claims.
 - templates/secrets.yaml: Template for Kubernetes Secrets.
 - templates/service.yaml: Template for creating Services.
+
+## Running Tests
+
+This chart includes unit tests using [helm-unittest](https://github.com/helm-unittest/helm-unittest). Install the plugin and run tests:
+
+```bash
+# Install plugin
+helm plugin install https://github.com/helm-unittest/helm-unittest
+
+# Run tests
+helm unittest .
+```
diff --git a/examples/online_serving/chart-helm/templates/_helpers.tpl b/examples/online_serving/chart-helm/templates/_helpers.tpl
index a9690bad3c945..3226c1d79c428 100644
--- a/examples/online_serving/chart-helm/templates/_helpers.tpl
+++ b/examples/online_serving/chart-helm/templates/_helpers.tpl
@@ -123,9 +123,6 @@ runAsUser:
 {{-   end }}
 {{- end }}
 
-{{- define "chart.extraInitImage" -}}
-"amazon/aws-cli:2.6.4"
-{{- end }}
 
 {{- define "chart.extraInitEnv" -}}
 - name: S3_ENDPOINT_URL
@@ -148,11 +145,15 @@ runAsUser:
     secretKeyRef:
       name: {{ .Release.Name }}-secrets
       key: s3accesskey
+{{- if .Values.extraInit.s3modelpath }}
 - name: S3_PATH
   value: "{{ .Values.extraInit.s3modelpath }}"
+{{- end }}
+{{- if hasKey .Values.extraInit "awsEc2MetadataDisabled" }}
 - name: AWS_EC2_METADATA_DISABLED
   value: "{{ .Values.extraInit.awsEc2MetadataDisabled }}"
 {{- end }}
+{{- end }}
 
 {{/*
   Define chart labels
diff --git a/examples/online_serving/chart-helm/templates/deployment.yaml b/examples/online_serving/chart-helm/templates/deployment.yaml
index 536983b587be2..a0a3c4b9ee523 100644
--- a/examples/online_serving/chart-helm/templates/deployment.yaml
+++ b/examples/online_serving/chart-helm/templates/deployment.yaml
@@ -72,16 +72,21 @@ spec:
         {{ toYaml . | nindent 8 }}
         {{- end }}
 
-      {{-   if .Values.extraInit  }}
+      {{- if and .Values.extraInit (or .Values.extraInit.modelDownload.enabled .Values.extraInit.initContainers) }}
       initContainers:
+      {{- if .Values.extraInit.modelDownload.enabled }}
       - name: wait-download-model
-        image: {{ include "chart.extraInitImage" . }}
-        command: 
-          - /bin/bash
+        image: {{ .Values.extraInit.modelDownload.image.repository }}:{{ .Values.extraInit.modelDownload.image.tag }}
+        imagePullPolicy: {{ .Values.extraInit.modelDownload.image.pullPolicy }}
+        command: {{ .Values.extraInit.modelDownload.waitContainer.command | toJson }}
         args:
-          - -eucx
-          - while aws --endpoint-url $S3_ENDPOINT_URL s3 sync --dryrun s3://$S3_BUCKET_NAME/$S3_PATH /data | grep -q download; do sleep 10; done
-        env: {{- include "chart.extraInitEnv" . | nindent 10 }}
+        {{- toYaml .Values.extraInit.modelDownload.waitContainer.args | nindent 10 }}
+        env:
+        {{- if .Values.extraInit.modelDownload.waitContainer.env }}
+        {{- toYaml .Values.extraInit.modelDownload.waitContainer.env | nindent 10 }}
+        {{- else }}
+        {{- include "chart.extraInitEnv" . | nindent 10 }}
+        {{- end }}
         resources:
           requests:
             cpu: 200m
@@ -93,6 +98,10 @@ spec:
         - name: {{ .Release.Name }}-storage
           mountPath: /data
       {{- end }}
+      {{- with .Values.extraInit.initContainers }}
+      {{- toYaml . | nindent 6 }}
+      {{- end }}
+      {{- end }}
       volumes:
         - name: {{ .Release.Name }}-storage
           persistentVolumeClaim:
diff --git a/examples/online_serving/chart-helm/templates/job.yaml b/examples/online_serving/chart-helm/templates/job.yaml
index f9ea3541e78d2..98d313916ca48 100644
--- a/examples/online_serving/chart-helm/templates/job.yaml
+++ b/examples/online_serving/chart-helm/templates/job.yaml
@@ -1,4 +1,4 @@
-{{-   if .Values.extraInit  }}
+{{- if and .Values.extraInit .Values.extraInit.modelDownload.enabled }}
 apiVersion: batch/v1
 kind: Job
 metadata:
@@ -12,13 +12,17 @@ spec:
    spec:
     containers:
     - name: job-download-model
-      image: {{ include "chart.extraInitImage" . }}
-      command: 
-        - /bin/bash
+      image: {{ .Values.extraInit.modelDownload.image.repository }}:{{ .Values.extraInit.modelDownload.image.tag }}
+      imagePullPolicy: {{ .Values.extraInit.modelDownload.image.pullPolicy }}
+      command: {{ .Values.extraInit.modelDownload.downloadJob.command | toJson }}
       args:
-        - -eucx
-        - aws --endpoint-url $S3_ENDPOINT_URL s3 sync s3://$S3_BUCKET_NAME/$S3_PATH /data
-      env: {{- include "chart.extraInitEnv" . | nindent 8 }}
+      {{- toYaml .Values.extraInit.modelDownload.downloadJob.args | nindent 8 }}
+      env:
+      {{- if .Values.extraInit.modelDownload.downloadJob.env }}
+      {{- toYaml .Values.extraInit.modelDownload.downloadJob.env | nindent 8 }}
+      {{- else }}
+      {{- include "chart.extraInitEnv" . | nindent 8 }}
+      {{- end }}
       volumeMounts:
         - name: {{ .Release.Name }}-storage
           mountPath: /data
diff --git a/examples/online_serving/chart-helm/tests/deployment_test.yaml b/examples/online_serving/chart-helm/tests/deployment_test.yaml
new file mode 100644
index 0000000000000..9b7472cf0fd43
--- /dev/null
+++ b/examples/online_serving/chart-helm/tests/deployment_test.yaml
@@ -0,0 +1,135 @@
+suite: test deployment
+templates:
+  - deployment.yaml
+tests:
+  - it: should create wait-download-model init container when modelDownload is enabled
+    set:
+      extraInit:
+        modelDownload:
+          enabled: true
+          image:
+            repository: "amazon/aws-cli"
+            tag: "2.6.4"
+            pullPolicy: "IfNotPresent"
+          waitContainer:
+            command: [ "/bin/bash" ]
+            args:
+              - "-eucx"
+              - "while aws --endpoint-url $S3_ENDPOINT_URL s3 sync --dryrun s3://$S3_BUCKET_NAME/$S3_PATH /data | grep -q download; do sleep 10; done"
+          downloadJob:
+            command: [ "/bin/bash" ]
+            args:
+              - "-eucx"
+              - "aws --endpoint-url $S3_ENDPOINT_URL s3 sync s3://$S3_BUCKET_NAME/$S3_PATH /data"
+        initContainers: [ ]
+        pvcStorage: "1Gi"
+        s3modelpath: "relative_s3_model_path/opt-125m"
+        awsEc2MetadataDisabled: true
+    asserts:
+      - hasDocuments:
+          count: 1
+      - isKind:
+          of: Deployment
+      - isNotEmpty:
+          path: spec.template.spec.initContainers
+      - equal:
+          path: spec.template.spec.initContainers[0].name
+          value: wait-download-model
+      - equal:
+          path: spec.template.spec.initContainers[0].image
+          value: amazon/aws-cli:2.6.4
+      - equal:
+          path: spec.template.spec.initContainers[0].imagePullPolicy
+          value: IfNotPresent
+
+  - it: should only create custom init containers when modelDownload is disabled
+    set:
+      extraInit:
+        modelDownload:
+          enabled: false
+          image:
+            repository: "amazon/aws-cli"
+            tag: "2.6.4"
+            pullPolicy: "IfNotPresent"
+          waitContainer:
+            command: [ "/bin/bash" ]
+            args: [ "-c", "echo test" ]
+          downloadJob:
+            command: [ "/bin/bash" ]
+            args: [ "-c", "echo test" ]
+        initContainers:
+          - name: llm-d-routing-proxy
+            image: ghcr.io/llm-d/llm-d-routing-sidecar:v0.2.0
+            imagePullPolicy: IfNotPresent
+            ports:
+              - containerPort: 8080
+                name: proxy
+        pvcStorage: "10Gi"
+    asserts:
+      - hasDocuments:
+          count: 1
+      - isKind:
+          of: Deployment
+      - lengthEqual:
+          path: spec.template.spec.initContainers
+          count: 1
+      - equal:
+          path: spec.template.spec.initContainers[0].name
+          value: llm-d-routing-proxy
+      - equal:
+          path: spec.template.spec.initContainers[0].image
+          value: ghcr.io/llm-d/llm-d-routing-sidecar:v0.2.0
+      - equal:
+          path: spec.template.spec.initContainers[0].ports[0].containerPort
+          value: 8080
+
+  - it: should create both wait-download-model and custom init containers when both are enabled
+    set:
+      extraInit:
+        modelDownload:
+          enabled: true
+          image:
+            repository: "amazon/aws-cli"
+            tag: "2.6.4"
+            pullPolicy: "IfNotPresent"
+          waitContainer:
+            command: [ "/bin/bash" ]
+            args:
+              - "-eucx"
+              - "while aws --endpoint-url $S3_ENDPOINT_URL s3 sync --dryrun s3://$S3_BUCKET_NAME/$S3_PATH /data | grep -q download; do sleep 10; done"
+          downloadJob:
+            command: [ "/bin/bash" ]
+            args:
+              - "-eucx"
+              - "aws --endpoint-url $S3_ENDPOINT_URL s3 sync s3://$S3_BUCKET_NAME/$S3_PATH /data"
+        initContainers:
+          - name: llm-d-routing-proxy
+            image: ghcr.io/llm-d/llm-d-routing-sidecar:v0.2.0
+            imagePullPolicy: IfNotPresent
+            ports:
+              - containerPort: 8080
+                name: proxy
+        pvcStorage: "10Gi"
+    asserts:
+      - hasDocuments:
+          count: 1
+      - isKind:
+          of: Deployment
+      - lengthEqual:
+          path: spec.template.spec.initContainers
+          count: 2
+      - equal:
+          path: spec.template.spec.initContainers[0].name
+          value: wait-download-model
+      - equal:
+          path: spec.template.spec.initContainers[0].image
+          value: amazon/aws-cli:2.6.4
+      - equal:
+          path: spec.template.spec.initContainers[1].name
+          value: llm-d-routing-proxy
+      - equal:
+          path: spec.template.spec.initContainers[1].image
+          value: ghcr.io/llm-d/llm-d-routing-sidecar:v0.2.0
+      - equal:
+          path: spec.template.spec.initContainers[1].ports[0].containerPort
+          value: 8080
\ No newline at end of file
diff --git a/examples/online_serving/chart-helm/tests/job_test.yaml b/examples/online_serving/chart-helm/tests/job_test.yaml
new file mode 100644
index 0000000000000..25d40ff265132
--- /dev/null
+++ b/examples/online_serving/chart-helm/tests/job_test.yaml
@@ -0,0 +1,61 @@
+suite: test job
+templates:
+  - job.yaml
+tests:
+  - it: should create job when modelDownload is enabled
+    set:
+      extraInit:
+        modelDownload:
+          enabled: true
+          image:
+            repository: "amazon/aws-cli"
+            tag: "2.6.4"
+            pullPolicy: "IfNotPresent"
+          waitContainer:
+            command: [ "/bin/bash" ]
+            args: [ "-c", "wait" ]
+          downloadJob:
+            command: [ "/bin/bash" ]
+            args:
+              - "-eucx"
+              - "aws --endpoint-url $S3_ENDPOINT_URL s3 sync s3://$S3_BUCKET_NAME/$S3_PATH /data"
+        pvcStorage: "1Gi"
+        s3modelpath: "relative_s3_model_path/opt-125m"
+        awsEc2MetadataDisabled: true
+    asserts:
+      - hasDocuments:
+          count: 1
+      - isKind:
+          of: Job
+      - equal:
+          path: spec.template.spec.containers[0].name
+          value: job-download-model
+      - equal:
+          path: spec.template.spec.containers[0].image
+          value: amazon/aws-cli:2.6.4
+      - equal:
+          path: spec.template.spec.restartPolicy
+          value: OnFailure
+
+  - it: should not create job when modelDownload is disabled
+    set:
+      extraInit:
+        modelDownload:
+          enabled: false
+          image:
+            repository: "amazon/aws-cli"
+            tag: "2.6.4"
+            pullPolicy: "IfNotPresent"
+          waitContainer:
+            command: [ "/bin/bash" ]
+            args: [ "-c", "wait" ]
+          downloadJob:
+            command: [ "/bin/bash" ]
+            args: [ "-c", "download" ]
+        initContainers:
+          - name: llm-d-routing-proxy
+            image: ghcr.io/llm-d/llm-d-routing-sidecar:v0.2.0
+        pvcStorage: "10Gi"
+    asserts:
+      - hasDocuments:
+          count: 0
diff --git a/examples/online_serving/chart-helm/tests/pvc_test.yaml b/examples/online_serving/chart-helm/tests/pvc_test.yaml
new file mode 100644
index 0000000000000..2a8b37da7e8bd
--- /dev/null
+++ b/examples/online_serving/chart-helm/tests/pvc_test.yaml
@@ -0,0 +1,32 @@
+suite: test pvc
+templates:
+  - pvc.yaml
+tests:
+  # Test Case: PVC Created When extraInit Defined
+  - it: should create pvc when extraInit is defined
+    set:
+      extraInit:
+        modelDownload:
+          enabled: true
+          image:
+            repository: "amazon/aws-cli"
+            tag: "2.6.4"
+            pullPolicy: "IfNotPresent"
+          waitContainer:
+            command: ["/bin/bash"]
+            args: ["-c", "wait"]
+          downloadJob:
+            command: ["/bin/bash"]
+            args: ["-c", "download"]
+        pvcStorage: "10Gi"
+    asserts:
+      - hasDocuments:
+          count: 1
+      - isKind:
+          of: PersistentVolumeClaim
+      - equal:
+          path: spec.accessModes[0]
+          value: ReadWriteOnce
+      - equal:
+          path: spec.resources.requests.storage
+          value: 10Gi
\ No newline at end of file
diff --git a/examples/online_serving/chart-helm/values.schema.json b/examples/online_serving/chart-helm/values.schema.json
index 812d54bde1397..0d0e0098bc194 100644
--- a/examples/online_serving/chart-helm/values.schema.json
+++ b/examples/online_serving/chart-helm/values.schema.json
@@ -136,6 +136,70 @@
         "extraInit": {
             "type": "object",
             "properties": {
+                "modelDownload": {
+                    "type": "object",
+                    "properties": {
+                        "enabled": {
+                            "type": "boolean"
+                        },
+                        "image": {
+                            "type": "object",
+                            "properties": {
+                                "repository": {
+                                    "type": "string"
+                                },
+                                "tag": {
+                                    "type": "string"
+                                },
+                                "pullPolicy": {
+                                    "type": "string"
+                                }
+                            },
+                            "required": ["repository", "tag", "pullPolicy"]
+                        },
+                        "waitContainer": {
+                            "type": "object",
+                            "properties": {
+                                "command": {
+                                    "type": "array",
+                                    "items": {"type": "string"}
+                                },
+                                "args": {
+                                    "type": "array",
+                                    "items": {"type": "string"}
+                                },
+                                "env": {
+                                    "type": "array",
+                                    "items": {"type": "object"}
+                                }
+                            },
+                            "required": ["command", "args"]
+                        },
+                        "downloadJob": {
+                            "type": "object",
+                            "properties": {
+                                "command": {
+                                    "type": "array",
+                                    "items": {"type": "string"}
+                                },
+                                "args": {
+                                    "type": "array",
+                                    "items": {"type": "string"}
+                                },
+                                "env": {
+                                    "type": "array",
+                                    "items": {"type": "object"}
+                                }
+                            },
+                            "required": ["command", "args"]
+                        }
+                    },
+                    "required": ["enabled", "image", "waitContainer", "downloadJob"]
+                },
+                "initContainers": {
+                    "type": "array",
+                    "items": {"type": "object"}
+                },
                 "s3modelpath": {
                     "type": "string"
                 },
@@ -147,9 +211,9 @@
                 }
             },
             "required": [
-                "pvcStorage",
-                "s3modelpath",
-                "awsEc2MetadataDisabled"
+                "modelDownload",
+                "initContainers",
+                "pvcStorage"
             ]
         },
         "extraContainers": {
diff --git a/examples/online_serving/chart-helm/values.yaml b/examples/online_serving/chart-helm/values.yaml
index 815f02a4bfd52..8c6c9ae8ea239 100644
--- a/examples/online_serving/chart-helm/values.yaml
+++ b/examples/online_serving/chart-helm/values.yaml
@@ -75,10 +75,65 @@ maxUnavailablePodDisruptionBudget: ""
 
 # -- Additional configuration for the init container
 extraInit:
-   # -- Path of the model on the s3 which hosts model weights and config files
+  # -- Model download functionality (optional)
+  modelDownload:
+    # -- Enable model download job and wait container
+    enabled: true
+    # -- Image configuration for model download operations
+    image:
+      # -- Image repository
+      repository: "amazon/aws-cli"
+      # -- Image tag
+      tag: "2.6.4"
+      # -- Image pull policy
+      pullPolicy: "IfNotPresent"
+    # -- Wait container configuration (init container that waits for model to be ready)
+    waitContainer:
+      # -- Command to execute
+      command: ["/bin/bash"]
+      # -- Arguments for the wait container
+      args:
+        - "-eucx"
+        - "while aws --endpoint-url $S3_ENDPOINT_URL s3 sync --dryrun s3://$S3_BUCKET_NAME/$S3_PATH /data | grep -q download; do sleep 10; done"
+      # -- Environment variables (optional, overrides S3 defaults entirely if specified)
+      # env:
+      #   - name: HUGGING_FACE_HUB_TOKEN
+      #     value: "your-token"
+      #   - name: MODEL_ID
+      #     value: "meta-llama/Llama-2-7b"
+    # -- Download job configuration (job that actually downloads the model)
+    downloadJob:
+      # -- Command to execute
+      command: ["/bin/bash"]
+      # -- Arguments for the download job
+      args:
+        - "-eucx"
+        - "aws --endpoint-url $S3_ENDPOINT_URL s3 sync s3://$S3_BUCKET_NAME/$S3_PATH /data"
+      # -- Environment variables (optional, overrides S3 defaults entirely if specified)
+      # env:
+      #   - name: HUGGING_FACE_HUB_TOKEN
+      #     value: "your-token"
+      #   - name: MODEL_ID
+      #     value: "meta-llama/Llama-2-7b"
+
+  # -- Custom init containers (appended after wait-download-model if modelDownload is enabled)
+  initContainers: []
+  # Example for llm-d sidecar:
+  # initContainers:
+  #   - name: llm-d-routing-proxy
+  #     image: ghcr.io/llm-d/llm-d-routing-sidecar:v0.2.0
+  #     imagePullPolicy: IfNotPresent
+  #     ports:
+  #       - containerPort: 8080
+  #         name: proxy
+  #     securityContext:
+  #       runAsUser: 1000
+
+  # -- Path of the model on the s3 which hosts model weights and config files
   s3modelpath: "relative_s3_model_path/opt-125m"
-   # -- Storage size of the s3
+  # -- Storage size for the PVC
   pvcStorage: "1Gi"
+  # -- Disable AWS EC2 metadata service
   awsEc2MetadataDisabled: true
 
 # -- Additional containers configuration

From ca90f503041f17ace06a288f06ebfc455402e3bc Mon Sep 17 00:00:00 2001
From: Matthew Bonanni <mbonanni@redhat.com>
Date: Thu, 6 Nov 2025 15:59:57 -0500
Subject: [PATCH 204/976] [Test] Add non-MoE DP test coverage (#28235)

Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>
---
 tests/v1/distributed/test_async_llm_dp.py | 29 +++++++++++++++--------
 1 file changed, 19 insertions(+), 10 deletions(-)

diff --git a/tests/v1/distributed/test_async_llm_dp.py b/tests/v1/distributed/test_async_llm_dp.py
index 98d6ef7dbf440..60f9017184ea0 100644
--- a/tests/v1/distributed/test_async_llm_dp.py
+++ b/tests/v1/distributed/test_async_llm_dp.py
@@ -20,13 +20,6 @@ from vllm.v1.metrics.stats import IterationStats, MultiModalCacheStats, Schedule
 
 DP_SIZE = int(os.getenv("DP_SIZE", 2))
 
-engine_args = AsyncEngineArgs(
-    model="ibm-research/PowerMoE-3b",
-    enforce_eager=True,
-    tensor_parallel_size=int(os.getenv("TP_SIZE", 1)),
-    data_parallel_size=DP_SIZE,
-)
-
 
 async def generate(
     engine: AsyncLLM,
@@ -65,6 +58,13 @@ async def generate(
     return count, request_id
 
 
+@pytest.mark.parametrize(
+    "model",
+    [
+        "ibm-research/PowerMoE-3b",
+        "hmellor/tiny-random-LlamaForCausalLM",
+    ],
+)
 @pytest.mark.parametrize(
     "output_kind",
     [
@@ -76,7 +76,10 @@ async def generate(
 @pytest.mark.parametrize("async_scheduling", [True, False])
 @pytest.mark.asyncio
 async def test_load(
-    output_kind: RequestOutputKind, data_parallel_backend: str, async_scheduling: bool
+    model: str,
+    output_kind: RequestOutputKind,
+    data_parallel_backend: str,
+    async_scheduling: bool,
 ):
     if async_scheduling and data_parallel_backend == "ray":
         # TODO(NickLucche) Re-enable when async scheduling is supported
@@ -107,8 +110,14 @@ async def test_load(
     with ExitStack() as after:
         prompt = "This is a test of data parallel"
 
-        engine_args.data_parallel_backend = data_parallel_backend
-        engine_args.async_scheduling = async_scheduling
+        engine_args = AsyncEngineArgs(
+            model=model,
+            enforce_eager=True,
+            tensor_parallel_size=int(os.getenv("TP_SIZE", 1)),
+            data_parallel_size=DP_SIZE,
+            data_parallel_backend=data_parallel_backend,
+            async_scheduling=async_scheduling,
+        )
         engine = AsyncLLM.from_engine_args(
             engine_args, stat_loggers=[SimpleStatsLogger]
         )

From ca6f755d2416bb1bd1b924b40481a41b2b0eaf85 Mon Sep 17 00:00:00 2001
From: Varun Sundar Rabindranath <varunsundar08@gmail.com>
Date: Thu, 6 Nov 2025 17:53:30 -0500
Subject: [PATCH 205/976] [BugFix] Fix FusedMoELoRA + ModularKernel Integration
 (#28237)

Signed-off-by: Varun Sundar Rabindranath <vsundarr@redhat.com>
Co-authored-by: Varun Sundar Rabindranath <vsundarr@redhat.com>
---
 vllm/lora/layers/fused_moe.py | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/vllm/lora/layers/fused_moe.py b/vllm/lora/layers/fused_moe.py
index f5a766dd5e45a..dadb9e25ba2f1 100644
--- a/vllm/lora/layers/fused_moe.py
+++ b/vllm/lora/layers/fused_moe.py
@@ -25,6 +25,7 @@ from vllm.model_executor.layers.fused_moe.fused_moe import (
     modular_triton_fused_moe,
     try_get_optimal_moe_config,
 )
+from vllm.model_executor.layers.fused_moe.layer import FusedMoEModularMethod
 
 
 class FusedMoEWithLoRA(BaseLayerWithLoRA):
@@ -280,10 +281,9 @@ class FusedMoEWithLoRA(BaseLayerWithLoRA):
             self.base_layer, fused_experts.moe_sum
         )
 
-        self.base_layer.quant_method.old_fused_experts = (
-            self.base_layer.quant_method.fused_experts
+        self.base_layer.quant_method = FusedMoEModularMethod(
+            self.base_layer.quant_method, m_fused_moe_fn
         )
-        self.base_layer.quant_method.fused_experts = m_fused_moe_fn
 
     def create_lora_weights(
         self,

From 827e4237bc28a8f5128639b6d8c99b485035de19 Mon Sep 17 00:00:00 2001
From: Eugene Khvedchenya <ekhvedchenia@nvidia.com>
Date: Fri, 7 Nov 2025 01:32:25 +0200
Subject: [PATCH 206/976] Fix failing test for CRadio (#27738)

Signed-off-by: Eugene Khvedchenia <ekhvedchenia@nvidia.com>
Signed-off-by: Cyrus Leung <cyrus.tl.leung@gmail.com>
Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>
Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com>
Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
Co-authored-by: wang.yuqi <noooop@126.com>
---
 tests/models/multimodal/pooling/test_radio.py | 13 ++++++++++++-
 1 file changed, 12 insertions(+), 1 deletion(-)

diff --git a/tests/models/multimodal/pooling/test_radio.py b/tests/models/multimodal/pooling/test_radio.py
index 8929563d8b050..1f5baed83fa62 100644
--- a/tests/models/multimodal/pooling/test_radio.py
+++ b/tests/models/multimodal/pooling/test_radio.py
@@ -42,6 +42,10 @@ def run_radio_test(
 
     config = AutoConfig.from_pretrained(model_id, trust_remote_code=True)
 
+    # RADIO model on HF does not properly handle torch_dtype argument
+    # And relies on args["dtype"] which we have to patch manually:
+    config.args["dtype"] = torch_dtype
+
     hf_model = AutoModel.from_pretrained(
         model_id,
         config=config,
@@ -50,6 +54,13 @@ def run_radio_test(
     ).to("cuda")
     hf_model.eval()
 
+    # A HF model has image normalization as a part of model's forward
+    # However in vLLM we don't make normalization a part of the model
+    # forward step since mean/std stored as model's parameters and
+    # subject to precision loss (when using fp16/bf16) which negatively
+    # affects evaluation benchmarks.
+    hf_model.make_preprocessor_external()
+
     hf_outputs_per_image = [
         hf_model(pixel_value.to("cuda")).features for pixel_value in pixel_values
     ]
@@ -78,7 +89,7 @@ def run_radio_test(
         "nvidia/C-RADIOv2-H",
     ],
 )
-@pytest.mark.parametrize("dtype", ["half"])
+@pytest.mark.parametrize("dtype", ["half", "bfloat16"])
 def test_radio(dist_init, image_assets, model_id, dtype: str) -> None:
     run_radio_test(
         image_assets,

From 59b453eaa2b5434c62cf954e75937cd930cbdc13 Mon Sep 17 00:00:00 2001
From: Junhong Liu <98734602+LJH-LBJ@users.noreply.github.com>
Date: Fri, 7 Nov 2025 07:51:28 +0800
Subject: [PATCH 207/976] Speed up mm processor kwargs per request by spliting
 dynamic and static kwargs (#26483)

Signed-off-by: Junhong <liujunhong11@huawei.com>
Signed-off-by: Junhong Liu <98734602+LJH-LBJ@users.noreply.github.com>
Co-authored-by: Junhong <liujunhong11@huawei.com>
---
 ...est_get_processor_kwargs_from_processor.py | 66 +++++++++++++
 vllm/transformers_utils/processor.py          | 92 ++++++++++++++++++-
 2 files changed, 155 insertions(+), 3 deletions(-)
 create mode 100644 tests/transformers_utils/test_get_processor_kwargs_from_processor.py

diff --git a/tests/transformers_utils/test_get_processor_kwargs_from_processor.py b/tests/transformers_utils/test_get_processor_kwargs_from_processor.py
new file mode 100644
index 0000000000000..95ff9a557fa05
--- /dev/null
+++ b/tests/transformers_utils/test_get_processor_kwargs_from_processor.py
@@ -0,0 +1,66 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import importlib
+
+from transformers.processing_utils import ProcessingKwargs
+from typing_extensions import Unpack
+
+from vllm.transformers_utils.processor import (
+    get_processor_kwargs_from_processor,
+)
+
+
+class _FakeProcessorKwargs(ProcessingKwargs, total=False):  # type: ignore
+    pass
+
+
+def _assert_has_all_expected(keys: set[str]) -> None:
+    # text
+    for k in ("text_pair", "text_target", "text_pair_target"):
+        assert k in keys
+    # image
+    for k in ("do_convert_rgb", "do_resize"):
+        assert k in keys
+    # audio
+    for k in (
+        "fps",
+        "do_sample_frames",
+        "input_data_format",
+        "default_to_square",
+    ):
+        assert k in keys
+    # audio
+    for k in ("padding", "return_attention_mask"):
+        assert k in keys
+
+
+# Path 1: __call__ method has kwargs: Unpack[*ProcessingKwargs]
+class _ProcWithUnpack:
+    def __call__(self, *args, **kwargs: Unpack[_FakeProcessorKwargs]):  # type: ignore
+        return None
+
+
+def test_get_processor_kwargs_from_processor_unpack_path_returns_full_union():
+    proc = _ProcWithUnpack()
+    keys = get_processor_kwargs_from_processor(proc)
+    _assert_has_all_expected(keys)
+
+
+# ---- Path 2: No Unpack, fallback to scanning *ProcessingKwargs in module ----
+
+
+class _ProcWithoutUnpack:
+    def __call__(self, *args, **kwargs):
+        return None
+
+
+def test_get_processor_kwargs_from_processor_module_scan_returns_full_union():
+    # ensure the module scanned by fallback is this test module
+    module_name = _ProcWithoutUnpack.__module__
+    mod = importlib.import_module(module_name)
+    assert hasattr(mod, "_FakeProcessorKwargs")
+
+    proc = _ProcWithoutUnpack()
+    keys = get_processor_kwargs_from_processor(proc)
+    _assert_has_all_expected(keys)
diff --git a/vllm/transformers_utils/processor.py b/vllm/transformers_utils/processor.py
index 8ba3aec454ad7..b3469c1b18f2d 100644
--- a/vllm/transformers_utils/processor.py
+++ b/vllm/transformers_utils/processor.py
@@ -1,8 +1,10 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
+import importlib
+import inspect
 from functools import lru_cache
-from typing import TYPE_CHECKING, Any, cast
+from typing import TYPE_CHECKING, Any, cast, get_args, get_type_hints
 
 from transformers import (
     AutoFeatureExtractor,
@@ -55,6 +57,23 @@ def _get_processor_factory_fn(processor_cls: type | tuple[type, ...]):
     return processor_cls
 
 
+@lru_cache
+def _collect_dynamic_keys_from_processing_kwargs(kwargs_cls: type) -> set[str]:
+    dynamic_kwargs: set[str] = set()
+    if kwargs_cls is None:
+        return dynamic_kwargs
+    # get kwargs annotations in processor
+    # merge text_kwargs / images_kwargs / videos_kwargs / audio_kwargs
+    kwargs_type_annotations = get_type_hints(kwargs_cls)
+    for kw_type in ("text_kwargs", "images_kwargs", "videos_kwargs", "audio_kwargs"):
+        if kw_type in kwargs_type_annotations:
+            kw_annotations = get_type_hints(kwargs_type_annotations[kw_type])
+            for kw_name in kw_annotations:
+                dynamic_kwargs.add(kw_name)
+    dynamic_kwargs |= {"text_kwargs", "images_kwargs", "videos_kwargs", "audio_kwargs"}
+    return dynamic_kwargs
+
+
 def _merge_mm_kwargs(
     model_config: "ModelConfig",
     processor_cls: type | tuple[type, ...],
@@ -71,7 +90,6 @@ def _merge_mm_kwargs(
         requires_kw_only=False,
         allow_var_kwargs=True,
     )
-
     # NOTE: Pythonic dict is not hashable and will raise unhashable type
     # error when calling `cached_get_processor`, therefore we need to
     # wrap it to a hashable dict.
@@ -145,12 +163,80 @@ def get_processor(
 cached_get_processor = lru_cache(get_processor)
 
 
+@lru_cache
+def get_processor_kwargs_from_processor(processor: _P) -> set[str]:
+    try:
+        # get kwargs annotations in processor
+        call_kwargs = inspect.signature(type(processor).__call__).parameters.get(
+            "kwargs"
+        )
+        call_kwargs_annotations = call_kwargs.annotation if call_kwargs else None
+        # if the processor has explicit kwargs annotation, use it
+        if call_kwargs_annotations not in (None, inspect._empty):
+            # get_type_hints will parse all type annotations at runtime,
+            # and if an annotation refers to a type or
+            # name that hasn’t been imported or defined, it will raise an error.
+            # So we use __annotations__ to get the raw annotations directly.
+            return _collect_dynamic_keys_from_processing_kwargs(
+                get_args(call_kwargs_annotations)[0]
+            )
+        # otherwise, try to get from ProcessingKwargs
+        else:
+            module_name = type(processor).__module__
+            mod = importlib.import_module(module_name)
+            # find *ProcessingKwargs in the module
+            processor_kwargs: set[str] = set()
+            for name, obj in vars(mod).items():
+                if name.endswith("ProcessingKwargs"):
+                    processor_kwargs = (
+                        processor_kwargs
+                        | _collect_dynamic_keys_from_processing_kwargs(obj)
+                    )
+            return processor_kwargs
+    except Exception:
+        return set()
+
+
+def cached_get_processor_without_dynamic_kwargs(
+    processor_name: str,
+    *args: Any,
+    revision: str | None = None,
+    trust_remote_code: bool = False,
+    processor_cls: type[_P] | tuple[type[_P], ...] = ProcessorMixin,
+    **kwargs: Any,
+) -> _P:
+    # Step 1: use default kwargs to get a temporary processor instance
+    processor = cached_get_processor(
+        processor_name,
+        revision=revision,
+        trust_remote_code=trust_remote_code,
+        processor_cls=processor_cls,  # type: ignore[arg-type]
+    )
+
+    # Step 2: use temporary processor collect dynamic keys
+    dynamic_keys = get_processor_kwargs_from_processor(processor)
+
+    # Step 3: use dynamic_keys filter kwargs
+    filtered_kwargs = {k: v for k, v in kwargs.items() if k not in dynamic_keys}
+
+    # Step 4: use filtered kwargs to get final processor instance
+    final_processor = cached_get_processor(
+        processor_name,
+        revision=revision,
+        trust_remote_code=trust_remote_code,
+        processor_cls=processor_cls,  # type: ignore[arg-type]
+        **filtered_kwargs,
+    )
+
+    return final_processor
+
+
 def cached_processor_from_config(
     model_config: "ModelConfig",
     processor_cls: type[_P] | tuple[type[_P], ...] = ProcessorMixin,
     **kwargs: Any,
 ) -> _P:
-    return cached_get_processor(
+    return cached_get_processor_without_dynamic_kwargs(
         model_config.model,
         revision=model_config.revision,
         trust_remote_code=model_config.trust_remote_code,

From 4bf56c79cc252d285d0cb4f5edf323f02af735ca Mon Sep 17 00:00:00 2001
From: Lucas Kabela <lucaskabela@meta.com>
Date: Thu, 6 Nov 2025 16:16:03 -0800
Subject: [PATCH 208/976] [Multimodal][torch.compile] Add compilation config
 field for turning off ViT/MM compile (#28242)

Signed-off-by: Lucas Kabela <lucaskabela@meta.com>
---
 tests/compile/test_multimodal_compile.py      | 34 ++++++++++++++++++-
 vllm/config/compilation.py                    |  8 +++++
 vllm/model_executor/models/qwen2_5_vl.py      | 10 ++++--
 .../models/transformers/utils.py              | 11 ++++++
 4 files changed, 60 insertions(+), 3 deletions(-)

diff --git a/tests/compile/test_multimodal_compile.py b/tests/compile/test_multimodal_compile.py
index 2727821162ecb..b76c29819a2df 100644
--- a/tests/compile/test_multimodal_compile.py
+++ b/tests/compile/test_multimodal_compile.py
@@ -3,10 +3,17 @@
 import pytest
 
 from vllm.compilation.counter import compilation_counter
+from vllm.config import VllmConfig
 from vllm.config.compilation import CompilationMode
 from vllm.platforms import current_platform
 
 
+def test_compile():
+    vllm_config = VllmConfig()
+    # Default configuration compiles mm encoder
+    assert vllm_config.compilation_config.compile_mm_encoder
+
+
 # forked needed to workaround https://github.com/vllm-project/vllm/issues/21073
 @pytest.mark.forked
 @pytest.mark.skipif(not current_platform.is_cuda(), reason="Skip if not cuda")
@@ -31,8 +38,33 @@ def test_qwen2_5_vl_compilation(vllm_runner, monkeypatch):
         vllm_runner(
             "Qwen/Qwen2.5-VL-3B-Instruct",
             max_model_len=2048,
-            gpu_memory_utilization=0.7,
+            gpu_memory_utilization=0.8,
             compilation_config={"mode": CompilationMode.VLLM_COMPILE},
         ) as _,
     ):
         pass
+
+
+# forked needed to workaround https://github.com/vllm-project/vllm/issues/21073
+@pytest.mark.forked
+@pytest.mark.skipif(not current_platform.is_cuda(), reason="Skip if not cuda")
+def test_qwen2_5_vl_no_vit_compilation(vllm_runner, monkeypatch):
+    """Test that Qwen2.5-VL vision submodules are not compiled when the
+    config is passed off
+    """
+    # Disable multiprocessing so that the counter is in the same process
+    monkeypatch.setenv("VLLM_ENABLE_V1_MULTIPROCESSING", "0")
+
+    with (
+        compilation_counter.expect(num_models_seen=1),
+        vllm_runner(
+            "Qwen/Qwen2.5-VL-3B-Instruct",
+            max_model_len=2048,
+            gpu_memory_utilization=0.8,
+            compilation_config={
+                "mode": CompilationMode.VLLM_COMPILE,
+                "compile_mm_encoder": False,
+            },
+        ) as _,
+    ):
+        pass
diff --git a/vllm/config/compilation.py b/vllm/config/compilation.py
index 650104b62d3ff..b4f5040e338c4 100644
--- a/vllm/config/compilation.py
+++ b/vllm/config/compilation.py
@@ -150,6 +150,7 @@ class CompilationConfig:
         - [`backend`][vllm.config.CompilationConfig.backend]
         - [`custom_ops`][vllm.config.CompilationConfig.custom_ops]
         - [`splitting_ops`][vllm.config.CompilationConfig.splitting_ops]
+        - [`compile_mm_encoder`][vllm.config.CompilationConfig.compile_mm_encoder]
     - CudaGraph capture:
         - [`use_cudagraph`][vllm.config.CompilationConfig.use_cudagraph]
         - [`cudagraph_mode`][vllm.config.CompilationConfig.cudagraph_mode]
@@ -250,6 +251,13 @@ class CompilationConfig:
     disabled when running with Inductor: mode>=VLLM_COMPILE and use_inductor=True.
     Inductor generates (fused) Triton kernels for disabled custom ops."""
     splitting_ops: list[str] | None = None
+
+    """
+    Provide control over whether to compile the multimodal encoder 
+    such as Qwen2_5_vl 
+    """
+    compile_mm_encoder: bool = True
+
     """A list of ops to exclude from cudagraphs, used in piecewise compilation.
 
     The behavior depends on use_inductor_graph_partition:
diff --git a/vllm/model_executor/models/qwen2_5_vl.py b/vllm/model_executor/models/qwen2_5_vl.py
index 2b04608dfd03f..7cf76bee2aa6a 100644
--- a/vllm/model_executor/models/qwen2_5_vl.py
+++ b/vllm/model_executor/models/qwen2_5_vl.py
@@ -67,6 +67,9 @@ from vllm.model_executor.layers.linear import (
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.model_loader.weight_utils import default_weight_loader
 from vllm.model_executor.models.module_mapping import MultiModelKeys
+from vllm.model_executor.models.transformers.utils import (
+    should_torch_compile_mm_vit,
+)
 from vllm.multimodal import MULTIMODAL_REGISTRY
 from vllm.multimodal.evs import (
     compute_mrope_for_media,
@@ -464,6 +467,7 @@ class Qwen2_5_VisionAttention(nn.Module):
         "seqlens": 0,
     },
     mark_unbacked_dims={"seqlens": 0},
+    enable_if=should_torch_compile_mm_vit,
 )
 class Qwen2_5_VisionBlock(nn.Module):
     def __init__(
@@ -529,7 +533,8 @@ class Qwen2_5_VisionBlock(nn.Module):
 @support_torch_compile(
     dynamic_arg_dims={
         "x": 0,
-    }
+    },
+    enable_if=should_torch_compile_mm_vit,
 )
 class Qwen2_5_VisionPatchEmbed(nn.Module):
     def __init__(
@@ -560,7 +565,8 @@ class Qwen2_5_VisionPatchEmbed(nn.Module):
 @support_torch_compile(
     dynamic_arg_dims={
         "x": 0,
-    }
+    },
+    enable_if=should_torch_compile_mm_vit,
 )
 class Qwen2_5_VisionPatchMerger(nn.Module):
     def __init__(
diff --git a/vllm/model_executor/models/transformers/utils.py b/vllm/model_executor/models/transformers/utils.py
index 267a6e06e6bbf..8f09137190fe8 100644
--- a/vllm/model_executor/models/transformers/utils.py
+++ b/vllm/model_executor/models/transformers/utils.py
@@ -205,3 +205,14 @@ def can_enable_torch_compile(vllm_config: "VllmConfig") -> bool:
     # Dynamic rope scaling is not compatible with torch.compile
     rope_scaling: dict = getattr(text_config, "rope_scaling", None) or {}
     return rope_scaling.get("rope_type") != "dynamic"
+
+
+def should_torch_compile_mm_vit(vllm_config: "VllmConfig") -> bool:
+    """
+    Callable to be passed to `@support_torch_compile`'s `enable_if` argument.
+
+    Defaults to `True` but is disabled in the following situations:
+
+    - The model uses dynamic rope scaling.
+    """
+    return vllm_config.compilation_config.compile_mm_encoder

From e70fbc599b8e0306b093b51aa11d13957d7d00a8 Mon Sep 17 00:00:00 2001
From: Alex Brooks <alex.brooks@ibm.com>
Date: Thu, 6 Nov 2025 19:51:27 -0700
Subject: [PATCH 209/976] [CI/Build] Loosen STT LoRA Translate Check (Flaky
 Test) (#28247)

Signed-off-by: Alex-Brooks <Alex.Brooks@ibm.com>
Signed-off-by: Alex Brooks <alex.brooks@ibm.com>
Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com>
---
 tests/entrypoints/openai/test_translation_validation.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/tests/entrypoints/openai/test_translation_validation.py b/tests/entrypoints/openai/test_translation_validation.py
index c060ee2b1922c..d7d407484f16d 100644
--- a/tests/entrypoints/openai/test_translation_validation.py
+++ b/tests/entrypoints/openai/test_translation_validation.py
@@ -79,7 +79,7 @@ async def test_basic_audio_with_lora(mary_had_lamb):
             temperature=0.0,
         )
     out = json.loads(translation)["text"].strip().lower()
-    assert "mary tenía un pequeño cordero" in out
+    assert "pequeño" in out.split(" ")
 
 
 # NOTE: (NickLucche) the large-v3-turbo model was not trained on translation!

From a47d94f18cf0c4d919dee5ac7ee399880190a41d Mon Sep 17 00:00:00 2001
From: Alexis MacAskill <amacaskill@google.com>
Date: Thu, 6 Nov 2025 19:07:54 -0800
Subject: [PATCH 210/976] Add runai model streamer e2e test for GCS (#28079)

Signed-off-by: Alexis MacAskill <amacaskill@google.com>
---
 .buildkite/test-pipeline.yaml                   |  3 +++
 .../test_runai_model_streamer_loader.py         | 17 +++++++++++++++++
 2 files changed, 20 insertions(+)

diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index 10d1c33f816bc..f3c04183f9ef9 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -546,8 +546,11 @@ steps:
 
 - label: Model Executor Test # 23min
   timeout_in_minutes: 35
+  torch_nightly: true
   mirror_hardwares: [amdexperimental]
   source_file_dependencies:
+  - vllm/engine/arg_utils.py
+  - vllm/config/model.py
   - vllm/model_executor
   - tests/model_executor
   - tests/entrypoints/openai/test_tensorizer_entrypoint.py
diff --git a/tests/model_executor/model_loader/runai_model_streamer/test_runai_model_streamer_loader.py b/tests/model_executor/model_loader/runai_model_streamer/test_runai_model_streamer_loader.py
index 22bdb3b44eb03..1119d0de1c8b8 100644
--- a/tests/model_executor/model_loader/runai_model_streamer/test_runai_model_streamer_loader.py
+++ b/tests/model_executor/model_loader/runai_model_streamer/test_runai_model_streamer_loader.py
@@ -1,12 +1,16 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
+import pytest
+
 from vllm import SamplingParams
 from vllm.config.load import LoadConfig
 from vllm.model_executor.model_loader import get_model_loader
 
 load_format = "runai_streamer"
 test_model = "openai-community/gpt2"
+# TODO(amacaskill): Replace with a GKE owned GCS bucket.
+test_gcs_model = "gs://vertex-model-garden-public-us/codegemma/codegemma-2b/"
 
 prompts = [
     "Hello, my name is",
@@ -32,3 +36,16 @@ def test_runai_model_loader_download_files(vllm_runner):
     with vllm_runner(test_model, load_format=load_format) as llm:
         deserialized_outputs = llm.generate(prompts, sampling_params)
         assert deserialized_outputs
+
+
+def test_runai_model_loader_download_files_gcs(
+    vllm_runner, monkeypatch: pytest.MonkeyPatch
+):
+    monkeypatch.setenv("GOOGLE_CLOUD_PROJECT", "fake-project")
+    monkeypatch.setenv("RUNAI_STREAMER_GCS_USE_ANONYMOUS_CREDENTIALS", "true")
+    monkeypatch.setenv(
+        "CLOUD_STORAGE_EMULATOR_ENDPOINT", "https://storage.googleapis.com"
+    )
+    with vllm_runner(test_gcs_model, load_format=load_format) as llm:
+        deserialized_outputs = llm.generate(prompts, sampling_params)
+        assert deserialized_outputs

From c0a4b95d6474c72799cd8af4421ce922654c850e Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Thu, 6 Nov 2025 20:23:17 -0800
Subject: [PATCH 211/976] Fix issues from #28242 (#28257)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 vllm/config/compilation.py                       | 10 +++-------
 vllm/model_executor/models/qwen2_5_vl.py         |  4 +---
 vllm/model_executor/models/transformers/utils.py | 11 -----------
 vllm/model_executor/models/vision.py             |  6 ++++++
 4 files changed, 10 insertions(+), 21 deletions(-)

diff --git a/vllm/config/compilation.py b/vllm/config/compilation.py
index b4f5040e338c4..c84a060922e38 100644
--- a/vllm/config/compilation.py
+++ b/vllm/config/compilation.py
@@ -251,13 +251,6 @@ class CompilationConfig:
     disabled when running with Inductor: mode>=VLLM_COMPILE and use_inductor=True.
     Inductor generates (fused) Triton kernels for disabled custom ops."""
     splitting_ops: list[str] | None = None
-
-    """
-    Provide control over whether to compile the multimodal encoder 
-    such as Qwen2_5_vl 
-    """
-    compile_mm_encoder: bool = True
-
     """A list of ops to exclude from cudagraphs, used in piecewise compilation.
 
     The behavior depends on use_inductor_graph_partition:
@@ -275,6 +268,9 @@ class CompilationConfig:
 
     If None, defaults to attention ops for piecewise cudagraphs.
     If empty list [], no ops are excluded (suitable for full cudagraphs)."""
+    compile_mm_encoder: bool = True
+    """Whether or not to compile the multimodal encoder.
+    Currently, this only works for `Qwen2_5_vl`."""
 
     # Inductor capture
     use_inductor: bool | None = None
diff --git a/vllm/model_executor/models/qwen2_5_vl.py b/vllm/model_executor/models/qwen2_5_vl.py
index 7cf76bee2aa6a..a90cfe96414bd 100644
--- a/vllm/model_executor/models/qwen2_5_vl.py
+++ b/vllm/model_executor/models/qwen2_5_vl.py
@@ -67,9 +67,7 @@ from vllm.model_executor.layers.linear import (
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.model_loader.weight_utils import default_weight_loader
 from vllm.model_executor.models.module_mapping import MultiModelKeys
-from vllm.model_executor.models.transformers.utils import (
-    should_torch_compile_mm_vit,
-)
+from vllm.model_executor.models.vision import should_torch_compile_mm_vit
 from vllm.multimodal import MULTIMODAL_REGISTRY
 from vllm.multimodal.evs import (
     compute_mrope_for_media,
diff --git a/vllm/model_executor/models/transformers/utils.py b/vllm/model_executor/models/transformers/utils.py
index 8f09137190fe8..267a6e06e6bbf 100644
--- a/vllm/model_executor/models/transformers/utils.py
+++ b/vllm/model_executor/models/transformers/utils.py
@@ -205,14 +205,3 @@ def can_enable_torch_compile(vllm_config: "VllmConfig") -> bool:
     # Dynamic rope scaling is not compatible with torch.compile
     rope_scaling: dict = getattr(text_config, "rope_scaling", None) or {}
     return rope_scaling.get("rope_type") != "dynamic"
-
-
-def should_torch_compile_mm_vit(vllm_config: "VllmConfig") -> bool:
-    """
-    Callable to be passed to `@support_torch_compile`'s `enable_if` argument.
-
-    Defaults to `True` but is disabled in the following situations:
-
-    - The model uses dynamic rope scaling.
-    """
-    return vllm_config.compilation_config.compile_mm_encoder
diff --git a/vllm/model_executor/models/vision.py b/vllm/model_executor/models/vision.py
index b5f6c60514c09..9f94387c700d6 100644
--- a/vllm/model_executor/models/vision.py
+++ b/vllm/model_executor/models/vision.py
@@ -11,6 +11,7 @@ import torch
 from transformers import PretrainedConfig
 
 from vllm.attention.backends.registry import _Backend
+from vllm.config import VllmConfig
 from vllm.distributed import (
     get_tensor_model_parallel_rank,
     get_tensor_model_parallel_world_size,
@@ -100,6 +101,11 @@ def get_vit_attn_backend(
     return current_platform.get_vit_attn_backend(head_size, dtype)
 
 
+def should_torch_compile_mm_vit(vllm_config: VllmConfig) -> bool:
+    """Callable to be passed to `@support_torch_compile`'s `enable_if` argument."""
+    return vllm_config.compilation_config.compile_mm_encoder
+
+
 VisionFeatureSelectStrategyStr = Literal["class", "default", "full"]
 
 VisionFeatureSelectStrategy: TypeAlias = (

From 11fd69dd54060a59c6f62a6d217e1ecc47d74a68 Mon Sep 17 00:00:00 2001
From: smit kadvani <smit.kadvani@gmail.com>
Date: Thu, 6 Nov 2025 21:27:42 -0800
Subject: [PATCH 212/976] [amd][gptoss] Perf gain because of block alignment
 (#28024)

Signed-off-by: Smit Kadvani <smit.kadvani@gmail.com>
Co-authored-by: Smit Shaileshbhai Kadvani <kadvani@meta.com>
---
 vllm/model_executor/layers/quantization/mxfp4.py         | 6 ++++--
 .../layers/quantization/utils/mxfp4_utils.py             | 9 +++++++++
 2 files changed, 13 insertions(+), 2 deletions(-)

diff --git a/vllm/model_executor/layers/quantization/mxfp4.py b/vllm/model_executor/layers/quantization/mxfp4.py
index fd91c78c7cc4f..28dba091f4305 100644
--- a/vllm/model_executor/layers/quantization/mxfp4.py
+++ b/vllm/model_executor/layers/quantization/mxfp4.py
@@ -43,6 +43,7 @@ from vllm.model_executor.layers.quantization.utils.marlin_utils_fp4 import (
 from vllm.model_executor.layers.quantization.utils.mxfp4_utils import (
     _can_support_mxfp4,
     _swizzle_mxfp4,
+    get_padding_alignment,
 )
 from vllm.model_executor.layers.quantization.utils.quant_utils import is_layer_skipped
 from vllm.model_executor.utils import set_weight_attrs
@@ -282,10 +283,11 @@ class Mxfp4MoEMethod(FusedMoEMethodBase):
             )
             hidden_size = round_up(hidden_size, 128)
         elif current_platform.is_rocm():
+            pad_align = get_padding_alignment()
             intermediate_size_per_partition_after_pad = round_up(
-                intermediate_size_per_partition, 256
+                intermediate_size_per_partition, pad_align
             )
-            hidden_size = round_up(hidden_size, 256)
+            hidden_size = round_up(hidden_size, pad_align)
         else:
             intermediate_size_per_partition_after_pad = round_up(
                 intermediate_size_per_partition, 64
diff --git a/vllm/model_executor/layers/quantization/utils/mxfp4_utils.py b/vllm/model_executor/layers/quantization/utils/mxfp4_utils.py
index 5e87cadfb1070..34a31bcf6a747 100644
--- a/vllm/model_executor/layers/quantization/utils/mxfp4_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/mxfp4_utils.py
@@ -7,6 +7,7 @@ import torch
 
 from vllm.logger import init_logger
 from vllm.platforms import current_platform
+from vllm.triton_utils import triton
 from vllm.utils.torch_utils import direct_register_custom_op, is_torch_equal_or_newer
 
 logger = init_logger(__name__)
@@ -99,6 +100,14 @@ def _can_support_mxfp4(
     )
 
 
+def get_padding_alignment():
+    return (
+        256
+        if triton.runtime.driver.active.get_current_target().arch in ("gfx950",)
+        else 128
+    )
+
+
 def _dequant_mxfp4(
     x: torch.Tensor, scale: torch.Tensor, float_dtype: torch.dtype
 ) -> torch.Tensor:

From 9da9208b202af05fe0f0a5623ee0d8ca969d7558 Mon Sep 17 00:00:00 2001
From: baonudesifeizhai <85092850+baonudesifeizhai@users.noreply.github.com>
Date: Fri, 7 Nov 2025 02:31:58 -0500
Subject: [PATCH 213/976]   [Bug] Fix missing token_ids for reasoning parser
 models in chat completions   #28246 (#28256)

---
 vllm/entrypoints/openai/serving_chat.py | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/vllm/entrypoints/openai/serving_chat.py b/vllm/entrypoints/openai/serving_chat.py
index a2d5fb5763905..888aa4eb6fa8d 100644
--- a/vllm/entrypoints/openai/serving_chat.py
+++ b/vllm/entrypoints/openai/serving_chat.py
@@ -1372,6 +1372,9 @@ class OpenAIServingChat(OpenAIServing):
                         else "stop"
                     ),
                     stop_reason=output.stop_reason,
+                    token_ids=(
+                        as_list(output.token_ids) if request.return_token_ids else None
+                    ),
                 )
                 choices.append(choice_data)
                 continue

From a736e5ff770bd0e69492c24d24d04b7fd47789c0 Mon Sep 17 00:00:00 2001
From: Copilot <198982749+Copilot@users.noreply.github.com>
Date: Fri, 7 Nov 2025 15:58:16 +0800
Subject: [PATCH 214/976] [CI] Reduce Blackwell Fusion test runtime by
 filtering tests and only run all tests in nightly (#28074)

---
 .buildkite/test-pipeline.yaml     | 27 ++++++++++++++++++++++++++-
 tests/compile/test_fusions_e2e.py | 12 +++++-------
 2 files changed, 31 insertions(+), 8 deletions(-)

diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index f3c04183f9ef9..a4436bc2ac222 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -472,7 +472,9 @@ steps:
   - tests/compile
   commands:
   - pytest -v -s compile/test_full_graph.py
-  - pytest -v -s compile/test_fusions_e2e.py
+    # Limit to no custom ops to reduce running time 
+    # Wrap with quotes to escape yaml and avoid starting -k string with a -
+  - "pytest -v -s compile/test_fusions_e2e.py -k 'TRITON and -quant_fp8'"
 
 - label: Cudagraph test
   timeout_in_minutes: 20
@@ -929,6 +931,29 @@ steps:
     - pytest -v -s tests/compile/test_silu_mul_quant_fusion.py
     # this runner has 2 GPUs available even though num_gpus=2 is not set
     - pytest -v -s tests/compile/test_fusion_all_reduce.py
+    # Limit to Inductor partition, no custom ops, and allreduce & attn fusion to reduce running time
+    # Wrap with quotes to escape yaml 
+    - "pytest -v -s tests/compile/test_fusions_e2e.py::test_tp2_attn_quant_allreduce_rmsnorm -k 'True and Llama-3.1 and -quant_fp8 and -rms_norm'"
+
+- label: Blackwell Fusion E2E Tests # 30 min
+  timeout_in_minutes: 40
+  working_dir: "/vllm-workspace/"
+  gpu: b200
+  optional: true
+  num_gpus: 2
+  source_file_dependencies:
+  - csrc/quantization/fp4/
+  - vllm/model_executor/layers/quantization/utils/flashinfer_utils.py
+  - vllm/v1/attention/backends/flashinfer.py
+  - vllm/compilation/
+  # can affect pattern matching
+  - vllm/model_executor/layers/layernorm.py
+  - vllm/model_executor/layers/activation.py
+  - vllm/model_executor/layers/quantization/input_quant_fp8.py
+  - tests/compile/test_fusions_e2e.py
+  commands:
+    - nvidia-smi
+    # Run all e2e fusion tests
     - pytest -v -s tests/compile/test_fusions_e2e.py
 
 - label: Blackwell GPT-OSS Eval
diff --git a/tests/compile/test_fusions_e2e.py b/tests/compile/test_fusions_e2e.py
index d66c60ccb5b24..58026e7e7e781 100644
--- a/tests/compile/test_fusions_e2e.py
+++ b/tests/compile/test_fusions_e2e.py
@@ -54,11 +54,11 @@ if current_platform.is_cuda():
 
     MODELS_FP4 = [
         ModelBackendTestCase(
-            model_name="nvidia/Llama-4-Scout-17B-16E-Instruct-FP4",
+            model_name="nvidia/Llama-3.1-8B-Instruct-FP4",
             model_kwargs=dict(max_model_len=1024, kv_cache_dtype="fp8"),
             backend=_Backend.FLASHINFER,
-            attention_fusions=48,
-            allreduce_fusions=96,
+            attention_fusions=32,
+            allreduce_fusions=65,
         ),
     ]
 
@@ -95,8 +95,7 @@ elif current_platform.is_rocm():
         ),
     ]
 
-# TODO(luka) test both in nightly
-CUSTOM_OPS_FP8 = ["-quant_fp8"]  # , "+quant_fp8"]
+CUSTOM_OPS_FP8 = ["-quant_fp8", "+quant_fp8"]
 
 
 @pytest.mark.parametrize(
@@ -171,8 +170,7 @@ def test_attn_quant(
     assert int(matches[0]) == attention_fusions
 
 
-# TODO(luka) test both in nightly
-CUSTOM_OPS_RMS_NORM = ["-rms_norm"]  # , "+rms_norm"]
+CUSTOM_OPS_RMS_NORM = ["-rms_norm", "+rms_norm"]
 
 
 def custom_ops_product(*custom_ops_lists: list[str]) -> Iterable[str]:

From 21b82f4ea2f12ab2c3d74f9156b50616b892ea7d Mon Sep 17 00:00:00 2001
From: Jee Jee Li <pandaleefree@gmail.com>
Date: Fri, 7 Nov 2025 16:05:48 +0800
Subject: [PATCH 215/976] [Kernel] LoRA triton kernels support PDL (#27402)

Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>
---
 vllm/lora/ops/triton_ops/fused_moe_lora_op.py | 29 ++++++++++++++-----
 vllm/lora/ops/triton_ops/kernel_utils.py      | 28 +++++++++++++-----
 vllm/lora/ops/triton_ops/lora_expand_op.py    |  8 ++++-
 vllm/lora/ops/triton_ops/lora_shrink_op.py    |  9 ++++--
 vllm/lora/ops/triton_ops/utils.py             | 11 +++++++
 5 files changed, 68 insertions(+), 17 deletions(-)

diff --git a/vllm/lora/ops/triton_ops/fused_moe_lora_op.py b/vllm/lora/ops/triton_ops/fused_moe_lora_op.py
index 8f85f926aa4f1..6d6de2529de3d 100644
--- a/vllm/lora/ops/triton_ops/fused_moe_lora_op.py
+++ b/vllm/lora/ops/triton_ops/fused_moe_lora_op.py
@@ -6,6 +6,8 @@ import torch
 from vllm.triton_utils import tl, triton
 from vllm.utils.torch_utils import direct_register_custom_op
 
+from .utils import supports_pdl
+
 _LORA_PTR_DICT: dict[tuple[int, ...], torch.tensor] = {}
 
 
@@ -82,6 +84,8 @@ def _fused_moe_lora_kernel(
     BLOCK_SIZE_K: tl.constexpr,
     GROUP_SIZE_M: tl.constexpr,
     SPLIT_K: tl.constexpr,
+    USE_GDC: tl.constexpr,
+    IS_PRIMARY: tl.constexpr,
 ):
     pid = tl.program_id(axis=0)
     slice_id = tl.program_id(axis=1)
@@ -110,13 +114,11 @@ def _fused_moe_lora_kernel(
     num_tokens_post_padded = tl.load(num_tokens_post_padded_ptr + lora_id)
     if pid_m * BLOCK_SIZE_M >= num_tokens_post_padded:
         return
-
     # get the expert_id to process curr shard
     ind = lora_id * stride_el + pid_m
     expert_id = tl.load(expert_ids_ptr + ind, ind < max_loras * stride_el, -1)
     if expert_id == -1:
         return
-
     # get a_ptr,b_ptr,c_ptr
     cur_a_ptr = a_ptr + (slice_id % num_slice_a) * slice_a_size
     cur_b_ptr = tl.load(b_ptr + slice_id).to(tl.pointer_type(c_ptr.dtype.element_ty))
@@ -149,12 +151,17 @@ def _fused_moe_lora_kernel(
     accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
     for k in range(0, grid_k):
         k_remaining = K - k * (BLOCK_SIZE_K * SPLIT_K)
+        # pre-fetch lora weight
+        b = tl.load(b_ptrs, mask=offs_k[:, None] < k_remaining, other=0.0)
+        # GDC wait waits for ALL programs in the the prior kernel to complete
+        # before continuing.
+        if USE_GDC and not IS_PRIMARY:
+            tl.extra.cuda.gdc_wait()
         a = tl.load(
             a_ptrs,
             mask=token_mask[:, None] & (offs_k[None, :] < k_remaining),
             other=0.0,
         )
-        b = tl.load(b_ptrs, mask=offs_k[:, None] < k_remaining, other=0.0)
         accumulator += tl.dot(a, b)
         # Advance the ptrs to the next K block.
         a_ptrs += BLOCK_SIZE_K * SPLIT_K * stride_ak
@@ -163,12 +170,15 @@ def _fused_moe_lora_kernel(
     if MUL_ROUTED_WEIGHT:
         moe_weight = tl.load(topk_weights_ptr + offs_token, mask=token_mask, other=0)
         accumulator = accumulator * moe_weight[:, None]
-
+    if USE_GDC and IS_PRIMARY:
+        # GDC launch dependents hints the runtime system to launch dependent kernels.
+        tl.extra.cuda.gdc_launch_dependents()
     accumulator = accumulator.to(c_ptr.dtype.element_ty)
     # Write back the block of the output
     offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
     c_ptrs = cur_c_ptr + stride_cm * offs_token[:, None] + stride_cn * offs_cn[None, :]
     c_mask = token_mask[:, None] & (offs_cn[None, :] < N)
+
     if SPLIT_K == 1:
         tl.store(c_ptrs, accumulator, mask=c_mask)
     else:
@@ -209,7 +219,7 @@ def _fused_moe_lora_shrink(
     mul_routed_weight: bool = False,
 ) -> None:
     w1_lora_a_stacked = lora_a_stacked[0]
-
+    use_gdc = supports_pdl(qcurr_hidden_states.device)
     shrink_config = {
         "BLOCK_SIZE_M": block_size_m,
         "BLOCK_SIZE_N": block_size_n,
@@ -218,6 +228,8 @@ def _fused_moe_lora_shrink(
         "num_warps": num_warps,
         "num_stages": num_stages,
         "SPLIT_K": split_k,
+        "USE_GDC": use_gdc,
+        "launch_pdl": use_gdc,  # triton kernel metadata
     }
 
     b_ptr = _get_ptr(lora_a_stacked, device)
@@ -229,7 +241,6 @@ def _fused_moe_lora_shrink(
         len(lora_a_stacked),
         lora_a_stacked[0].shape[0],
     )
-
     _fused_moe_lora_kernel[grid](
         qcurr_hidden_states,
         b_ptr,
@@ -261,6 +272,7 @@ def _fused_moe_lora_shrink(
         num_slice_c=num_slices,
         top_k=1 if mul_routed_weight else top_k_num,
         MUL_ROUTED_WEIGHT=False,
+        IS_PRIMARY=True,
         **shrink_config,
     )
 
@@ -314,7 +326,7 @@ def _fused_moe_lora_expand(
         dtype=output.dtype,
         device=device,
     )
-
+    use_gdc = supports_pdl(a_intermediate_cache1.device)
     expand_config = {
         "BLOCK_SIZE_M": block_size_m,
         "BLOCK_SIZE_N": block_size_n,
@@ -323,6 +335,8 @@ def _fused_moe_lora_expand(
         "num_warps": num_warps,
         "num_stages": num_stages,
         "SPLIT_K": split_k,  # Set split_k = 1 for expand calls
+        "USE_GDC": use_gdc,
+        "launch_pdl": use_gdc,  # triton kernel metadata
     }
 
     grid = lambda META: (
@@ -361,6 +375,7 @@ def _fused_moe_lora_expand(
         num_slice_c=num_slices,
         top_k=1,
         MUL_ROUTED_WEIGHT=mul_routed_weight,
+        IS_PRIMARY=False,
         **expand_config,
     )
     for i in range(num_slices):
diff --git a/vllm/lora/ops/triton_ops/kernel_utils.py b/vllm/lora/ops/triton_ops/kernel_utils.py
index f6397a68ddb81..ebfffc17ae873 100644
--- a/vllm/lora/ops/triton_ops/kernel_utils.py
+++ b/vllm/lora/ops/triton_ops/kernel_utils.py
@@ -22,6 +22,7 @@ def mm_k(
     SPLIT_K: tl.constexpr,
     CAST_TYPE: tl.constexpr,
     b_dtype: tl.constexpr,
+    USE_GDC: tl.constexpr,
 ):
     """
     Given a_ptr and b_ptr, that identify the rows of A (m x k) and columns of
@@ -45,19 +46,25 @@ def mm_k(
         CAST_TYPE: if True, cast the values from the A matrix to the B
           matrix dtype.
         b_dtype: datatype of the B matrix
+        USE_GDC: Whether to use PDL. True indicates use.
     """
     accumulator = tl.zeros((BLOCK_M, BLOCK_N), dtype=tl.float32)
     for k in range(tl.cdiv(K, BLOCK_K * SPLIT_K)):
         if EVEN_K:
-            tiled_a = tl.load(a_ptr)
+            # pre-fetech lora weight
             tiled_b = tl.load(b_ptr)
+            if USE_GDC:
+                tl.extra.cuda.gdc_wait()
+            tiled_a = tl.load(a_ptr)
         else:
-            tiled_a = tl.load(
-                a_ptr, mask=offset_k[None, :] < K - k * (BLOCK_K * SPLIT_K), other=0
-            )
             tiled_b = tl.load(
                 b_ptr, mask=offset_k[:, None] < K - k * (BLOCK_K * SPLIT_K), other=0
             )
+            if USE_GDC:
+                tl.extra.cuda.gdc_wait()
+            tiled_a = tl.load(
+                a_ptr, mask=offset_k[None, :] < K - k * (BLOCK_K * SPLIT_K), other=0
+            )
         if CAST_TYPE:
             tiled_a = tiled_a.to(b_dtype)
         accumulator += tl.dot(
@@ -102,6 +109,7 @@ def do_expand_kernel(
     EVEN_K: tl.constexpr,
     CAST_TYPE: tl.constexpr,
     ADD_INPUTS: tl.constexpr,
+    USE_GDC: tl.constexpr,
 ):
     """
     Given an array of integers that identifies the rows of A, ram,
@@ -154,6 +162,7 @@ def do_expand_kernel(
 
     # Compute the block matrix product.
     SPLIT_K = 1
+
     accumulator = mm_k(
         a_ptr,
         b_ptr,
@@ -168,6 +177,7 @@ def do_expand_kernel(
         SPLIT_K,
         CAST_TYPE,
         cur_lora_ptr.dtype.element_ty,
+        USE_GDC,
     )
 
     tiled_c = accumulator.to(cur_lora_ptr.dtype.element_ty)
@@ -223,6 +233,7 @@ def do_shrink_kernel(
     EVEN_K: tl.constexpr,
     SPLIT_K: tl.constexpr,
     SLICE_NUM: tl.constexpr,
+    USE_GDC: tl.constexpr,
 ):
     """
     Given an array of integers that identifies the rows of A, ram,
@@ -272,8 +283,11 @@ def do_shrink_kernel(
         SPLIT_K,
         False,
         cur_lora_ptr.dtype.element_ty,
+        False,  # USE_GDC is always False in shrink kernel
     )
-
+    # GDC launch dependents hints the runtime system to launch dependent kernels.
+    if USE_GDC:
+        tl.extra.cuda.gdc_launch_dependents()
     # Identify the C output pointers to store the results of the accumulator.
     offset_cn = tl.arange(0, BLOCK_N) + pid_n * BLOCK_N
     offset_cm = tl.arange(0, BLOCK_M)
@@ -284,10 +298,10 @@ def do_shrink_kernel(
         + offset_cn[None, :] * output_d2_stride
     )
     c_mask = (offset_cm[:, None] < M_LEN) & (offset_cn[None, :] < N)
-
     accumulator *= scaling
+
     # handles write-back with reduction-splitting
     if SPLIT_K == 1:
         tl.store(c_ptr, accumulator, mask=c_mask)
     else:
-        tl.atomic_add(c_ptr, accumulator, mask=c_mask)
+        tl.atomic_add(c_ptr, accumulator, mask=c_mask, sem="relaxed")
diff --git a/vllm/lora/ops/triton_ops/lora_expand_op.py b/vllm/lora/ops/triton_ops/lora_expand_op.py
index fd4c1364de7ea..7f7d70cdc3a4a 100644
--- a/vllm/lora/ops/triton_ops/lora_expand_op.py
+++ b/vllm/lora/ops/triton_ops/lora_expand_op.py
@@ -14,6 +14,8 @@ from vllm.lora.ops.triton_ops.utils import _get_lora_b_ptr, get_lora_op_configs
 from vllm.triton_utils import tl, triton
 from vllm.utils.torch_utils import direct_register_custom_op
 
+from .utils import supports_pdl
+
 
 @triton.jit
 def _lora_expand_kernel(
@@ -45,6 +47,7 @@ def _lora_expand_kernel(
     CAST_TYPE: tl.constexpr,
     SLICE_NUM: tl.constexpr,
     SAME_STRIDE: tl.constexpr,
+    USE_GDC: tl.constexpr,
 ):
     cta_n_num = tl.cdiv(N, BLOCK_N)
     cta_m_num = tl.cdiv(M, BLOCK_M)
@@ -121,6 +124,7 @@ def _lora_expand_kernel(
         EVEN_K,
         CAST_TYPE,
         ADD_INPUTS,
+        USE_GDC,
     )
 
 
@@ -236,7 +240,7 @@ def _lora_expand(
         # thread blocks simply exit.
         MAX_LORAS,
     )
-
+    use_gdc = supports_pdl(inputs.device)
     _lora_expand_kernel[grid](
         inputs,
         lora_ptr_tensor,
@@ -266,9 +270,11 @@ def _lora_expand(
         CAST_TYPE,
         NUM_SLICES,
         same_stride,
+        use_gdc,
         num_warps=NUM_WARPS,
         num_ctas=NUM_CTAS,
         num_stages=NUM_STAGES,
+        launch_pdl=use_gdc,
     )
 
     return
diff --git a/vllm/lora/ops/triton_ops/lora_shrink_op.py b/vllm/lora/ops/triton_ops/lora_shrink_op.py
index adc5c9dce5e84..e78379cf684af 100644
--- a/vllm/lora/ops/triton_ops/lora_shrink_op.py
+++ b/vllm/lora/ops/triton_ops/lora_shrink_op.py
@@ -14,6 +14,8 @@ from vllm.lora.ops.triton_ops.utils import _get_lora_a_ptr, get_lora_op_configs
 from vllm.triton_utils import tl, triton
 from vllm.utils.torch_utils import direct_register_custom_op
 
+from .utils import supports_pdl
+
 
 @triton.jit
 def _lora_shrink_kernel(
@@ -43,6 +45,7 @@ def _lora_shrink_kernel(
     SPLIT_K: tl.constexpr,
     GROUP_SIZE_M: tl.constexpr,
     SLICE_NUM: tl.constexpr,
+    USE_GDC: tl.constexpr,
 ):
     cta_n_num = tl.cdiv(N, BLOCK_N)
     cta_m_num = tl.cdiv(M, BLOCK_M)
@@ -83,7 +86,6 @@ def _lora_shrink_kernel(
     cta_lora_seq_indices = (
         token_indices_sorted_by_lora_ids + lora_m_indices_start + cta_m_offset
     )
-
     # Load all relevant row indices.
     offset_m = tl.arange(0, BLOCK_M) % cta_m_len
     ram = tl.load(cta_lora_seq_indices + offset_m)
@@ -118,6 +120,7 @@ def _lora_shrink_kernel(
         EVEN_K,
         SPLIT_K,
         SLICE_NUM,
+        USE_GDC,
     )
 
 
@@ -217,7 +220,7 @@ def _lora_shrink(
         # thread blocks exit early.
         MAX_LORAS,
     )
-
+    use_gdc = supports_pdl(inputs.device)
     _lora_shrink_kernel[grid](
         inputs,
         lora_ptr_tensor,
@@ -245,9 +248,11 @@ def _lora_shrink(
         SPLIT_K,
         GROUP_SIZE_M,
         NUM_SLICES,
+        use_gdc,
         num_warps=NUM_WARPS,
         num_ctas=NUM_CTAS,
         num_stages=NUM_STAGES,
+        launch_pdl=use_gdc,
     )
 
     return
diff --git a/vllm/lora/ops/triton_ops/utils.py b/vllm/lora/ops/triton_ops/utils.py
index bd413a6db26b8..8ed42382e3a86 100644
--- a/vllm/lora/ops/triton_ops/utils.py
+++ b/vllm/lora/ops/triton_ops/utils.py
@@ -3,6 +3,7 @@
 
 import functools
 import json
+from functools import lru_cache
 from pathlib import Path
 from typing import Any
 
@@ -10,6 +11,7 @@ import torch
 
 from vllm import envs
 from vllm.logger import init_logger
+from vllm.platforms import current_platform
 
 logger = init_logger(__name__)
 
@@ -282,3 +284,12 @@ def get_lora_op_configs(
 
     assert config_data is not None
     return config_data
+
+
+@lru_cache
+def supports_pdl(device: torch.device | None = None) -> bool:
+    """
+    Refer to: https://github.com/triton-lang/triton/blob/v3.5.0/python/tutorials/11-programmatic-dependent-launch.py
+    """
+    # PDL requires compute capability SM90 or above
+    return current_platform.is_cuda() and current_platform.has_device_capability(90)

From ccd98b59c15b50478bb214d6824889570c6f4b8c Mon Sep 17 00:00:00 2001
From: Jialin Ouyang <Jialin.Ouyang@gmail.com>
Date: Fri, 7 Nov 2025 00:27:12 -0800
Subject: [PATCH 216/976] [Perf] Introduce FlattenLogprobs to store logprobs
 results to reduce GC overhead (#28171)

Signed-off-by: Jialin Ouyang <Jialin.Ouyang@gmail.com>
---
 tests/samplers/test_logprobs.py |  96 ++++++++++++++
 tests/samplers/test_ranks.py    |  59 ---------
 tests/test_logprobs.py          | 222 ++++++++++++++++++++++++++++++++
 vllm/envs.py                    |   6 +
 vllm/logprobs.py                | 186 +++++++++++++++++++++++++-
 vllm/v1/engine/logprobs.py      |  90 ++++---------
 6 files changed, 534 insertions(+), 125 deletions(-)
 create mode 100644 tests/samplers/test_logprobs.py
 delete mode 100644 tests/samplers/test_ranks.py
 create mode 100644 tests/test_logprobs.py

diff --git a/tests/samplers/test_logprobs.py b/tests/samplers/test_logprobs.py
new file mode 100644
index 0000000000000..87f5d40ac1da7
--- /dev/null
+++ b/tests/samplers/test_logprobs.py
@@ -0,0 +1,96 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import pytest
+
+from vllm import SamplingParams
+from vllm.logprobs import FlattenLogprobs
+
+MODELS = ["distilbert/distilgpt2"]
+MAX_TOKENS = 5
+NUM_TOP_LOGPROBS = 5
+NUM_PROMPT_LOGPROBS = 7
+MAX_LOGPROBS = max(NUM_TOP_LOGPROBS, NUM_PROMPT_LOGPROBS)
+
+
+@pytest.mark.parametrize("model", MODELS)
+@pytest.mark.parametrize("dtype", ["half"])
+@pytest.mark.parametrize("greedy", [True, False])
+@pytest.mark.parametrize("flatten_logprobs", [True, False])
+def test_ranks(
+    vllm_runner,
+    model,
+    dtype,
+    greedy,
+    flatten_logprobs,
+    example_prompts,
+    monkeypatch: pytest.MonkeyPatch,
+):
+    monkeypatch.setenv("VLLM_FLATTEN_LOGPROBS", "1" if flatten_logprobs else "0")
+    with vllm_runner(model, dtype=dtype, max_logprobs=MAX_LOGPROBS) as vllm_model:
+        tokenizer = vllm_model.llm.get_tokenizer()
+        example_prompt_tokens = [tokenizer.encode(prompt) for prompt in example_prompts]
+        sampling_params = SamplingParams(
+            temperature=0.0 if greedy else 1.0,
+            top_p=1.0,
+            max_tokens=MAX_TOKENS,
+            logprobs=NUM_TOP_LOGPROBS,
+            prompt_logprobs=NUM_PROMPT_LOGPROBS,
+        )
+        results = vllm_model.generate_w_logprobs(example_prompts, sampling_params)
+
+    assert len(results) == len(example_prompt_tokens)
+    for i, (result, prompt_tokens) in enumerate(zip(results, example_prompt_tokens)):
+        decode_tokens, _, decode_logprobs, prompt_logprobs = result
+
+        # Ensure the return type of logprobs is accurate
+        assert isinstance(
+            prompt_logprobs, FlattenLogprobs if flatten_logprobs else list
+        )
+        assert isinstance(
+            decode_logprobs, FlattenLogprobs if flatten_logprobs else list
+        )
+
+        ########################
+        # Check prompt logprobs
+        ########################
+        assert len(prompt_tokens) == len(prompt_logprobs)
+        # No logprob for first prompt token
+        assert not prompt_logprobs[0]
+        for position, (token, logprobs) in enumerate(
+            zip(prompt_tokens[1:], prompt_logprobs[1:]), start=1
+        ):
+            # Ensure logprobs of prompt token is always returned
+            logprob = logprobs.get(token)
+            assert logprob is not None
+            assert logprob.rank >= 1
+            # Ensure # of returned logprobs should be
+            # either NUM_PROMPT_LOGPROBS or NUM_PROMPT_LOGPROBS+1
+            assert NUM_PROMPT_LOGPROBS <= len(logprobs) <= NUM_PROMPT_LOGPROBS + 1
+            # Ensure top NUM_PROMPT_LOGPROBS is always extracted
+            assert set(range(1, NUM_PROMPT_LOGPROBS + 1)).issubset(
+                {logprob.rank for logprob in logprobs.values()}
+            )
+
+        ########################
+        # Check sample logprobs
+        ########################
+        assert len(decode_tokens) == len(decode_logprobs)
+        for position, (token, logprobs) in enumerate(
+            zip(decode_tokens, decode_logprobs)
+        ):
+            # Ensure logprobs of chosen token is always returned
+            logprob = logprobs.get(token)
+            assert logprob is not None
+            if greedy:
+                # For greedy sampling, all chosen logprob should be top ranked
+                assert logprob.rank == 1
+            else:
+                assert logprob.rank >= 1
+            # Ensure # of returned logprobs should be
+            # either NUM_TOP_LOGPROBS or NUM_TOP_LOGPROBS+1
+            assert NUM_TOP_LOGPROBS <= len(logprobs) <= NUM_TOP_LOGPROBS + 1
+            # Ensure top NUM_TOP_LOGPROBS logprobs is always extracted
+            assert set(range(1, NUM_TOP_LOGPROBS + 1)).issubset(
+                {logprob.rank for logprob in logprobs.values()}
+            )
diff --git a/tests/samplers/test_ranks.py b/tests/samplers/test_ranks.py
deleted file mode 100644
index 1359e6403e4c3..0000000000000
--- a/tests/samplers/test_ranks.py
+++ /dev/null
@@ -1,59 +0,0 @@
-# SPDX-License-Identifier: Apache-2.0
-# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
-
-import pytest
-
-from vllm import SamplingParams
-
-MODELS = ["distilbert/distilgpt2"]
-
-
-@pytest.mark.parametrize("model", MODELS)
-@pytest.mark.parametrize("dtype", ["half"])
-def test_ranks(
-    vllm_runner,
-    model,
-    dtype,
-    example_prompts,
-):
-    max_tokens = 5
-    num_top_logprobs = 5
-    num_prompt_logprobs = 5
-
-    with vllm_runner(model, dtype=dtype, max_logprobs=num_top_logprobs) as vllm_model:
-        ## Test greedy logprobs ranks
-        vllm_sampling_params = SamplingParams(
-            temperature=0.0,
-            top_p=1.0,
-            max_tokens=max_tokens,
-            logprobs=num_top_logprobs,
-            prompt_logprobs=num_prompt_logprobs,
-        )
-        vllm_results = vllm_model.generate_w_logprobs(
-            example_prompts, vllm_sampling_params
-        )
-
-        ## Test non-greedy logprobs ranks
-        sampling_params = SamplingParams(
-            temperature=1.0,
-            top_p=1.0,
-            max_tokens=max_tokens,
-            logprobs=num_top_logprobs,
-            prompt_logprobs=num_prompt_logprobs,
-        )
-        res = vllm_model.generate_w_logprobs(example_prompts, sampling_params)
-
-    for result in vllm_results:
-        assert result[2] is not None
-        assert len(result[2]) == len(result[0])
-        # check whether all chosen tokens have ranks = 1
-        for token, logprobs in zip(result[0], result[2]):
-            assert token in logprobs
-            assert logprobs[token].rank == 1
-
-    for result in res:
-        assert result[2] is not None
-        assert len(result[2]) == len(result[0])
-        # check whether all chosen tokens have ranks
-        for token, logprobs in zip(result[0], result[2]):
-            assert logprobs[token].rank >= 1
diff --git a/tests/test_logprobs.py b/tests/test_logprobs.py
new file mode 100644
index 0000000000000..1799d36381786
--- /dev/null
+++ b/tests/test_logprobs.py
@@ -0,0 +1,222 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+import pytest
+
+from vllm.logprobs import (
+    FlattenLogprobs,
+    Logprob,
+    LogprobsOnePosition,
+    append_logprobs_for_next_position,
+    create_prompt_logprobs,
+    create_sample_logprobs,
+)
+
+
+def test_create_logprobs_non_flatten(monkeypatch: pytest.MonkeyPatch) -> None:
+    monkeypatch.setenv("VLLM_FLATTEN_LOGPROBS", "0")
+
+    prompt_logprobs = create_prompt_logprobs()
+    assert isinstance(prompt_logprobs, list)
+    # Ensure first prompt position logprobs is None
+    assert len(prompt_logprobs) == 1
+    assert prompt_logprobs[0] is None
+
+    sample_logprobs = create_sample_logprobs()
+    assert isinstance(sample_logprobs, list)
+    assert len(sample_logprobs) == 0
+
+
+def test_create_logprobs_flatten(monkeypatch: pytest.MonkeyPatch) -> None:
+    monkeypatch.setenv("VLLM_FLATTEN_LOGPROBS", "1")
+
+    prompt_logprobs = create_prompt_logprobs()
+    assert isinstance(prompt_logprobs, FlattenLogprobs)
+    assert prompt_logprobs.start_indices == [0]
+    assert prompt_logprobs.end_indices == [0]
+    assert len(prompt_logprobs.token_ids) == 0
+    assert len(prompt_logprobs.logprobs) == 0
+    assert len(prompt_logprobs.ranks) == 0
+    assert len(prompt_logprobs.decoded_tokens) == 0
+    # Ensure first prompt position logprobs is empty
+    assert len(prompt_logprobs) == 1
+    assert prompt_logprobs[0] == dict()
+
+    sample_logprobs = create_sample_logprobs()
+    assert isinstance(sample_logprobs, FlattenLogprobs)
+    assert len(sample_logprobs.start_indices) == 0
+    assert len(sample_logprobs.end_indices) == 0
+    assert len(sample_logprobs.token_ids) == 0
+    assert len(sample_logprobs.logprobs) == 0
+    assert len(sample_logprobs.ranks) == 0
+    assert len(sample_logprobs.decoded_tokens) == 0
+    assert len(sample_logprobs) == 0
+
+
+def test_append_logprobs_for_next_position_none_flatten(
+    monkeypatch: pytest.MonkeyPatch,
+) -> None:
+    monkeypatch.setenv("VLLM_FLATTEN_LOGPROBS", "0")
+    logprobs = create_sample_logprobs()
+    append_logprobs_for_next_position(
+        logprobs,
+        token_ids=[1],
+        logprobs=[0.1],
+        decoded_tokens=["1"],
+        rank=10,
+        num_logprobs=-1,
+    )
+    append_logprobs_for_next_position(
+        logprobs,
+        token_ids=[2, 3],
+        logprobs=[0.2, 0.3],
+        decoded_tokens=["2", "3"],
+        rank=11,
+        num_logprobs=-1,
+    )
+    assert isinstance(logprobs, list)
+    assert logprobs == [
+        {1: Logprob(logprob=0.1, rank=10, decoded_token="1")},
+        {
+            2: Logprob(logprob=0.2, rank=11, decoded_token="2"),
+            3: Logprob(logprob=0.3, rank=1, decoded_token="3"),
+        },
+    ]
+
+
+def test_append_logprobs_for_next_position_flatten(
+    monkeypatch: pytest.MonkeyPatch,
+) -> None:
+    monkeypatch.setenv("VLLM_FLATTEN_LOGPROBS", "1")
+    logprobs = create_sample_logprobs()
+    append_logprobs_for_next_position(
+        logprobs,
+        token_ids=[1],
+        logprobs=[0.1],
+        decoded_tokens=["1"],
+        rank=10,
+        num_logprobs=-1,
+    )
+    append_logprobs_for_next_position(
+        logprobs,
+        token_ids=[2, 3],
+        logprobs=[0.2, 0.3],
+        decoded_tokens=["2", "3"],
+        rank=11,
+        num_logprobs=-1,
+    )
+    assert isinstance(logprobs, FlattenLogprobs)
+    assert logprobs.start_indices == [0, 1]
+    assert logprobs.end_indices == [1, 3]
+    assert logprobs.token_ids == [1, 2, 3]
+    assert logprobs.logprobs == [0.1, 0.2, 0.3]
+    assert logprobs.ranks == [10, 11, 1]
+    assert logprobs.decoded_tokens == ["1", "2", "3"]
+
+
+LOGPROBS_ONE_POSITION_0: LogprobsOnePosition = {
+    1: Logprob(logprob=0.1, rank=10, decoded_token="10")
+}
+LOGPROBS_ONE_POSITION_1: LogprobsOnePosition = {
+    2: Logprob(logprob=0.2, rank=20, decoded_token="20"),
+    3: Logprob(logprob=0.3, rank=30, decoded_token="30"),
+}
+LOGPROBS_ONE_POSITION_2: LogprobsOnePosition = {
+    4: Logprob(logprob=0.4, rank=40, decoded_token="40"),
+    5: Logprob(logprob=0.5, rank=50, decoded_token="50"),
+    6: Logprob(logprob=0.6, rank=60, decoded_token="60"),
+}
+
+
+def test_flatten_logprobs_append() -> None:
+    logprobs = FlattenLogprobs()
+    logprobs.append(LOGPROBS_ONE_POSITION_0)
+    logprobs.append(LOGPROBS_ONE_POSITION_1)
+    assert logprobs.start_indices == [0, 1]
+    assert logprobs.end_indices == [1, 3]
+    assert logprobs.token_ids == [1, 2, 3]
+    assert logprobs.logprobs == [0.1, 0.2, 0.3]
+    assert logprobs.ranks == [10, 20, 30]
+    assert logprobs.decoded_tokens == ["10", "20", "30"]
+
+    logprobs.append(LOGPROBS_ONE_POSITION_2)
+    assert logprobs.start_indices == [0, 1, 3]
+    assert logprobs.end_indices == [1, 3, 6]
+    assert logprobs.token_ids == [1, 2, 3, 4, 5, 6]
+    assert logprobs.logprobs == [0.1, 0.2, 0.3, 0.4, 0.5, 0.6]
+    assert logprobs.ranks == [10, 20, 30, 40, 50, 60]
+    assert logprobs.decoded_tokens == ["10", "20", "30", "40", "50", "60"]
+
+
+def test_flatten_logprobs_extend() -> None:
+    logprobs = FlattenLogprobs()
+    # Extend with list[LogprobsOnePosition]
+    logprobs.extend([LOGPROBS_ONE_POSITION_2, LOGPROBS_ONE_POSITION_0])
+    assert logprobs.start_indices == [0, 3]
+    assert logprobs.end_indices == [3, 4]
+    assert logprobs.token_ids == [4, 5, 6, 1]
+    assert logprobs.logprobs == [0.4, 0.5, 0.6, 0.1]
+    assert logprobs.ranks == [40, 50, 60, 10]
+    assert logprobs.decoded_tokens == ["40", "50", "60", "10"]
+
+    other_logprobs = FlattenLogprobs()
+    other_logprobs.extend([LOGPROBS_ONE_POSITION_1, LOGPROBS_ONE_POSITION_0])
+    # Extend with another FlattenLogprobs
+    logprobs.extend(other_logprobs)
+    assert logprobs.start_indices == [0, 3, 4, 6]
+    assert logprobs.end_indices == [3, 4, 6, 7]
+    assert logprobs.token_ids == [4, 5, 6, 1, 2, 3, 1]
+    assert logprobs.logprobs == [0.4, 0.5, 0.6, 0.1, 0.2, 0.3, 0.1]
+    assert logprobs.ranks == [40, 50, 60, 10, 20, 30, 10]
+    assert logprobs.decoded_tokens == ["40", "50", "60", "10", "20", "30", "10"]
+
+
+def test_flatten_logprobs_access() -> None:
+    logprobs = FlattenLogprobs()
+    logprobs.extend(
+        [LOGPROBS_ONE_POSITION_1, LOGPROBS_ONE_POSITION_2, LOGPROBS_ONE_POSITION_0]
+    )
+    assert logprobs.start_indices == [0, 2, 5]
+    assert logprobs.end_indices == [2, 5, 6]
+    assert logprobs.token_ids == [2, 3, 4, 5, 6, 1]
+    assert logprobs.logprobs == [0.2, 0.3, 0.4, 0.5, 0.6, 0.1]
+    assert logprobs.ranks == [20, 30, 40, 50, 60, 10]
+    assert logprobs.decoded_tokens == ["20", "30", "40", "50", "60", "10"]
+
+    # Test __len__
+    assert len(logprobs) == 3
+
+    # Test __iter__
+    for actual_logprobs, expected_logprobs in zip(
+        logprobs,
+        [LOGPROBS_ONE_POSITION_1, LOGPROBS_ONE_POSITION_2, LOGPROBS_ONE_POSITION_0],
+    ):
+        assert actual_logprobs == expected_logprobs
+
+    # Test __getitem__ : single item
+    assert logprobs[0] == LOGPROBS_ONE_POSITION_1
+    assert logprobs[1] == LOGPROBS_ONE_POSITION_2
+    assert logprobs[2] == LOGPROBS_ONE_POSITION_0
+
+    # Test __getitem__ : slice
+    logprobs02 = logprobs[:2]
+    assert len(logprobs02) == 2
+    assert logprobs02[0] == LOGPROBS_ONE_POSITION_1
+    assert logprobs02[1] == LOGPROBS_ONE_POSITION_2
+    assert logprobs02.start_indices == [0, 2]
+    assert logprobs02.end_indices == [2, 5]
+    assert logprobs02.token_ids == [2, 3, 4, 5, 6]
+    assert logprobs02.logprobs == [0.2, 0.3, 0.4, 0.5, 0.6]
+    assert logprobs02.ranks == [20, 30, 40, 50, 60]
+    assert logprobs02.decoded_tokens == ["20", "30", "40", "50", "60"]
+    logprobs_last2 = logprobs[-2:]
+    assert len(logprobs_last2) == 2
+    assert logprobs_last2[0] == LOGPROBS_ONE_POSITION_2
+    assert logprobs_last2[1] == LOGPROBS_ONE_POSITION_0
+    assert logprobs_last2.start_indices == [0, 3]
+    assert logprobs_last2.end_indices == [3, 4]
+    assert logprobs_last2.token_ids == [4, 5, 6, 1]
+    assert logprobs_last2.logprobs == [0.4, 0.5, 0.6, 0.1]
+    assert logprobs_last2.ranks == [40, 50, 60, 10]
+    assert logprobs_last2.decoded_tokens == ["40", "50", "60", "10"]
diff --git a/vllm/envs.py b/vllm/envs.py
index 99f2ad2bc3d00..eb50ea6e5dbe5 100755
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -220,6 +220,7 @@ if TYPE_CHECKING:
     VLLM_GC_DEBUG: str = ""
     VLLM_DISABLE_SHARED_EXPERTS_STREAM: bool = False
     VLLM_COMPILE_CACHE_SAVE_FORMAT: Literal["binary", "unpacked"] = "binary"
+    VLLM_FLATTEN_LOGPROBS: bool = False
 
 
 def get_default_cache_root():
@@ -1463,6 +1464,11 @@ environment_variables: dict[str, Callable[[], Any]] = {
     "VLLM_COMPILE_CACHE_SAVE_FORMAT": env_with_choices(
         "VLLM_COMPILE_CACHE_SAVE_FORMAT", "binary", ["binary", "unpacked"]
     ),
+    # Flag to enable FlattenLogprobs whose GC overhead is significantly smaller than
+    # the original list[dict[int, Logprob]] approach.
+    # After enabled, PromptLogprobs and SampleLogprobs would populated as
+    # FlattenLogprobs.
+    "VLLM_FLATTEN_LOGPROBS": lambda: bool(int(os.getenv("VLLM_FLATTEN_LOGPROBS", "0"))),
 }
 
 # --8<-- [end:env-vars-definition]
diff --git a/vllm/logprobs.py b/vllm/logprobs.py
index 21c886e0ad5eb..bf66e5f75c795 100644
--- a/vllm/logprobs.py
+++ b/vllm/logprobs.py
@@ -1,6 +1,11 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
-from dataclasses import dataclass
+import itertools
+from collections.abc import Iterable, Iterator, MutableSequence
+from dataclasses import dataclass, field
+from typing import overload
+
+import vllm.envs as envs
 
 
 # We use dataclass for now because it is used for
@@ -21,8 +26,183 @@ class Logprob:
     decoded_token: str | None = None
 
 
+LogprobsOnePosition = dict[int, Logprob]
+
+
+@dataclass
+class FlattenLogprobs(MutableSequence[LogprobsOnePosition]):
+    """
+    Flatten logprobs of a request into multiple primitive type lists.
+
+    Compared to list[dict[int, Logprob]], this data structure reduced GC
+    overhead significantly. As it flattened logprob information for
+    all positions and ranks in to multiple primitive type lists (i.e.
+    logprobs, token_ids, ranks per token_ids, decoded_tokens).
+    So regardless of the sequence length and top_logprobs setup,
+    FlattenLogprobs would only introduce a constant amount of objects.
+
+    As each position might contains different amount of ranks,
+    start_indices_per_position would be used to access the logprob ranges
+    for different positions.
+
+    NOTE: To reduce the migration overhead and improve backward compatibility,
+    we support the key Sequence APIs of list, so it could act as
+    list[LogprobsOnePosition]
+    """
+
+    # Start / end indices to indicate the range of logprobs for each position.
+    start_indices: list[int] = field(default_factory=list)
+    end_indices: list[int] = field(default_factory=list)
+
+    # Flatten Logprob information for (each position, rank).
+    # For position <i>, the logprobs are ranged
+    # from self.start_indices[i] to self.end_indices[i] (exclusive).
+    token_ids: list[int] = field(default_factory=list)
+    logprobs: list[float] = field(default_factory=list)
+    ranks: list[int | None] = field(default_factory=list)
+    decoded_tokens: list[str | None] = field(default_factory=list)
+
+    def append(self, logprobs_one_position: LogprobsOnePosition | None) -> None:
+        """Appends the container with logprobs for the next position"""
+        self.start_indices.append(len(self.logprobs))
+        if logprobs_one_position:
+            for token_id, logprob in logprobs_one_position.items():
+                self.token_ids.append(token_id)
+                self.logprobs.append(logprob.logprob)
+                self.ranks.append(logprob.rank)
+                self.decoded_tokens.append(logprob.decoded_token)
+        self.end_indices.append(len(self.logprobs))
+
+    def append_fast(
+        self,
+        token_ids: list[int],
+        logprobs: list[float],
+        ranks: itertools.chain[int],
+        decoded_tokens: Iterable[str | None],
+    ) -> None:
+        """
+        Appends logprobs for the next position without creating
+        the intermediate logprob dictionary.
+        """
+        self.start_indices.append(len(self.logprobs))
+        for token_id, logprob, rank, decoded_token in zip(
+            token_ids, logprobs, ranks, decoded_tokens
+        ):
+            self.token_ids.append(token_id)
+            self.logprobs.append(logprob)
+            self.ranks.append(rank)
+            self.decoded_tokens.append(decoded_token)
+        self.end_indices.append(len(self.logprobs))
+
+    def extend(self, logprobs_multi_positions) -> None:
+        """Extends the container with logprobs for the next multiple positions"""
+        for logprobs_one_position in logprobs_multi_positions:
+            self.append(logprobs_one_position)
+
+    def __len__(self) -> int:
+        """Gets number of positions stored in the container"""
+        return len(self.start_indices)
+
+    @overload
+    def __getitem__(self, position: int) -> LogprobsOnePosition: ...
+
+    @overload
+    def __getitem__(self, s: slice, /) -> "FlattenLogprobs": ...
+
+    def __getitem__(self, index: int | slice):
+        """Extracts logprobs of a given position or slice"""
+        if isinstance(index, int):
+            return {
+                self.token_ids[i]: Logprob(
+                    logprob=self.logprobs[i],
+                    rank=self.ranks[i],
+                    decoded_token=self.decoded_tokens[i],
+                )
+                for i in range(self.start_indices[index], self.end_indices[index])
+            }
+        elif isinstance(index, slice):
+            min_index = self.start_indices[index][0]
+            max_index = self.end_indices[index][-1]
+            return FlattenLogprobs(
+                # Shift updated start_indices and end_indices to
+                # be 0-indexed
+                start_indices=[i - min_index for i in self.start_indices[index]],
+                end_indices=[i - min_index for i in self.end_indices[index]],
+                token_ids=self.token_ids[min_index:max_index],
+                logprobs=self.logprobs[min_index:max_index],
+                ranks=self.ranks[min_index:max_index],
+                decoded_tokens=self.decoded_tokens[min_index:max_index],
+            )
+        else:
+            raise TypeError(f"Invalid index type: {type(index)}")
+
+    def __setitem__(self, item, value) -> None:
+        raise TypeError("Cannot set logprobs in FlattenLogprobs")
+
+    def __delitem__(self, item) -> None:
+        raise TypeError("Cannot delete logprobs from FlattenLogprobs")
+
+    def insert(self, item) -> None:
+        raise TypeError("Cannot insert logprobs to FlattenLogprobs")
+
+    def __iter__(self) -> Iterator[LogprobsOnePosition]:
+        """
+        Iterates the container and yields LogprobsOnePosition for
+        each position.
+        """
+        for i in range(0, len(self.start_indices)):
+            yield self.__getitem__(i)
+
+
 # {token_id -> logprob} per each sequence group. None if the corresponding
 # sequence group doesn't require prompt logprob.
-PromptLogprobs = list[dict[int, Logprob] | None]
+PromptLogprobs = FlattenLogprobs | list[LogprobsOnePosition | None]
 # {token_id -> logprob} for each sequence group.
-SampleLogprobs = list[dict[int, Logprob]]
+SampleLogprobs = FlattenLogprobs | list[LogprobsOnePosition]
+
+
+def create_prompt_logprobs() -> PromptLogprobs:
+    """Creates a container to store prompt logprobs for a request"""
+    logprobs = FlattenLogprobs() if envs.VLLM_FLATTEN_LOGPROBS else []
+    # NOTE: logprob of first prompt token is None.
+    logprobs.append(None)
+    return logprobs
+
+
+def create_sample_logprobs() -> SampleLogprobs:
+    """Creates a container to store decode logprobs for a request"""
+    return FlattenLogprobs() if envs.VLLM_FLATTEN_LOGPROBS else []
+
+
+def append_logprobs_for_next_position(
+    request_logprobs: PromptLogprobs | SampleLogprobs,
+    token_ids: list[int],
+    logprobs: list[float],
+    decoded_tokens: Iterable[str | None],
+    rank: int,
+    num_logprobs: int,
+) -> None:
+    """Appends logprobs for the next position"""
+    if num_logprobs == -1:
+        num_logprobs = len(logprobs)
+    # We do not need a special case for the sampled token
+    # being in the topk, since inserting duplicated data
+    # into a dictionary twice is the same as doing it once.
+    topk_ranks = range(1, num_logprobs + 1)
+    ranks = itertools.chain((rank,), topk_ranks)
+
+    if isinstance(request_logprobs, FlattenLogprobs):
+        request_logprobs.append_fast(token_ids, logprobs, ranks, decoded_tokens)
+    else:
+        request_logprobs.append(
+            {
+                token_id: Logprob(
+                    logprob=logprob,
+                    rank=rank,
+                    decoded_token=token,
+                )
+                for token_id, logprob, rank, token in zip(
+                    token_ids, logprobs, ranks, decoded_tokens
+                )
+            }
+        )
diff --git a/vllm/v1/engine/logprobs.py b/vllm/v1/engine/logprobs.py
index 48bb5312f5d94..4c5955d7ee2e5 100644
--- a/vllm/v1/engine/logprobs.py
+++ b/vllm/v1/engine/logprobs.py
@@ -2,11 +2,16 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
 import itertools
-from collections.abc import Iterable
 from dataclasses import dataclass
 
 from vllm.logger import init_logger
-from vllm.logprobs import Logprob, PromptLogprobs, SampleLogprobs
+from vllm.logprobs import (
+    PromptLogprobs,
+    SampleLogprobs,
+    append_logprobs_for_next_position,
+    create_prompt_logprobs,
+    create_sample_logprobs,
+)
 from vllm.transformers_utils.detokenizer_utils import (
     AnyTokenizer,
     convert_ids_list_to_tokens,
@@ -44,9 +49,10 @@ class LogprobsProcessor:
         return cls(
             tokenizer=tokenizer,
             cumulative_logprob=(None if num_logprobs is None else 0.0),
-            logprobs=(None if num_logprobs is None else []),
-            # NOTE: logprob of first prompt token is None.
-            prompt_logprobs=(None if num_prompt_logprobs is None else [None]),
+            logprobs=(None if num_logprobs is None else create_sample_logprobs()),
+            prompt_logprobs=(
+                None if num_prompt_logprobs is None else create_prompt_logprobs()
+            ),
             num_prompt_logprobs=num_prompt_logprobs,
             num_logprobs=num_logprobs,
         )
@@ -80,15 +86,14 @@ class LogprobsProcessor:
             sampled_token_logprob = logprobs[0]
             self.cumulative_logprob += sampled_token_logprob
 
-            # Update with the Logprob dictionary for this pos.
-            self.logprobs.append(
-                self._make_logprob_dict(
-                    logprobs,
-                    token_ids,
-                    decoded_tokens,
-                    rank,
-                    self.num_logprobs,
-                )
+            # Update with the Logprob container for this pos.
+            append_logprobs_for_next_position(
+                self.logprobs,
+                token_ids,
+                logprobs,
+                decoded_tokens,
+                rank,
+                self.num_logprobs,
             )
 
     def _update_prompt_logprobs(
@@ -136,15 +141,14 @@ class LogprobsProcessor:
                 NONES if decoded_tokens is None else decoded_tokens[offset:offset_end]
             )
 
-            # Update with the Logprob dictionary for this pos.
-            self.prompt_logprobs.append(
-                self._make_logprob_dict(
-                    prompt_logprobs[pos],
-                    token_ids[pos],
-                    decoded_tokens_for_pos,
-                    prompt_token_ranks[pos],
-                    self.num_prompt_logprobs,
-                )
+            # Update with the Logprob container for this pos.
+            append_logprobs_for_next_position(
+                self.prompt_logprobs,
+                token_ids[pos],
+                prompt_logprobs[pos],
+                decoded_tokens_for_pos,
+                prompt_token_ranks[pos],
+                self.num_prompt_logprobs,
             )
 
     def pop_prompt_logprobs(self) -> PromptLogprobs | None:
@@ -166,46 +170,6 @@ class LogprobsProcessor:
             self.prompt_logprobs = []
         return plp
 
-    @staticmethod
-    def _make_logprob_dict(
-        logprobs: list[float],
-        logprob_token_ids: list[int],
-        decoded_tokens: Iterable[str | None],
-        rank: int,
-        num_logprobs: int,
-    ) -> dict[int, Logprob]:
-        """Make a Logprob dictionary for a position.
-
-        Args:
-          logprobs: list of log probabilities
-          logprob_token_ids: list of top token ids
-          decoded_tokens: list of decoded top tokens
-          rank: rank of the sampled token
-          num_logprobs: number of logprobs requested
-            by the user (in addition to sampled logprob)
-
-        Returns:
-          dict[token id, Logprob]
-        """
-        if num_logprobs == -1:
-            num_logprobs = len(logprobs)
-        # We do not need a special case for the sampled token
-        # being in the topk, since inserting duplicated data
-        # into a dictionary twice is the same as doing it once.
-        topk_ranks = range(1, num_logprobs + 1)
-        ranks = itertools.chain((rank,), topk_ranks)
-
-        return {
-            token_id: Logprob(
-                logprob=logprob,
-                rank=rank,
-                decoded_token=token,
-            )
-            for token_id, logprob, rank, token in zip(
-                logprob_token_ids, logprobs, ranks, decoded_tokens
-            )
-        }
-
     def update_from_output(self, output: EngineCoreOutput) -> None:
         if output.new_logprobs is not None:
             self._update_sample_logprobs(output.new_logprobs)

From 315068eb4a4b87a54ea201898b2fb6267f147eb3 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=E6=B1=AA=E5=BF=97=E9=B9=8F?= <wangzhipeng628@gmail.com>
Date: Fri, 7 Nov 2025 17:35:22 +0800
Subject: [PATCH 217/976] [FixBug]Aeala/ShareGPT_Vicuna_unfiltered marked as
 multimodal benchmark (#28265)

Signed-off-by: princepride <wangzhipeng628@gmail.com>
---
 vllm/benchmarks/datasets.py   | 68 +++++++++++++++++++++++++++++++++--
 vllm/benchmarks/throughput.py |  7 ++++
 2 files changed, 73 insertions(+), 2 deletions(-)

diff --git a/vllm/benchmarks/datasets.py b/vllm/benchmarks/datasets.py
index 1704130d9131d..5411ecbb27b27 100644
--- a/vllm/benchmarks/datasets.py
+++ b/vllm/benchmarks/datasets.py
@@ -1711,6 +1711,11 @@ def get_samples(args, tokenizer) -> list[SampleRequest]:
         ):
             dataset_class = MTBenchDataset
             args.hf_split = "train"
+        elif (
+            args.dataset_path in MultiModalConversationDataset.SUPPORTED_DATASET_PATHS
+            or args.hf_name in MultiModalConversationDataset.SUPPORTED_DATASET_PATHS
+        ):
+            dataset_class = MultiModalConversationDataset
         elif (
             args.dataset_path in ConversationDataset.SUPPORTED_DATASET_PATHS
             or args.hf_name in ConversationDataset.SUPPORTED_DATASET_PATHS
@@ -2272,11 +2277,70 @@ class HuggingFaceDataset(BenchmarkDataset):
 
 
 class ConversationDataset(HuggingFaceDataset):
-    """Dataset for conversation data with multimodal support."""
+    """Dataset for text-only conversation data."""
+
+    SUPPORTED_DATASET_PATHS = {
+        "Aeala/ShareGPT_Vicuna_unfiltered",
+    }
+    IS_MULTIMODAL = False
+
+    def sample(
+        self,
+        tokenizer: PreTrainedTokenizerBase,
+        num_requests: int,
+        output_len: int | None = None,
+        enable_multimodal_chat: bool = False,
+        request_id_prefix: str = "",
+        no_oversample: bool = False,
+        **kwargs,
+    ) -> list:
+        # Filter examples with at least 2 conversations
+        filtered_data = self.data.filter(lambda x: len(x["conversations"]) >= 2)
+        sampled_requests = []
+        ind = 0
+        dynamic_output = output_len is None
+
+        for item in filtered_data:
+            if len(sampled_requests) >= num_requests:
+                break
+            conv = item["conversations"]
+            prompt, completion = conv[0]["value"], conv[1]["value"]
+
+            prompt_ids = tokenizer(prompt).input_ids
+            completion_ids = tokenizer(completion).input_ids
+            prompt_len = len(prompt_ids)
+            completion_len = len(completion_ids)
+            output_len = completion_len if dynamic_output else output_len
+            assert isinstance(output_len, int) and output_len > 0
+            if dynamic_output and not is_valid_sequence(prompt_len, completion_len):
+                continue
+            mm_content = process_image(item["image"]) if "image" in item else None
+            if enable_multimodal_chat:
+                # Note: when chat is enabled the request prompt_len is no longer
+                # accurate and we will be using request output to count the
+                # actual prompt len and output len
+                prompt = self.apply_multimodal_chat_transformation(prompt, mm_content)
+            sampled_requests.append(
+                SampleRequest(
+                    prompt=prompt,
+                    prompt_len=prompt_len,
+                    expected_output_len=output_len,
+                    multi_modal_data=mm_content,
+                    request_id=request_id_prefix + str(ind),
+                )
+            )
+            ind += 1
+        self.maybe_oversample_requests(
+            sampled_requests, num_requests, request_id_prefix, no_oversample
+        )
+        return sampled_requests
+
+
+class MultiModalConversationDataset(HuggingFaceDataset):
+    """Dataset for multimodal conversation data."""
 
     SUPPORTED_DATASET_PATHS = {
         "lmms-lab/LLaVA-OneVision-Data",
-        "Aeala/ShareGPT_Vicuna_unfiltered",
     }
     IS_MULTIMODAL = True
 
diff --git a/vllm/benchmarks/throughput.py b/vllm/benchmarks/throughput.py
index 78c0f8bbbda7a..23b5faa1b2c32 100644
--- a/vllm/benchmarks/throughput.py
+++ b/vllm/benchmarks/throughput.py
@@ -21,6 +21,7 @@ from vllm.benchmarks.datasets import (
     BurstGPTDataset,
     ConversationDataset,
     InstructCoderDataset,
+    MultiModalConversationDataset,
     PrefixRepetitionRandomDataset,
     RandomDataset,
     SampleRequest,
@@ -367,6 +368,11 @@ def get_requests(args, tokenizer):
         elif args.dataset_path in InstructCoderDataset.SUPPORTED_DATASET_PATHS:
             dataset_cls = InstructCoderDataset
             common_kwargs["dataset_split"] = "train"
+        elif args.dataset_path in MultiModalConversationDataset.SUPPORTED_DATASET_PATHS:
+            dataset_cls = MultiModalConversationDataset
+            common_kwargs["dataset_subset"] = args.hf_subset
+            common_kwargs["dataset_split"] = args.hf_split
+            sample_kwargs["enable_multimodal_chat"] = True
         elif args.dataset_path in ConversationDataset.SUPPORTED_DATASET_PATHS:
             dataset_cls = ConversationDataset
             common_kwargs["dataset_subset"] = args.hf_subset
@@ -456,6 +462,7 @@ def validate_args(args):
     elif args.dataset_name == "hf":
         if args.dataset_path in (
             VisionArenaDataset.SUPPORTED_DATASET_PATHS.keys()
+            | MultiModalConversationDataset.SUPPORTED_DATASET_PATHS
             | ConversationDataset.SUPPORTED_DATASET_PATHS
         ):
             assert args.backend == "vllm-chat", (

From 7bdb42b2f22f14bf450e084b8f9938f598c08f9b Mon Sep 17 00:00:00 2001
From: Zhang Xiangze <Xiangze.Zhang@arm.com>
Date: Fri, 7 Nov 2025 19:03:57 +0800
Subject: [PATCH 218/976] [CPU]Avoid repeated random sample compile (#28260)

Signed-off-by: Zhang Xiangze <Xiangze.Zhang@arm.com>
---
 vllm/v1/sample/ops/topk_topp_sampler.py | 19 ++++++++++---------
 1 file changed, 10 insertions(+), 9 deletions(-)

diff --git a/vllm/v1/sample/ops/topk_topp_sampler.py b/vllm/v1/sample/ops/topk_topp_sampler.py
index 7a4b224822bd8..02ea658b7f20e 100644
--- a/vllm/v1/sample/ops/topk_topp_sampler.py
+++ b/vllm/v1/sample/ops/topk_topp_sampler.py
@@ -127,15 +127,6 @@ class TopKTopPSampler(nn.Module):
         elif self.logprobs_mode == "processed_logprobs":
             logits_to_return = logits.log_softmax(dim=-1, dtype=torch.float32)
 
-        # Note: this is a workaround for
-        # https://github.com/pytorch/pytorch/pull/151218
-        @torch.compile(dynamic=True)
-        def compiled_random_sample(logits: torch.Tensor) -> torch.Tensor:
-            probs = logits.softmax(dim=-1, dtype=torch.float32)
-            q = torch.empty_like(probs)
-            q.exponential_()
-            return probs.div(q).argmax(dim=-1).view(-1)
-
         if len(generators) != logits.shape[0]:
             return compiled_random_sample(logits), logits_to_return
         else:
@@ -148,6 +139,16 @@ class TopKTopPSampler(nn.Module):
             return probs.div_(q).argmax(dim=-1).view(-1), logits_to_return
 
 
+# Note: this is a workaround for
+# https://github.com/pytorch/pytorch/pull/151218
+@torch.compile(dynamic=True)
+def compiled_random_sample(logits: torch.Tensor) -> torch.Tensor:
+    probs = logits.softmax(dim=-1, dtype=torch.float32)
+    q = torch.empty_like(probs)
+    q.exponential_()
+    return probs.div(q).argmax(dim=-1).view(-1)
+
+
 def apply_top_k_top_p(
     logits: torch.Tensor,
     k: torch.Tensor | None,

From 1958bda9b4ed893e0dff2e3709ac43be9a9b8e1b Mon Sep 17 00:00:00 2001
From: Mengqing Cao <cmq0113@163.com>
Date: Fri, 7 Nov 2025 19:38:38 +0800
Subject: [PATCH 219/976] [Misc][Model][Refactor] Pass the prefix into Linear
 layers (#28259)

Signed-off-by: MengqingCao <cmq0113@163.com>
---
 vllm/model_executor/models/arctic.py    |  9 ++++++++-
 vllm/model_executor/models/baichuan.py  | 16 ++++++++++++++--
 vllm/model_executor/models/bamba.py     | 13 +++++++++++--
 vllm/model_executor/models/bloom.py     |  7 ++++++-
 vllm/model_executor/models/chameleon.py |  7 +++++++
 vllm/model_executor/models/dbrx.py      |  2 ++
 vllm/model_executor/models/deepseek.py  |  9 ++++++++-
 vllm/model_executor/models/dots1.py     |  2 ++
 vllm/model_executor/models/falcon.py    |  7 ++++++-
 vllm/model_executor/models/falcon_h1.py |  5 ++++-
 vllm/model_executor/models/gemma2.py    | 16 ++++++++++++++--
 vllm/model_executor/models/gpt_j.py     |  7 ++++++-
 vllm/model_executor/models/gpt_neox.py  |  5 +++++
 vllm/model_executor/models/jais.py      |  8 +++++++-
 vllm/model_executor/models/jamba.py     |  2 ++
 vllm/model_executor/models/minicpm.py   | 15 +++++++++++++--
 vllm/model_executor/models/minicpm3.py  |  4 ++++
 vllm/model_executor/models/mpt.py       |  7 ++++++-
 vllm/model_executor/models/olmoe.py     |  2 ++
 vllm/model_executor/models/orion.py     | 16 ++++++++++++++--
 vllm/model_executor/models/persimmon.py | 23 +++++++++++++++++++----
 vllm/model_executor/models/phi.py       | 11 +++++++++--
 vllm/model_executor/models/phimoe.py    |  2 ++
 vllm/model_executor/models/plamo2.py    |  2 ++
 vllm/model_executor/models/qwen.py      |  2 ++
 vllm/model_executor/models/zamba2.py    | 16 +++++++++++++++-
 26 files changed, 190 insertions(+), 25 deletions(-)

diff --git a/vllm/model_executor/models/arctic.py b/vllm/model_executor/models/arctic.py
index e0b6444c91836..bb505219ea17c 100644
--- a/vllm/model_executor/models/arctic.py
+++ b/vllm/model_executor/models/arctic.py
@@ -75,7 +75,11 @@ class ArcticMLP(nn.Module):
         )
 
         self.w13 = MergedColumnParallelLinear(
-            self.hidden_size, [self.ffn_dim] * 2, bias=False, quant_config=quant_config
+            self.hidden_size,
+            [self.ffn_dim] * 2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.w13",
         )
         self.w2 = RowParallelLinear(
             self.ffn_dim,
@@ -83,6 +87,7 @@ class ArcticMLP(nn.Module):
             bias=False,
             reduce_results=reduce_results,
             quant_config=quant_config,
+            prefix=f"{prefix}.w2",
         )
         if config.hidden_act != "silu":
             raise ValueError(
@@ -297,6 +302,7 @@ class ArcticAttention(nn.Module):
             self.total_num_kv_heads,
             bias=False,
             quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
         )
         self.o_proj = RowParallelLinear(
             self.total_num_heads * self.head_dim,
@@ -304,6 +310,7 @@ class ArcticAttention(nn.Module):
             bias=False,
             reduce_results=True,
             quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
         )
 
         self.rotary_emb = get_rope(
diff --git a/vllm/model_executor/models/baichuan.py b/vllm/model_executor/models/baichuan.py
index ccf32c9ee1ac7..39990b9fd6837 100644
--- a/vllm/model_executor/models/baichuan.py
+++ b/vllm/model_executor/models/baichuan.py
@@ -98,13 +98,22 @@ class BaiChuanMLP(nn.Module):
         intermediate_size: int,
         hidden_act: str,
         quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
     ):
         super().__init__()
         self.gate_up_proj = MergedColumnParallelLinear(
-            hidden_size, [intermediate_size] * 2, bias=False, quant_config=quant_config
+            hidden_size,
+            [intermediate_size] * 2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
         )
         self.down_proj = RowParallelLinear(
-            intermediate_size, hidden_size, bias=False, quant_config=quant_config
+            intermediate_size,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
         )
         if hidden_act != "silu":
             raise ValueError(
@@ -152,12 +161,14 @@ class BaiChuanAttention(nn.Module):
             self.total_num_heads,
             bias=False,
             quant_config=quant_config,
+            prefix=f"{prefix}.W_pack",
         )
         self.o_proj = RowParallelLinear(
             self.total_num_heads * self.head_dim,
             hidden_size,
             bias=False,
             quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
         )
         # Create the alibi slopes and slice them.
         if self.position_embedding == "ALIBI":
@@ -235,6 +246,7 @@ class BaiChuanDecoderLayer(nn.Module):
             intermediate_size=config.intermediate_size,
             hidden_act=config.hidden_act,
             quant_config=quant_config,
+            prefix=f"{prefix}.mlp",
         )
         self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
         self.post_attention_layernorm = RMSNorm(
diff --git a/vllm/model_executor/models/bamba.py b/vllm/model_executor/models/bamba.py
index 151fb3b6acc46..bc7dbb618f65c 100644
--- a/vllm/model_executor/models/bamba.py
+++ b/vllm/model_executor/models/bamba.py
@@ -60,6 +60,7 @@ class BambaMLP(nn.Module):
         config: BambaConfig,
         quant_config: QuantizationConfig | None = None,
         bias: bool = False,
+        prefix: str = "",
     ) -> None:
         super().__init__()
         self.gate_up_proj = MergedColumnParallelLinear(
@@ -67,12 +68,14 @@ class BambaMLP(nn.Module):
             output_sizes=[config.intermediate_size] * 2,
             bias=bias,
             quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
         )
         self.down_proj = RowParallelLinear(
             input_size=config.intermediate_size,
             output_size=config.hidden_size,
             bias=bias,
             quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
         )
         if config.hidden_act != "silu":
             raise ValueError(
@@ -118,7 +121,9 @@ class BambaMixerDecoderLayer(nn.Module):
             prefix=f"{prefix}.mixer",
         )
 
-        self.feed_forward = BambaMLP(config, quant_config=quant_config)
+        self.feed_forward = BambaMLP(
+            config, quant_config=quant_config, prefix=f"{prefix}.feed_forward"
+        )
         self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
         self.pre_ff_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
 
@@ -202,12 +207,14 @@ class BambaAttentionDecoderLayer(nn.Module):
             self.total_num_kv_heads,
             bias=False,
             quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
         )
         self.o_proj = RowParallelLinear(
             self.total_num_heads * self.head_dim,
             config.hidden_size,
             bias=False,
             quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
         )
 
         self.attn = Attention(
@@ -219,7 +226,9 @@ class BambaAttentionDecoderLayer(nn.Module):
             prefix=f"{prefix}.attn",
         )
 
-        self.feed_forward = BambaMLP(config, quant_config=quant_config)
+        self.feed_forward = BambaMLP(
+            config, quant_config=quant_config, prefix=f"{prefix}.feed_forward"
+        )
         self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
         self.pre_ff_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
 
diff --git a/vllm/model_executor/models/bloom.py b/vllm/model_executor/models/bloom.py
index bbbd14adf92b2..18b09ee43b7b0 100644
--- a/vllm/model_executor/models/bloom.py
+++ b/vllm/model_executor/models/bloom.py
@@ -108,12 +108,14 @@ class BloomAttention(nn.Module):
             self.total_num_heads,
             bias=True,
             quant_config=quant_config,
+            prefix=f"{prefix}.query_key_value",
         )
         self.dense = RowParallelLinear(
             self.hidden_size,
             self.hidden_size,
             bias=True,
             quant_config=quant_config,
+            prefix=f"{prefix}.dense",
         )
 
         # Create the alibi slopes and slice them.
@@ -152,6 +154,7 @@ class BloomMLP(nn.Module):
         self,
         config: BloomConfig,
         quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
     ):
         super().__init__()
         hidden_size = config.hidden_size
@@ -159,12 +162,14 @@ class BloomMLP(nn.Module):
             hidden_size,
             4 * hidden_size,
             quant_config=quant_config,
+            prefix=f"{prefix}.dense_h_to_4h",
         )
         self.gelu_impl = get_act_fn("gelu")
         self.dense_4h_to_h = RowParallelLinear(
             4 * hidden_size,
             hidden_size,
             quant_config=quant_config,
+            prefix=f"{prefix}.dense_4h_to_h",
         )
 
     def forward(self, x: torch.Tensor) -> torch.Tensor:
@@ -192,7 +197,7 @@ class BloomBlock(nn.Module):
         self.post_attention_layernorm = nn.LayerNorm(
             hidden_size, eps=config.layer_norm_epsilon
         )
-        self.mlp = BloomMLP(config, quant_config)
+        self.mlp = BloomMLP(config, quant_config, prefix=f"{prefix}.mlp")
         self.apply_residual_connection_post_layernorm = (
             config.apply_residual_connection_post_layernorm
         )
diff --git a/vllm/model_executor/models/chameleon.py b/vllm/model_executor/models/chameleon.py
index 6f7e18d78bada..54ff6991fa702 100644
--- a/vllm/model_executor/models/chameleon.py
+++ b/vllm/model_executor/models/chameleon.py
@@ -227,6 +227,7 @@ class ChameleonMLP(nn.Module):
         hidden_act: str,
         quant_config: QuantizationConfig | None = None,
         bias: bool = False,
+        prefix: str = "",
     ) -> None:
         super().__init__()
         self.gate_up_proj = MergedColumnParallelLinear(
@@ -234,12 +235,14 @@ class ChameleonMLP(nn.Module):
             output_sizes=[intermediate_size] * 2,
             bias=bias,
             quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
         )
         self.down_proj = RowParallelLinear(
             input_size=intermediate_size,
             output_size=hidden_size,
             bias=bias,
             quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
         )
         if hidden_act != "silu":
             raise ValueError(
@@ -299,12 +302,14 @@ class ChameleonAttention(nn.Module):
             total_num_kv_heads=self.total_num_kv_heads,
             bias=bias,
             quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
         )
         self.o_proj = RowParallelLinear(
             input_size=self.total_num_heads * self.head_dim,
             output_size=hidden_size,
             bias=bias,
             quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
         )
         self.q_norm = ChameleonLayerNorm((self.num_heads, self.head_dim))
         self.k_norm = ChameleonLayerNorm((self.num_kv_heads, self.head_dim))
@@ -393,6 +398,7 @@ class ChameleonDecoderLayer(nn.Module):
             hidden_act=config.hidden_act,
             quant_config=quant_config,
             bias=getattr(config, "mlp_bias", False),
+            prefix=f"{prefix}.mlp",
         )
         self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
         self.post_attention_layernorm = RMSNorm(
@@ -462,6 +468,7 @@ class ChameleonSwinDecoderLayer(nn.Module):
             hidden_act=config.hidden_act,
             quant_config=quant_config,
             bias=getattr(config, "mlp_bias", False),
+            prefix=f"{prefix}.mlp",
         )
         self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
         self.post_attention_layernorm = RMSNorm(
diff --git a/vllm/model_executor/models/dbrx.py b/vllm/model_executor/models/dbrx.py
index 088960e064489..22095d05848ce 100644
--- a/vllm/model_executor/models/dbrx.py
+++ b/vllm/model_executor/models/dbrx.py
@@ -209,12 +209,14 @@ class DbrxAttention(nn.Module):
             self.total_num_kv_heads,
             bias=False,
             quant_config=quant_config,
+            prefix=f"{prefix}.Wqkv",
         )
         self.out_proj = RowParallelLinear(
             self.d_model,
             self.d_model,
             bias=False,
             quant_config=quant_config,
+            prefix=f"{prefix}.out_proj",
         )
         self.rotary_emb = get_rope(
             self.head_dim,
diff --git a/vllm/model_executor/models/deepseek.py b/vllm/model_executor/models/deepseek.py
index adba874a2cd56..36cc12b51f13f 100644
--- a/vllm/model_executor/models/deepseek.py
+++ b/vllm/model_executor/models/deepseek.py
@@ -82,7 +82,11 @@ class DeepseekMLP(nn.Module):
     ) -> None:
         super().__init__()
         self.gate_up_proj = MergedColumnParallelLinear(
-            hidden_size, [intermediate_size] * 2, bias=False, quant_config=quant_config
+            hidden_size,
+            [intermediate_size] * 2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
         )
         self.down_proj = RowParallelLinear(
             intermediate_size,
@@ -90,6 +94,7 @@ class DeepseekMLP(nn.Module):
             bias=False,
             quant_config=quant_config,
             reduce_results=reduce_results,
+            prefix=f"{prefix}.down_proj",
         )
         if hidden_act != "silu":
             raise ValueError(
@@ -239,6 +244,7 @@ class DeepseekAttention(nn.Module):
             self.total_num_kv_heads,
             bias=False,
             quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
         )
 
         self.o_proj = RowParallelLinear(
@@ -246,6 +252,7 @@ class DeepseekAttention(nn.Module):
             hidden_size,
             bias=False,
             quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
         )
 
         self.rotary_emb = get_rope(
diff --git a/vllm/model_executor/models/dots1.py b/vllm/model_executor/models/dots1.py
index c33cb3d84478e..15caa3184581d 100644
--- a/vllm/model_executor/models/dots1.py
+++ b/vllm/model_executor/models/dots1.py
@@ -240,6 +240,7 @@ class Dots1Attention(nn.Module):
             self.total_num_kv_heads,
             bias=attention_bias,
             quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
         )
 
         self.o_proj = RowParallelLinear(
@@ -247,6 +248,7 @@ class Dots1Attention(nn.Module):
             hidden_size,
             bias=False,
             quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
         )
 
         self.rotary_emb = get_rope(
diff --git a/vllm/model_executor/models/falcon.py b/vllm/model_executor/models/falcon.py
index 25429836b9ed6..1b9c7da334909 100644
--- a/vllm/model_executor/models/falcon.py
+++ b/vllm/model_executor/models/falcon.py
@@ -137,6 +137,7 @@ class FalconAttention(nn.Module):
             bias=config.bias,
             skip_bias_add=True,
             quant_config=quant_config,
+            prefix=f"{prefix}.query_key_value",
         )
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
@@ -153,6 +154,7 @@ class FalconAttention(nn.Module):
             skip_bias_add=True,
             quant_config=quant_config,
             reduce_results=self.reduce_row_parallel_results,
+            prefix=f"{prefix}.dense",
         )
 
         self.use_rotary = config.rotary
@@ -227,6 +229,7 @@ class FalconMLP(nn.Module):
         self,
         config: FalconConfig,
         quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
     ):
         super().__init__()
         hidden_size = config.hidden_size
@@ -237,6 +240,7 @@ class FalconMLP(nn.Module):
             bias=config.bias,
             skip_bias_add=True,
             quant_config=quant_config,
+            prefix=f"{prefix}.dense_h_to_4h",
         )
         self.act = get_act_fn("gelu")
         self.reduce_row_parallel_results = not (
@@ -249,6 +253,7 @@ class FalconMLP(nn.Module):
             skip_bias_add=True,
             reduce_results=self.reduce_row_parallel_results,
             quant_config=quant_config,
+            prefix=f"{prefix}.dense_4h_to_h",
         )
 
     def forward(self, x: torch.Tensor) -> torch.Tensor:
@@ -275,7 +280,7 @@ class FalconDecoderLayer(nn.Module):
         self.self_attention = FalconAttention(
             config, cache_config, quant_config, prefix=f"{prefix}.self_attention"
         )
-        self.mlp = FalconMLP(config, quant_config)
+        self.mlp = FalconMLP(config, quant_config, prefix=f"{prefix}.mlp")
         self.config = config
 
         if not hasattr(config, "num_ln_in_parallel_attn"):
diff --git a/vllm/model_executor/models/falcon_h1.py b/vllm/model_executor/models/falcon_h1.py
index 8bf700b474a41..ac5846cfd8695 100644
--- a/vllm/model_executor/models/falcon_h1.py
+++ b/vllm/model_executor/models/falcon_h1.py
@@ -59,6 +59,7 @@ class FalconH1MLP(nn.Module):
         config: FalconH1Config,
         quant_config: QuantizationConfig | None = None,
         bias: bool = False,
+        prefix: str = "",
     ) -> None:
         super().__init__()
         self.gate_up_proj = MergedColumnParallelLinear(
@@ -66,12 +67,14 @@ class FalconH1MLP(nn.Module):
             output_sizes=[config.intermediate_size] * 2,
             bias=bias,
             quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
         )
         self.down_proj = RowParallelLinear(
             input_size=config.intermediate_size,
             output_size=config.hidden_size,
             bias=bias,
             quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
         )
         self.tp_size = get_tensor_model_parallel_world_size()
         self.intermediate_size = config.intermediate_size
@@ -365,7 +368,7 @@ class FalconH1ParallelHybrid(nn.Module):
         self.attention_in_multiplier = config.attention_in_multiplier
         self.attn_out_multiplier = config.attention_out_multiplier
 
-        self.feed_forward = FalconH1MLP(config)
+        self.feed_forward = FalconH1MLP(config, prefix=f"{prefix}.feed_forward")
 
         self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
         self.pre_ff_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
diff --git a/vllm/model_executor/models/gemma2.py b/vllm/model_executor/models/gemma2.py
index 66c9b774f174d..1938efd4895e5 100644
--- a/vllm/model_executor/models/gemma2.py
+++ b/vllm/model_executor/models/gemma2.py
@@ -66,13 +66,22 @@ class Gemma2MLP(nn.Module):
         hidden_act: str,
         hidden_activation: str,
         quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
     ) -> None:
         super().__init__()
         self.gate_up_proj = MergedColumnParallelLinear(
-            hidden_size, [intermediate_size] * 2, bias=False, quant_config=quant_config
+            hidden_size,
+            [intermediate_size] * 2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
         )
         self.down_proj = RowParallelLinear(
-            intermediate_size, hidden_size, bias=False, quant_config=quant_config
+            intermediate_size,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
         )
         if not (hidden_act == hidden_activation == "gelu_pytorch_tanh"):
             raise ValueError(
@@ -134,12 +143,14 @@ class Gemma2Attention(nn.Module):
             self.total_num_kv_heads,
             bias=config.attention_bias,
             quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
         )
         self.o_proj = RowParallelLinear(
             self.total_num_heads * self.head_dim,
             hidden_size,
             bias=config.attention_bias,
             quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
         )
         self.rotary_emb = get_rope(
             self.head_dim,
@@ -208,6 +219,7 @@ class Gemma2DecoderLayer(nn.Module):
             hidden_act=config.hidden_act,
             hidden_activation=config.hidden_activation,
             quant_config=quant_config,
+            prefix=f"{prefix}.mlp",
         )
         self.input_layernorm = GemmaRMSNorm(config.hidden_size, eps=config.rms_norm_eps)
         self.post_attention_layernorm = GemmaRMSNorm(
diff --git a/vllm/model_executor/models/gpt_j.py b/vllm/model_executor/models/gpt_j.py
index 1777fd3583c39..e04b2465e54ae 100644
--- a/vllm/model_executor/models/gpt_j.py
+++ b/vllm/model_executor/models/gpt_j.py
@@ -78,12 +78,14 @@ class GPTJAttention(nn.Module):
             self.total_num_heads,
             bias=False,
             quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
         )
         self.out_proj = RowParallelLinear(
             config.hidden_size,
             config.hidden_size,
             bias=False,
             quant_config=quant_config,
+            prefix=f"{prefix}.out_proj",
         )
 
         tp_world_size = get_tensor_model_parallel_world_size()
@@ -130,6 +132,7 @@ class GPTJMLP(nn.Module):
         intermediate_size: int,
         config: GPTJConfig,
         quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
     ):
         super().__init__()
         hidden_size = config.n_embd
@@ -137,11 +140,13 @@ class GPTJMLP(nn.Module):
             hidden_size,
             intermediate_size,
             quant_config=quant_config,
+            prefix=f"{prefix}.fc_in",
         )
         self.fc_out = RowParallelLinear(
             intermediate_size,
             hidden_size,
             quant_config=quant_config,
+            prefix=f"{prefix}.fc_out",
         )
         self.act = get_act_fn(config.activation_function)
 
@@ -166,7 +171,7 @@ class GPTJBlock(nn.Module):
         self.attn = GPTJAttention(
             config, cache_config, quant_config, prefix=f"{prefix}.attn"
         )
-        self.mlp = GPTJMLP(inner_dim, config, quant_config)
+        self.mlp = GPTJMLP(inner_dim, config, quant_config, prefix=f"{prefix}.mlp")
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/gpt_neox.py b/vllm/model_executor/models/gpt_neox.py
index 2f638acaa2b66..e6c145602d29a 100644
--- a/vllm/model_executor/models/gpt_neox.py
+++ b/vllm/model_executor/models/gpt_neox.py
@@ -80,12 +80,14 @@ class GPTNeoXAttention(nn.Module):
             self.total_num_heads,
             bias=self.bias,
             quant_config=quant_config,
+            prefix=f"{prefix}.query_key_value",
         )
         self.dense = RowParallelLinear(
             config.hidden_size,
             config.hidden_size,
             bias=self.bias,
             quant_config=quant_config,
+            prefix=f"{prefix}.dense",
         )
         scaling = self.head_size**-0.5
         rotary_dim = int(self.head_size * config.rotary_pct)
@@ -125,17 +127,20 @@ class GPTNeoXMLP(nn.Module):
         self,
         config: GPTNeoXConfig,
         quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
     ):
         super().__init__()
         self.dense_h_to_4h = ColumnParallelLinear(
             config.hidden_size,
             config.intermediate_size,
             quant_config=quant_config,
+            prefix=f"{prefix}.dense_h_to_4h",
         )
         self.dense_4h_to_h = RowParallelLinear(
             config.intermediate_size,
             config.hidden_size,
             quant_config=quant_config,
+            prefix=f"{prefix}.dense_4h_to_h",
         )
         self.act = get_act_fn(config.hidden_act)
 
diff --git a/vllm/model_executor/models/jais.py b/vllm/model_executor/models/jais.py
index 1daaed80b1440..782ab6f1e2da2 100644
--- a/vllm/model_executor/models/jais.py
+++ b/vllm/model_executor/models/jais.py
@@ -107,12 +107,14 @@ class JAISAttention(nn.Module):
             total_num_heads,
             bias=True,
             quant_config=quant_config,
+            prefix=f"{prefix}.c_attn",
         )
         self.c_proj = RowParallelLinear(
             self.hidden_size,
             self.hidden_size,
             bias=True,
             quant_config=quant_config,
+            prefix=f"{prefix}.c_proj",
         )
 
         tp_rank = get_tensor_model_parallel_rank()
@@ -147,6 +149,7 @@ class JAISMLP(nn.Module):
         intermediate_size: int,
         config: JAISConfig,
         quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
     ):
         super().__init__()
         hidden_size = config.hidden_size
@@ -156,6 +159,7 @@ class JAISMLP(nn.Module):
             intermediate_size,
             bias=True,
             quant_config=quant_config,
+            prefix=f"{prefix}.c_fc",
         )
         self.c_fc2 = (
             ColumnParallelLinear(
@@ -163,6 +167,7 @@ class JAISMLP(nn.Module):
                 intermediate_size,
                 bias=True,
                 quant_config=quant_config,
+                prefix=f"{prefix}.c_fc2",
             )
             if self.swiglu
             else None
@@ -172,6 +177,7 @@ class JAISMLP(nn.Module):
             hidden_size,
             bias=True,
             quant_config=quant_config,
+            prefix=f"{prefix}.c_proj",
         )
 
         self.act = SwiGLUActivation()
@@ -206,7 +212,7 @@ class JAISBlock(nn.Module):
             config, cache_config, quant_config, prefix=f"{prefix}.attn"
         )
         self.ln_2 = nn.LayerNorm(hidden_size, eps=config.layer_norm_epsilon)
-        self.mlp = JAISMLP(inner_dim, config, quant_config)
+        self.mlp = JAISMLP(inner_dim, config, quant_config, prefix=f"{prefix}.mlp")
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/jamba.py b/vllm/model_executor/models/jamba.py
index ba95021b0b542..0cb993901fd38 100644
--- a/vllm/model_executor/models/jamba.py
+++ b/vllm/model_executor/models/jamba.py
@@ -220,12 +220,14 @@ class JambaAttentionDecoderLayer(nn.Module):
             self.total_num_kv_heads,
             bias=False,
             quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
         )
         self.o_proj = RowParallelLinear(
             self.total_num_heads * self.head_dim,
             config.hidden_size,
             bias=False,
             quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
         )
 
         self.attn = Attention(
diff --git a/vllm/model_executor/models/minicpm.py b/vllm/model_executor/models/minicpm.py
index 95097a6f832c6..85d3542317a1d 100644
--- a/vllm/model_executor/models/minicpm.py
+++ b/vllm/model_executor/models/minicpm.py
@@ -191,13 +191,22 @@ class MiniCPMMLP(nn.Module):
         hidden_act: str,
         hidden_act_param: float,
         quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
     ) -> None:
         super().__init__()
         self.gate_up_proj = MergedColumnParallelLinear(
-            hidden_size, [intermediate_size] * 2, bias=False, quant_config=quant_config
+            hidden_size,
+            [intermediate_size] * 2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
         )
         self.down_proj = RowParallelLinear(
-            intermediate_size, hidden_size, bias=False, quant_config=quant_config
+            intermediate_size,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
         )
         if hidden_act == "silu":
             self.act_fn = SiluAndMul()
@@ -259,12 +268,14 @@ class MiniCPMAttention(nn.Module):
             self.total_num_kv_heads,
             bias=False,
             quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
         )
         self.o_proj = RowParallelLinear(
             self.total_num_heads * self.head_dim,
             hidden_size,
             bias=False,
             quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
         )
 
         self.rotary_emb = get_rope(
diff --git a/vllm/model_executor/models/minicpm3.py b/vllm/model_executor/models/minicpm3.py
index ab4fe36476b92..d3b6966ee3a7f 100644
--- a/vllm/model_executor/models/minicpm3.py
+++ b/vllm/model_executor/models/minicpm3.py
@@ -96,6 +96,7 @@ class MiniCPM3Attention(nn.Module):
             self.num_heads * self.qk_head_dim,
             bias=False,
             quant_config=quant_config,
+            prefix=f"{prefix}.q_b_proj",
         )
 
         self.kv_a_proj_with_mqa = ReplicatedLinear(
@@ -103,6 +104,7 @@ class MiniCPM3Attention(nn.Module):
             self.kv_lora_rank + self.qk_rope_head_dim,
             bias=False,
             quant_config=quant_config,
+            prefix=f"{prefix}.kv_a_proj_with_mqa",
         )
         self.kv_a_layernorm = RMSNorm(self.kv_lora_rank, eps=config.rms_norm_eps)
         self.kv_b_proj = ColumnParallelLinear(
@@ -110,6 +112,7 @@ class MiniCPM3Attention(nn.Module):
             self.num_heads * (self.qk_nope_head_dim + self.v_head_dim),
             bias=False,
             quant_config=quant_config,
+            prefix=f"{prefix}.kv_b_proj",
         )
         # O projection.
         self.o_proj = RowParallelLinear(
@@ -117,6 +120,7 @@ class MiniCPM3Attention(nn.Module):
             self.hidden_size,
             bias=False,
             quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
         )
 
         self.rotary_emb = get_rope(
diff --git a/vllm/model_executor/models/mpt.py b/vllm/model_executor/models/mpt.py
index 936dbf6c3243e..29e887c4d9c98 100644
--- a/vllm/model_executor/models/mpt.py
+++ b/vllm/model_executor/models/mpt.py
@@ -83,6 +83,7 @@ class MPTAttention(nn.Module):
             self.total_num_kv_heads,
             bias=not config.no_bias,
             quant_config=quant_config,
+            prefix=f"{prefix}.Wqkv",
         )
         if self.qk_ln:
             self.q_ln = nn.LayerNorm(self.d_model)
@@ -92,6 +93,7 @@ class MPTAttention(nn.Module):
             self.d_model,
             bias=not config.no_bias,
             quant_config=quant_config,
+            prefix=f"{prefix}.out_proj",
         )
 
         tp_world_size = get_tensor_model_parallel_world_size()
@@ -152,6 +154,7 @@ class MPTMLP(nn.Module):
         self,
         config: MptConfig,
         quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
     ):
         super().__init__()
         hidden_size = config.d_model
@@ -162,6 +165,7 @@ class MPTMLP(nn.Module):
             intermediate_size,
             bias=not config.no_bias,
             quant_config=quant_config,
+            prefix=f"{prefix}.up_proj",
         )
         self.act = get_act_fn("gelu")
         self.down_proj = RowParallelLinear(
@@ -169,6 +173,7 @@ class MPTMLP(nn.Module):
             hidden_size,
             bias=not config.no_bias,
             quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
         )
 
     def forward(self, x: torch.Tensor) -> torch.Tensor:
@@ -193,7 +198,7 @@ class MPTBlock(nn.Module):
             config, cache_config, quant_config, prefix=f"{prefix}.attn"
         )
         self.norm_2 = nn.LayerNorm(hidden_size)
-        self.ffn = MPTMLP(config, quant_config)
+        self.ffn = MPTMLP(config, quant_config, prefix=f"{prefix}.ffn")
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/olmoe.py b/vllm/model_executor/models/olmoe.py
index 7f867244330fa..35a09334a1293 100644
--- a/vllm/model_executor/models/olmoe.py
+++ b/vllm/model_executor/models/olmoe.py
@@ -158,6 +158,7 @@ class OlmoeAttention(nn.Module):
             self.total_num_kv_heads,
             bias=False,
             quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
         )
         self.tp_size = tp_size
         self.tp_rank = get_tensor_model_parallel_rank()
@@ -168,6 +169,7 @@ class OlmoeAttention(nn.Module):
             self.hidden_size,
             bias=False,
             quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
         )
 
         self.rotary_emb = get_rope(
diff --git a/vllm/model_executor/models/orion.py b/vllm/model_executor/models/orion.py
index cfe4d03334182..cbfce18b43885 100644
--- a/vllm/model_executor/models/orion.py
+++ b/vllm/model_executor/models/orion.py
@@ -52,13 +52,22 @@ class OrionMLP(nn.Module):
         intermediate_size: int,
         hidden_act: str,
         quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
     ) -> None:
         super().__init__()
         self.gate_up_proj = MergedColumnParallelLinear(
-            hidden_size, [intermediate_size] * 2, bias=False, quant_config=quant_config
+            hidden_size,
+            [intermediate_size] * 2,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
         )
         self.down_proj = RowParallelLinear(
-            intermediate_size, hidden_size, bias=False, quant_config=quant_config
+            intermediate_size,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
         )
         if hidden_act != "silu":
             raise ValueError(
@@ -116,12 +125,14 @@ class OrionAttention(nn.Module):
             self.total_num_kv_heads,
             bias=False,
             quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
         )
         self.o_proj = RowParallelLinear(
             self.total_num_heads * self.head_dim,
             hidden_size,
             bias=False,
             quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
         )
 
         self.rotary_emb = get_rope(
@@ -183,6 +194,7 @@ class OrionDecoderLayer(nn.Module):
             intermediate_size=config.intermediate_size,
             hidden_act=config.hidden_act,
             quant_config=quant_config,
+            prefix=f"{prefix}.mlp",
         )
 
         self.input_layernorm = nn.LayerNorm(config.hidden_size, eps=config.rms_norm_eps)
diff --git a/vllm/model_executor/models/persimmon.py b/vllm/model_executor/models/persimmon.py
index 2c62f6862cf25..37a7108d5c013 100644
--- a/vllm/model_executor/models/persimmon.py
+++ b/vllm/model_executor/models/persimmon.py
@@ -62,14 +62,23 @@ from .utils import (
 
 class PersimmonMLP(nn.Module):
     def __init__(
-        self, config: PersimmonConfig, quant_config: QuantizationConfig | None = None
+        self,
+        config: PersimmonConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
     ):
         super().__init__()
         self.dense_h_to_4h = ColumnParallelLinear(
-            config.hidden_size, config.intermediate_size, quant_config=quant_config
+            config.hidden_size,
+            config.intermediate_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.dense_h_to_4h",
         )
         self.dense_4h_to_h = RowParallelLinear(
-            config.intermediate_size, config.hidden_size, quant_config=quant_config
+            config.intermediate_size,
+            config.hidden_size,
+            quant_config=quant_config,
+            prefix=f"{prefix}.dense_4h_to_h",
         )
         self.act = get_act_fn(config.hidden_act)
 
@@ -110,12 +119,14 @@ class PersimmonAttention(nn.Module):
             self.total_num_heads,
             bias=True,
             quant_config=quant_config,
+            prefix=f"{prefix}.query_key_value",
         )
         self.dense = RowParallelLinear(
             self.total_num_heads * self.head_dim,
             self.hidden_size,
             bias=True,
             quant_config=quant_config,
+            prefix=f"{prefix}.dense",
         )
         self.is_qk_layernorm = config.qk_layernorm
 
@@ -192,7 +203,11 @@ class PersimmonDecoderLayer(nn.Module):
             quant_config=quant_config,
             prefix=f"{prefix}.self_attn",
         )
-        self.mlp = PersimmonMLP(config, quant_config=quant_config)
+        self.mlp = PersimmonMLP(
+            config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.mlp",
+        )
         self.input_layernorm = nn.LayerNorm(
             config.hidden_size, eps=config.layer_norm_eps
         )
diff --git a/vllm/model_executor/models/phi.py b/vllm/model_executor/models/phi.py
index 6adcaf5084cbe..34db124b6447c 100644
--- a/vllm/model_executor/models/phi.py
+++ b/vllm/model_executor/models/phi.py
@@ -99,11 +99,13 @@ class PhiAttention(nn.Module):
             self.total_num_heads,
             bias=True,
             quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
         )
         self.dense = RowParallelLinear(
             self.hidden_size,
             self.hidden_size,
             quant_config=quant_config,
+            prefix=f"{prefix}.dense",
         )
 
         scaling = self.head_size**-0.5
@@ -148,7 +150,10 @@ class PhiAttention(nn.Module):
 
 class PhiMLP(nn.Module):
     def __init__(
-        self, config: PhiConfig, quant_config: QuantizationConfig | None = None
+        self,
+        config: PhiConfig,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
     ):
         super().__init__()
 
@@ -159,11 +164,13 @@ class PhiMLP(nn.Module):
             config.hidden_size,
             n_inner,
             quant_config=quant_config,
+            prefix=f"{prefix}.fc1",
         )
         self.fc2 = RowParallelLinear(
             n_inner,
             config.hidden_size,
             quant_config=quant_config,
+            prefix=f"{prefix}.fc2",
         )
         self.act = get_act_fn(config.hidden_act)
 
@@ -189,7 +196,7 @@ class PhiLayer(nn.Module):
         self.self_attn = PhiAttention(
             config, cache_config, quant_config, prefix=f"{prefix}.self_attn"
         )
-        self.mlp = PhiMLP(config, quant_config)
+        self.mlp = PhiMLP(config, quant_config, prefix=f"{prefix}.mlp")
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/phimoe.py b/vllm/model_executor/models/phimoe.py
index 2cd4d8c727216..c7436cedeb229 100644
--- a/vllm/model_executor/models/phimoe.py
+++ b/vllm/model_executor/models/phimoe.py
@@ -343,12 +343,14 @@ class PhiMoEAttention(nn.Module):
             self.total_num_kv_heads,
             bias=True,
             quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
         )
         self.o_proj = RowParallelLinear(
             self.total_num_heads * self.head_dim,
             hidden_size,
             bias=True,
             quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
         )
         self.rotary_emb = get_rope(
             self.head_dim,
diff --git a/vllm/model_executor/models/plamo2.py b/vllm/model_executor/models/plamo2.py
index 09293f63f70e1..6427ccfccc134 100644
--- a/vllm/model_executor/models/plamo2.py
+++ b/vllm/model_executor/models/plamo2.py
@@ -567,12 +567,14 @@ class Plamo2AttentionMixer(nn.Module):
             self.total_num_kv_heads,
             bias=False,
             quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
         )
         self.o_proj = RowParallelLinear(
             self.total_num_heads * self.head_dim,
             config.hidden_size,
             bias=False,
             quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
         )
 
         self.rope_theta = config.rope_theta if hasattr(config, "rope_theta") else 10000
diff --git a/vllm/model_executor/models/qwen.py b/vllm/model_executor/models/qwen.py
index 72e66d8f30384..c99f628004fbd 100644
--- a/vllm/model_executor/models/qwen.py
+++ b/vllm/model_executor/models/qwen.py
@@ -102,12 +102,14 @@ class QWenAttention(nn.Module):
             self.total_num_heads,
             bias=True,
             quant_config=quant_config,
+            prefix=f"{prefix}.c_attn",
         )
         self.c_proj = RowParallelLinear(
             self.total_num_heads * self.head_dim,
             hidden_size,
             bias=False,
             quant_config=quant_config,
+            prefix=f"{prefix}.c_proj",
         )
         self.scaling = self.head_dim**-0.5
 
diff --git a/vllm/model_executor/models/zamba2.py b/vllm/model_executor/models/zamba2.py
index a6cfcf509776f..bc1351600a2f4 100644
--- a/vllm/model_executor/models/zamba2.py
+++ b/vllm/model_executor/models/zamba2.py
@@ -75,7 +75,12 @@ class Zamba2LoRA(nn.Module):
         super().__init__()
 
         self.A = ColumnParallelLinear(
-            input_dim, rank, bias=False, quant_config=quant_config, gather_output=True
+            input_dim,
+            rank,
+            bias=False,
+            quant_config=quant_config,
+            gather_output=True,
+            prefix=f"{prefix}.A",
         )
 
         if isinstance(output_dim, list):
@@ -150,12 +155,14 @@ class Zamba2Attention(nn.Module):
             self.total_num_attention_heads,
             bias=False,
             quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
         )
         self.o_proj = RowParallelLinear(
             self.attention_hidden_size,
             config.hidden_size,
             bias=False,
             quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
         )
 
         # Even though in Zamba2 weights are shared between attention layers, KV
@@ -197,18 +204,21 @@ class Zamba2Attention(nn.Module):
                         config.adapter_rank,
                         self.attention_hidden_size,
                         quant_config=quant_config,
+                        prefix=f"{prefix}.linear_q_adapter",
                     )
                     linear_k_adapter = Zamba2LoRA(
                         self.attention_hidden_size,
                         config.adapter_rank,
                         self.attention_hidden_size,
                         quant_config=quant_config,
+                        prefix=f"{prefix}.linear_k_adapter",
                     )
                     linear_v_adapter = Zamba2LoRA(
                         self.attention_hidden_size,
                         config.adapter_rank,
                         self.attention_hidden_size,
                         quant_config=quant_config,
+                        prefix=f"{prefix}.linear_v_adapter",
                     )
                 else:
                     linear_q_adapter = nn.Identity()
@@ -312,6 +322,7 @@ class Zamba2MLP(nn.Module):
             2 * [self.intermediate_size],  # 2x for gate and input projections
             bias=self.config.add_bias_linear,
             quant_config=quant_config,
+            prefix=f"{prefix}.gate_up_proj",
         )
 
         self.down_proj = RowParallelLinear(
@@ -319,6 +330,7 @@ class Zamba2MLP(nn.Module):
             self.hidden_size,
             bias=self.config.add_bias_linear,
             quant_config=quant_config,
+            prefix=f"{prefix}.down_proj",
         )
 
         # Only allow GELU activations
@@ -418,6 +430,7 @@ class Zamba2AttentionDecoderLayer(nn.Module):
             bare_block_idx=bare_block_idx,
             num_hybrid_layers=num_hybrid_layers,
             quant_config=quant_config,
+            prefix=f"{prefix}.feed_forward",
         )
 
         # Initialize layer normalizations
@@ -599,6 +612,7 @@ class Zamba2HybridLayer(nn.Module):
             config.hidden_size,
             bias=False,
             quant_config=quant_config,
+            prefix=f"{prefix}.linear",
         )
         self.mamba_decoder = Zamba2MambaDecoderLayer(
             config,

From 8e19d470af0a39a25dec799f81c0fb922777c240 Mon Sep 17 00:00:00 2001
From: "Kevin H. Luu" <khluu000@gmail.com>
Date: Fri, 7 Nov 2025 04:09:09 -0800
Subject: [PATCH 220/976] [fix] Revert "fixing mm placeholder replacement issue
 with gemma3" (#28285)

Signed-off-by: Kevin H. Luu <khluu000@gmail.com>
---
 vllm/model_executor/models/gemma3_mm.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/model_executor/models/gemma3_mm.py b/vllm/model_executor/models/gemma3_mm.py
index 630de816dc22b..8e1dbd9e2cea7 100644
--- a/vllm/model_executor/models/gemma3_mm.py
+++ b/vllm/model_executor/models/gemma3_mm.py
@@ -401,7 +401,7 @@ class Gemma3MultiModalProcessor(BaseMultiModalProcessor[Gemma3ProcessingInfo]):
 
         def get_repl_toks(tok: int) -> list[int]:
             if tok == newline_3:
-                return [newline_2, newline_1]
+                return [newline_1, newline_2]
             if tok == newline_4:
                 return [newline_2, newline_2]
 

From e0919f331d12dc5dbdefd0775bb6f94dd2fab4e2 Mon Sep 17 00:00:00 2001
From: Lukas Geiger <lukas.geiger94@gmail.com>
Date: Fri, 7 Nov 2025 12:14:29 +0000
Subject: [PATCH 221/976] [Core][MM] Add mechanism to configure multimodal
 fields which should stay on CPU (#28168)

Signed-off-by: Lukas Geiger <lukas.geiger94@gmail.com>
---
 vllm/model_executor/models/interfaces.py |  7 ++-
 vllm/model_executor/models/qwen2_5_vl.py | 15 ++-----
 vllm/model_executor/models/qwen2_vl.py   | 38 ++++++++--------
 vllm/model_executor/models/qwen3_vl.py   | 55 +++++++++---------------
 vllm/multimodal/utils.py                 | 20 ++++++---
 vllm/v1/worker/gpu_model_runner.py       |  5 +++
 vllm/v1/worker/tpu_model_runner.py       |  2 +
 7 files changed, 68 insertions(+), 74 deletions(-)

diff --git a/vllm/model_executor/models/interfaces.py b/vllm/model_executor/models/interfaces.py
index 33c9043405cae..b634c7ec7d67b 100644
--- a/vllm/model_executor/models/interfaces.py
+++ b/vllm/model_executor/models/interfaces.py
@@ -1,7 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
-from collections.abc import Callable, Iterable, Mapping, MutableSequence
+from collections.abc import Callable, Iterable, Mapping, MutableSequence, Set
 from typing import (
     TYPE_CHECKING,
     ClassVar,
@@ -81,6 +81,11 @@ class SupportsMultiModal(Protocol):
     `vllm.multimodal.utils.group_mm_kwargs_by_modality` to use.
     """
 
+    multimodal_cpu_fields: ClassVar[Set[str]] = frozenset()
+    """
+    A set indicating CPU-only multimodal fields.
+    """
+
     @classmethod
     def get_placeholder_str(cls, modality: str, i: int) -> str | None:
         """
diff --git a/vllm/model_executor/models/qwen2_5_vl.py b/vllm/model_executor/models/qwen2_5_vl.py
index a90cfe96414bd..d337f1606943a 100644
--- a/vllm/model_executor/models/qwen2_5_vl.py
+++ b/vllm/model_executor/models/qwen2_5_vl.py
@@ -1090,6 +1090,7 @@ class Qwen2_5_VLForConditionalGeneration(
     SupportsMRoPE,
 ):
     merge_by_field_config = True
+    multimodal_cpu_fields = {"image_grid_thw", "video_grid_thw"}
 
     packed_modules_mapping = {
         "qkv_proj": ["q_proj", "k_proj", "v_proj"],
@@ -1364,13 +1365,8 @@ class Qwen2_5_VLForConditionalGeneration(
                     image_embeds = self.visual(pixel_values, grid_thw=grid_thw_list)
 
         # Split concatenated embeddings for each image item.
-        # Using prod on grid_thw_list instead of grid_thw.prod avoids CUDA sync
         merge_size = self.visual.spatial_merge_size
-        sizes = (
-            torch.tensor(grid_thw_list, dtype=torch.long).prod(-1)
-            // (merge_size * merge_size)
-        ).tolist()
-
+        sizes = (grid_thw.prod(-1) // merge_size // merge_size).tolist()
         return image_embeds.split(sizes)
 
     def _postprocess_image_embeds_evs(
@@ -1430,12 +1426,7 @@ class Qwen2_5_VLForConditionalGeneration(
 
         # Split concatenated embeddings for each video item.
         merge_size = self.visual.spatial_merge_size
-        # Using prod on grid_thw_list instead of grid_thw.prod avoids CUDA sync
-        sizes = (
-            torch.tensor(grid_thw_list, dtype=torch.long).prod(-1)
-            // (merge_size * merge_size)
-        ).tolist()
-
+        sizes = (grid_thw.prod(-1) // merge_size // merge_size).tolist()
         return video_embeds.split(sizes)
 
     def _postprocess_video_embeds_evs(
diff --git a/vllm/model_executor/models/qwen2_vl.py b/vllm/model_executor/models/qwen2_vl.py
index 1ec12bdb55dfe..9206ac8f9d032 100644
--- a/vllm/model_executor/models/qwen2_vl.py
+++ b/vllm/model_executor/models/qwen2_vl.py
@@ -798,21 +798,27 @@ class Qwen2VisionTransformer(nn.Module):
     def forward(
         self,
         x: torch.Tensor,
-        grid_thw: list[list[int]],
+        grid_thw: torch.Tensor | list[list[int]],
     ) -> torch.Tensor:
         # patchify
         x = x.to(device=self.device, dtype=self.dtype)
         x = self.patch_embed(x)
 
+        if isinstance(grid_thw, list):
+            grid_thw_list = grid_thw
+            grid_thw = torch.tensor(grid_thw, dtype=torch.int32)
+        else:
+            grid_thw_list = grid_thw.tolist()
+
         # compute position embedding
-        rotary_pos_emb = self.rot_pos_emb(grid_thw)
+        rotary_pos_emb = self.rot_pos_emb(grid_thw_list)
 
         # compute cu_seqlens
-        grid_thw_ = torch.tensor(grid_thw, device=x.device, dtype=torch.long)
         cu_seqlens = torch.repeat_interleave(
-            grid_thw_[:, 1] * grid_thw_[:, 2], grid_thw_[:, 0]
+            grid_thw[:, 1] * grid_thw[:, 2], grid_thw[:, 0]
         ).cumsum(dim=0, dtype=torch.int32)
-        cu_seqlens = F.pad(cu_seqlens, (1, 0), "constant", 0)
+        cu_seqlens = torch.cat([cu_seqlens.new_zeros(1), cu_seqlens])
+        cu_seqlens = cu_seqlens.to(self.device, non_blocking=True)
 
         # transformers
         x = x.unsqueeze(1)
@@ -1211,6 +1217,7 @@ class Qwen2VLForConditionalGeneration(
     nn.Module, SupportsMultiModal, SupportsLoRA, SupportsPP, SupportsMRoPE
 ):
     merge_by_field_config = True
+    multimodal_cpu_fields = {"image_grid_thw", "video_grid_thw"}
 
     # To ensure correct weight loading and mapping.
     hf_to_vllm_mapper = WeightsMapper(
@@ -1458,7 +1465,6 @@ class Qwen2VLForConditionalGeneration(
     ) -> tuple[torch.Tensor, ...]:
         grid_thw = image_input["image_grid_thw"]
         assert grid_thw.ndim == 2
-        grid_thw_list = grid_thw.tolist()
 
         if image_input["type"] == "image_embeds":
             image_embeds = image_input["image_embeds"]
@@ -1467,18 +1473,14 @@ class Qwen2VLForConditionalGeneration(
 
             if self.use_data_parallel:
                 return run_dp_sharded_mrope_vision_model(
-                    self.visual, pixel_values, grid_thw_list, rope_type="rope_3d"
+                    self.visual, pixel_values, grid_thw.tolist(), rope_type="rope_3d"
                 )
             else:
-                image_embeds = self.visual(pixel_values, grid_thw=grid_thw_list)
+                image_embeds = self.visual(pixel_values, grid_thw=grid_thw)
 
         # Split concatenated embeddings for each image item.
         merge_size = self.visual.spatial_merge_size
-        sizes = (
-            torch.tensor(grid_thw_list, dtype=torch.long).prod(-1)
-            // (merge_size * merge_size)
-        ).tolist()
-
+        sizes = (grid_thw.prod(-1) // merge_size // merge_size).tolist()
         return image_embeds.split(sizes)
 
     def _process_video_input(
@@ -1486,26 +1488,22 @@ class Qwen2VLForConditionalGeneration(
     ) -> tuple[torch.Tensor, ...]:
         grid_thw = video_input["video_grid_thw"]
         assert grid_thw.ndim == 2
-        grid_thw_list = grid_thw.tolist()
 
         if video_input["type"] == "video_embeds":
             video_embeds = video_input["video_embeds"]
         else:
             pixel_values_videos = video_input["pixel_values_videos"]
             if self.use_data_parallel:
+                grid_thw_list = grid_thw.tolist()
                 return run_dp_sharded_mrope_vision_model(
                     self.visual, pixel_values_videos, grid_thw_list, rope_type="rope_3d"
                 )
             else:
-                video_embeds = self.visual(pixel_values_videos, grid_thw=grid_thw_list)
+                video_embeds = self.visual(pixel_values_videos, grid_thw=grid_thw)
 
         # Split concatenated embeddings for each video item.
         merge_size = self.visual.spatial_merge_size
-        sizes = (
-            torch.tensor(grid_thw_list, dtype=torch.long).prod(-1)
-            // (merge_size * merge_size)
-        ).tolist()
-
+        sizes = (grid_thw.prod(-1) // merge_size // merge_size).tolist()
         return video_embeds.split(sizes)
 
     def _parse_and_validate_multimodal_inputs(self, **kwargs: object) -> dict:
diff --git a/vllm/model_executor/models/qwen3_vl.py b/vllm/model_executor/models/qwen3_vl.py
index d611580c71821..2d8f431bb8fa7 100644
--- a/vllm/model_executor/models/qwen3_vl.py
+++ b/vllm/model_executor/models/qwen3_vl.py
@@ -414,16 +414,10 @@ class Qwen3_VisionTransformer(nn.Module):
     def device(self) -> torch.device:
         return self.patch_embed.proj.weight.device
 
-    def rot_pos_emb(self, grid_thw):
+    def rot_pos_emb(self, grid_thw: list[list[int]]):
         pos_ids = []
-        # Support both Tensor and list inputs for DP path
-        if isinstance(grid_thw, list):
-            grid_list = grid_thw
-            max_grid_size = max(max(h, w) for _, h, w in grid_list)
-        else:
-            grid_list = grid_thw.tolist()
-            max_grid_size = int(grid_thw[:, 1:].max().item())
-        for t, h, w in grid_list:
+        max_grid_size = max(max(h, w) for _, h, w in grid_thw)
+        for t, h, w in grid_thw:
             hpos_ids = torch.arange(h).unsqueeze(1).expand(-1, w)
             hpos_ids = hpos_ids.reshape(
                 h // self.spatial_merge_size,
@@ -527,24 +521,25 @@ class Qwen3_VisionTransformer(nn.Module):
     def forward(
         self,
         x: torch.Tensor,
-        grid_thw: list[list[int]],
+        grid_thw: torch.Tensor | list[list[int]],
     ) -> torch.Tensor:
         hidden_states = x.to(device=self.device, dtype=self.dtype, non_blocking=True)
         hidden_states = self.patch_embed(hidden_states)
 
-        pos_embeds = self.fast_pos_embed_interpolate(grid_thw)
+        if isinstance(grid_thw, list):
+            grid_thw_list = grid_thw
+            grid_thw = torch.tensor(grid_thw, dtype=torch.int32)
+        else:
+            grid_thw_list = grid_thw.tolist()
+
+        pos_embeds = self.fast_pos_embed_interpolate(grid_thw_list)
         hidden_states = hidden_states + pos_embeds
-        rotary_pos_emb = self.rot_pos_emb(grid_thw)
+        rotary_pos_emb = self.rot_pos_emb(grid_thw_list)
         rotary_pos_emb = rotary_pos_emb.to(hidden_states.device, non_blocking=True)
 
-        grid_thw_tensor = torch.tensor(grid_thw, dtype=torch.int32)
-
         cu_seqlens = torch.repeat_interleave(
-            grid_thw_tensor[:, 1] * grid_thw_tensor[:, 2], grid_thw_tensor[:, 0]
-        ).cumsum(
-            dim=0,
-            dtype=grid_thw_tensor.dtype if torch.jit.is_tracing() else torch.int32,
-        )
+            grid_thw[:, 1] * grid_thw[:, 2], grid_thw[:, 0]
+        ).cumsum(dim=0, dtype=grid_thw.dtype if torch.jit.is_tracing() else torch.int32)
         cu_seqlens = torch.cat([cu_seqlens.new_zeros(1), cu_seqlens])
 
         hidden_states = hidden_states.unsqueeze(1)
@@ -1177,6 +1172,7 @@ class Qwen3VLForConditionalGeneration(
     nn.Module, SupportsMultiModal, SupportsLoRA, SupportsPP, SupportsMRoPE
 ):
     merge_by_field_config = True
+    multimodal_cpu_fields = {"image_grid_thw", "video_grid_thw"}
 
     packed_modules_mapping = {
         "qkv_proj": [
@@ -1356,7 +1352,6 @@ class Qwen3VLForConditionalGeneration(
     ) -> tuple[torch.Tensor, ...]:
         grid_thw = image_input["image_grid_thw"]
         assert grid_thw.ndim == 2
-        grid_thw_list = grid_thw.tolist()
 
         if image_input["type"] == "image_embeds":
             image_embeds = image_input["image_embeds"].type(self.visual.dtype)
@@ -1364,18 +1359,14 @@ class Qwen3VLForConditionalGeneration(
             pixel_values = image_input["pixel_values"].type(self.visual.dtype)
             if self.use_data_parallel:
                 return run_dp_sharded_mrope_vision_model(
-                    self.visual, pixel_values, grid_thw_list, rope_type="rope_3d"
+                    self.visual, pixel_values, grid_thw.tolist(), rope_type="rope_3d"
                 )
             else:
-                image_embeds = self.visual(pixel_values, grid_thw=grid_thw_list)
+                image_embeds = self.visual(pixel_values, grid_thw=grid_thw)
 
         # Split concatenated embeddings for each image item.
-        # Using prod on grid_thw_list instead of grid_thw.prod avoids CUDA sync
         merge_size = self.visual.spatial_merge_size
-        sizes = (
-            torch.tensor(grid_thw_list, dtype=torch.long).prod(-1)
-            // (merge_size * merge_size)
-        ).tolist()
+        sizes = (grid_thw.prod(-1) // merge_size // merge_size).tolist()
         return image_embeds.split(sizes)
 
     def _process_video_input(
@@ -1383,7 +1374,6 @@ class Qwen3VLForConditionalGeneration(
     ) -> tuple[torch.Tensor, ...]:
         grid_thw = video_input["video_grid_thw"]
         assert grid_thw.ndim == 2
-        grid_thw_list = grid_thw.tolist()
 
         if video_input["type"] == "video_embeds":
             video_embeds = video_input["video_embeds"].type(self.visual.dtype)
@@ -1392,19 +1382,16 @@ class Qwen3VLForConditionalGeneration(
                 self.visual.dtype
             )
             if self.use_data_parallel:
+                grid_thw_list = grid_thw.tolist()
                 return run_dp_sharded_mrope_vision_model(
                     self.visual, pixel_values_videos, grid_thw_list, rope_type="rope_3d"
                 )
             else:
-                video_embeds = self.visual(pixel_values_videos, grid_thw=grid_thw_list)
+                video_embeds = self.visual(pixel_values_videos, grid_thw=grid_thw)
 
         # Split concatenated embeddings for each video item.
-        # Using prod on grid_thw_list instead of grid_thw.prod avoids CUDA sync
         merge_size = self.visual.spatial_merge_size
-        sizes = (
-            torch.tensor(grid_thw_list, dtype=torch.long).prod(-1)
-            // (merge_size * merge_size)
-        ).tolist()
+        sizes = (grid_thw.prod(-1) // merge_size // merge_size).tolist()
         return video_embeds.split(sizes)
 
     def _parse_and_validate_multimodal_inputs(self, **kwargs: object) -> dict:
diff --git a/vllm/multimodal/utils.py b/vllm/multimodal/utils.py
index aa61bcc11f9fa..3f55c46ca334d 100644
--- a/vllm/multimodal/utils.py
+++ b/vllm/multimodal/utils.py
@@ -3,7 +3,7 @@
 
 import asyncio
 import atexit
-from collections.abc import Iterable
+from collections.abc import Iterable, Set
 from concurrent.futures import ThreadPoolExecutor
 from itertools import groupby
 from pathlib import Path
@@ -402,6 +402,7 @@ def group_mm_kwargs_by_modality(
     device: torch.types.Device = None,
     pin_memory: bool = False,
     merge_by_field_config: bool | None = None,
+    multimodal_cpu_fields: Set[str] = frozenset(),
 ) -> Iterable[tuple[str, int, BatchedTensorInputs]]:
     """Group consecutive `MultiModalKwargsItem`s from `mm_kwargs` with the same
     modality together into the same `MultiModalKwargs` instance.
@@ -443,12 +444,17 @@ def group_mm_kwargs_by_modality(
             )
 
             if device is not None:
-                mm_kwargs_group = json_map_leaves(
-                    lambda x: x.to(device=device, non_blocking=True)
-                    if isinstance(x, torch.Tensor)
-                    else x,
-                    mm_kwargs_group,
-                )
+                mm_kwargs_group = {
+                    k: json_map_leaves(
+                        lambda x: x.to(device=device, non_blocking=True)
+                        if isinstance(x, torch.Tensor)
+                        else x,
+                        v,
+                    )
+                    if k not in multimodal_cpu_fields
+                    else v
+                    for k, v in mm_kwargs_group.items()
+                }
         else:
             mm_kwargs_group = MultiModalKwargs.as_kwargs(
                 MultiModalKwargs.batch(
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index 91015ad4379c9..91c8efc17feb9 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -938,6 +938,7 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
             device=self.device,
             pin_memory=self.pin_memory,
             merge_by_field_config=model.merge_by_field_config,
+            multimodal_cpu_fields=model.multimodal_cpu_fields,
         ):
             mm_kwargs_combined.update(mm_kwargs_group)
 
@@ -1768,6 +1769,7 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
             device=self.device,
             pin_memory=self.pin_memory,
             merge_by_field_config=model.merge_by_field_config,
+            multimodal_cpu_fields=model.multimodal_cpu_fields,
         ):
             curr_group_outputs = []
 
@@ -1794,6 +1796,7 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
                             device=self.device,
                             pin_memory=self.pin_memory,
                             merge_by_field_config=model.merge_by_field_config,
+                            multimodal_cpu_fields=model.multimodal_cpu_fields,
                         )
                     )
 
@@ -1936,6 +1939,7 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
             device=self.device,
             pin_memory=self.pin_memory,
             merge_by_field_config=model.merge_by_field_config,
+            multimodal_cpu_fields=model.multimodal_cpu_fields,
         ):
             # Add the grouped features to encoder_features dict
             # This allows the model to receive them as kwargs (e.g.,
@@ -3292,6 +3296,7 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
                 device=self.device,
                 pin_memory=self.pin_memory,
                 merge_by_field_config=model.merge_by_field_config,
+                multimodal_cpu_fields=model.multimodal_cpu_fields,
             )
         )
 
diff --git a/vllm/v1/worker/tpu_model_runner.py b/vllm/v1/worker/tpu_model_runner.py
index 0e34504a5e268..26816ce0f2091 100644
--- a/vllm/v1/worker/tpu_model_runner.py
+++ b/vllm/v1/worker/tpu_model_runner.py
@@ -952,6 +952,7 @@ class TPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
             device=self.device,
             pin_memory=self.pin_memory,
             merge_by_field_config=model.merge_by_field_config,
+            multimodal_cpu_fields=model.multimodal_cpu_fields,
         ):
             # Run the encoder.
             # `curr_group_outputs` is either of the following:
@@ -2037,6 +2038,7 @@ class TPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
                 device=self.device,
                 pin_memory=self.pin_memory,
                 merge_by_field_config=model.merge_by_field_config,
+                multimodal_cpu_fields=model.multimodal_cpu_fields,
             )
         )
 

From 72b1c2ae2c2d2782ef1850ca1b96a21f797f7af6 Mon Sep 17 00:00:00 2001
From: Pavani Majety <pmajety@nvidia.com>
Date: Fri, 7 Nov 2025 04:18:39 -0800
Subject: [PATCH 222/976] [Bugfix] Use latency MOE backend as default for
 Flashinfer and other misc fixes (#27439)

Signed-off-by: Pavani Majety <pmajety@nvidia.com>
---
 csrc/quantization/fp4/nvfp4_quant_kernels.cu  | 22 +++++++++++++++++--
 .../kernels/quantization/test_nvfp4_quant.py  |  2 --
 vllm/_custom_ops.py                           |  2 +-
 vllm/envs.py                                  |  6 ++---
 .../schemes/compressed_tensors_w4a4_nvfp4.py  |  3 +++
 .../model_executor/layers/quantization/fp8.py |  7 ++++++
 .../layers/quantization/modelopt.py           | 17 ++++++++++----
 7 files changed, 47 insertions(+), 12 deletions(-)

diff --git a/csrc/quantization/fp4/nvfp4_quant_kernels.cu b/csrc/quantization/fp4/nvfp4_quant_kernels.cu
index 5575ee8e4197e..6d69852bb4e4f 100644
--- a/csrc/quantization/fp4/nvfp4_quant_kernels.cu
+++ b/csrc/quantization/fp4/nvfp4_quant_kernels.cu
@@ -31,6 +31,13 @@
 
 namespace vllm {
 
+template <typename Int>
+__host__ __device__ inline Int round_up(Int x, Int y) {
+  static_assert(std::is_integral_v<Int>,
+                "round_up argument must be integral type");
+  return (x + y - 1) / y * y;
+}
+
 // Use UE4M3 by default.
 template <class Type, bool UE8M0_SF = false>
 __global__ void __launch_bounds__(512, VLLM_BLOCKS_PER_SM(512))
@@ -42,10 +49,21 @@ __global__ void __launch_bounds__(512, VLLM_BLOCKS_PER_SM(512))
   static_assert(sizeof(PackedVec) == sizeof(Type) * CVT_FP4_ELTS_PER_THREAD,
                 "Vec size is not matched.");
 
+  int sf_m = round_up<int>(numRows, 128);
+  int sf_n_unpadded = numCols / CVT_FP4_SF_VEC_SIZE;
+  int sf_n_int = round_up<int>(sf_n_unpadded, 4) / 4;
+  for (int row = numRows + blockIdx.x; row < sf_m; row += gridDim.x) {
+    // Each thread writes 4 uint32_t elements.
+    for (int col = sf_n_unpadded + threadIdx.x * 4; col < sf_n_int;
+         col += blockDim.x * 4) {
+      SFout[row * sf_n_int + col] = 0x00;
+    }
+  }
+
   // Get the global scaling factor, which will be applied to the SF.
   // Note SFScale is the same as next GEMM's alpha, which is
   // (448.f / (Alpha_A / 6.f)).
-  float const SFScaleVal = SFScale == nullptr ? 1.0f : SFScale[0];
+  float const global_scale = SFScale == nullptr ? 1.0f : SFScale[0];
 
   // Input tensor row/col loops.
   for (int rowIdx = blockIdx.x; rowIdx < numRows; rowIdx += gridDim.x) {
@@ -64,7 +82,7 @@ __global__ void __launch_bounds__(512, VLLM_BLOCKS_PER_SM(512))
               rowIdx, colIdx, numCols, SFout);
 
       out_pos =
-          cvt_warp_fp16_to_fp4<Type, UE8M0_SF>(in_vec, SFScaleVal, sf_out);
+          cvt_warp_fp16_to_fp4<Type, UE8M0_SF>(in_vec, global_scale, sf_out);
     }
   }
 }
diff --git a/tests/kernels/quantization/test_nvfp4_quant.py b/tests/kernels/quantization/test_nvfp4_quant.py
index e9b091d06697e..12f1008ecf27f 100644
--- a/tests/kernels/quantization/test_nvfp4_quant.py
+++ b/tests/kernels/quantization/test_nvfp4_quant.py
@@ -168,9 +168,7 @@ def test_quantize_to_fp4_padded(pad_shape: tuple[int, int]) -> None:
     out_ref, scale_ref = ref_nvfp4_quant(x, global_scale)
 
     out, out_scale = ops.scaled_fp4_quant(x, global_scale)
-
     scale_ans = recover_swizzled_scales(out_scale, m, n)
     out_ans = cast_from_fp4(out, m, n)
-
     torch.testing.assert_close(out_ans, out_ref)
     torch.testing.assert_close(scale_ans, scale_ref)
diff --git a/vllm/_custom_ops.py b/vllm/_custom_ops.py
index cfcf534c613f7..de68b34182441 100644
--- a/vllm/_custom_ops.py
+++ b/vllm/_custom_ops.py
@@ -1385,7 +1385,7 @@ def scaled_fp4_quant(
     rounded_m = round_up(m, 128)
     scale_n = n // block_size
     rounded_n = round_up(scale_n, 4)
-    output_scale = torch.zeros(
+    output_scale = torch.empty(
         (rounded_m, rounded_n // 4), device=device, dtype=torch.int32
     )
 
diff --git a/vllm/envs.py b/vllm/envs.py
index eb50ea6e5dbe5..59a6bef58c9c2 100755
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -155,7 +155,7 @@ if TYPE_CHECKING:
     VLLM_USE_FLASHINFER_MOE_FP16: bool = False
     VLLM_USE_FLASHINFER_MOE_FP8: bool = False
     VLLM_USE_FLASHINFER_MOE_FP4: bool = False
-    VLLM_FLASHINFER_MOE_BACKEND: Literal["throughput", "latency"] = "throughput"
+    VLLM_FLASHINFER_MOE_BACKEND: Literal["throughput", "latency"] = "latency"
     VLLM_XGRAMMAR_CACHE_MB: int = 0
     VLLM_MSGPACK_ZERO_COPY_THRESHOLD: int = 256
     VLLM_ALLOW_INSECURE_SERIALIZATION: bool = False
@@ -1218,7 +1218,7 @@ environment_variables: dict[str, Callable[[], Any]] = {
     # - "latency":
     #     Uses TensorRT-LLM kernels optimized for low-latency inference.
     "VLLM_FLASHINFER_MOE_BACKEND": env_with_choices(
-        "VLLM_FLASHINFER_MOE_BACKEND", "throughput", ["throughput", "latency"]
+        "VLLM_FLASHINFER_MOE_BACKEND", "latency", ["throughput", "latency"]
     ),
     # Control the maximum number of tokens per expert supported by the
     # NVFP4 MoE CUTLASS Kernel. This value is used to create a buffer for
@@ -1325,7 +1325,7 @@ environment_variables: dict[str, Callable[[], Any]] = {
     "VLLM_NVFP4_GEMM_BACKEND": env_with_choices(
         "VLLM_NVFP4_GEMM_BACKEND",
         None,
-        ["flashinfer-cudnn", "flashinfer-trtllm", "flashinfer-cutlass"],
+        ["flashinfer-cudnn", "flashinfer-trtllm", "flashinfer-cutlass", "cutlass"],
     ),
     # Controls garbage collection during CUDA graph capture.
     # If set to 0 (default), enables GC freezing to speed up capture time.
diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a4_nvfp4.py b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a4_nvfp4.py
index 4127cd2d574bd..b603bdb13280b 100644
--- a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a4_nvfp4.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a4_nvfp4.py
@@ -50,6 +50,9 @@ class CompressedTensorsW4A4Fp4(CompressedTensorsScheme):
         elif envs.VLLM_NVFP4_GEMM_BACKEND.startswith("flashinfer-"):
             self.backend = envs.VLLM_NVFP4_GEMM_BACKEND
             assert has_flashinfer(), f"FlashInfer is required for {self.backend}"
+        elif envs.VLLM_NVFP4_GEMM_BACKEND == "cutlass":
+            self.backend = "cutlass"
+            assert cutlass_fp4_supported(), f"Cutlass is required for {self.backend}"
 
         if self.backend == "none":
             raise ValueError(
diff --git a/vllm/model_executor/layers/quantization/fp8.py b/vllm/model_executor/layers/quantization/fp8.py
index 03eca199d536d..ce40645782e51 100644
--- a/vllm/model_executor/layers/quantization/fp8.py
+++ b/vllm/model_executor/layers/quantization/fp8.py
@@ -138,6 +138,13 @@ def get_fp8_moe_backend(block_quant: bool) -> Fp8MoeBackend:
             logger.info_once("Using FlashInfer FP8 MoE TRTLLM backend for SM100")
             return Fp8MoeBackend.FLASHINFER_TRTLLM
         else:
+            if block_quant:
+                raise ValueError(
+                    "FlashInfer FP8 MoE throughput backend does not "
+                    "support block quantization. Please use "
+                    "VLLM_FLASHINFER_MOE_BACKEND=latency "
+                    "instead."
+                )
             logger.info_once("Using FlashInfer FP8 MoE CUTLASS backend for SM100")
             return Fp8MoeBackend.FLASHINFER_CUTLASS
 
diff --git a/vllm/model_executor/layers/quantization/modelopt.py b/vllm/model_executor/layers/quantization/modelopt.py
index 0946cc171fa7c..e14753c60c485 100644
--- a/vllm/model_executor/layers/quantization/modelopt.py
+++ b/vllm/model_executor/layers/quantization/modelopt.py
@@ -221,7 +221,10 @@ class ModelOptFp8Config(QuantizationConfig):
     def get_quant_method(
         self, layer: torch.nn.Module, prefix: str
     ) -> Optional["QuantizeMethodBase"]:
-        from vllm.attention.layer import Attention  # Avoid circular import
+        from vllm.attention.layer import (  # Avoid circular import
+            Attention,
+            MLAAttention,
+        )
 
         if isinstance(layer, LinearBase):
             if self.is_layer_excluded(prefix):
@@ -230,7 +233,7 @@ class ModelOptFp8Config(QuantizationConfig):
             if "vision_tower" in prefix or "vision_model" in prefix:
                 return UnquantizedLinearMethod()
             return ModelOptFp8LinearMethod(self)
-        elif isinstance(layer, Attention):
+        elif isinstance(layer, (Attention, MLAAttention)):
             return ModelOptFp8KVCacheMethod(self)
         elif isinstance(layer, FusedMoE):
             return ModelOptFp8MoEMethod(self, layer)
@@ -888,7 +891,10 @@ class ModelOptNvFp4Config(QuantizationConfig):
     def get_quant_method(
         self, layer: torch.nn.Module, prefix: str
     ) -> Optional["QuantizeMethodBase"]:
-        from vllm.attention.layer import Attention  # Avoid circular import
+        from vllm.attention.layer import (  # Avoid circular import
+            Attention,
+            MLAAttention,
+        )
 
         skip_layer = self.is_layer_excluded(prefix)
         if isinstance(layer, LinearBase):
@@ -898,7 +904,7 @@ class ModelOptNvFp4Config(QuantizationConfig):
             if "vision_tower" in prefix or "vision_model" in prefix:
                 return UnquantizedLinearMethod()
             return ModelOptNvFp4LinearMethod(self)
-        elif isinstance(layer, Attention):
+        elif isinstance(layer, (Attention, MLAAttention)):
             return ModelOptFp8KVCacheMethod(self)
         elif isinstance(layer, FusedMoE):
             if skip_layer:
@@ -941,6 +947,9 @@ class ModelOptNvFp4LinearMethod(LinearMethodBase):
         elif envs.VLLM_NVFP4_GEMM_BACKEND.startswith("flashinfer-"):
             self.backend = envs.VLLM_NVFP4_GEMM_BACKEND
             assert has_flashinfer(), f"FlashInfer is required for {self.backend}"
+        elif envs.VLLM_NVFP4_GEMM_BACKEND == "cutlass":
+            self.backend = "cutlass"
+            assert cutlass_fp4_supported(), f"Cutlass is required for {self.backend}"
 
         if self.backend == "none":
             raise ValueError(

From e0d6b4a867bd53edb33496756913c30480029ba8 Mon Sep 17 00:00:00 2001
From: Iceber Gu <caiwei95@hotmail.com>
Date: Fri, 7 Nov 2025 20:21:40 +0800
Subject: [PATCH 223/976] [CLI] add --max-tokens to `vllm complete` (#28109)

Signed-off-by: Iceber Gu <caiwei95@hotmail.com>
---
 vllm/entrypoints/cli/openai.py | 20 ++++++++++++++------
 1 file changed, 14 insertions(+), 6 deletions(-)

diff --git a/vllm/entrypoints/cli/openai.py b/vllm/entrypoints/cli/openai.py
index 99a8759c84f49..fb49be370203e 100644
--- a/vllm/entrypoints/cli/openai.py
+++ b/vllm/entrypoints/cli/openai.py
@@ -195,10 +195,15 @@ class CompleteCommand(CLISubcommand):
     def cmd(args: argparse.Namespace) -> None:
         model_name, client = _interactive_cli(args)
 
+        kwargs = {
+            "model": model_name,
+            "stream": True,
+        }
+        if args.max_tokens:
+            kwargs["max_tokens"] = args.max_tokens
+
         if args.quick:
-            stream = client.completions.create(
-                model=model_name, prompt=args.quick, stream=True
-            )
+            stream = client.completions.create(prompt=args.quick, **kwargs)
             _print_completion_stream(stream)
             return
 
@@ -208,15 +213,18 @@ class CompleteCommand(CLISubcommand):
                 input_prompt = input("> ")
             except EOFError:
                 break
-            stream = client.completions.create(
-                model=model_name, prompt=input_prompt, stream=True
-            )
+            stream = client.completions.create(prompt=input_prompt, **kwargs)
             _print_completion_stream(stream)
 
     @staticmethod
     def add_cli_args(parser: FlexibleArgumentParser) -> FlexibleArgumentParser:
         """Add CLI arguments for the complete command."""
         _add_query_options(parser)
+        parser.add_argument(
+            "--max-tokens",
+            type=int,
+            help="Maximum number of tokens to generate per output sequence.",
+        )
         parser.add_argument(
             "-q",
             "--quick",

From 4b1ff1322113aaf337573db90490f5741e65cee6 Mon Sep 17 00:00:00 2001
From: Wentao Ye <44945378+yewentao256@users.noreply.github.com>
Date: Fri, 7 Nov 2025 07:35:33 -0500
Subject: [PATCH 224/976] [Feature] Default `ignore_eos` True for `random`
 dataset (#28227)

Signed-off-by: yewentao256 <zhyanwentao@126.com>
---
 vllm/benchmarks/serve.py | 8 ++++++++
 1 file changed, 8 insertions(+)

diff --git a/vllm/benchmarks/serve.py b/vllm/benchmarks/serve.py
index b8f44966db7a0..e58cf5911282e 100644
--- a/vllm/benchmarks/serve.py
+++ b/vllm/benchmarks/serve.py
@@ -1359,6 +1359,14 @@ async def main_async(args: argparse.Namespace) -> dict[str, Any]:
             "'--dataset-path' if required."
         )
 
+    # when using random datasets, default to ignoring EOS
+    # so generation runs to the requested length
+    if (
+        args.dataset_name in ("random", "random-mm")
+        and args.backend in OPENAI_COMPATIBLE_BACKENDS
+    ):
+        args.ignore_eos = True
+
     # Load the dataset.
     input_requests = get_samples(args, tokenizer)
     goodput_config_dict = check_goodput_args(args)

From 0f872b7977e50ab65b920d58898b37016cf49a6f Mon Sep 17 00:00:00 2001
From: Boyuan Feng <fby.1994@gmail.com>
Date: Fri, 7 Nov 2025 06:43:30 -0800
Subject: [PATCH 225/976] [Log] update shm wait time msg (#28255)

---
 .../device_communicators/shm_broadcast.py     | 22 ++++++++++---------
 1 file changed, 12 insertions(+), 10 deletions(-)

diff --git a/vllm/distributed/device_communicators/shm_broadcast.py b/vllm/distributed/device_communicators/shm_broadcast.py
index f92b3d34af0f1..5046cac2e90a7 100644
--- a/vllm/distributed/device_communicators/shm_broadcast.py
+++ b/vllm/distributed/device_communicators/shm_broadcast.py
@@ -49,6 +49,16 @@ def to_bytes_big(value: int, size: int) -> bytes:
 logger = init_logger(__name__)
 
 
+def long_wait_time_msg(threshold: int) -> str:
+    return (
+        "No available shared memory broadcast block found "
+        f"in {threshold} seconds. This typically happens "
+        "when some processes are hanging or doing some "
+        "time-consuming work (e.g. compilation, "
+        "weight/kv cache quantization)."
+    )
+
+
 class SpinTimer:
     def record_activity(self):
         pass
@@ -422,11 +432,7 @@ class MessageQueue:
                     # if we wait for a long time, log a message
                     if elapsed > VLLM_RINGBUFFER_WARNING_INTERVAL * n_warning:
                         logger.info(
-                            "No available shared memory broadcast block found"
-                            " in %s seconds. This typically happens when some"
-                            " processes are hanging or doing some"
-                            " time-consuming work (e.g. compilation)",
-                            VLLM_RINGBUFFER_WARNING_INTERVAL,
+                            long_wait_time_msg(VLLM_RINGBUFFER_WARNING_INTERVAL)
                         )
                         n_warning += 1
 
@@ -493,11 +499,7 @@ class MessageQueue:
                         elapsed > VLLM_RINGBUFFER_WARNING_INTERVAL * n_warning
                     ):
                         logger.info(
-                            "No available shared memory broadcast block found"
-                            " in %s seconds. This typically happens when some"
-                            " processes are hanging or doing some"
-                            " time-consuming work (e.g. compilation).",
-                            VLLM_RINGBUFFER_WARNING_INTERVAL,
+                            long_wait_time_msg(VLLM_RINGBUFFER_WARNING_INTERVAL)
                         )
                         n_warning += 1
 

From 68a72a5cc1e29198730d1b2471e23675d9b964dd Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Nicol=C3=B2=20Lucchesi?= <nlucches@redhat.com>
Date: Fri, 7 Nov 2025 16:07:01 +0100
Subject: [PATCH 226/976] Revert "[PerfFix] Avoid separate thread for MP
 executor shm spin (#28012)" (#28289)

Signed-off-by: NickLucche <nlucches@redhat.com>
---
 tests/v1/executor/test_executor.py            |   3 +-
 .../unit/test_output_aggregator.py            |  32 ++--
 .../kv_transfer/kv_connector/utils.py         |  41 ++++--
 vllm/v1/executor/abstract.py                  |   4 +-
 vllm/v1/executor/multiproc_executor.py        | 138 +++++++++---------
 vllm/v1/executor/ray_executor.py              |  11 +-
 vllm/v1/executor/ray_utils.py                 |   8 +-
 vllm/v1/executor/uniproc_executor.py          |  43 +-----
 vllm/v1/worker/gpu_worker.py                  |   2 +-
 9 files changed, 135 insertions(+), 147 deletions(-)

diff --git a/tests/v1/executor/test_executor.py b/tests/v1/executor/test_executor.py
index 91bfba6826e09..56574124b2727 100644
--- a/tests/v1/executor/test_executor.py
+++ b/tests/v1/executor/test_executor.py
@@ -4,7 +4,6 @@
 import asyncio
 import os
 from collections.abc import Callable
-from concurrent.futures import Future
 from typing import Any
 
 import pytest
@@ -28,7 +27,7 @@ class CustomMultiprocExecutor(MultiprocExecutor):
         kwargs: dict | None = None,
         non_block: bool = False,
         unique_reply_rank: int | None = None,
-    ) -> Any | list[Any] | Future[Any | list[Any]]:
+    ) -> list[Any]:
         # Drop marker to show that this was run
         with open(".marker", "w"):
             ...
diff --git a/tests/v1/kv_connector/unit/test_output_aggregator.py b/tests/v1/kv_connector/unit/test_output_aggregator.py
index d186f677c02f1..4dba203ebc7d8 100644
--- a/tests/v1/kv_connector/unit/test_output_aggregator.py
+++ b/tests/v1/kv_connector/unit/test_output_aggregator.py
@@ -89,12 +89,14 @@ def test_aggregate_workers_output():
 def test_async_aggregate_workers_output():
     aggregator = KVOutputAggregator(expected_finished_count=2)
 
-    future: Future[list[DummyModelRunnerOutput]] = Future()
-    result_future = aggregator.async_aggregate(future)
+    future1: Future[DummyModelRunnerOutput] = Future()
+    future2: Future[DummyModelRunnerOutput] = Future()
+    result_future = aggregator.async_aggregate([future1, future2])
 
     output1 = DummyModelRunnerOutput()
     output2 = DummyModelRunnerOutput()
-    future.set_result([output1, output2])
+    future1.set_result(output1)
+    future2.set_result(output2)
 
     assert result_future.done()
     aggregated = result_future.result()
@@ -104,14 +106,16 @@ def test_async_aggregate_workers_output():
     assert aggregated.finished_recving is None
     assert not aggregated.invalid_block_ids
 
-    future = Future()
-    result_future = aggregator.async_aggregate(future)
+    future1 = Future()
+    future2 = Future()
+    result_future = aggregator.async_aggregate([future1, future2])
 
     output1 = DummyModelRunnerOutput(
         finished_sending={"req1"}, finished_recving={"req2"}
     )
     output2 = DummyModelRunnerOutput(invalid_block_ids={1})
-    future.set_result([output1, output2])
+    future1.set_result(output1)
+    future2.set_result(output2)
 
     assert result_future.done()
     aggregated = result_future.result()
@@ -121,12 +125,14 @@ def test_async_aggregate_workers_output():
     assert aggregated.finished_recving is None
     assert aggregated.invalid_block_ids == {1}
 
-    future = Future()
-    result_future = aggregator.async_aggregate(future)
+    future1 = Future()
+    future2 = Future()
+    result_future = aggregator.async_aggregate([future1, future2])
 
     output1 = DummyModelRunnerOutput(invalid_block_ids={2})
     output2 = DummyModelRunnerOutput(finished_sending={"req1"})
-    future.set_result([output1, output2])
+    future1.set_result(output1)
+    future2.set_result(output2)
 
     assert result_future.done()
     aggregated = result_future.result()
@@ -136,14 +142,16 @@ def test_async_aggregate_workers_output():
     assert aggregated.finished_recving is None
     assert aggregated.invalid_block_ids == {2}
 
-    future = Future()
-    result_future = aggregator.async_aggregate(future)
+    future1 = Future()
+    future2 = Future()
+    result_future = aggregator.async_aggregate([future1, future2])
 
     output1 = DummyModelRunnerOutput(invalid_block_ids={3, 4})
     output2 = DummyModelRunnerOutput(
         finished_recving={"req2"}, invalid_block_ids={4, 5}
     )
-    future.set_result([output1, output2])
+    future1.set_result(output1)
+    future2.set_result(output2)
 
     assert result_future.done()
     aggregated = result_future.result()
diff --git a/vllm/distributed/kv_transfer/kv_connector/utils.py b/vllm/distributed/kv_transfer/kv_connector/utils.py
index f2aa9f0914ba2..7464f8469c3b5 100644
--- a/vllm/distributed/kv_transfer/kv_connector/utils.py
+++ b/vllm/distributed/kv_transfer/kv_connector/utils.py
@@ -221,24 +221,39 @@ class KVOutputAggregator:
 
     def async_aggregate(
         self,
-        output_future: Future[Sequence[ModelRunnerOutput | None]],
+        output_futures: Sequence[Future[ModelRunnerOutput | None]],
         output_rank: int = 0,
     ) -> Future[ModelRunnerOutput | None]:
-        """Takes a future that resolves to a list of outputs and returns a future
-        which resolves to a single aggregated output."""
+        """Takes a list of futures and returns a single future which resolves
+        to the respective list of outputs."""
         result_future: Future[ModelRunnerOutput | None] = Future()
 
-        def callback(fut):
-            if result_future.done():
-                return
-            try:
-                result_future.set_result(self.aggregate(fut.result(), output_rank))
-            except CancelledError:
-                result_future.cancel()
-            except Exception as e:
-                result_future.set_exception(e)
+        outputs: list[ModelRunnerOutput | None] = [None] * len(output_futures)
+        remaining = len(output_futures)
+
+        def make_callback(idx):
+            def callback(fut):
+                if result_future.done():
+                    return
+
+                try:
+                    outputs[idx] = fut.result()
+                except CancelledError:
+                    result_future.cancel()
+                except Exception as e:
+                    result_future.set_exception(e)
+
+                # this check assumes io_thread_pool uses a single thread
+                nonlocal remaining
+                remaining -= 1
+                if not remaining:
+                    result_future.set_result(self.aggregate(outputs, output_rank))
+
+            return callback
+
+        for i, output_future in enumerate(output_futures):
+            output_future.add_done_callback(make_callback(i))
 
-        output_future.add_done_callback(callback)
         return result_future
 
 
diff --git a/vllm/v1/executor/abstract.py b/vllm/v1/executor/abstract.py
index 1e913876b7635..d76c6107ad2ba 100644
--- a/vllm/v1/executor/abstract.py
+++ b/vllm/v1/executor/abstract.py
@@ -171,7 +171,7 @@ class Executor(ABC):
         args: tuple = (),
         kwargs: dict | None = None,
         non_block: Literal[True] = True,
-    ) -> Future[list[_R]]:
+    ) -> list[Future[_R]]:
         pass
 
     @abstractmethod
@@ -219,7 +219,7 @@ class Executor(ABC):
 
     def sample_tokens(
         self, grammar_output: GrammarOutput | None, non_block: bool = False
-    ) -> ModelRunnerOutput | None | Future[ModelRunnerOutput | None]:
+    ) -> ModelRunnerOutput | Future[ModelRunnerOutput]:
         output = self.collective_rpc(  # type: ignore[call-overload]
             "sample_tokens", args=(grammar_output,), non_block=non_block
         )
diff --git a/vllm/v1/executor/multiproc_executor.py b/vllm/v1/executor/multiproc_executor.py
index c9a50ecaa1def..999a3ba870ead 100644
--- a/vllm/v1/executor/multiproc_executor.py
+++ b/vllm/v1/executor/multiproc_executor.py
@@ -9,10 +9,8 @@ import threading
 import time
 import traceback
 import weakref
-from collections import deque
 from collections.abc import Callable
-from concurrent.futures import Future, InvalidStateError
-from contextlib import suppress
+from concurrent.futures import Future, ThreadPoolExecutor
 from dataclasses import dataclass
 from enum import Enum, auto
 from functools import cached_property, partial
@@ -56,30 +54,6 @@ from vllm.v1.worker.worker_base import WorkerWrapperBase
 logger = init_logger(__name__)
 
 
-class FutureWrapper(Future):
-    def __init__(self, futures_queue: deque[tuple["FutureWrapper", Callable]]):
-        self.futures_queue = futures_queue
-        super().__init__()
-
-    def result(self, timeout=None):
-        if timeout is not None:
-            raise RuntimeError("timeout not implemented")
-        # Drain any futures ahead of us in the queue.
-        while not self.done():
-            future, get_response = self.futures_queue.pop()
-            future.wait_for_response(get_response)
-        return super().result()
-
-    def wait_for_response(self, get_response: Callable):
-        try:
-            response = get_response()
-            with suppress(InvalidStateError):
-                self.set_result(response)
-        except Exception as e:
-            with suppress(InvalidStateError):
-                self.set_exception(e)
-
-
 class MultiprocExecutor(Executor):
     supports_pp: bool = True
 
@@ -90,6 +64,7 @@ class MultiprocExecutor(Executor):
         self.is_failed = False
         self.shutdown_event = threading.Event()
         self.failure_callback: FailureCallback | None = None
+        self.io_thread_pool: ThreadPoolExecutor | None = None
 
         self.world_size = self.parallel_config.world_size
         tensor_parallel_size = self.parallel_config.tensor_parallel_size
@@ -157,7 +132,12 @@ class MultiprocExecutor(Executor):
                         uw.death_writer.close()
                 self._ensure_worker_termination([uw.proc for uw in unready_workers])
 
-        self.futures_queue = deque[tuple[FutureWrapper, Callable]]()
+        # Note: must use only 1 IO thread to keep dequeue sequence
+        # from the response queue.
+        # _async_aggregate_workers_output also assumes a single IO thread.
+        self.io_thread_pool = ThreadPoolExecutor(
+            max_workers=1, thread_name_prefix="mp_exec_io"
+        )
 
         self.output_rank = self._get_output_rank()
         self.has_connector = self.vllm_config.kv_transfer_config is not None
@@ -215,13 +195,14 @@ class MultiprocExecutor(Executor):
     ) -> ModelRunnerOutput | None | Future[ModelRunnerOutput | None]:
         if not self.has_connector:
             # get output only from a single worker (output_rank)
-            return self.collective_rpc(
+            (output,) = self.collective_rpc(
                 method,
                 args=args,
                 unique_reply_rank=self.output_rank,
                 non_block=non_block,
                 timeout=envs.VLLM_EXECUTE_MODEL_TIMEOUT_SECONDS,
             )
+            return output
 
         # get output from all workers
         outputs = self.collective_rpc(
@@ -242,11 +223,12 @@ class MultiprocExecutor(Executor):
 
     def take_draft_token_ids(self) -> DraftTokenIds | None:
         # OPTIMIZATION: Get output only from a single worker (output_rank)
-        return self.collective_rpc(
+        outputs = self.collective_rpc(
             "take_draft_token_ids", unique_reply_rank=self.output_rank
         )
+        return outputs[0]
 
-    def collective_rpc(  # type: ignore[override]
+    def collective_rpc(
         self,
         method: str | Callable,
         timeout: float | None = None,
@@ -254,9 +236,7 @@ class MultiprocExecutor(Executor):
         kwargs: dict | None = None,
         non_block: bool = False,
         unique_reply_rank: int | None = None,
-    ) -> Any | list[Any] | Future[Any | list[Any]]:
-        """Returns single result if unique_reply_rank is provided, otherwise list."""
-
+    ) -> list[Any]:
         if self.is_failed:
             raise RuntimeError("Executor failed.")
 
@@ -266,52 +246,63 @@ class MultiprocExecutor(Executor):
         # NOTE: If the args are heterogeneous, then we pack them into a list,
         # and unpack them in the method of every worker, because every worker
         # knows their own rank.
-
-        if isinstance(method, str):
-            send_method = method
-        else:
-            send_method = cloudpickle.dumps(method, protocol=pickle.HIGHEST_PROTOCOL)
-        self.rpc_broadcast_mq.enqueue((send_method, args, kwargs, unique_reply_rank))
-
-        workers = (
-            (self.workers[unique_reply_rank],)
-            if unique_reply_rank is not None
-            else self.workers
-        )
-
-        shutdown_event = self.shutdown_event
-
-        def get_response():
-            responses = []
-            for w in workers:
-                dequeue_timeout = (
-                    None if deadline is None else (deadline - time.monotonic())
+        try:
+            if isinstance(method, str):
+                send_method = method
+            else:
+                send_method = cloudpickle.dumps(
+                    method, protocol=pickle.HIGHEST_PROTOCOL
                 )
-                try:
-                    status, result = w.worker_response_mq.dequeue(
-                        timeout=dequeue_timeout, cancel=shutdown_event
-                    )
-                except TimeoutError as e:
-                    raise TimeoutError(f"RPC call to {method} timed out.") from e
+            self.rpc_broadcast_mq.enqueue(
+                (send_method, args, kwargs, unique_reply_rank)
+            )
+
+            workers = (
+                (self.workers[unique_reply_rank],)
+                if unique_reply_rank is not None
+                else self.workers
+            )
+            responses = []
+
+            def get_response(
+                w: WorkerProcHandle,
+                dequeue_timeout: float | None = None,
+                cancel_event: threading.Event | None = None,
+            ):
+                status, result = w.worker_response_mq.dequeue(
+                    timeout=dequeue_timeout, cancel=cancel_event
+                )
+
                 if status != WorkerProc.ResponseStatus.SUCCESS:
                     raise RuntimeError(
                         f"Worker failed with error '{result}', please check the"
                         " stack trace above for the root cause"
                     )
+                return result
+
+            for w in workers:
+                dequeue_timeout = (
+                    None if deadline is None else (deadline - time.monotonic())
+                )
+
+                if self.io_thread_pool is not None:
+                    # We must consume worker_response_mq from a single thread.
+                    result = self.io_thread_pool.submit(  # type: ignore
+                        get_response, w, dequeue_timeout, self.shutdown_event
+                    )
+                    if not non_block:
+                        result = result.result()
+                elif not non_block:
+                    result = get_response(w, dequeue_timeout, self.shutdown_event)
+                else:
+                    raise RuntimeError(
+                        "non_block can only be used when max_concurrent_batches > 1"
+                    )
                 responses.append(result)
-            return responses[0] if unique_reply_rank is not None else responses
 
-        if non_block:
-            future = FutureWrapper(self.futures_queue)
-            self.futures_queue.appendleft((future, get_response))
-            return future
-
-        # First drain any pending futures in the queue.
-        while self.futures_queue:
-            future, get_fut_response = self.futures_queue.pop()
-            future.wait_for_response(get_fut_response)
-
-        return get_response()
+            return responses
+        except TimeoutError as e:
+            raise TimeoutError(f"RPC call to {method} timed out.") from e
 
     @staticmethod
     def _ensure_worker_termination(worker_procs: list[BaseProcess]):
@@ -357,6 +348,9 @@ class MultiprocExecutor(Executor):
                 self._ensure_worker_termination([w.proc for w in workers])
 
             self.shutdown_event.set()
+            if self.io_thread_pool is not None:
+                self.io_thread_pool.shutdown(wait=False, cancel_futures=True)
+                del self.io_thread_pool
 
         self.rpc_broadcast_mq = None
 
diff --git a/vllm/v1/executor/ray_executor.py b/vllm/v1/executor/ray_executor.py
index 119e4c0818316..4a69cca723ac9 100644
--- a/vllm/v1/executor/ray_executor.py
+++ b/vllm/v1/executor/ray_executor.py
@@ -435,25 +435,26 @@ class RayDistributedExecutor(Executor):
 
             # When PP is used, we return a FutureWrapper immediately so that
             # the scheduler can yield to the next batch.
-            return FutureWrapper(refs[0])
+            return FutureWrapper(refs)
 
         # Get output from all workers when connector is present
         assert self.kv_output_aggregator is not None
         if not non_block:
             # Block and get results from all workers
-            return self.kv_output_aggregator.aggregate(ray.get(refs))
+            outputs = [ref.get() for ref in refs]
+            return self.kv_output_aggregator.aggregate(outputs)
 
         # Return a future that will aggregate outputs from all workers
         return FutureWrapper(refs, self.kv_output_aggregator)
 
-    def collective_rpc(  # type: ignore[override]
+    def collective_rpc(
         self,
         method: str | Callable,
         timeout: float | None = None,
         args: tuple = (),
         kwargs: dict[str, Any] | None = None,
         non_block: bool = False,
-    ) -> list[Any] | Future[list[Any]]:
+    ) -> list[Any]:
         """Runs the given method on all workers."""
         sent_method = method if isinstance(method, str) else cloudpickle.dumps(method)
         del method
@@ -469,7 +470,7 @@ class RayDistributedExecutor(Executor):
 
         # Get the results of the ray workers.
         if non_block:
-            return FutureWrapper(ray_worker_outputs)
+            return [FutureWrapper((output,)) for output in ray_worker_outputs]
 
         return ray.get(ray_worker_outputs, timeout=timeout)
 
diff --git a/vllm/v1/executor/ray_utils.py b/vllm/v1/executor/ray_utils.py
index 07904fdec0d8e..a282cdc9909db 100644
--- a/vllm/v1/executor/ray_utils.py
+++ b/vllm/v1/executor/ray_utils.py
@@ -141,19 +141,19 @@ class FutureWrapper(Future):
     the result() call. If not only the first worker's output is returned.
     """
 
-    def __init__(self, ref_or_refs, aggregator: KVOutputAggregator | None = None):
+    def __init__(self, refs, aggregator: KVOutputAggregator | None = None):
         super().__init__()
-        self.ref_or_refs = ref_or_refs
+        self.refs = refs
         self.aggregator = aggregator
 
     def result(self, timeout=None):
         if timeout is not None:
             raise NotImplementedError("timeout is not supported")
 
-        outputs = ray.get(self.ref_or_refs, timeout=timeout)
         if self.aggregator is None:
-            return outputs
+            return self.refs[0].get()
 
+        outputs = [ref.get() for ref in self.refs]
         return self.aggregator.aggregate(outputs, output_rank=0)
 
 
diff --git a/vllm/v1/executor/uniproc_executor.py b/vllm/v1/executor/uniproc_executor.py
index 657784f87e2df..32f00949b7f74 100644
--- a/vllm/v1/executor/uniproc_executor.py
+++ b/vllm/v1/executor/uniproc_executor.py
@@ -13,10 +13,9 @@ import torch.distributed as dist
 import vllm.envs as envs
 from vllm.logger import init_logger
 from vllm.utils.network_utils import get_distributed_init_method, get_ip, get_open_port
-from vllm.v1.core.sched.output import GrammarOutput, SchedulerOutput
 from vllm.v1.engine import ReconfigureDistributedRequest, ReconfigureRankType
 from vllm.v1.executor.abstract import Executor
-from vllm.v1.outputs import AsyncModelRunnerOutput, DraftTokenIds, ModelRunnerOutput
+from vllm.v1.outputs import AsyncModelRunnerOutput
 from vllm.v1.serial_utils import run_method
 from vllm.v1.worker.worker_base import WorkerWrapperBase
 
@@ -59,60 +58,32 @@ class UniProcExecutor(Executor):
     def max_concurrent_batches(self) -> int:
         return 2 if self.scheduler_config.async_scheduling else 1
 
-    def collective_rpc(  # type: ignore[override]
+    def collective_rpc(
         self,
         method: str | Callable,
         timeout: float | None = None,
         args: tuple = (),
         kwargs: dict | None = None,
         non_block: bool = False,
-        single_value: bool = False,
-    ) -> Any | list[Any] | Future[Any | list[Any]]:
+    ) -> list[Any]:
         if kwargs is None:
             kwargs = {}
 
         if not non_block:
-            result = run_method(self.driver_worker, method, args, kwargs)
-            return result if single_value else [result]
+            return [run_method(self.driver_worker, method, args, kwargs)]
 
         try:
             result = run_method(self.driver_worker, method, args, kwargs)
             if isinstance(result, AsyncModelRunnerOutput):
                 if (async_thread := self.async_output_thread) is not None:
-                    get_output = result.get_output
-                    if not single_value:
-                        get_output = lambda: [get_output()]
-                    return async_thread.submit(get_output)
+                    return [async_thread.submit(result.get_output)]
                 result = result.get_output()
             future = Future[Any]()
-            future.set_result(result if single_value else [result])
+            future.set_result(result)
         except Exception as e:
             future = Future[Any]()
             future.set_exception(e)
-        return future
-
-    def execute_model(  # type: ignore[override]
-        self, scheduler_output: SchedulerOutput, non_block: bool = False
-    ) -> ModelRunnerOutput | None | Future[ModelRunnerOutput | None]:
-        return self.collective_rpc(
-            "execute_model",
-            args=(scheduler_output,),
-            non_block=non_block,
-            single_value=True,
-        )
-
-    def sample_tokens(  # type: ignore[override]
-        self, grammar_output: GrammarOutput | None, non_block: bool = False
-    ) -> ModelRunnerOutput | None | Future[ModelRunnerOutput | None]:
-        return self.collective_rpc(
-            "sample_tokens",
-            args=(grammar_output,),
-            non_block=non_block,
-            single_value=True,
-        )
-
-    def take_draft_token_ids(self) -> DraftTokenIds | None:
-        return self.collective_rpc("take_draft_token_ids", single_value=True)
+        return [future]
 
     def check_health(self) -> None:
         # UniProcExecutor will always be healthy as long as
diff --git a/vllm/v1/worker/gpu_worker.py b/vllm/v1/worker/gpu_worker.py
index f13ff4e726bd4..160beb1292e9f 100644
--- a/vllm/v1/worker/gpu_worker.py
+++ b/vllm/v1/worker/gpu_worker.py
@@ -524,7 +524,7 @@ class Worker(WorkerBase):
 
     @torch.inference_mode()
     def sample_tokens(
-        self, grammar_output: "GrammarOutput | None"
+        self, grammar_output: "GrammarOutput"
     ) -> ModelRunnerOutput | AsyncModelRunnerOutput:
         return self.model_runner.sample_tokens(grammar_output)
 

From 5fb4137c995a5b86153e63830970db7c568d1f89 Mon Sep 17 00:00:00 2001
From: Fadi Arafeh <115173828+fadara01@users.noreply.github.com>
Date: Fri, 7 Nov 2025 15:41:47 +0000
Subject: [PATCH 227/976] [README] Add Arm CPUs to the list of supported
 targets (#28290)

Signed-off-by: Fadi Arafeh <fadi.arafeh@arm.com>
---
 README.md      | 2 +-
 docs/README.md | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/README.md b/README.md
index 687fac932f344..b5e230e4b9b07 100644
--- a/README.md
+++ b/README.md
@@ -84,7 +84,7 @@ vLLM is flexible and easy to use with:
 - Tensor, pipeline, data and expert parallelism support for distributed inference
 - Streaming outputs
 - OpenAI-compatible API server
-- Support for NVIDIA GPUs, AMD CPUs and GPUs, Intel CPUs and GPUs, PowerPC CPUs, and TPU. Additionally, support for diverse hardware plugins such as Intel Gaudi, IBM Spyre and Huawei Ascend.
+- Support for NVIDIA GPUs, AMD CPUs and GPUs, Intel CPUs and GPUs, PowerPC CPUs, Arm CPUs, and TPU. Additionally, support for diverse hardware plugins such as Intel Gaudi, IBM Spyre and Huawei Ascend.
 - Prefix caching support
 - Multi-LoRA support
 
diff --git a/docs/README.md b/docs/README.md
index 6162b6ba4c97e..0608794e7e650 100644
--- a/docs/README.md
+++ b/docs/README.md
@@ -56,7 +56,7 @@ vLLM is flexible and easy to use with:
 - Tensor, pipeline, data and expert parallelism support for distributed inference
 - Streaming outputs
 - OpenAI-compatible API server
-- Support for NVIDIA GPUs, AMD CPUs and GPUs, Intel CPUs and GPUs, PowerPC CPUs, Arm CPUs and TPU. Additionally, support for diverse hardware plugins such as Intel Gaudi, IBM Spyre and Huawei Ascend.
+- Support for NVIDIA GPUs, AMD CPUs and GPUs, Intel CPUs and GPUs, PowerPC CPUs, Arm CPUs, and TPU. Additionally, support for diverse hardware plugins such as Intel Gaudi, IBM Spyre and Huawei Ascend.
 - Prefix caching support
 - Multi-LoRA support
 

From 155ad56d7b567441685a8f8ebf51b7077e68e054 Mon Sep 17 00:00:00 2001
From: youkaichao <youkaichao@gmail.com>
Date: Sat, 8 Nov 2025 00:26:34 +0800
Subject: [PATCH 228/976] [doc] add guide about the provided PTX was compiled
 with an unsupported toolchain (#28305)

Signed-off-by: youkaichao <youkaichao@gmail.com>
---
 docs/usage/troubleshooting.md | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/docs/usage/troubleshooting.md b/docs/usage/troubleshooting.md
index 94e801376e531..1995045fd5562 100644
--- a/docs/usage/troubleshooting.md
+++ b/docs/usage/troubleshooting.md
@@ -316,6 +316,10 @@ Traceback (most recent call last):
 
 This indicates vLLM failed to initialize the NCCL communicator, possibly due to a missing `IPC_LOCK` linux capability  or an unmounted `/dev/shm`. Refer to [Enabling GPUDirect RDMA](../serving/parallelism_scaling.md#enabling-gpudirect-rdma) for guidance on properly configuring the environment for GPUDirect RDMA.
 
+## CUDA error: the provided PTX was compiled with an unsupported toolchain
+
+If you see an error like `RuntimeError: CUDA error: the provided PTX was compiled with an unsupported toolchain.`, it means that the CUDA PTX in vLLM's wheels was compiled with a toolchain unsupported by your system. The released vLLM wheels have to be compiled with a specific version of CUDA toolkit, and the compiled code might fail to run on lower versions of CUDA drivers. Read [cuda compatibility](https://docs.nvidia.com/deploy/cuda-compatibility/) for more details. The solution is to install `cuda-compat` package from your package manager. For example, on Ubuntu, you can run `sudo apt-get install cuda-compat-12-9`, and then add `export LD_LIBRARY_PATH=/usr/local/cuda-12.9/compat:$LD_LIBRARY_PATH` to your `.bashrc` file. When successfully installed, you should see that the output of `nvidia-smi` will show `CUDA Version: 12.9`. Note that we use CUDA 12.9 as an example here, you may want to install a higher version of cuda-compat package in case vLLM's default CUDA version goes higher.
+
 ## Known Issues
 
 - In `v0.5.2`, `v0.5.3`, and `v0.5.3.post1`, there is a bug caused by [zmq](https://github.com/zeromq/pyzmq/issues/2000) , which can occasionally cause vLLM to hang depending on the machine configuration. The solution is to upgrade to the latest version of `vllm` to include the [fix](https://github.com/vllm-project/vllm/pull/6759).

From d0ceb38ae8b6a96837a51cfa68ce3f1a2fe13a4b Mon Sep 17 00:00:00 2001
From: Simon Mo <simon.mo@hey.com>
Date: Fri, 7 Nov 2025 10:06:45 -0800
Subject: [PATCH 229/976] [Build] Fix release pipeline failing annotation
 (#28272)

Signed-off-by: simon-mo <simon.mo@hey.com>
Signed-off-by: Simon Mo <simon.mo@hey.com>
Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
---
 .buildkite/scripts/annotate-release.sh | 21 ++++++++++++++-------
 1 file changed, 14 insertions(+), 7 deletions(-)

diff --git a/.buildkite/scripts/annotate-release.sh b/.buildkite/scripts/annotate-release.sh
index fde48603ad3cd..56bb5cedaa0a9 100755
--- a/.buildkite/scripts/annotate-release.sh
+++ b/.buildkite/scripts/annotate-release.sh
@@ -2,16 +2,23 @@
 
 set -ex
 
-# Get release version and strip leading 'v' if present
-RELEASE_VERSION=$(buildkite-agent meta-data get release-version | sed 's/^v//')
-
-if [ -z "$RELEASE_VERSION" ]; then
-  echo "Error: RELEASE_VERSION is empty. 'release-version' metadata might not be set or is invalid."
-  exit 1
+# Get release version, default to 1.0.0.dev for nightly/per-commit builds
+RELEASE_VERSION=$(buildkite-agent meta-data get release-version 2>/dev/null | sed 's/^v//')
+if [ -z "${RELEASE_VERSION}" ]; then
+  RELEASE_VERSION="1.0.0.dev"
 fi
 
 buildkite-agent annotate --style 'info' --context 'release-workflow' << EOF
-To download the wheel:
+To download the wheel (by commit):
+\`\`\`
+aws s3 cp s3://vllm-wheels/${BUILDKITE_COMMIT}/vllm-${RELEASE_VERSION}-cp38-abi3-manylinux1_x86_64.whl .
+aws s3 cp s3://vllm-wheels/${BUILDKITE_COMMIT}/vllm-${RELEASE_VERSION}-cp38-abi3-manylinux2014_aarch64.whl .
+
+aws s3 cp s3://vllm-wheels/${BUILDKITE_COMMIT}/vllm-${RELEASE_VERSION}+cu129-cp38-abi3-manylinux1_x86_64.whl .
+aws s3 cp s3://vllm-wheels/${BUILDKITE_COMMIT}/vllm-${RELEASE_VERSION}+cu129-cp38-abi3-manylinux1_x86_64.whl .
+\`\`\`
+
+To download the wheel (by version):
 \`\`\`
 aws s3 cp s3://vllm-wheels/${RELEASE_VERSION}/vllm-${RELEASE_VERSION}-cp38-abi3-manylinux1_x86_64.whl .
 aws s3 cp s3://vllm-wheels/${RELEASE_VERSION}/vllm-${RELEASE_VERSION}-cp38-abi3-manylinux2014_aarch64.whl .

From 18903216f5dd4f0378e69667d6f75d4dd14d9c12 Mon Sep 17 00:00:00 2001
From: Benjamin Chislett <bchislett@nvidia.com>
Date: Fri, 7 Nov 2025 14:28:04 -0500
Subject: [PATCH 230/976] [Bugfix] Fix and add tests for GptOss reasoning
 parser (#28000)

Signed-off-by: Benjamin Chislett <bchislett@nvidia.com>
---
 .../reasoning/test_gptoss_reasoning_parser.py | 127 ++++++++++++++++++
 vllm/reasoning/gptoss_reasoning_parser.py     |  31 ++++-
 2 files changed, 151 insertions(+), 7 deletions(-)
 create mode 100644 tests/reasoning/test_gptoss_reasoning_parser.py

diff --git a/tests/reasoning/test_gptoss_reasoning_parser.py b/tests/reasoning/test_gptoss_reasoning_parser.py
new file mode 100644
index 0000000000000..873135d5717f8
--- /dev/null
+++ b/tests/reasoning/test_gptoss_reasoning_parser.py
@@ -0,0 +1,127 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import pytest
+from transformers import AutoTokenizer
+
+from vllm.reasoning import ReasoningParser
+from vllm.reasoning.gptoss_reasoning_parser import GptOssReasoningParser
+
+REASONING_MODEL_NAME = "openai/gpt-oss-120b"
+
+
+@pytest.fixture(scope="module")
+def gpt_oss_tokenizer():
+    return AutoTokenizer.from_pretrained(REASONING_MODEL_NAME)
+
+
+USER_MESSAGE_START = "<|start|>user<|message|>"
+REASONING_SECTION_START = "<|end|><|start|>assistant<|channel|>analysis<|message|>"
+ASSISTANT_CONTENT_START_PREFIX = "<|end|><|start|>assistant<|channel|>final"
+ASSISTANT_CONTENT_START_SUFFIX = "<|message|>"
+ASSISTANT_CONTENT_START = (
+    ASSISTANT_CONTENT_START_PREFIX + ASSISTANT_CONTENT_START_SUFFIX
+)
+
+BASIC_CONTENT = {
+    "output": REASONING_SECTION_START
+    + "This is reasoning"
+    + ASSISTANT_CONTENT_START
+    + "This is the rest",
+    "is_reasoning_end": True,
+}
+
+BASIC_REASONING_ONLY = {
+    "output": REASONING_SECTION_START + "This is reasoning" + "<|end|>",
+    "is_reasoning_end": False,
+}
+BASIC_NO_REASONING_NO_ASSISTANT = {
+    "output": USER_MESSAGE_START + "This is a user message",
+    "is_reasoning_end": False,
+}
+
+# Edge-case where the model omits the assistant tag entirely.
+BASIC_NO_REASONING_ASSISTANT = {
+    "output": USER_MESSAGE_START + "This is a user message<|end|><|channel|>final",
+    "is_reasoning_end": True,
+}
+
+COMPLEX_CONTENT_INCOMPLETE_PREFIX_ONLY = {
+    "output": REASONING_SECTION_START
+    + "This is reasoning"
+    + ASSISTANT_CONTENT_START_PREFIX,
+    "is_reasoning_end": False,
+}
+
+COMPLEX_CONTENT_SUFFIX_ONLY = {
+    "output": REASONING_SECTION_START
+    + "This is reasoning"
+    + ASSISTANT_CONTENT_START_SUFFIX,
+    "is_reasoning_end": False,
+}
+
+COMPLEX_CONTENT_1_NO_SUFFIX = {
+    "output": REASONING_SECTION_START
+    + "This is reasoning"
+    + ASSISTANT_CONTENT_START_PREFIX
+    + "<|constrain|> JSON ",
+    "is_reasoning_end": False,
+}
+
+COMPLEX_CONTENT_1 = {
+    "output": REASONING_SECTION_START
+    + "This is reasoning"
+    + ASSISTANT_CONTENT_START_PREFIX
+    + "<|constrain|> JSON "
+    + ASSISTANT_CONTENT_START_SUFFIX,
+    "is_reasoning_end": True,
+}
+
+COMPLEX_CONTENT_1_WITH_CONTENT = {
+    "output": REASONING_SECTION_START
+    + "This is reasoning"
+    + ASSISTANT_CONTENT_START_PREFIX
+    + "<|constrain|> JSON "
+    + ASSISTANT_CONTENT_START_SUFFIX
+    + "This is the rest",
+    "is_reasoning_end": True,
+}
+
+COMPLEX_CONTENT_2 = {
+    "output": REASONING_SECTION_START
+    + "This is reasoning"
+    + ASSISTANT_CONTENT_START_PREFIX
+    + "<|constrain|>ReplyAction "
+    + ASSISTANT_CONTENT_START_SUFFIX
+    + "This is the rest",
+    "is_reasoning_end": True,
+}
+
+TEST_CASES = [
+    BASIC_CONTENT,
+    BASIC_REASONING_ONLY,
+    COMPLEX_CONTENT_INCOMPLETE_PREFIX_ONLY,
+    COMPLEX_CONTENT_SUFFIX_ONLY,
+    COMPLEX_CONTENT_1_NO_SUFFIX,
+    COMPLEX_CONTENT_1,
+    COMPLEX_CONTENT_1_WITH_CONTENT,
+    COMPLEX_CONTENT_2,
+]
+
+
+@pytest.mark.parametrize(
+    "output, is_reasoning_end",
+    [(t["output"], t["is_reasoning_end"]) for t in TEST_CASES],
+)
+def test_gptoss_is_reasoning_end(
+    output,
+    is_reasoning_end,
+    gpt_oss_tokenizer,
+):
+    output = gpt_oss_tokenizer.tokenize(output)
+    parser: ReasoningParser = GptOssReasoningParser(gpt_oss_tokenizer)
+
+    # Test is_reasoning_end
+    output_ids = gpt_oss_tokenizer.convert_tokens_to_ids(output)
+    actual_is_reasoning_end = parser.is_reasoning_end(output_ids)
+    assert is_reasoning_end == actual_is_reasoning_end
diff --git a/vllm/reasoning/gptoss_reasoning_parser.py b/vllm/reasoning/gptoss_reasoning_parser.py
index fbfa7619ef3cf..e720f5228d0f3 100644
--- a/vllm/reasoning/gptoss_reasoning_parser.py
+++ b/vllm/reasoning/gptoss_reasoning_parser.py
@@ -67,18 +67,35 @@ class GptOssReasoningParser(ReasoningParser):
 
     def __init__(self, tokenizer: PreTrainedTokenizerBase, *args, **kwargs):
         super().__init__(tokenizer, *args, **kwargs)
-        self.reasoning_end_token_ids = self.model_tokenizer.encode(
-            "<|start|>assistant<|channel|>final<|message|>"
+        # The model can output some special tokens between "final" and "<|message|>"
+        # So we need to look for both sequences to determine the end of reasoning.
+        self.reasoning_end_token_ids_prefix = self.model_tokenizer.encode(
+            "<|channel|>final"
         )
+        self.reasoning_end_token_ids_suffix = self.model_tokenizer.encode("<|message|>")
+        self.reasoning_max_num_between_tokens = 20
 
     def is_reasoning_end(self, input_ids: list[int]) -> bool:
-        end_token_ids = self.reasoning_end_token_ids
-        assert len(end_token_ids) > 0, "reasoning_end_token_ids is empty"
+        end_token_ids_prefix = self.reasoning_end_token_ids_prefix
+        end_token_ids_suffix = self.reasoning_end_token_ids_suffix
+        assert len(end_token_ids_prefix) > 0, "reasoning_end_token_ids_prefix is empty"
+        assert len(end_token_ids_suffix) > 0, "reasoning_end_token_ids_suffix is empty"
         # Check if the end sequence is present in the input_ids.
         # We search from the end of input_ids to find the last match.
-        for i in range(len(input_ids) - len(end_token_ids), -1, -1):
-            if input_ids[i : i + len(end_token_ids)] == end_token_ids:
-                return True
+        for i in range(len(input_ids) - len(end_token_ids_prefix), -1, -1):
+            if input_ids[i : i + len(end_token_ids_prefix)] == end_token_ids_prefix:
+                # We have found the prefix, now we look for the suffix after the prefix.
+                suffix_start = i + len(end_token_ids_prefix)
+                for j in range(
+                    suffix_start, len(input_ids) - len(end_token_ids_suffix) + 1
+                ):
+                    if j - suffix_start >= self.reasoning_max_num_between_tokens:
+                        break
+                    if (
+                        input_ids[j : j + len(end_token_ids_suffix)]
+                        == end_token_ids_suffix
+                    ):
+                        return True
         return False
 
     def extract_content_ids(self, input_ids: list[int]) -> list[int]:

From da786e339e985cbf32f43474e7b88b8da65c76e5 Mon Sep 17 00:00:00 2001
From: Nick Hill <nhill@redhat.com>
Date: Fri, 7 Nov 2025 12:01:23 -0800
Subject: [PATCH 231/976] [Core] Rework handling of async scheduling config
 (#28250)

Signed-off-by: Nick Hill <nhill@redhat.com>
---
 tests/v1/engine/test_engine_core.py | 32 +++++++++---------
 vllm/config/scheduler.py            | 43 +++++++++++++++++++-----
 vllm/config/vllm.py                 | 51 +++++++++++++++++++++++++++--
 vllm/engine/arg_utils.py            | 28 ++--------------
 vllm/v1/core/sched/interface.py     | 18 ++++++++++
 vllm/v1/engine/core.py              | 20 +----------
 6 files changed, 121 insertions(+), 71 deletions(-)

diff --git a/tests/v1/engine/test_engine_core.py b/tests/v1/engine/test_engine_core.py
index 534b60312fd19..84441aa7d28ca 100644
--- a/tests/v1/engine/test_engine_core.py
+++ b/tests/v1/engine/test_engine_core.py
@@ -66,7 +66,7 @@ def test_engine_core():
     assert len(engine_core.scheduler.waiting) == 1
     assert len(engine_core.scheduler.running) == 0
 
-    _ = engine_core.step()
+    _ = engine_core.step_fn()
     assert len(engine_core.scheduler.waiting) == 0
     assert len(engine_core.scheduler.running) == 1
 
@@ -75,7 +75,7 @@ def test_engine_core():
     assert len(engine_core.scheduler.waiting) == 1
     assert len(engine_core.scheduler.running) == 1
 
-    _ = engine_core.step()
+    _ = engine_core.step_fn()
     assert len(engine_core.scheduler.waiting) == 0
     assert len(engine_core.scheduler.running) == 2
 
@@ -85,12 +85,12 @@ def test_engine_core():
     assert len(engine_core.scheduler.waiting) == 2
     assert len(engine_core.scheduler.running) == 2
 
-    _ = engine_core.step()
+    _ = engine_core.step_fn()
     assert len(engine_core.scheduler.waiting) == 0
     assert len(engine_core.scheduler.running) == 4
 
     # Loop through until they are all done.
-    while (outs := engine_core.step()[0].get(0)) and outs.outputs:
+    while (outs := engine_core.step_fn()[0].get(0)) and outs.outputs:
         pass
 
     assert len(engine_core.scheduler.waiting) == 0
@@ -107,7 +107,7 @@ def test_engine_core():
     assert engine_core.scheduler.has_unfinished_requests()
     assert not engine_core.scheduler.has_finished_requests()
 
-    _ = engine_core.step()
+    _ = engine_core.step_fn()
     assert len(engine_core.scheduler.waiting) == 0
     assert len(engine_core.scheduler.running) == 1
     assert engine_core.scheduler.has_unfinished_requests()
@@ -119,7 +119,7 @@ def test_engine_core():
     assert not engine_core.scheduler.has_unfinished_requests()
     assert engine_core.scheduler.has_finished_requests()
 
-    _ = engine_core.step()
+    _ = engine_core.step_fn()
     assert not engine_core.scheduler.has_unfinished_requests()
     assert not engine_core.scheduler.has_finished_requests()
 
@@ -133,7 +133,7 @@ def test_engine_core():
     assert len(engine_core.scheduler.waiting) == 2
     assert len(engine_core.scheduler.running) == 0
 
-    _ = engine_core.step()
+    _ = engine_core.step_fn()
     assert len(engine_core.scheduler.waiting) == 0
     assert len(engine_core.scheduler.running) == 2
 
@@ -141,7 +141,7 @@ def test_engine_core():
     assert len(engine_core.scheduler.waiting) == 1
     assert len(engine_core.scheduler.running) == 2
 
-    _ = engine_core.step()
+    _ = engine_core.step_fn()
     assert len(engine_core.scheduler.waiting) == 0
     assert len(engine_core.scheduler.running) == 3
 
@@ -150,7 +150,7 @@ def test_engine_core():
     assert len(engine_core.scheduler.waiting) == 0
     assert len(engine_core.scheduler.running) == 2
 
-    _ = engine_core.step()
+    _ = engine_core.step_fn()
     assert len(engine_core.scheduler.waiting) == 0
     assert len(engine_core.scheduler.running) == 2
 
@@ -165,12 +165,12 @@ def test_engine_core():
     req0.request_id = req1.request_id = "test"
     engine_core.add_request(*engine_core.preprocess_add_request(req0))
 
-    while (outs := engine_core.step()[0].get(0)) and outs.outputs:
-        pass
+    while engine_core.scheduler.has_requests():
+        engine_core.step_fn()
 
     engine_core.add_request(*engine_core.preprocess_add_request(req1))
-    while (outs := engine_core.step()[0].get(0)) and outs.outputs:
-        pass
+    while engine_core.scheduler.has_requests():
+        engine_core.step_fn()
 
     assert len(engine_core.scheduler.waiting) == 0
     assert len(engine_core.scheduler.running) == 0
@@ -208,8 +208,8 @@ def test_engine_core_advanced_sampling():
         assert len(engine_core.scheduler.waiting) == 1
         assert len(engine_core.scheduler.running) == 0
         # Loop through until they are all done.
-        while (outs := engine_core.step()[0].get(0)) and outs.outputs:
-            pass
+        while engine_core.scheduler.has_requests():
+            engine_core.step_fn()
         assert len(engine_core.scheduler.waiting) == 0
         assert len(engine_core.scheduler.running) == 0
 
@@ -297,6 +297,8 @@ def test_engine_core_concurrent_batches():
         max_num_batched_tokens=10,
         # Reduce startup time.
         enforce_eager=True,
+        # Test concurrent batch behaviour independently of async scheduling.
+        async_scheduling=False,
     )
     vllm_config = engine_args.create_engine_config()
     with set_default_torch_num_threads(1):
diff --git a/vllm/config/scheduler.py b/vllm/config/scheduler.py
index b837b830e774b..47aa343527b39 100644
--- a/vllm/config/scheduler.py
+++ b/vllm/config/scheduler.py
@@ -4,7 +4,7 @@
 import hashlib
 from collections.abc import Callable
 from dataclasses import InitVar
-from typing import Any, Literal
+from typing import TYPE_CHECKING, Any, Literal, cast
 
 from pydantic import Field, field_validator, model_validator
 from pydantic.dataclasses import dataclass
@@ -17,6 +17,10 @@ from vllm.utils import (
     MULTIMODAL_MODEL_MAX_NUM_BATCHED_TOKENS,
     POOLING_MODEL_MAX_NUM_BATCHED_TOKENS,
 )
+from vllm.utils.import_utils import resolve_obj_by_qualname
+
+if TYPE_CHECKING:
+    from vllm.v1.core.sched.interface import SchedulerInterface
 
 logger = init_logger(__name__)
 
@@ -120,7 +124,7 @@ class SchedulerConfig:
 
     # scheduler class or path. "vllm.v1.core.sched.scheduler.Scheduler"
     # (default) or "mod.custom_class".
-    scheduler_cls: str | type[object] = "vllm.v1.core.sched.scheduler.Scheduler"
+    scheduler_cls: str | type[object] = Field(default=None)
     """The scheduler class to use. "vllm.v1.core.sched.scheduler.Scheduler" is
     the default scheduler. Can be a class directly or the path to a class of
     form "mod.custom_class"."""
@@ -132,12 +136,34 @@ class SchedulerConfig:
     """
 
     async_scheduling: bool = False
-    """EXPERIMENTAL: If set to True, perform async scheduling. This may help
-    reduce the CPU overheads, leading to better latency and throughput. However,
-    async scheduling is currently not supported with some features such as
-    structured outputs, speculative decoding, and pipeline parallelism.
+    """If set to True, perform async scheduling. This helps to avoid gaps in
+    GPU utilization, leading to better latency and throughput.
+    Async scheduling is currently not supported with some features such as
+    speculative decoding and pipeline parallelism.
     """
 
+    def get_scheduler_cls(self) -> type["SchedulerInterface"]:
+        if self.scheduler_cls is None:
+            if self.async_scheduling:
+                from vllm.v1.core.sched.async_scheduler import AsyncScheduler
+
+                return AsyncScheduler
+            from vllm.v1.core.sched.scheduler import Scheduler
+
+            return Scheduler
+
+        # This warning can be removed once the Scheduler interface is
+        # finalized and we can maintain support for scheduler classes that
+        # implement it
+        logger.warning_once(
+            "Using custom scheduler class %s. This scheduler interface is "
+            "not public and compatibility may not be maintained.",
+            self.scheduler_cls,
+        )
+        if not isinstance(self.scheduler_cls, str):
+            return cast(type["SchedulerInterface"], self.scheduler_cls)
+        return resolve_obj_by_qualname(self.scheduler_cls)
+
     def compute_hash(self) -> str:
         """
         WARNING: Whenever a new field is added to this config,
@@ -161,6 +187,8 @@ class SchedulerConfig:
         "max_num_seqs",
         "max_model_len",
         "enable_chunked_prefill",
+        "scheduler_cls",
+        "async_scheduling",
         mode="wrap",
     )
     @classmethod
@@ -242,9 +270,6 @@ class SchedulerConfig:
                 self.long_prefill_token_threshold,
             )
 
-        if self.async_scheduling:
-            self.scheduler_cls = "vllm.v1.core.sched.async_scheduler.AsyncScheduler"
-
     @model_validator(mode="after")
     def _verify_args(self) -> Self:
         if (
diff --git a/vllm/config/vllm.py b/vllm/config/vllm.py
index ee91cb0ef5c36..ac46078863051 100644
--- a/vllm/config/vllm.py
+++ b/vllm/config/vllm.py
@@ -353,6 +353,53 @@ class VllmConfig:
                 self.model_config, self.load_config
             )
 
+        executor_backend = self.parallel_config.distributed_executor_backend
+        executor_supports_async_sched = executor_backend in (
+            "mp",
+            "uni",
+            "external_launcher",
+        )
+
+        if self.scheduler_config.async_scheduling:
+            # Async scheduling explicitly enabled, hard fail any incompatibilities.
+            if self.parallel_config.pipeline_parallel_size > 1:
+                raise ValueError(
+                    "Async scheduling is not yet compatible with "
+                    "pipeline_parallel_size > 1."
+                )
+            if self.speculative_config is not None:
+                raise ValueError(
+                    "Async scheduling is not yet compatible with speculative decoding."
+                )
+            if not executor_supports_async_sched:
+                raise ValueError(
+                    "Currently, async scheduling only supports `mp`, `uni`, or "
+                    "`external_launcher` distributed executor backend, but you chose "
+                    f"`{executor_backend}`."
+                )
+        elif self.scheduler_config.async_scheduling is None:
+            # Enable async scheduling unless there is an incompatible option.
+            # NOTE: we won't reach here until async scheduling is enabled by default.
+            if (
+                self.parallel_config.pipeline_parallel_size > 1
+                or self.speculative_config is not None
+            ):
+                logger.warning(
+                    "Async scheduling is not yet supported with speculative decoding "
+                    " or pipeline_parallel_size > 1 and will be disabled."
+                )
+                self.scheduler_config.async_scheduling = False
+            elif not executor_supports_async_sched:
+                logger.warning(
+                    "Async scheduling will be disabled because it is not supported "
+                    "with the `%s` distributed executor backend (only `mp`, `uni`, and "
+                    "`external_launcher` are supported).",
+                    executor_backend,
+                )
+                self.scheduler_config.async_scheduling = False
+            else:
+                self.scheduler_config.async_scheduling = True
+
         from vllm.platforms import current_platform
 
         if (
@@ -467,7 +514,7 @@ class VllmConfig:
                 self.speculative_config is not None
                 and self.speculative_config.use_eagle()
             ):
-                raise NotImplementedError(
+                raise ValueError(
                     "Fast prefill optimization for KV sharing is not "
                     "compatible with EAGLE as EAGLE requires correct logits "
                     "for all tokens while fast prefill gives incorrect logits "
@@ -491,7 +538,7 @@ class VllmConfig:
                     )
                 if not getattr(self.model_config.hf_config, "is_causal", True):
                     disable_chunked_prefill_reasons.append(
-                        "Only models using causal attention supports chunked "
+                        "Only models using causal attention support chunked "
                         "prefill and prefix caching; disabling both."
                     )
             elif self.model_config.is_encoder_decoder:
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index fe48e4293c03d..f1a6c0716e4ca 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -513,7 +513,7 @@ class EngineArgs:
         ObservabilityConfig.collect_detailed_traces
     )
     scheduling_policy: SchedulerPolicy = SchedulerConfig.policy
-    scheduler_cls: str | type[object] = SchedulerConfig.scheduler_cls
+    scheduler_cls: str | type[object] | None = SchedulerConfig.scheduler_cls
 
     pooler_config: PoolerConfig | None = ModelConfig.pooler_config
     override_pooler_config: dict | PoolerConfig | None = (
@@ -552,7 +552,7 @@ class EngineArgs:
     )
     """Custom logitproc types"""
 
-    async_scheduling: bool = SchedulerConfig.async_scheduling
+    async_scheduling: bool | None = SchedulerConfig.async_scheduling
 
     kv_sharing_fast_prefill: bool = CacheConfig.kv_sharing_fast_prefill
 
@@ -1479,20 +1479,6 @@ class EngineArgs:
             else ParallelConfig.data_parallel_rpc_port
         )
 
-        if self.async_scheduling:
-            if self.pipeline_parallel_size > 1:
-                raise ValueError(
-                    "Async scheduling is not supported with pipeline-parallel-size > 1."
-                )
-
-            # Currently, async scheduling does not support speculative decoding.
-            # TODO(woosuk): Support it.
-            if self.speculative_config is not None:
-                raise ValueError(
-                    "Currently, speculative decoding is not supported with "
-                    "async scheduling."
-                )
-
         # Forward the deprecated CLI args to the EPLB config.
         if self.num_redundant_experts is not None:
             self.eplb_config.num_redundant_experts = self.num_redundant_experts
@@ -1536,16 +1522,6 @@ class EngineArgs:
             _api_process_rank=self._api_process_rank,
         )
 
-        if self.async_scheduling and (
-            parallel_config.distributed_executor_backend
-            not in ("mp", "uni", "external_launcher")
-        ):
-            raise ValueError(
-                "Currently, async scheduling only supports `mp`, `uni` or "
-                "`external_launcher` distributed executor backend, but you choose "
-                f"`{parallel_config.distributed_executor_backend}`."
-            )
-
         speculative_config = self.create_speculative_config(
             target_model_config=model_config,
             target_parallel_config=parallel_config,
diff --git a/vllm/v1/core/sched/interface.py b/vllm/v1/core/sched/interface.py
index 291d33c9bf989..88d99d9402821 100644
--- a/vllm/v1/core/sched/interface.py
+++ b/vllm/v1/core/sched/interface.py
@@ -4,16 +4,34 @@ from abc import ABC, abstractmethod
 from collections.abc import Iterable
 from typing import TYPE_CHECKING, Optional
 
+from vllm.multimodal import MULTIMODAL_REGISTRY, MultiModalRegistry
+
 if TYPE_CHECKING:
+    from vllm.config import VllmConfig
     from vllm.distributed.kv_transfer.kv_connector.v1 import KVConnectorBase_V1
     from vllm.v1.core.sched.output import GrammarOutput, SchedulerOutput
     from vllm.v1.engine import EngineCoreOutputs
+    from vllm.v1.kv_cache_interface import KVCacheConfig
     from vllm.v1.metrics.stats import SchedulerStats
     from vllm.v1.outputs import DraftTokenIds, ModelRunnerOutput
     from vllm.v1.request import Request, RequestStatus
+    from vllm.v1.structured_output import StructuredOutputManager
 
 
 class SchedulerInterface(ABC):
+    @abstractmethod
+    def __init__(
+        self,
+        vllm_config: "VllmConfig",
+        kv_cache_config: "KVCacheConfig",
+        structured_output_manager: "StructuredOutputManager",
+        block_size: int,
+        mm_registry: MultiModalRegistry = MULTIMODAL_REGISTRY,
+        include_finished_set: bool = False,
+        log_stats: bool = False,
+    ) -> None:
+        raise NotImplementedError
+
     @abstractmethod
     def schedule(self) -> "SchedulerOutput":
         """Schedule the requests to process in this scheduling step.
diff --git a/vllm/v1/engine/core.py b/vllm/v1/engine/core.py
index 78af197821e2e..fba018432e0a8 100644
--- a/vllm/v1/engine/core.py
+++ b/vllm/v1/engine/core.py
@@ -29,7 +29,6 @@ from vllm.tasks import POOLING_TASKS, SupportedTask
 from vllm.transformers_utils.config import maybe_register_config_serialize_by_value
 from vllm.utils.gc_utils import maybe_attach_gc_debug_callback
 from vllm.utils.hashing import get_hash_fn_by_name
-from vllm.utils.import_utils import resolve_obj_by_qualname
 from vllm.utils.network_utils import make_zmq_socket
 from vllm.utils.system_utils import decorate_logs, set_process_title
 from vllm.v1.core.kv_cache_utils import (
@@ -41,7 +40,6 @@ from vllm.v1.core.kv_cache_utils import (
 )
 from vllm.v1.core.sched.interface import SchedulerInterface
 from vllm.v1.core.sched.output import SchedulerOutput
-from vllm.v1.core.sched.scheduler import Scheduler as V1Scheduler
 from vllm.v1.engine import (
     EngineCoreOutputs,
     EngineCoreRequest,
@@ -117,23 +115,7 @@ class EngineCore:
         self.structured_output_manager = StructuredOutputManager(vllm_config)
 
         # Setup scheduler.
-        if isinstance(vllm_config.scheduler_config.scheduler_cls, str):
-            Scheduler = resolve_obj_by_qualname(
-                vllm_config.scheduler_config.scheduler_cls
-            )
-        else:
-            Scheduler = vllm_config.scheduler_config.scheduler_cls
-
-        # This warning can be removed once the V1 Scheduler interface is
-        # finalized and we can maintain support for scheduler classes that
-        # implement it
-        if Scheduler is not V1Scheduler:
-            logger.warning(
-                "Using configured V1 scheduler class %s. "
-                "This scheduler interface is not public and "
-                "compatibility may not be maintained.",
-                vllm_config.scheduler_config.scheduler_cls,
-            )
+        Scheduler = vllm_config.scheduler_config.get_scheduler_cls()
 
         if len(kv_cache_config.kv_cache_groups) == 0:
             # Encoder models without KV cache don't support

From 67a2da890eef2a6fd40384aa5ae80e03beb39490 Mon Sep 17 00:00:00 2001
From: Nick Hill <nhill@redhat.com>
Date: Fri, 7 Nov 2025 14:11:03 -0800
Subject: [PATCH 232/976] [PerfFix] Avoid separate thread for MP executor shm
 spin (take 2) (#28319)

Signed-off-by: Nick Hill <nhill@redhat.com>
---
 tests/v1/executor/test_executor.py            |   3 +-
 .../unit/test_output_aggregator.py            |  32 ++---
 .../kv_transfer/kv_connector/utils.py         |  47 +++---
 vllm/v1/executor/abstract.py                  |   4 +-
 vllm/v1/executor/multiproc_executor.py        | 134 +++++++++---------
 vllm/v1/executor/ray_executor.py              |  11 +-
 vllm/v1/executor/ray_utils.py                 |  11 +-
 vllm/v1/executor/uniproc_executor.py          |  43 +++++-
 vllm/v1/worker/gpu_worker.py                  |   2 +-
 9 files changed, 156 insertions(+), 131 deletions(-)

diff --git a/tests/v1/executor/test_executor.py b/tests/v1/executor/test_executor.py
index 56574124b2727..91bfba6826e09 100644
--- a/tests/v1/executor/test_executor.py
+++ b/tests/v1/executor/test_executor.py
@@ -4,6 +4,7 @@
 import asyncio
 import os
 from collections.abc import Callable
+from concurrent.futures import Future
 from typing import Any
 
 import pytest
@@ -27,7 +28,7 @@ class CustomMultiprocExecutor(MultiprocExecutor):
         kwargs: dict | None = None,
         non_block: bool = False,
         unique_reply_rank: int | None = None,
-    ) -> list[Any]:
+    ) -> Any | list[Any] | Future[Any | list[Any]]:
         # Drop marker to show that this was run
         with open(".marker", "w"):
             ...
diff --git a/tests/v1/kv_connector/unit/test_output_aggregator.py b/tests/v1/kv_connector/unit/test_output_aggregator.py
index 4dba203ebc7d8..d186f677c02f1 100644
--- a/tests/v1/kv_connector/unit/test_output_aggregator.py
+++ b/tests/v1/kv_connector/unit/test_output_aggregator.py
@@ -89,14 +89,12 @@ def test_aggregate_workers_output():
 def test_async_aggregate_workers_output():
     aggregator = KVOutputAggregator(expected_finished_count=2)
 
-    future1: Future[DummyModelRunnerOutput] = Future()
-    future2: Future[DummyModelRunnerOutput] = Future()
-    result_future = aggregator.async_aggregate([future1, future2])
+    future: Future[list[DummyModelRunnerOutput]] = Future()
+    result_future = aggregator.async_aggregate(future)
 
     output1 = DummyModelRunnerOutput()
     output2 = DummyModelRunnerOutput()
-    future1.set_result(output1)
-    future2.set_result(output2)
+    future.set_result([output1, output2])
 
     assert result_future.done()
     aggregated = result_future.result()
@@ -106,16 +104,14 @@ def test_async_aggregate_workers_output():
     assert aggregated.finished_recving is None
     assert not aggregated.invalid_block_ids
 
-    future1 = Future()
-    future2 = Future()
-    result_future = aggregator.async_aggregate([future1, future2])
+    future = Future()
+    result_future = aggregator.async_aggregate(future)
 
     output1 = DummyModelRunnerOutput(
         finished_sending={"req1"}, finished_recving={"req2"}
     )
     output2 = DummyModelRunnerOutput(invalid_block_ids={1})
-    future1.set_result(output1)
-    future2.set_result(output2)
+    future.set_result([output1, output2])
 
     assert result_future.done()
     aggregated = result_future.result()
@@ -125,14 +121,12 @@ def test_async_aggregate_workers_output():
     assert aggregated.finished_recving is None
     assert aggregated.invalid_block_ids == {1}
 
-    future1 = Future()
-    future2 = Future()
-    result_future = aggregator.async_aggregate([future1, future2])
+    future = Future()
+    result_future = aggregator.async_aggregate(future)
 
     output1 = DummyModelRunnerOutput(invalid_block_ids={2})
     output2 = DummyModelRunnerOutput(finished_sending={"req1"})
-    future1.set_result(output1)
-    future2.set_result(output2)
+    future.set_result([output1, output2])
 
     assert result_future.done()
     aggregated = result_future.result()
@@ -142,16 +136,14 @@ def test_async_aggregate_workers_output():
     assert aggregated.finished_recving is None
     assert aggregated.invalid_block_ids == {2}
 
-    future1 = Future()
-    future2 = Future()
-    result_future = aggregator.async_aggregate([future1, future2])
+    future = Future()
+    result_future = aggregator.async_aggregate(future)
 
     output1 = DummyModelRunnerOutput(invalid_block_ids={3, 4})
     output2 = DummyModelRunnerOutput(
         finished_recving={"req2"}, invalid_block_ids={4, 5}
     )
-    future1.set_result(output1)
-    future2.set_result(output2)
+    future.set_result([output1, output2])
 
     assert result_future.done()
     aggregated = result_future.result()
diff --git a/vllm/distributed/kv_transfer/kv_connector/utils.py b/vllm/distributed/kv_transfer/kv_connector/utils.py
index 7464f8469c3b5..33a801e135d42 100644
--- a/vllm/distributed/kv_transfer/kv_connector/utils.py
+++ b/vllm/distributed/kv_transfer/kv_connector/utils.py
@@ -4,6 +4,7 @@
 KV cache helper for store.
 """
 
+import contextlib
 from collections.abc import Sequence
 from concurrent.futures import CancelledError, Future
 from typing import TYPE_CHECKING, Literal
@@ -221,38 +222,38 @@ class KVOutputAggregator:
 
     def async_aggregate(
         self,
-        output_futures: Sequence[Future[ModelRunnerOutput | None]],
+        output_future: Future[Sequence[ModelRunnerOutput | None]],
         output_rank: int = 0,
     ) -> Future[ModelRunnerOutput | None]:
-        """Takes a list of futures and returns a single future which resolves
-        to the respective list of outputs."""
+        """Takes a future that resolves to a list of outputs and returns a future
+        which resolves to a single aggregated output."""
         result_future: Future[ModelRunnerOutput | None] = Future()
 
-        outputs: list[ModelRunnerOutput | None] = [None] * len(output_futures)
-        remaining = len(output_futures)
+        def callback(fut):
+            if result_future.done():
+                return
+            try:
+                result_future.set_result(self.aggregate(fut.result(), output_rank))
+            except CancelledError:
+                result_future.cancel()
+            except Exception as e:
+                result_future.set_exception(e)
 
-        def make_callback(idx):
-            def callback(fut):
-                if result_future.done():
-                    return
+        output_future.add_done_callback(callback)
 
-                try:
-                    outputs[idx] = fut.result()
-                except CancelledError:
-                    result_future.cancel()
-                except Exception as e:
-                    result_future.set_exception(e)
+        from vllm.v1.executor.multiproc_executor import FutureWrapper
 
-                # this check assumes io_thread_pool uses a single thread
-                nonlocal remaining
-                remaining -= 1
-                if not remaining:
-                    result_future.set_result(self.aggregate(outputs, output_rank))
+        if isinstance(output_future, FutureWrapper):
+            # Due to the threadless implementation of multiproc FutureWrapper,
+            # we must block on the delegate future's result() method.
+            delegate_result = result_future.result
 
-            return callback
+            def result(timeout=None):
+                with contextlib.suppress(Exception):
+                    output_future.result(timeout=timeout)
+                return delegate_result()
 
-        for i, output_future in enumerate(output_futures):
-            output_future.add_done_callback(make_callback(i))
+            result_future.result = result  # type: ignore[method-assign]
 
         return result_future
 
diff --git a/vllm/v1/executor/abstract.py b/vllm/v1/executor/abstract.py
index d76c6107ad2ba..1e913876b7635 100644
--- a/vllm/v1/executor/abstract.py
+++ b/vllm/v1/executor/abstract.py
@@ -171,7 +171,7 @@ class Executor(ABC):
         args: tuple = (),
         kwargs: dict | None = None,
         non_block: Literal[True] = True,
-    ) -> list[Future[_R]]:
+    ) -> Future[list[_R]]:
         pass
 
     @abstractmethod
@@ -219,7 +219,7 @@ class Executor(ABC):
 
     def sample_tokens(
         self, grammar_output: GrammarOutput | None, non_block: bool = False
-    ) -> ModelRunnerOutput | Future[ModelRunnerOutput]:
+    ) -> ModelRunnerOutput | None | Future[ModelRunnerOutput | None]:
         output = self.collective_rpc(  # type: ignore[call-overload]
             "sample_tokens", args=(grammar_output,), non_block=non_block
         )
diff --git a/vllm/v1/executor/multiproc_executor.py b/vllm/v1/executor/multiproc_executor.py
index 999a3ba870ead..c9a50ecaa1def 100644
--- a/vllm/v1/executor/multiproc_executor.py
+++ b/vllm/v1/executor/multiproc_executor.py
@@ -9,8 +9,10 @@ import threading
 import time
 import traceback
 import weakref
+from collections import deque
 from collections.abc import Callable
-from concurrent.futures import Future, ThreadPoolExecutor
+from concurrent.futures import Future, InvalidStateError
+from contextlib import suppress
 from dataclasses import dataclass
 from enum import Enum, auto
 from functools import cached_property, partial
@@ -54,6 +56,30 @@ from vllm.v1.worker.worker_base import WorkerWrapperBase
 logger = init_logger(__name__)
 
 
+class FutureWrapper(Future):
+    def __init__(self, futures_queue: deque[tuple["FutureWrapper", Callable]]):
+        self.futures_queue = futures_queue
+        super().__init__()
+
+    def result(self, timeout=None):
+        if timeout is not None:
+            raise RuntimeError("timeout not implemented")
+        # Drain any futures ahead of us in the queue.
+        while not self.done():
+            future, get_response = self.futures_queue.pop()
+            future.wait_for_response(get_response)
+        return super().result()
+
+    def wait_for_response(self, get_response: Callable):
+        try:
+            response = get_response()
+            with suppress(InvalidStateError):
+                self.set_result(response)
+        except Exception as e:
+            with suppress(InvalidStateError):
+                self.set_exception(e)
+
+
 class MultiprocExecutor(Executor):
     supports_pp: bool = True
 
@@ -64,7 +90,6 @@ class MultiprocExecutor(Executor):
         self.is_failed = False
         self.shutdown_event = threading.Event()
         self.failure_callback: FailureCallback | None = None
-        self.io_thread_pool: ThreadPoolExecutor | None = None
 
         self.world_size = self.parallel_config.world_size
         tensor_parallel_size = self.parallel_config.tensor_parallel_size
@@ -132,12 +157,7 @@ class MultiprocExecutor(Executor):
                         uw.death_writer.close()
                 self._ensure_worker_termination([uw.proc for uw in unready_workers])
 
-        # Note: must use only 1 IO thread to keep dequeue sequence
-        # from the response queue.
-        # _async_aggregate_workers_output also assumes a single IO thread.
-        self.io_thread_pool = ThreadPoolExecutor(
-            max_workers=1, thread_name_prefix="mp_exec_io"
-        )
+        self.futures_queue = deque[tuple[FutureWrapper, Callable]]()
 
         self.output_rank = self._get_output_rank()
         self.has_connector = self.vllm_config.kv_transfer_config is not None
@@ -195,14 +215,13 @@ class MultiprocExecutor(Executor):
     ) -> ModelRunnerOutput | None | Future[ModelRunnerOutput | None]:
         if not self.has_connector:
             # get output only from a single worker (output_rank)
-            (output,) = self.collective_rpc(
+            return self.collective_rpc(
                 method,
                 args=args,
                 unique_reply_rank=self.output_rank,
                 non_block=non_block,
                 timeout=envs.VLLM_EXECUTE_MODEL_TIMEOUT_SECONDS,
             )
-            return output
 
         # get output from all workers
         outputs = self.collective_rpc(
@@ -223,12 +242,11 @@ class MultiprocExecutor(Executor):
 
     def take_draft_token_ids(self) -> DraftTokenIds | None:
         # OPTIMIZATION: Get output only from a single worker (output_rank)
-        outputs = self.collective_rpc(
+        return self.collective_rpc(
             "take_draft_token_ids", unique_reply_rank=self.output_rank
         )
-        return outputs[0]
 
-    def collective_rpc(
+    def collective_rpc(  # type: ignore[override]
         self,
         method: str | Callable,
         timeout: float | None = None,
@@ -236,7 +254,9 @@ class MultiprocExecutor(Executor):
         kwargs: dict | None = None,
         non_block: bool = False,
         unique_reply_rank: int | None = None,
-    ) -> list[Any]:
+    ) -> Any | list[Any] | Future[Any | list[Any]]:
+        """Returns single result if unique_reply_rank is provided, otherwise list."""
+
         if self.is_failed:
             raise RuntimeError("Executor failed.")
 
@@ -246,63 +266,52 @@ class MultiprocExecutor(Executor):
         # NOTE: If the args are heterogeneous, then we pack them into a list,
         # and unpack them in the method of every worker, because every worker
         # knows their own rank.
-        try:
-            if isinstance(method, str):
-                send_method = method
-            else:
-                send_method = cloudpickle.dumps(
-                    method, protocol=pickle.HIGHEST_PROTOCOL
-                )
-            self.rpc_broadcast_mq.enqueue(
-                (send_method, args, kwargs, unique_reply_rank)
-            )
 
-            workers = (
-                (self.workers[unique_reply_rank],)
-                if unique_reply_rank is not None
-                else self.workers
-            )
+        if isinstance(method, str):
+            send_method = method
+        else:
+            send_method = cloudpickle.dumps(method, protocol=pickle.HIGHEST_PROTOCOL)
+        self.rpc_broadcast_mq.enqueue((send_method, args, kwargs, unique_reply_rank))
+
+        workers = (
+            (self.workers[unique_reply_rank],)
+            if unique_reply_rank is not None
+            else self.workers
+        )
+
+        shutdown_event = self.shutdown_event
+
+        def get_response():
             responses = []
-
-            def get_response(
-                w: WorkerProcHandle,
-                dequeue_timeout: float | None = None,
-                cancel_event: threading.Event | None = None,
-            ):
-                status, result = w.worker_response_mq.dequeue(
-                    timeout=dequeue_timeout, cancel=cancel_event
+            for w in workers:
+                dequeue_timeout = (
+                    None if deadline is None else (deadline - time.monotonic())
                 )
-
+                try:
+                    status, result = w.worker_response_mq.dequeue(
+                        timeout=dequeue_timeout, cancel=shutdown_event
+                    )
+                except TimeoutError as e:
+                    raise TimeoutError(f"RPC call to {method} timed out.") from e
                 if status != WorkerProc.ResponseStatus.SUCCESS:
                     raise RuntimeError(
                         f"Worker failed with error '{result}', please check the"
                         " stack trace above for the root cause"
                     )
-                return result
-
-            for w in workers:
-                dequeue_timeout = (
-                    None if deadline is None else (deadline - time.monotonic())
-                )
-
-                if self.io_thread_pool is not None:
-                    # We must consume worker_response_mq from a single thread.
-                    result = self.io_thread_pool.submit(  # type: ignore
-                        get_response, w, dequeue_timeout, self.shutdown_event
-                    )
-                    if not non_block:
-                        result = result.result()
-                elif not non_block:
-                    result = get_response(w, dequeue_timeout, self.shutdown_event)
-                else:
-                    raise RuntimeError(
-                        "non_block can only be used when max_concurrent_batches > 1"
-                    )
                 responses.append(result)
+            return responses[0] if unique_reply_rank is not None else responses
 
-            return responses
-        except TimeoutError as e:
-            raise TimeoutError(f"RPC call to {method} timed out.") from e
+        if non_block:
+            future = FutureWrapper(self.futures_queue)
+            self.futures_queue.appendleft((future, get_response))
+            return future
+
+        # First drain any pending futures in the queue.
+        while self.futures_queue:
+            future, get_fut_response = self.futures_queue.pop()
+            future.wait_for_response(get_fut_response)
+
+        return get_response()
 
     @staticmethod
     def _ensure_worker_termination(worker_procs: list[BaseProcess]):
@@ -348,9 +357,6 @@ class MultiprocExecutor(Executor):
                 self._ensure_worker_termination([w.proc for w in workers])
 
             self.shutdown_event.set()
-            if self.io_thread_pool is not None:
-                self.io_thread_pool.shutdown(wait=False, cancel_futures=True)
-                del self.io_thread_pool
 
         self.rpc_broadcast_mq = None
 
diff --git a/vllm/v1/executor/ray_executor.py b/vllm/v1/executor/ray_executor.py
index 4a69cca723ac9..119e4c0818316 100644
--- a/vllm/v1/executor/ray_executor.py
+++ b/vllm/v1/executor/ray_executor.py
@@ -435,26 +435,25 @@ class RayDistributedExecutor(Executor):
 
             # When PP is used, we return a FutureWrapper immediately so that
             # the scheduler can yield to the next batch.
-            return FutureWrapper(refs)
+            return FutureWrapper(refs[0])
 
         # Get output from all workers when connector is present
         assert self.kv_output_aggregator is not None
         if not non_block:
             # Block and get results from all workers
-            outputs = [ref.get() for ref in refs]
-            return self.kv_output_aggregator.aggregate(outputs)
+            return self.kv_output_aggregator.aggregate(ray.get(refs))
 
         # Return a future that will aggregate outputs from all workers
         return FutureWrapper(refs, self.kv_output_aggregator)
 
-    def collective_rpc(
+    def collective_rpc(  # type: ignore[override]
         self,
         method: str | Callable,
         timeout: float | None = None,
         args: tuple = (),
         kwargs: dict[str, Any] | None = None,
         non_block: bool = False,
-    ) -> list[Any]:
+    ) -> list[Any] | Future[list[Any]]:
         """Runs the given method on all workers."""
         sent_method = method if isinstance(method, str) else cloudpickle.dumps(method)
         del method
@@ -470,7 +469,7 @@ class RayDistributedExecutor(Executor):
 
         # Get the results of the ray workers.
         if non_block:
-            return [FutureWrapper((output,)) for output in ray_worker_outputs]
+            return FutureWrapper(ray_worker_outputs)
 
         return ray.get(ray_worker_outputs, timeout=timeout)
 
diff --git a/vllm/v1/executor/ray_utils.py b/vllm/v1/executor/ray_utils.py
index a282cdc9909db..21910d1160bd4 100644
--- a/vllm/v1/executor/ray_utils.py
+++ b/vllm/v1/executor/ray_utils.py
@@ -141,19 +141,16 @@ class FutureWrapper(Future):
     the result() call. If not only the first worker's output is returned.
     """
 
-    def __init__(self, refs, aggregator: KVOutputAggregator | None = None):
+    def __init__(self, ref_or_refs, aggregator: KVOutputAggregator | None = None):
         super().__init__()
-        self.refs = refs
+        self.ref_or_refs = ref_or_refs
         self.aggregator = aggregator
 
     def result(self, timeout=None):
-        if timeout is not None:
-            raise NotImplementedError("timeout is not supported")
-
+        outputs = ray.get(self.ref_or_refs, timeout=timeout)
         if self.aggregator is None:
-            return self.refs[0].get()
+            return outputs
 
-        outputs = [ref.get() for ref in self.refs]
         return self.aggregator.aggregate(outputs, output_rank=0)
 
 
diff --git a/vllm/v1/executor/uniproc_executor.py b/vllm/v1/executor/uniproc_executor.py
index 32f00949b7f74..095d3d1dac21b 100644
--- a/vllm/v1/executor/uniproc_executor.py
+++ b/vllm/v1/executor/uniproc_executor.py
@@ -13,9 +13,10 @@ import torch.distributed as dist
 import vllm.envs as envs
 from vllm.logger import init_logger
 from vllm.utils.network_utils import get_distributed_init_method, get_ip, get_open_port
+from vllm.v1.core.sched.output import GrammarOutput, SchedulerOutput
 from vllm.v1.engine import ReconfigureDistributedRequest, ReconfigureRankType
 from vllm.v1.executor.abstract import Executor
-from vllm.v1.outputs import AsyncModelRunnerOutput
+from vllm.v1.outputs import AsyncModelRunnerOutput, DraftTokenIds, ModelRunnerOutput
 from vllm.v1.serial_utils import run_method
 from vllm.v1.worker.worker_base import WorkerWrapperBase
 
@@ -58,32 +59,60 @@ class UniProcExecutor(Executor):
     def max_concurrent_batches(self) -> int:
         return 2 if self.scheduler_config.async_scheduling else 1
 
-    def collective_rpc(
+    def collective_rpc(  # type: ignore[override]
         self,
         method: str | Callable,
         timeout: float | None = None,
         args: tuple = (),
         kwargs: dict | None = None,
         non_block: bool = False,
-    ) -> list[Any]:
+        single_value: bool = False,
+    ) -> Any | list[Any] | Future[Any | list[Any]]:
         if kwargs is None:
             kwargs = {}
 
         if not non_block:
-            return [run_method(self.driver_worker, method, args, kwargs)]
+            result = run_method(self.driver_worker, method, args, kwargs)
+            return result if single_value else [result]
 
         try:
             result = run_method(self.driver_worker, method, args, kwargs)
             if isinstance(result, AsyncModelRunnerOutput):
                 if (async_thread := self.async_output_thread) is not None:
-                    return [async_thread.submit(result.get_output)]
+                    get_output = result.get_output
+                    if not single_value:
+                        get_output = lambda go=result.get_output: [go()]
+                    return async_thread.submit(get_output)
                 result = result.get_output()
             future = Future[Any]()
-            future.set_result(result)
+            future.set_result(result if single_value else [result])
         except Exception as e:
             future = Future[Any]()
             future.set_exception(e)
-        return [future]
+        return future
+
+    def execute_model(  # type: ignore[override]
+        self, scheduler_output: SchedulerOutput, non_block: bool = False
+    ) -> ModelRunnerOutput | None | Future[ModelRunnerOutput | None]:
+        return self.collective_rpc(
+            "execute_model",
+            args=(scheduler_output,),
+            non_block=non_block,
+            single_value=True,
+        )
+
+    def sample_tokens(  # type: ignore[override]
+        self, grammar_output: GrammarOutput | None, non_block: bool = False
+    ) -> ModelRunnerOutput | None | Future[ModelRunnerOutput | None]:
+        return self.collective_rpc(
+            "sample_tokens",
+            args=(grammar_output,),
+            non_block=non_block,
+            single_value=True,
+        )
+
+    def take_draft_token_ids(self) -> DraftTokenIds | None:
+        return self.collective_rpc("take_draft_token_ids", single_value=True)
 
     def check_health(self) -> None:
         # UniProcExecutor will always be healthy as long as
diff --git a/vllm/v1/worker/gpu_worker.py b/vllm/v1/worker/gpu_worker.py
index 160beb1292e9f..f13ff4e726bd4 100644
--- a/vllm/v1/worker/gpu_worker.py
+++ b/vllm/v1/worker/gpu_worker.py
@@ -524,7 +524,7 @@ class Worker(WorkerBase):
 
     @torch.inference_mode()
     def sample_tokens(
-        self, grammar_output: "GrammarOutput"
+        self, grammar_output: "GrammarOutput | None"
     ) -> ModelRunnerOutput | AsyncModelRunnerOutput:
         return self.model_runner.sample_tokens(grammar_output)
 

From 811df41ee90125a028f54261d4b3687dc6787b8d Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Fri, 7 Nov 2025 16:24:42 -0800
Subject: [PATCH 233/976] Update Flashinfer from `v0.4.1` to `v0.5.2` (#27952)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 docker/Dockerfile                                    | 12 ++++--------
 docker/Dockerfile.nightly_torch                      |  4 ++--
 requirements/cuda.txt                                |  2 +-
 .../attention/test_flashinfer_trtllm_attention.py    |  6 ++++--
 4 files changed, 11 insertions(+), 13 deletions(-)

diff --git a/docker/Dockerfile b/docker/Dockerfile
index 61ebf970fe960..964700e2a43ac 100644
--- a/docker/Dockerfile
+++ b/docker/Dockerfile
@@ -132,9 +132,7 @@ WORKDIR /workspace
 COPY requirements/common.txt requirements/common.txt
 COPY requirements/cuda.txt requirements/cuda.txt
 RUN --mount=type=cache,target=/root/.cache/uv \
-    # TODO: remove apache-tvm-ffi once FlashInfer is fixed https://github.com/flashinfer-ai/flashinfer/issues/1962
-    uv pip install --python /opt/venv/bin/python3 --pre apache-tvm-ffi==0.1.0b15 \
-    && uv pip install --python /opt/venv/bin/python3 -r requirements/cuda.txt \
+    uv pip install --python /opt/venv/bin/python3 -r requirements/cuda.txt \
     --extra-index-url ${PYTORCH_CUDA_INDEX_BASE_URL}/cu$(echo $CUDA_VERSION | cut -d. -f1,2 | tr -d '.')
 
 # cuda arch list used by torch
@@ -356,16 +354,14 @@ RUN --mount=type=cache,target=/root/.cache/uv \
 # Install vllm wheel first, so that torch etc will be installed.
 RUN --mount=type=bind,from=build,src=/workspace/dist,target=/vllm-workspace/dist \
     --mount=type=cache,target=/root/.cache/uv \
-    # TODO: remove apache-tvm-ffi once FlashInfer is fixed https://github.com/flashinfer-ai/flashinfer/issues/1962
-    uv pip install --system --pre apache-tvm-ffi==0.1.0b15 \
-    && uv pip install --system dist/*.whl --verbose \
+    uv pip install --system dist/*.whl --verbose \
         --extra-index-url ${PYTORCH_CUDA_INDEX_BASE_URL}/cu$(echo $CUDA_VERSION | cut -d. -f1,2 | tr -d '.')
 
 # Install FlashInfer pre-compiled kernel cache and binaries
 # https://docs.flashinfer.ai/installation.html
 RUN --mount=type=cache,target=/root/.cache/uv \
-    uv pip install --system flashinfer-cubin==0.4.1 \
-    && uv pip install --system flashinfer-jit-cache==0.4.1 \
+    uv pip install --system flashinfer-cubin==0.5.2 \
+    && uv pip install --system flashinfer-jit-cache==0.5.2 \
         --extra-index-url https://flashinfer.ai/whl/cu$(echo $CUDA_VERSION | cut -d. -f1,2 | tr -d '.') \
     && flashinfer show-config
 
diff --git a/docker/Dockerfile.nightly_torch b/docker/Dockerfile.nightly_torch
index 6dfa56017838b..b88b9c4992200 100644
--- a/docker/Dockerfile.nightly_torch
+++ b/docker/Dockerfile.nightly_torch
@@ -246,7 +246,7 @@ RUN pip install setuptools==75.6.0 packaging==23.2 ninja==1.11.1.3 build==1.2.2.
 
 
 # build flashinfer for torch nightly from source around 10 mins
-# release version: v0.4.1
+# release version: v0.5.2
 # todo(elainewy): cache flashinfer build result for faster build
 ENV CCACHE_DIR=/root/.cache/ccache
 RUN --mount=type=cache,target=/root/.cache/ccache \
@@ -254,7 +254,7 @@ RUN --mount=type=cache,target=/root/.cache/ccache \
     echo "git clone flashinfer..." \
     && git clone --recursive https://github.com/flashinfer-ai/flashinfer.git \
     && cd flashinfer \
-    && git checkout v0.4.1\
+    && git checkout v0.5.2 \
     && git submodule update --init --recursive \
     && echo "finish git clone flashinfer..." \
     && rm -rf build \
diff --git a/requirements/cuda.txt b/requirements/cuda.txt
index 5f7d520cd3662..4e393d6b66152 100644
--- a/requirements/cuda.txt
+++ b/requirements/cuda.txt
@@ -12,4 +12,4 @@ torchvision==0.24.0 # Required for phi3v processor. See https://github.com/pytor
 # Build from https://github.com/facebookresearch/xformers/releases/tag/v0.0.32.post1
 xformers==0.0.33+5d4b92a5.d20251029; platform_system == 'Linux' and platform_machine == 'x86_64'  # Requires PyTorch >= 2.9
 # FlashInfer should be updated together with the Dockerfile
-flashinfer-python==0.4.1
+flashinfer-python==0.5.2
diff --git a/tests/kernels/attention/test_flashinfer_trtllm_attention.py b/tests/kernels/attention/test_flashinfer_trtllm_attention.py
index 79981009c9db0..693b849ebc5d7 100644
--- a/tests/kernels/attention/test_flashinfer_trtllm_attention.py
+++ b/tests/kernels/attention/test_flashinfer_trtllm_attention.py
@@ -238,9 +238,11 @@ def test_flashinfer_trtllm_decode_with_baseline(
     if q_quant_dtype == FP8_DTYPE and o_quant_dtype == FP4_DTYPE:
         rtol, atol = 7e-2, 9e-2
     elif q_quant_dtype == FP8_DTYPE and o_quant_dtype == FP8_DTYPE:
-        rtol, atol = 2e-2, 4e-2
+        rtol, atol = 3e-2, 4e-2
     elif q_quant_dtype == FP8_DTYPE and o_quant_dtype == dtype:
-        rtol, atol = 1e-2, 2e-2
+        rtol, atol = 2e-2, 2e-2
+    elif kv_quant_dtype == FP8_DTYPE:
+        rtol, atol = 4e-2, 6e-2
     else:
         rtol, atol = 1e-2, 1e-2
 

From 1aaecda07809d29e1559791fdb61880d4125c332 Mon Sep 17 00:00:00 2001
From: Kunshang Ji <kunshang.ji@intel.com>
Date: Sat, 8 Nov 2025 08:33:11 +0800
Subject: [PATCH 234/976] [XPU] Enable Expert parallel for MoE models (#28263)

Signed-off-by: Yan Ma <yan.ma@intel.com>
Signed-off-by: Kunshang Ji <kunshang.ji@intel.com>
---
 vllm/model_executor/layers/fused_moe/layer.py         | 2 ++
 vllm/model_executor/layers/quantization/ipex_quant.py | 2 ++
 vllm/model_executor/layers/quantization/mxfp4.py      | 2 ++
 3 files changed, 6 insertions(+)

diff --git a/vllm/model_executor/layers/fused_moe/layer.py b/vllm/model_executor/layers/fused_moe/layer.py
index 1236116386c97..e69ead074c50a 100644
--- a/vllm/model_executor/layers/fused_moe/layer.py
+++ b/vllm/model_executor/layers/fused_moe/layer.py
@@ -642,10 +642,12 @@ class UnquantizedFusedMoEMethod(FusedMoEMethodBase, CustomOp):
         if current_platform.is_xpu():
             import intel_extension_for_pytorch as ipex
 
+            ep_rank_start = self.moe.ep_rank * self.moe.num_local_experts
             layer.ipex_fusion = ipex.llm.modules.GatedMLPMOE(
                 layer.w13_weight,
                 layer.w2_weight,
                 use_prepack=True,
+                experts_start_id=ep_rank_start,
             )
         elif current_platform.is_cpu():
             from vllm.model_executor.layers.fused_moe import cpu_fused_moe
diff --git a/vllm/model_executor/layers/quantization/ipex_quant.py b/vllm/model_executor/layers/quantization/ipex_quant.py
index 5b3aabfde0c1e..e0234191c62bf 100644
--- a/vllm/model_executor/layers/quantization/ipex_quant.py
+++ b/vllm/model_executor/layers/quantization/ipex_quant.py
@@ -399,6 +399,7 @@ class XPUFp8MoEMethod(FusedMoEMethodBase):
             layer.w2_weight = torch.nn.Parameter(w2_weight, requires_grad=False)
         import intel_extension_for_pytorch as ipex
 
+        ep_rank_start = self.moe.ep_rank * self.moe.num_local_experts
         layer.ipex_fusion = ipex.llm.modules.GatedMLPMOE(
             layer.w13_weight,
             layer.w2_weight,
@@ -407,6 +408,7 @@ class XPUFp8MoEMethod(FusedMoEMethodBase):
             a1_scale_inv=layer.w13_input_scale,
             a2_scale_inv=layer.w2_input_scale,
             use_prepack=True,
+            experts_start_id=ep_rank_start,
         )
 
     def get_fused_moe_quant_config(
diff --git a/vllm/model_executor/layers/quantization/mxfp4.py b/vllm/model_executor/layers/quantization/mxfp4.py
index 28dba091f4305..e339f15510d79 100644
--- a/vllm/model_executor/layers/quantization/mxfp4.py
+++ b/vllm/model_executor/layers/quantization/mxfp4.py
@@ -1113,6 +1113,7 @@ class IpexMxfp4MoEMethod(Mxfp4MoEMethod):
 
         layer.w13_weight.data = layer.w13_weight.data.view(torch.int32)
         layer.w2_weight.data = layer.w2_weight.data.view(torch.int32)
+        ep_rank_start = self.moe_config.ep_rank * self.moe_config.num_local_experts
         layer.ipex_fusion = ipex.llm.modules.GatedMLPMOE(
             layer.w13_weight,
             layer.w2_weight,
@@ -1121,6 +1122,7 @@ class IpexMxfp4MoEMethod(Mxfp4MoEMethod):
             w13_bias=layer.w13_bias,
             w2_bias=layer.w2_bias,
             is_mxfp4=True,
+            experts_start_id=ep_rank_start,
         )
 
     def apply(

From b158df28139d134c2a43680104418eaa0d58e91c Mon Sep 17 00:00:00 2001
From: Boyuan Feng <fby.1994@gmail.com>
Date: Fri, 7 Nov 2025 17:13:13 -0800
Subject: [PATCH 235/976] remove resolve_op_overloads and use splitting_ops
 directly (#28081)

Signed-off-by: Boyuan Feng <boyuan@meta.com>
---
 tests/compile/test_config.py        | 80 ++++++++++++++++++++++-------
 vllm/compilation/backends.py        | 15 ++----
 vllm/compilation/partition_rules.py | 59 ++++++++-------------
 3 files changed, 89 insertions(+), 65 deletions(-)

diff --git a/tests/compile/test_config.py b/tests/compile/test_config.py
index 4145e84c2ee0c..7455147f2b95a 100644
--- a/tests/compile/test_config.py
+++ b/tests/compile/test_config.py
@@ -214,28 +214,72 @@ def test_splitting_ops_dynamic():
         assert config.compilation_config.cudagraph_mode == CUDAGraphMode.PIECEWISE
 
 
-def test_resolve_operator_overload():
+def test_should_split():
     import torch
 
-    from vllm.compilation.partition_rules import resolve_defined_ops
+    from vllm.compilation.partition_rules import should_split
 
-    # Test valid operator names
-    resolved = resolve_defined_ops(["aten::mm.default", "aten::addmm.default"])
-    assert len(resolved) == 2
-    assert resolved[0] is torch.ops.aten.mm.default
-    assert resolved[1] is torch.ops.aten.addmm.default
-
-    # Test that invalid operators are skipped (not raising exceptions)
-    resolved = resolve_defined_ops(
-        [
-            "aten::mm.default",
-            "aten::nonexistent_op.default",  # This should be skipped
-            "aten::addmm.default",
-        ]
+    graph = torch.fx.Graph()
+    node = torch.fx.Node(
+        graph=graph,
+        name="dummy_node",
+        op="call_function",
+        target=torch.ops.aten.add.default,
+        args=(),
+        kwargs={},
     )
-    assert len(resolved) == 2  # Only 2 valid ops
-    assert resolved[0] is torch.ops.aten.mm.default
-    assert resolved[1] is torch.ops.aten.addmm.default
+
+    # supports OpOverloadPacket
+    splitting_ops = ["aten::add"]
+    assert should_split(node, splitting_ops)
+
+    # supports OpOverload
+    splitting_ops = ["aten::add.default"]
+    assert should_split(node, splitting_ops)
+
+    # supports OpOverload
+    splitting_ops = ["aten::add.Tensor"]
+    assert not should_split(node, splitting_ops)
+
+    @torch.library.custom_op(
+        "silly::attention",
+        mutates_args=["out"],
+    )
+    def attention(
+        q: torch.Tensor, k: torch.Tensor, v: torch.Tensor, out: torch.Tensor
+    ) -> None:
+        out.copy_(q + k + v)
+
+    q, k, v, out = [torch.randn(1)] * 4
+
+    # supports custom ops as OpOverloadPacket
+    node = torch.fx.Node(
+        graph=graph,
+        name="dummy_node",
+        op="call_function",
+        target=torch.ops.silly.attention,
+        args=(q, k, v, out),
+        kwargs={},
+    )
+
+    splitting_ops = ["silly::attention"]
+    assert should_split(node, splitting_ops)
+
+    # supports custom ops as OpOverload
+    node = torch.fx.Node(
+        graph=graph,
+        name="dummy_node",
+        op="call_function",
+        target=torch.ops.silly.attention.default,
+        args=(q, k, v, out),
+        kwargs={},
+    )
+
+    splitting_ops = ["silly::attention"]
+    assert should_split(node, splitting_ops)
+
+    splitting_ops = ["silly::attention.default"]
+    assert should_split(node, splitting_ops)
 
 
 @pytest.mark.skipif(
diff --git a/vllm/compilation/backends.py b/vllm/compilation/backends.py
index 38300bebb8705..be69075f94f09 100644
--- a/vllm/compilation/backends.py
+++ b/vllm/compilation/backends.py
@@ -19,7 +19,7 @@ import vllm.envs as envs
 from vllm.compilation.inductor_pass import pass_context
 from vllm.compilation.partition_rules import (
     inductor_partition_rule_context,
-    resolve_defined_ops,
+    should_split,
 )
 from vllm.config import CompilationConfig, CUDAGraphMode, VllmConfig
 from vllm.logger import init_logger
@@ -303,7 +303,7 @@ class SplitItem:
 
 
 def split_graph(
-    graph: fx.GraphModule, resolved_ops: list[torch._ops.OpOverload]
+    graph: fx.GraphModule, splitting_ops: list[str]
 ) -> tuple[fx.GraphModule, list[SplitItem]]:
     # split graph by ops
     subgraph_id = 0
@@ -312,12 +312,8 @@ def split_graph(
     for node in graph.graph.nodes:
         if node.op in ("output", "placeholder"):
             continue
-        # Match node.target against resolved_ops
-        # node.target can be OpOverloadPacket, need to check .default
-        if node.op == "call_function" and (
-            node.target in resolved_ops
-            or (hasattr(node.target, "default") and node.target.default in resolved_ops)
-        ):
+
+        if should_split(node, splitting_ops):
             subgraph_id += 1
             node_to_subgraph_id[node] = subgraph_id
             split_op_graphs.append(subgraph_id)
@@ -653,8 +649,7 @@ class VllmBackend:
         else:
             fx_split_ops = self.compilation_config.splitting_ops or []
 
-        resolved_split_ops = resolve_defined_ops(fx_split_ops)
-        self.split_gm, self.piecewise_graphs = split_graph(graph, resolved_split_ops)
+        self.split_gm, self.piecewise_graphs = split_graph(graph, fx_split_ops)
 
         from torch._dynamo.utils import lazy_format_graph_code
 
diff --git a/vllm/compilation/partition_rules.py b/vllm/compilation/partition_rules.py
index 094b86dcb4aa2..08bd27e809526 100644
--- a/vllm/compilation/partition_rules.py
+++ b/vllm/compilation/partition_rules.py
@@ -2,54 +2,39 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
 import contextlib
-import logging
 
 import torch
-from torch._library.utils import lookup_op
 
 from vllm.logger import init_logger
 
 logger = init_logger(__name__)
 
 
-def resolve_defined_ops(op_names: list[str]) -> list["torch._ops.OpOverload"]:
-    """Resolve operator names to OpOverload objects.
-
-    Skips operators that fail to resolve (e.g., operators not registered or
-    model-specific operators not present in the current model).
-
-    Note: Users should inspect the operator graph before lowering and ensure
-    the specified operators are present in the final graph. Built-in PyTorch
-    operators (aten::*, torch::*) may be decomposed, fused, or transformed
-    during Inductor's compilation passes, so use them with caution.
-
-    Args:
-        op_names: List of operator names in PyTorch format
-            (e.g., "vllm::unified_attention")
-
-    Returns:
-        List of successfully resolved operator overloads
+def should_split(node: torch.fx.Node, splitting_ops: list[str]) -> bool:
+    """
+    Check if a node should be split for dynamo graph partition.
+    It operates on dynamo graph, so the node.target can be anything.
+    We need to check and split only on OpOverload and OpOverloadPacket.
     """
-    resolved = []
-    for op_name in op_names:
-        try:
-            resolved.append(lookup_op(op_name))
-        except Exception:
-            # Skip operators that don't exist (e.g., model-specific ops)
-            # Do not warn for attention ops, warn for others
-            # (most likely manually specified)
-            from vllm.config import CompilationConfig
 
-            logger.log(
-                logging.DEBUG
-                if op_name in CompilationConfig._attention_ops
-                else logging.WARNING,
-                "Failed to resolve operator for CUDAGraph partition: %s",
-                op_name,
-            )
-            continue
+    if node.op != "call_function":
+        return False
 
-    return resolved
+    target = node.target
+
+    if isinstance(target, torch._ops.OpOverloadPacket):
+        # Example: "aten::add"
+        return target._qualified_op_name in splitting_ops
+
+    if isinstance(target, torch._ops.OpOverload):
+        # Example: "aten::add"
+        packet_name = target.name()
+
+        # Example: "aten::add.default"
+        op_overload_name = f"{packet_name}.{target._overloadname}"
+        return op_overload_name in splitting_ops or packet_name in splitting_ops
+
+    return False
 
 
 @contextlib.contextmanager

From d0c779200421fed3c8ab010c4e4504a5d3e153e6 Mon Sep 17 00:00:00 2001
From: "Xiaohong (Sean) Chen" <xiaohong_chen1991@hotmail.com>
Date: Fri, 7 Nov 2025 20:58:22 -0500
Subject: [PATCH 236/976] [Bugfix][LoRA][Spec Decode] Support LoRA with
 speculative decoding (#21068)

Signed-off-by: Sean Chen <xiaohong_chen1991@hotmail.com>
Signed-off-by: Robert Shaw <114415538+robertgshaw2-redhat@users.noreply.github.com>
Co-authored-by: Robert Shaw <114415538+robertgshaw2-redhat@users.noreply.github.com>
Co-authored-by: Danielle Robinson <dcmaddix@gmail.com>
Co-authored-by: Haipeng Li <li2haipeng@gmail.com>
Co-authored-by: li2haipeng <44383182+li2haipeng@users.noreply.github.com>
---
 tests/v1/e2e/test_lora_with_spec_decode.py | 141 +++++++++++++++++++++
 vllm/engine/arg_utils.py                   |  14 ++
 vllm/lora/punica_wrapper/punica_gpu.py     |   6 +-
 vllm/v1/worker/gpu_input_batch.py          |  10 +-
 vllm/v1/worker/gpu_model_runner.py         |  18 ++-
 vllm/v1/worker/lora_model_runner_mixin.py  |  25 +++-
 vllm/v1/worker/tpu_input_batch.py          |   2 +-
 7 files changed, 201 insertions(+), 15 deletions(-)
 create mode 100644 tests/v1/e2e/test_lora_with_spec_decode.py

diff --git a/tests/v1/e2e/test_lora_with_spec_decode.py b/tests/v1/e2e/test_lora_with_spec_decode.py
new file mode 100644
index 0000000000000..14532f2795443
--- /dev/null
+++ b/tests/v1/e2e/test_lora_with_spec_decode.py
@@ -0,0 +1,141 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+This script contains:
+1. test lora with speculative decoding for batch inference
+"""
+
+import random
+
+import numpy as np
+import pytest
+import torch
+
+from vllm import LLM, SamplingParams
+from vllm.distributed import cleanup_dist_env_and_memory
+from vllm.lora.request import LoRARequest
+from vllm.platforms import current_platform
+
+LORA_TEST_PROMPT_MAP: dict[str, str] = {}
+
+LORA_TEST_PROMPT_MAP["premjatin/qwen-linear-algebra-coder"] = """
+### INSTRUCTION:
+You are an AI assistant that generates Python code to solve linear
+algebra problems.
+
+### PROBLEM:
+Find the eigenvalues and eigenvectors of the following 3x3 matrix:
+[[3, 2, 0],
+ [2, 3, 0],
+ [0, 0, 2]]
+
+### OUTPUT FORMAT (STRICT):
+Numbers should be represented as integers only.
+
+### PYTHON SOLUTION:
+"""
+
+SEED = 42
+
+
+@pytest.mark.skipif(not current_platform.is_cuda(), reason="CUDA not available")
+@pytest.mark.parametrize(
+    "model_setup",
+    [
+        (
+            "eagle3",
+            "Qwen/Qwen3-1.7B",
+            "AngelSlim/Qwen3-1.7B_eagle3",
+            "premjatin/qwen-linear-algebra-coder",
+            1,
+        )
+    ],
+)
+def test_batch_inference_correctness(
+    monkeypatch: pytest.MonkeyPatch,
+    model_setup: tuple[str, str, str, str, int],
+):
+    """
+    Compare the outputs of a LLM with only Lora and a LLM with both SD and Lora.
+    Should be the same and no failure when doing batch inference.
+    model_setup: (method, model_name, spec_model_name, lora_path, tp_size)
+    """
+    with monkeypatch.context() as m:
+        m.setenv("VLLM_USE_V1", "1")
+
+        # Disable randomness
+        m.setenv("CUBLAS_WORKSPACE_CONFIG", ":4096:8")
+        torch.manual_seed(SEED)
+        np.random.seed(SEED)
+        random.seed(SEED)
+        torch.cuda.manual_seed_all(SEED)
+        torch.backends.cudnn.benchmark = False
+        torch.backends.cudnn.deterministic = True
+
+        method, model_name, spec_model_name, lora_path, tp_size = model_setup
+
+        # without speculative decoding
+        ref_llm = LLM(
+            model=model_name,
+            trust_remote_code=True,
+            tensor_parallel_size=tp_size,
+            max_model_len=2048,
+            max_num_seqs=4,
+            enable_lora=True,
+            max_loras=1,
+            max_cpu_loras=1,
+            max_lora_rank=16,
+        )
+
+        prompts = [LORA_TEST_PROMPT_MAP[lora_path]] * 100
+        lora_request = LoRARequest("adapter", 1, lora_path)
+        sampling_params = SamplingParams(
+            temperature=0.0, top_p=1.0, top_k=-1, seed=SEED, max_tokens=128
+        )
+
+        ref_outputs = ref_llm.generate(
+            prompts, sampling_params, lora_request=lora_request
+        )
+        del ref_llm
+        torch.cuda.empty_cache()
+        cleanup_dist_env_and_memory()
+
+        lora_spec_llm = LLM(
+            model=model_name,
+            trust_remote_code=True,
+            tensor_parallel_size=tp_size,
+            speculative_config={
+                "method": method,
+                "model": spec_model_name,
+                "num_speculative_tokens": 3,
+                "max_model_len": 2048,
+            },
+            max_model_len=2048,
+            max_num_seqs=4,
+            enable_lora=True,
+            max_loras=1,
+            max_cpu_loras=1,
+            max_lora_rank=16,
+        )
+
+        lora_spec_outputs = lora_spec_llm.generate(
+            prompts, sampling_params, lora_request=lora_request
+        )
+
+        matches = 0
+        misses = 0
+        for ref_output, spec_output in zip(ref_outputs, lora_spec_outputs):
+            if ref_output.outputs[0].text == spec_output.outputs[0].text:
+                matches += 1
+            else:
+                misses += 1
+                print(f"ref_output: {ref_output.outputs[0].text}")
+                print(f"spec_output: {spec_output.outputs[0].text}")
+
+        # Heuristic: expect at least 90% of the prompts to match exactly
+        # Upon failure, inspect the outputs to check for inaccuracy.
+        print(f"match ratio: {matches}/{len(ref_outputs)}")
+        assert matches > int(0.90 * len(ref_outputs))
+        del lora_spec_llm
+        torch.cuda.empty_cache()
+        cleanup_dist_env_and_memory()
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index f1a6c0716e4ca..342da0150a7ce 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -1574,6 +1574,20 @@ class EngineArgs:
             else None
         )
 
+        if (
+            lora_config is not None
+            and speculative_config is not None
+            and scheduler_config.max_num_batched_tokens
+            < (
+                scheduler_config.max_num_seqs
+                * (speculative_config.num_speculative_tokens + 1)
+            )
+        ):
+            raise ValueError(
+                "Consider increasing max_num_batched_tokens or "
+                "decreasing num_speculative_tokens"
+            )
+
         # bitsandbytes pre-quantized model need a specific model loader
         if model_config.quantization == "bitsandbytes":
             self.quantization = self.load_format = "bitsandbytes"
diff --git a/vllm/lora/punica_wrapper/punica_gpu.py b/vllm/lora/punica_wrapper/punica_gpu.py
index 1bb80e516d3f8..ede50a48af985 100644
--- a/vllm/lora/punica_wrapper/punica_gpu.py
+++ b/vllm/lora/punica_wrapper/punica_gpu.py
@@ -51,8 +51,12 @@ class PunicaWrapperGPU(PunicaWrapperBase):
             self.max_loras, max_num_batched_tokens, device=device
         )
 
+        # When speculative decoding is enabled, max_num_samples is
+        # max_batches * (num_speculative_decoding_tokens + 1).
+        # This line can be optimized by replacing max_num_batched_tokens
+        # to  max_batches * (num_speculative_decoding_tokens + 1).
         self.prompt_mapping_meta = LoRAKernelMeta.make(
-            self.max_loras, max_batches, device=device
+            self.max_loras, max_num_batched_tokens, device=device
         )
 
     def update_metadata(
diff --git a/vllm/v1/worker/gpu_input_batch.py b/vllm/v1/worker/gpu_input_batch.py
index fe834db115e70..5afa68c3fca63 100644
--- a/vllm/v1/worker/gpu_input_batch.py
+++ b/vllm/v1/worker/gpu_input_batch.py
@@ -859,22 +859,24 @@ class InputBatch:
         return prompt_token_ids_cpu_tensor.to(device=self.device, non_blocking=True)
 
     def make_lora_inputs(
-        self, num_scheduled_tokens: np.ndarray
+        self, num_scheduled_tokens: np.ndarray, num_sampled_tokens: np.ndarray
     ) -> tuple[tuple[int, ...], tuple[int, ...], set[LoRARequest]]:
         """
         Given the num_scheduled_tokens for each request in the batch, return
         datastructures used to activate the current LoRAs.
         Returns:
-            1. prompt_lora_mapping: A tuple of size self.num_reqs where,
-               prompt_lora_mapping[i] is the LoRA id to use for the ith prompt.
+            1. prompt_lora_mapping: A tuple of size np.sum(num_sampled_tokens)
+               where, prompt_lora_mapping[i] is the LoRA id to use for the ith
+               sampled token.
             2. token_lora_mapping: A tuple of size np.sum(num_scheduled_tokens)
                where, token_lora_mapping[i] is the LoRA id to use for ith token.
             3. lora_requests: Set of relevant LoRA requests.
         """
 
         req_lora_mapping = self.request_lora_mapping[: self.num_reqs]
-        prompt_lora_mapping = tuple(req_lora_mapping)
+        prompt_lora_mapping = tuple(req_lora_mapping.repeat(num_sampled_tokens))
         token_lora_mapping = tuple(req_lora_mapping.repeat(num_scheduled_tokens))
+
         active_lora_requests: set[LoRARequest] = set(
             self.lora_id_to_lora_request.values()
         )
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index 91c8efc17feb9..8a03b23facc39 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -1268,6 +1268,7 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
             logits_indices = query_start_loc[1:] - 1
             num_draft_tokens = None
             spec_decode_metadata = None
+            num_sampled_tokens = np.ones(num_reqs, dtype=np.int32)
         else:
             # Get the number of draft tokens for each request.
             # Iterate over the dictionary rather than all requests since not all
@@ -1294,7 +1295,7 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
                 num_draft_tokens, cu_num_tokens
             )
             logits_indices = spec_decode_metadata.logits_indices
-
+            num_sampled_tokens = num_draft_tokens + 1
             # For DECODE only cuda graph of some attention backends (e.g., GDN).
             self.num_decode_draft_tokens.np[:num_reqs] = num_decode_draft_tokens
             self.num_decode_draft_tokens.np[num_reqs:].fill(-1)
@@ -1445,7 +1446,13 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
 
         # Hot-Swap lora model
         if self.lora_config:
-            self.set_active_loras(self.input_batch, num_scheduled_tokens)
+            assert (
+                np.sum(num_sampled_tokens)
+                <= self.vllm_config.scheduler_config.max_num_batched_tokens
+            )
+            self.set_active_loras(
+                self.input_batch, num_scheduled_tokens, num_sampled_tokens
+            )
 
         return (
             attn_metadata,
@@ -3390,6 +3397,7 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
         assert len(num_scheduled_tokens_list) == num_reqs
         num_scheduled_tokens = np.array(num_scheduled_tokens_list, dtype=np.int32)
         total_num_scheduled_tokens = int(num_scheduled_tokens.sum())
+        num_sampled_tokens = np.ones(num_reqs, dtype=np.int32)
 
         # Disable DP padding when running eager
         allow_dp_padding = self.compilation_config.cudagraph_mode != CUDAGraphMode.NONE
@@ -3485,7 +3493,11 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
                             attn_metadata[layer_name] = attn_metadata_i
 
         with self.maybe_dummy_run_with_lora(
-            self.lora_config, num_scheduled_tokens, activate_lora, remove_lora
+            self.lora_config,
+            num_scheduled_tokens,
+            num_sampled_tokens,
+            activate_lora,
+            remove_lora,
         ):
             # Make sure padding doesn't exceed max_num_tokens
             assert num_tokens_after_padding <= self.max_num_tokens
diff --git a/vllm/v1/worker/lora_model_runner_mixin.py b/vllm/v1/worker/lora_model_runner_mixin.py
index 372bc0a056731..37abe56494609 100644
--- a/vllm/v1/worker/lora_model_runner_mixin.py
+++ b/vllm/v1/worker/lora_model_runner_mixin.py
@@ -38,7 +38,6 @@ class LoRAModelRunnerMixin:
                 "Regarding multimodal models, vLLM currently "
                 "only supports adding LoRA to language model."
             )
-
         # Add LoRA Manager to the Model Runner
         self.lora_manager = LRUCacheWorkerLoRAManager(
             vllm_config,
@@ -70,13 +69,19 @@ class LoRAModelRunnerMixin:
             raise RuntimeError("LoRA is not enabled. Use --enable-lora to enable LoRA.")
 
     def set_active_loras(
-        self, input_batch: InputBatch, num_scheduled_tokens: np.ndarray
+        self,
+        input_batch: InputBatch,
+        num_scheduled_tokens: np.ndarray,
+        num_sampled_tokens: np.ndarray | None = None,
     ) -> None:
-        prompt_lora_mapping: tuple[int, ...]  # of size input_batch.num_reqs
+        if num_sampled_tokens is None:
+            num_sampled_tokens = np.ones_like(num_scheduled_tokens, dtype=np.int32)
+
+        prompt_lora_mapping: tuple[int, ...]  # of size np.sum(num_sampled_tokens)
         token_lora_mapping: tuple[int, ...]  # of size np.sum(num_scheduled_tokens)
         lora_requests: set[LoRARequest]
         prompt_lora_mapping, token_lora_mapping, lora_requests = (
-            input_batch.make_lora_inputs(num_scheduled_tokens)
+            input_batch.make_lora_inputs(num_scheduled_tokens, num_sampled_tokens)
         )
         return self._set_active_loras(
             prompt_lora_mapping, token_lora_mapping, lora_requests
@@ -123,8 +128,12 @@ class LoRAModelRunnerMixin:
         self,
         lora_config: LoRAConfig | None,
         num_scheduled_tokens: np.ndarray,
+        num_sampled_tokens: np.ndarray | None = None,
         activate_lora: bool = True,
     ):
+        if num_sampled_tokens is None:
+            num_sampled_tokens = np.ones_like(num_scheduled_tokens, dtype=np.int32)
+
         if lora_config is None:
             yield
         else:
@@ -143,6 +152,9 @@ class LoRAModelRunnerMixin:
             else:
                 prompt_lora_mapping = np.zeros(num_reqs, dtype=np.int32)
 
+            # Make sample lora mapping
+            sample_lora_mapping = np.repeat(prompt_lora_mapping, num_sampled_tokens)
+
             # Make token lora mapping
             token_lora_mapping = np.repeat(prompt_lora_mapping, num_scheduled_tokens)
 
@@ -157,7 +169,7 @@ class LoRAModelRunnerMixin:
             }
 
             self._set_active_loras(
-                tuple(prompt_lora_mapping), tuple(token_lora_mapping), lora_requests
+                tuple(sample_lora_mapping), tuple(token_lora_mapping), lora_requests
             )
 
             yield
@@ -167,13 +179,14 @@ class LoRAModelRunnerMixin:
         self,
         lora_config: LoRAConfig | None,
         num_scheduled_tokens: np.ndarray,
+        num_sampled_tokens: np.ndarray,
         activate_lora: bool = True,
         remove_lora: bool = True,
     ):
         with (
             self.maybe_setup_dummy_loras(lora_config, remove_lora),
             self.maybe_select_dummy_loras(
-                lora_config, num_scheduled_tokens, activate_lora
+                lora_config, num_scheduled_tokens, num_sampled_tokens, activate_lora
             ),
         ):
             yield
diff --git a/vllm/v1/worker/tpu_input_batch.py b/vllm/v1/worker/tpu_input_batch.py
index d3fb17054c1a7..6bf4f91931849 100644
--- a/vllm/v1/worker/tpu_input_batch.py
+++ b/vllm/v1/worker/tpu_input_batch.py
@@ -526,7 +526,7 @@ class InputBatch:
         return prompt_token_ids_cpu_tensor.to(device=self.device, non_blocking=True)
 
     def make_lora_inputs(
-        self, num_scheduled_tokens: np.ndarray
+        self, num_scheduled_tokens: np.ndarray, num_sampled_tokens: np.ndarray
     ) -> tuple[tuple[int, ...], tuple[int, ...], set[LoRARequest]]:
         """
         Given the num_scheduled_tokens for each request in the batch, return

From 61d25dc44b23291c1077403aa5dd60e02131cdea Mon Sep 17 00:00:00 2001
From: Hamid Mukhtar <15519013+hammmmy@users.noreply.github.com>
Date: Fri, 7 Nov 2025 21:09:21 -0500
Subject: [PATCH 237/976] Update gpu.rocm.inc.md to add support for AMD Ryzen
 AI MAX / AI 300 Series (gfx1151, gfx1150) (#28308)

Signed-off-by: Hamid Mukhtar <15519013+hammmmy@users.noreply.github.com>
---
 docs/getting_started/installation/gpu.rocm.inc.md | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/docs/getting_started/installation/gpu.rocm.inc.md b/docs/getting_started/installation/gpu.rocm.inc.md
index f546e0f0e5052..c80ba9478f6be 100644
--- a/docs/getting_started/installation/gpu.rocm.inc.md
+++ b/docs/getting_started/installation/gpu.rocm.inc.md
@@ -11,9 +11,10 @@ vLLM supports AMD GPUs with ROCm 6.3 or above, and torch 2.8.0 and above.
 # --8<-- [end:installation]
 # --8<-- [start:requirements]
 
-- GPU: MI200s (gfx90a), MI300 (gfx942), MI350 (gfx950), Radeon RX 7900 series (gfx1100/1101), Radeon RX 9000 series (gfx1200/1201)
+- GPU: MI200s (gfx90a), MI300 (gfx942), MI350 (gfx950), Radeon RX 7900 series (gfx1100/1101), Radeon RX 9000 series (gfx1200/1201), Ryzen AI MAX / AI 300 Series (gfx1151/1150)
 - ROCm 6.3 or above
     - MI350 requires ROCm 7.0 or above
+    - Ryzen AI MAX / AI 300 Series requires ROCm 7.0.2 or above
 
 # --8<-- [end:requirements]
 # --8<-- [start:set-up-using-python]

From 085252764710fdb42ac180983ef4c37da0ed72d3 Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Sat, 8 Nov 2025 10:20:55 +0800
Subject: [PATCH 238/976] [Perf][DeepSeek] Add sigmoid+bias fusion to
 fused_grouped_topk from TRTLLM (#28124)

Signed-off-by: mgoin <mgoin64@gmail.com>
Co-authored-by: Robert Shaw <114415538+robertgshaw2-redhat@users.noreply.github.com>
Co-authored-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com>
---
 csrc/moe/grouped_topk_kernels.cu              | 153 +++++++++++-------
 csrc/moe/moe_ops.h                            |   6 +-
 csrc/moe/torch_bindings.cpp                   |   5 +-
 vllm/_custom_ops.py                           |  19 ++-
 .../layers/fused_moe/fused_moe.py             |  41 +++--
 5 files changed, 149 insertions(+), 75 deletions(-)

diff --git a/csrc/moe/grouped_topk_kernels.cu b/csrc/moe/grouped_topk_kernels.cu
index c93f9d54d780c..69b4c1fb11d1a 100644
--- a/csrc/moe/grouped_topk_kernels.cu
+++ b/csrc/moe/grouped_topk_kernels.cu
@@ -427,11 +427,29 @@ __device__ inline bool is_finite(const T val) {
 #endif
 }
 
+// Scoring function enums
+enum ScoringFunc {
+  SCORING_NONE = 0,    // no activation function
+  SCORING_SIGMOID = 1  // apply sigmoid
+};
+
+// Efficient sigmoid approximation from TensorRT-LLM
+__device__ inline float sigmoid_accurate(float x) {
+  return 0.5f * tanhf(0.5f * x) + 0.5f;
+}
+
 template <typename T>
-__device__ void topk_with_k2(T* output, T const* input,
+__device__ inline T apply_sigmoid(T val) {
+  float f = cuda_cast<float, T>(val);
+  return cuda_cast<T, float>(sigmoid_accurate(f));
+}
+
+template <typename T>
+__device__ void topk_with_k2(T* output, T const* input, T const* bias,
                              cg::thread_block_tile<32> const& tile,
                              int32_t const lane_id,
-                             int const num_experts_per_group) {
+                             int const num_experts_per_group,
+                             int const scoring_func) {
   // Get the top2 per thread
   T largest = neg_inf<T>();
   T second_largest = neg_inf<T>();
@@ -439,6 +457,12 @@ __device__ void topk_with_k2(T* output, T const* input,
   if (num_experts_per_group > WARP_SIZE) {
     for (int i = lane_id; i < num_experts_per_group; i += WARP_SIZE) {
       T value = input[i];
+      // Apply scoring function if needed
+      if (scoring_func == SCORING_SIGMOID) {
+        value = apply_sigmoid(value);
+      }
+      value = value + bias[i];
+
       if (value > largest) {
         second_largest = largest;
         largest = value;
@@ -448,7 +472,13 @@ __device__ void topk_with_k2(T* output, T const* input,
     }
   } else {
     for (int i = lane_id; i < num_experts_per_group; i += WARP_SIZE) {
-      largest = input[i];
+      T value = input[i];
+      // Apply scoring function if needed
+      if (scoring_func == SCORING_SIGMOID) {
+        value = apply_sigmoid(value);
+      }
+      value = value + bias[i];
+      largest = value;
     }
   }
 
@@ -472,17 +502,21 @@ __device__ void topk_with_k2(T* output, T const* input,
 }
 
 template <typename T>
-__global__ void topk_with_k2_kernel(T* output, T* input,
+__global__ void topk_with_k2_kernel(T* output, T* input, T const* bias,
                                     int64_t const num_tokens,
                                     int64_t const num_cases,
                                     int64_t const n_group,
-                                    int64_t const num_experts_per_group) {
+                                    int64_t const num_experts_per_group,
+                                    int const scoring_func) {
   int32_t warp_id = threadIdx.x / WARP_SIZE;
   int32_t lane_id = threadIdx.x % WARP_SIZE;
 
   int32_t case_id = blockIdx.x * NUM_WARPS_PER_BLOCK + warp_id;
   if (case_id < num_cases) {
     input += case_id * num_experts_per_group;
+    // bias is per expert group, offset to current group
+    int32_t group_id = case_id % n_group;
+    T const* group_bias = bias + group_id * num_experts_per_group;
     output += case_id;
 
     cg::thread_block block = cg::this_thread_block();
@@ -491,7 +525,8 @@ __global__ void topk_with_k2_kernel(T* output, T* input,
 #if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))
     asm volatile("griddepcontrol.wait;");
 #endif
-    topk_with_k2(output, input, tile, lane_id, num_experts_per_group);
+    topk_with_k2(output, input, group_bias, tile, lane_id,
+                 num_experts_per_group, scoring_func);
   }
 #if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))
   asm volatile("griddepcontrol.launch_dependents;");
@@ -500,16 +535,15 @@ __global__ void topk_with_k2_kernel(T* output, T* input,
 
 template <typename T, typename IdxT>
 __global__ void group_idx_and_topk_idx_kernel(
-    T* scores, T const* group_scores, T* topk_values, IdxT* topk_indices,
-    T* scores_with_bias, int64_t const num_tokens, int64_t const n_group,
+    T* scores, T const* group_scores, float* topk_values, IdxT* topk_indices,
+    T const* bias, int64_t const num_tokens, int64_t const n_group,
     int64_t const topk_group, int64_t const topk, int64_t const num_experts,
     int64_t const num_experts_per_group, bool renormalize,
-    double routed_scaling_factor) {
+    double routed_scaling_factor, int scoring_func) {
   int32_t warp_id = threadIdx.x / WARP_SIZE;
   int32_t lane_id = threadIdx.x % WARP_SIZE;
   int32_t case_id =
       blockIdx.x * NUM_WARPS_PER_BLOCK + warp_id;  // one per token
-  scores_with_bias += case_id * num_experts;
   scores += case_id * num_experts;
   group_scores += case_id * n_group;
   topk_values += case_id * topk;
@@ -577,10 +611,16 @@ __global__ void group_idx_and_topk_idx_kernel(
         int32_t offset = i_group * num_experts_per_group;
         for (int32_t i = lane_id; i < align_num_experts_per_group;
              i += WARP_SIZE) {
-          T candidates = (i < num_experts_per_group) &&
-                                 is_finite(scores_with_bias[offset + i])
-                             ? scores_with_bias[offset + i]
-                             : neg_inf<T>();
+          T candidates = neg_inf<T>();
+          if (i < num_experts_per_group) {
+            // Apply scoring function (if any) and add bias
+            T input = scores[offset + i];
+            if (is_finite(input)) {
+              T score = (scoring_func == SCORING_SIGMOID) ? apply_sigmoid(input)
+                                                          : input;
+              candidates = score + bias[offset + i];
+            }
+          }
           queue.add(candidates, offset + i);
         }
         if (group_scores[i_group] == topk_group_value) {
@@ -602,11 +642,12 @@ __global__ void group_idx_and_topk_idx_kernel(
     for (int i = lane_id;
          i < warp_topk::round_up_to_multiple_of<WARP_SIZE>(topk);
          i += WARP_SIZE) {
-      T value =
-          i < topk
-              ? scores[s_topk_idx[i]]
-              : cuda_cast<T, float>(0.0f);  // Load the valid value of expert
+      T value = cuda_cast<T, float>(0.0f);
       if (i < topk) {
+        // Load the score value (without bias) for normalization
+        T input = scores[s_topk_idx[i]];
+        value =
+            (scoring_func == SCORING_SIGMOID) ? apply_sigmoid(input) : input;
         s_topk_value[i] = value;
       }
       topk_sum +=
@@ -627,12 +668,12 @@ __global__ void group_idx_and_topk_idx_kernel(
           value = cuda_cast<float, T>(s_topk_value[i]) * routed_scaling_factor;
         }
         topk_indices[i] = s_topk_idx[i];
-        topk_values[i] = cuda_cast<T, float>(value);
+        topk_values[i] = value;
       }
     } else {
       for (int i = lane_id; i < topk; i += WARP_SIZE) {
         topk_indices[i] = i;
-        topk_values[i] = cuda_cast<T, float>(1.0f / topk);
+        topk_values[i] = 1.0f / topk;
       }
     }
     // Note: when if_proceed_next_topk==false, choose the first 8 experts as the
@@ -644,12 +685,12 @@ __global__ void group_idx_and_topk_idx_kernel(
 }
 
 template <typename T, typename IdxT>
-void invokeNoAuxTc(T* scores, T* group_scores, T* topk_values,
-                   IdxT* topk_indices, T* scores_with_bias,
-                   int64_t const num_tokens, int64_t const num_experts,
-                   int64_t const n_group, int64_t const topk_group,
-                   int64_t const topk, bool const renormalize,
-                   double const routed_scaling_factor, bool enable_pdl = false,
+void invokeNoAuxTc(T* scores, T* group_scores, float* topk_values,
+                   IdxT* topk_indices, T const* bias, int64_t const num_tokens,
+                   int64_t const num_experts, int64_t const n_group,
+                   int64_t const topk_group, int64_t const topk,
+                   bool const renormalize, double const routed_scaling_factor,
+                   int const scoring_func, bool enable_pdl = false,
                    cudaStream_t const stream = 0) {
   int64_t num_cases = num_tokens * n_group;
   int64_t topk_with_k2_num_blocks = (num_cases - 1) / NUM_WARPS_PER_BLOCK + 1;
@@ -664,8 +705,9 @@ void invokeNoAuxTc(T* scores, T* group_scores, T* topk_values,
   attrs[0].val.programmaticStreamSerializationAllowed = enable_pdl;
   config.numAttrs = 1;
   config.attrs = attrs;
-  cudaLaunchKernelEx(&config, kernel_instance1, group_scores, scores_with_bias,
-                     num_tokens, num_cases, n_group, num_experts / n_group);
+  cudaLaunchKernelEx(&config, kernel_instance1, group_scores, scores, bias,
+                     num_tokens, num_cases, n_group, num_experts / n_group,
+                     scoring_func);
 
   int64_t topk_with_k_group_num_blocks =
       (num_tokens - 1) / NUM_WARPS_PER_BLOCK + 1;
@@ -682,19 +724,18 @@ void invokeNoAuxTc(T* scores, T* group_scores, T* topk_values,
   config.numAttrs = 1;
   config.attrs = attrs;
   cudaLaunchKernelEx(&config, kernel_instance2, scores, group_scores,
-                     topk_values, topk_indices, scores_with_bias, num_tokens,
-                     n_group, topk_group, topk, num_experts,
-                     num_experts / n_group, renormalize, routed_scaling_factor);
+                     topk_values, topk_indices, bias, num_tokens, n_group,
+                     topk_group, topk, num_experts, num_experts / n_group,
+                     renormalize, routed_scaling_factor, scoring_func);
 }
 
 #define INSTANTIATE_NOAUX_TC(T, IdxT)                                       \
   template void invokeNoAuxTc<T, IdxT>(                                     \
-      T * scores, T * group_scores, T * topk_values, IdxT * topk_indices,   \
-      T * scores_with_bias, int64_t const num_tokens,                       \
-      int64_t const num_experts, int64_t const n_group,                     \
-      int64_t const topk_group, int64_t const topk, bool const renormalize, \
-      double const routed_scaling_factor, bool enable_pdl,                  \
-      cudaStream_t const stream);
+      T * scores, T * group_scores, float* topk_values, IdxT* topk_indices, \
+      T const* bias, int64_t const num_tokens, int64_t const num_experts,   \
+      int64_t const n_group, int64_t const topk_group, int64_t const topk,  \
+      bool const renormalize, double const routed_scaling_factor,           \
+      int const scoring_func, bool enable_pdl, cudaStream_t const stream);
 
 INSTANTIATE_NOAUX_TC(float, int32_t);
 INSTANTIATE_NOAUX_TC(half, int32_t);
@@ -703,28 +744,32 @@ INSTANTIATE_NOAUX_TC(__nv_bfloat16, int32_t);
 }  // namespace vllm
 
 std::tuple<torch::Tensor, torch::Tensor> grouped_topk(
-    torch::Tensor const& scores, torch::Tensor const& scores_with_bias,
-    int64_t n_group, int64_t topk_group, int64_t topk, bool renormalize,
-    double routed_scaling_factor) {
-  auto data_type = scores_with_bias.scalar_type();
-  auto input_size = scores_with_bias.sizes();
+    torch::Tensor const& scores, int64_t n_group, int64_t topk_group,
+    int64_t topk, bool renormalize, double routed_scaling_factor,
+    torch::Tensor const& bias, int64_t scoring_func = 0) {
+  auto data_type = scores.scalar_type();
+  auto input_size = scores.sizes();
   int64_t num_tokens = input_size[0];
   int64_t num_experts = input_size[1];
-  TORCH_CHECK(input_size.size() == 2, "scores_with_bias must be a 2D Tensor");
+  TORCH_CHECK(input_size.size() == 2, "scores must be a 2D Tensor");
   TORCH_CHECK(num_experts % n_group == 0,
               "num_experts should be divisible by n_group");
   TORCH_CHECK(n_group <= 32,
               "n_group should be smaller than or equal to 32 for now");
   TORCH_CHECK(topk <= 32, "topk should be smaller than or equal to 32 for now");
+  TORCH_CHECK(scoring_func == vllm::moe::SCORING_NONE ||
+                  scoring_func == vllm::moe::SCORING_SIGMOID,
+              "scoring_func must be SCORING_NONE (0) or SCORING_SIGMOID (1)");
 
   torch::Tensor group_scores = torch::empty(
       {num_tokens, n_group}, torch::dtype(data_type).device(torch::kCUDA));
+  // Always output float32 for topk_values (eliminates Python-side conversion)
   torch::Tensor topk_values = torch::empty(
-      {num_tokens, topk}, torch::dtype(data_type).device(torch::kCUDA));
+      {num_tokens, topk}, torch::dtype(torch::kFloat32).device(torch::kCUDA));
   torch::Tensor topk_indices = torch::empty(
       {num_tokens, topk}, torch::dtype(torch::kInt32).device(torch::kCUDA));
 
-  auto stream = c10::cuda::getCurrentCUDAStream(scores_with_bias.get_device());
+  auto stream = c10::cuda::getCurrentCUDAStream(scores.get_device());
 
   switch (data_type) {
     case torch::kFloat16:
@@ -732,11 +777,11 @@ std::tuple<torch::Tensor, torch::Tensor> grouped_topk(
       vllm::moe::invokeNoAuxTc<half, int32_t>(
           reinterpret_cast<half*>(scores.mutable_data_ptr()),
           reinterpret_cast<half*>(group_scores.mutable_data_ptr()),
-          reinterpret_cast<half*>(topk_values.mutable_data_ptr()),
+          reinterpret_cast<float*>(topk_values.mutable_data_ptr()),
           reinterpret_cast<int32_t*>(topk_indices.mutable_data_ptr()),
-          reinterpret_cast<half*>(scores_with_bias.data_ptr()), num_tokens,
+          reinterpret_cast<half const*>(bias.data_ptr()), num_tokens,
           num_experts, n_group, topk_group, topk, renormalize,
-          routed_scaling_factor, false, stream);
+          routed_scaling_factor, static_cast<int>(scoring_func), false, stream);
       break;
     case torch::kFloat32:
       // Handle Float32
@@ -745,20 +790,20 @@ std::tuple<torch::Tensor, torch::Tensor> grouped_topk(
           reinterpret_cast<float*>(group_scores.mutable_data_ptr()),
           reinterpret_cast<float*>(topk_values.mutable_data_ptr()),
           reinterpret_cast<int32_t*>(topk_indices.mutable_data_ptr()),
-          reinterpret_cast<float*>(scores_with_bias.data_ptr()), num_tokens,
+          reinterpret_cast<float const*>(bias.data_ptr()), num_tokens,
           num_experts, n_group, topk_group, topk, renormalize,
-          routed_scaling_factor, false, stream);
+          routed_scaling_factor, static_cast<int>(scoring_func), false, stream);
       break;
     case torch::kBFloat16:
       // Handle BFloat16
       vllm::moe::invokeNoAuxTc<__nv_bfloat16, int32_t>(
           reinterpret_cast<__nv_bfloat16*>(scores.mutable_data_ptr()),
           reinterpret_cast<__nv_bfloat16*>(group_scores.mutable_data_ptr()),
-          reinterpret_cast<__nv_bfloat16*>(topk_values.mutable_data_ptr()),
+          reinterpret_cast<float*>(topk_values.mutable_data_ptr()),
           reinterpret_cast<int32_t*>(topk_indices.mutable_data_ptr()),
-          reinterpret_cast<__nv_bfloat16*>(scores_with_bias.data_ptr()),
-          num_tokens, num_experts, n_group, topk_group, topk, renormalize,
-          routed_scaling_factor, false, stream);
+          reinterpret_cast<__nv_bfloat16 const*>(bias.data_ptr()), num_tokens,
+          num_experts, n_group, topk_group, topk, renormalize,
+          routed_scaling_factor, static_cast<int>(scoring_func), false, stream);
       break;
     default:
       // Handle other data types
diff --git a/csrc/moe/moe_ops.h b/csrc/moe/moe_ops.h
index 0adf745689b2f..11c6875f7f1d0 100644
--- a/csrc/moe/moe_ops.h
+++ b/csrc/moe/moe_ops.h
@@ -39,9 +39,9 @@ torch::Tensor moe_wna16_gemm(torch::Tensor input, torch::Tensor output,
                              int64_t BLOCK_SIZE_K, int64_t bit);
 
 std::tuple<torch::Tensor, torch::Tensor> grouped_topk(
-    torch::Tensor const& scores, torch::Tensor const& scores_with_bias,
-    int64_t n_group, int64_t topk_group, int64_t topk, bool renormalize,
-    double routed_scaling_factor);
+    torch::Tensor const& scores, int64_t n_group, int64_t topk_group,
+    int64_t topk, bool renormalize, double routed_scaling_factor,
+    torch::Tensor const& bias, int64_t scoring_func);
 #endif
 
 bool moe_permute_unpermute_supported();
diff --git a/csrc/moe/torch_bindings.cpp b/csrc/moe/torch_bindings.cpp
index ace72fad71e86..bd95ade40a083 100644
--- a/csrc/moe/torch_bindings.cpp
+++ b/csrc/moe/torch_bindings.cpp
@@ -107,9 +107,10 @@ TORCH_LIBRARY_EXPAND(TORCH_EXTENSION_NAME, m) {
 
   // Apply grouped topk routing to select experts.
   m.def(
-      "grouped_topk(Tensor scores, Tensor scores_with_bias, int n_group, int "
+      "grouped_topk(Tensor scores, int n_group, int "
       "topk_group, int topk, bool renormalize, float "
-      "routed_scaling_factor) -> (Tensor, Tensor)");
+      "routed_scaling_factor, Tensor bias, int scoring_func) -> (Tensor, "
+      "Tensor)");
   m.impl("grouped_topk", torch::kCUDA, &grouped_topk);
 #endif
 }
diff --git a/vllm/_custom_ops.py b/vllm/_custom_ops.py
index de68b34182441..36aab503dee70 100644
--- a/vllm/_custom_ops.py
+++ b/vllm/_custom_ops.py
@@ -1898,25 +1898,40 @@ def topk_softmax(
 
 def grouped_topk(
     scores: torch.Tensor,
-    scores_with_bias: torch.Tensor,
     num_expert_group: int,
     topk_group: int,
     topk: int,
     renormalize: bool,
     routed_scaling_factor: float,
+    bias: torch.Tensor,
+    scoring_func: int = 0,
 ):
+    """
+    Perform grouped top-k routing for mixture of experts.
+
+    Args:
+        scores: Raw inputs (logits if scoring_func=1, scores if scoring_func=0)
+        num_expert_group: Number of expert groups
+        topk_group: Number of groups to select
+        topk: Number of experts to select per token
+        renormalize: Whether to renormalize the output weights
+        routed_scaling_factor: Scaling factor for routing weights
+        bias: Bias tensor (e_score_correction_bias). Always fused in kernel.
+        scoring_func: 0=none (no activation), 1=sigmoid
+    """
     if not current_platform.is_cuda():
         raise NotImplementedError(
             "The fused grouped_topk kernel is only available on CUDA platforms"
         )
     return torch.ops._moe_C.grouped_topk(
         scores,
-        scores_with_bias,
         num_expert_group,
         topk_group,
         topk,
         renormalize,
         routed_scaling_factor,
+        bias,
+        scoring_func,
     )
 
 
diff --git a/vllm/model_executor/layers/fused_moe/fused_moe.py b/vllm/model_executor/layers/fused_moe/fused_moe.py
index d0f5eb498127b..b7415148d812b 100644
--- a/vllm/model_executor/layers/fused_moe/fused_moe.py
+++ b/vllm/model_executor/layers/fused_moe/fused_moe.py
@@ -1330,24 +1330,37 @@ def fused_grouped_topk(
 ) -> tuple[torch.Tensor, torch.Tensor]:
     assert hidden_states.size(0) == gating_output.size(0), "Number of tokens mismatch"
 
-    if scoring_func == "softmax":
+    if scoring_func == "sigmoid":
+        # Fully fused kernel path for sigmoid
+        topk_values, topk_indices = ops.grouped_topk(
+            gating_output,  # raw logits
+            num_expert_group,
+            topk_group,
+            topk,
+            renormalize,
+            routed_scaling_factor,
+            e_score_correction_bias.to(gating_output.dtype),
+            1,  # scoring_func=1 for sigmoid
+        )
+    elif scoring_func == "softmax":
+        # Apply softmax in Python, then use fused kernel
+        # TODO: Add support for softmax in kernel
         scores = torch.softmax(gating_output, dim=-1)
-    elif scoring_func == "sigmoid":
-        scores = gating_output.sigmoid()
+        topk_values, topk_indices = ops.grouped_topk(
+            scores,  # pre-computed scores
+            num_expert_group,
+            topk_group,
+            topk,
+            renormalize,
+            routed_scaling_factor,
+            e_score_correction_bias.to(gating_output.dtype),
+            0,  # scoring_func=0 (no activation, scores already computed)
+        )
     else:
         raise ValueError(f"Unsupported scoring function: {scoring_func}")
 
-    scores_with_bias = scores + e_score_correction_bias.unsqueeze(0)
-    topk_values, topk_indices = ops.grouped_topk(
-        scores,
-        scores_with_bias.to(scores.dtype),
-        num_expert_group,
-        topk_group,
-        topk,
-        renormalize,
-        routed_scaling_factor,
-    )
-    return topk_values.to(torch.float32), topk_indices.to(torch.int32)
+    # Fused kernel outputs float32 values and int32 indices directly
+    return topk_values, topk_indices
 
 
 def inplace_fused_experts(

From 781f5ebf524b36d64b732aec4e7d7df0c6be8c29 Mon Sep 17 00:00:00 2001
From: Aurick Qiao <aurickq@users.noreply.github.com>
Date: Fri, 7 Nov 2025 18:31:18 -0800
Subject: [PATCH 239/976] Bump arctic-inference requirement (#28174)

Co-authored-by: Aurick Qiao <aurick.qiao@snowflake.com>
Co-authored-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com>
---
 requirements/test.in       | 2 +-
 requirements/test.txt      | 2 +-
 vllm/config/speculative.py | 2 +-
 3 files changed, 3 insertions(+), 3 deletions(-)

diff --git a/requirements/test.in b/requirements/test.in
index ce209fd276628..30d97e9b9c7d0 100644
--- a/requirements/test.in
+++ b/requirements/test.in
@@ -48,7 +48,7 @@ buildkite-test-collector==0.1.9
 genai_perf==0.0.8
 tritonclient==2.51.0
 
-arctic-inference == 0.1.0 # Required for suffix decoding test
+arctic-inference == 0.1.1 # Required for suffix decoding test
 numba == 0.61.2 # Required for N-gram speculative decoding
 numpy
 runai-model-streamer[s3,gcs]==0.15.0
diff --git a/requirements/test.txt b/requirements/test.txt
index 9d13fa4241152..07fa3f7877100 100644
--- a/requirements/test.txt
+++ b/requirements/test.txt
@@ -40,7 +40,7 @@ anyio==4.6.2.post1
     # via
     #   httpx
     #   starlette
-arctic-inference==0.1.0
+arctic-inference==0.1.1
     # via -r requirements/test.in
 argcomplete==3.5.1
     # via datamodel-code-generator
diff --git a/vllm/config/speculative.py b/vllm/config/speculative.py
index 873dfd0170694..31cdeabe501d2 100644
--- a/vllm/config/speculative.py
+++ b/vllm/config/speculative.py
@@ -469,7 +469,7 @@ class SpeculativeConfig:
         if not has_arctic_inference():
             raise ImportError(
                 "Arctic Inference is required for suffix decoding. "
-                "Install via `pip install arctic-inference==0.1.0`."
+                "Install via `pip install arctic-inference==0.1.1`."
             )
         if self.num_speculative_tokens is None:
             # Suffix decoding decides the actual number of speculative tokens

From 70af44fd1051b629ff22d98ebbba723e47221886 Mon Sep 17 00:00:00 2001
From: gnovack <gnovack@amazon.com>
Date: Fri, 7 Nov 2025 19:25:45 -0800
Subject: [PATCH 240/976] [bugfix] support eagle with lora cudagraph
 specialization (#28318)

Signed-off-by: gnovack <gnovack@amazon.com>
---
 vllm/v1/worker/gpu_model_runner.py | 13 ++++++++++++-
 1 file changed, 12 insertions(+), 1 deletion(-)

diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index 8a03b23facc39..2db4235c89ded 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -3602,7 +3602,18 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
                     cudagraph_runtime_mode == CUDAGraphMode.PIECEWISE
                     and not self.speculative_config.enforce_eager
                 )
-                self.drafter.dummy_run(num_tokens, use_cudagraphs=use_cudagraphs)
+
+                # Note(gnovack) - We need to disable cudagraphs for one of the two
+                # lora cases when cudagraph_specialize_lora is enabled. This is a
+                # short term mitigation for issue mentioned in
+                # https://github.com/vllm-project/vllm/issues/28334
+                if self.compilation_config.cudagraph_specialize_lora and activate_lora:
+                    use_cudagraphs = False
+
+                self.drafter.dummy_run(
+                    num_tokens,
+                    use_cudagraphs=use_cudagraphs,
+                )
 
         # This is necessary to avoid blocking DP.
         # For dummy runs, we typically skip EPLB since we don't have any real

From 934a9c3b79e6cb860a8d23b7f317a5f63adf0fae Mon Sep 17 00:00:00 2001
From: Isotr0py <mozf@mail2.sysu.edu.cn>
Date: Sat, 8 Nov 2025 13:01:27 +0800
Subject: [PATCH 241/976] [Model] Consolidate Deepseek-MoE implementation with
 DeepSeek-v2 (#28101)

Signed-off-by: Kunshang Ji <kunshang.ji@intel.com>
Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>
Co-authored-by: Kunshang Ji <kunshang.ji@intel.com>
---
 tests/models/registry.py                   |   5 +-
 vllm/model_executor/models/deepseek.py     | 517 ---------------------
 vllm/model_executor/models/deepseek_ocr.py |   8 -
 vllm/model_executor/models/deepseek_v2.py  | 152 +++++-
 vllm/model_executor/models/deepseek_vl2.py |   8 -
 vllm/model_executor/models/registry.py     |   2 +-
 6 files changed, 144 insertions(+), 548 deletions(-)
 delete mode 100644 vllm/model_executor/models/deepseek.py

diff --git a/tests/models/registry.py b/tests/models/registry.py
index b52f241719e85..7b865c578dd43 100644
--- a/tests/models/registry.py
+++ b/tests/models/registry.py
@@ -219,7 +219,10 @@ _TEXT_GENERATION_EXAMPLE_MODELS = {
         "nvidia/Llama-3_3-Nemotron-Super-49B-v1",
         trust_remote_code=True,
     ),
-    "DeepseekForCausalLM": _HfExamplesInfo("deepseek-ai/deepseek-llm-7b-chat"),
+    "DeepseekForCausalLM": _HfExamplesInfo(
+        "deepseek-ai/deepseek-moe-16b-base",
+        trust_remote_code=True,
+    ),
     "DeepseekV2ForCausalLM": _HfExamplesInfo(
         "deepseek-ai/DeepSeek-V2-Lite-Chat",
         trust_remote_code=True,
diff --git a/vllm/model_executor/models/deepseek.py b/vllm/model_executor/models/deepseek.py
deleted file mode 100644
index 36cc12b51f13f..0000000000000
--- a/vllm/model_executor/models/deepseek.py
+++ /dev/null
@@ -1,517 +0,0 @@
-# SPDX-License-Identifier: Apache-2.0
-# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
-
-# Adapted from
-# https://github.com/huggingface/transformers/blob/v4.28.0/src/transformers/models/llama/modeling_llama.py
-# Copyright 2023 The vLLM team.
-# Copyright 2023 DeepSeek-AI and the HuggingFace Inc. team. All rights reserved.
-#
-# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
-# and OPT implementations in this library. It has been modified from its
-# original forms to accommodate minor architectural differences compared
-# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-#     http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-"""Inference-only Deepseek model."""
-
-from collections.abc import Iterable
-from itertools import islice
-from typing import Any
-
-import torch
-from torch import nn
-from transformers import PretrainedConfig
-
-from vllm.attention import Attention
-from vllm.config import CacheConfig, VllmConfig
-from vllm.distributed import (
-    get_pp_group,
-    get_tensor_model_parallel_rank,
-    get_tensor_model_parallel_world_size,
-    tensor_model_parallel_all_reduce,
-)
-from vllm.model_executor.layers.activation import SiluAndMul
-from vllm.model_executor.layers.fused_moe import fused_experts, fused_topk
-from vllm.model_executor.layers.layernorm import RMSNorm
-from vllm.model_executor.layers.linear import (
-    MergedColumnParallelLinear,
-    QKVParallelLinear,
-    ReplicatedLinear,
-    RowParallelLinear,
-)
-from vllm.model_executor.layers.logits_processor import LogitsProcessor
-from vllm.model_executor.layers.quantization import QuantizationConfig
-from vllm.model_executor.layers.rotary_embedding import get_rope
-from vllm.model_executor.layers.vocab_parallel_embedding import (
-    ParallelLMHead,
-    VocabParallelEmbedding,
-)
-from vllm.model_executor.model_loader.weight_utils import default_weight_loader
-from vllm.sequence import IntermediateTensors
-
-from .interfaces import SupportsLoRA, SupportsPP
-from .utils import (
-    AutoWeightsLoader,
-    extract_layer_index,
-    is_pp_missing_parameter,
-    make_empty_intermediate_tensors_factory,
-    make_layers,
-    maybe_prefix,
-)
-
-
-class DeepseekMLP(nn.Module):
-    def __init__(
-        self,
-        hidden_size: int,
-        intermediate_size: int,
-        hidden_act: str,
-        quant_config: QuantizationConfig | None = None,
-        reduce_results: bool = True,
-        prefix: str = "",
-    ) -> None:
-        super().__init__()
-        self.gate_up_proj = MergedColumnParallelLinear(
-            hidden_size,
-            [intermediate_size] * 2,
-            bias=False,
-            quant_config=quant_config,
-            prefix=f"{prefix}.gate_up_proj",
-        )
-        self.down_proj = RowParallelLinear(
-            intermediate_size,
-            hidden_size,
-            bias=False,
-            quant_config=quant_config,
-            reduce_results=reduce_results,
-            prefix=f"{prefix}.down_proj",
-        )
-        if hidden_act != "silu":
-            raise ValueError(
-                f"Unsupported activation: {hidden_act}. Only silu is supported for now."
-            )
-        self.act_fn = SiluAndMul()
-
-    def forward(self, x):
-        gate_up, _ = self.gate_up_proj(x)
-        x = self.act_fn(gate_up)
-        x, _ = self.down_proj(x)
-        return x
-
-
-class DeepseekMoE(nn.Module):
-    def __init__(
-        self,
-        config: PretrainedConfig,
-        quant_config: QuantizationConfig | None = None,
-        prefix: str = "",
-    ):
-        super().__init__()
-        self.config = config
-        self.rank = get_tensor_model_parallel_rank()
-        self.tp_size = get_tensor_model_parallel_world_size()
-        self.n_routed_experts = config.n_routed_experts
-        self.top_k = config.num_experts_per_tok
-        if self.tp_size > self.n_routed_experts:
-            raise ValueError(
-                f"Tensor parallel size {self.tp_size} is greater than "
-                f"the number of experts {self.n_routed_experts}."
-            )
-
-        self.experts = nn.ModuleList(
-            [
-                DeepseekMLP(
-                    hidden_size=config.hidden_size,
-                    intermediate_size=config.moe_intermediate_size,
-                    hidden_act=config.hidden_act,
-                    quant_config=quant_config,
-                    reduce_results=False,
-                )
-                for idx in range(self.n_routed_experts)
-            ]
-        )
-        self.pack_params()
-
-        self.gate = ReplicatedLinear(
-            config.hidden_size, self.n_routed_experts, bias=False, quant_config=None
-        )
-
-        if config.n_shared_experts is not None:
-            intermediate_size = config.moe_intermediate_size * config.n_shared_experts
-            self.shared_experts = DeepseekMLP(
-                hidden_size=config.hidden_size,
-                intermediate_size=intermediate_size,
-                hidden_act=config.hidden_act,
-                quant_config=quant_config,
-                reduce_results=False,
-            )
-
-    def pack_params(self):
-        w1 = []
-        w2 = []
-        for expert in self.experts:
-            w1.append(expert.gate_up_proj.weight)
-            w2.append(expert.down_proj.weight)
-        self.w1 = torch._utils._flatten_dense_tensors(w1)
-        w1s = torch._utils._unflatten_dense_tensors(self.w1, w1)
-        for data, param in zip(w1s, w1):
-            param.data = data
-        self.w1 = self.w1.view(len(w1), *w1s[0].shape)
-
-        self.w2 = torch._utils._flatten_dense_tensors(w2)
-        w2s = torch._utils._unflatten_dense_tensors(self.w2, w2)
-        for data, param in zip(w2s, w2):
-            param.data = data
-
-        self.w2 = self.w2.view(len(w2), *w2s[0].shape)
-
-    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
-        num_tokens, hidden_dim = hidden_states.shape
-        hidden_states = hidden_states.view(-1, hidden_dim)
-        if self.config.n_shared_experts is not None:
-            shared_output = self.shared_experts(hidden_states)
-        # router_logits: (num_tokens, n_experts)
-        router_logits, _ = self.gate(hidden_states)
-
-        topk_weights, topk_ids, _ = fused_topk(
-            hidden_states,
-            router_logits,
-            self.top_k,
-            renormalize=self.config.norm_topk_prob,
-        )
-
-        final_hidden_states = fused_experts(
-            hidden_states, self.w1, self.w2, topk_weights, topk_ids, inplace=True
-        )
-
-        if self.config.n_shared_experts is not None:
-            final_hidden_states = final_hidden_states + shared_output
-        final_hidden_states = tensor_model_parallel_all_reduce(final_hidden_states)
-
-        return final_hidden_states.view(num_tokens, hidden_dim)
-
-
-class DeepseekAttention(nn.Module):
-    def __init__(
-        self,
-        hidden_size: int,
-        num_heads: int,
-        num_kv_heads: int,
-        rope_theta: float = 10000,
-        rope_scaling: dict[str, Any] | None = None,
-        max_position_embeddings: int = 8192,
-        cache_config: CacheConfig | None = None,
-        quant_config: QuantizationConfig | None = None,
-        prefix: str = "",
-    ) -> None:
-        super().__init__()
-        self.hidden_size = hidden_size
-        tp_size = get_tensor_model_parallel_world_size()
-        self.total_num_heads = num_heads
-        assert self.total_num_heads % tp_size == 0
-        self.num_heads = self.total_num_heads // tp_size
-        self.total_num_kv_heads = num_kv_heads
-        if self.total_num_kv_heads >= tp_size:
-            # Number of KV heads is greater than TP size, so we partition
-            # the KV heads across multiple tensor parallel GPUs.
-            assert self.total_num_kv_heads % tp_size == 0
-        else:
-            # Number of KV heads is less than TP size, so we replicate
-            # the KV heads across multiple tensor parallel GPUs.
-            assert tp_size % self.total_num_kv_heads == 0
-        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
-        self.head_dim = hidden_size // self.total_num_heads
-        self.q_size = self.num_heads * self.head_dim
-        self.kv_size = self.num_kv_heads * self.head_dim
-        self.scaling = self.head_dim**-0.5
-        self.rope_theta = rope_theta
-        self.max_position_embeddings = max_position_embeddings
-
-        self.qkv_proj = QKVParallelLinear(
-            hidden_size,
-            self.head_dim,
-            self.total_num_heads,
-            self.total_num_kv_heads,
-            bias=False,
-            quant_config=quant_config,
-            prefix=f"{prefix}.qkv_proj",
-        )
-
-        self.o_proj = RowParallelLinear(
-            self.total_num_heads * self.head_dim,
-            hidden_size,
-            bias=False,
-            quant_config=quant_config,
-            prefix=f"{prefix}.o_proj",
-        )
-
-        self.rotary_emb = get_rope(
-            self.head_dim,
-            rotary_dim=self.head_dim,
-            max_position=max_position_embeddings,
-            base=rope_theta,
-            rope_scaling=rope_scaling,
-        )
-        self.attn = Attention(
-            self.num_heads,
-            self.head_dim,
-            self.scaling,
-            num_kv_heads=self.num_kv_heads,
-            cache_config=cache_config,
-            quant_config=quant_config,
-            prefix=f"{prefix}.attn",
-        )
-
-    def forward(
-        self,
-        positions: torch.Tensor,
-        hidden_states: torch.Tensor,
-    ) -> torch.Tensor:
-        qkv, _ = self.qkv_proj(hidden_states)
-        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
-        q, k = self.rotary_emb(positions, q, k)
-        attn_output = self.attn(q, k, v)
-        output, _ = self.o_proj(attn_output)
-        return output
-
-
-class DeepseekDecoderLayer(nn.Module):
-    def __init__(
-        self,
-        config: PretrainedConfig,
-        cache_config: CacheConfig | None = None,
-        quant_config: QuantizationConfig | None = None,
-        prefix: str = "",
-    ) -> None:
-        super().__init__()
-        layer_idx = extract_layer_index(prefix)
-        self.hidden_size = config.hidden_size
-        rope_theta = getattr(config, "rope_theta", 10000)
-        rope_scaling = getattr(config, "rope_scaling", None)
-        max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
-        moe_layer_freq = getattr(config, "moe_layer_freq", 1)
-        self.self_attn = DeepseekAttention(
-            hidden_size=self.hidden_size,
-            num_heads=config.num_attention_heads,
-            num_kv_heads=config.num_key_value_heads,
-            rope_theta=rope_theta,
-            rope_scaling=rope_scaling,
-            max_position_embeddings=max_position_embeddings,
-            cache_config=cache_config,
-            quant_config=quant_config,
-            prefix=f"{prefix}.self_attn",
-        )
-        if (
-            config.n_routed_experts is not None
-            and layer_idx >= config.first_k_dense_replace
-            and layer_idx % moe_layer_freq == 0
-        ):
-            self.mlp = DeepseekMoE(
-                config=config, quant_config=quant_config, prefix=f"{prefix}.mlp"
-            )
-        else:
-            self.mlp = DeepseekMLP(
-                hidden_size=config.hidden_size,
-                intermediate_size=config.intermediate_size,
-                hidden_act=config.hidden_act,
-                quant_config=quant_config,
-                prefix=f"{prefix}.mlp",
-            )
-        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
-        self.post_attention_layernorm = RMSNorm(
-            config.hidden_size, eps=config.rms_norm_eps
-        )
-
-    def forward(
-        self,
-        positions: torch.Tensor,
-        hidden_states: torch.Tensor,
-        residual: torch.Tensor | None,
-    ) -> torch.Tensor:
-        # Self Attention
-        if residual is None:
-            residual = hidden_states
-            hidden_states = self.input_layernorm(hidden_states)
-        else:
-            hidden_states, residual = self.input_layernorm(hidden_states, residual)
-        hidden_states = self.self_attn(
-            positions=positions,
-            hidden_states=hidden_states,
-        )
-
-        # Fully Connected
-        hidden_states, residual = self.post_attention_layernorm(hidden_states, residual)
-        hidden_states = self.mlp(hidden_states)
-        return hidden_states, residual
-
-
-class DeepseekModel(nn.Module):
-    fall_back_to_pt_during_load = False
-
-    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
-        super().__init__()
-
-        config = vllm_config.model_config.hf_config
-        cache_config = vllm_config.cache_config
-        quant_config = vllm_config.quant_config
-
-        self.vocab_size = config.vocab_size
-
-        self.embed_tokens = VocabParallelEmbedding(
-            config.vocab_size,
-            config.hidden_size,
-        )
-        self.start_layer, self.end_layer, self.layers = make_layers(
-            config.num_hidden_layers,
-            lambda prefix: DeepseekDecoderLayer(
-                config, cache_config, quant_config=quant_config, prefix=prefix
-            ),
-            prefix=f"{prefix}.layers",
-        )
-        self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
-        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
-            ["hidden_states", "residual"], config.hidden_size
-        )
-
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.embed_tokens(input_ids)
-
-    def forward(
-        self,
-        input_ids: torch.Tensor,
-        positions: torch.Tensor,
-        intermediate_tensors: IntermediateTensors | None,
-        inputs_embeds: torch.Tensor | None = None,
-    ) -> torch.Tensor | IntermediateTensors:
-        if get_pp_group().is_first_rank:
-            if inputs_embeds is not None:
-                hidden_states = inputs_embeds
-            else:
-                hidden_states = self.get_input_embeddings(input_ids)
-            residual = None
-        else:
-            hidden_states = intermediate_tensors["hidden_states"]
-            residual = intermediate_tensors["residual"]
-        for layer in islice(self.layers, self.start_layer, self.end_layer):
-            hidden_states, residual = layer(positions, hidden_states, residual)
-        if not get_pp_group().is_last_rank:
-            return IntermediateTensors(
-                {"hidden_states": hidden_states, "residual": residual}
-            )
-        hidden_states, _ = self.norm(hidden_states, residual)
-        return hidden_states
-
-    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
-        stacked_params_mapping = [
-            # (param_name, shard_name, shard_id)
-            ("qkv_proj", "q_proj", "q"),
-            ("qkv_proj", "k_proj", "k"),
-            ("qkv_proj", "v_proj", "v"),
-            ("gate_up_proj", "gate_proj", 0),
-            ("gate_up_proj", "up_proj", 1),
-        ]
-
-        params_dict = dict(self.named_parameters())
-        loaded_params: set[str] = set()
-        for name, loaded_weight in weights:
-            if "rotary_emb.inv_freq" in name:
-                continue
-            for param_name, weight_name, shard_id in stacked_params_mapping:
-                if weight_name not in name:
-                    continue
-                name = name.replace(weight_name, param_name)
-                # Skip loading extra bias for GPTQ models.
-                if name.endswith(".bias") and name not in params_dict:
-                    continue
-                # Skip experts that are not assigned to this worker.
-                if (
-                    "mlp.experts." in name or "mlp.shared_experts." in name
-                ) and name not in params_dict:
-                    continue
-                if is_pp_missing_parameter(name, self):
-                    continue
-                param = params_dict[name]
-                weight_loader = param.weight_loader
-                weight_loader(param, loaded_weight, shard_id)
-                break
-            else:
-                # Skip loading extra bias for GPTQ models.
-                if name.endswith(".bias") and name not in params_dict:
-                    continue
-                # Skip experts that are not assigned to this worker.
-                if (
-                    "mlp.experts." in name or "mlp.shared_experts." in name
-                ) and name not in params_dict:
-                    continue
-                if is_pp_missing_parameter(name, self):
-                    continue
-                param = params_dict[name]
-                weight_loader = getattr(param, "weight_loader", default_weight_loader)
-                weight_loader(param, loaded_weight)
-            loaded_params.add(name)
-        return loaded_params
-
-
-class DeepseekForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
-    packed_modules_mapping = {
-        "qkv_proj": ["q_proj", "k_proj", "v_proj"],
-        "gate_up_proj": ["gate_proj", "up_proj"],
-    }
-
-    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
-        super().__init__()
-        config = vllm_config.model_config.hf_config
-        quant_config = vllm_config.quant_config
-        self.config = config
-        self.quant_config = quant_config
-        self.model = DeepseekModel(
-            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
-        )
-        self.lm_head = ParallelLMHead(
-            config.vocab_size,
-            config.hidden_size,
-            quant_config=quant_config,
-            prefix=maybe_prefix(prefix, "lm_head"),
-        )
-        if self.config.tie_word_embeddings:
-            self.lm_head.weight = self.model.embed_tokens.weight
-        self.logits_processor = LogitsProcessor(config.vocab_size)
-        self.make_empty_intermediate_tensors = (
-            self.model.make_empty_intermediate_tensors
-        )
-
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
-
-    def forward(
-        self,
-        input_ids: torch.Tensor,
-        positions: torch.Tensor,
-        intermediate_tensors: IntermediateTensors | None = None,
-        inputs_embeds: torch.Tensor | None = None,
-    ) -> torch.Tensor | IntermediateTensors:
-        hidden_states = self.model(
-            input_ids, positions, intermediate_tensors, inputs_embeds
-        )
-        return hidden_states
-
-    def compute_logits(
-        self,
-        hidden_states: torch.Tensor,
-    ) -> torch.Tensor | None:
-        logits = self.logits_processor(self.lm_head, hidden_states)
-        return logits
-
-    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
-        loader = AutoWeightsLoader(self)
-        return loader.load_weights(weights)
diff --git a/vllm/model_executor/models/deepseek_ocr.py b/vllm/model_executor/models/deepseek_ocr.py
index bfde8328da6e1..0432567521843 100644
--- a/vllm/model_executor/models/deepseek_ocr.py
+++ b/vllm/model_executor/models/deepseek_ocr.py
@@ -417,18 +417,10 @@ class DeepseekOCRForCausalLM(nn.Module, SupportsMultiModal, SupportsPP):
                 f"Only 2D tile_tag is supported currently, got: {self.tile_tag}"
             )
 
-        if self.text_config.topk_method == "noaux_tc":
-            architectures = ["DeepseekV3ForCausalLM"]
-        elif not self.text_config.use_mla:
-            architectures = ["DeepseekForCausalLM"]
-        else:
-            architectures = ["DeepseekV2ForCausalLM"]
-
         self.language_model = init_vllm_registered_model(
             vllm_config=vllm_config,
             hf_config=self.text_config,
             prefix=maybe_prefix(prefix, "language_model"),
-            architectures=architectures,
         )
 
         self.make_empty_intermediate_tensors = (
diff --git a/vllm/model_executor/models/deepseek_v2.py b/vllm/model_executor/models/deepseek_v2.py
index 4858c30baab84..63eaf63cc3c48 100644
--- a/vllm/model_executor/models/deepseek_v2.py
+++ b/vllm/model_executor/models/deepseek_v2.py
@@ -58,6 +58,7 @@ from vllm.model_executor.layers.layernorm import LayerNorm, RMSNorm
 from vllm.model_executor.layers.linear import (
     ColumnParallelLinear,
     MergedColumnParallelLinear,
+    QKVParallelLinear,
     ReplicatedLinear,
     RowParallelLinear,
 )
@@ -104,6 +105,92 @@ elif current_platform.is_xpu():
 logger = init_logger(__name__)
 
 
+class DeepseekAttention(nn.Module):
+    """Normal MHA implementation used by Deepseek v1."""
+
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        config: DeepseekV2Config | DeepseekV3Config,
+        hidden_size: int,
+        num_heads: int,
+        rope_theta: float = 10000,
+        rope_scaling: dict[str, Any] | None = None,
+        max_position_embeddings: int = 8192,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        **kwargs,
+    ) -> None:
+        super().__init__()
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = config.num_key_value_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = hidden_size // self.total_num_heads
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.max_position_embeddings = max_position_embeddings
+
+        self.qkv_proj = QKVParallelLinear(
+            hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=False,
+            quant_config=quant_config,
+        )
+
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            hidden_size,
+            bias=False,
+            quant_config=quant_config,
+        )
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            rotary_dim=self.head_dim,
+            max_position=max_position_embeddings,
+            base=rope_theta,
+            rope_scaling=rope_scaling,
+        )
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.attn",
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q, k = self.rotary_emb(positions, q, k)
+        attn_output = self.attn(q, k, v)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
 class DeepseekV2MLP(nn.Module):
     def __init__(
         self,
@@ -163,7 +250,7 @@ class DeepseekV2MoE(nn.Module):
         self.tp_size = get_tensor_model_parallel_world_size()
         self.tp_rank = get_tensor_model_parallel_rank()
 
-        self.routed_scaling_factor = config.routed_scaling_factor
+        self.routed_scaling_factor = getattr(config, "routed_scaling_factor", 1.0)
 
         self.ep_group = get_ep_group().device_group
         self.ep_rank = get_ep_group().rank_in_group
@@ -186,7 +273,7 @@ class DeepseekV2MoE(nn.Module):
             quant_config=None,
             prefix=f"{prefix}.gate",
         )
-        if config.topk_method == "noaux_tc":
+        if getattr(config, "topk_method", None) == "noaux_tc":
             self.gate.e_score_correction_bias = nn.Parameter(
                 torch.empty(config.n_routed_experts, dtype=torch.float32)
             )
@@ -236,10 +323,10 @@ class DeepseekV2MoE(nn.Module):
             renormalize=config.norm_topk_prob,
             quant_config=quant_config,
             use_grouped_topk=True,
-            num_expert_group=config.n_group,
-            topk_group=config.topk_group,
+            num_expert_group=getattr(config, "n_group", 1),
+            topk_group=getattr(config, "topk_group", 1),
             prefix=f"{prefix}.experts",
-            scoring_func=config.scoring_func,
+            scoring_func=getattr(config, "scoring_func", "softmax"),
             # we do scaling outside, set factor to 1.0 to avoid double mul
             # aiter applies routed_scaling_factor internally
             routed_scaling_factor=1.0
@@ -999,7 +1086,19 @@ class DeepseekV2DecoderLayer(nn.Module):
         # with the layer's index.
         layer_idx = int(prefix.split(sep=".")[-1])
         self.layer_idx = layer_idx
-        if model_config.use_mla:
+
+        # verify MLA attention specific fields
+        qk_nope_head_dim = getattr(config, "qk_nope_head_dim", 0)
+        qk_rope_head_dim = getattr(config, "qk_rope_head_dim", 0)
+        v_head_dim = getattr(config, "v_head_dim", 0)
+        kv_lora_rank = getattr(config, "kv_lora_rank", 0)
+        use_mha = config.model_type == "deepseek" or all(
+            dim == 0 for dim in (qk_nope_head_dim, qk_rope_head_dim)
+        )
+
+        if use_mha:
+            attn_cls = DeepseekAttention
+        elif model_config.use_mla:
             attn_cls = DeepseekV2MLAAttention
         else:
             attn_cls = DeepseekV2Attention
@@ -1008,11 +1107,11 @@ class DeepseekV2DecoderLayer(nn.Module):
             config=config,
             hidden_size=self.hidden_size,
             num_heads=config.num_attention_heads,
-            qk_nope_head_dim=config.qk_nope_head_dim,
-            qk_rope_head_dim=config.qk_rope_head_dim,
-            v_head_dim=config.v_head_dim,
+            qk_nope_head_dim=qk_nope_head_dim,
+            qk_rope_head_dim=qk_rope_head_dim,
+            v_head_dim=v_head_dim,
             q_lora_rank=config.q_lora_rank if hasattr(config, "q_lora_rank") else None,
-            kv_lora_rank=config.kv_lora_rank,
+            kv_lora_rank=kv_lora_rank,
             rope_theta=rope_theta,
             rope_scaling=rope_scaling,
             max_position_embeddings=max_position_embeddings,
@@ -1045,7 +1144,7 @@ class DeepseekV2DecoderLayer(nn.Module):
         self.post_attention_layernorm = RMSNorm(
             config.hidden_size, eps=config.rms_norm_eps
         )
-        self.routed_scaling_factor = config.routed_scaling_factor
+        self.routed_scaling_factor = getattr(config, "routed_scaling_factor", 1.0)
 
     def forward(
         self,
@@ -1064,7 +1163,10 @@ class DeepseekV2DecoderLayer(nn.Module):
             hidden_states=hidden_states,
         )
 
-        if hidden_states.dtype == torch.float16:
+        if (
+            not isinstance(self.self_attn, DeepseekAttention)
+            and hidden_states.dtype == torch.float16
+        ):
             # Fix FP16 overflow
             # We scale both hidden_states and residual before
             # rmsnorm, and rmsnorm result would not affect by scale.
@@ -1227,6 +1329,15 @@ class DeepseekV2ForCausalLM(
         self.config = config
         self.quant_config = quant_config
 
+        qk_nope_head_dim = getattr(config, "qk_nope_head_dim", 0)
+        qk_rope_head_dim = getattr(config, "qk_rope_head_dim", 0)
+        self.use_mha = config.model_type == "deepseek" or all(
+            dim == 0 for dim in (qk_nope_head_dim, qk_rope_head_dim)
+        )
+
+        if self.use_mha:
+            self.packed_modules_mapping["qkv_proj"] = ["q_proj", "k_proj", "v_proj"]
+
         # `packed_modules_mapping` needs to be modified before
         # initializing DeepseekV2Model, as it is passed inplace to
         # quantization config init and may be used to select the
@@ -1265,7 +1376,7 @@ class DeepseekV2ForCausalLM(
     def set_moe_parameters(self):
         self.expert_weights = []
 
-        self.num_expert_groups = self.config.n_group
+        self.num_expert_groups = getattr(self.config, "n_group", 1)
 
         self.moe_layers = []
         self.moe_mlp_layers = []
@@ -1321,9 +1432,20 @@ class DeepseekV2ForCausalLM(
             # (param_name, shard_name, shard_id)
             ("gate_up_proj", "gate_proj", 0),
             ("gate_up_proj", "up_proj", 1),
+        ]
+        mla_params_mapping = [
             ("fused_qkv_a_proj", "q_a_proj", 0),
             ("fused_qkv_a_proj", "kv_a_proj_with_mqa", 1),
         ]
+        mha_params_mapping = [
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+        ]
+        if self.use_mha:
+            stacked_params_mapping.extend(mha_params_mapping)
+        else:
+            stacked_params_mapping.extend(mla_params_mapping)
 
         # Params for weights, fp8 weight scales, fp8 activation scales
         # (param_name, weight_name, expert_id, shard_id)
@@ -1506,6 +1628,10 @@ class DeepseekV2ForCausalLM(
         return loaded_params
 
 
+class DeepseekForCausalLM(DeepseekV2ForCausalLM):
+    pass
+
+
 class DeepseekV3ForCausalLM(DeepseekV2ForCausalLM):
     pass
 
diff --git a/vllm/model_executor/models/deepseek_vl2.py b/vllm/model_executor/models/deepseek_vl2.py
index ea10245a84ee1..306eef3dca990 100644
--- a/vllm/model_executor/models/deepseek_vl2.py
+++ b/vllm/model_executor/models/deepseek_vl2.py
@@ -403,18 +403,10 @@ class DeepseekVLV2ForCausalLM(nn.Module, SupportsMultiModal, SupportsPP):
                 f"Only 2D tile_tag is supported currently, got: {self.tile_tag}"
             )
 
-        if self.text_config.topk_method == "noaux_tc":
-            architectures = ["DeepseekV3ForCausalLM"]
-        elif not self.text_config.use_mla:
-            architectures = ["DeepseekForCausalLM"]
-        else:
-            architectures = ["DeepseekV2ForCausalLM"]
-
         self.language_model = init_vllm_registered_model(
             vllm_config=vllm_config,
             hf_config=self.text_config,
             prefix=maybe_prefix(prefix, "language"),
-            architectures=architectures,
         )
 
         self.make_empty_intermediate_tensors = (
diff --git a/vllm/model_executor/models/registry.py b/vllm/model_executor/models/registry.py
index dddbc88069ef1..4af8fa01f562b 100644
--- a/vllm/model_executor/models/registry.py
+++ b/vllm/model_executor/models/registry.py
@@ -76,7 +76,7 @@ _TEXT_GENERATION_MODELS = {
     "CwmForCausalLM": ("llama", "LlamaForCausalLM"),
     "DbrxForCausalLM": ("dbrx", "DbrxForCausalLM"),
     "DeciLMForCausalLM": ("nemotron_nas", "DeciLMForCausalLM"),
-    "DeepseekForCausalLM": ("deepseek", "DeepseekForCausalLM"),
+    "DeepseekForCausalLM": ("deepseek_v2", "DeepseekForCausalLM"),
     "DeepseekV2ForCausalLM": ("deepseek_v2", "DeepseekV2ForCausalLM"),
     "DeepseekV3ForCausalLM": ("deepseek_v2", "DeepseekV3ForCausalLM"),
     "DeepseekV32ForCausalLM": ("deepseek_v2", "DeepseekV3ForCausalLM"),

From d15afc1fd05b696f3f5b7ab2961a87e844703c99 Mon Sep 17 00:00:00 2001
From: Abolfazl Shahbazi <12436063+ashahba@users.noreply.github.com>
Date: Fri, 7 Nov 2025 22:17:35 -0800
Subject: [PATCH 242/976] Refactor CPU/GPU extension targets for CMake build
 (#28026)

Signed-off-by: Abolfazl Shahbazi <12436063+ashahba@users.noreply.github.com>
---
 CMakeLists.txt                         |  8 +--
 cmake/cpu_extension.cmake              |  4 +-
 cmake/external_projects/flashmla.cmake |  4 +-
 cmake/utils.cmake                      | 71 ++++++++++++--------------
 4 files changed, 42 insertions(+), 45 deletions(-)

diff --git a/CMakeLists.txt b/CMakeLists.txt
index 7cb94f919f123..0e9fa63b178ea 100644
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -241,7 +241,7 @@ if(VLLM_GPU_LANG STREQUAL "CUDA")
   message(STATUS "Enabling cumem allocator extension.")
   # link against cuda driver library
   list(APPEND CUMEM_LIBS CUDA::cuda_driver)
-  define_gpu_extension_target(
+  define_extension_target(
     cumem_allocator
     DESTINATION vllm
     LANGUAGE CXX
@@ -858,7 +858,7 @@ if (VLLM_GPU_LANG STREQUAL "HIP")
 endif()
 
 message(STATUS "Enabling C extension.")
-define_gpu_extension_target(
+define_extension_target(
   _C
   DESTINATION vllm
   LANGUAGE ${VLLM_GPU_LANG}
@@ -973,7 +973,7 @@ if(VLLM_GPU_LANG STREQUAL "CUDA")
 endif()
 
 message(STATUS "Enabling moe extension.")
-define_gpu_extension_target(
+define_extension_target(
   _moe_C
   DESTINATION vllm
   LANGUAGE ${VLLM_GPU_LANG}
@@ -994,7 +994,7 @@ if(VLLM_GPU_LANG STREQUAL "HIP")
     "csrc/rocm/skinny_gemms.cu"
     "csrc/rocm/attention.cu")
 
-  define_gpu_extension_target(
+  define_extension_target(
     _rocm_C
     DESTINATION vllm
     LANGUAGE ${VLLM_GPU_LANG}
diff --git a/cmake/cpu_extension.cmake b/cmake/cpu_extension.cmake
index 192d349b30099..dbda19fbcbf20 100644
--- a/cmake/cpu_extension.cmake
+++ b/cmake/cpu_extension.cmake
@@ -343,7 +343,7 @@ message(STATUS "CPU extension source files: ${VLLM_EXT_SRC}")
 # Define extension targets
 #
 
-define_gpu_extension_target(
+define_extension_target(
     _C
     DESTINATION vllm
     LANGUAGE CXX
@@ -354,4 +354,4 @@ define_gpu_extension_target(
     WITH_SOABI
 )
 
-message(STATUS "Enabling C extension.")
\ No newline at end of file
+message(STATUS "Enabling C extension.")
diff --git a/cmake/external_projects/flashmla.cmake b/cmake/external_projects/flashmla.cmake
index f661084ec48ae..2cf3c1a755d3c 100644
--- a/cmake/external_projects/flashmla.cmake
+++ b/cmake/external_projects/flashmla.cmake
@@ -92,7 +92,7 @@ if(FLASH_MLA_ARCHS)
         SRCS "${FlashMLA_Extension_SOURCES}"
         CUDA_ARCHS "${FLASH_MLA_ARCHS}")
 
-    define_gpu_extension_target(
+    define_extension_target(
         _flashmla_C
         DESTINATION vllm
         LANGUAGE ${VLLM_GPU_LANG}
@@ -109,7 +109,7 @@ if(FLASH_MLA_ARCHS)
         $<$<COMPILE_LANGUAGE:CUDA>:-UPy_LIMITED_API>
         $<$<COMPILE_LANGUAGE:CXX>:-UPy_LIMITED_API>)
 
-    define_gpu_extension_target(
+    define_extension_target(
         _flashmla_extension_C
         DESTINATION vllm
         LANGUAGE ${VLLM_GPU_LANG}
diff --git a/cmake/utils.cmake b/cmake/utils.cmake
index c2181d4549236..ca0062ba4fabe 100644
--- a/cmake/utils.cmake
+++ b/cmake/utils.cmake
@@ -453,21 +453,20 @@ macro(override_gpu_arches GPU_ARCHES GPU_LANG GPU_SUPPORTED_ARCHES)
 endmacro()
 
 #
-# Define a target named `GPU_MOD_NAME` for a single extension. The
+# Define a target named `MOD_NAME` for a single extension. The
 # arguments are:
 #
 # DESTINATION <dest>         - Module destination directory.
-# LANGUAGE <lang>            - The GPU language for this module, e.g CUDA, HIP,
-#                              etc.
+# LANGUAGE <lang>            - The language for this module, e.g. CUDA, HIP,
+#                              CXX, etc.
 # SOURCES <sources>          - List of source files relative to CMakeLists.txt
 #                              directory.
 #
 # Optional arguments:
 #
-# ARCHITECTURES <arches>     - A list of target GPU architectures in cmake
-#                              format.
-#                              Refer `CMAKE_CUDA_ARCHITECTURES` documentation
-#                              and `CMAKE_HIP_ARCHITECTURES` for more info.
+# ARCHITECTURES <arches>     - A list of target architectures in cmake format.
+#                              For GPU, refer to CMAKE_CUDA_ARCHITECTURES and
+#                              CMAKE_HIP_ARCHITECTURES for more info.
 #                              ARCHITECTURES will use cmake's defaults if
 #                              not provided.
 # COMPILE_FLAGS <flags>      - Extra compiler flags passed to NVCC/hip.
@@ -478,63 +477,61 @@ endmacro()
 #
 # Note: optimization level/debug info is set via cmake build type.
 #
-function (define_gpu_extension_target GPU_MOD_NAME)
+function (define_extension_target MOD_NAME)
   cmake_parse_arguments(PARSE_ARGV 1
-    GPU
+    ARG
     "WITH_SOABI"
     "DESTINATION;LANGUAGE;USE_SABI"
     "SOURCES;ARCHITECTURES;COMPILE_FLAGS;INCLUDE_DIRECTORIES;LIBRARIES")
 
   # Add hipify preprocessing step when building with HIP/ROCm.
-  if (GPU_LANGUAGE STREQUAL "HIP")
-    hipify_sources_target(GPU_SOURCES ${GPU_MOD_NAME} "${GPU_SOURCES}")
+  if (ARG_LANGUAGE STREQUAL "HIP")
+    hipify_sources_target(ARG_SOURCES ${MOD_NAME} "${ARG_SOURCES}")
   endif()
 
-  if (GPU_WITH_SOABI)
-    set(GPU_WITH_SOABI WITH_SOABI)
+  if (ARG_WITH_SOABI)
+    set(SOABI_KEYWORD WITH_SOABI)
   else()
-    set(GPU_WITH_SOABI)
+    set(SOABI_KEYWORD "")
   endif()
 
-  if (GPU_USE_SABI)
-    Python_add_library(${GPU_MOD_NAME} MODULE USE_SABI ${GPU_USE_SABI} ${GPU_WITH_SOABI} "${GPU_SOURCES}")
+  if (ARG_USE_SABI)
+    Python_add_library(${MOD_NAME} MODULE USE_SABI ${ARG_USE_SABI} ${SOABI_KEYWORD} "${ARG_SOURCES}")
   else()
-    Python_add_library(${GPU_MOD_NAME} MODULE ${GPU_WITH_SOABI} "${GPU_SOURCES}")
+    Python_add_library(${MOD_NAME} MODULE ${SOABI_KEYWORD} "${ARG_SOURCES}")
   endif()
 
-  if (GPU_LANGUAGE STREQUAL "HIP")
+  if (ARG_LANGUAGE STREQUAL "HIP")
     # Make this target dependent on the hipify preprocessor step.
-    add_dependencies(${GPU_MOD_NAME} hipify${GPU_MOD_NAME})
+    add_dependencies(${MOD_NAME} hipify${MOD_NAME})
     # Make sure we include the hipified versions of the headers, and avoid conflicts with the ones in the original source folder
-    target_include_directories(${GPU_MOD_NAME} PRIVATE ${CMAKE_CURRENT_BINARY_DIR}/csrc
-      ${GPU_INCLUDE_DIRECTORIES})
+    target_include_directories(${MOD_NAME} PRIVATE ${CMAKE_CURRENT_BINARY_DIR}/csrc
+      ${ARG_INCLUDE_DIRECTORIES})
   else()
-    target_include_directories(${GPU_MOD_NAME} PRIVATE csrc
-      ${GPU_INCLUDE_DIRECTORIES})
+    target_include_directories(${MOD_NAME} PRIVATE csrc
+      ${ARG_INCLUDE_DIRECTORIES})
   endif()
 
-  if (GPU_ARCHITECTURES)
-    set_target_properties(${GPU_MOD_NAME} PROPERTIES
-      ${GPU_LANGUAGE}_ARCHITECTURES "${GPU_ARCHITECTURES}")
+  if (ARG_ARCHITECTURES)
+    set_target_properties(${MOD_NAME} PROPERTIES
+      ${ARG_LANGUAGE}_ARCHITECTURES "${ARG_ARCHITECTURES}")
   endif()
 
+  target_compile_options(${MOD_NAME} PRIVATE
+    $<$<COMPILE_LANGUAGE:${ARG_LANGUAGE}>:${ARG_COMPILE_FLAGS}>)
 
-  target_compile_options(${GPU_MOD_NAME} PRIVATE
-    $<$<COMPILE_LANGUAGE:${GPU_LANGUAGE}>:${GPU_COMPILE_FLAGS}>)
+  target_compile_definitions(${MOD_NAME} PRIVATE
+    "-DTORCH_EXTENSION_NAME=${MOD_NAME}")
 
-  target_compile_definitions(${GPU_MOD_NAME} PRIVATE
-    "-DTORCH_EXTENSION_NAME=${GPU_MOD_NAME}")
-
-
-  target_link_libraries(${GPU_MOD_NAME} PRIVATE torch ${GPU_LIBRARIES})
+  target_link_libraries(${MOD_NAME} PRIVATE torch ${ARG_LIBRARIES})
 
   # Don't use `TORCH_LIBRARIES` for CUDA since it pulls in a bunch of
   # dependencies that are not necessary and may not be installed.
-  if (GPU_LANGUAGE STREQUAL "CUDA")
-    target_link_libraries(${GPU_MOD_NAME} PRIVATE CUDA::cudart CUDA::cuda_driver)
+  if (ARG_LANGUAGE STREQUAL "CUDA")
+    target_link_libraries(${MOD_NAME} PRIVATE torch CUDA::cudart CUDA::cuda_driver ${ARG_LIBRARIES})
   else()
-    target_link_libraries(${GPU_MOD_NAME} PRIVATE ${TORCH_LIBRARIES})
+    target_link_libraries(${MOD_NAME} PRIVATE torch ${TORCH_LIBRARIES} ${ARG_LIBRARIES})
   endif()
 
-  install(TARGETS ${GPU_MOD_NAME} LIBRARY DESTINATION ${GPU_DESTINATION} COMPONENT ${GPU_MOD_NAME})
+  install(TARGETS ${MOD_NAME} LIBRARY DESTINATION ${ARG_DESTINATION} COMPONENT ${MOD_NAME})
 endfunction()

From 4a36681f854889f2d5279e189cc4dd0c8e6c85d8 Mon Sep 17 00:00:00 2001
From: Xiaozhu Meng <mxz297@gmail.com>
Date: Fri, 7 Nov 2025 22:25:21 -0800
Subject: [PATCH 243/976] [flashinfer][fix] do not check nvcc availability when
 using pre-downloaded cubins (#27990)

Signed-off-by: Xiaozhu <mxz297@gmail.com>
Co-authored-by: Lu Fang <30275821+houseroad@users.noreply.github.com>
---
 vllm/utils/flashinfer.py | 8 ++++++--
 1 file changed, 6 insertions(+), 2 deletions(-)

diff --git a/vllm/utils/flashinfer.py b/vllm/utils/flashinfer.py
index 0560fa15151ca..5101020fda12f 100644
--- a/vllm/utils/flashinfer.py
+++ b/vllm/utils/flashinfer.py
@@ -43,9 +43,13 @@ def has_flashinfer() -> bool:
     if importlib.util.find_spec("flashinfer") is None:
         logger.debug_once("FlashInfer unavailable since package was not found")
         return False
+    # When not using flashinfer cubin,
     # Also check if nvcc is available since it's required to JIT compile flashinfer
-    if shutil.which("nvcc") is None:
-        logger.debug_once("FlashInfer unavailable since nvcc was not found")
+    if not envs.VLLM_HAS_FLASHINFER_CUBIN and shutil.which("nvcc") is None:
+        logger.debug_once(
+            "FlashInfer unavailable since nvcc was not found "
+            "and not using pre-downloaded cubins"
+        )
         return False
     return True
 

From 608bb1446285db42fcc3aa33881c8c5dd0646ce0 Mon Sep 17 00:00:00 2001
From: 22quinn <33176974+22quinn@users.noreply.github.com>
Date: Fri, 7 Nov 2025 22:33:27 -0800
Subject: [PATCH 244/976] [Attention] Remove max cudagraph size limit of 992
 (#27840)

Signed-off-by: 22quinn <33176974+22quinn@users.noreply.github.com>
---
 vllm/v1/attention/backends/flash_attn.py        | 7 -------
 vllm/v1/attention/backends/mla/flashattn_mla.py | 7 -------
 2 files changed, 14 deletions(-)

diff --git a/vllm/v1/attention/backends/flash_attn.py b/vllm/v1/attention/backends/flash_attn.py
index a41d318c3c2ce..9be90442fa803 100755
--- a/vllm/v1/attention/backends/flash_attn.py
+++ b/vllm/v1/attention/backends/flash_attn.py
@@ -244,13 +244,6 @@ class FlashAttentionMetadataBuilder(AttentionMetadataBuilder[FlashAttentionMetad
         self.max_cudagraph_size = self.compilation_config.max_cudagraph_capture_size
 
         if self.use_full_cuda_graph and self.aot_schedule:
-            if self.max_cudagraph_size > 992:
-                # This condition derives from FA3's internal heuristic.
-                # TODO(woosuk): Support larger cudagraph sizes.
-                raise ValueError(
-                    "Capture size larger than 992 is not supported for full cuda graph."
-                )
-
             self.scheduler_metadata = torch.zeros(
                 vllm_config.scheduler_config.max_num_seqs + 1,
                 dtype=torch.int32,
diff --git a/vllm/v1/attention/backends/mla/flashattn_mla.py b/vllm/v1/attention/backends/mla/flashattn_mla.py
index 7b084ae969d97..8a1e79baa87cd 100644
--- a/vllm/v1/attention/backends/mla/flashattn_mla.py
+++ b/vllm/v1/attention/backends/mla/flashattn_mla.py
@@ -97,13 +97,6 @@ class FlashAttnMLAMetadataBuilder(MLACommonMetadataBuilder[FlashAttnMLAMetadata]
         self.max_cudagraph_size = self.compilation_config.max_cudagraph_capture_size
 
         if self.use_full_cuda_graph and self.fa_aot_schedule:
-            if self.max_cudagraph_size > 992:
-                # This condition derives from FA3's internal heuristic.
-                # TODO(woosuk): Support larger cudagraph sizes.
-                raise ValueError(
-                    "Capture size larger than 992 is not supported for full cuda graph."
-                )
-
             self.scheduler_metadata = torch.zeros(
                 vllm_config.scheduler_config.max_num_seqs + 1,
                 dtype=torch.int32,

From d9ab1ad9d1be96885f4387a33a3a82233c009ce9 Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Sat, 8 Nov 2025 04:15:08 -0800
Subject: [PATCH 245/976] `reasoning_content` -> `reasoning` (#27752)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 docs/features/reasoning_outputs.md            | 45 +++++-----
 docs/features/structured_outputs.md           |  2 +-
 ...at_completion_tool_calls_with_reasoning.py | 22 ++---
 .../openai_chat_completion_with_reasoning.py  |  8 +-
 ...hat_completion_with_reasoning_streaming.py | 20 ++---
 .../streamlit_openai_chatbot_webserver.py     |  8 +-
 .../structured_outputs/structured_outputs.py  |  6 +-
 .../openai/test_chat_with_tool_reasoning.py   | 14 +--
 .../test_completion_with_function_calling.py  |  8 +-
 tests/entrypoints/openai/test_run_batch.py    | 10 +--
 .../test_base_thinking_reasoning_parser.py    | 20 ++---
 .../test_deepseekr1_reasoning_parser.py       | 36 ++++----
 .../test_deepseekv3_reasoning_parser.py       | 10 +--
 .../test_ernie45_reasoning_parser.py          | 18 ++--
 .../test_glm4_moe_reasoning_parser.py         | 18 ++--
 .../test_granite_reasoning_parser.py          | 48 +++++-----
 .../test_hunyuan_reasoning_parser.py          | 20 ++---
 .../test_mistral_reasoning_parser.py          | 36 ++++----
 .../reasoning/test_olmo3_reasoning_parser.py  | 16 ++--
 .../reasoning/test_qwen3_reasoning_parser.py  | 18 ++--
 .../test_seedoss_reasoning_parser.py          | 30 +++----
 tests/reasoning/utils.py                      | 23 ++---
 tests/tokenization/test_mistral_tokenizer.py  |  4 +-
 .../tool_use/test_ernie45_moe_tool_parser.py  |  2 +-
 .../llm/test_struct_output_generate.py        |  6 +-
 vllm/entrypoints/harmony_utils.py             |  8 +-
 vllm/entrypoints/openai/protocol.py           | 16 ++++
 vllm/entrypoints/openai/serving_chat.py       | 66 ++++++--------
 vllm/entrypoints/openai/serving_responses.py  | 48 +++++-----
 .../tool_parsers/qwen3xml_tool_parser.py      |  2 +-
 vllm/reasoning/abs_reasoning_parsers.py       |  4 +-
 vllm/reasoning/basic_parsers.py               | 24 +++--
 .../reasoning/deepseek_r1_reasoning_parser.py | 10 +--
 .../reasoning/deepseek_v3_reasoning_parser.py |  8 +-
 vllm/reasoning/ernie45_reasoning_parser.py    | 20 ++---
 vllm/reasoning/glm4_moe_reasoning_parser.py   | 24 ++---
 vllm/reasoning/gptoss_reasoning_parser.py     |  6 +-
 vllm/reasoning/granite_reasoning_parser.py    | 88 +++++++++----------
 .../hunyuan_a13b_reasoning_parser.py          | 32 +++----
 vllm/reasoning/identity_reasoning_parser.py   |  6 +-
 vllm/reasoning/minimax_m2_reasoning_parser.py |  4 +-
 vllm/reasoning/olmo3_reasoning_parser.py      | 12 +--
 vllm/reasoning/qwen3_reasoning_parser.py      |  8 +-
 vllm/reasoning/step3_reasoning_parser.py      | 16 ++--
 .../chat_templates/template_minicpmv45.jinja  | 12 +--
 vllm/transformers_utils/tokenizers/mistral.py |  4 +-
 46 files changed, 428 insertions(+), 438 deletions(-)

diff --git a/docs/features/reasoning_outputs.md b/docs/features/reasoning_outputs.md
index 28520a80ed366..5f26c7cf182b9 100644
--- a/docs/features/reasoning_outputs.md
+++ b/docs/features/reasoning_outputs.md
@@ -2,7 +2,10 @@
 
 vLLM offers support for reasoning models like [DeepSeek R1](https://huggingface.co/deepseek-ai/DeepSeek-R1), which are designed to generate outputs containing both reasoning steps and final conclusions.
 
-Reasoning models return an additional `reasoning_content` field in their outputs, which contains the reasoning steps that led to the final conclusion. This field is not present in the outputs of other models.
+Reasoning models return an additional `reasoning` field in their outputs, which contains the reasoning steps that led to the final conclusion. This field is not present in the outputs of other models.
+
+!!! warning
+    `reasoning` used to be called `reasoning_content`. For now, `reasoning_content` will continue to work. However, we encourage you to migrate to `reasoning` in case `reasoning_content` is removed in future.
 
 ## Supported Models
 
@@ -61,18 +64,18 @@ Next, make a request to the model that should return the reasoning content in th
     # extra_body={"chat_template_kwargs": {"enable_thinking": False}}
     response = client.chat.completions.create(model=model, messages=messages)
 
-    reasoning_content = response.choices[0].message.reasoning_content
+    reasoning = response.choices[0].message.reasoning
     content = response.choices[0].message.content
 
-    print("reasoning_content:", reasoning_content)
+    print("reasoning:", reasoning)
     print("content:", content)
     ```
 
-The `reasoning_content` field contains the reasoning steps that led to the final conclusion, while the `content` field contains the final conclusion.
+The `reasoning` field contains the reasoning steps that led to the final conclusion, while the `content` field contains the final conclusion.
 
 ## Streaming chat completions
 
-Streaming chat completions are also supported for reasoning models. The `reasoning_content` field is available in the `delta` field in [chat completion response chunks](https://platform.openai.com/docs/api-reference/chat/streaming).
+Streaming chat completions are also supported for reasoning models. The `reasoning` field is available in the `delta` field in [chat completion response chunks](https://platform.openai.com/docs/api-reference/chat/streaming).
 
 ??? console "Json"
 
@@ -88,7 +91,7 @@ Streaming chat completions are also supported for reasoning models. The `reasoni
                 "index": 0,
                 "delta": {
                     "role": "assistant",
-                    "reasoning_content": "is",
+                    "reasoning": "is",
                 },
                 "logprobs": null,
                 "finish_reason": null
@@ -97,7 +100,7 @@ Streaming chat completions are also supported for reasoning models. The `reasoni
     }
     ```
 
-OpenAI Python client library does not officially support `reasoning_content` attribute for streaming output. But the client supports extra attributes in the response. You can use `hasattr` to check if the `reasoning_content` attribute is present in the response. For example:
+OpenAI Python client library does not officially support `reasoning` attribute for streaming output. But the client supports extra attributes in the response. You can use `hasattr` to check if the `reasoning` attribute is present in the response. For example:
 
 ??? code
 
@@ -127,22 +130,22 @@ OpenAI Python client library does not officially support `reasoning_content` att
     )
 
     print("client: Start streaming chat completions...")
-    printed_reasoning_content = False
+    printed_reasoning = False
     printed_content = False
 
     for chunk in stream:
-        # Safely extract reasoning_content and content from delta,
+        # Safely extract reasoning and content from delta,
         # defaulting to None if attributes don't exist or are empty strings
-        reasoning_content = (
-            getattr(chunk.choices[0].delta, "reasoning_content", None) or None
+        reasoning = (
+            getattr(chunk.choices[0].delta, "reasoning", None) or None
         )
         content = getattr(chunk.choices[0].delta, "content", None) or None
 
-        if reasoning_content is not None:
-            if not printed_reasoning_content:
-                printed_reasoning_content = True
-                print("reasoning_content:", end="", flush=True)
-            print(reasoning_content, end="", flush=True)
+        if reasoning is not None:
+            if not printed_reasoning:
+                printed_reasoning = True
+                print("reasoning:", end="", flush=True)
+            print(reasoning, end="", flush=True)
         elif content is not None:
             if not printed_content:
                 printed_content = True
@@ -151,11 +154,11 @@ OpenAI Python client library does not officially support `reasoning_content` att
             print(content, end="", flush=True)
     ```
 
-Remember to check whether the `reasoning_content` exists in the response before accessing it. You could check out the [example](https://github.com/vllm-project/vllm/blob/main/examples/online_serving/openai_chat_completion_with_reasoning_streaming.py).
+Remember to check whether the `reasoning` exists in the response before accessing it. You could check out the [example](https://github.com/vllm-project/vllm/blob/main/examples/online_serving/openai_chat_completion_with_reasoning_streaming.py).
 
 ## Tool Calling
 
-The reasoning content is also available when both tool calling and the reasoning parser are enabled. Additionally, tool calling only parses functions from the `content` field, not from the `reasoning_content`.
+The reasoning content is also available when both tool calling and the reasoning parser are enabled. Additionally, tool calling only parses functions from the `content` field, not from the `reasoning`.
 
 ??? code
 
@@ -192,7 +195,7 @@ The reasoning content is also available when both tool calling and the reasoning
     print(response)
     tool_call = response.choices[0].message.tool_calls[0].function
 
-    print(f"reasoning_content: {response.choices[0].message.reasoning_content}")
+    print(f"reasoning: {response.choices[0].message.reasoning}")
     print(f"Function called: {tool_call.name}")
     print(f"Arguments: {tool_call.arguments}")
     ```
@@ -223,7 +226,7 @@ You can add a new `ReasoningParser` similar to [vllm/reasoning/deepseek_r1_reaso
         def __init__(self, tokenizer: AnyTokenizer):
             super().__init__(tokenizer)
 
-        def extract_reasoning_content_streaming(
+        def extract_reasoning_streaming(
             self,
             previous_text: str,
             current_text: str,
@@ -240,7 +243,7 @@ You can add a new `ReasoningParser` similar to [vllm/reasoning/deepseek_r1_reaso
             previously been parsed and extracted (see constructor)
             """
 
-        def extract_reasoning_content(
+        def extract_reasoning(
             self,
             model_output: str,
             request: ChatCompletionRequest | ResponsesRequest,
diff --git a/docs/features/structured_outputs.md b/docs/features/structured_outputs.md
index 9e1da37ca962d..e38627c707884 100644
--- a/docs/features/structured_outputs.md
+++ b/docs/features/structured_outputs.md
@@ -204,7 +204,7 @@ Note that you can use reasoning with any provided structured outputs feature. Th
             }
         },
     )
-    print("reasoning_content: ", completion.choices[0].message.reasoning_content)
+    print("reasoning: ", completion.choices[0].message.reasoning)
     print("content: ", completion.choices[0].message.content)
     ```
 
diff --git a/examples/online_serving/openai_chat_completion_tool_calls_with_reasoning.py b/examples/online_serving/openai_chat_completion_tool_calls_with_reasoning.py
index 4006d07f73b00..1dfc3084646dd 100644
--- a/examples/online_serving/openai_chat_completion_tool_calls_with_reasoning.py
+++ b/examples/online_serving/openai_chat_completion_tool_calls_with_reasoning.py
@@ -2,7 +2,7 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 """
 An example demonstrates how to use tool calling with reasoning models 
-like QwQ-32B. The reasoning_content will not be parsed by the tool 
+like QwQ-32B. The reasoning will not be parsed by the tool 
 calling process; only the final output will be parsed.
 
 To run this example, you need to start the vLLM server with both 
@@ -78,7 +78,7 @@ messages = [
 
 
 def extract_reasoning_and_calls(chunks: list):
-    reasoning_content = ""
+    reasoning = ""
     tool_call_idx = -1
     arguments = []
     function_names = []
@@ -97,9 +97,9 @@ def extract_reasoning_and_calls(chunks: list):
                 if tool_call.function.arguments:
                     arguments[tool_call_idx] += tool_call.function.arguments
         else:
-            if hasattr(chunk.choices[0].delta, "reasoning_content"):
-                reasoning_content += chunk.choices[0].delta.reasoning_content
-    return reasoning_content, arguments, function_names
+            if hasattr(chunk.choices[0].delta, "reasoning"):
+                reasoning += chunk.choices[0].delta.reasoning
+    return reasoning, arguments, function_names
 
 
 def main():
@@ -115,7 +115,7 @@ def main():
     tool_calls = client.chat.completions.create(
         messages=messages, model=model, tools=tools
     )
-    print(f"reasoning_content: {tool_calls.choices[0].message.reasoning_content}")
+    print(f"reasoning: {tool_calls.choices[0].message.reasoning}")
     print(f"function name: {tool_calls.choices[0].message.tool_calls[0].function.name}")
     print(
         f"function arguments: "
@@ -129,9 +129,9 @@ def main():
 
     chunks = list(tool_calls_stream)
 
-    reasoning_content, arguments, function_names = extract_reasoning_and_calls(chunks)
+    reasoning, arguments, function_names = extract_reasoning_and_calls(chunks)
 
-    print(f"reasoning_content: {reasoning_content}")
+    print(f"reasoning: {reasoning}")
     print(f"function name: {function_names[0]}")
     print(f"function arguments: {arguments[0]}")
 
@@ -144,7 +144,7 @@ def main():
     )
 
     tool_call = tool_calls.choices[0].message.tool_calls[0].function
-    print(f"reasoning_content: {tool_calls.choices[0].message.reasoning_content}")
+    print(f"reasoning: {tool_calls.choices[0].message.reasoning}")
     print(f"function name: {tool_call.name}")
     print(f"function arguments: {tool_call.arguments}")
     print("----------Stream Generate With Named Function Calling--------------")
@@ -159,8 +159,8 @@ def main():
 
     chunks = list(tool_calls_stream)
 
-    reasoning_content, arguments, function_names = extract_reasoning_and_calls(chunks)
-    print(f"reasoning_content: {reasoning_content}")
+    reasoning, arguments, function_names = extract_reasoning_and_calls(chunks)
+    print(f"reasoning: {reasoning}")
     print(f"function name: {function_names[0]}")
     print(f"function arguments: {arguments[0]}")
     print("\n\n")
diff --git a/examples/online_serving/openai_chat_completion_with_reasoning.py b/examples/online_serving/openai_chat_completion_with_reasoning.py
index 932dbeb2e7a24..87043897b058c 100644
--- a/examples/online_serving/openai_chat_completion_with_reasoning.py
+++ b/examples/online_serving/openai_chat_completion_with_reasoning.py
@@ -38,10 +38,10 @@ def main():
     # For granite, add: `extra_body={"chat_template_kwargs": {"thinking": True}}`
     response = client.chat.completions.create(model=model, messages=messages)
 
-    reasoning_content = response.choices[0].message.reasoning_content
+    reasoning = response.choices[0].message.reasoning
     content = response.choices[0].message.content
 
-    print("reasoning_content for Round 1:", reasoning_content)
+    print("reasoning for Round 1:", reasoning)
     print("content for Round 1:", content)
 
     # Round 2
@@ -54,10 +54,10 @@ def main():
     )
     response = client.chat.completions.create(model=model, messages=messages)
 
-    reasoning_content = response.choices[0].message.reasoning_content
+    reasoning = response.choices[0].message.reasoning
     content = response.choices[0].message.content
 
-    print("reasoning_content for Round 2:", reasoning_content)
+    print("reasoning for Round 2:", reasoning)
     print("content for Round 2:", content)
 
 
diff --git a/examples/online_serving/openai_chat_completion_with_reasoning_streaming.py b/examples/online_serving/openai_chat_completion_with_reasoning_streaming.py
index 7d1ea37714599..8e262701b7201 100644
--- a/examples/online_serving/openai_chat_completion_with_reasoning_streaming.py
+++ b/examples/online_serving/openai_chat_completion_with_reasoning_streaming.py
@@ -20,7 +20,7 @@ in real-time as they are generated by the model. This is useful for scenarios
 where you want to display chat completions to the user as they are generated
 by the model.
 
-Remember to check content and reasoning_content exist in `ChatCompletionChunk`,
+Remember to check content and reasoning exist in `ChatCompletionChunk`,
 content may not exist leading to errors if you try to access it.
 """
 
@@ -47,22 +47,20 @@ def main():
     stream = client.chat.completions.create(model=model, messages=messages, stream=True)
 
     print("client: Start streaming chat completions...")
-    printed_reasoning_content = False
+    printed_reasoning = False
     printed_content = False
 
     for chunk in stream:
-        # Safely extract reasoning_content and content from delta,
+        # Safely extract reasoning and content from delta,
         # defaulting to None if attributes don't exist or are empty strings
-        reasoning_content = (
-            getattr(chunk.choices[0].delta, "reasoning_content", None) or None
-        )
+        reasoning = getattr(chunk.choices[0].delta, "reasoning", None) or None
         content = getattr(chunk.choices[0].delta, "content", None) or None
 
-        if reasoning_content is not None:
-            if not printed_reasoning_content:
-                printed_reasoning_content = True
-                print("reasoning_content:", end="", flush=True)
-            print(reasoning_content, end="", flush=True)
+        if reasoning is not None:
+            if not printed_reasoning:
+                printed_reasoning = True
+                print("reasoning:", end="", flush=True)
+            print(reasoning, end="", flush=True)
         elif content is not None:
             if not printed_content:
                 printed_content = True
diff --git a/examples/online_serving/streamlit_openai_chatbot_webserver.py b/examples/online_serving/streamlit_openai_chatbot_webserver.py
index 64c8a91782806..d60dbf4d753a7 100644
--- a/examples/online_serving/streamlit_openai_chatbot_webserver.py
+++ b/examples/online_serving/streamlit_openai_chatbot_webserver.py
@@ -159,8 +159,8 @@ def get_llm_response(messages, model, reason, content_ph=None, reasoning_ph=None
         for chunk in response:
             delta = chunk.choices[0].delta
             # Stream reasoning first
-            if reason and hasattr(delta, "reasoning_content") and live_think:
-                rc = delta.reasoning_content
+            if reason and hasattr(delta, "reasoning") and live_think:
+                rc = delta.reasoning
                 if rc:
                     think_text += rc
                     live_think.markdown(think_text + "▌")
@@ -262,8 +262,8 @@ def server_supports_reasoning():
         messages=[{"role": "user", "content": "Hi"}],
         stream=False,
     )
-    return hasattr(resp.choices[0].message, "reasoning_content") and bool(
-        resp.choices[0].message.reasoning_content
+    return hasattr(resp.choices[0].message, "reasoning") and bool(
+        resp.choices[0].message.reasoning
     )
 
 
diff --git a/examples/online_serving/structured_outputs/structured_outputs.py b/examples/online_serving/structured_outputs/structured_outputs.py
index 02853a95469a6..ff473d044e323 100644
--- a/examples/online_serving/structured_outputs/structured_outputs.py
+++ b/examples/online_serving/structured_outputs/structured_outputs.py
@@ -33,7 +33,7 @@ async def print_stream_response(
     async for chunk in stream_response:
         delta = chunk.choices[0].delta
 
-        reasoning_chunk_text: str | None = getattr(delta, "reasoning_content", None)
+        reasoning_chunk_text: str | None = getattr(delta, "reasoning", None)
         content_chunk_text = delta.content
 
         if args.reasoning:
@@ -255,8 +255,8 @@ async def cli():
         for constraint, response in zip(constraints, results):
             print(f"\n\n{constraint}:")
             message = response.choices[0].message
-            if args.reasoning and hasattr(message, "reasoning_content"):
-                print(f"  Reasoning: {message.reasoning_content or ''}")
+            if args.reasoning and hasattr(message, "reasoning"):
+                print(f"  Reasoning: {message.reasoning or ''}")
             print(f"  Content: {message.content!r}")
 
 
diff --git a/tests/entrypoints/openai/test_chat_with_tool_reasoning.py b/tests/entrypoints/openai/test_chat_with_tool_reasoning.py
index e452b578ba22b..7b3092b563030 100644
--- a/tests/entrypoints/openai/test_chat_with_tool_reasoning.py
+++ b/tests/entrypoints/openai/test_chat_with_tool_reasoning.py
@@ -80,7 +80,7 @@ FUNC_ARGS = """{"city": "Dallas", "state": "TX", "unit": "fahrenheit"}"""
 
 
 def extract_reasoning_and_calls(chunks: list):
-    reasoning_content = ""
+    reasoning = ""
     tool_call_idx = -1
     arguments = []
     function_names = []
@@ -99,9 +99,9 @@ def extract_reasoning_and_calls(chunks: list):
                 if tool_call.function.arguments:
                     arguments[tool_call_idx] += tool_call.function.arguments
         else:
-            if hasattr(chunk.choices[0].delta, "reasoning_content"):
-                reasoning_content += chunk.choices[0].delta.reasoning_content
-    return reasoning_content, arguments, function_names
+            if hasattr(chunk.choices[0].delta, "reasoning"):
+                reasoning += chunk.choices[0].delta.reasoning
+    return reasoning, arguments, function_names
 
 
 # test streaming
@@ -119,8 +119,8 @@ async def test_chat_streaming_of_tool_and_reasoning(client: openai.AsyncOpenAI):
     async for chunk in stream:
         chunks.append(chunk)
 
-    reasoning_content, arguments, function_names = extract_reasoning_and_calls(chunks)
-    assert len(reasoning_content) > 0
+    reasoning, arguments, function_names = extract_reasoning_and_calls(chunks)
+    assert len(reasoning) > 0
     assert len(function_names) > 0 and function_names[0] == FUNC_NAME
     assert len(arguments) > 0 and arguments[0] == FUNC_ARGS
 
@@ -136,6 +136,6 @@ async def test_chat_full_of_tool_and_reasoning(client: openai.AsyncOpenAI):
         stream=False,
     )
 
-    assert len(tool_calls.choices[0].message.reasoning_content) > 0
+    assert len(tool_calls.choices[0].message.reasoning) > 0
     assert tool_calls.choices[0].message.tool_calls[0].function.name == FUNC_NAME
     assert tool_calls.choices[0].message.tool_calls[0].function.arguments == FUNC_ARGS
diff --git a/tests/entrypoints/openai/test_completion_with_function_calling.py b/tests/entrypoints/openai/test_completion_with_function_calling.py
index 6d8db361a57d4..53369f074eca8 100644
--- a/tests/entrypoints/openai/test_completion_with_function_calling.py
+++ b/tests/entrypoints/openai/test_completion_with_function_calling.py
@@ -180,8 +180,8 @@ async def test_function_tool_use(
             extra_body={"chat_template_kwargs": {"enable_thinking": enable_thinking}},
         )
         if enable_thinking:
-            assert chat_completion.choices[0].message.reasoning_content is not None
-            assert chat_completion.choices[0].message.reasoning_content != ""
+            assert chat_completion.choices[0].message.reasoning is not None
+            assert chat_completion.choices[0].message.reasoning != ""
         assert chat_completion.choices[0].message.tool_calls is not None
         assert len(chat_completion.choices[0].message.tool_calls) > 0
     else:
@@ -200,9 +200,9 @@ async def test_function_tool_use(
         async for chunk in output_stream:
             if chunk.choices:
                 if enable_thinking and getattr(
-                    chunk.choices[0].delta, "reasoning_content", None
+                    chunk.choices[0].delta, "reasoning", None
                 ):
-                    reasoning.append(chunk.choices[0].delta.reasoning_content)
+                    reasoning.append(chunk.choices[0].delta.reasoning)
                 if chunk.choices[0].delta.tool_calls:
                     output.extend(chunk.choices[0].delta.tool_calls)
 
diff --git a/tests/entrypoints/openai/test_run_batch.py b/tests/entrypoints/openai/test_run_batch.py
index 2f678a0535cc6..f951b57fe7269 100644
--- a/tests/entrypoints/openai/test_run_batch.py
+++ b/tests/entrypoints/openai/test_run_batch.py
@@ -232,9 +232,9 @@ def test_reasoning_parser():
             assert isinstance(line_dict, dict)
             assert line_dict["error"] is None
 
-            # Check that reasoning_content is present and not empty
-            reasoning_content = line_dict["response"]["body"]["choices"][0]["message"][
-                "reasoning_content"
+            # Check that reasoning is present and not empty
+            reasoning = line_dict["response"]["body"]["choices"][0]["message"][
+                "reasoning"
             ]
-            assert reasoning_content is not None
-            assert len(reasoning_content) > 0
+            assert reasoning is not None
+            assert len(reasoning) > 0
diff --git a/tests/reasoning/test_base_thinking_reasoning_parser.py b/tests/reasoning/test_base_thinking_reasoning_parser.py
index ddda50fe770a6..d31b1c7d169b7 100644
--- a/tests/reasoning/test_base_thinking_reasoning_parser.py
+++ b/tests/reasoning/test_base_thinking_reasoning_parser.py
@@ -151,57 +151,57 @@ class TestBaseThinkingReasoningParserMethods:
 class TestBaseThinkingReasoningParserExtraction:
     """Test reasoning content extraction methods."""
 
-    def test_extract_reasoning_content_with_both_tokens(self, test_tokenizer):
+    def test_extract_reasoning_with_both_tokens(self, test_tokenizer):
         """Test extraction when both start and end tokens are present."""
         parser = TestThinkingReasoningParser(test_tokenizer)
         request = ChatCompletionRequest(messages=[], model="test-model")
 
         model_output = "<test:think>This is reasoning</test:think>This is content"
-        reasoning, content = parser.extract_reasoning_content(model_output, request)
+        reasoning, content = parser.extract_reasoning(model_output, request)
 
         assert reasoning == "This is reasoning"
         assert content == "This is content"
 
-    def test_extract_reasoning_content_only_end_token(self, test_tokenizer):
+    def test_extract_reasoning_only_end_token(self, test_tokenizer):
         """Test extraction when only end token is present."""
         parser = TestThinkingReasoningParser(test_tokenizer)
         request = ChatCompletionRequest(messages=[], model="test-model")
 
         model_output = "This is reasoning</test:think>This is content"
-        reasoning, content = parser.extract_reasoning_content(model_output, request)
+        reasoning, content = parser.extract_reasoning(model_output, request)
 
         assert reasoning == "This is reasoning"
         assert content == "This is content"
 
-    def test_extract_reasoning_content_no_end_token(self, test_tokenizer):
+    def test_extract_reasoning_no_end_token(self, test_tokenizer):
         """Test extraction when no end token is present."""
         parser = TestThinkingReasoningParser(test_tokenizer)
         request = ChatCompletionRequest(messages=[], model="test-model")
 
         model_output = "This is just content"
-        reasoning, content = parser.extract_reasoning_content(model_output, request)
+        reasoning, content = parser.extract_reasoning(model_output, request)
 
         assert reasoning == "This is just content"
         assert content is None
 
-    def test_extract_reasoning_content_empty_output(self, test_tokenizer):
+    def test_extract_reasoning_empty_output(self, test_tokenizer):
         """Test extraction with empty output."""
         parser = TestThinkingReasoningParser(test_tokenizer)
         request = ChatCompletionRequest(messages=[], model="test-model")
 
         model_output = ""
-        reasoning, content = parser.extract_reasoning_content(model_output, request)
+        reasoning, content = parser.extract_reasoning(model_output, request)
 
         assert reasoning == ""
         assert content is None
 
-    def test_extract_reasoning_content_only_tokens(self, test_tokenizer):
+    def test_extract_reasoning_only_tokens(self, test_tokenizer):
         """Test extraction with only tokens and no content."""
         parser = TestThinkingReasoningParser(test_tokenizer)
         request = ChatCompletionRequest(messages=[], model="test-model")
 
         model_output = "<test:think></test:think>"
-        reasoning, content = parser.extract_reasoning_content(model_output, request)
+        reasoning, content = parser.extract_reasoning(model_output, request)
 
         assert reasoning == ""
         assert content is None
diff --git a/tests/reasoning/test_deepseekr1_reasoning_parser.py b/tests/reasoning/test_deepseekr1_reasoning_parser.py
index 946d01c123c5d..91f0c93653d32 100644
--- a/tests/reasoning/test_deepseekr1_reasoning_parser.py
+++ b/tests/reasoning/test_deepseekr1_reasoning_parser.py
@@ -21,97 +21,97 @@ def deepseek_r1_qwen_tokenizer():
 
 SIMPLE_REASONING = {
     "output": "This is a reasoning section</think>This is the rest",
-    "reasoning_content": "This is a reasoning section",
+    "reasoning": "This is a reasoning section",
     "content": "This is the rest",
     "is_reasoning_end": True,
 }
 COMPLETE_REASONING = {
     "output": "This is a reasoning section</think>",
-    "reasoning_content": "This is a reasoning section",
+    "reasoning": "This is a reasoning section",
     "content": None,
     "is_reasoning_end": True,
 }
 NO_CONTENT = {
     "output": "This is content",
-    "reasoning_content": "This is content",
+    "reasoning": "This is content",
     "content": None,
     "is_reasoning_end": False,
 }
 NO_REASONING_STREAMING = {
     "output": "This is a reasoning section",
-    "reasoning_content": "This is a reasoning section",
+    "reasoning": "This is a reasoning section",
     "content": None,
     "is_reasoning_end": False,
 }
 MULTIPLE_LINES = {
     "output": "This\nThat</think>This is the rest\nThat",
-    "reasoning_content": "This\nThat",
+    "reasoning": "This\nThat",
     "content": "This is the rest\nThat",
     "is_reasoning_end": True,
 }
 SHORTEST_REASONING_NO_STREAMING = {
     "output": "</think>This is the rest",
-    "reasoning_content": "",
+    "reasoning": "",
     "content": "This is the rest",
     "is_reasoning_end": True,
 }
 SHORTEST_REASONING = {
     "output": "</think>This is the rest",
-    "reasoning_content": None,
+    "reasoning": None,
     "content": "This is the rest",
     "is_reasoning_end": True,
 }
 REASONING_WITH_THINK = {
     "output": "<think>This is a reasoning section</think>This is the rest",
-    "reasoning_content": "This is a reasoning section",
+    "reasoning": "This is a reasoning section",
     "content": "This is the rest",
     "is_reasoning_end": True,
 }
 COMPLETE_REASONING_WITH_THINK = {
     "output": "<think>This is a reasoning section</think>",
-    "reasoning_content": "This is a reasoning section",
+    "reasoning": "This is a reasoning section",
     "content": None,
     "is_reasoning_end": True,
 }
 MULTIPLE_LINES_WITH_THINK = {
     "output": "<think>This\nThat</think>This is the rest\nThat",
-    "reasoning_content": "This\nThat",
+    "reasoning": "This\nThat",
     "content": "This is the rest\nThat",
     "is_reasoning_end": True,
 }
 SHORTEST_REASONING_NO_STREAMING_WITH_THINK = {
     "output": "</think>This is the rest",
-    "reasoning_content": "",
+    "reasoning": "",
     "content": "This is the rest",
     "is_reasoning_end": True,
 }
 SHORTEST_REASONING_WITH_THINK = {
     "output": "</think>This is the rest",
-    "reasoning_content": None,
+    "reasoning": None,
     "content": "This is the rest",
     "is_reasoning_end": True,
 }
 THINK_NO_END = {
     "output": "<think>This is a reasoning section",
-    "reasoning_content": "This is a reasoning section",
+    "reasoning": "This is a reasoning section",
     "content": None,
     "is_reasoning_end": False,
 }
 EMPTY = {
     "output": "",
-    "reasoning_content": "",
+    "reasoning": "",
     "content": None,
     "is_reasoning_end": False,
 }
 EMPTY_STREAMING = {
     "output": "",
-    "reasoning_content": None,
+    "reasoning": None,
     "content": None,
     "is_reasoning_end": False,
 }
 NEW_LINE = {
     "output": "\n<think>This is a reasoning section</think>\nThis is the rest",
-    "reasoning_content": "This is a reasoning section",
+    "reasoning": "This is a reasoning section",
     "content": "\nThis is the rest",
     "is_reasoning_end": True,
 }
@@ -121,7 +121,7 @@ NEW_LINE = {
 # or not.
 NEW_LINE_STREAMING = {
     "output": "\n<think>This is a reasoning section</think>\nThis is the rest",
-    "reasoning_content": "\nThis is a reasoning section",
+    "reasoning": "\nThis is a reasoning section",
     "content": "\nThis is the rest",
     "is_reasoning_end": True,
 }
@@ -269,7 +269,7 @@ def test_reasoning(
         parser, output_tokens, streaming=streaming
     )
 
-    assert reasoning == param_dict["reasoning_content"]
+    assert reasoning == param_dict["reasoning"]
     assert content == param_dict["content"]
 
     # Test is_reasoning_end
diff --git a/tests/reasoning/test_deepseekv3_reasoning_parser.py b/tests/reasoning/test_deepseekv3_reasoning_parser.py
index e1ff7462b1fa7..6e8f0e8dcc9b9 100644
--- a/tests/reasoning/test_deepseekv3_reasoning_parser.py
+++ b/tests/reasoning/test_deepseekv3_reasoning_parser.py
@@ -44,14 +44,14 @@ def test_identity_reasoning_parser_basic(tokenizer):
     # Test extract_content_ids returns all input_ids
     assert parser.extract_content_ids(input_ids) == input_ids
 
-    # Test extract_reasoning_content returns (None, model_output)
+    # Test extract_reasoning returns (None, model_output)
     request = ChatCompletionRequest(model="test-model", messages=[], temperature=1.0)
-    reasoning, content = parser.extract_reasoning_content(input_text, request)
+    reasoning, content = parser.extract_reasoning(input_text, request)
     assert reasoning is None
     assert content == input_text
 
-    # Test extract_reasoning_content_streaming returns DeltaMessage or None
-    result = parser.extract_reasoning_content_streaming(
+    # Test extract_reasoning_streaming returns DeltaMessage or None
+    result = parser.extract_reasoning_streaming(
         previous_text="",
         current_text="Hello world",
         delta_text="Hello world",
@@ -63,7 +63,7 @@ def test_identity_reasoning_parser_basic(tokenizer):
     assert result.content == "Hello world"
 
     # If delta_text is empty, should return None
-    result_none = parser.extract_reasoning_content_streaming(
+    result_none = parser.extract_reasoning_streaming(
         previous_text="Hello world",
         current_text="Hello world",
         delta_text="",
diff --git a/tests/reasoning/test_ernie45_reasoning_parser.py b/tests/reasoning/test_ernie45_reasoning_parser.py
index 344478013e6b4..dbf5507ae68ba 100644
--- a/tests/reasoning/test_ernie45_reasoning_parser.py
+++ b/tests/reasoning/test_ernie45_reasoning_parser.py
@@ -20,36 +20,36 @@ def ernie45_tokenizer():
 # 带 </think>，非stream
 WITH_THINK = {
     "output": "abc</think>def",
-    "reasoning_content": "abc",
+    "reasoning": "abc",
     "content": "def",
 }
 # 带 </think>，stream
 WITH_THINK_STREAM = {
     "output": "abc</think>def",
-    "reasoning_content": "abc",
+    "reasoning": "abc",
     "content": "def",
 }
-# without </think>, all is reasoning_content
+# without </think>, all is reasoning
 WITHOUT_THINK = {
     "output": "abc",
-    "reasoning_content": "abc",
+    "reasoning": "abc",
     "content": None,
 }
-# without </think>, all is reasoning_content
+# without </think>, all is reasoning
 WITHOUT_THINK_STREAM = {
     "output": "abc",
-    "reasoning_content": "abc",
+    "reasoning": "abc",
     "content": None,
 }
 
 COMPLETE_REASONING = {
     "output": "abc</think>",
-    "reasoning_content": "abc",
+    "reasoning": "abc",
     "content": None,
 }
 MULTILINE_REASONING = {
     "output": "abc\nABC</think>def\nDEF",
-    "reasoning_content": "abc\nABC",
+    "reasoning": "abc\nABC",
     "content": "def\nDEF",
 }
 
@@ -120,5 +120,5 @@ def test_reasoning(
 
     print()
 
-    assert reasoning == param_dict["reasoning_content"]
+    assert reasoning == param_dict["reasoning"]
     assert content == param_dict["content"]
diff --git a/tests/reasoning/test_glm4_moe_reasoning_parser.py b/tests/reasoning/test_glm4_moe_reasoning_parser.py
index 0a8595a00fcb5..6f7827e5b8277 100644
--- a/tests/reasoning/test_glm4_moe_reasoning_parser.py
+++ b/tests/reasoning/test_glm4_moe_reasoning_parser.py
@@ -21,54 +21,54 @@ def glm45_tokenizer():
 
 WITH_THINK = {
     "output": "<think>This is a reasoning section</think>This is the rest",
-    "reasoning_content": "This is a reasoning section",
+    "reasoning": "This is a reasoning section",
     "content": "This is the rest",
     "is_reasoning_end": True,
 }
 
 WITH_THINK_STREAM = {
     "output": "<think>This is a reasoning section</think>This is the rest",
-    "reasoning_content": "This is a reasoning section",
+    "reasoning": "This is a reasoning section",
     "content": "This is the rest",
     "is_reasoning_end": True,
 }
 
 WITHOUT_THINK = {
     "output": "This is the rest",
-    "reasoning_content": None,
+    "reasoning": None,
     "content": "This is the rest",
     "is_reasoning_end": False,
 }
 
 WITHOUT_THINK_STREAM = {
     "output": "This is the rest",
-    "reasoning_content": None,
+    "reasoning": None,
     "content": "This is the rest",
     "is_reasoning_end": False,
 }
 
 COMPLETE_REASONING = {
     "output": "<think>This is a reasoning section</think>",
-    "reasoning_content": "This is a reasoning section",
+    "reasoning": "This is a reasoning section",
     "content": None,
     "is_reasoning_end": True,
 }
 MULTILINE_REASONING = {
     "output": "<think>This is a reasoning\nsection</think>This is the rest\nThat",
-    "reasoning_content": "This is a reasoning\nsection",
+    "reasoning": "This is a reasoning\nsection",
     "content": "This is the rest\nThat",
     "is_reasoning_end": True,
 }
 ONLY_OPEN_TAG = {
     "output": "<think>This is a reasoning section",
-    "reasoning_content": None,
+    "reasoning": None,
     "content": "<think>This is a reasoning section",
     "is_reasoning_end": False,
 }
 
 ONLY_OPEN_TAG_STREAM = {
     "output": "<think>This is a reasoning section",
-    "reasoning_content": "This is a reasoning section",
+    "reasoning": "This is a reasoning section",
     "content": None,
     "is_reasoning_end": False,
 }
@@ -184,7 +184,7 @@ def test_reasoning(
         parser, output_tokens, streaming=streaming
     )
 
-    assert reasoning == param_dict["reasoning_content"]
+    assert reasoning == param_dict["reasoning"]
     assert content == param_dict["content"]
 
     output_ids = glm45_tokenizer.convert_tokens_to_ids(output)
diff --git a/tests/reasoning/test_granite_reasoning_parser.py b/tests/reasoning/test_granite_reasoning_parser.py
index de1663408d72d..14aad3ad08189 100644
--- a/tests/reasoning/test_granite_reasoning_parser.py
+++ b/tests/reasoning/test_granite_reasoning_parser.py
@@ -12,37 +12,37 @@ START_RESPONSE = "Here is my response:"
 
 SIMPLE_REASONING = {
     "output": f"{START_REASONING}This is a reasoning section{START_RESPONSE}This is the rest",  # noqa: E501
-    "reasoning_content": "This is a reasoning section",
+    "reasoning": "This is a reasoning section",
     "content": "This is the rest",
 }
 COMPLETE_REASONING = {
     "output": f"{START_REASONING}This is a reasoning section{START_RESPONSE}",
-    "reasoning_content": "This is a reasoning section",
+    "reasoning": "This is a reasoning section",
     "content": None,
 }
 NO_REASONING = {
     "output": "This is content",
-    "reasoning_content": None,
+    "reasoning": None,
     "content": "This is content",
 }
 MULTIPLE_LINES = {
     "output": f"{START_REASONING}This\nThat{START_RESPONSE}This is the rest\nThat",
-    "reasoning_content": "This\nThat",
+    "reasoning": "This\nThat",
     "content": "This is the rest\nThat",
 }
 REASONING_WITH_THINK = {
     "output": f"{START_REASONING}This is a reasoning section{START_RESPONSE}This is the rest",  # noqa: E501
-    "reasoning_content": "This is a reasoning section",
+    "reasoning": "This is a reasoning section",
     "content": "This is the rest",
 }
 COMPLETE_REASONING_WITH_THINK = {
     "output": f"{START_REASONING}This is a reasoning section{START_RESPONSE}",
-    "reasoning_content": "This is a reasoning section",
+    "reasoning": "This is a reasoning section",
     "content": None,
 }
 MULTIPLE_LINES_WITH_THINK = {
     "output": f"{START_REASONING}This\nThat{START_RESPONSE}This is the rest\nThat",
-    "reasoning_content": "This\nThat",
+    "reasoning": "This\nThat",
     "content": "This is the rest\nThat",
 }
 
@@ -141,7 +141,7 @@ def test_reasoning(
         parser, output_tokens, streaming=streaming
     )
 
-    assert reasoning == param_dict["reasoning_content"]
+    assert reasoning == param_dict["reasoning"]
     assert content == param_dict["content"]
 
 
@@ -155,7 +155,7 @@ STREAMING_1 = {
     "previous_text": None,
     "current_text": "Here",
     "delta_text": "Here",
-    "reasoning_content": None,
+    "reasoning": None,
     "content": None,
 }
 # When we fail, we should give what was previously being silenced first
@@ -163,7 +163,7 @@ STREAMING_2 = {
     "previous_text": "Here is my thought",
     "current_text": "Here is my thought failure",
     "delta_text": " failure",
-    "reasoning_content": None,
+    "reasoning": None,
     "content": "Here is my thought failure",
 }
 # But then after the first one, we should only add the delta text to content
@@ -171,7 +171,7 @@ STREAMING_3 = {
     "previous_text": "Here wrong",
     "current_text": " words",
     "delta_text": " Here wrong words",
-    "reasoning_content": None,
+    "reasoning": None,
     "content": " words",
 }
 # But then after the first one, we should only add the delta text to content
@@ -179,7 +179,7 @@ STREAMING_4 = {
     "previous_text": "Here is my thought",
     "current_text": "Here is my thought process:",
     "delta_text": " process:",
-    "reasoning_content": None,
+    "reasoning": None,
     "content": None,
 }
 # Reasoning started successfully; parse reasoning content
@@ -187,7 +187,7 @@ STREAMING_5 = {
     "previous_text": "Here is my thought process:",
     "current_text": "Here is my thought process: foo",
     "delta_text": " foo",
-    "reasoning_content": " foo",
+    "reasoning": " foo",
     "content": None,
 }
 # Response special sequence has started, but not finished.
@@ -195,7 +195,7 @@ STREAMING_6 = {
     "previous_text": "Here is my thought process: foo",
     "current_text": "Here is my thought process: foo Here is",
     "delta_text": " Here is",
-    "reasoning_content": " ",
+    "reasoning": " ",
     "content": None,
 }
 # Response special sequence started, but was broken; the reasoning
@@ -204,7 +204,7 @@ STREAMING_7 = {
     "previous_text": "Here is my thought process: foo Here is",
     "current_text": "Here is my thought process: foo Here is Here",
     "delta_text": " Here",
-    "reasoning_content": "Here is ",
+    "reasoning": "Here is ",
     "content": None,
 }
 # Response special sequence is ongoing
@@ -212,7 +212,7 @@ STREAMING_8 = {
     "previous_text": "Here is my thought process: foo Here is my response:",
     "current_text": "Here is my thought process: foo Here is my response: bar",
     "delta_text": " bar",
-    "reasoning_content": None,
+    "reasoning": None,
     "content": " bar",
 }
 # The delta text has everything; we should be able to correctly parse both
@@ -220,7 +220,7 @@ STREAMING_9 = {
     "previous_text": None,
     "current_text": "Here is my thought process: foo Here is my response: bar",
     "delta_text": "Here is my thought process: foo Here is my response: bar",
-    "reasoning_content": " foo ",
+    "reasoning": " foo ",
     "content": " bar",
 }
 ## The Response is ongoing, and the delta mixes reasoning content / content
@@ -228,7 +228,7 @@ STREAMING_10 = {
     "previous_text": "Here is my thought process: foo",
     "current_text": "Here is my thought process: foo bar Here is my response: baz",
     "delta_text": " bar Here is my response: baz",
-    "reasoning_content": " bar ",
+    "reasoning": " bar ",
     "content": " baz",
 }
 # The delta text starts a new substring that might be a response special seq
@@ -236,7 +236,7 @@ STREAMING_11 = {
     "previous_text": "Here is my thought process: This is a reasoning section ",
     "current_text": "Here is my thought process: This is a reasoning section Here",
     "delta_text": "Here",
-    "reasoning_content": None,
+    "reasoning": None,
     "content": None,
 }
 # The delta text is finishing the response special seq
@@ -244,14 +244,14 @@ STREAMING_12 = {
     "previous_text": "Here is my thought process: foo Here is my response",
     "current_text": "Here is my thought process: foo Here is my response:",
     "delta_text": ":",
-    "reasoning_content": None,
+    "reasoning": None,
     "content": None,
 }
 STREAMING_13 = {
     "previous_text": "Here is my thought process: foo Here",
     "current_text": "Here is my thought process: foo Here was",
     "delta_text": " was",
-    "reasoning_content": "Here was",
+    "reasoning": "Here was",
     "content": None,
 }
 
@@ -326,7 +326,7 @@ def test_streaming_subcases(param_dict):
         tokenizer
     )
 
-    response = parser.extract_reasoning_content_streaming(
+    response = parser.extract_reasoning_streaming(
         previous_text=param_dict["previous_text"],
         current_text=param_dict["current_text"],
         delta_text=param_dict["delta_text"],
@@ -336,9 +336,9 @@ def test_streaming_subcases(param_dict):
     )
     # Streaming currently expects at least one of reasoning content / content,
     # so the response should return None in that case.
-    if param_dict["reasoning_content"] is None and param_dict["content"] is None:
+    if param_dict["reasoning"] is None and param_dict["content"] is None:
         assert response is None
     else:
         assert isinstance(response, DeltaMessage)
-        assert param_dict["reasoning_content"] == response.reasoning_content
+        assert param_dict["reasoning"] == response.reasoning
         assert param_dict["content"] == response.content
diff --git a/tests/reasoning/test_hunyuan_reasoning_parser.py b/tests/reasoning/test_hunyuan_reasoning_parser.py
index b7e3ea73ccdef..32e753d2abb72 100644
--- a/tests/reasoning/test_hunyuan_reasoning_parser.py
+++ b/tests/reasoning/test_hunyuan_reasoning_parser.py
@@ -14,49 +14,49 @@ END_RESPONSE = "\n</answer>"
 
 NO_REASONING_QUICK_THROUGHT = {
     "output": f"{START_REASONING}{START_RESPONSE}This is the rest{END_RESPONSE}",  # noqa: E501
-    "reasoning_content": None,
+    "reasoning": None,
     "content": "This is the rest",
 }
 
 SIMPLE_REASONING = {
     "output": f"{START_REASONING}This is a reasoning section{START_RESPONSE}This is the rest{END_RESPONSE}",  # noqa: E501
-    "reasoning_content": "This is a reasoning section",
+    "reasoning": "This is a reasoning section",
     "content": "This is the rest",
 }
 COMPLETE_REASONING = {
     "output": f"{START_REASONING}This is a reasoning section{START_RESPONSE}",
-    "reasoning_content": "This is a reasoning section",
+    "reasoning": "This is a reasoning section",
     "content": None,
 }
 
 COMPLETE_REASONING_WITH_SYMBOL = {
     "output": f"{START_REASONING}This is a reasoning section!{START_RESPONSE}",
-    "reasoning_content": "This is a reasoning section!",
+    "reasoning": "This is a reasoning section!",
     "content": None,
 }
 NO_REASONING = {
     "output": "This is content",
-    "reasoning_content": None,
+    "reasoning": None,
     "content": "This is content",
 }
 MULTIPLE_LINES = {
     "output": f"{START_REASONING}This\nThat{START_RESPONSE}This is the rest\nThat",
-    "reasoning_content": "This\nThat",
+    "reasoning": "This\nThat",
     "content": "This is the rest\nThat",
 }
 REASONING_WITH_THINK = {
     "output": f"{START_REASONING}This is a reasoning section{START_RESPONSE}This is the rest",  # noqa: E501
-    "reasoning_content": "This is a reasoning section",
+    "reasoning": "This is a reasoning section",
     "content": "This is the rest",
 }
 COMPLETE_REASONING_WITH_THINK = {
     "output": f"{START_REASONING}This is a reasoning section{START_RESPONSE}",
-    "reasoning_content": "This is a reasoning section",
+    "reasoning": "This is a reasoning section",
     "content": None,
 }
 MULTIPLE_LINES_WITH_THINK = {
     "output": f"{START_REASONING}This\nThat{START_RESPONSE}This is the rest\nThat",
-    "reasoning_content": "This\nThat",
+    "reasoning": "This\nThat",
     "content": "This is the rest\nThat",
 }
 
@@ -164,5 +164,5 @@ def test_reasoning(
         parser, output_tokens, streaming=streaming
     )
 
-    assert reasoning == param_dict["reasoning_content"]
+    assert reasoning == param_dict["reasoning"]
     assert content == param_dict["content"]
diff --git a/tests/reasoning/test_mistral_reasoning_parser.py b/tests/reasoning/test_mistral_reasoning_parser.py
index ff7f94b40ee11..5163c863863a7 100644
--- a/tests/reasoning/test_mistral_reasoning_parser.py
+++ b/tests/reasoning/test_mistral_reasoning_parser.py
@@ -20,97 +20,97 @@ def mistral_tokenizer():
 
 SIMPLE_REASONING = {
     "output": "This is a reasoning section[/THINK]This is the rest",
-    "reasoning_content": "This is a reasoning section",
+    "reasoning": "This is a reasoning section",
     "content": "This is the rest",
     "is_reasoning_end": True,
 }
 COMPLETE_REASONING = {
     "output": "This is a reasoning section[/THINK]",
-    "reasoning_content": "This is a reasoning section",
+    "reasoning": "This is a reasoning section",
     "content": None,
     "is_reasoning_end": True,
 }
 NO_CONTENT = {
     "output": "This is content",
-    "reasoning_content": "This is content",
+    "reasoning": "This is content",
     "content": None,
     "is_reasoning_end": False,
 }
 NO_REASONING_STREAMING = {
     "output": "This is a reasoning section",
-    "reasoning_content": "This is a reasoning section",
+    "reasoning": "This is a reasoning section",
     "content": None,
     "is_reasoning_end": False,
 }
 MULTIPLE_LINES = {
     "output": "This\nThat[/THINK]This is the rest\nThat",
-    "reasoning_content": "This\nThat",
+    "reasoning": "This\nThat",
     "content": "This is the rest\nThat",
     "is_reasoning_end": True,
 }
 SHORTEST_REASONING_NO_STREAMING = {
     "output": "[/THINK]This is the rest",
-    "reasoning_content": "",
+    "reasoning": "",
     "content": "This is the rest",
     "is_reasoning_end": True,
 }
 SHORTEST_REASONING = {
     "output": "[/THINK]This is the rest",
-    "reasoning_content": None,
+    "reasoning": None,
     "content": "This is the rest",
     "is_reasoning_end": True,
 }
 REASONING_WITH_THINK = {
     "output": "[THINK]This is a reasoning section[/THINK]This is the rest",
-    "reasoning_content": "This is a reasoning section",
+    "reasoning": "This is a reasoning section",
     "content": "This is the rest",
     "is_reasoning_end": True,
 }
 COMPLETE_REASONING_WITH_THINK = {
     "output": "[THINK]This is a reasoning section[/THINK]",
-    "reasoning_content": "This is a reasoning section",
+    "reasoning": "This is a reasoning section",
     "content": None,
     "is_reasoning_end": True,
 }
 MULTIPLE_LINES_WITH_THINK = {
     "output": "[THINK]This\nThat[/THINK]This is the rest\nThat",
-    "reasoning_content": "This\nThat",
+    "reasoning": "This\nThat",
     "content": "This is the rest\nThat",
     "is_reasoning_end": True,
 }
 SHORTEST_REASONING_NO_STREAMING_WITH_THINK = {
     "output": "[/THINK]This is the rest",
-    "reasoning_content": "",
+    "reasoning": "",
     "content": "This is the rest",
     "is_reasoning_end": True,
 }
 SHORTEST_REASONING_WITH_THINK = {
     "output": "[/THINK]This is the rest",
-    "reasoning_content": None,
+    "reasoning": None,
     "content": "This is the rest",
     "is_reasoning_end": True,
 }
 THINK_NO_END = {
     "output": "[THINK]This is a reasoning section",
-    "reasoning_content": "This is a reasoning section",
+    "reasoning": "This is a reasoning section",
     "content": None,
     "is_reasoning_end": False,
 }
 EMPTY = {
     "output": "",
-    "reasoning_content": "",
+    "reasoning": "",
     "content": None,
     "is_reasoning_end": False,
 }
 EMPTY_STREAMING = {
     "output": "",
-    "reasoning_content": None,
+    "reasoning": None,
     "content": None,
     "is_reasoning_end": False,
 }
 NEW_LINE = {
     "output": "\n[THINK]This is a reasoning section[/THINK]\nThis is the rest",
-    "reasoning_content": "This is a reasoning section",
+    "reasoning": "This is a reasoning section",
     "content": "\nThis is the rest",
     "is_reasoning_end": True,
 }
@@ -120,7 +120,7 @@ NEW_LINE = {
 # or not.
 NEW_LINE_STREAMING = {
     "output": "\n[THINK]This is a reasoning section[/THINK]\nThis is the rest",
-    "reasoning_content": "\nThis is a reasoning section",
+    "reasoning": "\nThis is a reasoning section",
     "content": "\nThis is the rest",
     "is_reasoning_end": True,
 }
@@ -307,7 +307,7 @@ def test_mistral_reasoning(
         parser, output_tokens, streaming=streaming
     )
 
-    assert reasoning == param_dict["reasoning_content"]
+    assert reasoning == param_dict["reasoning"]
     assert content == param_dict["content"]
 
     # Test is_reasoning_end
diff --git a/tests/reasoning/test_olmo3_reasoning_parser.py b/tests/reasoning/test_olmo3_reasoning_parser.py
index 4a2eca994610e..bc0e72e2a4563 100644
--- a/tests/reasoning/test_olmo3_reasoning_parser.py
+++ b/tests/reasoning/test_olmo3_reasoning_parser.py
@@ -13,43 +13,43 @@ END_REASONING = "</think>"
 
 NO_REASONING = {
     "output": f"{START_REASONING}{END_REASONING}No thoughts, head empty!",
-    "reasoning_content": None,
+    "reasoning": None,
     "content": "No thoughts, head empty!",
 }
 
 NO_REASONING_WITH_NEWLINE = {
     "output": f"{START_REASONING}\n{END_REASONING}\n\nNo thoughts, head empty!",
-    "reasoning_content": "\n",
+    "reasoning": "\n",
     "content": "\n\nNo thoughts, head empty!",
 }
 
 SIMPLE_REASONING = {
     "output": f"{START_REASONING}This is a reasoning section{END_REASONING}This is the rest",  # noqa: E501
-    "reasoning_content": "This is a reasoning section",
+    "reasoning": "This is a reasoning section",
     "content": "This is the rest",
 }
 
 SIMPLE_REASONING_WITH_NEWLINE = {
     "output": f"{START_REASONING} Look!\n\nI'm thinking...{END_REASONING}\nThis is the rest",  # noqa: E501
-    "reasoning_content": " Look!\n\nI'm thinking...",
+    "reasoning": " Look!\n\nI'm thinking...",
     "content": "\nThis is the rest",
 }
 
 SIMPLE_REASONING_WITH_MULTIPLE_NEWLINES = {
     "output": f"{START_REASONING}\nLook!\nI'm thinking...\n\n{END_REASONING}\n\n\nThis is the rest",  # noqa: E501
-    "reasoning_content": "\nLook!\nI'm thinking...\n\n",
+    "reasoning": "\nLook!\nI'm thinking...\n\n",
     "content": "\n\n\nThis is the rest",
 }
 
 NO_REASONING_ONLY_END_THINK = {
     "output": f"{END_REASONING}\n\nNo thoughts, head empty!",
-    "reasoning_content": None,
+    "reasoning": None,
     "content": "\n\nNo thoughts, head empty!",
 }
 
 REASONING_ONLY_END_THINK = {
     "output": f"The user is asking me not to think.{END_REASONING}No thoughts!",
-    "reasoning_content": "The user is asking me not to think.",
+    "reasoning": "The user is asking me not to think.",
     "content": "No thoughts!",
 }
 
@@ -148,5 +148,5 @@ def test_reasoning(
         reasoning_parser=parser, model_output=model_output, streaming=streaming
     )
 
-    assert reasoning == param_dict["reasoning_content"]
+    assert reasoning == param_dict["reasoning"]
     assert content == param_dict["content"]
diff --git a/tests/reasoning/test_qwen3_reasoning_parser.py b/tests/reasoning/test_qwen3_reasoning_parser.py
index c06e40d72de2c..92a8b6ab37615 100644
--- a/tests/reasoning/test_qwen3_reasoning_parser.py
+++ b/tests/reasoning/test_qwen3_reasoning_parser.py
@@ -22,47 +22,47 @@ def qwen3_tokenizer():
 # 带 <think></think>，非stream
 WITH_THINK = {
     "output": "<think>This is a reasoning section</think>This is the rest",
-    "reasoning_content": "This is a reasoning section",
+    "reasoning": "This is a reasoning section",
     "content": "This is the rest",
 }
 # 带 <think></think>，stream
 WITH_THINK_STREAM = {
     "output": "<think>This is a reasoning section</think>This is the rest",
-    "reasoning_content": "This is a reasoning section",
+    "reasoning": "This is a reasoning section",
     "content": "This is the rest",
 }
 # 不带 <think></think>，非stream
 WITHOUT_THINK = {
     "output": "This is the rest",
-    "reasoning_content": None,
+    "reasoning": None,
     "content": "This is the rest",
 }
 # 不带 <think></think>，stream
 WITHOUT_THINK_STREAM = {
     "output": "This is the rest",
-    "reasoning_content": None,
+    "reasoning": None,
     "content": "This is the rest",
 }
 
 COMPLETE_REASONING = {
     "output": "<think>This is a reasoning section</think>",
-    "reasoning_content": "This is a reasoning section",
+    "reasoning": "This is a reasoning section",
     "content": None,
 }
 MULTILINE_REASONING = {
     "output": "<think>This is a reasoning\nsection</think>This is the rest\nThat",
-    "reasoning_content": "This is a reasoning\nsection",
+    "reasoning": "This is a reasoning\nsection",
     "content": "This is the rest\nThat",
 }
 ONLY_OPEN_TAG = {
     "output": "<think>This is a reasoning section",
-    "reasoning_content": None,
+    "reasoning": None,
     "content": "<think>This is a reasoning section",
 }
 
 ONLY_OPEN_TAG_STREAM = {
     "output": "<think>This is a reasoning section",
-    "reasoning_content": "This is a reasoning section",
+    "reasoning": "This is a reasoning section",
     "content": None,
 }
 
@@ -138,5 +138,5 @@ def test_reasoning(
         parser, output_tokens, streaming=streaming
     )
 
-    assert reasoning == param_dict["reasoning_content"]
+    assert reasoning == param_dict["reasoning"]
     assert content == param_dict["content"]
diff --git a/tests/reasoning/test_seedoss_reasoning_parser.py b/tests/reasoning/test_seedoss_reasoning_parser.py
index b356b8545f412..33d56d32965a0 100644
--- a/tests/reasoning/test_seedoss_reasoning_parser.py
+++ b/tests/reasoning/test_seedoss_reasoning_parser.py
@@ -28,49 +28,49 @@ def seedoss_tokenizer():
 
 SIMPLE_REASONING: dict[str, Any] = {
     "output": "This is a reasoning section</seed:think>This is the rest",
-    "reasoning_content": "This is a reasoning section",
+    "reasoning": "This is a reasoning section",
     "content": "This is the rest",
     "is_reasoning_end": True,
 }
 COMPLETE_REASONING: dict[str, Any] = {
     "output": "This is a reasoning section</seed:think>",
-    "reasoning_content": "This is a reasoning section",
+    "reasoning": "This is a reasoning section",
     "content": None,
     "is_reasoning_end": True,
 }
 NO_CONTENT: dict[str, Any] = {
     "output": "This is content",
-    "reasoning_content": "This is content",
+    "reasoning": "This is content",
     "content": None,
     "is_reasoning_end": False,
 }
 NO_REASONING_STREAMING: dict[str, Any] = {
     "output": "This is a reasoning section",
-    "reasoning_content": "This is a reasoning section",
+    "reasoning": "This is a reasoning section",
     "content": None,
     "is_reasoning_end": False,
 }
 MULTIPLE_LINES: dict[str, Any] = {
     "output": "This\nThat</seed:think>This is the rest\nThat",
-    "reasoning_content": "This\nThat",
+    "reasoning": "This\nThat",
     "content": "This is the rest\nThat",
     "is_reasoning_end": True,
 }
 WITH_START_TOKEN: dict[str, Any] = {
     "output": ("<seed:think>This is a reasoning section</seed:think>This is the rest"),
-    "reasoning_content": "This is a reasoning section",
+    "reasoning": "This is a reasoning section",
     "content": "This is the rest",
     "is_reasoning_end": True,
 }
 ONLY_END_TOKEN: dict[str, Any] = {
     "output": "Some reasoning</seed:think>This is the rest",
-    "reasoning_content": "Some reasoning",
+    "reasoning": "Some reasoning",
     "content": "This is the rest",
     "is_reasoning_end": True,
 }
 NO_TOKENS: dict[str, Any] = {
     "output": "This is just content without any reasoning tokens",
-    "reasoning_content": "This is just content without any reasoning tokens",
+    "reasoning": "This is just content without any reasoning tokens",
     "content": None,
     "is_reasoning_end": False,
 }
@@ -95,7 +95,7 @@ def test_simple_reasoning(seedoss_tokenizer, streaming):
         parser, [cast(str, SIMPLE_REASONING["output"])], streaming=streaming
     )
 
-    assert reasoning == SIMPLE_REASONING["reasoning_content"]
+    assert reasoning == SIMPLE_REASONING["reasoning"]
     assert content == SIMPLE_REASONING["content"]
 
 
@@ -109,7 +109,7 @@ def test_complete_reasoning(seedoss_tokenizer, streaming):
         parser, [cast(str, COMPLETE_REASONING["output"])], streaming=streaming
     )
 
-    assert reasoning == COMPLETE_REASONING["reasoning_content"]
+    assert reasoning == COMPLETE_REASONING["reasoning"]
     assert content == COMPLETE_REASONING["content"]
 
 
@@ -123,7 +123,7 @@ def test_no_content(seedoss_tokenizer, streaming):
         parser, [cast(str, NO_CONTENT["output"])], streaming=streaming
     )
 
-    assert reasoning == NO_CONTENT["reasoning_content"]
+    assert reasoning == NO_CONTENT["reasoning"]
     assert content == NO_CONTENT["content"]
 
 
@@ -137,7 +137,7 @@ def test_multiple_lines(seedoss_tokenizer, streaming):
         parser, [cast(str, MULTIPLE_LINES["output"])], streaming=streaming
     )
 
-    assert reasoning == MULTIPLE_LINES["reasoning_content"]
+    assert reasoning == MULTIPLE_LINES["reasoning"]
     assert content == MULTIPLE_LINES["content"]
 
 
@@ -151,7 +151,7 @@ def test_with_start_token(seedoss_tokenizer, streaming):
         parser, [cast(str, WITH_START_TOKEN["output"])], streaming=streaming
     )
 
-    assert reasoning == WITH_START_TOKEN["reasoning_content"]
+    assert reasoning == WITH_START_TOKEN["reasoning"]
     assert content == WITH_START_TOKEN["content"]
 
 
@@ -168,7 +168,7 @@ def test_only_end_token(seedoss_tokenizer, streaming):
         parser, [cast(str, ONLY_END_TOKEN["output"])], streaming=streaming
     )
 
-    assert reasoning == ONLY_END_TOKEN["reasoning_content"]
+    assert reasoning == ONLY_END_TOKEN["reasoning"]
     assert content == ONLY_END_TOKEN["content"]
 
 
@@ -182,7 +182,7 @@ def test_no_tokens(seedoss_tokenizer, streaming):
         parser, [cast(str, NO_TOKENS["output"])], streaming=streaming
     )
 
-    assert reasoning == NO_TOKENS["reasoning_content"]
+    assert reasoning == NO_TOKENS["reasoning"]
     assert content == NO_TOKENS["content"]
 
 
diff --git a/tests/reasoning/utils.py b/tests/reasoning/utils.py
index ccd4ff8dd263a..bd0b230a847cb 100644
--- a/tests/reasoning/utils.py
+++ b/tests/reasoning/utils.py
@@ -9,25 +9,28 @@ from vllm.transformers_utils.tokenizers.mistral import MistralTokenizer
 
 class StreamingReasoningReconstructor:
     def __init__(self):
-        self.reasoning_content = None
+        self.reasoning = None
         self.other_content = None
 
     def append_delta(self, delta: DeltaMessage):
         # content and the reasoning content should not be present
         # at the same time
-        assert delta.content is None or delta.reasoning_content is None, (
+        assert delta.content is None or delta.reasoning is None, (
             "Both content and reasoning content are present in the delta message"
         )
+        assert delta.reasoning == delta.reasoning_content, (
+            "reasoning_content should be present for backwards compatibility"
+        )
         if delta.content is not None:
             if self.other_content is None:
                 self.other_content = delta.content
             else:
                 self.other_content += delta.content
         else:
-            if self.reasoning_content is None:
-                self.reasoning_content = delta.reasoning_content
+            if self.reasoning is None:
+                self.reasoning = delta.reasoning
             else:
-                self.reasoning_content += delta.reasoning_content
+                self.reasoning += delta.reasoning
 
 
 def run_reasoning_extraction(
@@ -43,7 +46,7 @@ def run_reasoning_extraction(
             request,
         )
         return (
-            reconstructor.reasoning_content,
+            reconstructor.reasoning,
             reconstructor.other_content or None,
         )
     else:
@@ -69,7 +72,7 @@ def run_reasoning_extraction_mistral(
             request,
         )
         return (
-            reconstructor.reasoning_content,
+            reconstructor.reasoning,
             reconstructor.other_content or None,
         )
     else:
@@ -88,7 +91,7 @@ def run_reasoning_extraction_nonstreaming(
     request: ChatCompletionRequest | None = None,
 ) -> tuple[str | None, str | None]:
     request = request or ChatCompletionRequest(messages=[], model="test-model")
-    return reasoning_parser.extract_reasoning_content(
+    return reasoning_parser.extract_reasoning(
         model_output="".join(model_output), request=request
     )
 
@@ -110,7 +113,7 @@ def run_reasoning_extraction_streaming(
         ]
         current_text = previous_text + delta
         current_tokens = previous_tokens + token_delta
-        delta_message = reasoning_parser.extract_reasoning_content_streaming(
+        delta_message = reasoning_parser.extract_reasoning_streaming(
             previous_text,
             current_text,
             delta,
@@ -142,7 +145,7 @@ def run_reasoning_extraction_streaming_mistral(
         delta = reasoning_parser.model_tokenizer.convert_ids_to_tokens([model_delta])[0]
         current_text = previous_text + delta
         current_tokens = previous_tokens + token_delta
-        delta_message = reasoning_parser.extract_reasoning_content_streaming(
+        delta_message = reasoning_parser.extract_reasoning_streaming(
             previous_text,
             current_text,
             delta,
diff --git a/tests/tokenization/test_mistral_tokenizer.py b/tests/tokenization/test_mistral_tokenizer.py
index 926ad2503398c..1ada8ee187c38 100644
--- a/tests/tokenization/test_mistral_tokenizer.py
+++ b/tests/tokenization/test_mistral_tokenizer.py
@@ -102,7 +102,7 @@ def test_prepare_apply_chat_template_tools_and_messages(
     assert actual_request == expected_mistral_output
 
 
-# Tool use with list content and reasoning_content
+# Tool use with list content and reasoning
 @pytest.mark.parametrize(
     "openai_request,expected_mistral_output",
     [
@@ -115,7 +115,7 @@ def test_prepare_apply_chat_template_tools_and_messages(
                     },
                     {
                         "role": "assistant",
-                        "reasoning_content": None,
+                        "reasoning": None,
                         "content": None,
                         "tool_calls": [
                             {
diff --git a/tests/tool_use/test_ernie45_moe_tool_parser.py b/tests/tool_use/test_ernie45_moe_tool_parser.py
index fb5af6e13a96b..36a07bb561d9e 100644
--- a/tests/tool_use/test_ernie45_moe_tool_parser.py
+++ b/tests/tool_use/test_ernie45_moe_tool_parser.py
@@ -337,7 +337,7 @@ def test_extract_tool_calls_streaming_incremental(
         if (
             delta_message.role is None
             and delta_message.content is None
-            and delta_message.reasoning_content is None
+            and delta_message.reasoning is None
             and len(delta_message.tool_calls) == 0
         ):
             continue
diff --git a/tests/v1/entrypoints/llm/test_struct_output_generate.py b/tests/v1/entrypoints/llm/test_struct_output_generate.py
index 676423f2ca910..4cd26e7b41d3a 100644
--- a/tests/v1/entrypoints/llm/test_struct_output_generate.py
+++ b/tests/v1/entrypoints/llm/test_struct_output_generate.py
@@ -674,10 +674,10 @@ def test_structured_output_with_reasoning_matrices(
     assert output is not None and isinstance(output, RequestOutput)
     prompt = output.prompt
     generated_text = output.outputs[0].text
-    reasoning_content, content = run_reasoning_extraction(reasoner, [generated_text])
-    print(f"Prompt: {prompt!r}\nReasoning: {reasoning_content!r}\nContent: {content!r}")
+    reasoning, content = run_reasoning_extraction(reasoner, [generated_text])
+    print(f"Prompt: {prompt!r}\nReasoning: {reasoning!r}\nContent: {content!r}")
 
-    assert content is not None and reasoning_content is not None
+    assert content is not None and reasoning is not None
     output_json = json.loads(content)
     jsonschema.validate(instance=output_json, schema=reasoning_schema)
 
diff --git a/vllm/entrypoints/harmony_utils.py b/vllm/entrypoints/harmony_utils.py
index 7958d0317739a..47a252348c102 100644
--- a/vllm/entrypoints/harmony_utils.py
+++ b/vllm/entrypoints/harmony_utils.py
@@ -521,15 +521,15 @@ def parse_chat_output(
     is_tool_call = False  # TODO: update this when tool call is supported
     if len(output_msgs) == 0:
         # The generation has stopped during reasoning.
-        reasoning_content = parser.current_content
+        reasoning = parser.current_content
         final_content = None
     elif len(output_msgs) == 1:
         # The generation has stopped during final message.
-        reasoning_content = output_msgs[0].content[0].text
+        reasoning = output_msgs[0].content[0].text
         final_content = parser.current_content
     else:
         reasoning_msg = output_msgs[:-1]
         final_msg = output_msgs[-1]
-        reasoning_content = "\n".join([msg.content[0].text for msg in reasoning_msg])
+        reasoning = "\n".join([msg.content[0].text for msg in reasoning_msg])
         final_content = final_msg.content[0].text
-    return reasoning_content, final_content, is_tool_call
+    return reasoning, final_content, is_tool_call
diff --git a/vllm/entrypoints/openai/protocol.py b/vllm/entrypoints/openai/protocol.py
index cf80c4fccbadb..69e757d4764d2 100644
--- a/vllm/entrypoints/openai/protocol.py
+++ b/vllm/entrypoints/openai/protocol.py
@@ -2102,7 +2102,15 @@ class ChatMessage(OpenAIBaseModel):
     tool_calls: list[ToolCall] = Field(default_factory=list)
 
     # vLLM-specific fields that are not in OpenAI spec
+    reasoning: str | None = None
     reasoning_content: str | None = None
+    """Deprecated: use `reasoning` instead."""
+
+    @model_validator(mode="after")
+    def handle_deprecated_reasoning_content(self):
+        """Copy reasoning to reasoning_content for backward compatibility."""
+        self.reasoning_content = self.reasoning
+        return self
 
 
 class ChatCompletionLogProb(OpenAIBaseModel):
@@ -2156,9 +2164,17 @@ class ChatCompletionResponse(OpenAIBaseModel):
 class DeltaMessage(OpenAIBaseModel):
     role: str | None = None
     content: str | None = None
+    reasoning: str | None = None
     reasoning_content: str | None = None
+    """Deprecated: use `reasoning` instead."""
     tool_calls: list[DeltaToolCall] = Field(default_factory=list)
 
+    @model_validator(mode="after")
+    def handle_deprecated_reasoning_content(self):
+        """Copy reasoning to reasoning_content for backward compatibility."""
+        self.reasoning_content = self.reasoning
+        return self
+
 
 class ChatCompletionResponseStreamChoice(OpenAIBaseModel):
     index: int
diff --git a/vllm/entrypoints/openai/serving_chat.py b/vllm/entrypoints/openai/serving_chat.py
index 888aa4eb6fa8d..59e1c8d531793 100644
--- a/vllm/entrypoints/openai/serving_chat.py
+++ b/vllm/entrypoints/openai/serving_chat.py
@@ -759,9 +759,7 @@ class OpenAIServingChat(OpenAIServing):
                             delta_message = DeltaMessage(content=delta_text)
                         elif cur_channel == "analysis":
                             if request.include_reasoning:
-                                delta_message = DeltaMessage(
-                                    reasoning_content=delta_text
-                                )
+                                delta_message = DeltaMessage(reasoning=delta_text)
                             else:
                                 delta_message = None
                         elif (
@@ -823,7 +821,7 @@ class OpenAIServingChat(OpenAIServing):
                         ):
                             assert reasoning_parser is not None
                             delta_message = (
-                                reasoning_parser.extract_reasoning_content_streaming(
+                                reasoning_parser.extract_reasoning_streaming(
                                     previous_text,
                                     current_text,
                                     delta_text,
@@ -836,7 +834,7 @@ class OpenAIServingChat(OpenAIServing):
                             # or think end id in prompt_token_ids
                             # i.e {"enable_thinking": False},
                             # set reasoning status to end.
-                            # Only keep 'content', remove 'reasoning_content'.
+                            # Only keep 'content', remove 'reasoning'.
                             if reasoning_parser.is_reasoning_end(
                                 as_list(output.token_ids)
                             ) or (
@@ -899,7 +897,7 @@ class OpenAIServingChat(OpenAIServing):
 
                         if self.reasoning_parser and not reasoning_end_arr[i]:
                             delta_message = (
-                                reasoning_parser.extract_reasoning_content_streaming(
+                                reasoning_parser.extract_reasoning_streaming(
                                     previous_text,
                                     current_text,
                                     delta_text,
@@ -948,7 +946,7 @@ class OpenAIServingChat(OpenAIServing):
                         output_token_ids = as_list(output.token_ids)
                         if not reasoning_end_arr[i]:
                             delta_message = (
-                                reasoning_parser.extract_reasoning_content_streaming(
+                                reasoning_parser.extract_reasoning_streaming(
                                     previous_text,
                                     current_text,
                                     delta_text,
@@ -961,7 +959,7 @@ class OpenAIServingChat(OpenAIServing):
                             # i.e {"enable_thinking": False},
                             # set reasoning status to end.
                             # Remove the text and token ids related
-                            # to 'reasoning_content'.
+                            # to 'reasoning'.
                             if (
                                 res.prompt_token_ids
                                 and reasoning_parser.is_reasoning_end(
@@ -978,7 +976,7 @@ class OpenAIServingChat(OpenAIServing):
                             # When encountering think end id in delta_token_ids,
                             # set reasoning status to end.
                             # Remove the text and token ids related
-                            # to 'reasoning_content'.
+                            # to 'reasoning'.
                             if reasoning_parser.is_reasoning_end(output_token_ids):
                                 reasoning_end_arr[i] = True
                                 current_token_ids = (
@@ -1033,15 +1031,13 @@ class OpenAIServingChat(OpenAIServing):
 
                     # when only reasoning
                     elif self.reasoning_parser:
-                        delta_message = (
-                            reasoning_parser.extract_reasoning_content_streaming(
-                                previous_text,
-                                current_text,
-                                delta_text,
-                                previous_token_ids,
-                                current_token_ids,
-                                output.token_ids,
-                            )
+                        delta_message = reasoning_parser.extract_reasoning_streaming(
+                            previous_text,
+                            current_text,
+                            delta_text,
+                            previous_token_ids,
+                            current_token_ids,
+                            output.token_ids,
                         )
                     # handle streaming just a content delta
                     else:
@@ -1334,9 +1330,9 @@ class OpenAIServingChat(OpenAIServing):
                 logprobs = None
 
             if self.use_harmony:
-                reasoning_content, content, _ = parse_chat_output(token_ids)
+                reasoning, content, _ = parse_chat_output(token_ids)
                 if not request.include_reasoning:
-                    reasoning_content = None
+                    reasoning = None
 
                 if self.tool_parser is not None:
                     tool_parser = self.tool_parser(tokenizer)
@@ -1349,14 +1345,14 @@ class OpenAIServingChat(OpenAIServing):
                     content = tool_call_info.content
                     message = ChatMessage(
                         role=role,
-                        reasoning_content=reasoning_content,
+                        reasoning=reasoning,
                         content=content,
                         tool_calls=tool_call_info.tool_calls,
                     )
                 else:
                     message = ChatMessage(
                         role=role,
-                        reasoning_content=reasoning_content,
+                        reasoning=reasoning,
                         content=content,
                     )
 
@@ -1390,13 +1386,13 @@ class OpenAIServingChat(OpenAIServing):
                     return self.create_error_response(str(e))
                 # If the reasoning parser is enabled,
                 # tool calls are extracted exclusively from the content.
-                reasoning_content, content = reasoning_parser.extract_reasoning_content(
+                reasoning, content = reasoning_parser.extract_reasoning(
                     output.text, request=request
                 )
                 if not request.include_reasoning:
-                    reasoning_content = None
+                    reasoning = None
             else:
-                reasoning_content = None
+                reasoning = None
                 content = output.text
 
             auto_tools_called = False
@@ -1416,9 +1412,7 @@ class OpenAIServingChat(OpenAIServing):
                 not isinstance(request.tool_choice, ChatCompletionNamedToolChoiceParam)
                 and request.tool_choice != "required"
             ):
-                message = ChatMessage(
-                    role=role, reasoning_content=reasoning_content, content=content
-                )
+                message = ChatMessage(role=role, reasoning=reasoning, content=content)
 
             # if the request uses tools and specified a tool choice
             elif (
@@ -1428,7 +1422,7 @@ class OpenAIServingChat(OpenAIServing):
                 assert tool_calls is not None and len(tool_calls) > 0
                 message = ChatMessage(
                     role=role,
-                    reasoning_content=reasoning_content,
+                    reasoning=reasoning,
                     content="",
                     tool_calls=[tool_call_class(function=tc) for tc in tool_calls],
                 )
@@ -1452,15 +1446,13 @@ class OpenAIServingChat(OpenAIServing):
                     role=role,
                     content="",
                     tool_calls=tool_call_class_items,
-                    reasoning_content=reasoning_content,
+                    reasoning=reasoning,
                 )
 
             # if the request doesn't use tool choice
             # OR specifies to not use a tool
             elif not request.tool_choice or request.tool_choice == "none":
-                message = ChatMessage(
-                    role=role, reasoning_content=reasoning_content, content=content
-                )
+                message = ChatMessage(role=role, reasoning=reasoning, content=content)
 
             # handle when there are tools and tool choice is auto
             elif (
@@ -1476,7 +1468,7 @@ class OpenAIServingChat(OpenAIServing):
                 if tool_calls:
                     message = ChatMessage(
                         role=role,
-                        reasoning_content=reasoning_content,
+                        reasoning=reasoning,
                         content=content,
                         tool_calls=[
                             ToolCall(
@@ -1498,7 +1490,7 @@ class OpenAIServingChat(OpenAIServing):
                         ret_content = content
                     message = ChatMessage(
                         role=role,
-                        reasoning_content=reasoning_content,
+                        reasoning=reasoning,
                         content=ret_content,
                     )
 
@@ -1509,9 +1501,7 @@ class OpenAIServingChat(OpenAIServing):
                     " if tools should be extracted. Returning a standard chat "
                     "completion."
                 )
-                message = ChatMessage(
-                    role=role, reasoning_content=reasoning_content, content=content
-                )
+                message = ChatMessage(role=role, reasoning=reasoning, content=content)
             # In OpenAI's API, when a tool is called, the finish_reason is:
             # "tool_calls" for "auto" or "required" tool calls,
             # and "stop" for named tool calls.
diff --git a/vllm/entrypoints/openai/serving_responses.py b/vllm/entrypoints/openai/serving_responses.py
index b6fef7d2fafd2..9b79e50c32085 100644
--- a/vllm/entrypoints/openai/serving_responses.py
+++ b/vllm/entrypoints/openai/serving_responses.py
@@ -778,11 +778,11 @@ class OpenAIServingResponses(OpenAIServing):
                 logger.exception("Error in reasoning parser creation.")
                 raise e
 
-            reasoning_content, content = reasoning_parser.extract_reasoning_content(
+            reasoning, content = reasoning_parser.extract_reasoning(
                 final_output.text, request=request
             )
         else:
-            reasoning_content = None
+            reasoning = None
             content = final_output.text
 
         # Log complete response if output logging is enabled
@@ -790,8 +790,8 @@ class OpenAIServingResponses(OpenAIServing):
             output_text = ""
             if content:
                 output_text = content
-            elif reasoning_content:
-                output_text = f"[reasoning: {reasoning_content}]"
+            elif reasoning:
+                output_text = f"[reasoning: {reasoning}]"
 
             if output_text:
                 self.request_logger.log_outputs(
@@ -805,15 +805,13 @@ class OpenAIServingResponses(OpenAIServing):
 
         reasoning_item = None
         message_item = None
-        if reasoning_content:
+        if reasoning:
             reasoning_item = ResponseReasoningItem(
                 id=f"rs_{random_uuid()}",
                 summary=[],
                 type="reasoning",
                 content=[
-                    ResponseReasoningTextContent(
-                        text=reasoning_content, type="reasoning_text"
-                    )
+                    ResponseReasoningTextContent(text=reasoning, type="reasoning_text")
                 ],
                 status=None,  # NOTE: Only the last output item has status.
             )
@@ -1208,15 +1206,13 @@ class OpenAIServingResponses(OpenAIServing):
             if ctx.last_output.outputs:
                 output = ctx.last_output.outputs[0]
                 if reasoning_parser:
-                    delta_message = (
-                        reasoning_parser.extract_reasoning_content_streaming(
-                            previous_text=previous_text,
-                            current_text=previous_text + output.text,
-                            delta_text=output.text,
-                            previous_token_ids=previous_token_ids,
-                            current_token_ids=previous_token_ids + output.token_ids,
-                            delta_token_ids=output.token_ids,
-                        )
+                    delta_message = reasoning_parser.extract_reasoning_streaming(
+                        previous_text=previous_text,
+                        current_text=previous_text + output.text,
+                        delta_text=output.text,
+                        previous_token_ids=previous_token_ids,
+                        current_token_ids=previous_token_ids + output.token_ids,
+                        delta_token_ids=output.token_ids,
                     )
                 else:
                     delta_message = DeltaMessage(
@@ -1228,7 +1224,7 @@ class OpenAIServingResponses(OpenAIServing):
                     continue
                 if not first_delta_sent:
                     current_item_id = str(uuid.uuid4())
-                    if delta_message.reasoning_content:
+                    if delta_message.reasoning:
                         yield _increment_sequence_number_and_return(
                             ResponseOutputItemAddedEvent(
                                 type="response.output_item.added",
@@ -1280,15 +1276,15 @@ class OpenAIServingResponses(OpenAIServing):
                 # same as content or reasoning content
                 if (
                     previous_delta_messages
-                    and previous_delta_messages[-1].reasoning_content is not None
+                    and previous_delta_messages[-1].reasoning is not None
                     and delta_message.content is not None
                 ):
                     # from reasoning to normal content, send done
                     # event for reasoning
                     reason_content = "".join(
-                        pm.reasoning_content
+                        pm.reasoning
                         for pm in previous_delta_messages
-                        if pm.reasoning_content is not None
+                        if pm.reasoning is not None
                     )
                     yield _increment_sequence_number_and_return(
                         ResponseReasoningTextDoneEvent(
@@ -1356,7 +1352,7 @@ class OpenAIServingResponses(OpenAIServing):
                     # reset previous delta messages
                     previous_delta_messages = []
 
-                if delta_message.reasoning_content is not None:
+                if delta_message.reasoning is not None:
                     yield _increment_sequence_number_and_return(
                         ResponseReasoningTextDeltaEvent(
                             type="response.reasoning_text.delta",
@@ -1364,7 +1360,7 @@ class OpenAIServingResponses(OpenAIServing):
                             content_index=current_content_index,
                             output_index=current_output_index,
                             item_id=current_item_id,
-                            delta=delta_message.reasoning_content,
+                            delta=delta_message.reasoning,
                         )
                     )
                 elif delta_message.content is not None:
@@ -1392,11 +1388,11 @@ class OpenAIServingResponses(OpenAIServing):
 
                 previous_delta_messages.append(delta_message)
         if previous_delta_messages:
-            if previous_delta_messages[-1].reasoning_content is not None:
+            if previous_delta_messages[-1].reasoning is not None:
                 reason_content = "".join(
-                    pm.reasoning_content
+                    pm.reasoning
                     for pm in previous_delta_messages
-                    if pm.reasoning_content is not None
+                    if pm.reasoning is not None
                 )
                 yield _increment_sequence_number_and_return(
                     ResponseReasoningTextDoneEvent(
diff --git a/vllm/entrypoints/openai/tool_parsers/qwen3xml_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/qwen3xml_tool_parser.py
index cf2fa30d01547..432c419db189a 100644
--- a/vllm/entrypoints/openai/tool_parsers/qwen3xml_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/qwen3xml_tool_parser.py
@@ -279,7 +279,7 @@ class StreamingXMLToolCallParser:
                     final_delta = DeltaMessage(
                         role=None,
                         content=None,
-                        reasoning_content=None,
+                        reasoning=None,
                         tool_calls=[
                             DeltaToolCall(
                                 index=self.tool_call_index - 1,
diff --git a/vllm/reasoning/abs_reasoning_parsers.py b/vllm/reasoning/abs_reasoning_parsers.py
index 63ff450053ea1..d26e4ffc9c163 100644
--- a/vllm/reasoning/abs_reasoning_parsers.py
+++ b/vllm/reasoning/abs_reasoning_parsers.py
@@ -76,7 +76,7 @@ class ReasoningParser:
         """
 
     @abstractmethod
-    def extract_reasoning_content(
+    def extract_reasoning(
         self,
         model_output: str,
         request: ChatCompletionRequest | ResponsesRequest,
@@ -100,7 +100,7 @@ class ReasoningParser:
         """
 
     @abstractmethod
-    def extract_reasoning_content_streaming(
+    def extract_reasoning_streaming(
         self,
         previous_text: str,
         current_text: str,
diff --git a/vllm/reasoning/basic_parsers.py b/vllm/reasoning/basic_parsers.py
index 5fb3c8d368a85..0268947732726 100644
--- a/vllm/reasoning/basic_parsers.py
+++ b/vllm/reasoning/basic_parsers.py
@@ -76,7 +76,7 @@ class BaseThinkingReasoningParser(ReasoningParser):
         else:
             return input_ids[input_ids.index(self.end_token_id) + 1 :]
 
-    def extract_reasoning_content_streaming(
+    def extract_reasoning_streaming(
         self,
         previous_text: str,
         current_text: str,
@@ -103,11 +103,10 @@ class BaseThinkingReasoningParser(ReasoningParser):
                 # start token in previous, end token in delta,
                 # extract reasoning content
                 end_index = delta_text.find(self.end_token)
-                reasoning_content = delta_text[:end_index]
+                reasoning = delta_text[:end_index]
                 content = delta_text[end_index + len(self.end_token) :]
                 return DeltaMessage(
-                    reasoning_content=reasoning_content,
-                    content=content if content else None,
+                    reasoning=reasoning, content=content if content else None
                 )
             elif self.end_token_id in previous_token_ids:
                 # start token in previous, end token in previous,
@@ -116,30 +115,27 @@ class BaseThinkingReasoningParser(ReasoningParser):
             else:
                 # start token in previous, no end token in previous or delta,
                 # reasoning content continues
-                return DeltaMessage(reasoning_content=delta_text)
+                return DeltaMessage(reasoning=delta_text)
         elif self.start_token_id in delta_token_ids:
             if self.end_token_id in delta_token_ids:
                 # start token in delta, end token in delta,
                 # extract reasoning content
                 start_index = delta_text.find(self.start_token)
                 end_index = delta_text.find(self.end_token)
-                reasoning_content = delta_text[
-                    start_index + len(self.start_token) : end_index
-                ]
+                reasoning = delta_text[start_index + len(self.start_token) : end_index]
                 content = delta_text[end_index + len(self.end_token) :]
                 return DeltaMessage(
-                    reasoning_content=reasoning_content,
-                    content=content if content else None,
+                    reasoning=reasoning, content=content if content else None
                 )
             else:
                 # start token in delta, no end token in delta,
                 # reasoning content continues
-                return DeltaMessage(reasoning_content=delta_text)
+                return DeltaMessage(reasoning=delta_text)
         else:
             # not find thinking start token
             return DeltaMessage(content=delta_text)
 
-    def extract_reasoning_content(
+    def extract_reasoning(
         self, model_output: str, request: ChatCompletionRequest | ResponsesRequest
     ) -> tuple[str | None, str | None]:
         """
@@ -160,7 +156,7 @@ class BaseThinkingReasoningParser(ReasoningParser):
         if self.end_token not in model_output:
             return model_output, None
         else:
-            reasoning_content, _, content = model_output.partition(self.end_token)
+            reasoning, _, content = model_output.partition(self.end_token)
             # If generation stops right after end-of-think, return null content
             final_content = content or None
-            return reasoning_content, final_content
+            return reasoning, final_content
diff --git a/vllm/reasoning/deepseek_r1_reasoning_parser.py b/vllm/reasoning/deepseek_r1_reasoning_parser.py
index ad4e0fe6c9ce8..a91c8ceeb6255 100644
--- a/vllm/reasoning/deepseek_r1_reasoning_parser.py
+++ b/vllm/reasoning/deepseek_r1_reasoning_parser.py
@@ -25,7 +25,7 @@ class DeepSeekR1ReasoningParser(BaseThinkingReasoningParser):
         """The token that ends reasoning content."""
         return "</think>"
 
-    def extract_reasoning_content_streaming(
+    def extract_reasoning_streaming(
         self,
         previous_text: str,
         current_text: str,
@@ -34,7 +34,7 @@ class DeepSeekR1ReasoningParser(BaseThinkingReasoningParser):
         current_token_ids: Sequence[int],
         delta_token_ids: Sequence[int],
     ) -> DeltaMessage | None:
-        ret = super().extract_reasoning_content_streaming(
+        ret = super().extract_reasoning_streaming(
             previous_text,
             current_text,
             delta_text,
@@ -51,10 +51,10 @@ class DeepSeekR1ReasoningParser(BaseThinkingReasoningParser):
                 # end token in delta with more tokens,
                 # extract reasoning content and content
                 end_index = delta_text.find(self.end_token)
-                reasoning_content = delta_text[:end_index]
+                reasoning = delta_text[:end_index]
                 content = delta_text[end_index + len(self.end_token) :]
                 return DeltaMessage(
-                    reasoning_content=reasoning_content,
+                    reasoning=reasoning,
                     content=content if content else None,
                 )
             elif self.end_token_id in previous_token_ids:
@@ -62,6 +62,6 @@ class DeepSeekR1ReasoningParser(BaseThinkingReasoningParser):
                 return DeltaMessage(content=delta_text)
             else:
                 # no end token in previous or delta, reasoning content continues
-                return DeltaMessage(reasoning_content=delta_text)
+                return DeltaMessage(reasoning=delta_text)
 
         return ret
diff --git a/vllm/reasoning/deepseek_v3_reasoning_parser.py b/vllm/reasoning/deepseek_v3_reasoning_parser.py
index 81f6e1f32eb33..afdf73262aca0 100644
--- a/vllm/reasoning/deepseek_v3_reasoning_parser.py
+++ b/vllm/reasoning/deepseek_v3_reasoning_parser.py
@@ -38,12 +38,12 @@ class DeepSeekV3ReasoningParser(ReasoningParser):
     def extract_content_ids(self, input_ids: list[int]) -> list[int]:
         return self._parser.extract_content_ids(input_ids)
 
-    def extract_reasoning_content(
+    def extract_reasoning(
         self, model_output: str, request: ChatCompletionRequest
     ) -> tuple[str | None, str | None]:
-        return self._parser.extract_reasoning_content(model_output, request)
+        return self._parser.extract_reasoning(model_output, request)
 
-    def extract_reasoning_content_streaming(
+    def extract_reasoning_streaming(
         self,
         previous_text: str,
         current_text: str,
@@ -52,7 +52,7 @@ class DeepSeekV3ReasoningParser(ReasoningParser):
         current_token_ids: Sequence[int],
         delta_token_ids: Sequence[int],
     ) -> DeltaMessage | None:
-        return self._parser.extract_reasoning_content_streaming(
+        return self._parser.extract_reasoning_streaming(
             previous_text,
             current_text,
             delta_text,
diff --git a/vllm/reasoning/ernie45_reasoning_parser.py b/vllm/reasoning/ernie45_reasoning_parser.py
index 11dc1d10f73e3..3cdbf14858ec2 100644
--- a/vllm/reasoning/ernie45_reasoning_parser.py
+++ b/vllm/reasoning/ernie45_reasoning_parser.py
@@ -57,7 +57,7 @@ class Ernie45ReasoningParser(BaseThinkingReasoningParser):
                 "tokens in the tokenizer!"
             )
 
-    def extract_reasoning_content_streaming(
+    def extract_reasoning_streaming(
         self,
         previous_text: str,
         current_text: str,
@@ -73,7 +73,7 @@ class Ernie45ReasoningParser(BaseThinkingReasoningParser):
         The Ernie45 thinking model ouput format is
             abc\n</think>\n\n<response>\ndef\n</response>\n
         or  abc\n</think>\ndef
-        - 'abc' goes to reasoning_content
+        - 'abc' goes to reasoning
         - 'def' goes to content
         """
         # Skip single special tokens
@@ -94,7 +94,7 @@ class Ernie45ReasoningParser(BaseThinkingReasoningParser):
             # </think> in delta with more tokens,
             # extract reasoning content and content
             think_end_index = delta_text.find(self.end_token)
-            reasoning_content = delta_text[:think_end_index]
+            reasoning = delta_text[:think_end_index]
             content = delta_text[think_end_index + len(self.end_token) :]
             content = content.lstrip("\n")
             response_start_idx = content.find(self.response_start_token)
@@ -104,7 +104,7 @@ class Ernie45ReasoningParser(BaseThinkingReasoningParser):
             if response_end_idx != -1:
                 content = content[:response_end_idx]
             return DeltaMessage(
-                reasoning_content=reasoning_content,
+                reasoning=reasoning,
                 content=content if content else None,
             )
         elif self.end_token_id in previous_token_ids:
@@ -138,9 +138,9 @@ class Ernie45ReasoningParser(BaseThinkingReasoningParser):
             return DeltaMessage(content=content if content else None)
         else:
             # no </think> in previous or delta, reasoning content continues
-            return DeltaMessage(reasoning_content=delta_text)
+            return DeltaMessage(reasoning=delta_text)
 
-    def extract_reasoning_content(
+    def extract_reasoning(
         self, model_output: str, request: ChatCompletionRequest
     ) -> tuple[str | None, str | None]:
         """
@@ -148,14 +148,12 @@ class Ernie45ReasoningParser(BaseThinkingReasoningParser):
         The Ernie45 thinking model ouput format is
             abc\n</think>\n\n\n<response>\ndef\n</response>\n
         or  abc\n</think>\ndef
-        - 'abc' goes to reasoning_content
+        - 'abc' goes to reasoning
         - 'def' goes to content
         Returns:
             tuple[Optional[str], Optional[str]]: reasoning content and content
         """
-        reasoning_content, content = super().extract_reasoning_content(
-            model_output, request
-        )
+        reasoning, content = super().extract_reasoning(model_output, request)
         if content:
             start_idx = content.find(self.response_start_token)
             end_idx = content.rfind(self.response_end_token)
@@ -164,4 +162,4 @@ class Ernie45ReasoningParser(BaseThinkingReasoningParser):
                 content = content[start_idx + len(self.response_start_token) : end_idx]
         final_content = content or None
 
-        return reasoning_content, final_content
+        return reasoning, final_content
diff --git a/vllm/reasoning/glm4_moe_reasoning_parser.py b/vllm/reasoning/glm4_moe_reasoning_parser.py
index d43fa77007995..1871adcd43210 100644
--- a/vllm/reasoning/glm4_moe_reasoning_parser.py
+++ b/vllm/reasoning/glm4_moe_reasoning_parser.py
@@ -70,7 +70,7 @@ class Glm4MoeModelReasoningParser(ReasoningParser):
         else:
             return input_ids[input_ids.index(self.think_end_token_id) + 1 :]
 
-    def extract_reasoning_content_streaming(
+    def extract_reasoning_streaming(
         self,
         previous_text: str,
         current_text: str,
@@ -84,7 +84,7 @@ class Glm4MoeModelReasoningParser(ReasoningParser):
         Handles streaming output where previous + delta = current.
         Uses token IDs for faster processing.
         For text <think>abc</think>xyz:
-        - 'abc' goes to reasoning_content
+        - 'abc' goes to reasoning
         - 'xyz' goes to content
         """
         # Skip single special tokens
@@ -98,10 +98,10 @@ class Glm4MoeModelReasoningParser(ReasoningParser):
                 # <think> in previous, </think> in delta,
                 # extract reasoning content
                 end_index = delta_text.find(self.think_end_token)
-                reasoning_content = delta_text[:end_index]
+                reasoning = delta_text[:end_index]
                 content = delta_text[end_index + len(self.think_end_token) :]
                 return DeltaMessage(
-                    reasoning_content=reasoning_content,
+                    reasoning=reasoning,
                     content=content if content else None,
                 )
             elif self.think_end_token_id in previous_token_ids:
@@ -111,36 +111,36 @@ class Glm4MoeModelReasoningParser(ReasoningParser):
             else:
                 # <think> in previous, no </think> in previous or delta,
                 # reasoning content continues
-                return DeltaMessage(reasoning_content=delta_text)
+                return DeltaMessage(reasoning=delta_text)
         elif self.think_start_token_id in delta_token_ids:
             if self.think_end_token_id in delta_token_ids:
                 # <think> in delta, </think> in delta, extract reasoning content
                 start_index = delta_text.find(self.think_start_token)
                 end_index = delta_text.find(self.think_end_token)
-                reasoning_content = delta_text[
+                reasoning = delta_text[
                     start_index + len(self.think_start_token) : end_index
                 ]
                 content = delta_text[end_index + len(self.think_end_token) :]
                 return DeltaMessage(
-                    reasoning_content=reasoning_content,
+                    reasoning=reasoning,
                     content=content if content else None,
                 )
             else:
                 # <think> in delta, no </think> in delta,
                 # reasoning content continues
-                return DeltaMessage(reasoning_content=delta_text)
+                return DeltaMessage(reasoning=delta_text)
         else:
             # thinking is disabled, just content
             return DeltaMessage(content=delta_text)
 
-    def extract_reasoning_content(
+    def extract_reasoning(
         self, model_output: str, request: ChatCompletionRequest
     ) -> tuple[str | None, str | None]:
         """
         Extract reasoning content from the model output.
 
         For text <think>abc</think>xyz:
-        - 'abc' goes to reasoning_content
+        - 'abc' goes to reasoning
         - 'xyz' goes to content
 
         Returns:
@@ -165,7 +165,7 @@ class Glm4MoeModelReasoningParser(ReasoningParser):
             return None, model_output
 
         # Extract reasoning content from the model output.
-        reasoning_content, _, content = model_output.partition(self.think_end_token)
+        reasoning, _, content = model_output.partition(self.think_end_token)
 
         final_content = content or None
-        return reasoning_content, final_content
+        return reasoning, final_content
diff --git a/vllm/reasoning/gptoss_reasoning_parser.py b/vllm/reasoning/gptoss_reasoning_parser.py
index e720f5228d0f3..0c1b54d0bd359 100644
--- a/vllm/reasoning/gptoss_reasoning_parser.py
+++ b/vllm/reasoning/gptoss_reasoning_parser.py
@@ -104,7 +104,7 @@ class GptOssReasoningParser(ReasoningParser):
             return []
         return self.model_tokenizer.encode(content)
 
-    def extract_reasoning_content_streaming(
+    def extract_reasoning_streaming(
         self,
         previous_text: str,
         current_text: str,
@@ -131,9 +131,9 @@ class GptOssReasoningParser(ReasoningParser):
                 content_delta = cur_content
         if reasoning_delta is None and content_delta is None:
             return None
-        return DeltaMessage(reasoning_content=reasoning_delta, content=content_delta)
+        return DeltaMessage(reasoning=reasoning_delta, content=content_delta)
 
-    def extract_reasoning_content(
+    def extract_reasoning(
         self,
         model_output: str,
         request: ChatCompletionRequest,
diff --git a/vllm/reasoning/granite_reasoning_parser.py b/vllm/reasoning/granite_reasoning_parser.py
index eae6c2f5c7b33..484045d66a3c9 100644
--- a/vllm/reasoning/granite_reasoning_parser.py
+++ b/vllm/reasoning/granite_reasoning_parser.py
@@ -49,7 +49,7 @@ class GraniteReasoningParser(ReasoningParser):
             len(think_start) for think_start in self.valid_think_starts
         )
 
-    def extract_reasoning_content(
+    def extract_reasoning(
         self, model_output: str, request: ChatCompletionRequest
     ) -> tuple[str | None, str | None]:
         """Extract the reasoning content & content sections, respectively.
@@ -67,12 +67,12 @@ class GraniteReasoningParser(ReasoningParser):
         re_match = self.reasoning_regex.findall(model_output)
         if not re_match:
             return None, model_output
-        reasoning_content, response_content = re_match[0]
+        reasoning, response_content = re_match[0]
         if not response_content:
-            return reasoning_content, None
-        return reasoning_content, response_content
+            return reasoning, None
+        return reasoning, response_content
 
-    def extract_reasoning_content_streaming(
+    def extract_reasoning_streaming(
         self,
         previous_text: str,
         current_text: str,
@@ -107,12 +107,10 @@ class GraniteReasoningParser(ReasoningParser):
             Union[DeltaMessage, None]
                 DeltaMessage with either reasoning content or content, or None.
         """
-        reasoning_content, resp_seq_len, content = self._get_content_sections(
-            current_text
-        )
+        reasoning, resp_seq_len, content = self._get_content_sections(current_text)
         # Either we haven't finished the start of the reasoning sequence,
         # or the model is generating something unexpected.
-        if not reasoning_content:
+        if not reasoning:
             delta_message = self._get_delta_message_with_no_reasoning_bounds(
                 current_text, delta_text
             )
@@ -120,16 +118,16 @@ class GraniteReasoningParser(ReasoningParser):
         # the start of response sequence.
         elif not content:
             delta_message = self._get_delta_message_with_no_response_bounds(
-                current_text, reasoning_content, delta_text
+                current_text, reasoning, delta_text
             )
         # We've finished both the start of reasoning and start of response seq.
         else:
             # This should never happen since we matched on the response
             assert resp_seq_len is not None
             delta_message = self._get_delta_message_with_both_bounds(
-                delta_text, reasoning_content, content, current_text, resp_seq_len
+                delta_text, reasoning, content, current_text, resp_seq_len
             )
-        if not delta_message.content and not delta_message.reasoning_content:
+        if not delta_message.content and not delta_message.reasoning:
             return None
         return delta_message
 
@@ -185,20 +183,20 @@ class GraniteReasoningParser(ReasoningParser):
         # message and append everything to content in the future.
         if was_substr and not is_substr:
             return DeltaMessage(
-                reasoning_content=None,
+                reasoning=None,
                 content=current_text,
             )
         if is_substr:
             # Might still be in the special token sequence; return nothing
-            return DeltaMessage(reasoning_content=None, content=None)
+            return DeltaMessage(reasoning=None, content=None)
         # Otherwise the sequence has already been broken and we already
         # corrected; just return the delta text as normal content.
-        return DeltaMessage(reasoning_content=None, content=delta_text)
+        return DeltaMessage(reasoning=None, content=delta_text)
 
     def _get_delta_message_with_no_response_bounds(
         self,
         current_text: str,
-        reasoning_content: str,
+        reasoning: str,
         delta_text: str,
     ) -> DeltaMessage:
         """Parse the delta message when the current text has both reasoning
@@ -208,7 +206,7 @@ class GraniteReasoningParser(ReasoningParser):
 
         Args:
             current_text (str): The full previous + delta text.
-            reasoning_content (str): reasoning content from current_text.
+            reasoning (str): reasoning content from current_text.
             delta_text (str): Text to consider and parse content from.
 
         Returns:
@@ -222,12 +220,12 @@ class GraniteReasoningParser(ReasoningParser):
             current_text.endswith(response_start)
             for response_start in self.valid_response_starts
         )
-        if reasoning_content is None or ends_with_start_response_seq:
-            return DeltaMessage(reasoning_content=None, content=None)
+        if reasoning is None or ends_with_start_response_seq:
+            return DeltaMessage(reasoning=None, content=None)
 
         # Consider previous / current text only within context of the reasoning
-        previous_text = reasoning_content[: -len(delta_text)]
-        current_text = reasoning_content
+        previous_text = reasoning[: -len(delta_text)]
+        current_text = reasoning
 
         # We need to be careful about adding unfinished response sequences;
         # Find the place at which we MIGHT be starting a response sequence
@@ -253,32 +251,30 @@ class GraniteReasoningParser(ReasoningParser):
 
         # Delta only contains potential continued response sequence text.
         if delta_continues_substr:
-            return DeltaMessage(reasoning_content=None, content=None)
+            return DeltaMessage(reasoning=None, content=None)
 
         if not prev_was_substr:
             # Delta may be starting a new response seq but has other text too.
             if delta_new_substr:
-                return DeltaMessage(
-                    reasoning_content=delta_text[:delta_idx], content=None
-                )
+                return DeltaMessage(reasoning=delta_text[:delta_idx], content=None)
             # Normal case for most reasoning text (no potential special seqs).
-            return DeltaMessage(reasoning_content=delta_text, content=None)
+            return DeltaMessage(reasoning=delta_text, content=None)
         # The substring that previously seemed to be a potential response
         # seq wasn't one; we need to add the content to the delta message,
         # and also slice off the potential response sequence
         elif delta_new_substr:
-            reasoning_content = previous_text[prev_idx:] + delta_text[:delta_idx]
-            return DeltaMessage(reasoning_content=reasoning_content, content=None)
+            reasoning = previous_text[prev_idx:] + delta_text[:delta_idx]
+            return DeltaMessage(reasoning=reasoning, content=None)
         # No new substring yet, and we broke our old one; take the whole delta
         return DeltaMessage(
-            reasoning_content=previous_text[prev_idx:] + delta_text,
+            reasoning=previous_text[prev_idx:] + delta_text,
             content=None,
         )
 
     def _get_delta_message_with_both_bounds(
         self,
         delta_text: str,
-        reasoning_content: str,
+        reasoning: str,
         response_content: str,
         current_text: str,
         response_seq_len: int,
@@ -288,7 +284,7 @@ class GraniteReasoningParser(ReasoningParser):
 
         Args:
             delta_text: Text to consider and parse content from.
-            reasoning_content: reasoning content from current_text.
+            reasoning: reasoning content from current_text.
             response_content: response content from current_text.
             current_text: The full previous + delta text.
             response_seq_len: Len of the complete response sequence used.
@@ -301,20 +297,20 @@ class GraniteReasoningParser(ReasoningParser):
         reasoning_end_idx = len(delta_text) - (len(response_content) + response_seq_len)
 
         if reasoning_end_idx < 0:
-            delta_reasoning_content = None
+            delta_reasoning = None
         else:
             # Get the starting offset
-            start_reasoning_content_idx = (
-                len(reasoning_content) + response_seq_len + len(response_content) - 1
+            start_reasoning_idx = (
+                len(reasoning) + response_seq_len + len(response_content) - 1
             )
             delta_offset = len(current_text) - len(delta_text)
-            start_offset = start_reasoning_content_idx - delta_offset
+            start_offset = start_reasoning_idx - delta_offset
             if start_offset < 0:
                 start_offset = 0
-            delta_reasoning_content = delta_text[start_offset:reasoning_end_idx]
+            delta_reasoning = delta_text[start_offset:reasoning_end_idx]
 
         return DeltaMessage(
-            reasoning_content=delta_reasoning_content,
+            reasoning=delta_reasoning,
             content=delta_content,
         )
 
@@ -333,7 +329,7 @@ class GraniteReasoningParser(ReasoningParser):
             (if there is one) and the non-reasoning content.
         """
         current_chunk_start = 0
-        start_reasoning_content = None
+        start_reasoning = None
         parsed_content = False
         delimiter_idxs = [
             idx
@@ -344,10 +340,10 @@ class GraniteReasoningParser(ReasoningParser):
         for current_chunk_end in delimiter_idxs:
             current_chunk = current_text[current_chunk_start:current_chunk_end]
             # Check to see if the start of reasoning seq if complete
-            if start_reasoning_content is None:
+            if start_reasoning is None:
                 for think_start in self.valid_think_starts:
                     if current_chunk == think_start[:-1]:
-                        start_reasoning_content = current_chunk_end + 1
+                        start_reasoning = current_chunk_end + 1
                         current_chunk_start = current_chunk_end + 1
                         break
 
@@ -357,13 +353,11 @@ class GraniteReasoningParser(ReasoningParser):
                     if current_chunk[-len(response_start) + 1 :] == response_start[:-1]:
                         # Mark end of reasoning and start response content
                         # after the start of response sequence.
-                        end_reasoning_content = current_chunk_end - len(response_start)
-                        reasoning_content = current_text[
-                            start_reasoning_content:end_reasoning_content
-                        ]
+                        end_reasoning = current_chunk_end - len(response_start)
+                        reasoning = current_text[start_reasoning:end_reasoning]
                         response_content = current_text[current_chunk_end + 1 :]
-                        return reasoning_content, len(response_start), response_content
+                        return reasoning, len(response_start), response_content
 
-        if start_reasoning_content and not parsed_content:
-            return current_text[start_reasoning_content:], None, None
+        if start_reasoning and not parsed_content:
+            return current_text[start_reasoning:], None, None
         return None, None, None
diff --git a/vllm/reasoning/hunyuan_a13b_reasoning_parser.py b/vllm/reasoning/hunyuan_a13b_reasoning_parser.py
index 1a82068c26946..f297454f57ec9 100644
--- a/vllm/reasoning/hunyuan_a13b_reasoning_parser.py
+++ b/vllm/reasoning/hunyuan_a13b_reasoning_parser.py
@@ -86,7 +86,7 @@ class HunyuanA13BReasoningParser(ReasoningParser):
         # this id is not part of content, so just return [] here.
         return []
 
-    def extract_reasoning_content(
+    def extract_reasoning(
         self, model_output: str, request: ChatCompletionRequest
     ) -> tuple[str | None, str | None]:
         """Extract the reasoning content & content sections, respectively.
@@ -104,27 +104,27 @@ class HunyuanA13BReasoningParser(ReasoningParser):
 
         re_match = self.full_match_reasoning_regex.findall(model_output)
         if re_match:
-            reasoning_content, response_content = re_match[0]
-            if len(reasoning_content) == 0:
-                reasoning_content = None
+            reasoning, response_content = re_match[0]
+            if len(reasoning) == 0:
+                reasoning = None
             if len(response_content) == 0:
                 response_content = None
-            return reasoning_content, response_content
+            return reasoning, response_content
 
         fallback_regex = self.half_match_reasoning_regex
         fallback_match = fallback_regex.findall(model_output)
         if fallback_match:
-            reasoning_content, response_content = fallback_match[0]
+            reasoning, response_content = fallback_match[0]
 
             if response_content.endswith(self.response_end_expr):
                 response_content = response_content[: -len(self.response_end_expr)]
 
-            if len(reasoning_content) == 0:
-                reasoning_content = None
+            if len(reasoning) == 0:
+                reasoning = None
             if len(response_content) == 0:
                 response_content = None
 
-            return reasoning_content, response_content
+            return reasoning, response_content
 
         return None, model_output
 
@@ -140,7 +140,7 @@ class HunyuanA13BReasoningParser(ReasoningParser):
                 sub_idx += 1
         return sub_idx == len(subsequence)
 
-    def extract_reasoning_content_streaming(
+    def extract_reasoning_streaming(
         self,
         previous_text: str,
         current_text: str,
@@ -223,19 +223,15 @@ class HunyuanA13BReasoningParser(ReasoningParser):
 
                 # Return content based on current state
                 if self.current_state == "think":
-                    return DeltaMessage(
-                        reasoning_content=buffered_content, content=None
-                    )
+                    return DeltaMessage(reasoning=buffered_content, content=None)
                 else:
-                    return DeltaMessage(
-                        reasoning_content=None, content=buffered_content
-                    )
+                    return DeltaMessage(reasoning=None, content=buffered_content)
             else:
                 # No buffered content, send normally
                 if self.current_state == "think":
-                    return DeltaMessage(reasoning_content=delta_text, content=None)
+                    return DeltaMessage(reasoning=delta_text, content=None)
                 else:
-                    return DeltaMessage(reasoning_content=None, content=delta_text)
+                    return DeltaMessage(reasoning=None, content=delta_text)
 
         # If no content to send in this delta
         return None
diff --git a/vllm/reasoning/identity_reasoning_parser.py b/vllm/reasoning/identity_reasoning_parser.py
index f1d17a71be338..e92f8add0391a 100644
--- a/vllm/reasoning/identity_reasoning_parser.py
+++ b/vllm/reasoning/identity_reasoning_parser.py
@@ -36,7 +36,7 @@ class IdentityReasoningParser(ReasoningParser):
         # Identity: return all tokens as content
         return input_ids
 
-    def extract_reasoning_content_streaming(
+    def extract_reasoning_streaming(
         self,
         previous_text: str,
         current_text: str,
@@ -50,9 +50,9 @@ class IdentityReasoningParser(ReasoningParser):
             return DeltaMessage(content=delta_text)
         return None
 
-    def extract_reasoning_content(
+    def extract_reasoning(
         self, model_output: str, request: ChatCompletionRequest
     ) -> tuple[str | None, str | None]:
-        # No reasoning separation: return None for reasoning_content,
+        # No reasoning separation: return None for reasoning,
         # and full model_output as content
         return None, model_output
diff --git a/vllm/reasoning/minimax_m2_reasoning_parser.py b/vllm/reasoning/minimax_m2_reasoning_parser.py
index 440b2b6e2fc24..30f5f2f88caf7 100644
--- a/vllm/reasoning/minimax_m2_reasoning_parser.py
+++ b/vllm/reasoning/minimax_m2_reasoning_parser.py
@@ -48,7 +48,7 @@ class MiniMaxM2AppendThinkReasoningParser(ReasoningParser):
     def extract_content_ids(self, input_ids: list[int]) -> list[int]:
         return input_ids
 
-    def extract_reasoning_content_streaming(
+    def extract_reasoning_streaming(
         self,
         previous_text: str,
         current_text: str,
@@ -61,7 +61,7 @@ class MiniMaxM2AppendThinkReasoningParser(ReasoningParser):
             delta_text = "<think>" + delta_text
         return DeltaMessage(content=delta_text)
 
-    def extract_reasoning_content(
+    def extract_reasoning(
         self, model_output: str, request: ChatCompletionRequest | ResponsesRequest
     ) -> tuple[str | None, str | None]:
         return None, "<think>" + model_output
diff --git a/vllm/reasoning/olmo3_reasoning_parser.py b/vllm/reasoning/olmo3_reasoning_parser.py
index 91512a2e34c76..7149f8c4123b3 100644
--- a/vllm/reasoning/olmo3_reasoning_parser.py
+++ b/vllm/reasoning/olmo3_reasoning_parser.py
@@ -115,7 +115,7 @@ class Olmo3ReasoningBuffer:
             if end_think_idx > 0:
                 # this covers the case there's content before
                 # the end of the reasoning block
-                return DeltaMessage(reasoning_content=pretext)
+                return DeltaMessage(reasoning=pretext)
 
         if self.state == Olmo3ReasoningState.REASONING:
             # we are inside reasoning block, return and empty
@@ -124,7 +124,7 @@ class Olmo3ReasoningBuffer:
                 text_buffer,
                 self.buffer,
             ) = self.buffer, ""
-            return DeltaMessage(reasoning_content=text_buffer)
+            return DeltaMessage(reasoning=text_buffer)
 
         if self.state == Olmo3ReasoningState.CONTENT:
             # we are outside reasoning block, return and empty
@@ -250,7 +250,7 @@ class Olmo3ReasoningParser(ReasoningParser):
         # this id is not part of content, so just return [] here.
         return []
 
-    def extract_reasoning_content(
+    def extract_reasoning(
         self,
         model_output: str,
         request: ChatCompletionRequest | ResponsesRequest,
@@ -271,14 +271,14 @@ class Olmo3ReasoningParser(ReasoningParser):
 
         re_match = self.reasoning_regex.match(model_output)
         if re_match:
-            reasoning_content = re_match.group("reasoning") or None
+            reasoning = re_match.group("reasoning") or None
             content = re_match.group("content") or None
-            return reasoning_content, content
+            return reasoning, content
 
         # no reasoning content
         return None, model_output
 
-    def extract_reasoning_content_streaming(
+    def extract_reasoning_streaming(
         self,
         previous_text: str,
         current_text: str,
diff --git a/vllm/reasoning/qwen3_reasoning_parser.py b/vllm/reasoning/qwen3_reasoning_parser.py
index 254f0e2e066b3..ef7762bf0af59 100644
--- a/vllm/reasoning/qwen3_reasoning_parser.py
+++ b/vllm/reasoning/qwen3_reasoning_parser.py
@@ -27,7 +27,7 @@ class Qwen3ReasoningParser(BaseThinkingReasoningParser):
         """The token that ends reasoning content."""
         return "</think>"
 
-    def extract_reasoning_content(
+    def extract_reasoning(
         self, model_output: str, request: ChatCompletionRequest | ResponsesRequest
     ) -> tuple[str | None, str | None]:
         """
@@ -37,7 +37,7 @@ class Qwen3ReasoningParser(BaseThinkingReasoningParser):
         to be present, unlike other models that work with just the end token.
 
         For text <think>abc</think>xyz:
-        - 'abc' goes to reasoning_content
+        - 'abc' goes to reasoning
         - 'xyz' goes to content
 
         Returns:
@@ -61,7 +61,7 @@ class Qwen3ReasoningParser(BaseThinkingReasoningParser):
             return None, model_output
 
         # Extract reasoning content from the model output.
-        reasoning_content, _, content = model_output.partition(self.end_token)
+        reasoning, _, content = model_output.partition(self.end_token)
 
         final_content = content or None
-        return reasoning_content, final_content
+        return reasoning, final_content
diff --git a/vllm/reasoning/step3_reasoning_parser.py b/vllm/reasoning/step3_reasoning_parser.py
index 202da057b028b..f635758a92c0d 100644
--- a/vllm/reasoning/step3_reasoning_parser.py
+++ b/vllm/reasoning/step3_reasoning_parser.py
@@ -40,7 +40,7 @@ class Step3ReasoningParser(ReasoningParser):
                 "token in the tokenizer!"
             )
 
-    def extract_reasoning_content_streaming(
+    def extract_reasoning_streaming(
         self,
         previous_text: str,
         current_text: str,
@@ -54,7 +54,7 @@ class Step3ReasoningParser(ReasoningParser):
         Handles streaming output where previous + delta = current.
         Uses token IDs for faster processing.
         For text "abc</think>xyz":
-        - 'abc' goes to reasoning_content
+        - 'abc' goes to reasoning
         - 'xyz' goes to content
         """
         # Skip single special token
@@ -64,10 +64,10 @@ class Step3ReasoningParser(ReasoningParser):
         if self.think_end_token_id in delta_token_ids:
             # </think> in delta, extract reasoning content and remaining content
             end_index = delta_text.find(self.think_end_token)
-            reasoning_content = delta_text[:end_index]
+            reasoning = delta_text[:end_index]
             content = delta_text[end_index + len(self.think_end_token) :]
             return DeltaMessage(
-                reasoning_content=reasoning_content,
+                reasoning=reasoning,
                 content=content if content else None,
             )
         elif self.think_end_token_id in previous_token_ids:
@@ -75,9 +75,9 @@ class Step3ReasoningParser(ReasoningParser):
             return DeltaMessage(content=delta_text)
         else:
             # No </think> seen yet, everything is reasoning
-            return DeltaMessage(reasoning_content=delta_text)
+            return DeltaMessage(reasoning=delta_text)
 
-    def extract_reasoning_content(
+    def extract_reasoning(
         self, model_output: str, request: ChatCompletionRequest
     ) -> tuple[str | None, str | None]:
         # Check if the model output contains the </think> token
@@ -87,7 +87,7 @@ class Step3ReasoningParser(ReasoningParser):
         else:
             # Find the first occurrence of </think>
             end_index = model_output.find(self.think_end_token)
-            reasoning_content = model_output[:end_index]
+            reasoning = model_output[:end_index]
 
             # Content after </think> token
             content = model_output[end_index + len(self.think_end_token) :]
@@ -95,7 +95,7 @@ class Step3ReasoningParser(ReasoningParser):
             if len(content) == 0:
                 content = None
 
-            return reasoning_content, content
+            return reasoning, content
 
     def is_reasoning_end(self, input_ids: list[int]) -> bool:
         return self.think_end_token_id in input_ids
diff --git a/vllm/transformers_utils/chat_templates/template_minicpmv45.jinja b/vllm/transformers_utils/chat_templates/template_minicpmv45.jinja
index 661ebd1cf5c17..c73ae96f0c1d5 100644
--- a/vllm/transformers_utils/chat_templates/template_minicpmv45.jinja
+++ b/vllm/transformers_utils/chat_templates/template_minicpmv45.jinja
@@ -30,18 +30,18 @@
         {{- '<|im_start|>' + message.role + '\n' + message.content + '<|im_end|>' + '\n' }}
     {%- elif message.role == "assistant" %}
         {%- set content = message.content %}
-        {%- set reasoning_content = '' %}
-        {%- if message.reasoning_content is defined and message.reasoning_content is not none %}
-            {%- set reasoning_content = message.reasoning_content %}
+        {%- set reasoning = '' %}
+        {%- if message.reasoning is defined and message.reasoning is not none %}
+            {%- set reasoning = message.reasoning %}
         {%- else %}
             {%- if '</think>' in message.content %}
                 {%- set content = message.content.split('</think>')[-1].lstrip('\n') %}
-                {%- set reasoning_content = message.content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
+                {%- set reasoning = message.content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
             {%- endif %}
         {%- endif %}
         {%- if loop.index0 > ns.last_query_index %}
-            {%- if loop.last or (not loop.last and reasoning_content) %}
-                {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning_content.strip('\n') + '\n</think>\n\n' + content.lstrip('\n') }}
+            {%- if loop.last or (not loop.last and reasoning) %}
+                {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning.strip('\n') + '\n</think>\n\n' + content.lstrip('\n') }}
             {%- else %}
                 {{- '<|im_start|>' + message.role + '\n' + content }}
             {%- endif %}
diff --git a/vllm/transformers_utils/tokenizers/mistral.py b/vllm/transformers_utils/tokenizers/mistral.py
index 34433484fc14e..39198a1f3d815 100644
--- a/vllm/transformers_utils/tokenizers/mistral.py
+++ b/vllm/transformers_utils/tokenizers/mistral.py
@@ -121,8 +121,8 @@ def _prepare_apply_chat_template_tools_and_messages(
     #
     # [1]: https://github.com/mistralai/mistral-common/blob/f4a06998b75ed78bbf5aaf569590b772ea26c9f6/src/mistral_common/protocol/instruct/messages.py#L80
     for message in messages:
-        # Remove reasoning_content as unsupported by Mistral
-        _ = message.pop("reasoning_content", None)  # type: ignore
+        # Remove reasoning as unsupported by Mistral
+        _ = message.pop("reasoning", None)  # type: ignore
 
     # The Mistral client, in comparison to the OpenAI client, requires the
     # "parameters" dict and the "description" string to be present

From 26990d25dce6562fc3f5dd53f2bde370c944ee28 Mon Sep 17 00:00:00 2001
From: Robert Shaw <114415538+robertgshaw2-redhat@users.noreply.github.com>
Date: Sat, 8 Nov 2025 14:01:11 -0500
Subject: [PATCH 246/976] [Bugfix] Update device name for H200 detection
 (#28349)

Signed-off-by: Robert Shaw <114415538+robertgshaw2-redhat@users.noreply.github.com>
---
 vllm/model_executor/layers/fused_moe/fused_moe.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/vllm/model_executor/layers/fused_moe/fused_moe.py b/vllm/model_executor/layers/fused_moe/fused_moe.py
index b7415148d812b..7ad3ce1397b37 100644
--- a/vllm/model_executor/layers/fused_moe/fused_moe.py
+++ b/vllm/model_executor/layers/fused_moe/fused_moe.py
@@ -819,8 +819,8 @@ def get_config_file_name(
 ) -> str:
     device_name = current_platform.get_device_name().replace(" ", "_")
     # Set device_name to H200 if a device from the H200 family is detected
-    if "H200" in device_name:
-        device_name = "H200"
+    if "H200" in device_name.split("_"):
+        device_name = "NVIDIA_H200"
     dtype_selector = "" if not dtype else f",dtype={dtype}"
     block_shape_selector = (
         "" if not block_shape or not all(block_shape) else f",block_shape={block_shape}"

From 47604137a26f825295e6e9cc7314dea2bd4f7eef Mon Sep 17 00:00:00 2001
From: Andy Lo <andy@mistral.ai>
Date: Sat, 8 Nov 2025 19:44:25 +0000
Subject: [PATCH 247/976] [Bugfix] Spec decode + structured output + spec model
 max len edge case (#28298)

Signed-off-by: Andy Lo <andy@mistral.ai>
---
 tests/v1/spec_decode/test_max_len.py  | 33 ++++++++++++++++++++++++---
 vllm/v1/core/sched/scheduler.py       |  8 +++----
 vllm/v1/structured_output/__init__.py |  3 ++-
 3 files changed, 36 insertions(+), 8 deletions(-)

diff --git a/tests/v1/spec_decode/test_max_len.py b/tests/v1/spec_decode/test_max_len.py
index bc779f6bd9c4d..fa1d0437f7c71 100644
--- a/tests/v1/spec_decode/test_max_len.py
+++ b/tests/v1/spec_decode/test_max_len.py
@@ -7,6 +7,7 @@ import pytest
 from tests.utils import get_attn_backend_list_based_on_platform
 from vllm import LLM, SamplingParams
 from vllm.platforms import current_platform
+from vllm.sampling_params import StructuredOutputsParams
 
 _PROMPTS = [
     "1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1",
@@ -56,8 +57,34 @@ def test_eagle_max_len(
                 "method": "eagle",
                 "model": "yuhuili/EAGLE-LLaMA3-Instruct-8B",
                 "num_speculative_tokens": num_speculative_tokens,
+                "max_model_len": 80,
             },
-            max_model_len=100,
+            max_model_len=200,
         )
-        sampling_params = SamplingParams(max_tokens=100, ignore_eos=True)
-        llm.generate(_PROMPTS, sampling_params)
+        sampling_params = SamplingParams(max_tokens=200, ignore_eos=True)
+        outputs = llm.generate(_PROMPTS, sampling_params)
+        for o in outputs:
+            assert o.outputs[0].finish_reason == "length", (
+                "This test is only meaningful if the output "
+                "is truncated due to max length"
+            )
+
+        sampling_params = SamplingParams(
+            max_tokens=200,
+            structured_outputs=StructuredOutputsParams(
+                regex="^" + "a b c d e " * 15 + "$"
+            ),
+        )
+        output = llm.generate(_PROMPTS, sampling_params)
+        for o in output:
+            assert o.prompt_token_ids is not None
+            assert (
+                len(o.prompt_token_ids)
+                < 80
+                < len(o.prompt_token_ids) + len(o.outputs[0].token_ids)
+                < 200
+            ), (
+                "This test is only meaningful if the output "
+                "is longer than the eagle max length"
+            )
+            assert o.outputs[0].text == "a b c d e " * 15
diff --git a/vllm/v1/core/sched/scheduler.py b/vllm/v1/core/sched/scheduler.py
index f558306e3b2fb..c17b19b58c972 100644
--- a/vllm/v1/core/sched/scheduler.py
+++ b/vllm/v1/core/sched/scheduler.py
@@ -325,6 +325,9 @@ class Scheduler(SchedulerInterface):
                     scheduled_spec_decode_tokens[request.request_id] = (
                         request.spec_token_ids
                     )
+                # New spec tokens will be set in `update_draft_token_ids` before the
+                # next step when applicable.
+                request.spec_token_ids = []
 
             # Encoder-related.
             if encoder_inputs_to_schedule:
@@ -1149,10 +1152,7 @@ class Scheduler(SchedulerInterface):
                 continue
 
             # Add newly generated spec token ids to the request.
-            if not spec_token_ids:
-                # NOTE(woosuk): request.spec_token_ids should be updated.
-                request.spec_token_ids.clear()
-            elif self.structured_output_manager.should_advance(request):
+            if self.structured_output_manager.should_advance(request):
                 metadata = request.structured_output_request
                 request.spec_token_ids = metadata.grammar.validate_tokens(  # type: ignore[union-attr]
                     spec_token_ids
diff --git a/vllm/v1/structured_output/__init__.py b/vllm/v1/structured_output/__init__.py
index acc00526ee89c..029129cf1a475 100644
--- a/vllm/v1/structured_output/__init__.py
+++ b/vllm/v1/structured_output/__init__.py
@@ -269,9 +269,10 @@ class StructuredOutputManager:
                         and token is not None
                         and not structured_output_request.grammar.is_terminated()
                     ):
-                        assert structured_output_request.grammar.accept_tokens(
+                        accepted = structured_output_request.grammar.accept_tokens(
                             req_id, [token]
                         )
+                        assert accepted, (token, req_id, scheduled_spec_decode_tokens)
                         state_advancements += 1
                     cumulative_index += 1
                 if state_advancements > 0:

From 2108a571d7ee522346d309ed902e9da8e7cdc97b Mon Sep 17 00:00:00 2001
From: zhangsicheng5 <zhangsicheng5@huawei.com>
Date: Sun, 9 Nov 2025 03:45:27 +0800
Subject: [PATCH 248/976] [DCP] Support dcp kv_cache interleave size > 1
 (#26696)

Signed-off-by: zhangsicheng5 <zhangsicheng5@huawei.com>
Signed-off-by: QiuChunshuo <qiuchunshuo@huawei.com>
Signed-off-by: Qiu <qiuchunshuo@huawei.com>
Co-authored-by: QiuChunshuo <qiuchunshuo@huawei.com>
---
 tests/distributed/test_context_parallel.py |   7 +
 tests/v1/worker/test_gpu_model_runner.py   |   2 +
 vllm/attention/ops/common.py               |   1 +
 vllm/config/parallel.py                    |  11 ++
 vllm/config/vllm.py                        |  17 +++
 vllm/engine/arg_utils.py                   |   6 +
 vllm/v1/attention/backends/flash_attn.py   |  13 +-
 vllm/v1/attention/backends/mla/common.py   | 152 +++++++++++----------
 vllm/v1/attention/backends/utils.py        |  38 ++++++
 vllm/v1/worker/block_table.py              |  18 ++-
 vllm/v1/worker/gpu_input_batch.py          |   2 +
 vllm/v1/worker/gpu_model_runner.py         |  14 ++
 12 files changed, 202 insertions(+), 79 deletions(-)

diff --git a/tests/distributed/test_context_parallel.py b/tests/distributed/test_context_parallel.py
index 5495640af07eb..7f8e77a75621f 100644
--- a/tests/distributed/test_context_parallel.py
+++ b/tests/distributed/test_context_parallel.py
@@ -30,6 +30,7 @@ class ParallelSetup(NamedTuple):
     tp_size: int
     pp_size: int
     dcp_size: int
+    dcp_kv_cache_interleave_size: int
     eager_mode: bool
     chunked_prefill: bool
 
@@ -52,6 +53,7 @@ class CPTestSettings:
         tp_base: int = 4,
         pp_base: int = 1,
         dcp_base: int = 1,
+        dcp_kv_cache_interleave_size: int = 1,
         multi_node_only: bool = False,
         runner: RunnerOption = "auto",
         load_format: str | None = None,
@@ -66,6 +68,7 @@ class CPTestSettings:
                                 tp_size=tp_base,
                                 pp_size=pp_multiplier * pp_base,
                                 dcp_size=int(dcp_multiplier * tp_base),
+                                dcp_kv_cache_interleave_size=dcp_kv_cache_interleave_size,
                                 eager_mode=eager_mode_val,
                                 chunked_prefill=chunked_prefill_val,
                             )
@@ -108,6 +111,7 @@ def _compare_cp_with_tp(
         tp_size,
         pp_size,
         dcp_size,
+        dcp_kv_cache_interleave_size,
         eager_mode,
         chunked_prefill,
     ) = parallel_setup
@@ -180,6 +184,8 @@ def _compare_cp_with_tp(
         str(pp_size),
         "--decode-context-parallel-size",
         str(dcp_size),
+        "--dcp-kv-cache-interleave-size",
+        str(dcp_kv_cache_interleave_size),
         "--distributed-executor-backend",
         distributed_backend,
     ]
@@ -207,6 +213,7 @@ CP_TEXT_GENERATION_MODELS = {
     "deepseek-ai/DeepSeek-V2-Lite-Chat": [
         CPTestSettings.detailed(),
         CPTestSettings.detailed(tp_base=2),
+        CPTestSettings.detailed(tp_base=2, dcp_kv_cache_interleave_size=64),
     ],
     "bigcode/gpt_bigcode-santacoder": [
         CPTestSettings.detailed(),
diff --git a/tests/v1/worker/test_gpu_model_runner.py b/tests/v1/worker/test_gpu_model_runner.py
index db0215511d322..bc624658308bf 100644
--- a/tests/v1/worker/test_gpu_model_runner.py
+++ b/tests/v1/worker/test_gpu_model_runner.py
@@ -951,6 +951,7 @@ def test_hybrid_block_table_initialization():
     max_num_reqs = 10
     max_num_blocks_per_req = 20
     max_num_batched_tokens = 512
+    dcp_kv_cache_interleave_size = 8
 
     block_table = BlockTable(
         block_size=block_size,
@@ -960,6 +961,7 @@ def test_hybrid_block_table_initialization():
         pin_memory=False,
         device=torch.device(DEVICE),
         kernel_block_size=kernel_block_sizes[0],
+        dcp_kv_cache_interleave_size=dcp_kv_cache_interleave_size,
     )
 
     # Verify hybrid block configuration
diff --git a/vllm/attention/ops/common.py b/vllm/attention/ops/common.py
index b6b7ecd2552a7..75fdcb8f48b24 100644
--- a/vllm/attention/ops/common.py
+++ b/vllm/attention/ops/common.py
@@ -53,6 +53,7 @@ def _correct_attn_cp_out_kernel(
     lse = tl.load(lses_ptr + lse_offsets)
     lse = tl.where((lse != lse) | (lse == float("inf")), -float("inf"), lse)
     lse_max = tl.max(lse, axis=0)
+    lse_max = tl.where(lse_max == -float("inf"), 0, lse_max)
     lse -= lse_max
     lse_exp = tl.exp(lse)
     lse_acc = tl.sum(lse_exp, axis=0)
diff --git a/vllm/config/parallel.py b/vllm/config/parallel.py
index 82d575f24690d..b19c8beeae3df 100644
--- a/vllm/config/parallel.py
+++ b/vllm/config/parallel.py
@@ -227,6 +227,17 @@ class ParallelConfig:
     not change by dcp, it simply reuse the GPUs of TP group, and tp_size
     needs to be divisible by dcp_size."""
 
+    dcp_kv_cache_interleave_size: int = 1
+    """Interleave size of kv_cache storage while using dcp or cp > 1,
+    store interleave_size tokens on (d)cp i,
+    then store next interleave_size tokens on (d)cp i+1.
+    Interleave_size=1: token-level align, token i is stored on rank i % (d)cp_size.
+    Interleave_size=block_size: block-level align, first fill the block on first rank,
+    token is stored on rank i+1 block j after rank i block j is full.
+    Block_size should be greater than or equal to dcp_kv_cache_interleave_size.
+    Block_size should be divisible by dcp_kv_cache_interleave_size.
+    """
+
     _api_process_count: int = Field(default=1, gt=0)
     """
     The number of API processes initialized.
diff --git a/vllm/config/vllm.py b/vllm/config/vllm.py
index ac46078863051..d4ee6f980e6ec 100644
--- a/vllm/config/vllm.py
+++ b/vllm/config/vllm.py
@@ -608,6 +608,23 @@ class VllmConfig:
             )
         current_platform.check_and_update_config(self)
 
+        assert (
+            self.parallel_config.dcp_kv_cache_interleave_size
+            <= self.cache_config.block_size
+            and self.cache_config.block_size
+            % self.parallel_config.dcp_kv_cache_interleave_size
+            == 0
+        ), (
+            f"Block_size({self.cache_config.block_size}) should be "
+            "greater than or equal to and divisible by dcp_kv_cache_interleave_size "
+            f"({self.parallel_config.dcp_kv_cache_interleave_size})."
+        )
+
+        assert (
+            self.parallel_config.dcp_kv_cache_interleave_size == 1
+            or self.speculative_config is None
+        ), "MTP with dcp_kv_cache_interleave_size > 1 is not supported now."
+
         # Do this after all the updates to compilation_config.mode
         if self.compilation_config.mode == CompilationMode.VLLM_COMPILE:
             self.compilation_config.set_splitting_ops_for_v1()
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index 342da0150a7ce..b12b7082af627 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -385,6 +385,7 @@ class EngineArgs:
     pipeline_parallel_size: int = ParallelConfig.pipeline_parallel_size
     tensor_parallel_size: int = ParallelConfig.tensor_parallel_size
     decode_context_parallel_size: int = ParallelConfig.decode_context_parallel_size
+    dcp_kv_cache_interleave_size: int = ParallelConfig.dcp_kv_cache_interleave_size
     data_parallel_size: int = ParallelConfig.data_parallel_size
     data_parallel_rank: int | None = None
     data_parallel_start_rank: int | None = None
@@ -750,6 +751,10 @@ class EngineArgs:
             "-dcp",
             **parallel_kwargs["decode_context_parallel_size"],
         )
+        parallel_group.add_argument(
+            "--dcp-kv-cache-interleave-size",
+            **parallel_kwargs["dcp_kv_cache_interleave_size"],
+        )
         parallel_group.add_argument(
             "--data-parallel-size", "-dp", **parallel_kwargs["data_parallel_size"]
         )
@@ -1518,6 +1523,7 @@ class EngineArgs:
             worker_cls=self.worker_cls,
             worker_extension_cls=self.worker_extension_cls,
             decode_context_parallel_size=self.decode_context_parallel_size,
+            dcp_kv_cache_interleave_size=self.dcp_kv_cache_interleave_size,
             _api_process_count=self._api_process_count,
             _api_process_rank=self._api_process_rank,
         )
diff --git a/vllm/v1/attention/backends/flash_attn.py b/vllm/v1/attention/backends/flash_attn.py
index 9be90442fa803..226f2277ae985 100755
--- a/vllm/v1/attention/backends/flash_attn.py
+++ b/vllm/v1/attention/backends/flash_attn.py
@@ -43,6 +43,7 @@ from vllm.v1.attention.backends.utils import (
     AttentionCGSupport,
     AttentionMetadataBuilder,
     CommonAttentionMetadata,
+    get_dcp_local_seq_lens,
     get_kv_cache_layout,
 )
 from vllm.v1.kv_cache_interface import AttentionSpec
@@ -238,6 +239,10 @@ class FlashAttentionMetadataBuilder(AttentionMetadataBuilder[FlashAttentionMetad
             self.dcp_world_size = 1
             self.dcp_rank = 0
 
+        self.dcp_kv_cache_interleave_size = (
+            self.parallel_config.dcp_kv_cache_interleave_size
+        )
+
         self.use_full_cuda_graph = (
             self.compilation_config.cudagraph_mode.has_full_cudagraphs()
         )
@@ -352,8 +357,12 @@ class FlashAttentionMetadataBuilder(AttentionMetadataBuilder[FlashAttentionMetad
                 - common_attn_metadata.query_start_loc_cpu[:-1]
             )
             dcp_context_kv_lens_cpu = seq_lens_cpu - query_kv_lens_cpu
-            dcp_context_kv_lens_cpu = dcp_context_kv_lens_cpu // self.dcp_world_size + (
-                self.dcp_rank <= (dcp_context_kv_lens_cpu - 1) % self.dcp_world_size
+
+            dcp_context_kv_lens_cpu = get_dcp_local_seq_lens(
+                dcp_context_kv_lens_cpu,
+                self.dcp_world_size,
+                self.dcp_rank,
+                self.dcp_kv_cache_interleave_size,
             )
             dcp_context_kv_lens = dcp_context_kv_lens_cpu.to(self.device)
             max_dcp_context_kv_len = dcp_context_kv_lens.max().item()
diff --git a/vllm/v1/attention/backends/mla/common.py b/vllm/v1/attention/backends/mla/common.py
index f57dfc1571b6e..6c8145b6847df 100755
--- a/vllm/v1/attention/backends/mla/common.py
+++ b/vllm/v1/attention/backends/mla/common.py
@@ -225,6 +225,7 @@ from vllm.utils.math_utils import cdiv, round_down
 from vllm.v1.attention.backends.utils import (
     AttentionMetadataBuilder,
     CommonAttentionMetadata,
+    get_dcp_local_seq_lens,
     get_per_layer_parameters,
     infer_global_hyperparameters,
     split_decodes_and_prefills,
@@ -361,10 +362,9 @@ class MLACommonPrefillMetadata:
         workspace: torch.Tensor
 
         # for mla DCP
-        cp_chunk_seq_lens: list[list[int]] | None = None
-        origin_context_lens: list[int] | None = None
-        cp_cu_seq_lens: torch.Tensor | None = None
-        chunk_size: int | None = None
+        padded_local_chunk_seq_lens: list[list[int]] | None = None
+        local_context_lens_allranks: list[list[int]] | None = None
+        padded_local_cu_seq_lens: torch.Tensor | None = None
         cu_seq_lens_lst: list[list[int]] | None = None
 
     block_table: torch.Tensor
@@ -568,6 +568,8 @@ class MLACommonMetadataBuilder(AttentionMetadataBuilder[M]):
             # DCP might not be initialized in testing
             self.dcp_world_size = 1
             self.dcp_rank = 0
+        self.dcp_local_block_size = parallel_config.dcp_kv_cache_interleave_size
+        self.dcp_virtual_block_size = self.dcp_local_block_size * self.dcp_world_size
 
         # Don't try to access the runner on AMD
         if self.aot_schedule:
@@ -794,15 +796,6 @@ class MLACommonMetadataBuilder(AttentionMetadataBuilder[M]):
             )
         )
 
-        # Note(hc): update seq_lens of decode reqs under DCP.
-        if self.dcp_world_size > 1:
-            assert dcp_local_seq_lens is not None
-            dcp_local_seq_lens[:num_decodes] = seq_lens[
-                :num_decodes
-            ] // self.dcp_world_size + (
-                self.dcp_rank < seq_lens[:num_decodes] % self.dcp_world_size
-            )
-
         assert num_decodes + num_prefills == num_reqs
         assert num_decode_tokens + num_prefill_tokens == num_tokens
 
@@ -811,11 +804,6 @@ class MLACommonMetadataBuilder(AttentionMetadataBuilder[M]):
             reqs_start = num_decodes  # prefill_start
 
             context_lens_cpu = num_computed_tokens_cpu[reqs_start:num_reqs]
-            # Note(hc): The context lengths in the perspective of dcp rank0.
-            cp_context_lens_cpu = torch.ceil(
-                context_lens_cpu.float() / self.dcp_world_size
-            ).int()
-            origin_context_lens = context_lens_cpu.tolist()
             max_context_len_cpu = context_lens_cpu.max().item()
             num_prefills_with_context_cpu = (context_lens_cpu > 0).sum().item()
             prefill_query_start_loc = (
@@ -871,32 +859,56 @@ class MLACommonMetadataBuilder(AttentionMetadataBuilder[M]):
                 )
 
                 if self.dcp_world_size > 1:
+                    local_context_lens_allranks = get_dcp_local_seq_lens(
+                        context_lens_cpu,
+                        self.dcp_world_size,
+                        None,
+                        self.dcp_local_block_size,
+                    )
+                    # Note(qcs): The max local context lengths
+                    # padded to `dcp_local_block_size`.
+                    padded_local_context_lens_cpu = (
+                        cdiv(
+                            context_lens_cpu,
+                            self.dcp_virtual_block_size,
+                        )
+                        * self.dcp_local_block_size
+                    )
                     # Note(hc): The above max_context_chunk already enforces
                     # block_size alignment, DCP just need the block_size can
                     # be divisible by dcp_world_size, because DCP use
                     # cp_gather_cache which not require `cp_chunk_starts`
                     # aligned to page_size.
                     assert max_context_chunk % self.dcp_world_size == 0
-                    cp_max_context_chunk = max_context_chunk // self.dcp_world_size
-                    cp_chunk_starts = (
+                    padded_local_max_context_chunk_across_ranks = (
+                        cdiv(
+                            max_context_chunk,
+                            self.dcp_virtual_block_size,
+                        )
+                        * self.dcp_local_block_size
+                    )
+                    local_chunk_starts = (
                         torch.arange(num_chunks, dtype=torch.int32)
                         .unsqueeze(1)
                         .expand(-1, num_prefills)
-                        * cp_max_context_chunk
+                        * padded_local_max_context_chunk_across_ranks
                     )
-                    cp_chunk_ends = torch.min(
-                        cp_context_lens_cpu.unsqueeze(0),
-                        cp_chunk_starts + cp_max_context_chunk,
+                    local_chunk_ends = torch.min(
+                        padded_local_context_lens_cpu.unsqueeze(0),
+                        local_chunk_starts
+                        + padded_local_max_context_chunk_across_ranks,
                     )
-                    cp_chunk_seq_lens = (cp_chunk_ends - cp_chunk_starts).clamp(min=0)
+                    padded_local_chunk_seq_lens = (
+                        local_chunk_ends - local_chunk_starts
+                    ).clamp(min=0)
 
-                    cp_cu_seq_lens_cpu = torch.zeros(
+                    padded_local_cu_chunk_seq_lens_cpu = torch.zeros(
                         num_chunks, num_prefills + 1, dtype=torch.int32, pin_memory=True
                     )
                     torch.cumsum(
-                        cp_chunk_seq_lens,
+                        padded_local_chunk_seq_lens,
                         dim=1,
-                        out=cp_cu_seq_lens_cpu[:, 1:],
+                        out=padded_local_cu_chunk_seq_lens_cpu[:, 1:],
                         dtype=torch.int32,
                     )
 
@@ -908,15 +920,16 @@ class MLACommonMetadataBuilder(AttentionMetadataBuilder[M]):
                 if self.dcp_world_size > 1:
                     chunked_context_metadata = chunked_context_metadata_cls(
                         cu_seq_lens=cu_seq_lens_cpu.to(device, non_blocking=True),
-                        starts=cp_chunk_starts.to(device, non_blocking=True),
-                        seq_tot=cp_chunk_seq_lens.sum(dim=1).tolist(),
+                        starts=local_chunk_starts.to(device, non_blocking=True),
+                        seq_tot=padded_local_chunk_seq_lens.sum(dim=1).tolist(),
                         max_seq_lens=chunk_seq_lens.max(dim=1).values.tolist(),
                         seq_lens=chunk_seq_lens,
                         workspace=self.chunked_prefill_workspace,
-                        cp_chunk_seq_lens=cp_chunk_seq_lens.tolist(),
-                        origin_context_lens=origin_context_lens,
-                        cp_cu_seq_lens=cp_cu_seq_lens_cpu.to(device, non_blocking=True),
-                        chunk_size=max_context_chunk,
+                        padded_local_chunk_seq_lens=padded_local_chunk_seq_lens.tolist(),
+                        local_context_lens_allranks=local_context_lens_allranks.tolist(),
+                        padded_local_cu_seq_lens=padded_local_cu_chunk_seq_lens_cpu.to(
+                            device, non_blocking=True
+                        ),
                         cu_seq_lens_lst=cu_seq_lens_cpu.tolist(),
                     )
                 else:
@@ -998,64 +1011,52 @@ class MLACommonMetadataBuilder(AttentionMetadataBuilder[M]):
 def reorg_kvcache(
     allgatered_kv_c_normed: torch.Tensor,
     allgatered_k_pe: torch.Tensor,
-    cp_chunk_seq_lens_lst: list[int],
-    origin_context_lens: list[int],
-    cp_world_size: int,
+    padded_local_chunk_seq_lens_lst: list[int],
+    local_context_lens_allranks: list[list[int]],
     sum_seq_len: int,
     max_seq_len: int,
-    chunk_size: int,
-    chunk_idx: int,
     toks: int,
 ) -> tuple[torch.Tensor, torch.Tensor]:
     """
-    reorg kvcache after cp local gather to tp layout for attn kernel.
-
+    reorg and unpad kvcache after cp local gather to tp layout for attn kernel.
+    e.g.
+    allgatered_kv_c_normed = [T0_0, T0_1, T0_2, T0_3, T1_0, T1_1, ...,
+                              T0_4, T0_5, pad, pad, T1_2, pad, ...]
+    -> reorganized_kv_c_normed = [T0_0, T0_1, T0_2, T0_3, T0_4, T0_5,
+                                  T1_0, T1_1, T1_2, ...]
     Args:
-        cp_chunk_seq_lens_lst: chunk context lengths under CP.
-        origin_context_lens: origin full context lengths under CP.
-        cp_world_size: CP size.
+        padded_local_chunk_seq_lens_lst: local chunk context lengths
+            under current CP rank.
+        local_context_lens_allranks: local context lengths on each CP rank.
         sum_seq_len: the sum of cp_chunk_seq_lens_lst.
         max_seq_len: the max value of cp_chunk_seq_lens_lst.
-        chunk_size: equals to max_context_chunk from
-            chunked_context_metadata building.
-        chunk_idx: chunk idx of chunked_prefill.
         toks: the number of tokens for local gather cache.
     """
     kv_c_segments = []
     k_pe_segments = []
     src_token_idx = 0
     max_seq_len_check = 0
-    for cp_chunk_seq_len, origin_context_len in zip(
-        cp_chunk_seq_lens_lst, origin_context_lens
+    for padded_local_chunk_seq_len, local_context_lens in zip(
+        padded_local_chunk_seq_lens_lst, local_context_lens_allranks
     ):
-        chunk_context_len = chunk_size
-        if cp_chunk_seq_len != 0:
-            chunk_context_len = min(
-                chunk_context_len, origin_context_len - chunk_size * chunk_idx
-            )
-        cp_target_rank = (chunk_context_len - 1) % cp_world_size
         cur_seq_len = 0
-        for rank in range(cp_world_size):
-            if rank > cp_target_rank and cp_chunk_seq_len:
-                real_cp_chunk_seq_len = cp_chunk_seq_len - 1
-            else:
-                real_cp_chunk_seq_len = cp_chunk_seq_len
-            if real_cp_chunk_seq_len:
+        for rank, local_context_len in enumerate(local_context_lens):
+            if local_context_len != 0:
                 kv_c_segment = allgatered_kv_c_normed[
                     rank * toks + src_token_idx : rank * toks
                     + src_token_idx
-                    + real_cp_chunk_seq_len
+                    + local_context_len
                 ]
                 k_pe_segment = allgatered_k_pe[
                     rank * toks + src_token_idx : rank * toks
                     + src_token_idx
-                    + real_cp_chunk_seq_len
+                    + local_context_len
                 ]
                 kv_c_segments.append(kv_c_segment)
                 k_pe_segments.append(k_pe_segment)
-                cur_seq_len += real_cp_chunk_seq_len
+                cur_seq_len += local_context_len
         max_seq_len_check = max(max_seq_len_check, cur_seq_len)
-        src_token_idx += cp_chunk_seq_len
+        src_token_idx += padded_local_chunk_seq_len
     reorganized_kv_c_normed = torch.cat(kv_c_segments, dim=0)
     reorganized_k_pe = torch.cat(k_pe_segments, dim=0)
     assert reorganized_kv_c_normed.shape[0] == sum_seq_len
@@ -1296,6 +1297,9 @@ class MLACommonImpl(MLACommonBaseImpl[M], Generic[M]):
                 get_current_vllm_config()
             )
         )
+        self.dcp_kv_cache_interleave_size: int = (
+            get_current_vllm_config().parallel_config.dcp_kv_cache_interleave_size
+        )
 
     def _flash_attn_varlen_diff_headdims(
         self, q, k, v, return_softmax_lse=False, softmax_scale=None, **kwargs
@@ -1697,10 +1701,9 @@ class MLACommonImpl(MLACommonBaseImpl[M], Generic[M]):
         assert attn_metadata.prefill is not None
         prefill_metadata = attn_metadata.prefill
         assert prefill_metadata.chunked_context is not None
-        assert prefill_metadata.chunked_context.cp_chunk_seq_lens is not None
-        assert prefill_metadata.chunked_context.origin_context_lens is not None
-        assert prefill_metadata.chunked_context.cp_cu_seq_lens is not None
-        assert prefill_metadata.chunked_context.chunk_size is not None
+        assert prefill_metadata.chunked_context.padded_local_chunk_seq_lens is not None
+        assert prefill_metadata.chunked_context.local_context_lens_allranks is not None
+        assert prefill_metadata.chunked_context.padded_local_cu_seq_lens is not None
         assert prefill_metadata.chunked_context.cu_seq_lens_lst is not None
 
         output = None
@@ -1713,7 +1716,9 @@ class MLACommonImpl(MLACommonBaseImpl[M], Generic[M]):
                 src_cache=kv_c_and_k_pe_cache,
                 dst=workspace,
                 block_table=prefill_metadata.block_table,
-                cu_seq_lens=prefill_metadata.chunked_context.cp_cu_seq_lens[i],
+                cu_seq_lens=prefill_metadata.chunked_context.padded_local_cu_seq_lens[
+                    i
+                ],
                 batch_size=attn_metadata.num_prefills,
                 seq_starts=prefill_metadata.chunked_context.starts[i],
             )
@@ -1743,15 +1748,12 @@ class MLACommonImpl(MLACommonBaseImpl[M], Generic[M]):
             kv_c_normed, k_pe = reorg_kvcache(
                 allgatered_kv_c_normed,
                 allgatered_k_pe,
-                cp_chunk_seq_lens_lst=prefill_metadata.chunked_context.cp_chunk_seq_lens[
+                padded_local_chunk_seq_lens_lst=prefill_metadata.chunked_context.padded_local_chunk_seq_lens[
                     i
                 ],
-                origin_context_lens=prefill_metadata.chunked_context.origin_context_lens,
-                cp_world_size=dcp_world_size,
+                local_context_lens_allranks=prefill_metadata.chunked_context.local_context_lens_allranks,
                 sum_seq_len=prefill_metadata.chunked_context.cu_seq_lens_lst[i][-1],
                 max_seq_len=prefill_metadata.chunked_context.max_seq_lens[i],
-                chunk_size=prefill_metadata.chunked_context.chunk_size,
-                chunk_idx=i,
                 toks=toks,
             )
 
diff --git a/vllm/v1/attention/backends/utils.py b/vllm/v1/attention/backends/utils.py
index ed0fae3828453..07dfbc766acd1 100644
--- a/vllm/v1/attention/backends/utils.py
+++ b/vllm/v1/attention/backends/utils.py
@@ -1076,3 +1076,41 @@ def compute_causal_conv1d_metadata(query_start_loc_p: torch.Tensor):
         nums_dict[BLOCK_M]["token_chunk_offset_ptr"] = token_chunk_offset_ptr  # type: ignore
 
     return nums_dict, batch_ptr, token_chunk_offset_ptr
+
+
+def get_dcp_local_seq_lens(
+    seq_lens: torch.Tensor,
+    dcp_world_size: int = 1,
+    dcp_rank: int | None = None,
+    dcp_kv_cache_interleave_size: int = 1,
+) -> torch.Tensor:
+    """While using dcp, kv_cache size stored on each rank may be different,
+    use this function to calculate split decode seq_lens of each dcp rank.
+    Only consider dcp now, we can extend the case of cp based on this.
+    """
+    num_requests = seq_lens.size(0)
+    if dcp_rank is None:
+        rank_offsets = (
+            torch.arange(dcp_world_size, dtype=torch.int32)
+            .unsqueeze(0)
+            .repeat(num_requests, 1)
+        )
+    else:
+        rank_offsets = torch.Tensor([[dcp_rank]]).to(dtype=torch.int32)
+    seq_lens_tiled = (
+        seq_lens.to(torch.int32).unsqueeze(-1).repeat(1, rank_offsets.shape[1])
+    )
+    base = (
+        seq_lens_tiled
+        // dcp_kv_cache_interleave_size
+        // dcp_world_size
+        * dcp_kv_cache_interleave_size
+    )
+    remainder = seq_lens_tiled - base * dcp_world_size
+    remainder = torch.clip(
+        remainder - rank_offsets * dcp_kv_cache_interleave_size,
+        0,
+        dcp_kv_cache_interleave_size,
+    )
+    dcp_local_seq_lens = base + remainder
+    return dcp_local_seq_lens.squeeze(1)
diff --git a/vllm/v1/worker/block_table.py b/vllm/v1/worker/block_table.py
index e041015e56e9f..c28bf542f85c5 100644
--- a/vllm/v1/worker/block_table.py
+++ b/vllm/v1/worker/block_table.py
@@ -22,6 +22,7 @@ class BlockTable:
         pin_memory: bool,
         device: torch.device,
         kernel_block_size: int,
+        dcp_kv_cache_interleave_size: int,
     ):
         """
         Args:
@@ -86,6 +87,7 @@ class BlockTable:
             # DCP might not be initialized in testing
             self.dcp_world_size = 1
             self.dcp_rank = 0
+        self.dcp_kv_cache_interleave_size = dcp_kv_cache_interleave_size
 
     def append_row(
         self,
@@ -144,9 +146,19 @@ class BlockTable:
             # Use virtual_block_size for mask calculation, which marks local
             # tokens.
             virtual_block_offsets = positions % virtual_block_size
-            mask = virtual_block_offsets % self.dcp_world_size == self.dcp_rank
+            mask = (
+                virtual_block_offsets
+                // self.dcp_kv_cache_interleave_size
+                % self.dcp_world_size
+                == self.dcp_rank
+            )
             # Calculate local block_offsets
-            block_offsets = virtual_block_offsets // self.dcp_world_size
+            block_offsets = (
+                virtual_block_offsets
+                // (self.dcp_world_size * self.dcp_kv_cache_interleave_size)
+                * self.dcp_kv_cache_interleave_size
+                + virtual_block_offsets % self.dcp_kv_cache_interleave_size
+            )
             # Calculate slot_mapping
             slot_mapping = block_numbers * self.block_size + block_offsets
             # Write final slots, use -1 for not-local
@@ -234,6 +246,7 @@ class MultiGroupBlockTable:
         block_sizes: list[int],
         kernel_block_sizes: list[int],
         num_speculative_tokens: int = 0,
+        dcp_kv_cache_interleave_size: int = 1,
     ) -> None:
         # Note(hc): each dcp rank only store
         # (max_model_len//dcp_world_size) tokens in kvcache,
@@ -263,6 +276,7 @@ class MultiGroupBlockTable:
                 pin_memory,
                 device,
                 kernel_block_size,
+                dcp_kv_cache_interleave_size,
             )
             for block_size, kernel_block_size in zip(block_sizes, kernel_block_sizes)
         ]
diff --git a/vllm/v1/worker/gpu_input_batch.py b/vllm/v1/worker/gpu_input_batch.py
index 5afa68c3fca63..393181f543d2e 100644
--- a/vllm/v1/worker/gpu_input_batch.py
+++ b/vllm/v1/worker/gpu_input_batch.py
@@ -84,6 +84,7 @@ class InputBatch:
         is_spec_decode: bool = False,
         is_pooling_model: bool = False,
         num_speculative_tokens: int = 0,
+        dcp_kv_cache_interleave_size: int = 1,
     ):
         self.is_pooling_model = is_pooling_model
         self.is_spec_decode = is_spec_decode
@@ -137,6 +138,7 @@ class InputBatch:
             block_sizes=block_sizes,
             kernel_block_sizes=kernel_block_sizes,
             num_speculative_tokens=num_speculative_tokens,
+            dcp_kv_cache_interleave_size=dcp_kv_cache_interleave_size,
         )
 
         # Sampling-related.
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index 2db4235c89ded..c225479810aa4 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -35,6 +35,7 @@ from vllm.distributed.eplb.eplb_state import EplbState
 from vllm.distributed.kv_transfer import get_kv_transfer_group, has_kv_transfer_group
 from vllm.distributed.kv_transfer.kv_connector.utils import copy_kv_blocks
 from vllm.distributed.parallel_state import (
+    get_dcp_group,
     get_pp_group,
     get_tp_group,
     graph_capture,
@@ -88,6 +89,7 @@ from vllm.v1.attention.backends.utils import (
     AttentionMetadataBuilder,
     CommonAttentionMetadata,
     create_fast_prefill_custom_backend,
+    get_dcp_local_seq_lens,
     reorder_batch_to_split_decodes_and_prefills,
     split_attn_metadata,
 )
@@ -275,6 +277,7 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
         self.is_multimodal_pruning_enabled = False
         self.max_model_len = model_config.max_model_len
         self.dcp_world_size = self.parallel_config.decode_context_parallel_size
+        self.dcp_rank = 0 if self.dcp_world_size <= 1 else get_dcp_group().rank_in_group
         self.max_num_tokens = scheduler_config.max_num_batched_tokens
         self.max_num_reqs = scheduler_config.max_num_seqs
 
@@ -396,6 +399,7 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
             # uses output token ids so we set this conservatively.
             logitsprocs_need_output_token_ids=bool(custom_logitsprocs),
             is_pooling_model=self.is_pooling_model,
+            dcp_kv_cache_interleave_size=self.parallel_config.dcp_kv_cache_interleave_size,
         )
 
         self.use_async_scheduling = self.scheduler_config.async_scheduling
@@ -1307,6 +1311,16 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
                 logits_indices
             )
 
+        # update seq_lens of decode reqs under DCP.
+        if self.dcp_world_size > 1:
+            self.dcp_local_seq_lens.cpu[:num_reqs] = get_dcp_local_seq_lens(
+                self.seq_lens.cpu[:num_reqs],
+                self.dcp_world_size,
+                self.dcp_rank,
+                self.parallel_config.dcp_kv_cache_interleave_size,
+            )
+            self.dcp_local_seq_lens.copy_to_gpu(num_reqs)
+
         attn_metadata: PerLayerAttnMetadata = {}
         if ubatch_slices is not None:
             attn_metadata = [dict() for _ in range(len(ubatch_slices))]

From 77d702a22b607b92165d1ddac290e058a0375b83 Mon Sep 17 00:00:00 2001
From: Ev Lacey <github@everettlacey.com>
Date: Sat, 8 Nov 2025 14:04:16 -0800
Subject: [PATCH 249/976] Enhance run_cluster.sh for multi-NIC support (#28328)

Signed-off-by: Ev Lacey <elacey@nvidia.com>
---
 examples/online_serving/run_cluster.sh | 24 ++++++++++++++++++++++++
 1 file changed, 24 insertions(+)

diff --git a/examples/online_serving/run_cluster.sh b/examples/online_serving/run_cluster.sh
index 522b9566212bb..0756d4b0ae556 100644
--- a/examples/online_serving/run_cluster.sh
+++ b/examples/online_serving/run_cluster.sh
@@ -83,6 +83,29 @@ else
     RAY_START_CMD+=" --address=${HEAD_NODE_ADDRESS}:6379"
 fi
 
+# Parse VLLM_HOST_IP from additional args if present.
+# This is needed for multi-NIC configurations where Ray needs explicit IP bindings.
+VLLM_HOST_IP=""
+for arg in "${ADDITIONAL_ARGS[@]}"; do
+    if [[ $arg == "-e" ]]; then
+        continue
+    fi
+    if [[ $arg == VLLM_HOST_IP=* ]]; then
+        VLLM_HOST_IP="${arg#VLLM_HOST_IP=}"
+        break
+    fi
+done
+
+# Build Ray IP environment variables if VLLM_HOST_IP is set.
+# These variables ensure Ray binds to the correct network interface on multi-NIC systems.
+RAY_IP_VARS=()
+if [ -n "${VLLM_HOST_IP}" ]; then
+    RAY_IP_VARS=(
+        -e "RAY_NODE_IP_ADDRESS=${VLLM_HOST_IP}"
+        -e "RAY_OVERRIDE_NODE_IP_ADDRESS=${VLLM_HOST_IP}"
+    )
+fi
+
 # Launch the container with the assembled parameters.
 # --network host: Allows Ray nodes to communicate directly via host networking
 # --shm-size 10.24g: Increases shared memory
@@ -95,5 +118,6 @@ docker run \
     --shm-size 10.24g \
     --gpus all \
     -v "${PATH_TO_HF_HOME}:/root/.cache/huggingface" \
+    "${RAY_IP_VARS[@]}" \
     "${ADDITIONAL_ARGS[@]}" \
     "${DOCKER_IMAGE}" -c "${RAY_START_CMD}"

From 975676d17489086bfea088b27140827339f91116 Mon Sep 17 00:00:00 2001
From: Benjamin Chislett <bchislett@nvidia.com>
Date: Sat, 8 Nov 2025 17:07:37 -0500
Subject: [PATCH 250/976] [Feat] Drop-in Torch CUDA Profiler (#27841)

Signed-off-by: Benjamin Chislett <bchislett@nvidia.com>
---
 docs/contributing/profiling.md        | 46 +++++++++++----------------
 vllm/entrypoints/openai/api_server.py |  8 ++++-
 vllm/envs.py                          |  6 ++++
 vllm/profiler/gpu_profiler.py         | 37 +++++++++++++++++++++
 vllm/v1/worker/gpu_worker.py          |  8 ++++-
 5 files changed, 76 insertions(+), 29 deletions(-)
 create mode 100644 vllm/profiler/gpu_profiler.py

diff --git a/docs/contributing/profiling.md b/docs/contributing/profiling.md
index fed286f4b6343..7941b1f49ee8b 100644
--- a/docs/contributing/profiling.md
+++ b/docs/contributing/profiling.md
@@ -39,7 +39,7 @@ Refer to [examples/offline_inference/simple_profiling.py](../../examples/offline
 
 ```bash
 VLLM_TORCH_PROFILER_DIR=./vllm_profile \
-    vllm serve meta-llama/Meta-Llama-3-70B
+    vllm serve meta-llama/Llama-3.1-8B-Instruct
 ```
 
 vllm bench command:
@@ -47,7 +47,7 @@ vllm bench command:
 ```bash
 vllm bench serve \
     --backend vllm \
-    --model meta-llama/Meta-Llama-3-70B \
+    --model meta-llama/Llama-3.1-8B-Instruct \
     --dataset-name sharegpt \
     --dataset-path sharegpt.json \
     --profile \
@@ -70,18 +70,21 @@ apt update
 apt install nsight-systems-cli
 ```
 
-### Example commands and usage
+!!! tip
+    When profiling with `nsys`, it is advisable to set the environment variable `VLLM_WORKER_MULTIPROC_METHOD=spawn`. The default is to use the `fork` method instead of `spawn`. More information on the topic can be found in the [Nsight Systems release notes](https://docs.nvidia.com/nsight-systems/ReleaseNotes/index.html#general-issues).
 
-When profiling with `nsys`, it is advisable to set the environment variable `VLLM_WORKER_MULTIPROC_METHOD=spawn`. The default is to use the `fork` method instead of `spawn`. More information on the topic can be found in the [Nsight Systems release notes](https://docs.nvidia.com/nsight-systems/ReleaseNotes/index.html#general-issues).
+The Nsight Systems profiler can be launched with `nsys profile ...`, with a few recommended flags for vLLM: `--trace-fork-before-exec=true --cuda-graph-trace=node`.
+
+### Example commands and usage
 
 #### Offline Inference
 
-For basic usage, you can just append `nsys profile -o report.nsys-rep --trace-fork-before-exec=true --cuda-graph-trace=node` before any existing script you would run for offline inference.
+For basic usage, you can just append the profiling command before any existing script you would run for offline inference.
 
 The following is an example using the `vllm bench latency` script:
 
 ```bash
-nsys profile -o report.nsys-rep \
+nsys profile  \
     --trace-fork-before-exec=true \
     --cuda-graph-trace=node \
 vllm bench latency \
@@ -95,40 +98,29 @@ vllm bench latency \
 
 #### OpenAI Server
 
-To profile the server, you will want to prepend your `vllm serve` command with `nsys profile` just like for offline inference, however you must specify `--delay XX --duration YY` parameters according to the needs of your benchmark. After the duration time has been used up, the server will be killed.
+To profile the server, you will want to prepend your `vllm serve` command with `nsys profile` just like for offline inference, but you will need to specify a few other arguments to enable dynamic capture similarly to the Torch Profiler:
 
 ```bash
 # server
-nsys profile -o report.nsys-rep \
+VLLM_TORCH_CUDA_PROFILE=1 \
+nsys profile \
     --trace-fork-before-exec=true \
     --cuda-graph-trace=node \
-    --delay 30 \
-    --duration 60 \
+    --capture-range=cudaProfilerApi \
+    --capture-range-end repeat \
     vllm serve meta-llama/Llama-3.1-8B-Instruct
 
 # client
 vllm bench serve \
     --backend vllm \
     --model meta-llama/Llama-3.1-8B-Instruct \
-    --num-prompts 1 \
-    --dataset-name random \
-    --random-input 1024 \
-    --random-output 512
+    --dataset-name sharegpt \
+    --dataset-path sharegpt.json \
+    --profile \
+    --num-prompts 2
 ```
 
-In practice, you should set the `--duration` argument to a large value. Whenever you want the server to stop profiling, run:
-
-```bash
-nsys sessions list
-```
-
-to get the session id in the form of `profile-XXXXX`, then run:
-
-```bash
-nsys stop --session=profile-XXXXX
-```
-
-to manually kill the profiler and generate your `nsys-rep` report.
+With `--profile`, vLLM will capture a profile for each run of `vllm bench serve`. Once the server is killed, the profiles will all be saved.
 
 #### Analysis
 
diff --git a/vllm/entrypoints/openai/api_server.py b/vllm/entrypoints/openai/api_server.py
index cd55993ae4bac..c8c8d5c034d55 100644
--- a/vllm/entrypoints/openai/api_server.py
+++ b/vllm/entrypoints/openai/api_server.py
@@ -1280,10 +1280,16 @@ async def invocations(raw_request: Request):
 
 
 if envs.VLLM_TORCH_PROFILER_DIR:
-    logger.warning(
+    logger.warning_once(
         "Torch Profiler is enabled in the API server. This should ONLY be "
         "used for local development!"
     )
+elif envs.VLLM_TORCH_CUDA_PROFILE:
+    logger.warning_once(
+        "CUDA Profiler is enabled in the API server. This should ONLY be "
+        "used for local development!"
+    )
+if envs.VLLM_TORCH_PROFILER_DIR or envs.VLLM_TORCH_CUDA_PROFILE:
 
     @router.post("/start_profile")
     async def start_profile(raw_request: Request):
diff --git a/vllm/envs.py b/vllm/envs.py
index 59a6bef58c9c2..9cdb7ea974b8f 100755
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -87,6 +87,7 @@ if TYPE_CHECKING:
     VLLM_HTTP_TIMEOUT_KEEP_ALIVE: int = 5  # seconds
     VLLM_PLUGINS: list[str] | None = None
     VLLM_LORA_RESOLVER_CACHE_DIR: str | None = None
+    VLLM_TORCH_CUDA_PROFILE: bool = False
     VLLM_TORCH_PROFILER_DIR: str | None = None
     VLLM_TORCH_PROFILER_RECORD_SHAPES: bool = False
     VLLM_TORCH_PROFILER_WITH_PROFILE_MEMORY: bool = False
@@ -815,6 +816,11 @@ environment_variables: dict[str, Callable[[], Any]] = {
     "VLLM_LORA_RESOLVER_CACHE_DIR": lambda: os.getenv(
         "VLLM_LORA_RESOLVER_CACHE_DIR", None
     ),
+    # Enables torch CUDA profiling if set.
+    # On NVIDIA GPUs, this will start/stop cudaProfilerApi when triggered.
+    "VLLM_TORCH_CUDA_PROFILE": lambda: bool(
+        os.getenv("VLLM_TORCH_CUDA_PROFILE", "0") != "0"
+    ),
     # Enables torch profiler if set.
     # Both AsyncLLM's CPU traces as well as workers'
     # traces (CPU & GPU) will be saved under this directory.
diff --git a/vllm/profiler/gpu_profiler.py b/vllm/profiler/gpu_profiler.py
new file mode 100644
index 0000000000000..58c6689531615
--- /dev/null
+++ b/vllm/profiler/gpu_profiler.py
@@ -0,0 +1,37 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+class CudaProfilerWrapper:
+    def __init__(self) -> None:
+        self._profiler_running = False
+        # Note: lazy import to avoid dependency issues if CUDA is not available.
+        import torch.cuda.profiler as cuda_profiler
+
+        self._cuda_profiler = cuda_profiler
+
+    def start(self) -> None:
+        try:
+            self._cuda_profiler.start()
+            self._profiler_running = True
+            logger.info_once("Started CUDA profiler")
+        except Exception as e:
+            logger.warning_once("Failed to start CUDA profiler: %s", e)
+
+    def stop(self) -> None:
+        if self._profiler_running:
+            try:
+                self._cuda_profiler.stop()
+                logger.info_once("Stopped CUDA profiler")
+            except Exception as e:
+                logger.warning_once("Failed to stop CUDA profiler: %s", e)
+            finally:
+                self._profiler_running = False
+
+    def shutdown(self) -> None:
+        """Ensure profiler is stopped when shutting down."""
+        self.stop()
diff --git a/vllm/v1/worker/gpu_worker.py b/vllm/v1/worker/gpu_worker.py
index f13ff4e726bd4..19061fcffdf1a 100644
--- a/vllm/v1/worker/gpu_worker.py
+++ b/vllm/v1/worker/gpu_worker.py
@@ -35,6 +35,7 @@ from vllm.model_executor import set_random_seed
 from vllm.model_executor.models.interfaces import is_mixture_of_experts
 from vllm.model_executor.warmup.kernel_warmup import kernel_warmup
 from vllm.platforms import current_platform
+from vllm.profiler.gpu_profiler import CudaProfilerWrapper
 from vllm.sequence import IntermediateTensors
 from vllm.tasks import SupportedTask
 from vllm.utils.mem_constants import GiB_bytes
@@ -116,6 +117,8 @@ class Worker(WorkerBase):
                     torch_profiler_trace_dir, worker_name=worker_name, use_gzip=True
                 ),
             )
+        elif envs.VLLM_TORCH_CUDA_PROFILE:
+            self.profiler = CudaProfilerWrapper()
         else:
             self.profiler = None
 
@@ -593,7 +596,10 @@ class Worker(WorkerBase):
         else:
             self.profiler.stop()
             # only print profiler results on rank 0
-            if self.local_rank == 0:
+            if (
+                isinstance(self.profiler, torch.profiler.profile)
+                and self.local_rank == 0
+            ):
                 print(
                     self.profiler.key_averages().table(sort_by="self_cuda_time_total")
                 )

From 32787d06449172c3acb6da7347e755214588111b Mon Sep 17 00:00:00 2001
From: Cole Murray <colemurray.cs@gmail.com>
Date: Sat, 8 Nov 2025 14:30:18 -0800
Subject: [PATCH 251/976] Remove setuptools upper bound constraint (<80)
 (#28337)

Signed-off-by: Cole Murray <colemurray.cs@gmail.com>
---
 pyproject.toml              | 2 +-
 requirements/build.txt      | 2 +-
 requirements/common.txt     | 2 +-
 requirements/cpu-build.txt  | 2 +-
 requirements/cpu.txt        | 2 +-
 requirements/rocm-build.txt | 2 +-
 requirements/rocm.txt       | 2 +-
 requirements/xpu.txt        | 2 +-
 8 files changed, 8 insertions(+), 8 deletions(-)

diff --git a/pyproject.toml b/pyproject.toml
index 29ee7f75f070a..a250ab6567f12 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -4,7 +4,7 @@ requires = [
     "cmake>=3.26.1",
     "ninja",
     "packaging>=24.2",
-    "setuptools>=77.0.3,<80.0.0",
+    "setuptools>=77.0.3,<81.0.0",
     "setuptools-scm>=8.0",
     "torch == 2.9.0",
     "wheel",
diff --git a/requirements/build.txt b/requirements/build.txt
index ba09eaab70e8e..23ff8d4fdc1c0 100644
--- a/requirements/build.txt
+++ b/requirements/build.txt
@@ -2,7 +2,7 @@
 cmake>=3.26.1
 ninja
 packaging>=24.2
-setuptools>=77.0.3,<80.0.0
+setuptools>=77.0.3,<81.0.0
 setuptools-scm>=8
 torch==2.9.0
 wheel
diff --git a/requirements/common.txt b/requirements/common.txt
index ce5607b7fbf2d..8009581f62a4f 100644
--- a/requirements/common.txt
+++ b/requirements/common.txt
@@ -35,7 +35,7 @@ mistral_common[image,audio] >= 1.8.5
 opencv-python-headless >= 4.11.0    # required for video IO
 pyyaml
 six>=1.16.0; python_version > '3.11' # transitive dependency of pandas that needs to be the latest version for python 3.12
-setuptools>=77.0.3,<80; python_version > '3.11' # Setuptools is used by triton, we need to ensure a modern version is installed for 3.12+ so that it does not try to import distutils, which was removed in 3.12
+setuptools>=77.0.3,<81.0.0; python_version > '3.11' # Setuptools is used by triton, we need to ensure a modern version is installed for 3.12+ so that it does not try to import distutils, which was removed in 3.12
 einops # Required for Qwen2-VL.
 compressed-tensors == 0.12.2 # required for compressed-tensors
 depyf==0.20.0 # required for profiling and debugging with compilation config
diff --git a/requirements/cpu-build.txt b/requirements/cpu-build.txt
index bba7bc7a4d8c4..331d02be6621e 100644
--- a/requirements/cpu-build.txt
+++ b/requirements/cpu-build.txt
@@ -1,7 +1,7 @@
 cmake>=3.26.1
 ninja
 packaging>=24.2
-setuptools>=77.0.3,<80.0.0
+setuptools>=77.0.3,<81.0.0
 setuptools-scm>=8
 --extra-index-url https://download.pytorch.org/whl/cpu
 torch==2.8.0+cpu; platform_machine == "x86_64"
diff --git a/requirements/cpu.txt b/requirements/cpu.txt
index ac0c4d20c1c1c..605ce73bff9ce 100644
--- a/requirements/cpu.txt
+++ b/requirements/cpu.txt
@@ -5,7 +5,7 @@ numba == 0.61.2; platform_machine != "s390x" # Required for N-gram speculative d
 
 # Dependencies for CPUs
 packaging>=24.2
-setuptools>=77.0.3,<80.0.0
+setuptools>=77.0.3,<81.0.0
 --extra-index-url https://download.pytorch.org/whl/cpu
 torch==2.8.0+cpu; platform_machine == "x86_64" or platform_machine == "s390x"
 torch==2.8.0; platform_system == "Darwin"
diff --git a/requirements/rocm-build.txt b/requirements/rocm-build.txt
index 51f58e57a7851..56ec90c563c04 100644
--- a/requirements/rocm-build.txt
+++ b/requirements/rocm-build.txt
@@ -9,7 +9,7 @@ torchaudio==2.9.0
 triton==3.5.0
 cmake>=3.26.1,<4
 packaging>=24.2
-setuptools>=77.0.3,<80.0.0
+setuptools>=77.0.3,<81.0.0
 setuptools-scm>=8
 wheel
 jinja2>=3.1.6
diff --git a/requirements/rocm.txt b/requirements/rocm.txt
index 6f1cca90e5e2b..f06e4248a7242 100644
--- a/requirements/rocm.txt
+++ b/requirements/rocm.txt
@@ -10,7 +10,7 @@ peft
 pytest-asyncio
 tensorizer==2.10.1
 packaging>=24.2
-setuptools>=77.0.3,<80.0.0
+setuptools>=77.0.3,<81.0.0
 setuptools-scm>=8
 runai-model-streamer[s3,gcs]==0.15.0
 conch-triton-kernels==1.2.1
diff --git a/requirements/xpu.txt b/requirements/xpu.txt
index e69a98b86036e..59ea710684a2c 100644
--- a/requirements/xpu.txt
+++ b/requirements/xpu.txt
@@ -5,7 +5,7 @@ ray>=2.9
 cmake>=3.26.1
 packaging>=24.2
 setuptools-scm>=8
-setuptools>=77.0.3,<80.0.0
+setuptools>=77.0.3,<81.0.0
 wheel
 jinja2>=3.1.6
 datasets # for benchmark scripts

From 171133f929f2e896af767ca6e6402990a5c2814e Mon Sep 17 00:00:00 2001
From: ElizaWszola <ewszola@redhat.com>
Date: Sat, 8 Nov 2025 23:31:33 +0100
Subject: [PATCH 252/976] [Bugfix] Fix test fused quant layernorm tests
 (#27865)

Signed-off-by: ElizaWszola <ewszola@redhat.com>
Signed-off-by: yewentao256 <zhyanwentao@126.com>
Co-authored-by: yewentao256 <zhyanwentao@126.com>
Co-authored-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com>
---
 csrc/quantization/w8a8/int8/scaled_quant.cu   |  3 ++
 .../core/test_fused_quant_layernorm.py        | 35 +++++++++++++------
 2 files changed, 28 insertions(+), 10 deletions(-)

diff --git a/csrc/quantization/w8a8/int8/scaled_quant.cu b/csrc/quantization/w8a8/int8/scaled_quant.cu
index 7fe9e96bfb017..be8ecfeacf8c0 100644
--- a/csrc/quantization/w8a8/int8/scaled_quant.cu
+++ b/csrc/quantization/w8a8/int8/scaled_quant.cu
@@ -1,5 +1,6 @@
 #include <ATen/cuda/CUDAContext.h>
 #include <torch/all.h>
+#include <c10/cuda/CUDAGuard.h>
 
 #include <cmath>
 
@@ -275,6 +276,7 @@ void static_scaled_int8_quant(torch::Tensor& out,          // [..., hidden_size]
   int const num_tokens = input.numel() / hidden_size;
   dim3 const grid(num_tokens);
   dim3 const block(std::min(hidden_size, 256));
+  const at::cuda::OptionalCUDAGuard device_guard(device_of(input));
   const cudaStream_t stream = at::cuda::getCurrentCUDAStream();
   VLLM_DISPATCH_FLOATING_TYPES(
       input.scalar_type(), "static_scaled_int8_quant_kernel", [&] {
@@ -306,6 +308,7 @@ void dynamic_scaled_int8_quant(
   int const num_tokens = input.numel() / hidden_size;
   dim3 const grid(num_tokens);
   dim3 const block(std::min(hidden_size, 256));
+  const at::cuda::OptionalCUDAGuard device_guard(device_of(input));
   const cudaStream_t stream = at::cuda::getCurrentCUDAStream();
   VLLM_DISPATCH_FLOATING_TYPES(
       input.scalar_type(), "dynamic_scaled_int8_quant_kernel", [&] {
diff --git a/tests/kernels/core/test_fused_quant_layernorm.py b/tests/kernels/core/test_fused_quant_layernorm.py
index 63b5a37d3c779..b5fc653ca7353 100644
--- a/tests/kernels/core/test_fused_quant_layernorm.py
+++ b/tests/kernels/core/test_fused_quant_layernorm.py
@@ -11,7 +11,7 @@ from vllm.model_executor.layers.layernorm import RMSNorm
 
 DTYPES = [torch.bfloat16, torch.float]
 QUANT_DTYPES = [torch.int8, torch.float8_e4m3fn]
-VEC_HIDDEN_SIZES = range(1024, 1030)
+VEC_HIDDEN_SIZES = [1024, 1025, 1027, 1029]
 # Avoid combinatorial explosion with full Cartesian product
 NUM_TOKENS_HIDDEN_SIZES = [
     *[(1, i) for i in [1, 64, *VEC_HIDDEN_SIZES, 5120, 5137]],
@@ -65,7 +65,7 @@ def ref_dynamic_per_token_quant(
         )
     else:
         assert quant_dtype == torch.int8
-        torch_out, scales = ops.scaled_int8_quant(torch_out)
+        torch_out, scales, _ = ops.scaled_int8_quant(torch_out)
 
     return torch_out, scales, residual
 
@@ -109,7 +109,7 @@ def ops_impl(
 
 @pytest.mark.parametrize("num_tokens, hidden_size", NUM_TOKENS_HIDDEN_SIZES)
 @pytest.mark.parametrize("add_residual", ADD_RESIDUAL)
-@pytest.mark.parametrize("scale_ub", SCALE_UBS)
+@pytest.mark.parametrize("has_scale_ub", SCALE_UBS)
 @pytest.mark.parametrize("dtype", DTYPES)
 @pytest.mark.parametrize("quant_dtype", QUANT_DTYPES)
 @pytest.mark.parametrize("seed", SEEDS)
@@ -119,7 +119,7 @@ def test_rms_norm(
     num_tokens: int,
     hidden_size: int,
     add_residual: bool,
-    scale_ub: bool,
+    has_scale_ub: bool,
     dtype: torch.dtype,
     quant_dtype: torch.dtype,
     seed: int,
@@ -130,7 +130,7 @@ def test_rms_norm(
         torch.cuda.manual_seed(seed)
     torch.set_default_device(device)
 
-    if scale_ub is not None and quant_dtype != torch.float8_e4m3fn:
+    if has_scale_ub and quant_dtype != torch.float8_e4m3fn:
         # skip
         return
 
@@ -143,9 +143,11 @@ def test_rms_norm(
     scale = 1 / (hidden_size)
     x = torch.randn(num_tokens, hidden_size, dtype=dtype) * scale
     residual = torch.randn_like(x) * scale if add_residual else None
-    if scale_ub is not None:
+    if has_scale_ub:
         rms_x, _ = ref_rms_norm(layer, x, residual)
         scale_ub = torch.mean(rms_x).to(dtype=torch.float32, device="cuda")
+    else:
+        scale_ub = None
 
     ref_out, ref_scales, ref_residual = ref_impl(
         layer, x, quant_dtype, residual, scale_ub
@@ -156,14 +158,27 @@ def test_rms_norm(
 
     assert ref_out.dtype == quant_dtype
     assert ops_out.dtype == quant_dtype
-    assert torch.allclose(ref_scales, ops_scales)
     if quant_dtype == torch.int8:
+        assert torch.allclose(ref_scales, ops_scales, atol=1e-6)
         # big atol to account for round-off errors.
         assert torch.allclose(ref_out, ops_out, atol=1)
     else:
-        assert torch.allclose(
-            ref_out.to(dtype=torch.float32), ops_out.to(dtype=torch.float32)
-        )
+        assert torch.allclose(ref_scales, ops_scales)
+        a = ref_out.to(dtype=torch.float32)
+        b = ops_out.to(dtype=torch.float32)
+        ok = torch.allclose(a, b)
+        if not ok:
+            # fallback: compare dequantized values with relaxed tolerance
+            a_deq = a * ref_scales.view(-1, 1)
+            b_deq = b * ops_scales.view(-1, 1)
+            # NOTE: It is possible that some future test cases trigger this
+            # max diff due to precision issues. If such an error is
+            # encountered, it's recommended to inspect the differences between
+            # all corresponding elements from each tensor (e.g. by looping over
+            # them) and checking how many the max diff error shows up on (just
+            # a few bad elements should still be considered acceptable).
+            ok = torch.allclose(a_deq, b_deq, rtol=5e-2, atol=5e-2)
+        assert ok
     if add_residual:
         assert torch.allclose(ref_residual, ops_residual)
 

From 404d7a9d1452d571c52fdcc6795ad18add57483c Mon Sep 17 00:00:00 2001
From: Mohammad Miadh Angkad <mangkad.bsdsba2027@aim.edu>
Date: Sun, 9 Nov 2025 06:50:10 +0800
Subject: [PATCH 253/976] [Performance][gpt-oss] Revert gpt-oss max cudagraph
 size to 1024 (#28345)

Signed-off-by: Mohammad Miadh Angkad <MAngkad.BSDSBA2027@aim.edu>
---
 vllm/model_executor/models/config.py | 10 ++++------
 1 file changed, 4 insertions(+), 6 deletions(-)

diff --git a/vllm/model_executor/models/config.py b/vllm/model_executor/models/config.py
index 33fa06fe0e9bc..66b246878b0aa 100644
--- a/vllm/model_executor/models/config.py
+++ b/vllm/model_executor/models/config.py
@@ -258,9 +258,9 @@ class GptOssForCausalLMConfig(VerifyAndUpdateConfig):
         if structured_outputs_config.reasoning_parser == "":
             structured_outputs_config.reasoning_parser = "openai_gptoss"
 
-        # Increase the max capture size from 512 to 992 for performance.
+        # Increase the max capture size from 512 to 1024 for performance.
         # NOTE(woosuk): This will increase the number of CUDA graphs
-        # from 67 to 81.
+        # from 67 to 83.
         compilation_config = vllm_config.compilation_config
         # Only override when the user has not set either of
         # cudagraph_capture_sizes or max_cudagraph_capture_size.
@@ -268,11 +268,9 @@ class GptOssForCausalLMConfig(VerifyAndUpdateConfig):
             compilation_config.cudagraph_capture_sizes is None
             and compilation_config.max_cudagraph_capture_size is None
         ):
-            # FIXME(woosuk): When using full cuda graph with FA3, the max
-            # supported size is 992.
-            compilation_config.max_cudagraph_capture_size = 992
+            compilation_config.max_cudagraph_capture_size = 1024
             logger.info(
-                "Overriding max cuda graph capture size to %d for performance.", 992
+                "Overriding max cuda graph capture size to %d for performance.", 1024
             )
 
 
From 05f8d690779232a479d1bbf7e87d6a27ee027579 Mon Sep 17 00:00:00 2001
From: "Kevin H. Luu" <khluu000@gmail.com>
Date: Sat, 8 Nov 2025 17:58:26 -0800
Subject: [PATCH 254/976] [chore] Move some wikimedia images to S3 (#28351)

Signed-off-by: Kevin H. Luu <khluu000@gmail.com>
---
 docs/features/multimodal_inputs.md            |  4 ++--
 examples/offline_inference/spec_decode.py     | 24 +++++++++----------
 .../vision_language_multi_image.py            | 24 +++++++++----------
 ...i_chat_completion_client_for_multimodal.py |  4 ++--
 4 files changed, 28 insertions(+), 28 deletions(-)

diff --git a/docs/features/multimodal_inputs.md b/docs/features/multimodal_inputs.md
index caf458c24497c..cde2ec165712b 100644
--- a/docs/features/multimodal_inputs.md
+++ b/docs/features/multimodal_inputs.md
@@ -509,8 +509,8 @@ Then, you can use the OpenAI client as follows:
     print("Chat completion output:", chat_response.choices[0].message.content)
 
     # Multi-image input inference
-    image_url_duck = "https://upload.wikimedia.org/wikipedia/commons/d/da/2015_Kaczka_krzy%C5%BCowka_w_wodzie_%28samiec%29.jpg"
-    image_url_lion = "https://upload.wikimedia.org/wikipedia/commons/7/77/002_The_lion_king_Snyggve_in_the_Serengeti_National_Park_Photo_by_Giles_Laurent.jpg"
+    image_url_duck = "https://vllm-public-assets.s3.us-west-2.amazonaws.com/multimodal_asset/duck.jpg"
+    image_url_lion = "https://vllm-public-assets.s3.us-west-2.amazonaws.com/multimodal_asset/lion.jpg"
 
     chat_response = client.chat.completions.create(
         model="microsoft/Phi-3.5-vision-instruct",
diff --git a/examples/offline_inference/spec_decode.py b/examples/offline_inference/spec_decode.py
index f5f6e28b5fd9b..3cdc3b245b72a 100644
--- a/examples/offline_inference/spec_decode.py
+++ b/examples/offline_inference/spec_decode.py
@@ -16,18 +16,18 @@ except ImportError:
 
 QUESTION = "What is the content of each image?"
 IMAGE_URLS = [
-    "https://upload.wikimedia.org/wikipedia/commons/d/da/2015_Kaczka_krzy%C5%BCowka_w_wodzie_%28samiec%29.jpg",
-    "https://upload.wikimedia.org/wikipedia/commons/7/77/002_The_lion_king_Snyggve_in_the_Serengeti_National_Park_Photo_by_Giles_Laurent.jpg",
-    "https://upload.wikimedia.org/wikipedia/commons/2/26/Ultramarine_Flycatcher_%28Ficedula_superciliaris%29_Naggar%2C_Himachal_Pradesh%2C_2013_%28cropped%29.JPG",
-    "https://upload.wikimedia.org/wikipedia/commons/thumb/e/e5/Anim1754_-_Flickr_-_NOAA_Photo_Library_%281%29.jpg/2560px-Anim1754_-_Flickr_-_NOAA_Photo_Library_%281%29.jpg",
-    "https://upload.wikimedia.org/wikipedia/commons/d/d4/Starfish%2C_Caswell_Bay_-_geograph.org.uk_-_409413.jpg",
-    "https://upload.wikimedia.org/wikipedia/commons/6/69/Grapevinesnail_01.jpg",
-    "https://upload.wikimedia.org/wikipedia/commons/thumb/0/0b/Texas_invasive_Musk_Thistle_1.jpg/1920px-Texas_invasive_Musk_Thistle_1.jpg",
-    "https://upload.wikimedia.org/wikipedia/commons/thumb/7/7a/Huskiesatrest.jpg/2880px-Huskiesatrest.jpg",
-    "https://upload.wikimedia.org/wikipedia/commons/thumb/6/68/Orange_tabby_cat_sitting_on_fallen_leaves-Hisashi-01A.jpg/1920px-Orange_tabby_cat_sitting_on_fallen_leaves-Hisashi-01A.jpg",
-    "https://upload.wikimedia.org/wikipedia/commons/3/30/George_the_amazing_guinea_pig.jpg",
-    "https://upload.wikimedia.org/wikipedia/commons/thumb/1/1f/Oryctolagus_cuniculus_Rcdo.jpg/1920px-Oryctolagus_cuniculus_Rcdo.jpg",
-    "https://upload.wikimedia.org/wikipedia/commons/9/98/Horse-and-pony.jpg",
+    "https://vllm-public-assets.s3.us-west-2.amazonaws.com/multimodal_asset/duck.jpg",
+    "https://vllm-public-assets.s3.us-west-2.amazonaws.com/multimodal_asset/lion.jpg",
+    "https://vllm-public-assets.s3.us-west-2.amazonaws.com/multimodal_asset/flycatcher.jpeg",
+    "https://vllm-public-assets.s3.us-west-2.amazonaws.com/multimodal_asset/somefish.jpg",
+    "https://vllm-public-assets.s3.us-west-2.amazonaws.com/multimodal_asset/starfish.jpg",
+    "https://vllm-public-assets.s3.us-west-2.amazonaws.com/multimodal_asset/snail.jpg",
+    "https://vllm-public-assets.s3.us-west-2.amazonaws.com/multimodal_asset/thistle.jpg",
+    "https://vllm-public-assets.s3.us-west-2.amazonaws.com/multimodal_asset/husky.jpg",
+    "https://vllm-public-assets.s3.us-west-2.amazonaws.com/multimodal_asset/orangetabbycat.jpg",
+    "https://vllm-public-assets.s3.us-west-2.amazonaws.com/multimodal_asset/guineapig.jpg",
+    "https://vllm-public-assets.s3.us-west-2.amazonaws.com/multimodal_asset/rabbit.jpg",
+    "https://vllm-public-assets.s3.us-west-2.amazonaws.com/multimodal_asset/horsepony.jpg",
 ]
 
 
diff --git a/examples/offline_inference/vision_language_multi_image.py b/examples/offline_inference/vision_language_multi_image.py
index 80c7fc4431229..d6e169548f15b 100644
--- a/examples/offline_inference/vision_language_multi_image.py
+++ b/examples/offline_inference/vision_language_multi_image.py
@@ -22,18 +22,18 @@ from vllm.utils.argparse_utils import FlexibleArgumentParser
 
 QUESTION = "What is the content of each image?"
 IMAGE_URLS = [
-    "https://upload.wikimedia.org/wikipedia/commons/d/da/2015_Kaczka_krzy%C5%BCowka_w_wodzie_%28samiec%29.jpg",
-    "https://upload.wikimedia.org/wikipedia/commons/7/77/002_The_lion_king_Snyggve_in_the_Serengeti_National_Park_Photo_by_Giles_Laurent.jpg",
-    "https://upload.wikimedia.org/wikipedia/commons/2/26/Ultramarine_Flycatcher_%28Ficedula_superciliaris%29_Naggar%2C_Himachal_Pradesh%2C_2013_%28cropped%29.JPG",
-    "https://upload.wikimedia.org/wikipedia/commons/thumb/e/e5/Anim1754_-_Flickr_-_NOAA_Photo_Library_%281%29.jpg/2560px-Anim1754_-_Flickr_-_NOAA_Photo_Library_%281%29.jpg",
-    "https://upload.wikimedia.org/wikipedia/commons/d/d4/Starfish%2C_Caswell_Bay_-_geograph.org.uk_-_409413.jpg",
-    "https://upload.wikimedia.org/wikipedia/commons/6/69/Grapevinesnail_01.jpg",
-    "https://upload.wikimedia.org/wikipedia/commons/thumb/0/0b/Texas_invasive_Musk_Thistle_1.jpg/1920px-Texas_invasive_Musk_Thistle_1.jpg",
-    "https://upload.wikimedia.org/wikipedia/commons/thumb/7/7a/Huskiesatrest.jpg/2880px-Huskiesatrest.jpg",
-    "https://upload.wikimedia.org/wikipedia/commons/thumb/6/68/Orange_tabby_cat_sitting_on_fallen_leaves-Hisashi-01A.jpg/1920px-Orange_tabby_cat_sitting_on_fallen_leaves-Hisashi-01A.jpg",
-    "https://upload.wikimedia.org/wikipedia/commons/3/30/George_the_amazing_guinea_pig.jpg",
-    "https://upload.wikimedia.org/wikipedia/commons/thumb/1/1f/Oryctolagus_cuniculus_Rcdo.jpg/1920px-Oryctolagus_cuniculus_Rcdo.jpg",
-    "https://upload.wikimedia.org/wikipedia/commons/9/98/Horse-and-pony.jpg",
+    "https://vllm-public-assets.s3.us-west-2.amazonaws.com/multimodal_asset/duck.jpg",
+    "https://vllm-public-assets.s3.us-west-2.amazonaws.com/multimodal_asset/lion.jpg",
+    "https://vllm-public-assets.s3.us-west-2.amazonaws.com/multimodal_asset/flycatcher.jpeg",
+    "https://vllm-public-assets.s3.us-west-2.amazonaws.com/multimodal_asset/somefish.jpg",
+    "https://vllm-public-assets.s3.us-west-2.amazonaws.com/multimodal_asset/starfish.jpg",
+    "https://vllm-public-assets.s3.us-west-2.amazonaws.com/multimodal_asset/snail.jpg",
+    "https://vllm-public-assets.s3.us-west-2.amazonaws.com/multimodal_asset/thistle.jpg",
+    "https://vllm-public-assets.s3.us-west-2.amazonaws.com/multimodal_asset/husky.jpg",
+    "https://vllm-public-assets.s3.us-west-2.amazonaws.com/multimodal_asset/orangetabbycat.jpg",
+    "https://vllm-public-assets.s3.us-west-2.amazonaws.com/multimodal_asset/guineapig.jpg",
+    "https://vllm-public-assets.s3.us-west-2.amazonaws.com/multimodal_asset/rabbit.jpg",
+    "https://vllm-public-assets.s3.us-west-2.amazonaws.com/multimodal_asset/horsepony.jpg",
 ]
 
 
diff --git a/examples/online_serving/openai_chat_completion_client_for_multimodal.py b/examples/online_serving/openai_chat_completion_client_for_multimodal.py
index 9fa600ff458db..520cbca003aa5 100644
--- a/examples/online_serving/openai_chat_completion_client_for_multimodal.py
+++ b/examples/online_serving/openai_chat_completion_client_for_multimodal.py
@@ -112,8 +112,8 @@ def run_single_image(model: str, max_completion_tokens: int) -> None:
 
 # Multi-image input inference
 def run_multi_image(model: str, max_completion_tokens: int) -> None:
-    image_url_duck = "https://upload.wikimedia.org/wikipedia/commons/d/da/2015_Kaczka_krzy%C5%BCowka_w_wodzie_%28samiec%29.jpg"
-    image_url_lion = "https://upload.wikimedia.org/wikipedia/commons/7/77/002_The_lion_king_Snyggve_in_the_Serengeti_National_Park_Photo_by_Giles_Laurent.jpg"
+    image_url_duck = "https://vllm-public-assets.s3.us-west-2.amazonaws.com/multimodal_asset/duck.jpg"
+    image_url_lion = "https://vllm-public-assets.s3.us-west-2.amazonaws.com/multimodal_asset/lion.jpg"
     chat_completion_from_url = client.chat.completions.create(
         messages=[
             {

From 3a7d58034374a1320ee1064437f7bc3d7aac8987 Mon Sep 17 00:00:00 2001
From: yihong <zouzou0208@gmail.com>
Date: Sun, 9 Nov 2025 13:07:26 +0800
Subject: [PATCH 255/976] fix: close issue 28338 by fixed python version
 (#28339)

Signed-off-by: yihong0618 <zouzou0208@gmail.com>
---
 .pre-commit-config.yaml | 2 +-
 requirements/test.txt   | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/.pre-commit-config.yaml b/.pre-commit-config.yaml
index bcd40e7f8ab39..e034f75a9d322 100644
--- a/.pre-commit-config.yaml
+++ b/.pre-commit-config.yaml
@@ -38,7 +38,7 @@ repos:
   rev: 0.9.1
   hooks:
     - id: pip-compile
-      args: [requirements/test.in, -o, requirements/test.txt, --index-strategy, unsafe-best-match, --torch-backend, cu129, --python-platform, x86_64-manylinux_2_28]
+      args: [requirements/test.in, -o, requirements/test.txt, --index-strategy, unsafe-best-match, --torch-backend, cu129, --python-platform, x86_64-manylinux_2_28, --python-version, "3.12"]
       files: ^requirements/test\.(in|txt)$
 - repo: local
   hooks:
diff --git a/requirements/test.txt b/requirements/test.txt
index 07fa3f7877100..3263b74c08797 100644
--- a/requirements/test.txt
+++ b/requirements/test.txt
@@ -1,5 +1,5 @@
 # This file was autogenerated by uv via the following command:
-#    uv pip compile requirements/test.in -o requirements/test.txt --index-strategy unsafe-best-match --torch-backend cu129 --python-platform x86_64-manylinux_2_28
+#    uv pip compile requirements/test.in -o requirements/test.txt --index-strategy unsafe-best-match --torch-backend cu129 --python-platform x86_64-manylinux_2_28 --python-version 3.12
 absl-py==2.1.0
     # via rouge-score
 accelerate==1.0.1

From e5e9067e61600eedd4e75bd1c512ec52872916aa Mon Sep 17 00:00:00 2001
From: Ning Xie <andy.xning@gmail.com>
Date: Sun, 9 Nov 2025 13:33:46 +0800
Subject: [PATCH 256/976] [Misc] fix typo and add detailed log (#28178)

Signed-off-by: Andy Xie <andy.xning@gmail.com>
---
 examples/offline_inference/load_sharded_state.py | 2 +-
 vllm/v1/worker/gpu_model_runner.py               | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/examples/offline_inference/load_sharded_state.py b/examples/offline_inference/load_sharded_state.py
index 52c2363c89874..c5ae35985c17c 100644
--- a/examples/offline_inference/load_sharded_state.py
+++ b/examples/offline_inference/load_sharded_state.py
@@ -11,7 +11,7 @@ python save_sharded_state.py \
     --model /path/to/load \
     --quantization deepspeedfp \
     --tensor-parallel-size 8 \
-    --output /path/to/save/sharded/modele
+    --output /path/to/save/sharded/model
 
 python load_sharded_state.py \
     --model /path/to/saved/sharded/model \
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index c225479810aa4..3709710ef42e7 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -3035,7 +3035,7 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
             time_after_load = time.perf_counter()
         self.model_memory_usage = m.consumed_memory
         logger.info_once(
-            "Model loading took %.4f GiB and %.6f seconds",
+            "Model loading took %.4f GiB memory and %.6f seconds",
             self.model_memory_usage / GiB_bytes,
             time_after_load - time_before_load,
             scope="local",

From de2b78305f4e8fa07e0b8b2a4fb6ac03ab0dde20 Mon Sep 17 00:00:00 2001
From: Yong Hoon Shin <48474650+sarckk@users.noreply.github.com>
Date: Sat, 8 Nov 2025 20:27:00 -1000
Subject: [PATCH 257/976] [ROCm] Add env to enable/disable aiter triton gemm
 (#28321)

Signed-off-by: Yong Hoon Shin <yhshin@meta.com>
---
 vllm/envs.py                        | 7 +++++++
 vllm/model_executor/layers/utils.py | 1 +
 2 files changed, 8 insertions(+)

diff --git a/vllm/envs.py b/vllm/envs.py
index 9cdb7ea974b8f..078e5c38f0f40 100755
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -113,6 +113,7 @@ if TYPE_CHECKING:
     VLLM_ROCM_USE_AITER_FP8BMM: bool = True
     VLLM_ROCM_USE_AITER_UNIFIED_ATTENTION: bool = False
     VLLM_ROCM_USE_AITER_FUSION_SHARED_EXPERTS: bool = True
+    VLLM_ROCM_USE_AITER_TRITON_GEMM: bool = True
     VLLM_ROCM_USE_SKINNY_GEMM: bool = True
     VLLM_ROCM_FP8_PADDING: bool = True
     VLLM_ROCM_MOE_PADDING: bool = True
@@ -944,6 +945,11 @@ environment_variables: dict[str, Callable[[], Any]] = {
         os.getenv("VLLM_ROCM_USE_AITER_FUSION_SHARED_EXPERTS", "True").lower()
         in ("true", "1")
     ),
+    # Whether to use aiter triton kernels for gemm ops.
+    # By default is enabled.
+    "VLLM_ROCM_USE_AITER_TRITON_GEMM": lambda: (
+        os.getenv("VLLM_ROCM_USE_AITER_TRITON_GEMM", "True").lower() in ("true", "1")
+    ),
     # use rocm skinny gemms
     "VLLM_ROCM_USE_SKINNY_GEMM": lambda: (
         os.getenv("VLLM_ROCM_USE_SKINNY_GEMM", "True").lower() in ("true", "1")
@@ -1586,6 +1592,7 @@ def compute_hash() -> str:
         "VLLM_ROCM_USE_TRITON_ROPE",
         "VLLM_ROCM_USE_AITER_FP8BMM",
         "VLLM_ROCM_USE_AITER_UNIFIED_ATTENTION",
+        "VLLM_ROCM_USE_AITER_TRITON_GEMM",
         "VLLM_ROCM_USE_SKINNY_GEMM",
         "VLLM_ROCM_FP8_PADDING",
         "VLLM_ROCM_MOE_PADDING",
diff --git a/vllm/model_executor/layers/utils.py b/vllm/model_executor/layers/utils.py
index 3d90c9513683b..b17bdd0b72078 100644
--- a/vllm/model_executor/layers/utils.py
+++ b/vllm/model_executor/layers/utils.py
@@ -106,6 +106,7 @@ def default_unquantized_gemm(
 def use_aiter_triton_gemm(n, m, k, dtype):
     if (
         envs.VLLM_ROCM_USE_AITER == 0
+        or envs.VLLM_ROCM_USE_AITER_TRITON_GEMM == 0
         # MI300's - fp8nuz=True
         or current_platform.is_fp8_fnuz()
         or dtype not in [torch.float16, torch.bfloat16]

From 7ae5a5fb11151e029609009b7950cc46ff097407 Mon Sep 17 00:00:00 2001
From: Jiangyun Zhu <riverclouds.zhu@qq.com>
Date: Sun, 9 Nov 2025 15:59:24 +0800
Subject: [PATCH 258/976] [Misc] Add some comments in qwen3-next (#28267)

Signed-off-by: zjy0516 <riverclouds.zhu@qq.com>
---
 vllm/model_executor/models/qwen3_next.py | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/vllm/model_executor/models/qwen3_next.py b/vllm/model_executor/models/qwen3_next.py
index b095c79dc954b..880655da3f0a5 100644
--- a/vllm/model_executor/models/qwen3_next.py
+++ b/vllm/model_executor/models/qwen3_next.py
@@ -462,6 +462,8 @@ class Qwen3NextGatedDeltaNet(nn.Module, MambaBase):
         # ============================================================
         # Part 2: Core Attention (Custom Op)
         # ============================================================
+        # Note: we should not use torch.empty here like other attention backends,
+        # see discussions in https://github.com/vllm-project/vllm/pull/28182
         core_attn_out = torch.zeros(
             (num_tokens, self.num_v_heads // self.tp_size, self.head_v_dim),
             dtype=hidden_states.dtype,

From 19d91ece4b6b1e8fb7a55cf3a447bd71145987b2 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Nicol=C3=B2=20Lucchesi?= <nlucches@redhat.com>
Date: Sun, 9 Nov 2025 17:04:59 +0100
Subject: [PATCH 259/976] [CI] Fix flaky `test_eagle_correctness` test (#28364)

Signed-off-by: NickLucche <nlucches@redhat.com>
---
 tests/v1/e2e/test_spec_decode.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/tests/v1/e2e/test_spec_decode.py b/tests/v1/e2e/test_spec_decode.py
index ffd9f3e0370f7..4a6b84ae4817c 100644
--- a/tests/v1/e2e/test_spec_decode.py
+++ b/tests/v1/e2e/test_spec_decode.py
@@ -433,9 +433,9 @@ def test_eagle_correctness(
                 print(f"ref_output: {ref_output.outputs[0].text}")
                 print(f"spec_output: {spec_output.outputs[0].text}")
 
-        # Heuristic: expect at least 66% of the prompts to match exactly
+        # Heuristic: expect at least 60% of the prompts to match exactly
         # Upon failure, inspect the outputs to check for inaccuracy.
-        assert matches > int(0.66 * len(ref_outputs))
+        assert matches > int(0.6 * len(ref_outputs))
         del spec_llm
         torch.cuda.empty_cache()
         cleanup_dist_env_and_memory()

From 289eb6c5373f74bc643890d6e14445d504c2d62d Mon Sep 17 00:00:00 2001
From: Nick Hill <nhill@redhat.com>
Date: Sun, 9 Nov 2025 09:44:13 -0800
Subject: [PATCH 260/976] [Core] Simplify async KV output aggregation (#28327)

Signed-off-by: Nick Hill <nhill@redhat.com>
---
 tests/v1/executor/test_executor.py            | 10 ++-
 .../unit/test_output_aggregator.py            | 69 ----------------
 .../kv_transfer/kv_connector/utils.py         | 40 ----------
 vllm/v1/executor/multiproc_executor.py        | 79 +++++++++----------
 4 files changed, 45 insertions(+), 153 deletions(-)

diff --git a/tests/v1/executor/test_executor.py b/tests/v1/executor/test_executor.py
index 91bfba6826e09..e9f635378e577 100644
--- a/tests/v1/executor/test_executor.py
+++ b/tests/v1/executor/test_executor.py
@@ -9,6 +9,7 @@ from typing import Any
 
 import pytest
 
+from vllm.distributed.kv_transfer.kv_connector.utils import KVOutputAggregator
 from vllm.engine.arg_utils import AsyncEngineArgs, EngineArgs
 from vllm.sampling_params import SamplingParams
 from vllm.v1.engine.async_llm import AsyncLLM
@@ -28,12 +29,19 @@ class CustomMultiprocExecutor(MultiprocExecutor):
         kwargs: dict | None = None,
         non_block: bool = False,
         unique_reply_rank: int | None = None,
+        kv_output_aggregator: KVOutputAggregator = None,
     ) -> Any | list[Any] | Future[Any | list[Any]]:
         # Drop marker to show that this was run
         with open(".marker", "w"):
             ...
         return super().collective_rpc(
-            method, timeout, args, kwargs, non_block, unique_reply_rank
+            method,
+            timeout,
+            args,
+            kwargs,
+            non_block,
+            unique_reply_rank,
+            kv_output_aggregator,
         )
 
 
diff --git a/tests/v1/kv_connector/unit/test_output_aggregator.py b/tests/v1/kv_connector/unit/test_output_aggregator.py
index d186f677c02f1..b083ccef9819b 100644
--- a/tests/v1/kv_connector/unit/test_output_aggregator.py
+++ b/tests/v1/kv_connector/unit/test_output_aggregator.py
@@ -1,6 +1,5 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
-from concurrent.futures import Future
 
 import pytest
 
@@ -86,74 +85,6 @@ def test_aggregate_workers_output():
     assert aggregated.invalid_block_ids == {3, 4, 5}
 
 
-def test_async_aggregate_workers_output():
-    aggregator = KVOutputAggregator(expected_finished_count=2)
-
-    future: Future[list[DummyModelRunnerOutput]] = Future()
-    result_future = aggregator.async_aggregate(future)
-
-    output1 = DummyModelRunnerOutput()
-    output2 = DummyModelRunnerOutput()
-    future.set_result([output1, output2])
-
-    assert result_future.done()
-    aggregated = result_future.result()
-    assert aggregated is output1
-    aggregated = aggregated.kv_connector_output
-    assert aggregated.finished_sending is None
-    assert aggregated.finished_recving is None
-    assert not aggregated.invalid_block_ids
-
-    future = Future()
-    result_future = aggregator.async_aggregate(future)
-
-    output1 = DummyModelRunnerOutput(
-        finished_sending={"req1"}, finished_recving={"req2"}
-    )
-    output2 = DummyModelRunnerOutput(invalid_block_ids={1})
-    future.set_result([output1, output2])
-
-    assert result_future.done()
-    aggregated = result_future.result()
-    assert aggregated is output1
-    aggregated = aggregated.kv_connector_output
-    assert aggregated.finished_sending is None
-    assert aggregated.finished_recving is None
-    assert aggregated.invalid_block_ids == {1}
-
-    future = Future()
-    result_future = aggregator.async_aggregate(future)
-
-    output1 = DummyModelRunnerOutput(invalid_block_ids={2})
-    output2 = DummyModelRunnerOutput(finished_sending={"req1"})
-    future.set_result([output1, output2])
-
-    assert result_future.done()
-    aggregated = result_future.result()
-    assert aggregated is output1
-    aggregated = aggregated.kv_connector_output
-    assert aggregated.finished_sending == {"req1"}
-    assert aggregated.finished_recving is None
-    assert aggregated.invalid_block_ids == {2}
-
-    future = Future()
-    result_future = aggregator.async_aggregate(future)
-
-    output1 = DummyModelRunnerOutput(invalid_block_ids={3, 4})
-    output2 = DummyModelRunnerOutput(
-        finished_recving={"req2"}, invalid_block_ids={4, 5}
-    )
-    future.set_result([output1, output2])
-
-    assert result_future.done()
-    aggregated = result_future.result()
-    assert aggregated is output1
-    aggregated = aggregated.kv_connector_output
-    assert aggregated.finished_sending is None
-    assert aggregated.finished_recving == {"req2"}
-    assert aggregated.invalid_block_ids == {3, 4, 5}
-
-
 def test_aggregate_workers_output_with_expected_finished_count():
     # We create the aggregator expecting to collect from 4 workers
     aggregator = KVOutputAggregator(expected_finished_count=4)
diff --git a/vllm/distributed/kv_transfer/kv_connector/utils.py b/vllm/distributed/kv_transfer/kv_connector/utils.py
index 33a801e135d42..b8eb5ea3b4939 100644
--- a/vllm/distributed/kv_transfer/kv_connector/utils.py
+++ b/vllm/distributed/kv_transfer/kv_connector/utils.py
@@ -4,9 +4,6 @@
 KV cache helper for store.
 """
 
-import contextlib
-from collections.abc import Sequence
-from concurrent.futures import CancelledError, Future
 from typing import TYPE_CHECKING, Literal
 
 import torch
@@ -220,43 +217,6 @@ class KVOutputAggregator:
 
         return output
 
-    def async_aggregate(
-        self,
-        output_future: Future[Sequence[ModelRunnerOutput | None]],
-        output_rank: int = 0,
-    ) -> Future[ModelRunnerOutput | None]:
-        """Takes a future that resolves to a list of outputs and returns a future
-        which resolves to a single aggregated output."""
-        result_future: Future[ModelRunnerOutput | None] = Future()
-
-        def callback(fut):
-            if result_future.done():
-                return
-            try:
-                result_future.set_result(self.aggregate(fut.result(), output_rank))
-            except CancelledError:
-                result_future.cancel()
-            except Exception as e:
-                result_future.set_exception(e)
-
-        output_future.add_done_callback(callback)
-
-        from vllm.v1.executor.multiproc_executor import FutureWrapper
-
-        if isinstance(output_future, FutureWrapper):
-            # Due to the threadless implementation of multiproc FutureWrapper,
-            # we must block on the delegate future's result() method.
-            delegate_result = result_future.result
-
-            def result(timeout=None):
-                with contextlib.suppress(Exception):
-                    output_future.result(timeout=timeout)
-                return delegate_result()
-
-            result_future.result = result  # type: ignore[method-assign]
-
-        return result_future
-
 
 def _make_src_and_dst_indices(
     src_block_ids: list[int],
diff --git a/vllm/v1/executor/multiproc_executor.py b/vllm/v1/executor/multiproc_executor.py
index c9a50ecaa1def..1e249161c6886 100644
--- a/vllm/v1/executor/multiproc_executor.py
+++ b/vllm/v1/executor/multiproc_executor.py
@@ -29,6 +29,7 @@ import vllm.envs as envs
 from vllm.config import VllmConfig
 from vllm.distributed import destroy_distributed_environment, destroy_model_parallel
 from vllm.distributed.device_communicators.shm_broadcast import Handle, MessageQueue
+from vllm.distributed.kv_transfer.kv_connector.utils import KVOutputAggregator
 from vllm.distributed.parallel_state import (
     get_dp_group,
     get_ep_group,
@@ -57,8 +58,13 @@ logger = init_logger(__name__)
 
 
 class FutureWrapper(Future):
-    def __init__(self, futures_queue: deque[tuple["FutureWrapper", Callable]]):
+    def __init__(
+        self,
+        futures_queue: deque[tuple["FutureWrapper", Callable]],
+        aggregate: Callable = lambda x: x,
+    ):
         self.futures_queue = futures_queue
+        self.aggregate = aggregate
         super().__init__()
 
     def result(self, timeout=None):
@@ -72,7 +78,7 @@ class FutureWrapper(Future):
 
     def wait_for_response(self, get_response: Callable):
         try:
-            response = get_response()
+            response = self.aggregate(get_response())
             with suppress(InvalidStateError):
                 self.set_result(response)
         except Exception as e:
@@ -160,7 +166,6 @@ class MultiprocExecutor(Executor):
         self.futures_queue = deque[tuple[FutureWrapper, Callable]]()
 
         self.output_rank = self._get_output_rank()
-        self.has_connector = self.vllm_config.kv_transfer_config is not None
 
     def start_worker_monitor(self):
         workers = self.workers
@@ -199,44 +204,27 @@ class MultiprocExecutor(Executor):
     def execute_model(  # type: ignore[override]
         self, scheduler_output: SchedulerOutput, non_block: bool = False
     ) -> ModelRunnerOutput | None | Future[ModelRunnerOutput | None]:
-        return self._execute_with_aggregation(
-            "execute_model", scheduler_output, non_block=non_block
+        return self.collective_rpc(
+            "execute_model",
+            args=(scheduler_output,),
+            unique_reply_rank=self.output_rank,
+            non_block=non_block,
+            timeout=envs.VLLM_EXECUTE_MODEL_TIMEOUT_SECONDS,
+            kv_output_aggregator=self.kv_output_aggregator,
         )
 
     def sample_tokens(  # type: ignore[override]
         self, grammar_output: GrammarOutput | None, non_block: bool = False
     ) -> ModelRunnerOutput | Future[ModelRunnerOutput]:
-        return self._execute_with_aggregation(  # type: ignore[return-value]
-            "sample_tokens", grammar_output, non_block=non_block
-        )
-
-    def _execute_with_aggregation(
-        self, method: str, *args, non_block: bool = False
-    ) -> ModelRunnerOutput | None | Future[ModelRunnerOutput | None]:
-        if not self.has_connector:
-            # get output only from a single worker (output_rank)
-            return self.collective_rpc(
-                method,
-                args=args,
-                unique_reply_rank=self.output_rank,
-                non_block=non_block,
-                timeout=envs.VLLM_EXECUTE_MODEL_TIMEOUT_SECONDS,
-            )
-
-        # get output from all workers
-        outputs = self.collective_rpc(
-            method,
-            args=args,
+        return self.collective_rpc(
+            "sample_tokens",
+            args=(grammar_output,),
+            unique_reply_rank=self.output_rank,
             non_block=non_block,
             timeout=envs.VLLM_EXECUTE_MODEL_TIMEOUT_SECONDS,
+            kv_output_aggregator=self.kv_output_aggregator,
         )
 
-        # aggregate all workers output to a single output
-        assert self.kv_output_aggregator is not None
-        if non_block:
-            return self.kv_output_aggregator.async_aggregate(outputs, self.output_rank)
-        return self.kv_output_aggregator.aggregate(outputs, self.output_rank)
-
     def execute_dummy_batch(self) -> None:
         self.collective_rpc("execute_dummy_batch", unique_reply_rank=self.output_rank)
 
@@ -254,8 +242,10 @@ class MultiprocExecutor(Executor):
         kwargs: dict | None = None,
         non_block: bool = False,
         unique_reply_rank: int | None = None,
+        kv_output_aggregator: KVOutputAggregator = None,
     ) -> Any | list[Any] | Future[Any | list[Any]]:
-        """Returns single result if unique_reply_rank is provided, otherwise list."""
+        """Returns single result if unique_reply_rank and/or kv_output_aggregator
+        is provided, otherwise list."""
 
         if self.is_failed:
             raise RuntimeError("Executor failed.")
@@ -263,20 +253,23 @@ class MultiprocExecutor(Executor):
         deadline = None if timeout is None else time.monotonic() + timeout
         kwargs = kwargs or {}
 
-        # NOTE: If the args are heterogeneous, then we pack them into a list,
-        # and unpack them in the method of every worker, because every worker
-        # knows their own rank.
+        if kv_output_aggregator is not None:
+            output_rank = None
+            aggregate: Callable[[Any], Any] = partial(
+                kv_output_aggregator.aggregate, output_rank=unique_reply_rank or 0
+            )
+        else:
+            output_rank = unique_reply_rank
+            aggregate = lambda x: x
 
         if isinstance(method, str):
             send_method = method
         else:
             send_method = cloudpickle.dumps(method, protocol=pickle.HIGHEST_PROTOCOL)
-        self.rpc_broadcast_mq.enqueue((send_method, args, kwargs, unique_reply_rank))
+        self.rpc_broadcast_mq.enqueue((send_method, args, kwargs, output_rank))
 
         workers = (
-            (self.workers[unique_reply_rank],)
-            if unique_reply_rank is not None
-            else self.workers
+            (self.workers[output_rank],) if output_rank is not None else self.workers
         )
 
         shutdown_event = self.shutdown_event
@@ -299,10 +292,10 @@ class MultiprocExecutor(Executor):
                         " stack trace above for the root cause"
                     )
                 responses.append(result)
-            return responses[0] if unique_reply_rank is not None else responses
+            return responses[0] if output_rank is not None else responses
 
         if non_block:
-            future = FutureWrapper(self.futures_queue)
+            future = FutureWrapper(self.futures_queue, aggregate=aggregate)
             self.futures_queue.appendleft((future, get_response))
             return future
 
@@ -311,7 +304,7 @@ class MultiprocExecutor(Executor):
             future, get_fut_response = self.futures_queue.pop()
             future.wait_for_response(get_fut_response)
 
-        return get_response()
+        return aggregate(get_response())
 
     @staticmethod
     def _ensure_worker_termination(worker_procs: list[BaseProcess]):

From 636efd10a5b472c6016f744b30adeb12514c0acf Mon Sep 17 00:00:00 2001
From: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com>
Date: Sun, 9 Nov 2025 13:51:43 -0500
Subject: [PATCH 261/976] [Core] Separate out attention metadata building logic
 from prepare inputs (#26764)

Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com>
---
 vllm/v1/worker/gpu_model_runner.py | 339 ++++++++++++++++-------------
 1 file changed, 184 insertions(+), 155 deletions(-)

diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index 3709710ef42e7..de9f32687635e 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -1054,7 +1054,7 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
 
     def _get_encoder_seq_lens(
         self,
-        scheduler_output: "SchedulerOutput",
+        scheduled_encoder_inputs: dict[str, list[int]],
         kv_cache_spec: KVCacheSpec,
         num_reqs: int,
     ) -> np.ndarray | None:
@@ -1064,31 +1064,27 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
         # Build encoder_seq_lens array mapping request indices to
         # encoder lengths for inputs scheduled in this batch
         encoder_seq_lens = np.zeros(num_reqs, dtype=np.int32)
-        for req_id in scheduler_output.scheduled_encoder_inputs:
+        for req_id in scheduled_encoder_inputs:
             req_index = self.input_batch.req_id_to_index[req_id]
             encoder_seq_lens[req_index] = self.max_encoder_len
 
         return encoder_seq_lens
 
     def _prepare_inputs(
-        self, scheduler_output: "SchedulerOutput"
+        self,
+        scheduler_output: "SchedulerOutput",
+        num_scheduled_tokens: np.ndarray,
+        max_num_scheduled_tokens: int,
     ) -> tuple[
-        PerLayerAttnMetadata,
         torch.Tensor,
         SpecDecodeMetadata | None,
-        np.ndarray,
-        CommonAttentionMetadata | None,
-        int,
         UBatchSlices | None,
         torch.Tensor | None,
-        bool,
     ]:
         """
         :return: tuple[
-            attn_metadata: layer-to-attention_metadata mapping,
             logits_indices, spec_decode_metadata,
-            num_scheduled_tokens, spec_decode_common_attn_metadata,
-            max_num_scheduled_tokens, use_cascade_attn
+            ubatch_slices, num_tokens_across_dp,
         ]
         """
         total_num_scheduled_tokens = scheduler_output.total_num_scheduled_tokens
@@ -1100,12 +1096,6 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
         # This way, we can overlap the copy with the following CPU operations.
         self.input_batch.block_table.commit_block_table(num_reqs)
 
-        # Get the number of scheduled tokens for each request.
-        req_ids = self.input_batch.req_ids
-        tokens = [scheduler_output.num_scheduled_tokens[i] for i in req_ids]
-        num_scheduled_tokens = np.array(tokens, dtype=np.int32)
-        max_num_scheduled_tokens = max(tokens)
-
         # Get request indices.
         # E.g., [2, 5, 3] -> [0, 0, 1, 1, 1, 1, 1, 2, 2, 2]
         req_indices = np.repeat(self.arange_np[:num_reqs], num_scheduled_tokens)
@@ -1232,8 +1222,6 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
         # Fill unused with 0 for full cuda graph mode.
         self.seq_lens.np[num_reqs:].fill(0)
         self.seq_lens.copy_to_gpu()
-        seq_lens = self.seq_lens.gpu[:num_reqs]
-        max_seq_len = self.seq_lens.np[:num_reqs].max().item()
 
         num_tokens = [self.requests[r].num_tokens for r in self.input_batch.req_ids]
         num_tokens_np = np.array(num_tokens, dtype=np.int32)
@@ -1305,11 +1293,46 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
             self.num_decode_draft_tokens.np[num_reqs:].fill(-1)
             self.num_decode_draft_tokens.copy_to_gpu()
 
-        logits_indices_padded = None
-        if self.cache_config.kv_sharing_fast_prefill:
-            logits_indices_padded = self._prepare_kv_sharing_fast_prefill(
-                logits_indices
+        # Hot-Swap lora model
+        if self.lora_config:
+            assert (
+                np.sum(num_sampled_tokens)
+                <= self.vllm_config.scheduler_config.max_num_batched_tokens
             )
+            self.set_active_loras(
+                self.input_batch, num_scheduled_tokens, num_sampled_tokens
+            )
+
+        return (
+            logits_indices,
+            spec_decode_metadata,
+            ubatch_slices,
+            num_tokens_across_dp,
+        )
+
+    def _build_attention_metadata(
+        self,
+        total_num_scheduled_tokens: int,
+        max_num_scheduled_tokens: int,
+        num_reqs: int,
+        ubatch_slices: UBatchSlices | None = None,
+        logits_indices: torch.Tensor | None = None,
+        use_spec_decode: bool = False,
+        for_cudagraph_capture: bool = False,
+        scheduled_encoder_inputs: dict[str, list[int]] | None = None,
+        cascade_attn_prefix_lens: list[list[int]] | None = None,
+    ) -> tuple[PerLayerAttnMetadata, CommonAttentionMetadata | None]:
+        """
+        :return: tuple[attn_metadata, spec_decode_common_attn_metadata]
+        """
+        logits_indices_padded = None
+        num_logits_indices = 0
+        if logits_indices is not None:
+            num_logits_indices = logits_indices.size(0)
+            if self.cache_config.kv_sharing_fast_prefill:
+                logits_indices_padded = self._prepare_kv_sharing_fast_prefill(
+                    logits_indices
+                )
 
         # update seq_lens of decode reqs under DCP.
         if self.dcp_world_size > 1:
@@ -1324,15 +1347,28 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
         attn_metadata: PerLayerAttnMetadata = {}
         if ubatch_slices is not None:
             attn_metadata = [dict() for _ in range(len(ubatch_slices))]
-        use_cascade_attn = False
 
-        # Used in the below loop.
+        # Used in the below loop
+        query_start_loc = self.query_start_loc.gpu[: num_reqs + 1]
         query_start_loc_cpu = self.query_start_loc.cpu[: num_reqs + 1]
+        seq_lens = self.seq_lens.gpu[:num_reqs]
         seq_lens_cpu = self.seq_lens.cpu[:num_reqs]
         num_computed_tokens_cpu = self.input_batch.num_computed_tokens_cpu_tensor[
             :num_reqs
         ]
+        dcp_local_seq_lens = (
+            self.dcp_local_seq_lens.gpu[:num_reqs] if self.dcp_world_size > 1 else None
+        )
         spec_decode_common_attn_metadata = None
+
+        if for_cudagraph_capture:
+            # For some attention backends (e.g. FA) with sliding window models we need
+            # to make sure the backend see a max_seq_len that is larger to the sliding
+            # window size when capturing to make sure the correct kernel is selected.
+            max_seq_len = self.max_model_len
+        else:
+            max_seq_len = self.seq_lens.np[:num_reqs].max().item()
+
         if use_spec_decode:
             self.num_accepted_tokens.np[:num_reqs] = (
                 self.input_batch.num_accepted_tokens_cpu[:num_reqs]
@@ -1342,14 +1378,16 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
 
         # Prepare the attention metadata for each KV cache group and make layers
         # in the same group share the same metadata.
-        for kv_cache_group_id, kv_cache_group_spec in enumerate(
+        for kv_cache_gid, kv_cache_group in enumerate(
             self.kv_cache_config.kv_cache_groups
         ):
             encoder_seq_lens = self._get_encoder_seq_lens(
-                scheduler_output, kv_cache_group_spec.kv_cache_spec, num_reqs
+                scheduled_encoder_inputs or {},
+                kv_cache_group.kv_cache_spec,
+                num_reqs,
             )
 
-            if isinstance(kv_cache_group_spec.kv_cache_spec, EncoderOnlyAttentionSpec):
+            if isinstance(kv_cache_group.kv_cache_spec, EncoderOnlyAttentionSpec):
                 # Encoder-only layers do not have KV cache, so we need to
                 # create a dummy block table and slot mapping for them.
                 blk_table_tensor = torch.zeros(
@@ -1362,18 +1400,14 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
                     dtype=torch.int64,
                     device=self.device,
                 )
-                num_common_prefix_blocks = 0
             else:
-                blk_table = self.input_batch.block_table[kv_cache_group_id]
+                blk_table = self.input_batch.block_table[kv_cache_gid]
                 blk_table_tensor = blk_table.get_device_tensor(num_reqs)
                 slot_mapping = blk_table.slot_mapping.gpu[:total_num_scheduled_tokens]
 
                 # Fill unused with -1. Needed for reshape_and_cache in full cuda
                 # graph mode.
                 blk_table.slot_mapping.gpu[total_num_scheduled_tokens:].fill_(-1)
-                num_common_prefix_blocks = scheduler_output.num_common_prefix_blocks[
-                    kv_cache_group_id
-                ]
 
             common_attn_metadata = CommonAttentionMetadata(
                 query_start_loc=query_start_loc,
@@ -1388,35 +1422,26 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
                 block_table_tensor=blk_table_tensor,
                 slot_mapping=slot_mapping,
                 logits_indices_padded=logits_indices_padded,
-                num_logits_indices=logits_indices.size(0),
+                num_logits_indices=num_logits_indices,
                 causal=True,
                 encoder_seq_lens=encoder_seq_lens,
-                dcp_local_seq_lens=self.dcp_local_seq_lens.gpu[:num_reqs]
-                if self.dcp_world_size > 1
-                else None,
+                dcp_local_seq_lens=dcp_local_seq_lens,
             )
 
             if self.speculative_config and spec_decode_common_attn_metadata is None:
                 if isinstance(self.drafter, EagleProposer):
-                    if (
-                        self.drafter.attn_layer_names[0]
-                        in kv_cache_group_spec.layer_names
-                    ):
+                    if self.drafter.attn_layer_names[0] in kv_cache_group.layer_names:
                         spec_decode_common_attn_metadata = common_attn_metadata
                 else:
                     spec_decode_common_attn_metadata = common_attn_metadata
 
-            for attn_group in self.attn_groups[kv_cache_group_id]:
-                # Prepare for cascade attention if enabled & beneficial.
-                common_prefix_len = 0
+            for attn_gid, attn_group in enumerate(self.attn_groups[kv_cache_gid]):
+                cascade_attn_prefix_len = (
+                    cascade_attn_prefix_lens[kv_cache_gid][attn_gid]
+                    if cascade_attn_prefix_lens
+                    else 0
+                )
                 builder = attn_group.get_metadata_builder()
-                if self.cascade_attn_enabled:
-                    common_prefix_len = self._compute_cascade_attn_prefix_len(
-                        num_scheduled_tokens,
-                        num_common_prefix_blocks,
-                        attn_group.kv_cache_spec,
-                        builder,
-                    )
 
                 extra_attn_metadata_args = {}
                 if use_spec_decode and isinstance(builder, GDNAttentionMetadataBuilder):
@@ -1434,51 +1459,69 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
                     for ubid, common_attn_metadata in enumerate(
                         common_attn_metadata_list
                     ):
-                        attn_metadata_i = attn_group.get_metadata_builder(
-                            ubatch_id=ubid
-                        ).build(
-                            common_prefix_len=common_prefix_len,
-                            common_attn_metadata=common_attn_metadata,
-                        )
-                        for layer_name in kv_cache_group_spec.layer_names:
+                        builder = attn_group.get_metadata_builder(ubatch_id=ubid)
+                        if for_cudagraph_capture:
+                            attn_metadata_i = builder.build_for_cudagraph_capture(
+                                common_attn_metadata
+                            )
+                        else:
+                            attn_metadata_i = builder.build(
+                                common_prefix_len=cascade_attn_prefix_len,
+                                common_attn_metadata=common_attn_metadata,
+                            )
+                        for layer_name in kv_cache_group.layer_names:
                             assert type(attn_metadata) is list
                             attn_metadata[ubid][layer_name] = attn_metadata_i
                 else:
                     assert isinstance(attn_metadata, dict)
-                    attn_metadata_i = builder.build(
-                        common_prefix_len=common_prefix_len,
-                        common_attn_metadata=common_attn_metadata,
-                        **extra_attn_metadata_args,
-                    )
-                    use_cascade_attn |= getattr(attn_metadata_i, "use_cascade", False)
+                    if for_cudagraph_capture:
+                        attn_metadata_i = builder.build_for_cudagraph_capture(
+                            common_attn_metadata
+                        )
+                    else:
+                        attn_metadata_i = builder.build(
+                            common_prefix_len=cascade_attn_prefix_len,
+                            common_attn_metadata=common_attn_metadata,
+                            **extra_attn_metadata_args,
+                        )
                     for layer_name in attn_group.layer_names:
                         attn_metadata[layer_name] = attn_metadata_i
 
-        # disable cascade attention when DBO
-        if ubatch_slices is not None:
-            use_cascade_attn = False
+        return attn_metadata, spec_decode_common_attn_metadata
 
-        # Hot-Swap lora model
-        if self.lora_config:
-            assert (
-                np.sum(num_sampled_tokens)
-                <= self.vllm_config.scheduler_config.max_num_batched_tokens
-            )
-            self.set_active_loras(
-                self.input_batch, num_scheduled_tokens, num_sampled_tokens
-            )
+    def _compute_cascade_attn_prefix_lens(
+        self,
+        num_scheduled_tokens: np.ndarray,
+        num_common_prefix_blocks: list[int],
+    ) -> list[list[int]] | None:
+        """
+        :return: Optional[cascade_attn_prefix_lens]
+            cascade_attn_prefix_lens is 2D: ``[kv_cache_group_id][attn_group_idx]``,
+            None if we should not use cascade attention
+        """
 
-        return (
-            attn_metadata,
-            logits_indices,
-            spec_decode_metadata,
-            num_scheduled_tokens,
-            spec_decode_common_attn_metadata,
-            max_num_scheduled_tokens,
-            ubatch_slices,
-            num_tokens_across_dp,
-            use_cascade_attn,
-        )
+        use_cascade_attn = False
+        num_kv_cache_groups = len(self.kv_cache_config.kv_cache_groups)
+        cascade_attn_prefix_lens: list[list[int]] = [
+            [] for _ in range(num_kv_cache_groups)
+        ]
+
+        for kv_cache_gid in range(num_kv_cache_groups):
+            for attn_group in self.attn_groups[kv_cache_gid]:
+                if isinstance(attn_group.kv_cache_spec, EncoderOnlyAttentionSpec):
+                    cascade_attn_prefix_len = 0
+                else:
+                    # 0 if cascade attention should not be used
+                    cascade_attn_prefix_len = self._compute_cascade_attn_prefix_len(
+                        num_scheduled_tokens,
+                        num_common_prefix_blocks[kv_cache_gid],
+                        attn_group.kv_cache_spec,
+                        attn_group.get_metadata_builder(),
+                    )
+                cascade_attn_prefix_lens[kv_cache_gid].append(cascade_attn_prefix_len)
+                use_cascade_attn |= cascade_attn_prefix_len > 0
+
+        return cascade_attn_prefix_lens if use_cascade_attn else None
 
     def _compute_cascade_attn_prefix_len(
         self,
@@ -1504,6 +1547,7 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
         Returns:
             int: Length of common prefix in tokens.
         """
+
         common_prefix_len = num_common_prefix_blocks * kv_cache_spec.block_size
         if common_prefix_len == 0:
             # Common case.
@@ -2497,18 +2541,48 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
                         "it when the requests need prompt logprobs"
                     )
 
-                # Prepare the decoder inputs.
+                num_reqs = self.input_batch.num_reqs
+                req_ids = self.input_batch.req_ids
+                tokens = [scheduler_output.num_scheduled_tokens[i] for i in req_ids]
+                num_scheduled_tokens_np = np.array(tokens, dtype=np.int32)
+                max_num_scheduled_tokens = int(num_scheduled_tokens_np.max())
+
                 (
-                    attn_metadata,
                     logits_indices,
                     spec_decode_metadata,
-                    num_scheduled_tokens_np,
-                    spec_decode_common_attn_metadata,
-                    max_query_len,
                     ubatch_slices,
                     num_tokens_across_dp,
-                    use_cascade_attn,
-                ) = self._prepare_inputs(scheduler_output)
+                ) = self._prepare_inputs(
+                    scheduler_output, num_scheduled_tokens_np, max_num_scheduled_tokens
+                )
+
+                cascade_attn_prefix_lens = None
+                # Disable cascade attention when using microbatching (DBO)
+                if self.cascade_attn_enabled and ubatch_slices is None:
+                    # Pre-compute cascade attention prefix lengths
+                    # NOTE: Must be AFTER _prepare_inputs uses self.input_batch state
+                    cascade_attn_prefix_lens = self._compute_cascade_attn_prefix_lens(
+                        num_scheduled_tokens_np,
+                        scheduler_output.num_common_prefix_blocks,
+                    )
+
+                # TODO(lucas): move cudagraph dispatching here:
+                #   https://github.com/vllm-project/vllm/issues/23789
+
+                total_num_scheduled_tokens = scheduler_output.total_num_scheduled_tokens
+                use_spec_decode = len(scheduler_output.scheduled_spec_decode_tokens) > 0
+                attn_metadata, spec_decode_common_attn_metadata = (
+                    self._build_attention_metadata(
+                        total_num_scheduled_tokens=total_num_scheduled_tokens,
+                        max_num_scheduled_tokens=max_num_scheduled_tokens,
+                        num_reqs=num_reqs,
+                        ubatch_slices=ubatch_slices,
+                        logits_indices=logits_indices,
+                        use_spec_decode=use_spec_decode,
+                        scheduled_encoder_inputs=scheduler_output.scheduled_encoder_inputs,
+                        cascade_attn_prefix_lens=cascade_attn_prefix_lens,
+                    )
+                )
 
             dp_rank = self.parallel_config.data_parallel_rank
             if ubatch_slices:
@@ -2532,16 +2606,19 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
                 scheduler_output, num_input_tokens, intermediate_tensors
             )
 
-            uniform_decode = (max_query_len == self.uniform_decode_query_len) and (
-                num_scheduled_tokens == self.input_batch.num_reqs * max_query_len
-            )
+            uniform_decode = (
+                max_num_scheduled_tokens == self.uniform_decode_query_len
+            ) and (num_scheduled_tokens == num_reqs * max_num_scheduled_tokens)
             batch_descriptor = BatchDescriptor(
                 num_tokens=num_input_tokens,
                 uniform_decode=uniform_decode,
                 has_lora=len(self.input_batch.lora_id_to_lora_request) > 0,
             )
             cudagraph_runtime_mode, batch_descriptor = (
-                self.cudagraph_dispatcher.dispatch(batch_descriptor, use_cascade_attn)
+                self.cudagraph_dispatcher.dispatch(
+                    batch_descriptor,
+                    use_cascade_attn=cascade_attn_prefix_lens is not None,
+                )
             )
 
         # Set cudagraph mode to none if calc_kv_scales is true.
@@ -3437,10 +3514,6 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
         # If force_attention is True, we always capture attention. Otherwise,
         # it only happens for cudagraph_runtime_mode=FULL.
         if force_attention or cudagraph_runtime_mode == CUDAGraphMode.FULL:
-            attn_metadata = {}
-            if ubatch_slices is not None:
-                attn_metadata = [dict() for _ in range(len(ubatch_slices))]
-
             if create_mixed_batch:
                 # In the mixed batch mode (used for FI warmup), we use
                 # shorter sequence lengths to run faster.
@@ -3456,55 +3529,13 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
             self.query_start_loc.np[1 : num_reqs + 1] = cum_num_tokens
             self.query_start_loc.copy_to_gpu()
 
-            for kv_cache_group_id, kv_cache_group_spec in enumerate(
-                self.kv_cache_config.kv_cache_groups
-            ):
-                common_attn_metadata = CommonAttentionMetadata(
-                    query_start_loc=self.query_start_loc.gpu[: num_reqs + 1],
-                    query_start_loc_cpu=self.query_start_loc.cpu[: num_reqs + 1],
-                    seq_lens=self.seq_lens.gpu[:num_reqs],
-                    seq_lens_cpu=self.seq_lens.cpu[:num_reqs],
-                    num_computed_tokens_cpu=self.input_batch.num_computed_tokens_cpu_tensor[
-                        :num_reqs
-                    ],
-                    num_reqs=num_reqs,
-                    num_actual_tokens=num_tokens,
-                    max_query_len=max_query_len,
-                    max_seq_len=self.max_model_len,
-                    block_table_tensor=self.input_batch.block_table[
-                        kv_cache_group_id
-                    ].get_device_tensor(num_reqs),
-                    slot_mapping=self.input_batch.block_table[
-                        kv_cache_group_id
-                    ].slot_mapping.gpu[:num_tokens],
-                    causal=True,
-                    dcp_local_seq_lens=self.dcp_local_seq_lens.gpu[:num_reqs]
-                    if self.dcp_world_size > 1
-                    else None,
-                )
-                for attn_group in self.attn_groups[kv_cache_group_id]:
-                    if ubatch_slices is not None:
-                        common_attn_metadata_list = split_attn_metadata(
-                            ubatch_slices, common_attn_metadata
-                        )
-                        for ubid, common_attn_metadata in enumerate(
-                            common_attn_metadata_list
-                        ):
-                            assert common_attn_metadata.max_query_len == 1
-                            attn_metadata_i = attn_group.get_metadata_builder(
-                                ubatch_id=ubid
-                            ).build_for_cudagraph_capture(common_attn_metadata)
-                            for layer_name in attn_group.layer_names:
-                                assert type(attn_metadata) is list
-                                attn_metadata[ubid][layer_name] = attn_metadata_i
-                    else:
-                        assert type(attn_metadata) is dict
-                        metadata_builder = attn_group.get_metadata_builder()
-                        attn_metadata_i = metadata_builder.build_for_cudagraph_capture(
-                            common_attn_metadata
-                        )
-                        for layer_name in attn_group.layer_names:
-                            attn_metadata[layer_name] = attn_metadata_i
+            attn_metadata, _ = self._build_attention_metadata(
+                total_num_scheduled_tokens=num_tokens,
+                max_num_scheduled_tokens=max_query_len,
+                num_reqs=num_reqs,
+                ubatch_slices=ubatch_slices,
+                for_cudagraph_capture=True,
+            )
 
         with self.maybe_dummy_run_with_lora(
             self.lora_config,
@@ -4478,9 +4509,7 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
             list[int]: List of kernel block sizes for each cache group.
         """
         kernel_block_sizes = []
-        for kv_cache_group_id, kv_cache_group in enumerate(
-            kv_cache_config.kv_cache_groups
-        ):
+        for kv_cache_gid, kv_cache_group in enumerate(kv_cache_config.kv_cache_groups):
             kv_cache_spec = kv_cache_group.kv_cache_spec
             if isinstance(kv_cache_spec, UniformTypeKVCacheSpecs):
                 # All layers in the UniformTypeKVCacheSpecs have the same type,
@@ -4492,7 +4521,7 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
                 # This is an attention backend that supports virtual
                 # block splitting. Get the supported block sizes from
                 # all backends in the group.
-                attn_groups = self.attn_groups[kv_cache_group_id]
+                attn_groups = self.attn_groups[kv_cache_gid]
                 kv_manager_block_size = kv_cache_group.kv_cache_spec.block_size
                 selected_kernel_size = self.select_common_block_size(
                     kv_manager_block_size, attn_groups

From 4a8d6bd168f5af037556c561fb8d79736401bc08 Mon Sep 17 00:00:00 2001
From: usberkeley <150880684+usberkeley@users.noreply.github.com>
Date: Mon, 10 Nov 2025 03:11:46 +0800
Subject: [PATCH 262/976] Fix cu_num_generated_tokens slicing logic in
 LogprobsLists.slice() method (#28214)

Signed-off-by: Bradley <bradley.b.pitt@gmail.com>
---
 tests/v1/test_outputs.py | 101 +++++++++++++++++++++++++++++++++++++++
 vllm/v1/outputs.py       |  13 +++--
 2 files changed, 111 insertions(+), 3 deletions(-)
 create mode 100644 tests/v1/test_outputs.py

diff --git a/tests/v1/test_outputs.py b/tests/v1/test_outputs.py
new file mode 100644
index 0000000000000..af9df844249ef
--- /dev/null
+++ b/tests/v1/test_outputs.py
@@ -0,0 +1,101 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from unittest import TestCase
+
+from vllm.v1.outputs import LogprobsLists
+
+
+class TestLogprobsLists(TestCase):
+    def setUp(self):
+        self.logprobsLists = LogprobsLists(
+            logprob_token_ids=[
+                [1, 2],  # Request 0 token 0
+                [3, 4],  # Request 0 token 1
+                [5, 6],  # Request 1 token 0
+                [7, 8],  # Request 1 token 1
+                [9, 10],  # Request 1 token 2
+                [11, 12],  # Request 2 token 0
+                [13, 14],  # Request 2 token 1
+                [15, 16],  # Request 2 token 2
+                [17, 18],  # Request 2 token 3
+            ],
+            logprobs=[
+                [0.1, 0.2],
+                [0.3, 0.4],
+                [0.5, 0.6],
+                [0.7, 0.8],
+                [0.9, 1.0],
+                [1.1, 1.2],
+                [1.3, 1.4],
+                [1.5, 1.6],
+                [1.7, 1.8],
+            ],
+            sampled_token_ranks=[1, 3, 5, 7, 9, 11, 13, 15, 17],
+            cu_num_generated_tokens=[0, 2, 5, 9],
+        )
+
+    def test_slice_without_cu_num_generated_tokens(self):
+        """Test slicing without cu_num_generated_tokens"""
+        logprobsLists = LogprobsLists(
+            logprob_token_ids=[[1], [2], [3]],
+            logprobs=[[0.1], [0.2], [0.3]],
+            sampled_token_ranks=[1, 2, 3],
+            cu_num_generated_tokens=None,
+        )
+
+        sliced = logprobsLists.slice(1, 3)
+        assert sliced.logprob_token_ids == [[2], [3]]
+        assert sliced.logprobs == [[0.2], [0.3]]
+        assert sliced.sampled_token_ranks == [2, 3]
+        assert sliced.cu_num_generated_tokens is None
+
+    def test_slice_from_start(self):
+        """Test slicing from the start position"""
+        sliced = self.logprobsLists.slice(0, 2)
+        assert len(sliced.logprob_token_ids) == 5
+        assert sliced.logprob_token_ids == [
+            [1, 2],
+            [3, 4],
+            [5, 6],
+            [7, 8],
+            [9, 10],
+        ]
+        assert sliced.cu_num_generated_tokens == [0, 2, 5]
+
+    def test_slice_from_middle(self):
+        """Test slicing from the middle position"""
+        sliced = self.logprobsLists.slice(1, 3)
+        assert len(sliced.logprob_token_ids) == 7
+        assert sliced.logprob_token_ids == [
+            [5, 6],
+            [7, 8],
+            [9, 10],
+            [11, 12],
+            [13, 14],
+            [15, 16],
+            [17, 18],
+        ]
+        assert sliced.cu_num_generated_tokens == [0, 3, 7]
+
+    def test_slice_single_request(self):
+        """Test slicing a single request"""
+        sliced = self.logprobsLists.slice(1, 2)
+        assert len(sliced.logprob_token_ids) == 3
+        assert sliced.logprob_token_ids == [[5, 6], [7, 8], [9, 10]]
+        assert sliced.cu_num_generated_tokens == [0, 3]
+
+    def test_slice_last_request(self):
+        """Test slicing the last request"""
+        sliced = self.logprobsLists.slice(2, 3)
+        assert len(sliced.logprob_token_ids) == 4
+        assert sliced.logprob_token_ids == [[11, 12], [13, 14], [15, 16], [17, 18]]
+        assert sliced.cu_num_generated_tokens == [0, 4]
+
+    def test_slice_all_requests(self):
+        """Test slicing all requests (full slice)"""
+        sliced = self.logprobsLists.slice(0, 3)
+        assert len(sliced.logprob_token_ids) == 9  # All tokens
+        assert sliced.logprob_token_ids == self.logprobsLists.logprob_token_ids
+        assert (
+            sliced.cu_num_generated_tokens == self.logprobsLists.cu_num_generated_tokens
+        )
diff --git a/vllm/v1/outputs.py b/vllm/v1/outputs.py
index e7122ba339681..b5cba96e1026f 100644
--- a/vllm/v1/outputs.py
+++ b/vllm/v1/outputs.py
@@ -30,16 +30,23 @@ class LogprobsLists(NamedTuple):
         if self.cu_num_generated_tokens:
             start = self.cu_num_generated_tokens[start_req_idx]
             end = self.cu_num_generated_tokens[end_req_idx]
+            # Recompute cumulative array starting from 0
+            cu_num_offset = self.cu_num_generated_tokens[start_req_idx]
+            sliced_cu_num_generated_tokens = [
+                cu_num - cu_num_offset
+                for cu_num in self.cu_num_generated_tokens[
+                    start_req_idx : end_req_idx + 1
+                ]
+            ]
         else:
             start = start_req_idx
             end = end_req_idx
+            sliced_cu_num_generated_tokens = None
         return LogprobsLists(
             self.logprob_token_ids[start:end],
             self.logprobs[start:end],
             self.sampled_token_ranks[start:end],
-            self.cu_num_generated_tokens[start_req_idx:end_req_idx]
-            if self.cu_num_generated_tokens
-            else None,
+            sliced_cu_num_generated_tokens,
         )
 
 
From a65a934ebeeddd8ecfc8034d784f3e284a365971 Mon Sep 17 00:00:00 2001
From: Zhewen Li <zhewenli@meta.com>
Date: Sun, 9 Nov 2025 13:08:38 -0800
Subject: [PATCH 263/976] [CI/Build] Temporary fix to LM Eval Small Models
 (#28324)

Signed-off-by: zhewenli <zhewenli@meta.com>
---
 .buildkite/test-pipeline.yaml                       | 2 +-
 tests/evals/gsm8k/configs/Qwen1.5-MoE-W4A16-CT.yaml | 5 ++++-
 tests/evals/gsm8k/test_gsm8k_correctness.py         | 4 +++-
 3 files changed, 8 insertions(+), 3 deletions(-)

diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index a4436bc2ac222..b81c090fa4710 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -1253,7 +1253,7 @@ steps:
     - pytest -v -s tests/compile/test_fusions_e2e.py::test_tp2_attn_quant_allreduce_rmsnorm
     - pytest -v -s tests/distributed/test_context_parallel.py
     - CUDA_VISIBLE_DEVICES=1,2 VLLM_ALL2ALL_BACKEND=deepep_high_throughput VLLM_USE_DEEP_GEMM=1 VLLM_LOGGING_LEVEL=DEBUG python3 examples/offline_inference/data_parallel.py --model Qwen/Qwen1.5-MoE-A2.7B --tp-size=1  --dp-size=2 --max-model-len 2048
-    - pytest -v -s tests/v1/distributed/test_dbo.py  
+    - pytest -v -s tests/v1/distributed/test_dbo.py
 
 ##### B200 test #####
 - label: Distributed Tests (B200) # optional
diff --git a/tests/evals/gsm8k/configs/Qwen1.5-MoE-W4A16-CT.yaml b/tests/evals/gsm8k/configs/Qwen1.5-MoE-W4A16-CT.yaml
index c5dbceeeb2b45..ea9c95158405a 100644
--- a/tests/evals/gsm8k/configs/Qwen1.5-MoE-W4A16-CT.yaml
+++ b/tests/evals/gsm8k/configs/Qwen1.5-MoE-W4A16-CT.yaml
@@ -2,4 +2,7 @@ model_name: "nm-testing/Qwen1.5-MoE-A2.7B-Chat-quantized.w4a16"
 accuracy_threshold: 0.45
 num_questions: 1319
 num_fewshot: 5
-max_model_len: 4096
\ No newline at end of file
+max_model_len: 4096
+# Duo stream incompatabilbe with this model: https://github.com/vllm-project/vllm/issues/28220
+env:
+  VLLM_DISABLE_SHARED_EXPERTS_STREAM: "1"
diff --git a/tests/evals/gsm8k/test_gsm8k_correctness.py b/tests/evals/gsm8k/test_gsm8k_correctness.py
index ce3ab8096b45c..b5d67df7bf3db 100644
--- a/tests/evals/gsm8k/test_gsm8k_correctness.py
+++ b/tests/evals/gsm8k/test_gsm8k_correctness.py
@@ -62,9 +62,11 @@ def test_gsm8k_correctness_param(config_filename, tp_size):
         str(tp_size),
     ]
 
+    env_dict = eval_config.get("env", None)
+
     # Launch server and run evaluation
     with RemoteOpenAIServer(
-        eval_config["model_name"], server_args, max_wait_seconds=480
+        eval_config["model_name"], server_args, env_dict=env_dict, max_wait_seconds=480
     ) as remote_server:
         server_url = remote_server.url_for("v1")
 

From c4768dcf47ae919257e31b49a03c00d383ba3c55 Mon Sep 17 00:00:00 2001
From: Jiangyun Zhu <riverclouds.zhu@qq.com>
Date: Mon, 10 Nov 2025 05:26:35 +0800
Subject: [PATCH 264/976] [Kernel] Fix fused_gdn_gating (#28343)

Signed-off-by: zjy0516 <riverclouds.zhu@qq.com>
---
 vllm/model_executor/models/qwen3_next.py | 8 +++++---
 1 file changed, 5 insertions(+), 3 deletions(-)

diff --git a/vllm/model_executor/models/qwen3_next.py b/vllm/model_executor/models/qwen3_next.py
index 880655da3f0a5..55bbad7a8b275 100644
--- a/vllm/model_executor/models/qwen3_next.py
+++ b/vllm/model_executor/models/qwen3_next.py
@@ -1367,8 +1367,10 @@ def fused_gdn_gating_kernel(
     blk_g = -tl.exp(blk_A_log.to(tl.float32)) * softplus_x
     tl.store(g + off, blk_g.to(g.dtype.element_ty), mask=mask)
     # compute beta_output = sigmoid(b)
-    blk_beta = 1.0 / (1.0 + tl.exp(-blk_b.to(tl.float32)))
-    tl.store(beta_output + off, blk_beta.to(beta_output.dtype.element_ty), mask=mask)
+    blk_beta_output = tl.sigmoid(blk_b.to(tl.float32))
+    tl.store(
+        beta_output + off, blk_beta_output.to(beta_output.dtype.element_ty), mask=mask
+    )
 
 
 def fused_gdn_gating(
@@ -1389,7 +1391,7 @@ def fused_gdn_gating(
     seq_len = 1
     grid = (batch, seq_len, triton.cdiv(num_heads, 8))
     g = torch.empty(1, batch, num_heads, dtype=torch.float32, device=a.device)
-    beta_output = torch.empty(1, batch, num_heads, dtype=torch.float32, device=b.device)
+    beta_output = torch.empty(1, batch, num_heads, dtype=b.dtype, device=b.device)
     fused_gdn_gating_kernel[grid](
         g,
         beta_output,

From c5f685b3ae5fef9dec499f401427b33075673da8 Mon Sep 17 00:00:00 2001
From: JartX <sagformas@epdcenter.es>
Date: Mon, 10 Nov 2025 00:09:36 +0100
Subject: [PATCH 265/976] [ROCm][Platform] Add RX7900XTX device id in
 _ROCM_DEVICE_ID_NAME_MAP (#28279)

Signed-off-by: JartX <sagformas@epdcenter.es>
---
 vllm/platforms/rocm.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/vllm/platforms/rocm.py b/vllm/platforms/rocm.py
index 9745e4b08cf06..1abd6300036db 100644
--- a/vllm/platforms/rocm.py
+++ b/vllm/platforms/rocm.py
@@ -77,6 +77,7 @@ _ROCM_DEVICE_ID_NAME_MAP: dict[str, str] = {
     "0x74b9": "AMD_Instinct_MI325X",  # MI325X VF
     "0x74a9": "AMD_Instinct_MI300X_HF",
     "0x74bd": "AMD_Instinct_MI300X_HF",
+    "0x744c": "AMD_Radeon_RX7900XTX",
 }
 
 # Prevent use of clashing `{CUDA/HIP}_VISIBLE_DEVICES`

From 6b2b9fd934af2bf59f749aa04ac739fd9c7d29f7 Mon Sep 17 00:00:00 2001
From: Varun Sundar Rabindranath <varunsundar08@gmail.com>
Date: Sun, 9 Nov 2025 21:45:29 -0500
Subject: [PATCH 266/976] [CI] lora/test_mixtral.py : Add additional expected
 outputs due to flakiness (#28322)

Signed-off-by: Varun Sundar Rabindranath <vsundarr@redhat.com>
Co-authored-by: Varun Sundar Rabindranath <vsundarr@redhat.com>
---
 tests/lora/test_mixtral.py | 29 ++++++++++++++++++-----------
 1 file changed, 18 insertions(+), 11 deletions(-)

diff --git a/tests/lora/test_mixtral.py b/tests/lora/test_mixtral.py
index 868ca51b33314..12c73f2d79f75 100644
--- a/tests/lora/test_mixtral.py
+++ b/tests/lora/test_mixtral.py
@@ -56,15 +56,22 @@ def test_mixtral_lora(mixtral_lora_files, tp_size):
     )
 
     expected_lora_output = [
-        "give_opinion(name[SpellForce 3], release_year[2017], developer[Grimlore Games], rating[poor])",  # noqa: E501
-        "give_opinion(name[SpellForce 3], developer[Grimlore Games], release_year[2017], rating[poor])",  # noqa: E501
-        "inform(name[BioShock], release_year[2007], rating[good], genres[action-adventure, role-playing, shooter], platforms[PlayStation, Xbox, PC], available_on_steam[yes], has_linux_release[no], has_mac_release[yes])",  # noqa: E501
+        [
+            "give_opinion(name[SpellForce 3], release_year[2017], developer[Grimlore Games], rating[poor])"  # noqa: E501
+        ],
+        [
+            "give_opinion(name[SpellForce 3], developer[Grimlore Games], release_year[2017], rating[poor])",  # noqa: E501
+            "give_opinion(name[SpellForce 3], release_year[2017], developer[Grimlore Games], rating[poor])",  # noqa: E501
+        ],
+        [
+            "inform(name[BioShock], release_year[2007], rating[good], genres[action-adventure, role-playing, shooter], platforms[PlayStation, Xbox, PC], available_on_steam[yes], has_linux_release[no], has_mac_release[yes])"  # noqa: E501
+        ],
     ]
-    assert (
-        do_sample(llm, mixtral_lora_files, lora_id=1, prompts=prompts)
-        == expected_lora_output
-    )
-    assert (
-        do_sample(llm, mixtral_lora_files, lora_id=2, prompts=prompts)
-        == expected_lora_output
-    )
+
+    def check_outputs(generated: list[str]):
+        assert len(generated) == len(expected_lora_output)
+        for gen, gt_choices in zip(generated, expected_lora_output):
+            assert gen in gt_choices
+
+    check_outputs(do_sample(llm, mixtral_lora_files, lora_id=1, prompts=prompts))
+    check_outputs(do_sample(llm, mixtral_lora_files, lora_id=2, prompts=prompts))

From 03fa4d3fb3ddfc9ced960d527d075213f32ecf07 Mon Sep 17 00:00:00 2001
From: Xiake Sun <xisun@amd.com>
Date: Mon, 10 Nov 2025 12:53:40 +0800
Subject: [PATCH 267/976] [Hardware][AMD][Model] Add Triton MoE tuning support
 and optimized configs for Qwen3 omni for MI308X (#28373)

Signed-off-by: Xiake Sun <xiake.sun@amd.com>
Signed-off-by: Xiake Sun <xisun@amd.com>
Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
---
 benchmarks/kernels/benchmark_moe.py           |   7 +-
 ...N=768,device_name=AMD_Instinct_MI308X.json | 213 ++++++++++++++++++
 2 files changed, 219 insertions(+), 1 deletion(-)
 create mode 100755 vllm/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=AMD_Instinct_MI308X.json

diff --git a/benchmarks/kernels/benchmark_moe.py b/benchmarks/kernels/benchmark_moe.py
index 33c83574467cc..c99951aa27826 100644
--- a/benchmarks/kernels/benchmark_moe.py
+++ b/benchmarks/kernels/benchmark_moe.py
@@ -211,7 +211,7 @@ def get_rocm_tuning_space(use_fp16):
     num_warps_range = [1, 2, 4, 8]
     group_m_range = [1, 4, 8, 16, 32]
     num_stage_range = [2]
-    waves_per_eu_range = [0]
+    waves_per_eu_range = [0, 1, 2, 4]
     matrix_instr_nonkdim_range = [16, 32] if use_fp16 else []
     kpack_range = [1, 2] if use_fp16 else []
 
@@ -616,6 +616,11 @@ def main(args: argparse.Namespace):
         topk = config.moe_topk[0]
         intermediate_size = config.moe_intermediate_size[0]
         hidden_size = config.hidden_size
+    elif config.architectures[0] in ["Qwen3OmniMoeForConditionalGeneration"]:
+        E = config.thinker_config.text_config.num_experts
+        topk = config.thinker_config.text_config.num_experts_per_tok
+        intermediate_size = config.thinker_config.text_config.moe_intermediate_size
+        hidden_size = config.thinker_config.text_config.hidden_size
     else:
         # Support for llama4
         config = config.get_text_config()
diff --git a/vllm/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=AMD_Instinct_MI308X.json b/vllm/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=AMD_Instinct_MI308X.json
new file mode 100755
index 0000000000000..f5990fc1dd894
--- /dev/null
+++ b/vllm/model_executor/layers/fused_moe/configs/E=128,N=768,device_name=AMD_Instinct_MI308X.json
@@ -0,0 +1,213 @@
+{
+    "triton_version": "3.4.0",
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 2,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 1,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 4,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 1,
+        "num_stages": 2,
+        "waves_per_eu": 4,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 2,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 2,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 4,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 4,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 2,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 1,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 1,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "256": {
+        "BLOCK_SIZE_M": 32,
+        "BLOCK_SIZE_N": 32,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 4,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "512": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 8,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 1,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "768": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 2,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 4,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 1
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 128,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 64,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0,
+        "matrix_instr_nonkdim": 16,
+        "kpack": 2
+    }
+}

From e8697faf037d3eb90b3817bee5d7ea596ab08b12 Mon Sep 17 00:00:00 2001
From: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com>
Date: Mon, 10 Nov 2025 01:32:09 -0500
Subject: [PATCH 268/976] [V0 deprecation] Remove no longer used
 `get_metadata_cls` (#28370)

Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com>
---
 tests/kernels/utils.py                        | 244 +-----------------
 vllm/attention/backends/abstract.py           |   9 -
 vllm/v1/attention/backends/cpu_attn.py        |   4 -
 vllm/v1/attention/backends/flash_attn.py      |   5 -
 vllm/v1/attention/backends/flashinfer.py      |   4 -
 vllm/v1/attention/backends/flex_attention.py  |   5 -
 vllm/v1/attention/backends/mla/common.py      |   5 -
 .../attention/backends/mla/flashattn_mla.py   |   4 -
 vllm/v1/attention/backends/mla/flashmla.py    |   4 -
 .../attention/backends/mla/flashmla_sparse.py |   5 -
 vllm/v1/attention/backends/mla/indexer.py     |   5 -
 .../attention/backends/mla/rocm_aiter_mla.py  |   4 -
 vllm/v1/attention/backends/pallas.py          |   4 -
 vllm/v1/attention/backends/rocm_aiter_fa.py   |   5 -
 .../backends/rocm_aiter_unified_attn.py       |   7 +-
 vllm/v1/attention/backends/rocm_attn.py       |   5 -
 vllm/v1/attention/backends/tree_attn.py       |   5 -
 vllm/v1/attention/backends/triton_attn.py     |   5 -
 vllm/v1/attention/backends/xformers.py        |   5 -
 vllm/v1/worker/gpu_model_runner.py            |   7 +-
 20 files changed, 9 insertions(+), 332 deletions(-)

diff --git a/tests/kernels/utils.py b/tests/kernels/utils.py
index eb00bc72b4b0d..5d5a26fbfc2cd 100644
--- a/tests/kernels/utils.py
+++ b/tests/kernels/utils.py
@@ -4,24 +4,21 @@
 
 import itertools
 import random
-import unittest
 from collections.abc import Sequence
 from numbers import Number
 from typing import Any, NamedTuple
+from unittest.mock import patch
 
 import pytest
 import torch
 from torch._prims_common import TensorLikeType
 
 from tests.kernels.quant_utils import native_w8a8_block_matmul
-from vllm.attention import AttentionBackend, AttentionMetadata, AttentionType
-from vllm.attention.backends.registry import _Backend
+from vllm.attention import AttentionType
 from vllm.model_executor.layers.activation import SiluAndMul
 from vllm.model_executor.layers.fused_moe.utils import moe_kernel_quantize_input
 from vllm.utils import (
     STR_BACKEND_ENV_VAR,
-    STR_FLASH_ATTN_VAL,
-    STR_XFORMERS_ATTN_VAL,
 )
 from vllm.utils.torch_utils import make_tensor_with_pad
 
@@ -512,50 +509,6 @@ def pack_qkv(qkv: QKVInputs, device: torch.device | str) -> PackedQKVInputs:
     )
 
 
-def make_backend(backend_name: str) -> AttentionBackend:
-    """
-    Construct the backend instance determined by the backend_name string
-    argument.
-
-    Note: at time of writing the Attention wrapper automatically selects
-    its own backend for Attention.forward(); so the backend instance which
-    you generate with this function is not meant to be used for *running*
-    inference, but rather for generating compatible metadata structures
-    using backend.make_metadata()
-
-
-    Returns:
-
-    * Backend instance
-    """
-    if backend_name == STR_XFORMERS_ATTN_VAL:
-        from vllm.v1.attention.backends.xformers import XFormersAttentionBackend
-
-        return XFormersAttentionBackend()
-    if backend_name == STR_FLASH_ATTN_VAL:
-        from vllm.v1.attention.backends.flash_attn import FlashAttentionBackend
-
-        return FlashAttentionBackend()
-    if backend_name == "TRITON_ATTN":
-        from vllm.v1.attention.backends.triton_attn import TritonAttentionBackend
-
-        return TritonAttentionBackend()
-    if backend_name == "FLEX_ATTENTION":
-        from vllm.v1.attention.backends.flex_attention import FlexAttentionBackend
-
-        return FlexAttentionBackend()
-    if backend_name == "TORCH_SDPA":
-        from vllm.v1.attention.backends.cpu_attn import TorchSDPABackend
-
-        return TorchSDPABackend()
-    if backend_name == "FLASHINFER":
-        from vllm.v1.attention.backends.flashinfer import FlashInferBackend
-
-        return FlashInferBackend()
-
-    raise AssertionError(f"Unrecognized backend_name {backend_name} for unit test")
-
-
 def make_alibi_bias(
     alibi_slopes: torch.Tensor,
     num_kv_heads: int,
@@ -877,197 +830,6 @@ def make_block_tables_slot_mapping(
     return (block_tables_tensor, slot_mapping_list, max_block_idx)
 
 
-def make_test_metadata(
-    attn_backend: _Backend,
-    is_prompt: bool,
-    seq_lens: list[int] | None,
-    decoder_test_params: PhaseTestParameters | None,
-    device: torch.device | str,
-    encoder_test_params: PhaseTestParameters | None = None,
-    cross_test_params: PhaseTestParameters | None = None,
-) -> AttentionMetadata:
-    """
-    Construct fake attention metadata for a given test phase
-    (prefill-phase or decode-phase).
-
-    encoder_test_params and cross_test_params arguments allow encoder
-    attention and enc/dec cross-attention (respectively) to use distinct
-    metadata values from decoder self-attention (decoder_test_params.)
-
-    if encoder_test_params and cross_test_params are None, the attention
-    metadata will support decoder-only scenario.
-
-    Assumptions:
-
-    * No chunked prefill -> a batch is 100% prefill or 100% decode, never both
-
-    Arguments:
-
-    * attn_backend_name: Backend for sourcing attention kernels
-    * is_prompt: prefill if True, o/w decode
-    * seq_lens: list of token counts for each sequence
-    * decoder_test_params: decoder self-attention test params;
-                           this function requires
-                           kv_mmap (memory mapping) field
-    * device: CPU or CUDA device
-    * encoder_test_params: encoder attention test params;
-                           this function requires encoder query
-                           sequence lengths field. If None,
-                           encoder query sequence lengths are
-                           treated as None
-    * cross_test_params: enc/dec cross-attention test params;
-                         this function requires kv_mmap field.
-                         If None, KV cache memory map data
-                         structures are treated as None
-
-    Return:
-
-    * AttentionMetadata structure
-    """
-
-    # Decoder self-attention memory mapping
-    # decoder_test_params is None signals encoder-only
-    # scenario, so kv_mmap is None
-    kv_mmap = None if decoder_test_params is None else decoder_test_params.kv_mmap
-
-    # This function constructs metadata assuming no chunked prefill,
-    # i.e. 100% prefill tokens or 100% decode tokens
-    #
-    # - If is_prompt, num_prefills_or_decodes is the number of prefills
-    #   and num_prefill_or_decode_tokens is the number of prefill tokens
-    # - If not is_prompt, num_prefills_or_decodes is the number of decodes
-    #   and num_prefill_or_decode_tokens is the number of decode tokens
-    #
-    # seq_lens is None signals encoder-only
-    # scenario, in which case num_prefills_or_decodes and
-    # num_prefill_or_decode_tokens are unused
-    num_prefills_or_decodes = None if seq_lens is None else len(seq_lens)
-
-    num_prefill_or_decode_tokens = (
-        None if seq_lens is None else (sum(seq_lens) if is_prompt else len(seq_lens))
-    )
-
-    # Seems for non-prefix-caching scenarios context_lens
-    # is never needed
-    context_lens = None
-
-    if encoder_test_params is None:
-        encoder_seq_lens = None
-        num_encoder_tokens = None
-    else:
-        # Encoder/decoder or encoder-only models only:
-        # * Extract encoder input sequence lengths
-        assert encoder_test_params.packed_qkvo.packed_qkv is not None
-        encoder_seq_lens = encoder_test_params.packed_qkvo.packed_qkv.q_seq_lens
-        num_encoder_tokens = (
-            None if encoder_seq_lens is None else (sum(encoder_seq_lens))
-        )
-
-    # For encoder/decoder or encoder-only models only, extract *cross-attention*
-    # slot_mapping and block table (kv_mmap)
-    cross_kv_mmap = None if cross_test_params is None else cross_test_params.kv_mmap
-
-    attn_backend_obj = make_backend(attn_backend.name)
-
-    if is_prompt:
-        # Prefill-phase scenario
-
-        num_prefills = num_prefills_or_decodes
-        num_prefill_tokens = num_prefill_or_decode_tokens
-        num_decode_tokens = 0
-
-        (
-            seq_lens_tensor,
-            context_lens_tensor,
-            _,
-            _,
-            seq_start_loc,
-            encoder_seq_lens_tensor,
-            encoder_seq_start_loc,
-            max_encoder_seq_len,
-        ) = _make_metadata_tensors(
-            seq_lens, context_lens, encoder_seq_lens, device=device
-        )
-        return attn_backend_obj.make_metadata(
-            num_prefills=num_prefills,
-            slot_mapping=(None if kv_mmap is None else kv_mmap.slot_mapping),
-            enable_kv_scales_calculation=True,
-            num_prefill_tokens=num_prefill_tokens,
-            num_decode_tokens=num_decode_tokens,
-            seq_lens=seq_lens,
-            seq_lens_tensor=seq_lens_tensor,
-            seq_start_loc=seq_start_loc,
-            max_prefill_seq_len=None if seq_lens is None else max(seq_lens),
-            max_decode_seq_len=0,
-            context_lens_tensor=context_lens_tensor,
-            block_tables=(None if kv_mmap is None else kv_mmap.block_tables),
-            use_cuda_graph=False,
-            num_encoder_tokens=num_encoder_tokens,
-            encoder_seq_lens=encoder_seq_lens,
-            encoder_seq_lens_tensor=encoder_seq_lens_tensor,
-            encoder_seq_start_loc=encoder_seq_start_loc,
-            max_encoder_seq_len=max_encoder_seq_len,
-            cross_slot_mapping=(
-                None if cross_kv_mmap is None else cross_kv_mmap.slot_mapping
-            ),
-            cross_block_tables=(
-                None if cross_kv_mmap is None else cross_kv_mmap.block_tables
-            ),
-        )
-
-    else:  # not is_prompt
-        # Decode-phase scenario
-
-        assert kv_mmap is not None
-        assert num_prefill_or_decode_tokens is not None
-        assert seq_lens is not None
-
-        num_prefills = 0
-        num_prefill_tokens = 0
-        num_decode_tokens = num_prefill_or_decode_tokens
-
-        (
-            seq_lens_tensor,
-            context_lens_tensor,
-            _,
-            _,
-            seq_start_loc,
-            encoder_seq_lens_tensor,
-            encoder_seq_start_loc,
-            max_encoder_seq_len,
-        ) = _make_metadata_tensors(
-            seq_lens, context_lens, encoder_seq_lens, device=device
-        )
-
-        return attn_backend_obj.make_metadata(
-            num_prefills=num_prefills,
-            slot_mapping=kv_mmap.slot_mapping,
-            enable_kv_scales_calculation=True,
-            num_prefill_tokens=num_prefill_tokens,
-            num_decode_tokens=num_decode_tokens,
-            seq_lens=seq_lens,
-            seq_lens_tensor=seq_lens_tensor,
-            seq_start_loc=seq_start_loc,
-            max_prefill_seq_len=0,
-            max_decode_seq_len=max(seq_lens),
-            max_decode_query_len=1,
-            context_lens_tensor=context_lens_tensor,
-            block_tables=kv_mmap.block_tables,
-            use_cuda_graph=False,
-            num_encoder_tokens=num_encoder_tokens,
-            encoder_seq_lens=encoder_seq_lens,
-            encoder_seq_lens_tensor=encoder_seq_lens_tensor,
-            encoder_seq_start_loc=encoder_seq_start_loc,
-            max_encoder_seq_len=max_encoder_seq_len,
-            cross_slot_mapping=(
-                None if cross_kv_mmap is None else cross_kv_mmap.slot_mapping
-            ),
-            cross_block_tables=(
-                None if cross_kv_mmap is None else cross_kv_mmap.block_tables
-            ),
-        )
-
-
 def assert_actual_matches_ideal(
     test_params: PhaseTestParameters, output_under_test: torch.Tensor, backend: str
 ) -> None:
@@ -1308,7 +1070,7 @@ def opcheck(
     raise_exception: bool = True,
     cond: bool = True,
 ) -> dict[str, str]:
-    with unittest.mock.patch("torch.allclose", new=fp8_allclose):
+    with patch("torch.allclose", new=fp8_allclose):
         return (
             torch.library.opcheck(
                 op, args, kwargs, test_utils=test_utils, raise_exception=raise_exception
diff --git a/vllm/attention/backends/abstract.py b/vllm/attention/backends/abstract.py
index e9c6a278a9411..b54eaf4e2872d 100644
--- a/vllm/attention/backends/abstract.py
+++ b/vllm/attention/backends/abstract.py
@@ -51,19 +51,10 @@ class AttentionBackend(ABC):
     def get_impl_cls() -> type["AttentionImpl"]:
         raise NotImplementedError
 
-    @staticmethod
-    @abstractmethod
-    def get_metadata_cls() -> type["AttentionMetadata"]:
-        raise NotImplementedError
-
     @classmethod
     def get_supported_kernel_block_size(cls) -> list[int | MultipleOf]:
         return cls.get_impl_cls().get_supported_kernel_block_size()
 
-    @classmethod
-    def make_metadata(cls, *args, **kwargs) -> "AttentionMetadata":
-        return cls.get_metadata_cls()(*args, **kwargs)
-
     @staticmethod
     @abstractmethod
     def get_builder_cls():  # -> Type["AttentionMetadataBuilder"]:
diff --git a/vllm/v1/attention/backends/cpu_attn.py b/vllm/v1/attention/backends/cpu_attn.py
index 0d3e1729ff208..20d987fa2de3b 100644
--- a/vllm/v1/attention/backends/cpu_attn.py
+++ b/vllm/v1/attention/backends/cpu_attn.py
@@ -66,10 +66,6 @@ class TorchSDPABackend(AttentionBackend):
     def get_impl_cls() -> type["TorchSDPABackendImpl"]:
         return TorchSDPABackendImpl
 
-    @staticmethod
-    def get_metadata_cls() -> type["AttentionMetadata"]:
-        return TorchSDPAMetadata
-
     @staticmethod
     def get_builder_cls() -> type["TorchSDPAMetadataBuilderV1"]:
         return TorchSDPAMetadataBuilderV1
diff --git a/vllm/v1/attention/backends/flash_attn.py b/vllm/v1/attention/backends/flash_attn.py
index 226f2277ae985..15bb2f4a40acb 100755
--- a/vllm/v1/attention/backends/flash_attn.py
+++ b/vllm/v1/attention/backends/flash_attn.py
@@ -11,7 +11,6 @@ from vllm import envs
 from vllm.attention.backends.abstract import (
     AttentionBackend,
     AttentionImpl,
-    AttentionMetadata,
     AttentionType,
     MultipleOf,
     is_quantized_kv_cache,
@@ -90,10 +89,6 @@ class FlashAttentionBackend(AttentionBackend):
     def get_impl_cls() -> type["FlashAttentionImpl"]:
         return FlashAttentionImpl
 
-    @staticmethod
-    def get_metadata_cls() -> type["AttentionMetadata"]:
-        return FlashAttentionMetadata
-
     @staticmethod
     def get_builder_cls() -> type["FlashAttentionMetadataBuilder"]:
         return FlashAttentionMetadataBuilder
diff --git a/vllm/v1/attention/backends/flashinfer.py b/vllm/v1/attention/backends/flashinfer.py
index ddc63b902dffb..683725b95819f 100755
--- a/vllm/v1/attention/backends/flashinfer.py
+++ b/vllm/v1/attention/backends/flashinfer.py
@@ -195,10 +195,6 @@ class FlashInferBackend(AttentionBackend):
     def get_impl_cls() -> type["FlashInferImpl"]:
         return FlashInferImpl
 
-    @staticmethod
-    def get_metadata_cls() -> type["FlashInferMetadata"]:
-        return FlashInferMetadata
-
     @staticmethod
     def get_builder_cls() -> type["FlashInferMetadataBuilder"]:
         return FlashInferMetadataBuilder
diff --git a/vllm/v1/attention/backends/flex_attention.py b/vllm/v1/attention/backends/flex_attention.py
index 928252636d583..9af63831cecba 100644
--- a/vllm/v1/attention/backends/flex_attention.py
+++ b/vllm/v1/attention/backends/flex_attention.py
@@ -20,7 +20,6 @@ from torch.nn.attention.flex_attention import (
 from vllm.attention.backends.abstract import (
     AttentionBackend,
     AttentionImpl,
-    AttentionMetadata,
     AttentionType,
     is_quantized_kv_cache,
 )
@@ -89,10 +88,6 @@ class FlexAttentionBackend(AttentionBackend):
     def get_impl_cls() -> type["FlexAttentionImpl"]:
         return FlexAttentionImpl
 
-    @staticmethod
-    def get_metadata_cls() -> type["AttentionMetadata"]:
-        return FlexAttentionMetadata
-
     @staticmethod
     def get_kv_cache_shape(
         num_blocks: int,
diff --git a/vllm/v1/attention/backends/mla/common.py b/vllm/v1/attention/backends/mla/common.py
index 6c8145b6847df..40ce12c4bd758 100755
--- a/vllm/v1/attention/backends/mla/common.py
+++ b/vllm/v1/attention/backends/mla/common.py
@@ -201,7 +201,6 @@ from vllm import _custom_ops as ops
 from vllm.attention.backends.abstract import (
     AttentionBackend,
     AttentionLayer,
-    AttentionMetadata,
     MLAAttentionImpl,
 )
 from vllm.attention.backends.utils import get_mla_dims
@@ -307,10 +306,6 @@ class MLACommonBackend(AttentionBackend):
     def get_name() -> str:
         return "TRITON_MLA"
 
-    @staticmethod
-    def get_metadata_cls() -> type["AttentionMetadata"]:
-        return MLACommonMetadata
-
     @staticmethod
     def get_builder_cls() -> type["MLACommonMetadataBuilder"]:
         return MLACommonMetadataBuilder
diff --git a/vllm/v1/attention/backends/mla/flashattn_mla.py b/vllm/v1/attention/backends/mla/flashattn_mla.py
index 8a1e79baa87cd..79b89c7890a28 100644
--- a/vllm/v1/attention/backends/mla/flashattn_mla.py
+++ b/vllm/v1/attention/backends/mla/flashattn_mla.py
@@ -41,10 +41,6 @@ class FlashAttnMLABackend(MLACommonBackend):
     def get_name() -> str:
         return "FLASH_ATTN_MLA"
 
-    @staticmethod
-    def get_metadata_cls() -> type["FlashAttnMLAMetadata"]:
-        return FlashAttnMLAMetadata
-
     @staticmethod
     def get_builder_cls() -> type["FlashAttnMLAMetadataBuilder"]:
         return FlashAttnMLAMetadataBuilder
diff --git a/vllm/v1/attention/backends/mla/flashmla.py b/vllm/v1/attention/backends/mla/flashmla.py
index bc17307532093..708bb9d63839d 100644
--- a/vllm/v1/attention/backends/mla/flashmla.py
+++ b/vllm/v1/attention/backends/mla/flashmla.py
@@ -40,10 +40,6 @@ class FlashMLABackend(MLACommonBackend):
     def get_name() -> str:
         return "FLASHMLA"
 
-    @staticmethod
-    def get_metadata_cls() -> type["FlashMLAMetadata"]:
-        return FlashMLAMetadata
-
     @staticmethod
     def get_builder_cls() -> type["FlashMLAMetadataBuilder"]:
         return FlashMLAMetadataBuilder
diff --git a/vllm/v1/attention/backends/mla/flashmla_sparse.py b/vllm/v1/attention/backends/mla/flashmla_sparse.py
index bf8e4d5a62896..bf76549de1ce8 100644
--- a/vllm/v1/attention/backends/mla/flashmla_sparse.py
+++ b/vllm/v1/attention/backends/mla/flashmla_sparse.py
@@ -10,7 +10,6 @@ from vllm import _custom_ops as ops
 from vllm.attention.backends.abstract import (
     AttentionBackend,
     AttentionLayer,
-    AttentionMetadata,
 )
 from vllm.attention.backends.utils import get_mla_dims
 from vllm.attention.ops.flashmla import (
@@ -57,10 +56,6 @@ class FlashMLASparseBackend(AttentionBackend):
     def get_name() -> str:
         return "FLASHMLA_SPARSE"
 
-    @staticmethod
-    def get_metadata_cls() -> type[AttentionMetadata]:
-        return FlashMLASparseMetadata
-
     @staticmethod
     def get_builder_cls() -> type["FlashMLASparseMetadataBuilder"]:
         return FlashMLASparseMetadataBuilder
diff --git a/vllm/v1/attention/backends/mla/indexer.py b/vllm/v1/attention/backends/mla/indexer.py
index 49009a939d0b5..f3c5bb7328712 100644
--- a/vllm/v1/attention/backends/mla/indexer.py
+++ b/vllm/v1/attention/backends/mla/indexer.py
@@ -7,7 +7,6 @@ import torch
 
 from vllm.attention.backends.abstract import (
     AttentionBackend,
-    AttentionMetadata,
     MultipleOf,
 )
 from vllm.config import VllmConfig
@@ -24,10 +23,6 @@ logger = init_logger(__name__)
 
 
 class DeepseekV32IndexerBackend(AttentionBackend):
-    @staticmethod
-    def get_metadata_cls() -> type["AttentionMetadata"]:
-        return DeepseekV32IndexerMetadata
-
     @classmethod
     def get_supported_head_sizes(cls) -> list[int]:
         return [32, 64, 128]
diff --git a/vllm/v1/attention/backends/mla/rocm_aiter_mla.py b/vllm/v1/attention/backends/mla/rocm_aiter_mla.py
index 71eac84b6f063..4ad7236eb1be3 100644
--- a/vllm/v1/attention/backends/mla/rocm_aiter_mla.py
+++ b/vllm/v1/attention/backends/mla/rocm_aiter_mla.py
@@ -35,10 +35,6 @@ class AiterMLABackend(MLACommonBackend):
     def get_impl_cls() -> type["AiterMLAImpl"]:
         return AiterMLAImpl
 
-    @staticmethod
-    def get_metadata_cls() -> type["AiterMLAMetadata"]:
-        return AiterMLAMetadata
-
     @staticmethod
     def get_builder_cls() -> type["AiterMLAMetadataBuilder"]:
         return AiterMLAMetadataBuilder
diff --git a/vllm/v1/attention/backends/pallas.py b/vllm/v1/attention/backends/pallas.py
index 40a5517877967..525026bac5a7e 100644
--- a/vllm/v1/attention/backends/pallas.py
+++ b/vllm/v1/attention/backends/pallas.py
@@ -108,10 +108,6 @@ class PallasAttentionBackend(AttentionBackend):
     def get_impl_cls() -> type["PallasAttentionBackendImpl"]:
         return PallasAttentionBackendImpl
 
-    @staticmethod
-    def get_metadata_cls() -> type["PallasMetadata"]:
-        return PallasMetadata
-
     @staticmethod
     def get_kv_cache_shape(
         num_blocks: int,
diff --git a/vllm/v1/attention/backends/rocm_aiter_fa.py b/vllm/v1/attention/backends/rocm_aiter_fa.py
index 30e5cafe0c843..e8d3758a6395a 100644
--- a/vllm/v1/attention/backends/rocm_aiter_fa.py
+++ b/vllm/v1/attention/backends/rocm_aiter_fa.py
@@ -9,7 +9,6 @@ import torch
 from vllm.attention.backends.abstract import (
     AttentionBackend,
     AttentionImpl,
-    AttentionMetadata,
     AttentionType,
     MultipleOf,
 )
@@ -479,10 +478,6 @@ class AiterFlashAttentionBackend(AttentionBackend):
     def get_impl_cls() -> type["AiterFlashAttentionImpl"]:
         return AiterFlashAttentionImpl
 
-    @staticmethod
-    def get_metadata_cls() -> type["AttentionMetadata"]:
-        return AiterFlashAttentionMetadata
-
     @staticmethod
     def get_builder_cls() -> type["AiterFlashAttentionMetadataBuilder"]:
         return AiterFlashAttentionMetadataBuilder
diff --git a/vllm/v1/attention/backends/rocm_aiter_unified_attn.py b/vllm/v1/attention/backends/rocm_aiter_unified_attn.py
index 27b072106268b..b2639c0df0412 100644
--- a/vllm/v1/attention/backends/rocm_aiter_unified_attn.py
+++ b/vllm/v1/attention/backends/rocm_aiter_unified_attn.py
@@ -5,7 +5,7 @@
 import torch
 
 from vllm import _custom_ops as ops
-from vllm.attention.backends.abstract import AttentionMetadata, AttentionType
+from vllm.attention.backends.abstract import AttentionType
 from vllm.logger import init_logger
 from vllm.model_executor.layers.quantization.utils.quant_utils import (
     QuantKey,
@@ -15,7 +15,6 @@ from vllm.v1.attention.backends.flash_attn import FlashAttentionMetadata
 from vllm.v1.attention.backends.rocm_attn import (
     RocmAttentionBackend,
     RocmAttentionImpl,
-    RocmAttentionMetadata,
     RocmAttentionMetadataBuilder,
 )
 
@@ -33,10 +32,6 @@ class RocmAiterUnifiedAttentionBackend(RocmAttentionBackend):
     def get_impl_cls() -> type["RocmAiterUnifiedAttentionImpl"]:
         return RocmAiterUnifiedAttentionImpl
 
-    @staticmethod
-    def get_metadata_cls() -> type["AttentionMetadata"]:
-        return RocmAttentionMetadata
-
     @staticmethod
     def get_kv_cache_shape(
         num_blocks: int,
diff --git a/vllm/v1/attention/backends/rocm_attn.py b/vllm/v1/attention/backends/rocm_attn.py
index 8b7ce90a3ccae..57ba4dc78d9fd 100644
--- a/vllm/v1/attention/backends/rocm_attn.py
+++ b/vllm/v1/attention/backends/rocm_attn.py
@@ -10,7 +10,6 @@ import torch
 from vllm.attention.backends.abstract import (
     AttentionBackend,
     AttentionImpl,
-    AttentionMetadata,
     AttentionType,
 )
 from vllm.attention.ops.chunked_prefill_paged_decode import chunked_prefill_paged_decode
@@ -182,10 +181,6 @@ class RocmAttentionBackend(AttentionBackend):
     def get_impl_cls() -> type["RocmAttentionImpl"]:
         return RocmAttentionImpl
 
-    @staticmethod
-    def get_metadata_cls() -> type["AttentionMetadata"]:
-        return RocmAttentionMetadata
-
     @staticmethod
     def get_kv_cache_shape(
         num_blocks: int,
diff --git a/vllm/v1/attention/backends/tree_attn.py b/vllm/v1/attention/backends/tree_attn.py
index ee6ead9ad9b35..0c0222d6152fb 100644
--- a/vllm/v1/attention/backends/tree_attn.py
+++ b/vllm/v1/attention/backends/tree_attn.py
@@ -12,7 +12,6 @@ from vllm import _custom_ops as ops
 from vllm.attention.backends.abstract import (
     AttentionBackend,
     AttentionImpl,
-    AttentionMetadata,
     AttentionType,
     MultipleOf,
 )
@@ -64,10 +63,6 @@ class TreeAttentionBackend(AttentionBackend):
     def get_impl_cls() -> type["TreeAttentionImpl"]:
         return TreeAttentionImpl
 
-    @staticmethod
-    def get_metadata_cls() -> type["AttentionMetadata"]:
-        return TreeAttentionMetadata
-
     @staticmethod
     def get_kv_cache_shape(
         num_blocks: int,
diff --git a/vllm/v1/attention/backends/triton_attn.py b/vllm/v1/attention/backends/triton_attn.py
index b1d34dbfd1729..0590a87bf8e5f 100644
--- a/vllm/v1/attention/backends/triton_attn.py
+++ b/vllm/v1/attention/backends/triton_attn.py
@@ -10,7 +10,6 @@ import torch
 from vllm.attention.backends.abstract import (
     AttentionBackend,
     AttentionImpl,
-    AttentionMetadata,
     AttentionType,
     MultipleOf,
 )
@@ -176,10 +175,6 @@ class TritonAttentionBackend(AttentionBackend):
     def get_impl_cls() -> type["TritonAttentionImpl"]:
         return TritonAttentionImpl
 
-    @staticmethod
-    def get_metadata_cls() -> type["AttentionMetadata"]:
-        return TritonAttentionMetadata
-
     @staticmethod
     def get_kv_cache_shape(
         num_blocks: int,
diff --git a/vllm/v1/attention/backends/xformers.py b/vllm/v1/attention/backends/xformers.py
index 457b15ebdd82f..81bdbd641429a 100644
--- a/vllm/v1/attention/backends/xformers.py
+++ b/vllm/v1/attention/backends/xformers.py
@@ -10,7 +10,6 @@ import torch
 from vllm.attention.backends.abstract import (
     AttentionBackend,
     AttentionImpl,
-    AttentionMetadata,
     AttentionType,
     MultipleOf,
 )
@@ -105,10 +104,6 @@ class XFormersAttentionBackend(AttentionBackend):
     def get_impl_cls() -> type["XFormersAttentionImpl"]:
         return XFormersAttentionImpl
 
-    @staticmethod
-    def get_metadata_cls() -> type["AttentionMetadata"]:
-        return XFormersAttentionMetadata
-
     @staticmethod
     def get_kv_cache_shape(
         num_blocks: int,
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index de9f32687635e..26007d29d61b8 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -20,7 +20,11 @@ from tqdm import tqdm
 
 import vllm.envs as envs
 from vllm.attention import Attention, AttentionType
-from vllm.attention.backends.abstract import AttentionBackend, MultipleOf
+from vllm.attention.backends.abstract import (
+    AttentionBackend,
+    AttentionMetadata,
+    MultipleOf,
+)
 from vllm.compilation.counter import compilation_counter
 from vllm.compilation.cuda_graph import CUDAGraphWrapper
 from vllm.compilation.monitor import set_cudagraph_capturing_enabled
@@ -82,7 +86,6 @@ from vllm.utils.torch_utils import (
     kv_cache_dtype_str_to_dtype,
     supports_dynamo,
 )
-from vllm.v1.attention.backends.flash_attn import AttentionMetadata
 from vllm.v1.attention.backends.gdn_attn import GDNAttentionMetadataBuilder
 from vllm.v1.attention.backends.utils import (
     AttentionCGSupport,

From a98cc35c34945630883f65f5af5c321c65d03d8b Mon Sep 17 00:00:00 2001
From: Shinichi Hemmi <50256998+Alnusjaponica@users.noreply.github.com>
Date: Mon, 10 Nov 2025 15:50:02 +0900
Subject: [PATCH 269/976] Restore PlaMo2 unit test as `pfnet/plamo-2-1b` now
 supports `transformers >=4.56` (#28019)

Signed-off-by: Shinichi Hemmi <50256998+Alnusjaponica@users.noreply.github.com>
---
 tests/models/registry.py | 2 --
 1 file changed, 2 deletions(-)

diff --git a/tests/models/registry.py b/tests/models/registry.py
index 7b865c578dd43..8f19a048677ec 100644
--- a/tests/models/registry.py
+++ b/tests/models/registry.py
@@ -394,8 +394,6 @@ _TEXT_GENERATION_EXAMPLE_MODELS = {
     ),
     "Plamo2ForCausalLM": _HfExamplesInfo(
         "pfnet/plamo-2-1b",
-        max_transformers_version="4.55.4",
-        transformers_version_reason="HF model uses remote code that is not compatible with latest Transformers",  # noqa: E501
         trust_remote_code=True,
     ),
     "QWenLMHeadModel": _HfExamplesInfo(

From 6f7de33bed412869bec4631add885e5ff88c22cf Mon Sep 17 00:00:00 2001
From: Mark McLoughlin <markmc@redhat.com>
Date: Mon, 10 Nov 2025 08:34:36 +0000
Subject: [PATCH 270/976] [Metrics] Refactor LoRA state tracking (#26801)

Signed-off-by: Mark McLoughlin <markmc@redhat.com>
---
 tests/v1/engine/test_output_processor.py | 175 ++++++++++++++++++++++-
 tests/v1/metrics/test_stats.py           |  18 +--
 vllm/v1/engine/async_llm.py              |   2 +
 vllm/v1/engine/llm_engine.py             |   1 +
 vllm/v1/engine/output_processor.py       |  23 +--
 vllm/v1/metrics/loggers.py               |  28 ++--
 vllm/v1/metrics/stats.py                 | 125 ++++++++--------
 7 files changed, 267 insertions(+), 105 deletions(-)

diff --git a/tests/v1/engine/test_output_processor.py b/tests/v1/engine/test_output_processor.py
index 28ebe5166d962..d77a119ec60f8 100644
--- a/tests/v1/engine/test_output_processor.py
+++ b/tests/v1/engine/test_output_processor.py
@@ -15,12 +15,19 @@ from tests.v1.engine.utils import (
 )
 from vllm import PoolingParams
 from vllm.logprobs import PromptLogprobs, SampleLogprobs
+from vllm.lora.request import LoRARequest
 from vllm.outputs import CompletionOutput, RequestOutput
 from vllm.sampling_params import RequestOutputKind, SamplingParams
 from vllm.transformers_utils.tokenizer import AnyTokenizer
-from vllm.v1.engine import EngineCoreRequest
+from vllm.v1.engine import (
+    EngineCoreEvent,
+    EngineCoreEventType,
+    EngineCoreOutputs,
+    EngineCoreRequest,
+    FinishReason,
+)
 from vllm.v1.engine.output_processor import OutputProcessor, RequestOutputCollector
-from vllm.v1.metrics.stats import IterationStats
+from vllm.v1.metrics.stats import IterationStats, SchedulerStats
 
 
 def _ref_convert_id_to_token(
@@ -895,6 +902,170 @@ def test_iteration_stats(dummy_test_vectors):
     assert iteration_stats.num_generation_tokens == num_active
 
 
+@pytest.mark.parametrize("log_stats", [True, False])
+def test_lora_request_tracking(log_stats: bool, dummy_test_vectors):
+    """Test LoRA request lifecycle tracking through waiting -> running -> finished."""
+    output_processor = OutputProcessor(
+        dummy_test_vectors.tokenizer, log_stats=log_stats
+    )
+    engine_core = MockEngineCore(dummy_test_vectors.generation_tokens)
+    engine_core_timestamp = time.monotonic()
+
+    # Create LoRA requests
+    lora1 = LoRARequest(lora_name="lora-1", lora_int_id=1, lora_path="/path/to/lora1")
+    lora2 = LoRARequest(lora_name="lora-2", lora_int_id=2, lora_path="/path/to/lora2")
+
+    # Create requests with different LoRA adapters:
+    # - request-0: lora-1
+    # - request-1: lora-2
+    # - request-2: None (no LoRA)
+    lora_assignments = [lora1, lora2, None]
+    requests = [
+        EngineCoreRequest(
+            request_id=f"request-{idx}",
+            prompt_token_ids=prompt_tokens,
+            mm_features=None,
+            eos_token_id=None,
+            arrival_time=0,
+            lora_request=lora_assignments[idx],
+            cache_salt=None,
+            data_parallel_rank=None,
+            sampling_params=SamplingParams(),
+            pooling_params=None,
+        )
+        for idx, prompt_tokens in enumerate(dummy_test_vectors.prompt_tokens)
+    ]
+
+    # Add all requests to the OutputProcessor
+    for request in requests:
+        output_processor.add_request(request, None)
+
+    # First iteration: process outputs with QUEUED events
+    outputs = EngineCoreOutputs(
+        outputs=engine_core.get_outputs(), scheduler_stats=SchedulerStats()
+    )
+    for output in outputs.outputs:
+        output.events = [
+            EngineCoreEvent.new_event(EngineCoreEventType.QUEUED, engine_core_timestamp)
+        ]
+
+    iteration_stats = IterationStats() if log_stats else None
+    output_processor.process_outputs(
+        outputs.outputs, engine_core_timestamp, iteration_stats
+    )
+    output_processor.update_scheduler_stats(outputs.scheduler_stats)
+
+    if log_stats:
+        # Verify waiting counts
+        assert outputs.scheduler_stats.waiting_lora_adapters.get("lora-1") == 1
+        assert outputs.scheduler_stats.waiting_lora_adapters.get("lora-2") == 1
+        assert outputs.scheduler_stats.running_lora_adapters.get("lora-1") == 0
+        assert outputs.scheduler_stats.running_lora_adapters.get("lora-2") == 0
+        # Verify internal state
+        assert len(output_processor.lora_states.requests) == 2
+        assert "lora-1" in output_processor.lora_states.requests
+        assert "lora-2" in output_processor.lora_states.requests
+    else:
+        # When log_stats=False, no tracking should occur
+        assert iteration_stats is None
+        assert len(output_processor.lora_states.requests) == 0
+
+    # Second iteration: process outputs with SCHEDULED events
+    outputs = EngineCoreOutputs(
+        outputs=engine_core.get_outputs(), scheduler_stats=SchedulerStats()
+    )
+    for output in outputs.outputs:
+        output.events = [
+            EngineCoreEvent.new_event(
+                EngineCoreEventType.SCHEDULED, engine_core_timestamp
+            )
+        ]
+
+    iteration_stats = IterationStats() if log_stats else None
+    output_processor.process_outputs(
+        outputs.outputs, engine_core_timestamp, iteration_stats
+    )
+    output_processor.update_scheduler_stats(outputs.scheduler_stats)
+
+    if log_stats:
+        # Verify running counts
+        assert outputs.scheduler_stats.waiting_lora_adapters.get("lora-1") == 0
+        assert outputs.scheduler_stats.waiting_lora_adapters.get("lora-2") == 0
+        assert outputs.scheduler_stats.running_lora_adapters.get("lora-1") == 1
+        assert outputs.scheduler_stats.running_lora_adapters.get("lora-2") == 1
+    else:
+        assert iteration_stats is None
+        assert len(output_processor.lora_states.requests) == 0
+
+    # Third iteration: finish request-0 (lora-1)
+    outputs = EngineCoreOutputs(
+        outputs=engine_core.get_outputs(), scheduler_stats=SchedulerStats()
+    )
+    # Find and mark request-0 as finished (it uses lora-1)
+    for output in outputs.outputs:
+        if output.request_id == "request-0":
+            output.finish_reason = FinishReason.LENGTH
+            break
+
+    iteration_stats = IterationStats() if log_stats else None
+    output_processor.process_outputs(
+        outputs.outputs, engine_core_timestamp, iteration_stats
+    )
+    output_processor.update_scheduler_stats(outputs.scheduler_stats)
+
+    if log_stats:
+        # lora-1 should be removed since no requests remain
+        assert "lora-1" not in output_processor.lora_states.requests
+        # lora-2 should still be running
+        assert outputs.scheduler_stats.running_lora_adapters.get("lora-2") == 1
+        assert len(output_processor.lora_states.requests) == 1
+    else:
+        assert len(output_processor.lora_states.requests) == 0
+
+    # Fourth iteration: finish request-1 (lora-2)
+    outputs = EngineCoreOutputs(
+        outputs=engine_core.get_outputs(), scheduler_stats=SchedulerStats()
+    )
+    # Find and mark request-1 as finished (it uses lora-2)
+    for output in outputs.outputs:
+        if output.request_id == "request-1":
+            output.finish_reason = FinishReason.LENGTH
+            break
+
+    iteration_stats = IterationStats() if log_stats else None
+    output_processor.process_outputs(
+        outputs.outputs, engine_core_timestamp, iteration_stats
+    )
+    output_processor.update_scheduler_stats(outputs.scheduler_stats)
+
+    if log_stats:
+        # lora-2 should be removed since no requests remain
+        assert "lora-2" not in output_processor.lora_states.requests
+        assert len(outputs.scheduler_stats.running_lora_adapters) == 0
+        assert len(output_processor.lora_states.requests) == 0
+    else:
+        assert len(output_processor.lora_states.requests) == 0
+
+    # Finish the last request (no LoRA)
+    outputs = EngineCoreOutputs(
+        outputs=engine_core.get_outputs(), scheduler_stats=SchedulerStats()
+    )
+    # Find and mark request-2 as finished (it has no LoRA)
+    for output in outputs.outputs:
+        if output.request_id == "request-2":
+            output.finish_reason = FinishReason.LENGTH
+            break
+
+    iteration_stats = IterationStats() if log_stats else None
+    output_processor.process_outputs(
+        outputs.outputs, engine_core_timestamp, iteration_stats
+    )
+    output_processor.update_scheduler_stats(outputs.scheduler_stats)
+
+    # Verify all requests are finished
+    assert output_processor.get_num_unfinished_requests() == 0
+
+
 @pytest.mark.asyncio
 async def test_request_output_collector():
     NUM_REQS = 3
diff --git a/tests/v1/metrics/test_stats.py b/tests/v1/metrics/test_stats.py
index b12e97a875f84..48067def8357e 100644
--- a/tests/v1/metrics/test_stats.py
+++ b/tests/v1/metrics/test_stats.py
@@ -5,20 +5,4 @@ from vllm.v1.metrics.stats import IterationStats
 
 def test_iteration_stats_repr():
     iteration_stats = IterationStats()
-    iteration_stats.iteration_timestamp = 0
-    expected_repr = (
-        "IterationStats("
-        "iteration_timestamp=0, "
-        "num_generation_tokens=0, "
-        "num_prompt_tokens=0, "
-        "num_preempted_reqs=0, "
-        "finished_requests=[], "
-        "max_num_generation_tokens_iter=[], "
-        "n_params_iter=[], "
-        "time_to_first_tokens_iter=[], "
-        "inter_token_latencies_iter=[], "
-        "waiting_lora_adapters={}, "
-        "running_lora_adapters={}, "
-        "num_corrupted_reqs=0)"
-    )
-    assert repr(iteration_stats) == expected_repr
+    assert repr(iteration_stats).startswith("IterationStats(")
diff --git a/vllm/v1/engine/async_llm.py b/vllm/v1/engine/async_llm.py
index f0d5b77e8e183..aee21fb3fffe7 100644
--- a/vllm/v1/engine/async_llm.py
+++ b/vllm/v1/engine/async_llm.py
@@ -508,6 +508,8 @@ class AsyncLLM(EngineClient):
                             processed_outputs.reqs_to_abort
                         )
 
+                    output_processor.update_scheduler_stats(outputs.scheduler_stats)
+
                     # 4) Logging.
                     # TODO(rob): make into a coroutine and launch it in
                     # background thread once Prometheus overhead is non-trivial.
diff --git a/vllm/v1/engine/llm_engine.py b/vllm/v1/engine/llm_engine.py
index 995642a8356fc..e32c74aff313a 100644
--- a/vllm/v1/engine/llm_engine.py
+++ b/vllm/v1/engine/llm_engine.py
@@ -289,6 +289,7 @@ class LLMEngine:
             engine_core_timestamp=outputs.timestamp,
             iteration_stats=iteration_stats,
         )
+        self.output_processor.update_scheduler_stats(outputs.scheduler_stats)
 
         # 3) Abort any reqs that finished due to stop strings.
         self.engine_core.abort_requests(processed_outputs.reqs_to_abort)
diff --git a/vllm/v1/engine/output_processor.py b/vllm/v1/engine/output_processor.py
index 07c8113dd9b33..d8d03f19d4663 100644
--- a/vllm/v1/engine/output_processor.py
+++ b/vllm/v1/engine/output_processor.py
@@ -22,7 +22,12 @@ from vllm.v1.engine import EngineCoreOutput, EngineCoreRequest, FinishReason
 from vllm.v1.engine.detokenizer import IncrementalDetokenizer
 from vllm.v1.engine.logprobs import LogprobsProcessor
 from vllm.v1.engine.parallel_sampling import ParentRequest
-from vllm.v1.metrics.stats import IterationStats, LoRARequestStates, RequestStateStats
+from vllm.v1.metrics.stats import (
+    IterationStats,
+    LoRARequestStates,
+    RequestStateStats,
+    SchedulerStats,
+)
 
 
 class RequestOutputCollector:
@@ -310,7 +315,7 @@ class OutputProcessor:
         self.tokenizer = tokenizer
         self.request_states: dict[str, RequestState] = {}
         self.parent_requests: dict[str, ParentRequest] = {}
-        self.lora_states = LoRARequestStates()
+        self.lora_states = LoRARequestStates(log_stats)
         self.tracer: Tracer | None = None
 
     def get_num_unfinished_requests(self):
@@ -334,7 +339,7 @@ class OutputProcessor:
         for request_id in request_ids:
             req_state = self.request_states.pop(request_id, None)
             if req_state is not None:
-                self.lora_states.abort_request(req_state)
+                self.lora_states.request_finished(request_id, req_state.lora_name)
                 request_ids_to_abort.append(request_id)
                 # Produce final abort output.
                 if req_state.queue is not None and (
@@ -382,7 +387,6 @@ class OutputProcessor:
             log_stats=self.log_stats,
         )
         self.request_states[request_id] = req_state
-        self.lora_states.add_request(req_state)
         if parent_req:
             self.parent_requests[parent_req.request_id] = parent_req
 
@@ -484,13 +488,15 @@ class OutputProcessor:
                 )
                 if self.tracer:
                     self.do_tracing(engine_core_output, req_state, iteration_stats)
-        self.lora_states.update_iteration_stats(iteration_stats)
 
         return OutputProcessorOutput(
             request_outputs=request_outputs,
             reqs_to_abort=reqs_to_abort,
         )
 
+    def update_scheduler_stats(self, scheduler_stats: SchedulerStats | None):
+        self.lora_states.update_scheduler_stats(scheduler_stats)
+
     def do_tracing(
         self,
         engine_core_output: EngineCoreOutput,
@@ -564,8 +570,6 @@ class OutputProcessor:
         if iteration_stats is None:
             return
 
-        lora_stats = self.lora_states.get_stats(req_state)
-
         assert engine_core_timestamp is not None
         assert req_state.stats is not None
         iteration_stats.update_from_output(
@@ -574,7 +578,8 @@ class OutputProcessor:
             req_state.is_prefilling,
             req_state.prompt_len,
             req_state.stats,
-            lora_stats,
+            self.lora_states,
+            req_state.lora_name,
         )
 
     def _update_stats_from_finished(
@@ -596,7 +601,7 @@ class OutputProcessor:
             max_tokens_param=req_state.max_tokens_param,
             req_stats=req_state.stats,
         )
-        self.lora_states.finish_request(req_state)
+        self.lora_states.request_finished(req_state.request_id, req_state.lora_name)
 
         ParentRequest.observe_finished_request(
             req_state.parent_req, iteration_stats, req_state.stats.num_generation_tokens
diff --git a/vllm/v1/metrics/loggers.py b/vllm/v1/metrics/loggers.py
index eb113c74a22a9..1a175e9e110bd 100644
--- a/vllm/v1/metrics/loggers.py
+++ b/vllm/v1/metrics/loggers.py
@@ -989,6 +989,20 @@ class PrometheusStatLogger(AggregateStatLoggerBase):
                     scheduler_stats.kv_connector_stats, engine_idx
                 )
 
+            if self.gauge_lora_info is not None:
+                running_lora_adapters = ",".join(
+                    scheduler_stats.running_lora_adapters.keys()
+                )
+                waiting_lora_adapters = ",".join(
+                    scheduler_stats.waiting_lora_adapters.keys()
+                )
+                lora_info_labels = {
+                    self.labelname_running_lora_adapters: running_lora_adapters,
+                    self.labelname_waiting_lora_adapters: waiting_lora_adapters,
+                    self.labelname_max_lora: self.max_lora,
+                }
+                self.gauge_lora_info.labels(**lora_info_labels).set_to_current_time()
+
         if mm_cache_stats is not None:
             self.counter_mm_cache_queries[engine_idx].inc(mm_cache_stats.queries)
             self.counter_mm_cache_hits[engine_idx].inc(mm_cache_stats.hits)
@@ -1055,20 +1069,6 @@ class PrometheusStatLogger(AggregateStatLoggerBase):
                     finished_request.max_tokens_param
                 )
 
-        if self.gauge_lora_info is not None:
-            running_lora_adapters = ",".join(
-                iteration_stats.running_lora_adapters.keys()
-            )
-            waiting_lora_adapters = ",".join(
-                iteration_stats.waiting_lora_adapters.keys()
-            )
-            lora_info_labels = {
-                self.labelname_running_lora_adapters: running_lora_adapters,
-                self.labelname_waiting_lora_adapters: waiting_lora_adapters,
-                self.labelname_max_lora: self.max_lora,
-            }
-            self.gauge_lora_info.labels(**lora_info_labels).set_to_current_time()
-
     def record_sleep_state(self, sleep: int = 0, level: int = 0):
         awake = 1
         discard_all = 0
diff --git a/vllm/v1/metrics/stats.py b/vllm/v1/metrics/stats.py
index c5f06a66e21e6..4e9db98db0bc2 100644
--- a/vllm/v1/metrics/stats.py
+++ b/vllm/v1/metrics/stats.py
@@ -2,7 +2,7 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
 import time
-from collections import deque
+from collections import defaultdict, deque
 from dataclasses import dataclass, field
 from typing import TYPE_CHECKING, Any
 
@@ -11,7 +11,6 @@ from vllm.v1.spec_decode.metrics import SpecDecodingStats
 
 if TYPE_CHECKING:
     from vllm.v1.engine import EngineCoreEvent, EngineCoreOutput, FinishReason
-    from vllm.v1.engine.output_processor import RequestState
 
 
 @dataclass
@@ -170,11 +169,8 @@ class SchedulerStats:
     spec_decoding_stats: SpecDecodingStats | None = None
     kv_connector_stats: dict[str, Any] | None = None
 
-
-@dataclass
-class LoRAStats:
-    waiting_requests: set[str] = field(default_factory=set)
-    running_requests: set[str] = field(default_factory=set)
+    waiting_lora_adapters: dict[str, int] = field(default_factory=dict)
+    running_lora_adapters: dict[str, int] = field(default_factory=dict)
 
 
 @dataclass
@@ -229,8 +225,6 @@ class IterationStats:
         self.n_params_iter: list[int] = []
         self.time_to_first_tokens_iter: list[float] = []
         self.inter_token_latencies_iter: list[float] = []
-        self.waiting_lora_adapters: dict[str, int] = {}
-        self.running_lora_adapters: dict[str, int] = {}
         self.num_corrupted_reqs: int = 0
 
     def __repr__(self) -> str:
@@ -248,7 +242,8 @@ class IterationStats:
         is_prefilling: bool,
         prompt_len: int,
         req_stats: RequestStateStats,
-        lora_stats: LoRAStats | None,
+        lora_states: "LoRARequestStates",
+        lora_name: str | None,
     ):
         num_new_generation_tokens = len(output.new_token_ids)
 
@@ -274,7 +269,12 @@ class IterationStats:
         # Process request-level engine core events
         if output.events is not None:
             self.update_from_events(
-                output.request_id, output.events, is_prefilling, req_stats, lora_stats
+                output.request_id,
+                output.events,
+                is_prefilling,
+                req_stats,
+                lora_states,
+                lora_name,
             )
 
         # Process the batch-level "new tokens" engine core event
@@ -292,7 +292,8 @@ class IterationStats:
         events: list["EngineCoreEvent"],
         is_prefilling: bool,
         req_stats: RequestStateStats,
-        lora_stats: LoRAStats | None,
+        lora_states: "LoRARequestStates",
+        lora_name: str | None,
     ):
         # Avoid circular dependency
         from vllm.v1.engine import EngineCoreEventType
@@ -300,15 +301,14 @@ class IterationStats:
         for event in events:
             if event.type == EngineCoreEventType.QUEUED:
                 req_stats.queued_ts = event.timestamp
-                if lora_stats is not None:
-                    lora_stats.waiting_requests.add(req_id)
+                lora_states.request_waiting(req_id, lora_name)
             elif event.type == EngineCoreEventType.SCHEDULED:
                 if req_stats.scheduled_ts == 0.0:  # ignore preemptions
                     req_stats.scheduled_ts = event.timestamp
-                LoRARequestStates.scheduled_request(lora_stats, req_id)
+                lora_states.request_running(req_id, lora_name)
             elif event.type == EngineCoreEventType.PREEMPTED:
                 self.num_preempted_reqs += 1
-                LoRARequestStates.preempted_request(lora_stats, req_id)
+                lora_states.request_waiting(req_id, lora_name)
 
     def update_from_finished_request(
         self,
@@ -361,61 +361,60 @@ class IterationStats:
             self.num_corrupted_reqs += 1
 
 
-class LoRARequestStates:
-    """Per-LoRA request state stats."""
+class LoRAStats:
+    """Tracks waiting and running request IDs for a single LoRA."""
 
     def __init__(self):
-        self.lora_name_to_stats: dict[str, LoRAStats] = {}
+        self.waiting: set[str] = set()
+        self.running: set[str] = set()
 
-    def get_stats(self, req_state: "RequestState") -> LoRAStats | None:
-        if req_state.lora_name is None:
-            return None
-        if req_state.lora_name not in self.lora_name_to_stats:
-            self.lora_name_to_stats[req_state.lora_name] = LoRAStats()
-        return self.lora_name_to_stats[req_state.lora_name]
+    def update(self, req_id: str, waiting: bool, running: bool):
+        assert not (waiting and running)
+        if waiting:
+            self.waiting.add(req_id)
+        else:
+            self.waiting.discard(req_id)
 
-    def add_request(self, req_state: "RequestState"):
-        if (lora_stats := self.get_stats(req_state)) is not None:
-            lora_stats.waiting_requests.add(req_state.request_id)
+        if running:
+            self.running.add(req_id)
+        else:
+            self.running.discard(req_id)
 
-    def finish_request(self, req_state: "RequestState"):
-        if req_state.lora_name is None:
+    @property
+    def empty(self) -> bool:
+        return not (self.waiting or self.running)
+
+
+class LoRARequestStates:
+    """A per-LoRA count of running and waiting requests."""
+
+    def __init__(self, log_stats: bool = False):
+        self.log_stats = log_stats
+        self.requests: defaultdict[str, LoRAStats] = defaultdict(LoRAStats)
+
+    def _request_update(
+        self, req_id: str, lora_name: str | None, waiting: bool, running: bool
+    ):
+        if not self.log_stats or lora_name is None:
             return
-        lora_stats = self.lora_name_to_stats[req_state.lora_name]
-        lora_stats.running_requests.remove(req_state.request_id)
 
-    def abort_request(self, req_state: "RequestState"):
-        if req_state.lora_name is None:
-            return
-        lora_stats = self.lora_name_to_stats[req_state.lora_name]
-        lora_stats.waiting_requests.discard(req_state.request_id)
-        lora_stats.running_requests.discard(req_state.request_id)
+        lora_stats = self.requests[lora_name]
+        lora_stats.update(req_id, waiting, running)
+        if lora_stats.empty:
+            del self.requests[lora_name]
 
-    # Break the pattern for this lifecycle methods so we can
-    # call this from IterationStats.update_from_events()
-    @staticmethod
-    def scheduled_request(lora_stats: LoRAStats | None, request_id: str):
-        if lora_stats is None:
-            return
-        lora_stats.waiting_requests.remove(request_id)
-        lora_stats.running_requests.add(request_id)
+    def request_waiting(self, req_id: str, lora_name: str | None):
+        self._request_update(req_id, lora_name, waiting=True, running=False)
 
-    @staticmethod
-    def preempted_request(lora_stats: LoRAStats | None, request_id: str):
-        if lora_stats is None:
-            return
-        lora_stats.running_requests.remove(request_id)
-        lora_stats.waiting_requests.add(request_id)
+    def request_running(self, req_id: str, lora_name: str | None):
+        self._request_update(req_id, lora_name, waiting=False, running=True)
 
-    def update_iteration_stats(self, iteration_stats: IterationStats | None):
-        if iteration_stats is None:
+    def request_finished(self, req_id: str, lora_name: str | None):
+        self._request_update(req_id, lora_name, waiting=False, running=False)
+
+    def update_scheduler_stats(self, scheduler_stats: SchedulerStats | None):
+        if not self.log_stats or scheduler_stats is None:
             return
-        for lora_name, stats in self.lora_name_to_stats.items():
-            if stats.waiting_requests:
-                iteration_stats.waiting_lora_adapters[lora_name] = len(
-                    stats.waiting_requests
-                )
-            if stats.running_requests:
-                iteration_stats.running_lora_adapters[lora_name] = len(
-                    stats.running_requests
-                )
+        for lora_name, stats in self.requests.items():
+            scheduler_stats.waiting_lora_adapters[lora_name] = len(stats.waiting)
+            scheduler_stats.running_lora_adapters[lora_name] = len(stats.running)

From 15be507c86a44ae8eb73668b388f131823cd0c78 Mon Sep 17 00:00:00 2001
From: Yu Jiaqi <54204033+piood@users.noreply.github.com>
Date: Mon, 10 Nov 2025 21:21:15 +0800
Subject: [PATCH 271/976] [bugfix] fix siglip batch text output error (#28365)

Signed-off-by: piood <2477084691@qq.com>
---
 vllm/model_executor/models/siglip.py | 83 ++++++++++++++++++++--------
 1 file changed, 61 insertions(+), 22 deletions(-)

diff --git a/vllm/model_executor/models/siglip.py b/vllm/model_executor/models/siglip.py
index e363be523dcce..3cbdd64acc4a9 100644
--- a/vllm/model_executor/models/siglip.py
+++ b/vllm/model_executor/models/siglip.py
@@ -19,6 +19,7 @@ from transformers import (
 )
 
 from vllm.attention.layer import MultiHeadAttention
+from vllm.attention.layers.encoder_only_attention import EncoderOnlyAttention
 from vllm.config import VllmConfig
 from vllm.config.multimodal import BaseDummyOptions
 from vllm.distributed import divide, get_tensor_model_parallel_world_size
@@ -379,6 +380,7 @@ class SiglipAttention(nn.Module):
         quant_config: QuantizationConfig | None = None,
         *,
         prefix: str = "",
+        attn_cls: type[EncoderOnlyAttention] | type[MultiHeadAttention],
     ) -> None:
         super().__init__()
 
@@ -413,8 +415,11 @@ class SiglipAttention(nn.Module):
         self.tp_size = get_tensor_model_parallel_world_size()
         self.num_heads_per_partition = divide(self.num_heads, self.tp_size)
 
-        self.attn = MultiHeadAttention(
-            self.num_heads_per_partition, self.head_dim, self.scale
+        self.attn = attn_cls(
+            self.num_heads_per_partition,
+            self.head_dim,
+            self.scale,
+            prefix=f"{prefix}.attn",
         )
 
     def forward(
@@ -424,25 +429,7 @@ class SiglipAttention(nn.Module):
         """Input shape: Batch x Time x Channel"""
         qkv_states, _ = self.qkv_proj(hidden_states)
         query_states, key_states, value_states = qkv_states.chunk(3, dim=-1)
-
-        needs_unsqueeze = query_states.ndim == 2
-        if needs_unsqueeze:
-            query_states, key_states, value_states = (
-                query_states.unsqueeze(0),
-                key_states.unsqueeze(0),
-                value_states.unsqueeze(0),
-            )
-
         out = self.attn(query_states, key_states, value_states)
-
-        if needs_unsqueeze:
-            out, query_states, key_states, value_states = (
-                out.squeeze(0),
-                query_states.squeeze(0),
-                key_states.squeeze(0),
-                value_states.squeeze(0),
-            )
-
         attn_output, _ = self.out_proj(out)
 
         return attn_output, None
@@ -495,6 +482,7 @@ class SiglipEncoderLayer(nn.Module):
         quant_config: QuantizationConfig | None = None,
         *,
         prefix: str = "",
+        attn_cls: type[EncoderOnlyAttention] | type[MultiHeadAttention],
     ) -> None:
         super().__init__()
 
@@ -504,6 +492,7 @@ class SiglipEncoderLayer(nn.Module):
             config,
             quant_config=quant_config,
             prefix=f"{prefix}.self_attn",
+            attn_cls=attn_cls,
         )
         self.layer_norm1 = nn.LayerNorm(self.embed_dim, eps=config.layer_norm_eps)
         self.mlp = SiglipMLP(
@@ -539,6 +528,7 @@ class SiglipEncoder(nn.Module):
         num_hidden_layers_override: int | None = None,
         *,
         prefix: str = "",
+        attn_cls: type[EncoderOnlyAttention] | type[MultiHeadAttention],
     ) -> None:
         super().__init__()
 
@@ -555,6 +545,7 @@ class SiglipEncoder(nn.Module):
                     config,
                     quant_config=quant_config,
                     prefix=f"{prefix}.layers.{layer_idx}",
+                    attn_cls=attn_cls,
                 )
                 for layer_idx in range(num_hidden_layers)
             ]
@@ -598,6 +589,7 @@ class SiglipTextTransformer(nn.Module):
             config=config,
             quant_config=quant_config,
             prefix=f"{prefix}.encoder",
+            attn_cls=EncoderOnlyAttention,
         )
 
         self.final_layer_norm = nn.LayerNorm(embed_dim, eps=config.layer_norm_eps)
@@ -709,6 +701,7 @@ class SiglipVisionTransformer(nn.Module):
             quant_config=quant_config,
             num_hidden_layers_override=num_hidden_layers_override,
             prefix=f"{prefix}.encoder",
+            attn_cls=MultiHeadAttention,
         )
 
         num_hidden_layers = config.num_hidden_layers
@@ -1034,10 +1027,56 @@ class SiglipEmbeddingModel(nn.Module, SupportsMultiModal, SupportsQuant):
             inputs_embeds=inputs_embeds,
         )
         text_features = self.text_model.head(last_hidden_state)
-        # Flip to extract CLS token (first token after reversal) for pooling
-        text_features = text_features.flip(0)
+
+        # SigLIP uses reversed position_ids;
+        # flip sequences to move EOS token to first position
+        text_features = self._flip_sequences_by_position_ids(
+            text_features, position_ids
+        )
+
         return text_features
 
+    def _flip_sequences_by_position_ids(
+        self,
+        features: torch.Tensor,
+        position_ids: torch.Tensor,
+    ) -> torch.Tensor:
+        """Flip sequences so EOS token moves to first position for CLS pooling.
+
+        SigLIP position_ids are reversed within each sequence. This method detects
+        sequence boundaries and flips each sequence individually.
+        """
+        if len(features) == 1:
+            return features
+
+        # Detect sequence boundaries where position_ids decrease
+        position_diffs = position_ids[1:] - position_ids[:-1]
+        boundary_mask = position_diffs <= 0
+
+        boundary_indices = torch.cat(
+            [
+                torch.tensor([0], device=features.device),
+                torch.where(boundary_mask)[0] + 1,
+                torch.tensor([len(features)], device=features.device),
+            ]
+        )
+
+        # For each sequence [start, end), position i flips to: start + end - 1 - i
+        lengths = boundary_indices[1:] - boundary_indices[:-1]
+        starts = boundary_indices[:-1]
+        ends = boundary_indices[1:]
+
+        # Assign sequence ID to each element
+        sequence_ids = torch.arange(
+            len(lengths), device=features.device
+        ).repeat_interleave(lengths)
+
+        # Calculate flipped indices for all positions at once
+        current_positions = torch.arange(len(features), device=features.device)
+        flip_indices = starts[sequence_ids] + ends[sequence_ids] - 1 - current_positions
+
+        return features[flip_indices]
+
     def get_image_features(
         self,
         pixel_values: torch.Tensor,

From 912744d0668405f2e70f5d1de785ad513abf7b13 Mon Sep 17 00:00:00 2001
From: Ferrebo <itachi971009@gmail.com>
Date: Mon, 10 Nov 2025 21:23:49 +0800
Subject: [PATCH 272/976] [Fix] optimize visual token mask with caching and
 multi-token support (#28374)

Signed-off-by: Ferrebo <itachi971009@gmail.com>
Signed-off-by: kebo01 <kebo01@baidu.com>
Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
---
 vllm/model_executor/models/ernie45_vl.py | 34 ++++++++++++++++++++----
 1 file changed, 29 insertions(+), 5 deletions(-)

diff --git a/vllm/model_executor/models/ernie45_vl.py b/vllm/model_executor/models/ernie45_vl.py
index 86536b21c33fc..7c1eba103ae7e 100644
--- a/vllm/model_executor/models/ernie45_vl.py
+++ b/vllm/model_executor/models/ernie45_vl.py
@@ -1367,6 +1367,23 @@ class Ernie4_5_VLMoeForConditionalGeneration(
         self.make_empty_intermediate_tensors = (
             self.language_model.make_empty_intermediate_tensors
         )
+        if getattr(self.config, "im_patch_id", None):
+            visual_token_ids = [
+                token_id
+                for token_id in [
+                    self.config.im_patch_id,
+                    getattr(self.config, "image_start_token_id", None),
+                    getattr(self.config, "image_end_token_id", None),
+                    getattr(self.config, "video_start_token_id", None),
+                    getattr(self.config, "video_end_token_id", None),
+                ]
+                if token_id is not None
+            ]
+            self._visual_token_ids_tensor_cache = torch.tensor(
+                visual_token_ids, dtype=torch.long
+            )
+        else:
+            self._visual_token_ids_tensor_cache = None
 
     def compute_logits(
         self,
@@ -1398,12 +1415,19 @@ class Ernie4_5_VLMoeForConditionalGeneration(
         return image_features
 
     def _set_visual_token_mask(self, input_ids: torch.Tensor) -> None:
-        if getattr(self.config, "im_patch_id", None) is not None:
-            self.visual_token_mask = (input_ids == self.config.im_patch_id).reshape(
-                -1, 1
-            )
-        else:
+        """Set mask for visual tokens (image/video patches and delimiters)."""
+        if self._visual_token_ids_tensor_cache is None:
             self.visual_token_mask = None
+            return
+        # Create tensor on the correct device
+        visual_token_ids_tensor = self._visual_token_ids_tensor_cache.to(
+            device=input_ids.device,
+            dtype=input_ids.dtype,
+        )
+
+        self.visual_token_mask = torch.isin(input_ids, visual_token_ids_tensor).reshape(
+            -1, 1
+        )
 
     def get_mrope_input_positions(
         self,

From 4673e465ff1140592431b82272b52ee08a7faf57 Mon Sep 17 00:00:00 2001
From: TJian <tunjian.tan@embeddedllm.com>
Date: Mon, 10 Nov 2025 05:39:17 -0800
Subject: [PATCH 273/976] Add @tjtanaa to codeowner for ROCm and multi-modal
 (#28360)

Signed-off-by: tjtanaa <tunjian.tan@embeddedllm.com>
---
 .github/CODEOWNERS | 22 ++++++++++++++++------
 1 file changed, 16 insertions(+), 6 deletions(-)

diff --git a/.github/CODEOWNERS b/.github/CODEOWNERS
index 43a024baf4bbb..23def076cf880 100644
--- a/.github/CODEOWNERS
+++ b/.github/CODEOWNERS
@@ -9,7 +9,7 @@
 /vllm/model_executor/layers/quantization @mgoin @robertgshaw2-redhat @tlrmchlsmth @yewentao256 @pavanimajety
 /vllm/model_executor/layers/mamba @tdoublep
 /vllm/model_executor/model_loader @22quinn
-/vllm/multimodal @DarkLight1337 @ywang96 @NickLucche
+/vllm/multimodal @DarkLight1337 @ywang96 @NickLucche @tjtanaa
 /vllm/vllm_flash_attn @LucasWilkinson
 /vllm/lora @jeejeelee
 /vllm/reasoning @aarnphm @chaunceyjiang
@@ -105,11 +105,21 @@ mkdocs.yaml @hmellor
 /vllm/attention/ops/triton_unified_attention.py @tdoublep
 
 # ROCm related: specify owner with write access to notify AMD folks for careful code review
-/docker/Dockerfile.rocm* @gshtras
-/vllm/v1/attention/backends/rocm*.py @gshtras
-/vllm/v1/attention/backends/mla/rocm*.py @gshtras
-/vllm/attention/ops/rocm*.py @gshtras
-/vllm/model_executor/layers/fused_moe/rocm*.py @gshtras
+/vllm/**/*rocm* @tjtanaa
+/docker/Dockerfile.rocm* @gshtras @tjtanaa
+/vllm/v1/attention/backends/rocm*.py @gshtras @tjtanaa
+/vllm/v1/attention/backends/mla/rocm*.py @gshtras @tjtanaa
+/vllm/attention/ops/rocm*.py @gshtras @tjtanaa
+/vllm/model_executor/layers/fused_moe/rocm*.py @gshtras @tjtanaa
+/csrc/rocm @gshtras @tjtanaa
+/requirements/*rocm* @tjtanaa
+/tests/**/*rocm* @tjtanaa
+/docs/**/*rocm* @tjtanaa
+/vllm/**/*quark* @tjtanaa
+/tests/**/*quark* @tjtanaa
+/docs/**/*quark* @tjtanaa
+/vllm/**/*aiter* @tjtanaa
+/tests/**/*aiter* @tjtanaa
 
 # TPU
 /vllm/v1/worker/tpu* @NickLucche

From b06b9470ca881f89feea72e4d89b20c213f360d4 Mon Sep 17 00:00:00 2001
From: zejunchen-zejun <zejun.chen@amd.com>
Date: Mon, 10 Nov 2025 23:38:56 +0800
Subject: [PATCH 274/976] [Rocm][fused_moe][fp4] view weight to
 torch.float4_e2m1fn_x2 when running aiter fused moe for fp4 model (#27474)

Signed-off-by: zejunchen-zejun <zejun.chen@amd.com>
---
 .../layers/quantization/quark/quark_moe.py           | 12 ++++++++++++
 1 file changed, 12 insertions(+)

diff --git a/vllm/model_executor/layers/quantization/quark/quark_moe.py b/vllm/model_executor/layers/quantization/quark/quark_moe.py
index 8825611051e5d..eca6b0cb1d8e5 100644
--- a/vllm/model_executor/layers/quantization/quark/quark_moe.py
+++ b/vllm/model_executor/layers/quantization/quark/quark_moe.py
@@ -458,6 +458,7 @@ class QuarkOCP_MX_MoEMethod(QuarkMoEMethod):
 
         self.weight_dtype = self.weight_quant["dtype"].replace("fp", "mxfp")
         self.input_dtype = self.input_quant["dtype"].replace("fp", "mxfp")
+        self.fp4_dtype = getattr(torch, "float4_e2m1fn_x2", None)
 
         self.ocp_mx_scheme = OCP_MX_Scheme.from_quant_dtype(
             self.input_dtype, self.weight_dtype
@@ -581,6 +582,17 @@ class QuarkOCP_MX_MoEMethod(QuarkMoEMethod):
         w2_weight_scale = layer.w2_weight_scale.view(s0 * s1, -1)
         w2_weight_scale = e8m0_shuffle(w2_weight_scale)
         layer.w2_weight_scale.data = w2_weight_scale.view(s0, s1, -1)
+
+        if self.fp4_dtype is not None:
+            layer.w13_weight = torch.nn.Parameter(
+                layer.w13_weight.view(self.fp4_dtype),
+                requires_grad=layer.w13_weight.requires_grad,
+            )
+            layer.w2_weight = torch.nn.Parameter(
+                layer.w2_weight.view(self.fp4_dtype),
+                requires_grad=layer.w2_weight.requires_grad,
+            )
+
         torch.cuda.empty_cache()
 
     def get_fused_moe_quant_config(

From 40e2eeeb92d926b9773c4ed339375d26b10456e2 Mon Sep 17 00:00:00 2001
From: caozuoba <44251931+caozuoba@users.noreply.github.com>
Date: Tue, 11 Nov 2025 00:03:46 +0800
Subject: [PATCH 275/976] [Kernel] Optimization of the mm_k operator. (#28280)

Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>
---
 vllm/lora/ops/triton_ops/kernel_utils.py | 69 +++++++++++++++++-------
 1 file changed, 51 insertions(+), 18 deletions(-)

diff --git a/vllm/lora/ops/triton_ops/kernel_utils.py b/vllm/lora/ops/triton_ops/kernel_utils.py
index ebfffc17ae873..c6c2a02fdeb53 100644
--- a/vllm/lora/ops/triton_ops/kernel_utils.py
+++ b/vllm/lora/ops/triton_ops/kernel_utils.py
@@ -23,6 +23,7 @@ def mm_k(
     CAST_TYPE: tl.constexpr,
     b_dtype: tl.constexpr,
     USE_GDC: tl.constexpr,
+    base_k,
 ):
     """
     Given a_ptr and b_ptr, that identify the rows of A (m x k) and columns of
@@ -47,32 +48,62 @@ def mm_k(
           matrix dtype.
         b_dtype: datatype of the B matrix
         USE_GDC: Whether to use PDL. True indicates use.
+        base_k: Base offset along K dimension for current SPLIT_K group
     """
     accumulator = tl.zeros((BLOCK_M, BLOCK_N), dtype=tl.float32)
-    for k in range(tl.cdiv(K, BLOCK_K * SPLIT_K)):
+
+    # Step size along K for each iteration
+    STEP_K = BLOCK_K * SPLIT_K
+
+    # Total number of iterations (compile-time constant)
+    num_iters = tl.cdiv(K, STEP_K)
+
+    for k in range(num_iters):
+        # Current iteration's global K offset
+        iter_k = k * STEP_K + base_k
+
+        # Check if this iteration is completely valid (no masking needed)
+        block_end = iter_k + BLOCK_K
+
         if EVEN_K:
-            # pre-fetech lora weight
+            # K is divisible by BLOCK_K, no masking ever needed
+            # pre-fetch lora weight
             tiled_b = tl.load(b_ptr)
             if USE_GDC:
                 tl.extra.cuda.gdc_wait()
             tiled_a = tl.load(a_ptr)
+            if CAST_TYPE:
+                tiled_a = tiled_a.to(b_dtype)
+            accumulator += tl.dot(tiled_a, tiled_b)
         else:
-            tiled_b = tl.load(
-                b_ptr, mask=offset_k[:, None] < K - k * (BLOCK_K * SPLIT_K), other=0
-            )
-            if USE_GDC:
-                tl.extra.cuda.gdc_wait()
-            tiled_a = tl.load(
-                a_ptr, mask=offset_k[None, :] < K - k * (BLOCK_K * SPLIT_K), other=0
-            )
-        if CAST_TYPE:
-            tiled_a = tiled_a.to(b_dtype)
-        accumulator += tl.dot(
-            tiled_a,
-            tiled_b,
-        )
-        a_ptr += BLOCK_K * SPLIT_K * ak_stride
-        b_ptr += BLOCK_K * SPLIT_K * bk_stride
+            # Check if we need element-wise masking
+            if iter_k >= K:
+                # Entire block out of range, skip
+                pass
+            elif block_end <= K:
+                # Entire block in range, no masking needed (fast path)
+                tiled_b = tl.load(b_ptr)
+                if USE_GDC:
+                    tl.extra.cuda.gdc_wait()
+                tiled_a = tl.load(a_ptr)
+                if CAST_TYPE:
+                    tiled_a = tiled_a.to(b_dtype)
+                accumulator += tl.dot(tiled_a, tiled_b)
+            else:
+                # Partial block, need masking (only last iteration)
+                k_offsets = tl.arange(0, BLOCK_K)
+                mask = iter_k + k_offsets < K
+                tiled_b = tl.load(b_ptr, mask=mask[:, None], other=0.0)
+                if USE_GDC:
+                    tl.extra.cuda.gdc_wait()
+                tiled_a = tl.load(a_ptr, mask=mask[None, :], other=0.0)
+                if CAST_TYPE:
+                    tiled_a = tiled_a.to(b_dtype)
+                accumulator += tl.dot(tiled_a, tiled_b)
+
+        a_ptr += STEP_K * ak_stride
+        b_ptr += STEP_K * bk_stride
+
     return accumulator
 
 
@@ -178,6 +209,7 @@ def do_expand_kernel(
         CAST_TYPE,
         cur_lora_ptr.dtype.element_ty,
         USE_GDC,
+        base_k=0,
     )
 
     tiled_c = accumulator.to(cur_lora_ptr.dtype.element_ty)
@@ -284,6 +316,7 @@ def do_shrink_kernel(
         False,
         cur_lora_ptr.dtype.element_ty,
         False,  # USE_GDC is always False in shrink kernel
+        base_k=pid_sk * BLOCK_K,
     )
     # GDC launch dependents hints the runtime system to launch dependent kernels.
     if USE_GDC:

From f080a83511511a9c0a222451a752a1623aec095d Mon Sep 17 00:00:00 2001
From: vllmellm <vllm.ellm@embeddedllm.com>
Date: Mon, 10 Nov 2025 17:20:53 +0100
Subject: [PATCH 276/976] [RFC][ROCm][AITER] Keep all AITER kernels in
 `_aiter_ops` class like `_custom_ops` and `_ipex_ops` (#24490)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Signed-off-by: vllmellm <vllm.ellm@embeddedllm.com>
Co-authored-by: Luka Govedič <ProExpertProg@users.noreply.github.com>
---
 docs/design/moe_kernel_features.md            |   2 +-
 tests/kernels/moe/test_moe.py                 |  11 +-
 .../model_executor/test_enabled_custom_ops.py |  41 +-
 vllm/_aiter_ops.py                            | 941 ++++++++++++++++++
 vllm/attention/ops/rocm_aiter_mla.py          | 105 --
 vllm/envs.py                                  |   8 +-
 .../layers/fused_moe/fused_moe.py             |  15 +-
 vllm/model_executor/layers/fused_moe/layer.py |  83 +-
 .../layers/fused_moe/rocm_aiter_fused_moe.py  | 329 +-----
 vllm/model_executor/layers/layernorm.py       |  90 +-
 .../compressed_tensors_moe.py                 |  12 +-
 .../schemes/compressed_tensors_w8a8_fp8.py    |   4 +-
 .../model_executor/layers/quantization/fp8.py |  16 +-
 .../quantization/kernels/scaled_mm/aiter.py   |  48 +-
 .../layers/quantization/quark/quark_moe.py    |  45 +-
 .../quark/schemes/quark_ocp_mx.py             |   7 +
 .../layers/quantization/utils/fp8_utils.py    | 124 +--
 .../layers/quantization/utils/w8a8_utils.py   |   2 +-
 .../layers/rotary_embedding/base.py           |  13 +-
 .../rotary_embedding/deepseek_scaling_rope.py |   9 +
 .../rotary_embedding/rocm_aiter_rope_ops.py   |  94 --
 vllm/model_executor/models/deepseek_v2.py     |  27 +-
 vllm/platforms/rocm.py                        |  27 +-
 vllm/v1/attention/backends/mla/common.py      |  55 +-
 .../attention/backends/mla/rocm_aiter_mla.py  |   9 +-
 25 files changed, 1193 insertions(+), 924 deletions(-)
 create mode 100644 vllm/_aiter_ops.py
 delete mode 100644 vllm/attention/ops/rocm_aiter_mla.py
 delete mode 100644 vllm/model_executor/layers/rotary_embedding/rocm_aiter_rope_ops.py

diff --git a/docs/design/moe_kernel_features.md b/docs/design/moe_kernel_features.md
index 633e23eea33e2..ee224e6922fbd 100644
--- a/docs/design/moe_kernel_features.md
+++ b/docs/design/moe_kernel_features.md
@@ -97,7 +97,7 @@ To be used with a particular `FusedMoEPrepareAndFinalize` sub-class, MoE kernels
 | trtllm                       | standard              | mxfp4,</br>nvfp4 | G(16),G(32)   | <sup>5</sup>                                                | N                     | Y       | [`TrtLlmGenExperts`][vllm.model_executor.layers.fused_moe.trtllm_moe.TrtLlmGenExperts]                                                                                                                                                                                                                      |
 | pallas                       | standard              | N/A              | N/A           | silu                                                        | N                     | N       | [`fused_moe`][vllm.model_executor.layers.fused_moe.moe_pallas.fused_moe]                                                                                                                                                                                                                                    |
 | iterative                    | standard              | N/A              | N/A           | silu                                                        | N                     | N       | [`fused_moe`][vllm.model_executor.layers.fused_moe.moe_torch_iterative.fused_moe]                                                                                                                                                                                                                           |
-| rocm aiter moe               | standard              | fp8              | G(128),A,T    | silu, gelu                                                  | Y                     | N       | [`rocm_aiter_fused_experts`][vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe.rocm_aiter_fused_moe_impl]                                                                                                                                                                                           |
+| rocm aiter moe               | standard              | fp8              | G(128),A,T    | silu, gelu                                                  | Y                     | N       | [`rocm_aiter_fused_experts`][vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe.rocm_aiter_fused_experts]                                                                                                                                                                                           |
 | cpu_fused_moe                | standard              | N/A              | N/A           | silu                                                        | N                     | N       | [`CPUFusedMOE`][vllm.model_executor.layers.fused_moe.cpu_fused_moe.CPUFusedMOE]                                                                                                                                                                                                                             |
 | naive batched<sup>4</sup>    | batched               | int8,</br>fp8    | G,A,T         | silu, gelu                                                  | <sup>6</sup>          | Y       | [`NaiveBatchedExperts`][vllm.model_executor.layers.fused_moe.fused_batched_moe.NaiveBatchedExperts]                                                                                                                                                                                                         |
 
diff --git a/tests/kernels/moe/test_moe.py b/tests/kernels/moe/test_moe.py
index 014df1fa111f2..c27cf2468ede5 100644
--- a/tests/kernels/moe/test_moe.py
+++ b/tests/kernels/moe/test_moe.py
@@ -6,6 +6,8 @@ Run `pytest tests/kernels/test_moe.py`.
 """
 
 import functools
+import importlib
+import sys
 from collections.abc import Callable
 from dataclasses import dataclass
 from typing import Any
@@ -20,6 +22,7 @@ from transformers.models.mixtral.modeling_mixtral import MixtralSparseMoeBlock
 import vllm.model_executor.layers.fused_moe  # noqa
 from tests.kernels.moe.utils import fused_moe
 from tests.kernels.utils import opcheck, stack_and_dev, torch_moe
+from vllm._aiter_ops import rocm_aiter_ops
 from vllm.config import VllmConfig, set_current_vllm_config
 from vllm.distributed.parallel_state import init_distributed_environment
 from vllm.forward_context import set_forward_context
@@ -412,14 +415,12 @@ def test_mixtral_moe(
     huggingface."""
 
     # clear the cache before every test
-    from vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe import (
-        is_rocm_aiter_moe_enabled,
-    )
+    # Force reload aiter_ops to pick up the new environment variables.
+    if "rocm_aiter_ops" in sys.modules:
+        importlib.reload(rocm_aiter_ops)
 
-    is_rocm_aiter_moe_enabled.cache_clear()
     if use_rocm_aiter:
         monkeypatch.setenv("VLLM_ROCM_USE_AITER", "1")
-
         if dtype == torch.float32:
             pytest.skip("AITER ROCm test skip for float32")
 
diff --git a/tests/model_executor/test_enabled_custom_ops.py b/tests/model_executor/test_enabled_custom_ops.py
index 41419553aa83f..9121284de85b7 100644
--- a/tests/model_executor/test_enabled_custom_ops.py
+++ b/tests/model_executor/test_enabled_custom_ops.py
@@ -4,6 +4,7 @@
 import pytest
 import torch
 
+from vllm._aiter_ops import rocm_aiter_ops
 from vllm.config import CompilationConfig, VllmConfig, set_current_vllm_config
 from vllm.model_executor.custom_op import CustomOp
 from vllm.model_executor.layers.activation import (
@@ -15,9 +16,6 @@ from vllm.model_executor.layers.fused_moe.fused_moe import (
     dispatch_topk_func,
     vllm_topk_softmax,
 )
-from vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe import (
-    is_rocm_aiter_moe_enabled,
-)
 from vllm.model_executor.layers.layernorm import (
     RMSNorm,
     dispatch_rocm_rmsnorm_func,
@@ -126,50 +124,39 @@ def test_enabled_ops_invalid(env: str):
             RMSNorm(1024).enabled()
 
 
-@pytest.mark.parametrize("use_rocm_aiter", ["0", "1"])
-def test_topk_dispatch(use_rocm_aiter: str, monkeypatch):
-    monkeypatch.setenv("VLLM_ROCM_USE_AITER", use_rocm_aiter)
-    topk_func = dispatch_topk_func()
-    is_rocm_aiter_moe_enabled.cache_clear()
-    if current_platform.is_rocm() and int(use_rocm_aiter):
-        from vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe import (
-            rocm_aiter_topk_softmax,
-        )
+@pytest.mark.parametrize(
+    "use_rocm_aiter", [True, False] if current_platform.is_rocm() else [False]
+)
+def test_topk_dispatch(use_rocm_aiter: bool):
+    topk_func = dispatch_topk_func(use_rocm_aiter)
 
-        assert topk_func == rocm_aiter_topk_softmax
+    if current_platform.is_rocm() and use_rocm_aiter:
+        assert topk_func == rocm_aiter_ops.topk_softmax
     else:
         assert topk_func == vllm_topk_softmax
 
 
 @pytest.mark.parametrize("add_residual", [True, False])
 @pytest.mark.parametrize("dtype", [torch.float32, torch.float16, torch.bfloat16])
-@pytest.mark.parametrize("use_rocm_aiter", ["0", "1"])
-@pytest.mark.parametrize("use_rocm_aiter_norm", ["0", "1"])
+@pytest.mark.parametrize("use_rocm_aiter", [True, False])
 @pytest.mark.skipif(
     not current_platform.is_rocm(), reason="AITER is a feature exclusive for ROCm"
 )
 def test_rms_norm_dispatch(
-    add_residual: bool,
-    dtype: torch.dtype,
-    use_rocm_aiter: str,
-    use_rocm_aiter_norm: str,
-    monkeypatch,
+    add_residual: bool, dtype: torch.dtype, use_rocm_aiter: bool
 ):
-    monkeypatch.setenv("VLLM_ROCM_USE_AITER", use_rocm_aiter)
-    monkeypatch.setenv("VLLM_ROCM_USE_AITER_RMSNORM", use_rocm_aiter_norm)
-    rms_norm_func = dispatch_rocm_rmsnorm_func(add_residual, dtype)
+    rms_norm_func = dispatch_rocm_rmsnorm_func(add_residual, dtype, use_rocm_aiter)
 
     should_use_rocm_aiter = (
         current_platform.is_rocm()
-        and int(use_rocm_aiter)
-        and int(use_rocm_aiter_norm)
+        and use_rocm_aiter
         and dtype in RMS_NORM_SUPPORTED_DTYPES
     )
 
     if add_residual and should_use_rocm_aiter:
-        assert rms_norm_func == torch.ops.vllm.rocm_aiter_rmsnorm2d_fwd_with_add
+        assert rms_norm_func == rocm_aiter_ops.rms_norm2d_with_add
     elif should_use_rocm_aiter:
-        assert rms_norm_func == torch.ops.vllm.rocm_aiter_rms_norm
+        assert rms_norm_func == rocm_aiter_ops.rms_norm
     elif add_residual:
         assert rms_norm_func == fused_add_rms_norm
     else:
diff --git a/vllm/_aiter_ops.py b/vllm/_aiter_ops.py
new file mode 100644
index 0000000000000..9a4b5f3399bed
--- /dev/null
+++ b/vllm/_aiter_ops.py
@@ -0,0 +1,941 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import functools
+from collections.abc import Callable
+
+import torch
+
+import vllm.envs as envs
+from vllm.platforms import current_platform
+from vllm.utils.torch_utils import direct_register_custom_op, is_torch_equal_or_newer
+
+
+def is_aiter_found() -> bool:
+    from importlib.util import find_spec
+
+    return find_spec("aiter") is not None
+
+
+# `find_spec` is not torch.compile compatible.
+# In cases where aiter availability might have
+# been checked in forward passes that are torch compiled.
+# we keep this global outside to not cause torch compile breaks.
+IS_AITER_FOUND = is_aiter_found()
+
+
+def if_aiter_supported(func: Callable) -> Callable:
+    """Decorator that only executes the function if
+    ROCm AITER package is supported on gfx9 archs.
+    """
+
+    @functools.wraps(func)
+    def wrapper(*args, **kwargs):
+        # checks the platform, device arch and aiter library existance.
+
+        from vllm.platforms.rocm import on_gfx9
+
+        if current_platform.is_rocm() and on_gfx9() and IS_AITER_FOUND:
+            return func(*args, **kwargs)
+        else:
+            # Return None or do nothing if not supported
+            return None
+
+    return wrapper
+
+
+def _rocm_aiter_fused_moe_impl(
+    hidden_states: torch.Tensor,
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    topk_weight: torch.Tensor,
+    topk_ids: torch.Tensor,
+    expert_mask: torch.Tensor | None = None,
+    activation_method: int = 0,
+    quant_method: int = 0,
+    doweight_stage1: bool = False,
+    w1_scale: torch.Tensor | None = None,
+    w2_scale: torch.Tensor | None = None,
+    a1_scale: torch.Tensor | None = None,
+    a2_scale: torch.Tensor | None = None,
+) -> torch.Tensor:
+    from aiter import ActivationType, QuantType
+    from aiter.fused_moe import fused_moe
+
+    activation = ActivationType(activation_method)
+    quant_type = QuantType(quant_method)
+
+    return fused_moe(
+        hidden_states,
+        w1,
+        w2,
+        topk_weight,
+        topk_ids,
+        expert_mask,
+        activation,
+        quant_type,
+        doweight_stage1,
+        w1_scale,
+        w2_scale,
+        a1_scale,
+        a2_scale,
+    )
+
+
+def _rocm_aiter_fused_moe_fake(
+    hidden_states: torch.Tensor,
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    topk_weight: torch.Tensor,
+    topk_ids: torch.Tensor,
+    expert_mask: torch.Tensor | None = None,
+    activation_method: int = 0,
+    quant_method: int = 0,
+    doweight_stage1: bool = False,
+    w1_scale: torch.Tensor | None = None,
+    w2_scale: torch.Tensor | None = None,
+    a1_scale: torch.Tensor | None = None,
+    a2_scale: torch.Tensor | None = None,
+) -> torch.Tensor:
+    return torch.empty_like(hidden_states)
+
+
+def _rocm_aiter_asm_moe_tkw1_impl(
+    hidden_states: torch.Tensor,
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    topk_weights: torch.Tensor,
+    topk_ids: torch.Tensor,
+    fc1_scale: torch.Tensor | None = None,
+    fc2_scale: torch.Tensor | None = None,
+    fc1_smooth_scale: torch.Tensor | None = None,
+    fc2_smooth_scale: torch.Tensor | None = None,
+    a16: bool = False,
+    per_tensor_quant_scale: torch.Tensor | None = None,
+    expert_mask: torch.Tensor | None = None,
+    activation_method: int = 0,
+) -> torch.Tensor:
+    from aiter import ActivationType
+    from aiter.fused_moe_bf16_asm import asm_moe_tkw1
+
+    activation = ActivationType(activation_method)
+
+    return asm_moe_tkw1(
+        hidden_states,
+        w1,
+        w2,
+        topk_weights,
+        topk_ids,
+        fc1_scale=fc1_scale,
+        fc2_scale=fc2_scale,
+        fc1_smooth_scale=fc1_smooth_scale,
+        fc2_smooth_scale=fc2_smooth_scale,
+        a16=a16,
+        per_tensor_quant_scale=per_tensor_quant_scale,
+        expert_mask=expert_mask,
+        activation=activation,
+    )
+
+
+def _rocm_aiter_asm_moe_tkw1_fake(
+    hidden_states: torch.Tensor,
+    w1: torch.Tensor,
+    w2: torch.Tensor,
+    topk_weights: torch.Tensor,
+    topk_ids: torch.Tensor,
+    fc1_scale: torch.Tensor | None = None,
+    fc2_scale: torch.Tensor | None = None,
+    fc1_smooth_scale: torch.Tensor | None = None,
+    fc2_smooth_scale: torch.Tensor | None = None,
+    a16: bool = False,
+    per_tensor_quant_scale: torch.Tensor | None = None,
+    expert_mask: torch.Tensor | None = None,
+    activation_method: int = 0,
+) -> torch.Tensor:
+    return torch.empty_like(hidden_states)
+
+
+def _rocm_aiter_topk_softmax_impl(
+    topk_weights: torch.Tensor,
+    topk_indices: torch.Tensor,
+    token_expert_indices: torch.Tensor,
+    gating_output: torch.Tensor,
+    renormalize: bool,
+) -> None:
+    from aiter import topk_softmax
+
+    topk_softmax(
+        topk_weights, topk_indices, token_expert_indices, gating_output, renormalize
+    )
+
+
+def _rocm_aiter_topk_softmax_fake(
+    topk_weights: torch.Tensor,
+    topk_indices: torch.Tensor,
+    token_expert_indices: torch.Tensor,
+    gating_output: torch.Tensor,
+    renormalize: bool,
+) -> None:
+    pass
+
+
+def _rocm_aiter_biased_grouped_topk_impl(
+    gating_output: torch.Tensor,
+    correction_bias: torch.Tensor,
+    topk_weights: torch.Tensor,
+    topk_ids: torch.Tensor,
+    num_expert_group: int,
+    topk_group: int,
+    need_renorm: bool,
+    routed_scaling_factor: float = 1.0,  # mul to topk_weights
+) -> None:
+    from aiter import biased_grouped_topk
+
+    biased_grouped_topk(
+        gating_output,
+        correction_bias,
+        topk_weights,
+        topk_ids,
+        num_expert_group,
+        topk_group,
+        need_renorm,
+        routed_scaling_factor,
+    )
+
+
+def _rocm_aiter_biased_grouped_topk_fake(
+    gating_output: torch.Tensor,
+    correction_bias: torch.Tensor,
+    topk_weights: torch.Tensor,
+    topk_ids: torch.Tensor,
+    num_expert_group: int,
+    topk_group: int,
+    need_renorm: bool,
+    routed_scaling_factor: float = 1.0,  # mul to topk_weights
+) -> None:
+    pass
+
+
+def _rocm_aiter_grouped_topk_impl(
+    gating_output: torch.Tensor,
+    topk_weights: torch.Tensor,
+    topk_ids: torch.Tensor,
+    num_expert_group: int,
+    topk_group: int,
+    need_renorm: bool,
+    scoring_func: str = "softmax",
+    routed_scaling_factor: float = 1.0,  # mul to topk_weights
+) -> None:
+    is_softmax = scoring_func == "softmax"
+    from aiter import grouped_topk
+
+    grouped_topk(
+        gating_output,
+        topk_weights,
+        topk_ids,
+        num_expert_group,
+        topk_group,
+        need_renorm,
+        is_softmax,
+        routed_scaling_factor,
+    )
+
+
+def _rocm_aiter_grouped_topk_fake(
+    gating_output: torch.Tensor,
+    topk_weights: torch.Tensor,
+    topk_ids: torch.Tensor,
+    num_expert_group: int,
+    topk_group: int,
+    need_renorm: bool,
+    scoring_func: str = "softmax",
+    routed_scaling_factor: float = 1.0,  # mul to topk_weights
+) -> None:
+    pass
+
+
+def _rocm_aiter_mla_decode_fwd_impl(
+    q: torch.Tensor,
+    kv_buffer: torch.Tensor,
+    o: torch.Tensor,
+    qo_indptr: torch.Tensor,
+    max_seqlen_qo: int,
+    kv_indptr: torch.Tensor | None = None,
+    kv_indices: torch.Tensor | None = None,
+    kv_last_page_lens: torch.Tensor | None = None,
+    sm_scale: float = 1.0,
+    logit_cap: float = 0.0,
+) -> None:
+    from aiter.mla import mla_decode_fwd
+
+    mla_decode_fwd(
+        q,
+        kv_buffer.view(-1, 1, 1, q.shape[-1]),
+        o,
+        qo_indptr,
+        kv_indptr,
+        kv_indices,
+        kv_last_page_lens,
+        max_seqlen_qo,
+        sm_scale=sm_scale,
+        logit_cap=logit_cap,
+    )
+
+
+def _rocm_aiter_mla_decode_fwd_fake(
+    q: torch.Tensor,
+    kv_buffer: torch.Tensor,
+    o: torch.Tensor,
+    qo_indptr: torch.Tensor,
+    max_seqlen_qo: int,
+    kv_indptr: torch.Tensor | None = None,
+    kv_indices: torch.Tensor | None = None,
+    kv_last_page_lens: torch.Tensor | None = None,
+    sm_scale: float = 1.0,
+    logit_cap: float = 0.0,
+) -> None:
+    pass
+
+
+def _rocm_aiter_gemm_w8a8_impl(
+    A: torch.Tensor,
+    B: torch.Tensor,
+    As: torch.Tensor,
+    Bs: torch.Tensor,
+    bias: torch.Tensor | None = None,
+    output_dtype: torch.dtype = torch.float16,
+) -> torch.Tensor:
+    from aiter import gemm_a8w8_CK
+
+    # gemm_a8w8_CK(a, b, scale_a, scale_b, bias) expects
+    # a to be [M, K]
+    # b to be [N, K]
+    # CutlassScaledMMLinearKernel prepare weight `w_q` in [K, N] format
+    return gemm_a8w8_CK(A, B, As, Bs, bias, output_dtype)
+
+
+def _rocm_aiter_gemm_w8a8_fake(
+    A: torch.Tensor,
+    B: torch.Tensor,
+    As: torch.Tensor,
+    Bs: torch.Tensor,
+    bias: torch.Tensor | None = None,
+    output_dtype: torch.dtype = torch.float16,
+) -> torch.Tensor:
+    m = A.shape[0]
+    n = B.shape[0]
+    Y = torch.empty(m, n, dtype=output_dtype, device=A.device)
+    return Y
+
+
+def _rocm_aiter_gemm_w8a8_blockscale_impl(
+    A: torch.Tensor,
+    B: torch.Tensor,
+    As: torch.Tensor,
+    Bs: torch.Tensor,
+    output_dtype: torch.dtype = torch.float16,
+) -> torch.Tensor:
+    from aiter import gemm_a8w8_blockscale
+
+    return gemm_a8w8_blockscale(A, B, As, Bs, dtype=output_dtype)
+
+
+def _rocm_aiter_gemm_w8a8_blockscale_fake(
+    A: torch.Tensor,
+    B: torch.Tensor,
+    As: torch.Tensor,
+    Bs: torch.Tensor,
+    output_dtype: torch.dtype = torch.float16,
+) -> torch.Tensor:
+    m = A.shape[0]
+    n = B.shape[0]
+    Y = torch.empty(m, n, dtype=output_dtype, device=A.device)
+    return Y
+
+
+def _rocm_aiter_rms_norm_impl(
+    x: torch.Tensor, weight: torch.Tensor, variance_epsilon: float
+) -> torch.Tensor:
+    from aiter import rms_norm
+
+    if x.dim() > 2:
+        x_original_shape = x.shape
+        x = x.reshape(-1, x_original_shape[-1])
+        x = rms_norm(x, weight, variance_epsilon)
+        return x.reshape(x_original_shape)
+
+    return rms_norm(x, weight, variance_epsilon)
+
+
+def _rocm_aiter_rms_norm_fake(
+    x: torch.Tensor, weight: torch.Tensor, variance_epsilon: float
+) -> torch.Tensor:
+    return torch.empty_like(x)
+
+
+def _rocm_aiter_rmsnorm2d_fwd_with_add_impl(
+    x: torch.Tensor,
+    residual: torch.Tensor,
+    weight: torch.Tensor,
+    variance_epsilon: float,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    from aiter import rmsnorm2d_fwd_with_add
+
+    residual_out = torch.empty_like(residual)
+    output = torch.empty_like(x)
+    rmsnorm2d_fwd_with_add(
+        output,  # output
+        x,  # input
+        residual,  # residual input
+        residual_out,  # residual output
+        weight,
+        variance_epsilon,
+    )
+    return output, residual_out
+
+
+def _rocm_aiter_rmsnorm2d_fwd_with_add_fake(
+    x: torch.Tensor,
+    residual: torch.Tensor,
+    weight: torch.Tensor,
+    variance_epsilon: float,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    return torch.empty_like(x), torch.empty_like(residual)
+
+
+# Global flag to ensure ops are registered only once
+_OPS_REGISTERED = False
+
+
+class rocm_aiter_ops:
+    _AITER_ENABLED = envs.VLLM_ROCM_USE_AITER
+    _LINEAR_ENABLED = envs.VLLM_ROCM_USE_AITER_LINEAR
+    _RMSNORM_ENABLED = envs.VLLM_ROCM_USE_AITER_RMSNORM
+    _FMOE_ENABLED = envs.VLLM_ROCM_USE_AITER_MOE
+    _MLA_ENABLED = envs.VLLM_ROCM_USE_AITER_MLA
+    _PG_ATTN_ENABLED = envs.VLLM_ROCM_USE_AITER_PAGED_ATTN
+    _MHA_ENABLED = envs.VLLM_ROCM_USE_AITER_MHA
+    _TRITON_UNIFIED_ATTN_ENABLED = envs.VLLM_ROCM_USE_AITER_UNIFIED_ATTENTION
+    _FP8BMM_ENABLED = envs.VLLM_ROCM_USE_AITER_FP8BMM
+    _FP4_GEMM_DYNAMIC_QUANT_ASM = envs.VLLM_ROCM_USE_AITER_FP4_ASM_GEMM
+    _TRITON_ROTARY_EMBED = envs.VLLM_ROCM_USE_AITER_TRITON_ROPE
+    _MOE_SHARED_EXPERTS_ENABLED = envs.VLLM_ROCM_USE_AITER_FUSION_SHARED_EXPERTS
+
+    @classmethod
+    @if_aiter_supported
+    def is_enabled(cls) -> bool:
+        """Verifies device specs and availability of aiter main env variable."""
+        return cls._AITER_ENABLED
+
+    @classmethod
+    @if_aiter_supported
+    def is_linear_enabled(cls) -> bool:
+        """ "Verifies device specs and availability of env variable."""
+        return cls._AITER_ENABLED and cls._LINEAR_ENABLED
+
+    @classmethod
+    @if_aiter_supported
+    def is_linear_fp8_enaled(cls) -> bool:
+        """ "Verifies device specs and availability of env variable."""
+        return cls.is_linear_enabled() and current_platform.is_fp8_fnuz()
+
+    @classmethod
+    @if_aiter_supported
+    def is_rmsnorm_enabled(cls) -> bool:
+        """ "Verifies device specs and availability of env variable."""
+        return cls._AITER_ENABLED and cls._RMSNORM_ENABLED
+
+    @classmethod
+    @if_aiter_supported
+    def is_fused_moe_enabled(cls) -> bool:
+        """ "Verifies device specs and availability of env variable."""
+        return cls._AITER_ENABLED and cls._FMOE_ENABLED
+
+    @classmethod
+    @if_aiter_supported
+    def is_fusion_moe_shared_experts_enabled(cls) -> bool:
+        return cls.is_fused_moe_enabled() and cls._MOE_SHARED_EXPERTS_ENABLED
+
+    @classmethod
+    @if_aiter_supported
+    def is_mla_enabled(cls) -> bool:
+        """ "Verifies device specs and availability of env variable."""
+        return cls._AITER_ENABLED and cls._MLA_ENABLED
+
+    @classmethod
+    @if_aiter_supported
+    def is_mha_enabled(cls) -> bool:
+        """ "Verifies device specs and availability of env variable."""
+        return cls._AITER_ENABLED and cls._MHA_ENABLED
+
+    @classmethod
+    @if_aiter_supported
+    def is_pa_attn_enabled(cls) -> bool:
+        """ "Verifies device specs and availability of env variable."""
+        return cls._AITER_ENABLED and cls._PG_ATTN_ENABLED
+
+    @classmethod
+    @if_aiter_supported
+    def is_triton_unified_attn_enabled(cls) -> bool:
+        """ "Verifies device specs and availability of env variable."""
+        return cls._AITER_ENABLED and cls._TRITON_UNIFIED_ATTN_ENABLED
+
+    @classmethod
+    @if_aiter_supported
+    def is_fp8bmm_enabled(cls) -> bool:
+        return cls._AITER_ENABLED and cls._FP8BMM_ENABLED
+
+    @classmethod
+    @if_aiter_supported
+    def is_asm_fp4_gemm_dynamic_quant_enabled(cls) -> bool:
+        return cls._AITER_ENABLED and cls._FP4_GEMM_DYNAMIC_QUANT_ASM
+
+    @classmethod
+    @if_aiter_supported
+    def is_triton_rotary_embed_enabled(cls) -> bool:
+        return cls._AITER_ENABLED and cls._TRITON_ROTARY_EMBED
+
+    @staticmethod
+    @if_aiter_supported
+    def register_ops_once() -> None:
+        global _OPS_REGISTERED
+        if not _OPS_REGISTERED:
+            tags = (
+                tuple()
+                if is_torch_equal_or_newer("2.7.0")
+                else (torch.Tag.needs_fixed_stride_order,)
+            )
+
+            # register all the custom ops here
+            direct_register_custom_op(
+                op_name="rocm_aiter_asm_moe_tkw1",
+                op_func=_rocm_aiter_asm_moe_tkw1_impl,
+                mutates_args=[],
+                fake_impl=_rocm_aiter_asm_moe_tkw1_fake,
+                dispatch_key=current_platform.dispatch_key,
+            )
+
+            direct_register_custom_op(
+                op_name="rocm_aiter_fused_moe",
+                op_func=_rocm_aiter_fused_moe_impl,
+                mutates_args=[],
+                fake_impl=_rocm_aiter_fused_moe_fake,
+                dispatch_key=current_platform.dispatch_key,
+            )
+
+            direct_register_custom_op(
+                op_name="rocm_aiter_topk_softmax",
+                op_func=_rocm_aiter_topk_softmax_impl,
+                mutates_args=["topk_weights", "topk_indices", "token_expert_indices"],
+                fake_impl=_rocm_aiter_topk_softmax_fake,
+                dispatch_key=current_platform.dispatch_key,
+            )
+
+            direct_register_custom_op(
+                op_name="rocm_aiter_biased_grouped_topk",
+                op_func=_rocm_aiter_biased_grouped_topk_impl,
+                mutates_args=["topk_weights", "topk_ids"],
+                fake_impl=_rocm_aiter_biased_grouped_topk_fake,
+                dispatch_key=current_platform.dispatch_key,
+            )
+
+            direct_register_custom_op(
+                op_name="rocm_aiter_grouped_topk",
+                op_func=_rocm_aiter_grouped_topk_impl,
+                mutates_args=["topk_weights", "topk_ids"],
+                fake_impl=_rocm_aiter_grouped_topk_fake,
+                dispatch_key=current_platform.dispatch_key,
+            )
+
+            direct_register_custom_op(
+                op_name="rocm_aiter_mla_decode_fwd",
+                op_func=_rocm_aiter_mla_decode_fwd_impl,
+                mutates_args=["o"],
+                fake_impl=_rocm_aiter_mla_decode_fwd_fake,
+                tags=tags,
+            )
+
+            direct_register_custom_op(
+                op_name="rocm_aiter_gemm_w8a8",
+                op_func=_rocm_aiter_gemm_w8a8_impl,
+                mutates_args=[],
+                fake_impl=_rocm_aiter_gemm_w8a8_fake,
+                dispatch_key=current_platform.dispatch_key,
+            )
+
+            direct_register_custom_op(
+                op_name="rocm_aiter_gemm_w8a8_blockscale",
+                op_func=_rocm_aiter_gemm_w8a8_blockscale_impl,
+                mutates_args=[],
+                fake_impl=_rocm_aiter_gemm_w8a8_blockscale_fake,
+                dispatch_key=current_platform.dispatch_key,
+            )
+
+            direct_register_custom_op(
+                op_name="rocm_aiter_rms_norm",
+                op_func=_rocm_aiter_rms_norm_impl,
+                mutates_args=[],
+                fake_impl=_rocm_aiter_rms_norm_fake,
+                dispatch_key=current_platform.dispatch_key,
+            )
+
+            direct_register_custom_op(
+                op_name="rocm_aiter_rmsnorm2d_fwd_with_add",
+                op_func=_rocm_aiter_rmsnorm2d_fwd_with_add_impl,
+                mutates_args=[],
+                fake_impl=_rocm_aiter_rmsnorm2d_fwd_with_add_fake,
+                dispatch_key=current_platform.dispatch_key,
+            )
+
+            _OPS_REGISTERED = True
+
+    @staticmethod
+    def rms_norm2d_with_add(
+        x: torch.Tensor,
+        residual: torch.Tensor,
+        weight: torch.Tensor,
+        variance_epsilon: float,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        return torch.ops.vllm.rocm_aiter_rmsnorm2d_fwd_with_add(
+            x, residual, weight, variance_epsilon
+        )
+
+    @staticmethod
+    def rms_norm(
+        x: torch.Tensor, weight: torch.Tensor, variance_epsilon: float
+    ) -> torch.Tensor:
+        return torch.ops.vllm.rocm_aiter_rms_norm(x, weight, variance_epsilon)
+
+    @staticmethod
+    def gemm_w8a8(
+        A: torch.Tensor,
+        B: torch.Tensor,
+        As: torch.Tensor,
+        Bs: torch.Tensor,
+        bias: torch.Tensor | None = None,
+        output_dtype: torch.dtype = torch.float16,
+    ) -> torch.Tensor:
+        return torch.ops.vllm.rocm_aiter_gemm_w8a8(A, B, As, Bs, bias, output_dtype)
+
+    @staticmethod
+    def gemm_w8a8_blockscale(
+        A: torch.Tensor,
+        B: torch.Tensor,
+        As: torch.Tensor,
+        Bs: torch.Tensor,
+        block_size: list[int],
+        output_dtype: torch.dtype = torch.float16,
+    ) -> torch.Tensor:
+        return torch.ops.vllm.rocm_aiter_gemm_w8a8_blockscale(
+            A, B, As, Bs, output_dtype
+        )
+
+    @staticmethod
+    def fused_moe(
+        hidden_states: torch.Tensor,
+        w1: torch.Tensor,
+        w2: torch.Tensor,
+        topk_weight: torch.Tensor,
+        topk_ids: torch.Tensor,
+        expert_mask: torch.Tensor | None = None,
+        activation_method: int = 0,
+        quant_method: int = 0,
+        doweight_stage1: bool = False,
+        w1_scale: torch.Tensor | None = None,
+        w2_scale: torch.Tensor | None = None,
+        a1_scale: torch.Tensor | None = None,
+        a2_scale: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        return torch.ops.vllm.rocm_aiter_fused_moe(
+            hidden_states,
+            w1,
+            w2,
+            topk_weight,
+            topk_ids,
+            expert_mask,
+            activation_method,
+            quant_method,
+            doweight_stage1,
+            w1_scale,
+            w2_scale,
+            a1_scale,
+            a2_scale,
+        )
+
+    @staticmethod
+    def asm_moe_tkw1(
+        hidden_states: torch.Tensor,
+        w1: torch.Tensor,
+        w2: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        fc1_scale: torch.Tensor | None = None,
+        fc2_scale: torch.Tensor | None = None,
+        fc1_smooth_scale: torch.Tensor | None = None,
+        fc2_smooth_scale: torch.Tensor | None = None,
+        a16: bool = False,
+        per_tensor_quant_scale: torch.Tensor | None = None,
+        expert_mask: torch.Tensor | None = None,
+        activation_method: int = 0,
+    ) -> torch.Tensor:
+        return torch.ops.vllm.rocm_aiter_asm_moe_tkw1(
+            hidden_states,
+            w1,
+            w2,
+            topk_weights,
+            topk_ids,
+            fc1_scale,
+            fc2_scale,
+            fc1_smooth_scale,
+            fc2_smooth_scale,
+            a16,
+            per_tensor_quant_scale,
+            expert_mask,
+            activation_method,
+        )
+
+    @staticmethod
+    def topk_softmax(
+        topk_weights: torch.Tensor,
+        topk_indices: torch.Tensor,
+        token_expert_indices: torch.Tensor,
+        gating_output: torch.Tensor,
+        renormalize: bool,
+    ) -> tuple[torch.Tensor, ...]:
+        torch.ops.vllm.rocm_aiter_topk_softmax(
+            topk_weights, topk_indices, token_expert_indices, gating_output, renormalize
+        )
+        return topk_weights, topk_indices
+
+    @staticmethod
+    def biased_grouped_topk(
+        gating_output: torch.Tensor,
+        correction_bias: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        num_expert_group: int,
+        topk_group: int,
+        need_renorm: bool,
+        routed_scaling_factor: float = 1.0,
+    ) -> None:
+        torch.ops.vllm.rocm_aiter_biased_grouped_topk(
+            gating_output,
+            correction_bias,
+            topk_weights,
+            topk_ids,
+            num_expert_group,
+            topk_group,
+            need_renorm,
+            routed_scaling_factor,
+        )
+
+    @staticmethod
+    def grouped_topk(
+        gating_output: torch.Tensor,
+        topk_weights: torch.Tensor,
+        topk_ids: torch.Tensor,
+        num_expert_group: int,
+        topk_group: int,
+        need_renorm: bool,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+    ) -> None:
+        torch.ops.vllm.rocm_aiter_grouped_topk(
+            gating_output,
+            topk_weights,
+            topk_ids,
+            num_expert_group,
+            topk_group,
+            need_renorm,
+            scoring_func,
+            routed_scaling_factor,
+        )
+
+    @staticmethod
+    def mla_decode_fwd(
+        q: torch.Tensor,
+        kv_buffer: torch.Tensor,
+        o: torch.Tensor,
+        sm_scale: float,
+        qo_indptr: torch.Tensor,
+        max_seqlen_qo: int,
+        kv_indptr: torch.Tensor | None = None,
+        kv_indices: torch.Tensor | None = None,
+        kv_last_page_lens: torch.Tensor | None = None,
+        logit_cap: float = 0.0,
+    ):
+        torch.ops.vllm.rocm_aiter_mla_decode_fwd(
+            q,
+            kv_buffer.view(-1, 1, 1, q.shape[-1]),
+            o,
+            qo_indptr,
+            max_seqlen_qo,
+            kv_indptr,
+            kv_indices,
+            kv_last_page_lens,
+            sm_scale=sm_scale,
+            logit_cap=logit_cap,
+        )
+
+    @staticmethod
+    def triton_fp4_gemm_dynamic_qaunt(
+        x: torch.Tensor,
+        weight: torch.Tensor,
+        weight_scale: torch.Tensor,
+        out_dtype: torch.dtype | None = torch.bfloat16,
+        x_scales: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        from aiter.ops.triton.gemm_afp4wfp4 import gemm_afp4wfp4
+        from aiter.ops.triton.quant import dynamic_mxfp4_quant
+
+        if x_scales is None:
+            x_q, x_s = dynamic_mxfp4_quant(x)
+        else:
+            x_q = x
+            x_s = x_scales
+
+        y = torch.empty(
+            x_q.shape[0], weight.shape[0], device=x_q.device, dtype=out_dtype
+        )
+
+        gemm_afp4wfp4(x_q, weight, x_s, weight_scale.T, out_dtype, y)
+        return y
+
+    @staticmethod
+    def triton_rotary_embed(
+        positions: torch.Tensor,
+        query: torch.Tensor,
+        key: torch.Tensor,
+        cos_sin_cache: torch.Tensor,
+        head_size: int,
+        rotary_dim: int,
+        is_neox_style: bool,
+    ):
+        from aiter.ops.triton.rope import rope_cached_thd_positions_2c_fwd_inplace
+
+        num_tokens = positions.numel()
+        cos, sin = cos_sin_cache.chunk(2, dim=-1)
+        query_shape = query.shape
+        key_shape = key.shape
+        rotate_style = 0 if is_neox_style else 1
+
+        query = query.view(num_tokens, -1, head_size)
+        key = key.view(num_tokens, -1, head_size)
+        query_ = query[..., :rotary_dim]
+        key_ = key[..., :rotary_dim]
+        positions = positions.view(*query.shape[:1])
+        rope_cached_thd_positions_2c_fwd_inplace(
+            positions,
+            sin,
+            cos,
+            query_,
+            key_,
+            rotate_style,
+            reuse_freqs_front_part=True,
+            is_nope_first=False,
+        )
+        query = query.view(query_shape)
+        key = key.view(key_shape)
+
+    @staticmethod
+    def triton_fp8_bmm(
+        X: torch.Tensor,
+        WQ: torch.Tensor,
+        w_scale: torch.Tensor,
+        group_size: int = 128,
+        bias: torch.Tensor | None = None,
+        dtype: torch.dtype | None = torch.bfloat16,
+        splitK: int | None = None,
+        YQ: torch.Tensor | None = None,
+        transpose_bm: bool | None = False,
+        config: dict | None = None,
+    ) -> torch.Tensor:
+        # ruff: noqa: E501 # isort: skip
+        from aiter.ops.triton.batched_gemm_a8w8_a_per_token_group_prequant_w_per_batched_tensor_quant import (
+            batched_gemm_a8w8_a_per_token_group_prequant_w_per_batched_tensor_quant as aiter_triton_fp8_bmm,
+        )
+
+        return aiter_triton_fp8_bmm(
+            X,
+            WQ,
+            w_scale,
+            group_size=group_size,
+            bias=bias,
+            dtype=dtype,
+            splitK=splitK,
+            YQ=YQ,
+            transpose_bm=transpose_bm,
+            config=config,
+        )
+
+    @staticmethod
+    def triton_gemm_a8w8_blockscale(
+        A: torch.Tensor,
+        B: torch.Tensor,
+        As: torch.Tensor,
+        Bs: torch.Tensor,
+        block_size: list[int],
+        output_dtype: torch.dtype = torch.float16,
+    ) -> torch.Tensor:
+        from aiter.ops.triton.gemm_a8w8_blockscale import gemm_a8w8_blockscale
+
+        return gemm_a8w8_blockscale(A, B, As, Bs, dtype=output_dtype)
+
+    @staticmethod
+    def per_1x128_fp8_quant(
+        input_2d: torch.Tensor,
+    ) -> tuple[torch.Tensor, ...]:
+        """Only applies quantization method for fp8 data type only."""
+        from aiter import QuantType, dtypes, get_hip_quant
+
+        aiter_per1x128_quant = get_hip_quant(QuantType.per_1x128)
+        return aiter_per1x128_quant(input_2d.contiguous(), quant_dtype=dtypes.fp8)
+
+    @staticmethod
+    def is_triton_gemm_w8a8_tuned(n: int, k: int) -> bool:
+        return (n, k) in [
+            (1024, 8192),
+            (2112, 7168),
+            (3072, 1536),
+            (32768, 8192),
+            (4096, 7168),
+            (4608, 7168),
+            (512, 7168),
+            (7168, 2048),
+            (7168, 256),
+            (8192, 1024),
+            (8192, 32768),
+        ]
+
+    @staticmethod
+    def shuffle_weight(
+        self, tensor: torch.Tensor, layout: tuple[int, int] = (16, 16)
+    ) -> torch.Tensor:
+        from aiter.ops.shuffle import shuffle_weight
+
+        return shuffle_weight(tensor, layout=layout)
+
+    @staticmethod
+    def shuffle_weights(
+        *tensors: torch.Tensor, layout: tuple[int, int] = (16, 16)
+    ) -> tuple[torch.Tensor, ...]:
+        """
+        Applies shuffle_weight function from AITER to each
+        input tensor and returns them.
+
+        Rearranges (shuffles) the input tensor/s
+        into a specified block layout for optimized computation.
+
+        Args:
+            *tensors: Variable number of torch.Tensor objects.
+            layout: A pair of integers specifying the block sizes used to divide
+                the tensors during shuffling. Default is (16, 16).
+
+        Returns:
+        A Tuple of shuffled tensors.
+        """
+        from aiter.ops.shuffle import shuffle_weight
+
+        return tuple(shuffle_weight(tensor, layout=layout) for tensor in tensors)
+
+
+rocm_aiter_ops.register_ops_once()
diff --git a/vllm/attention/ops/rocm_aiter_mla.py b/vllm/attention/ops/rocm_aiter_mla.py
deleted file mode 100644
index 6308f63cc4e70..0000000000000
--- a/vllm/attention/ops/rocm_aiter_mla.py
+++ /dev/null
@@ -1,105 +0,0 @@
-# SPDX-License-Identifier: Apache-2.0
-# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
-
-
-import torch
-
-from vllm.platforms import current_platform
-from vllm.utils.torch_utils import direct_register_custom_op, is_torch_equal_or_newer
-
-
-def get_aiter_mla_metadata(
-    max_batch_size: int, block_size: int, max_block_per_batch: int, device: torch.device
-) -> tuple[torch.Tensor, ...]:
-    paged_kv_indices = torch.zeros(
-        max_batch_size * max_block_per_batch, dtype=torch.int32, device=device
-    )
-    paged_kv_indptr = torch.zeros(max_batch_size + 1, dtype=torch.int32, device=device)
-    paged_kv_last_page_lens = torch.full(
-        (max_batch_size,), block_size, dtype=torch.int32
-    )
-    qo_indptr = torch.zeros(max_batch_size + 1, dtype=torch.int, device=device)
-    return paged_kv_indices, paged_kv_indptr, paged_kv_last_page_lens, qo_indptr
-
-
-def aiter_mla_decode_fwd(
-    q: torch.Tensor,
-    kv_buffer: torch.Tensor,
-    o: torch.Tensor,
-    sm_scale: float,
-    qo_indptr: torch.Tensor,
-    max_seqlen_qo: int,
-    kv_indptr: torch.Tensor | None = None,
-    kv_indices: torch.Tensor | None = None,
-    kv_last_page_lens: torch.Tensor | None = None,
-    logit_cap: float = 0.0,
-):
-    torch.ops.vllm.rocm_aiter_mla_decode_fwd(
-        q,
-        kv_buffer.view(-1, 1, 1, q.shape[-1]),
-        o,
-        qo_indptr,
-        max_seqlen_qo,
-        kv_indptr,
-        kv_indices,
-        kv_last_page_lens,
-        sm_scale=sm_scale,
-        logit_cap=logit_cap,
-    )
-
-
-def mla_decode_fwd_impl(
-    q: torch.Tensor,
-    kv_buffer: torch.Tensor,
-    o: torch.Tensor,
-    qo_indptr: torch.Tensor,
-    max_seqlen_qo: int,
-    kv_indptr: torch.Tensor | None = None,
-    kv_indices: torch.Tensor | None = None,
-    kv_last_page_lens: torch.Tensor | None = None,
-    sm_scale: float = 1.0,
-    logit_cap: float = 0.0,
-) -> None:
-    from aiter.mla import mla_decode_fwd
-
-    mla_decode_fwd(
-        q,
-        kv_buffer.view(-1, 1, 1, q.shape[-1]),
-        o,
-        qo_indptr,
-        kv_indptr,
-        kv_indices,
-        kv_last_page_lens,
-        max_seqlen_qo,
-        sm_scale=sm_scale,
-        logit_cap=logit_cap,
-    )
-
-
-def mla_decode_fwd_fake(
-    q: torch.Tensor,
-    kv_buffer: torch.Tensor,
-    o: torch.Tensor,
-    qo_indptr: torch.Tensor,
-    max_seqlen_qo: int,
-    kv_indptr: torch.Tensor | None = None,
-    kv_indices: torch.Tensor | None = None,
-    kv_last_page_lens: torch.Tensor | None = None,
-    sm_scale: float = 1.0,
-    logit_cap: float = 0.0,
-) -> None:
-    pass
-
-
-if current_platform.is_rocm():
-    if is_torch_equal_or_newer("2.7.0"):
-        tags = ()
-    else:
-        tags = ((torch.Tag.needs_fixed_stride_order,),)
-    direct_register_custom_op(
-        op_name="rocm_aiter_mla_decode_fwd",
-        op_func=mla_decode_fwd_impl,
-        mutates_args=["o"],
-        fake_impl=mla_decode_fwd_fake,
-        tags=tags,
-    )
diff --git a/vllm/envs.py b/vllm/envs.py
index 078e5c38f0f40..30c62e90e9fb7 100755
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -109,7 +109,7 @@ if TYPE_CHECKING:
     VLLM_ROCM_USE_AITER_MLA: bool = True
     VLLM_ROCM_USE_AITER_MHA: bool = True
     VLLM_ROCM_USE_AITER_FP4_ASM_GEMM: bool = False
-    VLLM_ROCM_USE_TRITON_ROPE: bool = False
+    VLLM_ROCM_USE_AITER_TRITON_ROPE: bool = False
     VLLM_ROCM_USE_AITER_FP8BMM: bool = True
     VLLM_ROCM_USE_AITER_UNIFIED_ATTENTION: bool = False
     VLLM_ROCM_USE_AITER_FUSION_SHARED_EXPERTS: bool = True
@@ -926,8 +926,8 @@ environment_variables: dict[str, Callable[[], Any]] = {
     ),
     # Whether to use aiter rope.
     # By default is disabled.
-    "VLLM_ROCM_USE_TRITON_ROPE": lambda: (
-        os.getenv("VLLM_ROCM_USE_TRITON_ROPE", "False").lower() in ("true", "1")
+    "VLLM_ROCM_USE_AITER_TRITON_ROPE": lambda: (
+        os.getenv("VLLM_ROCM_USE_AITER_TRITON_ROPE", "False").lower() in ("true", "1")
     ),
     # Whether to use aiter triton fp8 bmm kernel
     # By default is enabled.
@@ -1589,7 +1589,7 @@ def compute_hash() -> str:
         "VLLM_ROCM_USE_AITER_MLA",
         "VLLM_ROCM_USE_AITER_MHA",
         "VLLM_ROCM_USE_AITER_FP4_ASM_GEMM",
-        "VLLM_ROCM_USE_TRITON_ROPE",
+        "VLLM_ROCM_USE_AITER_TRITON_ROPE",
         "VLLM_ROCM_USE_AITER_FP8BMM",
         "VLLM_ROCM_USE_AITER_UNIFIED_ATTENTION",
         "VLLM_ROCM_USE_AITER_TRITON_GEMM",
diff --git a/vllm/model_executor/layers/fused_moe/fused_moe.py b/vllm/model_executor/layers/fused_moe/fused_moe.py
index 7ad3ce1397b37..2e042d85fcfcf 100644
--- a/vllm/model_executor/layers/fused_moe/fused_moe.py
+++ b/vllm/model_executor/layers/fused_moe/fused_moe.py
@@ -14,6 +14,7 @@ import torch.nn.functional as F
 import vllm.envs as envs
 import vllm.model_executor.layers.fused_moe.modular_kernel as mk
 from vllm import _custom_ops as ops
+from vllm._aiter_ops import rocm_aiter_ops
 from vllm.logger import init_logger
 from vllm.model_executor.layers.batch_invariant import (
     vllm_is_batch_invariant,
@@ -55,8 +56,6 @@ from vllm.triton_utils import tl, triton
 from vllm.utils.deep_gemm import is_deep_gemm_e8m0_used
 from vllm.utils.torch_utils import direct_register_custom_op, is_torch_equal_or_newer
 
-from .rocm_aiter_fused_moe import is_rocm_aiter_moe_enabled
-
 logger = init_logger(__name__)
 
 
@@ -1089,11 +1088,11 @@ def vllm_topk_softmax(
     return topk_weights, topk_indices
 
 
-def dispatch_topk_func() -> Callable[..., tuple[torch.Tensor, ...]]:
-    if is_rocm_aiter_moe_enabled():
-        from .rocm_aiter_fused_moe import rocm_aiter_topk_softmax
-
-        return rocm_aiter_topk_softmax
+def dispatch_topk_func(
+    use_rocm_aiter: bool = False,
+) -> Callable[..., tuple[torch.Tensor, ...]]:
+    if use_rocm_aiter:
+        return rocm_aiter_ops.topk_softmax
     return vllm_topk_softmax
 
 
@@ -1121,7 +1120,7 @@ def fused_topk(
         M, topk, dtype=torch.int32, device=hidden_states.device
     )
 
-    topk_func = dispatch_topk_func()
+    topk_func = dispatch_topk_func(use_rocm_aiter=rocm_aiter_ops.is_fused_moe_enabled())
     topk_weights, topk_ids = topk_func(
         topk_weights, topk_ids, token_expert_indices, gating_output, renormalize
     )
diff --git a/vllm/model_executor/layers/fused_moe/layer.py b/vllm/model_executor/layers/fused_moe/layer.py
index e69ead074c50a..45b0f50a79973 100644
--- a/vllm/model_executor/layers/fused_moe/layer.py
+++ b/vllm/model_executor/layers/fused_moe/layer.py
@@ -13,6 +13,7 @@ import torch.nn.functional as F
 from torch.nn.parameter import UninitializedParameter
 
 import vllm.envs as envs
+from vllm._aiter_ops import rocm_aiter_ops
 from vllm.config import VllmConfig, get_current_vllm_config
 from vllm.config.parallel import ExpertPlacementStrategy
 from vllm.distributed import (
@@ -41,8 +42,6 @@ from vllm.model_executor.layers.fused_moe.modular_kernel import (
 )
 from vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe import (
     init_aiter_topK_meta_data,
-    is_rocm_aiter_fusion_shared_expert_enabled,
-    is_rocm_aiter_moe_enabled,
 )
 from vllm.model_executor.layers.fused_moe.routing_simulator import RoutingSimulator
 from vllm.model_executor.layers.quantization.base_config import (
@@ -92,13 +91,11 @@ else:
         return topk_ids
 
     eplb_map_to_physical_and_record = _eplb_map_to_physical_and_record
+from vllm.model_executor.layers.fused_moe.fused_moe import grouped_topk
+from vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe import (  # noqa: E501
+    rocm_aiter_grouped_topk,
+)
 
-if is_rocm_aiter_moe_enabled():
-    from vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe import (  # noqa: E501
-        rocm_aiter_grouped_topk as grouped_topk_aiter,
-    )
-else:
-    from vllm.model_executor.layers.fused_moe.fused_moe import grouped_topk
 if current_platform.is_tpu():
     from .moe_pallas import fused_moe as fused_moe_pallas
 else:
@@ -463,7 +460,8 @@ class UnquantizedFusedMoEMethod(FusedMoEMethodBase, CustomOp):
 
     def __init__(self, moe: FusedMoEConfig):
         super().__init__(moe)
-        self.rocm_aiter_moe_enabled = is_rocm_aiter_moe_enabled()
+
+        self.rocm_aiter_moe_enabled = rocm_aiter_ops.is_fused_moe_enabled()
         if self.rocm_aiter_moe_enabled:
             from .rocm_aiter_fused_moe import rocm_aiter_fused_experts
 
@@ -620,13 +618,9 @@ class UnquantizedFusedMoEMethod(FusedMoEMethodBase, CustomOp):
         # Padding the weight for better performance on ROCm
         layer.w13_weight.data = self._maybe_pad_weight(layer.w13_weight.data)
         layer.w2_weight.data = self._maybe_pad_weight(layer.w2_weight.data)
-        # Lazy import to avoid importing triton.
-        from vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe import (
-            shuffle_weights,
-        )
 
         if self.rocm_aiter_moe_enabled:
-            shuffled_w13, shuffled_w2 = shuffle_weights(
+            shuffled_w13, shuffled_w2 = rocm_aiter_ops.shuffle_weights(
                 layer.w13_weight.data, layer.w2_weight.data
             )
 
@@ -1002,6 +996,7 @@ def determine_expert_map(
     global_num_experts: int,
     expert_placement_strategy: ExpertPlacementStrategy = "linear",
     num_fused_shared_experts: int = 0,
+    return_expert_mask: bool = False,
 ) -> tuple[int, torch.Tensor | None, torch.Tensor | None]:
     """
     Calculates how many experts should be assigned to each rank for EP and
@@ -1064,7 +1059,7 @@ def determine_expert_map(
         )
 
     expert_mask = None
-    if is_rocm_aiter_moe_enabled():
+    if return_expert_mask:
         expert_mask = torch.ones(
             (global_num_experts + num_fused_shared_experts + 1,), dtype=torch.int32
         )
@@ -1292,14 +1287,18 @@ class FusedMoE(CustomOp):
         self.logical_replica_count: torch.Tensor | None = None
 
         # ROCm aiter shared experts fusion
+        self.rocm_aiter_fmoe_enabled = rocm_aiter_ops.is_fused_moe_enabled()
+        self.aiter_fmoe_shared_expert_enabled = (
+            rocm_aiter_ops.is_fusion_moe_shared_experts_enabled()
+        )
+
         self.num_fused_shared_experts = (
             n_shared_experts
-            if n_shared_experts is not None
-            and is_rocm_aiter_fusion_shared_expert_enabled()
+            if n_shared_experts is not None and self.aiter_fmoe_shared_expert_enabled
             else 0
         )
         if (
-            not is_rocm_aiter_fusion_shared_expert_enabled()
+            not self.aiter_fmoe_shared_expert_enabled
             and self.num_fused_shared_experts != 0
         ):
             raise ValueError(
@@ -1346,6 +1345,7 @@ class FusedMoE(CustomOp):
                 global_num_experts=self.global_num_experts,
                 expert_placement_strategy=expert_placement_strategy,
                 num_fused_shared_experts=self.num_fused_shared_experts,
+                return_expert_mask=self.rocm_aiter_fmoe_enabled,
             )
             self.local_num_experts = local_num_experts
             self.register_buffer("expert_map", expert_map)
@@ -1570,13 +1570,16 @@ class FusedMoE(CustomOp):
                 ep_rank=self.ep_rank,
                 global_num_experts=self.global_num_experts,
                 num_fused_shared_experts=self.num_fused_shared_experts,
+                return_expert_mask=self.rocm_aiter_fmoe_enabled,
             )
             self.local_num_experts = local_num_experts
             self.register_buffer("expert_map", expert_map)
             self.register_buffer("expert_mask", expert_mask)
-            self._init_aiter_shared_experts_topK_buffer(
-                vllm_config=get_current_vllm_config(), dp_size=get_dp_group().world_size
-            )
+            if self.aiter_fmoe_shared_expert_enabled:
+                self._init_aiter_shared_experts_topK_buffer(
+                    vllm_config=get_current_vllm_config(),
+                    dp_size=get_dp_group().world_size,
+                )
 
     def _load_per_tensor_weight_scale(
         self,
@@ -1753,20 +1756,19 @@ class FusedMoE(CustomOp):
     def _init_aiter_shared_experts_topK_buffer(
         self, vllm_config: VllmConfig, dp_size: int
     ):
-        if is_rocm_aiter_fusion_shared_expert_enabled():
-            if self.num_fused_shared_experts > 0:
-                init_aiter_topK_meta_data(
-                    n_routed_experts=self.global_num_experts,
-                    n_shared_experts=self.num_fused_shared_experts,
-                    top_k=self.top_k,
-                    tp_rank=self.ep_rank if self.use_ep else self.tp_rank,
-                    tp_size=self.ep_size if self.use_ep else self.tp_size,
-                    shared_experts_score=1.0,
-                    max_num_tokens=vllm_config.scheduler_config.max_num_batched_tokens
-                    * dp_size,
-                    is_EP=self.use_ep,
-                )
-            self.local_num_experts += self.num_fused_shared_experts
+        if self.num_fused_shared_experts > 0:
+            init_aiter_topK_meta_data(
+                n_routed_experts=self.global_num_experts,
+                n_shared_experts=self.num_fused_shared_experts,
+                top_k=self.top_k,
+                tp_rank=self.ep_rank if self.use_ep else self.tp_rank,
+                tp_size=self.ep_size if self.use_ep else self.tp_size,
+                shared_experts_score=1.0,
+                max_num_tokens=vllm_config.scheduler_config.max_num_batched_tokens
+                * dp_size,
+                is_EP=self.use_ep,
+            )
+        self.local_num_experts += self.num_fused_shared_experts
 
     @overload
     def weight_loader(
@@ -2208,15 +2210,16 @@ class FusedMoE(CustomOp):
         elif use_grouped_topk:
             assert topk_group is not None
             assert num_expert_group is not None
-            if is_rocm_aiter_moe_enabled():
-                if not is_rocm_aiter_fusion_shared_expert_enabled():
+            if rocm_aiter_ops.is_fused_moe_enabled():
+                if not rocm_aiter_ops.is_fusion_moe_shared_experts_enabled():
                     assert num_fused_shared_experts == 0
                 grouped_topk_impl = partial(
-                    grouped_topk_aiter,
+                    rocm_aiter_grouped_topk,
                     num_fused_shared_experts=num_fused_shared_experts,
                 )
             else:
                 grouped_topk_impl = grouped_topk
+
             topk_weights, topk_ids = grouped_topk_impl(
                 hidden_states=hidden_states,
                 gating_output=router_logits,
@@ -2448,7 +2451,7 @@ class FusedMoE(CustomOp):
                 use_grouped_topk=self.use_grouped_topk,
                 global_num_experts=self.global_num_experts,
                 expert_map=self.expert_map
-                if not is_rocm_aiter_moe_enabled()
+                if not self.rocm_aiter_fmoe_enabled
                 else self.expert_mask,
                 topk_group=self.topk_group,
                 num_expert_group=self.num_expert_group,
@@ -2612,7 +2615,7 @@ class FusedMoE(CustomOp):
                 use_grouped_topk=self.use_grouped_topk,
                 global_num_experts=self.global_num_experts,
                 expert_map=self.expert_map
-                if not is_rocm_aiter_moe_enabled()
+                if not self.rocm_aiter_fmoe_enabled
                 else self.expert_mask,
                 topk_group=self.topk_group,
                 num_expert_group=self.num_expert_group,
diff --git a/vllm/model_executor/layers/fused_moe/rocm_aiter_fused_moe.py b/vllm/model_executor/layers/fused_moe/rocm_aiter_fused_moe.py
index e18514ad43f6d..8f05828d74f5f 100644
--- a/vllm/model_executor/layers/fused_moe/rocm_aiter_fused_moe.py
+++ b/vllm/model_executor/layers/fused_moe/rocm_aiter_fused_moe.py
@@ -1,17 +1,15 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 from enum import IntEnum
-from functools import cache, lru_cache
+from functools import lru_cache
 
 import torch
 
-from vllm import envs
+from vllm._aiter_ops import rocm_aiter_ops
 from vllm.model_executor.layers.fused_moe.config import (
     FUSED_MOE_UNQUANTIZED_CONFIG,
     FusedMoEQuantConfig,
 )
-from vllm.platforms import current_platform
-from vllm.utils.torch_utils import direct_register_custom_op
 
 
 class QuantMethod(IntEnum):
@@ -37,27 +35,6 @@ class ActivationMethod(IntEnum):
     GELU = 1
 
 
-@cache
-def is_rocm_aiter_moe_enabled() -> bool:
-    return (
-        current_platform.is_rocm()
-        and envs.VLLM_ROCM_USE_AITER_MOE
-        and envs.VLLM_ROCM_USE_AITER
-    )
-
-
-@cache
-def use_mxfp4_aiter_moe() -> bool:
-    return current_platform.is_rocm() and envs.VLLM_ROCM_USE_AITER
-
-
-@cache
-def is_rocm_aiter_fusion_shared_expert_enabled() -> bool:
-    return (
-        envs.VLLM_ROCM_USE_AITER_FUSION_SHARED_EXPERTS and is_rocm_aiter_moe_enabled()
-    )
-
-
 aiter_topK_meta_data = None
 
 
@@ -114,250 +91,6 @@ def init_aiter_topK_meta_data(
     aiter_topK_meta_data = (total_topk_weights, total_topk_ids)
 
 
-def rocm_aiter_asm_moe_tkw1_impl(
-    hidden_states: torch.Tensor,
-    w1: torch.Tensor,
-    w2: torch.Tensor,
-    topk_weights: torch.Tensor,
-    topk_ids: torch.Tensor,
-    fc1_scale: torch.Tensor | None = None,
-    fc2_scale: torch.Tensor | None = None,
-    fc1_smooth_scale: torch.Tensor | None = None,
-    fc2_smooth_scale: torch.Tensor | None = None,
-    a16: bool = False,
-    per_tensor_quant_scale: torch.Tensor | None = None,
-    expert_mask: torch.Tensor | None = None,
-    activation_method: int = ActivationMethod.SILU.value,
-) -> torch.Tensor:
-    from aiter import ActivationType
-    from aiter.fused_moe_bf16_asm import asm_moe_tkw1
-
-    activation = ActivationType(activation_method)
-
-    return asm_moe_tkw1(
-        hidden_states,
-        w1,
-        w2,
-        topk_weights,
-        topk_ids,
-        fc1_scale=fc1_scale,
-        fc2_scale=fc2_scale,
-        fc1_smooth_scale=fc1_smooth_scale,
-        fc2_smooth_scale=fc2_smooth_scale,
-        a16=a16,
-        per_tensor_quant_scale=per_tensor_quant_scale,
-        expert_mask=expert_mask,
-        activation=activation,
-    )
-
-
-def rocm_aiter_asm_moe_tkw1_fake(
-    hidden_states: torch.Tensor,
-    w1: torch.Tensor,
-    w2: torch.Tensor,
-    topk_weights: torch.Tensor,
-    topk_ids: torch.Tensor,
-    fc1_scale: torch.Tensor | None = None,
-    fc2_scale: torch.Tensor | None = None,
-    fc1_smooth_scale: torch.Tensor | None = None,
-    fc2_smooth_scale: torch.Tensor | None = None,
-    a16: bool = False,
-    per_tensor_quant_scale: torch.Tensor | None = None,
-    expert_mask: torch.Tensor | None = None,
-    activation_method: int = ActivationMethod.SILU.value,
-) -> torch.Tensor:
-    return torch.empty_like(hidden_states)
-
-
-def rocm_aiter_topk_softmax_impl(
-    topk_weights: torch.Tensor,
-    topk_indices: torch.Tensor,
-    token_expert_indices: torch.Tensor,
-    gating_output: torch.Tensor,
-    renormalize: bool,
-) -> None:
-    from aiter import topk_softmax
-
-    topk_softmax(
-        topk_weights, topk_indices, token_expert_indices, gating_output, renormalize
-    )
-
-
-def rocm_aiter_topk_softmax_fake(
-    topk_weights: torch.Tensor,
-    topk_indices: torch.Tensor,
-    token_expert_indices: torch.Tensor,
-    gating_output: torch.Tensor,
-    renormalize: bool,
-) -> None:
-    pass
-
-
-def rocm_aiter_biased_grouped_topk_impl(
-    gating_output: torch.Tensor,
-    correction_bias: torch.Tensor,
-    topk_weights: torch.Tensor,
-    topk_ids: torch.Tensor,
-    num_expert_group: int,
-    topk_group: int,
-    need_renorm: bool,
-    routed_scaling_factor: float = 1.0,  # mul to topk_weights
-) -> None:
-    from aiter import biased_grouped_topk
-
-    biased_grouped_topk(
-        gating_output,
-        correction_bias,
-        topk_weights,
-        topk_ids,
-        num_expert_group,
-        topk_group,
-        need_renorm,
-        routed_scaling_factor,
-    )
-
-
-def rocm_aiter_biased_grouped_topk_fake(
-    gating_output: torch.Tensor,
-    correction_bias: torch.Tensor,
-    topk_weights: torch.Tensor,
-    topk_ids: torch.Tensor,
-    num_expert_group: int,
-    topk_group: int,
-    need_renorm: bool,
-    routed_scaling_factor: float = 1.0,  # mul to topk_weights
-) -> None:
-    pass
-
-
-def rocm_aiter_grouped_topk_impl(
-    gating_output: torch.Tensor,
-    topk_weights: torch.Tensor,
-    topk_ids: torch.Tensor,
-    num_expert_group: int,
-    topk_group: int,
-    need_renorm: bool,
-    scoring_func: str = "softmax",
-    routed_scaling_factor: float = 1.0,  # mul to topk_weights
-) -> None:
-    from aiter import grouped_topk
-
-    grouped_topk(
-        gating_output,
-        topk_weights,
-        topk_ids,
-        num_expert_group,
-        topk_group,
-        need_renorm,
-        scoring_func,
-        routed_scaling_factor,
-    )
-
-
-def rocm_aiter_grouped_topk_fake(
-    gating_output: torch.Tensor,
-    topk_weights: torch.Tensor,
-    topk_ids: torch.Tensor,
-    num_expert_group: int,
-    topk_group: int,
-    need_renorm: bool,
-    scoring_func: str = "softmax",
-    routed_scaling_factor: float = 1.0,  # mul to topk_weights
-) -> None:
-    pass
-
-
-def rocm_aiter_fused_moe_impl(
-    hidden_states: torch.Tensor,
-    w1: torch.Tensor,
-    w2: torch.Tensor,
-    topk_weight: torch.Tensor,
-    topk_ids: torch.Tensor,
-    expert_mask: torch.Tensor | None = None,
-    activation_method: int = ActivationMethod.SILU.value,
-    quant_method: int = QuantMethod.NO.value,
-    doweight_stage1: bool = False,
-    w1_scale: torch.Tensor | None = None,
-    w2_scale: torch.Tensor | None = None,
-    a1_scale: torch.Tensor | None = None,
-    a2_scale: torch.Tensor | None = None,
-) -> torch.Tensor:
-    from aiter import ActivationType, QuantType
-    from aiter.fused_moe import fused_moe
-
-    activation = ActivationType(activation_method)
-    quant_type = QuantType(quant_method)
-
-    return fused_moe(
-        hidden_states,
-        w1,
-        w2,
-        topk_weight,
-        topk_ids,
-        expert_mask,
-        activation,
-        quant_type,
-        doweight_stage1,
-        w1_scale,
-        w2_scale,
-        a1_scale,
-        a2_scale,
-    )
-
-
-def rocm_aiter_fused_moe_fake(
-    hidden_states: torch.Tensor,
-    w1: torch.Tensor,
-    w2: torch.Tensor,
-    topk_weight: torch.Tensor,
-    topk_ids: torch.Tensor,
-    expert_mask: torch.Tensor | None = None,
-    activation_method: int = ActivationMethod.SILU.value,
-    quant_method: int = QuantMethod.NO.value,
-    doweight_stage1: bool = False,
-    w1_scale: torch.Tensor | None = None,
-    w2_scale: torch.Tensor | None = None,
-    a1_scale: torch.Tensor | None = None,
-    a2_scale: torch.Tensor | None = None,
-) -> torch.Tensor:
-    return torch.empty_like(hidden_states)
-
-
-if current_platform.is_rocm():
-    direct_register_custom_op(
-        op_name="rocm_aiter_asm_moe_tkw1",
-        op_func=rocm_aiter_asm_moe_tkw1_impl,
-        fake_impl=rocm_aiter_asm_moe_tkw1_fake,
-    )
-
-    direct_register_custom_op(
-        op_name="rocm_aiter_fused_moe",
-        op_func=rocm_aiter_fused_moe_impl,
-        fake_impl=rocm_aiter_fused_moe_fake,
-    )
-
-    direct_register_custom_op(
-        op_name="rocm_aiter_topk_softmax",
-        op_func=rocm_aiter_topk_softmax_impl,
-        mutates_args=["topk_weights", "topk_indices", "token_expert_indices"],
-        fake_impl=rocm_aiter_topk_softmax_fake,
-    )
-
-    direct_register_custom_op(
-        op_name="rocm_aiter_biased_grouped_topk",
-        op_func=rocm_aiter_biased_grouped_topk_impl,
-        mutates_args=["topk_weights", "topk_ids"],
-        fake_impl=rocm_aiter_biased_grouped_topk_fake,
-    )
-
-    direct_register_custom_op(
-        op_name="rocm_aiter_grouped_topk",
-        op_func=rocm_aiter_grouped_topk_impl,
-        mutates_args=["topk_weights", "topk_ids"],
-        fake_impl=rocm_aiter_grouped_topk_fake,
-    )
-
-
 def rocm_aiter_grouped_topk(
     hidden_states: torch.Tensor,
     gating_output: torch.Tensor,
@@ -372,7 +105,10 @@ def rocm_aiter_grouped_topk(
 ) -> tuple[torch.Tensor, torch.Tensor]:
     token = hidden_states.shape[0]
     device = hidden_states.device
-    if is_rocm_aiter_fusion_shared_expert_enabled() and num_fused_shared_experts > 0:
+    if (
+        rocm_aiter_ops.is_fusion_moe_shared_experts_enabled()
+        and num_fused_shared_experts > 0
+    ):
         assert aiter_topK_meta_data is not None, (
             "AITER topK meta data is not initialized. "
             "Please ensure that init_aiter_topK_meta_data "
@@ -397,7 +133,7 @@ def rocm_aiter_grouped_topk(
         topk_weights = torch.empty((token, topk), dtype=torch.float32, device=device)
 
     if e_score_correction_bias is not None:
-        torch.ops.vllm.rocm_aiter_biased_grouped_topk(
+        rocm_aiter_ops.biased_grouped_topk(
             gating_output,
             e_score_correction_bias.to(gating_output.dtype),
             topk_weights,
@@ -409,7 +145,7 @@ def rocm_aiter_grouped_topk(
         )
     else:
         assert scoring_func == "softmax" or scoring_func == "sigmoid"
-        torch.ops.vllm.rocm_aiter_grouped_topk(
+        rocm_aiter_ops.grouped_topk(
             gating_output,
             topk_weights,
             topk_ids,
@@ -420,7 +156,10 @@ def rocm_aiter_grouped_topk(
             routed_scaling_factor=routed_scaling_factor,
         )
 
-    if is_rocm_aiter_fusion_shared_expert_enabled() and num_fused_shared_experts > 0:
+    if (
+        rocm_aiter_ops.is_fusion_moe_shared_experts_enabled()
+        and num_fused_shared_experts > 0
+    ):
         return total_topk_weights, total_topk_ids
     return topk_weights, topk_ids
 
@@ -464,7 +203,7 @@ def rocm_aiter_fused_experts(
             "Only support topk=1 when `apply_router_weight_on_input` is True"
         )
 
-        return torch.ops.vllm.rocm_aiter_asm_moe_tkw1(
+        return rocm_aiter_ops.asm_moe_tkw1(
             hidden_states,
             w1,
             w2,
@@ -482,7 +221,9 @@ def rocm_aiter_fused_experts(
 
     else:
         quant_method = QuantMethod.NO.value
-
+        # quark moe for mxfp4 w_dtype
+        if quant_config.use_mxfp4_w4a16:
+            quant_method = QuantMethod.BLOCK_1X32.value
         # w8a8 block-scaled
         if quant_config.block_shape is not None and quant_config.use_fp8_w8a8:
             assert not apply_router_weight_on_input, (
@@ -507,7 +248,7 @@ def rocm_aiter_fused_experts(
                 "Only support topk=1 when `apply_router_weight_on_input` is True"
             )
 
-        return torch.ops.vllm.rocm_aiter_fused_moe(
+        return rocm_aiter_ops.fused_moe(
             hidden_states,
             w1,
             w2,
@@ -522,39 +263,3 @@ def rocm_aiter_fused_experts(
             a2_scale=quant_config.a2_scale,
             doweight_stage1=apply_router_weight_on_input,
         )
-
-
-def rocm_aiter_topk_softmax(
-    topk_weights: torch.Tensor,
-    topk_indices: torch.Tensor,
-    token_expert_indices: torch.Tensor,
-    gating_output: torch.Tensor,
-    renormalize: bool,
-) -> tuple[torch.Tensor, ...]:
-    torch.ops.vllm.rocm_aiter_topk_softmax(
-        topk_weights, topk_indices, token_expert_indices, gating_output, renormalize
-    )
-    return topk_weights, topk_indices
-
-
-def shuffle_weights(
-    *tensors: torch.Tensor, layout: tuple[int, int] = (16, 16)
-) -> tuple[torch.Tensor, ...]:
-    """
-    Applies shuffle_weight function from AITER to each
-    input tensor and returns them.
-
-    Rearranges (shuffles) the input tensor/s
-    into a specified block layout for optimized computation.
-
-    Args:
-        *tensors: Variable number of torch.Tensor objects.
-        layout: A pair of integers specifying the block sizes used to divide
-            the tensors during shuffling. Default is (16, 16).
-
-    Returns:
-    A Tuple of shuffled tensors.
-    """
-    from aiter.ops.shuffle import shuffle_weight
-
-    return tuple(shuffle_weight(tensor, layout=layout) for tensor in tensors)
diff --git a/vllm/model_executor/layers/layernorm.py b/vllm/model_executor/layers/layernorm.py
index a883ac81f41e4..8cc374ac9155d 100644
--- a/vllm/model_executor/layers/layernorm.py
+++ b/vllm/model_executor/layers/layernorm.py
@@ -6,18 +6,13 @@ import torch
 import torch.nn as nn
 import torch.nn.functional as F
 
-import vllm.envs as envs
+from vllm._aiter_ops import rocm_aiter_ops
 from vllm.model_executor.custom_op import CustomOp
 from vllm.model_executor.layers.batch_invariant import (
     rms_norm_batch_invariant,
     vllm_is_batch_invariant,
 )
 from vllm.platforms import current_platform
-from vllm.utils.torch_utils import direct_register_custom_op
-
-
-def is_rocm_aiter_rmsnorm_enabled() -> bool:
-    return envs.VLLM_ROCM_USE_AITER_RMSNORM and envs.VLLM_ROCM_USE_AITER
 
 
 def rms_norm(
@@ -58,80 +53,34 @@ def fused_add_rms_norm(
     return x, residual
 
 
-def rocm_aiter_rms_norm_impl(
-    x: torch.Tensor, weight: torch.Tensor, variance_epsilon: float
+def poly_norm(
+    x: torch.Tensor, weight: torch.Tensor, bias: torch.Tensor, variance_epsilon: float
 ) -> torch.Tensor:
-    import aiter as rocm_aiter
+    from vllm import _custom_ops as ops
 
-    if x.dim() > 2:
-        x_original_shape = x.shape
-        x = x.reshape(-1, x_original_shape[-1])
-        x = rocm_aiter.rms_norm(x, weight, variance_epsilon)
-        return x.reshape(x_original_shape)
-
-    return rocm_aiter.rms_norm(x, weight, variance_epsilon)
-
-
-def rocm_aiter_rmsnorm2d_fwd_with_add_impl(
-    x: torch.Tensor,
-    residual: torch.Tensor,
-    weight: torch.Tensor,
-    variance_epsilon: float,
-) -> tuple[torch.Tensor, torch.Tensor]:
-    import aiter as rocm_aiter
-
-    residual_out = torch.empty_like(residual)
-    output = torch.empty_like(x)
-    rocm_aiter.rmsnorm2d_fwd_with_add(
-        output,  # output
-        x,  # input
-        residual,  # residual input
-        residual_out,  # residual output
+    out = torch.empty_like(x)
+    ops.poly_norm(
+        out,
+        x,
         weight,
+        bias,
         variance_epsilon,
     )
-    return output, residual_out
+    return out
 
 
-def rocm_aiter_rms_norm_fake(
-    x: torch.Tensor, weight: torch.Tensor, variance_epsilon: float
-) -> torch.Tensor:
-    return torch.empty_like(x)
-
-
-def rocm_aiter_rmsnorm2d_fwd_with_add_fake(
-    x: torch.Tensor,
-    residual: torch.Tensor,
-    weight: torch.Tensor,
-    variance_epsilon: float,
-) -> tuple[torch.Tensor, torch.Tensor]:
-    return torch.empty_like(x), torch.empty_like(residual)
-
-
-if current_platform.is_rocm():
-    direct_register_custom_op(
-        op_name="rocm_aiter_rms_norm",
-        op_func=rocm_aiter_rms_norm_impl,
-        fake_impl=rocm_aiter_rms_norm_fake,
-    )
-
-    direct_register_custom_op(
-        op_name="rocm_aiter_rmsnorm2d_fwd_with_add",
-        op_func=rocm_aiter_rmsnorm2d_fwd_with_add_impl,
-        fake_impl=rocm_aiter_rmsnorm2d_fwd_with_add_fake,
-    )
-
-
-def dispatch_rocm_rmsnorm_func(with_fused_add: bool, dtype: torch.dtype):
-    use_aiter = is_rocm_aiter_rmsnorm_enabled() and dtype in [
+def dispatch_rocm_rmsnorm_func(
+    with_fused_add: bool, dtype: torch.dtype, use_aiter: bool = False
+):
+    use_aiter = use_aiter and dtype in [
         torch.float16,
         torch.bfloat16,
     ]
 
     if use_aiter and with_fused_add:
-        return torch.ops.vllm.rocm_aiter_rmsnorm2d_fwd_with_add
+        return rocm_aiter_ops.rms_norm2d_with_add
     if use_aiter:
-        return torch.ops.vllm.rocm_aiter_rms_norm
+        return rocm_aiter_ops.rms_norm
 
     # fall back to CUDA implementation
     if with_fused_add:
@@ -169,11 +118,14 @@ class RMSNorm(CustomOp):
             self.weight = nn.Parameter(self.weight)
 
         if current_platform.is_rocm():
+            aiter_rmsnorm_enabled = rocm_aiter_ops.is_rmsnorm_enabled()
             self.rocm_norm_func = dispatch_rocm_rmsnorm_func(
-                with_fused_add=False, dtype=weight_dtype
+                with_fused_add=False,
+                dtype=weight_dtype,
+                use_aiter=aiter_rmsnorm_enabled,
             )
             self.rocm_norm_func_with_add = dispatch_rocm_rmsnorm_func(
-                with_fused_add=True, dtype=weight_dtype
+                with_fused_add=True, dtype=weight_dtype, use_aiter=aiter_rmsnorm_enabled
             )
 
     @staticmethod
diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
index d95d49eddfe3a..d32ae6674ee60 100644
--- a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
@@ -12,6 +12,7 @@ from compressed_tensors.quantization import ActivationOrdering, QuantizationStra
 import vllm.envs as envs
 import vllm.model_executor.layers.fused_moe.modular_kernel as mk
 from vllm import _custom_ops as ops
+from vllm._aiter_ops import rocm_aiter_ops
 from vllm.distributed import get_tensor_model_parallel_world_size
 from vllm.logger import init_logger
 from vllm.model_executor.layers.fused_moe import (
@@ -582,11 +583,8 @@ class CompressedTensorsW8A8Fp8MoEMethod(CompressedTensorsMoEMethod):
         # Disable marlin for rocm
         if current_platform.is_rocm():
             self.use_marlin = False
-        from vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe import (
-            is_rocm_aiter_moe_enabled,
-        )
 
-        self.rocm_aiter_moe_enabled = is_rocm_aiter_moe_enabled()
+        self.rocm_aiter_moe_enabled = rocm_aiter_ops.is_fused_moe_enabled()
 
         # cutlass path
         self.is_fp8_w8a8_sm100 = quant_config._is_fp8_w8a8_sm100(
@@ -829,12 +827,8 @@ class CompressedTensorsW8A8Fp8MoEMethod(CompressedTensorsMoEMethod):
 
         # Property to determine if AITER is used
         if self.rocm_aiter_moe_enabled:
-            from vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe import (  # noqa E501
-                shuffle_weights,
-            )
-
             # reshaping weights is required for aiter moe kernel.
-            shuffled_w13, shuffled_w2 = shuffle_weights(
+            shuffled_w13, shuffled_w2 = rocm_aiter_ops.shuffle_weights(
                 layer.w13_weight.data, layer.w2_weight.data
             )
 
diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w8a8_fp8.py b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w8a8_fp8.py
index ee431c9148b86..6da136cbc8f69 100644
--- a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w8a8_fp8.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w8a8_fp8.py
@@ -7,12 +7,12 @@ import torch
 from compressed_tensors.quantization import QuantizationArgs, QuantizationStrategy
 from torch.nn import Parameter
 
+from vllm._aiter_ops import rocm_aiter_ops
 from vllm.model_executor.layers.quantization.compressed_tensors.schemes import (
     CompressedTensorsScheme,
 )
 from vllm.model_executor.layers.quantization.utils.fp8_utils import (
     W8A8BlockFp8LinearOp,
-    check_aiter_fp8_linear_support,
     create_fp8_input_scale,
     create_fp8_scale_parameter,
     create_fp8_weight_parameter,
@@ -61,7 +61,7 @@ class CompressedTensorsW8A8Fp8(CompressedTensorsScheme):
             )
 
         self.cutlass_block_fp8_supported = cutlass_block_fp8_supported()
-        self.use_aiter_and_is_supported = check_aiter_fp8_linear_support()
+        self.use_aiter_and_is_supported = rocm_aiter_ops.is_linear_fp8_enaled()
 
         if self.weight_block_size is not None:
             assert not self.is_static_input_scheme
diff --git a/vllm/model_executor/layers/quantization/fp8.py b/vllm/model_executor/layers/quantization/fp8.py
index ce40645782e51..e4e1cbff712f5 100644
--- a/vllm/model_executor/layers/quantization/fp8.py
+++ b/vllm/model_executor/layers/quantization/fp8.py
@@ -12,6 +12,7 @@ from torch.nn.parameter import Parameter
 import vllm.envs as envs
 import vllm.model_executor.layers.fused_moe.modular_kernel as mk
 from vllm import _custom_ops as ops
+from vllm._aiter_ops import rocm_aiter_ops
 from vllm.distributed import get_tensor_model_parallel_world_size
 from vllm.logger import init_logger
 from vllm.model_executor.layers.batch_invariant import (
@@ -56,7 +57,6 @@ from vllm.model_executor.layers.quantization.utils.flashinfer_utils import (
 )
 from vllm.model_executor.layers.quantization.utils.fp8_utils import (
     W8A8BlockFp8LinearOp,
-    check_aiter_fp8_linear_support,
     create_fp8_input_scale,
     create_fp8_scale_parameter,
     create_fp8_weight_parameter,
@@ -369,7 +369,7 @@ class Fp8LinearMethod(LinearMethodBase):
         if vllm_is_batch_invariant():
             self.use_marlin = False
 
-        self.use_aiter_and_is_supported = check_aiter_fp8_linear_support()
+        self.use_aiter_and_is_supported = rocm_aiter_ops.is_linear_fp8_enaled()
         self.use_deep_gemm = is_deep_gemm_supported()
 
         self.weight_block_size = self.quant_config.weight_block_size
@@ -869,12 +869,8 @@ class Fp8MoEMethod(FusedMoEMethodBase):
 
     def process_weights_after_loading(self, layer: Module) -> None:
         # Lazy import to avoid importing triton too early.
-        from vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe import (
-            is_rocm_aiter_moe_enabled,
-            shuffle_weights,
-        )
 
-        self.rocm_aiter_moe_enabled = is_rocm_aiter_moe_enabled()
+        self.rocm_aiter_moe_enabled = rocm_aiter_ops.is_fused_moe_enabled()
 
         # TODO (rob): refactor block quant into separate class.
         if self.block_quant:
@@ -916,7 +912,7 @@ class Fp8MoEMethod(FusedMoEMethodBase):
             )
             if self.rocm_aiter_moe_enabled:
                 # reshaping weights is required for aiter moe kernel.
-                shuffled_w13, shuffled_w2 = shuffle_weights(
+                shuffled_w13, shuffled_w2 = rocm_aiter_ops.shuffle_weights(
                     layer.w13_weight.data, layer.w2_weight.data
                 )
 
@@ -962,7 +958,7 @@ class Fp8MoEMethod(FusedMoEMethodBase):
             layer.w2_weight = torch.nn.Parameter(w2_weight, requires_grad=False)
             if self.rocm_aiter_moe_enabled:
                 # reshaping weights is required for aiter moe kernel.
-                shuffled_w13, shuffled_w2 = shuffle_weights(
+                shuffled_w13, shuffled_w2 = rocm_aiter_ops.shuffle_weights(
                     layer.w13_weight, layer.w2_weight
                 )
 
@@ -1042,7 +1038,7 @@ class Fp8MoEMethod(FusedMoEMethodBase):
                     start += shard_size
 
             if self.rocm_aiter_moe_enabled:
-                shuffled_w13, shuffled_w2 = shuffle_weights(
+                shuffled_w13, shuffled_w2 = rocm_aiter_ops.shuffle_weights(
                     layer.w13_weight, layer.w2_weight
                 )
 
diff --git a/vllm/model_executor/layers/quantization/kernels/scaled_mm/aiter.py b/vllm/model_executor/layers/quantization/kernels/scaled_mm/aiter.py
index a19396a162bcb..f5cd91469b788 100644
--- a/vllm/model_executor/layers/quantization/kernels/scaled_mm/aiter.py
+++ b/vllm/model_executor/layers/quantization/kernels/scaled_mm/aiter.py
@@ -4,54 +4,14 @@
 
 import torch
 
-import vllm.envs as envs
 from vllm import _custom_ops as ops
+from vllm._aiter_ops import rocm_aiter_ops
 from vllm.platforms import current_platform
-from vllm.utils.torch_utils import direct_register_custom_op
 
 from .cutlass import CutlassScaledMMLinearKernel
 from .ScaledMMLinearKernel import ScaledMMLinearLayerConfig
 
 
-def rocm_aiter_gemm_w8a8_impl(
-    A: torch.Tensor,
-    B: torch.Tensor,
-    As: torch.Tensor,
-    Bs: torch.Tensor,
-    bias: torch.Tensor | None = None,
-    output_dtype: torch.dtype = torch.float16,
-) -> torch.Tensor:
-    from aiter import gemm_a8w8_CK
-
-    # gemm_a8w8_CK(a, b, scale_a, scale_b, bias) expects
-    # a to be [M, K]
-    # b to be [N, K]
-    # CutlassScaledMMLinearKernel prepare weight `w_q` in [K, N] format
-    return gemm_a8w8_CK(A, B, As, Bs, bias, output_dtype)
-
-
-def rocm_aiter_gemm_w8a8_fake(
-    A: torch.Tensor,
-    B: torch.Tensor,
-    As: torch.Tensor,
-    Bs: torch.Tensor,
-    bias: torch.Tensor | None = None,
-    output_dtype: torch.dtype = torch.float16,
-) -> torch.Tensor:
-    m = A.shape[0]
-    n = B.shape[0]
-    Y = torch.empty(m, n, dtype=output_dtype, device=A.device)
-    return Y
-
-
-if current_platform.is_rocm():
-    direct_register_custom_op(
-        op_name="rocm_aiter_gemm_w8a8",
-        op_func=rocm_aiter_gemm_w8a8_impl,
-        fake_impl=rocm_aiter_gemm_w8a8_fake,
-    )
-
-
 class AiterScaledMMLinearKernel(CutlassScaledMMLinearKernel):
     @classmethod
     def get_min_capability(cls) -> int:
@@ -75,7 +35,7 @@ class AiterScaledMMLinearKernel(CutlassScaledMMLinearKernel):
                 + "installed on ROCm.",
             )
         # Check if rocm_aiter_gemm_w8a8_scaled_mm is enabled
-        if not (envs.VLLM_ROCM_USE_AITER_LINEAR and envs.VLLM_ROCM_USE_AITER):
+        if not (rocm_aiter_ops.is_linear_enabled()):
             return (
                 False,
                 "AiterScaledMMLinearKernel is disabled. "
@@ -157,6 +117,4 @@ class AiterScaledMMLinearKernel(CutlassScaledMMLinearKernel):
         # a to be [M, K]
         # b to be [N, K]
         # CutlassScaledMMLinearKernel prepare weight `w_q` in [K, N] format
-        return torch.ops.vllm.rocm_aiter_gemm_w8a8(
-            x_q, w_q.t(), x_s, w_s, bias, out_dtype
-        )
+        return rocm_aiter_ops.gemm_w8a8(x_q, w_q.t(), x_s, w_s, bias, out_dtype)
diff --git a/vllm/model_executor/layers/quantization/quark/quark_moe.py b/vllm/model_executor/layers/quantization/quark/quark_moe.py
index eca6b0cb1d8e5..30772c3665b06 100644
--- a/vllm/model_executor/layers/quantization/quark/quark_moe.py
+++ b/vllm/model_executor/layers/quantization/quark/quark_moe.py
@@ -8,6 +8,7 @@ import torch
 
 import vllm.envs as envs
 from vllm import _custom_ops as ops
+from vllm._aiter_ops import rocm_aiter_ops
 from vllm.logger import init_logger
 from vllm.model_executor.layers.fused_moe import (
     FusedMoE,
@@ -21,10 +22,6 @@ from vllm.model_executor.layers.fused_moe.config import (
     ocp_mx_moe_quant_config,
 )
 from vllm.model_executor.layers.fused_moe.fused_marlin_moe import fused_marlin_moe
-from vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe import (
-    is_rocm_aiter_moe_enabled,
-    use_mxfp4_aiter_moe,
-)
 from vllm.model_executor.layers.quantization.utils.marlin_utils_fp8 import (
     prepare_moe_fp8_layer_for_marlin,
 )
@@ -122,7 +119,7 @@ class QuarkW8A8Fp8MoEMethod(QuarkMoEMethod):
         if current_platform.is_rocm():
             self.use_marlin = False
 
-        self.rocm_aiter_moe_enabled = is_rocm_aiter_moe_enabled()
+        self.rocm_aiter_moe_enabled = rocm_aiter_ops.is_fused_moe_enabled()
 
     def create_weights(
         self,
@@ -309,12 +306,8 @@ class QuarkW8A8Fp8MoEMethod(QuarkMoEMethod):
                 )
         # Property to determine if AITER is used
         if self.rocm_aiter_moe_enabled:
-            from vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe import (  # noqa E501
-                shuffle_weights,
-            )
-
             # reshaping weights is required for aiter moe kernel.
-            shuffled_w13, shuffled_w2 = shuffle_weights(
+            shuffled_w13, shuffled_w2 = rocm_aiter_ops.shuffle_weights(
                 layer.w13_weight.data, layer.w2_weight.data
             )
 
@@ -470,13 +463,15 @@ class QuarkOCP_MX_MoEMethod(QuarkMoEMethod):
                 "not implemented. Please open an issue."
             )
 
+        self.use_rocm_aiter_moe = rocm_aiter_ops.is_fused_moe_enabled()
+
         self.emulate = not current_platform.supports_mx() or not (
-            use_mxfp4_aiter_moe() and self.ocp_mx_scheme == "w_mxfp4_a_mxfp4"
+            self.use_rocm_aiter_moe and self.ocp_mx_scheme == "w_mxfp4_a_mxfp4"
         )
         if self.emulate:
             logger.warning_once(
                 f"The current mode (supports_mx={current_platform.supports_mx()}, "
-                f"use_mxfp4_aiter_moe={use_mxfp4_aiter_moe()}, "
+                f"use_mxfp4_aiter_moe={self.use_rocm_aiter_moe}, "
                 f"ocp_mx_scheme={self.ocp_mx_scheme}) "
                 "does not support native MXFP4/MXFP6 "
                 "computation. Simulated weight dequantization and activation "
@@ -656,28 +651,18 @@ class QuarkOCP_MX_MoEMethod(QuarkMoEMethod):
         )
 
         if not self.emulate:
-            from aiter import ActivationType, QuantType
-            from aiter.fused_moe import fused_moe
-
-            aiter_acts = {
-                ActivationType.No.name.lower(): ActivationType.No,
-                ActivationType.Silu.name.lower(): ActivationType.Silu,
-                ActivationType.Gelu.name.lower(): ActivationType.Gelu,
-            }
-            assert activation in aiter_acts, (
-                f"Aiter CK fp4 MoE doesn't support activation {activation}"
+            from vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe import (
+                rocm_aiter_fused_experts,
             )
-            out = fused_moe(
+
+            out = rocm_aiter_fused_experts(
                 x,
                 layer.w13_weight,
                 layer.w2_weight,
-                topk_weights,
-                topk_ids,
-                quant_type=QuantType.per_1x32,
-                w1_scale=layer.w13_weight_scale,
-                w2_scale=layer.w2_weight_scale,
-                activation=aiter_acts[activation],
-                doweight_stage1=False,
+                topk_weights=topk_weights,
+                topk_ids=topk_ids,
+                activation=activation,
+                quant_config=self.moe_quant_config,
             )
         else:
             from vllm.model_executor.layers.fused_moe import fused_experts
diff --git a/vllm/model_executor/layers/quantization/quark/schemes/quark_ocp_mx.py b/vllm/model_executor/layers/quantization/quark/schemes/quark_ocp_mx.py
index c25c522dea55f..007e78e68d5cd 100644
--- a/vllm/model_executor/layers/quantization/quark/schemes/quark_ocp_mx.py
+++ b/vllm/model_executor/layers/quantization/quark/schemes/quark_ocp_mx.py
@@ -31,6 +31,13 @@ from .quark_scheme import QuarkScheme
 logger = init_logger(__name__)
 
 
+# TODO: move registration of custom op to aiter_ops.py
+# `from vllm._aiter_ops import rocm_aiter_ops`
+# use `rocm_aiter_ops.is_asm_fp4_gemm_dynamic_quant_enabled()`
+# for envs checks which does not require @cache anymore.
+# triton kernel is torch compile compatible.
+# does not require direct registeration.
+# use `rocm_aiter_ops.triton_fp4_gemm_dynamic_qaunt`.
 @cache
 def is_rocm_aiter_fp4_asm_gemm_enabled() -> bool:
     return (
diff --git a/vllm/model_executor/layers/quantization/utils/fp8_utils.py b/vllm/model_executor/layers/quantization/utils/fp8_utils.py
index 7fecda2166ef0..63726c07b7d18 100644
--- a/vllm/model_executor/layers/quantization/utils/fp8_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/fp8_utils.py
@@ -12,6 +12,7 @@ import torch
 
 import vllm.envs as envs
 from vllm import _custom_ops as ops
+from vllm._aiter_ops import rocm_aiter_ops
 from vllm.logger import init_logger
 from vllm.model_executor.layers.quantization.input_quant_fp8 import QuantFP8
 from vllm.model_executor.layers.quantization.utils.quant_utils import (
@@ -68,78 +69,6 @@ def cutlass_scaled_mm(
     )
 
 
-def rocm_aiter_gemm_w8a8_blockscale_impl(
-    input_2d: torch.Tensor,
-    weight: torch.Tensor,
-    input_scale: torch.Tensor,
-    weight_scale: torch.Tensor,
-    group_size: int,
-    output_dtype: torch.dtype = torch.float16,
-) -> torch.Tensor:
-    def is_aiter_triton_kernel_tuned(n, k):
-        return (n, k) in [
-            (1024, 8192),
-            (2112, 7168),
-            (3072, 1536),
-            (32768, 8192),
-            (4096, 7168),
-            (4608, 7168),
-            (512, 7168),
-            (7168, 2048),
-            (7168, 256),
-            (8192, 1024),
-            (8192, 32768),
-        ]
-
-    n, k = weight.shape
-    if input_scale is not None:
-        q_input = input_2d
-    elif not current_platform.is_fp8_fnuz() and is_aiter_triton_kernel_tuned(n, k):
-        from aiter.ops.triton.gemm_a8w8_blockscale import gemm_a8w8_blockscale
-
-        # MI350 case uses triton kernel
-        q_input, input_scale = per_token_group_quant_fp8(
-            input_2d,
-            group_size,
-            column_major_scales=False,
-            use_ue8m0=False,
-        )
-    else:
-        # MI300 uses tuned AITER ASM/C++ kernel
-        import aiter as rocm_aiter
-        from aiter import gemm_a8w8_blockscale, get_hip_quant
-
-        aiter_per1x128_quant = get_hip_quant(rocm_aiter.QuantType.per_1x128)
-        q_input, input_scale = aiter_per1x128_quant(
-            input_2d.contiguous(), quant_dtype=rocm_aiter.dtypes.fp8
-        )
-
-    return gemm_a8w8_blockscale(
-        q_input, weight, input_scale, weight_scale, dtype=output_dtype
-    )
-
-
-def rocm_aiter_gemm_w8a8_blockscale_fake(
-    input_2d: torch.Tensor,
-    weight: torch.Tensor,
-    input_scale: torch.Tensor,
-    weight_scale: torch.Tensor,
-    group_size: int,
-    output_dtype: torch.dtype = torch.float16,
-) -> torch.Tensor:
-    m = input_2d.shape[0]
-    n = weight.shape[0]
-    return torch.empty(m, n, dtype=output_dtype, device=input_2d.device)
-
-
-if current_platform.is_rocm():
-    direct_register_custom_op(
-        op_name="rocm_aiter_gemm_w8a8_blockscale",
-        op_func=rocm_aiter_gemm_w8a8_blockscale_impl,
-        fake_impl=rocm_aiter_gemm_w8a8_blockscale_fake,
-    )
-
-
 # TODO we should be able to change the type of block_size to GroupShape
 # after we resolve GroupShape compilation issue
 # https://github.com/vllm-project/vllm/issues/25270
@@ -385,14 +314,40 @@ class W8A8BlockFp8LinearOp:
         input_scale: torch.Tensor | None = None,
     ) -> torch.Tensor:
         assert self.act_quant_group_shape == GroupShape(1, 128)
-        return torch.ops.vllm.rocm_aiter_gemm_w8a8_blockscale(
-            input_2d,
-            weight,
-            input_scale,
-            weight_scale,
-            self.act_quant_group_shape.col,
-            input_2d.dtype,
-        )
+
+        n, k = weight.shape
+        if input_scale is not None:
+            q_input = input_2d
+
+        # MI350 case uses triton kernel
+        if (
+            not current_platform.is_fp8_fnuz()
+            and rocm_aiter_ops.is_triton_gemm_w8a8_tuned(n, k)
+        ):
+            q_input, input_scale = per_token_group_quant_fp8(
+                input_2d,
+                self.act_quant_group_shape.col,
+                column_major_scales=False,
+                use_ue8m0=False,
+            )
+            return rocm_aiter_ops.triton_gemm_a8w8_blockscale(
+                q_input,
+                weight,
+                input_scale,
+                weight_scale,
+                input_2d.dtype,
+            )
+
+        # MI300 uses tuned AITER ASM/C++ kernel
+        else:
+            q_input, input_scale = rocm_aiter_ops.per_1x128_fp8_quant(input_2d)
+            return rocm_aiter_ops.gemm_w8a8_blockscale(
+                q_input,
+                weight,
+                input_scale,
+                weight_scale,
+                input_2d.dtype,
+            )
 
     def _run_triton(
         self,
@@ -971,15 +926,6 @@ def requant_weight_ue8m0_inplace(
         s_old.copy_(s_requant)
 
 
-def check_aiter_fp8_linear_support() -> bool:
-    """AITER is only supported on ROCm for MI3XX"""
-    return (
-        current_platform.is_rocm()
-        and envs.VLLM_ROCM_USE_AITER
-        and envs.VLLM_ROCM_USE_AITER_LINEAR
-    )
-
-
 def _maybe_pad_fp8_weight(weight: torch.Tensor) -> torch.Tensor:
     """Pad the weight tensor. This is an optimization on ROCm platform, which
     can benefit from tensors located far enough from one another in memory"""
diff --git a/vllm/model_executor/layers/quantization/utils/w8a8_utils.py b/vllm/model_executor/layers/quantization/utils/w8a8_utils.py
index 380431e864355..7fe902807a74a 100644
--- a/vllm/model_executor/layers/quantization/utils/w8a8_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/w8a8_utils.py
@@ -472,7 +472,7 @@ class Fp8LinearOp:
         # Example:
         # When the number of token is 1, per-token scale is [[1]]
         # When per-tensor scale is [1] or ().
-        per_tensor_weights = (weight_scale.numel() == 1) and weight_scale.dim() < 2
+        per_tensor_weights = weight_scale.numel() == 1
         per_tensor_activations = (x_scale.numel() == 1) and x_scale.dim() < 2
 
         # TODO(luka) do this dispatch during init (after ScaledMM refactor)
diff --git a/vllm/model_executor/layers/rotary_embedding/base.py b/vllm/model_executor/layers/rotary_embedding/base.py
index 91276320df4d0..2ef54e75df44e 100644
--- a/vllm/model_executor/layers/rotary_embedding/base.py
+++ b/vllm/model_executor/layers/rotary_embedding/base.py
@@ -4,13 +4,10 @@
 
 import torch
 
+from vllm._aiter_ops import rocm_aiter_ops
 from vllm.model_executor.custom_op import CustomOp
 
 from .common import apply_rotary_emb_torch
-from .rocm_aiter_rope_ops import (
-    is_rocm_triton_rotary_embedding_enabled,
-    rocm_aiter_rotary_emb,
-)
 
 
 @CustomOp.register("rotary_embedding")
@@ -48,8 +45,8 @@ class RotaryEmbeddingBase(CustomOp):
             cache = cache.to(dtype)
         self.cos_sin_cache: torch.Tensor
         self.register_buffer("cos_sin_cache", cache, persistent=False)
-        self.is_rocm_triton_rotary_embedding_enabled = (
-            is_rocm_triton_rotary_embedding_enabled()
+        self.is_rocm_triton_rotary_embed_enabled = (
+            rocm_aiter_ops.is_triton_rotary_embed_enabled()
         )
 
     def _compute_inv_freq(self, base: float) -> torch.Tensor:
@@ -169,9 +166,9 @@ class RotaryEmbedding(RotaryEmbeddingBase):
         query: torch.Tensor,
         key: torch.Tensor | None = None,
     ) -> tuple[torch.Tensor, torch.Tensor | None]:
-        if self.is_rocm_triton_rotary_embedding_enabled:
+        if self.is_rocm_triton_rotary_embed_enabled:
             self._match_cos_sin_cache_dtype(query)
-            rocm_aiter_rotary_emb(
+            rocm_aiter_ops.triton_rotary_embed(
                 positions,
                 query,
                 key,
diff --git a/vllm/model_executor/layers/rotary_embedding/deepseek_scaling_rope.py b/vllm/model_executor/layers/rotary_embedding/deepseek_scaling_rope.py
index d9134f05fddff..e72834e473c15 100644
--- a/vllm/model_executor/layers/rotary_embedding/deepseek_scaling_rope.py
+++ b/vllm/model_executor/layers/rotary_embedding/deepseek_scaling_rope.py
@@ -146,6 +146,15 @@ class DeepseekScalingRotaryEmbedding(RotaryEmbeddingBase):
             key = key_rot
         return query, key
 
+    def forward_hip(
+        self,
+        positions: torch.Tensor,
+        query: torch.Tensor,
+        key: torch.Tensor | None = None,
+        offsets: torch.Tensor | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor | None]:
+        return self.forward_native(positions, query, key, offsets)
+
     def forward_cuda(
         self,
         positions: torch.Tensor,
diff --git a/vllm/model_executor/layers/rotary_embedding/rocm_aiter_rope_ops.py b/vllm/model_executor/layers/rotary_embedding/rocm_aiter_rope_ops.py
deleted file mode 100644
index a01d14f7b3a13..0000000000000
--- a/vllm/model_executor/layers/rotary_embedding/rocm_aiter_rope_ops.py
+++ /dev/null
@@ -1,94 +0,0 @@
-# SPDX-License-Identifier: Apache-2.0
-# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
-
-import torch
-
-import vllm.envs as envs
-from vllm.platforms import current_platform
-from vllm.utils.torch_utils import direct_register_custom_op
-
-
-def is_rocm_triton_rotary_embedding_enabled() -> bool:
-    return (
-        current_platform.is_rocm()
-        and envs.VLLM_ROCM_USE_AITER
-        and envs.VLLM_ROCM_USE_TRITON_ROPE
-    )
-
-
-def rocm_aiter_rotary_emb_with_key_forward_triton_impl(
-    positions: torch.Tensor,
-    sin: torch.Tensor,
-    cos: torch.Tensor,
-    query: torch.Tensor,
-    key: torch.Tensor,
-    rotate_style: int = 0,
-    is_nope_first: bool = False,
-) -> None:
-    import aiter.ops.triton.rope as ops
-
-    ops.rope_cached_thd_positions_2c_fwd_inplace(
-        query,
-        key,
-        cos,
-        sin,
-        positions,
-        rotate_style,
-        reuse_freqs_front_part=True,
-        nope_first=is_nope_first,
-    )
-
-
-def rocm_aiter_rotary_emb_with_key_forward_triton_fake(
-    positions: torch.Tensor,
-    sin: torch.Tensor,
-    cos: torch.Tensor,
-    query: torch.Tensor,
-    key: torch.Tensor,
-    rotate_style: int = 0,
-    is_nope_first: bool = False,
-) -> None:
-    pass
-
-
-if is_rocm_triton_rotary_embedding_enabled():
-    direct_register_custom_op(
-        op_name="rocm_aiter_rotary_emb_with_key_forward_triton",
-        op_func=rocm_aiter_rotary_emb_with_key_forward_triton_impl,
-        mutates_args=["key", "query"],
-        fake_impl=rocm_aiter_rotary_emb_with_key_forward_triton_fake,
-        dispatch_key=current_platform.dispatch_key,
-    )
-
-
-def rocm_aiter_rotary_emb(
-    positions: torch.Tensor,
-    query: torch.Tensor,
-    key: torch.Tensor,
-    cos_sin_cache: torch.Tensor,
-    head_size: int,
-    rotary_dim: int,
-    is_neox_style: bool,
-):
-    num_tokens = positions.numel()
-    cos, sin = cos_sin_cache.chunk(2, dim=-1)
-    query_shape = query.shape
-    key_shape = key.shape
-    rotate_style = 0 if is_neox_style else 1
-
-    query = query.view(num_tokens, -1, head_size)
-    key = key.view(num_tokens, -1, head_size)
-    query_ = query[..., :rotary_dim]
-    key_ = key[..., :rotary_dim]
-    positions = positions.view(*query.shape[:1])
-    torch.ops.vllm.rocm_aiter_rotary_emb_with_key_forward_triton(
-        positions,
-        sin,
-        cos,
-        query_,
-        key_,
-        rotate_style,
-        False,
-    )
-    query = query.view(query_shape)
-    key = key.view(key_shape)
diff --git a/vllm/model_executor/models/deepseek_v2.py b/vllm/model_executor/models/deepseek_v2.py
index 63eaf63cc3c48..38189e17f7d8b 100644
--- a/vllm/model_executor/models/deepseek_v2.py
+++ b/vllm/model_executor/models/deepseek_v2.py
@@ -33,6 +33,7 @@ import torch
 from torch import nn
 from transformers import DeepseekV2Config, DeepseekV3Config
 
+from vllm._aiter_ops import rocm_aiter_ops
 from vllm.attention import Attention
 from vllm.attention.backends.abstract import AttentionBackend
 from vllm.attention.ops.common import pack_seq_triton, unpack_seq_triton
@@ -50,10 +51,6 @@ from vllm.logger import init_logger
 from vllm.model_executor.layers.activation import SiluAndMul
 from vllm.model_executor.layers.attention_layer_base import AttentionLayerBase
 from vllm.model_executor.layers.fused_moe import SharedFusedMoE
-from vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe import (
-    is_rocm_aiter_fusion_shared_expert_enabled,
-    is_rocm_aiter_moe_enabled,
-)
 from vllm.model_executor.layers.layernorm import LayerNorm, RMSNorm
 from vllm.model_executor.layers.linear import (
     ColumnParallelLinear,
@@ -294,10 +291,8 @@ class DeepseekV2MoE(nn.Module):
             self.physical_expert_start + self.n_local_physical_experts
         )
 
-        if (
-            config.n_shared_experts is None
-            or is_rocm_aiter_fusion_shared_expert_enabled()
-        ):
+        self.is_rocm_aiter_moe_enabled = rocm_aiter_ops.is_fused_moe_enabled()
+        if config.n_shared_experts is None or self.is_rocm_aiter_moe_enabled:
             self.shared_experts = None
         else:
             intermediate_size = config.moe_intermediate_size * config.n_shared_experts
@@ -330,14 +325,14 @@ class DeepseekV2MoE(nn.Module):
             # we do scaling outside, set factor to 1.0 to avoid double mul
             # aiter applies routed_scaling_factor internally
             routed_scaling_factor=1.0
-            if not is_rocm_aiter_moe_enabled()
+            if not self.is_rocm_aiter_moe_enabled
             else self.routed_scaling_factor,
             e_score_correction_bias=self.gate.e_score_correction_bias,
             enable_eplb=self.enable_eplb,
             num_redundant_experts=self.n_redundant_experts,
             is_sequence_parallel=self.is_sequence_parallel,
             n_shared_experts=config.n_shared_experts
-            if is_rocm_aiter_fusion_shared_expert_enabled()
+            if rocm_aiter_ops.is_fusion_moe_shared_experts_enabled()
             else None,
         )
 
@@ -371,7 +366,7 @@ class DeepseekV2MoE(nn.Module):
         # Fix FP16 overflow
         # See DeepseekV2DecoderLayer for more details.
         if hidden_states.dtype != torch.float16:
-            if not is_rocm_aiter_moe_enabled():
+            if not self.is_rocm_aiter_moe_enabled:
                 final_hidden_states *= self.routed_scaling_factor
         elif self.shared_experts is not None:
             assert shared_output is not None
@@ -1428,6 +1423,9 @@ class DeepseekV2ForCausalLM(
         )
 
     def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        rocm_aiter_moe_shared_expert_enabled = (
+            rocm_aiter_ops.is_fusion_moe_shared_experts_enabled()
+        )
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
             ("gate_up_proj", "gate_proj", 0),
@@ -1456,7 +1454,7 @@ class DeepseekV2ForCausalLM(
             num_experts=self.config.n_routed_experts
             + (
                 self.config.n_shared_experts
-                if is_rocm_aiter_fusion_shared_expert_enabled()
+                if rocm_aiter_moe_shared_expert_enabled
                 else 0
             ),
             num_redundant_experts=self.num_redundant_experts,
@@ -1472,9 +1470,8 @@ class DeepseekV2ForCausalLM(
             if spec_layer is not None:
                 continue  # skip spec decode layers for main model
 
-            is_fuse_shared_experts_layer = (
-                is_rocm_aiter_fusion_shared_expert_enabled()
-                and ("mlp.shared_experts" in name)
+            is_fuse_shared_experts_layer = rocm_aiter_moe_shared_expert_enabled and (
+                "mlp.shared_experts" in name
             )
 
             for param_name, weight_name, shard_id in stacked_params_mapping:
diff --git a/vllm/platforms/rocm.py b/vllm/platforms/rocm.py
index 1abd6300036db..e6536a02a73dd 100644
--- a/vllm/platforms/rocm.py
+++ b/vllm/platforms/rocm.py
@@ -142,6 +142,8 @@ def use_rocm_custom_paged_attention(
     alibi_slopes: torch.Tensor | None = None,
     sinks: torch.Tensor | None = None,
 ) -> bool:
+    from vllm._aiter_ops import rocm_aiter_ops
+
     GPU_ARCH = torch.cuda.get_device_properties("cuda").gcnArchName
     ON_GFX9 = any(arch in GPU_ARCH for arch in ["gfx90a", "gfx942", "gfx950"])
     ON_GFX11_GFX12 = any(arch in GPU_ARCH for arch in ["gfx11", "gfx12"])
@@ -157,7 +159,7 @@ def use_rocm_custom_paged_attention(
             and (gqa_ratio >= 1 and gqa_ratio <= 16)
             and max_seq_len <= 128 * 1024
             and (envs.VLLM_ROCM_CUSTOM_PAGED_ATTN)
-            and not (envs.VLLM_ROCM_USE_AITER_PAGED_ATTN and envs.VLLM_ROCM_USE_AITER)
+            and not (rocm_aiter_ops.is_pa_attn_enabled())
             and sinks is None
         )
 
@@ -202,12 +204,15 @@ class RocmPlatform(Platform):
     ]
 
     @classmethod
-    def get_vit_attn_backend(cls, head_size: int, dtype: torch.dtype) -> "_Backend":
+    def get_vit_attn_backend(cls, head_size: int, dtype: torch.dtype) -> _Backend:
         from importlib.util import find_spec
 
+        from vllm._aiter_ops import rocm_aiter_ops
         from vllm.attention.backends.registry import _Backend
 
-        if envs.VLLM_ROCM_USE_AITER and envs.VLLM_ROCM_USE_AITER_MHA and on_gfx9():
+        if rocm_aiter_ops.is_mha_enabled():
+            # Note: AITER FA is only supported for Qwen-VL models.
+            # TODO: Add support for other VL models in their model class.
             return _Backend.ROCM_AITER_FA
 
         if on_gfx9() and find_spec("flash_attn") is not None:
@@ -228,19 +233,23 @@ class RocmPlatform(Platform):
         has_sink,
         use_sparse,
     ) -> str:
+        from vllm._aiter_ops import rocm_aiter_ops
         from vllm.attention.backends.registry import _Backend
 
         if use_sparse:
             raise NotImplementedError("Sparse Attention is not supported on ROCm.")
-        if use_mla:
-            from vllm.v1.attention.backends.mla.rocm_aiter_mla import (
-                is_aiter_mla_enabled,
+
+        if not use_v1:
+            raise RuntimeError(
+                "V0 attention backends have been removed. Set VLLM_USE_V1=1 "
+                "to select a supported backend."
             )
 
+        if use_mla:
             if selected_backend is None:
                 selected_backend = (
                     _Backend.ROCM_AITER_MLA
-                    if is_aiter_mla_enabled() or block_size == 1
+                    if rocm_aiter_ops.is_mla_enabled() or block_size == 1
                     else _Backend.TRITON_MLA
                 )
 
@@ -265,12 +274,12 @@ class RocmPlatform(Platform):
             logger.info("Using FlexAttention backend.")
             return "vllm.v1.attention.backends.flex_attention.FlexAttentionBackend"
         if (
-            envs.VLLM_ROCM_USE_AITER and envs.VLLM_ROCM_USE_AITER_MHA and on_gfx9()
+            rocm_aiter_ops.is_mha_enabled()
         ) or selected_backend == _Backend.ROCM_AITER_FA:
             logger.info("Using Aiter Flash Attention backend.")
             return "vllm.v1.attention.backends.rocm_aiter_fa.AiterFlashAttentionBackend"
         if (
-            envs.VLLM_ROCM_USE_AITER and envs.VLLM_ROCM_USE_AITER_UNIFIED_ATTENTION
+            rocm_aiter_ops.is_triton_unified_attn_enabled()
         ) or selected_backend == _Backend.ROCM_AITER_UNIFIED_ATTN:
             logger.info("Using Aiter Unified Attention backend.")
             return (
diff --git a/vllm/v1/attention/backends/mla/common.py b/vllm/v1/attention/backends/mla/common.py
index 40ce12c4bd758..e38f7bcfa44e1 100755
--- a/vllm/v1/attention/backends/mla/common.py
+++ b/vllm/v1/attention/backends/mla/common.py
@@ -198,6 +198,7 @@ from tqdm import tqdm
 
 import vllm.envs as envs
 from vllm import _custom_ops as ops
+from vllm._aiter_ops import rocm_aiter_ops
 from vllm.attention.backends.abstract import (
     AttentionBackend,
     AttentionLayer,
@@ -270,28 +271,15 @@ except ImportError:
     flashinfer_available = False
 
 
-def is_rocm_aiter_fp8bmm_enabled() -> bool:
-    return (
-        current_platform.is_rocm()
-        and envs.VLLM_ROCM_USE_AITER_FP8BMM
-        and envs.VLLM_ROCM_USE_AITER
-    )
-
-
-if is_rocm_aiter_fp8bmm_enabled():
-    from aiter.ops.triton.batched_gemm_a8w8_a_per_token_group_prequant_w_per_batched_tensor_quant import (  # noqa: E501
-        batched_gemm_a8w8_a_per_token_group_prequant_w_per_batched_tensor_quant as aiter_triton_fp8_bmm,  # noqa: E501
-    )
-
-    def dynamic_per_batched_tensor_quant(
-        x: torch.Tensor, dtype: torch.dtype = torch.float8_e4m3fn
-    ):
-        DTYPE_MAX = torch.finfo(dtype).max
-        min_val, max_val = x.aminmax()
-        amax = torch.maximum(min_val.abs(), max_val.abs()).clamp(min=1e-10)
-        scale = DTYPE_MAX / amax
-        x_scl_sat = (x * scale).clamp(min=-DTYPE_MAX, max=DTYPE_MAX)
-        return x_scl_sat.to(dtype).contiguous(), scale.float().reciprocal()
+def dynamic_per_batched_tensor_quant(
+    x: torch.Tensor, dtype: torch.dtype = torch.float8_e4m3fn
+):
+    DTYPE_MAX = torch.finfo(dtype).max
+    min_val, max_val = x.aminmax()
+    amax = torch.maximum(min_val.abs(), max_val.abs()).clamp(min=1e-10)
+    scale = DTYPE_MAX / amax
+    x_scl_sat = (x * scale).clamp(min=-DTYPE_MAX, max=DTYPE_MAX)
+    return x_scl_sat.to(dtype).contiguous(), scale.float().reciprocal()
 
 
 logger = init_logger(__name__)
@@ -1109,6 +1097,7 @@ class MLACommonBaseImpl(MLAAttentionImpl[A], Generic[A]):
         self.kv_b_proj = kv_b_proj
         self.indexer = indexer
         self.q_pad_num_heads = q_pad_num_heads
+        self.is_aiter_triton_fp8_bmm_enabled = rocm_aiter_ops.is_fp8bmm_enabled()
 
     def process_weights_after_loading(self, act_dtype: torch.dtype):
         def get_layer_weight(layer):
@@ -1158,7 +1147,7 @@ class MLACommonBaseImpl(MLAAttentionImpl[A], Generic[A]):
             [self.qk_nope_head_dim, self.v_head_dim], dim=-1
         )
 
-        if is_rocm_aiter_fp8bmm_enabled():
+        if self.is_aiter_triton_fp8_bmm_enabled:
             W_K = W_UK.transpose(0, 1)  # 16 512 128
             W_V = W_UV.permute(1, 2, 0)  # 16 128 512
             self.W_K, self.W_K_scale = dynamic_per_batched_tensor_quant(
@@ -1187,7 +1176,7 @@ class MLACommonBaseImpl(MLAAttentionImpl[A], Generic[A]):
                     dtype=torch.bfloat16,
                     device=self.W_K.device,
                 )
-                aiter_triton_fp8_bmm(
+                rocm_aiter_ops.triton_fp8_bmm(
                     x, self.W_K, self.W_K_scale, group_size=128, transpose_bm=True
                 )
 
@@ -1196,7 +1185,7 @@ class MLACommonBaseImpl(MLAAttentionImpl[A], Generic[A]):
                     dtype=torch.bfloat16,
                     device=self.W_V.device,
                 )
-                aiter_triton_fp8_bmm(
+                rocm_aiter_ops.triton_fp8_bmm(
                     x, self.W_V, self.W_V_scale, group_size=128, transpose_bm=True
                 )
         else:
@@ -1208,10 +1197,9 @@ class MLACommonBaseImpl(MLAAttentionImpl[A], Generic[A]):
     def _v_up_proj(self, x: torch.Tensor, out: torch.Tensor):
         # Convert from (B, N, L) to (N, B, L)
         x = x.view(-1, self.num_heads, self.kv_lora_rank).transpose(0, 1)
-
-        if is_rocm_aiter_fp8bmm_enabled():
+        if self.is_aiter_triton_fp8_bmm_enabled:
             # Multiply + Transpose (N, B, L) x (N, L, V)->(N, B, V)->(B, N, V)
-            x = aiter_triton_fp8_bmm(
+            x = rocm_aiter_ops.triton_fp8_bmm(
                 x, self.W_V, self.W_V_scale, group_size=128, transpose_bm=True
             )
             # Convert from (B, N, V) to (B, N * V)
@@ -1571,7 +1559,7 @@ class MLACommonImpl(MLACommonBaseImpl[M], Generic[M]):
             [self.qk_nope_head_dim, self.v_head_dim], dim=-1
         )
 
-        if is_rocm_aiter_fp8bmm_enabled():
+        if self.is_aiter_triton_fp8_bmm_enabled:
             W_K = W_UK.transpose(0, 1)  # 16 512 128
             W_V = W_UV.permute(1, 2, 0)  # 16 128 512
             self.W_K, self.W_K_scale = dynamic_per_batched_tensor_quant(
@@ -1600,7 +1588,7 @@ class MLACommonImpl(MLACommonBaseImpl[M], Generic[M]):
                     dtype=torch.bfloat16,
                     device=self.W_K.device,
                 )
-                aiter_triton_fp8_bmm(
+                rocm_aiter_ops.triton_fp8_bmm(
                     x, self.W_K, self.W_K_scale, group_size=128, transpose_bm=True
                 )
 
@@ -1609,7 +1597,7 @@ class MLACommonImpl(MLACommonBaseImpl[M], Generic[M]):
                     dtype=torch.bfloat16,
                     device=self.W_V.device,
                 )
-                aiter_triton_fp8_bmm(
+                rocm_aiter_ops.triton_fp8_bmm(
                     x, self.W_V, self.W_V_scale, group_size=128, transpose_bm=True
                 )
         else:
@@ -1958,7 +1946,6 @@ class MLACommonImpl(MLACommonBaseImpl[M], Generic[M]):
             # Convert from (B, N, P) to (N, B, P)
             decode_q_nope = decode_q_nope.transpose(0, 1)
 
-            # Pads the head_dim if necessary (for the underlying kernel)
             if self.q_pad_num_heads is not None:
                 B, N, L = decode_q_pe.shape
                 decode_pe_padded = decode_q_pe.new_empty((B, self.q_pad_num_heads, L))
@@ -1966,9 +1953,9 @@ class MLACommonImpl(MLACommonBaseImpl[M], Generic[M]):
                 decode_pe_padded.copy_(decode_q_pe)
                 decode_q_pe = decode_pe_padded
 
-            if is_rocm_aiter_fp8bmm_enabled():
+            if self.is_aiter_triton_fp8_bmm_enabled:
                 # Multiply+Transpose (N, B, P)x(N, P, L)->(N, B, L)->(B, N, L)
-                decode_ql_nope = aiter_triton_fp8_bmm(
+                decode_ql_nope = rocm_aiter_ops.triton_fp8_bmm(
                     decode_q_nope,
                     self.W_K,
                     self.W_K_scale,
diff --git a/vllm/v1/attention/backends/mla/rocm_aiter_mla.py b/vllm/v1/attention/backends/mla/rocm_aiter_mla.py
index 4ad7236eb1be3..5757aeadba056 100644
--- a/vllm/v1/attention/backends/mla/rocm_aiter_mla.py
+++ b/vllm/v1/attention/backends/mla/rocm_aiter_mla.py
@@ -6,9 +6,8 @@ from typing import ClassVar
 
 import torch
 
-import vllm.envs as envs
+from vllm._aiter_ops import rocm_aiter_ops
 from vllm.attention.backends.abstract import AttentionLayer
-from vllm.attention.ops.rocm_aiter_mla import aiter_mla_decode_fwd
 from vllm.config import VllmConfig
 from vllm.utils.math_utils import cdiv
 from vllm.v1.attention.backends.mla.common import (
@@ -22,10 +21,6 @@ from vllm.v1.attention.backends.utils import AttentionCGSupport
 from vllm.v1.kv_cache_interface import AttentionSpec
 
 
-def is_aiter_mla_enabled() -> bool:
-    return envs.VLLM_ROCM_USE_AITER and envs.VLLM_ROCM_USE_AITER_MLA
-
-
 class AiterMLABackend(MLACommonBackend):
     @staticmethod
     def get_name() -> str:
@@ -284,7 +279,7 @@ class AiterMLAImpl(MLACommonImpl[AiterMLAMetadata]):
         # max_seqlen_qo must be 1 except for MTP
         # TODO: Find the best value for MTP
         max_seqlen_qo = 1
-        aiter_mla_decode_fwd(
+        rocm_aiter_ops.mla_decode_fwd(
             q,
             kv_buffer,
             o,

From d0e186c16f0d62af8c128e2dc7c94cde1387ac02 Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Tue, 11 Nov 2025 00:30:06 +0800
Subject: [PATCH 277/976] [V0 Deprecation] Remove unused `context_len` and
 `seq_len` from M-RoPE (#28395)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 vllm/model_executor/models/ernie45_vl.py              | 3 ---
 vllm/model_executor/models/glm4_1v.py                 | 3 ---
 vllm/model_executor/models/glm4v.py                   | 3 ---
 vllm/model_executor/models/interfaces.py              | 4 ----
 vllm/model_executor/models/keye.py                    | 3 ---
 vllm/model_executor/models/keye_vl1_5.py              | 3 ---
 vllm/model_executor/models/paddleocr_vl.py            | 3 ---
 vllm/model_executor/models/qwen2_5_omni_thinker.py    | 3 ---
 vllm/model_executor/models/qwen2_5_vl.py              | 3 ---
 vllm/model_executor/models/qwen2_vl.py                | 3 ---
 vllm/model_executor/models/qwen3_omni_moe_thinker.py  | 2 --
 vllm/model_executor/models/qwen3_vl.py                | 4 +---
 vllm/model_executor/models/transformers/multimodal.py | 4 +---
 13 files changed, 2 insertions(+), 39 deletions(-)

diff --git a/vllm/model_executor/models/ernie45_vl.py b/vllm/model_executor/models/ernie45_vl.py
index 7c1eba103ae7e..f287cff12086b 100644
--- a/vllm/model_executor/models/ernie45_vl.py
+++ b/vllm/model_executor/models/ernie45_vl.py
@@ -1435,8 +1435,6 @@ class Ernie4_5_VLMoeForConditionalGeneration(
         hf_config: PretrainedConfig,
         image_grid_thw: list[list[int]] | torch.Tensor,
         video_grid_thw: list[list[int]] | torch.Tensor,
-        context_len: int = 0,
-        seq_len: int | None = None,
         second_per_grid_ts: list[float] | None = None,
         audio_feature_lengths: torch.Tensor | None = None,
         use_audio_in_video: bool = False,
@@ -1569,7 +1567,6 @@ class Ernie4_5_VLMoeForConditionalGeneration(
             llm_pos_ids_list.append(torch.arange(text_len).view(1, -1).expand(3, -1))
 
         llm_positions = torch.cat(llm_pos_ids_list, dim=1).reshape(3, -1)
-        llm_positions = llm_positions[:, context_len:seq_len]
         mrope_position_delta = (llm_positions.max() + 1 - len(input_tokens)).item()
         return llm_positions, mrope_position_delta
 
diff --git a/vllm/model_executor/models/glm4_1v.py b/vllm/model_executor/models/glm4_1v.py
index 121e84469c52f..b9cd3545ec453 100644
--- a/vllm/model_executor/models/glm4_1v.py
+++ b/vllm/model_executor/models/glm4_1v.py
@@ -1622,8 +1622,6 @@ class Glm4vForConditionalGeneration(
         image_grid_thw: list[list[int]] | torch.Tensor | None,
         video_grid_thw: list[list[int]] | torch.Tensor | None,
         second_per_grid_ts: list[float] | None = None,
-        context_len: int = 0,
-        seq_len: int | None = None,
         audio_feature_lengths: torch.Tensor | None = None,
         use_audio_in_video: bool = False,
     ) -> tuple[torch.Tensor, int]:
@@ -1754,7 +1752,6 @@ class Glm4vForConditionalGeneration(
             llm_pos_ids_list.append(torch.arange(text_len).view(1, -1).expand(3, -1))
 
         llm_positions = torch.cat(llm_pos_ids_list, dim=1).reshape(3, -1)
-        llm_positions = llm_positions[:, context_len:seq_len]
         mrope_position_delta = (llm_positions.max() + 1 - len(input_tokens)).item()
         return llm_positions, mrope_position_delta
 
diff --git a/vllm/model_executor/models/glm4v.py b/vllm/model_executor/models/glm4v.py
index 2de1e48109521..ebf6934dddead 100644
--- a/vllm/model_executor/models/glm4v.py
+++ b/vllm/model_executor/models/glm4v.py
@@ -625,8 +625,6 @@ class GLM4VForCausalLM(
         hf_config: PretrainedConfig,
         image_grid_thw: list[list[int]] | torch.Tensor,
         video_grid_thw: list[list[int]] | torch.Tensor,
-        context_len: int = 0,
-        seq_len: int | None = None,
         second_per_grid_ts: list[float] | None = None,
         audio_feature_lengths: torch.Tensor | None = None,
         use_audio_in_video: bool = False,
@@ -758,7 +756,6 @@ class GLM4VForCausalLM(
             llm_pos_ids_list.append(torch.arange(text_len).view(1, -1).expand(3, -1))
 
         llm_positions = torch.cat(llm_pos_ids_list, dim=1).reshape(3, -1)
-        llm_positions = llm_positions[:, context_len:seq_len]
         mrope_position_delta = (llm_positions.max() + 1 - len(input_tokens)).item()
         return llm_positions, mrope_position_delta
 
diff --git a/vllm/model_executor/models/interfaces.py b/vllm/model_executor/models/interfaces.py
index b634c7ec7d67b..d6a8f86d998bb 100644
--- a/vllm/model_executor/models/interfaces.py
+++ b/vllm/model_executor/models/interfaces.py
@@ -995,8 +995,6 @@ class SupportsMRoPE(Protocol):
         image_grid_thw: list[list[int]] | torch.Tensor | None,
         video_grid_thw: list[list[int]] | torch.Tensor | None,
         second_per_grid_ts: list[float] | None = None,
-        context_len: int = 0,
-        seq_len: int | None = None,
         audio_feature_lengths: torch.Tensor | None = None,
         use_audio_in_video: bool = False,
     ) -> tuple[torch.Tensor, int]:
@@ -1012,8 +1010,6 @@ class SupportsMRoPE(Protocol):
             image_grid_thw: Image grid dimensions (t, h, w)
             video_grid_thw: Video grid dimensions (t, h, w)
             second_per_grid_ts: Seconds per grid timestep for videos
-            context_len: Context length
-            seq_len: Sequence length
             audio_feature_lengths: Audio feature lengths for multimodal models
             use_audio_in_video: Whether to use audio in video for interleaving
 
diff --git a/vllm/model_executor/models/keye.py b/vllm/model_executor/models/keye.py
index 5f8659a3064eb..42f16ad9f3b3a 100644
--- a/vllm/model_executor/models/keye.py
+++ b/vllm/model_executor/models/keye.py
@@ -1630,8 +1630,6 @@ class KeyeForConditionalGeneration(
         hf_config: PretrainedConfig,
         image_grid_thw: list[list[int]] | torch.Tensor,
         video_grid_thw: list[list[int]] | torch.Tensor,
-        context_len: int = 0,
-        seq_len: int | None = None,
         second_per_grid_ts: list[float] | None = None,
         audio_feature_lengths: torch.Tensor | None = None,
         use_audio_in_video: bool = False,
@@ -1759,6 +1757,5 @@ class KeyeForConditionalGeneration(
 
         llm_positions = torch.cat(llm_pos_ids_list, dim=1).reshape(3, -1)
         mrope_position_delta = (llm_positions.max() + 1 - len(input_tokens)).item()
-        llm_positions = llm_positions[:, context_len:seq_len]
 
         return llm_positions, mrope_position_delta
diff --git a/vllm/model_executor/models/keye_vl1_5.py b/vllm/model_executor/models/keye_vl1_5.py
index 13e5b2d5f1575..6f95a59d36d29 100644
--- a/vllm/model_executor/models/keye_vl1_5.py
+++ b/vllm/model_executor/models/keye_vl1_5.py
@@ -600,8 +600,6 @@ class KeyeVL1_5ForConditionalGeneration(
         hf_config: PretrainedConfig,
         image_grid_thw: list[list[int]] | torch.Tensor,
         video_grid_thw: list[list[int]] | torch.Tensor,
-        context_len: int = 0,
-        seq_len: int | None = None,
         second_per_grid_ts: list[float] | None = None,
         audio_feature_lengths: torch.Tensor | None = None,
         use_audio_in_video: bool = False,
@@ -729,6 +727,5 @@ class KeyeVL1_5ForConditionalGeneration(
 
         llm_positions = torch.cat(llm_pos_ids_list, dim=1).reshape(3, -1)
         mrope_position_delta = (llm_positions.max() + 1 - len(input_tokens)).item()
-        llm_positions = llm_positions[:, context_len:seq_len]
 
         return llm_positions, mrope_position_delta
diff --git a/vllm/model_executor/models/paddleocr_vl.py b/vllm/model_executor/models/paddleocr_vl.py
index 377b41a355782..631475c964c0b 100644
--- a/vllm/model_executor/models/paddleocr_vl.py
+++ b/vllm/model_executor/models/paddleocr_vl.py
@@ -1179,8 +1179,6 @@ class PaddleOCRVLForConditionalGeneration(nn.Module, SupportsMultiModal, Support
         image_grid_thw: list[list[int]] | torch.Tensor,
         video_grid_thw: list[list[int]] | torch.Tensor,
         second_per_grid_ts: list[float],
-        context_len: int = 0,
-        seq_len: int | None = None,
         audio_feature_lengths: torch.Tensor | None = None,
         use_audio_in_video: bool = False,
     ) -> tuple[torch.Tensor, int]:
@@ -1293,7 +1291,6 @@ class PaddleOCRVLForConditionalGeneration(nn.Module, SupportsMultiModal, Support
 
         llm_positions = torch.cat(llm_pos_ids_list, dim=1).reshape(3, -1)
         mrope_position_delta = (llm_positions.max() + 1 - len(input_tokens)).item()
-        llm_positions = llm_positions[:, context_len:seq_len]
 
         return llm_positions, mrope_position_delta
 
diff --git a/vllm/model_executor/models/qwen2_5_omni_thinker.py b/vllm/model_executor/models/qwen2_5_omni_thinker.py
index 7e970ebbe2bbc..fac281d2caf49 100644
--- a/vllm/model_executor/models/qwen2_5_omni_thinker.py
+++ b/vllm/model_executor/models/qwen2_5_omni_thinker.py
@@ -927,8 +927,6 @@ class Qwen2_5OmniThinkerForConditionalGeneration(
         image_grid_thw: list[list[int]] | torch.Tensor,
         video_grid_thw: list[list[int]] | torch.Tensor,
         second_per_grid_ts: list[float] | None = None,
-        context_len: int = 0,
-        seq_len: int | None = None,
         audio_feature_lengths: torch.Tensor | None = None,
         use_audio_in_video: bool = False,
     ) -> tuple[torch.Tensor, int]:
@@ -1125,7 +1123,6 @@ class Qwen2_5OmniThinkerForConditionalGeneration(
         mrope_position_delta = (
             torch.cat(llm_pos_ids_list, dim=1).max() + 1 - len(src_item)
         )
-        llm_positions = llm_positions[:, context_len:seq_len]
 
         return llm_positions, mrope_position_delta
 
diff --git a/vllm/model_executor/models/qwen2_5_vl.py b/vllm/model_executor/models/qwen2_5_vl.py
index d337f1606943a..48834ba699e4c 100644
--- a/vllm/model_executor/models/qwen2_5_vl.py
+++ b/vllm/model_executor/models/qwen2_5_vl.py
@@ -1118,8 +1118,6 @@ class Qwen2_5_VLForConditionalGeneration(
         image_grid_thw: list[list[int]] | torch.Tensor,
         video_grid_thw: list[list[int]] | torch.Tensor,
         second_per_grid_ts: list[float],
-        context_len: int = 0,
-        seq_len: int | None = None,
         audio_feature_lengths: torch.Tensor | None = None,
         use_audio_in_video: bool = False,
     ) -> tuple[torch.Tensor, int]:
@@ -1232,7 +1230,6 @@ class Qwen2_5_VLForConditionalGeneration(
 
         llm_positions = torch.cat(llm_pos_ids_list, dim=1).reshape(3, -1)
         mrope_position_delta = (llm_positions.max() + 1 - len(input_tokens)).item()
-        llm_positions = llm_positions[:, context_len:seq_len]
 
         return llm_positions, mrope_position_delta
 
diff --git a/vllm/model_executor/models/qwen2_vl.py b/vllm/model_executor/models/qwen2_vl.py
index 9206ac8f9d032..b3999e6c934e3 100644
--- a/vllm/model_executor/models/qwen2_vl.py
+++ b/vllm/model_executor/models/qwen2_vl.py
@@ -1240,8 +1240,6 @@ class Qwen2VLForConditionalGeneration(
         image_grid_thw: list[list[int]] | torch.Tensor | None,
         video_grid_thw: list[list[int]] | torch.Tensor | None,
         second_per_grid_ts: list[float] | None = None,
-        context_len: int = 0,
-        seq_len: int | None = None,
         audio_feature_lengths: torch.Tensor | None = None,
         use_audio_in_video: bool = False,
     ) -> tuple[torch.Tensor, int]:
@@ -1360,7 +1358,6 @@ class Qwen2VLForConditionalGeneration(
 
         llm_positions = torch.cat(llm_pos_ids_list, dim=1).reshape(3, -1)
         mrope_position_delta = (llm_positions.max() + 1 - len(input_tokens)).item()
-        llm_positions = llm_positions[:, context_len:seq_len]
 
         return llm_positions, mrope_position_delta
 
diff --git a/vllm/model_executor/models/qwen3_omni_moe_thinker.py b/vllm/model_executor/models/qwen3_omni_moe_thinker.py
index f20e679027214..da489a812f55d 100755
--- a/vllm/model_executor/models/qwen3_omni_moe_thinker.py
+++ b/vllm/model_executor/models/qwen3_omni_moe_thinker.py
@@ -1417,8 +1417,6 @@ class Qwen3OmniMoeThinkerForConditionalGeneration(
         image_grid_thw: list[list[int]] | torch.Tensor | None,
         video_grid_thw: list[list[int]] | torch.Tensor | None,
         second_per_grid_ts: list[float] | None = None,
-        context_len: int = 0,
-        seq_len: int | None = None,
         audio_feature_lengths: torch.Tensor | None = None,
         use_audio_in_video: bool = False,
     ) -> tuple[torch.Tensor, int]:
diff --git a/vllm/model_executor/models/qwen3_vl.py b/vllm/model_executor/models/qwen3_vl.py
index 2d8f431bb8fa7..fe0124ef3258b 100644
--- a/vllm/model_executor/models/qwen3_vl.py
+++ b/vllm/model_executor/models/qwen3_vl.py
@@ -1419,8 +1419,6 @@ class Qwen3VLForConditionalGeneration(
         hf_config: PretrainedConfig,
         image_grid_thw: list[list[int]] | torch.Tensor,
         video_grid_thw: list[list[int]] | torch.Tensor,
-        context_len: int = 0,
-        seq_len: int | None = None,
         second_per_grid_ts: list[float] | None = None,
         audio_feature_lengths: torch.Tensor | None = None,
         use_audio_in_video: bool = False,
@@ -1519,7 +1517,7 @@ class Qwen3VLForConditionalGeneration(
 
         llm_positions = torch.cat(llm_pos_ids_list, dim=1).reshape(3, -1)
         mrope_position_delta = (llm_positions.max() + 1 - len(input_tokens)).item()
-        llm_positions = llm_positions[:, context_len:seq_len]
+
         return llm_positions, mrope_position_delta
 
     def get_language_model(self) -> torch.nn.Module:
diff --git a/vllm/model_executor/models/transformers/multimodal.py b/vllm/model_executor/models/transformers/multimodal.py
index 10abd86595360..476074542e6ae 100644
--- a/vllm/model_executor/models/transformers/multimodal.py
+++ b/vllm/model_executor/models/transformers/multimodal.py
@@ -371,8 +371,6 @@ class MultiModalMixin(SupportsMultiModal, SupportsMRoPE):
         image_grid_thw: list[list[int]] | torch.Tensor | None,
         video_grid_thw: list[list[int]] | torch.Tensor | None,
         second_per_grid_ts: list[float] | None = None,
-        context_len: int = 0,
-        seq_len: int | None = None,
         audio_feature_lengths: torch.Tensor | None = None,
         use_audio_in_video: bool = False,
     ) -> tuple[torch.Tensor, int]:
@@ -390,7 +388,7 @@ class MultiModalMixin(SupportsMultiModal, SupportsMRoPE):
             video_grid_thw=video_grid_thw,
         )
 
-        mrope_positions = mrope_positions[:, 0, context_len:seq_len]
+        mrope_positions = mrope_positions[:, 0]
         mrope_position_delta = mrope_position_delta[0].item()
 
         return mrope_positions, mrope_position_delta

From b039bfda8f72b442d42dbdac40f51572bf045ad1 Mon Sep 17 00:00:00 2001
From: Varun Sundar Rabindranath <varunsundar08@gmail.com>
Date: Mon, 10 Nov 2025 12:21:52 -0500
Subject: [PATCH 278/976] [Bugfix] Fix persistent_masked_m_silu_mul_quant tests
 (#28366)

Signed-off-by: Varun Sundar Rabindranath <vsundarr@redhat.com>
Co-authored-by: Varun Sundar Rabindranath <vsundarr@redhat.com>
---
 csrc/quantization/activation_kernels.cu           | 15 ++++++++++-----
 .../moe/test_silu_mul_fp8_quant_deep_gemm.py      |  5 ++++-
 .../layers/fused_moe/batched_deep_gemm_moe.py     |  3 ++-
 3 files changed, 16 insertions(+), 7 deletions(-)

diff --git a/csrc/quantization/activation_kernels.cu b/csrc/quantization/activation_kernels.cu
index 6fcd246f63c50..2521b2797e2c2 100644
--- a/csrc/quantization/activation_kernels.cu
+++ b/csrc/quantization/activation_kernels.cu
@@ -578,11 +578,13 @@ void persistent_masked_m_silu_mul_quant(
 
   // This kernel currently only supports H % 128 == 0 and assumes a
   // fixed GROUP_SIZE of 128.
+  static constexpr int GROUP_SIZE = 128;
+
   TORCH_CHECK(input.dtype() == torch::kBFloat16);
   TORCH_CHECK(y_q.dtype() == torch::kFloat8_e4m3fn ||
               y_q.dtype() == torch::kFloat8_e4m3fnuz);
   TORCH_CHECK(y_s.dtype() == torch::kFloat32);
-  TORCH_CHECK(input.size(-1) % 256 == 0);
+  TORCH_CHECK(input.size(-1) % (GROUP_SIZE * 2) == 0);
 
   using Idx_t = int64_t;
 
@@ -601,8 +603,6 @@ void persistent_masked_m_silu_mul_quant(
 
   Idx_t stride_counts_e = tokens_per_expert.stride(0);
 
-  static constexpr int GROUP_SIZE = 128;
-
   const cudaStream_t stream = at::cuda::getCurrentCUDAStream();
 
   #define KERNEL(BLOCK_COUNT, USE_UE8M0, THREAD_COUNT, STAGES)                 \
@@ -628,21 +628,26 @@ void persistent_masked_m_silu_mul_quant(
 
   static constexpr int SILU_V2_BLOCK_COUNT = 132 * 32;
 
+  int const NUM_GROUPS = H / GROUP_SIZE;
   if (!use_ue8m0) {
-    if (H >= 4096) {
+    if (H >= 4096 && (NUM_GROUPS % 8 == 0)) {
+      /* 8 warps config */
       static constexpr int NUM_STAGES = 4;
       static constexpr int THREAD_COUNT = 256;
       KERNEL(SILU_V2_BLOCK_COUNT, false, THREAD_COUNT, NUM_STAGES);
     } else {
+      /* 1 warp config */
       static constexpr int THREAD_COUNT = 32;
       KERNEL(SILU_V2_BLOCK_COUNT, false, THREAD_COUNT, 2);
     }
   } else {
-    if (H >= 4096) {
+    if (H >= 4096 && (NUM_GROUPS % 8 == 0)) {
+      /* 8 warps config */
       static constexpr int NUM_STAGES = 4;
       static constexpr int THREAD_COUNT = 256;
       KERNEL(SILU_V2_BLOCK_COUNT, true, THREAD_COUNT, NUM_STAGES);
     } else {
+      /* 1 warp config */
       static constexpr int THREAD_COUNT = 32;
       KERNEL(SILU_V2_BLOCK_COUNT, true, THREAD_COUNT, 2);
     }
diff --git a/tests/kernels/moe/test_silu_mul_fp8_quant_deep_gemm.py b/tests/kernels/moe/test_silu_mul_fp8_quant_deep_gemm.py
index 97a55c37b9a3e..420dbbffaac08 100644
--- a/tests/kernels/moe/test_silu_mul_fp8_quant_deep_gemm.py
+++ b/tests/kernels/moe/test_silu_mul_fp8_quant_deep_gemm.py
@@ -25,6 +25,7 @@ CASES = [
     (8, 16, 128 * 2, fp8_dtype),
     (8, 16, 128 * 3, fp8_dtype),
     (8, 64, 7168, fp8_dtype),
+    (8, 128, 128 * 33, fp8_dtype),
     (8, 128, 7168, fp8_dtype),
     (8, 512, 7168, fp8_dtype),
     (8, 1024, 7168, fp8_dtype),
@@ -54,8 +55,10 @@ def test_silu_mul_fp8_quant_deep_gemm(E, T, H, fp8_type):
     )
 
     # Run the SiLU V2 kernel
+    # TODO (varun): use_e8m0 is set to false as the reference impl does
+    # not handle that case.
     y_q, y_s = persistent_masked_m_silu_mul_quant(
-        y, tokens_per_expert, group_size=group_size
+        y, tokens_per_expert, group_size=group_size, use_ue8m0=False
     )
 
     torch.cuda.synchronize()
diff --git a/vllm/model_executor/layers/fused_moe/batched_deep_gemm_moe.py b/vllm/model_executor/layers/fused_moe/batched_deep_gemm_moe.py
index 095ec966ea7e4..b8a97e92ab790 100644
--- a/vllm/model_executor/layers/fused_moe/batched_deep_gemm_moe.py
+++ b/vllm/model_executor/layers/fused_moe/batched_deep_gemm_moe.py
@@ -100,6 +100,7 @@ def persistent_masked_m_silu_mul_quant(
     tokens_per_expert: torch.Tensor,  # (E,) number of valid tokens per expert
     num_parallel_tokens=16,
     group_size: int = 128,
+    use_ue8m0: bool | None = None,
 ) -> tuple[torch.Tensor, torch.Tensor]:
     """Quantize silu(y[..., :H]) * y[..., H:] to FP8 with group per-token scales
     y has shape (E, T, 2*H). The first half of the last dimension is
@@ -164,7 +165,7 @@ def persistent_masked_m_silu_mul_quant(
         device=y.device,
     )
 
-    use_ue8m0 = is_deep_gemm_e8m0_used()
+    use_ue8m0 = use_ue8m0 if use_ue8m0 is not None else is_deep_gemm_e8m0_used()
 
     cuda_arch = current_platform.get_device_capability(
         device_id=y.device.index

From 34553b9d2702dd2a27a578fec819e88e76dcbfb4 Mon Sep 17 00:00:00 2001
From: jiahanc <173873397+jiahanc@users.noreply.github.com>
Date: Mon, 10 Nov 2025 09:34:57 -0800
Subject: [PATCH 279/976] [Performance] Support FP8 flashinfer TRTLLM MOE on
 Qwen3 and Qwen-3next (#27492)

Signed-off-by: jiahanc <173873397+jiahanc@users.noreply.github.com>
---
 .../model_executor/layers/fused_moe/config.py | 21 +++++++++++++++
 .../layers/fused_moe/flashinfer_trtllm_moe.py | 26 +++++++++----------
 vllm/model_executor/layers/fused_moe/layer.py | 20 ++++++++++++++
 .../model_executor/layers/quantization/fp8.py | 14 +++++-----
 .../quantization/utils/flashinfer_utils.py    | 23 +++++++++-------
 vllm/model_executor/models/qwen3_moe.py       |  2 ++
 vllm/model_executor/models/qwen3_next.py      |  2 ++
 7 files changed, 78 insertions(+), 30 deletions(-)

diff --git a/vllm/model_executor/layers/fused_moe/config.py b/vllm/model_executor/layers/fused_moe/config.py
index cbc3caafcf2f0..a7bd64b1c65e9 100644
--- a/vllm/model_executor/layers/fused_moe/config.py
+++ b/vllm/model_executor/layers/fused_moe/config.py
@@ -1,6 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 from dataclasses import dataclass
+from enum import IntEnum
 from typing import Optional, Union
 
 import torch
@@ -91,6 +92,26 @@ def _quant_flags_to_group_shape(
     return a_shape, w_shape
 
 
+# The type of method in top-K routing
+# Please keep this in sync with the counterpart defined in https://github.com/flashinfer-ai/flashinfer/blob/main/include/flashinfer/trtllm/fused_moe/runner.h
+class RoutingMethodType(IntEnum):
+    # Default: Softmax -> TopK
+    Default = (0,)
+    # Renormalize: TopK -> Softmax
+    Renormalize = (1,)
+    # DeepSeekV3: Sigmoid -> RoutingBiasAdd -> Top2 in group -> Top4 groups
+    # -> Top8 experts from the Top4 groups
+    DeepSeekV3 = (2,)
+    # Llama4: Top1 -> Sigmoid
+    Llama4 = (3,)
+    # RenormalizeNaive: Softmax -> TopK -> Renormalize
+    RenormalizeNaive = (4,)
+    # TopK: TopK (no softmax)
+    TopK = (5,)
+    # Unspecified
+    Unspecified = 6.0
+
+
 @dataclass
 class FusedMoEQuantDesc:
     """
diff --git a/vllm/model_executor/layers/fused_moe/flashinfer_trtllm_moe.py b/vllm/model_executor/layers/fused_moe/flashinfer_trtllm_moe.py
index f21fe16c5108e..51e06ac54f497 100644
--- a/vllm/model_executor/layers/fused_moe/flashinfer_trtllm_moe.py
+++ b/vllm/model_executor/layers/fused_moe/flashinfer_trtllm_moe.py
@@ -3,6 +3,7 @@
 
 import torch
 
+from vllm.model_executor.layers.fused_moe.config import RoutingMethodType
 from vllm.model_executor.layers.fused_moe.utils import moe_kernel_quantize_input
 from vllm.model_executor.layers.quantization.utils.flashinfer_utils import (
     calculate_tile_tokens_dim,
@@ -23,26 +24,24 @@ def flashinfer_fused_moe_blockscale_fp8(
     w2_weight_scale_inv: torch.Tensor,
     global_num_experts: int,
     top_k: int,
-    num_expert_group: int,
-    topk_group: int,
+    num_expert_group: int | None,
+    topk_group: int | None,
     intermediate_size: int,
     expert_offset: int,
     local_num_experts: int,
     block_shape: list[int],
-    routed_scaling: float = 1.0,
+    routing_method_type: int = RoutingMethodType.DeepSeekV3,
+    routed_scaling: float | None = 1.0,
 ) -> torch.Tensor:
     from vllm.utils.flashinfer import flashinfer_trtllm_fp8_block_scale_moe
 
+    topk_group = topk_group if topk_group is not None else 0
     assert top_k <= global_num_experts
-    assert top_k <= 8
-    assert topk_group <= 4
-    assert global_num_experts > num_expert_group
-    assert global_num_experts % num_expert_group == 0
+    assert top_k <= 10
     assert global_num_experts % 4 == 0
-    assert top_k < (topk_group * global_num_experts / num_expert_group)
     assert block_shape == [128, 128]
-    # Routing kernel expects #experts <= #threads 256
-    assert global_num_experts <= 256
+    # Routing kernel expects #experts <= #threads 512
+    assert global_num_experts <= 512
 
     a_q, a_sf = per_token_group_quant_fp8(x, block_shape[1])
     # NOTE: scales of hidden states have to be transposed!
@@ -64,10 +63,8 @@ def flashinfer_fused_moe_blockscale_fp8(
         local_expert_offset=expert_offset,
         local_num_experts=local_num_experts,
         routed_scaling_factor=routed_scaling,
-        tile_tokens_dim=calculate_tile_tokens_dim(
-            x.shape[0], top_k, global_num_experts
-        ),
-        routing_method_type=2,  # DeepSeek-styled routing method
+        tile_tokens_dim=None,
+        routing_method_type=routing_method_type,
         use_shuffled_weight=False,
     )
 
@@ -88,6 +85,7 @@ def flashinfer_fused_moe_blockscale_fp8_fake(
     expert_offset: int,
     local_num_experts: int,
     block_shape: list[int],
+    routing_method_type: int,
     routed_scaling: float = 1.0,
 ) -> torch.Tensor:
     return torch.empty_like(x)
diff --git a/vllm/model_executor/layers/fused_moe/layer.py b/vllm/model_executor/layers/fused_moe/layer.py
index 45b0f50a79973..f86a93e300033 100644
--- a/vllm/model_executor/layers/fused_moe/layer.py
+++ b/vllm/model_executor/layers/fused_moe/layer.py
@@ -31,6 +31,7 @@ from vllm.model_executor.layers.fused_moe.config import (
     FusedMoEConfig,
     FusedMoEParallelConfig,
     FusedMoEQuantConfig,
+    RoutingMethodType,
     biased_moe_quant_config,
 )
 from vllm.model_executor.layers.fused_moe.fused_moe import zero_experts_compute_triton
@@ -1213,6 +1214,7 @@ class FusedMoE(CustomOp):
         zero_expert_type: str | None = None,
         expert_mapping: list[tuple[str, str, int, str]] | None = None,
         n_shared_experts: int | None = None,
+        routing_method_type: int | None = None,
     ):
         super().__init__()
 
@@ -1397,6 +1399,24 @@ class FusedMoE(CustomOp):
                 "Only softmax scoring function is supported for non-grouped topk."
             )
 
+        # ToDo: Better logic to determine the routing method type
+        if routing_method_type is not None:
+            self.routing_method_type = routing_method_type
+        else:
+            if scoring_func == "sigmoid":
+                if self.use_grouped_topk:
+                    self.routing_method_type = RoutingMethodType.DeepSeekV3
+                elif self.top_k == 1:
+                    self.routing_method_type = RoutingMethodType.Llama4
+            elif self.scoring_func == "softmax":
+                self.routing_method_type = (
+                    RoutingMethodType.Renormalize
+                    if not self.renormalize
+                    else RoutingMethodType.RenormalizeNaive
+                )
+            else:
+                self.routing_method_type = RoutingMethodType.TopK
+
         self.moe_config: FusedMoEConfig = FusedMoEConfig(
             num_experts=self.global_num_experts,
             experts_per_token=top_k,
diff --git a/vllm/model_executor/layers/quantization/fp8.py b/vllm/model_executor/layers/quantization/fp8.py
index e4e1cbff712f5..f5fc750baaea7 100644
--- a/vllm/model_executor/layers/quantization/fp8.py
+++ b/vllm/model_executor/layers/quantization/fp8.py
@@ -28,6 +28,7 @@ from vllm.model_executor.layers.fused_moe import (
 )
 from vllm.model_executor.layers.fused_moe.config import (
     FusedMoEQuantConfig,
+    RoutingMethodType,
     fp8_w8a8_moe_quant_config,
 )
 from vllm.model_executor.layers.fused_moe.fused_marlin_moe import fused_marlin_moe
@@ -1222,22 +1223,20 @@ class Fp8MoEMethod(FusedMoEMethodBase):
             assert activation == "silu", (
                 f"Expected 'silu' activation but got {activation}"
             )
-            assert scoring_func == "sigmoid", (
-                f"Expected 'sigmoid' scoring func but got {scoring_func}"
-            )
+
             if self.block_quant:
                 import vllm.model_executor.layers.fused_moe.flashinfer_trtllm_moe  # noqa: E501, F401
 
-                assert (
-                    renormalize and use_grouped_topk and custom_routing_function is None
-                )
                 e_score_correction_bias = (
                     e_score_correction_bias.to(x.dtype)
                     if e_score_correction_bias is not None
                     else None
                 )
+                routing_method_type = layer.routing_method_type
                 return torch.ops.vllm.flashinfer_fused_moe_blockscale_fp8(
-                    routing_logits=router_logits.to(torch.float32),
+                    routing_logits=router_logits.to(torch.float32)
+                    if routing_method_type == RoutingMethodType.DeepSeekV3
+                    else router_logits,
                     routing_bias=e_score_correction_bias,
                     x=x,
                     w13_weight=layer.w13_weight,
@@ -1252,6 +1251,7 @@ class Fp8MoEMethod(FusedMoEMethodBase):
                     expert_offset=layer.ep_rank * layer.local_num_experts,
                     local_num_experts=layer.local_num_experts,
                     block_shape=self.weight_block_size,
+                    routing_method_type=routing_method_type,
                     routed_scaling=routed_scaling_factor,
                 )
             else:
diff --git a/vllm/model_executor/layers/quantization/utils/flashinfer_utils.py b/vllm/model_executor/layers/quantization/utils/flashinfer_utils.py
index 50ea049c3d5a1..e49d374f154d8 100644
--- a/vllm/model_executor/layers/quantization/utils/flashinfer_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/flashinfer_utils.py
@@ -27,20 +27,25 @@ class FlashinferMoeBackend(Enum):
 
 
 def calculate_tile_tokens_dim(num_tokens, top_k, num_experts):
+    from flashinfer import next_positive_power_of_2
+
     # FlashInfer 0.2.10 has issues with larger tile sizes. Set to 8 for now.
     # TODO: Revert this to dynamic calculation once a new version of FlashInfer
     # with the necessary kernels is released.
     tile_tokens_dim = 8
 
-    # from flashinfer import next_positive_power_of_2
-
-    # # Guess tokens per expert assuming perfect expert distribution first.
-    # num_tokens_per_expert = (num_tokens * top_k) // num_experts
-    # # And pad the number to the next power of 2.
-    # tile_tokens_dim = next_positive_power_of_2(num_tokens_per_expert)
-    # # Cap to 8-64 tokens per CTA tile as it's the range supported by the
-    # # kernel.
-    # tile_tokens_dim = min(max(tile_tokens_dim, 8), 64)
+    # A factor considering tokens are not perfectly balanced among experts.
+    imbalance_factor = 1.3
+    # Calculate the number of tokens per expert
+    # assuming perfect distribution.
+    num_tokens_per_expert = (num_tokens * top_k) // num_experts
+    # Apply the imbalance factor.
+    num_tokens_per_expert = int(num_tokens_per_expert * imbalance_factor)
+    # And pad the number to the next power of 2.
+    tile_tokens_dim = next_positive_power_of_2(num_tokens_per_expert)
+    # Cap to 8-max_tile_tokens_dim tokens per CTA tile
+    # as it's the range supported by the kernel.
+    tile_tokens_dim = min(max(tile_tokens_dim, 8), 64)
 
     return tile_tokens_dim
 
diff --git a/vllm/model_executor/models/qwen3_moe.py b/vllm/model_executor/models/qwen3_moe.py
index a7e6772bb7082..d57b82cb02273 100644
--- a/vllm/model_executor/models/qwen3_moe.py
+++ b/vllm/model_executor/models/qwen3_moe.py
@@ -43,6 +43,7 @@ from vllm.distributed import (
 from vllm.logger import init_logger
 from vllm.model_executor.layers.activation import SiluAndMul
 from vllm.model_executor.layers.fused_moe import FusedMoE
+from vllm.model_executor.layers.fused_moe.config import RoutingMethodType
 from vllm.model_executor.layers.layernorm import RMSNorm
 from vllm.model_executor.layers.linear import (
     MergedColumnParallelLinear,
@@ -171,6 +172,7 @@ class Qwen3MoeSparseMoeBlock(nn.Module):
             enable_eplb=self.enable_eplb,
             num_redundant_experts=self.n_redundant_experts,
             is_sequence_parallel=self.is_sequence_parallel,
+            routing_method_type=RoutingMethodType.Renormalize,
         )
 
         self.gate = ReplicatedLinear(
diff --git a/vllm/model_executor/models/qwen3_next.py b/vllm/model_executor/models/qwen3_next.py
index 55bbad7a8b275..aa7de5aa5f29c 100644
--- a/vllm/model_executor/models/qwen3_next.py
+++ b/vllm/model_executor/models/qwen3_next.py
@@ -34,6 +34,7 @@ from vllm.model_executor.layers.fla.ops import (
     fused_recurrent_gated_delta_rule,
 )
 from vllm.model_executor.layers.fused_moe import SharedFusedMoE
+from vllm.model_executor.layers.fused_moe.config import RoutingMethodType
 from vllm.model_executor.layers.layernorm import (
     GemmaRMSNorm as Qwen3NextRMSNorm,
 )
@@ -173,6 +174,7 @@ class Qwen3NextSparseMoeBlock(nn.Module):
             enable_eplb=self.enable_eplb,
             num_redundant_experts=self.n_redundant_experts,
             is_sequence_parallel=self.is_sequence_parallel,
+            routing_method_type=RoutingMethodType.Renormalize,
         )
 
     def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:

From 6d54336ae550528408e0c84cffb7857c426509f0 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?R=C3=A9mi=20Delacourt?=
 <54138269+Flechman@users.noreply.github.com>
Date: Mon, 10 Nov 2025 20:53:32 +0100
Subject: [PATCH 280/976] [Bugfix] Fix llguidance backend, rollback when EOS
 was encountered (#25905)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Signed-off-by: Rémi Delacourt <remi@mistral.ai>
Signed-off-by: remi <remi@mistral.ai>
Co-authored-by: Russell Bryant <rbryant@redhat.com>
---
 .../test_backend_guidance.py                  | 118 ++++++++++++++++++
 vllm/v1/structured_output/backend_guidance.py |  10 +-
 2 files changed, 126 insertions(+), 2 deletions(-)
 create mode 100644 tests/v1/structured_output/test_backend_guidance.py

diff --git a/tests/v1/structured_output/test_backend_guidance.py b/tests/v1/structured_output/test_backend_guidance.py
new file mode 100644
index 0000000000000..771076186a3b4
--- /dev/null
+++ b/tests/v1/structured_output/test_backend_guidance.py
@@ -0,0 +1,118 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from transformers import AutoTokenizer
+
+from vllm.config import StructuredOutputsConfig, VllmConfig
+from vllm.config.model import ModelConfig
+from vllm.config.speculative import SpeculativeConfig
+from vllm.sampling_params import SamplingParams, StructuredOutputsParams
+from vllm.v1.request import Request
+from vllm.v1.structured_output import StructuredOutputManager
+from vllm.v1.structured_output.backend_guidance import GuidanceBackend
+from vllm.v1.structured_output.backend_types import StructuredOutputOptions
+
+TOKENIZER = "gpt2"
+
+
+def test_backend_guidance_rollback_terminated():
+    # Test that the backend guidance successfully rollbacks from a
+    # terminated state. This can happen with speculative decoding,
+    # where the draft model proposes EOS and it is verified by the
+    # guidance backend. In that case we are in a stopped state, but
+    # it should be reverted in case EOS is not accepted by the target
+    # model.
+    vllm_config = VllmConfig(
+        decoding_config=StructuredOutputsConfig(
+            backend="guidance",
+        )
+    )
+    tokenizer = AutoTokenizer.from_pretrained(TOKENIZER)
+
+    backend = GuidanceBackend(
+        vllm_config,
+        tokenizer=tokenizer,
+        vocab_size=50257,
+    )
+
+    grammar = backend.compile_grammar(
+        StructuredOutputOptions.JSON, '{"type": "object"}'
+    )
+
+    prompt = tokenizer.encode('{"a": "b"}')
+    assert len(prompt) > 1
+    dummy_wrong = tokenizer.encode('{"a"}')
+    for token in prompt:
+        assert grammar.accept_tokens("", [token])
+    assert not grammar.is_terminated()
+    assert grammar.accept_tokens("", [tokenizer.eos_token_id])
+    assert grammar.is_terminated()
+    # Giving any other token should also be accepted
+    assert grammar.accept_tokens("", dummy_wrong)
+    # Rollback is done from where state was terminated, so from '}' not EOS
+    grammar.rollback(len(prompt) - 1)
+    assert not grammar.is_terminated()
+    assert grammar.validate_tokens([tokenizer.eos_token_id]) == []
+    assert grammar.validate_tokens(dummy_wrong) != dummy_wrong
+    assert grammar.accept_tokens("", prompt[1:])
+    assert not grammar.is_terminated()
+    assert grammar.accept_tokens("", [tokenizer.eos_token_id])
+    assert grammar.is_terminated()
+    # Rollback of <= 0 should not change the terminated state
+    grammar.rollback(0)
+    assert grammar.is_terminated()
+    grammar.rollback(-1)
+    assert grammar.is_terminated()
+
+
+def test_grammar_bitmask_with_specdec():
+    tokenizer = AutoTokenizer.from_pretrained(TOKENIZER)
+    prompt = tokenizer.encode('{"a": "b"}')
+    vllm_config = VllmConfig(
+        model_config=ModelConfig(tokenizer=TOKENIZER),
+        structured_outputs_config=StructuredOutputsConfig(backend="guidance"),
+        speculative_config=SpeculativeConfig(model="[ngram]", num_speculative_tokens=3),
+    )
+    structured_output_manager = StructuredOutputManager(vllm_config)
+
+    for i in range(1, 2):
+        sampling_params = SamplingParams(
+            structured_outputs=StructuredOutputsParams(
+                json='{"type": "object"}',
+            ),
+        )
+        sampling_params.structured_outputs._backend = "guidance"
+
+        my_req_id = f"my_req_id_{i}"
+        request = Request(
+            my_req_id,
+            prompt_token_ids=prompt[:i],
+            sampling_params=sampling_params,
+            pooling_params=None,
+            eos_token_id=tokenizer.eos_token_id,
+        )
+
+        structured_output_manager.grammar_init(request)
+
+        def grammar_bitmask(req: Request, tokens: list[int]) -> None:
+            structured_output_manager.grammar_bitmask(
+                requests={req.request_id: req},
+                structured_output_request_ids={req.request_id: 0},
+                scheduled_spec_decode_tokens={req.request_id: tokens},
+            )
+            # At this point, we rolled-back, so should not be terminated
+            assert not req.structured_output_request.grammar.is_terminated()
+
+        # The grammar might not yet be compiled, so we wait for it
+        while not request.structured_output_request._check_grammar_completion():
+            continue
+
+        assert request.structured_output_request.grammar.accept_tokens(
+            request.request_id, prompt[:i]
+        )
+
+        grammar_bitmask(request, prompt[i:] + [tokenizer.eos_token_id])
+        grammar_bitmask(
+            request, prompt[i:] + [tokenizer.eos_token_id] + prompt
+        )  # EOS not the final token
+        grammar_bitmask(request, prompt[i:])  # EOS not present
+        grammar_bitmask(request, prompt[i:] + [tokenizer.eos_token_id])
diff --git a/vllm/v1/structured_output/backend_guidance.py b/vllm/v1/structured_output/backend_guidance.py
index 00a625e103bd3..2962a439dcb3e 100644
--- a/vllm/v1/structured_output/backend_guidance.py
+++ b/vllm/v1/structured_output/backend_guidance.py
@@ -111,6 +111,7 @@ class GuidanceGrammar(StructuredOutputGrammar):
     vocab_size: int
     printed_error: bool = False
     terminated: bool = False
+    rollback_lag: int = 0
 
     def check_error(self):
         if not self.printed_error:
@@ -127,6 +128,8 @@ class GuidanceGrammar(StructuredOutputGrammar):
         """
 
         if self.ll_tokenizer.eos_token in tokens:
+            if self.ll_matcher.is_stopped() and not self.terminated:
+                self.rollback_lag = 1
             self.terminated = True
 
         if self.ll_matcher.is_stopped():
@@ -163,8 +166,11 @@ class GuidanceGrammar(StructuredOutputGrammar):
         return tokens[:num_tokens]
 
     def rollback(self, num_tokens: int) -> None:
-        self.ll_matcher.rollback(num_tokens)
-        self.check_error()
+        if num_tokens > 0:
+            self.ll_matcher.rollback(num_tokens - self.rollback_lag)
+            self.terminated = False
+            self.rollback_lag = 0
+            self.check_error()
 
     def fill_bitmask(self, bitmask: torch.Tensor, idx: int) -> None:
         # this will automatically return [EOS] mask if the matcher is stopped

From 9c84ca8293034cdf8a324f7bec3a60101e0e12c2 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Jonas=20M=2E=20K=C3=BCbler?=
 <44084297+jmkuebler@users.noreply.github.com>
Date: Mon, 10 Nov 2025 21:06:04 +0100
Subject: [PATCH 281/976] [FA/Chore] Bump FA version for FP8 two-level
 accumulation  (#27889)

Signed-off-by: Jonas Kuebler <kuebj@amazon.com>
Co-authored-by: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com>
---
 cmake/external_projects/vllm_flash_attn.cmake | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/cmake/external_projects/vllm_flash_attn.cmake b/cmake/external_projects/vllm_flash_attn.cmake
index 931090db50e92..29db9fa273a41 100644
--- a/cmake/external_projects/vllm_flash_attn.cmake
+++ b/cmake/external_projects/vllm_flash_attn.cmake
@@ -38,7 +38,7 @@ else()
   FetchContent_Declare(
           vllm-flash-attn
           GIT_REPOSITORY https://github.com/vllm-project/flash-attention.git
-          GIT_TAG a893712401d70362fbb299cd9c4b3476e8e9ed54
+          GIT_TAG 8e1b01d56210dc72030a2d0d41c2d8d266ba6309
           GIT_PROGRESS TRUE
           # Don't share the vllm-flash-attn build between build types
           BINARY_DIR ${CMAKE_BINARY_DIR}/vllm-flash-attn

From 40d33264c680a8c725b93db6ccce608f99e5c7da Mon Sep 17 00:00:00 2001
From: Sage Moore <sage@neuralmagic.com>
Date: Mon, 10 Nov 2025 12:39:19 -0800
Subject: [PATCH 282/976] [Bugfix][EPLB] Disabled shared expert overlap when
 EPLB is enabled (#28377)

Signed-off-by: Sage Moore <sage@neuralmagic.com>
Signed-off-by: Sage Moore <sagemoore@utexas.edu>
Signed-off-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com>
Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
Co-authored-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com>
---
 .../layers/fused_moe/shared_fused_moe.py          | 15 ++++++++++-----
 1 file changed, 10 insertions(+), 5 deletions(-)

diff --git a/vllm/model_executor/layers/fused_moe/shared_fused_moe.py b/vllm/model_executor/layers/fused_moe/shared_fused_moe.py
index 6b4a0b8cf0730..3d0c5636d6c0a 100644
--- a/vllm/model_executor/layers/fused_moe/shared_fused_moe.py
+++ b/vllm/model_executor/layers/fused_moe/shared_fused_moe.py
@@ -28,13 +28,18 @@ class SharedFusedMoE(FusedMoE):
         super().__init__(**kwargs)
         self._shared_experts = shared_experts
 
-        # Disable shared expert overlap if we are not using
-        # flashinfer + DP since there is nothing to be gained in this case.
-        # Disabling the overlap optimization also prevents the shared experts
-        # from being hidden from torch.compile.
+        # Disable shared expert overlap if we are using eplb, because of
+        # correctness issues, or if using flashinfer with DP, since there
+        # is nothing to be gained in this case. Disabling the overlap
+        # optimization also prevents the shared experts from being hidden
+        # from torch.compile.
         self.use_overlapped = (
             use_overlapped
-            and not (self.use_flashinfer_cutlass_kernels and self.dp_size > 1)
+            and not (
+                # TODO(wentao): find the root cause and remove this condition
+                self.enable_eplb
+                or (self.use_flashinfer_cutlass_kernels and self.dp_size > 1)
+            )
             and self._shared_experts is not None
         )
 

From bf6a3d0ff5a69e0a30567f2ad417530c002eaa4e Mon Sep 17 00:00:00 2001
From: Wei Wei <wwei6@meta.com>
Date: Mon, 10 Nov 2025 13:03:21 -0800
Subject: [PATCH 283/976] [Misc] Add more scoping for improved trace (#28329)

Signed-off-by: Wei Wei <wwei6@meta.com>
---
 vllm/v1/core/sched/scheduler.py    | 118 +++++++++++++++--------------
 vllm/v1/engine/core.py             | 115 +++++++++++++++++-----------
 vllm/v1/engine/llm_engine.py       |  37 +++++----
 vllm/v1/worker/gpu_model_runner.py |  70 +++++++++--------
 4 files changed, 192 insertions(+), 148 deletions(-)

diff --git a/vllm/v1/core/sched/scheduler.py b/vllm/v1/core/sched/scheduler.py
index c17b19b58c972..46dc1071b8395 100644
--- a/vllm/v1/core/sched/scheduler.py
+++ b/vllm/v1/core/sched/scheduler.py
@@ -38,6 +38,7 @@ from vllm.v1.outputs import DraftTokenIds, KVConnectorOutput, ModelRunnerOutput
 from vllm.v1.request import Request, RequestStatus
 from vllm.v1.spec_decode.metrics import SpecDecodingStats
 from vllm.v1.structured_output import StructuredOutputManager
+from vllm.v1.utils import record_function_or_nullcontext
 
 logger = init_logger(__name__)
 
@@ -259,49 +260,52 @@ class Scheduler(SchedulerInterface):
                 continue
 
             # Schedule newly needed KV blocks for the request.
-            while True:
-                new_blocks = self.kv_cache_manager.allocate_slots(
-                    request,
-                    num_new_tokens,
-                    num_lookahead_tokens=self.num_lookahead_tokens,
-                )
-
-                if new_blocks is not None:
-                    # The request can be scheduled.
-                    break
-
-                # The request cannot be scheduled.
-                # Preempt the lowest-priority request.
-                if self.policy == SchedulingPolicy.PRIORITY:
-                    preempted_req = max(
-                        self.running,
-                        key=lambda r: (r.priority, r.arrival_time),
-                    )
-                    self.running.remove(preempted_req)
-                    if preempted_req in scheduled_running_reqs:
-                        scheduled_running_reqs.remove(preempted_req)
-                        token_budget += num_scheduled_tokens[preempted_req.request_id]
-                        req_to_new_blocks.pop(preempted_req.request_id)
-                        num_scheduled_tokens.pop(preempted_req.request_id)
-                        req_index -= 1
-                else:
-                    preempted_req = self.running.pop()
-
-                self.kv_cache_manager.free(preempted_req)
-                self.encoder_cache_manager.free(preempted_req)
-                preempted_req.status = RequestStatus.PREEMPTED
-                preempted_req.num_computed_tokens = 0
-                preempted_req.num_preemptions += 1
-                if self.log_stats:
-                    preempted_req.record_event(
-                        EngineCoreEventType.PREEMPTED, scheduled_timestamp
+            with record_function_or_nullcontext("schedule: allocate_slots"):
+                while True:
+                    new_blocks = self.kv_cache_manager.allocate_slots(
+                        request,
+                        num_new_tokens,
+                        num_lookahead_tokens=self.num_lookahead_tokens,
                     )
 
-                self.waiting.prepend_request(preempted_req)
-                preempted_reqs.append(preempted_req)
-                if preempted_req == request:
-                    # No more request to preempt. Cannot schedule this request.
-                    break
+                    if new_blocks is not None:
+                        # The request can be scheduled.
+                        break
+
+                    # The request cannot be scheduled.
+                    # Preempt the lowest-priority request.
+                    if self.policy == SchedulingPolicy.PRIORITY:
+                        preempted_req = max(
+                            self.running,
+                            key=lambda r: (r.priority, r.arrival_time),
+                        )
+                        self.running.remove(preempted_req)
+                        if preempted_req in scheduled_running_reqs:
+                            scheduled_running_reqs.remove(preempted_req)
+                            token_budget += num_scheduled_tokens[
+                                preempted_req.request_id
+                            ]
+                            req_to_new_blocks.pop(preempted_req.request_id)
+                            num_scheduled_tokens.pop(preempted_req.request_id)
+                            req_index -= 1
+                    else:
+                        preempted_req = self.running.pop()
+
+                    self.kv_cache_manager.free(preempted_req)
+                    self.encoder_cache_manager.free(preempted_req)
+                    preempted_req.status = RequestStatus.PREEMPTED
+                    preempted_req.num_computed_tokens = 0
+                    preempted_req.num_preemptions += 1
+                    if self.log_stats:
+                        preempted_req.record_event(
+                            EngineCoreEventType.PREEMPTED, scheduled_timestamp
+                        )
+
+                    self.waiting.prepend_request(preempted_req)
+                    preempted_reqs.append(preempted_req)
+                    if preempted_req == request:
+                        # No more request to preempt. Cannot schedule this request.
+                        break
 
             if new_blocks is None:
                 # Cannot schedule this request.
@@ -599,13 +603,14 @@ class Scheduler(SchedulerInterface):
         # Get the longest common prefix among all requests in the running queue.
         # This can be potentially used for cascade attention.
         num_common_prefix_blocks = [0] * len(self.kv_cache_config.kv_cache_groups)
-        if self.running:
-            any_request = self.running[0]
-            num_common_prefix_blocks = (
-                self.kv_cache_manager.get_num_common_prefix_blocks(
-                    any_request.request_id
+        with record_function_or_nullcontext("schedule: get_num_common_prefix_blocks"):
+            if self.running:
+                any_request = self.running[0]
+                num_common_prefix_blocks = (
+                    self.kv_cache_manager.get_num_common_prefix_blocks(
+                        any_request.request_id
+                    )
                 )
-            )
 
         # Construct the scheduler output.
         new_reqs_data = [
@@ -614,13 +619,14 @@ class Scheduler(SchedulerInterface):
             )
             for req in scheduled_new_reqs
         ]
-        cached_reqs_data = self._make_cached_request_data(
-            scheduled_running_reqs,
-            scheduled_resumed_reqs,
-            num_scheduled_tokens,
-            scheduled_spec_decode_tokens,
-            req_to_new_blocks,
-        )
+        with record_function_or_nullcontext("schedule: make_cached_request_data"):
+            cached_reqs_data = self._make_cached_request_data(
+                scheduled_running_reqs,
+                scheduled_resumed_reqs,
+                num_scheduled_tokens,
+                scheduled_spec_decode_tokens,
+                req_to_new_blocks,
+            )
 
         # Record the request ids that were scheduled in this step.
         self.prev_step_scheduled_req_ids.clear()
@@ -649,8 +655,8 @@ class Scheduler(SchedulerInterface):
         if self.connector is not None:
             meta = self.connector.build_connector_meta(scheduler_output)
             scheduler_output.kv_connector_metadata = meta
-
-        self._update_after_schedule(scheduler_output)
+        with record_function_or_nullcontext("schedule: update_after_schedule"):
+            self._update_after_schedule(scheduler_output)
         return scheduler_output
 
     def _update_after_schedule(
diff --git a/vllm/v1/engine/core.py b/vllm/v1/engine/core.py
index fba018432e0a8..c3efd52130cce 100644
--- a/vllm/v1/engine/core.py
+++ b/vllm/v1/engine/core.py
@@ -61,6 +61,7 @@ from vllm.v1.outputs import ModelRunnerOutput
 from vllm.v1.request import Request, RequestStatus
 from vllm.v1.serial_utils import MsgpackDecoder, MsgpackEncoder
 from vllm.v1.structured_output import StructuredOutputManager
+from vllm.v1.utils import record_function_or_nullcontext
 from vllm.version import __version__ as VLLM_VERSION
 
 logger = init_logger(__name__)
@@ -315,17 +316,21 @@ class EngineCore:
         # or finished and not yet removed from the batch.
         if not self.scheduler.has_requests():
             return {}, False
-        scheduler_output = self.scheduler.schedule()
-        future = self.model_executor.execute_model(scheduler_output, non_block=True)
-        grammar_output = self.scheduler.get_grammar_bitmask(scheduler_output)
-        with self.log_error_detail(scheduler_output):
-            model_output = future.result()
-            if model_output is None:
-                model_output = self.model_executor.sample_tokens(grammar_output)
+        with record_function_or_nullcontext("core step: schedule"):
+            scheduler_output = self.scheduler.schedule()
 
-        engine_core_outputs = self.scheduler.update_from_output(
-            scheduler_output, model_output
-        )
+        with record_function_or_nullcontext("core step: execute_model"):
+            future = self.model_executor.execute_model(scheduler_output, non_block=True)
+            grammar_output = self.scheduler.get_grammar_bitmask(scheduler_output)
+            with self.log_error_detail(scheduler_output):
+                model_output = future.result()
+                if model_output is None:
+                    model_output = self.model_executor.sample_tokens(grammar_output)
+
+        with record_function_or_nullcontext("core step: update_from_output"):
+            engine_core_outputs = self.scheduler.update_from_output(
+                scheduler_output, model_output
+            )
 
         return engine_core_outputs, scheduler_output.total_num_scheduled_tokens > 0
 
@@ -363,32 +368,49 @@ class EngineCore:
         model_executed = False
         deferred_scheduler_output = None
         if self.scheduler.has_requests():
-            scheduler_output = self.scheduler.schedule()
-            exec_future = self.model_executor.execute_model(
-                scheduler_output, non_block=True
-            )
+            with record_function_or_nullcontext("core step_with_batch_queue: schedule"):
+                scheduler_output = self.scheduler.schedule()
+            with record_function_or_nullcontext(
+                "core step_with_batch_queue: execute_model"
+            ):
+                exec_future = self.model_executor.execute_model(
+                    scheduler_output, non_block=True
+                )
             model_executed = scheduler_output.total_num_scheduled_tokens > 0
 
             if scheduler_output.pending_structured_output_tokens:
-                # We need to defer sampling until we have processed the model output
-                # from the prior step.
-                deferred_scheduler_output = scheduler_output
-                # Block-wait for execute to return (continues running async on the GPU).
-                with self.log_error_detail(scheduler_output):
-                    exec_result = exec_future.result()
-                    assert exec_result is None
+                with record_function_or_nullcontext(
+                    "core step_with_batch_queue: pending_structured_output_tokens"
+                ):
+                    # We need to defer sampling until we have processed the model output
+                    # from the prior step.
+                    deferred_scheduler_output = scheduler_output
+                    # Block-wait for execute to return
+                    # (continues running async on the GPU).
+                    with self.log_error_detail(scheduler_output):
+                        exec_result = exec_future.result()
+                        assert exec_result is None
             else:
-                # We aren't waiting for any tokens, get any grammar output immediately.
-                grammar_output = self.scheduler.get_grammar_bitmask(scheduler_output)
+                with record_function_or_nullcontext(
+                    "core step_with_batch_queue: get_grammar_bitmask"
+                ):
+                    # We aren't waiting for any tokens, get any grammar
+                    # output immediately.
+                    grammar_output = self.scheduler.get_grammar_bitmask(
+                        scheduler_output
+                    )
                 # Block-wait for execute to return (continues running async on the GPU).
                 with self.log_error_detail(scheduler_output):
                     exec_result = exec_future.result()
 
                 if exec_result is None:
-                    # Call sample tokens.
-                    future = self.model_executor.sample_tokens(
-                        grammar_output, non_block=True
-                    )
+                    with record_function_or_nullcontext(
+                        "core step_with_batch_queue: sample_tokens"
+                    ):
+                        # Call sample tokens.
+                        future = self.model_executor.sample_tokens(
+                            grammar_output, non_block=True
+                        )
                 else:
                     # No sampling required (e.g. all requests finished).
                     future = cast(Future[ModelRunnerOutput], exec_future)
@@ -408,27 +430,34 @@ class EngineCore:
             # only be called when the scheduler contains requests or the queue
             # is non-empty.
             return None, False
-
-        # Block until the next result is available.
-        future, scheduler_output = batch_queue.pop()
-        with self.log_error_detail(scheduler_output):
-            model_output = future.result()
-
-        engine_core_outputs = self.scheduler.update_from_output(
-            scheduler_output, model_output
-        )
+        with record_function_or_nullcontext("core step_with_batch_queue: model_output"):
+            # Block until the next result is available.
+            future, scheduler_output = batch_queue.pop()
+            with self.log_error_detail(scheduler_output):
+                model_output = future.result()
+        with record_function_or_nullcontext(
+            "core step_with_batch_queue: update_from_output"
+        ):
+            engine_core_outputs = self.scheduler.update_from_output(
+                scheduler_output, model_output
+            )
 
         # NOTE(nick): We can either handle the deferred tasks here or save
         # in a field and do it immediately once step_with_batch_queue is
         # re-called. The latter slightly favors TTFT over TPOT/throughput.
         if deferred_scheduler_output:
-            # We now have the tokens needed to compute the bitmask for the
-            # deferred request. Get the bitmask and call sample tokens.
-            grammar_output = self.scheduler.get_grammar_bitmask(
-                deferred_scheduler_output
-            )
-            future = self.model_executor.sample_tokens(grammar_output, non_block=True)
-            batch_queue.appendleft((future, deferred_scheduler_output))
+            with record_function_or_nullcontext(
+                "core step_with_batch_queue: deferred_scheduler_output"
+            ):
+                # We now have the tokens needed to compute the bitmask for the
+                # deferred request. Get the bitmask and call sample tokens.
+                grammar_output = self.scheduler.get_grammar_bitmask(
+                    deferred_scheduler_output
+                )
+                future = self.model_executor.sample_tokens(
+                    grammar_output, non_block=True
+                )
+                batch_queue.appendleft((future, deferred_scheduler_output))
 
         return engine_core_outputs, model_executed
 
diff --git a/vllm/v1/engine/llm_engine.py b/vllm/v1/engine/llm_engine.py
index e32c74aff313a..d27d13840989e 100644
--- a/vllm/v1/engine/llm_engine.py
+++ b/vllm/v1/engine/llm_engine.py
@@ -36,6 +36,7 @@ from vllm.v1.executor import Executor
 from vllm.v1.metrics.loggers import StatLoggerFactory, StatLoggerManager
 from vllm.v1.metrics.reader import Metric, get_metrics_snapshot
 from vllm.v1.metrics.stats import IterationStats
+from vllm.v1.utils import record_function_or_nullcontext
 from vllm.v1.worker.worker_base import WorkerBase
 
 logger = init_logger(__name__)
@@ -280,28 +281,32 @@ class LLMEngine:
             return []
 
         # 1) Get EngineCoreOutput from the EngineCore.
-        outputs = self.engine_core.get_output()
+        with record_function_or_nullcontext("llm_genine step: get_output"):
+            outputs = self.engine_core.get_output()
 
         # 2) Process EngineCoreOutputs.
-        iteration_stats = IterationStats() if self.log_stats else None
-        processed_outputs = self.output_processor.process_outputs(
-            outputs.outputs,
-            engine_core_timestamp=outputs.timestamp,
-            iteration_stats=iteration_stats,
-        )
-        self.output_processor.update_scheduler_stats(outputs.scheduler_stats)
+        with record_function_or_nullcontext("llm_genine step: process_outputs"):
+            iteration_stats = IterationStats() if self.log_stats else None
+            processed_outputs = self.output_processor.process_outputs(
+                outputs.outputs,
+                engine_core_timestamp=outputs.timestamp,
+                iteration_stats=iteration_stats,
+            )
+            self.output_processor.update_scheduler_stats(outputs.scheduler_stats)
 
         # 3) Abort any reqs that finished due to stop strings.
-        self.engine_core.abort_requests(processed_outputs.reqs_to_abort)
+        with record_function_or_nullcontext("llm_genine step: abort_requests"):
+            self.engine_core.abort_requests(processed_outputs.reqs_to_abort)
 
         # 4) Record stats
-        if self.logger_manager is not None and outputs.scheduler_stats is not None:
-            self.logger_manager.record(
-                scheduler_stats=outputs.scheduler_stats,
-                iteration_stats=iteration_stats,
-                mm_cache_stats=self.processor.stat_mm_cache(),
-            )
-            self.do_log_stats_with_interval()
+        with record_function_or_nullcontext("llm_genine step: record_stats"):
+            if self.logger_manager is not None and outputs.scheduler_stats is not None:
+                self.logger_manager.record(
+                    scheduler_stats=outputs.scheduler_stats,
+                    iteration_stats=iteration_stats,
+                    mm_cache_stats=self.processor.stat_mm_cache(),
+                )
+                self.do_log_stats_with_interval()
 
         return processed_outputs.request_outputs
 
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index 26007d29d61b8..9403b5756e052 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -2525,7 +2525,7 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
                 "after execute_model() returns None."
             )
         num_scheduled_tokens = scheduler_output.total_num_scheduled_tokens
-        with record_function_or_nullcontext("Preprocess"):
+        with record_function_or_nullcontext("gpu_model_runner: preprocess"):
             with self.synchronize_input_prep():
                 # Update persistent batch states.
                 self._update_states(scheduler_output)
@@ -2648,7 +2648,7 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
                 batch_descriptor=batch_descriptor,
                 ubatch_slices=ubatch_slices,
             ),
-            record_function_or_nullcontext("Forward"),
+            record_function_or_nullcontext("gpu_model_runner: forward"),
             self.maybe_get_kv_connector_output(scheduler_output) as kv_connector_output,
         ):
             model_output = self._model_forward(
@@ -2659,7 +2659,7 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
                 **model_kwargs,
             )
 
-        with record_function_or_nullcontext("Postprocess"):
+        with record_function_or_nullcontext("gpu_model_runner: postprocess"):
             if self.use_aux_hidden_state_outputs:
                 # True when EAGLE 3 is used.
                 hidden_states, aux_hidden_states = model_output
@@ -2756,12 +2756,12 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
                 scheduler_output, grammar_output, self.input_batch, logits
             )
 
-        with record_function_or_nullcontext("Sample"):
+        with record_function_or_nullcontext("gpu_model_runner: sample"):
             sampler_output = self._sample(logits, spec_decode_metadata)
 
         def propose_draft_token_ids(sampled_token_ids):
             assert spec_decode_common_attn_metadata is not None
-            with record_function_or_nullcontext("Draft"):
+            with record_function_or_nullcontext("gpu_model_runner: draft"):
                 self._draft_token_ids = self.propose_draft_token_ids(
                     scheduler_output,
                     sampled_token_ids,
@@ -2799,7 +2799,7 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
             # as inputs, and does not need to wait for bookkeeping to finish.
             propose_draft_token_ids(sampler_output.sampled_token_ids)
 
-        with record_function_or_nullcontext("Bookkeep"):
+        with record_function_or_nullcontext("gpu_model_runner: bookkeep"):
             (
                 num_nans_in_logits,
                 logprobs_lists,
@@ -2826,37 +2826,41 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
             # tokens on the CPU, so they are run after bookkeeping.
             propose_draft_token_ids(valid_sampled_token_ids)
 
-        with record_function_or_nullcontext("EPLB"):
+        with record_function_or_nullcontext("gpu_model_runner: eplb"):
             self.eplb_step()
-
-        output = ModelRunnerOutput(
-            req_ids=req_ids_output_copy,
-            req_id_to_index=req_id_to_index_output_copy,
-            sampled_token_ids=valid_sampled_token_ids,
-            logprobs=logprobs_lists,
-            prompt_logprobs_dict=prompt_logprobs_dict,
-            pooler_output=[],
-            kv_connector_output=kv_connector_output,
-            num_nans_in_logits=num_nans_in_logits,
-        )
+        with record_function_or_nullcontext("gpu_model_runner: ModelRunnerOutput"):
+            output = ModelRunnerOutput(
+                req_ids=req_ids_output_copy,
+                req_id_to_index=req_id_to_index_output_copy,
+                sampled_token_ids=valid_sampled_token_ids,
+                logprobs=logprobs_lists,
+                prompt_logprobs_dict=prompt_logprobs_dict,
+                pooler_output=[],
+                kv_connector_output=kv_connector_output,
+                num_nans_in_logits=num_nans_in_logits,
+            )
 
         if not self.use_async_scheduling:
             return output
-
-        async_output = AsyncGPUModelRunnerOutput(
-            model_runner_output=output,
-            sampled_token_ids=sampler_output.sampled_token_ids,
-            logprobs_tensors=sampler_output.logprobs_tensors,
-            invalid_req_indices=invalid_req_indices,
-            async_output_copy_stream=self.async_output_copy_stream,
-        )
-
-        # Save ref of sampled_token_ids CPU tensor if the batch contains
-        # any requests with sampling params that that require output ids.
-        self.input_batch.set_async_sampled_token_ids(
-            async_output.sampled_token_ids_cpu,
-            async_output.async_copy_ready_event,
-        )
+        with record_function_or_nullcontext(
+            "gpu_model_runner: AsyncGPUModelRunnerOutput"
+        ):
+            async_output = AsyncGPUModelRunnerOutput(
+                model_runner_output=output,
+                sampled_token_ids=sampler_output.sampled_token_ids,
+                logprobs_tensors=sampler_output.logprobs_tensors,
+                invalid_req_indices=invalid_req_indices,
+                async_output_copy_stream=self.async_output_copy_stream,
+            )
+        with record_function_or_nullcontext(
+            "gpu_model_runner: set_async_sampled_token_ids"
+        ):
+            # Save ref of sampled_token_ids CPU tensor if the batch contains
+            # any requests with sampling params that that require output ids.
+            self.input_batch.set_async_sampled_token_ids(
+                async_output.sampled_token_ids_cpu,
+                async_output.async_copy_ready_event,
+            )
 
         return async_output
 

From 6dec9f61098786690b4ca2140682dbafb849f8d9 Mon Sep 17 00:00:00 2001
From: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com>
Date: Mon, 10 Nov 2025 17:01:17 -0500
Subject: [PATCH 284/976] [BugFix] Fix DeepGEMM over-allocating workspace
 (#28254)

Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com>
---
 vllm/model_executor/layers/fused_moe/deep_gemm_moe.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/model_executor/layers/fused_moe/deep_gemm_moe.py b/vllm/model_executor/layers/fused_moe/deep_gemm_moe.py
index 484b8aa9d107c..86cdd25f2c873 100644
--- a/vllm/model_executor/layers/fused_moe/deep_gemm_moe.py
+++ b/vllm/model_executor/layers/fused_moe/deep_gemm_moe.py
@@ -215,7 +215,7 @@ class DeepGemmExperts(mk.FusedMoEPermuteExpertsUnpermute):
         )
         assert M_sum % block_m == 0
 
-        workspace1 = (M_sum, max(N, K))
+        workspace1 = (M_sum, N)
         workspace2 = (M_sum, max(N // 2, K))
         output = (M, K)
         return (workspace1, workspace2, output)

From 4b94ed8f928533b1f7c3a0293790ccb592b49f1a Mon Sep 17 00:00:00 2001
From: Andrew Xia <axia@meta.com>
Date: Mon, 10 Nov 2025 14:07:49 -0800
Subject: [PATCH 285/976] [Frontend][2/n] remove empty content from
 _parse_tool_calls_from_content (#28331)

Signed-off-by: Andrew Xia <axia@fb.com>
Co-authored-by: Andrew Xia <axia@fb.com>
---
 vllm/entrypoints/openai/serving_engine.py | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/vllm/entrypoints/openai/serving_engine.py b/vllm/entrypoints/openai/serving_engine.py
index 8ce4ff574699d..30b8499b08d5b 100644
--- a/vllm/entrypoints/openai/serving_engine.py
+++ b/vllm/entrypoints/openai/serving_engine.py
@@ -1375,6 +1375,8 @@ class OpenAIServing:
                     for tool_call in tool_call_info.tool_calls
                 )
                 content = tool_call_info.content
+                if content and content.strip() == "":
+                    content = None
             else:
                 # No tool calls.
                 return None, content

From 30700b1cd7de51f191be718215a58f5a8ddcb8aa Mon Sep 17 00:00:00 2001
From: Robert Shaw <114415538+robertgshaw2-redhat@users.noreply.github.com>
Date: Mon, 10 Nov 2025 17:36:11 -0500
Subject: [PATCH 286/976] [CI] Fix Plugin Tests Tests (#28413)

Signed-off-by: Robert Shaw <robertgshaw2@gmail.com>
---
 vllm/config/vllm.py | 24 +++++++++++++-----------
 1 file changed, 13 insertions(+), 11 deletions(-)

diff --git a/vllm/config/vllm.py b/vllm/config/vllm.py
index d4ee6f980e6ec..0fca967d90838 100644
--- a/vllm/config/vllm.py
+++ b/vllm/config/vllm.py
@@ -608,17 +608,19 @@ class VllmConfig:
             )
         current_platform.check_and_update_config(self)
 
-        assert (
-            self.parallel_config.dcp_kv_cache_interleave_size
-            <= self.cache_config.block_size
-            and self.cache_config.block_size
-            % self.parallel_config.dcp_kv_cache_interleave_size
-            == 0
-        ), (
-            f"Block_size({self.cache_config.block_size}) should be "
-            "greater than or equal to and divisible by dcp_kv_cache_interleave_size "
-            f"({self.parallel_config.dcp_kv_cache_interleave_size})."
-        )
+        # If DCP, ensure the block size is right.
+        if self.parallel_config.decode_context_parallel_size > 1:
+            assert (
+                self.parallel_config.dcp_kv_cache_interleave_size
+                <= self.cache_config.block_size
+                and self.cache_config.block_size
+                % self.parallel_config.dcp_kv_cache_interleave_size
+                == 0
+            ), (
+                f"Block_size({self.cache_config.block_size}) should be greater "
+                "than or equal to and divisible by dcp_kv_cache_interleave_size "
+                f"({self.parallel_config.dcp_kv_cache_interleave_size})."
+            )
 
         assert (
             self.parallel_config.dcp_kv_cache_interleave_size == 1

From 021143561fcffa9bee133d0b3bd311bc5cb3703c Mon Sep 17 00:00:00 2001
From: Yong Hoon Shin <48474650+sarckk@users.noreply.github.com>
Date: Mon, 10 Nov 2025 13:13:36 -1000
Subject: [PATCH 287/976] [ROCm] Add missing gemm_a8w8_blockscale import
 (#28378)

Signed-off-by: Yong Hoon Shin <yhshin@meta.com>
---
 .../layers/quantization/utils/fp8_utils.py    | 41 ++++++++++---------
 1 file changed, 21 insertions(+), 20 deletions(-)

diff --git a/vllm/model_executor/layers/quantization/utils/fp8_utils.py b/vllm/model_executor/layers/quantization/utils/fp8_utils.py
index 63726c07b7d18..c63196b893574 100644
--- a/vllm/model_executor/layers/quantization/utils/fp8_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/fp8_utils.py
@@ -316,38 +316,39 @@ class W8A8BlockFp8LinearOp:
         assert self.act_quant_group_shape == GroupShape(1, 128)
 
         n, k = weight.shape
-        if input_scale is not None:
-            q_input = input_2d
 
-        # MI350 case uses triton kernel
-        if (
+        use_triton = (
             not current_platform.is_fp8_fnuz()
             and rocm_aiter_ops.is_triton_gemm_w8a8_tuned(n, k)
-        ):
+        )
+
+        if use_triton:
+            gemm_a8w8_blockscale_op = rocm_aiter_ops.triton_gemm_a8w8_blockscale
+        else:
+            gemm_a8w8_blockscale_op = rocm_aiter_ops.gemm_w8a8_blockscale
+
+        if input_scale is not None:
+            q_input = input_2d
+        # MI350 case uses triton kernel
+        elif use_triton:
             q_input, input_scale = per_token_group_quant_fp8(
                 input_2d,
                 self.act_quant_group_shape.col,
                 column_major_scales=False,
                 use_ue8m0=False,
             )
-            return rocm_aiter_ops.triton_gemm_a8w8_blockscale(
-                q_input,
-                weight,
-                input_scale,
-                weight_scale,
-                input_2d.dtype,
-            )
-
         # MI300 uses tuned AITER ASM/C++ kernel
         else:
             q_input, input_scale = rocm_aiter_ops.per_1x128_fp8_quant(input_2d)
-            return rocm_aiter_ops.gemm_w8a8_blockscale(
-                q_input,
-                weight,
-                input_scale,
-                weight_scale,
-                input_2d.dtype,
-            )
+
+        return gemm_a8w8_blockscale_op(
+            q_input,
+            weight,
+            input_scale,
+            weight_scale,
+            list(self.weight_group_shape),
+            output_dtype=input_2d.dtype,
+        )
 
     def _run_triton(
         self,

From d17ecc6b19b597615893be6c0eb61c9b4a9c9455 Mon Sep 17 00:00:00 2001
From: Ilya Markov <markovilya197@gmail.com>
Date: Tue, 11 Nov 2025 00:33:11 +0100
Subject: [PATCH 288/976] [PERF] Allreduce fusion. Support torch native
 matching. Tuning of the thresholds (#24248)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Signed-off-by: Luka Govedič <lgovedic@redhat.com>
Signed-off-by: Luka Govedič <ProExpertProg@users.noreply.github.com>
Signed-off-by: ilmarkov <markovilya197@gmail.com>
Co-authored-by: Luka Govedič <lgovedic@redhat.com>
Co-authored-by: Luka Govedič <ProExpertProg@users.noreply.github.com>
Co-authored-by: Robert Shaw <114415538+robertgshaw2-redhat@users.noreply.github.com>
---
 .buildkite/test-pipeline.yaml                 |    4 +-
 .../kernels/benchmark_fused_collective.py     | 1129 +++++++++++++++++
 tests/compile/test_fusions_e2e.py             |    7 +
 vllm/compilation/collective_fusion.py         |  132 +-
 vllm/config/compilation.py                    |   50 +-
 vllm/model_executor/layers/fused_moe/layer.py |   45 +-
 6 files changed, 1284 insertions(+), 83 deletions(-)
 create mode 100644 benchmarks/kernels/benchmark_fused_collective.py

diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index b81c090fa4710..3152cd6488f36 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -463,8 +463,8 @@ steps:
   - pytest -v -s compile/test_multimodal_compile.py
   - pytest -v -s compile/piecewise/
 
-- label: PyTorch Fullgraph Test # 22min
-  timeout_in_minutes: 35
+- label: PyTorch Fullgraph Test # 27min
+  timeout_in_minutes: 40
   mirror_hardwares: [amdexperimental]
   torch_nightly: true
   source_file_dependencies:
diff --git a/benchmarks/kernels/benchmark_fused_collective.py b/benchmarks/kernels/benchmark_fused_collective.py
new file mode 100644
index 0000000000000..38e7fdcf55426
--- /dev/null
+++ b/benchmarks/kernels/benchmark_fused_collective.py
@@ -0,0 +1,1129 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+"""
+Benchmark for FlashInfer fused collective operations vs standard operations.
+
+This benchmark compares:
+1. FlashInfer's trtllm_allreduce_fusion (fused allreduce + rmsnorm + optional quant)
+2. Standard tensor_model_parallel_all_reduce + separate rmsnorm/quant operations
+
+Usage with torchrun:
+    torchrun --nproc_per_node=2 benchmark_fused_collective.py
+
+"""
+
+import argparse
+import itertools
+import os
+import time
+
+import pandas as pd
+import torch  # type: ignore
+import torch.distributed as dist  # type: ignore
+
+from vllm.config.vllm import CompilationConfig, VllmConfig, set_current_vllm_config
+from vllm.distributed import (
+    get_tp_group,
+    tensor_model_parallel_all_reduce,
+)
+from vllm.distributed.parallel_state import (
+    graph_capture,
+    init_distributed_environment,
+    initialize_model_parallel,
+)
+from vllm.logger import init_logger
+from vllm.model_executor.layers.layernorm import RMSNorm  # noqa
+from vllm.model_executor.layers.quantization.input_quant_fp8 import QuantFP8  # noqa
+from vllm.model_executor.layers.quantization.utils.quant_utils import GroupShape  # noqa
+from vllm.platforms import current_platform  # noqa
+
+RMS_NORM_OP = torch.ops._C.rms_norm
+FUSED_ADD_RMS_NORM_OP = torch.ops._C.fused_add_rms_norm
+RMS_NORM_STATIC_FP8_QUANT_OP = torch.ops._C.rms_norm_static_fp8_quant
+FUSED_ADD_RMS_NORM_STATIC_FP8_QUANT_OP = (
+    torch.ops._C.fused_add_rms_norm_static_fp8_quant
+)
+SCALED_FP4_QUANT_OP = torch.ops._C.scaled_fp4_quant
+
+logger = init_logger(__name__)
+
+# Try to import FlashInfer
+try:
+    import flashinfer.comm as flashinfer_comm  # type: ignore
+
+    if not hasattr(flashinfer_comm, "trtllm_allreduce_fusion"):
+        flashinfer_comm = None
+        logger.warning(
+            "FlashInfer comm module found but missing trtllm_allreduce_fusion"
+        )
+except ImportError:
+    flashinfer_comm = None
+    logger.warning("FlashInfer not found, only benchmarking standard operations")
+
+# Constants
+FP8_DTYPE = current_platform.fp8_dtype()
+MiB = 1024 * 1024
+
+# FlashInfer max sizes per world size
+# Enable 64MB for 2, 4, 8 world sizes to verify large input sizes
+# use --disable-oneshot to disable oneshot mode for very large input sizes
+_FI_MAX_SIZES = {
+    2: 64 * MiB,  # 64MB
+    4: 64 * MiB,  # 64MB
+    8: 64 * MiB,  # 64MB
+}
+
+# Global workspace tensor for FlashInfer
+_FI_WORKSPACE_TENSOR = None
+
+
+def setup_flashinfer_workspace(
+    world_size: int,
+    rank: int,
+    hidden_dim: int,
+    max_token_num: int,
+    use_fp32_lamport: bool = False,
+):
+    """Setup FlashInfer workspace for fused allreduce operations."""
+    global _FI_WORKSPACE_TENSOR
+
+    if flashinfer_comm is None:
+        return None, None
+
+    if world_size not in _FI_MAX_SIZES:
+        logger.warning("FlashInfer not supported for world size %s", world_size)
+        return None, None
+
+    try:
+        # Create IPC workspace
+        ipc_handles, workspace_tensor = (
+            flashinfer_comm.trtllm_create_ipc_workspace_for_all_reduce_fusion(
+                tp_rank=rank,
+                tp_size=world_size,
+                max_token_num=max_token_num,
+                hidden_dim=hidden_dim,
+                group=get_tp_group().device_group,
+                use_fp32_lamport=use_fp32_lamport,
+            )
+        )
+
+        _FI_WORKSPACE_TENSOR = workspace_tensor
+        return ipc_handles, workspace_tensor
+    except Exception as e:
+        logger.error("Failed to setup FlashInfer workspace: %s", e)
+        return None, None
+
+
+def cleanup_flashinfer_workspace(ipc_handles):
+    """Cleanup FlashInfer workspace."""
+    if flashinfer_comm is None or ipc_handles is None:
+        return
+
+    try:
+        group = get_tp_group().device_group
+        flashinfer_comm.trtllm_destroy_ipc_workspace_for_all_reduce(ipc_handles, group)
+    except Exception as e:
+        logger.error("Failed to cleanup FlashInfer workspace: %s", e)
+
+
+class FlashInferFusedAllReduceParams:
+    """Parameters for FlashInfer fused allreduce operations."""
+
+    def __init__(
+        self,
+        rank: int,
+        world_size: int,
+        use_fp32_lamport: bool = False,
+        max_token_num: int = 1024,
+    ):
+        self.rank = rank
+        self.world_size = world_size
+        self.use_fp32_lamport = use_fp32_lamport
+        self.trigger_completion_at_end = True
+        self.launch_with_pdl = True
+        self.fp32_acc = True
+        self.max_token_num = max_token_num
+
+    def get_trtllm_fused_allreduce_kwargs(self):
+        return {
+            "world_rank": self.rank,
+            "world_size": self.world_size,
+            "launch_with_pdl": self.launch_with_pdl,
+            "trigger_completion_at_end": self.trigger_completion_at_end,
+            "fp32_acc": self.fp32_acc,
+        }
+
+
+def flashinfer_fused_allreduce_rmsnorm(
+    input_tensor: torch.Tensor,
+    residual: torch.Tensor | None,
+    rms_gamma: torch.Tensor,
+    rms_eps: float,
+    allreduce_params: "FlashInferFusedAllReduceParams",
+    use_oneshot: bool,
+    norm_out: torch.Tensor | None = None,
+):
+    """FlashInfer fused allreduce + rmsnorm operation."""
+    if flashinfer_comm is None or _FI_WORKSPACE_TENSOR is None:
+        raise RuntimeError("FlashInfer not available or workspace not initialized")
+
+    if norm_out is None:
+        norm_out = input_tensor
+        residual_out = residual
+    else:
+        residual_out = input_tensor
+
+    flashinfer_comm.trtllm_allreduce_fusion(
+        allreduce_in=input_tensor,
+        token_num=input_tensor.shape[0],
+        residual_in=residual,
+        residual_out=residual_out,
+        norm_out=norm_out,
+        rms_gamma=rms_gamma,
+        rms_eps=rms_eps,
+        hidden_dim=input_tensor.shape[-1],
+        workspace_ptrs=_FI_WORKSPACE_TENSOR,
+        pattern_code=flashinfer_comm.AllReduceFusionPattern.kARResidualRMSNorm,
+        allreduce_out=None,
+        quant_out=None,
+        scale_out=None,
+        layout_code=flashinfer_comm.QuantizationSFLayout.SWIZZLED_128x4,
+        scale_factor=None,
+        use_oneshot=use_oneshot,
+        **allreduce_params.get_trtllm_fused_allreduce_kwargs(),
+    )
+
+
+def flashinfer_fused_allreduce_rmsnorm_fp8_quant(
+    input_tensor: torch.Tensor,
+    residual: torch.Tensor | None,
+    rms_gamma: torch.Tensor,
+    rms_eps: float,
+    scale_factor: torch.Tensor,
+    allreduce_params: FlashInferFusedAllReduceParams,
+    use_oneshot: bool = True,
+    norm_out: torch.Tensor | None = None,
+    quant_out: torch.Tensor | None = None,
+):
+    """FlashInfer fused allreduce + rmsnorm + FP8 quantization."""
+    if flashinfer_comm is None or _FI_WORKSPACE_TENSOR is None:
+        raise RuntimeError("FlashInfer not available or workspace not initialized")
+
+    if norm_out is None:
+        norm_out = input_tensor
+        residual_out = residual
+    else:
+        residual_out = input_tensor
+
+    flashinfer_comm.trtllm_allreduce_fusion(
+        allreduce_in=input_tensor,
+        token_num=input_tensor.shape[0],
+        residual_in=residual,
+        residual_out=residual_out,
+        norm_out=norm_out,
+        rms_gamma=rms_gamma,
+        rms_eps=rms_eps,
+        hidden_dim=input_tensor.shape[-1],
+        workspace_ptrs=_FI_WORKSPACE_TENSOR,
+        pattern_code=flashinfer_comm.AllReduceFusionPattern.kARResidualRMSNormFP8Quant,
+        allreduce_out=None,
+        quant_out=quant_out,
+        scale_out=None,
+        layout_code=flashinfer_comm.QuantizationSFLayout.SWIZZLED_128x4,
+        scale_factor=scale_factor,
+        use_oneshot=use_oneshot,
+        **allreduce_params.get_trtllm_fused_allreduce_kwargs(),
+    )
+
+
+def flashinfer_fused_allreduce_rmsnorm_fp4_quant(
+    input_tensor: torch.Tensor,
+    residual: torch.Tensor | None,
+    rms_gamma: torch.Tensor,
+    rms_eps: float,
+    input_global_scale: torch.Tensor,
+    allreduce_params: FlashInferFusedAllReduceParams,
+    quant_out: torch.Tensor,
+    use_oneshot: bool,
+    output_scale: torch.Tensor,
+    norm_out: torch.Tensor | None = None,
+):
+    """FlashInfer fused allreduce + rmsnorm + FP4 quantization."""
+    if flashinfer_comm is None or _FI_WORKSPACE_TENSOR is None:
+        raise RuntimeError("FlashInfer not available or workspace not initialized")
+
+    if norm_out is None:
+        norm_out = input_tensor
+        residual_out = residual
+    else:
+        residual_out = input_tensor
+
+    flashinfer_comm.trtllm_allreduce_fusion(
+        allreduce_in=input_tensor,
+        token_num=input_tensor.shape[0],
+        residual_in=residual,
+        residual_out=residual_out,
+        norm_out=norm_out,
+        rms_gamma=rms_gamma,
+        rms_eps=rms_eps,
+        hidden_dim=input_tensor.shape[-1],
+        workspace_ptrs=_FI_WORKSPACE_TENSOR,
+        pattern_code=flashinfer_comm.AllReduceFusionPattern.kARResidualRMSNormFP4Quant,
+        allreduce_out=None,
+        quant_out=quant_out,
+        scale_out=output_scale,
+        layout_code=flashinfer_comm.QuantizationSFLayout.SWIZZLED_128x4,
+        scale_factor=input_global_scale,
+        use_oneshot=use_oneshot,
+        **allreduce_params.get_trtllm_fused_allreduce_kwargs(),
+    )
+
+
+class VllmFusedAllreduce:
+    def __init__(self, hidden_dim, dtype):
+        self.rms_eps = 1e-6
+        self.rms_norm = RMSNorm(hidden_dim, eps=self.rms_eps, dtype=dtype)
+        self.fp8_quant = QuantFP8(
+            static=True,
+            group_shape=GroupShape.PER_TENSOR,
+        )
+
+    def allreduce_rmsnorm(
+        self, input_tensor: torch.Tensor, residual: torch.Tensor | None
+    ):
+        allreduce_out = tensor_model_parallel_all_reduce(input_tensor)
+        return self.rms_norm(allreduce_out, residual)
+
+    def allreduce_rmsnorm_fp8_quant(
+        self,
+        input_tensor: torch.Tensor,
+        residual: torch.Tensor | None,
+        scale_factor: torch.Tensor,
+    ):
+        allreduce_out = tensor_model_parallel_all_reduce(input_tensor)
+        rms_out = self.rms_norm(allreduce_out, residual)
+        if residual is None:
+            quant_out = self.fp8_quant(rms_out, scale_factor)
+            return quant_out
+        else:
+            rms_out, residual_out = rms_out
+            quant_out = self.fp8_quant(rms_out, scale_factor)
+            return quant_out, residual_out
+
+    def allreduce_rmsnorm_fp4_quant(
+        self,
+        input_tensor: torch.Tensor,
+        residual: torch.Tensor | None,
+        input_global_scale: torch.Tensor,
+        quant_out: torch.Tensor,
+        output_scale: torch.Tensor,
+    ):
+        allreduce_out = tensor_model_parallel_all_reduce(input_tensor)
+        rms_out = self.rms_norm(allreduce_out, residual)
+        if residual is None:
+            SCALED_FP4_QUANT_OP(quant_out, rms_out, output_scale, input_global_scale)
+            return quant_out, output_scale
+        else:
+            rms_out, residual_out = rms_out
+            SCALED_FP4_QUANT_OP(quant_out, rms_out, output_scale, input_global_scale)
+            return quant_out, residual_out, output_scale
+
+
+def create_test_tensors(
+    num_tokens: int, hidden_dim: int, dtype: torch.dtype, use_residual: bool = True
+):
+    """Create test tensors for benchmarking."""
+    input_tensor = torch.randn(num_tokens, hidden_dim, dtype=dtype)
+    residual = (
+        torch.randn_like(input_tensor)
+        if use_residual
+        else torch.zeros_like(input_tensor)
+    )
+    rms_gamma = torch.ones(hidden_dim, dtype=dtype)
+    norm_out = None if use_residual else torch.empty_like(input_tensor)
+
+    # Quantization scales
+    scale_fp8 = torch.tensor(1.0, dtype=torch.float32)
+    scale_fp4 = torch.tensor(1.0, dtype=torch.float32)
+    quant_out_fp8 = torch.empty_like(input_tensor, dtype=FP8_DTYPE)
+    # Pre-allocate FP4 output tensors (to avoid allocation overhead in benchmarks)
+    fp4_quant_out = torch.empty((num_tokens, hidden_dim // 2), dtype=torch.uint8)
+    fp4_output_scale = torch.empty((128, 4), dtype=torch.int32)
+
+    return (
+        input_tensor,
+        norm_out,
+        residual,
+        rms_gamma,
+        scale_fp8,
+        quant_out_fp8,
+        scale_fp4,
+        fp4_quant_out,
+        fp4_output_scale,
+    )
+
+
+def benchmark_operation(
+    operation_func, *args, warmup: int = 5, trials: int = 20, **kwargs
+):
+    """Benchmark a single operation using CUDA graphs."""
+    # Warmup before graph capture
+    for _ in range(warmup):
+        operation_func(*args, **kwargs)
+    torch.cuda.synchronize()
+
+    # Create CUDA graph
+    graph = torch.cuda.CUDAGraph()
+    num_op_per_cudagraph = 10
+
+    # Use vLLM's graph_capture to make tensor_model_parallel_all_reduce graph-safe
+    device = torch.device(f"cuda:{torch.cuda.current_device()}")
+    with graph_capture(device=device), torch.cuda.graph(graph):
+        for _ in range(num_op_per_cudagraph):
+            operation_func(*args, **kwargs)
+
+    # Graph warmup
+    torch.cuda.synchronize()
+    for _ in range(warmup):
+        graph.replay()
+
+    # Benchmark with CUDA graph
+    torch.cuda.synchronize()
+    start_time = time.perf_counter()
+
+    for _ in range(trials // num_op_per_cudagraph):
+        # operation_func(*args, **kwargs)
+        graph.replay()
+
+    torch.cuda.synchronize()
+    end_time = time.perf_counter()
+
+    avg_time_ms = ((end_time - start_time) / trials) * 1000
+    return avg_time_ms
+
+
+def run_benchmarks(
+    num_tokens: int,
+    hidden_dim: int,
+    dtype: torch.dtype,
+    use_residual: bool,
+    allreduce_params: FlashInferFusedAllReduceParams | None,
+    quant_modes: set[str],
+    no_oneshot: bool,
+):
+    """Run all benchmarks for given configuration.
+
+    Args:
+        quant_mode: "none", "fp8_only", "fp4_only", or "all"
+    """
+    (
+        input_tensor,
+        norm_out,
+        residual,
+        rms_gamma,
+        scale_fp8,
+        quant_out_fp8,
+        scale_fp4,
+        fp4_quant_out,
+        fp4_output_scale,
+    ) = create_test_tensors(num_tokens, hidden_dim, dtype, use_residual)
+
+    rms_eps = 1e-6
+    results = {}
+    vllm_fused_allreduce = VllmFusedAllreduce(hidden_dim, dtype)
+    use_oneshot_options = [False] if no_oneshot else [True, False]
+
+    # Create RMSNorm and QuantFP8 layers once for native benchmarks
+
+    if "none" in quant_modes:
+        # Standard AllReduce + RMSNorm
+        for custom_op in ["-rms_norm", "+rms_norm"]:
+            with set_current_vllm_config(
+                VllmConfig(compilation_config=CompilationConfig(custom_ops=[custom_op]))
+            ):
+                try:
+                    suffix = (
+                        "_custom_rms_norm" if "+" in custom_op else "_native_rms_norm"
+                    )
+                    time_ms = benchmark_operation(
+                        vllm_fused_allreduce.allreduce_rmsnorm,
+                        input_tensor,
+                        residual=residual,
+                    )
+                    results[f"standard_allreduce_{suffix}"] = time_ms
+                except Exception as e:
+                    logger.error("Standard AllReduce+RMSNorm failed: %s", e)
+                    results[f"standard_allreduce_{suffix}"] = float("inf")
+
+        # Standard AllReduce + RMSNorm Native Compiled
+        with set_current_vllm_config(
+            VllmConfig(compilation_config=CompilationConfig(custom_ops=["-rms_norm"]))
+        ):
+            try:
+                standard_allreduce_rmsnorm_native_compiled = torch.compile(
+                    vllm_fused_allreduce.allreduce_rmsnorm,
+                    fullgraph=True,
+                    dynamic=False,
+                )
+                time_ms = benchmark_operation(
+                    standard_allreduce_rmsnorm_native_compiled,
+                    input_tensor,
+                    residual=residual,
+                )
+                results["standard_allreduce_rmsnorm_native_compiled"] = time_ms
+            except Exception as e:
+                logger.error("Standard AllReduce+RMSNorm Native Compiled failed: %s", e)
+                results["standard_allreduce_rmsnorm_native_compiled"] = float("inf")
+
+        # FlashInfer Fused AllReduce + RMSNorm Oneshot/Twoshot
+        if flashinfer_comm is not None and allreduce_params is not None:
+            for use_oneshot in use_oneshot_options:
+                suffix = "_oneshot" if use_oneshot else "_twoshot"
+                try:
+                    time_ms = benchmark_operation(
+                        flashinfer_fused_allreduce_rmsnorm,
+                        input_tensor,
+                        residual=residual,
+                        norm_out=norm_out,
+                        rms_gamma=rms_gamma,
+                        rms_eps=rms_eps,
+                        allreduce_params=allreduce_params,
+                        use_oneshot=use_oneshot,
+                    )
+                    results[f"flashinfer_fused_allreduce_rmsnorm{suffix}"] = time_ms
+                except Exception as e:
+                    logger.error("FlashInfer Fused AllReduce+RMSNorm failed: %s", e)
+                    results[f"flashinfer_fused_allreduce_rmsnorm{suffix}"] = float(
+                        "inf"
+                    )
+
+    if "fp8" in quant_modes:
+        # Standard AllReduce + RMSNorm + FP8 Quant
+        for rms_norm_custom_op in ["-rms_norm", "+rms_norm"]:
+            suffix = (
+                "_custom_rms_norm" if "+" in rms_norm_custom_op else "_native_rms_norm"
+            )
+            for quant_fp8_custom_op in ["-quant_fp8", "+quant_fp8"]:
+                suffix += (
+                    "_custom_quant_fp8"
+                    if "+" in quant_fp8_custom_op
+                    else "_native_quant_fp8"
+                )
+                with set_current_vllm_config(
+                    VllmConfig(
+                        compilation_config=CompilationConfig(
+                            custom_ops=[rms_norm_custom_op, quant_fp8_custom_op]
+                        )
+                    )
+                ):
+                    try:
+                        time_ms = benchmark_operation(
+                            vllm_fused_allreduce.allreduce_rmsnorm_fp8_quant,
+                            input_tensor,
+                            residual=residual,
+                            scale_factor=scale_fp8,
+                        )
+                        results[f"standard_allreduce{suffix}"] = time_ms
+                    except Exception as e:
+                        logger.error("Standard AllReduce+RMSNorm+FP8 failed: %s", e)
+                        results[f"standard_allreduce{suffix}"] = float("inf")
+
+        # Standard AllReduce + RMSNorm + FP8 Quant Native Compiled
+        with set_current_vllm_config(
+            VllmConfig(
+                compilation_config=CompilationConfig(
+                    custom_ops=["-rms_norm", "-quant_fp8"]
+                )
+            )
+        ):
+            try:
+                standard_allreduce_rmsnorm_fp8_quant_native_compiled = torch.compile(
+                    vllm_fused_allreduce.allreduce_rmsnorm_fp8_quant,
+                    fullgraph=True,
+                    dynamic=False,
+                )
+                time_ms = benchmark_operation(
+                    standard_allreduce_rmsnorm_fp8_quant_native_compiled,
+                    input_tensor,
+                    residual=residual,
+                    scale_factor=scale_fp8,
+                )
+                results["standard_allreduce_rmsnorm_fp8_quant_native_compiled"] = (
+                    time_ms
+                )
+            except Exception as e:
+                logger.error(
+                    "Standard AllReduce+RMSNorm+FP8 Native Compiled failed: %s", e
+                )
+                results["standard_allreduce_rmsnorm_fp8_quant_native_compiled"] = float(
+                    "inf"
+                )
+
+        # FlashInfer Fused AllReduce + RMSNorm + FP8 Quant Oneshot
+        if flashinfer_comm is not None and allreduce_params is not None:
+            for use_oneshot in use_oneshot_options:
+                suffix = "_oneshot" if use_oneshot else "_twoshot"
+                try:
+                    time_ms = benchmark_operation(
+                        flashinfer_fused_allreduce_rmsnorm_fp8_quant,
+                        input_tensor,
+                        norm_out=norm_out,
+                        residual=residual,
+                        rms_gamma=rms_gamma,
+                        rms_eps=rms_eps,
+                        scale_factor=scale_fp8,
+                        quant_out=quant_out_fp8,
+                        allreduce_params=allreduce_params,
+                        use_oneshot=use_oneshot,
+                    )
+                    results[f"flashinfer_fused_allreduce_rmsnorm_fp8_quant{suffix}"] = (
+                        time_ms
+                    )
+                except Exception as e:
+                    logger.error(
+                        "FlashInfer Fused AllReduce+RMSNorm+FP8 Oneshot failed: %s",
+                        e,
+                    )
+                    results[f"flashinfer_fused_allreduce_rmsnorm_fp8_quant{suffix}"] = (
+                        float("inf")
+                    )
+
+    if "fp4" in quant_modes and current_platform.has_device_capability(100):
+        # Standard AllReduce + RMSNorm + FP4 Quant
+        for rms_norm_custom_op in ["-rms_norm", "+rms_norm"]:
+            suffix = (
+                "_custom_rms_norm" if "+" in rms_norm_custom_op else "_native_rms_norm"
+            )
+            with set_current_vllm_config(
+                VllmConfig(
+                    compilation_config=CompilationConfig(
+                        custom_ops=[rms_norm_custom_op]
+                    )
+                )
+            ):
+                try:
+                    time_ms = benchmark_operation(
+                        vllm_fused_allreduce.allreduce_rmsnorm_fp4_quant,
+                        input_tensor,
+                        residual=residual,
+                        input_global_scale=scale_fp4,
+                        quant_out=fp4_quant_out,
+                        output_scale=fp4_output_scale,
+                    )
+                    results[f"standard_allreduce_{suffix}_fp4_quant"] = time_ms
+                except Exception as e:
+                    logger.error("Standard AllReduce+RMSNorm+FP4 failed: %s", e)
+                    results[f"standard_allreduce_{suffix}_fp4_quant"] = float("inf")
+
+        # Standard AllReduce + RMSNorm + FP4 Quant Native Compiled
+        with set_current_vllm_config(
+            VllmConfig(compilation_config=CompilationConfig(custom_ops=["-rms_norm"]))
+        ):
+            try:
+                standard_allreduce_rmsnorm_fp4_quant_native_compiled = torch.compile(
+                    vllm_fused_allreduce.allreduce_rmsnorm_fp4_quant,
+                    fullgraph=True,
+                    dynamic=False,
+                )
+                time_ms = benchmark_operation(
+                    standard_allreduce_rmsnorm_fp4_quant_native_compiled,
+                    input_tensor,
+                    residual=residual,
+                    quant_out=fp4_quant_out,
+                    input_global_scale=scale_fp4,
+                    output_scale=fp4_output_scale,
+                )
+                results["standard_allreduce_rmsnorm_fp4_quant_native_compiled"] = (
+                    time_ms
+                )
+            except Exception as e:
+                logger.error(
+                    "Standard AllReduce+RMSNorm+FP4 Native Compiled failed: %s", e
+                )
+                results["standard_allreduce_rmsnorm_fp4_quant_native_compiled"] = float(
+                    "inf"
+                )
+
+        # FlashInfer Fused AllReduce + RMSNorm + FP4 Quant Oneshot
+        if flashinfer_comm is not None and allreduce_params is not None:
+            for use_oneshot in use_oneshot_options:
+                suffix = "_oneshot" if use_oneshot else "_twoshot"
+                try:
+                    time_ms = benchmark_operation(
+                        flashinfer_fused_allreduce_rmsnorm_fp4_quant,
+                        input_tensor,
+                        residual=residual,
+                        norm_out=norm_out,
+                        rms_gamma=rms_gamma,
+                        rms_eps=rms_eps,
+                        input_global_scale=scale_fp4,
+                        allreduce_params=allreduce_params,
+                        quant_out=fp4_quant_out,
+                        output_scale=fp4_output_scale,
+                        use_oneshot=use_oneshot,
+                    )
+                    results[f"flashinfer_fused_allreduce_rmsnorm_fp4_quant{suffix}"] = (
+                        time_ms
+                    )
+                except Exception as e:
+                    logger.error(
+                        "FlashInfer Fused AllReduce+RMSNorm+FP4 Oneshot failed: %s",
+                        e,
+                    )
+                    results[f"flashinfer_fused_allreduce_rmsnorm_fp4_quant{suffix}"] = (
+                        float("inf")
+                    )
+
+        # FlashInfer Fused AllReduce + RMSNorm + FP4 Quant Two-shot
+        if flashinfer_comm is not None and allreduce_params is not None:
+            try:
+                time_ms = benchmark_operation(
+                    flashinfer_fused_allreduce_rmsnorm_fp4_quant,
+                    input_tensor,
+                    residual=residual,
+                    norm_out=norm_out,
+                    rms_gamma=rms_gamma,
+                    rms_eps=rms_eps,
+                    input_global_scale=scale_fp4,
+                    allreduce_params=allreduce_params,
+                    quant_out=fp4_quant_out,
+                    output_scale=fp4_output_scale,
+                    use_oneshot=False,
+                )
+                results["flashinfer_fused_allreduce_rmsnorm_fp4_quant_twoshot"] = (
+                    time_ms
+                )
+            except Exception as e:
+                logger.error(
+                    "FlashInfer Fused AllReduce+RMSNorm+FP4 Two-shot failed: %s",
+                    e,
+                )
+                results["flashinfer_fused_allreduce_rmsnorm_fp4_quant_twoshot"] = float(
+                    "inf"
+                )
+
+    return results
+
+
+def prepare_results_with_speedups(results_dict):
+    """Prepare results with speedup calculations based on dynamic baseline selection."""
+    prepared_results = []
+
+    # Determine the fastest baseline for each operation type
+    def get_fastest_baseline(op_name, results_dict):
+        """Get the fastest baseline between standard and native_compiled versions."""
+        if "fp8_quant" in op_name:
+            candidates = [
+                "standard_allreduce_rmsnorm_fp8_quant",
+                "standard_allreduce_rmsnorm_fp8_quant_native_compiled",
+            ]
+        elif "fp4_quant" in op_name:
+            candidates = [
+                "standard_allreduce_rmsnorm_fp4_quant",
+                "standard_allreduce_rmsnorm_fp4_quant_native_compiled",
+            ]
+        else:
+            candidates = [
+                "standard_allreduce_rmsnorm",
+                "standard_allreduce_rmsnorm_native_compiled",
+            ]
+
+        # Find the fastest among available candidates
+        fastest_time = float("inf")
+        fastest_baseline = None
+
+        for candidate in candidates:
+            if (
+                candidate in results_dict
+                and results_dict[candidate] != float("inf")
+                and results_dict[candidate] < fastest_time
+            ):
+                fastest_time = results_dict[candidate]
+                fastest_baseline = candidate
+
+        return fastest_baseline
+
+    # Create dynamic baseline mapping
+    dynamic_baseline_mapping = {}
+    for op_name in results_dict:
+        if (
+            op_name.startswith("flashinfer_")
+            or op_name.startswith("standard_")
+            and not op_name.endswith("_native_compiled")
+        ):
+            dynamic_baseline_mapping[op_name] = get_fastest_baseline(
+                op_name, results_dict
+            )
+
+    for op_name, time_ms in results_dict.items():
+        if time_ms == float("inf"):
+            speedup_str = "FAILED"
+            time_str = "FAILED"
+        else:
+            time_str = f"{time_ms:.3f}"
+            # Find the appropriate baseline for this operation
+            baseline_op = dynamic_baseline_mapping.get(op_name)
+            if baseline_op and baseline_op in results_dict:
+                baseline_time = results_dict[baseline_op]
+                if baseline_time != float("inf") and baseline_time > 0:
+                    speedup = baseline_time / time_ms
+                    speedup_str = f"{speedup:.2f}x"
+                else:
+                    speedup_str = "N/A"
+            else:
+                # For baseline operations, determine if this is the fastest baseline
+                if op_name.endswith("_native_compiled") or (
+                    op_name.startswith("standard_")
+                    and not op_name.endswith("_native_compiled")
+                ):
+                    fastest_baseline = get_fastest_baseline(op_name, results_dict)
+                    if fastest_baseline == op_name:
+                        speedup_str = "baseline"
+                    else:
+                        if fastest_baseline and fastest_baseline in results_dict:
+                            baseline_time = results_dict[fastest_baseline]
+                            if baseline_time != float("inf") and baseline_time > 0:
+                                speedup = baseline_time / time_ms
+                                speedup_str = f"{speedup:.2f}x"
+                            else:
+                                speedup_str = "N/A"
+                        else:
+                            speedup_str = "N/A"
+                else:
+                    speedup_str = "N/A"
+
+        prepared_results.append(
+            {
+                "operation": op_name,
+                "time_ms": time_ms,
+                "time_str": time_str,
+                "speedup_str": speedup_str,
+            }
+        )
+
+    return prepared_results
+
+
+def print_results(
+    results_dict,
+    num_tokens,
+    hidden_dim,
+    dtype,
+    use_residual,
+    quant_modes,
+    input_size_mb,
+):
+    """Print benchmark results in a formatted table."""
+    print(f"\n{'=' * 80}")
+    print(
+        f"Results: num_tokens={num_tokens}, hidden_dim={hidden_dim} "
+        f"(input size: {input_size_mb:.2f} MB)"
+    )
+    print(
+        f"dtype={dtype}, residual={'yes' if use_residual else 'no'}, "
+        f"quant_modes={','.join(sorted(list(quant_modes)))}"
+    )
+    print(f"{'=' * 80}")
+    print(f"{'Operation':<50} {'Time (ms)':<12} {'Speedup':<10}")
+    print(f"{'-' * 80}")
+
+    # Prepare results with speedup calculations
+    prepared_results = prepare_results_with_speedups(results_dict)
+
+    for result in prepared_results:
+        if result["time_ms"] == float("inf"):
+            time_display = result["time_str"]
+        else:
+            time_display = f"{result['time_ms']:.3f}"
+
+        print(
+            f"{result['operation']:<50} {time_display:<12} {result['speedup_str']:<10}"
+        )
+
+
+def format_results_markdown(
+    all_results: list[dict], world_size: int, args: argparse.Namespace
+) -> str:
+    """Format all benchmark results as markdown."""
+    lines: list[str] = []
+    lines.append("# FlashInfer Fused Collective Operations Benchmark Results")
+    lines.append("")
+    lines.append(f"**World Size:** {world_size}  ")
+    lines.append(f"**Hidden Dimension:** {args.hidden_dim}  ")
+    lines.append(f"**Warmup Iterations:** {args.warmup}  ")
+    lines.append(f"**Benchmark Trials:** {args.trials}  ")
+    modes = ",".join(all_results[0]["quant_modes"]) if all_results else "N/A"
+    lines.append(f"**Quantization Modes:** {modes}  ")
+    lines.append("")
+    lines.append("---")
+    lines.append("")
+
+    for entry in all_results:
+        num_tokens = entry["num_tokens"]
+        dtype = entry["dtype"]
+        use_residual = entry["use_residual"]
+        results_dict = entry["results"]
+        input_size_mb = entry["input_size_mb"]
+        residual_str = "with residual" if use_residual else "no residual"
+
+        lines.append(
+            f"## Configuration: num_tokens={num_tokens}, dtype={dtype}, {residual_str}"
+        )
+        lines.append(f"**Input Size:** {input_size_mb:.2f} MB")
+        lines.append("")
+
+        prepared = prepare_results_with_speedups(results_dict)
+        # Build DataFrame for markdown export
+        rows = [
+            {
+                "Operation": r["operation"].replace("_", " ").title(),
+                "Time (ms)": r["time_str"],
+                "Speedup": r["speedup_str"],
+            }
+            for r in prepared
+        ]
+        df = pd.DataFrame(rows)
+        if df.empty:
+            lines.append("No results.")
+        else:
+            lines.append(df.to_markdown(index=False))
+        lines.append("")
+
+    return "\n".join(lines)
+
+
+def save_results_to_file(
+    all_results: list[dict], world_size: int, args: argparse.Namespace, rank: int
+):
+    """Save benchmark results to markdown file (only on rank 0)."""
+    if rank != 0:
+        return
+
+    if not all_results:
+        logger.warning("No results to save")
+        return
+
+    output_path = args.output_file
+
+    try:
+        markdown_content = format_results_markdown(all_results, world_size, args)
+
+        with open(output_path, "a") as f:
+            f.write(markdown_content)
+
+    except Exception as e:
+        logger.error("Failed to save results to file: %s", e)
+
+
+def main():
+    parser = argparse.ArgumentParser(
+        description="Benchmark fused collective operations"
+    )
+    parser.add_argument(
+        "--num-tokens",
+        type=int,
+        nargs="+",
+        default=[128, 512, 1024, 2048],
+        help="Numbers of tokens to test",
+    )
+    parser.add_argument(
+        "--hidden-dim", type=int, default=8192, help="Hidden dimension size"
+    )
+    parser.add_argument(
+        "--dtypes",
+        type=str,
+        nargs="+",
+        default=["bfloat16"],
+        choices=["float16", "bfloat16", "float32"],
+        help="Data types to test",
+    )
+    parser.add_argument(
+        "--no-residual",
+        action="store_true",
+        help="Skip residual connection tests",
+    )
+
+    parser.add_argument(
+        "--quant-modes",
+        type=str,
+        default="none,fp8,fp4",
+        help=(
+            "Comma-separated quantization modes to run: none, fp8, fp4. "
+            "Default: none,fp8,fp4"
+        ),
+    )
+
+    parser.add_argument(
+        "--warmup", type=int, default=5, help="Number of warmup iterations"
+    )
+    parser.add_argument(
+        "--trials", type=int, default=20, help="Number of benchmark trials"
+    )
+    parser.add_argument(
+        "--output-file",
+        type=str,
+        help="""Output file path for markdown results 
+                (default: benchmark_results_<timestamp>.md)
+        """,
+    )
+
+    parser.add_argument(
+        "--no-oneshot",
+        action="store_true",
+        help="Skip oneshot benchmarks",
+    )
+
+    args = parser.parse_args()
+
+    # Check if running with torchrun (required for collective operations)
+    if "RANK" not in os.environ or "WORLD_SIZE" not in os.environ:
+        raise RuntimeError(
+            "Must run with torchrun for distributed benchmarking. "
+            "Example: torchrun --nproc_per_node=2 benchmark_fused_collective.py"
+        )
+
+    # Initialize distributed environment
+    rank = int(os.environ["RANK"])
+    world_size = int(os.environ["WORLD_SIZE"])
+
+    device = torch.device(f"cuda:{rank}")
+    torch.cuda.set_device(device)
+    torch.set_default_device(device)
+
+    init_distributed_environment()
+    initialize_model_parallel(tensor_model_parallel_size=world_size)
+
+    # Validate world size (must be > 1 for collective operations)
+    if world_size <= 1:
+        raise ValueError(
+            "World size must be > 1 for collective operations benchmarking. "
+            f"Current world size: {world_size}. Use torchrun with --nproc_per_node > 1."
+        )
+
+    # Parse quantization modes
+    valid_quant_modes = {"none", "fp8", "fp4"}
+    raw_modes = [
+        m.strip().lower() for m in (args.quant_modes or "").split(",") if m.strip()
+    ]
+    quant_modes = set(raw_modes) if raw_modes else {"none", "fp8", "fp4"}
+    invalid = sorted(list(quant_modes - valid_quant_modes))
+    if invalid:
+        raise ValueError(
+            f"Invalid --quant-modes entries: {','.join(invalid)}. "
+            f"Valid options are: {','.join(sorted(valid_quant_modes))}."
+        )
+
+    if rank == 0:
+        logger.info("Running benchmark with world_size=%s, rank=%s", world_size, rank)
+        logger.info("Quantization modes: %s", ",".join(sorted(list(quant_modes))))
+        if flashinfer_comm is not None:
+            logger.info(
+                "FlashInfer available - will benchmark fused operations",
+            )
+        else:
+            logger.info(
+                "FlashInfer not available - only benchmarking standard operations"
+            )
+
+    # Convert dtype strings to torch dtypes
+    dtype_map = {
+        "float16": torch.float16,
+        "bfloat16": torch.bfloat16,
+        "float32": torch.float32,
+    }
+    dtypes = [dtype_map[dt] for dt in args.dtypes]
+
+    # Test configurations
+    residual_options = [True] if not args.no_residual else [False]
+
+    configs = list(itertools.product(args.num_tokens, dtypes, residual_options))
+
+    # Setup FlashInfer workspace if available
+    ipc_handles = None
+    allreduce_params = None
+
+    if flashinfer_comm is not None:
+        # Use the largest hidden dimension for workspace setup
+        max_num_token = _FI_MAX_SIZES.get(world_size) // (
+            args.hidden_dim * world_size * 2
+        )
+
+        ipc_handles, workspace_tensor = setup_flashinfer_workspace(
+            world_size, rank, args.hidden_dim, max_num_token
+        )
+
+        if workspace_tensor is not None:
+            allreduce_params = FlashInferFusedAllReduceParams(
+                rank=rank,
+                world_size=world_size,
+                max_token_num=max_num_token,
+            )
+
+    # Collect all results for markdown export
+    all_results = []
+
+    try:
+        # Run benchmarks
+        for num_tokens, dtype, use_residual in configs:
+            if rank == 0:
+                logger.info(
+                    "\nTesting:  num_tokens=%s, hidden_dim=%s, dtype=%s, residual=%s",
+                    num_tokens,
+                    args.hidden_dim,
+                    dtype,
+                    use_residual,
+                )
+
+            results = run_benchmarks(
+                num_tokens,
+                args.hidden_dim,
+                dtype,
+                use_residual,
+                allreduce_params,
+                quant_modes=quant_modes,
+                no_oneshot=args.no_oneshot,
+            )
+
+            # Store results for markdown export
+            if rank == 0:
+                # Calculate input size in MB
+                input_size_mb = (
+                    num_tokens * args.hidden_dim * torch.finfo(dtype).bits
+                ) / (8 * 1024 * 1024)
+                all_results.append(
+                    {
+                        "num_tokens": num_tokens,
+                        "hidden_dim": args.hidden_dim,
+                        "dtype": str(dtype).replace("torch.", ""),
+                        "use_residual": use_residual,
+                        "quant_modes": sorted(list(quant_modes)),
+                        "input_size_mb": input_size_mb,
+                        "results": results,
+                    }
+                )
+
+                print_results(
+                    results,
+                    num_tokens,
+                    args.hidden_dim,
+                    dtype,
+                    use_residual,
+                    quant_modes,
+                    input_size_mb,
+                )
+
+        # Save results to markdown file
+        if args.output_file and rank == 0:
+            save_results_to_file(all_results, world_size, args, rank)
+
+    finally:
+        # Cleanup
+        if ipc_handles is not None:
+            cleanup_flashinfer_workspace(ipc_handles)
+
+        dist.barrier()
+
+
+if __name__ == "__main__":
+    main()
diff --git a/tests/compile/test_fusions_e2e.py b/tests/compile/test_fusions_e2e.py
index 58026e7e7e781..4b910bc285797 100644
--- a/tests/compile/test_fusions_e2e.py
+++ b/tests/compile/test_fusions_e2e.py
@@ -71,6 +71,13 @@ if current_platform.is_cuda():
             attention_fusions=0,
             allreduce_fusions=65,
         ),
+        ModelBackendTestCase(
+            model_name="Qwen/Qwen3-30B-A3B",
+            model_kwargs=dict(max_model_len=1024),
+            backend=_Backend.TRITON_ATTN,
+            attention_fusions=0,
+            allreduce_fusions=97,
+        ),
     ]
 
 elif current_platform.is_rocm():
diff --git a/vllm/compilation/collective_fusion.py b/vllm/compilation/collective_fusion.py
index 7294ddce64ba1..69d4606d73ebd 100644
--- a/vllm/compilation/collective_fusion.py
+++ b/vllm/compilation/collective_fusion.py
@@ -9,7 +9,6 @@ from torch._higher_order_ops.auto_functionalize import auto_functionalized
 from torch._inductor.pattern_matcher import PatternMatcherPass
 from torch.distributed._symmetric_memory import enable_symm_mem_for_group
 
-import vllm.envs as envs
 from vllm.config import VllmConfig
 from vllm.distributed import get_tp_group, tensor_model_parallel_all_reduce
 from vllm.distributed.parallel_state import (
@@ -450,34 +449,41 @@ class AsyncTPPass(VllmPatternMatcherPass):
         logger.debug("Replaced %s patterns", self.matched_count)
 
 
+# Max size of the input tensor per world size per device capability
+# to use flashinfer fused allreduce
+FI_ALLREDUCE_FUSION_MAX_SIZE_MB: dict[int, dict[int, float]] = {
+    90: {
+        2: 64,  # 64MB
+        4: 2,  # 2MB
+        8: 0.5,  # 0.5MB
+    },
+    100: {
+        2: 64,  # 64MB
+        4: 32,  # 32MB
+        8: 1,  # 1MB
+    },
+}
+
+# Max size of the input tensor per world size per device capability
+# to use flashinfer one shot fused allreduce
+# OneShot max size is at most 64MB / world size (FlashInfer restriction)
+_FI_ALLREDUCE_ONE_SHOT_MAX_SIZES_MB: dict[int, dict[int, float]] = {
+    90: {
+        2: 32,  # 32MB
+        4: 2,  # 2MB
+        8: 0.5,  # 0.5MB
+    },
+    100: {
+        2: 32,  # 32MB
+        4: 4,  # 4MB
+        8: 1,  # 1MB
+    },
+}
+
+
 if flashinfer_comm is not None:
     _FI_WORKSPACE_TENSOR = None
-
     MiB = 1024 * 1024
-    # Max size of the input tensor per world size
-    # to use flashinfer fused allreduce
-    _FI_MAX_SIZES = {
-        2: 64 * MiB,  # 64MB
-        4: MiB,  # 1MB
-        6: MiB // 2,  # 512KB
-        8: MiB // 2,  # 512KB
-    }
-
-    try:
-        _FI_MAX_SIZES.update(
-            {
-                int(k): int(float(v) * MiB)
-                for k, v in envs.VLLM_FLASHINFER_ALLREDUCE_FUSION_THRESHOLDS_MB.items()
-            }
-        )
-    except Exception as e:
-        raise ValueError(
-            "Failed to parse VLLM_FLASHINFER_ALLREDUCE_FUSION_THRESHOLDS_MB: " + str(e)
-        ) from e
-
-    # opt for a more conservative default value
-    # when world size is not in _FI_MAX_SIZES
-    _DEFAULT_FI_MAX_SIZE = MiB // 2
 
     def call_trtllm_fused_allreduce_norm(
         allreduce_in: torch.Tensor,
@@ -491,7 +497,6 @@ if flashinfer_comm is not None:
         fp32_acc: bool,
         max_token_num: int,
         pattern_code: int,
-        fuse_rms_quant: bool,
         norm_out: torch.Tensor | None = None,
         quant_out: torch.Tensor | None = None,
         scale_out: torch.Tensor | None = None,
@@ -500,12 +505,20 @@ if flashinfer_comm is not None:
         num_tokens, hidden_size = allreduce_in.shape
         element_size = allreduce_in.element_size()
         current_tensor_size = num_tokens * hidden_size * element_size
-        max_fusion_size = max_token_num * hidden_size * element_size
-        use_flashinfer = current_tensor_size <= min(
-            _FI_MAX_SIZES.get(world_size, _DEFAULT_FI_MAX_SIZE),
-            max_fusion_size,
-        )
-        if use_flashinfer:
+
+        if num_tokens <= max_token_num:
+            device_capability = current_platform.get_device_capability().to_int()
+            # Get one shot input size limit for the current world size
+            # for the current device capability
+            max_one_shot_size_mb = _FI_ALLREDUCE_ONE_SHOT_MAX_SIZES_MB.get(
+                device_capability, {}
+            ).get(world_size, None)
+            # Use one shot if no max size for one shot is specified
+            use_oneshot = (
+                max_one_shot_size_mb is None
+                or current_tensor_size <= max_one_shot_size_mb * MiB
+            )
+
             assert _FI_WORKSPACE_TENSOR is not None, (
                 "Flashinfer must be enabled when using flashinfer"
             )
@@ -532,7 +545,7 @@ if flashinfer_comm is not None:
                 hidden_dim=allreduce_in.shape[-1],
                 workspace_ptrs=_FI_WORKSPACE_TENSOR,
                 launch_with_pdl=launch_with_pdl,
-                use_oneshot=True,
+                use_oneshot=use_oneshot,
                 trigger_completion_at_end=trigger_completion_at_end,
                 fp32_acc=fp32_acc,
                 pattern_code=pattern_code,
@@ -545,7 +558,7 @@ if flashinfer_comm is not None:
             )
         else:
             allreduce_out = tensor_model_parallel_all_reduce(allreduce_in)
-            if scale_factor is not None and scale_out is None and fuse_rms_quant:
+            if scale_factor is not None and scale_out is None:
                 # Do fused rms norm static fp8 quant fused op
                 if norm_out is None:
                     torch.ops._C.fused_add_rms_norm_static_fp8_quant(
@@ -568,15 +581,10 @@ if flashinfer_comm is not None:
                     norm_out = allreduce_out
                 else:
                     torch.ops._C.rms_norm(norm_out, allreduce_out, rms_gamma, rms_eps)
-                if scale_factor is not None:
-                    if scale_out is not None:
-                        torch.ops._C.scaled_fp4_quant(
-                            quant_out, norm_out, scale_out, scale_factor
-                        )
-                    else:
-                        torch.ops._C.static_scaled_fp8_quant(
-                            quant_out, norm_out, scale_factor
-                        )
+                if scale_factor is not None and scale_out is not None:
+                    torch.ops._C.scaled_fp4_quant(
+                        quant_out, norm_out, scale_out, scale_factor
+                    )
             if scale_factor is None or norm_out is not None:
                 # we need to return allreduce output
                 # in cases of non quant fused AR + RMS norm
@@ -595,7 +603,6 @@ if flashinfer_comm is not None:
         fp32_acc: bool,
         max_token_num: int,
         pattern_code: int,
-        fuse_rms_quant: bool,
         norm_out: torch.Tensor | None = None,
         quant_out: torch.Tensor | None = None,
         scale_out: torch.Tensor | None = None,
@@ -629,7 +636,6 @@ class FlashInferFusedAllReduceParams:
         world_size: int,
         use_fp32_lamport: bool = False,
         max_token_num: int = 1024,
-        fuse_rms_quant: bool = False,
     ):
         self.rank = rank
         self.world_size = world_size
@@ -637,9 +643,7 @@ class FlashInferFusedAllReduceParams:
         self.trigger_completion_at_end = True
         self.launch_with_pdl = True
         self.fp32_acc = True
-        self.use_oneshot = False
         self.max_token_num = max_token_num
-        self.fuse_rms_quant = fuse_rms_quant
 
     def get_trtllm_fused_allreduce_kwargs(self):
         return {
@@ -649,7 +653,6 @@ class FlashInferFusedAllReduceParams:
             "trigger_completion_at_end": self.trigger_completion_at_end,
             "fp32_acc": self.fp32_acc,
             "max_token_num": self.max_token_num,
-            "fuse_rms_quant": self.fuse_rms_quant,
         }
 
 
@@ -1119,23 +1122,35 @@ class AllReduceFusionPass(VllmPatternMatcherPass):
                 "skipping allreduce fusion pass"
             )
             return
-        # Check if the world size is supported
-        if self.tp_size not in _FI_MAX_SIZES:
+        max_size = config.compilation_config.pass_config.flashinfer_max_size(
+            self.tp_size
+        )
+        if max_size is None:
+            # Flashinfer doesn't support current world size
             logger.warning(
                 "Flashinfer allreduce fusion is not supported for world size %s",
                 self.tp_size,
             )
             return
-        max_num_token = min(
-            _FI_MAX_SIZES.get(self.tp_size, _DEFAULT_FI_MAX_SIZE)
-            // (self.hidden_dim * self.tp_size * (4 if use_fp32_lamport else 2)),
-            config.compilation_config.pass_config.fi_allreduce_fusion_max_token_num,
+        element_size = 4 if use_fp32_lamport else 2
+        self.max_token_num = max_size // (self.hidden_dim * element_size)
+        # take the min to save workspace size and we'll never use more
+        # than max_num_batched_tokens anyways
+        self.max_token_num = min(
+            self.max_token_num, config.scheduler_config.max_num_batched_tokens
         )
+        logger.debug_once(
+            f"Flashinfer max size: {max_size // (1024 * 1024)} MB,"
+            "Maximal number of tokens used by "
+            f"Flashinfer Allreduce Fusion: {self.max_token_num}",
+            scope="global",
+        )
+
         self.ipc_handles, workspace_tensor = (
             flashinfer_comm.trtllm_create_ipc_workspace_for_all_reduce_fusion(
                 tp_rank=rank,
                 tp_size=self.tp_size,
-                max_token_num=max_num_token,
+                max_token_num=self.max_token_num,
                 hidden_dim=self.hidden_dim,
                 group=self.group,
                 use_fp32_lamport=use_fp32_lamport,
@@ -1148,10 +1163,7 @@ class AllReduceFusionPass(VllmPatternMatcherPass):
             rank=rank,
             world_size=self.tp_size,
             use_fp32_lamport=use_fp32_lamport,
-            max_token_num=max_num_token,
-            # fuse rms norm static fp8 quant fused op
-            # in fallback path, when we don't use flashinfer
-            fuse_rms_quant=config.compilation_config.pass_config.enable_fusion,
+            max_token_num=self.max_token_num,
         )
 
         self.register_patterns()
diff --git a/vllm/config/compilation.py b/vllm/config/compilation.py
index c84a060922e38..92cf16f259fe7 100644
--- a/vllm/config/compilation.py
+++ b/vllm/config/compilation.py
@@ -111,11 +111,52 @@ class PassConfig:
     """Whether to enable async TP."""
     enable_fi_allreduce_fusion: bool = False
     """Whether to enable flashinfer allreduce fusion."""
-    fi_allreduce_fusion_max_token_num: int = 16384
-    """Max number of tokens to used in flashinfer allreduce fusion."""
+    fi_allreduce_fusion_max_size_mb: float | None = None
+    """The threshold of the communicated tensor sizes under which
+    vllm should use flashinfer fused allreduce. Specified as a
+    float in MB.
+    Unspecified will fallback to default values 
+    which are compute capability and world size dependent.
+        FI_ALLREDUCE_FUSION_MAX_SIZE_MB = {
+            90: {
+                2: 64,  # 64MB
+                4: 2,  # 2MB
+                8: 1,  # 1MB
+            },
+            100: {
+                2: 64,  # 64MB
+                4: 32,  # 32MB
+                8: 1,  # 1MB
+            },
+        }, where key is the device capability"""
 
     # TODO(luka) better pass enabling system.
 
+    def flashinfer_max_size(self, world_size: int) -> int | None:
+        """
+        Returns the max communication size in bytes for flashinfer
+        allreduce fusion for the given world size. Returns None if world size
+        is not supported by configs as it's not supported by flashinfer.
+        """
+
+        MiB = 1024 * 1024
+        max_size_mb = self.fi_allreduce_fusion_max_size_mb
+        if max_size_mb is None:
+            max_size_mb = self.default_fi_allreduce_fusion_max_size_mb().get(world_size)
+
+        return int(max_size_mb * MiB) if max_size_mb is not None else None
+
+    @staticmethod
+    def default_fi_allreduce_fusion_max_size_mb() -> dict[int, float]:
+        from vllm.compilation.collective_fusion import FI_ALLREDUCE_FUSION_MAX_SIZE_MB
+        from vllm.platforms import current_platform
+
+        if not current_platform.is_cuda():
+            return {}
+        return FI_ALLREDUCE_FUSION_MAX_SIZE_MB.get(
+            current_platform.get_device_capability().to_int(), {}
+        )
+
     def uuid(self):
         """
         Produces a hash unique to the pass configuration.
@@ -136,6 +177,11 @@ class PassConfig:
                     "Fusion enabled but reshape elimination disabled. "
                     "Attention + quant (fp8) fusion might not work"
                 )
+            if self.enable_fi_allreduce_fusion:
+                logger.warning_once(
+                    "Fusion enabled but reshape elimination disabled. "
+                    "Allreduce + rms norm + quant (fp8) fusion might not work"
+                )
 
 
 @config
diff --git a/vllm/model_executor/layers/fused_moe/layer.py b/vllm/model_executor/layers/fused_moe/layer.py
index f86a93e300033..27ad9c8fd1c24 100644
--- a/vllm/model_executor/layers/fused_moe/layer.py
+++ b/vllm/model_executor/layers/fused_moe/layer.py
@@ -2356,6 +2356,16 @@ class FusedMoE(CustomOp):
                 value=0.0,
             )
 
+        def reduce_output(states: torch.Tensor) -> torch.Tensor:
+            if (
+                not self.is_sequence_parallel
+                and not self.use_dp_chunking
+                and self.reduce_results
+                and (self.tp_size > 1 or self.ep_size > 1)
+            ):
+                states = self.maybe_all_reduce_tensor_model_parallel(states)
+            return states
+
         if self.shared_experts is None:
             if current_platform.is_tpu():
                 # TODO: Once the OOM issue for the TPU backend is resolved, we
@@ -2366,7 +2376,14 @@ class FusedMoE(CustomOp):
                 fused_output = torch.ops.vllm.moe_forward(
                     hidden_states, router_logits, self.layer_name
                 )
-            return fused_output[..., :og_hidden_states]
+            if self.zero_expert_num is not None and self.zero_expert_num > 0:
+                assert isinstance(fused_output, tuple)
+                fused_output, zero_expert_result = fused_output
+                return (reduce_output(fused_output) + zero_expert_result)[
+                    ..., :og_hidden_states
+                ]
+            else:
+                return reduce_output(fused_output)[..., :og_hidden_states]
         else:
             if current_platform.is_tpu():
                 # TODO: Once the OOM issue for the TPU backend is resolved, we
@@ -2379,8 +2396,8 @@ class FusedMoE(CustomOp):
                     hidden_states, router_logits, self.layer_name
                 )
             return (
-                shared_output[..., :og_hidden_states],
-                fused_output[..., :og_hidden_states],
+                reduce_output(shared_output)[..., :og_hidden_states],
+                reduce_output(fused_output)[..., :og_hidden_states],
             )
 
     def forward_cuda(
@@ -2667,31 +2684,21 @@ class FusedMoE(CustomOp):
                 assert isinstance(final_hidden_states, tuple)
                 final_hidden_states, zero_expert_result = final_hidden_states
 
-            def reduce_output(
-                states: torch.Tensor, do_combine: bool = True
-            ) -> torch.Tensor:
-                if do_naive_dispatch_combine and do_combine:
+            def combine_output(states: torch.Tensor) -> torch.Tensor:
+                if do_naive_dispatch_combine:
                     states = get_ep_group().combine(states, self.is_sequence_parallel)
-
-                if (
-                    not self.is_sequence_parallel
-                    and self.reduce_results
-                    and (self.tp_size > 1 or self.ep_size > 1)
-                ):
-                    states = self.maybe_all_reduce_tensor_model_parallel(states)
-
                 return states
 
             if self.shared_experts is not None:
                 return (
-                    reduce_output(final_hidden_states[0], do_combine=False),
-                    reduce_output(final_hidden_states[1]),
+                    final_hidden_states[0],
+                    combine_output(final_hidden_states[1]),
                 )
             elif self.zero_expert_num is not None and self.zero_expert_num > 0:
                 assert isinstance(final_hidden_states, torch.Tensor)
-                return reduce_output(final_hidden_states) + zero_expert_result
+                return (combine_output(final_hidden_states), zero_expert_result)
             else:
-                return reduce_output(final_hidden_states)
+                return combine_output(final_hidden_states)
 
     @classmethod
     def make_expert_params_mapping(

From b30372cbd045aeac50833cd6fe6084d2edd5252c Mon Sep 17 00:00:00 2001
From: Jialin Ouyang <Jialin.Ouyang@gmail.com>
Date: Mon, 10 Nov 2025 15:34:18 -0800
Subject: [PATCH 289/976] [Perf] Move gc.freeze logic from EngineCoreProc to
 EngineCore for better coverage (#27896)

Signed-off-by: Jialin Ouyang <Jialin.Ouyang@gmail.com>
---
 vllm/benchmarks/serve.py              |  5 ++---
 vllm/distributed/parallel_state.py    |  3 +++
 vllm/entrypoints/openai/api_server.py |  6 ++----
 vllm/utils/gc_utils.py                | 15 +++++++++++++++
 vllm/v1/engine/core.py                | 15 ++++++++-------
 5 files changed, 30 insertions(+), 14 deletions(-)

diff --git a/vllm/benchmarks/serve.py b/vllm/benchmarks/serve.py
index e58cf5911282e..0e9b0fbe2c028 100644
--- a/vllm/benchmarks/serve.py
+++ b/vllm/benchmarks/serve.py
@@ -19,7 +19,6 @@ On the client side, run:
 import argparse
 import asyncio
 import contextlib
-import gc
 import importlib.util
 import json
 import os
@@ -49,6 +48,7 @@ from vllm.benchmarks.lib.endpoint_request_func import (
 from vllm.benchmarks.lib.ready_checker import wait_for_endpoint
 from vllm.benchmarks.lib.utils import convert_to_pytorch_benchmark_format, write_to_json
 from vllm.transformers_utils.tokenizer import get_tokenizer
+from vllm.utils.gc_utils import freeze_gc_heap
 
 MILLISECONDS_TO_SECONDS_CONVERSION = 1000
 
@@ -1414,8 +1414,7 @@ async def main_async(args: argparse.Namespace) -> dict[str, Any]:
     percentile_metrics: str = args.percentile_metrics or default_percentile_metrics
 
     # Avoid GC processing "static" data - reduce pause times.
-    gc.collect()
-    gc.freeze()
+    freeze_gc_heap()
 
     benchmark_result = await benchmark(
         task_type=task_type,
diff --git a/vllm/distributed/parallel_state.py b/vllm/distributed/parallel_state.py
index a9b01e82562b9..c78e6a32733c1 100644
--- a/vllm/distributed/parallel_state.py
+++ b/vllm/distributed/parallel_state.py
@@ -1483,6 +1483,9 @@ def destroy_distributed_environment():
 
 
 def cleanup_dist_env_and_memory(shutdown_ray: bool = False):
+    # Ensure all objects are not freezed before cleanup
+    gc.unfreeze()
+
     destroy_model_parallel()
     destroy_distributed_environment()
     if shutdown_ray:
diff --git a/vllm/entrypoints/openai/api_server.py b/vllm/entrypoints/openai/api_server.py
index c8c8d5c034d55..51191879e4780 100644
--- a/vllm/entrypoints/openai/api_server.py
+++ b/vllm/entrypoints/openai/api_server.py
@@ -1,8 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
-
 import asyncio
-import gc
 import hashlib
 import importlib
 import inspect
@@ -118,6 +116,7 @@ from vllm.reasoning import ReasoningParserManager
 from vllm.tasks import POOLING_TASKS
 from vllm.usage.usage_lib import UsageContext
 from vllm.utils.argparse_utils import FlexibleArgumentParser
+from vllm.utils.gc_utils import freeze_gc_heap
 from vllm.utils.network_utils import is_valid_ipv6_address
 from vllm.utils.system_utils import decorate_logs, set_ulimit
 from vllm.v1.engine.exceptions import EngineDeadError
@@ -153,8 +152,7 @@ async def lifespan(app: FastAPI):
 
         # Mark the startup heap as static so that it's ignored by GC.
         # Reduces pause times of oldest generation collections.
-        gc.collect()
-        gc.freeze()
+        freeze_gc_heap()
         try:
             yield
         finally:
diff --git a/vllm/utils/gc_utils.py b/vllm/utils/gc_utils.py
index 4dd85ef26f34a..160ac9ac263a9 100644
--- a/vllm/utils/gc_utils.py
+++ b/vllm/utils/gc_utils.py
@@ -89,6 +89,21 @@ class GCDebugger:
             )
 
 
+def freeze_gc_heap() -> None:
+    """
+    Freeze all objects tracked by the garbage collector. It should be invoked
+    after server init / warmup, to reduce GC overhead from static objects
+    during serving time.
+    """
+    # Ensure all static objects are pushed down to the oldest generation for
+    # freeze
+    gc.collect(0)
+    gc.collect(1)
+    gc.collect(2)
+    # Freeze all GC tracked objects
+    gc.freeze()
+
+
 def maybe_attach_gc_debug_callback() -> None:
     """
     Attached a callback for GC debug when VLLM_GC_DEBUG is enabled.
diff --git a/vllm/v1/engine/core.py b/vllm/v1/engine/core.py
index c3efd52130cce..ffb5232e770d1 100644
--- a/vllm/v1/engine/core.py
+++ b/vllm/v1/engine/core.py
@@ -1,6 +1,5 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
-import gc
 import os
 import queue
 import signal
@@ -27,7 +26,10 @@ from vllm.multimodal import MULTIMODAL_REGISTRY
 from vllm.multimodal.cache import engine_receiver_cache_from_config
 from vllm.tasks import POOLING_TASKS, SupportedTask
 from vllm.transformers_utils.config import maybe_register_config_serialize_by_value
-from vllm.utils.gc_utils import maybe_attach_gc_debug_callback
+from vllm.utils.gc_utils import (
+    freeze_gc_heap,
+    maybe_attach_gc_debug_callback,
+)
 from vllm.utils.hashing import get_hash_fn_by_name
 from vllm.utils.network_utils import make_zmq_socket
 from vllm.utils.system_utils import decorate_logs, set_process_title
@@ -197,6 +199,10 @@ class EngineCore:
             self.step if self.batch_queue is None else self.step_with_batch_queue
         )
 
+        # Mark the startup heap as static so that it's ignored by GC.
+        # Reduces pause times of oldest generation collections.
+        freeze_gc_heap()
+
     def _initialize_kv_caches(
         self, vllm_config: VllmConfig
     ) -> tuple[int, int, KVCacheConfig]:
@@ -651,11 +657,6 @@ class EngineCoreProc(EngineCore):
                 assert addresses.coordinator_input is not None
                 logger.info("Waiting for READY message from DP Coordinator...")
 
-        # Mark the startup heap as static so that it's ignored by GC.
-        # Reduces pause times of oldest generation collections.
-        gc.collect()
-        gc.freeze()
-
         # If enable, attach GC debugger after static variable freeze.
         maybe_attach_gc_debug_callback()
 

From a5a790eea6035760c71eae1861c1e5f369bc6d08 Mon Sep 17 00:00:00 2001
From: Adrian Abeyta <aabeyta@redhat.com>
Date: Mon, 10 Nov 2025 17:42:37 -0600
Subject: [PATCH 290/976] [Bugfix] Ensure calculated KV scales are applied in
 attention. (#27232)

Signed-off-by: adabeyta <aabeyta@redhat.com>
---
 .buildkite/test-pipeline.yaml      |  7 +++++--
 tests/compile/test_full_graph.py   | 10 ++++++++--
 vllm/attention/layer.py            | 29 +++++++----------------------
 vllm/v1/worker/gpu_model_runner.py | 19 +++++++++----------
 4 files changed, 29 insertions(+), 36 deletions(-)

diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index 3152cd6488f36..a0d2076199b14 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -471,8 +471,8 @@ steps:
   - vllm/
   - tests/compile
   commands:
-  - pytest -v -s compile/test_full_graph.py
-    # Limit to no custom ops to reduce running time 
+  - pytest -v -s compile/test_full_graph.py -k 'not test_fp8_kv_scale_compile'
+    # Limit to no custom ops to reduce running time
     # Wrap with quotes to escape yaml and avoid starting -k string with a -
   - "pytest -v -s compile/test_fusions_e2e.py -k 'TRITON and -quant_fp8'"
 
@@ -951,10 +951,13 @@ steps:
   - vllm/model_executor/layers/activation.py
   - vllm/model_executor/layers/quantization/input_quant_fp8.py
   - tests/compile/test_fusions_e2e.py
+  - tests/compile/test_full_graph.py
   commands:
     - nvidia-smi
     # Run all e2e fusion tests
     - pytest -v -s tests/compile/test_fusions_e2e.py
+    # test_fp8_kv_scale_compile requires FlashAttention (not supported on default L4/L40)
+    - pytest -v -s tests/compile/test_full_graph.py::test_fp8_kv_scale_compile
 
 - label: Blackwell GPT-OSS Eval
   timeout_in_minutes: 60
diff --git a/tests/compile/test_full_graph.py b/tests/compile/test_full_graph.py
index 0ad8c17d86686..71f90f6d8d3ee 100644
--- a/tests/compile/test_full_graph.py
+++ b/tests/compile/test_full_graph.py
@@ -183,8 +183,14 @@ def test_custom_compile_config(
     "compilation_mode",
     [CompilationMode.NONE, CompilationMode.VLLM_COMPILE],
 )
-def test_fp8_kv_scale_compile(compilation_mode: int):
-    model = "Qwen/Qwen2-0.5B"
+@pytest.mark.parametrize(
+    "model",
+    [
+        "Qwen/Qwen2-0.5B",  # Standard attention model
+        "deepseek-ai/DeepSeek-V2-Lite",  # MLA (Multi-head Latent Attention) model
+    ],
+)
+def test_fp8_kv_scale_compile(compilation_mode: int, model: str):
     model_kwargs = {
         "quantization": "fp8",
         "kv_cache_dtype": "fp8_e4m3",
diff --git a/vllm/attention/layer.py b/vllm/attention/layer.py
index 17e025155a431..96272981692c0 100644
--- a/vllm/attention/layer.py
+++ b/vllm/attention/layer.py
@@ -745,6 +745,9 @@ class MLAAttention(nn.Module, AttentionLayerBase):
         k_pe: torch.Tensor,
         output_shape: torch.Size | None = None,
     ) -> torch.Tensor:
+        if self.calculate_kv_scales:
+            torch.ops.vllm.maybe_calc_kv_scales(q, kv_c_normed, k_pe, self.layer_name)
+
         if self.use_direct_call:
             forward_context: ForwardContext = get_forward_context()
             attn_metadata = forward_context.attn_metadata
@@ -752,12 +755,6 @@ class MLAAttention(nn.Module, AttentionLayerBase):
                 attn_metadata = attn_metadata[self.layer_name]
             self_kv_cache = self.kv_cache[forward_context.virtual_engine]
 
-            # Mirror Attention.forward scale calculation path
-            if self.calculate_kv_scales and getattr(
-                attn_metadata, "enable_kv_scales_calculation", False
-            ):
-                self.calc_kv_scales(q, kv_c_normed, k_pe)
-
             if self.attn_backend.accept_output_buffer:
                 output = torch.empty(output_shape, dtype=q.dtype, device=q.device)
                 self.impl.forward(
@@ -786,14 +783,6 @@ class MLAAttention(nn.Module, AttentionLayerBase):
                 )
                 return output
             else:
-                # We can still access forward context to check calculation flag
-                if self.calculate_kv_scales:
-                    forward_context = get_forward_context()
-                    attn_metadata = forward_context.attn_metadata
-                    if isinstance(attn_metadata, dict):
-                        attn_metadata = attn_metadata[self.layer_name]
-                    if getattr(attn_metadata, "enable_kv_scales_calculation", False):
-                        self.calc_kv_scales(q, kv_c_normed, k_pe)
                 return torch.ops.vllm.unified_mla_attention(
                     q,
                     kv_c_normed,
@@ -881,17 +870,13 @@ def maybe_calc_kv_scales(
     layer_name: str,
 ) -> None:
     forward_context: ForwardContext = get_forward_context()
-    attn_metadata = forward_context.attn_metadata
+    self = forward_context.no_compile_layers[layer_name]
 
-    if isinstance(attn_metadata, dict):
-        attn_metadata = attn_metadata[layer_name]
-
-    if attn_metadata is None or not getattr(
-        attn_metadata, "enable_kv_scales_calculation", False
-    ):
+    # Only calculate if the layer's calculate_kv_scales flag is True
+    # This flag gets set to False after the first forward pass
+    if not self.calculate_kv_scales:
         return
 
-    self = forward_context.no_compile_layers[layer_name]
     self.calc_kv_scales(query, key, value)
 
 
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index 9403b5756e052..6fccf2ea2f47c 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -279,6 +279,9 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
         # This will be overridden in load_model()
         self.is_multimodal_pruning_enabled = False
         self.max_model_len = model_config.max_model_len
+
+        # Always set to false after the first forward pass
+        self.calculate_kv_scales = self.cache_config.calculate_kv_scales
         self.dcp_world_size = self.parallel_config.decode_context_parallel_size
         self.dcp_rank = 0 if self.dcp_world_size <= 1 else get_dcp_group().rank_in_group
         self.max_num_tokens = scheduler_config.max_num_batched_tokens
@@ -2625,16 +2628,12 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
             )
 
         # Set cudagraph mode to none if calc_kv_scales is true.
-        if attn_metadata is not None:
-            metadata_list = (
-                attn_metadata.values()
-                if isinstance(attn_metadata, dict)
-                else [attn_metadata]
-            )
-            if any(
-                getattr(m, "enable_kv_scales_calculation", False) for m in metadata_list
-            ):
-                cudagraph_runtime_mode = CUDAGraphMode.NONE
+        # KV scales calculation involves dynamic operations that are incompatible
+        # with CUDA graph capture.
+        if self.calculate_kv_scales:
+            cudagraph_runtime_mode = CUDAGraphMode.NONE
+            # Mark KV scales as calculated after the first forward pass
+            self.calculate_kv_scales = False
 
         # Run the model.
         # Use persistent buffers for CUDA graphs.

From 0bf29fadf5f8b28817fbccb037fb70adaef3f7f1 Mon Sep 17 00:00:00 2001
From: Matthew Bonanni <mbonanni@redhat.com>
Date: Mon, 10 Nov 2025 17:57:41 -0600
Subject: [PATCH 291/976] [Test] Remove old non-varlen FA2 test (#28420)

Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>
---
 tests/kernels/attention/test_flash_attn.py | 119 ---------------------
 1 file changed, 119 deletions(-)

diff --git a/tests/kernels/attention/test_flash_attn.py b/tests/kernels/attention/test_flash_attn.py
index 18995545552ea..6e5468969bf25 100644
--- a/tests/kernels/attention/test_flash_attn.py
+++ b/tests/kernels/attention/test_flash_attn.py
@@ -9,7 +9,6 @@ from vllm.platforms import current_platform
 from vllm.vllm_flash_attn import (
     fa_version_unsupported_reason,
     flash_attn_varlen_func,
-    flash_attn_with_kvcache,
     is_fa_version_supported,
 )
 
@@ -83,124 +82,6 @@ def ref_paged_attn(
     return torch.cat(outputs, dim=0)
 
 
-@pytest.mark.parametrize("use_out", [True, False])
-@pytest.mark.parametrize("kv_lens", [[1328, 18, 463], [1, 54, 293, 70]])
-@pytest.mark.parametrize("num_heads", NUM_HEADS)
-@pytest.mark.parametrize("head_size", HEAD_SIZES)
-@pytest.mark.parametrize("block_size", BLOCK_SIZES)
-@pytest.mark.parametrize("dtype", DTYPES)
-@pytest.mark.parametrize("soft_cap", SOFT_CAPS)
-@pytest.mark.parametrize("num_blocks", NUM_BLOCKS)
-@pytest.mark.parametrize("sliding_window", SLIDING_WINDOWS)
-@pytest.mark.parametrize("fa_version", [2, 3])
-@pytest.mark.parametrize("q_dtype", QDTYPES)
-@torch.inference_mode()
-def test_flash_attn_with_paged_kv(
-    use_out: bool,
-    kv_lens: list[int],
-    num_heads: tuple[int, int],
-    head_size: int,
-    dtype: torch.dtype,
-    block_size: int,
-    soft_cap: float | None,
-    num_blocks: int,
-    sliding_window: int | None,
-    fa_version: int,
-    q_dtype: torch.dtype | None,
-) -> None:
-    torch.set_default_device("cuda")
-    if not is_fa_version_supported(fa_version):
-        pytest.skip(
-            f"Flash attention version {fa_version} not supported due "
-            f'to: "{fa_version_unsupported_reason(fa_version)}"'
-        )
-    if q_dtype is not None and (dtype != torch.bfloat16 or fa_version == 2):
-        pytest.skip(
-            "Flash attention with quantized inputs is only "
-            "supported on version 3 with bfloat16 base type"
-        )
-
-    current_platform.seed_everything(0)
-    num_seqs = len(kv_lens)
-    num_query_heads = num_heads[0]
-    num_kv_heads = num_heads[1]
-    assert num_query_heads % num_kv_heads == 0
-    max_kv_len = max(kv_lens)
-    scale = head_size**-0.5
-    window_size = (sliding_window - 1, 0) if sliding_window is not None else (-1, -1)
-
-    query = torch.randn(num_seqs, num_query_heads, head_size, dtype=dtype)
-    key_cache = torch.randn(
-        num_blocks, block_size, num_kv_heads, head_size, dtype=dtype
-    )
-    value_cache = torch.randn_like(key_cache)
-    kv_lens_tensor = torch.tensor(kv_lens, dtype=torch.int32)
-
-    max_num_blocks_per_seq = (max_kv_len + block_size - 1) // block_size
-    block_tables = torch.randint(
-        0, num_blocks, (num_seqs, max_num_blocks_per_seq), dtype=torch.int32
-    )
-
-    q = query.unsqueeze(1)
-    out = torch.empty_like(q) if use_out else None
-
-    maybe_quantized_query = q
-    maybe_quantized_key_cache = key_cache
-    maybe_quantized_value_cache = value_cache
-    q_descale = None
-    k_descale = None
-    v_descale = None
-    if q_dtype is not None:
-        # QKV are drawn from N(0, 1): no need for a fp8 scaling factor
-        maybe_quantized_query = q.to(q_dtype)
-        maybe_quantized_key_cache = key_cache.to(q_dtype)
-        maybe_quantized_value_cache = value_cache.to(q_dtype)
-
-        scale_shape = (num_seqs, num_kv_heads)
-        q_descale = torch.ones(scale_shape, dtype=torch.float32)
-        k_descale = torch.ones(scale_shape, dtype=torch.float32)
-        v_descale = torch.ones(scale_shape, dtype=torch.float32)
-
-    output = flash_attn_with_kvcache(
-        q=maybe_quantized_query,
-        k_cache=maybe_quantized_key_cache,
-        v_cache=maybe_quantized_value_cache,
-        out=out,
-        softmax_scale=scale,
-        causal=True,
-        block_table=block_tables,
-        cache_seqlens=kv_lens_tensor,
-        softcap=soft_cap if soft_cap is not None else 0,
-        window_size=window_size,
-        fa_version=fa_version,
-        q_descale=q_descale,
-        k_descale=k_descale,
-        v_descale=v_descale,
-    )
-    output = output if not use_out else out
-    output = output.squeeze(1)
-
-    atol, rtol = 1.5e-2, 1e-2
-    if q_dtype is not None:
-        atol, rtol = 1.5e-1, 1.5e-1
-
-    ref_output = ref_paged_attn(
-        query=query,
-        key_cache=key_cache,
-        value_cache=value_cache,
-        query_lens=[1] * num_seqs,
-        kv_lens=kv_lens,
-        block_tables=block_tables,
-        scale=scale,
-        soft_cap=soft_cap,
-        sliding_window=sliding_window,
-    )
-    (
-        torch.testing.assert_close(output, ref_output, atol=atol, rtol=rtol),
-        f"{torch.max(torch.abs(output - ref_output))}",
-    )
-
-
 @pytest.mark.parametrize("use_out", [True, False])
 @pytest.mark.parametrize(
     "seq_lens", [[(1, 1328), (5, 18), (129, 463)], [(1, 523), (1, 37), (1, 2011)]]

From 35d801f13fa5bd79ae74707388b1fa4e1caf9ba5 Mon Sep 17 00:00:00 2001
From: Wentao Ye <44945378+yewentao256@users.noreply.github.com>
Date: Mon, 10 Nov 2025 19:08:40 -0500
Subject: [PATCH 292/976] [Feature] Refactor batch invariant fp8 DeepGEMM
 (#27606)

Signed-off-by: yewentao256 <zhyanwentao@126.com>
---
 .../model_executor/layers/quantization/fp8.py | 98 +++----------------
 1 file changed, 11 insertions(+), 87 deletions(-)

diff --git a/vllm/model_executor/layers/quantization/fp8.py b/vllm/model_executor/layers/quantization/fp8.py
index f5fc750baaea7..c7d5b251cf4ef 100644
--- a/vllm/model_executor/layers/quantization/fp8.py
+++ b/vllm/model_executor/layers/quantization/fp8.py
@@ -43,7 +43,6 @@ from vllm.model_executor.layers.quantization.base_config import (
     QuantizationConfig,
     QuantizeMethodBase,
 )
-from vllm.model_executor.layers.quantization.input_quant_fp8 import QuantFP8
 from vllm.model_executor.layers.quantization.kv_cache import BaseKVCacheMethod
 from vllm.model_executor.layers.quantization.utils.flashinfer_utils import (
     FlashinferMoeBackend,
@@ -95,11 +94,9 @@ from vllm.model_executor.utils import set_weight_attrs
 from vllm.platforms import current_platform
 from vllm.scalar_type import scalar_types
 from vllm.utils.deep_gemm import (
-    fp8_gemm_nt,
     get_col_major_tma_aligned_tensor,
     is_deep_gemm_e8m0_used,
     is_deep_gemm_supported,
-    should_use_deepgemm_for_fp8_linear,
 )
 from vllm.utils.flashinfer import has_flashinfer_moe
 from vllm.utils.import_utils import has_deep_gemm
@@ -554,83 +551,19 @@ class Fp8LinearMethod(LinearMethodBase):
         # if batch invariant mode is enabled, prefer DeepGEMM FP8 path
         # we will use BF16 dequant when DeepGEMM is not supported.
         if vllm_is_batch_invariant():
-            # Call is_deep_gemm_supported() ahead of time for torch.compile
-            # dynamo has trouble tracing through
-            if self.block_quant and should_use_deepgemm_for_fp8_linear(
-                torch.bfloat16, layer.weight, self.use_deep_gemm
-            ):
-                # use group quant consistent with block size across K
-                assert self.act_q_group_shape is not None
-                q_input, input_scale = QuantFP8(
-                    False,
-                    self.act_q_group_shape,
-                    column_major_scales=True,
-                )(x)
-
-                output_2d = torch.empty(
-                    (q_input.shape[0], layer.weight.shape[0]),
-                    dtype=torch.bfloat16,
-                    device=q_input.device,
-                )
-                fp8_gemm_nt(
-                    (q_input, input_scale),
-                    (layer.weight, layer.weight_scale),
-                    output_2d,
-                )
-                if bias is not None:
-                    output_2d = output_2d + bias
-                return output_2d
-
-            # Dequantize FP8 weights to BF16
-            weight_fp8 = layer.weight.to(torch.bfloat16)
-            weight_scale = layer.weight_scale.to(torch.bfloat16)
-
-            # Handle different quantization granularities
             if self.block_quant:
-                # Block-wise quantization:
-                # - Weight is NOT transposed, shape is [N, K] (output_size, input_size)
-                # - Scale has shape [num_blocks_k, num_blocks_n] (TRANSPOSED!)
                 assert self.weight_block_size is not None
-                block_n, block_k = self.weight_block_size  # Note: order is [N, K]
-
-                N, K = weight_fp8.shape
-
-                # determine expected number of blocks along N and K
-                num_blocks_n = (N + block_n - 1) // block_n
-                num_blocks_k = (K + block_k - 1) // block_k
-
-                # scale layout may be [num_blocks_n, num_blocks_k]
-                # or [num_blocks_k, num_blocks_n] depending on backend
-                if weight_scale.dim() != 2:
-                    raise RuntimeError(
-                        f"FP8 block scale must be 2D, got {tuple(weight_scale.shape)}"
-                    )
-
-                scale_rows, scale_cols = weight_scale.shape
-                if (scale_rows, scale_cols) == (num_blocks_k, num_blocks_n):
-                    if num_blocks_n == num_blocks_k:
-                        # ambiguous square case, warn and skip transpose
-                        logger.warning(
-                            "Batch-invariant FP8: square block-scale %dx%d; "
-                            "skipping transpose to avoid misorientation.",
-                            scale_rows,
-                            scale_cols,
-                        )
-                    else:
-                        # clear KN -> transpose to NK
-                        weight_scale = weight_scale.t()
-
-                # Expand scale to match weight dimensions
-                # scale_expanded should have shape [N, K]
-                scale_expanded = weight_scale.repeat_interleave(
-                    block_n, dim=0
-                ).repeat_interleave(block_k, dim=1)
-                # Trim to exact weight size (in case of padding)
-                scale_expanded = scale_expanded[:N, :K]
-                weight_bf16 = weight_fp8 * scale_expanded
+                return self.w8a8_block_fp8_linear.apply(
+                    input=x,
+                    weight=layer.weight,
+                    weight_scale=layer.weight_scale,
+                    input_scale=layer.input_scale,
+                    bias=bias,
+                )
             else:
-                # Per-tensor quantization: weight IS transposed to [K, N]
-                # scale should be scalar or [1] or per-output-channel [N]
+                # per-tensor/channel: dequant to BF16 and run GEMM
+                weight_fp8 = layer.weight.to(torch.bfloat16)
+                weight_scale = layer.weight_scale.to(torch.bfloat16)
                 if weight_scale.numel() == 1:
                     # Per-tensor: simple scalar multiplication
                     weight_bf16 = weight_fp8 * weight_scale
@@ -649,16 +582,7 @@ class Fp8LinearMethod(LinearMethodBase):
                     else:
                         # Fallback
                         weight_bf16 = weight_fp8 * weight_scale
-
-            # For block quant, weight is [N, K], for per-tensor it's [K, N]
-            # F.linear expects weight to be [N, K], so:
-            if self.block_quant:
-                # Already in correct shape [N, K]
-                output = torch.nn.functional.linear(x, weight_bf16, bias)
-            else:
-                # Need to transpose back: [K, N] -> [N, K]
-                output = torch.nn.functional.linear(x, weight_bf16.t(), bias)
-            return output
+                return torch.nn.functional.linear(x, weight_bf16.t(), bias)
 
         if self.use_marlin:
             return apply_fp8_marlin_linear(

From 39029d519276fddbe0c36440e0eefcdda069b969 Mon Sep 17 00:00:00 2001
From: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com>
Date: Mon, 10 Nov 2025 20:36:29 -0500
Subject: [PATCH 293/976] [CI/Test Fix] Fix CP tests on Blackwell (#28404)

Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com>
Signed-off-by: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com>
Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
---
 tests/distributed/test_context_parallel.py | 12 ++++++++++++
 vllm/attention/ops/common.py               |  1 -
 2 files changed, 12 insertions(+), 1 deletion(-)

diff --git a/tests/distributed/test_context_parallel.py b/tests/distributed/test_context_parallel.py
index 7f8e77a75621f..3576efca591cf 100644
--- a/tests/distributed/test_context_parallel.py
+++ b/tests/distributed/test_context_parallel.py
@@ -14,6 +14,7 @@ from dataclasses import dataclass
 from typing import Literal, NamedTuple
 
 import pytest
+import torch
 
 from vllm.config.model import RunnerOption
 from vllm.logger import init_logger
@@ -254,6 +255,17 @@ def test_cp_generation(
     test_options: CPTestOptions,
     num_gpus_available,
 ):
+    if (
+        model_id == "deepseek-ai/DeepSeek-V2-Lite-Chat"
+        and torch.cuda.get_device_capability() < (9, 0)
+    ):
+        pytest.skip(reason="MLA+DCP requires compute capability of 9.0 or higher")
+    if (
+        model_id == "bigcode/gpt_bigcode-santacoder"
+        and torch.cuda.get_device_capability() != (9, 0)
+    ):
+        pytest.skip(reason="GQA+DCP currently requires compute capability of 9.0")
+
     _compare_cp_with_tp(
         model_id,
         parallel_setup,
diff --git a/vllm/attention/ops/common.py b/vllm/attention/ops/common.py
index 75fdcb8f48b24..2cbb5c91cc3b3 100644
--- a/vllm/attention/ops/common.py
+++ b/vllm/attention/ops/common.py
@@ -195,7 +195,6 @@ def cp_lse_ag_out_rs(
     cp_attn_lse = cp_attn_lse.contiguous()
     lses = cp_group.all_gather(cp_attn_lse, dim=0).view_as(lses)
     out, lse = correct_attn_out(cp_attn_out, lses, cp_group.rank_in_group, ctx)
-    assert out.is_contiguous()
     out = cp_group.reduce_scatter(out, dim=1)
 
     if return_lse:

From de540c0354b9ecfa979c917a4599f8030d4105be Mon Sep 17 00:00:00 2001
From: Wentao Ye <44945378+yewentao256@users.noreply.github.com>
Date: Mon, 10 Nov 2025 21:29:48 -0500
Subject: [PATCH 294/976] [Feature] Add env var `VLLM_MOE_USE_DEEP_GEMM`
 (#28422)

Signed-off-by: yewentao256 <zhyanwentao@126.com>
---
 vllm/envs.py                                           |  6 ++++++
 .../compressed_tensors/compressed_tensors_moe.py       | 10 +++++++++-
 vllm/model_executor/layers/quantization/fp8.py         |  2 +-
 vllm/model_executor/warmup/deep_gemm_warmup.py         |  3 +++
 4 files changed, 19 insertions(+), 2 deletions(-)

diff --git a/vllm/envs.py b/vllm/envs.py
index 30c62e90e9fb7..9421488051e56 100755
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -147,6 +147,7 @@ if TYPE_CHECKING:
     VLLM_TPU_MOST_MODEL_LEN: int | None = None
     VLLM_TPU_USING_PATHWAYS: bool = False
     VLLM_USE_DEEP_GEMM: bool = True
+    VLLM_MOE_USE_DEEP_GEMM: bool = True
     VLLM_USE_DEEP_GEMM_E8M0: bool = True
     VLLM_DEEP_GEMM_WARMUP: Literal[
         "skip",
@@ -1116,6 +1117,10 @@ environment_variables: dict[str, Callable[[], Any]] = {
     ),
     # Allow use of DeepGemm kernels for fused moe ops.
     "VLLM_USE_DEEP_GEMM": lambda: bool(int(os.getenv("VLLM_USE_DEEP_GEMM", "1"))),
+    # Allow use of DeepGemm specifically for MoE fused ops (overrides only MoE).
+    "VLLM_MOE_USE_DEEP_GEMM": lambda: bool(
+        int(os.getenv("VLLM_MOE_USE_DEEP_GEMM", "1"))
+    ),
     # Whether to use E8M0 scaling when DeepGEMM is used on Blackwell GPUs.
     "VLLM_USE_DEEP_GEMM_E8M0": lambda: bool(
         int(os.getenv("VLLM_USE_DEEP_GEMM_E8M0", "1"))
@@ -1569,6 +1574,7 @@ def compute_hash() -> str:
         "VLLM_USE_FLASHINFER_SAMPLER",
         "VLLM_DISABLED_KERNELS",
         "VLLM_USE_DEEP_GEMM",
+        "VLLM_MOE_USE_DEEP_GEMM",
         "VLLM_USE_DEEP_GEMM_E8M0",
         "VLLM_USE_FUSED_MOE_GROUPED_TOPK",
         "VLLM_USE_FLASHINFER_MOE_FP16",
diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
index d32ae6674ee60..59567f2ca13c7 100644
--- a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
@@ -966,10 +966,18 @@ class CompressedTensorsW8A8Fp8MoEMethod(CompressedTensorsMoEMethod):
                 max_num_tokens=max_num_tokens_per_rank,
                 num_dispatchers=prepare_finalize.num_dispatchers(),
                 quant_config=self.moe_quant_config,
+                allow_deep_gemm=(
+                    envs.VLLM_USE_DEEP_GEMM and envs.VLLM_MOE_USE_DEEP_GEMM
+                ),
             )
         else:
             logger.debug("TritonOrDeepGemmExperts(%s)", self.__class__.__name__)
-            return TritonOrDeepGemmExperts(self.moe_quant_config, allow_deep_gemm=True)
+            return TritonOrDeepGemmExperts(
+                self.moe_quant_config,
+                allow_deep_gemm=(
+                    envs.VLLM_USE_DEEP_GEMM and envs.VLLM_MOE_USE_DEEP_GEMM
+                ),
+            )
 
     def get_fused_moe_quant_config(
         self, layer: torch.nn.Module
diff --git a/vllm/model_executor/layers/quantization/fp8.py b/vllm/model_executor/layers/quantization/fp8.py
index c7d5b251cf4ef..83d136600b77c 100644
--- a/vllm/model_executor/layers/quantization/fp8.py
+++ b/vllm/model_executor/layers/quantization/fp8.py
@@ -158,7 +158,7 @@ def get_fp8_moe_backend(block_quant: bool) -> Fp8MoeBackend:
         return Fp8MoeBackend.MARLIN
 
     # deepGEMM on supported platforms with block-quantized weights
-    if envs.VLLM_USE_DEEP_GEMM and block_quant:
+    if envs.VLLM_USE_DEEP_GEMM and envs.VLLM_MOE_USE_DEEP_GEMM and block_quant:
         if not has_deep_gemm():
             logger.warning_once("DeepGEMM backend requested but not available.")
         elif is_deep_gemm_supported():
diff --git a/vllm/model_executor/warmup/deep_gemm_warmup.py b/vllm/model_executor/warmup/deep_gemm_warmup.py
index bdcebd498ef01..e0c584df8760b 100644
--- a/vllm/model_executor/warmup/deep_gemm_warmup.py
+++ b/vllm/model_executor/warmup/deep_gemm_warmup.py
@@ -148,6 +148,9 @@ def _fp8_linear_may_use_deep_gemm(module: torch.nn.Module) -> bool:
 
 
 def _fused_moe_grouped_gemm_may_use_deep_gemm(module: torch.nn.Module) -> bool:
+    if not (envs.VLLM_USE_DEEP_GEMM and envs.VLLM_MOE_USE_DEEP_GEMM):
+        return False
+
     if not isinstance(module, FusedMoE):
         return False
 

From f2d9ad0620d9aa71481527dcfafdb8357da00470 Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Mon, 10 Nov 2025 19:53:24 -0700
Subject: [PATCH 295/976] Only register rocm_aiter_ops if aiter is found
 (#28428)

Signed-off-by: mgoin <mgoin64@gmail.com>
---
 vllm/_aiter_ops.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/vllm/_aiter_ops.py b/vllm/_aiter_ops.py
index 9a4b5f3399bed..8d35aa65738b2 100644
--- a/vllm/_aiter_ops.py
+++ b/vllm/_aiter_ops.py
@@ -938,4 +938,5 @@ class rocm_aiter_ops:
         return tuple(shuffle_weight(tensor, layout=layout) for tensor in tensors)
 
 
-rocm_aiter_ops.register_ops_once()
+if IS_AITER_FOUND:
+    rocm_aiter_ops.register_ops_once()

From 57201a6a4c53bbd6adb9a4b702c95d5f480161d5 Mon Sep 17 00:00:00 2001
From: Xin Yang <105740670+xyang16@users.noreply.github.com>
Date: Mon, 10 Nov 2025 18:57:12 -0800
Subject: [PATCH 296/976] Fix rotary embedding benchmark script (#28323)

Signed-off-by: Xin Yang <xyangx@amazon.com>
---
 benchmarks/kernels/benchmark_rope.py | 158 +++++++++++----------------
 1 file changed, 66 insertions(+), 92 deletions(-)

diff --git a/benchmarks/kernels/benchmark_rope.py b/benchmarks/kernels/benchmark_rope.py
index 29ef6409bb166..074b7a440b612 100644
--- a/benchmarks/kernels/benchmark_rope.py
+++ b/benchmarks/kernels/benchmark_rope.py
@@ -1,97 +1,76 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
-from itertools import accumulate
+import itertools
 
-import nvtx
 import torch
 
-from vllm.model_executor.layers.rotary_embedding import RotaryEmbedding, get_rope
-from vllm.platforms import current_platform
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.triton_utils import triton
 from vllm.utils.argparse_utils import FlexibleArgumentParser
 
+batch_size_range = [2**i for i in range(0, 8, 2)]
+seq_len_range = [2**i for i in range(6, 10, 1)]
+num_heads_range = [32, 48]
+configs = list(itertools.product(batch_size_range, seq_len_range, num_heads_range))
 
-def benchmark_rope_kernels_multi_lora(
-    is_neox_style: bool,
-    batch_size: int,
-    seq_len: int,
-    num_heads: int,
-    head_size: int,
-    rotary_dim: int | None,
-    dtype: torch.dtype,
-    seed: int,
-    device: str,
-    max_position: int = 8192,
-    base: float = 10000,
-) -> None:
-    current_platform.seed_everything(seed)
-    torch.set_default_device(device)
-    if rotary_dim is None:
-        rotary_dim = head_size
-    # silulating serving 4 LoRAs
-    scaling_factors = [1, 2, 4, 8]
-    # batched RoPE can take multiple scaling factors
-    batched_rope = get_rope(
-        head_size,
-        rotary_dim,
-        max_position,
-        base,
-        is_neox_style,
-        {"rope_type": "linear", "factor": tuple(scaling_factors)},
-    )
-    # non-batched RoPE takes only one scaling factor, we create multiple
-    # instances to simulate the same behavior
-    non_batched_ropes: list[RotaryEmbedding] = []
-    for scaling_factor in scaling_factors:
-        non_batched_ropes.append(
-            get_rope(
-                head_size,
-                rotary_dim,
-                max_position,
-                base,
-                is_neox_style,
-                {"rope_type": "linear", "factor": (scaling_factor,)},
-            )
-        )
 
-    positions = torch.randint(0, max_position, (batch_size, seq_len))
-    query = torch.randn(batch_size, seq_len, num_heads * head_size, dtype=dtype)
-    key = torch.randn_like(query)
-
-    # create query offsets for batched RoPE, we concat multiple kv cache
-    # together and each query needs to find the right kv cache of its type
-    offset_map = torch.tensor(
-        list(
-            accumulate(
-                [0]
-                + [
-                    max_position * scaling_factor * 2
-                    for scaling_factor in scaling_factors[:-1]
-                ]
-            )
+def get_benchmark(head_size, rotary_dim, is_neox_style, device):
+    @triton.testing.perf_report(
+        triton.testing.Benchmark(
+            x_names=["batch_size", "seq_len", "num_heads"],
+            x_vals=[list(_) for _ in configs],
+            line_arg="provider",
+            line_vals=["torch", "flashinfer", "vllm"],
+            line_names=["PyTorch", "FlashInfer", "vLLM"],
+            styles=[("blue", "-"), ("green", "-"), ("red", "-")],
+            ylabel="us",
+            plot_name=f"rope-perf{'-neox-style' if is_neox_style else ''}",
+            args={},
         )
     )
-    query_types = torch.randint(
-        0, len(scaling_factors), (batch_size, seq_len), device=device
-    )
-    # map query types to offsets
-    query_offsets = offset_map[query_types]
-    # the kernel takes flattened offsets
-    flatten_offsets = query_offsets.flatten()
+    def benchmark(batch_size, seq_len, num_heads, provider):
+        dtype = torch.bfloat16
+        max_position = 8192
+        base = 10000
+        rope = get_rope(head_size, rotary_dim, max_position, base, is_neox_style)
+        rope = rope.to(dtype=dtype, device=device)
+        cos_sin_cache = rope.cos_sin_cache.to(dtype=torch.float, device=device)
 
-    # batched queries of the same type together for non-batched RoPE
-    queries = [query[query_types == i] for i in range(len(scaling_factors))]
-    keys = [key[query_types == i] for i in range(len(scaling_factors))]
-    packed_qkr = zip(queries, keys, non_batched_ropes)
-    # synchronize before start timing
-    torch.cuda.synchronize()
-    with nvtx.annotate("non-batched", color="yellow"):
-        for q, k, r in packed_qkr:
-            r.forward(positions, q, k)
-    torch.cuda.synchronize()
-    with nvtx.annotate("batched", color="green"):
-        batched_rope.forward(positions, query, key, flatten_offsets)
-    torch.cuda.synchronize()
+        positions = torch.randint(0, max_position, (batch_size, seq_len), device=device)
+        query = torch.randn(
+            (batch_size, seq_len, num_heads * head_size), dtype=dtype, device=device
+        )
+        key = torch.randn_like(query)
+
+        quantiles = [0.5, 0.2, 0.8]
+
+        if provider == "torch":
+            ms, min_ms, max_ms = triton.testing.do_bench(
+                lambda: rope.forward_native(positions, query.clone(), key.clone()),
+                quantiles=quantiles,
+            )
+        elif provider == "flashinfer":
+            ms, min_ms, max_ms = triton.testing.do_bench(
+                lambda: torch.ops.vllm.flashinfer_rotary_embedding(
+                    positions,
+                    query.clone(),
+                    key.clone(),
+                    head_size,
+                    cos_sin_cache,
+                    is_neox_style,
+                ),
+                quantiles=quantiles,
+            )
+        else:
+            ms, min_ms, max_ms = triton.testing.do_bench(
+                lambda: rope.forward_cuda(positions, query.clone(), key.clone()),
+                quantiles=quantiles,
+            )
+
+        return 1000 * ms, 1000 * max_ms, 1000 * min_ms
+
+    return benchmark
 
 
 if __name__ == "__main__":
@@ -116,17 +95,12 @@ if __name__ == "__main__":
     parser.add_argument(
         "--device", type=str, choices=["cuda:0", "cuda:1"], default="cuda:0"
     )
+    parser.add_argument("--save-path", type=str, default="./configs/rope/")
     args = parser.parse_args()
-    print(args)
 
-    benchmark_rope_kernels_multi_lora(
-        is_neox_style=args.is_neox_style,
-        batch_size=args.batch_size,
-        seq_len=args.seq_len,
-        num_heads=args.num_heads,
-        head_size=args.head_size,
-        rotary_dim=args.rotary_dim,
-        dtype=getattr(torch, args.dtype),
-        seed=args.seed,
-        device=args.device,
+    # Get the benchmark function
+    benchmark = get_benchmark(
+        args.head_size, args.rotary_dim, args.is_neox_style, args.device
     )
+    # Run performance benchmark
+    benchmark.run(print_data=True, save_path=args.save_path)

From 8d706cca903a008169e7ac8f1dc1f65c8ffd85c0 Mon Sep 17 00:00:00 2001
From: Zhuohan Li <zhuohan123@gmail.com>
Date: Mon, 10 Nov 2025 19:41:23 -0800
Subject: [PATCH 297/976] [Misc] FlattenLogprobs -> FlatLogprobs (#28335)

---
 tests/samplers/test_logprobs.py | 16 +++++--------
 tests/test_logprobs.py          | 40 ++++++++++++++++-----------------
 vllm/envs.py                    |  8 +++----
 vllm/logprobs.py                | 26 ++++++++++-----------
 4 files changed, 43 insertions(+), 47 deletions(-)

diff --git a/tests/samplers/test_logprobs.py b/tests/samplers/test_logprobs.py
index 87f5d40ac1da7..c9d227599cde5 100644
--- a/tests/samplers/test_logprobs.py
+++ b/tests/samplers/test_logprobs.py
@@ -4,7 +4,7 @@
 import pytest
 
 from vllm import SamplingParams
-from vllm.logprobs import FlattenLogprobs
+from vllm.logprobs import FlatLogprobs
 
 MODELS = ["distilbert/distilgpt2"]
 MAX_TOKENS = 5
@@ -16,17 +16,17 @@ MAX_LOGPROBS = max(NUM_TOP_LOGPROBS, NUM_PROMPT_LOGPROBS)
 @pytest.mark.parametrize("model", MODELS)
 @pytest.mark.parametrize("dtype", ["half"])
 @pytest.mark.parametrize("greedy", [True, False])
-@pytest.mark.parametrize("flatten_logprobs", [True, False])
+@pytest.mark.parametrize("flat_logprobs", [True, False])
 def test_ranks(
     vllm_runner,
     model,
     dtype,
     greedy,
-    flatten_logprobs,
+    flat_logprobs,
     example_prompts,
     monkeypatch: pytest.MonkeyPatch,
 ):
-    monkeypatch.setenv("VLLM_FLATTEN_LOGPROBS", "1" if flatten_logprobs else "0")
+    monkeypatch.setenv("VLLM_FLAT_LOGPROBS", "1" if flat_logprobs else "0")
     with vllm_runner(model, dtype=dtype, max_logprobs=MAX_LOGPROBS) as vllm_model:
         tokenizer = vllm_model.llm.get_tokenizer()
         example_prompt_tokens = [tokenizer.encode(prompt) for prompt in example_prompts]
@@ -44,12 +44,8 @@ def test_ranks(
         decode_tokens, _, decode_logprobs, prompt_logprobs = result
 
         # Ensure the return type of logprobs is accurate
-        assert isinstance(
-            prompt_logprobs, FlattenLogprobs if flatten_logprobs else list
-        )
-        assert isinstance(
-            decode_logprobs, FlattenLogprobs if flatten_logprobs else list
-        )
+        assert isinstance(prompt_logprobs, FlatLogprobs if flat_logprobs else list)
+        assert isinstance(decode_logprobs, FlatLogprobs if flat_logprobs else list)
 
         ########################
         # Check prompt logprobs
diff --git a/tests/test_logprobs.py b/tests/test_logprobs.py
index 1799d36381786..d26a460d2bcab 100644
--- a/tests/test_logprobs.py
+++ b/tests/test_logprobs.py
@@ -5,7 +5,7 @@
 import pytest
 
 from vllm.logprobs import (
-    FlattenLogprobs,
+    FlatLogprobs,
     Logprob,
     LogprobsOnePosition,
     append_logprobs_for_next_position,
@@ -14,8 +14,8 @@ from vllm.logprobs import (
 )
 
 
-def test_create_logprobs_non_flatten(monkeypatch: pytest.MonkeyPatch) -> None:
-    monkeypatch.setenv("VLLM_FLATTEN_LOGPROBS", "0")
+def test_create_logprobs_non_flat(monkeypatch: pytest.MonkeyPatch) -> None:
+    monkeypatch.setenv("VLLM_FLAT_LOGPROBS", "0")
 
     prompt_logprobs = create_prompt_logprobs()
     assert isinstance(prompt_logprobs, list)
@@ -28,11 +28,11 @@ def test_create_logprobs_non_flatten(monkeypatch: pytest.MonkeyPatch) -> None:
     assert len(sample_logprobs) == 0
 
 
-def test_create_logprobs_flatten(monkeypatch: pytest.MonkeyPatch) -> None:
-    monkeypatch.setenv("VLLM_FLATTEN_LOGPROBS", "1")
+def test_create_logprobs_flat(monkeypatch: pytest.MonkeyPatch) -> None:
+    monkeypatch.setenv("VLLM_FLAT_LOGPROBS", "1")
 
     prompt_logprobs = create_prompt_logprobs()
-    assert isinstance(prompt_logprobs, FlattenLogprobs)
+    assert isinstance(prompt_logprobs, FlatLogprobs)
     assert prompt_logprobs.start_indices == [0]
     assert prompt_logprobs.end_indices == [0]
     assert len(prompt_logprobs.token_ids) == 0
@@ -44,7 +44,7 @@ def test_create_logprobs_flatten(monkeypatch: pytest.MonkeyPatch) -> None:
     assert prompt_logprobs[0] == dict()
 
     sample_logprobs = create_sample_logprobs()
-    assert isinstance(sample_logprobs, FlattenLogprobs)
+    assert isinstance(sample_logprobs, FlatLogprobs)
     assert len(sample_logprobs.start_indices) == 0
     assert len(sample_logprobs.end_indices) == 0
     assert len(sample_logprobs.token_ids) == 0
@@ -54,10 +54,10 @@ def test_create_logprobs_flatten(monkeypatch: pytest.MonkeyPatch) -> None:
     assert len(sample_logprobs) == 0
 
 
-def test_append_logprobs_for_next_position_none_flatten(
+def test_append_logprobs_for_next_position_none_flat(
     monkeypatch: pytest.MonkeyPatch,
 ) -> None:
-    monkeypatch.setenv("VLLM_FLATTEN_LOGPROBS", "0")
+    monkeypatch.setenv("VLLM_FLAT_LOGPROBS", "0")
     logprobs = create_sample_logprobs()
     append_logprobs_for_next_position(
         logprobs,
@@ -85,10 +85,10 @@ def test_append_logprobs_for_next_position_none_flatten(
     ]
 
 
-def test_append_logprobs_for_next_position_flatten(
+def test_append_logprobs_for_next_position_flat(
     monkeypatch: pytest.MonkeyPatch,
 ) -> None:
-    monkeypatch.setenv("VLLM_FLATTEN_LOGPROBS", "1")
+    monkeypatch.setenv("VLLM_FLAT_LOGPROBS", "1")
     logprobs = create_sample_logprobs()
     append_logprobs_for_next_position(
         logprobs,
@@ -106,7 +106,7 @@ def test_append_logprobs_for_next_position_flatten(
         rank=11,
         num_logprobs=-1,
     )
-    assert isinstance(logprobs, FlattenLogprobs)
+    assert isinstance(logprobs, FlatLogprobs)
     assert logprobs.start_indices == [0, 1]
     assert logprobs.end_indices == [1, 3]
     assert logprobs.token_ids == [1, 2, 3]
@@ -129,8 +129,8 @@ LOGPROBS_ONE_POSITION_2: LogprobsOnePosition = {
 }
 
 
-def test_flatten_logprobs_append() -> None:
-    logprobs = FlattenLogprobs()
+def test_flat_logprobs_append() -> None:
+    logprobs = FlatLogprobs()
     logprobs.append(LOGPROBS_ONE_POSITION_0)
     logprobs.append(LOGPROBS_ONE_POSITION_1)
     assert logprobs.start_indices == [0, 1]
@@ -149,8 +149,8 @@ def test_flatten_logprobs_append() -> None:
     assert logprobs.decoded_tokens == ["10", "20", "30", "40", "50", "60"]
 
 
-def test_flatten_logprobs_extend() -> None:
-    logprobs = FlattenLogprobs()
+def test_flat_logprobs_extend() -> None:
+    logprobs = FlatLogprobs()
     # Extend with list[LogprobsOnePosition]
     logprobs.extend([LOGPROBS_ONE_POSITION_2, LOGPROBS_ONE_POSITION_0])
     assert logprobs.start_indices == [0, 3]
@@ -160,9 +160,9 @@ def test_flatten_logprobs_extend() -> None:
     assert logprobs.ranks == [40, 50, 60, 10]
     assert logprobs.decoded_tokens == ["40", "50", "60", "10"]
 
-    other_logprobs = FlattenLogprobs()
+    other_logprobs = FlatLogprobs()
     other_logprobs.extend([LOGPROBS_ONE_POSITION_1, LOGPROBS_ONE_POSITION_0])
-    # Extend with another FlattenLogprobs
+    # Extend with another FlatLogprobs
     logprobs.extend(other_logprobs)
     assert logprobs.start_indices == [0, 3, 4, 6]
     assert logprobs.end_indices == [3, 4, 6, 7]
@@ -172,8 +172,8 @@ def test_flatten_logprobs_extend() -> None:
     assert logprobs.decoded_tokens == ["40", "50", "60", "10", "20", "30", "10"]
 
 
-def test_flatten_logprobs_access() -> None:
-    logprobs = FlattenLogprobs()
+def test_flat_logprobs_access() -> None:
+    logprobs = FlatLogprobs()
     logprobs.extend(
         [LOGPROBS_ONE_POSITION_1, LOGPROBS_ONE_POSITION_2, LOGPROBS_ONE_POSITION_0]
     )
diff --git a/vllm/envs.py b/vllm/envs.py
index 9421488051e56..52178e5f52500 100755
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -223,7 +223,7 @@ if TYPE_CHECKING:
     VLLM_GC_DEBUG: str = ""
     VLLM_DISABLE_SHARED_EXPERTS_STREAM: bool = False
     VLLM_COMPILE_CACHE_SAVE_FORMAT: Literal["binary", "unpacked"] = "binary"
-    VLLM_FLATTEN_LOGPROBS: bool = False
+    VLLM_FLAT_LOGPROBS: bool = False
 
 
 def get_default_cache_root():
@@ -1481,11 +1481,11 @@ environment_variables: dict[str, Callable[[], Any]] = {
     "VLLM_COMPILE_CACHE_SAVE_FORMAT": env_with_choices(
         "VLLM_COMPILE_CACHE_SAVE_FORMAT", "binary", ["binary", "unpacked"]
     ),
-    # Flag to enable FlattenLogprobs whose GC overhead is significantly smaller than
+    # Flag to enable FlatLogprobs whose GC overhead is significantly smaller than
     # the original list[dict[int, Logprob]] approach.
     # After enabled, PromptLogprobs and SampleLogprobs would populated as
-    # FlattenLogprobs.
-    "VLLM_FLATTEN_LOGPROBS": lambda: bool(int(os.getenv("VLLM_FLATTEN_LOGPROBS", "0"))),
+    # FlatLogprobs.
+    "VLLM_FLAT_LOGPROBS": lambda: bool(int(os.getenv("VLLM_FLAT_LOGPROBS", "0"))),
 }
 
 # --8<-- [end:env-vars-definition]
diff --git a/vllm/logprobs.py b/vllm/logprobs.py
index bf66e5f75c795..a34398db2c960 100644
--- a/vllm/logprobs.py
+++ b/vllm/logprobs.py
@@ -30,16 +30,16 @@ LogprobsOnePosition = dict[int, Logprob]
 
 
 @dataclass
-class FlattenLogprobs(MutableSequence[LogprobsOnePosition]):
+class FlatLogprobs(MutableSequence[LogprobsOnePosition]):
     """
-    Flatten logprobs of a request into multiple primitive type lists.
+    Flat logprobs of a request into multiple primitive type lists.
 
     Compared to list[dict[int, Logprob]], this data structure reduced GC
     overhead significantly. As it flattened logprob information for
     all positions and ranks in to multiple primitive type lists (i.e.
     logprobs, token_ids, ranks per token_ids, decoded_tokens).
     So regardless of the sequence length and top_logprobs setup,
-    FlattenLogprobs would only introduce a constant amount of objects.
+    FlatLogprobs would only introduce a constant amount of objects.
 
     As each position might contains different amount of ranks,
     start_indices_per_position would be used to access the logprob ranges
@@ -107,7 +107,7 @@ class FlattenLogprobs(MutableSequence[LogprobsOnePosition]):
     def __getitem__(self, position: int) -> LogprobsOnePosition: ...
 
     @overload
-    def __getitem__(self, s: slice, /) -> "FlattenLogprobs": ...
+    def __getitem__(self, s: slice, /) -> "FlatLogprobs": ...
 
     def __getitem__(self, index: int | slice):
         """Extracts logprobs of a given position or slice"""
@@ -123,7 +123,7 @@ class FlattenLogprobs(MutableSequence[LogprobsOnePosition]):
         elif isinstance(index, slice):
             min_index = self.start_indices[index][0]
             max_index = self.end_indices[index][-1]
-            return FlattenLogprobs(
+            return FlatLogprobs(
                 # Shift updated start_indices and end_indices to
                 # be 0-indexed
                 start_indices=[i - min_index for i in self.start_indices[index]],
@@ -137,13 +137,13 @@ class FlattenLogprobs(MutableSequence[LogprobsOnePosition]):
             raise TypeError(f"Invalid index type: {type(index)}")
 
     def __setitem__(self, item, value) -> None:
-        raise TypeError("Cannot set logprobs in FlattenLogprobs")
+        raise TypeError("Cannot set logprobs in FlatLogprobs")
 
     def __delitem__(self, item) -> None:
-        raise TypeError("Cannot delete logprobs from FlattenLogprobs")
+        raise TypeError("Cannot delete logprobs from FlatLogprobs")
 
     def insert(self, item) -> None:
-        raise TypeError("Cannot insert logprobs to FlattenLogprobs")
+        raise TypeError("Cannot insert logprobs to FlatLogprobs")
 
     def __iter__(self) -> Iterator[LogprobsOnePosition]:
         """
@@ -156,14 +156,14 @@ class FlattenLogprobs(MutableSequence[LogprobsOnePosition]):
 
 # {token_id -> logprob} per each sequence group. None if the corresponding
 # sequence group doesn't require prompt logprob.
-PromptLogprobs = FlattenLogprobs | list[LogprobsOnePosition | None]
+PromptLogprobs = FlatLogprobs | list[LogprobsOnePosition | None]
 # {token_id -> logprob} for each sequence group.
-SampleLogprobs = FlattenLogprobs | list[LogprobsOnePosition]
+SampleLogprobs = FlatLogprobs | list[LogprobsOnePosition]
 
 
 def create_prompt_logprobs() -> PromptLogprobs:
     """Creates a container to store prompt logprobs for a request"""
-    logprobs = FlattenLogprobs() if envs.VLLM_FLATTEN_LOGPROBS else []
+    logprobs = FlatLogprobs() if envs.VLLM_FLAT_LOGPROBS else []
     # NOTE: logprob of first prompt token is None.
     logprobs.append(None)
     return logprobs
@@ -171,7 +171,7 @@ def create_prompt_logprobs() -> PromptLogprobs:
 
 def create_sample_logprobs() -> SampleLogprobs:
     """Creates a container to store decode logprobs for a request"""
-    return FlattenLogprobs() if envs.VLLM_FLATTEN_LOGPROBS else []
+    return FlatLogprobs() if envs.VLLM_FLAT_LOGPROBS else []
 
 
 def append_logprobs_for_next_position(
@@ -191,7 +191,7 @@ def append_logprobs_for_next_position(
     topk_ranks = range(1, num_logprobs + 1)
     ranks = itertools.chain((rank,), topk_ranks)
 
-    if isinstance(request_logprobs, FlattenLogprobs):
+    if isinstance(request_logprobs, FlatLogprobs):
         request_logprobs.append_fast(token_ids, logprobs, ranks, decoded_tokens)
     else:
         request_logprobs.append(

From bca74e32b7ef03515cda508ba88151e2e547bdc9 Mon Sep 17 00:00:00 2001
From: Zuyi Zhao <zhaozuy@amazon.com>
Date: Mon, 10 Nov 2025 20:57:01 -0800
Subject: [PATCH 298/976] [Frontend] Add sagemaker_standards dynamic lora
 adapter and stateful session management decorators to vLLM OpenAI API server
 (#27892)

Signed-off-by: Zuyi Zhao <zhaozuy@amazon.com>
Signed-off-by: Shen Teng <sheteng@amazon.com>
Co-authored-by: Shen Teng <sheteng@amazon.com>
Co-authored-by: Robert Shaw <114415538+robertgshaw2-redhat@users.noreply.github.com>
---
 requirements/common.txt                       |   1 +
 tests/entrypoints/sagemaker/__init__.py       |   0
 tests/entrypoints/sagemaker/conftest.py       |  58 ++
 .../test_sagemaker_handler_overrides.py       | 734 ++++++++++++++++++
 .../sagemaker/test_sagemaker_lora_adapters.py | 171 ++++
 .../test_sagemaker_middleware_integration.py  | 346 +++++++++
 .../test_sagemaker_stateful_sessions.py       | 153 ++++
 vllm/entrypoints/dynamic_lora.py              |  57 ++
 vllm/entrypoints/openai/api_server.py         | 100 +--
 vllm/entrypoints/sagemaker/__init__.py        |   4 +
 vllm/entrypoints/sagemaker/routes.py          |  72 ++
 11 files changed, 1613 insertions(+), 83 deletions(-)
 create mode 100644 tests/entrypoints/sagemaker/__init__.py
 create mode 100644 tests/entrypoints/sagemaker/conftest.py
 create mode 100644 tests/entrypoints/sagemaker/test_sagemaker_handler_overrides.py
 create mode 100644 tests/entrypoints/sagemaker/test_sagemaker_lora_adapters.py
 create mode 100644 tests/entrypoints/sagemaker/test_sagemaker_middleware_integration.py
 create mode 100644 tests/entrypoints/sagemaker/test_sagemaker_stateful_sessions.py
 create mode 100644 vllm/entrypoints/dynamic_lora.py
 create mode 100644 vllm/entrypoints/sagemaker/__init__.py
 create mode 100644 vllm/entrypoints/sagemaker/routes.py

diff --git a/requirements/common.txt b/requirements/common.txt
index 8009581f62a4f..90efb79a845d3 100644
--- a/requirements/common.txt
+++ b/requirements/common.txt
@@ -49,3 +49,4 @@ cbor2 # Required for cross-language serialization of hashable objects
 setproctitle # Used to set process names for better debugging and monitoring
 openai-harmony >= 0.0.3  # Required for gpt-oss
 anthropic == 0.71.0
+model-hosting-container-standards < 1.0.0
\ No newline at end of file
diff --git a/tests/entrypoints/sagemaker/__init__.py b/tests/entrypoints/sagemaker/__init__.py
new file mode 100644
index 0000000000000..e69de29bb2d1d
diff --git a/tests/entrypoints/sagemaker/conftest.py b/tests/entrypoints/sagemaker/conftest.py
new file mode 100644
index 0000000000000..4c859c2527d25
--- /dev/null
+++ b/tests/entrypoints/sagemaker/conftest.py
@@ -0,0 +1,58 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+"""Shared fixtures and utilities for SageMaker tests."""
+
+import pytest
+import pytest_asyncio
+
+from ...utils import RemoteOpenAIServer
+
+# Model name constants used across tests
+MODEL_NAME_ZEPHYR = "HuggingFaceH4/zephyr-7b-beta"
+MODEL_NAME_SMOLLM = "HuggingFaceTB/SmolLM2-135M-Instruct"
+LORA_ADAPTER_NAME_SMOLLM = "jekunz/smollm-135m-lora-fineweb-faroese"
+
+# SageMaker header constants
+HEADER_SAGEMAKER_CLOSED_SESSION_ID = "X-Amzn-SageMaker-Closed-Session-Id"
+HEADER_SAGEMAKER_SESSION_ID = "X-Amzn-SageMaker-Session-Id"
+HEADER_SAGEMAKER_NEW_SESSION_ID = "X-Amzn-SageMaker-New-Session-Id"
+
+
+@pytest.fixture(scope="session")
+def smollm2_lora_files():
+    """Download LoRA files once per test session."""
+    from huggingface_hub import snapshot_download
+
+    return snapshot_download(repo_id=LORA_ADAPTER_NAME_SMOLLM)
+
+
+@pytest.fixture(scope="module")
+def basic_server_with_lora(smollm2_lora_files):
+    """Basic server fixture with standard configuration."""
+    args = [
+        "--dtype",
+        "bfloat16",
+        "--max-model-len",
+        "8192",
+        "--enforce-eager",
+        # lora config below
+        "--enable-lora",
+        "--max-lora-rank",
+        "256",
+        "--max-cpu-loras",
+        "2",
+        "--max-num-seqs",
+        "64",
+    ]
+
+    envs = {"VLLM_ALLOW_RUNTIME_LORA_UPDATING": "True"}
+    with RemoteOpenAIServer(MODEL_NAME_SMOLLM, args, env_dict=envs) as remote_server:
+        yield remote_server
+
+
+@pytest_asyncio.fixture
+async def async_client(basic_server_with_lora: RemoteOpenAIServer):
+    """Async OpenAI client fixture for use with basic_server."""
+    async with basic_server_with_lora.get_async_client() as async_client:
+        yield async_client
diff --git a/tests/entrypoints/sagemaker/test_sagemaker_handler_overrides.py b/tests/entrypoints/sagemaker/test_sagemaker_handler_overrides.py
new file mode 100644
index 0000000000000..0d4f8e885824a
--- /dev/null
+++ b/tests/entrypoints/sagemaker/test_sagemaker_handler_overrides.py
@@ -0,0 +1,734 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+"""Integration tests for handler override functionality.
+
+Tests real customer usage scenarios:
+- Using @custom_ping_handler and @custom_invocation_handler decorators
+  to override handlers
+- Setting environment variables for handler specifications
+- Writing customer scripts with custom_sagemaker_ping_handler() and
+  custom_sagemaker_invocation_handler() functions
+- Priority: env vars > decorators > customer script files > framework
+  defaults
+
+Note: These tests focus on validating server responses rather than directly calling
+get_ping_handler() and get_invoke_handler() to ensure full integration testing.
+"""
+
+import os
+import tempfile
+
+import pytest
+import requests
+
+from ...utils import RemoteOpenAIServer
+from .conftest import (
+    MODEL_NAME_SMOLLM,
+)
+
+
+class TestHandlerOverrideIntegration:
+    """Integration tests simulating real customer usage scenarios.
+
+    Each test simulates a fresh server startup where customers:
+    - Use @custom_ping_handler and @custom_invocation_handler decorators
+    - Set environment variables (CUSTOM_FASTAPI_PING_HANDLER, etc.)
+    - Write customer scripts with custom_sagemaker_ping_handler() and
+      custom_sagemaker_invocation_handler() functions
+    """
+
+    def setup_method(self):
+        """Setup for each test - simulate fresh server startup."""
+        self._clear_caches()
+        self._clear_env_vars()
+
+    def teardown_method(self):
+        """Cleanup after each test."""
+        self._clear_env_vars()
+
+    def _clear_caches(self):
+        """Clear handler registry and function loader cache."""
+        try:
+            from model_hosting_container_standards.common.handler import (
+                handler_registry,
+            )
+            from model_hosting_container_standards.sagemaker.sagemaker_loader import (
+                SageMakerFunctionLoader,
+            )
+
+            handler_registry.clear()
+            SageMakerFunctionLoader._default_function_loader = None
+        except ImportError:
+            pytest.skip("model-hosting-container-standards not available")
+
+    def _clear_env_vars(self):
+        """Clear SageMaker environment variables."""
+        try:
+            from model_hosting_container_standards.common.fastapi.config import (
+                FastAPIEnvVars,
+            )
+            from model_hosting_container_standards.sagemaker.config import (
+                SageMakerEnvVars,
+            )
+
+            # Clear SageMaker env vars
+            for var in [
+                SageMakerEnvVars.SAGEMAKER_MODEL_PATH,
+                SageMakerEnvVars.CUSTOM_SCRIPT_FILENAME,
+            ]:
+                os.environ.pop(var, None)
+
+            # Clear FastAPI env vars
+            for var in [
+                FastAPIEnvVars.CUSTOM_FASTAPI_PING_HANDLER,
+                FastAPIEnvVars.CUSTOM_FASTAPI_INVOCATION_HANDLER,
+            ]:
+                os.environ.pop(var, None)
+        except ImportError:
+            pass
+
+    @pytest.mark.asyncio
+    async def test_customer_script_functions_auto_loaded(self):
+        """Test customer scenario: script functions automatically override
+        framework defaults."""
+        try:
+            from model_hosting_container_standards.sagemaker.config import (
+                SageMakerEnvVars,
+            )
+        except ImportError:
+            pytest.skip("model-hosting-container-standards not available")
+
+        # Customer writes a script file with ping() and invoke() functions
+        with tempfile.NamedTemporaryFile(mode="w", suffix=".py", delete=False) as f:
+            f.write(
+                """
+from fastapi import Request
+
+async def custom_sagemaker_ping_handler():
+    return {
+        "status": "healthy",
+        "source": "customer_override", 
+        "message": "Custom ping from customer script"
+    }
+
+async def custom_sagemaker_invocation_handler(request: Request):
+    return {
+        "predictions": ["Custom response from customer script"],
+        "source": "customer_override"
+    }
+"""
+            )
+            script_path = f.name
+
+        try:
+            script_dir = os.path.dirname(script_path)
+            script_name = os.path.basename(script_path)
+
+            # Customer sets SageMaker environment variables to point to their script
+            env_vars = {
+                SageMakerEnvVars.SAGEMAKER_MODEL_PATH: script_dir,
+                SageMakerEnvVars.CUSTOM_SCRIPT_FILENAME: script_name,
+            }
+
+            args = [
+                "--dtype",
+                "bfloat16",
+                "--max-model-len",
+                "2048",
+                "--enforce-eager",
+                "--max-num-seqs",
+                "32",
+            ]
+
+            with RemoteOpenAIServer(
+                MODEL_NAME_SMOLLM, args, env_dict=env_vars
+            ) as server:
+                # Customer tests their server and sees their overrides work
+                # automatically
+                ping_response = requests.get(server.url_for("ping"))
+                assert ping_response.status_code == 200
+                ping_data = ping_response.json()
+
+                invoke_response = requests.post(
+                    server.url_for("invocations"),
+                    json={
+                        "model": MODEL_NAME_SMOLLM,
+                        "messages": [{"role": "user", "content": "Hello"}],
+                        "max_tokens": 5,
+                    },
+                )
+                assert invoke_response.status_code == 200
+                invoke_data = invoke_response.json()
+
+                # Customer sees their functions are used
+                assert ping_data["source"] == "customer_override"
+                assert ping_data["message"] == "Custom ping from customer script"
+                assert invoke_data["source"] == "customer_override"
+                assert invoke_data["predictions"] == [
+                    "Custom response from customer script"
+                ]
+
+        finally:
+            os.unlink(script_path)
+
+    @pytest.mark.asyncio
+    async def test_customer_decorator_usage(self):
+        """Test customer scenario: using @custom_ping_handler and
+        @custom_invocation_handler decorators."""
+        try:
+            from model_hosting_container_standards.sagemaker.config import (
+                SageMakerEnvVars,
+            )
+        except ImportError:
+            pytest.skip("model-hosting-container-standards not available")
+
+        # Customer writes a script file with decorators
+        with tempfile.NamedTemporaryFile(mode="w", suffix=".py", delete=False) as f:
+            f.write(
+                """
+import model_hosting_container_standards.sagemaker as sagemaker_standards
+from fastapi import Request
+
+@sagemaker_standards.custom_ping_handler
+async def my_ping():
+    return {
+        "type": "ping",
+        "source": "customer_decorator"
+    }
+
+@sagemaker_standards.custom_invocation_handler  
+async def my_invoke(request: Request):
+    return {
+        "type": "invoke", 
+        "source": "customer_decorator"
+    }
+"""
+            )
+            script_path = f.name
+
+        try:
+            script_dir = os.path.dirname(script_path)
+            script_name = os.path.basename(script_path)
+
+            env_vars = {
+                SageMakerEnvVars.SAGEMAKER_MODEL_PATH: script_dir,
+                SageMakerEnvVars.CUSTOM_SCRIPT_FILENAME: script_name,
+            }
+
+            args = [
+                "--dtype",
+                "bfloat16",
+                "--max-model-len",
+                "2048",
+                "--enforce-eager",
+                "--max-num-seqs",
+                "32",
+            ]
+
+            with RemoteOpenAIServer(
+                MODEL_NAME_SMOLLM, args, env_dict=env_vars
+            ) as server:
+                ping_response = requests.get(server.url_for("ping"))
+                assert ping_response.status_code == 200
+                ping_data = ping_response.json()
+
+                invoke_response = requests.post(
+                    server.url_for("invocations"),
+                    json={
+                        "model": MODEL_NAME_SMOLLM,
+                        "messages": [{"role": "user", "content": "Hello"}],
+                        "max_tokens": 5,
+                    },
+                )
+                assert invoke_response.status_code == 200
+                invoke_data = invoke_response.json()
+
+                # Customer sees their handlers are used by the server
+                assert ping_data["source"] == "customer_decorator"
+                assert invoke_data["source"] == "customer_decorator"
+
+        finally:
+            os.unlink(script_path)
+
+    @pytest.mark.asyncio
+    async def test_handler_priority_order(self):
+        """Test priority: @custom_ping_handler/@custom_invocation_handler
+        decorators vs script functions."""
+        try:
+            from model_hosting_container_standards.sagemaker.config import (
+                SageMakerEnvVars,
+            )
+        except ImportError:
+            pytest.skip("model-hosting-container-standards not available")
+
+        # Customer writes a script with both decorator and regular functions
+        with tempfile.NamedTemporaryFile(mode="w", suffix=".py", delete=False) as f:
+            f.write(
+                """
+import model_hosting_container_standards.sagemaker as sagemaker_standards
+from fastapi import Request
+
+# Customer uses @custom_ping_handler decorator (higher priority than script functions)
+@sagemaker_standards.custom_ping_handler
+async def decorated_ping():
+    return {
+        "status": "healthy",
+        "source": "ping_decorator_in_script", 
+        "priority": "decorator"
+    }
+
+# Customer also has a regular function (lower priority than
+# @custom_ping_handler decorator)
+async def custom_sagemaker_ping_handler():
+    return {
+        "status": "healthy",
+        "source": "script_function",
+        "priority": "function"
+    }
+
+# Customer has a regular invoke function
+async def custom_sagemaker_invocation_handler(request: Request):
+    return {
+        "predictions": ["Script function response"],
+        "source": "script_invoke_function",
+        "priority": "function"
+    }
+"""
+            )
+            script_path = f.name
+
+        try:
+            script_dir = os.path.dirname(script_path)
+            script_name = os.path.basename(script_path)
+
+            env_vars = {
+                SageMakerEnvVars.SAGEMAKER_MODEL_PATH: script_dir,
+                SageMakerEnvVars.CUSTOM_SCRIPT_FILENAME: script_name,
+            }
+
+            args = [
+                "--dtype",
+                "bfloat16",
+                "--max-model-len",
+                "2048",
+                "--enforce-eager",
+                "--max-num-seqs",
+                "32",
+            ]
+
+            with RemoteOpenAIServer(
+                MODEL_NAME_SMOLLM, args, env_dict=env_vars
+            ) as server:
+                ping_response = requests.get(server.url_for("ping"))
+                assert ping_response.status_code == 200
+                ping_data = ping_response.json()
+
+                invoke_response = requests.post(
+                    server.url_for("invocations"),
+                    json={
+                        "model": MODEL_NAME_SMOLLM,
+                        "messages": [{"role": "user", "content": "Hello"}],
+                        "max_tokens": 5,
+                    },
+                )
+                assert invoke_response.status_code == 200
+                invoke_data = invoke_response.json()
+
+                # @custom_ping_handler decorator has higher priority than
+                # script function
+                assert ping_data["source"] == "ping_decorator_in_script"
+                assert ping_data["priority"] == "decorator"
+
+                # Script function is used for invoke
+                assert invoke_data["source"] == "script_invoke_function"
+                assert invoke_data["priority"] == "function"
+
+        finally:
+            os.unlink(script_path)
+
+    @pytest.mark.asyncio
+    async def test_environment_variable_script_loading(self):
+        """Test that environment variables correctly specify script location
+        and loading."""
+        try:
+            from model_hosting_container_standards.sagemaker.config import (
+                SageMakerEnvVars,
+            )
+        except ImportError:
+            pytest.skip("model-hosting-container-standards not available")
+
+        # Customer writes a script in a specific directory
+        with tempfile.NamedTemporaryFile(mode="w", suffix=".py", delete=False) as f:
+            f.write(
+                """
+from fastapi import Request
+
+async def custom_sagemaker_ping_handler():
+    return {
+        "status": "healthy",
+        "source": "env_loaded_script",
+        "method": "environment_variable_loading"
+    }
+
+async def custom_sagemaker_invocation_handler(request: Request):
+    return {
+        "predictions": ["Loaded via environment variables"],
+        "source": "env_loaded_script",
+        "method": "environment_variable_loading"
+    }
+"""
+            )
+            script_path = f.name
+
+        try:
+            script_dir = os.path.dirname(script_path)
+            script_name = os.path.basename(script_path)
+
+            # Test environment variable script loading
+            env_vars = {
+                SageMakerEnvVars.SAGEMAKER_MODEL_PATH: script_dir,
+                SageMakerEnvVars.CUSTOM_SCRIPT_FILENAME: script_name,
+            }
+
+            args = [
+                "--dtype",
+                "bfloat16",
+                "--max-model-len",
+                "2048",
+                "--enforce-eager",
+                "--max-num-seqs",
+                "32",
+            ]
+
+            with RemoteOpenAIServer(
+                MODEL_NAME_SMOLLM, args, env_dict=env_vars
+            ) as server:
+                ping_response = requests.get(server.url_for("ping"))
+                assert ping_response.status_code == 200
+                ping_data = ping_response.json()
+
+                invoke_response = requests.post(
+                    server.url_for("invocations"),
+                    json={
+                        "model": MODEL_NAME_SMOLLM,
+                        "messages": [{"role": "user", "content": "Hello"}],
+                        "max_tokens": 5,
+                    },
+                )
+                assert invoke_response.status_code == 200
+                invoke_data = invoke_response.json()
+
+                # Verify that the script was loaded via environment variables
+                assert ping_data["source"] == "env_loaded_script"
+                assert ping_data["method"] == "environment_variable_loading"
+                assert invoke_data["source"] == "env_loaded_script"
+                assert invoke_data["method"] == "environment_variable_loading"
+
+        finally:
+            os.unlink(script_path)
+
+    @pytest.mark.asyncio
+    async def test_framework_default_handlers(self):
+        """Test that framework default handlers work when no customer
+        overrides exist."""
+        args = [
+            "--dtype",
+            "bfloat16",
+            "--max-model-len",
+            "2048",
+            "--enforce-eager",
+            "--max-num-seqs",
+            "32",
+        ]
+
+        # Explicitly pass empty env_dict to ensure no SageMaker env vars are set
+        # This prevents pollution from previous tests
+        try:
+            from model_hosting_container_standards.common.fastapi.config import (
+                FastAPIEnvVars,
+            )
+            from model_hosting_container_standards.sagemaker.config import (
+                SageMakerEnvVars,
+            )
+
+            env_dict = {
+                SageMakerEnvVars.SAGEMAKER_MODEL_PATH: "",
+                SageMakerEnvVars.CUSTOM_SCRIPT_FILENAME: "",
+                FastAPIEnvVars.CUSTOM_FASTAPI_PING_HANDLER: "",
+                FastAPIEnvVars.CUSTOM_FASTAPI_INVOCATION_HANDLER: "",
+            }
+        except ImportError:
+            env_dict = {}
+
+        with RemoteOpenAIServer(MODEL_NAME_SMOLLM, args, env_dict=env_dict) as server:
+            # Test that default ping works
+            ping_response = requests.get(server.url_for("ping"))
+            assert ping_response.status_code == 200
+
+            # Test that default invocations work
+            invoke_response = requests.post(
+                server.url_for("invocations"),
+                json={
+                    "model": MODEL_NAME_SMOLLM,
+                    "messages": [{"role": "user", "content": "Hello"}],
+                    "max_tokens": 5,
+                },
+            )
+            assert invoke_response.status_code == 200
+
+    @pytest.mark.asyncio
+    async def test_handler_env_var_override(self):
+        """Test CUSTOM_FASTAPI_PING_HANDLER and CUSTOM_FASTAPI_INVOCATION_HANDLER
+        environment variable overrides."""
+        try:
+            from model_hosting_container_standards.common.fastapi.config import (
+                FastAPIEnvVars,
+            )
+            from model_hosting_container_standards.sagemaker.config import (
+                SageMakerEnvVars,
+            )
+        except ImportError:
+            pytest.skip("model-hosting-container-standards not available")
+
+        # Create a script with both env var handlers and script functions
+        with tempfile.NamedTemporaryFile(mode="w", suffix=".py", delete=False) as f:
+            f.write(
+                """
+from fastapi import Request, Response
+import json
+
+async def env_var_ping_handler(raw_request: Request) -> Response:
+    return Response(
+        content=json.dumps({
+            "status": "healthy",
+            "source": "env_var_ping",
+            "method": "environment_variable"
+        }),
+        media_type="application/json"
+    )
+
+async def env_var_invoke_handler(raw_request: Request) -> Response:
+    return Response(
+        content=json.dumps({
+            "predictions": ["Environment variable response"],
+            "source": "env_var_invoke",
+            "method": "environment_variable"
+        }),
+        media_type="application/json"
+    )
+
+async def custom_sagemaker_ping_handler():
+    return {
+        "status": "healthy",
+        "source": "script_ping",
+        "method": "script_function"
+    }
+
+async def custom_sagemaker_invocation_handler(request: Request):
+    return {
+        "predictions": ["Script function response"],
+        "source": "script_invoke",
+        "method": "script_function"
+    }
+"""
+            )
+            script_path = f.name
+
+        try:
+            script_dir = os.path.dirname(script_path)
+            script_name = os.path.basename(script_path)
+
+            # Set environment variables to override both handlers
+            env_vars = {
+                SageMakerEnvVars.SAGEMAKER_MODEL_PATH: script_dir,
+                SageMakerEnvVars.CUSTOM_SCRIPT_FILENAME: script_name,
+                FastAPIEnvVars.CUSTOM_FASTAPI_PING_HANDLER: (
+                    f"{script_name}:env_var_ping_handler"
+                ),
+                FastAPIEnvVars.CUSTOM_FASTAPI_INVOCATION_HANDLER: (
+                    f"{script_name}:env_var_invoke_handler"
+                ),
+            }
+
+            args = [
+                "--dtype",
+                "bfloat16",
+                "--max-model-len",
+                "2048",
+                "--enforce-eager",
+                "--max-num-seqs",
+                "32",
+            ]
+
+            with RemoteOpenAIServer(
+                MODEL_NAME_SMOLLM, args, env_dict=env_vars
+            ) as server:
+                # Test ping handler override
+                ping_response = requests.get(server.url_for("ping"))
+                assert ping_response.status_code == 200
+                ping_data = ping_response.json()
+
+                # Environment variable should override script function
+                assert ping_data["method"] == "environment_variable"
+                assert ping_data["source"] == "env_var_ping"
+
+                # Test invocation handler override
+                invoke_response = requests.post(
+                    server.url_for("invocations"),
+                    json={
+                        "model": MODEL_NAME_SMOLLM,
+                        "messages": [{"role": "user", "content": "Hello"}],
+                        "max_tokens": 5,
+                    },
+                )
+                assert invoke_response.status_code == 200
+                invoke_data = invoke_response.json()
+
+                # Environment variable should override script function
+                assert invoke_data["method"] == "environment_variable"
+                assert invoke_data["source"] == "env_var_invoke"
+
+        finally:
+            os.unlink(script_path)
+
+    @pytest.mark.asyncio
+    async def test_env_var_priority_over_decorator_and_script(self):
+        """Test that environment variables have highest priority over decorators
+        and script functions for both ping and invocation handlers."""
+        try:
+            from model_hosting_container_standards.common.fastapi.config import (
+                FastAPIEnvVars,
+            )
+            from model_hosting_container_standards.sagemaker.config import (
+                SageMakerEnvVars,
+            )
+        except ImportError:
+            pytest.skip("model-hosting-container-standards not available")
+
+        # Create a script with all three handler types for both ping and invocation
+        with tempfile.NamedTemporaryFile(mode="w", suffix=".py", delete=False) as f:
+            f.write(
+                """
+import model_hosting_container_standards.sagemaker as sagemaker_standards
+from fastapi import Request, Response
+import json
+
+# Environment variable handlers (highest priority)
+async def env_priority_ping(raw_request: Request) -> Response:
+    return Response(
+        content=json.dumps({
+            "status": "healthy",
+            "source": "env_var",
+            "priority": "environment_variable"
+        }),
+        media_type="application/json"
+    )
+
+async def env_priority_invoke(raw_request: Request) -> Response:
+    return Response(
+        content=json.dumps({
+            "predictions": ["Environment variable response"],
+            "source": "env_var",
+            "priority": "environment_variable"
+        }),
+        media_type="application/json"
+    )
+
+# Decorator handlers (medium priority)
+@sagemaker_standards.custom_ping_handler
+async def decorator_ping(raw_request: Request) -> Response:
+    return Response(
+        content=json.dumps({
+            "status": "healthy",
+            "source": "decorator",
+            "priority": "decorator"
+        }),
+        media_type="application/json"
+    )
+
+@sagemaker_standards.custom_invocation_handler
+async def decorator_invoke(raw_request: Request) -> Response:
+    return Response(
+        content=json.dumps({
+            "predictions": ["Decorator response"],
+            "source": "decorator",
+            "priority": "decorator"
+        }),
+        media_type="application/json"
+    )
+
+# Script functions (lowest priority)
+async def custom_sagemaker_ping_handler():
+    return {
+        "status": "healthy",
+        "source": "script",
+        "priority": "script_function"
+    }
+
+async def custom_sagemaker_invocation_handler(request: Request):
+    return {
+        "predictions": ["Script function response"],
+        "source": "script",
+        "priority": "script_function"
+    }
+"""
+            )
+            script_path = f.name
+
+        try:
+            script_dir = os.path.dirname(script_path)
+            script_name = os.path.basename(script_path)
+
+            # Set environment variables to specify highest priority handlers
+            env_vars = {
+                SageMakerEnvVars.SAGEMAKER_MODEL_PATH: script_dir,
+                SageMakerEnvVars.CUSTOM_SCRIPT_FILENAME: script_name,
+                FastAPIEnvVars.CUSTOM_FASTAPI_PING_HANDLER: (
+                    f"{script_name}:env_priority_ping"
+                ),
+                FastAPIEnvVars.CUSTOM_FASTAPI_INVOCATION_HANDLER: (
+                    f"{script_name}:env_priority_invoke"
+                ),
+            }
+
+            args = [
+                "--dtype",
+                "bfloat16",
+                "--max-model-len",
+                "2048",
+                "--enforce-eager",
+                "--max-num-seqs",
+                "32",
+            ]
+
+            with RemoteOpenAIServer(
+                MODEL_NAME_SMOLLM, args, env_dict=env_vars
+            ) as server:
+                # Test ping handler priority
+                ping_response = requests.get(server.url_for("ping"))
+                assert ping_response.status_code == 200
+                ping_data = ping_response.json()
+
+                # Environment variable has highest priority and should be used
+                assert ping_data["priority"] == "environment_variable"
+                assert ping_data["source"] == "env_var"
+
+                # Test invocation handler priority
+                invoke_response = requests.post(
+                    server.url_for("invocations"),
+                    json={
+                        "model": MODEL_NAME_SMOLLM,
+                        "messages": [{"role": "user", "content": "Hello"}],
+                        "max_tokens": 5,
+                    },
+                )
+                assert invoke_response.status_code == 200
+                invoke_data = invoke_response.json()
+
+                # Environment variable has highest priority and should be used
+                assert invoke_data["priority"] == "environment_variable"
+                assert invoke_data["source"] == "env_var"
+
+        finally:
+            os.unlink(script_path)
diff --git a/tests/entrypoints/sagemaker/test_sagemaker_lora_adapters.py b/tests/entrypoints/sagemaker/test_sagemaker_lora_adapters.py
new file mode 100644
index 0000000000000..a2867efdc5840
--- /dev/null
+++ b/tests/entrypoints/sagemaker/test_sagemaker_lora_adapters.py
@@ -0,0 +1,171 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import openai  # use the official async_client for correctness check
+import pytest
+import requests
+
+from ...utils import RemoteOpenAIServer
+from .conftest import MODEL_NAME_SMOLLM
+
+
+@pytest.mark.asyncio
+async def test_sagemaker_load_adapter_happy_path(
+    async_client: openai.AsyncOpenAI,
+    basic_server_with_lora: RemoteOpenAIServer,
+    smollm2_lora_files,
+):
+    # The SageMaker standards library creates a POST /adapters endpoint
+    # that maps to the load_lora_adapter handler with request shape:
+    # {"lora_name": "body.name", "lora_path": "body.src"}
+    load_response = requests.post(
+        basic_server_with_lora.url_for("adapters"),
+        json={"name": "smollm2-lora-sagemaker", "src": smollm2_lora_files},
+    )
+    load_response.raise_for_status()
+
+    models = await async_client.models.list()
+    models = models.data
+    dynamic_lora_model = models[-1]
+    assert dynamic_lora_model.root == smollm2_lora_files
+    assert dynamic_lora_model.parent == MODEL_NAME_SMOLLM
+    assert dynamic_lora_model.id == "smollm2-lora-sagemaker"
+
+
+@pytest.mark.asyncio
+async def test_sagemaker_unload_adapter_happy_path(
+    async_client: openai.AsyncOpenAI,
+    basic_server_with_lora: RemoteOpenAIServer,
+    smollm2_lora_files,
+):
+    # First, load an adapter
+    adapter_name = "smollm2-lora-sagemaker-unload"
+    load_response = requests.post(
+        basic_server_with_lora.url_for("adapters"),
+        json={"name": adapter_name, "src": smollm2_lora_files},
+    )
+    load_response.raise_for_status()
+
+    # Verify it's in the models list
+    models = await async_client.models.list()
+    adapter_ids = [model.id for model in models.data]
+    assert adapter_name in adapter_ids
+
+    # Now unload it using DELETE /adapters/{adapter_name}
+    # The SageMaker standards maps this to unload_lora_adapter with:
+    # {"lora_name": "path_params.adapter_name"}
+    unload_response = requests.delete(
+        basic_server_with_lora.url_for("adapters", adapter_name),
+    )
+    unload_response.raise_for_status()
+
+    # Verify it's no longer in the models list
+    models = await async_client.models.list()
+    adapter_ids = [model.id for model in models.data]
+    assert adapter_name not in adapter_ids
+
+
+@pytest.mark.asyncio
+async def test_sagemaker_load_adapter_not_found(
+    basic_server_with_lora: RemoteOpenAIServer,
+):
+    load_response = requests.post(
+        basic_server_with_lora.url_for("adapters"),
+        json={"name": "nonexistent-adapter", "src": "/path/does/not/exist"},
+    )
+    assert load_response.status_code == 404
+
+
+@pytest.mark.asyncio
+async def test_sagemaker_load_adapter_invalid_files(
+    basic_server_with_lora: RemoteOpenAIServer,
+    tmp_path,
+):
+    invalid_files = tmp_path / "invalid_adapter"
+    invalid_files.mkdir()
+    (invalid_files / "adapter_config.json").write_text("not valid json")
+
+    load_response = requests.post(
+        basic_server_with_lora.url_for("adapters"),
+        json={"name": "invalid-adapter", "src": str(invalid_files)},
+    )
+    assert load_response.status_code == 400
+
+
+@pytest.mark.asyncio
+async def test_sagemaker_unload_nonexistent_adapter(
+    basic_server_with_lora: RemoteOpenAIServer,
+):
+    # Attempt to unload an adapter that doesn't exist
+    unload_response = requests.delete(
+        basic_server_with_lora.url_for("adapters", "nonexistent-adapter-name"),
+    )
+    assert unload_response.status_code in (400, 404)
+
+
+@pytest.mark.asyncio
+async def test_sagemaker_invocations_with_adapter(
+    basic_server_with_lora: RemoteOpenAIServer,
+    smollm2_lora_files,
+):
+    # First, load an adapter via SageMaker endpoint
+    adapter_name = "smollm2-lora-invoke-test"
+    load_response = requests.post(
+        basic_server_with_lora.url_for("adapters"),
+        json={"name": adapter_name, "src": smollm2_lora_files},
+    )
+    load_response.raise_for_status()
+
+    # Now test the /invocations endpoint with the adapter
+    invocation_response = requests.post(
+        basic_server_with_lora.url_for("invocations"),
+        headers={
+            "X-Amzn-SageMaker-Adapter-Identifier": adapter_name,
+        },
+        json={
+            "prompt": "Hello, how are you?",
+            "max_tokens": 10,
+        },
+    )
+    invocation_response.raise_for_status()
+    invocation_output = invocation_response.json()
+
+    # Verify we got a valid completion response
+    assert "choices" in invocation_output
+    assert len(invocation_output["choices"]) > 0
+    assert "text" in invocation_output["choices"][0]
+
+
+@pytest.mark.asyncio
+async def test_sagemaker_multiple_adapters_load_unload(
+    async_client: openai.AsyncOpenAI,
+    basic_server_with_lora: RemoteOpenAIServer,
+    smollm2_lora_files,
+):
+    adapter_names = [f"sagemaker-adapter-{i}" for i in range(5)]
+
+    # Load all adapters
+    for adapter_name in adapter_names:
+        load_response = requests.post(
+            basic_server_with_lora.url_for("adapters"),
+            json={"name": adapter_name, "src": smollm2_lora_files},
+        )
+        load_response.raise_for_status()
+
+    # Verify all are in the models list
+    models = await async_client.models.list()
+    adapter_ids = [model.id for model in models.data]
+    for adapter_name in adapter_names:
+        assert adapter_name in adapter_ids
+
+    # Unload all adapters
+    for adapter_name in adapter_names:
+        unload_response = requests.delete(
+            basic_server_with_lora.url_for("adapters", adapter_name),
+        )
+        unload_response.raise_for_status()
+
+    # Verify all are removed from models list
+    models = await async_client.models.list()
+    adapter_ids = [model.id for model in models.data]
+    for adapter_name in adapter_names:
+        assert adapter_name not in adapter_ids
diff --git a/tests/entrypoints/sagemaker/test_sagemaker_middleware_integration.py b/tests/entrypoints/sagemaker/test_sagemaker_middleware_integration.py
new file mode 100644
index 0000000000000..f1ed0c7e28973
--- /dev/null
+++ b/tests/entrypoints/sagemaker/test_sagemaker_middleware_integration.py
@@ -0,0 +1,346 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+"""Integration test for middleware loader functionality.
+
+Tests that customer middlewares get called correctly with a vLLM server.
+"""
+
+import os
+import tempfile
+
+import pytest
+import requests
+
+from ...utils import RemoteOpenAIServer
+from .conftest import (
+    MODEL_NAME_SMOLLM,
+)
+
+
+class TestMiddlewareIntegration:
+    """Integration test for middleware with vLLM server."""
+
+    def setup_method(self):
+        """Setup for each test - simulate fresh server startup."""
+        self._clear_caches()
+
+    def _clear_caches(self):
+        """Clear middleware registry and function loader cache."""
+        try:
+            from model_hosting_container_standards.common.fastapi.middleware import (
+                middleware_registry,
+            )
+            from model_hosting_container_standards.common.fastapi.middleware.source.decorator_loader import (  # noqa: E501
+                decorator_loader,
+            )
+            from model_hosting_container_standards.sagemaker.sagemaker_loader import (
+                SageMakerFunctionLoader,
+            )
+
+            middleware_registry.clear_middlewares()
+            decorator_loader.clear()
+            SageMakerFunctionLoader._default_function_loader = None
+        except ImportError:
+            pytest.skip("model-hosting-container-standards not available")
+
+    @pytest.mark.asyncio
+    async def test_customer_middleware_with_vllm_server(self):
+        """Test that customer middlewares work with actual vLLM server.
+
+        Tests decorator-based middlewares (@custom_middleware, @input_formatter,
+        @output_formatter)
+        on multiple endpoints (chat/completions, invocations).
+        """
+        try:
+            from model_hosting_container_standards.sagemaker.config import (
+                SageMakerEnvVars,
+            )
+        except ImportError:
+            pytest.skip("model-hosting-container-standards not available")
+
+        # Customer writes a middleware script with multiple decorators
+        with tempfile.NamedTemporaryFile(mode="w", suffix=".py", delete=False) as f:
+            f.write(
+                """
+from model_hosting_container_standards.common.fastapi.middleware import (
+    custom_middleware, input_formatter, output_formatter
+)
+
+# Global flag to track if input formatter was called
+_input_formatter_called = False
+
+@input_formatter
+async def customer_input_formatter(request):
+    # Process input - mark that input formatter was called
+    global _input_formatter_called
+    _input_formatter_called = True
+    return request
+
+@custom_middleware("throttle")
+async def customer_throttle_middleware(request, call_next):
+    response = await call_next(request)
+    response.headers["X-Customer-Throttle"] = "applied"
+    order = response.headers.get("X-Middleware-Order", "")
+    response.headers["X-Middleware-Order"] = order + "throttle,"
+    return response
+
+@output_formatter
+async def customer_output_formatter(response):
+    global _input_formatter_called
+    response.headers["X-Customer-Processed"] = "true"
+    # Since input_formatter and output_formatter are combined into
+    # pre_post_process middleware,
+    # if output_formatter is called, input_formatter should have been called too
+    if _input_formatter_called:
+        response.headers["X-Input-Formatter-Called"] = "true"
+    order = response.headers.get("X-Middleware-Order", "")
+    response.headers["X-Middleware-Order"] = order + "output_formatter,"
+    return response
+"""
+            )
+            script_path = f.name
+
+        try:
+            script_dir = os.path.dirname(script_path)
+            script_name = os.path.basename(script_path)
+
+            # Set environment variables to point to customer script
+            env_vars = {
+                SageMakerEnvVars.SAGEMAKER_MODEL_PATH: script_dir,
+                SageMakerEnvVars.CUSTOM_SCRIPT_FILENAME: script_name,
+            }
+
+            args = [
+                "--dtype",
+                "bfloat16",
+                "--max-model-len",
+                "2048",
+                "--enforce-eager",
+                "--max-num-seqs",
+                "32",
+            ]
+
+            with RemoteOpenAIServer(
+                MODEL_NAME_SMOLLM, args, env_dict=env_vars
+            ) as server:
+                # Test 1: Middlewares applied to chat/completions endpoint
+                chat_response = requests.post(
+                    server.url_for("v1/chat/completions"),
+                    json={
+                        "model": MODEL_NAME_SMOLLM,
+                        "messages": [{"role": "user", "content": "Hello"}],
+                        "max_tokens": 5,
+                        "temperature": 0.0,
+                    },
+                )
+
+                assert chat_response.status_code == 200
+
+                # Verify all middlewares were executed
+                assert "X-Customer-Throttle" in chat_response.headers
+                assert chat_response.headers["X-Customer-Throttle"] == "applied"
+                assert "X-Customer-Processed" in chat_response.headers
+                assert chat_response.headers["X-Customer-Processed"] == "true"
+
+                # Verify input formatter was called
+                assert "X-Input-Formatter-Called" in chat_response.headers
+                assert chat_response.headers["X-Input-Formatter-Called"] == "true"
+
+                # Verify middleware execution order
+                execution_order = chat_response.headers.get(
+                    "X-Middleware-Order", ""
+                ).rstrip(",")
+                order_parts = execution_order.split(",") if execution_order else []
+                assert "throttle" in order_parts
+                assert "output_formatter" in order_parts
+
+                # Test 2: Middlewares applied to invocations endpoint
+                invocations_response = requests.post(
+                    server.url_for("invocations"),
+                    json={
+                        "model": MODEL_NAME_SMOLLM,
+                        "messages": [{"role": "user", "content": "Hello"}],
+                        "max_tokens": 5,
+                        "temperature": 0.0,
+                    },
+                )
+
+                assert invocations_response.status_code == 200
+
+                # Verify all middlewares were executed
+                assert "X-Customer-Throttle" in invocations_response.headers
+                assert invocations_response.headers["X-Customer-Throttle"] == "applied"
+                assert "X-Customer-Processed" in invocations_response.headers
+                assert invocations_response.headers["X-Customer-Processed"] == "true"
+
+                # Verify input formatter was called
+                assert "X-Input-Formatter-Called" in invocations_response.headers
+                assert (
+                    invocations_response.headers["X-Input-Formatter-Called"] == "true"
+                )
+
+        finally:
+            os.unlink(script_path)
+
+    @pytest.mark.asyncio
+    async def test_middleware_with_ping_endpoint(self):
+        """Test that middlewares work with SageMaker ping endpoint."""
+        try:
+            from model_hosting_container_standards.sagemaker.config import (
+                SageMakerEnvVars,
+            )
+        except ImportError:
+            pytest.skip("model-hosting-container-standards not available")
+
+        # Customer writes a middleware script
+        with tempfile.NamedTemporaryFile(mode="w", suffix=".py", delete=False) as f:
+            f.write(
+                """
+from model_hosting_container_standards.common.fastapi.middleware import (
+    custom_middleware
+)
+
+@custom_middleware("pre_post_process")
+async def ping_tracking_middleware(request, call_next):
+    response = await call_next(request)
+    if request.url.path == "/ping":
+        response.headers["X-Ping-Tracked"] = "true"
+    return response
+"""
+            )
+            script_path = f.name
+
+        try:
+            script_dir = os.path.dirname(script_path)
+            script_name = os.path.basename(script_path)
+
+            env_vars = {
+                SageMakerEnvVars.SAGEMAKER_MODEL_PATH: script_dir,
+                SageMakerEnvVars.CUSTOM_SCRIPT_FILENAME: script_name,
+            }
+
+            args = [
+                "--dtype",
+                "bfloat16",
+                "--max-model-len",
+                "2048",
+                "--enforce-eager",
+                "--max-num-seqs",
+                "32",
+            ]
+
+            with RemoteOpenAIServer(
+                MODEL_NAME_SMOLLM, args, env_dict=env_vars
+            ) as server:
+                # Test ping endpoint with middleware
+                response = requests.get(server.url_for("ping"))
+
+                assert response.status_code == 200
+                assert "X-Ping-Tracked" in response.headers
+                assert response.headers["X-Ping-Tracked"] == "true"
+
+        finally:
+            os.unlink(script_path)
+
+    @pytest.mark.asyncio
+    async def test_middleware_env_var_override(self):
+        """Test middleware environment variable overrides."""
+        try:
+            from model_hosting_container_standards.common.fastapi.config import (
+                FastAPIEnvVars,
+            )
+            from model_hosting_container_standards.sagemaker.config import (
+                SageMakerEnvVars,
+            )
+        except ImportError:
+            pytest.skip("model-hosting-container-standards not available")
+
+        # Create a script with middleware functions specified via env vars
+        with tempfile.NamedTemporaryFile(mode="w", suffix=".py", delete=False) as f:
+            f.write(
+                """
+from fastapi import Request
+
+# Global flag to track if pre_process was called
+_pre_process_called = False
+
+async def env_throttle_middleware(request, call_next):
+    response = await call_next(request)
+    response.headers["X-Env-Throttle"] = "applied"
+    return response
+
+async def env_pre_process(request: Request) -> Request:
+    # Mark that pre_process was called
+    global _pre_process_called
+    _pre_process_called = True
+    return request
+
+async def env_post_process(response):
+    global _pre_process_called
+    if hasattr(response, 'headers'):
+        response.headers["X-Env-Post-Process"] = "applied"
+        # Since pre_process and post_process are combined into
+        # pre_post_process middleware,
+        # if post_process is called, pre_process should have been called too
+        if _pre_process_called:
+            response.headers["X-Pre-Process-Called"] = "true"
+    return response
+"""
+            )
+            script_path = f.name
+
+        try:
+            script_dir = os.path.dirname(script_path)
+            script_name = os.path.basename(script_path)
+
+            # Set environment variables for middleware
+            # Use script_name with .py extension as per plugin example
+            env_vars = {
+                SageMakerEnvVars.SAGEMAKER_MODEL_PATH: script_dir,
+                SageMakerEnvVars.CUSTOM_SCRIPT_FILENAME: script_name,
+                FastAPIEnvVars.CUSTOM_FASTAPI_MIDDLEWARE_THROTTLE: (
+                    f"{script_name}:env_throttle_middleware"
+                ),
+                FastAPIEnvVars.CUSTOM_PRE_PROCESS: f"{script_name}:env_pre_process",
+                FastAPIEnvVars.CUSTOM_POST_PROCESS: f"{script_name}:env_post_process",
+            }
+
+            args = [
+                "--dtype",
+                "bfloat16",
+                "--max-model-len",
+                "2048",
+                "--enforce-eager",
+                "--max-num-seqs",
+                "32",
+            ]
+
+            with RemoteOpenAIServer(
+                MODEL_NAME_SMOLLM, args, env_dict=env_vars
+            ) as server:
+                response = requests.get(server.url_for("ping"))
+                assert response.status_code == 200
+
+                # Check if environment variable middleware was applied
+                headers = response.headers
+
+                # Verify that env var middlewares were applied
+                assert "X-Env-Throttle" in headers, (
+                    "Throttle middleware should be applied via env var"
+                )
+                assert headers["X-Env-Throttle"] == "applied"
+
+                assert "X-Env-Post-Process" in headers, (
+                    "Post-process middleware should be applied via env var"
+                )
+                assert headers["X-Env-Post-Process"] == "applied"
+
+                # Verify that pre_process was called
+                assert "X-Pre-Process-Called" in headers, (
+                    "Pre-process should be called via env var"
+                )
+                assert headers["X-Pre-Process-Called"] == "true"
+
+        finally:
+            os.unlink(script_path)
diff --git a/tests/entrypoints/sagemaker/test_sagemaker_stateful_sessions.py b/tests/entrypoints/sagemaker/test_sagemaker_stateful_sessions.py
new file mode 100644
index 0000000000000..6206000385bd9
--- /dev/null
+++ b/tests/entrypoints/sagemaker/test_sagemaker_stateful_sessions.py
@@ -0,0 +1,153 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+import openai  # use the official client for correctness check
+import pytest
+import requests
+
+from ...utils import RemoteOpenAIServer
+from .conftest import (
+    HEADER_SAGEMAKER_CLOSED_SESSION_ID,
+    HEADER_SAGEMAKER_NEW_SESSION_ID,
+    HEADER_SAGEMAKER_SESSION_ID,
+    MODEL_NAME_SMOLLM,
+)
+
+CLOSE_BADREQUEST_CASES = [
+    (
+        "nonexistent_session_id",
+        {"session_id": "nonexistent-session-id"},
+        {},
+        "session not found",
+    ),
+    ("malformed_close_request", {}, {"extra-field": "extra-field-data"}, None),
+]
+
+
+@pytest.mark.asyncio
+async def test_create_session_badrequest(basic_server_with_lora: RemoteOpenAIServer):
+    bad_response = requests.post(
+        basic_server_with_lora.url_for("invocations"),
+        json={"requestType": "NEW_SESSION", "extra-field": "extra-field-data"},
+    )
+
+    assert bad_response.status_code == 400
+
+
+@pytest.mark.asyncio
+@pytest.mark.parametrize(
+    "test_name,session_id_change,request_body_change,expected_error",
+    CLOSE_BADREQUEST_CASES,
+)
+async def test_close_session_badrequest(
+    basic_server_with_lora: RemoteOpenAIServer,
+    test_name: str,
+    session_id_change: dict[str, str],
+    request_body_change: dict[str, str],
+    expected_error: str | None,
+):
+    # first attempt to create a session
+    url = basic_server_with_lora.url_for("invocations")
+    create_response = requests.post(url, json={"requestType": "NEW_SESSION"})
+    create_response.raise_for_status()
+    valid_session_id, expiration = create_response.headers.get(
+        HEADER_SAGEMAKER_NEW_SESSION_ID, ""
+    ).split(";")
+    assert valid_session_id
+
+    close_request_json = {"requestType": "CLOSE"}
+    if request_body_change:
+        close_request_json.update(request_body_change)
+    bad_session_id = session_id_change.get("session_id")
+    bad_close_response = requests.post(
+        url,
+        headers={HEADER_SAGEMAKER_SESSION_ID: bad_session_id or valid_session_id},
+        json=close_request_json,
+    )
+
+    # clean up created session, should succeed
+    clean_up_response = requests.post(
+        url,
+        headers={HEADER_SAGEMAKER_SESSION_ID: valid_session_id},
+        json={"requestType": "CLOSE"},
+    )
+    clean_up_response.raise_for_status()
+
+    assert bad_close_response.status_code == 400
+    if expected_error:
+        assert expected_error in bad_close_response.json()["error"]["message"]
+
+
+@pytest.mark.asyncio
+async def test_close_session_invalidrequest(
+    basic_server_with_lora: RemoteOpenAIServer, async_client: openai.AsyncOpenAI
+):
+    # first attempt to create a session
+    url = basic_server_with_lora.url_for("invocations")
+    create_response = requests.post(url, json={"requestType": "NEW_SESSION"})
+    create_response.raise_for_status()
+    valid_session_id, expiration = create_response.headers.get(
+        HEADER_SAGEMAKER_NEW_SESSION_ID, ""
+    ).split(";")
+    assert valid_session_id
+
+    close_request_json = {"requestType": "CLOSE"}
+    invalid_close_response = requests.post(
+        url,
+        # no headers to specify session_id
+        json=close_request_json,
+    )
+
+    # clean up created session, should succeed
+    clean_up_response = requests.post(
+        url,
+        headers={HEADER_SAGEMAKER_SESSION_ID: valid_session_id},
+        json={"requestType": "CLOSE"},
+    )
+    clean_up_response.raise_for_status()
+
+    assert invalid_close_response.status_code == 424
+    assert "invalid session_id" in invalid_close_response.json()["error"]["message"]
+
+
+@pytest.mark.asyncio
+async def test_session(basic_server_with_lora: RemoteOpenAIServer):
+    # first attempt to create a session
+    url = basic_server_with_lora.url_for("invocations")
+    create_response = requests.post(url, json={"requestType": "NEW_SESSION"})
+    create_response.raise_for_status()
+    valid_session_id, expiration = create_response.headers.get(
+        HEADER_SAGEMAKER_NEW_SESSION_ID, ""
+    ).split(";")
+    assert valid_session_id
+
+    # test invocation with session id
+
+    request_args = {
+        "model": MODEL_NAME_SMOLLM,
+        "prompt": "what is 1+1?",
+        "max_completion_tokens": 5,
+        "temperature": 0.0,
+        "logprobs": False,
+    }
+
+    invocation_response = requests.post(
+        basic_server_with_lora.url_for("invocations"),
+        headers={HEADER_SAGEMAKER_SESSION_ID: valid_session_id},
+        json=request_args,
+    )
+    invocation_response.raise_for_status()
+
+    # close created session, should succeed
+    close_response = requests.post(
+        url,
+        headers={HEADER_SAGEMAKER_SESSION_ID: valid_session_id},
+        json={"requestType": "CLOSE"},
+    )
+    close_response.raise_for_status()
+
+    assert (
+        close_response.headers.get(HEADER_SAGEMAKER_CLOSED_SESSION_ID)
+        == valid_session_id
+    )
diff --git a/vllm/entrypoints/dynamic_lora.py b/vllm/entrypoints/dynamic_lora.py
new file mode 100644
index 0000000000000..cc0f437e5c77f
--- /dev/null
+++ b/vllm/entrypoints/dynamic_lora.py
@@ -0,0 +1,57 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import model_hosting_container_standards.sagemaker as sagemaker_standards
+from fastapi import APIRouter, Depends, Request
+from fastapi.responses import JSONResponse, Response
+
+from vllm.entrypoints.openai.api_server import models, validate_json_request
+from vllm.entrypoints.openai.protocol import (
+    ErrorResponse,
+    LoadLoRAAdapterRequest,
+    UnloadLoRAAdapterRequest,
+)
+from vllm.entrypoints.openai.serving_models import OpenAIServingModels
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+def register_dynamic_lora_routes(router: APIRouter):
+    @sagemaker_standards.register_load_adapter_handler(
+        request_shape={
+            "lora_name": "body.name",
+            "lora_path": "body.src",
+        },
+    )
+    @router.post("/v1/load_lora_adapter", dependencies=[Depends(validate_json_request)])
+    async def load_lora_adapter(request: LoadLoRAAdapterRequest, raw_request: Request):
+        handler: OpenAIServingModels = models(raw_request)
+        response = await handler.load_lora_adapter(request)
+        if isinstance(response, ErrorResponse):
+            return JSONResponse(
+                content=response.model_dump(), status_code=response.error.code
+            )
+
+        return Response(status_code=200, content=response)
+
+    @sagemaker_standards.register_unload_adapter_handler(
+        request_shape={
+            "lora_name": "path_params.adapter_name",
+        }
+    )
+    @router.post(
+        "/v1/unload_lora_adapter", dependencies=[Depends(validate_json_request)]
+    )
+    async def unload_lora_adapter(
+        request: UnloadLoRAAdapterRequest, raw_request: Request
+    ):
+        handler: OpenAIServingModels = models(raw_request)
+        response = await handler.unload_lora_adapter(request)
+        if isinstance(response, ErrorResponse):
+            return JSONResponse(
+                content=response.model_dump(), status_code=response.error.code
+            )
+
+        return Response(status_code=200, content=response)
+
+    return router
diff --git a/vllm/entrypoints/openai/api_server.py b/vllm/entrypoints/openai/api_server.py
index 51191879e4780..fbb2d32a229da 100644
--- a/vllm/entrypoints/openai/api_server.py
+++ b/vllm/entrypoints/openai/api_server.py
@@ -19,6 +19,7 @@ from contextlib import asynccontextmanager
 from http import HTTPStatus
 from typing import Annotated, Any, Literal
 
+import model_hosting_container_standards.sagemaker as sagemaker_standards
 import prometheus_client
 import pydantic
 import regex as re
@@ -65,7 +66,6 @@ from vllm.entrypoints.openai.protocol import (
     ErrorInfo,
     ErrorResponse,
     IOProcessorResponse,
-    LoadLoRAAdapterRequest,
     PoolingBytesResponse,
     PoolingRequest,
     PoolingResponse,
@@ -82,7 +82,6 @@ from vllm.entrypoints.openai.protocol import (
     TranscriptionResponse,
     TranslationRequest,
     TranslationResponse,
-    UnloadLoRAAdapterRequest,
 )
 from vllm.entrypoints.openai.serving_chat import OpenAIServingChat
 from vllm.entrypoints.openai.serving_classification import ServingClassification
@@ -387,13 +386,6 @@ async def get_server_load_metrics(request: Request):
     return JSONResponse(content={"server_load": request.app.state.server_load_metrics})
 
 
-@router.get("/ping", response_class=Response)
-@router.post("/ping", response_class=Response)
-async def ping(raw_request: Request) -> Response:
-    """Ping check. Endpoint required for SageMaker"""
-    return await health(raw_request)
-
-
 @router.post(
     "/tokenize",
     dependencies=[Depends(validate_json_request)],
@@ -1236,47 +1228,6 @@ INVOCATION_VALIDATORS = [
 ]
 
 
-@router.post(
-    "/invocations",
-    dependencies=[Depends(validate_json_request)],
-    responses={
-        HTTPStatus.BAD_REQUEST.value: {"model": ErrorResponse},
-        HTTPStatus.UNSUPPORTED_MEDIA_TYPE.value: {"model": ErrorResponse},
-        HTTPStatus.INTERNAL_SERVER_ERROR.value: {"model": ErrorResponse},
-    },
-)
-async def invocations(raw_request: Request):
-    """For SageMaker, routes requests based on the request type."""
-    try:
-        body = await raw_request.json()
-    except json.JSONDecodeError as e:
-        raise HTTPException(
-            status_code=HTTPStatus.BAD_REQUEST.value, detail=f"JSON decode error: {e}"
-        ) from e
-
-    valid_endpoints = [
-        (validator, endpoint)
-        for validator, (get_handler, endpoint) in INVOCATION_VALIDATORS
-        if get_handler(raw_request) is not None
-    ]
-
-    for request_validator, endpoint in valid_endpoints:
-        try:
-            request = request_validator.validate_python(body)
-        except pydantic.ValidationError:
-            continue
-
-        return await endpoint(request, raw_request)
-
-    type_names = [
-        t.__name__ if isinstance(t := validator._type, type) else str(t)
-        for validator, _ in valid_endpoints
-    ]
-    msg = f"Cannot find suitable handler for request. Expected one of: {type_names}"
-    res = base(raw_request).create_error_response(message=msg)
-    return JSONResponse(content=res.model_dump(), status_code=res.error.code)
-
-
 if envs.VLLM_TORCH_PROFILER_DIR:
     logger.warning_once(
         "Torch Profiler is enabled in the API server. This should ONLY be "
@@ -1304,39 +1255,6 @@ if envs.VLLM_TORCH_PROFILER_DIR or envs.VLLM_TORCH_CUDA_PROFILE:
         return Response(status_code=200)
 
 
-if envs.VLLM_ALLOW_RUNTIME_LORA_UPDATING:
-    logger.warning(
-        "LoRA dynamic loading & unloading is enabled in the API server. "
-        "This should ONLY be used for local development!"
-    )
-
-    @router.post("/v1/load_lora_adapter", dependencies=[Depends(validate_json_request)])
-    async def load_lora_adapter(request: LoadLoRAAdapterRequest, raw_request: Request):
-        handler = models(raw_request)
-        response = await handler.load_lora_adapter(request)
-        if isinstance(response, ErrorResponse):
-            return JSONResponse(
-                content=response.model_dump(), status_code=response.error.code
-            )
-
-        return Response(status_code=200, content=response)
-
-    @router.post(
-        "/v1/unload_lora_adapter", dependencies=[Depends(validate_json_request)]
-    )
-    async def unload_lora_adapter(
-        request: UnloadLoRAAdapterRequest, raw_request: Request
-    ):
-        handler = models(raw_request)
-        response = await handler.unload_lora_adapter(request)
-        if isinstance(response, ErrorResponse):
-            return JSONResponse(
-                content=response.model_dump(), status_code=response.error.code
-            )
-
-        return Response(status_code=200, content=response)
-
-
 def load_log_config(log_config_file: str | None) -> dict | None:
     if not log_config_file:
         return None
@@ -1606,6 +1524,20 @@ def build_app(args: Namespace) -> FastAPI:
         )
     else:
         app = FastAPI(lifespan=lifespan)
+
+    if envs.VLLM_ALLOW_RUNTIME_LORA_UPDATING:
+        logger.warning(
+            "LoRA dynamic loading & unloading is enabled in the API server. "
+            "This should ONLY be used for local development!"
+        )
+        from vllm.entrypoints.dynamic_lora import register_dynamic_lora_routes
+
+        register_dynamic_lora_routes(router)
+
+    from vllm.entrypoints.sagemaker.routes import register_sagemaker_routes
+
+    register_sagemaker_routes(router)
+
     app.include_router(router)
     app.root_path = args.root_path
 
@@ -1696,6 +1628,8 @@ def build_app(args: Namespace) -> FastAPI:
                 f"Invalid middleware {middleware}. Must be a function or a class."
             )
 
+    app = sagemaker_standards.bootstrap(app)
+
     return app
 
 
diff --git a/vllm/entrypoints/sagemaker/__init__.py b/vllm/entrypoints/sagemaker/__init__.py
new file mode 100644
index 0000000000000..c1767137e4ea1
--- /dev/null
+++ b/vllm/entrypoints/sagemaker/__init__.py
@@ -0,0 +1,4 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+"""SageMaker-specific integration for vLLM."""
diff --git a/vllm/entrypoints/sagemaker/routes.py b/vllm/entrypoints/sagemaker/routes.py
new file mode 100644
index 0000000000000..498b7294f0d8c
--- /dev/null
+++ b/vllm/entrypoints/sagemaker/routes.py
@@ -0,0 +1,72 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import json
+from http import HTTPStatus
+
+import model_hosting_container_standards.sagemaker as sagemaker_standards
+import pydantic
+from fastapi import APIRouter, Depends, HTTPException, Request
+from fastapi.responses import JSONResponse, Response
+
+from vllm.entrypoints.openai.api_server import (
+    INVOCATION_VALIDATORS,
+    base,
+    health,
+    validate_json_request,
+)
+from vllm.entrypoints.openai.protocol import ErrorResponse
+
+
+def register_sagemaker_routes(router: APIRouter):
+    @router.post("/ping", response_class=Response)
+    @router.get("/ping", response_class=Response)
+    @sagemaker_standards.register_ping_handler
+    async def ping(raw_request: Request) -> Response:
+        """Ping check. Endpoint required for SageMaker"""
+        return await health(raw_request)
+
+    @router.post(
+        "/invocations",
+        dependencies=[Depends(validate_json_request)],
+        responses={
+            HTTPStatus.BAD_REQUEST.value: {"model": ErrorResponse},
+            HTTPStatus.UNSUPPORTED_MEDIA_TYPE.value: {"model": ErrorResponse},
+            HTTPStatus.INTERNAL_SERVER_ERROR.value: {"model": ErrorResponse},
+        },
+    )
+    @sagemaker_standards.register_invocation_handler
+    @sagemaker_standards.stateful_session_manager()
+    @sagemaker_standards.inject_adapter_id(adapter_path="model")
+    async def invocations(raw_request: Request):
+        """For SageMaker, routes requests based on the request type."""
+        try:
+            body = await raw_request.json()
+        except json.JSONDecodeError as e:
+            raise HTTPException(
+                status_code=HTTPStatus.BAD_REQUEST.value,
+                detail=f"JSON decode error: {e}",
+            ) from e
+
+        valid_endpoints = [
+            (validator, endpoint)
+            for validator, (get_handler, endpoint) in INVOCATION_VALIDATORS
+            if get_handler(raw_request) is not None
+        ]
+
+        for request_validator, endpoint in valid_endpoints:
+            try:
+                request = request_validator.validate_python(body)
+            except pydantic.ValidationError:
+                continue
+
+            return await endpoint(request, raw_request)
+
+        type_names = [
+            t.__name__ if isinstance(t := validator._type, type) else str(t)
+            for validator, _ in valid_endpoints
+        ]
+        msg = f"Cannot find suitable handler for request. Expected one of: {type_names}"
+        res = base(raw_request).create_error_response(message=msg)
+        return JSONResponse(content=res.model_dump(), status_code=res.error.code)
+
+    return router

From e605e8e3233f895340f46665f93ab37b307491aa Mon Sep 17 00:00:00 2001
From: Robert Shaw <114415538+robertgshaw2-redhat@users.noreply.github.com>
Date: Tue, 11 Nov 2025 00:59:08 -0500
Subject: [PATCH 299/976] [Bugfix] Fix Stream Sync for Shared Expert Overlap
 (#28430)

Signed-off-by: Vadim Gimpelson <vadim.gimpelson@gmail.com>
Signed-off-by: Robert Shaw <robertgshaw2@gmail.com>
Co-authored-by: Vadim Gimpelson <vadim.gimpelson@gmail.com>
---
 .../gsm8k/configs/Qwen1.5-MoE-W4A16-CT.yaml   |  3 --
 vllm/model_executor/layers/fused_moe/layer.py | 45 +++++++------------
 2 files changed, 15 insertions(+), 33 deletions(-)

diff --git a/tests/evals/gsm8k/configs/Qwen1.5-MoE-W4A16-CT.yaml b/tests/evals/gsm8k/configs/Qwen1.5-MoE-W4A16-CT.yaml
index ea9c95158405a..9297bf6ddf2d3 100644
--- a/tests/evals/gsm8k/configs/Qwen1.5-MoE-W4A16-CT.yaml
+++ b/tests/evals/gsm8k/configs/Qwen1.5-MoE-W4A16-CT.yaml
@@ -3,6 +3,3 @@ accuracy_threshold: 0.45
 num_questions: 1319
 num_fewshot: 5
 max_model_len: 4096
-# Duo stream incompatabilbe with this model: https://github.com/vllm-project/vllm/issues/28220
-env:
-  VLLM_DISABLE_SHARED_EXPERTS_STREAM: "1"
diff --git a/vllm/model_executor/layers/fused_moe/layer.py b/vllm/model_executor/layers/fused_moe/layer.py
index 27ad9c8fd1c24..39547cc83c7b6 100644
--- a/vllm/model_executor/layers/fused_moe/layer.py
+++ b/vllm/model_executor/layers/fused_moe/layer.py
@@ -2456,28 +2456,6 @@ class FusedMoE(CustomOp):
             staged_hidden_states.copy_(hidden_states, non_blocking=True)
             staged_router_logits.copy_(router_logits, non_blocking=True)
 
-            # If there are shared experts but we are not using a modular kernel,
-            # the shared experts must be called here
-            if has_separate_shared_experts:
-                assert self.shared_experts is not None
-
-                if self.shared_experts_stream is not None:
-                    # For chunked, we start the shared experts stream here
-                    # (Note that no concurrency with the router/gate)
-                    self.shared_experts_stream.wait_stream(current_stream())
-
-                    with torch.cuda.stream(self.shared_experts_stream):
-                        # Note that staged_hidden_states clone() is necessary
-                        # here to avoid conflict with the main stream
-                        shared_output = self.shared_experts(
-                            staged_hidden_states.clone()
-                        )
-                else:
-                    shared_output = self.shared_experts(staged_hidden_states)
-
-            else:
-                shared_output = None
-
             # Matrix multiply.
             final_hidden_states = self.quant_method.apply(
                 layer=self,
@@ -2506,11 +2484,7 @@ class FusedMoE(CustomOp):
             if has_separate_shared_experts:
                 assert not isinstance(final_hidden_states, tuple)
                 assert self.shared_experts is not None
-
-                # Here we finish the shared experts stream
-                if self.shared_experts_stream is not None:
-                    current_stream().wait_stream(self.shared_experts_stream)
-
+                shared_output = self.shared_experts(staged_hidden_states)
                 final_hidden_states = (
                     shared_output,
                     final_hidden_states,
@@ -2619,11 +2593,22 @@ class FusedMoE(CustomOp):
             assert self.shared_experts is not None
 
             if self.shared_experts_stream is not None:
+                # Clone BEFORE switching streams to avoid race condition
+                # where routed_expert kernel may mutate hidden_states.
+                hidden_states_clone = hidden_states.clone()
+                self.shared_experts_stream.wait_stream(current_stream())
+
                 # Run shared experts in parallel on a separate stream
                 with torch.cuda.stream(self.shared_experts_stream):
-                    # Note that hidden_states clone() is necessary here to avoid
-                    # conflict with the main stream
-                    shared_output = self.shared_experts(hidden_states.clone())
+                    shared_output = self.shared_experts(hidden_states_clone)
+
+                # Record that the clone will be used by shared_experts_stream
+                # to avoid gc issue from deallocation of hidden_states_clone
+                # For more details: https://docs.pytorch.org/docs/stable/generated/torch.Tensor.record_stream.html # noqa: E501
+                # NOTE: we dont need shared_output.record_stream(current_stream())
+                # because we synch the streams before using shared_output.
+                hidden_states_clone.record_stream(self.shared_experts_stream)
+
             else:
                 shared_output = self.shared_experts(hidden_states)
         else:

From a7adbc6c6b4bcdef5cfffdcd06edf86fcbfb7c69 Mon Sep 17 00:00:00 2001
From: iAmir97 <71513472+iAmir97@users.noreply.github.com>
Date: Tue, 11 Nov 2025 13:44:35 +0700
Subject: [PATCH 300/976] [Doc] Sleep mode documentation  (#28357)

Signed-off-by: Amir Balwel <amir.balwel@embeddedllm.com>
Signed-off-by: iAmir97 <71513472+iAmir97@users.noreply.github.com>
Co-authored-by: Amir Balwel <amir.balwel@embeddedllm.com>
Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
---
 docs/features/sleep_mode.md | 39 +++++++++++++++++++++++++++++++++++++
 1 file changed, 39 insertions(+)

diff --git a/docs/features/sleep_mode.md b/docs/features/sleep_mode.md
index e7dd9fee12d37..edcbaa7164479 100644
--- a/docs/features/sleep_mode.md
+++ b/docs/features/sleep_mode.md
@@ -13,6 +13,9 @@ Key benefits:
 !!! note
     This feature is only supported on CUDA platform.
 
+!!! note
+    For more information, see this [Blog Post](https://blog.vllm.ai/2025/10/26/sleep-mode.html).
+
 ## Sleep levels
 
 Level 1 sleep will offload the model weights and discard the KV cache. The content of KV cache is forgotten. Level 1 sleep is good for sleeping and waking up the engine to run the same model again. The model weights are backed up in CPU memory. Please make sure there's enough CPU memory to store the model weights. Level 2 sleep will discard both the model weights and the KV cache (while the model's buffers are kept in CPU, like rope scaling tensors). The content of both the model weights and KV cache is forgotten. Level 2 sleep is good for sleeping and waking up the engine to run a different model or update the model, where previous model weights are not needed, e.g. RLHF weight update.
@@ -31,6 +34,7 @@ llm = LLM("Qwen/Qwen3-0.6B", enable_sleep_mode=True)
 #### Python API
 
 ```python
+# Sleep level 1
 # Put the engine to sleep (level=1: offload weights to CPU RAM, discard KV cache)
 llm.sleep(level=1)
 
@@ -38,6 +42,21 @@ llm.sleep(level=1)
 llm.wake_up()
 ```
 
+```python
+# Sleep level 2
+# Put the engine to sleep (level=2: discard both weights and KV cache)
+llm.sleep(level=2)
+
+# Reallocate weights memory only
+llm.wake_up(tags=["weights"])
+
+# Load weights in-place
+llm.collective_rpc("reload_weights")
+
+# Reallocate KV cache
+llm.wake_up(tags=["kv_cache"])
+```
+
 #### RLHF weight updates
 
 During RLHF training, vLLM allows you to selectively wake up only the model weights or the KV cache using the tags argument in wake_up(). This fine-grained control is especially useful when updating model weights: by waking up just the weights (e.g., llm.wake_up(tags=["weights"])), you avoid allocating memory for the KV cache until after the weight update is complete. This approach helps prevent GPU out-of-memory (OOM) errors, particularly with large models, by minimizing peak memory usage during weight synchronization and update operations.
@@ -69,10 +88,30 @@ VLLM_SERVER_DEV_MODE=1 vllm serve Qwen/Qwen3-0.6B \
   --port 8000
 ```
 
+Below is an example of how to sleep and wake up a model in level 1.
+
+```bash
+curl -X POST 'http://localhost:8000/sleep?level=1'
+curl -X POST 'http://localhost:8000/wake_up'
+```
+
+And this is an example of how to sleep and wake up a model in level 2.
+
+```bash
+curl -X POST 'http://localhost:8000/sleep?level=2'
+# Reallocate weights memory only
+curl -X POST 'http://localhost:8000/wake_up?tags=weights'
+# Load weights in-place
+curl -X POST 'http://localhost:8000/collective_rpc' -H 'Content-Type: application/json' -d '{"method":"reload_weights"}'
+# Reallocate KV cache
+curl -X POST 'http://localhost:8000/wake_up?tags=kv_cache'
+```
+
 #### HTTP endpoints
 
 - `POST /sleep?level=1` — Put the model to sleep (`level=1`).
 - `POST /wake_up` — Wake up the model. Supports optional `tags` query parameters for partial wake-up (e.g., `?tags=weights`).
+- `POST /collective_rpc` — Perform a collective remote procedure call (RPC).
 - `GET /is_sleeping` — Check if the model is sleeping.
 
 !!! note

From cc079763c59adb8c03305663a5b8857ba85deb1b Mon Sep 17 00:00:00 2001
From: David Ben-David <sdavidbd@gmail.com>
Date: Tue, 11 Nov 2025 09:39:36 +0200
Subject: [PATCH 301/976] [BugFix] Avoid calling KV connector layer APIs when
 metadata is unset (#28253)

Signed-off-by: David Ben-David <davidb@pliops.com>
Co-authored-by: David Ben-David <davidb@pliops.com>
Co-authored-by: Mark McLoughlin <markmc@redhat.com>
---
 vllm/attention/layer.py                                  | 4 ++++
 vllm/distributed/kv_transfer/kv_connector/v1/base.py     | 9 ++++++++-
 .../kv_transfer/kv_connector/v1/multi_connector.py       | 6 ++++++
 3 files changed, 18 insertions(+), 1 deletion(-)

diff --git a/vllm/attention/layer.py b/vllm/attention/layer.py
index 96272981692c0..acab0529f3520 100644
--- a/vllm/attention/layer.py
+++ b/vllm/attention/layer.py
@@ -837,6 +837,8 @@ def wait_for_kv_layer_from_connector(layer_name: str):
         return
 
     connector = get_kv_transfer_group()
+    if not connector.has_connector_metadata():
+        return
 
     forward_context: ForwardContext = get_forward_context()
     attn_metadata = forward_context.attn_metadata
@@ -854,6 +856,8 @@ def maybe_save_kv_layer_to_connector(
         return
 
     connector = get_kv_transfer_group()
+    if not connector.has_connector_metadata():
+        return
 
     forward_context: ForwardContext = get_forward_context()
     attn_metadata = forward_context.attn_metadata
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/base.py b/vllm/distributed/kv_transfer/kv_connector/v1/base.py
index 354aa9a87183d..f85eb414b2222 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/base.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/base.py
@@ -204,11 +204,18 @@ class KVConnectorBase_V1(ABC):
         Returns:
             ConnectorMetadata: the connector metadata.
         """
-
         # Should only be called while set to valid metadata.
         assert self._connector_metadata is not None
         return self._connector_metadata
 
+    def has_connector_metadata(self) -> bool:
+        """Check whether the connector metadata is currently set.
+
+        Returns:
+            bool: True if connector metadata exists, False otherwise.
+        """
+        return self._connector_metadata is not None
+
     def register_kv_caches(self, kv_caches: dict[str, torch.Tensor]):
         """
         Initialize with the KV caches. Useful for pre-registering the
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/multi_connector.py b/vllm/distributed/kv_transfer/kv_connector/v1/multi_connector.py
index d7bbf02c83677..c9d08e9b78ed0 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/multi_connector.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/multi_connector.py
@@ -171,16 +171,22 @@ class MultiConnector(KVConnectorBase_V1):
     # We must override the base class method here because we need to bind
     # the metadata to each connector in the order of the connectors in the
     # MultiKVConnectorMetadata.
+    #
+    # Note: Call the base class method to ensure metadata is also set on the
+    # MultiConnector instance itself; otherwise, `has_connector_metadata()` will
+    # always return False.
     def bind_connector_metadata(self, connector_metadata: KVConnectorMetadata) -> None:
         assert isinstance(connector_metadata, MultiKVConnectorMetadata)
         if connector_metadata.extra_async_saves:
             self._extra_async_saves.update(connector_metadata.extra_async_saves)
         for c, cm in zip(self._connectors, connector_metadata.metadata):
             c.bind_connector_metadata(cm)
+        super().bind_connector_metadata(connector_metadata)
 
     def clear_connector_metadata(self) -> None:
         for c in self._connectors:
             c.clear_connector_metadata()
+        super().clear_connector_metadata()
 
     def shutdown(self):
         exception: Exception | None = None

From 4fd4b743a23cc6ccbd832f11be12317a8c2f0fbc Mon Sep 17 00:00:00 2001
From: Roger Wang <hey@rogerw.io>
Date: Tue, 11 Nov 2025 00:07:24 -0800
Subject: [PATCH 302/976] [Bugfix] Fix max image size for PaddleOCR-VL (#28442)

Signed-off-by: Roger Wang <hey@rogerw.io>
---
 vllm/model_executor/models/paddleocr_vl.py | 36 +++++++++++++---------
 1 file changed, 21 insertions(+), 15 deletions(-)

diff --git a/vllm/model_executor/models/paddleocr_vl.py b/vllm/model_executor/models/paddleocr_vl.py
index 631475c964c0b..12ae15699e7d2 100644
--- a/vllm/model_executor/models/paddleocr_vl.py
+++ b/vllm/model_executor/models/paddleocr_vl.py
@@ -198,23 +198,18 @@ class PaddleOCRVLProcessingInfo(BaseProcessingInfo):
         if image_processor is None:
             image_processor = self.get_image_processor()
 
-        do_resize = True
         hf_config = self.get_hf_config()
         vision_config = hf_config.vision_config
         patch_size = vision_config.patch_size
         merge_size = vision_config.spatial_merge_size
-
-        if do_resize:
-            resized_height, resized_width = smart_resize(
-                height=image_height,
-                width=image_width,
-                factor=patch_size * merge_size,
-                min_pixels=image_processor.min_pixels,
-                max_pixels=image_processor.max_pixels,
-            )
-            preprocessed_size = ImageSize(width=resized_width, height=resized_height)
-        else:
-            preprocessed_size = ImageSize(width=image_width, height=image_height)
+        resized_height, resized_width = smart_resize(
+            height=image_height,
+            width=image_width,
+            factor=patch_size * merge_size,
+            min_pixels=image_processor.min_pixels,
+            max_pixels=image_processor.max_pixels,
+        )
+        preprocessed_size = ImageSize(width=resized_width, height=resized_height)
 
         grid_t = 1
         grid_h = preprocessed_size.height // patch_size
@@ -227,8 +222,19 @@ class PaddleOCRVLProcessingInfo(BaseProcessingInfo):
 
     def get_image_size_with_most_features(self) -> ImageSize:
         hf_config = self.get_hf_config()
-        image_size = hf_config.vision_config.image_size
-        return ImageSize(height=image_size, width=image_size)
+
+        # See `smart_resize` for the calculation of the image size.
+        merge_size = hf_config.vision_config.spatial_merge_size
+        patch_size = hf_config.vision_config.patch_size
+        factor = merge_size * patch_size
+        max_num_tokens = self.get_image_processor().max_pixels // (factor**2)
+        # Find factors of max_num_tokens close to its square root
+        # to create a dummy image with a reasonable aspect ratio.
+        h_patches = int(math.sqrt(max_num_tokens))
+        while max_num_tokens % h_patches != 0:
+            h_patches -= 1
+        w_patches = max_num_tokens // h_patches
+        return ImageSize(height=h_patches * factor, width=w_patches * factor)
 
 
 class PaddleOCRVLDummyInputsBuilder(BaseDummyInputsBuilder[PaddleOCRVLProcessingInfo]):

From 798c7bebca5e3ea48b947af4cc7904a4507ba873 Mon Sep 17 00:00:00 2001
From: Sage Moore <sage@neuralmagic.com>
Date: Tue, 11 Nov 2025 00:19:51 -0800
Subject: [PATCH 303/976] [EPLB] Refactor balance_packing to use numpy and
 optimize GPU-CPU transfers in EPLB (#28369)

Signed-off-by: Sage Moore <sage@neuralmagic.com>
---
 vllm/distributed/eplb/rebalance_algo.py    | 40 +++++++++++++++-------
 vllm/distributed/eplb/rebalance_execute.py | 14 +++++---
 2 files changed, 37 insertions(+), 17 deletions(-)

diff --git a/vllm/distributed/eplb/rebalance_algo.py b/vllm/distributed/eplb/rebalance_algo.py
index c9d30d6481ab6..e6645e524cc3e 100644
--- a/vllm/distributed/eplb/rebalance_algo.py
+++ b/vllm/distributed/eplb/rebalance_algo.py
@@ -12,6 +12,7 @@ Please find at [#12](https://github.com/deepseek-ai/EPLB/issues/12) an example
 on how the EPLB algorithm works.
 """
 
+import numpy as np
 import torch
 
 
@@ -34,29 +35,44 @@ def balanced_packing(
     assert num_groups % num_packs == 0
     groups_per_pack = num_groups // num_packs
 
+    device = weight.device
+
     if groups_per_pack == 1:
         pack_index = torch.arange(
-            weight.size(-1), dtype=torch.int64, device=weight.device
+            weight.size(-1), dtype=torch.int64, device=device
         ).expand(weight.shape)
-        rank_in_pack = torch.zeros_like(weight, dtype=torch.int64)
+        rank_in_pack = torch.zeros_like(weight, dtype=torch.int64, device=device)
         return pack_index, rank_in_pack
 
-    indices = weight.float().sort(-1, descending=True).indices.cpu()
-    pack_index = torch.full_like(weight, fill_value=-1, dtype=torch.int64, device="cpu")
-    rank_in_pack = torch.full_like(pack_index, fill_value=-1)
+    weight_np = weight.cpu().numpy()
+
+    # Sort and get indices in decending order
+    indices_np = np.argsort(-weight_np, axis=-1)
+
+    pack_index_np = np.full((num_layers, num_groups), -1, dtype=np.int64)
+    rank_in_pack_np = np.full((num_layers, num_groups), -1, dtype=np.int64)
+
+    # Run the packing algorithm
     for i in range(num_layers):
-        pack_weights = [0] * num_packs
+        pack_weights = [0.0] * num_packs
         pack_items = [0] * num_packs
-        for group in indices[i]:
+
+        for group in indices_np[i]:
+            # Find a pack with capacity that has the lowest weight
             pack = min(
-                (i for i in range(num_packs) if pack_items[i] < groups_per_pack),
+                (j for j in range(num_packs) if pack_items[j] < groups_per_pack),
                 key=pack_weights.__getitem__,
             )
+
             assert pack_items[pack] < groups_per_pack
-            pack_index[i, group] = pack
-            rank_in_pack[i, group] = pack_items[pack]
-            pack_weights[pack] += weight[i, group]
+            pack_index_np[i, group] = pack
+            rank_in_pack_np[i, group] = pack_items[pack]
+            pack_weights[pack] += weight_np[i, group]
             pack_items[pack] += 1
+
+    pack_index = torch.from_numpy(pack_index_np).to(device)
+    rank_in_pack = torch.from_numpy(rank_in_pack_np).to(device)
+
     return pack_index, rank_in_pack
 
 
@@ -212,7 +228,7 @@ def rebalance_experts(
             replicas for each logical expert
     """
     num_layers, num_logical_experts = weight.shape
-    weight = weight.float().cpu()
+    weight = weight.float()
     if num_groups % num_nodes == 0:
         # use hierarchical load-balance policy
         phy2log, phyrank, logcnt = rebalance_experts_hierarchical(
diff --git a/vllm/distributed/eplb/rebalance_execute.py b/vllm/distributed/eplb/rebalance_execute.py
index f8ec3e956401a..5c1efbaf03bab 100644
--- a/vllm/distributed/eplb/rebalance_execute.py
+++ b/vllm/distributed/eplb/rebalance_execute.py
@@ -321,15 +321,19 @@ def rearrange_expert_weights_inplace(
             )
         return
 
+    old_global_expert_indices_cpu = old_global_expert_indices.cpu()
+    new_global_expert_indices_cpu = new_global_expert_indices.cpu()
+
+    # NOTE(bowen): We need this synchronize to run, but I don't know why.
+    # If you figure out the reason, please let me know -- thank you!
+    torch.cuda.synchronize()
+
     for layer in range(num_moe_layers):
-        # NOTE(bowen): We need this synchronize to run, but I don't know why.
-        # If you figure out the reason, please let me know -- thank you!
-        torch.cuda.synchronize()
         shuffle_layer(
             num_local_physical_experts,
             ep_rank,
-            old_global_expert_indices[layer].tolist(),
-            new_global_expert_indices[layer].tolist(),
+            old_global_expert_indices_cpu[layer].tolist(),
+            new_global_expert_indices_cpu[layer].tolist(),
             expert_weights[layer],
             expert_weights_buffer,
             ep_group,

From f0359fffa434a4fce981389f9dff93a2a4c2b13e Mon Sep 17 00:00:00 2001
From: Jiangyun Zhu <riverclouds.zhu@qq.com>
Date: Tue, 11 Nov 2025 16:24:28 +0800
Subject: [PATCH 304/976] [Bugfix] fix qwen3-next crash (#28202)

Signed-off-by: zjy0516 <riverclouds.zhu@qq.com>
---
 vllm/model_executor/models/qwen3_next.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/model_executor/models/qwen3_next.py b/vllm/model_executor/models/qwen3_next.py
index aa7de5aa5f29c..ddb8693c16e23 100644
--- a/vllm/model_executor/models/qwen3_next.py
+++ b/vllm/model_executor/models/qwen3_next.py
@@ -587,7 +587,7 @@ class Qwen3NextGatedDeltaNet(nn.Module, MambaBase):
                 self.conv1d.bias,
                 self.activation,
                 conv_state_indices=non_spec_state_indices_tensor[
-                    : attn_metadata.num_decodes
+                    : attn_metadata.num_actual_tokens
                 ],
                 validate_data=True,
             )

From c7991269dd8fe86096a3eee5040e855801ae9665 Mon Sep 17 00:00:00 2001
From: Fanli Lin <fanli.lin@intel.com>
Date: Tue, 11 Nov 2025 16:45:38 +0800
Subject: [PATCH 305/976] [BugFix] 'DeepseekV2Config' object has no attribute
 'use_mla'`  (#28387)

Signed-off-by: Lin, Fanli <fanli.lin@intel.com>
---
 vllm/model_executor/models/kimi_vl.py | 6 +++++-
 1 file changed, 5 insertions(+), 1 deletion(-)

diff --git a/vllm/model_executor/models/kimi_vl.py b/vllm/model_executor/models/kimi_vl.py
index b54f53931d714..b79bdf8595ca9 100644
--- a/vllm/model_executor/models/kimi_vl.py
+++ b/vllm/model_executor/models/kimi_vl.py
@@ -456,7 +456,11 @@ class KimiVLForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsPP):
             (".gate_up_proj", ".gate_proj", 0),
             (".gate_up_proj", ".up_proj", 1),
         ]
-        if not config.use_mla:
+        use_mha = (
+            config.model_type == "deepseek"
+            or config.qk_nope_head_dim + config.qk_rope_head_dim == 0
+        )
+        if use_mha:
             stacked_params_mapping += [
                 (".qkv_proj", ".q_proj", "q"),
                 (".qkv_proj", ".k_proj", "k"),

From 9973e6e04ad3e4a6c74c51a2dc87b2d3ddc4837f Mon Sep 17 00:00:00 2001
From: Lukas Geiger <lukas.geiger94@gmail.com>
Date: Tue, 11 Nov 2025 10:35:10 +0000
Subject: [PATCH 306/976] [Model][Qwen3VL] Slighly speedup
 `fast_pos_embed_interpolate` (#28434)

Signed-off-by: Lukas Geiger <lukas.geiger94@gmail.com>
---
 vllm/model_executor/models/qwen3_vl.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/vllm/model_executor/models/qwen3_vl.py b/vllm/model_executor/models/qwen3_vl.py
index fe0124ef3258b..1cd34bf54a35f 100644
--- a/vllm/model_executor/models/qwen3_vl.py
+++ b/vllm/model_executor/models/qwen3_vl.py
@@ -491,8 +491,8 @@ class Qwen3_VisionTransformer(nn.Module):
             weights = weights.to(dtype=self.dtype)
 
             embeds = self.pos_embed(indices)
-            weighted_embeds = embeds * weights
-            combined = weighted_embeds.sum(dim=0)
+            embeds *= weights
+            combined = embeds.sum(dim=0)
 
             combined = combined.reshape(
                 h // m_size, m_size, w // m_size, m_size, hidden_dim

From d381eb967f171ea8824357075b15bf2895619609 Mon Sep 17 00:00:00 2001
From: Ido Segev <segevido@gmail.com>
Date: Tue, 11 Nov 2025 13:06:04 +0200
Subject: [PATCH 307/976] Multi turn benchmark progress bar for synthetic
 conversation generation (#28394)

Signed-off-by: Ido Segev <idos@pliops.com>
---
 benchmarks/multi_turn/bench_dataset.py | 18 +++++++++++++++---
 benchmarks/multi_turn/requirements.txt |  3 ++-
 2 files changed, 17 insertions(+), 4 deletions(-)

diff --git a/benchmarks/multi_turn/bench_dataset.py b/benchmarks/multi_turn/bench_dataset.py
index 2674899d1cc56..8cb8a2f386a97 100644
--- a/benchmarks/multi_turn/bench_dataset.py
+++ b/benchmarks/multi_turn/bench_dataset.py
@@ -11,6 +11,7 @@ from bench_utils import (
     Color,
     logger,
 )
+from tqdm import tqdm
 from transformers import AutoTokenizer  # type: ignore
 
 # Conversation ID is a string (e.g: "UzTK34D")
@@ -417,6 +418,10 @@ def generate_conversations(
             data = file.read()
             tokens_in_file = tokenizer.encode(data, add_special_tokens=False)
             list_of_tokens.extend(tokens_in_file)
+        logger.info(
+            f"Loaded {len(tokens_in_file)} tokens from file {filename}, "
+            f"total tokens so far: {len(list_of_tokens)}"
+        )
 
     conversations: ConversationsMap = {}
     conv_id = 0
@@ -449,18 +454,25 @@ def generate_conversations(
         )
         base_offset += common_prefix_tokens
 
-    for conv_id in range(args.num_conversations):
+    for conv_id in tqdm(
+        range(args.num_conversations),
+        total=args.num_conversations,
+        desc="Generating conversations",
+        unit="conv",
+    ):
         # Generate a single conversation
         messages: MessagesList = []
 
         nturns = turn_count[conv_id]
 
         # User prompt token count per turn (with lower limit)
-        input_token_count: np.ndarray = args.input_num_tokens.sample(nturns)
+        input_token_count: np.ndarray = args.input_num_tokens.sample(nturns).astype(int)
         input_token_count = np.maximum(input_token_count, base_prompt_token_count)
 
         # Assistant answer token count per turn (with lower limit)
-        output_token_count: np.ndarray = args.output_num_tokens.sample(nturns)
+        output_token_count: np.ndarray = args.output_num_tokens.sample(nturns).astype(
+            int
+        )
         output_token_count = np.maximum(output_token_count, 1)
 
         user_turn = True
diff --git a/benchmarks/multi_turn/requirements.txt b/benchmarks/multi_turn/requirements.txt
index f0e1935914a14..bae656a5c5c4b 100644
--- a/benchmarks/multi_turn/requirements.txt
+++ b/benchmarks/multi_turn/requirements.txt
@@ -2,4 +2,5 @@ numpy>=1.24
 pandas>=2.0.0
 aiohttp>=3.10
 transformers>=4.46
-xlsxwriter>=3.2.1
\ No newline at end of file
+xlsxwriter>=3.2.1
+tqdm>=4.66

From 2e78150d24e339bf6420a623cdae655051127d8f Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Tue, 11 Nov 2025 05:28:28 -0700
Subject: [PATCH 308/976] [CI] Add mergify rules for `nvidia` label (#28417)

Signed-off-by: mgoin <mgoin64@gmail.com>
---
 .github/mergify.yml | 17 +++++++++++++++++
 1 file changed, 17 insertions(+)

diff --git a/.github/mergify.yml b/.github/mergify.yml
index 18d4a2e83144b..997a40e18e588 100644
--- a/.github/mergify.yml
+++ b/.github/mergify.yml
@@ -151,6 +151,23 @@ pull_request_rules:
       add:
         - gpt-oss
 
+- name: label-nvidia
+  description: Automatically apply nvidia label
+  conditions:
+    - label != stale
+    - or:
+      - files~=cuda
+      - files~=cutlass
+      - files~=flashinfer
+      - files~=trtllm
+      - title~=(?i)NVIDIA
+      - title~=(?i)CUDA
+      - title~=(?i)CUTLASS
+  actions:
+    label:
+      add:
+        - nvidia
+
 - name: label-rocm
   description: Automatically apply rocm label
   conditions:

From b30dfa03c564ce51c56bf2dd16283f074253c27c Mon Sep 17 00:00:00 2001
From: Matthew Bonanni <mbonanni@redhat.com>
Date: Tue, 11 Nov 2025 06:40:44 -0600
Subject: [PATCH 309/976] [Attention] Refactor CUDA attention backend selection
 logic (#24794)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>
Signed-off-by: Matthew Bonanni <mbonanni001@gmail.com>
Co-authored-by: Luka Govedič <ProExpertProg@users.noreply.github.com>
---
 .buildkite/test-pipeline.yaml                 |   5 +
 tests/compile/test_fusion_attn.py             |  31 +-
 tests/compile/test_fusions_e2e.py             |  24 +-
 tests/config/test_multimodal_config.py        |   6 +-
 .../attention/test_attention_selector.py      |  77 ++--
 tests/kernels/attention/test_mha_attn.py      |  12 +-
 tests/models/test_initialization.py           |  11 +
 tests/v1/attention/test_attention_backends.py |  47 ++-
 tests/v1/attention/test_mla_backends.py       |  29 +-
 tests/v1/attention/utils.py                   |  10 +-
 tests/v1/spec_decode/test_eagle.py            |  18 +-
 tests/v1/spec_decode/test_mtp.py              |   6 +-
 tests/v1/spec_decode/test_tree_attention.py   |   8 +-
 tests/v1/worker/test_gpu_model_runner.py      |  25 +-
 vllm/attention/backends/abstract.py           | 149 ++++++-
 vllm/attention/backends/registry.py           | 256 ++++++++----
 vllm/attention/layer.py                       |  68 ++--
 vllm/attention/selector.py                    | 124 +++---
 vllm/config/cache.py                          |  10 +-
 vllm/config/model.py                          |   8 +-
 vllm/config/multimodal.py                     |  32 +-
 .../kv_connector/v1/nixl_connector.py         |   8 +-
 vllm/engine/arg_utils.py                      |   4 +-
 vllm/envs.py                                  |   6 +-
 vllm/model_executor/models/dots_ocr.py        |  37 +-
 vllm/model_executor/models/ernie45_vl.py      |  37 +-
 vllm/model_executor/models/glm4_1v.py         |  35 +-
 vllm/model_executor/models/keye.py            |  24 +-
 vllm/model_executor/models/ovis2_5.py         |   6 +-
 vllm/model_executor/models/paddleocr_vl.py    |  47 +--
 vllm/model_executor/models/qwen2_5_vl.py      |  42 +-
 vllm/model_executor/models/qwen2_vl.py        |  38 +-
 .../models/qwen3_omni_moe_thinker.py          |  15 +-
 vllm/model_executor/models/qwen3_vl.py        |  26 +-
 vllm/model_executor/models/siglip2navit.py    |  26 +-
 vllm/model_executor/models/vision.py          |   8 +-
 vllm/platforms/cpu.py                         |  12 +-
 vllm/platforms/cuda.py                        | 366 +++++++++---------
 vllm/platforms/interface.py                   |  42 +-
 vllm/platforms/rocm.py                        |  49 ++-
 vllm/platforms/tpu.py                         |  15 +-
 vllm/platforms/xpu.py                         |  34 +-
 vllm/v1/attention/backends/cpu_attn.py        |  32 +-
 vllm/v1/attention/backends/flash_attn.py      |  71 ++--
 vllm/v1/attention/backends/flashinfer.py      |  63 +--
 vllm/v1/attention/backends/flex_attention.py  |  21 +-
 vllm/v1/attention/backends/mla/common.py      |  22 +-
 vllm/v1/attention/backends/mla/cutlass_mla.py |  16 +-
 .../attention/backends/mla/flashattn_mla.py   |  27 ++
 .../attention/backends/mla/flashinfer_mla.py  |  26 +-
 vllm/v1/attention/backends/mla/flashmla.py    |  37 +-
 .../attention/backends/mla/flashmla_sparse.py |  30 +-
 vllm/v1/attention/backends/mla/indexer.py     |   6 +-
 vllm/v1/attention/backends/mla/triton_mla.py  |  10 +
 vllm/v1/attention/backends/rocm_aiter_fa.py   |  25 +-
 vllm/v1/attention/backends/rocm_attn.py       |  10 +-
 vllm/v1/attention/backends/tree_attn.py       |  26 +-
 vllm/v1/attention/backends/triton_attn.py     |  47 ++-
 vllm/v1/attention/backends/xformers.py        |  26 +-
 vllm/v1/spec_decode/eagle.py                  |   8 +-
 vllm/v1/worker/gpu_model_runner.py            |   4 +-
 61 files changed, 1338 insertions(+), 1002 deletions(-)

diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index a0d2076199b14..83a7df3b093fc 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -890,11 +890,16 @@ steps:
   - vllm/model_executor/layers/fused_moe/flashinfer_cutlass_prepare_finalize.py
   - vllm/model_executor/layers/quantization/utils/flashinfer_utils.py
   - vllm/v1/attention/backends/flashinfer.py
+  - vllm/v1/attention/backends/mla/cutlass_mla.py
+  - vllm/v1/attention/backends/mla/flashinfer_mla.py
+  - vllm/platforms/cuda.py
+  - vllm/attention/selector.py
   commands:
     - nvidia-smi
     - python3 examples/offline_inference/basic/chat.py
     # Attention
     # num_heads2 broken by https://github.com/flashinfer-ai/flashinfer/issues/1353
+    - pytest -v -s tests/kernels/attention/test_attention_selector.py
     - pytest -v -s tests/kernels/attention/test_flashinfer.py -k 'not num_heads2'
     - pytest -v -s tests/kernels/attention/test_flashinfer_trtllm_attention.py
     - pytest -v -s tests/kernels/attention/test_cutlass_mla_decode.py
diff --git a/tests/compile/test_fusion_attn.py b/tests/compile/test_fusion_attn.py
index fecb1e2e918fe..ea61c94953a77 100644
--- a/tests/compile/test_fusion_attn.py
+++ b/tests/compile/test_fusion_attn.py
@@ -10,7 +10,7 @@ from tests.utils import flat_product
 from tests.v1.attention.utils import BatchSpec, create_common_attn_metadata
 from vllm._custom_ops import cutlass_scaled_fp4_mm, scaled_fp4_quant
 from vllm.attention import Attention, AttentionMetadata
-from vllm.attention.backends.registry import _Backend
+from vllm.attention.backends.registry import AttentionBackendEnum
 from vllm.attention.selector import global_force_attn_backend_context_manager
 from vllm.compilation.fusion_attn import ATTN_OP, AttnFusionPass
 from vllm.compilation.fx_utils import find_op_nodes
@@ -104,7 +104,7 @@ class AttentionQuantPatternModel(torch.nn.Module):
 
         # TODO(luka) use get_kv_cache_stride_order
         # Create dummy KV cache for the selected backend
-        if backend == _Backend.ROCM_ATTN:
+        if backend == AttentionBackendEnum.ROCM_ATTN:
             # k/v as 1st dimention
             # HND: [num_blocks, num_kv_heads, block_size, head_size]
             kv_cache = torch.zeros(
@@ -116,7 +116,7 @@ class AttentionQuantPatternModel(torch.nn.Module):
                 dtype=self.kv_cache_dtype,
                 device=self.device,
             )
-        elif backend == _Backend.ROCM_AITER_UNIFIED_ATTN:
+        elif backend == AttentionBackendEnum.ROCM_AITER_UNIFIED_ATTN:
             # k/v as 1st dimention
             # NHD: [num_blocks, block_size, num_kv_heads, head_size]
             kv_cache = torch.zeros(
@@ -128,7 +128,7 @@ class AttentionQuantPatternModel(torch.nn.Module):
                 dtype=self.kv_cache_dtype,
                 device=self.device,
             )
-        elif backend == _Backend.TRITON_ATTN:
+        elif backend == AttentionBackendEnum.TRITON_ATTN:
             # k/v as 2nd dimention
             # NHD: [num_blocks, block_size, num_kv_heads, head_size]
             kv_cache = torch.zeros(
@@ -140,7 +140,7 @@ class AttentionQuantPatternModel(torch.nn.Module):
                 dtype=self.kv_cache_dtype,
                 device=self.device,
             )
-        elif backend == _Backend.FLASHINFER:
+        elif backend == AttentionBackendEnum.FLASHINFER:
             kv_cache = torch.zeros(
                 num_blocks,
                 2,
@@ -244,8 +244,8 @@ MODELS_FP8: list[tuple[str, type]] = []
 MODELS_FP4: list[tuple[str, type]] = []
 HEADS: list[tuple[int, int]] = []
 SPLIT_ATTENTION: list[bool] = []
-BACKENDS_FP8: list[_Backend] = []
-BACKENDS_FP4: list[_Backend] = []
+BACKENDS_FP8: list[AttentionBackendEnum] = []
+BACKENDS_FP4: list[AttentionBackendEnum] = []
 
 if current_platform.is_cuda():
     HEADS = [(64, 8), (40, 8)]
@@ -261,8 +261,8 @@ if current_platform.is_cuda():
             TestAttentionNvfp4QuantPatternModel,
         )
     ]
-    BACKENDS_FP8 = [_Backend.TRITON_ATTN, _Backend.FLASHINFER]
-    BACKENDS_FP4 = [_Backend.FLASHINFER]
+    BACKENDS_FP8 = [AttentionBackendEnum.TRITON_ATTN, AttentionBackendEnum.FLASHINFER]
+    BACKENDS_FP4 = [AttentionBackendEnum.FLASHINFER]
 
 elif current_platform.is_rocm():
     HEADS = [(32, 8), (40, 8)]
@@ -270,9 +270,9 @@ elif current_platform.is_rocm():
         ("amd/Llama-3.1-8B-Instruct-FP8-KV", TestAttentionFp8StaticQuantPatternModel)
     ]
     BACKENDS = [
-        _Backend.ROCM_AITER_UNIFIED_ATTN,
-        _Backend.ROCM_ATTN,
-        _Backend.TRITON_ATTN,
+        AttentionBackendEnum.ROCM_AITER_UNIFIED_ATTN,
+        AttentionBackendEnum.ROCM_ATTN,
+        AttentionBackendEnum.TRITON_ATTN,
     ]
 
 
@@ -302,11 +302,11 @@ def test_attention_quant_pattern(
     custom_ops: str,
     model_name: str,
     model_class: type[AttentionQuantPatternModel],
-    backend: _Backend,
+    backend: AttentionBackendEnum,
     dist_init,
 ):
     """Test AttentionStaticQuantPattern fusion pass"""
-    if backend == _Backend.FLASHINFER and (
+    if backend == AttentionBackendEnum.FLASHINFER and (
         not current_platform.is_device_capability((10, 0)) or not has_flashinfer()
     ):
         pytest.skip("FlashInfer attn fusion requires Blackwell and flashinfer")
@@ -314,6 +314,7 @@ def test_attention_quant_pattern(
     custom_ops_list = custom_ops.split(",") if custom_ops else []
 
     device = torch.device("cuda:0")
+    torch.set_default_dtype(dtype)
     torch.manual_seed(42)
 
     vllm_config = VllmConfig(
@@ -402,7 +403,7 @@ def test_attention_quant_pattern(
 
         result_fused_1 = model_compiled(q, k, v)
 
-        if backend == _Backend.FLASHINFER:
+        if backend == AttentionBackendEnum.FLASHINFER:
             # With the Flashinfer backend after the 1st round of the forward
             # pass, output quant scale should be loaded into the attn layer's
             # _o_scale_float, the 2nd round should reuse the loaded
diff --git a/tests/compile/test_fusions_e2e.py b/tests/compile/test_fusions_e2e.py
index 4b910bc285797..f67063cdf42ea 100644
--- a/tests/compile/test_fusions_e2e.py
+++ b/tests/compile/test_fusions_e2e.py
@@ -11,7 +11,7 @@ from typing import Any, NamedTuple
 import pytest
 import regex as re
 
-from tests.v1.attention.utils import _Backend
+from tests.v1.attention.utils import AttentionBackendEnum
 from vllm import LLM, SamplingParams
 from vllm.config import CompilationConfig, CompilationMode, CUDAGraphMode, PassConfig
 from vllm.platforms import current_platform
@@ -24,7 +24,7 @@ from ..utils import flat_product, multi_gpu_test
 class ModelBackendTestCase(NamedTuple):
     model_name: str
     model_kwargs: dict[str, Any]
-    backend: _Backend
+    backend: AttentionBackendEnum
     attention_fusions: int
     allreduce_fusions: int | None = None
 
@@ -39,14 +39,14 @@ if current_platform.is_cuda():
             # Use smaller model for L40s in CI
             model_name="RedHatAI/Meta-Llama-3.1-8B-Instruct-FP8",
             model_kwargs=dict(max_model_len=1024),
-            backend=_Backend.TRITON_ATTN,
+            backend=AttentionBackendEnum.TRITON_ATTN,
             attention_fusions=32,
             allreduce_fusions=65,
         ),
         ModelBackendTestCase(
             model_name="nvidia/Llama-4-Scout-17B-16E-Instruct-FP8",
             model_kwargs=dict(max_model_len=1024, kv_cache_dtype="fp8"),
-            backend=_Backend.FLASHINFER,
+            backend=AttentionBackendEnum.FLASHINFER,
             attention_fusions=48,
             allreduce_fusions=96,
         ),
@@ -56,7 +56,7 @@ if current_platform.is_cuda():
         ModelBackendTestCase(
             model_name="nvidia/Llama-3.1-8B-Instruct-FP4",
             model_kwargs=dict(max_model_len=1024, kv_cache_dtype="fp8"),
-            backend=_Backend.FLASHINFER,
+            backend=AttentionBackendEnum.FLASHINFER,
             attention_fusions=32,
             allreduce_fusions=65,
         ),
@@ -67,7 +67,7 @@ if current_platform.is_cuda():
         ModelBackendTestCase(
             model_name="meta-llama/Llama-3.1-8B-Instruct",
             model_kwargs=dict(max_model_len=1024),
-            backend=_Backend.TRITON_ATTN,
+            backend=AttentionBackendEnum.TRITON_ATTN,
             attention_fusions=0,
             allreduce_fusions=65,
         ),
@@ -85,19 +85,19 @@ elif current_platform.is_rocm():
         ModelBackendTestCase(
             model_name="amd/Llama-3.1-8B-Instruct-FP8-KV",
             model_kwargs=dict(max_model_len=1024),
-            backend=_Backend.TRITON_ATTN,
+            backend=AttentionBackendEnum.TRITON_ATTN,
             attention_fusions=32,
         ),
         ModelBackendTestCase(
             model_name="amd/Llama-3.1-8B-Instruct-FP8-KV",
             model_kwargs=dict(max_model_len=1024),
-            backend=_Backend.ROCM_ATTN,
+            backend=AttentionBackendEnum.ROCM_ATTN,
             attention_fusions=32,
         ),
         ModelBackendTestCase(
             model_name="amd/Llama-3.1-8B-Instruct-FP8-KV",
             model_kwargs=dict(max_model_len=1024),
-            backend=_Backend.ROCM_AITER_UNIFIED_ATTN,
+            backend=AttentionBackendEnum.ROCM_AITER_UNIFIED_ATTN,
             attention_fusions=32,
         ),
     ]
@@ -117,7 +117,7 @@ CUSTOM_OPS_FP8 = ["-quant_fp8", "+quant_fp8"]
 def test_attn_quant(
     model_name: str,
     model_kwargs: dict[str, Any],
-    backend: _Backend,
+    backend: AttentionBackendEnum,
     attention_fusions: int,
     allreduce_fusions: int,
     custom_ops: str,
@@ -125,7 +125,7 @@ def test_attn_quant(
     caplog_mp_spawn,
     monkeypatch,
 ):
-    if backend == _Backend.FLASHINFER and (
+    if backend == AttentionBackendEnum.FLASHINFER and (
         not current_platform.is_device_capability((10, 0)) or not has_flashinfer()
     ):
         pytest.skip("FlashInfer attn fusion requires Blackwell and flashinfer")
@@ -208,7 +208,7 @@ def custom_ops_product(*custom_ops_lists: list[str]) -> Iterable[str]:
 def test_tp2_attn_quant_allreduce_rmsnorm(
     model_name: str,
     model_kwargs: dict,
-    backend: _Backend,
+    backend: AttentionBackendEnum,
     attention_fusions: int,
     allreduce_fusions: int,
     custom_ops: str,
diff --git a/tests/config/test_multimodal_config.py b/tests/config/test_multimodal_config.py
index b1a09d88ed9d6..3d02893e52f1e 100644
--- a/tests/config/test_multimodal_config.py
+++ b/tests/config/test_multimodal_config.py
@@ -3,13 +3,13 @@
 
 import pytest
 
-from vllm.attention.backends.registry import _Backend
+from vllm.attention.backends.registry import AttentionBackendEnum
 from vllm.config.multimodal import MultiModalConfig
 
 
 def test_mm_encoder_attn_backend_str_conversion():
     config = MultiModalConfig(mm_encoder_attn_backend="FLASH_ATTN")
-    assert config.mm_encoder_attn_backend == _Backend.FLASH_ATTN
+    assert config.mm_encoder_attn_backend == AttentionBackendEnum.FLASH_ATTN
 
 
 def test_mm_encoder_attn_backend_invalid():
@@ -20,6 +20,6 @@ def test_mm_encoder_attn_backend_invalid():
 def test_mm_encoder_attn_backend_hash_updates():
     base_hash = MultiModalConfig().compute_hash()
     overridden_hash = MultiModalConfig(
-        mm_encoder_attn_backend=_Backend.FLASH_ATTN
+        mm_encoder_attn_backend=AttentionBackendEnum.FLASH_ATTN
     ).compute_hash()
     assert base_hash != overridden_hash
diff --git a/tests/kernels/attention/test_attention_selector.py b/tests/kernels/attention/test_attention_selector.py
index 8149ce7672cdc..29cc81be12e45 100644
--- a/tests/kernels/attention/test_attention_selector.py
+++ b/tests/kernels/attention/test_attention_selector.py
@@ -120,12 +120,13 @@ def test_env(
 
         elif device == "cuda":
             with patch("vllm.platforms.current_platform", CudaPlatform()):
+                capability = torch.cuda.get_device_capability()
                 if use_mla:
                     # CUDA MLA backend logic:
                     # - CUTLASS_MLA: only supported with block_size == 128
-                    #   and Blackwell GPUs (SM 10.0), V1 only
+                    #   and Blackwell GPUs (SM 10.x), V1 only
                     # - FLASHINFER_MLA: only supported on Blackwell GPUs
-                    #   (SM 10.0+), V1 only
+                    #   (SM 10.x), V1 only
                     # - FLASHMLA: only supported with block_size == 64
                     # - FLASH_ATTN_MLA: V1 only
                     # - TRITON_MLA: fallback for other cases
@@ -134,58 +135,72 @@ def test_env(
                         if block_size != 128:
                             # CUTLASS_MLA only supports block_size == 128
                             pytest.skip("CUTLASS_MLA only supports block_size 128")
-                        else:
-                            backend = get_attn_backend(
-                                16, torch.float16, None, block_size, use_mla=use_mla
-                            )
-                            expected = "CUTLASS_MLA"
-                            assert backend.get_name() == expected
+                        if capability[0] != 10:
+                            pytest.skip("CUTLASS MLA is not supported on this platform")
+                        backend = get_attn_backend(
+                            576, torch.float16, None, block_size, use_mla=use_mla
+                        )
+                        expected = "CUTLASS_MLA"
+                        assert backend.get_name() == expected
                     elif name == "FLASHINFER_MLA":
+                        if capability[0] != 10:
+                            pytest.skip(
+                                "FlashInfer MLA is not supported on this platform"
+                            )
                         if block_size not in [32, 64]:
                             # FlashInfer MLA only supports block_size 32 or 64
                             pytest.skip(
                                 "FlashInfer MLA only supports block_size 32 or 64"
                             )
-                        else:
-                            backend = get_attn_backend(
-                                16, torch.float16, None, block_size, use_mla=use_mla
-                            )
-                            expected = "FLASHINFER_MLA"
-                            assert backend.get_name() == expected
+                        backend = get_attn_backend(
+                            576, torch.float16, None, block_size, use_mla=use_mla
+                        )
+                        expected = "FLASHINFER_MLA"
+                        assert backend.get_name() == expected
                     elif name == "FLASHMLA":
                         if block_size != 64:
                             # FlashMLA only supports block_size == 64
                             pytest.skip("FlashMLA only supports block_size 64")
-                        else:
-                            from vllm.v1.attention.backends.mla.flashmla import (
-                                is_flashmla_dense_supported,
-                            )
+                        from vllm.v1.attention.backends.mla.flashmla import (
+                            is_flashmla_dense_supported,
+                        )
 
-                            is_supported, _ = is_flashmla_dense_supported()
-                            if not is_supported:
-                                pytest.skip("FlashMLA not supported on this platform")
-                            else:
-                                backend = get_attn_backend(
-                                    16, torch.float16, None, block_size, use_mla=use_mla
-                                )
-                                expected = name
-                                assert backend.get_name() == expected
-                    elif name == "FLASH_ATTN_MLA":
+                        is_supported, _ = is_flashmla_dense_supported()
+                        if not is_supported:
+                            pytest.skip("FlashMLA not supported on this platform")
                         backend = get_attn_backend(
-                            16, torch.float16, None, block_size, use_mla=use_mla
+                            576,
+                            torch.float16,
+                            None,
+                            block_size,
+                            use_mla=use_mla,
+                        )
+                        expected = name
+                        assert backend.get_name() == expected
+                    elif name == "FLASH_ATTN_MLA":
+                        from vllm.attention.utils.fa_utils import (
+                            flash_attn_supports_mla,
+                        )
+
+                        if not flash_attn_supports_mla():
+                            pytest.skip(
+                                "FlashAttention MLA not supported on this platform"
+                            )
+                        backend = get_attn_backend(
+                            576, torch.float16, None, block_size, use_mla=use_mla
                         )
                         expected = "FLASH_ATTN_MLA"
                         assert backend.get_name() == expected
                     else:
                         # TRITON_MLA or other fallback
                         backend = get_attn_backend(
-                            16, torch.float16, None, block_size, use_mla=use_mla
+                            576, torch.float16, None, block_size, use_mla=use_mla
                         )
                         expected = "TRITON_MLA"
                         assert backend.get_name() == expected
                 elif name == "FLASHINFER":
                     backend = get_attn_backend(
-                        16, torch.float16, None, block_size, use_mla=use_mla
+                        64, torch.float16, None, block_size, use_mla=use_mla
                     )
                     expected = "FLASHINFER"
                     assert backend.get_name() == expected
diff --git a/tests/kernels/attention/test_mha_attn.py b/tests/kernels/attention/test_mha_attn.py
index 14d1618bca3c5..183bbf3bf4e03 100644
--- a/tests/kernels/attention/test_mha_attn.py
+++ b/tests/kernels/attention/test_mha_attn.py
@@ -11,7 +11,7 @@ from unittest.mock import patch
 import pytest
 import torch
 
-from vllm.attention.backends.registry import _Backend
+from vllm.attention.backends.registry import AttentionBackendEnum
 from vllm.attention.layer import MultiHeadAttention
 from vllm.attention.selector import _cached_get_attn_backend
 from vllm.platforms import current_platform
@@ -43,14 +43,14 @@ def test_mha_attn_platform(device: str):
             patch("vllm.model_executor.models.vision.current_platform", CpuPlatform()),
         ):
             attn = MultiHeadAttention(16, 64, scale=1)
-            assert attn.attn_backend == _Backend.TORCH_SDPA
+            assert attn.attn_backend == AttentionBackendEnum.TORCH_SDPA
     elif device == "hip":
         with (
             patch("vllm.attention.layer.current_platform", RocmPlatform()),
             patch("vllm.model_executor.models.vision.current_platform", RocmPlatform()),
         ):
             attn = MultiHeadAttention(16, 64, scale=1)
-            assert attn.attn_backend == _Backend.TORCH_SDPA
+            assert attn.attn_backend == AttentionBackendEnum.TORCH_SDPA
     else:
         # Test CUDA with head_size=64 (divisible by 32)
         # - should use vLLM's FlashAttention
@@ -59,7 +59,7 @@ def test_mha_attn_platform(device: str):
             patch("vllm.model_executor.models.vision.current_platform", CudaPlatform()),
         ):
             attn = MultiHeadAttention(16, 64, scale=1)
-            assert attn.attn_backend == _Backend.FLASH_ATTN
+            assert attn.attn_backend == AttentionBackendEnum.FLASH_ATTN
 
         # Test CUDA with head_size=72 (not divisible by 32)
         # - with upstream FA not available
@@ -73,7 +73,7 @@ def test_mha_attn_platform(device: str):
             ),
         ):
             attn = MultiHeadAttention(16, 72, scale=1)
-            assert attn.attn_backend == _Backend.XFORMERS
+            assert attn.attn_backend == AttentionBackendEnum.XFORMERS
 
         # Test CUDA with head_size=72 (not divisible by 32)
         # - with upstream FA available
@@ -96,7 +96,7 @@ def test_mha_attn_platform(device: str):
             ),
         ):
             attn = MultiHeadAttention(16, 72, scale=1)
-            assert attn.attn_backend == _Backend.FLASH_ATTN
+            assert attn.attn_backend == AttentionBackendEnum.FLASH_ATTN
 
 
 def ref_attention(
diff --git a/tests/models/test_initialization.py b/tests/models/test_initialization.py
index 48a6f34366cff..8c4bd6eaa2dd8 100644
--- a/tests/models/test_initialization.py
+++ b/tests/models/test_initialization.py
@@ -93,6 +93,17 @@ def can_initialize(
             "pickle error when loading `transformers.models.auto.CONFIG_MAPPING`"
         )
 
+    if model_arch == "DeepseekV32ForCausalLM":
+        from vllm.platforms import current_platform
+
+        capability = current_platform.get_device_capability()
+        if capability and capability.major < 9:
+            pytest.skip(
+                f"DeepseekV32 requires Hopper (9.0+) or Blackwell (10.0+) "
+                f"for FLASHMLA_SPARSE backend. Current device has compute "
+                f"capability {capability.major}.{capability.minor}"
+            )
+
     with (
         patch.object(V1EngineCore, "_initialize_kv_caches", _initialize_kv_caches_v1),
         monkeypatch.context() as m,
diff --git a/tests/v1/attention/test_attention_backends.py b/tests/v1/attention/test_attention_backends.py
index 08aeb6f298f61..b46002c5fa8ff 100644
--- a/tests/v1/attention/test_attention_backends.py
+++ b/tests/v1/attention/test_attention_backends.py
@@ -15,7 +15,7 @@ from tests.v1.attention.utils import (
     create_vllm_config,
     try_get_attention_backend,
 )
-from vllm.attention.backends.registry import _Backend
+from vllm.attention.backends.registry import AttentionBackendEnum
 from vllm.config import ModelConfig
 from vllm.platforms import current_platform
 from vllm.utils.math_utils import cdiv
@@ -27,11 +27,11 @@ from vllm.v1.attention.backends.utils import (
 from vllm.v1.kv_cache_interface import FullAttentionSpec
 
 BACKENDS_TO_TEST = [
-    _Backend.FLASH_ATTN,
-    _Backend.FLASHINFER,
-    _Backend.FLEX_ATTENTION,
-    _Backend.TRITON_ATTN,
-    _Backend.TREE_ATTN,
+    AttentionBackendEnum.FLASH_ATTN,
+    AttentionBackendEnum.FLASHINFER,
+    AttentionBackendEnum.FLEX_ATTENTION,
+    AttentionBackendEnum.TRITON_ATTN,
+    AttentionBackendEnum.TREE_ATTN,
     "FLEX_ATTENTION_SLOW",
 ]
 
@@ -39,7 +39,7 @@ BACKENDS_TO_TEST = [
 try:
     import flashinfer  # noqa: F401
 except ImportError:
-    BACKENDS_TO_TEST.remove(_Backend.FLASHINFER)
+    BACKENDS_TO_TEST.remove(AttentionBackendEnum.FLASHINFER)
 
 
 def _convert_dtype_to_torch(dtype):
@@ -192,7 +192,7 @@ class MockAttentionLayer:
 
 
 def run_attention_backend(
-    backend: _Backend,
+    backend: AttentionBackendEnum,
     kv_cache_spec: FullAttentionSpec,
     layer_names: list[str],
     vllm_config,
@@ -211,13 +211,13 @@ def run_attention_backend(
 
     use_direct_block_mask = is_torch_equal_or_newer("2.9.0.dev0")
     if backend == "FLEX_ATTENTION_SLOW":
-        actual_backend = _Backend.FLEX_ATTENTION
+        actual_backend = AttentionBackendEnum.FLEX_ATTENTION
         use_direct_block_mask = False
 
     builder_cls, impl_cls = try_get_attention_backend(actual_backend)
 
     # Mock flashinfer's get_per_layer_parameters if needed
-    if actual_backend == _Backend.FLASHINFER:
+    if actual_backend == AttentionBackendEnum.FLASHINFER:
         import unittest.mock
 
         from vllm.v1.attention.backends.utils import PerLayerParameters
@@ -246,7 +246,7 @@ def run_attention_backend(
     else:
         # Build metadata
         builder = builder_cls(kv_cache_spec, layer_names, vllm_config, device)
-        if actual_backend == _Backend.FLEX_ATTENTION:
+        if actual_backend == AttentionBackendEnum.FLEX_ATTENTION:
             builder.direct_build = use_direct_block_mask
         attn_metadata = builder.build(
             common_prefix_len=0,
@@ -289,7 +289,7 @@ def run_attention_backend(
 def _test_backend_correctness(
     batch_spec: BatchSpec,
     model: str,
-    backend_to_test: list[_Backend | str],
+    backend_to_test: list[AttentionBackendEnum | str],
     mask_mod,
     *,
     block_size: int = 16,
@@ -455,17 +455,20 @@ def _test_backend_correctness(
         # Select the appropriate KV cache format for each backend
         kv_cache_for_backend = kv_cache
         reset_kv_cache_layout = False
-        if backend_name in (_Backend.FLASHINFER, _Backend.TRITON_ATTN):
+        if backend_name in (
+            AttentionBackendEnum.FLASHINFER,
+            AttentionBackendEnum.TRITON_ATTN,
+        ):
             kv_cache_for_backend = kv_cache.transpose(0, 1)
 
-        if backend_name == _Backend.FLASHINFER:
+        if backend_name == AttentionBackendEnum.FLASHINFER:
             # For FlashInfer default to HND layout and
             kv_cache_for_backend = (
                 kv_cache_for_backend.transpose(2, 3).contiguous().transpose(2, 3)
             )
             set_kv_cache_layout("HND")
             reset_kv_cache_layout = True
-        elif backend_name == _Backend.TRITON_ATTN:
+        elif backend_name == AttentionBackendEnum.TRITON_ATTN:
             kv_cache_for_backend = kv_cache_for_backend.contiguous()
 
         try:
@@ -547,7 +550,9 @@ def test_causal_backend_correctness(
 
     batch_spec = BATCH_SPECS[batch_spec_name]
     LARGE_BLOCK_BACKENDS = (
-        [_Backend.FLEX_ATTENTION] if is_torch_equal_or_newer("2.9.0.dev0") else []
+        [AttentionBackendEnum.FLEX_ATTENTION]
+        if is_torch_equal_or_newer("2.9.0.dev0")
+        else []
     )
     SMALL_BLOCK_BACKENDS = [
         x for x in BACKENDS_TO_TEST if x not in LARGE_BLOCK_BACKENDS
@@ -573,9 +578,9 @@ def test_causal_backend_correctness(
 
 
 SLIDING_WINDOW_BACKENDS_TO_TEST = [
-    _Backend.FLASH_ATTN,
-    _Backend.FLEX_ATTENTION,
-    _Backend.TRITON_ATTN,
+    AttentionBackendEnum.FLASH_ATTN,
+    AttentionBackendEnum.FLEX_ATTENTION,
+    AttentionBackendEnum.TRITON_ATTN,
     "FLEX_ATTENTION_SLOW",
 ]
 
@@ -612,7 +617,9 @@ def test_sliding_window_backend_correctness(
     )
 
     LARGE_BLOCK_BACKENDS = (
-        [_Backend.FLEX_ATTENTION] if is_torch_equal_or_newer("2.9.0.dev0") else []
+        [AttentionBackendEnum.FLEX_ATTENTION]
+        if is_torch_equal_or_newer("2.9.0.dev0")
+        else []
     )
     SMALL_BLOCK_BACKENDS = [
         x for x in SLIDING_WINDOW_BACKENDS_TO_TEST if x not in LARGE_BLOCK_BACKENDS
diff --git a/tests/v1/attention/test_mla_backends.py b/tests/v1/attention/test_mla_backends.py
index 5679fafe63ee8..1bd05e6183dc2 100644
--- a/tests/v1/attention/test_mla_backends.py
+++ b/tests/v1/attention/test_mla_backends.py
@@ -18,12 +18,11 @@ from tests.v1.attention.utils import (
     try_get_attention_backend,
 )
 from vllm import _custom_ops as ops
-from vllm.attention.backends.registry import _Backend, backend_to_class_str
+from vllm.attention.backends.registry import AttentionBackendEnum
 from vllm.attention.ops.flashmla import is_flashmla_dense_supported
 from vllm.attention.utils.fa_utils import flash_attn_supports_mla
 from vllm.config.vllm import set_current_vllm_config
 from vllm.model_executor.layers.attention_layer_base import AttentionLayerBase
-from vllm.utils.import_utils import resolve_obj_by_qualname
 from vllm.utils.math_utils import cdiv
 from vllm.utils.torch_utils import STR_DTYPE_TO_TORCH_DTYPE
 from vllm.v1.attention.backends.mla.common import QueryLenSupport
@@ -31,25 +30,25 @@ from vllm.v1.attention.backends.utils import CommonAttentionMetadata
 from vllm.v1.kv_cache_interface import FullAttentionSpec
 
 BACKENDS_TO_TEST = [
-    _Backend.CUTLASS_MLA,
-    _Backend.FLASHMLA,
-    _Backend.FLASH_ATTN_MLA,
-    _Backend.FLASHINFER_MLA,
-    _Backend.TRITON_MLA,
+    AttentionBackendEnum.CUTLASS_MLA,
+    AttentionBackendEnum.FLASHMLA,
+    AttentionBackendEnum.FLASH_ATTN_MLA,
+    AttentionBackendEnum.FLASHINFER_MLA,
+    AttentionBackendEnum.TRITON_MLA,
 ]
 
 # Remove sm100 backends from the list if not using sm100
 if not torch.cuda.is_available() or torch.cuda.get_device_properties(0).major < 10:
-    BACKENDS_TO_TEST.remove(_Backend.CUTLASS_MLA)
-    BACKENDS_TO_TEST.remove(_Backend.FLASHINFER_MLA)
+    BACKENDS_TO_TEST.remove(AttentionBackendEnum.CUTLASS_MLA)
+    BACKENDS_TO_TEST.remove(AttentionBackendEnum.FLASHINFER_MLA)
 
 # Remove FLASH_ATTN_MLA from the list if not supported
 if not flash_attn_supports_mla():
-    BACKENDS_TO_TEST.remove(_Backend.FLASH_ATTN_MLA)
+    BACKENDS_TO_TEST.remove(AttentionBackendEnum.FLASH_ATTN_MLA)
 
 # Remove FLASHMLA from the list if not supported
 if not is_flashmla_dense_supported()[0]:
-    BACKENDS_TO_TEST.remove(_Backend.FLASHMLA)
+    BACKENDS_TO_TEST.remove(AttentionBackendEnum.FLASHMLA)
 
 SPEC_DECODE_BACKENDS = []
 for backend in BACKENDS_TO_TEST:
@@ -62,9 +61,7 @@ for backend in BACKENDS_TO_TEST:
 
 BACKEND_BLOCK_SIZES = {}
 for backend in BACKENDS_TO_TEST:
-    backend_class_str = backend_to_class_str(backend)
-    backend_class = resolve_obj_by_qualname(backend_class_str)
-    supported_sizes = backend_class.get_supported_kernel_block_size()
+    supported_sizes = backend.get_class().supported_kernel_block_sizes
     if supported_sizes:
         default_size = supported_sizes[0]
         block_size = (
@@ -291,7 +288,7 @@ class MockMLAAttentionLayer(AttentionLayerBase):
 
 
 def run_attention_backend(
-    backend: _Backend,
+    backend: AttentionBackendEnum,
     kv_cache_spec: FullAttentionSpec,
     layer_names: list[str],
     vllm_config,
@@ -813,7 +810,7 @@ def test_backend_correctness(
         # Create a summary for the single-line failure message
         backend_names = []
         for f in failures:
-            if "[_Backend." in f:
+            if "[AttentionBackendEnum." in f:
                 backend_name = f.split("[")[1].split("]")[0]
                 backend_names.append(backend_name)
 
diff --git a/tests/v1/attention/utils.py b/tests/v1/attention/utils.py
index b166d9d4ff688..dea89babd4b47 100644
--- a/tests/v1/attention/utils.py
+++ b/tests/v1/attention/utils.py
@@ -8,7 +8,7 @@ import pytest
 import torch
 
 from vllm.attention.backends.abstract import AttentionImpl
-from vllm.attention.backends.registry import _Backend, backend_to_class_str
+from vllm.attention.backends.registry import AttentionBackendEnum
 from vllm.config import (
     CacheConfig,
     CompilationConfig,
@@ -20,7 +20,6 @@ from vllm.config import (
     VllmConfig,
 )
 from vllm.config.model import ModelDType
-from vllm.utils.import_utils import resolve_obj_by_qualname
 from vllm.v1.attention.backends.utils import (
     AttentionMetadataBuilder,
     CommonAttentionMetadata,
@@ -120,15 +119,14 @@ def create_common_attn_metadata(
 
 
 def try_get_attention_backend(
-    backend: _Backend,
+    backend: AttentionBackendEnum,
 ) -> tuple[type[AttentionMetadataBuilder], type[AttentionImpl]]:
     """Try to get the attention backend class, skipping test if not found."""
-    backend_class_str = backend_to_class_str(backend)
     try:
-        backend_class = resolve_obj_by_qualname(backend_class_str)
+        backend_class = backend.get_class()
         return backend_class.get_builder_cls(), backend_class.get_impl_cls()
     except ImportError as e:
-        pytest.skip(f"{backend_class_str} not available: {e}")
+        pytest.skip(f"{backend.name} not available: {e}")
         raise AssertionError("unreachable") from None
 
 
diff --git a/tests/v1/spec_decode/test_eagle.py b/tests/v1/spec_decode/test_eagle.py
index 47d05a20a65df..89d0ec769ac09 100644
--- a/tests/v1/spec_decode/test_eagle.py
+++ b/tests/v1/spec_decode/test_eagle.py
@@ -13,7 +13,7 @@ from tests.v1.attention.utils import (
     create_standard_kv_cache_spec,
     try_get_attention_backend,
 )
-from vllm.attention.backends.registry import _Backend
+from vllm.attention.backends.registry import AttentionBackendEnum
 from vllm.config import (
     CacheConfig,
     DeviceConfig,
@@ -534,11 +534,17 @@ def test_propose(method, attn_backend, num_speculative_tokens, monkeypatch):
     sampling_metadata = mock.MagicMock()
 
     if attn_backend == "FLASH_ATTN":
-        attn_metadata_builder_cls, _ = try_get_attention_backend(_Backend.FLASH_ATTN)
+        attn_metadata_builder_cls, _ = try_get_attention_backend(
+            AttentionBackendEnum.FLASH_ATTN
+        )
     elif attn_backend == "TRITON_ATTN":
-        attn_metadata_builder_cls, _ = try_get_attention_backend(_Backend.TRITON_ATTN)
+        attn_metadata_builder_cls, _ = try_get_attention_backend(
+            AttentionBackendEnum.TRITON_ATTN
+        )
     elif attn_backend == "TREE_ATTN":
-        attn_metadata_builder_cls, _ = try_get_attention_backend(_Backend.TREE_ATTN)
+        attn_metadata_builder_cls, _ = try_get_attention_backend(
+            AttentionBackendEnum.TREE_ATTN
+        )
     else:
         raise ValueError(f"Unsupported attention backend: {attn_backend}")
 
@@ -673,7 +679,9 @@ def test_propose_tree(spec_token_tree):
     proposer.attn_layer_names = ["layer.0"]
 
     # Get the tree attention metadata builder.
-    attn_metadata_builder_cls, _ = try_get_attention_backend(_Backend.TREE_ATTN)
+    attn_metadata_builder_cls, _ = try_get_attention_backend(
+        AttentionBackendEnum.TREE_ATTN
+    )
     attn_metadata_builder = attn_metadata_builder_cls(
         kv_cache_spec=create_standard_kv_cache_spec(proposer.vllm_config),
         layer_names=proposer.attn_layer_names,
diff --git a/tests/v1/spec_decode/test_mtp.py b/tests/v1/spec_decode/test_mtp.py
index 9ca7cf9e3e0e1..6d59b58e739eb 100644
--- a/tests/v1/spec_decode/test_mtp.py
+++ b/tests/v1/spec_decode/test_mtp.py
@@ -12,7 +12,7 @@ from tests.v1.attention.utils import (
     create_standard_kv_cache_spec,
     try_get_attention_backend,
 )
-from vllm.attention.backends.registry import _Backend
+from vllm.attention.backends.registry import AttentionBackendEnum
 from vllm.config import (
     CacheConfig,
     DeviceConfig,
@@ -177,7 +177,9 @@ def test_mtp_propose(num_speculative_tokens, monkeypatch):
     sampling_metadata = mock.MagicMock()
 
     # Setup attention metadata
-    attn_metadata_builder_cls, _ = try_get_attention_backend(_Backend.FLASH_ATTN)
+    attn_metadata_builder_cls, _ = try_get_attention_backend(
+        AttentionBackendEnum.FLASH_ATTN
+    )
 
     attn_metadata_builder = attn_metadata_builder_cls(
         kv_cache_spec=create_standard_kv_cache_spec(proposer.vllm_config),
diff --git a/tests/v1/spec_decode/test_tree_attention.py b/tests/v1/spec_decode/test_tree_attention.py
index b365e75d5514c..6958d62dc7e90 100644
--- a/tests/v1/spec_decode/test_tree_attention.py
+++ b/tests/v1/spec_decode/test_tree_attention.py
@@ -10,7 +10,7 @@ from tests.v1.attention.utils import (
     create_vllm_config,
     try_get_attention_backend,
 )
-from vllm.attention.backends.registry import _Backend
+from vllm.attention.backends.registry import AttentionBackendEnum
 from vllm.config import ParallelConfig, SpeculativeConfig
 from vllm.v1.attention.backends.utils import CommonAttentionMetadata
 
@@ -35,7 +35,7 @@ def forward_attention(
     block_table: torch.Tensor,
     slot_mapping: torch.Tensor,
     seqlen_k: int,
-    backend: _Backend,
+    backend: AttentionBackendEnum,
     spec_token_tree: str | None = None,
     num_spec_tokens: int = 0,
 ) -> torch.Tensor:
@@ -241,7 +241,7 @@ def test_tree_attn_correctness() -> None:
                         block_table=block_table,
                         slot_mapping=tree_slot_mapping,
                         seqlen_k=seqlen_k,
-                        backend=_Backend.TREE_ATTN,
+                        backend=AttentionBackendEnum.TREE_ATTN,
                         spec_token_tree=spec_token_tree,
                         num_spec_tokens=tree_size_q - 1,
                     ).view(batch_size, -1, num_heads, dim_per_head)
@@ -278,7 +278,7 @@ def test_tree_attn_correctness() -> None:
                             block_table=block_table,
                             slot_mapping=branch_slot_mapping,
                             seqlen_k=sequence_position + q_len,
-                            backend=_Backend.FLASH_ATTN,
+                            backend=AttentionBackendEnum.FLASH_ATTN,
                         ).view(batch_size, -1, num_heads, dim_per_head)
 
                         # Compare the outputs.
diff --git a/tests/v1/worker/test_gpu_model_runner.py b/tests/v1/worker/test_gpu_model_runner.py
index bc624658308bf..b02d9a657407b 100644
--- a/tests/v1/worker/test_gpu_model_runner.py
+++ b/tests/v1/worker/test_gpu_model_runner.py
@@ -185,9 +185,7 @@ def _make_mock_backend_for_kernel_block_size(
     supported_sizes: list[int | MultipleOf],
 ):
     class _MockBackend:
-        @staticmethod
-        def get_supported_kernel_block_size():
-            return supported_sizes
+        supported_kernel_block_sizes = supported_sizes
 
     return _MockBackend()
 
@@ -466,13 +464,20 @@ def test_kv_cache_stride_order(monkeypatch, model_runner):
     # This test checks if GPUModelRunner initializes correctly when an attention
     # backend enforces a non-default KV cache stride order.
     n_heads = model_runner.model_config.get_num_kv_heads(model_runner.parallel_config)
-    expected_kv_cache_shape = [
-        2,
-        NUM_BLOCKS,
-        BLOCK_SIZE,
-        n_heads,
-        model_runner.model_config.get_head_size(),
-    ]
+    head_size = model_runner.model_config.get_head_size()
+
+    # Get the expected shape from the backend's get_kv_cache_shape method
+    # to ensure compatibility with different backends (triton vs flexattention)
+    attn_backend = None
+    for attn_group in model_runner._attn_group_iterator():
+        attn_backend = attn_group.backend
+        break
+
+    assert attn_backend is not None, "No attention backend found"
+    expected_kv_cache_shape = list(
+        attn_backend.get_kv_cache_shape(NUM_BLOCKS, BLOCK_SIZE, n_heads, head_size)
+    )
+
     # TODO mla test
     default_stride = tuple(range(5))
     # Permutation that gets you back to expected kv shape
diff --git a/vllm/attention/backends/abstract.py b/vllm/attention/backends/abstract.py
index b54eaf4e2872d..697beed918693 100644
--- a/vllm/attention/backends/abstract.py
+++ b/vllm/attention/backends/abstract.py
@@ -2,13 +2,18 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
 from abc import ABC, abstractmethod
-from typing import Generic, Protocol, TypeVar
+from typing import TYPE_CHECKING, ClassVar, Generic, Protocol, TypeVar, get_args
 
 import torch
 
 from vllm.model_executor.layers.linear import ColumnParallelLinear
 from vllm.model_executor.layers.quantization.utils.quant_utils import QuantKey
 
+if TYPE_CHECKING:
+    from vllm.config.cache import CacheDType
+    from vllm.platforms.interface import DeviceCapability
+    from vllm.v1.attention.backends.utils import KVCacheLayoutType
+
 
 class AttentionType:
     """
@@ -40,6 +45,9 @@ class AttentionBackend(ABC):
     # calling the custom op. When piecewise cudagraph is enabled, this
     # makes sure the output tensor is allocated inside the cudagraph.
     accept_output_buffer: bool = False
+    supported_dtypes: ClassVar[list[torch.dtype]] = [torch.float16, torch.bfloat16]
+    supported_kernel_block_sizes: ClassVar[list[int | MultipleOf]] = [MultipleOf(1)]
+    supported_kv_cache_dtypes: ClassVar[list["CacheDType"]] = ["auto"]
 
     @staticmethod
     @abstractmethod
@@ -51,10 +59,6 @@ class AttentionBackend(ABC):
     def get_impl_cls() -> type["AttentionImpl"]:
         raise NotImplementedError
 
-    @classmethod
-    def get_supported_kernel_block_size(cls) -> list[int | MultipleOf]:
-        return cls.get_impl_cls().get_supported_kernel_block_size()
-
     @staticmethod
     @abstractmethod
     def get_builder_cls():  # -> Type["AttentionMetadataBuilder"]:
@@ -79,6 +83,136 @@ class AttentionBackend(ABC):
     def full_cls_name(cls) -> tuple[str, str]:
         return (cls.__module__, cls.__qualname__)
 
+    @classmethod
+    def get_supported_head_sizes(cls) -> list[int]:
+        return []
+
+    @classmethod
+    def supports_head_size(cls, head_size: int) -> bool:
+        supported_head_sizes = cls.get_supported_head_sizes()
+        return (not supported_head_sizes) or head_size in supported_head_sizes
+
+    @classmethod
+    def supports_dtype(cls, dtype: torch.dtype) -> bool:
+        return dtype in cls.supported_dtypes
+
+    @classmethod
+    def supports_kv_cache_dtype(cls, kv_cache_dtype: "CacheDType | None") -> bool:
+        if kv_cache_dtype is None:
+            return True
+        return (not cls.supported_kv_cache_dtypes) or (
+            kv_cache_dtype in cls.supported_kv_cache_dtypes
+        )
+
+    @classmethod
+    def supports_block_size(cls, block_size: int | None) -> bool:
+        from vllm.config.cache import BlockSize
+
+        if block_size is None:
+            return True
+
+        valid_sizes = get_args(BlockSize)
+        if block_size not in valid_sizes:
+            return False
+
+        if not cls.supported_kernel_block_sizes:
+            return True
+
+        for supported_size in cls.supported_kernel_block_sizes:
+            is_multiple_of = (
+                isinstance(supported_size, MultipleOf)
+                and block_size % supported_size.base == 0
+            )
+            is_int_equal = (
+                isinstance(supported_size, int) and block_size == supported_size
+            )
+            if is_multiple_of or is_int_equal:
+                return True
+        return False
+
+    @classmethod
+    def is_mla(cls) -> bool:
+        return False
+
+    @classmethod
+    def supports_sink(cls) -> bool:
+        return False
+
+    @classmethod
+    def is_sparse(cls) -> bool:
+        return False
+
+    @classmethod
+    def supports_compute_capability(cls, capability: "DeviceCapability") -> bool:
+        return True
+
+    @classmethod
+    def supports_combination(
+        cls,
+        head_size: int,
+        dtype: torch.dtype,
+        kv_cache_dtype: "CacheDType | None",
+        block_size: int | None,
+        use_mla: bool,
+        has_sink: bool,
+        use_sparse: bool,
+        device_capability: "DeviceCapability",
+    ) -> str | None:
+        return None
+
+    @classmethod
+    def validate_configuration(
+        cls,
+        head_size: int,
+        dtype: torch.dtype,
+        kv_cache_dtype: "CacheDType | None",
+        block_size: int | None,
+        use_mla: bool,
+        has_sink: bool,
+        use_sparse: bool,
+        device_capability: "DeviceCapability",
+    ) -> list[str]:
+        invalid_reasons = []
+        if not cls.supports_head_size(head_size):
+            invalid_reasons.append("head_size not supported")
+        if not cls.supports_dtype(dtype):
+            invalid_reasons.append("dtype not supported")
+        if not cls.supports_kv_cache_dtype(kv_cache_dtype):
+            invalid_reasons.append("kv_cache_dtype not supported")
+        if not cls.supports_block_size(block_size):
+            invalid_reasons.append("block_size not supported")
+        if use_mla != cls.is_mla():
+            if use_mla:
+                invalid_reasons.append("MLA not supported")
+            else:
+                invalid_reasons.append("non-MLA not supported")
+        if has_sink and not cls.supports_sink():
+            invalid_reasons.append("sink setting not supported")
+        if use_sparse != cls.is_sparse():
+            if use_sparse:
+                invalid_reasons.append("sparse not supported")
+            else:
+                invalid_reasons.append("non-sparse not supported")
+        if not cls.supports_compute_capability(device_capability):
+            invalid_reasons.append("compute capability not supported")
+        combination_reason = cls.supports_combination(
+            head_size,
+            dtype,
+            kv_cache_dtype,
+            block_size,
+            use_mla,
+            has_sink,
+            use_sparse,
+            device_capability,
+        )
+        if combination_reason is not None:
+            invalid_reasons.append(combination_reason)
+        return invalid_reasons
+
+    @classmethod
+    def get_required_kv_cache_layout(cls) -> "KVCacheLayoutType | None":
+        return None
+
 
 class AttentionMetadata:
     pass
@@ -151,11 +285,6 @@ class AttentionImpl(ABC, Generic[T]):
     ) -> None:
         raise NotImplementedError
 
-    @staticmethod
-    def get_supported_kernel_block_size() -> list[int | MultipleOf]:
-        # TODO: implement this function for all backends.
-        return [MultipleOf(1)]
-
     @abstractmethod
     def forward(
         self,
diff --git a/vllm/attention/backends/registry.py b/vllm/attention/backends/registry.py
index 05d0159d08615..768d15cb9c82b 100644
--- a/vllm/attention/backends/registry.py
+++ b/vllm/attention/backends/registry.py
@@ -3,108 +3,192 @@
 """Attention backend registry"""
 
 import enum
+from collections.abc import Callable
+from typing import TYPE_CHECKING, cast
 
+from vllm.logger import init_logger
 from vllm.utils.import_utils import resolve_obj_by_qualname
 
+if TYPE_CHECKING:
+    from vllm.attention.backends.abstract import AttentionBackend
 
-class _Backend(enum.Enum):
-    FLASH_ATTN = enum.auto()
-    TRITON_ATTN = enum.auto()
-    XFORMERS = enum.auto()
-    ROCM_ATTN = enum.auto()
-    ROCM_AITER_MLA = enum.auto()
-    ROCM_AITER_FA = enum.auto()  # used for ViT attn backend
-    TORCH_SDPA = enum.auto()
-    FLASHINFER = enum.auto()
-    FLASHINFER_MLA = enum.auto()
-    TRITON_MLA = enum.auto()
-    CUTLASS_MLA = enum.auto()
-    FLASHMLA = enum.auto()
-    FLASHMLA_SPARSE = enum.auto()
-    FLASH_ATTN_MLA = enum.auto()
-    PALLAS = enum.auto()
-    IPEX = enum.auto()
-    NO_ATTENTION = enum.auto()
-    FLEX_ATTENTION = enum.auto()
-    TREE_ATTN = enum.auto()
-    ROCM_AITER_UNIFIED_ATTN = enum.auto()
+logger = init_logger(__name__)
 
 
-BACKEND_MAP = {
-    _Backend.FLASH_ATTN: "vllm.v1.attention.backends.flash_attn.FlashAttentionBackend",  # noqa: E501
-    _Backend.TRITON_ATTN: "vllm.v1.attention.backends.triton_attn.TritonAttentionBackend",  # noqa: E501
-    _Backend.XFORMERS: "vllm.v1.attention.backends.xformers.XFormersAttentionBackend",  # noqa: E501
-    _Backend.ROCM_ATTN: "vllm.v1.attention.backends.rocm_attn.RocmAttentionBackend",  # noqa: E501
-    _Backend.ROCM_AITER_MLA: "vllm.v1.attention.backends.mla.rocm_aiter_mla.AiterMLABackend",  # noqa: E501
-    _Backend.ROCM_AITER_FA: "vllm.v1.attention.backends.rocm_aiter_fa.AiterFlashAttentionBackend",  # noqa: E501
-    _Backend.TORCH_SDPA: "vllm.v1.attention.backends.cpu_attn.TorchSDPABackend",  # noqa: E501
-    _Backend.FLASHINFER: "vllm.v1.attention.backends.flashinfer.FlashInferBackend",  # noqa: E501
-    _Backend.FLASHINFER_MLA: "vllm.v1.attention.backends.mla.flashinfer_mla.FlashInferMLABackend",  # noqa: E501
-    _Backend.TRITON_MLA: "vllm.v1.attention.backends.mla.triton_mla.TritonMLABackend",  # noqa: E501
-    _Backend.CUTLASS_MLA: "vllm.v1.attention.backends.mla.cutlass_mla.CutlassMLABackend",  # noqa: E501
-    _Backend.FLASHMLA: "vllm.v1.attention.backends.mla.flashmla.FlashMLABackend",  # noqa: E501
-    _Backend.FLASHMLA_SPARSE: "vllm.v1.attention.backends.mla.flashmla_sparse.FlashMLASparseBackend",  # noqa: E501
-    _Backend.FLASH_ATTN_MLA: "vllm.v1.attention.backends.mla.flashattn_mla.FlashAttnMLABackend",  # noqa: E501
-    _Backend.PALLAS: "vllm.v1.attention.backends.pallas.PallasAttentionBackend",  # noqa: E501
-    _Backend.FLEX_ATTENTION: "vllm.v1.attention.backends.flex_attention.FlexAttentionBackend",  # noqa: E501
-    _Backend.TREE_ATTN: "vllm.v1.attention.backends.tree_attn.TreeAttentionBackend",  # noqa: E501
-    _Backend.ROCM_AITER_UNIFIED_ATTN: "vllm.v1.attention.backends.rocm_aiter_unified_attn.RocmAiterUnifiedAttentionBackend",  # noqa: E501
-}
+class _AttentionBackendEnumMeta(enum.EnumMeta):
+    """Metaclass for AttentionBackendEnum to provide better error messages."""
+
+    def __getitem__(cls, name: str):
+        """Get backend by name with helpful error messages."""
+        try:
+            return super().__getitem__(name)
+        except KeyError:
+            members = cast("dict[str, AttentionBackendEnum]", cls.__members__).values()
+            valid_backends = ", ".join(m.name for m in members)
+            raise ValueError(
+                f"Unknown attention backend: '{name}'. "
+                f"Valid options are: {valid_backends}"
+            ) from None
 
 
-def register_attn_backend(backend: _Backend, class_path: str | None = None):
+class AttentionBackendEnum(enum.Enum, metaclass=_AttentionBackendEnumMeta):
+    """Enumeration of all supported attention backends.
+
+    The enum value is the default class path, but this can be overridden
+    at runtime using register_backend().
+
+    To get the actual backend class (respecting overrides), use:
+        backend.get_class()
     """
-    Decorator: register a custom attention backend into BACKEND_MAPPING.
-    - If class_path is provided, use it.
-    - Otherwise, auto-generate from the class object.
-    Validation: only checks if 'backend' is a valid _Backend enum member.
-    Overwriting existing mappings is allowed. This enables other hardware
-    platforms to plug in custom out-of-tree backends.
-    """
-    if not isinstance(backend, _Backend):
-        raise ValueError(f"{backend} is not a valid _Backend enum value.")
 
-    def decorator(cls):
-        path = class_path or f"{cls.__module__}.{cls.__qualname__}"
-        BACKEND_MAP[backend] = path
+    FLASH_ATTN = "vllm.v1.attention.backends.flash_attn.FlashAttentionBackend"
+    TRITON_ATTN = "vllm.v1.attention.backends.triton_attn.TritonAttentionBackend"
+    XFORMERS = "vllm.v1.attention.backends.xformers.XFormersAttentionBackend"
+    ROCM_ATTN = "vllm.v1.attention.backends.rocm_attn.RocmAttentionBackend"
+    ROCM_AITER_MLA = "vllm.v1.attention.backends.mla.rocm_aiter_mla.AiterMLABackend"
+    ROCM_AITER_FA = (
+        "vllm.v1.attention.backends.rocm_aiter_fa.AiterFlashAttentionBackend"
+    )
+    TORCH_SDPA = "vllm.v1.attention.backends.cpu_attn.TorchSDPABackend"
+    FLASHINFER = "vllm.v1.attention.backends.flashinfer.FlashInferBackend"
+    FLASHINFER_MLA = (
+        "vllm.v1.attention.backends.mla.flashinfer_mla.FlashInferMLABackend"
+    )
+    TRITON_MLA = "vllm.v1.attention.backends.mla.triton_mla.TritonMLABackend"
+    CUTLASS_MLA = "vllm.v1.attention.backends.mla.cutlass_mla.CutlassMLABackend"
+    FLASHMLA = "vllm.v1.attention.backends.mla.flashmla.FlashMLABackend"
+    FLASHMLA_SPARSE = (
+        "vllm.v1.attention.backends.mla.flashmla_sparse.FlashMLASparseBackend"
+    )
+    FLASH_ATTN_MLA = "vllm.v1.attention.backends.mla.flashattn_mla.FlashAttnMLABackend"
+    PALLAS = "vllm.v1.attention.backends.pallas.PallasAttentionBackend"
+    IPEX = "vllm.v1.attention.backends.ipex.IpexAttentionBackend"
+    NO_ATTENTION = "vllm.v1.attention.backends.no_attention.NoAttentionBackend"
+    FLEX_ATTENTION = "vllm.v1.attention.backends.flex_attention.FlexAttentionBackend"
+    TREE_ATTN = "vllm.v1.attention.backends.tree_attn.TreeAttentionBackend"
+    ROCM_AITER_UNIFIED_ATTN = (
+        "vllm.v1.attention.backends.rocm_aiter_unified_attn."
+        "RocmAiterUnifiedAttentionBackend"
+    )
+    # Placeholder for third-party/custom backends - must be registered before use
+    CUSTOM = ""
+
+    def get_path(self, include_classname: bool = True) -> str:
+        """Get the class path for this backend (respects overrides).
+
+        Returns:
+            The fully qualified class path string
+
+        Raises:
+            ValueError: If Backend.CUSTOM is used without being registered
+        """
+        path = _OVERRIDES.get(self, self.value)
+        if not path:
+            raise ValueError(
+                f"Backend {self.name} must be registered before use. "
+                f"Use register_backend(Backend.{self.name}, 'your.module.YourClass')"
+            )
+        if not include_classname:
+            path = path.rsplit(".", 1)[0]
+        return path
+
+    def get_class(self) -> "type[AttentionBackend]":
+        """Get the backend class (respects overrides).
+
+        Returns:
+            The backend class
+
+        Raises:
+            ImportError: If the backend class cannot be imported
+            ValueError: If Backend.CUSTOM is used without being registered
+        """
+        return resolve_obj_by_qualname(self.get_path())
+
+    def is_overridden(self) -> bool:
+        """Check if this backend has been overridden.
+
+        Returns:
+            True if the backend has a registered override
+        """
+        return self in _OVERRIDES
+
+    def clear_override(self) -> None:
+        """Clear any override for this backend, reverting to the default."""
+        _OVERRIDES.pop(self, None)
+
+
+_OVERRIDES: dict[AttentionBackendEnum, str] = {}
+
+
+def register_backend(
+    backend: AttentionBackendEnum, class_path: str | None = None
+) -> Callable[[type], type]:
+    """Register or override a backend implementation.
+
+    Args:
+        backend: The AttentionBackendEnum member to register
+        class_path: Optional class path. If not provided and used as
+            decorator, will be auto-generated from the class.
+
+    Returns:
+        Decorator function if class_path is None, otherwise a no-op
+
+    Examples:
+        # Override an existing backend
+        @register_backend(AttentionBackendEnum.FLASH_ATTN)
+        class MyCustomFlashAttn:
+            ...
+
+        # Register a custom third-party backend
+        @register_backend(AttentionBackendEnum.CUSTOM)
+        class MyCustomBackend:
+            ...
+
+        # Direct registration
+        register_backend(
+            AttentionBackendEnum.CUSTOM,
+            "my.module.MyCustomBackend"
+        )
+    """
+
+    def decorator(cls: type) -> type:
+        _OVERRIDES[backend] = f"{cls.__module__}.{cls.__qualname__}"
         return cls
 
+    if class_path is not None:
+        _OVERRIDES[backend] = class_path
+        return lambda x: x
+
     return decorator
 
 
-def backend_to_class_str(backend: _Backend) -> str:
-    """Get the backend class string
+# Backwards compatibility alias for plugins
+class _BackendMeta(type):
+    """Metaclass to provide deprecation warnings when accessing _Backend."""
 
-    Args:
-        backend: The backend enum value
+    def __getattribute__(cls, name: str):
+        if name not in ("__class__", "__mro__", "__name__"):
+            logger.warning(
+                "_Backend has been renamed to AttentionBackendEnum. "
+                "Please update your code to use AttentionBackendEnum instead. "
+                "_Backend will be removed in a future release."
+            )
+        return getattr(AttentionBackendEnum, name)
 
-    Returns:
-        The backend class string
+    def __getitem__(cls, name: str):
+        logger.warning(
+            "_Backend has been renamed to AttentionBackendEnum. "
+            "Please update your code to use AttentionBackendEnum instead. "
+            "_Backend will be removed in a future release."
+        )
+        return AttentionBackendEnum[name]
+
+
+class _Backend(metaclass=_BackendMeta):
+    """Deprecated: Use AttentionBackendEnum instead.
+
+    This class is provided for backwards compatibility with plugins
+    and will be removed in a future release.
     """
-    return BACKEND_MAP[backend]
 
-
-def backend_to_class(backend: _Backend) -> type:
-    """Get the backend class.
-
-    Args:
-        backend: The backend enum value
-
-    Returns:
-        The backend class
-    """
-    backend_class_name = backend_to_class_str(backend)
-    return resolve_obj_by_qualname(backend_class_name)
-
-
-def backend_name_to_enum(backend_name: str) -> _Backend | None:
-    """
-    Convert a string backend name to a _Backend enum value.
-
-    Returns:
-        _Backend: enum value if backend_name is a valid in-tree type
-        None: otherwise it's an invalid in-tree type or an out-of-tree platform
-              is loaded.
-    """
-    assert backend_name is not None
-    return _Backend[backend_name] if backend_name in _Backend.__members__ else None
+    pass
diff --git a/vllm/attention/layer.py b/vllm/attention/layer.py
index acab0529f3520..ec705126c710d 100644
--- a/vllm/attention/layer.py
+++ b/vllm/attention/layer.py
@@ -12,7 +12,7 @@ import torch.nn.functional as F
 import vllm.envs as envs
 from vllm.attention import AttentionType
 from vllm.attention.backends.abstract import AttentionBackend, MLAAttentionImpl
-from vllm.attention.backends.registry import _Backend, backend_name_to_enum
+from vllm.attention.backends.registry import AttentionBackendEnum
 from vllm.attention.selector import get_attn_backend
 from vllm.attention.utils.kv_sharing_utils import validate_kv_sharing_target
 from vllm.config import CacheConfig, get_current_vllm_config
@@ -99,40 +99,44 @@ def check_upstream_fa_availability(dtype: torch.dtype):
 
 
 def maybe_get_vit_flash_attn_backend(
-    attn_backend: _Backend,
+    attn_backend: AttentionBackendEnum,
     use_upstream_fa: bool,
-    attn_backend_override: _Backend | None = None,
-) -> tuple[_Backend, Callable | None]:
+    attn_backend_override: AttentionBackendEnum | None = None,
+) -> tuple[AttentionBackendEnum, Callable | None]:
     if current_platform.is_rocm():
         if envs.VLLM_ROCM_USE_AITER and envs.VLLM_ROCM_USE_AITER_MHA and on_gfx9():
-            attn_backend = _Backend.ROCM_AITER_FA
+            attn_backend = AttentionBackendEnum.ROCM_AITER_FA
 
         elif (
             check_upstream_fa_availability(torch.get_default_dtype())
             and on_gfx9()
             and attn_backend_override is None
         ):
-            attn_backend = _Backend.FLASH_ATTN
+            attn_backend = AttentionBackendEnum.FLASH_ATTN
             use_upstream_fa = True
         else:
-            return _Backend.TORCH_SDPA, None
+            return AttentionBackendEnum.TORCH_SDPA, None
 
     elif current_platform.is_cuda():
-        if attn_backend != _Backend.FLASH_ATTN and check_upstream_fa_availability(
-            torch.get_default_dtype()
+        if (
+            attn_backend != AttentionBackendEnum.FLASH_ATTN
+            and check_upstream_fa_availability(torch.get_default_dtype())
         ):
-            attn_backend = _Backend.FLASH_ATTN
+            attn_backend = AttentionBackendEnum.FLASH_ATTN
             use_upstream_fa = True
     elif current_platform.is_xpu():
-        assert attn_backend == _Backend.FLASH_ATTN, (
+        assert attn_backend == AttentionBackendEnum.FLASH_ATTN, (
             "XPU platform only supports FLASH_ATTN as vision attention backend."
         )
         use_upstream_fa = False
     else:
-        return _Backend.TORCH_SDPA, None
+        return AttentionBackendEnum.TORCH_SDPA, None
 
-    if attn_backend in {_Backend.FLASH_ATTN, _Backend.ROCM_AITER_FA}:
-        if attn_backend == _Backend.ROCM_AITER_FA:
+    if attn_backend in {
+        AttentionBackendEnum.FLASH_ATTN,
+        AttentionBackendEnum.ROCM_AITER_FA,
+    }:
+        if attn_backend == AttentionBackendEnum.ROCM_AITER_FA:
             from aiter import flash_attn_varlen_func
         else:
             if use_upstream_fa:
@@ -309,7 +313,7 @@ class Attention(nn.Module, AttentionLayerBase):
             kv_sharing_target_layer_name,
             **extra_impl_args,
         )
-        self.backend = backend_name_to_enum(self.attn_backend.get_name())
+        self.backend = AttentionBackendEnum[self.attn_backend.get_name()]
         self.dtype = dtype
 
         # For cuda-alike (CUDA and ROCM) and cpu platforms, we control how
@@ -530,13 +534,13 @@ class MultiHeadAttention(nn.Module):
             backend
             if backend
             in {
-                _Backend.TORCH_SDPA,
-                _Backend.XFORMERS,
-                _Backend.PALLAS,
-                _Backend.ROCM_AITER_FA,
-                _Backend.FLASH_ATTN,
+                AttentionBackendEnum.TORCH_SDPA,
+                AttentionBackendEnum.XFORMERS,
+                AttentionBackendEnum.PALLAS,
+                AttentionBackendEnum.ROCM_AITER_FA,
+                AttentionBackendEnum.FLASH_ATTN,
             }
-            else _Backend.TORCH_SDPA
+            else AttentionBackendEnum.TORCH_SDPA
         )
 
         self.attn_backend, self._flash_attn_varlen_func = (
@@ -547,17 +551,23 @@ class MultiHeadAttention(nn.Module):
             )
         )
 
-        if self.attn_backend == _Backend.XFORMERS and not check_xformers_availability():
-            self.attn_backend = _Backend.TORCH_SDPA
+        if (
+            self.attn_backend == AttentionBackendEnum.XFORMERS
+            and not check_xformers_availability()
+        ):
+            self.attn_backend = AttentionBackendEnum.TORCH_SDPA
 
         self.is_flash_attn_backend = self.attn_backend in {
-            _Backend.FLASH_ATTN,
-            _Backend.ROCM_AITER_FA,
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.ROCM_AITER_FA,
         }
 
         # this condition is just to make sure that the
         # use_upstream_fa in the log is correct
-        if current_platform.is_rocm() and self.attn_backend == _Backend.FLASH_ATTN:
+        if (
+            current_platform.is_rocm()
+            and self.attn_backend == AttentionBackendEnum.FLASH_ATTN
+        ):
             use_upstream_fa = True
 
         logger.info_once(
@@ -606,17 +616,17 @@ class MultiHeadAttention(nn.Module):
                 max_seqlen_k=kv_len,
                 softmax_scale=self.scale,
             )
-        elif self.attn_backend == _Backend.XFORMERS:
+        elif self.attn_backend == AttentionBackendEnum.XFORMERS:
             from xformers import ops as xops
 
             out = xops.memory_efficient_attention_forward(
                 query, key, value, scale=self.scale
             )
-        elif self.attn_backend == _Backend.TORCH_SDPA:
+        elif self.attn_backend == AttentionBackendEnum.TORCH_SDPA:
             query, key, value = (x.transpose(1, 2) for x in (query, key, value))
             out = F.scaled_dot_product_attention(query, key, value, scale=self.scale)
             out = out.transpose(1, 2)
-        elif self.attn_backend == _Backend.PALLAS:
+        elif self.attn_backend == AttentionBackendEnum.PALLAS:
             query, key, value = (x.transpose(1, 2) for x in (query, key, value))
             from torch_xla.experimental.custom_kernel import flash_attention
 
diff --git a/vllm/attention/selector.py b/vllm/attention/selector.py
index 9c26a8d40edaf..6e5fa854d35f5 100644
--- a/vllm/attention/selector.py
+++ b/vllm/attention/selector.py
@@ -4,14 +4,15 @@
 import os
 from collections.abc import Generator
 from contextlib import contextmanager
-from dataclasses import dataclass
 from functools import cache
+from typing import cast, get_args
 
 import torch
 
 import vllm.envs as envs
 from vllm.attention.backends.abstract import AttentionBackend
-from vllm.attention.backends.registry import _Backend, backend_name_to_enum
+from vllm.attention.backends.registry import AttentionBackendEnum
+from vllm.config.cache import CacheDType
 from vllm.logger import init_logger
 from vllm.utils import STR_BACKEND_ENV_VAR
 from vllm.utils.import_utils import resolve_obj_by_qualname
@@ -19,18 +20,18 @@ from vllm.utils.import_utils import resolve_obj_by_qualname
 logger = init_logger(__name__)
 
 
-def get_env_variable_attn_backend() -> _Backend | None:
+def get_env_variable_attn_backend() -> AttentionBackendEnum | None:
     """
     Get the backend override specified by the vLLM attention
     backend environment variable, if one is specified.
 
     Returns:
 
-    * _Backend enum value if an override is specified
+    * AttentionBackendEnum value if an override is specified
     * None otherwise
     """
     backend_name = os.environ.get(STR_BACKEND_ENV_VAR)
-    return None if backend_name is None else backend_name_to_enum(backend_name)
+    return None if backend_name is None else AttentionBackendEnum[backend_name]
 
 
 # Global state allows a particular choice of backend
@@ -40,10 +41,10 @@ def get_env_variable_attn_backend() -> _Backend | None:
 #
 # THIS SELECTION TAKES PRECEDENCE OVER THE
 # VLLM_ATTENTION_BACKEND ENVIRONMENT VARIABLE
-forced_attn_backend: _Backend | None = None
+forced_attn_backend: AttentionBackendEnum | None = None
 
 
-def global_force_attn_backend(attn_backend: _Backend | None) -> None:
+def global_force_attn_backend(attn_backend: AttentionBackendEnum | None) -> None:
     """
     Force all attention operations to use a specified backend.
 
@@ -58,7 +59,7 @@ def global_force_attn_backend(attn_backend: _Backend | None) -> None:
     forced_attn_backend = attn_backend
 
 
-def get_global_forced_attn_backend() -> _Backend | None:
+def get_global_forced_attn_backend() -> AttentionBackendEnum | None:
     """
     Get the currently-forced choice of attention backend,
     or None if auto-selection is currently enabled.
@@ -66,78 +67,28 @@ def get_global_forced_attn_backend() -> _Backend | None:
     return forced_attn_backend
 
 
-@dataclass(frozen=True)
-class _IsSupported:
-    can_import: bool
-    head_size: bool
-    dtype: bool
-
-    def __bool__(self) -> bool:
-        return self.can_import and self.head_size and self.dtype
-
-
-def is_attn_backend_supported(
-    attn_backend: str | type[AttentionBackend],
-    head_size: int,
-    dtype: torch.dtype,
-    *,
-    allow_import_error: bool = True,
-) -> _IsSupported:
-    if isinstance(attn_backend, str):
-        try:
-            attn_backend = resolve_obj_by_qualname(attn_backend)
-        except ImportError:
-            if not allow_import_error:
-                raise
-
-            return _IsSupported(can_import=False, head_size=False, dtype=False)
-
-    assert isinstance(attn_backend, type)
-
-    # TODO: Update the interface once V0 is removed
-    if get_supported_head_sizes := getattr(
-        attn_backend, "get_supported_head_sizes", None
-    ):
-        is_head_size_supported = head_size in get_supported_head_sizes()
-    elif validate_head_size := getattr(attn_backend, "validate_head_size", None):
-        try:
-            validate_head_size(head_size)
-            is_head_size_supported = True
-        except Exception:
-            is_head_size_supported = False
-    else:
-        raise NotImplementedError(
-            f"{attn_backend.__name__} does not support head size validation"
-        )
-
-    if get_supported_dtypes := getattr(attn_backend, "get_supported_dtypes", None):
-        is_dtype_supported = dtype in get_supported_dtypes()
-    else:
-        raise NotImplementedError(
-            f"{attn_backend.__name__} does not support dtype validation"
-        )
-
-    return _IsSupported(
-        can_import=True,
-        head_size=is_head_size_supported,
-        dtype=is_dtype_supported,
-    )
-
-
 def get_attn_backend(
     head_size: int,
     dtype: torch.dtype,
     kv_cache_dtype: str | None,
-    block_size: int,
+    block_size: int | None,
     use_mla: bool = False,
     has_sink: bool = False,
     use_sparse: bool = False,
 ) -> type[AttentionBackend]:
     """Selects which attention backend to use and lazily imports it."""
+
+    if kv_cache_dtype is not None:
+        valid_cache_dtypes = get_args(CacheDType)
+        assert kv_cache_dtype in valid_cache_dtypes, (
+            f"Invalid kv_cache_dtype: {kv_cache_dtype}. "
+            f"Valid values are: {valid_cache_dtypes}"
+        )
+
     return _cached_get_attn_backend(
         head_size=head_size,
         dtype=dtype,
-        kv_cache_dtype=kv_cache_dtype,
+        kv_cache_dtype=cast(CacheDType | None, kv_cache_dtype),
         block_size=block_size,
         use_mla=use_mla,
         has_sink=has_sink,
@@ -149,8 +100,8 @@ def get_attn_backend(
 def _cached_get_attn_backend(
     head_size: int,
     dtype: torch.dtype,
-    kv_cache_dtype: str | None,
-    block_size: int,
+    kv_cache_dtype: CacheDType | None,
+    block_size: int | None,
     use_mla: bool = False,
     has_sink: bool = False,
     use_sparse: bool = False,
@@ -161,7 +112,9 @@ def _cached_get_attn_backend(
     # THIS SELECTION OVERRIDES THE VLLM_ATTENTION_BACKEND
     # ENVIRONMENT VARIABLE.
     selected_backend = None
-    backend_by_global_setting: _Backend | None = get_global_forced_attn_backend()
+    backend_by_global_setting: AttentionBackendEnum | None = (
+        get_global_forced_attn_backend()
+    )
     if backend_by_global_setting is not None:
         selected_backend = backend_by_global_setting
     else:
@@ -177,12 +130,13 @@ def _cached_get_attn_backend(
                     STR_BACKEND_ENV_VAR,
                 )
                 backend_by_env_var = backend_by_env_var.removesuffix("_VLLM_V1")
-            selected_backend = backend_name_to_enum(backend_by_env_var)
-            if selected_backend is None:
+            try:
+                selected_backend = AttentionBackendEnum[backend_by_env_var]
+            except KeyError as e:
                 raise ValueError(
-                    f"Invalid attention backend: '{backend_by_env_var}'. "
-                    f"Valid backends are: {list(_Backend.__members__.keys())}"
-                )
+                    f"Invalid attention backend: '{backend_by_env_var}'. Valid "
+                    f"backends are: {list(AttentionBackendEnum.__members__.keys())}"
+                ) from e
 
     # get device-specific attn_backend
     from vllm.platforms import current_platform
@@ -202,12 +156,26 @@ def _cached_get_attn_backend(
         raise ValueError(
             f"Invalid attention backend for {current_platform.device_name}"
         )
-    return resolve_obj_by_qualname(attention_cls)
+    backend = resolve_obj_by_qualname(attention_cls)
+
+    # Adjust kv cache layout if the selected backend requires a specific one
+    required_layout = backend.get_required_kv_cache_layout()
+    if required_layout is not None:
+        from vllm.v1.attention.backends.utils import set_kv_cache_layout
+
+        set_kv_cache_layout(required_layout)
+        logger.info(
+            "Using %s KV cache layout for %s backend.",
+            required_layout,
+            backend.get_name(),
+        )
+
+    return backend
 
 
 @contextmanager
 def global_force_attn_backend_context_manager(
-    attn_backend: _Backend,
+    attn_backend: AttentionBackendEnum,
 ) -> Generator[None, None, None]:
     """
     Globally force a vLLM attention backend override within a
diff --git a/vllm/config/cache.py b/vllm/config/cache.py
index 031df3091f1c6..864cf1be81b20 100644
--- a/vllm/config/cache.py
+++ b/vllm/config/cache.py
@@ -21,7 +21,15 @@ else:
 logger = init_logger(__name__)
 
 BlockSize = Literal[1, 8, 16, 32, 64, 128, 256]
-CacheDType = Literal["auto", "bfloat16", "fp8", "fp8_e4m3", "fp8_e5m2", "fp8_inc"]
+CacheDType = Literal[
+    "auto",
+    "bfloat16",
+    "fp8",
+    "fp8_e4m3",
+    "fp8_e5m2",
+    "fp8_inc",
+    "fp8_ds_mla",
+]
 MambaDType = Literal["auto", "float32"]
 PrefixCachingHashAlgo = Literal["sha256", "sha256_cbor"]
 KVOffloadingBackend = Literal["native", "lmcache"]
diff --git a/vllm/config/model.py b/vllm/config/model.py
index 44c044c76168d..6ce91ebb87b90 100644
--- a/vllm/config/model.py
+++ b/vllm/config/model.py
@@ -45,7 +45,7 @@ if TYPE_CHECKING:
 
     import vllm.model_executor.layers.quantization as me_quant
     import vllm.model_executor.models as me_models
-    from vllm.attention.backends.registry import _Backend
+    from vllm.attention.backends.registry import AttentionBackendEnum
     from vllm.config.load import LoadConfig
     from vllm.config.parallel import ParallelConfig
     from vllm.model_executor.layers.quantization import QuantizationMethods
@@ -53,7 +53,7 @@ if TYPE_CHECKING:
 else:
     PretrainedConfig = Any
 
-    _Backend = Any
+    AttentionBackendEnum = Any
     me_quant = LazyLoader(
         "model_executor", globals(), "vllm.model_executor.layers.quantization"
     )
@@ -302,7 +302,7 @@ class ModelConfig:
     mm_processor_cache_type: InitVar[MMCacheType | None] = None
     mm_shm_cache_max_object_size_mb: InitVar[int | None] = None
     mm_encoder_tp_mode: InitVar[MMEncoderTPMode | None] = None
-    mm_encoder_attn_backend: InitVar[_Backend | str | None] = None
+    mm_encoder_attn_backend: InitVar[AttentionBackendEnum | str | None] = None
     interleave_mm_strings: InitVar[bool | None] = None
     skip_mm_profiling: InitVar[bool | None] = None
     video_pruning_rate: InitVar[float | None] = None
@@ -420,7 +420,7 @@ class ModelConfig:
         mm_processor_cache_type: MMCacheType | None,
         mm_shm_cache_max_object_size_mb: int | None,
         mm_encoder_tp_mode: MMEncoderTPMode | None,
-        mm_encoder_attn_backend: _Backend | str | None,
+        mm_encoder_attn_backend: AttentionBackendEnum | str | None,
         interleave_mm_strings: bool | None,
         skip_mm_profiling: bool | None,
         video_pruning_rate: float | None,
diff --git a/vllm/config/multimodal.py b/vllm/config/multimodal.py
index ef73720efe099..9348c1b2af8cc 100644
--- a/vllm/config/multimodal.py
+++ b/vllm/config/multimodal.py
@@ -11,9 +11,9 @@ from pydantic.dataclasses import dataclass
 from vllm.config.utils import config
 
 if TYPE_CHECKING:
-    from vllm.attention.backends.registry import _Backend
+    from vllm.attention.backends.registry import AttentionBackendEnum
 else:
-    _Backend = Any
+    AttentionBackendEnum = Any
 
 
 @dataclass
@@ -125,10 +125,10 @@ class MultiModalConfig:
         DP (which is controlled by `--data-parallel-size`).
         This is only supported on a per-model basis and falls back to
         `"weights"` if the encoder does not support DP."""
-    mm_encoder_attn_backend: _Backend | None = None
+    mm_encoder_attn_backend: AttentionBackendEnum | None = None
     """Optional override for the multi-modal encoder attention backend when
     using vision transformers. Accepts any value from
-    `vllm.attention.backends.registry._Backend` (e.g. `FLASH_ATTN`)."""
+    `vllm.attention.backends.registry.AttentionBackendEnum` (e.g. `FLASH_ATTN`)."""
     interleave_mm_strings: bool = False
     """Enable fully interleaved support for multimodal prompts, while using
     --chat-template-content-format=string."""
@@ -167,26 +167,16 @@ class MultiModalConfig:
 
     @field_validator("mm_encoder_attn_backend", mode="before")
     @classmethod
-    def _validate_mm_encoder_attn_backend(cls, value: object) -> _Backend | None:
-        from vllm.attention.backends.registry import (
-            _Backend as BackendEnum,
-        )
-        from vllm.attention.backends.registry import (
-            backend_name_to_enum,
-        )
-
-        if value is None or isinstance(value, BackendEnum):
+    def _validate_mm_encoder_attn_backend(
+        cls, value: str | AttentionBackendEnum | None
+    ) -> AttentionBackendEnum | None:
+        if value is None or isinstance(value, AttentionBackendEnum):
             return value
 
-        if isinstance(value, str):
-            candidate = backend_name_to_enum(value.upper())
-            if candidate is not None:
-                return candidate
-
-        valid_backends = ", ".join(sorted(BackendEnum.__members__.keys()))
-        raise ValueError(
-            f"Invalid mm encoder attention backend. Expected one of: {valid_backends}."
+        assert isinstance(value, str), (
+            "mm_encoder_attn_backend must be a string or an AttentionBackendEnum."
         )
+        return AttentionBackendEnum[value.upper()]
 
     @model_validator(mode="after")
     def _validate_multimodal_config(self):
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py b/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
index ff9770b72bd38..6c20eee1ecbf9 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
@@ -21,7 +21,7 @@ import torch
 import zmq
 
 from vllm import envs
-from vllm.attention.backends.registry import _Backend, backend_name_to_enum
+from vllm.attention.backends.registry import AttentionBackendEnum
 from vllm.attention.selector import get_attn_backend
 from vllm.config import VllmConfig
 from vllm.distributed.kv_transfer.kv_connector.v1.base import (
@@ -876,9 +876,9 @@ class NixlConnectorWorker:
             use_mla=self.use_mla,
         )
         self.backend_name = backend.get_name()
-        attn_backend = backend_name_to_enum(self.backend_name)
-        self._use_flashinfer = attn_backend == _Backend.FLASHINFER
-        self._use_pallas = attn_backend == _Backend.PALLAS
+        attn_backend = AttentionBackendEnum[self.backend_name]
+        self._use_flashinfer = attn_backend == AttentionBackendEnum.FLASHINFER
+        self._use_pallas = attn_backend == AttentionBackendEnum.PALLAS
         self.kv_cache_layout = get_kv_cache_layout()
         self.host_buffer_kv_cache_layout = self.kv_cache_layout
         logger.debug("Detected attention backend %s", self.backend_name)
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index b12b7082af627..d3913553320fd 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -32,7 +32,7 @@ from pydantic.fields import FieldInfo
 from typing_extensions import TypeIs, deprecated
 
 import vllm.envs as envs
-from vllm.attention.backends.registry import _Backend
+from vllm.attention.backends.registry import AttentionBackendEnum
 from vllm.config import (
     CacheConfig,
     CompilationConfig,
@@ -462,7 +462,7 @@ class EngineArgs:
         MultiModalConfig.mm_shm_cache_max_object_size_mb
     )
     mm_encoder_tp_mode: MMEncoderTPMode = MultiModalConfig.mm_encoder_tp_mode
-    mm_encoder_attn_backend: _Backend | str | None = (
+    mm_encoder_attn_backend: AttentionBackendEnum | str | None = (
         MultiModalConfig.mm_encoder_attn_backend
     )
     io_processor_plugin: str | None = None
diff --git a/vllm/envs.py b/vllm/envs.py
index 52178e5f52500..52a9671bc46e2 100755
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -626,14 +626,14 @@ environment_variables: dict[str, Callable[[], Any]] = {
     # - "FLASH_ATTN_MLA": use FlashAttention for MLA
     # - "FLASHINFER_MLA": use FlashInfer for MLA
     # - "CUTLASS_MLA": use CUTLASS for MLA
-    # All possible options loaded dynamically from _Backend enum
+    # All possible options loaded dynamically from AttentionBackendEnum
     "VLLM_ATTENTION_BACKEND": env_with_choices(
         "VLLM_ATTENTION_BACKEND",
         None,
         lambda: list(
             __import__(
-                "vllm.attention.backends.registry", fromlist=["_Backend"]
-            )._Backend.__members__.keys()
+                "vllm.attention.backends.registry", fromlist=["AttentionBackendEnum"]
+            ).AttentionBackendEnum.__members__.keys()
         ),
     ),
     # If set, vllm will use flashinfer sampler
diff --git a/vllm/model_executor/models/dots_ocr.py b/vllm/model_executor/models/dots_ocr.py
index 6d462ad8ae620..1b2bb60a17c16 100644
--- a/vllm/model_executor/models/dots_ocr.py
+++ b/vllm/model_executor/models/dots_ocr.py
@@ -9,7 +9,7 @@ import torch.nn.functional as F
 from torch.nn import LayerNorm
 from transformers.models.qwen2_vl import Qwen2VLProcessor
 
-from vllm.attention.backends.registry import _Backend
+from vllm.attention.backends.registry import AttentionBackendEnum
 from vllm.attention.layer import (
     check_upstream_fa_availability,
     maybe_get_vit_flash_attn_backend,
@@ -256,7 +256,7 @@ class DotsVisionAttention(nn.Module):
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
         use_data_parallel: bool = False,
-        attn_backend_override: _Backend | None = None,
+        attn_backend_override: AttentionBackendEnum | None = None,
     ) -> None:
         super().__init__()
 
@@ -303,17 +303,17 @@ class DotsVisionAttention(nn.Module):
             )
         )
         if self.attn_backend not in {
-            _Backend.FLASH_ATTN,
-            _Backend.TORCH_SDPA,
-            _Backend.XFORMERS,
-            _Backend.ROCM_AITER_FA,
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.TORCH_SDPA,
+            AttentionBackendEnum.XFORMERS,
+            AttentionBackendEnum.ROCM_AITER_FA,
         }:
             raise RuntimeError(
                 f"Unsupported vision attention backend: {self.attn_backend}"
             )
         self.is_flash_attn_backend = self.attn_backend in {
-            _Backend.FLASH_ATTN,
-            _Backend.ROCM_AITER_FA,
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.ROCM_AITER_FA,
         }
 
     def forward(
@@ -361,7 +361,7 @@ class DotsVisionAttention(nn.Module):
                 self.num_attention_heads_per_partition,
                 self.hidden_size_per_attention_head,
             )
-        elif self.attn_backend == _Backend.TORCH_SDPA:
+        elif self.attn_backend == AttentionBackendEnum.TORCH_SDPA:
             outputs = []
             for i in range(1, len(cu_seqlens)):
                 s = int(cu_seqlens[i - 1])
@@ -373,7 +373,7 @@ class DotsVisionAttention(nn.Module):
                 out_i = out_i.permute(0, 2, 1, 3)
                 outputs.append(out_i)
             context_layer = torch.cat(outputs, dim=1) if outputs else q[:, :0]
-        elif self.attn_backend == _Backend.XFORMERS:
+        elif self.attn_backend == AttentionBackendEnum.XFORMERS:
             from xformers import ops as xops
             from xformers.ops.fmha.attn_bias import BlockDiagonalMask
 
@@ -514,7 +514,7 @@ class DotsVisionBlock(nn.Module):
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
         use_data_parallel: bool = False,
-        attn_backend_override: _Backend | None = None,
+        attn_backend_override: AttentionBackendEnum | None = None,
     ):
         super().__init__()
 
@@ -567,7 +567,7 @@ class DotsVisionTransformer(nn.Module):
         require_post_norm: bool | None = None,
         prefix: str = "",
         use_data_parallel: bool = False,
-        attn_backend_override: _Backend | None = None,
+        attn_backend_override: AttentionBackendEnum | None = None,
     ) -> None:
         super().__init__()
         self.config = config
@@ -582,10 +582,11 @@ class DotsVisionTransformer(nn.Module):
             dtype=torch.get_default_dtype(),
             attn_backend_override=attn_backend_override,
         )
-        if self.attn_backend != _Backend.FLASH_ATTN and check_upstream_fa_availability(
-            torch.get_default_dtype()
+        if (
+            self.attn_backend != AttentionBackendEnum.FLASH_ATTN
+            and check_upstream_fa_availability(torch.get_default_dtype())
         ):
-            self.attn_backend = _Backend.FLASH_ATTN
+            self.attn_backend = AttentionBackendEnum.FLASH_ATTN
         self.out_hidden_size = config.hidden_size
         # Keep blocks for compatibility with other vision towers
         num_layers = (
@@ -666,11 +667,11 @@ class DotsVisionTransformer(nn.Module):
     ) -> tuple[int | None, list[int] | None]:
         max_seqlen, seqlens = None, None
         if (
-            self.attn_backend == _Backend.FLASH_ATTN
-            or self.attn_backend == _Backend.ROCM_AITER_FA
+            self.attn_backend == AttentionBackendEnum.FLASH_ATTN
+            or self.attn_backend == AttentionBackendEnum.ROCM_AITER_FA
         ):
             max_seqlen = (cu_seqlens[1:] - cu_seqlens[:-1]).max().item()
-        elif self.attn_backend == _Backend.XFORMERS:
+        elif self.attn_backend == AttentionBackendEnum.XFORMERS:
             seqlens = (cu_seqlens[1:] - cu_seqlens[:-1]).tolist()
         return max_seqlen, seqlens
 
diff --git a/vllm/model_executor/models/ernie45_vl.py b/vllm/model_executor/models/ernie45_vl.py
index f287cff12086b..97182a25f82b8 100644
--- a/vllm/model_executor/models/ernie45_vl.py
+++ b/vllm/model_executor/models/ernie45_vl.py
@@ -36,7 +36,7 @@ import torch.nn.functional as F
 from einops import rearrange, repeat
 from transformers import BatchFeature, PretrainedConfig
 
-from vllm.attention.backends.registry import _Backend
+from vllm.attention.backends.registry import AttentionBackendEnum
 from vllm.attention.layer import (
     check_upstream_fa_availability,
     maybe_get_vit_flash_attn_backend,
@@ -164,7 +164,7 @@ class Ernie4_5_VisionAttention(nn.Module):
         projection_size: int,
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
-        attn_backend_override: _Backend | None = None,
+        attn_backend_override: AttentionBackendEnum | None = None,
     ) -> None:
         super().__init__()
         # Per attention head and per partition values.
@@ -211,17 +211,17 @@ class Ernie4_5_VisionAttention(nn.Module):
         )
 
         if self.attn_backend not in {
-            _Backend.FLASH_ATTN,
-            _Backend.TORCH_SDPA,
-            _Backend.XFORMERS,
-            _Backend.ROCM_AITER_FA,
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.TORCH_SDPA,
+            AttentionBackendEnum.XFORMERS,
+            AttentionBackendEnum.ROCM_AITER_FA,
         }:
             raise RuntimeError(
                 f"Ernie45-VL does not support {self.attn_backend} backend now."
             )
         self.is_flash_attn_backend = self.attn_backend in {
-            _Backend.FLASH_ATTN,
-            _Backend.ROCM_AITER_FA,
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.ROCM_AITER_FA,
         }
 
     def split_qkv(self, qkv: torch.Tensor) -> tuple[torch.Tensor, ...]:
@@ -291,7 +291,7 @@ class Ernie4_5_VisionAttention(nn.Module):
             context_layer = rearrange(
                 output, "(b s) h d -> s b (h d)", b=batch_size
             ).contiguous()
-        elif self.attn_backend == _Backend.TORCH_SDPA:
+        elif self.attn_backend == AttentionBackendEnum.TORCH_SDPA:
             # Execute attention entry by entry for speed & less VRAM.
             outputs = []
             for i in range(1, len(cu_seqlens)):
@@ -310,7 +310,7 @@ class Ernie4_5_VisionAttention(nn.Module):
             context_layer = rearrange(
                 context_layer, "b s h d -> s b (h d)"
             ).contiguous()
-        elif self.attn_backend == _Backend.XFORMERS:
+        elif self.attn_backend == AttentionBackendEnum.XFORMERS:
             from xformers import ops as xops
             from xformers.ops.fmha.attn_bias import BlockDiagonalMask
 
@@ -370,7 +370,7 @@ class Ernie4_5_VisionBlock(nn.Module):
         norm_layer: Callable[[int], nn.Module] | None = None,
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
-        attn_backend_override: _Backend | None = None,
+        attn_backend_override: AttentionBackendEnum | None = None,
     ) -> None:
         super().__init__()
 
@@ -463,7 +463,7 @@ class Ernie4_5_VisionTransformer(nn.Module):
         norm_eps: float = 1e-6,
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
-        attn_backend_override: _Backend | None = None,
+        attn_backend_override: AttentionBackendEnum | None = None,
     ) -> None:
         super().__init__()
         patch_size = vision_config.patch_size
@@ -515,10 +515,11 @@ class Ernie4_5_VisionTransformer(nn.Module):
             dtype=torch.get_default_dtype(),
             attn_backend_override=attn_backend_override,
         )
-        if self.attn_backend != _Backend.FLASH_ATTN and check_upstream_fa_availability(
-            torch.get_default_dtype()
+        if (
+            self.attn_backend != AttentionBackendEnum.FLASH_ATTN
+            and check_upstream_fa_availability(torch.get_default_dtype())
         ):
-            self.attn_backend = _Backend.FLASH_ATTN
+            self.attn_backend = AttentionBackendEnum.FLASH_ATTN
 
     @property
     def dtype(self) -> torch.dtype:
@@ -565,11 +566,11 @@ class Ernie4_5_VisionTransformer(nn.Module):
     ) -> tuple[int | None, list[int] | None]:
         max_seqlen, seqlens = None, None
         if (
-            self.attn_backend == _Backend.FLASH_ATTN
-            or self.attn_backend == _Backend.ROCM_AITER_FA
+            self.attn_backend == AttentionBackendEnum.FLASH_ATTN
+            or self.attn_backend == AttentionBackendEnum.ROCM_AITER_FA
         ):
             max_seqlen = (cu_seqlens[1:] - cu_seqlens[:-1]).max().item()
-        elif self.attn_backend == _Backend.XFORMERS:
+        elif self.attn_backend == AttentionBackendEnum.XFORMERS:
             seqlens = (cu_seqlens[1:] - cu_seqlens[:-1]).tolist()
         return max_seqlen, seqlens
 
diff --git a/vllm/model_executor/models/glm4_1v.py b/vllm/model_executor/models/glm4_1v.py
index b9cd3545ec453..776527fdd973a 100644
--- a/vllm/model_executor/models/glm4_1v.py
+++ b/vllm/model_executor/models/glm4_1v.py
@@ -46,7 +46,7 @@ from transformers.models.glm4v.image_processing_glm4v import (
 from transformers.models.glm4v.video_processing_glm4v import Glm4vVideoProcessor
 from transformers.video_utils import VideoMetadata
 
-from vllm.attention.backends.registry import _Backend
+from vllm.attention.backends.registry import AttentionBackendEnum
 from vllm.attention.layer import (
     check_upstream_fa_availability,
     maybe_get_vit_flash_attn_backend,
@@ -252,7 +252,7 @@ class Glm4vVisionAttention(nn.Module):
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
         use_data_parallel: bool = False,
-        attn_backend_override: _Backend | None = None,
+        attn_backend_override: AttentionBackendEnum | None = None,
     ) -> None:
         super().__init__()
         # Per attention head and per partition values.
@@ -306,18 +306,18 @@ class Glm4vVisionAttention(nn.Module):
         )
 
         if self.attn_backend not in {
-            _Backend.FLASH_ATTN,
-            _Backend.TORCH_SDPA,
-            _Backend.XFORMERS,
-            _Backend.ROCM_AITER_FA,
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.TORCH_SDPA,
+            AttentionBackendEnum.XFORMERS,
+            AttentionBackendEnum.ROCM_AITER_FA,
         }:
             raise RuntimeError(
                 f"GLM-4V does not support {self.attn_backend} backend now."
             )
 
         self.is_flash_attn_backend = self.attn_backend in {
-            _Backend.FLASH_ATTN,
-            _Backend.ROCM_AITER_FA,
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.ROCM_AITER_FA,
         }
 
     def split_qkv(self, qkv: torch.Tensor) -> tuple[torch.Tensor, ...]:
@@ -377,7 +377,7 @@ class Glm4vVisionAttention(nn.Module):
             context_layer = rearrange(
                 output, "(b s) h d -> s b (h d)", b=batch_size
             ).contiguous()
-        elif self.attn_backend == _Backend.TORCH_SDPA:
+        elif self.attn_backend == AttentionBackendEnum.TORCH_SDPA:
             # Execute attention entry by entry for speed & less VRAM.
             outputs = []
             for i in range(1, len(cu_seqlens)):
@@ -396,7 +396,7 @@ class Glm4vVisionAttention(nn.Module):
             context_layer = rearrange(
                 context_layer, "b s h d -> s b (h d)"
             ).contiguous()
-        elif self.attn_backend == _Backend.XFORMERS:
+        elif self.attn_backend == AttentionBackendEnum.XFORMERS:
             from xformers import ops as xops
             from xformers.ops.fmha.attn_bias import BlockDiagonalMask
 
@@ -425,7 +425,7 @@ class Glm4vVisionBlock(nn.Module):
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
         use_data_parallel: bool = False,
-        attn_backend_override: _Backend | None = None,
+        attn_backend_override: AttentionBackendEnum | None = None,
     ) -> None:
         super().__init__()
         if norm_layer is None:
@@ -703,7 +703,7 @@ class Glm4vVisionTransformer(nn.Module):
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
         use_data_parallel: bool = False,
-        attn_backend_override: _Backend | None = None,
+        attn_backend_override: AttentionBackendEnum | None = None,
     ) -> None:
         super().__init__()
 
@@ -772,10 +772,11 @@ class Glm4vVisionTransformer(nn.Module):
             dtype=torch.get_default_dtype(),
             attn_backend_override=attn_backend_override,
         )
-        if self.attn_backend != _Backend.FLASH_ATTN and check_upstream_fa_availability(
-            torch.get_default_dtype()
+        if (
+            self.attn_backend != AttentionBackendEnum.FLASH_ATTN
+            and check_upstream_fa_availability(torch.get_default_dtype())
         ):
-            self.attn_backend = _Backend.FLASH_ATTN
+            self.attn_backend = AttentionBackendEnum.FLASH_ATTN
 
     @property
     def dtype(self) -> torch.dtype:
@@ -824,8 +825,8 @@ class Glm4vVisionTransformer(nn.Module):
         max_seqlen, seqlens = None, None
         seqlens = (cu_seqlens[1:] - cu_seqlens[:-1]).tolist()
         if (
-            self.attn_backend == _Backend.FLASH_ATTN
-            or self.attn_backend == _Backend.ROCM_AITER_FA
+            self.attn_backend == AttentionBackendEnum.FLASH_ATTN
+            or self.attn_backend == AttentionBackendEnum.ROCM_AITER_FA
         ):
             max_seqlen = (cu_seqlens[1:] - cu_seqlens[:-1]).max().item()
         return max_seqlen, seqlens
diff --git a/vllm/model_executor/models/keye.py b/vllm/model_executor/models/keye.py
index 42f16ad9f3b3a..80d7e6c5b0cd0 100644
--- a/vllm/model_executor/models/keye.py
+++ b/vllm/model_executor/models/keye.py
@@ -16,7 +16,7 @@ from transformers.feature_extraction_utils import BatchFeature
 from transformers.modeling_outputs import BaseModelOutput, BaseModelOutputWithPooling
 from transformers.utils import torch_int
 
-from vllm.attention.backends.registry import _Backend
+from vllm.attention.backends.registry import AttentionBackendEnum
 from vllm.attention.layer import (
     maybe_get_vit_flash_attn_backend,
 )
@@ -360,7 +360,7 @@ class KeyeSiglipAttention(nn.Module):
         config: PretrainedConfig,
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
-        attn_backend_override: _Backend | None = None,
+        attn_backend_override: AttentionBackendEnum | None = None,
     ):
         super().__init__()
         self.config = config
@@ -414,17 +414,17 @@ class KeyeSiglipAttention(nn.Module):
         )
 
         if self.attn_backend not in {
-            _Backend.FLASH_ATTN,
-            _Backend.XFORMERS,
-            _Backend.ROCM_AITER_FA,
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.XFORMERS,
+            AttentionBackendEnum.ROCM_AITER_FA,
         }:
             raise RuntimeError(
                 f"Keye-VL does not support {self.attn_backend} backend now."
             )
 
         self.is_flash_attn_backend = self.attn_backend in {
-            _Backend.FLASH_ATTN,
-            _Backend.ROCM_AITER_FA,
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.ROCM_AITER_FA,
         }
 
     def forward(
@@ -489,7 +489,7 @@ class KeyeSiglipAttention(nn.Module):
                 softmax_scale=self.scale,
             )
             context_layer = rearrange(output, "(b s) ... -> b s ...", b=batch_size)
-        elif self.attn_backend == _Backend.XFORMERS:
+        elif self.attn_backend == AttentionBackendEnum.XFORMERS:
             from xformers import ops as xops
             from xformers.ops.fmha.attn_bias import BlockDiagonalMask
 
@@ -536,7 +536,7 @@ class KeyeSiglipEncoderLayer(nn.Module):
         config: PretrainedConfig,
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
-        attn_backend_override: _Backend | None = None,
+        attn_backend_override: AttentionBackendEnum | None = None,
     ):
         super().__init__()
         self.embed_dim = config.hidden_size
@@ -590,7 +590,7 @@ class KeyeSiglipEncoder(nn.Module):
         config: PretrainedConfig,
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
-        attn_backend_override: _Backend | None = None,
+        attn_backend_override: AttentionBackendEnum | None = None,
     ):
         super().__init__()
         self.config = config
@@ -685,7 +685,7 @@ class KeyeSiglipVisionTransformer(nn.Module):
         config: PretrainedConfig,
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
-        attn_backend_override: _Backend | None = None,
+        attn_backend_override: AttentionBackendEnum | None = None,
     ):
         super().__init__()
         self.config = config
@@ -768,7 +768,7 @@ class KeyeSiglipVisionModel(nn.Module):
         config: PretrainedConfig,
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
-        attn_backend_override: _Backend | None = None,
+        attn_backend_override: AttentionBackendEnum | None = None,
     ):
         super().__init__()
 
diff --git a/vllm/model_executor/models/ovis2_5.py b/vllm/model_executor/models/ovis2_5.py
index f6461ae9a412e..9a4d69dea0968 100644
--- a/vllm/model_executor/models/ovis2_5.py
+++ b/vllm/model_executor/models/ovis2_5.py
@@ -10,7 +10,7 @@ import torch
 import torch.nn as nn
 from transformers import BaseImageProcessor, BatchFeature, PretrainedConfig
 
-from vllm.attention.backends.registry import _Backend
+from vllm.attention.backends.registry import AttentionBackendEnum
 from vllm.config import VllmConfig
 from vllm.config.multimodal import BaseDummyOptions
 from vllm.model_executor.layers.linear import ReplicatedLinear
@@ -106,7 +106,7 @@ class VisualTokenizer(torch.nn.Module):
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
         use_data_parallel: bool = False,
-        attn_backend_override: _Backend | None = None,
+        attn_backend_override: AttentionBackendEnum | None = None,
     ):
         super().__init__()
         self.config = config
@@ -135,7 +135,7 @@ class VisualTokenizer(torch.nn.Module):
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
         use_data_parallel: bool = False,
-        attn_backend_override: _Backend | None = None,
+        attn_backend_override: AttentionBackendEnum | None = None,
     ):
         model_type = config.model_type
         if model_type == "siglip2_navit":
diff --git a/vllm/model_executor/models/paddleocr_vl.py b/vllm/model_executor/models/paddleocr_vl.py
index 12ae15699e7d2..86d7d1c11ffe8 100644
--- a/vllm/model_executor/models/paddleocr_vl.py
+++ b/vllm/model_executor/models/paddleocr_vl.py
@@ -31,7 +31,7 @@ from transformers.modeling_outputs import (
 )
 from transformers.utils import torch_int
 
-from vllm.attention.backends.registry import _Backend
+from vllm.attention.backends.registry import AttentionBackendEnum
 from vllm.attention.layer import (
     check_upstream_fa_availability,
     maybe_get_vit_flash_attn_backend,
@@ -580,8 +580,8 @@ class SiglipAttention(nn.Module):
         projection_size: int,
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
-        attn_backend: _Backend = _Backend.TORCH_SDPA,
-        attn_backend_override: _Backend | None = None,
+        attn_backend: AttentionBackendEnum = AttentionBackendEnum.TORCH_SDPA,
+        attn_backend_override: AttentionBackendEnum | None = None,
         use_upstream_fa: bool = False,
     ) -> None:
         super().__init__()
@@ -621,8 +621,8 @@ class SiglipAttention(nn.Module):
             )
         )
         self.is_flash_attn_backend = self.attn_backend in {
-            _Backend.FLASH_ATTN,
-            _Backend.ROCM_AITER_FA,
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.ROCM_AITER_FA,
         }
 
     def split_qkv(self, qkv: torch.Tensor) -> tuple[torch.Tensor, ...]:
@@ -680,10 +680,10 @@ class SiglipAttention(nn.Module):
                 cu_seqlens,
                 max_seqlen,
                 batch_size,
-                self.attn_backend == _Backend.ROCM_AITER_FA,
+                self.attn_backend == AttentionBackendEnum.ROCM_AITER_FA,
                 self.use_upstream_fa,
             )
-        elif self.attn_backend == _Backend.TORCH_SDPA:
+        elif self.attn_backend == AttentionBackendEnum.TORCH_SDPA:
             outputs = []
             for i in range(1, len(cu_seqlens)):
                 start_idx = cu_seqlens[i - 1]
@@ -702,7 +702,7 @@ class SiglipAttention(nn.Module):
             context_layer = rearrange(
                 context_layer, "b s h d -> s b (h d)"
             ).contiguous()
-        elif self.attn_backend == _Backend.XFORMERS:
+        elif self.attn_backend == AttentionBackendEnum.XFORMERS:
             if seqlens is None:
                 raise ValueError("xFormers attention backend requires seqlens tensor.")
             context_layer = vit_xformers_attn_wrapper(q, k, v, seqlens)
@@ -786,8 +786,8 @@ class SiglipEncoderLayer(nn.Module):
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
         *,
-        attn_backend: _Backend = _Backend.TORCH_SDPA,
-        attn_backend_override: _Backend | None = None,
+        attn_backend: AttentionBackendEnum = AttentionBackendEnum.TORCH_SDPA,
+        attn_backend_override: AttentionBackendEnum | None = None,
         use_upstream_fa: bool = False,
     ):
         super().__init__()
@@ -847,7 +847,7 @@ class SiglipEncoder(nn.Module):
         config: PretrainedConfig,
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
-        attn_backend_override: _Backend | None = None,
+        attn_backend_override: AttentionBackendEnum | None = None,
     ):
         super().__init__()
         self.config = config
@@ -861,16 +861,16 @@ class SiglipEncoder(nn.Module):
         )
         self.use_upstream_fa = False
         if self.attn_backend not in {
-            _Backend.FLASH_ATTN,
-            _Backend.ROCM_AITER_FA,
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.ROCM_AITER_FA,
         } and check_upstream_fa_availability(torch.get_default_dtype()):
-            self.attn_backend = _Backend.FLASH_ATTN
+            self.attn_backend = AttentionBackendEnum.FLASH_ATTN
             self.use_upstream_fa = True
         if self.attn_backend not in {
-            _Backend.FLASH_ATTN,
-            _Backend.TORCH_SDPA,
-            _Backend.XFORMERS,
-            _Backend.ROCM_AITER_FA,
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.TORCH_SDPA,
+            AttentionBackendEnum.XFORMERS,
+            AttentionBackendEnum.ROCM_AITER_FA,
         }:
             raise RuntimeError(
                 f"PaddleOCR-VL does not support {self.attn_backend} backend now."
@@ -943,9 +943,12 @@ class SiglipEncoder(nn.Module):
 
         max_seqlen = None
         seqlens = None
-        if self.attn_backend in {_Backend.FLASH_ATTN, _Backend.ROCM_AITER_FA}:
+        if self.attn_backend in {
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.ROCM_AITER_FA,
+        }:
             max_seqlen = (cu_seqlens[1:] - cu_seqlens[:-1]).max()
-        elif self.attn_backend == _Backend.XFORMERS:
+        elif self.attn_backend == AttentionBackendEnum.XFORMERS:
             seqlens = cu_seqlens[1:] - cu_seqlens[:-1]
 
         hidden_states = inputs_embeds
@@ -966,7 +969,7 @@ class SiglipVisionTransformer(nn.Module):
         config: PretrainedConfig,
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
-        attn_backend_override: _Backend | None = None,
+        attn_backend_override: AttentionBackendEnum | None = None,
     ):
         super().__init__()
         self.config = config
@@ -1016,7 +1019,7 @@ class SiglipVisionModel(nn.Module):
         config,
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
-        attn_backend_override: _Backend | None = None,
+        attn_backend_override: AttentionBackendEnum | None = None,
     ):
         super().__init__()
 
diff --git a/vllm/model_executor/models/qwen2_5_vl.py b/vllm/model_executor/models/qwen2_5_vl.py
index 48834ba699e4c..3292cf8220ffe 100644
--- a/vllm/model_executor/models/qwen2_5_vl.py
+++ b/vllm/model_executor/models/qwen2_5_vl.py
@@ -42,7 +42,7 @@ from transformers.models.qwen2_5_vl.configuration_qwen2_5_vl import (
     Qwen2_5_VLVisionConfig,
 )
 
-from vllm.attention.backends.registry import _Backend
+from vllm.attention.backends.registry import AttentionBackendEnum
 from vllm.attention.layer import maybe_get_vit_flash_attn_backend
 from vllm.attention.ops.vit_attn_wrappers import (
     vit_flash_attn_wrapper,
@@ -315,9 +315,9 @@ class Qwen2_5_VisionAttention(nn.Module):
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
         use_data_parallel: bool = False,
-        attn_backend: _Backend = _Backend.TORCH_SDPA,
+        attn_backend: AttentionBackendEnum = AttentionBackendEnum.TORCH_SDPA,
         use_upstream_fa: bool = False,
-        attn_backend_override: _Backend | None = None,
+        attn_backend_override: AttentionBackendEnum | None = None,
     ) -> None:
         super().__init__()
         # Per attention head and per partition values.
@@ -364,13 +364,16 @@ class Qwen2_5_VisionAttention(nn.Module):
         # On ROCm with FLASH_ATTN backend, upstream flash_attn is used
         from vllm.platforms import current_platform
 
-        if current_platform.is_rocm() and self.attn_backend == _Backend.FLASH_ATTN:
+        if (
+            current_platform.is_rocm()
+            and self.attn_backend == AttentionBackendEnum.FLASH_ATTN
+        ):
             self.use_upstream_fa = True
         if current_platform.is_xpu():
             self.use_upstream_fa = False
         self.is_flash_attn_backend = self.attn_backend in {
-            _Backend.FLASH_ATTN,
-            _Backend.ROCM_AITER_FA,
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.ROCM_AITER_FA,
         }
 
     def split_qkv(self, qkv: torch.Tensor) -> tuple[torch.Tensor, ...]:
@@ -431,10 +434,10 @@ class Qwen2_5_VisionAttention(nn.Module):
                 cu_seqlens,
                 max_seqlen,
                 batch_size,
-                self.attn_backend == _Backend.ROCM_AITER_FA,
+                self.attn_backend == AttentionBackendEnum.ROCM_AITER_FA,
                 self.use_upstream_fa,
             )
-        elif self.attn_backend == _Backend.TORCH_SDPA:
+        elif self.attn_backend == AttentionBackendEnum.TORCH_SDPA:
             # Execute attention entry by entry for speed & less VRAM.
             from vllm.platforms import current_platform
 
@@ -450,7 +453,7 @@ class Qwen2_5_VisionAttention(nn.Module):
                 v,
                 cu_seqlens,
             )
-        elif self.attn_backend == _Backend.XFORMERS:
+        elif self.attn_backend == AttentionBackendEnum.XFORMERS:
             context_layer = vit_xformers_attn_wrapper(q, k, v, seqlens)
 
         output, _ = self.proj(context_layer)
@@ -478,9 +481,9 @@ class Qwen2_5_VisionBlock(nn.Module):
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
         use_data_parallel: bool = False,
-        attn_backend: _Backend = _Backend.TORCH_SDPA,
+        attn_backend: AttentionBackendEnum = AttentionBackendEnum.TORCH_SDPA,
         use_upstream_fa: bool = False,
-        attn_backend_override: _Backend | None = None,
+        attn_backend_override: AttentionBackendEnum | None = None,
     ) -> None:
         super().__init__()
         if norm_layer is None:
@@ -656,7 +659,7 @@ class Qwen2_5_VisionTransformer(nn.Module):
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
         use_data_parallel: bool = False,
-        attn_backend_override: _Backend | None = None,
+        attn_backend_override: AttentionBackendEnum | None = None,
     ) -> None:
         super().__init__()
 
@@ -708,10 +711,10 @@ class Qwen2_5_VisionTransformer(nn.Module):
         )
 
         if self.attn_backend not in {
-            _Backend.FLASH_ATTN,
-            _Backend.TORCH_SDPA,
-            _Backend.XFORMERS,
-            _Backend.ROCM_AITER_FA,
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.TORCH_SDPA,
+            AttentionBackendEnum.XFORMERS,
+            AttentionBackendEnum.ROCM_AITER_FA,
         }:
             raise RuntimeError(
                 f"Qwen2.5-VL does not support {self.attn_backend} backend now."
@@ -850,9 +853,12 @@ class Qwen2_5_VisionTransformer(nn.Module):
     ) -> tuple[torch.Tensor, torch.Tensor]:
         max_seqlen = torch.zeros([], device=cu_seqlens.device)
         seqlens = torch.zeros(1, device=cu_seqlens.device)
-        if self.attn_backend in {_Backend.FLASH_ATTN, _Backend.ROCM_AITER_FA}:
+        if self.attn_backend in {
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.ROCM_AITER_FA,
+        }:
             max_seqlen = (cu_seqlens[1:] - cu_seqlens[:-1]).max()
-        elif self.attn_backend == _Backend.XFORMERS:
+        elif self.attn_backend == AttentionBackendEnum.XFORMERS:
             seqlens = cu_seqlens[1:] - cu_seqlens[:-1]
         return max_seqlen, seqlens
 
diff --git a/vllm/model_executor/models/qwen2_vl.py b/vllm/model_executor/models/qwen2_vl.py
index b3999e6c934e3..61057fa145f47 100644
--- a/vllm/model_executor/models/qwen2_vl.py
+++ b/vllm/model_executor/models/qwen2_vl.py
@@ -43,7 +43,7 @@ from transformers.models.qwen2_vl.configuration_qwen2_vl import (
 from transformers.models.qwen2_vl.image_processing_qwen2_vl import smart_resize
 from transformers.models.qwen2_vl.video_processing_qwen2_vl import Qwen2VLVideoProcessor
 
-from vllm.attention.backends.registry import _Backend
+from vllm.attention.backends.registry import AttentionBackendEnum
 from vllm.attention.layer import (
     check_upstream_fa_availability,
     maybe_get_vit_flash_attn_backend,
@@ -329,7 +329,7 @@ class Qwen2VisionAttention(nn.Module):
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
         use_data_parallel: bool = False,
-        attn_backend_override: _Backend | None = None,
+        attn_backend_override: AttentionBackendEnum | None = None,
     ) -> None:
         super().__init__()
         # Per attention head and per partition values.
@@ -378,18 +378,18 @@ class Qwen2VisionAttention(nn.Module):
         )
 
         if self.attn_backend not in {
-            _Backend.FLASH_ATTN,
-            _Backend.TORCH_SDPA,
-            _Backend.XFORMERS,
-            _Backend.ROCM_AITER_FA,
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.TORCH_SDPA,
+            AttentionBackendEnum.XFORMERS,
+            AttentionBackendEnum.ROCM_AITER_FA,
         }:
             raise RuntimeError(
                 f"Qwen2-VL does not support {self.attn_backend} backend now."
             )
 
         self.is_flash_attn_backend = self.attn_backend in {
-            _Backend.FLASH_ATTN,
-            _Backend.ROCM_AITER_FA,
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.ROCM_AITER_FA,
         }
 
     def split_qkv(self, qkv: torch.Tensor) -> tuple[torch.Tensor, ...]:
@@ -460,7 +460,7 @@ class Qwen2VisionAttention(nn.Module):
             context_layer = rearrange(
                 output, "(b s) h d -> s b (h d)", b=batch_size
             ).contiguous()
-        elif self.attn_backend == _Backend.TORCH_SDPA:
+        elif self.attn_backend == AttentionBackendEnum.TORCH_SDPA:
             # Execute attention entry by entry for speed & less VRAM.
             from vllm.platforms import current_platform
 
@@ -485,7 +485,7 @@ class Qwen2VisionAttention(nn.Module):
             context_layer = rearrange(
                 context_layer, "b s h d -> s b (h d)"
             ).contiguous()
-        elif self.attn_backend == _Backend.XFORMERS:
+        elif self.attn_backend == AttentionBackendEnum.XFORMERS:
             from xformers import ops as xops
             from xformers.ops.fmha.attn_bias import BlockDiagonalMask
 
@@ -515,7 +515,7 @@ class Qwen2VisionBlock(nn.Module):
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
         use_data_parallel: bool = False,
-        attn_backend_override: _Backend | None = None,
+        attn_backend_override: AttentionBackendEnum | None = None,
     ) -> None:
         super().__init__()
         if norm_layer is None:
@@ -679,7 +679,7 @@ class Qwen2VisionTransformer(nn.Module):
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
         use_data_parallel: bool = False,
-        attn_backend_override: _Backend | None = None,
+        attn_backend_override: AttentionBackendEnum | None = None,
     ) -> None:
         super().__init__()
 
@@ -739,10 +739,11 @@ class Qwen2VisionTransformer(nn.Module):
             dtype=torch.get_default_dtype(),
             attn_backend_override=attn_backend_override,
         )
-        if self.attn_backend != _Backend.FLASH_ATTN and check_upstream_fa_availability(
-            torch.get_default_dtype()
+        if (
+            self.attn_backend != AttentionBackendEnum.FLASH_ATTN
+            and check_upstream_fa_availability(torch.get_default_dtype())
         ):
-            self.attn_backend = _Backend.FLASH_ATTN
+            self.attn_backend = AttentionBackendEnum.FLASH_ATTN
 
     @property
     def dtype(self) -> torch.dtype:
@@ -789,9 +790,12 @@ class Qwen2VisionTransformer(nn.Module):
         self, cu_seqlens: torch.Tensor
     ) -> tuple[int | None, list[int] | None]:
         max_seqlen, seqlens = None, None
-        if self.attn_backend in {_Backend.FLASH_ATTN, _Backend.ROCM_AITER_FA}:
+        if self.attn_backend in {
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.ROCM_AITER_FA,
+        }:
             max_seqlen = (cu_seqlens[1:] - cu_seqlens[:-1]).max().item()
-        elif self.attn_backend == _Backend.XFORMERS:
+        elif self.attn_backend == AttentionBackendEnum.XFORMERS:
             seqlens = (cu_seqlens[1:] - cu_seqlens[:-1]).tolist()
         return max_seqlen, seqlens
 
diff --git a/vllm/model_executor/models/qwen3_omni_moe_thinker.py b/vllm/model_executor/models/qwen3_omni_moe_thinker.py
index da489a812f55d..468b25220154b 100755
--- a/vllm/model_executor/models/qwen3_omni_moe_thinker.py
+++ b/vllm/model_executor/models/qwen3_omni_moe_thinker.py
@@ -47,7 +47,7 @@ from transformers.models.qwen3_omni_moe.processing_qwen3_omni_moe import (
 )
 from transformers.models.whisper import WhisperFeatureExtractor
 
-from vllm.attention.backends.registry import _Backend
+from vllm.attention.backends.registry import AttentionBackendEnum
 from vllm.attention.layer import check_upstream_fa_availability
 from vllm.compilation.decorators import support_torch_compile
 from vllm.config import VllmConfig
@@ -301,7 +301,7 @@ class Qwen3Omni_VisionTransformer(nn.Module):
         norm_eps: float = 1e-6,
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
-        attn_backend_override: _Backend | None = None,
+        attn_backend_override: AttentionBackendEnum | None = None,
     ) -> None:
         super().__init__()
         self.hidden_size = vision_config.hidden_size
@@ -377,10 +377,11 @@ class Qwen3Omni_VisionTransformer(nn.Module):
             dtype=torch.get_default_dtype(),
             attn_backend_override=attn_backend_override,
         )
-        if self.attn_backend != _Backend.FLASH_ATTN and check_upstream_fa_availability(
-            torch.get_default_dtype()
+        if (
+            self.attn_backend != AttentionBackendEnum.FLASH_ATTN
+            and check_upstream_fa_availability(torch.get_default_dtype())
         ):
-            self.attn_backend = _Backend.FLASH_ATTN
+            self.attn_backend = AttentionBackendEnum.FLASH_ATTN
 
     @property
     def dtype(self) -> torch.dtype:
@@ -490,9 +491,9 @@ class Qwen3Omni_VisionTransformer(nn.Module):
     ) -> tuple[torch.Tensor, torch.Tensor]:
         max_seqlen = torch.zeros([], device=cu_seqlens.device)
         seqlens = torch.zeros(1, device=cu_seqlens.device)
-        if self.attn_backend == _Backend.FLASH_ATTN:
+        if self.attn_backend == AttentionBackendEnum.FLASH_ATTN:
             max_seqlen = (cu_seqlens[1:] - cu_seqlens[:-1]).max()
-        elif self.attn_backend == _Backend.XFORMERS:
+        elif self.attn_backend == AttentionBackendEnum.XFORMERS:
             seqlens = cu_seqlens[1:] - cu_seqlens[:-1]
         return max_seqlen, seqlens
 
diff --git a/vllm/model_executor/models/qwen3_vl.py b/vllm/model_executor/models/qwen3_vl.py
index 1cd34bf54a35f..1be35cde7dbdc 100644
--- a/vllm/model_executor/models/qwen3_vl.py
+++ b/vllm/model_executor/models/qwen3_vl.py
@@ -49,7 +49,7 @@ from transformers.models.qwen3_vl.video_processing_qwen3_vl import (
 )
 from transformers.video_utils import VideoMetadata
 
-from vllm.attention.backends.registry import _Backend
+from vllm.attention.backends.registry import AttentionBackendEnum
 from vllm.attention.layer import check_upstream_fa_availability
 from vllm.compilation.decorators import support_torch_compile
 from vllm.config import VllmConfig
@@ -198,7 +198,7 @@ class Qwen3_VisionBlock(nn.Module):
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
         use_data_parallel: bool = False,
-        attn_backend: _Backend = _Backend.TORCH_SDPA,
+        attn_backend: AttentionBackendEnum = AttentionBackendEnum.TORCH_SDPA,
         use_upstream_fa: bool = False,
     ) -> None:
         super().__init__()
@@ -306,7 +306,7 @@ class Qwen3_VisionTransformer(nn.Module):
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
         use_data_parallel: bool = False,
-        attn_backend_override: _Backend | None = None,
+        attn_backend_override: AttentionBackendEnum | None = None,
     ) -> None:
         super().__init__()
         self.hidden_size = vision_config.hidden_size
@@ -372,18 +372,18 @@ class Qwen3_VisionTransformer(nn.Module):
         )
         use_upstream_fa = False
         if (
-            self.attn_backend != _Backend.FLASH_ATTN
-            and self.attn_backend != _Backend.ROCM_AITER_FA
+            self.attn_backend != AttentionBackendEnum.FLASH_ATTN
+            and self.attn_backend != AttentionBackendEnum.ROCM_AITER_FA
             and check_upstream_fa_availability(torch.get_default_dtype())
         ):
-            self.attn_backend = _Backend.FLASH_ATTN
+            self.attn_backend = AttentionBackendEnum.FLASH_ATTN
             use_upstream_fa = True
 
         if self.attn_backend not in {
-            _Backend.FLASH_ATTN,
-            _Backend.TORCH_SDPA,
-            _Backend.XFORMERS,
-            _Backend.ROCM_AITER_FA,
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.TORCH_SDPA,
+            AttentionBackendEnum.XFORMERS,
+            AttentionBackendEnum.ROCM_AITER_FA,
         }:
             raise RuntimeError(
                 f"Qwen3-VL does not support {self.attn_backend} backend now."
@@ -510,11 +510,11 @@ class Qwen3_VisionTransformer(nn.Module):
         max_seqlen = torch.zeros([], device=cu_seqlens.device)
         seqlens = torch.zeros(1, device=cu_seqlens.device)
         if (
-            self.attn_backend == _Backend.FLASH_ATTN
-            or self.attn_backend == _Backend.ROCM_AITER_FA
+            self.attn_backend == AttentionBackendEnum.FLASH_ATTN
+            or self.attn_backend == AttentionBackendEnum.ROCM_AITER_FA
         ):
             max_seqlen = (cu_seqlens[1:] - cu_seqlens[:-1]).max()
-        elif self.attn_backend == _Backend.XFORMERS:
+        elif self.attn_backend == AttentionBackendEnum.XFORMERS:
             seqlens = cu_seqlens[1:] - cu_seqlens[:-1]
         return max_seqlen, seqlens
 
diff --git a/vllm/model_executor/models/siglip2navit.py b/vllm/model_executor/models/siglip2navit.py
index bab5c1d82deda..c20bcd975ca30 100644
--- a/vllm/model_executor/models/siglip2navit.py
+++ b/vllm/model_executor/models/siglip2navit.py
@@ -12,7 +12,7 @@ from torch.nn import functional as F
 from transformers import Siglip2VisionConfig
 from transformers.configuration_utils import PretrainedConfig
 
-from vllm.attention.backends.registry import _Backend
+from vllm.attention.backends.registry import AttentionBackendEnum
 from vllm.attention.layer import maybe_get_vit_flash_attn_backend
 from vllm.distributed import divide, get_tensor_model_parallel_world_size
 from vllm.model_executor.layers.activation import get_act_fn
@@ -208,7 +208,7 @@ class Siglip2Attention(nn.Module):
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
         use_data_parallel: bool = False,
-        attn_backend_override: _Backend | None = None,
+        attn_backend_override: AttentionBackendEnum | None = None,
     ):
         super().__init__()
         self.config = config
@@ -264,14 +264,14 @@ class Siglip2Attention(nn.Module):
         )
 
         if self.attn_backend not in {
-            _Backend.FLASH_ATTN,
-            _Backend.TORCH_SDPA,
-            _Backend.ROCM_AITER_FA,
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.TORCH_SDPA,
+            AttentionBackendEnum.ROCM_AITER_FA,
         }:
-            self.attn_backend = _Backend.TORCH_SDPA
+            self.attn_backend = AttentionBackendEnum.TORCH_SDPA
         self.is_flash_attn_backend = self.attn_backend in {
-            _Backend.FLASH_ATTN,
-            _Backend.ROCM_AITER_FA,
+            AttentionBackendEnum.FLASH_ATTN,
+            AttentionBackendEnum.ROCM_AITER_FA,
         }
 
     def forward(
@@ -308,7 +308,7 @@ class Siglip2Attention(nn.Module):
             attn_output = self.flash_attn_varlen_func(
                 queries, keys, values, cu_seqlens, cu_seqlens, max_seqlen, max_seqlen
             ).reshape(seq_length, -1)
-        elif self.attn_backend == _Backend.TORCH_SDPA:
+        elif self.attn_backend == AttentionBackendEnum.TORCH_SDPA:
             # Execute attention entry by entry for speed & less VRAM.
             batch_size = cu_seqlens.shape[0] - 1
             outputs = []
@@ -376,7 +376,7 @@ class Siglip2EncoderLayer(nn.Module):
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
         use_data_parallel: bool = False,
-        attn_backend_override: _Backend | None = None,
+        attn_backend_override: AttentionBackendEnum | None = None,
     ):
         super().__init__()
         self.embed_dim = config.hidden_size
@@ -440,7 +440,7 @@ class Siglip2Encoder(nn.Module):
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
         use_data_parallel: bool = False,
-        attn_backend_override: _Backend | None = None,
+        attn_backend_override: AttentionBackendEnum | None = None,
     ):
         super().__init__()
         self.config = config
@@ -626,7 +626,7 @@ class Siglip2VisionTransformer(nn.Module):
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
         use_data_parallel: bool = False,
-        attn_backend_override: _Backend | None = None,
+        attn_backend_override: AttentionBackendEnum | None = None,
     ):
         super().__init__()
         self.config = config
@@ -667,7 +667,7 @@ class Siglip2NavitModel(torch.nn.Module):
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
         use_data_parallel: bool = False,
-        attn_backend_override: _Backend | None = None,
+        attn_backend_override: AttentionBackendEnum | None = None,
     ):
         super().__init__()
 
diff --git a/vllm/model_executor/models/vision.py b/vllm/model_executor/models/vision.py
index 9f94387c700d6..0e814e5c86ad4 100644
--- a/vllm/model_executor/models/vision.py
+++ b/vllm/model_executor/models/vision.py
@@ -10,7 +10,7 @@ from typing import Final, Generic, Literal, Protocol, TypeAlias, TypeVar
 import torch
 from transformers import PretrainedConfig
 
-from vllm.attention.backends.registry import _Backend
+from vllm.attention.backends.registry import AttentionBackendEnum
 from vllm.config import VllmConfig
 from vllm.distributed import (
     get_tensor_model_parallel_rank,
@@ -83,8 +83,8 @@ def get_vit_attn_backend(
     head_size: int,
     dtype: torch.dtype,
     *,
-    attn_backend_override: _Backend | None = None,
-) -> _Backend:
+    attn_backend_override: AttentionBackendEnum | None = None,
+) -> AttentionBackendEnum:
     """
     Get the available attention backend for Vision Transformer.
     """
@@ -94,7 +94,7 @@ def get_vit_attn_backend(
     # Lazy import to avoid circular dependency
     from vllm.attention.selector import get_env_variable_attn_backend
 
-    selected_backend: _Backend | None = get_env_variable_attn_backend()
+    selected_backend: AttentionBackendEnum | None = get_env_variable_attn_backend()
     if selected_backend is not None:
         return selected_backend
 
diff --git a/vllm/platforms/cpu.py b/vllm/platforms/cpu.py
index ee904535ffe8d..3dec6da897025 100644
--- a/vllm/platforms/cpu.py
+++ b/vllm/platforms/cpu.py
@@ -23,10 +23,10 @@ from .interface import CpuArchEnum, Platform, PlatformEnum
 logger = init_logger(__name__)
 
 if TYPE_CHECKING:
-    from vllm.attention.backends.registry import _Backend
+    from vllm.attention.backends.registry import AttentionBackendEnum
     from vllm.config import VllmConfig
 else:
-    _Backend = None
+    AttentionBackendEnum = None
     VllmConfig = None
 
 
@@ -127,7 +127,7 @@ class CpuPlatform(Platform):
     @classmethod
     def get_attn_backend_cls(
         cls,
-        selected_backend: "_Backend",
+        selected_backend: "AttentionBackendEnum",
         head_size: int,
         dtype: torch.dtype,
         kv_cache_dtype: str | None,
@@ -137,9 +137,9 @@ class CpuPlatform(Platform):
         has_sink: bool,
         use_sparse: bool,
     ) -> str:
-        from vllm.attention.backends.registry import _Backend
+        from vllm.attention.backends.registry import AttentionBackendEnum
 
-        if selected_backend and selected_backend != _Backend.TORCH_SDPA:
+        if selected_backend and selected_backend != AttentionBackendEnum.TORCH_SDPA:
             logger.info("Cannot use %s backend on CPU.", selected_backend)
         if use_mla:
             raise NotImplementedError("MLA is not supported on CPU.")
@@ -148,7 +148,7 @@ class CpuPlatform(Platform):
         logger.info("Using Torch SDPA backend.")
         if not use_v1:
             raise ValueError("CPU backend only supports V1.")
-        return "vllm.v1.attention.backends.cpu_attn.TorchSDPABackend"
+        return AttentionBackendEnum.TORCH_SDPA.get_path()
 
     @classmethod
     def get_device_total_memory(cls, device_id: int = 0) -> int:
diff --git a/vllm/platforms/cuda.py b/vllm/platforms/cuda.py
index 32734c3aba5ef..43daf5e75b665 100644
--- a/vllm/platforms/cuda.py
+++ b/vllm/platforms/cuda.py
@@ -22,10 +22,13 @@ from vllm.utils.torch_utils import cuda_device_count_stateless
 from .interface import DeviceCapability, Platform, PlatformEnum
 
 if TYPE_CHECKING:
-    from vllm.attention.backends.registry import _Backend
+    from vllm.attention.backends.registry import AttentionBackendEnum
     from vllm.config import VllmConfig
+    from vllm.config.cache import CacheDType
 else:
-    _Backend = None
+    AttentionBackendEnum = None
+    VllmConfig = None
+    CacheDType = None
 
 logger = init_logger(__name__)
 
@@ -39,6 +42,49 @@ pynvml = import_pynvml()
 torch.backends.cuda.enable_cudnn_sdp(False)
 
 
+@cache
+def _get_backend_priorities(
+    use_mla: bool,
+    device_capability: DeviceCapability,
+) -> list[AttentionBackendEnum]:
+    """Get backend priorities with lazy import to avoid circular dependency."""
+    from vllm.attention.backends.registry import AttentionBackendEnum
+
+    if use_mla:
+        if device_capability.major == 10:
+            return [
+                AttentionBackendEnum.CUTLASS_MLA,
+                AttentionBackendEnum.FLASHINFER_MLA,
+                AttentionBackendEnum.FLASHMLA,
+                AttentionBackendEnum.FLASH_ATTN_MLA,
+                AttentionBackendEnum.TRITON_MLA,
+                AttentionBackendEnum.FLASHMLA_SPARSE,
+            ]
+        else:
+            return [
+                AttentionBackendEnum.FLASHMLA,
+                AttentionBackendEnum.FLASH_ATTN_MLA,
+                AttentionBackendEnum.FLASHINFER_MLA,
+                AttentionBackendEnum.TRITON_MLA,
+                AttentionBackendEnum.FLASHMLA_SPARSE,
+            ]
+    else:
+        if device_capability.major == 10:
+            return [
+                AttentionBackendEnum.FLASHINFER,
+                AttentionBackendEnum.FLASH_ATTN,
+                AttentionBackendEnum.TRITON_ATTN,
+                AttentionBackendEnum.FLEX_ATTENTION,
+            ]
+        else:
+            return [
+                AttentionBackendEnum.FLASH_ATTN,
+                AttentionBackendEnum.FLASHINFER,
+                AttentionBackendEnum.TRITON_ATTN,
+                AttentionBackendEnum.FLEX_ATTENTION,
+            ]
+
+
 def with_nvml_context(fn: Callable[_P, _R]) -> Callable[_P, _R]:
     @wraps(fn)
     def wrapper(*args: _P.args, **kwargs: _P.kwargs) -> _R:
@@ -216,217 +262,171 @@ class CudaPlatformBase(Platform):
         return torch.cuda.max_memory_allocated(device)
 
     @classmethod
-    def get_vit_attn_backend(cls, head_size: int, dtype: torch.dtype) -> "_Backend":
-        from vllm.attention.backends.registry import _Backend
+    def get_vit_attn_backend(
+        cls, head_size: int, dtype: torch.dtype
+    ) -> "AttentionBackendEnum":
+        from vllm.attention.backends.registry import AttentionBackendEnum
 
         # For Blackwell GPUs, force TORCH_SDPA for now.
         # See https://github.com/facebookresearch/xformers/issues/1317#issuecomment-3199392579 # noqa: E501
         if cls.has_device_capability(100):
-            return _Backend.TORCH_SDPA
+            return AttentionBackendEnum.TORCH_SDPA
 
         if dtype not in (torch.float16, torch.bfloat16):
-            return _Backend.XFORMERS
+            return AttentionBackendEnum.XFORMERS
 
         if cls.has_device_capability(80):
-            FLASH_ATTN_V1 = (
-                "vllm.v1.attention.backends.flash_attn.FlashAttentionBackend"  # noqa: E501
-            )
-            from vllm.attention.selector import is_attn_backend_supported
-
-            is_default_fa_supported = is_attn_backend_supported(
-                FLASH_ATTN_V1, head_size, dtype, allow_import_error=False
-            )
-            if is_default_fa_supported:
-                return _Backend.FLASH_ATTN
+            backend_class = AttentionBackendEnum.FLASH_ATTN.get_class()
+            if backend_class.supports_head_size(
+                head_size
+            ) and backend_class.supports_dtype(dtype):
+                return AttentionBackendEnum.FLASH_ATTN
             else:
-                # Fallback to XFORMERS
-                return _Backend.XFORMERS
+                return AttentionBackendEnum.XFORMERS
         else:
             # Fallback for Volta/Turing GPUs or FA not supported
-            return _Backend.XFORMERS
+            return AttentionBackendEnum.XFORMERS
 
     @classmethod
-    def get_attn_backend_cls(
+    def get_valid_backends(
         cls,
-        selected_backend,
         head_size,
         dtype,
         kv_cache_dtype,
         block_size,
-        use_v1,
         use_mla,
         has_sink,
         use_sparse,
+        device_capability,
+    ) -> tuple[
+        list[tuple["AttentionBackendEnum", int]],
+        dict["AttentionBackendEnum", list[str]],
+    ]:
+        valid_backends_priorities = []
+        invalid_reasons = {}
+
+        backend_priorities = _get_backend_priorities(use_mla, device_capability)
+        for priority, backend in enumerate(backend_priorities):
+            try:
+                backend_class = backend.get_class()
+                invalid_reasons_i = backend_class.validate_configuration(
+                    head_size,
+                    dtype,
+                    kv_cache_dtype,
+                    block_size,
+                    use_mla,
+                    has_sink,
+                    use_sparse,
+                    device_capability,
+                )
+            except ImportError:
+                invalid_reasons_i = ["ImportError"]
+            if invalid_reasons_i:
+                invalid_reasons[backend] = invalid_reasons_i
+            else:
+                valid_backends_priorities.append((backend, priority))
+
+        return valid_backends_priorities, invalid_reasons
+
+    @classmethod
+    def get_attn_backend_cls(
+        cls,
+        selected_backend: "AttentionBackendEnum",
+        head_size: int,
+        dtype: torch.dtype,
+        kv_cache_dtype: "CacheDType | None",
+        block_size: int | None,
+        use_v1: bool,
+        use_mla: bool,
+        has_sink: bool,
+        use_sparse: bool,
     ) -> str:
-        from vllm.attention.backends.registry import _Backend
+        if not use_v1:
+            raise RuntimeError(
+                "V0 attention backends have been removed. Set VLLM_USE_V1=1 "
+                "to select a supported backend."
+            )
 
-        if use_mla:
-            # explicitly reject non-MLA backends when MLA is enabled to avoid
-            # silently selecting an incompatible backend (e.g., FLASHINFER).
-            if selected_backend in {
-                _Backend.FLASHINFER,
-                _Backend.FLASH_ATTN,
-                _Backend.TRITON_ATTN,
-                _Backend.TREE_ATTN,
-                _Backend.XFORMERS,
-            }:
+        device_capability = cls.get_device_capability()
+        assert device_capability is not None
+
+        # First try checking just the selected backend, if there is one.
+        if selected_backend is not None:
+            try:
+                backend_class = selected_backend.get_class()
+                invalid_reasons = backend_class.validate_configuration(
+                    head_size,
+                    dtype,
+                    kv_cache_dtype,
+                    None,
+                    use_mla,
+                    has_sink,
+                    use_sparse,
+                    device_capability,
+                )
+            except ImportError:
+                invalid_reasons = ["ImportError"]
+            if invalid_reasons:
                 raise ValueError(
-                    f"Attention backend {selected_backend} incompatible with MLA. "
-                    "Please use one of the MLA backends: FLASHINFER_MLA, CUTLASS_MLA, "
-                    "FLASHMLA, FLASH_ATTN_MLA, or TRITON_MLA. Alternatively, set "
-                    "VLLM_MLA_DISABLE=1 to disable MLA for this model."
+                    f"Selected backend {selected_backend} is not valid for "
+                    f"this configuration. Reason: {invalid_reasons}"
                 )
+            else:
+                logger.info("Using %s backend.", selected_backend)
+                return selected_backend.get_path()
 
-            from vllm.attention.ops.flashmla import is_flashmla_dense_supported
-            from vllm.attention.utils.fa_utils import flash_attn_supports_mla
-
-            if use_sparse:
-                logger.info_once("Using Sparse MLA backend.")
-                return (
-                    "vllm.v1.attention.backends.mla.flashmla_sparse."
-                    "FlashMLASparseBackend"
-                )
-
-            use_cutlassmla = selected_backend == _Backend.CUTLASS_MLA or (
-                selected_backend is None
-                and cls.is_device_capability(100)
-                and block_size % 128 == 0
-            )
-            use_flashinfermla = selected_backend == _Backend.FLASHINFER_MLA or (
-                selected_backend is None
-                and cls.is_device_capability(100)
-                and (block_size == 32 or block_size % 64 == 0)
-            )
-            use_flashmla = selected_backend == _Backend.FLASHMLA or (
-                selected_backend is None and is_flashmla_dense_supported()[0]
-            )
-            use_flashattn = selected_backend == _Backend.FLASH_ATTN_MLA or (
-                selected_backend is None and flash_attn_supports_mla()
-            )
-            use_triton = selected_backend == _Backend.TRITON_MLA or (
-                selected_backend is None
-            )
-
-            if use_cutlassmla:
-                logger.info_once("Using Cutlass MLA backend.", scope="local")
-                return "vllm.v1.attention.backends.mla.cutlass_mla.CutlassMLABackend"
-            if use_flashinfermla:
-                from vllm.v1.attention.backends.utils import set_kv_cache_layout
-
-                set_kv_cache_layout("HND")
-                logger.info_once("Using FlashInfer MLA backend.")
-                return (
-                    "vllm.v1.attention.backends.mla.flashinfer_mla.FlashInferMLABackend"
-                )
-            if use_flashmla:
-                if block_size % 64 != 0:
-                    logger.warning(
-                        "FlashMLA backend is not supported for block size %d"
-                        " (currently only supports block size 64).",
-                        block_size,
-                    )
-                else:
-                    logger.info_once("Using FlashMLA backend.")
-                    return "vllm.v1.attention.backends.mla.flashmla.FlashMLABackend"
-            if use_flashattn:
-                logger.info_once("Using FlashAttention MLA backend.")
-                return (
-                    "vllm.v1.attention.backends.mla.flashattn_mla.FlashAttnMLABackend"
-                )
-            if use_triton:
-                logger.info_once("Using Triton MLA backend.")
-                return "vllm.v1.attention.backends.mla.triton_mla.TritonMLABackend"
-
-        FLASHINFER_V1 = "vllm.v1.attention.backends.flashinfer.FlashInferBackend"  # noqa: E501
-        FLEX_ATTENTION_V1 = (
-            "vllm.v1.attention.backends.flex_attention.FlexAttentionBackend"  # noqa: E501
+        # No selected backend or the selected backend is invalid,
+        # so we try finding a valid backend.
+        valid_backends_priorities, invalid_reasons = cls.get_valid_backends(
+            head_size,
+            dtype,
+            kv_cache_dtype,
+            None,
+            use_mla,
+            has_sink,
+            use_sparse,
+            device_capability,
         )
-        TRITON_ATTN = "vllm.v1.attention.backends.triton_attn.TritonAttentionBackend"  # noqa: E501
-        FLASH_ATTN_V1 = "vllm.v1.attention.backends.flash_attn.FlashAttentionBackend"  # noqa: E501
-        TREE_ATTN_V1 = "vllm.v1.attention.backends.tree_attn.TreeAttentionBackend"  # noqa: E501
-        XFORMERS_V1 = "vllm.v1.attention.backends.xformers.XFormersAttentionBackend"  # noqa: E501
+        reasons_str = (
+            "{"
+            + ", ".join(
+                f"{backend.name}: [{', '.join(reasons)}]"
+                for backend, reasons in invalid_reasons.items()
+            )
+            + "}"
+        )
+        config_str = (
+            f"head_size: {head_size}, dtype: {dtype}, "
+            f"kv_cache_dtype: {kv_cache_dtype}, block_size: {block_size}, "
+            f"use_mla: {use_mla}, has_sink: {has_sink}, use_sparse: {use_sparse}"
+        )
+        logger.debug_once(
+            f"Some attention backends are not valid for {cls.device_name} with "
+            f"{config_str}. Reasons: {reasons_str}."
+        )
+        if len(valid_backends_priorities) == 0:
+            raise ValueError(
+                f"No valid attention backend found for {cls.device_name} "
+                f"with {config_str}. Reasons: {reasons_str}."
+            )
 
-        use_fp8_kv_cache = kv_cache_dtype is not None and kv_cache_dtype.startswith(
-            "fp8"
+        # We have found some valid backends. Select the one with the
+        # highest priority.
+        logger.info(
+            "Valid backends: %s", [b[0].name for b in valid_backends_priorities]
+        )
+        sorted_indices = sorted(
+            range(len(valid_backends_priorities)),
+            key=lambda i: valid_backends_priorities[i][1],
+        )
+        selected_index = sorted_indices[0]
+        selected_backend = valid_backends_priorities[selected_index][0]
+        logger.info(
+            "Using %s backend.",
+            selected_backend.name,
         )
 
-        if selected_backend == _Backend.FLASHINFER:
-            logger.info_once("Using FlashInfer backend.")
-            if cls.has_device_capability(100):
-                from vllm.v1.attention.backends.utils import set_kv_cache_layout
-
-                set_kv_cache_layout("HND")
-            return FLASHINFER_V1
-        elif selected_backend == _Backend.FLEX_ATTENTION:
-            logger.info_once("Using FlexAttention backend.")
-            return FLEX_ATTENTION_V1
-        elif selected_backend == _Backend.TRITON_ATTN:
-            logger.info_once("Using Triton backend.")
-            return TRITON_ATTN
-        elif selected_backend == _Backend.FLASH_ATTN:
-            logger.info_once("Using Flash Attention backend.")
-            return FLASH_ATTN_V1
-        elif selected_backend == _Backend.TREE_ATTN:
-            logger.info_once("Using Tree Attention backend.")
-            return TREE_ATTN_V1
-        elif selected_backend == _Backend.XFORMERS:
-            logger.info_once("Using XFormers backend.")
-            return XFORMERS_V1
-
-        from vllm.attention.selector import is_attn_backend_supported
-
-        # Default backends for V1 engine
-        # Prefer FlashInfer for Blackwell GPUs if installed
-        if cls.is_device_capability(100):
-            if is_default_backend_supported := is_attn_backend_supported(
-                FLASHINFER_V1, head_size, dtype
-            ):
-                from vllm.v1.attention.backends.utils import set_kv_cache_layout
-
-                logger.info_once(
-                    "Using FlashInfer backend with HND KV cache layout on "
-                    "V1 engine by default for Blackwell (SM 10.0) GPUs."
-                )
-                set_kv_cache_layout("HND")
-
-                return FLASHINFER_V1
-
-            if not is_default_backend_supported.can_import:
-                logger.warning_once(
-                    "FlashInfer failed to import on Blackwell (SM 10.0) GPUs; "
-                    "it is recommended to install FlashInfer for better "
-                    "performance."
-                )
-
-        # FlashAttention is the default for SM 8.0+ GPUs
-        if cls.has_device_capability(80):
-            if (has_sink or use_fp8_kv_cache) and not cls.is_device_capability(90):
-                logger.info_once("Using Triton backend.")
-                return TRITON_ATTN
-            elif is_default_backend_supported := is_attn_backend_supported(
-                FLASH_ATTN_V1, head_size, dtype, allow_import_error=False
-            ):
-                logger.info_once("Using Flash Attention backend.")
-                return FLASH_ATTN_V1
-
-        # FlexAttention is the default for older GPUs
-        else:
-            logger.info_once("Using FlexAttention backend.")
-            return FLEX_ATTENTION_V1
-
-        assert not is_default_backend_supported
-
-        use_flex_attention_reason = {}
-        if not is_default_backend_supported.head_size:
-            use_flex_attention_reason["head_size"] = head_size
-        if not is_default_backend_supported.dtype:
-            use_flex_attention_reason["dtype"] = dtype
-
-        logger.info_once(
-            "Using FlexAttention backend for %s.",
-            ", ".join(f"{k}={v}" for k, v in use_flex_attention_reason.items()),
-        )
-        return FLEX_ATTENTION_V1
+        return selected_backend.get_path()
 
     @classmethod
     def get_punica_wrapper(cls) -> str:
diff --git a/vllm/platforms/interface.py b/vllm/platforms/interface.py
index 15e3b3a22bdee..4969bcf116a49 100644
--- a/vllm/platforms/interface.py
+++ b/vllm/platforms/interface.py
@@ -17,8 +17,9 @@ from vllm.logger import init_logger
 if TYPE_CHECKING:
     from torch.distributed import PrefixStore, ProcessGroup
 
-    from vllm.attention.backends.registry import _Backend
+    from vllm.attention.backends.registry import AttentionBackendEnum
     from vllm.config import VllmConfig
+    from vllm.config.cache import CacheDType
     from vllm.inputs import ProcessorInputs, PromptType
     from vllm.pooling_params import PoolingParams
     from vllm.sampling_params import SamplingParams
@@ -58,6 +59,31 @@ class DeviceCapability(NamedTuple):
     major: int
     minor: int
 
+    def __lt__(self, other: Any) -> bool:
+        if not isinstance(other, DeviceCapability):
+            return NotImplemented
+        return (self.major, self.minor) < (other.major, other.minor)
+
+    def __le__(self, other: Any) -> bool:
+        if not isinstance(other, DeviceCapability):
+            return NotImplemented
+        return (self.major, self.minor) <= (other.major, other.minor)
+
+    def __eq__(self, other: Any) -> bool:
+        if not isinstance(other, DeviceCapability):
+            return NotImplemented
+        return (self.major, self.minor) == (other.major, other.minor)
+
+    def __ge__(self, other: Any) -> bool:
+        if not isinstance(other, DeviceCapability):
+            return NotImplemented
+        return (self.major, self.minor) >= (other.major, other.minor)
+
+    def __gt__(self, other: Any) -> bool:
+        if not isinstance(other, DeviceCapability):
+            return NotImplemented
+        return (self.major, self.minor) > (other.major, other.minor)
+
     def as_version_str(self) -> str:
         return f"{self.major}.{self.minor}"
 
@@ -173,19 +199,21 @@ class Platform:
             import vllm._moe_C  # noqa: F401
 
     @classmethod
-    def get_vit_attn_backend(cls, head_size: int, dtype: torch.dtype) -> "_Backend":
-        # Import _Backend here to avoid circular import.
-        from vllm.attention.backends.registry import _Backend
+    def get_vit_attn_backend(
+        cls, head_size: int, dtype: torch.dtype
+    ) -> "AttentionBackendEnum":
+        # Import AttentionBackendEnum here to avoid circular import.
+        from vllm.attention.backends.registry import AttentionBackendEnum
 
-        return _Backend.TORCH_SDPA
+        return AttentionBackendEnum.TORCH_SDPA
 
     @classmethod
     def get_attn_backend_cls(
         cls,
-        selected_backend: "_Backend",
+        selected_backend: "AttentionBackendEnum",
         head_size: int,
         dtype: torch.dtype,
-        kv_cache_dtype: str | None,
+        kv_cache_dtype: "CacheDType | None",
         block_size: int,
         use_v1: bool,
         use_mla: bool,
diff --git a/vllm/platforms/rocm.py b/vllm/platforms/rocm.py
index e6536a02a73dd..5318bdb8b36c0 100644
--- a/vllm/platforms/rocm.py
+++ b/vllm/platforms/rocm.py
@@ -14,10 +14,10 @@ from vllm.utils.torch_utils import cuda_device_count_stateless
 from .interface import DeviceCapability, Platform, PlatformEnum
 
 if TYPE_CHECKING:
-    from vllm.attention.backends.registry import _Backend
+    from vllm.attention.backends.registry import AttentionBackendEnum
     from vllm.config import VllmConfig
 else:
-    _Backend = None
+    AttentionBackendEnum = None
 
 logger = init_logger(__name__)
 
@@ -204,21 +204,23 @@ class RocmPlatform(Platform):
     ]
 
     @classmethod
-    def get_vit_attn_backend(cls, head_size: int, dtype: torch.dtype) -> _Backend:
+    def get_vit_attn_backend(
+        cls, head_size: int, dtype: torch.dtype
+    ) -> AttentionBackendEnum:
         from importlib.util import find_spec
 
         from vllm._aiter_ops import rocm_aiter_ops
-        from vllm.attention.backends.registry import _Backend
+        from vllm.attention.backends.registry import AttentionBackendEnum
 
         if rocm_aiter_ops.is_mha_enabled():
             # Note: AITER FA is only supported for Qwen-VL models.
             # TODO: Add support for other VL models in their model class.
-            return _Backend.ROCM_AITER_FA
+            return AttentionBackendEnum.ROCM_AITER_FA
 
         if on_gfx9() and find_spec("flash_attn") is not None:
-            return _Backend.FLASH_ATTN
+            return AttentionBackendEnum.FLASH_ATTN
 
-        return _Backend.TORCH_SDPA
+        return AttentionBackendEnum.TORCH_SDPA
 
     @classmethod
     def get_attn_backend_cls(
@@ -234,7 +236,7 @@ class RocmPlatform(Platform):
         use_sparse,
     ) -> str:
         from vllm._aiter_ops import rocm_aiter_ops
-        from vllm.attention.backends.registry import _Backend
+        from vllm.attention.backends.registry import AttentionBackendEnum
 
         if use_sparse:
             raise NotImplementedError("Sparse Attention is not supported on ROCm.")
@@ -248,55 +250,52 @@ class RocmPlatform(Platform):
         if use_mla:
             if selected_backend is None:
                 selected_backend = (
-                    _Backend.ROCM_AITER_MLA
+                    AttentionBackendEnum.ROCM_AITER_MLA
                     if rocm_aiter_ops.is_mla_enabled() or block_size == 1
-                    else _Backend.TRITON_MLA
+                    else AttentionBackendEnum.TRITON_MLA
                 )
 
-            if selected_backend == _Backend.TRITON_MLA:
+            if selected_backend == AttentionBackendEnum.TRITON_MLA:
                 if block_size != 1:
                     logger.info_once("Using Triton MLA backend.")
-                    return "vllm.v1.attention.backends.mla.triton_mla.TritonMLABackend"
+                    return AttentionBackendEnum.TRITON_MLA.get_path()
                 raise ValueError(
                     f" The selected backend, {selected_backend.name},"
                     f"does not support block size {block_size}."
                 )
-            if selected_backend == _Backend.ROCM_AITER_MLA:
+            if selected_backend == AttentionBackendEnum.ROCM_AITER_MLA:
                 logger.info("Using AITER MLA backend.")
-                return "vllm.v1.attention.backends.mla.rocm_aiter_mla.AiterMLABackend"  # noqa: E501
+                return AttentionBackendEnum.ROCM_AITER_MLA.get_path()
 
             raise ValueError(
                 f" The selected backend, {selected_backend.name},"
                 f"is not MLA type while requested for MLA backend."
             )
 
-        if selected_backend == _Backend.FLEX_ATTENTION:
+        if selected_backend == AttentionBackendEnum.FLEX_ATTENTION:
             logger.info("Using FlexAttention backend.")
             return "vllm.v1.attention.backends.flex_attention.FlexAttentionBackend"
         if (
             rocm_aiter_ops.is_mha_enabled()
-        ) or selected_backend == _Backend.ROCM_AITER_FA:
+        ) or selected_backend == AttentionBackendEnum.ROCM_AITER_FA:
             logger.info("Using Aiter Flash Attention backend.")
-            return "vllm.v1.attention.backends.rocm_aiter_fa.AiterFlashAttentionBackend"
+            return AttentionBackendEnum.ROCM_AITER_FA.get_path()
         if (
             rocm_aiter_ops.is_triton_unified_attn_enabled()
-        ) or selected_backend == _Backend.ROCM_AITER_UNIFIED_ATTN:
+        ) or selected_backend == AttentionBackendEnum.ROCM_AITER_UNIFIED_ATTN:
             logger.info("Using Aiter Unified Attention backend.")
-            return (
-                "vllm.v1.attention.backends."
-                "rocm_aiter_unified_attn.RocmAiterUnifiedAttentionBackend"
-            )
+            return AttentionBackendEnum.ROCM_AITER_UNIFIED_ATTN.get_path()
         if (
             envs.VLLM_V1_USE_PREFILL_DECODE_ATTENTION
-            or selected_backend == _Backend.ROCM_ATTN
+            or selected_backend == AttentionBackendEnum.ROCM_ATTN
         ):
             # rocm specific backend, with aiter and/or
             #   triton prefix-prefill
             logger.info("Using Rocm Attention backend.")
-            return "vllm.v1.attention.backends.rocm_attn.RocmAttentionBackend"
+            return AttentionBackendEnum.ROCM_ATTN.get_path()
         # default case, using triton unified attention
         logger.info("Using Triton Attention backend.")
-        return "vllm.v1.attention.backends.triton_attn.TritonAttentionBackend"
+        return AttentionBackendEnum.TRITON_ATTN.get_path()
 
     @classmethod
     def set_device(cls, device: torch.device) -> None:
diff --git a/vllm/platforms/tpu.py b/vllm/platforms/tpu.py
index 1a4b67a1762f3..575a9892c2118 100644
--- a/vllm/platforms/tpu.py
+++ b/vllm/platforms/tpu.py
@@ -15,16 +15,15 @@ from vllm.utils import DEFAULT_MAX_NUM_BATCHED_TOKENS
 from .interface import Platform, PlatformEnum
 
 if TYPE_CHECKING:
-    from vllm.attention.backends.registry import _Backend
-    from vllm.config import ModelConfig, VllmConfig
+    from vllm.attention.backends.registry import AttentionBackendEnum
+    from vllm.config import VllmConfig
     from vllm.config.cache import BlockSize
     from vllm.pooling_params import PoolingParams
 else:
     BlockSize = None
-    ModelConfig = None
     VllmConfig = None
     PoolingParams = None
-    _Backend = None
+    AttentionBackendEnum = None
 
 logger = init_logger(__name__)
 
@@ -54,7 +53,7 @@ class TpuPlatform(Platform):
     @classmethod
     def get_attn_backend_cls(
         cls,
-        selected_backend: "_Backend",
+        selected_backend: "AttentionBackendEnum",
         head_size: int,
         dtype: torch.dtype,
         kv_cache_dtype: str | None,
@@ -64,17 +63,17 @@ class TpuPlatform(Platform):
         has_sink,
         use_sparse,
     ) -> str:
-        from vllm.attention.backends.registry import _Backend
+        from vllm.attention.backends.registry import AttentionBackendEnum
 
         if use_sparse:
             raise NotImplementedError("Sparse Attention is not supported on TPU.")
-        if selected_backend != _Backend.PALLAS:
+        if selected_backend != AttentionBackendEnum.PALLAS:
             logger.info("Cannot use %s backend on TPU.", selected_backend)
 
         if not use_v1:
             raise ValueError("TPU backend only supports V1.")
         logger.info("Using Pallas V1 backend.")
-        return "vllm.v1.attention.backends.pallas.PallasAttentionBackend"
+        return AttentionBackendEnum.PALLAS.get_path()
 
     @classmethod
     def set_device(cls, device: torch.device) -> None:
diff --git a/vllm/platforms/xpu.py b/vllm/platforms/xpu.py
index e4ecd0c807dac..684d6d9a6b57d 100644
--- a/vllm/platforms/xpu.py
+++ b/vllm/platforms/xpu.py
@@ -14,12 +14,11 @@ from vllm.utils import DEFAULT_MAX_NUM_BATCHED_TOKENS
 from .interface import DeviceCapability, Platform, PlatformEnum
 
 if TYPE_CHECKING:
-    from vllm.attention.backends.registry import _Backend
-    from vllm.config import ModelConfig, VllmConfig
+    from vllm.attention.backends.registry import AttentionBackendEnum
+    from vllm.config import VllmConfig
 else:
-    ModelConfig = None
     VllmConfig = None
-    _Backend = None
+    AttentionBackendEnum = None
 
 logger = init_logger(__name__)
 
@@ -44,7 +43,7 @@ class XPUPlatform(Platform):
     @classmethod
     def get_attn_backend_cls(
         cls,
-        selected_backend: "_Backend",
+        selected_backend: "AttentionBackendEnum",
         head_size: int,
         dtype: torch.dtype,
         kv_cache_dtype: str | None,
@@ -62,18 +61,19 @@ class XPUPlatform(Platform):
             "only NHD layout is supported by XPU attention kernels."
         )
 
-        from vllm.attention.backends.registry import _Backend
+        from vllm.attention.backends.registry import AttentionBackendEnum
 
         if use_sparse:
             raise NotImplementedError("Sparse Attention is not supported on XPU.")
-        TRITON_ATTN = "vllm.v1.attention.backends.triton_attn.TritonAttentionBackend"  # noqa: E501
-        FLASH_ATTN = "vllm.v1.attention.backends.flash_attn.FlashAttentionBackend"  # noqa: E501
-        if selected_backend == _Backend.TRITON_ATTN:
+        use_v1 = envs.VLLM_USE_V1
+        if not use_v1:
+            raise ValueError("XPU backend only supports V1.")
+        if selected_backend == AttentionBackendEnum.TRITON_ATTN:
             logger.info_once("Using Triton backend.")
-            return TRITON_ATTN
-        elif selected_backend == _Backend.FLASH_ATTN:
+            return AttentionBackendEnum.TRITON_ATTN.get_path()
+        elif selected_backend == AttentionBackendEnum.FLASH_ATTN:
             logger.info_once("Using Flash Attention backend.")
-            return FLASH_ATTN
+            return AttentionBackendEnum.FLASH_ATTN.get_path()
         elif selected_backend:
             raise ValueError(
                 f"Invalid attention backend for {cls.device_name}, "
@@ -81,7 +81,7 @@ class XPUPlatform(Platform):
             )
 
         logger.info("Using Flash Attention backend.")
-        return "vllm.v1.attention.backends.flash_attn.FlashAttentionBackend"
+        return AttentionBackendEnum.FLASH_ATTN.get_path()
 
     @classmethod
     def set_device(cls, device: torch.device) -> None:
@@ -113,10 +113,10 @@ class XPUPlatform(Platform):
         return device_props.total_memory
 
     @classmethod
-    def get_vit_attn_backend(cls, head_size: int, dtype: torch.dtype) -> _Backend:
-        from vllm.attention.backends.registry import _Backend
-
-        return _Backend.FLASH_ATTN
+    def get_vit_attn_backend(
+        cls, head_size: int, dtype: torch.dtype
+    ) -> AttentionBackendEnum:
+        return AttentionBackendEnum.FLASH_ATTN
 
     @classmethod
     def inference_mode(cls):
diff --git a/vllm/v1/attention/backends/cpu_attn.py b/vllm/v1/attention/backends/cpu_attn.py
index 20d987fa2de3b..0057a7e22882b 100644
--- a/vllm/v1/attention/backends/cpu_attn.py
+++ b/vllm/v1/attention/backends/cpu_attn.py
@@ -1,7 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 from dataclasses import dataclass
-from typing import Optional
+from typing import ClassVar, Optional
 
 import numpy as np
 import torch
@@ -40,23 +40,16 @@ logger = init_logger(__name__)
 
 class TorchSDPABackend(AttentionBackend):
     accept_output_buffer: bool = False
+    supported_dtypes: ClassVar[list[torch.dtype]] = [
+        torch.float16,
+        torch.bfloat16,
+        torch.float32,
+    ]
 
     @classmethod
-    def get_supported_dtypes(cls) -> list[torch.dtype]:
-        return [torch.float16, torch.bfloat16, torch.float32]
-
-    @classmethod
-    def validate_head_size(cls, head_size: int) -> None:
+    def get_supported_head_sizes(cls) -> list[int]:
         attn_impl = _get_paged_attn_impl()
-        is_valid, supported_head_sizes = attn_impl.validate_head_size(head_size)
-        if not is_valid:
-            attn_type = cls.__name__.removesuffix("Backend")
-            raise ValueError(
-                f"Head size {head_size} is not supported by {attn_type}. "
-                f"Supported head sizes are: {supported_head_sizes}. "
-                "Set VLLM_ATTENTION_BACKEND=FLEX_ATTENTION to use "
-                "FlexAttention backend which supports all head sizes."
-            )
+        return attn_impl.get_supported_head_sizes()
 
     @staticmethod
     def get_name() -> str:
@@ -759,9 +752,8 @@ def _make_sliding_window_bias(
 
 class _PagedAttention:
     @staticmethod
-    def validate_head_size(head_size: int) -> tuple[bool, list[int]]:
-        SUPPORT_HS = [32, 64, 80, 96, 112, 128, 192, 256]
-        return head_size in SUPPORT_HS, SUPPORT_HS
+    def get_supported_head_sizes() -> list[int]:
+        return [32, 64, 80, 96, 112, 128, 192, 256]
 
     @staticmethod
     def get_kv_cache_shape(
@@ -861,8 +853,8 @@ class _PagedAttention:
 
 class _IPEXPagedAttention(_PagedAttention):
     @staticmethod
-    def validate_head_size(head_size: int) -> tuple[bool, list[int]]:
-        return True, []
+    def get_supported_head_sizes() -> list[int]:
+        return []
 
     @staticmethod
     def split_kv_cache(
diff --git a/vllm/v1/attention/backends/flash_attn.py b/vllm/v1/attention/backends/flash_attn.py
index 15bb2f4a40acb..9cec623814c9f 100755
--- a/vllm/v1/attention/backends/flash_attn.py
+++ b/vllm/v1/attention/backends/flash_attn.py
@@ -3,6 +3,7 @@
 """Attention layer with FlashAttention."""
 
 from dataclasses import dataclass
+from typing import ClassVar
 
 import numpy as np
 import torch
@@ -32,11 +33,13 @@ if is_flash_attn_varlen_func_available():
         reshape_and_cache_flash,
     )
 from vllm.config import VllmConfig, get_layers_from_vllm_config
+from vllm.config.cache import CacheDType
 from vllm.distributed.parallel_state import get_dcp_group
 from vllm.logger import init_logger
 from vllm.model_executor.layers.batch_invariant import (
     vllm_is_batch_invariant,
 )
+from vllm.platforms.interface import DeviceCapability
 from vllm.utils.math_utils import cdiv
 from vllm.v1.attention.backends.utils import (
     AttentionCGSupport,
@@ -52,34 +55,12 @@ logger = init_logger(__name__)
 
 class FlashAttentionBackend(AttentionBackend):
     accept_output_buffer: bool = True
-
-    @classmethod
-    def get_supported_dtypes(cls) -> list[torch.dtype]:
-        return [torch.float16, torch.bfloat16]
-
-    @classmethod
-    def get_supported_head_sizes(cls) -> list[int]:
-        return [32, 64, 96, 128, 160, 192, 224, 256]
-
-    @staticmethod
-    def get_supported_kernel_block_size() -> list[int | MultipleOf]:
-        # NOTE(tdoublep): while in principle, FA supports
-        # MultipleOf(16), these are the block sizes that do not
-        # suffer from the NaN propagation problem described here:
-        # https://github.com/Dao-AILab/flash-attention/issues/1974
-        return [16, 32, 64]
-
-    @classmethod
-    def validate_head_size(cls, head_size: int) -> None:
-        supported_head_sizes = cls.get_supported_head_sizes()
-        if head_size not in supported_head_sizes:
-            attn_type = cls.__name__.removesuffix("Backend")
-            raise ValueError(
-                f"Head size {head_size} is not supported by {attn_type}. "
-                f"Supported head sizes are: {supported_head_sizes}. "
-                "Set VLLM_ATTENTION_BACKEND=FLEX_ATTENTION to use "
-                "FlexAttention backend which supports all head sizes."
-            )
+    supported_dtypes: ClassVar[list[torch.dtype]] = [torch.float16, torch.bfloat16]
+    # NOTE(tdoublep): while in principle, FA supports
+    # MultipleOf(16), these are the block sizes that do not
+    # suffer from the NaN propagation problem described here:
+    # https://github.com/Dao-AILab/flash-attention/issues/1974
+    supported_kernel_block_sizes: ClassVar[list[int | MultipleOf]] = [16, 32, 64]
 
     @staticmethod
     def get_name() -> str:
@@ -125,6 +106,38 @@ class FlashAttentionBackend(AttentionBackend):
         else:
             raise ValueError(f"Unrecognized FP8 dtype: {kv_cache_dtype}")
 
+    @classmethod
+    def get_supported_head_sizes(cls) -> list[int]:
+        return [32, 64, 96, 128, 160, 192, 224, 256]
+
+    @classmethod
+    def supports_kv_cache_dtype(cls, kv_cache_dtype: CacheDType | None) -> bool:
+        if kv_cache_dtype is None:
+            return True
+        if kv_cache_dtype.startswith("fp8"):
+            return flash_attn_supports_fp8()
+        return kv_cache_dtype in ["auto"]
+
+    @classmethod
+    def supports_compute_capability(cls, capability: DeviceCapability) -> bool:
+        return capability >= DeviceCapability(8, 0)
+
+    @classmethod
+    def supports_combination(
+        cls,
+        head_size: int,
+        dtype: torch.dtype,
+        kv_cache_dtype: CacheDType | None,
+        block_size: int,
+        use_mla: bool,
+        has_sink: bool,
+        use_sparse: bool,
+        device_capability: DeviceCapability,
+    ) -> str | None:
+        if has_sink and device_capability < DeviceCapability(9, 0):
+            return "sink not supported on compute capability < 9.0"
+        return None
+
 
 @dataclass
 class FlashAttentionMetadata:
@@ -481,8 +494,6 @@ class FlashAttentionImpl(AttentionImpl):
 
         self.num_queries_per_kv = self.num_heads // self.num_kv_heads
 
-        FlashAttentionBackend.validate_head_size(head_size)
-
         self.attn_type = attn_type
         self.vllm_flash_attn_version = get_flash_attn_version()
         # Cache the batch invariant result for use in forward passes
diff --git a/vllm/v1/attention/backends/flashinfer.py b/vllm/v1/attention/backends/flashinfer.py
index 683725b95819f..07a0ab41a9e05 100755
--- a/vllm/v1/attention/backends/flashinfer.py
+++ b/vllm/v1/attention/backends/flashinfer.py
@@ -23,6 +23,7 @@ from vllm.attention.backends.abstract import (
     MultipleOf,
 )
 from vllm.config import CUDAGraphMode, VllmConfig
+from vllm.config.cache import CacheDType
 from vllm.logger import init_logger
 from vllm.model_executor.layers.batch_invariant import (
     vllm_is_batch_invariant,
@@ -33,6 +34,7 @@ from vllm.model_executor.layers.quantization.utils.quant_utils import (
     kNvfp4Quant,
 )
 from vllm.platforms import current_platform
+from vllm.platforms.interface import DeviceCapability
 from vllm.triton_utils import tl, triton
 from vllm.utils.flashinfer import (
     can_use_trtllm_attention,
@@ -45,6 +47,7 @@ from vllm.v1.attention.backends.utils import (
     AttentionCGSupport,
     AttentionMetadataBuilder,
     CommonAttentionMetadata,
+    KVCacheLayoutType,
     get_kv_cache_layout,
     get_per_layer_parameters,
     infer_global_hyperparameters,
@@ -158,34 +161,17 @@ def trtllm_prefill_attn_kvfp8_dequant(
 
 class FlashInferBackend(AttentionBackend):
     accept_output_buffer: bool = True
-
-    @classmethod
-    def get_supported_dtypes(cls) -> list[torch.dtype]:
-        return [torch.float16, torch.bfloat16]
-
-    @classmethod
-    def get_supported_head_sizes(cls) -> list[int]:
-        # https://github.com/flashinfer-ai/flashinfer/blob/3d55c71a62052c590c130897d3a3db49b14fcc34/include/flashinfer/utils.cuh#L157
-        return [64, 128, 256]
-
-    @staticmethod
-    def get_supported_kernel_block_size() -> list[int | MultipleOf]:
-        # Note: Not sure for all platforms,
-        # but on Blackwell, only support a page size of
-        # 16, 32, 64
-        return [16, 32, 64]
-
-    @classmethod
-    def validate_head_size(cls, head_size: int) -> None:
-        supported_head_sizes = cls.get_supported_head_sizes()
-        if head_size not in supported_head_sizes:
-            attn_type = cls.__name__.removesuffix("Backend")
-            raise ValueError(
-                f"Head size {head_size} is not supported by {attn_type}. "
-                f"Supported head sizes are: {supported_head_sizes}. "
-                "Set VLLM_ATTENTION_BACKEND=FLEX_ATTENTION to use "
-                "FlexAttention backend which supports all head sizes."
-            )
+    supported_dtypes: ClassVar[list[torch.dtype]] = [torch.float16, torch.bfloat16]
+    # Note: Not sure for all platforms,
+    # but on Blackwell, only support a page size of
+    # 16, 32, 64
+    supported_kernel_block_sizes: ClassVar[list[int | MultipleOf]] = [16, 32, 64]
+    supported_kv_cache_dtypes: ClassVar[list[CacheDType]] = [
+        "auto",
+        "fp8",
+        "fp8_e4m3",
+        "fp8_e5m2",
+    ]
 
     @staticmethod
     def get_name() -> str:
@@ -231,6 +217,26 @@ class FlashInferBackend(AttentionBackend):
         else:
             raise ValueError(f"Unrecognized FP8 dtype: {kv_cache_dtype}")
 
+    @classmethod
+    def get_supported_head_sizes(cls) -> list[int]:
+        # https://github.com/flashinfer-ai/flashinfer/blob/3d55c71a62052c590c130897d3a3db49b14fcc34/include/flashinfer/utils.cuh#L157
+        return [64, 128, 256]
+
+    @classmethod
+    def supports_compute_capability(cls, capability: DeviceCapability) -> bool:
+        return capability >= DeviceCapability(7, 5) and capability <= DeviceCapability(
+            12, 1
+        )
+
+    @classmethod
+    def get_required_kv_cache_layout(cls) -> KVCacheLayoutType | None:
+        from vllm.platforms import current_platform
+
+        capability = current_platform.get_device_capability()
+        if capability is not None and capability.major == 10:
+            return "HND"
+        return None
+
 
 @dataclass
 class FlashInferMetadata:
@@ -328,7 +334,6 @@ class FlashInferMetadataBuilder(AttentionMetadataBuilder[FlashInferMetadata]):
         )
         self.num_kv_heads = self.kv_cache_spec.num_kv_heads
         self.head_dim = self.kv_cache_spec.head_size
-        FlashInferBackend.validate_head_size(self.head_dim)
         self.page_size = self.kv_cache_spec.block_size
 
         self.cache_dtype = self.cache_config.cache_dtype
diff --git a/vllm/v1/attention/backends/flex_attention.py b/vllm/v1/attention/backends/flex_attention.py
index 9af63831cecba..e53cd0d8af4f2 100644
--- a/vllm/v1/attention/backends/flex_attention.py
+++ b/vllm/v1/attention/backends/flex_attention.py
@@ -4,6 +4,7 @@
 
 import math
 from dataclasses import dataclass
+from typing import ClassVar
 
 import torch
 import torch._dynamo.decorators
@@ -24,6 +25,7 @@ from vllm.attention.backends.abstract import (
     is_quantized_kv_cache,
 )
 from vllm.config import VllmConfig
+from vllm.config.cache import CacheDType
 from vllm.logger import init_logger
 from vllm.model_executor.layers.batch_invariant import (
     vllm_is_batch_invariant,
@@ -71,14 +73,12 @@ def pad_to_multiple(x: torch.Tensor, multiple: int, dim: int):
 
 class FlexAttentionBackend(AttentionBackend):
     accept_output_buffer: bool = True
-
-    @classmethod
-    def get_supported_dtypes(cls) -> list[torch.dtype]:
-        return [torch.float16, torch.bfloat16, torch.float32]
-
-    @classmethod
-    def validate_head_size(cls, head_size: int) -> None:
-        return  # FlexAttention supports any head size
+    supported_dtypes: ClassVar[list[torch.dtype]] = [
+        torch.float16,
+        torch.bfloat16,
+        torch.float32,
+    ]
+    supported_kv_cache_dtypes: ClassVar[list[CacheDType]] = ["auto"]
 
     @staticmethod
     def get_name() -> str:
@@ -106,6 +106,10 @@ class FlexAttentionBackend(AttentionBackend):
     def use_cascade_attention(*args, **kwargs) -> bool:
         return False
 
+    @classmethod
+    def get_supported_head_sizes(cls) -> list[int]:
+        return []
+
 
 # @torch.compile(fullgraph=True, mode="reduce-overhead")
 def physical_to_logical_mapping(
@@ -720,7 +724,6 @@ class FlexAttentionImpl(AttentionImpl):
         if kv_sharing_target_layer_name is not None:
             raise NotImplementedError("FlexAttention does not support kv sharing yet.")
 
-        FlexAttentionBackend.validate_head_size(head_size)
         if is_quantized_kv_cache(self.kv_cache_dtype):
             raise NotImplementedError(
                 "FlexAttention does not support quantized kv-cache. Yet"
diff --git a/vllm/v1/attention/backends/mla/common.py b/vllm/v1/attention/backends/mla/common.py
index e38f7bcfa44e1..b4cb5c200da38 100755
--- a/vllm/v1/attention/backends/mla/common.py
+++ b/vllm/v1/attention/backends/mla/common.py
@@ -308,25 +308,13 @@ class MLACommonBackend(AttentionBackend):
     ) -> tuple[int, ...]:
         return (num_blocks, block_size, head_size)
 
-    @classmethod
-    def get_supported_dtypes(cls) -> list[torch.dtype]:
-        return [torch.float16, torch.bfloat16]
-
     @classmethod
     def get_supported_head_sizes(cls) -> list[int]:
         return [576]
 
     @classmethod
-    def validate_head_size(cls, head_size: int) -> None:
-        supported_head_sizes = cls.get_supported_head_sizes()
-        if head_size not in supported_head_sizes:
-            attn_type = cls.__name__.removesuffix("Backend")
-            raise ValueError(
-                f"Head size {head_size} is not supported by {attn_type}. "
-                f"Supported head sizes are: {supported_head_sizes}. "
-                "Set VLLM_ATTENTION_BACKEND=FLEX_ATTENTION to use "
-                "FlexAttention backend which supports all head sizes."
-            )
+    def is_mla(cls) -> bool:
+        return True
 
 
 @dataclass
@@ -425,8 +413,10 @@ class MLACommonMetadata(Generic[D]):
     ) = None
 
     def __post_init__(self):
-        if self.head_dim is not None:
-            MLACommonBackend.validate_head_size(self.head_dim)
+        if self.head_dim is not None and not MLACommonBackend.supports_head_size(
+            self.head_dim
+        ):
+            raise ValueError(f"Head dimension {self.head_dim} is not supported by MLA.")
 
 
 M = TypeVar("M", bound=MLACommonMetadata)
diff --git a/vllm/v1/attention/backends/mla/cutlass_mla.py b/vllm/v1/attention/backends/mla/cutlass_mla.py
index c35e238eac4c0..0a10ce74cd1d4 100644
--- a/vllm/v1/attention/backends/mla/cutlass_mla.py
+++ b/vllm/v1/attention/backends/mla/cutlass_mla.py
@@ -13,7 +13,9 @@ from vllm.attention.backends.abstract import (
     MultipleOf,
     is_quantized_kv_cache,
 )
+from vllm.config.cache import CacheDType
 from vllm.logger import init_logger
+from vllm.platforms.interface import DeviceCapability
 from vllm.v1.attention.backends.mla.common import (
     MLACommonBackend,
     MLACommonImpl,
@@ -33,6 +35,14 @@ class CutlassMLAMetadataBuilder(MLACommonMetadataBuilder[MLACommonMetadata]):
 
 
 class CutlassMLABackend(MLACommonBackend):
+    supported_dtypes: ClassVar[list[torch.dtype]] = [torch.float16, torch.bfloat16]
+    supported_kernel_block_sizes: ClassVar[list[int | MultipleOf]] = [128]
+    supported_kv_cache_dtypes: ClassVar[list[CacheDType]] = [
+        "auto",
+        "fp8",
+        "fp8_e4m3",
+    ]
+
     @staticmethod
     def get_name() -> str:
         return "CUTLASS_MLA"
@@ -45,9 +55,9 @@ class CutlassMLABackend(MLACommonBackend):
     def get_builder_cls() -> type["CutlassMLAMetadataBuilder"]:
         return CutlassMLAMetadataBuilder
 
-    @staticmethod
-    def get_supported_kernel_block_size() -> list[int | MultipleOf]:
-        return [128]
+    @classmethod
+    def supports_compute_capability(cls, capability: DeviceCapability) -> bool:
+        return capability.major == 10
 
 
 class SM100Workspace:
diff --git a/vllm/v1/attention/backends/mla/flashattn_mla.py b/vllm/v1/attention/backends/mla/flashattn_mla.py
index 79b89c7890a28..5662acbe32c29 100644
--- a/vllm/v1/attention/backends/mla/flashattn_mla.py
+++ b/vllm/v1/attention/backends/mla/flashattn_mla.py
@@ -10,6 +10,7 @@ from vllm import envs
 from vllm.attention.backends.abstract import (
     AttentionLayer,
     AttentionType,
+    MultipleOf,
     is_quantized_kv_cache,
 )
 from vllm.attention.utils.fa_utils import (
@@ -17,10 +18,12 @@ from vllm.attention.utils.fa_utils import (
     get_flash_attn_version,
 )
 from vllm.config import VllmConfig
+from vllm.config.cache import CacheDType
 from vllm.logger import init_logger
 from vllm.model_executor.layers.batch_invariant import (
     vllm_is_batch_invariant,
 )
+from vllm.platforms.interface import DeviceCapability
 from vllm.v1.attention.backends.mla.common import (
     MLACommonBackend,
     MLACommonDecodeMetadata,
@@ -37,6 +40,10 @@ logger = init_logger(__name__)
 
 
 class FlashAttnMLABackend(MLACommonBackend):
+    supported_dtypes: ClassVar[list[torch.dtype]] = [torch.float16, torch.bfloat16]
+    supported_kernel_block_sizes: ClassVar[list[int | MultipleOf]] = [MultipleOf(16)]
+    supported_kv_cache_dtypes: ClassVar[list[CacheDType]] = ["auto"]
+
     @staticmethod
     def get_name() -> str:
         return "FLASH_ATTN_MLA"
@@ -49,6 +56,26 @@ class FlashAttnMLABackend(MLACommonBackend):
     def get_impl_cls() -> type["FlashAttnMLAImpl"]:
         return FlashAttnMLAImpl
 
+    @classmethod
+    def supports_compute_capability(cls, capability: DeviceCapability) -> bool:
+        return capability.major == 9
+
+    @classmethod
+    def supports_combination(
+        cls,
+        head_size: int,
+        dtype: torch.dtype,
+        kv_cache_dtype: CacheDType | None,
+        block_size: int,
+        use_mla: bool,
+        has_sink: bool,
+        use_sparse: bool,
+        device_capability: DeviceCapability,
+    ) -> str | None:
+        if not flash_attn_supports_mla():
+            return "FlashAttention MLA not supported on this device"
+        return None
+
 
 @dataclass
 class FlashAttnMLADecodeMetadata(MLACommonDecodeMetadata):
diff --git a/vllm/v1/attention/backends/mla/flashinfer_mla.py b/vllm/v1/attention/backends/mla/flashinfer_mla.py
index ebbcfd0eaa2fb..b0f514ba44513 100644
--- a/vllm/v1/attention/backends/mla/flashinfer_mla.py
+++ b/vllm/v1/attention/backends/mla/flashinfer_mla.py
@@ -6,8 +6,14 @@ from typing import ClassVar
 import torch
 from flashinfer.decode import trtllm_batch_decode_with_kv_cache_mla
 
-from vllm.attention.backends.abstract import AttentionLayer, AttentionType, MultipleOf
+from vllm.attention.backends.abstract import (
+    AttentionLayer,
+    AttentionType,
+    MultipleOf,
+)
+from vllm.config.cache import CacheDType
 from vllm.logger import init_logger
+from vllm.platforms.interface import DeviceCapability
 from vllm.v1.attention.backends.mla.common import (
     MLACommonBackend,
     MLACommonImpl,
@@ -15,7 +21,7 @@ from vllm.v1.attention.backends.mla.common import (
     MLACommonMetadataBuilder,
     QueryLenSupport,
 )
-from vllm.v1.attention.backends.utils import AttentionCGSupport
+from vllm.v1.attention.backends.utils import AttentionCGSupport, KVCacheLayoutType
 
 logger = init_logger(__name__)
 
@@ -28,6 +34,14 @@ class FlashInferMLAMetadataBuilder(MLACommonMetadataBuilder[MLACommonMetadata]):
 
 
 class FlashInferMLABackend(MLACommonBackend):
+    supported_dtypes: ClassVar[list[torch.dtype]] = [torch.float16, torch.bfloat16]
+    supported_kernel_block_sizes: ClassVar[list[int | MultipleOf]] = [32, 64]
+    supported_kv_cache_dtypes: ClassVar[list[CacheDType]] = [
+        "auto",
+        "fp8",
+        "fp8_e4m3",
+    ]
+
     @staticmethod
     def get_name() -> str:
         return "FLASHINFER_MLA"
@@ -41,8 +55,12 @@ class FlashInferMLABackend(MLACommonBackend):
         return FlashInferMLAMetadataBuilder
 
     @classmethod
-    def get_supported_kernel_block_size(cls) -> list[int | MultipleOf]:
-        return [32, 64]
+    def supports_compute_capability(cls, capability: DeviceCapability) -> bool:
+        return capability.major == 10
+
+    @classmethod
+    def get_required_kv_cache_layout(cls) -> "KVCacheLayoutType | None":
+        return "HND"
 
 
 g_fi_workspace = torch.zeros(
diff --git a/vllm/v1/attention/backends/mla/flashmla.py b/vllm/v1/attention/backends/mla/flashmla.py
index 708bb9d63839d..8f0364cd58def 100644
--- a/vllm/v1/attention/backends/mla/flashmla.py
+++ b/vllm/v1/attention/backends/mla/flashmla.py
@@ -13,10 +13,12 @@ from vllm.attention.ops.flashmla import (
     is_flashmla_dense_supported,
 )
 from vllm.config import VllmConfig
+from vllm.config.cache import CacheDType
 from vllm.logger import init_logger
 from vllm.model_executor.layers.batch_invariant import (
     vllm_is_batch_invariant,
 )
+from vllm.platforms.interface import DeviceCapability
 from vllm.v1.attention.backends.mla.common import (
     MLACommonBackend,
     MLACommonDecodeMetadata,
@@ -36,6 +38,14 @@ logger = init_logger(__name__)
 
 
 class FlashMLABackend(MLACommonBackend):
+    supported_dtypes: ClassVar[list[torch.dtype]] = [torch.float16, torch.bfloat16]
+    supported_kernel_block_sizes: ClassVar[list[int | MultipleOf]] = [64]
+    supported_kv_cache_dtypes: ClassVar[list[CacheDType]] = [
+        "auto",
+        "fp8",
+        "fp8_e4m3",
+    ]
+
     @staticmethod
     def get_name() -> str:
         return "FLASHMLA"
@@ -48,9 +58,30 @@ class FlashMLABackend(MLACommonBackend):
     def get_impl_cls() -> type["FlashMLAImpl"]:
         return FlashMLAImpl
 
-    @staticmethod
-    def get_supported_kernel_block_size() -> list[int | MultipleOf]:
-        return [64]
+    @classmethod
+    def supports_compute_capability(cls, capability: DeviceCapability) -> bool:
+        return capability.major in [9, 10]
+
+    @classmethod
+    def supports_combination(
+        cls,
+        head_size: int,
+        dtype: torch.dtype,
+        kv_cache_dtype: CacheDType | None,
+        block_size: int,
+        use_mla: bool,
+        has_sink: bool,
+        use_sparse: bool,
+        device_capability: DeviceCapability,
+    ) -> str | None:
+        if use_sparse:
+            from vllm.attention.ops.flashmla import is_flashmla_sparse_supported
+
+            return is_flashmla_sparse_supported()[1]
+        else:
+            from vllm.attention.ops.flashmla import is_flashmla_dense_supported
+
+            return is_flashmla_dense_supported()[1]
 
 
 @dataclass
diff --git a/vllm/v1/attention/backends/mla/flashmla_sparse.py b/vllm/v1/attention/backends/mla/flashmla_sparse.py
index bf76549de1ce8..4794312eb96ef 100644
--- a/vllm/v1/attention/backends/mla/flashmla_sparse.py
+++ b/vllm/v1/attention/backends/mla/flashmla_sparse.py
@@ -10,6 +10,7 @@ from vllm import _custom_ops as ops
 from vllm.attention.backends.abstract import (
     AttentionBackend,
     AttentionLayer,
+    MultipleOf,
 )
 from vllm.attention.backends.utils import get_mla_dims
 from vllm.attention.ops.flashmla import (
@@ -18,8 +19,10 @@ from vllm.attention.ops.flashmla import (
     get_mla_metadata,
 )
 from vllm.config import VllmConfig
+from vllm.config.cache import CacheDType
 from vllm.logger import init_logger
 from vllm.platforms import current_platform
+from vllm.platforms.interface import DeviceCapability
 from vllm.triton_utils import tl, triton
 from vllm.utils.math_utils import cdiv
 from vllm.v1.attention.backends.mla.common import MLACommonBaseImpl
@@ -51,6 +54,9 @@ structured as:
 
 class FlashMLASparseBackend(AttentionBackend):
     accept_output_buffer: bool = True
+    supported_dtypes: ClassVar[list[torch.dtype]] = [torch.bfloat16]
+    supported_kernel_block_sizes: ClassVar[list[int | MultipleOf]] = [64]
+    supported_kv_cache_dtypes: ClassVar[list[CacheDType]] = ["auto", "fp8_ds_mla"]
 
     @staticmethod
     def get_name() -> str:
@@ -64,6 +70,22 @@ class FlashMLASparseBackend(AttentionBackend):
     def get_impl_cls() -> type["FlashMLASparseImpl"]:
         return FlashMLASparseImpl
 
+    @classmethod
+    def get_supported_head_sizes(cls) -> list[int]:
+        return [576]
+
+    @classmethod
+    def is_mla(cls) -> bool:
+        return True
+
+    @classmethod
+    def is_sparse(cls) -> bool:
+        return True
+
+    @classmethod
+    def supports_compute_capability(cls, capability: DeviceCapability) -> bool:
+        return capability.major in [9, 10]
+
     @staticmethod
     def get_kv_cache_shape(
         num_blocks: int,
@@ -79,14 +101,6 @@ class FlashMLASparseBackend(AttentionBackend):
         else:
             return (num_blocks, block_size, head_size)
 
-    @classmethod
-    def get_supported_dtypes(cls) -> list[torch.dtype]:
-        return [torch.bfloat16]
-
-    @classmethod
-    def get_supported_head_sizes(cls) -> list[int]:
-        return [576]
-
 
 @dataclass
 class FlashMLASparseMetadata:
diff --git a/vllm/v1/attention/backends/mla/indexer.py b/vllm/v1/attention/backends/mla/indexer.py
index f3c5bb7328712..4f071145625fc 100644
--- a/vllm/v1/attention/backends/mla/indexer.py
+++ b/vllm/v1/attention/backends/mla/indexer.py
@@ -23,6 +23,8 @@ logger = init_logger(__name__)
 
 
 class DeepseekV32IndexerBackend(AttentionBackend):
+    supported_kernel_block_sizes: ClassVar[list[int | MultipleOf]] = [64]
+
     @classmethod
     def get_supported_head_sizes(cls) -> list[int]:
         return [32, 64, 128]
@@ -46,10 +48,6 @@ class DeepseekV32IndexerBackend(AttentionBackend):
     def get_kv_cache_stride_order() -> tuple[int, ...]:
         return (0, 1, 2)
 
-    @classmethod
-    def get_supported_kernel_block_size(cls) -> list[int | MultipleOf]:
-        return [64]
-
 
 @dataclass
 class DeepseekV32IndexerPrefillChunkMetadata:
diff --git a/vllm/v1/attention/backends/mla/triton_mla.py b/vllm/v1/attention/backends/mla/triton_mla.py
index 781f77e96319a..0149639e8c0b3 100644
--- a/vllm/v1/attention/backends/mla/triton_mla.py
+++ b/vllm/v1/attention/backends/mla/triton_mla.py
@@ -1,6 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
+from typing import ClassVar
 
 import torch
 
@@ -12,11 +13,13 @@ from vllm.attention.backends.abstract import (
 )
 from vllm.attention.ops.triton_decode_attention import decode_attention_fwd
 from vllm.attention.ops.triton_flash_attention import triton_attention
+from vllm.config.cache import CacheDType
 from vllm.logger import init_logger
 from vllm.model_executor.layers.batch_invariant import (
     vllm_is_batch_invariant,
 )
 from vllm.platforms import current_platform
+from vllm.platforms.interface import DeviceCapability
 from vllm.triton_utils import HAS_TRITON
 from vllm.v1.attention.backends.mla.common import (
     MLACommonBackend,
@@ -28,6 +31,9 @@ logger = init_logger(__name__)
 
 
 class TritonMLABackend(MLACommonBackend):
+    supported_dtypes: ClassVar[list[torch.dtype]] = [torch.float16, torch.bfloat16]
+    supported_kv_cache_dtypes: ClassVar[list[CacheDType]] = ["auto"]
+
     @staticmethod
     def get_name() -> str:
         return "TRITON_MLA"
@@ -36,6 +42,10 @@ class TritonMLABackend(MLACommonBackend):
     def get_impl_cls() -> type["TritonMLAImpl"]:
         return TritonMLAImpl
 
+    @classmethod
+    def supports_compute_capability(cls, capability: DeviceCapability) -> bool:
+        return True
+
 
 class TritonMLAImpl(MLACommonImpl[MLACommonMetadata]):
     can_return_lse_for_decode: bool = True
diff --git a/vllm/v1/attention/backends/rocm_aiter_fa.py b/vllm/v1/attention/backends/rocm_aiter_fa.py
index e8d3758a6395a..81991244f5d90 100644
--- a/vllm/v1/attention/backends/rocm_aiter_fa.py
+++ b/vllm/v1/attention/backends/rocm_aiter_fa.py
@@ -3,6 +3,7 @@
 """Attention layer with AiterFlashAttention."""
 
 from dataclasses import dataclass
+from typing import ClassVar
 
 import torch
 
@@ -445,31 +446,13 @@ class AiterFlashAttentionMetadataBuilder(
 
 class AiterFlashAttentionBackend(AttentionBackend):
     accept_output_buffer: bool = True
-
-    @classmethod
-    def get_supported_dtypes(cls) -> list[torch.dtype]:
-        return [torch.float16, torch.bfloat16]
+    supported_dtypes: ClassVar[list[torch.dtype]] = [torch.float16, torch.bfloat16]
+    supported_kernel_block_sizes: ClassVar[list[int | MultipleOf]] = [MultipleOf(16)]
 
     @classmethod
     def get_supported_head_sizes(cls) -> list[int]:
         return [64, 128, 256]
 
-    @staticmethod
-    def get_supported_kernel_block_size() -> list[int | MultipleOf]:
-        return [MultipleOf(16)]
-
-    @classmethod
-    def validate_head_size(cls, head_size: int) -> None:
-        supported_head_sizes = cls.get_supported_head_sizes()
-        if head_size not in supported_head_sizes:
-            attn_type = cls.__name__.removesuffix("Backend")
-            raise ValueError(
-                f"Head size {head_size} is not supported by {attn_type}. "
-                f"Supported head sizes are: {supported_head_sizes}. "
-                "Set VLLM_ATTENTION_BACKEND=FLEX_ATTENTION to use "
-                "FlexAttention backend which supports all head sizes."
-            )
-
     @staticmethod
     def get_name() -> str:
         return "FLASH_ATTN"
@@ -531,8 +514,6 @@ class AiterFlashAttentionImpl(AttentionImpl):
         assert self.num_heads % self.num_kv_heads == 0
         self.num_queries_per_kv = self.num_heads // self.num_kv_heads
 
-        AiterFlashAttentionBackend.validate_head_size(head_size)
-
         if attn_type != AttentionType.DECODER:
             raise NotImplementedError(
                 "Encoder self-attention and "
diff --git a/vllm/v1/attention/backends/rocm_attn.py b/vllm/v1/attention/backends/rocm_attn.py
index 57ba4dc78d9fd..1d2c70f65d0f5 100644
--- a/vllm/v1/attention/backends/rocm_attn.py
+++ b/vllm/v1/attention/backends/rocm_attn.py
@@ -152,10 +152,7 @@ class RocmAttentionMetadataBuilder(AttentionMetadataBuilder[RocmAttentionMetadat
 
 class RocmAttentionBackend(AttentionBackend):
     accept_output_buffer: bool = True
-
-    @classmethod
-    def get_supported_dtypes(cls) -> list[torch.dtype]:
-        return [torch.float16, torch.bfloat16]
+    supported_dtypes: ClassVar[list[torch.dtype]] = [torch.float16, torch.bfloat16]
 
     @classmethod
     def get_supported_head_sizes(cls) -> list[int]:
@@ -163,12 +160,11 @@ class RocmAttentionBackend(AttentionBackend):
 
     @classmethod
     def validate_head_size(cls, head_size: int) -> None:
-        supported_head_sizes = cls.get_supported_head_sizes()
-        if head_size not in supported_head_sizes:
+        if not cls.supports_head_size(head_size):
             attn_type = cls.__name__.removesuffix("Backend")
             raise ValueError(
                 f"Head size {head_size} is not supported by {attn_type}. "
-                f"Supported head sizes are: {supported_head_sizes}. "
+                f"Supported head sizes are: {cls.get_supported_head_sizes()}. "
                 "Set VLLM_ATTENTION_BACKEND=FLEX_ATTENTION to use "
                 "FlexAttention backend which supports all head sizes."
             )
diff --git a/vllm/v1/attention/backends/tree_attn.py b/vllm/v1/attention/backends/tree_attn.py
index 0c0222d6152fb..1bf38ed225a4c 100644
--- a/vllm/v1/attention/backends/tree_attn.py
+++ b/vllm/v1/attention/backends/tree_attn.py
@@ -4,7 +4,7 @@
 
 import ast
 from dataclasses import dataclass
-from typing import Optional
+from typing import ClassVar, Optional
 
 import torch
 
@@ -30,31 +30,13 @@ logger = init_logger(__name__)
 
 class TreeAttentionBackend(AttentionBackend):
     accept_output_buffer: bool = True
-
-    @classmethod
-    def get_supported_dtypes(cls) -> list[torch.dtype]:
-        return [torch.float16, torch.bfloat16]
+    supported_dtypes: ClassVar[list[torch.dtype]] = [torch.float16, torch.bfloat16]
+    supported_kernel_block_sizes: ClassVar[list[int | MultipleOf]] = [MultipleOf(16)]
 
     @classmethod
     def get_supported_head_sizes(cls) -> list[int]:
         return [32, 64, 96, 128, 160, 192, 224, 256]
 
-    @staticmethod
-    def get_supported_kernel_block_size() -> list[int | MultipleOf]:
-        return [MultipleOf(16)]
-
-    @classmethod
-    def validate_head_size(cls, head_size: int) -> None:
-        supported_head_sizes = cls.get_supported_head_sizes()
-        if head_size not in supported_head_sizes:
-            attn_type = cls.__name__.removesuffix("Backend")
-            raise ValueError(
-                f"Head size {head_size} is not supported by {attn_type}. "
-                f"Supported head sizes are: {supported_head_sizes}. "
-                "Set VLLM_ATTENTION_BACKEND=FLEX_ATTENTION to use "
-                "FlexAttention backend which supports all head sizes."
-            )
-
     @staticmethod
     def get_name() -> str:
         return "TREE_ATTN"
@@ -331,8 +313,6 @@ class TreeAttentionImpl(AttentionImpl):
         else:
             self.sliding_window = (sliding_window - 1, 0)
 
-        TreeAttentionBackend.validate_head_size(head_size)
-
         if attn_type != AttentionType.DECODER:
             raise NotImplementedError(
                 "Encoder self-attention and "
diff --git a/vllm/v1/attention/backends/triton_attn.py b/vllm/v1/attention/backends/triton_attn.py
index 0590a87bf8e5f..37c0ae61e65d0 100644
--- a/vllm/v1/attention/backends/triton_attn.py
+++ b/vllm/v1/attention/backends/triton_attn.py
@@ -18,12 +18,14 @@ from vllm.attention.ops.triton_reshape_and_cache_flash import (
 )
 from vllm.attention.ops.triton_unified_attention import unified_attention
 from vllm.config import VllmConfig
+from vllm.config.cache import CacheDType
 from vllm.logger import init_logger
 from vllm.model_executor.layers.quantization.utils.quant_utils import (
     QuantKey,
     kFp8StaticTensorSym,
 )
 from vllm.platforms import current_platform
+from vllm.platforms.interface import DeviceCapability
 from vllm.v1.attention.backends.utils import (
     AttentionCGSupport,
     AttentionMetadataBuilder,
@@ -147,25 +149,18 @@ class TritonAttentionMetadataBuilder(AttentionMetadataBuilder[TritonAttentionMet
 
 class TritonAttentionBackend(AttentionBackend):
     accept_output_buffer: bool = True
-
-    @classmethod
-    def get_supported_dtypes(cls) -> list[torch.dtype]:
-        return [torch.float16, torch.bfloat16, torch.float32]
-
-    @staticmethod
-    def get_supported_kernel_block_size() -> list[int | MultipleOf]:
-        return [MultipleOf(16)]
-
-    @classmethod
-    def validate_head_size(cls, head_size: int) -> None:
-        # Triton Attention supports any head size above 32
-        if head_size < 32:
-            raise ValueError(
-                f"Head size {head_size} is not supported by TritonAttention."
-                f"Head sizes need to be larger or equal 32 for this backend. "
-                "Set VLLM_ATTENTION_BACKEND=FLEX_ATTENTION to use "
-                "FlexAttention backend which supports all head sizes."
-            )
+    supported_dtypes: ClassVar[list[torch.dtype]] = [
+        torch.float16,
+        torch.bfloat16,
+        torch.float32,
+    ]
+    supported_kernel_block_sizes: ClassVar[list[int | MultipleOf]] = [MultipleOf(16)]
+    supported_kv_cache_dtypes: ClassVar[list[CacheDType]] = [
+        "auto",
+        "fp8",
+        "fp8_e4m3",
+        "fp8_e5m2",
+    ]
 
     @staticmethod
     def get_name() -> str:
@@ -195,6 +190,18 @@ class TritonAttentionBackend(AttentionBackend):
     def get_builder_cls() -> type["TritonAttentionMetadataBuilder"]:
         return TritonAttentionMetadataBuilder
 
+    @classmethod
+    def supports_head_size(cls, head_size: int) -> bool:
+        return head_size >= 32
+
+    @classmethod
+    def supports_sink(cls) -> bool:
+        return True
+
+    @classmethod
+    def supports_compute_capability(cls, capability: DeviceCapability) -> bool:
+        return True
+
 
 class TritonAttentionImpl(AttentionImpl):
     def fused_output_quant_supported(self, quant_key: QuantKey):
@@ -237,8 +244,6 @@ class TritonAttentionImpl(AttentionImpl):
 
         self.num_queries_per_kv = self.num_heads // self.num_kv_heads
 
-        TritonAttentionBackend.validate_head_size(head_size)
-
         if attn_type != AttentionType.DECODER:
             raise NotImplementedError(
                 "Encoder self-attention and "
diff --git a/vllm/v1/attention/backends/xformers.py b/vllm/v1/attention/backends/xformers.py
index 81bdbd641429a..d15d79417cc61 100644
--- a/vllm/v1/attention/backends/xformers.py
+++ b/vllm/v1/attention/backends/xformers.py
@@ -3,7 +3,7 @@
 """Attention layer with XFormersAttention."""
 
 from dataclasses import dataclass
-from typing import Optional
+from typing import ClassVar, Optional
 
 import torch
 
@@ -41,10 +41,8 @@ logger = init_logger(__name__)
 
 class XFormersAttentionBackend(AttentionBackend):
     accept_output_buffer: bool = True
-
-    @classmethod
-    def get_supported_dtypes(cls) -> list[torch.dtype]:
-        return [torch.float16, torch.bfloat16]
+    supported_dtypes: ClassVar[list[torch.dtype]] = [torch.float16, torch.bfloat16]
+    supported_kernel_block_sizes: ClassVar[list[int | MultipleOf]] = [MultipleOf(16)]
 
     @classmethod
     def get_supported_head_sizes(cls) -> list[int]:
@@ -80,22 +78,6 @@ class XFormersAttentionBackend(AttentionBackend):
             256,
         ]
 
-    @staticmethod
-    def get_supported_kernel_block_size() -> list[int | MultipleOf]:
-        return [MultipleOf(16)]
-
-    @classmethod
-    def validate_head_size(cls, head_size: int) -> None:
-        supported_head_sizes = cls.get_supported_head_sizes()
-        if head_size not in supported_head_sizes:
-            attn_type = cls.__name__.removesuffix("Backend")
-            raise ValueError(
-                f"Head size {head_size} is not supported by {attn_type}. "
-                f"Supported head sizes are: {supported_head_sizes}. "
-                "Set VLLM_ATTENTION_BACKEND=FLEX_ATTENTION to use "
-                "FlexAttention backend which supports all head sizes."
-            )
-
     @staticmethod
     def get_name() -> str:
         return "XFORMERS"
@@ -305,8 +287,6 @@ class XFormersAttentionImpl(AttentionImpl):
             logits_soft_cap = 0
         self.logits_soft_cap = logits_soft_cap
 
-        XFormersAttentionBackend.validate_head_size(head_size)
-
         if attn_type != AttentionType.DECODER:
             raise NotImplementedError(
                 "Encoder self-attention and "
diff --git a/vllm/v1/spec_decode/eagle.py b/vllm/v1/spec_decode/eagle.py
index 75a4140fd6552..55b04949ceb2a 100644
--- a/vllm/v1/spec_decode/eagle.py
+++ b/vllm/v1/spec_decode/eagle.py
@@ -150,11 +150,15 @@ class EagleProposer:
         )
 
         # Determine allowed attention backends once during initialization.
+        from vllm.attention.backends.registry import AttentionBackendEnum
+
         self.allowed_attn_types: tuple | None = None
         if current_platform.is_rocm():
             rocm_types = [TritonAttentionMetadata, FlashAttentionMetadata]
-            # vllm.v1.attention.backends.rocm_aiter_fa is an optional backend
-            if find_spec("vllm.v1.attention.backends.rocm_aiter_fa"):
+            # ROCM_AITER_FA is an optional backend
+            if find_spec(
+                AttentionBackendEnum.ROCM_AITER_FA.get_path(include_classname=False)
+            ):
                 from vllm.v1.attention.backends.rocm_aiter_fa import (
                     AiterFlashAttentionMetadata,
                 )
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index 6fccf2ea2f47c..790649b69e5c9 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -4371,7 +4371,7 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
             """
             for backend in backends:
                 is_supported = False
-                for supported_size in backend.get_supported_kernel_block_size():
+                for supported_size in backend.supported_kernel_block_sizes:
                     if isinstance(supported_size, int):
                         if block_size == supported_size:
                             is_supported = True
@@ -4402,7 +4402,7 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
         all_int_supported_sizes = set(
             supported_size
             for backend in backends
-            for supported_size in backend.get_supported_kernel_block_size()
+            for supported_size in backend.supported_kernel_block_sizes
             if isinstance(supported_size, int)
         )
 

From 7dbe6d81d6f17abe93389d97d417e4886467546f Mon Sep 17 00:00:00 2001
From: Chaojun Zhang <chaojun.zhang@intel.com>
Date: Tue, 11 Nov 2025 20:46:47 +0800
Subject: [PATCH 310/976] Fix Fused MoE LoRA Triton kernel bug (#28450)

Signed-off-by: chaojun-zhang <chaojun.zhang@intel.com>
---
 vllm/lora/ops/triton_ops/fused_moe_lora_op.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/vllm/lora/ops/triton_ops/fused_moe_lora_op.py b/vllm/lora/ops/triton_ops/fused_moe_lora_op.py
index 6d6de2529de3d..893972144e99a 100644
--- a/vllm/lora/ops/triton_ops/fused_moe_lora_op.py
+++ b/vllm/lora/ops/triton_ops/fused_moe_lora_op.py
@@ -26,7 +26,7 @@ def _get_ptr(lora_weights: list[torch.Tensor], device: torch.device):
     tensor_ptrs = []
     for lora_weight in lora_weights:
         tensor_ptrs.append(lora_weight.data_ptr())
-    ptr_tensor = torch.tensor(tensor_ptrs, device=device)
+    ptr_tensor = torch.tensor(tensor_ptrs, device=device, dtype=torch.uint64)
 
     _LORA_PTR_DICT[key] = ptr_tensor
     return _LORA_PTR_DICT.get(key)
@@ -85,6 +85,7 @@ def _fused_moe_lora_kernel(
     GROUP_SIZE_M: tl.constexpr,
     SPLIT_K: tl.constexpr,
     USE_GDC: tl.constexpr,
+    launch_pdl: tl.constexpr,
     IS_PRIMARY: tl.constexpr,
 ):
     pid = tl.program_id(axis=0)

From afffd3cc8a99ce1cf0f6f1687852e5519d725a3b Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Tue, 11 Nov 2025 21:14:48 +0800
Subject: [PATCH 311/976] [Model] Pass `mm_features` directly into
 `get_mrope_input_positions` (#28399)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 vllm/model_executor/models/ernie45_vl.py      | 35 +++++-------
 vllm/model_executor/models/glm4_1v.py         | 32 +++++------
 vllm/model_executor/models/glm4v.py           | 32 +++++------
 vllm/model_executor/models/interfaces.py      | 22 ++------
 vllm/model_executor/models/keye.py            | 29 ++++------
 vllm/model_executor/models/keye_vl1_5.py      | 29 ++++------
 vllm/model_executor/models/paddleocr_vl.py    | 29 ++++------
 .../models/qwen2_5_omni_thinker.py            | 46 +++++++++-------
 vllm/model_executor/models/qwen2_5_vl.py      | 36 ++++++------
 vllm/model_executor/models/qwen2_vl.py        | 37 +++++--------
 .../models/qwen3_omni_moe_thinker.py          | 55 +++++++++++--------
 vllm/model_executor/models/qwen3_vl.py        | 30 ++++------
 .../models/transformers/multimodal.py         | 39 +++++++++----
 vllm/multimodal/inputs.py                     | 13 +++++
 vllm/v1/worker/gpu_model_runner.py            | 33 ++---------
 15 files changed, 225 insertions(+), 272 deletions(-)

diff --git a/vllm/model_executor/models/ernie45_vl.py b/vllm/model_executor/models/ernie45_vl.py
index 97182a25f82b8..c040b19bba20e 100644
--- a/vllm/model_executor/models/ernie45_vl.py
+++ b/vllm/model_executor/models/ernie45_vl.py
@@ -34,7 +34,7 @@ import torch
 import torch.nn as nn
 import torch.nn.functional as F
 from einops import rearrange, repeat
-from transformers import BatchFeature, PretrainedConfig
+from transformers import BatchFeature
 
 from vllm.attention.backends.registry import AttentionBackendEnum
 from vllm.attention.layer import (
@@ -58,6 +58,7 @@ from vllm.model_executor.model_loader.weight_utils import default_weight_loader
 from vllm.multimodal import MULTIMODAL_REGISTRY
 from vllm.multimodal.inputs import (
     MultiModalDataDict,
+    MultiModalFeatureSpec,
     MultiModalFieldConfig,
     MultiModalKwargsItems,
 )
@@ -1433,15 +1434,16 @@ class Ernie4_5_VLMoeForConditionalGeneration(
     def get_mrope_input_positions(
         self,
         input_tokens: list[int],
-        hf_config: PretrainedConfig,
-        image_grid_thw: list[list[int]] | torch.Tensor,
-        video_grid_thw: list[list[int]] | torch.Tensor,
-        second_per_grid_ts: list[float] | None = None,
-        audio_feature_lengths: torch.Tensor | None = None,
-        use_audio_in_video: bool = False,
+        mm_features: list[MultiModalFeatureSpec],
     ) -> tuple[torch.Tensor, int]:
-        """Get mrope input positions and delta value for Ernie VL."""
+        kwargs = MultiModalFeatureSpec.gather_kwargs(
+            mm_features,
+            {"image_grid_thw", "video_grid_thw"},
+        )
+        image_grid_thw = [item.tolist() for item in kwargs.get("image_grid_thw", [])]
+        video_grid_thw = [item.tolist() for item in kwargs.get("video_grid_thw", [])]
 
+        hf_config = self.config
         image_token_id = hf_config.im_patch_id
         video_start_token_id = hf_config.video_start_token_id
         video_end_token_id = hf_config.video_end_token_id
@@ -1449,10 +1451,7 @@ class Ernie4_5_VLMoeForConditionalGeneration(
         temporal_conv_size = hf_config.temporal_conv_size
         llm_pos_ids_list: list = []
 
-        if not (image_grid_thw is None and video_grid_thw is None):
-            if isinstance(image_grid_thw, torch.Tensor):
-                image_grid_thw = image_grid_thw.tolist()
-
+        if image_grid_thw or video_grid_thw:
             input_token_type: list[str] = []
             video_check_flg = False
             for token in input_tokens:
@@ -1484,11 +1483,7 @@ class Ernie4_5_VLMoeForConditionalGeneration(
                     llm_pos_ids_list[-1].max() + 1 if len(llm_pos_ids_list) > 0 else 0
                 )
                 if modality_type == "image":
-                    t, h, w = (
-                        image_grid_thw[mm_data_idx][0],
-                        image_grid_thw[mm_data_idx][1],
-                        image_grid_thw[mm_data_idx][2],
-                    )
+                    t, h, w = image_grid_thw[mm_data_idx]
                     llm_grid_t, llm_grid_h, llm_grid_w = (
                         t,
                         h // spatial_conv_size,
@@ -1519,11 +1514,7 @@ class Ernie4_5_VLMoeForConditionalGeneration(
                     mm_data_idx += 1
 
                 elif modality_type == "video":
-                    t, h, w = (
-                        video_grid_thw[mm_data_idx][0],
-                        video_grid_thw[mm_data_idx][1],
-                        video_grid_thw[mm_data_idx][2],
-                    )
+                    t, h, w = video_grid_thw[mm_data_idx]
                     llm_grid_t, llm_grid_h, llm_grid_w = (
                         t // temporal_conv_size,
                         h // spatial_conv_size,
diff --git a/vllm/model_executor/models/glm4_1v.py b/vllm/model_executor/models/glm4_1v.py
index 776527fdd973a..60cad2e2907f2 100644
--- a/vllm/model_executor/models/glm4_1v.py
+++ b/vllm/model_executor/models/glm4_1v.py
@@ -37,7 +37,7 @@ import torch
 import torch.nn as nn
 import torch.nn.functional as F
 from einops import rearrange
-from transformers import BatchFeature, PretrainedConfig
+from transformers import BatchFeature
 from transformers.models.glm4v.configuration_glm4v import Glm4vVisionConfig
 from transformers.models.glm4v.image_processing_glm4v import (
     Glm4vImageProcessor,
@@ -70,6 +70,7 @@ from vllm.model_executor.models.module_mapping import MultiModelKeys
 from vllm.multimodal import MULTIMODAL_REGISTRY
 from vllm.multimodal.inputs import (
     MultiModalDataDict,
+    MultiModalFeatureSpec,
     MultiModalFieldConfig,
     MultiModalKwargsItems,
     VideoItem,
@@ -1619,25 +1620,23 @@ class Glm4vForConditionalGeneration(
     def get_mrope_input_positions(
         self,
         input_tokens: list[int],
-        hf_config: "PretrainedConfig",
-        image_grid_thw: list[list[int]] | torch.Tensor | None,
-        video_grid_thw: list[list[int]] | torch.Tensor | None,
-        second_per_grid_ts: list[float] | None = None,
-        audio_feature_lengths: torch.Tensor | None = None,
-        use_audio_in_video: bool = False,
+        mm_features: list[MultiModalFeatureSpec],
     ) -> tuple[torch.Tensor, int]:
-        """Get mrope input positions and delta value for GLM4V."""
+        kwargs = MultiModalFeatureSpec.gather_kwargs(
+            mm_features,
+            {"image_grid_thw", "video_grid_thw"},
+        )
+        image_grid_thw = [item.tolist() for item in kwargs.get("image_grid_thw", [])]
+        video_grid_thw = [item.tolist() for item in kwargs.get("video_grid_thw", [])]
 
+        hf_config = self.config
         image_token_id = hf_config.image_token_id
         video_start_token_id = hf_config.video_start_token_id
         video_end_token_id = hf_config.video_end_token_id
         spatial_merge_size = hf_config.vision_config.spatial_merge_size
         llm_pos_ids_list: list = []
 
-        if not (image_grid_thw is None and video_grid_thw is None):
-            if isinstance(image_grid_thw, torch.Tensor):
-                image_grid_thw = image_grid_thw.tolist()
-
+        if image_grid_thw or video_grid_thw:
             input_token_type: list[str] = []
             video_check_flg = False
             for token in input_tokens:
@@ -1669,11 +1668,7 @@ class Glm4vForConditionalGeneration(
                     llm_pos_ids_list[-1].max() + 1 if len(llm_pos_ids_list) > 0 else 0
                 )
                 if modality_type == "image":
-                    t, h, w = (
-                        image_grid_thw[mm_data_idx][0],
-                        image_grid_thw[mm_data_idx][1],
-                        image_grid_thw[mm_data_idx][2],
-                    )
+                    t, h, w = image_grid_thw[mm_data_idx]
                     llm_grid_t, llm_grid_h, llm_grid_w = (
                         t,
                         h // spatial_merge_size,
@@ -1706,8 +1701,7 @@ class Glm4vForConditionalGeneration(
                 elif modality_type == "video":
                     t, h, w = (
                         video_frame_num,
-                        image_grid_thw[mm_data_idx][1],
-                        image_grid_thw[mm_data_idx][2],
+                        *image_grid_thw[mm_data_idx][1:],
                     )
                     llm_grid_t, llm_grid_h, llm_grid_w = (
                         t,
diff --git a/vllm/model_executor/models/glm4v.py b/vllm/model_executor/models/glm4v.py
index ebf6934dddead..899797a510539 100644
--- a/vllm/model_executor/models/glm4v.py
+++ b/vllm/model_executor/models/glm4v.py
@@ -15,7 +15,7 @@ from torch import nn
 from torch.nn import LayerNorm
 from torchvision import transforms
 from torchvision.transforms import InterpolationMode
-from transformers import BatchFeature, PretrainedConfig, PreTrainedTokenizer, TensorType
+from transformers import BatchFeature, PreTrainedTokenizer, TensorType
 from transformers.image_utils import ImageInput
 from transformers.tokenization_utils_base import TextInput
 
@@ -36,6 +36,7 @@ from vllm.model_executor.models.module_mapping import MultiModelKeys
 from vllm.multimodal import MULTIMODAL_REGISTRY
 from vllm.multimodal.inputs import (
     MultiModalDataDict,
+    MultiModalFeatureSpec,
     MultiModalFieldConfig,
     MultiModalKwargsItems,
 )
@@ -622,25 +623,23 @@ class GLM4VForCausalLM(
     def get_mrope_input_positions(
         self,
         input_tokens: list[int],
-        hf_config: PretrainedConfig,
-        image_grid_thw: list[list[int]] | torch.Tensor,
-        video_grid_thw: list[list[int]] | torch.Tensor,
-        second_per_grid_ts: list[float] | None = None,
-        audio_feature_lengths: torch.Tensor | None = None,
-        use_audio_in_video: bool = False,
+        mm_features: list[MultiModalFeatureSpec],
     ) -> tuple[torch.Tensor, int]:
-        """Get mrope input positions and delta value for GLM4V."""
+        kwargs = MultiModalFeatureSpec.gather_kwargs(
+            mm_features,
+            {"image_grid_thw", "video_grid_thw"},
+        )
+        image_grid_thw = [item.tolist() for item in kwargs.get("image_grid_thw", [])]
+        video_grid_thw = [item.tolist() for item in kwargs.get("video_grid_thw", [])]
 
+        hf_config = self.config
         image_token_id = hf_config.image_token_id
         video_start_token_id = hf_config.video_start_token_id
         video_end_token_id = hf_config.video_end_token_id
         spatial_merge_size = hf_config.vision_config.spatial_merge_size
         llm_pos_ids_list: list = []
 
-        if not (image_grid_thw is None and video_grid_thw is None):
-            if isinstance(image_grid_thw, torch.Tensor):
-                image_grid_thw = image_grid_thw.tolist()
-
+        if image_grid_thw or video_grid_thw:
             input_token_type: list[str] = []
             video_check_flg = False
             for token in input_tokens:
@@ -672,11 +671,7 @@ class GLM4VForCausalLM(
                     llm_pos_ids_list[-1].max() + 1 if len(llm_pos_ids_list) > 0 else 0
                 )
                 if modality_type == "image":
-                    t, h, w = (
-                        image_grid_thw[mm_data_idx][0],
-                        image_grid_thw[mm_data_idx][1],
-                        image_grid_thw[mm_data_idx][2],
-                    )
+                    t, h, w = image_grid_thw[mm_data_idx]
                     llm_grid_t, llm_grid_h, llm_grid_w = (
                         t,
                         h // spatial_merge_size,
@@ -709,8 +704,7 @@ class GLM4VForCausalLM(
                 elif modality_type == "video":
                     t, h, w = (
                         video_frame_num,
-                        image_grid_thw[mm_data_idx][1],
-                        image_grid_thw[mm_data_idx][2],
+                        *image_grid_thw[mm_data_idx][1:],
                     )
                     llm_grid_t, llm_grid_h, llm_grid_w = (
                         t,
diff --git a/vllm/model_executor/models/interfaces.py b/vllm/model_executor/models/interfaces.py
index d6a8f86d998bb..88b45bf07c0d8 100644
--- a/vllm/model_executor/models/interfaces.py
+++ b/vllm/model_executor/models/interfaces.py
@@ -16,7 +16,6 @@ import numpy as np
 import torch
 import torch.nn as nn
 from torch import Tensor
-from transformers import PretrainedConfig
 from transformers.models.whisper.tokenization_whisper import LANGUAGES
 from typing_extensions import Self, TypeIs
 
@@ -32,10 +31,12 @@ from .interfaces_base import VllmModel, is_pooling_model
 if TYPE_CHECKING:
     from vllm.config import VllmConfig
     from vllm.model_executor.models.utils import WeightsMapper
+    from vllm.multimodal.inputs import MultiModalFeatureSpec
     from vllm.sequence import IntermediateTensors
 else:
     VllmConfig = object
     WeightsMapper = object
+    MultiModalFeatureSpec = object
     IntermediateTensors = object
 
 logger = init_logger(__name__)
@@ -991,12 +992,7 @@ class SupportsMRoPE(Protocol):
     def get_mrope_input_positions(
         self,
         input_tokens: list[int],
-        hf_config: PretrainedConfig,
-        image_grid_thw: list[list[int]] | torch.Tensor | None,
-        video_grid_thw: list[list[int]] | torch.Tensor | None,
-        second_per_grid_ts: list[float] | None = None,
-        audio_feature_lengths: torch.Tensor | None = None,
-        use_audio_in_video: bool = False,
+        mm_features: list["MultiModalFeatureSpec"],
     ) -> tuple[torch.Tensor, int]:
         """
         Get M-RoPE input positions and delta value for this specific model.
@@ -1006,17 +1002,11 @@ class SupportsMRoPE(Protocol):
 
         Args:
             input_tokens: List of input token IDs
-            hf_config: HuggingFace model configuration
-            image_grid_thw: Image grid dimensions (t, h, w)
-            video_grid_thw: Video grid dimensions (t, h, w)
-            second_per_grid_ts: Seconds per grid timestep for videos
-            audio_feature_lengths: Audio feature lengths for multimodal models
-            use_audio_in_video: Whether to use audio in video for interleaving
+            mm_features: Information about each multi-modal data item
 
         Returns:
-            Tuple of (llm_positions, mrope_position_delta)
-            - llm_positions: Tensor of shape [3, num_tokens]
-                with T/H/W positions
+            Tuple of `(llm_positions, mrope_position_delta)`
+            - llm_positions: Tensor of shape `[3, num_tokens]` with T/H/W positions
             - mrope_position_delta: Delta for position calculations
         """
         ...
diff --git a/vllm/model_executor/models/keye.py b/vllm/model_executor/models/keye.py
index 80d7e6c5b0cd0..aa0134badc402 100644
--- a/vllm/model_executor/models/keye.py
+++ b/vllm/model_executor/models/keye.py
@@ -40,6 +40,7 @@ from vllm.multimodal.inputs import (
     ImageItem,
     ModalityData,
     MultiModalDataDict,
+    MultiModalFeatureSpec,
     MultiModalFieldConfig,
     MultiModalKwargsItems,
     VideoItem,
@@ -1627,16 +1628,17 @@ class KeyeForConditionalGeneration(
     def get_mrope_input_positions(
         self,
         input_tokens: list[int],
-        hf_config: PretrainedConfig,
-        image_grid_thw: list[list[int]] | torch.Tensor,
-        video_grid_thw: list[list[int]] | torch.Tensor,
-        second_per_grid_ts: list[float] | None = None,
-        audio_feature_lengths: torch.Tensor | None = None,
-        use_audio_in_video: bool = False,
+        mm_features: list[MultiModalFeatureSpec],
     ) -> tuple[torch.Tensor, int]:
+        kwargs = MultiModalFeatureSpec.gather_kwargs(
+            mm_features,
+            {"image_grid_thw", "video_grid_thw"},
+        )
+        image_grid_thw = [item.tolist() for item in kwargs.get("image_grid_thw", [])]
+        video_grid_thw = [item.tolist() for item in kwargs.get("video_grid_thw", [])]
+
         if isinstance(video_grid_thw, list) and len(video_grid_thw) > 0:
             video_grid_thw = video_grid_thw[0]
-        """Get mrope input positions and delta value (Keye series)."""
 
         def split_thw(grid_thw: torch.Tensor | list[int]) -> list[list[int]]:
             """
@@ -1662,6 +1664,7 @@ class KeyeForConditionalGeneration(
 
         video_grid_thw = split_thw(video_grid_thw)
 
+        hf_config = self.config
         image_token_id = hf_config.image_token_id
         video_token_id = hf_config.video_token_id
         spatial_merge_size = hf_config.vision_config.spatial_merge_size
@@ -1691,20 +1694,12 @@ class KeyeForConditionalGeneration(
                 ed_video = len(input_tokens) + 1
 
             if ed_image < ed_video:
-                t, h, w = (
-                    image_grid_thw[image_index][0],
-                    image_grid_thw[image_index][1],
-                    image_grid_thw[image_index][2],
-                )
+                t, h, w = image_grid_thw[image_index]
                 image_index += 1
                 remain_images -= 1
                 ed = ed_image
             else:
-                t, h, w = (
-                    video_grid_thw[video_index][0],
-                    video_grid_thw[video_index][1],
-                    video_grid_thw[video_index][2],
-                )
+                t, h, w = video_grid_thw[video_index]
                 video_index += 1
                 remain_frames -= 1
                 ed = ed_video
diff --git a/vllm/model_executor/models/keye_vl1_5.py b/vllm/model_executor/models/keye_vl1_5.py
index 6f95a59d36d29..124e9c2afa217 100644
--- a/vllm/model_executor/models/keye_vl1_5.py
+++ b/vllm/model_executor/models/keye_vl1_5.py
@@ -21,6 +21,7 @@ from vllm.multimodal import MULTIMODAL_REGISTRY
 from vllm.multimodal.inputs import (
     ImageItem,
     ModalityData,
+    MultiModalFeatureSpec,
     MultiModalFieldConfig,
     MultiModalKwargsItems,
     VideoItem,
@@ -597,16 +598,17 @@ class KeyeVL1_5ForConditionalGeneration(
     def get_mrope_input_positions(
         self,
         input_tokens: list[int],
-        hf_config: PretrainedConfig,
-        image_grid_thw: list[list[int]] | torch.Tensor,
-        video_grid_thw: list[list[int]] | torch.Tensor,
-        second_per_grid_ts: list[float] | None = None,
-        audio_feature_lengths: torch.Tensor | None = None,
-        use_audio_in_video: bool = False,
+        mm_features: list[MultiModalFeatureSpec],
     ) -> tuple[torch.Tensor, int]:
+        kwargs = MultiModalFeatureSpec.gather_kwargs(
+            mm_features,
+            {"image_grid_thw", "video_grid_thw"},
+        )
+        image_grid_thw = [item.tolist() for item in kwargs.get("image_grid_thw", [])]
+        video_grid_thw = [item.tolist() for item in kwargs.get("video_grid_thw", [])]
+
         if isinstance(video_grid_thw, list) and len(video_grid_thw) > 0:
             video_grid_thw = video_grid_thw[0]
-        """Get mrope input positions and delta value (Keye series)."""
 
         def split_thw(grid_thw: torch.Tensor | list[int]) -> list[list[int]]:
             """
@@ -632,6 +634,7 @@ class KeyeVL1_5ForConditionalGeneration(
 
         video_grid_thw = split_thw(video_grid_thw)
 
+        hf_config = self.config
         image_token_id = hf_config.image_token_id
         video_token_id = hf_config.video_token_id
         spatial_merge_size = hf_config.vision_config.spatial_merge_size
@@ -661,20 +664,12 @@ class KeyeVL1_5ForConditionalGeneration(
                 ed_video = len(input_tokens) + 1
 
             if ed_image < ed_video:
-                t, h, w = (
-                    image_grid_thw[image_index][0],
-                    image_grid_thw[image_index][1],
-                    image_grid_thw[image_index][2],
-                )
+                t, h, w = image_grid_thw[image_index]
                 image_index += 1
                 remain_images -= 1
                 ed = ed_image
             else:
-                t, h, w = (
-                    video_grid_thw[video_index][0],
-                    video_grid_thw[video_index][1],
-                    video_grid_thw[video_index][2],
-                )
+                t, h, w = video_grid_thw[video_index]
                 video_index += 1
                 remain_frames -= 1
                 ed = ed_video
diff --git a/vllm/model_executor/models/paddleocr_vl.py b/vllm/model_executor/models/paddleocr_vl.py
index 86d7d1c11ffe8..62994abe8e317 100644
--- a/vllm/model_executor/models/paddleocr_vl.py
+++ b/vllm/model_executor/models/paddleocr_vl.py
@@ -61,6 +61,7 @@ from vllm.model_executor.model_loader.weight_utils import (
 from vllm.multimodal import MULTIMODAL_REGISTRY
 from vllm.multimodal.inputs import (
     MultiModalDataDict,
+    MultiModalFeatureSpec,
     MultiModalFieldConfig,
     MultiModalKwargs,
 )
@@ -1184,15 +1185,17 @@ class PaddleOCRVLForConditionalGeneration(nn.Module, SupportsMultiModal, Support
     def get_mrope_input_positions(
         self,
         input_tokens: list[int],
-        hf_config: PretrainedConfig,
-        image_grid_thw: list[list[int]] | torch.Tensor,
-        video_grid_thw: list[list[int]] | torch.Tensor,
-        second_per_grid_ts: list[float],
-        audio_feature_lengths: torch.Tensor | None = None,
-        use_audio_in_video: bool = False,
+        mm_features: list[MultiModalFeatureSpec],
     ) -> tuple[torch.Tensor, int]:
-        """Get mrope input positions and delta value."""
+        kwargs = MultiModalFeatureSpec.gather_kwargs(
+            mm_features,
+            {"image_grid_thw", "video_grid_thw", "second_per_grid_ts"},
+        )
+        image_grid_thw = [item.tolist() for item in kwargs.get("image_grid_thw", [])]
+        video_grid_thw = [item.tolist() for item in kwargs.get("video_grid_thw", [])]
+        second_per_grid_ts = kwargs.get("second_per_grid_ts", [])
 
+        hf_config = self.config
         image_token_id = hf_config.image_token_id
         video_token_id = hf_config.video_token_id
         vision_start_token_id = hf_config.vision_start_token_id
@@ -1229,20 +1232,12 @@ class PaddleOCRVLForConditionalGeneration(nn.Module, SupportsMultiModal, Support
             else:
                 ed_video = len(input_tokens) + 1
             if ed_image < ed_video:
-                t, h, w = (
-                    image_grid_thw[image_index][0],
-                    image_grid_thw[image_index][1],
-                    image_grid_thw[image_index][2],
-                )
+                t, h, w = image_grid_thw[image_index]
                 image_index += 1
                 remain_images -= 1
                 ed = ed_image
             else:
-                t, h, w = (
-                    video_grid_thw[video_index][0],
-                    video_grid_thw[video_index][1],
-                    video_grid_thw[video_index][2],
-                )
+                t, h, w = video_grid_thw[video_index]
                 video_second_per_grid_t = 1.0
                 if second_per_grid_ts:
                     video_second_per_grid_t = second_per_grid_ts[video_index]
diff --git a/vllm/model_executor/models/qwen2_5_omni_thinker.py b/vllm/model_executor/models/qwen2_5_omni_thinker.py
index fac281d2caf49..8f74cab0534da 100644
--- a/vllm/model_executor/models/qwen2_5_omni_thinker.py
+++ b/vllm/model_executor/models/qwen2_5_omni_thinker.py
@@ -68,6 +68,7 @@ from vllm.multimodal.inputs import (
     ImageItem,
     ModalityData,
     MultiModalDataDict,
+    MultiModalFeatureSpec,
     MultiModalFieldConfig,
     MultiModalKwargsItems,
     NestedTensors,
@@ -923,21 +924,9 @@ class Qwen2_5OmniThinkerForConditionalGeneration(
     def get_mrope_input_positions(
         self,
         input_tokens: list[int],
-        hf_config: PretrainedConfig,
-        image_grid_thw: list[list[int]] | torch.Tensor,
-        video_grid_thw: list[list[int]] | torch.Tensor,
-        second_per_grid_ts: list[float] | None = None,
-        audio_feature_lengths: torch.Tensor | None = None,
-        use_audio_in_video: bool = False,
+        mm_features: list[MultiModalFeatureSpec],
     ) -> tuple[torch.Tensor, int]:
-        """Get mrope input positions and delta value (Qwen2.5-Omni version).
-
-        Differences from MRotaryEmbedding:
-            1. Add audio support (and related `audio_feature_lengths`).
-            2. Add `use_audio_in_video` option to read audio from video inputs.
-                In this case, audio and vision position ids will be split into
-                chunks and interleaved.
-
+        """
         Example:
 
             (V_i are vision position ids, A_i are audio position ids)
@@ -945,11 +934,33 @@ class Qwen2_5OmniThinkerForConditionalGeneration(
             |V_1 ...    V_n|A_1 ...   A_n|V_n+1 ... V_2n|A_n+1 ... A_2n|...
             |vision chunk 1|audio chunk 1|vision chunk 2|audio chunk 2 |...
         """
+        kwargs = MultiModalFeatureSpec.gather_kwargs(
+            mm_features,
+            {
+                "image_grid_thw",
+                "video_grid_thw",
+                "second_per_grid_ts",
+                "audio_feature_lengths",
+                "use_audio_in_video",
+            },
+        )
+        image_grid_thw = kwargs.get("image_grid_thw", [])
+        video_grid_thw = kwargs.get("video_grid_thw", [])
+        second_per_grid_ts = kwargs.get("second_per_grid_ts", [])
+        audio_feature_lengths = kwargs.get("audio_feature_lengths", [])
+        use_audio_in_video = any(kwargs.get("use_audio_in_video", []))
+
+        image_grid_thw = (torch.stack if image_grid_thw else torch.tensor)(
+            image_grid_thw
+        )
+        video_grid_thw = (torch.stack if video_grid_thw else torch.tensor)(
+            video_grid_thw
+        )
 
         # TODO(fyabc): refactor and share more code with
         #  _vl_get_input_positions_tensor.
 
-        thinker_config = hf_config.thinker_config
+        thinker_config = self.config
         audio_token_id = thinker_config.audio_token_index
         image_token_id = thinker_config.image_token_index
         video_token_id = thinker_config.video_token_index
@@ -963,11 +974,6 @@ class Qwen2_5OmniThinkerForConditionalGeneration(
             thinker_config.vision_config, "tokens_per_second", 25
         )
 
-        if isinstance(image_grid_thw, list):
-            image_grid_thw = torch.tensor(image_grid_thw)
-        if isinstance(video_grid_thw, list):
-            video_grid_thw = torch.tensor(video_grid_thw)
-
         src_item = input_tokens
         audio_seqlens = audio_feature_lengths
         if not second_per_grid_ts:
diff --git a/vllm/model_executor/models/qwen2_5_vl.py b/vllm/model_executor/models/qwen2_5_vl.py
index 3292cf8220ffe..4662176a1cc51 100644
--- a/vllm/model_executor/models/qwen2_5_vl.py
+++ b/vllm/model_executor/models/qwen2_5_vl.py
@@ -35,7 +35,7 @@ import einops
 import torch
 import torch.nn as nn
 import torch.nn.functional as F
-from transformers import BatchFeature, PretrainedConfig
+from transformers import BatchFeature
 from transformers.models.qwen2_5_vl import Qwen2_5_VLProcessor
 from transformers.models.qwen2_5_vl.configuration_qwen2_5_vl import (
     Qwen2_5_VLConfig,
@@ -75,7 +75,11 @@ from vllm.multimodal.evs import (
     compute_retention_mask,
     recompute_mrope_positions,
 )
-from vllm.multimodal.inputs import MultiModalFieldConfig, MultiModalKwargs
+from vllm.multimodal.inputs import (
+    MultiModalFeatureSpec,
+    MultiModalFieldConfig,
+    MultiModalKwargs,
+)
 from vllm.multimodal.parse import MultiModalDataItems
 from vllm.multimodal.processing import PromptReplacement, PromptUpdate
 from vllm.sequence import IntermediateTensors
@@ -1120,15 +1124,17 @@ class Qwen2_5_VLForConditionalGeneration(
     def get_mrope_input_positions(
         self,
         input_tokens: list[int],
-        hf_config: PretrainedConfig,
-        image_grid_thw: list[list[int]] | torch.Tensor,
-        video_grid_thw: list[list[int]] | torch.Tensor,
-        second_per_grid_ts: list[float],
-        audio_feature_lengths: torch.Tensor | None = None,
-        use_audio_in_video: bool = False,
+        mm_features: list[MultiModalFeatureSpec],
     ) -> tuple[torch.Tensor, int]:
-        """Get mrope input positions and delta value."""
+        kwargs = MultiModalFeatureSpec.gather_kwargs(
+            mm_features,
+            {"image_grid_thw", "video_grid_thw", "second_per_grid_ts"},
+        )
+        image_grid_thw = [item.tolist() for item in kwargs.get("image_grid_thw", [])]
+        video_grid_thw = [item.tolist() for item in kwargs.get("video_grid_thw", [])]
+        second_per_grid_ts = kwargs.get("second_per_grid_ts", [])
 
+        hf_config = self.config
         image_token_id = hf_config.image_token_id
         video_token_id = hf_config.video_token_id
         vision_start_token_id = hf_config.vision_start_token_id
@@ -1165,20 +1171,12 @@ class Qwen2_5_VLForConditionalGeneration(
             else:
                 ed_video = len(input_tokens) + 1
             if ed_image < ed_video:
-                t, h, w = (
-                    image_grid_thw[image_index][0],
-                    image_grid_thw[image_index][1],
-                    image_grid_thw[image_index][2],
-                )
+                t, h, w = image_grid_thw[image_index]
                 image_index += 1
                 remain_images -= 1
                 ed = ed_image
             else:
-                t, h, w = (
-                    video_grid_thw[video_index][0],
-                    video_grid_thw[video_index][1],
-                    video_grid_thw[video_index][2],
-                )
+                t, h, w = video_grid_thw[video_index]
                 video_second_per_grid_t = 1.0
                 if second_per_grid_ts:
                     video_second_per_grid_t = second_per_grid_ts[video_index]
diff --git a/vllm/model_executor/models/qwen2_vl.py b/vllm/model_executor/models/qwen2_vl.py
index 61057fa145f47..bbebe7c0f9289 100644
--- a/vllm/model_executor/models/qwen2_vl.py
+++ b/vllm/model_executor/models/qwen2_vl.py
@@ -34,7 +34,7 @@ import torch
 import torch.nn as nn
 import torch.nn.functional as F
 from einops import rearrange, repeat
-from transformers import BatchFeature, PretrainedConfig
+from transformers import BatchFeature
 from transformers.models.qwen2_vl import Qwen2VLImageProcessor, Qwen2VLProcessor
 from transformers.models.qwen2_vl.configuration_qwen2_vl import (
     Qwen2VLConfig,
@@ -70,6 +70,7 @@ from vllm.multimodal.inputs import (
     ImageItem,
     ModalityData,
     MultiModalDataDict,
+    MultiModalFeatureSpec,
     MultiModalFieldConfig,
     MultiModalKwargsItems,
     VideoItem,
@@ -1240,21 +1241,17 @@ class Qwen2VLForConditionalGeneration(
     def get_mrope_input_positions(
         self,
         input_tokens: list[int],
-        hf_config: PretrainedConfig,
-        image_grid_thw: list[list[int]] | torch.Tensor | None,
-        video_grid_thw: list[list[int]] | torch.Tensor | None,
-        second_per_grid_ts: list[float] | None = None,
-        audio_feature_lengths: torch.Tensor | None = None,
-        use_audio_in_video: bool = False,
+        mm_features: list[MultiModalFeatureSpec],
     ) -> tuple[torch.Tensor, int]:
-        """Get M-RoPE input positions for Qwen2-VL model."""
-        if image_grid_thw is None:
-            image_grid_thw = []
-        if video_grid_thw is None:
-            video_grid_thw = []
-        if second_per_grid_ts is None:
-            second_per_grid_ts = []
+        kwargs = MultiModalFeatureSpec.gather_kwargs(
+            mm_features,
+            {"image_grid_thw", "video_grid_thw", "second_per_grid_ts"},
+        )
+        image_grid_thw = [item.tolist() for item in kwargs.get("image_grid_thw", [])]
+        video_grid_thw = [item.tolist() for item in kwargs.get("video_grid_thw", [])]
+        second_per_grid_ts = kwargs.get("second_per_grid_ts", [])
 
+        hf_config = self.config
         image_token_id = hf_config.image_token_id
         video_token_id = hf_config.video_token_id
         vision_start_token_id = hf_config.vision_start_token_id
@@ -1291,20 +1288,12 @@ class Qwen2VLForConditionalGeneration(
             else:
                 ed_video = len(input_tokens) + 1
             if ed_image < ed_video:
-                t, h, w = (
-                    image_grid_thw[image_index][0],
-                    image_grid_thw[image_index][1],
-                    image_grid_thw[image_index][2],
-                )
+                t, h, w = image_grid_thw[image_index]
                 image_index += 1
                 remain_images -= 1
                 ed = ed_image
             else:
-                t, h, w = (
-                    video_grid_thw[video_index][0],
-                    video_grid_thw[video_index][1],
-                    video_grid_thw[video_index][2],
-                )
+                t, h, w = video_grid_thw[video_index]
                 video_second_per_grid_t = 1.0
                 if second_per_grid_ts:
                     video_second_per_grid_t = second_per_grid_ts[video_index]
diff --git a/vllm/model_executor/models/qwen3_omni_moe_thinker.py b/vllm/model_executor/models/qwen3_omni_moe_thinker.py
index 468b25220154b..e6cb4442e2bef 100755
--- a/vllm/model_executor/models/qwen3_omni_moe_thinker.py
+++ b/vllm/model_executor/models/qwen3_omni_moe_thinker.py
@@ -65,7 +65,7 @@ from vllm.model_executor.layers.vocab_parallel_embedding import ParallelLMHead
 from vllm.model_executor.model_loader.weight_utils import default_weight_loader
 from vllm.model_executor.models.qwen2_audio import Qwen2AudioProcessingInfo
 from vllm.multimodal import MULTIMODAL_REGISTRY
-from vllm.multimodal.inputs import MultiModalKwargsItems
+from vllm.multimodal.inputs import MultiModalFeatureSpec, MultiModalKwargsItems
 from vllm.multimodal.parse import AudioProcessorItems, MultiModalDataItems
 from vllm.multimodal.processing import (
     BaseMultiModalProcessor,
@@ -1414,39 +1414,48 @@ class Qwen3OmniMoeThinkerForConditionalGeneration(
     def get_mrope_input_positions(
         self,
         input_tokens: list[int],
-        hf_config: PretrainedConfig,
-        image_grid_thw: list[list[int]] | torch.Tensor | None,
-        video_grid_thw: list[list[int]] | torch.Tensor | None,
-        second_per_grid_ts: list[float] | None = None,
-        audio_feature_lengths: torch.Tensor | None = None,
-        use_audio_in_video: bool = False,
+        mm_features: list[MultiModalFeatureSpec],
     ) -> tuple[torch.Tensor, int]:
-        config = hf_config.thinker_config
-        if isinstance(image_grid_thw, list):
-            image_grid_thw = torch.tensor(image_grid_thw)
-        if isinstance(video_grid_thw, list):
-            video_grid_thw = torch.tensor(video_grid_thw)
+        kwargs = MultiModalFeatureSpec.gather_kwargs(
+            mm_features,
+            {
+                "image_grid_thw",
+                "video_grid_thw",
+                "second_per_grid_ts",
+                "audio_feature_lengths",
+                "use_audio_in_video",
+            },
+        )
+        image_grid_thw = kwargs.get("image_grid_thw", [])
+        video_grid_thw = kwargs.get("video_grid_thw", [])
+        second_per_grid_ts = kwargs.get("second_per_grid_ts", [])
+        audio_feature_lengths = kwargs.get("audio_feature_lengths", [])
+        use_audio_in_video = any(kwargs.get("use_audio_in_video", []))
+
+        image_grid_thw = (torch.stack if image_grid_thw else torch.tensor)(
+            image_grid_thw
+        )
+        video_grid_thw = (torch.stack if video_grid_thw else torch.tensor)(
+            video_grid_thw
+        )
+
         input_ids = torch.tensor(input_tokens)
         if input_ids is None or input_ids.ndim != 1:
             raise ValueError("_omni3_get_input_positions_tensor expects 1D input_ids")
 
         seq_len = input_ids.shape[0]
-        if audio_feature_lengths is not None and not isinstance(
-            audio_feature_lengths, torch.Tensor
-        ):
-            audio_feature_lengths = torch.as_tensor(
+
+        if isinstance(audio_feature_lengths, list):
+            audio_feature_lengths = torch.tensor(
                 audio_feature_lengths, dtype=torch.long
             )
-        if second_per_grid_ts is None:
-            if video_grid_thw is not None and video_grid_thw.numel() > 0:
-                second_per_grids = torch.ones(
-                    video_grid_thw.shape[0], dtype=torch.float32
-                )
-            else:
-                second_per_grids = torch.tensor([], dtype=torch.float32)
+
+        if not len(second_per_grid_ts) and len(video_grid_thw):
+            second_per_grids = torch.ones(len(video_grid_thw), dtype=torch.float32)
         else:
             second_per_grids = torch.tensor(second_per_grid_ts, dtype=torch.float32)
 
+        config = self.config
         spatial_merge_size = config.vision_config.spatial_merge_size
         image_token_id = config.image_token_id
         video_token_id = config.video_token_id
diff --git a/vllm/model_executor/models/qwen3_vl.py b/vllm/model_executor/models/qwen3_vl.py
index 1be35cde7dbdc..97d4667d82e99 100644
--- a/vllm/model_executor/models/qwen3_vl.py
+++ b/vllm/model_executor/models/qwen3_vl.py
@@ -34,7 +34,7 @@ import numpy as np
 import torch
 import torch.nn as nn
 import torch.nn.functional as F
-from transformers import BatchFeature, PretrainedConfig
+from transformers import BatchFeature
 from transformers.models.qwen2_vl import Qwen2VLImageProcessorFast
 from transformers.models.qwen2_vl.image_processing_qwen2_vl import (
     smart_resize as image_smart_resize,
@@ -70,6 +70,7 @@ from vllm.model_executor.models.module_mapping import MultiModelKeys
 from vllm.multimodal import MULTIMODAL_REGISTRY
 from vllm.multimodal.inputs import (
     MultiModalDataDict,
+    MultiModalFeatureSpec,
     MultiModalFieldConfig,
     MultiModalKwargsItem,
     MultiModalKwargsItems,
@@ -1416,17 +1417,18 @@ class Qwen3VLForConditionalGeneration(
     def get_mrope_input_positions(
         self,
         input_tokens: list[int],
-        hf_config: PretrainedConfig,
-        image_grid_thw: list[list[int]] | torch.Tensor,
-        video_grid_thw: list[list[int]] | torch.Tensor,
-        second_per_grid_ts: list[float] | None = None,
-        audio_feature_lengths: torch.Tensor | None = None,
-        use_audio_in_video: bool = False,
+        mm_features: list[MultiModalFeatureSpec],
     ) -> tuple[torch.Tensor, int]:
-        """Get mrope input positions and delta value."""
+        kwargs = MultiModalFeatureSpec.gather_kwargs(
+            mm_features,
+            {"image_grid_thw", "video_grid_thw"},
+        )
+        image_grid_thw = [item.tolist() for item in kwargs.get("image_grid_thw", [])]
+        video_grid_thw = [item.tolist() for item in kwargs.get("video_grid_thw", [])]
 
         video_grid_thw = [[1, h, w] for t, h, w in video_grid_thw for _ in range(t)]
 
+        hf_config = self.config
         image_token_id = hf_config.image_token_id
         video_token_id = hf_config.video_token_id
         vision_start_token_id = hf_config.vision_start_token_id
@@ -1455,20 +1457,12 @@ class Qwen3VLForConditionalGeneration(
             else:
                 ed_video = len(input_tokens) + 1
             if ed_image < ed_video:
-                t, h, w = (
-                    image_grid_thw[image_index][0],
-                    image_grid_thw[image_index][1],
-                    image_grid_thw[image_index][2],
-                )
+                t, h, w = image_grid_thw[image_index]
                 image_index += 1
                 remain_images -= 1
                 ed = ed_image
             else:
-                t, h, w = (
-                    video_grid_thw[video_index][0],
-                    video_grid_thw[video_index][1],
-                    video_grid_thw[video_index][2],
-                )
+                t, h, w = video_grid_thw[video_index]
                 video_index += 1
                 remain_videos -= 1
                 ed = ed_video
diff --git a/vllm/model_executor/models/transformers/multimodal.py b/vllm/model_executor/models/transformers/multimodal.py
index 476074542e6ae..2efcef68d1c72 100644
--- a/vllm/model_executor/models/transformers/multimodal.py
+++ b/vllm/model_executor/models/transformers/multimodal.py
@@ -27,6 +27,7 @@ from vllm.model_executor.models.utils import WeightsMapper
 from vllm.multimodal import MultiModalKwargsItems
 from vllm.multimodal.inputs import (
     MultiModalDataDict,
+    MultiModalFeatureSpec,
     MultiModalFieldConfig,
     MultiModalInputs,
     MultiModalUUIDDict,
@@ -38,7 +39,7 @@ from vllm.multimodal.profiling import BaseDummyInputsBuilder
 from vllm.sequence import IntermediateTensors
 
 if TYPE_CHECKING:
-    from transformers import BatchFeature, PretrainedConfig
+    from transformers import BatchFeature
 
     from vllm.config import VllmConfig
     from vllm.config.multimodal import BaseDummyOptions
@@ -367,20 +368,34 @@ class MultiModalMixin(SupportsMultiModal, SupportsMRoPE):
     def get_mrope_input_positions(
         self,
         input_tokens: list[int],
-        hf_config: "PretrainedConfig",
-        image_grid_thw: list[list[int]] | torch.Tensor | None,
-        video_grid_thw: list[list[int]] | torch.Tensor | None,
-        second_per_grid_ts: list[float] | None = None,
-        audio_feature_lengths: torch.Tensor | None = None,
-        use_audio_in_video: bool = False,
+        mm_features: list[MultiModalFeatureSpec],
     ) -> tuple[torch.Tensor, int]:
-        if any((second_per_grid_ts, audio_feature_lengths, use_audio_in_video)):
+        kwargs = MultiModalFeatureSpec.gather_kwargs(
+            mm_features,
+            {
+                "image_grid_thw",
+                "video_grid_thw",
+                "second_per_grid_ts",
+                "audio_feature_lengths",
+                "use_audio_in_video",
+            },
+        )
+        if any(
+            v
+            for k, v in kwargs.items()
+            if k not in {"image_grid_thw", "video_grid_thw"}
+        ):
             raise NotImplementedError("Transformers backend only supports images.")
 
-        if isinstance(image_grid_thw, list):
-            image_grid_thw = torch.tensor(image_grid_thw)
-        if isinstance(video_grid_thw, list):
-            video_grid_thw = torch.tensor(video_grid_thw)
+        image_grid_thw = kwargs.get("image_grid_thw", [])
+        video_grid_thw = kwargs.get("video_grid_thw", [])
+
+        image_grid_thw = (torch.stack if image_grid_thw else torch.tensor)(
+            image_grid_thw
+        )
+        video_grid_thw = (torch.stack if video_grid_thw else torch.tensor)(
+            video_grid_thw
+        )
 
         mrope_positions, mrope_position_delta = self.model.get_rope_index(
             input_ids=torch.tensor(input_tokens).unsqueeze(0),
diff --git a/vllm/multimodal/inputs.py b/vllm/multimodal/inputs.py
index a05f54191f044..7518a023c5f50 100644
--- a/vllm/multimodal/inputs.py
+++ b/vllm/multimodal/inputs.py
@@ -249,6 +249,19 @@ class MultiModalFeatureSpec:
     mm_position: PlaceholderRange
     """e.g., PlaceholderRange(offset=2, length=336)"""
 
+    @staticmethod
+    def gather_kwargs(features: list["MultiModalFeatureSpec"], keys: set[str]):
+        kwargs = defaultdict[str, list[NestedTensors]](list)
+
+        for f in features:
+            item = f.data
+            if item is not None:
+                for k in keys:
+                    if k in item:
+                        kwargs[k].append(item[k].data)
+
+        return dict(kwargs)
+
 
 @dataclass
 class MultiModalFieldElem:
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index 790649b69e5c9..fbd3e5f313167 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -892,38 +892,13 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
             self.input_batch.num_accepted_tokens_cpu[i] = num_tokens
 
     def _init_mrope_positions(self, req_state: CachedRequestState):
-        image_grid_thw = []
-        video_grid_thw = []
-        second_per_grid_ts = []
-        audio_feature_lengths = []
-        use_audio_in_video = False
-        for mm_feature in req_state.mm_features:
-            mm_item = mm_feature.data
-            if mm_item is None:
-                continue
-            mm_input = mm_item.get_data()
-            if (t := mm_input.get("image_grid_thw")) is not None:
-                image_grid_thw.append(t.tolist())
-            if (t := mm_input.get("video_grid_thw")) is not None:
-                video_grid_thw.append(t.tolist())
-            if (t := mm_input.get("second_per_grid_ts")) is not None:
-                second_per_grid_ts.append(t)
-            if (t := mm_input.get("audio_feature_lengths")) is not None:
-                audio_feature_lengths.append(t)
-            if mm_input.get("use_audio_in_video") is True:
-                use_audio_in_video = True
-
-        assert supports_mrope(self.get_model()), "M-RoPE support is not implemented."
+        model = self.get_model()
+        assert supports_mrope(model), "M-RoPE support is not implemented."
 
         req_state.mrope_positions, req_state.mrope_position_delta = (
-            self.model.get_mrope_input_positions(
+            model.get_mrope_input_positions(
                 req_state.prompt_token_ids,
-                hf_config=self.model_config.hf_config,
-                image_grid_thw=image_grid_thw,
-                video_grid_thw=video_grid_thw,
-                second_per_grid_ts=second_per_grid_ts,
-                audio_feature_lengths=audio_feature_lengths,
-                use_audio_in_video=use_audio_in_video,
+                req_state.mm_features,
             )
         )
 

From 3380543b2075abd6f3e6e283f4eacb307354e33a Mon Sep 17 00:00:00 2001
From: Ido Segev <segevido@gmail.com>
Date: Tue, 11 Nov 2025 15:41:18 +0200
Subject: [PATCH 312/976] Add request timeout override for multi-turn
 benchmarks (#28386)

Signed-off-by: Ido Segev <idos@pliops.com>
---
 .../benchmark_serving_multi_turn.py           | 40 ++++++++++++++++---
 1 file changed, 35 insertions(+), 5 deletions(-)

diff --git a/benchmarks/multi_turn/benchmark_serving_multi_turn.py b/benchmarks/multi_turn/benchmark_serving_multi_turn.py
index 5d2ac66e5ab94..2c1a051cc9c97 100644
--- a/benchmarks/multi_turn/benchmark_serving_multi_turn.py
+++ b/benchmarks/multi_turn/benchmark_serving_multi_turn.py
@@ -63,6 +63,7 @@ class RequestArgs(NamedTuple):
     stream: bool
     limit_min_tokens: int  # Use negative value for no limit
     limit_max_tokens: int  # Use negative value for no limit
+    timeout_sec: int
 
 
 class BenchmarkArgs(NamedTuple):
@@ -214,6 +215,7 @@ async def send_request(
     stream: bool = True,
     min_tokens: int | None = None,
     max_tokens: int | None = None,
+    timeout_sec: int = 120,
 ) -> ServerResponse:
     payload = {
         "model": model,
@@ -235,10 +237,16 @@ async def send_request(
     headers = {"Content-Type": "application/json"}
 
     # Calculate the timeout for the request
-    timeout_sec = 120
     if max_tokens is not None:
         # Assume TPOT of 200ms and use max_tokens to determine timeout
-        timeout_sec = max(timeout_sec, int(max_tokens * 0.2))
+        token_based_timeout = int(max_tokens * 0.2)
+        if token_based_timeout > timeout_sec:
+            timeout_sec = token_based_timeout
+            logger.info(
+                "Using timeout of %ds based on max_tokens %d",
+                timeout_sec,
+                max_tokens,
+            )
     timeout = aiohttp.ClientTimeout(total=timeout_sec)
 
     valid_response = True
@@ -409,6 +417,7 @@ async def send_turn(
         req_args.stream,
         min_tokens,
         max_tokens,
+        req_args.timeout_sec,
     )
 
     if response.valid is False:
@@ -676,8 +685,18 @@ async def client_main(
 
             except asyncio.exceptions.TimeoutError:
                 num_failures += 1
-                logger.exception(
-                    f"{Color.RED}Client {client_id} - Timeout during conversation ID {conv_id} (turn: {current_turn}){Color.RESET}"  # noqa: E501
+                logger.error(
+                    "%sClient %d - Timeout during conversation ID %s (turn: %d). "
+                    "Base timeout is %ss (set with --request-timeout-sec), but the "
+                    "effective timeout may be longer based on max_tokens. If this "
+                    "is unexpected, consider increasing the timeout or checking "
+                    "model performance.%s",
+                    Color.RED,
+                    client_id,
+                    conv_id,
+                    current_turn,
+                    req_args.timeout_sec,
+                    Color.RESET,
                 )
                 break  # Exit gracefully instead of raising an error
 
@@ -815,6 +834,9 @@ def get_client_config(
                 "Invalid min/max tokens limits (min should not be larger than max)"
             )
 
+    if args.request_timeout_sec <= 0:
+        raise ValueError("Request timeout must be a positive number")
+
     # Arguments for API requests
     chat_url = f"{args.url}/v1/chat/completions"
     model_name = args.served_model_name if args.served_model_name else args.model
@@ -825,6 +847,7 @@ def get_client_config(
         stream=not args.no_stream,
         limit_min_tokens=args.limit_min_tokens,
         limit_max_tokens=args.limit_max_tokens,
+        timeout_sec=args.request_timeout_sec,
     )
 
     return client_args, req_args
@@ -968,7 +991,7 @@ async def main_mp(
             f"(is alive: {client.is_alive()}){Color.RESET}"
         )
 
-        client.join(timeout=120)
+        client.join(timeout=req_args.timeout_sec + 1)
 
         if client.is_alive():
             logger.warning(
@@ -1351,6 +1374,13 @@ async def main() -> None:
         action="store_true",
         help="Verify the LLM output (compare to the answers in the input JSON file)",
     )
+    parser.add_argument(
+        "--request-timeout-sec",
+        type=int,
+        default=120,
+        help="Timeout in seconds for each API request (default: 120). "
+        "Automatically increased if max tokens imply longer decoding.",
+    )
 
     parser.add_argument(
         "--no-stream",

From fa1970201d2efae6db48ca808ba50b63390457db Mon Sep 17 00:00:00 2001
From: Maryam Tahhan <mtahhan@redhat.com>
Date: Tue, 11 Nov 2025 14:01:11 +0000
Subject: [PATCH 313/976] [Docs] Fix grammar in CPU installation guide (#28461)

Signed-off-by: Maryam Tahhan <mtahhan@redhat.com>
---
 docs/getting_started/installation/cpu.md | 14 +++++++-------
 1 file changed, 7 insertions(+), 7 deletions(-)

diff --git a/docs/getting_started/installation/cpu.md b/docs/getting_started/installation/cpu.md
index 2369eaed1802e..dbfefa9a1fe5a 100644
--- a/docs/getting_started/installation/cpu.md
+++ b/docs/getting_started/installation/cpu.md
@@ -93,7 +93,7 @@ Currently, there are no pre-built CPU wheels.
 
 ## Related runtime environment variables
 
-- `VLLM_CPU_KVCACHE_SPACE`: specify the KV Cache size (e.g, `VLLM_CPU_KVCACHE_SPACE=40` means 40 GiB space for KV cache), larger setting will allow vLLM running more requests in parallel. This parameter should be set based on the hardware configuration and memory management pattern of users. Default value is `0`.
+- `VLLM_CPU_KVCACHE_SPACE`: specify the KV Cache size (e.g, `VLLM_CPU_KVCACHE_SPACE=40` means 40 GiB space for KV cache), larger setting will allow vLLM to run more requests in parallel. This parameter should be set based on the hardware configuration and memory management pattern of users. Default value is `0`.
 - `VLLM_CPU_OMP_THREADS_BIND`: specify the CPU cores dedicated to the OpenMP threads, can be set as CPU id lists, `auto` (by default), or `nobind` (to disable binding to individual CPU cores and to inherit user-defined OpenMP variables). For example, `VLLM_CPU_OMP_THREADS_BIND=0-31` means there will be 32 OpenMP threads bound on 0-31 CPU cores. `VLLM_CPU_OMP_THREADS_BIND=0-31|32-63` means there will be 2 tensor parallel processes, 32 OpenMP threads of rank0 are bound on 0-31 CPU cores, and the OpenMP threads of rank1 are bound on 32-63 CPU cores. By setting to `auto`, the OpenMP threads of each rank are bound to the CPU cores in each NUMA node respectively. If set to `nobind`, the number of OpenMP threads is determined by the standard `OMP_NUM_THREADS` environment variable.
 - `VLLM_CPU_NUM_OF_RESERVED_CPU`: specify the number of CPU cores which are not dedicated to the OpenMP threads for each rank. The variable only takes effect when VLLM_CPU_OMP_THREADS_BIND is set to `auto`. Default value is `None`. If the value is not set and use `auto` thread binding, no CPU will be reserved for `world_size == 1`, 1 CPU per rank will be reserved for `world_size > 1`.
 - `CPU_VISIBLE_MEMORY_NODES`: specify visible NUMA memory nodes for vLLM CPU workers, similar to ```CUDA_VISIBLE_DEVICES```. The variable only takes effect when VLLM_CPU_OMP_THREADS_BIND is set to `auto`. The variable provides more control for the auto thread-binding feature, such as masking nodes and changing nodes binding sequence.
@@ -128,7 +128,7 @@ Note, it is recommended to manually reserve 1 CPU for vLLM front-end process whe
 
 ### How to decide `VLLM_CPU_OMP_THREADS_BIND`?
 
-- Default `auto` thread-binding is recommended for most cases. Ideally, each OpenMP thread will be bound to a dedicated physical core respectively, threads of each rank will be bound to a same NUMA node respectively, and 1 CPU per rank will be reserved for other vLLM components when `world_size > 1`. If have any performance problems or unexpected binding behaviours, please try to bind threads as following.
+- Default `auto` thread-binding is recommended for most cases. Ideally, each OpenMP thread will be bound to a dedicated physical core respectively, threads of each rank will be bound to the same NUMA node respectively, and 1 CPU per rank will be reserved for other vLLM components when `world_size > 1`. If you have any performance problems or unexpected binding behaviours, please try to bind threads as following.
 
 - On a hyper-threading enabled platform with 16 logical CPU cores / 8 physical CPU cores:
 
@@ -156,12 +156,12 @@ Note, it is recommended to manually reserve 1 CPU for vLLM front-end process whe
     14   0      0    6 6:6:6:0          yes 2401.0000 800.0000  800.000
     15   0      0    7 7:7:7:0          yes 2401.0000 800.0000  800.000
 
-    # On this platform, it is recommend to only bind openMP threads on logical CPU cores 0-7 or 8-15
+    # On this platform, it is recommended to only bind openMP threads on logical CPU cores 0-7 or 8-15
     $ export VLLM_CPU_OMP_THREADS_BIND=0-7
     $ python examples/offline_inference/basic/basic.py
     ```
 
-- When deploy vLLM CPU backend on a multi-socket machine with NUMA and enable tensor parallel or pipeline parallel, each NUMA node is treated as a TP/PP rank. So be aware to set CPU cores of a single rank on a same NUMA node to avoid cross NUMA node memory access.
+- When deploying vLLM CPU backend on a multi-socket machine with NUMA and enable tensor parallel or pipeline parallel, each NUMA node is treated as a TP/PP rank. So be aware to set CPU cores of a single rank on the same NUMA node to avoid cross NUMA node memory access.
 
 ### How to decide `VLLM_CPU_KVCACHE_SPACE`?
 
@@ -171,7 +171,7 @@ This value is 4GB by default. Larger space can support more concurrent requests,
 
 First of all, please make sure the thread-binding and KV cache space are properly set and take effect. You can check the thread-binding by running a vLLM benchmark and observing CPU cores usage via `htop`.
 
-Inference batch size is an important parameter for the performance. Larger batch usually provides higher throughput, smaller batch provides lower latency. Tuning max batch size starts from default value to balance throughput and latency is an effective way to improve vLLM CPU performance on specific platforms. There are two important related parameters in vLLM:
+Inference batch size is an important parameter for the performance. A larger batch usually provides higher throughput, a smaller batch provides lower latency. Tuning the max batch size starting from the default value to balance throughput and latency is an effective way to improve vLLM CPU performance on specific platforms. There are two important related parameters in vLLM:
 
 - `--max-num-batched-tokens`, defines the limit of token numbers in a single batch, has more impacts on the first token performance. The default value is set as:
     - Offline Inference: `4096 * world_size`
@@ -192,8 +192,8 @@ vLLM CPU supports data parallel (DP), tensor parallel (TP) and pipeline parallel
 ### (x86 only) What is the purpose of `VLLM_CPU_MOE_PREPACK` and `VLLM_CPU_SGL_KERNEL`?
 
 - Both of them require `amx` CPU flag.
-    - `VLLM_CPU_MOE_PREPACK` can provides better performance for MoE models
-    - `VLLM_CPU_SGL_KERNEL` can provides better performance for MoE models and small-batch scenarios.
+    - `VLLM_CPU_MOE_PREPACK` can provide better performance for MoE models
+    - `VLLM_CPU_SGL_KERNEL` can provide better performance for MoE models and small-batch scenarios.
 
 ### Why do I see `get_mempolicy: Operation not permitted` when running in Docker?
 

From a1448b4b69b15c33b4fbc9a883c4f3b9559ee7db Mon Sep 17 00:00:00 2001
From: bnellnm <49004751+bnellnm@users.noreply.github.com>
Date: Tue, 11 Nov 2025 09:29:02 -0500
Subject: [PATCH 314/976] [Kernels] Split up fused_moe/layer.py, isolate more
 modular kernel code (#28064)

---
 .../moe/modular_kernel_tools/mk_objects.py    |   9 +-
 vllm/lora/layers/fused_moe.py                 |   4 +-
 .../layers/fused_moe/__init__.py              |   4 +-
 .../layers/fused_moe/all2all_utils.py         | 160 +++
 .../layers/fused_moe/fused_moe_method_base.py | 112 +++
 .../fused_moe/fused_moe_modular_method.py     | 164 +++
 vllm/model_executor/layers/fused_moe/layer.py | 950 +-----------------
 .../layers/fused_moe/shared_fused_moe.py      |   2 +-
 .../fused_moe/unquantized_fused_moe_method.py | 578 +++++++++++
 .../layers/quantization/mxfp4.py              |  29 +-
 10 files changed, 1064 insertions(+), 948 deletions(-)
 create mode 100644 vllm/model_executor/layers/fused_moe/all2all_utils.py
 create mode 100644 vllm/model_executor/layers/fused_moe/fused_moe_method_base.py
 create mode 100644 vllm/model_executor/layers/fused_moe/fused_moe_modular_method.py
 create mode 100644 vllm/model_executor/layers/fused_moe/unquantized_fused_moe_method.py

diff --git a/tests/kernels/moe/modular_kernel_tools/mk_objects.py b/tests/kernels/moe/modular_kernel_tools/mk_objects.py
index 21eeffb1c7264..d79fdfbe07af3 100644
--- a/tests/kernels/moe/modular_kernel_tools/mk_objects.py
+++ b/tests/kernels/moe/modular_kernel_tools/mk_objects.py
@@ -6,6 +6,10 @@ import torch
 
 # Fused experts and PrepareFinalize imports
 import vllm.model_executor.layers.fused_moe.modular_kernel as mk
+from vllm.model_executor.layers.fused_moe import TritonExperts
+from vllm.model_executor.layers.fused_moe.all2all_utils import (
+    maybe_make_prepare_finalize,
+)
 from vllm.model_executor.layers.fused_moe.batched_deep_gemm_moe import (
     BatchedDeepGemmExperts,
 )
@@ -21,7 +25,6 @@ from vllm.model_executor.layers.fused_moe.fused_batched_moe import (
     BatchedTritonExperts,
     NaiveBatchedExperts,
 )
-from vllm.model_executor.layers.fused_moe.layer import FusedMoEMethodBase, TritonExperts
 from vllm.model_executor.layers.fused_moe.prepare_finalize import (
     MoEPrepareAndFinalizeNoEP,
 )
@@ -399,9 +402,7 @@ def make_prepare_finalize(
     quant_config: FusedMoEQuantConfig,
 ) -> mk.FusedMoEPrepareAndFinalize:
     if backend != "naive" and backend is not None:
-        prepare_finalize = FusedMoEMethodBase._maybe_make_prepare_finalize(
-            moe, quant_config
-        )
+        prepare_finalize = maybe_make_prepare_finalize(moe, quant_config)
         assert prepare_finalize is not None
         return prepare_finalize
     elif prepare_finalize_type == FlashInferCutlassMoEPrepareAndFinalize:
diff --git a/vllm/lora/layers/fused_moe.py b/vllm/lora/layers/fused_moe.py
index dadb9e25ba2f1..8fb3efa220f6d 100644
--- a/vllm/lora/layers/fused_moe.py
+++ b/vllm/lora/layers/fused_moe.py
@@ -25,7 +25,9 @@ from vllm.model_executor.layers.fused_moe.fused_moe import (
     modular_triton_fused_moe,
     try_get_optimal_moe_config,
 )
-from vllm.model_executor.layers.fused_moe.layer import FusedMoEModularMethod
+from vllm.model_executor.layers.fused_moe.fused_moe_modular_method import (
+    FusedMoEModularMethod,
+)
 
 
 class FusedMoEWithLoRA(BaseLayerWithLoRA):
diff --git a/vllm/model_executor/layers/fused_moe/__init__.py b/vllm/model_executor/layers/fused_moe/__init__.py
index cb31045971bd8..53d98d0650b43 100644
--- a/vllm/model_executor/layers/fused_moe/__init__.py
+++ b/vllm/model_executor/layers/fused_moe/__init__.py
@@ -5,9 +5,11 @@ from contextlib import contextmanager
 from typing import Any
 
 from vllm.model_executor.layers.fused_moe.config import FusedMoEConfig
+from vllm.model_executor.layers.fused_moe.fused_moe_method_base import (
+    FusedMoEMethodBase,
+)
 from vllm.model_executor.layers.fused_moe.layer import (
     FusedMoE,
-    FusedMoEMethodBase,
     FusedMoeWeightScaleSupported,
 )
 from vllm.model_executor.layers.fused_moe.modular_kernel import (
diff --git a/vllm/model_executor/layers/fused_moe/all2all_utils.py b/vllm/model_executor/layers/fused_moe/all2all_utils.py
new file mode 100644
index 0000000000000..2dd625054339c
--- /dev/null
+++ b/vllm/model_executor/layers/fused_moe/all2all_utils.py
@@ -0,0 +1,160 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+
+import torch
+
+from vllm.distributed import (
+    get_ep_group,
+)
+from vllm.model_executor.layers.fused_moe.config import (
+    FusedMoEConfig,
+    FusedMoEParallelConfig,
+    FusedMoEQuantConfig,
+)
+from vllm.model_executor.layers.fused_moe.modular_kernel import (
+    FusedMoEPrepareAndFinalize,
+)
+from vllm.platforms import current_platform
+from vllm.utils.import_utils import has_deep_ep, has_pplx
+
+if current_platform.is_cuda_alike():
+    if has_pplx():
+        from .pplx_prepare_finalize import (
+            PplxPrepareAndFinalize,
+            pplx_hidden_dim_scale_bytes,
+        )
+    if has_deep_ep():
+        from .deepep_ht_prepare_finalize import DeepEPHTPrepareAndFinalize
+        from .deepep_ll_prepare_finalize import (
+            DEEPEP_QUANT_BLOCK_SHAPE,
+            DeepEPLLPrepareAndFinalize,
+        )
+
+
+def maybe_roundup_layer_hidden_size(
+    hidden_size: int,
+    act_dtype: torch.dtype,
+    moe_parallel_config: FusedMoEParallelConfig,
+) -> int:
+    """
+    Given layer hidden size and MoE configurations, round up hidden_size
+    if necessary.
+
+    Args:
+        hidden_size: Layer hidden-size
+        act_dtype: Data type of the layer activations.
+        moe_parallel_config: Fused MoE parallelization strategy configuration.
+
+    Return:
+        Rounded up hidden_size if rounding up is required based on the configs
+        and all2all backend.
+        Original hidden size otherwise.
+    """
+    if moe_parallel_config.use_deepep_ht_kernels:
+        hidden_size = DeepEPHTPrepareAndFinalize.maybe_roundup_layer_hidden_size(
+            hidden_size, act_dtype
+        )
+
+    if moe_parallel_config.use_deepep_ll_kernels:
+        hidden_size = DeepEPLLPrepareAndFinalize.maybe_roundup_layer_hidden_size(
+            hidden_size
+        )
+
+    return hidden_size
+
+
+def maybe_make_prepare_finalize(
+    moe: FusedMoEConfig,
+    quant_config: FusedMoEQuantConfig | None,
+) -> FusedMoEPrepareAndFinalize | None:
+    if not moe.moe_parallel_config.use_all2all_kernels:
+        return None
+
+    all2all_manager = get_ep_group().device_communicator.all2all_manager
+    assert all2all_manager is not None
+
+    prepare_finalize: FusedMoEPrepareAndFinalize | None = None
+
+    # TODO: could allow this now
+    assert not moe.use_flashinfer_cutlass_kernels, "Must be created in modelopt.py"
+
+    if moe.use_pplx_kernels:
+        assert quant_config is not None
+
+        hidden_dim_bytes, hidden_scale_bytes = pplx_hidden_dim_scale_bytes(
+            moe.max_num_tokens,
+            moe.hidden_dim,
+            moe.in_dtype,
+            quant_config.quant_dtype,
+            per_act_token_quant=quant_config.per_act_token_quant,
+            block_shape=quant_config.block_shape,
+        )
+
+        all_to_all_args = dict(
+            max_num_tokens=moe.max_num_tokens,
+            num_experts=moe.num_experts,
+            experts_per_token=moe.experts_per_token,  # topk
+            rank=all2all_manager.rank,
+            world_size=all2all_manager.world_size,
+            # dp_size actually means tp_size, bug in pplx kernels
+            dp_size=all2all_manager.tp_group.world_size,
+            hidden_dim=moe.hidden_dim,
+            hidden_dim_bytes=hidden_dim_bytes,
+            hidden_dim_scale_bytes=hidden_scale_bytes,
+        )
+
+        num_dispatchers = (
+            all2all_manager.world_size // all2all_manager.tp_group.world_size
+        )
+
+        # Intranode pplx a2a takes a group name while internode does not.
+        if not all2all_manager.internode:
+            all_to_all_args["group_name"] = all2all_manager.cpu_group.group_name
+
+        handle = all2all_manager.get_handle(all_to_all_args)
+
+        prepare_finalize = PplxPrepareAndFinalize(
+            handle,
+            max_num_tokens=moe.max_num_tokens,
+            num_local_experts=moe.num_local_experts,
+            num_dispatchers=num_dispatchers,
+        )
+    elif moe.use_deepep_ht_kernels:
+        assert moe.dp_size == all2all_manager.dp_world_size
+
+        all_to_all_args = dict()
+        handle = all2all_manager.get_handle(all_to_all_args)
+        prepare_finalize = DeepEPHTPrepareAndFinalize(
+            handle,
+            num_dispatchers=all2all_manager.world_size,
+            dp_size=all2all_manager.dp_world_size,
+            rank_expert_offset=all2all_manager.rank * moe.num_local_experts,
+        )
+
+    elif moe.use_deepep_ll_kernels:
+        assert quant_config is not None
+        all_to_all_args = dict(
+            max_num_tokens_per_dp_rank=moe.max_num_tokens,
+            token_hidden_size=moe.hidden_dim,
+            num_ep_ranks=all2all_manager.world_size,
+            num_global_experts=moe.num_experts,
+            num_local_experts=moe.num_experts // all2all_manager.world_size,
+        )
+        handle = all2all_manager.get_handle(all_to_all_args)
+
+        # Note: We may want to use FP8 dispatch just to reduce
+        # data movement.
+        use_fp8_dispatch = (
+            quant_config.quant_dtype == current_platform.fp8_dtype()
+            and quant_config.block_shape == DEEPEP_QUANT_BLOCK_SHAPE
+        )
+
+        prepare_finalize = DeepEPLLPrepareAndFinalize(
+            handle,
+            max_tokens_per_rank=moe.max_num_tokens,
+            num_dispatchers=all2all_manager.world_size,
+            use_fp8_dispatch=use_fp8_dispatch,
+        )
+
+    return prepare_finalize
diff --git a/vllm/model_executor/layers/fused_moe/fused_moe_method_base.py b/vllm/model_executor/layers/fused_moe/fused_moe_method_base.py
new file mode 100644
index 0000000000000..87f8c8d75a9b5
--- /dev/null
+++ b/vllm/model_executor/layers/fused_moe/fused_moe_method_base.py
@@ -0,0 +1,112 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from abc import abstractmethod
+from collections.abc import Callable
+
+import torch
+
+from vllm.logger import init_logger
+from vllm.model_executor.layers.fused_moe.config import (
+    FusedMoEConfig,
+    FusedMoEQuantConfig,
+)
+from vllm.model_executor.layers.fused_moe.modular_kernel import (
+    FusedMoEPermuteExpertsUnpermute,
+    FusedMoEPrepareAndFinalize,
+)
+from vllm.model_executor.layers.quantization.base_config import (
+    QuantizeMethodBase,
+)
+
+logger = init_logger(__name__)
+
+
+class FusedMoEMethodBase(QuantizeMethodBase):
+    def __init__(self, moe: FusedMoEConfig):
+        super().__init__()
+        self.moe: FusedMoEConfig = moe
+        self.moe_quant_config: FusedMoEQuantConfig | None = None
+
+    @abstractmethod
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        num_experts: int,
+        hidden_size: int,
+        intermediate_size_per_partition: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        raise NotImplementedError
+
+    def uses_weight_scale_2_pattern(self) -> bool:
+        """
+        Returns True if this quantization method uses 'weight_scale_2' pattern
+        for per-tensor weight scales (e.g., FP4 variants), False otherwise.
+
+        This method should be overridden by subclasses that use the
+        'weight_scale_2' pattern instead of the standard 'weight_scale' pattern.
+        """
+        return False
+
+    def maybe_make_prepare_finalize(self) -> FusedMoEPrepareAndFinalize | None:
+        from .all2all_utils import maybe_make_prepare_finalize
+
+        return maybe_make_prepare_finalize(self.moe, self.moe_quant_config)
+
+    def select_gemm_impl(
+        self,
+        prepare_finalize: FusedMoEPrepareAndFinalize,
+        layer: torch.nn.Module,
+    ) -> FusedMoEPermuteExpertsUnpermute:
+        # based on the all2all implementation, select the appropriate
+        # gemm implementation
+        raise NotImplementedError(
+            f"{self.__class__.__name__} must select appropriate gemm "
+            "implementation based on the prepare_finalize"
+        )
+
+    @abstractmethod
+    def get_fused_moe_quant_config(
+        self, layer: torch.nn.Module
+    ) -> FusedMoEQuantConfig | None:
+        raise NotImplementedError
+
+    @property
+    def topk_indices_dtype(self) -> torch.dtype | None:
+        return None
+
+    @property
+    def supports_eplb(self) -> bool:
+        return False
+
+    @property
+    def allow_inplace(self) -> bool:
+        return False
+
+    @abstractmethod
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        renormalize: bool,
+        use_grouped_topk: bool = False,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        raise NotImplementedError
diff --git a/vllm/model_executor/layers/fused_moe/fused_moe_modular_method.py b/vllm/model_executor/layers/fused_moe/fused_moe_modular_method.py
new file mode 100644
index 0000000000000..43974ba917e42
--- /dev/null
+++ b/vllm/model_executor/layers/fused_moe/fused_moe_modular_method.py
@@ -0,0 +1,164 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Callable
+
+import torch
+
+from vllm.logger import init_logger
+from vllm.model_executor.custom_op import CustomOp
+from vllm.model_executor.layers.fused_moe.config import (
+    FusedMoEQuantConfig,
+)
+from vllm.model_executor.layers.fused_moe.fused_moe_method_base import (
+    FusedMoEMethodBase,
+)
+from vllm.model_executor.layers.fused_moe.modular_kernel import (
+    FusedMoEModularKernel,
+    FusedMoEPrepareAndFinalize,
+)
+
+logger = init_logger(__name__)
+
+
+@CustomOp.register("modular_fused_moe")
+class FusedMoEModularMethod(FusedMoEMethodBase, CustomOp):
+    def __init__(
+        self, old_quant_method: FusedMoEMethodBase, experts: FusedMoEModularKernel
+    ):
+        super().__init__(old_quant_method.moe)
+        self.moe_quant_config = old_quant_method.moe_quant_config
+        self.fused_experts = experts
+        self.disable_expert_map = getattr(
+            old_quant_method,
+            "disable_expert_map",
+            not self.fused_experts.supports_expert_map(),
+        )
+        self.old_quant_method = old_quant_method
+        logger.debug("Swapping out %s", self.old_quant_method.__class__.__name__)
+
+    @staticmethod
+    def make(
+        moe_layer: torch.nn.Module,
+        old_quant_method: FusedMoEMethodBase,
+        prepare_finalize: FusedMoEPrepareAndFinalize,
+        shared_experts: torch.nn.Module | None,
+    ) -> "FusedMoEModularMethod":
+        return FusedMoEModularMethod(
+            old_quant_method,
+            FusedMoEModularKernel(
+                prepare_finalize,
+                old_quant_method.select_gemm_impl(prepare_finalize, moe_layer),
+                shared_experts,
+            ),
+        )
+
+    @property
+    def topk_indices_dtype(self) -> torch.dtype | None:
+        return self.fused_experts.prepare_finalize.topk_indices_dtype()
+
+    @property
+    def supports_eplb(self) -> bool:
+        return self.old_quant_method.supports_eplb
+
+    @property
+    def allow_inplace(self) -> bool:
+        return self.old_quant_method.allow_inplace
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        num_experts: int,
+        hidden_size: int,
+        intermediate_size_per_partition: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        raise NotImplementedError
+
+    def get_fused_moe_quant_config(
+        self, layer: torch.nn.Module
+    ) -> FusedMoEQuantConfig | None:
+        return self.moe_quant_config
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        renormalize: bool,
+        use_grouped_topk: bool = False,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        # Is getattr needed?
+        zero_expert_num = getattr(layer, "zero_expert_num", 0)
+        zero_expert_type = getattr(layer, "zero_expert_type", None)
+
+        if enable_eplb:
+            if self.supports_eplb:
+                assert expert_load_view is not None
+                assert logical_to_physical_map is not None
+                assert logical_replica_count is not None
+            else:
+                raise NotImplementedError(
+                    "EPLB is not supported for "
+                    f"{self.old_quant_method.__class__.__name__}."
+                )
+
+        topk_weights, topk_ids, zero_expert_result = layer.select_experts(
+            hidden_states=x,
+            router_logits=router_logits,
+            use_grouped_topk=use_grouped_topk,
+            top_k=top_k,
+            renormalize=renormalize,
+            topk_group=topk_group,
+            num_expert_group=num_expert_group,
+            custom_routing_function=custom_routing_function,
+            scoring_func=scoring_func,
+            routed_scaling_factor=routed_scaling_factor,
+            e_score_correction_bias=e_score_correction_bias,
+            indices_type=self.topk_indices_dtype,
+            enable_eplb=enable_eplb,
+            expert_map=expert_map,
+            expert_load_view=expert_load_view,
+            logical_to_physical_map=logical_to_physical_map,
+            logical_replica_count=logical_replica_count,
+            global_num_experts=global_num_experts,
+            zero_expert_num=zero_expert_num,
+            zero_expert_type=zero_expert_type,
+        )
+
+        result = self.fused_experts(
+            hidden_states=x,
+            w1=layer.w13_weight,
+            w2=layer.w2_weight,
+            topk_weights=topk_weights,
+            topk_ids=topk_ids,
+            inplace=self.allow_inplace,
+            activation=activation,
+            global_num_experts=global_num_experts,
+            apply_router_weight_on_input=apply_router_weight_on_input,
+            expert_map=None if self.disable_expert_map else expert_map,
+        )
+
+        if zero_expert_num != 0 and zero_expert_type is not None:
+            assert not isinstance(result, tuple), (
+                "Shared + zero experts are mutually exclusive not yet supported"
+            )
+            return result, zero_expert_result
+        else:
+            return result
diff --git a/vllm/model_executor/layers/fused_moe/layer.py b/vllm/model_executor/layers/fused_moe/layer.py
index 39547cc83c7b6..e198322ba7a89 100644
--- a/vllm/model_executor/layers/fused_moe/layer.py
+++ b/vllm/model_executor/layers/fused_moe/layer.py
@@ -1,7 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
-from abc import abstractmethod
 from collections.abc import Callable, Iterable
 from contextlib import nullcontext
 from enum import Enum
@@ -27,17 +26,13 @@ from vllm.forward_context import ForwardContext, get_forward_context
 from vllm.logger import init_logger
 from vllm.model_executor.custom_op import CustomOp
 from vllm.model_executor.layers.fused_moe.config import (
-    FUSED_MOE_UNQUANTIZED_CONFIG,
     FusedMoEConfig,
     FusedMoEParallelConfig,
     FusedMoEQuantConfig,
     RoutingMethodType,
-    biased_moe_quant_config,
 )
 from vllm.model_executor.layers.fused_moe.fused_moe import zero_experts_compute_triton
 from vllm.model_executor.layers.fused_moe.modular_kernel import (
-    FusedMoEActivationFormat,
-    FusedMoEModularKernel,
     FusedMoEPermuteExpertsUnpermute,
     FusedMoEPrepareAndFinalize,
 )
@@ -47,35 +42,17 @@ from vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe import (
 from vllm.model_executor.layers.fused_moe.routing_simulator import RoutingSimulator
 from vllm.model_executor.layers.quantization.base_config import (
     QuantizationConfig,
-    QuantizeMethodBase,
 )
 from vllm.model_executor.layers.quantization.utils.flashinfer_utils import (
     is_flashinfer_supporting_global_sf,
 )
-from vllm.model_executor.utils import set_weight_attrs
 from vllm.platforms import current_platform
-from vllm.platforms.interface import CpuArchEnum
-from vllm.utils.flashinfer import has_flashinfer_cutlass_fused_moe
-from vllm.utils.import_utils import has_deep_ep, has_pplx
 from vllm.utils.math_utils import cdiv, round_up
 from vllm.utils.torch_utils import current_stream, direct_register_custom_op
 from vllm.v1.worker.ubatching import dbo_current_ubatch_id
 
 if current_platform.is_cuda_alike():
-    from .fused_batched_moe import BatchedTritonExperts
-    from .fused_moe import TritonExperts, eplb_map_to_physical_and_record, fused_experts
-
-    if has_pplx():
-        from .pplx_prepare_finalize import (
-            PplxPrepareAndFinalize,
-            pplx_hidden_dim_scale_bytes,
-        )
-    if has_deep_ep():
-        from .deepep_ht_prepare_finalize import DeepEPHTPrepareAndFinalize
-        from .deepep_ll_prepare_finalize import (
-            DEEPEP_QUANT_BLOCK_SHAPE,
-            DeepEPLLPrepareAndFinalize,
-        )
+    from .fused_moe import eplb_map_to_physical_and_record, fused_experts
 else:
     fused_experts = None  # type: ignore
     FusedMoEPermuteExpertsUnpermute = object  # type: ignore
@@ -102,6 +79,16 @@ if current_platform.is_tpu():
 else:
     fused_moe_pallas = None  # type: ignore
 
+from vllm.model_executor.layers.fused_moe.fused_moe_method_base import (
+    FusedMoEMethodBase,
+)
+from vllm.model_executor.layers.fused_moe.fused_moe_modular_method import (
+    FusedMoEModularMethod,
+)
+from vllm.model_executor.layers.fused_moe.unquantized_fused_moe_method import (
+    UnquantizedFusedMoEMethod,
+)
+
 logger = init_logger(__name__)
 
 
@@ -112,885 +99,6 @@ class FusedMoeWeightScaleSupported(Enum):
     BLOCK = "block"
 
 
-class FusedMoEMethodBase(QuantizeMethodBase):
-    def __init__(self, moe: FusedMoEConfig):
-        super().__init__()
-        self.moe: FusedMoEConfig = moe
-        self.moe_quant_config: FusedMoEQuantConfig | None = None
-
-    @abstractmethod
-    def create_weights(
-        self,
-        layer: torch.nn.Module,
-        num_experts: int,
-        hidden_size: int,
-        intermediate_size_per_partition: int,
-        params_dtype: torch.dtype,
-        **extra_weight_attrs,
-    ):
-        raise NotImplementedError
-
-    def uses_weight_scale_2_pattern(self) -> bool:
-        """
-        Returns True if this quantization method uses 'weight_scale_2' pattern
-        for per-tensor weight scales (e.g., FP4 variants), False otherwise.
-
-        This method should be overridden by subclasses that use the
-        'weight_scale_2' pattern instead of the standard 'weight_scale' pattern.
-        """
-        return False
-
-    @staticmethod
-    def _maybe_make_prepare_finalize(
-        moe: FusedMoEConfig,
-        quant_config: FusedMoEQuantConfig | None,
-    ) -> FusedMoEPrepareAndFinalize | None:
-        all2all_manager = get_ep_group().device_communicator.all2all_manager
-        assert all2all_manager is not None
-
-        prepare_finalize: FusedMoEPrepareAndFinalize | None = None
-
-        # TODO: could allow this now
-        assert not moe.use_flashinfer_cutlass_kernels, "Must be created in modelopt.py"
-
-        if moe.use_pplx_kernels:
-            assert quant_config is not None
-
-            hidden_dim_bytes, hidden_scale_bytes = pplx_hidden_dim_scale_bytes(
-                moe.max_num_tokens,
-                moe.hidden_dim,
-                moe.in_dtype,
-                quant_config.quant_dtype,
-                per_act_token_quant=quant_config.per_act_token_quant,
-                block_shape=quant_config.block_shape,
-            )
-
-            all_to_all_args = dict(
-                max_num_tokens=moe.max_num_tokens,
-                num_experts=moe.num_experts,
-                experts_per_token=moe.experts_per_token,  # topk
-                rank=all2all_manager.rank,
-                world_size=all2all_manager.world_size,
-                # dp_size actually means tp_size, bug in pplx kernels
-                dp_size=all2all_manager.tp_group.world_size,
-                hidden_dim=moe.hidden_dim,
-                hidden_dim_bytes=hidden_dim_bytes,
-                hidden_dim_scale_bytes=hidden_scale_bytes,
-            )
-
-            num_dispatchers = (
-                all2all_manager.world_size // all2all_manager.tp_group.world_size
-            )
-
-            # Intranode pplx a2a takes a group name while internode does not.
-            if not all2all_manager.internode:
-                all_to_all_args["group_name"] = all2all_manager.cpu_group.group_name
-
-            handle = all2all_manager.get_handle(all_to_all_args)
-
-            prepare_finalize = PplxPrepareAndFinalize(
-                handle,
-                max_num_tokens=moe.max_num_tokens,
-                num_local_experts=moe.num_local_experts,
-                num_dispatchers=num_dispatchers,
-            )
-        elif moe.use_deepep_ht_kernels:
-            assert moe.dp_size == all2all_manager.dp_world_size
-
-            all_to_all_args = dict()
-            handle = all2all_manager.get_handle(all_to_all_args)
-            prepare_finalize = DeepEPHTPrepareAndFinalize(
-                handle,
-                num_dispatchers=all2all_manager.world_size,
-                dp_size=all2all_manager.dp_world_size,
-                rank_expert_offset=all2all_manager.rank * moe.num_local_experts,
-            )
-
-        elif moe.use_deepep_ll_kernels:
-            assert quant_config is not None
-            all_to_all_args = dict(
-                max_num_tokens_per_dp_rank=moe.max_num_tokens,
-                token_hidden_size=moe.hidden_dim,
-                num_ep_ranks=all2all_manager.world_size,
-                num_global_experts=moe.num_experts,
-                num_local_experts=moe.num_experts // all2all_manager.world_size,
-            )
-            handle = all2all_manager.get_handle(all_to_all_args)
-
-            # Note: We may want to use FP8 dispatch just to reduce
-            # data movement.
-            use_fp8_dispatch = (
-                quant_config.quant_dtype == current_platform.fp8_dtype()
-                and quant_config.block_shape == DEEPEP_QUANT_BLOCK_SHAPE
-            )
-
-            prepare_finalize = DeepEPLLPrepareAndFinalize(
-                handle,
-                max_tokens_per_rank=moe.max_num_tokens,
-                num_dispatchers=all2all_manager.world_size,
-                use_fp8_dispatch=use_fp8_dispatch,
-            )
-
-        return prepare_finalize
-
-    def maybe_make_prepare_finalize(self) -> FusedMoEPrepareAndFinalize | None:
-        if self.moe.moe_parallel_config.use_all2all_kernels:
-            return FusedMoEMethodBase._maybe_make_prepare_finalize(
-                self.moe, self.moe_quant_config
-            )
-        else:
-            return None
-
-    def maybe_init_modular_kernel(
-        self, layer: torch.nn.Module
-    ) -> FusedMoEModularKernel | None:
-        assert self.moe is not None
-
-        # We must get the quant config here so that the layer is
-        # completely initialized, i.e. all weights loaded and post
-        # processed.
-        self.moe_quant_config = self.get_fused_moe_quant_config(layer)
-
-        prepare_finalize = self.maybe_make_prepare_finalize()
-
-        if prepare_finalize is not None:
-            logger.debug(
-                "%s for %s(%s)", prepare_finalize.__class__.__name__, self, id(self)
-            )
-            experts = self.select_gemm_impl(prepare_finalize, layer)
-            return FusedMoEModularKernel(
-                prepare_finalize,
-                experts,
-                layer.shared_experts,
-            )
-        else:
-            return None
-
-    def select_gemm_impl(
-        self,
-        prepare_finalize: FusedMoEPrepareAndFinalize,
-        layer: torch.nn.Module,
-    ) -> FusedMoEPermuteExpertsUnpermute:
-        # based on the all2all implementation, select the appropriate
-        # gemm implementation
-        raise NotImplementedError(
-            f"{self.__class__.__name__} must select appropriate gemm "
-            "implementation based on the prepare_finalize"
-        )
-
-    @abstractmethod
-    def get_fused_moe_quant_config(
-        self, layer: torch.nn.Module
-    ) -> FusedMoEQuantConfig | None:
-        raise NotImplementedError
-
-    @property
-    def topk_indices_dtype(self) -> torch.dtype | None:
-        return None
-
-    @property
-    def supports_eplb(self) -> bool:
-        return False
-
-    @property
-    def allow_inplace(self) -> bool:
-        return False
-
-    @abstractmethod
-    def apply(
-        self,
-        layer: torch.nn.Module,
-        x: torch.Tensor,
-        router_logits: torch.Tensor,
-        top_k: int,
-        renormalize: bool,
-        use_grouped_topk: bool = False,
-        topk_group: int | None = None,
-        num_expert_group: int | None = None,
-        global_num_experts: int = -1,
-        expert_map: torch.Tensor | None = None,
-        custom_routing_function: Callable | None = None,
-        scoring_func: str = "softmax",
-        routed_scaling_factor: float = 1.0,
-        e_score_correction_bias: torch.Tensor | None = None,
-        apply_router_weight_on_input: bool = False,
-        activation: str = "silu",
-        enable_eplb: bool = False,
-        expert_load_view: torch.Tensor | None = None,
-        logical_to_physical_map: torch.Tensor | None = None,
-        logical_replica_count: torch.Tensor | None = None,
-    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
-        raise NotImplementedError
-
-
-@CustomOp.register("modular_fused_moe")
-class FusedMoEModularMethod(FusedMoEMethodBase, CustomOp):
-    def __init__(
-        self,
-        old_quant_method: FusedMoEMethodBase,
-        fused_experts: FusedMoEModularKernel,
-    ):
-        super().__init__(old_quant_method.moe)
-        # Find better way to copy attributes?  Should we even copy attributes?
-        # self.__dict__.update(old_quant_method.__dict__)
-        self.moe_quant_config = old_quant_method.moe_quant_config
-        self.fused_experts = fused_experts
-        self.disable_expert_map = getattr(
-            old_quant_method,
-            "disable_expert_map",
-            not fused_experts.supports_expert_map(),
-        )
-        self.old_quant_method = old_quant_method
-        logger.debug("Swapping out %s", self.old_quant_method.__class__.__name__)
-
-    @property
-    def topk_indices_dtype(self) -> torch.dtype | None:
-        return self.fused_experts.prepare_finalize.topk_indices_dtype()
-
-    @property
-    def supports_eplb(self) -> bool:
-        return self.old_quant_method.supports_eplb
-
-    @property
-    def allow_inplace(self) -> bool:
-        return self.old_quant_method.allow_inplace
-
-    def create_weights(
-        self,
-        layer: torch.nn.Module,
-        num_experts: int,
-        hidden_size: int,
-        intermediate_size_per_partition: int,
-        params_dtype: torch.dtype,
-        **extra_weight_attrs,
-    ):
-        raise NotImplementedError
-
-    def get_fused_moe_quant_config(
-        self, layer: torch.nn.Module
-    ) -> FusedMoEQuantConfig | None:
-        return self.moe_quant_config
-
-    def apply(
-        self,
-        layer: torch.nn.Module,
-        x: torch.Tensor,
-        router_logits: torch.Tensor,
-        top_k: int,
-        renormalize: bool,
-        use_grouped_topk: bool = False,
-        topk_group: int | None = None,
-        num_expert_group: int | None = None,
-        global_num_experts: int = -1,
-        expert_map: torch.Tensor | None = None,
-        custom_routing_function: Callable | None = None,
-        scoring_func: str = "softmax",
-        routed_scaling_factor: float = 1.0,
-        e_score_correction_bias: torch.Tensor | None = None,
-        apply_router_weight_on_input: bool = False,
-        activation: str = "silu",
-        enable_eplb: bool = False,
-        expert_load_view: torch.Tensor | None = None,
-        logical_to_physical_map: torch.Tensor | None = None,
-        logical_replica_count: torch.Tensor | None = None,
-    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
-        # Is getattr needed?
-        zero_expert_num = getattr(layer, "zero_expert_num", 0)
-        zero_expert_type = getattr(layer, "zero_expert_type", None)
-
-        if enable_eplb:
-            if self.supports_eplb:
-                assert expert_load_view is not None
-                assert logical_to_physical_map is not None
-                assert logical_replica_count is not None
-                assert isinstance(layer, FusedMoE)
-            else:
-                raise NotImplementedError(
-                    "EPLB is not supported for "
-                    f"{self.old_quant_method.__class__.__name__}."
-                )
-
-        topk_weights, topk_ids, zero_expert_result = FusedMoE.select_experts(
-            hidden_states=x,
-            router_logits=router_logits,
-            use_grouped_topk=use_grouped_topk,
-            top_k=top_k,
-            renormalize=renormalize,
-            topk_group=topk_group,
-            num_expert_group=num_expert_group,
-            custom_routing_function=custom_routing_function,
-            scoring_func=scoring_func,
-            routed_scaling_factor=routed_scaling_factor,
-            e_score_correction_bias=e_score_correction_bias,
-            indices_type=self.topk_indices_dtype,
-            enable_eplb=enable_eplb,
-            expert_map=expert_map,
-            expert_load_view=expert_load_view,
-            logical_to_physical_map=logical_to_physical_map,
-            logical_replica_count=logical_replica_count,
-            global_num_experts=global_num_experts,
-            zero_expert_num=zero_expert_num,
-            zero_expert_type=zero_expert_type,
-        )
-
-        result = self.fused_experts(
-            hidden_states=x,
-            w1=layer.w13_weight,
-            w2=layer.w2_weight,
-            topk_weights=topk_weights,
-            topk_ids=topk_ids,
-            inplace=self.allow_inplace,
-            activation=activation,
-            global_num_experts=global_num_experts,
-            apply_router_weight_on_input=apply_router_weight_on_input,
-            expert_map=None if self.disable_expert_map else expert_map,
-        )
-
-        if zero_expert_num != 0 and zero_expert_type is not None:
-            assert not isinstance(result, tuple), (
-                "Shared + zero experts are mutually exclusive not yet supported"
-            )
-            return result, zero_expert_result
-        else:
-            return result
-
-
-@CustomOp.register("unquantized_fused_moe")
-class UnquantizedFusedMoEMethod(FusedMoEMethodBase, CustomOp):
-    """MoE method without quantization."""
-
-    def __init__(self, moe: FusedMoEConfig):
-        super().__init__(moe)
-
-        self.rocm_aiter_moe_enabled = rocm_aiter_ops.is_fused_moe_enabled()
-        if self.rocm_aiter_moe_enabled:
-            from .rocm_aiter_fused_moe import rocm_aiter_fused_experts
-
-            self.rocm_aiter_fused_experts = rocm_aiter_fused_experts
-        else:
-            self.rocm_aiter_fused_experts = None  # type: ignore
-
-        # FlashInfer CUTLASS MoE is only supported on Hopper and later GPUS
-        self.flashinfer_cutlass_moe_enabled = (
-            has_flashinfer_cutlass_fused_moe()
-            and envs.VLLM_USE_FLASHINFER_MOE_FP16
-            and self.moe.moe_parallel_config.use_ep
-            and self.moe.moe_parallel_config.dp_size == 1
-            and current_platform.get_device_capability()[0] >= 9
-        )
-        if self.flashinfer_cutlass_moe_enabled:
-            logger.info_once(
-                "Enabling FlashInfer CUTLASS MoE for UnquantizedFusedMoEMethod"
-            )
-            from functools import partial
-
-            from .flashinfer_cutlass_moe import flashinfer_cutlass_moe
-
-            self.flashinfer_cutlass_moe = partial(
-                flashinfer_cutlass_moe,
-                quant_config=FUSED_MOE_UNQUANTIZED_CONFIG,
-                tp_rank=self.moe.moe_parallel_config.tp_rank,
-                tp_size=self.moe.moe_parallel_config.tp_size,
-                ep_rank=self.moe.moe_parallel_config.ep_rank,
-                ep_size=self.moe.moe_parallel_config.ep_size,
-            )
-        else:
-            if (
-                self.moe.moe_parallel_config.use_ep
-                and self.moe.moe_parallel_config.dp_size == 1
-            ):
-                logger.info_once(
-                    "FlashInfer CUTLASS MoE is available for EP"
-                    " but not enabled, consider setting"
-                    " VLLM_USE_FLASHINFER_MOE_FP16=1 to enable it.",
-                    scope="local",
-                )
-            elif self.moe.moe_parallel_config.dp_size > 1:
-                logger.info_once(
-                    "FlashInfer CUTLASS MoE is currently not available for DP.",
-                    scope="local",
-                )
-            self.flashinfer_cutlass_moe = None  # type: ignore
-
-    @property
-    def supports_eplb(self) -> bool:
-        return True
-
-    @property
-    def allow_inplace(self) -> bool:
-        return True
-
-    def maybe_make_prepare_finalize(self) -> FusedMoEPrepareAndFinalize | None:
-        if self.rocm_aiter_moe_enabled:
-            return None
-        else:
-            return super().maybe_make_prepare_finalize()
-
-    def select_gemm_impl(
-        self,
-        prepare_finalize: FusedMoEPrepareAndFinalize,
-        layer: torch.nn.Module,
-    ) -> FusedMoEPermuteExpertsUnpermute:
-        assert self.moe_quant_config is not None
-        if (
-            prepare_finalize.activation_format
-            == FusedMoEActivationFormat.BatchedExperts
-        ):
-            logger.debug("BatchedTritonExperts %s", self.moe)
-            return BatchedTritonExperts(
-                max_num_tokens=self.moe.max_num_tokens,
-                num_dispatchers=prepare_finalize.num_dispatchers(),
-                quant_config=self.moe_quant_config,
-            )
-        else:
-            logger.debug("TritonExperts %s", self.moe)
-            return TritonExperts(self.moe_quant_config)
-
-    def create_weights(
-        self,
-        layer: torch.nn.Module,
-        num_experts: int,
-        hidden_size: int,
-        intermediate_size_per_partition: int,
-        params_dtype: torch.dtype,
-        **extra_weight_attrs,
-    ):
-        if self.moe.is_act_and_mul:
-            w13_up_dim = 2 * intermediate_size_per_partition
-        else:
-            w13_up_dim = intermediate_size_per_partition
-        # Fused gate_up_proj (column parallel)
-        w13_weight = torch.nn.Parameter(
-            torch.empty(
-                num_experts,
-                w13_up_dim,
-                hidden_size,
-                dtype=params_dtype,
-            ),
-            requires_grad=False,
-        )
-        layer.register_parameter("w13_weight", w13_weight)
-        set_weight_attrs(w13_weight, extra_weight_attrs)
-        if self.moe.has_bias:
-            w13_bias = torch.nn.Parameter(
-                torch.zeros(num_experts, w13_up_dim, dtype=params_dtype),
-                requires_grad=False,
-            )
-            layer.register_parameter("w13_bias", w13_bias)
-            set_weight_attrs(w13_bias, extra_weight_attrs)
-        # down_proj (row parallel)
-        w2_weight = torch.nn.Parameter(
-            torch.empty(
-                num_experts,
-                hidden_size,
-                intermediate_size_per_partition,
-                dtype=params_dtype,
-            ),
-            requires_grad=False,
-        )
-        layer.register_parameter("w2_weight", w2_weight)
-        set_weight_attrs(w2_weight, extra_weight_attrs)
-        if self.moe.has_bias:
-            w2_bias = torch.nn.Parameter(
-                torch.zeros(num_experts, hidden_size, dtype=params_dtype),
-                requires_grad=False,
-            )
-            layer.register_parameter("w2_bias", w2_bias)
-            set_weight_attrs(w2_bias, extra_weight_attrs)
-
-    def _maybe_pad_weight(self, weight: torch.Tensor) -> torch.Tensor:
-        # Pad the weight tensor. This is an optimization on ROCm platform, which
-        # can benefit from tensors located far enough from one another in memory
-        if (
-            envs.VLLM_ROCM_MOE_PADDING
-            and current_platform.is_rocm()
-            and weight.stride(-1) == 1
-            and (weight.stride(-2) * weight.element_size()) % 512 == 0
-        ):
-            num_pad = 256 // weight.element_size()
-            weight = F.pad(weight, (0, num_pad), "constant", 0)[..., :-num_pad]
-            torch.cuda.empty_cache()
-
-        return weight
-
-    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
-        super().process_weights_after_loading(layer)
-
-        # Padding the weight for better performance on ROCm
-        layer.w13_weight.data = self._maybe_pad_weight(layer.w13_weight.data)
-        layer.w2_weight.data = self._maybe_pad_weight(layer.w2_weight.data)
-
-        if self.rocm_aiter_moe_enabled:
-            shuffled_w13, shuffled_w2 = rocm_aiter_ops.shuffle_weights(
-                layer.w13_weight.data, layer.w2_weight.data
-            )
-
-            layer.w13_weight.data = shuffled_w13
-            layer.w2_weight.data = shuffled_w2
-
-        if self.flashinfer_cutlass_moe_enabled:
-            # Swap halves to arrange as [w3; w1] (kernel expectation)
-            w1_w, w3_w = torch.chunk(layer.w13_weight.data, 2, dim=1)
-            w13_weight_swapped = torch.cat([w3_w, w1_w], dim=1)
-            layer.w13_weight.data = w13_weight_swapped.contiguous()
-
-        if current_platform.is_xpu():
-            import intel_extension_for_pytorch as ipex
-
-            ep_rank_start = self.moe.ep_rank * self.moe.num_local_experts
-            layer.ipex_fusion = ipex.llm.modules.GatedMLPMOE(
-                layer.w13_weight,
-                layer.w2_weight,
-                use_prepack=True,
-                experts_start_id=ep_rank_start,
-            )
-        elif current_platform.is_cpu():
-            from vllm.model_executor.layers.fused_moe import cpu_fused_moe
-
-            if current_platform.get_cpu_architecture() == CpuArchEnum.X86:
-                from vllm.model_executor.layers.utils import check_cpu_sgl_kernel
-
-                dtype_w13 = layer.w13_weight.dtype
-                _, n_w13, k_w13 = layer.w13_weight.size()
-                dtype_w2 = layer.w2_weight.dtype
-                _, n_w2, k_w2 = layer.w2_weight.size()
-                if (
-                    envs.VLLM_CPU_SGL_KERNEL
-                    and check_cpu_sgl_kernel(n_w13, k_w13, dtype_w13)
-                    and check_cpu_sgl_kernel(n_w2, k_w2, dtype_w2)
-                ):
-                    packed_w13_weight = torch.ops._C.convert_weight_packed(
-                        layer.w13_weight
-                    )
-                    assert packed_w13_weight.size() == layer.w13_weight.size()
-                    layer.w13_weight.copy_(packed_w13_weight)
-                    del packed_w13_weight
-                    packed_w2_weight = torch.ops._C.convert_weight_packed(
-                        layer.w2_weight
-                    )
-                    assert packed_w2_weight.size() == layer.w2_weight.size()
-                    layer.w2_weight.copy_(packed_w2_weight)
-                    layer.cpu_fused_moe = cpu_fused_moe.SGLFusedMOE(layer)
-                else:
-                    layer.cpu_fused_moe = cpu_fused_moe.IPEXFusedMOE(layer)
-            else:
-                layer.cpu_fused_moe = cpu_fused_moe.CPUFusedMOE(layer)
-
-    def apply(
-        self,
-        layer: torch.nn.Module,
-        x: torch.Tensor,
-        router_logits: torch.Tensor,
-        top_k: int,
-        renormalize: bool,
-        use_grouped_topk: bool = False,
-        topk_group: int | None = None,
-        num_expert_group: int | None = None,
-        global_num_experts: int = -1,
-        expert_map: torch.Tensor | None = None,
-        custom_routing_function: Callable | None = None,
-        scoring_func: str = "softmax",
-        routed_scaling_factor: float = 1.0,
-        e_score_correction_bias: torch.Tensor | None = None,
-        apply_router_weight_on_input: bool = False,
-        activation: str = "silu",
-        enable_eplb: bool = False,
-        expert_load_view: torch.Tensor | None = None,
-        logical_to_physical_map: torch.Tensor | None = None,
-        logical_replica_count: torch.Tensor | None = None,
-    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
-        if enable_eplb:
-            assert expert_load_view is not None
-            assert logical_to_physical_map is not None
-            assert logical_replica_count is not None
-            assert isinstance(layer, FusedMoE)
-
-        return self.forward(
-            x=x,
-            layer=layer,
-            router_logits=router_logits,
-            top_k=top_k,
-            renormalize=renormalize,
-            use_grouped_topk=use_grouped_topk,
-            topk_group=topk_group,
-            num_expert_group=num_expert_group,
-            global_num_experts=global_num_experts,
-            expert_map=expert_map,
-            custom_routing_function=custom_routing_function,
-            scoring_func=scoring_func,
-            routed_scaling_factor=routed_scaling_factor,
-            e_score_correction_bias=e_score_correction_bias,
-            activation=activation,
-            apply_router_weight_on_input=apply_router_weight_on_input,
-            enable_eplb=enable_eplb,
-            expert_load_view=expert_load_view,
-            logical_to_physical_map=logical_to_physical_map,
-            logical_replica_count=logical_replica_count,
-        )
-
-    def get_fused_moe_quant_config(
-        self, layer: torch.nn.Module
-    ) -> FusedMoEQuantConfig | None:
-        if self.moe.has_bias:
-            return biased_moe_quant_config(
-                layer.w13_bias,
-                layer.w2_bias,
-            )
-        else:
-            return FUSED_MOE_UNQUANTIZED_CONFIG
-
-    def forward_cuda(
-        self,
-        layer: torch.nn.Module,
-        x: torch.Tensor,
-        use_grouped_topk: bool,
-        top_k: int,
-        router_logits: torch.Tensor,
-        renormalize: bool,
-        topk_group: int | None = None,
-        num_expert_group: int | None = None,
-        global_num_experts: int = -1,
-        expert_map: torch.Tensor | None = None,
-        custom_routing_function: Callable | None = None,
-        scoring_func: str = "softmax",
-        routed_scaling_factor: float = 1.0,
-        e_score_correction_bias: torch.Tensor | None = None,
-        apply_router_weight_on_input: bool = False,
-        activation: str = "silu",
-        enable_eplb: bool = False,
-        expert_load_view: torch.Tensor | None = None,
-        logical_to_physical_map: torch.Tensor | None = None,
-        logical_replica_count: torch.Tensor | None = None,
-    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
-        zero_expert_num = getattr(layer, "zero_expert_num", 0)
-        zero_expert_type = getattr(layer, "zero_expert_type", None)
-
-        topk_weights, topk_ids, zero_expert_result = FusedMoE.select_experts(
-            hidden_states=x,
-            router_logits=router_logits,
-            use_grouped_topk=use_grouped_topk,
-            top_k=top_k,
-            renormalize=renormalize,
-            topk_group=topk_group,
-            num_expert_group=num_expert_group,
-            custom_routing_function=custom_routing_function,
-            scoring_func=scoring_func,
-            routed_scaling_factor=routed_scaling_factor,
-            e_score_correction_bias=e_score_correction_bias,
-            indices_type=self.topk_indices_dtype,
-            enable_eplb=enable_eplb,
-            expert_map=expert_map,
-            expert_load_view=expert_load_view,
-            logical_to_physical_map=logical_to_physical_map,
-            logical_replica_count=logical_replica_count,
-            global_num_experts=global_num_experts,
-            zero_expert_num=zero_expert_num,
-            zero_expert_type=zero_expert_type,
-            num_fused_shared_experts=layer.num_fused_shared_experts,
-        )
-
-        if self.rocm_aiter_moe_enabled:
-            result = self.rocm_aiter_fused_experts(
-                hidden_states=x,
-                w1=layer.w13_weight,
-                w2=layer.w2_weight,
-                topk_weights=topk_weights,
-                topk_ids=topk_ids,
-                expert_map=expert_map,
-                activation=activation,
-                apply_router_weight_on_input=apply_router_weight_on_input,
-            )
-        elif self.flashinfer_cutlass_moe_enabled:
-            return self.flashinfer_cutlass_moe(
-                hidden_states=x,
-                w1=layer.w13_weight,
-                w2=layer.w2_weight,
-                topk_weights=topk_weights,
-                topk_ids=topk_ids,
-                activation=activation,
-                apply_router_weight_on_input=apply_router_weight_on_input,
-            )
-        else:
-            result = fused_experts(
-                hidden_states=x,
-                w1=layer.w13_weight,
-                w2=layer.w2_weight,
-                topk_weights=topk_weights,
-                topk_ids=topk_ids,
-                inplace=True,
-                activation=activation,
-                quant_config=self.moe_quant_config,
-                apply_router_weight_on_input=apply_router_weight_on_input,
-                global_num_experts=global_num_experts,
-                expert_map=expert_map,
-            )
-
-        if zero_expert_num != 0 and zero_expert_type is not None:
-            assert not isinstance(result, tuple), (
-                "Shared + zero experts are mutually exclusive not yet supported"
-            )
-            return result, zero_expert_result
-        else:
-            return result
-
-    def forward_cpu(
-        self,
-        layer: torch.nn.Module,
-        x: torch.Tensor,
-        use_grouped_topk: bool,
-        top_k: int,
-        router_logits: torch.Tensor,
-        renormalize: bool,
-        topk_group: int | None = None,
-        num_expert_group: int | None = None,
-        global_num_experts: int = -1,
-        expert_map: torch.Tensor | None = None,
-        custom_routing_function: Callable | None = None,
-        scoring_func: str = "softmax",
-        routed_scaling_factor: float = 1.0,
-        e_score_correction_bias: torch.Tensor | None = None,
-        apply_router_weight_on_input: bool = False,
-        activation: str = "silu",
-        enable_eplb: bool = False,
-        expert_load_view: torch.Tensor | None = None,
-        logical_to_physical_map: torch.Tensor | None = None,
-        logical_replica_count: torch.Tensor | None = None,
-    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
-        if (
-            enable_eplb is not False
-            or expert_load_view is not None
-            or logical_to_physical_map is not None
-            or logical_replica_count is not None
-        ):
-            raise NotImplementedError("Expert load balancing is not supported for CPU.")
-        return layer.cpu_fused_moe(
-            layer,
-            x,
-            use_grouped_topk,
-            top_k,
-            router_logits,
-            renormalize,
-            topk_group,
-            num_expert_group,
-            global_num_experts,
-            expert_map,
-            custom_routing_function,
-            scoring_func,
-            routed_scaling_factor,
-            e_score_correction_bias,
-            apply_router_weight_on_input,
-            activation,
-        )
-
-    def forward_xpu(
-        self,
-        layer: torch.nn.Module,
-        x: torch.Tensor,
-        use_grouped_topk: bool,
-        top_k: int,
-        router_logits: torch.Tensor,
-        renormalize: bool,
-        topk_group: int | None = None,
-        num_expert_group: int | None = None,
-        global_num_experts: int = -1,
-        expert_map: torch.Tensor | None = None,
-        custom_routing_function: Callable | None = None,
-        scoring_func: str = "softmax",
-        routed_scaling_factor: float = 1.0,
-        e_score_correction_bias: torch.Tensor | None = None,
-        apply_router_weight_on_input: bool = False,
-        activation: str = "silu",
-        enable_eplb: bool = False,
-        expert_load_view: torch.Tensor | None = None,
-        logical_to_physical_map: torch.Tensor | None = None,
-        logical_replica_count: torch.Tensor | None = None,
-    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
-        if (
-            enable_eplb is not False
-            or expert_load_view is not None
-            or logical_to_physical_map is not None
-            or logical_replica_count is not None
-        ):
-            raise NotImplementedError("Expert load balancing is not supported for XPU.")
-        return layer.ipex_fusion(
-            x,
-            use_grouped_topk,
-            top_k,
-            router_logits,
-            renormalize,
-            topk_group,
-            num_expert_group,
-            custom_routing_function=custom_routing_function,
-        )
-
-    def forward_tpu(
-        self,
-        layer: torch.nn.Module,
-        x: torch.Tensor,
-        use_grouped_topk: bool,
-        top_k: int,
-        router_logits: torch.Tensor,
-        renormalize: bool,
-        topk_group: int | None = None,
-        num_expert_group: int | None = None,
-        global_num_experts: int = -1,
-        expert_map: torch.Tensor | None = None,
-        custom_routing_function: Callable | None = None,
-        scoring_func: str = "softmax",
-        routed_scaling_factor: float = 1.0,
-        e_score_correction_bias: torch.Tensor | None = None,
-        apply_router_weight_on_input: bool = False,
-        activation: str = "silu",
-        enable_eplb: bool = False,
-        expert_load_view: torch.Tensor | None = None,
-        logical_to_physical_map: torch.Tensor | None = None,
-        logical_replica_count: torch.Tensor | None = None,
-    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
-        assert not use_grouped_topk
-        assert num_expert_group is None
-        assert topk_group is None
-        assert custom_routing_function is None
-        assert apply_router_weight_on_input is False
-        if scoring_func != "softmax":
-            raise NotImplementedError(
-                "Only softmax scoring function is supported for TPU."
-            )
-        if e_score_correction_bias is not None:
-            raise NotImplementedError(
-                "Expert score correction bias is not supported for TPU."
-            )
-        assert activation == "silu", f"{activation} is not supported for TPU."
-        assert routed_scaling_factor == 1.0, (
-            f"routed_scaling_factor {routed_scaling_factor} is not supported for TPU."
-        )
-        if (
-            enable_eplb is not False
-            or expert_load_view is not None
-            or logical_to_physical_map is not None
-            or logical_replica_count is not None
-        ):
-            raise NotImplementedError("Expert load balancing is not supported for TPU.")
-        return fused_moe_pallas(
-            hidden_states=x,
-            w1=layer.w13_weight,
-            w2=layer.w2_weight,
-            topk=top_k,
-            gating_output=router_logits,
-            global_num_experts=global_num_experts,
-            expert_map=expert_map,
-            renormalize=renormalize,
-        )
-
-    if current_platform.is_tpu():
-        forward_native = forward_tpu
-    elif current_platform.is_cpu():
-        forward_native = forward_cpu
-    elif current_platform.is_xpu():
-        forward_native = forward_xpu
-    else:
-        forward_native = forward_cuda
-
-
 def determine_expert_map(
     ep_size: int,
     ep_rank: int,
@@ -1125,16 +233,13 @@ def maybe_roundup_hidden_size(
         Rounded up hidden_size if rounding up is required based on the configs.
         Original hidden size otherwise.
     """
+    from vllm.model_executor.layers.fused_moe.all2all_utils import (
+        maybe_roundup_layer_hidden_size,
+    )
 
-    if moe_parallel_config.use_deepep_ht_kernels:
-        hidden_size = DeepEPHTPrepareAndFinalize.maybe_roundup_layer_hidden_size(
-            hidden_size, act_dtype
-        )
-
-    if moe_parallel_config.use_deepep_ll_kernels:
-        hidden_size = DeepEPLLPrepareAndFinalize.maybe_roundup_layer_hidden_size(
-            hidden_size
-        )
+    hidden_size = maybe_roundup_layer_hidden_size(
+        hidden_size, act_dtype, moe_parallel_config
+    )
 
     # we are padding globally so EP buffer allocation works
     if quant_config and quant_config.get_name() == "mxfp4":
@@ -1430,7 +535,6 @@ class FusedMoE(CustomOp):
             is_lora_enabled=vllm_config.lora_config is not None,
         )
 
-        self.moe_quant_config: FusedMoEQuantConfig | None = None
         self.quant_config = quant_config
 
         def _get_quant_method() -> FusedMoEMethodBase:
@@ -1508,9 +612,15 @@ class FusedMoE(CustomOp):
     # This is called after all weight loading and post-processing, so it
     # should be safe to swap out the quant_method.
     def maybe_init_modular_kernel(self) -> None:
-        mk = self.quant_method.maybe_init_modular_kernel(self)
-        if mk is not None:
-            self.quant_method = FusedMoEModularMethod(self.quant_method, mk)
+        self.ensure_moe_quant_config_init()
+        prepare_finalize = self.quant_method.maybe_make_prepare_finalize()
+        if prepare_finalize is not None:
+            logger.debug(
+                "%s for %s(%s)", prepare_finalize.__class__.__name__, self, id(self)
+            )
+            self.quant_method = FusedMoEModularMethod.make(
+                self, self.quant_method, prepare_finalize, self.shared_experts
+            )
 
     @property
     def shared_experts(self) -> torch.nn.Module | None:
@@ -2142,12 +1252,16 @@ class FusedMoE(CustomOp):
 
     def ensure_moe_quant_config_init(self):
         if self.quant_method.moe_quant_config is None:
+            # Note: the moe_quant_config can't be constructed until after
+            # weight loading post processing.
             self.quant_method.moe_quant_config = (
                 self.quant_method.get_fused_moe_quant_config(self)
             )
 
-        if self.moe_quant_config is None:
-            self.moe_quant_config = self.quant_method.moe_quant_config
+    @property
+    def moe_quant_config(self) -> FusedMoEQuantConfig | None:
+        self.ensure_moe_quant_config_init()
+        return self.quant_method.moe_quant_config
 
     def ensure_dp_chunking_init(self):
         if not self.use_dp_chunking or self.batched_hidden_states is not None:
diff --git a/vllm/model_executor/layers/fused_moe/shared_fused_moe.py b/vllm/model_executor/layers/fused_moe/shared_fused_moe.py
index 3d0c5636d6c0a..06112ca51b6d5 100644
--- a/vllm/model_executor/layers/fused_moe/shared_fused_moe.py
+++ b/vllm/model_executor/layers/fused_moe/shared_fused_moe.py
@@ -38,7 +38,7 @@ class SharedFusedMoE(FusedMoE):
             and not (
                 # TODO(wentao): find the root cause and remove this condition
                 self.enable_eplb
-                or (self.use_flashinfer_cutlass_kernels and self.dp_size > 1)
+                or (self.moe_config.use_flashinfer_cutlass_kernels and self.dp_size > 1)
             )
             and self._shared_experts is not None
         )
diff --git a/vllm/model_executor/layers/fused_moe/unquantized_fused_moe_method.py b/vllm/model_executor/layers/fused_moe/unquantized_fused_moe_method.py
new file mode 100644
index 0000000000000..ce56887f1c26d
--- /dev/null
+++ b/vllm/model_executor/layers/fused_moe/unquantized_fused_moe_method.py
@@ -0,0 +1,578 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Callable
+
+import torch
+import torch.nn.functional as F
+
+import vllm.envs as envs
+from vllm._aiter_ops import rocm_aiter_ops
+from vllm.logger import init_logger
+from vllm.model_executor.custom_op import CustomOp
+from vllm.model_executor.layers.fused_moe.config import (
+    FUSED_MOE_UNQUANTIZED_CONFIG,
+    FusedMoEConfig,
+    FusedMoEQuantConfig,
+    biased_moe_quant_config,
+)
+from vllm.model_executor.layers.fused_moe.fused_moe_method_base import (
+    FusedMoEMethodBase,
+)
+from vllm.model_executor.layers.fused_moe.modular_kernel import (
+    FusedMoEActivationFormat,
+    FusedMoEPermuteExpertsUnpermute,
+    FusedMoEPrepareAndFinalize,
+)
+from vllm.model_executor.utils import set_weight_attrs
+from vllm.platforms import current_platform
+from vllm.platforms.interface import CpuArchEnum
+from vllm.utils.flashinfer import has_flashinfer_cutlass_fused_moe
+
+if current_platform.is_cuda_alike():
+    from .fused_batched_moe import BatchedTritonExperts
+    from .fused_moe import TritonExperts, fused_experts
+else:
+    fused_experts = None  # type: ignore
+
+if current_platform.is_tpu():
+    from .moe_pallas import fused_moe as fused_moe_pallas
+else:
+    fused_moe_pallas = None  # type: ignore
+
+logger = init_logger(__name__)
+
+
+@CustomOp.register("unquantized_fused_moe")
+class UnquantizedFusedMoEMethod(FusedMoEMethodBase, CustomOp):
+    """MoE method without quantization."""
+
+    def __init__(self, moe: FusedMoEConfig):
+        super().__init__(moe)
+
+        self.rocm_aiter_moe_enabled = rocm_aiter_ops.is_fused_moe_enabled()
+        if self.rocm_aiter_moe_enabled:
+            from .rocm_aiter_fused_moe import rocm_aiter_fused_experts
+
+            self.rocm_aiter_fused_experts = rocm_aiter_fused_experts
+        else:
+            self.rocm_aiter_fused_experts = None  # type: ignore
+
+        # FlashInfer CUTLASS MoE is only supported on Hopper and later GPUS
+        self.flashinfer_cutlass_moe_enabled = (
+            has_flashinfer_cutlass_fused_moe()
+            and envs.VLLM_USE_FLASHINFER_MOE_FP16
+            and self.moe.moe_parallel_config.use_ep
+            and self.moe.moe_parallel_config.dp_size == 1
+            and current_platform.get_device_capability()[0] >= 9
+        )
+        if self.flashinfer_cutlass_moe_enabled:
+            logger.info_once(
+                "Enabling FlashInfer CUTLASS MoE for UnquantizedFusedMoEMethod"
+            )
+            from functools import partial
+
+            from .flashinfer_cutlass_moe import flashinfer_cutlass_moe
+
+            self.flashinfer_cutlass_moe = partial(
+                flashinfer_cutlass_moe,
+                quant_config=FUSED_MOE_UNQUANTIZED_CONFIG,
+                tp_rank=self.moe.moe_parallel_config.tp_rank,
+                tp_size=self.moe.moe_parallel_config.tp_size,
+                ep_rank=self.moe.moe_parallel_config.ep_rank,
+                ep_size=self.moe.moe_parallel_config.ep_size,
+            )
+        else:
+            if (
+                self.moe.moe_parallel_config.use_ep
+                and self.moe.moe_parallel_config.dp_size == 1
+            ):
+                logger.info_once(
+                    "FlashInfer CUTLASS MoE is available for EP"
+                    " but not enabled, consider setting"
+                    " VLLM_USE_FLASHINFER_MOE_FP16=1 to enable it.",
+                    scope="local",
+                )
+            elif self.moe.moe_parallel_config.dp_size > 1:
+                logger.info_once(
+                    "FlashInfer CUTLASS MoE is currently not available for DP.",
+                    scope="local",
+                )
+            self.flashinfer_cutlass_moe = None  # type: ignore
+
+    @property
+    def supports_eplb(self) -> bool:
+        return True
+
+    @property
+    def allow_inplace(self) -> bool:
+        return True
+
+    def maybe_make_prepare_finalize(self) -> FusedMoEPrepareAndFinalize | None:
+        if self.rocm_aiter_moe_enabled:
+            return None
+        else:
+            return super().maybe_make_prepare_finalize()
+
+    def select_gemm_impl(
+        self,
+        prepare_finalize: FusedMoEPrepareAndFinalize,
+        layer: torch.nn.Module,
+    ) -> FusedMoEPermuteExpertsUnpermute:
+        assert self.moe_quant_config is not None
+        if (
+            prepare_finalize.activation_format
+            == FusedMoEActivationFormat.BatchedExperts
+        ):
+            logger.debug("BatchedTritonExperts %s", self.moe)
+            return BatchedTritonExperts(
+                max_num_tokens=self.moe.max_num_tokens,
+                num_dispatchers=prepare_finalize.num_dispatchers(),
+                quant_config=self.moe_quant_config,
+            )
+        else:
+            logger.debug("TritonExperts %s", self.moe)
+            return TritonExperts(self.moe_quant_config)
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        num_experts: int,
+        hidden_size: int,
+        intermediate_size_per_partition: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        if self.moe.is_act_and_mul:
+            w13_up_dim = 2 * intermediate_size_per_partition
+        else:
+            w13_up_dim = intermediate_size_per_partition
+        # Fused gate_up_proj (column parallel)
+        w13_weight = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                w13_up_dim,
+                hidden_size,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w13_weight", w13_weight)
+        set_weight_attrs(w13_weight, extra_weight_attrs)
+        if self.moe.has_bias:
+            w13_bias = torch.nn.Parameter(
+                torch.zeros(num_experts, w13_up_dim, dtype=params_dtype),
+                requires_grad=False,
+            )
+            layer.register_parameter("w13_bias", w13_bias)
+            set_weight_attrs(w13_bias, extra_weight_attrs)
+        # down_proj (row parallel)
+        w2_weight = torch.nn.Parameter(
+            torch.empty(
+                num_experts,
+                hidden_size,
+                intermediate_size_per_partition,
+                dtype=params_dtype,
+            ),
+            requires_grad=False,
+        )
+        layer.register_parameter("w2_weight", w2_weight)
+        set_weight_attrs(w2_weight, extra_weight_attrs)
+        if self.moe.has_bias:
+            w2_bias = torch.nn.Parameter(
+                torch.zeros(num_experts, hidden_size, dtype=params_dtype),
+                requires_grad=False,
+            )
+            layer.register_parameter("w2_bias", w2_bias)
+            set_weight_attrs(w2_bias, extra_weight_attrs)
+
+    def _maybe_pad_weight(self, weight: torch.Tensor) -> torch.Tensor:
+        # Pad the weight tensor. This is an optimization on ROCm platform, which
+        # can benefit from tensors located far enough from one another in memory
+        if (
+            envs.VLLM_ROCM_MOE_PADDING
+            and current_platform.is_rocm()
+            and weight.stride(-1) == 1
+            and (weight.stride(-2) * weight.element_size()) % 512 == 0
+        ):
+            num_pad = 256 // weight.element_size()
+            weight = F.pad(weight, (0, num_pad), "constant", 0)[..., :-num_pad]
+            torch.cuda.empty_cache()
+
+        return weight
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        super().process_weights_after_loading(layer)
+
+        # Padding the weight for better performance on ROCm
+        layer.w13_weight.data = self._maybe_pad_weight(layer.w13_weight.data)
+        layer.w2_weight.data = self._maybe_pad_weight(layer.w2_weight.data)
+
+        if self.rocm_aiter_moe_enabled:
+            shuffled_w13, shuffled_w2 = rocm_aiter_ops.shuffle_weights(
+                layer.w13_weight.data, layer.w2_weight.data
+            )
+
+            layer.w13_weight.data = shuffled_w13
+            layer.w2_weight.data = shuffled_w2
+
+        if self.flashinfer_cutlass_moe_enabled:
+            # Swap halves to arrange as [w3; w1] (kernel expectation)
+            w1_w, w3_w = torch.chunk(layer.w13_weight.data, 2, dim=1)
+            w13_weight_swapped = torch.cat([w3_w, w1_w], dim=1)
+            layer.w13_weight.data = w13_weight_swapped.contiguous()
+
+        if current_platform.is_xpu():
+            import intel_extension_for_pytorch as ipex
+
+            ep_rank_start = self.moe.ep_rank * self.moe.num_local_experts
+            layer.ipex_fusion = ipex.llm.modules.GatedMLPMOE(
+                layer.w13_weight,
+                layer.w2_weight,
+                use_prepack=True,
+                experts_start_id=ep_rank_start,
+            )
+        elif current_platform.is_cpu():
+            from vllm.model_executor.layers.fused_moe import cpu_fused_moe
+
+            if current_platform.get_cpu_architecture() == CpuArchEnum.X86:
+                from vllm.model_executor.layers.utils import check_cpu_sgl_kernel
+
+                dtype_w13 = layer.w13_weight.dtype
+                _, n_w13, k_w13 = layer.w13_weight.size()
+                dtype_w2 = layer.w2_weight.dtype
+                _, n_w2, k_w2 = layer.w2_weight.size()
+                if (
+                    envs.VLLM_CPU_SGL_KERNEL
+                    and check_cpu_sgl_kernel(n_w13, k_w13, dtype_w13)
+                    and check_cpu_sgl_kernel(n_w2, k_w2, dtype_w2)
+                ):
+                    packed_w13_weight = torch.ops._C.convert_weight_packed(
+                        layer.w13_weight
+                    )
+                    assert packed_w13_weight.size() == layer.w13_weight.size()
+                    layer.w13_weight.copy_(packed_w13_weight)
+                    del packed_w13_weight
+                    packed_w2_weight = torch.ops._C.convert_weight_packed(
+                        layer.w2_weight
+                    )
+                    assert packed_w2_weight.size() == layer.w2_weight.size()
+                    layer.w2_weight.copy_(packed_w2_weight)
+                    layer.cpu_fused_moe = cpu_fused_moe.SGLFusedMOE(layer)
+                else:
+                    layer.cpu_fused_moe = cpu_fused_moe.IPEXFusedMOE(layer)
+            else:
+                layer.cpu_fused_moe = cpu_fused_moe.CPUFusedMOE(layer)
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        router_logits: torch.Tensor,
+        top_k: int,
+        renormalize: bool,
+        use_grouped_topk: bool = False,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        if enable_eplb:
+            assert expert_load_view is not None
+            assert logical_to_physical_map is not None
+            assert logical_replica_count is not None
+
+        return self.forward(
+            x=x,
+            layer=layer,
+            router_logits=router_logits,
+            top_k=top_k,
+            renormalize=renormalize,
+            use_grouped_topk=use_grouped_topk,
+            topk_group=topk_group,
+            num_expert_group=num_expert_group,
+            global_num_experts=global_num_experts,
+            expert_map=expert_map,
+            custom_routing_function=custom_routing_function,
+            scoring_func=scoring_func,
+            routed_scaling_factor=routed_scaling_factor,
+            e_score_correction_bias=e_score_correction_bias,
+            activation=activation,
+            apply_router_weight_on_input=apply_router_weight_on_input,
+            enable_eplb=enable_eplb,
+            expert_load_view=expert_load_view,
+            logical_to_physical_map=logical_to_physical_map,
+            logical_replica_count=logical_replica_count,
+        )
+
+    def get_fused_moe_quant_config(
+        self, layer: torch.nn.Module
+    ) -> FusedMoEQuantConfig | None:
+        if self.moe.has_bias:
+            return biased_moe_quant_config(
+                layer.w13_bias,
+                layer.w2_bias,
+            )
+        else:
+            return FUSED_MOE_UNQUANTIZED_CONFIG
+
+    def forward_cuda(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        use_grouped_topk: bool,
+        top_k: int,
+        router_logits: torch.Tensor,
+        renormalize: bool,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        zero_expert_num = getattr(layer, "zero_expert_num", 0)
+        zero_expert_type = getattr(layer, "zero_expert_type", None)
+
+        topk_weights, topk_ids, zero_expert_result = layer.select_experts(
+            hidden_states=x,
+            router_logits=router_logits,
+            use_grouped_topk=use_grouped_topk,
+            top_k=top_k,
+            renormalize=renormalize,
+            topk_group=topk_group,
+            num_expert_group=num_expert_group,
+            custom_routing_function=custom_routing_function,
+            scoring_func=scoring_func,
+            routed_scaling_factor=routed_scaling_factor,
+            e_score_correction_bias=e_score_correction_bias,
+            indices_type=self.topk_indices_dtype,
+            enable_eplb=enable_eplb,
+            expert_map=expert_map,
+            expert_load_view=expert_load_view,
+            logical_to_physical_map=logical_to_physical_map,
+            logical_replica_count=logical_replica_count,
+            global_num_experts=global_num_experts,
+            zero_expert_num=zero_expert_num,
+            zero_expert_type=zero_expert_type,
+            num_fused_shared_experts=layer.num_fused_shared_experts,
+        )
+
+        if self.rocm_aiter_moe_enabled:
+            result = self.rocm_aiter_fused_experts(
+                hidden_states=x,
+                w1=layer.w13_weight,
+                w2=layer.w2_weight,
+                topk_weights=topk_weights,
+                topk_ids=topk_ids,
+                expert_map=expert_map,
+                activation=activation,
+                apply_router_weight_on_input=apply_router_weight_on_input,
+            )
+        elif self.flashinfer_cutlass_moe_enabled:
+            return self.flashinfer_cutlass_moe(
+                hidden_states=x,
+                w1=layer.w13_weight,
+                w2=layer.w2_weight,
+                topk_weights=topk_weights,
+                topk_ids=topk_ids,
+                activation=activation,
+                apply_router_weight_on_input=apply_router_weight_on_input,
+            )
+        else:
+            result = fused_experts(
+                hidden_states=x,
+                w1=layer.w13_weight,
+                w2=layer.w2_weight,
+                topk_weights=topk_weights,
+                topk_ids=topk_ids,
+                inplace=True,
+                activation=activation,
+                quant_config=self.moe_quant_config,
+                apply_router_weight_on_input=apply_router_weight_on_input,
+                global_num_experts=global_num_experts,
+                expert_map=expert_map,
+            )
+
+        if zero_expert_num != 0 and zero_expert_type is not None:
+            assert not isinstance(result, tuple), (
+                "Shared + zero experts are mutually exclusive not yet supported"
+            )
+            return result, zero_expert_result
+        else:
+            return result
+
+    def forward_cpu(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        use_grouped_topk: bool,
+        top_k: int,
+        router_logits: torch.Tensor,
+        renormalize: bool,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        if (
+            enable_eplb is not False
+            or expert_load_view is not None
+            or logical_to_physical_map is not None
+            or logical_replica_count is not None
+        ):
+            raise NotImplementedError("Expert load balancing is not supported for CPU.")
+        return layer.cpu_fused_moe(
+            layer,
+            x,
+            use_grouped_topk,
+            top_k,
+            router_logits,
+            renormalize,
+            topk_group,
+            num_expert_group,
+            global_num_experts,
+            expert_map,
+            custom_routing_function,
+            scoring_func,
+            routed_scaling_factor,
+            e_score_correction_bias,
+            apply_router_weight_on_input,
+            activation,
+        )
+
+    def forward_xpu(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        use_grouped_topk: bool,
+        top_k: int,
+        router_logits: torch.Tensor,
+        renormalize: bool,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        if (
+            enable_eplb is not False
+            or expert_load_view is not None
+            or logical_to_physical_map is not None
+            or logical_replica_count is not None
+        ):
+            raise NotImplementedError("Expert load balancing is not supported for XPU.")
+        return layer.ipex_fusion(
+            x,
+            use_grouped_topk,
+            top_k,
+            router_logits,
+            renormalize,
+            topk_group,
+            num_expert_group,
+            custom_routing_function=custom_routing_function,
+        )
+
+    def forward_tpu(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        use_grouped_topk: bool,
+        top_k: int,
+        router_logits: torch.Tensor,
+        renormalize: bool,
+        topk_group: int | None = None,
+        num_expert_group: int | None = None,
+        global_num_experts: int = -1,
+        expert_map: torch.Tensor | None = None,
+        custom_routing_function: Callable | None = None,
+        scoring_func: str = "softmax",
+        routed_scaling_factor: float = 1.0,
+        e_score_correction_bias: torch.Tensor | None = None,
+        apply_router_weight_on_input: bool = False,
+        activation: str = "silu",
+        enable_eplb: bool = False,
+        expert_load_view: torch.Tensor | None = None,
+        logical_to_physical_map: torch.Tensor | None = None,
+        logical_replica_count: torch.Tensor | None = None,
+    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
+        assert not use_grouped_topk
+        assert num_expert_group is None
+        assert topk_group is None
+        assert custom_routing_function is None
+        assert apply_router_weight_on_input is False
+        if scoring_func != "softmax":
+            raise NotImplementedError(
+                "Only softmax scoring function is supported for TPU."
+            )
+        if e_score_correction_bias is not None:
+            raise NotImplementedError(
+                "Expert score correction bias is not supported for TPU."
+            )
+        assert activation == "silu", f"{activation} is not supported for TPU."
+        assert routed_scaling_factor == 1.0, (
+            f"routed_scaling_factor {routed_scaling_factor} is not supported for TPU."
+        )
+        if (
+            enable_eplb is not False
+            or expert_load_view is not None
+            or logical_to_physical_map is not None
+            or logical_replica_count is not None
+        ):
+            raise NotImplementedError("Expert load balancing is not supported for TPU.")
+        return fused_moe_pallas(
+            hidden_states=x,
+            w1=layer.w13_weight,
+            w2=layer.w2_weight,
+            topk=top_k,
+            gating_output=router_logits,
+            global_num_experts=global_num_experts,
+            expert_map=expert_map,
+            renormalize=renormalize,
+        )
+
+    if current_platform.is_tpu():
+        forward_native = forward_tpu
+    elif current_platform.is_cpu():
+        forward_native = forward_cpu
+    elif current_platform.is_xpu():
+        forward_native = forward_xpu
+    else:
+        forward_native = forward_cuda
diff --git a/vllm/model_executor/layers/quantization/mxfp4.py b/vllm/model_executor/layers/quantization/mxfp4.py
index e339f15510d79..4e51249f2d25b 100644
--- a/vllm/model_executor/layers/quantization/mxfp4.py
+++ b/vllm/model_executor/layers/quantization/mxfp4.py
@@ -741,15 +741,10 @@ class Mxfp4MoEMethod(FusedMoEMethodBase):
                 weight_scale=w2_scale, flex_ctx=FlexCtx(rhs_data=w2_flex)
             )
 
-            self.w13_weight_triton_tensor = w13_weight
-            self.w2_weight_triton_tensor = w2_weight
-
-            # need to delete the original weights to save memory on single GPU
-            del layer.w13_weight
-            del layer.w2_weight
-            layer.w13_weight = None
-            layer.w2_weight = None
-            torch.cuda.empty_cache()
+            self.w13_weight = w13_weight
+            self.w2_weight = w2_weight
+            layer.w13_weight = w13_weight
+            layer.w2_weight = w2_weight
         else:
             raise ValueError(f"Unsupported backend: {self.mxfp4_backend}")
 
@@ -824,18 +819,6 @@ class Mxfp4MoEMethod(FusedMoEMethodBase):
                     "EP batched experts format"
                 )
         else:
-            layer.w13_weight = (
-                self.w13_weight_triton_tensor
-                if layer.w13_weight is None
-                else layer.w13_weight
-            )
-            layer.w2_weight = (
-                self.w2_weight_triton_tensor
-                if layer.w2_weight is None
-                else layer.w2_weight
-            )
-            assert all([w is not None for w in [layer.w13_weight, layer.w2_weight]])
-
             assert self.moe_quant_config is not None
             if (
                 self.mxfp4_backend == Mxfp4Backend.SM100_FI_MXFP4_MXFP8_TRTLLM
@@ -1070,8 +1053,8 @@ class Mxfp4MoEMethod(FusedMoEMethodBase):
 
             return triton_kernel_moe_forward(
                 hidden_states=x,
-                w1=self.w13_weight_triton_tensor,
-                w2=self.w2_weight_triton_tensor,
+                w1=self.w13_weight,
+                w2=self.w2_weight,
                 gating_output=router_logits,
                 topk=top_k,
                 renormalize=renormalize,

From 533b018f725fb9c2421e2c4b5a48d62fa5f1d844 Mon Sep 17 00:00:00 2001
From: jvlunteren <161835099+jvlunteren@users.noreply.github.com>
Date: Tue, 11 Nov 2025 15:41:43 +0100
Subject: [PATCH 315/976] [BugFix] Fix Failing Ruff Check (#28469)

Signed-off-by: Jan van Lunteren <jvl@zurich.ibm.com>
---
 tests/compile/test_fusions_e2e.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/tests/compile/test_fusions_e2e.py b/tests/compile/test_fusions_e2e.py
index f67063cdf42ea..e1560efb3f247 100644
--- a/tests/compile/test_fusions_e2e.py
+++ b/tests/compile/test_fusions_e2e.py
@@ -74,7 +74,7 @@ if current_platform.is_cuda():
         ModelBackendTestCase(
             model_name="Qwen/Qwen3-30B-A3B",
             model_kwargs=dict(max_model_len=1024),
-            backend=_Backend.TRITON_ATTN,
+            backend=AttentionBackendEnum.TRITON_ATTN,
             attention_fusions=0,
             allreduce_fusions=97,
         ),

From a90ad7d838b446cfc2dd7b4252086e13c3a8abbf Mon Sep 17 00:00:00 2001
From: Mark McLoughlin <markmc@redhat.com>
Date: Tue, 11 Nov 2025 15:03:22 +0000
Subject: [PATCH 316/976] Add @markmc to CODEOWNERS for Observability (#28457)

Signed-off-by: Mark McLoughlin <markmc@redhat.com>
---
 .github/CODEOWNERS | 10 ++++++++++
 1 file changed, 10 insertions(+)

diff --git a/.github/CODEOWNERS b/.github/CODEOWNERS
index 23def076cf880..f26c782bccf2c 100644
--- a/.github/CODEOWNERS
+++ b/.github/CODEOWNERS
@@ -61,6 +61,16 @@ CMakeLists.txt @tlrmchlsmth @LucasWilkinson
 /vllm/model_executor/models/transformers @hmellor
 /tests/models/test_transformers.py @hmellor
 
+# Observability
+/vllm/config/observability.py @markmc
+/vllm/v1/metrics @markmc
+/tests/v1/metrics @markmc
+/vllm/tracing.py @markmc
+/tests/v1/tracing/test_tracing.py @markmc
+/vllm/config/kv_events.py @markmc
+/vllm/distributed/kv_events.py @markmc
+/tests/distributed/test_events.py @markmc
+
 # Docs
 /docs/mkdocs @hmellor
 /docs/**/*.yml @hmellor

From b886068056a05857f796909d2f8573b36fc668a5 Mon Sep 17 00:00:00 2001
From: Fanli Lin <fanli.lin@intel.com>
Date: Tue, 11 Nov 2025 23:29:33 +0800
Subject: [PATCH 317/976] [BugFix] Fix RuntimeError in PixtralHFAttention on
 CPU/XPU (#28444)

Signed-off-by: Lin, Fanli <fanli.lin@intel.com>
---
 vllm/model_executor/models/pixtral.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/model_executor/models/pixtral.py b/vllm/model_executor/models/pixtral.py
index 0555717017cdc..dfe5f0c52a505 100644
--- a/vllm/model_executor/models/pixtral.py
+++ b/vllm/model_executor/models/pixtral.py
@@ -1109,7 +1109,7 @@ class PixtralHFAttention(nn.Module):
             )
             out = out.transpose(1, 2)
 
-        out = out.view(batch, patches, self.n_heads * self.head_dim)
+        out = out.reshape(batch, patches, self.n_heads * self.head_dim)
         attn_output, _ = self.o_proj(out)
 
         return attn_output, None

From 3143eb23fc4e017bc31d11a9756d5a788d6f7e33 Mon Sep 17 00:00:00 2001
From: usberkeley <150880684+usberkeley@users.noreply.github.com>
Date: Wed, 12 Nov 2025 00:01:30 +0800
Subject: [PATCH 318/976] [BugFix] Add test_outputs.py to CI pipeline (#28466)

Signed-off-by: Bradley <bradley.b.pitt@gmail.com>
Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 .buildkite/test-amd.yaml      | 1 +
 .buildkite/test-pipeline.yaml | 1 +
 2 files changed, 2 insertions(+)

diff --git a/.buildkite/test-amd.yaml b/.buildkite/test-amd.yaml
index bb5ef5d624630..5fd048c2ad0c6 100644
--- a/.buildkite/test-amd.yaml
+++ b/.buildkite/test-amd.yaml
@@ -348,6 +348,7 @@ steps:
     - pytest -v -s -m 'not cpu_test' v1/metrics
     - pytest -v -s v1/test_oracle.py
     - pytest -v -s v1/test_request.py
+    - pytest -v -s v1/test_outputs.py
     # Integration test for streaming correctness (requires special branch).
     - pip install -U git+https://github.com/robertgshaw2-redhat/lm-evaluation-harness.git@streaming-api
     - pytest -v -s entrypoints/openai/correctness/test_lmeval.py::test_lm_eval_accuracy_v1_engine
diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index 83a7df3b093fc..25f711dd60b37 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -329,6 +329,7 @@ steps:
     - pytest -v -s -m 'not cpu_test' v1/metrics
     - pytest -v -s v1/test_oracle.py
     - pytest -v -s v1/test_request.py
+    - pytest -v -s v1/test_outputs.py
     # Integration test for streaming correctness (requires special branch).
     - pip install -U git+https://github.com/robertgshaw2-redhat/lm-evaluation-harness.git@streaming-api
     - pytest -v -s entrypoints/openai/correctness/test_lmeval.py::test_lm_eval_accuracy_v1_engine

From 287bbbeb067cd9e16ea9b834b35b47258a8ad43f Mon Sep 17 00:00:00 2001
From: the-codeboy <71213855+the-codeboy@users.noreply.github.com>
Date: Tue, 11 Nov 2025 17:45:49 +0100
Subject: [PATCH 319/976] [Doc] Fix typo in serving docs (#28474)

Signed-off-by: the-codeboy <71213855+the-codeboy@users.noreply.github.com>
---
 docs/serving/openai_compatible_server.md | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/docs/serving/openai_compatible_server.md b/docs/serving/openai_compatible_server.md
index e331b3422ea64..821628e6e3174 100644
--- a/docs/serving/openai_compatible_server.md
+++ b/docs/serving/openai_compatible_server.md
@@ -77,11 +77,11 @@ In addition, we have the following custom APIs:
 
 In order for the language model to support chat protocol, vLLM requires the model to include
 a chat template in its tokenizer configuration. The chat template is a Jinja2 template that
-specifies how are roles, messages, and other chat-specific tokens are encoded in the input.
+specifies how roles, messages, and other chat-specific tokens are encoded in the input.
 
 An example chat template for `NousResearch/Meta-Llama-3-8B-Instruct` can be found [here](https://github.com/meta-llama/llama3?tab=readme-ov-file#instruction-tuned-models)
 
-Some models do not provide a chat template even though they are instruction/chat fine-tuned. For those model,
+Some models do not provide a chat template even though they are instruction/chat fine-tuned. For those models,
 you can manually specify their chat template in the `--chat-template` parameter with the file path to the chat
 template, or the template in string form. Without a chat template, the server will not be able to process chat
 and all chat requests will error.

From f9a4087182ffcd9404779fcda876f820b3b26d5f Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Tue, 11 Nov 2025 09:46:04 -0700
Subject: [PATCH 320/976] Remove weight_scale.T special case for SM90 Block FP8
 CUTLASS kernel (#28431)

Signed-off-by: mgoin <mgoin64@gmail.com>
---
 benchmarks/kernels/bench_block_fp8_gemm.py    | 43 +++++++++++++------
 .../scaled_mm_blockwise_sm90_fp8_dispatch.cuh |  3 +-
 .../schemes/compressed_tensors_w8a8_fp8.py    |  2 +-
 .../model_executor/layers/quantization/fp8.py |  2 +-
 .../layers/quantization/utils/fp8_utils.py    | 22 ++--------
 5 files changed, 36 insertions(+), 36 deletions(-)

diff --git a/benchmarks/kernels/bench_block_fp8_gemm.py b/benchmarks/kernels/bench_block_fp8_gemm.py
index f1e504499eaf6..11e3ac7f0c1fa 100644
--- a/benchmarks/kernels/bench_block_fp8_gemm.py
+++ b/benchmarks/kernels/bench_block_fp8_gemm.py
@@ -1,10 +1,18 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
+import os
+
+# Disable DeepGEMM for this benchmark to use CUTLASS
+os.environ["VLLM_USE_DEEP_GEMM"] = "0"
+
 import torch
 
 from vllm.model_executor.layers.quantization.utils.fp8_utils import (
-    apply_w8a8_block_fp8_linear,
+    W8A8BlockFp8LinearOp,
+)
+from vllm.model_executor.layers.quantization.utils.quant_utils import (
+    GroupShape,
 )
 from vllm.model_executor.layers.quantization.utils.w8a8_utils import (
     CUTLASS_BLOCK_FP8_SUPPORTED,
@@ -39,13 +47,14 @@ def build_w8a8_block_fp8_runner(M, N, K, block_size, device, use_cutlass):
     fp8_info = torch.finfo(torch.float8_e4m3fn)
     fp8_max, fp8_min = fp8_info.max, fp8_info.min
 
-    # Create random FP8 tensors
+    # Create random input tensor (bfloat16, will be quantized by W8A8BlockFp8LinearOp)
     A_ref = (torch.rand(M, K, dtype=torch.bfloat16, device=device) - 0.5) * 2 * fp8_max
 
+    # Create quantized weight tensor
     B_ref = (torch.rand(N, K, dtype=torch.bfloat16, device=device) - 0.5) * 2 * fp8_max
     B = B_ref.clamp(min=fp8_min, max=fp8_max).to(torch.float8_e4m3fn)
 
-    # Create scales
+    # Create weight scales
     block_n, block_k = block_size[0], block_size[1]
     n_tiles = (N + block_n - 1) // block_n
     k_tiles = (K + block_k - 1) // block_k
@@ -55,19 +64,25 @@ def build_w8a8_block_fp8_runner(M, N, K, block_size, device, use_cutlass):
         * factor_for_scale
     )
 
-    # SM90 CUTLASS requires row-major format for scales
-    if use_cutlass and current_platform.is_device_capability(90):
-        Bs = Bs.T.contiguous()
+    # Create W8A8BlockFp8LinearOp instance
+    weight_group_shape = GroupShape(block_n, block_k)
+    act_quant_group_shape = GroupShape(1, block_k)  # Per-token, per-group quantization
+
+    linear_op = W8A8BlockFp8LinearOp(
+        weight_group_shape=weight_group_shape,
+        act_quant_group_shape=act_quant_group_shape,
+        cutlass_block_fp8_supported=use_cutlass,
+        use_aiter_and_is_supported=False,
+    )
 
     def run():
-        if use_cutlass:
-            return apply_w8a8_block_fp8_linear(
-                A_ref, B, block_size, Bs, cutlass_block_fp8_supported=True
-            )
-        else:
-            return apply_w8a8_block_fp8_linear(
-                A_ref, B, block_size, Bs, cutlass_block_fp8_supported=False
-            )
+        return linear_op.apply(
+            input=A_ref,
+            weight=B,
+            weight_scale=Bs,
+            input_scale=None,
+            bias=None,
+        )
 
     return run
 
diff --git a/csrc/quantization/w8a8/cutlass/c3x/scaled_mm_blockwise_sm90_fp8_dispatch.cuh b/csrc/quantization/w8a8/cutlass/c3x/scaled_mm_blockwise_sm90_fp8_dispatch.cuh
index 147eb8efc0778..c40d499662714 100644
--- a/csrc/quantization/w8a8/cutlass/c3x/scaled_mm_blockwise_sm90_fp8_dispatch.cuh
+++ b/csrc/quantization/w8a8/cutlass/c3x/scaled_mm_blockwise_sm90_fp8_dispatch.cuh
@@ -48,7 +48,8 @@ struct cutlass_3x_gemm_fp8_blockwise {
   using ElementBlockScale = float;
 
   using ScaleConfig = cutlass::detail::Sm90BlockwiseScaleConfig<
-        ScaleGranularityM, ScaleGranularityN, ScaleGranularityK>;
+        ScaleGranularityM, ScaleGranularityN, ScaleGranularityK,
+        cute::GMMA::Major::MN, cute::GMMA::Major::K>;
 
   using LayoutSFA = decltype(ScaleConfig::deduce_layoutSFA());
   using LayoutSFB = decltype(ScaleConfig::deduce_layoutSFB());
diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w8a8_fp8.py b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w8a8_fp8.py
index 6da136cbc8f69..ee99572f5f499 100644
--- a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w8a8_fp8.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w8a8_fp8.py
@@ -173,7 +173,7 @@ class CompressedTensorsW8A8Fp8(CompressedTensorsScheme):
             layer.input_scale = None
 
         if self.strategy == QuantizationStrategy.BLOCK:
-            maybe_post_process_fp8_weight_block(layer, self.cutlass_block_fp8_supported)
+            maybe_post_process_fp8_weight_block(layer)
 
     def apply_weights(
         self,
diff --git a/vllm/model_executor/layers/quantization/fp8.py b/vllm/model_executor/layers/quantization/fp8.py
index 83d136600b77c..cb065eb68b66b 100644
--- a/vllm/model_executor/layers/quantization/fp8.py
+++ b/vllm/model_executor/layers/quantization/fp8.py
@@ -540,7 +540,7 @@ class Fp8LinearMethod(LinearMethodBase):
             return
 
         if self.block_quant:
-            maybe_post_process_fp8_weight_block(layer, self.cutlass_block_fp8_supported)
+            maybe_post_process_fp8_weight_block(layer)
 
     def apply(
         self,
diff --git a/vllm/model_executor/layers/quantization/utils/fp8_utils.py b/vllm/model_executor/layers/quantization/utils/fp8_utils.py
index c63196b893574..0c54cf4def005 100644
--- a/vllm/model_executor/layers/quantization/utils/fp8_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/fp8_utils.py
@@ -55,17 +55,13 @@ def cutlass_scaled_mm(
     Bs: torch.Tensor,
     block_size: list[int],
     output_dtype: torch.dtype = torch.float16,
-    is_hopper: bool | None = None,
 ) -> torch.Tensor:
-    if is_hopper is None:
-        is_hopper = current_platform.is_device_capability(90)
     return ops.cutlass_scaled_mm(
         A,
         B.T,
         out_dtype=output_dtype,
         scale_a=As,
-        # SM90 block FP8 requires row-major scale_b, which we do ahead of time
-        scale_b=Bs if block_size is not None and is_hopper else Bs.T,
+        scale_b=Bs.T,
     )
 
 
@@ -130,7 +126,7 @@ def _padded_cutlass(
     padded_x_scale[0 : x_scale.shape[0], ...].copy_(x_scale)
 
     output = cutlass_scaled_mm(
-        padded_qx, weight, padded_x_scale, weight_scale, block_size, output_dtype, True
+        padded_qx, weight, padded_x_scale, weight_scale, block_size, output_dtype
     )
     return output[0 : qx.shape[0], ...]
 
@@ -303,7 +299,6 @@ class W8A8BlockFp8LinearOp:
                 weight_scale,
                 list(self.weight_group_shape),
                 input_2d.dtype,
-                False,
             )
 
     def _run_aiter(
@@ -1125,9 +1120,7 @@ def process_fp8_weight_block_strategy(
     return weight, weight_scale
 
 
-def maybe_post_process_fp8_weight_block(
-    layer: torch.nn.Module, cutlass_block_fp8_supported: bool
-):
+def maybe_post_process_fp8_weight_block(layer: torch.nn.Module):
     assert layer.weight_block_size is not None
 
     from vllm.utils.deep_gemm import (
@@ -1146,15 +1139,6 @@ def maybe_post_process_fp8_weight_block(
         requant_weight_ue8m0_inplace(
             layer.weight.data, layer.weight_scale.data, block_sz
         )
-    # SM90 Block FP8 CUTLASS requires row-major weight scales
-    elif (
-        current_platform.is_device_capability(90)
-        and cutlass_block_fp8_supported
-        and not should_use_deepgemm
-    ):
-        layer.weight_scale = torch.nn.Parameter(
-            layer.weight_scale.data.T.contiguous(), requires_grad=False
-        )
 
 
 def expert_weight_is_col_major(x: torch.Tensor) -> bool:

From a7ef3eb0cd03e729c7a29914400e0ca928767999 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Nicol=C3=B2=20Lucchesi?= <nlucches@redhat.com>
Date: Tue, 11 Nov 2025 17:57:43 +0100
Subject: [PATCH 321/976] [NIXL] Generalize block-first backend layouts
 (FlashInfer-like) (#28282)

---
 .../kv_connector/unit/test_nixl_connector.py  | 17 ++++++-
 .../kv_connector/v1/nixl_connector.py         | 47 +++++++++++++++----
 2 files changed, 52 insertions(+), 12 deletions(-)

diff --git a/tests/v1/kv_connector/unit/test_nixl_connector.py b/tests/v1/kv_connector/unit/test_nixl_connector.py
index 475cf2285e394..8e421717fea30 100644
--- a/tests/v1/kv_connector/unit/test_nixl_connector.py
+++ b/tests/v1/kv_connector/unit/test_nixl_connector.py
@@ -1096,7 +1096,8 @@ def _run_abort_timeout_test(llm: LLM, timeout: int):
     llm.llm_engine.engine_core.shutdown()
 
 
-def test_register_kv_caches(dist_init):
+@pytest.mark.parametrize("attn_backend", ["FLASH_ATTN", "TRITON_ATTN"])
+def test_register_kv_caches(dist_init, attn_backend, monkeypatch):
     """
     Test that register_kv_caches() properly calls nixl_wrapper methods with
     correct data.
@@ -1108,10 +1109,22 @@ def test_register_kv_caches(dist_init):
        block layout info
     """
 
+    monkeypatch.setenv("VLLM_ATTENTION_BACKEND", attn_backend)
+
     vllm_config = create_vllm_config()
 
+    # Import the appropriate backend based on the parameter
+    if attn_backend == "FLASH_ATTN":
+        from vllm.v1.attention.backends.flash_attn import FlashAttentionBackend
+
+        backend_cls = FlashAttentionBackend
+    else:  # TRITON_ATTN
+        from vllm.v1.attention.backends.triton_attn import TritonAttentionBackend
+
+        backend_cls = TritonAttentionBackend
+
     # Create test kv cache tensors using proper backend shape
-    kv_cache_shape = FlashAttentionBackend.get_kv_cache_shape(
+    kv_cache_shape = backend_cls.get_kv_cache_shape(
         num_blocks=2, block_size=16, num_kv_heads=4, head_size=64
     )
     shared_tensor = torch.zeros(*kv_cache_shape, dtype=torch.float16)
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py b/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
index 6c20eee1ecbf9..375ea79d0e817 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
@@ -21,6 +21,7 @@ import torch
 import zmq
 
 from vllm import envs
+from vllm.attention import AttentionBackend
 from vllm.attention.backends.registry import AttentionBackendEnum
 from vllm.attention.selector import get_attn_backend
 from vllm.config import VllmConfig
@@ -669,6 +670,33 @@ class NixlConnectorWorker:
         remote_tp_size: dict[EngineId, int]
         is_mla: bool
         total_num_kv_heads: int
+        attn_backend: type[AttentionBackend]
+
+        def __post_init__(self):
+            # Figure out whether the first dimension of the cache is K/V
+            # or num_blocks. This is used to register the memory regions correctly.
+            kv_cache_shape = self.attn_backend.get_kv_cache_shape(
+                num_blocks=1, block_size=16, num_kv_heads=1, head_size=1
+            )
+            # Non-MLA backends caches have 5 dims [2, num_blocks, H,N,D],
+            # we just mock num_blocks to 1 for the dimension check below.
+            self._is_kv_layout_blocks_first = (
+                len(kv_cache_shape) == 5 and kv_cache_shape[0] == 1
+            )
+
+            attn_backend = AttentionBackendEnum[self.attn_backend.get_name()]
+            self._use_pallas = attn_backend == AttentionBackendEnum.PALLAS
+
+        @property
+        def is_kv_layout_blocks_first(self) -> bool:
+            return self._is_kv_layout_blocks_first
+
+        @property
+        def split_k_and_v(self) -> bool:
+            # Whether to register regions for K and V separately (when present).
+            return not (
+                self.is_mla or self._use_pallas or self.is_kv_layout_blocks_first
+            )
 
         def tp_ratio(
             self,
@@ -876,9 +904,6 @@ class NixlConnectorWorker:
             use_mla=self.use_mla,
         )
         self.backend_name = backend.get_name()
-        attn_backend = AttentionBackendEnum[self.backend_name]
-        self._use_flashinfer = attn_backend == AttentionBackendEnum.FLASHINFER
-        self._use_pallas = attn_backend == AttentionBackendEnum.PALLAS
         self.kv_cache_layout = get_kv_cache_layout()
         self.host_buffer_kv_cache_layout = self.kv_cache_layout
         logger.debug("Detected attention backend %s", self.backend_name)
@@ -896,7 +921,9 @@ class NixlConnectorWorker:
             remote_tp_size=self._tp_size,  # shared state
             is_mla=self.use_mla,
             total_num_kv_heads=self.model_config.get_total_num_kv_heads(),
+            attn_backend=backend,
         )
+        self._use_pallas = self.kv_topo._use_pallas
 
     def _nixl_handshake(
         self,
@@ -1076,7 +1103,7 @@ class NixlConnectorWorker:
         # (roughly 8KB vs 5KB).
         # Conversely for FlashInfer, K and V are registered in the same region
         # to better exploit the memory layout (ie num_blocks is the first dim).
-        split_k_and_v = not (self.use_mla or self._use_pallas or self._use_flashinfer)
+        split_k_and_v = self.kv_topo.split_k_and_v
         tensor_size_bytes = None
         # Enable different block lengths for different layers when MLA is used.
         self.block_len_per_layer = list[int]()
@@ -1141,7 +1168,7 @@ class NixlConnectorWorker:
 
         self.device_kv_caches = kv_caches
         self.dst_num_blocks[self.engine_id] = self.num_blocks
-        if self._use_flashinfer:
+        if self.kv_topo.is_kv_layout_blocks_first:
             for i in range(len(self.slot_size_per_layer)):
                 assert self.slot_size_per_layer[i] % 2 == 0
                 self.slot_size_per_layer[i] //= 2
@@ -1169,7 +1196,7 @@ class NixlConnectorWorker:
                 # (addr, len, device id)
                 blocks_data.append((addr, kv_block_len, self.device_id))
 
-            if self._use_flashinfer:
+            if self.kv_topo.is_kv_layout_blocks_first:
                 # Separate and interleave K/V regions to maintain the same
                 # descs ordering. This is needed for selecting contiguous heads
                 # when split across TP ranks.
@@ -1331,7 +1358,7 @@ class NixlConnectorWorker:
                 # (addr, len, device id)
                 blocks_data.append((addr, kv_block_len, nixl_agent_meta.device_id))
 
-            if self._use_flashinfer:
+            if self.kv_topo.is_kv_layout_blocks_first:
                 # With FlashInfer index V separately to allow head splitting.
                 for block_id in range(nixl_agent_meta.num_blocks):
                     block_offset = block_id * nixl_agent_meta.block_lens[i]
@@ -1414,7 +1441,7 @@ class NixlConnectorWorker:
             remote_block_size = remote_block_len // (
                 self.slot_size_per_layer[0] * tp_ratio
             )
-            if self._use_flashinfer:
+            if self.kv_topo.is_kv_layout_blocks_first:
                 # With flashinfer, KV are sent in the same message.
                 remote_block_size //= 2
 
@@ -1494,7 +1521,7 @@ class NixlConnectorWorker:
         - cache.index_copy_(0, indices, permuted_blocks) # copy permuted kv back
 
         """
-        split_k_and_v = not (self.use_mla or self._use_pallas or self._use_flashinfer)
+        split_k_and_v = self.kv_topo.split_k_and_v
         inv_order = [0, 2, 1, 3]
         sample_cache = list(self.device_kv_caches.values())[0][0]
         target_shape = list(sample_cache.shape)
@@ -1874,7 +1901,7 @@ class NixlConnectorWorker:
         For FlashInfer, this is half the length of the whole block, as K and V
         share the same region.
         """
-        if self._use_flashinfer:
+        if self.kv_topo.is_kv_layout_blocks_first:
             # For indexing only half (either just the K or V part).
             block_len = self.block_len_per_layer[layer_idx] // 2
         else:

From 68c09efc37e87032640cf8db571eaf486bd744ac Mon Sep 17 00:00:00 2001
From: zhrrr <43847754+izhuhaoran@users.noreply.github.com>
Date: Wed, 12 Nov 2025 01:00:31 +0800
Subject: [PATCH 322/976] [Kernel][Perf] fuse QK Norm and RoPE into one cuda
 kernel for Qwen Model (#27165)

Signed-off-by: zhuhaoran <zhuhaoran.zhr@alibaba-inc.com>
---
 .buildkite/test-pipeline.yaml                 |   1 +
 CMakeLists.txt                                |   1 +
 csrc/fused_qknorm_rope_kernel.cu              | 418 ++++++++++++++++++
 csrc/ops.h                                    |   6 +
 csrc/torch_bindings.cpp                       |  10 +
 csrc/type_convert.cuh                         |  60 ++-
 tests/compile/test_qk_norm_rope_fusion.py     | 195 ++++++++
 tests/kernels/core/test_fused_qk_norm_rope.py | 141 ++++++
 vllm/_custom_ops.py                           |  29 ++
 vllm/compilation/fix_functionalization.py     |  17 +
 vllm/compilation/fusion.py                    |   4 +
 vllm/compilation/matcher_utils.py             |  81 +++-
 vllm/compilation/pass_manager.py              |   4 +
 vllm/compilation/qk_norm_rope_fusion.py       | 238 ++++++++++
 vllm/config/compilation.py                    |  13 +
 .../layers/rotary_embedding/base.py           |  63 ++-
 16 files changed, 1243 insertions(+), 38 deletions(-)
 create mode 100644 csrc/fused_qknorm_rope_kernel.cu
 create mode 100644 tests/compile/test_qk_norm_rope_fusion.py
 create mode 100644 tests/kernels/core/test_fused_qk_norm_rope.py
 create mode 100644 vllm/compilation/qk_norm_rope_fusion.py

diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index 25f711dd60b37..8d2a7bc5a8029 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -451,6 +451,7 @@ steps:
     - pytest -v -s compile/test_decorator.py
     - pytest -v -s compile/test_noop_elimination.py
     - pytest -v -s compile/test_aot_compile.py
+    - pytest -v -s compile/test_qk_norm_rope_fusion.py
 
 - label: PyTorch Fullgraph Smoke Test # 15min
   timeout_in_minutes: 30
diff --git a/CMakeLists.txt b/CMakeLists.txt
index 0e9fa63b178ea..5cddf81a4b4aa 100644
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -265,6 +265,7 @@ set(VLLM_EXT_SRC
   "csrc/pos_encoding_kernels.cu"
   "csrc/activation_kernels.cu"
   "csrc/layernorm_kernels.cu"
+  "csrc/fused_qknorm_rope_kernel.cu"
   "csrc/layernorm_quant_kernels.cu"
   "csrc/sampler.cu"
   "csrc/cuda_view.cu"
diff --git a/csrc/fused_qknorm_rope_kernel.cu b/csrc/fused_qknorm_rope_kernel.cu
new file mode 100644
index 0000000000000..cbd23975a7739
--- /dev/null
+++ b/csrc/fused_qknorm_rope_kernel.cu
@@ -0,0 +1,418 @@
+/*
+ * Copyright (c) 2025, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Licensed under the Apache License, Version 2.0 (the "License");
+ * you may not use this file except in compliance with the License.
+ * You may obtain a copy of the License at
+ *
+ *     http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+#include <cmath>
+#include <cuda_runtime.h>
+#include <type_traits>
+
+#include <torch/cuda.h>
+#include <c10/cuda/CUDAGuard.h>
+
+#include "cuda_compat.h"
+#include "dispatch_utils.h"
+#include "type_convert.cuh"
+
+#define CHECK_TYPE(x, st)                                              \
+  TORCH_CHECK(x.scalar_type() == st, #x " dtype is ", x.scalar_type(), \
+              ", while ", st, " is expected")
+#define CHECK_TH_CUDA(x) TORCH_CHECK(x.is_cuda(), #x " must be a CUDA tensor")
+#define CHECK_CONTIGUOUS(x) \
+  TORCH_CHECK(x.is_contiguous(), #x " must be contiguous")
+#define CHECK_INPUT(x) \
+  CHECK_TH_CUDA(x);    \
+  CHECK_CONTIGUOUS(x)
+
+#define FINAL_MASK 0xffffffff
+
+// TODO: suport for AMD ROCM platform
+#ifndef USE_ROCM
+namespace tensorrt_llm::common {
+template <typename T, int num>
+struct packed_as;
+// Specialization for packed_as used in this kernel.
+template <>
+struct packed_as<uint, 1> {
+  using type = uint;
+};
+
+template <>
+struct packed_as<uint, 2> {
+  using type = uint2;
+};
+
+template <>
+struct packed_as<uint, 4> {
+  using type = uint4;
+};
+
+template <typename T>
+__inline__ __device__ T warpReduceSum(T val) {
+  #pragma unroll
+  for (int mask = 16; mask > 0; mask >>= 1)
+    val += __shfl_xor_sync(FINAL_MASK, val, mask, 32);
+  return val;
+}
+
+template <typename T>
+inline __device__ __host__ T divUp(T m, T n) {
+  return (m + n - 1) / n;
+}
+
+}  // namespace tensorrt_llm::common
+
+namespace tensorrt_llm::kernels {
+// NOTE(zhuhaoran): This kernel is adapted from TensorRT-LLM implementation,
+// with added support for passing the cos_sin_cache as an input.
+// https://github.com/NVIDIA/TensorRT-LLM/blob/main/cpp/tensorrt_llm/kernels/fusedQKNormRopeKernel.cu
+
+// Perform per-head QK Norm and RoPE in a single kernel.
+// scalar_t_in: data type of QKV and RMSNorm weights
+// scalar_t_cache: data type of cos/sin cache
+// head_dim: the dimension of each head
+// interleave: interleave=!is_neox.
+template <typename scalar_t_in, typename scalar_t_cache, int head_dim,
+          bool interleave>
+__global__ void fusedQKNormRopeKernel(
+    void* qkv_void,                  // Combined QKV tensor
+    int const num_heads_q,           // Number of query heads
+    int const num_heads_k,           // Number of key heads
+    int const num_heads_v,           // Number of value heads
+    float const eps,                 // Epsilon for RMS normalization
+    void const* q_weight_void,       // RMSNorm weights for query
+    void const* k_weight_void,       // RMSNorm weights for key
+    void const* cos_sin_cache_void,  // Pre-computed cos/sin cache
+    int64_t const* position_ids,     // Position IDs for RoPE
+    int const num_tokens             // Number of tokens
+) {
+  #if !defined(__CUDA_ARCH__) || __CUDA_ARCH__ < 800
+  if constexpr ((std::is_same_v<scalar_t_in, c10::BFloat16>) ||
+                std::is_same_v<scalar_t_cache, c10::BFloat16>) {
+    return;
+  } else {
+  #endif
+
+    using Converter = vllm::_typeConvert<scalar_t_in>;
+    static_assert(Converter::exists,
+                  "Input QKV data type is not supported for this CUDA "
+                  "architecture or toolkit version.");
+    using T_in = typename Converter::hip_type;
+    using T2_in = typename Converter::packed_hip_type;
+
+    using CacheConverter = vllm::_typeConvert<scalar_t_cache>;
+    static_assert(CacheConverter::exists,
+                  "Cache data type is not supported for this CUDA architecture "
+                  "or toolkit version.");
+    using T_cache = typename CacheConverter::hip_type;
+
+    T_in* qkv = reinterpret_cast<T_in*>(qkv_void);
+    T_in const* q_weight = reinterpret_cast<T_in const*>(q_weight_void);
+    T_in const* k_weight = reinterpret_cast<T_in const*>(k_weight_void);
+    T_cache const* cos_sin_cache =
+        reinterpret_cast<T_cache const*>(cos_sin_cache_void);
+
+    int const warpsPerBlock = blockDim.x / 32;
+    int const warpId = threadIdx.x / 32;
+    int const laneId = threadIdx.x % 32;
+
+    // Calculate global warp index to determine which head/token this warp
+    // processes
+    int const globalWarpIdx = blockIdx.x * warpsPerBlock + warpId;
+
+    // Total number of attention heads (Q and K)
+    int const total_qk_heads = num_heads_q + num_heads_k;
+
+    // Determine which token and head type (Q or K) this warp processes
+    int const tokenIdx = globalWarpIdx / total_qk_heads;
+    int const localHeadIdx = globalWarpIdx % total_qk_heads;
+
+    // Skip if this warp is assigned beyond the number of tokens
+    if (tokenIdx >= num_tokens) return;
+
+    bool const isQ = localHeadIdx < num_heads_q;
+    int const headIdx = isQ ? localHeadIdx : localHeadIdx - num_heads_q;
+
+    int const num_heads = num_heads_q + num_heads_k + num_heads_v;
+
+    static_assert(head_dim % (32 * 2) == 0,
+                  "head_dim must be divisible by 64 (each warp processes one "
+                  "head, and each thread gets even number of "
+                  "elements)");
+    constexpr int numElemsPerThread = head_dim / 32;
+    float elements[numElemsPerThread];
+    constexpr int elemSizeBytes = numElemsPerThread * sizeof(__nv_bfloat16);
+    static_assert(elemSizeBytes % 4 == 0,
+                  "numSizeBytes must be a multiple of 4");
+    constexpr int vecSize =
+        elemSizeBytes /
+        4;  // Use packed_as<uint, vecSize> to perform loading/saving.
+    using vec_T = typename tensorrt_llm::common::packed_as<uint, vecSize>::type;
+
+    int offsetWarp;  // Offset for the warp
+    if (isQ) {
+      // Q segment: token offset + head offset within Q segment
+      offsetWarp = tokenIdx * num_heads * head_dim + headIdx * head_dim;
+    } else {
+      // K segment: token offset + entire Q segment + head offset within K
+      // segment
+      offsetWarp = tokenIdx * num_heads * head_dim + num_heads_q * head_dim +
+                   headIdx * head_dim;
+    }
+    int offsetThread = offsetWarp + laneId * numElemsPerThread;
+
+    // Sum of squares for RMSNorm
+    float sumOfSquares = 0.0f;
+
+    // Load.
+    {
+      vec_T vec = *reinterpret_cast<vec_T const*>(&qkv[offsetThread]);
+      constexpr int num_packed_elems = elemSizeBytes / sizeof(T2_in);
+  #pragma unroll
+      for (int i = 0; i < num_packed_elems; i++) {
+        // Interpret the generic vector chunk as the specific packed type
+        T2_in packed_val = *(reinterpret_cast<T2_in*>(&vec) + i);
+        // Convert to float2 for computation
+        float2 vals = Converter::convert(packed_val);
+        sumOfSquares += vals.x * vals.x;
+        sumOfSquares += vals.y * vals.y;
+
+        elements[2 * i] = vals.x;
+        elements[2 * i + 1] = vals.y;
+      }
+    }
+
+    // Reduce sum across warp using the utility function
+    sumOfSquares = tensorrt_llm::common::warpReduceSum(sumOfSquares);
+
+    // Compute RMS normalization factor
+    float rms_rcp = rsqrtf(sumOfSquares / static_cast<float>(head_dim) + eps);
+
+    // Normalize elements
+  #pragma unroll
+    for (int i = 0; i < numElemsPerThread; i++) {
+      int dim = laneId * numElemsPerThread + i;
+      float weight = isQ ? Converter::convert(q_weight[dim])
+                         : Converter::convert(k_weight[dim]);
+      elements[i] *= rms_rcp * weight;
+    }
+
+    // Apply RoPE to normalized elements
+    float elements2[numElemsPerThread];  // Additional buffer required for RoPE.
+
+    int64_t pos_id = position_ids[tokenIdx];
+
+    // Calculate cache pointer for this position - similar to
+    // pos_encoding_kernels.cu
+    T_cache const* cache_ptr = cos_sin_cache + pos_id * head_dim;
+    int const embed_dim = head_dim / 2;
+    T_cache const* cos_ptr = cache_ptr;
+    T_cache const* sin_ptr = cache_ptr + embed_dim;
+
+    if constexpr (interleave) {
+      // Perform interleaving. Use pre-computed cos/sin values.
+  #pragma unroll
+      for (int i = 0; i < numElemsPerThread / 2; ++i) {
+        int const idx0 = 2 * i;
+        int const idx1 = 2 * i + 1;
+
+        float const val0 = elements[idx0];
+        float const val1 = elements[idx1];
+
+        int const dim_idx = laneId * numElemsPerThread + idx0;
+        int const half_dim = dim_idx / 2;
+        float const cos_val =
+            CacheConverter::convert(VLLM_LDG(cos_ptr + half_dim));
+        float const sin_val =
+            CacheConverter::convert(VLLM_LDG(sin_ptr + half_dim));
+
+        elements[idx0] = val0 * cos_val - val1 * sin_val;
+        elements[idx1] = val0 * sin_val + val1 * cos_val;
+      }
+    } else {
+      // Before data exchange with in warp, we need to sync.
+      __syncwarp();
+      // Get the data from the other half of the warp. Use pre-computed cos/sin
+      // values.
+  #pragma unroll
+      for (int i = 0; i < numElemsPerThread; i++) {
+        elements2[i] = __shfl_xor_sync(0xffffffff, elements[i], 16);
+        if (laneId < 16) {
+          elements2[i] = -elements2[i];
+        }
+
+        int dim_idx = laneId * numElemsPerThread + i;
+        dim_idx = (dim_idx * 2) % head_dim;
+        int half_dim = dim_idx / 2;
+        // Use pre-computed cos/sin from cache
+        float cos_val = CacheConverter::convert(VLLM_LDG(cos_ptr + half_dim));
+        float sin_val = CacheConverter::convert(VLLM_LDG(sin_ptr + half_dim));
+
+        elements[i] = elements[i] * cos_val + elements2[i] * sin_val;
+      }
+      // __shfl_xor_sync does not provide memfence. Need to sync again.
+      __syncwarp();
+    }
+
+    // Store.
+    {
+      vec_T vec;
+      constexpr int num_packed_elems = elemSizeBytes / sizeof(T2_in);
+  #pragma unroll
+      for (int i = 0; i < num_packed_elems; i++) {
+        // Convert from float2 back to the specific packed type
+        T2_in packed_val = Converter::convert(
+            make_float2(elements[2 * i], elements[2 * i + 1]));
+        // Place it into the generic vector
+        *(reinterpret_cast<T2_in*>(&vec) + i) = packed_val;
+      }
+      *reinterpret_cast<vec_T*>(&qkv[offsetThread]) = vec;
+    }
+
+  #if !defined(__CUDA_ARCH__) || __CUDA_ARCH__ < 800
+  }
+  #endif
+}
+
+  // Borrowed from
+  // https://github.com/flashinfer-ai/flashinfer/blob/8125d079a43e9a0ba463a4ed1b639cefd084cec9/include/flashinfer/pos_enc.cuh#L568
+  #define DISPATCH_INTERLEAVE(interleave, INTERLEAVE, ...) \
+    if (interleave) {                                      \
+      const bool INTERLEAVE = true;                        \
+      __VA_ARGS__                                          \
+    } else {                                               \
+      const bool INTERLEAVE = false;                       \
+      __VA_ARGS__                                          \
+    }
+
+template <typename scalar_t_in, typename scalar_t_cache>
+void launchFusedQKNormRope(void* qkv, int const num_tokens,
+                           int const num_heads_q, int const num_heads_k,
+                           int const num_heads_v, int const head_dim,
+                           float const eps, void const* q_weight,
+                           void const* k_weight, void const* cos_sin_cache,
+                           bool const interleave, int64_t const* position_ids,
+                           cudaStream_t stream) {
+  constexpr int blockSize = 256;
+
+  int const warpsPerBlock = blockSize / 32;
+  int const totalQKHeads = num_heads_q + num_heads_k;
+  int const totalWarps = num_tokens * totalQKHeads;
+
+  int const gridSize = common::divUp(totalWarps, warpsPerBlock);
+  dim3 gridDim(gridSize);
+  dim3 blockDim(blockSize);
+
+  switch (head_dim) {
+    case 64:
+      DISPATCH_INTERLEAVE(interleave, INTERLEAVE, {
+        fusedQKNormRopeKernel<scalar_t_in, scalar_t_cache, 64, INTERLEAVE>
+            <<<gridDim, blockDim, 0, stream>>>(
+                qkv, num_heads_q, num_heads_k, num_heads_v, eps, q_weight,
+                k_weight, cos_sin_cache, position_ids, num_tokens);
+      });
+      break;
+    case 128:
+      DISPATCH_INTERLEAVE(interleave, INTERLEAVE, {
+        fusedQKNormRopeKernel<scalar_t_in, scalar_t_cache, 128, INTERLEAVE>
+            <<<gridDim, blockDim, 0, stream>>>(
+                qkv, num_heads_q, num_heads_k, num_heads_v, eps, q_weight,
+                k_weight, cos_sin_cache, position_ids, num_tokens);
+      });
+      break;
+    case 256:
+      DISPATCH_INTERLEAVE(interleave, INTERLEAVE, {
+        fusedQKNormRopeKernel<scalar_t_in, scalar_t_cache, 256, INTERLEAVE>
+            <<<gridDim, blockDim, 0, stream>>>(
+                qkv, num_heads_q, num_heads_k, num_heads_v, eps, q_weight,
+                k_weight, cos_sin_cache, position_ids, num_tokens);
+      });
+      break;
+    default:
+      TORCH_CHECK(false,
+                  "Unsupported head dimension for fusedQKNormRope: ", head_dim);
+  }
+}
+}  // namespace tensorrt_llm::kernels
+
+void fused_qk_norm_rope(
+    torch::Tensor& qkv,       // Combined QKV tensor [num_tokens,
+                              // (num_heads_q+num_heads_k+num_heads_v)*head_dim]
+    int64_t num_heads_q,      // Number of query heads
+    int64_t num_heads_k,      // Number of key heads
+    int64_t num_heads_v,      // Number of value heads
+    int64_t head_dim,         // Dimension per head
+    double eps,               // Epsilon for RMS normalization
+    torch::Tensor& q_weight,  // RMSNorm weights for query [head_dim]
+    torch::Tensor& k_weight,  // RMSNorm weights for key [head_dim]
+    torch::Tensor& cos_sin_cache,  // Cos/sin cache [max_position, head_dim]
+    bool is_neox,                  // Whether RoPE is applied in Neox style
+    torch::Tensor& position_ids    // Position IDs for RoPE [num_tokens]
+) {
+  // Input validation
+  CHECK_INPUT(qkv);
+  CHECK_INPUT(position_ids);
+  CHECK_INPUT(q_weight);
+  CHECK_INPUT(k_weight);
+  CHECK_INPUT(cos_sin_cache);
+  CHECK_TYPE(position_ids, torch::kInt64);
+
+  TORCH_CHECK(qkv.dim() == 2,
+              "QKV tensor must be 2D: [num_tokens, "
+              "(num_heads_q+num_heads_k+num_heads_v)*head_dim]");
+  TORCH_CHECK(position_ids.dim() == 1, "Position IDs must be 1D: [num_tokens]");
+  TORCH_CHECK(q_weight.dim() == 1, "Query weights must be 1D: [head_dim]");
+  TORCH_CHECK(k_weight.dim() == 1, "Key weights must be 1D: [head_dim]");
+  TORCH_CHECK(cos_sin_cache.dim() == 2,
+              "Cos/sin cache must be 2D: [max_position, head_dim]");
+  TORCH_CHECK(q_weight.size(0) == head_dim,
+              "Query weights size must match head dimension");
+  TORCH_CHECK(k_weight.size(0) == head_dim,
+              "Key weights size must match head dimension");
+  TORCH_CHECK(cos_sin_cache.size(1) == head_dim,
+              "Cos/sin cache dimension must match head_dim");
+  TORCH_CHECK(qkv.scalar_type() == q_weight.scalar_type() &&
+                  qkv.scalar_type() == k_weight.scalar_type(),
+              "qkv, q_weight and k_weight must have the same dtype");
+
+  int64_t num_tokens = qkv.size(0);
+  TORCH_CHECK(position_ids.size(0) == num_tokens,
+              "Number of tokens in position_ids must match QKV");
+
+  int64_t total_heads = num_heads_q + num_heads_k + num_heads_v;
+  TORCH_CHECK(
+      qkv.size(1) == total_heads * head_dim,
+      "QKV tensor size must match total number of heads and head dimension");
+
+  auto stream = at::cuda::getCurrentCUDAStream(qkv.get_device());
+
+  VLLM_DISPATCH_HALF_TYPES(qkv.scalar_type(), "fused_qk_norm_rope_kernel", [&] {
+    using qkv_scalar_t = scalar_t;
+    VLLM_DISPATCH_FLOATING_TYPES(
+        cos_sin_cache.scalar_type(), "fused_qk_norm_rope_kernel", [&] {
+          using cache_scalar_t = scalar_t;
+          tensorrt_llm::kernels::launchFusedQKNormRope<qkv_scalar_t,
+                                                       cache_scalar_t>(
+              qkv.data_ptr(), static_cast<int>(num_tokens),
+              static_cast<int>(num_heads_q), static_cast<int>(num_heads_k),
+              static_cast<int>(num_heads_v), static_cast<int>(head_dim),
+              static_cast<float>(eps), q_weight.data_ptr(), k_weight.data_ptr(),
+              cos_sin_cache.data_ptr(), !is_neox,
+              reinterpret_cast<int64_t const*>(position_ids.data_ptr()),
+              stream);
+        });
+  });
+}
+
+#endif  // not USE_ROCM
\ No newline at end of file
diff --git a/csrc/ops.h b/csrc/ops.h
index 3f5cb799b774c..f8bdc61aaa8ec 100644
--- a/csrc/ops.h
+++ b/csrc/ops.h
@@ -92,6 +92,12 @@ void rms_norm(torch::Tensor& out, torch::Tensor& input, torch::Tensor& weight,
 void fused_add_rms_norm(torch::Tensor& input, torch::Tensor& residual,
                         torch::Tensor& weight, double epsilon);
 
+void fused_qk_norm_rope(torch::Tensor& qkv, int64_t num_heads_q,
+                        int64_t num_heads_k, int64_t num_heads_v,
+                        int64_t head_dim, double eps, torch::Tensor& q_weight,
+                        torch::Tensor& k_weight, torch::Tensor& cos_sin_cache,
+                        bool is_neox, torch::Tensor& position_ids);
+
 void apply_repetition_penalties_(torch::Tensor& logits,
                                  const torch::Tensor& prompt_mask,
                                  const torch::Tensor& output_mask,
diff --git a/csrc/torch_bindings.cpp b/csrc/torch_bindings.cpp
index 9c0f524dcab11..d4a69cbe7971d 100644
--- a/csrc/torch_bindings.cpp
+++ b/csrc/torch_bindings.cpp
@@ -175,6 +175,16 @@ TORCH_LIBRARY_EXPAND(TORCH_EXTENSION_NAME, ops) {
       "float epsilon) -> ()");
   ops.impl("fused_add_rms_norm", torch::kCUDA, &fused_add_rms_norm);
 
+#ifndef USE_ROCM
+  // Function for fused QK Norm and RoPE
+  ops.def(
+      "fused_qk_norm_rope(Tensor! qkv, int num_heads_q, "
+      "int num_heads_k, int num_heads_v, int head_dim, float eps, "
+      "Tensor q_weight, Tensor k_weight, Tensor cos_sin_cache, "
+      "bool is_neox, Tensor position_ids) -> ()");
+  ops.impl("fused_qk_norm_rope", torch::kCUDA, &fused_qk_norm_rope);
+#endif
+
   // Apply repetition penalties to logits in-place
   ops.def(
       "apply_repetition_penalties_(Tensor! logits, Tensor prompt_mask, "
diff --git a/csrc/type_convert.cuh b/csrc/type_convert.cuh
index 21b9d0ae515df..6da06f1e66cf5 100644
--- a/csrc/type_convert.cuh
+++ b/csrc/type_convert.cuh
@@ -29,6 +29,22 @@ struct _typeConvert {
   static constexpr bool exists = false;
 };
 
+template <>
+struct _typeConvert<float> {
+  static constexpr bool exists = true;
+  using hip_type = float;
+  using packed_hip_type = float2;
+  using packed_hip_type4 = float4;  // For 128-bit vectorization
+
+  __device__ static __forceinline__ float convert(hip_type x) { return x; }
+  __device__ static __forceinline__ float2 convert(packed_hip_type x) {
+    return x;
+  }
+  __device__ static __forceinline__ float4 convert(packed_hip_type4 x) {
+    return x;
+  }
+};
+
 #if defined(USE_ROCM) || (defined(CUDA_VERSION) && (CUDA_VERSION >= 12000))
 // CUDA < 12.0 runs into issues with packed type conversion
 template <>
@@ -37,14 +53,16 @@ struct _typeConvert<c10::Half> {
   using hip_type = __half;
   using packed_hip_type = __half2;
 
-  __device__ static inline float convert(hip_type x) { return __half2float(x); }
-  __device__ static inline float2 convert(packed_hip_type x) {
+  __device__ static __forceinline__ float convert(hip_type x) {
+    return __half2float(x);
+  }
+  __device__ static __forceinline__ float2 convert(packed_hip_type x) {
     return __half22float2(x);
   }
-  __device__ static inline hip_type convert(float x) {
+  __device__ static __forceinline__ hip_type convert(float x) {
     return __float2half_rn(x);
   }
-  __device__ static inline packed_hip_type convert(float2 x) {
+  __device__ static __forceinline__ packed_hip_type convert(float2 x) {
     return __float22half2_rn(x);
   }
 };
@@ -58,16 +76,16 @@ struct _typeConvert<c10::BFloat16> {
   using hip_type = __nv_bfloat16;
   using packed_hip_type = __nv_bfloat162;
 
-  __device__ static inline float convert(hip_type x) {
+  __device__ static __forceinline__ float convert(hip_type x) {
     return __bfloat162float(x);
   }
-  __device__ static inline float2 convert(packed_hip_type x) {
+  __device__ static __forceinline__ float2 convert(packed_hip_type x) {
     return __bfloat1622float2(x);
   }
-  __device__ static inline hip_type convert(float x) {
+  __device__ static __forceinline__ hip_type convert(float x) {
     return __float2bfloat16(x);
   }
-  __device__ static inline packed_hip_type convert(float2 x) {
+  __device__ static __forceinline__ packed_hip_type convert(float2 x) {
     return __float22bfloat162_rn(x);
   }
 };
@@ -95,10 +113,15 @@ struct alignas(16) _f16Vec {
     if constexpr (width % 2 == 0) {
 #pragma unroll
       for (int i = 0; i < width; i += 2) {
-        T2 temp{data[i], data[i + 1]};
-        temp += T2{other.data[i], other.data[i + 1]};
-        data[i] = temp.x;
-        data[i + 1] = temp.y;
+        if constexpr (std::is_same_v<T2, float2>) {
+          data[i] += other.data[i];
+          data[i + 1] += other.data[i + 1];
+        } else {
+          T2 temp{data[i], data[i + 1]};
+          temp += T2{other.data[i], other.data[i + 1]};
+          data[i] = temp.x;
+          data[i + 1] = temp.y;
+        }
       }
     } else {
 #pragma unroll
@@ -111,10 +134,15 @@ struct alignas(16) _f16Vec {
     if constexpr (width % 2 == 0) {
 #pragma unroll
       for (int i = 0; i < width; i += 2) {
-        T2 temp{data[i], data[i + 1]};
-        temp *= T2{other.data[i], other.data[i + 1]};
-        data[i] = temp.x;
-        data[i + 1] = temp.y;
+        if constexpr (std::is_same_v<T2, float2>) {
+          data[i] *= other.data[i];
+          data[i + 1] *= other.data[i + 1];
+        } else {
+          T2 temp{data[i], data[i + 1]};
+          temp *= T2{other.data[i], other.data[i + 1]};
+          data[i] = temp.x;
+          data[i + 1] = temp.y;
+        }
       }
     } else {
 #pragma unroll
diff --git a/tests/compile/test_qk_norm_rope_fusion.py b/tests/compile/test_qk_norm_rope_fusion.py
new file mode 100644
index 0000000000000..973123a3af920
--- /dev/null
+++ b/tests/compile/test_qk_norm_rope_fusion.py
@@ -0,0 +1,195 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import pytest
+import torch
+
+from tests.compile.backend import TestBackend
+from vllm.attention import Attention, AttentionType
+from vllm.compilation.matcher_utils import FLASHINFER_ROTARY_OP, RMS_OP, ROTARY_OP
+from vllm.compilation.noop_elimination import NoOpEliminationPass
+from vllm.compilation.post_cleanup import PostCleanupPass
+from vllm.compilation.qk_norm_rope_fusion import (
+    FUSED_QK_ROPE_OP,
+    QKNormRoPEFusionPass,
+)
+from vllm.config import (
+    CompilationConfig,
+    CompilationMode,
+    ModelConfig,
+    PassConfig,
+    VllmConfig,
+    set_current_vllm_config,
+)
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.rotary_embedding import RotaryEmbedding
+from vllm.platforms import current_platform
+
+RSQRT_OP = torch.ops.aten.rsqrt.default
+INDEX_SELECT_OP = torch.ops.aten.index.Tensor
+
+
+class QKNormRoPETestModel(torch.nn.Module):
+    def __init__(
+        self,
+        *,
+        num_heads: int,
+        num_kv_heads: int,
+        head_dim: int,
+        eps: float,
+        is_neox: bool,
+        vllm_config: VllmConfig,
+        dtype: torch.dtype,
+        prefix: str = "model.layers.0.self_attn.attn",
+    ) -> None:
+        super().__init__()
+        self.num_heads = num_heads
+        self.num_kv_heads = num_kv_heads
+        self.head_dim = head_dim
+        self.q_size = num_heads * head_dim
+        self.kv_size = num_kv_heads * head_dim
+        self.rotary_dim = head_dim
+        self.eps = eps
+        self.dtype = dtype
+
+        # Register layer metadata for the fusion pass via Attention.
+        self.attn = Attention(
+            num_heads=self.num_heads,
+            head_size=self.head_dim,
+            scale=1.0 / self.head_dim**0.5,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=vllm_config.cache_config,
+            prefix=prefix,
+            attn_type=AttentionType.DECODER,
+        )
+
+        self.q_norm = RMSNorm(self.head_dim, eps=self.eps)
+        self.k_norm = RMSNorm(self.head_dim, eps=self.eps)
+        self.rotary_emb = RotaryEmbedding(
+            self.head_dim,
+            rotary_dim=self.rotary_dim,
+            max_position_embeddings=4096,
+            base=10000,
+            is_neox_style=is_neox,
+            dtype=self.dtype,
+        )
+        self.enable_rms_norm_custom_op = self.q_norm.enabled()
+        self.enable_rope_custom_op = self.rotary_emb.enabled()
+
+    def forward(self, qkv: torch.Tensor, positions: torch.Tensor):
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+        q_by_head = q.view(*q.shape[:-1], q.shape[-1] // self.head_dim, self.head_dim)
+        q_by_head = self.q_norm(q_by_head)
+        q = q_by_head.view(q.shape)
+        k_by_head = k.view(*k.shape[:-1], k.shape[-1] // self.head_dim, self.head_dim)
+        k_by_head = self.k_norm(k_by_head)
+        k = k_by_head.view(k.shape)
+        q, k = self.rotary_emb(positions, q, k)
+        return q, k, v
+
+    def ops_in_model_before(self) -> list[torch._ops.OpOverload]:
+        ops = []
+        if self.enable_rms_norm_custom_op:
+            ops.append(RMS_OP)
+        else:
+            ops.append(RSQRT_OP)
+
+        if self.enable_rope_custom_op:
+            if self.rotary_emb.use_flashinfer:
+                ops.append(FLASHINFER_ROTARY_OP)
+            else:
+                ops.append(ROTARY_OP)
+        else:
+            ops.append(INDEX_SELECT_OP)
+        return ops
+
+    def ops_in_model_after(self) -> list[torch._ops.OpOverload]:
+        return [FUSED_QK_ROPE_OP]
+
+
+@pytest.mark.parametrize("eps", [1e-5, 1e-6])
+@pytest.mark.parametrize("is_neox", [True, False])
+@pytest.mark.parametrize("enable_rms_norm_custom_op", [True, False])
+@pytest.mark.parametrize("enable_rope_custom_op", [True])
+@pytest.mark.parametrize("dtype", [torch.bfloat16, torch.float16])
+@pytest.mark.skipif(
+    not current_platform.is_cuda(),
+    reason="Only test on cuda platform",
+)
+def test_qk_norm_rope_fusion(
+    eps, is_neox, enable_rms_norm_custom_op, enable_rope_custom_op, dtype
+):
+    if not hasattr(torch.ops._C, "fused_qk_norm_rope"):
+        pytest.skip("fused_qk_norm_rope custom op not available")
+
+    torch.set_default_device("cuda")
+    torch.set_default_dtype(dtype)
+    torch.manual_seed(0)
+
+    custom_ops: list[str] = []
+    if enable_rms_norm_custom_op:
+        custom_ops.append("+rms_norm")
+    if enable_rope_custom_op:
+        custom_ops.append("+rotary_embedding")
+
+    vllm_config = VllmConfig(
+        model_config=ModelConfig(dtype=dtype),
+        compilation_config=CompilationConfig(
+            mode=CompilationMode.VLLM_COMPILE,
+            custom_ops=custom_ops,
+            pass_config=PassConfig(
+                enable_qk_norm_rope_fusion=True,
+                enable_noop=True,
+            ),
+        ),
+    )
+
+    num_heads, num_kv_heads, head_dim = 16, 4, 128
+    T = 5
+
+    with set_current_vllm_config(vllm_config):
+        model = QKNormRoPETestModel(
+            num_heads=num_heads,
+            num_kv_heads=num_kv_heads,
+            head_dim=head_dim,
+            eps=eps,
+            is_neox=is_neox,
+            vllm_config=vllm_config,
+            dtype=dtype,
+        )
+
+        noop_pass = NoOpEliminationPass(vllm_config)
+        fusion_pass = QKNormRoPEFusionPass(vllm_config)
+        cleanup_pass = PostCleanupPass(vllm_config)
+
+        backend = TestBackend(noop_pass, fusion_pass, cleanup_pass)
+        backend_baseline = TestBackend(noop_pass, cleanup_pass)
+
+        qkv = torch.randn(T, model.q_size + 2 * model.kv_size)
+        pos = torch.arange(T, dtype=torch.long, device=qkv.device)
+        qkv_unfused = qkv.clone()
+        pos_unfused = pos.clone()
+
+        torch._dynamo.mark_dynamic(qkv, 0)
+        torch._dynamo.mark_dynamic(pos, 0)
+        model_fused = torch.compile(model, backend=backend)
+        q_fused, k_fused, v_fused = model_fused(qkv, pos)
+
+        torch._dynamo.mark_dynamic(qkv_unfused, 0)
+        torch._dynamo.mark_dynamic(pos_unfused, 0)
+        model_unfused = torch.compile(model, backend=backend_baseline)
+        q_unfused, k_unfused, v_unfused = model_unfused(qkv_unfused, pos_unfused)
+
+        if dtype == torch.float16:
+            ATOL, RTOL = (2e-3, 2e-3)
+        else:
+            ATOL, RTOL = (1e-2, 1e-2)
+
+        torch.testing.assert_close(q_unfused, q_fused, atol=ATOL, rtol=RTOL)
+        torch.testing.assert_close(k_unfused, k_fused, atol=ATOL, rtol=RTOL)
+        torch.testing.assert_close(v_unfused, v_fused, atol=ATOL, rtol=RTOL)
+
+        assert fusion_pass.matched_count == 1
+
+        backend.check_before_ops(model.ops_in_model_before())
+        backend.check_after_ops(model.ops_in_model_after())
diff --git a/tests/kernels/core/test_fused_qk_norm_rope.py b/tests/kernels/core/test_fused_qk_norm_rope.py
new file mode 100644
index 0000000000000..88bb7691ec3bc
--- /dev/null
+++ b/tests/kernels/core/test_fused_qk_norm_rope.py
@@ -0,0 +1,141 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import pytest
+import torch
+
+from tests.kernels.utils import opcheck
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.rotary_embedding import RotaryEmbedding
+from vllm.platforms import current_platform
+
+DTYPES = [torch.bfloat16, torch.float16]
+IS_NEOX = [True, False]
+EPS_VALUES = [1e-5, 1e-6]
+SEEDS = [13]
+CUDA_DEVICES = ["cuda:0"]
+
+
+def _apply_qk_norm_rope(
+    qkv: torch.Tensor,
+    positions: torch.Tensor,
+    q_norm: RMSNorm,
+    k_norm: RMSNorm,
+    rope: RotaryEmbedding,
+    num_heads_q: int,
+    num_heads_kv: int,
+    head_dim: int,
+) -> torch.Tensor:
+    q_size = num_heads_q * head_dim
+    kv_size = num_heads_kv * head_dim
+
+    q, k, v = qkv.split([q_size, kv_size, kv_size], dim=-1)
+
+    q_by_head = q.view(*q.shape[:-1], q.shape[-1] // head_dim, head_dim)
+    q_by_head = q_norm.forward_native(q_by_head)
+    q = q_by_head.view(q.shape)
+
+    k_by_head = k.view(*k.shape[:-1], k.shape[-1] // head_dim, head_dim)
+    k_by_head = k_norm.forward_native(k_by_head)
+    k = k_by_head.view(k.shape)
+
+    q, k = rope.forward_native(positions, q, k)
+    return torch.cat([q, k, v], dim=-1)
+
+
+@pytest.mark.skipif(
+    not current_platform.is_cuda(),
+    reason="fused_qk_norm_rope custom op requires cuda platform",
+)
+@pytest.mark.parametrize("device", CUDA_DEVICES)
+@pytest.mark.parametrize("dtype", DTYPES)
+@pytest.mark.parametrize("is_neox", IS_NEOX)
+@pytest.mark.parametrize("eps", EPS_VALUES)
+@pytest.mark.parametrize("seed", SEEDS)
+@torch.inference_mode()
+def test_fused_qk_norm_rope_matches_reference(
+    device: str,
+    dtype: torch.dtype,
+    is_neox: bool,
+    eps: float,
+    seed: int,
+):
+    torch.set_default_device(device)
+    current_platform.seed_everything(seed)
+    num_heads, num_kv_heads, head_dim = 16, 4, 128
+    num_tokens = 4
+
+    total_dim = (num_heads + 2 * num_kv_heads) * head_dim
+    qkv_base = torch.randn(num_tokens, total_dim, dtype=dtype, device=device)
+    qkv_fused = qkv_base.clone()
+    positions = torch.arange(num_tokens, dtype=torch.long, device=device)
+
+    q_norm = RMSNorm(head_dim, eps=eps).to(device=device, dtype=dtype)
+    k_norm = RMSNorm(head_dim, eps=eps).to(device=device, dtype=dtype)
+    q_norm.weight.data.normal_(mean=1.0, std=0.1)
+    k_norm.weight.data.normal_(mean=1.0, std=0.1)
+    q_weight = q_norm.weight.data
+    k_weight = k_norm.weight.data
+
+    rope = RotaryEmbedding(
+        head_size=head_dim,
+        rotary_dim=head_dim,
+        max_position_embeddings=4096,
+        base=10000.0,
+        is_neox_style=is_neox,
+        dtype=dtype,
+    ).to(device)
+
+    ref_result = _apply_qk_norm_rope(
+        qkv=qkv_base,
+        positions=positions,
+        q_norm=q_norm,
+        k_norm=k_norm,
+        rope=rope,
+        num_heads_q=num_heads,
+        num_heads_kv=num_kv_heads,
+        head_dim=head_dim,
+    )
+
+    opcheck(
+        torch.ops._C.fused_qk_norm_rope,
+        (
+            qkv_fused.clone(),
+            num_heads,
+            num_kv_heads,
+            num_kv_heads,
+            head_dim,
+            eps,
+            q_weight,
+            k_weight,
+            rope.cos_sin_cache,
+            is_neox,
+            positions.view(-1),
+        ),
+    )
+
+    torch.ops._C.fused_qk_norm_rope(
+        qkv_fused,
+        num_heads,
+        num_kv_heads,
+        num_kv_heads,
+        head_dim,
+        eps,
+        q_weight,
+        k_weight,
+        rope.cos_sin_cache,
+        is_neox,
+        positions.view(-1),
+    )
+
+    if dtype == torch.float16:
+        ATOL, RTOL = (2e-3, 2e-3)
+    else:
+        ATOL, RTOL = (1e-2, 1e-2)
+
+    torch.testing.assert_close(
+        qkv_fused,
+        ref_result,
+        atol=ATOL,
+        rtol=RTOL,
+    )
diff --git a/vllm/_custom_ops.py b/vllm/_custom_ops.py
index 36aab503dee70..136a3193efb5e 100644
--- a/vllm/_custom_ops.py
+++ b/vllm/_custom_ops.py
@@ -329,6 +329,7 @@ def rms_norm(
     out: torch.Tensor, input: torch.Tensor, weight: torch.Tensor, epsilon: float
 ) -> None:
     # TODO: Remove this contiguous call when the kernel is updated to support non-contiguous input
+    # If removed, also need to remove contiguous in MatcherRMSNorm
     input_contiguous = input.contiguous()
     torch.ops._C.rms_norm(out, input_contiguous, weight, epsilon)
 
@@ -339,6 +340,34 @@ def fused_add_rms_norm(
     torch.ops._C.fused_add_rms_norm(input, residual, weight, epsilon)
 
 
+def fused_qk_norm_rope(
+    qkv: torch.Tensor,
+    num_heads_q: int,
+    num_heads_k: int,
+    num_heads_v: int,
+    head_dim: int,
+    eps: float,
+    q_weight: torch.Tensor,
+    k_weight: torch.Tensor,
+    cos_sin_cache: torch.Tensor,
+    is_neox: bool,
+    position_ids: torch.Tensor,
+) -> None:
+    torch.ops._C.fused_qk_norm_rope(
+        qkv,
+        num_heads_q,
+        num_heads_k,
+        num_heads_v,
+        head_dim,
+        eps,
+        q_weight,
+        k_weight,
+        cos_sin_cache,
+        is_neox,
+        position_ids,
+    )
+
+
 def apply_repetition_penalties_torch(
     logits: torch.Tensor,
     prompt_mask: torch.Tensor,
diff --git a/vllm/compilation/fix_functionalization.py b/vllm/compilation/fix_functionalization.py
index 29462d9ff0e50..126ad35e527ae 100644
--- a/vllm/compilation/fix_functionalization.py
+++ b/vllm/compilation/fix_functionalization.py
@@ -132,6 +132,23 @@ class FixFunctionalizationPass(VllmInductorPass):
                         "input_global_scale",
                     ),
                 )
+            # Defunctionalize fused_qk_norm_rope to remove higher-order wrapper.
+            elif at_target == torch.ops._C.fused_qk_norm_rope.default:
+                mutated_args = {1: "qkv"}
+                args = (
+                    "qkv",
+                    "num_heads_q",
+                    "num_heads_k",
+                    "num_heads_v",
+                    "head_dim",
+                    "eps",
+                    "q_weight",
+                    "k_weight",
+                    "cos_sin_cache",
+                    "is_neox",
+                    "position_ids",
+                )
+                self.defunctionalize(graph, node, mutated_args=mutated_args, args=args)
             else:
                 continue  # skip the count
 
diff --git a/vllm/compilation/fusion.py b/vllm/compilation/fusion.py
index 8f0ad2d69fbec..1d6e297b495eb 100644
--- a/vllm/compilation/fusion.py
+++ b/vllm/compilation/fusion.py
@@ -44,6 +44,10 @@ def empty_i32(*args, **kwargs):
     return torch.empty(*args, **kwargs, dtype=torch.int32, device="cuda")
 
 
+def empty_i64(*args, **kwargs):
+    return torch.empty(*args, **kwargs, dtype=torch.int64, device="cuda")
+
+
 RMS_OP = torch.ops._C.rms_norm.default
 RMS_ADD_OP = torch.ops._C.fused_add_rms_norm.default
 
diff --git a/vllm/compilation/matcher_utils.py b/vllm/compilation/matcher_utils.py
index 383fe6033a6df..38eb4e5301a18 100644
--- a/vllm/compilation/matcher_utils.py
+++ b/vllm/compilation/matcher_utils.py
@@ -18,10 +18,13 @@ from vllm.model_executor.layers.quantization.utils.quant_utils import (
     kFp8StaticTensorSym,
     kNvfp4Quant,
 )
+from vllm.model_executor.layers.rotary_embedding import RotaryEmbedding
 from vllm.platforms import current_platform
 
 RMS_OP = torch.ops._C.rms_norm.default
 RMS_ADD_OP = torch.ops._C.fused_add_rms_norm.default
+ROTARY_OP = torch.ops._C.rotary_embedding.default
+FLASHINFER_ROTARY_OP = torch.ops.vllm.flashinfer_rotary_embedding.default
 
 QUANT_OPS: dict[QuantKey, OpOverload] = {
     kFp8StaticTensorSym: torch.ops._C.static_scaled_fp8_quant.default,  # noqa: E501
@@ -58,6 +61,9 @@ class MatcherCustomOp(ABC):
     def empty(self, *args, **kws):
         return torch.empty(*args, dtype=self.model_dtype, device=self.device, **kws)
 
+    def empty_int64(self, *args, **kws):
+        return torch.empty(*args, dtype=torch.int64, device=self.device, **kws)
+
     def empty_f32(self, *args, **kws):
         return torch.empty(*args, dtype=torch.float32, device=self.device, **kws)
 
@@ -66,6 +72,77 @@ class MatcherCustomOp(ABC):
         raise NotImplementedError
 
 
+class MatcherRotaryEmbedding(MatcherCustomOp):
+    def __init__(
+        self,
+        is_neox: bool,
+        head_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        use_flashinfer: bool = False,
+        enabled: bool | None = None,
+    ) -> None:
+        if enabled is None:
+            enabled = RotaryEmbedding.enabled()
+
+        super().__init__(enabled)
+        self.is_neox = is_neox
+        self.head_size = head_size
+        self.num_heads = num_heads
+        self.num_kv_heads = num_kv_heads
+        self.q_size = self.num_heads * self.head_size
+        self.kv_size = self.num_kv_heads * self.head_size
+        self.rotary_dim = head_size
+        if use_flashinfer:
+            self.rotary_op = FLASHINFER_ROTARY_OP
+        else:
+            self.rotary_op = ROTARY_OP
+
+    def inputs(self) -> list[torch.Tensor]:
+        positions = self.empty_int64(5)
+        query = self.empty(5, self.q_size)
+        key = self.empty(5, self.kv_size)
+        cos_sin_cache = self.empty(4096, self.rotary_dim)
+        return [positions, query, key, cos_sin_cache]
+
+    def forward_custom(
+        self,
+        positions: torch.Tensor,
+        query: torch.Tensor,
+        key: torch.Tensor | None,
+        cos_sin_cache: torch.Tensor,
+    ) -> tuple[torch.Tensor, torch.Tensor | None]:
+        result = auto_functionalized(
+            self.rotary_op,
+            positions=positions,
+            query=query,
+            key=key,
+            head_size=self.head_size,
+            cos_sin_cache=cos_sin_cache,
+            is_neox=self.is_neox,
+        )
+        query_out = result[1]
+        key_out = result[2] if len(result) > 2 else None
+        return query_out, key_out
+
+    def forward_native(
+        self,
+        positions: torch.Tensor,
+        query: torch.Tensor,
+        key: torch.Tensor | None,
+        cos_sin_cache: torch.Tensor,
+    ) -> tuple[torch.Tensor, torch.Tensor | None]:
+        return RotaryEmbedding.forward_static(
+            positions,
+            query,
+            key,
+            self.head_size,
+            self.rotary_dim,
+            cos_sin_cache,
+            self.is_neox,
+        )
+
+
 class MatcherRMSNorm(MatcherCustomOp):
     def __init__(self, epsilon: float, enabled: bool | None = None):
         if enabled is None:
@@ -85,10 +162,12 @@ class MatcherRMSNorm(MatcherCustomOp):
         weight: torch.Tensor,
     ) -> torch.Tensor:
         result = torch.empty_like(input)
+        # TODO: support non-contiguous input for RMSNorm and remove this
+        input_contiguous = input.contiguous()
         _, result = auto_functionalized(
             RMS_OP,
             result=result,
-            input=input,
+            input=input_contiguous,
             weight=weight,
             epsilon=self.epsilon,
         )
diff --git a/vllm/compilation/pass_manager.py b/vllm/compilation/pass_manager.py
index dfda2adf1d3b0..0c2210d72ce07 100644
--- a/vllm/compilation/pass_manager.py
+++ b/vllm/compilation/pass_manager.py
@@ -17,6 +17,7 @@ if current_platform.is_cuda_alike():
     from .activation_quant_fusion import ActivationQuantFusionPass
     from .fusion import RMSNormQuantFusionPass
     from .fusion_attn import AttnFusionPass
+    from .qk_norm_rope_fusion import QKNormRoPEFusionPass
 
 if current_platform.is_cuda():
     from .collective_fusion import AllReduceFusionPass, AsyncTPPass
@@ -109,6 +110,9 @@ class PostGradPassManager(CustomGraphPass):
             if self.pass_config.enable_attn_fusion:
                 self.passes += [AttnFusionPass(config)]
 
+            if self.pass_config.enable_qk_norm_rope_fusion:
+                self.passes += [QKNormRoPEFusionPass(config)]
+
             # needs a functional graph
             self.post_cleanup = PostCleanupPass(config)
             self.fix_functionalization = FixFunctionalizationPass(config)
diff --git a/vllm/compilation/qk_norm_rope_fusion.py b/vllm/compilation/qk_norm_rope_fusion.py
new file mode 100644
index 0000000000000..e3c399e079063
--- /dev/null
+++ b/vllm/compilation/qk_norm_rope_fusion.py
@@ -0,0 +1,238 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Callable
+
+import torch
+import torch._inductor.pattern_matcher as pm
+from torch import fx
+from torch._higher_order_ops.auto_functionalize import auto_functionalized
+from torch._inductor.pattern_matcher import PatternMatcherPass
+
+from vllm.attention import Attention
+from vllm.config import VllmConfig, get_layers_from_vllm_config
+from vllm.logger import init_logger
+from vllm.model_executor.layers.rotary_embedding import RotaryEmbedding
+
+from .fusion import empty_bf16, empty_fp32, empty_i64
+from .inductor_pass import enable_fake_mode
+from .matcher_utils import MatcherRMSNorm, MatcherRotaryEmbedding
+from .vllm_inductor_pass import VllmInductorPass, VllmPatternMatcherPass
+
+logger = init_logger(__name__)
+
+FUSED_QK_ROPE_OP = torch.ops._C.fused_qk_norm_rope.default
+
+
+class QkNormRopePattern:
+    """
+    Match the unfused sequence in attention blocks and replace with the fused op.
+
+    Unfused (conceptually):
+      q, k, v = split(qkv, [qsz, kvsz, kvsz], -1)
+      qh = reshape(q, [-1, num_heads, head_dim])
+      kh = reshape(k, [-1, num_kv_heads, head_dim])
+      qn = rms_norm(qh, q_weight, eps)
+      kn = rms_norm(kh, k_weight, eps)
+      qf = reshape(qn, [-1, num_heads * head_dim])
+      kf = reshape(kn, [-1, num_kv_heads * head_dim])
+      qf, kf = rotary_embedding(positions, qf, kf, head_dim, cos_sin_cache, is_neox)
+      return qf, kf, v
+
+    Fused replacement:
+      fused_qk_norm_rope(qkv, num_heads, num_kv_heads, num_kv_heads, head_dim,
+                         eps, q_weight, k_weight, cos_sin_cache, is_neox,
+                         positions.view(-1))
+      return split(qkv, [qsz, kvsz, kvsz], -1)
+    """
+
+    def __init__(
+        self,
+        head_dim: int,
+        num_heads: int,
+        num_kv_heads: int,
+        eps: float,
+        is_neox: bool,
+        rope_flashinfer: bool = False,
+    ) -> None:
+        self.num_heads = num_heads
+        self.num_kv_heads = num_kv_heads
+        self.head_dim = head_dim
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.eps = eps
+        self.rmsnorm_matcher = MatcherRMSNorm(eps)
+        self.is_neox = is_neox
+        self.rope_flashinfer = rope_flashinfer
+        self.rope_matcher = MatcherRotaryEmbedding(
+            is_neox=is_neox,
+            head_size=self.head_dim,
+            num_heads=self.num_heads,
+            num_kv_heads=self.num_kv_heads,
+            use_flashinfer=self.rope_flashinfer,
+        )
+
+    def get_inputs(self):
+        # Sample inputs to help pattern tracing
+        T = 5
+        qkv = empty_bf16(T, self.q_size + 2 * self.kv_size)
+        positions = empty_i64(T)
+        q_weight = empty_bf16(1, self.head_dim)
+        k_weight = empty_bf16(1, self.head_dim)
+        if self.rope_flashinfer:
+            cos_sin_cache = empty_fp32(4096, self.head_dim)
+        else:
+            cos_sin_cache = empty_bf16(4096, self.head_dim)
+        return [
+            qkv,
+            positions,
+            q_weight,
+            k_weight,
+            cos_sin_cache,
+        ]
+
+    @staticmethod
+    def wrap_trace_fn(trace_fn, *process_fx_fns: Callable[[fx.GraphModule], None]):
+        def wrapped(*args, **kwargs):
+            gm = trace_fn(*args, **kwargs)
+            for process_fx in process_fx_fns:
+                process_fx(gm)
+
+            return gm
+
+        return wrapped
+
+    @staticmethod
+    def fx_view_to_reshape(gm: torch.fx.GraphModule):
+        from torch._inductor.fx_passes.post_grad import view_to_reshape
+
+        view_to_reshape(gm)
+
+    def register(self, pm_pass: PatternMatcherPass):
+        def pattern(
+            qkv: torch.Tensor,
+            positions: torch.Tensor,
+            q_weight: torch.Tensor,
+            k_weight: torch.Tensor,
+            cos_sin_cache: torch.Tensor,
+        ):
+            # split qkv -> q,k,v
+            q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+
+            # Q path: view -> RMS -> view back to q.shape
+            q_by_head = q.view(
+                *q.shape[:-1], q.shape[-1] // self.head_dim, self.head_dim
+            )
+            q_normed_by_head = self.rmsnorm_matcher(q_by_head, q_weight)
+            q_flat = q_normed_by_head.view(q.shape)
+
+            # K path: view -> RMS -> view back to k.shape
+            k_by_head = k.view(
+                *k.shape[:-1], k.shape[-1] // self.head_dim, self.head_dim
+            )
+            k_normed_by_head = self.rmsnorm_matcher(k_by_head, k_weight)
+            k_flat = k_normed_by_head.view(k.shape)
+
+            # RoPE: apply to flattened q/k
+            q_rope, k_rope = self.rope_matcher(positions, q_flat, k_flat, cos_sin_cache)
+            return q_rope, k_rope, v
+
+        def replacement(
+            qkv: torch.Tensor,
+            positions: torch.Tensor,
+            q_weight: torch.Tensor,
+            k_weight: torch.Tensor,
+            cos_sin_cache: torch.Tensor,
+        ):
+            # Run fused qk_norm_rope op
+            result = auto_functionalized(
+                FUSED_QK_ROPE_OP,
+                qkv=qkv,
+                num_heads_q=self.num_heads,
+                num_heads_k=self.num_kv_heads,
+                num_heads_v=self.num_kv_heads,
+                head_dim=self.head_dim,
+                eps=self.eps,
+                q_weight=q_weight,
+                k_weight=k_weight,
+                cos_sin_cache=cos_sin_cache,
+                is_neox=self.is_neox,
+                position_ids=positions.view(-1),
+            )
+            result_qkv = result[1]
+
+            # Split back to q,k,v and return
+            return result_qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+
+        # NOTE: use fx_view_to_reshape to unify view/reshape to simplify
+        # pattern and increase matching opportunities
+        pm.register_replacement(
+            pattern,
+            replacement,
+            self.get_inputs(),
+            QkNormRopePattern.wrap_trace_fn(
+                pm.fwd_only,
+                QkNormRopePattern.fx_view_to_reshape,
+            ),
+            pm_pass,
+        )
+
+
+class QKNormRoPEFusionPass(VllmPatternMatcherPass):
+    """Fuse Q/K RMSNorm + RoPE into fused_qk_norm_rope when the custom op exists."""
+
+    @enable_fake_mode
+    def __init__(self, config: VllmConfig):
+        super().__init__(config)
+        self.patterns: PatternMatcherPass = PatternMatcherPass(
+            pass_name="qk_norm_rope_fusion_pass"
+        )
+
+        dtype = config.model_config.dtype
+        if dtype not in (torch.bfloat16, torch.float16):
+            logger.warning_once(
+                "QK Norm+RoPE fusion not enabled: unsupported dtype %s", dtype
+            )
+            return
+
+        # use one attn layer to get meta (such as head_dim) for QkNormRopePattern
+        attn_layers: dict[str, Attention] = get_layers_from_vllm_config(
+            config, Attention
+        )
+        if len(attn_layers) == 0:
+            logger.warning_once(
+                "QK Norm+RoPE fusion enabled, but no Attention layers were discovered."
+            )
+            return
+        layer = next(iter(attn_layers.values()))
+
+        for epsilon in [1e-5, 1e-6]:
+            for neox in [True, False]:
+                if RotaryEmbedding.enabled():
+                    for rope_flashinfer in [False, True]:
+                        QkNormRopePattern(
+                            head_dim=layer.head_size,
+                            num_heads=layer.num_heads,
+                            num_kv_heads=layer.num_kv_heads,
+                            eps=epsilon,
+                            is_neox=neox,
+                            rope_flashinfer=rope_flashinfer,
+                        ).register(self.patterns)
+                else:
+                    QkNormRopePattern(
+                        head_dim=layer.head_size,
+                        num_heads=layer.num_heads,
+                        num_kv_heads=layer.num_kv_heads,
+                        eps=epsilon,
+                        is_neox=neox,
+                    ).register(self.patterns)
+
+        self.dump_patterns(config, self.patterns)
+
+    @VllmInductorPass.time_and_log
+    def __call__(self, graph: fx.Graph) -> None:
+        self.matched_count = self.patterns.apply(graph)
+        logger.debug("Fused QK Norm+RoPE on %s sites", self.matched_count)
+
+    def uuid(self):
+        return VllmInductorPass.hash_source(self, QkNormRopePattern)
diff --git a/vllm/config/compilation.py b/vllm/config/compilation.py
index 92cf16f259fe7..9c9557df4e738 100644
--- a/vllm/config/compilation.py
+++ b/vllm/config/compilation.py
@@ -129,6 +129,8 @@ class PassConfig:
                 8: 1,  # 1MB
             },
         }, where key is the device capability"""
+    enable_qk_norm_rope_fusion: bool = False
+    """Whether to enable the fused Q/K RMSNorm + RoPE pass."""
 
     # TODO(luka) better pass enabling system.
 
@@ -182,6 +184,12 @@ class PassConfig:
                     "Fusion enabled but reshape elimination disabled. "
                     "Allreduce + rms norm + quant (fp8) fusion might not work"
                 )
+        if self.enable_qk_norm_rope_fusion and not current_platform.is_cuda():
+            logger.warning_once(
+                "QK Norm + RoPE fusion enabled but the current platform is not "
+                "CUDA. The fusion will be disabled."
+            )
+            self.enable_qk_norm_rope_fusion = False
 
 
 @config
@@ -640,6 +648,11 @@ class CompilationConfig:
         if isinstance(self.pass_config, dict):
             self.pass_config = PassConfig(**self.pass_config)
 
+        if self.pass_config.enable_qk_norm_rope_fusion:
+            # TODO(zhuhaoran): support rope native forward match and remove this.
+            # Linked issue: https://github.com/vllm-project/vllm/issues/28042
+            self.custom_ops.append("+rotary_embedding")
+
         if (
             is_torch_equal_or_newer("2.9.0.dev")
             and "combo_kernels" not in self.inductor_compile_config
diff --git a/vllm/model_executor/layers/rotary_embedding/base.py b/vllm/model_executor/layers/rotary_embedding/base.py
index 2ef54e75df44e..ce4f40680b0a3 100644
--- a/vllm/model_executor/layers/rotary_embedding/base.py
+++ b/vllm/model_executor/layers/rotary_embedding/base.py
@@ -98,6 +98,39 @@ class RotaryEmbedding(RotaryEmbeddingBase):
             head_size, rotary_dim, max_position_embeddings, base, is_neox_style, dtype
         )
 
+    @staticmethod
+    def forward_static(
+        positions: torch.Tensor,
+        query: torch.Tensor,
+        key: torch.Tensor | None,
+        head_size: int,
+        rotary_dim: int,
+        cos_sin_cache: torch.Tensor,
+        is_neox_style: bool,
+    ) -> tuple[torch.Tensor, torch.Tensor | None]:
+        """A PyTorch-native implementation of forward()."""
+        positions = positions.flatten()
+        num_tokens = positions.shape[0]
+        cos_sin = cos_sin_cache.index_select(0, positions)
+        cos, sin = cos_sin.chunk(2, dim=-1)
+
+        query_shape = query.shape
+        query = query.view(num_tokens, -1, head_size)
+        query_rot = query[..., :rotary_dim]
+        query_pass = query[..., rotary_dim:]
+        query_rot = apply_rotary_emb_torch(query_rot, cos, sin, is_neox_style)
+        query = torch.cat((query_rot, query_pass), dim=-1).reshape(query_shape)
+
+        # key may be None in some cases, e.g. cross-layer KV sharing
+        if key is not None:
+            key_shape = key.shape
+            key = key.view(num_tokens, -1, head_size)
+            key_rot = key[..., :rotary_dim]
+            key_pass = key[..., rotary_dim:]
+            key_rot = apply_rotary_emb_torch(key_rot, cos, sin, is_neox_style)
+            key = torch.cat((key_rot, key_pass), dim=-1).reshape(key_shape)
+        return query, key
+
     def forward_native(
         self,
         positions: torch.Tensor,
@@ -105,27 +138,15 @@ class RotaryEmbedding(RotaryEmbeddingBase):
         key: torch.Tensor | None = None,
     ) -> tuple[torch.Tensor, torch.Tensor | None]:
         """A PyTorch-native implementation of forward()."""
-        positions = positions.flatten()
-        num_tokens = positions.shape[0]
-        cos_sin = self.cos_sin_cache.index_select(0, positions)
-        cos, sin = cos_sin.chunk(2, dim=-1)
-
-        query_shape = query.shape
-        query = query.view(num_tokens, -1, self.head_size)
-        query_rot = query[..., : self.rotary_dim]
-        query_pass = query[..., self.rotary_dim :]
-        query_rot = apply_rotary_emb_torch(query_rot, cos, sin, self.is_neox_style)
-        query = torch.cat((query_rot, query_pass), dim=-1).reshape(query_shape)
-
-        # key may be None in some cases, e.g. cross-layer KV sharing
-        if key is not None:
-            key_shape = key.shape
-            key = key.view(num_tokens, -1, self.head_size)
-            key_rot = key[..., : self.rotary_dim]
-            key_pass = key[..., self.rotary_dim :]
-            key_rot = apply_rotary_emb_torch(key_rot, cos, sin, self.is_neox_style)
-            key = torch.cat((key_rot, key_pass), dim=-1).reshape(key_shape)
-        return query, key
+        return self.forward_static(
+            positions,
+            query,
+            key,
+            self.head_size,
+            self.rotary_dim,
+            self.cos_sin_cache,
+            self.is_neox_style,
+        )
 
     def forward_cuda(
         self,

From 05576df85c5274ee3045d90b0779d4adeecc09b9 Mon Sep 17 00:00:00 2001
From: xuebwang-amd <xuebwang@amd.com>
Date: Wed, 12 Nov 2025 01:05:22 +0800
Subject: [PATCH 323/976] [ROCm][Quantization] extend AMD Quark to support
 mixed-precision quantized model (#24239)

Signed-off-by: xuebwang-amd <xuebwang@amd.com>
Co-authored-by: fxmarty-amd <felmarty@amd.com>
Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>
---
 docs/features/quantization/quark.md           | 34 ++++++++-
 tests/quantization/test_mixed_precision.py    | 69 +++++++++++++++++++
 .../layers/quantization/quark/quark.py        | 32 +++++++--
 3 files changed, 127 insertions(+), 8 deletions(-)
 create mode 100755 tests/quantization/test_mixed_precision.py

diff --git a/docs/features/quantization/quark.md b/docs/features/quantization/quark.md
index 385e3bbb8712f..be0702f4c9e16 100644
--- a/docs/features/quantization/quark.md
+++ b/docs/features/quantization/quark.md
@@ -281,4 +281,36 @@ python quantize_quark.py --model_dir Qwen/Qwen1.5-MoE-A2.7B-Chat \
     --group_size 32
 ```
 
-The current integration supports [all combination of FP4, FP6_E3M2, FP6_E2M3](https://github.com/vllm-project/vllm/blob/main/vllm/model_executor/layers/quantization/utils/ocp_mx_utils.py) used for either weights or activations. Eventually, some target hardware support mixed precision GEMM, as AMD Instinct MI350/MI355, for example using FP6 for activations and FP4 for weights.
+The current integration supports [all combination of FP4, FP6_E3M2, FP6_E2M3](https://github.com/vllm-project/vllm/blob/main/vllm/model_executor/layers/quantization/utils/ocp_mx_utils.py) used for either weights or activations.
+
+## Using Quark Quantized layerwise Auto Mixed Precision (AMP) Models
+
+vLLM also supports loading layerwise mixed precision model quantized using AMD Quark. Currently, mixed scheme of {MXFP4, FP8} is supported, where FP8 here denotes for FP8 per-tensor scheme. More mixed precision schemes are planned to be supported in a near future, including
+
+- Unquantized Linear and/or MoE layer(s) as an option for each layer, i.e., mixed of {MXFP4, FP8, BF16/FP16}
+- MXFP6 quantization extension, i.e., {MXFP4, MXFP6, FP8, BF16/FP16}
+
+Although one can maximize serving throughput using the lowest precision supported on a given device (e.g. MXFP4 for AMD Instinct MI355, FP8 for AMD Instinct MI300), these aggressive schemes can be detrimental to accuracy recovering from quantization on target tasks. Mixed precision allows to strike a balance between maximizing accuracy and throughput.
+
+There are two steps to generate and deploy a mixed precision model quantized with AMD Quark, as shown below.
+
+### 1. Quantize a model using mixed precision in AMD Quark
+
+Firstly, the layerwise mixed-precision configuration for a given LLM model is searched and then quantized using AMD Quark. We will provide a detailed tutorial with Quark APIs later.
+
+As examples, we provide some ready-to-use quantized mixed precision model to show the usage in vLLM and the accuracy benifits. They are:
+
+- amd/Llama-2-70b-chat-hf-WMXFP4FP8-AMXFP4FP8-AMP-KVFP8
+- amd/Mixtral-8x7B-Instruct-v0.1-WMXFP4FP8-AMXFP4FP8-AMP-KVFP8
+- amd/Qwen3-8B-WMXFP4FP8-AMXFP4FP8-AMP-KVFP8
+
+### 2. inference the quantized mixed precision model in vLLM
+
+Models quantized with AMD Quark using mixed precision can natively be reload in vLLM, and e.g. evaluated using lm-evaluation-harness as follow:
+
+```bash
+lm_eval --model vllm \
+    --model_args pretrained=amd/Llama-2-70b-chat-hf-WMXFP4FP8-AMXFP4FP8-AMP-KVFP8,tensor_parallel_size=4,dtype=auto,gpu_memory_utilization=0.8,trust_remote_code=False \
+    --tasks mmlu \
+    --batch_size auto
+```
diff --git a/tests/quantization/test_mixed_precision.py b/tests/quantization/test_mixed_precision.py
new file mode 100755
index 0000000000000..51526470b4233
--- /dev/null
+++ b/tests/quantization/test_mixed_precision.py
@@ -0,0 +1,69 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Test quark-quantized {MXFP4, FP8} mixed precision models.
+
+Run `pytest tests/quantization/test_mixed_precision.py`.
+
+"""
+
+import importlib
+import importlib.metadata
+from dataclasses import dataclass
+
+import lm_eval
+import pytest
+from packaging import version
+
+QUARK_MXFP4_AVAILABLE = importlib.util.find_spec("quark") is not None and version.parse(
+    importlib.metadata.version("amd-quark")
+) >= version.parse("0.8.99")
+
+
+@dataclass
+class ModelCase:
+    model_id: str
+    tp: int
+
+
+@dataclass
+class EvaluationConfig:
+    model_name: str
+
+    def get_model_args(self) -> str:
+        return (
+            f"pretrained={self.model_name},"
+            "tensor_parallel_size=4,dtype=auto,gpu_memory_utilization=0.8,trust_remote_code=False"
+        )
+
+
+TEST_CONFIGS = {
+    # Mixed-precision (AMP) model
+    # - Demonstrates end-to-end pipeline functionality
+    "amd/Qwen3-8B-WMXFP4FP8-AMXFP4FP8-AMP-KVFP8": {"arc_challenge": 0.52, "mmlu": 0.72},
+    # Non-mixed-precision (PTQ) model
+    # - Reference for pipeline compatibility verification -> No conflicts or breakings
+    "amd/Llama-2-70b-chat-hf-FP8-MLPerf-fp8_attn_quark_format": {
+        "arc_challenge": 0.53,
+        "mmlu": 0.61,
+    },
+}
+
+
+@pytest.mark.parametrize("model_name, accuracy_numbers", TEST_CONFIGS.items())
+@pytest.mark.skipif(not QUARK_MXFP4_AVAILABLE, reason="amd-quark>=0.9 is not available")
+def test_mixed_precision_model_accuracies(model_name: str, accuracy_numbers: dict):
+    results = lm_eval.simple_evaluate(
+        model="vllm",
+        model_args=EvaluationConfig(model_name).get_model_args(),
+        tasks=list(accuracy_numbers.keys()),
+        batch_size=8,
+    )
+
+    rtol = 0.05
+
+    for task, expect_accuracy in accuracy_numbers.items():
+        measured_accuracy = results["results"][task]["acc,none"]
+        assert (
+            measured_accuracy - rtol < expect_accuracy
+            and measured_accuracy + rtol > expect_accuracy
+        ), f"Expected: {expect_accuracy} |  Measured: {measured_accuracy}"
diff --git a/vllm/model_executor/layers/quantization/quark/quark.py b/vllm/model_executor/layers/quantization/quark/quark.py
index d5459594b7983..095a66ef10f9a 100644
--- a/vllm/model_executor/layers/quantization/quark/quark.py
+++ b/vllm/model_executor/layers/quantization/quark/quark.py
@@ -114,7 +114,14 @@ class QuarkConfig(QuantizationConfig):
             layer_quant_names = list(layer_quant_config.keys())
             layer_quant_set = set(layer_quant_names)
 
-            if not kv_cache_set.issubset(layer_quant_set):
+            if not (
+                kv_cache_set.issubset(layer_quant_set)
+                or any(
+                    fnmatch.fnmatchcase(layer_quant, pat)
+                    for layer_quant in list(layer_quant_set)
+                    for pat in list(kv_cache_set)
+                )
+            ):
                 raise ValueError(
                     "The Quark quantized model has the "
                     "kv_cache_group parameter setting, "
@@ -124,10 +131,15 @@ class QuarkConfig(QuantizationConfig):
                 )
 
             q_configs = [
-                cast(dict[str, Any], layer_quant_config.get(name))
-                for name in kv_cache_group
+                quant_cfg
+                for name, quant_cfg in layer_quant_config.items()
+                if any(fnmatch.fnmatchcase(name, pattern) for pattern in kv_cache_group)
             ]
-            if not all(deep_compare(q_config, q_configs[0]) for q_config in q_configs):
+
+            if not all(
+                deep_compare(q_config["output_tensors"], q_configs[0]["output_tensors"])
+                for q_config in q_configs
+            ):
                 raise ValueError(
                     "The quantization method used for kv_cache should "
                     "be the same, but the quantization method for the "
@@ -312,9 +324,15 @@ class QuarkConfig(QuantizationConfig):
             layer_quant_config = cast(
                 dict[str, Any], self.quant_config.get("layer_quant_config")
             )
-            for name_pattern in layer_quant_config:
-                if fnmatch.fnmatch(layer_name, name_pattern):
-                    return layer_quant_config[name_pattern]
+
+            def _matches_pattern(layer_name, pattern):
+                if "*" not in pattern:
+                    return layer_name in pattern
+                return fnmatch.fnmatch(layer_name, pattern)
+
+            for name_pattern, config in layer_quant_config.items():
+                if _matches_pattern(layer_name, name_pattern):
+                    return config
 
             layer_type = cast(str, type(module))
             layer_type_quant_config = cast(

From 5a1271d83a65be5ed8dc3e4c990ed42074197db3 Mon Sep 17 00:00:00 2001
From: xuebwang-amd <xuebwang@amd.com>
Date: Wed, 12 Nov 2025 01:06:00 +0800
Subject: [PATCH 324/976] [Quantization] fix attention quantization of gpt_oss
 model (#27334)

Signed-off-by: xuebwang-amd <xuebwang@amd.com>
---
 .../test_gpt_oss_attn_quantization.py         | 80 +++++++++++++++++++
 .../layers/quantization/mxfp4.py              | 15 +++-
 vllm/model_executor/models/gpt_oss.py         | 10 ++-
 3 files changed, 101 insertions(+), 4 deletions(-)
 create mode 100644 tests/models/quantization/test_gpt_oss_attn_quantization.py

diff --git a/tests/models/quantization/test_gpt_oss_attn_quantization.py b/tests/models/quantization/test_gpt_oss_attn_quantization.py
new file mode 100644
index 0000000000000..780165ea2ba7a
--- /dev/null
+++ b/tests/models/quantization/test_gpt_oss_attn_quantization.py
@@ -0,0 +1,80 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Test attention quantization of gpt-oss model.
+The qkv_proj and o_proj in self_attention can be either quantized or excluded.
+
+Run `pytest tests/models/quantization/test_gpt_oss_attn_quantization.py`.
+
+"""
+
+import importlib
+import importlib.metadata
+from dataclasses import dataclass
+
+import huggingface_hub
+import lm_eval
+import pytest
+from packaging import version
+
+MODEL_NAMES = ["amd/gpt-oss-20b-customized-attention-quantization"]
+
+QUARK_MXFP4_AVAILABLE = importlib.util.find_spec("quark") is not None and version.parse(
+    importlib.metadata.version("amd-quark")
+) >= version.parse("0.8.99")
+
+
+def has_huggingface_access(repo):
+    try:
+        huggingface_hub.list_repo_refs(repo)
+        return True
+    except huggingface_hub.errors.RepositoryNotFoundError:
+        return False
+
+
+HF_HUB_AMD_ORG_ACCESS = all(
+    [has_huggingface_access(model_name) for model_name in MODEL_NAMES]
+)
+
+
+@dataclass
+class ModelCase:
+    model_id: str
+    tp: int
+
+
+@dataclass
+class EvaluationConfig:
+    model_name: str
+
+    def get_model_args(self) -> str:
+        return (
+            f"pretrained={self.model_name},"
+            "tensor_parallel_size=4,dtype=auto,gpu_memory_utilization=0.9,trust_remote_code=False"
+        )
+
+
+EXPECTED_ACCURACIES = {"arc_challenge": 0.20}
+
+
+@pytest.mark.skipif(not QUARK_MXFP4_AVAILABLE, reason="amd-quark>=0.9 is not available")
+@pytest.mark.skipif(
+    not HF_HUB_AMD_ORG_ACCESS,
+    reason="Read access to huggingface.co/amd is required for this test.",
+)
+@pytest.mark.parametrize("model_name", MODEL_NAMES)
+@pytest.mark.parametrize("task_name, expected_accuracy", EXPECTED_ACCURACIES.items())
+def test_gpt_oss_attention_quantization(
+    model_name: str, task_name: str, expected_accuracy: float
+):
+    measured_accuracy = lm_eval.simple_evaluate(
+        model="vllm",
+        model_args=EvaluationConfig(model_name).get_model_args(),
+        tasks=task_name,
+        batch_size="auto",
+    )["results"][task_name]["acc,none"]
+
+    rtol = 0.05
+    assert (
+        measured_accuracy - rtol < expected_accuracy
+        and measured_accuracy + rtol > expected_accuracy
+    ), f"Expected: {expected_accuracy} |  Measured: {measured_accuracy}"
diff --git a/vllm/model_executor/layers/quantization/mxfp4.py b/vllm/model_executor/layers/quantization/mxfp4.py
index 4e51249f2d25b..8d7297a0a1b3b 100644
--- a/vllm/model_executor/layers/quantization/mxfp4.py
+++ b/vllm/model_executor/layers/quantization/mxfp4.py
@@ -190,14 +190,25 @@ class Mxfp4Config(QuantizationConfig):
                 fused_mapping=self.packed_modules_mapping,
             ):
                 return UnquantizedLinearMethod()
-            raise NotImplementedError("Mxfp4 linear layer is not implemented")
+            # TODO: Add support for MXFP4 Linear Method.
+            # MXFP4 LinearMethod is available in AMD-Quark, refer to that implementation
+            # if you are interested in enabling MXFP4 here.
+            logger.warning_once(
+                "MXFP4 linear layer is not implemented - falling back to "
+                "UnquantizedLinearMethod."
+            )
+            return UnquantizedLinearMethod()
         elif isinstance(layer, FusedMoE):
             if current_platform.is_xpu():
                 return IpexMxfp4MoEMethod(layer.moe_config)
             else:
                 return Mxfp4MoEMethod(layer.moe_config)
         elif isinstance(layer, Attention):
-            raise NotImplementedError("Mxfp4 attention layer is not implemented")
+            # TODO: Add support for MXFP4 Attention.
+            logger.warning_once(
+                "MXFP4 attention layer is not implemented. "
+                "Skipping quantization for this layer."
+            )
         return None
 
 
diff --git a/vllm/model_executor/models/gpt_oss.py b/vllm/model_executor/models/gpt_oss.py
index 04038ae74882d..291ac833f26ad 100644
--- a/vllm/model_executor/models/gpt_oss.py
+++ b/vllm/model_executor/models/gpt_oss.py
@@ -198,6 +198,7 @@ class TransformerBlock(torch.nn.Module):
     def __init__(
         self,
         vllm_config: VllmConfig,
+        quant_config: QuantizationConfig,
         prefix: str = "",
     ):
         super().__init__()
@@ -207,7 +208,10 @@ class TransformerBlock(torch.nn.Module):
 
         self.layer_idx = extract_layer_index(prefix)
         self.attn = OAIAttention(
-            config, prefix=f"{prefix}.attn", cache_config=cache_config
+            config,
+            prefix=f"{prefix}.attn",
+            quant_config=quant_config,
+            cache_config=cache_config,
         )
         self.mlp = MLPBlock(vllm_config, self.layer_idx, prefix=f"{prefix}.mlp")
         self.input_layernorm = RMSNorm(config.hidden_size, eps=1e-5)
@@ -243,6 +247,7 @@ class GptOssModel(nn.Module):
     ):
         super().__init__()
         self.config = vllm_config.model_config.hf_config
+        self.quant_config = vllm_config.quant_config
         self.parallel_config = vllm_config.parallel_config
         self.config.hidden_size = self.config.hidden_size
         self.embedding = VocabParallelEmbedding(
@@ -254,6 +259,7 @@ class GptOssModel(nn.Module):
             lambda prefix: TransformerBlock(
                 vllm_config,
                 prefix=prefix,
+                quant_config=self.quant_config,
             ),
             prefix=f"{prefix}.layers",
         )
@@ -645,7 +651,7 @@ class GptOssModel(nn.Module):
 
 
 class GptOssForCausalLM(nn.Module, SupportsPP, SupportsEagle3, SupportsLoRA):
-    packed_modules_mapping = {"qkv": ["q_proj", "k_proj", "v_proj"]}
+    packed_modules_mapping = {"qkv_proj": ["q_proj", "k_proj", "v_proj"]}
 
     hf_to_vllm_mapper = WeightsMapper(
         orig_to_new_substr={

From e55342491968a56d39dc8e03e6cf39d12fef5dcd Mon Sep 17 00:00:00 2001
From: Zhewen Li <zhewenli@meta.com>
Date: Tue, 11 Nov 2025 09:09:47 -0800
Subject: [PATCH 325/976] [CI/Build] Refactor Attention backend for
 test_prefix_prefill from xformers to SDPA (#28424)

Signed-off-by: zhewenli <zhewenli@meta.com>
Signed-off-by: Roger Wang <hey@rogerw.io>
Co-authored-by: Roger Wang <hey@rogerw.io>
---
 .../kernels/attention/test_prefix_prefill.py  | 312 +++++++++++-------
 1 file changed, 195 insertions(+), 117 deletions(-)

diff --git a/tests/kernels/attention/test_prefix_prefill.py b/tests/kernels/attention/test_prefix_prefill.py
index 65972d02f2f66..78cdbbbf7379d 100644
--- a/tests/kernels/attention/test_prefix_prefill.py
+++ b/tests/kernels/attention/test_prefix_prefill.py
@@ -8,10 +8,8 @@ from collections.abc import Callable
 
 import pytest
 import torch
-from xformers import ops as xops
-from xformers.ops.fmha.attn_bias import BlockDiagonalCausalFromBottomRightMask
+import torch.nn.functional as F
 
-from tests.kernels.utils import make_alibi_bias
 from vllm.attention.ops.chunked_prefill_paged_decode import chunked_prefill_paged_decode
 from vllm.attention.ops.prefix_prefill import context_attention_fwd
 from vllm.platforms import current_platform
@@ -28,6 +26,74 @@ KV_CACHE_DTYPES = ["auto", "fp8", "fp8_e5m2"]
 OPS = [chunked_prefill_paged_decode, context_attention_fwd]
 
 
+def create_causal_attention_mask_for_sdpa(
+    query_lens: list[int],
+    seq_lens: list[int],
+    sliding_window: int = 0,
+    device: torch.device = None,
+    dtype: torch.dtype = None,
+) -> torch.Tensor:
+    total_queries = sum(query_lens)
+    total_keys = sum(seq_lens)
+
+    # Create a mask filled with -inf
+    mask = torch.full(
+        (total_queries, total_keys), float("-inf"), device=device, dtype=dtype
+    )
+
+    query_start = 0
+    key_start = 0
+
+    for query_len, seq_len in zip(query_lens, seq_lens):
+        query_end = query_start + query_len
+        key_end = key_start + seq_len
+        q_indices = torch.arange(query_len, device=device)
+        k_indices = torch.arange(seq_len, device=device)
+        q_pos_in_seq = seq_len - query_len + q_indices
+
+        valid_mask = k_indices[None, :] <= q_pos_in_seq[:, None]
+
+        if sliding_window > 0:
+            valid_mask &= k_indices[None, :] >= (
+                q_pos_in_seq[:, None] - sliding_window + 1
+            )
+
+        mask[query_start:query_end, key_start:key_end][valid_mask] = 0.0
+
+        query_start = query_end
+        key_start = key_end
+
+    return mask
+
+
+def create_alibi_causal_mask(
+    query_len: int,
+    seq_len: int,
+    alibi_slopes: torch.Tensor,
+    device: torch.device,
+    dtype: torch.dtype,
+) -> torch.Tensor:
+    query_pos = torch.arange(
+        seq_len - query_len, seq_len, device=device, dtype=torch.float32
+    )
+    key_pos = torch.arange(seq_len, device=device, dtype=torch.float32)
+
+    rel_pos = key_pos[None, :] - query_pos[:, None]
+
+    # Apply ALiBi slopes: [num_heads, query_len, seq_len]
+    alibi_bias = alibi_slopes[:, None, None] * rel_pos[None, :, :]
+    alibi_bias = alibi_bias.to(dtype)
+
+    # Apply causal mask: prevent attending to future positions
+    # causal_mask[i, j] = True if key_pos[j] <= query_pos[i]
+    causal_mask = key_pos[None, :] <= query_pos[:, None]
+    alibi_bias = alibi_bias.masked_fill(~causal_mask[None, :, :], float("-inf"))
+
+    # Add batch dimension: [1, num_heads, query_len, seq_len]
+    # SDPA expects batch dimension even for single sequences
+    return alibi_bias.unsqueeze(0)
+
+
 @pytest.mark.parametrize("num_heads", NUM_HEADS)
 @pytest.mark.parametrize("num_queries_per_kv", NUM_QUERIES_PER_KV)
 @pytest.mark.parametrize("head_size", HEAD_SIZES)
@@ -52,6 +118,13 @@ def test_contexted_kv_attention(
             "Triton limitation: fp8e4nv data type is not supported on CUDA arch < 89"
         )
 
+    if (
+        current_platform.is_rocm()
+        and op is chunked_prefill_paged_decode
+        and kv_cache_dtype == "fp8_e5m2"
+    ):
+        pytest.skip("ROCm custom paged attention does not support fp8_e5m2 KV cache")
+
     current_platform.seed_everything(0)
     torch.set_default_device(device)
 
@@ -96,16 +169,16 @@ def test_contexted_kv_attention(
     )
     k = torch.zeros(sum(query_lens), num_kv_heads, head_size, dtype=dtype)
     v = torch.zeros(sum(query_lens), num_kv_heads, head_size, dtype=dtype)
-    values = torch.arange(0, cache_size, dtype=torch.long)
+    values = torch.arange(0, cache_size, dtype=torch.int32)
     values = values[torch.randperm(cache_size)]
     block_table = values[: BS * max_block_per_request].view(BS, max_block_per_request)
-    b_seq_len = torch.tensor(seq_lens, dtype=torch.long)
-    b_ctx_len = torch.tensor(ctx_lens, dtype=torch.long)
-    b_start_loc = torch.cumsum(torch.tensor([0] + query_lens, dtype=torch.long), dim=0)
+    b_seq_len = torch.tensor(seq_lens, dtype=torch.int32)
+    b_ctx_len = torch.tensor(ctx_lens, dtype=torch.int32)
+    b_start_loc = torch.cumsum(torch.tensor([0] + query_lens, dtype=torch.int32), dim=0)
     max_input_len = MAX_SEQ_LEN
     # copy kv to cache
     b_seq_start_loc = torch.cumsum(
-        torch.tensor([0] + seq_lens[:-1], dtype=torch.long), dim=0
+        torch.tensor([0] + seq_lens[:-1], dtype=torch.int32), dim=0
     )
     for i in range(BS):
         for j in range(query_lens[i]):
@@ -189,56 +262,57 @@ def test_contexted_kv_attention(
 
     scale = float(1.0 / (head_size**0.5))
 
-    attn_op = xops.fmha.cutlass.FwOp()
-
-    if num_kv_heads != num_heads:
-        # As of Nov 2023, xformers only supports MHA. For MQA/GQA,
-        # project the key and value tensors to the desired number of
-        # heads.
-        #
-        # see also: vllm/model_executor/layers/attention.py
-        query = query.view(
-            query.shape[0], num_kv_heads, num_queries_per_kv, query.shape[-1]
-        )
-        key = key[:, :, None, :].expand(
-            key.shape[0], num_kv_heads, num_queries_per_kv, key.shape[-1]
-        )
-        value = value[:, :, None, :].expand(
-            value.shape[0], num_kv_heads, num_queries_per_kv, value.shape[-1]
-        )
-    query = query.unsqueeze(0)
-    key = key.unsqueeze(0)
-    value = value.unsqueeze(0)
-
-    attn_bias = BlockDiagonalCausalFromBottomRightMask.from_seqlens(
-        query_lens, seq_lens
+    # Reshape for SDPA: (seq_len, num_heads, head_size) ->
+    # (1, num_heads, seq_len, head_size)
+    query_sdpa = query.view(num_tokens, num_kv_heads, num_queries_per_kv, head_size)
+    query_sdpa = query_sdpa.permute(1, 2, 0, 3).reshape(
+        1, num_heads, num_tokens, head_size
     )
-    if sliding_window > 0:
-        attn_bias = attn_bias.make_local_attention_from_bottomright(sliding_window)
-    output_ref = xops.memory_efficient_attention_forward(
-        query,
-        key,
-        value,
-        attn_bias=attn_bias,
-        p=0.0,
+
+    # Expand key and value for GQA/MQA to match query heads
+    key_sdpa = key[:, :, None, :].expand(
+        key.shape[0], num_kv_heads, num_queries_per_kv, key.shape[-1]
+    )
+    key_sdpa = key_sdpa.permute(1, 2, 0, 3).reshape(
+        1, num_heads, sum(seq_lens), head_size
+    )
+
+    value_sdpa = value[:, :, None, :].expand(
+        value.shape[0], num_kv_heads, num_queries_per_kv, value.shape[-1]
+    )
+    value_sdpa = value_sdpa.permute(1, 2, 0, 3).reshape(
+        1, num_heads, sum(seq_lens), head_size
+    )
+
+    attn_mask = create_causal_attention_mask_for_sdpa(
+        query_lens, seq_lens, sliding_window, device=device, dtype=dtype
+    )
+
+    output_ref = F.scaled_dot_product_attention(
+        query_sdpa,
+        key_sdpa,
+        value_sdpa,
+        attn_mask=attn_mask,
+        dropout_p=0.0,
         scale=scale,
-        op=attn_op,
     )
     torch.cuda.synchronize()
     start_time = time.time()
-    output_ref = xops.memory_efficient_attention_forward(
-        query,
-        key,
-        value,
-        attn_bias=attn_bias,
-        p=0.0,
+    output_ref = F.scaled_dot_product_attention(
+        query_sdpa,
+        key_sdpa,
+        value_sdpa,
+        attn_mask=attn_mask,
+        dropout_p=0.0,
         scale=scale,
-        op=attn_op,
     )
     torch.cuda.synchronize()
     end_time = time.time()
-    print(f"xformers Time: {(end_time - start_time) * 1000:.2f} ms")
-    output_ref = output_ref.reshape(output.shape)
+    print(f"PyTorch SDPA Time: {(end_time - start_time) * 1000:.2f} ms")
+
+    # Reshape output back to (num_tokens, num_heads, head_size)
+    output_ref = output_ref.view(num_heads, num_tokens, head_size)
+    output_ref = output_ref.permute(1, 0, 2).contiguous()
     atol = 1e-3 if "fp8" in kv_cache_dtype else 1e-4
     torch.testing.assert_close(output, output_ref, atol=atol, rtol=0)
 
@@ -265,6 +339,13 @@ def test_contexted_kv_attention_alibi(
             "Triton limitation: fp8e4nv data type is not supported on CUDA arch < 89"
         )
 
+    if (
+        current_platform.is_rocm()
+        and op is chunked_prefill_paged_decode
+        and kv_cache_dtype == "fp8_e5m2"
+    ):
+        pytest.skip("ROCm custom paged attention does not support fp8_e5m2 KV cache")
+
     current_platform.seed_everything(0)
     torch.set_default_device(device)
 
@@ -331,16 +412,16 @@ def test_contexted_kv_attention_alibi(
     )
     k = torch.zeros(sum(query_lens), num_kv_heads, head_size, dtype=dtype)
     v = torch.zeros(sum(query_lens), num_kv_heads, head_size, dtype=dtype)
-    values = torch.arange(0, cache_size, dtype=torch.long)
+    values = torch.arange(0, cache_size, dtype=torch.int32)
     values = values[torch.randperm(cache_size)]
     block_table = values[: BS * max_block_per_request].view(BS, max_block_per_request)
-    b_seq_len = torch.tensor(seq_lens, dtype=torch.long)
-    b_ctx_len = torch.tensor(ctx_lens, dtype=torch.long)
-    b_start_loc = torch.cumsum(torch.tensor([0] + query_lens, dtype=torch.long), dim=0)
+    b_seq_len = torch.tensor(seq_lens, dtype=torch.int32)
+    b_ctx_len = torch.tensor(ctx_lens, dtype=torch.int32)
+    b_start_loc = torch.cumsum(torch.tensor([0] + query_lens, dtype=torch.int32), dim=0)
     max_input_len = MAX_SEQ_LEN
     # copy kv to cache
     b_seq_start_loc = torch.cumsum(
-        torch.tensor([0] + seq_lens[:-1], dtype=torch.long), dim=0
+        torch.tensor([0] + seq_lens[:-1], dtype=torch.int32), dim=0
     )
     for i in range(BS):
         for j in range(query_lens[i]):
@@ -423,78 +504,75 @@ def test_contexted_kv_attention_alibi(
     print(f"triton Time: {(end_time - start_time) * 1000:.2f} ms")
     scale = float(1.0 / (head_size**0.5))
 
-    # NOTE(DefTruth): In order to reuse _make_alibi_bias function,
-    # we have to pad query tensor before MQA/GQA expanding.
-    if query.shape[0] != key.shape[0]:
-        query_pad = torch.empty(sum(seq_lens), num_heads, head_size, dtype=dtype)
-        query_pad.uniform_(-1e-3, 1e-3)
-        seq_start = 0
-        query_start = 0
-        for i, (query_len, seq_len) in enumerate(zip(query_lens, seq_lens)):
-            seq_end = seq_start + seq_len
-            query_end = query_start + query_len
-            query_pad[seq_start:seq_end, ...] = torch.cat(
-                [
-                    torch.zeros(seq_len - query_len, num_heads, head_size, dtype=dtype),
-                    query[query_start:query_end, ...],
-                ],
-                dim=0,
-            )
-            seq_start += seq_len
-            query_start += query_len
-        query = query_pad
+    # Prepare query, key, value for SDPA
+    # Expand key and value for GQA/MQA to match query heads
+    key_expanded = key[:, :, None, :].expand(
+        key.shape[0], num_kv_heads, num_queries_per_kv, key.shape[-1]
+    )
+    value_expanded = value[:, :, None, :].expand(
+        value.shape[0], num_kv_heads, num_queries_per_kv, value.shape[-1]
+    )
 
-    if num_kv_heads != num_heads:
-        # As of Nov 2023, xformers only supports MHA. For MQA/GQA,
-        # project the key and value tensors to the desired number of
-        # heads.
-        #
-        # see also: vllm/model_executor/layers/attention.py
-        key = key[:, :, None, :].expand(
-            key.shape[0], num_kv_heads, num_queries_per_kv, key.shape[-1]
-        )
-        value = value[:, :, None, :].expand(
-            value.shape[0], num_kv_heads, num_queries_per_kv, value.shape[-1]
-        )
-        # [seq, num_kv_heads, num_queries_per_kv, dk]=>
-        # [seq, num_kv_heads*num_queries_per_kv, dk] to comply with rest of the
-        # codebase. We save some time reshaping alibi matrix at runtime.
-        key = key.reshape(key.shape[0], -1, key.shape[-1])
-        value = value.reshape(value.shape[0], -1, value.shape[-1])
-    query = query.unsqueeze(0)
-    key = key.unsqueeze(0)
-    value = value.unsqueeze(0)
-
-    attn_bias = make_alibi_bias(alibi_slopes, num_kv_heads, dtype, seq_lens)
     output_ref = torch.empty_like(output)
-    seq_start = 0
-    query_start = 0
+
+    torch.cuda.synchronize()
     start_time = time.time()
-    # Attention with alibi slopes.
-    # FIXME(DefTruth): Because xformers does not support dynamic sequence
-    # lengths with custom attention bias, we process each prompt one by
-    # one. This is inefficient, especially when we have many short prompts.
-    # modified from: vllm/v1/attention/backends/xformers.py#L343
+
+    query_start = 0
+    key_start = 0
     for i, (query_len, seq_len) in enumerate(zip(query_lens, seq_lens)):
-        seq_end = seq_start + seq_len
         query_end = query_start + query_len
-        out = xops.memory_efficient_attention_forward(
-            query[:, seq_start:seq_end],
-            key[:, seq_start:seq_end],
-            value[:, seq_start:seq_end],
-            attn_bias=attn_bias[i],
-            p=0.0,
+        key_end = key_start + seq_len
+
+        # Get query, key, value for this sequence
+        q = query[query_start:query_end]  # [query_len, num_heads, head_size]
+        k = key_expanded[
+            key_start:key_end
+        ]  # [seq_len, num_kv_heads, num_queries_per_kv, head_size]
+        v = value_expanded[
+            key_start:key_end
+        ]  # [seq_len, num_kv_heads, num_queries_per_kv, head_size]
+
+        # Reshape for SDPA: (batch=1, num_heads, seq_len, head_size)
+        q_sdpa = q.view(query_len, num_kv_heads, num_queries_per_kv, head_size)
+        q_sdpa = (
+            q_sdpa.permute(1, 2, 0, 3)
+            .reshape(1, num_heads, query_len, head_size)
+            .contiguous()
+        )
+
+        k_sdpa = (
+            k.permute(1, 2, 0, 3).reshape(1, num_heads, seq_len, head_size).contiguous()
+        )
+        v_sdpa = (
+            v.permute(1, 2, 0, 3).reshape(1, num_heads, seq_len, head_size).contiguous()
+        )
+
+        # Create ALiBi causal mask for this sequence using utility function
+        alibi_mask = create_alibi_causal_mask(
+            query_len, seq_len, alibi_slopes, device, dtype
+        )
+
+        # Compute attention
+        out = F.scaled_dot_product_attention(
+            q_sdpa,
+            k_sdpa,
+            v_sdpa,
+            attn_mask=alibi_mask,
+            dropout_p=0.0,
             scale=scale,
         )
-        out = out.view_as(query[:, seq_start:seq_end]).view(
-            seq_len, num_heads, head_size
-        )
-        output_ref[query_start:query_end, ...].copy_(out[seq_len - query_len :, ...])
-        seq_start += seq_len
-        query_start += query_len
+
+        # Reshape output back to [query_len, num_heads, head_size]
+        out = out.view(num_heads, query_len, head_size).permute(1, 0, 2)
+        output_ref[query_start:query_end].copy_(out)
+
+        query_start = query_end
+        key_start = key_end
+
     torch.cuda.synchronize()
     end_time = time.time()
-    print(f"xformers Time: {(end_time - start_time) * 1000:.2f} ms")
+    print(f"PyTorch SDPA Time: {(end_time - start_time) * 1000:.2f} ms")
     atol = 1e-3 if "fp8" in kv_cache_dtype else 1e-6
     torch.testing.assert_close(output, output_ref, atol=atol, rtol=0)
 

From 684f2545851ee0ee49be9a80545ed497324f1a96 Mon Sep 17 00:00:00 2001
From: Matthew Bonanni <mbonanni@redhat.com>
Date: Tue, 11 Nov 2025 11:13:51 -0600
Subject: [PATCH 326/976] Prefer FlashAttention MLA as default over FlashMLA
 (#27363)

Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>
---
 vllm/platforms/cuda.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/vllm/platforms/cuda.py b/vllm/platforms/cuda.py
index 43daf5e75b665..22c6dde754d01 100644
--- a/vllm/platforms/cuda.py
+++ b/vllm/platforms/cuda.py
@@ -55,15 +55,15 @@ def _get_backend_priorities(
             return [
                 AttentionBackendEnum.CUTLASS_MLA,
                 AttentionBackendEnum.FLASHINFER_MLA,
-                AttentionBackendEnum.FLASHMLA,
                 AttentionBackendEnum.FLASH_ATTN_MLA,
+                AttentionBackendEnum.FLASHMLA,
                 AttentionBackendEnum.TRITON_MLA,
                 AttentionBackendEnum.FLASHMLA_SPARSE,
             ]
         else:
             return [
-                AttentionBackendEnum.FLASHMLA,
                 AttentionBackendEnum.FLASH_ATTN_MLA,
+                AttentionBackendEnum.FLASHMLA,
                 AttentionBackendEnum.FLASHINFER_MLA,
                 AttentionBackendEnum.TRITON_MLA,
                 AttentionBackendEnum.FLASHMLA_SPARSE,

From 6c3c0f8235cacce28982687e362b80d953ea7617 Mon Sep 17 00:00:00 2001
From: Xin Yang <105740670+xyang16@users.noreply.github.com>
Date: Tue, 11 Nov 2025 10:02:23 -0800
Subject: [PATCH 327/976] [Kernel] Optimize rms_norm kernel (#27931)

Signed-off-by: Xin Yang <xyangx@amazon.com>
---
 csrc/dispatch_utils.h           | 29 ++++++++++++++++++++++
 csrc/layernorm_kernels.cu       | 39 +++++++++++++++++++++---------
 csrc/layernorm_quant_kernels.cu | 43 ++++++++++++++++++++++-----------
 3 files changed, 86 insertions(+), 25 deletions(-)

diff --git a/csrc/dispatch_utils.h b/csrc/dispatch_utils.h
index 995374a50b037..9ae0ed975edde 100644
--- a/csrc/dispatch_utils.h
+++ b/csrc/dispatch_utils.h
@@ -88,3 +88,32 @@
 #define VLLM_DISPATCH_INTEGRAL_AND_UNSIGNED_TYPES(TYPE, NAME, ...) \
   AT_DISPATCH_SWITCH(                                              \
       TYPE, NAME, VLLM_DISPATCH_CASE_INTEGRAL_AND_UNSIGNED_TYPES(__VA_ARGS__))
+
+#define VLLM_DISPATCH_VEC_SIZE(VEC_SIZE, ...) \
+  switch (VEC_SIZE) {                         \
+    case 16: {                                \
+      constexpr int vec_size = 16;            \
+      __VA_ARGS__();                          \
+      break;                                  \
+    }                                         \
+    case 8: {                                 \
+      constexpr int vec_size = 8;             \
+      __VA_ARGS__();                          \
+      break;                                  \
+    }                                         \
+    case 4: {                                 \
+      constexpr int vec_size = 4;             \
+      __VA_ARGS__();                          \
+      break;                                  \
+    }                                         \
+    case 2: {                                 \
+      constexpr int vec_size = 2;             \
+      __VA_ARGS__();                          \
+      break;                                  \
+    }                                         \
+    default: {                                \
+      constexpr int vec_size = 1;             \
+      __VA_ARGS__();                          \
+      break;                                  \
+    }                                         \
+  }
diff --git a/csrc/layernorm_kernels.cu b/csrc/layernorm_kernels.cu
index 8cfcf9f41283a..48771e4b3aff9 100644
--- a/csrc/layernorm_kernels.cu
+++ b/csrc/layernorm_kernels.cu
@@ -10,7 +10,7 @@
 namespace vllm {
 
 // TODO(woosuk): Further optimize this kernel.
-template <typename scalar_t>
+template <typename scalar_t, int VEC_SIZE>
 __global__ void rms_norm_kernel(
     scalar_t* __restrict__ out,          // [..., hidden_size]
     const scalar_t* __restrict__ input,  // [..., hidden_size]
@@ -21,7 +21,6 @@ __global__ void rms_norm_kernel(
   float variance = 0.0f;
   const scalar_t* input_row = input + blockIdx.x * input_stride;
 
-  constexpr int VEC_SIZE = 8;
   auto vec_op = [&variance](const vec_n_t<scalar_t, VEC_SIZE>& vec) {
 #pragma unroll
     for (int i = 0; i < VEC_SIZE; ++i) {
@@ -45,10 +44,20 @@ __global__ void rms_norm_kernel(
   }
   __syncthreads();
 
-  for (int idx = threadIdx.x; idx < hidden_size; idx += blockDim.x) {
-    float x = (float)input[blockIdx.x * input_stride + idx];
-    out[blockIdx.x * hidden_size + idx] =
-        ((scalar_t)(x * s_variance)) * weight[idx];
+  scalar_t* out_row = out + blockIdx.x * hidden_size;
+  auto* v_in = reinterpret_cast<const vec_n_t<scalar_t, VEC_SIZE>*>(input_row);
+  auto* v_w = reinterpret_cast<const vec_n_t<scalar_t, VEC_SIZE>*>(weight);
+  auto* v_out = reinterpret_cast<vec_n_t<scalar_t, VEC_SIZE>*>(out_row);
+  for (int i = threadIdx.x; i < hidden_size / VEC_SIZE; i += blockDim.x) {
+    vec_n_t<scalar_t, VEC_SIZE> dst;
+    vec_n_t<scalar_t, VEC_SIZE> src1 = v_in[i];
+    vec_n_t<scalar_t, VEC_SIZE> src2 = v_w[i];
+#pragma unroll
+    for (int j = 0; j < VEC_SIZE; j++) {
+      float x = static_cast<float>(src1.val[j]);
+      dst.val[j] = ((scalar_t)(x * s_variance)) * src2.val[j];
+    }
+    v_out[i] = dst;
   }
 }
 
@@ -168,16 +177,24 @@ void rms_norm(torch::Tensor& out,     // [..., hidden_size]
   int num_tokens = input_view.numel() / hidden_size;
   int64_t input_stride = input_view.stride(-2);
 
+  // For large num_tokens, use smaller blocks to increase SM concurrency.
+  const int max_block_size = (num_tokens < 256) ? 1024 : 256;
   dim3 grid(num_tokens);
-  dim3 block(std::min(hidden_size, 1024));
   const at::cuda::OptionalCUDAGuard device_guard(device_of(input_view));
   const cudaStream_t stream = at::cuda::getCurrentCUDAStream();
   VLLM_DISPATCH_FLOATING_TYPES(
       input_view.scalar_type(), "rms_norm_kernel", [&] {
-        vllm::rms_norm_kernel<scalar_t><<<grid, block, 0, stream>>>(
-            out.data_ptr<scalar_t>(), input_view.data_ptr<scalar_t>(),
-            input_stride, weight.data_ptr<scalar_t>(), epsilon, num_tokens,
-            hidden_size);
+        const int calculated_vec_size =
+            std::gcd(16 / sizeof(scalar_t), hidden_size);
+        const int block_size =
+            std::min(hidden_size / calculated_vec_size, max_block_size);
+        dim3 block(block_size);
+        VLLM_DISPATCH_VEC_SIZE(calculated_vec_size, [&] {
+          vllm::rms_norm_kernel<scalar_t, vec_size><<<grid, block, 0, stream>>>(
+              out.data_ptr<scalar_t>(), input_view.data_ptr<scalar_t>(),
+              input_stride, weight.data_ptr<scalar_t>(), epsilon, num_tokens,
+              hidden_size);
+        });
       });
 }
 
diff --git a/csrc/layernorm_quant_kernels.cu b/csrc/layernorm_quant_kernels.cu
index 0f7f034ee180b..0880b8d50a795 100644
--- a/csrc/layernorm_quant_kernels.cu
+++ b/csrc/layernorm_quant_kernels.cu
@@ -18,7 +18,7 @@
 namespace vllm {
 
 // TODO(woosuk): Further optimize this kernel.
-template <typename scalar_t, typename fp8_type>
+template <typename scalar_t, typename fp8_type, int VEC_SIZE>
 __global__ void rms_norm_static_fp8_quant_kernel(
     fp8_type* __restrict__ out,          // [..., hidden_size]
     const scalar_t* __restrict__ input,  // [..., hidden_size]
@@ -31,7 +31,6 @@ __global__ void rms_norm_static_fp8_quant_kernel(
 
   const scalar_t* input_row = input + blockIdx.x * input_stride;
 
-  constexpr int VEC_SIZE = 8;
   auto vec_op = [&variance](const vec_n_t<scalar_t, VEC_SIZE>& vec) {
 #pragma unroll
     for (int i = 0; i < VEC_SIZE; ++i) {
@@ -58,11 +57,18 @@ __global__ void rms_norm_static_fp8_quant_kernel(
   // invert scale to avoid division
   float const scale_inv = 1.0f / *scale;
 
-  for (int idx = threadIdx.x; idx < hidden_size; idx += blockDim.x) {
-    float x = (float)input[blockIdx.x * input_stride + idx];
-    float const out_norm = ((scalar_t)(x * s_variance)) * weight[idx];
-    out[blockIdx.x * hidden_size + idx] =
-        scaled_fp8_conversion<true, fp8_type>(out_norm, scale_inv);
+  auto* v_in = reinterpret_cast<const vec_n_t<scalar_t, VEC_SIZE>*>(input_row);
+  auto* v_w = reinterpret_cast<const vec_n_t<scalar_t, VEC_SIZE>*>(weight);
+  for (int idx = threadIdx.x; idx < hidden_size / VEC_SIZE; idx += blockDim.x) {
+    vec_n_t<scalar_t, VEC_SIZE> src1 = v_in[idx];
+    vec_n_t<scalar_t, VEC_SIZE> src2 = v_w[idx];
+#pragma unroll
+    for (int j = 0; j < VEC_SIZE; j++) {
+      float x = static_cast<float>(src1.val[j]);
+      float const out_norm = ((scalar_t)(x * s_variance)) * src2.val[j];
+      out[blockIdx.x * hidden_size + idx * VEC_SIZE + j] =
+          scaled_fp8_conversion<true, fp8_type>(out_norm, scale_inv);
+    }
   }
 }
 
@@ -188,20 +194,29 @@ void rms_norm_static_fp8_quant(torch::Tensor& out,     // [..., hidden_size]
   int input_stride = input.stride(-2);
   int num_tokens = input.numel() / hidden_size;
 
+  // For large num_tokens, use smaller blocks to increase SM concurrency.
+  const int max_block_size = (num_tokens < 256) ? 1024 : 256;
   dim3 grid(num_tokens);
-  dim3 block(std::min(hidden_size, 1024));
   const at::cuda::OptionalCUDAGuard device_guard(device_of(input));
   const cudaStream_t stream = at::cuda::getCurrentCUDAStream();
   VLLM_DISPATCH_FLOATING_TYPES(
       input.scalar_type(), "rms_norm_kernel_scalar_type", [&] {
         VLLM_DISPATCH_FP8_TYPES(
             out.scalar_type(), "rms_norm_kernel_fp8_type", [&] {
-              vllm::rms_norm_static_fp8_quant_kernel<scalar_t, fp8_t>
-                  <<<grid, block, 0, stream>>>(
-                      out.data_ptr<fp8_t>(), input.data_ptr<scalar_t>(),
-                      input_stride, weight.data_ptr<scalar_t>(),
-                      scale.data_ptr<float>(), epsilon, num_tokens,
-                      hidden_size);
+              const int calculated_vec_size =
+                  std::gcd(16 / sizeof(scalar_t), hidden_size);
+              const int block_size =
+                  std::min(hidden_size / calculated_vec_size, max_block_size);
+              dim3 block(block_size);
+              VLLM_DISPATCH_VEC_SIZE(calculated_vec_size, [&] {
+                vllm::rms_norm_static_fp8_quant_kernel<scalar_t, fp8_t,
+                                                       vec_size>
+                    <<<grid, block, 0, stream>>>(
+                        out.data_ptr<fp8_t>(), input.data_ptr<scalar_t>(),
+                        input_stride, weight.data_ptr<scalar_t>(),
+                        scale.data_ptr<float>(), epsilon, num_tokens,
+                        hidden_size);
+              });
             });
       });
 }

From d5edcb86781ea56f1eb0c9c5d7482a7cae00ec17 Mon Sep 17 00:00:00 2001
From: Fanli Lin <fanli.lin@intel.com>
Date: Wed, 12 Nov 2025 02:18:02 +0800
Subject: [PATCH 328/976] [BugFix] Fix Siglip2Attention on XPU (#28448)

Signed-off-by: Lin, Fanli <fanli.lin@intel.com>
---
 vllm/model_executor/models/siglip2navit.py | 11 +++++++++--
 1 file changed, 9 insertions(+), 2 deletions(-)

diff --git a/vllm/model_executor/models/siglip2navit.py b/vllm/model_executor/models/siglip2navit.py
index c20bcd975ca30..29dd164ad37fd 100644
--- a/vllm/model_executor/models/siglip2navit.py
+++ b/vllm/model_executor/models/siglip2navit.py
@@ -25,6 +25,7 @@ from vllm.model_executor.layers.linear import (
 )
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.platforms import current_platform
 
 from .vision import get_vit_attn_backend
 
@@ -188,7 +189,7 @@ def apply_rotary_pos_emb(
 ) -> tuple[torch.Tensor, torch.Tensor]:
     cos = cos.chunk(2, dim=-1)[0].contiguous()
     sin = sin.chunk(2, dim=-1)[0].contiguous()
-    if is_flash_attn_backend:
+    if is_flash_attn_backend and not current_platform.is_xpu():
         from flash_attn.layers.rotary import apply_rotary_emb
 
         apply_rotary_emb_func = apply_rotary_emb
@@ -306,7 +307,13 @@ class Siglip2Attention(nn.Module):
         max_seqlen = (cu_seqlens[1:] - cu_seqlens[:-1]).max().item()
         if self.is_flash_attn_backend:
             attn_output = self.flash_attn_varlen_func(
-                queries, keys, values, cu_seqlens, cu_seqlens, max_seqlen, max_seqlen
+                queries,
+                keys,
+                values,
+                cu_seqlens_q=cu_seqlens,
+                cu_seqlens_k=cu_seqlens,
+                max_seqlen_q=max_seqlen,
+                max_seqlen_k=max_seqlen,
             ).reshape(seq_length, -1)
         elif self.attn_backend == AttentionBackendEnum.TORCH_SDPA:
             # Execute attention entry by entry for speed & less VRAM.

From 76e4dcf225e4de115bdc20b00a78d49bec767c09 Mon Sep 17 00:00:00 2001
From: Lukas Geiger <lukas.geiger94@gmail.com>
Date: Tue, 11 Nov 2025 18:26:04 +0000
Subject: [PATCH 329/976] [Misc] Remove unused attention prefix prefill ops
 functions (#26971)

Signed-off-by: Lukas Geiger <lukas.geiger94@gmail.com>
---
 vllm/attention/ops/prefix_prefill.py          | 210 ------------------
 .../compressed_tensors_moe.py                 |   3 -
 2 files changed, 213 deletions(-)

diff --git a/vllm/attention/ops/prefix_prefill.py b/vllm/attention/ops/prefix_prefill.py
index addf1d9dea73e..f101d5c4a9278 100644
--- a/vllm/attention/ops/prefix_prefill.py
+++ b/vllm/attention/ops/prefix_prefill.py
@@ -335,216 +335,6 @@ def _fwd_kernel(
     return
 
 
-@triton.jit
-def _fwd_kernel_flash_attn_v2(
-    Q,
-    K,
-    V,
-    K_cache,
-    V_cache,
-    B_Loc,
-    sm_scale,
-    B_Start_Loc,
-    B_Seqlen,
-    B_Ctxlen,
-    block_size,
-    x,
-    Out,
-    stride_b_loc_b,
-    stride_b_loc_s,
-    stride_qbs,
-    stride_qh,
-    stride_qd,
-    stride_kbs,
-    stride_kh,
-    stride_kd,
-    stride_vbs,
-    stride_vh,
-    stride_vd,
-    stride_obs,
-    stride_oh,
-    stride_od,
-    stride_k_cache_bs,
-    stride_k_cache_h,
-    stride_k_cache_d,
-    stride_k_cache_bl,
-    stride_k_cache_x,
-    stride_v_cache_bs,
-    stride_v_cache_h,
-    stride_v_cache_d,
-    stride_v_cache_bl,
-    num_queries_per_kv: int,
-    BLOCK_M: tl.constexpr,
-    BLOCK_DMODEL: tl.constexpr,
-    BLOCK_N: tl.constexpr,
-):
-    cur_batch = tl.program_id(0)
-    cur_head = tl.program_id(1)
-    start_m = tl.program_id(2)
-
-    cur_kv_head = cur_head // num_queries_per_kv
-
-    cur_batch_ctx_len = tl.load(B_Ctxlen + cur_batch)
-    cur_batch_seq_len = tl.load(B_Seqlen + cur_batch)
-    cur_batch_in_all_start_index = tl.load(B_Start_Loc + cur_batch)
-
-    block_start_loc = BLOCK_M * start_m
-
-    # initialize offsets
-    offs_n = tl.arange(0, BLOCK_N)
-    offs_d = tl.arange(0, BLOCK_DMODEL)
-    offs_m = start_m * BLOCK_M + tl.arange(0, BLOCK_M)
-    off_q = (
-        (cur_batch_in_all_start_index + offs_m[:, None]) * stride_qbs
-        + cur_head * stride_qh
-        + offs_d[None, :] * stride_qd
-    )
-
-    q = tl.load(
-        Q + off_q,
-        mask=offs_m[:, None] < cur_batch_seq_len - cur_batch_ctx_len,
-        other=0.0,
-    )
-
-    # # initialize pointer to m and l
-    m_i = tl.zeros([BLOCK_M], dtype=tl.float32) - float("inf")
-    l_i = tl.zeros([BLOCK_M], dtype=tl.float32)
-    acc = tl.zeros([BLOCK_M, BLOCK_DMODEL], dtype=tl.float32)
-
-    for start_n in range(0, cur_batch_ctx_len, BLOCK_N):
-        start_n = tl.multiple_of(start_n, BLOCK_N)
-        # -- compute qk ----
-        bn = tl.load(
-            B_Loc
-            + cur_batch * stride_b_loc_b
-            + ((start_n + offs_n) // block_size) * stride_b_loc_s,
-            mask=(start_n + offs_n) < cur_batch_ctx_len,
-            other=0,
-        ).to(tl.int64)
-        off_k = (
-            bn[None, :] * stride_k_cache_bs
-            + cur_kv_head * stride_k_cache_h
-            + (offs_d[:, None] // x) * stride_k_cache_d
-            + ((start_n + offs_n[None, :]) % block_size) * stride_k_cache_bl
-            + (offs_d[:, None] % x) * stride_k_cache_x
-        )
-        off_v = (
-            bn[:, None] * stride_v_cache_bs
-            + cur_kv_head * stride_v_cache_h
-            + offs_d[None, :] * stride_v_cache_d
-            + (start_n + offs_n[:, None]) % block_size * stride_v_cache_bl
-        )
-        k = tl.load(
-            K_cache + off_k,
-            mask=(start_n + offs_n[None, :]) < cur_batch_ctx_len,
-            other=0.0,
-        )
-        qk = tl.zeros([BLOCK_M, BLOCK_N], dtype=tl.float32)
-        qk += tl.dot(q, k)
-        qk = tl.where(
-            (start_n + offs_n[None, :]) < cur_batch_ctx_len, qk, float("-inf")
-        )
-        qk *= sm_scale
-
-        # -- compute m_ij, p, l_ij
-        m_ij = tl.max(qk, 1)
-        m_i_new = tl.maximum(m_i, m_ij)
-        p = tl.math.exp(qk - m_i_new[:, None])
-        l_ij = tl.sum(p, 1)
-        # -- update m_i and l_i
-
-        alpha = tl.math.exp(m_i - m_i_new)
-        l_i_new = alpha * l_i + l_ij
-        # -- update output accumulator --
-        # scale p
-        # scale acc
-        acc_scale = alpha
-        # acc_scale = l_i / l_i_new * alpha
-        acc = acc * acc_scale[:, None]
-        # update acc
-        v = tl.load(
-            V_cache + off_v,
-            mask=(start_n + offs_n[:, None]) < cur_batch_ctx_len,
-            other=0.0,
-        )
-
-        p = p.to(v.dtype)
-        acc += tl.dot(p, v)
-        # update m_i and l_i
-        l_i = l_i_new
-        m_i = m_i_new
-
-    off_k = (
-        offs_n[None, :] * stride_kbs
-        + cur_kv_head * stride_kh
-        + offs_d[:, None] * stride_kd
-    )
-    off_v = (
-        offs_n[:, None] * stride_vbs
-        + cur_kv_head * stride_vh
-        + offs_d[None, :] * stride_vd
-    )
-    k_ptrs = K + off_k
-    v_ptrs = V + off_v
-
-    block_mask = tl.where(block_start_loc < cur_batch_seq_len - cur_batch_ctx_len, 1, 0)
-
-    for start_n in range(0, block_mask * (start_m + 1) * BLOCK_M, BLOCK_N):
-        start_n = tl.multiple_of(start_n, BLOCK_N)
-        # -- compute qk ----
-        k = tl.load(
-            k_ptrs + (cur_batch_in_all_start_index + start_n) * stride_kbs,
-            mask=(start_n + offs_n[None, :]) < cur_batch_seq_len - cur_batch_ctx_len,
-            other=0.0,
-        )
-
-        qk = tl.zeros([BLOCK_M, BLOCK_N], dtype=tl.float32)
-        qk += tl.dot(q, k)
-        qk *= sm_scale
-        qk = tl.where(offs_m[:, None] >= (start_n + offs_n[None, :]), qk, float("-inf"))
-
-        # -- compute m_ij, p, l_ij
-        m_ij = tl.max(qk, 1)
-        m_i_new = tl.maximum(m_i, m_ij)
-        p = tl.math.exp(qk - m_i_new[:, None])
-        l_ij = tl.sum(p, 1)
-        # -- update m_i and l_i
-
-        alpha = tl.math.exp(m_i - m_i_new)
-        l_i_new = alpha * l_i + l_ij
-        # -- update output accumulator --
-        # scale p
-        # scale acc
-        acc_scale = alpha
-        # acc_scale = l_i / l_i_new * alpha
-        acc = acc * acc_scale[:, None]
-        # update acc
-        v = tl.load(
-            v_ptrs + (cur_batch_in_all_start_index + start_n) * stride_vbs,
-            mask=(start_n + offs_n[:, None]) < cur_batch_seq_len - cur_batch_ctx_len,
-            other=0.0,
-        )
-
-        p = p.to(v.dtype)
-        acc += tl.dot(p, v)
-        # update m_i and l_i
-        l_i = l_i_new
-        m_i = m_i_new
-
-    # acc /= l_i[:, None]
-    # initialize pointers to output
-    off_o = (
-        (cur_batch_in_all_start_index + offs_m[:, None]) * stride_obs
-        + cur_head * stride_oh
-        + offs_d[None, :] * stride_od
-    )
-    out_ptrs = Out + off_o
-    tl.store(
-        out_ptrs, acc, mask=offs_m[:, None] < cur_batch_seq_len - cur_batch_ctx_len
-    )
-    return
-
-
 @triton.jit
 def _fwd_kernel_alibi(
     Q,
diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
index 59567f2ca13c7..6257a410e9432 100644
--- a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
@@ -98,9 +98,6 @@ __all__ = [
 
 
 class CompressedTensorsMoEMethod(FusedMoEMethodBase):
-    def __init_(self, moe: FusedMoEConfig):
-        super().__init__(moe)
-
     @staticmethod
     def get_moe_method(
         quant_config: "CompressedTensorsConfig",  # type: ignore # noqa E501

From 4228be7959e98e57d88501bd97aca7ef34ff562e Mon Sep 17 00:00:00 2001
From: Jialin Ouyang <Jialin.Ouyang@gmail.com>
Date: Tue, 11 Nov 2025 10:28:47 -0800
Subject: [PATCH 330/976] [Perf] Use np.ndarray instead of list[list[int]] to
 reduce GC overhead (#28245)

Signed-off-by: Jialin Ouyang <Jialin.Ouyang@gmail.com>
---
 tests/v1/engine/utils.py   |  7 ++++---
 vllm/v1/engine/logprobs.py |  7 ++++++-
 vllm/v1/outputs.py         | 13 +++++++------
 3 files changed, 17 insertions(+), 10 deletions(-)

diff --git a/tests/v1/engine/utils.py b/tests/v1/engine/utils.py
index 23684a2c55cef..3541ef89bfc14 100644
--- a/tests/v1/engine/utils.py
+++ b/tests/v1/engine/utils.py
@@ -5,6 +5,7 @@ import random
 from dataclasses import dataclass
 from typing import TypeAlias
 
+import numpy as np
 import torch
 from transformers import PreTrainedTokenizer, PreTrainedTokenizerFast
 
@@ -369,9 +370,9 @@ class MockEngineCore:
                         self.generated_logprobs_raw[req_idx][token_idx]
                     )
                     logprobs = LogprobsLists(
-                        [logprobs_token_ids_],
-                        [logprobs_],
-                        [sampled_token_ranks_],
+                        np.array([logprobs_token_ids_]),
+                        np.array([logprobs_]),
+                        np.array([sampled_token_ranks_]),
                     )
                 else:
                     logprobs = None
diff --git a/vllm/v1/engine/logprobs.py b/vllm/v1/engine/logprobs.py
index 4c5955d7ee2e5..b618d23472651 100644
--- a/vllm/v1/engine/logprobs.py
+++ b/vllm/v1/engine/logprobs.py
@@ -74,7 +74,12 @@ class LogprobsProcessor:
 
         token_ids_lst, logprobs_lst, ranks_lst, _ = logprobs_lists
 
-        for rank, logprobs, token_ids in zip(ranks_lst, logprobs_lst, token_ids_lst):
+        for rank_np, logprobs_np, token_ids_np in zip(
+            ranks_lst, logprobs_lst, token_ids_lst
+        ):
+            rank = rank_np.tolist()
+            logprobs = logprobs_np.tolist()
+            token_ids = token_ids_np.tolist()
             # Detokenize (non-incrementally).
             decoded_tokens = (
                 NONES
diff --git a/vllm/v1/outputs.py b/vllm/v1/outputs.py
index b5cba96e1026f..5f65e4ee0d1f3 100644
--- a/vllm/v1/outputs.py
+++ b/vllm/v1/outputs.py
@@ -5,6 +5,7 @@ from abc import ABC, abstractmethod
 from dataclasses import dataclass, field
 from typing import TYPE_CHECKING, NamedTuple
 
+import numpy as np
 import torch
 
 if TYPE_CHECKING:
@@ -15,11 +16,11 @@ else:
 
 class LogprobsLists(NamedTuple):
     # [num_reqs x num_generated_tokens, max_num_logprobs + 1]
-    logprob_token_ids: list[list[int]]
+    logprob_token_ids: np.ndarray
     # [num_reqs x num_generated_tokens, max_num_logprobs + 1]
-    logprobs: list[list[float]]
+    logprobs: np.ndarray
     # [num_reqs x num_generated_tokens]
-    sampled_token_ranks: list[int]
+    sampled_token_ranks: np.ndarray
     # [num_reqs]
     # Used for slicing the logprobs in cases like speculative
     # decoding where the number of generated tokens may be
@@ -60,9 +61,9 @@ class LogprobsTensors(NamedTuple):
 
     def tolists(self, cu_num_generated_tokens: list[int] | None = None):
         return LogprobsLists(
-            self.logprob_token_ids.tolist(),
-            self.logprobs.tolist(),
-            self.selected_token_ranks.tolist(),
+            self.logprob_token_ids.cpu().numpy(),
+            self.logprobs.cpu().numpy(),
+            self.selected_token_ranks.cpu().numpy(),
             cu_num_generated_tokens,
         )
 

From de120bc94f2e51633824093c626423ec8e7cb3a9 Mon Sep 17 00:00:00 2001
From: Canlin Guo <961750412@qq.com>
Date: Wed, 12 Nov 2025 02:57:12 +0800
Subject: [PATCH 331/976] [V0 deprecation] Clean up num_prefill_tokens logic
 for V0 (#28203)

Signed-off-by: gcanlin <canlinguosdu@gmail.com>
---
 vllm/forward_context.py | 18 +++---------------
 1 file changed, 3 insertions(+), 15 deletions(-)

diff --git a/vllm/forward_context.py b/vllm/forward_context.py
index ef37cf862c9fe..44bc2a4cda311 100644
--- a/vllm/forward_context.py
+++ b/vllm/forward_context.py
@@ -5,7 +5,7 @@ import time
 from collections import defaultdict
 from contextlib import contextmanager
 from dataclasses import dataclass
-from typing import TYPE_CHECKING, Any, NamedTuple, Union
+from typing import TYPE_CHECKING, Any, NamedTuple
 
 import torch
 
@@ -185,18 +185,13 @@ class ForwardContext:
     # copy from vllm_config.compilation_config.static_forward_context
     no_compile_layers: dict[str, Any]
     """
-    Type AttentionMetadata for v0, 
     Type Dict[str, AttentionMetadata] for v1, map from layer_name of each 
     attention layer to its attention metadata
     Type List[Dict[str, AttentionMetadata]] for DBO. List of size two, one
     for each microbatch.
     Set dynamically for each forward pass
     """
-    attn_metadata: Union[
-        "AttentionMetadata",
-        dict[str, "AttentionMetadata"],
-        list[dict[str, "AttentionMetadata"]],
-    ]
+    attn_metadata: dict[str, "AttentionMetadata"] | list[dict[str, "AttentionMetadata"]]
     # TODO: remove after making all virtual_engines share the same kv cache
     virtual_engine: int  # set dynamically for each forward pass
     # set dynamically for each forward pass
@@ -324,14 +319,7 @@ def set_forward_context(
     finally:
         global last_logging_time, batchsize_logging_interval
         if need_to_track_batchsize:
-            if hasattr(attn_metadata, "num_prefill_tokens"):
-                # for v0 attention backends
-                batchsize = (
-                    attn_metadata.num_prefill_tokens + attn_metadata.num_decode_tokens
-                )
-            else:
-                # for v1 attention backends
-                batchsize = num_tokens
+            batchsize = num_tokens
             # we use synchronous scheduling right now,
             # adding a sync point here should not affect
             # scheduling of the next batch

From 8c32c6e4b485f1cae1a1dc8a3f9895cf63f3e7af Mon Sep 17 00:00:00 2001
From: Jie Luo <65482183+Livinfly@users.noreply.github.com>
Date: Wed, 12 Nov 2025 02:59:16 +0800
Subject: [PATCH 332/976] [Misc] fix typo in DCP comment (#28389)

Signed-off-by: Livinfly <luojie3m@gmail.com>
---
 vllm/v1/attention/backends/mla/common.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/v1/attention/backends/mla/common.py b/vllm/v1/attention/backends/mla/common.py
index b4cb5c200da38..19bd102cb1e30 100755
--- a/vllm/v1/attention/backends/mla/common.py
+++ b/vllm/v1/attention/backends/mla/common.py
@@ -2000,7 +2000,7 @@ class MLACommonImpl(MLACommonBaseImpl[M], Generic[M]):
                 decode_q, kv_cache, attn_metadata, layer
             )
 
-            # recorect dcp attn_out with lse.
+            # correct dcp attn_out with lse.
             if self.dcp_world_size > 1:
                 attn_out = cp_lse_ag_out_rs(attn_out, lse, get_dcp_group())
 

From 9d1c47470430ba31c02946aa1fd01aadf6e18b91 Mon Sep 17 00:00:00 2001
From: Jee Jee Li <pandaleefree@gmail.com>
Date: Wed, 12 Nov 2025 03:06:21 +0800
Subject: [PATCH 333/976] [LoRA][1/N]Remove LoRA extra vocab (#28382)

Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>
---
 vllm/model_executor/models/apertus.py         | 30 +++-------------
 vllm/model_executor/models/arcee.py           | 10 ++----
 vllm/model_executor/models/arctic.py          |  6 ++--
 vllm/model_executor/models/aria.py            |  8 ++---
 vllm/model_executor/models/baichuan.py        |  4 +--
 vllm/model_executor/models/bailing_moe.py     |  2 --
 vllm/model_executor/models/bamba.py           | 30 ++++------------
 vllm/model_executor/models/chameleon.py       |  8 ++---
 vllm/model_executor/models/chatglm.py         |  3 +-
 vllm/model_executor/models/commandr.py        | 19 ++++-------
 vllm/model_executor/models/dbrx.py            |  9 ++---
 vllm/model_executor/models/exaone.py          | 27 +++------------
 vllm/model_executor/models/exaone4.py         | 26 +++-----------
 vllm/model_executor/models/falcon_h1.py       | 31 ++++-------------
 vllm/model_executor/models/gemma.py           |  2 --
 vllm/model_executor/models/gemma2.py          |  3 +-
 vllm/model_executor/models/gemma3.py          |  3 +-
 vllm/model_executor/models/gemma3n.py         |  3 +-
 vllm/model_executor/models/glm4.py            |  2 --
 vllm/model_executor/models/gpt_bigcode.py     | 20 +++--------
 vllm/model_executor/models/granitemoe.py      | 27 +++------------
 .../model_executor/models/granitemoehybrid.py | 27 +++------------
 .../model_executor/models/granitemoeshared.py | 28 +++------------
 vllm/model_executor/models/grok1.py           | 26 ++++----------
 vllm/model_executor/models/hunyuan_v1.py      | 21 ++++--------
 vllm/model_executor/models/internlm2.py       |  2 --
 vllm/model_executor/models/jamba.py           | 30 ++++------------
 vllm/model_executor/models/kimi_vl.py         | 10 ++----
 vllm/model_executor/models/lfm2.py            | 31 +++--------------
 vllm/model_executor/models/lfm2_moe.py        | 32 ++++-------------
 vllm/model_executor/models/llama_eagle3.py    |  3 --
 vllm/model_executor/models/longcat_flash.py   |  3 +-
 vllm/model_executor/models/mamba.py           | 29 ++++------------
 vllm/model_executor/models/mamba2.py          | 28 +++------------
 vllm/model_executor/models/medusa.py          | 12 ++-----
 vllm/model_executor/models/mimo.py            |  2 --
 vllm/model_executor/models/minicpm.py         | 30 ++++------------
 vllm/model_executor/models/minicpm_eagle.py   | 29 ++++------------
 vllm/model_executor/models/minimax_text_01.py | 11 ++----
 vllm/model_executor/models/mlp_speculator.py  |  1 -
 vllm/model_executor/models/molmo.py           |  3 +-
 vllm/model_executor/models/nemotron.py        | 30 ++++------------
 vllm/model_executor/models/nemotron_h.py      | 30 ++++------------
 vllm/model_executor/models/nemotron_nas.py    | 31 ++++-------------
 vllm/model_executor/models/olmo.py            |  4 +--
 vllm/model_executor/models/olmo2.py           |  2 --
 vllm/model_executor/models/ouro.py            |  2 --
 vllm/model_executor/models/phi.py             |  3 +-
 vllm/model_executor/models/phi3v.py           |  1 -
 vllm/model_executor/models/phi4mm.py          | 14 ++------
 vllm/model_executor/models/phimoe.py          | 34 ++++---------------
 vllm/model_executor/models/plamo2.py          | 11 ++----
 vllm/model_executor/models/qwen2.py           |  2 --
 vllm/model_executor/models/qwen2_rm.py        |  2 --
 vllm/model_executor/models/qwen3.py           |  2 --
 vllm/model_executor/models/qwen3_next.py      | 30 ++++------------
 vllm/model_executor/models/qwen3_next_mtp.py  | 23 ++++---------
 vllm/model_executor/models/qwen3_vl.py        |  2 --
 vllm/model_executor/models/seed_oss.py        |  2 --
 vllm/model_executor/models/solar.py           | 30 ++++------------
 vllm/model_executor/models/starcoder2.py      | 12 ++-----
 vllm/model_executor/models/step3_text.py      | 16 ++-------
 .../models/transformers/causal.py             |  3 +-
 vllm/model_executor/models/whisper.py         |  6 ++--
 vllm/model_executor/models/zamba2.py          | 28 +++------------
 65 files changed, 197 insertions(+), 754 deletions(-)

diff --git a/vllm/model_executor/models/apertus.py b/vllm/model_executor/models/apertus.py
index 72e5ddcf1abeb..233b8c79f2992 100644
--- a/vllm/model_executor/models/apertus.py
+++ b/vllm/model_executor/models/apertus.py
@@ -49,7 +49,6 @@ from vllm.model_executor.layers.logits_processor import LogitsProcessor
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.layers.rotary_embedding import get_rope
 from vllm.model_executor.layers.vocab_parallel_embedding import (
-    DEFAULT_VOCAB_PADDING_SIZE,
     ParallelLMHead,
     VocabParallelEmbedding,
 )
@@ -346,24 +345,18 @@ class ApertusModel(nn.Module):
         config = vllm_config.model_config.hf_config
         cache_config = vllm_config.cache_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
 
         self.config = config
         self.quant_config = quant_config
-        lora_vocab = (
-            (lora_config.lora_extra_vocab_size * (lora_config.max_loras or 1))
-            if lora_config
-            else 0
-        )
-        self.vocab_size = config.vocab_size + lora_vocab
-        self.org_vocab_size = config.vocab_size
+
+        self.vocab_size = config.vocab_size
+
         if get_pp_group().is_first_rank or (
             config.tie_word_embeddings and get_pp_group().is_last_rank
         ):
             self.embed_tokens = VocabParallelEmbedding(
                 self.vocab_size,
                 config.hidden_size,
-                org_num_embeddings=config.vocab_size,
                 quant_config=quant_config,
             )
         else:
@@ -518,9 +511,7 @@ class ApertusForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
         super().__init__()
         config = vllm_config.model_config.hf_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
         self.config = config
-        self.lora_config = lora_config
 
         self.model = self._init_model(
             vllm_config=vllm_config,
@@ -529,20 +520,9 @@ class ApertusForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
         )
 
         if get_pp_group().is_last_rank:
-            self.unpadded_vocab_size = config.vocab_size
-            if lora_config:
-                self.unpadded_vocab_size += lora_config.lora_extra_vocab_size
             self.lm_head = ParallelLMHead(
-                self.unpadded_vocab_size,
+                config.vocab_size,
                 config.hidden_size,
-                org_num_embeddings=config.vocab_size,
-                padding_size=(
-                    DEFAULT_VOCAB_PADDING_SIZE
-                    # We need bigger padding if using lora for kernel
-                    # compatibility
-                    if not lora_config
-                    else lora_config.lora_vocab_padding_size
-                ),
                 quant_config=quant_config,
                 prefix=maybe_prefix(prefix, "lm_head"),
             )
@@ -551,7 +531,7 @@ class ApertusForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
 
             logit_scale = getattr(config, "logit_scale", 1.0)
             self.logits_processor = LogitsProcessor(
-                self.unpadded_vocab_size, config.vocab_size, logit_scale
+                config.vocab_size, scale=logit_scale
             )
         else:
             self.lm_head = PPMissingLayer()
diff --git a/vllm/model_executor/models/arcee.py b/vllm/model_executor/models/arcee.py
index 08bf1a6aad75b..f33970aff279c 100644
--- a/vllm/model_executor/models/arcee.py
+++ b/vllm/model_executor/models/arcee.py
@@ -23,7 +23,6 @@ from vllm.model_executor.layers.layernorm import RMSNorm
 from vllm.model_executor.layers.linear import ColumnParallelLinear, RowParallelLinear
 from vllm.model_executor.layers.logits_processor import LogitsProcessor
 from vllm.model_executor.layers.vocab_parallel_embedding import (
-    DEFAULT_VOCAB_PADDING_SIZE,
     ParallelLMHead,
     VocabParallelEmbedding,
 )
@@ -200,7 +199,6 @@ class ArceeModel(nn.Module):
         self.quant_config = quant_config
         self.config = config
         self.vocab_size = config.vocab_size
-        self.org_vocab_size = config.vocab_size
 
         # Word embeddings (parallelized if using pipeline parallel)
         if get_pp_group().is_first_rank or (
@@ -209,7 +207,6 @@ class ArceeModel(nn.Module):
             self.embed_tokens = VocabParallelEmbedding(
                 self.vocab_size,
                 config.hidden_size,
-                org_num_embeddings=config.vocab_size,
                 quant_config=quant_config,
             )
         else:
@@ -383,13 +380,10 @@ class ArceeForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
         if get_pp_group().is_last_rank:
             # Determine vocabulary size (including any LoRA extra tokens
             # for padded LM head)
-            self.unpadded_vocab_size = config.vocab_size
 
             self.lm_head = ParallelLMHead(
-                self.unpadded_vocab_size,
+                config.vocab_size,
                 config.hidden_size,
-                org_num_embeddings=config.vocab_size,
-                padding_size=DEFAULT_VOCAB_PADDING_SIZE,
                 quant_config=vllm_config.quant_config,
                 bias=getattr(config, "lm_head_bias", False),
                 prefix=f"{prefix}.lm_head",
@@ -399,7 +393,7 @@ class ArceeForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
                 self.lm_head = self.lm_head.tie_weights(self.model.embed_tokens)
             logit_scale = getattr(config, "logit_scale", 1.0)
             self.logits_processor = LogitsProcessor(
-                self.unpadded_vocab_size, config.vocab_size, logit_scale
+                config.vocab_size, scale=logit_scale
             )
         else:
             # Placeholder for lm_head on non-last ranks
diff --git a/vllm/model_executor/models/arctic.py b/vllm/model_executor/models/arctic.py
index bb505219ea17c..ae3b96c83509d 100644
--- a/vllm/model_executor/models/arctic.py
+++ b/vllm/model_executor/models/arctic.py
@@ -490,10 +490,8 @@ class ArcticForCausalLM(nn.Module, SupportsPP, SupportsQuant):
             self.lm_head.weight = self.model.embed_tokens.weight
         self.num_experts = config.num_local_experts
         self.num_experts_per_tok = config.num_experts_per_tok
-        self.unpadded_vocab_size = config.vocab_size
-        self.logits_processor = LogitsProcessor(
-            self.unpadded_vocab_size, config.vocab_size
-        )
+
+        self.logits_processor = LogitsProcessor(config.vocab_size)
         self.make_empty_intermediate_tensors = (
             self.model.make_empty_intermediate_tensors
         )
diff --git a/vllm/model_executor/models/aria.py b/vllm/model_executor/models/aria.py
index 222a425790543..fe37487d6ed88 100644
--- a/vllm/model_executor/models/aria.py
+++ b/vllm/model_executor/models/aria.py
@@ -547,18 +547,14 @@ class AriaForConditionalGeneration(nn.Module, SupportsMultiModal):
         self.pad_token_id = (
             self.config.pad_token_id if self.config.pad_token_id is not None else -1
         )
-        self.unpadded_vocab_size = config.text_config.vocab_size
         self.lm_head = ParallelLMHead(
-            self.unpadded_vocab_size,
+            self.vocab_size,
             config.text_config.hidden_size,
-            org_num_embeddings=self.language_model.org_vocab_size,
             quant_config=quant_config,
             prefix=maybe_prefix(prefix, "lm_head"),
         )
         logit_scale = getattr(config, "logit_scale", 1.0)
-        self.logits_processor = LogitsProcessor(
-            self.unpadded_vocab_size, self.vocab_size, logit_scale
-        )
+        self.logits_processor = LogitsProcessor(self.vocab_size, scale=logit_scale)
 
     def _parse_and_validate_image_input(
         self, **kwargs: object
diff --git a/vllm/model_executor/models/baichuan.py b/vllm/model_executor/models/baichuan.py
index 39990b9fd6837..dac012eb9f829 100644
--- a/vllm/model_executor/models/baichuan.py
+++ b/vllm/model_executor/models/baichuan.py
@@ -402,9 +402,9 @@ class BaiChuanBaseForCausalLM(nn.Module, SupportsLoRA, SupportsPP, SupportsQuant
         super().__init__()
         config = vllm_config.model_config.hf_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
+
         self.config = config
-        self.lora_config = lora_config
+
         self.tp_size = get_tensor_model_parallel_world_size()
         self.quant_config = quant_config
         self.model = BaiChuanModel(
diff --git a/vllm/model_executor/models/bailing_moe.py b/vllm/model_executor/models/bailing_moe.py
index 1549c653482f6..641bdb69c366c 100644
--- a/vllm/model_executor/models/bailing_moe.py
+++ b/vllm/model_executor/models/bailing_moe.py
@@ -581,10 +581,8 @@ class BailingMoeForCausalLM(nn.Module, SupportsPP, SupportsLoRA):
         config = vllm_config.model_config.hf_config.get_text_config()
         vllm_config.model_config.hf_config = config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
 
         self.config = config
-        self.lora_config = lora_config
         self.quant_config = quant_config
         self.max_position_embeddings = config.max_position_embeddings
         self.model = BailingMoeModel(
diff --git a/vllm/model_executor/models/bamba.py b/vllm/model_executor/models/bamba.py
index bc7dbb618f65c..4a2b3da1c194d 100644
--- a/vllm/model_executor/models/bamba.py
+++ b/vllm/model_executor/models/bamba.py
@@ -30,7 +30,6 @@ from vllm.model_executor.layers.mamba.mamba_utils import (
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.layers.rotary_embedding import get_rope
 from vllm.model_executor.layers.vocab_parallel_embedding import (
-    DEFAULT_VOCAB_PADDING_SIZE,
     ParallelLMHead,
     VocabParallelEmbedding,
 )
@@ -284,21 +283,14 @@ class BambaModel(nn.Module):
         model_config = vllm_config.model_config
         cache_config = vllm_config.cache_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
 
         self.config = config
-        lora_vocab = (
-            (lora_config.lora_extra_vocab_size * (lora_config.max_loras or 1))
-            if lora_config
-            else 0
-        )
-        self.vocab_size = config.vocab_size + lora_vocab
-        self.org_vocab_size = config.vocab_size
+
+        self.vocab_size = config.vocab_size
 
         self.embed_tokens = VocabParallelEmbedding(
             self.vocab_size,
             config.hidden_size,
-            org_num_embeddings=config.vocab_size,
         )
 
         def get_layer(prefix: str):
@@ -478,7 +470,7 @@ class BambaForCausalLM(
         config = vllm_config.model_config.hf_config
         self.vllm_config = vllm_config
         self.model_config = vllm_config.model_config
-        lora_config = vllm_config.lora_config
+
         scheduler_config = vllm_config.scheduler_config
         self.quant_config = vllm_config.quant_config
 
@@ -488,24 +480,14 @@ class BambaForCausalLM(
         self.model = BambaModel(
             vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
         )
-        self.unpadded_vocab_size = config.vocab_size
-        if lora_config:
-            self.unpadded_vocab_size += lora_config.lora_extra_vocab_size
+
         self.lm_head = ParallelLMHead(
-            self.unpadded_vocab_size,
+            config.vocab_size,
             config.hidden_size,
-            org_num_embeddings=config.vocab_size,
-            padding_size=DEFAULT_VOCAB_PADDING_SIZE
-            # We need bigger padding if using lora for kernel
-            # compatibility
-            if not lora_config
-            else lora_config.lora_vocab_padding_size,
             prefix=maybe_prefix(prefix, "lm_head"),
         )
 
-        self.logits_processor = LogitsProcessor(
-            self.unpadded_vocab_size, config.vocab_size
-        )
+        self.logits_processor = LogitsProcessor(config.vocab_size)
 
         self.make_empty_intermediate_tensors = (
             self.model.make_empty_intermediate_tensors
diff --git a/vllm/model_executor/models/chameleon.py b/vllm/model_executor/models/chameleon.py
index 54ff6991fa702..64f73e938bf6c 100644
--- a/vllm/model_executor/models/chameleon.py
+++ b/vllm/model_executor/models/chameleon.py
@@ -963,9 +963,9 @@ class ChameleonForConditionalGeneration(
         self.model = ChameleonModel(
             vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
         )
-        self.unpadded_vocab_size = config.vocab_size
+
         self.lm_head = ParallelLMHead(
-            self.unpadded_vocab_size,
+            config.vocab_size,
             config.hidden_size,
             prefix=maybe_prefix(prefix, "lm_head"),
         )
@@ -973,9 +973,7 @@ class ChameleonForConditionalGeneration(
             self.lm_head.weight = self.model.embed_tokens.weight
 
         logit_scale = getattr(config, "logit_scale", 1.0)
-        self.logits_processor = LogitsProcessor(
-            self.unpadded_vocab_size, config.vocab_size, logit_scale
-        )
+        self.logits_processor = LogitsProcessor(config.vocab_size, scale=logit_scale)
         self.make_empty_intermediate_tensors = (
             self.model.make_empty_intermediate_tensors
         )
diff --git a/vllm/model_executor/models/chatglm.py b/vllm/model_executor/models/chatglm.py
index bcbe82b78c3b1..ccf7c93001664 100644
--- a/vllm/model_executor/models/chatglm.py
+++ b/vllm/model_executor/models/chatglm.py
@@ -433,10 +433,9 @@ class ChatGLMBaseModel(nn.Module):
         super().__init__()
         config = vllm_config.model_config.hf_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
+
         multimodal_config = vllm_config.model_config.multimodal_config
         self.config = config
-        self.lora_config = lora_config
         self.multimodal_config = multimodal_config
 
         self.quant_config = quant_config
diff --git a/vllm/model_executor/models/commandr.py b/vllm/model_executor/models/commandr.py
index 75459601f76b0..6ae1dc3560827 100644
--- a/vllm/model_executor/models/commandr.py
+++ b/vllm/model_executor/models/commandr.py
@@ -288,17 +288,12 @@ class CohereModel(nn.Module):
         config = vllm_config.model_config.hf_config
         cache_config = vllm_config.cache_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
         self.quant_config = quant_config
 
         self.config = config
-        lora_vocab = (
-            (lora_config.lora_extra_vocab_size * (lora_config.max_loras or 1))
-            if lora_config
-            else 0
-        )
-        self.vocab_size = config.vocab_size + lora_vocab
-        self.org_vocab_size = config.vocab_size
+
+        self.vocab_size = config.vocab_size
+
         self.embed_tokens = VocabParallelEmbedding(
             config.vocab_size, config.hidden_size
         )
@@ -424,17 +419,15 @@ class CohereForCausalLM(nn.Module, SupportsLoRA, SupportsPP, SupportsQuant):
         super().__init__()
         config = vllm_config.model_config.hf_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
+
         self.config = config
         # currently all existing command R models have `tie_word_embeddings`
         # enabled
         assert config.tie_word_embeddings
-        self.unpadded_vocab_size = config.vocab_size
-        if lora_config:
-            self.unpadded_vocab_size += lora_config.lora_extra_vocab_size
+
         self.quant_config = quant_config
         self.logits_processor = LogitsProcessor(
-            self.unpadded_vocab_size, config.vocab_size, scale=config.logit_scale
+            config.vocab_size, scale=config.logit_scale
         )
         self.model = CohereModel(
             vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
diff --git a/vllm/model_executor/models/dbrx.py b/vllm/model_executor/models/dbrx.py
index 22095d05848ce..70999501f4c69 100644
--- a/vllm/model_executor/models/dbrx.py
+++ b/vllm/model_executor/models/dbrx.py
@@ -25,7 +25,6 @@ from vllm.model_executor.layers.logits_processor import LogitsProcessor
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.layers.rotary_embedding import get_rope
 from vllm.model_executor.layers.vocab_parallel_embedding import (
-    DEFAULT_VOCAB_PADDING_SIZE,
     ParallelLMHead,
     VocabParallelEmbedding,
 )
@@ -441,21 +440,17 @@ class DbrxForCausalLM(nn.Module, SupportsPP):
         if config.tie_word_embeddings:
             raise ValueError("tie_word_embeddings is not supported for Dbrx models.")
         self.quant_config = quant_config
-        self.unpadded_vocab_size = config.vocab_size
+
         self.transformer = DbrxModel(
             vllm_config=vllm_config, prefix=maybe_prefix(prefix, "transformer")
         )
         self.lm_head = ParallelLMHead(
             config.vocab_size,
             config.d_model,
-            org_num_embeddings=config.vocab_size,
-            padding_size=DEFAULT_VOCAB_PADDING_SIZE,
             quant_config=quant_config,
             prefix=maybe_prefix(prefix, "lm_head"),
         )
-        self.logits_processor = LogitsProcessor(
-            self.unpadded_vocab_size, config.vocab_size
-        )
+        self.logits_processor = LogitsProcessor(config.vocab_size)
         self.make_empty_intermediate_tensors = (
             self.transformer.make_empty_intermediate_tensors
         )
diff --git a/vllm/model_executor/models/exaone.py b/vllm/model_executor/models/exaone.py
index 84fb52d138545..b9c7a520caffb 100644
--- a/vllm/model_executor/models/exaone.py
+++ b/vllm/model_executor/models/exaone.py
@@ -48,7 +48,6 @@ from vllm.model_executor.layers.logits_processor import LogitsProcessor
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.layers.rotary_embedding import get_rope
 from vllm.model_executor.layers.vocab_parallel_embedding import (
-    DEFAULT_VOCAB_PADDING_SIZE,
     ParallelLMHead,
     VocabParallelEmbedding,
 )
@@ -323,16 +322,11 @@ class ExaoneModel(nn.Module):
         config = vllm_config.model_config.hf_config
         cache_config = vllm_config.cache_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
 
         self.config = config
         self.quant_config = quant_config
-        lora_vocab = (
-            (lora_config.lora_extra_vocab_size * (lora_config.max_loras or 1))
-            if lora_config
-            else 0
-        )
-        self.vocab_size = config.vocab_size + lora_vocab
+
+        self.vocab_size = config.vocab_size
         self.wte = config.vocab_size
         if get_pp_group().is_first_rank or (
             config.tie_word_embeddings and get_pp_group().is_last_rank
@@ -340,7 +334,6 @@ class ExaoneModel(nn.Module):
             self.wte = VocabParallelEmbedding(
                 self.vocab_size,
                 config.hidden_size,
-                org_num_embeddings=config.vocab_size,
                 quant_config=quant_config,
             )
         else:
@@ -489,10 +482,9 @@ class ExaoneForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
         super().__init__()
         config = vllm_config.model_config.hf_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
 
         self.config = config
-        self.lora_config = lora_config
+
         self.quant_config = quant_config
 
         self.transformer = ExaoneModel(
@@ -500,18 +492,9 @@ class ExaoneForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
             prefix=maybe_prefix(prefix, "model"),
         )
         if get_pp_group().is_last_rank:
-            self.unpadded_vocab_size = config.vocab_size
-            if lora_config:
-                self.unpadded_vocab_size += lora_config.lora_extra_vocab_size
             self.lm_head = ParallelLMHead(
-                self.unpadded_vocab_size,
+                config.vocab_size,
                 config.hidden_size,
-                org_num_embeddings=config.vocab_size,
-                padding_size=DEFAULT_VOCAB_PADDING_SIZE
-                # We need bigger padding if using lora for kernel
-                # compatibility
-                if not lora_config
-                else lora_config.lora_vocab_padding_size,
                 quant_config=quant_config,
                 prefix=maybe_prefix(prefix, "lm_head"),
             )
@@ -520,7 +503,7 @@ class ExaoneForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
 
             logit_scale = getattr(config, "logit_scale", 1.0)
             self.logits_processor = LogitsProcessor(
-                self.unpadded_vocab_size, config.vocab_size, logit_scale
+                config.vocab_size, scale=logit_scale
             )
         else:
             self.lm_head = PPMissingLayer()
diff --git a/vllm/model_executor/models/exaone4.py b/vllm/model_executor/models/exaone4.py
index d5e4d9a1486f7..6a5c888c095ae 100644
--- a/vllm/model_executor/models/exaone4.py
+++ b/vllm/model_executor/models/exaone4.py
@@ -44,7 +44,6 @@ from vllm.model_executor.layers.logits_processor import LogitsProcessor
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.layers.rotary_embedding import get_rope
 from vllm.model_executor.layers.vocab_parallel_embedding import (
-    DEFAULT_VOCAB_PADDING_SIZE,
     ParallelLMHead,
     VocabParallelEmbedding,
 )
@@ -311,23 +310,17 @@ class Exaone4Model(nn.Module):
         config = vllm_config.model_config.hf_config
         cache_config = vllm_config.cache_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
 
         self.config = config
         self.quant_config = quant_config
-        lora_vocab = (
-            (lora_config.lora_extra_vocab_size * (lora_config.max_loras or 1))
-            if lora_config
-            else 0
-        )
-        self.vocab_size = config.vocab_size + lora_vocab
+
+        self.vocab_size = config.vocab_size
         if get_pp_group().is_first_rank or (
             config.tie_word_embeddings and get_pp_group().is_last_rank
         ):
             self.embed_tokens = VocabParallelEmbedding(
                 self.vocab_size,
                 config.hidden_size,
-                org_num_embeddings=config.vocab_size,
                 quant_config=quant_config,
             )
         else:
@@ -476,10 +469,8 @@ class Exaone4ForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
         super().__init__()
         config = vllm_config.model_config.hf_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
 
         self.config = config
-        self.lora_config = lora_config
         self.quant_config = quant_config
 
         self.model = Exaone4Model(
@@ -487,18 +478,9 @@ class Exaone4ForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
             prefix=maybe_prefix(prefix, "model"),
         )
         if get_pp_group().is_last_rank:
-            self.unpadded_vocab_size = config.vocab_size
-            if lora_config:
-                self.unpadded_vocab_size += lora_config.lora_extra_vocab_size
             self.lm_head = ParallelLMHead(
-                self.unpadded_vocab_size,
+                config.vocab_size,
                 config.hidden_size,
-                org_num_embeddings=config.vocab_size,
-                padding_size=DEFAULT_VOCAB_PADDING_SIZE
-                # We need bigger padding if using lora for kernel
-                # compatibility
-                if not lora_config
-                else lora_config.lora_vocab_padding_size,
                 quant_config=quant_config,
                 prefix=maybe_prefix(prefix, "lm_head"),
             )
@@ -507,7 +489,7 @@ class Exaone4ForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
 
             logit_scale = getattr(config, "logit_scale", 1.0)
             self.logits_processor = LogitsProcessor(
-                self.unpadded_vocab_size, config.vocab_size, logit_scale
+                config.vocab_size, scale=logit_scale
             )
         else:
             self.lm_head = PPMissingLayer()
diff --git a/vllm/model_executor/models/falcon_h1.py b/vllm/model_executor/models/falcon_h1.py
index ac5846cfd8695..38838be29093e 100644
--- a/vllm/model_executor/models/falcon_h1.py
+++ b/vllm/model_executor/models/falcon_h1.py
@@ -30,7 +30,6 @@ from vllm.model_executor.layers.mamba.mamba_utils import (
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.layers.rotary_embedding import get_rope
 from vllm.model_executor.layers.vocab_parallel_embedding import (
-    DEFAULT_VOCAB_PADDING_SIZE,
     ParallelLMHead,
     VocabParallelEmbedding,
 )
@@ -424,21 +423,15 @@ class FalconH1Model(nn.Module):
         model_config = vllm_config.model_config
         cache_config = vllm_config.cache_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
 
         self.config = config
-        lora_vocab = (
-            (lora_config.lora_extra_vocab_size * (lora_config.max_loras or 1))
-            if lora_config
-            else 0
-        )
-        self.vocab_size = config.vocab_size + lora_vocab
-        self.org_vocab_size = config.vocab_size
+
+        self.vocab_size = config.vocab_size
+
         if get_pp_group().is_first_rank:
             self.embed_tokens = VocabParallelEmbedding(
                 self.vocab_size,
                 config.hidden_size,
-                org_num_embeddings=config.vocab_size,
             )
             self.embedding_multiplier = config.embedding_multiplier
         else:
@@ -572,7 +565,7 @@ class FalconH1ForCausalLM(
         config = vllm_config.model_config.hf_config
         self.vllm_config = vllm_config
         self.model_config = vllm_config.model_config
-        lora_config = vllm_config.lora_config
+
         scheduler_config = vllm_config.scheduler_config
 
         self.quant_config = vllm_config.quant_config
@@ -584,21 +577,11 @@ class FalconH1ForCausalLM(
             vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
         )
         self.tie_word_embeddings = config.tie_word_embeddings
-        self.unpadded_vocab_size = config.vocab_size
-        if lora_config:
-            self.unpadded_vocab_size += lora_config.lora_extra_vocab_size
+
         if get_pp_group().is_last_rank:
             self.lm_head = ParallelLMHead(
-                self.unpadded_vocab_size,
+                config.vocab_size,
                 config.hidden_size,
-                org_num_embeddings=config.vocab_size,
-                padding_size=(
-                    DEFAULT_VOCAB_PADDING_SIZE
-                    # We need bigger padding if using lora for kernel
-                    # compatibility
-                    if not lora_config
-                    else lora_config.lora_vocab_padding_size
-                ),
                 prefix=maybe_prefix(prefix, "lm_head"),
             )
             self.lm_head_multiplier = config.lm_head_multiplier
@@ -607,7 +590,7 @@ class FalconH1ForCausalLM(
             # Used to track and store by the Mamba cache between steps.
 
             self.logits_processor = LogitsProcessor(
-                self.unpadded_vocab_size,
+                config.vocab_size,
                 config.vocab_size,
                 scale=config.lm_head_multiplier,
             )
diff --git a/vllm/model_executor/models/gemma.py b/vllm/model_executor/models/gemma.py
index 46b111f4d9396..caeee7c2e1ecc 100644
--- a/vllm/model_executor/models/gemma.py
+++ b/vllm/model_executor/models/gemma.py
@@ -382,12 +382,10 @@ class GemmaForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
         super().__init__()
         config = vllm_config.model_config.hf_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
 
         self.config = config
         # currently all existing Gemma models have `tie_word_embeddings` enabled
         assert config.tie_word_embeddings
-        self.lora_config = lora_config
 
         self.quant_config = quant_config
         self.model = GemmaModel(
diff --git a/vllm/model_executor/models/gemma2.py b/vllm/model_executor/models/gemma2.py
index 1938efd4895e5..efd01535fc3ef 100644
--- a/vllm/model_executor/models/gemma2.py
+++ b/vllm/model_executor/models/gemma2.py
@@ -393,8 +393,7 @@ class Gemma2ForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
     def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
         config = vllm_config.model_config.hf_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
-        del lora_config  # Unused.
+
         super().__init__()
         self.config = config
         # currently all existing Gemma models have `tie_word_embeddings` enabled
diff --git a/vllm/model_executor/models/gemma3.py b/vllm/model_executor/models/gemma3.py
index 80ec40f478c6d..213f9f562f8a0 100644
--- a/vllm/model_executor/models/gemma3.py
+++ b/vllm/model_executor/models/gemma3.py
@@ -524,8 +524,7 @@ class Gemma3ForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
     def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
         config = vllm_config.model_config.hf_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
-        del lora_config  # Unused.
+
         super().__init__()
         self.config = config
         # currently all existing Gemma models have `tie_word_embeddings` enabled
diff --git a/vllm/model_executor/models/gemma3n.py b/vllm/model_executor/models/gemma3n.py
index 547884f393eb0..22d51ab762692 100644
--- a/vllm/model_executor/models/gemma3n.py
+++ b/vllm/model_executor/models/gemma3n.py
@@ -1114,8 +1114,7 @@ class Gemma3nForCausalLM(nn.Module):
 
     def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
         config = vllm_config.model_config.hf_config
-        lora_config = vllm_config.lora_config
-        del lora_config  # Unused.
+
         super().__init__()
         self.config = config
         self.cache_config = vllm_config.cache_config
diff --git a/vllm/model_executor/models/glm4.py b/vllm/model_executor/models/glm4.py
index d7fd2b109d24f..4172f16737c18 100644
--- a/vllm/model_executor/models/glm4.py
+++ b/vllm/model_executor/models/glm4.py
@@ -248,10 +248,8 @@ class Glm4ForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
         super().__init__()
         config = vllm_config.model_config.hf_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
 
         self.config = config
-        self.lora_config = lora_config
 
         self.quant_config = quant_config
         self.model = Glm4Model(
diff --git a/vllm/model_executor/models/gpt_bigcode.py b/vllm/model_executor/models/gpt_bigcode.py
index f2c8e2aeb8225..99cdaabb98dfe 100644
--- a/vllm/model_executor/models/gpt_bigcode.py
+++ b/vllm/model_executor/models/gpt_bigcode.py
@@ -207,18 +207,13 @@ class GPTBigCodeModel(nn.Module):
         config = vllm_config.model_config.hf_config
         cache_config = vllm_config.cache_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
 
         self.config = config
         assert not config.add_cross_attention
 
         self.embed_dim = config.hidden_size
-        lora_vocab = (
-            (lora_config.lora_extra_vocab_size * (lora_config.max_loras or 1))
-            if lora_config
-            else 0
-        )
-        self.vocab_size = config.vocab_size + lora_vocab
+
+        self.vocab_size = config.vocab_size
         self.wte = VocabParallelEmbedding(
             self.vocab_size, self.embed_dim, org_num_embeddings=config.vocab_size
         )
@@ -290,10 +285,8 @@ class GPTBigCodeForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
         super().__init__()
         config = vllm_config.model_config.hf_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
 
         self.config = config
-        self.lora_config = lora_config
 
         self.quant_config = quant_config
         self.transformer = GPTBigCodeModel(
@@ -305,15 +298,10 @@ class GPTBigCodeForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
             self.lm_head = ParallelLMHead(
                 self.transformer.vocab_size,
                 self.transformer.embed_dim,
-                org_num_embeddings=self.config.vocab_size,
                 prefix=maybe_prefix(prefix, "lm_head"),
             )
-        self.unpadded_vocab_size = config.vocab_size
-        if lora_config:
-            self.unpadded_vocab_size += lora_config.lora_extra_vocab_size
-        self.logits_processor = LogitsProcessor(
-            self.unpadded_vocab_size, config.vocab_size
-        )
+
+        self.logits_processor = LogitsProcessor(config.vocab_size)
         self.make_empty_intermediate_tensors = (
             self.transformer.make_empty_intermediate_tensors
         )
diff --git a/vllm/model_executor/models/granitemoe.py b/vllm/model_executor/models/granitemoe.py
index e683f30805f37..c5b36c362ee32 100644
--- a/vllm/model_executor/models/granitemoe.py
+++ b/vllm/model_executor/models/granitemoe.py
@@ -50,7 +50,6 @@ from vllm.model_executor.layers.logits_processor import LogitsProcessor
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.layers.rotary_embedding import get_rope
 from vllm.model_executor.layers.vocab_parallel_embedding import (
-    DEFAULT_VOCAB_PADDING_SIZE,
     ParallelLMHead,
     VocabParallelEmbedding,
 )
@@ -296,22 +295,15 @@ class GraniteMoeModel(nn.Module):
 
         config = vllm_config.model_config.hf_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
 
         self.config = config
         self.quant_config = quant_config  # Required by MixtralModel
-        lora_vocab = (
-            (lora_config.lora_extra_vocab_size * (lora_config.max_loras or 1))
-            if lora_config
-            else 0
-        )
-        self.vocab_size = config.vocab_size + lora_vocab
-        self.org_vocab_size = config.vocab_size
+
+        self.vocab_size = config.vocab_size
 
         self.embed_tokens = VocabParallelEmbedding(
             self.vocab_size,
             config.hidden_size,
-            org_num_embeddings=config.vocab_size,
         )
         self.embedding_multiplier = config.embedding_multiplier
 
@@ -518,26 +510,16 @@ class GraniteMoeForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
         super().__init__()
         config = vllm_config.model_config.hf_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
 
         self.config = config
-        self.lora_config = lora_config
 
         self.model = GraniteMoeModel(
             vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
         )
-        self.unpadded_vocab_size = config.vocab_size
-        if lora_config:
-            self.unpadded_vocab_size += lora_config.lora_extra_vocab_size
+
         self.lm_head = ParallelLMHead(
-            self.unpadded_vocab_size,
+            config.vocab_size,
             config.hidden_size,
-            org_num_embeddings=config.vocab_size,
-            padding_size=DEFAULT_VOCAB_PADDING_SIZE
-            # We need bigger padding if using lora for kernel
-            # compatibility
-            if not lora_config
-            else lora_config.lora_vocab_padding_size,
             quant_config=quant_config,
             prefix=maybe_prefix(prefix, "lm_head"),
         )
@@ -545,7 +527,6 @@ class GraniteMoeForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
             self.lm_head.weight = self.model.embed_tokens.weight
 
         self.logits_processor = LogitsProcessor(
-            self.unpadded_vocab_size,
             config.vocab_size,
             scale=1 / self.config.logits_scaling,
         )
diff --git a/vllm/model_executor/models/granitemoehybrid.py b/vllm/model_executor/models/granitemoehybrid.py
index bac64eec8c558..3a98abed76fdf 100644
--- a/vllm/model_executor/models/granitemoehybrid.py
+++ b/vllm/model_executor/models/granitemoehybrid.py
@@ -25,7 +25,6 @@ from vllm.model_executor.layers.mamba.mamba_utils import (
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.layers.rotary_embedding import get_rope
 from vllm.model_executor.layers.vocab_parallel_embedding import (
-    DEFAULT_VOCAB_PADDING_SIZE,
     ParallelLMHead,
     VocabParallelEmbedding,
 )
@@ -334,22 +333,15 @@ class GraniteMoeHybridModel(nn.Module):
         model_config = vllm_config.model_config
         cache_config = vllm_config.cache_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
 
         self.config = config
         self.quant_config = quant_config
-        lora_vocab = (
-            (lora_config.lora_extra_vocab_size * (lora_config.max_loras or 1))
-            if lora_config
-            else 0
-        )
-        self.vocab_size = config.vocab_size + lora_vocab
-        self.org_vocab_size = config.vocab_size
+
+        self.vocab_size = config.vocab_size
 
         self.embed_tokens = VocabParallelEmbedding(
             self.vocab_size,
             config.hidden_size,
-            org_num_embeddings=config.vocab_size,
         )
         self.embedding_multiplier = config.embedding_multiplier
 
@@ -658,7 +650,7 @@ class GraniteMoeHybridForCausalLM(
         config = vllm_config.model_config.hf_config
         self.vllm_config = vllm_config
         self.model_config = vllm_config.model_config
-        lora_config = vllm_config.lora_config
+
         scheduler_config = vllm_config.scheduler_config
         self.quant_config = vllm_config.quant_config
         self.config = config
@@ -666,26 +658,17 @@ class GraniteMoeHybridForCausalLM(
         self.model = GraniteMoeHybridModel(
             vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
         )
-        self.unpadded_vocab_size = config.vocab_size
-        if lora_config:
-            self.unpadded_vocab_size += lora_config.lora_extra_vocab_size
 
         self.lm_head = ParallelLMHead(
-            self.unpadded_vocab_size,
+            config.vocab_size,
             config.hidden_size,
-            org_num_embeddings=config.vocab_size,
-            padding_size=DEFAULT_VOCAB_PADDING_SIZE
-            # We need bigger padding if using lora for kernel
-            # compatibility
-            if not lora_config
-            else lora_config.lora_vocab_padding_size,
             quant_config=self.quant_config,
             prefix=maybe_prefix(prefix, "lm_head"),
         )
         if config.tie_word_embeddings:
             self.lm_head.weight = self.model.embed_tokens.weight
         self.logits_processor = LogitsProcessor(
-            self.unpadded_vocab_size,
+            config.vocab_size,
             config.vocab_size,
             scale=1 / self.config.logits_scaling,
         )
diff --git a/vllm/model_executor/models/granitemoeshared.py b/vllm/model_executor/models/granitemoeshared.py
index e222109f2a949..e08e9f73ec879 100644
--- a/vllm/model_executor/models/granitemoeshared.py
+++ b/vllm/model_executor/models/granitemoeshared.py
@@ -25,7 +25,6 @@ from vllm.model_executor.layers.linear import (
 from vllm.model_executor.layers.logits_processor import LogitsProcessor
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.layers.vocab_parallel_embedding import (
-    DEFAULT_VOCAB_PADDING_SIZE,
     ParallelLMHead,
     VocabParallelEmbedding,
 )
@@ -159,23 +158,16 @@ class GraniteMoeSharedModel(nn.Module):
         config = vllm_config.model_config.hf_config
         cache_config = vllm_config.cache_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
 
         self.config = config
         self.quant_config = quant_config  # Required by MixtralModel
         self.padding_idx = config.pad_token_id
-        lora_vocab = (
-            (lora_config.lora_extra_vocab_size * (lora_config.max_loras or 1))
-            if lora_config
-            else 0
-        )
-        self.vocab_size = config.vocab_size + lora_vocab
-        self.org_vocab_size = config.vocab_size
+
+        self.vocab_size = config.vocab_size
 
         self.embed_tokens = VocabParallelEmbedding(
             self.vocab_size,
             config.hidden_size,
-            org_num_embeddings=config.vocab_size,
             quant_config=quant_config,
         )
         self.embedding_multiplier = config.embedding_multiplier
@@ -281,26 +273,16 @@ class GraniteMoeSharedForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
         super().__init__()
         config = vllm_config.model_config.hf_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
 
         self.config = config
-        self.lora_config = lora_config
 
         self.model = GraniteMoeSharedModel(
             vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
         )
-        self.unpadded_vocab_size = config.vocab_size
-        if lora_config:
-            self.unpadded_vocab_size += lora_config.lora_extra_vocab_size
+
         self.lm_head = ParallelLMHead(
-            self.unpadded_vocab_size,
+            config.vocab_size,
             config.hidden_size,
-            org_num_embeddings=config.vocab_size,
-            padding_size=DEFAULT_VOCAB_PADDING_SIZE
-            # We need bigger padding if using lora for kernel
-            # compatibility
-            if not lora_config
-            else lora_config.lora_vocab_padding_size,
             quant_config=quant_config,
             prefix=maybe_prefix(prefix, "lm_head"),
         )
@@ -308,7 +290,7 @@ class GraniteMoeSharedForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
             self.lm_head.weight = self.model.embed_tokens.weight
 
         self.logits_processor = LogitsProcessor(
-            self.unpadded_vocab_size,
+            config.vocab_size,
             config.vocab_size,
             scale=1 / self.config.logits_scaling,
         )
diff --git a/vllm/model_executor/models/grok1.py b/vllm/model_executor/models/grok1.py
index d77a0bc2993a0..0770e03b5356e 100644
--- a/vllm/model_executor/models/grok1.py
+++ b/vllm/model_executor/models/grok1.py
@@ -45,7 +45,6 @@ from vllm.model_executor.layers.logits_processor import LogitsProcessor
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.layers.rotary_embedding import get_rope
 from vllm.model_executor.layers.vocab_parallel_embedding import (
-    DEFAULT_VOCAB_PADDING_SIZE,
     ParallelLMHead,
     VocabParallelEmbedding,
 )
@@ -305,18 +304,13 @@ class Grok1Model(nn.Module):
         config = vllm_config.model_config.hf_config
         cache_config = vllm_config.cache_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
 
         self.config = config
         self.quant_config = quant_config
         self.padding_idx = config.pad_token_id
-        lora_vocab = (
-            (lora_config.lora_extra_vocab_size * (lora_config.max_loras or 1))
-            if lora_config
-            else 0
-        )
-        self.vocab_size = config.vocab_size + lora_vocab
-        self.org_vocab_size = config.vocab_size
+
+        self.vocab_size = config.vocab_size
+
         self.embedding_multiplier_scale = getattr(
             config, "embedding_multiplier_scale", DEFAULT_EMBEDDING_MULTIPLIER_SCALE
         )
@@ -324,7 +318,6 @@ class Grok1Model(nn.Module):
         self.embed_tokens = VocabParallelEmbedding(
             self.vocab_size,
             config.hidden_size,
-            org_num_embeddings=config.vocab_size,
             quant_config=quant_config,
         )
 
@@ -499,25 +492,18 @@ class Grok1ForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
 
         config = vllm_config.model_config.hf_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
 
         self.config = config
-        self.lora_config = lora_config
+
         self.quant_config = quant_config
 
         self.model = Grok1Model(
             vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
         )
 
-        self.unpadded_vocab_size = config.vocab_size
-        if lora_config:
-            self.unpadded_vocab_size += lora_config.lora_extra_vocab_size
-
         self.lm_head = ParallelLMHead(
-            self.unpadded_vocab_size,
+            config.vocab_size,
             config.hidden_size,
-            org_num_embeddings=config.vocab_size,
-            padding_size=DEFAULT_VOCAB_PADDING_SIZE,
             quant_config=quant_config,
             prefix=maybe_prefix(prefix, "lm_head"),
         )
@@ -529,7 +515,7 @@ class Grok1ForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
             config, "output_multiplier_scale", DEFAULT_OUTPUT_MULTIPLIER_SCALE
         )
         self.logits_processor = LogitsProcessor(
-            self.unpadded_vocab_size, config.vocab_size, self.output_multiplier_scale
+            config.vocab_size, scale=self.output_multiplier_scale
         )
 
         self.make_empty_intermediate_tensors = (
diff --git a/vllm/model_executor/models/hunyuan_v1.py b/vllm/model_executor/models/hunyuan_v1.py
index 8fa9776bd0186..a05a00932c13b 100644
--- a/vllm/model_executor/models/hunyuan_v1.py
+++ b/vllm/model_executor/models/hunyuan_v1.py
@@ -57,7 +57,6 @@ from vllm.model_executor.layers.logits_processor import LogitsProcessor
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.layers.rotary_embedding import get_rope
 from vllm.model_executor.layers.vocab_parallel_embedding import (
-    DEFAULT_VOCAB_PADDING_SIZE,
     ParallelLMHead,
     VocabParallelEmbedding,
 )
@@ -606,7 +605,7 @@ class HunYuanModel(nn.Module):
         config = vllm_config.model_config.hf_config
         cache_config = vllm_config.cache_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
+
         eplb_config = vllm_config.parallel_config.eplb_config
         enable_eplb = vllm_config.parallel_config.enable_eplb
         self.num_redundant_experts = eplb_config.num_redundant_experts
@@ -614,20 +613,15 @@ class HunYuanModel(nn.Module):
         self.config = config
         self.quant_config = quant_config
         self.padding_idx = config.pad_token_id
-        lora_vocab = (
-            (lora_config.lora_extra_vocab_size * (lora_config.max_loras or 1))
-            if lora_config
-            else 0
-        )
-        self.vocab_size = config.vocab_size + lora_vocab
-        self.org_vocab_size = config.vocab_size
+
+        self.vocab_size = config.vocab_size
+
         if get_pp_group().is_first_rank or (
             config.tie_word_embeddings and get_pp_group().is_last_rank
         ):
             self.embed_tokens = VocabParallelEmbedding(
                 self.vocab_size,
                 config.hidden_size,
-                org_num_embeddings=config.vocab_size,
                 quant_config=quant_config,
             )
         else:
@@ -937,12 +931,9 @@ class HunyuanV1ModelBase(nn.Module, SupportsLoRA, SupportsPP):
 
         self.model = HunYuanModel(vllm_config=vllm_config, prefix="model")
         if get_pp_group().is_last_rank:
-            self.unpadded_vocab_size = config.vocab_size
             self.lm_head = ParallelLMHead(
-                self.unpadded_vocab_size,
+                config.vocab_size,
                 config.hidden_size,
-                org_num_embeddings=config.vocab_size,
-                padding_size=DEFAULT_VOCAB_PADDING_SIZE,
                 quant_config=quant_config,
                 prefix=maybe_prefix(prefix, "lm_head"),
             )
@@ -951,7 +942,7 @@ class HunyuanV1ModelBase(nn.Module, SupportsLoRA, SupportsPP):
 
             logit_scale = getattr(config, "logit_scale", 1.0)
             self.logits_processor = LogitsProcessor(
-                self.unpadded_vocab_size, config.vocab_size, logit_scale
+                config.vocab_size, scale=logit_scale
             )
         else:
             self.lm_head = PPMissingLayer()
diff --git a/vllm/model_executor/models/internlm2.py b/vllm/model_executor/models/internlm2.py
index c5bbd5497a146..d856f5c79e33d 100644
--- a/vllm/model_executor/models/internlm2.py
+++ b/vllm/model_executor/models/internlm2.py
@@ -330,11 +330,9 @@ class InternLM2ForCausalLM(nn.Module, SupportsPP, SupportsLoRA):
         super().__init__()
         config = vllm_config.model_config.hf_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
 
         self.config = config
         self.quant_config = quant_config
-        self.lora_config = lora_config
 
         self.model = model_type(
             vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
diff --git a/vllm/model_executor/models/jamba.py b/vllm/model_executor/models/jamba.py
index 0cb993901fd38..70f52e3106f81 100644
--- a/vllm/model_executor/models/jamba.py
+++ b/vllm/model_executor/models/jamba.py
@@ -30,7 +30,6 @@ from vllm.model_executor.layers.mamba.mamba_utils import (
 from vllm.model_executor.layers.pooler import DispatchPooler, Pooler
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.layers.vocab_parallel_embedding import (
-    DEFAULT_VOCAB_PADDING_SIZE,
     ParallelLMHead,
     VocabParallelEmbedding,
 )
@@ -307,21 +306,14 @@ class JambaModel(nn.Module):
         model_config = vllm_config.model_config
         cache_config = vllm_config.cache_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
 
         self.config = config
-        lora_vocab = (
-            (lora_config.lora_extra_vocab_size * (lora_config.max_loras or 1))
-            if lora_config
-            else 0
-        )
-        self.vocab_size = config.vocab_size + lora_vocab
-        self.org_vocab_size = config.vocab_size
+
+        self.vocab_size = config.vocab_size
 
         self.embed_tokens = VocabParallelEmbedding(
             self.vocab_size,
             config.hidden_size,
-            org_num_embeddings=config.vocab_size,
         )
 
         extra_kwargs = {"is_lora_enabled": bool(vllm_config.lora_config)}
@@ -492,7 +484,7 @@ class JambaForCausalLM(
 
     def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
         config = vllm_config.model_config.hf_config
-        lora_config = vllm_config.lora_config
+
         scheduler_config = vllm_config.scheduler_config
 
         super().__init__()
@@ -503,24 +495,14 @@ class JambaForCausalLM(
         self.model = JambaModel(
             vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
         )
-        self.unpadded_vocab_size = config.vocab_size
-        if lora_config:
-            self.unpadded_vocab_size += lora_config.lora_extra_vocab_size
+
         self.lm_head = ParallelLMHead(
-            self.unpadded_vocab_size,
+            config.vocab_size,
             config.hidden_size,
-            org_num_embeddings=config.vocab_size,
-            padding_size=DEFAULT_VOCAB_PADDING_SIZE
-            # We need bigger padding if using lora for kernel
-            # compatibility
-            if not lora_config
-            else lora_config.lora_vocab_padding_size,
             prefix=maybe_prefix(prefix, "lm_head"),
         )
 
-        self.logits_processor = LogitsProcessor(
-            self.unpadded_vocab_size, config.vocab_size
-        )
+        self.logits_processor = LogitsProcessor(config.vocab_size)
 
         self.make_empty_intermediate_tensors = (
             self.model.make_empty_intermediate_tensors
diff --git a/vllm/model_executor/models/kimi_vl.py b/vllm/model_executor/models/kimi_vl.py
index b79bdf8595ca9..fa04f60b9c140 100644
--- a/vllm/model_executor/models/kimi_vl.py
+++ b/vllm/model_executor/models/kimi_vl.py
@@ -60,7 +60,6 @@ from vllm.model_executor.layers.fused_moe import FusedMoE
 from vllm.model_executor.layers.linear import ReplicatedLinear
 from vllm.model_executor.layers.logits_processor import LogitsProcessor
 from vllm.model_executor.layers.vocab_parallel_embedding import (
-    DEFAULT_VOCAB_PADDING_SIZE,
     ParallelLMHead,
 )
 from vllm.model_executor.model_loader.weight_utils import (
@@ -347,13 +346,10 @@ class KimiVLForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsPP):
             vllm_config=sub_vllm_config,
             prefix=maybe_prefix(prefix, "language_model"),
         )
-        self.unpadded_vocab_size = config.text_config.vocab_size
         if get_pp_group().is_last_rank:
             self.lm_head = ParallelLMHead(
-                self.unpadded_vocab_size,
+                config.vocab_size,
                 config.text_config.hidden_size,
-                org_num_embeddings=self.config.text_config.vocab_size,
-                padding_size=DEFAULT_VOCAB_PADDING_SIZE,
                 prefix=maybe_prefix(prefix, "lm_head"),
             )
         else:
@@ -362,9 +358,7 @@ class KimiVLForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsPP):
             self.language_model.make_empty_intermediate_tensors
         )
         logit_scale = getattr(config, "logit_scale", 1.0)
-        self.logits_processor = LogitsProcessor(
-            self.unpadded_vocab_size, config.vocab_size, logit_scale
-        )
+        self.logits_processor = LogitsProcessor(config.vocab_size, scale=logit_scale)
         self.media_placeholder: int = self.config.media_placeholder_token_id
 
     def _parse_and_validate_image_input(
diff --git a/vllm/model_executor/models/lfm2.py b/vllm/model_executor/models/lfm2.py
index 5684b9a891257..21d71887178e7 100644
--- a/vllm/model_executor/models/lfm2.py
+++ b/vllm/model_executor/models/lfm2.py
@@ -28,7 +28,6 @@ from vllm.model_executor.layers.mamba.short_conv import ShortConv
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.layers.rotary_embedding import get_rope
 from vllm.model_executor.layers.vocab_parallel_embedding import (
-    DEFAULT_VOCAB_PADDING_SIZE,
     ParallelLMHead,
     VocabParallelEmbedding,
 )
@@ -316,16 +315,10 @@ class Lfm2Model(nn.Module):
         model_config = vllm_config.model_config
         cache_config = vllm_config.cache_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
 
         self.config = config
-        lora_vocab = (
-            (lora_config.lora_extra_vocab_size * (lora_config.max_loras or 1))
-            if lora_config
-            else 0
-        )
-        self.vocab_size = config.vocab_size + lora_vocab
-        self.org_vocab_size = config.vocab_size
+
+        self.vocab_size = config.vocab_size
 
         self.embed_tokens = VocabParallelEmbedding(
             self.vocab_size, config.hidden_size, org_num_embeddings=config.vocab_size
@@ -483,7 +476,7 @@ class Lfm2ForCausalLM(
         config = vllm_config.model_config.hf_config
         quant_config = vllm_config.quant_config
         cache_config = vllm_config.cache_config
-        lora_config = vllm_config.lora_config
+
         assert not cache_config.enable_prefix_caching, (
             "Lfm2 currently does not support prefix caching"
         )
@@ -495,21 +488,9 @@ class Lfm2ForCausalLM(
         )
 
         if get_pp_group().is_last_rank:
-            self.unpadded_vocab_size = self.config.vocab_size
-            if lora_config:
-                self.unpadded_vocab_size += lora_config.lora_extra_vocab_size
-
             self.lm_head = ParallelLMHead(
-                self.unpadded_vocab_size,
+                config.vocab_size,
                 config.hidden_size,
-                org_num_embeddings=config.vocab_size,
-                padding_size=(
-                    DEFAULT_VOCAB_PADDING_SIZE
-                    # We need bigger padding if using lora for kernel
-                    # compatibility
-                    if not lora_config
-                    else lora_config.lora_vocab_padding_size
-                ),
                 quant_config=quant_config,
                 prefix=maybe_prefix(prefix, "lm_head"),
             )
@@ -517,9 +498,7 @@ class Lfm2ForCausalLM(
         else:
             self.lm_head = PPMissingLayer()
 
-        self.logits_processor = LogitsProcessor(
-            self.unpadded_vocab_size, config.vocab_size
-        )
+        self.logits_processor = LogitsProcessor(config.vocab_size)
 
         self.make_empty_intermediate_tensors = (
             self.model.make_empty_intermediate_tensors
diff --git a/vllm/model_executor/models/lfm2_moe.py b/vllm/model_executor/models/lfm2_moe.py
index 02a490e9c7fd9..b191164671050 100644
--- a/vllm/model_executor/models/lfm2_moe.py
+++ b/vllm/model_executor/models/lfm2_moe.py
@@ -33,7 +33,6 @@ from vllm.model_executor.layers.mamba.short_conv import ShortConv
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.layers.rotary_embedding import get_rope
 from vllm.model_executor.layers.vocab_parallel_embedding import (
-    DEFAULT_VOCAB_PADDING_SIZE,
     ParallelLMHead,
     VocabParallelEmbedding,
 )
@@ -423,20 +422,15 @@ class Lfm2MoeModel(nn.Module):
         model_config = vllm_config.model_config
         cache_config = vllm_config.cache_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
+
         parallel_config = vllm_config.parallel_config
         enable_eplb = parallel_config.enable_eplb
         eplb_config = parallel_config.eplb_config
         self.num_redundant_experts = eplb_config.num_redundant_experts
 
         self.config = config
-        lora_vocab = (
-            (lora_config.lora_extra_vocab_size * (lora_config.max_loras or 1))
-            if lora_config
-            else 0
-        )
-        self.vocab_size = config.vocab_size + lora_vocab
-        self.org_vocab_size = config.vocab_size
+
+        self.vocab_size = config.vocab_size
 
         self.embed_tokens = VocabParallelEmbedding(
             self.vocab_size, config.hidden_size, org_num_embeddings=config.vocab_size
@@ -662,7 +656,7 @@ class Lfm2MoeForCausalLM(
         config = vllm_config.model_config.hf_config
         quant_config = vllm_config.quant_config
         cache_config = vllm_config.cache_config
-        lora_config = vllm_config.lora_config
+
         assert not cache_config.enable_prefix_caching, (
             "Lfm2Moe currently does not support prefix caching"
         )
@@ -674,21 +668,9 @@ class Lfm2MoeForCausalLM(
         )
 
         if get_pp_group().is_last_rank:
-            self.unpadded_vocab_size = self.config.vocab_size
-            if lora_config:
-                self.unpadded_vocab_size += lora_config.lora_extra_vocab_size
-
             self.lm_head = ParallelLMHead(
-                self.unpadded_vocab_size,
+                config.vocab_size,
                 config.hidden_size,
-                org_num_embeddings=config.vocab_size,
-                padding_size=(
-                    DEFAULT_VOCAB_PADDING_SIZE
-                    # We need bigger padding if using lora for kernel
-                    # compatibility
-                    if not lora_config
-                    else lora_config.lora_vocab_padding_size
-                ),
                 quant_config=quant_config,
                 prefix=maybe_prefix(prefix, "lm_head"),
             )
@@ -696,9 +678,7 @@ class Lfm2MoeForCausalLM(
         else:
             self.lm_head = PPMissingLayer()
 
-        self.logits_processor = LogitsProcessor(
-            self.unpadded_vocab_size, config.vocab_size
-        )
+        self.logits_processor = LogitsProcessor(config.vocab_size)
 
         self.make_empty_intermediate_tensors = (
             self.model.make_empty_intermediate_tensors
diff --git a/vllm/model_executor/models/llama_eagle3.py b/vllm/model_executor/models/llama_eagle3.py
index da4bbda186b17..b8b9cc76d08d2 100644
--- a/vllm/model_executor/models/llama_eagle3.py
+++ b/vllm/model_executor/models/llama_eagle3.py
@@ -15,7 +15,6 @@ from vllm.model_executor.layers.linear import QKVParallelLinear
 from vllm.model_executor.layers.logits_processor import LogitsProcessor
 from vllm.model_executor.layers.quantization.base_config import QuantizationConfig
 from vllm.model_executor.layers.vocab_parallel_embedding import (
-    DEFAULT_VOCAB_PADDING_SIZE,
     ParallelLMHead,
     VocabParallelEmbedding,
 )
@@ -252,8 +251,6 @@ class Eagle3LlamaForCausalLM(LlamaForCausalLM):
         self.lm_head = ParallelLMHead(
             self.config.draft_vocab_size,
             self.config.hidden_size,
-            org_num_embeddings=self.config.draft_vocab_size,
-            padding_size=(DEFAULT_VOCAB_PADDING_SIZE),
             prefix=maybe_prefix(prefix, "lm_head"),
         )
         self.logits_processor = LogitsProcessor(
diff --git a/vllm/model_executor/models/longcat_flash.py b/vllm/model_executor/models/longcat_flash.py
index 5671347c00a23..b848ae6e822f1 100644
--- a/vllm/model_executor/models/longcat_flash.py
+++ b/vllm/model_executor/models/longcat_flash.py
@@ -554,7 +554,6 @@ class LongcatFlashForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
         super().__init__()
         config = FlashConfig(**vllm_config.model_config.hf_config.__dict__)
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
 
         self.config = config
         config.intermediate_size = (
@@ -562,7 +561,7 @@ class LongcatFlashForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
             if hasattr(config, "ffn_hidden_size")
             else config.intermediate_size
         )
-        self.lora_config = lora_config
+
         self.quant_config = quant_config
 
         self.model = FlashModel(
diff --git a/vllm/model_executor/models/mamba.py b/vllm/model_executor/models/mamba.py
index f684203f6d35e..02abe693e071d 100644
--- a/vllm/model_executor/models/mamba.py
+++ b/vllm/model_executor/models/mamba.py
@@ -21,7 +21,6 @@ from vllm.model_executor.layers.mamba.mamba_utils import (
 )
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.layers.vocab_parallel_embedding import (
-    DEFAULT_VOCAB_PADDING_SIZE,
     ParallelLMHead,
     VocabParallelEmbedding,
 )
@@ -110,18 +109,12 @@ class MambaModel(nn.Module):
         is_lora_enabled = bool(lora_config)
 
         self.config = config
-        lora_vocab = (
-            (lora_config.lora_extra_vocab_size * (lora_config.max_loras or 1))
-            if lora_config
-            else 0
-        )
-        self.vocab_size = config.vocab_size + lora_vocab
-        self.org_vocab_size = config.vocab_size
+
+        self.vocab_size = config.vocab_size
 
         self.embeddings = VocabParallelEmbedding(
             self.vocab_size,
             config.hidden_size,
-            org_num_embeddings=config.vocab_size,
         )
 
         self.start_layer, self.end_layer, self.layers = make_layers(
@@ -199,7 +192,7 @@ class MambaForCausalLM(
 ):
     def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
         config = vllm_config.model_config.hf_config
-        lora_config = vllm_config.lora_config
+
         self.scheduler_config = vllm_config.scheduler_config
 
         super().__init__()
@@ -209,27 +202,17 @@ class MambaForCausalLM(
         self.backbone = MambaModel(
             vllm_config=vllm_config, prefix=maybe_prefix(prefix, "backbone")
         )
-        self.unpadded_vocab_size = config.vocab_size
-        if lora_config:
-            self.unpadded_vocab_size += lora_config.lora_extra_vocab_size
+
         if config.tie_word_embeddings:
             self.lm_head = self.backbone.embeddings
         else:
             self.lm_head = ParallelLMHead(
-                self.unpadded_vocab_size,
+                config.vocab_size,
                 config.hidden_size,
-                org_num_embeddings=config.vocab_size,
-                padding_size=DEFAULT_VOCAB_PADDING_SIZE
-                # We need bigger padding if using lora for kernel
-                # compatibility
-                if not lora_config
-                else lora_config.lora_vocab_padding_size,
                 prefix=maybe_prefix(prefix, "lm_head"),
             )
 
-        self.logits_processor = LogitsProcessor(
-            self.unpadded_vocab_size, config.vocab_size
-        )
+        self.logits_processor = LogitsProcessor(config.vocab_size)
 
         self.make_empty_intermediate_tensors = (
             self.backbone.make_empty_intermediate_tensors
diff --git a/vllm/model_executor/models/mamba2.py b/vllm/model_executor/models/mamba2.py
index 8ba8af66635b3..d19480b064e05 100644
--- a/vllm/model_executor/models/mamba2.py
+++ b/vllm/model_executor/models/mamba2.py
@@ -20,7 +20,6 @@ from vllm.model_executor.layers.mamba.mamba_utils import (
 )
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.layers.vocab_parallel_embedding import (
-    DEFAULT_VOCAB_PADDING_SIZE,
     ParallelLMHead,
     VocabParallelEmbedding,
 )
@@ -107,18 +106,12 @@ class Mamba2Model(nn.Module):
         assert not is_lora_enabled
 
         self.config = config
-        lora_vocab = (
-            (lora_config.lora_extra_vocab_size * (lora_config.max_loras or 1))
-            if lora_config
-            else 0
-        )
-        self.vocab_size = config.vocab_size + lora_vocab
-        self.org_vocab_size = config.vocab_size
+
+        self.vocab_size = config.vocab_size
 
         self.embeddings = VocabParallelEmbedding(
             self.vocab_size,
             config.hidden_size,
-            org_num_embeddings=config.vocab_size,
         )
 
         self.start_layer, self.end_layer, self.layers = make_layers(
@@ -238,7 +231,7 @@ class Mamba2ForCausalLM(
 
     def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
         config = vllm_config.model_config.hf_config
-        lora_config = vllm_config.lora_config
+
         scheduler_config = vllm_config.scheduler_config
 
         super().__init__()
@@ -249,27 +242,16 @@ class Mamba2ForCausalLM(
         self.backbone = Mamba2Model(
             vllm_config=vllm_config, prefix=maybe_prefix(prefix, "backbone")
         )
-        self.unpadded_vocab_size = config.vocab_size
-        if lora_config:
-            self.unpadded_vocab_size += lora_config.lora_extra_vocab_size
 
         self.lm_head = ParallelLMHead(
-            self.unpadded_vocab_size,
+            config.vocab_size,
             config.hidden_size,
-            org_num_embeddings=config.vocab_size,
-            padding_size=DEFAULT_VOCAB_PADDING_SIZE
-            # We need bigger padding if using lora for kernel
-            # compatibility
-            if not lora_config
-            else lora_config.lora_vocab_padding_size,
             prefix=maybe_prefix(prefix, "lm_head"),
         )
         if config.tie_word_embeddings:
             self.lm_head = self.lm_head.tie_weights(self.backbone.embeddings)
 
-        self.logits_processor = LogitsProcessor(
-            self.unpadded_vocab_size, config.vocab_size
-        )
+        self.logits_processor = LogitsProcessor(config.vocab_size)
 
         self.make_empty_intermediate_tensors = (
             self.backbone.make_empty_intermediate_tensors
diff --git a/vllm/model_executor/models/medusa.py b/vllm/model_executor/models/medusa.py
index 7e1d2bf14bb5c..fd7fc2c73f16e 100644
--- a/vllm/model_executor/models/medusa.py
+++ b/vllm/model_executor/models/medusa.py
@@ -9,7 +9,6 @@ import torch.nn as nn
 from vllm.config import VllmConfig
 from vllm.model_executor.layers.logits_processor import LogitsProcessor
 from vllm.model_executor.layers.vocab_parallel_embedding import (
-    DEFAULT_VOCAB_PADDING_SIZE,
     ParallelLMHead,
 )
 from vllm.model_executor.model_loader.weight_utils import default_weight_loader
@@ -70,14 +69,11 @@ class Medusa(nn.Module):
         )
         self.orig_vocab_size = config.vocab_size
         self.truncated_vocab_size = config.truncated_vocab_size
-        self.unpadded_vocab_size = self.truncated_vocab_size
 
         if getattr(config, "original_lm_head", False):
             self.lm_head = ParallelLMHead(
-                self.unpadded_vocab_size,
+                self.truncated_vocab_size,
                 config.hidden_size,
-                org_num_embeddings=self.truncated_vocab_size,
-                padding_size=DEFAULT_VOCAB_PADDING_SIZE,
                 prefix=maybe_prefix(prefix, "lm_head"),
             )
             self.lm_heads = [self.lm_head for _ in range(self.config.num_heads)]
@@ -85,10 +81,8 @@ class Medusa(nn.Module):
             self.lm_heads = nn.ModuleList(
                 [
                     ParallelLMHead(
-                        self.unpadded_vocab_size,
+                        config.vocab_size,
                         config.hidden_size,
-                        org_num_embeddings=self.truncated_vocab_size,
-                        padding_size=DEFAULT_VOCAB_PADDING_SIZE,
                         prefix=maybe_prefix(prefix, f"lm_heads.{i}"),
                     )
                     for i in range(self.config.num_heads)
@@ -97,7 +91,7 @@ class Medusa(nn.Module):
 
         logit_scale = getattr(config, "logit_scale", 1.0)
         self.logits_processor = LogitsProcessor(
-            self.unpadded_vocab_size, self.truncated_vocab_size, logit_scale
+            config.vocab_size, self.truncated_vocab_size, logit_scale
         )
 
         # Token map is a idx to token mapping to reduce the vocab size for
diff --git a/vllm/model_executor/models/mimo.py b/vllm/model_executor/models/mimo.py
index 726752a77e0dc..666ac90c44293 100644
--- a/vllm/model_executor/models/mimo.py
+++ b/vllm/model_executor/models/mimo.py
@@ -151,10 +151,8 @@ class MiMoForCausalLM(Qwen2ForCausalLM, nn.Module):
         nn.Module.__init__(self)
         config = vllm_config.model_config.hf_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
 
         self.config = config
-        self.lora_config = lora_config
 
         self.quant_config = quant_config
 
diff --git a/vllm/model_executor/models/minicpm.py b/vllm/model_executor/models/minicpm.py
index 85d3542317a1d..d9f0b477180e4 100644
--- a/vllm/model_executor/models/minicpm.py
+++ b/vllm/model_executor/models/minicpm.py
@@ -55,7 +55,6 @@ from vllm.model_executor.layers.logits_processor import LogitsProcessor
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.layers.rotary_embedding import get_rope
 from vllm.model_executor.layers.vocab_parallel_embedding import (
-    DEFAULT_VOCAB_PADDING_SIZE,
     ParallelLMHead,
     VocabParallelEmbedding,
 )
@@ -405,22 +404,16 @@ class MiniCPMModel(nn.Module):
         config = vllm_config.model_config.hf_config
         cache_config = vllm_config.cache_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
 
         self.config = config
         self.cache_config = cache_config
         self.quant_config = quant_config
-        lora_vocab = (
-            (lora_config.lora_extra_vocab_size * (lora_config.max_loras or 1))
-            if lora_config
-            else 0
-        )
-        self.vocab_size = config.vocab_size + lora_vocab
-        self.org_vocab_size = config.vocab_size
+
+        self.vocab_size = config.vocab_size
+
         self.embed_tokens = VocabParallelEmbedding(
             self.vocab_size,
             config.hidden_size,
-            org_num_embeddings=config.vocab_size,
         )
         self.num_experts = getattr(self.config, "num_experts", 0)
         self._init_layers(prefix, config, cache_config, quant_config)
@@ -588,13 +581,13 @@ class MiniCPMForCausalLM(nn.Module, SupportsLoRA, SupportsPP, SupportsEagle3):
         config = vllm_config.model_config.hf_config
         cache_config = vllm_config.cache_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
+
         parallel_config = vllm_config.parallel_config
 
         self.prefix = prefix
         self.vllm_config = vllm_config
         self.config = config
-        self.lora_config = lora_config
+
         self.cache_config = cache_config
         self.quant_config = quant_config
 
@@ -602,18 +595,9 @@ class MiniCPMForCausalLM(nn.Module, SupportsLoRA, SupportsPP, SupportsEagle3):
             vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
         )
 
-        unpadded_vocab_size = config.vocab_size
-        if lora_config:
-            unpadded_vocab_size += lora_config.lora_extra_vocab_size
         self.lm_head = ParallelLMHead(
-            unpadded_vocab_size,
+            config.vocab_size,
             config.hidden_size,
-            org_num_embeddings=config.vocab_size,
-            padding_size=DEFAULT_VOCAB_PADDING_SIZE
-            # We need bigger padding if using lora for kernel
-            # compatibility
-            if not lora_config
-            else lora_config.lora_vocab_padding_size,
             quant_config=quant_config,
             prefix=maybe_prefix(prefix, "lm_head"),
         )
@@ -621,7 +605,7 @@ class MiniCPMForCausalLM(nn.Module, SupportsLoRA, SupportsPP, SupportsEagle3):
             self.lm_head = self.lm_head.tie_weights(self.model.embed_tokens)
         self.scale_width = self.config.hidden_size / self.config.dim_model_base
 
-        self.logits_processor = LogitsProcessor(unpadded_vocab_size, config.vocab_size)
+        self.logits_processor = LogitsProcessor(config.vocab_size)
         self.make_empty_intermediate_tensors = (
             self.model.make_empty_intermediate_tensors
         )
diff --git a/vllm/model_executor/models/minicpm_eagle.py b/vllm/model_executor/models/minicpm_eagle.py
index 463af9bbe1399..6efc61e25ea1b 100644
--- a/vllm/model_executor/models/minicpm_eagle.py
+++ b/vllm/model_executor/models/minicpm_eagle.py
@@ -37,7 +37,6 @@ from vllm.model_executor.layers.layernorm import RMSNorm
 from vllm.model_executor.layers.logits_processor import LogitsProcessor
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.layers.vocab_parallel_embedding import (
-    DEFAULT_VOCAB_PADDING_SIZE,
     ParallelLMHead,
     VocabParallelEmbedding,
 )
@@ -151,18 +150,13 @@ class EagleMiniCPMModel(nn.Module):
         config = vllm_config.speculative_config.draft_model_config.hf_config
         cache_config = vllm_config.cache_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
 
         self.config = config
         self.cache_config = cache_config
         self.quant_config = quant_config
-        lora_vocab = (
-            (lora_config.lora_extra_vocab_size * (lora_config.max_loras or 1))
-            if lora_config
-            else 0
-        )
-        self.vocab_size = config.vocab_size + lora_vocab
-        self.org_vocab_size = config.vocab_size
+
+        self.vocab_size = config.vocab_size
+
         self.fc = torch.nn.Linear(
             self.config.hidden_size * 2, self.config.hidden_size, bias=False
         )
@@ -171,7 +165,6 @@ class EagleMiniCPMModel(nn.Module):
         self.embed_tokens = VocabParallelEmbedding(
             self.vocab_size,
             config.hidden_size,
-            org_num_embeddings=config.vocab_size,
         )
         self.num_experts = getattr(self.config, "num_experts", 0)
         self._init_layers(prefix, config, cache_config, quant_config, start_layer)
@@ -321,12 +314,11 @@ class EagleMiniCPMForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
         config = vllm_config.speculative_config.draft_model_config.hf_config
         cache_config = vllm_config.cache_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
 
         self.prefix = prefix
         self.vllm_config = vllm_config
         self.config = config
-        self.lora_config = lora_config
+
         self.cache_config = cache_config
         self.quant_config = quant_config
 
@@ -340,18 +332,9 @@ class EagleMiniCPMForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
             start_layer=target_layer_num,
         )
 
-        unpadded_vocab_size = config.vocab_size
-        if lora_config:
-            unpadded_vocab_size += lora_config.lora_extra_vocab_size
         self.lm_head = ParallelLMHead(
-            unpadded_vocab_size,
+            config.vocab_size,
             config.hidden_size,
-            org_num_embeddings=config.vocab_size,
-            padding_size=DEFAULT_VOCAB_PADDING_SIZE
-            # We need bigger padding if using lora for kernel
-            # compatibility
-            if not lora_config
-            else lora_config.lora_vocab_padding_size,
             quant_config=quant_config,
             prefix=maybe_prefix(prefix, "lm_head"),
         )
@@ -359,7 +342,7 @@ class EagleMiniCPMForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
             self.lm_head = self.lm_head.tie_weights(self.model.embed_tokens)
         self.scale_width = self.config.hidden_size / self.config.dim_model_base
 
-        self.logits_processor = LogitsProcessor(unpadded_vocab_size, config.vocab_size)
+        self.logits_processor = LogitsProcessor(config.vocab_size)
         self.make_empty_intermediate_tensors = (
             self.model.make_empty_intermediate_tensors
         )
diff --git a/vllm/model_executor/models/minimax_text_01.py b/vllm/model_executor/models/minimax_text_01.py
index e262012dcd526..1409a309f3aeb 100644
--- a/vllm/model_executor/models/minimax_text_01.py
+++ b/vllm/model_executor/models/minimax_text_01.py
@@ -41,7 +41,6 @@ from vllm.model_executor.layers.mamba.mamba_utils import (
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.layers.rotary_embedding import get_rope
 from vllm.model_executor.layers.vocab_parallel_embedding import (
-    DEFAULT_VOCAB_PADDING_SIZE,
     ParallelLMHead,
     VocabParallelEmbedding,
 )
@@ -669,16 +668,14 @@ class MiniMaxText01ForCausalLM(nn.Module, HasInnerState, IsHybrid):
     def __init__(self, *, vllm_config: VllmConfig, prefix: str = "") -> None:
         super().__init__()
         config = vllm_config.model_config.hf_config
-        lora_config = vllm_config.lora_config
+
         self.config = config
-        self.lora_config = lora_config
 
         if not hasattr(config, "sliding_window"):
             config.sliding_window = None
 
         self.CONCAT_FFN = True
 
-        self.unpadded_vocab_size = self.config.vocab_size
         if hasattr(vllm_config.model_config, "max_model_len"):
             self.config.max_model_len = vllm_config.model_config.max_model_len
         self.model = MiniMaxText01Model(
@@ -686,15 +683,13 @@ class MiniMaxText01ForCausalLM(nn.Module, HasInnerState, IsHybrid):
         )
         if get_pp_group().is_last_rank:
             self.lm_head = ParallelLMHead(
-                self.unpadded_vocab_size,
+                config.vocab_size,
                 self.config.hidden_size,
-                org_num_embeddings=self.config.vocab_size,
-                padding_size=DEFAULT_VOCAB_PADDING_SIZE,
                 prefix=maybe_prefix(prefix, "lm_head"),
             )
 
             self.logits_processor = LogitsProcessor(
-                self.unpadded_vocab_size, self.config.vocab_size
+                config.vocab_size, self.config.vocab_size
             )
 
         else:
diff --git a/vllm/model_executor/models/mlp_speculator.py b/vllm/model_executor/models/mlp_speculator.py
index 4901ac74fb28b..48604d8e51031 100644
--- a/vllm/model_executor/models/mlp_speculator.py
+++ b/vllm/model_executor/models/mlp_speculator.py
@@ -123,7 +123,6 @@ class MLPSpeculator(nn.Module):
                     VocabParallelEmbedding(
                         config.vocab_size,
                         self.inner_dim,
-                        org_num_embeddings=config.vocab_size,
                     )
                     for _ in range(self.max_speculative_tokens)
                 ]
diff --git a/vllm/model_executor/models/molmo.py b/vllm/model_executor/models/molmo.py
index dce94d181c4cd..7a9e3d81b73a1 100644
--- a/vllm/model_executor/models/molmo.py
+++ b/vllm/model_executor/models/molmo.py
@@ -1404,10 +1404,9 @@ class MolmoForCausalLM(
         config = vllm_config.model_config.hf_config
         quant_config = vllm_config.quant_config
         multimodal_config = vllm_config.model_config.multimodal_config
-        lora_config = vllm_config.lora_config
+
         self.config = config
         self.multimodal_config = multimodal_config
-        self.lora_config = lora_config
 
         vision_config = VisionBackboneConfig()
         self.vision_backbone = MolmoVisionBackbone(config, vision_config, quant_config)
diff --git a/vllm/model_executor/models/nemotron.py b/vllm/model_executor/models/nemotron.py
index 845798b18d1b3..17e8e7f28258d 100644
--- a/vllm/model_executor/models/nemotron.py
+++ b/vllm/model_executor/models/nemotron.py
@@ -45,7 +45,6 @@ from vllm.model_executor.layers.logits_processor import LogitsProcessor
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.layers.rotary_embedding import get_rope
 from vllm.model_executor.layers.vocab_parallel_embedding import (
-    DEFAULT_VOCAB_PADDING_SIZE,
     ParallelLMHead,
     VocabParallelEmbedding,
 )
@@ -319,24 +318,18 @@ class NemotronModel(nn.Module):
         config = vllm_config.model_config.hf_config
         cache_config = vllm_config.cache_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
 
         self.config = config
         self.quant_config = quant_config
-        lora_vocab = (
-            (lora_config.lora_extra_vocab_size * (lora_config.max_loras or 1))
-            if lora_config
-            else 0
-        )
-        self.vocab_size = config.vocab_size + lora_vocab
-        self.org_vocab_size = config.vocab_size
+
+        self.vocab_size = config.vocab_size
+
         if get_pp_group().is_first_rank or (
             config.tie_word_embeddings and get_pp_group().is_last_rank
         ):
             self.embed_tokens = VocabParallelEmbedding(
                 self.vocab_size,
                 config.hidden_size,
-                org_num_embeddings=config.vocab_size,
             )
         else:
             self.embed_tokens = PPMissingLayer()
@@ -467,29 +460,20 @@ class NemotronForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
         super().__init__()
         config = vllm_config.model_config.hf_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
+
         assert isinstance(config, NemotronConfig)
 
         self.config = config
-        self.lora_config = lora_config
+
         self.quant_config = quant_config
 
         self.model = NemotronModel(
             vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
         )
         if get_pp_group().is_last_rank:
-            self.unpadded_vocab_size = config.vocab_size
-            if lora_config:
-                self.unpadded_vocab_size += lora_config.lora_extra_vocab_size
             self.lm_head = ParallelLMHead(
-                self.unpadded_vocab_size,
+                config.vocab_size,
                 config.hidden_size,
-                org_num_embeddings=config.vocab_size,
-                padding_size=DEFAULT_VOCAB_PADDING_SIZE
-                # We need bigger padding if using lora for kernel
-                # compatibility
-                if not lora_config
-                else lora_config.lora_vocab_padding_size,
                 quant_config=quant_config,
                 prefix=maybe_prefix(prefix, "lm_head"),
             )
@@ -498,7 +482,7 @@ class NemotronForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
 
             logit_scale = getattr(config, "logit_scale", 1.0)
             self.logits_processor = LogitsProcessor(
-                self.unpadded_vocab_size, config.vocab_size, logit_scale
+                config.vocab_size, scale=logit_scale
             )
         else:
             self.lm_head = PPMissingLayer()
diff --git a/vllm/model_executor/models/nemotron_h.py b/vllm/model_executor/models/nemotron_h.py
index fb58d01be7ba1..8ef3eee173eb2 100644
--- a/vllm/model_executor/models/nemotron_h.py
+++ b/vllm/model_executor/models/nemotron_h.py
@@ -50,7 +50,6 @@ from vllm.model_executor.layers.mamba.mamba_utils import (
 )
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.layers.vocab_parallel_embedding import (
-    DEFAULT_VOCAB_PADDING_SIZE,
     ParallelLMHead,
     VocabParallelEmbedding,
 )
@@ -513,21 +512,14 @@ class NemotronHModel(nn.Module):
         cache_config = vllm_config.cache_config
         quant_config = vllm_config.quant_config
         parallel_config = vllm_config.parallel_config
-        lora_config = vllm_config.lora_config
 
         self.config = config
-        lora_vocab = (
-            (lora_config.lora_extra_vocab_size * (lora_config.max_loras or 1))
-            if lora_config
-            else 0
-        )
-        self.vocab_size = config.vocab_size + lora_vocab
-        self.org_vocab_size = config.vocab_size
+
+        self.vocab_size = config.vocab_size
 
         self.embed_tokens = VocabParallelEmbedding(
             self.vocab_size,
             config.hidden_size,
-            org_num_embeddings=config.vocab_size,
         )
 
         self.has_moe = "E" in config.hybrid_override_pattern
@@ -768,7 +760,7 @@ class NemotronHForCausalLM(
         config = vllm_config.model_config.hf_config
         self.vllm_config = vllm_config
         self.model_config = vllm_config.model_config
-        lora_config = vllm_config.lora_config
+
         scheduler_config = vllm_config.scheduler_config
 
         self.quant_config = vllm_config.quant_config
@@ -779,24 +771,14 @@ class NemotronHForCausalLM(
         self.model = NemotronHModel(
             vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
         )
-        self.unpadded_vocab_size = config.vocab_size
-        if lora_config:
-            self.unpadded_vocab_size += lora_config.lora_extra_vocab_size
+
         self.lm_head = ParallelLMHead(
-            self.unpadded_vocab_size,
+            config.vocab_size,
             config.hidden_size,
-            org_num_embeddings=config.vocab_size,
-            padding_size=DEFAULT_VOCAB_PADDING_SIZE
-            # We need bigger padding if using lora for kernel
-            # compatibility
-            if not lora_config
-            else lora_config.lora_vocab_padding_size,
             prefix=maybe_prefix(prefix, "lm_head"),
         )
 
-        self.logits_processor = LogitsProcessor(
-            self.unpadded_vocab_size, config.vocab_size
-        )
+        self.logits_processor = LogitsProcessor(config.vocab_size)
 
         self.make_empty_intermediate_tensors = (
             self.model.make_empty_intermediate_tensors
diff --git a/vllm/model_executor/models/nemotron_nas.py b/vllm/model_executor/models/nemotron_nas.py
index 17e009612df43..acd0d0c982348 100644
--- a/vllm/model_executor/models/nemotron_nas.py
+++ b/vllm/model_executor/models/nemotron_nas.py
@@ -41,7 +41,6 @@ from vllm.model_executor.layers.logits_processor import LogitsProcessor
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.layers.rotary_embedding import get_rope
 from vllm.model_executor.layers.vocab_parallel_embedding import (
-    DEFAULT_VOCAB_PADDING_SIZE,
     ParallelLMHead,
     VocabParallelEmbedding,
 )
@@ -250,25 +249,19 @@ class DeciModel(nn.Module):
         config = vllm_config.model_config.hf_config
         cache_config = vllm_config.cache_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
 
         self.config = config
         self.quant_config = quant_config
         self.padding_idx = config.pad_token_id
-        lora_vocab = (
-            (lora_config.lora_extra_vocab_size * (lora_config.max_loras or 1))
-            if lora_config
-            else 0
-        )
-        self.vocab_size = config.vocab_size + lora_vocab
-        self.org_vocab_size = config.vocab_size
+
+        self.vocab_size = config.vocab_size
+
         if get_pp_group().is_first_rank or (
             config.tie_word_embeddings and get_pp_group().is_last_rank
         ):
             self.embed_tokens = VocabParallelEmbedding(
                 self.vocab_size,
                 config.hidden_size,
-                org_num_embeddings=config.vocab_size,
                 quant_config=quant_config,
             )
         else:
@@ -437,29 +430,17 @@ class DeciLMForCausalLM(nn.Module, SupportsLoRA, SupportsPP, HasNoOps):
         super().__init__()
         config = vllm_config.model_config.hf_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
+
         self.config = config
-        self.lora_config = lora_config
 
         self.model = self._init_model(
             vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
         )
 
         if get_pp_group().is_last_rank:
-            self.unpadded_vocab_size = config.vocab_size
-            if lora_config:
-                self.unpadded_vocab_size += lora_config.lora_extra_vocab_size
             self.lm_head = ParallelLMHead(
-                self.unpadded_vocab_size,
+                config.vocab_size,
                 config.hidden_size,
-                org_num_embeddings=config.vocab_size,
-                padding_size=(
-                    DEFAULT_VOCAB_PADDING_SIZE
-                    # We need bigger padding if using lora for kernel
-                    # compatibility
-                    if not lora_config
-                    else lora_config.lora_vocab_padding_size
-                ),
                 quant_config=quant_config,
                 prefix=maybe_prefix(prefix, "lm_head"),
             )
@@ -468,7 +449,7 @@ class DeciLMForCausalLM(nn.Module, SupportsLoRA, SupportsPP, HasNoOps):
 
             logit_scale = getattr(config, "logit_scale", 1.0)
             self.logits_processor = LogitsProcessor(
-                self.unpadded_vocab_size, config.vocab_size, logit_scale
+                config.vocab_size, scale=logit_scale
             )
         else:
             self.lm_head = PPMissingLayer()
diff --git a/vllm/model_executor/models/olmo.py b/vllm/model_executor/models/olmo.py
index 390a91d3425ce..cb47f76a27ff5 100644
--- a/vllm/model_executor/models/olmo.py
+++ b/vllm/model_executor/models/olmo.py
@@ -368,11 +368,9 @@ class OlmoForCausalLM(nn.Module, SupportsPP, SupportsLoRA):
         if config.tie_word_embeddings:
             self.lm_head = self.model.embed_tokens
         else:
-            self.unpadded_vocab_size = config.vocab_size
             self.lm_head = ParallelLMHead(
-                self.unpadded_vocab_size,
+                config.vocab_size,
                 config.hidden_size,
-                org_num_embeddings=config.vocab_size,
                 quant_config=quant_config,
                 prefix=maybe_prefix(prefix, "lm_head"),
             )
diff --git a/vllm/model_executor/models/olmo2.py b/vllm/model_executor/models/olmo2.py
index 7e39f6dff25e7..2aa01adebc9f1 100644
--- a/vllm/model_executor/models/olmo2.py
+++ b/vllm/model_executor/models/olmo2.py
@@ -408,11 +408,9 @@ class Olmo2ForCausalLM(nn.Module, SupportsPP, SupportsLoRA):
         if config.tie_word_embeddings:
             self.lm_head = self.model.embed_tokens
         else:
-            self.unpadded_vocab_size = config.vocab_size
             self.lm_head = ParallelLMHead(
                 config.vocab_size,
                 config.hidden_size,
-                org_num_embeddings=config.vocab_size,
                 quant_config=vllm_config.quant_config,
                 prefix=maybe_prefix(prefix, "lm_head"),
             )
diff --git a/vllm/model_executor/models/ouro.py b/vllm/model_executor/models/ouro.py
index b8dad909c5470..cc7947df50aea 100644
--- a/vllm/model_executor/models/ouro.py
+++ b/vllm/model_executor/models/ouro.py
@@ -462,10 +462,8 @@ class OuroForCausalLM(nn.Module, SupportsLoRA):
         super().__init__()
         config = vllm_config.model_config.hf_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
 
         self.config = config
-        self.lora_config = lora_config
 
         self.quant_config = quant_config
         self.model = OuroModel(
diff --git a/vllm/model_executor/models/phi.py b/vllm/model_executor/models/phi.py
index 34db124b6447c..e76fb1904727c 100644
--- a/vllm/model_executor/models/phi.py
+++ b/vllm/model_executor/models/phi.py
@@ -323,11 +323,10 @@ class PhiForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
         super().__init__()
         config = vllm_config.model_config.hf_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
+
         self.config = config
         # lm_head use bias, cannot share word embeddings
         assert not config.tie_word_embeddings
-        self.lora_config = lora_config
 
         self.quant_config = quant_config
 
diff --git a/vllm/model_executor/models/phi3v.py b/vllm/model_executor/models/phi3v.py
index b86fe67fb4768..a7b28bd18cc7a 100644
--- a/vllm/model_executor/models/phi3v.py
+++ b/vllm/model_executor/models/phi3v.py
@@ -591,7 +591,6 @@ class Phi3VForCausalLM(nn.Module, SupportsMultiModal, SupportsPP, SupportsQuant)
         self.embed_tokens = VocabParallelEmbedding(
             config.vocab_size,
             config.hidden_size,
-            org_num_embeddings=config.vocab_size,
             quant_config=self.quant_config,
             prefix=maybe_prefix(prefix, "model.embed_tokens"),
         )
diff --git a/vllm/model_executor/models/phi4mm.py b/vllm/model_executor/models/phi4mm.py
index acad72b058fcd..c2a3be16b6107 100644
--- a/vllm/model_executor/models/phi4mm.py
+++ b/vllm/model_executor/models/phi4mm.py
@@ -21,7 +21,6 @@ from vllm.distributed import get_pp_group
 from vllm.model_executor.layers.logits_processor import LogitsProcessor
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.layers.vocab_parallel_embedding import (
-    DEFAULT_VOCAB_PADDING_SIZE,
     ParallelLMHead,
 )
 from vllm.model_executor.models.llama import LlamaModel
@@ -1023,12 +1022,10 @@ class Phi4MMForCausalLM(nn.Module, SupportsLoRA, SupportsMultiModal):
         multimodal_config = vllm_config.model_config.multimodal_config
         assert multimodal_config, "multimodal_config is required"
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
 
         self.config = config
         self.multimodal_config = multimodal_config
         self.quant_config = quant_config
-        self.lora_config = lora_config
 
         # Tensor/Pipeline parallel not supported for now.
         assert get_pp_group().world_size == 1, "pipeline parallel is not supported"
@@ -1055,23 +1052,16 @@ class Phi4MMForCausalLM(nn.Module, SupportsLoRA, SupportsMultiModal):
             vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
         )
 
-        self.unpadded_vocab_size = config.vocab_size
-        if lora_config:
-            self.unpadded_vocab_size += lora_config.lora_extra_vocab_size
         self.lm_head = ParallelLMHead(
-            self.unpadded_vocab_size,
+            config.vocab_size,
             config.hidden_size,
-            org_num_embeddings=config.vocab_size,
-            padding_size=DEFAULT_VOCAB_PADDING_SIZE,
             quant_config=quant_config,
             prefix=maybe_prefix(prefix, "lm_head"),
         )
         if config.tie_word_embeddings:
             self.lm_head = self.lm_head.tie_weights(self.model.embed_tokens)
         logit_scale = getattr(config, "logit_scale", 1.0)
-        self.logits_processor = LogitsProcessor(
-            self.unpadded_vocab_size, config.vocab_size, logit_scale
-        )
+        self.logits_processor = LogitsProcessor(config.vocab_size, scale=logit_scale)
 
     def _parse_and_validate_audio_input(
         self, **kwargs: object
diff --git a/vllm/model_executor/models/phimoe.py b/vllm/model_executor/models/phimoe.py
index c7436cedeb229..97e5537877908 100644
--- a/vllm/model_executor/models/phimoe.py
+++ b/vllm/model_executor/models/phimoe.py
@@ -45,7 +45,6 @@ from vllm.model_executor.layers.logits_processor import LogitsProcessor
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.layers.rotary_embedding import get_rope
 from vllm.model_executor.layers.vocab_parallel_embedding import (
-    DEFAULT_VOCAB_PADDING_SIZE,
     ParallelLMHead,
     VocabParallelEmbedding,
 )
@@ -458,22 +457,15 @@ class PhiMoEModel(nn.Module):
         config = vllm_config.model_config.hf_config
         cache_config = vllm_config.cache_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
 
-        lora_vocab = (
-            (lora_config.lora_extra_vocab_size * (lora_config.max_loras or 1))
-            if lora_config
-            else 0
-        )
-        self.vocab_size = config.vocab_size + lora_vocab
-        self.org_vocab_size = config.vocab_size
+        self.vocab_size = config.vocab_size
+
         self.config = config
         self.quant_config = quant_config
 
         self.embed_tokens = VocabParallelEmbedding(
             self.vocab_size,
             config.hidden_size,
-            org_num_embeddings=config.vocab_size,
         )
         self.start_layer, self.end_layer, self.layers = make_layers(
             config.num_hidden_layers,
@@ -634,35 +626,23 @@ class PhiMoEForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
     def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
         super().__init__()
         config = vllm_config.model_config.hf_config
-        lora_config = vllm_config.lora_config
+
         self.config = config
-        self.lora_config = lora_config
+
         self.quant_config = vllm_config.quant_config
 
         self.model = PhiMoEModel(
             vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
         )
-        self.unpadded_vocab_size = config.vocab_size
-        if lora_config:
-            self.unpadded_vocab_size += lora_config.lora_extra_vocab_size
+
         self.lm_head = ParallelLMHead(
-            self.unpadded_vocab_size,
+            config.vocab_size,
             config.hidden_size,
-            org_num_embeddings=config.vocab_size,
-            padding_size=(
-                DEFAULT_VOCAB_PADDING_SIZE
-                # We need bigger padding if using lora for kernel
-                # compatibility
-                if not lora_config
-                else lora_config.lora_vocab_padding_size
-            ),
             quant_config=None,
             bias=True,
             prefix=maybe_prefix(prefix, "lm_head"),
         )
-        self.logits_processor = LogitsProcessor(
-            self.unpadded_vocab_size, config.vocab_size
-        )
+        self.logits_processor = LogitsProcessor(config.vocab_size)
 
         self.make_empty_intermediate_tensors = (
             self.model.make_empty_intermediate_tensors
diff --git a/vllm/model_executor/models/plamo2.py b/vllm/model_executor/models/plamo2.py
index 6427ccfccc134..ece1c5ec23cff 100644
--- a/vllm/model_executor/models/plamo2.py
+++ b/vllm/model_executor/models/plamo2.py
@@ -46,7 +46,6 @@ from vllm.model_executor.layers.mamba.ops.ssd_combined import (
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.layers.rotary_embedding import get_rope
 from vllm.model_executor.layers.vocab_parallel_embedding import (
-    DEFAULT_VOCAB_PADDING_SIZE,
     ParallelLMHead,
     VocabParallelEmbedding,
 )
@@ -751,12 +750,10 @@ class Plamo2Model(torch.nn.Module):
         self.config = config
         self.padding_idx = config.pad_token_id
         self.vocab_size = config.vocab_size
-        self.org_vocab_size = config.vocab_size
 
         self.embed_tokens = VocabParallelEmbedding(
             self.vocab_size,
             config.hidden_size,
-            org_num_embeddings=config.vocab_size,
             prefix=f"{prefix}.embed_tokens",
         )
         self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
@@ -827,20 +824,16 @@ class Plamo2ForCausalLM(torch.nn.Module, HasInnerState, SupportsPP, IsHybrid):
             vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
         )
         self.vocab_size = self.config.vocab_size
-        self.unpadded_vocab_size = self.config.vocab_size
-        num_embeddings = ((self.vocab_size + 15) // 16) * 16
         self.lm_head = ParallelLMHead(
-            num_embeddings,
+            self.vocab_size,
             self.config.hidden_size,
-            org_num_embeddings=self.config.vocab_size,
-            padding_size=DEFAULT_VOCAB_PADDING_SIZE,
             prefix=f"{prefix}.lm_head",
         )
         if self.config.tie_word_embeddings:
             self.lm_head = self.lm_head.tie_weights(self.model.embed_tokens)
 
         self.logits_processor = LogitsProcessor(
-            self.unpadded_vocab_size, self.config.vocab_size
+            config.vocab_size, self.config.vocab_size
         )
         self.make_empty_intermediate_tensors = (
             self.model.make_empty_intermediate_tensors
diff --git a/vllm/model_executor/models/qwen2.py b/vllm/model_executor/models/qwen2.py
index b26546647ce76..cdf32c6c51373 100644
--- a/vllm/model_executor/models/qwen2.py
+++ b/vllm/model_executor/models/qwen2.py
@@ -477,10 +477,8 @@ class Qwen2ForCausalLM(nn.Module, SupportsLoRA, SupportsPP, SupportsEagle3):
         super().__init__()
         config = vllm_config.model_config.hf_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
 
         self.config = config
-        self.lora_config = lora_config
 
         self.quant_config = quant_config
         self.model = Qwen2Model(
diff --git a/vllm/model_executor/models/qwen2_rm.py b/vllm/model_executor/models/qwen2_rm.py
index e2ba0e262cf79..c5582218b852a 100644
--- a/vllm/model_executor/models/qwen2_rm.py
+++ b/vllm/model_executor/models/qwen2_rm.py
@@ -43,10 +43,8 @@ class Qwen2RewardBaseModel(nn.Module, SupportsLoRA, SupportsPP):
         super().__init__()
         config = vllm_config.model_config.hf_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
 
         self.config = config
-        self.lora_config = lora_config
 
         self.quant_config = quant_config
         self.model = Qwen2Model(
diff --git a/vllm/model_executor/models/qwen3.py b/vllm/model_executor/models/qwen3.py
index 563d3cc23d726..f689ff79d7617 100644
--- a/vllm/model_executor/models/qwen3.py
+++ b/vllm/model_executor/models/qwen3.py
@@ -272,10 +272,8 @@ class Qwen3ForCausalLM(nn.Module, SupportsLoRA, SupportsPP, SupportsEagle3):
         super().__init__()
         config = vllm_config.model_config.hf_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
 
         self.config = config
-        self.lora_config = lora_config
 
         self.quant_config = quant_config
         self.model = Qwen3Model(
diff --git a/vllm/model_executor/models/qwen3_next.py b/vllm/model_executor/models/qwen3_next.py
index ddb8693c16e23..9cd342caacb06 100644
--- a/vllm/model_executor/models/qwen3_next.py
+++ b/vllm/model_executor/models/qwen3_next.py
@@ -59,7 +59,6 @@ from vllm.model_executor.layers.mamba.ops.causal_conv1d import (
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.layers.rotary_embedding import get_rope
 from vllm.model_executor.layers.vocab_parallel_embedding import (
-    DEFAULT_VOCAB_PADDING_SIZE,
     ParallelLMHead,
     VocabParallelEmbedding,
 )
@@ -967,22 +966,17 @@ class Qwen3NextModel(nn.Module):
 
         config: Qwen3NextConfig = vllm_config.model_config.hf_config
         parallel_config = vllm_config.parallel_config
-        lora_config = vllm_config.lora_config
+
         eplb_config = parallel_config.eplb_config
         self.num_redundant_experts = eplb_config.num_redundant_experts
 
         self.config = config
-        lora_vocab = (
-            (lora_config.lora_extra_vocab_size * (lora_config.max_loras or 1))
-            if lora_config
-            else 0
-        )
-        self.vocab_size = config.vocab_size + lora_vocab
+
+        self.vocab_size = config.vocab_size
 
         self.embed_tokens = VocabParallelEmbedding(
             self.vocab_size,
             config.hidden_size,
-            org_num_embeddings=config.vocab_size,
         )
 
         def get_layer(prefix: str):
@@ -1196,7 +1190,7 @@ class Qwen3NextForCausalLM(
         self.vllm_config = vllm_config
         self.model_config = vllm_config.model_config
         cache_config = vllm_config.cache_config
-        lora_config = vllm_config.lora_config
+
         scheduler_config = vllm_config.scheduler_config
         assert not cache_config.enable_prefix_caching, (
             "Qwen3Next currently does not support prefix caching"
@@ -1209,23 +1203,13 @@ class Qwen3NextForCausalLM(
         self.model = Qwen3NextModel(
             vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
         )
-        self.unpadded_vocab_size = config.vocab_size
-        if lora_config:
-            self.unpadded_vocab_size += lora_config.lora_extra_vocab_size
+
         self.lm_head = ParallelLMHead(
-            self.unpadded_vocab_size,
+            config.vocab_size,
             config.hidden_size,
-            org_num_embeddings=config.vocab_size,
-            padding_size=DEFAULT_VOCAB_PADDING_SIZE
-            # We need bigger padding if using lora for kernel
-            # compatibility
-            if not lora_config
-            else lora_config.lora_vocab_padding_size,
             prefix=maybe_prefix(prefix, "lm_head"),
         )
-        self.logits_processor = LogitsProcessor(
-            self.unpadded_vocab_size, config.vocab_size
-        )
+        self.logits_processor = LogitsProcessor(config.vocab_size)
         self.make_empty_intermediate_tensors = (
             self.model.make_empty_intermediate_tensors
         )
diff --git a/vllm/model_executor/models/qwen3_next_mtp.py b/vllm/model_executor/models/qwen3_next_mtp.py
index 271b76adcff7e..9a552db029ee9 100644
--- a/vllm/model_executor/models/qwen3_next_mtp.py
+++ b/vllm/model_executor/models/qwen3_next_mtp.py
@@ -15,7 +15,6 @@ from vllm.model_executor.layers.fused_moe import FusedMoE
 from vllm.model_executor.layers.linear import ColumnParallelLinear
 from vllm.model_executor.layers.logits_processor import LogitsProcessor
 from vllm.model_executor.layers.vocab_parallel_embedding import (
-    DEFAULT_VOCAB_PADDING_SIZE,
     ParallelLMHead,
     VocabParallelEmbedding,
 )
@@ -48,17 +47,12 @@ class Qwen3NextMultiTokenPredictor(nn.Module):
 
         model_config = vllm_config.model_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
+
         config: Qwen3NextConfig = model_config.hf_config
 
         self.config = config
-        lora_vocab = (
-            (lora_config.lora_extra_vocab_size * (lora_config.max_loras or 1))
-            if lora_config
-            else 0
-        )
-        self.vocab_size = config.vocab_size + lora_vocab
-        self.org_vocab_size = config.vocab_size
+
+        self.vocab_size = config.vocab_size
 
         self.mtp_start_layer_idx = config.num_hidden_layers
         self.num_mtp_layers = getattr(config, "num_nextn_predict_layers", 1)
@@ -66,7 +60,6 @@ class Qwen3NextMultiTokenPredictor(nn.Module):
         self.embed_tokens = VocabParallelEmbedding(
             self.vocab_size,
             config.hidden_size,
-            org_num_embeddings=config.vocab_size,
         )
 
         self.fc = ColumnParallelLinear(
@@ -252,17 +245,13 @@ class Qwen3NextMTP(nn.Module, SupportsPP, QwenNextMixtureOfExperts):
         self.model = Qwen3NextMultiTokenPredictor(
             vllm_config=vllm_config, prefix=maybe_prefix(prefix, "mtp")
         )
-        self.unpadded_vocab_size = config.vocab_size
+
         self.lm_head = ParallelLMHead(
-            self.unpadded_vocab_size,
+            config.vocab_size,
             config.hidden_size,
-            org_num_embeddings=config.vocab_size,
-            padding_size=DEFAULT_VOCAB_PADDING_SIZE,
             prefix=maybe_prefix(prefix, "lm_head"),
         )
-        self.logits_processor = LogitsProcessor(
-            self.unpadded_vocab_size, config.vocab_size
-        )
+        self.logits_processor = LogitsProcessor(config.vocab_size)
         self.make_empty_intermediate_tensors = (
             self.model.make_empty_intermediate_tensors
         )
diff --git a/vllm/model_executor/models/qwen3_vl.py b/vllm/model_executor/models/qwen3_vl.py
index 97d4667d82e99..d880e6015e5d6 100644
--- a/vllm/model_executor/models/qwen3_vl.py
+++ b/vllm/model_executor/models/qwen3_vl.py
@@ -1136,10 +1136,8 @@ class Qwen3LLMForCausalLM(Qwen3ForCausalLM):
         super(Qwen3ForCausalLM, self).__init__()
         config = vllm_config.model_config.hf_config.text_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
 
         self.config = config
-        self.lora_config = lora_config
 
         self.quant_config = quant_config
         self.model = Qwen3LLMModel(vllm_config=vllm_config, prefix=prefix)
diff --git a/vllm/model_executor/models/seed_oss.py b/vllm/model_executor/models/seed_oss.py
index 641160295afb3..04da19a440a16 100644
--- a/vllm/model_executor/models/seed_oss.py
+++ b/vllm/model_executor/models/seed_oss.py
@@ -440,10 +440,8 @@ class SeedOssForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
         super().__init__()
         config = vllm_config.model_config.hf_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
 
         self.config = config
-        self.lora_config = lora_config
 
         self.quant_config = quant_config
         self.model = SeedOssModel(
diff --git a/vllm/model_executor/models/solar.py b/vllm/model_executor/models/solar.py
index f0dfce7bc7b64..5b8bf150edf6d 100644
--- a/vllm/model_executor/models/solar.py
+++ b/vllm/model_executor/models/solar.py
@@ -46,7 +46,6 @@ from vllm.model_executor.layers.logits_processor import LogitsProcessor
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.layers.rotary_embedding import get_rope
 from vllm.model_executor.layers.vocab_parallel_embedding import (
-    DEFAULT_VOCAB_PADDING_SIZE,
     ParallelLMHead,
     VocabParallelEmbedding,
 )
@@ -277,24 +276,18 @@ class SolarModel(nn.Module):
         config = vllm_config.model_config.hf_config
         cache_config = vllm_config.cache_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
 
         self.config = config
         self.quant_config = quant_config
-        lora_vocab = (
-            (lora_config.lora_extra_vocab_size * (lora_config.max_loras or 1))
-            if lora_config
-            else 0
-        )
-        self.vocab_size = config.vocab_size + lora_vocab
-        self.org_vocab_size = config.vocab_size
+
+        self.vocab_size = config.vocab_size
+
         if get_pp_group().is_first_rank or (
             config.tie_word_embeddings and get_pp_group().is_last_rank
         ):
             self.embed_tokens = VocabParallelEmbedding(
                 self.vocab_size,
                 config.hidden_size,
-                org_num_embeddings=config.vocab_size,
             )
         else:
             self.embed_tokens = PPMissingLayer()
@@ -455,9 +448,9 @@ class SolarForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
         super().__init__()
         config = vllm_config.model_config.hf_config
         quant_config = vllm_config.quant_config
-        lora_config = vllm_config.lora_config
+
         self.config = config
-        self.lora_config = lora_config
+
         self.quant_config = quant_config
 
         self.model = SolarModel(
@@ -465,18 +458,9 @@ class SolarForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
             prefix=maybe_prefix(prefix, "model"),
         )
         if get_pp_group().is_last_rank:
-            self.unpadded_vocab_size = config.vocab_size
-            if lora_config:
-                self.unpadded_vocab_size += lora_config.lora_extra_vocab_size
             self.lm_head = ParallelLMHead(
-                self.unpadded_vocab_size,
+                config.vocab_size,
                 config.hidden_size,
-                org_num_embeddings=config.vocab_size,
-                padding_size=DEFAULT_VOCAB_PADDING_SIZE
-                # We need bigger padding if using lora for kernel
-                # compatibility
-                if not lora_config
-                else lora_config.lora_vocab_padding_size,
                 quant_config=quant_config,
                 prefix=maybe_prefix(prefix, "lm_head"),
             )
@@ -485,7 +469,7 @@ class SolarForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
 
             logit_scale = getattr(config, "logit_scale", 1.0)
             self.logits_processor = LogitsProcessor(
-                self.unpadded_vocab_size, config.vocab_size, logit_scale
+                config.vocab_size, scale=logit_scale
             )
         else:
             self.lm_head = PPMissingLayer()
diff --git a/vllm/model_executor/models/starcoder2.py b/vllm/model_executor/models/starcoder2.py
index d147237808c2a..4cdc90b1f5cb9 100644
--- a/vllm/model_executor/models/starcoder2.py
+++ b/vllm/model_executor/models/starcoder2.py
@@ -42,7 +42,6 @@ from vllm.model_executor.layers.logits_processor import LogitsProcessor
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.layers.rotary_embedding import get_rope
 from vllm.model_executor.layers.vocab_parallel_embedding import (
-    DEFAULT_VOCAB_PADDING_SIZE,
     ParallelLMHead,
     VocabParallelEmbedding,
 )
@@ -319,22 +318,17 @@ class Starcoder2ForCausalLM(nn.Module, SupportsPP):
             vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
         )
         self.vocab_size = config.vocab_size
-        self.unpadded_vocab_size = config.vocab_size
+
         if config.tie_word_embeddings:
             self.lm_head = self.model.embed_tokens
         else:
-            self.unpadded_vocab_size = config.vocab_size
             self.lm_head = ParallelLMHead(
-                self.unpadded_vocab_size,
+                config.vocab_size,
                 config.hidden_size,
-                org_num_embeddings=config.vocab_size,
-                padding_size=DEFAULT_VOCAB_PADDING_SIZE,
                 quant_config=quant_config,
                 prefix=f"{prefix}.lm_head",
             )
-        self.logits_processor = LogitsProcessor(
-            self.unpadded_vocab_size, config.vocab_size
-        )
+        self.logits_processor = LogitsProcessor(config.vocab_size)
         self.make_empty_intermediate_tensors = (
             self.model.make_empty_intermediate_tensors
         )
diff --git a/vllm/model_executor/models/step3_text.py b/vllm/model_executor/models/step3_text.py
index a2a1bfd30d8d8..381b3f4932e55 100644
--- a/vllm/model_executor/models/step3_text.py
+++ b/vllm/model_executor/models/step3_text.py
@@ -31,7 +31,6 @@ from vllm.model_executor.layers.logits_processor import LogitsProcessor
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.layers.rotary_embedding import get_rope
 from vllm.model_executor.layers.vocab_parallel_embedding import (
-    DEFAULT_VOCAB_PADDING_SIZE,
     ParallelLMHead,
     VocabParallelEmbedding,
 )
@@ -400,28 +399,19 @@ class Step3TextForCausalLM(nn.Module, SupportsPP):
     ):
         super().__init__()
         config = vllm_config.model_config.hf_config
-        lora_config = vllm_config.lora_config
+
         self.config = config
         self.vllm_config = vllm_config
 
         self.model = Step3TextModel(vllm_config=vllm_config, prefix=prefix)
 
         if get_pp_group().is_last_rank:
-            self.unpadded_vocab_size = config.vocab_size
-            if lora_config:
-                self.unpadded_vocab_size += lora_config.lora_extra_vocab_size
             self.lm_head = ParallelLMHead(
-                self.unpadded_vocab_size,
+                config.vocab_size,
                 config.hidden_size,
-                org_num_embeddings=config.vocab_size,
-                padding_size=DEFAULT_VOCAB_PADDING_SIZE
-                if not lora_config
-                else lora_config.lora_vocab_padding_size,
                 prefix=maybe_prefix(prefix, "lm_head"),
             )
-            self.logits_processor = LogitsProcessor(
-                self.unpadded_vocab_size, config.vocab_size
-            )
+            self.logits_processor = LogitsProcessor(config.vocab_size)
         else:
             self.lm_head = PPMissingLayer()
 
diff --git a/vllm/model_executor/models/transformers/causal.py b/vllm/model_executor/models/transformers/causal.py
index 7f7b15a5675a3..42fd11117c737 100644
--- a/vllm/model_executor/models/transformers/causal.py
+++ b/vllm/model_executor/models/transformers/causal.py
@@ -42,7 +42,6 @@ class CausalMixin(VllmModelForTextGeneration):
             self.skip_prefixes.append("lm_head.")
 
         if self.pp_group.is_last_rank:
-            self.unpadded_vocab_size = self.text_config.vocab_size
             self.lm_head = ParallelLMHead(
                 self.text_config.vocab_size,
                 self.text_config.hidden_size,
@@ -56,7 +55,7 @@ class CausalMixin(VllmModelForTextGeneration):
 
             logit_scale = getattr(self.text_config, "logit_scale", 1.0)
             self.logits_processor = LogitsProcessor(
-                self.unpadded_vocab_size, self.text_config.vocab_size, logit_scale
+                self.text_config.vocab_size, scale=logit_scale
             )
         else:
             self.lm_head = PPMissingLayer()
diff --git a/vllm/model_executor/models/whisper.py b/vllm/model_executor/models/whisper.py
index ccfe1871ef075..502783b1fd932 100644
--- a/vllm/model_executor/models/whisper.py
+++ b/vllm/model_executor/models/whisper.py
@@ -890,7 +890,7 @@ class WhisperForConditionalGeneration(
         self.dtype = vllm_config.model_config.dtype
 
         self.model = WhisperModel(vllm_config=vllm_config, prefix=prefix)
-        self.unpadded_vocab_size = config.vocab_size
+
         self.proj_out = ParallelLMHead(
             config.vocab_size,
             config.d_model,
@@ -899,9 +899,7 @@ class WhisperForConditionalGeneration(
         )
         self.proj_out = self.proj_out.tie_weights(self.model.decoder.embed_tokens)
         logit_scale = getattr(config, "logit_scale", 1.0)
-        self.logits_processor = LogitsProcessor(
-            self.unpadded_vocab_size, config.vocab_size, logit_scale
-        )
+        self.logits_processor = LogitsProcessor(config.vocab_size, scale=logit_scale)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/zamba2.py b/vllm/model_executor/models/zamba2.py
index bc1351600a2f4..bf3107525bc53 100644
--- a/vllm/model_executor/models/zamba2.py
+++ b/vllm/model_executor/models/zamba2.py
@@ -38,7 +38,6 @@ from vllm.model_executor.layers.mamba.mamba_utils import (
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.layers.rotary_embedding import get_rope
 from vllm.model_executor.layers.vocab_parallel_embedding import (
-    DEFAULT_VOCAB_PADDING_SIZE,
     ParallelLMHead,
     VocabParallelEmbedding,
 )
@@ -692,19 +691,13 @@ class Zamba2Model(nn.Module):
         assert not is_lora_enabled
 
         self.config = config
-        lora_vocab = (
-            (lora_config.lora_extra_vocab_size * (lora_config.max_loras or 1))
-            if lora_config
-            else 0
-        )
-        self.vocab_size = config.vocab_size + lora_vocab
-        self.org_vocab_size = config.vocab_size
+
+        self.vocab_size = config.vocab_size
 
         # Initialize token embeddings
         self.embed_tokens = VocabParallelEmbedding(
             self.vocab_size,
             config.hidden_size,
-            org_num_embeddings=config.vocab_size,
         )
 
         # Map hybrid layer indices to block indices
@@ -911,7 +904,7 @@ class Zamba2ForCausalLM(nn.Module, HasInnerState, IsHybrid, SupportsMambaPrefixC
                 (not supported by Mamba)
         """
         config = vllm_config.model_config.hf_config
-        lora_config = vllm_config.lora_config
+
         scheduler_config = vllm_config.scheduler_config
 
         super().__init__()
@@ -919,9 +912,6 @@ class Zamba2ForCausalLM(nn.Module, HasInnerState, IsHybrid, SupportsMambaPrefixC
         self.vllm_config = vllm_config
         self.scheduler_config = scheduler_config
         self.model_config = vllm_config.model_config
-        self.unpadded_vocab_size = config.vocab_size
-        if lora_config:
-            self.unpadded_vocab_size += lora_config.lora_extra_vocab_size
 
         # Initialize core model
         self.model = Zamba2Model(
@@ -930,23 +920,15 @@ class Zamba2ForCausalLM(nn.Module, HasInnerState, IsHybrid, SupportsMambaPrefixC
 
         # Initialize language modeling head
         self.lm_head = ParallelLMHead(
-            self.unpadded_vocab_size,
+            config.vocab_size,
             config.hidden_size,
-            org_num_embeddings=config.vocab_size,
-            padding_size=DEFAULT_VOCAB_PADDING_SIZE
-            # We need bigger padding if using lora for kernel
-            # compatibility
-            if not lora_config
-            else lora_config.lora_vocab_padding_size,
             prefix=maybe_prefix(prefix, "lm_head"),
         )
         # Tie weights with input embeddings if using same dimensions
         self.lm_head = self.lm_head.tie_weights(self.model.embed_tokens)
 
         # Initialize logits processing and sampling
-        self.logits_processor = LogitsProcessor(
-            self.unpadded_vocab_size, config.vocab_size
-        )
+        self.logits_processor = LogitsProcessor(config.vocab_size)
 
     def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
         """Convert input token IDs to embeddings.

From df4d3a44a83681feea723cc4c4ebe9085d29d58d Mon Sep 17 00:00:00 2001
From: Kyuyeun Kim <62023335+kyuyeunk@users.noreply.github.com>
Date: Tue, 11 Nov 2025 11:16:47 -0800
Subject: [PATCH 334/976] [TPU] Rename path to tpu platform (#28452)

Signed-off-by: Kyuyeun Kim <kyuyeunk@google.com>
---
 vllm/platforms/__init__.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/platforms/__init__.py b/vllm/platforms/__init__.py
index badf72de4a90f..a45ca988200d2 100644
--- a/vllm/platforms/__init__.py
+++ b/vllm/platforms/__init__.py
@@ -38,7 +38,7 @@ def tpu_platform_plugin() -> str | None:
     # Check for Pathways TPU proxy
     if envs.VLLM_TPU_USING_PATHWAYS:
         logger.debug("Confirmed TPU platform is available via Pathways proxy.")
-        return "tpu_inference.platforms.tpu_jax.TpuPlatform"
+        return "tpu_inference.platforms.tpu_platform.TpuPlatform"
 
     # Check for libtpu installation
     try:

From d4902ba56d9b265698fb53f2d956117454945371 Mon Sep 17 00:00:00 2001
From: wangxiyuan <wangxiyuan1007@gmail.com>
Date: Wed, 12 Nov 2025 06:28:07 +0800
Subject: [PATCH 335/976] [Misc] Cleanup Executor interface (#28441)

Signed-off-by: wangxiyuan <wangxiyuan1007@gmail.com>
---
 vllm/v1/executor/abstract.py | 6 ------
 1 file changed, 6 deletions(-)

diff --git a/vllm/v1/executor/abstract.py b/vllm/v1/executor/abstract.py
index 1e913876b7635..db8303fcec501 100644
--- a/vllm/v1/executor/abstract.py
+++ b/vllm/v1/executor/abstract.py
@@ -294,12 +294,6 @@ class Executor(ABC):
         """Reset the multi-modal cache in each worker."""
         self.collective_rpc("reset_mm_cache")
 
-    def start_profile(self) -> None:
-        self.collective_rpc("start_profile")
-
-    def stop_profile(self) -> None:
-        self.collective_rpc("stop_profile")
-
     def sleep(self, level: int = 1):
         if self.is_sleeping:
             logger.warning("Executor is already sleeping.")

From 28534b92b9f002e56d4e31d02ca59a070cdad468 Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Tue, 11 Nov 2025 17:53:59 -0500
Subject: [PATCH 336/976] Add Zurich vLLM Meetup (#28488)

Signed-off-by: mgoin <mgoin64@gmail.com>
---
 README.md                 | 1 +
 docs/community/meetups.md | 1 +
 2 files changed, 2 insertions(+)

diff --git a/README.md b/README.md
index b5e230e4b9b07..033e1035d8916 100644
--- a/README.md
+++ b/README.md
@@ -21,6 +21,7 @@ Join us at the [PyTorch Conference, October 22-23](https://events.linuxfoundatio
 
 *Latest News* 🔥
 
+- [2025/11] We hosted [the first vLLM Europe Meetup in Zurich](https://luma.com/0gls27kb) focused on quantization, distributed inference, and reinforcement learning at scale with speakers from Mistral, IBM, and Red Hat. Please find the meetup slides [here](https://docs.google.com/presentation/d/1UC9PTLCHYXQpOmJDSFg6Sljra3iVXzc09DeEI7dnxMc/edit?usp=sharing) and recording [here](https://www.youtube.com/watch?v=6m6ZE6yVEDI)
 - [2025/11] We hosted [vLLM Beijing Meetup](https://mp.weixin.qq.com/s/xSrYXjNgr1HbCP4ExYNG1w) focusing on distributed inference and diverse accelerator support with vLLM! Please find the meetup slides [here](https://drive.google.com/drive/folders/1nQJ8ZkLSjKxvu36sSHaceVXtttbLvvu-?usp=drive_link).
 - [2025/10] We hosted [vLLM Shanghai Meetup](https://mp.weixin.qq.com/s/__xb4OyOsImz-9eAVrdlcg) focused on hands-on vLLM inference optimization! Please find the meetup slides [here](https://drive.google.com/drive/folders/1KqwjsFJLfEsC8wlDugnrR61zsWHt94Q6).
 - [2025/09] We hosted [vLLM Toronto Meetup](https://luma.com/e80e0ymm) focused on tackling inference at scale and speculative decoding with speakers from NVIDIA and Red Hat! Please find the meetup slides [here](https://docs.google.com/presentation/d/1IYJYmJcu9fLpID5N5RbW_vO0XLo0CGOR14IXOjB61V8/edit?usp=sharing).
diff --git a/docs/community/meetups.md b/docs/community/meetups.md
index 7ddd45799789c..3fca4659e284a 100644
--- a/docs/community/meetups.md
+++ b/docs/community/meetups.md
@@ -2,6 +2,7 @@
 
 We host regular meetups in San Francisco Bay Area every 2 months. We will share the project updates from the vLLM team and have guest speakers from the industry to share their experience and insights. Please find the materials of our previous meetups below:
 
+- [vLLM Zurich Meetup](https://luma.com/0gls27kb), November 6th 2025. [[Slides]](https://docs.google.com/presentation/d/1UC9PTLCHYXQpOmJDSFg6Sljra3iVXzc09DeEI7dnxMc/edit?usp=sharing) [[Recording]](https://www.youtube.com/watch?v=6m6ZE6yVEDI)
 - [vLLM Beijing Meetup](https://mp.weixin.qq.com/s/xSrYXjNgr1HbCP4ExYNG1w), November 1st 2025. [[Slides]](https://drive.google.com/drive/folders/1nQJ8ZkLSjKxvu36sSHaceVXtttbLvvu-?usp=drive_link)
 - [vLLM Shanghai Meetup](https://mp.weixin.qq.com/s/__xb4OyOsImz-9eAVrdlcg), October 25th 2025. [[Slides]](https://drive.google.com/drive/folders/1KqwjsFJLfEsC8wlDugnrR61zsWHt94Q6)
 - [vLLM Toronto Meetup](https://luma.com/e80e0ymm), September 25th 2025. [[Slides]](https://docs.google.com/presentation/d/1IYJYmJcu9fLpID5N5RbW_vO0XLo0CGOR14IXOjB61V8/edit?usp=sharing)

From e5f599d4d1cfd34a5216cf0733d152ea42073f28 Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Tue, 11 Nov 2025 18:16:12 -0500
Subject: [PATCH 337/976] [Bugfix] Disable shared expert overlap if Marlin MoE
 is used (#28410)

Signed-off-by: mgoin <mgoin64@gmail.com>
---
 vllm/model_executor/layers/fused_moe/layer.py          |  4 ++++
 .../layers/fused_moe/shared_fused_moe.py               | 10 +++++-----
 vllm/model_executor/layers/quantization/awq_marlin.py  |  1 +
 .../compressed_tensors/compressed_tensors_moe.py       |  1 +
 vllm/model_executor/layers/quantization/gptq_marlin.py |  1 +
 vllm/model_executor/layers/quantization/mxfp4.py       |  1 +
 6 files changed, 13 insertions(+), 5 deletions(-)

diff --git a/vllm/model_executor/layers/fused_moe/layer.py b/vllm/model_executor/layers/fused_moe/layer.py
index e198322ba7a89..615da58eeda28 100644
--- a/vllm/model_executor/layers/fused_moe/layer.py
+++ b/vllm/model_executor/layers/fused_moe/layer.py
@@ -678,6 +678,10 @@ class FusedMoE(CustomOp):
             and self.moe_config.use_flashinfer_cutlass_kernels
         )
 
+    @property
+    def use_marlin_kernels(self):
+        return getattr(self.quant_method, "use_marlin", False)
+
     @property
     def use_dp_chunking(self) -> bool:
         return (
diff --git a/vllm/model_executor/layers/fused_moe/shared_fused_moe.py b/vllm/model_executor/layers/fused_moe/shared_fused_moe.py
index 06112ca51b6d5..6ec8b33ed9309 100644
--- a/vllm/model_executor/layers/fused_moe/shared_fused_moe.py
+++ b/vllm/model_executor/layers/fused_moe/shared_fused_moe.py
@@ -28,17 +28,17 @@ class SharedFusedMoE(FusedMoE):
         super().__init__(**kwargs)
         self._shared_experts = shared_experts
 
-        # Disable shared expert overlap if we are using eplb, because of
-        # correctness issues, or if using flashinfer with DP, since there
-        # is nothing to be gained in this case. Disabling the overlap
-        # optimization also prevents the shared experts from being hidden
-        # from torch.compile.
+        # Disable shared expert overlap if:
+        #   - we are using eplb, because of correctness issues
+        #   - we are using flashinfer with DP, since there nothint to gain
+        #   - we are using marlin kjernels
         self.use_overlapped = (
             use_overlapped
             and not (
                 # TODO(wentao): find the root cause and remove this condition
                 self.enable_eplb
                 or (self.moe_config.use_flashinfer_cutlass_kernels and self.dp_size > 1)
+                or self.use_marlin_kernels
             )
             and self._shared_experts is not None
         )
diff --git a/vllm/model_executor/layers/quantization/awq_marlin.py b/vllm/model_executor/layers/quantization/awq_marlin.py
index 3e1f87b59a34d..3f6ea68072b40 100644
--- a/vllm/model_executor/layers/quantization/awq_marlin.py
+++ b/vllm/model_executor/layers/quantization/awq_marlin.py
@@ -424,6 +424,7 @@ class AWQMoEMethod(FusedMoEMethodBase):
         if self.quant_config.weight_bits != 4:
             raise ValueError("AWQMoEMethod only supports 4bit now.")
         self.quant_type = scalar_types.uint4
+        self.use_marlin = True
 
     def create_weights(
         self,
diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
index 6257a410e9432..f1050c15f79e7 100644
--- a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
@@ -1342,6 +1342,7 @@ class CompressedTensorsWNA16MarlinMoEMethod(CompressedTensorsMoEMethod):
                 f"{WNA16_SUPPORTED_BITS}",
             )
         self.quant_type = WNA16_SUPPORTED_TYPES_MAP[self.num_bits]
+        self.use_marlin = True
 
     def create_weights(
         self,
diff --git a/vllm/model_executor/layers/quantization/gptq_marlin.py b/vllm/model_executor/layers/quantization/gptq_marlin.py
index 42a569e7770c0..68a122fd46c6b 100644
--- a/vllm/model_executor/layers/quantization/gptq_marlin.py
+++ b/vllm/model_executor/layers/quantization/gptq_marlin.py
@@ -482,6 +482,7 @@ class GPTQMarlinMoEMethod(FusedMoEMethodBase):
             self.quant_type = scalar_types.uint8b128
         else:
             raise ValueError("GPTQMarlinMoEMethod only supports int4 and int8 now.")
+        self.use_marlin = True
 
     def create_weights(
         self,
diff --git a/vllm/model_executor/layers/quantization/mxfp4.py b/vllm/model_executor/layers/quantization/mxfp4.py
index 8d7297a0a1b3b..7940b359a150c 100644
--- a/vllm/model_executor/layers/quantization/mxfp4.py
+++ b/vllm/model_executor/layers/quantization/mxfp4.py
@@ -216,6 +216,7 @@ class Mxfp4MoEMethod(FusedMoEMethodBase):
     def __init__(self, moe: FusedMoEConfig):
         super().__init__(moe)
         self.mxfp4_backend = get_mxfp4_backend(moe.is_lora_enabled)
+        self.use_marlin = self.mxfp4_backend == Mxfp4Backend.MARLIN
         self.max_capture_size = (
             get_current_vllm_config().compilation_config.max_cudagraph_capture_size
         )

From 412e153df557bbae541363ac4abde879a6d84488 Mon Sep 17 00:00:00 2001
From: Max Hu <hyoung2991@gmail.com>
Date: Tue, 11 Nov 2025 18:32:20 -0500
Subject: [PATCH 338/976] [Feature] Allow configuring FlashInfer workspace size
 (#28269)

Signed-off-by: Max Hu <hyoung2991@gmail.com>
Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
---
 vllm/envs.py                             |  6 ++++++
 vllm/v1/attention/backends/flashinfer.py |  6 +++---
 vllm/v1/attention/backends/mla/common.py | 16 +++++++---------
 3 files changed, 16 insertions(+), 12 deletions(-)

diff --git a/vllm/envs.py b/vllm/envs.py
index 52a9671bc46e2..5274c8ba1b24e 100755
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -159,6 +159,7 @@ if TYPE_CHECKING:
     VLLM_USE_FLASHINFER_MOE_FP8: bool = False
     VLLM_USE_FLASHINFER_MOE_FP4: bool = False
     VLLM_FLASHINFER_MOE_BACKEND: Literal["throughput", "latency"] = "latency"
+    VLLM_FLASHINFER_WORKSPACE_BUFFER_SIZE: int = 394 * 1024 * 1024
     VLLM_XGRAMMAR_CACHE_MB: int = 0
     VLLM_MSGPACK_ZERO_COPY_THRESHOLD: int = 256
     VLLM_ALLOW_INSECURE_SERIALIZATION: bool = False
@@ -1237,6 +1238,10 @@ environment_variables: dict[str, Callable[[], Any]] = {
     "VLLM_FLASHINFER_MOE_BACKEND": env_with_choices(
         "VLLM_FLASHINFER_MOE_BACKEND", "latency", ["throughput", "latency"]
     ),
+    # Control the workspace buffer size for the FlashInfer backend.
+    "VLLM_FLASHINFER_WORKSPACE_BUFFER_SIZE": lambda: int(
+        os.getenv("VLLM_FLASHINFER_WORKSPACE_BUFFER_SIZE", str(394 * 1024 * 1024))
+    ),
     # Control the maximum number of tokens per expert supported by the
     # NVFP4 MoE CUTLASS Kernel. This value is used to create a buffer for
     # the blockscale tensor of activations NVFP4 Quantization.
@@ -1583,6 +1588,7 @@ def compute_hash() -> str:
         "VLLM_USE_FLASHINFER_MOE_MXFP4_MXFP8",
         "VLLM_USE_FLASHINFER_MOE_MXFP4_MXFP8_CUTLASS",
         "VLLM_USE_FLASHINFER_MOE_MXFP4_BF16",
+        "VLLM_FLASHINFER_WORKSPACE_BUFFER_SIZE",
         "VLLM_USE_CUDNN_PREFILL",
         "VLLM_USE_TRTLLM_RAGGED_DEEPSEEK_PREFILL",
         "VLLM_USE_TRTLLM_ATTENTION",
diff --git a/vllm/v1/attention/backends/flashinfer.py b/vllm/v1/attention/backends/flashinfer.py
index 07a0ab41a9e05..18bbc3cc3c12b 100755
--- a/vllm/v1/attention/backends/flashinfer.py
+++ b/vllm/v1/attention/backends/flashinfer.py
@@ -16,6 +16,7 @@ from flashinfer.decode import _get_range_buf, trtllm_batch_decode_with_kv_cache
 from flashinfer.prefill import trtllm_batch_context_with_kv_cache
 from flashinfer.utils import FP4Tensor
 
+from vllm import envs
 from vllm.attention.backends.abstract import (
     AttentionBackend,
     AttentionImpl,
@@ -55,7 +56,6 @@ from vllm.v1.attention.backends.utils import (
 )
 from vllm.v1.kv_cache_interface import AttentionSpec
 
-FLASHINFER_WORKSPACE_BUFFER_SIZE = 256 * 1024 * 1024
 FLASHINFER_WORKSPACE_BUFFER_SIZE_BATCH_INVARIANT = 2048 * 1024 * 1024
 
 FP8_DTYPE = current_platform.fp8_dtype()
@@ -70,7 +70,7 @@ def _get_trtllm_gen_workspace_buffer():
     global trtllm_gen_workspace_buffer
     if trtllm_gen_workspace_buffer is None:
         trtllm_gen_workspace_buffer = torch.zeros(
-            FLASHINFER_WORKSPACE_BUFFER_SIZE, dtype=torch.uint8, device="cuda"
+            envs.VLLM_FLASHINFER_WORKSPACE_BUFFER_SIZE, dtype=torch.uint8, device="cuda"
         )
     return trtllm_gen_workspace_buffer
 
@@ -414,7 +414,7 @@ class FlashInferMetadataBuilder(AttentionMetadataBuilder[FlashInferMetadata]):
 
     def _get_workspace_buffer(self):
         if self._workspace_buffer is None:
-            buffer_size = FLASHINFER_WORKSPACE_BUFFER_SIZE
+            buffer_size = envs.VLLM_FLASHINFER_WORKSPACE_BUFFER_SIZE
             if vllm_is_batch_invariant():
                 buffer_size = FLASHINFER_WORKSPACE_BUFFER_SIZE_BATCH_INVARIANT
             self._workspace_buffer = torch.zeros(
diff --git a/vllm/v1/attention/backends/mla/common.py b/vllm/v1/attention/backends/mla/common.py
index 19bd102cb1e30..467c01cd9d069 100755
--- a/vllm/v1/attention/backends/mla/common.py
+++ b/vllm/v1/attention/backends/mla/common.py
@@ -196,8 +196,8 @@ from typing import ClassVar, Generic, TypeVar
 import torch
 from tqdm import tqdm
 
-import vllm.envs as envs
 from vllm import _custom_ops as ops
+from vllm import envs
 from vllm._aiter_ops import rocm_aiter_ops
 from vllm.attention.backends.abstract import (
     AttentionBackend,
@@ -453,12 +453,6 @@ def use_trtllm_ragged_deepseek_prefill() -> bool:
     )
 
 
-# Currently 394MB, this can be tuned based on GEMM sizes used.
-# Chosen to be the same as sglang:
-#  https://github.com/sgl-project/sglang/blob/766392c6bda2558b61ce6d1c1bfd8081a549e1f1/python/sglang/global_config.py#L37
-FLASHINFER_WORKSPACE_BUFFER_SIZE = 394 * 1024 * 1024
-
-
 class MLACommonMetadataBuilder(AttentionMetadataBuilder[M]):
     """
     NOTE: Please read the comment at the top of the file before trying to
@@ -590,7 +584,9 @@ class MLACommonMetadataBuilder(AttentionMetadataBuilder[M]):
 
         if self._use_fi_prefill:
             self._workspace_buffer = torch.empty(
-                FLASHINFER_WORKSPACE_BUFFER_SIZE, dtype=torch.uint8, device=device
+                envs.VLLM_FLASHINFER_WORKSPACE_BUFFER_SIZE,
+                dtype=torch.uint8,
+                device=device,
             )
 
             self._fi_prefill_main: BatchPrefillWithRaggedKVCacheWrapper | None = None
@@ -602,7 +598,9 @@ class MLACommonMetadataBuilder(AttentionMetadataBuilder[M]):
 
         if self._use_trtllm_ragged_prefill:
             self._workspace_buffer = torch.empty(
-                FLASHINFER_WORKSPACE_BUFFER_SIZE, dtype=torch.uint8, device=device
+                envs.VLLM_FLASHINFER_WORKSPACE_BUFFER_SIZE,
+                dtype=torch.uint8,
+                device=device,
             )
 
         if self._use_cudnn_prefill:

From d23539549a6db54ab152ce4e566c31f6891ddab5 Mon Sep 17 00:00:00 2001
From: Adrian Abeyta <aabeyta@redhat.com>
Date: Tue, 11 Nov 2025 18:34:58 -0600
Subject: [PATCH 339/976] Use FLASHINFER MLA backend when testing
 fp8_kv_scale_compile (#28491)

Signed-off-by: adabeyta <aabeyta@redhat.com>
---
 tests/compile/test_full_graph.py | 20 ++++++++++++++++----
 1 file changed, 16 insertions(+), 4 deletions(-)

diff --git a/tests/compile/test_full_graph.py b/tests/compile/test_full_graph.py
index 71f90f6d8d3ee..b4e5e56ac9fe6 100644
--- a/tests/compile/test_full_graph.py
+++ b/tests/compile/test_full_graph.py
@@ -10,6 +10,7 @@ import torch
 
 from tests.quantization.utils import is_quant_method_supported
 from vllm import LLM, SamplingParams
+from vllm.attention.backends.registry import AttentionBackendEnum
 from vllm.config import CompilationConfig, CompilationMode, CUDAGraphMode, PassConfig
 from vllm.platforms import current_platform
 from vllm.utils.torch_utils import is_torch_equal_or_newer
@@ -184,13 +185,24 @@ def test_custom_compile_config(
     [CompilationMode.NONE, CompilationMode.VLLM_COMPILE],
 )
 @pytest.mark.parametrize(
-    "model",
+    "model, backend",
     [
-        "Qwen/Qwen2-0.5B",  # Standard attention model
-        "deepseek-ai/DeepSeek-V2-Lite",  # MLA (Multi-head Latent Attention) model
+        ("Qwen/Qwen2-0.5B", None),  # Standard attention model
+        (
+            "deepseek-ai/DeepSeek-V2-Lite",
+            AttentionBackendEnum.FLASHINFER_MLA,
+        ),  # MLA (Multi-head Latent Attention) model
     ],
 )
-def test_fp8_kv_scale_compile(compilation_mode: int, model: str):
+def test_fp8_kv_scale_compile(
+    monkeypatch: pytest.MonkeyPatch,
+    compilation_mode: int,
+    model: str,
+    backend: AttentionBackendEnum | None,
+):
+    if backend:
+        monkeypatch.setenv("VLLM_ATTENTION_BACKEND", backend.name)
+
     model_kwargs = {
         "quantization": "fp8",
         "kv_cache_dtype": "fp8_e4m3",

From 1788aa1efb1f3cd8bf521885244aed3b89bed8a1 Mon Sep 17 00:00:00 2001
From: Ilya Markov <markovilya197@gmail.com>
Date: Wed, 12 Nov 2025 01:41:54 +0100
Subject: [PATCH 340/976] [BugFix] Graceful handling of torch symm mem errors.
 (#27671)

Signed-off-by: ilmarkov <markovilya197@gmail.com>
Co-authored-by: Michael Goin <mgoin64@gmail.com>
---
 .../device_communicators/symm_mem.py          | 22 +++++++++++++------
 vllm/envs.py                                  |  4 ++--
 2 files changed, 17 insertions(+), 9 deletions(-)

diff --git a/vllm/distributed/device_communicators/symm_mem.py b/vllm/distributed/device_communicators/symm_mem.py
index 74d6fb40c83b7..eb1f173b11925 100644
--- a/vllm/distributed/device_communicators/symm_mem.py
+++ b/vllm/distributed/device_communicators/symm_mem.py
@@ -88,13 +88,21 @@ class SymmMemCommunicator:
             self.max_size = SYMM_MEM_ALL_REDUCE_MAX_SIZES[self.device_capability][
                 self.world_size
             ]
-
-        self.buffer = torch_symm_mem.empty(
-            self.max_size // self.dtype.itemsize,
-            device=self.device,
-            dtype=self.dtype,
-        )
-        handle = torch_symm_mem.rendezvous(self.buffer, self.group.group_name)
+        try:
+            self.buffer = torch_symm_mem.empty(
+                self.max_size // self.dtype.itemsize,
+                device=self.device,
+                dtype=self.dtype,
+            )
+            handle = torch_symm_mem.rendezvous(self.buffer, self.group.group_name)
+        except RuntimeError as e:
+            logger.warning_once(
+                "SymmMemCommunicator: symmetric memory initialization failed: %s "
+                "Communicator is not available. To suppress this warning set "
+                "VLLM_ALLREDUCE_USE_SYMM_MEM=0",
+                str(e),
+            )
+            return
         if handle.multicast_ptr == 0:
             logger.warning(
                 "SymmMemCommunicator: symmetric memory "
diff --git a/vllm/envs.py b/vllm/envs.py
index 5274c8ba1b24e..46725efac70ef 100755
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -201,7 +201,7 @@ if TYPE_CHECKING:
     VLLM_USE_FLASHINFER_MOE_MXFP4_BF16: bool = False
     VLLM_ROCM_FP8_MFMA_PAGE_ATTN: bool = False
     VLLM_USE_FLASHINFER_MOE_MXFP4_MXFP8_CUTLASS: bool = False
-    VLLM_ALLREDUCE_USE_SYMM_MEM: bool = False
+    VLLM_ALLREDUCE_USE_SYMM_MEM: bool = True
     VLLM_TUNED_CONFIG_FOLDER: str | None = None
     VLLM_GPT_OSS_SYSTEM_TOOL_MCP_LABELS: set[str] = set()
     VLLM_GPT_OSS_HARMONY_SYSTEM_INSTRUCTIONS: bool = False
@@ -1389,7 +1389,7 @@ environment_variables: dict[str, Callable[[], Any]] = {
     ),
     # Whether to use pytorch symmetric memory for allreduce
     "VLLM_ALLREDUCE_USE_SYMM_MEM": lambda: bool(
-        int(os.getenv("VLLM_ALLREDUCE_USE_SYMM_MEM", "0"))
+        int(os.getenv("VLLM_ALLREDUCE_USE_SYMM_MEM", "1"))
     ),
     # Allows vllm to find tuned config under customized folder
     "VLLM_TUNED_CONFIG_FOLDER": lambda: os.getenv("VLLM_TUNED_CONFIG_FOLDER", None),

From 48c879369f83ab1ab281a4bfe97f9a54790715d1 Mon Sep 17 00:00:00 2001
From: Yanan Cao <gmagogsfm@users.noreply.github.com>
Date: Tue, 11 Nov 2025 16:46:18 -0800
Subject: [PATCH 341/976] [Frontend] Change CompilationMode to a proper Enum
 (#28165)

Signed-off-by: Yanan Cao <gmagogsfm@gmail.com>
---
 tests/compile/test_basic_correctness.py |  6 ++-
 tests/utils_/test_argparse_utils.py     | 60 +++++++++++++++++++++++++
 vllm/compilation/wrapper.py             |  4 +-
 vllm/config/compilation.py              | 51 ++++++++++++++-------
 vllm/config/vllm.py                     |  5 +--
 vllm/entrypoints/llm.py                 |  5 ++-
 6 files changed, 108 insertions(+), 23 deletions(-)

diff --git a/tests/compile/test_basic_correctness.py b/tests/compile/test_basic_correctness.py
index 132a838b8d44c..3f6898607f6b9 100644
--- a/tests/compile/test_basic_correctness.py
+++ b/tests/compile/test_basic_correctness.py
@@ -127,7 +127,9 @@ def test_compile_correctness(
             CompilationMode.VLLM_COMPILE,
         ]:
             for mode in [CompilationMode.NONE, comp_mode]:
-                all_args.append(final_args + [f"-O.mode={mode}", "-O.backend=inductor"])
+                all_args.append(
+                    final_args + [f"-O.mode={mode.name}", "-O.backend=inductor"]
+                )
 
             # inductor will change the output, so we only compare if the output
             # is close, not exactly the same.
@@ -146,7 +148,7 @@ def test_compile_correctness(
             CompilationMode.DYNAMO_TRACE_ONCE,
             CompilationMode.VLLM_COMPILE,
         ]:
-            all_args.append(final_args + [f"-O.mode={mode}", "-O.backend=eager"])
+            all_args.append(final_args + [f"-O.mode={mode.name}", "-O.backend=eager"])
             all_envs.append({})
             all_envs.append({})
 
diff --git a/tests/utils_/test_argparse_utils.py b/tests/utils_/test_argparse_utils.py
index 51684edcc8a30..3310753d2b6d6 100644
--- a/tests/utils_/test_argparse_utils.py
+++ b/tests/utils_/test_argparse_utils.py
@@ -8,6 +8,7 @@ import os
 import pytest
 import yaml
 from transformers import AutoTokenizer
+from pydantic import ValidationError
 
 from vllm.transformers_utils.detokenizer_utils import convert_ids_list_to_tokens
 
@@ -376,6 +377,65 @@ def test_load_config_file(tmp_path):
     os.remove(str(config_file_path))
 
 
+def test_compilation_mode_string_values(parser):
+    """Test that -O.mode accepts both integer and string mode values."""
+    args = parser.parse_args(["-O.mode", "0"])
+    assert args.compilation_config == {"mode": 0}
+
+    args = parser.parse_args(["-O3"])
+    assert args.compilation_config == {"mode": 3}
+
+    args = parser.parse_args(["-O.mode=NONE"])
+    assert args.compilation_config == {"mode": "NONE"}
+
+    args = parser.parse_args(["-O.mode", "STOCK_TORCH_COMPILE"])
+    assert args.compilation_config == {"mode": "STOCK_TORCH_COMPILE"}
+
+    args = parser.parse_args(["-O.mode=DYNAMO_TRACE_ONCE"])
+    assert args.compilation_config == {"mode": "DYNAMO_TRACE_ONCE"}
+
+    args = parser.parse_args(["-O.mode", "VLLM_COMPILE"])
+    assert args.compilation_config == {"mode": "VLLM_COMPILE"}
+
+    args = parser.parse_args(["-O.mode=none"])
+    assert args.compilation_config == {"mode": "none"}
+
+    args = parser.parse_args(["-O.mode=vllm_compile"])
+    assert args.compilation_config == {"mode": "vllm_compile"}
+
+
+def test_compilation_config_mode_validator():
+    """Test that CompilationConfig.mode field validator converts strings to integers."""
+    from vllm.config.compilation import CompilationConfig, CompilationMode
+
+    config = CompilationConfig(mode=0)
+    assert config.mode == CompilationMode.NONE
+
+    config = CompilationConfig(mode=3)
+    assert config.mode == CompilationMode.VLLM_COMPILE
+
+    config = CompilationConfig(mode="NONE")
+    assert config.mode == CompilationMode.NONE
+
+    config = CompilationConfig(mode="STOCK_TORCH_COMPILE")
+    assert config.mode == CompilationMode.STOCK_TORCH_COMPILE
+
+    config = CompilationConfig(mode="DYNAMO_TRACE_ONCE")
+    assert config.mode == CompilationMode.DYNAMO_TRACE_ONCE
+
+    config = CompilationConfig(mode="VLLM_COMPILE")
+    assert config.mode == CompilationMode.VLLM_COMPILE
+
+    config = CompilationConfig(mode="none")
+    assert config.mode == CompilationMode.NONE
+
+    config = CompilationConfig(mode="vllm_compile")
+    assert config.mode == CompilationMode.VLLM_COMPILE
+
+    with pytest.raises(ValidationError, match="Invalid compilation mode"):
+        CompilationConfig(mode="INVALID_MODE")
+
+
 def test_flat_product():
     # Check regular itertools.product behavior
     result1 = list(flat_product([1, 2, 3], ["a", "b"]))
diff --git a/vllm/compilation/wrapper.py b/vllm/compilation/wrapper.py
index 4b10c85209f63..4d26619bd128c 100644
--- a/vllm/compilation/wrapper.py
+++ b/vllm/compilation/wrapper.py
@@ -31,7 +31,9 @@ class TorchCompileWrapperWithCustomDispatcher:
     """
 
     def __init__(
-        self, compiled_callable: Callable | None = None, compilation_mode: int = 0
+        self,
+        compiled_callable: Callable | None = None,
+        compilation_mode: CompilationMode = CompilationMode.NONE,
     ):
         vllm_config = get_current_vllm_config()
         self.vllm_config = vllm_config
diff --git a/vllm/config/compilation.py b/vllm/config/compilation.py
index 9c9557df4e738..e1d60ee84d89c 100644
--- a/vllm/config/compilation.py
+++ b/vllm/config/compilation.py
@@ -28,7 +28,7 @@ else:
 logger = init_logger(__name__)
 
 
-class CompilationMode:
+class CompilationMode(enum.IntEnum):
     """The compilation approach used for torch.compile-based compilation of the
     model."""
 
@@ -115,7 +115,7 @@ class PassConfig:
     """The threshold of the communicated tensor sizes under which
     vllm should use flashinfer fused allreduce. Specified as a
     float in MB.
-    Unspecified will fallback to default values 
+    Unspecified will fallback to default values
     which are compute capability and world size dependent.
         FI_ALLREDUCE_FUSION_MAX_SIZE_MB = {
             90: {
@@ -244,7 +244,7 @@ class CompilationConfig:
     Please use mode. Currently all levels are mapped to mode.
     """
     # Top-level Compilation control
-    mode: int | None = None
+    mode: CompilationMode | None = None
     """The compilation approach used for torch.compile-based compilation of the
     model.
 
@@ -377,23 +377,23 @@ class CompilationConfig:
     FULL mode: Capture full cudagraph for all batches. Can be good for small
     models or workloads with small prompts; not supported by many backends.
     Generally for performance FULL_AND_PIECEWISE is better.
-    
+
     FULL_DECODE_ONLY mode: Capture full cudagraph for decode batches only.
     Mixed prefill-decode batches are run without cudagraphs. Can be good for
     decode instances in a P/D setup where prefill is not as important so we
     can save some memory.
-    
+
     FULL_AND_PIECEWISE mode: Capture full cudagraph for decode batches and
     piecewise cudagraph for prefill and mixed prefill-decode batches.
     This is the most performant mode for most models and is the default.
 
     Currently, the cudagraph mode is only used for the v1 engine.
-    Note that the cudagraph logic is generally orthogonal to the 
-    compilation logic. While piecewise cudagraphs require piecewise 
+    Note that the cudagraph logic is generally orthogonal to the
+    compilation logic. While piecewise cudagraphs require piecewise
     compilation (mode=VLLM_COMPILE and non-empty splitting_ops), full
     cudagraphs are supported with and without compilation.
-    
-    Warning: This flag is new and subject to change in addition 
+
+    Warning: This flag is new and subject to change in addition
     more modes may be added.
     """
     use_cudagraph: bool = True
@@ -422,7 +422,7 @@ class CompilationConfig:
     cudagraph. If the caller can guarantee that the same input buffers
     are always used, it can set this to False. Otherwise, it should
     set this to True, and the compiler will copy the input to an
-    internally managed buffer. Default is False. 
+    internally managed buffer. Default is False.
     Note that this flag is only effective when cudagraph_mode is PIECEWISE.
     """
     full_cuda_graph: bool | None = False
@@ -451,7 +451,7 @@ class CompilationConfig:
     outside the partition functions. For a graph with N cudagraph-unsafe ops
     (e.g., Attention), there would be N+1 partitions. To mark an op as
     cudagraph unsafe, we can add `tags=(torch._C.Tag.cudagraph_unsafe)` when
-    register the custom op. 
+    register the custom op.
 
     This config supports both full cudagraph and piecewise cudagraph without
     compiling twice. For piecewise cudagraph, it applies vLLM CUDAGraph wrapper
@@ -468,8 +468,8 @@ class CompilationConfig:
 
     max_cudagraph_capture_size: int | None = field(default=None)
     """The maximum cudagraph capture size.
-    
-    If cudagraph_capture_sizes is specified, this will be set to the largest 
+
+    If cudagraph_capture_sizes is specified, this will be set to the largest
     size in that list (or checked for consistency if specified). If
     cudagraph_capture_sizes is not specified, the list of sizes is generated
     automatically following the pattern:
@@ -478,7 +478,7 @@ class CompilationConfig:
         range(256, max_cudagraph_capture_size + 1, 16))
 
     If not specified, max_cudagraph_capture_size is set to min(max_num_seqs*2,
-    512) by default. This voids OOM in tight memory scenarios with small 
+    512) by default. This voids OOM in tight memory scenarios with small
     max_num_seqs, and prevents capture of many large graphs (>512) that would
     greatly increase startup time with limited performance benefit.
     """
@@ -579,6 +579,27 @@ class CompilationConfig:
 
     __str__ = __repr__
 
+    @field_validator("mode", mode="before")
+    @classmethod
+    def validate_mode_before(cls, value: Any) -> Any:
+        """
+        Enable parsing the `mode` field from string mode names.
+        Accepts both integers (0-3) and string names, like NONE, STOCK_TORCH_COMPILE,
+        DYNAMO_TRACE_ONCE, VLLM_COMPILE.
+        """
+        if isinstance(value, str):
+            # Convert string mode name to integer value
+            mode_name = value.upper()
+
+            if mode_name not in CompilationMode.__members__:
+                raise ValueError(
+                    f"Invalid compilation mode: {value}. "
+                    f"Valid modes are: {', '.join(CompilationMode.__members__.keys())}"
+                )
+
+            return CompilationMode[mode_name]
+        return value
+
     @field_validator("cudagraph_mode", mode="before")
     @classmethod
     def validate_cudagraph_mode_before(cls, value: Any) -> Any:
@@ -904,7 +925,7 @@ class CompilationConfig:
             return self.mode == CompilationMode.VLLM_COMPILE
 
         # Inductor partition case
-        return self.backend == "inductor" and self.mode > CompilationMode.NONE
+        return self.backend == "inductor" and self.mode != CompilationMode.NONE
 
     def custom_op_log_check(self):
         """
diff --git a/vllm/config/vllm.py b/vllm/config/vllm.py
index 0fca967d90838..df9a1fd08af6f 100644
--- a/vllm/config/vllm.py
+++ b/vllm/config/vllm.py
@@ -422,16 +422,13 @@ class VllmConfig:
                 self.compilation_config.mode = CompilationMode.VLLM_COMPILE
             else:
                 self.compilation_config.mode = CompilationMode.NONE
-        else:
-            assert self.compilation_config.mode >= CompilationMode.NONE
-            assert self.compilation_config.mode <= CompilationMode.VLLM_COMPILE
 
         # If user does not set custom ops via none or all set it here based on
         # compilation mode and backend.
         if all(s not in self.compilation_config.custom_ops for s in ("all", "none")):
             if (
                 self.compilation_config.backend == "inductor"
-                and self.compilation_config.mode > CompilationMode.NONE
+                and self.compilation_config.mode != CompilationMode.NONE
             ):
                 self.compilation_config.custom_ops.append("none")
             else:
diff --git a/vllm/entrypoints/llm.py b/vllm/entrypoints/llm.py
index 22fe2ae9280aa..62717a7eacdf0 100644
--- a/vllm/entrypoints/llm.py
+++ b/vllm/entrypoints/llm.py
@@ -23,6 +23,7 @@ from vllm.config import (
     StructuredOutputsConfig,
     is_init_field,
 )
+from vllm.config.compilation import CompilationMode
 from vllm.config.model import (
     ConvertOption,
     HfOverrides,
@@ -259,7 +260,9 @@ class LLM:
 
         if compilation_config is not None:
             if isinstance(compilation_config, int):
-                compilation_config_instance = CompilationConfig(mode=compilation_config)
+                compilation_config_instance = CompilationConfig(
+                    mode=CompilationMode(compilation_config)
+                )
             elif isinstance(compilation_config, dict):
                 compilation_config_instance = CompilationConfig(
                     **{

From 3f770f4427cb926c24af540cc72d1b5901f7f702 Mon Sep 17 00:00:00 2001
From: Isotr0py <mozf@mail2.sysu.edu.cn>
Date: Wed, 12 Nov 2025 08:49:29 +0800
Subject: [PATCH 342/976] [Performance] Cache loaded custom logitsprocs to
 avoid overheads (#28462)

Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>
---
 vllm/v1/sample/logits_processor/__init__.py | 10 ++++++++--
 1 file changed, 8 insertions(+), 2 deletions(-)

diff --git a/vllm/v1/sample/logits_processor/__init__.py b/vllm/v1/sample/logits_processor/__init__.py
index eb537eae6c904..5992c4066c9cb 100644
--- a/vllm/v1/sample/logits_processor/__init__.py
+++ b/vllm/v1/sample/logits_processor/__init__.py
@@ -5,7 +5,7 @@ import inspect
 import itertools
 from abc import abstractmethod
 from collections.abc import Sequence
-from functools import partial
+from functools import lru_cache, partial
 from typing import TYPE_CHECKING
 
 import torch
@@ -216,11 +216,17 @@ def build_logitsprocs(
     )
 
 
+cached_load_custom_logitsprocs = lru_cache(_load_custom_logitsprocs)
+
+
 def validate_logits_processors_parameters(
     logits_processors: Sequence[str | type[LogitsProcessor]] | None,
     sampling_params: SamplingParams,
 ):
-    for logits_procs in _load_custom_logitsprocs(logits_processors):
+    logits_processors = (
+        tuple(logits_processors) if logits_processors is not None else None
+    )
+    for logits_procs in cached_load_custom_logitsprocs(logits_processors):
         logits_procs.validate_params(sampling_params)
 
 
From e1710393c44cff20e481b632b86d157a9d694625 Mon Sep 17 00:00:00 2001
From: wangxiyuan <wangxiyuan1007@gmail.com>
Date: Wed, 12 Nov 2025 09:22:16 +0800
Subject: [PATCH 343/976] [[V0 deprecation]]Remove VLLM_USE_V1 env (#28204)

Signed-off-by: wangxiyuan <wangxiyuan1007@gmail.com>
---
 .../scripts/hardware_ci/run-cpu-test.sh       |  2 +-
 examples/offline_inference/mlpspeculator.py   |  3 +-
 .../offline_inference/qwen2_5_omni/README.md  |  2 -
 .../qwen2_5_omni/only_thinker.py              |  7 +--
 .../others/lmcache/cpu_offload_lmcache.py     | 43 ++++++-------------
 tests/entrypoints/openai/test_orca_metrics.py |  3 --
 vllm/envs.py                                  | 13 ------
 vllm/usage/usage_lib.py                       |  1 -
 8 files changed, 15 insertions(+), 59 deletions(-)

diff --git a/.buildkite/scripts/hardware_ci/run-cpu-test.sh b/.buildkite/scripts/hardware_ci/run-cpu-test.sh
index 7927aef19e4eb..7e0f720feaa71 100644
--- a/.buildkite/scripts/hardware_ci/run-cpu-test.sh
+++ b/.buildkite/scripts/hardware_ci/run-cpu-test.sh
@@ -76,7 +76,7 @@ function cpu_tests() {
   # Run AWQ test
   # docker exec cpu-test-"$NUMA_NODE" bash -c "
   #   set -e
-  #   VLLM_USE_V1=0 pytest -x -s -v \
+  #   pytest -x -s -v \
   #   tests/quantization/test_ipex_quant.py"
 
   # Run multi-lora tests
diff --git a/examples/offline_inference/mlpspeculator.py b/examples/offline_inference/mlpspeculator.py
index d5b1b4ad29a92..6a533eb5c937f 100644
--- a/examples/offline_inference/mlpspeculator.py
+++ b/examples/offline_inference/mlpspeculator.py
@@ -4,8 +4,7 @@
 This file demonstrates the usage of text generation with an LLM model,
 comparing the performance with and without speculative decoding.
 
-Note that still not support `v1`:
-VLLM_USE_V1=0 python examples/offline_inference/mlpspeculator.py
+Note that this example is out of date and not supported in vLLM v1.
 """
 
 import gc
diff --git a/examples/offline_inference/qwen2_5_omni/README.md b/examples/offline_inference/qwen2_5_omni/README.md
index 16d44cbadbc98..d8fb50d7fe55c 100644
--- a/examples/offline_inference/qwen2_5_omni/README.md
+++ b/examples/offline_inference/qwen2_5_omni/README.md
@@ -11,12 +11,10 @@ python examples/offline_inference/qwen2_5_omni/only_thinker.py \
 
 # Read vision and audio inputs from a single video file
 # NOTE: V1 engine does not support interleaved modalities yet.
-VLLM_USE_V1=0 \
 python examples/offline_inference/qwen2_5_omni/only_thinker.py \
     -q use_audio_in_video
 
 # Multiple audios
-VLLM_USE_V1=0 \
 python examples/offline_inference/qwen2_5_omni/only_thinker.py \
     -q multi_audios
 ```
diff --git a/examples/offline_inference/qwen2_5_omni/only_thinker.py b/examples/offline_inference/qwen2_5_omni/only_thinker.py
index 6fbe1303f431a..ed005e6a69b80 100644
--- a/examples/offline_inference/qwen2_5_omni/only_thinker.py
+++ b/examples/offline_inference/qwen2_5_omni/only_thinker.py
@@ -7,7 +7,6 @@ with the correct prompt format on Qwen2.5-Omni (thinker only).
 
 from typing import NamedTuple
 
-import vllm.envs as envs
 from vllm import LLM, SamplingParams
 from vllm.assets.audio import AudioAsset
 from vllm.assets.image import ImageAsset
@@ -72,11 +71,7 @@ def get_use_audio_in_video_query() -> QueryResult:
     )
     asset = VideoAsset(name="baby_reading", num_frames=16)
     audio = asset.get_audio(sampling_rate=16000)
-    assert not envs.VLLM_USE_V1, (
-        "V1 does not support use_audio_in_video. "
-        "Please launch this example with "
-        "`VLLM_USE_V1=0`."
-    )
+
     return QueryResult(
         inputs={
             "prompt": prompt,
diff --git a/examples/others/lmcache/cpu_offload_lmcache.py b/examples/others/lmcache/cpu_offload_lmcache.py
index e10ee4e2a9a9a..53036b3eb0ff3 100644
--- a/examples/others/lmcache/cpu_offload_lmcache.py
+++ b/examples/others/lmcache/cpu_offload_lmcache.py
@@ -37,7 +37,7 @@ from vllm.config import KVTransferConfig
 from vllm.engine.arg_utils import EngineArgs
 
 
-def setup_environment_variables(vllm_version: str):
+def setup_environment_variables():
     # LMCache-related environment variables
     # Use experimental features in LMCache
     os.environ["LMCACHE_USE_EXPERIMENTAL"] = "True"
@@ -47,12 +47,10 @@ def setup_environment_variables(vllm_version: str):
     os.environ["LMCACHE_LOCAL_CPU"] = "True"
     # Set local CPU memory limit to 5.0 GB
     os.environ["LMCACHE_MAX_LOCAL_CPU_SIZE"] = "5.0"
-    if vllm_version == "v0":
-        os.environ["VLLM_USE_V1"] = "0"
 
 
 @contextlib.contextmanager
-def build_llm_with_lmcache(lmcache_connector: str, model: str, vllm_version: str):
+def build_llm_with_lmcache(lmcache_connector: str, model: str):
     ktc = KVTransferConfig(
         kv_connector=lmcache_connector,
         kv_role="kv_both",
@@ -60,21 +58,12 @@ def build_llm_with_lmcache(lmcache_connector: str, model: str, vllm_version: str
     # Set GPU memory utilization to 0.8 for an A40 GPU with 40GB
     # memory. Reduce the value if your GPU has less memory.
     # Note: LMCache supports chunked prefill (see vLLM#14505, LMCache#392).
-    if vllm_version == "v0":
-        llm_args = EngineArgs(
-            model=model,
-            kv_transfer_config=ktc,
-            max_model_len=8000,
-            gpu_memory_utilization=0.8,
-            enable_chunked_prefill=True,  # Only in v0
-        )
-    else:
-        llm_args = EngineArgs(
-            model=model,
-            kv_transfer_config=ktc,
-            max_model_len=8000,
-            gpu_memory_utilization=0.8,
-        )
+    llm_args = EngineArgs(
+        model=model,
+        kv_transfer_config=ktc,
+        max_model_len=8000,
+        gpu_memory_utilization=0.8,
+    )
 
     llm = LLM(**asdict(llm_args))
     try:
@@ -116,18 +105,10 @@ def parse_args():
 
 
 def main():
-    args = parse_args()
-
-    if args.version == "v0":
-        lmcache_connector = "LMCacheConnector"
-        model = "mistralai/Mistral-7B-Instruct-v0.2"
-    else:
-        lmcache_connector = "LMCacheConnectorV1"
-        model = "meta-llama/Meta-Llama-3.1-8B-Instruct"
-
-    setup_environment_variables(args.version)
-
-    with build_llm_with_lmcache(lmcache_connector, model, args.version) as llm:
+    lmcache_connector = "LMCacheConnectorV1"
+    model = "meta-llama/Meta-Llama-3.1-8B-Instruct"
+    setup_environment_variables()
+    with build_llm_with_lmcache(lmcache_connector, model) as llm:
         # This example script runs two requests with a shared prefix.
         # Define the shared prompt and specific prompts
         shared_prompt = "Hello, how are you?" * 1000
diff --git a/tests/entrypoints/openai/test_orca_metrics.py b/tests/entrypoints/openai/test_orca_metrics.py
index d32cfde07c21e..1ed44a33bf81f 100644
--- a/tests/entrypoints/openai/test_orca_metrics.py
+++ b/tests/entrypoints/openai/test_orca_metrics.py
@@ -22,9 +22,6 @@ def monkeypatch_module():
 
 @pytest.fixture(scope="module", params=[True])
 def server(request, monkeypatch_module):
-    use_v1 = request.param
-    monkeypatch_module.setenv("VLLM_USE_V1", "1" if use_v1 else "0")
-
     args = [
         "--dtype",
         "bfloat16",
diff --git a/vllm/envs.py b/vllm/envs.py
index 46725efac70ef..2aa6afcabf288 100755
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -100,7 +100,6 @@ if TYPE_CHECKING:
     VLLM_SKIP_P2P_CHECK: bool = False
     VLLM_DISABLED_KERNELS: list[str] = []
     VLLM_DISABLE_PYNCCL: bool = False
-    VLLM_USE_V1: bool = True
     VLLM_ROCM_USE_AITER: bool = False
     VLLM_ROCM_USE_AITER_PAGED_ATTN: bool = False
     VLLM_ROCM_USE_AITER_LINEAR: bool = True
@@ -884,8 +883,6 @@ environment_variables: dict[str, Callable[[], Any]] = {
     "VLLM_DISABLE_PYNCCL": lambda: (
         os.getenv("VLLM_DISABLE_PYNCCL", "False").lower() in ("true", "1")
     ),
-    # If set, use the V1 code path.
-    "VLLM_USE_V1": lambda: bool(int(os.getenv("VLLM_USE_V1", "1"))),
     # Disable aiter ops unless specifically enabled.
     # Acts as a parent switch to enable the rest of the other operations.
     "VLLM_ROCM_USE_AITER": lambda: (
@@ -1538,16 +1535,6 @@ def is_set(name: str):
     raise AttributeError(f"module {__name__!r} has no attribute {name!r}")
 
 
-def set_vllm_use_v1(use_v1: bool):
-    if is_set("VLLM_USE_V1"):
-        raise ValueError(
-            "Should not call set_vllm_use_v1() if VLLM_USE_V1 is set "
-            "explicitly by the user. Please raise this as a Github "
-            "Issue and explicitly set VLLM_USE_V1=0 or 1."
-        )
-    os.environ["VLLM_USE_V1"] = "1" if use_v1 else "0"
-
-
 def compute_hash() -> str:
     """
     WARNING: Whenever a new key is added to this environment
diff --git a/vllm/usage/usage_lib.py b/vllm/usage/usage_lib.py
index c8bff8b7c80b6..4eddaf56d81ad 100644
--- a/vllm/usage/usage_lib.py
+++ b/vllm/usage/usage_lib.py
@@ -42,7 +42,6 @@ _USAGE_ENV_VARS_TO_COLLECT = [
     "VLLM_USE_FLASHINFER_SAMPLER",
     "VLLM_PP_LAYER_PARTITION",
     "VLLM_USE_TRITON_AWQ",
-    "VLLM_USE_V1",
     "VLLM_ENABLE_V1_MULTIPROCESSING",
 ]
 

From 7f829be7d3d734020606fcca520f3c500581beb8 Mon Sep 17 00:00:00 2001
From: "Li, Jiang" <jiang1.li@intel.com>
Date: Wed, 12 Nov 2025 09:43:06 +0800
Subject: [PATCH 344/976] [CPU] Refactor CPU attention backend (#27954)

Signed-off-by: jiang1.li <jiang1.li@intel.com>
---
 .buildkite/release-pipeline.yaml              |    2 +-
 .../scripts/hardware_ci/run-cpu-test.sh       |    3 +-
 cmake/cpu_extension.cmake                     |   28 +-
 csrc/cpu/attention.cpp                        |  798 -------
 csrc/cpu/cache.cpp                            |  214 --
 csrc/cpu/cpu_attn.cpp                         |  249 +++
 csrc/cpu/cpu_attn_amx.hpp                     |  511 +++++
 csrc/cpu/cpu_attn_impl.hpp                    | 1977 +++++++++++++++++
 csrc/cpu/cpu_attn_macros.h                    |   63 +
 csrc/cpu/cpu_attn_vec.hpp                     |  248 +++
 csrc/cpu/cpu_attn_vec16.hpp                   |  171 ++
 csrc/cpu/cpu_types_x86.hpp                    |   50 +-
 csrc/cpu/dnnl_helper.cpp                      |   18 +-
 csrc/cpu/dnnl_helper.h                        |   24 -
 csrc/cpu/scratchpad_manager.cpp               |   23 +
 csrc/cpu/scratchpad_manager.h                 |   31 +
 csrc/cpu/shm.cpp                              |    2 +-
 csrc/cpu/torch_bindings.cpp                   |  105 +-
 docker/Dockerfile.cpu                         |    4 +
 docs/getting_started/installation/cpu.md      |    2 +
 .../attention/test_attention_selector.py      |    6 +-
 tests/kernels/attention/test_cpu_attn.py      |  575 +++++
 tests/kernels/test_onednn.py                  |    1 -
 .../models/language/generation/test_common.py |   17 +-
 .../models/language/pooling/test_embedding.py |    3 +-
 tests/models/registry.py                      |    4 +-
 vllm/_custom_ops.py                           |   82 +
 vllm/attention/backends/registry.py           |    3 +-
 vllm/engine/arg_utils.py                      |    3 -
 vllm/platforms/cpu.py                         |   37 +-
 vllm/utils/__init__.py                        |    1 -
 vllm/v1/attention/backends/cpu_attn.py        |  985 +++-----
 vllm/v1/attention/backends/utils.py           |    2 +-
 vllm/v1/worker/cpu_model_runner.py            |   14 +-
 34 files changed, 4354 insertions(+), 1902 deletions(-)
 delete mode 100644 csrc/cpu/attention.cpp
 delete mode 100644 csrc/cpu/cache.cpp
 create mode 100644 csrc/cpu/cpu_attn.cpp
 create mode 100644 csrc/cpu/cpu_attn_amx.hpp
 create mode 100644 csrc/cpu/cpu_attn_impl.hpp
 create mode 100644 csrc/cpu/cpu_attn_macros.h
 create mode 100644 csrc/cpu/cpu_attn_vec.hpp
 create mode 100644 csrc/cpu/cpu_attn_vec16.hpp
 create mode 100644 csrc/cpu/scratchpad_manager.cpp
 create mode 100644 csrc/cpu/scratchpad_manager.h
 create mode 100644 tests/kernels/attention/test_cpu_attn.py

diff --git a/.buildkite/release-pipeline.yaml b/.buildkite/release-pipeline.yaml
index 12f730738b8a5..38c400ba1faf5 100644
--- a/.buildkite/release-pipeline.yaml
+++ b/.buildkite/release-pipeline.yaml
@@ -132,7 +132,7 @@ steps:
       queue: cpu_queue_postmerge
     commands:
       - "aws ecr-public get-login-password --region us-east-1 | docker login --username AWS --password-stdin public.ecr.aws/q9t5s3a7"
-      - "DOCKER_BUILDKIT=1 docker build --build-arg max_jobs=16 --build-arg GIT_REPO_CHECK=1 --build-arg VLLM_CPU_AVX512BF16=true --build-arg VLLM_CPU_AVX512VNNI=true --tag public.ecr.aws/q9t5s3a7/vllm-cpu-release-repo:$(buildkite-agent meta-data get release-version) --tag public.ecr.aws/q9t5s3a7/vllm-cpu-release-repo:latest --progress plain --target vllm-openai -f docker/Dockerfile.cpu ."
+      - "DOCKER_BUILDKIT=1 docker build --build-arg max_jobs=16 --build-arg GIT_REPO_CHECK=1 --build-arg VLLM_CPU_AVX512BF16=true --build-arg VLLM_CPU_AVX512VNNI=true --build-arg VLLM_CPU_AMXBF16=true --tag public.ecr.aws/q9t5s3a7/vllm-cpu-release-repo:$(buildkite-agent meta-data get release-version) --tag public.ecr.aws/q9t5s3a7/vllm-cpu-release-repo:latest --progress plain --target vllm-openai -f docker/Dockerfile.cpu ."
       - "docker push public.ecr.aws/q9t5s3a7/vllm-cpu-release-repo:latest"
       - "docker push public.ecr.aws/q9t5s3a7/vllm-cpu-release-repo:$(buildkite-agent meta-data get release-version)"
     env:
diff --git a/.buildkite/scripts/hardware_ci/run-cpu-test.sh b/.buildkite/scripts/hardware_ci/run-cpu-test.sh
index 7e0f720feaa71..7479c43977d78 100644
--- a/.buildkite/scripts/hardware_ci/run-cpu-test.sh
+++ b/.buildkite/scripts/hardware_ci/run-cpu-test.sh
@@ -49,6 +49,7 @@ function cpu_tests() {
   # Run kernel tests
   docker exec cpu-test-"$NUMA_NODE" bash -c "
     set -e
+    pytest -x -v -s tests/kernels/attention/test_cpu_attn.py
     pytest -x -v -s tests/kernels/test_onednn.py"
 
   # Run basic model test
@@ -116,4 +117,4 @@ function cpu_tests() {
 
 # All of CPU tests are expected to be finished less than 40 mins.
 export -f cpu_tests
-timeout 2h bash -c "cpu_tests $CORE_RANGE $NUMA_NODE"
+timeout 2.5h bash -c "cpu_tests $CORE_RANGE $NUMA_NODE"
diff --git a/cmake/cpu_extension.cmake b/cmake/cpu_extension.cmake
index dbda19fbcbf20..51447cde0b294 100644
--- a/cmake/cpu_extension.cmake
+++ b/cmake/cpu_extension.cmake
@@ -15,6 +15,7 @@ endif()
 #
 set(ENABLE_AVX512BF16 $ENV{VLLM_CPU_AVX512BF16})
 set(ENABLE_AVX512VNNI $ENV{VLLM_CPU_AVX512VNNI})
+set(ENABLE_AMXBF16 $ENV{VLLM_CPU_AMXBF16})
 
 include_directories("${CMAKE_SOURCE_DIR}/csrc")
 
@@ -140,6 +141,22 @@ if (AVX512_FOUND AND NOT AVX512_DISABLED)
         set(ENABLE_AVX512VNNI OFF)
         message(WARNING "Disable AVX512-VNNI ISA support, no avx512_vnni found in local CPU flags." " If cross-compilation is required, please set env VLLM_CPU_AVX512VNNI=1.")
     endif()
+
+    find_isa(${CPUINFO} "amx_bf16" AMXBF16_FOUND)
+    if (AMXBF16_FOUND OR ENABLE_AMXBF16)
+        if (CMAKE_CXX_COMPILER_ID STREQUAL "GNU" AND
+            CMAKE_CXX_COMPILER_VERSION VERSION_GREATER_EQUAL 12.3)
+            list(APPEND CXX_COMPILE_FLAGS "-mamx-bf16" "-mamx-tile")
+            set(ENABLE_AMXBF16 ON)
+            add_compile_definitions(-DCPU_CAPABILITY_AMXBF16)
+        else()
+            set(ENABLE_AMXBF16 OFF)
+            message(WARNING "Disable AMX_BF16 ISA support, requires gcc/g++ >= 12.3")
+        endif()
+    else()
+        set(ENABLE_AMXBF16 OFF)
+        message(WARNING "Disable AMX_BF16 ISA support, no amx_bf16 found in local CPU flags." " If cross-compilation is required, please set env VLLM_CPU_AMXBF16=1.")
+    endif()
     
 elseif (AVX2_FOUND)
     list(APPEND CXX_COMPILE_FLAGS "-mavx2")
@@ -275,7 +292,10 @@ if ((AVX512_FOUND AND NOT AVX512_DISABLED) OR (ASIMD_FOUND AND NOT APPLE_SILICON
     set(ONEDNN_VERBOSE "OFF")
     set(CMAKE_POLICY_DEFAULT_CMP0077 NEW)
 
+    set(VLLM_BUILD_TYPE ${CMAKE_BUILD_TYPE})
+    set(CMAKE_BUILD_TYPE "Release") # remove oneDNN debug symbols to reduce size
     FetchContent_MakeAvailable(oneDNN)
+    set(CMAKE_BUILD_TYPE ${VLLM_BUILD_TYPE})
     add_library(dnnl_ext OBJECT "csrc/cpu/dnnl_helper.cpp")
     target_include_directories(
         dnnl_ext
@@ -305,14 +325,14 @@ endif()
 #
 set(VLLM_EXT_SRC
     "csrc/cpu/activation.cpp"
-    "csrc/cpu/attention.cpp"
-    "csrc/cpu/cache.cpp"
     "csrc/cpu/utils.cpp"
     "csrc/cpu/layernorm.cpp"
     "csrc/cpu/mla_decode.cpp"
     "csrc/cpu/pos_encoding.cpp"
-    "csrc/cpu/torch_bindings.cpp"
-    "csrc/moe/dynamic_4bit_int_moe_cpu.cpp")
+    "csrc/moe/dynamic_4bit_int_moe_cpu.cpp"
+    "csrc/cpu/cpu_attn.cpp"
+    "csrc/cpu/scratchpad_manager.cpp"
+    "csrc/cpu/torch_bindings.cpp")
 
 if (AVX512_FOUND AND NOT AVX512_DISABLED)
     set(VLLM_EXT_SRC
diff --git a/csrc/cpu/attention.cpp b/csrc/cpu/attention.cpp
deleted file mode 100644
index 82862fea7f2be..0000000000000
--- a/csrc/cpu/attention.cpp
+++ /dev/null
@@ -1,798 +0,0 @@
-#include "cpu_types.hpp"
-
-namespace {
-
-template <typename scalar_t>
-struct KernelVecType {
-  using q_load_vec_type = void;
-  using q_vec_type = void;
-  using k_load_vec_type = void;
-  using k_vec_type = void;
-  using qk_acc_vec_type = void;
-  using v_load_vec_type = void;
-};
-
-template <>
-struct KernelVecType<float> {
-  using q_load_vec_type = vec_op::FP32Vec4;
-  using q_vec_type = vec_op::FP32Vec16;
-  using k_load_vec_type = vec_op::FP32Vec16;
-  using k_vec_type = vec_op::FP32Vec16;
-  using qk_acc_vec_type = vec_op::FP32Vec16;
-  using v_load_vec_type = vec_op::FP32Vec16;
-};
-
-template <>
-struct KernelVecType<c10::Half> {
-#if defined(__powerpc64__) || defined(__s390x__)
-  // Power and s390x architecture-specific vector types
-  using q_load_vec_type = vec_op::FP32Vec8;
-  using k_load_vec_type = vec_op::FP32Vec16;
-  using v_load_vec_type = vec_op::FP32Vec16;
-#else
-  // Fallback for other architectures, including x86
-  using q_load_vec_type = vec_op::FP16Vec8;
-  using k_load_vec_type = vec_op::FP16Vec16;
-  using v_load_vec_type = vec_op::FP16Vec16;
-#endif
-  using q_vec_type = vec_op::FP32Vec16;
-  using k_vec_type = vec_op::FP32Vec16;
-  using qk_acc_vec_type = vec_op::FP32Vec16;
-};
-
-#ifdef __AVX512BF16__
-template <>
-struct KernelVecType<c10::BFloat16> {
-  using q_load_vec_type = vec_op::BF16Vec8;
-  using q_vec_type = vec_op::BF16Vec32;
-  using k_load_vec_type = vec_op::BF16Vec32;
-  using k_vec_type = vec_op::BF16Vec32;
-  using qk_acc_vec_type = vec_op::FP32Vec16;
-  using v_load_vec_type = vec_op::BF16Vec16;
-};
-#else
-  #ifdef __aarch64__
-    #ifndef ARM_BF16_SUPPORT
-    // pass
-    #else
-template <>
-struct KernelVecType<c10::BFloat16> {
-  using q_load_vec_type = vec_op::BF16Vec8;
-  using q_vec_type = vec_op::FP32Vec16;
-  using k_load_vec_type = vec_op::BF16Vec16;
-  using k_vec_type = vec_op::FP32Vec16;
-  using qk_acc_vec_type = vec_op::FP32Vec16;
-  using v_load_vec_type = vec_op::BF16Vec16;
-};
-    #endif
-  #else
-template <>
-struct KernelVecType<c10::BFloat16> {
-  using q_load_vec_type = vec_op::BF16Vec8;
-  using q_vec_type = vec_op::FP32Vec16;
-  using k_load_vec_type = vec_op::BF16Vec16;
-  using k_vec_type = vec_op::FP32Vec16;
-  using qk_acc_vec_type = vec_op::FP32Vec16;
-  using v_load_vec_type = vec_op::BF16Vec16;
-};
-  #endif
-#endif
-
-template <typename T>
-FORCE_INLINE std::pair<T, T> reduceSoftmax(T* data, const int size,
-                                           const int capacity) {
-  T max = data[0];
-  for (int i = 1; i < size; ++i) {
-    max = max >= data[i] ? max : data[i];
-  }
-
-  T sum = 0;
-  for (int i = 0; i < size; ++i) {
-    data[i] = std::exp(data[i] - max);
-    sum += data[i];
-  }
-
-  int i = 0;
-  for (; i < size; ++i) {
-    data[i] /= sum;
-  }
-
-  for (; i < capacity; ++i) {
-    data[i] = 0;
-  }
-
-  return {max, sum};
-}
-
-template <typename T>
-FORCE_INLINE std::pair<T, T> reduceSoftmaxAlibi(T* data, const int size,
-                                                const int capacity,
-                                                const float alibi_slope,
-                                                const int start_index,
-                                                const int seq_len) {
-  data[0] += alibi_slope * (start_index - seq_len + 1);
-  T max = data[0];
-  for (int i = 1; i < size; ++i) {
-    T qk = data[i] + alibi_slope * (start_index + i - seq_len + 1);
-    data[i] = qk;
-    max = max >= qk ? max : qk;
-  }
-
-  T sum = 0;
-  for (int i = 0; i < size; ++i) {
-    data[i] = std::exp(data[i] - max);
-    sum += data[i];
-  }
-
-  int i = 0;
-  for (; i < size; ++i) {
-    data[i] /= sum;
-  }
-
-  for (; i < capacity; ++i) {
-    data[i] = 0;
-  }
-
-  return {max, sum};
-}
-
-template <typename T>
-FORCE_INLINE void reducePartitionSoftmax(const T* max_data, T* sum_data,
-                                         const int size) {
-  T max = max_data[0];
-  for (int i = 1; i < size; ++i) {
-    max = max >= max_data[i] ? max : max_data[i];
-  }
-
-  T rescaled_sum = 0;
-  for (int i = 0; i < size; ++i) {
-    T rescale_factor = std::exp(max_data[i] - max);
-    rescaled_sum += rescale_factor * sum_data[i];
-    sum_data[i] *= rescale_factor;
-  }
-  for (int i = 0; i < size; ++i) {
-    sum_data[i] /= rescaled_sum + 1e-8;
-  }
-}
-
-template <typename scalar_t, int HEAD_SIZE, int BLOCK_SIZE, int x>
-struct reduceQKBlockKernel {
-  using q_load_vec_type = typename KernelVecType<scalar_t>::q_load_vec_type;
-  using q_vec_type = typename KernelVecType<scalar_t>::q_vec_type;
-  using k_load_vec_type = typename KernelVecType<scalar_t>::k_load_vec_type;
-  using k_vec_type = typename KernelVecType<scalar_t>::k_vec_type;
-  using qk_acc_vec_type = typename KernelVecType<scalar_t>::qk_acc_vec_type;
-
-  constexpr static int TOKEN_PER_GROUP = k_load_vec_type::get_elem_num() / x;
-  constexpr static int MAX_GROUP_NUM = 16 / TOKEN_PER_GROUP;
-  constexpr static int UNROLL_GROUP_NUM = MAX_GROUP_NUM / 4;
-
-  static_assert(MAX_GROUP_NUM == 8 || MAX_GROUP_NUM == 4);
-  static_assert(k_load_vec_type::get_elem_num() % x == 0);
-  static_assert(q_load_vec_type::get_elem_num() * sizeof(scalar_t) == 16);
-
-  FORCE_INLINE static void call(const scalar_t* __restrict__ q,
-                                const scalar_t* __restrict__ k_block,
-                                float* __restrict__ logits, float scale,
-                                const int token_num) {
-    const int group_num = (token_num + TOKEN_PER_GROUP - 1) / TOKEN_PER_GROUP;
-
-    qk_acc_vec_type group_accums[MAX_GROUP_NUM];
-    if (token_num == BLOCK_SIZE) {
-      for (int q_offset = 0; q_offset < HEAD_SIZE;
-           q_offset += x, k_block += x * BLOCK_SIZE) {
-        q_load_vec_type q_load_group_vec(q + q_offset);
-        q_vec_type q_group_vec(q_load_group_vec);
-
-        vec_op::unroll_loop<int, MAX_GROUP_NUM>(
-            [k_block, &q_group_vec, &group_accums](int token_group_idx) {
-              k_load_vec_type k_load_group_vec(k_block + token_group_idx * x *
-                                                             TOKEN_PER_GROUP);
-              k_vec_type k_group_vec(k_load_group_vec);
-              vec_op::fma(group_accums[token_group_idx], q_group_vec,
-                          k_group_vec);
-              vec_op::prefetch(k_block + x * BLOCK_SIZE +
-                               token_group_idx * x * TOKEN_PER_GROUP);
-            });
-      }
-    } else {
-      for (int q_offset = 0; q_offset < HEAD_SIZE;
-           q_offset += x, k_block += x * BLOCK_SIZE) {
-        q_load_vec_type q_load_group_vec(q + q_offset);
-        q_vec_type q_group_vec(q_load_group_vec);
-        for (int token_group_start = 0; token_group_start < group_num;
-             token_group_start += UNROLL_GROUP_NUM) {
-          vec_op::unroll_loop<int, UNROLL_GROUP_NUM>(
-              [token_group_start, k_block, &q_group_vec,
-               &group_accums](int token_group_idx) {
-                token_group_idx += token_group_start;
-                k_load_vec_type k_load_group_vec(k_block + token_group_idx * x *
-                                                               TOKEN_PER_GROUP);
-                k_vec_type k_group_vec(k_load_group_vec);
-                vec_op::fma(group_accums[token_group_idx], q_group_vec,
-                            k_group_vec);
-                vec_op::prefetch(k_block + x * BLOCK_SIZE +
-                                 token_group_idx * x * TOKEN_PER_GROUP);
-              });
-        }
-      }
-    }
-
-    for (int token_group_idx = 0; token_group_idx < group_num;
-         ++token_group_idx) {
-      vec_op::unroll_loop<int, TOKEN_PER_GROUP>(
-          [&group_accums, logits, scale, token_group_idx](int token_idx) {
-            float dot_v =
-                group_accums[token_group_idx]
-                    .template reduce_sub_sum<qk_acc_vec_type::get_elem_num() /
-                                             TOKEN_PER_GROUP>(token_idx);
-            logits[token_group_idx * TOKEN_PER_GROUP + token_idx] =
-                dot_v * scale;
-          });
-    }
-  }
-};
-
-template <typename scalar_t, int HEAD_SIZE, int BLOCK_SIZE,
-          int HEAD_PARTITION_SIZE, typename acc_t>
-FORCE_INLINE void reduceValueBlock(const float* prob, const scalar_t* v_block,
-                                   acc_t&& acc) {
-  using v_load_vec_type = typename KernelVecType<scalar_t>::v_load_vec_type;
-  constexpr int ELEM_NUM = v_load_vec_type::get_elem_num();
-  static_assert(BLOCK_SIZE == ELEM_NUM);
-  vec_op::FP32Vec16 prob_vec(prob);
-
-  vec_op::unroll_loop<int, HEAD_PARTITION_SIZE>([&](int head_elem_idx) {
-    v_load_vec_type v_vec(v_block + BLOCK_SIZE * head_elem_idx);
-    vec_op::FP32Vec16 fp32_v_vec(v_vec);
-    acc[head_elem_idx] = acc[head_elem_idx] + prob_vec * fp32_v_vec;
-  });
-}
-};  // namespace
-
-// Paged attention v1
-namespace {
-template <typename scalar_t, int HEAD_SIZE, int BLOCK_SIZE>
-struct paged_attention_v1_impl {
-  static void call(
-      scalar_t* __restrict__ out,            // [num_seqs, num_heads, head_size]
-      const scalar_t* __restrict__ q,        // [num_seqs, num_heads, head_size]
-      const scalar_t* __restrict__ k_cache,  // [num_blocks, num_kv_heads,
-                                             // head_size/x, block_size, x]
-      const scalar_t* __restrict__ v_cache,  // [num_blocks, num_kv_heads,
-                                             // head_size, block_size]
-      const int num_kv_heads, const float scale,
-      const int* __restrict__ block_tables,  // [num_seqs,
-                                             // max_num_blocks_per_seq]
-      const int* __restrict__ seq_lens,      // [num_seqs]
-      const int max_num_blocks_per_seq,
-      const float* __restrict__ alibi_slopes,  // [num_heads]
-      const int q_stride, const int kv_block_stride, const int kv_head_stride,
-      const int num_seqs, const int num_heads) {
-    constexpr int x = 16 / sizeof(scalar_t);
-    const int num_queries_per_kv = num_heads / num_kv_heads;
-
-    static_assert(BLOCK_SIZE == 16);
-
-    int max_seq_len = max_num_blocks_per_seq * BLOCK_SIZE;
-    int max_seq_len_padded = (max_seq_len + 15) & 0xFFFFFFF0;
-    TORCH_CHECK((max_seq_len_padded * sizeof(float)) % 64 == 0);
-
-    const int parallel_work_item_num = omp_get_max_threads();
-
-    size_t logits_bytes =
-        parallel_work_item_num * max_seq_len_padded * sizeof(float);
-    float* logits = (float*)std::aligned_alloc(
-        64, logits_bytes);  // Cacheline alignment for each context token.
-                            // [parallel_work_item_num, max_seq_len_padded]
-
-#pragma omp parallel for collapse(2) schedule(dynamic, 1)
-    for (int seq_idx = 0; seq_idx < num_seqs; ++seq_idx) {
-      for (int head_idx = 0; head_idx < num_heads; ++head_idx) {
-        int seq_len = seq_lens[seq_idx];
-        const int* seq_block_table =
-            block_tables + max_num_blocks_per_seq * seq_idx;
-        const int block_num = (seq_len + BLOCK_SIZE - 1) / BLOCK_SIZE;
-        const int64_t kv_head_idx = head_idx / num_queries_per_kv;
-        const scalar_t* __restrict__ q_vec_ptr =
-            q + seq_idx * q_stride + head_idx * HEAD_SIZE;
-        const int last_block_token_num = seq_len - (block_num - 1) * BLOCK_SIZE;
-        float* __restrict__ thread_block_logits =
-            logits + omp_get_thread_num() * max_seq_len_padded;
-
-        // Compute logits
-        for (int block_idx = 0; block_idx < block_num; ++block_idx) {
-          const int64_t physical_block_idx = seq_block_table[block_idx];
-          const scalar_t* __restrict__ k_block_cache_ptr =
-              k_cache + physical_block_idx * kv_block_stride +
-              kv_head_idx * kv_head_stride;
-          float* __restrict__ head_block_logits =
-              thread_block_logits + block_idx * BLOCK_SIZE;
-
-          reduceQKBlockKernel<scalar_t, HEAD_SIZE, BLOCK_SIZE, x>::call(
-              q_vec_ptr, k_block_cache_ptr, head_block_logits, scale,
-              block_idx == block_num - 1 ? last_block_token_num : BLOCK_SIZE);
-        }
-
-        // Compute softmax
-        if (alibi_slopes) {
-          reduceSoftmaxAlibi(thread_block_logits, seq_len,
-                             block_num * BLOCK_SIZE, alibi_slopes[head_idx], 0,
-                             seq_len);
-        } else {
-          reduceSoftmax(thread_block_logits, seq_len, block_num * BLOCK_SIZE);
-        }
-
-        // Compute value
-        constexpr int head_elem_num_per_partition = 16;
-        constexpr int head_partition_num =
-            HEAD_SIZE / head_elem_num_per_partition;
-        for (int head_part_idx = 0; head_part_idx < head_partition_num;
-             ++head_part_idx) {
-          vec_op::FP32Vec16 accums[head_elem_num_per_partition];
-          scalar_t* __restrict__ out_ptr =
-              out + seq_idx * num_heads * HEAD_SIZE + head_idx * HEAD_SIZE +
-              head_part_idx * head_elem_num_per_partition;
-          for (int block_idx = 0; block_idx < block_num; ++block_idx) {
-            const int64_t physical_block_idx = seq_block_table[block_idx];
-            const float* __restrict__ prob_vec_ptr =
-                thread_block_logits + block_idx * BLOCK_SIZE;
-            const scalar_t* __restrict__ v_block_cache_ptr =
-                v_cache + physical_block_idx * kv_block_stride +
-                kv_head_idx * kv_head_stride +
-                BLOCK_SIZE * head_part_idx * head_elem_num_per_partition;
-            reduceValueBlock<scalar_t, HEAD_SIZE, BLOCK_SIZE,
-                             head_elem_num_per_partition>(
-                prob_vec_ptr, v_block_cache_ptr, accums);
-
-            if (block_idx != block_num - 1) {
-              const int64_t next_physical_block_idx =
-                  seq_block_table[block_idx + 1];
-              const scalar_t* __restrict__ next_v_block_cache_ptr =
-                  v_cache + next_physical_block_idx * kv_block_stride +
-                  kv_head_idx * kv_head_stride +
-                  BLOCK_SIZE * head_part_idx * head_elem_num_per_partition;
-              vec_op::unroll_loop<int, head_elem_num_per_partition>(
-                  [&](int head_elem_idx) {
-                    if (head_elem_idx % 2 == 0) {
-                      vec_op::prefetch(next_v_block_cache_ptr +
-                                       BLOCK_SIZE * head_elem_idx);
-                    }
-                  });
-            }
-          }
-
-          vec_op::unroll_loop<int, head_elem_num_per_partition>(
-              [&](int head_elem_idx) {
-                float value = accums[head_elem_idx].reduce_sum();
-                vec_op::storeFP32(value, out_ptr + head_elem_idx);
-              });
-        }
-      }
-    }
-    std::free(logits);
-  }
-};
-
-#define LAUNCH_V1_ATTENTION_KERNEL(T, HEAD_SIZE, BLOCK_SIZE)                   \
-  paged_attention_v1_impl<T, HEAD_SIZE, BLOCK_SIZE>::call(                     \
-      out_ptr, query_ptr, key_cache_ptr, value_cache_ptr, num_kv_heads, scale, \
-      block_tables_ptr, seq_lens_ptr, max_num_blocks_per_seq,                  \
-      alibi_slopes_ptr, q_stride, kv_block_stride, kv_head_stride, num_seqs,   \
-      num_heads);
-
-template <typename T, int BLOCK_SIZE>
-void paged_attention_v1_impl_launcher(
-    torch::Tensor& out, torch::Tensor& query, torch::Tensor& key_cache,
-    torch::Tensor& value_cache, int num_kv_heads, float scale,
-    torch::Tensor& block_tables, torch::Tensor& seq_lens, int max_seq_len,
-    const std::optional<torch::Tensor>& alibi_slopes) {
-  int num_seqs = query.size(0);
-  int num_heads = query.size(1);
-  int head_size = query.size(2);
-  int max_num_blocks_per_seq = block_tables.size(1);
-  int q_stride = query.stride(0);
-  int kv_block_stride = key_cache.stride(0);
-  int kv_head_stride = key_cache.stride(1);
-
-  // NOTE: alibi_slopes is optional.
-  const float* alibi_slopes_ptr =
-      alibi_slopes
-          ? reinterpret_cast<const float*>(alibi_slopes.value().data_ptr())
-          : nullptr;
-
-  T* out_ptr = reinterpret_cast<T*>(out.data_ptr());
-  T* query_ptr = reinterpret_cast<T*>(query.data_ptr());
-  T* key_cache_ptr = reinterpret_cast<T*>(key_cache.data_ptr());
-  T* value_cache_ptr = reinterpret_cast<T*>(value_cache.data_ptr());
-  int* block_tables_ptr = block_tables.data_ptr<int>();
-  int* seq_lens_ptr = seq_lens.data_ptr<int>();
-
-  switch (head_size) {
-    case 32:
-      LAUNCH_V1_ATTENTION_KERNEL(T, 32, BLOCK_SIZE);
-      break;
-    case 64:
-      LAUNCH_V1_ATTENTION_KERNEL(T, 64, BLOCK_SIZE);
-      break;
-    case 80:
-      LAUNCH_V1_ATTENTION_KERNEL(T, 80, BLOCK_SIZE);
-      break;
-    case 96:
-      LAUNCH_V1_ATTENTION_KERNEL(T, 96, BLOCK_SIZE);
-      break;
-    case 112:
-      LAUNCH_V1_ATTENTION_KERNEL(T, 112, BLOCK_SIZE);
-      break;
-    case 128:
-      LAUNCH_V1_ATTENTION_KERNEL(T, 128, BLOCK_SIZE);
-      break;
-    case 192:
-      LAUNCH_V1_ATTENTION_KERNEL(T, 192, BLOCK_SIZE);
-      break;
-    case 256:
-      LAUNCH_V1_ATTENTION_KERNEL(T, 256, BLOCK_SIZE);
-      break;
-    default:
-      TORCH_CHECK(false, "Unsupported head size: ", head_size);
-      break;
-  }
-}
-
-#define CALL_V1_KERNEL_LAUNCHER(T, BLOCK_SIZE)                               \
-  paged_attention_v1_impl_launcher<T, BLOCK_SIZE>(                           \
-      out, query, key_cache, value_cache, num_kv_heads, scale, block_tables, \
-      seq_lens, max_seq_len, alibi_slopes);
-
-#define CALL_V1_KERNEL_LAUNCHER_BLOCK_SIZE(T)                     \
-  switch (block_size) {                                           \
-    case 16:                                                      \
-      CALL_V1_KERNEL_LAUNCHER(T, 16);                             \
-      break;                                                      \
-    default:                                                      \
-      TORCH_CHECK(false, "Unsupported block size: ", block_size); \
-      break;                                                      \
-  }
-}  // namespace
-
-void paged_attention_v1(
-    torch::Tensor& out, torch::Tensor& query, torch::Tensor& key_cache,
-    torch::Tensor& value_cache, int64_t num_kv_heads, double scale,
-    torch::Tensor& block_tables, torch::Tensor& seq_lens, int64_t block_size,
-    int64_t max_seq_len, const std::optional<torch::Tensor>& alibi_slopes,
-    const std::string& kv_cache_dtype, torch::Tensor& k_scale,
-    torch::Tensor& v_scale, const int64_t tp_rank,
-    const int64_t blocksparse_local_blocks,
-    const int64_t blocksparse_vert_stride, const int64_t blocksparse_block_size,
-    const int64_t blocksparse_head_sliding_step) {
-  TORCH_CHECK(blocksparse_vert_stride <= 1,
-              "CPU backend does not support blocksparse attention yet.");
-  VLLM_DISPATCH_FLOATING_TYPES(query.scalar_type(), "paged_attention_v1_impl",
-                               [&] {
-                                 CPU_KERNEL_GUARD_IN(paged_attention_v1_impl)
-                                 CALL_V1_KERNEL_LAUNCHER_BLOCK_SIZE(scalar_t);
-                                 CPU_KERNEL_GUARD_OUT(paged_attention_v1_impl)
-                               });
-}
-
-// Paged attention v2
-namespace {
-template <typename scalar_t, int HEAD_SIZE, int BLOCK_SIZE, int PARTITION_SIZE>
-struct paged_attention_v2_impl {
-  static void call(
-      scalar_t* __restrict__ out,            // [num_seqs, num_heads, head_size]
-      float* __restrict__ exp_sums,          // [num_seqs, num_heads,
-                                             // max_num_partitions]
-      float* __restrict__ max_logits,        // [num_seqs, num_heads,
-                                             // max_num_partitions]
-      scalar_t* __restrict__ tmp_out,        // [num_seqs, num_heads,
-                                             // max_num_partitions, head_size]
-      const scalar_t* __restrict__ q,        // [num_seqs, num_heads, head_size]
-      const scalar_t* __restrict__ k_cache,  // [num_blocks, num_kv_heads,
-                                             // head_size/x, block_size, x]
-      const scalar_t* __restrict__ v_cache,  // [num_blocks, num_kv_heads,
-                                             // head_size, block_size]
-      const int num_kv_heads, const float scale,
-      const int* __restrict__ block_tables,  // [num_seqs,
-                                             // max_num_blocks_per_seq]
-      const int* __restrict__ seq_lens,      // [num_seqs]
-      const int max_num_blocks_per_seq,
-      const float* __restrict__ alibi_slopes,  // [num_heads]
-      const int q_stride, const int kv_block_stride, const int kv_head_stride,
-      const int num_seqs, const int num_heads, const int max_num_partitions) {
-    constexpr int x = 16 / sizeof(scalar_t);
-    const int num_queries_per_kv = num_heads / num_kv_heads;
-
-    static_assert(BLOCK_SIZE == 16);
-    static_assert(PARTITION_SIZE * sizeof(float) % 64 == 0);
-    static_assert(PARTITION_SIZE % BLOCK_SIZE == 0);
-
-#pragma omp parallel for collapse(3) schedule(static, 1)
-    for (int seq_idx = 0; seq_idx < num_seqs; ++seq_idx) {
-      for (int partition_idx = 0; partition_idx < max_num_partitions;
-           ++partition_idx) {
-        for (int head_idx = 0; head_idx < num_heads; ++head_idx) {
-          const int seq_len = seq_lens[seq_idx];
-          const int start_token_idx = partition_idx * PARTITION_SIZE;
-
-          if (start_token_idx >= seq_len) continue;
-
-          const int partition_num =
-              (seq_len + PARTITION_SIZE - 1) / PARTITION_SIZE;
-          const bool no_reduce = (partition_num == 1);
-          const int token_num =
-              (std::min(seq_len, start_token_idx + PARTITION_SIZE) -
-               start_token_idx);
-          const int block_num = (token_num + BLOCK_SIZE - 1) / BLOCK_SIZE;
-          const int last_block_token_num =
-              token_num - (block_num - 1) * BLOCK_SIZE;
-          const int* seq_block_table = block_tables +
-                                       max_num_blocks_per_seq * seq_idx +
-                                       start_token_idx / BLOCK_SIZE;
-          const int64_t kv_head_idx = head_idx / num_queries_per_kv;
-          const scalar_t* __restrict__ q_vec_ptr =
-              q + seq_idx * q_stride + head_idx * HEAD_SIZE;
-
-          float logits[PARTITION_SIZE] __attribute__((aligned(64))) = {0};
-
-          // Compute logits
-          for (int block_idx = 0; block_idx < block_num; ++block_idx) {
-            const int64_t physical_block_idx = seq_block_table[block_idx];
-            const scalar_t* __restrict__ k_block_cache_ptr =
-                k_cache + physical_block_idx * kv_block_stride +
-                kv_head_idx * kv_head_stride;
-            float* __restrict__ head_block_logits =
-                logits + block_idx * BLOCK_SIZE;
-
-            reduceQKBlockKernel<scalar_t, HEAD_SIZE, BLOCK_SIZE, x>::call(
-                q_vec_ptr, k_block_cache_ptr, head_block_logits, scale,
-                block_idx == block_num - 1 ? last_block_token_num : BLOCK_SIZE);
-          }
-
-          std::pair<float, float> max_and_sum;
-          if (alibi_slopes) {
-            max_and_sum = reduceSoftmaxAlibi(
-                logits, token_num, block_num * BLOCK_SIZE,
-                alibi_slopes[head_idx], start_token_idx, seq_len);
-          } else {
-            max_and_sum =
-                reduceSoftmax(logits, token_num, block_num * BLOCK_SIZE);
-          }
-
-          auto&& [max_logit, exp_sum] = max_and_sum;
-
-          scalar_t* __restrict__ output_buffer = nullptr;
-          if (!no_reduce) {
-            auto idx = seq_idx * num_heads * max_num_partitions +
-                       head_idx * max_num_partitions + partition_idx;
-            max_logits[idx] = max_logit;
-            exp_sums[idx] = exp_sum;
-            output_buffer =
-                tmp_out + seq_idx * num_heads * max_num_partitions * HEAD_SIZE +
-                head_idx * max_num_partitions * HEAD_SIZE +
-                partition_idx * HEAD_SIZE;
-          } else {
-            output_buffer =
-                out + seq_idx * num_heads * HEAD_SIZE + head_idx * HEAD_SIZE;
-          }
-
-          // Compute value
-          constexpr int head_elem_num_per_partition = 16;
-          constexpr int head_partition_num =
-              HEAD_SIZE / head_elem_num_per_partition;
-          for (int head_part_idx = 0; head_part_idx < head_partition_num;
-               ++head_part_idx) {
-            vec_op::FP32Vec16 accums[head_elem_num_per_partition];
-            scalar_t* __restrict__ out_ptr =
-                output_buffer + head_part_idx * head_elem_num_per_partition;
-            for (int block_idx = 0; block_idx < block_num; ++block_idx) {
-              const int64_t physical_block_idx = seq_block_table[block_idx];
-              const float* __restrict__ prob_vec_ptr =
-                  logits + block_idx * BLOCK_SIZE;
-              const scalar_t* __restrict__ v_block_cache_ptr =
-                  v_cache + physical_block_idx * kv_block_stride +
-                  kv_head_idx * kv_head_stride +
-                  BLOCK_SIZE * head_part_idx * head_elem_num_per_partition;
-              reduceValueBlock<scalar_t, HEAD_SIZE, BLOCK_SIZE,
-                               head_elem_num_per_partition>(
-                  prob_vec_ptr, v_block_cache_ptr, accums);
-
-              if (block_idx != block_num - 1) {
-                const int64_t next_physical_block_idx =
-                    seq_block_table[block_idx + 1];
-                const scalar_t* __restrict__ next_v_block_cache_ptr =
-                    v_cache + next_physical_block_idx * kv_block_stride +
-                    kv_head_idx * kv_head_stride +
-                    BLOCK_SIZE * head_part_idx * head_elem_num_per_partition;
-                vec_op::unroll_loop<int, head_elem_num_per_partition>(
-                    [&](int head_elem_idx) {
-                      if (head_elem_idx % 2 == 0) {
-                        vec_op::prefetch(next_v_block_cache_ptr +
-                                         BLOCK_SIZE * head_elem_idx);
-                      }
-                    });
-              }
-            }
-
-            vec_op::unroll_loop<int, head_elem_num_per_partition>(
-                [&](int head_elem_idx) {
-                  float value = accums[head_elem_idx].reduce_sum();
-                  vec_op::storeFP32(value, out_ptr + head_elem_idx);
-                });
-          }
-        }
-      }
-    }
-
-    // Rescale partition softmax and store the factors to exp_sums
-#pragma omp parallel for collapse(2) schedule(static, 1)
-    for (int seq_idx = 0; seq_idx < num_seqs; ++seq_idx) {
-      for (int head_idx = 0; head_idx < num_heads; ++head_idx) {
-        const int seq_len = seq_lens[seq_idx];
-        const int partition_num =
-            (seq_len + PARTITION_SIZE - 1) / PARTITION_SIZE;
-
-        if (partition_num == 1) continue;
-
-        reducePartitionSoftmax(
-            max_logits + seq_idx * num_heads * max_num_partitions +
-                head_idx * max_num_partitions,
-            exp_sums + seq_idx * num_heads * max_num_partitions +
-                head_idx * max_num_partitions,
-            partition_num);
-      }
-    }
-
-    // Reduce values
-    using v_load_vec_type = typename KernelVecType<scalar_t>::v_load_vec_type;
-    static_assert(v_load_vec_type::get_elem_num() == BLOCK_SIZE);
-    constexpr int head_elem_num_per_group =
-        16;  // Note: didn't align with the cacheline size, due to some
-             // HEAD_SIZE didn't align with 64 bytes
-    static_assert(HEAD_SIZE % head_elem_num_per_group == 0);
-    constexpr int head_group_num = HEAD_SIZE / head_elem_num_per_group;
-    const float* __restrict__ rescale_factors = exp_sums;
-#pragma omp parallel for collapse(3) schedule(static, 1)
-    for (int seq_idx = 0; seq_idx < num_seqs; ++seq_idx) {
-      for (int head_idx = 0; head_idx < num_heads; ++head_idx) {
-        for (int group_idx = 0; group_idx < head_group_num; ++group_idx) {
-          const int seq_len = seq_lens[seq_idx];
-          const int partition_num =
-              (seq_len + PARTITION_SIZE - 1) / PARTITION_SIZE;
-
-          if (partition_num == 1) continue;
-
-          const float* __restrict__ seq_head_rescale_factors =
-              rescale_factors + seq_idx * num_heads * max_num_partitions +
-              head_idx * max_num_partitions;
-          const scalar_t* __restrict__ seq_head_tmp_out =
-              tmp_out + seq_idx * num_heads * max_num_partitions * HEAD_SIZE +
-              head_idx * max_num_partitions * HEAD_SIZE +
-              group_idx * head_elem_num_per_group;
-          scalar_t* __restrict__ seq_head_output =
-              out + seq_idx * num_heads * HEAD_SIZE + head_idx * HEAD_SIZE +
-              group_idx * head_elem_num_per_group;
-
-          vec_op::FP32Vec16 acc;
-          for (int i = 0; i < partition_num; ++i) {
-            vec_op::FP32Vec16 rescale_factor(seq_head_rescale_factors[i]);
-            v_load_vec_type value(seq_head_tmp_out + i * HEAD_SIZE);
-            vec_op::FP32Vec16 fp32_value(value);
-            acc = acc + fp32_value * rescale_factor;
-          }
-          v_load_vec_type cast_acc(acc);
-          cast_acc.save(seq_head_output);
-        }
-      }
-    }
-  }
-};
-
-#define LAUNCH_V2_ATTENTION_KERNEL(T, HEAD_SIZE, BLOCK_SIZE)                 \
-  paged_attention_v2_impl<T, HEAD_SIZE, BLOCK_SIZE, PARTITION_SIZE>::call(   \
-      out_ptr, exp_sums_ptr, max_logits_ptr, tmp_out_ptr, query_ptr,         \
-      key_cache_ptr, value_cache_ptr, num_kv_heads, scale, block_tables_ptr, \
-      seq_lens_ptr, max_num_blocks_per_seq, alibi_slopes_ptr, q_stride,      \
-      kv_block_stride, kv_head_stride, num_seqs, num_heads,                  \
-      max_num_partitions);
-
-template <typename T, int BLOCK_SIZE, int PARTITION_SIZE = 512>
-void paged_attention_v2_impl_launcher(
-    torch::Tensor& out, torch::Tensor& exp_sums, torch::Tensor& max_logits,
-    torch::Tensor& tmp_out, torch::Tensor& query, torch::Tensor& key_cache,
-    torch::Tensor& value_cache, int num_kv_heads, float scale,
-    torch::Tensor& block_tables, torch::Tensor& seq_lens, int block_size,
-    int max_seq_len, const std::optional<torch::Tensor>& alibi_slopes) {
-  int num_seqs = query.size(0);
-  int num_heads = query.size(1);
-  int head_size = query.size(2);
-  int max_num_blocks_per_seq = block_tables.size(1);
-  int q_stride = query.stride(0);
-  int kv_block_stride = key_cache.stride(0);
-  int kv_head_stride = key_cache.stride(1);
-  int max_num_partitions = exp_sums.size(-1);
-
-  // NOTE: alibi_slopes is optional.
-  const float* alibi_slopes_ptr =
-      alibi_slopes
-          ? reinterpret_cast<const float*>(alibi_slopes.value().data_ptr())
-          : nullptr;
-
-  T* out_ptr = reinterpret_cast<T*>(out.data_ptr());
-  float* exp_sums_ptr = reinterpret_cast<float*>(exp_sums.data_ptr());
-  float* max_logits_ptr = reinterpret_cast<float*>(max_logits.data_ptr());
-  T* tmp_out_ptr = reinterpret_cast<T*>(tmp_out.data_ptr());
-  T* query_ptr = reinterpret_cast<T*>(query.data_ptr());
-  T* key_cache_ptr = reinterpret_cast<T*>(key_cache.data_ptr());
-  T* value_cache_ptr = reinterpret_cast<T*>(value_cache.data_ptr());
-  int* block_tables_ptr = block_tables.data_ptr<int>();
-  int* seq_lens_ptr = seq_lens.data_ptr<int>();
-
-  switch (head_size) {
-    case 32:
-      LAUNCH_V2_ATTENTION_KERNEL(T, 32, BLOCK_SIZE);
-      break;
-    case 64:
-      LAUNCH_V2_ATTENTION_KERNEL(T, 64, BLOCK_SIZE);
-      break;
-    case 80:
-      LAUNCH_V2_ATTENTION_KERNEL(T, 80, BLOCK_SIZE);
-      break;
-    case 96:
-      LAUNCH_V2_ATTENTION_KERNEL(T, 96, BLOCK_SIZE);
-      break;
-    case 112:
-      LAUNCH_V2_ATTENTION_KERNEL(T, 112, BLOCK_SIZE);
-      break;
-    case 128:
-      LAUNCH_V2_ATTENTION_KERNEL(T, 128, BLOCK_SIZE);
-      break;
-    case 192:
-      LAUNCH_V2_ATTENTION_KERNEL(T, 192, BLOCK_SIZE);
-      break;
-    case 256:
-      LAUNCH_V2_ATTENTION_KERNEL(T, 256, BLOCK_SIZE);
-      break;
-    default:
-      TORCH_CHECK(false, "Unsupported head size: ", head_size);
-      break;
-  }
-}
-
-#define CALL_V2_KERNEL_LAUNCHER(T, BLOCK_SIZE)                              \
-  paged_attention_v2_impl_launcher<T, BLOCK_SIZE>(                          \
-      out, exp_sums, max_logits, tmp_out, query, key_cache, value_cache,    \
-      num_kv_heads, scale, block_tables, seq_lens, block_size, max_seq_len, \
-      alibi_slopes);
-
-#define CALL_V2_KERNEL_LAUNCHER_BLOCK_SIZE(T)                     \
-  switch (block_size) {                                           \
-    case 16:                                                      \
-      CALL_V2_KERNEL_LAUNCHER(T, 16);                             \
-      break;                                                      \
-    default:                                                      \
-      TORCH_CHECK(false, "Unsupported block size: ", block_size); \
-      break;                                                      \
-  }
-}  // namespace
-
-void paged_attention_v2(
-    torch::Tensor& out, torch::Tensor& exp_sums, torch::Tensor& max_logits,
-    torch::Tensor& tmp_out, torch::Tensor& query, torch::Tensor& key_cache,
-    torch::Tensor& value_cache, int64_t num_kv_heads, double scale,
-    torch::Tensor& block_tables, torch::Tensor& seq_lens, int64_t block_size,
-    int64_t max_seq_len, const std::optional<torch::Tensor>& alibi_slopes,
-    const std::string& kv_cache_dtype, torch::Tensor& k_scale,
-    torch::Tensor& v_scale, const int64_t tp_rank,
-    const int64_t blocksparse_local_blocks,
-    const int64_t blocksparse_vert_stride, const int64_t blocksparse_block_size,
-    const int64_t blocksparse_head_sliding_step) {
-  TORCH_CHECK(blocksparse_vert_stride <= 1,
-              "CPU backend does not support blocksparse attention yet.");
-  VLLM_DISPATCH_FLOATING_TYPES(query.scalar_type(), "paged_attention_v2_impl",
-                               [&] {
-                                 CPU_KERNEL_GUARD_IN(paged_attention_v2_impl)
-                                 CALL_V2_KERNEL_LAUNCHER_BLOCK_SIZE(scalar_t);
-                                 CPU_KERNEL_GUARD_OUT(paged_attention_v2_impl)
-                               });
-}
\ No newline at end of file
diff --git a/csrc/cpu/cache.cpp b/csrc/cpu/cache.cpp
deleted file mode 100644
index 69f6d06e3c967..0000000000000
--- a/csrc/cpu/cache.cpp
+++ /dev/null
@@ -1,214 +0,0 @@
-#include <map>
-#include <vector>
-
-#include "cpu_types.hpp"
-
-#if defined(__x86_64__)
-  #define DISPATCH_MACRO VLLM_DISPATCH_FLOATING_TYPES_WITH_E5M2
-#else
-  #define DISPATCH_MACRO VLLM_DISPATCH_FLOATING_TYPES
-#endif
-
-namespace {
-template <typename scalar_t>
-void copy_blocks_cpu_impl(std::vector<torch::Tensor> const& key_caches,
-                          std::vector<torch::Tensor> const& value_caches,
-                          const torch::Tensor& mapping_pairs,
-                          const int element_num_per_block,
-                          const int layer_num) {
-  const size_t pair_num = mapping_pairs.size(0);
-  const size_t block_bytes = sizeof(scalar_t) * element_num_per_block;
-#pragma omp parallel for collapse(2)
-  for (int layer = 0; layer < layer_num; ++layer) {
-    for (size_t pair = 0; pair < pair_num; ++pair) {
-      int64_t source_offset =
-          element_num_per_block * mapping_pairs[pair][0].item<int64_t>();
-      int64_t target_offset =
-          element_num_per_block * mapping_pairs[pair][1].item<int64_t>();
-      scalar_t* key_cache_ptr = key_caches[layer].data_ptr<scalar_t>();
-      scalar_t* source_ptr = key_cache_ptr + source_offset;
-      scalar_t* target_ptr = key_cache_ptr + target_offset;
-      std::memcpy(target_ptr, source_ptr, block_bytes);
-
-      scalar_t* value_cache_ptr = value_caches[layer].data_ptr<scalar_t>();
-      source_ptr = value_cache_ptr + source_offset;
-      target_ptr = value_cache_ptr + target_offset;
-      std::memcpy(target_ptr, source_ptr, block_bytes);
-    }
-  }
-}
-
-template <typename scalar_t>
-void reshape_and_cache_cpu_impl(
-    const scalar_t* __restrict__ key, const scalar_t* __restrict__ value,
-    scalar_t* __restrict__ key_cache, scalar_t* __restrict__ value_cache,
-    const int64_t* __restrict__ slot_mapping, const int num_tokens,
-    const int key_stride, const int value_stride, const int num_heads,
-    const int head_size, const int block_size, const int x) {
-  const int block_elem_num = num_heads * head_size * block_size;
-
-#pragma omp parallel for collapse(2)
-  for (int token_idx = 0; token_idx < num_tokens; ++token_idx) {
-    for (int head_idx = 0; head_idx < num_heads; ++head_idx) {
-      const int64_t slot_idx = slot_mapping[token_idx];
-      if (slot_idx >= 0) {
-        int src_key_head_idx = token_idx * key_stride + head_idx * head_size;
-        int src_value_head_idx =
-            token_idx * value_stride + head_idx * head_size;
-        const scalar_t* src_key_head_ptr = key + src_key_head_idx;
-        const scalar_t* src_value_head_ptr = value + src_value_head_idx;
-        const int64_t block_index = slot_idx / block_size;
-        const int64_t block_offset = slot_idx % block_size;
-        scalar_t* target_key_head_ptr = key_cache +
-                                        block_elem_num * block_index +
-                                        head_idx * block_size * head_size;
-        scalar_t* target_value_head_ptr = value_cache +
-                                          block_elem_num * block_index +
-                                          head_idx * block_size * head_size;
-
-        for (int src_key_idx = 0; src_key_idx < head_size; src_key_idx += x) {
-          const int64_t target_offset =
-              src_key_idx * block_size + block_offset * x;
-          for (int i = 0; i < x; ++i) {
-            target_key_head_ptr[target_offset + i] =
-                src_key_head_ptr[src_key_idx + i];
-          }
-        }
-
-        for (int src_value_idx = 0; src_value_idx < head_size;
-             ++src_value_idx) {
-          const int64_t target_offset =
-              src_value_idx * block_size + block_offset;
-          target_value_head_ptr[target_offset] =
-              src_value_head_ptr[src_value_idx];
-        }
-      }
-    }
-  }
-}
-};  // namespace
-
-template <typename scalar_t>
-void concat_and_cache_mla_cpu_impl(
-    const scalar_t* __restrict__ kv_c,  // [num_tokens, kv_lora_rank]
-    const scalar_t* __restrict__ k_pe,  // [num_tokens, pe_dim]
-    scalar_t* __restrict__ kv_cache,  // [num_blocks, block_size, (kv_lora_rank
-                                      // + pe_dim)]
-    const int64_t* __restrict__ slot_mapping,  // [num_tokens]
-    const int num_tokens,                      //
-    const int block_stride,                    //
-    const int entry_stride,                    //
-    const int kv_c_stride,                     //
-    const int k_pe_stride,                     //
-    const int kv_lora_rank,                    //
-    const int pe_dim,                          //
-    const int block_size                       //
-) {
-#pragma omp parallel for
-  for (int token_idx = 0; token_idx < num_tokens; ++token_idx) {
-    const int64_t slot_idx = slot_mapping[token_idx];
-    // NOTE: slot_idx can be -1 if the token is padded
-    if (slot_idx < 0) {
-      continue;
-    }
-    const int64_t block_idx = slot_idx / block_size;
-    const int64_t block_offset = slot_idx % block_size;
-
-    auto copy = [&](const scalar_t* __restrict__ src,
-                    scalar_t* __restrict__ dst, int src_stride, int dst_stride,
-                    int size, int offset) {
-      for (int i = 0; i < size; i++) {
-        const int64_t src_idx = token_idx * src_stride + i;
-        const int64_t dst_idx =
-            block_idx * block_stride + block_offset * entry_stride + i + offset;
-        dst[dst_idx] = src[src_idx];
-      }
-    };
-
-    copy(kv_c, kv_cache, kv_c_stride, block_stride, kv_lora_rank, 0);
-    copy(k_pe, kv_cache, k_pe_stride, block_stride, pe_dim, kv_lora_rank);
-  }
-}
-
-// Note: the key_caches and value_caches vectors are constant but
-// not the Tensors they contain. The vectors need to be const refs
-// in order to satisfy pytorch's C++ operator registration code.
-void copy_blocks(std::vector<torch::Tensor> const& key_caches,
-                 std::vector<torch::Tensor> const& value_caches,
-                 const torch::Tensor& block_mapping) {
-  unsigned num_layers = key_caches.size();
-  TORCH_CHECK(num_layers == value_caches.size());
-  if (num_layers == 0) {
-    return;
-  }
-
-  const int element_num_per_block = key_caches[0][0].numel();
-  DISPATCH_MACRO(key_caches[0].scalar_type(), "copy_blocks_cpu_impl", [&] {
-    CPU_KERNEL_GUARD_IN(copy_blocks_cpu_impl)
-    copy_blocks_cpu_impl<scalar_t>(key_caches, value_caches, block_mapping,
-                                   element_num_per_block, num_layers);
-    CPU_KERNEL_GUARD_OUT(copy_blocks_cpu_impl)
-  });
-}
-
-void reshape_and_cache(torch::Tensor& key, torch::Tensor& value,
-                       torch::Tensor& key_cache, torch::Tensor& value_cache,
-                       torch::Tensor& slot_mapping,
-                       const std::string& kv_cache_dtype,
-                       torch::Tensor& k_scale, torch::Tensor& v_scale) {
-  int num_tokens = key.size(0);
-  int num_heads = key.size(1);
-  int head_size = key.size(2);
-  int block_size = key_cache.size(3);
-  int x = key_cache.size(4);
-
-  int key_stride = key.stride(0);
-  int value_stride = value.stride(0);
-
-  DISPATCH_MACRO(key.scalar_type(), "reshape_and_cache_cpu_impl", [&] {
-    CPU_KERNEL_GUARD_IN(reshape_and_cache_cpu_impl)
-    reshape_and_cache_cpu_impl<scalar_t>(
-        key.data_ptr<scalar_t>(), value.data_ptr<scalar_t>(),
-        key_cache.data_ptr<scalar_t>(), value_cache.data_ptr<scalar_t>(),
-        slot_mapping.data_ptr<int64_t>(), num_tokens, key_stride, value_stride,
-        num_heads, head_size, block_size, x);
-    CPU_KERNEL_GUARD_OUT(reshape_and_cache_cpu_impl)
-  });
-}
-
-void concat_and_cache_mla(
-    torch::Tensor& kv_c,          // [num_tokens, kv_lora_rank]
-    torch::Tensor& k_pe,          // [num_tokens, pe_dim]
-    torch::Tensor& kv_cache,      // [num_blocks, block_size, (kv_lora_rank +
-                                  // pe_dim)]
-    torch::Tensor& slot_mapping,  // [num_tokens] or [num_actual_tokens]
-    const std::string& kv_cache_dtype, torch::Tensor& scale) {
-  int num_tokens = slot_mapping.size(0);
-  int kv_lora_rank = kv_c.size(1);
-  int pe_dim = k_pe.size(1);
-  int block_size = kv_cache.size(1);
-
-  TORCH_CHECK(kv_cache.size(2) == kv_lora_rank + pe_dim);
-  TORCH_CHECK(kv_cache_dtype != "fp8");
-
-  int kv_c_stride = kv_c.stride(0);
-  int k_pe_stride = k_pe.stride(0);
-  int block_stride = kv_cache.stride(0);
-  int entry_stride = kv_cache.stride(1);
-
-  VLLM_DISPATCH_FLOATING_TYPES(
-      kv_c.scalar_type(), "concat_and_cache_mla_cpu_impl", [&] {
-        CPU_KERNEL_GUARD_IN(concat_and_cache_mla_cpu_impl)
-        concat_and_cache_mla_cpu_impl<scalar_t>(
-            kv_c.data_ptr<scalar_t>(), k_pe.data_ptr<scalar_t>(),
-            kv_cache.data_ptr<scalar_t>(), slot_mapping.data_ptr<int64_t>(),
-            num_tokens, block_stride, entry_stride, kv_c_stride, k_pe_stride,
-            kv_lora_rank, pe_dim, block_size);
-        CPU_KERNEL_GUARD_OUT(concat_and_cache_mla_cpu_impl)
-      });
-}
-
-void swap_blocks(torch::Tensor& src, torch::Tensor& dst,
-                 const torch::Tensor& block_mapping) {
-  TORCH_CHECK(false, "swap_blocks is unsupported on CPU.")
-}
diff --git a/csrc/cpu/cpu_attn.cpp b/csrc/cpu/cpu_attn.cpp
new file mode 100644
index 0000000000000..50f17c758c148
--- /dev/null
+++ b/csrc/cpu/cpu_attn.cpp
@@ -0,0 +1,249 @@
+#include "cpu_attn_vec.hpp"
+#include "cpu_attn_vec16.hpp"
+
+#ifdef CPU_CAPABILITY_AMXBF16
+  #include "cpu_attn_amx.hpp"
+  #define AMX_DISPATCH(...)                                                   \
+    case cpu_attention::ISA::AMX: {                                           \
+      using attn_impl = cpu_attention::AttentionImpl<cpu_attention::ISA::AMX, \
+                                                     scalar_t, head_dim>;     \
+      return __VA_ARGS__();                                                   \
+    }
+#else
+  #define AMX_DISPATCH(...) case cpu_attention::ISA::AMX:
+#endif
+
+#define CPU_ATTN_DISPATCH_CASE(HEAD_DIM, ...) \
+  case HEAD_DIM: {                            \
+    constexpr size_t head_dim = HEAD_DIM;     \
+    return __VA_ARGS__();                     \
+  }
+
+#define CPU_ATTN_DISPATCH_CASE_HEADDIM(HEAD_DIM, ...)           \
+  [&] {                                                         \
+    switch (HEAD_DIM) {                                         \
+      CPU_ATTN_DISPATCH_CASE(32, __VA_ARGS__)                   \
+      CPU_ATTN_DISPATCH_CASE(64, __VA_ARGS__)                   \
+      CPU_ATTN_DISPATCH_CASE(96, __VA_ARGS__)                   \
+      CPU_ATTN_DISPATCH_CASE(128, __VA_ARGS__)                  \
+      CPU_ATTN_DISPATCH_CASE(160, __VA_ARGS__)                  \
+      CPU_ATTN_DISPATCH_CASE(192, __VA_ARGS__)                  \
+      CPU_ATTN_DISPATCH_CASE(224, __VA_ARGS__)                  \
+      CPU_ATTN_DISPATCH_CASE(256, __VA_ARGS__)                  \
+      default: {                                                \
+        TORCH_CHECK(false, "Invalid CPU attention head_dim: " + \
+                               std::to_string(HEAD_DIM));       \
+      }                                                         \
+    }                                                           \
+  }()
+
+#define CPU_ATTN_DISPATCH_IMPL(ISA_TYPE, ...)                                 \
+  [&] {                                                                       \
+    switch (ISA_TYPE) {                                                       \
+      AMX_DISPATCH(__VA_ARGS__)                                               \
+      case cpu_attention::ISA::VEC: {                                         \
+        using attn_impl =                                                     \
+            cpu_attention::AttentionImpl<cpu_attention::ISA::VEC, scalar_t,   \
+                                         head_dim>;                           \
+        return __VA_ARGS__();                                                 \
+      }                                                                       \
+      case cpu_attention::ISA::VEC16: {                                       \
+        using attn_impl =                                                     \
+            cpu_attention::AttentionImpl<cpu_attention::ISA::VEC16, scalar_t, \
+                                         head_dim>;                           \
+        return __VA_ARGS__();                                                 \
+      }                                                                       \
+      default: {                                                              \
+        TORCH_CHECK(false, "Invalid CPU attention ISA type.");                \
+      }                                                                       \
+    }                                                                         \
+  }()
+
+torch::Tensor get_scheduler_metadata(
+    const int64_t num_req, const int64_t num_heads_q,
+    const int64_t num_heads_kv, const int64_t head_dim,
+    const torch::Tensor& seq_lens, at::ScalarType dtype,
+    const torch::Tensor& query_start_loc, const bool casual,
+    const int64_t window_size, const std::string& isa_hint,
+    const bool enable_kv_split) {
+  cpu_attention::ISA isa;
+  if (isa_hint == "amx") {
+    isa = cpu_attention::ISA::AMX;
+  } else if (isa_hint == "vec") {
+    isa = cpu_attention::ISA::VEC;
+  } else if (isa_hint == "vec16") {
+    isa = cpu_attention::ISA::VEC16;
+  } else {
+    TORCH_CHECK(false, "Unsupported CPU attention ISA hint: " + isa_hint);
+  }
+
+  cpu_attention::AttentionScheduler::ScheduleInput input;
+  input.num_reqs = num_req;
+  input.num_heads_q = num_heads_q;
+  input.num_heads_kv = num_heads_kv;
+  input.head_dim = head_dim;
+  input.query_start_loc = query_start_loc.data_ptr<int32_t>();
+  input.seq_lens = seq_lens.data_ptr<int32_t>();
+  if (window_size != -1) {
+    input.left_sliding_window_size = window_size - 1;
+    if (casual) {
+      input.right_sliding_window_size = 0;
+    } else {
+      input.right_sliding_window_size = window_size - 1;
+    }
+  } else {
+    input.left_sliding_window_size = -1;
+    if (casual) {
+      input.right_sliding_window_size = 0;
+    } else {
+      input.right_sliding_window_size = -1;
+    }
+  }
+  input.casual = casual;
+  input.isa = isa;
+  input.enable_kv_split = enable_kv_split;
+  TORCH_CHECK(casual, "Only supports casual mask for now.");
+
+  VLLM_DISPATCH_FLOATING_TYPES(dtype, "get_scheduler_metadata", [&]() {
+    CPU_ATTN_DISPATCH_CASE_HEADDIM(head_dim, [&] {
+      CPU_ATTN_DISPATCH_IMPL(isa, [&]() {
+        input.elem_size = sizeof(scalar_t);
+        input.q_buffer_elem_size = sizeof(attn_impl::q_buffer_t);
+        input.logits_buffer_elem_size = sizeof(attn_impl::logits_buffer_t);
+        input.output_buffer_elem_size =
+            sizeof(attn_impl::partial_output_buffer_t);
+        input.max_num_q_per_iter = attn_impl::MaxQHeadNumPerIteration;
+        input.kv_block_alignment = attn_impl::BlockSizeAlignment;
+      });
+    });
+  });
+
+  cpu_attention::AttentionScheduler scheduler;
+  torch::Tensor metadata = scheduler.schedule(input);
+  return metadata;
+}
+
+void cpu_attn_reshape_and_cache(
+    const torch::Tensor& key,    // [token_num, head_num, head_size]
+    const torch::Tensor& value,  // [token_num, head_num, head_size]
+    torch::Tensor&
+        key_cache,  // [num_blocks, num_kv_heads, block_size, head_size]
+    torch::Tensor&
+        value_cache,  // [num_blocks, num_kv_heads, block_size, head_size]
+    const torch::Tensor& slot_mapping, const std::string& isa) {
+  TORCH_CHECK_EQ(key.dim(), 3);
+  TORCH_CHECK_EQ(value.dim(), 3);
+  TORCH_CHECK_EQ(key_cache.dim(), 4);
+  TORCH_CHECK_EQ(value_cache.dim(), 4);
+  TORCH_CHECK_EQ(key.stride(2), 1);
+  TORCH_CHECK_EQ(value.stride(2), 1);
+
+  const int64_t token_num = key.size(0);
+  const int64_t key_token_num_stride = key.stride(0);
+  const int64_t value_token_num_stride = value.stride(0);
+  const int64_t head_num = value.size(1);
+  const int64_t key_head_num_stride = key.stride(1);
+  const int64_t value_head_num_stride = value.stride(1);
+  const int64_t num_blocks = key_cache.size(0);
+  const int64_t num_blocks_stride = key_cache.stride(0);
+  const int64_t cache_head_num_stride = key_cache.stride(1);
+  const int64_t block_size = key_cache.size(2);
+  const int64_t block_size_stride = key_cache.stride(2);
+  const int64_t head_dim = key.size(-1);
+
+  cpu_attention::ISA isa_tag = [&]() {
+    if (isa == "amx") {
+      return cpu_attention::ISA::AMX;
+    } else if (isa == "vec") {
+      return cpu_attention::ISA::VEC;
+    } else if (isa == "vec16") {
+      return cpu_attention::ISA::VEC16;
+    } else {
+      TORCH_CHECK(false, "Invalid ISA type: " + isa);
+    }
+  }();
+
+  VLLM_DISPATCH_FLOATING_TYPES(
+      key.scalar_type(), "cpu_attn_reshape_and_cache", [&]() {
+        CPU_ATTN_DISPATCH_CASE_HEADDIM(head_dim, [&] {
+          CPU_ATTN_DISPATCH_IMPL(isa_tag, [&]() {
+            attn_impl::reshape_and_cache(
+                key.data_ptr<scalar_t>(), value.data_ptr<scalar_t>(),
+                key_cache.data_ptr<scalar_t>(),
+                value_cache.data_ptr<scalar_t>(),
+                slot_mapping.data_ptr<int64_t>(), token_num,
+                key_token_num_stride, value_token_num_stride, head_num,
+                key_head_num_stride, value_head_num_stride, num_blocks,
+                num_blocks_stride, cache_head_num_stride, block_size,
+                block_size_stride);
+          });
+        });
+      });
+}
+
+void cpu_attention_with_kv_cache(
+    const torch::Tensor& query,  // [num_tokens, num_heads, head_size]
+    const torch::Tensor&
+        key_cache,  // [num_blocks, num_kv_heads, block_size, head_size]
+    const torch::Tensor&
+        value_cache,        // [num_blocks, num_kv_heads, block_size, head_size]
+    torch::Tensor& output,  // [num_tokens, num_heads, head_size]
+    const torch::Tensor& query_start_loc,  // [num_tokens + 1]
+    const torch::Tensor& seq_lens,         // [num_tokens]
+    const double scale, const bool causal,
+    const std::optional<torch::Tensor>& alibi_slopes,  // [num_heads]
+    const int64_t sliding_window_left, const int64_t sliding_window_right,
+    const torch::Tensor& block_table,  // [num_tokens, max_block_num]
+    const double softcap, const torch::Tensor& scheduler_metadata,
+    const std::optional<torch::Tensor>& s_aux  // [num_heads]
+) {
+  TORCH_CHECK_EQ(query.dim(), 3);
+  TORCH_CHECK_EQ(query.stride(2), 1);
+  TORCH_CHECK_EQ(key_cache.dim(), 4);
+  TORCH_CHECK_EQ(value_cache.dim(), 4);
+
+  cpu_attention::AttentionInput input;
+  input.metadata = reinterpret_cast<cpu_attention::AttentionMetadata*>(
+      scheduler_metadata.data_ptr());
+  input.num_tokens = query.size(0);
+  input.num_heads = query.size(1);
+  input.num_kv_heads = key_cache.size(1);
+  input.block_size = key_cache.size(2);
+  input.query = query.data_ptr();
+  input.query_num_tokens_stride = query.stride(0);
+  input.query_num_heads_stride = query.stride(1);
+  input.cache_num_blocks_stride = key_cache.stride(0);
+  input.cache_num_kv_heads_stride = key_cache.stride(1);
+  input.blt_num_tokens_stride = block_table.stride(0);
+  input.key_cache = key_cache.data_ptr();
+  input.value_cache = value_cache.data_ptr();
+  input.output = output.data_ptr();
+  input.query_start_loc = query_start_loc.data_ptr<int32_t>();
+  input.seq_lens = seq_lens.data_ptr<int32_t>();
+  input.block_table = block_table.data_ptr<int32_t>();
+  input.alibi_slopes =
+      alibi_slopes.has_value() ? alibi_slopes->data_ptr<float>() : nullptr;
+  // For now sink must be bf16
+  input.s_aux = s_aux.has_value() ? s_aux->data_ptr<c10::BFloat16>() : nullptr;
+  input.scale = scale;
+  input.causal = causal;
+  input.sliding_window_left = sliding_window_left;
+  input.sliding_window_right = sliding_window_right;
+  if (input.causal) {
+    // to make boundary calculation easier
+    input.sliding_window_right = 0;
+  }
+  float softcap_fp32 = softcap;
+  input.softcap = softcap_fp32;
+
+  VLLM_DISPATCH_FLOATING_TYPES(
+      query.scalar_type(), "cpu_attention_with_kv_cache", [&]() {
+        CPU_ATTN_DISPATCH_CASE_HEADDIM(query.size(2), [&] {
+          CPU_ATTN_DISPATCH_IMPL(input.metadata->isa, [&]() {
+            TORCH_CHECK_EQ(input.block_size % attn_impl::BlockSizeAlignment, 0);
+            cpu_attention::AttentionMainLoop<attn_impl> mainloop;
+            mainloop(&input);
+          });
+        });
+      });
+}
diff --git a/csrc/cpu/cpu_attn_amx.hpp b/csrc/cpu/cpu_attn_amx.hpp
new file mode 100644
index 0000000000000..8da458b99119c
--- /dev/null
+++ b/csrc/cpu/cpu_attn_amx.hpp
@@ -0,0 +1,511 @@
+#ifndef CPU_ATTN_AMX_HPP
+#define CPU_ATTN_AMX_HPP
+
+#include "cpu_attn_impl.hpp"
+
+namespace cpu_attention {
+namespace {
+// AMX specific
+constexpr static int64_t AMX_TILE_ROW_BYTES = 64;
+constexpr static int64_t AMX_TILE_ROW_NUM = 16;
+constexpr static int64_t AMX_TILE_BYTES = AMX_TILE_ROW_BYTES * AMX_TILE_ROW_NUM;
+
+typedef struct __tile_config {
+  uint8_t palette_id = 1;
+  uint8_t start_row = 0;
+  uint8_t reserved_0[14] = {0};
+  uint16_t colsb[16] = {0};
+  uint8_t rows[16] = {0};
+} __tilecfg;
+
+// 2-2-4 pattern, for 16 < m <= 32
+// TILE 0, 1: load A matrix, row num should be 16, m - 16
+// TILE 2, 3: load B matrix, row num should be 16
+// TILE 4, 5, 6, 7: store results C matrix, row num should be 16, 16, m - 16, m
+// - 16
+template <typename kv_cache_t>
+class TileGemm224 {
+ public:
+  template <AttentionGemmPhase phase, int32_t k_size>
+  FORCE_INLINE static void gemm(const int32_t m_size, void* __restrict__ a_tile,
+                                void* __restrict__ b_tile,
+                                float* __restrict__ c_tile, const int64_t lda,
+                                const int64_t ldb, const int64_t ldc,
+                                const int32_t block_size,
+                                const int32_t dynamic_k_size,
+                                const bool accum_c) {
+    TORCH_CHECK(false, "Unsupported kv cache type for TileGemm224");
+  }
+
+  FORCE_INLINE static void init_tile_config(int32_t m, __tilecfg& config) {
+    TORCH_CHECK(false, "Unsupported kv cache type for TileGemm224");
+  }
+};
+
+template <>
+class TileGemm224<c10::BFloat16> {
+ public:
+  template <AttentionGemmPhase phase, int32_t k_size>
+  FORCE_INLINE static void gemm(const int32_t m_size,
+                                c10::BFloat16* __restrict__ a_tile,
+                                c10::BFloat16* __restrict__ b_tile,
+                                float* __restrict__ c_tile, const int64_t lda,
+                                const int64_t ldb, const int64_t ldc,
+                                const int32_t block_size,
+                                const int32_t dynamic_k_size,
+                                const bool accum_c) {
+    const int32_t k_times =
+        dynamic_k_size / (AMX_TILE_ROW_NUM * 4 / sizeof(c10::BFloat16));
+    c10::BFloat16* __restrict__ a_tile_0 = a_tile;
+    c10::BFloat16* __restrict__ a_tile_1 = a_tile + lda * AMX_TILE_ROW_NUM;
+    const int64_t a_tile_stride = [&]() {
+      if constexpr (phase == AttentionGemmPhase::QK) {
+        // q_buffer is prepacked
+        return AMX_TILE_ROW_BYTES;
+      } else if constexpr (phase == AttentionGemmPhase::PV) {
+        // logits_buffer is row-major
+        return lda * sizeof(c10::BFloat16);
+      } else {
+        TORCH_CHECK(false, "Unreachable");
+      }
+    }();
+
+    c10::BFloat16* __restrict__ b_tile_2 = b_tile;
+    c10::BFloat16* __restrict__ b_tile_3 = [&]() {
+      if constexpr (phase == AttentionGemmPhase::QK) {
+        // k_cache is prepacked
+        return b_tile + (k_size * AMX_TILE_ROW_BYTES / 4);
+      } else if constexpr (phase == AttentionGemmPhase::PV) {
+        // v_cache is prepacked
+        return b_tile + (block_size * AMX_TILE_ROW_BYTES / 4);
+      } else {
+        TORCH_CHECK(false, "Unreachable");
+      }
+    }();
+    // k_cache, v_cache are prepacked
+    const int32_t b_tile_stride = AMX_TILE_ROW_BYTES;
+
+    // logits_buffer, output_buffer are not prepacked
+    float* __restrict__ c_tile_4 = c_tile;
+    float* __restrict__ c_tile_5 =
+        c_tile_4 + AMX_TILE_ROW_BYTES / sizeof(float);
+    float* __restrict__ c_tile_6 = c_tile + AMX_TILE_ROW_NUM * ldc;
+    float* __restrict__ c_tile_7 =
+        c_tile_6 + AMX_TILE_ROW_BYTES / sizeof(float);
+    const int32_t c_tile_stride = ldc * sizeof(float);
+
+    if (accum_c) {
+      _tile_loadd(4, c_tile_4, c_tile_stride);
+      _tile_loadd(5, c_tile_5, c_tile_stride);
+      _tile_loadd(6, c_tile_6, c_tile_stride);
+      _tile_loadd(7, c_tile_7, c_tile_stride);
+    } else {
+      _tile_zero(4);
+      _tile_zero(5);
+      _tile_zero(6);
+      _tile_zero(7);
+    }
+
+    for (int32_t k = 0; k < k_times; ++k) {
+      _tile_loadd(0, a_tile_0, a_tile_stride);
+      _tile_stream_loadd(2, b_tile_2, b_tile_stride);
+      _tile_dpbf16ps(4, 0, 2);
+      _tile_stream_loadd(3, b_tile_3, b_tile_stride);
+      _tile_dpbf16ps(5, 0, 3);
+      _tile_loadd(1, a_tile_1, a_tile_stride);
+      _tile_dpbf16ps(6, 1, 2);
+      _tile_dpbf16ps(7, 1, 3);
+
+      // update ptrs
+      if constexpr (phase == AttentionGemmPhase::QK) {
+        // Q buffer is prepacked
+        a_tile_0 += AMX_TILE_BYTES / sizeof(c10::BFloat16);
+        a_tile_1 += AMX_TILE_BYTES / sizeof(c10::BFloat16);
+      } else if constexpr (phase == AttentionGemmPhase::PV) {
+        // P buffer is not prepacked
+        a_tile_0 += AMX_TILE_ROW_BYTES / sizeof(c10::BFloat16);
+        a_tile_1 += AMX_TILE_ROW_BYTES / sizeof(c10::BFloat16);
+      } else {
+        TORCH_CHECK(false, "Unreachable");
+      }
+      b_tile_2 += AMX_TILE_BYTES / sizeof(c10::BFloat16);
+      b_tile_3 += AMX_TILE_BYTES / sizeof(c10::BFloat16);
+    }
+
+    _tile_stored(4, c_tile_4, c_tile_stride);
+    _tile_stored(5, c_tile_5, c_tile_stride);
+    _tile_stored(6, c_tile_6, c_tile_stride);
+    _tile_stored(7, c_tile_7, c_tile_stride);
+  }
+
+  FORCE_INLINE static void init_tile_config(int32_t m, __tilecfg& config) {
+    const int32_t m_0 = AMX_TILE_ROW_NUM;
+    const int32_t m_1 = m - AMX_TILE_ROW_NUM;
+    config.rows[0] = m_0;
+    config.rows[1] = m_1;
+    config.rows[2] = AMX_TILE_ROW_NUM;
+    config.rows[3] = AMX_TILE_ROW_NUM;
+    config.rows[4] = m_0;
+    config.rows[5] = m_0;
+    config.rows[6] = m_1;
+    config.rows[7] = m_1;
+    _tile_loadconfig(&config);
+  }
+};
+
+// 1-2-2 pattern, for 0 < m <= 16
+// TILE 0, (1): load A matrix, use extra 1 tile for prefetch, row num should be
+// m, m
+// TILE 2, 3, (4, 5): load B matrix, use extra 2 tiles for prefetch, row
+// num should be 16
+// TILE 6, 7, (6, 7): store results C matrix, row num should be
+// m
+template <typename kv_cache_t>
+class TileGemm122 {
+ public:
+  template <AttentionGemmPhase phase, int32_t k_size>
+  FORCE_INLINE static void gemm(const int32_t m_size, void* __restrict__ a_tile,
+                                void* __restrict__ b_tile,
+                                float* __restrict__ c_tile, const int64_t lda,
+                                const int64_t ldb, const int64_t ldc,
+                                const int32_t block_size,
+                                const int32_t dynamic_k_size,
+                                const bool accum_c) {
+    TORCH_CHECK(false, "Unsupported kv cache type for TileGemm122");
+  }
+
+  FORCE_INLINE static void init_tile_config(int32_t m, __tilecfg& config) {
+    TORCH_CHECK(false, "Unsupported kv cache type for TileGemm122");
+  }
+};
+
+template <>
+class TileGemm122<c10::BFloat16> {
+ public:
+  template <AttentionGemmPhase phase, int32_t k_size>
+  FORCE_INLINE static void gemm(const int32_t m_size,
+                                c10::BFloat16* __restrict__ a_tile,
+                                c10::BFloat16* __restrict__ b_tile,
+                                float* __restrict__ c_tile, const int64_t lda,
+                                const int64_t ldb, const int64_t ldc,
+                                const int32_t block_size,
+                                const int32_t dynamic_k_size,
+                                const bool accum_c) {
+    c10::BFloat16* __restrict__ a_tile_0 = a_tile;
+    c10::BFloat16* __restrict__ a_tile_1 = [&]() {
+      if constexpr (phase == AttentionGemmPhase::QK) {
+        // q_buffer is prepacked
+        return a_tile + AMX_TILE_BYTES / sizeof(c10::BFloat16);
+      } else if constexpr (phase == AttentionGemmPhase::PV) {
+        // logits_buffer is row-major
+        return a_tile + AMX_TILE_ROW_BYTES / sizeof(c10::BFloat16);
+      } else {
+        TORCH_CHECK(false, "Unreachable");
+      }
+    }();
+    const int64_t a_tile_stride = [&]() {
+      if constexpr (phase == AttentionGemmPhase::QK) {
+        // q_buffer is prepacked
+        return AMX_TILE_ROW_BYTES;
+      } else if constexpr (phase == AttentionGemmPhase::PV) {
+        // logits_buffer is row-major
+        return lda * sizeof(c10::BFloat16);
+      } else {
+        TORCH_CHECK(false, "Unreachable");
+      }
+    }();
+
+    c10::BFloat16* __restrict__ b_tile_2 = b_tile;
+    c10::BFloat16* __restrict__ b_tile_3 = [&]() {
+      if constexpr (phase == AttentionGemmPhase::QK) {
+        // k_cache is prepacked
+        return b_tile + (k_size * AMX_TILE_ROW_BYTES / 4);
+      } else if constexpr (phase == AttentionGemmPhase::PV) {
+        // v_cache is prepacked
+        return b_tile + (block_size * AMX_TILE_ROW_BYTES / 4);
+      } else {
+        TORCH_CHECK(false, "Unreachable");
+      }
+    }();
+    c10::BFloat16* __restrict__ b_tile_4 =
+        b_tile_2 + AMX_TILE_BYTES / sizeof(c10::BFloat16);
+    c10::BFloat16* __restrict__ b_tile_5 =
+        b_tile_3 + AMX_TILE_BYTES / sizeof(c10::BFloat16);
+    int64_t b_stride = AMX_TILE_ROW_BYTES;
+
+    float* __restrict__ c_tile_6 = c_tile;
+    float* __restrict__ c_tile_7 = c_tile + AMX_TILE_ROW_BYTES / sizeof(float);
+    int64_t c_stride = ldc * sizeof(float);
+
+    const int32_t k_times =
+        dynamic_k_size / (AMX_TILE_ROW_NUM * 4 / sizeof(c10::BFloat16));
+    const int32_t k_group_times = k_times / 2;
+    const bool has_tail = (k_times % 2 == 1);
+
+    if (accum_c) {
+      _tile_loadd(6, c_tile_6, c_stride);
+      _tile_loadd(7, c_tile_7, c_stride);
+    } else {
+      _tile_zero(6);
+      _tile_zero(7);
+    }
+
+    for (int32_t k = 0; k < k_group_times; ++k) {
+      _tile_loadd(0, a_tile_0, a_tile_stride);
+      _tile_stream_loadd(2, b_tile_2, b_stride);
+      _tile_dpbf16ps(6, 0, 2);
+      _tile_stream_loadd(3, b_tile_3, b_stride);
+      _tile_dpbf16ps(7, 0, 3);
+      _tile_loadd(1, a_tile_1, a_tile_stride);
+      _tile_stream_loadd(4, b_tile_4, b_stride);
+      _tile_dpbf16ps(6, 1, 4);
+      _tile_stream_loadd(5, b_tile_5, b_stride);
+      _tile_dpbf16ps(7, 1, 5);
+
+      // update ptrs
+      if constexpr (phase == AttentionGemmPhase::QK) {
+        // Q buffer is prepacked
+        a_tile_0 += 2 * AMX_TILE_BYTES / sizeof(c10::BFloat16);
+        a_tile_1 += 2 * AMX_TILE_BYTES / sizeof(c10::BFloat16);
+      } else if constexpr (phase == AttentionGemmPhase::PV) {
+        // P buffer is not prepacked
+        a_tile_0 += 2 * AMX_TILE_ROW_BYTES / sizeof(c10::BFloat16);
+        a_tile_1 += 2 * AMX_TILE_ROW_BYTES / sizeof(c10::BFloat16);
+      }
+      b_tile_2 += 2 * AMX_TILE_BYTES / sizeof(c10::BFloat16);
+      b_tile_3 += 2 * AMX_TILE_BYTES / sizeof(c10::BFloat16);
+      b_tile_4 += 2 * AMX_TILE_BYTES / sizeof(c10::BFloat16);
+      b_tile_5 += 2 * AMX_TILE_BYTES / sizeof(c10::BFloat16);
+    }
+
+    if (has_tail) {
+      _tile_loadd(0, a_tile_0, a_tile_stride);
+      _tile_stream_loadd(2, b_tile_2, b_stride);
+      _tile_dpbf16ps(6, 0, 2);
+      _tile_stream_loadd(3, b_tile_3, b_stride);
+      _tile_dpbf16ps(7, 0, 3);
+    }
+
+    _tile_stored(6, c_tile_6, c_stride);
+    _tile_stored(7, c_tile_7, c_stride);
+  }
+
+  FORCE_INLINE static void init_tile_config(int32_t m, __tilecfg& config) {
+    config.rows[0] = m;
+    config.rows[1] = m;
+    config.rows[2] = AMX_TILE_ROW_NUM;
+    config.rows[3] = AMX_TILE_ROW_NUM;
+    config.rows[4] = AMX_TILE_ROW_NUM;
+    config.rows[5] = AMX_TILE_ROW_NUM;
+    config.rows[6] = m;
+    config.rows[7] = m;
+    _tile_loadconfig(&config);
+  }
+};
+}  // namespace
+
+template <typename scalar_t, int64_t head_dim>
+class AttentionImpl<ISA::AMX, scalar_t, head_dim> {
+ public:
+  using query_t = scalar_t;
+  using q_buffer_t = scalar_t;
+  using kv_cache_t = scalar_t;
+  using logits_buffer_t = float;
+  using partial_output_buffer_t = float;
+  using prob_buffer_t = scalar_t;
+
+  constexpr static int64_t BlockSizeAlignment =
+      AMX_TILE_ROW_BYTES /
+      sizeof(kv_cache_t);  // KV token num unit of QK and PV phases
+  constexpr static int64_t HeadDimAlignment =
+      2 * (AMX_TILE_ROW_BYTES / 4);  // headdim num unit of PV phase
+  constexpr static int64_t MaxQHeadNumPerIteration = 32;
+  constexpr static int64_t HeadDim = head_dim;
+  constexpr static ISA ISAType = ISA::AMX;
+  constexpr static bool scale_on_logits = true;
+
+ public:
+  AttentionImpl() : current_q_head_num_(0) {
+    // Use all columns in AMX tiles
+    vec_op::unroll_loop<int, 8>([&](int i) { amx_tile_config_.colsb[i] = 64; });
+  }
+
+  ~AttentionImpl() { _tile_release(); }
+
+  template <template <typename tile_gemm_t> typename attention>
+  FORCE_INLINE void execute_attention(DEFINE_CPU_ATTENTION_PARAMS) {
+    if (q_head_num > AMX_TILE_ROW_NUM) {
+      if (q_head_num != current_q_head_num_) {
+        current_q_head_num_ = q_head_num;
+        TileGemm224<kv_cache_t>::init_tile_config(q_head_num, amx_tile_config_);
+      }
+      attention<TileGemm224<kv_cache_t>> attention_iteration;
+      attention_iteration(CPU_ATTENTION_PARAMS);
+    } else {
+      if (q_head_num != current_q_head_num_) {
+        current_q_head_num_ = q_head_num;
+        TileGemm122<kv_cache_t>::init_tile_config(q_head_num, amx_tile_config_);
+      }
+      attention<TileGemm122<kv_cache_t>> attention_iteration;
+      attention_iteration(CPU_ATTENTION_PARAMS);
+    }
+  }
+
+  // k_cache_token_group_stride: stride of K cache when move to next
+  // BlockSizeAlignment tokens in a block
+  constexpr static int64_t k_cache_token_group_stride(
+      const int32_t block_size) {
+    return BlockSizeAlignment * head_dim;
+  }
+
+  // v_cache_token_group_stride: stride of V cache when move to next
+  // BlockSizeAlignment tokens in a block
+  constexpr static int64_t v_cache_token_group_stride(
+      const int32_t block_size) {
+    return BlockSizeAlignment * (AMX_TILE_ROW_BYTES / 4);
+  }
+
+  // v_cache_head_group_stride: stride of V cache when move to next
+  // HeadDimAlignment head dims in a block
+  constexpr static int64_t v_cache_head_group_stride(const int32_t block_size) {
+    return block_size * HeadDimAlignment;
+  }
+
+  static void copy_q_heads_tile(
+      scalar_t* __restrict__ src,  // [q_num, q_heads_per_kv, head_size]
+      scalar_t* __restrict__ q_buffer, const int32_t q_num,
+      const int32_t q_heads_per_kv, const int64_t q_num_stride,
+      const int64_t q_head_stride, const float scale) {
+    constexpr int64_t bytes_per_head = head_dim * sizeof(scalar_t);
+    static_assert(bytes_per_head % AMX_TILE_ROW_BYTES == 0);
+    constexpr int64_t head_size_block_num = bytes_per_head / AMX_TILE_ROW_BYTES;
+    constexpr int64_t head_elem_num_pre_block =
+        AMX_TILE_ROW_BYTES / sizeof(scalar_t);
+
+    int32_t idx = 0;
+    int8_t* __restrict__ q_buffer_iter = reinterpret_cast<int8_t*>(q_buffer);
+    for (int32_t q_num_idx = 0; q_num_idx < q_num;
+         ++q_num_idx, src += q_num_stride) {
+      scalar_t* __restrict__ src_iter = src;
+      for (int32_t q_head_idx = 0; q_head_idx < q_heads_per_kv;
+           ++q_head_idx, src_iter += q_head_stride) {
+        vec_op::unroll_loop<int32_t, head_size_block_num>(
+            [&](int32_t head_size_block_idx) {
+              // Use INT8Vec64 for 64 bytes block
+              vec_op::INT8Vec64 vec(src_iter + head_size_block_idx *
+                                                   head_elem_num_pre_block);
+              vec.save(q_buffer_iter + head_size_block_idx * AMX_TILE_BYTES);
+            });
+
+        ++idx;
+        q_buffer_iter += AMX_TILE_ROW_BYTES;
+        if ((idx & (AMX_TILE_ROW_NUM - 1)) == 0) {
+          // head is in another amx tile
+          q_buffer_iter -= AMX_TILE_ROW_NUM * AMX_TILE_ROW_BYTES;
+          q_buffer_iter += head_size_block_num * AMX_TILE_BYTES;
+        }
+      }
+    }
+  }
+
+  // reshape KV to AMX friendly layout
+  static void reshape_and_cache(
+      const scalar_t* __restrict__ key, const scalar_t* __restrict__ value,
+      scalar_t* __restrict__ key_cache, scalar_t* __restrict__ value_cache,
+      const int64_t* __restrict__ slot_mapping, const int64_t token_num,
+      const int64_t key_token_num_stride, const int64_t value_token_num_stride,
+      const int64_t head_num, const int64_t key_head_num_stride,
+      const int64_t value_head_num_stride, const int64_t num_blocks,
+      const int64_t num_blocks_stride, const int64_t cache_head_num_stride,
+      const int64_t block_size, const int64_t block_size_stride) {
+    // For AMX 2D tiles, size of each line is 64 bytes
+    constexpr int64_t amx_tile_row_size = AMX_TILE_ROW_BYTES;
+    // For AMX B martix, N always is 16
+    constexpr int64_t amx_b_tile_n_size = AMX_TILE_ROW_BYTES / 4;
+    constexpr int64_t amx_b_tile_k_size = amx_tile_row_size / sizeof(scalar_t);
+    // For now suppose block_size is divisible by amx_tile_column_num
+    TORCH_CHECK_EQ(block_size % amx_b_tile_k_size, 0);
+
+#pragma omp parallel for collapse(2)
+    for (int64_t token_idx = 0; token_idx < token_num; ++token_idx) {
+      for (int64_t head_idx = 0; head_idx < head_num; ++head_idx) {
+        const int64_t pos = slot_mapping[token_idx];
+        if (pos < 0) {
+          // skip
+          continue;
+        }
+
+        const int64_t block_idx = pos / block_size;
+        const int64_t block_offset = pos % block_size;
+        {
+          // Write Key
+          // Head elements should be packed as quand-words and stored in token
+          // groups with (quadword_stride/4) tokens
+          constexpr int64_t token_num_per_group = amx_tile_row_size / 4;
+          static_assert(head_dim % (4 / sizeof(scalar_t)) == 0);
+          constexpr int64_t quadword_num = head_dim / (4 / sizeof(scalar_t));
+          const int32_t* key_start_quadword_ptr =
+              reinterpret_cast<const int32_t*>(
+                  key + token_idx * key_token_num_stride +
+                  head_idx * key_head_num_stride);
+          const int64_t group_idx = block_offset / token_num_per_group;
+          const int64_t group_offset = block_offset % token_num_per_group;
+          constexpr int64_t quadword_num_per_group =
+              token_num_per_group * quadword_num;
+          int32_t* key_cache_start_ptr =
+              reinterpret_cast<int32_t*>(key_cache +
+                                         block_idx * num_blocks_stride +
+                                         head_idx * cache_head_num_stride) +
+              group_idx * quadword_num_per_group + group_offset;
+
+#pragma GCC unroll 8
+          for (int64_t i = 0, j = 0; j < quadword_num;
+               i += token_num_per_group, ++j) {
+            key_cache_start_ptr[i] = key_start_quadword_ptr[j];
+          }
+        }
+        {
+          // Write Value
+          // Different from Key, block_size dimension is packed rather than
+          // head_size dimension block_size dimension is packed as quand-words;
+          constexpr int64_t token_num_per_sub_group = 4 / sizeof(scalar_t);
+          const int64_t token_num_per_group = block_size;
+          constexpr int64_t head_elems_per_group = amx_b_tile_n_size;
+          const int64_t group_size = token_num_per_group * head_elems_per_group;
+          // For now suppose head_dim is divisible by amx_b_tile_n_size
+          static_assert(head_dim % head_elems_per_group == 0);
+          constexpr int64_t group_num = head_dim / head_elems_per_group;
+          const int64_t sub_group_idx = block_offset / token_num_per_sub_group;
+          const int64_t sub_group_offset =
+              block_offset % token_num_per_sub_group;
+
+          const scalar_t* value_start_ptr = value +
+                                            token_idx * value_token_num_stride +
+                                            head_idx * value_head_num_stride;
+          scalar_t* value_cache_start_ptr =
+              value_cache + block_idx * num_blocks_stride +
+              head_idx * cache_head_num_stride +
+              sub_group_idx * token_num_per_sub_group * amx_b_tile_n_size +
+              sub_group_offset;
+
+          for (int64_t i = 0; i < group_num; ++i) {
+#pragma GCC unroll head_elems_per_group
+            for (int64_t j = 0, k = 0; j < head_elems_per_group;
+                 ++j, k += token_num_per_sub_group) {
+              value_cache_start_ptr[k] = value_start_ptr[j];
+            }
+            value_start_ptr += head_elems_per_group;
+            value_cache_start_ptr += group_size;
+          }
+        }
+      }
+    }
+  }
+
+ private:
+  alignas(64) __tilecfg amx_tile_config_;
+  int32_t current_q_head_num_;
+};
+}  // namespace cpu_attention
+
+#endif
diff --git a/csrc/cpu/cpu_attn_impl.hpp b/csrc/cpu/cpu_attn_impl.hpp
new file mode 100644
index 0000000000000..8f4c780998020
--- /dev/null
+++ b/csrc/cpu/cpu_attn_impl.hpp
@@ -0,0 +1,1977 @@
+#ifndef CPU_ATTN_HPP
+#define CPU_ATTN_HPP
+
+#include <unistd.h>
+#include <type_traits>
+#include <cstddef>
+
+#include "cpu_types.hpp"
+#include "scratchpad_manager.h"
+#include "cpu_attn_macros.h"
+
+namespace cpu_attention {
+enum class ISA { AMX, VEC, VEC16 };
+
+template <ISA isa, typename scalar_t, int64_t head_dim>
+class AttentionImpl {};
+
+struct AttentionWorkItemGroup {
+  int32_t req_id;
+  int32_t q_token_id_start;
+  int32_t q_token_num;
+  int32_t kv_split_pos_start;
+  int32_t kv_split_pos_end;
+
+  int64_t total_kv_len;
+  int32_t split_id;
+  int32_t local_split_id;
+
+  AttentionWorkItemGroup(const int32_t req_id, const int32_t q_token_id_start,
+                         const int32_t kv_split_pos_start,
+                         const int32_t kv_split_pos_end)
+      : req_id(req_id),
+        q_token_id_start(q_token_id_start),
+        q_token_num(0),
+        kv_split_pos_start(kv_split_pos_start),
+        kv_split_pos_end(kv_split_pos_end),
+        total_kv_len(0),
+        split_id(-1),
+        local_split_id(0) {}
+
+  std::string to_string() const {
+    std::stringstream ss;
+    ss << '[' << "req_id: " << req_id << ",\n";
+    ss << "q_token_id_start: " << q_token_id_start << ",\n";
+    ss << "q_token_num: " << q_token_num << ",\n";
+    ss << "kv_split_pos_start: " << kv_split_pos_start << ",\n";
+    ss << "kv_split_pos_end: " << kv_split_pos_end << ",\n";
+    ss << "total_kv_len: " << total_kv_len << ",\n";
+    ss << "split_id: " << split_id << ",\n";
+    ss << "local_split_id: " << local_split_id << ",\n";
+    ss << ']';
+
+    return ss.str();
+  }
+};
+
+struct ReductionWorkItemGroup {
+  int32_t req_id;
+  int32_t q_token_id_start;
+  int32_t q_token_id_num;
+  int32_t split_start_id;
+  int32_t split_num;
+
+  ReductionWorkItemGroup(const int32_t req_id, const int32_t q_token_id_start,
+                         const int32_t q_token_id_num,
+                         const int32_t split_start_id)
+      : req_id(req_id),
+        q_token_id_start(q_token_id_start),
+        q_token_id_num(q_token_id_num),
+        split_start_id(split_start_id),
+        split_num(0) {}
+
+  std::string to_string() const {
+    std::stringstream ss;
+    ss << '[' << "req_id: " << req_id << ",\n";
+    ss << "q_token_id_start: " << q_token_id_start << ",\n";
+    ss << "q_token_id_num: " << q_token_id_num << ",\n";
+    ss << "split_start_id: " << split_start_id << ",\n";
+    ss << "split_num: " << split_num << ",\n";
+    ss << ']';
+
+    return ss.str();
+  }
+};
+
+struct AttentionMetadata {
+  std::atomic_int64_t counter;
+  char _padding1[56];
+  ISA isa;
+  int32_t workitem_group_num;
+  int32_t reduction_item_num;
+  int32_t reduction_split_num;
+  int32_t thread_num;
+  int32_t effective_thread_num;  // non-zero item num in workitem_num_per_thread
+  int32_t split_kv_q_token_num_threshold;
+  int64_t attention_scratchpad_size_per_thread;
+  int64_t reduction_scratchpad_size_per_kv_head;
+  AttentionWorkItemGroup* workitem_groups_ptr;
+  ReductionWorkItemGroup* reduction_items_ptr;
+  int32_t cu_workitem_num_per_thread[1025] = {
+      0};  // prefix sum of workitem_num_per_thread
+  char _padding2[56];
+
+  AttentionMetadata(ISA isa, int32_t workitem_group_num,
+                    int32_t reduction_item_num, int32_t reduction_split_num,
+                    int32_t split_kv_q_token_num_threshold)
+      : isa(isa),
+        workitem_group_num(workitem_group_num),
+        reduction_item_num(reduction_item_num),
+        reduction_split_num(reduction_split_num),
+        thread_num(omp_get_max_threads()),
+        effective_thread_num(thread_num),
+        split_kv_q_token_num_threshold(split_kv_q_token_num_threshold),
+        attention_scratchpad_size_per_thread(0),
+        reduction_scratchpad_size_per_kv_head(0),
+        workitem_groups_ptr(
+            (AttentionWorkItemGroup*)((char*)this + sizeof(AttentionMetadata))),
+        reduction_items_ptr(
+            (ReductionWorkItemGroup*)((char*)this + sizeof(AttentionMetadata) +
+                                      workitem_group_num *
+                                          sizeof(AttentionWorkItemGroup))),
+        counter(0) {
+    TORCH_CHECK_LE(thread_num, 1024);
+    static_assert(sizeof(AttentionMetadata) % 64 == 0);
+    TORCH_CHECK(reinterpret_cast<size_t>(this) % 64 == 0);
+  }
+
+  void reset_counter() { counter.store(0); }
+
+  int64_t acquire_counter() { return counter++; }
+
+  void print() const {
+    std::stringstream ss;
+    ss << "ISA: ";
+    switch (isa) {
+      case ISA::AMX:
+        ss << "AMX, ";
+        break;
+      case ISA::VEC:
+        ss << "VEC, ";
+        break;
+    }
+    ss << "workitem_group_num: " << workitem_group_num
+       << ", reduction_item_num: " << reduction_item_num
+       << ", reduction_split_num: " << reduction_split_num
+       << ", thread_num: " << thread_num
+       << ", effective_thread_num: " << effective_thread_num
+       << ", attention_scratchpad_size_per_thread: "
+       << attention_scratchpad_size_per_thread
+       << ", reduction_scratchpad_size_per_kv_head: "
+       << reduction_scratchpad_size_per_kv_head << ", workitem groups:\n";
+    for (int32_t i = 0; i < workitem_group_num; ++i) {
+      ss << (workitem_groups_ptr + i)->to_string() << ",\n";
+    }
+
+    ss << "cu_workitem_num_per_thread: [";
+    for (int32_t i = 0; i < thread_num + 1; ++i) {
+      ss << cu_workitem_num_per_thread[i] << ", ";
+    }
+    ss << "]\n";
+
+    ss << "reduction items: \n";
+
+    for (int32_t i = 0; i < reduction_item_num; ++i) {
+      ss << (reduction_items_ptr + i)->to_string() << ",\n";
+    }
+
+    std::printf("%s", ss.str().c_str());
+  }
+};
+
+// Thread attention scratchpad contains:
+//  - Q: q_tile_size * head_dim * q_buffer_elem_size, gather Q heads, especially
+//  for GQA
+//  - Q@K^T: max_num_q_per_iter * k_tile_size * logits_buffer_elem_size, logits
+//  - Intermediate outputs: q_tile_size * head_dim * output_buffer_elem_size + 2
+//  * q_tile_size * 4, partial output, max + sum (float)
+// Reduction scratchpad contains:
+//  - flags: bool array to indicate wether the split is finished
+//  - outputs: split_num * q_tile_size * head_dim * output_buffer_elem_size
+//  - max, sum: 2 * split_num * q_tile_size * 4
+class AttentionScratchPad {
+ public:
+  AttentionScratchPad(int64_t thread_id,
+                      const AttentionMetadata& attention_metadata,
+                      void* scratchpad_ptr)
+      : thread_scratchpad_ptr(
+            static_cast<int8_t*>(scratchpad_ptr) +
+            thread_id *
+                attention_metadata.attention_scratchpad_size_per_thread),
+        reduction_scratchpad_ptr(
+            static_cast<int8_t*>(scratchpad_ptr) +
+            attention_metadata.thread_num *
+                attention_metadata.attention_scratchpad_size_per_thread),
+        reduction_scratchpad_size_per_kv_head(
+            attention_metadata.reduction_scratchpad_size_per_kv_head) {}
+
+  // for attention
+  void update(const int64_t head_dim, const int64_t q_buffer_elem_size,
+              const int64_t logits_buffer_elem_size,
+              const int64_t output_buffer_elem_size,
+              const int64_t max_num_q_per_iter, const int64_t q_head_tile_size,
+              const int64_t kv_tile_size) {
+    int64_t buffer_offset = 0;
+    q_buffer_offset_ = buffer_offset;
+    buffer_offset +=
+        calcu_q_buffer_size(q_head_tile_size, head_dim, q_buffer_elem_size);
+    logits_buffer_offset_ = buffer_offset;
+    buffer_offset += calcu_logits_buffer_size(max_num_q_per_iter, kv_tile_size,
+                                              logits_buffer_elem_size);
+    output_buffer_offset_ = buffer_offset;
+    buffer_offset += calcu_partial_output_buffer_size(
+        q_head_tile_size, head_dim, output_buffer_elem_size);
+    max_buffer_offset_ = buffer_offset;
+    buffer_offset += calcu_partial_output_max_sum_buffer_size(q_head_tile_size);
+    sum_buffer_offset_ = buffer_offset;
+  }
+
+  // for reduction
+  void update(const int32_t kv_head_idx, const int32_t total_split_num,
+              const int64_t head_dim, const int64_t q_head_tile_size,
+              const int64_t output_buffer_elem_size) {
+    int64_t buffer_offset = kv_head_idx * reduction_scratchpad_size_per_kv_head;
+    reduce_flag_buffer_offset_ = buffer_offset;
+    buffer_offset += calcu_reduce_flag_buffer_size(total_split_num);
+    reduce_output_buffer_offset_ = buffer_offset;
+    buffer_offset += calcu_reduce_output_buffer_size(
+        total_split_num, q_head_tile_size, head_dim, output_buffer_elem_size);
+    reduce_max_buffer_offset_ = buffer_offset;
+    buffer_offset +=
+        calcu_reduce_max_sum_buffer_size(total_split_num, q_head_tile_size);
+    reduce_sum_buffer_offset_ = buffer_offset;
+  }
+
+  template <typename T>
+  T* get_q_buffer() {
+    return reinterpret_cast<T*>(thread_scratchpad_ptr + q_buffer_offset_);
+  }
+
+  float* get_logits_buffer() {
+    return reinterpret_cast<float*>(thread_scratchpad_ptr +
+                                    logits_buffer_offset_);
+  }
+
+  float* get_output_buffer() {
+    return reinterpret_cast<float*>(thread_scratchpad_ptr +
+                                    output_buffer_offset_);
+  }
+
+  float* get_max_buffer() {
+    return reinterpret_cast<float*>(thread_scratchpad_ptr + max_buffer_offset_);
+  }
+
+  float* get_sum_buffer() {
+    return reinterpret_cast<float*>(thread_scratchpad_ptr + sum_buffer_offset_);
+  }
+
+  volatile bool* get_reduce_flag_buffer() {
+    return reinterpret_cast<volatile bool*>(reduction_scratchpad_ptr +
+                                            reduce_flag_buffer_offset_);
+  }
+
+  float* get_reduce_output_buffer() {
+    return reinterpret_cast<float*>(reduction_scratchpad_ptr +
+                                    reduce_output_buffer_offset_);
+  }
+
+  float* get_reduce_max_buffer() {
+    return reinterpret_cast<float*>(reduction_scratchpad_ptr +
+                                    reduce_max_buffer_offset_);
+  }
+
+  float* get_reduce_sum_buffer() {
+    return reinterpret_cast<float*>(reduction_scratchpad_ptr +
+                                    reduce_sum_buffer_offset_);
+  }
+
+  int64_t get_thread_scratchpad_size() const {
+    return 2 * sum_buffer_offset_ - max_buffer_offset_;
+  }
+
+  int64_t get_reduction_scratchpad_size() const {
+    return 2 * reduce_sum_buffer_offset_ - reduce_max_buffer_offset_;
+  }
+
+ private:
+  static int64_t round_to_64(const int64_t num) {
+    return ((num + 63) >> 6) << 6;
+  }
+
+  static int64_t calcu_q_buffer_size(const int64_t q_tile_size,
+                                     const int64_t head_dim,
+                                     const int64_t elem_size) {
+    return round_to_64(q_tile_size * head_dim * elem_size);
+  }
+
+  static int64_t calcu_logits_buffer_size(const int64_t max_num_q_per_iter,
+                                          const int64_t k_tile_size,
+                                          const int64_t elem_size) {
+    return round_to_64(elem_size * max_num_q_per_iter * k_tile_size);
+  }
+
+  static int64_t calcu_partial_output_buffer_size(const int64_t q_tile_size,
+                                                  const int64_t head_dim,
+                                                  const int64_t elem_size) {
+    return round_to_64(q_tile_size * head_dim * elem_size);
+  }
+
+  static int64_t calcu_partial_output_max_sum_buffer_size(
+      const int64_t q_tile_size) {
+    return round_to_64(q_tile_size * sizeof(float));
+  }
+
+  static int64_t calcu_reduce_flag_buffer_size(const int64_t total_split_num) {
+    return round_to_64(total_split_num * sizeof(bool));
+  }
+
+  static int64_t calcu_reduce_max_sum_buffer_size(
+      const int64_t total_split_num, const int32_t q_head_tile_size) {
+    return round_to_64(total_split_num * q_head_tile_size * sizeof(float));
+  }
+
+  static int64_t calcu_reduce_output_buffer_size(
+      const int64_t total_split_num, const int64_t q_head_tile_size,
+      const int64_t head_dim, const int64_t output_buffer_elem_size) {
+    return round_to_64(total_split_num * q_head_tile_size * head_dim *
+                       output_buffer_elem_size);
+  }
+
+ private:
+  int8_t* thread_scratchpad_ptr;
+  int8_t* reduction_scratchpad_ptr;
+  int64_t reduction_scratchpad_size_per_kv_head;
+  // attention buffers
+  int64_t q_buffer_offset_;
+  int64_t logits_buffer_offset_;
+  int64_t output_buffer_offset_;
+  int64_t max_buffer_offset_;
+  int64_t sum_buffer_offset_;
+  // reduction buffers
+  int64_t reduce_flag_buffer_offset_;
+  int64_t reduce_output_buffer_offset_;
+  int64_t reduce_max_buffer_offset_;
+  int64_t reduce_sum_buffer_offset_;
+};
+
+class AttentionScheduler {
+ public:
+  struct ScheduleInput {
+    int32_t num_reqs;
+    int32_t elem_size;
+    int32_t q_buffer_elem_size;
+    int32_t logits_buffer_elem_size;
+    int32_t output_buffer_elem_size;
+    int32_t num_heads_q;
+    int32_t num_heads_kv;
+    int32_t head_dim;
+    int32_t* query_start_loc;
+    int32_t* seq_lens;
+    int32_t left_sliding_window_size;
+    int32_t right_sliding_window_size;
+    bool casual;
+    cpu_attention::ISA isa;
+    int32_t max_num_q_per_iter;  // max Q head num can be hold in registers
+    int32_t kv_block_alignment;  // context length alignment requirement
+    bool enable_kv_split;
+  };
+
+  static constexpr int32_t MaxQTileIterNum = 128;
+
+  AttentionScheduler() : available_cache_size_(get_available_l2_size()) {}
+
+  torch::Tensor schedule(const ScheduleInput& input) const {
+    const bool casual = input.casual;
+    const int32_t thread_num = omp_get_max_threads();
+    const int64_t cache_size = get_available_l2_size();
+    const int32_t max_num_q_per_iter = input.max_num_q_per_iter;
+    const int32_t kv_len_alignment = input.kv_block_alignment;
+    int32_t q_head_per_kv = input.num_heads_q / input.num_heads_kv;
+    const bool use_gqa = (max_num_q_per_iter % q_head_per_kv == 0);
+    if (!use_gqa) {
+      q_head_per_kv = 1;  // fallback to MHA
+    }
+    const int32_t min_split_kv_len =
+        ((max_num_q_per_iter * 4 + kv_len_alignment - 1) / kv_len_alignment) *
+        kv_len_alignment;
+    const int32_t max_num_q_token_per_iter = max_num_q_per_iter / q_head_per_kv;
+    const int64_t default_tile_size = calcu_default_tile_size(
+        cache_size, input.head_dim, input.elem_size, input.q_buffer_elem_size,
+        input.logits_buffer_elem_size, input.output_buffer_elem_size,
+        max_num_q_per_iter, max_num_q_per_iter);
+    const int32_t default_tile_token_num = default_tile_size / q_head_per_kv;
+    const int32_t split_kv_q_token_num_threshold =
+        input.enable_kv_split ? 1 : 0;
+    const int32_t left_sliding_window_size = input.left_sliding_window_size;
+    const int32_t right_sliding_window_size = input.right_sliding_window_size;
+    TORCH_CHECK_LE(split_kv_q_token_num_threshold * q_head_per_kv, 16);
+
+    // get total kv len
+    int64_t total_kv_len = 0;
+    for (int32_t req_id = 0; req_id < input.num_reqs; ++req_id) {
+      const int32_t seq_len = input.seq_lens[req_id];
+      const int32_t q_token_num =
+          input.query_start_loc[req_id + 1] - input.query_start_loc[req_id];
+      const int32_t q_start_pos = (casual ? (seq_len - q_token_num) : 0);
+      const int32_t kv_start_pos = 0;
+      const int32_t kv_end_pos = seq_len;
+
+      for (int32_t token_id = 0; token_id < q_token_num;
+           token_id += max_num_q_token_per_iter) {
+        const int32_t q_tile_token_num =
+            std::min(max_num_q_token_per_iter, q_token_num - token_id);
+        const int32_t q_tile_pos_left = q_start_pos + token_id;
+        const int32_t q_tile_pos_right = q_tile_pos_left + q_tile_token_num;
+        const auto [kv_tile_pos_left, kv_tile_pos_right] = calcu_kv_tile_pos(
+            kv_start_pos, kv_end_pos, q_tile_pos_left, q_tile_pos_right,
+            left_sliding_window_size, right_sliding_window_size);
+        const auto [aligned_kv_tile_pos_left, aligned_kv_tile_pos_right] =
+            align_kv_tile_pos(kv_tile_pos_left, kv_tile_pos_right,
+                              kv_len_alignment);
+
+        int32_t curr_kv_len =
+            aligned_kv_tile_pos_right - aligned_kv_tile_pos_left;
+        total_kv_len += curr_kv_len;
+      }
+    }
+    const int64_t kv_len_per_thread =
+        (((total_kv_len / thread_num) + kv_len_alignment - 1) /
+         kv_len_alignment) *
+        kv_len_alignment * (use_gqa ? input.num_heads_kv : input.num_heads_q);
+    std::vector<AttentionWorkItemGroup> workitems;
+    std::vector<ReductionWorkItemGroup> reduce_workitems;
+    workitems.reserve(1024);
+    reduce_workitems.reserve(1024);
+    std::vector<int32_t> workitem_num_per_thread(thread_num, 0);
+
+    // split tasks
+    int32_t curr_thread_id = 0;
+    int64_t remaining_kv_len = kv_len_per_thread;
+    int32_t cum_split_num = 0;
+    for (int32_t req_id = 0; req_id < input.num_reqs; ++req_id) {
+      const int32_t seq_len = input.seq_lens[req_id];
+      const int32_t q_token_num =
+          input.query_start_loc[req_id + 1] - input.query_start_loc[req_id];
+      const int32_t q_start_pos = (casual ? (seq_len - q_token_num) : 0);
+      const int32_t kv_start_pos = 0;
+      const int32_t kv_end_pos = seq_len;
+      int32_t local_split_id = 0;
+
+      AttentionWorkItemGroup curr_workitem(req_id, 0, 0, seq_len);
+      for (int32_t token_id = 0; token_id < q_token_num;
+           token_id += max_num_q_token_per_iter) {
+        const int32_t q_tile_token_num =
+            std::min(max_num_q_token_per_iter, q_token_num - token_id);
+        const int32_t q_tile_pos_left = q_start_pos + token_id;
+        const int32_t q_tile_pos_right = q_tile_pos_left + q_tile_token_num;
+        const auto [kv_tile_pos_left, kv_tile_pos_right] = calcu_kv_tile_pos(
+            kv_start_pos, kv_end_pos, q_tile_pos_left, q_tile_pos_right,
+            left_sliding_window_size, right_sliding_window_size);
+        const auto [aligned_kv_tile_pos_left, aligned_kv_tile_pos_right] =
+            align_kv_tile_pos(kv_tile_pos_left, kv_tile_pos_right,
+                              kv_len_alignment);
+        int32_t curr_kv_len =
+            aligned_kv_tile_pos_right - aligned_kv_tile_pos_left;
+        int32_t kv_token_pos_start = aligned_kv_tile_pos_left;
+
+        while (curr_kv_len > 0) {
+          if (curr_kv_len <= (remaining_kv_len + min_split_kv_len) ||
+              curr_thread_id == (thread_num - 1)) {
+            curr_workitem.q_token_num += q_tile_token_num;
+            curr_workitem.total_kv_len += curr_kv_len;
+            remaining_kv_len -= curr_kv_len;
+            curr_kv_len = 0;
+
+            if (remaining_kv_len < 0) {
+              // stop to accept more workitems
+              remaining_kv_len -= min_split_kv_len;
+            }
+
+            if (curr_workitem.kv_split_pos_start != 0) {
+              // got a partial kv spilt, need to create a single workitem
+              curr_workitem.split_id = cum_split_num;
+              curr_workitem.local_split_id = local_split_id;
+              workitems.emplace_back(curr_workitem);
+              ++workitem_num_per_thread[curr_thread_id];
+              ++reduce_workitems.back().split_num;
+              ++cum_split_num;
+
+              curr_workitem = AttentionWorkItemGroup(
+                  req_id, token_id + max_num_q_token_per_iter, 0, seq_len);
+            }
+
+            break;
+          }
+
+          if (remaining_kv_len < min_split_kv_len &&
+              (curr_workitem.total_kv_len > 0 ||
+               workitem_num_per_thread[curr_thread_id] > 0)) {
+            // remaining_kv_len is too short, and have allocated workitems, just
+            // leave to next thread
+            if (curr_workitem.total_kv_len > 0) {
+              workitems.emplace_back(curr_workitem);
+              ++workitem_num_per_thread[curr_thread_id];
+              curr_workitem =
+                  AttentionWorkItemGroup(req_id, token_id, 0, seq_len);
+            }
+
+            // switch to next thread
+            ++curr_thread_id;
+            remaining_kv_len = kv_len_per_thread;
+
+            // retry this iteration
+            continue;
+          }
+
+          // only split tail splits with q_tile_token_num <=
+          // split_kv_q_token_num_threshold
+          if (token_id + max_num_q_token_per_iter < q_token_num ||
+              q_tile_token_num > split_kv_q_token_num_threshold) {
+            // if requires a new q tile iteration and already has workitems,
+            // leave this workitem to next thread
+            if (curr_workitem.q_token_num % default_tile_token_num == 0 &&
+                (curr_workitem.total_kv_len > 0 ||
+                 workitem_num_per_thread[curr_thread_id] > 0)) {
+              if (curr_workitem.total_kv_len > 0) {
+                workitems.emplace_back(curr_workitem);
+                ++workitem_num_per_thread[curr_thread_id];
+              }
+              curr_workitem =
+                  AttentionWorkItemGroup(req_id, token_id, 0, seq_len);
+
+              // switch to next thread
+              ++curr_thread_id;
+              remaining_kv_len = kv_len_per_thread;
+            }
+
+            curr_workitem.q_token_num += q_tile_token_num;
+            curr_workitem.total_kv_len += curr_kv_len;
+            remaining_kv_len -= curr_kv_len;
+            curr_kv_len = 0;
+            break;
+          }
+
+          // split kv
+          if (curr_workitem.total_kv_len > 0) {
+            // write back curr workitem
+            workitems.emplace_back(curr_workitem);
+            ++workitem_num_per_thread[curr_thread_id];
+          }
+
+          if (kv_token_pos_start == aligned_kv_tile_pos_left) {
+            // first split, init the workitem
+            reduce_workitems.emplace_back(ReductionWorkItemGroup(
+                req_id, token_id, q_tile_token_num, cum_split_num));
+          }
+
+          int32_t spilt_size =
+              std::min(std::max(remaining_kv_len, (int64_t)min_split_kv_len),
+                       (int64_t)curr_kv_len);
+          curr_workitem =
+              AttentionWorkItemGroup(req_id, token_id, kv_token_pos_start,
+                                     kv_token_pos_start + spilt_size);
+          curr_workitem.q_token_num += q_tile_token_num;
+          curr_workitem.total_kv_len += spilt_size;
+          curr_workitem.split_id = cum_split_num;
+          curr_workitem.local_split_id = local_split_id;
+          workitems.emplace_back(curr_workitem);
+          ++workitem_num_per_thread[curr_thread_id];
+          ++reduce_workitems.back().split_num;
+          ++cum_split_num;
+          ++local_split_id;
+
+          kv_token_pos_start += spilt_size;
+          curr_kv_len -= spilt_size;
+          curr_workitem = AttentionWorkItemGroup(req_id, token_id,
+                                                 kv_token_pos_start, seq_len);
+
+          // switch to next thread
+          ++curr_thread_id;
+          remaining_kv_len = kv_len_per_thread;
+        }
+      }
+
+      if (curr_workitem.total_kv_len > 0) {
+        // write back curr workitem
+        workitems.emplace_back(curr_workitem);
+        ++workitem_num_per_thread[curr_thread_id];
+      }
+    }
+
+    int64_t metadata_tensor_size =
+        sizeof(AttentionMetadata) +
+        workitems.size() * sizeof(AttentionWorkItemGroup) +
+        reduce_workitems.size() * sizeof(ReductionWorkItemGroup);
+    auto options =
+        torch::TensorOptions().dtype(torch::kInt8).device(torch::kCPU);
+    torch::Tensor metadata_tensor =
+        torch::empty({metadata_tensor_size}, options);
+    AttentionMetadata* metadata_ptr = new (metadata_tensor.data_ptr())
+        AttentionMetadata(input.isa, workitems.size(), reduce_workitems.size(),
+                          cum_split_num, split_kv_q_token_num_threshold);
+    AttentionWorkItemGroup* workitem_groups_ptr =
+        metadata_ptr->workitem_groups_ptr;
+    ReductionWorkItemGroup* reduction_items_ptr =
+        metadata_ptr->reduction_items_ptr;
+    std::memcpy(workitem_groups_ptr, workitems.data(),
+                workitems.size() * sizeof(AttentionWorkItemGroup));
+    std::memcpy(reduction_items_ptr, reduce_workitems.data(),
+                reduce_workitems.size() * sizeof(ReductionWorkItemGroup));
+
+    int32_t effective_thread_num = 0;
+    for (; effective_thread_num < thread_num; ++effective_thread_num) {
+      if (workitem_num_per_thread[effective_thread_num] == 0) {
+        break;
+      }
+    }
+
+    std::memcpy(metadata_ptr->cu_workitem_num_per_thread + 1,
+                workitem_num_per_thread.data(),
+                workitem_num_per_thread.size() * sizeof(int32_t));
+    for (int32_t i = 1; i <= thread_num; ++i) {
+      metadata_ptr->cu_workitem_num_per_thread[i] +=
+          metadata_ptr->cu_workitem_num_per_thread[i - 1];
+    }
+    metadata_ptr->effective_thread_num = effective_thread_num;
+
+    {
+      // when q_tile_size = max_num_q_per_iter, requires max
+      // attention_scratchpad_size
+      AttentionScratchPad sc(0, *metadata_ptr, 0x0);
+      int64_t n = AttentionScheduler::calcu_tile_size_with_constant_q(
+          cache_size, input.head_dim, input.elem_size, input.q_buffer_elem_size,
+          input.logits_buffer_elem_size, input.output_buffer_elem_size,
+          max_num_q_per_iter, kv_len_alignment, max_num_q_per_iter, true);
+      sc.update(input.head_dim, input.q_buffer_elem_size,
+                input.logits_buffer_elem_size, input.output_buffer_elem_size,
+                max_num_q_per_iter, max_num_q_per_iter, n);
+      metadata_ptr->attention_scratchpad_size_per_thread =
+          ((sc.get_thread_scratchpad_size() + 63) / 64) * 64;
+
+      sc.update(0, metadata_ptr->reduction_split_num, input.head_dim,
+                q_head_per_kv * split_kv_q_token_num_threshold,
+                input.output_buffer_elem_size);
+      metadata_ptr->reduction_scratchpad_size_per_kv_head =
+          ((sc.get_reduction_scratchpad_size() + 63) / 64) * 64;
+    }
+    int64_t scratchpad_size =
+        metadata_ptr->attention_scratchpad_size_per_thread *
+            metadata_ptr->thread_num +
+        metadata_ptr->reduction_scratchpad_size_per_kv_head *
+            (use_gqa ? input.num_heads_kv : input.num_heads_q);
+    DNNLScratchPadManager::get_dnnl_scratchpad_manager()->realloc(
+        scratchpad_size);
+
+    // metadata_ptr->print();
+
+    // test out of boundary access
+    // {
+    //     float* cache_ptr =
+    //     DNNLScratchPadManager::get_dnnl_scratchpad_manager()->get_data<float>();
+    //     for (int64_t i = 0; i < scratchpad_size / sizeof(float); ++i) {
+    //         cache_ptr[i] = std::numeric_limits<float>::quiet_NaN();
+    //     }
+    // }
+
+    return metadata_tensor;
+  }
+
+  FORCE_INLINE static std::pair<int32_t, int32_t> calcu_kv_tile_pos(
+      int32_t kv_left_pos, int32_t kv_right_pos, int32_t q_left_pos,
+      int32_t q_right_pos, int32_t sliding_window_left,
+      int32_t sliding_window_right) {
+    if (sliding_window_left != -1) {
+      kv_left_pos = std::max(kv_left_pos, q_left_pos - sliding_window_left);
+    }
+    if (sliding_window_right != -1) {
+      kv_right_pos = std::min(kv_right_pos, q_right_pos + sliding_window_right);
+    }
+    return {kv_left_pos, kv_right_pos};
+  }
+
+  FORCE_INLINE static std::pair<int32_t, int32_t> align_kv_tile_pos(
+      int32_t kv_left_pos, int32_t kv_right_pos, int32_t align_factor) {
+    kv_left_pos = (kv_left_pos / align_factor) * align_factor;
+    kv_right_pos =
+        ((kv_right_pos + align_factor - 1) / align_factor) * align_factor;
+    return {kv_left_pos, kv_right_pos};
+  }
+
+  static int64_t calcu_default_tile_size(int64_t cache_size, int64_t head_dim,
+                                         int64_t elem_size,
+                                         int64_t q_buffer_elem_size,
+                                         int64_t logits_buffer_elem_size,
+                                         int64_t output_buffer_elem_size,
+                                         int64_t max_num_q_per_iter,
+                                         int64_t round_size) {
+    // For CPU, different from CUDA, Q@K^T results should also be hold in cache,
+    // using float32. Intermediate outputs should be float32 to be compatible
+    // with AMX Then the cache includes:
+    //  - Q: q_tile_size * head_dim * q_buffer_elem_size
+    //  - K, V: 2 * k_tile_size * head_dim * elem_size
+    //  - Q@K^T: max_num_q_per_iter * k_tile_size * logits_buffer_elem_size
+    //  - Intermediate outputs: q_tile_size * head_dim * output_buffer_elem_size
+    // By default, let tile_size = q_tile_size = k_tile_size. To record
+    // is_first_iter states in a static array, require the default tile <= 128 *
+    // max_num_q_per_iter
+
+    int64_t tile_size =
+        cache_size / (head_dim * (q_buffer_elem_size + 2 * elem_size +
+                                  output_buffer_elem_size) +
+                      max_num_q_per_iter * logits_buffer_elem_size);
+    tile_size = std::min(tile_size, MaxQTileIterNum * max_num_q_per_iter);
+    int64_t rounded_tile_size = (tile_size / round_size) * round_size;
+    return std::max(rounded_tile_size, round_size);
+  }
+
+  static int64_t calcu_tile_size_with_constant_q(
+      int64_t cache_size, int64_t head_dim, int64_t elem_size,
+      int64_t q_buffer_elem_size, int64_t logits_buffer_elem_size,
+      int64_t output_buffer_elem_size, int64_t max_num_q_per_iter,
+      int64_t round_size, int64_t q_tile_size, bool one_round) {
+    // calculate tile_size with known q_tile_size
+    // If one_round is True, the outer Q tile loop time is 1, then the K,V will
+    // not be included in the cache
+    int64_t tile_size;
+    if (one_round) {
+      tile_size =
+          (cache_size - q_tile_size * head_dim *
+                            (q_buffer_elem_size + output_buffer_elem_size)) /
+          (logits_buffer_elem_size * max_num_q_per_iter);
+    } else {
+      tile_size =
+          (cache_size - q_tile_size * head_dim *
+                            (q_buffer_elem_size + output_buffer_elem_size)) /
+          (logits_buffer_elem_size * max_num_q_per_iter +
+           2 * head_dim * elem_size);
+    }
+    int64_t rounded_tile_size = (tile_size / round_size) * round_size;
+    return std::max(rounded_tile_size, round_size);
+  }
+
+  static int64_t get_available_l2_size() {
+    static int64_t size = []() {
+      long l2_cache_size = sysconf(_SC_LEVEL2_CACHE_SIZE);
+      TORCH_CHECK_NE(l2_cache_size, -1);
+      return l2_cache_size >> 1;  // use 50% of L2 cache
+    }();
+    return size;
+  }
+
+ private:
+  int64_t available_cache_size_;
+};
+
+struct AttentionInput {
+  AttentionMetadata* metadata;
+  int32_t num_tokens;
+  int32_t num_heads;
+  int32_t num_kv_heads;
+  int32_t block_size;
+  void* query;
+  int64_t query_num_tokens_stride;
+  int64_t query_num_heads_stride;
+  int64_t cache_num_blocks_stride;
+  int64_t cache_num_kv_heads_stride;
+  int64_t blt_num_tokens_stride;
+  void* key_cache;
+  void* value_cache;
+  void* output;
+  int32_t* query_start_loc;
+  int32_t* seq_lens;
+  int32_t* block_table;
+  float* alibi_slopes;
+  c10::BFloat16* s_aux;
+  float scale;
+  bool causal;
+  int32_t sliding_window_left;
+  int32_t sliding_window_right;
+  float softcap;
+};
+
+#define DEFINE_CPU_ATTENTION_PARAMS                                         \
+  q_buffer_t *__restrict__ q_heads_buffer,                                  \
+      kv_cache_t *__restrict__ k_head_cache_ptr,                            \
+      kv_cache_t *__restrict__ v_head_cache_ptr,                            \
+      logits_buffer_t *__restrict__ logits_buffer,                          \
+      float *__restrict__ partial_q_buffer, float *__restrict__ max_buffer, \
+      float *__restrict__ sum_buffer, int32_t *__restrict__ block_table,    \
+      const int32_t kv_tile_start_pos, const int32_t kv_tile_end_pos,       \
+      const int32_t kv_tile_token_num,                                      \
+      const int64_t kv_cache_num_blocks_stride, const int32_t q_head_num,   \
+      const int32_t q_token_num, const int32_t q_tile_start_pos,            \
+      const int32_t q_heads_per_kv, const int32_t block_size,               \
+      const int32_t left_window_size, const int32_t right_window_size,      \
+      float scale, const float softcap_scale,                               \
+      const float *__restrict__ alibi_slopes, const bool is_first_iter,     \
+      const bool use_sink, const bool debug_info
+
+#define CPU_ATTENTION_PARAMS                                                  \
+  q_heads_buffer, k_head_cache_ptr, v_head_cache_ptr, logits_buffer,          \
+      partial_q_buffer, max_buffer, sum_buffer, block_table,                  \
+      kv_tile_start_pos, kv_tile_end_pos, kv_tile_token_num,                  \
+      kv_cache_num_blocks_stride, q_head_num, q_token_num, q_tile_start_pos,  \
+      q_heads_per_kv, block_size, left_window_size, right_window_size, scale, \
+      softcap_scale, alibi_slopes, is_first_iter, use_sink, debug_info
+
+enum class AttentionGemmPhase { QK, PV };
+
+template <typename T>
+struct VecTypeTrait {
+  using vec_t = void;
+};
+
+template <>
+struct VecTypeTrait<float> {
+  using vec_t = vec_op::FP32Vec16;
+};
+
+template <>
+struct VecTypeTrait<c10::BFloat16> {
+  using vec_t = vec_op::BF16Vec16;
+};
+
+template <>
+struct VecTypeTrait<c10::Half> {
+  using vec_t = vec_op::FP16Vec16;
+};
+
+template <typename T>
+void print_logits(const char* name, T* ptr, int32_t row, int32_t col,
+                  int32_t stride) {
+  std::stringstream ss;
+  ss << std::fixed << std::setprecision(5) << name << ": [\n";
+  auto* curr_logits_buffer = ptr;
+  for (int32_t m = 0; m < row; ++m) {
+    for (int32_t n = 0; n < col; ++n) {
+      ss << curr_logits_buffer[n] << ", ";
+    }
+    ss << "\n";
+    curr_logits_buffer += stride;
+  }
+  ss << "]\n";
+  std::printf("%s", ss.str().c_str());
+}
+
+template <typename attention_impl_t>
+class AttentionMainLoop {
+ public:
+  using query_t = typename attention_impl_t::query_t;
+  using q_buffer_t = typename attention_impl_t::q_buffer_t;
+  using kv_cache_t = typename attention_impl_t::kv_cache_t;
+  using logits_buffer_t = typename attention_impl_t::logits_buffer_t;
+  using partial_output_buffer_t =
+      typename attention_impl_t::partial_output_buffer_t;
+  using prob_buffer_t = typename attention_impl_t::prob_buffer_t;
+
+  static constexpr int64_t max_q_head_num_per_iter =
+      attention_impl_t::MaxQHeadNumPerIteration;
+  static constexpr int64_t blocksize_alignment =
+      attention_impl_t::BlockSizeAlignment;
+  static constexpr int64_t headdim_alignment =
+      attention_impl_t::HeadDimAlignment;
+  static constexpr int64_t head_dim = attention_impl_t::HeadDim;
+  static constexpr ISA ISAType = attention_impl_t::ISAType;
+  static constexpr bool scale_on_logits =
+      attention_impl_t::scale_on_logits;  // apply scale on logits, otherwise
+                                          // apply scale on q_buffer
+
+  template <typename tile_gemm_t>
+  class Attention {
+   public:
+    // Args:
+    //  - q_heads_buffer: [MaxQHeadNumPerIteration, head_dim]
+    //  - k_head_cache_ptr: [num_blocks, block_size * head_dim]
+    //  - v_head_cache_ptr: [num_blocks, block_size * head_dim]
+    //  - logits_buffer: [MaxQHeadNumPerIteration, kv_tile_token_num], store Q@K
+    //  - logits partial_q_buffer: [MaxQHeadNumPerIteration, head_dim], store
+    //  partial output
+    //  - max_buffer: [MaxQHeadNumPerIteration, 1], store max logits
+    //  - sum_buffer: [MaxQHeadNumPerIteration, 1], store sum of exp
+    //  - block_table
+    //  - kv_tile_start_pos: start position of KV cache, aligned to
+    //  BlockSizeAlignment
+    //  - kv_tile_end_pos: end position of KV cache, aligned to
+    //  BlockSizeAlignment
+    //  - kv_tile_token_num: KV token num, aligned to BlockSizeAlignment
+    //  - kv_cache_num_blocks_stride
+    //  - q_head_num: head num of q_tile
+    //  - q_token_num: token num of q_tile, should be q_head_num /
+    //  q_heads_per_kv
+    //  - q_tile_start_pos: start pos of the first token in q_heads_buffer
+    //  - q_heads_per_kv
+    //  - block_size
+    //  - left_window_size
+    //  - right_window_size
+    //  - scale
+    //  - softcap_scale
+    //  - alibi_slopes
+    //  - is_first_iter
+    //  - use_sink
+    //  - debug_info
+    void operator()(DEFINE_CPU_ATTENTION_PARAMS) {
+      // k_cache_token_group_stride: stride of K cache when move to next
+      // BlockSizeAlignment tokens in a block
+      const int64_t k_cache_token_group_stride =
+          attention_impl_t::k_cache_token_group_stride(block_size);
+      // v_cache_token_group_stride: stride of V cache when move to next
+      // BlockSizeAlignment tokens in a block
+      const int64_t v_cache_token_group_stride =
+          attention_impl_t::v_cache_token_group_stride(block_size);
+      // v_cache_head_group_stride: stride of V cache when move to next
+      // HeadDimAlignment head dims in a block
+      const int64_t v_cache_head_group_stride =
+          attention_impl_t::v_cache_head_group_stride(block_size);
+      const int32_t token_group_num = kv_tile_token_num / blocksize_alignment;
+      const int32_t token_group_num_per_block =
+          block_size / blocksize_alignment;
+      const int32_t start_block_idx = kv_tile_start_pos / block_size;
+      const int32_t start_block_offset = kv_tile_start_pos % block_size;
+      const int32_t start_block_group_offset =
+          start_block_offset / blocksize_alignment;
+      const int32_t end_block_idx =
+          (kv_tile_start_pos + kv_tile_token_num - 1) / block_size + 1;
+
+      // compute Q@K logits
+      {
+        int32_t curr_group_offset =
+            start_block_group_offset * k_cache_token_group_stride;
+        int32_t curr_group_num_in_block =
+            token_group_num_per_block - start_block_group_offset;
+        int32_t remaining_group_num = token_group_num;
+        logits_buffer_t* curr_logits_buffer = logits_buffer;
+        for (int32_t block_idx = start_block_idx; block_idx < end_block_idx;
+             ++block_idx) {
+          int32_t physical_block_idx = block_table[block_idx];
+          kv_cache_t* k_cache_block_ptr =
+              k_head_cache_ptr +
+              physical_block_idx * kv_cache_num_blocks_stride +
+              curr_group_offset;
+          curr_group_num_in_block =
+              std::min(remaining_group_num, curr_group_num_in_block);
+
+          for (int32_t block_group_idx = 0;
+               block_group_idx < curr_group_num_in_block; ++block_group_idx) {
+            // logits_tile = q_tile @ k_tile, [MaxQHeadNumPerIteration,
+            // BlockSizeAlignment] = [MaxQHeadNumPerIteration, head_dim] @
+            // [head_dim, BlockSizeAlignment]
+
+            // By default, logits_buffer, q_buffer and k_cache are row-major,
+            // but may be packed by ISA implementation.
+            tile_gemm_t::template gemm<AttentionGemmPhase::QK, head_dim>(
+                q_head_num, q_heads_buffer, k_cache_block_ptr,
+                curr_logits_buffer, head_dim, block_size, kv_tile_token_num,
+                block_size, head_dim, false);
+
+            if constexpr (scale_on_logits) {
+              float* __restrict__ scale_curr_logits_buffer = curr_logits_buffer;
+              vec_op::FP32Vec16 scale_vec(scale);
+              for (int32_t i = 0; i < q_head_num; ++i) {
+                static_assert(blocksize_alignment % 16 == 0);
+                constexpr int32_t vec_num = blocksize_alignment / 16;
+                vec_op::unroll_loop<int32_t, vec_num>([&](int32_t vec_idx) {
+                  vec_op::FP32Vec16 vec(scale_curr_logits_buffer +
+                                        vec_idx * 16);
+                  vec = vec * scale_vec;
+                  vec.save(scale_curr_logits_buffer + vec_idx * 16);
+                });
+                scale_curr_logits_buffer += kv_tile_token_num;
+              }
+            }
+
+            // Move buffer ptrs
+            k_cache_block_ptr += k_cache_token_group_stride;
+            curr_logits_buffer += blocksize_alignment;
+          }
+
+          // Update
+          remaining_group_num -= curr_group_num_in_block;
+          curr_group_offset = 0;
+          curr_group_num_in_block = token_group_num_per_block;
+        }
+      }
+
+      // process logits
+      {
+        // if (debug_info){
+        //     print_logits("raw logits", logits_buffer, q_head_num,
+        //     kv_tile_token_num, kv_tile_token_num);
+        // }
+
+        if (softcap_scale != 0.0f) {
+          apply_softcap(logits_buffer, kv_tile_token_num, q_head_num,
+                        kv_tile_token_num, softcap_scale);
+          // print_logits("softcap raw logits", logits_buffer, q_head_num,
+          // kv_tile_token_num, kv_tile_token_num);
+        }
+
+        if (alibi_slopes != nullptr) {
+          apply_alibi_slopes(logits_buffer, alibi_slopes, kv_tile_token_num,
+                             q_tile_start_pos, kv_tile_start_pos, q_token_num,
+                             kv_tile_token_num, q_heads_per_kv);
+
+          // print_logits("alibi raw logits", logits_buffer, q_head_num,
+          // kv_tile_token_num, kv_tile_token_num);
+        }
+
+        apply_mask(logits_buffer, kv_tile_token_num, q_tile_start_pos,
+                   kv_tile_start_pos, kv_tile_end_pos, q_token_num,
+                   q_heads_per_kv, left_window_size, right_window_size);
+
+        // if (debug_info){
+        // print_logits("masked logits", logits_buffer, q_head_num,
+        // kv_tile_token_num, kv_tile_token_num);
+        // print_logits("old_max", max_buffer, 1, q_head_num, q_head_num);
+        // print_logits("old_sum", sum_buffer, 1, q_head_num, q_head_num);
+        // }
+
+        apply_softmax(logits_buffer, partial_q_buffer, max_buffer, sum_buffer,
+                      kv_tile_token_num, q_head_num, kv_tile_token_num,
+                      is_first_iter, use_sink);
+
+        // if (debug_info){
+        //     print_logits("softmax logits",
+        //     reinterpret_cast<prob_buffer_t*>(logits_buffer), q_head_num,
+        //     kv_tile_token_num, kv_tile_token_num * sizeof(logits_buffer_t) /
+        //     sizeof(prob_buffer_t));
+        //     print_logits("new_max", max_buffer, 1, q_head_num, q_head_num);
+        //     print_logits("new_sum", sum_buffer, 1, q_head_num, q_head_num);
+        // }
+      }
+
+      // compute P@V
+      {
+        int32_t curr_group_offset =
+            start_block_group_offset * v_cache_token_group_stride;
+        int32_t curr_group_num_in_block =
+            token_group_num_per_block - start_block_group_offset;
+        int32_t remaining_group_num = token_group_num;
+        int32_t head_dim_group_num = head_dim / headdim_alignment;
+        prob_buffer_t* curr_prob_buffer =
+            reinterpret_cast<prob_buffer_t*>(logits_buffer);
+        int64_t prob_buffer_stride =
+            kv_tile_token_num *
+            (sizeof(logits_buffer_t) / sizeof(prob_buffer_t));
+        partial_output_buffer_t* curr_partial_q_buffer = partial_q_buffer;
+        bool accum_c = !is_first_iter;
+        for (int32_t block_idx = start_block_idx; block_idx < end_block_idx;
+             ++block_idx) {
+          int32_t physical_block_idx = block_table[block_idx];
+          kv_cache_t* v_cache_block_ptr =
+              v_head_cache_ptr +
+              physical_block_idx * kv_cache_num_blocks_stride +
+              curr_group_offset;
+          curr_group_num_in_block =
+              std::min(remaining_group_num, curr_group_num_in_block);
+          int32_t curr_token_num =
+              curr_group_num_in_block * blocksize_alignment;
+
+          for (int32_t head_dim_group_idx = 0;
+               head_dim_group_idx < head_dim_group_num; ++head_dim_group_idx) {
+            // output_tile = p_tile @ v_tile, [MaxQHeadNumPerIteration,
+            // HeadDimAlignment] = [MaxQHeadNumPerIteration, block_size] @
+            // [block_size, HeadDimAlignment]
+            tile_gemm_t::template gemm<AttentionGemmPhase::PV, -1>(
+                q_head_num, curr_prob_buffer, v_cache_block_ptr,
+                curr_partial_q_buffer, prob_buffer_stride, head_dim, head_dim,
+                block_size, curr_token_num, accum_c);
+
+            // Update
+            curr_partial_q_buffer += headdim_alignment;
+            v_cache_block_ptr += v_cache_head_group_stride;
+          }
+
+          // Update
+          remaining_group_num -= curr_group_num_in_block;
+          curr_group_offset = 0;
+          curr_group_num_in_block = token_group_num_per_block;
+          curr_prob_buffer += curr_token_num;
+          curr_partial_q_buffer = partial_q_buffer;
+          accum_c = true;
+        }
+      }
+      //   if (debug_info) {
+      //     print_logits("output", partial_q_buffer, q_head_num, head_dim,
+      //     head_dim);
+      //   }
+    }
+
+    void apply_mask(logits_buffer_t* __restrict__ logits_buffer,
+                    const int64_t logits_buffer_stride,
+                    const int32_t q_tile_start_pos,
+                    const int32_t kv_tile_start_pos,
+                    const int32_t kv_tile_end_pos, const int32_t q_token_num,
+                    const int32_t q_heads_per_kv,
+                    const int32_t sliding_window_left,
+                    const int32_t sliding_window_right) {
+      // Apply mask
+      constexpr logits_buffer_t neg_inf =
+          -std::numeric_limits<logits_buffer_t>::infinity();
+      logits_buffer_t* __restrict__ curr_logits_buffer = logits_buffer;
+      int32_t curr_token_pos = q_tile_start_pos;
+      for (int32_t token_idx = 0; token_idx < q_token_num; ++token_idx) {
+        int32_t left_kv_pos = [&]() {
+          int32_t pos = kv_tile_start_pos;
+          if (sliding_window_left != -1) {
+            pos = std::max(pos, curr_token_pos - sliding_window_left);
+          }
+          return pos;
+        }();
+
+        int32_t right_kv_pos = [&]() {
+          int32_t pos = kv_tile_end_pos;
+          if (sliding_window_right != -1) {
+            pos = std::min(pos,
+                           std::max(kv_tile_start_pos,
+                                    curr_token_pos + sliding_window_right + 1));
+          }
+          return pos;
+        }();
+
+        int32_t left_invalid_token_num = left_kv_pos - kv_tile_start_pos;
+        int32_t right_invalid_token_num = kv_tile_end_pos - right_kv_pos;
+        for (int32_t head_idx = 0; head_idx < q_heads_per_kv; ++head_idx) {
+          logits_buffer_t* __restrict__ curr_logits_buffer_tail =
+              curr_logits_buffer + right_kv_pos - kv_tile_start_pos;
+          for (int32_t i = 0; i < left_invalid_token_num; ++i) {
+            curr_logits_buffer[i] = neg_inf;
+          }
+          for (int32_t i = 0; i < right_invalid_token_num; ++i) {
+            curr_logits_buffer_tail[i] = neg_inf;
+          }
+
+          curr_logits_buffer += logits_buffer_stride;
+        }
+
+        ++curr_token_pos;
+      }
+    }
+
+    void apply_softmax(logits_buffer_t* __restrict__ logits_buffer,
+                       float* __restrict__ partial_q_buffer,
+                       float* __restrict__ max_buffer,
+                       float* __restrict__ sum_buffer,
+                       const int64_t logits_buffer_stride, int32_t q_head_num,
+                       int32_t kv_tile_token_num, bool is_first_iter,
+                       bool use_sink) {
+#ifdef DEFINE_FAST_EXP
+      DEFINE_FAST_EXP
+#endif
+      using prob_buffer_vec_t = typename VecTypeTrait<prob_buffer_t>::vec_t;
+      static_assert(sizeof(prob_buffer_t) <= sizeof(logits_buffer_t));
+
+      logits_buffer_t* __restrict__ curr_logits_buffer = logits_buffer;
+      float* __restrict__ curr_partial_q_buffer = partial_q_buffer;
+      const int32_t vec_num = kv_tile_token_num / 16;
+      const int32_t head_vec_num = head_dim / 16;
+      for (int32_t i = 0; i < q_head_num; ++i) {
+        float init_max_val = max_buffer[i];
+        float init_sum_val = sum_buffer[i];
+
+        // apply scale and compute max
+        vec_op::FP32Vec16 max_vec(init_max_val);
+        {
+          logits_buffer_t* __restrict__ curr_logits_buffer_iter =
+              curr_logits_buffer;
+          for (int32_t j = 0; j < vec_num; ++j) {
+            vec_op::FP32Vec16 vec(curr_logits_buffer_iter);
+            max_vec = vec.max(max_vec);
+
+            curr_logits_buffer_iter += 16;
+          }
+        }
+        float new_max_val = max_vec.reduce_max();
+        float rescale_factor = init_max_val - new_max_val;
+
+        // use same rescale threshold with FA4.
+        // https://github.com/Dao-AILab/flash-attention/blob/1b8e1e641c6a179be9a0538b7f40fd595050b735/flash_attn/cute/flash_fwd_sm100.py#L1271
+        bool need_rescale = rescale_factor < -8.0;
+        if (!need_rescale) {
+          new_max_val = init_max_val;
+        } else {
+          max_buffer[i] = new_max_val;
+        }
+
+        // sub max, compute exp and sum
+        max_vec = vec_op::FP32Vec16(new_max_val);
+        vec_op::FP32Vec16 sum_vec(0.0);
+        {
+          logits_buffer_t* __restrict__ curr_logits_buffer_iter =
+              curr_logits_buffer;
+          prob_buffer_t* __restrict__ curr_prob_buffer_iter =
+              reinterpret_cast<prob_buffer_t*>(curr_logits_buffer);
+          for (int32_t j = 0; j < vec_num; ++j) {
+            vec_op::FP32Vec16 vec(curr_logits_buffer_iter);
+            vec = vec - max_vec;
+
+            // compute exp
+#ifdef DEFINE_FAST_EXP
+            vec = fast_exp(vec);
+            prob_buffer_vec_t output_vec(vec);
+            output_vec.save(curr_prob_buffer_iter);
+#else
+            vec.save(curr_logits_buffer_iter);
+            for (int32_t k = 0; k < 16; ++k) {
+              curr_logits_buffer_iter[k] = std::exp(curr_logits_buffer_iter[k]);
+            }
+            vec = vec_op::FP32Vec16(curr_logits_buffer_iter);
+#endif
+
+            sum_vec = sum_vec + vec;
+
+            curr_logits_buffer_iter += 16;
+            curr_prob_buffer_iter += 16;
+          }
+        }
+        float new_sum_val = sum_vec.reduce_sum();
+
+        // rescale sum and partial outputs
+        if (need_rescale) {
+          // compute rescale factor
+#ifdef DEFINE_FAST_EXP
+          vec_op::FP32Vec16 rescale_factor_vec(rescale_factor);
+          rescale_factor_vec = fast_exp(rescale_factor_vec);
+          rescale_factor = rescale_factor_vec.get_last_elem();
+#else
+          rescale_factor = std::exp(rescale_factor);
+          vec_op::FP32Vec16 rescale_factor_vec(rescale_factor);
+#endif
+
+          // rescale sum
+          new_sum_val += rescale_factor * init_sum_val;
+
+          // rescale output
+          if (!is_first_iter) {
+            float* __restrict__ curr_partial_q_buffer_iter =
+                curr_partial_q_buffer;
+            for (int32_t j = 0; j < head_vec_num; ++j) {
+              vec_op::FP32Vec16 vec(curr_partial_q_buffer_iter);
+              vec = vec * rescale_factor_vec;
+              vec.save(curr_partial_q_buffer_iter);
+
+              curr_partial_q_buffer_iter += 16;
+            }
+          }
+        } else {
+          new_sum_val += init_sum_val;
+        }
+
+        sum_buffer[i] = new_sum_val;
+
+        curr_logits_buffer += logits_buffer_stride;
+        curr_partial_q_buffer += head_dim;
+      }
+    }
+
+    void apply_softcap(logits_buffer_t* __restrict__ logits_buffer,
+                       const int64_t logits_buffer_stride, int32_t q_head_num,
+                       int32_t kv_tile_token_num, float softcap_scale) {
+#ifdef DEFINE_FAST_EXP
+      DEFINE_FAST_EXP
+#endif
+      float inv_softcap_scale = 1.0 / softcap_scale;
+      vec_op::FP32Vec16 softcap_scale_vec(softcap_scale);
+      vec_op::FP32Vec16 inv_softcap_scale_vec(inv_softcap_scale);
+      vec_op::FP32Vec16 ones_vec(1.0);
+      logits_buffer_t* __restrict__ curr_logits_buffer = logits_buffer;
+      const int32_t vec_num = kv_tile_token_num / 16;
+      for (int32_t i = 0; i < q_head_num; ++i) {
+        logits_buffer_t* __restrict__ curr_logits_buffer_iter =
+            curr_logits_buffer;
+        for (int32_t j = 0; j < vec_num; ++j) {
+          vec_op::FP32Vec16 vec(curr_logits_buffer_iter);
+          vec = vec * inv_softcap_scale_vec;
+
+#ifdef DEFINE_FAST_EXP
+          vec = fast_exp(vec);
+          vec_op::FP32Vec16 inv_vec = ones_vec / vec;
+          vec = (vec - inv_vec) / (vec + inv_vec);
+#else
+          vec.save(curr_logits_buffer_iter);
+          for (int k = 0; k < 16; ++k) {
+            curr_logits_buffer_iter[k] = std::tanh(curr_logits_buffer_iter[k]);
+          }
+          vec = vec_op::FP32Vec16(curr_logits_buffer_iter);
+#endif
+          vec = vec * softcap_scale_vec;
+          vec.save(curr_logits_buffer_iter);
+
+          curr_logits_buffer_iter += 16;
+        }
+
+        curr_logits_buffer += logits_buffer_stride;
+      }
+    }
+
+    void apply_alibi_slopes(logits_buffer_t* __restrict__ logits_buffer,
+                            const float* __restrict__ alibi_slopes,
+                            const int64_t logits_buffer_stride,
+                            const int32_t q_tile_start_pos,
+                            const int32_t kv_tile_start_pos,
+                            const int32_t q_token_num,
+                            const int32_t kv_tile_token_num,
+                            const int32_t q_heads_per_kv) {
+      alignas(64) constexpr float initial_arange_vals[16] = {
+          0.0f, 1.0f, 2.0f,  3.0f,  4.0f,  5.0f,  6.0f,  7.0f,
+          8.0f, 9.0f, 10.0f, 11.0f, 12.0f, 13.0f, 14.0f, 15.0f};
+      const int32_t vec_num = kv_tile_token_num / 16;
+
+      vec_op::FP32Vec16 initial_arange_vals_vec(initial_arange_vals);
+      initial_arange_vals_vec =
+          initial_arange_vals_vec + vec_op::FP32Vec16((float)kv_tile_start_pos);
+      vec_op::FP32Vec16 pos_offset_vec(16.0);
+      logits_buffer_t* __restrict__ curr_logits_buffer = logits_buffer;
+      for (int32_t i = 0; i < q_token_num; ++i) {
+        vec_op::FP32Vec16 curr_q_pos_vec((float)(i + q_tile_start_pos));
+        for (int32_t j = 0; j < q_heads_per_kv; ++j) {
+          vec_op::FP32Vec16 alibi_scale_vec(alibi_slopes[j]);
+          vec_op::FP32Vec16 curr_kv_pos_vec(initial_arange_vals_vec);
+          logits_buffer_t* __restrict__ curr_logits_buffer_iter =
+              curr_logits_buffer;
+          for (int32_t k = 0; k < vec_num; ++k) {
+            vec_op::FP32Vec16 alibi_bias_vec =
+                alibi_scale_vec * (curr_kv_pos_vec - curr_q_pos_vec);
+            vec_op::FP32Vec16 vec(curr_logits_buffer_iter);
+            vec = vec + alibi_bias_vec;
+
+            vec.save(curr_logits_buffer_iter);
+
+            curr_kv_pos_vec = curr_kv_pos_vec + pos_offset_vec;
+            curr_logits_buffer_iter += 16;
+          }
+          curr_logits_buffer += logits_buffer_stride;
+        }
+      }
+    }
+  };
+
+ public:
+  void operator()(const AttentionInput* input) {
+    const int thread_num = omp_get_max_threads();
+    TORCH_CHECK_EQ(input->metadata->thread_num, thread_num);
+    std::atomic<int32_t> guard_counter(0);
+    std::atomic<int32_t>* guard_counter_ptr = &guard_counter;
+
+#pragma omp parallel for schedule(static, 1)
+    for (int thread_id = 0; thread_id < thread_num; ++thread_id) {
+      AttentionMetadata& metadata = *input->metadata;
+      if (metadata.workitem_group_num == 0) {
+        continue;
+      }
+
+      attention_impl_t attn_impl;
+
+      // general information
+      const int32_t q_head_num = input->num_heads;
+      const int32_t kv_head_num = input->num_kv_heads;
+      const int32_t q_heads_per_kv = q_head_num / kv_head_num;
+      const bool use_gqa =
+          (max_q_head_num_per_iter % q_heads_per_kv == 0) ? true : false;
+      const int32_t actual_kv_head_num = use_gqa ? kv_head_num : q_head_num;
+      const int32_t actual_q_heads_per_kv = use_gqa ? q_heads_per_kv : 1;
+      TORCH_CHECK_LE(actual_q_heads_per_kv, max_q_head_num_per_iter);
+      const int32_t max_q_token_num_per_iter =
+          max_q_head_num_per_iter / actual_q_heads_per_kv;
+      const int64_t q_token_num_stride = input->query_num_tokens_stride;
+      const int64_t q_head_num_stride = input->query_num_heads_stride;
+      const int64_t kv_cache_head_num_stride = input->cache_num_kv_heads_stride;
+      const int64_t kv_cache_block_num_stride = input->cache_num_blocks_stride;
+      const int32_t sliding_window_left = input->sliding_window_left;
+      const int32_t sliding_window_right = input->sliding_window_right;
+      const int32_t block_size = input->block_size;
+      const float scale = input->scale;
+      const float softcap_scale = input->softcap;
+      const float* alibi_slopes = input->alibi_slopes;
+      const c10::BFloat16* s_aux = input->s_aux;
+
+      const bool casual = input->causal;
+      int32_t* const block_table = input->block_table;
+      const int64_t block_table_stride = input->blt_num_tokens_stride;
+
+      // init buffers
+      void* scratchpad_ptr =
+          DNNLScratchPadManager::get_dnnl_scratchpad_manager()
+              ->get_data<void>();
+      AttentionScratchPad buffer_manager(thread_id, metadata, scratchpad_ptr);
+
+      const int32_t total_reduction_split_num = metadata.reduction_split_num;
+      if (metadata.reduction_split_num > 0) {
+        // reset split flag
+        for (int32_t head_idx = thread_id; head_idx < actual_kv_head_num;
+             head_idx += thread_num) {
+          buffer_manager.update(head_idx, total_reduction_split_num, head_dim,
+                                0, sizeof(partial_output_buffer_t));
+          volatile bool* __restrict__ curr_flag_ptr =
+              buffer_manager.get_reduce_flag_buffer();
+          for (int32_t split_idx = 0; split_idx < total_reduction_split_num;
+               ++split_idx) {
+            curr_flag_ptr[split_idx] = false;
+          }
+        }
+      }
+
+      const int64_t available_cache_size =
+          AttentionScheduler::get_available_l2_size();
+      const int32_t default_tile_size =
+          AttentionScheduler::calcu_default_tile_size(
+              available_cache_size, head_dim, sizeof(kv_cache_t),
+              sizeof(q_buffer_t), sizeof(logits_buffer_t),
+              sizeof(partial_output_buffer_t), max_q_head_num_per_iter,
+              max_q_head_num_per_iter);
+      const int32_t default_q_tile_token_num =
+          default_tile_size / actual_q_heads_per_kv;
+
+      AttentionWorkItemGroup* const workitem_groups =
+          metadata.workitem_groups_ptr;
+      const int32_t* cu_workitem_num_per_thread =
+          metadata.cu_workitem_num_per_thread;
+      ReductionWorkItemGroup* const reduction_items =
+          metadata.reduction_items_ptr;
+
+      const int32_t effective_thread_num = metadata.effective_thread_num;
+      const int32_t reduction_item_num = metadata.reduction_item_num;
+      const int32_t split_kv_q_token_num_threshold =
+          metadata.split_kv_q_token_num_threshold;
+      const int32_t workitem_groups_counter_num =
+          actual_kv_head_num * effective_thread_num;
+      const int32_t reduction_items_counter_num =
+          actual_kv_head_num * reduction_item_num;
+      const int32_t total_counter_num =
+          workitem_groups_counter_num + reduction_items_counter_num;
+
+      if (metadata.reduction_split_num > 0) {
+        ++(*guard_counter_ptr);
+        while (guard_counter_ptr->load() != thread_num) {
+#ifdef FAST_SPINNING
+          FAST_SPINNING
+#else
+          std::this_thread::yield();
+#endif
+        }
+      }
+
+      // main loop
+      for (;;) {
+        int64_t task_idx = metadata.acquire_counter();
+
+        if (task_idx >= total_counter_num) {
+          // no more tasks, leave loop
+          break;
+        }
+
+        if (task_idx < workitem_groups_counter_num) {
+          // attention task
+          // map task_idx to workitem_groups
+          const int32_t kv_head_idx = task_idx / effective_thread_num;
+          const int32_t thread_offset = task_idx % effective_thread_num;
+          AttentionWorkItemGroup* const curr_workitem_groups =
+              workitem_groups + cu_workitem_num_per_thread[thread_offset];
+          const int32_t curr_workitem_groups_num =
+              cu_workitem_num_per_thread[thread_offset + 1] -
+              cu_workitem_num_per_thread[thread_offset];
+
+          const int32_t q_head_start_idx = kv_head_idx * actual_q_heads_per_kv;
+
+          for (int32_t workitem_group_idx = 0;
+               workitem_group_idx < curr_workitem_groups_num;
+               ++workitem_group_idx) {
+            AttentionWorkItemGroup* const current_workitem_group =
+                &curr_workitem_groups[workitem_group_idx];
+
+            const int32_t current_group_idx = current_workitem_group->req_id;
+            const int32_t kv_start_pos =
+                current_workitem_group->kv_split_pos_start;
+            const int32_t kv_end_pos = current_workitem_group->kv_split_pos_end;
+            const int32_t curr_spilt_id = current_workitem_group->split_id;
+            const int32_t q_token_id_start =
+                current_workitem_group->q_token_id_start;
+            const int32_t q_token_num = current_workitem_group->q_token_num;
+
+            // taskgroup general information
+            const int32_t q_end = input->query_start_loc[current_group_idx + 1];
+            const int32_t q_start = input->query_start_loc[current_group_idx];
+            const int32_t seq_len = input->seq_lens[current_group_idx];
+            const int32_t q_start_pos =
+                (casual ? seq_len - (q_end - q_start) : 0);
+            const int32_t block_num = (seq_len + block_size - 1) / block_size;
+            // Only apply sink for the first KV split
+            bool use_sink = (s_aux != nullptr &&
+                             current_workitem_group->local_split_id == 0);
+
+            for (int32_t q_token_offset = 0; q_token_offset < q_token_num;
+                 q_token_offset += default_q_tile_token_num) {
+              bool first_iter_flag[AttentionScheduler::MaxQTileIterNum];
+              for (int32_t i = 0; i < AttentionScheduler::MaxQTileIterNum;
+                   ++i) {
+                first_iter_flag[i] = true;
+              }
+
+              const int32_t q_token_start_idx =
+                  q_start + q_token_offset + q_token_id_start;
+              const int32_t actual_q_token_num = std::min(
+                  default_q_tile_token_num, q_token_num - q_token_offset);
+              const int32_t q_head_tile_size =
+                  actual_q_token_num * actual_q_heads_per_kv;
+              const int32_t rounded_q_head_tile_size =
+                  ((q_head_tile_size + max_q_head_num_per_iter - 1) /
+                   max_q_head_num_per_iter) *
+                  max_q_head_num_per_iter;
+              const int32_t kv_tile_size =
+                  AttentionScheduler::calcu_tile_size_with_constant_q(
+                      available_cache_size, head_dim, sizeof(kv_cache_t),
+                      sizeof(q_buffer_t), sizeof(logits_buffer_t),
+                      sizeof(partial_output_buffer_t), max_q_head_num_per_iter,
+                      blocksize_alignment, rounded_q_head_tile_size,
+                      rounded_q_head_tile_size <= max_q_head_num_per_iter);
+
+              // update buffers
+              buffer_manager.update(
+                  head_dim, sizeof(q_buffer_t), sizeof(logits_buffer_t),
+                  sizeof(partial_output_buffer_t), max_q_head_num_per_iter,
+                  rounded_q_head_tile_size, kv_tile_size);
+              q_buffer_t* q_buffer = buffer_manager.get_q_buffer<q_buffer_t>();
+              float* logits_buffer = buffer_manager.get_logits_buffer();
+              float* partial_q_buffer = buffer_manager.get_output_buffer();
+              float* max_buffer = buffer_manager.get_max_buffer();
+              float* sum_buffer = buffer_manager.get_sum_buffer();
+
+              const int32_t q_tile_start_pos =
+                  q_start_pos + q_token_offset + q_token_id_start;
+              const int32_t q_tile_end_pos =
+                  q_tile_start_pos + actual_q_token_num;
+              const auto [kv_tile_start_pos, kv_tile_end_pos] =
+                  AttentionScheduler::calcu_kv_tile_pos(
+                      kv_start_pos, kv_end_pos, q_tile_start_pos,
+                      q_tile_end_pos, sliding_window_left,
+                      sliding_window_right);
+              const auto [rounded_kv_tile_start_pos, rounded_kv_tile_end_pos] =
+                  AttentionScheduler::align_kv_tile_pos(
+                      kv_tile_start_pos, kv_tile_end_pos, blocksize_alignment);
+
+              int32_t curr_kv_head_idx =
+                  use_gqa ? kv_head_idx
+                          : (kv_head_idx /
+                             q_heads_per_kv);  // for GQA disabled case
+
+              // std::printf("thread_id: %d, req_id: %d, q_token_start: %d,
+              // q_token_end: %d, q_head_start: %d, q_head_end: %d, kv_head_idx:
+              // %d, kv_pos_start: %d, kv_pos_end: %d\n",
+              //                 thread_id, current_group_idx,
+              //                 q_token_start_idx, q_token_start_idx +
+              //                 actual_q_token_num, q_head_start_idx,
+              //                 q_head_start_idx + actual_q_heads_per_kv,
+              //                 curr_kv_head_idx, kv_tile_start_pos,
+              //                 kv_tile_end_pos);
+
+              // move buffers
+              kv_cache_t* curr_k_cache =
+                  reinterpret_cast<kv_cache_t*>(input->key_cache) +
+                  curr_kv_head_idx * kv_cache_head_num_stride;
+              kv_cache_t* curr_v_cache =
+                  reinterpret_cast<kv_cache_t*>(input->value_cache) +
+                  curr_kv_head_idx * kv_cache_head_num_stride;
+              query_t* const q_tile_ptr =
+                  reinterpret_cast<query_t*>(input->query) +
+                  q_token_start_idx * q_token_num_stride +
+                  q_head_start_idx * q_head_num_stride;
+              size_t output_buffer_offset =
+                  q_token_start_idx * q_head_num * head_dim +
+                  q_head_start_idx * head_dim;
+              int32_t* curr_block_table =
+                  block_table + current_group_idx * block_table_stride;
+              const float* curr_alibi_slopes =
+                  (alibi_slopes != nullptr ? alibi_slopes + q_head_start_idx
+                                           : nullptr);
+              const c10::BFloat16* curr_s_aux =
+                  (s_aux != nullptr ? s_aux + q_head_start_idx : nullptr);
+
+              // copy the Q tile to q_buffer, the logical layout of q_buffer is
+              // [actual_q_token_num, actual_q_heads_per_kv, head_dim]
+              {
+                attn_impl.copy_q_heads_tile(
+                    q_tile_ptr, q_buffer, actual_q_token_num,
+                    actual_q_heads_per_kv, q_token_num_stride,
+                    q_head_num_stride, scale);
+              }
+
+              if (use_sink) {
+                alignas(64) float s_aux_fp32[16];
+                vec_op::BF16Vec16 vec_bf16(curr_s_aux);
+                vec_op::FP32Vec16 vec_fp32(vec_bf16);
+                vec_fp32.save(s_aux_fp32);
+
+                float* __restrict__ curr_sum_buffer = sum_buffer;
+                float* __restrict__ curr_max_buffer = max_buffer;
+                for (int32_t token_idx = 0; token_idx < actual_q_token_num;
+                     ++token_idx) {
+                  for (int32_t head_idx = 0; head_idx < actual_q_heads_per_kv;
+                       ++head_idx) {
+                    curr_sum_buffer[head_idx] = 1.0f;
+                    curr_max_buffer[head_idx] = s_aux_fp32[head_idx];
+                  }
+
+                  curr_sum_buffer += actual_q_heads_per_kv;
+                  curr_max_buffer += actual_q_heads_per_kv;
+                }
+              } else {
+                float* __restrict__ curr_sum_buffer = sum_buffer;
+                float* __restrict__ curr_max_buffer = max_buffer;
+                for (int32_t token_idx = 0; token_idx < actual_q_token_num;
+                     ++token_idx) {
+                  for (int32_t head_idx = 0; head_idx < actual_q_heads_per_kv;
+                       ++head_idx) {
+                    curr_sum_buffer[head_idx] = 0.0f;
+                    curr_max_buffer[head_idx] =
+                        std::numeric_limits<float>::lowest();
+                  }
+
+                  curr_sum_buffer += actual_q_heads_per_kv;
+                  curr_max_buffer += actual_q_heads_per_kv;
+                }
+              }
+
+              // compute loop
+              for (int32_t kv_tile_pos = rounded_kv_tile_start_pos;
+                   kv_tile_pos < rounded_kv_tile_end_pos;
+                   kv_tile_pos += kv_tile_size) {
+                const int32_t kv_tile_pos_left = kv_tile_pos;
+                const int32_t kv_tile_pos_right = std::min(
+                    kv_tile_pos_left + kv_tile_size, rounded_kv_tile_end_pos);
+                for (int32_t q_head_tile_token_offset = 0;
+                     q_head_tile_token_offset < actual_q_token_num;
+                     q_head_tile_token_offset += max_q_token_num_per_iter) {
+                  const int32_t q_tile_pos_left =
+                      q_tile_start_pos + q_head_tile_token_offset;
+                  const int32_t q_tile_token_num =
+                      std::min(max_q_token_num_per_iter,
+                               actual_q_token_num - q_head_tile_token_offset);
+                  const int32_t q_tile_head_offset =
+                      q_head_tile_token_offset * actual_q_heads_per_kv;
+                  const int32_t q_tile_head_num =
+                      q_tile_token_num * actual_q_heads_per_kv;
+                  const int32_t q_tile_pos_right =
+                      q_tile_pos_left + q_tile_token_num;
+                  const auto [actual_kv_tile_pos_left,
+                              actual_kv_tile_pos_right] =
+                      AttentionScheduler::calcu_kv_tile_pos(
+                          kv_tile_pos_left, kv_tile_pos_right, q_tile_pos_left,
+                          q_tile_pos_right, sliding_window_left,
+                          sliding_window_right);
+                  const int32_t q_iter_idx =
+                      q_head_tile_token_offset / max_q_token_num_per_iter;
+
+                  if (actual_kv_tile_pos_right <= actual_kv_tile_pos_left) {
+                    continue;
+                  }
+
+                  // align kv_pos to blocksize_alignment
+                  const auto [aligned_actual_kv_tile_pos_left,
+                              aligned_actual_kv_tile_pos_right] =
+                      AttentionScheduler::align_kv_tile_pos(
+                          actual_kv_tile_pos_left, actual_kv_tile_pos_right,
+                          blocksize_alignment);
+                  const int32_t actual_kv_token_num =
+                      aligned_actual_kv_tile_pos_right -
+                      aligned_actual_kv_tile_pos_left;
+
+                  //   std::printf("\tq_iter_idx: %d, q_token_start: %d,
+                  //   q_token_end: %d, q_token_num: %d, q_head_num: %d,
+                  //   q_pos_start: %d, q_pos_end: %d, kv_pos_start: %d,
+                  //   kv_pos_end: %d\n",
+                  //             q_iter_idx, q_token_start_idx +
+                  //             q_head_tile_token_offset,  q_token_start_idx +
+                  //             q_head_tile_token_offset + q_tile_token_num,
+                  //             q_tile_token_num, q_tile_head_num,
+                  //             q_tile_pos_left, q_tile_pos_right,
+                  //             aligned_actual_kv_tile_pos_left,
+                  //             aligned_actual_kv_tile_pos_right);
+
+                  // Move buffers
+                  q_buffer_t* curr_q_heads_buffer =
+                      q_buffer + q_tile_head_offset * head_dim;
+                  float* curr_partial_q_buffer =
+                      partial_q_buffer + q_tile_head_offset * head_dim;
+                  float* curr_max_buffer = max_buffer + q_tile_head_offset;
+                  float* curr_sum_buffer = sum_buffer + q_tile_head_offset;
+
+                  bool debug_info = false;
+                  //   bool debug_info = (
+                  //     q_head_start_idx == 4 &&
+                  //     (q_token_start_idx + q_head_tile_token_offset) <=
+                  //     4
+                  //     && (q_token_start_idx + q_head_tile_token_offset +
+                  //     q_tile_token_num) > 4
+                  //   );
+                  // if (debug_info) {
+                  //   std::printf("\tq_iter_idx: %d, q_token_start: %d,"
+                  //   "q_token_end: %d, q_token_num: %d, q_head_num: %d,"
+                  //   "q_pos_start: %d, q_pos_end: %d, kv_pos_start: %d,"
+                  //   "kv_pos_end: %d\n",
+                  //             q_iter_idx, q_token_start_idx +
+                  //             q_head_tile_token_offset,  q_token_start_idx
+                  //             + q_head_tile_token_offset +
+                  //             q_tile_token_num, q_tile_token_num,
+                  //             q_tile_head_num, q_tile_pos_left,
+                  //             q_tile_pos_right,
+                  //             aligned_actual_kv_tile_pos_left,
+                  //             aligned_actual_kv_tile_pos_right);
+                  // }
+
+                  attn_impl.template execute_attention<Attention>(
+                      curr_q_heads_buffer, curr_k_cache, curr_v_cache,
+                      logits_buffer, curr_partial_q_buffer, curr_max_buffer,
+                      curr_sum_buffer, curr_block_table,
+                      aligned_actual_kv_tile_pos_left,
+                      aligned_actual_kv_tile_pos_right, actual_kv_token_num,
+                      kv_cache_block_num_stride, q_tile_head_num,
+                      q_tile_token_num, q_tile_pos_left, actual_q_heads_per_kv,
+                      block_size, sliding_window_left, sliding_window_right,
+                      scale, softcap_scale, curr_alibi_slopes,
+                      first_iter_flag[q_iter_idx], use_sink, debug_info);
+                  first_iter_flag[q_iter_idx] = false;
+                }
+              }
+
+              // write back partial results to output buffer or reduction buffer
+              {
+                if (curr_spilt_id == -1) {
+                  final_output(partial_q_buffer,
+                               reinterpret_cast<query_t*>(input->output) +
+                                   output_buffer_offset,
+                               sum_buffer, actual_q_heads_per_kv,
+                               actual_q_token_num, q_head_num);
+                } else {
+                  const int32_t stride =
+                      actual_q_heads_per_kv * split_kv_q_token_num_threshold;
+                  buffer_manager.update(kv_head_idx, total_reduction_split_num,
+                                        head_dim, stride, sizeof(float));
+                  volatile bool* split_flag_buffer =
+                      buffer_manager.get_reduce_flag_buffer() + curr_spilt_id;
+                  float* split_output_buffer =
+                      buffer_manager.get_reduce_output_buffer() +
+                      curr_spilt_id * stride * head_dim;
+                  float* split_max_buffer =
+                      buffer_manager.get_reduce_max_buffer() +
+                      curr_spilt_id * stride;
+                  float* split_sum_buffer =
+                      buffer_manager.get_reduce_sum_buffer() +
+                      curr_spilt_id * stride;
+
+                  partial_output(partial_q_buffer, max_buffer, sum_buffer,
+                                 q_head_tile_size, split_output_buffer,
+                                 split_max_buffer, split_sum_buffer,
+                                 split_flag_buffer);
+                }
+              }
+            }
+          }
+        } else {
+          task_idx -= workitem_groups_counter_num;
+          const int32_t kv_head_idx = task_idx / reduction_item_num;
+          const int32_t item_offset = task_idx % reduction_item_num;
+          ReductionWorkItemGroup* const curr_workitem_groups =
+              reduction_items + item_offset;
+          const int32_t curr_output_token_idx =
+              curr_workitem_groups->q_token_id_start;
+          const int32_t curr_output_token_num =
+              curr_workitem_groups->q_token_id_num;
+          const int32_t curr_split_id = curr_workitem_groups->split_start_id;
+          const int32_t curr_split_num = curr_workitem_groups->split_num;
+          const int32_t current_group_idx = curr_workitem_groups->req_id;
+          const int32_t curr_output_head_num =
+              curr_output_token_num * actual_q_heads_per_kv;
+
+          const int32_t q_start = input->query_start_loc[current_group_idx];
+          const int32_t q_token_start_idx = q_start + curr_output_token_idx;
+          const int32_t q_head_start_idx = kv_head_idx * actual_q_heads_per_kv;
+          size_t output_buffer_offset =
+              q_token_start_idx * q_head_num * head_dim +
+              q_head_start_idx * head_dim;
+
+          const int32_t stride =
+              actual_q_heads_per_kv * split_kv_q_token_num_threshold;
+          buffer_manager.update(kv_head_idx, total_reduction_split_num,
+                                head_dim, stride, sizeof(float));
+          volatile bool* split_flag_buffer =
+              buffer_manager.get_reduce_flag_buffer() + curr_split_id;
+          float* split_output_buffer =
+              buffer_manager.get_reduce_output_buffer() +
+              curr_split_id * stride * head_dim;
+          float* split_max_buffer =
+              buffer_manager.get_reduce_max_buffer() + curr_split_id * stride;
+          float* split_sum_buffer =
+              buffer_manager.get_reduce_sum_buffer() + curr_split_id * stride;
+
+          reduce_splits(split_output_buffer, split_max_buffer, split_sum_buffer,
+                        split_flag_buffer, stride, curr_output_head_num,
+                        curr_split_num);
+          final_output(
+              split_output_buffer,
+              reinterpret_cast<query_t*>(input->output) + output_buffer_offset,
+              split_sum_buffer, actual_q_heads_per_kv, curr_output_token_num,
+              q_head_num);
+        }
+      }
+    }
+    // Reset counter for next call
+    input->metadata->reset_counter();
+  }
+
+  void reduce_splits(float* __restrict__ split_output_buffer,
+                     float* __restrict__ split_max_buffer,
+                     float* __restrict__ split_sum_buffer,
+                     volatile bool* __restrict__ flags,
+                     const int32_t head_num_per_split,
+                     const int32_t curr_head_num, const int32_t split_num) {
+#ifdef DEFINE_FAST_EXP
+    DEFINE_FAST_EXP
+#endif
+    // restrict curr_head_num <= 16 in the scheduler
+    // elems in split_max_buffer, split_sum_buffer are not cache alignment, use
+    // local buffers to reduce false-sharing
+    alignas(64) float local_max[16];
+    alignas(64) float local_sum[16];
+
+    float* __restrict__ curr_split_output_buffer = split_output_buffer;
+    float* __restrict__ curr_split_max_buffer = split_max_buffer;
+    float* __restrict__ curr_split_sum_buffer = split_sum_buffer;
+    constexpr int32_t head_dim_group_num = head_dim / 16;
+    for (int32_t split_idx = 0; split_idx < split_num; ++split_idx) {
+      while (!flags[split_idx]) {
+#ifdef FAST_SPINNING
+        FAST_SPINNING
+#else
+        std::this_thread::yield();
+#endif
+      }
+      std::atomic_thread_fence(std::memory_order_acquire);
+
+      if (split_idx > 0) {
+        float* __restrict__ curr_output_buffer = split_output_buffer;
+        float* __restrict__ curr_split_output_buffer_iter =
+            curr_split_output_buffer;
+        for (int32_t head_idx = 0; head_idx < curr_head_num; ++head_idx) {
+          float final_max = local_max[head_idx];
+          float curr_max = curr_split_max_buffer[head_idx];
+          float final_sum = local_sum[head_idx];
+          float curr_sum = curr_split_sum_buffer[head_idx];
+          float* __restrict__ non_scale_output_iter =
+              final_max > curr_max ? curr_output_buffer
+                                   : curr_split_output_buffer_iter;
+          float* __restrict__ scale_output_iter =
+              final_max > curr_max ? curr_split_output_buffer_iter
+                                   : curr_output_buffer;
+          float rescale_factor = final_max > curr_max ? curr_max - final_max
+                                                      : final_max - curr_max;
+
+#ifdef DEFINE_FAST_EXP
+          vec_op::FP32Vec16 rescale_factor_vec(rescale_factor);
+          rescale_factor_vec = fast_exp(rescale_factor_vec);
+          rescale_factor = rescale_factor_vec.get_last_elem();
+#else
+          rescale_factor = std::exp(rescale_factor);
+          vec_op::FP32Vec16 rescale_factor_vec(rescale_factor);
+#endif
+
+          local_sum[head_idx] = final_max > curr_max
+                                    ? final_sum + rescale_factor * curr_sum
+                                    : rescale_factor * final_sum + curr_sum;
+
+          final_max = std::max(final_max, curr_max);
+          local_max[head_idx] = final_max;
+          for (int32_t i = 0; i < head_dim_group_num; ++i) {
+            vec_op::FP32Vec16 non_scale_vec(non_scale_output_iter);
+            vec_op::FP32Vec16 scale_vec(scale_output_iter);
+            vec_op::FP32Vec16 final_vec =
+                non_scale_vec + scale_vec * rescale_factor_vec;
+            final_vec.save(curr_output_buffer);
+
+            non_scale_output_iter += 16;
+            scale_output_iter += 16;
+            curr_output_buffer += 16;
+          }
+          curr_split_output_buffer_iter += head_dim;
+        }
+      } else {
+        vec_op::FP32Vec16 final_max(split_max_buffer);
+        final_max.save(local_max);
+        vec_op::FP32Vec16 final_sum(split_sum_buffer);
+        final_sum.save(local_sum);
+      }
+
+      curr_split_output_buffer += head_num_per_split * head_dim;
+      curr_split_max_buffer += head_num_per_split;
+      curr_split_sum_buffer += head_num_per_split;
+    }
+    // write back final max and sum
+    for (int32_t i = 0; i < curr_head_num; ++i) {
+      split_max_buffer[i] = local_max[i];
+      split_sum_buffer[i] = local_sum[i];
+    }
+  }
+
+  void partial_output(float* __restrict__ partial_output_buffer,
+                      float* __restrict__ partial_max_buffer,
+                      float* __restrict__ partial_sum_buffer,
+                      int32_t curr_head_num,
+                      float* __restrict__ split_output_buffer,
+                      float* __restrict__ split_max_buffer,
+                      float* __restrict__ split_sum_buffer,
+                      volatile bool* __restrict__ flag) {
+    float* __restrict__ curr_partial_output_buffer = partial_output_buffer;
+    float* __restrict__ curr_split_output_buffer = split_output_buffer;
+    constexpr int32_t head_dim_group_num = head_dim / 16;
+    for (int32_t i = 0; i < curr_head_num; ++i) {
+      split_max_buffer[i] = partial_max_buffer[i];
+      split_sum_buffer[i] = partial_sum_buffer[i];
+      for (int32_t j = 0; j < head_dim_group_num; ++j) {
+        vec_op::FP32Vec16 vec(curr_partial_output_buffer);
+        vec.save(curr_split_output_buffer);
+
+        curr_partial_output_buffer += 16;
+        curr_split_output_buffer += 16;
+      }
+    }
+    std::atomic_thread_fence(std::memory_order_release);
+    *flag = true;
+  }
+
+  void final_output(float* __restrict__ partial_q_buffer,
+                    query_t* __restrict__ curr_output_buffer,
+                    float* __restrict__ sum_buffer,
+                    const int32_t q_heads_per_kv,
+                    const int32_t actual_q_token_num,
+                    const int32_t q_head_num) {
+    // final output
+    using output_vec_t = typename VecTypeTrait<query_t>::vec_t;
+
+    float* __restrict__ curr_partial_output_buffer = partial_q_buffer;
+    float* __restrict__ curr_sum_buffer = sum_buffer;
+    constexpr int32_t group_num_per_head = head_dim / 16;
+    const int32_t partial_q_buffer_stride = q_heads_per_kv * head_dim;
+    const int32_t output_buffer_stride = q_head_num * head_dim;
+    for (int32_t token_idx = 0; token_idx < actual_q_token_num; ++token_idx) {
+      float* __restrict__ curr_partial_output_buffer_iter =
+          curr_partial_output_buffer;
+      query_t* __restrict__ curr_output_buffer_iter = curr_output_buffer;
+      for (int32_t head_idx = 0; head_idx < q_heads_per_kv; ++head_idx) {
+        vec_op::FP32Vec16 inv_sum_scale_vec(1.0 / *curr_sum_buffer);
+
+        for (int32_t i = 0; i < group_num_per_head; ++i) {
+          vec_op::FP32Vec16 vec(curr_partial_output_buffer_iter);
+          // divide the final sum val of softmax here
+          vec = inv_sum_scale_vec * vec;
+
+          // cast to query type
+          output_vec_t output_vec(vec);
+          output_vec.save(curr_output_buffer_iter);
+
+          // update
+          curr_partial_output_buffer_iter += 16;
+          curr_output_buffer_iter += 16;
+        }
+
+        // update
+        curr_sum_buffer += 1;
+      }
+
+      // update
+      curr_partial_output_buffer += partial_q_buffer_stride;
+      curr_output_buffer += output_buffer_stride;
+    }
+  }
+};
+
+}  // namespace cpu_attention
+
+#endif
diff --git a/csrc/cpu/cpu_attn_macros.h b/csrc/cpu/cpu_attn_macros.h
new file mode 100644
index 0000000000000..6458e43419370
--- /dev/null
+++ b/csrc/cpu/cpu_attn_macros.h
@@ -0,0 +1,63 @@
+#ifndef CPU_ATTN_MACROS_H
+#define CPU_ATTN_MACROS_H
+
+// x86_64
+#ifdef __x86_64__
+  #define FAST_SPINNING _mm_pause();
+
+  #ifdef __AVX512F__
+    #define DEFINE_FAST_EXP                                                    \
+      const __m512 vec_factorial_1 = _mm512_set1_ps(0.999999701f);             \
+      const __m512 vec_factorial_2 = _mm512_set1_ps(0.499991506f);             \
+      const __m512 vec_factorial_3 = _mm512_set1_ps(0.166676521f);             \
+      const __m512 vec_factorial_4 = _mm512_set1_ps(0.0418978221f);            \
+      const __m512 vec_factorial_5 = _mm512_set1_ps(0.00828929059f);           \
+      const __m512 vec_exp_log2ef =                                            \
+          _mm512_castsi512_ps(_mm512_set1_epi32(0x3fb8aa3b));                  \
+      const __m512 vec_half = _mm512_set1_ps(0.5f);                            \
+      const __m512 vec_one = _mm512_set1_ps(1.f);                              \
+      const __m512 vec_zero = _mm512_set1_ps(0.f);                             \
+      const __m512 vec_two = _mm512_set1_ps(2.f);                              \
+      const __m512 vec_ln2f =                                                  \
+          _mm512_castsi512_ps(_mm512_set1_epi32(0x3f317218));                  \
+      const __m512 vec_ln_flt_min =                                            \
+          _mm512_castsi512_ps(_mm512_set1_epi32(0xc2aeac50));                  \
+      const __m512 vec_ln_flt_max =                                            \
+          _mm512_castsi512_ps(_mm512_set1_epi32(0x42b17218));                  \
+      const __m512i vec_127 = _mm512_set1_epi32(0x0000007f);                   \
+      const int n_mantissa_bits = 23;                                          \
+      auto fast_exp = [&](vec_op::FP32Vec16& vec) __attribute__((              \
+                          always_inline)) {                                    \
+        __m512 values = vec.reg;                                               \
+        auto less_ln_flt_min_mask =                                            \
+            _mm512_cmp_ps_mask(values, vec_ln_flt_min, 1 /*_CMP_LT_OS*/);      \
+        auto vec_src = _mm512_min_ps(values, vec_ln_flt_max);                  \
+        vec_src = _mm512_max_ps(vec_src, vec_ln_flt_min);                      \
+        auto vec_fx = _mm512_fmadd_ps(vec_src, vec_exp_log2ef, vec_half);      \
+        auto vec_fx_i = _mm512_cvt_roundps_epi32(                              \
+            vec_fx, _MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC);                \
+        vec_fx = _mm512_cvtepi32_ps(vec_fx_i);                                 \
+        auto vec_exp_poly = _mm512_fnmadd_ps(vec_fx, vec_ln2f, vec_src);       \
+        auto vec_res =                                                         \
+            _mm512_fmadd_ps(vec_exp_poly, vec_factorial_5, vec_factorial_4);   \
+        vec_res = _mm512_fmadd_ps(vec_exp_poly, vec_res, vec_factorial_3);     \
+        vec_res = _mm512_fmadd_ps(vec_exp_poly, vec_res, vec_factorial_2);     \
+        vec_res = _mm512_fmadd_ps(vec_exp_poly, vec_res, vec_factorial_1);     \
+        vec_res = _mm512_fmadd_ps(vec_exp_poly, vec_res, vec_one);             \
+        auto vec_exp_number = _mm512_sub_ps(vec_fx, vec_one);                  \
+        auto vec_exp_number_i = _mm512_cvtps_epi32(vec_exp_number);            \
+        auto vec_two_pow_n_i = _mm512_add_epi32(vec_exp_number_i, vec_127);    \
+        vec_two_pow_n_i = _mm512_slli_epi32(vec_two_pow_n_i, n_mantissa_bits); \
+        auto vec_two_pow_n = _mm512_castsi512_ps(vec_two_pow_n_i);             \
+        vec_two_pow_n = _mm512_mask_blend_ps(less_ln_flt_min_mask,             \
+                                             vec_two_pow_n, vec_zero);         \
+        vec_res = _mm512_mul_ps(vec_res, vec_two_pow_n);                       \
+        vec_res = _mm512_mul_ps(vec_res, vec_two);                             \
+        vec_op::FP32Vec16 res(vec_res);                                        \
+        return res;                                                            \
+      };
+  #endif
+
+#endif
+
+#endif
\ No newline at end of file
diff --git a/csrc/cpu/cpu_attn_vec.hpp b/csrc/cpu/cpu_attn_vec.hpp
new file mode 100644
index 0000000000000..479313f0e19f4
--- /dev/null
+++ b/csrc/cpu/cpu_attn_vec.hpp
@@ -0,0 +1,248 @@
+#ifndef CPU_ATTN_VEC_HPP
+#define CPU_ATTN_VEC_HPP
+
+#include "cpu_attn_impl.hpp"
+
+namespace cpu_attention {
+
+namespace {
+// 8-2-16 pattern, 8 regs for A, 2 regs for B, 16 regs for C, [8, K] @ [k, 32]
+template <typename kv_cache_t>
+class TileGemm82 {
+ public:
+  template <AttentionGemmPhase phase, int32_t k_size>
+  FORCE_INLINE static void gemm(const int32_t m_size,
+                                float* __restrict__ a_tile,
+                                kv_cache_t* __restrict__ b_tile,
+                                float* __restrict__ c_tile, const int64_t lda,
+                                const int64_t ldb, const int64_t ldc,
+                                const int32_t block_size,
+                                const int32_t dynamic_k_size,
+                                const bool accum_c) {
+    switch (m_size) {
+      case 1:
+        gemm_micro<1>(a_tile, b_tile, c_tile, lda, ldb, ldc, block_size,
+                      dynamic_k_size, accum_c);
+        break;
+      case 2:
+        gemm_micro<2>(a_tile, b_tile, c_tile, lda, ldb, ldc, block_size,
+                      dynamic_k_size, accum_c);
+        break;
+      case 3:
+      case 4:
+        gemm_micro<4>(a_tile, b_tile, c_tile, lda, ldb, ldc, block_size,
+                      dynamic_k_size, accum_c);
+        break;
+      case 5:
+      case 6:
+        gemm_micro<6>(a_tile, b_tile, c_tile, lda, ldb, ldc, block_size,
+                      dynamic_k_size, accum_c);
+        break;
+      case 7:
+      case 8:
+        gemm_micro<8>(a_tile, b_tile, c_tile, lda, ldb, ldc, block_size,
+                      dynamic_k_size, accum_c);
+        break;
+    }
+  }
+
+  template <int32_t M>
+  static void gemm_micro(float* __restrict__ a_tile,
+                         kv_cache_t* __restrict__ b_tile,
+                         float* __restrict__ c_tile, const int64_t lda,
+                         const int64_t ldb, const int64_t ldc,
+                         const int32_t block_size, const int32_t dynamic_k_size,
+                         const bool accum_c) {
+    static_assert(0 < M <= 8);
+    using load_vec_t = typename VecTypeTrait<kv_cache_t>::vec_t;
+
+    kv_cache_t* __restrict__ curr_b_0 = b_tile;
+    kv_cache_t* __restrict__ curr_b_1 = b_tile + 16;
+    float* __restrict__ curr_c_0 = c_tile;
+    float* __restrict__ curr_c_1 = c_tile + 16;
+
+    vec_op::FP32Vec16 c_regs[M * 2];
+    if (accum_c) {
+      float* __restrict__ curr_m_c_0 = curr_c_0;
+      float* __restrict__ curr_m_c_1 = curr_c_1;
+      vec_op::unroll_loop<int32_t, M>([&](int32_t i) {
+        c_regs[i * 2] = vec_op::FP32Vec16(curr_m_c_0);
+        c_regs[i * 2 + 1] = vec_op::FP32Vec16(curr_m_c_1);
+
+        // update
+        curr_m_c_0 += ldc;
+        curr_m_c_1 += ldc;
+      });
+    }
+
+    float* __restrict__ curr_a = a_tile;
+    for (int32_t k = 0; k < dynamic_k_size; ++k) {
+      load_vec_t b_0_reg(curr_b_0);
+      vec_op::FP32Vec16 fp32_b_0_reg(b_0_reg);
+      load_vec_t b_1_reg(curr_b_1);
+      vec_op::FP32Vec16 fp32_b_1_reg(b_1_reg);
+
+      float* __restrict__ curr_m_a = curr_a;
+      vec_op::unroll_loop<int32_t, M>([&](int32_t i) {
+        float v = *curr_m_a;
+        vec_op::FP32Vec16 a_reg(v);
+        c_regs[i * 2] = c_regs[i * 2] + a_reg * fp32_b_0_reg;
+        c_regs[i * 2 + 1] = c_regs[i * 2 + 1] + a_reg * fp32_b_1_reg;
+
+        // update
+        curr_m_a += lda;
+      });
+
+      // update
+      curr_a += 1;
+      curr_b_0 += ldb;
+      curr_b_1 += ldb;
+    }
+
+    vec_op::unroll_loop<int32_t, M>([&](int32_t i) {
+      c_regs[i * 2].save(curr_c_0);
+      c_regs[i * 2 + 1].save(curr_c_1);
+
+      // update
+      curr_c_0 += ldc;
+      curr_c_1 += ldc;
+    });
+  }
+};
+}  // namespace
+
+// This is a general but naive implementation based on vector instructions
+template <typename scalar_t, int64_t head_dim>
+class AttentionImpl<ISA::VEC, scalar_t, head_dim> {
+ public:
+  using query_t = scalar_t;
+  using q_buffer_t = float;
+  using kv_cache_t = scalar_t;
+  using logits_buffer_t = float;
+  using partial_output_buffer_t = float;
+  using prob_buffer_t = float;
+
+  constexpr static int64_t BlockSizeAlignment =
+      32;  // KV token num unit of QK and PV phases
+  constexpr static int64_t HeadDimAlignment =
+      32;  // headdim num unit of PV phase
+  constexpr static int64_t MaxQHeadNumPerIteration = 8;
+  constexpr static int64_t HeadDim = head_dim;
+  constexpr static ISA ISAType = ISA::VEC;
+  constexpr static bool scale_on_logits = false;  // apply scale on q_buffer
+
+ public:
+  template <template <typename tile_gemm_t> typename attention>
+  FORCE_INLINE void execute_attention(DEFINE_CPU_ATTENTION_PARAMS) {
+    attention<TileGemm82<kv_cache_t>> attention_iteration;
+    attention_iteration(CPU_ATTENTION_PARAMS);
+  }
+
+  // k_cache_token_group_stride: stride of K cache when move to next
+  // BlockSizeAlignment tokens in a block
+  constexpr static int64_t k_cache_token_group_stride(
+      const int32_t block_size) {
+    return BlockSizeAlignment;  // layout of k_cache block is [head_dim,
+                                // block_size], row-major
+  }
+
+  // v_cache_token_group_stride: stride of V cache when move to next
+  // BlockSizeAlignment tokens in a block
+  constexpr static int64_t v_cache_token_group_stride(
+      const int32_t block_size) {
+    return head_dim * BlockSizeAlignment;  // layout of v_cache is [block_size,
+                                           // head_dim], row-major
+  }
+
+  // v_cache_head_group_stride: stride of V cache when move to next
+  // HeadDimAlignment head dims in a block
+  constexpr static int64_t v_cache_head_group_stride(const int32_t block_size) {
+    return HeadDimAlignment;  // layout of v_cache is [block_size, head_dim],
+                              // row-major
+  }
+
+  // Copy q to q_buffer and cast it to fp32
+  static void copy_q_heads_tile(
+      scalar_t* __restrict__ src,  // [q_num, q_heads_per_kv, head_size]
+      float* __restrict__ q_buffer, const int32_t q_num,
+      const int32_t q_heads_per_kv, const int64_t q_num_stride,
+      const int64_t q_head_stride, float scale) {
+    static_assert(head_dim % 16 == 0);
+    constexpr int32_t unroll_size = head_dim / 16;
+    using load_vec_t = typename VecTypeTrait<scalar_t>::vec_t;
+
+    vec_op::FP32Vec16 scale_vec(scale);
+    for (int32_t q_num_idx = 0; q_num_idx < q_num; ++q_num_idx) {
+      for (int32_t q_head_idx = 0; q_head_idx < q_heads_per_kv; ++q_head_idx) {
+        scalar_t* __restrict__ curr_q =
+            src + q_num_idx * q_num_stride + q_head_idx * q_head_stride;
+        float* __restrict__ curr_q_buffer =
+            q_buffer + q_num_idx * q_heads_per_kv * head_dim +
+            q_head_idx * head_dim;
+
+        vec_op::unroll_loop<int32_t, unroll_size>([&](int32_t i) {
+          load_vec_t vec(curr_q);
+          vec_op::FP32Vec16 fp32_vec(vec);
+          fp32_vec = fp32_vec * scale_vec;
+          fp32_vec.save(curr_q_buffer);
+
+          curr_q += 16;
+          curr_q_buffer += 16;
+        });
+      }
+    }
+  }
+
+  // reshape K as column-major and V as row-major
+  static void reshape_and_cache(
+      const scalar_t* __restrict__ key, const scalar_t* __restrict__ value,
+      scalar_t* __restrict__ key_cache, scalar_t* __restrict__ value_cache,
+      const int64_t* __restrict__ slot_mapping, const int64_t token_num,
+      const int64_t key_token_num_stride, const int64_t value_token_num_stride,
+      const int64_t head_num, const int64_t key_head_num_stride,
+      const int64_t value_head_num_stride, const int64_t num_blocks,
+      const int64_t num_blocks_stride, const int64_t cache_head_num_stride,
+      const int64_t block_size, const int64_t block_size_stride) {
+#pragma omp parallel for collapse(2)
+    for (int64_t token_idx = 0; token_idx < token_num; ++token_idx) {
+      for (int64_t head_idx = 0; head_idx < head_num; ++head_idx) {
+        const int64_t pos = slot_mapping[token_idx];
+        if (pos < 0) {
+          // skip
+          continue;
+        }
+
+        const int64_t block_idx = pos / block_size;
+        const int64_t block_offset = pos % block_size;
+        {
+          // Write Key as column-major
+          const scalar_t* key_start_ptr = key +
+                                          token_idx * key_token_num_stride +
+                                          head_idx * key_head_num_stride;
+          scalar_t* key_cache_start_ptr =
+              key_cache + block_idx * num_blocks_stride +
+              head_idx * cache_head_num_stride + block_offset;
+
+#pragma GCC unroll 8
+          for (int64_t i = 0, j = 0; i < head_dim; ++i, j += block_size) {
+            key_cache_start_ptr[j] = key_start_ptr[i];
+          }
+        }
+        {
+          // Write Value as row-major
+          const scalar_t* value_start_ptr = value +
+                                            token_idx * value_token_num_stride +
+                                            head_idx * value_head_num_stride;
+          scalar_t* value_cache_start_ptr =
+              value_cache + block_idx * num_blocks_stride +
+              head_idx * cache_head_num_stride + block_offset * head_dim;
+          std::memcpy(value_cache_start_ptr, value_start_ptr,
+                      sizeof(scalar_t) * head_dim);
+        }
+      }
+    }
+  }
+};
+}  // namespace cpu_attention
+
+#endif
diff --git a/csrc/cpu/cpu_attn_vec16.hpp b/csrc/cpu/cpu_attn_vec16.hpp
new file mode 100644
index 0000000000000..7402312c09243
--- /dev/null
+++ b/csrc/cpu/cpu_attn_vec16.hpp
@@ -0,0 +1,171 @@
+#ifndef CPU_ATTN_VEC16_HPP
+#define CPU_ATTN_VEC16_HPP
+
+#include "cpu_attn_vec.hpp"
+
+namespace cpu_attention {
+
+namespace {
+// 16-1-16 pattern, 16 regs for A, 1 regs for B, 16 regs for C, [16, K] @ [k,
+// 16]
+template <typename kv_cache_t>
+class TileGemm161 {
+ public:
+  template <AttentionGemmPhase phase, int32_t k_size>
+  FORCE_INLINE static void gemm(const int32_t m_size,
+                                float* __restrict__ a_tile,
+                                kv_cache_t* __restrict__ b_tile,
+                                float* __restrict__ c_tile, const int64_t lda,
+                                const int64_t ldb, const int64_t ldc,
+                                const int32_t block_size,
+                                const int32_t dynamic_k_size,
+                                const bool accum_c) {
+    switch (m_size) {
+      case 1:
+        gemm_micro<1>(a_tile, b_tile, c_tile, lda, ldb, ldc, block_size,
+                      dynamic_k_size, accum_c);
+        break;
+      case 2:
+        gemm_micro<2>(a_tile, b_tile, c_tile, lda, ldb, ldc, block_size,
+                      dynamic_k_size, accum_c);
+        break;
+      case 3:
+      case 4:
+        gemm_micro<4>(a_tile, b_tile, c_tile, lda, ldb, ldc, block_size,
+                      dynamic_k_size, accum_c);
+        break;
+      case 5:
+      case 6:
+        gemm_micro<6>(a_tile, b_tile, c_tile, lda, ldb, ldc, block_size,
+                      dynamic_k_size, accum_c);
+        break;
+      case 7:
+      case 8:
+        gemm_micro<8>(a_tile, b_tile, c_tile, lda, ldb, ldc, block_size,
+                      dynamic_k_size, accum_c);
+        break;
+      case 9:
+      case 10:
+      case 11:
+      case 12:
+        gemm_micro<12>(a_tile, b_tile, c_tile, lda, ldb, ldc, block_size,
+                       dynamic_k_size, accum_c);
+        break;
+      case 13:
+      case 14:
+      case 15:
+      case 16:
+        gemm_micro<16>(a_tile, b_tile, c_tile, lda, ldb, ldc, block_size,
+                       dynamic_k_size, accum_c);
+        break;
+    }
+  }
+
+  template <int32_t M>
+  static void gemm_micro(float* __restrict__ a_tile,
+                         kv_cache_t* __restrict__ b_tile,
+                         float* __restrict__ c_tile, const int64_t lda,
+                         const int64_t ldb, const int64_t ldc,
+                         const int32_t block_size, const int32_t dynamic_k_size,
+                         const bool accum_c) {
+    static_assert(0 < M <= 16);
+    using load_vec_t = typename VecTypeTrait<kv_cache_t>::vec_t;
+
+    kv_cache_t* __restrict__ curr_b_0 = b_tile;
+    float* __restrict__ curr_c_0 = c_tile;
+
+    vec_op::FP32Vec16 c_regs[M];
+    if (accum_c) {
+      float* __restrict__ curr_m_c_0 = curr_c_0;
+      vec_op::unroll_loop<int32_t, M>([&](int32_t i) {
+        c_regs[i] = vec_op::FP32Vec16(curr_m_c_0);
+
+        // update
+        curr_m_c_0 += ldc;
+      });
+    }
+
+    float* __restrict__ curr_a = a_tile;
+    for (int32_t k = 0; k < dynamic_k_size; ++k) {
+      load_vec_t b_0_reg(curr_b_0);
+      vec_op::FP32Vec16 fp32_b_0_reg(b_0_reg);
+
+      float* __restrict__ curr_m_a = curr_a;
+      vec_op::unroll_loop<int32_t, M>([&](int32_t i) {
+        float v = *curr_m_a;
+        vec_op::FP32Vec16 a_reg(v);
+        c_regs[i] = c_regs[i] + a_reg * fp32_b_0_reg;
+
+        // update
+        curr_m_a += lda;
+      });
+
+      // update
+      curr_a += 1;
+      curr_b_0 += ldb;
+    }
+
+    vec_op::unroll_loop<int32_t, M>([&](int32_t i) {
+      c_regs[i].save(curr_c_0);
+
+      // update
+      curr_c_0 += ldc;
+    });
+  }
+};
+}  // namespace
+
+// This is a general but naive implementation based on vector instructions
+template <typename scalar_t, int64_t head_dim>
+class AttentionImpl<ISA::VEC16, scalar_t, head_dim>
+    : public AttentionImpl<ISA::VEC, scalar_t, head_dim> {
+ public:
+  using query_t = scalar_t;
+  using q_buffer_t = float;
+  using kv_cache_t = scalar_t;
+  using logits_buffer_t = float;
+  using partial_output_buffer_t = float;
+  using prob_buffer_t = float;
+
+  constexpr static int64_t BlockSizeAlignment =
+      16;  // KV token num unit of QK and PV phases
+  constexpr static int64_t HeadDimAlignment =
+      16;  // headdim num unit of PV phase
+  constexpr static int64_t MaxQHeadNumPerIteration = 16;
+  constexpr static int64_t HeadDim = head_dim;
+  constexpr static ISA ISAType = ISA::VEC16;
+  constexpr static bool scale_on_logits = false;  // apply scale on q_buffer
+
+ public:
+  template <template <typename tile_gemm_t> typename attention>
+  FORCE_INLINE void execute_attention(DEFINE_CPU_ATTENTION_PARAMS) {
+    attention<TileGemm161<kv_cache_t>> attention_iteration;
+    attention_iteration(CPU_ATTENTION_PARAMS);
+  }
+
+  // k_cache_token_group_stride: stride of K cache when move to next
+  // BlockSizeAlignment tokens in a block
+  constexpr static int64_t k_cache_token_group_stride(
+      const int32_t block_size) {
+    return BlockSizeAlignment;  // layout of k_cache block is [head_dim,
+                                // block_size], row-major
+  }
+
+  // v_cache_token_group_stride: stride of V cache when move to next
+  // BlockSizeAlignment tokens in a block
+  constexpr static int64_t v_cache_token_group_stride(
+      const int32_t block_size) {
+    return head_dim * BlockSizeAlignment;  // layout of v_cache is [block_size,
+                                           // head_dim], row-major
+  }
+
+  // v_cache_head_group_stride: stride of V cache when move to next
+  // HeadDimAlignment head dims in a block
+  constexpr static int64_t v_cache_head_group_stride(const int32_t block_size) {
+    return HeadDimAlignment;  // layout of v_cache is [block_size, head_dim],
+                              // row-major
+  }
+};
+}  // namespace cpu_attention
+
+#endif
diff --git a/csrc/cpu/cpu_types_x86.hpp b/csrc/cpu/cpu_types_x86.hpp
index 982f7c07a13bd..7ddf028e6e131 100644
--- a/csrc/cpu/cpu_types_x86.hpp
+++ b/csrc/cpu/cpu_types_x86.hpp
@@ -40,6 +40,23 @@ namespace vec_op {
 
 #define FORCE_INLINE __attribute__((always_inline)) inline
 
+// Function to get the timestamp using RDTSCP
+FORCE_INLINE uint64_t bench_timestamp() {
+  unsigned int cycles_low, cycles_high;
+  asm volatile(
+      ".intel_syntax noprefix\n\t"
+      "CPUID\n\t"        // Serialize instruction stream to ensure previous
+                         // instructions complete
+      "RDTSCP\n\t"       // Read TSC and core ID
+      "mov %0, edx\n\t"  // Store high 32 bits of TSC
+      "mov %1, eax\n\t"  // Store low 32 bits of TSC
+      ".att_syntax"
+      : "=r"(cycles_high), "=r"(cycles_low)::"rax", "rbx", "rcx",
+        "rdx"  // Clobbered registers
+  );
+  return (uint64_t)cycles_high << 32 | cycles_low;
+}
+
 namespace {
 template <typename T, T... indexes, typename F>
 constexpr void unroll_loop_item(std::integer_sequence<T, indexes...>, F&& f) {
@@ -407,6 +424,8 @@ struct FP32Vec16 : public Vec<FP32Vec16> {
 
   float reduce_min() const { return _mm512_reduce_min_ps(reg); }
 
+  float get_last_elem() const { return _mm512_cvtss_f32(reg); }
+
   template <int group_size>
   float reduce_sub_sum(int idx) {
     static_assert(VEC_ELEM_NUM % group_size == 0);
@@ -446,9 +465,6 @@ struct FP32Vec16 : public Vec<FP32Vec16> {
 
   explicit FP32Vec16(__m256 low, __m256 high) : reg_low(low), reg_high(high) {}
 
-  explicit FP32Vec16(const FP32Vec16& data)
-      : reg_low(data.reg_low), reg_high(data.reg_high) {}
-
   explicit FP32Vec16(const FP32Vec4& data)
       : reg_low((__m256)_mm256_inserti128_si256(
             _mm256_castsi128_si256((__m128i)data.reg), (__m128i)data.reg, 1)),
@@ -504,6 +520,32 @@ struct FP32Vec16 : public Vec<FP32Vec16> {
                      _mm256_div_ps(reg_high, b.reg_high));
   }
 
+  FP32Vec16 max(const FP32Vec16& b) const {
+    return FP32Vec16(_mm256_max_ps(reg_low, b.reg_low),
+                     _mm256_max_ps(reg_high, b.reg_high));
+  }
+
+  float reduce_max() const {
+    __m256 v = _mm256_max_ps(reg_low, reg_high);
+    // Permute to compare elements within 128-bit lanes
+    __m256 v_shuffled = _mm256_permute_ps(
+        v, 0b00001011);  // Swap halves within each 128-bit lane
+    __m256 v_max = _mm256_max_ps(v, v_shuffled);
+
+    v_shuffled = _mm256_permute_ps(
+        v_max, 0b00000001);  // Shuffle elements within each 128-bit lane
+    v_max = _mm256_max_ps(v_max, v_shuffled);
+
+    // Permute to compare elements between 128-bit lanes
+    v_shuffled =
+        _mm256_permute2f128_ps(v_max, v_max, 0b00000001);  // Swap 128-bit lanes
+    v_max = _mm256_max_ps(v_max, v_shuffled);
+
+    // At this point, the maximum value is present in all elements of v_max.
+    // Extract the first element for the scalar result.
+    return _mm256_cvtss_f32(v_max);  // Extract the lowest 32-bit float
+  }
+
   float reduce_sum() const {
     FP32Vec8 low = FP32Vec8(reg_low);
     FP32Vec8 high = FP32Vec8(reg_high);
@@ -642,7 +684,7 @@ inline FP16Vec16::FP16Vec16(const FP32Vec16& v)
 inline FP16Vec16::FP16Vec16(const FP32Vec16& v)
     : reg(_mm256_insertf128_si256(
           _mm256_castsi128_si256(FP16Vec8(FP32Vec8(v.reg_low)).reg),
-          FP16Vec8(FP32Vec8(v.reg_low)).reg, 1)) {}
+          FP16Vec8(FP32Vec8(v.reg_high)).reg, 1)) {}
 #endif
 
 #ifdef __AVX512BF16__
diff --git a/csrc/cpu/dnnl_helper.cpp b/csrc/cpu/dnnl_helper.cpp
index bb43aeee2eafe..02a8072ccf306 100644
--- a/csrc/cpu/dnnl_helper.cpp
+++ b/csrc/cpu/dnnl_helper.cpp
@@ -5,6 +5,7 @@
 #include "common/memory.hpp"
 
 #include "dnnl_helper.h"
+#include "scratchpad_manager.h"
 
 static dnnl::engine& default_engine() {
   static dnnl::engine engine(dnnl::engine::kind::cpu, 0);
@@ -22,23 +23,6 @@ void release_dnnl_matmul_handler(int64_t handler) {
   delete ptr;
 }
 
-DNNLScratchPadManager::DNNLScratchPadManager() : size_(0), ptr_(nullptr) {
-  this->realloc(allocation_unit * 128);
-}
-
-void DNNLScratchPadManager::realloc(size_t new_size) {
-  new_size = round(new_size);
-  if (new_size > size_) {
-    ptr_ = std::aligned_alloc(64, new_size);
-    size_ = new_size;
-  }
-}
-
-DNNLScratchPadManager* DNNLScratchPadManager::get_dnnl_scratchpad_manager() {
-  static DNNLScratchPadManager manager;
-  return &manager;
-}
-
 template <typename KT, typename VT>
 class DNNLPrimitiveCache {
  public:
diff --git a/csrc/cpu/dnnl_helper.h b/csrc/cpu/dnnl_helper.h
index 58ffe7a19bd4f..b841ed73058e9 100644
--- a/csrc/cpu/dnnl_helper.h
+++ b/csrc/cpu/dnnl_helper.h
@@ -59,30 +59,6 @@ constexpr inline dnnl::memory::data_type get_dnnl_type() {
   return DNNLType<std::decay_t<T>>::type;
 }
 
-class DNNLScratchPadManager {
- public:
-  static constexpr size_t allocation_unit = 4 * 1024 * 1024;  // 4KB
-
-  static DNNLScratchPadManager* get_dnnl_scratchpad_manager();
-
-  DNNLScratchPadManager();
-
-  template <typename T>
-  T* get_data() {
-    return reinterpret_cast<T*>(ptr_);
-  }
-
-  static size_t round(size_t size) {
-    return ((size + allocation_unit - 1) / allocation_unit) * allocation_unit;
-  }
-
-  void realloc(size_t new_size);
-
- private:
-  size_t size_;
-  void* ptr_;
-};
-
 class DNNLMatMulPrimitiveHandler {
  public:
   virtual ~DNNLMatMulPrimitiveHandler() = default;
diff --git a/csrc/cpu/scratchpad_manager.cpp b/csrc/cpu/scratchpad_manager.cpp
new file mode 100644
index 0000000000000..05cd435f34b7a
--- /dev/null
+++ b/csrc/cpu/scratchpad_manager.cpp
@@ -0,0 +1,23 @@
+#include <cstdlib>
+
+#include "scratchpad_manager.h"
+
+DNNLScratchPadManager::DNNLScratchPadManager() : size_(0), ptr_(nullptr) {
+  this->realloc(allocation_unit * 128);
+}
+
+void DNNLScratchPadManager::realloc(size_t new_size) {
+  new_size = round(new_size);
+  if (new_size > size_) {
+    if (ptr_ != nullptr) {
+      std::free(ptr_);
+    }
+    ptr_ = std::aligned_alloc(64, new_size);
+    size_ = new_size;
+  }
+}
+
+DNNLScratchPadManager* DNNLScratchPadManager::get_dnnl_scratchpad_manager() {
+  static DNNLScratchPadManager manager;
+  return &manager;
+}
diff --git a/csrc/cpu/scratchpad_manager.h b/csrc/cpu/scratchpad_manager.h
new file mode 100644
index 0000000000000..0ecf59192f845
--- /dev/null
+++ b/csrc/cpu/scratchpad_manager.h
@@ -0,0 +1,31 @@
+#ifndef SCRATCHPAD_MANAGER_H
+#define SCRATCHPAD_MANAGER_H
+
+#include <cstddef>
+#include <cstdio>
+
+class DNNLScratchPadManager {
+ public:
+  static constexpr size_t allocation_unit = 4 * 1024;  // 4KB
+
+  static DNNLScratchPadManager* get_dnnl_scratchpad_manager();
+
+  DNNLScratchPadManager();
+
+  template <typename T>
+  T* get_data() {
+    return reinterpret_cast<T*>(ptr_);
+  }
+
+  static size_t round(size_t size) {
+    return ((size + allocation_unit - 1) / allocation_unit) * allocation_unit;
+  }
+
+  void realloc(size_t new_size);
+
+ private:
+  size_t size_;
+  void* ptr_;
+};
+
+#endif
diff --git a/csrc/cpu/shm.cpp b/csrc/cpu/shm.cpp
index 7e64e1c521980..e43aa203777ab 100644
--- a/csrc/cpu/shm.cpp
+++ b/csrc/cpu/shm.cpp
@@ -192,7 +192,7 @@ class SHMManager {
                       const int group_size)
       : _rank(rank),
         _group_size(group_size),
-        _thread_num(torch::get_num_threads()),
+        _thread_num(omp_get_max_threads()),
         _shm_names({""}),
         _shared_mem_ptrs({nullptr}),
         _shm_ctx(nullptr) {
diff --git a/csrc/cpu/torch_bindings.cpp b/csrc/cpu/torch_bindings.cpp
index 9df19d1ac3928..5e2aa70692566 100644
--- a/csrc/cpu/torch_bindings.cpp
+++ b/csrc/cpu/torch_bindings.cpp
@@ -74,25 +74,35 @@ at::Tensor int8_scaled_mm_with_quant(at::Tensor& mat1, at::Tensor& mat2,
                                      const std::optional<at::Tensor>& bias,
                                      at::ScalarType out_dtype, bool is_vnni);
 
+torch::Tensor get_scheduler_metadata(
+    const int64_t num_req, const int64_t num_heads_q,
+    const int64_t num_heads_kv, const int64_t head_dim,
+    const torch::Tensor& seq_lens, at::ScalarType dtype,
+    const torch::Tensor& query_start_loc, const bool casual,
+    const int64_t window_size, const std::string& isa_hint,
+    const bool enable_kv_split);
+
+void cpu_attn_reshape_and_cache(const torch::Tensor& key,
+                                const torch::Tensor& value,
+                                torch::Tensor& key_cache,
+                                torch::Tensor& value_cache,
+                                const torch::Tensor& slot_mapping,
+                                const std::string& isa);
+
+void cpu_attention_with_kv_cache(
+    const torch::Tensor& query, const torch::Tensor& key_cache,
+    const torch::Tensor& value_cache, torch::Tensor& output,
+    const torch::Tensor& query_start_loc, const torch::Tensor& seq_lens,
+    const double scale, const bool causal,
+    const std::optional<torch::Tensor>& alibi_slopes,
+    const int64_t sliding_window_left, const int64_t sliding_window_right,
+    const torch::Tensor& block_table, const double softcap,
+    const torch::Tensor& scheduler_metadata,
+    const std::optional<torch::Tensor>& s_aux);
+
 TORCH_LIBRARY_EXPAND(TORCH_EXTENSION_NAME, ops) {
   // vLLM custom ops
 
-  // Attention ops
-  // Compute the attention between an input query and the cached keys/values
-  // using PagedAttention.
-  ops.def(
-      "paged_attention_v1("
-      "    Tensor! out, Tensor query, Tensor key_cache,"
-      "    Tensor value_cache, int num_kv_heads, float scale,"
-      "    Tensor block_tables, Tensor seq_lens, int block_size,"
-      "    int max_seq_len, Tensor? alibi_slopes,"
-      "    str kv_cache_dtype, Tensor k_scale, Tensor v_scale,"
-      "    int tp_rank, int blocksparse_local_blocks,"
-      "    int blocksparse_vert_stride, int blocksparse_block_size,"
-      "    int blocksparse_head_sliding_step) -> ()");
-
-  ops.impl("paged_attention_v1", torch::kCPU, &paged_attention_v1);
-
   ops.def(
       "dynamic_4bit_int_moe("
       "Tensor x, Tensor topk_ids, Tensor topk_weights,"
@@ -102,20 +112,6 @@ TORCH_LIBRARY_EXPAND(TORCH_EXTENSION_NAME, ops) {
 
   ops.impl("dynamic_4bit_int_moe", torch::kCPU, &dynamic_4bit_int_moe_cpu);
 
-  // PagedAttention V2.
-  ops.def(
-      "paged_attention_v2("
-      "    Tensor! out, Tensor! exp_sums, Tensor! max_logits,"
-      "    Tensor! tmp_out, Tensor query, Tensor key_cache,"
-      "    Tensor value_cache, int num_kv_heads, float scale,"
-      "    Tensor block_tables, Tensor seq_lens, int block_size,"
-      "    int max_seq_len, Tensor? alibi_slopes,"
-      "    str kv_cache_dtype, Tensor k_scale, Tensor v_scale,"
-      "    int tp_rank, int blocksparse_local_blocks,"
-      "    int blocksparse_vert_stride, int blocksparse_block_size,"
-      "    int blocksparse_head_sliding_step) -> ()");
-  ops.impl("paged_attention_v2", torch::kCPU, &paged_attention_v2);
-
   // Activation ops
 
   // Activation function used in SwiGLU.
@@ -259,37 +255,26 @@ TORCH_LIBRARY_EXPAND(TORCH_EXTENSION_NAME, ops) {
   ops.impl("int8_scaled_mm_with_quant", torch::kCPU,
            &int8_scaled_mm_with_quant);
 #endif
-}
 
-TORCH_LIBRARY_EXPAND(CONCAT(TORCH_EXTENSION_NAME, _cache_ops), cache_ops) {
-  // Cache ops
-  // Swap in (out) the cache blocks from src to dst.
-  cache_ops.def(
-      "swap_blocks(Tensor src, Tensor! dst, Tensor block_mapping) -> ()");
-  cache_ops.impl("swap_blocks", torch::kCPU, &swap_blocks);
-
-  // Copy the cache blocks from src to dst.
-  cache_ops.def(
-      "copy_blocks(Tensor(a!)[] key_caches, Tensor[](b!) value_caches, "
-      "Tensor block_mapping) -> ()");
-  cache_ops.impl("copy_blocks", torch::kCPU, &copy_blocks);
-
-  // Reshape the key and value tensors and cache them.
-  cache_ops.def(
-      "reshape_and_cache(Tensor key, Tensor value,"
-      "                  Tensor! key_cache, Tensor! value_cache,"
-      "                  Tensor slot_mapping,"
-      "                  str kv_cache_dtype,"
-      "                  Tensor k_scale, Tensor v_scale) -> ()");
-  cache_ops.impl("reshape_and_cache", torch::kCPU, &reshape_and_cache);
-
-  cache_ops.def(
-      "concat_and_cache_mla(Tensor kv_c, Tensor k_pe,"
-      "                     Tensor! kv_cache,"
-      "                     Tensor slot_mapping,"
-      "                     str kv_cache_dtype,"
-      "                     Tensor scale) -> ()");
-  cache_ops.impl("concat_and_cache_mla", torch::kCPU, &concat_and_cache_mla);
+  // CPU attention kernels
+  ops.def(
+      "get_scheduler_metadata(int num_req, int num_heads_q, int num_heads_kv, "
+      "int head_dim, Tensor seq_lens, ScalarType dtype, Tensor "
+      "query_start_loc, bool casual, int window_size, str isa_hint, bool "
+      "enable_kv_split) -> Tensor",
+      &get_scheduler_metadata);
+  ops.def(
+      "cpu_attn_reshape_and_cache(Tensor key, Tensor value, Tensor(a2!) "
+      "key_cache, Tensor(a3!) value_cache, Tensor slot_mapping, str "
+      "isa) -> ()",
+      &cpu_attn_reshape_and_cache);
+  ops.def(
+      "cpu_attention_with_kv_cache(Tensor query, Tensor key_cache, Tensor "
+      "value_cache, Tensor(a3!) output, Tensor query_start_loc, Tensor "
+      "seq_lens, float scale, bool causal, Tensor? alibi_slopes, SymInt "
+      "sliding_window_left, SymInt sliding_window_right, Tensor block_table, "
+      "float softcap, Tensor sheduler_metadata, Tensor? s_aux) -> ()",
+      &cpu_attention_with_kv_cache);
 }
 
 TORCH_LIBRARY_EXPAND(CONCAT(TORCH_EXTENSION_NAME, _utils), utils) {
diff --git a/docker/Dockerfile.cpu b/docker/Dockerfile.cpu
index adaf8a3c5b084..4c961defaeda2 100644
--- a/docker/Dockerfile.cpu
+++ b/docker/Dockerfile.cpu
@@ -17,6 +17,7 @@
 #   VLLM_CPU_DISABLE_AVX512=false (default)|true
 #   VLLM_CPU_AVX512BF16=false (default)|true
 #   VLLM_CPU_AVX512VNNI=false (default)|true
+#   VLLM_CPU_AMXBF16=false (default)|true
 #
 
 ######################### COMMON BASE IMAGE #########################
@@ -92,6 +93,9 @@ ENV VLLM_CPU_AVX512BF16=${VLLM_CPU_AVX512BF16}
 # Support for building with AVX512VNNI ISA: docker build --build-arg VLLM_CPU_AVX512VNNI="true" ...
 ARG VLLM_CPU_AVX512VNNI=0
 ENV VLLM_CPU_AVX512VNNI=${VLLM_CPU_AVX512VNNI}
+# Support for building with AMXBF16 ISA: docker build --build-arg VLLM_CPU_AMXBF16="true" ...
+ARG VLLM_CPU_AMXBF16=0
+ENV VLLM_CPU_AMXBF16=${VLLM_CPU_AMXBF16}
 
 WORKDIR /workspace/vllm
 
diff --git a/docs/getting_started/installation/cpu.md b/docs/getting_started/installation/cpu.md
index dbfefa9a1fe5a..e8bfca0e5e88f 100644
--- a/docs/getting_started/installation/cpu.md
+++ b/docs/getting_started/installation/cpu.md
@@ -171,6 +171,8 @@ This value is 4GB by default. Larger space can support more concurrent requests,
 
 First of all, please make sure the thread-binding and KV cache space are properly set and take effect. You can check the thread-binding by running a vLLM benchmark and observing CPU cores usage via `htop`.
 
+Use multiples of 32 as `--block-size`, which is 128 by default.
+
 Inference batch size is an important parameter for the performance. A larger batch usually provides higher throughput, a smaller batch provides lower latency. Tuning the max batch size starting from the default value to balance throughput and latency is an effective way to improve vLLM CPU performance on specific platforms. There are two important related parameters in vLLM:
 
 - `--max-num-batched-tokens`, defines the limit of token numbers in a single batch, has more impacts on the first token performance. The default value is set as:
diff --git a/tests/kernels/attention/test_attention_selector.py b/tests/kernels/attention/test_attention_selector.py
index 29cc81be12e45..3b8e939300a27 100644
--- a/tests/kernels/attention/test_attention_selector.py
+++ b/tests/kernels/attention/test_attention_selector.py
@@ -35,7 +35,7 @@ DEVICE_MLA_BACKENDS = {
 DEVICE_REGULAR_ATTN_BACKENDS = {
     "cuda": ["XFORMERS", "FLASHINFER", "FLASH_ATTN"],
     "hip": ["ROCM_ATTN"],
-    "cpu": ["TORCH_SDPA"],
+    "cpu": ["CPU_ATTN"],
 }
 
 DEVICE_MLA_BLOCK_SIZES = {
@@ -86,7 +86,7 @@ def test_env(
         if device == "cpu":
             with patch("vllm.platforms.current_platform", CpuPlatform()):
                 backend = get_attn_backend(16, torch.float16, None, block_size)
-            assert backend.get_name() == "TORCH_SDPA"
+            assert backend.get_name() == "CPU_ATTN"
 
         elif device == "hip":
             with patch("vllm.platforms.current_platform", RocmPlatform()):
@@ -224,7 +224,7 @@ def test_fp32_fallback(device: str):
     if device == "cpu":
         with patch("vllm.platforms.current_platform", CpuPlatform()):
             backend = get_attn_backend(16, torch.float32, None, 16)
-        assert backend.get_name() == "TORCH_SDPA"
+        assert backend.get_name() == "CPU_ATTN"
 
     elif device == "cuda":
         with patch("vllm.platforms.current_platform", CudaPlatform()):
diff --git a/tests/kernels/attention/test_cpu_attn.py b/tests/kernels/attention/test_cpu_attn.py
new file mode 100644
index 0000000000000..fb3b1799ba48e
--- /dev/null
+++ b/tests/kernels/attention/test_cpu_attn.py
@@ -0,0 +1,575 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import functools
+import math
+
+import pytest
+import torch
+
+from vllm.platforms import current_platform
+
+if not current_platform.is_cpu():
+    pytest.skip("skipping CPU-only tests", allow_module_level=True)
+
+from vllm._custom_ops import (
+    cpu_attention_with_kv_cache,
+    cpu_attn_get_scheduler_metadata,
+    cpu_attn_reshape_and_cache,
+)
+
+NUM_HEADS = [
+    (4, 4),
+    (8, 2),
+    (9, 3),
+]
+HEAD_SIZES = [96, 128]
+QTYPES = [torch.bfloat16, torch.half, torch.float32]
+SLIDING_WINDOWS = [None, 256]
+NUM_BLOCKS = [
+    1024,
+]
+SEQ_LENS = [  # (q_len, kv_len)
+    [(1, 213), (1, 1), (1, 312), (1, 7), (1, 7812)],  # decode batch
+    [(2345, 2345), (5, 5), (3, 16), (134, 5131)],  # prefill batch
+    [(992, 2456), (1, 1234), (98, 1145), (1, 4162), (2345, 2345)],  # mixed batch
+]
+
+
+# rand number generation takes too much time, cache rand tensors
+@functools.lru_cache(maxsize=128, typed=False)
+def tensor_cache(
+    elem_num: int,
+    dtype: torch.dtype,
+) -> torch.Tensor:
+    tensor = torch.randn(elem_num, dtype=dtype)
+
+    return tensor
+
+
+def _get_alibi_slopes(total_num_heads: int) -> torch.Tensor:
+    closest_power_of_2 = 2 ** math.floor(math.log2(total_num_heads))
+    base = torch.tensor(
+        2 ** (-(2 ** -(math.log2(closest_power_of_2) - 3))),
+        dtype=torch.float32,
+    )
+    powers = torch.arange(1, 1 + closest_power_of_2, dtype=torch.int32)
+    slopes = torch.pow(base, powers)
+
+    if closest_power_of_2 != total_num_heads:
+        extra_base = torch.tensor(
+            2 ** (-(2 ** -(math.log2(2 * closest_power_of_2) - 3))),
+            dtype=torch.float32,
+        )
+        num_remaining_heads = min(
+            closest_power_of_2, total_num_heads - closest_power_of_2
+        )
+        extra_powers = torch.arange(
+            start=1, end=1 + 2 * num_remaining_heads, step=2, dtype=torch.int32
+        )
+        slopes = torch.cat([slopes, torch.pow(extra_base, extra_powers)], dim=0)
+    return slopes.float()
+
+
+def ref_paged_attn(
+    query: torch.Tensor,
+    key_cache: torch.Tensor,
+    value_cache: torch.Tensor,
+    query_lens: list[int],
+    kv_lens: list[int],
+    block_tables: torch.Tensor,
+    scale: float,
+    sliding_window: int | None = None,
+    soft_cap: float | None = None,
+    alibi_slopes: torch.Tensor | None = None,
+    s_aux: torch.Tensor | None = None,
+) -> torch.Tensor:
+    num_seqs = len(query_lens)
+    block_tables = block_tables.cpu().numpy()
+    _, block_size, num_kv_heads, head_size = key_cache.shape
+    dtype = query.dtype
+
+    outputs: list[torch.Tensor] = []
+    start_idx = 0
+
+    if alibi_slopes is not None:
+        alibi_slopes = alibi_slopes[:, None, None]
+
+    if s_aux is not None:
+        s_aux = s_aux.float()
+        s_aux = s_aux[:, None, None]
+
+    for i in range(num_seqs):
+        query_len = query_lens[i]
+        kv_len = kv_lens[i]
+        q = query[start_idx : start_idx + query_len].float()
+        q *= scale
+
+        num_kv_blocks = (kv_len + block_size - 1) // block_size
+        block_indices = block_tables[i, :num_kv_blocks]
+
+        k = key_cache[block_indices].view(-1, num_kv_heads, head_size)
+        k = k[:kv_len].float()
+        v = value_cache[block_indices].view(-1, num_kv_heads, head_size)
+        v = v[:kv_len].float()
+
+        if q.shape[1] != k.shape[1]:
+            k = torch.repeat_interleave(k, q.shape[1] // k.shape[1], dim=1)
+            v = torch.repeat_interleave(v, q.shape[1] // v.shape[1], dim=1)
+        attn = torch.einsum("qhd,khd->hqk", q, k).float()
+        empty_mask = torch.ones(query_len, kv_len)
+        mask = torch.triu(empty_mask, diagonal=kv_len - query_len + 1).bool()
+
+        if sliding_window is not None:
+            sliding_window_mask = (
+                torch.triu(
+                    empty_mask, diagonal=kv_len - (query_len + sliding_window) + 1
+                )
+                .bool()
+                .logical_not()
+            )
+            mask |= sliding_window_mask
+
+        if soft_cap is not None:
+            attn = soft_cap * torch.tanh(attn / soft_cap)
+
+        if alibi_slopes is not None:
+            q_start_pos = kv_len - query_len
+            q_pos = q_start_pos + torch.arange(0, query_len)[None, :, None]
+            kv_pos = torch.arange(0, kv_len)[None, None, :]
+            dist = q_pos - kv_pos
+            alibi_bias = -alibi_slopes * dist
+            attn += alibi_bias
+
+        attn.masked_fill_(mask, float("-inf"))
+
+        if s_aux is not None:
+            s_aux_ext = s_aux.repeat(1, query_len, 1)
+            attn = torch.cat((s_aux_ext, attn), dim=-1)
+
+        attn = torch.softmax(attn, dim=-1)
+
+        if s_aux is not None:
+            attn = attn[:, :, 1:]
+
+        out = torch.einsum("hqk,khd->qhd", attn, v).to(dtype=dtype)
+
+        outputs.append(out)
+        start_idx += query_len
+
+    return torch.cat(outputs, dim=0)
+
+
+@torch.inference_mode()
+def varlen_with_paged_kv(
+    seq_lens: list[tuple[int, int]],
+    num_heads: tuple[int, int],
+    head_size: int,
+    sliding_window: int | None,
+    dtype: torch.dtype,
+    block_size: int,
+    soft_cap: float | None,
+    num_blocks: int,
+    use_alibi: bool,
+    use_sink: bool,
+    isa: str,
+) -> None:
+    current_platform.seed_everything(0)
+    num_seqs = len(seq_lens)
+    query_lens = [x[0] for x in seq_lens]
+    kv_lens = [x[1] for x in seq_lens]
+    num_query_heads = num_heads[0]
+    num_kv_heads = num_heads[1]
+    assert num_query_heads % num_kv_heads == 0
+    max_kv_len = max(kv_lens)
+    window_size = (sliding_window - 1, 0) if sliding_window is not None else (-1, -1)
+    scale = head_size**-0.5
+    token_num = sum(query_lens)
+
+    # for n heads the set of slopes is the geometric sequence that starts
+    # 2^(-8/n)
+    alibi_slopes = _get_alibi_slopes(num_query_heads) if use_alibi else None
+
+    s_aux = (
+        15 * torch.rand((num_query_heads,), dtype=torch.bfloat16) if use_sink else None
+    )
+
+    query = tensor_cache(
+        elem_num=token_num * num_query_heads * head_size,
+        dtype=dtype,
+    )
+    query = query.view(
+        token_num,
+        num_query_heads,
+        head_size,
+    )
+
+    key_value = tensor_cache(
+        elem_num=2 * num_blocks * num_kv_heads * block_size * head_size,
+        dtype=dtype,
+    )
+    key_value = key_value.view(
+        2,
+        num_blocks,
+        block_size,
+        num_kv_heads,
+        head_size,
+    )
+    key_cache, value_cache = key_value.unbind(0)
+
+    # KV cache for CPU attention
+    packed_key_cache = torch.empty(
+        num_blocks, num_kv_heads, block_size, head_size, dtype=dtype
+    )
+    packed_value_cache = torch.empty_like(packed_key_cache)
+
+    cu_query_lens = torch.tensor([0] + query_lens, dtype=torch.int32).cumsum(
+        dim=0, dtype=torch.int32
+    )
+    kv_lens_tensor = torch.tensor(kv_lens, dtype=torch.int32)
+    max_num_blocks_per_seq = (max_kv_len + block_size - 1) // block_size
+    block_tables = torch.randint(
+        0, num_blocks, (num_seqs, max_num_blocks_per_seq), dtype=torch.int32
+    )
+
+    # use reshape_and_cache to pack key_cache and value_cache
+    slot_mapping = torch.arange(0, num_blocks * block_size, dtype=torch.int64)
+    cpu_attn_reshape_and_cache(
+        key=key_cache.view(-1, num_kv_heads, head_size),
+        value=value_cache.view(-1, num_kv_heads, head_size),
+        key_cache=packed_key_cache,
+        value_cache=packed_value_cache,
+        slot_mapping=slot_mapping,
+        isa=isa,
+    )
+
+    metadata = cpu_attn_get_scheduler_metadata(
+        num_reqs=num_seqs,
+        num_heads=num_query_heads,
+        num_kv_heads=num_kv_heads,
+        head_dim=head_size,
+        seq_lens=kv_lens_tensor,
+        dtype=dtype,
+        query_start_loc=cu_query_lens,
+        causal=True,
+        sliding_window_size=sliding_window if sliding_window is not None else -1,
+        isa=isa,
+        enable_kv_split=False,
+    )
+
+    out_without_split = torch.empty_like(query)
+    cpu_attention_with_kv_cache(
+        query=query,
+        key_cache=packed_key_cache,
+        value_cache=packed_value_cache,
+        output=out_without_split,
+        query_start_loc=cu_query_lens,
+        seq_lens=kv_lens_tensor,
+        scale=scale,
+        causal=True,
+        alibi_slopes=alibi_slopes,
+        sliding_window=window_size,
+        block_table=block_tables,
+        softcap=soft_cap if soft_cap is not None else 0,
+        scheduler_metadata=metadata,
+        s_aux=s_aux,
+    )
+
+    metadata = cpu_attn_get_scheduler_metadata(
+        num_reqs=num_seqs,
+        num_heads=num_query_heads,
+        num_kv_heads=num_kv_heads,
+        head_dim=head_size,
+        seq_lens=kv_lens_tensor,
+        dtype=dtype,
+        query_start_loc=cu_query_lens,
+        causal=True,
+        sliding_window_size=sliding_window if sliding_window is not None else -1,
+        isa=isa,
+        enable_kv_split=True,
+    )
+
+    out_with_split = torch.empty_like(query)
+    cpu_attention_with_kv_cache(
+        query=query,
+        key_cache=packed_key_cache,
+        value_cache=packed_value_cache,
+        output=out_with_split,
+        query_start_loc=cu_query_lens,
+        seq_lens=kv_lens_tensor,
+        scale=scale,
+        causal=True,
+        alibi_slopes=alibi_slopes,
+        sliding_window=window_size,
+        block_table=block_tables,
+        softcap=soft_cap if soft_cap is not None else 0,
+        scheduler_metadata=metadata,
+        s_aux=s_aux,
+    )
+
+    ref_output = ref_paged_attn(
+        query=query,
+        key_cache=key_cache,
+        value_cache=value_cache,
+        query_lens=query_lens,
+        kv_lens=kv_lens,
+        block_tables=block_tables,
+        scale=scale,
+        sliding_window=sliding_window,
+        soft_cap=soft_cap,
+        alibi_slopes=alibi_slopes,
+        s_aux=s_aux,
+    )
+
+    atol, rtol = 1.5e-2, 1e-2
+    (
+        torch.testing.assert_close(out_with_split, ref_output, atol=atol, rtol=rtol),
+        f"{torch.max(torch.abs(out_with_split - ref_output))}",
+    )
+    (
+        torch.testing.assert_close(out_without_split, ref_output, atol=atol, rtol=rtol),
+        f"{torch.max(torch.abs(out_without_split - ref_output))}",
+    )
+
+
+@pytest.mark.parametrize("seq_lens", SEQ_LENS)
+@pytest.mark.parametrize("num_heads", NUM_HEADS)
+@pytest.mark.parametrize("head_size", HEAD_SIZES)
+@pytest.mark.parametrize("block_size", [96, 128])
+@pytest.mark.parametrize("sliding_window", SLIDING_WINDOWS)
+@pytest.mark.parametrize("dtype", QTYPES)
+@pytest.mark.parametrize("soft_cap", [None])
+@pytest.mark.parametrize("num_blocks", NUM_BLOCKS)
+@pytest.mark.parametrize("use_alibi", [False])
+@pytest.mark.parametrize("use_sink", [False])
+@pytest.mark.parametrize("isa", ["vec"])
+def test_varlen_with_paged_kv_normal_vec(
+    seq_lens: list[tuple[int, int]],
+    num_heads: tuple[int, int],
+    head_size: int,
+    sliding_window: int | None,
+    dtype: torch.dtype,
+    block_size: int,
+    soft_cap: float | None,
+    num_blocks: int,
+    use_alibi: bool,
+    use_sink: bool,
+    isa: str,
+) -> None:
+    varlen_with_paged_kv(
+        seq_lens=seq_lens,
+        num_heads=num_heads,
+        head_size=head_size,
+        sliding_window=sliding_window,
+        dtype=dtype,
+        block_size=block_size,
+        soft_cap=soft_cap,
+        num_blocks=num_blocks,
+        use_alibi=use_alibi,
+        use_sink=use_sink,
+        isa=isa,
+    )
+
+
+@pytest.mark.parametrize("seq_lens", SEQ_LENS)
+@pytest.mark.parametrize("num_heads", NUM_HEADS)
+@pytest.mark.parametrize("head_size", HEAD_SIZES)
+@pytest.mark.parametrize("block_size", [96, 128])
+@pytest.mark.parametrize("sliding_window", SLIDING_WINDOWS)
+@pytest.mark.parametrize("dtype", [torch.bfloat16])
+@pytest.mark.parametrize("soft_cap", [None])
+@pytest.mark.parametrize("num_blocks", NUM_BLOCKS)
+@pytest.mark.parametrize("use_alibi", [False])
+@pytest.mark.parametrize("use_sink", [False])
+@pytest.mark.parametrize("isa", ["amx"])
+@pytest.mark.skipif(
+    not torch._C._cpu._is_amx_tile_supported(), reason="no AMX support."
+)
+def test_varlen_with_paged_kv_normal_amx(
+    seq_lens: list[tuple[int, int]],
+    num_heads: tuple[int, int],
+    head_size: int,
+    sliding_window: int | None,
+    dtype: torch.dtype,
+    block_size: int,
+    soft_cap: float | None,
+    num_blocks: int,
+    use_alibi: bool,
+    use_sink: bool,
+    isa: str,
+) -> None:
+    varlen_with_paged_kv(
+        seq_lens=seq_lens,
+        num_heads=num_heads,
+        head_size=head_size,
+        sliding_window=sliding_window,
+        dtype=dtype,
+        block_size=block_size,
+        soft_cap=soft_cap,
+        num_blocks=num_blocks,
+        use_alibi=use_alibi,
+        use_sink=use_sink,
+        isa=isa,
+    )
+
+
+@pytest.mark.parametrize("seq_lens", SEQ_LENS)
+@pytest.mark.parametrize("num_heads", NUM_HEADS)
+@pytest.mark.parametrize("head_size", HEAD_SIZES)
+@pytest.mark.parametrize("block_size", [48])
+@pytest.mark.parametrize("sliding_window", SLIDING_WINDOWS)
+@pytest.mark.parametrize("dtype", [torch.bfloat16])
+@pytest.mark.parametrize("soft_cap", [None])
+@pytest.mark.parametrize("num_blocks", NUM_BLOCKS)
+@pytest.mark.parametrize("use_alibi", [False])
+@pytest.mark.parametrize("use_sink", [False])
+@pytest.mark.parametrize("isa", ["vec16"])
+def test_varlen_with_paged_kv_normal_vec16(
+    seq_lens: list[tuple[int, int]],
+    num_heads: tuple[int, int],
+    head_size: int,
+    sliding_window: int | None,
+    dtype: torch.dtype,
+    block_size: int,
+    soft_cap: float | None,
+    num_blocks: int,
+    use_alibi: bool,
+    use_sink: bool,
+    isa: str,
+) -> None:
+    varlen_with_paged_kv(
+        seq_lens=seq_lens,
+        num_heads=num_heads,
+        head_size=head_size,
+        sliding_window=sliding_window,
+        dtype=dtype,
+        block_size=block_size,
+        soft_cap=soft_cap,
+        num_blocks=num_blocks,
+        use_alibi=use_alibi,
+        use_sink=use_sink,
+        isa=isa,
+    )
+
+
+@pytest.mark.parametrize("seq_lens", SEQ_LENS)
+@pytest.mark.parametrize("num_heads", NUM_HEADS)
+@pytest.mark.parametrize("head_size", [96])
+@pytest.mark.parametrize("block_size", [128])
+@pytest.mark.parametrize("sliding_window", SLIDING_WINDOWS)
+@pytest.mark.parametrize("dtype", [torch.bfloat16])
+@pytest.mark.parametrize("soft_cap", [50])
+@pytest.mark.parametrize("num_blocks", NUM_BLOCKS)
+@pytest.mark.parametrize("use_alibi", [False])
+@pytest.mark.parametrize("use_sink", [False])
+@pytest.mark.parametrize(
+    "isa", ["amx"] if torch._C._cpu._is_amx_tile_supported() else ["vec"]
+)
+def test_varlen_with_paged_kv_softcap(
+    seq_lens: list[tuple[int, int]],
+    num_heads: tuple[int, int],
+    head_size: int,
+    sliding_window: int | None,
+    dtype: torch.dtype,
+    block_size: int,
+    soft_cap: float | None,
+    num_blocks: int,
+    use_alibi: bool,
+    use_sink: bool,
+    isa: str,
+) -> None:
+    varlen_with_paged_kv(
+        seq_lens=seq_lens,
+        num_heads=num_heads,
+        head_size=head_size,
+        sliding_window=sliding_window,
+        dtype=dtype,
+        block_size=block_size,
+        soft_cap=soft_cap,
+        num_blocks=num_blocks,
+        use_alibi=use_alibi,
+        use_sink=use_sink,
+        isa=isa,
+    )
+
+
+@pytest.mark.parametrize("seq_lens", SEQ_LENS)
+@pytest.mark.parametrize("num_heads", NUM_HEADS)
+@pytest.mark.parametrize("head_size", [96])
+@pytest.mark.parametrize("block_size", [128])
+@pytest.mark.parametrize("sliding_window", SLIDING_WINDOWS)
+@pytest.mark.parametrize("dtype", [torch.bfloat16])
+@pytest.mark.parametrize("soft_cap", [None])
+@pytest.mark.parametrize("num_blocks", NUM_BLOCKS)
+@pytest.mark.parametrize("use_alibi", [True])
+@pytest.mark.parametrize("use_sink", [False])
+@pytest.mark.parametrize(
+    "isa", ["amx"] if torch._C._cpu._is_amx_tile_supported() else ["vec"]
+)
+def test_varlen_with_paged_kv_alibi(
+    seq_lens: list[tuple[int, int]],
+    num_heads: tuple[int, int],
+    head_size: int,
+    sliding_window: int | None,
+    dtype: torch.dtype,
+    block_size: int,
+    soft_cap: float | None,
+    num_blocks: int,
+    use_alibi: bool,
+    use_sink: bool,
+    isa: str,
+) -> None:
+    varlen_with_paged_kv(
+        seq_lens=seq_lens,
+        num_heads=num_heads,
+        head_size=head_size,
+        sliding_window=sliding_window,
+        dtype=dtype,
+        block_size=block_size,
+        soft_cap=soft_cap,
+        num_blocks=num_blocks,
+        use_alibi=use_alibi,
+        use_sink=use_sink,
+        isa=isa,
+    )
+
+
+@pytest.mark.parametrize("seq_lens", SEQ_LENS)
+@pytest.mark.parametrize("num_heads", NUM_HEADS)
+@pytest.mark.parametrize("head_size", [96])
+@pytest.mark.parametrize("block_size", [128])
+@pytest.mark.parametrize("sliding_window", SLIDING_WINDOWS)
+@pytest.mark.parametrize("dtype", [torch.bfloat16])
+@pytest.mark.parametrize("soft_cap", [None])
+@pytest.mark.parametrize("num_blocks", NUM_BLOCKS)
+@pytest.mark.parametrize("use_alibi", [False])
+@pytest.mark.parametrize("use_sink", [True])
+@pytest.mark.parametrize(
+    "isa", ["amx"] if torch._C._cpu._is_amx_tile_supported() else ["vec"]
+)
+def test_varlen_with_paged_kv_sink(
+    seq_lens: list[tuple[int, int]],
+    num_heads: tuple[int, int],
+    head_size: int,
+    sliding_window: int | None,
+    dtype: torch.dtype,
+    block_size: int,
+    soft_cap: float | None,
+    num_blocks: int,
+    use_alibi: bool,
+    use_sink: bool,
+    isa: str,
+) -> None:
+    varlen_with_paged_kv(
+        seq_lens=seq_lens,
+        num_heads=num_heads,
+        head_size=head_size,
+        sliding_window=sliding_window,
+        dtype=dtype,
+        block_size=block_size,
+        soft_cap=soft_cap,
+        num_blocks=num_blocks,
+        use_alibi=use_alibi,
+        use_sink=use_sink,
+        isa=isa,
+    )
diff --git a/tests/kernels/test_onednn.py b/tests/kernels/test_onednn.py
index c9eca1f86d3a1..4e681ca6ac831 100644
--- a/tests/kernels/test_onednn.py
+++ b/tests/kernels/test_onednn.py
@@ -1,6 +1,5 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
-"""Integration tests for FlexAttention backend vs default backend"""
 
 import pytest
 import torch
diff --git a/tests/models/language/generation/test_common.py b/tests/models/language/generation/test_common.py
index ad37d1ad82c03..0cdb7c9a603f2 100644
--- a/tests/models/language/generation/test_common.py
+++ b/tests/models/language/generation/test_common.py
@@ -38,7 +38,11 @@ AITER_MODEL_LIST = [
     [
         pytest.param(
             "bigscience/bloom-560m",  # bloom - testing alibi slopes
-            marks=[pytest.mark.core_model, pytest.mark.slow_test],
+            marks=[
+                pytest.mark.core_model,
+                pytest.mark.slow_test,
+                pytest.mark.cpu_model,
+            ],
         ),
         pytest.param(
             "openai-community/gpt2",  # gpt2
@@ -55,6 +59,10 @@ AITER_MODEL_LIST = [
                 pytest.mark.slow_test,
             ],
         ),
+        pytest.param(
+            "google/gemma-2-2b-it",  # test hybrid attention
+            marks=[pytest.mark.cpu_model],
+        ),
         pytest.param(
             "zai-org/chatglm3-6b",  # chatglm (text-only)
         ),
@@ -64,7 +72,6 @@ AITER_MODEL_LIST = [
         ),
         pytest.param(
             "openbmb/MiniCPM3-4B",
-            # fused_moe not supported on CPU
             marks=[pytest.mark.core_model, large_gpu_mark(min_gb=32)],
         ),
         pytest.param(
@@ -93,11 +100,7 @@ AITER_MODEL_LIST = [
         pytest.param("bigcode/starcoder2-3b"),  # starcoder2
         pytest.param(
             "TitanML/tiny-mixtral",  # mixtral
-            marks=[pytest.mark.core_model],
-        ),
-        pytest.param(
-            "allenai/OLMoE-1B-7B-0924-Instruct",
-            marks=[pytest.mark.cpu_model],
+            marks=[pytest.mark.core_model, pytest.mark.cpu_model],
         ),
         pytest.param("swiss-ai/Apertus-8B-Instruct-2509"),  # apertus
     ],
diff --git a/tests/models/language/pooling/test_embedding.py b/tests/models/language/pooling/test_embedding.py
index c8deffbf66dba..d1b1c8d3ddf0b 100644
--- a/tests/models/language/pooling/test_embedding.py
+++ b/tests/models/language/pooling/test_embedding.py
@@ -23,8 +23,7 @@ from ...utils import check_embeddings_close
         ),
         pytest.param(
             "intfloat/e5-mistral-7b-instruct",
-            # CPU v1 doesn't support sliding window
-            marks=[pytest.mark.core_model],
+            marks=[pytest.mark.core_model, pytest.mark.cpu_model],
         ),
         pytest.param(
             "ssmits/Qwen2-7B-Instruct-embed-base", marks=[pytest.mark.cpu_model]
diff --git a/tests/models/registry.py b/tests/models/registry.py
index 8f19a048677ec..644d0619215fb 100644
--- a/tests/models/registry.py
+++ b/tests/models/registry.py
@@ -243,7 +243,9 @@ _TEXT_GENERATION_EXAMPLE_MODELS = {
     "FalconH1ForCausalLM": _HfExamplesInfo("tiiuae/Falcon-H1-0.5B-Base"),
     "FlexOlmoForCausalLM": _HfExamplesInfo("allenai/Flex-reddit-2x7B-1T"),
     "GemmaForCausalLM": _HfExamplesInfo("google/gemma-1.1-2b-it"),
-    "Gemma2ForCausalLM": _HfExamplesInfo("google/gemma-2-9b"),
+    "Gemma2ForCausalLM": _HfExamplesInfo(
+        "google/gemma-2-9b", extras={"tiny": "google/gemma-2-2b-it"}
+    ),
     "Gemma3ForCausalLM": _HfExamplesInfo("google/gemma-3-1b-it"),
     "Gemma3nForCausalLM": _HfExamplesInfo("google/gemma-3n-E2B-it"),
     "GlmForCausalLM": _HfExamplesInfo("zai-org/glm-4-9b-chat-hf"),
diff --git a/vllm/_custom_ops.py b/vllm/_custom_ops.py
index 136a3193efb5e..7d70c01cefbb6 100644
--- a/vllm/_custom_ops.py
+++ b/vllm/_custom_ops.py
@@ -2583,6 +2583,88 @@ def onednn_scaled_mm(
     return output
 
 
+def cpu_attn_get_scheduler_metadata(
+    num_reqs: int,
+    num_heads: int,
+    num_kv_heads: int,
+    head_dim: int,
+    seq_lens: torch.Tensor,
+    dtype: torch.dtype,
+    query_start_loc: torch.Tensor,
+    causal: bool,
+    sliding_window_size: int,
+    isa: str,
+    enable_kv_split: bool,
+) -> torch.Tensor:
+    sheduler_metadata = torch.ops._C.get_scheduler_metadata(
+        num_reqs,
+        num_heads,
+        num_kv_heads,
+        head_dim,
+        seq_lens,
+        dtype,
+        query_start_loc,
+        causal,
+        sliding_window_size,
+        isa,
+        enable_kv_split,
+    )
+    return sheduler_metadata
+
+
+def cpu_attn_reshape_and_cache(
+    key: torch.Tensor,
+    value: torch.Tensor,
+    key_cache: torch.Tensor,
+    value_cache: torch.Tensor,
+    slot_mapping: torch.Tensor,
+    isa: str,
+) -> None:
+    torch.ops._C.cpu_attn_reshape_and_cache(
+        key,
+        value,
+        key_cache,
+        value_cache,
+        slot_mapping,
+        isa,
+    )
+
+
+def cpu_attention_with_kv_cache(
+    query: torch.Tensor,
+    key_cache: torch.Tensor,
+    value_cache: torch.Tensor,
+    output: torch.Tensor,
+    query_start_loc: torch.Tensor,
+    seq_lens: torch.Tensor,
+    scale: float,
+    causal: bool,
+    alibi_slopes: torch.Tensor | None,
+    sliding_window: tuple[int, int],
+    block_table: torch.Tensor,
+    softcap: float,
+    scheduler_metadata: torch.Tensor,
+    s_aux: torch.Tensor | None,
+) -> None:
+    torch.ops._C.cpu_attention_with_kv_cache(
+        query,
+        key_cache,
+        value_cache,
+        output,
+        query_start_loc,
+        seq_lens,
+        scale,
+        causal,
+        alibi_slopes,
+        sliding_window[0],
+        sliding_window[1],
+        block_table,
+        softcap,
+        scheduler_metadata,
+        s_aux,
+    )
+
+
 if hasattr(torch.ops._qutlass_C, "matmul_mxf4_bf16_tn"):
 
     @register_fake("_qutlass_C::matmul_mxf4_bf16_tn")
diff --git a/vllm/attention/backends/registry.py b/vllm/attention/backends/registry.py
index 768d15cb9c82b..f07a6059be377 100644
--- a/vllm/attention/backends/registry.py
+++ b/vllm/attention/backends/registry.py
@@ -49,7 +49,7 @@ class AttentionBackendEnum(enum.Enum, metaclass=_AttentionBackendEnumMeta):
     ROCM_AITER_FA = (
         "vllm.v1.attention.backends.rocm_aiter_fa.AiterFlashAttentionBackend"
     )
-    TORCH_SDPA = "vllm.v1.attention.backends.cpu_attn.TorchSDPABackend"
+    TORCH_SDPA = ""  # this tag is only used for ViT
     FLASHINFER = "vllm.v1.attention.backends.flashinfer.FlashInferBackend"
     FLASHINFER_MLA = (
         "vllm.v1.attention.backends.mla.flashinfer_mla.FlashInferMLABackend"
@@ -70,6 +70,7 @@ class AttentionBackendEnum(enum.Enum, metaclass=_AttentionBackendEnumMeta):
         "vllm.v1.attention.backends.rocm_aiter_unified_attn."
         "RocmAiterUnifiedAttentionBackend"
     )
+    CPU_ATTN = "vllm.v1.attention.backends.cpu_attn.CPUAttentionBackend"
     # Placeholder for third-party/custom backends - must be registered before use
     CUSTOM = ""
 
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index d3913553320fd..0a82745bf55ab 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -1726,9 +1726,6 @@ class EngineArgs:
                 )
                 _raise_unsupported_error(feature_name=name)
 
-        if current_platform.is_cpu() and model_config.get_sliding_window() is not None:
-            _raise_unsupported_error(feature_name="sliding window (CPU backend)")
-
     def _set_default_args(
         self, usage_context: UsageContext, model_config: ModelConfig
     ) -> None:
diff --git a/vllm/platforms/cpu.py b/vllm/platforms/cpu.py
index 3dec6da897025..2f32496337101 100644
--- a/vllm/platforms/cpu.py
+++ b/vllm/platforms/cpu.py
@@ -8,7 +8,6 @@ import platform
 import subprocess
 import sys
 from dataclasses import dataclass
-from importlib.util import find_spec
 from typing import TYPE_CHECKING
 
 import regex as re
@@ -139,16 +138,15 @@ class CpuPlatform(Platform):
     ) -> str:
         from vllm.attention.backends.registry import AttentionBackendEnum
 
-        if selected_backend and selected_backend != AttentionBackendEnum.TORCH_SDPA:
+        if selected_backend and selected_backend != AttentionBackendEnum.CPU_ATTN:
             logger.info("Cannot use %s backend on CPU.", selected_backend)
         if use_mla:
             raise NotImplementedError("MLA is not supported on CPU.")
         if use_sparse:
             raise NotImplementedError("Sparse Attention is not supported on CPU.")
-        logger.info("Using Torch SDPA backend.")
         if not use_v1:
             raise ValueError("CPU backend only supports V1.")
-        return AttentionBackendEnum.TORCH_SDPA.get_path()
+        return AttentionBackendEnum.CPU_ATTN.get_path()
 
     @classmethod
     def get_device_total_memory(cls, device_id: int = 0) -> int:
@@ -186,15 +184,13 @@ class CpuPlatform(Platform):
 
         cache_config = vllm_config.cache_config
 
-        ipex_available = find_spec("intel_extension_for_pytorch") is not None
+        if cache_config.block_size is None:
+            cache_config.block_size = 128
 
-        if cache_config and cache_config.block_size is None:
-            cache_config.block_size = 128 if ipex_available else 16
-
-        if not ipex_available and cache_config.block_size != 16:
-            raise RuntimeError(
-                f"--block-size={cache_config.block_size} requires"
-                " intel_extension_for_pytorch"
+        if cache_config.block_size % 32 != 0:
+            logger.warning(
+                "CPU backend prefers block_size is multiples of 32, "
+                "otherwise the performance is not optimized."
             )
 
         scheduler_config = vllm_config.scheduler_config
@@ -207,22 +203,11 @@ class CpuPlatform(Platform):
                 "backend is not compatible with FP8 KV cache."
             )
 
-        if cache_config.cache_dtype == "fp8_e4m3":
-            cache_config.cache_dtype = "fp8_e5m2"
+        if cache_config.cache_dtype != "auto":
             logger.warning(
-                "CPU backend doesn't support fp8_e4m3 KV cache type, cast to fp8_e5m2."
+                "CPU backend doesn't support KV cache quantization fallback to auto."
             )
-
-        if (
-            cache_config.cache_dtype != "auto"
-            and model_config is not None
-            and model_config.dtype == torch.half
-        ):
-            logger.warning(
-                "FP8 KV cache on the CPU backend only does not"
-                " support fp16 for now, cast to bf16."
-            )
-            model_config.dtype = torch.bfloat16
+            cache_config.cache_dtype = "auto"
 
         cache_config.cpu_kvcache_space_bytes = CpuPlatform.get_device_total_memory()
 
diff --git a/vllm/utils/__init__.py b/vllm/utils/__init__.py
index b5a7fea2c3571..9b0045279a67e 100644
--- a/vllm/utils/__init__.py
+++ b/vllm/utils/__init__.py
@@ -57,7 +57,6 @@ STR_BACKEND_ENV_VAR: str = "VLLM_ATTENTION_BACKEND"
 # Possible string values of STR_BACKEND_ENV_VAR
 # register, corresponding to possible backends
 STR_FLASHINFER_ATTN_VAL: str = "FLASHINFER"
-STR_TORCH_SDPA_ATTN_VAL: str = "TORCH_SDPA"
 STR_XFORMERS_ATTN_VAL: str = "XFORMERS"
 STR_FLASH_ATTN_VAL: str = "FLASH_ATTN"
 STR_INVALID_VAL: str = "INVALID"
diff --git a/vllm/v1/attention/backends/cpu_attn.py b/vllm/v1/attention/backends/cpu_attn.py
index 0057a7e22882b..674398e19c4ce 100644
--- a/vllm/v1/attention/backends/cpu_attn.py
+++ b/vllm/v1/attention/backends/cpu_attn.py
@@ -1,22 +1,21 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 from dataclasses import dataclass
-from typing import ClassVar, Optional
+from typing import ClassVar
 
-import numpy as np
 import torch
-from torch.nn.functional import scaled_dot_product_attention
 
+from vllm import _custom_ops as ops
 from vllm.attention.backends.abstract import (
     AttentionBackend,
     AttentionImpl,
     AttentionLayer,
-    AttentionMetadata,
     AttentionType,
     is_quantized_kv_cache,
 )
 from vllm.config import VllmConfig
 from vllm.logger import init_logger
+from vllm.platforms import CpuArchEnum, current_platform
 from vllm.v1.attention.backends.utils import (
     AttentionMetadataBuilder,
     CommonAttentionMetadata,
@@ -24,44 +23,38 @@ from vllm.v1.attention.backends.utils import (
 )
 from vllm.v1.kv_cache_interface import AttentionSpec
 
-try:
-    import intel_extension_for_pytorch.llm.modules as ipex_modules
-
-    _use_ipex = True
-# AttributeError is to handle a bug in ipex
-# https://github.com/intel/intel-extension-for-pytorch/pull/813
-except (ImportError, AttributeError):
-    _use_ipex = False
-
-from vllm import _custom_ops as ops
-
 logger = init_logger(__name__)
 
+_CPU_ARCH_PREFER_MIXED_BATCH = (CpuArchEnum.X86,)
 
-class TorchSDPABackend(AttentionBackend):
-    accept_output_buffer: bool = False
+
+class CPUAttentionBackend(AttentionBackend):
+    accept_output_buffer: bool = True
     supported_dtypes: ClassVar[list[torch.dtype]] = [
         torch.float16,
         torch.bfloat16,
         torch.float32,
     ]
 
+    @classmethod
+    def get_supported_dtypes(cls) -> list[torch.dtype]:
+        return [torch.float16, torch.bfloat16, torch.float32]
+
     @classmethod
     def get_supported_head_sizes(cls) -> list[int]:
-        attn_impl = _get_paged_attn_impl()
-        return attn_impl.get_supported_head_sizes()
+        return [32, 64, 96, 128, 160, 192, 224, 256]
 
     @staticmethod
     def get_name() -> str:
-        return "TORCH_SDPA"
+        return "CPU_ATTN"
 
     @staticmethod
-    def get_impl_cls() -> type["TorchSDPABackendImpl"]:
-        return TorchSDPABackendImpl
+    def get_impl_cls() -> type["CPUAttentionBackendImpl"]:
+        return CPUAttentionBackendImpl
 
     @staticmethod
-    def get_builder_cls() -> type["TorchSDPAMetadataBuilderV1"]:
-        return TorchSDPAMetadataBuilderV1
+    def get_builder_cls() -> type["CPUAttentionMetadataBuilder"]:
+        return CPUAttentionMetadataBuilder
 
     @staticmethod
     def get_kv_cache_shape(
@@ -71,9 +64,7 @@ class TorchSDPABackend(AttentionBackend):
         head_size: int,
         cache_dtype_str: str = "auto",
     ) -> tuple[int, ...]:
-        return _get_paged_attn_impl().get_kv_cache_shape(
-            num_blocks, block_size, num_kv_heads, head_size
-        )
+        return 2, num_blocks, num_kv_heads, block_size, head_size
 
     @staticmethod
     def use_cascade_attention(*args, **kwargs) -> bool:
@@ -81,264 +72,26 @@ class TorchSDPABackend(AttentionBackend):
 
 
 @dataclass
-class TorchSDPAMetadata(AttentionMetadata):
-    """Attention metadata for prefill and decode batched together."""
-
-    # Total number of prefill requests.
-    num_prefills: int
-    # Number of prefill tokens.
-    num_prefill_tokens: int
-    # Number of decode tokens. Note that it is equivalent to the number of
-    # decode requests.
-    num_decode_tokens: int
-    # (num_tokens,). The indices of the token slots that input tokens will be
-    # stored into. E.g., if `slot_mapping` is [35, 2, 17] and the block size
-    # is 16, the three tokens are stored in the 3rd slot in block 2, 2nd slot
-    # in block 0, and 1st slot in block 1, respectively.
+class CPUAttentionMetadata:
+    isa: str
+    num_actual_tokens: int  # Number of tokens excluding padding.
+    max_query_len: int
+    query_start_loc: torch.Tensor
+    max_seq_len: int
+    seq_lens: torch.Tensor
+    block_table: torch.Tensor
     slot_mapping: torch.Tensor
-    """Metadata for PagedAttention."""
-    # (batch_size,). The length of sequences (entire tokens seen so far) per
-    # sequence.
-    decode_seq_lens_tensor: torch.Tensor | None
-    # Maximum sequence length in the batch. 0 if it is prefill-only batch.
-    decode_max_seq_len: int
-    # (batch_size, max_blocks_per_seq).
-    # Block addresses per sequence. (Seq id -> list of physical block)
-    # E.g., [0, 1, 2] means tokens are stored in 0th, 1st, and 2nd blocks
-    # in the kv cache. Each block can contain up to block_size tokens.
-    # 2nd dimensions are padded up to max_blocks_per_seq if it is cuda-graph
-    # captured.
-    decode_block_tables: torch.Tensor | None
-    """Metadata for TorchSDPABackend.
-    """
-    # Currently, input sequences can only contain all prompts
-    # or all decoding. True if all sequences are prompts.
-    chunked_prefill: bool
-    seq_lens: list[int] | None = None  # For non-chunked prefill
+    scheduler_metadata: torch.Tensor | None
+    causal: bool = True
 
-    # For chunked prefill only
-    max_query_len: int | None = None
-    prefill_max_seq_len: int | None = None
-    prefill_query_start_loc: torch.Tensor | None = None
-    prefill_seq_start_loc: torch.Tensor | None = None
-    prefill_block_tables: torch.Tensor | None = None
-
-    # For V1 logits index only
-    query_start_loc: torch.Tensor | None = None
-
-    # Begin encoder attn & enc/dec cross-attn fields...
-    # Encoder sequence lengths representation
-    encoder_seq_lens: list[int] | None = None
-    encoder_seq_lens_tensor: torch.Tensor | None = None
-
-    # Maximum sequence length among encoder sequences
-    max_encoder_seq_len: int | None = None
-
-    # Number of tokens input to encoder
-    num_encoder_tokens: int | None = None
-
-    # Cross-attention memory-mapping data structures: slot mapping
-    # and block tables
-    cross_slot_mapping: torch.Tensor | None = None
-    cross_block_tables: torch.Tensor | None = None
-
-    def __post_init__(self):
-        # Set during the execution of the first attention op.
-        # It is a list because it is needed to set per prompt
-        # when alibi slopes is used. It is because of the limitation
-        # from xformer API.
-        # will not appear in the __repr__ and __init__
-        self.attn_bias: list[torch.Tensor] | None = None
-        self.encoder_attn_bias: list[torch.Tensor] | None = None
-        self.cross_attn_bias: list[torch.Tensor] | None = None
-
-    @property
-    def is_all_encoder_attn_metadata_set(self):
-        """
-        All attention metadata required for encoder attention is set.
-        """
-        return (
-            (self.encoder_seq_lens is not None)
-            and (self.encoder_seq_lens_tensor is not None)
-            and (self.max_encoder_seq_len is not None)
-        )
-
-    @property
-    def is_all_cross_attn_metadata_set(self):
-        """
-        All attention metadata required for enc/dec cross-attention is set.
-
-        Superset of encoder attention required metadata.
-        """
-        return (
-            self.is_all_encoder_attn_metadata_set
-            and (self.cross_slot_mapping is not None)
-            and (self.cross_block_tables is not None)
-        )
-
-    @property
-    def prefill_metadata(self) -> Optional["TorchSDPAMetadata"]:
-        if self.num_prefill_tokens == 0:
-            return None
-        return self
-
-    @property
-    def decode_metadata(self) -> Optional["TorchSDPAMetadata"]:
-        if self.num_decode_tokens == 0:
-            return None
-        return self
-
-    def get_seq_lens(
-        self,
-        attn_type: str,
-    ):
-        """
-        Extract appropriate sequence lengths from attention metadata
-        according to attention type.
-
-        Arguments:
-
-        * attn_metadata: Attention metadata structure associated with attention
-        * attn_type: encoder attention, decoder self-attention,
-                    encoder/decoder cross-attention
-
-        Returns:
-        * Appropriate sequence lengths tensor for query
-        * Appropriate sequence lengths tensor for key & value
-        """
-
-        if (
-            attn_type == AttentionType.DECODER
-            or attn_type == AttentionType.ENCODER_ONLY
-        ):
-            seq_lens_q = self.seq_lens
-            seq_lens_kv = self.seq_lens
-        elif attn_type == AttentionType.ENCODER:
-            seq_lens_q = self.encoder_seq_lens
-            seq_lens_kv = self.encoder_seq_lens
-        elif attn_type == AttentionType.ENCODER_DECODER:
-            seq_lens_q = self.seq_lens
-            seq_lens_kv = self.encoder_seq_lens
-        else:
-            raise AttributeError(f"Invalid attention type {str(attn_type)}")
-        return seq_lens_q, seq_lens_kv
-
-    def get_attn_bias(
-        self,
-        attn_type: str,
-    ) -> list[torch.Tensor] | None:
-        """
-        Extract appropriate attention bias from attention metadata
-        according to attention type.
-
-        Arguments:
-
-        * attn_metadata: Attention metadata structure associated with attention
-        * attn_type: encoder attention, decoder self-attention,
-                    encoder/decoder cross-attention
-
-        Returns:
-        * Appropriate attention bias value given the attention type
-        """
-
-        if (
-            attn_type == AttentionType.DECODER
-            or attn_type == AttentionType.ENCODER_ONLY
-        ):
-            return self.attn_bias
-        elif attn_type == AttentionType.ENCODER:
-            return self.encoder_attn_bias
-        elif attn_type == AttentionType.ENCODER_DECODER:
-            return self.cross_attn_bias
-        else:
-            raise AttributeError(f"Invalid attention type {str(attn_type)}")
-
-    def set_attn_bias(
-        self,
-        attn_bias: list[torch.Tensor],
-        attn_type: str,
-    ) -> None:
-        """
-        Update appropriate attention bias field of attention metadata,
-        according to attention type.
-
-        Arguments:
-
-        * attn_metadata: Attention metadata structure associated with attention
-        * attn_bias: The desired attention bias value
-        * attn_type: encoder attention, decoder self-attention,
-                    encoder/decoder cross-attention
-        """
-
-        if (
-            attn_type == AttentionType.DECODER
-            or attn_type == AttentionType.ENCODER_ONLY
-        ):
-            self.attn_bias = attn_bias
-        elif attn_type == AttentionType.ENCODER:
-            self.encoder_attn_bias = attn_bias
-        elif attn_type == AttentionType.ENCODER_DECODER:
-            self.cross_attn_bias = attn_bias
-        else:
-            raise AttributeError(f"Invalid attention type {str(attn_type)}")
-
-    def get_seq_len_block_table_args(
-        self,
-        attn_type: str,
-    ) -> tuple:
-        """
-        The particular choice of sequence-length- and block-table-related
-        attributes which should be extracted from attn_metadata is dependent
-        on the type of attention operation.
-
-        Decoder attn -> select entirely decoder self-attention-related fields
-        Encoder/decoder cross-attn -> select encoder sequence lengths &
-                                    cross-attn block-tables fields
-        Encoder attn -> select encoder sequence lengths fields & no block tables
-
-        Arguments:
-
-        * attn_metadata: Attention metadata structure associated with attention
-        * is_prompt: True if prefill, False otherwise
-        * attn_type: encoder attention, decoder self-attention,
-                    encoder/decoder cross-attention
-
-        Returns:
-
-        * Appropriate sequence-lengths tensor
-        * Appropriate max sequence-length scalar
-        * Appropriate block tables (or None)
-        """
-
-        if (
-            attn_type == AttentionType.DECODER
-            or attn_type == AttentionType.ENCODER_ONLY
-        ):
-            # Decoder self-attention
-            # Choose max_seq_len based on whether we are in prompt_run
-            return (
-                self.decode_seq_lens_tensor,
-                self.decode_max_seq_len,
-                self.decode_block_tables,
-            )
-        elif attn_type == AttentionType.ENCODER_DECODER:
-            # Enc/dec cross-attention KVs match encoder sequence length;
-            # cross-attention utilizes special "cross" block tables
-            return (
-                self.encoder_seq_lens_tensor,
-                self.max_encoder_seq_len,
-                self.cross_block_tables,
-            )
-        elif attn_type == AttentionType.ENCODER:
-            # No block tables associated with encoder attention
-            return (self.encoder_seq_lens_tensor, self.max_encoder_seq_len, None)
-        else:
-            raise AttributeError(f"Invalid attention type {str(attn_type)}")
+    # can be removed after deprecate sdpa
+    use_sdpa_prefill: bool = False
+    num_decode_tokens: int = 0
+    sdpa_attn_masks: list[torch.Tensor | None] | None = None
+    sdpa_start_loc: torch.Tensor | None = None
 
 
-class TorchSDPAMetadataBuilderV1(AttentionMetadataBuilder[TorchSDPAMetadata]):
-    reorder_batch_threshold: int = 1
-
+class CPUAttentionMetadataBuilder(AttentionMetadataBuilder[CPUAttentionMetadata]):
     def __init__(
         self,
         kv_cache_spec: AttentionSpec,
@@ -348,80 +101,104 @@ class TorchSDPAMetadataBuilderV1(AttentionMetadataBuilder[TorchSDPAMetadata]):
     ) -> None:
         super().__init__(kv_cache_spec, layer_names, vllm_config, device)
 
-        self.scheduler_config = vllm_config.scheduler_config
-        self._init_reorder_batch_threshold(1, False)
+        self.use_sdpa_prefill = False
+        reorder_batch_threshold = None
+        if current_platform.get_cpu_architecture() not in _CPU_ARCH_PREFER_MIXED_BATCH:
+            # in this case, decode seqs are reordered to the front of prefill seqs
+            # to split decode and prefill. Then use SDPA for prefill and
+            # cpu_attention_with_kv_cache for decode
+            reorder_batch_threshold = 1
+            self.use_sdpa_prefill = True
 
-        self.seq_start_loc_cpu = torch.zeros(
-            vllm_config.scheduler_config.max_num_seqs + 1,
-            dtype=torch.int32,
-            device="cpu",
+        self._init_reorder_batch_threshold(reorder_batch_threshold, False)
+
+        self.kv_cache_spec = kv_cache_spec
+        self.vllm_config = vllm_config
+
+        parallel_config = vllm_config.parallel_config
+        self.num_kv_heads = vllm_config.model_config.get_num_kv_heads(parallel_config)
+        self.num_heads = vllm_config.model_config.get_num_attention_heads(
+            parallel_config
         )
-        self.seq_start_loc_np = self.seq_start_loc_cpu.numpy()
+        self.head_dim = kv_cache_spec.head_size
+        self.dtype = vllm_config.model_config.dtype
+        self.window_size = getattr(kv_cache_spec, "sliding_window", -1)
+        if self.window_size is None:
+            self.window_size = -1
+        self.block_size = vllm_config.cache_config.block_size
+        self.isa = _get_attn_isa(self.dtype, self.block_size)
 
     def build(
         self,
         common_prefix_len: int,
         common_attn_metadata: CommonAttentionMetadata,
         fast_build: bool = False,
-    ) -> TorchSDPAMetadata:
+    ) -> CPUAttentionMetadata:
         num_reqs = common_attn_metadata.num_reqs
+        num_actual_tokens = common_attn_metadata.num_actual_tokens
         max_query_len = common_attn_metadata.max_query_len
-
-        seq_lens_cpu = common_attn_metadata.seq_lens_cpu
-        seq_lens_np = seq_lens_cpu.numpy()
-
-        query_start_loc_cpu = common_attn_metadata.query_start_loc_cpu
-        query_start_loc_np = query_start_loc_cpu.numpy()
-
-        num_decodes, num_prefills, num_decode_tokens, num_prefill_tokens = (
-            split_decodes_and_prefills(
-                common_attn_metadata,
-                decode_threshold=self.reorder_batch_threshold,
-                require_uniform=True,
-            )
-        )
-
-        max_prefill_seq_len = (
-            seq_lens_np[num_decodes:num_reqs].max().item() if num_prefills > 0 else 0
-        )
-        max_decode_seq_len = (
-            seq_lens_np[:num_decodes].max().item() if num_prefills < num_reqs else 0
-        )
-        self.seq_start_loc_np[0] = 0
-        np.cumsum(seq_lens_np, out=self.seq_start_loc_np[1 : num_reqs + 1])
-
-        slot_mapping = common_attn_metadata.slot_mapping.long()
+        max_seq_len = common_attn_metadata.max_seq_len
+        query_start_loc = common_attn_metadata.query_start_loc
+        seq_lens = common_attn_metadata.seq_lens
         block_table_tensor = common_attn_metadata.block_table_tensor
-        query_start_loc_np = query_start_loc_cpu.numpy()
-        query_start_loc_np[num_decodes : num_reqs + 1] -= num_decode_tokens
+        slot_mapping = common_attn_metadata.slot_mapping
+        causal = common_attn_metadata.causal
 
-        attn_metadata = TorchSDPAMetadata(
-            num_prefills=num_prefills,
-            num_prefill_tokens=num_prefill_tokens,
-            num_decode_tokens=num_decode_tokens,
-            slot_mapping=slot_mapping,
-            # to ensure inference when chunked_prefill is disabled
-            seq_lens=seq_lens_cpu.tolist()[num_decodes:],  # prefill
-            decode_seq_lens_tensor=seq_lens_cpu[:num_decodes],  # decode
-            decode_max_seq_len=max_decode_seq_len,  # decode
-            decode_block_tables=block_table_tensor[:num_decodes],  # decode
-            chunked_prefill=self.scheduler_config.chunked_prefill_enabled,
+        sdpa_start_loc = query_start_loc
+        num_decode_tokens = 0
+        if self.use_sdpa_prefill and causal:
+            # Decoder, need reorder and truncate
+            assert self.reorder_batch_threshold
+            (num_decodes, num_prefills, num_decode_tokens, num_prefill_tokens) = (
+                split_decodes_and_prefills(
+                    common_attn_metadata,
+                    decode_threshold=self.reorder_batch_threshold,
+                    require_uniform=True,
+                )
+            )
+            num_reqs = num_decodes
+            sdpa_start_loc = sdpa_start_loc[num_decodes:] - num_decode_tokens
+            seq_lens = seq_lens[:num_decodes]
+            query_start_loc = query_start_loc[: num_decodes + 1]
+            block_table_tensor = block_table_tensor[:num_decodes]
+
+        sheduler_metadata = None
+        if causal:
+            # for decode batch, use the custom kernel
+            sheduler_metadata = ops.cpu_attn_get_scheduler_metadata(
+                num_reqs=num_reqs,
+                num_heads=self.num_heads,
+                num_kv_heads=self.num_kv_heads,
+                head_dim=self.head_dim,
+                seq_lens=seq_lens,
+                dtype=self.dtype,
+                query_start_loc=query_start_loc,
+                causal=causal,
+                sliding_window_size=self.window_size,
+                isa=self.isa,
+                enable_kv_split=True,
+            )
+
+        attn_metadata = CPUAttentionMetadata(
+            isa=self.isa,
+            num_actual_tokens=num_actual_tokens,
             max_query_len=max_query_len,
-            prefill_max_seq_len=max_prefill_seq_len,
-            prefill_query_start_loc=query_start_loc_cpu[
-                num_decodes : num_reqs + 1
-            ],  # prefill
-            prefill_seq_start_loc=self.seq_start_loc_cpu[
-                num_decodes : num_reqs + 1
-            ],  # prefill
-            prefill_block_tables=block_table_tensor[num_decodes:num_reqs],  # prefill
-            query_start_loc=query_start_loc_cpu[: num_reqs + 1],  # for logits index
+            query_start_loc=query_start_loc,
+            max_seq_len=max_seq_len,
+            seq_lens=seq_lens,
+            block_table=block_table_tensor,
+            slot_mapping=slot_mapping,
+            scheduler_metadata=sheduler_metadata,
+            causal=causal,
+            use_sdpa_prefill=self.use_sdpa_prefill,
+            num_decode_tokens=num_decode_tokens,
+            sdpa_start_loc=sdpa_start_loc,
         )
 
         return attn_metadata
 
 
-class TorchSDPABackendImpl(AttentionImpl[TorchSDPAMetadata]):
+class CPUAttentionBackendImpl(AttentionImpl):
     def __init__(
         self,
         num_heads: int,
@@ -434,37 +211,48 @@ class TorchSDPABackendImpl(AttentionImpl[TorchSDPAMetadata]):
         logits_soft_cap: float | None = None,
         attn_type: str = AttentionType.DECODER,
         kv_sharing_target_layer_name: str | None = None,
+        sinks: torch.Tensor | None = None,
     ) -> None:
-        if kv_sharing_target_layer_name is not None:
-            raise NotImplementedError("KV sharing is not supported in V0.")
-        if logits_soft_cap is not None:
-            logger.warning_once(
-                "Torch SPDA does not support logits soft cap. "
-                "Outputs may be slightly off."
-            )
-        self.paged_attn_impl = _get_paged_attn_impl()
+        self.kv_sharing_target_layer_name = kv_sharing_target_layer_name
         self.num_heads = num_heads
         self.head_size = head_size
         self.scale = float(scale)
+        if logits_soft_cap is not None and attn_type in (
+            AttentionType.ENCODER,
+            AttentionType.ENCODER_ONLY,
+        ):
+            logger.warning_once(
+                "CPU_ATTN does not support logits softcap for"
+                " ENCODER and ENCODER_ONLY, outputs may be slightly off"
+            )
+        if logits_soft_cap is None:
+            logits_soft_cap = 0
+        self.logits_soft_cap = logits_soft_cap
+
         self.num_kv_heads = num_kv_heads
         if alibi_slopes is not None:
             alibi_slopes = torch.tensor(alibi_slopes, dtype=torch.float32)
         self.alibi_slopes = alibi_slopes
-        self.sliding_window = sliding_window
+        if sliding_window is None:
+            self.sliding_window = (-1, -1)
+        elif attn_type == AttentionType.ENCODER_ONLY:
+            self.sliding_window = (sliding_window - 1, sliding_window - 1)
+        else:
+            self.sliding_window = (sliding_window - 1, 0)
         self.kv_cache_dtype = kv_cache_dtype
-
         self.num_queries_per_kv = self.num_heads // self.num_kv_heads
-        self.need_mask = (
-            self.alibi_slopes is not None or self.sliding_window is not None
-        )
 
-        if is_quantized_kv_cache(kv_cache_dtype) and not _use_ipex:
-            raise NotImplementedError(
-                "Torch SDPA backend FP8 KV cache requires "
-                "intel_extension_for_pytorch support."
-            )
+        if is_quantized_kv_cache(kv_cache_dtype):
+            raise NotImplementedError("FP8 KV cache is unsupported in CPU_ATTN")
         self.attn_type = attn_type
 
+        self.sinks = sinks
+        if self.sinks is not None:
+            assert self.sinks.shape[0] == num_heads, (
+                "Sinks must have the same number of heads as the number of "
+                "heads in the layer"
+            )
+
     def forward(
         self,
         layer: AttentionLayer,
@@ -472,196 +260,130 @@ class TorchSDPABackendImpl(AttentionImpl[TorchSDPAMetadata]):
         key: torch.Tensor,
         value: torch.Tensor,
         kv_cache: torch.Tensor,
-        attn_metadata: TorchSDPAMetadata,  # type: ignore
+        attn_metadata: CPUAttentionMetadata | None,
         output: torch.Tensor | None = None,
         output_scale: torch.Tensor | None = None,
         output_block_scale: torch.Tensor | None = None,
     ) -> torch.Tensor:
-        """Forward pass with torch SDPA and PagedAttention.
+        """Forward pass for CPU attention backend.
 
         Args:
-            query: shape = [num_tokens, num_heads * head_size]
-            key: shape = [num_tokens, num_kv_heads * head_size]
-            value: shape = [num_tokens, num_kv_heads * head_size]
+            query: shape = [num_tokens, num_heads, head_size]
+            key: shape = [num_tokens, num_kv_heads, head_size]
+            value: shape = [num_tokens, num_kv_heads, head_size]
             kv_cache: shape =
-                [2, num_blocks, block_size * num_kv_heads * head_size]
-                NOTE: kv_cache will be an empty tensor with shape [0]
-                for profiling run.
+                [2, num_blocks, num_kv_heads, block_size, head_size]
             attn_metadata: Metadata for attention.
         Returns:
             shape = [num_tokens, num_heads * head_size]
         """
+        assert output is not None, "Output tensor must be provided."
         if output_scale is not None or output_block_scale is not None:
             raise NotImplementedError(
                 "fused output quantization is not yet supported"
-                " for TorchSDPABackendImpl"
+                " for CPUAttentionBackendImpl"
             )
 
         # For warming-up
         if attn_metadata is None:
-            return query
+            return output
 
-        attn_type = self.attn_type
-        if attn_type == AttentionType.ENCODER and (
-            not attn_metadata.is_all_encoder_attn_metadata_set
+        num_actual_tokens = attn_metadata.num_actual_tokens
+
+        # Handle encoder attention differently - no KV cache needed
+        if self.attn_type in (AttentionType.ENCODER_ONLY, AttentionType.ENCODER):
+            # For encoder attention,
+            return self._run_sdpa_forward(
+                query[:num_actual_tokens],
+                key[:num_actual_tokens],
+                value[:num_actual_tokens],
+                output[:num_actual_tokens],
+                attn_metadata,
+                self.attn_type,
+            )
+
+        # For decoder and cross-attention, use KV cache, size are
+        # [num_blocks, num_kv_heads, block_size, head_size]
+        key_cache, value_cache = kv_cache.unbind(0)
+
+        # key and value may be None in the case of cross attention. They are
+        # calculated once based on the output from the encoder and then cached
+        # in KV cache.
+        if (
+            self.kv_sharing_target_layer_name is None
+            and key is not None
+            and value is not None
         ):
-            raise AttributeError(
-                "Encoder attention requires setting encoder metadata attributes."
-            )
-        elif attn_type == AttentionType.ENCODER_DECODER and (
-            not attn_metadata.is_all_cross_attn_metadata_set
-        ):
-            raise AttributeError(
-                "Encoder/decoder cross-attention "
-                "requires setting cross-attention "
-                "metadata attributes."
-            )
-
-        # Reshape the query, key, and value tensors.
-        query = query.view(-1, self.num_heads, self.head_size)
-        if key is not None:
-            assert value is not None
-            key = key.view(-1, self.num_kv_heads, self.head_size)
-            value = value.view(-1, self.num_kv_heads, self.head_size)
-        else:
-            assert value is None
-
-        if attn_type != AttentionType.ENCODER and kv_cache.numel() > 0:
-            # KV-cache during decoder-self- or
-            # encoder-decoder-cross-attention, but not
-            # during encoder attention.
-            #
-            # Even if there are no new key/value pairs to cache,
-            # we still need to break out key_cache and value_cache
-            # i.e. for later use by paged attention
-            key_cache, value_cache = self.paged_attn_impl.split_kv_cache(
-                kv_cache, self.num_kv_heads, self.head_size
-            )
-
-            if (key is not None) and (value is not None):
-                if attn_type == AttentionType.ENCODER_DECODER:
-                    # Update cross-attention KV cache (prefill-only)
-                    # During cross-attention decode, key & value will be None,
-                    # preventing this IF-statement branch from running
-                    updated_slot_mapping = attn_metadata.cross_slot_mapping
-                else:
-                    # Update self-attention KV cache (prefill/decode)
-                    updated_slot_mapping = attn_metadata.slot_mapping
-
-                self.paged_attn_impl.write_to_paged_cache(
-                    key,
-                    value,
-                    key_cache,
-                    value_cache,
-                    updated_slot_mapping,
-                    self.kv_cache_dtype,
-                    layer._k_scale,
-                    layer._v_scale,
-                )
-
-        if attn_type != AttentionType.ENCODER:
-            # Decoder self-attention supports chunked prefill.
-            # Encoder/decoder cross-attention requires no chunked
-            # prefill (100% prefill or 100% decode tokens, no mix)
-            num_prefill_tokens = attn_metadata.num_prefill_tokens
-            num_decode_tokens = attn_metadata.num_decode_tokens
-        else:
-            # Encoder attention - chunked prefill is not applicable;
-            # derive token-count from query shape & and treat them
-            # as 100% prefill tokens
-            assert attn_metadata.num_encoder_tokens is not None
-            num_prefill_tokens = attn_metadata.num_encoder_tokens
-            num_decode_tokens = 0
-
-        if attn_type == AttentionType.DECODER:
-            # Only enforce this shape-constraint for decoder
-            # self-attention
-            assert key.shape[0] == num_prefill_tokens + num_decode_tokens
-            assert value.shape[0] == num_prefill_tokens + num_decode_tokens
-
-        output = torch.empty_like(query)
-        if prefill_meta := attn_metadata.prefill_metadata:
-            if not prefill_meta.prefill_metadata.chunked_prefill:  # type: ignore
-                assert attn_metadata.seq_lens is not None
-                self._run_sdpa_forward(
-                    output, query, key, value, prefill_meta, attn_type=attn_type
-                )
-            else:
-                # prefix-enabled attention
-                assert not self.need_mask
-                import intel_extension_for_pytorch.llm.modules as ipex_modules
-
-                output = torch.empty_like(query)
-                ipex_modules.PagedAttention.flash_attn_varlen_func(
-                    output[prefill_meta.num_decode_tokens :, :, :],
-                    query[prefill_meta.num_decode_tokens :, :, :],
-                    key_cache,
-                    value_cache,
-                    prefill_meta.prefill_query_start_loc,
-                    prefill_meta.prefill_seq_start_loc,
-                    prefill_meta.max_query_len,
-                    prefill_meta.prefill_max_seq_len,
-                    self.scale,
-                    True,
-                    prefill_meta.prefill_block_tables,
-                    self.alibi_slopes,
-                )
-        if decode_meta := attn_metadata.decode_metadata:
-            assert attn_type != AttentionType.ENCODER_ONLY, (
-                "Encoder-only models should not have decode metadata."
-            )
-            # Decoding run.
-            (
-                seq_lens_arg,
-                max_seq_len_arg,
-                block_tables_arg,
-            ) = decode_meta.get_seq_len_block_table_args(attn_type)
-
-            self.paged_attn_impl.forward_decode(
-                output[: attn_metadata.num_decode_tokens, :, :],
-                query[: attn_metadata.num_decode_tokens, :, :],
+            ops.cpu_attn_reshape_and_cache(
+                key,
+                value,
                 key_cache,
                 value_cache,
-                block_tables_arg,
-                seq_lens_arg,
-                max_seq_len_arg,
-                self.kv_cache_dtype,
-                self.num_kv_heads,
-                self.scale,
-                self.alibi_slopes,
-                layer._k_scale,
-                layer._v_scale,
+                attn_metadata.slot_mapping,
+                attn_metadata.isa,
             )
 
-        # Reshape the output tensor.
-        return output.view(-1, self.num_heads * self.head_size)
+        if attn_metadata.use_sdpa_prefill:
+            assert self.sinks is None, "Attention sink is unsupported in SDPA prefill"
+            num_decode_tokens = attn_metadata.num_decode_tokens
+            self._run_sdpa_forward(
+                query[num_decode_tokens:num_actual_tokens],
+                key[num_decode_tokens:num_actual_tokens],
+                value[num_decode_tokens:num_actual_tokens],
+                output[num_decode_tokens:num_actual_tokens],
+                attn_metadata,
+                self.attn_type,
+            )
+            num_actual_tokens = num_decode_tokens
+
+        if num_actual_tokens > 0:
+            ops.cpu_attention_with_kv_cache(
+                query=query[:num_actual_tokens],
+                key_cache=key_cache,
+                value_cache=value_cache,
+                output=output[:num_actual_tokens],  # type: ignore
+                query_start_loc=attn_metadata.query_start_loc,
+                seq_lens=attn_metadata.seq_lens,
+                scale=self.scale,
+                causal=attn_metadata.causal,
+                alibi_slopes=self.alibi_slopes,  # type: ignore
+                sliding_window=self.sliding_window,
+                block_table=attn_metadata.block_table,
+                softcap=self.logits_soft_cap,
+                scheduler_metadata=attn_metadata.scheduler_metadata,
+                s_aux=self.sinks,
+            )
+
+        return output
 
     def _run_sdpa_forward(
         self,
-        output: torch.Tensor,
         query: torch.Tensor,
         key: torch.Tensor,
         value: torch.Tensor,
-        attn_metadata: TorchSDPAMetadata,
-        attn_type: str = AttentionType.DECODER,
-    ) -> None:
-        attn_masks = attn_metadata.get_attn_bias(attn_type)
+        output: torch.Tensor,
+        attn_metadata: CPUAttentionMetadata,
+        attn_type: str,
+    ) -> torch.Tensor:
+        attn_masks = attn_metadata.sdpa_attn_masks
         if attn_masks is None:
             if self.alibi_slopes is not None:
                 attn_masks = _make_alibi_bias(
                     self.alibi_slopes,
                     query.dtype,
-                    attn_metadata.seq_lens,  # type: ignore
+                    attn_metadata.sdpa_start_loc,
                 )
-            elif self.sliding_window is not None:
+            elif self.sliding_window[0] != -1 or self.sliding_window[1] != -1:
                 assert attn_metadata.seq_lens is not None
                 attn_masks = _make_sliding_window_bias(
-                    attn_metadata.seq_lens, self.sliding_window, query.dtype
+                    attn_metadata.sdpa_start_loc,
+                    self.sliding_window[0],
+                    self.sliding_window[1],
+                    query.dtype,
                 )
             else:
-                seq_lens, _ = attn_metadata.get_seq_lens(attn_type)
-                attn_masks = [None] * len(seq_lens)
-            attn_metadata.set_attn_bias(attn_masks, attn_type)
+                attn_masks = [None] * (attn_metadata.sdpa_start_loc.size(0) - 1)  # type: ignore
+            attn_metadata.sdpa_attn_masks = attn_masks
 
         query = query.movedim(0, query.dim() - 2)
         key = key.movedim(0, key.dim() - 2)
@@ -673,21 +395,16 @@ class TorchSDPABackendImpl(AttentionImpl[TorchSDPAMetadata]):
 
         causal_attn = attn_type == AttentionType.DECODER
 
-        seq_lens_q, seq_lens_kv = attn_metadata.get_seq_lens(attn_type)
-        # Incoming Q and KV contain decoded tokens as well, hence start at an offset
-        # equal to num_decode_tokens since decode requests appear first
-        start_q, start_kv = (
-            attn_metadata.num_decode_tokens,
-            attn_metadata.num_decode_tokens,
-        )
-        for seq_len_q, seq_len_kv, mask in zip(seq_lens_q, seq_lens_kv, attn_masks):
-            end_q = start_q + seq_len_q
-            end_kv = start_kv + seq_len_kv
+        sdpa_start_loc = attn_metadata.sdpa_start_loc.numpy()  # type: ignore
+        for i in range(len(attn_masks)):
+            mask = attn_masks[i]
+            start_q = sdpa_start_loc[i]
+            end_q = sdpa_start_loc[i + 1]
             sub_out = (
-                scaled_dot_product_attention(
+                torch.nn.functional.scaled_dot_product_attention(
                     query[None, :, start_q:end_q, :],
-                    key[None, :, start_kv:end_kv, :],
-                    value[None, :, start_kv:end_kv, :],
+                    key[None, :, start_q:end_q, :],
+                    value[None, :, start_q:end_q, :],
                     attn_mask=mask,
                     dropout_p=0.0,
                     is_causal=causal_attn and mask is None,
@@ -697,17 +414,20 @@ class TorchSDPABackendImpl(AttentionImpl[TorchSDPAMetadata]):
                 .movedim(query.dim() - 2, 0)
             )
             output[start_q:end_q, :, :] = sub_out
-            start_q, start_kv = end_q, end_kv
+        return output
 
 
 def _make_alibi_bias(
     alibi_slopes: torch.Tensor,
     dtype: torch.dtype,
-    seq_lens: list[int],
+    sdpa_start_loc: torch.Tensor,
 ) -> list[torch.Tensor]:
     attn_biases: list[torch.Tensor] = []
-    for seq_len in seq_lens:
-        bias = torch.arange(seq_len, dtype=dtype)
+    seq_num = sdpa_start_loc.size(0) - 1
+    sdpa_start_loc = sdpa_start_loc.numpy()  # type: ignore
+    for i in range(seq_num):
+        seq_len = sdpa_start_loc[i + 1] - sdpa_start_loc[i]
+        bias = torch.arange(seq_len, dtype=dtype)  # type: ignore
         # NOTE(zhuohan): HF uses
         #     `bias = bias[None, :].repeat(seq_len, 1)`
         # here. We find that both biases give the same results, but
@@ -719,7 +439,7 @@ def _make_alibi_bias(
         bias = bias[None, :].repeat((num_heads, 1, 1))
         bias.mul_(alibi_slopes[:, None, None]).unsqueeze_(0)
         inf_mask = (
-            torch.empty((1, seq_len, seq_len), dtype=bias.dtype)
+            torch.empty((1, seq_len, seq_len), dtype=bias.dtype)  # type: ignore
             .fill_(-torch.inf)
             .triu_(diagonal=1)
         )
@@ -729,210 +449,37 @@ def _make_alibi_bias(
 
 
 def _make_sliding_window_bias(
-    seq_lens: list[int],
-    window_size: int | None,
+    sdpa_start_loc: torch.Tensor,
+    left_window_size: int,
+    right_window_size: int,
     dtype: torch.dtype,
 ) -> list[torch.Tensor]:
     attn_biases: list[torch.Tensor] = []
-    for seq_len in seq_lens:
-        tensor = torch.full(
-            (1, seq_len, seq_len),
-            dtype=dtype,
+    seq_num = sdpa_start_loc.size(0) - 1
+    sdpa_start_loc = sdpa_start_loc.numpy()  # type: ignore
+    for i in range(seq_num):
+        seq_len = sdpa_start_loc[i + 1] - sdpa_start_loc[i]
+        mask = torch.full(  # type: ignore
+            (1, seq_len, seq_len),  # type: ignore
             fill_value=1,
+            dtype=dtype,
         )
-        shift = 0
-        mask = torch.tril(tensor, diagonal=shift).to(dtype)  # type: ignore
-        if window_size is not None:
-            mask = torch.triu(mask, diagonal=shift - window_size + 1)
+
+        if right_window_size != -1:
+            mask = torch.tril(mask, diagonal=right_window_size)
+        if left_window_size != -1:
+            mask = torch.triu(mask, diagonal=-left_window_size)
         mask = torch.log(mask)
-        attn_biases.append(mask.to(dtype))
+        attn_biases.append(mask)
 
     return attn_biases
 
 
-class _PagedAttention:
-    @staticmethod
-    def get_supported_head_sizes() -> list[int]:
-        return [32, 64, 80, 96, 112, 128, 192, 256]
-
-    @staticmethod
-    def get_kv_cache_shape(
-        num_blocks: int,
-        block_size: int,
-        num_kv_heads: int,
-        head_size: int,
-        *args,
-    ) -> tuple[int, ...]:
-        return 2, num_blocks, block_size * num_kv_heads * head_size
-
-    @staticmethod
-    def split_kv_cache(
-        kv_cache: torch.Tensor,
-        num_kv_heads: int,
-        head_size: int,
-        *args,
-    ) -> tuple[torch.Tensor, torch.Tensor]:
-        x = 16 // kv_cache.element_size()
-        num_blocks = kv_cache.shape[1]
-
-        key_cache = kv_cache[0]
-        key_cache = key_cache.view(num_blocks, num_kv_heads, head_size // x, -1, x)
-        value_cache = kv_cache[1]
-        value_cache = value_cache.view(num_blocks, num_kv_heads, head_size, -1)
-        return key_cache, value_cache
-
-    @staticmethod
-    def write_to_paged_cache(
-        key: torch.Tensor,
-        value: torch.Tensor,
-        key_cache: torch.Tensor,
-        value_cache: torch.Tensor,
-        slot_mapping: torch.Tensor,
-        kv_cache_dtype: str,
-        k_scale: torch.Tensor,
-        v_scale: torch.Tensor,
-        *args,
-    ) -> None:
-        ops.reshape_and_cache(
-            key,
-            value,
-            key_cache,
-            value_cache,
-            slot_mapping.flatten(),
-            kv_cache_dtype,
-            k_scale,
-            v_scale,
-        )
-
-    @staticmethod
-    def forward_decode(
-        output: torch.Tensor,
-        query: torch.Tensor,
-        key_cache: torch.Tensor,
-        value_cache: torch.Tensor,
-        block_tables: torch.Tensor,
-        context_lens: torch.Tensor,
-        max_context_len: int,
-        kv_cache_dtype: str,
-        num_kv_heads: int,
-        scale: float,
-        alibi_slopes: torch.Tensor | None,
-        k_scale: torch.Tensor,
-        v_scale: torch.Tensor,
-        *args,
-    ) -> None:
-        tp_rank: int = 0
-        blocksparse_local_blocks: int = 0
-        blocksparse_vert_stride: int = 0
-        blocksparse_block_size: int = 64
-        blocksparse_head_sliding_step: int = 0
-        block_size = value_cache.shape[3]
-
-        ops.paged_attention_v1(
-            output,
-            query,
-            key_cache,
-            value_cache,
-            num_kv_heads,
-            scale,
-            block_tables,
-            context_lens,
-            block_size,
-            max_context_len,
-            alibi_slopes,
-            kv_cache_dtype,
-            k_scale,
-            v_scale,
-            tp_rank,
-            blocksparse_local_blocks,
-            blocksparse_vert_stride,
-            blocksparse_block_size,
-            blocksparse_head_sliding_step,
-        )
-
-
-class _IPEXPagedAttention(_PagedAttention):
-    @staticmethod
-    def get_supported_head_sizes() -> list[int]:
-        return []
-
-    @staticmethod
-    def split_kv_cache(
-        kv_cache: torch.Tensor,
-        num_kv_heads: int,
-        head_size: int,
-        *args,
-    ) -> tuple[torch.Tensor, torch.Tensor]:
-        num_blocks = kv_cache.shape[1]
-
-        key_cache = kv_cache[0]
-        key_cache = key_cache.view(num_blocks, num_kv_heads, -1, head_size)
-        value_cache = kv_cache[1]
-        value_cache = value_cache.view(num_blocks, num_kv_heads, -1, head_size)
-        return key_cache, value_cache
-
-    @staticmethod
-    def write_to_paged_cache(
-        key: torch.Tensor,
-        value: torch.Tensor,
-        key_cache: torch.Tensor,
-        value_cache: torch.Tensor,
-        slot_mapping: torch.Tensor,
-        kv_cache_dtype: str,
-        k_scale: torch.Tensor,
-        v_scale: torch.Tensor,
-        *args,
-    ) -> None:
-        ipex_modules.PagedAttention.reshape_and_cache(
-            key, value, key_cache, value_cache, slot_mapping.flatten().int()
-        )
-
-    @staticmethod
-    def forward_decode(
-        output: torch.Tensor,
-        query: torch.Tensor,
-        key_cache: torch.Tensor,
-        value_cache: torch.Tensor,
-        block_tables: torch.Tensor,
-        context_lens: torch.Tensor,
-        max_context_len: int,
-        kv_cache_dtype: str,
-        num_kv_heads: int,
-        scale: float,
-        alibi_slopes: torch.Tensor | None,
-        k_scale: torch.Tensor,
-        v_scale: torch.Tensor,
-        *args,
-    ) -> None:
-        block_size = value_cache.shape[2]
-        head_mapping = (
-            torch.arange(
-                0,
-                num_kv_heads,
-                device="cpu",
-                dtype=torch.int32,
-            )
-            .view(num_kv_heads, 1)
-            .repeat_interleave(query.size(1) // num_kv_heads)
-            .flatten()
-        )
-        ipex_modules.PagedAttention.single_query_cached_kv_attention(
-            output,
-            query.contiguous(),
-            key_cache,
-            value_cache,
-            head_mapping,
-            scale,
-            block_tables,
-            context_lens,
-            block_size,
-            max_context_len,
-            alibi_slopes,
-        )
-
-
-def _get_paged_attn_impl():
-    if _use_ipex:
-        return _IPEXPagedAttention
+def _get_attn_isa(dtype: torch.dtype, block_size: int) -> str:
+    supports_amx = torch._C._cpu._is_amx_tile_supported()
+    if supports_amx and dtype in (torch.bfloat16,) and block_size % 32 == 0:
+        return "amx"
+    elif block_size % 32 == 0:
+        return "vec"
     else:
-        return _PagedAttention
+        return "vec16"
diff --git a/vllm/v1/attention/backends/utils.py b/vllm/v1/attention/backends/utils.py
index 07dfbc766acd1..751c5c15a4c98 100644
--- a/vllm/v1/attention/backends/utils.py
+++ b/vllm/v1/attention/backends/utils.py
@@ -265,7 +265,7 @@ class AttentionMetadataBuilder(abc.ABC, Generic[M]):
 
     def _init_reorder_batch_threshold(
         self,
-        reorder_batch_threshold: int = 1,
+        reorder_batch_threshold: int | None = 1,
         supports_spec_as_decode: bool = False,
         supports_dcp_with_varlen: bool = False,
     ) -> None:
diff --git a/vllm/v1/worker/cpu_model_runner.py b/vllm/v1/worker/cpu_model_runner.py
index 5aebfec06dfd5..ceb1cf64b5889 100644
--- a/vllm/v1/worker/cpu_model_runner.py
+++ b/vllm/v1/worker/cpu_model_runner.py
@@ -1,7 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 from contextlib import contextmanager
-from typing import TYPE_CHECKING, Any
+from typing import Any
 
 import torch
 import torch.nn as nn
@@ -12,9 +12,6 @@ from vllm.model_executor.model_loader import get_model
 from vllm.v1.utils import CpuGpuBuffer
 from vllm.v1.worker.gpu_model_runner import GPUModelRunner
 
-if TYPE_CHECKING:
-    from vllm.v1.core.sched.output import SchedulerOutput
-
 logger = init_logger(__name__)
 
 
@@ -31,15 +28,6 @@ class CPUModelRunner(GPUModelRunner):
 
         self._postprocess_tensors()
 
-    # Note: Remove the override after new attention backend finished
-    def _may_reorder_batch(self, scheduler_output: "SchedulerOutput") -> None:
-        if len(self.kv_cache_config.kv_cache_groups) > 1:
-            raise ValueError(
-                "Multiple KVCacheGroups is not"
-                "currently supported with CPU model runner."
-            )
-        super()._may_reorder_batch(scheduler_output)
-
     def _postprocess_tensors(self) -> None:
         # Note: replace device tensors with cpu tensors
         def replace_tensor(obj: Any, cpu_attr_name: str, device_attr_name) -> None:

From 9f0247cfa40a52356aa7860c163c062eb086d266 Mon Sep 17 00:00:00 2001
From: Andreas Karatzas <akaratza@amd.com>
Date: Tue, 11 Nov 2025 20:34:36 -0600
Subject: [PATCH 345/976] `VLLM_USE_TRITON_FLASH_ATTN` V0 variable deprecation
 (#27611)

Signed-off-by: Andreas Karatzas <akaratza@amd.com>
Signed-off-by: Andreas Karatzas <Andreas.Karatzas@amd.com>
---
 .../scripts/hardware_ci/run-amd-test.sh       |   8 +-
 tests/kernels/test_triton_flash_attention.py  | 516 ----------
 .../language/pooling/test_classification.py   |   6 -
 .../models/language/pooling/test_embedding.py |   7 -
 .../pooling/test_mm_classifier_conversion.py  |  13 -
 tests/models/language/pooling/test_reward.py  |   6 -
 .../multimodal/generation/test_common.py      |   8 -
 .../generation/test_phi4_multimodal.py        |   7 -
 .../multimodal/generation/test_phi4mm.py      |   7 -
 tests/quantization/test_quark.py              |   5 -
 vllm/attention/ops/triton_flash_attention.py  | 932 ------------------
 vllm/envs.py                                  |   6 -
 vllm/platforms/rocm.py                        |  21 +-
 vllm/usage/usage_lib.py                       |   1 -
 vllm/v1/attention/backends/mla/triton_mla.py  |  57 +-
 15 files changed, 12 insertions(+), 1588 deletions(-)
 delete mode 100644 tests/kernels/test_triton_flash_attention.py
 delete mode 100644 vllm/attention/ops/triton_flash_attention.py

diff --git a/.buildkite/scripts/hardware_ci/run-amd-test.sh b/.buildkite/scripts/hardware_ci/run-amd-test.sh
index 58fd435691f4a..0e5b21ddf25b3 100755
--- a/.buildkite/scripts/hardware_ci/run-amd-test.sh
+++ b/.buildkite/scripts/hardware_ci/run-amd-test.sh
@@ -78,17 +78,13 @@ HF_MOUNT="/root/.cache/huggingface"
 commands=$@
 echo "Commands:$commands"
 
-if [[ $commands == *"pytest -v -s basic_correctness/test_basic_correctness.py"* ]]; then
-  commands=${commands//"pytest -v -s basic_correctness/test_basic_correctness.py"/"VLLM_USE_TRITON_FLASH_ATTN=0 pytest -v -s basic_correctness/test_basic_correctness.py"}
-fi
+commands=${commands//"pytest -v -s basic_correctness/test_basic_correctness.py"/"pytest -v -s basic_correctness/test_basic_correctness.py"}
 
 if [[ $commands == *"pytest -v -s models/test_registry.py"* ]]; then
   commands=${commands//"pytest -v -s models/test_registry.py"/"pytest -v -s models/test_registry.py -k 'not BambaForCausalLM and not GritLM and not Mamba2ForCausalLM and not Zamba2ForCausalLM'"}
 fi
 
-if [[ $commands == *"pytest -v -s compile/test_basic_correctness.py"* ]]; then
-  commands=${commands//"pytest -v -s compile/test_basic_correctness.py"/"VLLM_USE_TRITON_FLASH_ATTN=0 pytest -v -s compile/test_basic_correctness.py"}
-fi
+commands=${commands//"pytest -v -s compile/test_basic_correctness.py"/"pytest -v -s compile/test_basic_correctness.py"}
 
 if [[ $commands == *"pytest -v -s lora"* ]]; then
   commands=${commands//"pytest -v -s lora"/"VLLM_ROCM_CUSTOM_PAGED_ATTN=0 pytest -v -s lora"}
diff --git a/tests/kernels/test_triton_flash_attention.py b/tests/kernels/test_triton_flash_attention.py
deleted file mode 100644
index 4b0bbb992d2ee..0000000000000
--- a/tests/kernels/test_triton_flash_attention.py
+++ /dev/null
@@ -1,516 +0,0 @@
-# SPDX-License-Identifier: Apache-2.0
-# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
-"""Tests for the triton_flash_attention kernel
-
-Run `pytest tests/kernels/test_triton_flash_attention.py`.
-"""
-
-import pytest
-import torch
-
-from vllm.attention.ops.triton_flash_attention import (
-    SUPPORTED_LAYOUTS,
-    MetaData,
-    compute_alibi_tensor,
-    scale_fp8,
-    triton_attention_rocm,
-)
-from vllm.platforms import current_platform
-
-
-class ReferenceAttention:
-    def __init__(
-        self, Z, HQ, HK, N_CTX_Q, N_CTX_K, D_HEAD, use_alibi, dtype, input_metadata
-    ):
-        self.Z = Z
-        self.HQ = HQ
-        self.HK = HK
-        self.N_CTX_Q = N_CTX_Q
-        self.N_CTX_K = N_CTX_K
-        self.D_HEAD = D_HEAD
-        self.use_alibi = use_alibi
-        self.dtype = dtype
-        self.input_metadata = input_metadata
-
-    def fwd(self, q, k, v):
-        scores = (
-            torch.einsum("bhqd,bhkd->bhqk", q, k).float() * self.input_metadata.sm_scale
-        )
-        if self.input_metadata.causal:
-            mask = torch.tril(
-                torch.ones(self.N_CTX_Q, self.N_CTX_K, device="cuda"),
-                diagonal=self.N_CTX_K - self.N_CTX_Q,
-            )
-            scores[:, :, mask == 0] = float("-inf")
-
-        if self.input_metadata.bias is not None:
-            scores += self.input_metadata.bias
-
-        if self.use_alibi:
-            scores += compute_alibi_tensor(
-                self.input_metadata.alibi_slopes, self.N_CTX_Q, self.N_CTX_K
-            )
-
-        p = torch.softmax(scores, dim=-1)
-        if self.input_metadata.causal:
-            # If N_CTX_Q > N_CTX_K, there's at least one row of all -infs going
-            # into softmax. This creates a row of NaNs as -inf - -inf == NaN.
-            # So we fix this by converting the NaNs to 0s, which is what they
-            # should be out of the softmax.
-            nan_mask = torch.isnan(p)
-            p[nan_mask == 1] = 0
-        ref_out = torch.einsum("bhqk,bhkd->bhqd", p.to(self.dtype), v)
-        # compare
-        if self.input_metadata.layout == "bshd":
-            ref_out = ref_out.transpose(1, 2).clone()
-        return ref_out
-
-    def fwd_fp8(self, q_quantized, k_quantized, v_quantized):
-        q = (q_quantized.to(torch.float16) * self.input_metadata.q_descale).to(
-            self.dtype
-        )
-        k = (k_quantized.to(torch.float16) * self.input_metadata.k_descale).to(
-            self.dtype
-        )
-        v = (v_quantized.to(torch.float16) * self.input_metadata.v_descale).to(
-            self.dtype
-        )
-        result = self.fwd(q, k, v)
-        if self.input_metadata.o_scale is not None:
-            result, _ = scale_fp8(result, self.input_metadata.o_scale)
-        return result
-
-    def fwd_fp8_kv(self, q, k_quantized, v_quantized):
-        k_descale, v_descale = (
-            self.input_metadata.k_descale,
-            self.input_metadata.v_descale,
-        )
-        k_dequantized = (
-            k_quantized.to(torch.float32) * k_descale.to(torch.float32)
-        ).to(self.dtype)
-        v_dequantized = (
-            v_quantized.to(torch.float32) * v_descale.to(torch.float32)
-        ).to(self.dtype)
-        return self.fwd(q, k_dequantized, v_dequantized)
-
-    def varlen_fwd(self, q, k, v, is_mqa=False):
-        ref_out = torch.empty_like(q)
-        if is_mqa:
-            # Make KV look like HQ/HK "groups" of HK. Later, we will reshape so
-            # the size aligns with Q.
-            k_ref = k.view(k.shape[0], k.shape[1], 1, k.shape[2]).expand(
-                -1, -1, self.HQ // self.HK, -1
-            )
-            v_ref = v.view(v.shape[0], v.shape[1], 1, v.shape[2]).expand(
-                -1, -1, self.HQ // self.HK, -1
-            )
-        else:
-            k_ref = k
-            v_ref = v
-
-        for i in range(0, self.input_metadata.num_contexts):
-            start_q, start_k = (
-                self.input_metadata.cu_seqlens_q[i],
-                self.input_metadata.cu_seqlens_k[i],
-            )
-            end_q, end_k = (
-                self.input_metadata.cu_seqlens_q[i + 1],
-                self.input_metadata.cu_seqlens_k[i + 1],
-            )
-            k_curr = k_ref[start_k:end_k]
-            v_curr = v_ref[start_k:end_k]
-            if is_mqa:
-                k_curr = k_curr.reshape(k_curr.shape[0], -1, k_curr.shape[3])
-                v_curr = v_curr.reshape(v_curr.shape[0], -1, v_curr.shape[3])
-            scores = torch.einsum("qhd,khd->qhk", q[start_q:end_q], k_curr).float()
-            p = torch.softmax(scores * self.input_metadata.sm_scale, dim=-1).half()
-            ref_out[start_q:end_q] = torch.einsum("qhk,khd->qhd", p, v_curr)
-        return ref_out
-
-
-def quantize_input(q, k, v, fp8_kv=False, use_o_scale=False):
-    q_descale = None
-    if not fp8_kv:
-        q, q_descale = scale_fp8(q)
-    k, k_descale = scale_fp8(k)
-    v, v_descale = scale_fp8(v)
-
-    # In real world use case, the p scale would be a parameter trained by the
-    # model.
-    p_scale = None
-
-    o_scale = torch.rand(1, device="cuda", requires_grad=False) if use_o_scale else None
-
-    return q, k, v, q_descale, k_descale, v_descale, p_scale, o_scale
-
-
-def input_helper(
-    Z,
-    HQ,
-    HK,
-    N_CTX_Q,
-    N_CTX_K,
-    D_HEAD,
-    dtype,
-    layout=None,
-    use_alibi=None,
-    causal=None,
-    is_fp8=False,
-    fp8_kv=False,
-    use_o_scale=False,
-    use_bias=False,
-):
-    assert layout in SUPPORTED_LAYOUTS, "Got unsupported layout."
-
-    current_platform.seed_everything(0)
-
-    # Initialize q, k, v
-    if layout == "bhsd":
-        q_tensor_shape = (Z, HQ, N_CTX_Q, D_HEAD)
-        k_tensor_shape = (Z, HK, N_CTX_K, D_HEAD)
-    elif layout == "bshd":
-        q_tensor_shape = (Z, N_CTX_Q, HQ, D_HEAD)
-        k_tensor_shape = (Z, N_CTX_K, HK, D_HEAD)
-
-    if use_alibi:
-        # for n heads the set of slopes is the geometric sequence that starts
-        # 2^(-8/n)
-        alibi_slopes = torch.tensor(
-            [2 ** (-8 / HQ * i) for i in range(1, HQ + 1)],
-            dtype=torch.float32,
-            device="cuda",
-        ).repeat(Z, 1)
-    else:
-        alibi_slopes = None
-
-    if use_bias:
-        bias = torch.randn(
-            (1, HQ, N_CTX_Q, N_CTX_K), dtype=dtype, device="cuda", requires_grad=False
-        )
-    else:
-        bias = None
-
-    q = torch.randn(q_tensor_shape, dtype=dtype, device="cuda", requires_grad=False)
-    k = torch.randn(k_tensor_shape, dtype=dtype, device="cuda", requires_grad=False)
-    v = torch.randn(k_tensor_shape, dtype=dtype, device="cuda", requires_grad=False)
-
-    if is_fp8:
-        (q, k, v, q_descale, k_descale, v_descale, p_scale, o_scale) = quantize_input(
-            q, k, v, use_o_scale=use_o_scale, fp8_kv=fp8_kv
-        )
-    else:
-        q_descale = k_descale = v_descale = p_scale = o_scale = None
-
-    input_metadata = MetaData(
-        sm_scale=D_HEAD**-0.5,
-        max_seqlens_q=N_CTX_Q,
-        max_seqlens_k=N_CTX_K,
-        layout=layout,
-        alibi_slopes=alibi_slopes,
-        alibi_batch=Z,
-        alibi_nheads=HQ,
-        q_descale=q_descale,
-        k_descale=k_descale,
-        v_descale=v_descale,
-        p_scale=p_scale,
-        o_scale=o_scale,
-        bias=bias,
-        seqlen_q=N_CTX_Q,
-        seqlen_k=N_CTX_K,
-    )
-    return q, k, v, input_metadata
-
-
-def varlen_input_helper(
-    Z, HQ, HK, N_CTX_Q, N_CTX_K, D_HEAD, dtype, equal_seqlens=False
-):
-    current_platform.seed_everything(0)
-
-    # Random sequence lengths. Using N_CTX as kind of max of sum of individual
-    # seqs
-    if not equal_seqlens:
-        max_seqlens_q = N_CTX_Q // Z
-        max_seqlens_k = N_CTX_K // Z
-        seqlens_q = torch.randint(1, max_seqlens_q + 1, (Z,), dtype=torch.int32)
-        seqlens_k = torch.randint(1, max_seqlens_k + 1, (Z,), dtype=torch.int32)
-    else:
-        seqlens_q = torch.full((Z,), N_CTX_Q // Z)
-        seqlens_k = torch.full((Z,), N_CTX_K // Z)
-
-    # Calculate cumulative sequence lengths
-    cu_seqlens_q = torch.cat(
-        [
-            torch.tensor([0], dtype=torch.int32),
-            seqlens_q.cumsum(dim=0, dtype=torch.int32),
-        ]
-    )
-    cu_seqlens_k = torch.cat(
-        [
-            torch.tensor([0], dtype=torch.int32),
-            seqlens_k.cumsum(dim=0, dtype=torch.int32),
-        ]
-    )
-    cu_seqlens_q = cu_seqlens_q.to(device="cuda")
-    cu_seqlens_k = cu_seqlens_k.to(device="cuda")
-
-    # Initialize q, k, v with variable lengths
-    total_q = cu_seqlens_q[-1].item()
-    total_k = cu_seqlens_k[-1].item()
-    q = (
-        torch.randn((total_q, HQ, D_HEAD), dtype=dtype, device="cuda")
-        .normal_(mean=0.0, std=0.5)
-        .requires_grad_()
-    )
-    k = (
-        torch.randn((total_k, HK, D_HEAD), dtype=dtype, device="cuda")
-        .normal_(mean=0.0, std=0.5)
-        .requires_grad_()
-    )
-    v = (
-        torch.randn((total_k, HK, D_HEAD), dtype=dtype, device="cuda")
-        .normal_(mean=0.0, std=0.5)
-        .requires_grad_()
-    )
-    sm_scale = D_HEAD**-0.5
-    input_metadata = MetaData(sm_scale=sm_scale)
-    input_metadata.set_varlen_params(cu_seqlens_q, cu_seqlens_k)
-    return q, k, v, input_metadata
-
-
-@pytest.mark.parametrize(
-    "Z, HQ, HK, N_CTX_Q, N_CTX_K, D_HEAD",
-    [
-        (1, 48, 12, 1, 1, 64),
-        (4, 4, 4, 128, 128, 65),
-        (16, 48, 48, 1, 1, 128),
-        (64, 48, 24, 3, 3, 128),
-        (4, 4, 4, 113, 123, 1),
-    ],
-)
-@pytest.mark.parametrize("causal", [True, False])
-@pytest.mark.parametrize("use_alibi", [True, False])
-@pytest.mark.parametrize("layout", ["bshd"])
-def test_op_fwd(
-    Z, HQ, HK, N_CTX_Q, N_CTX_K, D_HEAD, causal, use_alibi, layout, dtype=torch.float16
-):
-    current_platform.seed_everything(0)
-    q, k, v, input_metadata = input_helper(
-        Z, HQ, HK, N_CTX_Q, N_CTX_K, D_HEAD, dtype, layout, use_alibi, causal
-    )
-
-    o = torch.empty_like(q)
-
-    # triton implementation
-    tri_out, _ = triton_attention_rocm(q, k, v, o, input_metadata)
-
-    # Transpose here if layout is bshd so we have same reference code for all
-    # layouts
-    if layout == "bshd":
-        q = q.transpose(1, 2).clone()
-        k = k.transpose(1, 2).clone()
-        v = v.transpose(1, 2).clone()
-    # Replicate K and V if using MQA/GQA
-    if HQ != HK:
-        k = (
-            k.view(k.shape[0], k.shape[1], -1, k.shape[2], k.shape[3])
-            .expand(-1, -1, HQ // HK, -1, -1)
-            .reshape(k.shape[0], -1, k.shape[2], k.shape[3])
-        )
-        v = (
-            v.view(v.shape[0], v.shape[1], -1, v.shape[2], v.shape[3])
-            .expand(-1, -1, HQ // HK, -1, -1)
-            .reshape(v.shape[0], -1, v.shape[2], v.shape[3])
-        )
-
-    ref_impl = ReferenceAttention(
-        Z, HQ, HK, N_CTX_Q, N_CTX_K, D_HEAD, use_alibi, dtype, input_metadata
-    )
-    ref_out = ref_impl.fwd(q, k, v)
-
-    torch.testing.assert_close(ref_out, tri_out, atol=2e-2, rtol=2e-2)
-
-
-@pytest.mark.parametrize(
-    "Z, H, N_CTX_Q, N_CTX_K, D_HEAD",
-    [
-        (4, 48, 1, 1, 64),
-        (4, 48, 1, 1, 128),
-        (4, 48, 3, 3, 128),
-        (4, 4, 128, 128, 65),
-    ],
-)
-@pytest.mark.parametrize("causal", [True, False])
-@pytest.mark.parametrize("layout", ["bhsd"])
-@pytest.mark.parametrize("use_o_scale", [True, False])
-@pytest.mark.skipif(
-    torch.cuda.get_device_capability() < (9, 0),
-    reason="Triton FP8 requires CUDA 9.0 or higher",
-)
-def test_op_fwd_fp8(
-    Z, H, N_CTX_Q, N_CTX_K, D_HEAD, causal, layout, use_o_scale, dtype=torch.float32
-):
-    current_platform.seed_everything(0)
-
-    # Disable grad to save memory it won't run into OOM on CI machine.
-    # q, k, v, input_metadata = input_helper(Z, H, H, N_CTX_Q, N_CTX_K, D_HEAD,
-    # dtype, layout)
-
-    q_quantized, k_quantized, v_quantized, input_metadata = input_helper(
-        Z,
-        H,
-        H,
-        N_CTX_Q,
-        N_CTX_K,
-        D_HEAD,
-        dtype,
-        causal=causal,
-        layout=layout,
-        is_fp8=True,
-        use_o_scale=use_o_scale,
-    )
-
-    o = torch.empty_like(q_quantized) if use_o_scale else None
-
-    tri_out, _ = triton_attention_rocm(
-        q_quantized, k_quantized, v_quantized, o, input_metadata
-    )
-
-    ref_impl = ReferenceAttention(
-        Z, H, H, N_CTX_Q, N_CTX_K, D_HEAD, False, dtype, input_metadata
-    )
-    ref_out = ref_impl.fwd_fp8(q_quantized, k_quantized, v_quantized)
-
-    # compare
-    torch.testing.assert_close(
-        ref_out.to(torch.float32), tri_out.to(torch.float32), atol=7e-2, rtol=2e-1
-    )
-
-
-@pytest.mark.parametrize(
-    "Z, H, N_CTX_Q, N_CTX_K, D_HEAD",
-    [
-        (4, 48, 1, 1, 64),
-        (4, 48, 1, 1, 128),
-        (4, 48, 3, 3, 128),
-        (4, 4, 128, 128, 65),
-        (4, 4, 113, 123, 1),
-    ],
-)
-@pytest.mark.parametrize("causal", [True, False])
-@pytest.mark.parametrize("layout", ["bhsd"])
-def test_op_fwd_fp8_kv(
-    Z, H, N_CTX_Q, N_CTX_K, D_HEAD, causal, layout, dtype=torch.float32
-):
-    current_platform.seed_everything(0)
-
-    q, k_quantized, v_quantized, input_metadata = input_helper(
-        Z,
-        H,
-        H,
-        N_CTX_Q,
-        N_CTX_K,
-        D_HEAD,
-        dtype,
-        causal=causal,
-        layout=layout,
-        is_fp8=True,
-        fp8_kv=True,
-    )
-
-    o = torch.empty_like(q)
-
-    tri_out, _ = triton_attention_rocm(q, k_quantized, v_quantized, o, input_metadata)
-
-    ref_impl = ReferenceAttention(
-        Z, H, H, N_CTX_Q, N_CTX_K, D_HEAD, False, dtype, input_metadata
-    )
-    ref_out = ref_impl.fwd_fp8_kv(q, k_quantized, v_quantized)
-
-    torch.testing.assert_close(ref_out, tri_out, atol=3e-2, rtol=8e-1)
-
-
-@pytest.mark.parametrize(
-    "Z, H, N_CTX_Q, N_CTX_K, D_HEAD",
-    [
-        (4, 48, 1, 1, 64),
-        (4, 48, 1, 1, 128),
-        (4, 48, 3, 3, 128),
-        (4, 4, 128, 128, 65),
-    ],
-)
-@pytest.mark.parametrize("causal", [True, False])
-@pytest.mark.parametrize("use_bias", [True])
-@pytest.mark.parametrize("dtype", [torch.bfloat16])
-def test_op_fwd_bias(Z, H, N_CTX_Q, N_CTX_K, D_HEAD, causal, use_bias, dtype):
-    current_platform.seed_everything(0)
-    q, k, v, input_metadata = input_helper(
-        Z,
-        H,
-        H,
-        N_CTX_Q,
-        N_CTX_K,
-        D_HEAD,
-        dtype,
-        layout="bhsd",
-        causal=causal,
-        use_bias=use_bias,
-    )
-    o = torch.empty_like(q)
-
-    # triton implementation
-    tri_out, _ = triton_attention_rocm(q, k, v, o, input_metadata)
-
-    ref_impl = ReferenceAttention(
-        Z, H, H, N_CTX_Q, N_CTX_K, D_HEAD, False, dtype, input_metadata
-    )
-    ref_out = ref_impl.fwd(q, k, v)
-
-    # compare
-    torch.testing.assert_close(ref_out, tri_out, atol=2e-2, rtol=2e-2)
-
-
-# NOTE: Uses thd layout, so also tests thd.
-@pytest.mark.parametrize(
-    "Z, H, N_CTX, D_HEAD",
-    [(1, 48, 256, 64), (4, 48, 512, 64), (16, 48, 512, 64), (64, 48, 128, 128)],
-)
-@pytest.mark.parametrize("causal", [True, False])
-def test_op_varlen_fwd(Z, H, N_CTX, D_HEAD, causal, dtype=torch.float16):
-    q, k, v, input_metadata = varlen_input_helper(Z, H, H, N_CTX, N_CTX, D_HEAD, dtype)
-
-    tri_out = torch.empty_like(q)
-    triton_attention_rocm(q, k, v, tri_out, input_metadata)
-
-    ref_impl = ReferenceAttention(
-        Z, H, H, N_CTX, N_CTX, D_HEAD, False, dtype, input_metadata
-    )
-    ref_out = ref_impl.varlen_fwd(q, k, v, is_mqa=False)
-
-    torch.testing.assert_close(ref_out, tri_out, atol=2e-2, rtol=2e-2)
-
-
-# NOTE: Uses thd layout, so also tests thd.
-@pytest.mark.parametrize(
-    "Z, HQ, HK, N_CTX, D_HEAD",
-    [
-        (2, 48, 24, 128, 64),
-        (4, 48, 12, 256, 64),
-        (4, 48, 4, 512, 64),
-        (4, 64, 16, 128, 128),
-    ],
-)
-@pytest.mark.parametrize("causal", [False])
-def test_op_varlen_mqa_fwd(Z, HQ, HK, N_CTX, D_HEAD, causal, dtype=torch.float16):
-    q, k, v, input_metadata = varlen_input_helper(
-        Z, HQ, HK, N_CTX, N_CTX, D_HEAD, dtype
-    )
-
-    tri_out = torch.empty_like(q)
-    triton_attention_rocm(q, k, v, tri_out, input_metadata)
-
-    ref_impl = ReferenceAttention(
-        Z, HQ, HK, N_CTX, N_CTX, D_HEAD, False, dtype, input_metadata
-    )
-    ref_out = ref_impl.varlen_fwd(q, k, v, is_mqa=True)
-
-    torch.testing.assert_close(ref_out, tri_out, atol=2e-2, rtol=2e-2)
diff --git a/tests/models/language/pooling/test_classification.py b/tests/models/language/pooling/test_classification.py
index 471826f214d0c..2723bb21de97b 100644
--- a/tests/models/language/pooling/test_classification.py
+++ b/tests/models/language/pooling/test_classification.py
@@ -27,13 +27,7 @@ def test_models(
     example_prompts,
     model: str,
     dtype: str,
-    monkeypatch,
 ) -> None:
-    if current_platform.is_rocm():
-        # ROCm Triton FA does not currently support sliding window attention
-        # switch to use ROCm CK FA backend
-        monkeypatch.setenv("VLLM_USE_TRITON_FLASH_ATTN", "False")
-
     with vllm_runner(model, max_model_len=512, dtype=dtype) as vllm_model:
         vllm_outputs = vllm_model.classify(example_prompts)
 
diff --git a/tests/models/language/pooling/test_embedding.py b/tests/models/language/pooling/test_embedding.py
index d1b1c8d3ddf0b..93b9843311d33 100644
--- a/tests/models/language/pooling/test_embedding.py
+++ b/tests/models/language/pooling/test_embedding.py
@@ -4,7 +4,6 @@
 import pytest
 
 from vllm.config import PoolerConfig
-from vllm.platforms import current_platform
 
 from ...utils import check_embeddings_close
 
@@ -51,13 +50,7 @@ def test_models(
     vllm_runner,
     example_prompts,
     model,
-    monkeypatch,
 ) -> None:
-    if model == "BAAI/bge-multilingual-gemma2" and current_platform.is_rocm():
-        # ROCm Triton FA does not currently support sliding window attention
-        # switch to use ROCm CK FA backend
-        monkeypatch.setenv("VLLM_USE_TRITON_FLASH_ATTN", "False")
-
     vllm_extra_kwargs = {}
     if model == "ssmits/Qwen2-7B-Instruct-embed-base":
         vllm_extra_kwargs["pooler_config"] = PoolerConfig(
diff --git a/tests/models/language/pooling/test_mm_classifier_conversion.py b/tests/models/language/pooling/test_mm_classifier_conversion.py
index 91be6cd09d33e..2482452645ef1 100644
--- a/tests/models/language/pooling/test_mm_classifier_conversion.py
+++ b/tests/models/language/pooling/test_mm_classifier_conversion.py
@@ -2,18 +2,11 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
 from vllm.config.pooler import PoolerConfig
-from vllm.platforms import current_platform
 
 
 def test_idefics_multimodal(
     vllm_runner,
-    monkeypatch,
 ) -> None:
-    if current_platform.is_rocm():
-        # ROCm Triton FA does not currently support sliding window attention
-        # switch to use ROCm CK FA backend
-        monkeypatch.setenv("VLLM_USE_TRITON_FLASH_ATTN", "False")
-
     prompts = [
         "Hello, my name is",
         "The president of the United States is",
@@ -59,13 +52,7 @@ def update_config(config):
 
 def test_gemma_multimodal(
     vllm_runner,
-    monkeypatch,
 ) -> None:
-    if current_platform.is_rocm():
-        # ROCm Triton FA does not currently support sliding window attention
-        # switch to use ROCm CK FA backend
-        monkeypatch.setenv("VLLM_USE_TRITON_FLASH_ATTN", "False")
-
     messages = [
         {
             "role": "system",
diff --git a/tests/models/language/pooling/test_reward.py b/tests/models/language/pooling/test_reward.py
index 46504d025c265..c42186c7db9a3 100644
--- a/tests/models/language/pooling/test_reward.py
+++ b/tests/models/language/pooling/test_reward.py
@@ -76,7 +76,6 @@ def test_prm_models(
     math_step_prompts,
     model: str,
     dtype: str,
-    monkeypatch,
 ) -> None:
     check_transformers_version(
         "Qwen/Qwen2.5-Math-PRM-7B", max_transformers_version="4.53.2"
@@ -85,11 +84,6 @@ def test_prm_models(
     if current_platform.is_cpu():
         pytest.skip("CPU only supports V1")
 
-    if current_platform.is_rocm():
-        # ROCm Triton FA does not currently support sliding window attention
-        # switch to use ROCm CK FA backend
-        monkeypatch.setenv("VLLM_USE_TRITON_FLASH_ATTN", "False")
-
     with vllm_runner(model, max_model_len=1024, dtype=dtype) as vllm_model:
         vllm_outputs = vllm_model.reward(math_step_prompts)
 
diff --git a/tests/models/multimodal/generation/test_common.py b/tests/models/multimodal/generation/test_common.py
index 4c79ac318ffbe..de74acf3b8a52 100644
--- a/tests/models/multimodal/generation/test_common.py
+++ b/tests/models/multimodal/generation/test_common.py
@@ -5,7 +5,6 @@ image, embedding, and video support for different VLMs in vLLM.
 """
 
 import math
-import os
 from collections import defaultdict
 from pathlib import PosixPath
 
@@ -38,13 +37,6 @@ from .vlm_utils.types import (
     VLMTestType,
 )
 
-# This hack is needed for phi3v & paligemma models
-# ROCm Triton FA can run into shared memory issues with these models,
-# use other backends in the meantime
-# FIXME (mattwong, gshtrasb, hongxiayan)
-if current_platform.is_rocm():
-    os.environ["VLLM_USE_TRITON_FLASH_ATTN"] = "0"
-
 COMMON_BROADCAST_SETTINGS = {
     "test_type": VLMTestType.IMAGE,
     "dtype": "half",
diff --git a/tests/models/multimodal/generation/test_phi4_multimodal.py b/tests/models/multimodal/generation/test_phi4_multimodal.py
index cbc7dfca0234d..62456221711ed 100644
--- a/tests/models/multimodal/generation/test_phi4_multimodal.py
+++ b/tests/models/multimodal/generation/test_phi4_multimodal.py
@@ -11,7 +11,6 @@ from huggingface_hub import snapshot_download
 from vllm.assets.image import ImageAsset
 from vllm.lora.request import LoRARequest
 from vllm.multimodal.image import rescale_image_size
-from vllm.platforms import current_platform
 
 from ....conftest import (
     IMAGE_ASSETS,
@@ -46,12 +45,6 @@ models = [model_path]
 
 target_dtype = "half"
 
-# ROCm Triton FA can run into shared memory issues with these models,
-# use other backends in the meantime
-# FIXME (mattwong, gshtrasb, hongxiayan)
-if current_platform.is_rocm():
-    os.environ["VLLM_USE_TRITON_FLASH_ATTN"] = "0"
-
 
 def run_test(
     hf_runner: type[HfRunner],
diff --git a/tests/models/multimodal/generation/test_phi4mm.py b/tests/models/multimodal/generation/test_phi4mm.py
index 5619cecc081d2..665bed512392c 100644
--- a/tests/models/multimodal/generation/test_phi4mm.py
+++ b/tests/models/multimodal/generation/test_phi4mm.py
@@ -14,7 +14,6 @@ from vllm.assets.image import ImageAsset
 from vllm.logprobs import SampleLogprobs
 from vllm.lora.request import LoRARequest
 from vllm.multimodal.image import convert_image_mode, rescale_image_size
-from vllm.platforms import current_platform
 
 from ....conftest import (
     IMAGE_ASSETS,
@@ -68,12 +67,6 @@ def vllm_to_hf_output(
 
 target_dtype = "half"
 
-# ROCm Triton FA can run into shared memory issues with these models,
-# use other backends in the meantime
-# FIXME (mattwong, gshtrasb, hongxiayan)
-if current_platform.is_rocm():
-    os.environ["VLLM_USE_TRITON_FLASH_ATTN"] = "0"
-
 
 def run_test(
     hf_runner: type[HfRunner],
diff --git a/tests/quantization/test_quark.py b/tests/quantization/test_quark.py
index 0af27aff9359d..334f9a65e4c03 100644
--- a/tests/quantization/test_quark.py
+++ b/tests/quantization/test_quark.py
@@ -8,7 +8,6 @@ See also `tests/kernels/moe/test_ocp_mx_moe.py`.
 """
 
 import importlib.metadata
-import os
 from dataclasses import dataclass
 from importlib.util import find_spec
 
@@ -246,8 +245,6 @@ def test_mxfp4_gsm8k_correctness(config: AccuracyTestConfig):
     task = "gsm8k"
     rtol = 0.03
 
-    os.environ["VLLM_USE_TRITON_FLASH_ATTN"] = "0"
-
     results = lm_eval.simple_evaluate(
         model="vllm",
         model_args=config.get_model_args(tp_size=8, model_max_len=38768),
@@ -263,8 +260,6 @@ def test_mxfp4_gsm8k_correctness(config: AccuracyTestConfig):
         and measured_value + rtol > EXPECTED_VALUE
     ), f"Expected: {EXPECTED_VALUE} |  Measured: {measured_value}"
 
-    del os.environ["VLLM_USE_TRITON_FLASH_ATTN"]
-
 
 @pytest.mark.skipif(not QUARK_MXFP4_AVAILABLE, reason="amd-quark>=0.9 is not available")
 @pytest.mark.parametrize("float_dtype", [torch.bfloat16, torch.float16])
diff --git a/vllm/attention/ops/triton_flash_attention.py b/vllm/attention/ops/triton_flash_attention.py
deleted file mode 100644
index c0ab35d07b1fe..0000000000000
--- a/vllm/attention/ops/triton_flash_attention.py
+++ /dev/null
@@ -1,932 +0,0 @@
-#!/usr/bin/env python
-# SPDX-License-Identifier: Apache-2.0
-# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
-"""
-Fused Attention
-===============
-
-This is a Triton implementation of the Flash Attention v2 algorithm from Tri Dao
-(https://tridao.me/publications/flash2/flash2.pdf)
-Credits: OpenAI kernel team, AMD ML Frameworks Triton team
-
-Features supported:
-
-1) Fwd with causal masking
-2) Any sequence lengths without padding (currently fwd kernel only)
-3) Support for different sequence lengths for q and k
-4) Nested tensor API currently does not support dropout or bias.
-
-Not currently supported:
-
-1) Non power of two head dims
-
-"""
-
-import torch
-
-from vllm.platforms import current_platform
-from vllm.triton_utils import tl, triton
-
-# Avoid misleading ROCm warning.
-if current_platform.is_rocm():
-    from vllm.platforms.rocm import on_gfx1x
-else:
-    on_gfx1x = lambda *args, **kwargs: False
-
-torch_dtype: tl.constexpr = torch.float16
-
-
-@triton.jit
-def cdiv_fn(x, y):
-    return (x + y - 1) // y
-
-
-@triton.jit
-def max_fn(x, y):
-    return tl.math.max(x, y)
-
-
-@triton.jit
-def dropout_offsets(philox_seed, philox_offset, dropout_p, m, n, stride):
-    ms = tl.arange(0, m)
-    ns = tl.arange(0, n)
-    return philox_offset + ms[:, None] * stride + ns[None, :]
-
-
-@triton.jit
-def dropout_rng(philox_seed, philox_offset, dropout_p, m, n, stride):
-    rng_offsets = dropout_offsets(
-        philox_seed, philox_offset, dropout_p, m, n, stride
-    ).to(tl.uint32)
-    # TODO: use tl.randint for better performance
-    return tl.rand(philox_seed, rng_offsets)
-
-
-@triton.jit
-def dropout_mask(philox_seed, philox_offset, dropout_p, m, n, stride):
-    rng_output = dropout_rng(philox_seed, philox_offset, dropout_p, m, n, stride)
-    rng_keep = rng_output > dropout_p
-    return rng_keep
-
-
-@triton.jit
-def load_fn(block_ptr, first, second, pad):
-    if first and second:
-        tensor = tl.load(block_ptr, boundary_check=(0, 1), padding_option=pad)
-    elif first:
-        tensor = tl.load(block_ptr, boundary_check=(0,), padding_option=pad)
-    elif second:
-        tensor = tl.load(block_ptr, boundary_check=(1,), padding_option=pad)
-    else:
-        tensor = tl.load(block_ptr)
-    return tensor
-
-
-@triton.jit
-def _attn_fwd_inner(
-    acc,
-    l_i,
-    m_i,
-    q,
-    K_block_ptr,
-    V_block_ptr,
-    start_m,
-    actual_seqlen_k,
-    dropout_p,
-    philox_seed,
-    batch_philox_offset,
-    encoded_softmax_block_ptr,
-    block_min,
-    block_max,
-    offs_n_causal,
-    masked_blocks,
-    n_extra_tokens,
-    bias_ptr,
-    IS_CAUSAL: tl.constexpr,
-    BLOCK_M: tl.constexpr,
-    BLOCK_DMODEL: tl.constexpr,
-    BLOCK_N: tl.constexpr,
-    OFFS_M: tl.constexpr,
-    OFFS_N: tl.constexpr,
-    PRE_LOAD_V: tl.constexpr,
-    MASK_STEPS: tl.constexpr,
-    ENABLE_DROPOUT: tl.constexpr,
-    RETURN_ENCODED_SOFTMAX: tl.constexpr,
-    PADDED_HEAD: tl.constexpr,
-    USE_FP8: tl.constexpr,
-    qk_scale,
-    p_descale,
-):
-    # loop over k, v, and update accumulator
-    for start_n in range(block_min, block_max, BLOCK_N):
-        # For padded blocks, we will overrun the tensor size if
-        # we load all BLOCK_N. For others, the blocks are all within range.
-        k = load_fn(
-            K_block_ptr,
-            PADDED_HEAD,
-            MASK_STEPS and (n_extra_tokens != 0),
-            "zero",
-        )
-        if PRE_LOAD_V:
-            v = load_fn(
-                V_block_ptr,
-                MASK_STEPS and (n_extra_tokens != 0),
-                PADDED_HEAD,
-                "zero",
-            )
-        qk = tl.zeros([BLOCK_M, BLOCK_N], dtype=tl.float32)
-        # We start from end of seqlen_k so only the first iteration would need
-        # to be checked for padding if it is not a multiple of block_n
-        # TODO: This can be optimized to only be true for the padded block.
-        if MASK_STEPS:  # noqa: SIM102
-            # If this is the last block / iteration, we want to
-            # mask if the sequence length is not a multiple of block size
-            # a solution is to always do BLOCK_M // BLOCK_N + 1 steps
-            # if not is_modulo_mn. last step might get wasted but that is okay.
-            # check if this masking works for that case.
-            if (start_n + BLOCK_N == block_max) and (n_extra_tokens != 0):
-                boundary_m = tl.full([BLOCK_M], actual_seqlen_k, dtype=tl.int32)
-                size_n = start_n + OFFS_N[None, :]
-                mask = size_n < boundary_m[:, None]
-                qk = tl.where(mask, qk, float("-inf"))
-        if IS_CAUSAL:
-            causal_boundary = start_n + offs_n_causal
-            causal_mask = OFFS_M[:, None] >= causal_boundary[None, :]
-            qk = tl.where(causal_mask, qk, float("-inf"))
-        # -- compute qk ----
-        qk += tl.dot(q, k)
-        if USE_FP8:
-            qk *= qk_scale
-        if bias_ptr is not None:
-            bias = load_fn(
-                bias_ptr, False, MASK_STEPS and (n_extra_tokens != 0), "zero"
-            )
-            # While bias is added after multiplying qk with sm_scale, our
-            # optimization to use 2^x instead of e^x results in an additional
-            # scale factor of log2(e) which we must also multiply the bias with.
-            qk += bias * 1.44269504089
-        m_ij = tl.maximum(m_i, tl.max(qk, 1))
-        qk = qk - m_ij[:, None]
-        p = tl.math.exp2(qk)
-
-        # CAVEAT: Must update l_ij before applying dropout
-        l_ij = tl.sum(p, 1)
-        if ENABLE_DROPOUT:
-            philox_offset = (
-                batch_philox_offset
-                + start_m * BLOCK_M * actual_seqlen_k
-                + start_n
-                - BLOCK_N
-            )
-            keep = dropout_mask(
-                philox_seed,
-                philox_offset,
-                dropout_p,
-                BLOCK_M,
-                BLOCK_N,
-                actual_seqlen_k,
-            )
-            if RETURN_ENCODED_SOFTMAX:
-                tl.store(
-                    encoded_softmax_block_ptr,
-                    tl.where(keep, p, -p).to(encoded_softmax_block_ptr.type.element_ty),
-                )
-            p = tl.where(keep, p, 0.0)
-        elif RETURN_ENCODED_SOFTMAX:
-            tl.store(
-                encoded_softmax_block_ptr,
-                p.to(encoded_softmax_block_ptr.type.element_ty),
-            )
-        # -- update output accumulator --
-        alpha = tl.math.exp2(m_i - m_ij)
-        acc = acc * alpha[:, None]
-        if not PRE_LOAD_V:
-            v = load_fn(
-                V_block_ptr,
-                MASK_STEPS and (n_extra_tokens != 0),
-                PADDED_HEAD,
-                "zero",
-            )
-        # -- update m_i and l_i
-        l_i = l_i * alpha + l_ij
-        # update m_i and l_i
-        m_i = m_ij
-
-        if USE_FP8:
-            p *= p_descale
-
-        acc += tl.dot(p.to(V_block_ptr.type.element_ty), v)
-
-        V_block_ptr = tl.advance(V_block_ptr, (BLOCK_N, 0))
-        K_block_ptr = tl.advance(K_block_ptr, (0, BLOCK_N))
-        if bias_ptr is not None:
-            bias_ptr = tl.advance(bias_ptr, (0, BLOCK_N))
-        if RETURN_ENCODED_SOFTMAX:
-            encoded_softmax_block_ptr = tl.advance(
-                encoded_softmax_block_ptr, (0, BLOCK_N)
-            )
-    return acc, l_i, m_i
-
-
-def get_cdna_autotune_configs():
-    return [
-        triton.Config(
-            {"BLOCK_M": 256, "BLOCK_N": 64, "waves_per_eu": 2, "PRE_LOAD_V": False},
-            num_stages=1,
-            num_warps=8,
-        ),
-        triton.Config(
-            {"BLOCK_M": 128, "BLOCK_N": 128, "waves_per_eu": 2, "PRE_LOAD_V": False},
-            num_stages=1,
-            num_warps=4,
-        ),
-        triton.Config(
-            {"BLOCK_M": 256, "BLOCK_N": 128, "waves_per_eu": 2, "PRE_LOAD_V": False},
-            num_stages=1,
-            num_warps=8,
-        ),
-        triton.Config(
-            {"BLOCK_M": 128, "BLOCK_N": 64, "waves_per_eu": 1, "PRE_LOAD_V": False},
-            num_stages=1,
-            num_warps=4,
-        ),
-        triton.Config(
-            {"BLOCK_M": 128, "BLOCK_N": 64, "waves_per_eu": 3, "PRE_LOAD_V": True},
-            num_stages=1,
-            num_warps=4,
-        ),
-        triton.Config(
-            {"BLOCK_M": 128, "BLOCK_N": 64, "waves_per_eu": 3, "PRE_LOAD_V": False},
-            num_stages=1,
-            num_warps=4,
-        ),
-        triton.Config(
-            {"BLOCK_M": 64, "BLOCK_N": 64, "waves_per_eu": 4, "PRE_LOAD_V": False},
-            num_stages=1,
-            num_warps=8,
-        ),
-        triton.Config(
-            {"BLOCK_M": 32, "BLOCK_N": 32, "waves_per_eu": 4, "PRE_LOAD_V": False},
-            num_stages=1,
-            num_warps=8,
-        ),
-        # TODO: This config fails with head_size not pow2 with data mismatches.
-        #    triton.Config({'BLOCK_M': 32, 'BLOCK_N': 16, 'waves_per_eu': 1,
-        #                   'PRE_LOAD_V': False}, num_stages=1, num_warps=4),
-        # Fails in AccelerateAMDMatmul (Triton) assert when using FP8:
-        # triton.Config(
-        #     {
-        #         "BLOCK_M": 16,
-        #         "BLOCK_N": 16,
-        #         "waves_per_eu": 1,
-        #         "PRE_LOAD_V": False,
-        #     },
-        #     num_stages=1,
-        #     num_warps=4,
-        # ),
-    ], ["IS_CAUSAL", "dropout_p", "BLOCK_DMODEL", "USE_FP8"]
-
-
-def get_rdna_autotune_configs():
-    return [
-        triton.Config(
-            {"BLOCK_M": 32, "BLOCK_N": 32, "waves_per_eu": 4, "PRE_LOAD_V": False},
-            num_stages=1,
-            num_warps=2,
-        ),
-        triton.Config(
-            {"BLOCK_M": 32, "BLOCK_N": 32, "waves_per_eu": 2, "PRE_LOAD_V": False},
-            num_stages=1,
-            num_warps=2,
-        ),
-        triton.Config(
-            {"BLOCK_M": 32, "BLOCK_N": 16, "waves_per_eu": 4, "PRE_LOAD_V": False},
-            num_stages=1,
-            num_warps=2,
-        ),
-        triton.Config(
-            {"BLOCK_M": 32, "BLOCK_N": 16, "waves_per_eu": 2, "PRE_LOAD_V": False},
-            num_stages=1,
-            num_warps=2,
-        ),
-        # Fails in AccelerateAMDMatmul (Triton) assert when using FP8:
-        # triton.Config(
-        #     {
-        #         'BLOCK_M': 16,
-        #         'BLOCK_N': 16,
-        #         'waves_per_eu': 4,
-        #         'PRE_LOAD_V': False
-        #     },
-        #     num_stages=1,
-        #     num_warps=2),
-        # triton.Config(
-        #     {
-        #         'BLOCK_M': 16,
-        #         'BLOCK_N': 16,
-        #         'waves_per_eu': 2,
-        #         'PRE_LOAD_V': False
-        #     },
-        #     num_stages=1,
-        #     num_warps=2),
-        # # Fall-back config.
-        # triton.Config(
-        #     {
-        #         'BLOCK_M': 16,
-        #         'BLOCK_N': 16,
-        #         'waves_per_eu': 1,
-        #         'PRE_LOAD_V': False
-        #     },
-        #     num_stages=1,
-        #     num_warps=2),
-    ], ["IS_CAUSAL", "dropout_p", "BLOCK_DMODEL", "USE_FP8"]
-
-
-def get_autotune_configs():
-    if on_gfx1x():
-        return get_rdna_autotune_configs()
-    else:
-        return get_cdna_autotune_configs()
-
-
-autotune_configs, autotune_keys = get_autotune_configs()
-
-float8_info = torch.finfo(current_platform.fp8_dtype())
-
-
-@triton.autotune(
-    configs=autotune_configs,
-    key=autotune_keys,
-)
-@triton.jit
-def attn_fwd(
-    Q,
-    K,
-    V,
-    bias,
-    sm_scale,
-    q_scale,
-    k_scale,
-    v_scale,
-    p_scale,
-    p_descale,
-    o_descale,
-    L,
-    Out,
-    stride_qz: tl.int64,
-    stride_qh: tl.int64,
-    stride_qm: tl.int64,
-    stride_qk: tl.int64,
-    stride_kz: tl.int64,
-    stride_kh: tl.int64,
-    stride_kn: tl.int64,
-    stride_kk: tl.int64,
-    stride_vz: tl.int64,
-    stride_vh: tl.int64,
-    stride_vk: tl.int64,
-    stride_vn: tl.int64,
-    stride_oz: tl.int64,
-    stride_oh: tl.int64,
-    stride_om: tl.int64,
-    stride_on: tl.int64,
-    stride_bz: tl.int64,
-    stride_bh: tl.int64,
-    stride_bm: tl.int64,
-    stride_bn: tl.int64,
-    cu_seqlens_q,
-    cu_seqlens_k,
-    dropout_p,
-    philox_seed,
-    philox_offset_base,
-    encoded_softmax,
-    HQ: tl.constexpr,
-    HK: tl.constexpr,
-    ACTUAL_BLOCK_DMODEL: tl.constexpr,
-    MAX_SEQLENS_Q: tl.constexpr,
-    MAX_SEQLENS_K: tl.constexpr,
-    VARLEN: tl.constexpr,
-    IS_CAUSAL: tl.constexpr,
-    BLOCK_M: tl.constexpr,
-    BLOCK_DMODEL: tl.constexpr,
-    USE_FP8: tl.constexpr,
-    USE_FP8_OUT: tl.constexpr,
-    BLOCK_N: tl.constexpr,
-    PRE_LOAD_V: tl.constexpr,
-    BIAS_TYPE: tl.constexpr,
-    ENABLE_DROPOUT: tl.constexpr,
-    RETURN_ENCODED_SOFTMAX: tl.constexpr,
-    FP8_MIN: tl.constexpr = float8_info.min,
-    FP8_MAX: tl.constexpr = float8_info.max,
-):
-    start_m = tl.program_id(0)
-    off_h_q = tl.program_id(1)
-    off_z = tl.program_id(2)
-    offs_m = start_m * BLOCK_M + tl.arange(0, BLOCK_M)
-    offs_n = tl.arange(0, BLOCK_N)
-    if VARLEN:
-        cu_seqlens_q_start = tl.load(cu_seqlens_q + off_z)
-        cu_seqlens_q_end = tl.load(cu_seqlens_q + off_z + 1)
-        seqlen_q = cu_seqlens_q_end - cu_seqlens_q_start
-        # We have a one-size-fits-all grid in id(0). Some seqlens might be too
-        # small for all start_m so for those we return early.
-        if start_m * BLOCK_M > seqlen_q:
-            return
-        cu_seqlens_k_start = tl.load(cu_seqlens_k + off_z)
-        cu_seqlens_k_end = tl.load(cu_seqlens_k + off_z + 1)
-        seqlen_k = cu_seqlens_k_end - cu_seqlens_k_start
-    else:
-        cu_seqlens_q_start = 0
-        cu_seqlens_k_start = 0
-        seqlen_q = MAX_SEQLENS_Q
-        seqlen_k = MAX_SEQLENS_K
-
-    # Now we compute whether we need to exit early due to causal masking.
-    # This is because for seqlen_q > seqlen_k, M rows of the attn scores
-    # are completely masked, resulting in 0s written to the output, and
-    # inf written to LSE. We don't need to do any GEMMs in this case.
-    # This block of code determines what N is, and if this WG is operating
-    # on those M rows.
-    n_blocks = cdiv_fn(seqlen_k, BLOCK_N)
-    if IS_CAUSAL:
-        # If seqlen_q == seqlen_k, the attn scores are a square matrix.
-        # If seqlen_q != seqlen_k, attn scores are rectangular which means
-        # the causal mask boundary is bottom right aligned, and ends at either
-        # the top edge (seqlen_q < seqlen_k) or left edge.
-        # This captures the decrease in n_blocks if we have a rectangular attn
-        # matrix
-        n_blocks_seqlen = cdiv_fn(
-            (start_m + 1) * BLOCK_M + seqlen_k - seqlen_q, BLOCK_N
-        )
-        # This is what adjusts the block_max for the current WG, only
-        # if IS_CAUSAL. Otherwise we want to always iterate through all n_blocks
-        n_blocks = min(n_blocks, n_blocks_seqlen)
-        # If we have no blocks after adjusting for seqlen deltas, this WG is
-        # part of the blocks that are all 0. We exit early.
-        if n_blocks <= 0:
-            o_offset = (
-                off_z * stride_oz + cu_seqlens_q_start * stride_om + off_h_q * stride_oh
-            )
-            O_block_ptr = tl.make_block_ptr(
-                base=Out + o_offset,
-                shape=(seqlen_q, BLOCK_DMODEL),
-                strides=(stride_om, stride_on),
-                offsets=(start_m * BLOCK_M, 0),
-                block_shape=(BLOCK_M, BLOCK_DMODEL),
-                order=(1, 0),
-            )
-            acc = tl.zeros([BLOCK_M, BLOCK_DMODEL], dtype=Out.type.element_ty)
-            # We still need to write 0s to the result
-            # tl.store(O_block_ptr,
-            # acc.to(Out.type.element_ty), boundary_check=(0,1))
-            # l_ptrs = L + off_z * HQ * MAX_SEQLENS_Q + off_h_q * MAX_SEQLENS_Q
-            #          + offs_m
-            # We store inf to LSE, not -inf because in the bwd pass,
-            # we subtract this
-            # from qk which makes it -inf, such that exp(qk - inf) = 0
-            # for these masked blocks.
-            # l = tl.full([BLOCK_M], value=float("inf"), dtype=tl.float32)
-            # tl.store(l_ptrs, l)
-            # TODO: Should dropout and return encoded softmax be handled here?
-            return
-
-    # If MQA / GQA, set the K and V head offsets appropriately.
-    GROUP_SIZE: tl.constexpr = HQ // HK
-    off_h_k = off_h_q // GROUP_SIZE if GROUP_SIZE != 1 else off_h_q
-
-    n_extra_tokens = 0
-    if seqlen_k < BLOCK_N:
-        n_extra_tokens = BLOCK_N - seqlen_k
-    elif seqlen_k % BLOCK_N:
-        n_extra_tokens = seqlen_k % BLOCK_N
-    padded_head = ACTUAL_BLOCK_DMODEL != BLOCK_DMODEL
-
-    # Compute pointers for all the tensors used in this kernel.
-    q_offset = off_z * stride_qz + off_h_q * stride_qh + cu_seqlens_q_start * stride_qm
-    Q_block_ptr = tl.make_block_ptr(
-        base=Q + q_offset,
-        shape=(seqlen_q, ACTUAL_BLOCK_DMODEL),
-        strides=(stride_qm, stride_qk),
-        offsets=(start_m * BLOCK_M, 0),
-        block_shape=(BLOCK_M, BLOCK_DMODEL),
-        order=(1, 0),
-    )
-    k_offset = off_z * stride_kz + off_h_k * stride_kh + cu_seqlens_k_start * stride_kn
-    K_block_ptr = tl.make_block_ptr(
-        base=K + k_offset,
-        shape=(ACTUAL_BLOCK_DMODEL, seqlen_k),
-        strides=(stride_kk, stride_kn),
-        offsets=(0, 0),
-        block_shape=(BLOCK_DMODEL, BLOCK_N),
-        order=(0, 1),
-    )
-    v_offset = off_z * stride_vz + off_h_k * stride_vh + cu_seqlens_k_start * stride_vk
-    V_block_ptr = tl.make_block_ptr(
-        base=V + v_offset,
-        shape=(seqlen_k, ACTUAL_BLOCK_DMODEL),
-        strides=(stride_vk, stride_vn),
-        offsets=(0, 0),
-        block_shape=(BLOCK_N, BLOCK_DMODEL),
-        order=(1, 0),
-    )
-    if BIAS_TYPE != 0:
-        bias_ptr = tl.make_block_ptr(
-            base=bias + off_h_q * stride_bh,
-            shape=(seqlen_q, seqlen_k),
-            strides=(stride_bm, stride_bn),
-            offsets=(start_m * BLOCK_M, 0),
-            block_shape=(BLOCK_M, BLOCK_N),
-            order=(1, 0),
-        )
-    else:
-        bias_ptr = None
-    if ENABLE_DROPOUT:
-        batch_philox_offset = (
-            philox_offset_base + (off_z * HQ + off_h_q) * seqlen_q * seqlen_k
-        )
-    else:
-        batch_philox_offset = 0
-    # We can ask to return the dropout mask without actually doing any dropout.
-    # In this case, we return an invalid pointer so indicate the mask is not i
-    # valid.
-    # TODO: Fix encoded softmax. It currently uses just h_q in the base offset.
-    if RETURN_ENCODED_SOFTMAX:
-        encoded_softmax_block_ptr = tl.make_block_ptr(
-            base=encoded_softmax + off_h_q * seqlen_q * seqlen_k,
-            shape=(seqlen_q, seqlen_k),
-            strides=(seqlen_k, 1),
-            offsets=(start_m * BLOCK_M, 0),
-            block_shape=(BLOCK_M, BLOCK_N),
-            order=(1, 0),
-        )
-    else:
-        encoded_softmax_block_ptr = 0
-    # initialize pointer to m and l
-    m_i = tl.full([BLOCK_M], float("-inf"), dtype=tl.float32)
-    l_i = tl.full([BLOCK_M], 1.0, dtype=tl.float32)
-    acc = tl.zeros([BLOCK_M, BLOCK_DMODEL], dtype=tl.float32)
-    # scale sm_scale by log_2(e) and use 2^x in the loop as we do not
-    # have native e^x support in HW.
-    qk_scale = sm_scale * 1.44269504089
-    # Q is loaded once at the beginning and shared by all N blocks.
-    q = load_fn(Q_block_ptr, True, padded_head, "zero")
-    if not USE_FP8:
-        q = (q * qk_scale).to(Q_block_ptr.type.element_ty)
-        acc_scale = 1.0
-    else:
-        qk_scale *= q_scale * k_scale
-        acc_scale = p_scale * v_scale
-
-    # Here we compute how many full and masked blocks we have.
-    padded_block_k = n_extra_tokens != 0
-    is_modulo_mn = not padded_block_k and (seqlen_q % BLOCK_M == 0)
-    if IS_CAUSAL:
-        # There are always at least BLOCK_M // BLOCK_N masked blocks.
-        # Additionally there might be one more due to dissimilar seqlens.
-        masked_blocks = BLOCK_M // BLOCK_N + (not is_modulo_mn)
-    else:
-        # Padding on Q does not need to be masked in the FA loop.
-        masked_blocks = padded_block_k
-    # if IS_CAUSAL, not is_modulo_mn does not always result in an additional
-    # block. In this case we might exceed n_blocks so pick the min.
-    masked_blocks = min(masked_blocks, n_blocks)
-    n_full_blocks = n_blocks - masked_blocks
-    block_min = 0
-    block_max = n_blocks * BLOCK_N
-    # Compute for full blocks. Here we set causal to false regardless of its
-    # value because there is no masking. Similarly we do not need padding.
-    if n_full_blocks > 0:
-        block_max = (n_blocks - masked_blocks) * BLOCK_N
-        acc, l_i, m_i = _attn_fwd_inner(
-            acc,
-            l_i,
-            m_i,
-            q,
-            K_block_ptr,
-            V_block_ptr,
-            start_m,
-            seqlen_k,
-            dropout_p,
-            philox_seed,
-            batch_philox_offset,
-            encoded_softmax_block_ptr,
-            # _, _, offs_n_causal, masked_blocks, n_extra_tokens, _
-            block_min,
-            block_max,
-            0,
-            0,
-            0,
-            bias_ptr,
-            # IS_CAUSAL, ....
-            False,
-            BLOCK_M,
-            BLOCK_DMODEL,
-            BLOCK_N,
-            offs_m,
-            offs_n,
-            # _, MASK_STEPS, ...
-            PRE_LOAD_V,
-            False,
-            ENABLE_DROPOUT,
-            RETURN_ENCODED_SOFTMAX,
-            padded_head,
-            USE_FP8,
-            qk_scale,
-            p_descale,
-        )
-        block_min = block_max
-        block_max = n_blocks * BLOCK_N
-
-    tl.debug_barrier()
-    # Remaining blocks, if any, are full / not masked.
-    if masked_blocks > 0:
-        offs_n_causal = offs_n + (seqlen_q - seqlen_k) if IS_CAUSAL else 0
-        K_block_ptr = tl.advance(K_block_ptr, (0, n_full_blocks * BLOCK_N))
-        V_block_ptr = tl.advance(V_block_ptr, (n_full_blocks * BLOCK_N, 0))
-        if bias_ptr is not None:
-            bias_ptr = tl.advance(bias_ptr, (0, n_full_blocks * BLOCK_N))
-        if RETURN_ENCODED_SOFTMAX:
-            encoded_softmax_block_ptr = tl.advance(
-                encoded_softmax_block_ptr, (0, n_full_blocks)
-            )
-        acc, l_i, m_i = _attn_fwd_inner(
-            acc,
-            l_i,
-            m_i,
-            q,
-            K_block_ptr,
-            V_block_ptr,
-            start_m,
-            seqlen_k,
-            dropout_p,
-            philox_seed,
-            batch_philox_offset,
-            encoded_softmax_block_ptr,
-            block_min,
-            block_max,
-            offs_n_causal,
-            masked_blocks,
-            n_extra_tokens,
-            bias_ptr,
-            IS_CAUSAL,
-            BLOCK_M,
-            BLOCK_DMODEL,
-            BLOCK_N,
-            offs_m,
-            offs_n,
-            # _, MASK_STEPS, ...
-            PRE_LOAD_V,
-            True,
-            ENABLE_DROPOUT,
-            RETURN_ENCODED_SOFTMAX,
-            padded_head,
-            USE_FP8,
-            qk_scale,
-            p_descale,
-        )
-    # epilogue
-
-    if USE_FP8:
-        acc *= acc_scale
-    acc = acc / l_i[:, None]
-    if ENABLE_DROPOUT:
-        acc = acc / (1 - dropout_p)
-    # If seqlen_q > seqlen_k but the delta is not a multiple of BLOCK_M,
-    # then we have one block with a row of all NaNs which come from computing
-    # softmax over a row of all -infs (-inf - inf = NaN). We check for that here
-    # and store 0s where there are NaNs as these rows should've been zeroed out.
-    end_m_idx = (start_m + 1) * BLOCK_M
-    start_m_idx = start_m * BLOCK_M
-    causal_start_idx = seqlen_q - seqlen_k
-    if USE_FP8_OUT:
-        acc *= o_descale
-        acc = tl.clamp(acc, FP8_MIN, FP8_MAX)
-    acc = acc.to(Out.type.element_ty)
-    if IS_CAUSAL:  # noqa: SIM102
-        if causal_start_idx > start_m_idx and causal_start_idx < end_m_idx:
-            out_mask_boundary = tl.full(
-                (BLOCK_DMODEL,), causal_start_idx, dtype=tl.int32
-            )
-            mask_m_offsets = start_m_idx + tl.arange(0, BLOCK_M)
-            out_ptrs_mask = mask_m_offsets[:, None] >= out_mask_boundary[None, :]
-            z = tl.zeros((1,), tl.float32)
-            acc = tl.where(out_ptrs_mask, acc, z.to(acc.type.element_ty))
-    # write back LSE
-    # l_ptrs = L + off_z * HQ * MAX_SEQLENS_Q + off_h_q * MAX_SEQLENS_Q + offs_m
-    # If seqlen_q not multiple of BLOCK_M, we need to mask out the last
-    # few rows. This is only true for the last M block. For others,
-    # overflow_size will be -ve
-    # overflow_size = end_m_idx - seqlen_q
-    # if overflow_size > 0:
-    #    boundary = tl.full((BLOCK_M,), BLOCK_M - overflow_size, dtype=tl.int32)
-    #    # This is a > check because mask being 0 blocks the store.
-    #    l_ptrs_mask = boundary > tl.arange(0, BLOCK_M)
-    #    tl.store(l_ptrs, m_i + tl.math.log2(l_i), mask=l_ptrs_mask)
-    # else:
-    #    tl.store(l_ptrs, m_i + tl.math.log2(l_i))
-
-    # write back O
-    o_offset = off_z * stride_oz + cu_seqlens_q_start * stride_om + off_h_q * stride_oh
-    O_block_ptr = tl.make_block_ptr(
-        base=Out + o_offset,
-        shape=(seqlen_q, ACTUAL_BLOCK_DMODEL),
-        strides=(stride_om, stride_on),
-        offsets=(start_m * BLOCK_M, 0),
-        block_shape=(BLOCK_M, BLOCK_DMODEL),
-        order=(1, 0),
-    )
-    # Need boundary check on this to make sure the padding from the
-    # Q and KV tensors in both dims are not part of what we store back.
-    # TODO: Do the boundary check optionally.
-    tl.store(O_block_ptr, acc, boundary_check=(0, 1))
-
-
-def check_args(
-    q,
-    k,
-    v,
-    o,
-    varlen=True,
-    max_seqlens=None,
-    cu_seqlens_q=None,
-    cu_seqlens_k=None,
-):
-    assert q.dim() == k.dim() and q.dim() == v.dim()
-    if varlen:
-        assert q.dim() == 3
-        total_q, nheads_q, head_size = q.shape
-        total_k, nheads_k, _ = k.shape
-        assert cu_seqlens_q is not None
-        assert cu_seqlens_k is not None
-        assert len(cu_seqlens_q) == len(cu_seqlens_k)
-    else:
-        assert q.dim() == 4
-        batch, nheads_q, seqlen_q, head_size = q.shape
-        _, nheads_k, seqlen_k, _ = k.shape
-        assert max_seqlens > 0
-    assert k.shape == v.shape
-    assert q.shape[-1] == k.shape[-1] and q.shape[-1] == v.shape[-1]
-    # TODO: Change assert if we support qkl f8 and v f16
-    assert q.dtype == k.dtype and q.dtype == v.dtype
-    assert head_size <= 256
-    assert o.shape == q.shape
-    assert (nheads_q % nheads_k) == 0
-
-
-class _attention(torch.autograd.Function):
-    @staticmethod
-    def forward(
-        ctx,
-        q,
-        k,
-        v,
-        o,
-        cu_seqlens_q,
-        cu_seqlens_k,
-        max_seqlens_q,
-        max_seqlens_k,
-        causal=False,
-        sm_scale=1.0,
-        bias=None,
-        fp8_scales=None,
-        fp8_out_scale=None,
-    ):
-        if fp8_scales is not None:
-            use_fp8 = True
-            (q_scale, k_scale, v_scale, p_scale) = fp8_scales
-            float8 = current_platform.fp8_dtype()
-
-            def check_and_convert(t, scale):
-                if t.dtype != float8:
-                    descale = 1.0 / scale
-                    ts = (t * descale).clamp(min=float8_info.min, max=float8_info.max)
-                    return ts.to(float8)
-                else:
-                    return t
-
-            q = check_and_convert(q, q_scale)
-            k = check_and_convert(k, k_scale)
-            v = check_and_convert(v, v_scale)
-        else:
-            use_fp8 = False
-            q_scale = k_scale = v_scale = p_scale = 1.0
-
-        if o is None:
-            o = torch.empty_like(q, dtype=v.dtype)
-
-        check_args(
-            q,
-            k,
-            v,
-            o,
-            varlen=True,
-            cu_seqlens_q=cu_seqlens_q,
-            cu_seqlens_k=cu_seqlens_k,
-        )
-        if True:  # varlen
-            total_q, nheads_q, head_size = q.shape
-            total_k, nheads_k, _ = k.shape
-            batch = len(cu_seqlens_q) - 1
-            q_strides = (0, q.stride(1), q.stride(0), q.stride(2))
-            k_strides = (0, k.stride(1), k.stride(0), k.stride(2))
-            v_strides = (0, v.stride(1), v.stride(0), v.stride(2))
-            o_strides = (0, o.stride(1), o.stride(0), o.stride(2))
-        else:
-            batch, seqlen_q, nheads_q, head_size = q.shape
-            _, seqlen_k, nheads_k, _ = k.shape
-            q_strides = (q.stride(0), q.stride(2), q.stride(1), q.stride(3))
-            k_strides = (k.stride(0), k.stride(2), k.stride(1), k.stride(3))
-            v_strides = (v.stride(0), v.stride(2), v.stride(1), v.stride(3))
-            o_strides = (o.stride(0), o.stride(2), o.stride(1), o.stride(3))
-
-        # Get closest power of 2 over or equal to 32.
-        unpadded_head_dims = {32, 64, 128, 256}
-        if head_size not in unpadded_head_dims:
-            padded_d_model = None
-            for i in unpadded_head_dims:
-                if i > head_size:
-                    padded_d_model = i
-                    break
-            assert padded_d_model is not None
-        else:
-            padded_d_model = head_size
-
-        grid = lambda META: (
-            triton.cdiv(max_seqlens_q, META["BLOCK_M"]),
-            nheads_q,
-            batch,
-        )
-
-        encoded_softmax = None
-
-        # Seed the RNG so we get reproducible results for testing.
-        philox_seed = 0x1BF52
-        philox_offset = 0x1D4B42
-
-        if bias is not None:
-            bias_strides = (
-                bias.stride(0),
-                bias.stride(1),
-                bias.stride(2),
-                bias.stride(3),
-            )
-        else:
-            bias_strides = (0, 0, 0, 0)
-
-        p_descale = 1.0 / p_scale
-        o_descale = 1.0 / fp8_out_scale.item() if fp8_out_scale is not None else 1.0
-
-        arg_max_seqlens_q = 0 if on_gfx1x() else max_seqlens_q
-        arg_max_seqlens_k = 0 if on_gfx1x() else max_seqlens_k
-
-        attn_fwd[grid](
-            q,
-            k,
-            v,
-            bias,
-            sm_scale,
-            q_scale,
-            k_scale,
-            v_scale,
-            p_scale,
-            p_descale,
-            o_descale,
-            None,
-            o,
-            *q_strides,
-            *k_strides,
-            *v_strides,
-            *o_strides,
-            *bias_strides,
-            cu_seqlens_q,
-            cu_seqlens_k,
-            dropout_p=0.0,
-            philox_seed=philox_seed,
-            philox_offset_base=philox_offset,
-            encoded_softmax=encoded_softmax,
-            HQ=nheads_q,
-            HK=nheads_k,
-            ACTUAL_BLOCK_DMODEL=head_size,
-            MAX_SEQLENS_Q=arg_max_seqlens_q,
-            MAX_SEQLENS_K=arg_max_seqlens_k,
-            IS_CAUSAL=causal,
-            VARLEN=True,
-            BLOCK_DMODEL=padded_d_model,
-            BIAS_TYPE=0 if bias is None else 1,
-            ENABLE_DROPOUT=False,
-            RETURN_ENCODED_SOFTMAX=False,
-            USE_FP8=use_fp8,
-            USE_FP8_OUT=fp8_out_scale is not None,
-        )
-
-        ctx.grid = grid
-        ctx.sm_scale = sm_scale
-        ctx.BLOCK_DMODEL = head_size
-        ctx.causal = causal
-        ctx.dropout_p = 0.0
-        ctx.philox_seed = philox_seed
-        ctx.philox_offset = philox_offset
-        ctx.encoded_softmax = encoded_softmax
-        ctx.return_encoded_softmax = False
-        return o, encoded_softmax
-
-
-triton_attention = _attention.apply
diff --git a/vllm/envs.py b/vllm/envs.py
index 2aa6afcabf288..b99e2524318fd 100755
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -18,7 +18,6 @@ if TYPE_CHECKING:
     VLLM_RINGBUFFER_WARNING_INTERVAL: int = 60
     VLLM_NCCL_SO_PATH: str | None = None
     LD_LIBRARY_PATH: str | None = None
-    VLLM_USE_TRITON_FLASH_ATTN: bool = True
     VLLM_V1_USE_PREFILL_DECODE_ATTENTION: bool = False
     VLLM_FLASH_ATTN_VERSION: int | None = None
     LOCAL_RANK: int = 0
@@ -521,10 +520,6 @@ environment_variables: dict[str, Callable[[], Any]] = {
     # when `VLLM_NCCL_SO_PATH` is not set, vllm will try to find the nccl
     # library file in the locations specified by `LD_LIBRARY_PATH`
     "LD_LIBRARY_PATH": lambda: os.environ.get("LD_LIBRARY_PATH", None),
-    # flag to control if vllm should use triton flash attention
-    "VLLM_USE_TRITON_FLASH_ATTN": lambda: (
-        os.environ.get("VLLM_USE_TRITON_FLASH_ATTN", "True").lower() in ("true", "1")
-    ),
     # Use separate prefill and decode kernels for V1 attention instead of
     # the unified triton kernel.
     "VLLM_V1_USE_PREFILL_DECODE_ATTENTION": lambda: (
@@ -1554,7 +1549,6 @@ def compute_hash() -> str:
         "VLLM_PP_LAYER_PARTITION",
         "VLLM_MLA_DISABLE",
         "VLLM_FLASH_ATTN_MAX_NUM_SPLITS_FOR_CUDA_GRAPH",
-        "VLLM_USE_TRITON_FLASH_ATTN",
         "VLLM_USE_TRITON_AWQ",
         "VLLM_DP_RANK",
         "VLLM_DP_SIZE",
diff --git a/vllm/platforms/rocm.py b/vllm/platforms/rocm.py
index 5318bdb8b36c0..f5f6808258ec6 100644
--- a/vllm/platforms/rocm.py
+++ b/vllm/platforms/rocm.py
@@ -49,25 +49,8 @@ _ROCM_UNSUPPORTED_MODELS: list[str] = []
 
 # Models partially supported by ROCm.
 # Architecture -> Reason.
-_ROCM_SWA_REASON = (
-    "Sliding window attention (SWA) is not yet supported in "
-    "Triton flash attention. For half-precision SWA support, "
-    "please use CK flash attention by setting "
-    "`VLLM_USE_TRITON_FLASH_ATTN=0`"
-)
-_ROCM_PARTIALLY_SUPPORTED_MODELS: dict[str, str] = {
-    "Qwen2ForCausalLM": _ROCM_SWA_REASON,
-    "MistralForCausalLM": _ROCM_SWA_REASON,
-    "MixtralForCausalLM": _ROCM_SWA_REASON,
-    "PaliGemmaForConditionalGeneration": (
-        "ROCm flash attention does not yet fully support 32-bit precision on PaliGemma"
-    ),
-    "Phi3VForCausalLM": (
-        "ROCm Triton flash attention may run into compilation errors due to "
-        "excessive use of shared memory. If this happens, disable Triton FA "
-        "by setting `VLLM_USE_TRITON_FLASH_ATTN=0`"
-    ),
-}
+_ROCM_SWA_REASON = ()
+_ROCM_PARTIALLY_SUPPORTED_MODELS: dict[str, str] = {}
 _ROCM_DEVICE_ID_NAME_MAP: dict[str, str] = {
     "0x74a0": "AMD_Instinct_MI300A",
     "0x74a1": "AMD_Instinct_MI300X",
diff --git a/vllm/usage/usage_lib.py b/vllm/usage/usage_lib.py
index 4eddaf56d81ad..69226763aafe6 100644
--- a/vllm/usage/usage_lib.py
+++ b/vllm/usage/usage_lib.py
@@ -37,7 +37,6 @@ _GLOBAL_RUNTIME_DATA = dict[str, str | int | bool]()
 
 _USAGE_ENV_VARS_TO_COLLECT = [
     "VLLM_USE_MODELSCOPE",
-    "VLLM_USE_TRITON_FLASH_ATTN",
     "VLLM_ATTENTION_BACKEND",
     "VLLM_USE_FLASHINFER_SAMPLER",
     "VLLM_PP_LAYER_PARTITION",
diff --git a/vllm/v1/attention/backends/mla/triton_mla.py b/vllm/v1/attention/backends/mla/triton_mla.py
index 0149639e8c0b3..54ad3acb93ed2 100644
--- a/vllm/v1/attention/backends/mla/triton_mla.py
+++ b/vllm/v1/attention/backends/mla/triton_mla.py
@@ -5,22 +5,18 @@ from typing import ClassVar
 
 import torch
 
-from vllm import envs
 from vllm.attention.backends.abstract import (
     AttentionLayer,
     AttentionType,
     is_quantized_kv_cache,
 )
 from vllm.attention.ops.triton_decode_attention import decode_attention_fwd
-from vllm.attention.ops.triton_flash_attention import triton_attention
 from vllm.config.cache import CacheDType
 from vllm.logger import init_logger
 from vllm.model_executor.layers.batch_invariant import (
     vllm_is_batch_invariant,
 )
-from vllm.platforms import current_platform
 from vllm.platforms.interface import DeviceCapability
-from vllm.triton_utils import HAS_TRITON
 from vllm.v1.attention.backends.mla.common import (
     MLACommonBackend,
     MLACommonImpl,
@@ -99,54 +95,17 @@ class TritonMLAImpl(MLACommonImpl[MLACommonMetadata]):
                 "TritonMLA V1 with FP8 KV cache not yet supported"
             )
 
-        self.use_triton_flash_attn = envs.VLLM_USE_TRITON_FLASH_ATTN
-        self.triton_fa_func = triton_attention if HAS_TRITON else None
-
-    def _flash_attn_varlen_diff_headdims_rocm(
-        self, q, k, v, softmax_scale=None, **kwargs
-    ):
-        assert self.triton_fa_func is not None
-
-        # Triton Attention requires a padded V
-        padded_v = torch.nn.functional.pad(v, [0, q.shape[-1] - v.shape[-1]], value=0)
-        # The output of triton_attention is a tuple of
-        # [output_tensor, encoded_softmax] where encoded_softmax is always None
-        output_tensor, _ = self.triton_fa_func(
-            q,
-            k,
-            padded_v,
-            None,  # output
-            kwargs["cu_seqlens_q"],
-            kwargs["cu_seqlens_k"],
-            kwargs["max_seqlen_q"],
-            kwargs["max_seqlen_k"],
-            kwargs["causal"],
-            softmax_scale,
-            None,  # bias
-        )
-
-        return output_tensor
-
     def _flash_attn_varlen_diff_headdims(
         self, q, k, v, return_softmax_lse=False, softmax_scale=None, **kwargs
     ):
-        if (
-            current_platform.is_rocm()
-            and self.use_triton_flash_attn
-            and not return_softmax_lse
-        ):
-            return self._flash_attn_varlen_diff_headdims_rocm(
-                q, k, v, softmax_scale=softmax_scale, **kwargs
-            )
-        else:
-            return super()._flash_attn_varlen_diff_headdims(
-                q,
-                k,
-                v,
-                return_softmax_lse=return_softmax_lse,
-                softmax_scale=softmax_scale,
-                **kwargs,
-            )
+        return super()._flash_attn_varlen_diff_headdims(
+            q,
+            k,
+            v,
+            return_softmax_lse=return_softmax_lse,
+            softmax_scale=softmax_scale,
+            **kwargs,
+        )
 
     def _forward_decode(
         self,

From cbb799e314178abf2fa99e7306087198c5f43580 Mon Sep 17 00:00:00 2001
From: Lukas Geiger <lukas.geiger94@gmail.com>
Date: Wed, 12 Nov 2025 02:55:10 +0000
Subject: [PATCH 346/976] [Model][Qwen3VL] Simplify `get_mrope_input_positions`
 using numpy (#28302)

Signed-off-by: Lukas Geiger <lukas.geiger94@gmail.com>
---
 vllm/model_executor/models/qwen3_vl.py | 44 +++++++-------------------
 1 file changed, 11 insertions(+), 33 deletions(-)

diff --git a/vllm/model_executor/models/qwen3_vl.py b/vllm/model_executor/models/qwen3_vl.py
index d880e6015e5d6..87494c6735cd1 100644
--- a/vllm/model_executor/models/qwen3_vl.py
+++ b/vllm/model_executor/models/qwen3_vl.py
@@ -1432,13 +1432,11 @@ class Qwen3VLForConditionalGeneration(
         vision_start_token_id = hf_config.vision_start_token_id
         spatial_merge_size = hf_config.vision_config.spatial_merge_size
 
-        input_tokens_tensor = torch.tensor(input_tokens)
-        vision_start_indices = torch.argwhere(
-            input_tokens_tensor == vision_start_token_id
-        ).squeeze(1)
-        vision_tokens = input_tokens_tensor[vision_start_indices + 1]
-        image_nums = (vision_tokens == image_token_id).sum()
-        video_nums = (vision_tokens == video_token_id).sum()
+        input_tokens_array = np.array(input_tokens)
+        vision_start_mask = input_tokens_array == vision_start_token_id
+        vision_tokens = input_tokens_array[vision_start_mask.nonzero()[0] + 1]
+        image_nums = np.count_nonzero(vision_tokens == image_token_id)
+        video_nums = np.count_nonzero(vision_tokens == video_token_id)
         llm_pos_ids_list: list = []
 
         st = 0
@@ -1474,43 +1472,23 @@ class Qwen3VLForConditionalGeneration(
 
             st_idx = llm_pos_ids_list[-1].max() + 1 if len(llm_pos_ids_list) > 0 else 0
             llm_pos_ids_list.append(
-                torch.arange(text_len).view(1, -1).expand(3, -1) + st_idx
+                np.broadcast_to(np.arange(text_len), (3, text_len)) + st_idx
             )
 
-            t_index = (
-                torch.arange(llm_grid_t)
-                .view(-1, 1)
-                .expand(-1, llm_grid_h * llm_grid_w)
-                .flatten()
-            )
-            h_index = (
-                torch.arange(llm_grid_h)
-                .view(1, -1, 1)
-                .expand(llm_grid_t, -1, llm_grid_w)
-                .flatten()
-            )
-            w_index = (
-                torch.arange(llm_grid_w)
-                .view(1, 1, -1)
-                .expand(llm_grid_t, llm_grid_h, -1)
-                .flatten()
-            )
-            llm_pos_ids_list.append(
-                torch.stack([t_index, h_index, w_index]) + text_len + st_idx
-            )
+            grid_indices = np.indices((llm_grid_t, llm_grid_h, llm_grid_w))
+            llm_pos_ids_list.append(grid_indices.reshape(3, -1) + text_len + st_idx)
             st = ed + llm_grid_t * llm_grid_h * llm_grid_w
 
         if st < len(input_tokens):
             st_idx = llm_pos_ids_list[-1].max() + 1 if len(llm_pos_ids_list) > 0 else 0
             text_len = len(input_tokens) - st
             llm_pos_ids_list.append(
-                torch.arange(text_len).view(1, -1).expand(3, -1) + st_idx
+                np.broadcast_to(np.arange(text_len), (3, text_len)) + st_idx
             )
 
-        llm_positions = torch.cat(llm_pos_ids_list, dim=1).reshape(3, -1)
+        llm_positions = np.concatenate(llm_pos_ids_list, axis=1).reshape(3, -1)
         mrope_position_delta = (llm_positions.max() + 1 - len(input_tokens)).item()
-
-        return llm_positions, mrope_position_delta
+        return torch.from_numpy(llm_positions), mrope_position_delta
 
     def get_language_model(self) -> torch.nn.Module:
         return self.language_model

From 4ccffe561f0bc9fe007fdaafe8342171592db7db Mon Sep 17 00:00:00 2001
From: Chenguang Zheng <645327136@qq.com>
Date: Wed, 12 Nov 2025 10:58:33 +0800
Subject: [PATCH 347/976] [Core] Encoder separation for Encode-Prefill-Decode
 Disaggregation (#25233)

Signed-off-by: n00909098 <nguyen.kha.long@huawei.com>
Signed-off-by: knlnguyen1802 <knlnguyen1802@gmail.com>
Signed-off-by: herotai214 <herotai214@gmail.com>
Signed-off-by: Khuong Le <khuong.le.manh@huawei.com>
Signed-off-by: Khuong Le <lemanhkhuong2611@gmail.com>
Co-authored-by: n00909098 <nguyen.kha.long@huawei.com>
Co-authored-by: knlnguyen1802 <knlnguyen1802@gmail.com>
Co-authored-by: herotai214 <herotai214@gmail.com>
Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
Co-authored-by: Khuong Le <khuong.le.manh@huawei.com>
Co-authored-by: Khuong Le <lemanhkhuong2611@gmail.com>
---
 .../disagg_encoder/disagg_encoder_flow.png    |  Bin 0 -> 85914 bytes
 docs/features/disagg_encoder.md               |   75 ++
 .../disaggregated_encoder/README.md           |  119 ++
 .../disagg_1e1p1d_example.sh                  |  221 ++++
 .../disagg_1e1pd_example.sh                   |  186 +++
 .../disaggregated_encoder/disagg_epd_proxy.py |  606 +++++++++
 tests/v1/core/test_scheduler.py               | 1101 ++++++++++++++++-
 tests/v1/core/utils.py                        |   75 +-
 tests/v1/ec_connector/integration/README.md   |  171 +++
 tests/v1/ec_connector/integration/hato.jpg    |  Bin 0 -> 841034 bytes
 .../integration/run_epd_correctness_test.sh   |  476 +++++++
 .../integration/test_epd_correctness.py       |  305 +++++
 .../unit/test_ec_shared_storage_connector.py  |  609 +++++++++
 tests/v1/engine/test_engine_core.py           |  146 +++
 vllm/config/__init__.py                       |    3 +
 vllm/config/ec_transfer.py                    |  110 ++
 vllm/config/vllm.py                           |    7 +
 vllm/distributed/ec_transfer/__init__.py      |   14 +
 .../ec_transfer/ec_connector/__init__.py      |    0
 .../ec_transfer/ec_connector/base.py          |  247 ++++
 .../ec_transfer/ec_connector/factory.py       |   88 ++
 .../ec_connector/shared_storage_connector.py  |  201 +++
 .../ec_transfer/ec_transfer_state.py          |   46 +
 vllm/engine/arg_utils.py                      |    7 +
 vllm/model_executor/warmup/kernel_warmup.py   |   16 +-
 vllm/v1/core/sched/output.py                  |    5 +
 vllm/v1/core/sched/scheduler.py               |   56 +-
 vllm/v1/outputs.py                            |   46 +
 .../worker/ec_connector_model_runner_mixin.py |   87 ++
 vllm/v1/worker/gpu_model_runner.py            |   40 +-
 vllm/v1/worker/gpu_worker.py                  |    5 +
 31 files changed, 5026 insertions(+), 42 deletions(-)
 create mode 100644 docs/assets/features/disagg_encoder/disagg_encoder_flow.png
 create mode 100644 docs/features/disagg_encoder.md
 create mode 100644 examples/online_serving/disaggregated_encoder/README.md
 create mode 100644 examples/online_serving/disaggregated_encoder/disagg_1e1p1d_example.sh
 create mode 100644 examples/online_serving/disaggregated_encoder/disagg_1e1pd_example.sh
 create mode 100644 examples/online_serving/disaggregated_encoder/disagg_epd_proxy.py
 create mode 100644 tests/v1/ec_connector/integration/README.md
 create mode 100644 tests/v1/ec_connector/integration/hato.jpg
 create mode 100644 tests/v1/ec_connector/integration/run_epd_correctness_test.sh
 create mode 100644 tests/v1/ec_connector/integration/test_epd_correctness.py
 create mode 100644 tests/v1/ec_connector/unit/test_ec_shared_storage_connector.py
 create mode 100644 vllm/config/ec_transfer.py
 create mode 100644 vllm/distributed/ec_transfer/__init__.py
 create mode 100644 vllm/distributed/ec_transfer/ec_connector/__init__.py
 create mode 100644 vllm/distributed/ec_transfer/ec_connector/base.py
 create mode 100644 vllm/distributed/ec_transfer/ec_connector/factory.py
 create mode 100644 vllm/distributed/ec_transfer/ec_connector/shared_storage_connector.py
 create mode 100644 vllm/distributed/ec_transfer/ec_transfer_state.py
 create mode 100644 vllm/v1/worker/ec_connector_model_runner_mixin.py

diff --git a/docs/assets/features/disagg_encoder/disagg_encoder_flow.png b/docs/assets/features/disagg_encoder/disagg_encoder_flow.png
new file mode 100644
index 0000000000000000000000000000000000000000..2951468c11d9a55f98af4c26eda60cebebb169f4
GIT binary patch
literal 85914
zcmeEP2UwF?)((gYC;}>|h=d}dBGLsE2}PudpeRU}-U+=K2q;aEq9|Pu6+~$&B0V6z
zHz^h%^eP=BwB)~$#9`Fknce+&cbuJh=9x)uzH+~F&VA20?>YD5rt*0iDoO@Q2n0eU
zCwt~11hRz_0wHxF-vUN<TQ$vr|B={Vl#zs_H!zMuAg0G1q^~$wxfq*S8bR3krPe>O
z^YNI%?H$<p&#?3H>DkyEH#E~TvD34%KW=U00EWQtdL~BJgaZ`eZf2I2dhC2>1&{N9
zpAM^;SsTKg?ZL<Mm%x8`dB8BgB=`h=I3ck9(dC4|5ilZQV`FKgW~8rR2CjQnkYDIH
z{|PXBSV8uZ;yHFcDe&3S%)$u#PsYf=0**gL%G3^S1xC*D^79=Bm;Q236+L4;JF^X!
zz|Yai$j;sjZoU2(e8R{1j)PJB5B3InmPYHtyz3+Sa63aIyY(UP41DbT((F7E;86U(
z{8EJH2Vbo9z`ei7MHz^Ii*UM`;rbZd#8KJO1#YaOXMLI1#^JoKlIewSuSUG4m5Yp>
zo{gy@+|bApT-eZM{SthFLWEfwx~`9i@QSQY(!`E<pD$D7<G~N8n7I)jg*fVHW@u!;
zelB5t4sf`ogPF~*2MyrX)<y;dB@zzQv$Ml%?#lxbhK%8sgr_46*nkKB)e-msmG4A~
zA5}9mbTC~%R#=cQJ^Z+=k(r4p@y@(FgkP-mhzAn}>`nE6A+4YPWoV;T*5yc)rX3s(
zuD3yH8-FGqWaT1dWQiB{H*y4a^N*kVRT_3*R{~+$|J3E|_=Wh)d5le^g!qJ|3``^(
zl_mJO_}3M0@8C+bS0h6pYr<E!or5Xd1a7ToDgDc+q#fMR+RzBEGW@Fh<(PADxD6QO
z1%u{B4i2sa!_jkefP*1Z2P;d$ui$a)T(98IKQ0J<`SMkraJesE&frZIfARHicr(R+
zTc4|q-Y@bXh{zu9XlFn$nIAqT;W!69I}?B}UySdE#}O6=UIyz&eL3;(YyB79%NPON
z0FMUrZ)aqw=V0cv@hSk)2zGDs^*B6M{2pb3V+f}8_veDg*KaKFhtElnhm)SABVmfl
zc5oLkar}ff7{jks?QCl1V5DNB_eIps09$^o*1xG90Fw?z1oZi51xh%bONg)p2++lg
zmmhx8&c6V`*D=!#AaH_k+#g2=1Y7(0b#OxDr_})n1-`NPKPCJLtUu;&!k^&!aesRF
zBgkXJ(o-=oH8OOx1Q8nF2}|H1Bn{1+z(*7O$HQ{g0AQr84L~4e2Li<P0{|p%IOaP$
z`oke7FL9Or{K!c#)BkDp{luV4NH#Wv8GlO975bf^EBrqKx&(P_ShWO5m9w^Y(6a_X
z<+r~04~L=re;y1aSltF~{P|trx9a<eF_f2(J^a~0l$VfN{ATFNOGs(|^sy^ZBLC3J
zRX+36#;qcMo{XPpqyMX_`<d~UkaPU$@s>ac|2Ezda_B!l-V!9TVbLm|`FTQCUVdSM
z3;p@?e%|kSo1a=0KQkT@n9~ib;-ZnQqY<d-ew)Ps>L1UdZK(g~S(=&Pi>3ykyo0Za
zO5zIyW}v<&LHNPS%+L^DkCOaR#o^ak;ri`<P!sxpEINFx9}<@kF(lbgbRgCjHr5>Y
z|8O-2-tUv}@APG4Z76{+(&80lsb_C*X7Fq6{Z9G+>yBZAbcv<ijnXBK{q9oR-!Gl5
zm+{vBi!Y-o!_7ed0Ur;s@I;Ke2{yn-tSJ)<O6xU9!ddvD!f)60e&d#W#3%e)w_JD9
z|HLi%LE8f;D1NP1{(Z?1j{Z_t{H-H@XZevp0d7DKeMd7(LtR400NhR&6jDLM$2Y~9
zpC3y2h|odQDG?(!7&|Y~)HYf>@i?Nn{r79gc<aUMXM+;IQ`lcv@}=eJ8!Y*DVe|6~
zfJTTf!X&Eq{~t|G5Uq+}dHnp}-14VI6Ta`e8T3Je*f(HesQ2dtly4|$exhI62q;8H
z@&^Z$?=!8x0A*v0u>Se?1Sdpn{`bKNFAvcp5k1+r_xySB<iAs(bTM<d0%C4LPaOEB
z4!+@=>5RbVUpnIOU+^OTyA5&wdhq?9iK>OaaY_P2r26+6?r+}mr?p%D@A310B&z1+
z`Nj+K5y5Gr7bM!+AKMEO!?F!w_5V&Z!^<N?Fk+%t5g~AX8x=_ei9fg^zo*Fl3TJ*-
zI0IsfUt0k`aXJ6{+yXD(iQl;APwN*1zR!>TGQ{6!hynt?E}oqDHpu<|&(nFoyC)Iu
zh{pd<8{+yi^GgAGR}b|1f8CE@gQq&}@iy`I>Al}4GeKeoN`UaMGW*8}QQ~C3V`6!~
zy8%%^|JV(_(3<O__&tyP-{wpO2pvBg;sPTVBLhc=@B8L{ewy^VMIcBF@HWH&f4Gv1
zt)#N8u`sX5C3R<OIX)9XIW;aDE<*hBCu$t{;bRi4a~+#NdJ53whsP0|?0+yp#RJK2
z@4ov|5c%gy96x-{?^o+ZBP%%AKIH(n!*6f=wzTo<s@jk0o*N3N>u3Lai=INn<wbz;
zue+)?tiZ2h8zXVzc|>>hAFWjUP!|N7+kl)uxh{T=#(^K|;`_ZDe_k&pAV^372}_8d
z7)@?iLd4awaRq&w?fmyw&|j(S_p$HyBR^o~1q6ScRSFO@TOvCC|0fV9cz@%T|8)NF
z9}Izih#lWIuh;``3VbP#fgaeu_nlAu`QzXdM0g+|$X9-R1A=_*PWod*2=N^g|JgwJ
zZ$?V%>+bIaszkQ<HzQi!Kj8+hA1*(lL^i}x(o$0E@A!b*eYg7la1kwtR)5Xrd<|bW
zt|mOJgW#QK<7y(VLLzAY_Z>2^74|>7n!db_V?&V={~ix@LM`%NesRZ-ZH~ZQ{`M*)
zBwT;`#PSE5NPenSC`e@Me*V0YxC!rP1;lSv@e`+&#F%%3D!y|_e>Efio@PY8Z=K!0
zBSZPMAO7x^KW&D>`&Xj;eOmne$PW_bZ`)G^g#QCQvBJb)kC<M4f774W6u;l$|5L>Y
z-$m;`v3DYx*<aoX0RP|q_Xn`>eVggO-#vj=kUy(`!e_Sl<aUE0+8G%b;a^nv=Oxj2
z`H9R00p<mX`rVlK6S;wndH)}ei0Avhmi0fNKpvvPhzcY&N&bWiB=iGpSb=|b5?es{
z+kymv$o~no_kH>DuQc;}kNyKk{%xo&DD)qQ@4xfpKe+2p8{qT(m1}-)dEbxxz!twZ
z3u1Q}k>LOT=RE#)M;q~;Kd&KvUzh!RplA)Z#=qLZP|qH`aupO0@LQZV^fvvvY_xu%
zA9OnX>pcGk??a@dH^zR%vH#3QsBh^HLA)X3BXy#6{2MIt+cf99d;Yu@`ThF^4lCI>
zfIroM|N9Qge9GXz_J9ul6DK{w#9kvJwMB%u4QBtf9=g%)|EoEVi^@f~`DJMZIWtEt
z+Y=}F_0Q_55&s0nhKTv^!OQP{XUR7R!pHL+%KW~z@D1<L_|<FZi2$-uxWuvl45$bQ
z5~`;J8{j8yuKM?Z%D1-^Ag12LTmI9SvhLac&6^hlc?iDjTZ#R43-RxYJifjDSMmH~
z*Z;3?UHCGAzwsAQh+Sg8{Oy^I>*&j`#J_g4{sZ9z{9g!K-+;nIm%<K#Fhk_dNL+H!
z`E*}5S-a8^SGgnS%5AL~`v+BIF=7<k*_Br$j@&eqn!6f$+3*~jRA_?T0&~p8P>c76
z8=yj)j|`kRo3%#sY-=Dr=hdT@+vaJuYRW%wdmflZ<`sAA%xxX>Q%{3Pxn6qIISm_6
zwu>xIW}1Aii_Q|;v%S6WnsNIwqGPe{y~+K;Ma72P@nC2hS-P%_ejBODxyhs$>l)$x
zDsl&l$KSYIp00FpO1pLU6ZKfey`v1!Cj-m-<L{;3#>j><shqhHlJp?Y?mR-^bpHp=
zo<|=jkD<g+TCwUDY{!=FxLK#2+!NxQ=Jq-MoR04JgYpO?@7<)`10$T$R7<wX+_Qr6
zH)-5eMntw233#-~D0HZ~AzBvhF+rEZFOWAF33q60cCQWfv)|W{r7D5e7<k(*osB<G
z^KFL)s%4zp86h>FsD3*p@A;DNZm;K|6i--5#u8aqNfjQ!84NLrGht#Hd8n5Du=I?1
zOjGtPNt@%Px$Q?sG<`*5Yi-iAD3{w=<6j@o!yot|8r42~PY0RXzyBe3eL!ccPrcA%
za&Mn=!gLhM+;qKrt}wX2WiI6oil1-B&oSP?J+aacWwiS`VS0Q6y;{EZX_uR_>6czP
zHgn+*Y@g2x&zN7XJ%FZhH&Y!*I&O(#k!C(-Sn^cX)9opFQE|&i%$9u~W~+}w!trx_
zJkEJqY@X{84PkoWEY!n%u@-69QCU?_(gLmV2fj|q$U-D`=uTpMM-(zyg&g(fsE&~8
zvFti8P1>p;joBQ27A;UUt<cZm{t7=w4sG4hnFRPgpB}>Wwz~>P^lDkq&8JC=S!p|b
zIZ)6&ZIH7NYgZ|BMmL%+_vyA6xGXLCwkVsUJ0IvAE#ZDHu$&~}tIGfzeUylw<LI({
z2(^3dVKTz>jH*g=w-0NiJb-h}nvFly#2=V8YQd#Dx)5;+#j@OzTBWG{4j~mFex=G=
z<u+vDBCUs4VzUqx-)aj+4$6g}qa0rSBbsMf2-D+|Vj|dp#cd_cJze+%trT@FmgF;v
zI%lYwBaEf3$4Z9wUnDD$JQN#1mK+f<z3o^K$}F@uqC#oe6hB8Ly!xfke3Wkp)7v*o
zw1GgxhrE$+{DBtB8ntR}YlFdXf0O{HoywjQ=ulP~dcNLE2gM67dFx&^n^(NC{Vx;!
z%S8V&(SHF&WuHZq`cdaUiT7}esz{LX>-5^RRW)&L<WWdo{uJt3eZOi<S;n=o)+5fd
z19I6OYs*o79?PRotXDoySmUs3lW(>{Q<LB6D=4%$zo;@|q=M}`d5+Ep4{<{Gj;jty
zqxs~CAhd7xj<7u{RM%c^d8qOH)UA;uHO=@aJjkWwyTR+M@$3AqT6rj|a<Jz-Ju`En
z&g#ud1@6LuhPcz?C#*gUq-*8&y|#Sc_j%%DwmI8%<MJ_mg=S~3JG&hZub!#CeR?k*
zT)6X@D-NAO^IiYtwim%|d4jqx&fh<Dsxb3mjE<F=>PUOLzLS(rhN<e|j9V<y4;V>C
zxx~fg3o%JIaIQ;(5fP83bZ2OgVMnzbdn>z~K3YvKbm%%q9M`tXcb?LTW7DFtU7jDc
zK94+?bF?o=sN3e0(<htp_B4Amrb4I_?lBiLSrbqRMIx5ugD~a+D^o?t@_Tf81@X=w
zUt86x8DU(yuT7nHp6nD68mI}~{FuQpdAGaFX6~yrt7QH>dgOR-hW2iWjAU@Ht=j$-
z&=q>?mP!QNz+*>$nr{fOcFRgsPtep1d{5<C_)tBefDgD_JF>^w5RxMcJH=K*V3?4%
z(@0$njj?Fbc*N|@Ydv0DJDVTLblql?>HG*U>e9Y#yEJQ*?KrOLyo#AgKSCSdgqg{A
zny@ozh#gI$s`NSJjq7SME<fPh+3PgfIeI=;xc3CSyHk*NGH*ORU9PXAz-6ZIS@vBG
z@wfr0#F3a-*+hySH3~$65#A@EB>A3dZ*i}c-S$sBg4{w&(awj+@{&{&l`^WE7<vC|
zQ-#_2L9N@k3z`Iv_Z7K{Cd~B4U!WC|^wm<g#jY;VHRg<jEY4M``5$AJ`7Fgg8gn|A
zbXQ3RWFSC67VpXE5>;LZEQjBw{Tj$blts<?tVS!e2qB%^OwI@uerQQ;N=qyM<XfQA
zoT{v|54cAW(iTlm&jB}zApbqOh!^>8Z*&!#kv&eUbph)2lt_zYOeH$H8dpZ$%JeqX
zA4)bkoIlraDnI4a>XZr;Q|O7XU^=Rf7QC^?2J-i{J5;wM=|&~nE_C`-A^(HFW2lma
zm_w!6s0FUYPnnH**CumKM3!9@y@d<gqUm~7FU-VxSc*=WtEqbXAy!iO`%F|ZoSdu3
z%=Eabnc}I<1DbQn6wB%R9`|hO;kXjJJ>d(4?mNhHdNYs>^cUF_1KEte3V$%=@P73E
zzOH$5g-prp*YuhDXWiN?GfR-<E}!1Lpv&`x^TR*9s(#qbZ_jj*toXV(e(^3-zuloG
z=WQZUhFok+CC_$oTWC`=5u?e+)de`C-JO?2=w`Sc8lTQ&6}9h6%kCayDw%-R9T4Kg
z&-SeBYHR@J#KoP@&IO=$Ub%IX<(}@UGR9>MBQb5z$H12~^_0b6mG>!CcI%8(f1Rz?
zGn9z_6|3N#GgMETv0OsNg^QH+T{eOr3x=r`>n*!i#Ts1|hctNaHD#+>-)XO}c8$|r
zT_MAv494Q6$8w-4MK1-k?&npBstn&fi9GMFV$dwALut~mC+R8Qk>&GY_q){<Mk-dy
z+!j<M(Qfa%a_rI&CT*BJ$MHOq`^$}P#%qPhxG*<t%t@U)!E^fi9>U+&Q^vcjS{W<C
zU)$5Y3uUd!qMv)EB!01QUg$b@Yo2W>U#vr8{!3Pm^W~#&pPWkQ+qE$5DTZ6Qv6VVc
z7q{Fosf!)d&GU0!IqQ!rp5VszapO^Ce>M__rK_ieIg5&6d(MA2%O;1W@48b1w=8Ae
zn)1TpNxRJ$hB24=KHFt<!uYMz>1PlYZE{7npX_HckV>L6XPn1R;f!uKCBMstqXVd=
z`aezt8HHNJmMsRd&)1h{47%Fc#SKQFph<>;uY%WXxeMo8v_f{=H>uIGtG};;*5Wmb
zmDvg8GOHGO(0$J2iF3uyycw|<I%{{EvUQwZM$@g?hhxq&V#5d4iYj$g7o5jrPvaC1
zaLdU=)8S;8cQ-2`msJ+);T~_@S7$0GJ9F(hQ4|Nnl0P9&eL(h%C_P_G)5ng+W1r@4
z4#Fw(A^2<d)Rj`hv<6}>iUihv2-G<5L_hpc#~~#cWwx9&t2s`ELYsK3d_?EPuYEF^
z9BWIlZqF7dq4VjD$zOx#R-#9!6a{crp>Rb1e(lVOf$Fg11ve?}eJZpgIlE8wr`%Hw
zgsYY|G(zKs`#Pr87?y_Xz1@WehA+<)EvlXOiR>FP%-Q*@@t_WWrO=|vf?`T~mP~{{
zJdNT0qJ-sYl3P3D48Qj>Rri&ASHah+L8+?SX11!McC6WZuU@vpa<slLm=TLx?7o(9
zjeDO^PKT<+44eE&zRRWMvjYR7Dea}XWdM!y;XU=&f_4la+b?A8kWu(qV=<Kz8B?vD
z@8p<)n?otnuI^0#%&1X`&B5*|Sgn4I)W+5pt=3-fh+K@GT#Uqw9ffA1k)&ar8C|yb
zhFaBh7lv!e8<wuf$5ObnKYQtPj@_Z({h_9<2e9C*al22n>|?H~mYL?A@qv@?GoM&o
z#MrlaWU`{PU2-1DxL7~^JU4t~;j*KVG|o$-H=LL0YUji(e0r_gv*>Omx@7RS43lj}
z!EDW}-$Crl5sc<p6sCkXtxNw|cy%Q`SN|BuPR3^A-5lo?*<x$pX+ju}c(;{_?0k5U
z4hrGAq-um!R4U*ohesm#nNgS3-+e?RX=YnHR)#=zQ9G+}4FCe*-dZ^}y}td+*GyK8
zEmRR$Rr48sJwz(Daw>7g@10)AXJ}--+m>_w8AURc_I^v))ka+BL}%{X`@*&*R^0`z
zx$k+$-}6dcR%&w|IcX5WNsA6;m_Ux~8{Q=rxe)E6SvNly1TWoV{dAAHb==nF?2$l=
zvPM`2eIHzMiE~hrt8i&3rZ(G4gEOv&8%Of#E{uKtJ|9+fsG-`m>K@(9cw9#1G{b~$
z|4MfFYR?Voybhdmx2wsLd7=yV$Vy@nck0llqV|F$Yh)a@n|6i&b7?`xJT^^eZME_A
zqLy=aR<y2ttMYkw`?5!lJA^GRf1WF7%2ss$f-x&<vG(&t7hpz%cblARFnjLjtD-W^
zMX_C}oSX>jHG3V-;l{u*hF~ZjWCF1KoXhBz?Hsjh@c9L$q_yfBIH#s~u!NklJ!Uu_
zV+R(daM-DQ<Vu)6ZldKbwM0cg<VkB;+Q;c{TuzfE?>Vi}P($Yac3yE%Xq+iR?4ga|
znbkK+1@Q7l*_%^0P#?O7(9B%mA6>cTqFEj+k4Ql-CHl_&h3qDm>6zt19-Vx2s{fJ3
z{9BHy9(rAvm}=~eJmC-?XIzlsYQp?G>U+N|8rdLUA#^6|WXC|N!LmlVnuRx~?Xn=f
zC{M~+L_Z7GS49+8FubK4+OQ+Y#LA~7_;3PT!~5jf;Q`TF?iu%>74)mXwO+G|Y^6Y5
z&VJulaIJaW+EQU8)9$#!m+cn%ILeS5+uNnoDH9Yk7R%-y2Ub2DP%}R7?s#ccK)u+N
zA^oDUwC)l4WAri<T`uuC9_15C{flXVPqQ%1?DN{9&qmL-);OyMRc0^6bv)NhQ%_i0
zb+z2Qy*Yc-SemAgIvM%06Q(|0nc)P#hI58h0`HqP>7*<Z%xE@CuPheABF*!<c<+-C
z$ihP<mGgabX3=9IEa<b8P_jiBhJyNbNDN)dgq7I1I<&|4<3V3d-pwbmPQut2R;<&x
zHBIIU^!6ya_z<)1wCH7M@e=&gvSzGze4BOk2z*})?keXk&GDdty=^KB2Qr6P4dly&
z9-kcsPHyTxf-23)NE#W0y(gJzo{D}xj>POcPrpeCd2wbg9@lyL^E(56gPX9}0}PF<
z8bKnjy-@~zEhi3f40}wJQJFNR;T|j%^K}LvvzDy0P@RVhH5JiGbf!iQ-k3fXg$lM!
zHCUr5nykzi#XeiGx#w3z*G^N^5NO}LT>EtDp@rs2riQ$>v*;5GTnYQ9cENBL?Q_^e
z(avfsJCz#bk0!tyTvUdi-J8-76dRvf<1THq(3*z<CxsPN9cEdMHdRe^H1grj!GY!L
zP_*2Zk@r!;NAq<3%GwnP^IL#K5bV=ei~?2~l{XMT>Hbz0kNEYC1&5Y*tEqyJP~50J
zyU!2xKA^e+im1;wH^}0Y@zqhM6??3pvat9_Wucy~vcOfoEL%0G;hM1zbQoD;C17&;
z+{cdV$j=eDs71vY%wxD|P+7J^^n%x?)UYaPlw5<{Nb5aqCv2?P*h(VKW(hmT*>`S5
zZGIr<r9LpT)j>|QFga|^Pull|g|=BM{7^$)Kp`?qyGZ@^O4g~NXchF!d+*!LZLAeC
zq#sG6rEgXXqr9yPlnQ2QD7!h%tKjhHJ7Cd<NiE7)s0(n_{rna$kF_uIaPgdrQ}4x{
zm~v7|csr<+u3518Zljef?JX{zicvQ4!jZRk!!U^Gq-BFNAy|s`%pT;n_9?|)%@k}+
zk$Pk5G}@9%&0v0N5sJ2Wi>^dNftyDSZoSIwX5^#Gi72fSTIr`w9~R^+*`(T$_p&5q
z4^m3V1`|`X6tmwWe%aFNlKb4{51*pGh|G73<f>K}Mr^fLvo#^9#GZ4t03Q!fH5x>L
zc}r)cMqXx1pf_&IL;AnKJr_V+&1>i96sEYJ_p-Jj{;f>rY72a1K{vm2jv3J|m7cnH
zu8wl56jSg7i5x_Q^bd6@!|L)9tzEWMHkqi-_Ya&<HYyB#sc{~fSoY?f8To@L0j(!-
zS?iLEqAO5}O?s)&YM*W_jeE~7h5GblaMd++S!!PJZR!X*r41?0H!k+kqKnBqb#GP$
z)sgEOFJ7dJk_wKodw9AdaDxdB#$CR}Awg4I!Vc-uAu*2o<5=vy;d?8y=lAg)Ux;K_
zPO3O&hB#W}y68%^xFcjL12z><Y_pOy9UG{AO*1*AiDr5`HIwLw$J)3qH!PyM<EqPK
zSkdN7xP2sg!7T9CC7X&%xn!3YB^QgRvro@JjhCQBNw^vKbZI7^WY}Yz)qrq_%Oqw|
zWHs*DRBM(7D=N#p6&d+1BNxN8<|TpqEadJ!WOj0X>|vYv<04h9anug?P3);qbEK>&
z!~Fe|e)L0)qmSCGH`6e<xfhiQ3O`ow-Ct}`xTWD)KZ<&}dxt@RF<7gWbVW(mLdr8p
zu>1BGVamB<i?ZV3$^#w~!Q;oDptxG?)AnliiMF|(ot{md3&o<YjJxCBEt|@rUx=79
zs!0lUbDZ20A6R$o1bX+vWl8jrKBiM9X^0N<s`^=RtzBZe3d4;mV;?Ou^^e_^t|(u8
zv@P3L!?3{Hz#>XZa<c5XuouI^&LXdnqAnqUWsK&~4A&0dU?mZ2%S=`=+oMY#E=r+y
zqgpCTl%iQ(`)}jv)!Aoy@DqSu6#?{Wuv(P!O3o2h3G|WVZebIJ*eAk`{`-gG&LcJ_
z<3Lcf1L`_(n=U)%_@maG%Ni}tTD~V`5@OD4OR0V#btlITEQ$eMAoiI*{KAFhkBuVR
z=)#5{KSiduEcETC>OEnJ-Jid<;=i)Bb0vNejYQWke@@4J)TpPN8f+W7ncv^5dC{X=
z9bK_d6jH=Knm+<XOnc2`)6Hb;N^w86Sh(12KiqJC9HqxJIX*eOEnDu$1?|KIuG=cr
zf<0<?oR+fiR55BcU{r(Fy>^6RcvOTsciH^e;U?#!FFA*;eC93<@0)4MSle2&_2LXy
z&+1g4reXL6v(=+%Bd5fq?z1&3K1mngbQm`m%xB3^!?PikL^eb@PiGn4xl$isgX_n-
z*Z1G`72q7I-vyIxLFc1khg;A|#jxj&?Q3nN?vec_WZt>`VfX4|gz^DZl5ex$AM3td
zDvaH_^%(Qp5h;c7Qzw-ZHuZ8`iae+HCH0Fk<T*tJQa>WMTN?^rpKPulM|aW75?ng&
z`Laj<<69T|Rn4T)w(my|_yF!<Axa%j`sbxAR(!(q-jc4Dw;v%LB$tJgkS2~NBB?t(
zGE30Im{0FBkBhz%5~ayPr%qF+7Pu{p1)S@@Cfpcf((Qg|rHC3GJWKs_UeVtMzJ`gp
zEcROE$@$zc4yBXGd$Nc-eN)v_$W?oi5~UzbiF@tNUM&`V${0bGw<FA7D2C>qeeY<+
z(R@CTuN*^miEGW=t?5tCU3H_!ggDI$rl6WsK*%RxY5h%#DKF!PjqsfHSh`L$UHklj
zyWEGM-ZyVxL&U4yMq%Rb{F>mZWz_Mpi=u%nYN~b790E+MZM$dEA|<tErb<6x>CbDv
zwp2$=s1&KwGVw4{9u@6r!F9uAg>{}($SKIV3r16VFkD`9KmVmBF*z0~c5429+>7$C
zHNH!Osn<hlOq)rEFAndUYmi!|HcOj9AuR=8J(zmeDG(whR6m9%Akqu*1ca@T&ure_
zi)1ylq1~ip@*TArXqV`h>b)6uRqjURshluTtonGXu-TEcDbmD_vV>_1$)sipc|6nc
z=nemKHcylhCCS%x9`0j*bMBVwmzeQyi==yhCcfB0Ie3}(G5K9K=EBY7che)XCfQFp
zX0l@2!;r?(Ip!ro2ZliA&NSDq3C{(7CucbBTHY3Em)AZ;RF`ly0St@jTtA#s(}0{Q
z*ZY|ZT(d^)(z?QxWb&~lb>^xVP4S5jS+(~?>?@Y+NpULu0F=y&Welp@4)|F+E-4k}
z;d#PSj%%_pNIXyY_-VLE9E)_Qt6Y*rr1+@YXpt@S+WurPlPlTQ+Rk@u@T8W;+fpIA
z-~*@HpANz2c3ZazOfB}loPGO5Dc|bj>)fFILV2gJeHO+|TOsZGV)kG;I!S9_aD(=H
zbZfhkcN(c^pm&Pg)7s?0ZWf`dfG=5aW<;jbHD}+7BUUSX5uCC1_f6{DJe`;)I!5CC
zyzN7qlBX-%UC^-C3>wYOmL3|F2{Echu*O<^C96%lP{{a8F{dU)UzYZ;jJVr2n&b=I
zYYMOSkY~S_ve2f~kwP0wN7D+g3Op5=R8&zUZPis=ewz`5ddvUX<)yCgv)Iei7xr;!
z^d0LJebl~!ebLr*2W4R2D!ijh;Mwv@Y%0FK)75rrvLMFTXZBg~K+WccSe+m@vk5B1
zj)AQ6vF0N&HzMwe^l(VuH0uk+18~xX@`hAU;<5Nz;z6-D>}=pSFT}4JuF+E`WP-q|
zdGriGQ;N9|0h&6#LX&vmF-XcAsb(QXfxoJIe^vMX6xF?L$_azSUVy)f(fF$MU&Uxb
zF<Lv5b+M$5Bd~a3T=tj(ZEiDW50!_*uAYUf1t^SxXuj%M`OjMyI^^ksLR9S5f*R%9
zWf2DzLXJFqBcr0MEy5ud9cMd1H+{isGrcZU_jp5U7Hv2}?sT^5{lLn6)zfGP_cS(o
zU6px%mII8<6f~V$q#<I<$)LRSE}$qwGrIxrBfIPyPqS7X5JSAX4?}hruFlr7_Pt;t
z%h=k^>A9-L<_Sv<i6%=fik?^3+(v?UEG;*iEC+$MJ#PF!6R8N%y|^!$T)9!`nOvr%
ziqHPWav{!DrB3qcdM`rUmA5e7p~i70^I;wtC+Ss{(8R6HRji&c!%;mhhOx%zzJXJl
zNe}{?FAu#s3xTSu#3D4AJ-IcNZ|?Qm`5?|rRXE^kvi65l)~cC(UCwC7Yo9-jGSJ7I
zu(E>}%=mtMVIULH`P%AZc+B2-kL9NyQSSMt+?O2|SMUxw!($<3a;6eG<xzyhc`V|Y
zHBPnkoUKeQ#RpEiy~@`x=tg*SrD<m8rKn}(**I1X)<#5hbQfL|Qd1*8%&S99<}XgJ
zPtimDq9v02)-pc}zuftA5UAqz$WcX_VwppRhpH>cdul7l*g7v$C^rglg8HAw?JMIo
z0o(Q*&$)lfId2!o`5X{9J1hF<Pv)gqFqElX#q=W{^`1g6H9V`Q46$oRaHBAN0bBgw
zrUlDmDYfG^`wxpqS0ypaY-7DG13^~3ExUN8HJ&}I+VLnU#`NgRI*XeSv6qie<i3`K
z=)Qiq+ja+w`02N)57c?fjs!9Bk4Mn~>hQ^_Yo9HhFH7UXl~FgJzj`&`vHUhZ4_`;@
zqT97~2jj@gMf)!I#jcbSoZX1Idb;e$vBo{=75=t%`wy#^mnShRP(Qpa4es7jsv*!C
zFIZmfObPBz`K-<?2;4nMc<Hq`xch^hygS$lcW>pQV%nptPHR2BTZkF)sAu#^yw2??
zxbf=hFw8jw@J6#~ar9;&{B0DHS#1pG((FuBh|nt1E4fE!7Z9i@5lnxEH3WhUeR4C=
zKN+TA9yWf7Y`Xc9VN}OX5`>|gm7SFj1Z63Gq>oY3(=AC|B2(XAh2eA(a)0u4r+<HC
zh;w61r1Ry{)QXA%P@IbGZCAq91h548*_8VrtFnuvTSIw+<eRkKSyI-^oh{x>(Gzn0
zx%$`^(pIQ6iI)Q@=J0(MesKu&!X}zf8HjGpTW|l0U3l|rO5HmJonhPKYV3m)ehtI+
zl?Qf7y>{Q#n;4-pX1#9^>fHrm*j39w5VPV}Q&K-I!=4!go`d?t<bmm>qwXDwqT{Re
zQ<O+Leun)9c*KMoZHJR#DK%lv=fQnB6o+2Q1H-=@SHQljIO0wl%WG+ZF&!I=_6?42
zOU<zxly^Rr<i7IRvGLKgng}S9J*qv5Ivs{{b{X=)twC`!P;OW$t5$;T!r0}-vRz6!
zx~qMAI2mX&hhnnNW7a0S^7FS^&#6Q}VkEV(smEi$EYd<gk0iq;D8qCqNHNJ|M(s`K
zAy6~5$W@JlVEJ7NiX5h0fBv2YJsK|?Am`!<i5tSnBBcM62vyk3RNsZhD8BJ+Fcb-f
zVE0xAU2r8=M!E{~1zM3}s$OFa<NY9FHKn)JnM1=Ms5-f@Tyug3k|!kF{XCh$jjxw6
z@3tkI_7j#nxB1Lk)SVbZ4pz^QL!`B@lE{15RP4em*~q4i*d%F(m`Pjt>nWq@Zlsn-
z&^(v${0VO?E<viGpkO`KU1(kEOU18dq;mN176n0o3IZHa&pe;PF5BHX#}1UY(<S_}
zGz9wePMG0cn&Jp~?}I_XkcD%Z*I9eYA*8<KsQ~Cf`KSK$LaRy_axH0d%=H9)<~AR&
z2z+kyGP9A4akHIE;!}V?qwd9(@$W2_*{8=xN5)5691$hX7er1FC2OiI4b5Sxo~7Y<
z=dILCpXgUWxwtb-Ni6rF*_$Ngvs+co!XQ{v6(Oz*DoBmH2Z7g^zM#0An&tx$Yk7Fk
z)s)qfTkxse@pZ)%><};B>xJ(caG!6M(QeP~c1y_zEg^Pq`(A&v9>>;GlQHx3Q<W$R
z^-@zlVj$^$r6$!_5&+aJt$#;e5Ii=68@+F_7AfXVU(*>pCNv9jV!R+^mb5vb+>+19
zS<=Xr-Py<FHo^kB5p2b7WnHE;%!iP43vfXKr80Ltz`kTNlDt7SeOsbgPUI8`;_iVX
zyCj*TAgFU^tH`bcpC-VW^HMUDg<>-)J2_%hLDvrIfzitbWbs|*1_llC=_I+pJ61yy
zYgteCU#JCkXgDe%U<IUSHFmZ&kD^DR3v`_Ye*vqK=<(_f0k7#gN@U6t%x9%uiI0|)
zNwqfyI+#6Shj0J3d&T<}Q#*lN@vBs%Sor{pj`ZA3TX&?oJa^h#kt9wbaaD|DRl>3L
zp!gczFKYlPamnA2Q3O&t<lgQJsi!m-hmm~V7fmO?IlmISo#pwtt7c}^6J7ZoKAcCE
zP2cT4Oi$jF`e2LU&YlHz090-CB#72<oim(a5V1Q?w_SLD$dlV@JcH}nSd{VRdP=MG
zLs0UAG*?w*Ju8(Lz=CwUDa|3fb~D_shk?a2gn>4IM|xMW%)>zz;YVcCi5GhBB`JRK
zQVFe{k2ibqlD*qqp=@xAjucZG(84$O7;88tdC7_vh;CH+6(2<pTT~v+Jpc<WudyFq
zKKTN}O+)6hUgD%ACw$0UwqI6)Ad@4mI9zXyH+3aXrv=YRn?SB2K!P}^!E~Kp9-_-Y
zr(^bE-O}Xi6*Xw~N_i^kZ5OP#!r}=_J<P?gG^X^|WBy6Csp(hT(sJixzH`RM=X#}e
zkm(Btw6D;SrT{!^^*cmBvuH-e<214di<3ghLwlcrAg^sUKq+{67dI`*2@nVfGVf$j
z<**q~%g$>QTdDgBonp_9(~^kyYyq(Ia2<9eG9|+vRc|J}35<Ft37?iA$!daz&P??M
zWFI?g@fPx)M_bOYmW`3cA+fH`(>-sF??AtDnXTqf6X2S@;CPc9LMp(SOwva7&cqZ%
z8_HI;cWxBxgKN?Emp8vA@1fRoQ>YDJ4of1Rc_j;hW+gN5b}-xEE8zG@Uh{*lneE#0
z!eCOlRd!eVS`3t2Tzm(~XCV;{8o84sV6{qjr1oqjrSXK2F+)hm#UWomx{wN?5%$hT
z(wN-AaLrCB>eB<kP}up*>pQ(Xc}NjCoabmt<XG|HT~AHG!EL;IN%P2`9~o&0vz*;o
z40Uzo`=}4Hf^rvI0WxE-a$7f(`O<<T^<sr7NiUK=FOs`(UD%FhJ%*_2Jvij)xf6JB
zymOKx?+KB6&NnJf+KLueX58X+8Q@jTCQ^%C<e=!3?G^yX?Phuv6w+>7MN4xSq!{6c
z8r)RAWCKm9ku7?4R9+QeDguZ0_R_O^!UFn?Uoer3h1~HJKM7F0A#~sTuIa|)9H)us
zQ#L)t0b4En>Sk_Z8JJ5ygJ}J;09)S@S+WTp3SE4FSi&iuA5q>;)1$ackU0#J(a7h>
z@(jrR(d&8E4=2gO!^1m4MxdQ@=OJ{n*t195QY5be=W}QIA5i|88Q^4GZjv`KlOW8L
z9m<cWtmg_Rgr7=Wy#Ry~xU=6y0iY;**5IK0S~UnhKd^a*e0Y1ye-KD^R)B?-yhp)Y
zd>3Ay0DTpM5A7j8xD%i+S(Qy2IM3X*oI_^qW`sXvKQlmInwvD`0DXb^i39hRDA7#!
z<lH*?zUz6s#Y-AI@G<#Y{am!g(D2sq2+jo#rCqG%ArLWhC4Sa$83+_V1CWG0B~c^@
zN<bu9i#b%*Q;~(1x%Bd`V(7C$x_HI~4joofOHXi~_(93tN)RZ122?wXBeqDZ#q!|;
z5Mv+x8(|D&^z6k+&kyqkXP<!}uUypBNpFo8RrF6j4Pg6pz5f*^0NY>&*CD9KTLcJE
zXVZYGotHQ(fcrC^+tm~S+=r_n>{{c27@w1X^GI%!Ul0Z7ff)$M0=VC;ZCkSr_W@Mr
z&1tUOg~XIREEDeDNwTUZXXToE5edZj5E#HCU;z5AKp|iT<Uo-Oe<|`$sz^IaN<2j7
zuT185fkxylGIJIC;W>$k?D+2EMNEH4BO`LKhA!KvmVU8h8+XoDD8gpC^Ue;&QsXfU
zHB{_VLp*Fs$75;mX@t24mJw^pL`rdqO?>V0ui{X8guu}0Q^Wji@-4Pv{TQtbouwDE
zWMs!a@dxVXk1hl9W6y!s*_quEwPUoW$Yys|&A9Ol)w{=*7t9E7&YB-E?yq07Nf%k=
zMF<9a7t4c$l<t>=wD@|6aD0^R@Kehq8=7H$0nVgk&Y@J9;u5jU!`jhwc-#PZPvylJ
za~-+q+DEJG+zwr2mv){*^+b1J{z^L*v|^9FhNCAxPodG;`+8%jsYRzfPr1z}=OdP8
z>p+YgNvvQ{i(#%d-J`=&jlWfbb&cAMG$jnCh$1X2gAZuVtURyKcJ9hr&8Er3`L<>@
zihVqQ!>&x_JC3*K@|!f|fS%DOD_yBelDuWexnrws+twmg1Bd%VU{3fFr*K35or8!Q
z7X1}LlUW@)_W0(eN|TOsZG49vr`=-ZBuHqtHD=DMy(m~{*Q_ntCQ|undFk1a`P(-K
zrYoxw_iZ6T@ybw%GjAf%spJ<oq?{u=hVh?^YOIZ&i*ov8{U%}}S>o|ivgG0Y6fLQ;
zX-6xhAf)v>t6m(z2xVoUmdzIvu%PGo1!6o2-#guF>=Qo@5_wLsE4mY<*Qmu%WGf(z
zQMdLl0GY!i$n5P*8sjFS*$9nf&Me1aClH=fuuqFKEB&imS3T-&V&UePp+KB6uJx%(
zS0vzjjx`SN-!_wdt=oN3I~$xnc?AvnRI6qyQ|Xnim}KcwQuzyup_^tzP@tQ4@+L>z
zl?G=ZoXN7AyR7Gi>hJHcW$Hbl?1ADjew(D&MG=7OrN0oL5?TtaM+wuoID*oRBL%rQ
z2_WFa&s<DC|HU$T5lMN?^xKQCbMHA*(o6LvU7qe$DBW_%fqdXlsDa7|viN{l4sxb^
z&mK?~Gf^v3)1S|%i;P$)PzVE+Qd{4g)yqs+k^O6&Vtv$8E4kjhV&ObU*rafSuy4Xl
zYFp}v&>l(tgVuL2DRPnqMj+7OWH>2?b8SrRxifZe-X6o2Z4%YEgJi5RxZUvN0l?!O
z&@_H6^<{GEu1pn6w-89p=|lvbKhK_Z=M|u3t<OY$nEA`($YHP5d*KSZVanHJGg%pT
z3DFiD%k(HR)xt_)v3rr%o?$90KfzB4PD%8v`JQDQE^ui#SM}Z+wt~_Byap<Vn=eN;
zqWNlcy?XcWOHijpJ8?4Zv8GOZP!Oh4)f+Ov99et}Of7Z(VBBp$Es%#jt=sv$hpoXx
zINq$jhaT}h`cT=axG$Nqak&eQXD8_x`M|r~%jh#>x^HMe=M3x|b@riX(4Nwwrkc8N
zEJ(dRfalP0@3!cpfm-Uk7Ly)t%CieJQq*||#%^NTRc%q7TgL2XMOG6grEho#&_2Kh
zBp9=l17D+WE0?yHWSdwY!gw%qOMhP<A}O+sUZV;qj<n>BB2jT~=?}S(53mE-OvA6D
zJys?rHCM14T1GtMQPiN-uX8q&rG$<YB}WVEVCh617TxZaW};dK%~>%~^<G%>TSz(0
zrhgl>v_#SA-N&;<*>?hzZ2FSwK!5%gSSG7UW{J=ZNrNgFqo@bHECN(GKTYOOiN&eU
zAWzixh7<%FolqeAmVCoc+IKFhUDWDLM4FjoK|g_<y0u8n#_}LoJXrBfQEt)1>yLSU
z7j^R-p5}Ai!9mbC4E5yNjkFA%!Vjmbmi823d;sW}E;5e;5n^7S0oxYrL3`>aCe;b3
ze&L6ZkT>Y=DqPuk<FY$W-XC-!_I*6I5Z_DFxCedwDe_ce)76>&wTVc{b5eckT#X58
zsu({bKR?@*r4p_Oedx;U=d*cB263)KQIjkKSe8Dl{I+qJ$g19bmZcC5@wFh6N?CF;
zQjEU_K0?Gl(9mLbGgWrsAmUKhDV2t+Zz5D?4Xo7(!H%Kp9aCoIdw?suyn5_-ECfq)
zJal$C88%27ri0Hk$&KkR0IuxFp2+!Vz?H?^4SFz4h;w@eNl0m~9BL{_qS0k(ia7tV
z^nuCg>5~Hm)?Im%^cvXL=U4BtG+l?)gkHVJ0HSAxR&|yAU`Z=pn0+b%fhMX9BZlmK
zV;diLT#O{q9Wtmsw?Ghg>mm!SxcGLG6PtN2()f#$Vx%4%_LY2y-F{Q?Sr`Zs!xD`2
zrGTZeypYS<M~Zp5?<u(hgs|jD&i2xfUtuXux+-lp%P0jw-b$#5)B?BHIv7>S2k2FG
zce_SFAPursi_%m9`tuKa;{Ztw4Gp_%i<6G~Pgq7q(JefYwY>Ng)D1TJWPUQ2_;<H1
zkwtq!R<`3gz<syMcGEOTdMZi;-WlNCOtQ)gstw!8+S4?L)3x)5;@rlbP8NB*y}tZN
zl{pk>Hj&>Dq-|{G5Yj=4PPg&2N#OAM-Su7PQ?C#&Nq4LA4o#>$xa2dwGIlS(r#`se
zz4vR1CxPT!9tcxPH`P!^x@B=>+5sj^q&@X<1Yp8axT31ri&xI%exOnJApHcKx~b~G
zA|1cv19d#LDlgNs8RSQ#p+VfX#4PVoPmzT4H(B0QQQ!+JGYt-sk&+<JaEU+ILDJ39
z-rMkOkm7kGpmNkNbUUY#le{2XO)3Ud8p!=x*=*+Og`B}Yj(AP$-15`&O;VGXnSKGz
zvFef<d2*ZClryp|$?~3aKF=`fox<R94BQa5(K(MGeA2;Y%%MoW9T*Xh_s+^IAni&$
zs(XBj+kI4F613ERq93RUu<KN>-T`JcVXBz)7TDz57e>b9sb@VoIg_b53Hj~wKBrml
zVhDKBP0Y6b>VN=BotNH8y~z5RnD;5J(cSivz6%nVn$3p_S%Kte>yD9n(E+W>N?c(r
z7L&r~73`H^oMi3H#Yy5f#n;KNb8^MHa<&s61f6?|z38ahcUW9Rs<fC`bAnYtmso8t
z4=Nb)c_4RukH3=9udigPs=SG2ucD`r;-h9>8;BQ(60^b9tUc+EN2n99Tf_%w$fw2p
z7(9yy$liq<lBpx5$?<|r?K(oKKzyzN7dsya$4o1P?Ch={#kZyo+v~(Vmun%nkJN!j
z8B%~i_JQPMJ53ZRX%t0IZJl^j`ccCAd`53*OJ2oV{Lj^07`Kva0(8N4|8oJ40HfPH
zvNzHTvJgSSsuIcJ8B!Mkf$)K1)jnpv&18I_z!2rdr+t~gfn4UQ>Z1vj238!-bcQVu
zSaG6XmT5A~A|PyPHz>dCz7+MA0pNq8?W~m-D8ERs>odv|$}h>9!aGQ}fHZtBP1J4~
zkP-sH@oWNA@}@IMJRld0;wFI@f^3uzglpu6fIj5kWR&-e0I|<BLd#j010gZjkDc~E
zOHZ=OqCjoYtc+~m&4E4w#B?N??+M7Vt3Y+|BQWpx*X7HE?-Crfa<&a4*>=D^@-Xuq
z2|nZrJNwAsDk$XWZt*{-7Y7mJ(<Oye0S3p&vuZa@)j5c+@s=6~VtwvX7IUDKI6Z(-
zbvK%zV*p0Onc5#FU{jBrN2vfYsVEzrw*UqMN?zHU0gP_G=WlzMpr!=tUSaaRz~ruq
z8(w4tDe0}VmBrfui~^;WfLzoNMFt7=0)Yn5IddrBk?XeK9eqZiEt1V8=>0s8kunqp
z3lVz(EGb{kGc%}z1pe6RRB5R-eDU)M5LwcLn%H&#KtK)fZJ?g9?I>-(GC^fhT_v_O
zJmR39;aT-qI2sgEf`YyFfkFyUu#YPc8G-@=!eqo<pnq{@eiB5~zQb=X6RLC<+O8kl
zL81<<1y5DK1mu#s+m%4y<xEh~I}iMiqQpIsG_Y{-YM=*P3H>G3iUfkneDi$znXh^R
zm66<*vlRd!%5Y#4Kg|OyUcqxfWJ^0C;(!)A4D|0QZcK{d<5x~fAy~`9XPea-NnZkM
zscN}lY6ysjm-El*sTNFtW!=9H5sSWl)LsKn9(Xlyff5E+@|jyw1kbnKaa*NCF$Ab=
z6KhzXDJjN4;N%u#X7M$=f`<TCJjV|4+zwy@=%2)^4#>;+!8x^i>((NDdD}~2GDF&b
zyzUGNe`EB)H#|uIRBbtPsJxkMy7I3@{nw)Y(W3rqA^)|I|3+8DU*7o-<()mZKnnpM
zXx$ihdJ-@<)_`l_OfHzI*l!KWq4z~yTherkJZN}fLx7;M0W40T9!g>tx$sD{4Ac?q
zGtLGD1y4^?G3wsw-qOj{rMbz$2wf(|w?vwa$)(5Zvb}oRmMz?eM#QO5yS>Adj}p5W
zEG5JJJP!hQa;KG<-VAts0cp!}skQelF_uq2(KM;ICiOMB>GXw3>St!E=lV&a=}L3W
zrw6AkMJ}FN4?!p=j&s1sj{)zmM{<SH9JEpJaO5U?KZRYeqd5l(trs4Z(7rxQ%7EA%
zO^4t1+XeQv_u$i<hFFpQ$=qRlht3QjKJ(Go&)JhEu$8EMw}odQ8UHv-x5pzGbV4~5
zp$o5NUjvE9R&Bt4cp|~;8BQruA2|7HbpnYrDt%#4sk$nr#ctD~?aYO%&lt=Qn6?!I
zjR0LUQ$;vz0ORVEas3|3BiN7Q8AaXNg-s!5SuSE&i~;`T1jChLn4TN_<NP+AIku0k
zO=NX+-goYP|Drp~Lap*xLl-pPpfcDxt{4M0aBE<-t3-_VSkMoz+{-{D#tegfqNDG0
za_!2k-oGpd4Cm98!uZ;Z10KWuvub6Sc&u%pR`Z3Aj~Ni^F)ZV?peYKST&~!Wp<8rZ
z=HVz?0(p{29VLya4<uu2+F|KfL6BmB<QpHqByT2v3?lT=?NKCn$uUq-!&Yq;-xT3!
zI?+38(96|GStjdEgE4do6yWU!gXto+pqs#Xs&LT>YB}{WJ7Yz>6ZstWSRK4LKx}Cs
zY*JNPCWOfmj#^5(HkufbM_u3VI0-~E8GaVaQ8olP#2`9kEY1@xw7tX@^|ZNhxWs2$
zt?f#MBqB=^;d2wN>itoC$v`!bBQ-O6zvL#?;HewbVk35l;rq_v@R-55ce(aYPTBT(
ze=KmdkATO@<bWReF}lW1oHt@+#$)&t+E%9s6Rs?VejX0pZ@u}oUa4<x<<b__Z7>GJ
zdr}kqV^a7C{>?o)qk@W~G^W=9&#{Y-)(|w3JOYg*6Cjk_O-j~6(euc`w+=!=B^CgC
z^%;701&;Qs@WM@tTB~|fmz7@Lv9dVj?A&Qv8DOHby)dn{U|4b<2^I6lbB$^U|Lzce
zkMn0uCFd(Kn9|kW(rfWjxB!0wsp#JyIDE@>2~diUs$gsftw%6g`2K(EJg}F)eNIT<
z!#49FuJaB?IGV0tNaBGg3DwFuYjZ8|8mPl_5`fqRvA^lrqoir#5acD#hC8)@vkD*~
z9R>D(Qp(s9Eb)byZ7E<^nqRkVW{H}_s>Eujae2X37+{x*W@w_f&GpSgXBR7D#oXPb
zUsPnnX0r{VJ5on<gL*ik_B3h$hDu@(e?C`o38J_C9O^c0G@X}9Y(%43*3hk@F?Lk>
z-FR51*fVr$q%&hZrOq6)a-65H`ynAg@M5K#d{8pxrtMy;LOyNhY5L&97@=7y4;R^P
z8u>uz+hwU)jfKiSd0t8I9xJ7XN6T74e$^VSU&eVGKktlGe_U75OMTVMhx7O745I14
zOBVe1A3uWMH<GWLvS$Arypll*jKSOJgiKbg9t?q18nX}Uq@5tbKUG5sT`A}{Rh321
zu^yTr6ZpiREBNpishK*e?47krl0Nf5{RMeiZ)HpB-i81+mL`s-v2lKRNpa9<cTkQ>
z-|QZki4S;f!Y~5{j?Vaue=SA8^euAac(QbyI&DUOJlGP+ya;X2_<YM>8tl;r<fCKX
zum$GBTxGdpG@DHDb`N9e2GA5&M~U7$9po3dhuf)f#2>y%Fc9B#n7#UZ#wJn0Wyr7N
zHQ2#pFS^)i-^CAGRdO+w23ugDGMNwC)Q<L9M|}|~^4B75O2sU96m`4XAJXa`M{8A}
z$7Uh~ai6n`9APW(8#~)l)Vctg<q4HwKZ^7|F2{8jy*Mx%D$1RT<llc>Tg+iZ*}0?-
zxw_v9Ir<Vu0rm<R&r%0%L(W+&g>8loe=TfeROxji5}x;EtxA1brBH$;we>9l-0aG=
zAI{r4zffdE*G|qTWZgNUb8SL!n7i?F>Y5Z*G*fsH!#7s^4wl*kBWuEW#~L`jFt$bM
zF4d^z@rH=b%2u``*=pk70rWC+JznI5(ay0HjdduibZs~SOIv1RH>s#$5nrorzApQL
z9n^o@f~y8;ntC2#bERBxBk|fzFz3j&)aj{+e*3LBi6zk9%DGs>nURB?qh7A5cT+;O
z=axPM8*&i6h1ocFoRfU-8q!6Vsrzk)(`0C-I&GxioHvRdyEwy@x_a#zvW~w|^zG?S
z;6-UZE^Fx3NN(g(ZEaApjgG@~kHliFF1BR}Q!3SRdKaz<j<h~8p5r=v){b$>^&kV{
zNYIg)RyKgKRdL4Bg>HsM<l+zb@Fs8ba(cRy+8Mf<@p&S-$(tOVHv_jTjcLQ|mywF5
zo2kBqYrp8igN}ita>ueC71UvavH)9*d^c6p)!#n@PhF#s!n_WLo6pbX+Vo!knCED*
zIMi9>8l0i(pTRQ&e_dLA4`!SNxA1XP<t%FQ^zUE6cl8P_P8G~G%(`Fehs%Kd`nlH*
zUj?{WmycYKcL}{(l?~0nIbFgr<;`TjL44}{cma@yS7vxhu!&d$tM+HGilJIzK>or2
zC7>7sP$VXgHVaS#;O%#3HUTf(>UrV|O*c|(ZZEhb&g><g5+jK#9cg2_GdzQ#F6+Pc
zIvh1+nPXT0HCcUt!ru5)vKNZX;kLj`d$ecA^j*tt$O}n{H)-EAI&`lwbx6|Gw@h&-
zF6}XBkmf?x9<d%Ni?CblxEXVNZt~RrbPWoF;V$RbxS-dVoVyCSnhP=|3Zzn-K{bKw
zro`cT&|ik<2(JT{WJ!M>+QJCkr`yFW+t8d)=hovGnTjl*ACcZG90@@&-U`^XpLxAM
zx7qUo1ubbJ`K!Dm^YQ90G&1$u6FcMJorm|%Zof6X<+L>`#?^QYg?70zaB;FpS=fDf
zK7h}k+iwSTP$2b)kU*dCaCxT2eXiNi0vig)NN%l$iT(R}YXa0cgvFkyQ{ByRZH7^7
z=aBM9vjH!9u(QKuGjb@VEk9}<-#UIy!E-q#oICR)pf)T=&V|1PkMMTZ$cg+Gizjy_
zXal=M;5IIH$!XCfi$7>nOh6h*ufma<4-*p;Cu6W!d2fJ0pa^pdbP(scv7$~sM#9>p
z(^IQl(eHCunz?&1pa7$)jg4XfTZ2bn2jSiK=sdcnizOR<I603NL_RlkB27bynQVRI
zO(P4Yv9pJFHz^KuI$WUqQNQn5N$~@CYX<##IIT^{lm~5b>bxoHv~jew>0;B+d1_Z<
z>4IR;_lxoD)II(D13xQhZ3c3sZNC|x(Yvh~x<|+?m{Eie6GbNyLpQ_ExyltGT8qcQ
z`iGbk%9-y#C%bzs^?qu#Ja3ag7poQU4wg#Lh2L>{t`z6Z$+-+%kg)Zp#7U#tbCO`*
zF|__?V!*VcLvJ$sfLNtuGplGA=<JYt-*$-5SJ&QsaEn(t1<<ee#}n>gSFtlTT(<YM
zRIih`1@I9??ob9MwG5pJYl?*w-L;y+*&5Dt-0BUn%Q(G)qUd5A<4K2Pi*QW5deM|F
z1@Dy8<uy*K<+<|3f(i8bY8d2{sLMxm@R2fsgK=#~jYq5=EN5RGv*?AgGNDVxS`roR
z>okhaom*_OLAOpX`TYt`VxE3^3k`NQqCrTrM5@Jo2Q~q%6Q*9dkRh&K#-6rpaGOy?
z^*C^c=_k&#?*Q&FSoO?Nz?9!fp}PH^-III5JcHMMz4Ilg;SdM;Ezq>Zvy-v(98EFw
zkRg4{!37Rg22u-u(1#*>Op*??vEIDrTf7}`oxbI2ktf&tP$Uh)c9K<qo|!9h={TNY
zOvX$bm4T}QgV4BF2Mdak`bqfR@po6IE3eqys+9n|t;B7SR3K^m76^O53yK`(+X{;J
z#Sx(INmH9(ua2jy#%O5p^yytjGPYZwP;|)ug-tTd;Ck5PK|r4#yb{&A7x04TY+9^9
zbBm?qq3ev`t&m^3*B_`0ZzrV(gxD43D8@?AP-RffdweUPPq#`BJqI-i^$f^tBcS94
zA5<~YR4IU(%wV;pBe58?z?>o_z8g?tAn?D%16a&R=8BR8>@AA(d0}9-VONbV8URX;
z_l;aO=<a?=5k+ptOkgp+jC*;=ui#ls2_rj31;ApmSLQGR7L##zR4M46GAtymf^7u^
z;tf`Nab|8nAVzRxwh;-$jvJ{vNG<>Z@l3S@PYECp^{(&T=C{m$NO<(TBp?v4-;)ah
z1Y!jlhqf)TcdE;mYJa#vX+)nP>jN@^=qR@6A0~SRXt}1O!%G7PJz;h&hUuX19r>lD
zp-#9tfAkQjcsMqJhBXR6xqn%(`^bsa7<;AD3zrt-;Tk=)+pk7RZvXOZ+~)e9WSMD_
zl{^&_P+QJ0M*u!MCCH~L8Mf_cSbr-}NUL`g8qmpx;K}cv``X7WIj<PV5szqD>)8r>
zu#a0^Kws0JP&wMB?t6pfK@1>0t=+4S2SKp1{gopEfNN%eos}vE_R&i6HB|PxM4FBE
z$X~&~?aplV9(~bD*HmYA(b~iyC)dSc6Hzkromb-%)ZfH>j^1HtMNZBJ_<qo0M+^2@
z_}?kj;%SW+sg`pg1yu^t<a1`h;-4N(xldi2TtVYdB3lk_C!rv-MlB727r{;2*K%d&
z_%XRv;aBm_61FYmw+<DrfZ$Vr^Xx}IFPbJ9V3P4khIhe+imJ*xQPu~iLvWao$qejR
zMrTFPev`fgY%;?ySr5ja!BgCwR7?GW?k3jAV8XM%T?&k1X<`H&SVITddajdA%SgQ2
z60zL3r)UJbh{R>*PfdfanocOT7n=S+d~M$`%8L!aaE)YYyte>W_Qu1omxoDvqv${m
zHWjDxhM)6HwG_|3|6}jH<Ej4p|8Y*II<$^0DP)I4ga{c~*&!M#WoBm;j=jnVDI+o?
zLP;`mBqJe|A|n}*y|;7D@9{!i@9X+p@89?Oe1CuZKHu-H{^}2$=XuV@xDU)mbL#FJ
z<<sQk0<e)@@TeSs$~y~G-ap8Ge|MLCBGxQ%nCJ$L97LWf*TNoPEl&7UVkX_cjQ9eI
zxR;LjIt7=s)T*mlyldaFDd}gq965=x>)+sFt8jeCFl)0gIi7dvR#U*98o9&7MR^kL
zuF25Tx6DbnBNEZY3SpxCNtWX>s|7NSplm}be{xv&>4~bSoD<)~OumNhXBgevG_8c2
zQ(A9wSzhlhaq15K*+b~=apF!Xx9G*6s6}w<iDcaP{;xvRsOeRm1@;kg)I5e?K%n^b
ztwm>bN_Rue?fQvfWRq<+S8siCGLaNiJo50(gT1JyR8x7|dk7OQrTP8$E1!{MoX?j@
zJGx&~^xh(+Kf_a3BX+19WK430cZsB!zO^D56*iMfamp#U{b4LIOWSc%+w1qJi7e0;
z779eW?qjWR)7)~9D#aBdmof#kc?4Ox2v130bQVAz&l@KH8|Ytdlojc6aIbU~th~}5
z{m)8XZT22<k=oEk$dq!__p2~MPyI0RTe=0PfOWj2kpurTxl31|gh8{#bR`42O&LFE
zSk}UEYbJ~1wz$$#hg#B*Eop$X<NlH^z+X9j!C(Iy2*~=O5tf*r@wCK4l%yVjPZ^+3
z67IG6(apoPvLeEnIs*Zk+h7jHyAT=_g_!BZn02JSx&DiRvse5ps$ffTZEKiQhmMqb
zJ-77IP!jGNVcwWjxC%R0{HXqjW|<$loeZ8CFJ(U-=oe7~;+F~f_`5=K#jkBVGu7L;
zMKS!)-My@Rh1oWkjF_MHvg~}8j9VO5`xboutvIS@QZUVlTncD%ca>e{>oD0zhRJm;
z11N6=n4e&>y}8hw(Gtj88pxEHrlz{I1%B`EmPdq-c3(m(Yd#MgHpO83GRVc>Mt00N
zq!R}$<P^r?n~z(Zs+xh85R8BdJ;f>dD0rj4;m@TMwF6BJh)xdF)mN7A5)_v8MWqs}
z)D*mS!Ar0!NFk^XP9u!q(MiD5Kl&M>o3W0k*Sc<}<6Dse(?!o&GaUn0xte8t{k@f_
z#}rhB5E&Id-b+;vEg574(2;5N`fmWIL!j}9i~#NdHQy9Ijo9@!Pwv?pm0hUY$QvBZ
zSbGjQfc#kkf(9d+FpaH%0c}k*Rp18{Y9x%{B=8EiAiTog#0S>9P^dU48;}hhzcclG
z(h{(c3jg;m<kQvuzmypDpGJKdFv^p8S`uM!4mQ%cn^aFv!v+Kj!?k#_@)u9>FUOE`
zF2eVsIL@6l0xE=T<Ok$G)0lU&i12kBZuv5rXT743x5>n5<?sr({Agy4X@I_L*3Q2{
z`2vJWiN&LJzoc_c|Bau`Y|vLHU;GP%5(HdtGKkSh6XtY_JXW1u5DC);DEmzuaG!cJ
zLFz$(aEKHraMFrEBf)0vob78-$J{^`&-QTu{Ov0O9LK~6CEjM~0^?-ckP??S08x(~
zP4NMV%%x0bEB%iU$_;;xX@F!{uoIGDGxsC7PwEqJDLe|sblvD?q`KIeiNnaUV!zLO
z8F^K>qq2xo>OqiJIjQ>tB=1IO0KyDx+)gTLR(2h@tJKApSJsD!zq&g@oIO|x=#Q@0
zqh?)*9x0S=$zA4tYP$f?>P9V6sOZMcGO^gxREZt`C#_Ni&?-G_L&e!nmNm~UE-L3M
zD+I%3w4~PoZYVGP{nj`bZv4Hl3Nru&nTgn$>wl-i$W|PJXbm`ji&zvd5o4gdw9OYE
zS4r~Q=1VFft*(o2A~e2<Y6jymCPstY^Y)+$VlP-WCAT<vq?SlnEuFU4Jy?bB&||WP
zQdz=MHt$M*z|{8#&(S&~dDqi&wviV@#CP60C}%$mXaCcnRtTjnl&p5d>L5g>UC~<~
zN3o-~!RcefguFdXtvszna@HWf^okQ`g!s$YI6BayHG0$8BmJJ_mo3tFPE6oqjw_UZ
z4H|Ai>9M51tjXEn#uR(FEFjeD1A<t!fUfuC?L$2$xSmSpIQH#_gk<;rx<1GC5HG~b
zU<*d}QY=|Ks+!Du8LhKMWlTqvC_$Asu#bkgpoyE|#`Tr2{Sb69Fkb4Z2JlCCk_)E-
zX>r;*ZN)%8K?axDDJ^<tig&(EE6$J7TLlV|D$~Nn0Kj?|)SUK}7El4v=h3CxHY?*7
zxd7q<xjGqo8&=ul6K&7UVSscF+f2Uz&8l3X-grtPTRW)q;9Mj#&5}Hvmknv9ML;}s
zO4gc`umkx|Loh<mN=Rb&%=I_!FJGM)t!cVts>q0&?yLS0=)R}o4Vynj+85(qJHy?m
zgK($beU3c?QMR^;4^=Ki*&qEHOe53Q@75zGF4X=N9dNgPF|DF<rWlwCv{hw>bL7it
zLry0~wKnOYd!;Fn{O$<rFD$@`ZtKKj*V~&<tidt*)Xj+7kvY|{14ma4k|QNOwos!l
zZoz(;Dsq~^kq`~OAKP!N;sTxer@K(9o)?BPWtI)8+0YqKHp=)>KXweBihakUuEAY#
z4epBZk<AC(_1-@S4-bGtrL|uaVs6plf|vAgn*cgW8~9#NRFVqWj=;5&Cj1AD|A$ub
ze>|<COr{)Cv64v~Y1MKT!~)`x_SWaYHis)^(nUE3o~c3eEsf_SvjF6C0@+GqMi8|;
zec#b=dxN@}u~^51I*O2l7_kpDD|}@52ih$|Q`NKIQx$Q*sflE&`gjPUmnRNYPXYAP
znv?swYa?79TTZ;gb_7V*sA_V!n;;Q-yc3NOEFbaswKBu6BwR)FM?eJ1L&+A)?IqZF
z-|G<B28rbfzq&A18B)ZEn(&qqinCLJ{><l|>b$Vfljw_4AY)O{@jYt<huugo?3E}~
zI^sST-ru)T={V67C4?S?d;XC)>yad{t+=!Ao_%Igir2r#ZleNE1czu)x*j|cdOw2B
z0X`_p@WQQP?e#dTefGp&c`wtgqGaAwX#O&b=MnvwVa1&%_fZLB75d?(>qk+S17}9r
zZzq}@0C`iKTa*7L4y9ka%vP&^o7Nf`ASb*K(DRJZhdUe@MI*cvrcUEOPOX!YE;lV+
z-RWHnmnF|`Oau3&H!SoH*9&V}GLQlO?nyv#2fq3jfOA>uw_UW^n56}G%^K_@!;`yY
zFQLhI*v9b>h|Aril5ai*18fn834Z0}CkXH&YPKyWWiNrugv!ak3Dq~J>7e3&I!%`j
z!+RdG1vUF?ZS4Q!wb{TLo~)>h=h`6=7ICo(`+^DvC<4i|=wa60+fe9Jcqfa+o<)LS
z?B4{zo71HHA5YT*H7|AVJ|sxmSQ{(m|8#9Op4C&>{HcsOxiI!L1|hUHGQdzcFQGe>
zmw=qc4m$*m)`vWS*6(lfgpDmM@MjDE*}|K7+@CG{=NA6wf=PuDaS34aU7DUVG)VE!
zR3hh|NkK3#hS{1nNSX38ydNXfSTCrNDtiZ|JqjZ$Kf|3h?6>jSp2njiq|o}v!*>uK
zz6vSa5?A#e+>*S@($wWee?j**P-(+k(X;1~JEY6+L*Vz4@TN%`QDuRMgfcWAOz%S~
zo&CC|VI!3mIUb+DdL$Bvq{?<XkDh!q8Qz?>)DrI5I-X9%<CX$(cDU6dTqpmYi(3X%
z1CKcrvORZ(uAK9WgF2h3Si@mR!3=JN#%>UP&2Jo&IC+T!iad9}Gn)FyPATD4sB+U@
z5f(Z@mZJ?P+UV0pRy>m&`j;&34EzZWgM9}JpaszJ`J&0-#>>a_P+bGdr~(x#4)K6k
zR_xmJJNEEb$aow{vofTDgvCa&o-qWNGbnMr^JU{}_>9J(WFhj4Nup0wHNaIP^<$Nx
zCOdFXwDlY;A3}HH!pXky&Hlnv9MA>$X<#N9k(o3y&|kxo7D-)@x?|)pr{%obhJe4F
z1$png2j9~qDS-Dyq0i-yAP8dp!rxSG)@?9HIeTRval!XRw4;uDLl><#FK0^TsZ4=f
z$+npO{`s%ZR|XPq17un;(v2UUlbFxkE?E#AoVgZcwNcb>3=#Tpc_%s=mR0Kzzr{7S
zBTX#5d+BA?diQiQluvDi>cVIKQ6UQS6;zqD?jEc%l%78B6^3dXl_(iG@O;yO=W8yt
z+5DI$UgkizLfb)$o0sAmM}CZq`=>r`ndRV4JPuc*7fXpsqB)yQ{EjBa<fxOeJZ%hO
zXUzvGj2HB5#NFOddb|duNAdmZe~lae?<(Z{PJn?APx(znhsQjV9P^IdOYjF2(*A`!
z1$~9%Dk?ne<ZE}SxO4?hd##*f+`ENU_ER`84bTYF!0UZ9h!l7U(txl4?PjX09mBzh
zX$4BP)_s}mdMJlo9ZfxPd_=Rfa=-wBokJ&MMPI;NcF=L*>49lLug5;<_ACGM_>=$r
zq1FHYPOI0h6WHjElt9ylzgCeD92s<p3DOxRy0Cmj$QDutSQ#-lAi?n8EOax7{u|K)
zMb09d?&B`dDO!XEkP~S+W9vM(>OmiiXvh}Mh*#1Br!6?r_Y$jYfe(|Gl9xw-=~iz1
z$aQr&EF&}tFH1?D8sYYmnX}^Oe2cUR_Di|u??6C6j+)ZTX{&Gccz(|X{2-@7pO<VD
z+I7FJ&M_Z)Ae&Lp_}Q^m+yh{U@FstY=cwqgEUQ0Ms3}j>Si;|Y!N<>s|1EB$g@_wL
z4(d5nP8hcpG`3*lGfMH6-G}^5dG3^GxN7RY1pd4Z{pDj$ZE>O-iJZPm6a)GcfZZ6$
zL)lC*Rm7!li{(S*B*J8T-9v>@?0=CtLcl<+6hV4y%|PB768VpFiS>f|;o{$1uD-ta
zl=d@NtyE-uf1Sr>P*9=u*$D72w*EU&h<oQ<K`8B%KPlWyKPWQr5))U&sO#H4suD(c
zV(-wRQQp@;bK%PWo92Rc-7+69!pqyuES|r1hjK(SS^@ou2eP?LJ3oOC$mTe=zma_e
zH!3fBqjFuAX@N*1{Y!`7Q1K>-s|XN~KVD_ZXj4=D1thzq3{CqDc+c_8Rm?091tldZ
zc(10%7_*Ydh|PJ=26kr2)Qw=z0gFtVPnGKNRrnsyk5`%AgHYi~*@v=?P~pbS_#D<F
zArLC?T;C}yM}}jhGBS^AP13rI$>xP9kGB}358r^}3}dA*=$XXD7+;v#c*y_VZj_K8
z(S*<VLJ8kFM5l^37J4E%yPp|CUHR#uyrZ@oO{$0AxcD%4fHii6a-Z)V=%AkRqmSd7
z=Z4R)gjupwJ?ujV!g3UJ0r{t)LXh#p;J(zx#yWm33X86R=bf=B?CuIk-w>G8K18fU
z!Dkdg6Tc8t1y#Ac!a1_#uS3eNmi>OTA%3HS^SG#v5|s+5g*%lstn2_`rb_nDP$3|n
z5eEWTagnz#`2)H~&Yz9{6Fj{Z%bz(lH<U*{eBnTQPeYPlQ(%(j34JPjP2|xuBJvqe
zp-+WiawDOp3R4{q#fgtkW{%Hp^r@PMt)Kf;@IX&3HDBl*2IM>x%#$s2aPS#9Ao`Y?
zF>vr~GL$u7s_Q}j$->Cfscs|O`X8{Im+Dvo_pmq*H6^(S;@6&=UzXWymOym7E=U;?
zCMqhfHh=$p$Tao=f=Al-j|j#ARt?~!#vt3gE@daW|6K<bdkT8{4_N)!L%cX~%{f@T
zn-`A6jA$P4IQS8k&O$p<$`Td;D!Rwertte`0ya*ohNtL1OSm-u3<nHSn{{^y=t$rE
z4AAd&Ezk?)?q8AS%qNG%iSF*tbRe=>GcyU0%0Z1pso^is%0J*SrwtZFlK_SMP%Iy~
z8_^-Vfd@s=vtrU~Hu{&B0^Wgu#OuCScIj2%MOE5UYqgB4b;J`_MkhcrVlp>psiUoY
z&~vSy#l@}4>cj2QYPrv6aRMW<4b~8~SdS{r2}40)?{Vx_i0PIhZ~om~VNLwmBUgvZ
zCyiw1IX4C`y$@+_7WZ6Ra&Y{fTRJfkHrwb6h^xb5f@`mkju5Hbu2-%NGu^*ZWIkgB
z?~hZh2dFSjcyB*ohXA(0dS%%1U6aRO6hUtEuL_NWrP1xhXSD}LYnF<?-5eDt0`0Zj
z;Xd3y^@K#_x&-K-yj-!;-g3nz2@apJyl^IvAV0TxVOX1?w3kKkH%+$Y!SK(Ci&(L3
zeKkHvLuhrAcyOUyxKfOv(!G58dtUyOOnI#RVz-MRNs{(mSx@a&+FFL(M?YoaQ}7wK
zc78Rr2%fS_oWeeETQJGRN~U8ZPn1}d?F($<WOl<=cvwef%$zU{Ai$Tk<L?IYGu&>z
z5=1%IG5Mmb&?bA)cPL=Vl7hsB$A7Fe{`@`f(NvK=Wn&OgAVE&Z@0^N1uF2BU4_{rB
zPKlo_x>W+(!r=V1mLxtAAwaO%#b?>MCzx1OKY2zp`sC%>36Xh6Tg1*0Smk+9RupCq
z?iNeAzY#ThvC3ZV(+AzK8*q4xJufP{E6RZsyk|iQZvJgf$^-C|!UsPC_oUf4I=1b*
z{IgyYMa&g;&%hnB%tV#!4%c+~DFyRzxTYT$58m0#=p+-mSo2xog5T<G|B4sY0Zl1?
zJEY-P<ia%D03LCg(|U|VLt0`i4R}(Pf*?mh*eaxa1MX2AU8fF7F?Sjp_9lT<1~aj?
z#{m(ZNK%^4Bdz33d^JmQDu|;awnGys$(Xdv^pq|S_Cu)5^a!K?H-0M9J3-D>vSzp+
zRRCg6BY*e3MON5F&}DYh0+E%IZv_(i`r+)oT$3F)gqC3s(u&RYCxYeyDmYvcz|3vU
zL2c6}gr>62)5~0^NQU$UOh@1-{v5Pe1{WdE(D}zJTYU!<;6^xjjV-eVu1gTBJx>Ey
zGevA8hYDQH-v`?6bgR&U_7=3|<EfO|f!RG~DahtHqUl3f)eL~J))Jp8L7=rpK0*n}
zUgCrzs^Z@iQU8y`JDfWmg?N_E4mFkDH}-UU=ItL&ocpBN4Zfh=(01(x^2J$Kr(5;C
z?6=~g?BV6&k<m5vlZA?ZtZKw`<Yua??7;C1AkeV0-lOu%fTSw_LTbb}l}I1;z_j{G
zSq^h(cn*(xqAsk2?#F93m^%=@)Y_XwpWeLNg<q?j!DfO)K{BN?y|o|6Xe#ieU)I4D
z_(LPwr5iXr-3YcFECSaX)*w{ejWh<y!9R2&H`ld4R4fJuP4;7(#;P|L5fmDn$0krA
z{;>b}jd%OS?H;Xm1AV7ty4R&Ze{t7c#HF>`zE?FE6o6dt;cYXdupv*vd|NkR5wwB~
zrwj8u8VO6aG7~dFZ3zrTABB^o1l&a=uFxL=a`j#yeaFLhh>yDCWw5D0{6-CpX3akh
zW#%hLnR&@~BvZv}rSz^RiC&fHOE56@D74b30{MY}n(6-9`|(>`x}6MM5^N8gFLSjo
zcI&Nuc--m9>LPUROHKu`wBZ$_jIAszvLq*<k!$};w@A`qK$#&kY4!a*KAZX&feC+x
zi$7}?O*#t9G#MsM!cTk&opyW;B0@GGFLdEkHEHZ0Hg3gMmVU3SzFeud>Q9aN%<jw!
zQ3EY!&=wRPxuCcG&As?b>#WEbOlJ<-?5qmiiWBuGEz)R8^@5jdsrxlQ+rxf?fwodh
zeEe(Swx(UMV)dlmRt>8j%<^5QDGapclGIy_KZ%LU_4h+n=DbaU-z$0FDpGt>HCzeR
zu|g=62Z)ozd3gb*NC&_$BLAXElh2zO740VsAW_g|{aguH&9Cn&Kkq>NV-YE(Hm~*<
z7N0`08T+z1*8<l-`~;`xi}$JQso@o2Un#Pq<O}%E?&|(Z#VRjS&$ng&4yW^rxUm<!
z^g0-sPd=yfS+)k~WUf65JoDuADtOhOVLrEw{c*b=Ypun}upiX4VszH&2k(9<+^K@C
zk*g6Fr7PUJyHznp)fZ!L-*s?GH^Qnu`j|CS)*-^ss)@6(nB!vi(6_I*Oq+6I=Owh5
zjK^aQM`the6f8=Nj(v5XNZ!U8;YBu-ibli|f}w;_1!4&sEPRG>#ZAqEsJ}=DSc7!H
zDBncSN&CJk3P&Jm{TR|)a^aYp1pOku6&IPEPo-{{!FwSz_#s5Gk@EiAm9LHp7;<-7
zxnL94{9~Y>;V&x-2qa!mp^MYlMCg{_7%995F?KrU8amXf%49eWzq&K2&@RuuyX?XS
zNWj9*Zx-(X+ijh=R(fQtfM@I|H^^+^E%#+6_ru{dy&hF%&Hm#+nDt~%ep62VuHCE8
z&uM&>JTf-RbJ2ZT(GeguM_Y69YfH@Z+t=b&P5gdg0alvY7%wR7{O-61I&o;UI148t
zWuOd=11^v<*ieUlWiGg>D3I_MGQT;H`S<B}iK55wE9W?h@udO@YyBYh{tRA_WJ!*(
z9*u{`KMS<?px%d9%1i**@`C(Z<Jz#oJjKq_U)LWH`CSjXOI=)M^S7QU8=cmc0zws;
zbjmhXR(MIH0hp!Ey(#$JEpx|D))6hvD*~l7PC)QdS6+S60(-ON9V3~y9@O7JSR1g2
zJc%Hz%_<7lWgO4!J&ujv*8b?7vy1#P{5A%1X$8;&NEy&#*g5}L!+|;x-kLb_L%L4@
zeAcR>QAr0~B|3nyz1gf``HWY3W6hJuxcwJIx!wZntM-QTojV}&Q~g`EWg3z-WaP2{
zh!Ymo9^_NmSksiWEr$D0m9VB*E=+F_AkY-*k`FVEXg(a^kOI*Jku7I3&Oj8N6_wz}
z2LgzEprq)#SrbKf`fp)tmL}Jr9Je|h@CmSw!()tlHN94Do4wl!84Ms#0BD!$3Zyx2
zz#3n(OldHP+!P^D+5Y?(+K=jc+CKol@)rQ`dmI42AemskE%S6%7@4#Vw*-X&2&?OZ
z_UN`v)+pxXj_q=fJWvU=9c>SGJ_c0dr>{c7a6vFMMeN-uE>=N6HI1+rv*4(-D#Ye-
zY*srXH*v-)8wms8(>Vi6E@jF%MMh15U_#4Itymq<>`H@4&-EfJ&jA(3om?9WM0K5E
zx1a1PEYOQQp}iVV(a0z;xe8@eL1a1Cb<%?%p6f#@tvZlrWI>*yviX*AZssXbK1WVs
zlxRWRLv^>)8!g-j2X`-`fwK3JaQbnG&tTHegPxh8x3VAO>5T<C*nXH9<GnxuhtAkU
zI6;F9ciOD>ohtyYVL8o{DhjRI8Zy-5>A6C}JMzed6Cl)%OA_Lfy~I!ME)m06tF}3O
zwy()m+dvCKocHRs4-R^;zx3)ppU-bKc8rYFx`INSxV{37(hUr(8{l=3Xn#?m6r6nY
zA!x)Xr;l+6B#@QU9>(^DZsIzH-U~DD^nQs9>zwiP+hB>%w<L5NG`1OP!&{DHkQ;x{
zmb747+9YPY^6|dDsKC_Su;Z-tZm=QTmW3tJ8L)?SGlfoVD!x!=O>i8>(6UyjB$M5U
z$q67MW}bS&wI!Vx7kw{{nr7*POZlhn3-<jry9zG9-8Kv4<5=!Q*DJ*q-r>|+%#PoK
zhfDRViV<|UdC#*}?o-^nv7)buGoq|%zNa<6EWgSCI^k8*CO4SL&*3y>2sgSo?gT*R
zq)CQU=0+kcmY(wW=ys?V=q3@z%w(*}iSv2!P%qg^t4xKOrTTu;T>53hPH(8i|2X4t
zCu)<mAeVA9m;&Vw=Z6QKcr6>WtDi(<ePy-Ke|P^S>44Az{)ZVOOYhCe)KQ@w!Ct0{
z7|t;7iW{iWW!II4JAP#73@C8v)(L3<_i<gwH24Dt7l!sAOas<6=BW=%gItEGZyGV~
zUQ87=^;D7fbC)yir9AE14zXRz@bMCI$H~&k%CeH@(rgWpQ;u3cnXlR(TxZ!P_vi$2
zL_S5|`3Q?Wd{+1qY?>Zd(>u*d71DWqojt^t#h~qHAi~Q`;hvVq^-lZ*xqEaX?@>9{
z7_#y^obOy!Hm?^BiO938S`XlQsr((uHEvfThzbf(oT3K)@}34@?^q+0-XGg77avzC
z-Hq70n|uPqvsqaq$%e!L7S^h;c@$_G-yXrdQ1*(FyZt0m_Yi7{ola#iRu1@3a-l*U
znDZdYe!b&`#pRAA<#UP=lgw}^na{-1pzPrSVU{^nzq$X|>Z264c&EU2rmb%3tAvV8
zFG}>lf%&#q6>0YY)A`;fR*?ygBNIrHJ%MgPHb{~&{E{RaUza4SP(h+HNT_{Bcpxg{
z1B}->z`Ynj!9W#)Qck2`5C93;p;XSzu?rvt1FQ;+okKQ24CHP^{sCs*3K#6we_+is
z0c(DS=jPi@VOx=PXz^KCkQxxEREIJV*Kc9l5xCVy{zcgK(Vvg}g%bZiY+{?AhfA+b
z$<M;6h`WFBX5DolU(yWq2C^J`tnqM!xCqRjhU(i4jgY^z(M|kpNgbT|Q9lSV`w`pM
z^D$t*sDuE9%cUkuXk53qPeZNj*kjG4V;~K9UbHp5h0s4<)MIn_LP_h>#SW{yScpsn
z!*7A}dn33fT3s&(ROC@0;(rT~SRC(ctA04@1eBoytG2_yrCWRew6hP-ujg#b^0oY`
zlw~Nyf_8xVb+K}R#%@&WtmS(#C;|!m@DjYXD?~Pgx{4h7d#*A(dE`{@AO{|>Ol1=u
z(e!;kATH(|<8c)~ho3B8EfJjQX84KF-e(vV7j{g7A!0n}pWdj=nV*TL;}v-}`?an4
z{_-)K)tP-eZ3w`H&M~iOuc?MkrGM_-%f>Gar@=GfFlZJ?gEDoAM8>=N4<`!_!leMl
z1y?XH+&ypiR<<99i!IwJ)ll0^fJPLJ#KPSE5DTY(T3V{1MYi&tm29Ar(P})>W0{}4
zm~TA7BIDVWAn9UL-My381Gww%iLhYf<$K1%<x?&$7tg=G>9nk|?biKD&|$2mbJ1UN
zk!v^gv6fwGq;la7#09=>zQB@uCIIwg`&?Xf+g&G1MsxKVDJ362octg;dHyrwbpL{h
zqj~}?%LC&6{eippk5sNfFQRDV1Fcw(AmO8+Q*C>xQ9zu~%jp@U6H`0qcHxy>^6Dyt
z!7+t1lZ^J$XVn8<IJnd;xg;$)HeRdM_Yh$a9Q2pn4FTHrYhT{2KVff<X%%<X9LHuN
zUzid^)2{&ONNA4#`p!11GvsJ$togi08E&XDMR07KVHTW#gb<ll^A1UYv2MnN+-;J9
z-6M6!#5EGcg#hntt+384f4FO5#|@XqH6I>ImOhObs}GaG5zD?p-W+26cui8qoi`8|
z^|%6)wI$oq@t5$m@v*%<C;G%>#-#R~n2UH88boAv?grl={-H}nNzXeqir2ax9*WUR
zdTUTVa}RzV*9{dxr*n#kdWh6)!_oby`tI<rPx~i!+Pgex54d}6{L57T3w7?t!{B;z
zeE*uHC3U;$XWFML=DYP9D7??ZRe$(nPL%I@thfg+kx;{g&GdsAQ1v_50P=TARAc-r
zG@uKdP6qMx)0NB~%vneqjPH~RHVCLMauyN%%SpCKq4rWi<u|tPJ%!)nC|?%$$`rjx
zswb@ATJ*K#n{pUSBp>0sKc<-Jzba)|vosvlpecG9?I9gNx*jy?xma2csR?ejsAgpL
z!l+GHa;el>``Xj&>$6vXF0*<@)y&MzJ{!9bRVPhzRXcZjVtIJy(-j_0_CX(68(2Xx
z`!DfP8?kP6!fq2A%$Za0Y+Uo9veAbpkI#mF6xho=6qqU+^A;ufCJT(U{*v*XytW+I
zANLFzQp2T7`c8hF*x}xmW9NdtW37MoTH8&Yh32E;^xcZjGF1a!nvBSlb%xCsy`3rg
zI5IQ>da*%^MorJBiV_{BJ0!)&>TMHW;YMXHfql4L=jme53eD-eaCFMQPF-y8weaPH
zE$ohRti0azO|~lJLWX*qPyLhU{BPtgU4(aP5HQnD5L-Kq8r+&|H6Ev=#-ov`#+fPp
zgbYuTZ_Rj8^L4?MFw^Q3K|<{@zVn3T#{H{B$!53O@r!#iN(xevG=Dy%^EAoo$$16R
z%5jZ}t>3IZD`iO_*A9d|5*7ttx;8&|(0T8y{G)^LxreB4YZbufe!W}pNXcs@m6;W*
ziJa=9vrHv4ZwPUuhS;Mu(oJs&MYnd#g_!AsA}<&phj^O2!QXyE=zL)6-(#MCo&H2Y
zC63;|dz<CY50tmI2U*j<l4R{FkPHC4#nHm1oOZyxN<e{r@ig{+RB7qkZ-y;6^H=+D
zfQy+0RRfpK6JG_gR`#ea#%mB~`Nv*rIhGmCw=m~Cpg|P_$?ANXAvZ8nk%%pXS;J%(
z=8PPyE~gxoDS+`)G0yY^3V=N5c*#n6>w8??w`XC;IFyw3k#<;;+^{yc*cW$F6csiD
z%0k7lw{mO0?f!vs*`6ZXq-T3v7I2>@n}!qjwDg2L!S9MDOo9e?bJ^TSweI`lM5~s!
zFUE!BJ2}7N_jo+R>pQ(#x}Lc3L#D0L_^sKCFAwRQch|mgDA?0SY<(<UI6~e@v?rDj
z7j$Euc@&$STbdSEzb=2Z<ssdK1l_T1t8uq>@RXj)mJY!MUfu>)q+Wvc&&+<zfoAmQ
z)3!!BFUi>zBfgz&z<3)`OnGW$J5)Ucucmi^rJ#qso4E_wyI+-VPn<ui@RY>t=UQ^x
z?ChM~xJ294iDk@-vDD>Ep`++Q=+F(pR&ra9OqZ@HTx@#AgjRrvoE2<I_)e4IXz68_
zXIhhHP^<(Fw9!I~k&EEYH}#)$&faKKqCOd$hJm-{44UV*94ll-v1A8zgEot6Y&Buf
zJe`3MFdBLa15gWcC~U#*oqr5m)`WOSgW`|OT0uT2l6g9;5T3b0-cw~(zZ{%Spb%Bs
zKOx{h*(v<bi#o3pirb)fX6-q-=$W^wxk^Gz?43!HgOkp?#mwGG-40`sY)V-gN|d21
zIy2ptIN2qo+lYUsWU}1k;r_%umV12lYN(WT!@`LZKbEgd%xZ@w$bX0*0H^xQD9}Cc
zSzAsbxeZN2nm656fW~-ZQSK868U0`tFY^|1PS{&KRB<BQkU&M{3-M4vvQMR)p$*`K
zteB($8h~X4%L?y8Q^RdWaamZ;elt&~wpJ#?M#y_b`7jFvDI9=wUz0|iN*fo~%GCzf
zM{4mq;XE$LtD`ywjKDw8@U~9X-c1j;KOg*Os{d@RKga3M1@b@Z%KZ7*62H)4H3;h9
zgI&drreNH0@cnn--I_vIZLq?7%OC(i=%{E;HfWL=e`tC@H?tXOyc-hJ_wjOt$QGf0
zue)qc8ODu@f|NQ12xuolK$8h|s;l?Gk?!kC1Ks}egxmbHG3z2l-{0C&3_asQ`%y!<
z1Ry5rlOT){anc&wnq)MrBE<&vIxLrN7N=HxI2dbQo?Ym)jfeJEEwh9}6|<CUb2}dC
zAAV{kG*XO^I<xc2JGvi!XCh-beE#QdN1Tg`J~KGnN)ea(2j|<2#p1<mk0CXPuLWk|
z61Ns|zCvp?ZgkoI22g-!A%}e$l#O42^i{vBt|c5X>gaw*mqeU<+}KvWAnFJcLMPGj
zz-97V_tTanHEV6L2v_U!>tqtV4Zj3lPWcLnqAl5>wt1{NNQ@gGzEQ`lK+PZ5ivCBV
zpu_ztz5(y><NXZ7+Do=e@s!S^83-)rdQW+G0+@+fskY<5spYv_uRlXcz+3iksgL_d
znJ^2J3-v@0mx#N~AQ%VUwa%Tgh;8p6U|G(7yII$BU<6!6cC^iA*RePPI&!@l62+|<
zXO`%eA=!{ifC5b%zzSj!BJAa|yt0`PH}GIA6*^W6ZE(R_E7D*b573W?<Cvh-p(G}j
zS3=P`SYKj6L-@~97&4aiUQFvCduNWF@j_`S?REBwZ<j9{FZ6&=m&R<nN%$`5(c~W1
zsUpMY{oP0T#$1aua37NAyH;{jx*iaF2qCj=&MxbX)25c1NhTH~y>;lXk~Wd=J1S<^
zE`lmtb})*$^Kmnfkh|SkM}s1V2nH?Nhb@GPqtUP;hXx@y!khIFY`8-V5mSoT%tj?o
znn(Eb$Soy63bx7SAmwgdw9Pe~hTZ)1yKQ)p`tG)ze3v8bBtoOD=O_2Uqe;UPA$Bf;
zuf|i?=GRL12E_49oV^to_<HrN&CtL_=Y3DW*4OIDH!!SNX{2<y9~3_dyHX4qvm-C_
z`t$_7JKPNgEe<xF-0W@yemc7abr1VJO)FT-&k(x&JU$N<aZnCUrG>=r_pGHRgNKI=
zI(sB#yY8y-Lg$d?QeN`YcxlpdQ@pLm=($0JA)M@-ot`|ua!=$}XOptX6mQu3vN$EO
z^PpC|U}uWvv8?qx#9TkknQr#vqbo?lNgv*92HhM}kg&G`@k^dPkl1Xtj|!JFd(cx!
zhL@9eU7pNn2hZdg-=e3L6R~s?%e#q=>|GCcFGw&f{Fune?>tl-cwu$V_(iJ|c<`tN
z$jO6eO=WhS%Ef^urQ6+C&z&z0yoq1xyFJ*PEMLEi8gF>HZB%Bd6PLLC^M(KYX_2Hq
zulweSMUj`oIpO)DU<Y+?V$X%6DWrz&q~1>A1;*Q7Mh&8H3HTbs@K)YBXW<%DY?@v&
zh7^(bZxbJ~<@R14y1XOPdF?#R51S^J<7SQg!COP9#Hd1lCllbV9{|63^-aUU9Uz4n
zz3um5g)Z@~|3;TM^{x;ZDjSe&At=<Je&l-b;Qz9I<VIus_qk02Ee&0oYvqxfRUXyj
z5ru55cgVQ6UiQI;@c<+!nt8-0nTYhXk3z%vsO&XWC+Ors6ZjP{nx3QXVuT*77tstP
znJRx_0ZbM1FNkAN<49MpyymL-Lo(un4`Fwwq0x@Cn%6faE2!9nAYEu>z!qn4y?5u_
zJonKzSgqt`8KGxgiDqNghHH^WqIIi00qJj>L9xIT=p`etMWG>V2c3s&(9*ebWV6z9
zsnm`Y-N6m-mq%!w-Eq+Sf4H9=_$#>eR`a@K6nGxcB3<Z+IPlC>k6u>Y^g7@fmi-a{
z9+C;PeiU-zDIhJQ?U1=6U_}@D+fC3sZX~<M`x(+nq#;ZR1tz4_ducP9eB<0Ji+Q05
z1*TP|s9rGUHaRYN3aq$^>#b&l)bkruaEad=DzCBX@y7(10|aZSf4J6dPCbWYbUWg}
z!0q2qVVDbTx70($aXVsGtN_Vz2nIk0s<DkQfJPNnxk?I9E7@)eFFf*m9s%V4z@<+p
z;}6_@R(Y>Y!4cC2D#vEWY`VmI<k(HiJqaaW3$5-;fDUvq;H#AG<n(K8l*W#isYYYp
zA*C_;27Vo0@-^)&yHG!Mg6KgG3tE6+hV+?DpMre&6gXf$!L*xJBidjStEC9+K0A(n
z>G>gvRNr(%s?hur3LCJwF?w=%B*@E6_cmDUVnj}PE&A4=IUlA$L0Bi@^f7=Ih*2{J
z%7Y_=bPE4JUXMGRQx7NIYu8)SGQ@tF2BZZ8GA>sWUHgK6WcWK9L&N6nAoNv^!BZS2
z;V=*+;X3u`8BWq^<V;`(q0xSkH2&GZczi;`ZkHD#q7n!&5=p+@EYjBx;MVMCS4Q*V
z!O}h+C=K;vUkhpzPTcx}$YM3lyT1-UaKaLC)1kAUZ~F#Vvk*y%mFbSbd#?-nJ|z)f
zECcY@)TZmzvx7?eW|1pebj30B>1*m*tGpq$K@mRHGY75Y$WR9nd<GDrG0=wbqfF)C
zAJGhMPLtpxA5BFtYhOekFr%K*ER7i8L&A+1V%HR?U5U#>jYx$<^w8L7%sHE3;v$G!
z8_v$>;ktQNyXPrG$L=qKrivlar{@^@y6zjB?m2M2iu={RQKwk7y)S5d43S%DvqO|(
zN=z<nc|+{>{E7z`7{}>8MMvP7+3d>%h+uJNNWJyz0oy%JeO1B!qs!haCS#7uh`P2T
z_zFS;py@{7*FqU+ixmJMZx-qI+*!P5a8U@%2+hT623?73%RgMld(P8b0|46v-TpAi
ziJybHKdOfkKdZLnWTxK?ra@tqHDDt-q@8ZZlCQNyJfO>vBk1ukvE62uEs#s#K%Zgr
zo`=505Fg1lnKThrK<X*)Vt7XES;fuTYZ!hCoy;31dE|<YGbLXid|!Yk9$c`pXOiS{
zZk&Ix%U=DNDV~c!+I`^@AlIs{#?yf~97(z0%6E@X$N0wTJ=rEFbn-*VZUy>#e8u6x
zuC5V)b;p)+0zG{zdQ9uWTma3~-+i1Q5%|S%v^1g{3D~073cL5y63lex9A8YA*3|B^
zEqm4_{;a7zVyPi?Uc<wE!caZPwECvrTl~5=A6#cSFF0bnKvECvQn=uNbETTFf*C73
znB>17%!;!p;xVm-Fv`xKm-b~Q>CDBG5d`jaX#+TS^rh;|q>&wjs&q&TkkVpo`ej{j
z9Noh1ZL4_va-(fr69jPG7pNvCwibCr;}daWZ?$Nu_ghU)<-6e8#}m5hZRDLm#(Y;z
zCn$MB=rloX@7N8dYlEO?*}b4AS|;9<qaSRlxa*$U9jsRcKSY-epl`Sj9Hg13o_`d{
z#H;$VUx!=uE{_BzLkDOcI=z@uOVk8;CphcQhH&|-sg?>tdx=m=#h<OXCu0FWR@9U<
zWh{SA%!4?aB-XR?rKkbH$jguGtI3bf-?sVrA;go$q~Rf*O`~T)rM07;RSR-9y3O@l
zjT)<Vkz<frGBz}Vf(dAUO!P%Qt(kbZJ%7oo<-<FY3Gc`=-gSt}vqs9*GCxGx5CIwJ
zd3JbwwM8w#;xz^2yXcPf;Bm`uI_V$XGWEYz?n~;zxIFgt_~7qREXg<aQgz~T8&STr
z&8UgN>gOxaW#7Bnu%jq6`j+_1TNOq4>U*~`7jFxeo9_l`_%7Dzcsl3TL|;5%$gTC#
z?s1@*TzOL-BuXnN1m}4e;wt5)=)IjVaUCtsYfgjjnI5~T1x%cXV$kDLFy>RAgNmI|
z3p*B*x%}(ZVA3Ye+Np1?e`iDf<K@*6TbdtnC<4CJRDl$`hxoRLP<n*^X<Ob2k~l6D
z0jmXeoE@*Xk-3&+EktVzAZUW5{Q0+UKj?PSYaKI12IF%ulaQdehE-ODLj||z7e+W#
z4<6l1mnZ0fiEs$WVJW<q)4B&w!aa&puMPn~n@%`eCGzG)0ntv`EM6S7KN)%j)?bST
zdlstrTKnOJ#Q|o*d4m=dsiXp5f&-k^D~<p@`r3<iKl(T0qJJ<H{~pj#&5N|G-6tHA
zj>ZEpw83YcUX*ghm*zOY$-bvW09LRN%z|H}nR*m!;pYFLey8mL&=Ze1D*IK4S5}#d
zqI(63x~@pC{A8a6=D0Jd&DLl`H0}i$a(T;gK<smuZ0|SlD{6W1TNw`^g-Qsd@Ru^4
z9N=z~f6_f(;|5u(K~TPSxbJOkBsE<{!xu-tLB65em(a`xfeyDng0KUDzEn=p(R%-t
z?7vth|H8Ha(?PJa?N#AUC@|>HBJ_X@MhhCZLCg3@Mm4webnpb;jSyX-uJ%4?D&y2L
z+=n0zxxE#IriWJG8Q4p$#wsg0-Rtx(kYtJkPVc%T)9H$pNCv1WtlPM`=)Y>Kl_A>C
z#^aac2cb_W!guq^$DGWkCBY2ve4O&y!&0XutnCZ&f^Uj`H1)i}-Lrm&Vt_u!x64}(
zBxLkB=#!s-0`q6(?$aq<hC&*uadiENn>TASmi({-6Lr*?NElDuUEy8~V5u-?nJK+t
zHL247E3C6or2<-zHrEG0`|-dF^%Hp+ngv%rgj}`3$jXYq3Z(pCdsPVoxlA4{s7c@z
zB>SidWF^iw?>OGWeg9*t><Z{<sUg5A6l!5F9SP(`&2}G<de!%)W5N!JuJ*JKj&J$z
z^{}{5wc#vcNvmB$cS@sDSR~h}Z;HSo)yFiP_KK=(@QN+Bgk`i`ezGTVCHtZrH5MX6
z3amHw2^0*T+>bybqLBM&_3TwQc0foEneu+rjr=Tfj33SS6y5|nr3^rwrklOLvjQ=+
z2e1Qf0^Ick!VUm9;$F3XWd|IAneg9w$*l$AaC5h~Jz*<W7q3t^z^7jGYM^d}G`vym
zv=1G$SLi}cz1y)F!%uA^N4WUk(`12tAw<4*(kYrlmT)hvsbhmTr*eQ3P==9n0Bn5=
zgxPy7)SCf(3}SE}#8IKbM$P&*9^Q+%e>iAwz7xM3w9kNp_95EWz3W<`B798i#^n4k
zToVwZgx-yO)Ne7$dAKA0avZ4;G0NuuFCS@@HI%9p9#?-~FrML}>t$!r_1HJggYM*x
zRvolY1QjJZ4(t+77JQ663&Un7SIBq(MEUqTVcyWw^a|(M_Kyn2Zvd>f5$u}kJ9;{5
zR1HC1S!`t9N!afMFP;As0cSF@{0qeNQD!qlb_2hX1|Tjp0`si_RCGgo&b->p20*J`
zPHYgOW>H89Y!~r8z!NI~Nkpg<?kYe$O~5H;X!}qJAcz`}xYr(uUnX+%M@#U<)6N81
z!HFDY5S(Tu^FBmzM}qfEEbB>mR)9kWdDS+X!)+iU$K^%V*`u=st1Rm^tBpd8&Z^-4
zy8=dM(X!?zI=QM4yA@G7Fdy#DZLx#vAb0r^sZo>~q!>@mepC~Tg^+z;XIH*p+xhlV
zm%L)v>6BvdY;6EjSrcIPS-iCA?%3}FI)BcjqRi=Dv6I(RO~4~(5F&h2BubSZfGAb@
zr6O%(ND60NAJ$7&1(nS0A1MUDW>shyroSu5<&-68Z^s6~>G_?j{T5(2?j3Q{*+sd1
zoA2xR%JTERZ-_;NMMT1Qt-FWtP{O`Xp{-&GoC6wx?$m(TFc6C3`=QX>?TY8^O)(xl
zybA&}F^#cqT7vy2i#1n{#*ni<cLK@KPdKp-I+@2LP=RpQuTfD%^lC$D%;UZ@pdwu6
zXZMXL?FCo4=s;NqIGPeVTz+sLx$lJl3QdK{8X`Jt9Ck0_j3P{WzO4}DgEHW2y00DM
zsblrs>AkkyA{mC$NGbTi;;*XS#Lpm)mYg7fi-O^S5sHo5-!h8b4x<3=cz9(FC;}S1
zvi1_fT&ME?N22-<^gC9ki3kyCERAQwOQFj}xRq+-HO1L1O^+v~tChsYo{>5k&z6T+
z0)Dkqd43W>k~loKPFh*B(2veh{t`fj4xz?K@Y3!A_e8A-C?8^y(w8IefqF9vRTj<-
zEP)ZYPv<$wfHp9dE~|~P5cY1qxlnYm#ChDPsQMEkBU$5TeW*R~(qvb0LFeufq&(M@
zlJET$a6#KGJBQA<!+*>)UI8Vce~g*vC@{u^U&+RIgc{E^P>K<ObyL4*IdNw{_ZAEN
zD(b6JXjUx&@8&4ELJDeeGzdY3V_bKJa>)`D*{`B7&2y>$mdW8QG=Dvw8bJv5Ih~VT
zR!6V8bVjddU7&$z-O&mfh~SCS%~-lM`qrTT>)TflE^3bp&=|VR?X23ZACBQkKb2&R
zJY|arwne!z(mx>3I}k^ws1{ibM?Df<lR&FlQ`dpzffhpaqYrU_)K(IZ{aq$m2kQ?2
zNMc5WEoB%%fQ*^zpU&ex1;Oe)xM{VDz5HbOpyI)Ik;^y`emD5<e-}hoyLO-WLx%W6
zhWJ-9#LGm{*Fe1iBbnJoQQdM2_@_cc`>j<ZOFb8RHXb6rGnoHn#0Ls+dj+VP^_$q1
zKjxTcRn~1qVHp)!2h<%}{eY4X04FY>D(48@NS<5^#t<|GIW(wIPe4=fiI#|*O(Mwp
zT)d)3VVOM?;clUy`JAi{wz#x+gqTXuNm<z8$$D;k-E?unH&{bTAc`oNXTP}@(z2cV
zgHR~<u*chsI3JBm(L@S1hUjNMEQ9ySiNdc;C0CMSyX+%v2%fYr^Qqik$yVU0qy?Br
za7^I$LjWp2L=|#G502N90UK#U>v?A6_Xq0}(Qq~u(Q@B7lDCsTg&0Wx$F%`<LS3^r
z&j`HZBVWRQUW2$C#zKi%g0Ny9!ivpbjyaTY9zI+f`DG>bcW<!fLBNnyZlKgnCLW><
zji`p8q>qE`5hZ*FN=5d8K_J2ma_ZlE^z!EJy8EX7hjv8pqgg8ig+YqPj|x*9gozJM
zMO548#S-_jBLwa6Oaz_yUwAZ|pC3sFmx-6GHj2$QQgI8I_0j_0iL%nnLY|<F{<|0N
z*WicetCZoja6o?f-ect@>;uRkPoJs<fuBq~z<T9?iI9d^$3i7fb=^7^yjxC#b!-Ur
z=DPD3MS^WBCYl2~!(}Ke{Urb%-=$PYH#3Ovg?<kksmcDP5I*$U`0mwnH?MHOEiD0y
zUiV&?!yR)PLP4mtTtY!$0g*&96pwYlGFKVm(0}2XnQv?xS^*V$cxhFsF>X=(ds(dH
zAHhqj9Vu<4i~9@d>0jC-vgb|&4yYAexp@Lq@v)f+vhU)r{@|sSMsq<<5d~Jk<Nz;%
zSWXMtURmHO$^qqQYQ!p-1Ip+$U=^H#e(~8+xm<)VB!=TQq)42|&WpJdUdW~u2`?Wc
zL|HP>R-WFZdi@JY?a|Xj`I&S>q1TCw6y%sQ8gOEs&(Kn^prU}dRR<QyUSN^D*^O=m
zi)3opc@&66GBuEyg25tL8`Uu)!D0NDM+NqtT1_oHDk|`(K=|Ft@|RllIwL9qtkd6r
z@(aqK*<82>7c~*u%OP%L;oL&}_ITF;UG3_Pou|PXS`F5^6}H?6SVL1lUHD(vj+<NW
zceDk&hqK?r8g_w~j4Eh%kAOy$?5_&^KZ#6zqS#!x-%lDWT#l4tWncxUmzW42-^K;*
zxyV{?MhjkOn8be$DmQnJVoN0KcG*W9$nJ@peg?rFggOXWWL|04-#&_)3zyMG!wyIO
zJ+g56i3fY-FA2k&x_AE;8fZKsYdsHF%?h{%Ls-uPTfs~A3Sfzav@-ZqH+N5pxeB=V
zvT8*lyQgmH>^|59-@_r-iC=-p;&<m|-Ku>CiZ-B*-*V&E!hISIz6*!;2XblfY2KY;
zI}!`M6G$5<psxpO?GM?SvIhkjg0zf=tsu)P1dvNco=<d~o4ZH*1qZkm!-6Bb=c;?o
zE(k5Alpr-%Cunc^AA0O7jON{;<v$y0>;9Hm-0so}s`6C865N4DS}@yD*mp|sU4)HA
za?oG{jrdN#P?RTFfbaAWoWDWvo$i2C)*5`LcR_lw>kyR*k9YFTm+B!%E8!T(WQek?
zw%0b`h(ovl4Q}EqEa_toR*;<>UKK|w*kuV;)`R|D(6x~-k+ZH<A{0Iq{Q3i4gc&>2
zdoST~emT!sdK@n2<4)`&mr<T4O1Y|`O>l=$O2Er3`N|x@&r0Gy?JP(BtobP$Y9K|_
zAh!;)BzLX+BRaVB=r~6kd{?q{#ZqEG+^G)Cq(`85H_{rK*$MYX=NE%>&My;jbE)9g
zsq>1<zci}v%Q;(7(u^SKBW>jRpH+2;ME)!m`Ljn^YUKb1`oFH_oYf6@nFvv+6|ql{
zSh)uEiA9GIDDoC81J6EA9=^lw*}-_*+*k&9>8^6KVPsjO$rvP()5JAE+$~w#NkT#w
z=kS6x@+M5e%|dnu3E27omqbJ5r#y|`=wLp;nL*c^AT#UBvi2zbhOa}iA(daSFT8s6
z6n1w%r92sk4uM)Z=;UR<>B-PC*$GmI6-sCR0w(#*I;{Yde>)U$vkSqRFF(VO3ZXfZ
zd2=CuC@qKM9z34P=tv7L05)@7Ho+pgtxB~2_77>DDBW(|Ids;2%!K7A_}%gBy|Pef
zp?_8BgAdlrixzc$Kv~;IoCEFzYP}X3n)$~{R>BX#!XYkP;OHo<`<%IY#yoHz=gk$<
zMnPFG(fU*0zMiE3XrEQA(1_kZH--dMaezGjC1xl&)lB!9Uw~bC_;va<HG+z+pQ|Ne
zRB$HrK{`C}A8FYRU>JP`vwRT8kL=HBhAle&V19w<E^+&7zY;&Y7pD5O-Q{5&9JD(V
z4#89(y2fsP8KxSDsM}GX{-xMVPyPWaWj`xk{;+uN4Hilol-f&-UE)w4d{t5TDV6BA
zL%~%K=0oqDLIe=)*n3e_iK<W@Odo69wAyOPd9AV&)el8&#-=+|H=(<E!bq(ldL=58
zQs^_NgMH3moK}T#b3Bnd-2r8-ak^%G;zkL{+AZ!nD;P#a$<a!069aau$l?5{xl9@O
zkc)J12h#~trP;x)^h(z6aU@XccyAS`Y-kyYSlLqhRv^HtnxiIu2jGB(f1y5_PDDPW
z5GDtKdsD-3gP&ldoME`Pw!XM0vr+Oom&mmbqX6V%tbh0$(ClRi-N7$)Vnh=@!~i6b
z&-kB4^Cm!95csZHQ1Q}x|Lyw6jo~(S#8<6*+xSm6FeV3r9#(2$)#)r5_z+!d7_M~)
zRh|M27i=ukKtZzgBDwXC4Y{Y5n8$V7P})#2SLijd>xWyjAGJd>e1!%+L=Rl8^w?-l
zQbN>)%r>l(+P&vu@gf_;Em+_Z!rXzr^JS@{r+z}qV9s1XNO#>U^UOXNZam_Z32G!T
z+ZIq~Ei{llx4bb&FaB>_(mPZ;p8diC{8`>VC-%>YJ;8TfpBd>M{opeeLS%T&Jwf*N
zR<YsqW8BK)K^NSjOJncbz(z19ixap>?MsICRP|ci@`N098;H|SQb8Rd4{|3P;7wa9
zs?0z*&w^Cbv5bfp&K=}!8O?V4^b!881b)6%g-8y7AGIYQK+L6y)8X;(Avj_D)DHY5
zh=Pc<=kcE1Yv3Gr1R7aS#7-WBOvwirL|8E2gi<~Wr6NPL@I1HjPPr`Ty*$xBj$(k`
z3k9{W7V8uZ$eZbygMxlpd0e9yA3y5Wb|f5XK#a(oLn+QN%FG^>F#+HP#Vle$Hmci)
zfmnPms*FX1oii932e<}6(ttn(?oB3Ogm%FF4~q1^GNQkVUtEkY4>9$()>vC>B9$#8
z9jR+fGK-EfW<;Qb#FidXEs27>$_r`|TOSo%6@~j+R7Z3#&wLvaE`a>t`<)3t;^0j~
z^a%h@DaZ$SN`rOq+zs^gw)Yb|Ore(fHHq*QxK>?yZ%VhKZ%}_H$UdI9y8jdz&d<It
z(+z^|S-Wfc@V?(Y{JPE=o-p$Rxeb)wAPgxSaKI!T5X208DSaO(<I8&r`*JBQ=s6Ey
z29V1C#cw(K43Kf&zxY&9jZg@Nfzc4Gs%n`veu1><3oU07J%EVl&v0y4LU5KXRCc#~
zrgJF2F@qz_w>^*{^Fzj)83wp4Jfse#5JqOwan`{;a6bb{to$WNx6_1;fNH-dJ8Ka6
z{Ba|~7h6J%8=y+u^cB@6xEL^}Su0lGpv`w`%ah?U?;2fAX-!f##5@s(za{(zV*r1P
zLx<i+M+5pOf?hQrA15-1@ZAwo3$;)`egdVYrhHo4kLuNMMttS&flN!-9!D-52SC*Y
z0d~$+2xrqnGHQ8?i5X^`Rvgli>9x!)-%}+ra}#J-8k=6tQ7&b^K=rrP-tUk7d`vD%
zFl(seiKBbj=;s20se{F9-x|Ss3@<vTuEijPX{P_t#Q`f?8n%_1=A+v@?bp)6V{-H6
zmeNM~PDsx+reYIj?G6`Gt_-s68Inp+d+Jl3{;u}vZ5!kVzhvaSbWd+H9$Au`OE<h5
zSCYRh7b1K1ou6(5*}M+cGa$W1Y`5@Q-;xT8zy;&sX_YpEo9;j3mDt3Gde2+Z%{9s&
z_~0gf-)O6c+THMT4Bf~NK2<liURKS+w@&;2R4X_r>U4S5pVm7+g5ojwQKqx5?Nm#(
zWxl#pJsl-&R8s!2KMEOavsk#C-G{fut%rWb2TE;@IOZTr(czNyAB->Wn7MZmm({<c
z<-Vz+<w)h=4qnt{HX4nSs8+R;OM7EZ^@zWly4}z1@#2O@dM!6H*ks!S{@)V<9kcYB
z#rC*uj#xlZ+UCNI^&dRuQTT)JHBqOQAqA>ct*!oz3_9paIj#gBbmo1ZsiXX%<@OQ1
z47Hjo=EEzh;hM-`<$I(k-$?8k(#d{gdthdB#OFfXyGnl2BR^=pVp(r+laL-Jr~rk8
ztgIdJf@v5(|I^}IDYOK)_L`k#^5|!MD;SnE*Ya`x-hm`!uz}@nv_6gpKBViP?2#Ji
z-57BZ?eZ(976If3JLW#e<jt+9?KcjB+K7%W!!cuJD$I^pJ4)(D7bz>7@<mo^P6ik=
z%M7QcBWsQfc8|v_4|;RC-QK<395L^V{b<TL<Od6fvjvQY=kFgc$9h=kr)3<zULJ7}
zOE26@%OU%k)-UO@#ayWGPQ1A1M<q36&5^;ftPE;nHkW%gB5-rWIs^S*6pN4_wEARl
zuKeSupp!e>%EugK^$YFpY>KS>S1Wk|AkT}DdHeC_zU_PeY|uX&^v?$U-@ZXr<{dWa
zDgvLxH`>(S<8C1A7)NO3=HBWuifVT<#u1zxC%PmGKu_q6e4a7h#(BKs8i*@jngHCK
zPe|xFqsa39gZJ%UaCk1Ud#Edabm5U4o=!JVXuAWqyY27W{UWtlZs13&!zw*<UkfGK
zOA51}Hl9ZAV(ZeI24?H`W=;0NGz^oH>`iuzau&ntoBraV#G^om5Ju=WES^irUxAAL
z6_^Eap_n*2tJ?yKJye{$BU-#`Q?*jp*c5vdzp8}W9?+X>2q|}a5%BvSOt%}nX@1~!
z`cFws=kX6AHsh9R1u53nqNWTpo{9x2)9*37J~dPk-!Lehk?Ldn$3{V7<ZM_uuGW{N
zcF3j8fB#~zrh8@C%1HJgeCMOkem|G^wtJU-Z>7JD#;rT0e0_y&7mtD{#4)gjKY}NY
z;%z*a-m*Bm=u0iMo7B5lE&*N+m{8S#%qx57QX96v-sM`m>o?C;Yk)^iK8TQ%Kcy@>
zti`*cL3y!)b^Ys9vns-^Kl_u<Lw|Ul`=PP9yWMV1y&-#;Q!(Cz;sbF?w!AAJqArvc
zq?{}5fP&Y#bD>}T%Zyuc%*%x3LLS+p)5LtdqHo$86IYGbRxR3bGM;O$ZM3hP$KzmH
zZ#C3KaW@`qk}^RWOcP;ufCuy!Kr3lW=>ARYYPF4#OM;bLJKp~opH1obF>vxb;J7em
zSOECb++h3K{Vq4usY?g%@fm#S(y{cDY6(<r5j%cYjz+mRP-c*qj2ABO2TI1n1*&;6
z!)tQ=zK%Ru$HU?AD^clfm~WQ4sn+6>IM(ryuDj!NjHzO0hh@Xz0YZqWV*foV9dsx=
z>uV}B$7eN?Mi6oT4*8~xseRPMhgd}Xu_&|^>Gg{qUc(i*p6`Dvomy$@=htOu4-$TK
zO|O227tOA^1l@^XUrvskQ%^h}K*2fvmSuSB{j^Cf=a2nrc|o~*Tg1Y@{SFq&I6j=;
zliqedvV6F}%H`AzD}!@!bk<hcLZuOld~tN42B(y%M8dr0PGKX?3+7URTwpN3LvM*G
zlDs>C!~+s2&Q?66YelBd1xel=x}fLkTQTkqw$8TzWk|R+wgs>Bu4p1Ta{hvtEBSWi
z!9bb59SYCOnPk$c_>9_iejLp^9Ctg_-;qys_mFqF+uXf|*wN%AridI{ci6XHuy3=c
z9RcGH!mH+`+jer<p8sAotdhyldDZo2a$rNUd|(4e<=j7dzExq03dA1l&M7WCc041N
zS#=xs9+<J7{DAOtCUf#hVmB5QLbiK8jy~&C&O2Lo;y&7Q$wc}y=g(4on3;IZz59=*
z+8%hg89+eDLxF5LO)H9(5BD#W9!>qHEvMHBdLpRA<4%_Txf5*-a9F=&E?)Y;rbxz*
z5r-p{PC8=ka^LS3y&q|EA(qbO_G5#KZr7%~+X-g+Wgxa$-;^~~6vT8BfTV*}0Cg!1
zwCmjN2(I>|Sh|-~eKL<Ldrqm!-BW2XK;7mQLbg>#W)YE*cja)1h?4uumn$wIUtK|P
zwWup%+_qTg#`ur8(g~ZFicKs=#`oO9^4$(w3O5z>trQG4yAXIfWDar;DSAF@qgW_0
znP_`(e4^HJlHbYYaagR`M8cIJ%`DsN`~u<kD`D>4o}3OTpS{{Pkt1=V|M;`>gn{Ow
z^Um1@hwn{lh1#~~C*S&#MaVV#*|VDDcm<cwBzZA1Oeo1J+eW{=ieP-S=*F{$PbySn
zrS#SsqV9X8-5gHBtO?fh)8Q`<OWzPI0o@IaY7i_vo=M#9wCE+hx+sWSt{+4^vDbmU
zfi9h=f(Vu4VxIkC4Tu+w<M#@0I*`^WlKDpJ)94636<O}aC)sEjxzrmj61P%-T)w5u
z)ARVH;o25k=1yGEB+huLlA+}3<XE`k`P3^UB7v`b=X_D8THd!;dpR!(!jv$l9}Cy0
zb9?vyw0GTaO=Vl#GGMz9%K)P^5plSnFpknol!yhp3@9}U0vZSbB4j8@ECZ;Kq9QO<
zu^=rJ5kgHA1VtnP1OkK*g;1mfkQ7Kr&fW2j^Ud?!`xo42^3(Y#`#J0Ewf9=@TI+p{
z@$mOYcE5<94hHl`19k~9^gVt?`J*TDF$Jlv8Hc_e-)B>|<3IQ@d3XN99*_L3M0Xr(
z^}?Y&ageuDt>d97+`h75z0Xzp$?NgyDCeqacTd8i&-}}kuvEFy%pNd6K);Q&t2H)|
z(BdnR=KZkVu)<WimiA=j!!o2p4f0^$^=i=c^nB@zflqMs_xs-oQVRn?kj@s9)ojGY
zhb~PMWB-U%({-r=+uw}D+j?kuT4{~Mm{YV@lhBqH`n+83a#XHe{yt9K?2g3D%}VHE
zFXUO`&XPGVh3d^xq}d|!V&9Gme0*a4Q95-%gVfBDpUu-e*G^0j<8-S9KU0_2KYFYs
zJg<lCcMFU{hS6S5a&B>XH9^@fwu>z%(`ZYrw5hC6AIk3owK&XK35js((*%n>z1j7R
zuu2B2n~Ft8t{Ml_xbPNOSdrkVBw!?xL92ZyW6OFQce}KflnIi~aC*<VYQe^myG;Ug
zJ@V@;qFO>9xlm0*kq+2Q^Mnf_UGt~72$MkE$k%3<9nn&aPK@&cE4o(GW&nFs4PP0|
zN~mRQ=dCIUBj8eM>s8&akShlLbSd|5Lg588-xezlf{!i$^eqpQSwA<g{fw)fQlLtI
zI*%DCbE~oj<aDD?Q#@T|%K|VYA<^d|iJ=LapdEGWe`2uKmG^+iJO6aWY-)#DMtA$&
zZwV6iHDxgN6fV<*e@CmZMB>#Wn{7nz{=j5&Vi@TBv0~=b5{A0yD_S=TZWtpBlgW9+
zpv9NZ&wLyH=zH!{oqxfbpMB)wOcIu16d`9Lrd)G1)}p99tbdt3{{X?U7%uVQC1oIZ
zMYA^ElO1?jsesLK{UYH&gtHR41bWJh^Oi5yXnMIU`um<aSKCtmUE)&{#L>;etKgIz
z*hKMuuQ5o<fuuYv)0J@iG~%Cv;~P#EVqaD}`4BVI#69^KWp>qxf$Aa4a)>0hF#Iu=
zifx96@y;wNcUM7_94o^CQ5)e#1H?gOqo<s?vOP}ITZBGv_#%9T8!&T^pRPoc0;i<U
zFbUI4RZqkC?jMB<>+#?y;AgvZKnhus(gDaG2{pcu&Yrh&mT#B=wA2fp*iRAw25B6G
zhJVkhpH;(~C#az4bHM0h;`bhEAk8(ZZ$3z(dfy^jYyFY%VB!~4r|qW*O4LDgi*%B#
z(<W8CE{RTH9egLf_tq1$h^<~1g7X-IBG{%{OGxv@dE<z{L}(=7k~NlzQO1wab7B@9
zLp(9aVVT+j;kcW#On8|}SwhbCHAk}|9?qyqEZ&+JinWU+p=?@XBgXy7?2T+UXyvbY
zNXNb3IZn7CY*KD-pg(;(=Awq54?0or@YQ-%UJ^&B#-t)kx)?HUg;Vw(HI^Tg5>}Kk
zs#l=?4=|K4%7y|y(44>Y?G)Fki2L5k+M8%$SFj~GviZU6UT*}ST;uZTz|4&a;yE7i
zT<M#V3QD~cXY~dFv*|*w5`giTU#b<7+H{|+_F5M=H@*I$XMabC{w99h2etn*PRNp1
zF)apaDw4L38S!F`-m--mQe(ITra;j)kcms6erxggW419#j0;~t(qo$U;H2On<Y}N%
z;d*0)Y5t7$1pLzATrlhIqV{$*U<sBIpR#Q>T?Jtq#JKm_fB21MH%z9wGLXRPeL)+?
z;=+5$rFKg-`t&lB2WL2C{{EI)baY`HHFP2!VOG3}xb)bUqL)Ynax>jr`9jU_kp>(A
zDvCTE$o7l3k0Z%MU8G9X1aea#hg#3t)<x?HfpcB?eV4{vu1%VFHIHwK47f=(NK=_)
zyIio31QeWYU^jDcto_yGELEwEb85yg;`UZQ>mt4MWrA&P*}dcKX7OA9fLk~kb7b5#
z>iF*}GIFcGbm*<Eq?M{FJrjj0Z@^!$;zt+x6BZ!T(G)IXcr0&3LrmX*Lt}Hf10@1k
z<A{V&GV3Cki8>tY*OUlb(nj_*UyEFvWbINK=oRqxPMB?q<#{1z068-7tfT+kv)u81
z3d~#c3wnoaVD?ncIG9ut0cgd<I?0iy&q=SKfT7|w?0JKj;)))Wb5W>YQwH<Aw}H+9
zB)IO@p*z5gH*HrxuO+l*Dt2-U<?4`^_Z<)O<cP~OMLR&L>zJCQvy@w2c;U$vy!=2?
zsFBRYLdSk0Y7<0;6Y^PgDY#oX9p}gJVA4v}mefG>Z2~pU0Q4elNLV6T!uw3`F${1Q
z>NE@O*qlj@%<D7giT54fyd`Qi`BnX=-MRdZM5I{B22xf8v{a@;iB^WW*5wW2pu4as
z=c9OSiFP7063}~r80JzX%_pO+gFtvb53?zMr2QjnUo<oLv#z5!?}||oEp3^&$3;bc
ze+CQo7*?Igcw=laVc}H%2%5SF{&mVDkEg6D@eYS#kt7g7R`j^G-Ogbg6k?D|LuzUS
zUx#2N)7*`Ae5VgZ<1^hT<J?%`8aGU2-tHBL%}t-I-v0W?KYm`Fl&1zQ7s_O<IR|1Y
zbxOUZ^$LiwEs+E5s#qOtuV^#tyJ=h(qPbba(T<b)>(jVhuV6%O;q{H;_!gr>Q6%9u
zp@=erJc*WvI6=iw;j~O>CKY+(%Fy$oG0!VXl|2g89?a|#T5{$Go8k9?G;hjpA#Y|_
zloH9$Cfl=iyB@bNjiovcq0q-1=>BMhk6VK9v;~tNI*UrR&#QHhxrPpi_H$UpLNe7+
z`tgm=Sh=z2X&j_=KD%wsj5u#L%5AyNmb`W)#E~gU;^yYgFAHhrj8M&yI%~eg6QbwN
zP&T|m(Z3Uiir*FAnxoFVMJjO{E6xWyH?uKy@#sjcCnE6eN}1p0bnnCE4FnjM(M?QF
zt!E9O)oXxoymBUyJi@E_p<l58JTPp=OwOV3g=ptH%XbUT5#g2;ldi66hd4u@FJ~5?
z2Wni~C>TP%l+bwV+FpyhASd*A)%S0X0~$K*j1Vd%sohM$@1NMDkFju5zx%Y`sNVPP
zYjIND&BIKV^V=L%Kz`AO^yv@=V-H-XVo#AJQdIn;K9OX0^ciGvaXh{e(3S-?g?$K5
zN~>IJo7PO`>t8V>zpR`5ih|8MC)D*J0Hj*Bk0P6X|AnhW(tonL!FNbs>AMgn3B9)p
z-8)70lj2`bujEZnMsg%so5g}+DFsaU^|bo84dY(0OP);C0m+;SqKK$>xweY~$waki
z`v6=N83{C{gsjm_+~8+Rt}vxuMkZ9F3@Oy=FYhW&$g|j@h@ZY>xQ_MU0*pF`)ze{b
zO1596h8wJ)&tsLVC8%QkcAU}kP%5$wd>lBe9NHIt=pAPTT}FN#3U#4?UO~$P&DcPn
zMMiy%93-{ENe`#P<$z}AFGn>_9^SCs^WJBJ9f`G`Vl|%BH@beLEwHbLb7<g@MrYBv
zy$R6PBemJp_+Rg`b3ewJ4gN5IWSedmGibqBiMDfPK%bW!jab6>mbh1Y$tP_G2v?=B
zQx@-bP^cCm@2U@iR~Rm}z>E3M{YHB%DOB(IyIP#yD03>^7(y|Xw7ZKx_RoP-2k-yM
zni-k|^)+tPu4$}=O2r$QQpds^Rs6G2=7jkbf2Tg}v8Qr4y3(V*u>31@JnZymf*Qg+
zN`x`N{l>#aeeTp7*0SVk-R#FW_r^XRtP1wF&y{&{NuzV3P5f0Nh)2-$(e6Q|uMfoR
zgHoJKE15_lzFOxK@o-t>+Wr)_I=kK>K;eNKXT#I8O*z$zpAzcac5uNL=s22y39!{T
zS^nsN(#OXeyXMKasNv_B4dL`jebG;g_VBa`GeZY=(MfWQD?c+0SvcHIcJjIG{DNFW
zpRyY)x#YapQ(ect-F!u-`u?qc^$SRT?W*IVbQM|Sk7_oIZCv{8oN)KySA)kdP<%p+
z)lwiFrIOun84#tmvTOzED#HDTWvw<JJ7sK}EBAbxZeIUBOkcL}+4RzaE-`qth_=*M
zwoN>mzx+?ohpI@gw)NX7*61W2Hf+0XU6CLDU<(k9&h8zM!^WImaUMEK4n?CJLoe2W
zpeMvZ8I!t?7vVCab`lH5Nj;SFX8`-;d}DHJyQQA(3vLg^q>u|T=c@7s(J7wTzm3*8
z53ugPAn6rB^kB`3JP_vk+TWU#<#(SVQ61;~Lp5qD3Z@d~JLPo>R`FnWpS-5<Xs+N-
z@TYpxr@sE;SfKL)E#f(&C<u4FH@6Y6pD@w;Lj@B~-jv@hv7^UC>(RvbAWLm)-(v{o
z9%_dARKwKsWSJ^@!s0ga%+1ciq4t5L*;S09hc2g^+z|J+VrjJPYib&fe00ybq-%GO
zv!QgGGC3L>Kbe=~8_iyUni;Gg9cm&q6LyrA$akGyu{|e$vBFZB?dl{)MBYt&Lqsb6
zy5XP({Di5ToU^y|0z#zo%2d4v714{dmGjs<zDNlVakJYcuB|06fo^zTfH`ecTx+;&
znPT&i1N(m&y`R1GL{6Yvb1+64<dqJ1IV!I{XRv+%RFu$i)NjY`!@#?6_eCqeZ-Wt2
zRoq^*d8k$kG}9CK3(cdAbB1dkVzO>u{S#sH|CBLdi5g$tAOFJRF=X)?uNWM+HZtJ<
zn}289?aBw;zk9rusI=W~_6JeiztO&=ycF54e%%JLu>B0>dP+OR^{(OyV{j)0(4Fn{
z_?q`Kz_Q$ivO@W?1%Fv~Xy+%(f-d<<lXrxZZ&7IuZ1#)bnZ;#!{Q!M-<^{tB3?!AT
zJvLbN^415#)5aAZFQ4u6oVek*2Jbj~@8?5n0BD&lmM@X{?<GDM^?y?RN~V%zy%JO@
zp6#G-EPm|ZA$O`Y;8flu;8gZba;GX7{N_~J-<;}d#OCFN4Tui26MO%zO8s4x`nzoU
zciB{4CI4S3n@)o|w3@H2%Xi7iiRY5Hg*-09Y^m$t0h$}G;OBslO2wU|DcD3wvO${G
zGp;y2>p{`og~Q2O*aJ5}cW_O}iKxBs;Z8#!9=-MsQX3iX=geAtocbiozmPsRSA3RX
zwu_8=y<oB#jI8ckwqiXH8wNcX|K;)enkC|;a9^@_!3FbW;CICS#DQYF^Vk0cRZ<S|

literal 0
HcmV?d00001

diff --git a/docs/features/disagg_encoder.md b/docs/features/disagg_encoder.md
new file mode 100644
index 0000000000000..7d40af7069822
--- /dev/null
+++ b/docs/features/disagg_encoder.md
@@ -0,0 +1,75 @@
+# Disaggregated Encoder
+
+A **disaggregated encoder** runs the vision-encoder stage of a multimodal LLM in a process that is separate from the pre-fill / decoder stage. Deploying these two stages in independent vLLM instances brings three practical benefits:
+
+1. **Independent, fine-grained scaling**  
+2. **Lower time-to-first-token (TTFT)**  
+3. **Cross-process reuse and caching of encoder outputs**
+
+Design doc: <https://docs.google.com/document/d/1aed8KtC6XkXtdoV87pWT0a8OJlZ-CpnuLLzmR8l9BAE>
+
+---
+
+## 1  Motivation
+
+### 1. Independent, fine-grained scaling
+
+* Vision encoders are lightweight, while language models are orders of magnitude larger.  
+* The language model can be parallelised without affecting the encoder fleet.  
+* Encoder nodes can be added or removed independently.
+
+### 2. Lower time-to-first-token (TTFT)
+
+* Language-only requests bypass the vision encoder entirely.  
+* Encoder output is injected only at required attention layers, shortening the pre-fill critical path.
+
+### 3. Cross-process reuse and caching
+
+* In-process encoders confine reuse to a single worker.  
+* A remote, shared cache lets any worker retrieve existing embeddings, eliminating redundant computation.
+
+---
+
+## 2  Usage Example
+
+The current reference pathway is **SharedStorageConnector**.  
+Below ready-to-run scripts shows the workflow:
+
+1 Encoder instance + 1 PD instance:
+`examples/online_serving/disaggregated_encoder/shared_storage_connector/disagg_encoder_example.sh`
+
+1 Encoder instance + 1 Prefill instance + 1 Decode instance:
+`examples/online_serving/disaggregated_encoder/shared_storage_connector/disagg_epd_example.sh`
+
+---
+
+## 3  Test Script
+
+Please refer to the directories `tests/v1/ec_connector`
+
+## 4  Development
+
+Disaggregated encoding is implemented by running two parts:
+
+* **Encoder instance** – a vLLM instance to performs vision encoding.  
+* **Prefill/Decode (PD) instance(s)** – runs language pre-fill and decode.
+    * PD can be in either a single normal instance with `disagg_encoder_example.sh` (E->PD) or in disaggregated instances with `disagg_epd_example.sh` (E->P->D)
+
+A connector transfers encoder-cache (EC) embeddings from the encoder instance to the PD instance.  
+All related code is under `vllm/distributed/ec_transfer`.
+
+### Key abstractions
+
+* **ECConnector** – interface for retrieving EC caches produced by the encoder.  
+    * *Scheduler role* – checks cache existence and schedules loads.  
+    * *Worker role* – loads the embeddings into memory.
+
+Here is a figure illustrating disaggregate encoder flow:
+
+![Disaggregated Encoder Flow](../assets/features/disagg_encoder/disagg_encoder_flow.png)
+
+For the PD disaggregation part, the Prefill instance receive cache exactly the same as the disaggregate encoder flow above. Prefill instance executes 1 step (prefill -> 1 token output) and then transfer KV cache to the Decode instance for the remaining execution. The KV transfer part purely happens after the execute of the PDinstance.
+
+`docs/features/disagg_prefill.md` shows the brief idea about the disaggregated prefill (v0)
+
+We create the example setup with the **NixlConnector** from `vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py` and referred to the `tests/v1/kv_connector/nixl_integration/toy_proxy_server.py` to facilitate the kv transfer between P and D;
diff --git a/examples/online_serving/disaggregated_encoder/README.md b/examples/online_serving/disaggregated_encoder/README.md
new file mode 100644
index 0000000000000..5813a3cecf73b
--- /dev/null
+++ b/examples/online_serving/disaggregated_encoder/README.md
@@ -0,0 +1,119 @@
+# Disaggregated Encoder
+
+These example scripts that demonstrate the disaggregated encoder (EPD) features of vLLM.
+
+For a detailed explanation of the EPD features, please refer to the [Disaggregated Encoder Feature Documentation](../../../docs/features/disagg_encoder.md).
+
+## Files
+
+- `disagg_epd_proxy.py` - Proxy script that demonstrates the XeYpZd setup (X encode instances, Y prefill instances, Z decode instances). Currently stable for the 1e1p1d configuration.
+
+- `disagg_1e1p1d_example.sh` - Sets up the 1e1p1d configuration, runs the VisionArena benchmark, and processes a single request with a local image.
+
+- `disagg_1e1pd_example.sh` - Sets up the 1e1pd configuration, runs the VisionArena benchmark, and processes a single request with a local image.
+
+### Custom Configuration
+
+```bash
+# Use specific GPUs
+GPU_E=0 GPU_PD=1 GPU_P=1 GPU_D=2 bash disagg_1e1p1d_example.sh
+
+# Use specific ports
+ENDPOINT_PORT=10001 bash disagg_1e1p1d_example.sh
+
+# Use specific model
+MODEL="Qwen/Qwen2.5-VL-3B-Instruct" bash disagg_1e1p1d_example.sh
+
+# Use specific storage path
+EC_SHARED_STORAGE_PATH="/tmp/my_ec_cache" bash disagg_1e1p1d_example.sh
+```
+
+## Encoder Instances
+
+Encoder engines should be launched with the following flags:
+
+- `--enforce-eager` **(required)** – The current EPD implementation is only compatible with encoder instances running in this mode.
+
+- `--no-enable-prefix-caching` **(required)** – Encoder instances do not consume KV cache; prefix caching is disabled to avoid conflicts with other features.
+
+- `--max-num-batched-tokens=<large value>` **(default: 2048)** – This flag controls the token scheduling budget per decoding step and is irrelevant to encoder-only instances. **Set it to a very high value (effectively unlimited) to bypass scheduler limitations.** The actual token budget is managed by the encoder cache manager.
+
+## Local media inputs
+
+To support local image inputs (from your ```MEDIA_PATH``` directory), add the following flag to the encoder instance:
+
+```bash
+--allowed-local-media-path $MEDIA_PATH
+```
+
+The vllm instances and `disagg_encoder_proxy` supports local URIs with ```{"url": "file://'"$MEDIA_PATH_FILENAME"'}``` as multimodal inputs. Each URI is passed unchanged from the `disagg_encoder_proxy` to the encoder instance so that the encoder can load the media locally.
+
+## EC connector and KV transfer
+
+The `ECSharedStorageConnector` is used to store the encoder cache on local disk and facilitate transfer. To enable the encoder disaggregation feature, add the following configuration:
+
+```bash
+# Add to encoder instance: 
+--ec-transfer-config '{
+    "ec_connector": "ECSharedStorageConnector",
+    "ec_role": "ec_producer",
+    "ec_connector_extra_config": {
+        "shared_storage_path": "'"$EC_SHARED_STORAGE_PATH"'"
+    }
+}' 
+
+# Add to prefill/prefill+decode instance: 
+--ec-transfer-config '{
+    "ec_connector": "ECSharedStorageConnector",
+    "ec_role": "ec_consumer",
+    "ec_connector_extra_config": {
+        "shared_storage_path": "'"$EC_SHARED_STORAGE_PATH"'"
+    }
+}' 
+```
+
+`$EC_SHARED_STORAGE_PATH` is the path where the EC connector temporarily stores the cache.
+
+If you enable prefill instance (`--prefill-servers-urls` not disabled), you will need --kv-transfer-config to facilitate the PD disaggregation. Currently, we use the `NixlConnector` for this purpose. Refer to `tests/v1/kv_connector/nixl_integration` for more example codes on PD disaggregation with Nixl.
+
+```bash
+# Add to prefill instance:    
+--kv-transfer-config '{
+    "kv_connector": "NixlConnector",
+    "kv_role": "kv_producer"
+}' 
+
+# Add to decode instance:
+--kv-transfer-config '{
+    "kv_connector": "NixlConnector",
+    "kv_role": "kv_consumer"
+}' 
+```
+
+## Proxy Instance Flags (`disagg_epd_proxy.py`)
+
+| Flag | Description |
+|------|-------------|
+| `--encode-servers-urls` | Comma-separated list of encoder endpoints. Every multimodal item extracted from the request is fanned out to one of these URLs in a round-robin fashion. |
+| `--prefill-servers-urls` | Comma-separated list of prefill endpoints. Set to `disable`, `none`, or `""` to skip the dedicated prefill phase and run E+PD (encoder + combined prefill/decode). |
+| `--decode-servers-urls` | Comma-separated list of decode endpoints. Non-stream and stream paths both round-robin over this list. |
+| `--host`, `--port` | Bind address for the proxy itself (defaults: `0.0.0.0:8000`). |
+
+Example usage:
+For E + PD setup:
+
+```bash
+$ python disagg_encoder_proxy.py \
+      --encode-servers-urls "http://e1:8001,http://e2:8002" \
+      --prefill-servers-urls "disable" \
+      --decode-servers-urls "http://pd1:8003,http://pd2:8004"
+```
+
+For E + P + D setup:
+
+```bash
+$ python disagg_encoder_proxy.py \
+      --encode-servers-urls "http://e1:8001,http://e2:8001" \
+      --prefill-servers-urls "http://p1:8003,http://p2:8004" \ 
+      --decode-servers-urls "http://d1:8005,http://d2:8006"
+```
diff --git a/examples/online_serving/disaggregated_encoder/disagg_1e1p1d_example.sh b/examples/online_serving/disaggregated_encoder/disagg_1e1p1d_example.sh
new file mode 100644
index 0000000000000..57489df64f51e
--- /dev/null
+++ b/examples/online_serving/disaggregated_encoder/disagg_1e1p1d_example.sh
@@ -0,0 +1,221 @@
+#!/bin/bash
+set -euo pipefail
+
+declare -a PIDS=()
+
+###############################################################################
+# Configuration -- override via env before running
+###############################################################################
+MODEL="${MODEL:-Qwen/Qwen2.5-VL-3B-Instruct}"
+LOG_PATH="${LOG_PATH:-./logs}"
+mkdir -p $LOG_PATH
+
+ENCODE_PORT="${ENCODE_PORT:-19534}"
+PREFILL_PORT="${PREFILL_PORT:-19535}"
+DECODE_PORT="${DECODE_PORT:-19536}"
+PROXY_PORT="${PROXY_PORT:-10001}"
+
+GPU_E="${GPU_E:-2}"
+GPU_P="${GPU_P:-2}"
+GPU_D="${GPU_D:-3}"
+
+EC_SHARED_STORAGE_PATH="${EC_SHARED_STORAGE_PATH:-/tmp/ec_cache}"
+TIMEOUT_SECONDS="${TIMEOUT_SECONDS:-12000}"   # wait_for_server timeout
+
+NUM_PROMPTS="${NUM_PROMPTS:-100}"    # number of prompts to send in benchmark
+
+export UCX_TLS=all
+export UCX_NET_DEVICES=all
+
+###############################################################################
+# Helpers
+###############################################################################
+# Find the git repository root directory
+GIT_ROOT=$(git rev-parse --show-toplevel)
+
+START_TIME=$(date +"%Y%m%d_%H%M%S")
+ENC_LOG=$LOG_PATH/encoder_${START_TIME}.log
+P_LOG=$LOG_PATH/p_${START_TIME}.log
+D_LOG=$LOG_PATH/d_${START_TIME}.log
+PROXY_LOG=$LOG_PATH/proxy_${START_TIME}.log
+
+wait_for_server() {
+    local port=$1
+    timeout "$TIMEOUT_SECONDS" bash -c "
+        until curl -s localhost:$port/v1/chat/completions > /dev/null; do
+            sleep 1
+        done" && return 0 || return 1
+}
+
+# Cleanup function
+cleanup() {
+    echo "Stopping everything…"
+    trap - INT TERM USR1   # prevent re-entrancy
+    
+    # Kill all tracked PIDs
+    for pid in "${PIDS[@]}"; do
+        if kill -0 "$pid" 2>/dev/null; then
+            echo "Killing process $pid"
+            kill "$pid" 2>/dev/null
+        fi
+    done
+    
+    # Wait a moment for graceful shutdown
+    sleep 2
+    
+    # Force kill any remaining processes
+    for pid in "${PIDS[@]}"; do
+        if kill -0 "$pid" 2>/dev/null; then
+            echo "Force killing process $pid"
+            kill -9 "$pid" 2>/dev/null
+        fi
+    done
+    
+    # Kill the entire process group as backup
+    kill -- -$$ 2>/dev/null
+    
+    echo "All processes stopped."
+    exit 0
+}
+
+trap cleanup INT
+trap cleanup USR1
+trap cleanup TERM
+
+# clear previous cache
+echo "remove previous ec cache folder"
+rm -rf $EC_SHARED_STORAGE_PATH
+
+echo "make ec cache folder"
+mkdir -p $EC_SHARED_STORAGE_PATH
+
+###############################################################################
+# Encoder worker
+###############################################################################
+CUDA_VISIBLE_DEVICES="$GPU_E" vllm serve "$MODEL" \
+    --gpu-memory-utilization 0.01 \
+    --port "$ENCODE_PORT" \
+    --enforce-eager \
+    --enable-request-id-headers \
+    --no-enable-prefix-caching \
+    --max-num-batched-tokens 114688 \
+    --max-num-seqs 128 \
+    --allowed-local-media-path ${GIT_ROOT}/tests/v1/ec_connector/integration \
+    --ec-transfer-config '{
+        "ec_connector": "ECSharedStorageConnector",
+        "ec_role": "ec_producer",
+        "ec_connector_extra_config": {
+            "shared_storage_path": "'"$EC_SHARED_STORAGE_PATH"'"
+        }
+    }' \
+    >"${ENC_LOG}" 2>&1 &
+
+PIDS+=($!)
+
+###############################################################################
+# Prefill worker
+###############################################################################
+CUDA_VISIBLE_DEVICES="$GPU_P" \
+UCX_NET_DEVICES=all \
+VLLM_NIXL_SIDE_CHANNEL_PORT=5559 \
+vllm serve "$MODEL" \
+    --gpu-memory-utilization 0.7 \
+    --port "$PREFILL_PORT" \
+    --enforce-eager \
+    --enable-request-id-headers \
+    --max-num-seqs 128 \
+    --allowed-local-media-path ${GIT_ROOT}/tests/v1/ec_connector/integration \
+    --ec-transfer-config '{
+        "ec_connector": "ECSharedStorageConnector",
+        "ec_role": "ec_consumer",
+        "ec_connector_extra_config": {
+            "shared_storage_path": "'"$EC_SHARED_STORAGE_PATH"'"
+        }
+    }' \
+    --kv-transfer-config '{
+        "kv_connector": "NixlConnector",
+        "kv_role": "kv_producer"
+    }' \
+    >"${P_LOG}" 2>&1 &
+
+PIDS+=($!)
+
+###############################################################################
+# Decode worker
+###############################################################################
+CUDA_VISIBLE_DEVICES="$GPU_D" \
+UCX_NET_DEVICES=all \
+VLLM_NIXL_SIDE_CHANNEL_PORT=6000 \
+vllm serve "$MODEL" \
+    --gpu-memory-utilization 0.7 \
+    --port "$DECODE_PORT" \
+    --enforce-eager \
+    --enable-request-id-headers \
+    --max-num-seqs 128 \
+    --allowed-local-media-path ${GIT_ROOT}/tests/v1/ec_connector/integration \
+    --kv-transfer-config '{
+        "kv_connector": "NixlConnector",
+        "kv_role": "kv_consumer"
+    }' \
+    >"${D_LOG}" 2>&1 &
+
+PIDS+=($!)
+
+# Wait for workers
+wait_for_server $ENCODE_PORT
+wait_for_server $PREFILL_PORT
+wait_for_server $DECODE_PORT
+
+###############################################################################
+# Proxy
+###############################################################################
+python disagg_epd_proxy.py \
+    --host "0.0.0.0" \
+    --port "$PROXY_PORT" \
+    --encode-servers-urls "http://localhost:$ENCODE_PORT" \
+    --prefill-servers-urls "http://localhost:$PREFILL_PORT" \
+    --decode-servers-urls "http://localhost:$DECODE_PORT" \
+    >"${PROXY_LOG}" 2>&1 &
+
+PIDS+=($!)
+
+wait_for_server $PROXY_PORT
+echo "All services are up!"
+
+###############################################################################
+# Benchmark
+###############################################################################
+echo "Running benchmark (stream)..."
+vllm bench serve \
+  --model               $MODEL \
+  --backend             openai-chat \
+  --endpoint            /v1/chat/completions \
+  --dataset-name        hf \
+  --dataset-path        lmarena-ai/VisionArena-Chat \
+  --seed                0 \
+  --num-prompts         $NUM_PROMPTS \
+  --port                $PROXY_PORT
+
+PIDS+=($!)
+
+###############################################################################
+# Single request with local image
+###############################################################################
+echo "Running single request with local image (non-stream)..."
+curl http://127.0.0.1:${PROXY_PORT}/v1/chat/completions \
+    -H "Content-Type: application/json" \
+    -d '{
+    "model": "'${MODEL}'",
+    "messages": [
+    {"role": "system", "content": "You are a helpful assistant."},
+    {"role": "user", "content": [
+        {"type": "image_url", "image_url": {"url": "file://'"${GIT_ROOT}"'/tests/v1/ec_connector/integration/hato.jpg"}},
+        {"type": "text", "text": "What is in this image?"}
+    ]}
+    ]
+    }'
+
+
+# cleanup
+echo "cleanup..."
+cleanup
\ No newline at end of file
diff --git a/examples/online_serving/disaggregated_encoder/disagg_1e1pd_example.sh b/examples/online_serving/disaggregated_encoder/disagg_1e1pd_example.sh
new file mode 100644
index 0000000000000..6073e0580b11d
--- /dev/null
+++ b/examples/online_serving/disaggregated_encoder/disagg_1e1pd_example.sh
@@ -0,0 +1,186 @@
+#!/bin/bash
+set -euo pipefail
+
+declare -a PIDS=()
+
+###############################################################################
+# Configuration -- override via env before running
+###############################################################################
+MODEL="${MODEL:-Qwen/Qwen2.5-VL-3B-Instruct}"
+LOG_PATH="${LOG_PATH:-./logs}"
+mkdir -p $LOG_PATH
+
+ENCODE_PORT="${ENCODE_PORT:-19534}"
+PREFILL_DECODE_PORT="${PREFILL_DECODE_PORT:-19535}"
+PROXY_PORT="${PROXY_PORT:-10001}"
+
+GPU_E="${GPU_E:-0}"
+GPU_PD="${GPU_PD:-1}"
+
+EC_SHARED_STORAGE_PATH="${EC_SHARED_STORAGE_PATH:-/tmp/ec_cache}"
+TIMEOUT_SECONDS="${TIMEOUT_SECONDS:-12000}"   # wait_for_server timeout
+
+NUM_PROMPTS="${NUM_PROMPTS:-100}"    # number of prompts to send in benchmark
+
+###############################################################################
+# Helpers
+###############################################################################
+# Find the git repository root directory
+GIT_ROOT=$(git rev-parse --show-toplevel)
+
+START_TIME=$(date +"%Y%m%d_%H%M%S")
+ENC_LOG=$LOG_PATH/encoder_${START_TIME}.log
+PD_LOG=$LOG_PATH/pd_${START_TIME}.log
+PROXY_LOG=$LOG_PATH/proxy_${START_TIME}.log
+
+wait_for_server() {
+    local port=$1
+    timeout "$TIMEOUT_SECONDS" bash -c "
+        until curl -s localhost:$port/v1/chat/completions > /dev/null; do
+            sleep 1
+        done" && return 0 || return 1
+}
+
+# Cleanup function
+cleanup() {
+    echo "Stopping everything…"
+    trap - INT TERM USR1   # prevent re-entrancy
+    
+    # Kill all tracked PIDs
+    for pid in "${PIDS[@]}"; do
+        if kill -0 "$pid" 2>/dev/null; then
+            echo "Killing process $pid"
+            kill "$pid" 2>/dev/null
+        fi
+    done
+    
+    # Wait a moment for graceful shutdown
+    sleep 2
+    
+    # Force kill any remaining processes
+    for pid in "${PIDS[@]}"; do
+        if kill -0 "$pid" 2>/dev/null; then
+            echo "Force killing process $pid"
+            kill -9 "$pid" 2>/dev/null
+        fi
+    done
+    
+    # Kill the entire process group as backup
+    kill -- -$$ 2>/dev/null
+    
+    echo "All processes stopped."
+    exit 0
+}
+
+trap cleanup INT
+trap cleanup USR1
+trap cleanup TERM
+
+# clear previous cache
+echo "remove previous ec cache folder"
+rm -rf $EC_SHARED_STORAGE_PATH
+
+echo "make ec cache folder"
+mkdir -p $EC_SHARED_STORAGE_PATH
+
+###############################################################################
+# Encoder worker
+###############################################################################
+CUDA_VISIBLE_DEVICES="$GPU_E" vllm serve "$MODEL" \
+    --gpu-memory-utilization 0.01 \
+    --port "$ENCODE_PORT" \
+    --enforce-eager \
+    --enable-request-id-headers \
+    --no-enable-prefix-caching \
+    --max-num-batched-tokens 114688 \
+    --max-num-seqs 128 \
+    --allowed-local-media-path ${GIT_ROOT}/tests/v1/ec_connector/integration \
+    --ec-transfer-config '{
+        "ec_connector": "ECSharedStorageConnector",
+        "ec_role": "ec_producer",
+        "ec_connector_extra_config": {
+            "shared_storage_path": "'"$EC_SHARED_STORAGE_PATH"'"
+        }
+    }' \
+    >"${ENC_LOG}" 2>&1 &
+
+PIDS+=($!)
+
+###############################################################################
+# Prefill+Decode worker
+###############################################################################
+CUDA_VISIBLE_DEVICES="$GPU_PD" vllm serve "$MODEL" \
+    --gpu-memory-utilization 0.7 \
+    --port "$PREFILL_DECODE_PORT" \
+    --enforce-eager \
+    --enable-request-id-headers \
+    --max-num-seqs 128 \
+    --allowed-local-media-path ${GIT_ROOT}/tests/v1/ec_connector/integration \
+    --ec-transfer-config '{
+        "ec_connector": "ECSharedStorageConnector",
+        "ec_role": "ec_consumer",
+        "ec_connector_extra_config": {
+            "shared_storage_path": "'"$EC_SHARED_STORAGE_PATH"'"
+        }
+    }' \
+    >"${PD_LOG}" 2>&1 &
+
+PIDS+=($!)
+
+# Wait for workers
+wait_for_server $ENCODE_PORT
+wait_for_server $PREFILL_DECODE_PORT
+
+###############################################################################
+# Proxy
+###############################################################################
+python disagg_epd_proxy.py \
+    --host "0.0.0.0" \
+    --port "$PROXY_PORT" \
+    --encode-servers-urls "http://localhost:$ENCODE_PORT" \
+    --prefill-servers-urls "disable" \
+    --decode-servers-urls "http://localhost:$PREFILL_DECODE_PORT" \
+    >"${PROXY_LOG}" 2>&1 &
+
+PIDS+=($!)
+
+wait_for_server $PROXY_PORT
+echo "All services are up!"
+
+###############################################################################
+# Benchmark
+###############################################################################
+echo "Running benchmark (stream)..."
+vllm bench serve \
+  --model               $MODEL \
+  --backend             openai-chat \
+  --endpoint            /v1/chat/completions \
+  --dataset-name        hf \
+  --dataset-path        lmarena-ai/VisionArena-Chat \
+  --seed                0 \
+  --num-prompts         $NUM_PROMPTS \
+  --port                $PROXY_PORT
+
+PIDS+=($!)
+
+###############################################################################
+# Single request with local image
+###############################################################################
+echo "Running single request with local image (non-stream)..."
+curl http://127.0.0.1:${PROXY_PORT}/v1/chat/completions \
+    -H "Content-Type: application/json" \
+    -d '{
+    "model": "'${MODEL}'",
+    "messages": [
+    {"role": "system", "content": "You are a helpful assistant."},
+    {"role": "user", "content": [
+        {"type": "image_url", "image_url": {"url": "file://'"${GIT_ROOT}"'/tests/v1/ec_connector/integration/hato.jpg"}},
+        {"type": "text", "text": "What is in this image?"}
+    ]}
+    ]
+    }'
+
+
+# cleanup
+echo "cleanup..."
+cleanup
\ No newline at end of file
diff --git a/examples/online_serving/disaggregated_encoder/disagg_epd_proxy.py b/examples/online_serving/disaggregated_encoder/disagg_epd_proxy.py
new file mode 100644
index 0000000000000..b5f99683c2bf3
--- /dev/null
+++ b/examples/online_serving/disaggregated_encoder/disagg_epd_proxy.py
@@ -0,0 +1,606 @@
+#!/usr/bin/env python3
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+disagg_encoder_proxy.py
+
+Proxy that routes OpenAI-compatible “/v1/chat/completions” requests to two
+clusters:
+  • encode  (multimodal feature extraction)
+  • decode  (language-model inference)
+
+For MM input we:
+    1. Extract *every* image/audio item.
+    2. Fire N concurrent requests to the encoder cluster
+       (one request per item, with **all text removed**).
+    3. Wait for all of them to succeed.
+    4. Forward the *original* request to a decode server.
+"""
+
+from __future__ import annotations
+
+import argparse
+import asyncio
+import logging
+import os
+import random
+import uuid
+from collections.abc import AsyncIterator
+
+import aiohttp
+import uvicorn
+from fastapi import FastAPI, HTTPException, Request
+from fastapi.responses import JSONResponse, StreamingResponse
+
+###############################################################################
+# FastAPI app & global state
+###############################################################################
+
+logging.basicConfig(
+    level=logging.DEBUG, format="%(asctime)s %(levelname)s: %(message)s"
+)
+logger = logging.getLogger("proxy")
+
+app = FastAPI()
+encode_session: aiohttp.ClientSession | None = None
+prefill_session: aiohttp.ClientSession | None = None
+decode_session: aiohttp.ClientSession | None = None
+
+###############################################################################
+# Utils
+###############################################################################
+
+
+MM_TYPES = {"image_url", "audio_url", "input_audio"}
+
+
+def extract_mm_items(request_data: dict) -> list[dict]:
+    """
+    Return *all* image/audio items that appear anywhere in `messages`.
+
+    Each returned dict looks like:
+        { "type": "image_url", "image_url": {...} }
+    """
+    items: list[dict] = []
+    for msg in request_data.get("messages", []):
+        content = msg.get("content")
+        if not isinstance(content, list):
+            continue
+
+        for item in content:
+            if item.get("type") in MM_TYPES:
+                items.append(item)
+    return items
+
+
+async def fanout_encoder_primer(
+    orig_request: dict,
+    e_urls: list[str],
+    req_id: str,
+) -> None:
+    """
+    1. Build one request *per MM item* with all text removed.
+    2. Send them concurrently to the encode cluster.
+    3. Raise if any of them fails.
+    """
+    logger.info("[%s] Processing multimodal items...", req_id)
+
+    mm_items = extract_mm_items(orig_request)
+    if not mm_items:
+        logger.info("[%s] No multimodal items, skipping encoder", req_id)
+        return  # nothing to do
+
+    logger.info("[%s] got %d multimodal items...", req_id, len(mm_items))
+
+    tasks = []
+
+    # Round-robin over encode servers to distribute load a bit
+    url_cycle = (e_urls[i % len(e_urls)] for i in range(len(mm_items)))
+
+    for idx, (item, target_url) in enumerate(zip(mm_items, url_cycle)):
+        # Derive a *child* request id:  <parent>:<index>:<random-short>
+        child_req_id = f"{req_id}:{idx}:{uuid.uuid4().hex[:6]}"
+        headers = {"x-request-id": child_req_id}
+
+        encoder_req = {
+            # You *may* need to keep additional fields
+            "model": orig_request.get("model"),
+            "messages": [
+                {"role": "user", "content": [item]},
+            ],
+            # Only need 1 token so the server actually runs the encoder path
+            "max_tokens": 1,
+            "stream": False,
+        }
+        tasks.append(
+            encode_session.post(
+                f"{target_url}/v1/chat/completions",
+                json=encoder_req,
+                headers=headers,
+            )
+        )
+
+    results = await asyncio.gather(*tasks, return_exceptions=True)
+
+    # Fail fast if any sub-request failed
+    for idx, r in enumerate(results):
+        if isinstance(r, Exception):
+            logger.error(
+                "[%s] Encoder request #%d raised exception: %s",
+                req_id,
+                idx,
+                r,
+                exc_info=r,
+            )
+            raise HTTPException(
+                status_code=502, detail=f"Encoder request failed: {str(r)}"
+            )
+        if r.status != 200:
+            try:
+                detail = await r.text()
+            except Exception:
+                detail = "<unable to read body>"
+            logger.error(
+                "[%s] Encoder request #%d returned status %s: %s",
+                req_id,
+                idx,
+                r.status,
+                detail,
+            )
+            raise HTTPException(
+                status_code=r.status,
+                detail=f"Encoder request failed: {detail}",
+            )
+
+    logger.info(
+        "[%s] All %d encoder requests completed successfully", req_id, len(mm_items)
+    )
+
+
+async def maybe_prefill(
+    req_data: dict,
+    p_url: str,
+    req_id: str,
+) -> dict:
+    """
+    - Do prefill-only task if p_url exist;
+    - Return modified request data with kv transfer params (for nixl connector)
+    - Else, skip and return the original request data for decode
+    """
+    if p_url:
+        logger.info("[%s] Processing through prefill: %s", req_id, p_url)
+
+        prefill_response = await process_prefill_stage(req_data, p_url, req_id)
+        # for nixl connector to facilitate kv transfer...
+        prefill_response_json = await prefill_response.json()
+        kv_transfer_params = prefill_response_json.get("kv_transfer_params", {})
+        if kv_transfer_params:
+            req_data["kv_transfer_params"] = kv_transfer_params
+
+        return req_data
+    else:
+        return req_data
+
+
+async def process_prefill_stage(
+    req_data: dict,
+    p_url: str,
+    req_id: str,
+) -> dict:
+    """Process request through Prefill stage and return kv_transfer_params"""
+    logger.info("[%s] Sending prefill request to: %s", req_id, p_url)
+
+    prefill_request = req_data.copy()
+    prefill_request["kv_transfer_params"] = {
+        "do_remote_decode": True,
+        "do_remote_prefill": False,
+        "remote_engine_id": None,
+        "remote_block_ids": None,
+        "remote_host": None,
+        "remote_port": None,
+    }
+    prefill_request["stream"] = False
+    prefill_request["max_tokens"] = 1
+    if "max_completion_tokens" in prefill_request:
+        prefill_request["max_completion_tokens"] = 1
+    if "stream_options" in prefill_request:
+        del prefill_request["stream_options"]
+
+    headers = {"x-request-id": req_id}
+    try:
+        prefill_response = await prefill_session.post(
+            f"{p_url}/v1/chat/completions", json=prefill_request, headers=headers
+        )
+        prefill_response.raise_for_status()
+
+        if prefill_response.status != 200:
+            error_text = await prefill_response.text()
+            logger.error(
+                "[%s] Prefill request failed with status %d: %s",
+                req_id,
+                prefill_response.status,
+                error_text,
+            )
+            raise HTTPException(
+                status_code=prefill_response.status,
+                detail={"error": "Prefill request failed", "message": error_text},
+            )
+        logger.info("[%s] Prefill request completed successfully", req_id)
+
+        return prefill_response
+
+    except Exception as e:
+        logger.error("Prefill processing failed: %s", str(e))
+        raise HTTPException(
+            status_code=500,
+            detail={"error": "Prefill processing error", "message": str(e)},
+        ) from e
+
+
+###############################################################################
+# Middleware for request/response logging
+###############################################################################
+
+
+@app.middleware("http")
+async def log_requests(request: Request, call_next):
+    """Middleware to log all incoming requests and responses"""
+    req_id = request.headers.get("x-request-id", str(uuid.uuid4()))
+
+    # Log incoming request
+    logger.info(
+        ">>> [%s] %s %s from %s",
+        req_id,
+        request.method,
+        request.url.path,
+        request.client.host if request.client else "unknown",
+    )
+
+    try:
+        # Process request
+        response = await call_next(request)
+
+        # Log response
+        logger.info(
+            "<<< [%s] %s %s completed with status %d",
+            req_id,
+            request.method,
+            request.url.path,
+            response.status_code,
+        )
+
+        return response
+    except Exception as e:
+        # Log errors
+        logger.exception(
+            "!!! [%s] %s %s failed with error: %s",
+            req_id,
+            request.method,
+            request.url.path,
+            str(e),
+        )
+        raise
+
+
+###############################################################################
+# FastAPI lifecycle
+###############################################################################
+
+
+@app.on_event("startup")
+async def on_startup() -> None:
+    global encode_session, prefill_session, decode_session
+    timeout = aiohttp.ClientTimeout(total=100_000)
+    connector = aiohttp.TCPConnector(limit=0, force_close=False)
+    encode_session = aiohttp.ClientSession(timeout=timeout, connector=connector)
+    if app.state.p_urls:
+        # only setup if prefill instance(s) exist
+        prefill_session = aiohttp.ClientSession(timeout=timeout, connector=connector)
+    decode_session = aiohttp.ClientSession(timeout=timeout, connector=connector)
+
+
+@app.on_event("shutdown")
+async def on_shutdown() -> None:
+    global encode_session, prefill_session, decode_session
+    if encode_session:
+        await encode_session.close()
+    if prefill_session:
+        await prefill_session.close()
+    if decode_session:
+        await decode_session.close()
+
+
+###############################################################################
+# Core forwarding
+###############################################################################
+
+
+async def forward_non_stream(
+    req_data: dict, req_id: str, e_urls: list[str], p_url: str, d_url: str
+) -> dict:
+    try:
+        # Step 1: Process through Encoder instance (if has MM input)
+        await fanout_encoder_primer(req_data, e_urls, req_id)
+
+        # Step 2: Process through Prefill instance
+        req_data = await maybe_prefill(req_data, p_url, req_id)
+
+        # Step 3: Process through Decode instance
+        logger.info("[%s] Forwarding to decode: %s", req_id, d_url)
+        headers = {"x-request-id": req_id}
+
+        # Non-streaming response
+        async with decode_session.post(
+            f"{d_url}/v1/chat/completions", json=req_data, headers=headers
+        ) as resp:
+            resp.raise_for_status()
+            return await resp.json()
+
+    except HTTPException:
+        raise
+    except Exception as e:
+        logger.exception("[%s] Error in forward_non_stream: %s", req_id, str(e))
+        raise HTTPException(status_code=500, detail=f"Proxy error: {str(e)}") from e
+
+
+async def forward_stream(
+    req_data: dict, req_id: str, e_urls: list[str], p_url: str, d_url: str
+) -> AsyncIterator[str]:
+    try:
+        # Step 1: Process through Encoder instance (if has MM input)
+        await fanout_encoder_primer(req_data, e_urls, req_id)
+
+        # Step 2: Process through Prefill instance
+        req_data = await maybe_prefill(req_data, p_url, req_id)
+
+        # Step 3: Process through Decode instance
+        logger.info("[%s] Starting streaming from decode: %s", req_id, d_url)
+        headers = {"x-request-id": req_id}
+
+        # Streaming response
+        async with decode_session.post(
+            f"{d_url}/v1/chat/completions",
+            json=req_data,
+            headers=headers,
+        ) as resp:
+            resp.raise_for_status()
+            async for chunk in resp.content.iter_chunked(1024):
+                if chunk:
+                    yield chunk.decode("utf-8", errors="ignore")
+
+        logger.info("[%s] Streaming completed", req_id)
+
+    except HTTPException:
+        logger.exception("[%s] HTTPException in forward_stream", req_id)
+        raise
+    except Exception as e:
+        logger.exception("[%s] Error in forward_stream: %s", req_id, str(e))
+        raise HTTPException(
+            status_code=500, detail=f"Proxy streaming error: {str(e)}"
+        ) from e
+
+
+###############################################################################
+# Public routes
+###############################################################################
+
+
+@app.post("/v1/chat/completions")
+async def chat_completions(request: Request):
+    try:
+        req_data = await request.json()
+        req_id = request.headers.get("x-request-id", str(uuid.uuid4()))
+
+        e_urls = app.state.e_urls  # we want the full list for fan-out
+        p_url = random.choice(app.state.p_urls) if app.state.p_urls else None
+        d_url = random.choice(app.state.d_urls)
+
+        is_streaming = req_data.get("stream", False)
+
+        if is_streaming:
+            return StreamingResponse(
+                forward_stream(req_data, req_id, e_urls, p_url, d_url),
+                media_type="text/event-stream",
+            )
+        result = await forward_non_stream(req_data, req_id, e_urls, p_url, d_url)
+        return JSONResponse(content=result)
+
+    except HTTPException:
+        raise
+    except Exception as e:
+        logger.exception("Error in chat_completions endpoint: %s", str(e))
+        raise HTTPException(
+            status_code=500, detail=f"Request processing error: {str(e)}"
+        ) from e
+
+
+@app.get("/v1/models")
+async def list_models():
+    async with decode_session.get(f"{app.state.d_urls[0]}/v1/models") as resp:
+        resp.raise_for_status()
+        return await resp.json()
+
+
+@app.get("/health")
+async def health_check():
+    async def healthy(urls):
+        if not urls:
+            return "empty"
+        for u in urls:
+            try:
+                async with encode_session.get(f"{u}/health") as resp:
+                    resp.raise_for_status()
+            except Exception:
+                return "unhealthy"
+        return "healthy"
+
+    e_status, p_status, d_status = await asyncio.gather(
+        healthy(app.state.e_urls), healthy(app.state.p_urls), healthy(app.state.d_urls)
+    )
+
+    overall_healthy = all(
+        status != "unhealthy" for status in (e_status, p_status, d_status)
+    )
+
+    status_code = 200 if overall_healthy else 503
+
+    return JSONResponse(
+        {
+            "proxy": "healthy",
+            "encode_cluster": e_status,
+            "prefill_cluster": p_status,
+            "decode_cluster": d_status,
+        },
+        status_code=status_code,
+    )
+
+
+###############################################################################
+# Simple profiler fan-out (unchanged except for sessions)
+###############################################################################
+
+
+async def _post_if_available(
+    session: aiohttp.ClientSession,
+    url: str,
+    payload: dict,
+    headers: dict,
+) -> dict | None:
+    """
+    POST `payload` to `url`.
+
+    Returns
+    -------
+    • The decoded JSON body on success (2xx)
+    • None if the endpoint does not exist (404)
+    • Raises for anything else.
+    """
+    try:
+        resp = await session.post(url, json=payload, headers=headers)
+        if resp.status == 404:  # profiling disabled on that server
+            logger.warning("Profiling endpoint missing on %s", url)
+            return None
+        resp.raise_for_status()
+        return await resp.json(content_type=None)
+    except aiohttp.ClientResponseError as exc:
+        # Pass 404 through the branch above, re-raise everything else
+        if exc.status == 404:
+            logger.warning("Profiling endpoint missing on %s", url)
+            return None
+        raise
+    except Exception:
+        # Network errors etc.: propagate
+        raise
+
+
+async def _profile_cmd(cmd: str, payload: dict, e_url: str, p_url: str, d_url: str):
+    """
+    Fire & forget to both clusters, tolerate 404.
+    """
+    headers = {"Authorization": f"Bearer {os.getenv('OPENAI_API_KEY', '')}"}
+
+    encode_task = _post_if_available(
+        encode_session, f"{e_url}/{cmd}_profile", payload, headers
+    )
+    prefill_task = (
+        _post_if_available(prefill_session, f"{p_url}/{cmd}_profile", payload, headers)
+        if p_url is not None
+        else asyncio.sleep(0)
+    )
+    decode_task = _post_if_available(
+        decode_session, f"{d_url}/{cmd}_profile", payload, headers
+    )
+
+    encode_res, prefill_res, decode_res = await asyncio.gather(
+        encode_task, prefill_task, decode_task
+    )
+
+    # If *all* clusters said “I don’t have that route”, surface an error
+    if encode_res is prefill_res is decode_res is None:
+        raise HTTPException(
+            status_code=503,
+            detail="Profiling endpoints are disabled on all clusters",
+        )
+
+    return {
+        "encode": encode_res,  # may be None
+        "prefill": prefill_res,  # may be None
+        "decode": decode_res,  # may be None
+    }
+
+
+@app.post("/start_profile")
+async def start_profile(request: Request):
+    body = await request.json()
+    # TODO: handle multi urls properly
+    e_url = random.choice(app.state.e_urls)
+    p_url = random.choice(app.state.p_urls) if app.state.p_urls else None
+    d_url = random.choice(app.state.d_urls)
+    return await _profile_cmd("start", body, e_url, p_url, d_url)
+
+
+@app.post("/stop_profile")
+async def stop_profile(request: Request):
+    body = await request.json()
+    # TODO: handle multi urls properly
+    e_url = random.choice(app.state.e_urls)
+    p_url = random.choice(app.state.p_urls) if app.state.p_urls else None
+    d_url = random.choice(app.state.d_urls)
+    return await _profile_cmd("stop", body, e_url, p_url, d_url)
+
+
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--host", default="0.0.0.0")
+    parser.add_argument("--port", type=int, default=8000)
+    parser.add_argument(
+        "--encode-servers-urls",
+        required=True,
+        help='Comma-separated encode URLs ("http://e1:8001,http://e2:8001")',
+    )
+    parser.add_argument(
+        "--prefill-servers-urls",
+        required=True,
+        help=(
+            'Comma-separated prefill URLs ("http://p1:8003,http://p2:8004") ',
+            'to enable E->P->D, set "disable" or "none" to enable E->PD',
+        ),
+    )
+    parser.add_argument(
+        "--decode-servers-urls",
+        required=True,
+        help='Comma-separated decode URLs ("http://d1:8005,http://d2:8006")',
+    )
+
+    args = parser.parse_args()
+    app.state.e_urls = [
+        u.strip() for u in args.encode_servers_urls.split(",") if u.strip()
+    ]
+    app.state.d_urls = [
+        u.strip() for u in args.decode_servers_urls.split(",") if u.strip()
+    ]
+    # handle prefill instances
+    if args.prefill_servers_urls.lower() in ("disable", "none", ""):
+        app.state.p_urls = []
+        logger.info(
+            "Disaggregated prefill phase explicitly disabled by user. Running E + PD..."
+        )
+    else:
+        app.state.p_urls = [
+            u.strip() for u in args.prefill_servers_urls.split(",") if u.strip()
+        ]
+        logger.info("Disaggregated prefill phase is enabled. Running E + P + D...")
+
+    logger.info("Proxy listening on %s:%s", args.host, args.port)
+    logger.info("Encode servers: %s", app.state.e_urls)
+    logger.info("Prefill instances %s", app.state.p_urls)
+    logger.info("Decode servers: %s", app.state.d_urls)
+
+    uvicorn.run(
+        app,
+        host=args.host,
+        port=args.port,
+        log_level="info",
+        loop="uvloop",
+        access_log=True,
+    )
diff --git a/tests/v1/core/test_scheduler.py b/tests/v1/core/test_scheduler.py
index 749cf7dc8397e..d5b829e79b8f7 100644
--- a/tests/v1/core/test_scheduler.py
+++ b/tests/v1/core/test_scheduler.py
@@ -8,6 +8,7 @@ import torch
 
 from vllm.config import (
     CacheConfig,
+    ECTransferConfig,
     KVTransferConfig,
     ModelConfig,
     SchedulerConfig,
@@ -20,6 +21,9 @@ from vllm.multimodal.inputs import (
     PlaceholderRange,
 )
 from vllm.sampling_params import SamplingParams, StructuredOutputsParams
+from vllm.utils.hashing import sha256
+from vllm.v1.core.encoder_cache_manager import EncoderCacheManager
+from vllm.v1.core.kv_cache_utils import get_request_block_hasher, init_none_hash
 from vllm.v1.core.sched.output import CachedRequestData, SchedulerOutput
 from vllm.v1.core.sched.scheduler import Scheduler
 from vllm.v1.kv_cache_interface import (
@@ -872,7 +876,10 @@ def _step_until_done(
         for _, num_scheduled_tokens in output.num_scheduled_tokens.items():
             # We should be in the decode phase now.
             assert num_scheduled_tokens == 1
-        assert len(output.kv_connector_metadata.requests) == 0
+        if scheduler.connector is not None:
+            assert len(output.kv_connector_metadata.requests) == 0
+        if scheduler.ec_connector is not None:
+            assert len(output.ec_connector_metadata.mm_datas) == 0
         ecos = scheduler.update_from_output(output, model_runner_output)[0]
         all_done = True
         for eco in ecos.outputs:
@@ -1066,7 +1073,10 @@ def test_external_prefix_cache_metrics():
     assert external_stats.preempted_requests == 0
 
 
-def test_kv_connector_unable_to_allocate():
+@pytest.mark.parametrize(
+    "use_ec_connector, ec_role", [(False, None), (True, "ec_consumer")]
+)
+def test_kv_connector_unable_to_allocate(use_ec_connector, ec_role):
     """
     Test whether scheduler with KVConnector is able to handle
     unable to allocate (run out of blocks in allocate_slots().
@@ -1080,6 +1090,9 @@ def test_kv_connector_unable_to_allocate():
         use_kv_connector=True,
         block_size=BLOCK_SIZE,
         num_blocks=NUM_BLOCKS,
+        # encoder connector should not affect test results
+        use_ec_connector=use_ec_connector,
+        ec_role=ec_role,
     )
     NUM_MATCHED_NEW_TOKENS = BLOCK_SIZE * 2
     scheduler.connector.get_num_new_matched_tokens = Mock(name="method")
@@ -1148,7 +1161,10 @@ def test_kv_connector_unable_to_allocate():
     assert len(scheduler.waiting) == 0
 
 
-def test_kv_connector_handles_preemption():
+@pytest.mark.parametrize(
+    "use_ec_connector, ec_role", [(False, None), (True, "ec_consumer")]
+)
+def test_kv_connector_handles_preemption(use_ec_connector, ec_role):
     """
     Test whether scheduler with KVConnector is able to handle
     unable to allocate (run out of blocks in allocate_slots().
@@ -1163,6 +1179,9 @@ def test_kv_connector_handles_preemption():
         use_kv_connector=True,
         block_size=BLOCK_SIZE,
         num_blocks=NUM_BLOCKS,
+        # encoder connector should not affect test results
+        use_ec_connector=use_ec_connector,
+        ec_role=ec_role,
     )
 
     NUM_MATCHED_NEW_TOKENS = BLOCK_SIZE
@@ -1379,6 +1398,8 @@ def create_scheduler_with_priority(
     block_size: int = 16,
     max_model_len: int | None = None,
     num_speculative_tokens: int | None = None,
+    use_ec_connector: bool = False,
+    ec_role: str | None = None,
 ) -> Scheduler:
     """Create scheduler with priority policy enabled.
 
@@ -1439,12 +1460,23 @@ def create_scheduler_with_priority(
             model="ngram", num_speculative_tokens=num_speculative_tokens
         )
 
+    ec_transfer_config = (
+        ECTransferConfig(
+            ec_connector="ECSharedStorageConnector",
+            ec_role=ec_role,
+            ec_connector_extra_config={"shared_storage_path": "/tmp/ec_test"},
+        )
+        if use_ec_connector
+        else None
+    )
+
     vllm_config = VllmConfig(
         scheduler_config=scheduler_config,
         model_config=model_config,
         cache_config=cache_config,
         kv_transfer_config=kv_transfer_config,
         speculative_config=speculative_config,
+        ec_transfer_config=ec_transfer_config,
     )
     kv_cache_config = KVCacheConfig(
         num_blocks=num_blocks,  # A large number of blocks to hold all requests
@@ -1465,16 +1497,23 @@ def create_scheduler_with_priority(
     )
 
 
+_none_hash_initialized = False
+
+
 def create_requests_with_priority(
     num_requests: int,
     priorities: list[int],
     arrival_times: list[float] | None = None,
     num_tokens: int = 10,
+    mm_hashes_list: list[list[str]] | None = None,
     mm_positions: list[list[PlaceholderRange]] | None = None,
     max_tokens: int = 16,
     stop_token_ids: list[int] | None = None,
     prompt_logprobs: int | None = None,
     starting_idx: int = 0,
+    same_prompt: bool = False,
+    block_size: int = 16,
+    req_ids: list[str] | None = None,
 ):
     """Create requests with specified priorities and arrival times."""
     assert len(priorities) == num_requests
@@ -1483,6 +1522,12 @@ def create_requests_with_priority(
     else:
         arrival_times = [float(i) for i in range(num_requests)]
 
+    global _none_hash_initialized
+    if not _none_hash_initialized:
+        init_none_hash(sha256)
+        _none_hash_initialized = True
+
+    block_hasher = get_request_block_hasher(block_size, sha256)
     sampling_params = SamplingParams(
         ignore_eos=False,
         max_tokens=max_tokens,
@@ -1490,29 +1535,70 @@ def create_requests_with_priority(
         prompt_logprobs=prompt_logprobs,
     )
     requests = []
+
+    if mm_hashes_list is not None:
+        # NOTE: allow manual input; some mm items can have the same identifier
+        # no. of mm_hashes and mm_positions for each request should be identical
+        assert mm_positions is not None, (
+            "mm_positions must be provided when mm_hashes_list is provided"
+        )
+        assert len(mm_hashes_list) == len(mm_positions) == num_requests
+        assert [len(h) for h in mm_hashes_list] == [len(p) for p in mm_positions]
+
+        # Since same identifier would imply they are identical encoder output
+        # Verify mm items with identical identifier are having mm_position.length
+        seen_hashes: dict[str, int] = {}
+
+    if req_ids:
+        assert len(req_ids) == num_requests
+    else:
+        req_ids = [f"{i + starting_idx}" for i in range(num_requests)]
+
     for i in range(num_requests):
         mm_features = []
-        if mm_positions is not None:
-            mm_position = mm_positions[i]
-            for j, position in enumerate(mm_position):
-                identifier = f"hash{i}_{j}"
-                mm_feature = MultiModalFeatureSpec(
-                    data=MultiModalKwargsItem.dummy("dummy_m"),
-                    mm_position=position,
-                    identifier=identifier,
-                    modality="image",
-                )
-                mm_features.append(mm_feature)
 
+        for j, position in enumerate(
+            mm_positions[i] if mm_positions is not None else []
+        ):
+            if mm_hashes_list is not None:
+                identifier = mm_hashes_list[i][j]
+
+                # Verify if position length is identical
+                position_length = position.length
+                if identifier in seen_hashes:
+                    assert seen_hashes[identifier] == position_length, (
+                        f"mm_hash '{identifier}' has inconsistent position lengths: "
+                        f"previously {seen_hashes[identifier]}, now {position_length} "
+                        f"at request {i}, position {j}"
+                    )
+                else:
+                    seen_hashes[identifier] = position_length
+            else:
+                # Unique dummy hash for each mm item
+                identifier = f"hash{i}_{j}"
+            mm_feature = MultiModalFeatureSpec(
+                data=MultiModalKwargsItem.dummy("dummy_m"),
+                mm_position=position,
+                identifier=identifier,
+                modality="image",
+            )
+            mm_features.append(mm_feature)
+
+        prompt_token_ids = (
+            [starting_idx] * num_tokens
+            if same_prompt
+            else [i + starting_idx] * num_tokens
+        )
         request = Request(
-            request_id=f"{i + starting_idx}",
-            prompt_token_ids=[i + starting_idx] * num_tokens,
+            request_id=req_ids[i],
+            prompt_token_ids=prompt_token_ids,
             sampling_params=sampling_params,
             pooling_params=None,
             mm_features=mm_features if mm_features else None,
             eos_token_id=EOS_TOKEN_ID,
             arrival_time=arrival_times[i],
             priority=priorities[i],
+            block_hasher=block_hasher,
         )
         requests.append(request)
     return requests
@@ -1999,7 +2085,12 @@ def test_schedule_skip_tokenizer_init_structured_output_request():
     assert len(scheduler.waiting) == 1
 
 
-def test_priority_scheduling_preemption_and_resumption_when_out_of_kv():
+@pytest.mark.parametrize(
+    "use_ec_connector, ec_role", [(False, None), (True, "ec_consumer")]
+)
+def test_priority_scheduling_preemption_and_resumption_when_out_of_kv(
+    use_ec_connector, ec_role
+):
     """Test that priority scheduling preempts lower priority requests
     when out of KV cache space."""
     # Create scheduler with very limited memory to force preemption
@@ -2009,6 +2100,9 @@ def test_priority_scheduling_preemption_and_resumption_when_out_of_kv():
         num_blocks=5,  # Can hold 64 tokens (first block is null)
         block_size=16,  # Standard block size
         use_kv_connector=True,
+        # encoder connector should not affect test results
+        use_ec_connector=use_ec_connector,
+        ec_role=ec_role,
     )
 
     # Create a request and schedule it
@@ -2168,3 +2262,976 @@ def _validate_chunked_prefill_settings_for_encoder_decoder(
         assert scheduler_config.disable_chunked_mm_input is not expect_enabled
     if is_encoder_decoder and not expect_enabled:
         assert scheduler_config.long_prefill_token_threshold == 0
+
+
+# ==============================================================================
+# EPD (Encoder-Prefill-Decode) Encoder-cache-specific tests start
+# NOTE: In E->P->D disagg case, both KV and EC Connector works in P instance
+# Unless specify, the existence of KV Connector should not affect any test results
+# ==============================================================================
+
+
+def _assert_right_encoder_cache_allocated(
+    scheduler: Scheduler,
+    hashes_to_check: list[str] | None = None,
+    requests: list[Request] | None = None,
+    expected_total_allocated: int | None = None,
+):
+    """Check whether encoder cache is allocated correctly."""
+    encoder_cache_manager = scheduler.encoder_cache_manager
+
+    # Verify encoder cache manager exists
+    assert encoder_cache_manager is not None, "Encoder cache manager should exist"
+
+    # Verify number of cache
+    if expected_total_allocated is not None:
+        assert len(encoder_cache_manager.cached) == expected_total_allocated
+        if expected_total_allocated == 0:
+            return
+
+    # Verify each request with MM data is in cache
+    cached_hashes = set(encoder_cache_manager.cached.keys())
+
+    if hashes_to_check:
+        missed_hashes = set(hashes_to_check) - cached_hashes
+        assert not missed_hashes, (
+            f"Miss hashes: {missed_hashes} "
+            f"Existing encoder cache: {encoder_cache_manager.cached}"
+        )
+
+    for req in requests if requests is not None else []:
+        if req.mm_features:
+            mm_hashes = [f.identifier for f in req.mm_features]
+            req_hashes = set(mm_hashes)  # unique hashes set
+            missed_hashes = req_hashes - cached_hashes
+            assert not missed_hashes, (
+                f"Miss hashes in cache for request {req.request_id}: {missed_hashes} "
+                f"Existing encoder cache: {encoder_cache_manager.cached}"
+            )
+
+
+def _assert_right_ec_connector_metadata(
+    output: SchedulerOutput,
+    mm_features_list: list[MultiModalFeatureSpec],
+):
+    """Verify that ECConnector metadata EXACTLY matches the input MM data"""
+    # Get the connector metadata
+    metadata = output.ec_connector_metadata
+
+    # Create lookup dictionaries for efficient access
+    metadata_dict = {mm_data.mm_hash: mm_data for mm_data in metadata.mm_datas}
+
+    # Check all required identifiers exist in metadata; and no extra
+    # In ECSharedStorageConnector format
+    # NOTE: even having same identifier, the mm_features can be different
+    # since their mm_position can be in different offsets, etc
+    identifiers_dict = {f.identifier for f in mm_features_list}
+    assert set(metadata_dict.keys()) == identifiers_dict
+
+    # Verify the info matches
+    for i, mm_feature in enumerate(mm_features_list):
+        identifier = mm_feature.identifier
+        assert metadata_dict[identifier].mm_hash == identifier
+        assert metadata_dict[identifier].num_token == mm_feature.mm_position.length
+
+
+def _assert_right_encoder_inputs(
+    output: SchedulerOutput,
+    check_exist: bool | None = True,
+    requests: list[Request] | None = None,
+    expected_encoder_inputs: list[list[int]] | None = None,
+    expected_total_reqs: int | None = None,
+):
+    """Verify that requests/mm_hashes should (not) in scheduled encoder input
+    If check_exist is False, this function returns True
+    if requests are NOT in encoder inputs"""
+
+    # Get the scheduled encoder inputs
+    # NOTE: scheduled_encoder_inputs is a dictionary with request id as key
+    scheduled_encoder_inputs = output.scheduled_encoder_inputs
+
+    # Check if scheduled_encoder_inputs is empty as expected
+    if expected_total_reqs is not None:
+        assert len(scheduled_encoder_inputs) == expected_total_reqs
+        if expected_total_reqs == 0:
+            return
+
+    # Number of expected enocder inputs should match number of requests
+    if expected_encoder_inputs:
+        assert check_exist and requests is not None  # only support expect input exist
+        assert len(requests) == len(expected_encoder_inputs)
+
+    # Check request (not) exist as expected
+    for i, request in enumerate(requests if requests is not None else []):
+        assert (request.request_id in scheduled_encoder_inputs) is check_exist, (
+            f"Request {request.id} presence mismatch: expected {check_exist}, "
+            f"got {request.id in scheduled_encoder_inputs}"
+        )
+        if expected_encoder_inputs:
+            scheduled_encoder_input = scheduled_encoder_inputs[request.request_id]
+            assert scheduled_encoder_input == expected_encoder_inputs[i]
+
+
+def test_scheduler_no_ec_connector_by_default():
+    """Test scheduler doesn't have EC connector by default."""
+    scheduler = create_scheduler()
+    assert scheduler.ec_connector is None
+
+
+@pytest.mark.parametrize("use_kv_connector", [False, True])
+def test_ec_connector_text_only_request(use_kv_connector):
+    """Test text-only requests don't allocate encoder cache."""
+    scheduler = create_scheduler(
+        model="llava-hf/llava-1.5-7b-hf",
+        use_kv_connector=use_kv_connector,
+        use_ec_connector=True,
+        ec_role="ec_consumer",
+    )
+
+    NUM_PROMPT_TOKENS = 100
+
+    # Create text-only request (no mm_positions)
+    requests = create_requests(
+        num_requests=1,
+        num_tokens=NUM_PROMPT_TOKENS,
+    )
+    assert not requests[0].mm_features  # No MM data
+
+    scheduler.add_request(requests[0])
+    output = scheduler.schedule()
+
+    # Should schedule
+    assert len(output.scheduled_new_reqs) == 1
+
+    # Scheduled tokens should equal prompt tokens exactly
+    scheduled = output.num_scheduled_tokens[requests[0].request_id]
+    assert scheduled == NUM_PROMPT_TOKENS, (
+        f"Text-only should schedule {NUM_PROMPT_TOKENS}, got {scheduled}"
+    )
+
+    # Encoder cache should be empty
+    _assert_right_encoder_cache_allocated(scheduler, expected_total_allocated=0)
+
+    # ECConnector should carry no metadata
+    _assert_right_ec_connector_metadata(output, mm_features_list=[])
+
+    # Scheduled encoder input should be empty; no mm to compute
+    _assert_right_encoder_inputs(output, expected_total_reqs=0)
+
+
+@pytest.mark.parametrize("use_kv_connector", [False, True])
+def test_ec_connector_cache_hit_external_load(use_kv_connector):
+    """Test ec_consumer loads from external cache when hit.
+    A normal basic operation for EPD disaggrgation"""
+    scheduler = create_scheduler(
+        model="llava-hf/llava-1.5-7b-hf",
+        enable_prefix_caching=True,
+        # kv connector should not effect test results
+        use_kv_connector=use_kv_connector,
+        use_ec_connector=True,
+        ec_role="ec_consumer",
+    )
+
+    # Create MM request
+    NUM_TOKENS = 200  # NOTE: includes mm tokens
+    NUM_ENCODER_TOKENS = 100
+    mm_hashes_list = [["hash_test1"]]
+    mm_positions = [[PlaceholderRange(offset=0, length=NUM_ENCODER_TOKENS)]]
+
+    request = create_requests(
+        num_requests=1,
+        num_tokens=NUM_TOKENS,
+        mm_hashes_list=mm_hashes_list,
+        mm_positions=mm_positions,
+    )[0]
+
+    # Mock cache hit - encoder cache exists externally
+    scheduler.ec_connector.has_caches = Mock(return_value=[True])
+    scheduler.ec_connector.update_state_after_alloc = Mock(
+        wraps=scheduler.ec_connector.update_state_after_alloc
+    )
+
+    scheduler.add_request(request)
+    output = scheduler.schedule()
+
+    # Should schedule prompt tokens
+    scheduled_tokens = output.num_scheduled_tokens[request.request_id]
+    assert scheduled_tokens == NUM_TOKENS
+
+    # Should called update_state_after_alloc for external load
+    scheduler.ec_connector.update_state_after_alloc.assert_called_with(request, 0)
+
+    # Encoder cache should contain mm items from request
+    _assert_right_encoder_cache_allocated(scheduler, requests=[request])
+
+    # ECConnector should carry metadata of request
+    _assert_right_ec_connector_metadata(output, mm_features_list=request.mm_features)
+
+    # Scheduled encoder input should be empty; no mm to compute
+    _assert_right_encoder_inputs(output, expected_total_reqs=0)
+
+
+@pytest.mark.parametrize("use_kv_connector", [False, True])
+def test_ec_connector_cache_miss_computes_locally(use_kv_connector):
+    """Test consumer can compute encoder locally when cache miss (fallback)."""
+    # encoder cache itself if it doesn't receive it from external storage
+
+    scheduler = create_scheduler(
+        model="llava-hf/llava-1.5-7b-hf",
+        enable_prefix_caching=True,
+        use_kv_connector=use_kv_connector,
+        use_ec_connector=True,
+        ec_role="ec_consumer",
+    )
+
+    # Verify consumer role
+    assert scheduler.ec_connector is not None
+    assert not scheduler.ec_connector.is_producer
+
+    # Create MM request
+    request_mm_missed = create_requests(
+        num_requests=1,
+        num_tokens=200,  # Total (including 100 MM)
+        mm_positions=[[PlaceholderRange(offset=0, length=100)]],  # 100 MM tokens
+    )[0]
+
+    # Mock cache miss - encoder cache doesn't exist externally
+    scheduler.ec_connector.has_caches = Mock(return_value=[False])
+
+    scheduler.add_request(request_mm_missed)
+    output = scheduler.schedule()
+
+    # SCHEDULER should decide to compute encoder locally (fallback)
+    assert len(output.scheduled_new_reqs) == 1
+
+    # Should schedule full prompt tokens
+    scheduled_tokens = output.num_scheduled_tokens[request_mm_missed.request_id]
+    assert scheduled_tokens == 200, (
+        f"Expected 200 tokens on cache miss, got {scheduled_tokens}"
+    )
+
+    # Encoder cache should contain mm items from request
+    _assert_right_encoder_cache_allocated(scheduler, requests=[request_mm_missed])
+
+    # ECConnector should carry no metadata (missed cache)
+    _assert_right_ec_connector_metadata(output, mm_features_list=[])
+
+    # Scheduled encoder input contain mm for request_mm_missed
+    _assert_right_encoder_inputs(
+        output,
+        requests=[request_mm_missed],
+        expected_encoder_inputs=[[0]],  # index 0 of the mm item
+        expected_total_reqs=1,
+    )
+
+    # Then MODEL_RUNNER will execute the encoder and cache the result
+
+
+@pytest.mark.parametrize("use_kv_connector", [False, True])
+def test_ec_connector_with_partial_cache_hit_multi_round(use_kv_connector):
+    """Test consumer with partial cache hit (local & connector) with 2 requests."""
+    scheduler = create_scheduler(
+        model="llava-hf/llava-1.5-7b-hf",
+        enable_prefix_caching=True,
+        use_kv_connector=use_kv_connector,
+        use_ec_connector=True,
+        ec_role="ec_consumer",
+    )
+
+    # Create MM request
+    NUM_TOKENS_1 = 300  # NOTE: includes mm tokens
+    NUM_ENCODER_TOKENS_1 = 50
+    mm_hashes_list_1 = [["hash1_A", "hash1_B", "hash1_A", "hash1_F"]]
+    mm_positions_1 = [
+        [
+            PlaceholderRange(offset=0, length=NUM_ENCODER_TOKENS_1),
+            PlaceholderRange(offset=100, length=NUM_ENCODER_TOKENS_1),
+            PlaceholderRange(offset=200, length=NUM_ENCODER_TOKENS_1),
+            PlaceholderRange(offset=250, length=NUM_ENCODER_TOKENS_1),
+        ]
+    ]
+
+    # Create request with 4 MM items, with 2 identical items
+    request1 = create_requests(
+        num_requests=1,
+        num_tokens=NUM_TOKENS_1,
+        mm_hashes_list=mm_hashes_list_1,
+        mm_positions=mm_positions_1,
+        max_tokens=1,  # For simplicity
+    )[0]
+
+    # Mock partial cache hit: 1st and 3rd missing, 2nd and 4th exist
+    scheduler.ec_connector.has_caches = Mock(return_value=[False, True, False, True])
+    scheduler.ec_connector.update_state_after_alloc = Mock(
+        wraps=scheduler.ec_connector.update_state_after_alloc
+    )
+
+    scheduler.add_request(request1)
+    output = scheduler.schedule()
+
+    # Should schedule all tokens
+    scheduled_tokens = output.num_scheduled_tokens[request1.request_id]
+    assert scheduled_tokens == NUM_TOKENS_1
+
+    # Encoder cache should contain all mm items from request
+    _assert_right_encoder_cache_allocated(scheduler, requests=[request1])
+
+    # Should have called update_state_after_alloc for external load
+    scheduler.ec_connector.update_state_after_alloc.assert_called()
+    scheduler.ec_connector.update_state_after_alloc.reset_mock()
+
+    # ECConnector should carry metadata for 2nd and 4th mm item
+    _assert_right_ec_connector_metadata(
+        output, mm_features_list=[request1.mm_features[1], request1.mm_features[3]]
+    )
+
+    # Should schedule ONLY 1 encoder input (index 0), no repeat for identical items
+    _assert_right_encoder_inputs(
+        output,
+        requests=[request1],
+        expected_encoder_inputs=[[0]],  # index 0 of the mm item ONLY
+        expected_total_reqs=1,
+    )
+
+    # Simulate model execution 1 step
+    model_output = ModelRunnerOutput(
+        req_ids=[request1.request_id],
+        req_id_to_index={request1.request_id: 0},
+        sampled_token_ids=[[100]],
+        # spec_token_ids=None,
+        logprobs=None,
+        prompt_logprobs_dict={},
+        pooler_output=[],
+    )
+    scheduler.update_from_output(output, model_output)
+
+    # request1 is finished after outputing 1 token
+    # Finish request
+    scheduler.finish_requests(request1.request_id, RequestStatus.FINISHED_LENGTH_CAPPED)
+
+    # Create another request with 4 MM items
+    NUM_TOKENS_2 = 400
+    NUM_ENCODER_TOKENS_2 = 50
+    mm_hashes_list_2 = [["hash1_C", "hash1_D", "hash1_E", "hash1_A"]]
+    mm_positions_2 = [
+        [
+            PlaceholderRange(offset=0, length=NUM_ENCODER_TOKENS_2),
+            PlaceholderRange(offset=100, length=NUM_ENCODER_TOKENS_2),
+            PlaceholderRange(offset=200, length=NUM_ENCODER_TOKENS_2),
+            PlaceholderRange(offset=250, length=NUM_ENCODER_TOKENS_2),
+        ]
+    ]
+
+    request2 = create_requests(
+        num_requests=1,
+        num_tokens=NUM_TOKENS_2,
+        mm_hashes_list=mm_hashes_list_2,
+        mm_positions=mm_positions_2,
+        max_tokens=1,  # For simplicity
+    )[0]
+
+    # Mock partial cache hit: only hash1_A and hash1_C exist in connector
+    scheduler.ec_connector.has_caches = Mock(return_value=[True, False, False, True])
+
+    scheduler.add_request(request2)
+    output = scheduler.schedule()
+
+    # Check
+    # Should schedule all tokens
+    scheduled_tokens = output.num_scheduled_tokens[request2.request_id]
+    assert scheduled_tokens == 400
+
+    # Encoder cache should contain all mm items from request2
+    _assert_right_encoder_cache_allocated(scheduler, requests=[request2])
+
+    # Should call update_state_after_alloc for hash1_C, ONLY
+    # hash1_A should not be loaded from connector
+    # since it's computed in last request & exist in local cache
+    # Order of getting encoder cache should be: local cache -> connector-> compute
+    scheduler.ec_connector.update_state_after_alloc.assert_called_with(request2, 0)
+    scheduler.ec_connector.update_state_after_alloc.assert_called_once()
+
+    scheduler.ec_connector.update_state_after_alloc.reset_mock()
+
+    # ECConnector should carry metadata for hash1_C only (index 0)
+    _assert_right_ec_connector_metadata(
+        output, mm_features_list=[request2.mm_features[0]]
+    )
+
+    # Should schedule 2 encoder input hash1_D and hash1_E (index 1, 2)
+    _assert_right_encoder_inputs(
+        output,
+        requests=[request2],
+        expected_encoder_inputs=[[1, 2]],
+        expected_total_reqs=1,
+    )
+
+
+@pytest.mark.parametrize("cache_exist", ["local", "connector_only", "no_where"])
+@pytest.mark.parametrize("use_kv_connector", [False, True])
+def test_ec_connector_schedule_multiple_requests(cache_exist, use_kv_connector):
+    scheduler = create_scheduler(
+        model="llava-hf/llava-1.5-7b-hf",
+        max_num_seqs=10,  # allow multiple requests
+        max_num_batched_tokens=2048,
+        enable_prefix_caching=True,
+        use_kv_connector=use_kv_connector,
+        use_ec_connector=True,
+        ec_role="ec_consumer",
+    )
+    mm_hashes_list = [[f"hash_{i}"] for i in range(10)]
+    mm_positions = [[PlaceholderRange(offset=i, length=100)] for i in range(10)]
+    requests = create_requests(
+        num_requests=10,
+        num_tokens=200,
+        mm_hashes_list=mm_hashes_list,
+        mm_positions=mm_positions,
+    )
+    for request in requests:
+        scheduler.add_request(request)
+
+    # Set up to test different encoder cache exsistence scenario after preemption
+    # Order of getting encoder cache should be: local cache -> connector-> compute
+    scheduler.ec_connector.update_state_after_alloc = Mock(
+        wraps=scheduler.ec_connector.update_state_after_alloc
+    )
+
+    if cache_exist == "local":
+        # Allocate cache to cache manager manually to mimick
+        for req in requests:
+            scheduler.encoder_cache_manager.allocate(req, 0)
+    else:
+        # Make sure local encoder cache empty
+        scheduler.encoder_cache_manager.cached = {}
+
+    if cache_exist == "connector_only":
+        # Cache exist in ec_connector
+        scheduler.ec_connector.has_caches = Mock(return_value=[True])
+    elif cache_exist == "no_where":
+        scheduler.ec_connector.has_caches = Mock(return_value=[False])
+
+    output = scheduler.schedule()
+    assert len(output.scheduled_new_reqs) == len(requests)
+    assert output.scheduled_cached_reqs.num_reqs == 0
+    assert len(output.finished_req_ids) == 0
+    for req_id, num_tokens in output.num_scheduled_tokens.items():
+        assert num_tokens == len(requests[int(req_id)].prompt_token_ids)
+
+    ## Encoder-cache-specific checks:
+    # mm_hashes of requests exist in cache after scheduling for all scenario
+    _assert_right_encoder_cache_allocated(scheduler, requests=requests)
+
+    # Should only call update_state_after_alloc when loaded externally
+    if cache_exist == "connector_only":
+        scheduler.ec_connector.update_state_after_alloc.assert_called_with(
+            requests[-1], 0
+        )
+
+        # Concat mm_features for the 10 requests together
+        mm_features_list = [feature for req in requests for feature in req.mm_features]
+
+        # Check metadata should contain mm data for all 10 requests
+        _assert_right_ec_connector_metadata(output, mm_features_list=mm_features_list)
+    else:
+        scheduler.ec_connector.update_state_after_alloc.assert_not_called()
+        # ECConnector should carry no metadata
+        _assert_right_ec_connector_metadata(output, mm_features_list=[])
+
+    scheduler.ec_connector.update_state_after_alloc.reset_mock()
+
+    # Should only schedule encoder input when cache is not found anywhere
+    if cache_exist == "no_where":
+        _assert_right_encoder_inputs(
+            output,
+            requests=requests,
+            expected_encoder_inputs=[[0] for _ in range(10)],
+            expected_total_reqs=10,
+        )
+    else:
+        _assert_right_encoder_inputs(output, expected_total_reqs=0)
+
+
+@pytest.mark.parametrize("use_kv_connector", [False, True])
+def test_ec_connector_unable_to_allocate(use_kv_connector):
+    """
+    Test whether scheduler with ECConnector is able to handle
+    unable to allocate (run out of blocks).
+    """
+
+    # Setup Scheduler With Mock External Cache Hit.
+    BLOCK_SIZE = 4
+    NUM_BLOCKS = 10
+    scheduler = create_scheduler(
+        model="llava-hf/llava-1.5-7b-hf",
+        enable_prefix_caching=True,
+        use_kv_connector=use_kv_connector,
+        block_size=BLOCK_SIZE,
+        num_blocks=NUM_BLOCKS,
+        use_ec_connector=True,
+        ec_role="ec_consumer",
+    )
+
+    # Mock ec_connector load external cache behavior
+    scheduler.ec_connector.has_caches = Mock(return_value=[True])
+    scheduler.ec_connector.update_state_after_alloc = Mock(
+        wraps=scheduler.ec_connector.update_state_after_alloc
+    )
+
+    # Create two requests. The second request will not be able to
+    # allocate slots because it will not have enough blocks.
+    NUM_REQUESTS = 2
+    NUM_TOKENS = (NUM_BLOCKS // 2 + 1) * BLOCK_SIZE
+    MAX_TOKENS = 2
+    requests = create_requests(
+        num_requests=NUM_REQUESTS,
+        num_tokens=NUM_TOKENS,
+        mm_hashes_list=[["hash_1"], ["hash_2"]],
+        mm_positions=[
+            [PlaceholderRange(offset=1, length=10)] for _ in range(NUM_REQUESTS)
+        ],
+        max_tokens=MAX_TOKENS,
+        block_size=BLOCK_SIZE,
+    )
+    req_ids = []
+    req_to_index = {}
+    for i, request in enumerate(requests):
+        scheduler.add_request(request)
+        req_ids.append(request.request_id)
+        req_to_index[request.request_id] = i
+
+    # Setup MODEL_RUNNER_OUTPUT to be run in _step_until_done later
+    MODEL_RUNNER_OUTPUT = ModelRunnerOutput(
+        req_ids=req_ids,
+        req_id_to_index=req_to_index,
+        sampled_token_ids=[[1000]] * len(req_ids),
+        logprobs=None,
+        prompt_logprobs_dict={},
+        pooler_output=[],
+    )
+
+    # Just one request should be running.
+    output = scheduler.schedule()
+    scheduled_tokens = output.num_scheduled_tokens[scheduler.running[0].request_id]
+    assert scheduled_tokens == NUM_TOKENS
+    assert len(scheduler.running) == 1
+    assert len(scheduler.waiting) == 1
+
+    # Should have called update_state_after_alloc for external load
+    scheduler.ec_connector.update_state_after_alloc.assert_called_with(
+        scheduler.running[0], 0
+    )
+    scheduler.ec_connector.update_state_after_alloc.reset_mock()
+
+    # All memory should be freed, with one request waiting.
+    _step_until_done(scheduler, output, MODEL_RUNNER_OUTPUT)
+    assert scheduler.kv_cache_manager.block_pool.get_num_free_blocks() == NUM_BLOCKS - 1
+    assert len(scheduler.running) == 0
+    assert len(scheduler.waiting) == 1
+
+    # Just one request should be running.
+    output = scheduler.schedule()
+    scheduled_tokens = output.num_scheduled_tokens[scheduler.running[0].request_id]
+    assert scheduled_tokens == NUM_TOKENS
+    assert len(scheduler.running) == 1
+    assert len(scheduler.waiting) == 0
+
+    # update_state_after_alloc should be called for loading external cache
+    scheduler.ec_connector.update_state_after_alloc.assert_called_with(
+        scheduler.running[0], 0
+    )
+    scheduler.ec_connector.update_state_after_alloc.reset_mock()
+
+    # All memory should be freed, with no requests waiting / running.
+    _step_until_done(scheduler, output, MODEL_RUNNER_OUTPUT)
+    assert scheduler.kv_cache_manager.block_pool.get_num_free_blocks() == NUM_BLOCKS - 1
+    assert len(scheduler.running) == 0
+    assert len(scheduler.waiting) == 0
+
+
+@pytest.mark.parametrize("cache_exist", ["local", "connector_only", "no_where"])
+@pytest.mark.parametrize("use_kv_connector", [False, True])
+def test_priority_scheduling_ec_connector_preemption_and_resumption(
+    cache_exist, use_kv_connector
+):
+    """Test that priority scheduling preempts lower priority requests
+    when out of KV cache space."""
+    # Create scheduler with very limited memory to force preemption
+    scheduler = create_scheduler_with_priority(
+        model="llava-hf/llava-1.5-7b-hf",
+        enable_prefix_caching=True,
+        max_num_seqs=2,  # allow multiple requests
+        # kv connector should not effect test results
+        use_kv_connector=use_kv_connector,
+        num_blocks=15,  # can hold 244 tokens with 14 blocks (first block is null)
+        block_size=16,  # standard block size
+        use_ec_connector=True,
+        ec_role="ec_consumer",
+    )
+
+    # Mock cache hit: Both cache exist in connector (at E->PD initially)
+    scheduler.ec_connector.has_caches = Mock(return_value=[True])
+    scheduler.ec_connector.update_state_after_alloc = Mock(
+        wraps=scheduler.ec_connector.update_state_after_alloc
+    )
+
+    # Create a request and schedule it (and to be preempted)
+    request_low = create_requests_with_priority(
+        num_requests=1,
+        priorities=[1],
+        arrival_times=[0.0],
+        num_tokens=94,
+        mm_hashes_list=[["hash_low"]],
+        # NOTE: this test only preempt the last block.
+        # Setting mm_position at the last block can force to recompute encoding
+        mm_positions=[[PlaceholderRange(offset=82, length=10)]],
+        starting_idx=0,
+    )[0]
+    scheduler.add_request(request_low)
+    # 1st schedule
+    output = scheduler.schedule()
+
+    assert len(output.scheduled_new_reqs) == 1
+    scheduled_tokens = output.num_scheduled_tokens[request_low.request_id]
+    assert scheduled_tokens == 94
+    assert len(scheduler.waiting) == 0
+    assert len(scheduler.running) == 1
+
+    ## Encoder-cache-specific checks:
+    # Encoder cache should contain mm items from request
+    _assert_right_encoder_cache_allocated(scheduler, requests=[request_low])
+
+    # Verify update_state_after_alloc called (external load)
+    scheduler.ec_connector.update_state_after_alloc.assert_called_with(request_low, 0)
+    scheduler.ec_connector.update_state_after_alloc.reset_mock()
+
+    # ECConnector should carry metadata of request
+    _assert_right_ec_connector_metadata(
+        output, mm_features_list=request_low.mm_features
+    )
+
+    # Scheduled encoder input should be empty; no mm to compute
+    _assert_right_encoder_inputs(output, expected_total_reqs=0)
+
+    # Simulate model execution - 1st decode
+    model_output = ModelRunnerOutput(
+        req_ids=[request_low.request_id],
+        req_id_to_index={request_low.request_id: 0},
+        sampled_token_ids=[[100]],
+        # spec_token_ids=None,
+        logprobs=None,
+        prompt_logprobs_dict={},
+        pooler_output=[],
+    )
+    scheduler.update_from_output(output, model_output)
+
+    # Create a high priority request and schedule it
+    request_high = create_requests_with_priority(
+        num_requests=1,
+        priorities=[0],
+        arrival_times=[1.0],
+        num_tokens=128,
+        mm_hashes_list=[["hash_high"]],
+        mm_positions=[[PlaceholderRange(offset=1, length=10)]],
+        max_tokens=2,
+        starting_idx=1,
+    )[0]
+    scheduler.add_request(request_high)
+    # 2nd schedule
+    output = scheduler.schedule()
+
+    # KV cache should be full at this point
+    assert scheduler.kv_cache_manager.block_pool.get_num_free_blocks() == 0
+    assert len(output.scheduled_new_reqs) == 1
+    assert output.scheduled_cached_reqs.num_reqs == 1
+    assert len(scheduler.waiting) == 0
+    assert len(scheduler.running) == 2
+
+    ## Encoder-cache-specific checks:
+    # Encoder cache should contain mm items from request
+    _assert_right_encoder_cache_allocated(scheduler, requests=[request_high])
+
+    # Verify update_state_after_alloc called (external load)
+    scheduler.ec_connector.update_state_after_alloc.assert_called_with(request_high, 0)
+    scheduler.ec_connector.update_state_after_alloc.reset_mock()
+
+    # ECConnector should carry metadata of request
+    _assert_right_ec_connector_metadata(
+        output, mm_features_list=request_high.mm_features
+    )
+
+    # Scheduled encoder input should be empty; no mm to compute
+    _assert_right_encoder_inputs(output, expected_total_reqs=0)
+
+    # Simulate model execution - 2nd decode
+    requests = [request_low, request_high]
+    model_output = ModelRunnerOutput(
+        req_ids=[req.request_id for req in requests],
+        req_id_to_index={req.request_id: i for i, req in enumerate(requests)},
+        sampled_token_ids=[[100] for _ in requests],
+        # spec_token_ids=None,
+        logprobs=None,
+        prompt_logprobs_dict={},
+        pooler_output=[],
+    )
+    scheduler.update_from_output(output, model_output)
+
+    # 3rd schedule - - this should trigger preemption
+    # req_low needs 96 tokens = 6 blocks
+    # req_high needs 129 tokens = 9 blocks
+    # so doesn't fit in 14 blocks.
+    output = scheduler.schedule()
+
+    # Should have preempted req_low
+    assert len(output.scheduled_new_reqs) == 0
+    assert output.scheduled_cached_reqs.num_reqs == 1
+    assert output.scheduled_cached_reqs.req_ids[0] == request_high.request_id
+    assert scheduler.requests[request_low.request_id].status == RequestStatus.PREEMPTED
+    assert len(scheduler.waiting) == 1
+    assert len(scheduler.running) == 1
+
+    ## Encoder-cache-specific checks:
+    # request_high is in decode phase now
+    # ECConnector should carry no metadata
+    _assert_right_ec_connector_metadata(output, mm_features_list=[])
+
+    # Scheduled encoder input should be empty; no mm to compute
+    _assert_right_encoder_inputs(output, expected_total_reqs=0)
+
+    # Simulate model execution - 3rd decode, after req_low was preempted
+    requests = [request_low, request_high]
+    model_output = ModelRunnerOutput(
+        req_ids=[req.request_id for req in requests],
+        req_id_to_index={req.request_id: i for i, req in enumerate(requests)},
+        sampled_token_ids=[[100], [100, 200]],
+        # spec_token_ids=None,
+        logprobs=None,
+        prompt_logprobs_dict={},
+        pooler_output=[],
+    )
+    # Finish the requests to make room for the preempted requests to resume
+    # req_high is finished after outputing 2 tokens
+    scheduler.update_from_output(output, model_output)
+    scheduler.finish_requests(
+        request_high.request_id, RequestStatus.FINISHED_LENGTH_CAPPED
+    )
+
+    # Set up to test different encoder cache exsistence scenario after preemption
+    # Order of getting encoder cache should be: local cache -> connector-> compute
+    # By default, the cache should still exist in local in this test case
+    if cache_exist != "local":
+        # Make local encoder cache empty
+        scheduler.encoder_cache_manager.cached = {}
+
+    if cache_exist == "connector_only":
+        # Cache exist in ec_connector
+        scheduler.ec_connector.has_caches = Mock(return_value=[True])
+    elif cache_exist == "no_where":
+        scheduler.ec_connector.has_caches = Mock(return_value=[False])
+
+    # 4th Schedule - this should trigger req_low resumption from waiting
+    output = scheduler.schedule()
+    scheduled_cached_reqs = output.scheduled_cached_reqs
+    resumed_from_preemption = scheduled_cached_reqs.resumed_from_preemption
+
+    assert len(output.scheduled_new_reqs) == 0
+    assert scheduled_cached_reqs.num_reqs == 1
+    assert len(scheduler.waiting) == 0
+    assert len(scheduler.running) == 1
+
+    # Preempted request resumed in scheduled_cached_reqs
+    assert len(resumed_from_preemption) == 1
+    assert len(scheduled_cached_reqs.resumed_req_token_ids) == 1
+    assert resumed_from_preemption[0]
+    assert scheduled_cached_reqs.req_ids[0] == request_low.request_id
+    assert scheduled_cached_reqs.resumed_req_token_ids[0] is not None
+    ## Resumed tokens include 94 prompt tokens and 2 decoded tokens
+    assert len(scheduled_cached_reqs.resumed_req_token_ids[0]) == 96
+    assert scheduled_cached_reqs.resumed_req_token_ids[0][95] == 100
+    assert scheduler.running[0].request_id == request_low.request_id
+    assert request_high.request_id in output.finished_req_ids
+
+    ## Encoder-cache-specific checks:
+    # mm_hash of request_low exists in cache after scheduling for all scenario
+    _assert_right_encoder_cache_allocated(scheduler, requests=[request_low])
+
+    # Should only call update_state_after_alloc when loaded externally
+    if cache_exist == "connector_only":
+        scheduler.ec_connector.update_state_after_alloc.assert_called_with(
+            request_low, 0
+        )
+        _assert_right_ec_connector_metadata(
+            output, mm_features_list=request_low.mm_features
+        )
+    else:
+        scheduler.ec_connector.update_state_after_alloc.assert_not_called()
+        # ECConnector should carry no metadata
+        _assert_right_ec_connector_metadata(output, mm_features_list=[])
+
+    scheduler.ec_connector.update_state_after_alloc.reset_mock()
+
+    # Should only schedule encoder input when cache is not found anywhere
+    if cache_exist == "no_where":
+        _assert_right_encoder_inputs(
+            output,
+            requests=[request_low],
+            expected_encoder_inputs=[[0]],
+            expected_total_reqs=1,
+        )
+    else:
+        _assert_right_encoder_inputs(output, expected_total_reqs=0)
+
+
+@pytest.mark.parametrize("use_kv_connector", [False, True])
+def test_ec_connector_allocate_encoder_tokens_with_external_load(use_kv_connector):
+    """
+    Scenario:
+      - Encoder cache size: 32
+      - Request A: 1 feature (12 tokens) → NOT cached remotely.
+      - Request B: 3 features (3 x 10 tokens) → ALL cached remotely.
+
+    Steps:
+      1. Schedule Request A (locally uses 12 tokens).
+      2. Schedule Request B (remote cache) - only schedule 1st and 2nd
+      3. Free A's cache, then schedule B again (continuation) - schedule 3rd image
+    """
+    scheduler = create_scheduler(
+        model="llava-hf/llava-1.5-7b-hf",
+        max_num_batched_tokens=1024,
+        enable_prefix_caching=True,
+        use_kv_connector=use_kv_connector,
+        block_size=16,
+        num_blocks=11,  # Can hold 160 tokens (first block is null)
+        use_ec_connector=True,
+        ec_role="ec_consumer",
+    )
+
+    # Limit the number of availiable slots of EncoderCacheManager
+    scheduler.encoder_cache_manager = EncoderCacheManager(cache_size=32)
+
+    # Create MM request1
+    NUM_TOKENS_1 = 50  # NOTE: includes mm tokens
+    NUM_ENCODER_TOKENS_1 = 12
+    mm_hashes_list_1 = [["hash1_1"]]
+    mm_positions_1 = [[PlaceholderRange(offset=0, length=NUM_ENCODER_TOKENS_1)]]
+
+    request1 = create_requests(
+        num_requests=1,
+        num_tokens=NUM_TOKENS_1,
+        mm_hashes_list=mm_hashes_list_1,
+        mm_positions=mm_positions_1,
+        max_tokens=1,  # For simplicity
+        req_ids=["req1"],
+    )[0]
+
+    # Create MM request1 with 3 MM items
+    NUM_TOKENS_2 = 40
+    NUM_ENCODER_TOKENS_2 = 10
+    mm_hashes_list_2 = [["hash2_1", "hash2_2", "hash2_3"]]
+    mm_positions_2 = [
+        [
+            PlaceholderRange(offset=0, length=NUM_ENCODER_TOKENS_2),
+            PlaceholderRange(offset=12, length=NUM_ENCODER_TOKENS_2),
+            PlaceholderRange(offset=24, length=NUM_ENCODER_TOKENS_2),
+        ]
+    ]
+
+    request2 = create_requests(
+        num_requests=1,
+        num_tokens=NUM_TOKENS_2,
+        mm_hashes_list=mm_hashes_list_2,
+        mm_positions=mm_positions_2,
+        max_tokens=10,
+        req_ids=["req2"],
+    )[0]
+
+    # Mock cache hit: MM of request1 NOT cached remotely, request2 cached remotely
+    scheduler.ec_connector.has_caches = Mock(
+        side_effect=lambda req: [True, True, True] if req == request2 else [False]
+    )
+    scheduler.ec_connector.update_state_after_alloc = Mock(
+        wraps=scheduler.ec_connector.update_state_after_alloc
+    )
+
+    scheduler.add_request(request1)
+    scheduler.add_request(request2)
+    output = scheduler.schedule()
+
+    # Now, since encoder cache manager can only store 32 tokens
+    # It should allocated mm item hash1_1, hash2_1 and hash2_2
+    scheduled_tokens = output.num_scheduled_tokens[request1.request_id]
+    assert scheduled_tokens == NUM_TOKENS_1
+    assert scheduler.get_num_unfinished_requests() == 2
+
+    # Encoder cache should contain mm item from request1
+    _assert_right_encoder_cache_allocated(
+        scheduler, hashes_to_check=["hash1_1", "hash2_1", "hash2_2"]
+    )
+
+    # request2's 2nd mm item is the last call of update_state_after_alloc
+    scheduler.ec_connector.update_state_after_alloc.assert_called_with(request2, 1)
+    scheduler.ec_connector.update_state_after_alloc.reset_mock()
+
+    # ECConnector should carry metadata of hash2_1 and hash2_2 ONLY
+    _assert_right_ec_connector_metadata(
+        output, mm_features_list=[request2.mm_features[0], request2.mm_features[1]]
+    )
+
+    # Should schedule ONLY 1 encoder input
+    _assert_right_encoder_inputs(
+        output,
+        requests=[request1],
+        expected_encoder_inputs=[[0]],  # index 0 of the mm item of request1
+        expected_total_reqs=1,
+    )
+
+    # Simulate model execution 1 step
+    model_output = ModelRunnerOutput(
+        req_ids=[request1.request_id, request2.request_id],
+        req_id_to_index={request1.request_id: 0, request2.request_id: 1},
+        sampled_token_ids=[[100], [121]],
+        # spec_token_ids=None,
+        logprobs=None,
+        prompt_logprobs_dict={},
+        pooler_output=[],
+    )
+    scheduler.update_from_output(output, model_output)
+
+    # request1 is finished after outputing 1 token
+    # Finish request
+    scheduler.finish_requests(request1.request_id, RequestStatus.FINISHED_LENGTH_CAPPED)
+    assert scheduler.get_num_unfinished_requests() == 1
+
+    # Schedule again; Now request1's encoder cache should be freed
+    # -> hash2_3 can be scheduled and allocated
+    output = scheduler.schedule()
+
+    # Check
+    # Should schedule all tokens
+    scheduled_tokens = output.num_scheduled_tokens[request2.request_id]
+    print(f"Hero: scheduled_tokens for req2: {scheduled_tokens}")
+    print(f"hero: num_scheduled_tokens 2: {output.num_scheduled_tokens}")
+
+    # Encoder cache should contain all mm items from request2
+    _assert_right_encoder_cache_allocated(scheduler, requests=[request2])
+
+    # request2's 3rd mm item is the ONLY call of update_state_after_alloc
+    scheduler.ec_connector.update_state_after_alloc.assert_called_with(request2, 2)
+    scheduler.ec_connector.update_state_after_alloc.assert_called_once()
+
+    scheduler.ec_connector.update_state_after_alloc.reset_mock()
+
+    # ECConnector should carry metadata for hash2_3 ONLY
+    _assert_right_ec_connector_metadata(
+        output, mm_features_list=[request2.mm_features[2]]
+    )
+
+    # Should schedule no encoder input
+    _assert_right_encoder_inputs(
+        output,
+        expected_total_reqs=0,
+    )
+
+
+# ==============================================================================
+# EPD (Encoder-Prefill-Decode) Encoder-cache-specific tests end
+# ==============================================================================
diff --git a/tests/v1/core/utils.py b/tests/v1/core/utils.py
index 6e739d6b0e77a..3692e633322e2 100644
--- a/tests/v1/core/utils.py
+++ b/tests/v1/core/utils.py
@@ -5,6 +5,7 @@ import torch
 
 from vllm.config import (
     CacheConfig,
+    ECTransferConfig,
     KVTransferConfig,
     ModelConfig,
     SchedulerConfig,
@@ -46,6 +47,8 @@ def create_scheduler(
     num_speculative_tokens: int | None = None,
     skip_tokenizer_init: bool = False,
     async_scheduling: bool = False,
+    use_ec_connector: bool = False,
+    ec_role: str | None = None,
 ) -> Scheduler | AsyncScheduler:
     """Create scheduler under test.
 
@@ -107,12 +110,23 @@ def create_scheduler(
             model="ngram", num_speculative_tokens=num_speculative_tokens
         )
 
+    ec_transfer_config = (
+        ECTransferConfig(
+            ec_connector="ECSharedStorageConnector",
+            ec_role=ec_role,
+            ec_connector_extra_config={"shared_storage_path": "/tmp/ec_test"},
+        )
+        if use_ec_connector
+        else None
+    )
+
     vllm_config = VllmConfig(
         scheduler_config=scheduler_config,
         model_config=model_config,
         cache_config=cache_config,
         kv_transfer_config=kv_transfer_config,
         speculative_config=speculative_config,
+        ec_transfer_config=ec_transfer_config,
     )
     kv_cache_config = KVCacheConfig(
         num_blocks=num_blocks,  # A large number of blocks to hold all requests
@@ -140,12 +154,14 @@ _none_hash_initialized = False
 def create_requests(
     num_requests: int,
     num_tokens: int = 10,
+    mm_hashes_list: list[list[str]] | None = None,
     mm_positions: list[list[PlaceholderRange]] | None = None,
     max_tokens: int = 16,
     stop_token_ids: list[int] | None = None,
     prompt_logprobs: int | None = None,
     same_prompt: bool = False,
     block_size: int = 16,
+    req_ids: list[str] | None = None,
 ) -> list[Request]:
     global _none_hash_initialized
     if not _none_hash_initialized:
@@ -160,25 +176,58 @@ def create_requests(
         prompt_logprobs=prompt_logprobs,
     )
     requests = []
+
+    if mm_hashes_list is not None:
+        # NOTE: allow manual input; some mm items can have the same identifier
+        # no. of mm_hashes and mm_positions for each request should be identical
+        assert mm_positions is not None, (
+            "mm_positions must be provided when mm_hashes_list is provided"
+        )
+        assert len(mm_hashes_list) == len(mm_positions) == num_requests
+        assert [len(h) for h in mm_hashes_list] == [len(p) for p in mm_positions]
+
+        # Since same identifier would imply they are identical encoder output
+        # Verify mm items with identical identifier are having mm_position.length
+        seen_hashes: dict[str, int] = {}
+
+    if req_ids:
+        assert len(req_ids) == num_requests
+    else:
+        req_ids = [f"{i}" for i in range(num_requests)]
+
     for i in range(num_requests):
         mm_features = []
-        if mm_positions is not None:
-            mm_position = mm_positions[i]
-            for j, position in enumerate(mm_position):
-                # Dummy hash for each mm item should be unique
-                # since encoder cache tracks entries by hash
+
+        for j, position in enumerate(
+            mm_positions[i] if mm_positions is not None else []
+        ):
+            if mm_hashes_list is not None:
+                identifier = mm_hashes_list[i][j]
+
+                # Verify if position length is identical
+                position_length = position.length
+                if identifier in seen_hashes:
+                    assert seen_hashes[identifier] == position_length, (
+                        f"mm_hash '{identifier}' has inconsistent position lengths: "
+                        f"previously {seen_hashes[identifier]}, now {position_length} "
+                        f"at request {i}, position {j}"
+                    )
+                else:
+                    seen_hashes[identifier] = position_length
+            else:
+                # Unique dummy hash for each mm item
                 identifier = f"hash{i}_{j}"
-                mm_feature = MultiModalFeatureSpec(
-                    data=MultiModalKwargsItem.dummy("dummy_m"),
-                    mm_position=position,
-                    identifier=identifier,
-                    modality="image",
-                )
-                mm_features.append(mm_feature)
+            mm_feature = MultiModalFeatureSpec(
+                data=MultiModalKwargsItem.dummy("dummy_m"),
+                mm_position=position,
+                identifier=identifier,
+                modality="image",
+            )
+            mm_features.append(mm_feature)
 
         prompt_token_ids = [0] * num_tokens if same_prompt else [i] * num_tokens
         request = Request(
-            request_id=f"{i}",
+            request_id=req_ids[i],
             prompt_token_ids=prompt_token_ids,
             sampling_params=sampling_params,
             pooling_params=None,
diff --git a/tests/v1/ec_connector/integration/README.md b/tests/v1/ec_connector/integration/README.md
new file mode 100644
index 0000000000000..30426e055ade8
--- /dev/null
+++ b/tests/v1/ec_connector/integration/README.md
@@ -0,0 +1,171 @@
+# EPD Correctness Test
+
+This test verifies that EPD (Encoder-Prefill-Decode) disaggregation produces identical outputs to a baseline single instance.
+
+## What It Tests
+
+- **Baseline**: Single vLLM instance serving a multimodal model
+- **EPD (1E+1PD)**: 1 Encoder + 1 Prefill-Decode instance
+- **Baseline (1P+1D)**: 1 Prefill + 1 Decode instance
+- **EPD (1E+1P+1D)**: 1 Encoder + 1 Prefill + 1 Decode instance
+
+The test ensures that disaggregated encoding produces **identical** outputs to the baseline.
+
+Note that currently PD disaggregation set up may give slightly different results from a single instance. Therefore, we need the result from 1P+1D as the baseline for 1E+1P+1D
+
+Please refer to [Disaggregated Encoder Feature](../../../docs/features/disagg_encoder.md) for the detailed explanation for the EPD features.
+
+## Files
+
+- `run_epd_correctness_test.sh` - Main test script (starts all instances and runs tests)
+- `test_epd_correctness.py` - Python test script (compares outputs)
+
+## Usage
+
+### Multimodal Prompts (Default)
+
+```bash
+cd vllm
+./tests/v1/ec_connector/integration/run_epd_correctness_test.sh
+```
+
+This runs the test with actual multimodal (image) prompts.
+
+### Text-Only Prompts
+
+```bash
+cd vllm
+USE_MM_PROMPTS=0 ./tests/v1/ec_connector/integration/run_epd_correctness_test.sh
+```
+
+This runs a quick test with text-only prompts to verify the setup works.
+
+### Custom Configuration
+
+```bash
+# Use specific GPUs
+GPU_E=0 GPU_PD=1 GPU_P=1 GPU_D=2 bash ./tests/v1/ec_connector/integration/run_epd_correctness_test.sh
+
+# Use specific ports
+ENDPOINT_PORT=10001 bash ./tests/v1/ec_connector/integration/run_epd_correctness_test.sh
+
+# Use specific model
+MODEL="Qwen/Qwen2.5-VL-3B-Instruct" bash ./tests/v1/ec_connector/integration/run_epd_correctness_test.sh
+
+# Use specific storage path
+EC_SHARED_STORAGE_PATH="/tmp/my_ec_cache" bash ./tests/v1/ec_connector/integration/run_epd_correctness_test.sh
+```
+
+## How It Works
+
+### Step 1: Baseline
+
+1. Start single vLLM instance on GPU
+2. Run test prompts (multimodal or text-only)
+3. Save outputs to `.vllm_epd_baseline.txt`
+4. Shutdown instance
+
+### Step 2: EPD (1E + 1PD)
+
+1. Clear encoder cache storage
+2. Start instances and proxy
+3. Run same test prompts
+4. Assert outputs match baseline exactly
+5. Shutdown instances
+
+### Step 3: EPD (1E + 1P + 1D)
+
+1. Clear encoder cache storage
+2. Start instances and proxy
+3. Run same test prompts
+4. Assert outputs match baseline exactly
+5. Shutdown instances
+
+## Test Scenarios
+
+### Multimodal Prompts (--use_mm_prompts)
+
+Tests encoder cache transfer:
+
+- Single image query
+- Multiple images in one request
+- Mixed image and text
+- Image with detailed questions
+
+### Text-Only Prompts (default)
+
+Quick sanity check:
+
+- Simple text queries
+- Text-only explanations
+- Verifies proxy routing works
+
+## Expected Behavior
+
+### ✅ Test Passes When
+
+- All disagg outputs match baseline outputs exactly
+- No errors during instance startup
+- Encoder cache is properly saved and loaded
+- Proxy correctly routes requests
+
+### ❌ Test Fails When
+
+- Outputs differ between baseline and disagg
+- Server startup fails
+- Encoder cache not found (should fallback to local execution)
+- Proxy routing errors
+
+## Notes
+
+- The test uses deterministic generation (`temperature=0.0`, `seed=42`)
+- Encoder cache should enable exact output reproduction
+- Test cleans up all instances and cache files after completion
+- Safe to run multiple times (idempotent)
+- We setup the PD disagg part with NixlConnector. Please read details about EPD in `examples/online_serving/disaggregated_encoder/README.md`
+
+## Requirements
+
+- Multiple GPUs (3 for 1E+1P+1D, 2 for 1E+1PD, 1 for baseline)
+    - 1E+1P+1D is runnable with 2 GPU by assign E and P on the same GPU now.
+- Multimodal model (e.g., Qwen2.5-VL-3B-Instruct)
+- Internet access (for accessing vllm test images)
+
+## Debugging
+
+### Check Logs
+
+Logs and baseline output are saved in `/tmp/` by default.
+Can be customized by changing the environment variables.
+
+### Check Encoder Cache
+
+```bash
+# Verify cache files are created
+ls -la $EC_SHARED_STORAGE_PATH/
+
+# Should see directories with mm_hash names
+# Each containing encoder_cache.safetensors
+```
+
+### Manual Testing
+
+Run individual components:
+
+```bash
+# Baseline only
+python test_epd_correctness.py \
+    --service_url http://localhost:8000 \
+    --model_name Qwen/Qwen2.5-VL-3B-Instruct \
+    --mode baseline \
+    --baseline_file test_output.txt \
+    --use_mm_prompts
+
+# Disagg only (requires baseline output file!)
+python test_epd_correctness.py \
+    --service_url http://localhost:8000 \
+    --model_name Qwen/Qwen2.5-VL-3B-Instruct \
+    --mode disagg \
+    --baseline_file test_output.txt \
+    --use_mm_prompts
+```
diff --git a/tests/v1/ec_connector/integration/hato.jpg b/tests/v1/ec_connector/integration/hato.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..9c7e390e7d7f68824cfa198d8ceb57f9174a1137
GIT binary patch
literal 841034
zcmb4qWl&q+7j19}?hu^d?ogz-OL2E8l;BnhrML!3NT9`vI}}p9KPZG^p}1Rdmr~kd
zh4%6P@aBDf>&~1nXU<-G?#$Wep0(HgxAbolK%u9ls|CQq0syccAHcs=fI0vV2NxF?
z2k&vf!^6WTAR#1p1UV2$L_$eUMMX(YNl8t|OixY2L`zA@z`?-8!otSJMorHN=41sk
zv$C=NF9_D-QUZJeGD1Q!RvJng*8gw(>jO{{5&}qwaj-Z6*pyf}lvw}109YRL#KU?7
z;Qs;_3mXRyA3#7z^f;|U0l>ofAFy%p{x<^1u>jaOxRe}tRO0xmCe)lRfw2TM5-=_`
z)6y1N$$qfwG@bfZ(8UjKDYH02dN;U6nRGl#<}nfo3xM-Kp8rSm$OFKAd>xOI;*<dF
z{|B5$3IG;1B@PFbIIb$S2_C0}3r*l7MJzro4BR4Fdhu@sK!Wp_2_+6C;3?pD>Jm;9
zfdD%p=a;N9RPo!5M53zDe&R10m7;Cev_3kHI$f%!U;KRp^{huw2P5g*<S{M`6BHNi
z<Ag~8R@A3w2H^yIqSFB#>)~$@q;3caYdncGm1g3*E&u^Byr*y7$wE8S!iMy`KBL7m
zM>3R?EAr<r3nb02-3_0omra7DEpisYLs7KLpz<_t9^#cJ&lP^P|HY?#Hf?t0=2zx!
z`PbwhfUn!dRjf#c>rf)kIQ~w1-q!T!0-)5PHWO~yy0nv6fF&daYX!>w;VMm#Sw{r^
zz+@|4l;%>xtIR;&32h}J!BKoWB0)TI_a6wx?jaJaneyFKq<z<#E$8jTZq@*uZEY-l
z^0eki#$Jso?EpQ?0)%u$II;D>D&{O<V~UTvm-rw?Ej{wTrj0!Z-AMX$jv6RkL84}@
z3h6~FRVPJV8&&|MJSW~<3NpIz1xtpIgOL}@Vcx83cT1a==bP1NwEhorp~jC@)Mc3w
zPB^-Xc*YhV?!cKRh7EoFz-Cd8{k!ii=gP!C|8pADlNV?RSE7gcn3_N7TW0F>02Q7z
zu)eppk^cDGw(&{F3X!b(r83DT*z;{vGbLK*?T!z;%0okhF@VVSP`5L{QH!DT>5}&w
z4XTz5m+rE8oBt@LEGyAP17HEn%?^7~)4KzU3d1i0##rRz(<=t*3qCr#W%acyY|9dv
z)Bl0ixJYujP5wK&;c~-b7kt%Kn#pOHn5&#;0TK6D;1f2p56KYr$$N7vRm-S;>R30w
zN$;bH`FW<-GZ83EfDE-Ao_`vM!F~ZS?gV5?6))YNXo3vjz5BOTPaH^^05OKMwTDZ?
zu~~HsharY987!k5Ve-2k_O=ES%&gSBvqfy|>B7HggeiZ7(3Msb#JhMfkEPKw7d$VX
zQ`-!npho}hteGJTsNb8(IP3T$!e_Ks-X_V7OTOV-EwGTAtM54IXyP?E6J20mpYkhd
zXth&hm{E!=zgxVG=G-SJ{+GyUdZRLGr0kP6x5XeK&#q0dph1LGwy=^|+iX>u3~Eus
z_|%WMG5UyA>-TgzS5QTeo@_gj8IF6jVwu;G44V&aA}O^!RsdQ?TNMcKqIXOv(tfU3
zZL1Lyq|B3^IdUUd6$T23rU=luOU8k`w30H1rZ{Z!)r_?pogNlmw}0mqRGPc&mMaAC
z9=0WW`z@qD&|213-;IOY2QU?C`P%Wn4X7;)exlB}-RnYzhezZccN&i<fXgMtC%{JU
zPvI2!Q$3%_zv>36=3Yh2A^s41Rg2J}x;|71WkW?ODn;ahOSi`|oEb>N^59PYD@&Ru
z25`zVLDg#S*xg9W4>~ih&fWnn_R8A3=9Gp0W$9|u`a0a7El{(YNpt`R)!6MzCUteq
zmNx>qpPzk9ar^K~aIjeSR^kZ<vB<G!mNzJ_UOd(P3LX@bc=`3@Kww8FZ6;2e`0bB-
zzXCSna*G*Tm#`@&W8hScR0lqeA11z{5&~fzddO{AiI0a2on2U!^11DVLS7zWPZE>`
zXC){u3MnoN{nQ2bZtHUEa*48FjM>nc+7R8z)S|g$UR0CIwTJDCvi>n8aD{G`;QLF~
zCxcUglQ4hW4E&9Cid%=))vN?OoDNvfhngBYNzFxQwP1xKk``-1)Yh@6B<j20eqm*n
zdKa#&pmu57FZNe3sttD0@E>o>_97@pcV(SwtB=N+<OZCYqsM})q_bOrSROG-7TT(Y
zUE>k#f$b-PjnM+fru3>+vogx7>yxLwY0=RnK&TOIl0W47N@r&E$8Y`Pp{MVn256nk
zkAJ>uYHSST{g^`h4`BS<#!QUi<V9H4USKyu@o4e|S=`OAW#np|8v~wFPRjst_sP>|
zCo~f{&nk*`gH9a0IFDc5rAy?e48Pfbb>wK^Q|$_Rb*7aM=hYSL0|@2T&xO)nC&kgX
zC4)xxo)9zjs7*FR7X4UuJi0S@7VC-i)1xwr$8nwgXA{&-$`(`FwV8fvUZgtxAxb1{
z^@EFtlrJ-%U~ReBrxiKNB<6r$MlVe5l%F0qf~Q{mO~q^46<*xhudOj_fu*c+X*NVA
zYTs-y&pl{@GkjB7=L-%eKFmoS=YF{&Vj>TKd02m2NR@l4J%gBMLVC!tx3g<|6dkXF
zdy(Jk-gd6s2Gy3Fyy&XMA87}L*-X?g{MPHV-!SdV#NNMr%8}~L`D5sz*kyhW(J;qN
zva(I?p<=(3^b|EaS-N0haKud5)x}M2G7CrXg5-zBGQ~%weTjHKO5EiYED2z`GDfXv
zLs05rxw`^PL%P91MVcD)&RN-cj+>Rg0rY$1+ylLSZx7CZVV?TZnn@HWbE*goBx^mA
zgwKAF65}<zN_xjxTex=N7ZZ8ShE&pFN6=(74_TP2)0X+fE{oPqx{KCDHc`3PRe0)M
zZGe%$)0qkh;2R`pq*Ggq4ftu}yfUf;Ad(O~!XO~Qywk5;j;plUeUjiYjHR4gG$D^?
zJwWJnTFQSOvqVr~E9!w8|CxBftIwafyRHw!n>j^6gf}#5M<jxZ)M0y8;oj)yM_ZQt
zWo|CAc*@_S`zV75h2JSfo08cn7D;}kIUTAQN>V!aeJ7*emXV81O>X(St+t-pofzxT
z0jBK4K|yc&aP7!5MKO+PEd4#|CyVwEuDW`TUvHG1GZ$7VRzu&_G&R)Z%@vpFI_*tx
zoAKuHH;J3aGwXts$T+ywi}$xCdUD(8O#8_W=spNl&I{VHF6g(f_n8r|3>Wl1|8#7{
zV*sy9V|45AoHVbEvmqPCCO~6lDfHB(F(rTd9t@jafUh_Be>;h-jg+*LqL`mG(;}G!
z)b*Iv9EH8z#@o=evt$wbwBcc;2=N|-K^@MZt;%K1bBdkqeHW#;PEekhDG77GfL@U%
zBm>{qA)F|VIzcRUDXP+7{VX|sT7_Z=L9|KzDU*igMBsKmN8*>|f$P&I{*akXU{i_|
zM?C4nR0NeQXXX=A&5ys$h<&>h1?dOeR*v~0c?B-b1cNS#jL-x8!w&1J|5_anF9}pc
zyuSyiZBml^j+$g+-SO_Zm0GWn9joEI+>=hQk)JqCj9o%U@%XV3u^Mf{N+qzLgSr>c
zTa4||qi4P-HErcJVaSNvId<xob-kTWF<r2n-$u#oinoTcyb0DR0cMVU3IPR3ENmOO
zC+G$KbKf*Ce~$+2SLr=!?~ihpMaDp7HNvFyZKt2sqxb>nu+<Byc0qSvkq(S0>8DzC
zp`c=Gq1><S*cVYX#j|e^k#FUQ%CL2}B(h%#o~u2(#*M5ME#Px7@OLiKCCPUu&0Yr?
zN)~*>$e2C3=hv`Pvys*!kE>>sHG5LR45%+-yXO>JSl4V}V!fuPX-J*mL?6KvsY6~%
z{yg*Q7S~^Dn#!J~Eb20Qg^O+eb;Bn+*KomTa24zA86BSun@f;MP^Mq(yJ`VHJi>M1
ziKihqv4NijWTc!JG*yH|p1p{5P1?Z{-{~$|_1z=e&IU{H`S~OCW4ZnT1SGz05Plih
z+S2<zBk^`<iMKP}r}`s>4v{hqIW9AoZ`A7bv#$&Bu^~UQ&A6&R*ZK=w#pe0nnzuFt
z7n7n|yF+-rIx(nMqR=>$f_6-ez;ZY<ZEcgY5AnnTT{6tQF?ZR1|DNw_w3=+NFAT9r
zN4bo9MfVn`Ox{qu;D>vlkWvn_bpevfJ2olYOgw=%PpgoPfp9%tU8W!~6qv8e*LceA
zA#=(_aGVH@ZGWB9BTE@7zxrF>b4Sn`!sdN|m}Ue=XvWO0@wQ}$FxvL*J~c=>$8-8J
zHS+h_D~O?Q1}xNgWeg|bD98CX)m3+5@fH#nexBX_F!uwvy7$C=SG@6Kb7Sif4(JV`
z&ZY=Pf&mDD8zu@0k?IQ5?T-+T{YPcq&K?_$;lD&jW}3F7dE-_5scznq2*)2WZLUsl
zv5~tp|4|tJha)*rQkRr3ja&5!Y5V6c`8ccikFJVb<j-|CT(iGOaA8!!$V;O0?JKRX
zv2UNI(IORI*WkbTbiHM3_80arGx{+^)m*8fZaBL9x8=McR;NV}dHAg%D^wZh93w?#
zlU={{pvpWOm;hI~(tc*xWilO&swlqVmVmO{^XPbvbpl9<kR8j;(Z^nz`7{<u;{pk%
z6@@I<I+JBl<!c44x7IF;mknNo9YOW#jr}*;M-vY-;$=2cq?J}Lu!nn)>3*8oOfmiZ
z4BkkMr3XqW?Qax89>c`1KzHv$o(+{{XT<6%wZmy>)V|_T3K~sNE9GdC240uyKEN#g
z0h;dF*8*Zw_P`D*M8>)IVGh(pY(O3HQ`MjoY-rLI5o{pR^{{3K;9*?$!F4z?{Mjh$
ztq`^dT^JUlwhpkLLn4xA_;8MyN~CS&HM^TC&b7LCNNEH9vgO%FJE$A5Oe&Q$Vrdp>
zQfHBbEo(ztGj|8!3bW*Onu}SJ<sZ$U5PoAi(6Eh?mV9Cb->z(`4MBlEAvk0e!Rpgv
z`4U}mdwL^lM%X-r6<$inLSMh>*bq`7cZx<%XVNY+Ms{5lBB-oP+cb5nQ=&+L{;^^d
zGU=7t%<L0w5|H4!asrUFW?dpS-cRC#cP&>&`HD!cE!F9VG!BL_NN3l294bn6u{&{E
zHr>PMG$dw;NM1wRbEyE4kuJNXvylCkB$vu}n18nbSn!&LbJL#MJumPKgKuDUP2U}R
zMu#fuTU9LG$G<s!#~81t6%;*U1&hW+B;KN#KNb{L*8vt4;(bKGwwnRnYu2=b6~HB7
zPtaOr+oEq*7b;kV83|3G@0BPP-QwBAR~`k9G61obJ~fcj8?G4>`~j~<>uqIfQ4**d
zrgU5zi2n?$W&XKjcUm4<XhtH{dPQUh$`~D9m#-W^1-q~MEODr{D<LMsAUaQp45bPw
z2-X$nlRErPmc=aOuF&is+zh$8f|IBCSSWo?*Y>E7b$*OD<!?B1ua#l*=1I4Af2a!_
zpNQhD^9ZvLhD^}gK-C@Co#oAEJ_T+m*I6ko%RbvbBnwAxqPHu2$fK!y8i7m+5W{ms
zQk&LoGM1QJ=N7Ri%AOhxYmr}W(ZzLNa<QJ(5Q`7-8#0~FaaC(h%INH+-gYJhgqfYU
zb(#5Q(8#y`7(&EGk?_Pgohu<O#Hb&SRi`T@7HWGV5W+!8KK!rwuh#1kTrP(3axdRr
zvkID&@+>dxzFMZ$LVnxn{ym)q>kHyCtrsK9EPps%GjBThtpUuOu6}sgkOs~t_^e;J
zIKB3lF5Xf5M{-)v6X{KKs%2+*bwpO5%3c&NRFgzibPIpUdQQ||0c0ITUm0QF;}x*h
zcyBs&v%Z;yz2So^o70l^%c`O8u)MFG?W;zvSwa4Cde`!Ay>K5WE_Efdh!!RcQjk?f
zVpy7eEH2@R_CrS7nN`&YD8jl~RmC1!%jkD&(w5kXdC974_S~H=Iq>~?C*=r6y$}bv
z(A;e@@pvf<;7xyR$|~mo4{CWgfz#D7&CxNw2)Ym}_^~dXCVZ+H=gqT3r)T&NaGAYZ
z1<3u0T(jo(SL6lSA>$GN_lOfvfE5ss{U3<~pIxc$N^-6~>xTJqCEL6^o}tRmETqoR
zh%q;LO+n76#cyiY>u2+pLsJlc|I6C?Q0l^ZO=cSj8Ef-7DJS-Ii+PJyxj%7r4Rfr9
z{oRyJ#idsa^cU%{$u}--v@SyfvW7{;uaZd{IB2Vn4g%K0ZM<q~(^WpcL0Jw$>Px2G
z`vWGYou<6j92YfB`+oQ&x`Dp>axUvFB?KIOO^Hm8KAKT?^Sr^hw`CC&-m2?b|I7{!
z5g1T^Z^U{EFUcodjoLU_me5NjY~T6mK_n6=Z&Ws9;syq6h8eCX@~ev=w0$<%i0)Wa
zpwi_~?oSb>gee^f-*s$&e5D#3-|!G!iV0WE;l?EAFw}GgWh=<>))fDCPcD3TneX7~
zIz9#*+5#6VYF|3f7Y@=3Y#Z_uiqTvxe80@sk=3n&2j5;q(Mf1i3A<sul|EI5%Wsb=
zaIz+hvg9ZyDl+q2oyOLv$0^ghgO)k^{sHy^nwg&;e<Y@-XO7+D;F9k?+1cZ`6QUb}
zztoAi<K}#rjdX8F3=0f22$Z=jx;6;?RMi63x>Vf*%7QObBmR_nfOiuP4`2+qwd%~8
z$q6Il>k0Z;oJ)6)y2X`>O(gEVnB%SS>c*a+U3UJU+Lu)tGp6#?az##%XUCS2K`Y^I
z+l`5{0?wY%KLET0{OyRWru6In0%r3xAe*gJ--m{{f;aLX0MP;71U1R+1?==$y8u7`
z5zN#~%#&jI#)P<M9m7td5Ji0U7`nHSIrs-arNXYIOT%=Ds`!k5;;DeF@e;Bg;OCA0
zfA{`2n*RfE7wi8p#0~gDIuOSx(`@@iXf2f1Ip&0m|Cn2jpErMiM3{-85yJltU0)fQ
z(be6OPynn!{npq?>;pd!*}?#x+i=B&E<PD!V6wCqIDXrYXM@qqrX|C^HKrq&*0wV4
zEEKr)3U};x(mDJNr)F|yL7yg+Uj-Qn-$|ll;v@OX%4G&DwtkV*=}nVo*Hp5h{KyZR
zs;UD{8#q$GQ9eVl%1YsybBc(}H@;3Ee8ABJ^<u&_Oh|t<-o?EXC*LOmBS}H(oF2)<
z0di>PVBxzsSOx1zvaGhBcxD9Svv(tkoc61UIAzQqkoR$ym7+J9opOJ`Nv^y4q(c_o
zFEjLMpYbdjZbe8YY6~t`f)17XNJ^`tr_6es?J(HwYFhNwySKE!l;+Ig)byeW>LU6Y
zi8>p}rTg-&!mcjC^e;aHE7tyy8Te1nm~?CrnE?E;tm)+k0}>Q>@tBKWjKS;GDrO||
zE2ZGANm31#A4|r$3b$wfh`LA#2W$~pRfvx(PxTa17}1qK%7xlVq<Cj}aRi8{5YfaK
zs(>DH)9IBN9bY7=1KkkJkAC#8Ys7+{zUGgLX++Jp=`%22?LiIMgAvzpL%r+AOq!63
zwGIC($1ov@z%Gu8m8pze-wyiE3BsD@i|lUajbI<!RV<{14P$T<ap4YGjcqmuk9K6n
zsK)FJ{R&2=S?mB2D%9wkJ)FpXx>HTHR=`m`(;yqvR9@>j9mx+unYp-r;=uh91^o|^
znU#cevS5z828P^`jw`PT2s@_x7{*B^(-4kK%%U!Vdp^HF(s6?xPnY2bn2yqU=hXN$
z(ch-f&MT?%k(EI?(q`1-jdDEq1*sqB2~J4Jt9W+?!O6=##Y|Y#Gm}$^iq;P7LodD!
z$qx`NzPCKlFE3lAp7o9NH(Oo&=O?hsoMT)DXX2n1?MQT}okX4Wp{9@9LZ&oy1L&+-
z+$`d3lcnExe;<VtnesC9_O;Q=Xm1pjROQXOd<@F))nFMB5Xc+gf-rUQe);f+ufFd6
zAC98~tZTj%Oju6lA*Hd~&S`C0`80EzYUUj4!gAH<oKeWk`XXN-j><I%p(*t>1!@yI
z<Tyd3F@MzHW-X409_mKl*rZ5nNde@wXOFEEx6F3cYEXY=#51~3_4CI#wkmr-i+Y;`
zd!fIjb@G$)JSU2&za)lMIp+%P?Jc=#ferf|S%Ru|HiD^blgsX};&g$`FCC)69%E%0
zUZcmLBK|dtq&y0ajz4v2d7b0I!5;qAI_lWhLDl_0(xZF_d1%Hb*!MX`lBge-H7>|6
zK<dzmINfBhsDQP3(P-X`Mt5$5$5r!|tWkAt<(UYBQQ1tm-lClSjcub$B20{>OU=e5
z!`vvMONLxug(HFLO-Lv~^@%m*cy@P>aXAr*j1BLiMgIFu%>Du4%|!$^L@Xq7Lr)cy
z&%ERE+t!<uMyM+?aQWr6{xR*}boDBZ7dDdXjH1~&etTA!pF0@=sV}R>?$VY>4xSTv
z%#~8^j|rOC9i@{+)h*XofYagC+YuN+HDeH@ckVZxVr~ag&n@IbC)!sGt{(2VA#e<T
zSEhg@=N&2bhJ<vM=qXLhIrxMSZF84Sdi`mbe_l1T{U{~aF9%#ITGwvrNwlZ&dtIFg
z%`o(d_@6f#gq&xsU|*iU`;ZOmR*SCm=Myl1d93HPC65^f>LeiJd_u}B-!6SKyVEY&
z$q!Ug_ao|6LzRb+)nM%gbv!696;SI#w9&u*d&<VVHxc<<CgSOKSk7##d2?GsYz)?#
zpv=+SW^~fuk@l|t?0Icor9MzROLgKw>iu<f`3LxAW>aA%w%*`%hv#u^-~5u3kiQ)2
zj3-7%WF<sXvpZVQEsL|IBw^+?dSm_d_OW0uutJIV^`=BN)h>?dCs{)Cr?#R`zCC5}
zptUHC+3;P=@mleDUqj*~m^J$45?v<sLMi{eD6_o^UuLk83pHyN@+<2hTz0}@QRi^u
zR||Y?N!U#4CrGIg^Hcn<Lc*=S2dkYqG(*-v`!M5la@sspInPj2=kh=d<V<Gy$x^!U
zlWKr}Y~q2Ehl!BL3Mia<J$!FWD4@NTd7?mZ$GV(*GWwgY4b!o_y}h~!eXVwt#j$)g
zORrFY)hslL^8omemwlg#v9*<@UEU6D{SJj|BJC$yCXpS-cP2DVK6b4_Je6T@w!&O}
z8`E_&B*nXUiFxNc*lln)c<wJtBPV^Dkd$y$s{iB=iZM3YJqLKg<2hB+MU=|{0C~Ah
z>X2_{)h-lpG6Mc`p8eyOOENVc&2$X6njD(WWWxfOOla>Hs6Z!}R37y)sSDQX&@YsO
zv+OnEn(?2F^!LmgfhJ$`rz>A?9Q64D*LMCO<+gj;iAzQcXCrMa7Fbo7%U%e$wE)r+
zZKRU4pA)xstAj~76uQvRCtq$&bt3tU6{}Kg_##jznPzwmow+Nc(CqE+-N8DY-OixS
z)2y;`iB4<@)N(;7N2JOYg#eD-9dUcrbmo-0mYGk;hMwTcQILQg$s5;vz2V26OtYac
zBwqHsyN*|4m%W%-fq$6EP3&M16Btwys$OWM$MPw4RBL87+5PX~MH<~<g3`p0`B$<D
zBFm6pf!T80j4S}otLDpG(=>XRA+v<y-vZp%%&v-EWsji;j7Iw9`Q+C$&zwsRUa5Fg
zgi^GW*z+CKLDNa<w3YreiM$VA*<I(wr=eE-+S0N|04~T>yfg!op}hQaFcq$1m3?@i
zqJl6}2<~%Krpo&ihM6r$P0ILed%=ZSKB0`#bRBVsc<*W);hhNnK*E6&CUt0}0>u0V
z^S#8x|Dtf14Ubi5AY(G5Kt#<RP&k`#3`@*ZOivV<BEPS~Ru6c`^*yR&&vTipu)iR^
zhC31h$v<#HjM0NUJRXvU<lxaX*{J<p7oCwtH%zuK_Mr5)jOX}|Qps1dw&_?`Gw{ps
zBbym&=UouuLP#XC8b2oz@kvXeA_$LAZo+hf&0?5gOYCNkMgr_C5`e>Zr{}PqZT`iH
z+kSdZo$xx_#5+<_;S$ik)uBGFv*3xw^xsv;v_g1~<MT^rSpmEVVaG%jQ|ZROi=?Q?
zPQo2VZb44Bpi>WD=n^=PLfPtx!uGOuMj<Y`Kbq=?n2`AML~nxynMDrVz`_SOW1$>c
zCYuSh{<Ck$x}b!oiC)24_%b0dxJlPQ1_xo$5~8e^tiVf@D`L32wxzfFoIl>xm!4S5
zrc~yXIUBwxOKj@Nd>tDZd|67~wWYUD)At4G*^;MB4~XK=pF|;BnxR$ZAlz$r8#(Dk
zjF<))!8vj&Hpf3EUCSIh5ZXk#zD#xF7f?jQ-G!Q#bZ<33T_cjQCH5pOzpqP^v0iqZ
z21=1xm^}%o$C+cm(fexIn&;rt#&Iu!YWoLhT#s|KQzAse9QUhW9vnmo9ul}PU?Rf!
zfH>TC(WKMqu!y-KX?crhrpiaNaXk==Rb^X)$**wQ)$D4uJG8;l?`xT?9~Gqs#|~mf
z+?`^A%kX<ZbtM!|<8YcayF^5kP_~d*U@eS^H_eXGlg@RwGVlIxiGvEl#7nRL1{tV>
z*7@$CUv1yJzt$*{N4H62)M|Jtl26&{bY-T9zmd+L-v`Q0s8!ITQqkE~1uv7@h7AX<
z>y52EWX~TgnM%oPn{Zch?HL;R`;G9AN)(nIe)lITOLS3}`AqCdvIOOe*)ov3d}}J7
zB)13naem>~AV7%v5PIF<od0HqII56lNxOZ?_$3I^5?lUska(fsS3q6)KftSDR7b^F
z5P<cWC!<ADPNJ3QN#~Z`Jh{t_g+%<P$Ne_QpridmDAP@ALLw$5`)^QY#uEOL-W0w8
z**ptlYs`H$=5?3JEZa8Vt<Zl7aJ*T8&#DA}62S~~9jE0D4+Qc=IkcQr`UE_&(P~GA
zMF^-Yy|ofcYoPmU9J}#m3Y%`3<bcz7Vxf4=-V{<5*Xs_njKXRGE?w#CvSUc8`ToHk
zwc6x1jt2vM=rqFMI-LeGIM3zFV2XKNH7KkAfN~c`icoW~LVt&!sD46tmj2x$<i+ub
zQTuC-*zVWz6RUKgLw^-NWmm)#@?R6rj*U#bCG3$;oFw+9=@$0#9?1A3j7LhR$^ooU
zg+VVrY&w&6T0nI%8i-TM)(4u<9Kt2TzW^h+%EGtfc$+yK>mZ?b-D=z(VLdguQcG7`
z&TY0G`W!7Xd}qNXzgblTV$VguwO3Enb!B@NgOKtW7!K~l7+3(*-5HNm(6@loKOO7_
z*2ilS4sjE8j!$4&vZVRZ^##Z-tBxyzyt1-&;J~%F9jiGK!uxw|`Kvi;X~~AB#u9zF
zL+aHn1}cdk@JH<HhpjxycQ)BxoWmUIJi(EC10Uh0>s_DVfuw1x<b~DHY$lrM@@Oo3
zZt&)oXN(@hPNdy=(MS63)XdPXKfKAAeu)g)KpFIi_lLqQL#|W?#Ts{yer`pRm|Z|2
z64*eTZ~1^AYyJn=GIx6JBtvQ#&^clHDtD*bJ4c29fe`ycA%`b3TKQ$Ev(mp`4a(=~
z|Cg%m{T#BFYNHG74h;kZyo<UhG@R98NpmAPC~)9t<~bS~fSbLpS{VHY01|8Me1dLC
zX<f5obH}$3Y0074A@S3fL?~DWT^AjeoK)v-C7gmG7#TA(DkTmryytj6$K@=O6+SOh
zJ?p3Y_c*_|M9TG0fe}3TVIJH?;-gko9O3c$+s|LRTx*v`=9*R4{Mu6mnzJi-!&tI@
zBKbS+Ltx%r8;wh1_pI?8Kx7&rot!Vvm6;lroMBqg(31A7S$ga`-Pi2nFvlfJsUP7S
z!ovJN(9+FI*0elB{{R{;?F@VRG<eG#)W$mUfm<wi;xZ_f%vK-?s6nW~+nZ?>6g`r{
zZ;K{k&`84SLx&`7Yb~ujHKHCM_-nQ@6;Q|+#rZ@-K|5<%DFgHJxhIl~pwoqJfT4)_
z<#<C{obvX9Va8jHp*514(dAjfX(0n_^cqqUZ?FMQ$0mzLNc6c0@R~oHj(!v?=5+vA
z0nIH$de36s?D5^&Kh?A6aw)BFy;7fxhH?^hUg*))6m{|edC2-*{oNPs!tfSlIj_3T
zbGn8@&4b)mnFk8VOtL9Aw+KKEP*#&Ev9s}pkB4Gv3cq=A{6>YJUsA_(?jPAKbyM{f
zHn9pX^Nr$hOpu?)XpCTtjvUg#JNzo#Eoil1_fPQGv&2IM7xdQG`fivYHxeBA&CAXu
zW)}{Qo~cU=K$$|vN`O1px8z!N)MP^E*_^R+aH5r!?G)h}tvMOw9h|7Hk)&7Ge7-wX
zc8CIrJYyiUptT5>`-~|w4>ab=wy^LSzri`K=gqfaYXz+bGb)~cv_7E?t~|UfkpC)s
zYXc7wI6UM=tdDbhwVnxj&g`exzhL215n;SWwO7vq@pi8sOs$3R;famyCpf<>Nm3i=
zS0i7VCZRZ7?c5cAtM)Dwa)-S@Y3tb%4xc8&zBA`ssg0ZKH1`?{@Q!lzrp_6_gc5=~
z3u?amkgrQj$YWp)_`}`NX?#RJpZfUE{K(8!zB;b)CRGNBGLX2D#<Jw(&lo-JhBbVS
zroQq#w6TDuh+T>)tcR_#(yT@%v|}%B0a;WMB)QO`AJc0A^rM(ltjpX1b)YscB3_ng
z_rmwe!Oag3M#Khl?_y5aCS*8A1kg4AU?S={|0Itm7$KPYa9_ey{>eprryupQTRm`8
z?QqgP;xm!XkX~R*&#g|d3$j2$9YQ(|rx5l#S{NM6S`Y2)vPp3E6QQT@4@3t}MEt4X
zl?N(_Gkzw(sF4ST+ymjFA$fEdKd9Kw_$<q}d){KPe4U=OIV}y5I}VS*Q%bYI#}hy|
z;)Z{kh=tlXK_6fF*|fd;!`z?ornd)hX6;ORtW0x{Ta?Q7M{J`jy0HLAwKu?tP=-3n
zhJt7n0sT*bN<FeBS)PAV-q5=rLvobTjtXswF`^Itr6VE%L(pw6=oZsso$I^OU4bax
zC-$vjc?_R;3|(#7VR#O;o#@&yo{BUV5)yj)Y&h4NOp{%oMK*}4-nDOXK|XnzmBag<
z3Tzw^>m1n<UL{z2T@+8z;X#uGIjvWDS^*U}bb5o30JQy$eP^%-RM0<)TSrc>nb6al
z!^%SC0Gsw>5{-lym1&}+tP=I8dUuj)f54wcu5COm7glPpGW4k8{arCV@r&5|b6Zi3
zK=<O9i<Vl(2c+TFUf6NV{lS&hP~l4*?^Qp_b~15(khJwVP0O752Kevs>}B7T9)H1`
z8M<~qN{%YH`uKdMLPi{u93&t;wO#dHLi-mFa3e_1I!{MLs9J7is-|X+Sw%*m!tyR?
zY0GiJO#T{OQ!~rfeI>Z_sAFwLkn@g0Pln~@#p+&N?5}KvAUXOil?l`oZL~<TWP0f{
z_WrtwLOb<QEpd^=`C%K_d&>FG!}&Z_b`X~&Q8$iS<RczqIf!n4J^^93I#NbcO-tY>
zq0{-;&Mw2a#y#|+ljim<f9ouV(2I;V#WQwVsZ5`O#QciJmFb|Wum&c1C$p?exh?YL
z!VkdaMm3&nODFThcK|_w4BZ(V4>K#S;+Kw2dACB0Pt#B>@tU}EtQ84YM!q=Kv?<<Q
z+!7H9zI_b#Z+3U!52?Dk5>-u5SOBeq21ogtiooQv#t3gx^yGrx<)yt9t7fLrwg-<y
zK%XBehN`T7hQQAl9ocjWtnsLdOqH=m71(N;_P_=mq_X;(yXOw$HmUqW^QtR@-McPZ
z?<5BRSRvb^gAf}#DPLzHRL#7%Y%A<fy$*LLG4XOaDSP$@`N4W{j#z#rk>8GorU`D$
zR=s!47?I2;U5nm?phCQ{OCB2mO|tiRTAPxXMXxy{8BrpsJN$F}C97XB=?pevnD-qo
zzYL|`(3igVO5Q#~-=6){TgZGyOKa$R%O~U2PG0w_4ZN1~BebYt)?QcUPb0ObMEAJA
zvPGiu`{VRZ?j%No`my1UliZbX5iC^dJde0*$6aw2TZQlBw7WDZ%ik)jj%i7BZnBM;
zoxneU_%R4;GQm(9R56|=kfR$+I!0vqH3KHG3W-kL$<PeZd-GXSY7VQRi~g?eXp2;)
zo%RgUjw_(o0r$)2Z&wQ_lM(M2j8o3%rP~o`m!<lFESVXA0Fg8i60dP|wRF1hEG<j{
z_q)OxgB8{`SW0qXR?ok{TTLJn#zsS8pS<L(AEHVB!~pOPnGkr*-DjNruD|im-?ml_
zz|d-Pi=KiH{FC`x756sQGl!S0PQHn`#Yq`4--TNQY!B1jt}@4ZZcTGxG)M1loZV%*
zh|$O&08u{+t+FHAdnXJNaYxHQU|X+cF1>VEsFu%iTbcM01-5`~%?@<Wt)NjxhKf11
zZsF_13ix0z=mT+(vp2nMkM&zQg4fwJ0UZnE2Yh<ZmF?f3Hyo7)LyTx`Z|2#-KCSZQ
zZcMsZPQ)W)klAHde&+ocEE&r=IP;sW2>F1u#*cO6nujjPCFU~M66dkzdhZv^vvJWi
zLl#s)LG_Fm8Q|w2mpH!Vq@`N!TFUlCW)3^9Z<=sp#ujkxu;fQMcD<EPYaB=Eh4+CW
z*D8)DfXvdefN><Zk{tonca>-~k)VfWjW&%{aARUdrGLe|LOt0kcXIBJUu@8>`OwQg
z1Mo&m57JlE@i#YD`>dsPSZ5DXaUxWs02CbBcIcRuiL%sHjEudcZ@IZSxa1CeE(_!9
zhs;ESen)?F5Mx5*==qN_IQDCsvoVM$A?f00TU)c+TF}#eS5{?Ed~4d@OFueQH9vk$
z&k3Vg-r-qA!>mxGC~K}2A%KC20&URV7)elOi6bXXDk?hum-TQ$w6qz%`F8;DgUD3<
zpm3z^=4|oF(mw#mCD1uLU1sdS*R|EuilC@3e#E4(vmVb@Ip@gGwQxoZzLtqSC(%u>
z-F<TKE#(*!Fw`*<RlT_+s#QLJBFM#xFifmIw<;1HQGH_P{0!22%;H*1Sg5WlIO)Tl
zXVLiEfpLY5u2_%$Yq){_B*wb-=*aK7d*RG|8jAXR>%bX&r_$}2JF+zfKvy5P=<6CC
z=nFyUHVez7ztwt3vd~J(K3Nz={mh7Nvh8?co3~c{jYjg8p}fHhBP{&3_hWsUx6@%q
zz=T!N;s6-_<i;_*UK7;+Xh)pXuUa3R=r!FeIE#m6z2@(rS2x5<(#%DbAsfuwP8ogd
zJeDe5$`S`;NYPs%{(J7h4O66Zr?c)dYYk=NUiHDc3_2r4Zv@U(0-VXX*!WSJ%)VgU
zI$g0Kfuf{k0tF=Ev}ZswJ4husQMCbYa6O0FVXbVPzL3uyDvKGQ9D)Stal@@i5d05%
z*15Df^iBtR8V8`4-MM|hM4AlV7CtTtos)Y+-y$m}Y&aM#K>Yd(K%@x2&jy%^Dnc}I
z#Yd0nmmj`)yBdza?#TK+lgD1F^MNkVbvZ7RidlqqA1NfBeWVb@6)Mc93709YJzOzN
z@4uiI93Pt2q*{G=AtMV3#PR1m6v&&KFGzB|w(5Rt7`4OkEpu55VjJ+!dh!&;KwS!q
zE4GRY4&vvYN1Dlf7NNfyQ*62%s~t-5#R`BCg3`4|fo;R_zbv!h?=>3BCkuyV!8ZEF
zg0bU+$oWv9dLh%AKw4VRgkrr`RJP@qo<Mth-|}POUdHQiaC>bfz0jpKvzWVNUs)`;
zBAHspQQ`T8{YCziVK(eo)}KR0FHfm@FZhQS4Zje<dO~l7WjoQ0%GaH!f~vMPd&DuF
zEX6xVax9W-*kD@NkG%juF?Az@oBn!SgvKD=-~=^*^gE(TO{}<onXAm}`yakBd`PF_
zvO+Y4ce4r3ax}#`w47Bf&Me@idTH4qMLNxoe}E;!2zni&eGCkQ()yWc4*Mvp{L&!7
zew|_pk`N=k;Lq?(4i2e!n@HnMzbs^uEWvUh;Hlb*Cxw^6+>~ENmo+E4W!eB@e?3G-
z!?Sz&PWoA3vq@^=B`Tfit+@exJN4C#dV6Ujy<m|!Iib{GmEOanVoyt6XP>)EBlkAD
zb6MtCRuOl@ob@;rm!oQp-+E{0*$?F_EtOShMYtz-Vg+o%B2h6=x}s;3JznR5S3utO
z8tC`5Td^~3=XLVjW34`OYl@~Y&WjkFgTxITT$@QK0C5|aTiGML^>|p#m<iUUfGZnY
z0_5r&{Bl@QQl0m_C<!CA>{DiBth<rtR7oC7)-=r#Qvi)b!8!;V9~_@EoKX5D9Xo$h
z*M1R@<)ZP`TWOkP=P)tNK9f>76s^lnd;m~0+(G+{oFUfHqb4=kx`oSz)cu3!$tz9}
zehp(B;^x#i+bh}6>&m=ZMmhpLn;qRcV{3l+mIcu<ws)|{??yiaD@8-b`Djq|)HEjE
z5I_Ei>;SmuG%e-ZOXrvJrw`A&Ch@IEvC!F%Ddk!hMtK`jjeh`&#;^}>3}RaHk=ID`
zFpM|5>(;W?0nh#-Mjy0nnli>Q89LZ!s2EhJiFV6B*`ktdv3*HrbXm?G?|*>+A!`(~
zHx+6b#x6>+570c+#g<;~v*66)dynAS{}K%R09ecN6Q2peOEU;lY?@7Zo1+WsTQp<R
z`G^%$h^4bY9j_EhRQ-h#j5**VQ$xatwnyEZo!2_FA+v1u_&vR$xvo;qk@_0;!VxJ*
z^N&z&epsilFz!}v2Omv{mmS4RI`ug-$zDi-vH8q5Ot{XX%n9}D7`>skir4~ymDA>B
zTMH;v-HSf<26vM&#^11PiGe+hANS_=>hyc=eDBb(iYxmqSi*h>!a$v0{u~?dKHBiq
z<TuU=q<+Kq7RVq&z|U&<Uyb)?9n;Q8(Vz?fWA#nZd?WW2xj<w5O^0Rc`w}-kvC?_A
zl5~NtE=7=_Ui@hr()?D|hABzgcdeY!w?pOQ!&h8;_w0{&EaJn&0&e%lW%)*mHAmV%
z{P&#m#GL%+WtuY*mX#^O;@+S#KM2biC0v;sydLV8QE++UXm}25CroPK$ROYxv^D|M
ztM{6;8g1`ZxC!Ut_u1ZF#C+I+mIp_r)6l+-*<AyB5ML-QbF-;!yu<(~gEA{%rQ4%+
z;w4qR{cnKP46>(i*ya$nEnLRs3GKUe?cWF@4p7bN>rZvpJZZEonVf%3r5E*V^@6#0
zGw+4jzi3HM2pnj~4)*s;8kdQ%XSe2iFaT_7saTrVB{)IBk@cKmvI27X41f-I)>3mW
z7XZ>?ntmC--kt$1YvU67U;tMMl60K=2Y9yrupra)T%QA6+mo5H51R}GUz=QZK2Yz_
zhfyBlY(YEAIjXvkt#7nj8nKW4G^y}^4fyVg5TplHA+RGHa3hQSELl_et#uhNy|dnv
z+*L=9nFRQx*b?h`#zt~XHA1VC`dl$V<TxEZoP=2I^bZLCK7G$J0&GeDgp&7&4^NjL
z8}Ea&F%hpb9Uf*Kq!VM+dv=06{}k`JQ73ob2Ib1*Wu3;a`5}}RZ}j?A(T-oLi82~T
zRNIDoFt9v%YYsJS%ItSSnQ}wa0C2d@h3X_fEX6%s9z%Q0n{}R&y^50{87rqW%b~S$
z<IpP7((I5^5R)=2UZ?uQ#eKkU!rqYpQN`;2V5y_Z3$AjQ*rerRItfS<i&>&c*sNYz
zt7z#UO#25YlXQ)2y2@(2uY6ij#R|cjmS#R!?cVfXdvqr(vJN1*+^)Xeuv+3w#d%6X
zi}%Pa?3^JR=kMh+I_NQtwNYV;UBdYaxJ^xgpRvs6jCMjCOvnP8RYn%#5d<6()a%kS
zAREE4AbfK_Svdnrl7s>W+0a|TB9C!;c_2>9xEJrQveM^h9WG_sL`5quB0FMr=hQDt
z(kzBp-d#9{YPk#pwuJo}TElWn*sxDbNzIBNX*NS5(k@2hs(62ZgY~S6u?M^*8}s6M
z_mbr^vm~s*Yva^{mpfZ}@^szqCK@MX{Q-0rxl5+vZyAO|3s^MLhOP%=^_Z~C2>WG;
z!j=MpkRxTW)Yb~c=3hN-=~2NpLBbwVCRcyBgZLSMAaOJ&kKGWJ##s1yijNxf-85k#
z=>3iHs-KR%*vqqo&A?HVrEQX3_c?YTmp@U(S_$>%KSX4{3DwMC@G3Jxb!rjl0W{TY
z&;u7gOwBXWW4VB}3F$721|LefY<(jU33jpqHGA*fVZFmJcQdE6)evfe=#kFhk8}?U
zUSg3<JK@})=ViWa2T;d?B6KDWi?SnhUdngxO!A9}BB6nw{ir|>adrp2^q>Gsz?5W2
zeCE@Tlh}U%qRiK*X4YieTVmN!=OA))lFbN6^&#7WRzY)=<4HW1Vk-N)eLxT%($~Rq
zb?x2;$Ijj^>K`Cf*T(*55vC<|Fh@9-c793ukAMK?wBSDufoj;7J#}MUZuKUA_iJs%
zir{Lh0x7Drva;YcV7|i};#vLaCE+l5Yl!VjuLnA`)-=zuUDY&%^e+Y7jny1f*!L<X
zC61DTo{q>J8S}S9v7$Na_d4ixNmh1Jev{gxQd+4lt@5DIlqiAI-!seYV!{KrVHVOM
z*wW4eIq`!EZ~Kf$KKs`N)zNX;t}^c__yqppO>(_LImGV)1)1H1$RX9_g_SFj;l^&p
zku*Y~lz^R;!lCqU7_E*`{{D`Zw#F@>Kp7W4nM9$MJeGXPKfo?G7gztDC@S?CTG4J0
zW7yFiQ2o(&c$!P!*9TV!ETc?C8SJvG-{~h9-x#D&hMSVE%U<{%7z4=pQ=QY9&a*0K
zEhVv&{pqmKZujq44ECa8W4ZM=fDY-SosBn}ilsUcnpD^{c!|Ku5^QuA8ZpjP^JZo}
zTJAz^xxVZ`uj6{-?D0MY^J2Y6WQz0*U)wNj3Pn@vV&9<EjAadbh5WDVmOyv%6K5_7
zXg}X&e$2MQl>rx*e9tEy=D%zF<O~L31pfdLTBD;By$@6H4W$NXb~<x5g)#dBH7Ciw
zLZ7MMa3bl?%u(i@Ofw5uo_peMFuYS?3?UmhWZFvgMsFO8z4Lwa?M13j76G5m+wTZ7
zYZWX(&CT9~;3gretk}>m(MJrVSs48%RIDPo!=D8kAmZ+yH9mNhg_$xx<YD;~HXYy)
zGBU5)$vQwb9&J9|`fkv&uYqUFvM)j}L<%~i%3xVN^fr>O9FByxnbm@$X*`yV+~S6K
zU0*&+2G%m|mbL0an$Giyw>5LcE((dEG@FqPSoYM+)T1|siVf~+n+5KdIrp5&pf>Kf
zAaet;HmO7o9hL4O#`aN2an5Fg+gq9jMgwNv4h#tivXEcJL=s-%qGB1GPZ63RT{SWc
z!gI1c1$jjL4STsWw8{$fz%RSBH{)9&!tlHb*V%C{gOH~ueVCAZiMsqR3)aZ;BVR9_
z!Oey7w6s34vh$g?P+kjK8J{4wbNyBE)15$f`xhx=T&eGC$|3?ek8NM@Vg(6(*mXDb
z!^7a0l{A9@^kGj2-G0n3(X7QfP&kivshLZ!Hj5R$D7+Q+;2ukYz>R^kl1Q9(UfXlM
z{qz9peS~yf9jZ?Cby<JVEjg~+T?WX#4Pd`YsO$2Z0EzR0)!{i+Lrq_3(|=wrh<(OU
zu&KqgT)bz)dATtck%HbYZ;mW~*P2j0OHfgL&vveqy5ZZm>s*HEdPSAH0TzW*;(0QE
zF{I;e8Tq8siL$NFeM(-IM#u)BP?f8MUFt-Rr}%tz4t)Oi)y1+aYSl-%!N+lY6P9mG
z=68_`J{j4_83oxubc5u_KrGe4UQC_pw5|}`FHqjH)qd%+j=zEq&w5s8Dk#lds6g~E
zg_KTX(tKno7+srGCbltGT346S`UgE>T;TzDS3gjw0<Lsp<MG8bRl_A7mN~3t9-X?K
zcKgq!?6FInv(|zv5|si{la68Yq)%%x^mDHLQc+O&E6JfekKH!(b88T<ndu<c^^?Kp
zTcT?$pIB+zgr7No%(U|3|FldrbSKQFj$@aUs9!hC?0n{B>DoBy8)K2516=Xzc~Af4
zR%Z0lL?S<7AQ&laFur|dng7NAQ~Tw|{amZ@aBQ^?IooPL71JIRI_{~-<|XZef|A@I
z((@fd=9hXi_GKvE&PsYIQ<#)u*VUG_nb~*e(1zL#nc;Pv(0FP>AJN|q)<OMmBrY^o
z1{E~?J|`aBAq;$7<g8vTe6(QaVviECEVtu1kSjpUz{f<VnF2+&^7&R>ZG{St+z>$<
z>n?SIb>ASvl)to&$Z8|cZ^@MwP5b72QDl6dYf3Wha$6ltj-N;-juD);<p*;u;fw@!
zAi3SRLfozSgf0_m8HHJ`?5Z)Ws=<vRXHSwLxdFE8mib}_&Mp?%BkL~C^yO?E6H;l~
zEJ@F1r89bx(Jis>=q%>i4CFow92h%CuKagjr@Q)u##9xN?SyL1eDC9@*-%-L*!Wz|
zxE9vvH>KKaPo0aYAa;jDy+?&egGYozKo66bDHVwm%2UV>&7r9Md^Kx1P5dXO00CkF
zekW(_-dU;38CmS0cD#&<igErYjFm^qrTD{FRv9w|%yub+E96@EP?B)dd2{iz6+(w^
z+Be72^r)9>1<P;en7BH<ET|1O4KG?Prc#-8#^+gUwKm6MA)=yesr(ARLc72zQtMg*
zFWN_CY{{(Jqgj3%8|woJ_IEO_T6~(VCfZu$6N;{tVopE2;>@0VA+B|PAh>ZKp7WH+
zp5v38VqswZ?qrkK?^pCgxRNOSAFbtX$jdA@h$8asVFstbE4~pwNZVI0uVyDFP<`I>
z{C03)((Z0GO^1%eTlX4^u{<H_yfFKmTTAi1&lym*BX#VPJ-?4xe@n8EzeRVX66eYk
zobi70T1kd#uLtjU&`G@_xmR|^>h)ibv@+HkQkl5~IO<P52|?l8N=AOLE}O0+mFu~2
zQv6Sp(}uZBbd0vj*8D`u{B)q>Q=iScv300jx_Ufllka!Y6TL9`Nw84IetD+px6Qie
z#r8hXrNXX|xKIw3)Q1IGyWl4ObYX+vLXiQM{??=~!T$gr!;HaUjM`eR-eH~TfW&-H
zx`R%$1<mu&8w*<8@9eaPXtETZY^A8Yo@5VWFl)s-ff>uFjV&M_U`?d(P0iUQ&ur^w
zQ`JOYlWG&Qk2f>JjI8z_Jy9?FNnzuEN(5dw9#CD&A3U}}9MyMpi3aJOR2nKcwe$Mn
zbP?yj%2*=kc3V3lJvBG-50wUmVJwK5CEs`ZoVEVAHj)2hA5{VVO#k>FfL0mfWahJ=
zWagO0@`{Zd<c!G~qi-@=k<Hmule(X!p(~TUOu%+QF?Oj2uc-}+E^&Dc!_L)?&ZSj`
z89CZPAH7x&oVqT!c-C7%OPN~yb8xA(_yj+A-*YVV(DAiRIgNPNOw2}HO|3)EwMPs$
zm#$v6m3DPVbOuQ&s@H32N;F&!(D=K^xKe7#esKX6(f1%mx_o!>-+3DHQvEw}p(Dp#
zrfh`&t!kwI5>8OJggZP@Ky652ncmb#bneBPbH=oW9Q~-pvpcjFj06A1q}Kpm9;)Mw
z>k$FZnzn<ic+t{gjk`pq*yTTgkHj+D$qJ6NKG?n-3nRI`Xj-m0rfT(nx9W@D8r^a)
z{7_+H#1EN2$sfScf333PH|W-8=me&`Qa_gVi1%4{TdO0k%k3HlH~sgLE5np$J$bw)
zIX;Hg!$IAihAi++pFyOpgyH-Su{dr*m`O5)d0`=Tw)RCshWp%QHo<#@84uoPfzLk4
zMB{;2;F5PW^52P-mb+Qt_O-Tl!G+*0RRd%Kykd=jTZ2p-`Gtm$<oz6-LF7GO`l%3X
z;<KXAJR{j}y=?tV8d63KLaN$U46f(9Ta!MDf=youP@nxNEBBON$9RV(W1?pQJ%$LF
z8!KGd>^l;wYQIru$bV1RH(k5Z+6JlYhd;W5-)3S9nF0`IKsH%*_#J79sI6LLR>BPH
z>9TbSgS@@<(Eg%b{x6`QfnU#e_u_&iA}t-wn`V>Ps47zz6q`X|n5jAzFYz<#l@n(6
z{eDPD$Q3=md*=8ZH&q~_pegv5F2ur}N<-J=&Qg|dp|$whw4Ew~D96nKOJhbTC_T-v
zod0hMQ6?!1s%=T$THTZP5YZVfi=h~?Lky3c{~rLuKs>)vxY%eg%WPdW(zuKS7pOv-
z7dgj*0uD4~M9pj5c_^BA9!Kdp?w?53k}vgE)Z#EK0@0=<rd7Tf02TyU2{RlGjn(wc
z1Z08XS4$S-U<vt7;)GHw+6i|yPC0H-tfMx*+@&;!izKEpWn0=^!fR>G@~wX-=bs79
zqXeE)R*lH5Y(c!IoMZeeW>8}GO`3t$Hf|EQHU%V8J;ach9iO5it}jfGMo^BrTA{2i
z85%h%S5&kM1zyna{3)YmbHZzA#LXs0T=0*jfLI>rNP}CElvHy#40lT82`0iMU}H)6
zRr5%0ZNef)xxi%yH`Pfd*kho*J>)za^0j(lE@1jBZ3(=CAgzXwY{vWrWT@@&(`=Hu
z4eTo?s?&zN+%1)4&1(rh7DHH=ImX<kPiJJ6qK-nwl$+R*;Fn*rW1D3}bGVN(Fk;E2
z?Z1@5J`+oFh?G3Jm*p#V91AErrHlUngw!MKBsGb^uqel1Qak?uvX;t5HW?Ge!k7`o
zt#lkF)+ng>`jpXPPBcvuF5!iBN9|>Zu(GSBZ@3=n$*<ZKY~~}>pJupsS&HUvc~{la
zTv=39Ht$EYVmcVk;H{xy0{zhXY#WHWxfI|xj@e2Z`UQqpHP$4f;-3B0T~D$076Y<c
zX{<oH9T{x5knU~ps_Op$NydC5*z32H6<`~0%FHE0&+$=^@stdN362r4oD3|5B|o~6
zg5fY(5f~Olm=dMF-fpX&-+$d(Ra<TqRG+MbPy%4!Uxgw4Bz92K=jf+!$D1N#49v(C
z#V7%)p||yH0=T1Zw13J*f{v*GF#iCBQ8*iw)ll|0{BWse8=Y%m80gH2fCrEGMn`Y5
z3806M7e%y<yez;hpQS}h{^ut5Qa#?%nMOZ}bOOt`04)|#)q&}fN|u-np+{Ifhr*&3
z%2}*m-8F<~DboYJBSI#z%;2M_xEZnp4B;C?kz|q@C64O^1$(c`Gq4CM>nW50x!@^j
zNfHYv3AON_PUF01D^ZrsKAwGmDd#vSS_fPUe#nWA=AwmV2BVogpk3u3UN0d926CMW
z#x~^GD@`(&)F9g5WF;&nM}?`;X$d3Sglf%n5kW(NabT_ErxA`36tw#oE-#PSHnHuD
z9o&J08lzo-)=b!#e1(zMwLPK3az9<v0|5Z67O`CE9zZusVW3?~snbYuP&c{daU`6j
zXzyfbCk&z?jNapg8zZ^l8w6(_61EhHA!!y<-N0KaT6pdS!jQ%|wbGOWv!37pD&I<>
zE_UKRsVFH6-UYC<`fU}OJ*x=V{XUR}j4MGHYivq%Y-DW~1LZbJ8s7I)eVAjLYuJ?&
zj!lB+%YrTxFOuI<ib1iiJ5DWxJdQW8IORz9a#I<wyWVUQp;-f(OOu+zer`J>T4@+A
zTu<3X`l?}uK<9nz5Mc&zJ%&=TuDz|4?fad$Gy&mD7$>(2dN7f~c~UgBp*6&TYvD4)
z=IEG|$&3WYImF>}YzIGO&bI?7n1S~fx`FNhSY)ClIJJ=O0{j%hjL#Vhv23T`{?y)W
z{gyC=*uAV$2NFtf4L1k3l<mv_;V8ng>BBwE!eEiTf>9tm3$4+;5BVd6*IeaysM4BW
zf6@s0CI@0}02JNrZ)>ORaqVKDmBF{%wVH%<#?}JgRTHIg{$LbSIPxrlmD3&_Z=hH-
zf+c=QB$M)hsGc^CaH5}a{ckq#fSv6ZvA@+O!l>$sjGG}}D~Pgd-}Fs4D5NpOrd>D!
zm9Y|dx?yZ<M(hBHh9hxtg!rMgiZ+%IO^Cu)%(itkIdS0GTER>j(d{X;;fx>@Yaf6>
zKMHU99V4KH&L9S(poq7I{qBZj&)_g4>6s(4>#UPuNS>Mpo@^D2F>N0z3U;_S0<2>m
z&`N8fu|hS5*5Ns<y{&tvhK%JsqbC6iEf|e!4f|P0*4vckw0AZM?d2<FqXB`P)5C7=
z6T@%7vXQZpIJe51kwp?X<H%F7o<deL<0@9O30oaRMl$>!6s>K6NYQlXeQZ*dNa1gx
zNNhpuyB>b&mjfsaE^UC4_(~itV33^fvNelqi!R%7doC9?zwEgF$bf5r@`kAwz(pGY
zl7*@w*8@DFg^?KDw-`+zlgU!X;kU^0k<M?0RB_L-BaOz~qS+mpaxjLDOS`Z{x%Xwb
zx>i0lvNAo^OJQ{0Z{06&rgq1nK+V?%jQA;Y%Hih8tOIP{2?@eiTQ^ZiS^>#FMU34Y
zB#ay!`9ai9+}z<dre-j9RMqw2mjLjo6msOrK~*)4ZU-ImsdWuR+}QE*fUVRVORR9J
zrj}V>X58gdNa4wn!fNXt@_pQ(ODCu{X+J8$gG-WU?r<e(bnPXPG!q#?$b)8cOwlB9
z4t>heQE4HBT01MMSQ#G?0#To#xQfU*F?%cGqY;2eu?f;jV;<ZmR8-Btj079oQuB9h
zzjc&s$c}mBaX#l1Hs>Bok%kur-OjhdfUsQJ<xwG&TOn%+b<NQXipJ?!(c>Oe>~1(&
zve3pgjrQ3}8-5ao9tkQ&vm?dS+d5+bfutWlRH41ilgmx<bhhna64^x>7#oD<w<h*Z
zx6V?G8<nhXB5efVoF@T`6t=!c?2sM3ukx~Cp~LNeD~*qImln7Q8^@2YbOMm49#c*2
zZ<L_-vARcG1A>536K)N&l!T5gl(qo(Nq+W30$;*uKiNCFX}5KkW)PEWF1b0n?~5fL
zTq46mLAd!&__<w+9uf<ae&~Q->{nm1@2E+VJovIx9mq)Rdx=Uo&t%@j5SYVm<kDSY
zr2t<SO>h9-#HF(|K<n|sOZF;9Hpl)F7J-tON+Z3Eht($UH&1gxAvCoSc1B4}amCN}
zQjk1a$*vg9(Lyj;3%7iDLdlcm8z|e6n;|6U^rl1}go&3nDdr$=etr^0=Ub0}p7)S0
z5xtO?V|^=el_MC@_fYP3Z_0ZKwTjHi1;o+G{>p4x_8|=yAaJJ3e3Y!b5Z76AMmgnm
zhv`ZObdHXwi;<M8yRN{>UdjkXitE@UId61^#8~8nXu|hgO^=_HgC^^_<e}IsM-p(m
zX!2J&)+A@LO!)|;%#XcxwRYC|Rln*iC-npON-NuLLYE_xi!3$|DF6eys+&^UqZ)(U
zadoUbOSaheQnX=IQ`9({l8=UBP!*t{3R@J`y5j0kZjA~w1LZDLyQS`lhFq1-xGGF0
zIlvCf84);?!*wH^J`+QM<zz71n<U+gsR?b9UA1d68NGJo?X4;7U|7U^mu^xP1Hw;C
zd0NbKU7l0HO>AmG8o;s4K2(h<jb)R7@Ph%*%7DSV<q&>SI#w`buQ$oZid)Fd$*zcn
zGXUWQT^m|36!ltz7%`LZt0k(EcUU(cE6egcoDq)<XrwuI!6n=u?FvXIc;!yW3$o<b
z#>O5(^D*L_XUgcU*&&pcple(MNhpU%#<!4FF0EPsEg4<@Mp(xcwlZ4*tF3HO8w=TV
zHS$P67*z8KW{{g3T^UBg%$4yObIy4l^jnHZw_{xVxZOil0NQYvYg-$0WdxOmQ|;k;
zSRN-DvQljV%NT3$h^DG+cqK<K>A5*oHIlinHaJn9MUG#f7wy@hlD(z21S<Nvko$#3
z>EFpIKQ!RF@nz@yz~Nm4)B^Kn_fSPixz};RMowH&P`I45a=i>M9q5ik$yo$Zu-?kA
zRC_=npj}!yk8oAhl;na)`>W@55>SmZCtk@Vc^5Xi4mx{3z18h>O<^axsH&Zj-+;Wf
z(a}~tt_&U&Z>-zjg<U;coNOF}mP5%oK|!`rBH~R=z}P;?jIDFc%hf27{jR5qP&=mh
zXkzu6iDPh@{aRvd({Bow)@AK`pM-S`4v>stX!z;9i79a`De7uvH{3$ArQSd%B}GY2
z$l3`35ZPOOpo=bu<4;i`&Ao*JK)ESns4aIHO^7-F05?RonY(V~+Ybe;wg-_h@z<6P
zY=W!R1KeA?l-j1Xpo`&GG9c-1aJnIzBtKZPa*8FHf_#y638QGSwpD~pU;uYULrT|+
zoDS$_&g81eEfht*n6OaGF>fVaS3wL-K2~Q@edO5~?!4yJmyB$2pL3M0fXd&~gv~0B
zNu(ET?zME9JnoLchl?(Zel|>-iYpk=fYzY&<2{PS)xhaywZIo%wbYsu#6`|&^1QcM
zb7-m@*M6XIyD;FEH%!w7l9DLdkOC4JOC;J4d|3mkYVRX!LJv!;FO)gv>(Gt~akg`0
zYtgvVq<L+N{-7eNDjL9dzW7=AYud=}+*wrW`on-N4&`%yj^`>w;}?4^HGM`VgYE@n
z>vcCd)?x42K_s%&yxiO;GJ)lwhUI!VutO5rPH)g=nOyMy0C8H~H&tU=+}!*u3)v(t
zxK^4WmRSRL6rM+q8LJ){8tn8~H8~`=rl;Q{^5RYxbk>mhV{5jXpM|GxhFc%#&(VDD
zcNj{M*B06{l<oIetL-6>+-@ovblDp7X5=T+(@h(JEh<kOvM<y&li9A*{{Sr34lanE
zsx~*<WtnW!#M=^Zps1~p!*1fZW#P?BY^OMvRa&@Xu;kipR7mW}g0q4*NbB7b6*;y^
z!m5mM0ZQ4UlU9L^<PxbhO-<9Ct-X{cBBZ9IFL=e(;gWI$m>d+Yl<p&wb*t!#Xql<U
zcLtC_&vYDg+Z%g-We=$MWe<(Tt{uX@9M29_IWCCKJfhL{CrQiy07n=nvd{u8%K5vd
zzYsc$Pita@vD7!Pa9e#huX>)PfV)qoU_Jp~W#j%+7G?UU{{Z3UJTk}G>sJ6}L~0`r
z*bU0_sI}dHP;g`AYz;h!+n?QQx_*_+jjoZ-d-)~C<#%J8r@Ev~y3u+#T)1$#RAZ7m
z^q-<fJTzUz1yQT(l+<h??$3lAlI+GS@p>r#0McILZPs5l>hzzOt_P8PuW$TE)=r}X
z*vsv*@r^=BVXNH04tOh{Cy@wlLE_q^dOzW=oWl!Cqs}tDJ&{8UHy{fI<oyq=)V3zZ
zB4c<9eH7DA72hGT316KFDuK-$ZFXmR?yQ*I6cK`auPdpFVKF7d8?Rf}VTaQ<Ah}|z
zs2b@UK;?Yzoti3FCUip+lhKuYj%#hWlB??-Bbq=9RP842B!ndN3>UcpaO2FL?C5y3
zdET$<G;J2+!lIB!54$&Bi(jTPR~rlcl@)G~=G^W6%fAno4x1s9$7`fzfF{?%W8x05
z4J4~ssT{{2ZNA7^ni+6U3)06fT^!ESD(WeKy~3-ihy!tZtD1=$VmVcnZUtEdY_Be4
zf2r8`Ley0^X$)uXrKtmQ3R_)P*xrb)=Q{UC&_>4*xY(fqXyjc^*+3TIRv>E2`gc)N
zMY>s74}q0cs_KwAg_Q9h{-RJ5Pka)DlH~B6&QC#6qz^NTi6rFZ4}62!680uBgK|LF
zRR*I|NZ?o+>vnKfkLrD1NVYO&z}_twu~kt(T-&aaFu-%dZ$MN&qONJ(zM^Ny?=E%J
z5md_&{u}L;6SH;902C6Svc<Zdp({fTOT&CO3P{6^-1l6bZcuT%XydYbW;U?8+6A(C
z-oOu)Uim+W4X}u8GE2Zn>PIvaYoMX*Hi_sep@@R!msuSBUFExCX2II(khI3@c1~;T
zGE&Oe5JgOnke5BglsOkUN?+Ke+&H#;p%I3bn|vtT!g7cX^OVOtV%bk%WK3nb3RW?o
zd0fCxWK0kqY_kCfi*T?CIcb~$JS%3zS}q!yP{X&}KuODsHIy>2wEYq^=GR8d!F*V#
z40f@yqLLg|NC!QWobpY@fKglp#l)4G14FkP-7fq0QCyr|KGz6QhcZu<J0vHBKHT2f
zPXvL5v|?ABWT?-$+xxDy@}*-(7Q)S#SlTh+O?H5hj7nqgbd3tgfd$G~hEqcbaocpD
z7W2x;Vc=h|AvMg#dF3?BM{6kLn36#&GYaF`LnG`8X?bzSDTG+qlsK4ayNY`o^!uh0
zY$pd}k!0ba(qi^dmt}Oa4CO%SI}(ggXeEvpQpJ*jWS2%jTyO#|AZR)UH~#=Ao3smL
zp`i!8)Q@{wIYOudXLuYS<Z&j-X&f9<M;LRm652OJF~;W`sT~QnRfG}70$C#mfpm^i
zV6v~$_i@T92<?lhJpu_*GB-CCxlDm%i~)n>Cz_`>g&7V5B}DDVj3up_tej5y4oSz#
zI+gJN0Uxrir(tozv!$di7gSe3XrI@F3;=wnWSTz6meCHv<s<a-{Us$#T_6)PUHU=2
z)UX?VtSKE!>Gn{}cJh_VgH{^a%6M7su_$_-M9k9I;}-fV=ex;C>kup~kILSS#Dc0P
zxy8@HLAj#-QN->yCkupazyj&CFcVr&Wiul^?u~|)`L`-(((P{wQfyZx&<ij}!jZ24
zSlBL-J0JK_7K`{wzp>EwJacp`vNq==r%23Tp`>lkD$xjboBGGqYxL4X1&(a8T4ZN?
zaJBkq_6vALot`t;nu#VNvRaqwaPGCbhx=p|k<`!e4Z9%|x?L6T@nsnV;Yf11P=iEd
zVKL28-;~qG%EGij;8!=0N^`Sy&F6&nNv)DL++Qn?=}O=3k=@c1heVLu!Zs1P2MEfu
zqiyYE@e?3TI|u-fq>?}aal2T1ASIJN6?-|DlDm0By@b4dRP8wWr!~ItkD+KgNq}37
zt4Bv@)OuiOV8BOI7W!#IW%V35;RzG$;m_S2svmIxcU7#vs5`9Dk#kQa*b^$h+BxpJ
zkb67jbwIN`Ac18xpYEdIy@C>N_fM2u2Lpu2-4l!+RLpU={{Siw>kO$`Yh9&g0xFYn
z%B*+lR&^kF!mf~e{t-YYrQ*tC!SnE<fO|!PnBK^m$XE}mu4xDG!lnoKx4O2aKEazM
zY}74Z`+wb2OS^GbRae>bWl<qJjgdhh0Pg0<h74Uq+iwV#fwz<_1ajWVl!ns%)RK>?
zj*K5x%MAK2se#*n**36y3Vk=}wo@wyu-#CZOEZ1u<u!pmQSLp;YQt8=;>O6jE8EAE
zAPD*v<Rp+#Ry!c8xGKij;Q?GRbfL1b+}pZ+J<Na~DX$q)(c(dSUg$jzsL<){A)ygC
zJ8^{-3&z1<rKor<HtdQ6C^Zvjlq^8K)>Bs<(-4Z%X<YXMY$igzmU=A^aR+Wz!%d}Z
zY`v_2(WwJk4Xm#jwl-Mc**_sTk<>Y?9fg)}T&@fb7f0(gqBgrZ_$$x)i&MF94kb=<
z8Zn>^cTg{Lta<ra*&JN!lBB4V%JSk=UC=`u22l{jxaC5@lzlTrkZdUrju0_rGa3Ss
zjm7MhtvkG>C`}ecf;y6y)o|<+C~5bfqS0yewz0CtJ5QkvBEt&aCVC>oE@ML*ZVF?`
zN-Yj_g5)U7jZBf>DlYfAD<lTTz3t}TRKnnIWP}b$UG2BZDVS@BQ9O<mru~AA{sLnV
zoyQhS6j{n}Y=zjuk&!qYkhL1eHK1F{Qb-mF20m9FctN8KF1fPc>vEpp0O3X4;bdXp
zp8<E?$(J{`gt+eDnv6B&MCT3^q<}4QnC9*{9HV9<<d8UA))F{U#Tm7fq8D3)5rM=b
zxlMQi{366III>665H40?SQZ<_mtT%-iF;Vv`9sSifwLKO8wwOShW?a>M+}e>F_TDc
zZUT|?#EZC_r9%TrJFRW@`=Q=i>yqM#mLSeRK~%`r{{S!n6lBJ|(GD(ts5+X457HEM
z6)bK2*HzUuAflQL4XT{DoS@#~Qpob+ni@&6V5A@foGBxP$2U)oGjvNCVQ(oMgGh!t
zeB6~gBW^9qk*p-5pr<YX5SHxPL=i=IXMl``D*<4Lik#boeJw4$#cR+~uzGq&I>o@*
zSVv2CfyI>2!fpV{J&|o~?21KW04OP1+>(uBED{Fh=anN-9Ym5KZUymts|Z_x#n2Gn
zc<!xW7GNn`D5JB32iNAw;h4ZF?dOcC0PvBsp+t{quup41Klx6`DdE3#mQh4&8{J9=
z7w(m<HW*K9MaN{Vj*zYM$g*(r!d?Zili>>(a3wU_>#vjHA^RXQ5ZkaR14YG(cZ??i
zk>vr9-L36~%^o;T4d=361{MVk!0~j1;X3`26j7*Qy{~JbDt8lPVfeZdp!h{GCD9Qs
z4aI_txSVbux{$CI@^kW-V`w+ADv0BkXGBH+08l8QV$d$4hCT>tD{Y&50F~^nGByGQ
z)4O3Kamh|31czp*@0+A9u_=$4pnM?eYS_=_Op{_tX(D;$u;#$3`nuM~y6*aAR_Yq9
zukH&!U8p(a`|uAcsvl<#UnA(U)O9?#1D`62s<6HGx*BQUBdpR%@`=;*=_Wg#58XbF
zDdcP&kxe`7(62O|9Ge%m<ydKYXkY-g-({etr(;?O2sTNA(COiTa6ZW9!?bhsQf_M)
zNg)j_LtJg@Fb}FzY?YSWZ`h_!Ame}84rOTvbwfgp^1;BEpP*Z?(atx%=M?4voSXcp
zgphJ>NH_{j;E!mq`O0yktZddG3s?mcW6F{L04FP>Xuox=>4XP1CR_uMp3nuuNlMFD
zi!SYq1g)JhjU8c<GM?L7;M?Ifx3RIw`A&_FB>w=)Su{D<?cH~KDFk*LkKK0Gftwql
zVC0DT?vw{ySY1dqadxiX81KMB!(#}rNw)zvaNbEAB?mm;$}2$}Ep)xFgx$m>xwZ!d
zV6BckTl}QJ194q<aeOYeFo$7CLv6##>vshwAaIcJ$wXlY#g|_rkE&ix!TC)&;bBfB
zc}Q%NlZD;y%E-qPp2;~lPCVr&Cg`C=X~4MoOW5`+uindv#~DOpiONR{j4lrBkdu_A
zXAUpQYq;YHU29(blM9Wz6}^hsqW8*aAtvMI$qTMgLb^MFZc|-vAt^orY3CsjK7>EI
zYmc{q%5l1l#^;aSG9@AjO^~lPArmj@LcAO0G9vpP+gr8QIFK@J@VYkR949(HGKmQ-
zkpp9Jex*qtHt*daVBKSNEMNo9R%VMPh+pLMWj(#P?3oxB1P)ZVvEeDx20?86_D{*~
zk;fytR)KC3Go~WhaTYcUzIjP==PL{+&{-iqQj?3Omjm=djB&x{%ZbI3Sau7t4Zct?
zm(EG}UATBid9X>h>-(aGv+1gxTBe+n>B(-$PyJx%oo5G+s&7<l^z098EWg=#=B21q
z&hl9pXu9(}S>(#C#OApp)9L!YDQpR{xS`hDHMYDj4P|9xO~Cqst+cIXvNwPMKSkE@
z$#fXc?DxGsv9Gb*71cD2cX4&({Wq)BOj;Zb*Pv+=z0GPW*I|-gjXW;Goupw`)5(mY
zTOw;F&`>!_;t=9Q?c&Q=C|P9MfT^q5a!r)AB$k^wXLVyB2G1!Z+8!u5`lM|+cng`T
z#DDh!^L>7<sw<e}vzAtVrqrq4T4e^w6r?<qS7*D8P9y&SxDVZN)T92ee(S;+)-|Uk
z!}n7+tSYQM!}m?fK)9ad-AX(DprvM_!aq>`*N3;PssI-m`l4d%IeUZqt!y8y_Ips&
z8T~`|P8IC(7mc^9q&)7w!aj$ppCf=SHa<~OW~6%5b!|KpOmc#-dS<oi+uRnChOj&g
zt<5gL;9s%8gsyl21lg?6ZilI>a2Q@6<i9H)8a;tQu*s?b#q5KcZReF)Jw%1X+@WNv
zlwcb#jLH81$a%~5FB~*lO6CD_<p<^?Zy8l?k@6h4ltn!|-fmRi<nrcqiX*6{*h#H%
z!%)*tAs0l7M>JfhXJc60s>8?f@;*{ya*9QC^2+Q3V1kw+?{kSLirSc?CgoPmsz5Qg
zF1Yxa9;U>UpQ1t<%-Ib+NNvX85Otb}Eq2#kP*>N_*jO&Ce}#<Iv3^F2=_;Dz`mREn
zo@<U)V^4gtyCmgkXxLi8b>;b<9B@jL4?aPXKEst+Q({rFUw{x&M&}Y&6kJ9~5=PwM
zsLU=oB^T*B{3o&(oGzRx$@FPy5J3xDYviM%#e-UsI5wNOBDXP(z+R>%ph8y2%iab>
zkQI-(BIt^ltg7oJBqo}30#s7!?{{UJst$9>B%i9$R|0NHzEw2w`|!CODUO|h7?e+o
z2I{~?oRGM&fY@ZJMpQCvsq}~>CK#ShL9)2?T64GiBzzz@wTCIxm}~-u00=G_SM-y^
z3o=F3Gr<Pn*$pv}pVZ>3wg(F|Q|gR9*1z^kOH;V=vr#?4)*e;1njCF(QgP^<l1hyf
z6;Ej9>RGiJ14tJ7py6l?2b?G>UH~Y{bAHGtvQtqcugUI;h7wKqR4%Q2Z^JGTG3pgE
zTHeKcEl~de*?$`v!H_P9ZBS%p$108)+%orFHfq-J5A2gFzKJ#ws8qg35H5a*D4+%V
zoRCkr@Rjq1j&P;Ll#WD=A5RKayl)^|%G^>_QZgTC2Mfp|uGuBSmGus;1X-5Bd!7%F
zlz6hA$i3>y$Yh1>78mRngLShQD<1KT<$5Pk>u|C+lJSn@uNmtdb+XLuj<~-ecQ|~q
z{XssqQ|fMDxx%Y$Z=~!SA?j--nb#!S<qF}SE78S*qf$8Bm6oz<(w6OMC_y~4N$w>K
zETn|(H&j@o9*|s{FEpmKxNfqzbK`7$fU{KfMlpoStwvV@0V|It2~I=ClCa%Ep^lc#
zH@UG|zr*SV)K#;0mFF#$=3wU&Yp+!NFRr5#Mjq|1$13jvP@qOu&wA+{3Kqb}297)}
zEc#3$D{LRK52P!p-A>Cnzq-;-Jvoe$;Jo~wjKucNr8c@TRXR&OTr^wgn*AaW+q%IW
ztm+X$@>t+L>pfAfw79grbN>Lv;~}MTBGu@ljz4Xdc1RBVU|n6+SI02@N~W@<g6DGZ
zyq_cGo{;J^iKyXVwaPM9urt~fJT-%LgOL(eUA+GQb;$6_Ol6{54cQ<CbEp1ZIKz%g
z%9^phz@i&i^2-Mm(4#0V0@as#rlQ6$wSX$RC%&S8aqfVb?|tueE}2{@CEX-MfK%be
z8BKhzLS%HbdXGlv@yi=uw&&=*2T#)W$ClZ7MvK?_W}OGNDO~aVpeJfyih9*tZib3B
z(=g+4%a_$d@;(=fkBm0YG2_WMv(%@r)3k}VR!<ad`EbANv>G>7bo{Xb%}M}2?sb>U
zGu74B)H-^qhs`67OO4S~mo~{Cb-_RWN0B{6Q0vBDXVp=44vQh%9-~h8cx&#7W}yUv
z@wgG@>*jqnrfO#g#^Z&3A6Zt@#v5lF59(bQKlu(hFWpdIk1t2I>KcSBY25LD7g#Q%
zsS`?ETpB(~^XksB)n<K|@fbcbhGwT#RqmE&Jf9^${{U>Wx{3nBU6vg|D-30faB)4y
zWr?e#-!1-Dj&08ua;vL&jF&Gf@;T=+k$`tjHSjsMYTHuJJLAj4MY}IDhg$r+n_4ce
zX}XrAur?@K)BQx<H;bMyhwjCc9h!>pHkUY)@>YI%S?V~GgdI(FZ9%-VIFAE_Ev0$y
ze=Cd2amw$cUl;04S5Qc^ZmXWxIoEQq5fI#hqLL$<0=(~$Cr4Ks1#1~>fpuS~#TjXF
zuvQa9_VNnPYa(HPaRGMt?MhlBmeMG7!y5?<a3{c7TE<G^OO6WA)RDV6K1v3mtg*d{
z`kxvpMvogTpCdOkWOwBORqYlbT-KI`k!}?gW65y~u7p+rF(mjyNrT-I?DkPPmp8TW
zsG?KQF(Ur}M8`-ijH%rn$rk;SMKg~9Gm=KIaN=F=PajLEO*4SV;YL_R?{rkrkrTzq
z1HxliK?f*?Fz)W8EC5`Pn#}e>9`MjFWfYFT%9ZWC>^_P&H-p8JH?t60<tqT;D~4}z
z%6kohEtpe`CsTl20V#&&<fxqT(~K3O%xLu38vL9ODb?SUg{Jc|{sGF(im8At-rzo|
zh0k%xxm0p>M*je0^$!n}xMX%w@VYi0NWxb(#ZHDJF13P|Cb;CDQ(6I2ur}6N=*Jrb
z!fxv)xxqqSFMxtZ45njmbIP)b@v*le>V#A|nF&p7gxj)fbwH~v>Z+fR%LQ38<Z&g=
zDbYO0ea=sl(hcV5DE)^(j+bvYQ9fdEVi#06Io4{6X+4uDpo_Q@oF!|sZppiQr4|@O
z#H;~08>q$aWcGqht%R)tg$C+Yw&{&v9qgUBBw$3X1G!HQ0HL?oCc00Q5@S$kka@~*
zee4h|kPdR3Cj!<-iv@iaECilYWERcPg00rD`Xn<Ka#5`Ug?3NEVQy?w!M)0Bo&q!$
zG}sOl638!f+KGM;l0D8%7}&}r?vxCsNj1h479~D7+<RR;BoPTG$xdu;Cm|CRKiN*m
znjMgXnl+G9#bd?Qg*a#&Wi~bo*`W~}U|Q%YSdU`3;Xv+rQ%G&XhSxs`J%eMI2R6c$
zqyu{{hA%c!IgJ_amW36P0ohLrw+_f6ZNcuJ9Dru&TM1zsTZ{!EYXH6wY?i{{t}k&n
zx|43jQ6!SrvSpY%ByTw>vL6Z4p^-c@F|Ob%YB{%&*eWV`%bW<xxTb<aF^{UOZR`?8
zf|6QTqr2=+brp8216V{ci}|{ymNzh6?mxO6#1r2>R-B~O2$eC_HIhi{a1gI~H@(RS
zfgSQ}ppmU_e5ib76oJjpWadM=B(AvR<voG&U?z-c(mBkDqTH1&J7eAru%vAn0`4iU
z0wm2bJ1yx&J+EZiw?s#@1y(BB!EP*@EpF}<oTbsIim{&KY#|?m%9-*PV~eOH9NeHf
z(G-@qH%w$;l2p4z)4&(b6U25Gr$$4^Wu~D!SS(g<jz))Dm486%uvjK%PmG<3slL&<
zWHl#$5d5ufs0XA?u(EoH8;&lFPTY;wit<m{EzOgQnmZ)iJSQP+ZH`x1_)`Kbxy}IK
zBW6|%_M5I~?xcAa;3N)cIY3D!IB|>JC(3sA+mE_wEjY5lO`=$NR`ehnDvEnuT2sgx
z-=cIR-Gx=i8yQrS&F`|GP^z;_K~-?bWRz!w_C=!FnZ&pJqoIV732Glsk9TY<%6Ncf
z?2n;+ok$BCYbhs`+S$5m$ZiMhp^?|hDAFr+5(}<@VE3ZyoB=mM#%})rfUu>tAogF7
zlB(NJDfFOhO{u@8f4T!AmTUUID3}H~Lr;HH_(Vg1Gm9dC$%*h3(Ho3g3I^WyQ$(4q
z3WS^urz*N!I~P_{fwuWo(-FG~LQhR=3-E}>(uJoc*E}ivCZGfV0Pb8XT2Ih2s;*3e
z%GQ*71`?Q(WBfjQDv1xe%HE(_GO8v0Ns)%IUBj>lmRJNkIYhAGBQYG;+m#(3`-)kC
z*?g4^FZ-7sQ9<-*DTlE(uzM|Z>PzeyPpFK#JP)dCp;1FHvyas`$}(DWa(i7tBzsMY
z+>p&^hW0lWM$nUSlo%H_M^Ln0=t#&sT#MxeTnQIEs|JDx*#lf}bPQGz@Rkw$K)a3?
zM1A)`j*Hq0?6+k+!P{}+K|pT66@+nb$15N*m-4QXZWf0|ptD+SV5Fp?1>*r<Qd0=y
z1b<}u74|JVTN^KK$X!CYv9$ZFNV1l?X2!$WV|D#NH+9|iQj;A5bq=dw;2o8TuBdd<
z5>3?Fty`se7botkmWuYm=u)MMBJ5c*Hts6Ujy!OSVxVSII_Q{NwA;cV{?U~Q$*@ay
zJrlH>3nJ*@GCW;FM+=>7cURhNE&;YyqklnqWheo@+l6;d#<8}thLR8(Ey^jt4tynM
zOJigs>5j??909U)uICs~y5yegBo-r`d+?d@dnedml+)tLfQFJhrMU2rf{<XF<zO};
zc5P(CdlO=welU=@4nigv3Anl8I1}YCxwo+Fm97V}#w7rp**pLf8^V8pRxqw<Baoqc
z50xnv{$itc&=y8yWE`g3$vh_)d?e&p<zoy}M8j)w^hq3dH?k@y&JEKF&Vm8wkAzr_
ztsdZ;8(KMXSGBHbA=yi2qn{*Ew&VhVs;-0^G$|ye4kpI`0A(NKBXhSDHp4)Vl*#%)
zOB8P=_Erq1WPA&yE*8Uob*hbErZ)!MVF^_unA?)9<;eFq54x(Yl9{H@k)qyK0%c8H
zq~9e|R!i?H$5O1N0ERdd@Th7fYsny^{)R&&b?{I3Q8<p=raj>_J2tw>4m=E^BX0#V
z7T>lJ(8fC;*^?T^;Y!wD$|5+f0J1751+G9#W(R^Jdz5qy>;jSquV4Z?2zG&sl%Y|v
zkVJcgd=WXrj(aE4z+45!5%9zsI80hF83ZAt$qIKi!99bx8A~fh->PBKpisbkSvzmh
zJ8n|6e`FbnY1j*fF05hzXV1b0nWVTYINQbfO3T3xXt26?%2>fTvXiz#i)Tbp9^VQ^
z3}1_ODLWD~;W#)Css#|E>ZBcw(;8dAKXl@L4p3$|oZFOy`?#`KTFC|R{ua>a;%=8G
zy6a!zI@cY(=mbCsI4SKG8A;z4`zJR408oP&3OlAdIZh!l!31Nk&J%BbaFk$U_eerv
zS;vGN{{W}}igpKbf}8aZswhbhX4bakB;4N%iQ3Wax{2~Q4g#!tIVIRcPaFV<k>A5r
z@yj4~00Zcjs-gQxE;vEOu*PW<ZvgT#pq`<v!793Hz}DXO@T%*z5o4U9v6PpPkz-$}
z#~Vp$D?MMUob3enLDtsZ_bRdSx<^^JH%^jA7F^Aas?;Ws`&-In5Y*H<*5w(e>GH_%
z=Q6|SwHj8Q=GyUJ#u04ha<ZRG(H!Rj=Kla?si4uU(fX`0!akA>mIa^`aG9{O&XJ&x
zl&y*m%{8$!exvj$vxY|7Z35lNNmHmWUeCR|ASbI1IOf<{4aUY+N(^KTs-B`-8*WEb
zzj41mWCVbh5(0FC!HEOhK;+#^cZ-WIr)PU9T;Ak_bY~jS*o2qm9Ta4XZoknF5N_^3
z`=g+AZ5bowD=87Kh>V@ZbWO<Tl`OI`!p%RjYXRV8EuEO-q1MNXrtTrw3S1nd4GAo&
zM0<&E%0TG>7Ajx`u2St5;={_?4-j_;llqEqYpgGjrXx2bl!Ko6<!dzza0FakFCbt4
z0KmD|9|1bZGYz-O;04p{Ez0WxIanzTZMaH6zBwT{V<U@W<t6)`O2dsH@Q`o{U+$3K
zoU8;i3uKbGST!ln(KGoLGaP(zbkmE3px-G0$-R+AVsqIczx*eckLa=ZT<HzJNEi6!
zFoP^_^h>qY@Ddle9#?L77Qf2Ib}0p?Jf@r^aVL_vlWgT<ShghGCIR2<oCzl53%TyG
zyBbD0O>+;M{3qmgNJak1Kt@_`lDL6u45u3bkdU80M8KhhBq2E8DYo#i7~6b=$Bu23
z^MA5o<K+@^K(hD(-*h?T8=@!2-3sG#;W{A6;TXE-fA$j?MYzS1IpcTvOhNW2H#{j}
z{ahhT%^bUq%19^hZazv5%@kNiW93NueGqZWoA91x#x6-pbU=A<y@};LnZQs2Z{0`<
zzX=)97D;Y+!cO3>xCexU_`lI&mLrXhZURo+t~a%^Y??^}1ap;zVx9%~DTLg3T;fM?
zqj?)m?t((O4s)zdeyNxE35Dag?3ukfMBLAJG_uHj&bdBUf2K6I-DBl#S)`162kfUB
zGfylZvg=sBj~nKG&p&pX8(sd>RMhk>4i<=5EwtJjL%%{;bT$G#pR(T)3eO}5)6~sr
z7G~cIb)&>Kw-{A=cAD7jX5naPVhpfcnK9AZi!UXz#-28SJfcGsFj~ll70g&d&j||;
zg(cDzj0-Cbl}@7ob4tCCUnm-w?g>Gw8Z7g!prI}f7SCnpy3UmAy1??iuTrBA2Mak_
zp)yw+vy}Mp@@C1ABzWl3XWfn0_)q@;N~#<Kh3oYFGZ%JW>Je?}h-`m`7iajXqlNif
z(c;5Rst1A>I+CTG+z-)vG~F`|zfbm5x|W9wVEaJ(ApBH}ysPwikrgc96*Lo6wZhj|
zTBI$7<N$+&u)J_oegsu!Mb}Q&Rfzz*i&v*~`{i_PC3*KwhVNyXKV|6p81@V(WWbuD
z@yTevr(rG1e3bi#7gJJOXu2TS1@oVh{AMXdxfG0@l$8|k2LV;pMBr|;v*!RHWu-6d
zzAgSP6P-Z2o1&VPr*=ZRqYbd(LMb-qH%ieXO_~b!FnGV?q?AcXwizpc7O+(MkS=Mm
zumR*`5{9UW&KV1$eng<QiK{UB%ry^j+Ts-~R5LzLe&xHXrD?e!D(BO&uE1RweE8Kg
zRX;@s`g>y+AS&%b763pU)}F2~Ta`nov;b@sW#`2zu(+m2q(TWF_*z;>SR2`8XeKOu
zfm%&D#q0+8UMHIgW!eN%U6ailEqfqj4c)@Ed?n4w4q9s-7mV@bQYxBbY2a&($VGl#
zjcSSq2>Bw(wKdEFz>ED?&|u39IJUM%P;HP^mazuunp8ECzE}6M9E1GDa6ImL8)GF$
zRa6Gw7gY6iFLRF3VdWiA@CCV5^$ac~hLzg}q>NY1D~<^&zG*CZ%CV`ZlIIGtrkYK~
zEZ`6H4rV0s0-l~C;c%HtN<;2@t7>>y)?d0_DFMm!2<Gjz`yu9dH%3*Kj|#cd#?nc$
zq!o`IhL-N_l@yS>I7<5X<KoC^E8Qc!E7L(FG3_0ZRI_?zSAJl)Sd}9jEt8H?wAv>n
zWw6xtw2n{08d}L-em+p4@t@`aO%p-BLPn@X8XXXGh$UG-+cx|v@cp*<Qb$pXU;CpO
zNpxvO!=I2rC}(4Yp0Fd7$H+P5I+eYWaAV8e$0{ici2YVkK5KVQW5MLAHU*85KX57u
zt0#@7&NxQAus0_vw!Q3V<SJoq%Pk`{)Dz7m{YR5^gVsxTIFhzH{X;`dh*&*RS4$zf
z`fmo>A(gNl!?$#W<HBeGDdV#B`XD=Z!cgSPi`^r9-DZG^+Wtb~E;vjbjq<tX&E+i(
zdN_a%O19A}pGz=wZy?=Jx!L61O-mtUgOp_*3wu4+qPohpp^;d);9l#}wEbqft{`6U
z(0*6V-8rZjp3)paUaQjj#^$s+<o(x+<<3~y*@{=DZgmJ9BX>SmIF*{!A(k<A5*6EZ
zDBTzW!~3A>{{W2Z-r;zDPIWCE6lWbZSRA;Ygfzyj{E`CE8fFjGWZ5a$N3<?TPAkwU
zndqN0K2)!%n72HuC((d!WHj)#y_ZyH5hUn>85~W@u%vy>f~_qg_C(Q_HNcUAjV4Fr
zc4#PRMBTDca_OJ~cBpi!$k@;TE<P3YG*uO#2FGUo7f%Q{)K#&Qe$0hUDQu?AI4W9r
z$mMMR0QBUq8=Tzz6+Wk?K9$7V`z{=wEaSF-=Ri@|45Ar4Q4Eki>ZYPsgR~*N?{~Sy
zb36_}`BF5k)Y)%oP*m50-BZK}J=4rHNDkJYsuA&JdL3j<6Mla33tr0Jg0Y|rkh2p*
zELn3%3QBn-91~^f_|0MLgr#P}TKJmGxEw6TyR1aOcATb2>11v$P*Q1cnc>bDzwWP>
z%Ed0xNT)!QHL_GscC@WlnjY4NTlYZe^bu4404N1p#P+qe3&_oxIcU_$!6)?_1Z5~`
zzzVx|<BOuHq%A1BltCWLSm0?H8BLNFf>b}83~ovet5aYG&RkCmyE{~s6IF(QZDp6%
zqhrCjN7ZTt;{|7Rdbth5Z=5dQ8E|AW%`{Wi!oW%6DypzX(0`iTE0{F;s;85*<r40k
zl(dr5b@Ui~=s{8D%L|mP9(!EZxz08=x}~gPX)DmRT@FS9OGx=yJx+v1<Av$s$sD^x
z<p&kBH6d^*jU~s0V^d5o^W8=u486bn3hn(9Y)X24!sJ;T+IX5RVep0ZO9v?pRfj4r
zGLr>1OFS&GAXqB-qU4XNne`4N_)tkHa3c6rON!W4ph>RI5YBttQ8SjeF0ny5;Gb#2
zc<iAdakdIa<au2XF1m4H+jPn%26hT`R=!GXpoJR=PSJ^;>kJ{^cN{6U+;&J>06|bK
z42_pRD#uUL-7~{l+meEa*}}_N(oc)m0!9K4bn!{Of=}otOzB6|+t}lN0Pc;b=@}y!
zry|}$^`4T4N)*hJNe3JNrRrT*O{b@GV5Kj0uulrpc;L1O#mM>FThqTOHLYb?Yh`G9
z!mQ7zz2r1}4$C_7xRjiVIMBy)d#K3gDO}-n%iQBCi2y<|WZR+{8Fwk{fL$9l!I=36
z7*6-Ql2MJNI5r91j?uunS2PO(5nClYVj;~S6wQ}IotnsfJDaBnz7(x!?4P-<Ly@~9
z^t<r7z;;e_m&L52bBP!zt1}VC$CScN$W9=fT{)4Hz(=6j6^To*oLeY{LVJ}nBVbDB
zM&t(AU49e25<4p>+Q2Pj*+91!34TUvD;&drgyu0zC>Kl)u~kmdwm7oGl?&SEc2n-X
z?iV)K!p(#X!hTW;Vsm9;*zPX5%=Y0g$ZG**G9i#PsplRSZZ;@6Hfam8$)IP-Q@G@%
zYfk_nvm`npoD^J4Bq-sG<J)9hWHeZ+CqlMFV7^F9F^2ZaE7tbd45;KghhUkoSq|-?
zK>0~Ll_Z>6;X>hbsA0R0^AzSd-;PoieZq{pZwNFB4~Sh&w1MRVPbHmV>!UqUw~&$0
zsSJCq$xRQtlyXYaeX43WOpX{RDA><L)b4Xnv;%)A)>KtFwjR;&jG@!7VQkqPbp5Tl
z76Dg-NSmFqrLBCKaV0oGVROPFa>z*n-zZsXSUDw6l1wz&1y1JRUc-bV_kEP|)Ox<w
zu%(Wj#i7o}!e;C}0vnGicq%p#<t0l)0l$O;-U%cWn@nZ0;q~KfiMj%=vgaSN49Ex>
zO>1wPqivgw9QubJx>)9UHX$gCa-P;S1RO$38=UK1DYumwaA?O0BJAL)q`;7DO>3=@
ze+p+tz}%34VIv^fM^PiKmlaiJt1KXU8z9?jttOb@V;Kt<MC-^2Ia=KylELE39lkRQ
z)BrJ+l+;)*ZWgY!zr#21vpR^gi9MD~?qy4vd)y}Nu?lB`eiJ~k2Fi($k{ZA)k>4r(
z(_Mm#5q3o3-88oO;Y)0!Jlz4>7#n`cOKhIe;c*Dqc#nsXgh_pxY!LAb_9}NY?d38d
zG*?$VoAyyqW#Z~u#$2SKU=OjnbaTkk=`FYh%I3r}!B*)zKo>SwOe`(zh!qvm?%iuB
zq&r)m3dUvvab;Ir3rPh8236L(bDTRUDf0ZM)G(5rPRm;ff!S?J2F^PsR1aafQa~)g
z6DR#8W@J*%EhacbK-?&5NcC_O(Q$+#W=H_Ko(BHP297h7L^ik<PQ?<Twq{NWs+;wk
zD|x^SCd#U2`_@J!r{H4<f-#;H6ynY05!q`nFm2zFm1{}<*aFJ40#L0fhw#S<8wx_y
z{(`Ec{YK{M)}((7;Z?u&CPvWKHzUF-Hj>^yWIItz9^P@`E6}z@II~n#!qR*xrxpqd
zZ}&&l5sUg#Hn!?n<!c+21vTsfTCeugRiRU+15r}a>sbu>3(5IOI2-JnkDH*C4A|eY
zHh|jLLU%<`0uLg~Frvs3Ktb0LWN65-w+IUV00;oDBwW}oh@JQgi*9*R!yVoV40x9s
zQ+=Qne?tHuT~q0i*aEMqFwm!C&}=cZ9u)7Dtc>S`D3CC7fU31^Kt{(|$*zQJWLoy3
z*0tW@h3DGdpk<N4ruRi_x|a75yZfx%uP<?NJgk+Qp{^yy>zLn#%;gtL4byZII3pzR
zt!bKC+mw{h4){g}wWH+*6oBTv@P5g(>@Ic%%9>^Z>>~8qS3W>3bhH-2^x9H(n_Xz=
zDX;;;k58c?qYC0E16YG#8yt4=V7c}ngV{O24BS~p_h0#}fs-O}7B{g`INRYYg+$|@
z36L0slDHAwH*n_sB;0rd3sHxGoc_tpY0fgE0p3&ENapKNh1fi%J~rg?p69!;vW%PZ
ziH7=P##b-^Qsl0;HcVmQUxengj!03op6i3V0+hqf+wxRyxAi9xbj_CJtYHXe^(TW1
z1<rBhK`F(CP*TM_mkqv9@1Rg@`h*eSTlZ17Qr;}Xge)3E+;>QBtRbL|J9}~hG-pHU
zUik(0T^|fL9n^4*mJN^ZWK?_HY(<u!o#`8n5*S<s!-AQu4Q<KfWeq(;7}J}re?o~M
zExpgwpem{aVC6wsTGqDvhwi8=^#>cFu+@a>70)F5ilEdgB*;+JR?6#*z<mM&NnGw+
zN*#=}ERQ7RLgKm3%4Sbw=^3+$;W{?lrEFxQDXIARMY;gA?KT*)v80T<vPx=VNGFAB
zPY7th7gB6=sBAH9?2CpH<6<tQrhuChVf9BcGHtfO1U(T!P5|K@1wRCfDQW45%d(7X
z2m--14;A)D6k($P*-q9BamF&7$jy|2q?=mE(L^IzZrDwjdvC&@YKEn^7XJVUSm^?S
zEn<76zHpw{#jlc;jcxl{*+A4!Ms7wgm1MztVF^glxLF(kx}2HOjUq;jUdx^dI7;4a
zYp0u)D>^8EF~sKy-jlAT0N8Q!Wx(4uy3LG`*0RG1Qs213Li-D)u+iPWP7?M_zEiGv
z7+5EBi<GSw?Sz=W&@R9B@UX~!I|S?I$&EI`Q0%NQ;w}<x$2jbezQ-J<7n|HHglUf2
zJ7qEcFJ!xj&5~sH1rbor<q0XXk#YhWZ-9W5lJBA@5@g$&8*%~~SB8S5H?SZa{2*&&
zdv9jtS}618N+tuJx(iaQ4Q>!s6V7jwZ>pu$pHe}yiSNpDmCs_=YF8v)%A$J5yx3;_
z&`*x0X||j4u5_&#?;yJQ?6YFIFeoXeseW%|qtbL}nn8am$4$~&94%l5I9fUy7-MKV
zzp_@udjX=;DcA+_jSPY&@NN-KbaAuVz<$Un=W#e6a)Q~Zi8Vt*eT;Igs-5m9+HR$q
zNgiz1Tj-z=Ima(^iTO=PtZ}vu(C3@p%2q}><f3AOXtlnoX2u2w_*uy#t{7VZbSBqA
z%-a=dI{+6zPTW|f<U7WZ03P1qM&{g-Tu<E*9jtt&xPX61vUKd`$f=Eijkvwd{#AuE
zV*dc6{{WOU4mYscKFY=yyJ*eOY|ukq%>JFf0V@VPC3)}4b3E87wst{iP))43H=6{w
zzbV1J!QldwCpZ@SE*Ko!!gkzd#c;@2WH5kR<fJ3Dlbm~|_PJWkM_S)hq+aIs$Vl6?
zlh0+u_Uy1a9B`0wd=CjRZdVTLBOyjJf)iY9Z`mQZ7`p2?tT2G`7k9c)!cTR@hTm)~
zY8ZD8N<wXro?DCeNLmNcVOY!e#!>^4xxgF(kl^x&r(WjC3AZUo?|T%SENVL7o;X}h
zvBp<tkMO$77)#%>QIGJG3!LG?z@c~?TPY8V*(UA<*KQq_u%URs;VO>&pV=-*zxP<y
zDHrW@%={F*c?q`f*)Sv{h7w$HV!Pxd#ugQgIk@hldAHZHk=!WV!YPtqvfSqQLm$+M
zn1V16*Bkx<bVfr>#}_I$hdAIAV_E^=Wi{-@$V`rTFds?RyRJea2#x}kpl(w{&@2kg
z44CL)u(>4mPAumb@}`c#z0+iKK}c3Ip^e59hYArO2b?7m3tv2;MbyzX@O-4W9f?qS
z!8Ow1ZXtORCUdZu={tO(-61FZD4!>Ce{|dlyq>}xDv9!c_z>auxxNBxq-f*1Wf~<c
zgs*?c%4e*9q@g944BsjrU;g5#k|XjTc|lClFK!WWLf`35q+r`;I0R7G&*m0g5z^V`
zb_G2+Ex@vDP_PV)qNkoP++_>vZa7-O&_sJ1;ZGc(VFcTglvFIb=E{z&EIJu4!Yzj4
z_d-*&3nG}fUuU4Y9tu;!X-*uaFoa=4D{cxPj3}iB$e~Kwn888%OfE*$M&fxYDB<^V
zy6_Rr(CTPg&5>+@w&6aO5rlJL7F~y$`zq&!yG|7btxDH5-qo;{7LkQdsYKfxAkfig
zmuos!_Zv3(RdHzKI{Pj5%G~PvTXG{+43r0DihBAej?lE@8=7|8>bDwHdq5Uhsv3s1
z!tJqIItq~B0KOEak<*Gy&{JWdOyh(VERJv-qnIu}SC{1Y>nfwIIv{ggN|rc$so5S>
ztzZky!T6X$T$s-#=z!BS@)v$uG1wwPY>oh2uIYIA;<^&s1eP{5U<FxPS}u&Psu6=_
zpR1~tLuQOGn*4@bF_#tDXv0=PSn}d_g<Jr?KtR9d7dt%sBX&yuZW4MxA0=={3XmMD
zqPBQ(!lBh*mG@`?YvhQzxC*|qlLq!&`QYI0jTxBQY6%3lB=WR+ZrFg_R5LTvy@IW&
zsFjBo!sx~1ry8MTjWg>bXs{s%RaVk4R!Xl`njk>E)l0Rx%l*&A`;|G=ozPZ|ql=|^
z_u&%-2ynT#-DR}>U=S`<t95`IU~Z);CFp+3Iq9N^SdgnHV_f0~36g3|cj|Ec&~xfh
zxAdH-MlzhPhe;r&(lng;Q?`x^WB{n7)!aC60Yv>^oNu{Z@yxL<gmL6t)<FOVASw#R
z$8rUTQO#cII3$ESq;r(z<Vz#!hfqj%)`NcvI*O3NizwdW8{JpdO6-diR9girAg`)(
zt^vZUd)(vtl+_O+=V`hL?t7nozu9!-g%4_nwWOOK>E)c;l<Iakf$hRAl<p&prjz;r
z0BeQMZpta9m7|+0XHyW|@T=?C15ORmgssy;*<LG4U+#Yh>Rm;)vz`9{%Fosvk8mGV
z3{%;_-pkRCj~T~ewrjuCH#Z%VqnXdKS@`Q4g=s@Lc>rJRx$^kxD?=t;Qna{VvXV<T
z{{ShJm-O(4tddONu0*y3GG`B0kfm$vIaSST-20oOLr7*-_@L1ZWm%1+{>p<<)Ew)L
z+$#-D#D{;CkksbdTno4>yT!t!#GN2rTB`f5>yondj`tr5#<pPNl0J&2p}@F{ucGns
zD4dxjKo7=K$--d3;VtdO*J%x$ZSqop2?@8kPmehU>oX!|HtkH5VM@$5g%p7El&Eh&
zuK7|%NXp{e@pSf!c2y9tpsMto3e{-Z)7an`;y75A<Ahxl?_-<p&HJuQ{yNCEQZu93
zbS+%HpgGz4tN5zlAQmNgUr$#)?f2X*=8;fd-bWm-lk<FD60^25az=^(=^QU|tf8l9
zXu7YYnl>~NQdH{gj1bbeB9nA8vU>2=@nus`cOG(vsMKekOEg%0RFFd>#m_6Rj8ddc
zyX-*F22+?u;4G$fEBqBD9-mPxt!r9bZ`o4@JCzcZM7Pi(WRd_#UZ>L(kTy1xw)R;*
zm*~w#eUAXOtJAa&lc<4>-sctc{x^c-8>5^2h^IrHOA(9O(Zb4gK9FRI<*f_U==4I?
zfb6cR>DZ(hYUrPavMOMfZ=>eppjOXUv5`3ElC(N!;r#NnI&+iQ1?(*8Xqz}8qRRe{
zNP-rRX#1$*{6-k=TRFMSv&X3a01l1_iylZ;F6a=*kF=BU7q3T5&KfSGtB5u?Uc(Ea
zcz7VRhFreSn)>HOZkpQ`fKC8eh+$~#7WeU9Sf$qeCO>xDlCg{}2Fv4o$th)*6S6RL
zhrt6#y^$s+G<<~CNY?jHbMDdt^0KDAosd+D`l*9108!G+T<oQ*jGK^~M*%Oo=epQj
zONuzXOCw!Q*yFnGJ_j@eMPnW5k-{s=Ye><=W;J@JM|QPR$1~)T?s>AZ)>-Z)QU~n5
zY`qLJ=C(&IrdUZULr!jnhCg0>fKaA;y2Pt39Jka5h1KyWt7LgL=+Wr(QMH2Y3eIRF
zYYmzZ^fIxG!5B=`D_Yhca9nB<a<i^9mdx)_2-+WDEoJ5!^B(ElU~Ih;RFqEQ(BN*V
zXVHY@kkUx-7u0??6N<KZ-cCh&Jl3KT2qg_5#fBEsTF_*U=ViVYI=!xfa>6#1>dF*y
z+F+7LcPQQ(z;9&vNjEpL4xz_4x;02BY|<VYQ1VFaxG77IaH5bCbQ1d+14|>ENV;PQ
zBqzwi9FjKK-&FK4TviRf6Wl_9t^j3oq!#!H39*vrg%D^`Uik?L!oyIGAPWT>jne%B
z>kFem8ZJ*|bD~$ejzPFxz13R)zEKdk8vuiCbR9F%^v<}UqNn$=dE~d~Xs}g!_g!il
zlx~KajyibGH-4vn>Yqu{A6DQAARh}=P13+dHpU49n<>pr?T;7f9(z(JdyC#lamgpT
z4n~pPZ90!jj)}K<0Q@YR&1>F6bDmOTotjF3wu`5<TeeXihyAIhH#f?)i({e&_(s6X
z<qZU7$H`Vy%`DB5$W~1qJDdhEQ1vwan6XAWSMA0=h-Z*)TvV(S24W|+6C{i^6!(A)
zvW1>j?d24Q29w)x6eYy+QoZHG_)H9O@~V-#7Wd$;&)G=WPbGJ!`zA5b3!H>ZO>M7h
zC|WI>VL#Nc!BUg93Ma+VTwcg>@=rENy2PPC4rACpR8vaRggBAJV5c%W*qfomWawkY
z<A9N{oBsgHEs+jWoCgV%tDrUu>FpooC~dn1Bgkrqzcx#4g)#R4f>IJ(egbq&4z^UA
zT7HNc$Oy4diUR&PPc2~Wa-@m-PB=|;2Fc=}yG6(!RO3v>TL6@-n5P$ysy`)y*&BtL
zZG=3MI`$YUX<p)RqH8_Z?wK0SVeU#t$lmE(+zg8-U2m#uvkh@Bb^x+a4X<RP-U?ed
zn+z;542QWWXS+B=$r(57R68tI4d__Sl)>GChtqZLf3lJm9AKc(3E+ou$X1k&Y&P<R
zhT*vxMMT2ys-3ncvd%3@>~F9I($&u}%g7yq9vB^N3T;U(Z|br&_6pe)(gu=FPt^?K
z9{brvESsIp%6m5v;UL>5gftu35hTnF<REtzi~h<NzZ|N11qoX&;y@@F1;Qo39!1J&
zV84{3bPUi`jK*zbLn9X$PY{9*Q&FrN)a(M{@Nd~qBq5`O9Y75Tg=|;JVQ%Sx*+ZEI
z<t#7mQK~RVaSACt#FC%95pGj|QRfI=%|z5J_k;4ax=9->vb2B)0d=R+K_FtwG<A6W
zht?2dIKCENQX_d<dX^Cx<Sd@3PV$0BbfriLkO#_RjkDb}lYZ$gNZ_iZMp6~$38enZ
zh4Pwyh=`>_iNfU{doInpp+z~OKyl%5DWdkZlSbq9;c7Q9h@El>L|)+w05{<j2e$~K
zQ;;1)OTLLH+3vq%%9dbne#o6Z0`f4bm7LOa8%ZOY&~t@r1m?p0A>yU80kZ5cfn}<M
z<zfD&=JWJG)coB^6t)TqsV{#kCKgvpJ=jYJDU&}bV0M0~n5eXe^yM<E{k{{RBVf91
zN9i|8!iq|h{6TYtJu&u<R25DBBATB2M}?7|iOI5>0&n3!KR{AN{{Y!eD<+#P<yK1H
zaW_^n-)SR12nkQUDhVVlzzSP?dH7Mo+rpTP8>|bUU@a}xy&(P@RZaf@hyhmAmNAQE
z0KUbk{Uj=hzg|_nSs|w06*R6J&&q4qDUOeu_xht_7$5Mf<2H90M^l?Ljuhl!DhIcV
zA>sc3cb@2}&Ew>hG!49h{!xfasywtORsN4YQc{7mSd_I`jmp49G^5@?P3Jxn=CN^1
zBH6me8stqA?0G`J#gx>y4&hDcXrkOd+uJI;P=949k-%_*tdYmPkW6NVMt2)4Dkw>C
z!VZEW_uAJhOQ%v;aEn$1$><=k;{jN-hBRX-BZq5yA*$yQwCA<1qWd1~W}#W>w18GS
zUew71ZbfUA`))T~W9zC6uQ^3410txD%JOf87e7VW?4)E)cV$F{u_70BtgUER2tmaG
z7CA;jOD&rfsL7TwF}6rrPjQtCCjeUK>WijfmBR^G>5rwO^$pJpN2Jj)fLI~)_%^oo
z3gVmwfN~Hw`wWaWHsF1dK1($DOgC^Q_)$OG&C;5Vl1Cf@qAs~jbB1h~UJnMzfGey=
zDl^VPbDRl0qz)WeY74QOTzCms(wr`G)S~^**$^Dofyzf%JM5lVQ%pA*TV^73mf<Gi
z<Cc{nhQkR1ZFQ)^Hso-Wwbo4}-uX{yE*SwZ7{bC%UCMW(VSegX<2C_1)N4So1S}FQ
zt_{7D3m)U1%3|xA1;p7XD2<ftIXPAo(Lm8_e`G5i<DTkR+(*#_z{@z|h>S6zOv*@|
zY&BLkp}+x)u6<mMAE>6WOGi_}*5HIKL5Y{O?5o{g@G^v`)E#f-30TPlRZiy{G+XGa
zs@?rX4^gOFf&mJTQPgBNyY8@3VYQP&1Fw}qsa3QaHK6!IRaCv#_n+MY_uP_lu+%z9
z3yCJ*MG?7NPExaynvG`$+^M36xlW2QPYAeJafBN+2^1Lw1Z^}PLUklIu{?NIa5ne>
zBV(j8o*a8wm0?d#?n_jZ(E)5L2w^X=H?Tn~9WO*sLR<hM%Ep?UH?n+DHK161QB02M
zmWPZ+MmB+fRLu?_3C)YRx}C9$UduLzQL+ZL#0)7J8RUdR8WfEQT#CjN53?7tf}yzK
z9OjS^l~_F4EtFB9ZMJT2@R6-;@q2tHmivEE%4BV`kNhH?iCYe$+kO$v0Gxy!5CDwb
z8qP|Tj+|(bgRsTZtS$w!-6KG^bmcPX90x0i^JMFTag>f1A1e(*EC4B_cIV1<hhn>G
zz!(L){^>|LDZp@2fKA2L4GjP%THskZpj~zdzbIJaE!-|R<P-EyxINQJ?}R|c3-?Qa
zIJ)bD_egt=76I3?X@54tM>r1m2ug~kFlFD}6s$(lCYn*S+}T!5RMxzbctUCw?H4<&
zs4DCI#?HE=V`nZ*=^9sRfs8h{&DB+IskoevvZQqLJXxd*pDI{sWpT+Tx}_v}^T_1F
zOwW*>Kut7q)Oi@PHkN_qq0S=z07Y*}Mq6tis>GR3r|3fah|iUONu@S6+_uO3qT0a&
zcNY=#Ncyw14E!N>WQn7W2$}$3P|aFdaK;b18S_ZsaDJ#_ByqjK7vQbO>}3n+eD#$k
z_5=4&2hS%b3T8x4E+na=hQ}oq(mHYA`yq-f-sdWI!(s{M%23c6E!jJ0_`R^DDV?yy
zkkG+&;?{$UU2wJb^0<+EcS~i|XcnQp$yKv+m1$50Rc!Vrx7|`CrxGA9!f9c@8B@c7
zf-aQg-BBD9>`Hju_4=y_VI`pVP}84v!AG+#7ANY1VTl8y+6W-sBL;93vbEQ^IQdLq
zwawJqI<fREz$dcp*J()MYkZ_2j|g^Hb4a~~{)>;a{{VEE01JiOH)<w34mdodcfhhk
zer??$@>b{<VzlsXxa3_R{aFcGKFBZ%F?81)k!0g*Sa(Qo;cFYAq`R=?CEN;i{l7%g
z;bcwO&Mv*lDG7H6mBskZQVi#^-5H8+$W3?21ue6mvO+JL08up!wi2%Hkl6u5`Xp`1
zOSF&<QUGsjqJ<ZPg!x^PI9x2z##S)fWF^~tf|UFvJ62}wZGib)8QS)`ar&ge?p6&@
z!rvXzk)A$@-hPR<ANW|*Hpi61!MX09ZcWBhPEkx&G>$KTxp7E&MGD5g{gh7!pR$$S
zQyxu$2%>TUmf(;NDkcwi1raIm0*!#DL?lSY<CKM-GNl#+K078j@q|-nJi8<PzEk5T
z7Ad7Ug*YsfIo$A~na9d|jfW^&mt>5gK~G~`^UrkGNse-%F7I*^9P1-Pa|m>wP?%&k
z<b6=?lE*nvzIKb;;TDnulL~yc_kORUiSsu1-DO`TNEa7E%UA%gJRl{uSxHfD>ItgA
z?k)9IGSw0diiPty+RFoxV=Y<TaBQLc(C~y{k;e8VOX$hrVR;{;5k^7DQn|QPqgS!v
z$$!@42O#~?UPMKHJj+){xg>Pv_W-Ks^~kpXMZTdK7Ox4lh)%P>Px0mS9TW~6gj7-6
zvI;Fu6M#aRI_A5JDdo!+Qx-WO_{F{y?LxyQ<Wn*i8)tIpaO0HW!azHx1h!$oCb_BY
z2^<j=4rtU&XS;+{)(B%DX<ZndGFcU%%68Zz8TwUhRSh2qmQ^$Qmuiwc`9;`7jrdhM
zj9`L}byE%jLDb6ETm&rKS(MeOT<h2>Z^=7xxLY~k4<`yA$PWlm)Msd^PT`CFmV-}&
zXc$w+MA6tIV1zL6r<G{FCq(qEupN=n@KDfz5i#1!hFzVB+9zsoOlo-HWCM?N1otBW
z5pUTen{_O(<ft)pQPx2BlB=YEw)Sn-o$!K(mXsdL=KRmZIlfWs=vfh#m5&89F~Hu%
zXdgl{Y=oWw!NT+L_?bLwa}sqfikUat!mX~AtZCeCRm8x$;3~T6BH&G~y#D|z$ev%;
zD@KGU%IZ3lak$-4R%?)pv^MA9tDc~sJ00y<TH1LVBZZGEkvAPNoM?S*d*yMpfI+f9
zRmScK4Li?cWa!|PuC<MqLYA}zNV27gv9|?E=REsb@1hn4$kFZxm0?A-(g0S1ZR~GE
zFwxH|xhClLX%c#SoNTYO*dg0++x<c=cDH5%=&66yTT8PQQKvLJXe5=;=~)DW_X|NZ
zP2a%EU9Ao9mQB{!yxV0Ps9M3r)P92rBGwAVt<4w8u64=B3zjyXi!H5@$xjyqAgW-D
zo)w3r@-PaF)4RTY%dsi;!J?tmEs&cqD5TQ>&cL*^^zE>?Q<_$|aGRU^7j2nHs7N*q
zKeDibiMwoYui>C?HVM;GhO+}d2-_%(-AywCEoD(zMjv}{wKGx4AvOv>^rCX?DnZu7
zZjU_FG~1Ky!l{=|cy<MsqiQrvj`zx-nihJ877MB#Q(8ty%R@l&>k?L*L(_|FNXnj;
zjjnh$1z%9pwTu@Db9oJ;R>h~JXlDvJsDq8HjxTFZ%H}u|a<~+ojmC<zL$SZ51z6un
zyes;dV{CsbJF3*j=iyrvo0S0>U2dXK*9PDfh}EQ&$aiIKbq$hS4(m6m(OeT{^qv%y
zR>@>`V=5(e$S8fp-B{{WrI*644a)bR(^if-*sZ;|Tzn^igvZ~)rHF=(RFIzPEca4I
zG7)A8VaJr&ER}#+He4n4H=-g^u=xq3_X$C=r=bZuU?pqp@S-mAQUXEwD>Z1=X*4>5
z9Ndt-1462^1>M<sW}8qWc)4306Ho_e1$f?e3s!Vvk?1U`1)TO#K0_m{2{%D$yQdg8
zzY9S_rk7Z`qy^wg3M}cnAfToWa5l=&P|^cpLP~l@N684?qlOYtwH=#?zLY`0TwQJY
z4?tx^jhV~`HsN9-Ygr&JTkebM22kv4fyaQoU&P81$#Xe;n7%qagF@2T3@vD281Szm
zrDJ(m5B~sY5J3m<Xr!6{0I*TfekA&{2G&tJ0eo$_UrzHT=;2Y~wt8Dw*6;%7G!bhm
zog-Lgp%8p6acSdlR?WExj+$hCgKu;-Y>`sN>1KFq8ZJrfj_k0%iwvx&>G`3hd1-a;
zZd9{mlpy65W~F4+eSOokZE=%OkK4!xE6;k*@uN-=Nl&K&_Z$ayUOTO6brkO=QvQ6b
z?D2-mK)y=(uP5?(r~17XhBUTlbq#iHMz!@5IFjRjQo~U9j4Hi0iPAeF_gacQFo?&p
z-(}!VNi(J!1c}F&U06dSLq*Tg4_OF<2MP$~4drrYo%CKQ*<gQ(+wP9j>6#751y|F~
zEtG32!x}cO7T>Y%yDwlZV>=;r35TXYIaPm}o#jVTY8=jNyL@+vc1lv0qN7@V(Cd|(
zlY5Ee1%IeS;^VnhOxCnuFJA;>c5>yEnO^HgZsLrgu551?HVUs(l(nSUP`a*BCT<1S
zs~l=^IaK()o|O)*xu7tTpsA^rZe3uqdVZ)_J6#z4Mp;@mn_WsUP?piq^4ig&prwuS
z?s2(1t*(us{$d~Y><G6D%4oH!ojy|Y9`FtoyZ-<bHRA{6=%I>~0b=qlSHI(Vn4urz
zY~h?F-J0&J(CMfsWS*hSV?ZYEE9ZWqaF<b*Mt+N%S!}hPQ&QDjWUs86rRTABKV_S&
zq$RH0(PZ=TWtrPlWfY98(rqUQXFRy%VO!O}z~TTvm_QsO9<~$;0KRaeaSb>GqU38p
zP=;pqM?nR9cN^NuH#9ccMaV2I*$E?Va*d8g=Z-t1z4*digsu!eEVBnf5B{X23$Adm
z&ndUD<zy3&bCiVqT`41g5<LKj9h6?0_}eh`I4AZ&4sB#*B{6vf@QQToR=pmT(i7<L
z?V75(o+dPRc2(Z9*WEi!PUxs1maa>Fpxv$g%JS%_nAZE0bHj@OY>rH_lB8&)wn?t)
z^%|{PrId!WpKNX51=?Pm`hoyyH$k#8Bo-I3TaJq~&Y7OCw#UL;F@o$|l69f_cSp}G
zLBcBo-8WI_xnhrZrhjGZ-9PygPTMeBv3-#mwKW^!E(MM@{UBj<WmwYDIH@z|S7_4H
zyp5-o#)?*p?XvVfq>c#QL~Lm!=iy|lB-?y`%g*O)vrQBgEpvVqbgp?M3#*!wyzyii
zjy=aWDWgEyUSpBj+(1yi8**-~9T+5rs2>4yzR2>SfFpx*uo2NwfB|q*K@&r*Y^x7v
zrUovjDZ9}&%6XW`#egLJ5V<(804tZ%dZXIgsAQon85a7dQ+2VG6%Ppo{32$JtS0$T
zlWW)uCQNIwgn^WT?>0^V-8q34&Cw$x0^j9L?ExfK<flKfp4o=FL&xlx=M%|F?k-er
zc>AVE3uJPhR876?1=Ow=zk8=d&fyzK1ESq)@T4yKCkXBGqmj1ckE#PBzx%qCpaFC^
ze}jd_PX!0FIE0BU##GEMAqN|-QE{6y<rNkv^3V;*x{61J@Rmt2$wOR{j>a74mt8X?
z*)=_laVVq)a26aVi;>|?9Xp7<uB7xsc}(;R2N8qHmMV5T11pFZQ$*m>kuirhjh4^s
zoXS=QTe4S7){JFB>Y`17vU_6HgqYaO^JUGdV-4(v-drx?m~w0d%ABkeSV^e{vkfGw
z+PcXmcNPkGDIWZgq>_cr7cE&vO&dtAgc9UqK?5o$u*PzbNrTS_^b@6VC!8pc)pOm2
z8y%Dw#GvDlm|tVUa{waguLJ6`MisAdcPNHiZORNj&ahK9Tel??=oC7lOjs(p%iK}&
zI1$Pj?F6Qa2o18H$7AT0VUuimQ8b;&!`NJBj|x_gggkl0l+4csPuMIjjkk~ioUMM3
z7!3#EWi-~0RDD*<NFKp&2sU<jyJVV&`$r2Ms*+r6wt9g68MlRz)W^NZMbYTb8f7^r
zizb(m$WuL{=D|kcWmL#KV+^O8CYd|gbBB8<$n9jvi-_+~az&D{?f#VyoF_M%ClDYw
zTZE2tLE$x|+X);qbfY8@PVsw$Sj#VT4Jbx7;kZQ!By*b5>tR}Haj;m7s%ac=g>9r>
z*$LFB=WAuV$FmBqrNkTjt72~v2bE7=EJ+Ej#prBvd%0aPxIxFecPNt51^X<Kn**rk
z`AGq}7E4kSAieL|Fbj%jdq;G$-)Xo_q8`Cy`Ny!NVMQ%h`<7C`J)uWanJ%S-U<Hsz
zxjrJA@yGrXq8<m`H=$7X{(^9UmfNzAm;lS<m0dULII;-A6xPO6&OD*%hX{fJ2sN+}
zfA3{m(lq*F*utp4@fE!zfs6oBFpaHYEg<p&rIDWdtID!=kWJMz$J|CPofvF(+%k@X
zZL`7!mM%s_FfLGFqo*Tj0@zVgW<lXiDE9G$>Im-Zi!8Jj%W6j1x9*u)`ZA1yG3kpT
ztC?n;swOH$EWfOPaGFPQogg9ix@)pISUn6QBq`~cb9Dv@MAEq1{{Sf@JZzpuSY-ty
zMeen(k8#{K{>Z8tLid7Obg<aZL-aZWxLg~pT{RevG3`vz={5jM0<x)g#u5G1Wu!?v
zWo=`GZME%Xmey;78b#HXxmwnP?%`l{s_pL}6%NZ?0&2Bxl0#yvGEbD}oy3xz6h+3?
zPP8jxz{2MRZA(lGa)+d+BE*Gf01OLRsB7VCTWo&FIa+sFS&|$+R4t}5I9aKzRyKm4
zdxgT$(9<=x#uOS|9hx@_E101TX#W7pNeqr?3<AnVNN>txoASAXJmCR}#I8J)$H{YR
zl+Fia(mX7KV~D{>1-QyV_2G5ED1dQjJf2dupdQJk%a~6K0FYqdB?HZ}nh5S!7hK!}
z@P!0<<Mn+PZU+~_U>D^m3<Bg5Qz3dBa!zoV@nMj;(*P_5lrE6FlZ3%J*95L<@pOjP
z9#fmRU?5|NebTXnj&iy2%HeQ8NXR6=b&M_SRL#qNR0bIbWhI=}+UXiGAj(oe=Y<Pj
zVlbNLTI7@vt&+NM(T1VssV9cnMJ#{}m0wd-TYD5+FjM7{$2K2TUsC)MU-r5Js<vF_
z%C4%aQ-9(WhDb8Dqzn6%JoA!Cz0^|3;!VjVL`o?RE1mM0lDOqLjXlC)Y(}=_6%0eT
zx@=LBQLx10#|b3Dkg&&dV2g?{+}h<jo)d5YR#dbyINiXG=|&=_h0e$p3et|5+*uJv
zL~t!-YYh>NpqmtEq+$tAO~E%-5X2fdDrl+hEHI~RSr->Z(M19{ndK7J0l-Suj~P<6
zgOHK3v4DVM9h9tMR<|j@93{IdqITZH3C$MlxLVi=!-TDsQ5ybk3J$1zBVCY!slmbh
zkU?l2*aMQ88&2X)zJ)#H?cs9+llnQ|VYH3-`l8q@ZWI)4A*U#o1AY=oqo)}oM}*+f
zg1LZ!**F1ziz!*qv?YK@O}ixnHtrHQXUY}<2?y+>4gtp>x^WjNHtxPMiG<#6EEfXe
zZEGjD7qDD$!o#DP@;LIik`6_e1KYYxkg!GgvP&)lA9c<xXymLYgn3ZSGgvN7ly!A%
zh#MT)XSFRyo0L+rbDED~_1cVV1T^F<_MxjVlWVH&Lr^X*0awP!DqV02vW|~8H;~CH
zYuzKr0Gp@M(@Q&rh5m@`H${A;7ci|xouX~Ef&G*8a`N_6>6$Z%4toLmg`}a=W3aqp
z;aF1XrGR{MbV2mtZMU}{DO&}r865;+w=EV5Ih@FwX0#|O>e?@9fchY$osPkiaajdI
z$Imw7a?xZbse5pgGjYc29_32NMesPv4Wx8K2iXV@b_uuHPRKz#U+Sa{vx0q+IkT=9
zQX1I6wk`sFzDP;Ug5u6{rryq#3PO1oNsC**A4Krc^(i)saIo|@7X3Z&lIHwd>ZGvj
zE}HR+TLEMifog5H{{XzI%7<ivFs!P9+H$Ju2gX%kb7f*i=C>{cry1G149Ce)v>mrd
z8ScHV6_Mvn>^h!%IC}!IhIe*oA7xcc$6R15I9hgt*(2<xGo_TcX9E5cLx*dpOgj|A
zVnDT&+1DP9F6=@=N$ituJS1@LvL5Jt$sR1bb8(Op00eSwosMjX#{q<$k~rA#y5}D&
z3NCJPmpzJQ^V{}Il6b-m7;}Grs_Tn)To2OeJ9k86Aj!Rjl5v|QHsZqn09Dr{fAFz}
z@^UPb7P4^$_f02^tYHO@Vmu@#Jf{<!q$j@%Gg#Ask;38KBeBBn%TTSIp4mxr#f_H{
zb;Mf)_f7}1h3#(Zjjxs0%0pqBECZS_Kpp$87~o}b9mAIcbf!mM<gOgpBsRUuLVR$t
zMr?J@l;4BhcW)U<o-DNiosQ&>gom4@KLIxWR!9g!Z^CKv6N`sr!t7-*8xi-ltW+|a
zHz$<$I^3bBcoziT>5?NUQ4Ee3J<>#MZhI)Cc)h!*{a0TJ=!Dr~-1ovlGs+RKaj?Cv
zyK}B`e#p_z6N}uXyDw{Jo=}43);3Zw07)e<88e*FJ*5dy;oFq?WNSjLtf^oJm6I|Y
z`36wZ)C(IFB=sYN9JAkyEZFuLHCf6ATB765JE&xNak09LFu3D|tX9R6ceoo5l?~qa
zW0YJ}j(G2Md>VNrzSH|9u^TF*r+Fg<83hf%C0^6%qZe*|h}dXD4Yn=F&Dl*$r;7`K
zjsE~nJ_@*snV?(+FQ&vS2iZ^4Tj37vEG;>Ncu|-~g~vyuW?<<<!hCvZZZNb)5RgPT
zveiaxrH+8Ks|reIHrGbBA;pyOunS>e3r!uYjbOr#CaIV(jS9uGaN!_M9oC}`93*mZ
z{V5!Xpj8Bbs%oWsZbG`5w?WBH*K!t3k4d7C)Kpy9VJNDp3fR)O`a)02H^5EGUt;`m
zD+OHq5K?|_Yw%CqS^iC*(ieVBo)%M*_HT|L0<ueflAPMtTZbaeBYZCWn@T?<f$>Cv
zwZz*Bcxs&EVRWL6z7(<2hOF{Qg<^^bf<o(Dqv1CQIAaa6GCU+OLsNiEYLzgjH7*KE
zuKO%wu#kY11hy$!Ghp+KDvHJzU&6e6d$|fTO2d)@;PQMYpG<hoBQ_$j{VEE^fZx)!
zFQ$wS(yKKHqH9h9^RoUc9w<GOQ?t(X@=d^J_E^fgH%TEoSEXw3HbOvXS<1>F%i(-q
zmlm??Xs0b1nq4qC)-6_$=uC5OZdX2{I%zE7Z<KTzv|gCNE4#*&EA~WNU==zeSsj|&
zm0ukQhFsxZRBDcpS&jb6s;XHDF13n$jepe(%hi@N)58p7bGYn=tkxp{wU$)!nP2?I
z$_LYdV(;#`o5}V%NFr@amzP~c?M=@F0&IeuHMj&_2P}oS7b$N09W+@wq!J6Abm;0~
z2P%=$yo_CRZg=xtJY94a*`sY+9fmZYl<-LxCmq#IG{KEiKCEr9RrwoRCvAmIP}rNw
z9BOVZ+S~nAbn=(D+~IW`Me>Vb1XoEKYAM|CE>)0=b1!5*i$>jmxn6p4M;PM@u!~|h
zvZz2C{HRLDHa4Eh!m^=_xE5L6Rr5afBqo$3hfJo|Dq|NLv+%PIs4kMjD$`V^mCiRN
z>a~=PC)_dqQ(}hpHiIZ1fLv@<qiUMQexRuh;TFlTK-Jbfd}Ve20FLLn7e<0=_B7<-
z4<@q{Fdh39m8z+g___Msbrdg^;`j24@nV+6l*{^!N%FMqB!!vQE8N0vNc*iEbf86G
zepY9wX<BY?pQ@*g2=g;;il*vqbN>KW?o;KeW7tj=T$FDPJ3&L#37Xxe;Fayi5_Ly6
zCPAvXk8#^&P9Y`O3fJ=PdCw@CS}cpTc1I${sGOCRkWfAO0H3manp@i2mX)*8wDxTV
z$lAR%rX#hvT<^}QP!=mZx_Wm;cq%p=+RIa`>4Xwm)j;}k#~a_3=;F^Ap&WKKq*+5V
zu%7G-A!jDQE3KLIFv(&{Q1uUUbgT!JS|*t=clk;Ve5k<*?H56WnlpUxwB0h&W^Kx$
zpr$iBZLj9bY15iao0{gZt{*ETRB5u9(`@vfmt`yz?Jpqt%DbOar(oL|{gz6O2SXRQ
zk&G!}k=uw~K0Fv_J8sUl+FCUfQyHEKI9GJ-8-B|zrbz1nn=8s$9!Dip$is@XEM)It
z#f>i+T27s#61}z;%Fj?nWt0z<=)EOG8X9eMKOKg$3!VO@)|;bxj2B>6ntx6}9vt}E
ze#p88`f-dRXVvNG+j$ys;eA7#Asc6!;@NejQL+fYYd{0Su^cP~N8(1ENd1ncm+N%+
ze-iYG1{p2S(Ru#>{ils7aZ^@OINDts#YfaIwt8t8MeY?Goqb03{{Rjreag)BA6-;B
zCpHbS-;1Tq`5ZXoZP?2jk%;_Bp=1H>+8Vr&L|sr^bCtO2DRm86cS%({+}^_YRBWQ!
z`!%I}ca`SHK1V33J0lJ#pGA$V+Tz@JSI?+$j?8atC^TvpJb|@Z%|uxqLY#jelPcsl
z%A=zzUR>uA^;bOpo<>ofK{$@5({1nFSH~Z!Me?|1kArEKQsj<?u6Me?kQJ>FmP4Da
z)Aa4c9jg9=O|cld=bMPiEsddskS-CD!R$CzR8&9#W};-HE^i4Tr)F_T!)kF0oGLn&
zh6C-nTl)Pqq!Qpht2bRnz~k)&dfp_tIykbU5m`?p&u|Q|>=ksnM1<V8p7vYM$d^0X
z(wi=pZFk+FeFQRajkAVO*@valNRv5ozNOPZW?OY_9V`*Qfa`ZC&t3+%mbG(a&ZNhL
z8ZvsN2G$!k$G#SBc%H`*Zc5&2wJ<%V&L35b*DBzQoq#yr%df<j*tt^lMF;_$p!FBA
ztT%8U3bv<KnBF+Wf*v^?E4RwxbHesv#q>g&AgE^d5&=L}0>N$yxT=&jmyLl?)|ZzT
zIGdiy<dPjL*#nN_o)USoZOFz{u(szsp<yC)Zg*@bB!J%v;gL6LiR@rKu9dn6BC(JY
zgy%(zSsXSCo)Gg$+nZ%;30+V&lAtX=_(jSKvU{lZ`3aK?vK^$4qT(!mROE7_0FsS`
zGooNF0EKHw9kIpG5H#G|DA=1TtztrkM*R$tU?rxBzW3bxC?8hIUA8#vJd<@LHkxJk
z8=tBsIw4MX7G0yT38JgBJ@h|Kr4pP*3HetP8hqZUEd{ydR#WRyQrtsA`5nNy!m!hI
z?Lt|AnT(Dj*`qdHQF!Q#lScQZBdHPqOpmrLd#x2rHLi^A+y{WEx^t?u4LY5#oVdsb
z0jA`n*MAX>WNwR1(}MxV`4sYI@t~`=XsNR^)io}HtI=y39c-6!vbA$w<?gvw^=+uE
zne)!#_rH_E0-}R=>g>1|*;e#W)l>t4bM!+s&U3C+!>Afv?H5tLiL4j0bkMGVq4V7m
z*c~OXQv>0N*Lyd85i#n)jRBA}4<ubXYODhd3x;?qdU_#(^Mat0RD0Ym+$mtGd(P|d
zxo0VXqRd4MY_J(sI-Hz<r<QZD<yKDe@^SY=9k;V8D`sn)@>F6j<SRJooc!5L>LY90
zmDHpb(Ms{R04T-o4bk;f&IE-FQ2^_d>4wFpjJn3?jh1cH^ui{Kn<muB2pBg%2+|h7
zWo}UK3R#{@iiY+%y_Sm^4vm*Y#LEsYp^5AnQ;LR;P-d-&`+?yJJM2{RREuCBW_Tpr
z-sq)cBsJ4m<fe*@_E5=pU|Bv2a`FKfR#8Jz4X2Pei+5Hrvh5p=0veK&Xubj}R@uDa
z2PA|esC;b%a(f}#>+lk}q0T&~#L>YCF2&Hsu-sb+%3uM{_)TCIN?aN+Q^e0<;mi%}
z5Y-a23>+bhr0|+!e20u7D7Fm<W-c}gc!Aq;P|l3U$WfYt0T;4ff`aC7QN{^2JfX~`
z-SUd3Ci(r47%~cHKGsDtjE`}(l0i489qsf(Rn|V%xdk$56YRBt@kiKQGOnqc2mpOm
zEL9R(`CTl9!`xFg=-f`4MweWb3yAEI)+dykZ`n@9BazB2$8wfP?sN4_um{S`kD_Qz
z_)_e+I8nmjJ`~~N)<VT#(leYU5aGfiM+>N3&nQr0N1wXqTG=a{Y@@L$k{OXq1?|d&
zHsuuNVK-;OdjQrp%2r({VC5(l2|yjEn>=K#j*jcJcUYP?fbg~2B!kllS~~n^QY@>#
z+qWfTHBdv%*1D*)#fz+-u0VPDDOYEz-J+q#Ch9k3ImIJL#rrCv4Uv`-RE(x`yA*XJ
zBY6N>TSHG687&`F#3W}OM({sMh42>kS_=2a9qiz3;ZoF02`0&tCea0mO>%j0JoizY
z6^2CA`E`-a7it2X-sNQjZZK0KauJbkJS%NJEv+B&hJqvZM?y##OsIr{WObWs0IF-9
zd-0TH@3r|iRaH;Bk+CYq!ad&zw*#>UPHu7K9VNCVurj`<x@03M^#eFehqBaS+L#T4
z3Db{buA52v0({vA<pvd^nxfmUWh?+#6T*t8_1he&U^wFGQJW+q1G0Qy{shP87B)_a
zFbB+irs}eDcVSq{M$Q#<!{2fdMkS{<!kxt0>Kb<34hkqVSduaj_5d<Zslv9Q%LSEN
zz!IxkD{L3QLV`(CZJc&gvbXq$>aOa5EXN9-U^iqek&cCcyM<vCb^xI%051U9TE^Dx
zx}4s`_5(N|3v!=8Z6N)VtAGvRN2fT4lvdE}(Le!cLTVUlA_rZAJfW+}+HaLeii%0H
z<MmPT<vvsIDW|sy*igc9RPbDsG3Oj3Xd^CgQ;_JfprtQ!O|NyO(<t_UcK+(WNrYqJ
zX(<3`zxhHghLJlq#K3WTDqU*7V+(KlBK11P#~H}N!Sx=imjL_SX-dUWpbnta_ZI+c
z7FKBtj=3sYxt%M?Ch7n?Ae9Wx0GtGM6FtJ}2q7fhSW?HdU1q|Sg~ZSro(5B6<CQ!S
z?r`SGP}E5Td#o(1X=&Spv~-vs-C4s9z%gK`O`=LzfCCvs7W2YL?O*}IdxejZQb;KS
z$$~<UaK27c<p(7~2O`KIvR06JUB^7xHK!N}P0kUc2;xQ3V)-k!3uP|B<q#Y;i>X9+
zv2B8DSl;}pqaa``nV8nWd;5Y@7;XW%3B|x3!69%f86km(ISB~Gk~p~Vnp*BjTFf-J
z$@-?7ClO$xc25a`M;AC)1m>4tn<fC~9N|5zKSU_j5gV-0b9*Ta?Xbm=;k$WAZQzt!
zHImCvN9nLbnI7z6Baeao)NUt$5?;bcFXb`rvvPlR43BlKdm$=jU>@lfYzTE+zyp;}
zS5o18h1GRXi~EUG^>r<A#nu{!)Koj2$O$BKj!H=%xbtf$$sLL*1!&@L%IvNHl`L_S
z*&6`HGUXKvU}S{&qR$A(A-Na*k~S2ELlyr3l%t@B0ian=Pf551Yez`YZPrU;qzOk#
z>w-eLrGfYgXern&i>n$?7;FFqGDE1?+Dc~t0q(3KfPrEcL%7%;$f#O#oFLhFK#j53
zTG{TMw*9zMvOkp|W-Ju>oeBgEY4DsHRKySxfq<8hMFfTc$CU8VWR~xA;64_x(ZQ*9
zi*mTzwi1zmRv8R+m3>zr1z_QX6wMx{R!mtU7dP6LHgGLu_gD)Om4t5Q>F-26hf%lL
zY^ep$H%+G?G@D-u@$+yjr6zS_M1Tx;_)0tkqV`+|KPq-zp{Dn@e(8=Ufpqisx^76}
z5k``JQ<w_o0l7z+(Y3}2fr_&lyYZj$-Gb%qp^Za#?#7UeQWfG@hp8m&S&#eumV
z7ON*IBpW2HU?i1STc`$H0u@H5tevE8HyxI4w^fouVYrm>fz6Z2QPFd#>Yu1?{go9>
zOp_Zm#WEUNx~BqKS_;u<+6ZxLoYG37ibtQ5GnYjspQKAt@aF?>1g(yX)6uo9E^qc%
zI&PC3VWPl&mAp{0I{;74Q*u;uwAd{!nG-FvG<}igD4}j#E<TDHnPO-oak{IiovuHq
z{^@%SSv7q@Hw==%cvUjQWOdArKXmsvIR2uMpmyiF&qq!?O^`mBw!P0jQ=+6}U3*^W
zfXx2@<v0S7$nAy{h6um{!8kAk<;Lo5wsa^YG>k5?b_ff*W1Ap{NKAr|B_jA-+i-g#
z5e4p+))`7U_+5_SC{j3Bc1)1Fu(Elu9||`g@|hWd)R$WYR!qWQ&BC>*AYE2U<G;5m
zu{kpID`7Ul$?lbqJBK|ZWOx{82|Y*OpSTLCo_yl$I+hS!%CKVq7QY-Sx_8Nc)P9P=
zj&{rWOD0zu5>~gd35BBBzuj}mE&}P?0f3};L1<>&;db0z$<E-5Wi`&S#*mg4;U$fd
z7g+L}zXJaN-C$6=b8t<{>kj9Fn&+fx+;8C&Vb&+d%5|-art^{II^FJ=V}Y=`<M3Aj
zo-$L!cpHcbS-K)W2^?+z04ie}G7EvqK*+#8?Ar*~wnb}<8y~9Yewz}cA|Nfg#YH25
z!$;j?U5G&7@)B`!xa4w?-2FQ&YdH70?2_MmF8h7gTwj!E4CCBgARwjV7ftN70f-K8
zknwKm)&O6Ghdc$WRwpGO!f^*A{{V&7;^ko2+x%g3hy#@EwmB&aZZB@>j5B{ZNxWLw
zT=tFvK+oF9S&nnZYo-?wkP?w>rn=q{LOBV)AvNab2^>HQ8Dzf&Iz*>B7FQAt{)lOu
zmCq=7pNrj5Bbmy`o^Ism+q%{Wb0&O(r-DrX0O1l+b`;hE1_I}{!=KqYC$`y4e1hk)
zR>ZNSfx>I#9xhW{T5dvVEw`K{Y+!n+TrXuyTPyNLO1YlL{#9j6A;gO!m@KD!uW|4G
zS2eGHDE86a)@c67%323n)<x0-Wn>hk#2l*%dIRJ4R<zVXy_J<MD{Kh`D_|=rC<XKW
z6_q_8Z*F);#RFO}FsEx88d^X<C^ij(!w_j0$8`5JG-AqEy`W>lf=NDx%Og;P*zsh~
zxAskZox5_I>K`ZfPJpcY%#SIgSmivBkd?@KLkJ!dcBhrx1&km9>P7^>q-~aFCSsIu
zp<z<A;RXT8a+|uzLAnBu1vsWOr{c+lB6!M(fTnkJ!WI~hXkD}?E<7eM-Jv09vUU8M
zCb{5uSs>V(N05{-cL_aK-8a?+HwFtN*gPkO1UZ}z=|42V{KNN0fH?)Q1uSODyj914
z_X6Qv5dLt774|EUY{H%#JgSfN7)SGjj@2Lo^{r7}#o2Nk7Z;B!J5jIG#e0%%;Zs-j
ztWW}3O)Jm9M&K10K8@d~Jf{bR<rDrPRqi4>D-PExIQsUv$K4IS{3<6ATv|PKuN}%#
z=Gl3bCt5ky-UwE--BBC=0QV7-iW6qWXMj0WI<(*eloR##xPGyfRj6vMeZa{p=YKDn
zJQ|BH2SX~R1e=>GiuqbW0>yN$nrB>aQ$H%=F5_ap8;(nFvb@nlT~F%Ce#@eyV{>j5
zwM=ouJ;W-Cy4d3e&Rp@yIL?gHXj!C=CiYb|mF*7p*rBVdy+;;;f(<Wq&R3wN$}}RR
zO#0bheV`ANJL+GZ&bdyUmNx?`o~l`kt-wQpMM1`G!wxp`l(4x01fjS%x5_EC0JH)9
zk@)CNL!B5O{uH7yj!99OE^efXR)7gND=09jk~TbYl0aJ0xYaaT%}`WT0xU>JgBeMY
zNJw!d8>i0JJY7{uHsg$>ibpizJYdJWM&^@Mjwtd{%dNHKhQIr)d?rVaaVVz8W@PZK
z3Aiy`dNd8xBazw3O{uAmX}!2q4xGh-{!sGOy~fUVJSLRold<BcCb_~#*aX^Y10ln1
zS82daC>*as>3t27wWZA&&R2hh;=GTsB{Kn4q)J(4#Il;^ojo~mdk7tu(vRutVHfEi
zvcUD`g$RM+jUTf2UyB&WLdEht8fi-%lvNdbVg<$43b(2EQB^&zJ<7?|YVwP<gs86%
z<U&of&qA!~NTXqETnV;SQ)=YYCcfYSD+Vg0mP@(BpOvG~>NeXsx@X}>61CW`Ba@?A
z$_PYZ#>A>!N}Yk^Up^I}o$reV{{VCh(7o>5<s5CNwlj)rK(sn|dAT3iSdBO^_9{(0
z7XJV#R<x1tHzNvJv$Vm$f`XOci!_j}e<t$Gj>>2@v7+HVTDCI;f%jf~vPyE$>L!0u
z(u=_-A7zr&w8q9<ZI!sM)Z=Sik@Q%Opwxqlto$BA^*kq$vU5wbEnLwX$W_yjjj51G
z@=6X-bISTWcB;;45CL$XYX#O#CpQY>9Ezo8_krOI%iFTC(u;j&hY*r_Kt|i6G-lMu
z!?O2Yv7+?$*qgR4-WFT%>PiOebDrC;UefC*{T7B=>*jpyv2&)+LmU!DLs8NT8X6m8
z^i}a`#jf`Qj&QfSi=mJb(REJvH#^$Im|BX^CfX}#;Sq}fkBC@tg)9^@lf~796b~d_
zw)-h&d2Z`Qi$vNfXpx|=OzDYYWNo{G^O$LjWEQmDTIsrr>B!%>1=ZtzMmSgO3Bu1^
zimpFT1ykzsnObea&roZPcmbf_$wpLa4Kdx$0}G=+pB&iTGEv5?&TCKr;^XCJsw8xB
z631ITmB&!((EEURy2sS&4w6C`SH{l`<#LNUl2x+eD(ZvmY_<o&wV|amG&#Vy`8ibG
zIZFDe+jf$@LqpJ9*g+AKap8OZALA#UHzS)SSjEyY)pP-o5?h6ru91}UI~~`rYW+V`
zEi0PFZCM#QDp@2hl$(^9KMk4WtY|CAid!<YJwY8X#W{PsC^apAP^)2Vdtqtp(6tqP
z4r6Zn9C=mM9X$BieX1T-4>J<t-hl~1TSuPNGFQr8_c_G(DD5&J2;E`zSGBq`fZeqK
z`d2~;vBLAC<K&m4t~85%K3G@<%DbYPB1MQR&nmS81eV=mt@JHWIl}Hy%i_uk*<NV$
zT5{V01{AYR8yS)nH8pT_V#P;QRd8*U%9Ngo&PbC{tBS>ED(8s1aR|ECII!ElDw?u6
z3vdWtzlGxEyGJfr#)(aPT1bpEe4y%TT_wqRC+dKn?8BX8Go>Jrf9}1RU~PWP<M|Tk
zo~ip<Tpe|u)O7;VdB<Q?r0*|jXjL_IrQnh*JfjRzy_!>XqOxsDR{{d5t&q!o;1aEB
zplbm(<CRlX?2rZ*p@tFkbGbidRLr}Lf^O$F-qb|zw{N<G)ouO4>#-{K3mGe_9^Yd_
zeuydP<v!<<Z{1u+D7Y2_{HIH_GW&D#r#y`ninBE>KFgE9OACWWLL*dt$!l%)RnBYe
z^YvH9CsxeDq@KgtR9>rjz0k6?_r1soVixWbH)81%mu?3nD4qWRZz=a1ep0Y*-~<vi
zgE@qbQWjWTqMpkGfP;{dZFJ~9$fR(+f<|1QDaJE<uFGt*3JHV}Ygt%n<)z`THXcf>
zhE}xY5ZZuv3M~(2#)_{?rHp!x^<UUEHnyrNp|T2az<+YH5K7pcy~Jb6WnQTF`(tq*
zOeTz1ZJU?TqNJf~<`J==xUCd=8)A$}E14T@%Z-<s(rXp;?j|WqNj#!mtW`<wnt3EY
zC0bdMjYSe_`!%|Qp=^PWxuvb{4ho7YxT7|E#r_sXT~c=o3@8Ou?sds4&-i5DCQ)@q
zpv9?Cuv-41@xn=KA()Y1(eSYFRXw&P#_DmXy`TYeWF-l|V(8Y%RYw~z+q<%;)N4IU
zhO{(%D!<OnCU3MSHSIsBl2ONv`vW4C!sPOz-MH9tin9()fJnm@{jC=zbZG@_Wjs!E
zv)Nfg6`71Bq!A89{uI+X?XVbJ^KL@42T=C3Sd<ZYx!NodGRJujl@W!l7jwV5Xh9@v
zNJy$nPD&tEk}QNRX~PPQ?QjOfrlf1wT&@nwtPm3xf^1V9=lrOw=UmvQNNS=$<K)>m
zFr1twvfy6H-ljmZ3|2Ai_{xaJZ^D?kUnNH@pkNeMf|DaL+vu5Y;XSV0@2Zu%K<o-@
z8=xset(zgFIj}}lyc1z%6fil*AyO`lbTSCH9ED>~9?&d4QzK(oGyADTt!H$}*c-5>
z?yxvW`*|e_>C3HSgqzQDl1&(y!J|FYWb@fI&%KDUL2~S&ViE^9{Zn2XLVH6)a%{Rs
zGz$dDjwDtF?m0#>b_Qa@<y6Zdz0^i$_cu>&v@KYDT;Ps*Rj+v@g1OQXa-$@Yf<sdX
zg#4qao&oq(k!}SS2_SN(AX#K*_S=;e_ne{k+p<Q=<J!n2>`<o`v>|1Xl0tKfoGzkx
z?zORyf?Rh`Y=q|O1J8to;9n@v)nw8<-z78>PlX4mb7d@cKU5m7z|k`XbJ<OseG?em
z1WO~r3ubf<=9A?!VLpF#WY`)-k14N!jsi78rUW9z?UdKV>)jb(-g)qz#_l#22q$Av
zTj@WW8>com43MuW=y&9hiGG;fy_I-c66nm9xvlUNCE2hgTvyVzFmB~fC9jO68?p56
z_lqr7i05qqWvLoBg|E>Y?F1msza4C_p8k<pZCd1?J(jAh?TFZ43n{9|?Zp+@-8-!n
zMXnbX&xFz)eiOY%ct~V&p$4RLUn4lUQnIQ```+)OgL&?3n&<p1BeH2~gRsUEZzyAT
zo1fV|uHy;8*8Ws_HyI5K`lh*u<xC_W(vyF}))f|X4YPu@rQmXah1Vk-qoXCQxd^U>
zl4YehWrfiLZrmzSQ0AK>X{9b4qil<z)n>riR8CIoD{7YAhU%_Xf>kJ$*tBBh9^iI-
zA!!@#93xyV->M*GZA)xZA{gaORf24zkHTXXG{o%Z=%kokwz_R78$MIz2Wd)Tnx_xt
zNlb7uqO1L7Nllv!f`TwZzrtAAei9dU3TS>&u+bc?J2I<hzWm)=%mHEYs%kRpB7oT~
zG3|Szw+nqxbi<1xfVj=d48#v3)xXNMqc>na6+^+^GOg%A*f_vK%*kp^nV#yJYj0N-
zIAJygQ%`N>5F$!q1BLLdV{qGrPYw4BWm!eLXDV_)eT}X@(_}uL>rADq9@`RvrE`R~
z9#h3=$kbE2_+Z&ZU5M{>9V6UXYk)f^Rouo;Dv42%OEtF}5~Cz`?4LM0v&xJD;<bee
z*4@|zTIq1R2E{=`PF(Ar7KVnKYej{WrpiSI>G75{A1Jx%Jt)o32v<tjK?Aa*)^#G*
zpK#$xHc^rF2BrXTzsD;Hsnr0^Krz3WWjVM+YW41s<OeFARU(P8z}$IK!rjl|KAHmi
zVOmpB*aAitVOtqX4&lNn(H(}$Xrc{MmfTnYl!Xyo$lthQ>aFzX2_ot!X`JU=w+iZp
zpKC@Fp;<gJSPLl#AxZ|(WQ5zY)+qXM-4GdZVo<GhjxLqbAL>D%lT90Jataj3W5~Ma
zNKOt@0e6%VG249IaK-#5Byk<Em=-jf;3q`XjVa{ZU@U4B3u5bm7q#q}cOEjijCtn4
zV{MWFeoErj-;%gC!zC@+Iq$;O6eY2Q*IA<`>Gx^wn&ve3Hdz6Y6LXZ@o&}V}t+oPT
z_(qI1mc`V8*5kT`*Se2$yOd~9lOZO-M)FBfvvKaHEwJS)Rv%<GJ=7I4YzlcE)`N3p
zRj5@lr0pnBLF($9LHF5G*3=S6E+t7<RtT`Q`>LtrbDVR9hDS>%Cc@}<71`w{B{c%Z
zoAyf9lZ5t+qG5<0R=PD2#Sun97i%dYj9>&*Z3KV<oSlx4$YTH^>EkDX*-J@He%~s}
znv@3&Tp)%>Wh5k!t*KxF*Y1*@3vdy%@Q_FNOpx)7lEDzLutvoVfH=B+JT~PP#v5=f
zgrsys9gK<_4(O&wj^w3dZ~z}wJ6LVPgr;@J9V;5vo&a5CC~gJP>;oqjOJmUi9D)~H
zHno(t7hSXktkg$q8~9EQ_)oCyo2A>1FpY$WG-WNWeiOq+7XjOqyD<yf=Y$mh0PYVe
z!Tesq0Z<RCU_MqBT@g5ZrHO*~T;{kNl(DtfAJ{6K{=?vHnQ*3H&F-Uw7RPdKq>TG)
zc~FtpjCchmJSLah_DTsOgbRyoU%G3!y_2j@2}5i?d!+|MGCQt3^OWZdra8?Qz7qsj
zZRDsbCTkjdSwUA=$iepvcv<~NRc(!rA1J7@6Ud|3ZGNF*Kz0^>y1mXO#@{G9%J;|)
z)7>Q<6-86Hb&9frJpA56eFMqrPbIE-<SQLNM|^}Ggy)j4w2qzNxuoC9)zE1X#~Aj5
zgnBsK+cWxJjNk_5fPcc!QfZ-p67T*I-i%O>(ZU*{paEt!!Dj3PhtP*6Pws-LtYH>u
zLR8But~LuFlsDIvsH|aQ=bX9Lxw4Aa;F3yRmp3PsBUx;eu2gm7z%h*Oc~Z5Yeb;T`
z#_8A!ZdP_e6f^;A<tuD31`_`O!e}PgwtS?rlySALyZL!sZUL}KZh1ko9ra2rWP~0P
zcga|wqQoTN@rA%-rN3Yn7KAw|FY#pK`&+tcw?7LEb?!J!b&2D@Da3*WyCgR`vSh_z
zl{N)e$j}{o-B?u<{K~z~_gPjaHc<()ab*}Jb7ejYbI*j((R->RhEAC+F(di2@QiDX
zvgcR}l?^)uuWk{5H(<I}QUoB}_p+0Wl0JzDZsE5Hd=YQDn`dNt6LUfSZz>51F25>g
z8;&u;X3>7@BQg<t_W?I0+#&-<HUTFItR!1V?{w(cY;*NbBKTZzfB0C!fB+fETy1gX
zHzWT5!noY5WW~8@!1zdaU|lJ>@BNYsfK~$;XLlr|+jDa3c}~jV^vGC2fMUUQh3pp|
z<gRyf-4TwyNJt6h#dpf$EU+v?`gurv3t#0Z$K4?Y{{RV$#UH0DvI0(c3$cC{0oWty
zg}`FVi151p7685bq_xjB3%U4Re%M&Ye>H+b$<Jhk*1}_+7D~+IJGX23QMuUVHPU0@
zK=*;&6p2b`d!)xIC&){^swpHKs2v~!1ga>U&mkk^Bfs53_w$t-<QB<8OHdoYO+=+8
zPUrJ?A*GOWxd}Z<whj<;RFiSLKM9GuVegm+V1>+_ToU3HOQk0y;YkawJf&<1w-sP;
z;f2Pk;E|Lh4BT)L)b!+#Y?Xn!7{`~K@SHcB*`$SG9Tm=OiDebBZ?aHZDNJv1z#%*G
zjwa-CuSF5yi&;wAPyol#8v~I?4JE8dM@38k$SD5+O{_fs0A!W`t!A<oL;=l{+h+VH
z6L2nakd~9mCTw@Aa!QIx^Mab^H^{%w3J1M|D5!xkUp<Y29rK%?KUL3rc~HIJg!F41
z=^cCbN$MXC{nRDIl1l44!9^s7KS9VOaJV<Rhw}{blvFp!UUBFWZ9Z2JZOUk!ztp(Q
z-|9xpI>jqgE~#idgpH|djux{8w3{gyO_VUm3L%y#0iAQ%D82Z~cmmuf5Ed53f>W+n
zSR{F9<r)-gos`Eu-PCi`M#0UMMx(6K)3wF&v|HtEF2*gSovj%|$y(8TtZiph2_LeO
zCrVFy;X?~G%|!mELc`giGJi-kYpOL!BNvipH|kY&M^Vx@4S9M00JI?}x>4^t>SS||
z$yYR;KSKch0H2~ix3+3UL$&IOf7qmZzFfJrI@I`VEsbg+p{9=8B53;}TN41l0bo)_
zRw^B4U)MI@pt2#FEn~mjsekUYtzb?J$`}0x%=<Jmg6W=r{Uk(sBt!K%$L_ASCkAC^
zz*fbg(~ii7=`_QJqgvG<7Fxx!s$C`mF&j_WR#s>bynccEEl34(nQ)edQlrkRx?P6*
zSO<kv{+tYUSE)@*9objZ&;kw?<m1pLxuXRZj}r!4`>9)|FdPdl9bFk<z*TcN#_|oU
zyf4ZALo`2BMPRLi$EW`Q-Gw;Q<7oXiPHkjN{cmXdrpu~9Yct>UUpYT39bQRnvV-(7
z@U}hx04nP0hB2fAl$F|($Tn?)&1#y1jlg>4eq<z{5b+aMsB^{le|14SC6gB<U$QZ!
z^$*D?=qcj@#NBz*pY3KS>GbzG*C49~Q8latw(8<0!y9fu!Us~VEMXBaXSrUljgt=_
z+3cHAvZqmntOowje5~Dkk%E1|BlS7vk;ikDIj1ji-FIa>lzT&~25XC*i}H=94mL{_
zBZm#|;U7&(NwtbM$Z7`>k}hzO!(hL{vwS;Qz*V&@d!1&cO7v!^5?Y6LAbk*zl#`N;
zbqn2_VL>LI_M4Ea9BBiZ^fn?ah=^R-LeR*0HblWJXMmZshuaRMz{pZfHrA8<lyJNj
zi(N-FMdKxNN=nB|Ks9x31my_V$t&!}n;z)1NCWO}eyECQ!6Bix@VhZ2`Zbd1h44ty
zd0wH?nwz$@q!6(BUYzHU;@btb&?(yxZ@H_jVabiAoe{Hh48};VR$r_lVW*I~+;>_U
zN3pQw!q)P$-Bv`j?`&X`W$Q;PQU1rr+4A?|aA)V_3>eMqyw0SM@)x##Am~!MSIFj^
zp9{&gojK4vn^|@EnYn3_%h^*E?yt04nFdOs{VvVbu8~yO+#GmaIg@cE9?wJ4X@lC`
z#a%Z}gKxWqlhXBY00QUiv@}%{)B#{^^j|sTMp0)(WP@2r1Aj|ye3GRMV+HIKje+fE
z=UD?=R3dGP<6pa>>)F-SjD|B}FtU2Cxv|6tTke^z>kMcj;FX5dYn?o&u)6lVFADb2
zESYOaxv$rp`?aM}%{-I5mt71Wa-?CoUeqwg3rOa3avnxJA?Erb9eXBvFOc9Ls;#Bi
zCD0kU;3qZ-9gse%-iJ+l+$`U!x`Rb_+wB}F%gBs$1s2SKh3y%_lAM;v0m9H~dV67I
z+(!z9_H5o$$0C{pqT+43LZ!@=fH;hW>%Bix=f=&>C(W0MbhC+(w(`A)rI=k4PnGiD
zmX8@)I&jI=8#o`ipnsKTr_;7Wf0b2F8{8Ti(ysLArC<c!%a6kH+&flQaI)r;Oo+5#
zBUz`!II^#7^$d>8Y5S>ZDy1$SqpZDW<UFdVnvW32X~Nh6S65MN7x1pXHo+euP;0t?
z3?Lp?k>z-@doHAk_tzR?LtVlOvsj)+*hoUCs-5qU<k>!-(rDcCbK!YzGFq`LNrUD0
zypldj2)&G$G<PVP%CP2^#@~!8_#&D0A<k*F*Jq20a+21G&C%??hI&j=#~h`g+y(2@
zRFTIMKxn}5ytnYewkA_X!r_JK&()|YDg8<6qK&rh<@z2D81W;_R^_sJ>6+%)v?}*d
zzzyBB50y=*^;@dmVA1{L<J7hSiknW>Dn0cRzDwskCRtm5q7J==YOzxo%NSbY@Ur@)
zJv$>UC7}3MI<AMR$pQ4H+2YF?sp$I5MaD@U`!74pc_pp|ak#HwdYp9aVHjA>qMA6P
zb%M}TM^Mm2m$>q>T}Th6@IguA_|U6p>*w@&zfkIr{K;&1u~%IsEV6BLk9C#Sn14HO
z`<A<-V>=t3J{O(&9}zWCLVTOq=sH+)qZcaP8es8}{nb{Q9#|U8eO9kQqI=#qjlp>y
zALA!Hl==+wB#0o=Os)3DPs$5Z(H|QeT+1!=VmfI3krHj;V80PHy+S64Vhn|@!uuHE
z$Kzw@;g!vvXVh=>t4wkI3a^WNhbn5<31u#O_dJ`Mr&EH_><h!mCgj*vB50}opp_j=
zTZMv2<dLnriTPEvb+ZFzHs4hlIlUE0BtczD4Z@|Vq}nnrt(!ECKI6)UsjV$HIq<qL
zN=Sr^rDQJMVB4Ub3&qLG(bUtq*V;MdLl&Cno4@-m^rXeKiUyZ3@KhBO%Hms)wG(Nr
z4Z~F?p-#x$>kQplV@qshJLso$ZgII%I-G5|3C`RcY|Eu^sF9>xx9FBu`W`H<s&3n%
znrx1qoxuC9P;x@xa1Dy0`ZGeeJd2{4cDDk`3U+5Gqk(H8>_9q_T!#&@z(z{K?<yxp
z$w5knq9>7LJcl5u-prB8RzOcJO~@$_Mi2Dzj*2XBETb_wg5W4$JfPa(1ebjdv>NEg
z7`j-fA0hU&HiGgvZ_3(eG>|v~^542iONh!mjI(rSftICajQ6~@#d<t+`ead;ODkLO
zNGa5`+GLNsZwKVzbm8G8woY+z==0C?Hw*hoK-bW^m|Wp{hNmW-O%sG{GDv&1xBlzS
zx`p!3QF9q<2LTDnJwysFtfgRaJmE^ln_kyM)4<cnL^?Kxo)lcDTd*C@1O(wTS;@Ie
zFtPr~eXb_yf~=qO1;)xqi?`gAI~!~%+Us~pCNnJQ9@aN=vZr*-BE!0=^^NUhWh2^4
zcQ^sw=~Qe+beqW_0t$u9aQ$2>87gTS+XJ}#1zS~69e&MB()0wF=Dm#q=J-&_D@p8y
zl1rQ<jEm&mWf7{GJ6c|F6v6>)C8zK?MPLlsGt$r-ZO{yn?Y*!Na^RyX<pkkY%`J~0
zp%mCsv9H}?ZlX87Qy(LWh0?nGD@F{UOJBEwn)#gLZhpvM=^Rls@RHz4E-4GqEi^^$
zxw#16NHx9^M`)YbGI_6sDN5djdn1^%94POU*B>Q5HiMtpI?^>AaeODRc3p3UBS7Nl
z1ZZkf15~&iSg2(BVG|8|@5U^c;_l@o$R#_nD8TX;al(e?{{ZC>?&>EHJ10gXvHPbq
zT_wR!X+$IAX}Bn++TRFx&QzYIhH#O_z)Aq*l=#5Ml>;OR-l(z-Xi$N)a#T}WvW&}f
z!tLas6|xy@4baYcx+-Rr9Dwe^c$A7Hh}@!LclJU=4b;RNctTqh_8A=B-~v9BIzwQp
zsaQ*e){9Gs0dtEipoEb$P}!F#YRQ8eVTEH*_O+hh3qPpudx;>~W~>m8*gUlao7^Ws
zF(g=^oGx&k9oTv9r^br2OQt=}um=j#Nait+9&Kfs)2j?*T;*M}Q3foyeHG%>9PK+Q
zHAr02OPo)YO8h$t>r<&?$rt5PKQ1Q9ZKler2%<jquF)Je1(2i`c>e2Iq8qioQZuv0
z?6#`RN5ac$ZTGm9s+3+cg_+ewi>?q>dQDogmCYACsN6oPcMGVUe5)o#Xo|~#Dceob
zfG&$9yATT{ws=cxuI`nVNK0b@CAlfd2tC$8Xp)@S!2F||`VbLV9#Qdww&6Tk%Q81%
z$f{S_4I^w*p?A4C&co()*^~>#&TxrwyHpRs1LZm;(IqI)gmbJ|2ZR+h!;z=-f|`Zw
zudB8AQ83)tf~BlJ?k<O6&DJvLwxd4Kq?BNV4HxMiN}5aU&B9g{*-Kh1>!pC;F02E2
z%IF3VK}4kXDtdoB;|c;k5ftM5;cE!#Z?M|xu7B0axS6+M@~NsUAKf|?lTv|<BLK&g
zB_SBHG@M%)O2zgAApRx~b#X#JhAulQhyMV&t>{Vg$90%dC0FRM7_y|Dqj|rTcTz^o
zs!8(luu%F|-M}2Hh$A}z7*(`G-Z9F$iJ&lj6sGngE34b>JP#_e8;O<1qiv;BLN6~E
zRL9WBy`lX8C)GRnX9*~q>;}nef!I}85lK+tzQGYgPGoSfP{#q1Yg+kQjT29}7iyTp
zwAwBX(S>5>2-|UmVAvTPS>np0R;X-DBKQd;#)(_1R(fnXvc+pv#qTz9H(k^&Tme~$
z<T5(tDpoa(dyAcNpH9MFE-sQ5Z#K2UwW6fp**kOuiM05D0FaL^09Xrsl0gpE_)<BA
z#@511D!L+#+nlUvU~|YMC}}D4g>y?Cn`>DVg>Ht^!D}O!-MB~^08Zn-J&^$54fETD
z#2X7)Ck1uQ!p1tqM&LnD{{V!?IAX{cjl|~139SzDQ`~MaQZ~qdQZe$AJcR39a=0uJ
zwsrX`RyWB>&y^z^*aR%c3~|T8=U(_}AxhRd{j5`+U@d&CFe`yRQf;;gQ;;!)*D!L3
zwlc$<BqqkeJhTMEZz!M*F3tjDoO>s@j=+@}H+BLhB6Z8MNKI=-c~k6nHco2=&g&vA
zkvH0S?3*OPt;@2ys(4~)1<H=UQ;Ni2`=x9(VHNd^U_S6Z>pxjo#~XumHFak9n-mM)
zNcc<G)JZhgaVi2yNN!V@!c$Og!~*JA<0PlY2`4DXU^vDSxf+=SFpmhxVB-pS;TOPG
z6x7Wk#|OGb#!&-;na(x=Sy9m(Tnmzpq@`{HLbZaOfujLrJYok;LeK^8bW33kb^<my
zfNiZ{nqwF4ibW`nHs_8}l&rggjyR34f<iKqJG^%8i+UaiHW=_O4be=C2_a?%Q4C<_
z>z-0OvBrdrm<34DY^7^YC;O*{{S@0Qke~h(*$-jaNJoUy4lr!6XoP}$728eu7VM<3
zKTsDNfn|kbLtN36q}<?s=}9RF7ev%IaUf%r);7I>PXixC#ia3Ntkg#Fo8<v90!!ss
zy{6Z`LIzd>`xH|ImVw<Pc(F*yhU0|yL@nhyIKXi3oagox9E7l8O&GvE(f|WSKV+;u
zf|F-fG4=-?mkW$paqhb#z7m%eG?9Fi*Ss`x5LI=oj2pOJXo)6}OtUqBo2sotQe#>`
zc2#Dhs+$l9R5R8-XIZ4>RxtZHGkFPg8>s3;pKFy#^=hBBtv2$GqSM_{MZ>N1T1_`a
zjieofeN|N>&7M~#Q)wC>s6(D@i~<(7OVVS8z_?rC9Y?3cz%I~@^x<o7yaGF2X30Ls
z)4>d2S>TlUs$z&(5`Ks&W(M|lKBzgI3A?1QK_<eZVN+L!6JSs?Rg!PC5%PzX*TYTJ
zZDHh;+DAk%lD?tR3x)tZ`AFY8ZdWm&c25A`I0|k@TrnhY<A9WqQro)k_)~1?ilc@6
zq#T>2?SPnf4hjR0Bg*Ssa4eX20m@%@l%XAuIZ10K*!N05b%sYgXDJfj%0b;^F~uPk
z8OidMCuNLvyCm(x>)V6&NH6wA#inz){{V!C;c+71=P9lOIVphHEmnW>fX3uyRlM<(
z2<G=xiOrCdHMY&uLs@Zy`=q<J@)9-9y|INvaLInfg(zi*w&<4z+YQgk3Y3w-0Tdm3
zWg{&OjkVp7l#DLD-Q6w8HYFoE;xLR`DK0H!;y}qMrzZ;p=Ml7c@SAaeqFim|CB>{S
z@=-<=$ApF1&t=%`nr+G`Rw*|a#mZhy$;Xt^IK|fyVU7@H6p>_?u(Iq}-xuza<r4}|
z7PXUmoLwo%1b>Cx{4LO<P5dOu$qCs5izFAv2!#zJJ<@@j*>D8#kZ1l@H3;F#LU^)q
zzu6`;gvbpDZ_XDF=3Q_xbkaqx3c}qBoB2p>#q5y04F3Ry8IS{Ig>(BQ-C!`7=Yhh7
z^8v>y2_^~DNlPe0<?&*mns0;3f%6|cs2?rC%5?%V%1<Q6BK_1amgd(eX(j^qC`qcU
zaBzx9l&08pleXsM{SdQMG#~y|bhRefC^;%!e4C?mCD~&&Q1VcdRDuprZk5E@b0d3*
z!LdV?nTq+GZUzdD&w0P@ijI}XhMS`)=!xa13uSZ^&vlBkrJ^Rl-zv(Ig9F;E;H0;<
z$aXE2^ps#);abyEv<@;+a8p~rx*|3;mhLi@uu&9H<a<Z#r(|KgjIJ+e@x~N#Obc*8
zDNHQRv$2H(+-@Ckn)z{JR1cE{GDe}&INzM8pDuY(Izh$MGD~b+9}0>lC48iJQ9fgQ
zAMT-ammb`GN`=n3K2s=|nerPS@}hL4^U96Hkd%y!Ca<t75V(_jT&@S<b$}=KPud3<
z!p)43#(-~xsl%Haq}bp7$`&$IeSY4jjQ;>P_fkjH?8bk(@h|lWfxhP-y5XtRf<K8M
z`W5DJZ13cIoP9|d{$)Eg=--X`UKGt%q#OFOG<=mjTGc=}oya83$sXw*ryPdnQDl8B
zY$OXj72&j<Lr~jY<gF%+)ORfoap%exBr>LZ9VJ6t2GXn{e+vzu>SAEh9d)jun{z^V
zyB11|M&)rfQ3(JUL04BYCK6nmqG?!M^$lZ5y_FuVuR%=56Ck+xR9eoq`3s|f+@L9R
zTCGM<`hs?z0#xNLhNOr!PN%D@d5VdSKR2=#gGjEfm(;3}#2&|muBFgmrHmg<q=YV~
zQTb+;#@k!M&PoF%eFW(`RSh5o&1;IhhIk_uV_H6o%j^1<N@tL7Z-gs)*zk9)@=5wL
zibt=0alTi6aih3iPTsd=vgchd{<UGT^(}R|Kcgx=U{<sGlZ9(Psd+;>$*2DSaDB?2
zF0YH9Q!8?2r20KkwT$wlZBtKm<`8vsWY|bQb!9=+jFG@@zuj(T;(8lr1ahZi!C7rT
zQ4)dfSCq2uvMJcEG+8vKjub363Rb2>*zv+}<0+vyCIQ4<LomB|Q>f$^Q<BhADD^Ny
zU4@0}DwjojINfjcLG5?ZdG}PnUAp0X&*iXW$iGtcXw3e3&wa_dHVU@w=EYIUJvj)-
zPl{3He4qaSUneivgr&r?tf}17Wm6<?k@pQZQa-7G+UWf<NMs}0FY>()AMxp`NLQ0U
zP|?kcFrrycJ3s^#s-%J<z+Gm9TOgzd01~?&<M1!!$#a*ZBq?WeZRwNqWm&1w)opdz
zkA>*rwBfuDvZvM?8Eb=DFJvX*;exn~rzUw_T^y!Ezl*70rG_zg07|>m=*f_{D%s=O
z%XbTcNnXmU1e$1>fn^kR%@_msL)W#}J3<;3xEqqUCFrD9iwP=UCQk`qU@ioNJ6_Rm
zgyT{p&GM-k0&#NDZph=?z`6ra5w(Qg-Ia9utAN@Hs;#P?d>2?M#kS2HbUL<Z_t+bs
z39wCTAV3$nxl_krK2_XRQC^FRdbZlgrc^P*kh9Kt2MGmRfwGtQ{GN>Dk$p6*wg^t7
zsAO-s0IEjR7Ymbsp4x`rBn8us4jlow(XEeMb4JLT8}hC6D#@mtI!Q<#F0k~ow2_<r
z71a}-NZR5D)lVjA^0%=abdOups%e`LGR_ah)OwDgMq@3E0#*W=cSbWIzsW@kmpI<{
zE58?&CaS1t&>vJ$wyZqZ0KAK>G-%=uZ~=QQVKPKR+#7X*>e?9Ojlf;SdKi3+c;8}4
zay%lk0@<7`e4_N4CrI!BIq<G^jXW}9Lv5bOuAGIfm8HOPyQk#;0LN(Oai(AN&rgT#
zdzp`--BD@L)5HeQ6?TzP9C5bR;aEwiHr5Wm(R{y=mnKPU=!8^z7PvLBn=E#`_gTOn
z*=VZgd)sgd&FYMK1eToNl}{CMmde_#7#(Uiy~LZW<ng(r{Z`9X4HsE@u-(h*{7Kq4
zav&Cr<k=GoZ)A;S&lgr2eJh^vh1Zg5D`eufK8A_&I>20ftv->{kCw!+{>aXn(*b)<
z%dbY!=%ZsB?G|4>=YB!K)J~XUy|W!p)8+<l^#1^|7gKDpL|WEZ4r~{wnkb&zkf^o&
zKAEw&mb7Ea^YMAkQvHhjRJ3@mv}zvWU4Npcjt9C-gYs76U8jljIkAFsg$)LT=??Eq
zucE``sKDi%b~B_X3#Vs1uW;!a7Pb}(V$08ZcT6x$+qTQqI%I8YM+?mSl2crY;fqG1
zhKZ)a%S)$e(U`{Ivy|0F8)aNkYR$L>!E$~(CM%|NPA-c|ng;rIXj%P28KHUF)upGb
zWUUzqwQxlC7h3Du_#riMXE!Qmo$8u}Y)5D|3WBP#dEM@i-1b`zqM{DmMS`f)bb&0F
z+i<*pBgLDa6vpO}MGY-Pt^@*Bi$m$zs@?<dVy|g*s3B-C09kB$Mk*IL0QLj*U0x^S
zar0jx&yy=lMRt$SRJ$7IL>zumT9-sq2u{j&gKliSCWKN)2>v8?`k{3#Mv0)ZG9Lcc
zUr7ueJQo<Fk-0s#cnyAwtx)P>8XBph+<%m<pGkC1qgx|q)hec(czcOj-9JhddWYs@
zVEFi3tuB%{q84bvSa@)Y<t>YHlcZPZojplI6GU+VZuVDff;P6np-2+hbXiEjA~!=D
zhFTSUew!4rkmdpp!n6S+h1L%gd8bfx)PCnOJN=i9_2mJjsC;&|7t{6h?JPF~h4bg)
z+#$NGfN+*kidq{RceB8CXm49?GPa!=OB`@D@=DSERSu&->8pK!lXd7_6Vp#HG0$lO
z$y_<%DJ=_<OObh^2+125Ts)jD{(vc?V0-cKsOdCj#=scspM+G5r=^7cVx%w+E?nL`
zzsGIKfyK+B+h5mdX(`>c%m&!7xn3XE`h@zGW2G;3y8^YHO{&v5raDkuJGiV=vB^_0
zbGwzp<$3QcsXY~jCq)%B2YA78@>RVxGswei6~3LOv7+v6$~40qVMR{R%L<7^Xg9Yb
z`yi_{Vp>kqb*qchzW^vTDWPme#9>BGR#ib!fvKS}ID$xB9V09YoCnvEq}R0uHbNRg
zrforayNS1j-G`MNxgwJ-CW@2!PUn0KDX6HTAihg6qsde?Rk1?bi<9+K^;(p&lHKQT
z)pz2_D6WXOr|i>fb$V4Z3nQ3GC9oP6BDMas?s*3%0ZX{Z>$t9PjhVgA!dYdMp2kr~
zijtAixHYZiT8$@b0dWmgvDQr+uOGJG2&gI_Gw)F`+ur3vBAVTmjRRFsu)K!dz;^*w
z*3t$vkkA%}vsTloS+$RBj{~sbW%V6J)lMecT6-q(<vBgA8gzkNHuwq$&e4IAnNv0J
z4p4>S{qDQmzKQYs4USFOL`MmEz`f8k&d66(lSJ0}DH`?(GAQUfkf&`USTD619L;b7
z%167~ZMIQt$+D8VGS-_k1yL+yIFhtApj#zURgr%w@yKgrbkn*wg3@di#TKPj@EF$y
z4>nYcuskao8kVumXlVMX$|?FCN{x?C>94Jsrg^WQ<}1>)E|;a)-)`&tEN??o`qD<@
zVh1Mc+jI!&p{8r)o+bg#<7L^4$F*-ri^;Pos&s@#E#eYQu)M#nG*(i#YXAhEJFjQ!
zF0In3DcuYbKBh}pHarXcSDVdCQLRYoiiS28UkwKKP|G}VbrPxaJmIubHKNT;mIBe0
z=r!719V8@|hq~RCUb+~=h-mJ-`S}Z#BXBblM|WDv2ere1uBU>>-GSKyC~oUnRubeR
zbOhMRy~>l*JZJ8wvq7?D$8^mwSsu|~Pu)F@@szD=d#N{oFapT|vNyMALr4pc2$?;`
z<wp42Qz(sKjs#sKZa1~KQ$7>jIyf<u=};^pnd02#PWKWn8`(z`Kmcw43RCHUmye~=
zwQh_BG-TYMrH<UINnXGWzp@H!gO9qTV?(U~J*4mw3S#4t-4q<rfV<VO!dEBg7BV_^
zw>{L&Xbl!o?@AwZj?F`)HXkTy4b<clbs1si$>R`E#<u8&v;_#eGLX%iEYk@ih|U)>
zOnfLzmnlGdjs_M{4?!YSpQzbF8bDG+U3(&s87pGAIJ#t!JaUeNunxgPS0LJKoz)6g
zNr7ZMhTL+cnZ%U?h0iM_IwIb0;Yk~;yJk|{17!E~9?3mSTFEz(aF7e9wkMOq0yIew
zy_D@>zl9uZ+sQXlhX66koSCS5V`nK#0PLFA+bQMaYFjcPkP9K?V9r$25>L?z@_VL;
z>5gk`Y!rYC<v<)b;ZG2`Mo7#qlV~8@D&mr6fnr6zs-7swvX~MAPE;dSU6~@=?jYDI
z%IP9??1p@X->E?75}8SbL`{t(l*uDD!k!^~cTyOzhh}AKoc5e2wpqKl*%2gS_W>&-
zZV5rj1cJ^ZB`2mvQI;HGMJ23rWVU2Bp27KAjSbiVW?+wWm_I95p+jI39XLOcZ882I
z*=6-}?kiVO9ijjqm6O(3;^VY;OC7V(ocN-l&bzLoBowkW*UglB9ebRsq;ou?-=6EP
zoES%JCb^|*Ca1Hnl!e*hAqNY#yOb!e$U5tZ$0?v5;I7(5@NBX{SyLs1<YgZjC4&eU
zT5gYpr)a+@q)u`}9u3z+%2`1isG@bxg;lebLCqI!@S`mj<w+IGImeWaw}ixnry1cE
z<L&uFQ~sn=hqpZWOn{2|l1V%$8GG=EsvhMGT-gt1EU5*6`BO|R)0?QMg_@+C*`!{{
zSjiOCqR#u}EiW7<)|0!Q>1oNZ%2XDDAC6SC<XJ%AZGOr~FmRjEf+au0Im)T17k%=r
zWIn@jaDG)~K)e2lkgQr(-pIn-a)+hl6kUa`E`^J15<zJdr4AS`;Z{lh=PJ^REEgGB
zn#WZSW;`lsN4%@5k?bIqOF8!yh6$l?4j1KIGC{B#-DU*49mz#URPx`|!bb~sD~NS-
z!D%-I0ZW;{`A&P>=H!x@On;0obx5iYMvjfAVDZ^?TyA)<?w><#jR^k$LhZelY-Ebf
zGKiTkv@KNxEscO%gbfsJX%=tY8#L`?e1T;*A-Igx>cnx{{gxM~H9PJB%Fn1Z5Cg35
z?yy>&S(ZXU<fZIuNf1^{>0U`U3I>btxB}-RDCx_bG0JtI6KS;Mo-ni&)b<=%3qed+
z0<>?nw(gO!(i$QvNU6(@A5|o0ap71~$83<YR%Ss@O=}WAvN4Pe76SHC*{v1;rtP^*
z286LE7*1g9lvoaXU3WjS!kjO(-^%MB0DLa})2=auXe4A4%8kv*xl)&ROmVqD435^}
zAi8sgE|IN0uXTbsjk!`afTWG29uvs7eh@IBhnw=Gje`8)HKPMIQZx<<!Czy64IG6V
z-Ua~5Qd%=>uH4J45+^<06J366aHVs{DTTxAv4~uI-zkOmIa0{s*kwRX{3j8dWGU?O
zLTf?2%5jh}r?5w$B0@`Bdn&y~t6(;_?z+0UtOm|m-9o#0uyztT45Bu^x#h$I{na%@
zu5+$RbwtJF+UQqZWUYm0=Qy5M57N0hCK6Ku$41+WSr-gn3#s8Gj#Y#)d?`tckrXj!
zJR+iw;=mO=P!rn7`dU+Qgr!JnDQ*I`q@)JI$0}+%TV$&kp#WF{jRhhYpaHlDnB&h1
zMn{uyrj4V5nIXh%XSo(kvv(V!c8hWLP;D1C7xEFK3eQXC=(<AP;~b%5YeTq4QUSPO
zPHu~0LGfFgVGzOcqKe)B0CYei-IqL$=%c^>6~yM&y5^i4WpE?6{{Vp@L@2q=-?~!F
z@nV`!bB~15_XB&BQHR*wb%%Q>!-?eCAqO@jqAdzQ=Y+Q5H^@AtZLBUVRtWChui+@S
zjQP6Y8*HDd;zs}iutvxLVfY9q;r9s14TX;g30zwH--VWilF-My<0%?legcMB4YCSI
z-gl30_fB)sW;hoBC$Qq`2+2RF1oH4Zq-R7OB5RK4Dj8>MK_v-SSlEFZvZys3Oq<!?
z-DMWRlQN1dtF<;Yqz5Vr-9)<n>!4(sS=>M*lx~}&NmF9~0NAR=2cMV8Yypjysov0e
z<z8tzIRriNhZS?CXkM5WZN94h3NaHh08aJM$mHK;T@@gXz%UP>MvvjP_PSb$%tVGc
zp#ti;Tn^`euo7&ZYPq=EWH^#ni<_t&F>$`*_D*0V08c1dM@%rbILPiBf88{PyT3h@
zn?U-m#jY|^xt(ytklnW7a0C(O!cyQ(uDftOidQ14B9Ed`#jI09yk9BJB=f>XIzruc
zdtfE9;pJw=NK0SgAr|E=vGS71O-BGTn=bzVE4UY2c(sW6SR!WGH%gn&33KD_g$y-u
z1Uml!y5sa+pBY3bP5~(h$8wyw;b4tC{Z}6rN=>*(2i+7X$8&9|ujBkDxF$Sz36{l>
z6-}&spoy^;M%81&3t@Y(sS}$k5<~w0Z}&`T&5HpjlL0OGO3Fjc!lGvkp2yR;;>>N)
zWRf@-?7Ehe3mwAY66o3i2IP(s$(O_o%kIt!b<bp^9rzbbb4mS_o7vWcH_5_j0`?pf
zw#ULtWRyZ79f=oRVQyD<U39|Pz*%t#F?$|YIP$Q^Uf)lIgm)d%0sF250I`ML@SA(#
zasKJQz0nfKZUE(V?$O~e<#n(3Of8PR%I($|NO|Y~0EO28Akb{*5pFDzG`L)*83q1P
zpmL%@ep4L(00l((K<||c<rzgpl(Lh_Ap5ADHLiwqx9+2Jj&hwugtG)mIK{b8nX`bP
zbB~-TWS9&2PNGIxSv#a8-u$TDCvt!ILQPj-Eo3B>hd$wyZi%@zA0<OtJCq#tehrm$
z)ptLs4*8t>S?OGW88t~aH@QK{P+fZ@0nR4msiCDVC~|Dn3|#jf_D_zP?sh`8gHCgf
z6_qxaMXrT{(M?Z4^V=R(oi3Geaxku_^!suwRh2y>N9xDX2Fz2_XyU^H%EApPpp1cq
zWwDKJO^QwNf^vniNEt^PGkm9dEM<yWDkC31Aqg#1d;n~GqK(lslE%^fu7{Fr;EQ)q
zKBa)1e1t3Nn}2IlC>rz_`i72F25@*c9#C@BjO`XZ&D1`zI3Ooc7qHjNEslAzh|~fy
ze#lMkBb437*C^0Q-zX=X-9+g(Tm;{XF58iARx!gO>z!|e{k-D|Hs`Xz7(No`KMBBF
zIJ$9eFMNNMf{4RxIORA4Z<O%SU=ns6)@*cy01idU?Ee5q_e*T9x$uRIdsSYMvB%qD
zhB|2AxBD$ys3d#6#mDZR%{2Hwve3awnacc!W<&ikx8v+nAEz;+pRijAG~5zG5?wgh
z*$0Ua9POFNsTsIh_*WV|D+G->=Y=bD=WgfwD=jvG;p6I+;T>mYzop`18ryKT^iBbS
z%PFDL`fP8NqHLl#?{&>6@j9bEL3MRvHXN*;tzRVa`f-v`8m(KLOIk`z5`f7j_ly(W
zO1UzZL$pmFdxWwJlC`wd&53{kWa=7r#~8;5rw<AL0HI&@S5<;qLd)xP<>B0|e9gF3
zHSlg}2_>=O=<;29ic7m3EQMSXG48e3uWLGf@Zti;YFcAM$qg#F@$x5|B1R}SVr~gP
zW!q<387RO%qy*;D0!8e8%Krf4qnGFYjOg{7&C~Zz0p{N;Mktwn2ke<8D>w`YKOG0>
zC}N&*_4+HFCbFbR(VyKj^58nw3eQZZ0piUCE5L`2dN#c+JkM)yb-vSg7K^NBO~YW{
zYTD`I%@|VQ#J@g8tULufI4TH^0-3qG!ZJXVTIr!ZFb++2LUq9Gkd-i%)$#6WSni>v
zE^Dk7>Y=x3RC=8@=A0>H#-yp0i#&%@p^>tj5`GnAu}IKGiu9WOF|Kj;gcO=AWrpnw
z$<6rZl2(l1q<Lj)>Kfx<>vl!xb#pdA2qkMZZ5jqK#5HH>+Z8oQxEMSrc{qQ^$NGsZ
zEgDKXiibuyA9UkcBu3@M3k7=v1*{Mnm37*7ubE3WT%h2RE#Iy+p4*hi>MopPg^8A~
zLpLh(N~mw7E<*LP;CS)d7Byvz(U*cqRaLM7d?RZ0IHQc%gZETbI+Nv_+J1}2;VDYW
zIjE4-(_g}`ng=x83@hq5B&l`<%C?KAq>;BRJa}Cgyj+uisxqCJ33rY{7Dp037T;Rw
z*&>L&tv|BIRZ_k=2qS{8KOR`Wk_RHbL!X|=NnGGcw2~VOkb|g*lVA~zB8o+Kshil@
zPXmjMfJ^yTmt-8Gsi4^FTKQLPQJb_Zbn;31LY10Z-JPVLg=0p}E)}dXw!+~_Wuu-+
zvn@86Fm4-fq6E;-yj+|u#L+g&zG&JXz~xi?jZkA?8cv@3w&eZRs)J5>Xv(jla~ST*
z+6s|t17*uOyRnvo8K%U+c^nVGE2V{uZ}9JAk<D-}a-8W~Zc+K<#z1qjM`G%qQq#<h
zB#V`#gKUrY6qWHo9Cvh$MlM~k(>!ac=o<-j#fr?*Khu`O3(`8Wos}*jmayckhx%h9
zn#5l`FLTE7Bk|KEH0(P?mTH0;-NkIQ?LE6go-^{PG#I0V0!6$l+Koy$A-(b!pX5o(
zU#c1~Y@V(dnGqh*jI5@*<_5Sl3)w-e^(o$1!<AJPOqE%Cm9Y5JU$Yscv}bjg-uF7(
z1)8aVwf4`I=ykNsG2jFCS)EFZ2NDAJd`$JDo^fSPpH1pG4(ny0=>f&0wNmKt+E7Tf
z*7rkeTM)(Wm(KDel_O$>vd2%QWithWw56?Rb+5t(cY82!gMz|c*TvV*$$XaC+0r#}
z)`G+Cvd#59aC2PH>@KLSWHFLn7AL6n_}Jn%U01~MB`K-|q@sf9+Z(3$+a+jdeGtKh
z@#T4Ax{QZiqrYWirS%-rNG)-d?aRW*&R>!#p1q|&*(C&Uwz@<c8V#%$o%Bs%lm|%V
z=(KaU(iT0Jo90i1c(S<m^c7c7*vQHqwZK2xY^!xDi<6xART5S?uOMA`QB#Y!mz#8Y
z9-XR&Gy>uKt2wpE+YV#{?!1z1Qb>ivjs6t0b+t7v7rnk$b`Li$HL@)(&AncrD&{R?
zi5^wXl@+1{4i;-fjij~DH!ELBG*Q9;AX$2z9(Om%i6vwjlibLS&9JkSwe=0FA{m~{
z_Bd7@L0-`tfN(20qfhGU0lz6cpZW5}DUq5<9-Y(g)aqE#>pj5sC2Qz(y1!2QM&gI)
zYDPK+5COvU8cJ4%3xK|##qlGD8n<lXa&mey^csGl48hKl?eMj<JH$XaN+Dq3p*#z4
zx{^s!GL11;E?lugmoDs*{#G#sVEz#+=l=l3_5-QD-U|0kYPK3`XFf-O0PcBTJpLqV
zY^>BIa~ud4%1KQv1}k=9^t~<9*9SGXxn9-L+7yO`o7-jOeIqSHbq1K@-rd|Uc<GPM
zO-9kQGYh5=i^p_w&Hmu^`g191oZ|ZsI19`5he<75fuNk8doO9M(qAhHmBrXzdDPlx
z<?5W^%wNLr{{SW7{EbV}I<Vxe7)j_{?7ZDU`F63`94qRm$vGeol@v4%nfS<FJHVy-
z!03#r+W~|S!?mbN=j?6VR-^qhV=cm?)@hp=u@^oUZXd@^D%m`qL`=<9d)P>4?o}qG
zUnAODUE9jMucY46Nw8ThYG`4*8b<G`zxZ&AwsSnPY^JJ^I#Yb*bWAdPTYsQX{$iWe
zv!wu&*=Y1Lr7@yvs<>ll>`qGThCF`V61iDLQ>V)2n=squXLVR)hC<PTy%$yLO&$o#
zDIqgI`kjWaKGmyRRZ{6Oo&e!PEa4|mD4|N(RwR%(4BZt@*E{)1PokyuUI`Z@tpzTX
zC#DEtKV>P+N1(<gc39jS!D_6j5;)jM>v+1<Yc!HZ(he4SW^HZCrZ3xUEzw))I`>h_
zf%=g%NYE_XA)eCgk!8}wKvU$E3ANEOF!oW1j_wM>3kyyD6|SEdbGzAB#t2q4bCzMe
zDav{^7u2vcFkZnWNs2Ihp`)G7ZV%ZuW*G)txnmhkgGj8@Dg)d@MgpsS?~t!%q!u;`
zx~2;o4p&TKq8?TPK_p`eSezMSZWOG7-14}vGd9Y0%!{oXU#ipX>6aULD(a`Mb&8gH
zY<H$Oxye|Tyn|p7bdp$te(G*=YOKyFY|+zd6?GDNlT7En{mQ+9wxGn;x?<7wSy~qd
zH~<!ghMX4eb_Khjv04|EGHG1t2?6dm?n;c(dkN*<R5i8q)Pl{KgpR=7Rn&C`EW#HY
z@jKDc2_}TqVljs~-@2i5z;`%P*J@6vBss;`2o3in^15)sNo<}*o6taTH{m+K8<3!h
z!o!RwdY}NVuF26Oi+f!(r1e+<vVuyR<O?UH%#d7QUpV@y9QHI^o2ubEoNNeE#M1nd
zNJcNwoPCm)2RkVXh|5&*GB&hc*HKL7i-v^FSP(nh^MH9#v^yJ$l;zg4WP;bqRH$*{
zNSZV5J`^&{A8^*&=%IPBx@fuhS+h{PZ`nDqftw@_?4Hm`O3XC2*G^=2Hvr{4Gyrau
zuWL=Nia@Z4DNBGUW`T@v0_kC>!2qt3Mv_a7%B7@cR#gHVc|pG8zEy=o+HMCZS2Q^B
zd!<Y(K;l9;7g7n|!8TJenA?Pc9N3H^+F`VFUPweoyPnCBFau;<AaZbk206v8!X8%>
z$}(rf2kHd;ASZY(HVIYPsD<6^kOkMx)7UPb&`6(t$|HNCoY7#T4Y64mmX((oRuRHB
ziy&ck#80kv*mq56S7OZ8v+9Q@I8J+uopPfm?54(D58ZCbu8`Z66W?o#<ww5d4mN5g
zFTa%(gTi|nTrfCOh>7fq&^iQ)H#p^6QPZ`+Tp?P`xw0ZT$QwduBx!G;$FerE*FsA1
zdj&1a@_0$<-+^S6$$@Abl15TAWMLM{cRRA@!L$-hfI-HC$ci^KV3jN8VHOByvd15~
zZNNb=StO1pfRJ2v!gC8<@|@;eCUFT1+(7Jxk<Puz!X`#oTFM8<aFJ*>Nksnu;svnK
z-R!@@#nYXS3s<2@cC=k-9X>PJds8rMcv&r8rQz-XEmYQYUr@5TyngpB2eZC$O%$%2
z+}tLLgWx5Rw<M^GS4yUGIMFBO3GA9@J``kOA!^hL(I}qyvXPRLiy>{@J}=eE6kyOr
zvYWXiM&Tp5N<1Q&JP#YVRxulkl~o7oRxyHFvKnwn46AVLg@pUcmZi78R8;Nva;p=L
zeU?!Ek#L&v%920Q0*%Jxf~rK4miw}dBicOuP?W;%N7x2ul%eRXtim21QB}goSnqVe
zEa?r{JgFuZZ_0|3^p3$xE_@_?4P`B8v$(og2Nqpj`iaWweAuN6CV3r_!+YT)o83MU
zlzke>opRHgs_B1OD#lDkZ*^NxY~yR#r-~JmQywf4pFNOtha&u=NxMi17>o`~NUdmp
z+XuR-m;KBuY6})}nzUi{m}hPk1w(+4tJ<^tGD^?Xk9jK&h@Ngi3V1-a0vHRP5!9@+
zNBLO7pVRW2P5$uushrbp1`{bFbEW_T$}47Oj)41H*;+RKm<S389vCbxtPR-Q<KZlj
z(PXi`tZzScS*%yJtUllf36+(CHXPW6kJmLK;zsZ8q?M28A6u_7Jb>%nQhujhERQdJ
z%95Rh&KTiQDi-XPjsoWo3igVexA}hR9X_9oE104!00Nb<;*O2GK((-^iZbV7$}tfR
z!a9nb-ad&?&!TE-U<Lc5n#QrB>0zaqi-uV_(7$zwIOR2nN8FLZ>kDB>0B>}TcW{Y@
zGy;B8!&`i&9x?Y_er!+CV-GuR@|bKA5>9NC1I>`I(8pxlBqKgTc7BNs&8`sumILG^
zX%<~;-xx^jTQ*n}I1)<h+V%;T`MP^8-3Ads;_1Ylyd=08NaOn<*lb5TI7lzv%Z>AN
zgdZuW7IFPJDTJOAi6B^;rn$z}{gyyuNO3EgGh&?0*TvFF?aFR}*pGJ5O0TS`uppZz
z>J@>EAQAhl&ZAoA5;rAs`Wh&jx};o<%ATfBTsx*qF()}t-smJ79szN}c!zPd(nL{l
zdxr?Hc0$@?Wjqwd{9zdr2^dC00X>pA4x$eX7O+Os)0cKc($SlOLbau%00XxvMo1ct
zlHdhr1v^=8<xLDA0bq%aFLq6WWQRy>O!@>&aSM!n)1r>wD3-^IlxU(vO=eBXcxmBE
z7%_zAumheJav4B{!ob-Me^DM$&uxY<gms$YQt}Ic#)lVJBWT*|@=%O6H}B;iNJYic
zNtMKybZs}a)Xixh@S}@2Ax=Eo?x5M+mV^Y3$wl$lmCdpGkh`^(4IDu4*))QCCw9R8
z=>az52~m!<zEW6nyKyNu4*dMAVL;8v;V1V@Bo6$f2jHd!Q6N79>bMY1{{XUQZ-n4;
z%FM@0mXZ!o54H1@Y?y9PMZiA@pgxGD+ro{6UiP|@XA2x4C#(^_87iq9Qk@oZ)CMyq
z%C5Il4F=8%w^Xlw!^)=~y-UDrNx8z@5WnQo3$Cwpjv=Jw4+RxPTdr?ntn|$mXS_Yk
zC+xKvc9SDo17jBYCbW)e<#H)>uAi3$!#_o+q0*#@fZPFPJ1M1zacp-gDIGXz7qS;*
z)LRID@S9@c`>N{NsTv5}I8Br~*Dg0zm1V>hi~Vl0NUU)-LsL}XZeM@85!DWP&C?wj
z4>!tdLAqj*$3fJN1b{-ajNl&1s+z#7I5GiJk=KlsrzgVf_p)`dWQUtsA<&V<z3iQj
z79G-dTnXU-(bfYTr5Qg9u71mb7Pn*=Xybe3CH{eNBG?!3yPki_20ONL5+5aT{V6kb
zj4kk!DQ%RNBn5_4A^2PYwm3>Vq~p5ANL!u~T-`2vr2hab3~?vQOWZE){{WPq{n=v*
z>mCztap5hG$w)yQ1W>GRAlro;oMRo7gm<!u<k;JU=$itlY3xBzv7{75L+yanGiG==
zYNTxDpG4(^470Wk)0hwRg$t&Xv|Yd5b0nK}&+M65$y+SpbBBT5O7}Z&Z=eWB44ZFc
z_m`ZK6y$VcLI=2#cUU9<p6i-8#lq(kl&tGr2zMTMO$7G|NjA0D4m=<M3C)d%{G~tP
zBa%0pl)~1|b+2#mn`@gCrrFQkH0JqCXQPQ63#DiWwgyu{?_|5SoCS=<40X6GgAK9S
zcd7pX*hnRJAm`|f3Mq-eV);yS2yf9Nr63Etg$t%8<3GA&nKtNgb-dXy$j~`ZK2eel
z(DF-gP1EtRQp%7^<^#Hc(;J%<Go<F}yTAtJI*HFLt&+Y&bi(74*+C@jYi@*^w!?(=
zM4X!rbF4Y}`Y4|}8_5cyro8zozDmg-hTRJkyQr<k4iFU;;^*CUSWQHoh#yqeP}E3r
zZk5Qy($<#~Vuv!y^K1Ud`h6Z}fo7{JUY?lP^M8aaR%hdaM{{zGf{E@nwicS3r>D3D
zr}kD<x)h?`&Jbp^F;77u0Bly&R1W@}EiFEZ-~n*5COtW^T!Y7C8wHe<+I#O{(A0fB
z6Tr=au@SYT-?B%_)(ks^t()G+TMK~tr7_#NOm$;_sSQ1QjrN;-qLTnjjj-f=pyoF1
z!WLS$yCvk5ER_zo>nGtlh(hF$2H1of<Y+d!9rC>Q!i?PcDU@i`NhG4g458lQ<AG%R
z8(iZlyKlg<WCn<czb3_Y-u=|O4Y*0L-;Aa;5$z}8CNE_mX|_k&%Zmu{_e*A>y}RXb
z#lYt2+jH``0ys7(SZM9v3yHey<2hVM#!w4K0&D_(@o(86&6gh>tk~$`e(6f!7kx@r
z$Ey*SzZhMAgtoR*ZSt~Vqw5hHJOuW}(bxq2ruMcM5%9W?DfU4t7*MZ?uDHS~Mv^$?
zK<0S~7|2Meqb?R`C0Wr@usd;Y2pE__!a5M_Sd<4$y`%KwXw8&$)zP)K4*ivV-Xr~8
zkg`Tx@q3%DY^u)8G7F{u0H~<B;cN7YaK<+ZgF~hbv9i`tGR+H@qpU4}0G#U-fhrw}
zLnCg2sbH~I595RtP<CvX#U7yxTn+5Ab@Xg;Hw#f&8;!!ItBitfF1qni%bBw;Q>Hg|
z6im}^*<Q>ncu-v4_6w;T7fc1Zb8V2A{W-SFK~}7FhY1N6I6<M4DNdFPzfJzi!h=o?
zaQ32uvwL!jrjP@cl#LFVbE84Ap=oI@006^4Jil4W3G4-eyrYrMvgOG~ZZ_F(8N!*R
z3kk<4mM9fu!97L_a99J9S#ZK~!6JKZf~$lOaICH6K|3zejT+3wWFR{s2P*(#xzr*#
zvaFUTZ8%BAmQqG{Scn+iVSBGR)>`Q5$p*{RH7Lko3(oqEoSEHW!BfeFPfTgc^($Lf
z94x%D0ID@Uqo)9}CYQV8Dq5-!TMh*c{({4h+b=6Wi-!m7&UsB%iof+&zC!DLtcY&8
zGa0pwx5+4pba37nnI4Kuu3A7`f8^oH>74weK-%h>lXpmLd@BkDlHs`|bTC8Q5~hrX
z9nBml<;4kq1TNdzyy+TNKW+1M=yY^+?1Wz2FB{Tz*U^#AJ1fWa%i9*%*z)Ul!te3?
zoPIt(*&PWd?ALWWX+=AQ+AzF_T4O&p;L-?3YQ0HaT2ANeZ-A&Ksoe8-T;D6o^E~gK
zT3RVdDnlk^@DxIrxY-i}3(t_O;iDUFLgY`|19VghMgRc?MY1-&%>v<D)xyRw=H*k=
zJ8P|Pl%FlSMpAD<P&;Vsi2Tc2+$xsJ<BO=Kdx<{cnL+y=i+L-WNogo~XKA^*q;&gT
z%8m7IvA5k(VZMQ7yQ@S;E*~h$D)&kH2kx>$V)+HhveI<$4zVM;w6Lhg*o~T6V=LGS
zZAqD;;aTbIX^dcSqSSUZrvZ8SCX>)$n<*b%QxULzkX1FaOMUVa@Rqsvlz^a)Amj2=
z#oD$}AX=Z|i~?0vL|a{QKXs%O#m(UhSwzq-;d`!}c~W#UDk<N!m_KATr8~VcGkYsR
zNoHGa5VdqpEwe`}suPbbi_3~Ix`UnSmmUI23a2!T;_CBI(t!6k0e>p5@~va62ligP
zGD1<KpOb7kvu|#HbQNm@-PkGYSO827FLKfSc8XhQ7LEcX2FpiDH=_t7_T>W%OkfT+
zy^z|CYhqym+;~eX%IGOp%UQKTa85p|CTgr;E-nE1SgOrNV&YqMQ&*|gA7<hL>Bac|
zKzZoZbq>5-T-HDPtVMlG=aiQ^`B2R?l4Z^(>X<G<^>BF6#Exm?auf{VT4>;z8}h4L
zYlV5!(3xr)0KQc-Kh#L}dXGYvS)#|~dQ}GD5I+kw_<y0w_+x*jZbI~!v?&`+a?G!b
z^D)mRM@aNBRT(<Xq?KJGSY60Q^)n=;d#-I|K}%9(ly_X;6O2kS!IUkP!uBfCmX)x!
z=twF98V$Jeqn}fG!%ytFWy()LWxx81>G2(x4PLTuZu<{~K-r%uxhl^~uyDVXSj!|M
z*pHz0)6`VvM-y~@m8QBWn)ZMZx?33Lj0>yEdO-VaXbY#rSsqSAoGjgbA62=mV+!=z
zC+>(ZCh1$#IlGsl>AHk|m^-Y#>&MH>8s*u+C~=W@V!J44>tla#h-2E}f~=i{a^=gB
zFxQd+A!RzRQPv=c{zGU!Na1Tw2wI9ZN-_ctDoU8H{T>O_Q}q>7+-quPc<?Y57g>g&
zxPl1!ucfuE4xUKe{4sUnzld6Rq^dhbfx_nh02M*nW5XkEnMe3^$Bj%dg5iE_zKiL|
zZA#B=u)H_$yhr|}?gIx4=v^EzKsJHG^sOvvj!L|&mGs5USl+nO-0CSLh*|dRx5yg$
zR?H6JaJi=yk}faVdgHUeBhl*JH}M$aepUXNr5M26+b>0*MTyVc7(ZnM+Cz5O1rHnX
z@WZq$^3F$|>vPl5LgGt71G@7)Us-|m50*y~1^`~=t#ss5!r<t`vE6z0qxgL4nVwqR
ztUn6bG0nX)9GdL$&ZO!yBOM$b)qt;-S!6GBiOxwY-1XnX8CV|Zqb@&1=DkPJ)%5Ov
z@STp<vg6BwOKhZaBM$3sw(P0lkT%3}psv%asbnHZUfcX3Ei*5;JN8m|+CwQ=eDdPt
z-2>~5_!#+7z0S3Q70z}3=@cw;U(=G)`hds*J(lJw+IBz#OIR$tf|9aGMcaF+C)Fxk
z+Zh~wF1d4fla#c|MoA-E)jEwUi<;RQP4i`juBbA|Y<;RJr*p|9+?5Cg?is*co<1i9
zOi9Yg0l(EhVQ|h9;ELo}8>yWgjm^G_l9t3kq6@mfDFqqHBHk3DK*5Haf|Zjw&at{G
z&17-W7n@-?(+H2sv4Z8eYIEtICu5ZyjUe8NhfMZ6+7z)=OyV(hVIGp>k`WA}iV`kV
z)>y8I^7;Y|nnB=w6J1E-?jWD4v3!w6FpSco{L{l)!g8sNxjh-Sk(`#6Ud(b0^m7cB
zkQcM*og?eOBry|?EP~hiP(e)hh>gI)?0zKp@&e1~@*hYywURVgs|`w$Xs2@v2xvXj
zaMNxVHu^3(E<Kk{(bST@J~>1_uA%JP>N?&orHYE=TK@oWi4+!YRT6SSJ#3<wxVVx@
zLcH4?D{V!w#?k>Bl{1c3S{ULkRIFeYx`aC1TIs>$g-C&mBZESKNK3GmTjfU+Np<YB
zjHr_2i`^k%-TwfTOi}G^?7BkG6#05UO^`8#PRqCImLLvrmPfITDbk}^&X|sQP)ReK
zcu~naZ;LK$jd@Ok(C<;ib8n*KxQk^-#$z^4vur{}!VR+D_(&Vt$e_SZaFM}{!OCQT
zWD$S`?4H+vJOtO9@r1&2Yy=t&4|Ja@B1tLsZzqtN;s!!wsKc5_9IkutquqSnaRtaX
zV4^qjF>;n8l`CPtDptS&x-mdw;$S1eQy3aTiLTqgu~HW}@KJPOu8(gPP)WNY{{XU`
z;Mqn%xx!w?Oc!gri>4Mh@p6xBV2hE3&kP-t^k%@D3GkG&Xz}u<be6q>jqbWzvrs&M
z_e>n{rFbOdrVOGRq0R7A%mT_F8ZmV6;4PJb*yjsyppcQ_Nauo~eozR<8>C?OUdclo
zRMEwfiHRX@5lm>d6bx;xa)@Jq;H986#B)edw!noW-ae`@K{&Ej!$C2;40uur19G5i
zM>kF&p7=_g0Gsm;zA%{g6Ou|;m=7gL<}^2u7I$Ds74ERWP-Nd0Q_9@faGAEo>8K({
zgh(RTP==5ayY!-DgnuVDQ8*O;0HR~>YhLMEH4rpfOW(TEXe0||W}FV?d7(Ix2V~V~
z>A|LJ9B&W8&T8!&h*~J~3ZT}o;-<T!)c*jfK=$OQoZA&Fhul;|*j;oZmO}{mNZ>M@
zUGSLm+=S%V$0dn1$M;;rm4yq8@H;L)36b2V_DIU(C8rtry0U~4)muz`)>g1K?Fb?A
zbPZ73ebjKYZx-h0nwH?*4+uN{>ajfe_8P{Wyx1t8i<CnL@cyb9Z+t2uNfJ`nIURrD
zpeg?VQZ&2<SX&4hfGZEe9xGi>S`JXra+=JGS})U{!A&5$PXR$f2?He&D6>*9qLRD~
z$LgC*KGsjJ9{i?LkSv7^5dM4d!gLngGtZRA9AQ467Wl#_%pv30K|PgKNcVTTwvZj4
z3a+R16jK(5(&EDC-{tIZf~6+t!@A!HNKasskK!vT5&SXR3bt?6-s;MT`vNE|lCSh1
z@Th7pyyafi8^);T{aIKjiZOBuu%_S)SpW#!tSE-!0J6+#u!h24p6b&|)2{Grou$#2
zTO6%51uI$EXn>8B!Z?N%ZmT$nhQ(+qnPw4g%OkID40kDCW5$fWv#8n50IbDS#z`-9
zcB{C`N6M^oa<oub_#3^zE6qNT8xk<7DX}10O*QxnGbC8S3s?tW5wHMk0J<H6aI!y7
zitirWc~dD=9YsbY&4yLYB@0;Fke5%1paJlXmF$i?Zdd@5*_>emB#tNQrmK~=A*Bid
zaVL_PQKyUq+k7biHnQ!%Q{ihEU~hY+3>WT5N=fXHwEfB^6m15}uZv)W+gkooHuqRl
zo&h)gly)PMq&Ve9`)8Gm#u85$`X-MT<v7?3B*5Tuuq<;hZ)>N3EJ}<Kd?nlgKqK%4
zxJXaW38nu43A?h1hZAs^=X|6t!ALGnN+=BANjburJ)@EcP=WwMRMc%4AR=zd8E1)+
z_&t?9eSaV->itRkNDsoHs;rUDBsiq7q!Fmr7dgY9s;8DmIP#WPx%s+;-4ue|9g>s-
zl&u%Z2$-X}$}P|q#=_Haf~+Z+IU|IS#1AUYk^o3kZpKJ;EJeg)`zu;%ZY;W%28;kz
ztPpX|R-yj@p(&|=0{KSA5#w$bMIQhRqoIh4-5!QWjwnk&Bw<d-z7+AZAEc>6f0oE{
zDxyOZJ`oIWbg{FABOCC9q*@Rf)&!xal{gtm>D(MCHd#djO53!HWme6&U0ce-Y!nQv
z8NHTLG@=H=?-%;33J~(^@P}i2;^^utd}V1fK?g&D^-}J)l*SBzp3p6R$}JsnLT(2M
zV>fZaQ)GtL<e*^*`z0sp0%Nak>y3cq{48cGoooO?L2f}!F3-o+FMbiDP@n$*5=+|w
zakq5W9N=LTfH|h#bIRgEX(!<^^0lCnQJ`4qU1t9P_k;j=4magPsA^4R!(0^<n!)u*
zZOUa9LoQU2b6qeEA*Yp6=E*dcXf7or6?HW-fFeI|w0c|*4F%Cy{{Zx=tsZVnm(fby
z7J0xgVFTq`=~@QDF54{xZ?s@I5pRU9u7)P^F0+1#QPlL!r(nBqJ`}I43~iXfe=5Fh
zL^$$o^h3I%c0nmyD-2FSRW-Ab{G;rIbxe-QH!31t{&-6p2uRxK@5STSVmZ!n_Y^Hw
z0U!iv76?kq0g#r?jtHxoz~0IdMeT2*o>Bsb7vWVino*`tNPXO4S;c#H1y|Az1+1*2
z$jM12TN<KHJEiWp061I%LgHt#TN@nRaXGSH)>y+x32pFF@+`Xf;|mx<H~}GPzEAc}
z4j^P@CP5`BhS_#*yK!6`d9uSJfFLeBSuN6E<zpT8vP1Mr=V3L(_6r#?3Fn)xJba`e
z_i;_zaz)MTu*0%@fS2cm9^7P{Cm$KLmN2A?@|s)$Ag*w}7dqC>u9*nNx!6!h;cjrI
za2Y;1QAz-9teFVd6z1m%i~zd#PMX(IFt+Nc9JvXLLASX*j9?=2D2e(fNBV+lIlYHQ
z8MpNt{ZphZ4gUa?$Sq{Ew$0^AMe(hSC8T47m%aH)z&3$w{{V!iBm@1D9cW?WjIKQ6
z!dvz{f|^b*%Emgx9>pQO#n(9VoFsFHY$rmqi3C_#Ap;ml<KMDEaEd|>?P2}XNw){;
zkhl&m4`mFJVE+KhWPs$6DR>{Uib+MV6b_VIl>_7i{;pG~ob$|)JLb+fL&+#7xhfaR
zGn6~$Yenu=RA}awS0Z=3T}JF2pk=Mv4XuO(`jfw?1lCI1EoGUlxw;N&%qnV~N#x?l
zH`Pxk7#yYKBSo!6ZaF~BSWg5LIAqU0<W)5Uk{mFT;@3jhZh;JvNO|svrDTBLKeD)@
z(PVRl<2mvb-5!MJ5Ir)09GO8&6pk5aD$<Uf_XNlNmYRz|+8Rg!TEU}6(eEw#rF3pa
zc8;0Ek7v<bQNmkmw%G8kA)u#auOLsgGev}g!{KW}_6--d!)5KloJt#ewKem=%bVXG
z5S10p>`?3>kEpoCkkZr~+?ya|uC{W7p17O~gxpLQJxLcg2pOsk`58jVQtQ|PpmBT8
z)iR1QK@v<ak}RN-d+=_UVvzC=!cBm3n?d3<z0SfyJE!f*%2L~QO~`bJww^87EwA7A
zQgY+uCX;NO+@WTn!aKJXN$HG|Qwy9h6HA;z8#NM^SRO2!X4~}z5hs+}_rKXT#iC*w
z4o}Kst$Z7($teiR1{ZMdkmtEeVQy@YjI0qZ1{WT0a+cY_2|&uhNao)D669LRTWhC+
zEya)>A(=g_lW7;_NpayN#ruS#RgK$>Wi5|{;^A%*U;gEW==&A44j^Lb$4_^KZYm%H
z0X6k8l9E1LS;qW!QaXX;+iGCbUQM<Yp{Fd6;9ly+o{T(SXi~}NLN2V)@tKisobWKq
zDOpDLoV9D+M#hYQg{X!$gMbs_@}n<imI*G5^Xbms6cNFB1;=%5Q6x<STm&3)#$>@&
zoTA3X875k3Q3mb8&{GRFQ|Z<=S1{jbT#X%woN$-nG+j9<hL)k`Wzk>Cp_10{n#@&I
zL^7%Cp}zrNRS++gSvU?WrxQ8yqdz<cI76Caein<+Yl`7W)!3w{;CS7c_R|}1m-5H@
zO3=2EozuT6&j>bxpv>T<J~>3w(;e9#MRq9Kb7d@apl}cm77IfKtgh)9U=%Py8`&EZ
zKwP;|*@z}C5iH{fcvS2-T+F#B?w&a1M$=^R!p0mDjuS^I-&Kq`M<zm23gX-Ho-9^?
zsv!<SzK-LCZMAS`l|;}sW$U!f?I4Ag)w*oT^5DhlK7(DzQB6X}57H6S18ng+o}7Gc
zH)+BSZ9CHzEXZERU8OO=`$Ep@8Z37wXkH)Wyg6oCVyM~WHLy8^*`zAD*z4GnZ>rq&
z4G4v<A-Pzpw#m5mUm-Zl#+@0UH%8HtqkD${gxa4_1O63!l1d$GuG}6>pJc9?W4WMm
z3W`|>ZWJ(acMO#)_S?#Q(sNra7J#RcLT!5m&<65yQ)f4KDImCY&t=8KMU^tzkQ<9D
zns}Wfd#XA~n$Rw-sO#Hn1<jed&?{t>G@jC^YiS1S*sW_ECLEzFX&72gE~SD^J&(l3
zy{=(C+aV@)c~?55C7{?UNf`3$oG(f)(U?2hFMd=nW%K_42*VLjNXKvn72_&0bO*N1
z!oSdG3~(39rz`~g_eIcMuNLyFH_9{`wt6O+KKR9~rm2L=3a#nT=Z1lDw%T5o>abj1
z>&VIDWNy+g9w`_p^vPWzA-MV`w@-9r7XrOVXmJMIfP}5mAq_YIN#vX#7G(s_F0GyL
z0vgMGkg=E45J*~XprB(UJ3t{;(9)3W0rXv%l9IF}(*tEOw`(D)Vhm{uO6pP=ab-=a
zLf{W7$y3=U6Ctczk^oeu30(Wy-({k#jF%gX6eh;D_qG>)JhZ6;fl(w64aamV*!BWX
zZwm5P$7>P-2Cvc}*p3%gERts8QPtKK1CpyBDV_Ev_eN@LWy^^Qq*SsuTI<!r4O&E`
z$>pURZm9J*+S07*wIOY-RMk?MU3V_r5t4Sv&VdNJP!hY8tFVyPjII9w;l&#&D&x2Z
zBL!euNFOUt(Yndg>SH&sX}!{9+6-#;eUJEaq`=x3+~zj+TN?Oaika38;dp;S{vbr!
zRtL=1jB-|sQv5-I@a>7_N1n~f@^j_IkF<IiqoSkn3MRgC*7sQ&8hwWDJR`M@La$Jn
z(>xY8<mFa=V&2=HSI_x5l=Tv=CiEFmC%0%SI(8Qys)>Ne>;B5lh6e2g#>#jxC)qi=
zIyP-+PKI+ExHv?-)3vtTFX0dAmpcVhCOD@_h>QIrRgHuPn|;>TM%3byYgh-}d1#EY
zD$hx-mI*-KZS`J{iqsGrJ+n(Y$SpjrMFlMKf$kuDFFxpfL9&(yycO$OL!&UXf;e90
z3~Eufb7YltbuAf$1Gtn|<^+GJ+Q^5wfvS^OGfKk90R;E5>;4P%ApZce>Kf)h0EZ)E
zcIJa+oX{v{g`?DQaXwatJGGfq^|2EqvP+99-AhoGo+9X?-bZDM)Vi}?bgqgTXrdl@
zDs!5Lp_a|AvsVlh?t9$O0PegS@eZxE)uhK_1^8M`PyJ%J?yIVi*Zy7t$@L8}rD)&Z
z%2`TWZK@s#SxeJZ?$YbTjt6b-Y`wds`pZj}2-xb7*W0@AmOFf*t;sws*GBZzwQp<O
z(g$_LkI3>RlZ;iPWyc8q%=VgXUYc+{DH{9uMY3JvAya5NGbtfx4eiRkWMQKV)LL8Y
zg1G}s@Bucmsjk&2X|KGO5#TGjn1Nv{Ev#wNRn!fmYXWt?g`067Nm?}rdl_c-R@C}y
z9?Y~^38K)7U;@xZhJb_pK?LR5SvHYOSV4(~{{Rayt#n-lX6@AN&%)jkJJ}CBvD()J
zp?3B(v7^HJukg!FbPn50+xEiozP0>66t5nXA&1~$eQ&Q-Q9}uI<P+F0ChH<=Wg(Dl
zXPYLHjMY&G9xqJ!XH?K%O(UA&!R)CgqA|Y3nO@D+^mJ7FjYQE#2a}S#t6Hw7eOYV`
zyG94f@^ZBaQrXcPt(5XYTicX8u#<cc71b3R>ZAnRd?RMkUKni4rnwrvjC+^?wbP>7
z2qha|MEK_*H$DPNZ9ZuayM#Ve7KX(qU^1m^E_W1UbOJGQ5c9Y-#h|IYiM<1hLkw*=
zQ`1tk=E^7l4)+`UBIBuKcxVKnDYj}3rltX-7)D13Z|MMG2}LxLxubxtAdQV}-EJ2)
zSV`@H$ySQ`hLF;#s@(9>(0+>Ux$GR_RY@6;jtUT5QKE{!N=aTW;<o({H6=Wa6)iXN
zsA8mW0?kL#zw*VdBII$5tKjk!C9_IAk?#5qr>DnC-K}WH)Ro%Qf9eoB^7N&|{{S<F
z7n=0{09evfxH7huTMy<9TG_uAC@CpKI!=!zMAo+HFfP5N=V5WVGD{q<qZ`&;Fv@C4
zs;6jeh5TK4q%9@Hw0B#+uhzPksoi?UvKTLR#Tc;rthGfO=~?e>mz$f($C6gGj)-EC
zK(3e3jGSFpRq8b|ds^Vod?(k=2VhlmM3TD+V>>}{*vU)Xea<APeIj$&TE|4<F62F2
zdj{6?-71~B8;u|bFgLx|G!k$Vje$2)LA1KY!B+U9Y>BWJ45^`}vAGD?eJ<s{x_pm}
zHsc{eSzC04?5~;I0RVg;$$Q;<e(36fa!rtOTyU!e>?w(I(UOCxl-~yTQpiqjZijHf
zvO^I!ad#-XVnviqj^rDCRL!$EP6q5GI@~TD{Gr6QDa@!B$Vov7?QE#zHWwo)uB&Jm
zZP4=0=Np8^q0W9&OS^?1y7x#;hDse74=(wzTnBQIoT*sCQnqF{gsgV~InnJ=99;`A
zQyc)vNhIyDutR3vQe>P0nKsN$C%w5+i3t|AP|R-yN-Q#PwHSGOh)oVRxlJ!<1cH-s
zJT1|XOI|I=!fb~9?xAQSE1x0pWNgDp>@bj)fy#-`CCh`Y$|12{LE$4n8BO2tyLIto
z8Hp}A#g`it)`NU~l!3Qey_=(hMZ)74P8J;SkhpzNYzIXcC%T+5p+v`gr*0>NJ20*v
zDTd%BvF=l>Es%>cV9$Gk=16a3>6$nSHZa{}k(&#N`LZF79gxv6#>j>?->9XMF#D0+
zG~A4o*FM6-As~4_DN&AbH%%@)r(YgaPbS_IS&lLroTM(kZlZC%GPr!8%!z~AS8r{K
zj1PpZX}$u<2E=d$!ph@B8(uQ1wwvKwX<+WXl^;d0KiJZ>;6$i(b8>7Iz1$+W<b_45
zIs1-sr5dx+n{}e8@tc&>89zklK0tZOXQ=-GD)w_Y$Z3Vd;V{JOsf^CI!fT~Q#A%S2
zPt_}7BPmSB?z`7_g{&M|D_BQm&Tdp<VpGJICdo=gG))72!wTM%9jdO8<9Jsz*<k(F
zGjG^6P{M)__W<&VtZygf4*<LEf4Z!CIcK2eH{0-sp7%zzwr?m|?YE!0s_2hoaGN+~
z6kKg?$T+`Oa*6{T@Pjpi)c3vr0Cf~UsZCNapp1>nAeOXz4iOTOu;0QOgy3JgB3v~7
z$OR&oQ2lrB*+)(knt}KEOr*W|<sjiDpbV)gg}Lw9G2D1gh?^tmUdh~S$7d?4r}gDp
zJQBm%R#e}5WCzf+uI<?z53tzb14)uBO_hLX+OsEMH4d}UlusKxAu90fDX4f@V5*0I
z4Ck_?sWx|&aWk&N;@qlwfa3gjMFxnQlXY>V#!G?ibPXjtq<FBtR;Ng!4ca#Hvq7@g
zNn={UgK(|kkTf9RV1_a9f~&3!Hfw;&-2<}Ts-?Ru<MOil(}az2;35rSlLX`-wG()W
zJ`#m!#cFI0c~z3e71p5Nc_CNG%aetMusB<1j4P@K8;fwOSsC81G>T&90(e27-ixg|
z2g(6jT|S3vL32==91UO>!o6gSV?#n#gUCmb6EVnDwG%ncIVhUBT5n^N3$kv4L9?1k
zcPd7U3lFM^w+D-<E-VN(D?OPC<7112(tL2a$2Pz2n&WS($TU8~$l)Oe=$ajF*<Evc
z_(a2lZf@dj-6;TNHO{%RX(XJSEMuPGg$Xy$bm<NJD4mmpP@<lEq#cp~Zn%r!6vjih
z0d5mdJgyOUPZ8TBB?XM-aUUsNgJj(HMH<B0-zkr9YIB@g({iio>YB!!qV#LA^)+FQ
z;Zf>3fj9&xbqzyvND7jAg7Q*rj!jimUT<_R>zt^b`=xEkvMB<|n%ji-#dBn^Fp>%~
z7*8lRYHS`VbZtBVOAI91!z#*-lKCln8iAvy$ilLtr#Ag3;ZGeV&^w~yj>5|%G9;vm
z$K_hnLvRSf5}AVI3gQNW!Gz&LM-T${xkN_G45eTe;Y`Ngu}LOYC|KGygz((mIyMU_
zqiw>Ak<}OsYel&I)5CwVcxbnT=70(oRYrz}=Hw)>@}=9yh1)>l-V(Mt2Am6hm2`lf
z%F3qOPh<<M202-F33Nc#o!AKaHgSY2Pq+kqDFLUtX)z$!OnheJ%6A__!bW6po=wIv
zZdA^sCjm9a-SE2p+a|c%kW!da!fl0;Zq2){-Y$wpXL2}Pc*^2MzPzNr?1;7@1UWRD
z3zC~8t!7+ssx=K&k%AiQSu#ZBDi5lvWNmgw?x-~#QNrLp!1fBGQq~^gLvBzJvZk@%
zkl+;~1CK9}MDxuxM4MXk@~m`yFFWKeB^RV<p`osONhN7$sG8RPn<u(B+}wugbgW?Z
zw*D2|c8!<H5wC0l&9~J=>X~1Ay8%tu(Z^vk&gl)UkCZITHoKXCQ%vLlc`1%Aeq4pL
zc4P6-#~c2Tk*&4zRE=%0I8F`hQa0Jw3~D4}7)}D_{nCH{!AoxFGNXI)fvfI&*&J>3
zK-OaSHdx+@$vpB@V3jn0IC7X+E~<`a**zIIva^r$jG!pv$W{ToTLDf(z<A??w@m<!
z3Q!5}biJ2IQFYlS)=6W+;rk!~Y;%y3$FaKax?GME43XPUbA*}w(vEU+yZj{>Xck>#
zW!t^jTyj>RF)fRvBXIDX2Oy=ka+q5gZZf;K0XT!<b&`Z)?#WM_uI#YGO}?oe_D&|<
zlN<%Ha<CYevu$i96Z3TJTgq+hiV=-<zjYh_Q`}9ve#$8ix5w2wCc!4<$|eW6fYztX
zet2CC&8=lrbLDyw@z3NZM-;^1g!c&#i>E-@NxtBny&TJICJ3e5?tW6s9?)*`eiX5_
z<+d&gIj+HzbtxS<#<%q3l$fzf8~_+x;xB<^Gp5EJrs*A%WUl*NFt~Z)H)6Jq#j;Xj
z_w&k)&$oOiWSYXs)LSJfBu@8_i>RM2Folw1&QvdylgU(2WF?&hOFt(0L%v*_C|>Xd
z(9+afg;g3kWtGS!@*8rXmSzERcvbV(5qmg=TUA)&e{n|1?6s+^XuXQAsIFi<s>y03
zb?ko1HpL`@<diuBqG{_#13yGLk<uI469pCj0F;t>R#bXXeU96FA=tK4M@r|o8)aBh
zX_G%YR)UvF+TeXWtBPs@#t-3v^g)8m?G}$ABKE)0UQuZBGz)D6cPicraKUj97Dhtm
zGnhk)4Vml?mrRn`k%P^Zgfx$6{{VbhIkljF{JTawDBq|H8$)X)+ch$Fw`j!T!8S>Q
zaAiMa6q<{ML=6Mzg_luz2lzlH;>=h}RMB&D_b5s0ZgG36*{ca8@KDdIcO#OSKna!;
zRvYHQ3nfW&kWZEFB;46B2OIm7aYH3xZmW}S&;^ucXS<sP4%1}zG?CBjg;2^PjE}b#
zO4qp|Z*%riV1Z;xD2N{OZwU)=d|Tx_4{iBf%3B+W5pH~?vAU3preGf{HWd*I4bDPq
znUwtP$+~H{0c!(^9>7O98BHx7Q_b&km_jxyLkJ&mnrsb|oI*qOOd~^lA03wwpKX%l
zc3efW3cwKao>z8GwY(&53f2^k9InSBDL~|RN`4S1gabAOa2Ux>Z*+&xWVSL#5s#wo
z{{Rb*ZplwLI7?v@7XtX<Er*ni&U~)>qh>zbeHpd_V`z@+oU6}BCb}ROn<zyhwhKp2
z*zN6BQOF|*P|`c88q#|byxHN4km=}cRZGY_0lKHCZB&HZpWR-F2_L0K>To#=y9OA<
z4n|sfNqdr#nwiXf$;#1GLN@TLoXxLYsgq&aaIgyQAJVC4PDRz#IrfE^2}S~NNH|N`
zA&yW_dm=ee$lI)9p0fF}tC&lBfL4lFfz5$Xnr58Y8-9aGpbng3$-(mj!Lq#kt9%58
zmA(QuBXEgKB$t8;aF$Q$R^OFxfV=Xo@QRea!SThFpO|?5Qd5~#C-m7^8b<hBDI4J)
zayQ2iXzE^UEK!v2bGb^&W{v_PD1buS>^xHFo}TE2sACpWH-dnyk)=Eo!OD2$U=Hk*
zE@vrhJS<^X6o-Y}eGx`y9v2Q$r0$pmtg?HC6l_v<PKn6^)HdL%ZALqTg?TVl)o~Zy
zPEhBe)1+WJijc_H06AEC-7JTkSau86^(r=&o2<5>M8Hl3myPHCBjjA7bI&L3v(GAY
z<Fxx#HEjuDzYEc7>7#6C+Oj(C)->2J7JeMCt%Wqqtd0?1bBIH}rOv|zuA5x*>KolQ
zm)t=%QKsI-Zn`_(<8p2k(Z6rWM8{4a+qWuVNJDZksVpu_L&j|t@;&Yz&~Buno$Yws
z>!(z)tQW`C1nHZ5u4!XSM_eBxSw*O^tpJ>(pHgLKvAnE(C0klW`zyMAL4W`<QZE_F
z=?vvs7P6i12H{tKra8ot4c3C0&Zuy>!nvo@82G^=>%SL;Cag|I0<wqGVIV45-C{uH
zZ~BIsI9Ns7b?23>wNbZ|WV6G;)rQ547iAek0dvK_!itJJyXvj!;@I1Qla&R!G`%SU
z{YKx)^(`tEwh@tgFC@|H{{SrJ-PQ|lq;(uZFgF5Mv*P&}94bguoAzwp!Wn<^sdX}T
zk$kR?S#0gYhE!EDGC*wWmF0d%1}v`Di^1_SddoqO-sZ}(7Z$$EVEUfRMW|92IFc1z
zL~+5FS#jd=rwCd>l#?7Ac<%RIRO)cFwAo8hsxmM@?5Xt)Q*%haD~V#w%zxI39a_wB
zBeKcs8jq#BY2YipW~jJ0-C;GUcNbi*r0_6uu0&@fmVs*ZxxGRIvGq`mVD0xm>Zxjt
z-atc;M=R+e<72LlK5VkB)ZHm994h|+QN)vcrhrq~5pl)tx+4g|Xp?rxi6q|lDTjiO
zWgFd_B$kcAw*fcF5K}9U7q``QtUeU7#^#%CQJaNC0Ug4Ul%3+<RA=a>qZt+}OQRbe
zl@dMeZueUly7i3$o;aXsu-ryU^3Ijs*S5iWHkVN=AqP0+e2?W6=PHTUg_c@@01y>p
zLqqOLj;^XlJhz1$ZguWY((BHS7X`BJNd}oi1`1=UWH{bb4s4G$V;p{gO9c%>$lMD@
z$WIzwnaHrA_Yt^f%Dtt9n?WQ6QAbW<9_QIvLgqIf<Mk?X$xlSxu$g0y*f;thrDTEE
zXe!nRu(xYiE{cMI^SlDz*>qu+S-k<OC+NDGsOlI!LeX{ZeJfcRfu>r5apic`6$7bV
zb~8Rzk=ANxTXydH1@B?=76|^trH_&B;<}hN&2S|?C$?u_vhdwMt!mpK4*)mGTHPzJ
zpoxRkwbx!B$>E;cB|I`mtkSiis%I8~n=dMp@lKLAZEZV`&8!hHek0OK-OqCy@paI=
z{1SSRKaNY$ysT>+2wB>yNIi1m1=eF!{6(i^WK*=g#b#<c`nB&Rv4D~OOA3`IVfZA~
zo`YQ!OpLgOfIF4t-G5Xhn`B1dcuuM69Y(t0&vROP0;+4la|wP=%BD>J03?5*p^lg@
zNJ06%S&Wd_0=|go{W>Tq8DKAE^PYiQ6&9?=k^tPkgy@}CDvB7(Tn-mci^t;qPHeaG
zY}YgZEo7;YygXbK^hzNuag`I`Y2YcBc3SAoSPX%&T?am(A|I(Ptm$?gm@6q!JE`91
zOkVP+x7i6wv|c+>mRFm<V^j~+9V5LsuH)rmwXUaaI4x^-`~)VO)l<IhX^s*7MBJqL
zAe{=^HQI$9{{Z7uIAh6PVfcqxENqdK@@#12j#j3-U8Q6WlB%xe-fp~;@f)iknX*Ge
z3*6(&-N)>?JfAZhR~soDZS3*hu+$`;vR0S5)^W><&Cs#3RDTiRXS%c1gp*XsB$xLa
zs^+z<b}{u_(UMBg#{U4NpwpsgmU);5i``mkHM)PMSxEtr*8N0S1?RN2?1sP%$Fi}D
zReO!gUHhoyo>}Q>4w6AL>Hf6lM}c$ME2$!c0Bk;qkJO!OY#H;)s?@7zlKWj?R6Z#L
zcC%GY3rK6T-DiyAN0Y$j>N>W}_Y!VNLAogmz1Lk($4jwf%V_3=57oH*DPudcw;mNt
zFA@I$Ey^xBiDWit02J;Fl$$Q8ssvWCvM5%UHwNmmik?Xg$SU5JhQJqN3R73vts)yf
zQVCWXeHQl&7ayW@P&I@r-39P6KpX|sTjQXo$%W}XJ1s@Ohhg+r(DZ0?b06BvPtvSp
z#kgn-Xvk?}i<XysE<CvBC2>b~C_#34480#4AMRji@~pIelBO;MMhPDaXRAROJDx*Z
z^*~9jX}V-2zGh>=%Hqj9@KqzK7~tN4YI<6kl;!5lu<*R6@dlO{H!?PXZtHE-y?qPd
zb18^uw_?1bsCAcCJ=Z1fDxM@~DRN=XqZraMRWTP!w>P@8(e$}ya1FwB4J%(eT_<zO
z^d6Jbsods}=3C^2?R=}F&rofYQS{87j`tUzqRw?K2jru1BFE)>UZYW>P*M{$TO8m&
zOFOR`>)l=rLaeftyJH`^5u977yB<-bVx)7)HceyR4<!@nb9^oVjUZzG07ca5j%T5<
zzEjB|6&?V&NfQB1mCb8x+@#fucE-sd0Ni8hgO$YRfSmU@l*fFkMQGJT4j1~S5HEYF
zAIY*n6QPEO5x`7yigcDy5{ZSs$w_?KCnncjYY&u6NWpPq!f*{ADlNoeIj*s?+X*63
z7URN3I>#zzJTxiEuoA&f+yql#u*gG4QsIG*qLkDS+!U!lW*IvG=I6o{%>b!pl)EJI
zpe_lLu|&5iLrzEuRE)-OokU@wr^-h({gaEW!Mbat_NK5?2b0=)PKo2nj!Tn-#+wp{
zVGj;&+$f}V$+C%u86`;E50s3<Hs<NB1y5s~q}h;)W@G`j7z=|)Dsn8LbGs%$Op-qZ
zNC*K7a!wP$JaV%ME8H$_R6^$~tV&zh*c+ut-ia8{r)veiP@&{;YpEL{;_EcbO7I#K
z4wEDTl!EMBrUo0JY97XyWTh?Iq=mTo@|@_22-%33_W}YXrsDUqgVJy|Dec?>%vMN1
zy5V7j+a4DHdz`6^DLCTFCjvr{n+tN91=dC(+HRGN?xxve!fCj|WXyD994SjZo)l~#
z8!1GCY4};NQ*4gbc2&NUl}jW2_$t>%ecUpSqoWF^vqT5*@op6!rre%Zf+qg}3i#nt
z>cZCrB6~eVv{5`|MCOD<ozyM`Q3*6gMgGZ;9n{>Y-{ht_+99%CxJzuMunQPK+bICT
z;bYx)EoGTlqIy?tcq-<WKpBjxD7nJ5rQsBb&63qSb-O4j&$&rCHsM7D_o^<AIrdsK
z-Izhtixg9E&QP^37s92J8BW`|8UPIWK)`+6qiuGhKm@85Y579O$+9k_5DFGA)$~}_
zSkVKEoT8q6z7VulvMy3K8|5f$rqlr3R8;+~buOW8+$ib(sab+-NK(QLuawT-N|FoX
z`=X3W@$4$9sC$*WjhpjjQ&)ZDqaMsQknJEV0Pkg$bvekoJ~451n7Re2%kGGyZQ7%#
zjoYw_q-~=Iy1`o?ErSooWm~X5Zab@4T1fh&p`$O7<-O5C^iQNwfNyNAH5?6OV348H
z=>r%EwZfLJcEuU9vt^!)wneE`HaN%!AS{J;qFpxDp6X41Qm`OBW@DMs)LfihB6d9*
z{XSCm+^H*^eJgW*$ZaSeOd@Ls@c1d{PiAVYd+d859@~z{>YzPBqmDhqDU3l)PG2Cf
zT3s%fw$};`I*eQr75yYTS}|l>857h001cq2#F@EKv|wL^_gD)g>|`W{_`lsU`L&lj
z2f9X_j_87icgS2uQ<^{)ElN%B)GmfZUpY?=7Dz!P;>p%L-5WN}vv0=<kG||D7K~*^
z;pc^{L9Qfnn{sn<n&D&0ZTliJM26keZnqad3$Od6B&Gv6k;+^6NH4(&)<S`7?bZvN
z;zh2L?wIEQJ0fAkj#N_07~GJeo}e%)it6rhWH}m%tE-EBqQC{8udaE$judsZk9i{M
zvPYL3lsgR$mSXdhbqUH<BN_=up@udxPr@b`Gkal46hPYH7ZiEGO4t%Q2&@J$jfNuZ
z0Dj47sod@Yxzp&*;CA6H4@5L{MB57Lj*v7AA}J}F&@3{KiXUjd_)IkwvP1`Cgp6QE
z)Isi1h^$cd5osFG@%`1TO%@<x$Qo8!ORFXUWLpelY;#8nRy6iV(0hd|Mf2H0Qadrg
zd}ACbn%}Bx2MSO#fTZ5el!XoOES$#WbAD3p7v&2Yj@#um!=K$ayBWG=?|+P}9)YSd
z57h$ZlzmCU5b<t)>5!A?g^c%Ky0D~-+WA6^TIlLRHWPoF1*Om-qF~Ws<tgUHBTsa$
zBhD1djXj5Sj%e~QyW_fRxkik2ngz<^w%IAS&%%Ov#9)(aq9bIINY;*UfveObiKJg7
zc~!cWrE7+}m7J`rmPc4Po2n?;%{<B_rlYHpNDesgsV17DsrG0j9DFJ0wArd;yU8JH
zbbSqt0KPQoBymqGk)G1@XGr_W!Sc1*UXu)M1Z}wTttseYV{RiDPJ3fuAONu{ZH;U(
z#sJ>S`~=C}k8FXr@S&8C>O-6EHo8-*9t#!ib^XsJAi2fLa2Xg*0DK_X*&Jyc)_ee-
z1;v3#8{X+a9D<RQNPUHuSYX?f&^)EELt~*0g~CI}bmPU+TzA65A&#*Y$^xuj<BzFU
z4n9f(uz+vKSu-#vHq90vbkTpRkiE9!gw5dQ$M#fA<dxW6CC!QOjRacADmUDZZa#>y
zz)K>KWP;tSlIb|NbmovO;uOw<h#;gFA4KBvcmwuHy!?L417ca;E|Vg_rQYreX*VkX
zQccOqKu$&Ol;t%1aInJQ<DZ1M7fF<aa#2FIJUDQd2fkE$LB*5W&;lS7xN=iL7w77h
zz*~fu9l1ngBa?aUbmMI0AaNKL2nDeX`;2x>+Uwk1Kh+~7e`KDk_!a?RHpVy-KS@j@
zHp-FCdW_-3*!`9!n`Cb17Wh%fJ+|-Ushm9C$_bv(2(h|lu^R)JfJwJx$eezD$z~&U
ztW)7&Adn6FWmO#cSl3A4a!Qg391XMeNciqAw5LMfaOFK{=TZ!f#DRPL%ISH%vGq=9
z4Q<F6Ld`ovxe9F^5SGbsT6`t;jQ;@26Y~x1>-kKQrM^NO8!G0B-ury09{YGhzMweR
zIY9Y{?yDFa^Ul2!%PB&>Q_axx)POI0s`{G1FOsUFk;^=-mQu^KT#$sCw`UglDw?Xg
z*8$~MO<3n*=G~UMBeq@CY6M^1{nd3wql51L>a;d$hgpqr^JGjqWkbNUFCS2awr1#p
zTFD-4)Y#c1j=5KKIt4?;%r5<v-49O6ZT|pH;75>y1=*OTp^?rPVz#2vBz8+jD_cj?
zvNq0i4sI`XV-B3izf(B!P_!+X+8rI-?N_u~Ya485=!-s-e6^?UnCiwbkUMi^t%ivs
zqhkfbMU=&{Mn6Em%B!f<n%~k$9u<7rlZ%hMp|%<{CZ(;u07FlxIDVFk@U!2WbBXs7
znI!TaTtamK-4_ySF1_5=p=H!vz_P1z+(oW_sg{5L0A)IY6|nhhNdn{ShLWYuCc?@P
z(~kB@u;hb<M34m~&Pq3b@{};~@|@A`?pAUcMU882E}d)(a-Ie6V4MIQk~UT;h#O&)
zpm{0G94A=!vPR0Ni~w6d-8c^ZJSP!yxMQ{w*y$Z^GL!j@_zB-PNa36;GebsA#|b_Y
ztS&EmE;h}$DA)$L4pRuQPPbxknZ`f5$W}CrrWW}&Qk?OH9GN|=RSB{;3vv6V{Ps_=
z7YQw5wUZg1J1+UUb-UqnthJbLe}t!=Ft~xjP_V)S-7WFLUf4<f&|{<`UP|vdOKc3@
z$OKOXcYms0GM3oN1`@?4JSE`sWV=U#lyr~1-s>I{e^O&fc|^q+BPT27Uy(NSQ%MYt
zF>p#QCNK^XHa3BQbo;n))W0m3Xh$m)gV<Oo<d4cy=l3>I7uxw<-abjs(UJwKW)(#L
z0ITk<CpT$S^*D0$qkh7|C{9AUr#{fAX&sQSDP8Rdu>yj3!eBT~9H3$2DXs}_kgQ@i
z44b6eg#O96vdCe(LQSd5lOqYVS$5D0QOfS?QHJdn;c#f>JaD-a2pX4!;4#YUAYoa_
zQ!|31XtxSh{H0<s?c}GlCIs>NRsgBvgv9Tn#vHjdE)hl*Cw12zQeW(t1gz|(z7#Af
zQNi+^6J%0^EUhGA7Ucuck7j)p8iXXYtj?zh7sA+9w(Kh}t6)0ZtK^p$XyVDXW%U8<
zHnPR_0|5rY{npy5DP<&BfT`>B&{|0sy7^xx#`1H^szo759$BeDBb;$zbrlq3I>z=M
zR>xJ-n%md~Mrh9BZDr@b5^$9<{b-V&SYe1c_QD>sRs<GA%b%35r7mr+g(Vi3z1Q2y
zd11(vAjZ9v&TUOho1c4l0d$mdHMg?ZMW!{a%SG2sr?YPhmEvgVjHty&8-uJuHV3*p
zD>|Asu-^d)Vr}d=P<fmkB95449;oPTVZt=^Jb{I~$ik;|SU}W7Z^k<&kCP^<#z`a<
zsp|4ieog$UIZ1ql#Tp<sH@c0`hPwP9r?6>`p}oSnrftBzl|?_b-Iat>5$y#BA!QaG
zSOZDF(G4YIpm(vx=?sUtvKnoN<unzrMH(#!RH%{7X>stq3rB_1M%NtOd3R6A4015N
zz-H^ybS++vC>l4m{{SU>{s)DEOO)Qo<jExI7L^)!^hqIPHR@8`+kVSkHm^x5EF^F4
zsP#IUM>L(l{TFYM{ybw!iNVV3^PNJO`^g~N>Zz+piKH!tuPiPnV{_$aD(TwtU14?e
znes!I=yt)g5v)rg4#lpqdb6Z+$Ri8XH97`8rx{r7Q%<>YYdG>3rQl5oG|XU%;_m+F
zdWP5|^=3Mq#9Ios66s_BoOoYB3#&P$qG}pv%HRdohJ#2h0J*=}5z{(jWpi>qZnxBW
zT|7`+kZ`=uFV5iU1`x9w9+?|PMXaEyql;+)xmWtsu)yNhk#$1p_urcp9C;@_mg1LY
zdr+edB~whzrD*j@S^+LAKRep@VS64slUpGqh&WanT{)IO0ObNkN7ZV2I*?0Jz(*#*
zUnTL;K8?RcXog7I;=|c)#+2yb{T;k3ZiCU9X=C;d25h#K8YSuNuyNseQt+JR%11;S
zOGk@VQA_!f&@fLb%S+L>*vWFW8n%<@NJ(hAZk)?I0|9*Z<mW7JiYZpeA=2YxEY<<?
zl3F&i0A*Yf1ApNQR_2j~=3$hdWm!)ocI7rPpD39kG8}nCQR&h=+%T2Yzh(;`r#dFQ
zZ@^m39#{!(N8M6Gqsm)y+baz=f$`27NdbBuE1H^$K$=NeucwL$TWHuGQzz-!YR&yM
zebU-+F|d#p;)hR&FndD!i1-nlQ<=vs)%;H>rs!w5i?sgA(msg|W@GHVQW_}0{UJJ9
zW(J%ENcb2b(kJpw_RkX5dSS4%kk9P0b5Z&)HuAl*t746?y3M)x3(M+hp8Ap<9?^U+
zGtBX^r%^ADBlc3q1dkSLNmg2ZhdiVb!nJ)lqI%>LANE^)H$sj!3$P~fKN<f3X#*#b
z=^kj!4e_(|EdKyeLg*Mk!uGvSOk-j;Z)N4Zb4()+b*wJC{Er{?sELmz_IWm`B+*nE
z7~^nPuYL{d6%s<oWhWM1O{&<{2A(%BQT!>5v4*>F>{YxBQi^<;FDa(g9{Z-q3}WYy
zjak|%#xf!9?1_%Qd&5JO<=C-wi<QbMcW#dNQr!kRVD%8S;F~P&vq=$YE(=R5n${bi
zvZStz)H`7PDd5>DqszLFOKnWY(_tVS*etH4Of=}sk~eSFdwkk$G;xya60jY6pg&W9
z#RE)W_eq}u$rs16Nw~Xbl4@G(WNV{qfFBDTt<}Iov$@_@?zf<-AtVszm5l0cpOS^w
zloo-=UKUTq<%{PwbT1+;Qbq$)E|NpoEcJAoUtw~zn$+>e3s~EgLlrxxoVe#b*G@b@
zawDg7uW+<{d?Q+FfBJsP`$f_HMh6jKq}Cy(q=<m#Imdt!<Vr4s7T(G>Na6a4B~KIv
zbMO^==CkhNiKo;yw#;SzRQ@@>gUx#-sG@9aC!eyVs)&aZ!nCQZsgzhV?yH?kQ#-Or
z_*RN>U$ByzWoQF_auv3h6l8+qdn9I)F!vVWJ+VF`ayU%qYeHWwm-O>R8vu>I?<l6Y
zxLllav#``ZcF=6E^k#_zcalovmDxza1htoK@~m`vee<-I8(+G!qM?gmE{^B5)x{M!
zFKa{>ANGWCWREJ4TrFtU^mPbx7~=2%=PO@XU7~5UyXx!WVFQ5cmFH$!s%UmnQaBrO
z^1S~5t{bb&ORAsj{+5dc-<QhA2-Fdw3HvskXV)4l-stJ-?g#Yc$Lzf4Q?8#=arD^u
z;{O1<lBu-XPg0?+u;qFlgQLLML*|j7e6JJD^Ar`y9hh-SeKQ3;6<de28+j-ZLh&V}
zzT#J->#}LIv6jZ*=MjJwCV7CEypeKv3SK5>m0DCB__+HZWjoj~&!R~yYboy5Nwj<^
z{{S#t4nusPD`aCqC;P7W;!=OH%<?tSSE<(4PU0Uk$oi_*!sle<sp{rwb(&H@_E>`J
zlC0_-A)|8bf=tIZxlN~q&v$#HBx_uMPy@m$jg15p>RKm}Bu5nki!*e|sLOL}E10cp
zxC9+-L`(z%3HU>v$*49|x(2l5sAY||x{_JF#M;Bch0ZP(2H#a^y$wK9yKA<zD1(U^
zM9Us|x`om9R7N9l7{X!ag*T>r1fH5EL}23fU7zVv7KEJTYYQ62Uy_~~w*@?4945WM
zU?IrEKy}J>%4=P7U=b0=cKg1_=vFp1A1Xi%lf8}Pt|h!*C^QgxFjE7FxB|*qY<s9&
z_Jq+?VRyRRgvUMpQ(Yjvh0<;bnVA0oP~APg;e6dh&Ptv$VSA-?3u9c{@S!cvIYl_8
z23+!%!bclVDpufSZ~z>Y&9#!<u+Z>AM?1pnfSONxVKo4XM>#RAaW^V<un}^*1B7ma
zLqk9}Av|L?Omu)IIzhtQW=N6FOuB1sRIP}glzKBGB>mIkxpIG{boNJYgsp&)qZdpd
zUg^ZyG!QZ2O(2p+Y=~uu7eWGW-zsRFZnGDncLCu<Ta_px$*wl+g_~kEp4_f*99Sm4
zODLTClqrOk%_rqZ7!Pg`?K!wk^&MndG94(|Fo$!K<aN$Xlnx^N-7-wt9vyYX=Eljb
zXg$<`2J(nO-e2Pi-$DeqT~|1_aPY2lFx|l7!57hNU&zx!-{6cYJ!IIGe#?44WkIbm
z#l<95v(%K7Vo<&LDmNUdB#7?h6wgfOD#=mK^4OiM6moe)2=Vff@!cCG%E2$5ERee#
zDa;oso{0ztkk%gING;)TjDvtvw%d?ap_IjlUFz1DTyce43l8CMt?1if&ty<0?F^Z?
z?_~^MuL!z;LwG1w;r0blGm=O>q-^=J7NF;{B0JkBl?31i8>d9bpg!eb!Zw5q0B!(;
zdo8x>7#gnj@PlRUj;j3^vI(ZnKPiDlg$OntQIZRU6%pWN8vYUlrqn-IbrmX~QNiIs
zO~~w4Fk1#VQq!i}+Mf^?!YC}6-=$R6e!TLn-EFF-v-LR?DFjB&?yTtuEf)&1Aa`Y0
zQ``WwjESZV?w<vSutUslY)UswZ2+u5Q@_Z$!dn`G=_!l<0F<kG3MPYc)h?G419`eV
z`(tOqq*@e$q0ELm*ael>buFOS@T_&p=CO|VEDo_->OIzV)a2}BfprR(OCiZgrnH$y
z)eDy#=IYN!it-E#rCJ%9-6}uf52Bj5S~KvSr#8@p>fyPB0H3i8#Y0P_Hb!amPIgGb
zCZ3aYfRS~1M@-hV3nih5X(=`UQH=w#bHHe@QG;R<y^ql_0@*39aN{W&NjNx7bF-W*
zWFe6E31c@nOukcrzD5ecvQXRiPrx2jZNTuIy4|?)gEfxbV{ir1INaX}r`^I<w)sTX
za$}EsVLaFo?g!|a_TPsO{H%dwPqEKr!aLba7!PFE1*~EsEy8O-zm+f9G+^Thigw(t
zHVd5NYbM^^(*Q>v=E!P^8qji`Jk4n3QR-E|Tn8m=)neCHG-DRBpscFha1(0kOPo*-
zc|4RV$2vzBl5Ux7t|3bVd#sN}8ysYmT|5^ckfx=l@~mm;!bc-eG%y@{RgEPfHpS7D
zltSamxum3R#t=-RK(sVgJS%!ycDBGZOHTj<Z3P_^BqBc&C}GXKB3m7Y8B(${!g+0m
zR<Q6Zs)4yZ!XD_#!L*PC(1zsjvIC71(hI)%y0nSD-W7clefU<<b7ZoSY;hHg$3H4o
zGR1R1&vK<;Hp1tVI^z*q++2k4E!iVSe5nBLfmDRBvTo2ylGyN)*Y1>YrJ~mfmhKbJ
zHa}#?m5jlvyPF`uu*Y<5RskqO#%`V@=g`=%bbUDXT%j3kd?TSF)A>e1!pQ~rNO|EX
zzsJgJ$YxTV4V{c-GDo$h_w0tMtYl3$BI`e?YeB6crz<G7N_i6OxvsB{A^L^Zb5qrU
zBnK*ris`BxY+P^QHkyh_pO8;=Xv6H_%jB+*yQHa;4mMW0c932}k0`w>OK7#*Wu&2}
zr;6L`ES}Cr+?fWSK^!as&A-)HHbTbPyKE5v(hFc8vSigX%@zQD%59X48z6mDyqf@q
zbnbEGI%oQhxEn%d-qs5pxbUPQxj9Y^7UgxkuC=~WohmddS}&7yp{=>i%0M_u0S3uf
z)Gr4mFSh)oBIS0_fKnbv&lX8>*aXqaQReFmk>4qV9#h4JQeyYA7BV9u=o+>Y<yamM
zbQN8%a*ct3>><BI&5k$1m=R%<gwk7k-QPs$<b9LT#%*$nEyz&P?X|_xBo0!xJQl<_
zTu&HWKC7{Blnc;={{Zs3_7^LOv$NqLSO;F|at=~hE<Y(khcsV|mBd_F1kv;TlDCks
zShmf8Ty4NzV{Z$tdnQ0=?l6|(+%CU#w+6)#MDKfHAh6_&aGW#P@|t)+DUBeM)7?Cb
zT`=7QP(#}NlRRZP!snEn-DD#fb9<LvBiwruoo}DAYlXlGgt9VEB%60o%aMgMhBLy7
zLeX(!WayNDWWC5LNDP+1`dvphU2uq}YePwKRY>N_#yrV;TkUj>bi0AVl21;<+)ewG
zz#_N>$0?FIY?02E+1q}~zNPjyKXhx|7-ikN3ZAZ_J?6xVCQ(3HAEI61GD#TGl0S7_
zJ!@NV3a_ZIH@GRf1g6<-JyTk6KtRu^4Ez58x}~19xY!a;gfoQlaKrl{Vp(HTsJHsb
z`=BJNbibszEL0M`+l*)6*&j=$OOxr{D_|>I8{TeOPt_3x3!HMoRqZa5JDfK(02R$9
zl;LaI%UBsjq|-i}?rcDw*BmVs37A-zm`}(@)9K9?+*(zX6w$DIoYvdQ&V>i2mZi2k
zBNp%x(bd&hUtk~oE4^w+d2?Js7NWKi4Yph9!c7buYpRQOhcpj{pekx67qha0lTd}D
zFK9v3YD{(;D=dmeB%Wz<NhjjyNhF+}Ir&Oz9Qy#~SvAty_j^Bd$pMf(vpV?us0?ns
z&C!N!!oo%_4FqMv>D3!_3K~EJ3n#UN<xJ**%1{9*jFpjkWMbD&Y<a!#RKbGRAt_+G
z7COhGErS_duoKuP*}Z~kXyhEBVd5bI_6I3LTf$3=@oy>3@8J=n5gIdr@SM?O@{|l*
z*>FA-n=Kd%WTbm<gq;1-@!OQ8C`)IxlG^8m*&Wwk<za*%+W!EuLw;<YO_E>2HfkH2
z@R0aVH%-4dL|P+uK>B4d$BZcpZGpmTt_7}&Vlp#(+V%;AjFj`(8(A>;<uWG5xRla<
zzX|5V@_ti$U$S%{gFLP_xx#h0%HS?MAk2{49>65=Z}6Ym{u2E1g^rNW4eohdKbw^6
ze(4AxSpbP)<#8BGZf?7t=on1f<si7nl<%CbKmCP<p)to~>z|a-e&Y$-Ry7}YLm})D
zusi{hv#?f3K(mNOMJ$K8Ukl^;6M9H_BJfVYISH<*X}~J17aMLWSc|WLh3okL0JGX9
z#4x<MFoIV!*krDBfOuZUH59rEvKd-zRZUw>%C(+$+m%sQHs@RARV2dX&ZZ@<S9ESW
zLZ+kuxGTyKEEbd+6-X(U?45F)&@IAUzY285v7nXLP7MicEy5IQBR{1ylBPCIA**z2
zBVA=64Z2%3HJZqWDO8pVfD2iyjNNjQ!6;~2&0{{v$-$v0Xe(K)YjB>@lr$$>2m-_h
zDd6y$0&_yZ9u5~>b&}a&p)QcP4oc?)B=R+bE=t`Dm4q1pUFwBTKBEf`WCQM@{{U8k
z_>_L>ens{-#?1>P2H8`!_*vL>SZ+UvKXi0DghXM(_f>{O$;u3~bCfP{LmIX_hb3&A
zjuj&<lX212E!^KBQCHL6_*yNyf)=Wp;{kTUNaD#B%zaD*1B@zq=*5lJwz`?wuvyJo
zH!+0S49#)SkWDiS)DlMsad22_{b2guoGoZK<n~(LsE%282DI5>WzwZHleCYr_}@1(
zhD)s-I;|JFNn^ubJMMfdgIi4y0w#i1c9M!#0djxxi)%JmaJ=lFl$`$nSgH&oU6#zK
ze6HrfNh9pT<pWPVQH#Dtw0%%|ma|P82y2Va!md1#<NLDQkrt^?8sZ7zRyM7G`<;vB
z16x}9iF1pgi^p?y&yq2l(Yd1K`hzWI3;k4nxNx~6KPsp^yN=23Bw(qp9eOv(WrL?^
z?i5>topcG54oY~aU^W>~97znM9L=Dcu6)6x9IEG3ypC+5eL?P1Ja$)*Y_)H{B}e(E
zKLaO)T=};+fpt9zyRZIJC@8BD$p<ylatR0Er#DcqgxRt@kE$k-fz8N88V^yI4P6*+
zMB5{!)@sSK-sgSQtU8nBZeDHmS^Bzn)3lS0=qPHXYw${3m|~vTW3_14Nh?U^=sJgk
zfx-fsq0$abkq!j6Dh`{Xk-uWL7~F3m3bR>dBO@(n4sxDN*ZoKu=5H1NmwYc{#f~_n
z*_&+heyogdaRUo8OyJp8=czR5OJ3(Nfov=#K=kHt$RMwC43wit=g78fx^}s-5$;-9
zHDdUKTI|_*rkgaIzyz(&Owu}X(;>q1JiHN$<iiOxsS4^T>!iNYK~H{#J7fJgTkR%>
zo+b}yzshc{Ei@50lF)lEIeBeMj8NPgXO8RId5E~W_*r*1Y=jRhZPm5W$s?N`v)yIj
zq;&5j4odnT7bD?vAw4h_f?a`?w&*DXYa`q+92IRgi2Da^T0WMc5LU(<-W(27W%5;i
zqNQijABVdnr;Gu}3(-Xpk_<DDu-}F5gj29sc3!Czj1XenDPfeRu1xBTX&!&CXobMI
zvdc6y*2Z0KZoMm4B0yR!sK3)aK;vaRzm1QPD`AwBPdn8lF%kgEt&T}0eTcAIZDT_l
ziP}{}dRM0Z0MfkgH}UHfD;hGBkq(zb>Jf3u*=U+nb{A+=l&uh0_*Z&nvrQ9&UhoNC
ze}UpppX`csjR4Xk*@od))@h!bx3Rej_e-yic8#PEtc^T#H-NsH9wb*pr7K%Ax<;`j
z9D$E%$HL!e8lUEv4Xm>A=`1g}YSDD<FQNdl?!u<ECUQ<GJsOA{ND0!kkW*=f0wKc-
zphA;Tpk+fya8xq%)Fw^a2R;_iuoc1vp2=Jy`vFU(X^f|60ij#68#gG3<7;~-5Ssps
zqEzY;0~>)Imyv!WL<1jX>~-VVev8S!5*h4yLR|(Oo+GL>er$bLrT!T*?QiV7<5q2|
z!9G{3{u091#ThB^Y)tN%>C_aiEErZ0QWiKl6+;U{8URL^z!(TRup$_yF}BuDH7+9n
z1dfdM3KzylC29?cG`G2PzjA<*vJLxNASdBVQ4{0^qXAY_QZhT(jmhGP$*|#3PDTiE
zP(GeIlkT;ZYgl6>-Of@|Nju+XJVwujMH&;8_9mr6Lj-Pn!*^Q?#Xl9a{{YOw@eEsU
zfNZ^|QJM&&B#%+n?y)+Kl~JqK8D{~J57Gcx!{k)Oldg}NYx+`P((Q%B@~9u9Y7oxm
zHUsVMLi(nsrRiH4vjg4qRmY%PJ4}yY7wiI*{6#H9UUEKRt*F%L<JkAPjqot4p84i|
zi6s1+uX6lW=}KKINS08+yS5jO)5Oy6YT=#;W1SaMd_bYoUh}#4D#Dh5tRL;%+rrRk
zx@=C5bka3~-c*%ljuz~R+sc+{@Kl(swo*k(WFTz-D=JC`2L6B#mDJ#J(SnVM&mTqS
zN^)$RtY`XrU&C&zH61Ea*E?mK^jeB3nF}skx!)))YFVlyEdy&$V7g(F5sh}k6VB>~
zqg7#HWo4!6u7T~@7V<k4EZRYQxoz{xw$k)4#{%|*A69g!7accMU0pMMUu!!B>)jcn
zM>|^S9MC(g27{-V!1UXHvfJr36|lr3jp8%#GPxl>GSWKn#kFmlYPu~ZmYliF4j^(@
zk#+SuwFzYOTedO40eTD~2EuAJO4hZYT$vwbfa{*M>FQwkH1~?RxVuG~7iY%@`%Yi_
zK$c4A@_8vIr_{`CaldtU8>-s~4w696s;#H2_3EEfE85pQ+@A^c+Ql<iS{(UZ;Bccg
z33n2B=Ow!Z)oP!8jLE+x2LpHA&*e5rolz$DfY6|-tz-<dc}SqvqKevkY$B?mk+#4A
z^;Fe!I#Niw8hW`VeaXUDgPsq$bi)k$XFQ~@Ky$=zlVuo<;C`Zxk*#RCASfLmvAu$;
zR1RYp19EbRj(ZRqN%#m;?;r(frqVN)<oqO(3fQbN$T4seWu+yzB$BVGqlJ;-mp>?a
zw{8S&u=q%#??W_^n5c%=_(MC|Ri$nnWnUy@oA4Fk(5!=Vi+}(rVt~5j@ShZI-D_nX
z6B-6Ws*l)>&;#kiM+ixQX)4;PMuA`zWTSJw63P7q0}$sNB@8zxhR0)&onR93VX$&D
z^+;QbsmKJT7Tc1EtZZxm-AY|ylA{MUQnE1q_Dr^5SC<zj0Bw|KqR=jW>NmBa7ocy@
zGn<oj3x|GD61W8c&t;Puh`>&0w<+yt9P!z6fC$-y2jx6GeQcw#B{_`vS+QCi9DFA<
z*sj_DO(!`?Ruo8l;YQ<Zf}5WyNWK<PpokuOr#0b5_K<L+A>0e6NIEBUgR#1S(i8Bw
z1AM1?MCQn<KqA~vboMsp>PEslsT#mI3ppUOq87rO6NJ_@4p%&YFq5zk1O)Bv0S&m7
zBS9mCC=7FmC2(l9`=@L+y_3T-P%zQJxKCrOJFYDj%7RHY_rld?<7_F?f}?xy-2`d?
zDUPbY0c8d<h+#NL94~YboSsUSH-p_fR0j~P={NkQ04%t-;UH*7I{c<u=anE~vPQPt
zg{)c~9l+0J&vDzrR=9AH$HKv&XFb5>UT9C;;1xd2?+WupfQJKOp0spe?9#GFh;hZ0
z2C*cC=EZ0l!|7xm6&|X=bCdN_T4$!>nltZv?pFu9%9ZRJie}#dRS<9x$l#F7dmN>3
zQIV8rR*<G=T`Ofhf`!-@;VTcyG$>14;y7IAkdc{cM<8gV*(6UpuB_=^c9Z9YR}jjw
zrUt^?pqTQ4qDh^0<v|zwgW*dyJE-Bd{#BxJOg=XIFNFn2&HJLDw!z&&R5?^ggLVxN
zCBXjxgmXu?2v|Q~{38JyEo-gpHVIOFwn8vxgk@2)O^}h3xcNi{jT1%(lxb<o4^IZ*
zqn(zJm(WUWOj*QU>Iy;b0THR;*Y2RBCgS6iv|!6wxy_QqZIqx~U;CwC_X{RLWXCKv
z{_3i)_1RiTJ*O(BtmK=c>;zGMq)2hL4+vO|+>4F3BH6kU*islv-fRlG(c*ak<qt<i
zz1yr0*=T4f!vHqIUqda2QVom*gf6FCBZ%20eOQg3tBkCEyQ$okwbx0=XB`6T`iXms
zLAuV!;^*9wZl6&rrFkaljcNKOU)Tr0%ewuQ&W_)B$8}c=cvl)&0zqUwftuPDe+&*$
zGt-jGfTPnk?H5*3y}p>SPMrZ2F~l0{+Q_DE+k#R!d+%iX*jRZ=-Hw)ocH@gAU^n3{
z&G||)Zn2I77bys7J(nAimDaI9VM9Ep?YAia!tUID>mg3Cx7Bd%i>ClQuG@R(m6@2r
z;0`!VbFpD?oLOsU9oIFY_X}BuWcE)DJ=4Qeh$M?;V+{?*3Ni|uwb-``IU4Ty3nK%&
z2EjDry6HZu86AX8XGrkT&5$)UtzbUn%ITWWeakyvP)RmD)-pjgx{b}R_Egn1E|J`*
zq>;`iJ=9^OoF$=zb<NGwL}cMk$j>%KLk-Ue-53%oV&RaEr>61|F+wgeWnoQD2^dJ-
zhJop6iLlyAxS^x9uHUjEij)g`Rkb}h0|5#iD2|qutrxacg*`p8pA06~JfmWW3>0pQ
zsEmp$Sa?J-G1*BQ1~8@DZW1{aj0l>~vU8b?1vmg<G2;bKlPKV*tE_F@h1-92+^ZSK
zy8^*N8Uf)_EQF)6)GV`ym1h$%dsz!gFYt|u_DMEd97ndp>YmP00e;ENZx+53&XkD<
zJSSfq1m4$6ix8Bcw@oL{b;p5Z)5b<tG0ry1ZScG0Ct_AGJyu1B-3md@3M!)gz)%|k
z4b#M&#9$W(X$a_u5qt$+>6p`U?i3YTq)|hMXW=tf(28m$th2F=&8$9EHl?b^8%>@S
z7NxB{*9~{<v-8x{RKIIOvV?JolgUYFx3AR<uPtlNcq$57C)K|0zI!P&tu^idx;v7!
zx<;7b1>>@+q;O9on=5qf0i*-9TtT9;F}rR@!o7-}u*GsLP}4oF%bWoEp~yt6u5<;M
zYe=$T-p&P-wKb88hMS*+GaO#+#NO*!)sGP-`5lhQ%?E-Ln%m__)(hJBO4-#IBy$68
zn}pz6Ka~FI;iJYE7{Kk4kaUQ<;8-OXx_yAY6F?W^3o+5$uEnyJz<hizw`2!GV%A;o
zP8WCL>Db{58iv~ag6wy~Qh6!6f%rhjcU{LRrNZAUw*`hrI@ZSsDx8yKW3qv&1e~T8
zL<a2^@|X`E6v8I#xhClZ5#J=?G<rDOR!d0nYw(ENPh`q?SOy95rG0_I4VA{mCERYh
z=bK%3___s|+48uX5SQu~Tj5|KG4bVb&Pl>j(eY%KN@Ir?=dxZqBqqZBmkW&LFxEQu
zNKNp&mB11*a<Cf}AU5D~m7}^wjGvTfTN5|#xZd{f^-FAp*!|ElV^77?NwvSiel6PR
zw*$J=9z!m3gwjp$pKwn%Q8@nqO2BeC#>u4eS6=6W5<3}Akd2KwA3fAFfo${HOih73
zyCLUr1G;#ka*!*{j#RNYxtHvRd&qIc%8{<K1_=5mIWiqC>;9mibitgs6txX&hjcTb
zVHtD3bm^RuY;9FtnfjJ*QPdh7L4H;BT_rhYUf@2eg0hZ`xR71`R^_lJ%DJnYO`CJ{
zQL*w!a!6LNY4AAmLa?OK;V!n~e#<rjo{paGxoJNt;+BLy$8DA7ouWbf%yQ7s=~Qgx
zm&bH~a^8&99-Wb9-{D!(>Eiis_F8ypG}brV-=&kDXk+~%)>+ZHKcbzKdsr=IpQ4$p
zF?^qZh^U^J57gybRap(r*Sg*jTNR*}PV<5P0Q#t<d$!{?@7+~PP#$a_C6CRN9;J=9
zIG?J1CJve8pKu>rp(+3%{P(&Y^8ijw)Dp-@xFs}T2eD>rEKPwx$Qip03DP_EP&kg{
zj|DqP2VoJg+Z=sYdM@+(C|dFd>p!wXDDL|q{)`nA2N^|07{BVu3JC@d@=<X}!hc@~
zFr>+x)PQFgy5R8a-s#M+Jf&>tiXH$qvgZS2p`yeo1VzH&_EWO;pmX6M9u5@d6Y!e&
zTr+$oOh*zBF=CttYh6p}8}b(z``;WO*i=Y^bC2?spj#<;D}lcuD=QRs+vF}b7|KF>
zt_J7@i`{cY{>zQ{<ou-UvI86}4lIz{!tQwq4+x_PfKndD>1}%^ligumoJa1WdBu<J
zr8lySf=MMZ5=>z@%3&AfJdEId%4umm?o*RvNWH*GZ1MF^wljRBvBj*7i$VdLuJdje
zZ9gG9ZNBIQAplAUw=1wLy4g2CWOg}CKiw!8;dQ>I$!uW-`>wVP(%AS&nAC6{+j%RG
zIpig8$y_<PLdKy03322u{{Zg^E<B<#N7<BeG+OG;8QE@DYB}-kH&%26zd2tIhc5-t
zY9-SqZ+w)lsoFdsoikx&&4<-yx`$qt2;Jy~-;2x1bfPW9)yb%_yu1Yw)L8x`AG+~P
zQ>!%=&Tq%|LdDi~c)7>bdib2=tZ&r!7u7P?FIDw5(Y4kO9Iqy4Sxj(Va;B&1392L)
zd9t*5*dH1_V^69NaIqO$Z9Vq`E6zGvtjV{}mA}&;c7<zbl_tx!oF`uj2;GG6<h+f<
zly^;Yf^Ov$ufbbP6vdKY6b`Bbx(2$WFdVG?ez4fDcUf*Dqgna3`3ZkEJg+`~Qn7@O
zP$oO78Z*3E2MKyc<rC3AHs2|KHs2w6ySlNU+i*-hUd#TW`=xxBp#HySrV6(CN-CS>
zd8q36fU%Gdx{<wO2X}&(m-HSe^p@0*Dn?EZb?215Sqy{#f4aKU^>IC{R_3hS4SQq+
zd?$xpRngD919f8=xJ;dh)e`ca#T$RRm8XP76*&ARr(9WM5zBiOL#(<$*KI36@o-g6
zsTSrOB$BjJ4v!$~I{Nr`nB^nru!E_!Z&bI|Abr=Ub)KKSud{!$^EouKD?drGQc+zN
zmA#_hOV{;7V(AGBSEqFx%xLu<e&uKM-8?oRcBg6)2%|Q?9#ip4qj7X@XgaDV5DUW6
zX`0j$+R_8}UpdrjQbSnaBqGPkxzak8cwW=$6JzB%O&soP+4Q9yWN!k*BK@x&myY!J
zShd?*Bi83h>IkL-_<>qEE3#6@eHZmKjd<ZwYFbcuKHJ@0)7Hlz{XtCd$BxR}?301!
zdbdxp+m6BeEX`(u#<<!)?7fb%jgP(+6@Hk~4Vt+#_*nBTi&S|XcADszeYROGb<;*2
z>5|p#n!c5}huejK>K!7^b=rSr;Q2p^QGcQvl_SjLshqfnz1Tg<jnce=F0?foEB6p1
zcibk824@e@Mc1D2IJ%)7voPn#9H*v^Ne#$XZ_u8{dx1sK>7j%4@U?LU%IIkbZbg(8
zZEHOItLliu8d?D1P}TzHk@BYIJYz*^CC{+FRPnLETFLBy3-F#x8^zZ7E$C|^m4FMJ
zd?0EaYk(1zFZSagD)|W{+$%v?Rf!n67gjV(_XB<vX8oLw5fM)2=Oe;tLA9c$ik5al
z1;x>S>TWFA7_!YWq0a6~CMn1OsMO=5Qfxk~zEE8ET~)|-y1*j6V&U~nY#X2M0R2-!
zZ`ryh(~GPL7FJg~ctcXLj2W=9ne(-*ISC(OLj^mZC%D)vid{91ixG?4x}#>P3{Si4
zLUm7CQ_{d%!R`aF<$69lUeQIMPOj6#DWrRv8ZF&;hOipi`2%t;ww+(qb+zT~w$bud
z4p%wuE_Wp5d)_K_XFgV+K^l9*BnRbgx_eZLor80Lvh&804b<_?E4`t_4}^2zS$icH
z#Ptf^xPqQC7~oxHlht~nvrusixM}jJsi|Kx#raxo6GAfWCA_Xr@vvb1p4ijRFGUn_
zO;IN2l2z`FOB+bsGvuusI&;&DaA7K{zLsio;>Hnf62B#6{bEbL%erw)*sSfN3MlGn
zVyXZT9po%+RYs)eZELLGfQZs*YTqz(+~QV_8r+!fNpyV~_;;+q3{AVh`Cf?btfgcY
zY=ZX2SI<2!6;mM>dzw70R-W+LTfRc#k!Mkt6lIyDdhV58?Mh34cHL?zD95HQJ1k#C
zPa9YV3w0H2O^fvo7t#3cDhTFta(gQEIu?+9t2tFeXB#zYYik(p2te#>&lf``ILy8&
zv|@E?X;{;?;Cw8Gqa?6RxDpN5tZFnN>^5q}Yx*;ZBrxCTxfT@%(bp-dA)PVQu86gd
zc?;6CEoqanr*iQ5sV1hE0F2`cN7EXt(8$&}5~`y89Q?gA-6-U2_A2{Mi~uaK9XY8N
zv8O+Ey3(dEU{4k#sJ(yy6o-WbB#;#0zEueg11aHf00q}TDGIx?<;w&DxO+<Szr<$V
zC$Cl12n;6umy`Y=$R5YEAt&h3TRc};xTzQNy=(A*gA8^H$~DH`r|MU${thtuEXQ?B
zF07t-+efs}i?m@F0J0j1zQBr0F2;%@lY}h9a!M{nk}!grHy+C%GP6*t+6!6Au7Q$B
z^7p$6#;%&~B~{kT=rr8fQVk+9O_AzSwgw%JyOn(;brO>2Od1b#JylF{$?lK?@>7j%
zBr)v|GCXz)&}*`7Y_WYkJaO)O%iZLa(Zbiq?XU;R&em2`$lyRMVwM`3r!ZaHTjj+*
z>tHXVrGz@x4=Bl@V_^3duvumXwNFXSLtg&?0NoKwQvFPidDwnb=abSNF|*JA02OFI
z)$dDA!y`xPE5o{%rlixIxCb=f0ex{>r&7ZKA}#N-@_xP0C99mwVzV2-0eQYv@wn}k
zP)zVSBAKnck9Dows0CbYHoeW(*I&@3F}On=kI`eQv^tt%T;`vxmz1(b_A|ujKTecL
zY^@_;b}$0V#aJl~o(ABOU3zI9W)RfxirEK^qiYYMEH^hD)K#<7FlEgr;H;%Jbg~b0
zhwP?&gtqQMNxwq0kX2To*vSlSzQ|~`d83y90I3XGWp_A6P|`)X1DmH*^u}#2jSidC
zm81s85Mc7IKlKdEitd%c{u&iD6wGTIwY`!}HlIrH>bcs_g*o_<mfJcp=A3jtQ>m-e
zm_dA{r@3(}C#%r9orT+MwJ++;3Z6Z%G4r^6g30wKQZlriur-bPtfLq%Fev{3ZOG5d
zEWW18pM+f<KJW{O3Z2ysFE1eFIMmN;hY|Ewjz6+@T^b3SPaJnLw<9WozF3JZjNL&j
z?sqRP`jp0&fpe0&BIpcb3Eh!oOKMoaLqR9y2_y5u9LR37Y+4DLXGk(XWH|-Ia*#+l
z?4)D26pSHMF|zk{g1w}gnic{`B~e2dCinj7?t2-*2kw=t8EDWQLJmVNJSZltbc1Un
zXjDR><l_p)f#>yO>Q<JPhFcNz^GSRl<fU*v<#8=jS~h|Y(F$7Eozh6rf0a1RqK+zx
z_~R{h1{B*3u1$iLV+(&x$`)#n+%cQJRqjn$2_<ARw0Oc8v~J~el@EFMVGktZg{UO2
za03W;xZjk=N*q$RD5!-Y%_L`!goK-2DR6HAME8<NN3b2b#@5Q7DfWVfx9pIV#z9Z1
zxUoO7f%22Wj@Q8DNZ5(B(538dhFrUz6T?UsB}gI-94@c|%Qn3LVFJR*yKZuv>v;)V
zZh1ky1)SD*I8MES;^Eme{*=1~99^3x@||ISszYJn6k%Edcd<q};Yu@W45HX*YmLtd
zn{I4Wu5G)dXt_eoLN%aql<l|0l!1+IN^?s=xc=!uY=>bsHe4IZn{eSa#NQZ90z2D|
z6CZyHcQ7UfqMZbZjmjb+Zb%6l8ac8@yEg?3vr!}8Y$osTepFniFj-?Xhq_DfppX(U
zo-S~n#-8C6!_W_)=R1Vv(z@9eRvUT6k^#ytPtYxu&VaVcHf~{7PiV2a9%#oS2*zJy
zU5$o9h-<r(bP>B<juecLfy&%$6vDR*l@zW_GX)#m;uhj93S=PRAeGm$jGKK*bY|}E
znvF$;0NnAoEq;v@VU70oS#2l+@%39x8a4ntcU#eHU&@1?z+<>n8oL0wT4{qsSjx<6
zM!>Fi_IohYO#Gal>L&m$KI!tGaZ$UD6%iKD*L)@$C2_D!B;h(D*wQ|UpxC5wOC9c+
zB5j05FuBRh1ORN2=iw_F3|P&bb!ARSXgn&o&OlZ);E)hYWoGnAG3|96C)_L)lCbR@
zsN)uWxC+rc{GFC@A7JjGsm?B^rykW6KsP@ssEY=U;om66n>P4DHrws;ify*=lqedg
z;?_dPms|Ek)nTY;uebzPMl9$t%00&j9Xw?k@o{1-fr^bz#oyc^see_GI*_q99niGD
zuNFYXgF&)%Ansf^^YWG>Y=xp?NB)D|QrElOuB31g=O)UFQ2j*PD4BFJl#=Clr&E`>
zDtZ{)_X`7+u+Zs^+HGZwSWr-guoBc&Lqt%USXmUpB4@jhv;9G-HH>wgWuHNhWj4K9
z8E_9}j;xr=A<rnCTCmL_$^nhsRFWOBV`cjy1WEMq;@DH{7Fx`a0~upwZKX8t76k`Q
z0eglpw3<aJYe%#rUd&k0ZVesLgpxA47B!8^b(@ufh6@wQa0ze+3yY1iE{Mlicqu>t
zUdx9$3E{c77g@6jV0Z)NaPn-NMZ6Q?CVu|_C;_34YC(JR!gv4+6r*PZ{>xYfw4VT_
z8NggXBKfl7%kZ$nN$ySVkRHjwzxZ6%kU77?#vIX%1vG8AP_!N`WgvZ;K^R7X(IK#J
zBPdy%0I_mc$TBX1s+<5;Kq9G?pc8dVUtPBQU4*)wa2EpB3pZO<UP!n>vr#2od!29`
zRdkZQ$0afEzttccjlwh*NXC~7T@?fb*>xp5oJJMZB_0LZk+7xg7M_!gBO|34!mx&r
z;@|!RTohU0r0jLkQYp`cVMhtDxJJ5>qc*aZ7;V5#m)O;0v{9U4T+_g8F4P{M9mvPs
zT)@Hr!pyW{BvD*m%6OQb)|(6|K<{fPNu3dZjEsvFCf^`gC~3C|!M44MlVzh6N4Jj&
zj{@8x2>9hj{s;kN!qtGifV`VsFh_IQPT~WP38mxcs+rF<vRYPwbV~r`Lry^l=%!%7
zNj6ppk)p$lr;+<60!P(29`;CG3w75C0m4h=VTmr^DWtVDc<#6htYN0(goJnQo_wKa
zk*paj8PyG`Ba5Ktm5gaO?1$7f7}?!X)oO+2&1oR2By(k)QV7&*+R{T!)iq@DNZT|O
zGh>#bOZrC2^H0+^G;fGs=&H1jK6xAH%u;Ff6%H3^J{E^c&>y%LF#gL)MMV^C7ijuf
zSc#b%J**e{A|+T29+?$58@qW%`i+QtTmV8<){9sRpeCqu?l=W0SYd3RR@F8#&41i1
z^tH3h<98b(DwqyU{GfwuP8QK<;-XlKuaZ@z5F})(*cwM6TG2FND`!Mi1+ZI-sTeGB
z5)V8jAKe5{kQ2yUP0w`Jk_EdZ2K=Q8LR$GeBp5dMN>9RQJ{Du7cZJsE+Uv8BS8{;I
zU+lQ|Nn*H;JRrwHTKLLGF}_pn#|aI)@`1Y}+AZ?94;M~0xLki_f`kDFQUN(36zk{8
z3aERDzxG87ByeU0j{zgtM+HRf`vt5M1EjgjRSp>~htah83RnKDp=nH<<LakzHy7mz
z7Q`sNEV|_=$A#UG!kJ+W*IwWyHXd@59A4>+Azk$4A+qC>V6ejf0F;NEWpEb%0Los;
zOmMyaQimQ5xlH8vw{^#lgvdt6?#k}hu}lPJ%dU93AhbEh7Velx@5)y@vSW^I{nlpa
zQd0}NV1eH0u68(4z1@wGNDfp<yY~7fy~mtd*ijh(X|jp)fzOoONx7sEdtCA5G0(Sg
zWE8bN4b&1<8z)dBEXf8*KmPy-Ij6I7P_tGvAS!EGO|8PBjU4mK^ceb)>RRZSY8Y%u
zy3c-Lq>GR;iKU-;vvcyBM?0G?pDPF;CJQ{-tvT?bqoa~%3%?5fhfBA6{FJ&Akx=R*
zD{Lb_brUoa=Ulb9;>%pkJX+0gw{^~?3?ED-0%aW@gA;#K1-s!|L8Vg1mk9n6y~Vf<
zu^%W&TyJ+cTk5l6NU@Xh(6nvY{!|lJ+uFcCWCyIk2nU4|<zY6t&&oVo0!akVUnc^{
zIV-Bp0Juo`BNrz>bTOPC($nynV-NZybwyLZQD{&;L)?N&Lg%}(;LD%VpGai}$lW7~
zX%BKJMmvsEwlsG7q0DuK`z!r7TJ|ZfVX^G2UOXsd0?Cxcc&My+vVrc-2lhtHJAKen
zHQSDCwb-sBPrytgAEXrPJpC6Iyzo{Lq)P)&gj7t$?1zDm+sQ^k*8$x8EbM5KFaQ*z
z=$W*ijQ3JCr1GZO)dV~q{nu}B7QNSPJ{K0GMTVC<`m&I{)*|I89#cpj6AIOw9PDJJ
zCD!KY1_jTQqs{QJVj#V_N<Qg+>xar#$4E<Gp6iIml<%rjZvHHVg$>7?uC;>h*0SJx
z6@bOHxwi|Al5XbXx<Ye=OvNEJ-fR;5-w7RK-4rVk*vgIWKW^$kE|^9EMv2J{bG`?{
zVR5yrKFLowA9TZhPwbeJ6g!)a=^Wrs=}o=3P8rS-1so1;aJU<sgqQhBJD@T{tTWpy
zxv(pRt(z__Kf1*c*2gzUZ)_)9z4DNKeu+#si=-n7*0|wu7CsgT)AUL+*oE2s*BqNH
zFrEHV+<*2LWB&lMyDI@7UsBVCe=XI7Eq{v-gyse@ye7?4wYC_t_^339O}2GYT4Ot$
z2h^;lw+mmpYfIIRp<TA*hZUXF>*}O!sp5ClcVUd?{{U1<zS*4CbkQSR={B$|g-twB
zNI-qU)oK)ajZWuDB%e#FI;|#l^SGat?|9gpRY{91zL8%PQIl{_?yfYZF^>mw1}#2j
z+WVEJpGhMg4T%f6Ku?t4bew<@V!azmec09JT`<DOv}X&^w09kiP{_7)<93Y%PQrfW
z3`YSybCw=lR5QB;NbVF;3#`mi>V%e?EKa@ZS=cteZp+XsBHRkiYZO7vb;l`HraEem
zG_IY@c_!k>W>y=UoGYzvfZf(^7H(=chnov!cjA<&;>}5xEtt4=Dc+cP;R6g)fH^-^
zWknRY+zI+CCw-%p$*zb^BhDIBPok&?0IdZyHyLSG5K;qcf|=uly&L9e%TdKx*NZfT
zwdtW$OLyMNN=gQj31Iz}hfAXkx3zQR@uTRrFD1PfT2ovYE=s$HfUD@Evp`l+1<fc?
z)Td;u?w-<`I8Gl#v}+s+Tl}Wjt^nN)m~s-afUw*m)KfO?L5!J=*XV?eb`~P9NdlnR
zqa}Klp$6b^vz4@Cc{@@xS~4@Vv_X*mp4n8LLlJB)u<Tab&<$zA&+GKtqIH7J7f#XP
zTKw;aQ9mj=T}y&Z)t_1E<W?62m2^_XY;dm!`kXmoy&D=0QOqE<>rbNfJkUA6#Wwn{
zDvGK`9N}0|>N{OxQE^O;;(Y_5b(3ARK2PqpnrBf%Fcy%0>*gvAS<N7a+RI6$bu`eB
zJyL}=(CTUFpGieu9HaFGA!8;USCI7o09E>qXneT(uS3xFm?dB$Ku^^?XZ8t0=(DKP
z8zXqS&g#87*)Qx{Dtf5pXt4@sMI3{GRc%O<iRBV>t9?)QyQzmtw{7+Sy)pDm<TNVn
zN(VMGuvv2E!vwB|f;_8U(P=2*E_<2?Sh|-nt|5a9(0aa(c?+%y3(a*xY0HDTUnS+a
zbJ{fH^jGRqfC{3PR&VXfO;WOVxQ52y-<4kroKL#<K2%g&CuN1p&O50D9@~}FO*Xxe
zfsZ3RSwF<m3U;;t>Tu(1CQC<*HCsa)K)r?6O3Q)(?2_7g3Y8hT=}TO2n95fZi>(Lc
zLyrKbeq09RaHz7e(`6$dEe7E_;kLQCMb#F9K(Yy}FMcqYyBW%fnK1E{D45tL$4`FB
zVM^iK?v*4I(-`W97T_UjDje36zm+vZ9Km6QO<ecqCq5P71lZjXRL{BDa3KR!-OV-@
zOSSv2VpOe$Sp}OLmwZx)B_lPdQ<oEqs+Uoa+>0&qG<hZWIiJ}_RiTD5?hOmGAD0-a
zIotX$4yPd41XVRFoPDh%tI22@Wepkfv^o}q*MLhxto*c<fwGT7(`0ko?E0@q>AgBQ
znBBuY)O5OBG}d<(3Q096X-?4KyniRid31!~W`bIHy)0Xf6*Yd79OU~(RB`J2!akOu
z$^o^n-Ff#cY<ehN(=0yX%MYUH^vZfSU~sf`Q?aZ$94dm}UR&H*T0TVDrp-u}3X&Ql
zW)+^8AG|!9lr=RhLdMrB$^aPKt#<7Lj*Tvxt3Hu~YpjhOSt&bxLO$yiH0OYE^-iOw
zmU#x!PFHV_<mOJ33dDLIpRO5S?tT92OQ+U}0I^t24@jwXjh$t-(lptbYu$Yxi<)y=
zLdp#nku%k@N{u0sgLdSjblPVN2Xe2Wr*7PZ(>6R0GS+%!uLQM<4I`!B>VvY`@V!E&
zjyDg|5gJ_-EpYaPxc0%7Xrj?H2_g-+D`BS6m|6vqbn!4W00JsDi>o?0(xLS2ASseJ
zgsB+l<;$0LSSKVT0m@^^94I7tT7h7?k=+}!*?E6mM$pHvOspiZuR80dA4TMj*GnOz
z+2TDzcFnuNUYYngUN$j=@VwipTkbZ(*M1R~37cftyP<P>K91Am+`;mV94d_{xWdn(
zwr>c_utZeXG&p5BasvTWLNc?O)|~0Vwd}RBG!TQDAVI=pPDt`iXHS+HNwbI?*q|fS
z9ZKD?Qn<KxBJ0$3JvKR-eYaH~=#=a`p3m&55B5e;W(r!(a-!y*ouk2U;Zy25e^6AC
z`l^Xv;f*$L_Fk#z!w}mX7e7RziXz?fmM|XJR;YU<;@RUgdQQ3dkmmx}@5hzt-6uy^
z>9wwA)o%`;O!wL*Zuzp%>2wZY7!4i(LP`-`1`0`#!KLqDGID^{I&vDA9MUh33t<#Z
zV{Dc2wZg<MX*DHBQiD7%S?I<@UubcDO7i}?(;%ab;Fg2qy854}s6>>~SX#pC<3GoJ
zN~(ignwBSE+@FQ>{&$Ar(}%OC7F3lp%{q+76+_5yz4%m+%v~wA0*<Cxsw6IXB$LX0
z3{GpoA#~xz#Z-=bjW?r7qp{Bd!|tr*fz4suaDme*nNG`=5_?%brnXv}f$bk0u8Bf5
zq7+2>klAd(dm^cI7+^c5YmK`#4;&6Hz{&2LEeoA>$l)lv9Z_Lf)pCgaI%u04c-(ne
zZA(y^qC+H-665l%B-0!leWg{@QMi)OERXvcSz2l(b{a@dj1zL~luUG1_Z2%LV>nM5
zV!1FEG1j;US={j3T&sD=+htKu@Yi`N?WBVi$N)FFT<6&1mCkv$7EnngfdHjj4K_MQ
z`6@4SzKSy?&&nnNe#ptt!x<Bfdnu!794SD}l(EBql$Hu3ZsTFQgyXTI%2!jp+zTik
z-MAv?r(jJnJ<dMWI1dcV$RAY5Nx1B%G2D4g!pbQm4C%IaE26B8uJ_zu<wa7^3K7EB
zSw%z+R$j+jNw;Vl&vnmZXD4emkA+7aN2G6Sq8qD7*4cw?(UWgTREet~3<t8Rk%H)n
zYacFNNxFx1^I?^un(QPX6yjZca-_BGZ@NRZqvdM|!MNVxa~Mg=R-F7Pn&EE22WBG?
z+me10O9zE9b8nP|%{H~r*@ia2<S94f3BPNuArlB+n-i5ApLDJU__9FXD5Pe_@^8sY
zkTRcunUuyAgeMb(#*3UOHk%=!5%2j<2N(j&y)`Q%MAk3@q-BO~oFgElb3h*{ModQ$
zep8#a)(SfkRIL^XS(uLTbd3a_6s>L4j9?tuWV9~G+QW3eWiy9`3)(>Lg@%U6N1w8c
zcwAa<aFjIpOk;q;OI=B{kD})N5}0dSWTXzs!sHyJBRr-s!`{iwBz9a{LQM8p!?zn)
zD9f&STwGHv@`^?r3TuHW;ik)-f%3K2MzC2LZ{0_<+rpYxl>u|kES*`0TG;TG-IFu&
zl$#rsnT0L+%2wDY%$5ne-FzlW#z?x-$lMmoN-eOt;b8RX92^SP=@o4NUiVq)6~eY?
z=5R4s8?5H80WQc^@=v-lK<u-c!Eq#AK_zFR+u~PA8*Y8UG{n*{K`3Lpak(i4$8&X5
zMw=&e1NwrD(~A*s5?tdc9`BS<HmQhd{zcQ72p!Z;d#}zEZjssd6m|y?;LtI+COSKy
z_rBk$D3SaZ6{yinEs=Y!tmzr;%BG3VxXD)(SsdkH%E_f}F_i-V-SUc*drB5N`hw}A
zb4`{ogSA6ZamZ7_ZK@ic{{Tg9$goS<-1kJZg5M}!=%#={L!g7zev$$fBkx4i{+l6T
zHgY-vbEf3?y0Cb&Z)IPm-yAC$549*($}Lx$ps5Joe#q@#locoH2nX3<54Ao#*+$X;
zH&2XZWM)YF>?)qBGWmd4ByPe=S|cRD?M#-z=v@ke?gws4*wIsnV;AtE(r7~(324HX
zQmGX2oQt6+Mq2~ctD6%D4zly@cTseYa1KXx9;RIPG(Y>Std4Y#F1_-TvHC}4?!P4y
zPZi2+5nS+(hARu%B$<)WvcPy#vLf;<6QgC#m6o4PaxM^CGi17L8%2p}D*gsGHj6gO
zDp<BO8!64tWkwW^alZr)DL}>(Y)R)S?G_**Ls;P4U-wS{4%{Rb;>)*-3=}&E-~q~A
zqsnVvVQbv3E;i!JQH3@J*9)!ZKT?=O+;}!pGB;$cMiA#1A4J`w%9g_Sx@os;tbo|U
z+Y17dBR!M$=l&FKCg_DRxALW6CEpfNXN2awjutUDWdx5PT#F{jG3MlUK-JZTw<T_X
z$5hT53Aj{xj-g;cDlJD)$<7rWRakL2x)=0iAF;KyPI)5ys^`AvDoJE6>=aSP=M+|g
z_0i22DC#<W*|pQ?sP_?te?daf03aab3bC4H9mv623OZJXjlf|#ikoN{R+R9OZr&1h
zQ6ea5m@GpS!T<;$BBPIl@Xw1TN`_^0@mm(MV;Ny=BkCJ_4Y%@ybaFJ^t+-4WhR`<7
z91hCb5G~nLQ8sPYx7l1%2mb&yl%*;<al|F9&5sH|+-JH*wAd1)0dvY$btG^YTzJA;
zUjyvA*A_@U4DW+<$MA1uD~F7I6mp9<g^`~{eM7dm<0x?AN}5)Z^OX<=>aim=u-YPQ
zjR1=t$VxVm;TY3qq-7$G9H#&{!fIP%j>%C(hg%==lmv~kb-)WTgt73E?`uWRggs4D
zW8{FTH62_w;2-Xa*`(A~%NpwT#?o#t;b*lCR`(5Z3QCEprLze)D9Q~X@}19VR8adk
zGWkD6Zpo_Oi`bQQr09({bH&efaYv+xnh1~kBiU%1VBDv)x;Yzi8A+wn#>SsaeNkjV
z6G&r15=w~$$7DQ{mv{QDW5*L@^)v0gi)@0Ht?n4Yj#0SWoT$h-TFWd+4ctk)jmm!^
zGy}?!fb(%=By>Ro)Yya(Xa?%Ss90Da%Uga$mP}@ajDclmNJhbH4+^p-H_Ef505|*~
z#)=Bvw1AX4=>Q*epb?Z1&X}OxIPvsN7v{w+$v@1q3L0;IGLw$!*SI9EAf*k7n|)Gz
zC))o2{G@REEIo)g%Ix06F3Gw>`cjOA?c3;+D~3)NSo3v)C&m&RTa>v-O2$GQi`@ZH
zxW7DjN1k~>O_vdF=*O{T(1oL5xXNvZ^o#gY7>>bbTqgQwm1KGI?3#_EZ)CE5qh%#D
zXKn9dqmiUMf>h?q;1F|U>zja^-q=gRL!@<$juT5tTbtXmOP<SFshnDDnnrob?Z(Lu
ziv^4+=ahuldH7r~cw9~M!pIGXe#YrC1?;)qfU-wl9|?qK6JiIHj<xcdU2K&ElVZei
z**aED$s%{S0s53qn150dT94bZ5?Rk<Wa}M~o@9gNouJ%h4<%XiWnU!D&QQ|S0f1Fw
zj*eOR4fI&aSAIz44K+{~CB;?GRPW^|DQA_}7jkVbh`Gu|r22yZ!mpoDxWn9rZ8c2J
zuxo|<t6C17no=C{5V0JJXH-ie_U<=CQt6eoE+46*>&n?_{W{3qV;f4)&}nUk*l4m1
zirtvaJEi7zi=%PBa<p21OqlFTY_vYe8-1<Ef}xvKJTf*|cie-J60#UHcwq#%xLfGD
zUq&1>Jq=N)$$iggBe2}7>UBwY6!DM$085l9v9uj6P#E6f@pLTJEpxBx+v=-itCjb=
z7}NWxT`S%FDb!d?30&t4N&6^-Lf3UeZiIA_7J%CT7d52vnvx7)+X#|4K>q-HchDi7
z7$jN5{Hd7Fs+2Ge*eQ8Y(Hs^I$U)9ZaDaCO6UDGTQah93BbjA_h&?-B33mMypIZcn
z$__&)5tiH}H@-Y4o)a8FK{1?2o(@zpUcgyS^#u0GDv={J1ugD}cqf5>ghTRfFrX(n
zHcw|P(1+A$x1>IoTubgfm|W=y@4`<~{t>cN6991s*@R0AydmL`hJY09enwDb6iFOS
z)7x-4QH<qE!TTg^>Vh47BplpwoClPa0OcuGh7pgHj>qhtMapA>#Msf3WZ`RJA^QIS
zWUS<(!y6n9GyT^jZ#XzkZz)+scYLnrfx<(R@Rr8-D0C4VQg*UZ6G`Ie*rMY0!t8L8
z!1-J*vJ_k6>YH?@%4TqiG=)F#qjkL6>Bq6TvS*w9QzCL2M>b5s$M#NlZwbF-<j%nP
zO&nV3c<z%oSP0;GN)5hOdUqHlDT&??V=aleTR2KyErI)`^vDEQeacOS+$=SmUIqS(
zn(g1Dr7)WUcnJ$jdnGbweeu{XH#V|BEy`1V-*ti~e48%ky6fKu`xJoKrZC~k@45Zb
zU+xm_OG7I@$pPKmn)upqP1L1<jl7ZupepO)h#j8d7skUJtmLw9$j0-YK2wgHO405B
zs%PrclVCQ56ZLm7zUPvB1>Feds){D$uVMAnRLyC#8WvwwrlV`g!9En#+T4;fwV?e<
zqp5teJd!zHuZQDiPn6h_nrLu_0)3&j?xhT;jEmU_$X<CIDMU8Sm$6MMB$<Dr&l!6|
zTlHJb7589XbE5(zZac01gyLE(xw5KfZWp6bPHxpV2zpcP2!X~|Gdd2!Yl3*;A-dFS
z1)Z2wx|18U+$-6dNW!YGgqEA4y8~t`Re`T@0C!Z<P_&!?wK|jp5-o3)ODkO0Wp?5?
za`ph)7K8r)!ZMnTfZquLa448}ABALdgws+pfC90nq;F*f8(c_N6w%muPKh(A>3|lp
zw4{$|3MiXkh+~N1EZ&F3rdU92WNdE2tbn-kkAQHvCf%N#7J}G9csWrs>ZET0Cm_)x
z<bb8Wb*%%VmpQjff3k4OJW~r`RWV!@NncJ)>=v2rx)OSD{>ZF01(J-Lsoi7kRJyze
z(|93oUqUQ!sI`qWxr6{wmJJn-ba;1GQ#bPl!<Ch&)0psmzq<8Kr_g46h0SR;&DKh*
zOqL>dFr`@K6f4T5BL`KamXcaBs^+Ga9xlBN^hM&^f3mHu((rEHQrojhCSn^?EJp6(
zO%|x;n^>!A-6Hq5_*C^eYuUp}qHEbXK(^Dh*<*0n^N*FZ>F%+X63}EL?!2{-y^ir@
zbu6YlT;*p7u~TtAkm<g)WTBz*Tkf~IR=o_(AH)QGSIOFLt0W{4^JTBldctT6L6F#a
zDJjRH`6(@*Pr+FnjTUfEm93Gh$$Dq3TR3PkUjG0q&~&{`v$3alDDvf_D0@U2#+Mw-
zceeLld9U<{na+Qw{g<v6#^I6>lhef}EHb$BcyP-0GJ4tb-mTHn0_#VAvdh<W^XcAh
z!ajk0IaQ=bAU0rGE}-eC<ZF(=KFgmc<J2Q@Ip(*c!(pcoi(2J5#l+aHj<cbPcRSmF
zvenFNMZj_wjh~!dF;F;g7#K~GR)fk4YM<g3wIF%hcNGN?EijW)Y~cw}SoZ+!KoY-U
zro-xitf@HxLk8&&7gbP2dFYx)UoJO3QyU|1Y}hGZ6NGsj1OX&SnvL0WM(z9*cxl_p
zsiKn2<RjZq#xm}5lT;Yl4OAij0IKCyR8zD#*aU4&b3d0S>Vb5xd&PzdX!1_RY>o;x
zz2qxOT4)&1T+x3jI#^_Ocv086@igS{o-=cGW)6~~7=@c<O{vT!xL{SEn3_q;LB;<7
zb#*~U>Nj)E%IWyNJ+d-;(VrC0^|u!HS}iuDLe}2Ec|=L4Fakqubxo^7G;BLff_{G@
zp;W9hSJ&c+g`2=W7JfR%)y=qG%ATT@SJd6^Cq2s3bl#c2X?6#~zrzeru*zkQn+x4w
zc(-+S$wV>OI^{Fbik>^%U&02ac!w_leOCmcvN3rvwY4vMkG$LK%9Bo$+%i=yW}{8N
zYaO_&9SFW>iwh$xG=@&QHB?z(Q%xq;{;MvdgJeGED*aY=vhBJsN$DLCrb`TrGJB78
zuj!9L&u&|F=6{-blFiDy(X}b*UefG+*QJLF$4!dm#h*fS?KL~1X|q<I3TT5xfGfzl
zN2%Q4#yR-<uT9Z4CQ8PV@NT`FIaO#`E?X|3fCpRzd~LICqNRIY1&S~<ZNj9TfoKw-
z*eB4+1BO&}xM@K{P$PYcINrgLXw<;)Kt;rORCG0sAPcKVB@XVbM>UosgqBgp`-Lh|
zlR0wagsc&=0c10PL_DY;-5M6bDn;5>2d^4GF8=_c^a_vCev8lg=-vm9ge0^yUe68c
zYX_6qEpOoafSeDa$@N$B@qDc(;S7LPG$V^_T=sn(rCZWx(OIgkA=iPQMQS)&U79@{
zxpL$NI?5>;qy;Z!fY21N-3wC)*l?`e#RROlvUJ2~^Zu@ux|SyzMw0&4SnW2Ws46PJ
zovyJwlD&qjPl{uC8VVXcDh9k3#?kgj?(W2JvJRJ^kU+;w;^!YLQ5zb@*aSTkO^LP^
z2!kVA-87xCp%oGMUD+^6i<|{rs%p?u#C_K`;3aw~Xshe(ZVe|!npZe)Eg_@jd`bAE
zX4Q51YF-Q6_YzmozlwUzMQHTe;LuJ5_+CY+Y0Z#1?q>HM{g*q$@;*}ZN>i?nAew+e
zMcc}BRKN>>70$8gGO|msmbBmisixHS$+4`k`YA<kX6z-fy1)Qbt@NQA<UAn`s@UV^
z<x*-|oU^-VBn3v&=vuzbL^_)uL~#cEEniM(@2g;vQ)`9iy&*{Yil(~c<$Vj#9XjfW
z7#+BP5soJ{V@8aXevM5}1A|y)aUGTiS&YXkn%K7I!ums7(RA%Hh4WM~t+4NcSA}&M
zb#|>Q;DcmWu)_1agrPdSIucZ5>FA}M*0BKLOHrpjHsllXwc1rA6wLK%3tB!^M^tL`
zf;UG<+r0O(=UM*%ZZREURcyfO^)HTd6G#9m_PcYg?4oMmmRX%6nr`ED0D<klW#}cN
znbqh?90N_Vf|$6Q6Z<1w8?A<w1d-)3V^}<5#S+;zw*^P(oBXFWmN^Nu#eIcSox~g2
zS<=2XHs;q<>?A2YQ)^tMYtfpr(rT^3&B6vlo0F9YeeIhiE@iM0j8f<eNR~I-DetHx
zZ3gH<;&3lzEK!m|cIgbZG3|TYN=YEw`iKN_jWLF|1qD>n2_-`9l%OeWNw*3;w(g$u
z***wd@-6pOPLVdoF_&mRI8tmQva_Spq<;-XNv1uGyYLj=Xx#-SP?2NGVI16|>f#JG
z1q-)13F7R;X8o5o=gO2b{{X_CBSo-L6Igrlqztu_xZ!hheiE}B8;=PHPc8!rKT)^G
zWKsyBxJ+=jg)gfcTVRHoP23A6pdlS5aFu`+21&tF#5h^48NHLWt?h)QWiUI+>y)M(
z2=1h7z7zuq&2aI;#wG;WG>m7uR=6ZD;U$F}Ex_!Y-!@FSCf80GM9*ZbwiDV7?wHGA
zPRk(J1`}k`LFGvHi)BRMLBa?uR|brg6P(bT>zsE{?aw?WNGXV2;dSto*m+EIjqtS@
zvEbtFDb4v%dVmgcp2vbdRtIFH_9?DQ@>gMG%rLg=y)%9k&9%5nY&qc@2eBCy!hhvS
z8B#+eV%J8Bm_@A7@|hu&N~1zZHU%f-4<LVKZ~4eOwJ+zO?8|+VTOWx|>K6u_A*G~s
z_*bv2iQmc;CU_1@R@gX{CXxMtPGuW`{Wn*FXa_6`XeFj|u@D71VJm4VcI1MsXiHe(
zYbyw8qm{P;*H2{wTI+#iB<!X((+Ps^V8W`^nQN7I0|R5Ssn!LsS3T1`7=IHw_WRRM
z%6z9j6mB_Ih>UV;hm@=<oB||YWDak+M&K0g<uSk_m|7yXQi0_tA1i<(gjf*xuW@B{
zrvN|}RPginS9Al|v6(c-7P=LN&ikUOZW=5wglFrzXq=f97H|=>DjJi6&D50l4Hr>V
zgOz2`8wD0F&j`52FobJ;=Hmq!9k%@zqXShm?Y;7YXX~=Cs26ELGctHt7_`$*#ubye
zRoZtTm1OH}z`_j6MHa1n-{n`*-*??vYW$ljxPje-y^Up)U3TWl(YpA$6}WA#iKJ;V
z4#UF8%(S4VGIm-GH&5GQMo{`BBH-KmE7JDG9_!euCWP4)M2x10n~oMEsdZeq2Ux2f
zq}2mj=7PNc08^@b@|>v2+bbOd)lBK7H#Y>Xr;g{!NFpvgWmv%h7Pz;<R_G@|9g!?)
z#j=&Ln+si8>6Ct>fgw$7QIs@qdx5c6lvJgy2Ez#28dfo)-~>#&Skf9lWc>_~D{ufQ
z;9T*9!qlO}1jE@O!Avgfk<M}KR|dNGvcR$Iw{+qFT*&Q{^(p0}fL0BWH~cACw-*XG
z3uP_9wiaNpjm-r86CC^8g$Z#=4ln*tppI|5B&V>nCT_9eF6?LMfsS*BZ}OpYyYQZT
zCO7~%x@2L6-ZGfyk;>^D)`D)UYwFs@k-S}N7Kc|>2*E2mscKm*x`R@#xga=|OEiVV
zl7rY%B&e!$+<7Q>z0Tnyu2hupxx^xpMs1CbH@)5LtmtT5;xKH8p`*R9v=mf8TNVji
zgG?Vyp<``uujpymE$sy|mX9LVR<yK%q#Gq$9y=cd4L{0?jw}T%aoAf5O@_k3Vzffm
zSxnfjKA|XYYbgUwk+AV}2Q+qf%7CzLvMNw_5p@$lz0N*Su<@XZD1g2dj7;GPL<Ot|
zbbLT4O`Uj<=8nUJ;q*!eb=SsJ8Dx$nCw>=PXZ)_dK2{j(4pSt{Ph|1RWQPPGf>%yG
z#X{bAQ_cFwDli4rqtPjL6-klZ7&3>Z01F}ku(?RbM-VT5>D+frd)nNRtLt?pL=U(n
zU(no=EFUXa+mfp5^+rSp2Zf*1wbwfBXZBSMb!BXT4ZtcaZJhahn8%{eP}O9R?PbmQ
zvKo?}qN+={8(msx+7yl;$lKj&sPwqtXeKs`DyXD!Pc)`eX&OjnoLiNlf;L74!2Oh)
z*&hvP?1h$mo00ZP*dvX|nreXD0!PscB%#-}{t9cPztARt+j5tY*N+8uFyv<HH#B^G
z6vw@WRBkDG9UM^$vxLGdY@~6rV}WydOoVY7E)&DRJ(Dcsj#q3XBGHqgI*A8l8|{1f
zMb5%nd!Ss?a#mUzn<Zf$1{H-Pfdd2KRWuv-3d)ZBguzQ;p!o_xY+Wz|iyS4ex|mq|
zjtWDz+@vkJ!QnN{#qX7dLX%_4QT0p>w<RdaSYg*4l5jhmC9%5Zivxa88pO6ZNt@w5
z*vU<>vAIeS3Glfm_(@<^3S#2lRn``;B_J5e=QhIY41|4ya)Foq%oJnoZcr0qOdjZ=
zB+^9W5(htIn=bBC1D&)c?tSnAsyyjEmJkaw>J&~EeY<%}1Eky8M&~#`gpBFJ$AAgS
zTLjjVZ1+wC{{Uo%OAz^8Voox+gqw)&jRCWZTu%ii)8M4_9ez_?Bd?cR=!mvFwKQ!%
z%$e$fe^QC_08Va=2<1f1u<oLgYj+<+B()$Oa)g?u*(FjiY=rY97c}<olpOQ?plT}s
z{$*QHTJmfPx`Ia(^S9AyH9!X?11)D@>niulEQc9Atca%5YU*4FVX;Q&=WVh%s$Apx
z$V`qo>K*I_%Sop6tnag*5kEFsjVD0#K)pD(k`lJS-_d}l(QD=)hMOzBH>Rr`;kp+6
zO7u!vW<t?;h5m|JYomp~q<sTWZiQ{V87fYmsUNBs>^qfd4GZD+ksdw~l^VG%BH_03
zsq3{zxS!$+pM<w&N&76z!w2b)_E1Yu&@%RZ%R5nBE6D;<Pr?{JSLDj?{34>+PBvdv
zRI`ok3c6>t#=+v>2rFIJFE05?*pFo04zV^Y%w@?l4}}Aw1mWMZBtR|lpXs-ez~u)z
zEe{^RgcsnSoF_H_JEHcEEE7&b9LoF%g|TtvIgPV;Pvedfaf=}2$Br~}YzO#De#x$}
z7Y56&I~1*zNg>xGkdXfXmBfr?AS23K9SWLx?R22waTm%Up@*Im4>?jBT`|^K3nC}+
zggm@n{{U1=$N>*Ew)s_yIkEste2by&WBRY~rl@eg3Jsv29}0-&kk=4R?9=6Qc9JXx
zep0#scqtnIxEH!&TCmD}yGAaHi)Ft^LO}(ZJ;=D>K5&thi1vZ|saP}cqibwbt?$WG
zXH*cUj&PIcK2qIrwh$eR=YX18Z+^;7_z5qY;Tr=PVmsX+1pL`a-++?G{{XPC5Sa-D
z&&qYN@{se!5E&hEdoH;FA;RmEjC`yX&L=rZjl?AhMg^|027}myr~9tW%I%<!m4zBY
zL&)%yfyL8EJ5e==afHI}u}>pBl^JilCkc@`F{e1W@|r&RP9dqb&N7`7Y);rXTmZj&
zuC_3Lb=C-2HaV^%xGCPFt!t?5#nRuh%w&h}Ae;*>^$oa8#kmWed;BFFd!;x8Cb`?Z
zeNrR<+lyH-yA`82NNxqcx_D+k;HBID0O3k&BLLj+xbuLe^vUoN>^ZUxn1ou{y}Yj5
z@)X{mjHL9>!qz%R*wqm<;rT$zN*!><U1%Q+10}$vV26Qa$1lgX(dE2}nPa5MCuIzs
zJm+6?a<+mtb^s^(EbtdbA0Of;CuRZNJ#H8Rf%+4{!$<7B5!CG`fVfbw<k@zn{fK$n
zG*|aw316f+x!S!9(8fCj4Ae~HXiruYj2$HlqmuUSwOS)fLqQ5x(EG5!K8X4nQrmlM
zrIQnA>cx>nv!(qa=%6s8r;fvfM%BvkNa<M+z!R;6;1cZ?L*kLXL_qeSs-w6#R&Ht<
zc<*%4#=z!`zM}yo;ZW4l67Ck(dVS=fU8k^{*>yq<9GMzsH}a0~iKnC>k80Ha0H-jX
z0&_I>gL^9RAw@+UIRk>M;D~|3Hab=XGh%2)z~BuVIKrMbcT)((l#F0YEuo_tXF%Iq
z2)OW~i~y&ME<BNKo$!{4T2!Neqi702^-|!*<cD6#$p<N0ZtHPo<c_*q*rdYiETYg`
zL$?H%2`m$~g;eB;w3ydtvVv+>%X^F>fcZ~g36!KOibVx(jTD#m1NK?1Tc#qAI?;vb
z&R`)8Gz@j_6S+1jNb$<vlr3>BX|m61oj&+lZriVPs-k0ovqH{m8e1OM4ZN)wDFx4o
z;dL5t4mW2%2s!j{@ol&JFH)`P_L&I`P{-5lJheOVpQ3BYN08QZ`-nDTqpZ><h?}z=
zm%hKI+FE^~RO&q@91pXVIe7AkMVc(|hqhR|AC&kip4X07s8@7hb?q6y!mIxP(GL<|
zW3Ti|vB)lQKwUMf$rO$DoE}%EXdPLxfv$C}##Uob=|@J}7|uMR-=WVKHUxbX-YGYt
zi!4$-7f<TQWw0^~{H-RLsz*2;;BLG|mrksXZ)=<a+H~=$fB@o8)ThVePRY;8hexWz
zEN*9IU8{N`GF(7Z)cS;tXFLT-uWD6Ng2rCnRD8L-F}e~tBFz5)Tvfo(=EY*~h36HN
z^Gr>ea<<Y?OH)<3`<zMcuk`MgWQ-1T2kgFbIOpX`#?w4rT{3w6#kdGL+aS0tE8O*N
zmxxoi1`pYJ_N}2gvzCV9>V8L$EF#J&7!S+3M*{1GZKl!y-_vz(CX^!tmK-2zY7HnM
ztUHtwoO?lq16IeersBb8B>w<#+sd-3si>)WXbu_5vCuRZ)jg%nCjS5m(2JWH%_5qb
z8i#|it^>*?^fe)uaB}sH6QhHoX>@q{BJ~cEiYQ48&(U<t!klBtf-|$kUkjM;aLQPS
z4jHgpZDT}iMZ;$cBVSDDWg)FxkLi@s2#TeQW=gKqrhKG^iv#ecri*jE*G0<%Jv@t#
z3Ye52?FlLRGNd{egWRi)H&AG6LG8+{)>$KNLr4K;=hUUAaTyj~io^3E8orN9ey0l=
zmjJWc=CJ@6a9Db+cBHg`N~f!>sF~M$&Hk#Ge;V%Cy&Bl-Sv2;=hjpW;*J)^A0^!a9
zc~o^$uwlh3s-<`rd#t)A;B(V@HLqspS?cFJov+7$vlV?oTT)9~DQi!KPV!DJkYKKi
zUKT8CNDfAeN2xxbE+n6-^lq4~jf@u~9#@f4R2bcHg0HA`cQK$7{ns~@;=G*!9?1P>
znXzT!{sO3;pw-Ro81k{2UZ7?<I9mRmX`V*4t-aSAJU@xsI^jK0bEfILjl)SkY^*9Y
z{jL2uS`7nCl17U#+vu(8G&u}sbAPhyjvtT`if5m}Q8gUF%_LZ@w@P(%k-4pV&AwG0
zv!l8<8#fA#^zy+b;c;&ZrWkkvDXx#CdTXd6osB-A&&t<9TF0{lFPpkkS(2H}4tcOX
zSEuNmNfYB}FU`ECw!0{xq^$G`hX=O`vUtu)j)PES;Cq1z#>{(guZ@wK^i>L{Q@fI_
z^sQ9A!M3`st);#~evtuWqYJ4!Ib|9)l#)5^2ZVHYuvPRpVEQW-aFu~}DFr32oRJF}
zhL&A4#uSMU3s@)$rM}X<{{XI<1TMFQ=ygA&tPfna@IM`veHuNU5!Efbp057@2|)bl
zvF@q5q!461)u-Vz?Op=dzmRkEeI=t0`gs0|+#hPF(GBUN`YUUD5uakiqrE|UCjtr*
zLP1hfxRe?Vgf3jV;Q@sHRNc4aBy@l#i9tmQ+OwX(R3(|fQ}1a?Hj&w80AhBGn;@%o
zIB8l<i=2<B+6C4_sogPay)j_9e5~&b9FWnECMABqETrz0u*NyLSk9^IogYt)&EF+d
zw*4#^ztvK80j{0yV<g%>6<rTWOI+>JUBvexdA>K~GWjoz6$W_t_Gh(Dt%|Ot)iXfn
ze@tL-v-*a;HlPemg_Q9gdoM|@{5}k)bcKfCU3iD$7Kf^7^>1?<C#Sp4EWH<#BogJa
zF-Q+yI(%(*+1VqHA-T%M)yKX<<_ur<S9DrMMM(~nxcya-(Hh3(nffN=+T_LdVkCj&
zX8!;PSs@K~xNx>J=@L2Q1|6WPO<s%87U1|?%RF18SA(H?V^y0@s%zqjvS){Iy~m^a
z&t0mbY*dlMOgP-u<#;xb8p+%0SPS=F=lFF#p4cKLMqjwTS43AORwAU$H2P+tsI%3t
zo>`oKsH}feXp&Px_c5DD9ha`ht7#EZhRIP7HsBCRS&pJ~8iO3#cHM`)mp)Gu8|$(D
zL&B@#t0!r5x$aO7qKURL$Szj*s<gIKK>6QhfxrvTY9x26Tu;$+OA5y5Ws=ac(M0fe
z+QC;=(!$2$B@sPTmfF$+ua-jNmt3cfvpFt-Wr$euWnEC_2W<$dr#RdbgaKi5&Bhl>
zR4CAFNy2k?9GoY%ATFCDn$u&HS_O<H+=QTB<u`r8d`CYkT_CNCvE=cel=$Frwr-53
zfWO>uiIPexX8Vb8w*f*~w@9pU>ew7~<-COAM18WECZOlI2;$m4QzPE<b9<GpUc*uJ
zPWixT#gG*;7ZLzPJ{R}Bkj`M=$}mV)4-_Tt7`oAD)B*M+D%v>7c;R2sIgB6~06z&c
z$<~EPyQZXy816v215}RS?M2f)gk`|r$x&B;=9TA0)V4Z{k&mvA+-+;1#CA6-&rx#(
zg{-kYP$XXD_g=0yqHRz+uvczUxtKrMLi`0y7*czb!tJ3TaTzHbOR^BF1yIL4lz<bS
z6NG0t;W#$kvY$xJjJ6a{2f{6_xUo+3M|3RR0kwy)Qf)jU+ZY1rk_)WlZpc`|N}a40
z2^ct1fo!B~#4i@$C?4VpG0eXyj)W|kfy2%CQnZU)gwq|3(}%PsZ5qcC0^scOnBq@1
zObvbTwOCUOjl-KMnIN|aD1iegmKzVEMhYe`;3nOwGVEO=T1m<Q9QO;@1i;K)JT}E6
zoGhBbL^2y)4*kwH@`)z*T-FPFg4P-YYY92JCMMgmkgyH{a09SGy8zo8Bm&vCRF>{i
z7K?I)gl_ZqvTjNF@RWcJiBE`&_D+mGD4a)iAf}So1fwXno)LRS)6LVV4w+71ka7xd
zqb2w%*~7h*MA-3!Y+|s}$b8v%qad)gm5I&2;WqchuoklceqHCWQbQBk?1GF382#51
zzzYl)K|GCMX*??^q%R`*RM5DzfrV>BazYGvZI(@F*}|jN&9W@7zxKY%JFb?S-O5Q^
zj`sM(&dTsyf69m#6X8tevm)sm>ED&mk;}=mqXx<E7*1>B9q^p#Vj$-WIu~{d@Im1)
zq8wvA({`|)a)51v_Y09elL)~}=>%-bOpcs;h85)i_VBA9iJ`*eD~dgh9HF7pbS+4<
zX5j+c2Uyu3QsK2%i|@ju5zCS6vWDA!6Dlum%c+O361sde;Z{8y>=<R&z_KDc2K`W@
zljRV@?eJ0dZpi8g4K_i?a^r+t=LZ=<#(no##jc<Fm7BjsuB&w6k!5D=wFYET>c<D_
zs-d}e9o4R^3At5pwC~DD_CG=N(QhKbT<NqVyLF0YiAm}f+%1hA3uA~J1jzxgdKlXT
zK)6{~Ynq!_#{fbjTB#63?Az$P`&`sq_qn@@o0i6}VA|fG>7^hQR}*)-=P3s1A9AcH
zV9o5eKqaDrz#Ajk76q3=%L{i$QovqD6vi7zOTEAmb*0m&+RzP!yeRbQKmc)X3d{62
z2sh}-3gX595RY)k3#D--M`8kWha4@N5%x+N+t{XB$?X?6B`^@K78uHPiSE0B%HVz$
z4@8Y<wtIw+#z9KckFrn$nnwjGh#qX1WFK`jk%MgZP&yluZ<N*w6g(GUJT#HdWY#b@
zy~30fEIx#2E%zQ$Jl!cLk>9#w^PAWsK(VfN3W7;CgxZNi2_@VrO-oYSaMG{>bsE6N
zn>Z}SrCMH1o%c}c74LaDRc1#xo7|wb9)*%Z<8rx;F2D)U!d_Li9TQE0Ezy?B`g(Uc
z!tGZYZk}96wOLVV?6AVRqNEMAnv(2g5Ly}lEpSz=G{K-*rApQj!%-1~d@VyHI*t*1
z467KU#zKyfn7xtFuv-f@Rxz=GpbUhzu=xs2wkbB`5AKo3vVhP5?UeR3ZMsn0`~>S*
z8*-7dv4AA41=mo9i`h#(_b7$$;HHZNl`!fS*k0VD*euY3qXxvD5v@42)Th~KA?FE>
z7d?`0&8)k1`3h{Uoo_3wE|sKrNJzg4LUqRpl96mD5(vVEUI|4bFj)X3-8F%t-V(fv
z^Mw(SjTt|<Rb3IA*<nv$+u1gHhDOVhtEJRpiHF^lNnNTLFw$1zV!Wy)hNr7q;e}_W
zsi>-yh6|#oX=bdK^t#8$TD=!Th7cU~Zthd4sH2Z2XD6dAL847FgpvcFA!#(tHX3$~
z%>(6V1Qf9|^nqj@M6q7L01@O(Mabq>Q$y`*0U%j(wGH?UK)I}Yi5B~*TEH`FByyv&
z9y)!Ge2#t7ENyb0-yEbRCE3#$D2a=4WR3@b6YYck5@)glp@+YP8;X?V*d{nz{{RTk
z84HeYgwijCFm8BG*<sr0)1g|j5go@0P|o&F4IwGV*SZ!mh$UFCBn4dVd)->q<+$*x
z91i1j5Ly@r2R~(HM{R=~D&XAQt12O817zKc>@$*lCEI+0eu)LV6sMnr0&!{i`AS%R
z>xb1mHuqRP5V^TITnBS?DPbr70F>7<!;rV5S>C1BdVpTRGvzefut+*X%kO{!Z$DJm
zTn}n#F19YP!|~edzS&G0fZ;ixp<vMKXOI3<PZnHqle)tUlMTqqt*LdKY}@_Sl$Nrt
zpY__^(T`;3(B0Aof(6fPrE8^ew$P>bZ5Rn!bHc42dwU6|FWbf!J1*f%4a+Q}aXXEa
z+0}`i-F3jd!b{j%>#u%RFK0P1#Bft&cm~K>ry}>lF^gp7G>N2mZ^9Nyta2`fo~FZ_
z1O-N*#_-~+9A_-EqQY8&I3R=^^;Q=y!m6m$jm?~^YAfY+>`C|u(xaMrui0@?sQ^!q
ztEbd%3Az2%dmC9$?`v!i!n2^z<dxf`1vQ-RKtGw1S9=)u6WJL>K~YfPT@%3hTD>bl
zV?%EqK8r(3K~D&_&`@kkvp1w@O|x9+Tuu2}nhi22w*LSIz#=24ik+itTZIKqxw8SR
zuuI6)%V?yhgk){9Nww%976q627g=hpdv*gGe+U^h7t4R)w<zq&29BeuU=A(Z-`!T#
z^&~Q27LYy_Gvj2LbWH=`CjLkhhTH0jiuO@sY%Xm{vvFWg3KHhH`?69pjo<(e%9KDs
zxhUwQaWXx-kF}!7?TDQ4p4iAez$y6y?vheEV~A^5K*$H>C<534IA1opOJlXln~`-C
zga85m04uCMsV#fhB?jdI(i%Y`_e~=o<v8<h$vF!qZX-><WQRPb8x+ton#H4l3A;f!
z{^|A>Tt|h6p{2F~A+W`h?Sd05aqyD%VJ>!*mjf0{W1J>{e(A;7gxugJpVXb6QUXQ5
z3nnD2VQD7H386N%)b2OJ9$7383W(;Nfy)D~n-xBDY^9P%5__&=p6>(UQCZ72E1(=C
zWMB|5S6TT6-&?0b9dzD_pr~38WjPHEu^+OI5OIYm2E+oU%fciqzi@t3fS%zrH!46r
zsaratgu?6r<t?s|^K=GiP2UL%yxA$YYyFZUA;A5Y6NT2Xy5sahj3MV3UC2v-Y`Yh-
z!>SrUwo-GH;y#H8`dMQ!x#IavxWKx7yIdqTSO+tbxE%OhwZhgS%bY*D#zRRYT#i>?
zDQ#}|NC6iiVOkjDjyOzr9CuP4$)p~BQzC4Q*uT{w;^92@DXzfEacF6^`2PUqC(%0A
z7dgU9++V`T2;e?`%0@60z%k)F)FHMOIZDGrgjn*p#o;Hbi=;9T4lm^mhhx1n;3P5P
z$vtcp#&7;sb`@e4yEivT^6Og(-lf69Xds>f20~rewaRwqV#I~mBazBpK2dCQfpE>z
zY(LcGr<0GAng0N}115cW4AqaxYmdoA#VtUvAbpgD%xaC(Huhc|zbBD<I3tEW!lSB}
z7idxnnUC`S0CX$_IP#B%8-=0e=gGS(!y3?nre4f9QVN+nw5bGOa+EQvuNGY2_L06k
zWM7z*`buM}9o?lA7~iU7u?t`>wd7Ci9~2k_wat$urpaK|8*tXK$_n_bcu-O_2^Hg>
zO>8d&S4NVOwemE3NC?Kx`yll2HjFC<v|E6K%ER!XqIU%0Q11!bM}*+k_(SGq_>mc%
z)=^0@`XWmk;YTDu_FLzY2gHD+mdBiZ69mmfz5shDj1BOc{D}knbTij#?_IwM#+-Ob
z`C;L2@+5EZ(ZXi@CyAMU$v-UL8A>Ueeir`#B1ZoJ9S##Tcux~H{jQn$cBcw<_($iE
zegsO%*>S>}I)(&0Y1?iTtbwRJ%-;z+DjIO5WX(`E7O7hcR{22jk_noZ)&Vp^6NC*z
z<u}GJtkj}bruq#X*LndDm^=sitxM`PGtmis0GVY60pdodwpQ|?5Ra83A_)9|a3wN}
za-w^}kU|2ENU)ojyhvquHy1(FQ?_1Fh8*&o*e<V%WOBnrB$|6XA*7;>nX=P5mf=<E
zbgvCIBrdLO<l{`HF|cCcM*4W3a!_@UR(gkP&6Fk@(A)Zl?iA-Y^iv!|A3;t<{iQ&3
z%4^@+t17B$p|~;?TP~wqU+sPrACT9htKe^@YMZB10fH=|n@)k=6%{>YaUSUuRobOo
zO*VP@r2hahFGWAal)aYj(;yDM;H8Qhc#dUY`>!(BI+ImogfeHh=(DvQS*%8GWOKjz
zimLN((a$duR(r1aEoQtqS86V%Ye{shULh}CYYiKHOIyX%1FUOgb>=QVb<dtlDykJ>
zaXq4nSPY;vwB>7b`C@D!k^o;mQ1zWucH4vXR}poUe8R?i4+>auLlV(X*!B%tvKKV5
zuW3ACQb(h<u0s1>>m{P<l2l3zlH3#AuSd`&jnRN!-`ynf!cOEmgMF1X9WN83H()2=
zES9y=50TC+iwoLmqk-)lDGr?syfhUYzAPrFbrg@DAn0j@K)W&YTW*)>Ax`GG%>Bak
z5uw9<+X8c_84$BT3SKvd94^?>ifctRH54@PfnY4N{X<(%8ywxhpM|E>>B)@U#C;YA
zs3}|vg8_1XHzbsQR6#B*$?Gp<j&bs_+MOS&_ZGEn{{Ygao%t3W?w>A(!5<l4Es}C_
z{ffC+=8(}jl30QVg=q~Vc3sW7ysXniPd09E*)}>y7VvDQvb)fX!u2gJqH$|L`!6)s
z<J%*?tJ*r6iQkuT0@%Xx4y1|An2Y}a^1biI<ZbNMXCwfNgglY+*&5bv&68gl0ek3H
z%I7x3rsn9Gqp;wp2mk?ZvM2&t=dw`T{4N6@RK1Z#5Z$KgT5?P7N&VC(Jlv@w!MH@m
zzolAcm@sfxynY(=(Wuz{m-{ac{5>J{@wD-A%KG#0su&qU!Wu7bS2k3n=)O4GwrF%N
znT{A*Ok<A-jYmz2HlJu(c%H_>K8lB3s$)UTlS7PjhH02RYffY2HfUMOy&N7GwpA0y
zB&XaG2pJ&2x~qzP2?>}7=}wFjw#ac+QAX{|dE50~gH@*QjF3L7E3N5{0oH1Zi(Q=#
zn$cs@y;)+`Nhj{T8%WopoubkMf0gs}kj(^_1cDD`ccE*O)4i=PHVCBA8}!eh;;3Z6
zWEEjU2;K_wj+fUPIA|`p`maOLsziWUS`uXDl^Qxm*aUkxK+_Rmi)+P|eH`yhm2!*J
z0e7g?s5VNI`BZ+OOS~1R7C}-lRvWF_KQ8|Op<9}Rg0S6kf9ap}D?W`L&j#wR)gmwO
zso(xIX!%2RK)av&r~Vf^ZmiM9R>S;;&HPWNbPUqR^jBZXsQP%`jz6Nk93wu&fIO_q
zd@Qg|eUoB%y_WQEWU3jRVPI6fkn<pdz$<EfHkT9+`n+T6r_|yvjDV;lqmT=Wl^Me$
zf2#$e`VC349#PR$w2#yZ#yUEdA8o=Wne{+expU9R$&a;T#VK@ZYHDI*ZsHbKU#R@U
zT*&Y~6wh(B<as|*fvTCdA%S?_f1S;7lcaQG$4<&0^x-7F=Hly9q0q88#?}GzWlCn+
z`;&!hL$A=&HqyG*P593z$HccP7c?Z_Ma^EG$z!vdd@nBiP3f9xsUGLCySrg->iWKv
zFt(mD<K&f!>RnD<M7gp!2A;uod4HC`p~eo`DB*3MIX0a`r<ZPS_jUj(`QG}2>A^}E
z4>-!*Rp|_xqWep(RM2QpQ;_Kk8hl?XlNXUZ(5EU!c+^?u)f!bnWu8L^z{<w;9-8Jj
zfX97G_iajwh9(&*CyFM4+~lt=>w3CJyvIgEfc|SBlySOF*v{GJ#sb+r*s)exT*f&D
z*`6)^CdeAPS)`P@?f{}_D5cyDkKJ|4DvUNo!rdO5(h|ifX_}({0R2w7^fp)N@lpoD
z!!v;GfV{7y=;bA&vEh2BPiQZxiN3S;w%jQA-g9lm5AYZ+wsf_j!)1Wsjmq;aN}fpN
zEpXbtlGgfuhMJwlvG0ACiFMAN_Eow@w`k(arL`ww${b8A?XfmNO!Cozm2o5>VF6PU
zK=P`RLL#1h&N(TpW%G4B%)7`OC2IwS3M$5`1(n1%2p8O&lC9*YbFpk8=A<nbBFWaf
z17&bF?xc<OH$3=VBxE~<7zAY=!n7JEkhZ|sCWgK4zDZEik-LlhEe4H5Y90V@b<dJZ
z8nTHwXs&{l#N2{WAi5UenFqSwX`MB?9nNlkh+Rvj$-84^`~|`Ob~#F!((p<u%oRmc
zjwBKX(FjY4$;#X}qAH#Xj80Yc{V!Ec4dQk_7fd{?Pf3uLDJ{{Mjq(F#m0?2nHNcyb
z^+mHqs2SLQWXWi!gkV^zypWcVsw_3Nu7$jdgdJv~H9^bGyaXtP<ok)|i=$zr+R*1D
zP>fx%n{`MCG0r#zNZLGmk<muL>}4L>J<;C)Ej+c+qm8paBO`7Qa{->p=TL?yi2=g@
z01BdE+^a)s$;ve75VRAY**Sru!bc0Z*rgFU#8_ESR!MREsuy7Ji;kK0%2Q59AtxkY
zMiNg7c-niZ8xBI1v4Ps?N=75waHD);=!4^g)3h7&Zs~af$XLJ=&4vC`tO!V24lQI>
zz%jXYcuy_Gl7;|MNZ<fQ!iXdsj0C{Kd?y@|oHz>%(AKbWc~1=q8^@IMa1pRj!-AcB
zaGI63&AY8eJ3Y#f8+giS7alB}(PRuSDW)@S6wUVXoL<qv<rEqP^vK{RFk9%SBp&OU
z-vMR@$hO@(XbND#Zd7s*-fWb@Z5bS><Zl*8WwEkQ@ZsSaH3Q3VZFG^if~1k9L<57l
z;W`OzKuIIAvyb#!vZ$eUMT)nI<-FMzJXXdzsy8z{VNOT87)^DBk+OiUVe?_xAZ?W7
zT=9g`JRh<)EezY90!LUCAsEQQYk>%wg=M#Vt6e_?4g#oY0EB%cp|-o0p|QG=ctzt`
z-DVxYo2$sC-5=RiYQpX1N2Ypz$|h21?Bj&Zr5!77@4AG6oE3E<E;J9crjSA>VC<31
z%GL@XT;6$7mIW9d<a-s9!`V25*zwAcgp4q&8q0@dpM_&e<75LszxY;EBH&+?6DvAM
zbj0mYNBZ)PnS){o58^Ap^Ro6>(~C1d;YU;BvXY<l*p!t3b6{1ML;w%!u|&uEI77Fe
zIYmYVuCPIBZU+cBkGqeuI;?w2ua5qvO297k)9xQC$=0?)sndU5t~lXZJo^x6B~Ghv
zvJ+2)$uO|KQI*lUNiCIOpwJ!R#9>Xk8mzwQ+DkR0iz}T%p|tepju7xUl&}&=77H`f
z+PG+NYrcp%8;uoRPpe(dXmZ9*^E|gIdis}COilacbtEOu;RJ&Ihta{ug=<e0tO)Fz
zPYr;=J_w0$!dnRHNDIxa_gDID7Dhg*9X5~~6NRCpiL78CAl(@wqku7^7Esg-cqo~q
z4Fve?tLK+?0V!ggjYJN)CpcZ3<n~H(Qij_H?5jW;1;$jY0C!EX`zLJ8@xmcOpZ@>?
zKnHZD*1F&c3mJ|Vus5+t=U`X`zzd9|Ej_qFnFvYABqhhn?WgXQfNda~{2()8Tw8?K
zTn~=v#=|L+I0NNi2u?42A*yHCIkJwfq%ox21)S8iGjap4jhH7>uL9sWEX8eOoa3HT
zD(cLH=O`Bv<H`wHg?o$Lboyww8<gs33*E)l)}KMRi-gV45gi2?aTr(hG*-8@PeDQ&
z&{f?fD8?|8vD86nDK>$Nt4exc05&L?X~RYZ(Q(Ia$f`rA*<U1N8>M4NHa)x|=VpFX
zZDu^6*zv~6=>|R#t#1}X(lZvwMzx~W?x!YnLNp*~;Bu5SSPSJii&%m6NzMKg?7Bls
zMe$&`@SS6C{G@Yn@|Nsm2`IbrFqqbhr^*kh$tfBQ{HjEo>^hV*H-e`F7En@?w<wTo
zGNk(}1SZf8isAt9m%5Gix5`FRj&U1vWgW%Mf#D%O4gzN7s2vgv3jm{;z%-sPp_-|Y
z0!ahzskI$k3^vK*8xnaGO9@?YNV2J}lAw~-0y}+FRC85SJK1{@uJrvbc@F7rtfNN;
zOuU|q=%B8hq}Y^xm7qM3>4)}O*l8oDWt=~7p^~Mn7He{gmdMkSI*N)Kc8dXjq9R(h
z#w-vL)i{H;;ST$|IY?SKTN_<nBb-BAglw`o*FW7Xt@j+Jfsk&4mX4TXrWZ)#xC3Nv
zEpP0CqPFWJtzm^G&a{L-s|hWh$>3xg-6<b@tboRFeyIipfKmo{DGz&PI4EcKAt48Z
z`wQdloEj~ajYAmGd;b8!=Q6-z%5dL+yJ`Ob%EqD%rq;2#M*t17h!^o-qj|CYDQt9s
zDust-TP|{}YR(UJTH~9djQScoVOUXqk<JhRo!nU;NPVDWrVumWpYD`fl*<v2cuRA9
zpcE-~I9+pWT{IJXf}BmVuvmniQe2Ri?vU}#(Eypf@06FZ<#7YLOZ!r>tm5w0x=s1v
zcOvV694$dRf5K34!r_9J;|KOYbS26|fzK(%#3uab=&?bP8w~QRrg!l;vOZIT;a1M?
z;&%wdgx-m+Lq>aYk&bXY{Zvvr+7xY)$1cC!St~sGNhVvva?o#&s)g<w&B`7bz-Q{e
zge>)7J;0tjtnspt%#eHLX!@b0tF`hns_L}}+CNgNtkp$`2G;P5aW7z>lk{HCTpA7B
zt7^4Ii-7B_?N+8qw&VMtjFZlNjd4{;E{;j(lP#+CQbG4B`D>i-({iMy(W+`4?haSl
zUrUnUU4Od7T&&Mi!BbE{7X#?D8a|713z{5zlC@fYO);Pow+iMBCMduJkFiSFy_A}E
ziv`+W7$ImV=xCxJ?B3m!zm}$rzUODPiWZ`HS^7!Ggu4PkvObm}V9Ow<tfX!1*Ax37
zT`OgI1iS8rs9+doN@^*^j;gI=n`SY@`MR!=?0NSv{N)fSrFJ&~_fKw|ZTkNJx;CO#
z7#rIG+7IZC-&G_~<XjA*gdwMDk~WJA`BHffxL`<zD4M2g0OR|GD_SpM_f9?uN}ZMA
zK<)r`{giHRltZv>e%Mhw_9n@!Ph@8e7s_dNPExpw*qf-uw_PadGE3u?%{bvVHcAF8
zmdYe>@^ZKWp4%4Y!FPWMSm{w29#7dJz)y9%T{pKsR8VwAeh1MY7r8x?yRHo;_U?^~
zLU-XSNbWyn#1X<mFWqYm3T?_qd|`0H>wKUJ8^|Q#HyzX5EPLHG+*uR`Fxc>z;dA9l
zf%2nqL`e*joCGYuWS<C^oFQg*4lJz`mm&ir+?9k_;9+%%KPZS}_TIwhl|*u62L|Wi
zOCKWx_fq;s_QIApPc}wOoO>27I8G<PH&e1aaFM{bzzRoH2x2Dpu};2D3g+h*`=@s0
zD>`B{n~=KT_DkE8nB<~n=tIJ3$-VBB{B~R|Ym$hfSlnfGjg!8GAsNEP5TrM<b`p{>
zm)OG%?`7Wyx?2Q>-cd6<JYgo|^<CX{{45F<<eY%G9E6`w*>V;UemPAyPrZ+8qy%`l
zM8sqagu`GgRKT*?8BH!}2&PU%M!<jNFyx!|Q+s~NPp4o3OiqY0J`w|QeX46SvAW{c
ze^5rjL^jB{`XmD6gOxR#a(4`HyK8TP5Nu*Cqk?(iG`EZ?2ms@{M%?|-u&t5X+vRh7
z0+fOdQo91!x*!?_uz32eKiw#{Ik*d~EzTAgOkmkOd}Sa9gzIE~gcuVVag)M!Kl=#)
z;BuDZ{{XUpZjY>8JdVIOQ_{gSj_v}MikI7SWoZO#V)(3ZmD@R*LQ%jN1<p~y_7-SR
zdW;>DOn~rLde6mDCQA7Y&TgLxbB_urfpJB|09|;Sdu(d5SlNWK3j&<Oh0+ma=t7ZL
z(NCz3P*mp6N9sAfm0T{gs<CK&G->qX?N)643ZG4Q+A^(UaNCuciAT!elAF6Ln&D)o
z9!G`5U2rR|v4%OhQI@HkQwa%-N3|~0w+TT^VFOZzr(Jj1DlmX2G%glS1u>2T?4H)7
z1t@aH9s-e_)J$;YNWzp-MvSL?rnNkOWEqZJxbV8@7~{fQ<CKXmnK4HNBT9r6_MYj}
z117!`9l~AK3OO7sp2SFRx8X?{7f=`cr^4a)SHj6<S_~E;30D^IMUhb)CQL=wNyt;3
zJ+5`^hpeG%SaF4P4}gQz8cPZ-nmRoH09%QoTv=6!8cpyO=DN@%_`0cS7gFMx(-|~L
z3?Pm!fz+wXnsBY@Y<nWxK-v2#O9C$+B9Y~K%>$hwA-4-RTc?og7N6OBolj23BTd_K
zeim<9=~H6nMx!is&{kV#ja6xzf%e%|)M@fCTmyya_1YVuBo?39Qda5BXf|p}W9gVD
zGFYx`aHoQ??6tqT&{XMx!25r)s;Sc6+}M;8`xWD`-9K59Eu=hxwmJ`2OA%;vhTm1@
z62UA-0H;M$BzEK?>PT8~XVLvV))CFLIzUg=Z*+}bIhY6`e6`aR@`->hciDQ!O>0IL
zG&qxmH!duq-)FNnsjeKRJ;B!t6;0F(EdaX8=7Us@OI_plMmZFjr44Aanw!)I7gXAY
ziX^!${>wv4JZ~I@Gn&T?3#Q8zDACWyXP(q(;w#})YA^;gfET1!QHO%FI-Zy=O_$C2
zJ`|g@J4c_%L+eZWd!pH;HL?Dm?5~9u#~U{Zm0-3q0A6gdJY9w`O!JPkrett9V}iUB
zs~QZiJ+8g?tyt&A?bqRWKUXw~p4%^9@l$R><b@eV;lvW8HZ9>oZ@AbeG?FsDoRcA)
zxhN+Lqorx(3g-K`%E-i4J`y;7$>d|YYlc2k0BFGqMySW#D>=2+GG@1-CM>UIu597L
z`rGifwcnFq;kF#FlsX2D&#a7qN!&PJQ~n&&NfiqLAR7!W49%ybqZ4TK*|iqMOi6bE
zdB;?B4AnJGf|M5@g{+!_T9#~c+(Ay$x<(-;{{T!}u1QBON2f@nr>ZgfEiGiWeAlt;
zwNzBbHt@9ZXi-BL_KXh*da6*tW{WRN#(Whsj!E`a7=xH_s_XR8D@~hqeArF$jijRA
z{Hvl|Sor48Fw}Z+&S@e)*dS;+UP&hau=2f*Z74a0?Fsr;kqc(IU`Yh5dGu!bU!@%g
zX#k(H-{~52plG;OloYYY7!7DgHa3pSsio-S*$g1GCRJ6o1`^|IBAfsUqgP;bP8Le^
z76&&{QnBT`lSfk1c`G+lOZ;bHFjLs!svP8GY$<i9=Wq<Vwx^W50<ro;MXwmL)=_?e
zg;+aA2%Ge*Pg^qZKj>E8PtvjdWZ(K{+rnvd81{G{REs)A2jRo^YfJ|hHbwPV_sBb4
zR&)j1tuzCBIVLaUHgDp6P17#D6nX3xfv4KDJtu$2M}G@S(d|^9WZ}^S@3AScI_^tS
z%aoMuu~~Ewq54!(wMx{F7YS1f=&zbP-3)1(dn*|lm>8PDMStX&dnQRnzzu@64GK9K
ze#u%)-5EVnH!}8A^2^u@t$w9U*EHhmJ68aX<*i>i`A-2)_KDMrBVCkrh1*YMpRJNp
zAq;6NOHmw>KW(fOW`TjboC5hdc<+@RPI}Rkl3AGBz1u>k)OEH+aMN-Yhp1v;VQVs0
z7g5uuk;cK<T=GuoFh}ejx2S5(#4@-O{VJkLy<S%mCzZGGZm)Fx74MJ&-|V!I^ym<W
zIe-r3d)^=8=Qwg~j!d-Z^Eqhis$cwRBz^mmnI?l6X>`^n<!yDUV@@_e(YUJS(A~T0
zCLc?!mVX4erXsnRx9HJ_`(qg63VLlEUgehXwNGs`1*2`qQ|Vf4_4NUaX$>V$=E<G$
zh*VT|!1M|s9IXMDvFsP9=rKFeZJS|k=)RHYnAjU6tu8BZPoTvU0Bm4cdLBRHbK_i?
zeq`B()!<{HH(`0Vj4vPSy)Dy7{{UsVwinU*mX{C&TKM5%_5PlYrRMAaDChF>;?pl2
zDr;xW6X+8e4hi}NQ(vPx3z-4?ucB%?S_Xn!9naBab>5JDPT(TA?7BQ}$;MidIrx%~
zN6(eaWO7-clk`wRZsB&=uV<U^*LBO<N7+}@ejhd?`W#Qsb?o7}#^Q2KQ`zTKl+K;O
zt!?h5tJ4H*CQN-+=02ExG@DuoD!Zw4#!^zcSq~mmGR{$SQW(=#d6jco*+>8?`3_Z{
zrrXTo1}>|^9OqaC(~e)Ql5yCyV7gE&y&IzG!FvFVeNI+4Nun>1TrWrIRyLKbE^zu?
zd4G_|oM|1NG#%N#()9BrO}`f4D{37gjK~aygYL0aJwYUF*%Y?NWn4Ort`~_Us5b1r
zfBbB+R}<0YA7`>NNz$87cMx#1`mT*lQu7=!G=uQG@^8dL8@4^~BzP*{M*Kj4fp(Bj
z^%W)J`7!;P3zjFM>Z7D0iX!(hqZ|Od->tOv(>dOoK(h2X`mNQFot6zf$ygq*suPD^
zK;!VcJUM0gKVo@t!9mgHwKWfpdw+$^td-)|KXkS5pIOcU3dc2vH(yf(nzP4tnPpE?
zv)tfURO)q48)E<ust`}Q&1)`IhMz+$<T%DdQ%4UcZ2{%4WpOjR+~P?p8JPR~iCRjk
zcq!xexB|1)&klLp!goud6Ksu*Z<S+56la$ORLr{hM^j41kZzJ)3ej!p!p2->R@O?v
zeW6ZfX3K?LRO0e&l^Dgg6murI2#APz=j?%sCtto%aI}R<Mu6HTb8p!~_E?-0Q%EAq
zoYvT!sn~1_HcoBurz`~8$&P3VuEIn~;_4^g%9X~~QJY@Lj7MXC@}3$#i-#q3{nlE|
zvB98rTv}~_xH`c|!qRfHW*8Vq<14myvY6Nu$N5IgHKN5lSPP6O`|@m*V);Rag?p|+
zQQY4pIdLCiiZHRbTMAY@?NHj??4Hh0U~G}ja28NVNha7Td|NkBkU2#K5Qg1I#sk?n
zfGnElfx%kr)GM2WJeYPArcg)9XtSNdWP{N?9rppsyQj-X!l!_S8{rtrow>TFXn3&q
zSZ3-IWGkxAaH4fdJQNgI;ny5?NNscn=13zc!l?XRZY;shuu!=SYK^hVXXa1tnMA>-
zZzQMFOAvS$$>CS}&UP%1(xTq*Pn6Z8W9-mUG&&(*fz{cyq*-23#MZ;W;ZtkI+pM{+
z+3Lsjj?B#e0Ib+3i56Wu?DC@ANh-=DC6Nz5y5c!egLH>?38+^zIzpki+?C<wb0Tw{
z-DHWm6GzyoO|RJ`Q27bZVFQF%Aoel8sAMZj9E*ikz;_Sqtmtstcu7Y?l4v5Jorn;B
zh>oZp%OC~!@D*TiWh`l&Lokw|#@XR@F!qctslYcER!c`a10Sy(1YCF9f`cEdc1A)C
zyrb+C4OM#^D&}9*R<$iVPxn==Xx>7|V%JSM7*@f%o64x5xNujrZ4NC5K2piikos*q
z)p$Efy`-aMJU2ELQt9lCtpwO1^_u2G3$tt}xmi^bpQv>YNrkO-m!4|%&Yn^OxmF!T
zsTn16L$8%Z105r-Mam1KNsp$5&vy#qmJ0!kCQ#E_)(X-n?S-2VY;h7mR#a5^1ca27
z_aK#J97UsyEQUxjfq*n)DBw-GRnR@n<Bq{i>NyG=T9;g*{;6ano>WAe;|bz`$p!n6
zmdEIr)1No&r)!(HfQ^J`y@w?&u0T>;7T>y!!#G$7?~E12$Af-Sv^M@cCkG2+#Vv$J
zlg|nF#k-^qu{cOh?~ANq9CMqf_geh@RD>uccHV4)Fp@sU`=F|-TE>z}j=r(1Y0Zkw
zYFd@a0HOp-s%kud<({gY(i4>0nT&^=rbNd*+$ISXi8vQi(^EO_7Yf3PfWF?<c|)c#
zw!1~pay3{Eo2L>1wr;fAeG3J>s!AF*fDN**XlTbI08%mI2FPh>+h9uqvVxcafqw{y
zVE_v$+Z~4qB`P{2h=H(<2vagU1t@Mfx{<862^`DE9ToKqv$#-fAmfB>Q%E;MSf7B3
zV>pCTGXSFOZJrb~ZT63Xh`L7hGE^|%ZURmUbAkIN8-ruQ0~|6B%I93)l$;+adtnb@
z1%K*35;K(fGVT)_{{YxjLO#P_Ah1{|+romL+W}MEqnoKd%0Ov3QM&2UI01refvT!x
zWA#}rSkjVPB$7bO+^V|mMX_8p!3ABZ7r3>AAX!a4Q}DuX%Cup9oSAd|2~k}n@7f7B
zMQQqBsc>__va-`OO91H^dn?G96b%gwx6xNf<dmF<0MS4$zx3)jDI*xlHcHmS+%#DU
zD}#-N!h|z%&D7f-IGl+lu6)M9xcaDrOTSgZk&I(gz#Ls8pV8M0DG&(2%I%;joYQ**
z#{{j}(NtE{TXoNs2yj!?w$3F%Y=Qtxfm;itI0)<Aqu~KZ&5E&T$I6>3jt&>fb8^r}
zmB0*N?xbl0vL+ZowUQCwebl#Yu2TtZ?h#B!p__1?&~KH%jlGkH=?Q?FI>*h@l5NWG
zvW>$er5y_A=LJOf8)T(;&66A~EDzZV7#^(QR}wC6E>YEk+n&e+Ya4{g0!Lh4_A0`Z
zfE94H@{gp;LF2+<0<O4~z+CuT1(qCJn|3RX-Y$@V;UNf7j=#!7YjTrmKm0Brj3Ns-
zc1TIRxLsp^?vULEYZaw9eN!*tC9{+nL^|2{N_nzO0us1+KxEFoQ%TB4y{+VwJhcJ6
zf+;pErjYrad)V1j)HrW9u*!X1a~ji}s#?8CoBse<<ytUj9!$|Koc3%U@P&M^wB|t5
z@`Q%6DY<w7GEm33*pJ;+DmW*VHW+K6V@Pa(pM^)LYG1{04o3b+$S_Dj)M#Xrw{ayK
zCClijo~}t9X56MSin5`=T!6G1e@{=mJJZL?(&@T9vDlV0eU`C#vnQr><dTqHE>^2a
z>A0h{+jVyhG>sP6z&xWE=EloCz$Lc8`y!>&DdA}T7%1QRXog#41l7!INc9DR0;a95
z%cLkcwlbtzO{&wyaMn2ds>+RdjeY}%*;Un6T#&<jcvX@~Bj27bo8ubm(V&~Cqdc+a
z>J%UAQOki9kH}R5AYF2&iZ<L}WoHzJ#+zlNRguV2kmop&f%2J03qPb;PFuCt94NUS
zjy!3J8*VUi6N!DlQtNTyG`ijbotIEZ>|ZHCB{Olyj_J%VxUgHXx+ZACM_hJJ4mP!d
z>ziE^iAqE#fP5%q<o^J4LxH|5pp!VUOinvwB%5D_!x>JtLF~ATl9tOPIia@UI>6fr
zpb|zCfU)|d86<Ym%4>iJ3E{WRtdO)~!D|g!6OFBF1ed?cS2K4hrZL*-tj!2rj4t2z
zx<bzPDK-(_=z%LAdyYG<Jn@CVTkN{uC|GD{xb0=c{1mpz?DO4gFw$(2`N~&f;>nIS
z83>5PICfJVj>$`hDTUYbWkiIN7~y_Uv)<VVm$)1ur*I)sCpJJ^km9Ffj^Ee&C<*sm
zU@kGdi-Cnhmm;!Y=NDnhSls+w`9TKBf6`R3Hd6lp(tl-`kyKg6UR(N;WdsY7qGMfd
z3RhpaHb~B#eTvhJ@|M}c<|WP4?C7Jio6mHlCEecvGGe`m;fwN{{gb!f77Kv{+QSHl
zaPoUD<lQ(NWCYh**zlE<NKQUdT#KJ6QV@eP6S7QwS6d6M_D02L1K?RLhr&Xa>B1uj
zxc0(ZXR%6b4pR1Egm>gFJ^)T66MH7V0@p<ujX$zzAaFpsQ`{a?EJry`iOG#|Byy48
zHe7Oe$w|q`;W;M77zg`==7ygC0J398KSZMA0Hv`10HR?Du)tg)DXnwB<u9n=eB2?h
zq${9y1-ZiSN!`*HyS^-t%KqpDEr{ri%8A(IDZNsBsGM$!3qp4u7hD$<ybGkY#zNE!
z6cTQD3Bv_2XU&tE4`dmvQ<STSH$GAh5nB$K_FPPB1&K~`+BhnTI@0fSl3U{Fn5u!p
zbM;>x88@TOat|c9+USTOB=<woyLF9`(Z1X(V}e^|O_RqS(RC|DhbUK0eAy&Y?sp}0
zM=NfkRu&u{2X!3NfH0WiEs}<sMzk)-W63VrWdKU)obJ{Ny^i<&)cS<PwCxJEDIO)U
zU679yI#i8LnDSaIuA(N(KckXB%FxsPoP|bYJ1Nb*(vR+(0J2k9otF|*?3&^%iZH@c
zNlHjvxFBRVH%=ExycD6r>4L?|;d?G5F5DIciV9F&bb-M=xw;kx&IF|wPirsPKW)1$
zVC04b_M0xS?7Olp0?8WW_Ble_-AcrvA9ci#lnh}t=F2gLz4lPPpbkxtnuS-S(sHpq
zLDg-cCg=B4mPCh+J4XCex5!TwE&iaqZ2lxb9b)YLQB=Ku9Hd#-`=YXcKyY7YuKr=R
z<R(6GZbI|gKCX^Tms{?vA?hfef7~Csf0OKAjMn<MJfa|S%~EQSNO173=;|8aEa19v
zO(UN)3ueB}<wGo)O>4uOV7SM)-F2*%amyI^+%3W$xcd%N<Jc8OuT~n@2HdA|La4Jd
z)E3-L`>H8k8VR~TSC&a0TuwYHDwjIu_p(%0v{=$qdxlo8Mgl-CRsxOW$_JIX>8Bm7
z%AQ8iNJSc|dR7(;1TB7_8=8HgSkpV$3hIGyR3$c1BL}SL(Z1(s{gxYF(mf#J*8ahI
z^>iD7S?yCzY>YQ*rYLh4EV!e`q@&shEhrhOfx!#VwS6V5xdSUVHlFuNY}5NKn+0tf
z4twm%Po=g%eZSdO&!T&<(gO5&^s-rU#T5Er4gD*L+B+0&8C?TR5xjd=(vA@vV<EWZ
z3rR-k-*7EtZpMRmy7=L9<+0W=AL@sK$GH6!j-Ojq3&qJnLo-C7tpEjkrqZ%vILhRC
z+zClEUg-L?gtQWFwDdLm+A_2Hc9_rs0b0jS=*P7*eBZGeEuAY|-a-nZ7Dy28e1ScZ
z{{T^1UTjIU4J8vVfUB!0F48uu;P#vhsA@w?PYcZQvMhtcN0)VGjvWi!M`iQp;vEO0
zRPxb|>*{W&jgE=KoG%0XOrmMt;y7FJvvJCemD)T-@%xB3Tp4588&e+HoH5E6jFt8g
zc8*dB8;lGgWEMBK)T10Z&QQ{ib_&A-5q<(=f}PwOsN6GUg=mD2DL~KsrFIuHBwa8K
zheB!}m8*>IwpY_1hnm2eD8M_e0{MrdC{0aMJKWmq>CeMmBu5l>2Y|fKFDzhN6rV@1
zXr;0>q=luX3~L4g&gk&^QG@WU89!^TTz+Sv<b&sR#e%D<gu5uOR~Jyo{l}G6p4mAf
zy_Ej`6~zo&SQJo32@1vrST5XiZ3_{SFl{&ql$H`?spi8<t@XA@uZ`?^bZP0FHiSz~
zRSg|;Yym3H3WmG7>Nx{WP*qWH1R~hrLS2CTtYU&qG&qxF&-AwV3qWIPLdM&Kw2Y!t
z)6j_B!nCK3zy$rRQp5r%)k9uArDXcOx21p4Yo_7LC)LOPmHz-mrO;8}omk)E&Gjmu
zp^n{gx#8;bs|WFA`jwvO^S54YzpNz3{D;Z>PpNuE*PxE;PS4U7Q==VyK0l(>v-E{Y
z_DUTH_U=t%Y;c|mTP3mDIU%)@sHJugGb53}D7{wSl*!$M8ITgAlQN48V`0X2j_Nng
z4+s~?0!GVq7v(1E$KVkqo-(VeB4Gy2Ms5TsDi5@z%{1V`mdx#JZH$v;NnJdy1T<l3
zt76}B>;+3z9CsjPd{>umC3-s6k({0&;&%&`S6>Sl(snIdsSB@Ws_N<%i<jjEf;?@B
z&Y6>CYv6tvf3kgMy)lbpT2a+>E_;sFVN&X}Qb!p!;RodBgm}g1Z;eZ39;>Lz_Yz14
z{3>%&_qgwU&xGwwvIiU8Q%xhoh`9+d+||C#DA9LIGo+YC+>*V2@Y6+&@v=t?lDuQ2
zBy061wnM>RNq!$e7^GvFoCWnii13nMBRH~7<;5F4K9(pVXuz=SlD4i0nn2|}?ID=L
zq10o0<UFpg$@v*^W2{SMe0WAr_9LyVX(aP?Q8Nt2_OMp5QZ$RZB{o`n90l<nOnix}
zn>}277ezUtjEuDpH3SWASQYyrAaI#A8Ih*pFOB18Z8+#@PAjt`R}~asnF|`x@UdM{
z)EYGtU+L35?;p<W1?ZaP3~|8!0AS&Gzgo~qSu@z&G!^ui{Os70#*R7RjK5<$sr8j4
zTg)`O<UQa20EL9=9Zs)Sd322pZ)Wxi_gK>5rM}`^?*J^_OpY!riX&_D<#ha#p5DoE
zNl}`vq<Og@pc>7GEGt<(JKY}X0BAl{E};`ctk+zwoOyXFWF-pOE}JR100Hz0+F9kN
zi}mgLm7S-Oc>e%N0C}<{kV#VSd!F<1aG{qPZ)Kr6L#EcI5}$L3Le%TB$O}orE=?zF
zWzN7<b(H%gA)^Yop^8FEb4N>F=Nt>4B_ukPL~h;cTj2;;Mf)aai!QYYwL~1<no3@y
zsc5j=<NpBFgmhJt)(gpS7ES^|7*;g(4+6lDp)VR2X$-T=rda9?V?ntW@DMa~W~N{o
zE(udp)4rkEF0#|~<qIK|h0%-~+?Cnm;I7DI$;h<nPK|8sYu^>Y_*)rzCuKF+2?pL3
zk4|gaW}e2i@fjWm>1euMtLv>wT30fTm6Xxj4<jqSa>WQ7={L4{Ctm5z(<Jnby+gpd
z!%E^!+_gPLEk$)x=bi7B?l;_4YNjU#+RM!3r0pFk&?$aw6p=B+-sMRZIVXi-PfuVC
ztc0aNY>EgR;cTNKptw$94R+CMs|scpG;S(ROjcK#K*4YnLZ6(gX<F8ca8UT}RQa}G
zF&@!;sH6_&=*gX7gfx%fjFpzcyCWA3$V`4s&t)UsjHnz*HnMaUM&X|+w)j&P+;W=W
z0I^OQA$hWlzujc%f69b|yT8>GhDedFIV7nX?ku1jC$O90W`GlMY?aR8F{JrQ4g2EA
z8ixVdcHb#4Y=olr!OF&BTe(O`PqF6<gD=Qf!!k-+S=^~MfHT=N?Y|d99StsVT^J=i
z3*jxSF0q)`+yo58z@F&2AJ~6o8(F_6lw+ZmkThk)<SFC07DPt~9fC;!0|}gy0Kp}W
zcwG71E&%(e#!ZOICMtdH$W)CL#;ghTPZz?A^O9eJRja5099c$a0N@18qp4tQtu>Ng
zguj}T!aUFm@RhVcatG|Sp&ls!erii!x?!w;f~;Rde##e69|&3s!6GOsoZ<zRucsn(
zgkQ?e(oq(_j_YC5?Gf!i*)^&c<7!5ckhPExqRs2xnJ&4#`C3QGx*HD*HLb7^S0&Rs
z__;*O&FOD8%8ZzYDoTa|?mMVm9x$$^Mc|@F7;dIxVmu&#w`DwL)=rttHALl+_zBHy
zL;nB@5=uZ#?u`?$o$(GDnE4n<7E!c!vTy^(C{R?WZusxQCZ0x&fQEBHI2J@xMjgOf
ziYcavW|X*K5QkyAiABj6^uiQj{{ZDYNMzY#N^p{*+fGwyjt6v=E;cw;T@j!``uSEA
z=FH<h6>Cqwgmf;mQoRKoRB+{2!|)NcQghrC9Xm_rw>K*$W?AXcImB6L=qa2wk`6gh
z^zNU(X*?|*L@a_5ZP_fk8V}J~S6JG3jm@kUE2%Y-=C}ucbZ=B@1*O0_V5_PhG=}H8
zl8v&h(C59=%ea%uveV(nRS-JP1zl<KUdf(>E?{QSVUmuegp<KhY4Li560Yf>Yg!Vd
z1U8;Mpm3$Xgy#SShEr{9qeG-Qho0$okS%MZZWj`GSS)Eb?3JLO-E&4%tjE{FV;t5V
zZUT@p!uLsggJ2h2+mM#bhY^&=JB;0PxXBqwV16u$FyII5kl1npOj_YE2Oh|ne&B6k
zWcIi2n!#go(7H*(8d9454Vpl~d#Zg(y|J|2*G<(m0KisTQLir~B{yUBI`HyCNmR2+
zUU^F_j&UoYh3|I+r?0bL(2zvw4+UK5)K?(cEe#>Y7KVn6))xsR>}3(ORLyOy(5<Oy
zjm8wzRD5F!(h6V)=|hO=5z<ozkZpx+PRm%?M+{*d3k9y0Zj0lMoEeaAq+<o{q+@Zy
za9~h!I@Ct7xlRKaN&p=8Tu;gc5FJqW8x$cHHo-+y<=N#8VpB!28VjV$RObTTR1|{k
z$g-aKvHj3`3PWxG0O3s_lm7q-#Ny`(ro{tL+b*?%BP6E+FO-DeHn3R0(pu)}g9jH*
zc?6Xab%!dkLQSN@Vs)4<QcF8oa^kC|t!zxmRP}m`q&r$pR&cRCWfWRh>TPY>({ibu
zG__I?E>r2Krm1!8O1z+;WFQwXT@@7*nt7bSC^VAd9UvZ6-90=M?Yk^3%1Im}000NV
zgonsEMaV@4$=_D%5g7qTd0uk!^twpkx7AF>5!)#ozKg>Ut!Eb`sTkaxVIu+ZRE%%R
zoSD@a(3a22O95kir|r)vn?6z&NZ>Jhu5j_il7^P~DILM>^hFItWo}Q=4RPC)O<ngN
z2w{W96QX{?Xsx=+%yD&DMVI7dS+|RF5=oSf#Tm{QGXDS;TrrNx!#67?7omH7JSG$5
zscbD|g}+3|jJp^xZ)E27xJ$RXOAwgIQG;a18{nlolTEF{Mo|cn%o(^+1CI-_V~?`P
zX22^2hE-#Sxm(s{w^eci9pyR^j2LhL*;rBAZTUc7JPV`gc;OQh-FG9DfO0!7$jA9u
zVSU!J?!bR_*B>i^9uY`Z#Q+X}vf^3f-{`nFa++;>{^(FB=NS7qrkvm;u)Xe@U$o)N
z2cbhrzBo%_Gi3y|MZe63n!LA%lz6i|sRueh%s5#OEo5MlN~NvUn~+>wsj9VcpLh39
z9Digd<oy~ty;3F*)D<;$w9p7^uk=}(%}wqkG!yhewY7Bz+Q(S<3aTk|apca~ZCR`W
zO^whDsGg!vYfZjUG#U)^JUPs9T3s`zoYQ@_w~VaLXEsym+AP&JbLK7hy_Ta+>4^4=
z%t7z&R#X~6jkg4kH&#(VV&e8gkT|evPMv{+^}L^|Bx&@JVZ(R)CreOTEL;!W15s2%
zh$vHGpzFfSF_r_mQ&z?|7C&W8B+hWX$oiBk<bCWOe{@tvj4ZpCP;t9ig<Vlp@=o`m
zKZxsD$M;Gi1m^z$H%CaUaEy{iKlGdYl)}<Y+(|!FK#U9Uo3LK}(BxO*pjWT~*$m-h
zj#2W*Vujdu+R2j=QKU0;xc1#o3*XMboCAR%w#Vctp>e>n5;iWvsh=f>vkGH<$NVm)
zb}UB=q(1U^E0y+ocuw(z(_{8aeDiFiHVI2mmQqG7Y$l6$PZkZaTEQiu?KU}T;^Evb
zX&u5qMXmy9vQmu<bHL;qs9r%kfUr}@dyrIC$pxd}rff(jWJIoLyQ~4p%6YZ;T*6pz
z0Q#h|qna=Q2MKHeJmox8NPCNS!a+Ol`bItwHqK}Oadg-112_67dhhT*WXYcA+W10%
zxe=Qa{u6C}c<pqqxHj^e&m|GIclSuqlh5wB{Bn@q)=X`k*>Uhe3!TTp>-?f)hXDL0
z-?DHb`CLzw07iTL6Hf|94&g@bQ9`meTgr{YDr0X7C)gXRCQ3?}#{u07I2_#*A@<(L
zY1{}mR757ht#U>_5fKNL<OK^{1-Qy3l0~!w*-+)4#@W|C)jV6nf!Hzfm>(AGVNXu@
zi|~JR7?JFmo2~j&CvHC7)WOk_&ngM6ixYH@M^p&gjuQ8}=8KyowoTG|E`%rl0F;-p
zPH^EggLRV@M*?|VJEn_cI7@SE6yghW+$H34nwN}(2DWh|72VPg)Vk*O@Pk3<<KZ{s
zDSYP3tS!I@gzJ2+vA=KKc2d|L;bRCho7r}3lmVU+kSwvbH=F<x92<X>xW8q`9j>vP
z7~^o5>~Nmz+Xmlc)4{iKgh{c4X88pn&B9ZjKuAHq_*hyS$7J9~(Kmt5&@LY*l)~1>
zw#PT&IG-tvHWp3>`9YLaD~106n*RVHA-5wb5BW$*w+J%|M}8AF+~*0-B!E%_e~*=w
zf%GYF?6?l&gx)yeC?t{LVOkcz{StsU2?2L>hX*SfhmnijHs``X@32X8@|huzplIr4
zFSDHIWoWe7UVoOzeLGEI0FiLCR5Z~<0oX1V$wH&q<>(@YH;@Uq2<w)M0hI$D?ixPG
zx@eyv_Z4_W<$Pj?=8*`E?>R&=7ch5LRJ43u7AV_n1@3sij^eIDe~?j@yx?6lz)vdd
z(pdOQ`Am8HFGu`Xjs8<I_0;&lRR$s?<GR{bQk|sjR27uY5ApUv_~{J1n+ehTEgd-a
zg+Zk>Hp2H>I#G7uCI0{%XXGK_rs=>b15Nl&3?~5(@qzwAAaSrm$n%tY<314bK<69;
zf5tcYC<W3R@}n{zDAPvc*)Qac_*?u_f0PEtIF&mtRKk#s0+F=G!e!$mEAniD-*nes
z!ZEbzOasA1_~^^X02{81r)fN=wwpX6V5cENCyeVvr{uPDaf>H9JYXVYj0GcD4`syh
z&MY|cwpN&(oF=+A46A_!`zFasEUJ@dQpi*^WlYs9knK234MT}VD-|{W0Hr-6mSZMT
zYSHdtURl>PMa_A#_4?*rrwbF*^ggU^!km`NMp`@qrityVBWcOz%J)g2cEC;uS5^8)
z{Yg7J--T(W>HA{+J(GGgV{FgWK3ZsrV~zsO$<<X5RF-eZ`CBb|lWZ=+@(!X7i%@Vp
z-zdc=ErTRnR*y~4`qj-W-7b7xdIp2mP{<k`CVs2tx=OOgfDMmx<zH!<ypa$@gniXq
zE2Ed>e$T2j&Y*^1Eg&~nbozvH0qzUtjT@@vg22dc^;>Ndt%2GfApO=-lzTNsN3=RX
z_Tk7Hx@Nxp)>};Kh-GO0ApO<U8njY@?+TI14~!DKOl!gRsyfXb=JpF|3)wf#)W(gD
z90k!Ck(3WMZkr<{7_!y$^kt!-t4XxR7hE+>LqqAfVF|koG|Ngs><RLWCqT`u3#Axb
z?5bcBvgazgwlTK>T1*f%f1ufPU}SR{jY^%a1dyoROu*w{7M8z)sOQ7a$z3wqIq}+L
z4u!34&~wCHhJ<6CizhLF{H}L_GqGl90-lR1I{I5Qk;=Y;A#O0Ctb=f{3z~j6(a{eh
zMm6k}vx{&F*L3THLw6NhCYLmlTsQk8=qRP9A<iTL<#~Qzj?%gV$fV7_pCdMlBb@f_
z!p>>+95uHp+Bq)Vn=cM(VA49F<0S^^tn8a7)Vs2(sD9USqtKFNt7?Nqo0SCB4t4UY
z89q@lwbBb9?s^qEDz&#>Cw&);{vkm5BbNr*Uh7{?5QvwMaJ-B0CRiedP{0AVE33qh
z38rT&K6}*|Sy1t7AV|IeR$8s(s(HU923lH8m)GO|B$zCXu(>%wO>6uk<Yo?Tg_W63
z0A`GL%11N5WiHY=OqR<S8NhidV{M!QbFIojhb+xUrT!UH#`?HPHu|rp`Zii>YFP5y
z+sgSr@cLOlH5hBGE*H}M4<7g<B$8K&=3#Q5XGS?Bwt7T$&U-**z(&*0VREae;k01d
z!9H1|i;}q97BnoU$g?#LcXX_kpycIINvQyRi6W_c-F?ePB|Q^t*U`$;Y^x|<+bo?O
zR=^F_tu=P+1?XbT6w67?!BsVFHz?*jzXdDc4hzx3?_)U>Mt4H&oFiy8hKGiiDD?^}
zgJoGyOy*8JU3bPwsyU?-dqGv}G!U#>aH%vfL_+HJ7TpE`uD^uSbXLHV(+FtW25U{!
ztQNJ@n*iY`YSsopHw!J*O}#Ugu3#*)JyUPWzvzPsJP)hIr<8n^mg$G>*IS?G1#0@o
z6%${|#^?wC0LSgO^#qWAvMZH-ht(Yn`|0uh7Q#Q!79*ey^yu^0Excc#D`f11Ivlxj
z<uZqML&%8ip?F0Kz~^od68mnf<rw7wBW_CN&y7hB2St32CCTw!Nh1d+X=Mxx$oQ5i
zTQ7DQxvd#03EnNr3DrOxls!dbOHGPt`MBzvGK(S9s%>_KR@q@;FOlihZgiyD>awPm
zLJ1(1^4?ZgESCgyN1&R$Vip3}n{(w;PpP&?UG4+o>Z@9kT5v#c3pX8Xj;Oq^+%C2Z
z$;zfI)omN-W^AnXHtM@rgLFpVWksh}?v0=j0y0Tp+wX93UXFa2RystZDOrNnbn<Vq
zGEbW<?M9C|yPOCM)xRny;eZ4VrKZNniG6@xJaSXD(MdNW%Jlu(Zlu``Me}v^PvNG!
z`I;En8yYYM7lCys4Vbc?JCb<=g{k~It*)oo-%-pT1$$UODL)$>)uCg8GLiJdWod{y
zM}hSy8j{IfW@LF;y&9qOF{Vjeey&%r$rAwg1=ox6KjkmkQXS#p&|EabZc1eFF`)5v
z6uOiw8$<4X7ezO(YYtLo%Y!HUc(%g@HMTZ30heKO-o~`qg~b@!cQ{_k3Yu3DmswjE
zjXY5U$fV4tQF@ax%_KA)z^^yz3OaaN=efu1y<b#<k~SUX&v%9AeOAUy;?_rNa02De
zlMXGpY^+qDT^>o*LYc9-!J(t)y7R40yV4|6KyT#my|TBZDm5I*7q`O8bst5TA|b2|
z`UMOhkjCXrhFE6RqsHrMYUL+;$oeQ_hFLke`mHvnqDfC7+};hYLJA5=i1xIB^j_vX
zk!$rhoLYM;8%W?mb^^Q6X@i~ZZyyMXJstAA7w);{>sh5~l=PJQ<#1>p3SLv=8y_0E
z8SO%hhz{{=cUYZUV3e_z!O32M)RnZNCpIEndn`ksGRWc>ZhWbDl6|t7*U?2IFThC^
zBc9=cZ^F`3Xs?j|l1kTf=SIFj*FGzch1HYGhBevDu*y!14K|H4#r-!AvYGl@;P*MD
zdt5yzA*TdF200;Q`nOJG3~@HN@VIgQPvptP9TM?)#@Ub3<fDXxQ7yg)D`nG>{{X7Y
zBci1we^ZuEPSS-%Lrbt6d@rMa2s&Dkutes^d<@&V`kxb&*7`hr&Yd6)3!!He!bh_2
zBeQa=`m>{IW2Y~4L^K8T&Y7cAvYDW<gB})puPJCD)1?w@18K=m<U<>aOb~>-J}=j_
z-$GKr%Q$vfdW}88Q*d&<bE?js?M81xH^}Sqa286lPc8-SZHZn4{D?u+S#=h>F;0ik
z<OK}%C4*~1x7DI#cNfZ|Ef01xbyzhuV-BTz-ykjrm3>O#w~orTmY9vC@~k2uh|hfq
z+0!x4;Y1)KH%3P!efUk9R$CTOx6oY`wG8Zpa{@MU(r<J1K+bJ(by%Y!2@Y%uYYuR^
z)^Soa2HPp<VZpZq{{Z$B5|1hFlGst+=O*avD2T^<lVux)j|j3c*$*JPWX2)mgM^{M
zJ7PlKEHaItHa)K#1v4|A$~c)|roEb#i*|Msw>HH?a!OPBR-+Q`9ujT=MqSt>E?R<#
zT<ea?HydaBCW38$D~3q$hzAFz$n$KQC+s#*N)AFRW<oi_{PL!!<XE7rZZ3<11beKR
z^cEV{5-tK`<G(5K$Ssnb=QT~eiEJIQd#qKR1Z}q*AtMbg7V@lVMTRVmome)>9T+*V
z1w`nFbVHtPabz>3f0dIxYH1Oci{L2E6pnL<`BAyA;FV5ZiMYv$yY^j!j?1>35}w8_
zrf=CH^zq%;3hPdcw%x9Qq82tFD~dZ@Dy5^Ab8VI}k7h}_r`DThm46In(ca3FUT)Tt
z;c`i<J8-ARW<qiA!X5q5H5cA(oT1)sEp+I45d8|0BBMOusUrF=i1c~cyC0h+0e58R
z#&C%N?FPwqliT)EM$BC<068~8%tAro6HD1b<Kat84Z<c`Cy~T7-3Sl7B4z{+gem<(
z>7s?352hdsSX#-oL~SC;X>!mmlBe|G;ZYI+zqq1fAhzBRXZ2e5$|4)wSgg!+tuA$k
z2;Clp$uJ~gK7x(XykMKHevPIGfN^M9BY#2q9V=ppZnp`#?2T+BUdh#!tfY@<ARh}e
zs%lP};^j_G*+i>mQ>nf0chzL&XS;>1);++UaI><<a#2QLOljR~E3GaUIm47CH8FFp
z0XJH0B96hNw+W0}X^|GND;>l)B}D@o&^sv{JQR#5X>li%=I%Kup{D9s#jI8hiqJe|
zKW~td_Px_?Ny1R}KWG=iOOQFT<^#pk!)|hZsf;${TOF4<#>zs`_DytR_`+K;5G3aL
zx_eq|Z*?qC-;k#e{gJSA2=GQYOmu;yWfLnvKSf<xGb0B!S%h@;VlZ;3^*vU=fb5}l
zO+#(Ka?Vv$K1Ul8PzgPKd!A3Ys`ok4I~Vy+YfHJxE}EX?dvLc#+ajf<CBoyCb45lj
zF4Cl;r6k(Q`%j`Kz%?UwG-5MPq8J-h{S^)XAdiJUpF_6B+4?K0T42yFGM4DFfF(U3
z0DEi^Er2&RMzw@?Nao=OBB}taW_uzd9uq@zi{rYME=ru4XvT?HI8MMGQUXHb@pU%K
z(Zu703*2mOo=M0FhmQy#HU&`fUyc(PK?-TwHy@P=ZhR+?Li-A*z#J(~eiTpxwMu)S
z!jO*eQ&0C!aZ$LCRt<}O_Dqm~&m^einXM$81zB6EF@S(>dnQq_B{Yyk(`~;BqPtL#
z5*WjOg$b*cd29i(@U671HS;~MdpTB$uFgD}Z=$l63d+s5h}ijBO(&)ci(M^;b#+Ba
z4LoA)1LaFKV<BytQE%vm*w$%KQ%7sGD%!`fjw0>*Cf8~YefGIjNh6;7xTIxc1`{N^
z+-wKzr-8Q!C`hovvZl7dg*h{>5zzL=25y`g=l4%(76C7uBy6IH#)})LTMM)GU3~nd
zvav@Hy2);kpD9ZuG>;ci$T8hYTsx@bxjYn6nN?a&;t-c37bvRIcQ_D(zHC)d2KF05
z;%#$lD@gd{{Hm%8lC0VKN>+*{JPfB`cpg$V_Ofuf2~5Rl7YX9Ytr+1*c;z`ZHva&!
zY4D%?x%(y(E||zekD_7QVsf5I0Yq<q@RVf5K5i_WB#zvR_fea;TK@oK!x%mm44#Ho
zO%Q3~%C*jE@KLpK-agk=+cw_$x@1m{1Kobe>P$v5f(<-(MpAL%5xOULJf@StDGADH
zC!4Hc+p?DU@S}0HjqXz)C}}z26bB%S;|Z>K0R=T%S}%27S*k|c`|;rw7RkJ+7ShZb
zI|W}=TG;P*1wmV_4g>!Hx}vPrUm+o+pQ56T9P{!%jU`^N)?5c=QdVm>2Jimrpth!^
z)(vt#gF&8W4a_G001BEp9!9|=t$gQe3YMQwo~6LK#>-Eo^uZ?1i2ln>r*z|EXuAme
zA!1u*J5TAyID@c~R<BCw=$O&IG5agnXkw>m1RvQ;B#eYzw+J?F!Q<25g}7sXZdX5K
zP4<QhafJl+ws99I3Fnqi<|FEsiboq{wRN(y4GbYyI<l@u`<gBAQ5#(DP5h;7J&r;j
zsxKT26iX|KC8zgGwaymL?u+!A(c9{i1F&0>MS&n@#caCeD`FP83UP$C7sgh$I*LSA
zx57(UWln5II4La4*n`SjD3J?CJf@Lm@svfI-sMK%JfN5yLFLPDa)UP#1Dm7d7&$>Y
z!PauBXFTIWi;g+Ed~bEfDl@j&DoC0MwbL?iq{E<*+iYEd**V1TB_s@Ot{gA*QW0ld
zE?FLqA-1vQb+VtE`AxOCQ?sVVn_k&V@Jj0oqypy%qYn<x&?f=~fKh-hoB%fNoJk?s
zJ<XF%>~dFR8xB_=*#;_9G0w32cu~7KxKcP<7Q$c`y_`@9%@^<4E<m-{1B{i|KV^y?
zn_~X}Mb62=OLM|$$n#~4HOCeuAa#my!590cy2m7d5kgp(1YXw#CC7B;i0$rw?6@*J
z*gOmOL>4#O*p!EFVxIP~qy5&C_e`^G`hZx%dsiEIvf|*^2HN&bFBjwcEDNDYOm(ly
z;^0rwAuaE8L1P?wQJ#O{NaAgN-b#$wQ4*OHg$E%QHz>(IFod4=DyZhjL4rm_kt|>>
zxCmzctQ#WQYykx_IWh>?h4@p&8+!nvV~Hq;Tt$y{m>^EZ4ZZnMN-Qich-q<dFrb*Y
zn<=xd1bAHIi>0x(k0}rKOGSk3Viyyf_`>VuA<4m5!hgzew}jiBz$F+=AmRo7tFVxN
zWWN@=!*+GE;Wo*}!^&^nEtw$=l5luRd-+M85kVY25@*NJB3^NTvo)Q?^M%$OlGyhl
zb%5>`U>NWI?39uP`zL>Lkc%P<7~_9&9g_(oI8GyxV3_ahnITxha7hWb$?~2<LSY#h
zM4jwTM?YoDwwn*HDQ)|#3$aHwx9*nMNI^aLN;7M6uuz8`%3gcjBez?~NN;iFC~V?M
zD~0j<{a1f7?lPDbb-);1$-%Nt-2GB{;|o!n9e=p;mv%E`%Uh2rcv^wTb}h}UlK%kx
z-6u9lX8f#>Ia&3s040Fn1z{230E422_8gUSM@rj*;=WT9K3P&YoM@7g7e2<y?uL*6
zE)!^DiGV9eOD$&EeOHI#M;vVBo3=hU+R?&SI1b5o1r&h0;deU}a4jWG8(VG^5VQl5
zie;>{LD(%@8dz|%dW#0~wH05a_gT$Mdx{|&rNqtS1C^$vjk`sH&1r_t3r|FSp+BR0
z2@$s3CD=SCt{k8+-%Y*~Oil2mU2Gv{BlMeY7YLi-NV#h;&q=GjCiqf?%UOuMCiqGs
z7vV}cOKTuujEs0s5vMnmD+0_FWFeMQMgU7?)+$nhW5v-ZZ~-z$izv<PqLXn`c!yaA
zOhbx^th#vxJ~5o5@X+5V*1%6>uBJBO7Z3_-4-0%KKQk!msf~^ndsd>{4Z_>X#-9qG
zQiY|ZN_Y}QVV$$gwGA=8p(I^L9V=sPthD-+Ef-Ysftv-&<61i*J2Kk!Ht3y>%f>p>
zPd}U_1ACS3`m;fe!?N=psDX~EAP)V~q|+&p+C0PZvj<=zDdC;AxFg|iD0F5{@IwK=
z!oG{80gOA-100pv7+O5}x_Ugxv&#s*h(}TC?r9c&R)?v2bVUQK+=1C(q@|iSo<)jQ
zm6>fDtvjfuWxeO@R<}dyveMBcg#Fiy!%-tU;3Mg^GSV*Mk;O67X!=`2>d0Q!g76l%
zPuC%tqR$_?`Cm@g<c7pa_PW&R9b+t321EO${g7=w&!wrV;*+>2=yo0#ifEm1#|H0|
zEzXbB@YFTCWe4t^W&1Y^=-rC|pqSxT(`syyqRvykp`>zym6|bVWV|41a?@m6o*bim
zCE;HSCzV;8tZp0?En70Rb+l&0+bV{>mE!hkT`osFV$&(yFr3K?a1zZMm@|AKUoma~
zMKRhz@zh%cs|ps0oI8b^j$6E3_gapgvxrGKP*SqupHB{D!vOmxRB1qE!DuL&Ju!sp
zn89k~$x>S?qGX=d(_yUs$Z0Fy4n?xBYiWTe3X-yu-F4)7o);+GLCcF6DxDzknIkSP
zN^~^jc2kH&uD*6y=Z);OsUo~IgMf$=`fbTmx|?_D7g0?@^3q5~EtBF<brz~)f!lM1
z;h%^)oRb+E=XqYw)ikBF@>@3x!n*36%zKVcmD}Nd*;Sdsm7aT0?b5jn^JG+wv)nE&
zgqMsJ^|<ti*$j>zEQXgn3n|FCIZShGRR#rq3Bk&R%{~#E1@C1Xpa4Kap;H5J0>mZ@
zmt9LIIZ>WaF}VCYX?<jEX|>$GsQf&qYiT2Mjm?+J--m_5wk@Dva9>k&2dHS+Tx={C
zndHi(F6`gA?POLS7JF2vvyN4)?+u5Z%QL9C&Uvsa%FRAbkliDhQcJ!O)b%?>)kI;|
z7*Y>Vn}3BQni9+SD@iuGy3^+-#Fdw!r;w0bY_F*cSOw1uryH)qrDl?zqyfq`l})xt
zS%X#w=_)ts4`z5>*!+s<qW;ZHuWW;|ft1a2?gF5u)SmZR<zMNOhuZ7X#gfsQUW?r_
zJ**1i90gfKeW4!5*e;~(jF3nxu7)#Py6;?hT7h9Cu0s0b%I3>;j7cfMS)QmL^so9Y
z8_n9Yy-)uD<c|ojMDQ-NAXUmcEJlp&y6bbxfm=?qKlQTxRu@inwbq{nN*~DR$@~wh
ze-52}Hb0hyyN~^_y!Y_Y;o59j{!qOF1N<Pbkmklb1gWn!3NKSCW42DAkf(<WCOX+g
z0fS6Mjn!2}Ls;T2tm?l(SxsJTk8lNYc~X>P`jmpOnwr)$Wx-X{*6!g5#z`~H+)A1B
z%xg2s`TqbXJh=YnL|4!aO-uZwh1<`$$+e8zn<|Q$=_594O8JbL_|3Pn$}G~hNF#1+
zO0Cs32DOe1X#JHlYvp^aN|dqFVaY$rl==-(lj=F=ndCRWg`9AF7jYKPb?8-e40bFQ
zdsU!_0#0q&PBL(IX*(#JtVt7guzuwqr|O0821negYT8l>*wiFZR5AVRt1ekq$>|=I
zL8!;+k9tbE8&Wn4xEw5P1kYu+tJ)n_7Fc0Hsln`Y(JS;=9iK!w$I2&9(u@)Zxtl=j
z5mef%9NRUmy6TG3T5`J<TaLwAdM)X-Cet(m`&;D~7PQ$7gO(C`rIGyDT^*)4w2PB<
z$lT=WFGoaYU7N~Dn<K$-T5U3DTG3&0u^KrqEy~wvt+NIfwfOHISf4u=B-GUx?VJ|j
zLnty1EEG|f0m5v?LfZpn?d9_tkL;|3aqmTTrvxoyi6E7mewQ4Qm$`u5XsTFCjnI#?
z4=d$7?9$6Esz-h((f}H4ZI5VZRC?Zl6!AN704-A<4+)dP*#(bv#g1w&(QoMReyr(e
z{ob5d9}5Rvr819kk)^F30{U-J(y89Z7lCEwook}P_Pvlq3HmQ<#`C2Xh-Ad2v&n|H
zK}-x$L3i=F#Y-IGy}sj*0ZmoW(wc(u%M18c`UZyDcK~B9E7I~j*iJfoIpK|`(VVT(
zL)&)5ZS+(%l&++H(FxCxy@sxoM-CVpj!0PPw1cT?KsVe0&&uY<=2vB9i$#A+Y453(
zo11+03)plGA{Z%J_lArhdRL^qCNcX+KSiyZPBB6O2EZ>nKb^_`s>g;iE7bL|K>=h|
zy_b@86y~O92V8~ey-!N#J;K%t6<4P>c_o71MbqJAN%CuC^ToADpwVNcWbO4{;bIMg
zSE}@fShGvm+Gu5v3|y}{Wi{s83}ld2n?rOojcJ-EIsO;fc)nG|TcgCwhNWk(Mfj0l
zEIVSR+HK2<%XKchsA}cHrenAIM+z+x8l6SJ2>mGhfs(X`r)lG-BtYpNd%1LFg2@}O
zMol_AlT>XyPj~R|^JSFQYD<{l#-EHYO6vV9&?K1o>=&Nul#@BmYhod*=5oP9EgctV
z^SxcONcVI0KtMe?Gy5%0tEav##lqR{vvm*_$#ILXPYlyULnEkbS>-ZGoa1)k1_)*e
z%AOKlMl2OSv3ezm(j0C-L_m$?aHpY#r?@EDn-pxfdnr#PFceiRa26`MVgVqPX<sRG
zj?k+lW%<f@J6j5L$nbbvUM!K~-IR85RznVV2E{hU=|JseAdO~WgxDzDNh)UySx2;8
z2Es9|H&S{>!j>>Bq`~-F%-I7Y?v#rH0+GN0l^dP=tYjsH_{wRu%HZr@%ICejA{rV<
z2O}$h@|(KlICw^Y&I2k~+6O8i;G|&|$wG`d&Hz}U<vWfP?*N-9_KcKMqfrxMx*{lr
zlSQv}J3D1(BMIq%EDef6($RvY1SD|olmlY@RtnaQ))(bfv<vX8sTv69m5z@c?3!0t
zA&ED_Dps^Jo1utrYp04ws+^h|e<=yN>ja^#CnYr|2PYIXoGBt{zZp`~#>3pBV}+nz
z%8`wn`7*jArvzk-s~Qt|04QMAx5_t91Jo8(lB9Ae@{yvXAHlaPJ=BKVye%XfTLy5m
z9Z2}VcH+GBu1Bcn#u_no5_`%W&Lr6rQusHU3uQ&R5%Ri{NacAZ$e0c6h+x8Ck|Dsd
zM@rtoHi=3uM7UB$MbLZ6&GMb<9>r@D<B?z<JgD6B-3laeBH1a<bL@?SizNo-S<pt;
zbI)Z+9P8m+>25X%SkcDNbkH<Mdk-q6W{*)^PF?Aq{{Tf%D7(q-o;{Mtf+@~9vPz?N
zn=Yq5+$5-Xw+g<906b?X%{idB4p70npJ98ey&{Z~(t`=0>H2tui-r~LT~t)?9D!h~
zX@ek#o;<Ao08(n3THx1P9#rK&MI#gouj<>TEe<!j3JFY&+)B?G-%(d`<6>5ePlSlU
zw`8_v!1YXw{_3VUw?5WanuIPOTZFo1pSi)r1jrqc>690-Ey~bSKp4@BDXHmO8wN6_
zE&Y;m9Yl;Y{^`Iw!j+A<vHt+@Cjc$w8x2_z0OrX_u&}~=tWzuzMmP)o*I}ar>XZ+#
zT;O;dB5sZb#=&tewo_Wta;0Dww`3bPV;Ot?tf^vQE&%sa#Ty(lz>R_i+T>g8mcods
zqc#{sNWjLDQ{L#}ZSWOdrK!fok#Te^%!^Z~WNkTE{bx~N+}4tvu4?x#4ImP-m6a}<
zLT-w7ZjP*}bKlC2CYO|u#OIu=8cJM@BF)&ebm7N^b3;NMY$em^%ZSG-N2h7$1cZ#D
zi(s^LHnu+M{{T&=4Y9IVsY3{`M^i={frJ`VRxzOJNQTgCj$=UVp{4*ZSPLR<ETbp0
zrZ5l-rbrExw;bIvLw2A&Q3b3MqaNgmW9Njj8YHBYm&YkcNo0jiO%}iYQjkU04(X7L
zh3y2Ka-%E&+rO1FhJF-oX(sovOoVKEK-vH)N$!%?7r3&9qIN_HBxL}pXp!%*&5#v!
ztc*C4fYfzHw+$+#znZR=%_M@U7+D;dlzIrQ)L#3wmns@PGOn?~);Y@1Xq`E5*UkOb
zo}QYTjxYs<l~p5(c^tbl+D?LDZRKT%R>91rZH1HTE7~sBkX2OEI#(N_XvMIp>s<TT
zp&sYF<ec`pR!4D_Ga}k}Q<RcAVTpSMk}q!;J<xAui6L6OwqZThY@^;()V|8N4378z
z0EKBu`bTwJ5WBLiX&YvRq%=vIF_4~|1^Xtx!;+-RCO3}BH+Nj;0(nT%5B^r7iHo~D
zeb)ng17*Yu{3Nz<lqj+hHP!=^{CMFp<cr*_EQ*@!y8i$uI}lHTQI%%SC{jlyRS}R@
zo-^=OtY*V1uTQnYvtT3xZc;Jh(I9hebi2nrlNtai#>Y1LAQ~LkUxbAANq|SnQ}ns=
znJ_dcIOTIdzsf)lWTWGR;&ds%Od#{!IG>_Rfq;}Lk)LllOmXC?LA~%UlJ~v9!YLWB
zI;UB`L<Ej-;?_S3#;mk5__D2;);COR5Iw-|AR?e~EyzHZw>NT<I)=5stAxo4<d<Qk
z)(88jWSy-XkKI>RYEiIqs5KpC-=)LhGJzTANYYeSHGrFiQCqCFm$9<SRqB&UNDt4|
z3fOBZP4^I;Mvi&sZ=&kATzj2iby+Q4O+ogx#3HD48kq>cf0chh)9-6RK6|FpIo#Va
z&`{J&>&Okh0=J^k7(gzK&hl)wbXq(yfL(9dS;0+B7z1uRSu2tjjMkZ@Qntjf-{`OD
zX{e(EYY~opC}|r9?4W$m@YaF$vJOKiSab%OHsRJOB&%Q+WS0A?i3oQe*)wa8ixrzi
zVS-FPT8ZC*F}Gwi(oFGTF)B7O!xvJufF2a3k*<!selqq&vCsWMNd!#ZcMK;H@)K|p
zb8PBZqKV5P95i7eWLChs8N{CUP26p8Q3F&>J0tYY(Uc{!q})z!O5tKGN7Xt++9S4j
zN(F(!b}?YM3*j&*KnIK@AYX*w-zV(2wB0QXhFi~X38l9f?4&L7n&99qWvC1qQG;+$
zPG#SfVJ-F?lnd<HGH|OB6IMLJ%iSv=2G)1kM(2VDxjnC7Kd2)oq7hpTrhr(6yRugj
z*W2MXnnshz0^hoGh~7=|xukkH2Lj}WamrD9;dS$mx}9w4vA^EQP6AsKoD_z`f>yI5
zn__Yltr)$&$}yEBP8?k@l0tyq<B*VmE|+sj$rnlpJ@S~D6qW~!C=LGr{0e!jpgt_H
z(L3rFV+QMqz#Q3e2gVYF>zj8-O^?UIS6<@WCY&DV(83&(Yos|mE++o~WYTeb{Sl#T
z;8Nz?CcC$kx9o@ovG_<w`Af*M>*nhWke0>#CXw-E^Lr+ogeVM*_w2ai3C^;Qx@05K
z#@nr%CO+2TBZ<E$rP)r2wl%{DNyULhIo*)e09%zrLVE@cJAnfTpxh{#V&P%WIYjMm
z10DHJj!cMbVcq#t!Z^1+6Bskfnig@AgESF1-T}S7Q1dz0?1(Kq6T%it?nrb&99(VL
zaW)(z?7O(R!b{nG2y@{#kNl~?hTp6AO><)4JvfYu<#su;lhcfgi2`?|&+7{?Sr-X!
zYgu%SYY5ulev5_&`B{vP88|87hRLGWu}=-TxFusYGig1(=?gojmYedL*1G=ysD+gR
z#4J0lY@~BYKMDT-0F=k>7X;yBF)TS;2mb&G2LsCNa0QkNIoLQU2*wIW8+Wp4Cif_c
z*tzbQ;dRb;f}6Vp_wtz%l!lw!++OJj{{Z22@=8O<`AtNewsW}TuDym*94^5)Ia#Av
ztv)Q3uDK`SN8K-c8=%n2M1<erA>)u!3GbAG{{TR>0>^>mgr88F4c8YCiLH+W2Hd1S
zW!E<!93=N-twwC)er%K+-w6-S7h=~Zm4Mj3eivWlB<*CDD`?hzaZ4<&wVP#YN$V4k
zNclriF`>X4E1GE-01aiz`9BgcPW_znZIVLyTgWJ=s-E8IvBM;mCj-Ki(gu!7_amPw
zS|PzQR@WAeZlaS?cXEWDD;okzh*Q1Ci!OYgepJR-kz*Zw$R*0co~$?pOC2l0;FUaK
z@r<sY7t76&)R42pk#97>vz14vxLm0ws|;>c4yCC#c?8%mYBE)_RLfm8-tm>G)6Li}
zu=*`iWN<ehWwO(y1*0mSg?eS9dnF%58y*PdNDb1lhkT?;KT1b`WDIr+a%lKmi!k6*
zlLAx>DCIdK<%~JJsaeTTw+dF28Hoo0Dr<k4Ibe+-Sv0fZKe9uWj7H`r?XsH7h*%8}
z?=4H~5S-?OJmA|430pd%s4=%B1w*LnOeC~C5}m8ISAqdH_$xg6c{k$xsZI@-$2g*D
zgX)4%Zl}HM6`eICjspc59-eKGr~W(kbT1)#FxtH%?CSz>yx*y)W&FnNuKkz2)oG1z
zHw!(f^xSja?Ec7n6g0E8sUA_F#^$}Cw-@lYH0%$j7XyS_I$5zu2yKyX)13@9vBGqy
zjkaUDhLSf#><&AxKC9AWdySecmFV41c%yJwc2u;;LF6QLWg^VgW`uKQTjI)=vr3jC
zNCkQ@bZ_NFJrpwofR~TaN3+Zv+2K4C_SeYHZ-u$4(4&)v+v3WWx2GLqSj%`y{{XRQ
ztfJN@jo5pD_$zVJy-fJaL*_PErs%UZ_Obny&Yz{p69KWul#)?pBAM-4A6LX9Xmjs{
zqNVDXC9o0<{I8$qo@!PS*En0jLs9i5RB{i0_fz8EMLDI}^(LLF!!3w-KXrLcQxm|k
z3+9~@ttE}abcB7@`$6ki-T-`-`>IA#k7VSdBiCNWNIalwXd3WvsdTQQf>w{>58YkE
zsKX#0;rpt`A|~NQ7Ne!!_G-;n>C!Nrtt-%`d~$dwNhq5xKp9tz$;t<vGLlxv30i)h
zX>Ea4vS{r&*e~=`P|z6OEG=Xv?9jB!x*zt!o>A@LGL}880ZS(fnnjZ<Dw;d0%7}qH
zD{7YHm03{W)j3H~Jctd^fRU|lB;9n6B;hk9cphXNo`DHaTxGVv31w(=N`f*Q$z3f|
zSlp1fIPvVVWd~5e(-VMg*M@!}(7nb-I^bu8?pob!WsU=t<h^ecwVt4BEERl7Rz%UH
z)gBqBv_~s|8SblO&Nx~Qq@;B;&ID%afHapC_1I;}SrLt4x?{!92%VNu$lKg@R1^^4
z6$FOm5iq;3hIr)mOcW0&wbXYvunJiLvAT!7(wUo&!`BwpL_zKs)LjJs0Qx2eJF@vV
zqbi*ZQ!Utq^lv~{%{@F|U=SCN=Ed?AHD{_#EMgKbbx$pv<Ai+`JEV*kUxZ_6VrEFW
zUTcj#j`z_(VUgT33VLW<*IvrnR<_(*!WhWLpJ=+*5jfE#P1-NrJh|lJ=y5T25wx)v
zXN0az^d2OTLiZwFO50ueL_pBi*b9_Y5c-cB_+6efZH&+z7M|%|Ha5X&G|e^f*pQ9V
zY2jl9fL76l_6z8-D8@91w8813b3&c_fWn=CTZGvHsuh5|N=^zw$$zO6-6hkAK^$^l
zE-0v(Yh0#+6WH#{4od7bXL_Lj0Mftcv@YRi`j}pk_wbSQ6nyj6&jPwp@>U9tOKU77
z_gk*JX&Q{*Rp&Kj?5zcWmtM*+dpe~Q;C)B<Ra(c;L;>u*I+{;tUI_r-Kp?;PH9cFQ
zjfOMXd#0YpmICf<x@WzdQPz-Dt|TC&khRF^S?xf}5p$F$b)lDJu}g5IFT!Ln8z;Uy
z1QL>48$gwk0MfGhgj?h!twix$6-!$IFCxpEG^CL6NUDW_xCzd)zDgm~<P70QvdhBq
zJXJewmyD<eqL|5iVN=%7H#o}CO#Q7@(tzh(#|!8DoN$GtSvJZDXhUCc+o_~$+lGrP
z8j6})cKe(zsVen&3y1_SEu|M$SJBdkTP0Og(wSYw(T%G0-DZ_%K}G6-Pai9z6cm{@
zW!<DT+_aR_p@I#g{>yS{=^<~phaZFuU0g7*mat=m-wEQy*smLA4^q;kf;Tvgw&7!{
zDoiy+yUl^h*!5<v=>wP@Veq`;QLBnM4(9^mcv<9*SNfr42NPqXYBvF+bC1baf0}N~
z$lw+WL7DSd-)KG-st8zE3!ieiGb(f#hJJ20I?S<0P&~Qgu)3;fjxtD6#aUBu+IW8H
zu<&2VYiFVK^pxx^GC6GMY9n(;rqget^S+U#sg>=LVB$|=y)R6oaEN<szKg@blQeER
zMstjNB@!PA9!rNSs*50P+*NthqbF-@x0Q}K6-|u?%cMH0;a5s7a*C2~QuZiUGVjS>
zJDo+lJ0j>nc8moSvb`G=1dG`=dRv9c@i(#5(kZIs+$>6~lTT$si7dVRtGbF~a%`fB
zp^mePXh}ywcFH-rb}3u_*ea&KL}eRGn;5wGUWV7k*!WbM#BQhr0m{;oy)ei7Ja1by
zbIxJ_wYRnwlc2hFhil(rNxHJsG(T}X6?xM1#+ZP6DzDj9i$2X(m!rnmTV{ce3$;Bh
zjfk5CV?$Hy4Qe6riACR)--i}CDoBHqPiK>L9){@)oB<zYgw^!dL`!y@_5pnZsOhbl
zqy`HrS9HBQ<lQ4$KA~PQQI!G8(c+q3h~sUrIFsJXXP|U|n6=YF8<pua9XUn_436jM
zw0eGt96%j`d%h+dv#03b%Hp(VG#;FW2$~rfXdep7zJ`_xa$kGffV85Nv6gFWtMwWe
zJ~t9BY`w;sjU$mIXOH!TEHdtP#<7FS^G#L=BYU=nuS5J!inz*Sgl%Bv!FkN|(>0{O
zcgZW{yxbXnS0-KMf>exGQAF1hW~^4D7-NnXqiXO6ZdlD)mhL2le;RtGb3L;sC_9Kx
zfv+a_Ar~z$-fk_PQnEI*Tw!`jMqzZ%Y;CzWNl{b08zAI(Xt6g6CrsPfs%|#LLcEu7
z6cRM~L@~`dzbVdZPYIKtmG5sUn+?WMQpS4(&8GQPPR1D4TactJwXUAaT;G(AdE0Q*
zz`G)IMUE71Xtq*KA-TEzlqOG<C}d0xvvlUWI8d>`+UjPUU?WCnIN?CzZ)+7Zn{c6%
z>W>-<BQC;;@3$u@WIU)Hlgea(O4)l3Q}>cCp%xvJm`OGqEYXQBNWfCX$JsTFxW@~P
z!WLpyxg&@I>JZ|TI>l-+D{sxz%pXMy9?@juBS(CtW~vEeM=ASoP_fEyi>Wuf_9=LQ
zqCf*pj|$F<X=tztm~P$f3f6`8V6a+_j~&wsoC{<GA+R`8O8gWtaXC*Iv)7JQLc1N5
zWd7@kH%Lh%gy~R|nqd^~7YfP?mIYf%4>ndYn>RRDi#T$-M@a19SZMY#<yRkb>=lNb
z*9iesmq#o=k*Hu{gOIYFNf0}%wDhcTXM0&tbsR)6uQj@n>|<90&+4NA=E@Myx;mw!
z)i>hkcZ@EDAt)TQ+aWZc-AexeuL>tx$;rvl!PhxYVICAV?w-S&T^5CJL9y)u_Dz}g
z7)^-dl*vzwp;Rn;Ij=jiuC%g99fHrX-r?rz_eyxiRvq+PN<W8XOHkq@<y=hb#;RwI
z?=A`B*~yU)r*YfQDP}is9Hoh)ZIKZ`WFu%Qn;_C7(`k&7<SlNQP9lsFEo2^*L9_=E
z!ZT2*Z9D{A0)(V8h$gkDwiwGn3jwTGzM@lNY>U_R11yefUH#QWFuq4zsX7aK3(?~S
zP)NGi(y_jqMg|sJPKnHWeyd%jN4x>TjqF6N*vHa(uD;Z59VlSPR#Cvf(Zc5dI85j0
zvOv!S1qnI2mP2xEf4Yxt&lvin0FPy@o2d>HTVM_@K}mDRDu%P3FpvScE03PaH#l>A
zB?BHny}OT;(a-7$o34D7!|D4bF)Kz-7E-afP>;A$#Qy-GL75`PjiT4Go=JpkCjkQ4
z+SdM{Fsn6PN;WW$RB)6dHJwnf5FKE#nx?BG$pPgiwW*07?XD$f<&?;BNlg`C>5raQ
z%1I=pri8rS$<)x7+XY<E(puisZnR{qijtR%6?Lc3xx{->T74G>YSHPGV#4eRS!l!`
zOw+J2Z?e9orLeGSo{|QD2mu=t03DQ^j+nxcUifyKTlP<dmLlkh+niZO1(tHO7{g(7
z?XyNy*74agoxa=w!js9mi#ifI#?}e1%TttcJKJT9(H9BPTsbuGGM^C25(-4!l3NRi
zK2nd|B(jMJM_?06N|PtLW1I(c$PE#=a-fyLqUFj-CJnw-Mxjvm5*RM26PqNsl2+;s
zglz;8s4KM@rgp{)-@-5bKB}qLEpoWiv?ee$^0z-K$|&ZZR{AJ3-70#whfBfowi;HQ
zPe{OA8@tMJ{Ix801Ox>|dv9ht3tj0F;@NdQY*3A@AX~z!tF3&b*~cgsNMD~R%p6@Z
zNp=+x%>~Bpxl_j*v2n&yF^8Vt3U*v&PEtBy0nBQ3`;_0hcfy33(-bmMW*cQz)PAC@
zq`uS5h81MD+;CQjrO=UBJC$oqeS?Kn7_+=9dO_?7nIsT0nIkX9bs)95O>wt$3P6X_
zu}%@~IN?7fb@7y}v_=t}q&$rN$>ffFrW<%bsuBMHDmUe){HZPbrjc+~7EGwFY20j3
zV11Q^YcA{jp*D-&;CWPu7uh`vZJx@_r`v~iK+rPg*8y0ypW!TqjD=;#B{%|@;Oksv
zBOky$l8lK+BaEgJ;CRAwTn=x_;z1Wofb=wze+fw`2_u3(bkb}&O+=d>ZEXG1Ngh*7
zg7_gd(ss5H4T@c7TacRfasL3_)NYd3B>u>GDq7p3qGu$B)jSs3z$%)lTHKz>N~+lV
zk$<YJlCiD@xGIVyWtAXW?MyQEJSuvPY1XhR)>g+c{{UnY@SO&e6x`Ei&6BU}<(^A2
z(^b_}8#FklQ|XnGkm(xbv7_nhNx7{6Ul&&p>81vc(h4_AL|wBRN1=ma=#BfW9+{&+
zEL|G0V0&L@2A2I1BCZ(udq>-qt+P<-Y6x1;*02O)D1$}z+rknpQlA!hx6yRE%nh&y
zf51xM6oMv+;8<LJkdKAH+_^FOiI)IaAC%bS-hIUW=^l=VV^6cB4<Dox_e>0N{$ehQ
z+BOuzE!ihCwir<pSU^&=XTn6F{3UI&$|(*Rz#}Qv`du}y&J&w}a+Gu>j#FGOg!7P_
zV{}Z&+|z3m%Metyx^r7|;>nRFLe?DiP7#}Ng*a|IB@M7uBkY7mFT!w$cvA+hw;Z6x
zL_UxMgzrn?Nn*PwSZIf3judWSzhprQIX|*C8lXAYI8~ChzNL;lt66~Ba;qi;$;xPv
z$<U@Yd|7j1jPe4B%#e@wFrO1-zacYPIpMZgQ^OG%Xf{glH{bvhX`3h)#}`gHc)48i
zJq$++d0a)iuEn@qNVxib=?;UNYhft&cCu(Bj|p4P`B=zXSYTx<K^U?5OOScGX(!GR
zK#+#_y^`F4#fNp?;06k7i6o2gn1d19iQ>tk;N)}NbFcE0T#Mf;42~A>$CbyN93(yu
zWRAy_rBJT7gvTCmxRNrM;&`%TD-h?xKzRQEDI9)&siya})6pi!;_HCTf@4m8LU{P)
z3JPPae`JE)`CQxceE3RGqKH9(!siyA0$#_9q&6HZ21fS)I8m3hi`<0y1;T{10CV<C
ziAjq0HstqAac^|jH0R+)=9^@vNR*^G_9qBw>@Q_CtS{LQQ101ONQ9(D#~tH<rzN(?
z{fZtjxxo@4F7llm(|Zww6W=JP4*(SdY2ADi^h8Ai{N*f|ag&eGa!~I+?#P1^{HPql
z9pz24st7@AUdxC!N(M+bNI|+3RiQJKhm5CK@|(1SlClM8Z_uT&`z|2%7fEBvVQC6%
zN>Og<EuK<x2792wKEU`$``ZS~lY1<Yn-?RwvP-yk{gQ65;Uk@lCZc?W-s^H#7w#6y
zXm{N$(V=;q51v;OWAKx3NxJ1~4?P@CQ(ka86sHNUI5)C13$!r0=iQXU@NQF`U_eZ^
zacd@`O^954UdxHbEV|gR@|s2wLN+b`0A!;lA7tDG!2OY+4j-#>Oy0m+%eMe-xRIRy
z0ClL`s8<7EE|WZAChQBQ7XjausN9LMesg8mwXc*pc?k@k-{lH7BoJ_NZWC|gl>wAn
zH@a`A4}L;4ZbaqQNcY%eq0F{7x?|-77r)&QatQT_;WO4APws|%zz+&N&Hl0btYsta
ziYi^!u)?~drD(Oq(9}+Z0e1jABjc)wVZ8ZX2aDrEJ2_=08x&!qI7;ZZk7!XxGaZ)^
z_fs;Vrwlh<lHh=?kqRJB2)b=Gq=G^slx`rEXHM3D6=8}J-5IuknWr+}q<+dN^v1Yg
zE1_VQXg!xo#}&{Uvmslfmo)7QFRJJ+xg;-Bk|vSBRJy$=a}9z#OnI#{KO-fJtOC;M
znwv`noU1iWInqvT-5I3mC9NIPMr{G4XesN#0_7PMTTU*jPM;%20a2LdjPO(Zf^lYz
zlL9$X2ZP;a<EoXGz0px>BK9eilQTu*E#)Z6u7b6XwTd<=LzXcp3#^nl5SHL9VJw#5
zVKL7ELiyScD;Ovcq+$v=+D|t{MDS2%Xd#P;NYX5p_X`A07Xx6I1SIUSg#{(<xpKy_
z9HWu994QG%Mb-l==cW(Elr7Vv2IZkz5R%B)oIu-5#)}57bavn(?S9L){4HSsFoINW
zr)mCBtV<INX<8XbsFIDBy_I&MOu-ozT1g_u3a?R%+Eiy}OdXzA)-*;&xG*m{pGcXq
z7l7_^y}wkVYxiBCtmST<9&FbB%9!z{wofdn=<=CkmJUHu(o9L(R>M@%SZ`+8R!5~Z
zt_N+br;`<QJ{j^7jv*))2&r_|J~MW!3JNW)9@I?j3~iSr=F#5_X_<HF4KMb9i)M@r
zSZc9^ZkF47tqmP8G~c8nAKS5JxSnCJ=_Qo!yKKD5v($>E;NHQ@=nkZ#X@$bwmyhdu
zbALB4x4O;Lg-Xg8D%{HgaIL5{iDM&U$os0giUQk^hIDU@!r<XOi^7jY(fYP{NW6#l
zTP-84-+<@e?z}OT4`In8DB5jB@!Q^S@Rh|dT#@v)i`7l3Ed{_|xhrF)>QKF)`hc&M
z^uD2<5-lOe%Gl_AZ6ss|N&V2b9)g;eXVH;Q6o6QSR83(xUPYpHv~mWAybrqA>0L_%
zz*<0l==`<WxL-!zAOloWI9m#`n^R=17IK;Mf;n87a=%7Vp_K;rRh3OSM#(50&{I4f
zaJ>A!RJuaRSzi1cl@sL+;1v3aV`<4i%{c9a$1LyJIvr6|;NEPis;eI2Kyq5i2?bP0
z_Xn;Vv#^J@0WiCb)fZG#K@~f&FKl64)6{^`cLkg3%C`DXyMPO)$J0POFR#D+u(WY=
zb&|HzfVEw0_Q_b{(|q!?FX#Rj)%ePwjQbeo++?VqVUnehz%&3e<p(3p?5<&x3uOxM
z39_0^$C9CN7qylYhEJ-2OEbF*sJpCU@1|VQRKa^Mq<;(F7=km70{NFgzvh?+mGp1n
zOCDj1cPq;CtP8W-wDKJg1HvWD2ewd}X=7pr{gE!6w_Z!9*+Lm%xVgF#ST1pdd#7c&
zx*WJTq-}aNSjuW)dy#c(O%1T1rD(b>()wcobU`GofF+TJj=@h%-*{Cbsm^zVWjw@@
zmDPq;^am<5)Di#yy0?Vh%QL6W1+G=?EkJM?UgikYNjX_$&JsPOro{1OCBX}zRt)B!
z3O%Oirxg*(0Z526-AfQFfKtc7SsA1$7*t(J{{ZBV`YY#fRUc6g`d9r5%*grMuiI@(
zMdz(({{T~9AXvCBM*Kl<{{W00SDiZ=i$D68JUcsI@IH|IAche`5o;O^xn8wM2dBdF
zAHn$nqljO%m#)#DV(Z9x@FpVRLSxFEcV#Om)s1MdOmPWbO_Vnztza27tg5Q8<6x~N
z7a3LcHU)6`iMW)3RX*ZS(%GW!DC&dRp;uHw=Yqap%F8&aiPae2Wo>m>Xdo(D+PO<e
zVY0NXrZ+0ON^WkvH*$ZuU-V|R7Su}Px$gbYF;PvshaaliQ|Y2-ewAhZjT~`YfERy{
z_;s0c^dz!1qZ3Nk(~)tXm2CxM_IsaU@r2EGHb895s)sUpM$kwf3xmnTym|0jDGipD
zT9X^?5&~5&r&lD5A*7r5L`6c@W=x-y+NMSrLv4E~CfQ}9&U%^i+4dwaJg)r1>aIxw
z>(%;_m9}$<x5D#HZS01p+sG@`@Yareva;`|i{p)^`R+>8(^QbrcXn7UGf}V&9Q{?z
zCZN|4-S<8&r{rRHY?5Z{Pqfc#MsBw~JE68f*OmeGUTxFWtcFIp>(O+6qlvMBxQs4U
zk{JI0k=Kq5qj#m#MMwYvw^ru8vB#GH0`sb#sAC)aA-UFBy<@5MS?<=zV`1#kmFalD
zpIDa_8#Me&*}CeUpko@~$p!waFGsFze&@N)B&^I5Pdm3ebKH3(t15jySuAs6xIDi;
zepLBA504Up(X-RFM^sn~0Iz7v2)Q7Yl+ozSKwOojrrHN83Eu2_EgJTL%4CuQz(PJy
z1_~N#mk#N2XGu_F3ni>^I0P#8#zXIQ&Yi@k#PNH%MiNqXQku~-BQC*7Bp1L>Y@*mx
z)5q#}R@2fJ>$0`_dme5@(NsEX1A(%&j*XyPqG64ZkztkB<KW)O&n1kdrE3~6iP`{9
zXmf@zpXlQ&-ob@MX&kbj*d)XOfDjU9OA@SWEXEsQRm56m_va~YA1YE~E8}L5NP)hX
zb(Q2Xv8})glTDes0B9o0)+w3>O8U$$JQW^fuJ#aE(l|iYv=$M<E7p$La0q!{8@S4&
zdKAF*K8(tc<LTc0?7Y9J`hG@&*rQ(iSrCvM1(Vk3VLOQe>&f#RQg%AW$)7Xpx=lo6
zf-P@_=i1zFjz<Rr%KAg9w5SUnMTzhN@s6$0-|IYv<HGRco-v(R(!|!!H<6^0p_R68
zD(1F=Sb@7v6-7jD`>$ITNVTF)C3Q==0HH4H_f}?(N9So#$weba3cRCWAg3-CJ&~*}
zwT~z#FtDdJ=KyErXRtr$Dn~SnVL(B3tSq<!U2;v5mw*#TK-htX$~gheliemSbra+y
zTFLCl9!3(P^qhPm!3UcpBrRnYfwq?YQ=28ZDe@3hFK=|o*_kkvzp`WQ^$=+ovU_(6
z-zc;Ju8Z!Xd_ZKW%dyIh`MLo>&o(wHHp!fQ)Uq_3l@`k!sx5>nDK0+BTY@r$jn*8g
z+UtxYYhsVEx0MMNIPRr9a+`zM6ci+2-zb0p7qVj;aeF0m4Y?>b0!F={_ER=d*#;Tq
zOw3^hs4ZDAH*!9d;}}(}1h^|oHVwW|vbcK^puBg&968tJ8$5p8VFp{3Nc4J<suW+I
zQnvR^2G_Ff*;%F)D23Bp8{H8r$N>pXP7y9`$8|^}lQKi;TwMEntNk+99u*ZdU=T(;
zE3H2c2av5dQ8{40V^v9SM;2M`rvuU__E+?O?1Benp6ZMGWLvfum;V5B*^MX|3hR2L
z-3;PBRMo-Wslphs_g%4$j#*?@HSV~=g~$6TjBd9HrWX`Rxh6tN=9{TK2PI@Dc2f(;
znlIDzO`8Jhc%#S4NueYq6+M81?pGRXtZ(wGTLXiEu~rmJb8UpfS!XPyM{pHP^N{nD
zZ10oPI8^er&XU)%G3<=?T2MH>;9l!jqtb_ME*M$85|onCJ1vzM5JCy;6&oW#6)t5g
z7X)#Yhw4pGlI901PNUU!M&^V4))KCFR7-MusWGmQ_?l*t=gPLFik+?ZkSwWNA!Bip
zilS`Q5`YP^l$4}Rt2A_Nr*o{!AD~)IG6sf&Z|tiy4Kr&)oZqU^#>T|Z1(HgmqLG3)
z+zVYpDLGO;=PD<CKBytcUd-V#*6)=02)`;Pa;qBv{%>wmNH*>+mAJ@Ddu3G^Yp{H%
zoYG0Lz*7_9Fq3~DC>TaG+Ues57)`hx(w8>bD;uP7epEBg7&%O;ovdlOS?yC(0^k&&
zPQvvqP_P?2`>e*Js7&`8y5SF3TKODuhiEbthV(@%oabEJscGOZaKb8{kh<9AT<N-N
zoZ)uiGhj-{w8|3mU<g`D9XRa+YBx#J$PM=4U$&4kJOqwKqXM>uh&I<Bb#<q~!iqTU
zz*ZD3KXo}s>VyJW9xd5Q8ayRvz)m3BB}uz1kR?k%a)&*UGg!NWg%dzL-5UjLBAgwZ
zsV(!AkPmIs$QM(+l}kfN941M9wzaUNIqssB8vzr4`?{JosJ9O)Xj}=mbR=ZSErq~f
z_Dzyjv>TqvwzpAiVA;tMZ=#M#2TdzjJ<6`TQVcjKCsou{Noc_!{3}f}LVVypUj9|%
zkL={j<Rzq3#Zgf-p4K>mafNxOY3`5*NZj|jyQk8rX`>h0bsbdk#fFjgRjN50r6wSb
z7+Ju=2DYp;5ZhzHL(e>qehEWJ$6q-sU3M7bU{%t(R~(V|LI#gHQ`8S}1wo7DI%7D8
zQ?yuIT@=>fVGT?@p%%;Vl1-I_N4Dc5gz#PPk&Qk$PYlj^Qf#s~AEH~E@Vj9JI@rpb
zhl(S7fHNZfm3+?t@T?_h+Hk97Z@W2KA(GJMI5><eN>9=)-Bm(3uvTyrviadLItsU9
z5^V>b$u3u47eS7wQ)Y}0s_b$S0d>UNC^FGQUB#0QcusM3`BB~cV?PKX&L=4zd0cUf
zCb-;K@|0EsR5OGdn`L8D4tcfEf(x7OR*ytv_DMttAf8o=39!FBs`x;R+V@3=V0J=V
z9w?FJ!=5~*w43pC!t0#yy8i$vXl{vt0lkw=yA>HC=ISR%25u9iD`c)c?wI%3Tog2w
z4Hvn$-3L>tLm2&F{S&B>l#qOr26jQzS2edK)>O5+yIpYCD(N3BNwZ6h)gv1@=a!4A
zomH*9oGz=U)h3er2|q;rJEv-@h%UGvD^;X)tZ{%Jljh0jgUZ>Df}Xyy;>|xLXf)oM
zmPX!SwzPUZGz}YA+<YRP8)Fs(1TKlUW_FLKDd88|&`}a;@kTwNmqpb~_5-!T>YlE)
zOZ%QV;c9Hj3Su$1l3VssOhyZaJlzQ;TaE^PR1bX52I#1yGEIcbB_JN{*S81?p#$*1
z{{XssVZLl`o+BLC-D^m+aIg^oXf{!nS=`}RIyT#c48z=PijdzDM2rI&AG$II*#59p
zV7cs3blZc53YJ3HqFNE{7C+rG_R8j5j~`T|1p~G{4cvGOw_eG6mCOqSdv9xm@!>EF
z50w0@GD4sJ!c5;7J<?yk5;&4D5JHZ&Q-e+Lp$>P1_7mYc5<vmB7yjwtx8sErZZ{ah
zC`$(fBXmuoI}R+60dJz1z6;^P>7~&d`<84J$d5k-aRV4jcHEmJxGM}H10Y#JC59}g
z&-EyzIV%_jql1N9NHXLVX;LoUY!zgnZZ-s-RbobJ(ItVl0()4@SRqabv2y5(uWP!=
zrF23HnQc$EW&(-l+(!yJXS;yoZ=#TsyyO+k&iq4eM|6eR<0;?$*)rB9*1A&6R-1(D
zk19Xr!gBy8AlVu<(DvAyT|5pFwW7eDLRPh-x+xQsh=}A_A-J{deu_fTeh1Y>CJD|{
z2%f}s?|c0d3$gzI3!X)}u}m5N0O0}ACGo=NNbRD)52#ES85j6U?2O?GDQ9mc_iKKk
zGWHo|)B9L`%4R|$F^(XE?aFU#Sv}W0i>A1q`A&(kq$ROkVolcz-#JXsEO0owQcnp7
z(RJ^OC1_<KbBl7gwZvStCwtj(F58C@_ewKh^0~nGQSNcI!OD^Q?s8KJdZ8Iu*Erm$
z+~bg(^70M>gtXt3(d?TY^THBxOOb~G2{HF@oe`Q62K%s4TMe-x7wvRB4h?W|;Ss%`
zx@$S5*yb`&aPo_VlMWtGtaEXa5pcX%WTcZR2$HzW7(unHg>iYfD3{1K*cTz3Zl~GV
z6mYeIL*FZgFLl?s@UZQTJbWZ^HeGzKJR&0!=G>$g9}B<x;df+E4kVS|Blbz3E3bo;
zOmV<Xb~q`<{8=^ML{O3&yUEH-_FQZY(m0!A3DP4e9O2nHpbL)anXn|T+(Gb-31p46
zv2=$Wf@pWb;^W;43X#NE@|gUKoFyb&-wA}^lfo$(%xTFvCkc+du$*281x8%oDX2#w
zP6w37JK-UC<CPz(ER6`{OS`y8TrQw=fOE=go(FVjUPR^A?vvCP^K>(%9&VfJk3U6$
zVFpi}rkOF$R1I)(AdDv#7ZO&qZio7}7TuJ`P2D$byC%7*TSiDnPi_y@M(U6M019x6
zHz20EoxIqEtpeD`R0~+Bol*^kQobScpM}B(U!VREvsoXg4enQaf2gPW0_Mdppga|=
zhR?L%)QEMO{CCQ<rPN+Xu?x*1)E-TNKf1os>R#sn_uuNiE*?apv?`6W&?%~2As2oA
z70nSg9hO^2o-o#n+^q#PuW-P!?7*_+cV&NAqV^hwM{UkTvr~_N;Hb8f$+}osXXM-N
zy^L;fRcADvnreF8=LYEbo?I@d=l}o}Zw!LKF8p%V$?PTB3cFHh*iqrv2s-}&&{sfA
zr19Q<JFA^82J9GBwHT-;<z8t-7K9Q5>?~6>jD-}GEIop-h+#Uzm8fEdqf2QYrB_d-
zI2*R>Tv$9P-3UF9aWmPIhJseRlC3FWdqBFiFgE-IzKcRB&^Up#5I89ve!(5-j|;sf
z_*;`V5~@Z@{0u06Cg&Tu#H+Co@R!nR+>OMmil1*}OD;G?`fW-h3vx3+!OrlW*B(ln
z(;gE{e+a1qh=I$u1cisPjo^gV0$sr_;Ds)5;Ui={(H6q4xbUHDia_CYf+^$Znw@Z*
zv4*Zn1($YM6fr3R$r7Bb5;-kpSzbM*S-*!W+V9X*W?vDO)gNovDk_V(n}vI+fpV%|
z-fv}0FGA+*r>&0cDzrw>?gF^3umlBA@OK+<sV|~<uEJs38apWJ16&G@GDymOug+IA
zu_n&dk)f1u4^xGtq-CH~wAKy^>XGBqwb59q3oN!#^$RZxfEiv{tkOKyz1vB@fW4}&
zkMmamT~kzahpJ25)hS~^jz)OQl(!b!VuY4}JBEeoTAxV0gqE}WEd6GR=m`axNx_xo
zU?$T?HnIv@C$y3VR??!JMB)xCgOUi|a?qBV8&9JnX(KntQb$`WEzSO`M=qKq2EZVv
z(Ovwl!p=znz#fxZo+k@P;q_ZSm+D#fw{+O}D-d+2hudl8T<J6>A{;@#l#+31(St|0
zXdO<+M%%q;;Mdyz9hKrbeNlqJq}UG2Poh>$G>r{Bd0uXJ=>l`3)0?S!hWAa9sJLG0
zmrn#n9Oqow5iH;~z%MFxh`Cs`GvwywLmAzdAm^XlZc;^56q;<GDhjLG8G(hD)$08d
z?a5a)l|x|{Sv_iI5^hx9JM3;?)9X)+8@L6L>TP}HuWJD}<f|&UUp2r6%7a+boY>95
z{g-!%g>p@YnlQS&u9`yUT~|4QS?e+SQW3(b-+Zs9$EfHOHc%Sg5K<k^utdll<9p#o
z)&`S{sv}VZk@p}WXBG#rN6I-i?0~8l7+4er{1n0syeGQtO*|hf7_#Z?RW#t(uc5yS
z<_&^7p9|+LDo;+Kr1@UY_<O6iHZivg%<~qkR?nd*s(*wt%4F3~F0gS6Ev9PW@PWA+
zE91XAz88fytYsrXPb;1JiZ&NC9F?4dP;M<@^h6rFj%=3epr&dWR}5|BT|qr~cLV^k
zv+5fzZi16kd(DHajAbVF7bJ~@b&&^tpscBCTJS7Z7J^A6ee=rKX%RTI61^WCTO-K6
zhEfH>HVsSDBXL1R3%2l?EIH3B-NPi18Z|n8q$RK!R}nb4ET)FbJS|-}0d*~#qEgaV
z2#T4YTIu#45VHe%cuE^(JCax<U?P9QrPtefXZ;Gjla3W8z5f8@ulgXukDfmfM%_W{
z%_>P6gDu6^r+y=g>JGOH%xf`R-q&zk@a*mX0HO3R;M?y<7twny7w9X+KL%VsFB0~;
zANIoRpGfoL*h=Ngl!}dWZlf%+nMWZ-3c=*ys=B5U<!L7fDu6d-M=murv7+d&a}e{i
z0hMG!Y=@PNBg*r$cra?qDYG|R`(Di|sqS;1Viu;Nj7iT5wz83tgS3FYSIzKcjk&j@
zsuNE{6f&|PH(5HrP;SkwRaFiwcP8nKaO8`wcz#nPW5OeROR#z2{KTd53@7?AhS{tN
zesV>WHI=bI%VBZllb7tuMkQ@@cDkX|rx3Nk5p-6qtF(szKv>;lQ6xFnD~>X9l_A_g
zHTl|D=gl#<i?1Z={bCs9b19p1epZjGHCJtLFS7Icm}jh;*vAliucrK73jL&V<j~zd
zy0&>kOogEK1$q}t!DhA3D-}mZ`fEAuwZ0Yplc-Ah8x(h4zGN0f`jLlwJsOU9nPJb>
zX|#uWz+(!FqVy@NOCIn_^<5XG0E`me-WSeh@!Qfn@k)w_p^sn%prI=1!;i6~t+~+K
z6LQo)`ddtv+PvqAQJP0jD~X!YC}n%V5ue#>sI<2=fVrK#E4>RzV?g!=fB6<QoCWnB
zH{m`^e3`*7Cyc1a`T{d+C$y2mvDG0Sunn?;I#X<~3(E1Oif$<EhD73<1}^ecQlEru
zknJ2G=LXy^HHo)Os*(hA?CuvfU<JTYy{@^zQ8?J}pW<-#YfLg39`|E~ZA9|hWl~da
zJ(2M|H!gLSPm8cMXuXO;M=EB>z(=@UXN`7tvgpbQ9``Qn9(6j3*%@MWY|uj`#sYM&
zA*wn?`$f~{ux|_3d9u8A&R#LHx~RG2-3rjwI`&0WJPX}c)KsuvE5(jxvU0PjM%5N@
z)-}Dz_y~sAJ;U2^^;za>6w&^t5_|xjbym5%VvK?2>*~C3IY%AJR&mc2y(2&?qlj*r
zPwtWW^)nlQO3c1VrS~2b67B<)&!6*ImHcZ#kBc8=<z~G3K@4WlsVgdsmoITY2pQyf
z;Gray`76ZF=J^@j$(LB+6`*}uGcyPP3#=x;rA6*@$iK?hYIRa<A*Rb4s)^@$7juf9
zHze(eB@+#<>5#i~S!I}Zh8;JxyS{;XoEih_9eFNptRm^Q#4aNrvhK&`I4Vq+!N~H;
zPMVOi<)90ALh9NPhBD&O`!8CXM|)aG79T~B>Y6zj3%~@GY<^VbC2SJ$l00u#h(#f2
z2o~6V)y}(1Gh}gdRWP$%^j|}UNyPK=DrC3D0**s`BzycQ_i}8ig%!k}6l5iF7teH?
zfWn|rz}vnT8(SqXxSR#e2fD#R<Li~z1n`}100Apw;GuLgXy(Up-7;1N-yu#Jj#N^{
zc}}Hbr(lNpN%v24TrQ&^{HF~KcqI=lz*CF%O>=h}6jGq{243K7iG{}5O)%WuJ&Y}~
zGHIYTiA%k>NWynmE)Bj80-81eZj$KMJ~BWaQ?~=nms-QJh33Rr3Ni@6NbF|n7CzZX
z=?TIVF+4I^!uPtlp>Qo(_=(-gS6X4h+-Rm4+bm>g+mm~spRgPRT#oj6K*;=@Ef&vF
zLNqnSztU4THuo!@^%*yJ!m4eOlwyNvoYQO+Un2nnM19?rlx^K$JEvWcpG1_y0_xI@
z)_Aww1q4?`)7h`K6G=Kbqe@1Wl2X{Nv;9jqwcgv@E4nfad@7Eih#1Y+pVW_1H8|0M
zs+<W8*>peVNAy`ws5AJb0$O`6$h$e^1cF;o)BLzkGdKD|4T8lxvMmXuO!?dWBMF9~
zx5Gjm$ByZiz3s{=0nlS=z`y}W+N=KnAV4s8?xv4FDA0+k3-#^57)DV^xPxG;ws%BQ
zcDUhc9Z_RcFCSn~5K_8H#fCepIG{2#0m87MqYQTIB8X(WqJ1WmM8HV3lzQHy=t4jv
zgiUozDd9Qnu-!pkWqW`(3pZi{YL(BZl;;QlPh`^U-4#U(rEnX0T8z-@3TY}O0>;-{
zo}JNy8Vi~~WH(P~p`orV%Gl9{M8GTsmVFsUhtt!x76yi;dvEZj-rjH73sEh&vV(@o
zH$z+$QegS=yVWPUYp!@qqd*~*!u)WU4adrR#!bTJwByQT3K5MYrEokP1on#yf0CN_
z6NBAgjRVR1CX<|-E;krVcGmu)n!qcpIYQM`F^xXqg$;dEBVqRdvl_0T=MvVrDX1$}
z)J2GEip|ta`Cd)RNo0~kmtj7do$fpvCP>6_LgyUwb!A0FZat{oH&5PMg`uO<Lr5ec
zZH$lxo2J}?Le%M6Sg<Y%O+JyWAEjvY_ybrlr8)6BG2-?^NkrBF07Xj;m~4%XAUh^i
zGzOIiGpaBuoZmRICW*g1sAO(YG(!f<H=>OO3)p3LK*>rjk=_y}U|H|DsM*c#q@VR&
zL=Hwfs*76>g`;4~dw{VdsG|Kg?wt1@qL;FwI@UwfI>4vNCefQ&S65W9G}xv|woXz=
zS5DSkkM5z9QDlAcsjKx3x7tDum{e8CU<nG#AKA|=)zN8FsmUqZ9m!79=qhUD1;N%O
zS!lXDMV%+rU$NBmZL>fY;W9}Oo=HfHOVOi&pud%9=^}xa2P&GYSpw`~`dtMjT(jo*
zD2kxjXIrRTkPX#q-sw%rDWGSbRDrh`A5<KutTBiMfb6-z5OSopERo{C<31EyI%5=(
zQB=?#M`BQp2e)KpXX+?7UyF0fv{^Z=mNZ|aXZJ=70ED3)(S%?GVF^8r0nH?F!Acxb
z9xrdI;7B)8WmOUk<tVkVQwP;M=%!H#AS4xEASKvGKX%^;CtmixQ9xoe5bLWLKS&&)
zV;Rb@fO}SAv`RR_a2GtJu_?{|%OfR1AEHMK;X1`32FSAUWMo-JNf$h+vNM91=Xn7w
z8d4x6pYpl4BIktidBR6p)=ZH;K$UYa5-(y9W>yYO)RlJJaD+A_<R_t9vU+p6QDcOD
zEsqMijDT*7bj%I8AS}>RqC!9ku92YJkgKZeqmKUTfT`<saeb^mu}q-ZIc7+_sI6lG
zyOl+Dt{MqxRa@$6oOZRw=-M8is;Y1=4gjhs(ak*V^jFksQ%>tMaleJs+I?+V77wxV
zwpwROh^$=Pk1Iz_K@<%ZV@12!GHQ-y+c8>SNy_%#TO0f>9S=>#1&e?-SIw1?x3ExD
z*Tw~fuk}l2NwHz2iU!zNC4EC8&g2C3>@B|Qp9;QunIDFI$qRBGIAqytQK~tuuq9VZ
zsmw{Sb<m#jM&onzvQGSeWGy42I6lWqQ8c`~gfpWKzUPvAshkpbzbTZ0@S+yR(QXBl
zf-_)6kI^TByDs`ICg{ou58CY51k%zjxLkKB4ee|FQk6)GLeMfYtDb*}fqbhO2e$Y7
zAV6=ZNh2tsWOD`kWfe@*xEo<a#;}o;WjJl}l5C_2hv^)Ijv+}P7_m_ikfH4AOF|xS
zp58gSODA{;*^(3+Wj_Agt_@4H_QDo0*ILOxvUzG?wepGup#aT^PiPm#xJ?Zgx^pm7
zB5aj|0F#8JmpDk%aGX2m<uH#!Ons6TfH(={pZt{I7*8kmMvcjg91t;uz#o+`YXHGq
zSU;!_ss_6UxgeX^s9YRRD5n8?VMP84C=vpkdk>Xb<NQNzd@Cu24Z^K+wmhEqRf*3j
z4li*2P@Ks!4$p-btTISW610(zvJw{`Ver1~%WZFj(svSU7e_00SOS`SfnvGY-HdmO
zjuH`kgoN{Z-pNKCz`ukGoIn=APHllW!fUVPC^qB^psWm(5#2S}?wVbGQwxuD=$#L7
z`A|r2gr(n6bkoQDq6CKI{*~FVJpEIxfI+>I0bzd&29C%`PmFm^0_82c0<o-XZ^^<!
z*Ix<eA5RHxHrtfQNirOR<s+_p1vT0~mdU4KIl?HLWL?F83#^=W`Lbs}M9F}ABXfZu
zW9paElK%jwKM9R<hA(dEeMv3)kZfgRwn^QNzhxQRFj{|P?_K=vNa@}NOHbJV+aqx1
z_e`+5S3J1fj#3gp!olo}fzDGLGk@@;Jo1`t**Yg8Ctu1AZ`623O430$$_i$i*x^we
z(`QCrP5`oz#lZfb**2cwaHhHL6Qpv!&S7!EVk#ov=qe^Twirf0<{NfNBKXF?BKA?+
zHwc-wh7G6ta-eOjY^P^jIvPd(o>LADuAc4_95ZsV3((vD0P>RQPTnk=?MAGdkht&4
zOOHIJn_BlvZ~KScH45Z~`1ndi_)NJNz0wz3>W>j#L_dL^6CQkFHPRjrWXH>%6C_Sq
z2X-liz#OQbH#i|ONqeVAi<nbR=U9ZUjPO3lNa_PlNgrh)s$u?P`z_F%nK5g*7B@|B
ze-<_>AyUJ8JY6rW%l@!_h*)i$?bp4DQ8~mDd?_6`zb!#lRE#un@U?-qJ<qZFsGlhu
zkcE82@SuFA_yndxy@k45bCnaP#tsl}dx<=#%ici%oGoCWsb_HRqIE-o#~<ZDJxkun
zb8LW>$Rw_)0C!320)A9hApVs029RzpR^)9HML8XjQBHe=4h5_;{uGUKN0Ja`EDVh&
zHcBLp!`c;jmA+Gh?l%My0c9MK=N1>n6Q1~X@stAzJ*=c|O_rm2I#w~{mXey<V)KGg
zP{dvPqhNyltbP%&Xa*_^fphm${{W^RAKhBVPD60pr-<Kg(tl-^!DppXRM_JrEe@4X
z`5Y{47H$YYI12MjYk|nZ_;irzo81zoDB26jC1_*S?7$+3{Z=<hVIj83TD>xf@_~iv
zc<OCZVoE`AR#i;<4`}#TdQ~)!A<iVF(zM33g8MBk3=qZzg7!Rr8n-4%$+9|HS8W(a
z!v@||%-d{PNEf9T#R7(g*kuV^2EvUe2ui{1R56&V#Qy+wZ=|~I8C5!f4V75v&K3wD
zGX5SD$CVr>0ZNF+V#}8%p6eKEij2H2l$8L>vXz)6rs>yAkMyZ9g&0N2a1tOEa&YBx
z;leZlz;|6>lzybPM8h_Vrj`PwAt%*qFgv0OCqRw0(iWp&paTg7b%;imCb}?Fas!AU
zb&`iEofpDkjICn0oYy6|Of4g_OoYZCe55=k-7fEyj3k_0Rq7w1%FX8(RrRBDN|r^U
z*vyWqNV=h#q1%WYElqVHk;GY6ze(o{Vs+SZt21>Qosv+FW!-Bn6;_^Ge`=|yr*jVl
zRkB$0_6pVjJf+!WrtQH@l2QU2Iy*uV7*SMHx$g}J7gaM!cM)}Aqnpap+~o;90VQV7
zMW)=*b$=e88E#subT81=ql(*CE0ZjdL8$4GIj7n`Wslc1Ru;I1i?2wkZNXF;j2rK8
zv>R+^q<C*pX(f{zHD@NJk&@x2%i1-498UY~RFm}63BRX%p9{74>Bi0#oyK%|{S7PM
zhcxrbv>I7+Z?pR?R2m<oaKfdQh_HT@=H<sIy&je<iI`fADWTWe6p(3vGYlWH(o|Bp
z&bHeksWj`iBaoo<wpnp9Ow$}6dtGTda*JW%9^E#_gjFmi6YUvZc6l6`izowF+a}B$
z?C=sty4Q7r>1Jz1ua)J_O|lQ5Du}~!;;Snvy(SVc6{N2Z2RBsugge0(<w{uvQ7APn
zUQNY~B&x4n(#g6<lzn9h+~Z|kEjyZi6qZUEL9p26g^bOKRDD5P6Jl|&I7B=;)&)~*
z6s~(Na=ZLYoTQU8$3_=hl+93ai>lVf3CLFZv<_s10bqe-V)s0+s>NJUfnO0LjuZug
z=;_Bc!V_<}lAgmvaz$`eZEJRdF0G#6)*JU!^@njQ1g|+bD~gwGzn3aG4i-#NY2CI#
zmFPVaBi$<+E<*FlQT##jSEzm*(wEA@)?IOVjVRcYSEJPQRzJ{f$tdY(F`N`ukEb}m
z(r?FP%}R<u548PP&CTp(0y;|9ZUXsNFv?uZmtALQ>E#lPAG*>})3~s1L9vuUYKxpr
zvZAJi?r_4pG=anZ5fqd_5q77?OR;4VZ4#7Oq=mB6V{1TElo9L#!q!%C&RDt@ZZAQG
zGWs_Q069t^^&OR8MKhk@NxHqH+CaMWF!?Etpo#R@Hn><DEBFP1ucg`s5zKf2dl+YE
zl+aUMV4dm&3+e#woB50@lMXT@-hvYo<vo%Wj1uQ#l||H22GYFz6>8_3cv-%wl>Sw~
zC6lBSj}7bR2iH9PSDI=j)h)mEFGlM<#;N4@E6ug9Y`4BaT=6@r^*z(@Vxhj2V*C~E
zlrI|wdoP&32lYV|jANZ^+mgP6(sf8*19rOR-IrvYqk^fkO}V4GZ>Zbys$X1o;iX3v
zVRNzyni|W%;6h`C(9lX;Fo_o<DAfwxkW1ZE*GeNfR`ZM%pVnAO=E_;8#x^{54*K>q
zo46<)s>BVq1xct~t|6{BRsR5&na1VrKXt_)Cz)<EX(iR8wVLE4lZmoisHBEQ8*aLq
zoJq!4jpulh&h5Pwgw#T+B8=wY5BYZ<FcH+W?s*%Eu>7k;Ys~)u>Q|;y<}-DG#?Dq_
zRd!BED_5?tfJ0VBvAap$a=ec-6tT;XqR^6&ovm$&E;w18Zd*0Yjii#anzX<I1652^
z#->4VlM0G<S(rz3{YIr!9Vk0*z*=21qXS{Mhqg_Y<4x0PsiXBI0~u6(XVvV}sof1T
zJ;NT=>c_~NN-;SliMM7GtF(w{qH!((-GEhH4@2wMgYv7j&0?!ioW55PoC~cN;jCoU
zwZ!7<y*XpV+=--|sUJrE9O&`GNf|8{BJ0uMfsBs80fmU@`l#ZgjBdSx)w57zng!Pk
zJj_d8&cBXBt0DvyUFmI-_U?}}#_#4AQAp;IaG@wdQsz2sDhr~miWZCVrk7HD!)$G^
z@>L9{I5u1+A+|3otN#GE$rZx%PyBS<htBo~UCs`2Mn2==R~c=>aFxd!mz9^umRVV4
zj*wi=Zycc{X73Awi8oD==E`x7?T)kyRkeVsr_9p(4pCZzj%=$U2iE$nl3zn2-j{QL
zutYu=ZMg`ICLd!?)nzR>*>l3?$&OM$Qc0Q8($`^F>GKfa6g8o(Hf~dC?iBn<tW(;u
zlU$-|si$LDH#mJ4R8$8x&EZqQAZQ*@Et7Y3>*VutW?Ues<5-kkuv+<FV`ZJxCzZFd
z)Xf2rhq|EFDQpXF1=luD10*BOve3%9Gryai((Pk+8?7FTLsvKsb8U4Nho>;i4S_4r
zG@2GNF>nI+{{R*E*P02<=;iV=@p>uX(jT;6Dk{A*V-7At*|G)(p>+sb={p03^e^$4
zlqn;J=aXldRySmYq*((t(%j%9I<{s}&gVGWD>OABQ0<ZBd}o)2Sh6&aLJrbnbtkYL
zqa_VRNF{#lnEESNDMX&<Ht6V~Y<K~!Tz0Ev6m|~<EOD~?07KQt#&!zAq2Ms(XZ2a$
z0W23NbFPadMN=bW1aKB>U4j7{oIoe#J5ki8gcm&Rx5~ivUs*B+xs7;x#xa%AgBDD(
zN+Qm1irJd$c3H&W0pVaIxp@PHW3Fp8dW__~#5VjY=-B5K_5Lm?V}(fZGvth=Xlc4>
z7dPN3-3ydOwmI&)QzD4S1G;VdC!7qX8v%fx%*QYUu05AClDgNz!Lb@n6s;%7Oam%b
zMo73=HaV^%z7u3{+Ek5*+l-aZfZMV}(6*BTmp2M0H1-I`#6m$8)#K34Kn`n$cucWz
z#!>P_LV?ZNc}xpq84_%ky@1M>b*@ReZVDd3V;C-{XScFeG;)!`*g=FxI^{$~(~0+U
zbdGg}hE_<)>}hR=Q%SQ_a>(Tgd#}o(fm9U}?BQi|r#}lj8Fj{0-k3?U&1j}2veHKq
z++7Orctj9(<;4!*ZgP?>BfpET$eh<6S2dZ=Q=ADHa)rU*-*y!_B5xaEbmGd+n}L;2
zO@8F7dQfaGR!mHhq#qd|a;AqbA1HA9c0^LX^0x}Ujz4CTONf|-&TN6|DE7qct9>v1
zjE>5usn76TmF7*iGuXhYHhI>gZ&;ut0N=7VP;m8~W8DVl3*PIpB&NmyE}TcTba^%k
zN3;h06%JW2H;W{(zdWZ(eaV}$m=-*F<x3t86am)moE~}Xu)e}W{30n1LItlk;aF++
zE*MJ6QGcfai}+R&&d8(W1zQxmBOgUet?GrKv=S_WCp0HeYJ`_Ht~UCtw6d8WxSz6Z
zRZFFP$-?S(x<`No)f8xzgi^$0Z~$DbXHV&w4s&jV>HRRgwZ)}wwAwKgV&d3IDF?Ci
zbmArs%11nd%5<)`2xl9Td#tU6l9^n1Hc?1i?n+zOVKkiE%3un@Y;dFwz6yjJ9#;cv
zo=|AS)*rg-Sv9UC+ywJ}>TJUtG39e3Cz1WqJ-`cHMJ-^7xlDo)EMPR7g-5DYdO+sN
z9amf|1)%V<)%ug?ak(}@Gf@3bz0PqPm0jN<<gOvoyNs(nI)%<4k;-EcQPDZ}$148-
zP15gcw4?N$G+14$Q>E$67CS}$i5!w1Fl?{WG{De3s?+j~U>0Z!-kz1L0|~WpfH?ak
z=5$986*OYtaIWaXcB;lV+!du5yF!LXXG|kOEx@{hs2zxle5fk!7^G5)*S9tZnjv9y
zGp<jJqNuywJLqm9X5G6kJYNYcI|Pn42~d&+s2=Z>J?!NrT!3FF873jz*<LEqE@>7l
zmuq||rm79OE>*P^tz$Co6*Xq0=?>O+PM}J8i%R`ftOmptMLlHoG6u98cnFFuHm0^g
zxE-rerD!q21D|WAbdGm7B8N=TC#kcg1O=*~(jlc~_O|H8h-umFutHT=5(sHqYzZ=I
ziiW_#8(=J`D=Vax<PI*UneUJiO^1bE_8r&=(nCfqj*9Mm%CdpD7Zz3UwC@*IkT&fJ
zThY@Pj$pa6lnuNj12#_KN=&LkXT}p;aD1osO?L+=8yu>w9^+&gKK^ivtNmu>21p-U
ztH6xYvc`w>f{km*?1H6n3<$=*8ObSU*`v_AiRCB>HxIf{T0pXyR6Dp_T)OxPZ*Fpx
z_Bt5ndwZaqedqQ@$Z&Cl3$3`7kXbBak1EavjiTzdB5p6;S-{{Li`a~C!d=)%EyrZI
zN;2&0pDApT`2PSY3&#nHA;c(OZuv_20sjEX9$A1kMF}Cs$BZT(;Xy4^8q@9r?yG9G
zSYvJ<pQ<SnZo4O~Aim{S&gQYE=Es{LC)LB`vu<<sN(D_}_C)7hRxu$w(L;r9!)B6D
z)it#eII)K+;)kZ{<st8h;1zE}(*hYcxtIE<qncS+kEYW#3fBM$7w%Q%2SrTc*Glkj
z@V3-+kifz0Zaxu)q6mfny4FtHD5yGNl+4RPx571)q5<t-#}-eo))^SVw~VT3b@!Ww
z0#DT|Wn+!9%38@|8$%FsSI^190oshyI`$zv7rD0~Cnj`5$6m)tS0nB-f0Q$WoPFn&
zF>ZKWZ-g9~(;P8f5QYJcQh{O0lmL*AvKBuShFj}ogm~pY?vnkGu+bCvQFp?f$|w0x
z7D_^2y@Gp9$6%Np=elqsgw2SMj{}6qSx9)zlN{s+NQQnnvafIkOB01*F!rD%Vc+fN
z!A2zK(B`yT9C$@iGR_|Blr(I0vJq6{-NF(MHW)>K&t%`abFE?7F~nlUN7>k$p>3Nd
zGyed)u4_qez)uVx)Go6PiUu=uyH6oGw>HRJNEa7M6vjEHDZ6jkO?w3yu}*--5Jobb
z-ZRQjISI@e?n+{9ir!S93w={td)~@Wdsz}vvNsDR+=8TWzDj5xJgj6RU2|fcg1W>E
z*d=a!EMYOW$|(TuaHOyx@}QBp<uDj6NE=G7djq7k!aAX@EW?#{!|Gb(szm3T(J7{9
z0nI)VvXoy2<uJ9^_K*O?Ks&#lH-q|?n3&zL$f>=zzu7V12N80lgu7;Lp?iko?L4k_
zwt5(tpxESPF6&$SCf&dHebSNxaF&bM;y@WqIsX9gt|VUJciRgfh;#AxOn+nK{>kRz
z_EEUp8}f?SjA=e{y5#2Tuk=U=&m}bpXA57PE++U$4ifzW#zKN`V7T2QP1CJ%auG8+
z?gyLUG?L!`0J3mxvbeVSSrd^PoJh${zIab_E%!_<99=pQjVH?CYjU~G$jM07k;)-T
z#rm$zmmjfRn{u$p2tHF}wXw=`oTGb%kCZCF-3%wnP1*QdNZ{cktP!DXLQe~?bCjeD
zl8|zl0kMz3@PeBz!ZuURP*QxJ>Cw+NOHRXXRE2<WR8U>57|)dQ;uE8mPh`wtxV4dS
zMtfKwVw8e8Ma3xdl&utm(j=BL2RtZ)aFTg(l2igy<tvSy5z9!K<2X%luuOE_$xym;
zd>$52VU|=q*z%fPZx}<#F(>sE3+6l@vZ9I4ETK+)xKSCe-so4(IW7t_Qy4iZ)JVDg
zh8d01e=tV~Kh8uiatdj#r{dr(NM3E00<4}}b;hDI`kTtFHP93KfJ!PLe=;`6IzZ&Z
zy=r{iWi|B_mgEZ|NrA%>H;*a_V~m0U$B<I<K&HZFsf_-DEQNJI+<n5zAxcgGDSsi^
z&o*0<FxOPKxw?qf0Bi}m>WUcHZ@im)sG_84lbfSy?AAZ?4|UfABfA?S;i3)6aQ(PN
zGM$`V3rN>xZ>1^Wb6}7j<yx4)Jm4qA54bpaK}yZCsnoLV{RAe6Bp?F97OoaG(dDD+
zo+;uk7mdGEY}U-5pzB*>x$u-yJ;x0{ve`vPOmgM|i;GXBck)}wx)y-jFwN86b7Guy
z$vCn7m!QX^Q@C6>eTt4vDWUdgHbT%$6LhKFz`}bpiTLB;Z==&18*6`cC*&I57(S@E
z2#h0iSwH+LSoCQC7ia$fD{$Ivt^WXT`zN*lFk?CRLfBc18d1;i&O6yXnpwCdr}kSW
z)3lxxf|fEc2kf<*qa_BO;B9Z*BO#)DY)ydv>qP1{TK7#f?T+^&>W3pySqvZmEqtl{
zHh)0<kvm$}gK!VkC#>HH(Y9>pp>H<6a<6pSeeNFBM@2JkFtj>U?F0fB!={ti=Bq-c
zV|LsHu%IE00C-s)HmSB78*i0=M)$mat1kZlAIamSZU&ATrn27TeI0OdvsQK>*5$_N
zxT*_C3~64jA0zCXl^VEeE(OXVlLOsnXyujUToA43<9W$mhCGs=LN`I-*HG1Eg-pg+
zDC$2!U6DXD8le6nCq+CV^>OYg`YEvi6e~3la1_XTW9=D4H4%~4DG0)H<%|z2ZlYr{
zig3DZfJ)3Ufjw~Ha#I|+a^Y(QgF}Mh!sWx2fIM)Vm^k_;TqZ^pCRbc8zsklHazIjy
ztYHf41nUHZEMdDsLcpJ8%NT{s366~sgoIriFe9Q-mXMAuOmhKR!NdXJ@P?Iy;HyVQ
z4`ek&dqF8>v7@53(6;#(Ono~D;X$cZihJhDx(#v{yp7}cQFG$x=!|(F+L{JDaH?xG
zkZ<i*P}jvE{Xt6UB6#E{Spo5wTFoSjkQF6u6pbeZdQ|YS`~a(}G}cLbHuqGHKsYpc
zoV4--`f{u^RynV2!q!cpG~Dd|$|!VyN%sv-<eCzhZ=s)SZnTh`1w*C4=<S7l2=;}`
zGVyvDQNdMpEf-dkD$1Tp*x&3Ke-ge(8sqwIlxg9^gj8+2f<6YYH{4gP8GfgiKjczB
zOm91GtLpTyZ)UAzl0*fDN{7+)P3?s?qb|l$YoihVjBk5o7f+=IjJ0cp3w#9(^zCi?
zE*~ZlqpKcS8Hs2b0uowgv$E1m#@@gx+R8^f8}Png%I`(xZ5i6Rc44_yHB-rxWuu;m
zabyJge(pvW1k<CQwo%1AuQtf~BbiO=Si34l(HPx^qbZ<p8SJ^#Y3!*}Ri`!0zS}JJ
zqe2^iF1IqoEN_)pH9H*Q2o^_*Y|YV$I(xSpw+Ky3PyP|Rab>rfo;Ct@g0fvpQW)1Y
zrr7Pm?eU{hK<8(ibp<;FmTif;q<k%J3gcLpbdDt0UdoQ9Z~?a-O8Trn!2|mQsj$8>
zf^o8SRQGo|LpYP1ssu`x-KAE}>zjmCLyfI;3+_)Su|^w!hm!ZYG0gy2oS~)w9|dMI
z9j3Gy#r&^r{4Itz7Mpm=@fsI@90lzE0ERUV4r>}a0=%!tUkwVh&wkPA;%z%_FNFHd
zJ+pA!C^~$(@U+P5V}*3-7#m^PeD2#V$rNAdkwD;fi=ruMZtRb;J-|5U%9<G3202d=
zY>qm1f%;Uj!Y}%4r2@f6B%y-|&>JSZV``0(ZhtsI%Q1I#B`)INPYJ5U=4dD#U@WgF
zi@U7;p5V|G?G%@`S5_QrRyv-G%10X`##@vIo(9lS_x7)$!5WDfI~d?Ekhli-QBNpn
zHbOqAg-4n(bSjOOP1+Kf7%_EJ$)=FmrokBlLvn88<f5}C2LOUx@$CguYt+Hi?k_!+
z*f>=h{r><i?DkCMpv7$Pj=ca?I5&*1E7xo!xyS{2ui^mz0I72Fo}jrV{ge~-cP@=L
z;hglwsg04x2g>?irCkH*SR-$4SIS?8w6B{|Y1~711@(_aQi$kTj>?d8m-;v-{EZVK
z4sJs4%di{S9TZ?P>Nx<qvZMw&mM{hEh&UW5;QcB`aI@?ypm~;WsAcrq&6bXHg0g*F
z9Oy_1GC@sK8ZL~TReVBgINbPCQ`DJ9wYCa^YC4Bhlb(Dloi+(rz${lTd=bYF)M(^#
zVWK9Sk#eSrCi7qtHW>iBl7>8+1>ok%DOybFia}KSL$Hi4Zp@IYF4+G7Q?iAt)EgTJ
z1eN7a%>Mu${g(LD&ek0fxNV78y=1kUuiaVd8jP<l*e&w2^{k$9ORiU+o6Gr?v{Eop
zGdhF)Sxvm7bXXW<8>}p*o`=1%gq9f@a$H)~4058amztFHvC@zokQb8mt)-F9X!5l>
zolQZE#{*B)tnEgdGw%9_7Zc@rSRFe#vgExZ&gyApZQkLFtImzp1tjfZweGI!G)BtP
zcAwb=Nul~xLE)AF--X>gu%0%V&j~dvJ(H#N(fL+;j|)c4a$*2&z*ruar*mRxwSZcf
zLq&k)e6D!$pXz$?cD8D??M3oiaVq9Ijm_m{w8l7)uj!-q3$2STN1!?;npGC^O@LCC
z0-9PHE>*rM$$>GOh)wle4a$<>q<ek12q?I{j+$pSa!-W)#lpb`?aen)OEk8yHu@{9
zi6AsBd22zrxj@sst&|&GHledSH^K>|vQKk~BeIi+Ewfp)(<d87KnUro1DjxOvzlox
z0`4Fy$U{R%36z?RBqeUaCt-80K}`2Bds>fv)fs3!g~`I6igE!jn7hIvo?^lai7C>C
zv?{9Fg4_dP@VYSEc7W-ZlWHZbA*3}^RZM4n_ZKSmOy|40GM&u?T~>J~H~TSERC+9Q
zg6Lce1(vf;sF2%pmTyga2@2WO)U?rE^0XfTeP818#||!2k-_9e$>|y~R~&80%Bt1%
zM+lrEXKqT*RrMeQh#|krilo#vipr~pNE+V_7FP0qIgKWvv2pm4yJb&NQ_rc_6S>DZ
zNvCM>(*Wn#lv5@)<dpYL0Ofq<UniZjtz&79k<5vh04mC=!*i7-RE}`?RN9QYK_ss-
zQF3QQT1b*=>t61{t*z7;T3Xv(XZ4L(!dx1D<xt11hs$Fp*>&LY9F?=5FOwMPwbr6_
zQ(bo+I9_qo+B9t3;4XPvw`vS~eYYi2>aqS{8v$~?UmZM8N1c{@`#g@ah_+h*rKP5@
z$iLZat29#g7i<9sE}qzh$hltRGN~hpnfWO}Z|Nusnr*kiT56Eiw$@cOKKC01NVXd(
z9SJ7^HPD;zRi?(bB#(s@!KUYhRBO>&>5<7?Tbl$!*f~)F%3+fh7TnobK)^F(0|_0`
z4UpTqNhT|>$2FiRTv|qXP`XDP5||x-)N+zAW*+`<nm`sd!caxmJ?#L6(5)i_%bpN&
z@`{z?lq`glY;Qy^CxM%%Gbh4nwaVb@CrlwB;5UUFuD!~L&u#*V(_GjEs>4Lx@VJ6|
zD48K6<w_g?%G44UjM+v-&kA=CLX3>&*HuF%HZf;s%D&Ra3YH)@{CySPmM^p=n$cK2
zhf8h0WFwAMgP7YJi<BIJqWDvd9qW@s4mdsvjGU?6w-yPOZTKZVh2<ginJV6xS-sU|
zJDSsQ6`T(w3?@Xf-2{f+*F@3+Bm|-3zjRG80zj(zIMe-&R+!=Fd~&IJqC@GpD>?^}
z4T7fXGXDTf`$d<VCHtPNTj8SvTGyFPfkT*_c?Srp*__Fbv>}aSzo0JIHAf_ruVbNz
z+?6SU<KYeY$8%)yT;ba&wkH-Ol#VBa&&oT(c+?%AZdZPF$FN$>#AoH)Kb1GpJ`oL>
z&KJd#B#?!y97eVxI10l~X}G^CuuS`_9W~A*XDLTXmQ!3rY_i(J9AC=S$`7QdH3-Y(
zAv8(kGolwc)&na;plL3V;JK#AjUP+(qy)Dd<!-cXE;yJSU@WNKh^>v%H1QN*?N(<E
z#uScoBW-}N@`aXQTt{U(9FBKbTgrry^dl+nb@G_&b_k;jY+UzEb&fBPxL>)#>t~ce
zj>$g>(X#!pk+!%Tso-yAn>7w(b{9zd4pifd5y}#-Mz9cEqQa0hM6G4-Wksr2F`(JO
zcC)C40vbZe)>b-VKu)$6NncaEoZSf<3*CU9PXpw49INdsOWZ*%N24H3GJ(${3t6UV
zz%XNkUYDf-x7m*CMNdT5$8gY*x+w^-ItoC>i-4~vVgaC7sAGsW*hkVg88=dtj@1f8
zp@0q$wUz^nqX`}mRhI!FM6?dhcvf`B+AI}Y04I}$Ye?T<Af%Y+pMZy|!z_snHc-^J
z+m$pHRyc#$luafZ<S1U&jFP5+v<_~lZb&8W0CEu0%16;G(ll~ab!A&we1u~gIr8Kq
zt(wN=Qdd`P_O~bMompGzKWlPR^!+jQF9q$w>5oSvn=9dpqP5mzU1fiy=nZKPlwazv
zwEZ>;Sb_H5*-xmff-$v+D_!&_XF(hk%m6e3nKeznPYSwe-7EZjsUu^Fz4<|<+Z`f9
zBj27>VV6D>&255E!j;IPfdixV+x(y&%Q)k@xN}Csm0dePaq^dyveAJYBF-3Ak&Fdd
z0kneZ&O2CGtk}qKZz)LZxMX1~h7vK*)52r^IZjCX0B_+a=&Gz2dC1BU%+66&M(-np
zFb8$6s}gf8DMgq8L|Y@mf|wnE_ER|gEg@oYBpfF+XDOh9G1)n{zc?uv$dRc)zhs~f
z*>*xkRWXkq+Y}4HxkgG(({vd=>+p&kk%NmXC_g}Qtzi2r2v4wZvlfB|GMeLql^K<-
z9HA;}SjL;UB}geCm&n}bvK{peZT;LTTHR(QUd~jNn#_{8`aqkfP;5zNj5}tcuTqLJ
za^Zifq_5YS(`J%Nsbw{NbL<-?)9|h|-jJ439Xp5zk#$v$yE!s>Jim!cHmOli`$oqQ
zRP>rvWn-F7>n+xs()6$flF)3gDX8Fv+hYMfk<RAiW3+yg4I$E-{Z_9}(jcd{(T}1$
zJ{Awq2i-$8dm7sWISa%wjfydXqne^H4nb5knze~*K_|+rp0;_37a$@$VA-Iltc+Z4
z{grgp21|zD?5kqAKIamr1h;}zWhQsx!xRr&6QnmJl>;Ey+yaT6#1Kzq8JgoHEg2Na
z1dz1tvxh3g7KrVSlnpz;e<H}INYXH~Vnbq^eUlx}g~jQvb^E0*aQQ2Z$hEmm?wxBJ
zEoK^TZURdb_Z$5a3Cd&vjsz&5apg?wl@YoqMmGNdvQeL+>mMmc$}9*&<0?TEWD9=E
zJER9T7x_Zi)JY@}mJzsutK@_+?sHr??x&vnc_CLi=0nYst0gs}c*}qTa5qF#mu?{h
z!Q2FOFdTO&W-d2D4|V}Q6L$})d)P7bOmt(-l#a#F;OqDMF1|)n7}3uPMl8aIUDiqh
zZMpKCE`<y{Bm<kI1ouh_93qe#6*@ehguo5?Qn93v0SVDJNR~U>!g(J|CV&97@AA6B
z!y#nIx)9?0CZ2PJ&c*I<kUUz}xG0!#<o5|}Va<x*Th7$rTYFfoVGxXbC?(spp9*&o
zW9>uBw%yS}usQ8)1zT_>H~z}Pab^`*EM?_dCp_6U=I*_Z?w-do_q&uOr+3vT2M0D<
zLSyVcBHf4FP|i1VfV!43X55k#7bWD~L8HGC9y^W_;Nz5l^K7o;9g-aa_qaInxc2uX
z&8!X*^TGbh7-P3z2I;QdZpAzHO*ip$$driQTn;P}0DGr8_PS4$;@uqF;>A2Sk#vn1
zPT*q&D-G;>0J?BsaJWt4);TMKh{t3GVwRoQ2?#g3P42!=_FP<TgM6%=2+)C!H~`qD
znBCkJ+s_wCx#HwJkD*PmHY1tvyJ@i{FR1<l%Hu1zCm%$1GD8R)1c$m@at(?{ACzp&
zjzgXbi1VANT<@G&HvNc9iMO&pH(UkOmmTs_UpcbCOlI30uC=peARuxsn~aNCcuavN
z4=*POH{sa@87+=@K|G!PlcSb$qFCMS9hW%xu}cwX2K=OwNCq5BN^_m;M!LreW=cnu
z2Ksw`v->B9)7tHst6Bm~WkioT;>r(E;NYmM>SJj3ygTlzWUV8ISge|$+bx|lfU)I7
zY6o&J-BP}~LxB6JUsW+a+@r|b_FcZF+z?bIpq3J;T~kyY{@J(DIkU<~y``vF6$i^H
zxw-Aahk13twZ5ou=R5Ti_fo{bN9q?tk+gH7k?k97Pt`!`Nys~+HXka%k-LC#**r2}
zEE-5l$$+U859EgrDppY20q+XQteF1*?VF;Yj%!@Bk2ecjF;>b)FyY9E>Et|E{nf|i
z;&8|pvgT>=lXj9m>vnEH4T5&$wcljzw;tf{*;+?J;r!11)U2X611IVc&@Hl)^1<UJ
z!|D`~>16ww;uZL%EoS3l6p*olkQU^<1*TAcr_SCVxP3TK%}G`N0N^WDVvXDpVfIlN
zT3iMYQm|7qP{BAhaJo8~k~9$Dt_?duy@A4n$F}xmma{a$L);r+RIok!h186IyaGmi
zB4MO(AdjaD8IFOZk^RxJ5G+Uuu|ithi`(H&#)i7vMeLM1WYNkS!jO>rc|$m~V6gd3
zeMD@@1S3M(Wg7_{)S<Q+x7|`Yy`W*`4<@H$`pVo`O%sb-%8FT-8^9%IovOGC2jLAS
ztncbfpxCCN^-S$#Jk{-JARZQ8O;P=>hc)s)&QmBbI(jtnYPP+e0u|b;iNVUwzIh$r
zl^B)xCg|`QjTD-JBP1yQ0Mt*FL|p4$_f6jK1!V!O_P80eg03hFuY@>)?ywvyEiw|<
z-o&qm`0N&6=;7oym9EocaR9mY3pb`Q{@V)$rPE-Q*6_NqU~Q^K<Xuw4!ZDR$1Pmtu
z4MR%s1`4u@DFv*(Tv+8FLN{S_P_$T^D_BE704nNOUP!vLiIxF+*e<q&WP|jmY8&k~
zL;-~qzof2^8I5Iz<wK*AB;^^c3>9Cc5+^}+D>am-*byM1X#W5}MGg@P=x|(DF6^*G
zJf^$+r>NYN$6a;8ZP#2SFy+`y!c~SB=#(A`Xf{eXSW)+~W8@7NB`N(Xzf+aWh>%fc
zCYH7~8y5?uj<PrZ05D!v)_q4dow@foS-mImG9xa@B(d+6FO^*l#h*YjX1ltTj|<B5
zp1!1*592rPR+fjVDW(F_4E(24OcZQGlHF5NYS739o<DSKb#c3g1lDQ|x=Ud~*;+>_
z;o$Iy2avkh!bT93eO58qT$OPH!p0gvLe(^SXXuL}$ZDbND;V>hyq(a~$mZVxc#Th2
z&q=7dH%LW__Rqvf$)l9;EWS_cTA3l&BmkAmG@Oo%ZKQh+k=Me_23!5sr%mf<Bm;DV
z_g^nZsy(?6Ar}Wx)I>pSuCVz_!|1Qe_I+hX)YS8k8zt544Qx_?cLnlpmDcqTJZ^a(
zb+pib5(y36DIZd`$|1PO`aO?{;{+!NqdkK1Z5OZU<=P!6{noQh>bhyHM5Fgivi+Ik
z`ZjRF&~ao)01PTBEoLbIv%&kT80#3}`hqS=i^ZZ@&I+ul=NzMDnWS=tb3@J$gZ+k*
z&?8($(<ZAe7P>B24&P{1HI!30;d)WZs*gHYn|4i4Rk{4Dniq!!o2I6cCws20XrAG~
z!sXB8@I@hx%Y0b_Rxfa-5*@iJ37viylbg)6bVnU9Q5SNeo-M-x642*6DrUqjmE}qf
zdoQXeC8f!@LQN1K%CwWj2;l=YDR4Nl<(lG2!r7UtEsr*`3DuFd_OiIt=<sl}lhI0F
z-<88TF!5-LyHYl@bM#cTTDPQb>y>pa2x~pdFR#QIbvRF9c$|o<HK}GBSS$+7YW}3G
zbDVCiXei~HOEepHR+U;Up}U$mUWbn=kQO7yHI_M!Cn0Al%ZV*3f7X;@89lAXb&RQn
zpc7^FzBIXGOq`W6lrhEkJaD9BcNiE?lsT?F!dS(-s|!GNkpQb7YvT&iyx~?mo_nl<
zBhR$m2Qj)TPAp0iY#)Vyhfv?u2Zii^hEEMGzc^kyL;mo;mFpje6SO^>hyi)tdbkMm
z&wJ2n9${!07FMsAxAiy=s>tcO!(xT4iMMi*^|dp*bIupeNjCogR5Fzs*e78*a7MPS
z7B=p1SZ8VviNC8TcWRP5mz#VhN`U0e#ZIWfhM`4E<tF83sOK{gbIQJ>2Vk%_Opv^r
z3~SoK##7_0aCMI!5OcgVWaTA0T=!pTvTeSBW`c^X#@&Lv)9XFKWY}K8W`u1Fl7|bM
zCxo0?OFa&Tux%dXYpYqem5rmS+6CQod{sNSE76acDx@AI%#(VD31f^n<pob5J<;%z
zcwHD<o3mO$F}1B6DPpzmhb6!$jLvDvvb&p$HQ8z$(A7iKbuDZz7vv|;s0i9_R!^w)
zFHx=m%TLUY@kWFjXPb4q{Ys~OO7lH^zpEEsht!YW_maH-0ABqrRmR^Fv2{h?;a1kx
z$9sOY^+!s}7@}Zl1lzLtKk()8{(Y@7ZTByzdNI*{PCcgh<#fhWsPm@3V`UTfHp#)a
zDkwinA+`ZJ105K!Nhbw4q!f=ASl)qT$SR*!ruCa^E4cy^p@6L~=qSxMNMScEzu8XR
zIgA)+R~v2FM&_<8u$1&wG>U0yM;1^%0tN+@)7T1$@wdA3C*wgnDx_vBVsmfGrKpAO
zCihzE_OJtts!2z`i{*Uhn~xN79T07zp_+c~Mbb&8jkemZFR{6>2uhl(0va#!x#c`*
zQbDFt)amSKB!H<k7#P-@0I#bm0KVd=H94H-*{vmWw3{9*psjQ<G})of`YQHOO;;xE
zgf&>Q2_>l9@o$BDMGSDo?yweB<;4=3vn@WHAdlQLWl2#hStXj#Y_!__Y#^2gU1aJd
zYo#O+lrhQ6vTad&rB=+~&@2Mi=>W(<dAa#mO)2HJ&K8z~R1nxb>7F=WLq{w2&q32-
z0iw#)pn$TvKCv5sxmqeZrp|q*3%AGc@wIK0dH#cA7dX1<;&#J}eNohGU>E?BihVF}
zyO(tQNX8$i7Dp$uI~yIlxkPMnZwR^B8yrBgh0eYQ3+HlTZdA_5x<GP9Z^l$Y1ACB+
zdCG!W00+8;M4&QuSJyVoIaHI)9B<@Z71R|nMGK2TC3*ctWn{JEakFpbR|H(cRIK#9
zHl(;V#_HxNBp`CLJu>0wvvIx_q7iTwc=<X7(K94)!fe$JXt~9bIEFWsQK{6D2n8hY
zHP91HlGN93HV(28?qki|LZy~>Z|<ays4!jFRL6o)R>InEMZ|4sKG39o);A`~iTcY~
z?Tw_LDhKN9bMGvJ>2y8x9xTu@rc3RO$LywSCV08IKPWv8M%1~xZDp#ZrHr&(h3oj<
z6tc$KIj56}o1KquC`Z3;30f^wQo_<*BX8IPm6@HwNeOQSa`}EdaJo*)W1DDckht3T
zQpN?cnG^(@l|H}+%HxY3Oa{7O)|(ZQ*6Xa-3$13MPUkR?78|JPWNzbQZp*74B_o$M
zR~4fptyFr&%?|E@rh@JTttZJ+SBHtL0X|V$b?h;o%hHPB9UgQ2<*{Og?QPw3_J)p9
z)=t>Ry}*1R1y162fIg}5<COL++K!3q9ql#%U1xO?E<iU{b(6Pd=SVO0S^Da>0&QY^
zuSXO(kZcO7H$B9Eg<m`y0xD{!y7o8-8DzLOE3zg)Q;-joBi>2>00_BTl6&1i=#`Q%
zF)p@pnQY`K<Y)myY^*Tm;?`0$obaK|(z5qTVqyWxZrhV$ngQgc4!3J2LJlpkzbXky
zPkfm0qd6R-Ln1w-<s;+AWgrIs04trg*+m6{NC4pu@&_43OfGN~1}782Ool+kz?>&U
z!s3Z#Avr2h2HXs$<ZB>oKnvw5VN;envW`z^&nTl^kd~kPE(72$FBjo3%loPnqFCE^
z3@hy&qS*^N$$i5%SDHk)0_kUM700Gs$+R-yD#<@lzEQF{#fTXicXFcydNH1cJA}jV
zo>**?ZaK=OP?DXFfP1X1DF!XV0-3qxTEM^=!f5tGE3{5508fnB;|e@@QbyajEBZKJ
zW`j#{EX}fo*IRf<J`tKsf5T8~jQ$Doyv(|p?D)&|Jm*nhGdt>me0J=uH6i?G0b~n@
z&O+#fg`9Q>S@4=$VT4PC`B6Ax;Zn#r(F2?Ck-w=*;qs&YWW?A^S!(G8!SIq3fVxs_
zu{1*8*UGliYzskEO#^lnrj!owK2|7P$^O-?_f>|RzF=%}uHuNfflmb%Z)KoMAl)LI
zMg}-nvCXxXLdOteMU%zG22-|5hsg5mT|xmjzjWsknhC!M2IyN0Te@*zT+4HwR}d^k
zmI&8dzdr>t!h45ckh8hU#ug$GECX*KpvksRWd!wtHW6?F6kzI_mPX6&3o)!}p}T-`
z7gyDQ+}62fYA1Zpxg_N+Afj5zmrnECT`e6MmDeDtH0nbk1dFY1jiv*)2t5r}0jBAO
z!`igET?X3?xK=cJcxwl@D#DhVXyVpO%8Nr7{XUorU}0Gpo3QemMII3n3pcuy<!4l5
zK!KS=KrPutY~4)&Ja$vNDA6I~2r9vjct;R!gsg5c${xc&k%PEny0@bq!G8*}AW0pS
zttcCAmTaO#!vfY&)Z1#6#@V{BuBd2lH%S!R1f-$|P~Z*JOsEV5pzA9vY(Cad(z2qY
z`$4hzU66uHXAVr;&`nKk{jJIHgl!#7WS^witF1dowVx?gjC2&uvu$vmm!qAw%8DHV
zHVx8%j&mWV8(0883#uzz{{YZ`WE;!gbKNx=CN{Ep3w^FO@pKR_F3tX^sUmT21wtb`
zye(-JP;8Q&mvF+cjxaOX4@$xaI7WbNWeG^MU^3Xc>k^z-3?#CN2wUtpRnoVdD<|Qk
zs@V;RK^99yP5ol(#xw00u<WZ@mx1!EV+U=OJrR0j%{B=fR}1)E{HYkxV+qd*9gs#!
zb*_=$q@^6GtG51lLx&66*$9fDH)Quvaz)i*PH$z6EvyMs9H^+pnm(9QI^bivR`vun
zqrz5^!f$?3w#4VU!!F62&O0t7+k}D5x5|!5fFGy?m1Eh`k{WN}S4kib%9f(7fDyS>
zR8)sF>~OlQU`kn13^i?M>Uxq*UMS<s!phcuVnb#){fdFQMxjtZFOtOhPx0F%{F*N7
zb?`1DzwWBvSyx!&>9xgMX<Z`X8u?t}etWG>ouETb&}`eRqLCTrl#E>tgI7}{OszIr
z?JuUOqibI*ZE^BKx@0Vl&1--vR=hX$O3Qs#<@8Un)Rc75w#|j2-w1;fE;hEvFV007
z{b2pnH5!`$A+9&<ivGdHzKb%z*52eHXQ*Qb>dL2<zIiS;I^QKiT<2xZB_yPD<H3D~
zRMp<$w<rk%i-{!t)R*91$*#EhNy(jY!x*9mH@Qt{$>mCI!jAU(r&1D7rYi?@@pRb8
zBjHE@Bb6z#`1B1?$SMazyaElB^=-n9tTq`aMA;e8!0_%-ew)}X6i~Ir!zjYnY#II2
zGH@awcucV;Dnc-mzD80l9Rol&;XHBQ>XdCy8*G?X$i=(&OnAk(DpCiZx{crwkGfzH
zI^D`=esG-oT`>4X2*h_bO4G<8Hu$x!mx2Bk0HwqFKf2;YvItCbkKHtz43&dpX8k!q
zF#iA$-M2+dPRv{(qht3HofDJMD|T3WQB>`1@GX@C8vblibhqx@c1b2KGD$!LSg6Ry
zDrsy_94Op8aHZMZ6`{TI5`b-Wz;?1!7*aT2!hdUUk%1|>93qUx8C*q*?$@$MCqgkm
zO2>hY6EB6>x*{=5#`nTOGrkgrG>!srjke<mr9wT8G7>FrQ{fh10NkZ(8ZHyVS}+!2
zNL-HPIi%p<?vwkj&Hhjsq0W$I<Af}(Y0dk0QokqMhLrd`CP<952~_WC&6Rv$Z^^PU
zt049kK(IB&#H&Q*lL!U3wZ*;@n``;PAJcD=m9c<Do>q_`_E<F9Bc9wLhEE;S_JGVh
z{S;v5o)lT#i$jI{lkk<jlXrK&{!@Xm7)o4FbN5SeYz(H}_)0!IpwX=2Y*Sisk@Ziu
zdnTI`%E(8tq=U#IG>r56r@H(kw--Irp#&H6{gVAx07h_=H^vWi4P=aIwn$EEO@Jh2
zMSkb9>+%xQ8t8dp+AKb{O)M=O8>ZZYg1OH5DY${iM{$r-JMo02*GX_wr9wF!fN(Oq
zw}gejcNa?8BLMDj81A!1=7c=hkL;R!1m{Z^X<AB&&yLt|KSHtt$b=&NCfUh%4scT)
zD8AI_pCrW~_QGYzDIG7*3MWV}f;{CiLdrzD{{YHk<*>>YS(*XL4r<WSZE`|%k<ToQ
zK1p$qhA(dHj1^xkaq)!%Yg}FP@|cU2myw803vPR-I*u2MhP}W3lB|NU*B5WxD>$Zc
zXaFC$L9rbJNv5^L?Uq*m0C1vylOS)lpxeO;(kDpg07eyyTNcsnx%wfq7>cbfq?2M?
zf|E{}zpHZe8KY@w0lfSw*{Q>vKtkW6bYq)9{2SRy+6fQoaJtq-rAsI20^V$<W{WQH
zEp*1SA}A_G1<CrSeonI3!rHSzn79xECLW%h`7FQFlsg5ONNDOw0ze4*BU`7n*4-7p
zY`66NJO)cmzKVbJYH&7|54b_IU6?pDSl#+dfj=ntG#L%H$nH40*9|U~F2pG#rh%l|
z{t6s|XQ_I2pyW7xY>0k{_Ou5xald7xh(gg|@)tYPCc)PzTLl@WXuuDAM+#W9$l7cg
zTlZQJz(ybNQ(aE?3=l#MvlPQkZrnTjraFPZVc$h<H8i5+3lD@8k<8PUxHWFVfQ38l
z?z@v66iqveN8BTvcDBw0A*7L{oc)kUH9#^Jhu9kgf$eS%+kB%o#Nm)H^iWR7_V7Ps
z>*&_m47Cj41Uu>*VS+v`mPRw4-H^@z=EX9K7m!P9fZ%<ThNSKS3@{tqsHNI5WZV&x
z*=BV=l)<T+-*Hs~H{dR{%5Dh_*=zo&>)1P=DjBsGyT8=|v>PSZ5m7>qbySW#9Qjc?
zN1jSj->ORwsx)Dq?>7m%E^<jKLIUH!M$JP51&x;$=Zh!#3y%Q{HxZWlt^>$U9AmQM
z!p(++wm4n1{4Tg%Z<Gw8d*n3?bb{P{RrZ@CRt3ZbkA^oin*)SpEb=kKmGO{rk7$YM
zdQ7o6jkfxguhLxr0^}0BiicBsY|(Y5(Y0riF5_kCc>YfpR30{Zy)2QC0J5=xjduVn
zR*|YQ!tWnTttA$z4TrcdXBJ3FSgkVlHUK;+m_n<MQiT5iIQ`V@t%&~sF#Xq3YtRF(
zqmzS$6KWWLnRJr2+@>*2tdD6`I(vwp?yR+$*cxs^r=pprqaIQ&!1^{cB$fnYI91wn
zuE4AqaGWTT%aSDSv5q~|Zcpr^a#mrat_3ia!s$jIadfGHIb#k6=|TR<mkGfC0A-9k
zoFFwA_r_7fgvl5PAgn3nU1^~@wU2Jq<a)<J)G}Ad#yDKu5Wb+Sq>1<3&{aiFl?0de
z1iu;$v*oFDZDxS~019avZrzlWy8gYUxO$Cw1HoTJS9HZR*St+XWt`Od8k#_M!~yMu
zj|sURf295<RK!DOE(iYQvC+R1Y2RS!fIaf5bzj54;O()6mehJ8ss|GokXwr-ag=%w
zB+qivy6Tc(Ejxd8q@n6Mc|f#-J_`9&)LP!2`^5P%<rPWQdd{BkCiOAk;T4igu+jCc
zKBWwU4+rjxj-`&_!F<c3ekaJn8z~_Ct^WW__1h~;S{^|@Q!J^0qu5&@JQW}}S^XDK
zH7p0pyolUgSW-tQCmzzLzA~bh^sHmg`u084lK%komGV#GEg>4q-DAr82dx>pnnBJA
z`FHUim<>(Nw*_-ee%5qiqs*j$gYu#gka<_qQvz*ox`@(WvdpCw4ZCutWl3YMFi~%!
zHvK=ch4fDFZ}eKh#44LtsfdEvTt4deO6vO990#c9TjgZrq>xzIOGil|csU<soit>c
z==Oe>>q%X-$t}L6dJdV^Fa{0skKKIlMFfzv5J<Y}-CnAZqin7pbr%PEE~Q<cP*U|(
zG^XCDSF{?m5^(mPy7>Z!tSe%8CQ@zOtzL`xg*<y&=^QiV6r~V3#z)mq)kPrWDZ?X^
z!tmam{6G_J4wN6d^lb;IqpE9t-`zLQ$Fgn<(W^9(oY*FMA*b3GQ`ScIgSaXEM!7>S
zSV;*~M8<hdb4P_Mi25jGk)W>&$<wjdLb1708vunh00VM|matotvGOSb!yM-PA?A^w
zc|c8C2QENVSNJQNHe|yV6<M*_HdS*%9Bcyb%?BQCh>Av=9#@>(li6E95>W1LLZj5Q
zc;t1<Znbkt&@6>?ZIIlQG@gf2q-Qk!C6OEL0W)7QQ_~Z)Tm_-2ba2LYjI0+|)J-EE
z2NvwFgOsL{3Y1pa<{fKT*(wWnWOi7pmx~Y<gQ;SaPUpVsJ0m-<xbb7h8b=i0DHZaM
zaluVEYMwv?iiTSj_`2z0m9?eD=p$rhQ7$(KM}>?+{xXD`!51Zf@PwB+K*v(L(gM8;
zq9+ZJmbqSa3EJ>}R==g|C5`O#nlIYxm&%RAl+Sh1GYefI4R6Y@pHPK^WNrkkCX*#~
zQyOG@t>7FhgB#&x&Bxt*?Bec;-4=CKjRSMt_PPoh(ImDGu)3kt>twr{&}=-RwCUwC
z+>_6AI5w=-+3GqBky)ghm8On%Yz<%w&vYqXLrElk*4IpX0|9%Ig)+)GJx7N*9UCKK
zZG~KGqibvkNZO}Ja8<6BhDysP%HF|rQaqn%D0mBSTyBnxjkw3kRU3OBpqL~r7ju!c
z^^F7#*HrGgJlRQ3_D1kYRDwy0<jsbaC#XWvQpfEWSxo|P=KvPMj@t#-zvDqTiFQ22
zal!(+J*_2Lx$OZ`>h%|C0ITJUR83}QRG!Zw>ocmz;?lGgz&YmXn!YA%CC7#2M;uh`
zmBlw^3tM6L60m(h1)RMHs7Nk$-U9Rfpcr-6rw3^6T>|uVQHN4)Y)M~F{vB8PlyThh
z7s;AL#w|&v{nyYRhdP`804%^>N>?s2I5U4E-RY+rMnWO7ZYw9H*SbIj)`pGcz!JK#
z&yg!FBH=r-WF%QR{3?4J(G!A(MqLwS+X3u|0G!W+JdL&0o1(%Nc)3X>Xk^OQyX=RR
z*eIHa$UG|QsRJ58UQd+c1njg}4RoBU*$Y}X6iq{moPwxhj|=5<C^<PJtx44aR7hTa
z5bun*SSh6ertUVf2CGqIK!y>2E6>SM+Zj6>H6uB7kJVPzQnkR@p*n3!HiG$N3bv=H
zX~DAqE0yHr$4Gl9gI&7WRa)$`M+<{a(PTrl!tg^IV5l|9xn^l4)(Ww?YK3VT9bT#J
zncnhA=H*pKUAA13Ps(<%T<M*#6O~xl-q(jojIT=`6r-{dYRz7sSm!iZUeK}cv2xAm
zEo_be8|8Wil}%0|4ts#Y=F2A?BAD>0_Crf7uzrwA)9AXS%>#I_@pVO2JS_Ic({DCW
zL0Cbs!dz35*-wU^k4@9{*y3(%Pt_Q8xhgE!`}kNb7(S*@ELWp+){fE|_cePyE-xd?
z{ce#gla4?3Nkc_FQQYg;t55WMGa+8lQpF1f08-RT3~`c30C`^IKN;iVhwP4jo^oar
zRHk(}akc`d6J1^PHESv!VuvHSS;sW6<lTIq<UDMA+sD!AVUuy#F09tQgmSYk(tS#u
z<Nz+TI)tT-H^<dbO{&JpLkxqJ!Hy0+9WB~58Z|p%V?fHihYh(l3oWGA#`d<(xjq(#
z68TyVKw2~4#Ar&na6>^QS4m4e?*5RicC;G-l`Ji2Hzjpo{{WI(7FtDAdOUb9_Z1yZ
zl-;JxS8~-y5H@HfS5;R@Ex^F=yRzrQ2-j?kV<zmv^)xjwu(q9{r^?1f6?>}p%Ojnh
z4-3^Rsf9)NWmDBrK>#idAF|<wMQzb`v@cFpKAtv*l0NGCPNWTP#yQS+fU%8iwG)Ol
z&TD=a$ES377z3W$lx5~PE+`yP3~sKkef<&|e5)vE9TP!#%DZTW23d`0Ra%{MTGO?8
zx$`&dz>_#I+TbpVXl<7TL8w(rB$#nh=@C8eyNOi8ZZ^ouZs@w0i5qCzPuXVm-8xAa
zcK`y|Q^#oVE~>S*9fXn>Ok*mvE2`P#`n>~Tc{~+CS398_TI(&3P(<fSLqRwAS;y%z
zO6#~2_FecJuh`+q7T@Y;XOYL==Uky=sh5TeTguZ<qC7I?ijPyJ6u_4o73kr~7tzf;
za*t&#T#{ekCGM){b&qn6s*#`@D#_$;V!N@elSpH(R1#YEwURzxn;~S71A}$h6dNXU
zyk!k6&fp6sK4aSnt#gki>CIL+ZYPYVdPL^Q(UG)WOds%-n1DflqT>@<5g_&#QMsna
zvPl^Oy`B_L@B*E~i`_=+eN#kY8y^=+8Zb(mVLhz5%&@sy%ntltggc2G@`;oJhJPF;
zR%Jt3e+p*Uc2NuqrQK@}l+<rw4Y5mL0q~(~&63>nd?J9yJ-{I*JFj3AvK}&_2i<_3
z4v1X~i14A32j0P1v8KtAFkAjpa%W~Zr?RcFKXyr1x<oFx<pZ<_3@fc9Hw#KyDHz2v
zz{YlF{2-*muB@eS^zC(9DFw&Elv6tHDQJiSPbscv$^FyZdnP&8$10Q}l0>xFcPi$T
z-HMi+66J49EZm%?k7RPSS_@B$^#k&w2m2{0@3<@aJonkA(wqD{p|$g9Pn1TO;Mjop
zKy?(K!mwUuNVhZC!I4G=6Hz19cfmjtlax(<<0&@ohS>6Ox?=)!&WPMcV|5#if$)hC
zIQd-aQl5xBmI6rnDEowe<#TRIR#N8nR3_v>2*uY*({Ad<8ekjQbLrYa7YJCTK-{gg
ztCxhx=<e$)ohpO^9fhbo{>yzmzR~{xD#f4<0v?tj8%9wK<H<yvosQZ$Tw7}=XO0pa
z3k86NIk>;dX$IoOKE~HgaX0hjV9=mri>^QAAU{-~w%_uxge?~0_fg95*7jXA!J_x!
zQtFz6Sks#!X0lB}wXp+ZWtY`8N4${Nk`x+_py`}IIQpO?iPF3hg_?%B(oF2!qo^oc
z^K#OS({%0RV3n%Ubdh20x>1s_9Vbl}Z?$Xmnh?-1x`$6|EoRwXQ9v31vPrr+F~edA
zLm9%40Glfr8~i)~f{~|xWec`-MkMrv;|Q0Fw*8Q_nC^*r_9T~OB8UhVQo!4l3BAqH
z6y%_o?GG)o4zK_+QO|dqD*D#~K0?Wch#Ek4O^UFFP#Mall5pPlDWb8?8(Wj`sll>x
z$f8+RR<*4;vZAT0mT5M$BjKW!rPqDKN;$f8P`2f_DzQo@4qUEGuhR72S>e)K@7ZYK
zhMJlzY~fZp&S~2o0%V2cdx`zkD#-B+s;-P1G=*IxhDTkcN3@qIspHO2a!9msjg6le
zQ!+I(Bexh&4YHi4W#Nn-R#}91AqYjC{#Auf=_m(t!c^IAG*3^-MUT>hr2SpdmcmEb
zsNgfkQifQrOSxktHNxyFwpQfjSjv5;wiSEwP1aqNeGoFjQJh~Y&4rsrY=L82>I|b8
zEEO+DEW0MVEC5lu_gn{Tt{@)i8y+fzx<`|=r2#eHprvIIQB{XoKnUKas~+-(2i=?D
zQX*t@Thf8)ixl?|26BdmK-OU0M^RSRe>eAAizeo%A;b>qC)6}tlBufoW-yx-TQz*s
zn=^6xDlBAWpXkt3>P%oh;Hs+ieb`}9Q0W!b&j;Oam7~(SI0uJKbMT!-B2voPm1wN2
zeWMP~fUUItn$%`Hjle!u`h!QMrC<Uk<KZ431Wn)tx+L3XI)kO;j>bR_m2XX@#|Qv`
z5w&`ZF^oI~PgksweUAs|gV@OzA<;z35&{mcz7_+u?fWd``i(?{`|N~tk8$@rlvD;$
zEUR@eTtggCUz?Tr+(&Luk7+LFDoS=ZJK+};knmd$itjfU`O2I}kCh!O96pGy$`X;=
z3~GqS7Rr!V*+x%rmhLu4*+i(2Fk1IW;hbF{F9Rn1mlJEG_EjP$@S-4>6*Poj=fa5c
zQ=)AO#{Ahx1%<dwZT`vQj3i?~illpNa-nY4fTpOrjh44$(PHFmd@ljOU;Cp=fnWgh
z*$ER`ToF!a48qa`M!S%hZn&Fv`=*y4?tw-)0#uDQ<R&n?{{XP0U~xG{g|QECMiU)n
zDPjH8ayH$Q8o}L*@R~@rRIUQ&0_rDQfHJTU5baoH&Y?wUh_z@Y_+KjkovZ}v{_
z$w`rp$fjmTD0bU<QPTqFTJ};(;uvl)nM&)DQzBAMf?FBqcL=Ixy90RrknASNs%~<U
zMuv`*ZFP@z5g|)HU&4vQJSqD-BJ?M;_xq&ooChgD&(#_V5xD!Oce+q=mf>L7fa2Co
zwo~pcWWq@Zp&7tilz``ix5q1o9up=chqBqRztK1W*x57?0(jvOIvfTtll-N(gwt{4
zAjU(lj%=5An<%bNB{A-|b&y#sju}G9w%5W*p5xphWDYnAi07NKI=gKkpP~|(t#qe$
z6RNl8k`#1UlXI_vs*Y(U7qNrQ(y}qRI2fJZzX{A_W!4S={ZV@oFJz8onSRzna8c3#
zBCvJP1D^^KJMj)SBPm0Tt!t*=DMw;5mX3xz5!_`u?YFg~=PEq+Jf{m-d?7-d<Kd?1
zo2)ECk=?SI;qZz=v5tMa6w_|SImCX-Cp-?{x}u3GN{0*a%1fU=Wf_*=%%c;u1DqyM
z5#>lHcq5g<Kn>3U1nQA%0-}9I`=jyLuR1N;EMp`Bk@LbW?NqW<9@hivqIB;(gZr$p
z6P9#cK6pD_K`gL~lHjV1N0L-es2g%G_e`K8%Y7CS)He5O9rC)?x(U?);DA1*K`iCH
z&+eN@M>#O}Joy9VMI*=ckKI(uRWUnTypzR+)GwB({{SPuVzrB9!Ke+fYySYcVXk;N
z7y2qW9a3xqNKFw{J2!CpVFv6RpQc>Ns=d9+9ooKZ;7CBnNi(?*K1oxyk;1^S-?G5w
z$xf>i_+$R5%y+Ea+hoteSg8jkw)-n8I(hA8xt9L`=|+TdU=5}YAF0jywHZaE#`C!C
zKLlA^QPR9R?u<EKY0$>oe*(j~2@T1VbUHyU7LAr2tgk6_mVgVPVzq(@?h8Xlgjc06
zAY<V*fUFu!B;p$$=IDlKklOcn``sSVQr3gCpPjc*PghveV9)He(Sd)`STFA<91x%y
zQS~rbenOr~y7Ds>$I0Og`n^MO2AJE(Y8x_E6CDt5v@m?(5gjaS&d`F6uA<-Vka*yy
ziR5s*oww+Q%~lqDq*yfkDPyVFKSloN6IW*2ljSq>)*ql8tc^^teS5!4Sbt>$>K^|9
z)Eqv@IW<PJK9!HbQJrC#z-{xM$*9j^hjY$&?wnf7XP)Y=ZF)8f8x!9MSL?9kjQx>O
zW-i<#0ABdvBV7w}U7wYkn_O+Zt#$sWIkjnz=_cM5;LMGas$d`cjZwc*f<NaA5bFAa
zi;?n}>E@FTb<cEuHWO(5S`DZ8hxb9xtVgtuSL6b+uP->>LXFKi1;nDUpxJ#ssvJoU
z{m@R-iFW{xfU2E-E!jFJZ8;ZPf<|n$73A8%E9(QSPh=w`VHXVnN&`75Tu?5>{KHNN
zxKCr@c)9y1+Q^P>0&tC%J6)7PL!>cn!VX}|a#ZrP0c(UTgCF5CF&@wgQ}JZcdu2EQ
z*rsf16SxbHkNHXf2M6qs{noJ35alI>tdx%8={Rt*!J~$IB`oh`<_`9{e&7ZN-78>7
zgf`da{{RUKPTuH^%?JMggr3{q7E8-vpnG9=f2tv&q?{yhZ#*N&DFd4fB**^%Wj*#T
z$8^ho+L<wE`Z8)r<8QT>C<nwnL1CU&qNa*xFzjWOQPbYn+=5Ta`K<7heH`&bG?0_n
zT^b!Uf1vF|(?Zs_Av$v#8`*4Ft@Ko7KA~9?hS!vAdi`@S97?Nex4c_~d@!&w<b4;V
zhr@4V<&uJ1)m71(xSJwi>(5QVJ<bQ^Qq@Esiz?^oEOWOI7p0HJlJ-UA{*ObU>)2dI
z>A$+LcU;nJ%<cWxkk-%`o9!iLwLx0fS~(mC9I8B0PezVa?Dj2huPFBxwov2nQ9UuQ
zvaV1;<nq3MZuZUUO7ipMt$$8y!jQJxfe8|EWpw&Jn$l}n_}ga%bqt}ymE#>P)e=;e
zGy=UZM4m}l3$C3z6Qe}abneP1cv7Ad1mnVq%3jJRC1xS+xL~e+5?v_6&vc`N%i%a2
ztYJ?H!-R{6`B=n*3OS#(q^GljhphhqY^*6stLm+%y~qlhE~KV(g{D^Dj#X!0K1k{1
zb6sKr@J&;xD`@p6vvaHs`AFMOL9^-VeOjJCJ;4&$ppaVaUo`1mds7)3<gocGSEYU-
zG+TVPA5?iY*{vScB|H)i8iA?OV2~eZSe-wwXx;|tf4aS+>bhCDlz!`TOw>0}>6&S8
zc!m6|&Z*GwJRPhV_*<xTig|#u+EERf2}dCvGg0FepNGTLyJH_)E1s3<H_=Yl5Jip`
zsET@b=D|$`Bq6|n7UH`G$@*@a(TSmHA>b<N76#hZR#EU1ff6X?7*F_3aJX0|SE?ZO
zAb9v+JpLnTC-X0M-uK~sFRex$6RtZi9qalbBb{dQk;d4`*3SZ-jz-8pZ|<QmxxJ28
zpiQJT#GRQx2uU<6pVMG|6&@Exj&mIaIgs0J)tx?)9sw=A{H+Z>iWzTexu(-v#@}k>
z%NCC8Z;~++=wLMaf3k|3Nep+joO~_iT`OAL0ec`~r6u@o6m67IqKaKU(D9F=$n`ZT
zYaDxp>a)^XE7@YYu9P*7Bn6`O7PNVzw>90=&`jo$ltl3j#@<v-gx`+*u9S{Oi|r1+
zSmtR2h3efMtxxQ{mL2lEa)G6e$-39*HE)T{7a(7<=khUfh!ysI5uoa=dmDKPD@{*c
z3wd5K(^{b$L3nE1P-<J60Cm^Rc^PMpML5~9lDJ!xG?jwf*-@IJMh;LFRn8dPxTWO3
zVzgh)T*3Uv3XMcq+16Rv>!fw;Q2w*ra^)YEQWfaFHM@xb-9aSIIl2a%IF3<m0@)!`
zjiFOx4CSXcPi=ghHvu*6U>C)Z?vgg}Mbsyby_8c9ZBve1<o49L#>2X<Yqy+mkE3e^
zu8}}?+a+{HM%~$2&ZVbgVR72Ea!(X&>=q-ebvA}PFlVy#JZP>;g@4)QU1G-ihk@|1
zwK%<k(sdn4l6M!I_F0Ofa%>ma`0AjMH`oN0F1?g9TW(Pg2a9D5P(8o+SM&nDe4p^3
zcmQyxlzY6Wq!w@01Yjw#f`gNURY5uMgp<FOs0>K5;oj?e(As&ZsEk{|SZYuATXpMS
zh3#vqBR0C_@|{Egz(7C0mQIgT>3smY7M+&+D_ZWH+RemWX?kKPg*$lRTh_J@NZ#Bp
zpUC375;3#Ib$tx6$JzarT|ExTxVBfMbqsBBA~vk$KA$t^xMkFSUr49M$Y@&Vnk+1=
z;jDWH>bf!=9#a@4hW1tU@Cs*baToY1eD|@wIxHz?bf)fh6~#1-Yd{MzNi!NhP(;60
zhA<k}0`G;>86hf-Om#7{E^zuHW2|(9ZNOP7O0gjhbFi-IDjQ%LE>S>j`Ynvk4aQ1Z
zc&3(6P6Ap8#H4px8ZAA=pn$E44sS-L6`{Sf;9Y5{^%jQZ)>&Dhk_MflAy>9~=_c9@
zg7^G*%BV-9c>P1v77jsFhe|o+0i;q-C5zrl(bLd?%&w=8>|R!7D=CX^KqY6jXeBHq
z*bC8XX(J6d3nQ;W*0IE!E)3Wsc2g5}d3L(nIm5cb>-GW5f7C!1y2A?t)C1aW;Zh&O
z^rG}+Vw-JnxAj?jAK}$Zu44c=!ts#b`mulNy7phg5(8r=j4p2_oOwTy?L9ijmNb%9
zzJ~2+xmj%rR{CvM@JvmBR`F#>lSsXSOmc|5!mgxt0zN#2=ym~9#|ehPC@TdHOmhKF
zxJrO~0jYpnD>baMVK!R%S_@WRsn~xm?YJwO$noQrG{T<}gh>-}_lx*J*H=@qgzf=V
zJ~>OtE^#Od>Ukd0J;&vI$C=?gO3sL6ux(>n+~U}c!q3#!mbAIVlC8#&=eq7qsnJ>)
za@F&B@jJH8h|0`$eRPr>k_UxU`s+H@%F*iDX3Okq%~eo5NsrkKSknu1SWwhDKr8_$
znKb%}v5-JM6S{Vi7@8eD{HyAXR+63*wV+rozA=L$<k^eVG+_ft^!VhEu=>Ce)om^u
z@U|UM)Nh=+8ezEc@D?y>)io3P)4t@KuDo4a29bTz?Q^#6Tj~h*LJPTB-jUM?4Gn2O
zRlBCr$&7AZf0LDRq;%rCDJJ(i%>=Heq?OLYY_#xcY`$6*tuB<nFSIG+=(V??E|g?(
zNZ(fr)HIz!f*1$!8Y~tM{XMNX$I)16v_!ZIlD)qN@_8|?5kxXzP2HOsopF}iPSW$(
zs>zLAX}q#J-Ub3QP1CN>cB^=(n$gAAwI3fhk^5wN`Z@kc<NhejyGkw`A!;;d4B2et
zWKp*^LP}XC8U>T&{AL!Y5zi|;!>P22gHHbdPU8#7bxKO8bqh-846mhis3H8ji>z?G
z3-K0a$E%3gKqcLmljZnP!oO3m9%nAiCq+kim_P*iTbSBJV3UQ7=vi1PS+%{nTKCF*
zHS*atCfV4wG4IWRO?1Vg!P!E|DK0im4sq<B8CqHdqDv#3?n)i}r@L?&L%rdp4au1c
zDGg~WJFL{?fUf76n+nV8(%%gqvg?i}kW)cg0gd$+wr;n&d}Krj9haYUfIhQHZ*}PO
z#?TA+QJ;?F#Bx>xsYqB4xo0b9+~PMQx~9MK@wkqD7oW3LtgNr}<Bi*IYpMSLjM1Ex
z8oGD{(s6a6(&$4#CAmR#-4up4x<GDxtz|TE#K2u-*x|Y-TLOGi23exYs=AHRUvcGL
zR#w8mKp|3AY7GFKeM+RHqV(*dg_JeAJa2X0I92n~(bEE41=O1MzG7p82`Axs*HCpN
zpu2On{nth)<jbUlmkfJl-%x6l(J{?t*4SBjj=x{)%;GLb%5JBv`h=G~W_2A!(vr|{
zy?+<QlpV9r@-s$yLe*4mJn*ZkCHYZHG44=u%1#%v2vRs-WX_avbgXXf{{VCWea|S0
zdAkFJSff=0x*=|POl(C>83(#qCxS3bosrpAF|#Px(8JsdB_*vk!mp{-*e)XoFZBZB
zbLCm#LpYi!-qFTaN<khKG&RJ4i4{fIy62uM7O0*}-ygbW+}$f4U1MORAXpqJ1ZGA4
zI8A%-mEfExoC+Z9Y=jeK6@mCthMOMgq#o8xf-talQJAu&4n4|1@CCwjZJfp)Qn*-U
zG`#l0jnB=K86itS?v;#S&D2Hd8uEDI3mSr~0Kr4fPn9bP+L<U8zbTIFT?4cm`BwT_
zwS~&6AE{eupl$=QETSx2@EdKV1os`s2<HK}0_aB(yM&3d@q%c9=iwu5yM*_+4$3m_
z>C<9PC@!3fiv?*<kT4ZBG0L{3J-eqzE>shnsUbe`*&rD4WcG}OWzovs%c>~}j==-2
znH?D;m0_hqUeHu})H`7}1#o1NQavvo9FgZ5ho~lZy4gXO%-`lJ(^DVDb~~!~i=6PS
z8E7-ahO&8kl=C~l=am>9aFOE$Q5@4$M<rCZKixO;lX(g`LB10<pQ?H$**E6q@}!2Q
zc@3_HV+);N71oWXx<?Og7NibT6{Nu<$R_sgw3Kk{XusKZpGE1kS-D4u$i<M*Er`HA
z>Q;+m`=&LvPtAZU0);0bGWYr}Bv{`ong;{2!J*6_DX(Y-_xmSsqLJdu8I3NpbIO8h
zjezAcs-dm!v)Z<!Yk=j96{>1&WxzKpDX3SvR~r=-RYa3N^>UJ$k@C9sN*W`liPAp#
zH(CuZPIJpn)i#f$z0MbE+UXidV_J6N$t5I;LmQA5lcftb?Z8@^8YZ!$7*bNxHI`Np
zGQ#Ronb!<d3?U6T7DT`^dn9lm**+nWbvDazNRnFye5&bPV{9ua>?8K7xvX4~6iAkl
z*F`uRA*h;BZWaqOM1+eeVIVibP)PQ-n;|6BBVfVG99uM`kabM$XCx{*{XwMdY04U|
zrh2EAL>#8mG<h8$eB<|4hCj2HFOljbbhOjfNG->eprO(k2o8OT?u(;sH7s@v7YZuP
zKoMpF2hmrfm-dsf^2*3Y*4pSfCXz#wV4-m@b;%`93k9;0StztHUt$1CN3@Z2Ls&Zm
zlDFICC&<~+@FWBqZ~p)So}3O795aBXgFTRL#!;eC-~^yt4CQzEU3+pYm5z}eK=%3a
ztH{qN`QK)g4fBEZMFo>mfx8w)c0$q%yNn{u`yuQUG~VfUla!?2?383I*^tQ@?Kf5O
zw#4T4Rxda=3cgR*^UBfeXVDx?_oGGzQ1Je&B1yt~BkV+m_DD^KH%Rw@F0kW)=NzWU
z>oq|oOIkAEP&Im!8V|h=ErXguRq}IXRZ}xq@73KldiKia27-QyI4ESTkOCi*;aU-+
zmo8NL5^YSewqd#j($`fw(Z=Em*lGPQ32R*-ztk-aE{{n}&_r#p3EMfFJpTYp&}wIR
zbnGJk01IKJXmk|q1@T<`s|n|)gpdHY!mg;*V+4kMlJa0tY`%a|Lckip0QgRlz8JVI
z3oh#U9zCS}R4;VTIVQzx`(<H?vq4p?fqlC`_*FGpr9_tv#n6H?VtHI!kJ7cGs|sC%
z%=u(-E^$8!0^3@_7UsLcjm_<3$$_9?P0kV<l`$B-ifI=YOo_C?We0V_bWb2*B|rhe
zEI?gpJru@^IwzMKT^Qqp4GVCM*|c`Omn`1S*o<#`rE8td{)r9qgyGIcQj{DC^L5!b
zBeLspgs#7gpgQPf!*6hy=SQDvbcFZ1h1a?yTG=6c0JXoeLFXzkFO?%f@RhqBDWV#Z
zdm*>De;^-pO-;vT7a)8i6=F_9W0Aqa?C<3q$6csc+6#s5j4T0z37Qr%J8(#C&-hDb
z+kin`U_KT|X)(;O7E(3992F1%4in-4T`;7e-6O`~!bZ8H9g^>8?tzwp<cw$K4)zYn
zsR-<#c)$Mufe?{)v0O+vPA&MlV9qU+D#lDt<xJ=3o<Rv6&kGGiQ;*@_fQP0wB$Pzo
zqag)*AJR@!M3m5cZXMCIt^o3?BbUf<2--<S$0$o;Bo{Zh--OE%d*wTlPx)Q_(j8Ig
zX5tOD-FEIS2(o|KFoF&_@PPDlo;b4X-uL~Jec1pcyZfw=5h%#M5)hg%eDJ#WSs97|
z{n9k{3Ay^DC$e&F(KB6)fTU>`@DS{9BaRe+-?AchO@azzh`q1Jb-;@RpEkk_G%%5V
zR8mL=J1HJ{Lq5j^7@;RB5z-UItfF&`lAC|<qj?~5Lah<93CpZUl@uGd@qdK*oIpGk
z)W+9wZsf?Ex;f3hHrS^^+dDhIbdt=={{XZ>OC0dr9EAReC$NVL$NGryhHbdz5j8{}
zo*W7Af%Vusq~T{?JgFdomlS}WI76D2j_M~>fC>v3@5o3x<D30bnFC6!eP1>|vWeAX
z<fHKt{{ST-*Vh1Jl*3X5)l2G)xlq2W0e!%asy`YP`6a9B!MISms2<9qTGsYMNnUM(
z^}2MDB`mUK+>-)_d&R6s{na#;&N#Trh1E}Rz;)5Ih_=~q=|%0heH1cPhKyL}%BXa*
z5PifH(#ak_-9gCT?68`>z~I>jE~5P8{^}7z_uu%0j`l=TXs(dwb-q@;2bZ8n>M|eZ
zC+NB=nx`AJ-(nTzKTiU4{uP}sPdgUcd>f@^vnt6eBq5+(6AdM6pO~CS!q~&pbt1*A
z1sfiZQxNw+;(m#2-`$wDP);&f@%B=-l5#*B{{VHhWgD&Uh2c6nVAFElzy69A7VOH>
z>Cbb6-?;sioD?zKTw6cVv<zfqV8jQ=O(r|o2IIolV$cLybvy73V*daZMa84SM=Vka
zpbxW|`(aAy>4y(<R@%@kh598p7XgI*6iw4Me<N|>66%&7CKmZATU5sj8JYA28)oC|
z5!B9M{T4q}!SlvDqdzqOKH<B!DU#OGTW_XONwIn&hPGSU%2PDN1HUB>`if$Gt+(An
zB~>s#?iS<9ZZ-=n8#Peoq2uURGNxgdPUjy5QpsHqzS^Qs$V0nOa3as$_DrBLrZwi)
zCf7)7*cwTY1(rI5w%{mao>%92%G>~IrPLT~1nj@;gr2_5B+A!Y!p`k;vPn)5-zMp}
zp{m2D)g5~<08q}<=g1tWy%vwEQxIB^R2duU=YQ(w;Xvn1?<k*00rHTy#gR=Lg9g~*
zP01;CV<1^iY^I!c%GPcKVS}*3R<vUL_D{8wZU%TL*f>zF0J_Q6w*fR8Wp(r63l9-p
zYhKw=o>R$Dz2ElSBA7Ukzq)K~yRJ%E4p&8U-DVaM9ApeRIliVcM`Vp8bN!cY@5(_K
z@#<V<NFMNV6m5OG6)RnSd;Bbe=xmR*_h6xAeeq;eq#l2|7EXL73PS^|a=QC+xB+aX
zAP(00tT^C6y{@|A*0{25h#1L9`z#Bw?&ApvcRVJZ#@G9<1lzjCq4y!!;dcJkOu4aL
z+l7LnNxH)zBo4MyI}a<Z@%yD{aqV!<6I@zwyU%MRBa|q^NX`2N*9k}%IbF5MkhFcZ
zT}Z|>?Ph+9C#$f=NiDMUZAGz$lVSH>d)3plF~AXZ31Nfm;^fgoC1%rW*$E|4k=&aq
zx$1*uJDe0IwY&nYkHm`F7Fo;aWep<a1W>PNZHty*R%0c1=Se)PEKPJL$rfoFS-IHq
zjE+#?vo!Swo1)uP;cL4eRYatK+Gw(>V;&92x}wx+*=vz<ijuvdry)}6T9ZxeRc}P9
z*-5E12c4KIZ7#*lxaAK!{a4=I(VAehfL#90sOcV=&}<vpNaD-cx_|wa_g*c~ZvG&@
zkiDCy-TWq_=uc*rKhRXF7>*Qxpiv5VQOUx2H%xL<5IdC1=IPRROb01KhmKR5!fH{<
z0UQrx;rdfA-8g@gOi0cOhNyoG*-FJ7K=u^Eo^{u(-Agage9hJEE!7`>>*`Lmj`Z>Y
z;_K#)xThmgakujo7yOOr&BRVFQo3Nv*x39Oy9g*r!-c^L{geK}S*lb=`XzP`m1RZL
zwXt&{Ab44cH{+4?Pk@`;o>K6MlV_sooo`bS8{{MER;Nt-M6-Z&gZExN86~`ZRE&+~
z)*rGC2%?enK9$#SO>4Y<>sh1q3{@^0UJcjG+Bm3<?K_=i>fHilGO)P#OU2o_9_ysk
z30eqOF>teeI)8-KqmO{8R03qz@RyX1;bD<is<!c!=ABthyqtGlpQsOEST3b#yN#7G
zM&u?(Q9S+hU>lGRl?1RcxFA_t)dO+>K+OquSE%sXJk^<|0^u7-unI<GU|}hz&kKm#
zdoB##BWI_B%SalcFjFaM{nxUY%yXTUGz_sAT#v(&I~SK0#?;e~K#&$EspuUvZVe03
z<BUDFJSiE|&8rtI!T3}7Yq8#YT0VEF(W+YVeKK;QZl5y;x-u8hvUEHpg!*9pl^&zf
zEM?v43w;)3mm|cRPWD>j-(_J)=f`cN-EB2)oH1NBJ6qvUjWO}g0Ug$qbSjlShv;=v
z?inl4G#aPuX>ltlqG_h>!rJL{I~p*&4>A$iM>bjtmpPW~gsGR3N}1q+U@U`tMaJZ>
z2P{5?uy;$GSOm!`gn2nCc_9tSAS&9{o?0%a!K7qN{b0r|l^NFMcNbLk0l?g#-%we_
zlx}yjoKxu09ZGpQeZJ_LS%Eiu{{Xtm$5P^XR#XMj5DT&ORf4uFjT%qS!y7+Uln&Q6
z;i1+;M+{cU1pJ|^qH9`9ZI#jSrMAT9x+kvc9g&;5-%_z1L#`RigH6=>yBtX*pWSAv
znoEuByF4f<OmAB$>$ghtxbkkRY9S04Jgd2b0m7=UaJkC*%xa<`Q#a~D)Nx>okX`6%
zpwKu?=*481b*!S4dvX-g<=9cl`c^SrIKe1ax8WI3J9a}$#zmGhLm{}3Tbr*?{57bM
zR57gm?7YGZ%HOK>zrvbU$x|8eY<XN>WBm!t_pX<G&!=FyI9gB1%OicjmE9kwv{SR#
zI9mo#us8ID^RtEQY-yND^oK}ow!s&s^!#o2xr<!tHUn}Kn+u#av9=4Bi@hBxHM1?L
z(g@)!iK6!KuzJ3SQ6!F)z}b5^(-?iv$yK_xnHh|Ypep=)Rk0+wA3o}k&rb6j1CZ2o
z^#)DPE7f&AosLOMwp^fp^xIkqEKL{oLQ(W&p?QoApp|E)Nl`SQevqy|(c@<fR(d{+
zJy3RY@VYT2H$eE=dD4`34JSBTs!C?IA!hbf-8ZL**bSDZI9eHNFQV~0XvQ|dCq`pb
zg~s3n1vN1eUv0|M*TM-R$a+dYb?m(e#V4XoSh{N*EpV;c`!PWsIcUI6F+7VR&=R0p
z=aL8<tiG>9G^}wTf%3MI(+)^OYBbF;8`(|cOl4`F8P!ythVoaNbqDEp(R(N2EKOu@
zHUJB+8rO~;aoI)2ogRiKaWQf{va7d0y7gbfYL}MAFW4_8skp1Xv3mvSe}_`Jt&B7;
zH_Xut-P!NmKK6*3WPfF-qLHp3G%r8VW_XRaJ(jOXsB@kNWWFY5-4b<1#*)?r8Xt=)
z+9FE<B^n$6vi8?P5|>>eCdrLAQnX<?i0)L;6KtlIgy2B#gEAIR(zDw0H$vdAWq7r&
zsP%KYG6I%Mtqx*lV_HqebR?|~HnOp)g~jgrpeJjZ4Y^-0`6;)e*wM_6CJVTP9emK+
zXdw+*E5<ijR?k$%W4ihI$|qD&2BOg+A)qR=rpDr2{FGF+Z7w${8&=Vf+m&A$DY0e)
zQA{CcvA7E<tv_?zB$wJdU1;^Xinqk$V%G4yv#Kj<VUfpiu<*L4<H~bfQ5T}pNh#t4
zfYd!C?VhEqk0h0ecC9?JZMn7Apne@uvZ|&s;t3^nV(=T&0+L6jbY7bC6Az|y&BEMA
zrN~%4rC9WSlNhFq28;l<4AYny`a<iE;9)Juzxh<D7$#6YGjb6T#&|1LSwPSZ0;rmw
zYpepEU&KQnL56z+Y#^%*E;~ptqKS^Zw%J|j6oioC5_rB9<xL^7WvG_)EdnuwTZS;B
zianrNNtN|cRH*ap3a%Z)<x^Gq@gHvsNb3-Mpeti$(p*C4&5M%L8ZL|%P}NsH7qzY}
z7VNw;teYfShWR%VUCCcXYf&}PxJJd}-Fu~f5Xk;Xz+OIo5v1hZop|zIkZ(d&H}Z@C
zT-YtB-z0g$!t_LLWNmG&WxR>tM{-xlXOHgD-3Ou<$MBhUw~`a3khqZ50fomV>#xW0
zqckk1Oj#ZXuqv{;O@rlH#YHT*0IA=jvu^1!SFMBbQE}wi8F>`x7)?)7bvp~3EpIC{
zD{A#h#={lb%jAHzy-lRC;D)yym1j?B4~C;~ZHLiuW@;^@UNUVOPLk2R2%6^$pCxMF
z5oA{QRrC`GBLIxqI(<ZtR|GOU8OF+;XH9)$i%G(VN$J=rPVxoQwGDPSE?n>m1)Wt)
zO^g2ky4i7MYTD4sDVo>=AYcN@3d-v=fK?+k_+=JjgNad8)Vfxaz+71+C@MoJqqQAO
zGUU4DW;IP|<QrgpQtLC24VF^ASH9pn!5<wtJ7VOY9)LQZUy+P<+_`zisaI1__dZ7)
z@U_~tKHyIz`B|Mt7DsSL_g_un$`MqLD?5~#ovAJ-D07ZVGNv$GNZ|!A0jD=!v?pgI
zqCqhiLdb7_g)GMA>N^Wq0=iSsB0^bmrG`74<v6q{smHs7(Pn6#7*5bLWIas`vT!UF
ztr-QNe|2?7O%WG!LbIO~bzs7#VCB+e0_C?s%S8Ckb?Ft*!q!+c6`9pp7;&?5mN}be
zO#EoY8H+iE8B2E_7f%T;;|Q8I23rcPrj8ttpqQ9I2e4DO;^~chY*!h1?4Z#GOSF@c
zn)ZMcE}6-qM;=NPY8ArQ7v)0t02ACrxkJj*@BAjx3Pf*^<RorJN<kO~>A|33Wgv=3
z@}Yc!=PE}u07{9?9#bZm$Y$%><vKT9_Ogli;W4gu>~Nh$G0RwN8*-9hEN-HvF0fL`
zdw5GFOzXm(1Cf<urn}q~bBnGC!m!gt+&d%ar8diBmhyy=nK=jOj`YW;a(f`A025@2
zUW+Vltby!3&ncmnJcO?21tA$!vVR+X$?3oj<SS}E0;Yw&<#VU-FND!#vp}$om<2hF
z{w0!M9zM&XBuFjgU37WxOw;Ji9+%1=sBP$!R*U}82yUYP0AQ~xFY`UW8&N#lRQ~{d
z!B?K>{Z-$^a0<D^kGkrD(3vExOP{J&j3$C_#gp6#2P&xI$j~ICKSbEubA=?WadrVm
z=~Ql&?YmA>k!+JlpmeVn81A-ubqgVk7XgILA5Uyif?BL(A+50CBb9*&UK@*xE)V_w
zR3*(O<oyzd3vjT+yRLf=gwh=0%2qb~@|;`k&J!4nk1LykmB3pg9#bCXw3UE`k=XDM
zRaFgOHz6{<wUMy<zq-om+OaolT!Uds!gYO0*9|K-G}27-lVu!|K4~*`W2VtMM+{%=
zg@p~FqI8ZIYSZZ&NhA`~UX7*@2eT_%LqHhDouMS9MX}>;>>EkbSimmatprdtk=O*3
z@dk@=<ri;n3zky0cg86q5W&X<O&G=skG<5fi-Ln=Q5?8DrHI)5Q)M|_3HL4NESi7z
z)l|nS&Y=GQ45}*0!wEM+A-Y9{9DsNFrK_%vHk-IC^YuNThLvADl~s~$ZR|>-g|ZUL
zq8+Mgu5m4h+^97Ada9W>8`&SEXonA*`>V~7Q%CG*7*tfcIcGUcf`$m-Xx(e~MVZa)
z!akt@`5yCOfQzP%;9I)QrPyPQvCR*8_Y%5D^PUk*j@^@H7Aj75&bVW)!Gi#?wUG>H
z0Yq+yX!iW1lPse{bAXvA1Svb`1vXF9$M-;YR1LzKm-S^tZG0(U=Y-Mdn?&NnvW?{D
z3Qs>o!Y;9>9;0z?0t^GV+^Y%4u;0QAfE<coqH16Rky)}HkbAjBhJY_@rDh`r=^Q}r
zmDtJTC?${t(ME2LmFHp4-2o(*I5$t8L1UF&B*muX!q-%c3C|@KF+6VPg*213qm@GX
z<}t?avI?tLBH@`&@!1(=MuvLUG;$SfR;bqCI{yH5M$=zdeXTo6xYGK1d2H$KE}20h
zPcwZ1x}u_`){Gk;2%0?xuB?YhNCj%Bw2Ek2H#A`rBjSW@Yq;TVUqoD+E40p-riG!;
zvyXLg9W^B&!$A8gx}8nT!(6MUubMzc;t{6AG!;6OF=3~U5EVMxT-!HrDv-KK4avRy
zq%peOeN$3Hq}nB)P%;yJ-0-7d-s|&pJdGjOvYwgbZ~_u(BAC|88hAlyQn`lq93-W6
z!jytX#n&@?JEEwJHrd6~Tn~;E*0A!LMTSB)ESM~usE9V<687`uLf~)0c(FK;?a8=J
za03J>t$W!u%*S-;p&Bcyhq~j&6Jb8#l`TshbjX46*=ao*3uTQC;qr~#ZDI66P~cc2
z9x=t2H?ysDFz~o;{gXp(NX?Xh*jOeqVztJ}OOJjM19Z|zxJuCJi2R!<h{}713BL;k
zjS5EI{HB1M0PIpTCPP!l0S(&3@`|aokZzOVG+2{XNf;r+DE5Qtf=$(Qa(k`<J&xSK
zEo96PLx~9izX5apQd{K&$7psGtrr6W9n?+0xbCEB0C0_n(DK247dfE#P6z6_wz;w(
zvIoX5!eMS~i!3B(gu@>sjI3(}b8q%dEdzu@*aj?^)`IZTY&@(w26dAi%CI!ik?oKl
zs)*7OO`a}_iv!4t+0EIGR1gc3a*Na=F<{u=!VU|Yf-spXB{yg#v4VNBE}9YCpyOfZ
zgmn`Q`6M9K0~q%-wbr_DZ<MYUaS6k*DraN{IiU7Ta2^znz0)0p0y5-c_6aU+d*O4e
zZkzuA2v}%S!fT1fe#r?xRU4cxnF}G#a2EJYIVq*qJTBZ0Q>00<Mw=-Et=&M^V*IWz
z8&go6!h^u%roK=+ganf{zhpeM79GMW79-0=gXI<_4J6|Hs`)C&?ojTjC%zS91D<(H
z7gTrPsGV1JTIsWO8|DJ}3Y-xim9oNF+Cj(JbuB<^h&NR)sf+{fQAJ%F9hn7?q=4qy
zFXWsT9E%?+F(|(y;Zr|ViK8W?eN<oTG2Xy6Yee0bwU#k>`V~~?xPLvAGU|cx9lWZi
z>IArp9#Q0tvgFOTmm4A7Sk{AnK2>O)&*V8cMe4W><X_<qV^B-=7W{tbX>}8OG}#dz
ziyXr4kdLylpy`-Pf%O}2o2|%OGw-XN-=sMI0ECU6rN-Ww%Jd3On2%^I^v~QY8g7?}
z<;`jHl&(nD&oqt-iCvaCsFrB6NtYLW7pKM2w2eD~xBmd7r5Z#rTr`If@P{M|XO|rY
zKry*V28`?3;lX-%q+=U%PaB8GP)!sUxquG90=G0}W*(nG4jhm?5{qw6HP)~f`mGeA
z5c>u>qv)b_uVxZF0F#{*;@MdbP8K`)2nhOpG8nM%FK)_M<*I46>yMQ886S@4z0l^^
zI1i4VnZKws{9P9WRDc53pQmM6v8^_7H(h{zwGC+SQzqCPOK|qH^p~{W;>o7Eq<)Ew
z@7+|Ii5hIl<8bkGhO$rQEkATrZ?IW%H43n9`674Kp(px-i96}(oILQTrLT++ctgIq
zjyQ~2GRAG1LtjT@>QJ<w`(I_vuhXxJceC$xlyyXh4RHYYQSPbi@^A8+fvLSwt&+Nn
zvHt-0niLY%QeSuQo%IVa8&FP7{H|<n{$N((iboqQ>S|~UjpG;p0I;BEsikgN8{6XQ
z5X*8flrUH$X$RtCT~=>)kEPUZsFa?{Qqkc?K<3GlLcC24GC9NDf3Zw0Yp?o;)TuHu
znp0T32#jNJ11Vb@MeJ0A<Sw=NLy*b?cH;L5+i~aWmcq$xfnt}C>llp!*8czrK(WUO
zY;T0E@7N`BEf@%SKPfL@aGz_7_({%jbhbAUi4Th>SvJEzRk;D<8-SaGl=3s-HNyV@
zMAj>T8L%9rw>eM2b@7GA&tRL7oJJ6A55hn%_f8q$1cYOpEyxZcIAY~TCAQf}Z}m|;
z++OI|ltlY;V{ertO$6L1h$jH4>6q?uZ!0k+qF~k$l7DoblL@$TcGr=MVK-^#ZV<6j
z9LP^+e(F%iTNx@Q1AaJC<Yy~v$q`gB{{UX-QXWO!fQg<-I0V^3WIez(MGm?dZr|Z?
zx{y2!SS}^GxUwN5vE^`SBwH#`w%!w?*c>myTQXEaTVdri4%W&t@SNJi;c#pxgJf)Q
zLOb?JWM`tna6(VZj>LSSU_ib2U2mQd9*OxX7mE@*ge)jTmbpu8goKrXCp_?z+u<#-
zd;Jr0{UtILA8qRuuX7whuwHZ36?t$MCd*e@Hs%|iLdfe72}wM!mci$_&usGNmA;QZ
zua;*_PC!dcUU>&9_H8&h<O?|bBB-=Sk_l!$i|R3Xk&G@!D{ZoxIG*cZr<h#ReE!Q_
zPogvp&#?L^H5zy++Cc*TO6UIo?PBG|I}xU5nCG+vrgz(tq?8x9kSseCJli<E*RO(W
zA_plT8rq361J!YPbNN0II*C1k8lES=k#*AGs0$;qb~ld5>LIn_*7Bfi5;R<}g(O#N
z^M%KfE79GGc6uK~JPBAl+Uwc+ao3HuULDbL+GY-Ny{o1lc$@S{mWI8W=zmC3*+BvJ
zg)&m8UzEouByv_@c{ouiWKe^YjKqV4;8b9z1C@pz4VP{SgyBY9Znc;#j`>M0T2moE
zDoH;{On}U9S4X-B+;%JHZn}U9=VSSb`bVl;cwO{gKXvqbYhQ0Fa_m>pf|3l}ge0&N
zd~w}b$Zl`hMCR_`s;-IIM^O!w5sNz__E$A9;N$3kb1dv}bQ_~~6+;&CFLJNws2bo6
zvt?7IiyykxY2a-bOEx@5QBelDw%~HN-4!0moAp^*X7IKhA}up}<!H7Rk6h{FXq$zj
zhlQKa5Ad3_ksJi<$dnb%O2m#>AXUTIRvW2X`j+mndkVz$D8A)PKge9a#KY8!ID{*L
zE~U0{A1Go7?7ir8cyjE9L5u|nj^yLz5=InmIqao0bYkd-(iXT}))wRiGi+3i1G*|H
zp=FV&1nE#0ylz`<B9XgW?F%iWkQ@jLXQdx#`Y$KUTwae~#Fr(o(@7rA0<5p0jm;pm
zE7AVi3aPgRd3@cTgi>Y$UehAj?W`AA8vQ?QNgH!@>$;^r_P7wU6<T9oH|Yzj8sw>*
z*_Cu>v|3%ZCB2q{D>a!$QRy~l!Xj!7jl)-!=YBp@wuOd5mU%!nLm3=!00A3UOyEei
zP;Q8~ki04QGfaL+?VG<=R24BZZfpTl@3$FI$qVEk3R3Z=mq9anovuSi3WlIM=F4MO
zr`%v5o1~W<i+rvr!Nu&Qq-G)#1AY;4)IKgvg1DDT^u_^IwUja*#4R0yQnAr$j=t8E
zV`hA;xhkTTjm?teABB5M542o%RMmD*qL)-{!NFNAL`mup0`wZnC&~?*g`Cwi_eZ$c
z-{`yl03R+h4=ot^foQq^0Prem=a<MpSDKt*uW)(VJE|&&GUPY1`nXEa7%Q8$=J{3C
z(t(R*8&LlMZ-rSmxx}V0Ey*_`$&y~()Xo79JH}Q81IRm+B*a-uEQaSOIh}H_XnisM
zD@pRbv+#Riord-pULQ_Lm872Q*FOs9Evbsf0?UieU!gPWZk3gvmtb#&sB4DMZm?Y;
zQa>*pk7cfkUCkGA`Pn~3pwbO-1gT;Gc0)%a8_IE<o)p%Ka<Hi;4Q-WWTiq$J7(`{+
zB||%!#+!1TeX(1zwrCj8T<a>@jjwjrkL-=AGDuG$4;&;Lxk_!xf;2-FBS{Bpw$tfY
z*8)@!hTh%Pl`A{;U7jmZ*z(zRrn#*EG+|q{{?$bUp_Tz36oum}==^-Q8b>Ua$J96%
zsVVJs32(U*PZ_<}Y*{j3aF=p$jUkN_SfStrU#nC$I9y3Z$TothHL_h3kZ(p^o=f<L
zSm~bT3)y)#yK>UKSFS@reXVundf@iBE^FD}kNB9WffZjjUY+=K7&czPd3K`hl^ecR
z)1b8-u5NfdE-xusvzy30`$hrLv<$6Ik~TOmKk4mLbZi&>mbQYv*0(AiJfjwKU7NZ&
zJ)-3t*MhUUJd#af;;-TW4syMmZq<zz6CaYNXX#KzaHnCytLP)UC|*b^f8|j<w<sep
zc?ngu;_NEb%s|!0c952R1sNLYHoewu)efUO@&H=ux<FiTs_OK;;F1^5dEPsk{Z5EF
zFm<xX=XX?<@)lgJ&ZDL6y_&Lmu9){Yi;zAS$Y#MPN}1CcBPUT>@gesjwEE&s8FGB0
zPJ&FAAfK`>n?#mBaAEzIZ;6gkdM7zq6x8z8MQ31qEY7>rEuJ?3-Ndcbbd!J@>;!x?
z4B3{h%>Gp1sVWvQzR#XDu9TLL85+VZo)xd*jZE~~qhfnagRs3ftLPvQInDrKdFF^j
z8t^dzhhcgji1MY9Tx2d-QqlECM95u389l<*u=`dIpk{mMVlF(iEz~D-Mpx5piWxLp
z(2`Jtz{<31LX%)f@u%2siZAs0I^-)#7@EKWoza4y9CqPo;*4I99GeJ?Hp!AQ{{RW?
zX#q9B_c&Bw1(XmCl~quZN0#KPiJUEE3{3>!B$O=4lyy{-7)WbC$0d26U1;*X##g+O
z3ii1pyABouuEQ9|18c5tCmeV(nB?z9C#NX=IKl3;4;xwCL7}oE9f92A*{elOq`F`n
z=Gc7~&Cl_xBeZs`)Kk(x`A@aKb#G0kv;bdY^+uX813j(bRq7RvfcuKl#r`td3Vh2W
z95FYLfvlaINV=q-RxWnX;(m#SS!KyKA1jkTpE*a2bW%8ydnBt6Jl)nox}usN(9lo9
zbj@$`dx{2qt?WLF&AE17kVod-Be8&)KIg_p<8%vU0o?Gqs<1L6XA7@a@z`T0%1F|_
zk)7&Fb~HG;LQlzFd#F|#dV^_QZvd@VRaVID!MC#WO=<F(98K4`JZfr;qLMeAHLbL`
z07?3-#Wh)$8~iU3=_-i@SZQ&x_6-59l9{~lzDM%7RypXB$n1|(jL1k;57Q)YxM>Sm
z`fS{VJTOJK-DTy+BaV=+<+IJTJsxt>8rxsUSxrwvkX*j&+pA%v3_G0Fkk^?;8sN(k
zy&oURlt^TO;~K3vhV2bF?z5Fmki7D}H&~z(JeIP-XQt6flMP=(<9Si7oRUw`kcye_
zHz6#r77PWmk46n;+%08KtV0|@&2KBR9!is>Pm42UqUuPUV`UVk&N)ceuE>h)x1uDx
za<o)2J<S=n(PgyigT0{gwc1rn1YYYcIXXN1My{D1T`PzqBgwj?t)vaUGPD|%aV)bM
zvlaDExw*1frg~FxpbD5;+ne1$*zS2rJooQwD49~**;{mZndt=vfB_dNjv!qimvd8I
zZg3E@g|WBFcozvGVI>tCEHXk3iou-Us)*qkF3VUUW#r*6V<t!0AtS;=xL_sPPh~_F
zMov#Dwk|dbQp5C4Yj*ZWMobn+{HVo)t=$tlt#NcG^D4pUXxU**2LV1nNKw)Loc+|Y
zn*)@x?Cr(SE4cw#X=5$nRuHUo(m@Hm4|L0yIEG`w0%CVtly*xmZpbOagU&w56<K8F
z(E&c>(&9>a-NNRK@D((~e32zJ%YavOR<J$QEKjqn0=A=l?Ucyp%GqUWf<6+(ZP&e%
z8gY!N8*SGmUOgOs%?^_w49*Z8MK$7Z2PtVK_5pQUu9E28&F#wJ$py~OM-<;0Mn1nX
zxZji}z<d7ybnQSNSCkX(JC$hkPD$8gY+yNZn{0Qs;HrJ(*b=Pt>KP_@z3iT>gLDx`
zLMC{&L0WAmPh>zHw_T;_f;I;`9m=%<tZj#6vUDe6ld+h>5^2G@A^8UV&{M^H-6TSV
zY@40gOBug!q8>QNJfb1z#g#+YWKFw5=`X=eW5^jQ3aXa09Q{zRAtsP8-NjUDT7zO?
z_b4?@MXU}0thIGalfML?qSg{!Q&e=WEo+r)BYe_alBcJke9i>7`z;=oqY?ovB`b6`
z%FQ=SFK|0nw@1=I+H8)~G_97qZT4D9DmKQ}{Cp|OMe*YMA=7A>z&*JN*|CO;S#(U=
z2V_77$`W>VMktMq?n0Q_)=d_=dylsEQf#UrBiy8C=}})iC$xandjS-#_Z%j%;il&b
z3dw|bCBahGYR!xg(|?Pnj2kCBsy&wamZ2PRA9%XTR@T0vLe@I>P}NOQSnCVeqx6k6
z%^~j{_*RS*c5>v*<<PojlO)!BoF6Lwl7<>)iwyjPtR^;q2mb&nMgsR_tk|%FWbJl6
zqY62rE@`?d7{N<3J-A5ZbS!0S7+P?SrWWmG6@WY`-~!yGlPZ-24s4*PJ;+l96yx3D
zA}WY2lvHBux*Q9hQIU^s60wFBg&e#UE5EveVm6U<Oh8JOpDF|Tl=R%>rt~O9lSm2I
zDULZyW<*olZ`B0*UkJI6wN}d|oN}Hj#gm}wXIaRi@CELwV5kksNvrHILOdH}-e{y9
zG{9W${^%L%o1Ci3okSapf`nv~)H>0${S~7M?B<?-py}#C1qCZ+n12ttvY^oFXK-|*
z9xSwUIz&)3Zw)r=s*Y(+O_*lr71cRy^VuIk(vq>j%FHd;bv!KoL?u?C0|5caTlxm?
zWko#;DOq6{7E(I7@Qtjp62DV$aS@BE$5hJq8~*@gIN3;+a%xkOc_9rnvd95@iBU!i
zhyE0sYyvu64Z_H|@{?)vWaRb_gn0vqjc*D=!A$_C6N~pq*+`&C?Y|`?EyxLH%kmP!
z4lHhi=y;`Ntr)X@Q2=>EQ3JP>NIjQ7v#QST-6My$%6amd><jr!iP$sLXB?F*gPU6F
z2Ye8n1mG>gV~GQlx5c?pzraj{kR42}-a)mLaXUEfx~KJ7M#1Fpi>eViWvvUY3Fipw
z6Ow?T+8fQ0_aD?hbry9dsBOFyi5!3X3yrVg5M2rf%0ew-Qh+Rw*dA6IG8=F_{^=Yp
zZjheml)~aZ=ulfE&j6(#OQtpc;uM)7BSDKHsI{^Xrq=L^sBPGw*>TD-Mwr;ZF9BOJ
z0kNbJ_f^rbToYwrE&#Di#fl#4cV^ruB#q2AIJ%L~KR-mm;^Um8L({RLt_R^fZtOq0
z;CKp1!1I+sSfh24w2|BHp53QDQ-~H=LO)OeVxAs5oF+Qg;3(YU4Xm&!Sm}kyAq^$_
zg)5$JM$|lyF5>HKq;!a+Bp!HCx<~mb&N;DBIN#&K%E2lUqHD6wX*N;PNf6`^n^166
zbivszvZ5n3qRFNbHiALtAs0#ARz_qNz(!F%P76v|BV#6)^^x5)n{b-voyOwDA$Bum
z8arb2E1i`Yaqd#M_ffgQ8Vhtdk=Zn#l?&tnyr`cz93r5^bE0<~a-wsrKk|otNV*<M
zka;!=k;ceRG7a20F6A`6yoV~+)Qsgo`pvkxS5P^gQr1a}MS>byxm%6E4;EE&Y5}7D
z;)Rz}7S0jkiMh5~%~s$&)+krk07-JFnz*|H{{UMdWOVQSA;##Yi8k4C{YDFtToez~
z;kF#Ys+*@(O@U-ZKTXs~1A(#dk0C$UL+hg>{miI+V<-E5<!wjP6}tuE4?aOwlwC1Y
z(k}@a;>lcsnli?cX+`$9DE|P_=alU(cMH-fdU{b|Brg59RutM37~o4RfBI7L3!}=}
z(zOq5z;lm+xOCj`8<^dN?9u6wwYCAH=n}h3jE{EIRG6APg_>Dt+TcM%Q)u+%-td0w
z(`VDEW66o6s@kebP1%TF;SNU8oTcf?DH_t(Ik#36-6c=BIkMoZ77AEx?RfeWTw0AZ
zc5l4=*=sdeG(9m38c38IB3Yxu1%Z8&<kjhTyMh+0Riz^mpQXF3YJS7p3=#1A{SzdX
z5O7E%<x$UG9&X7Aw~QfVtB|*o`>n>trf8j46L8sVer|%ExB>p@KSHRVQ7=2)Wen94
z7MlP{DhMhPE+o~=XAf~6N)laUxz_au+$tK0<v6vxC}4ZH`>vTnAa;?Xex^v`GxCRi
zpxfTZ>{VV5Do7YF&+eDwK<2|vqcLa<d)hv7p4#f5Y}rBjwR92U*Kfi}7#jY`lw;7z
z$&Gb&Q_r|D-!`&q-y`xt9|26(4BQWd_Ox?gnvnchC}H{i)4eizaYUAT0T)al{{Z$D
zatvTa=zuYws^J*9x{<fOZ<N;(4|KfBtVafbI8Gb@ESe7@>DR@Q@+hE%wo(##NH5sg
zH01IUw#sowINt}A+k;M9b;jeeZb#SU8yASCR^RjhnCCE`a6e?ZO>nsIiYFvEdREQy
znC+d3AuiEj{#R|c1r)_`BOgly;4y%f*5b>E!aR(jLVq>KDO-DUh1utn(R*?BLdHmt
zI?I6s-pQB830h6;0tF(6kO<)+wXOn7@-CbOg^(JCl0H*#KB@lz7ELxIBPbv-t~a(b
z-86*zH0Js2np>YJ*cu}(?36c*{gS)yWZe1v(XnVvpj_VfOd|(3PdLIuZrmnB<cQo4
z*+n51Q@-150)|^{OhxD%ybjn>!!7_(xvk|%6d~9gCnX@pON<T^guwRYL@9$u>meb5
z;N7nW>Xc1|M)n>@{{RW(w6_5a$fX#tDni*u@}II49>}F=wa~6<99;hZ!X{nz%Ssu*
z?o5Y|X8?O-{TE)x3x~?=SfUX@Cz873f>Upm!uLuM*A^>*`6-?L7kxNb+?gix#m~Y`
z@8L9IDEh1v>~WF#1;i#?rR<Q4gL9uK1n-i#90a)Ul-!K}0A+%8^YFWKzoj<!OLOF`
z1L^%wQw<v;yWQ}sHp@BPQ6OV{B@A}oY+HV8g{b}=%ZVOW#A8zNzl3f5o<mLaT2i)}
zAU3t6`6|i@VGX;8Xz;O8>aB>_5>mxmRZ#ENTHgUxJoz^%3&BLzY8s?5G`2D>vRb8N
zvJ&B+lxUA|$ldio*G2)(J{P6n#xRn-vN<L6RkX<?j^`3TvX^DMr^d%U_G@|YtRSH-
z<XwF)`LM$qmWW$rH|0#n0IN+qMsw`o#b-^Y+1rb3K2@Ko91O7H%gyqCI}V^|LD^4N
zrZOmth|15^urdAsHd-B0vh8(_7GkDHK5HiNyou!fr=z<PrfRxAYfj%cUf<HPgA*)!
zF9Ydf=G3<x*SGX@$D+*kUZh>2-)ErGo3J80Am~lw2*&V%R4QY;r=~e5LFVp<?ueVZ
z7^G$%!kiCf809|xRv1?v$`?AtIqm=;r<TW+ti_Bk7v&J+cB-mLK_e>3rtM6HGu=wt
z#Op7ge-au+L;T#Yq56bg7cT+)Okfj8>v=(~nDe8P!2Q$PVQZ!lVRXB#g<nL*Q~+CW
ztL1Io;Tcfy0rG+_1<Flq5n;M}GAwRBi&3W#Kv}Ic3$z8R(;_4TY$o8^H!YS_!o(7_
zy(-`)ZhNf6Q4j_ei>8j*+vezTX^!NX>-{|M;Wy~Cu>O#;y*6(XR;HiyghGkOh0aL1
zV1rc)u;FDj+I{5Ma<#KtYNxG@t|sd#@ndo1V5&677ZbFgX49Sl!rnTXGuR>Kp<}OL
zy5Z(Db5Fud^Vz8+XgDY-V{klKdJRsR(hs#%)#(GURbE<siT)#9872(c#Y=3fsWhU~
zfK*P?U(J_Pe26r1&&Qa}Ci}r0Ev}LJLdsB5J~=;0TFoJ(G%q{Ml9SQs_;KQ>xoGyG
zDtqA+-_nGtIOTZ{v(t%BUU^lqL?19l>MpS=x*5Y|&KF;f_Cq=^Xz5wBVJ%fV15NCQ
zhPAC=&5-rFlS6ReubsXpBzpm`f-p`3qO6Md!B#U>i5_fjR7MjZCo99rnlNWVR#U|V
z<oH%hfsKy#x?jsY9x#%inB%Zgo_KL71eg_O(by(I7<l+lP9>I3_C!S2vOI<1c@T1y
zjM^Ofc*ApbT~$Qao3*${K5e7iQv~ci!sbf5CfX^VLA2l$MKu|}y8#&_thNG#&vVKt
z2-!Q}j55Gntlqm$16)opuU%3=AT0jBBg|)UUA{N+Mok`V)eQ}lg_n_}xUC;ho6hUz
z>pfC-j2y42@$EonSJVp=!UjM9K2dYs&c1A*k|(*Q%r;jA(O)x;Ktj#>P5DPn8Ez2M
zv~9@B))J<n#`xt5NpVHgv)pmQfHd}53N1LZfnJUHaZ>22<M&%Xy7S0Ih+BSzmeo;!
zFO|vVB;dg<BkE3vt1hRG=d#?xRs#lCmh^Q{Wjj8cEm71S=Gm>VUn@Bz^k}wfU8pg<
zoT(tM-0K3df~ouRRh0z(;7LL<V{$eTPF&tnO5tp(n5xFx0;O$0cYBp|tj=^6=7YdN
z)SbBDJ=GRzvIc1#Bd>J1IK(k+lR+z3ZsT-YE5{8sRI*>WOBA9pk^+PqvH4M^rK#@X
ztl+B_<zwmU?rn8-r<X}?%iHktN$Mn|XrP=q!z$LBASx&}$7`!9T9%AmeFiAhNVl@t
ztrlGN;XujTVU(_&zEvAWp_8`-Q0p;0@wf}CxhH0BRc@tI3nFnOC2e~(Z1N7fqjMPN
zoG&BSe@niL*Z%+zD@5*d8^AeUNv}5t?zxncdOPv|029ykZ)~nSD=v_$^y&a_a;o*K
zhm{_OEP|v6{{XO2@*{CM^PcU~b*E!VcmZzoDuE;0XI!r$=~$|zYj<2PROv{)64yH=
zdHAt6C1(#K)HDF&8&--Y*kxyQ8jHrz1+cU*+=cGrq_kE9?BPt)WX3lM_VB7OyOW!g
z#x+O<lCY#Bnk~WttYFz#_CVDP6tY%^DkNauZlRg2+muAc&nOzXgIIF7@;KELMJ}<l
z1BIKC7~dzjglAG$><+WD;by7oWRhF%#n;UFSXA<8esrkP(NI9^U=?EBE+Wh{e#k8p
z7g!RtRFHzey<Z2%jaw$<WvX<>GUsj;CaqNs98NAE0JplWIP_dcV7`9*aH_4OqnOjm
zS&qp0-VAcD*F_;9F0|^3K^w=c+YgoJ+AgkYb;g)1;k&Z)9Yav8s+5_hk=gTQsr)mL
zjZPqPH+NP1Z{rpTTYD2eTa6>^AH!;y<e`YZ<FfS1IS$cv=U;}qU#CJq?7bG9gtHi4
z{Nj<#2E!R5m99Zpw5b^-lv*g5V9FvE1C%5#1gi+`uvq{O0?ChHa&^~TVW<*Ha$Uv}
z#}H>B7Mk|mxEWf(K$S0OVc~gy;zaClEn&Nfvh;mIDIUTBBj~*AtF+0aB#6&9xm<oi
zoV1F;rM5-T^zb!}AF0dGscGA=V#_JelwO=I+}pdl+{FuvYz39E;^MX=ot3rm#MsU*
zRu`yfXQ+FNL1<o+Jv#uq)ef*C*x=9x7blsD6OZgu9GZGO-YPKzh&Lq`$jPuq)iI(%
zK)FK`ZtLUo<Af%95SwTku(Bpx^0Hdirr`3%H~_D8sjVBbysNAA86n<U>sd#a%Owbx
zf~~Vh6>Fq;25;_<5;f7=cH&o)=^EU!)LYd&*>7~oT<8J0Cd=qNFA{jx!m>rOEpj;B
zxz8fQ%JYt<sELkqW4GCDI-XayHy1eBd49Q4A1P~YZfv~@DCtJao`(VTjlNCpz4xUk
z{Yq9Hqzf+&{5PX}=WF)f<$VRy&3h>rEJhc{eq$<mDCJSH+JzWn2^{<^uBIwj;u!Y;
zw$*ogNL4iyO?!zsE5e3Nno*+@EH!chT=$>4s??#9Hj?0R<$4VCZH<JR1&-=6$6cV^
zcj3ypQ3*uERn<JmSkZu?^&<n^E>RVc#>blss@bo=uwKSAt4Awt_H}hv@azBqWA&H0
z&UQH~OFK(}xFu(Gh|W&|dLAlCf^N*zg7SQ+W2Ynw_fv?QzsjAg+TP3AgCO^!IHC-(
zM@3vCvu+h#bwG`##@1BKtaOzjttXXeVsk4AaCU7CQ>AU2fU4`Eeocv2eJ`gzp@5c?
zb$4CU?(~cHuAlK5R&;-snmo!_o=L$%$s402k!vl?+E9+=%@|Y~-6qg%6Z}ado_RSk
zni<as$esxBsb!PWlGjg;vo<Enns{HLR9`XRTPfyS3>8xqSa7f?n4}KKDiVubf~YKe
zibBis)YcNDX(U}Gm|=_zkecAo4U~rdR8AtusThUlJR~Hpaqy4=Zm5y0f?(r(A;2No
z<s9fsh0iJnLuV?*md3df(mw%BA@=1mm6lGI3qH=cDnt$<{G;^Od&U)Wh0X#uP6RzQ
zXvyr+wZqc_*a$j@0`gR?{{U=d4KNq|K}AJb*0MV2hDTfIqb?+;xHR{|kJvkls-%%A
zNwP?<0NOw$zxP&@MOHvsNzPTJ8+h=Yc5~&rELiVll(Cz*c<zU0019}mybi%$Jse)k
zdMLqYHo6yFj0m0b5xRK=p$o3&Cl7_gk^aZ4<Hz+p`%%QF9ndlodn2_=`p4^J2p1~Q
zA(7K0qh{$o7PCf#fZH`vX)&<BD_N)QYg@D@lQ~}5VHh9)QW5Z%b-SkA<xIlc7PeGU
zFpzE$5ewKAJELi589-!;kkTE(nTE#YK6bUZ0?0|{Y-0D}I$>nBGqsJq)^k_Y0|5;;
zP1W@_<TcARGu=@swpKEsYAR)@lLU}aT6GiUcLfoo>8^PMv21jGAOH@`C32yo2EcS(
zFLk|(U8iYnV{c?epG4T&J+>;+Hdtc{6Uk?0JX8x6GZ;VsBI9TPn=S&!Dd2o5wsa_s
z01i{f7+q}N`>t>ysavs*2Rz*PPjUA0q7L{?sHkHZk`SQuHdz|ZO^`Kun<8nk2n|ZS
zy~VNI{Q?f2j(V4Fkhl*DvB#~P*>l#B9c5hAPum!A&t&>d7HNolm>t#i6%9Q*K{h2#
zQ7!{mG4QUmasJYKD<IS3g8&2akEMwBNgEtUE-3gJVZupBv@wIaAk&oS+S`m_OD`ot
z(gV3uZJkhxL5v_KOz&!Q1_l#mZagF?4}9Lrcr02lhR>8mH|Q%fB5*sXX5~&eP)t&y
zsS&pK`S6U7AqK)XWf>V8Rx>&IL(DLEL^{d}k~XX&&?CELO9>Z4$nXw(DBCc<Dbiw2
zR9HSscTh=Fw)sF*RkUMpRdw2cu@T&rMTm^Nis-SbuNETex>~SJ$qJ@O^(v`t9B;M!
zD}66PsgpGgHu>dMMJ|q6=5io4QXkQC^h*^TZCizb0ct3;s#sb#hW)~w#tL?OY%Sqy
z6VXdS({DC($36<VrJ$yz00s@-ReajB*hp)Nfx49PI>iNS+)LRj8xIyjRBF#6!pgnR
zFE=EVn=_D6*RZILsH>It$p}a8cO@0+i~=s0WBt+Og0YqJ1G?SPF}cc~rJ3MaM8^0=
z?0CkQO*?R;aP4K(<Jg|zYlSw;R)|Q#Kt5BjISYlY@`KSoX8@7OS^blU_T(fT0L*PA
z)1h$lo2N?{E<7hk7~DJAGkP>u%L+0!We^W_1v3a@oC|Vpq+N~%;>jF-7XgcMn&bB=
zg;WnUfwF{)_EX3&o>WH!cSgn<;oF4A4{j6gZkp~nTFpt7l|$ZCQM6@ESR5T}{gBNk
zx}w@5*2^k3;`@!yWN2lFB?G5}jH@QH;3%^3BLI(-?m!>1eX(GWv;)E;P=}SoU%pp&
z;|Yb?DMjew+>ZWJYyse;F15l<#mSI4Y<ovO5`v<+z7zBPxk)0iVou|>;{im{ES*2;
zAw(}=j7>6ji;#}Dv>Sz66~l$qfWF4~vNF&hIE#-dq*#!Yl57Y0OmT4Jpo<DI;Yks1
zeo*_ck<QzjrY6;f?qz@}9OjU0NI{7}u)iyvGkmNLB<^-D6Gz;rOudf^GcXsu(L%6?
zxMZQ^cYCHjY@G6=FSz;mSjggUa-$@R+$V0e&9IpFgPR1&3drVgEjUf2HU|FyRntf|
zl0ZvIkX#C6iAq`sYwd6HQIyh)8<2r<b?hvpW5{W}mT?j;iKLajp}De+(zlC@D!Qu3
z+bQ=8eNdBXF*F}?p97(0Nfy&oT;kY6OH}*&P1Qu2iM^X-1x;;3ze8{IDdQA~<j(yU
zvQ-cb$U{qB#<%tV0Ck-%)FySB$pG?FjW1G_*ChVR$sErsWt{q(20^&`pr_TEZ<3^^
z>AK0X=aKeSRQ(|P2T61HM#-r*XC~AOuWi}=g6O8Hb-B07+0t~>LBo47@)e~%fkVT`
z_CnPGwqfbLR|`Fxm5ntlQ@8^O`CFP^pVM*rN$quD%?62$yF)(6XgryRr_m#k*oP;z
zkumh)-G4^mY?(_1KVyZ$t+D=_pRz}5ps87zr0M50{{XZ?x2Dlpz%B?sM1T6be@mfU
z>gePa%MrF=Y4rHnYag;9v52zMWG|_9`)YvtsGmJR<758oG|7jW?@tcRzEdRB+5HCU
zqI#JcEcnBIZ+oDmt%%$i8}z!#F}RoS)mjDt`VfGhR(<gx{gphGOc&Vu{m{;+eXIZ^
z_f5y_D;s?lvg*<}TiWX(UtafTZI8+bJ>|gK-$00DF}<SX0(rUR2I7jW5`B<MJhBsV
z0vXMD&hzvN&{D-=pYD_Lk#TRm()`i%T0Sq?T;2VNu=1B<oOAvWPmj}ZXc$}vDPCJG
z4;>(O#5?ifNZ6Tv-?Eb)7g!{7Y`k#9YoU(Uuux9~b|T1-I0ZpJe#HpMjVw_`U0f^z
zz+@q!jn^Y^X!22&7`{{uX6yJ?QfC%eB!-qhv)beJQo_kW9>7Y4%s2l4<x2xyfp-OD
z&KDJ7(U&#9ppMEnyWNgdk-5NFxZBEQfpH|EWuS+&`)<1T;da{$I4&dLA!Xweu6f*k
z#V+Tc=Ka$L!f+VnD`gZ#+;5NyM;n`*U3d0eewWG?8X6nMQrqU~?IXDQE)H*SP_fb)
z2cM$jl0B*Z%U^H{h!*7~jHrx&IZ53<O9S;x`0SY((9`s~OOGi{zET?}M3|4TAtAQ_
zWho1Y&nTj7OD?^+Tt7;14JOzt80MbgAOQ1Zp`hU)ZHfaNS_lbtC1g%F*e-cCUA4gE
z94t3OOL1X@y}nW%*ZQP4@`VAhP6A_(-7W9gBM2A17U<R{E|UF+WT$Tf_f2)Xa*3?t
zYjB!JYh@|V2@6Ra@UjCK;eR(wEj)}VU4h=}Hyd9G)``q%{`OEvZ}6oqC-&t*AvfVU
z2DUQ9o)MJd!-OMmj>yV;@p1G_N<jg=?ou^}weS8^p^mU1-|Us3+~F$}NZ9LSsU7M8
zf&J5%G5S|YeYqAuY67W|!x{eo$`IWBQB#9*e`GnZ#nBxN;B)m&?_{nQ`!44A%Eo#c
zMafDp--W;);W&`6!)$HvxQ_P1cXXqa3^TRT{3j3+Sm)smf`mCaOW0!Nb?kDxwbrvV
zC)Wivz!P=X0U<U-2Ok!?ZO_Vcjq(OUXW0`UY*h5bERN>ntd_f>v74;Yeg_ND^&LVM
zFqgPn>aaam)DbnWY;FL2FF(u4h6wVWx;*z$p%BhXfN#aqs3eVs>bqIh4APx~<epR%
z4s?$9$=!U$X-eDlZZ>IOSO~Lu_)vaYYNv~|*-xj%7;AfdO16%8Vr81pT)Mn(Hy4i{
zUdT@ydLW?E#BBxk3f3BE*e_tJq^|c}&am-yBs!Er+n;~B=gavI@?=lqaV;c@;>`-W
zvY%r~E-R<k>0)UcfI<HNsEVI)z*3uQ_?1}cY^<)1NeOEL4m~x+<915WHPOG?2v#&S
zF*t`6+2g#6_MDB+h!;<3@(G*muwJv$tP#e*Lda1v2t#Z|$16jn>QTpQJB91v{G=hN
zF{0b-^lB*pXv#T{3m>LxW?KfW4J_W<lD#}$RC6ndbjvHIIH6xw#*DcR`sR~hRbE)H
zW7t&g<qG4J!#?444AZr}(#s-B*i#A)3yalv=7Bg*^@$iu460oKo_RoOs;a2Fxx#%^
zzyp;}Q&Kl!Qqb04X|i6*?k8QVBc)V(#mduD$~N+yG$<CjFAKhl!haJXCC?x)cGg@B
z4*D-1>-YqYb%pYS><sbgB6E9TK_$VxthFEMPk-`|qLV~<Ibr>lo_NQ$MYN2Zt>=_6
zYr(eD`z?vkk7i%&nLdi^8?=Q7=0e3%Wk!<A$kE|$G*|&>S*i*LMLmy|xX`JbTH7>*
z+mAFTSp*mw*6@zeM%sptl=suPGS*3^g4%}P$}^gmLqPQ&nLom6*3+M8Sl*X+@SF5o
z8gI}Pnb3j<>0C{M=J2`PED&0^ZDA`XuIka#Uvq%6)M`KMyXd@o@j`dQNh6x#+XAJP
zYegXGm+*BhJKb+pzq+x9SAt7_5vT6HR+FqM>FS={<k{F4R{DS96wI~W?0oRK*CdX+
zi$0nB^iCGLR8mb7`-R~Ye~84`8Het#w9dI?q!}g__$aB!DMg;M987t_n9;C~0>x?F
zWk}!$s0ZC%QuQS)oJ!x_QDz6leHRU&U^oc+XahjPs)Ja8{74Vo9R{Hjtzt5>%gA4j
ziw6q?6-!)r7yBdV*lI|z!nmc=VgMbW{ZNiKEsFA}Xuwy~OyF$CTg{ewwi%*vJ4*Ix
zbm-i|3mSgQH?3%~I`(K?Fp7Z*&CK$;it46&8-RrqR7~y(TY8-iJN|?z(Zf%*wo}h0
z)`gBXifRgLkX)`~iH&A#yYk+E;RRDuviB?Ie6C59=ps<g!3ixmdGLpIe}R?EtK4#V
zUT@0N*vXG|JTZ&ll})Qv`b{lkRjktoHo)0aYAg<E#maeQQdDU@8Ty*pT<elY-9*~=
z1MYE8tfp~su=}A!Bf<A!O+iSNvS;cKxE+@=wZ!}=jW_@dl@sG|{UEA5YADNnmTavX
zIaK=HM)nmTZqQ4Ls@0?=hdq}^hL=4CjApvw>y@3U$yyy+GU*8yR5L_<Oz^&=7NR>F
zM@S`-<Y5_8Kp6=jebm}}+QK`cE2RDru<V|}MmJH5Ysdjt%)(pQUDwCC<=MZLTU5(8
zJ=O}*Nmko-x)6(BJfkaJbM!(Uab<wSXgh;PmFRzm8gZ7YJ;2zk1Qrsu{9Ss_;cV3G
zsEyJ%04?`kf1f@$!xhQV?;RbY-Ubre3oRX8Bs9_6zksN8uB4`low39R3Q6@*J>2K7
zlX-2@D&mpSxR=~uDQV{|HW@%Vb0PNJ1Z5j|u*zj3Ef+M8Bmzy9luiM@)}N}cp@_QM
zxK{Cq*wsZh=+S^Ire~W3n_C+$@~4_+FcXieq1CI%1T@`FN==nbMG{u(5wM#Os^rw2
zBfX~TlCGu2=H#2HwBK{?`&+Wnw8U=BMvi2W;FYt|M%IDC#c9<|j={XGE|*!l*DKfX
zvPLe1XwnnoDey9K?`X1*PjHZnm7$}FfuOIZ!7ElmO4(TE)U}sY)iv|6<)GzhYc`0@
zg2-xa44mAlc?~UwB<-k`!tQ#k)+&jN`@1GdSQ<Z86(*@((g@tV+@4bYD0s(aSE&y7
zINs#<SRHylYr8GRttfu%tY*65wcp)#;Qj|}bdNUIBmOC}wCG(k^A$|9ZZFCMT5$D=
z=PPUYQRo`B6Jzci_Cq$+9NEuZ=-!rTg^qJCaJMwt3t<Cm0w<)I7v-790chrQOpmg@
zC`K_k7BmH;!Ra_Q)>=wofT(Gz8S7w$Z52Z{;mWX*q0*rH*e00(?t_x4pmLyfV;jqY
z4<f$CNVIH$O4ov^Bdu$W3OWggl*&n(s6Y8oRa_M>tSp7AnW2Q;7K3FjsXwK1O3G^5
zsj+KHvFb{a?Z6VT^&X?i_L96$IupGPq*dy*E_>YPl7*m|##}bRSw4l*A8=AdLli(`
zh2>p#D^0sCv}%wnwc349a{|TEmNSeioj#=8G%MipB%LADbYJQc2SD$l@L$IGM3fT?
zUhON}pT0;B(Ro+m%^*5_q>JFMPAXE{DHG$m$V(@4ZNV!?_;~QmPAmTaQm)nE+f^{;
z&M2;ud5cqx*BEeJ-1x@P8LK|g{40}opB2}r(%8lqivAH-2T?{hcwWh;$O{HiV)9-`
zvpjSb=7O47q!u|&0_(Lg8XE{8t4I&<!mn+CMpM4yZI)==6RupjD90{bO_wZTu47%u
zRa(6qZ;8OP94mA!c)UdhVwXZ>F#^VbGOyb9hAeF@NrzK=FWp}@a_IR{dC*iST~4K}
zX(X(kqgCn?V})m|%o@jTD>V5U=U6Y7{Fme<@^D9?g957|nVXzQK~ytnHdcXw*hu<j
zSeIJM%8Y(iRsN<cTw}~nvroeDzP*B3ONK@KFLUa8nre7oa5(O~W2?0-J~v4u^Tylu
zCqJ_5@w{ami-NXiJ#5Bwy*Q4sq4(u`A5T+>sQ_bc>vmovORmy8Qv#e4&BElbd;B@6
zifVRok(Kv8H;mppnmoDZag`#EtF&o9DEB$Nye|^fVSIX)$BrDntm;ZwWTJN*FQ0nK
zhA;JJ2<>~{3LZy`eH~EpUm9kk@XfKt$jgA?dfgpk1V91;@C_qWewx4@;?Uofs?fU5
z8C)7>Z``kk{IBBjsq#hfW=!=-s=z#;=hRxylBzWARvNaAuNg*58yv!S0ry@r@Fxh|
zhIuTn)%8cX5Dpe*s7X-c?I!B>vYs;X0o+O|hJnO;SO?9nwm8Qg$;wT-F!dTt&IFcO
zR95NY09^Bx>l5j2dw99?WuDeFSebW8?)t90UP`i3$D_?BZH1WA_F4U2o%@N}K>1#e
zQ%MYWvjxY(%JmBv8f*X-E7kFH{?v|XMVMz=H=B&8YHC1f;C)oOi`g5Fa;WO(-;12D
zsPVD#R>VNMobGWp$_q;W0P@D1@`;(C_fb-NDjG%?p%qNh>qoQn4$%n3$pf<5RZvS&
z39tY!J^Ve?qmN*594|<lRAHv}k;3fN5=ofNUr#X-2w2XdiL8m&@U{Izs5#Fhn=d-*
zZAd$F1D8C;NXY6Z_~e8h^YW#re&-TOg+z8u45g=)XGu9W3Y=r=ilTqI$udIFriz`{
z7eqI*8&3tzZVIxFoq5t!#bCjXBH=hvxx?zLV1cKbBcqC)gWT|%C|hL|bOi7e{{WF|
za^Zz*B(&^lE$7Or)GH0F!GEfLSELl1AeJT$Ernk@ecmjb`k4v)s9g6rjm11**JoZB
z(L4a#gxY{W&Qy>QU;^racBeX!3%6YzrwhC8f+IdvhMQpEZnNmgY`Tq?ipWWYjgig$
z7(vc6btuN!*U2Od=G{hPZSQ3}g`3Ka$2L{sLy{I2fZ=6rMo9pwxSH+C)`_+WqoO&Q
zXfe4KDp<|zGNNY+SjF9i(z-YwWyYT2vdRr>F&lVOP%wtx$_->%Gq|oCk+~k0ER_QV
zskO#q^+GZ?U0K$;2Fz}5R04W&*p+CyL?^aQrnHAGHlL6ddWv{l-~h_d>Eu{hF(z1p
zfqPvcH$Mplt!whRoY*OtBA60ED5ncE&5+SNGn74Up&V@>yZfOng$%ElMjdjpTE?OJ
zn$!Cf{cl$eyI59tbLW#cvMZws?^1W*m35-&E|JY8s!bP9+~DHdt-gz=28NxZC`wd{
z!yA(!(e#kkf>^Ya)UAvQ3t3G~0AqNvBHkA)vRU68N+@J)1G1a}x8X(s`>93t@R7SH
zl@YqZIi3RI1FhLS3}-7CLJDKuX4!PI1_G-qDxBlBnI&YK70Dshb*+lx`Bc>tRMg3~
zFl>vCj!B=oPtvR@>0^r48TeO>6jsh@<a5#i)966=$}{qhbE9i^uvn?~UAP!gIy)W{
zDI$Lx8yic=Dq|QKOHRP0lH6qpGLeN40dKM<JBEy?ZIOjEcDE{QvP4s#kE)55-Fzq1
z9H`>9>y!!y#rjifEpL?gZL-OgKc?#;tPtdcL>4232PVjhagP>3^aM->cu>v-@TRx{
z2U9JtVv#MBy$T4vQA}_HB~wdU)*O`t`owH$vxU`uIWkhpk$E)j9u;+EYg*DS6$MtX
z=bJE+qKZ2D$6=<$I>q*L%gFi-s?=E9+@Ox3Gs$dhx$Lc|dVWW3GlH&Z^y(^Rd!cFh
zDvBtB$mC?H==BP>0z-iLS9BT)1Q~%PT$;Lgn`Q=&76^GO-t0BOF*<B22q|frF3<=`
zQC$#e4Yk6qd!&$(;&PkmdCDA+%M%u&t?vfN8C>Uca*WtAqn)E}R^)^6l`j2e`BPG`
z7Y<a8Yf0>;rC{H4;TcOoj7gfy0Hgr&oW$#Vu6H7e1bc9!b9^a?O*R<FSu%<`E9#m-
zxxLf_4gnQbKsUKToWBaOY!yM&{{W|)C%9lJsmHeWQXBV5!pNR1S6|^PzKKBjvd^MX
z>`(`LClCPgxwZ?OZZnURg-|S{2M{}@W3oJ?k)rp?bZo#EO!@?S52kV0FZ(HjoS>&3
z+voOEDOSrqg$_APbAnrx*EHJQlOYl!nD+kw3NC(uOy=i3)O$!IT`+8BQ)F-#!BP-y
zj><P+ENd$&+)J%wFgI|!N-nb7kIEPm=jf=qvSp5+!mtjqt)k<ORfzgwMfO@FuZ*SN
zjM*~-kdnax$u2$=asWrlL4kG02P2h*WN#M2V0UFJijMj0ogz1}T6^-OZTl#}PXrK>
zNW2)?fU;)N02U_6Y8_#NWf+zIN7BilX~>o?ZDeoqfPso*a0m#qCBP*HHa(9n##0{P
zex)_i4=NYR-Y;^3EYcob`zG&=#~`8PnSk<#eNYDnDb!mdDMbf6(>VsokJvliR+__a
z{!~w^aqgXCWTlxR&C&~A>M11y>Z+escOQTEQNFI(-E`|6c0uRaYG!YHU*#vRz(w3F
zsa;;p)^)&5HCu<V;_0}dK63cV%=?sYnm#xG0Ci6r>QCtb!{slhQuh$}$R7m?3d|W%
zGdK?gPp8cu-*dS`(&>hB97z{i4KqPu+j$y_B`L5H(IEaC?3n60veUFU<I3Am=rrI9
zv87r!M}RbYS{9;w+2a+OZG4k^VtEI+32FLYP@IGBvG`ud-7W@XFemyEMlH3rSpmrM
znof_Yu-w;`d#Ci1SO=*I{g&%=Z0r*qR>tA3v00=GWi2mGQAW@m2IO>lHlENg6I!P=
z<P+|1-A65KZozXe^+L_q*J;{(V*#N35Op-vz!1XQc?l<|f>&(2N&f)qK~yp}8@cYc
z!;<o2aR;6)uRfc;$bFSAb(%BfP3zLK_L1Z3mBUeFV*9b!kdI?=WRTL=5;qnB^;S^Q
zNnyF(?>AJlYeAq`vHt)>JlgE15wXDhCP_4B30bFn4LBr=e4!?QG=IDrK8r6dt*A+j
z=H3v`o~A)}%J1E33}DO3$Feu(R=E8TCb_L72JZQ~0j<C4aVO-dM%!2{-4%`-Cw*+s
z{{U{|?x8bPyx-Mu3G5BG7Wydw9N|smqoO`ESTmV3u<0NBriyWUlX2x2Yw!t5&^x4g
zS!LrzdIoGP94Cm|@J*D#t-Z$Uqz!MMst#?B9BB>O0I^6wwo|~d<P_hV93^b06o%aJ
z975pv8h=_+2R6EC+6}M5)M`gL&T+Gi{!)YYO#u0_TVH~M9S&`>R|0OCXA5^1%Imy#
z!UH5Z+#YbCoO@K;h#6`6s3zcyqJbr%x^u`;vO?DLWi3Vb6$^kPg?Q}q@{JRX*#Ow0
zV3miKgZDue`?xk!z}#?Et4AKJvfj;y7b+5N>)0lbYb|uGb%44;upB@7LgBREl;B29
zu9obzi)?#k3oe(jxDD<SfDhdu+kWX=YvsWPWWp&aeQO)oBVVSn*K2|L6<7?d#8QwC
zAt<S;VZj9>wid%3rn~t{jr1}BVSm|1%|fl5i-Fll%~nBsxA#J%GGsDSzA<+ZWeu&}
zNl{e!&$xg;x{PtyCRglaAr2!02`u4!CkI$$U?*?RQ43Z;Z`@rWuqtxqp4ZCaV<7qL
zjgx2`@(SU}Pkz-IKPlG9y&Z6SS#dTu?2zQ)c6bW_R*(u)=H|(Q{g+tr*<%)3U^lpM
zN1lH}P5k9j(oM18<PPZO)dSxuQ@a|hCD6ofT?<q%q^EHG1bqtOQqnDS;X6(aQd=^x
zY3N~WWz2i70<Dl+7X<ez-gj<cu>dNEk9ki9-)0lH{t{mczRQh?DuzOQ_9;Ov;|V)p
zq$C7;7*{;ovWd^X@{g){BHRSW5qyiLL?(t485wEHhCva?Bq^R-ZZM#eY2yjVG8+=$
z1HW`s4R!7f{)z@h3&FV`2-pR<I9kcFW|x2l;-1M|EN^=zgPW%}FZe)TWYJ9P*tef4
z&z9oFp*4hgT`3z)mZ6X>Lxr$ApwB-jnN5axLh*CovNSqEWFM55&(%8P;UVO#G1oj5
z#EvYu93`;;8|7dmbAM!`fVcuj7+iB}@|CcQ$+}G234dS`6J@L@LvRxb$0^PyKMACZ
zpC}{-A+bLRFLw7zc)~+|6BtYQDH7Oz$t*rmMn0+4^=Td*l5R1TkJSU_F5e(O0R#T7
z`3JYZe<|&&8!scQd--226y+<C=CZnaR*T@3T<Wn)C9h>=sMNSd;~oc+Y_b}J<<pW}
zNkcD>@+}N&X!WDC0$hK>HQK<nw`E{|)R_xMxeGS5`3;)m_Fi63$4X3Sqia*F7dpl1
zg1UJy*OBtE)Rj+rw;P|5ts7ipWr6xC;qbm8B^zbvoJ2Rh<hz`vf33JUjo9yHn|)NX
zIE&z`EhdD?AS4szc1jV71fr5O8h*De!HtIBD(;tCsUpsGf~}>~S|S91)Y%wV?W`AE
ztx8%%)J;yEsL3O&U3I3?-shI>;H-yD(7saFNa9+y)GmgaFa@x=oD^kD&0j{JOPIs~
zS4`BlM{@Ahhjyyg3rEV0_0ma~$bO5_!R1aXj1cK0Yby1y9cH@e)OGHWz>>0%Kh<yz
z$?~q~V4G$5UWN$gZ<8}-f%=0ZW!&(qXVsf4_O;5RRcx$bu|K+~p^@UC2YFj8v(9QS
zNH_FusH83zB^4z0ZVIQ<<!Fo&S60?E0s&pGD!~DgC9SC$%Bq$}J^s*|9O++jRFb+l
zm`)cI{H%{}Lb*RdI(wYQf=!l+n!YwhH#~5>{;yVSH`&Ujt?D^)(DDN3Uz_;<09vyn
z(KWqp0K(AlPk^x6qrW#T-D92=FZ#@qn*wsIC?vTLab0lypCxP(vU)uwuJ<?vG}>e>
zZ|Mq2bx7f5o64_~RP`TX>n}4unLM+kCj^K7Mg|Nqq^iwIj24?W3hD}oNat}$G)|}l
zHKyH{b_J`DIQue`x_C2!M|H2#DFb5%ZGs*;F%yG`xdj$#L~Ys>viWjy;{$Oftr4<2
z3j(U?-rvjs-zl}T$naEJY*Lx7;8(lha^r1`k?EZ(>&D#nTS{Nh79*vDgByGmwxs<5
zcQU9gye@YM2MK?bV1ZYQ#8-}fE3ldgyWp>7trv~U%6}8$-9<JoY*gpa(d_vbTine~
zaeQv!1SOCGm37p#u4bt=Eq7chzsr-@l94SI8y!@Q{$ut<L#a%{Eb;*GP`{TTarR63
zcb*!WkZmIBm#AxDwWe_&Rc}SswXqSpPwuh;nqJI5V3bnKPy1)~LxKv(*R#_!-^3}J
z=Crx@^L4-J4zP7pj1Q35k;z^ILqSmY0kPk**7WP@Xk-r9^I|(C_>y)Xk+kUh6QiaT
z6wPqT*u*Tr7tWm#_>)sd10j|pw%wYyWAQ9H0q9b>&Lfv#E|=Dk$!_*~bdoYQlHxG4
zI<~7$WG!pjY`n`|>%B^%_kKU6xC<Fy)*6FcNe%<e)TPhTD-JiddsC|6dySk5W8V{o
z2wpFz^_^3s0o$$RYP9a5mUfIEs^ZI<P+LX$L(?_Ytz&`VQC3qI6J<O#hDP1Qq@JmP
ztIW#QKxve96rqIVl80+wd;-v|CO)aXtPu0MCN~)?hJG@u3rHEyY-7n$h|JkMcTvwJ
zjqHV%wao-D5?2ODNj)G`eUny21WY`ARTWIlbL`9yD49(4C*5#71m;j%Bmh%FIXh%$
zDEbD5Am9mIQ3z{qWOG>*ExV1+!iH%B_zI56sZm8y6YtywO{uT|ZnZPU915Y<DNTt3
z=({{kNOdbQI;_l%#@wvz&oaw<^VwVL(Kt*&1X)u)>^yzf(_?n5dkLluW=T@Y>z{>O
z*=+2UC#(Z*P17;gK=p;AaVm<wQbn$g)T-JVKsi)ZGC9PNa<bTr4y@h94y2W&o1fi8
zMt{OA!Uqubwdl9W>ac=9#|sx5L6BK*x()*Qm;g2<aru?NSEhRZ08K{o6GhM6YiQ|Q
z>s?fI#V8T8IkMX6lz`aTe5Bx<f~9&RqSMQUMis0SLA(nq8Y*@*ql83;D8?;xt^+0o
z6h))qHln4m3j=bxs(X`U8D`_2=r5o)K~qxqT~cawEs2hFhwK&ITLTzK<z;nxX{sb3
zk7|ANg>oq-u9A7J8+MEMR~k!Ya2F^@bmJSY;bn0^!5G45!(zDy(}KV<ue6C>adN4n
zVRgGJDmE6{#>=x59CkESn{6tgjV;R3(p9r)yMptoN{2>8j#ZpBle}0suU8kFENfwS
z(W=!oIHQb!;dPDF>ddb$M9$YZZgC}7RImYal^p(G$c5uYPN7pE2FpKE>W93SI}1lq
z7=6XCgPxFCa6(_Tnl{;%tPTL4R##p9F1p(4>||{q9F>UIat*j&L*u)N*&dHP*7GT{
zzWh6^{JmRq+$tS(e-PWsXHC^U8m8FyOP$ng=gzG9x21LVvXz9q18*w*+SBR<n(QwT
z>77DS*53E};cay7LQ4Q$Z-wGy^RitLf>dwdtRp4=0NohPS)<z1a<Oq$Io8QV!99q|
z(DSC14AMrg^Y4@SmwJTd&LvaRR5rsX)<|9~0_nq%&6qIO2vo4^v9t9#R>=W>Afe@?
zwo6yFg{Yxk%^P}(Ck!a3)te(uR$4$~&O(XRP9H^XX`oX@rF4y$pOg=x#)51RZq!)I
z?kclU*4);eg2U>(zbbTwR9aNa9CsK&dcp3&7FjB-W>?GZf7wk-sJz>fycstp9%&lJ
z7WOLFNi8lGShiM3;xCV)(P-5?D&hTIi_YB}Mvx%;FEIR8a5{9La<{^z#tRP%%|8>R
zy)1(Lm!SNIq>I4$cUp{oa$|4iC`~k&>Y7F}t+lBC0P5s6<;uDc8&J|h^?Sx6K8^ew
zu79N)Z;J)*x+KNWw3FF<$@oE5*u+BkUqfgWt#mE1?7S7^d|4VP6>Da`H;XBn@Tude
z7|JRMi;acXvEzAPAt^$O2IU)0%L|~X?s8R>R@sghqk1Jnmo8j@#}ReQmn>tH6{7H!
zI*P0Pl7WmRSMc?MNmhTFA|Gh715t#(Rk#SjO!E@(Jjmv^!0X22O3EEtcfIEBB~%&q
zzvWx%a27a{sof8{>*I4dslHvFlxnmYPf#}8s?MU;4J|92-oZL)1Z}nLWr*wDQIJr)
z7iPtE_)?6dlVEZ7c_-q>U20-yQ^6;s3AOK)<W;rRHFA2D6Fx(JNxHJ@YUfsJ?>E3I
zgcjX?h2da^JZp-h$Ip^dlh|gTF^Z+GF2Fp6?LUW|T@5TOY?6kCfyrJKds^2;Qdhn^
zH+c>27o*Lja=7gJGpPRn5ZgRXf{xB77aT7<t*?>KeDfX8apbJM4!I05fqS~$)8*A!
zJGVK(ty6tiVn1H4k<grwu_s-uq^r9mI6Pfh>-wt*En!(1oL=(d-Ezt*U81&nCW-i;
zUrV+#?P$R#mABEq6U9xNH1;1=^YKOLl9=jSV`b-ge~iVMT@M_xiS?&SYjNsDj*s1b
z<$4VOA|PxpZtKAR019;yBVgPH0`@9xP41_&4a)c*$l>^MIHR)<?Y3N3)wUKL&jaYP
z8ohX#&e{q2Djia;Ur?DO`l@N`nr;CuQ}J+ecE`yoK-#5KV{3^69v7Z<Hm2tn1_HIZ
z-9to1`FGJ^HInHb;#vUhW%XVb2(8iP&TX?bSu5V>ImYN4l2Nsd+DKL9)^(TD;8cu-
zaJVG$pm?*c6yqn#jzRwb;8qyC>77N;$_C@g^i4ZcbnuUNZ!5>?WiiSQR;NtW9N4xr
zszO>M*2})Bu53{|YqMqMT9r$smBjZeNv>5H7)y%B)H`&h%5r-d5gePY04D+ECl^Wq
zz0~xF_<;`Mq^5PAKBzsI*XY|wX(HpoxdGd7EU5H3V*nQ(71OHN=Gm5Bep*bGY-zZ5
zPuV|kwk}j*%)Q)HtaA=AWRciNoYGD~Le$1Ko1*F}B4!(t@T+H-zT})LMv&34ceglD
zJPWBLkbTq+ea|Z0otVPutO8l`(xat63Q50CLRNId5Vt707M<Y;=jViOo^IfYquF&3
zf2J&isxsV-z-1c8S}|l5SL(WwyE>{g3gajBVRK88-#;l?byV3W#F`T8j#2cN9nf%$
zkE${=wW-m|k@^b<A1KNu-QW;|rv=XPt)OFB7(5k6Dn~6_E+~XeU<Vkouh&|~Fzpur
zC(}q=>jJw{jQRu>$vN!wFk`fN=B&^ra;@&I^_JRWe=4kxcM7p$O;Zlj7)!^MtkYR$
z1)S0V+!m`(Y1%ltX2?kd1`;v_)QyaRo>SRow<QN%UmPqqAtPcXWEzc8iKGMYvU;U-
zvbeAkN7YTL>V{{Q$D5((sUJ|_Tsc`Ws0ozsmB5g4u5`UCaRj$2=S|WtVq1T*(rLO|
zTVu2Yu4xs9CicN}O)v`*+^sb<0e}l9(o+Tu1wE{82ibGVR(C=v3I(xnxz@69w;>_1
zHsMIM=s}AF{z8nn0dk>rLwE_4Se%mVmPdw?NkdIu#tU3sBchUjXuXPO`ba+M3H{Y$
zkL-l={SX;VOY9C0gk3!&Tkds^JEt<9C@rujla$w868)vNbD9PPk}<iuanC){v|S{b
zY;h!OdALzHSdga!+scLD5|%7!Mum@%mPCy>T>OjoOvOlMZlxSyMg_o9H~XMb1JpR&
z;YS}L+$m}XZlYluh89C0_(>plOFKr)q=bfy;X_wY#y6F}(VL<-SRPc2nXMg_HCCd=
zk~ah=`j+O|w<@0-eUX-E#JrxYG!u1EU#M6cU+Hwn;Hs>3m<YPCrs<c+FFd4tDn<z$
z^70!pwKWw}zieRKqA2ug%7+6fEot(#jnZhTKkgwmTF*(=V8?3&)=A0Buu2UgnwrKy
z3Hb`<38`TgV_Fqdl`fF?DoEqpFc4!UWt6qe;2<Zde2q3H$vqR@aEN3c7F2Ew4p8Fj
zoT=d)CrZ|WmN91mZV;Q%Y*E-uZL>xaKf;nP(Z&;B`!0Jrr5Z#Qx@5!JZWP2}MLU3u
z_rhx>MQiVMEh~=xR1!ZpPo!}#?w;)lMVPlKz$P#oC$|bMk4F)1$|u^`!jzn0MEl>d
zSux@PSTo8TSlts@f`w(SuNR?YgQ-B<!gGP<#Wt8+VLnBlVmD(5?PQ^#gn`XA!sB9Z
zkP@*+ZLz)VnEwEtQ-C%|N8F&0)C}NDjrdZ-d-9`k{vo)sk|FSm=+W#tKhgmKIot!`
zG9m4~)34b_*>)&4U3Av@N^VMI3L4>lEoB+!9hBP~Z~#p)Ja+r0M4Q<OAdV9q!NQr$
zweD=AkQ-+gTEhA&YcTxd!XEAA6<FK32V?eCk3^d+=nHLe!AG{_aeFG-3kLWI=DNX7
zNVFL(zHpJ)AlnIoOFKLzGO(PbravS(yH7u|=Z5x7GRNGTs9!TfuyD07N@|Bo^-zZk
z@}Zh`=EmqrDo#jOjC6BLB22RN8ZC2$-n#(DDxuXT{lbmYf(YI}b)FzB^jS|*(hhD^
zPMq5Q6=anS;5+sxn5GVd5(yp?ENKDeu&8QDcj?NWN~ZyV_Em12j5UP)kkz#nVS&tz
z$KuO4#hGSnqS{)sW7!2IVHe!{ebqnbD+|Y|1eWt<Ja9!&?8@l;-33d~UTHFUwFbAB
zT?;0t+uG>S)6h-@s;&wm9+!=lYhK6v-8Upjwo*S*kda~imj~6(eXJlJ>rqS7&1uUT
ze(K6CCYmrV!U`O}ur^|wrRoz{wf4WlIu4lCTmy@@1C_R>qk*FBHY4F!QwFg1D_Rwp
zx-ONhx4o@7SF~L$7}4rL)8zMBcF5ZgXj3u4!ojvE+7&iY$J4an1L;{y{*_G_AhaJB
z3gE{4k^WHgL~U~-S`D(O(m@%xYe$td1*~n@8lNkpZTC17B(-$0U)~ymLv84^rk&Qn
zBFb|uNf!=3y3EV0GBNCaeh{we8i4CHr2SJ>n}am+&!{vTI1%+g&!|<$&)rZ-uGdI*
zivWD~LdjQCK3^#xMTS_JeEnU`{{ZC!QLa2-zQe++aW1%Xi9ae68xPeKlNsZn*|n!Q
z_i_?lQhS}P048h#`~@71J9r8BqI_8w<|<^C{-c^tg)?0voo`wH0CJ$WzcvZ`PVZ~M
zA61<OgCh?o-0R=Eo<`m~a)gV0fENAHWD?6BRHn|HP_ib*!SI}7Z)YyB39kC7@@Hqq
zp$u8LBL4tX-$~rql%yX#r!}`2aQ)LM6L6w1ZN^G){W(tbi8dL!f28YibQ>K+MvzAd
z;DSdgJ6QG!?Z?xyMu(1x0Qs`#TNdZCMv_Olb@ReTi^fTc1_@1bY%-U3Vv_d+Sz|UQ
ze*qB4_r}wNIe5Pdy+Rx9BqkBEX(`TmP?$(5t)4&)o^Sn=n^!2XxIa*^n;7=FuCu$P
z0{H;_)1;Ns8@La$Yk9#+%E7;5hZwq3;>(-aDJI9|Ayq<I4=}<b7V>O{s6N~*jWV*P
z_c+39K@719N{==<Ol#U3eZ+lNOb<IXGBRz8AF48wWvz=LgW66AD5yZS$OT`~!Aio+
zQTj&3q@O*MKARJy07rs{xd)ySGVmrXZM)qu*1k^(1Fg-|O^<w}*>6JP>#gR=w(y?O
zgj)(0-Y@oC1Aw?B1iWJ*E&Cuk5N;<WacCsmCjv9rt|Sn!)HiQy1=!-;CBo~A9|tQM
zs9_f;u}I->3B-#O!(cdB3dA=6BqI5^OW7f^WGiA8k~k@)s%A*h@op}Zy{@@7D{Pww
zwYyn$uiZ{|5t{|hYddh6up$wTLhN&Nj&Nxp3;eDp0Re|JTw4h(ZVCO;2X?*JV?X&y
zYZZmy9F^Xq#x9yZ3R8UdObZmxCkKTQa5pzjcIzeqp9>^_+dAXDlJn!?Ap^MkBnX)?
zO}r#<7U3p4@!4^=)fx?qIK7;HiH7!4I^<@_kH=sUL}bR1f2a6ROJTy9!~wz?&IcTQ
zQ>048Wy^=cI-RA%!mf$dH#Sx=JK6}jS(BBL`e(^X8sI^`5(oCb?w-e74Df-H9^Jz`
zS4nc;)AkANaRZC4nbvMbR%0YrN^_Bg6|g+1WjQw%@S^$@LNwm#0sC1$H{$;QWP}TG
zZ-s^v+D21=xCx|PI@rnv7Ww%~2iY~a$q8?Sp%)-n3!jA3=QmtQ;^iT?g{aL4;d~3G
zpPMH*ox=PC-uOiTM|1MHE=j|dW*5IauDI}09{euPghG!?f}yPzX4VemoT*)@(!krf
z;pgFFg+twMc_B#Kk#cRG>*b?~^0_n5;+BK8O=4Ne5wmN5%Fou-xC4`aH$>J*HkN^4
zswytyZ2Ye1B}N98X&&+e&B`i<2Vu{_zHU@dz)2)F{{U3^9_Ys+$Yi&qYj2|BIU|jr
z6J)KZXOdM1uICaiO_5NS^T4(eFB$gPls?PqNn_qGo0Y84r(j_Af=BjVeFfS<anCDN
zpj0)j21y#x=IB2fFSaDnxsFd#I}>k((Zt>Rh`OnZR;P`Dt-Fcg7e`q6z1G^!<fN7?
zaatCcr=X~jk$}UoqrxE85zC1yH0@Fdg}qJZ<AjXVn&Eqa_g+My9#&o}Mve9RGUB6d
zs$C#!b9J4TygK2oA5^qYk@A8a-s{xx@yjF9q%4w0sPwpN!(S_f{4Jz1z}UbRUTf2h
zm<H}~{npN(d58}IeMTG&M`U><cC$MRNNujO@wED-#PC(6dmKS7R26k*7myb(mBJfi
zDOxXMsx57ckkeK$JKXR->nmHVyaQ)hQXO7bN=D*xzI({?UoJ62Bhn$QWxcNZs4J@O
z(_&5*R)bP*-+Y4pE{u}5)Mc0rib+fLwlb;*)oPC8VzbpVJ?=JEwNaNk?{FRyX(&w6
zfwuWvc)VAddKpb5MWw>`Ij3$F{8369W-;0Dt~4zNaA__6%U4aKLmM*Db?;*QQcG-`
zcF!`@DXN;?+gz!ohO>3tOIp2(vr2`)mo=aTl-H;rYfD%YPx1Ki#@AsebXlWigWOzJ
zg|*N%oQte%gVC6^j=#WGG%(cE5YW?aE0g2Rll6)dWu;D_#}WZUI;b};u==T+qfRrl
z<r2=GmOvc)l}vw*$hOTy6isbO7Ru6Tlnek}qwW+MZkTDn_S~yzi`aij{g=0bKOAUv
z68A-jM{6xTDH}q`>D3k>6{4f41OTq49Ttr#N$jCyfcH)>PPSq?ulCCGzPO}yL=rKg
z_ZD7*Q0ugXM_Wbtms@J2aq{d*PLG=PUWb~hxzZR(&naO1Ig!IK5%ph2!_(1T<$)az
zg9!dWx)d=*66H30(mxEIbLf;!FX5Z7n18bRRhk?F`3LNzZjAu`LHjNL02k2LGv`=8
z3_#DKKDI>1_+$ypP5qb9t<s?%`(yS`8e}8+0xDS7pgw<Rg46yRwTJW%*%r^k@ZaPg
zviA|ENBsdW`fPvFkI4_9RQ}HvrRc9ji%0#HlR9cmyLMaX7p#A$M{m$SWTJvG{DbyK
z<cH9lC-!+HohtV*g3^AWSIy8~yRPs^@n!8shCk^EMGHTrACe2vxJ&Huns3ASqsfo^
zD~cYK5Q_#C>Hh$bX#POBP`CP2XYtRpWf?DK0lE=rz$uT=-^gn8FUhz1QW_@z07{Se
z_<n}{{?9d+LV4sks2!k4f0X{q)IT84=nICN&*&er55~a#1xkNsl}Xc&JhZ4K>BlsF
zh3kh+Vg5j)ewP{Lici7u-=jHXe$OHr1fb!E_C&|hl`{+3!|c6MEh-@I&=rI<5ww1g
zKFU)3e~<JCsk6qN(DIzPIF$^Y6F2?evi8@}ve*OmL%x-t(m!RFgX8}I;xmN4&lP_}
zJ*~diEca3Lw9vxm3!E>ZB%_Rv(iVHDbeN=p#I$g-{C*qOg1IB(o~)&PJyV+Y+v>7)
zBIfp9x%k6JPX%wM83o(>FEXu&F^)DxMMFsIi?wAOq>J`IR8=?v0VvAjl6VT9pc8!E
zZpQQvG==9UDk1<0<%AU+qz2hHNKjgb3*o^IN_^KYI8nK$l7Pa(e~2;NdRO7&N39)-
z^H_h}XkM52b}u_TU3va%{RzzXUYQLMw+mNKQpkY2xbU)C1KP-%3HV1;)Rqzg`FUiD
zVNqtCx~OQj<plb+>@~|Y*<^lhZSt8sj%fW^QOS^`V%eb;?I!Mc{nOj1GWKb@%5Ql$
zx#bZ9oCWTdGHlIJr4os9NKnpWX!d|l(N;%L-~a~5gErQeTK@nl(R2X~H>mB;Hc2GV
zLG5V{a;DXFSsLQTy5B_xocGNjbG)vsTj-RPGf_t@lE1)Ll+lt0DyK+>;kR0f2wP$B
zy-XNe3c48$JBb9VT4=xkC>~nRh0)ZprzLMHDhRAYr2}fLtFXP!0+xElk%FtIkjQKb
z^6tfyfh%el%h^;_*F4-X6>lXlcQz<0sz$II3!jBtQT?_}J?P8o4w2U{<gAvqF4tLY
zb!Z$KPYWHaHo?p2e0TaC(dhHdcze%|>76rAzN`le<rA*A-bc!tq(ox1rN;SD^JL?V
zi8%6fdWTL?5gSh!T8dh0JP-+0{W{h<7T7ICByhBX=K_8g$xAcj7l9#Z;&5oihlJwy
zH0=QwxujW*PN$_ZNC^tD$ca2}(Jq?DJcXpw;1(A^(o=eE7s9iocG3V{_%o>K0b+i`
znNHhq6mwIzZwQz@!sSTt4gg-(9#ckijP*?kd#oFTB>GXYxLSRnUkVvoEO=cKYC0#`
zimKAA4T8_=`g6liA$mni7+P+#n#))icw9bImmbBdJmK1LGUnqb*x_s~0iY@MN|@ny
zAyth;x%M0{8MejJEMvamVREl@aNt2Fg+oOvNd%R3M_B}8o0Q4XlDB4w(`|`)$Ko8@
z;*q!VwbE6-SkBx9g6ncjPv;=2;cipe(HBVZ4QZFFlLM7bM%h7E+QUewea3F7i2f+Q
zmGnRK6`qm!V>85z0G>kn2d3wLq|5kT4ftaVeMtVR-*g7CkTT?OzE8_v^EO`}Mw*H4
zb*@$Q2wB=WTet?T7M@1Xy^qE%63SV_gnSMJSy!;wB4LumFL@DRi;^_lT`DFya*k(~
zw*x9TBy*jWfnf?Nll&s3Lsz=cl%X>(Eq<t4GF8JM1({g*E5Pa}u%7E_O(y07lA_U*
z*;A@eG3_{6eMX&-8!g3iy@tZ;AFV?p-dtD8es=^a;<kDoET6M0sz2IxuO<9UpKUCp
zy7)F;t*swQH(W0b{8rSXjtN@gyl=(g<((tDB&rPX&2{A0KGwa^EGGW|RLx4K)v0^0
za7ttkxbVMD#iWt*({{=5ZljY8B}sg6qmsq8!lN+&s4YCFzP3%IZbM2v#HicyZWNmh
zA+x;5bCm<YM7Rvu4<O1=(Fsq0?UWm&Av9oumR(V(^<TqUvf1PJU@vvi=4qxEc;mA9
z!|?p>sAs#lUqN*20n|-%o(H#!uZR54jd?8Y@wy+YHZyyhszVTSh-g+i^wC7qx<D+e
z^vQoP>#!SnE04v*(hhe(T9pp?w>e^U%3#9a0`%(WNQ*ufp7l(T#!ryF{{RkgZjUli
zmD%UIt=dies$(GBtaZwe=aAFgQMyre^f<a52eIRXrz7DD1MZ0zAZ1#|OpV6I>S$|3
zAe*RU@PnKipqm3Ht*?Cd7dAmOT;*^XPXn<+j5WbA#B!u}3KyF!W;C3frHt5%CX%>v
zgA})*nb#RtkV|3umS&0DUNWz!P1*wE%^zT4#zzx^oMj=nB_kuh3ye<W1<!OVXlCul
zB$AsXWV9)RcBz;Jt_9Pf;I>lD6M@K4fUIhO&lf;D^<#x}&iKZah0+WQDP|tul?@%r
zmTQ2wvD5kkb8O;@p~HpHuec{Dnk()XBFN~;Y`clWU<CG1PGh;wJ1O8`^v85HNU<1G
zy`3C2vKN*M*)%<al9=zU)MN!iouq^5<YUMgR!}o=7`@dsAp!Xc@{&e01LLtwh|I8~
zg{)|C;WDzcGuYGLga)CivKY%+Y*k$x?yIT>*t$KD=-B9YmBHu2J6877k=-VP6Il?t
zZoK<M>tS-_TRkiiN+t_f{{VT{@~Yeg?vK?AoimBfRe5XAW6HEsNQ~y2EVQ@#?ZVbj
zNYNO%A9aeO+|z#HS^j;@j=<$JAuX4>o}$Q@Z0jtZqgwiz3tCADWpwpYTIR~nNzsek
z3x-nv0ANvXNCQgKUo(MlBp)kdr0D^T9@Sx_=}lur+As81@IcnL04Yl+(bbO+wg*Q<
z7zO}VRPhGd;VT<rr;WX=p(!0IBihg!qj#IB_y|gwTEKH;iInJZaPFd(W{yg(snh_t
z1bvffx6bfMHdKroBRt7yDbkr7LwHhCQ|EK|Ph@dK+mZ=QbdE0e@T!uD&fKyv!82lQ
zn$T1dPb1u#!E~fso)G0@M-oD0<mD$n@|^C;4X?^p=&DC>E!itSWR}8KaFR@TBu+1E
za-w)7`BSs><R&}<Qp9NtjAw-BT$}K@mIS470X^(WBejZnz)-$sx8V;xYgp1Z0-BgP
zq)SrZE>MQ0tvNP8RaUx35X_;(HFLk(9I3<XlgwDuYK@F@bxT>O&oSE=B$Z`Nqe%Ay
zJB_=mYFY{^axT!~6QrU>bCisoE|*_dASI*%v>JAVAhV_*k;=Ao>}a%10@y=L_rLWU
zU%^GlMF}vL%MCc&8$(F&n(Dcq`dx$Yf@>Rm<sDBDwZOtxG>b<K_As_dGD;q%m~wem
zVWQT;9;^!~^K7fd6pGNm(}9$2F!o&v=9~N@DeeV=X6y<yDQ%M+4e+KpO*XbH5VJL4
zlYzM-co;cPoU}jcqhqc?;R!oMF(AmTwR4BvBuCmuWUe^Em6ejw6PkEXRDOa{4kbfW
z52jNlNtF+=dG4m9X)obJCBujcdM6Fy{HOFJOD2qRpKFB8%o$0$x{E1RIoB9aoST&)
zH@c1EgOpIpGzVBN>!F$~Q8k0VbSC=+cnOd`ko#|h=`4q*eZ`cHc0cl&t&vYcU!Fe6
z*T)Hf8*-nU3*AkH4i_Enkk~F4Np9;5^hDuzAN(m|ZTP}qX(Ze!VgwO{&!JP<J*)t~
zW!K{=!;JD%9N}^g`BI{sv^}MuXO#WX<qRI(y^<LK?h&I}VFmkbZc1b2dwZxIJ4XdW
zB}o3Oriv0&iKUd0pQ;`2!LdWhRtYKq)j%r0A6UDAY^v}k=7f90rXe&mUyLZdLM6L`
zSIpi`fb5MEc3D#vwVo`W>oWKL>bfa`h=8Lqi(I^2Gm2pOS}bI!V8F5+^*$AJwJd2T
zavk-}IJgUONLM*B#nmS&6HqhnC?8$&A8AZ1l#}gQP%W^x)PURW`k`d1b*?_iMId<h
zytJOmXmp1>S&k$hD{`Q5_5&qEt{CMcamgUuY!&@4PrQDn-|mi!rnd|N)V$bf8JOsv
z_X5-1UD45&Mgy7(w~Ik^Ocw3kSVgD2FakJQ%-SfMPj_Z82f}4tBg;T$GPN;K*jmHx
zo%v{5;p%L{)MX<l4Ft}yb9WD-HZ3ua0k4MN{)*Mc?LH=gLokwUM^25m{vE>9jmff#
z9U3q_t+#&)c2KkncM5u)c9aW7&EG{+U9C8g>B8alD2$@tqScglVdnjlnL^*@l>X|0
z+MR3JU<e20GCHcQ)-QMNl-wINY^S4*w{!FIp6Rsaw&r#MJgls~qnIw|XOna>hWEKA
z>Q)_LX0mNYiI>?lWmZ&cvb3K?psG;|8gK}@cEC7Vkn0g*b;`E@Kp{gerCj`agahFW
zF1VX^MNn2XV#zGeKIt5B<wdk`Zhofe?)eEgy3Lg0hV5@_F5BMMU2)|hciAguq%^c%
z<P_Gl3)m+a90?^i)NvUBWwTh09CuK-Seq3ipU)#IGH#wC&Q?bIl*c&OfK$&u*)`4i
zu~kfqK*h(@Qn!+$EG9suYX~_UAjDT;5PXDSv2D<hH;dgI(d_>K%IBVr>_aR*LSu!$
z<xB<5!s8j_6*SJb&@-ExE)kz9X&CO~DVq<Arm-kNaostk;}^o=^x-aV<t>FHh|RhA
zO40DRWQ*NM#tbcCp`7+k79)!(14m?~pD9}z5SI8MG_~A;buXqnl$%^QIJ(V-h+GKl
zLSu!#s&@x@xcE(QxXQ_yq7pOVDFW8F3HBEv*Ij^Ycs^0EBp|hu+s;73LE~z3M{t#l
zhqbLH;2+&N(GUg*QU3tpG`RC}5|l&S(s9ZXpb!Wn?uzv#2iqwhbp=fFmJoJ0e6<+%
zB%7k9W1fF>(8A{60;HDiept{x5Fv2?`q^D+X!9r{Q_!5Fvdc(RB&ySZ>bRAoK5
z^?!D&K8_{Wru%<bHc{H)Pa|8l-qi){Y&b}C<2!G+E4KMg54J3vUJqeprO_RZ6Tr?=
zlHVMzX#il^3o;h=DQ*vJq{Z$J?v<@J{Xn3`vxy!ok;1~^bAh%pQhSFWrZu4lgr>nX
zf^&N&lV;@(&0@Is1vj<1N)9*)r<05#fb=0L0ZQOGUA49X;FQRddl39(C4mX$fOiQ!
zB7T18ibuB`t~b566!ROblFn{0je!l|F16B<;m%TnenL@(?Qe{vBjrjhYZQf|*jO~i
z0!D3h*Z9A}TXs#dz&IWf9PpIi!b9+hhWF(*{{T5pIPH{{2S2g_>|i4z*7~HlvT+&a
z>9#o-C&D7ojyAu_VJ6loUe|VRJSK*?_P5Q`#FWN7{1M>}?4EP-h?3+HZa6}}lY*#8
zpo&(u_8@#KNFlpM+kWb*k;FJyD>`@L-zix)-pL;Zaub<O26m-u+zB0&(M)_{F2az(
z1_8PHSwlNU%()-yHrF8uR`wD4Q3`&Fxj@};RA;%j3Q1fyU|}}-L}WA&26_6f?QHV6
zixtN_5ri1WcT4*uBK)qkxmY5O2Zh%2{g)qvpc`_OWF}83q<jSL-6gwR1%SpJa91TH
zTHGWY;HDOa8=R%>{{WTF&($Hx;SS8iOMisZ$I)^ox-<-9TXHRgJoOG381heaY|}#v
zNtNwy$0bl#RyIiwrZIdk9(dB|^W%N8S3Jn#OS`AEG-QkYReNT4WOkb0UO)-uBw*Xv
zUsl2(rJAJKfZO0B2TsoBZgUB@do8C+>2%GBvP$mUD~(QQAb`gNOdmGNhHo<$kFMFx
z@;3B&EpC|VLwB%`s8L6KzR`t!ukCz}B$BElx%RXGJe5pYURc@CrJ;?ASGWKPC&JKZ
zx+PTBdz|KlKTFcVH9%lse4baU=zTO~gg!#Z*amkSFGC;Wr;<FR=@FdS=F(70N(ZLR
z&hk`j71LR-bM8NtxC_%YI!!V^`gjPQOaA~b0Y6FU)=J>%7y$4B<)7m&bseB7QRd%~
zsc6Go?*9NpEY%e>$7_iT+a=IxV~CBdztLfOuR&oY?2gt?lkvP`W5#dUk%Lid4(Vn4
zE3GeCGRy=KmbZdWD>+$5>A11Ywo|BSBoExzIDHM2<I5lMDQWh5XG&JW$l7L^ySx&$
z@M{!eFgLgNUJ0iPw%9g#0Q#%CTA7(^&i5a#74m*dBqOvV;(C^&tWuCeTpaI(melH-
zASJfB>^W4ft}Ke~co^d9p1)gbE*j<KPtW;Y!x(Z7uOo3UdHO1O9q;y=U$=E%KC0<m
zVC<ev)U-3k=L5L7_a$@cPTDWVk)zS#xDIvx>iRqE_KYeT3aFxBFLlrOM9Hj=(;Gk@
zP|cDZB0MC^cxepJ7jPbOw3;;~ECIgK_k1jFm0s7%9VD3fD@`81MN1dzYmdQRx8wdS
zaJImeX`5;ZNMIxe3vdxKSGG1_g1qzp09Jaw*iJl-%FjxzePxaJU3y<S$m%AvjRe(G
zR0FpGRBBX@d}PS`1LYSsp#>aUOPXKe`Bi4BO8LWYi|`R?Kh`^Dy=)GLM2>0ix4$-8
z?K?+`7J%5%nhu>Fz)1@FU(3N2g{}g;F>qTl*-Xkvm;o#Zx=J?5{GbFZwGA?Ij-shx
z0B#F8#dbA?$EHJX(g{f>ofWuG6|J@k7PnQ3CL6q631^B%v9duF2I;WXmY-%-T$Qe>
zb-}{4(`iG1BwUnn!Q}mj%OPb+RQG||Skvx!;HW5Q#lb4>nwSQHLg`D0Q*r|I3x+~_
zDS$jHF&jYPI5ZB(^C`dzI)8;TU;$5rw@b-~fWaF_WV-@eF0vLk6gSfz0_}t0I?Jqu
zn~D=)U9@~9!t5<(q;}EWG_YHQ^w-|lSQMy>Xu6TD7ElB3xhi%%JA}+grF#~`!d;;)
zmsu%FLv{t*0$VP!Hf|_QfiBRN%dCJY4Y2T+XiH>-fUs!@8Up7%tr<2$RMfU6mlI$+
zuRZGyxBRQ04Ku(z7hN|O*qoBmH`Q8%F`cF06$@%Z^3!m<w?Ws%RN?bYxy1J?WB$8E
zO#pP0F@oL7+@lq3hMP1GmceE^uChT+_OZdD+^U^l@drnxW3N=hZw|Whe!TolpHSaT
zKno+_yUOREmyKyVWfmzjCHRu&NvS&WZ*|UZb?17UfR4o8%J)#Je1+1?^5;7%Gpb3w
z#l4VD_EjoHB}2D3gbd8R)trpR0uE*of0S4X=^0^rp(n5w%CdWJ_CVA$ZX(F`fWR$s
zaGNLrw^Nqb*mqFRZrMSEf*<!<epjS^9~TMZ&4-od%{F-Kw%r?6BbAqNTs~sB3nSmO
zM~#gD-s39M(%$R4C1bjKQQaGJWv-&Ffvg5ci~N=HIWhjj#nCI{kT=>a5ET#Db98N1
zs{@9}vP!9$?s>b20ZLTe6jn&d+)b4GrXX9|g@S0K<f9>~fZF60Xu&i}O_S2K+k>7-
zAwIHsOnVqMu4Mc0z^o{=_e?{d{ntcsS(7s#>C#Is=L@TyI)&^v+h7)&9X1%-?y~2@
zavKvq>iAdfNZeA}A)#=N!DuL@bAYm|q@a0y+!ggCA&nTy_A$?jqb10OsK0I1MMUpw
z^6M-5wvCH5sWkeS%GvSqh$N_2*9HrcN{%f<d#!r~2jr!fCiYT|IqYS|KC8jWFOF0y
zgO@?9tY+RqbEIpA>@59FLn)tNcRS%Zm6FKYo7&2l=gH^^H0h1jT-P+LHnIn~YIO-D
zehxgW#;h>q^j<cgcE_X7x`0{E=Oqc#lE~WjhKrloSakz#@;P16w8BdE6XhqE*T(D;
zzeliiRUJ)CY%g)QfV~QnN@Pq9aLtuxM8OnPahwbVsGe4q*{kFxn`5u+1Vqs504x#I
zyGQ8?D4`B@-IXOw&4N5wA;J3(Boyfw!ICbfqkCNbLd;88_sMcim5!TIZY-~Y)7Xw_
zn+jq!jH!*4Z4`vG5>cVp<$Vv2nWadRjfo?G2nwm%z;dOnosqEI<z_WX;z`Ys&pFkh
z8b~s(xLANf&+4<fRyxHGHlP7FK~z^Y!;rj*<&>VlQtGs(M-ob?{H%?2?6h-KM1N5T
z8KrBE)^dy*WM+!TNi0B%*rRl(z0U?m8+;;Q(~QS^(e(6D#6}Y~gi&RMJFg9zF>I`l
zS;zb*9!l86S{Y!oJy^~0y1`q=P0YMrj}6x&+fg7sRSbZM7O$yb*;4*)O3Ty>JDwNN
zNBD=cbNF>u=;dI)3*EYUsn3a?>*0L&&~E~vyf1j^CkMvP_`><0G7IGzE|I*_8t1vI
zRYKC%fT=VXZW>5hns|d+7r*%YDljD}HpOGSq9JxhR3(Y=f)}Gg*<lod)=w{J`9U?-
zPTsIdB|DcyHk*|m;<&tptP~fyw!PI(yI9z%o^QZXPdRHzy2tfhbNwebb{8&u+z|0r
z%+&=+e^E&(H_jKPX_9V*zeVIaRO9_j6Wp&<&}9y$Z_#t$%Wi`uOtYDrf~eGKL1DO8
zPIwJfI+XTl0VkV}8->VxQfcV(p0$KSODntrzDN9Du9@|cM{*l`S$%WYFTE6{*cL0}
zpT<e!I+NpJ&GNjj#Nvnf4WxGGlUR>4o=<-_%AS??u|hqC&#>;SwCYlAa97vD?DAVB
zXeFejG2;aoY4(9}Wfj;7Xt7jog-ZG>s$;MxC_C7dZB!ey-pZz7XI{!OV<U@{E_KqT
zfJs0i9twrWD1yh^0SzG9?1ZMHL(*E8<tkZwk$zXS^#1@?14z~a0k#*<RFW1-4c7Oh
z>p?7OE5-b$in1<6v1M`5=~Z=7>JozM*sT_Y8(6_}Yb@56G-ZI2FJ+<ACTSwe<}%z>
zB8fRWWuB<!eq7q;=)8ljX4xc!mFtylbdV6i*?FH?=<j=;=K^l8_}r=)KV}@U(c}7z
z&U~iaAi+1vxz=dRGZA8|y(4@D_V}8VZ5+)GrY8vY<RM{<4#?Qsg<3Kpdr-3slyulY
z%5Lw3zQ!OUDQ=a;a$;m|`lye}mFgqiOe|x$N;zCocgnyDqy)TuR+~#;AY3fv00rYK
zRi(5z00sV3va1qBqzsP2{{Y!eU>3kr&{4V8Bz*!hqMy@@+;&{943c(G%Eq*)oNO!+
zRZaJBgqRkDu~c+oTLGxKB$OkE(Gxj4tXD-5dEr*lJMNI$Kth^-&{4GXL^k9oYhVln
zET);GB>F2{MfpTfk#JD2VZJy;(6H_SQ_#xnxrzS(!^QYR)HTHOlw~|e)3CSI4Obk1
zq_t(-WY9C1Z<QOFmCtLzIZS5oRZ}^f8VRS2hhKzSi44bt10L)Cqx+*Nfs>1sg?d{6
zse)Ogu(`Uv>FqaR1l<#-Y5T||E82Q?#4H7qts)KEu)07ai~uZy)?D3|C+dxgz!0l-
zqjq6Nb!S#2+A*4}(6&QsUh2G5MSd=))*E>aJF3S34+y4dMJ5_5BRpg5r>Bfe;bl}g
z1zu=p_>D#A$tR;lqG>F1L#=hFqo8C~vvJ)Cp@Hc%k=b3di>_>vXJ#yED;)%3pji?C
z>=aS(q__j<quFYq)*m=hvB9G#N6yxv<*F{jZ*sR5#d3=5GN!0Cqz45_Sv-@St>GHj
zpD6{y3C0#PfpV)DCE3k9t?3o8QeFF>a;z9O3pKV*Yem!crff*#_Qo-!oRmXZ--O1r
z1Im<el1!`;6@tTs*S9G}{G@nFn9OM+>wvkkVYhVV9H795y|x#+V{mMwf9WMa=YgBq
zAn{Zg8M}YVj%QoCf%TEGzo>rb3cW`KtRXyN!8xQH>Dtn6MbOn1t!VRgR41Ni?F}a9
z!m^^%jG3L*1z&|6(#w4nm0FA3;?~@hw3PJ~PRX!7Rpgp|3@y7{9PbuGmpU{2AS^p4
z(K>PnqtfZ30rDNk!YWDNiG)VLfsfUbE^?D)f(}7g+aZ#oNgP1nDQVlgF1m@r#Nkf^
zu5sBTm7P(>kvmw?ggsBfD)$EnO2S78HabX-BkunIm1R%*E=s73xSkcYH|PjRbP&;w
zQ1xRRsm0Lscy52n34%xrv=WJj^zwr_;TH$#;Zd?obL<Z)67R55Ny>@je#js;4LQ5=
znGv=;C7k<-9up&WKt=R6GR7~`Kf>o85=DKs!si7Njg7u}P}GuGRENTjqT(`&Vigix
zyxjM}Q_(bU$@x&b^<v6uCf-g}894S??FGJ9ZSDQiHum}_T!jM2=C;K(_ThETZ}m-a
zH@ab)0<9l)T`4W({Soz~Wmmq}vAXETvKb|yx>p^d>T#Q69uU;$9NiJ>1xAR)=vMN0
z@SZPa7U5;vu%^&?Q7-E?;Wf|p-s&ez1@aV6lw1Nu(NPPTHuHO_qno|ZQM?rJ;6i5t
zN@4DpTO|uL!;o@@sGI^W>tP2iV_SUv&`?2nK7!<!@p1x&NuAuFC9ZiM#uN5J$x%};
zwXwVG6VgQave)wh*>Zwfn8))f=F(~s8~cFy3TX5y*`0R>Bha?T$z2%W61kP8_iIV}
zBH`(3t-Z(8qM+&O+Ix`VN6~IUD;q4bKE@{>pi3iVxBF-IS}i()Xk@#?Nf}m+q>fhm
zqaP?4vjYDBS)<wtfz7Ow^v2>Bqn#q0w}#y;T6H`<oBffof6?cZ+Fe}kv)d=^ttonA
zc3jN-t)r@GX~mArd@9=hpkyDSHlLtduxzf6rT`ZXHy<dPew>}g%>a**qW=KZ4saku
z0_ggJXCG{5?3S3(wp>$myN!&Yzpz%c`UFsm*}qkpI>l*i*ypr)T`sAp$jdgN%|AqK
zdkV)V(X0Hu6*(pL`N|%BM@ooc>l-WUq|CF(euXkPoDaB{eNb~lEG*SOUZ7yScYoW2
zES*Cc{Sdr($10*0GTC6dn6Z`{Ktbdvuzi!wtyM@ptpI$XpI22U>vg_~u4o;XcKK6z
z8A#!Y8~sTM-y@CBl!72Le5nB+TcmZxv4j+vMHrz#Xy6O^P|ii|U<#05IZ)I%V)jKg
zKB$@!Ju&d6jkmGEx)L^>w--{keZ`zYa#gUo!1RTXj^f!Um+tg|I8Zx23Pe>ZL}!HS
zUyLQTJgz@P<k-$ImhJGkn-$l=<CINjdq_=o)0>3h_9{0uq+Eco8W`>kyeQs5y_4KH
zAf`B5AKfsH#t-t7Ij~OK+#~|v_eVym8saZ>!bOyYx9w!o)5-`|L`m)4HRt~Tl<eR9
zCch(u;tYwdGF%Xd0N*11Y=hiHg4Zf$PVh~_%pSuaX%4wXzQLoi3Ywtq$hk$AZ*9gG
zJi9xv=uB~Pk=GnJfRqc{AtSdD_EI{ShFJjpSzKl$WF#Q>vT3ljz)eCA1-ulO_YylK
z?v<yxD-4jJn<wr!03^k%KI?$KQjJ5}{H5Ra@KY_GGP^wXT7#j^H%-9gmCY?Ty6c-P
z!)Fum^h_e;3)?C8b9px@t}X`TVDn@;17chZ*jaN=lYzz8SZ5Zx;@f~hL<d|Dab&y8
zL9rn=$Fg32hzyX=%s6rZA4I;pd&m1FA-p-EG_{xF%V<8%bg>a&910$Db`lXA8*2=C
z!h(AS*c+mOC8EAUL$0J`k(OE42g-^-ci0;gp^kF}z*mXq<rid5AhpP-Ap~4J6bX!n
z4{7;C)3lD|RlOXEY@VVQuwS*i6ga<fRMNUlwj_|E9Au?BU?{bhZD(g&>blwGaJczP
zWpsrxpX&sDS8RQ*MbmGb@xpXq6Z)1FiDC`P;BGlnY%Uz6^s#|#+^uLNdA=?eZX>x*
zF`hs+`X-i<f<JY;Fo59YH1m6>U|W!ze4H#1q#NGFcH`Z4<;DBErUMfFf=m><t&0n!
zCAaXfj6eqNNcm1JJO|#%w-@B4=eR|RKGKddneXnD2M+%LvQS<C&CoE?4X#pW!jZ(B
zSQOUakNhGXjkyQty7uKfmS7u%rL8&K5U|-6>mC<eayU|Ye@lEOIj6;fz!*>6H1{dT
z375|pMIbhDJ{M!`xSL^d-~f+dv>`aRWZ#l3oO~vnf64-}9zECX!im@9pZ*k=KV;JT
zf(4VJa@h=yBKc4~_denj?iU%i)j;8UfSm|WNO;Ir5jeCPv~a7b<GC3k*}|}jIRh>o
zgc%=XjgVYi6*C;qBq(+~aNFTX%Z^!;tSBTgj&1I5^x+Fs(X`lu@}>^8$Ohb@CMP*1
z5TGdsyB<?WH&VV&A$I1Gkz`vaLz^1_7ZRl*gkYvQzUy*@nP0J__PvsKzl8m_!3oWX
zo&}Z&z;B!KQ{u5U$CciR2R~$nGCqk|R*4H5ZJQ>#EBu7PykT*3_}o&0&U9wh35AEp
z?3`XezjBw<Hu@$8$csq1HwmgozmQa5X9<l~G>+@G{H3+dS7XRTG(cYY4cy{NYp^l^
zD8m6@HWxoc9YbXfy_c4y7o>4n6L&cNq5{9^_z0965`3z98aXADUAVg1^z}4U?GBiR
z_sW)OsK>GyawLsTkR|k5J6R^GNN*|=tJ6l!u^ZTOfvK+&+?=nR%Z=onq;k_`ZDlZh
z-t)A4l|@@q1aH|8+<f*{8m!Vxc8h`GRJM?ZZ*`k|l2^0hev9^JOjoweFG*_RiQ(c9
z_jWEg3(zPvs{LDQWSEHm0Hk0qBB!W^831W7Amv|Cbqw)F84F8(cwWpr<fHo;!umaq
zkNrB1E%QCQ{{XtN)3ul!e_J4ga_1gbjnQhA6UZGbrr%x_%W9dn=1@hul%M^BZpGlD
zdS<27dR;pUX=8m<pVUXSWOZF?TC(Rz85>Xk0C-uKYcw%kvQ7oOf8kZvYo?@@QpdHw
z*5i}*?5CH`jctt-5vWu#(~%o)?<EtaQy<qMIplU#R9m<1KIh)~3g(-5ZRCE@@E4aq
zIYnp<+YNMqp4I@NlDE_DFW~`QsYf5O9G@i%PGp_o&wcOkqaTw#*c~9+%}MTUfj?!L
zud1EWIFfCA3-Gl5gl02fKB}^+m5z0Q7b~X^ix~D+GDxPSGRQ%BAm4?e(tvO3IJOYf
zdU-Z?Hva1W07=rFBidZtc26%EWORp93Z#Ye0kNdrS<~p1QrPVveHNpobT$Cj7JlJu
z;?p8zU<QkY*$>BJjBTqK$-a*zlSHV8+)Ik@^yv$1K|fNxCsCt?pqBu$daUh)xv{hX
z<gPCw5XE#Ptj|Qp#UQvO4$9fO-Bc9*lK_do_Kct;kY42jSy>APU!SV*pOKYI^?D=I
zu*vnQckXkYZzQ60-mi|C<8zwOI~A3vsuF`?^i{LcI#Y4ah3I&`Zdks?<dQv>lkqZw
z7_B70yRd0YsQgJ~ONfPpGqEQt$LX}ua9xw(Ug`R6nhU+H=Qv%Nzbh!N!SWu7Mbz?C
zyg0hT{FQYNPyo?qT-kZEXM&bL)+{+uJ6;SniP&Cjzaf%t+cma&g#AY5#c=T7l2tsq
z>7HNKU-GaL>oQ1hB!<bX)+7h`LdVHZ4>ihL8OG7-nr^TdMa9oxwt5Y0)jM}Ru}Af?
z@QpuKk*^Pt&OPw0Wa}E(VcAO_(fv+2{g={sern^iMo^}GBd68UFa|bOz28-H1fk#+
z^G{2DAR1}M=1ZJO{Z1>?v~R>MB3Rq%Rzw^}8-ny!Sj}CH7by0RNd+p(Q+0lqC>tu+
ze(J&<c9KuiP{a3GY_~LB{g-`}bb6dF7?FqWr)^|sxc$+ib3r#<bqJ}9_fHcr{{S-7
z9!P!{VKhk3>IrwZ$`l(y-F4F)D@SzSUA|GHazx3JI0lr*Owc(&)l?EJ7D<aKDk7?=
zv-Y&2DBR;>Ra2w^_cr>c{{X4S7}_#X=#MXK&<6`8RTPy*TM|{APX(woMPoZ8T)A-|
zAW%!Cx?zwG=>(1P76&9qpq@>l$zLb~l~t<NHV7Xhj{!VmvU8OqGx&wCwt|V#G2ZtD
z;GIFL%OtORo^F0t%dRUXudb2XiEja5^-3b*ZVi_opXSF5IIhUzmCD&l&3{pZ-Wf|X
zgpbxW8obn2O8)?hp>;TmU9=7tP)10|KSlESyt&P7p1vm^qpBs7$^F%Q+m1@NmK%RB
z3bw6}`2lYdZOFTldMLFyHgfEERFw|i?5k}~Hxf@IDzh0bH}bxt7x6gf*%rV>z(Cb9
z*|NATYa`DproK#gx}z3~`7LjR6;9E6Ddl<1f(l|?!U(|f5Qdr8x*_eg$tW6^T-)Vp
z1JKL+{H-rd5*`Ryc){KU*3+aZy-6AkuDN`l;$^mOG`gwch#1KjM4f7<e%Cp`U$I3|
z(1z23060||lq5`T?Or5t#&2l16lwImQsJWaC%Unoy6w3u6F_7S3~4suXeps|jJupy
z4u2gfSUyCKsMH=G?QsL;7pH0k#CcWKbj=(E6(M^aX5cK6<DzZe&E}n0)>ycLR)&XF
zxD5qhC>-KIxhqYjLhLxY$i*^uvuQ;?u3MX{`U*c#1GQ%~PewA*=LNFUYGMr=NV4@j
zXu%?jWbx_XG++eDVG)DyjCEvTwg%-_S5#aRbopkZv^Vhsu9cuz6aygjopPC3FS_b#
z2}UlO8Tl=fZo?s^Yg=*x167f&jJ2xHNgK13QCn#Vu>db4%Yu}O!c>guqY_MB?<m0p
zF|Z%hY^HM<-d%J&^D(#<%1A0{BSx;-RjK3<00Ct+QSCQcs^@|a%FF7!JH?mM__~48
zsjV0;pa$+ybd^btwYJB(7q2sQ?VF%9NS_^35B<r!m~zI^JdTfi={-f?mSDeSt)!Ak
zt#gIu-6K003k%<DaJJOiv@B>1aKia)nA{{wo%U*CEMq*B6=@FTR>!L`=W9*TER;)<
zaHlMRyXYCw7s>4w3c`_s5FF&gED$$yh*h<EgXWWLcxu?D+^G#pD%q)|t``jjTE{D%
z+$`3COCzk~bAIbrPZMKczboi`Um8_%B=TQCH8iqGl2tyTK+p+1tu*cdxl}r>Q(D($
zcIJ#!X_LK}?N*pZO|GdVr=Dk7w+-&JRdTjj32_!lAEMUc!F=voQqXM8%|hl3l1fTi
zaL4W{?yNEH!iA7V2reL@86<_4+0d6-z+p%l_d387O+0LMfC9?Ko}HYeyJLC-rGV|R
z1ggHHr9Oj+9hS5BQ8M_t%Jpqd=v>fjEW7-9#X3e&JWs0PADn%H$Ja(fxLa<dA=9|u
zm66n}JFj{_#SYeso`i$cs%CgOUqp0W7;F*avibY)_D23`w>brU9nvzl^31n|^Il}@
zIY>oOywa@`8m{1za9QdXf&#jweiyso<xVt5BxpI7?wlM43I;eS8}(k95>41m^%4+D
zVPRT~*)OOQA2UGZLiW4L9%j1PDJP_4?2A#Y4UE{VA5qmlUBE3qsz_<&WOXBQ?pKAL
za-LL~c+pR#w6?jVoZWh#O`XuT<#}5U%AiMLy%(gacSg{f4zkc>&2VPs*#lilHWEUz
zfx~KpQIU;=lWrHKmmFmsi5WZ5;{O1P)s3OkW+m3ay7-^2tBrQAES%lNeO3Pe>mjPL
zJvvr3*0>>jeP1uDR`cb>bAC6+j3p_ex$-v^6SV3hEAkeO8fHNi_FVlC-9G?u4tmml
zUN=XJFLEnK6J}DrX<p*iura73{5GFz(rOfJZQQ6Uni_Vgv7!Sbi?DKrmOe?qMzS-z
zi>Rt2c^R-D;RYKk?Q_C6PNEY$ToM!^ox7_oE~+Yd0hab260htnmZL<xH)A_2uTWAp
zl6{}dR<BU%_@brsXyE|b+m1@dRX%Fjoipx9DJ3Q7GzP*!SKU8a=%sCs3Z6(D!EzO^
zPQ&WX(avnAl}1o@1=;8tW~(`kqBb~>D_zqy6S`1k#rQ+?hJ_T6HO~MZ!pmJxq_P4w
zG~s-onUfad6m~){vdR~=(AvvC)b!1LJIQZuR;y2?0iy^$prpJG7G5S9sN^W#kDj`!
z28o?v^jXm!ZDr_vVWvCQcend2Yw5iwScCUppm;eH@uQA?f=3m*DJ%fOnZnt{$CNzJ
zu*WOVx)2_v{EOuX<CP@DlXU}$NkL;?ZdVKx*K?HM1-VQCt_m~4mET1hvOZFZMcs1e
zBpleKFij)FUI|*g4yB^P!2MQ2GnH?rO7@UJDKaerO3~?hbwoliTt%#tP^@Fd))AGI
zrKqTLLqV`s6ve|YKf33Z^i4*XV2bB;uXG)3V#FdHPy;LwlDNoin<=!4W4kLRh}}s}
zOC6Gk5&2A%0o@+-cU`Ivf}x?7LDxyT;ESl?1e0RAqB0wDv|&szNiY{5b%6S!=q_F`
zgLSuOo1-YC0mCZE56fljU+pMo&yc32b4x|kbuvZ;fF((#XH;CcfXKnvU+kfC5l)eW
z9A!fJ8+<gXM1-4T8o=T(L05V$8GFUX5E^twSqHSOmW@al&`9IqI!7$upt@R6$eJuT
zO_TKzWK5@MutK=xqKTqN+k9C8tT*^%1awXSp*3I(WMHm*k7uFdtsZ}@H~5F@s-1D)
z3g=qHgp+)#cMvX~9Rnw1cFMZY^CNR*Ofu`MjUCpJwp3(e+2}eMykHWqBXyhfS<M<i
z8I^F#fxtOjvyHRS$0VW~>V}ibiS-1V1srA4TFP-2(UqeG?B~mubcRI}rR3WFQ7nci
z+mUjkYn{cc6v4a_i*zJl<=MpI%>aFpI9w-f&DVb-pCY^{g!jFYkL-~D0F}b$D|Tn0
z!90GI7(NrPo)KV=WR1VsbBEO+z{yDY00${XY>rGMYr{>+vVwVqu!MW2k=AG>9xapR
zkbO;5Y+?6b9hFq|az6~^PZbQ(8_4SfTr}`gjQfgs<4dw~%O}xU1uacaVgc?|jW&-P
zM(L0DPjy>>A~pt&7e?uya_1^(6KYJG(x!(E4Z=YE+!7RJy~=w5zZgo`@rT&r!EQ-W
zh5^}5@6+K!a-`&RMktadf<B4mqRAjQxc$_J0NG-yAX0<4h18_(Dbj<u<s~Tv{A41K
z8w&>)LsWxrgisj15cPXN<z{8DXz<}{t4eY0Rk4=#D#n<L0EpHQg{tE`B5(7`9;=M-
zlq?7Ve(1PO+k`8@%ANu3wh{D2_Br0+!Mccp<q&u_Om)8GB88D#Qb>8YOklf*!hL1;
zrbBY^$}gb7mMpMs!slPgSn$viJA;MJI~qAq)fR|}=LzKE>I$cU8S<!+Hp=G_esHIu
zv3^hzxNbShCWMXrs&UY&Xt-^Ktd#vOm>xFVl^f&$9E&OO9Z4cbICsaC$2<iKr5^}+
zW#v3^lgXKS60pZ}YpUrS0X8{LsgU0HKuc24e^Tg-XoJaRgc1-uWlChas%>D~?F6nh
zay__>$=gKJWs{}1^9uzF>RR0HK^Ds{MZ%IA8RR=ixbl}l-?8#mv~Y5VeO#pbS#$6e
z%_fB;#Crw4RmC?<xDXr~2hj^P=*#KPo_m7A+}&DJ=@nH6+VaqT7PgZ~f&e!)xA{jg
zw6yKU&)s2c#}1R3#BZ3}=&UJvIuT(b%f71p+Ke&q;rpPfb=cZ{uM1hWLH_`ysG?!O
z`xF%VRXsbmGz=xI>N_^gu~oC`@09+N`=PcP4-->H;5{q-k<|5&+h~U0{))_s`OC4l
z9zuWmwAlrWC*UK-z}*^ID;aDHSqnXMb|kFyl~c-pU4iTpHIlgH=F4#VGA&=KMAu|p
zM(tq#0PVN-L9&^q*HbnK?1Pd;7B?fL)av9GZV=CPY@EFQ==Q?VYkt;F3>H&)ev88b
z_EwsC-E#N2!3$df7;{3t?PLvWZcY;Xj><d{NT3mbaxjacXfknRuZKAyO+^_FRC2T=
zV3B120ixpJE04g+Xv1;BLhBsxr1o1#=UC*X+cx=1ToT&(;b5^q1F}-<a6ht3<Ka5v
zn=M48Vqdkh-8SQlu6fQdm`-hcEGET10%7E(xjcl^fo}^S>|37-3ZK$3ZpvS}f^&OX
z=#@e>@-?`~3V5fJb&FC*hKq$Xdr3v0CQj)~m;r87IPuCM;B6LA5uOl_Wql2?zbQ^F
z+Tk>j=E(`aDuf-K+UGwDg^wX2Ch5#LK2~foM{O73G2nT^lE<}_Zv+EzbP!)eX5E5}
z=grfP9ufk1O=1lr_f5^fwUga{DXz;$lv6WAWPs}w((gPab`CjBAd%zY5o*TR9D<tb
z+V=^@_sF{E3%2-7fg}rJ9;9o<>_NxEXdlEE2$2{(B1!fwGnu;OsMEBv&F{(<2#)N4
zQI3ku1h?$D=5^trF1X};CCS3?w+csYnj^6W=IIHz99b-+cu|KYTN1W7wBY{$bnS!{
z9q=u2_fBbdVr+#5$Fv*WNX&ew+6{>0l<|)!P~D;T{{Sg3Zfp`Z{oJ_coT7m2;#*>x
zNh0@1Mmuwa(}B&A(5a3Dp5-m>2b92XjHe3$ka67xQ85TT#yqaSVh$6qMhQ&Xa6fbm
zE&MJAy^<Z)%0Ti4EoFmbZh5~LTqMqUQn-U_uw5qBe^2*VD2%*X#C)h`AdDNS-o~4d
zR1ymegi)VBBn{^NRILmxy~|f%yc=TZk4>eYs>NO`;LHvHClY7mBI(0`0}2mD?!g%H
z5imsIYZXRvN3pd;fwYT!p@VUoDe8lPvw{1ez{P-5XH-_SIJ8@Wo15GvHyOSX?l?9F
z>J~$^BStt)4GK<Oi+N2v;PSPagclq*kGgP@R*MG|gk0Ho(%_~8UdaUSI7nZ-`_2<C
zc)mhT*GWO_eh(kIWrfX`9|GYw`yw#5$CQPka7u5V358=rLgFx-2Xa>sKC1}P7z4sv
z3*!lSTtT(M)-4=I*8P_^9n#|6(}3iKtTZ<N04uo4Z~zX;4{Izn34v?{$I~YbE02PZ
z+QT+jR;cF&+*pv93Aq8~IJb9jm{?B)Ekd!c+)hqY95G;1%U$56*%3yI<Ff8XZk$Ie
zjzAoFSkyF|9#ch=k2p;t$Ay8h2<G?-H`tp5_i^B;+)cU4bR!{m9n@fC<xL^KD0jGA
z;W0O1l#Xrqy0V4Qk&|z_sHSLkLy!1J#Rx6^V64fvu;$yd$nX@5ZLC9q2oVIlvESK9
z*3=9Dg#b0&8-T0oi+cn1Q~I+GSboS#hq&FPqyl(ahE0OH*TQXzSC4T#CX0k<bj1VZ
zD82lox$Z*io-e`-WXEI=9#XbPH2iRy+w*gjq1$_Y=@{vu#&c^BNcyGq+s%|<i+nD#
zZ;T)v67OL>u2&yVg$ZkTx%(!#8yu_#hsYUoZ}OtB<#ycK>B7YL3HlSEgk1bCI5zIM
z*rYitQLN%}FO}B%Bp{y)zUa_VrKzT6JVaP3Nd#_`@8bQIlc<Yw){FL88R4DJCAR|W
z<@`xGt7n-6+Ab+&WOnp`1b0$NIl+8{pOUEWQo&}l<GO&dx$@o4a0klo_#4|d$7YT?
zh{LYwKER_{P#yqi7Wq^<eJh+nJDgSJJu|~@;a~#c&Z7ZdKcVI(xwp6^_d!(CIsV&}
zRI(Nj&dPc)UT)Uh-E%3)Y*+e#(`i67xy}9245K&0O3+a0(@X(yAalaDi%0>OvqzMl
z=2P1PoAhH0QbWnLkX1EPIF^UF4;NbfQh|ZC{Z6{iRB7&Oi7g&iW*IDs*ztAQQ~}+0
zXXKS*r!>5Q@|pQ!%RTr7PXR0!V7l2-sx+_BcS=~+j_GP1=d^%us>M#gPkSLMYpNXK
zk_UjfSB~sR#o1va7*1burh-PsK^>K4A$#3-I~{^DSsNT<X}gzxH^orWK~vY+mbhx_
zN10wOZ*@g1<@0-;liK-O&X%EU#iX13FGt74ETT(Dx6){gmJN>o09CZmw3wsX`ML3B
z7LP{AqiL`T#-e7^viDWX82HM@$1g^Pj%X>`1{wmEqgtknTht58wXJqm1GZhG>ZlJ;
z9r=*F{a2Tl@^gBMD&<;7r)t{NZwFym-B!7-dx>y4R4&#fnWNlxl^dtKNpr7%E6d5A
zd7UtGAE{SKwZVqN%Fjzs^DWD-p6L47H#F^4@zc6TUdgd|>9F6}brZJ?_sXyjj5Gn0
z<ySI4N;_l}JE|NVgN4)ZsB}TL*`uM_ea6K2MATG<vzsa!DW!1S2@U!#tbDH)ZOY`H
z9&#%bhH6@X+(13hF;$m7%&<4|n>7VP!F!rbyaehBSA&*Y?7E}iNk-Vo#TImIFB_b1
ze=5Qnce@N}{gZTxa$W<nwpw16=~&&YA5_@92}y=olIWq+^y!}<xFYJ|+GG*McR0EJ
z8Wxh1L?nP-N$>@hmrCiVgkZWbO85MHGmLn}9Mhe%!}^0ps+pzHvCJPBS?XOEU2L0U
znr7#*E9t5FYAH>OLf%MH>AfRHCI`}K`zwEkZ?Jr_sys7B(>jtc3#ult`mKJF&Z1+7
z@nzfcy{?m`=>q^UH}*vyo~B^-#s}GT;K2-i>{&dLJpTYlI=0cicb|f^6t2|(9`_Y`
zG^Rvw(20%~w*)Sy@%logFJ&+1HAsgfs9n@rluogXkhC(g9l5d=Iyh#1gF#8gEN|I#
z4Mo&7GJ$xUivIv!cpm87KFZFQOogo$U{Xn@Lhs}WT8RGuxkV>YI{yHmgpKMr+JA`s
zqvcvpqd?$&gZ5edW2ac=9k@e}(VLR&IlWIt<6$Vb${w?-s3LA=ZT_pz^)8yL{N19K
zO}Fe(Fm!zKFc-b|K2+uMHKb4Ece2+}>o@^6cmv^4RCT;jNH;t;?~<g{IzjP3;tRK1
z1$n1ZXm!+cIzZO~JFh=4`4M)Id8uih<<fmjYe07J)_EmwC~ISTL2JX8$-O_WRnbn?
z%OsAs0{C95(*17}Sk}}`*4wq$PA?@%RJ0h}S?#Quw&gNOz!+GHKC+^fgKNS2rLF49
zX2e_^sOK88%4wI{mZ-{bOPml8bp$WVq-$I9SCsXCSky}AHULM-!pK3dRT+29JI;8%
z7nhUrE)&wwuHUohiTZ+<Z?-`1m6qyVemR-xHTNCYnU11<zzn^-p(-`N^I-By;m`Su
zkM)Y6sJV7u)$N)`JIbomp@>Fvlq@=y=G?x)M?GY6I>6knDaupanP}oj&(_hIX7)Gk
ziqmw5lX3}H6mi1$UHQt;>CnQ^ECDN%G$j>dxwWKaq|r{>mX%GbX=XMXw=2_~1ZBJ`
z4xxq?MB?BHN5r)&VOb=2-mywr;?gaC>YeZo!D{-B&!`}9s$_|bZOZ!WFZ4{Mwoz2D
zfNoVSU?h{-XmuAb0zj}?>Z82i+;FX7qP|wx6da=0!myNJi)0|CX*aqliqH(F76=(e
zN<Maz!mpL4=aqssoL*2qSEBSCJ6|hoGmEc1rWTYF<$90dxR3J;Cq4q_&m^O=GoKUD
z=qMccfDP@+tkkr7%uR{=aJO1TF_sVmaEhqX2HTeN<#;)Bf8r1FJsxEan&^$oY>5)K
zA#UqesOh^}Y&$GYxE&M7XeGsR-^l5TrDX4!vShmH&_%hx0m84+sVb)+xDXbO3JDs}
z14<I(4F%8WBTi&-*pqUusitwT2F+AWf>@2*rEJr?+S{kc7a%8QqL#Qqeb3|NT2gE7
z-WeN?ae}ciK|8rF{nfscNhpz~#4h}JW9^rX(daZ4k9$FLj#SkZILfQjqj+O*Nk%@F
zM~k}&GhvreB{|VuUsG$?s3~itY5FH>H1A>Hs>w^54{InvIO&PY=)03svo2h#Ds^qn
zAURRi)s_MatgB6FaXWH+u6e@P>mxMottGj2f);&3CU9=$MCs;pZuh7SLk2DhRKXA1
zW>amJvsJ!gdn%nw?rBrQAaLbDsQ!#EqQI&;JMq044OCtBwbT@VM0XTjc>XCTxI;L5
z2v@5?lCr`sqJ1;A3xF`L^sRb&hX5VV%JbU4_p{|_`f!^xjIS5Y#TB%1Wpwm<W|ye?
zYy_OEL9T6O_bg>7kk|r#fn3n(($8(zvhr7pEQVQlmW<TqtCGNy7N0?&FAaQym06?d
zUYHhcR>Mc4c(uW@^!!i9wE8CUN^fP(of{*J1~na<T{fB!$ijPw0eu`XC?KW_RvcPv
zvU=-W0XHjMQ1P^^zPR?5xGoPZDt0l3uBef+92+730Ms548mJqbNmLTcXIMFW{Gyu^
zl@`CAalPE9r>G>{l}}32@;j?~N^T3CgdAwe+bwA3F0dCW)smJlT-jC9Nly?KaJnbg
zjrrY$DHlYO)i{Cz%k?AN<~Wmuc~e&uZ6sM^`i8X2xC3CV;@g<oN1yczzm7oivKo;k
z*;@T*2S{?Vx{Ep6^<Pm1q+tGxsccov2E#sA(A^bU(@w#0!ugLykg~a+0bb?N701zx
zU$9>}`AmPkhBIqNwQ02?!z%WYZNOPz^qR|t<b|%%X5P?`<FdP}H1=Oc;zFH>cnGjW
zHGM`oXoEz|?wneqZ^CuLcPcdqSQIj`wl`9j1qDOK)UuMJQJ>cy#<kYvW2?>g6{^-v
z$ys{x&<<CHk@Cz^B@q{>8Sb{-EbWbMRw43%QFFjrZ5vUJHj5E;&E@2H=9(QO`#lm0
zkR#<&buOydX&!f53cvkQ@!+gK;vTIlH2HS8<S5I|%atf1xZ@P;@DKk0SgxcMRWGHA
zOXte)s~696$y%Spde_ga&AgIJip)_0WFHIaJS;pgq;qDUIa#C8!Dt7L>f}@q0J^E8
zb)p!xlF3l!3}CM1q(*}4o;^L!a358ksdFDMYb4Ysk>u`iC`MeLgpXzm4{HVhC(0J3
z+pml%KmcT@CUY!SVIXsZM{A(wkemXimDe}n13SiSk%bIzx%MkZqtZ3(zrxHh)^*m0
zMXT9idtq_;N?de28oiQg^o@;&gbs-@hN-s3RhFeMsKR-=rlj`OkE$3g<7t|8dOhp#
z`n!A#Y00wmiYj9;7X*dmpN3?exA<Porc^RG1<!65#Qsi785&1!C&>oW((GUxZDa<m
zPrMLYV2Ybk09m#l<pt`Q-*>o`<>Qv^jU<tb*Yq|_97`^|v#K<w!7HrNEWU=Rh8ILY
zXeQjRIO~lw)MLvT?mhzgKgW6eB%^0Eq3rPrhZelIxI#SgZ*_64P)P)?BzIJj+!6@x
zzQPmctq`gql!XzoH&1=|vTH_FC?ah(?7G$|_OMKU!Xk}wiONEwem<&Tp^ma|1u04L
zQ9vY*m3gGFIE$({kGWiFQ#GVs<s`Z{qfboM28%UH_t^_gJBtR;p6$eNxSiOGv9iy!
z<flb3b}fW7hVIIIM%f9P(c6Lvg*>-y%CDYLy4O-vNb6wX48}R{x)D}c#)~~Xw{6Z>
zY6k2!@~6}3h;7PlqQKUWY>ygZLF}QB9p@zxLI`lmNdUTaD}ZnTSJ7J8c}<wb)HOuj
z-IUa(@qj!i>KJdH6!`47%f(PQzmNV@ki=wo7E2UPbASb2X%rWDBr2qG&nQNRLu(Q^
z_*z(67|;N+j*13Gz(7Pl+B+t*o$P{QeBl9AC}1QIpIuTT1i10tX0;tf&v|PPD1{cy
zuLbr56qR#6NQt)!yG5mzXYOz+`lcqq0p8F}l;oGQq7!SQ1*^pONbXf{<%u~8^IWRi
zBbvrseHA0B-an9j$)nbVmnGQW%NyNUX;BdIg<9Iz?&8YVNvU*?0E~IEW+k+0w4o-^
zg?mj+E3!?3tI}Qr1%N8@o$erfc2JvMj;v9X*23xG5w{0~_X2#`EJRo*I^2#_c{W{R
zNMLQg%1fpn)Rg?CdmgBD>}}a`vC3vK$qStS0B?k?8H{)QE*SbK<d6&HLh6IVLMbwG
zXef{k(;X-r8zC5FmG&RySkqC0FDd&far+?hS41L0;JCu~@@;=8(kY=BZOVdKOTS34
zMI?c8kTYoGYp*1?QjblTjD6Hj7dbahZUu>2^lyxP-0n^imJ3~QB;%Clew2<yqZ&ZY
z7rEh22*y-oX7^G@YheowBb{sED*(UQG1xuRqIJqP0!bQnC_uM$JDqmjL)}fXu_mYD
z{3pKKN@P~BPIg**CMp9^?Abb$XXQsV?}a5M9GX27m~b`-O5=oAY@urSx(0wN4UY=W
zn%jP=v7C>uWnm5&GK)j|3l_DwQB;w~`A)ruDhb_w=mJcE$0~S^FN857`8QLr5Zm1|
zCOngS-7(I`8C>UD>KDidbjb-Ofhwf4?fb5U-r!Gl1yqC7J=Aed1BK24GERx9QF|G?
zJQW+s7eb1_A{qN2>NOBAkOD=Gwi#vm4t#(P)(9%Ofoa8x0!>AZHV(ht4LwYf8!&wp
zR1zU9l6?-5*Lk-pYBxEgoBfr4r&LA5EToDG_Y7e;iv5<Zt8fI9ggf;h4U39eZ3|MW
zwVX}S@bryH%!fZK1r-m~7#)CAZ>^Q%*u#~or|F29Z&t?K;Tp{viYDYV*d?$t2x6+J
z$EM--M$l+;O6$nneHOj3(n5bjRFT(H#%vjHqBhN<mY1fQ24nunmuMS!cpqhE{bDv`
zH}?o?jdUI(2LAwLYQ?wc8Z8a1_dU%&L~In4u#a;=KPsl9R+Z=5ggLFMdA9qHlsK^2
zrTo+o{*?s!%h)}HTf(CCWO4VKmB%OLY7G_@8r1I`f`gM#sFT`T&xH{Kz+Bq|(W7w?
zz2@YCm}4$@JSoBDC^z9}D(IwQ162+$-u=+e1)~@U`m<t$mF@5fMJC3SP{=_f*r^13
z{H}lkZ)<0=A*~t8rI6!nje}~QJEnl&*+{@RNaQ++EMQ-oCuAnHI~L(}&97jiCuc@7
zLQdQ+1l>ouF76bXI#BR=2rWU@X(H&repP*QfHy`fW}DGo=}#k+MHH8HuA$u-B-nhZ
z=z}h-`XHJ`i%+*Hjw9uBTXtJ=M#g!;NKjp%{HF$y<ufCc``h`D?9I|T&b9IYTx25!
zy^~AaIC5!mJf@;Dk<XQ+WPQ_jHNyohfEP=&18W2TnAV=apM?9goTRuP%2yqv_Xvj0
z*a*TBs1}iH6h)7eJmTagLlVa4fCa9nh5q4iqiaZL;9*Y(>KGYCf<2Q=;j~x*bUVHg
z6#!TZA;|<<=}~m_H=J^s;FR~WZf%6*nZuqGj04JzqUB83@7)F%iENM!lOOj}78J*{
zpqN?)eXg2Dcu#jXOfJbyMA{I6VnSnqz0$bYr#9C4SRn3Y@0_OXco!&x%11QYn}lo$
z5Chr5>BIukKu<OUj(es!0Mpquurv(TUQ1mc1P%@TKXqQme;VYgNTp~O54cQ-Ongir
z{*!-|Kk8+dMEkgA=!wfcAY28?l<1~8vbpZF>=JG+HUTT+1=j?nV@p4p$_(_Ov_|dM
z%Svg+I7B(lwT@G42;pSIL?YeVp4$+dMsdf=OCJ0t1r80k!Ad~}_DI|e+l03l3k-xe
z=j9=BwYW}kx{ciD!p7L8;PSYT;719daJt8kh@*oC#y(eVKV{vHESHd$#zHW;uCT}1
zO4-8=-57Vmj`=q{CieuO;%f-}?F+FbB#rrLx<LIc_-yZC@aEY;&McbdgUe8$(hBsT
zc>WzsXX<RCbT1q><H$q07882~ByM{JnBqR`B|)>Y3A<0y$a(AsVvA)&!r{a_>Mo$3
zW|8iRuKHm#djy-Jy|*vID(wv$m<j!pV)Uex0Upv$a*1^?we$8}5j^bD2M=YzyT5c?
z1+Etl&&WfHSNT71r;Z6)FK|=7j(GQ?3bIA+MUdcFa-^!=y3Xgqj9-g=)Y;jLQETM>
z$#yj7clJ}l*o$oE0B_w%`DQ!xxFu|*><`lJ9J^zOgi)q&y__tgd@{D^U7JAGK34;U
z&nEmNF2J&M*sM`<S8f;0lS9q<1$ONAOb$Zdu@+oNUCQgBMi5+!-zmTzQ$@HdvN$+I
z)^Q0fV_=k%+R35o3uA^j%Hr#uE%J~*<ba#G$BsTynb7-#n~<Gh*~9LmyNM;)DF@2N
zM28u|KtTTh%4@t2*(J~26o#?R<u%v8pZH11@Vgg8Rw2Etk^tpE8o%K8OYo56k;)>m
z3y9#Q+;5zuBlbvcuo4%ZLTNYTCGL~!kg<*?{jiXc;c*G3`Toe*8XD_lUnMoou)zsU
zh$iY2_fCk&WVq(mP+vB+)Uup%E}~#1*RpbVpxRBLqV2!JuwaaVormQINZZ>aBU;mB
zteGQY7r2xn83dysf<6t<p`}X=?}A0pqZ1JzY1}S6gat#zvNDczj%#gmfPtxy?z?~?
zVdEVDJ1#ixlO(ANm`(PK@R02-B!0^_Qi#YMzU#0GU$R4BP4Q%*Q8*t3aPNHmS6=;q
z9#Y&Ktj0+0*4x73+m7ITCAKcObBv`5LqO*z>XE}12bAnz;dj>HBVgFV4{`TRvGIi_
z)Q00LCTbbm0VRk}H!i<qw!$EBBF8t%O`rYUKj2v=d?JCw-b+Uu-sgEq4x0nXYeQ^2
zs#&$UB*b^y@Ql-S5FL43Pr~_+7X;$}0AtJJMU<LFEN!@GbFIylT~?90KwK;j3c_t+
z`z;J(J;*`1^;HLSjsPEp>E+2K8by-(4WQHMponiQxaP?!<%Of#2f|1x<ZCw<5$5L#
zvs9^xj<Az+zjfhH4CgzMRMb(&(|gIi&(T^@Pfri>jCU(8+P`rC5{ZIIBs`m0H1Ia5
zoS74D&7D57+%=uND{5J4DuxAt?y~wVFuPpid;b7st)!8$MgSamRK?<ATRGjPOZf(o
zc@4^}uA_;UA)x;Nm18AC+%jxFP&G2NoSXd<<W<noOwZL)Z*lgUU&4d(raQNQIac#J
z{jKn->*|>cO~@rI9c`3XEdo@S;|BIWR4ic3^Vkxr>opDX8)yC#X{&k3_*A(+ML1F~
zcEtmKRmfFZjeD}zW9XRbz2d~G`k5P^ZmEhc_AeV2o>v-x=M&2GUXIiviZ<>d;>*k9
zckw<7&}mf$J8geu*Doe`m+EQ3Guh$SB5MF;u0Bv2rnc8G`|eN5!NI6Hz;3znQ>N4#
zxAg*kJ1;jsm6I!>6jEdL%IRivtn3w8O(l+8e{~&QP<`xBUZaWl9hD*D+%`R0G;r08
zpf=xBOJ!*ndzN}4{{ZE}v7mwPaNT<-tUt9IjR&-ui1gY(za?5xQGn22*)0tlV`ldd
z0-e<{fI|-pz7dW!vU6+;QQFAP!G%OKCP?KUtJXEGAUfqx$0O&I2D<k>kl^xaAWPY$
zp)4h>j_xD1mZL<`UtMFfJ}jzwPfPbT&ug4Y^-i6nF+?pGVDdusJRinzT&9GS{)!RO
zZH@xzgIYdTdbddeXEvT9bIq5pM?v|KXEdLZh^Ogz<aX~*?`7%B!}&YX652ecM9``?
zg81Bi7VAmU=Z+@bp^Y7a+S2s=6zl}B51S^>6cHP400pDsW5%f(r7pnqeLgTjAP+uP
ziZKik-)|mOFZzuQF&m_4`|_zeldI!`2QrzvpV=A7L1-x!+Sa`kQu<-Rfa2v|biGtF
z#vB|C{{VIKuCJ);T85xzyMVpGTkpf#y-B-2H7kP$WeguAn{reMON%|`oy;IxDt9%6
zc3JHzy`~o0>c{hdj#opAv!XLi6U!S&?189^29gt>R)?OTxDWwMlLV=hy0r2|eWf!(
z)DHVda+gzzSwXW(rey_VW!x@4fn7neEuM)>RL3+}gjkuU!o$(cR{$HstPw|Bba)`)
zN?6(}9E+xE-uBs5YBdpow2-saJx#O`dny_Ax6e~{n}ilQH=s`<NY>M`86R-aO0}ng
zFx~~$Lr$%z!4bIp*<C@XOxERvQds1P#&ImGDPnsL;1&<7^xAo2dqV=yYC5!yVfMQI
z09h?j+P<LT*rW7gJ;=#HLQg=PqIunZj|(ccfC(qJWZ1NK?z2GwZ?x{28~08e=M#IB
zeNRu!;kF2N{Mju0XeH4;ZJCao(cO!=$KvZvE|}K9ahoFa?JimtUO}It2dOnNO-|ri
z;4RrpCme9v9udCGCsR|m)^l0zJ?yg;6wVDLoQ}%NQPvFg4r>P6lA{wr1v{jb!N$wa
z$A=zd<s$F((VKjdwf1wcJf||CwAdS!SE}k_N{0x=h51g?=VA9f#Fg{@Ryaa!q+Ttg
zTbZPA2IV6vNN{fJp9m_N=)`5MvHPL4=?wK4adEw@tKs8$WR(<hsM)NftMu9~OTLQA
zpIUQ386OH>nb5^W8GOS7Bgzj`rizwl0obo^%lu>`3uh#Aa&%rpsh7ucaI^hOse;l2
zv-MS#TA5=@L#!1YeOsn?H(m}bSCXQ1!9QhQsZ#gNa53Fe)>OHmlIxXgRTH1bAyd}D
zl3o4R(Bq9pi<LD}$uo~ORr5B+%F=zIg;vf<b`zs)8NdL1p`~cPctlD-z4<{(@=q%P
z1I=uN1kA}Cqo#gPa=Rpqq7nv;uOC(DpNCZdRYnN_UfEu7=X?2DUXrVPbGFX5S0|GW
zQDic!N7P+8TLe_?7;~(x=cy7l<d35B9+=c^14(h>{Hyb-xz+%XzE?V$Z0E0{>b-`b
z7Pktk{{T)2UAfG^)mZ6O0mK(vpOtw}BMAil%5b!XT~Se{^xGL?S^)YhH))jdGiU&m
zT$Ni}X4#<!B~T{9<fK^TDH?z(bk;q`+80x3ttR#g!Z&Ur_z1>I){Cz}OXG<|4^5;*
z+_)pD=%Z;H8(^6f#qQ?_!7F2Gj5EGg!zr|=u+!lHjxes-NDNoD7Jh=XHQ?IiA5*DJ
z`0UfPd@pYom5Lbewnde_L}8EG+g)Vq9lGJF&smYrdC4USM@ad|vsak1OEyN>Et#77
zS!H>*3DkOHn%kCK{4LBn2zUj^$aK1BMXWB4NGKs(n>^o8)9O7lW{?#p`h8cbeU2a%
z?bO;6D_?Db%SWelEeK$9;%Pr2c6dGvvi{GZqd6x?@G44aV`bdJ2g-v{2X0rt>%ALG
z`DYm8Xt3-Ti*;t4X=|Sd9CE#fkK<H&STgckFcsI{P;b86E4rE&z2?LFC?(Tg*vYb3
z&0Q3hNSTU;lRgG6wY@Jy=^ESO>XGy^x}-IXB;T_14w2F7OITbixjc+cZ$}ncD=zfC
zHH-lAR;Ng#1dnQdlcT$1ZnSh7VUE@co<EIUlc0?%g_Z<>Rpb!1F@a?b6eWQb*?Lim
zLnJsGHAN$^miSRf-~xBh5H(pPrq@|rakAOPYhLD-s(n$BxrX*$e~}2vF2`Fuvs;pF
z<O_vLTPb(xy4`AYQOPm0ZmZ_gfCp<A&CW?mkl!AP3Q0^>E_Iai>V!7UJSOTiQnult
zRtjmH?Vu1-wwe(|rWgLBDammI>ZgxYlGrY?N*xwSKy&UDgnB3f!K<EBil`ORR#Z=h
z+z+a&)gqj><U8eVsC0<h!FB=ihSxOsnF%J?3cfB{nEW((7ONY<vzB*IXS9#mZ2F0;
z6PAI2b&l1Yf&lh~^%&j78j7kL3by@MvUDjvlPzI|;}kbFgX@Lue}~Z%3}pDq@joWE
zFSF8gpzAi|t$vj-V?YZxr$=bT)x|5ek(K1&o5w3f5v`-1;428-aI=&X+<|p>O8d2a
zCyV4cB5ek4vSXx4%1=x#iR5f5Bu|)vhn{n=q8}B?60wbBWR(owMMjWREt!pSsoR~L
zEWK3jee;EJugQ5F0J5Qxr)ed5o-Ca5y9|+2T=Li8sdUPRwZi0}bytxkf@KSyP7(Zs
z1$s6#^<Xn6vcrBR>d-?$E#wysCd$@XW^87}jA417;tUhi!64k{9}Ano!_Oj2tY*^E
zJPWEOH9DNqd2zBIO^EIU`B%E8hf(VrMsj>9sI*z5k9Nax@V>?qib))qEj@!=M-mRA
zYxn->jZLqH?IPAxRWmzr9ljMDzJP_Pl$RX+(-|$hpx*Lwo9Yy|L7?d;@N9;Bgs4lc
zl9P4s$`@v#C2=63UO7ZN`zT}>L_UZLv(j$q1{HIHy6LF>N!l%ZsAc{l-4>Ej$mq9i
zHnOKN7^?-vm#EO_GE`Bu`%SE~eMO+Y8Nu3rWygymR+(tQ$iC=G{{Tl}F5!ACI{0j1
zt$neD<()UCRY*f4Bz*$gY5ElLv^nIH^1L5A#l<PxWnq(sjb@)$B}JTEP5i5>RugNL
zozj`;03C}JcFO43+YFzD;AX^=q*2bxO9I`tx~bK)?^Y)g+!S>T?v>)$R<lyE^u^9`
z<2G9aT9DCJcn4o;u~P4G139o>T~s~pw_?4o@m@Gt44XO1@hQ#8$9%84{9U|TA(|;L
zSKJ(=31s<5&R48NUkQ%MQl2uRdd3**sE-O~AB7u+QZYz-r1(y9OCTubb8q=p+C+Pv
z4V7COaISQQyf_dngxw=FYIOR4;fvcLPc#Fv8kNuV$7M5~?%{F1#7kfk#b+k4Sa(y-
zMYGC@pWDhlk4MK^BA8~$)cZrT!bwQ;bUAy62FS#;(S03MY-j+Wt7S5hP*6JL5^ji<
z-qUUtYhpq*&?J@z<t;Jyj3_2~-DLV#9sDOtL2{;FQxYQ?QB*jW3pkY}J<Lh3k8{V>
z1hyGTP=1e1>JhlDcArkj+A(}89TF}UmLF>~$O??(lL%=5f5H~Np{!xyGN!0T(~z_E
z)o+>m7;m1*3=OMQx><HGobaEb=@L~+3xOk*W25MjR7lsnbMUr0ewxa502%^W&W?;&
zuWSoW(;H6AH3_aj1ZO>#ne4N1g+Z?m;W#dCZL_*K(mdN;3~Yr^%0W0+Jwg8Ku2mm@
zE3X>S$B}Gk<y+|g0IVvJ&noLgZQRpkN6{9Ij*<F7SM<G=9+)i9EUszF=AO>nIz^Ot
z;W*>I6mgMkmC{HXe5jVO*Ej6B?*L}VIcls(7yXcu)IHc2x@8t4$cqVTSlkkYmaw1F
zpk*}Do0DLBqN1g10Nw5>ls?EyBYg~kkC!8llyfPgYklV7Fk=lC3P27!qS{>wqUG3+
zdm{Y|`=)yGJoAE6p3!4}x@%fHA!Bh!aJ}wQoHccia=6~zk~UQ$JB#sz>k=<-l+rVV
z{@6q`D@H<)leX!N?S52_w#1BdtQqIM!jcp1QOGm!q>9$J1!(jnkl8PMrHhi9@;4Od
zU30=B$FfHQw!o<Kxf5VoqH}YUud=9;5$(#6z->%~SScO)PlOp%irSCVQqkC+>9r(!
zhUqC~YhCqJiW4DVa1fPTWBaKjorC#;3Z|eO0-ZwoB&Lw8Hh0}vME?L{r4=A}PJW=)
zw~!NjO^Yn(wUVF=UdTCX1=UpAlw&3LK|fG*uC#1%`2jM<mt<v~vh3D?Ma|TMQD7XZ
zI4P^D9fpyAgnS)4Su1YoOGnWbqAJTGd38wb&4LDPOcVOKR#5blh`f?GqUri-nm^Vz
z50#Y)<lkm#(#t!}z+65Pg*|JWHbnb*A#Qa2Gf#w#!Klf<)7m|yh_P(K$EVlJhX(+q
z{{TUI$MGEHp{=TkhVk17KlMZUOAV6t5~OtCxB#2>MbmWl!U=V)<rdoV;dZp9I;Nq=
z8-V(w{>@A(3MyED5)f>N5@~RZuw7IWJc7<~9|_E+?(CrCkkQ21X#HxQ0eF}(#ex!}
zs$_7pVnWXY121bT=fXD|B;=Uy6Nr2DikbLrhr^RiU0bkSg#{#8>``HWX2CV2BY_i4
z?&a80#~HRsP9%6ubH^i;d6{E6KrPMCbGQI+l`M|ulsu!`!pcFQH#wx=Dq42}`(FdX
zVPHL!l<c$kPhvH&$j6eF*t+J7r+^N4NZkyP5nXKF>CS5A*m*~g%7qsn{siD{*>gxE
zl&)`-jgF8lQ6}C320`xnBI?bJkWUh3&mjn!eG}1)-o+JcAt;+D88}7&NwT9NhKBZ1
zF`cd#ZLm%RfqP&nwowv>+q&Wnmu|S^oFu<xHp;~c-Jtu2-7m8I;HGD?>jQ+WvP0a~
z?Ibv3vaGK-J<+6ct91*4Yza*s#h*Z=GU|F3i}T$FzcxLQ^cHtuFNIlM5<$RwaFZjI
zCd^*^c2U1@H|^m>syW|Ofx_1*g~t34Qi~qzF2$1;?Be-cc(_d32`92!Te(h2?0B*A
zrH(Dlz3ifGyYQdi1f_co2<RPr8>Tsr1BC0lvx;M!?k<WLZJqKI5?^~%;m%P$LS6v^
z=!7Aq*1;SpA#=llHaSB3uW~K)QbWIZ=E;nLs!m14yx9&~J7GyHi;a#`a8Jqzuc9+y
zf7vH-o>Y$j=Y-n}gyJMVFb+`+ZGrHkj~$UQaeFDb6p9#ep2%r$*%td8kcX7p9HN0B
zM;B+hjJvgz@9*V8?#am!-o%ukV<{|i@RS=KGK*oOt)6g_=Q&RR5D5#5Y%a0^9q^-;
z;irWuXwFnmy|OTv4WI{;>fl=Zr$*w}0vvwnPy4C+Me^Ky1lB>VlhahoegXMM`tExM
z_Tz<L0B+&PvNs->vXt3uc+(yW4-U`OI1)a5D4Ao(PVN3Ipw9TJL!52M!eKWfoGyRJ
zDYvokwFQfiZa7Q3$g+%+VwI0ZgJa1S?h+fG4bz7N`AK3sEkI%dZJZw~h&=aB#k^f8
zZtfj)K-kL=I17NbEJBow@%_>s*BC?zk&xlV!TCx_@(OVSx?`=+bO*Z=wg=fF<6ub%
zppq|Z{456OaXedv*RlCby}qfyk@fI{3Sxq9^UCYA+nXkraC@$}Ex_Rl3S)@mj!@J5
zT~BM@C~A%16Ut<Tn>v=waV{W(-pJ2UpmGP@2}u4p1r;a<J6cteJp99$Zf-C8q63eo
zloMkdh}_fU6+5gW%#Ux{>Deg8z-t@~mkJ<2PMjZ5`>*nuZ1ASh*9{K4yrsG2FrMct
zw_AdPD2ZDmo5P$w>0MDF?|-OJ?<98muHXBiLD9}0LT=D|SvWX@&+e0VJ;G&TNewJ*
z?Sz|1Ho9>mw=1p=08UPX10M+wHno%RlLpHeLKgr>8Tu|3>@J)w+m(UnV802rH{nWb
zMY%~~$`%SE7P8_1@SnAzG_(#ptcRg4L9k1IqDu>N-FI{YM;mgQl!JS&7h23Gd)aqC
z1t_(b5!<phY8&3k4Z-C&^N^6)5Kz|>-5~fW*dzY{gn$byn1_Fagj^hb657Yg>t8Dv
zXVbD!!h3|geN%fPXVAwn!!`v(@!X3k+~;SEDBS+#G9e@g@!TlbTpf(%6C=U;CPV>$
zl>L%@1k<_4o>9@i11M-n1OmhLvMHXG^N)pz(;gq&`>EJj@`ns*;luY+HY2;*E`ZL5
zNak(jR@9SoYa?g7TVe>$C<(BBs|^r)92;_!3mzA8M=ORoL6%!Mv;*BCwUfc@E&^+Y
zM=1sv8;pN+=ClF&u9m~O!r|QZ;b5eW0~aSYOR)Ai_)Ew9Bm~~wkajkPfo9v~DQ*ID
zjsD4|=Ym4p1qj!3f7v1Cz+H2!Mf>+i4TaAriu5nEF2@GsrXGLgDDbhn6tr6(-F2Jg
zI?eJISbtacSRIJ#Hw{N=jC190xRKpg5bNMAFH6%pq2M)_C38arr7a$0-4=9Od!%Tv
z+kWLuQu-}ABKbdx;pYKfGKM->1F9wM!pQYN6BD#uqlB4p@b(x@(O;=+uc`L6!HnX{
zqG{Uei`@A@)U+}~x!+`w$-Umee&0pR;me_$c344ci`^duLn8zJ5R`Q9ljx0oJTL+3
zJQ90dB>ZJo#B|wdr)p#oVP$<!sFE#v;bNndm)bA@M7FDKfql=5u3ir6BK&)^WNTVL
zyn_D#3G8@wZ-tbms?O(U#gXl;kN`hOPW*Yk$x1uXX<sW@6RrEKKC@8sBmPRgs;y~h
zwcLNg&gu;_NKY!5@kKfs8qrGkz0TzAL_%G~$|fou#`Z)CGTa9K<#kIQx+%>A#tG+z
zBjVi4G$P=oXvrz^%N%Xm&>VXsjxk+<%jm0ymCck~@~&xM+QIF29uzc?7d$!r`z;L&
z184!aDKn@gwk)Jp21#o+{{XT_#{1aZtpTES>;MVu(#g);`Ce0;BOy5%chkvh@$$KX
zHaL4r-N0H3tu5m&X*l6gYFDLk+5kT*(8ZNaQXU~x;9NQ2H{ocssEmT)s|OCGL%r8>
zyQSA_1bZo(*t-{UN-j~ywu3Isbzx)?UU`5$nSB1rj;^`Z_KOSl<yRS{keA5kJ;%z9
zV)r#cDP@(>Jzl_d8mVQLz}aa!8%_1)X(HtOEYxsGB|x)pmFV3OBvd9lv|M)~d*6@5
zqbrgZB(+HO9+T<DHa5CO2IGadpwgrEv5mjV%yiDB>xSHb-`Q@cD<ES4+zDSn%~pu0
zpvpZuIKbRD9}3N}wT-|53rkeT+bGuFL0~XfH011}uSFKOQzUF5fRo@XF0$=nrNxkg
z7(cr8X*Bl8+_vQl{)ZLrS}vBMFXSYnH__#~W`|bcdWX5rD!_E)e8}7VSE3y<DE|OU
zMbtA;v<s1iRPp*ks5RMyrs;?bfz6057MIh}$G6x&Wp7JO{7VMmUDCn>Mi!P-x<QN-
zm<2AJBVYg`TT6T+iw(F>iZWfogPVIUppYzdVD?iA2KWf}FaV#0Cy|v{%HyZ7{{SdS
z{+!S03d+l@hshxPXsmvk!Y#BQs&q(R4dV+z_DO@vD=d&66wD5*)3NO(tqQ+K&|+-o
zb8~gS)EdCk!l$8({$!hC>#H7jM=nfC!YDMTTG3_%Y13odhL717OJLBaBw2IMEUdgS
zMv5u)m`Te5Y<fIH`2xJ!9C8wdi!Jj>8DdY-PR%Mdyb!<<f`Nc=KV)fYUIJH=Ol658
zqOVSg%{OSW!1cC@$!Xr!Ho%4Hl@d2@Rx_+C7|2}K+j4kRwIVqZTSw2@rjaEzV}n7$
zrPmntz*}+$h3Oi^Es(wL$txqPP?>LGg*@0J2<V<U+u7w+?t3M7Y@pw%Iv!nRs_I=e
zkVNN(WUn{XjEt0mSB)%DoT&65lkB*gSabcL<KU~Vk<>#f0e5rddGt~^zm=!y*O=Y7
za<;I$K*+f&J>N#xwo#TeHGqqA%B9rjGsx#|!7C+Asy&PYakpR*wDr%FT%3F*^1S)v
zj*eL4;y$&4<n!GC7+&%k3sr;O928=}@E0G4mgTdq0CL6|8Cl&-oyNyE%Fx%!*2drt
zJ{E4Qx<{UDy|nDID&%hK=O{^I01`sA^sEj40DB=S<J#P(Mr8$4oxIry@%_>DqQ@4x
z1l+p!M!*Xzc|pqGak*9%76=*hd>~*cMT)i1W!o^f3aVqDgjSYz$}CDrt3pd>t@QS$
z$lzmlT&*P)OtQEeVPHCKyMuqq^cn)#p%*q@PG1@=w#hhaMvqRZ*wMJ<T+`QJ8-;~!
zTfZ~0q^tTjKVWuB^Hv*`Bu&Pdbv<{w<=F6+3YNIsoGMwPnoNt?HLmoU1D|vCR-QkJ
z1@viKRL1h)qnlE{wWsz}k<4Vp@!3er2V|1D)MYoYCq|!7p6uM>iJGHu?`1<vIb&>6
z&scVx+vuKnVwXm0%eLwf!^?pCq@SoF47TtVA5pH8X|XD+)s{zloZuHEl-s0MIFY<M
zv@=PET-{%2wUO-x!Fin<-rHuuTvO`~fq{&}ysnIKc-Qs`MOo=J8k1Pd0s-(4P1G5`
zFBw>Isn0L!kghs|qi`X?8DDZIC|^go^kI%r9fiB54A{PV=}xSYmF;J^uR&*95k?QS
zhTl@X?;Fm=9Ad%Kqg&M#^z>9RIpl62fEUlbM&nzkOD84A3s0}>RXUV}zCsz|>WQ$i
z((ZOb=F9m7H-3uzoO&v$^nl@aHrGSyG%+-77FX4iwkYh|1xj8fpWVgRFZpfDMAX}M
z2d8N5mY^21zbn#ucSnvIb{7GG%FgMt#ZCceX(3z1tvHav{{Wy}3-SsJXkJ{Mvt>lc
zm<JeEbnj)cWs9ZM$>qx8hPk|#E8+Z%W!YsTOu`a9*s`l;pwq!h`sUk}+`PCo*jo?W
zEN+CUlE9(GU?RYwYHC3TDKdGGuEb1Psy2g_S5-UYJ9{Z)cz=8-TpMC;yuT+uB}tWx
zzQErbMqQGik<nV$3$+<T8gpfuuGBU-jn?{=;z>Iz@~5KGt+2k}3*ARWr!~&pSQTA9
zrxQ)y>#64ID45->ASSkus#eVea7P%n0_PYSMsl(<^#h)4!+)Em4N7N>xkbgcQ<^pM
z*25EjQ2H#tQR<u6=Cq*YtC8cns?;QNfnA;?KVWlg%<EEJ<;NtImDG>4jM-_maguM9
znbaF*xc6UGkNBXKnsvWA(tNLP=mNnLE^UCkHk_8!v=1xRdM2p07F_1b#r&dcXjHa)
z9USA+7P2L^jA6Fnb&PJN@emAhnuexHB?Oh>LCQ}<wvp(%M6Q*<-D@agacC<S($+gm
zirrB?o|plBFN2LJ>_=p!yGP1R-z%n(pk$!mHdlT|mXKnC-0(Y~E1c6A$`-D-(^XX(
zmg|g_#g;8AWl}|Etq6RjR8~W_GjOgaoH@l*>TmWCxV&VRO&QUS)|?wPfbNq^E++vq
zQ)8s5ws}|GJ*3GaT5V<1<zb#zQ6Z8^b`IztBQ3?%4!fsQwle7eC&js5nI3}YGa%Vj
zYTYrtr0gf^lgIFL!_iDWL}S_F!$WO#U$z$QC&IR<=~$wrBt|&m%h0sml&bab6kgl%
zR*k(K>cB+u*pa|p3&Qf`^p8Kx{I`paU$nM-bJyBLkWTX(F@Fors~G5<Lz`^(UtxYE
zejmqA8=hDm!@;uoukja0j)F-8K)CR_aAnB}d~;hXha@w>P7g*BN3}*=FMKE;a7gf&
zTvvS*OeB%#3$NHAxBlzBLJ_(%b`(I{%7Q{JLSd5$gpzWwqLr!WSi|brK2}oxR=e==
z*3@Gb#rvS*<f#iLlG*fMOzBa-O^n+9-wP|(`c~I9%x4_odUr!pwrw^)ZvZH|yF?Q)
z$7WA^FF!AdIBtvL@?%twF6lPM3#{>wwePK_jvxsEXRCC_(Y53_wD=1xsMl0BU4`zq
zi?5%_;!ieC%5p~S)zQ7yj9nc^6Xeb8vAP{}QAQswPsvwsYwdg6977A2FO1;YNL#aI
zr^X_&F1jOC)gywD*M9+5>27?mw4WJOJz(i0qmynd7Y-gvB_pN_TRgw<H(V7mJ~lSZ
zIJsVDA-P%}tCYH_&2i1vaon%I@S(>VIi~HANo%IGV=3+!T)~?z(rjMAM&Xq`lyAO#
zED{sSjmkstqjwiUlNn>!saY6IZ#*fQKx#(AWR&p-I4w4hO3=_;vo!Ak_*zXadjZ0n
z%;lo|2;+{xA*OxLgx^-<^<75tTngrFNUf1eWX9UbWI4tY8bJsodYC#Rn;Anpn<6GR
z;STjgJeedM*%0tcP|zHrTt>h+MT(dltmi3dN508q1iJ{GI+4$R3DFsMMXezMA%6*7
zAZ(l?V5AYlk=a*OxCsTkq_&w=6w#s4qz2b2?ezh%ES{TE*ucLi$tvG3wYj>ZXDpWJ
zmaccs^2XnlW1(oTl0hV+3S9?G^;{nIlC~6ZGAO_RC{HKR(~lR}$|_bv7yw$zcRV!k
zq`ojzGP3*vpxbQfRT3x5d*muDbdOAuaIU0o&~6nDySdR2I7Tox%SW5_0UoQ3@0Ca0
zXmyHbx>sCsRbS+a?24puPIl}9{_fXTnkOR&F-2!9eJT*c$V}QK*{0Lav~meo6vf8g
z)m@~*UH|~C9Thxn0nZ}}Qljw4{RsqbcmDu^OlcnAafLVLB99CgAww-pl4ABA0!ES>
zl$!^Vjg9?A>7phyjjRf55^`?3*;8_5V-K;dVYX71i`yye%12wh(6&DmFbvsBG203-
zY;Y`=_%~UKhECu)Ok=J<Nh$bU7JjJu1MHX(x!Fq5!bcCPL6all*X*870&R`QbmPKc
zvCSgml_SX8@}X`@ng0NwsmrmG29WqqkMyWs_J>(MIRIiR#gj;EzpB>@p?ANVA*v>2
z$wL~(u>Pe*7Rh{xGW0wK*+gY$kf~j%<bZo99a|wbXm(QkZpT@oXqh`he^>WRmbNh5
zyY^YvOIYGVV{&lQ^(p%nr{KMd{zuS7U3)iP=xFP%{zg>rboEP(<#My4(J7&^l!sYW
zB#6r-q{^dE_uMoS^a?*tvP0~R>t7H0d=0mx)Aml5zLlfd3rS7LoiiyGkzXMMf&uPS
zzxsM&>%LnBb0(_tY}SM<)ziNg0V}bRBd5@58)GSJi1Mu<)AYz}?X9>~ZI)LX4(Nu*
zGlpG+KiGIO$@LU4eufME5c6v6Z~JWfSr7SAe^I(*l<WXw3vxmD-4g!*txan+hRLT;
zsgog~C<JX6vLYZY!bc>BSnskI8i$*?#Vc6j`ka4tKNkQbzHQ|PHqh%7QzDu+n9xsY
z2I|74!_y$D=aYXS2(}j#6GleNjtZQ(9uTyF-MpfjJ;(k~Z(vcOMXz-Hu4_fqfvf|R
zt&~~@s@!A2va6GDJ=L{V(86x2-1d{@XogIlh!gW<Q3Q@q^h6SiBH<Ru(F58>2i-Bu
zHdF2Fy31HNgKc*QizZISmYkd-UJvx)K|QwMCQJ=bA&gq!-8!B#ySTdVHd50x?#2G9
zsgv!JH@GSG3xFW;b;Mj;gsqQXL}j^5b?;>{x?vyrSptRvS~yQ@oJj1r3zXo)*kNWA
z=oYAr;`mTJv$c_RF%m&GL%s`(AsP(!OGmV}*8xt=p+QX;4gUb;NEk2RqatXR8+>IU
z1pEuG5#skw+l-|2QX({Qbf6P+WWOl{g|`U`qlk6v2lq_`_)qn7n-#^^AEw9@O_8{p
zaI32&4LNPXvhu364o(wA20+2^yZLO5p>$*d#aIBkJ5B=qm87&rFJ-83wn$LOa6nJE
z0?INu!hr9h7ax_)CjS6b^4pZ)!aI+IQ6|P-{BRds**@04)g^_jm=-h~^Mw7`37~ur
zvQopq7)sE~V}Z@WVFvc>ownXr4pShy8UYFyyZE3Gr*(&vG@q{P8_;VD2*5Y_3Rqg*
z_qrN64=QL}H{5`ofg#mFq4?ycvA4z2&VBe8QG;SKl`_?$M@HewZp>XTsPF1XWp~BV
z5emRZH~XpEagE<(D0wAJ*Bf?7`zsxiKK8POqkF7Pl!e?C3&^>3?3y5w5%kWtwaqFQ
z(@lGZW8rh;Bl(gEq_-*dL9!RLwbpnb+Q|>ol;^y;*C#ee8bH5v=1g4L*ScelP7;!s
z;%|_GL2?zx&6ILsxhdK3nD936eyE@@W?R;^!kBHpa7u-(yUuKUsaX^IX2`N`td<6}
zxO?rCTkaZ#rDL~%=Az!$V#3N(I&mSaakm&wz0Ja4YlaB2;z%4>MC(KEfo>Bo@SC_>
z1#u){6f0*N+dMAYY<XM_@np8+7w(wXM*#2>h4{H#(oOAz@$r?6+1GW4aF-(7f>O4^
z*iPPB&@2ts5wV<iDX!iwLHj3{H@j>~Ym8@yk@B!aE;}wlXe~V4BrZ3@_arAH!W25t
zt^of4!e+udW6D$e<#p~>NY7(PwXblLU$IIoE|a(Xq6;|kLRO28%ZTK7P0zwsG7yXs
zR1=eKROA~HhN$`OnFf6eM*BYHm$$+#(#Crhlr0llc{Vrx$cMyvX}Y{mH!oz2k(U;J
zeo+o1)61Gr4UO0R0I7_2iuONZw1kIXbD!c6J9kXy=#}T*Qe59B3T*9<LKEA%TLM5_
za*($p$^oN`d=%0Sal&>xU2rbo<zo#Ut`gV+Zc^?y$XpLUDU%h6U{4_-7AeGoj3n+2
zlZtRQ7s&}PZp)ACko<*^j8I1>A4G(%;9({+g|q{|n)kx%_R3JuMoo(5#oQH!5Fa;O
zd<3PB7w(&94na%U(K~N+ma(u-w{pA3_CRsA$I9*kT=Ki0s7A#)%dAEFl&1l8v2+6H
zV9oHjocK>82`ow?vNN6zQWWyb*p5?6bCkl3$vy75-~HV#M*%dr@IYAsst}$mdnOa`
zpLU+sDW={^A~rF{Bq*Li9I0Fd`B1y`<2g=<HbEt?bg&QN0+Hk6gy=St?#0vCjan?=
z2WSNLQ-N_})}OMDm9g9P*z=TQS#fao{m>U(kZq3nVf!iLV*tdC9|_Hf?ZbZHr--fC
zgacsJCE#t{aI2;_AAVJpTLq3)WPr4spodg25aEDQoTlUYmvT8ktXeqW@;>QuaxH5n
zxul#G#5gwC2r!&)ZwYr1$O*R~=IJkD7Nc1!ah_6>@-Cv@E}Yj38>ORi9p3m&`f?6#
zmA1e4NbUuZ3t~7BI2P`h?rxWMIY>yq)nRY!L50EC%0fpMvhMe>MuB7R-uXzHNWX;t
z0NF8%il`!uyS9Kn6KFNsiZ^;x&1*cnx(>d#b;DI#WhPK>$y^INO!J&kzoV~`rakh!
zxSZt&t4Y0tH1<Gf&XP#Q-?gK{u&WWa0&?#OCqJ>4%yy!{B_-VOqK0_m0EUl%h}GKn
zNJ9Z?4vK}(er{G!_GVbKQkvF`ZNG&0{Yf2p3Hp>pE}gZvb%%8MquAVkbj}H&f1!Ye
zkJohQoE+-`{{Skwc}rble`V2BNqaKj`3s+i7Gp^Vp$h}%cyE4ke#lzAMY1@u29Vyw
zo>gmZ>lYH^@}0ae0(nMqbI^(u9|(Ma5>Lt{l<c*eVpVN5LyLe8!qaG!-m5|TlB<UW
zy%CbG!DFFyfi1A`qo{?Ei@f8tmX>%RiG-2~`mE-lTO@=>$A#0A8j7nL3ibgkf%s+A
z9+ZULtv6TtPL%48<<HSxH$#dh+<;y5UUq3m9@`boCrHcbR8qa|FT&R8)IqEk$w^O1
zwcn%w5f81WrH<RK?*Vw3v$=E)$Tm87!50BN^3%jJMZ7HKX0``^*;Q0)WF5mN<fvoA
zl5W{W6pbdOSl6)nZL@sYVzte$E+N;t>WyAmje+|iW%XtKX5+x&dtN$lR0}I$r!J5a
za<8=de{HN&H2Pt>)(cal&@*6jnR2@yjVY^Ol#yLe0|kqR2$<;oQ?;$flx1x@MkBSm
z_(bWir-`jHIi&vpP1m9L{{R*#-a=Duv@(lBwVc-E<eMvYLr<r~Wt8qM7qIS~CbJxH
z?5B&>cZ*mBQBnD-$v4!x&HjKa7pde<F^?Qbn*Ph}D_yFVP#OFv!N3J>^lfusXp(Kt
z`mZT$?5DG02IGQOyQCrf)7oE?+%8`pSzNfIWO}rE?uDwFhd0w3zE5Sk(#_%yamvGV
z%@?B+eYOBAs@-;zOpA3y?Q2JqV7(lXP>$HRr2A&YuV5XNa!SxLKwf7*;ypX%^yvQp
zh<Lc+O+(c$mHXrmk^VRVLLau#ca<K7+c?~Cn=DOtDvM0jpEw3m8ayLpuMQhy{nNO#
zZ;~wsK^sHtEUe*USkS4cq<1+a_f{-<wcJukK8Axt(hyC8k~Y~u*WBSv>NTSGNYm(a
zPB>hLWc%G<r)juI)fG}qRm+kW05X8Wgx9zR+?52?OlNcq^`ZC$GK(hWkou?kui6vo
z=|C5<j)kU20#&0x0W+5!A!8m}1=#lRm((K%D4PWZKx-Si=qX=eaiU00;dLS&jp6Mo
zazNzSE9`jmcL^PaoS~{K>EH)^jTZ7&SE_pEi%o-NF#OEU;5YPzIZZ`d4W?P^)y$=Z
z&U?dc<gYi@^&wQ*4(uvDU#N90R&wd&_MRBt6$YnYP}Z11*xvsDDl0xl?zD2`X}Tw?
ztq*Yl*j4p4P_cxQa;j=-oEmI%<x|$y9D@9+=JFKPF>&LqgY|V=CS!mi{{R7bX1Xrp
zwYPU=xYcG3Ym17?)<PzIn`Ogsi_zN_XDQ=<s0msvC^@3{`mTdd0NjOfr|FVN;Lr$f
z!sg4Bb}XcIH>)WPWytti4L+Jiv~I_gc9)~JHZ{edlzg<MjpD&@%gIkfoUE=50C&P<
zyNLFSqTL&Ap7_SoVcA#5jmptT$(fx>`Tqb4uhT9km3^qkVo4uGQ7H|+b9L>*sybIh
zLMF9@l~<_R#CAu^I4!}tsIQoj%5P?(mbuq?utDu3>WQg!-DL;_<q!eXT=UrhG0D2I
zs2L~+k0^nF$S!hliPL}GA5{d`xx$}J{{VbngtF*XdM8XZ<g_;!3v&c+^miNIvdDCM
zTeYrpfVGy}^AQL`T1G<gvt@kg3D0y7OwZ#B1G@QIx(6~UVe0aD3Wrape6j~Irt4j#
zXm62$?zulJv&ZqJR*}z=YQdi&5!r&*<f@vt7LtEuv8d9^A|y8fWA#ficQlZ5z+C=E
zizhGGINgv_)JW$BwAfu=Y0z!}<lRzf@a~gw^0pdNVQ6SJIPAH&#tw}+eGGLg!!7~_
zt|=^Ug{xyDb8O-V!VbO|nhCYXW$I(`p*ZZClQEOims}8j;YA%0F0sH?x`d2{#JGKx
zeAQ!NA<NA2Baal0gxv`%Vuin}C=*#5UtyA}wVg~{wXVCq3L8s&k{!;;x=2OOY;WSM
z(f(=87bk7hW~T1)f|uDA`5vpycm~bS%1pSM=v3^~($<));A~ON*5)|5$I8l4O8L*a
z>qDl}wZtwpj^#|vBwNx~PdmNWMoC-fvnMJD<Bk}~$JJEoHLba8U6s+1Mlq@uDM)>O
zr6i9xb%GKtLe8)^Rn-$*k#r%MtT!bt91ZQ2P>G~|ueG^yCri}KuDf!){{U0e+ShFb
zU39HzcpII;PnQLuB@d(0C@LOuT&*J1b_;G<h-(-lvrpX%S*W-RMz|-7i_nfO8)oZl
zXD|NgkLm`v+kf|7b5U1PK_%q|>gs_0N=wY$SSg;jO{_J;4^lr-VZGizb>;Nhw9zmf
z*;B=>NauoFRj(pj4-?X3tORA)O`5b3W|fhm)LiCnE<_DQpx6|jFW9Ayqb=A;H!Ce$
z6q3qIK`Q0*wo&eNkra%9+yVDSF4$G0Cp{fNVcOEGW`d-1a=ju*Y0GV3P{&GS*$n_D
zb4c8zj71GRx4W<vyinj-r|Ps!(HPTnWiX+Qm;e;6Rx*<_4~9T6+$zmUu4_qKnP}Uy
z^o5<)>6#jBx_meL4;+@yJk?1gg`BS*({-!XV-0!ovf7JCX$$Hh{7!<MmJ@?;Gu?U@
zN6z0tw|5K9a_PYNUZ41VraEZaZF{dj&cgC4Lb+2lbka*80f2?0&?u#I!<-5FqV#P9
zZD}p+wi-T?*xEgzdDy&vjoS+Sj?$XwTGgYXsU!dj6|_wlvL>D(8D4~E7PMM0`wtE;
z87YOEiBP_91%XmP@OdlG&*V!BETEbPs-yLJRr6_$0Gllp!3sGd4hx4TnLM7&!6O+{
zNcNH%+bVrRnfnPhTluKk;7JODUXCbXb%?s^{Cw(L5>Pzp@w8U}?B#kNOGOBUq>#M3
zT&xgPmxpkCqBP#SZ5u;Ky|BKk4p>E8k3Tjx+3qojw%ZAk)5Rr$0eOy-_<+i(0|Q-k
zuAtW)Gedwze~`hA?UDH8){O+T%!(^80rXY#x$%p(=KdEQWv*t~pn3W#%|lhGm)T6l
z!rvqURhQ?yOi;G%{U0CZfAQ}x%FOtx{>m@Kdd5Z5jDVZZBd!N<7s;Q9^b^k`-dNxd
za=xt8w82zeHA{@IJeOpzDEv*(+4)&SaRGusvhd&KW1q-!s<Z2V8TjdVUOL3(XUX+&
zY<UD{x(V&I)|aTM{R-(DYZafU025{Hr)tiiViIJj>EL|w1~eS44Hrt)PZy{nBz+X8
zmN4y`vo0@euC^7vwWG~JnHoU(RaQ+2DXT$hgaK^74dE`-qdm6;j|1Enq<$915vq#i
zpxk}er}*4a$(bf_dGm3^==zKB__3ONV2|Zioku$x0dCQ96?aN(j)|>iaHQ7bk?keG
zuY1k#akx4>4-d_o$fDWjy7PTq>(2GsaLEZCSE=fB#lhAK1Ju;Tk0#6ErTF}q<mFmE
zt{LLmiJqqpAPv^Kzv=jguHD}3j#V5bt>mk17G3o%0oV9mSCxgd=;?{;ItYwY0!ZS^
zJNSiF9CVUf`fY%;eLF<?DH`Wv3o-bULh(rO+vB?Ne18Wc%$quSMMU}YsO9x5TtV)s
z$<GSMTw!H&jXZ^2Z}7g`6nMoWj$30$&PrB+;X7(`231UTz7$e~MXi+#g9{1{bA;Cp
zRHR$7iRYB8#6;ydJF<-OmNTCV0)k*^-F0b8BbWz-1vvq^MZ$Lw5@cEx^jp)&=XWTg
z?W3ENH5+}3cN<x8zQYZ%90|!t1+JxIE)uzi!YQ7fI!G2?5YilQjGeY0R20Ad1nAOd
zLho=0qJ5}X2fX1JE=MTQHpQij)OcEbDvgb3!l%<31I8@0bWRO!6+IAt$bDpXh=#1j
zqSptTn=MULfW}4EXHmDPa;M1Xj6|Vik~+a{I)6#swekg+&{{oENV@b*Ab}Hbmn5lD
z8W_{rV@CvWGyo9=<AnfmwiB2M=Y<BXm%8YlH{Cp(TFM}Dl#^~yU|Z~pdsy764Q_Ta
zBW99S<mTa0YYYyE*%-=(loLGfT&t7Sb%7bhl_{;8wf_KhbJPOTI^ShL>v+oQiOD#n
z(Dzl%<r}6}NxTb^t86?Ybl^QeRT@-B*}BmukhEoA#P>TcaV2JSP8zh--GEV<)r~3&
zkA&uT7)TBhvj>h;nOLG$fn^)8RDjqO6OJ&Dqa4G4xy3bwBhQ6|Y*gcHD1))eQzJm-
zYHU>`h~>WGJ0`+TGNP!MU-c-XsAxRi$*V%SD=bM$=U8%peO<;bpmju!1PlJlC^I~W
zv3!law*?%P4Qp^h1~$&}J+A$fqfe=jab(<3k0X5&ism$orq8LjWq?r)7NDPVtUK8m
z28{zOWp?j5LxLCNlPaHCBaOhvl?&^n0D#vYveY)0O@)VZ1FhJh=QLp1uwTMzK(_lc
z9<5bDvsnKC*%M8p)Jk_ekQLir){(LxKFg%3m-$;{dIb?s=x{LJM*>x}bW||`aMe&G
zn7eU#_!mSqt|Q#yeyLj<gJE?Q6mcJDX(Qo8EAD-b`dJ4vKp{E+FNCf`#~637E5~4=
znXhoUc6+IqF~<p$6rA6qqBu|yjOOkp$cSKR0Gp;aB;6Gr04e#p1hJ&Z{RR%o3F83V
z1Zh4{wFfpFCFH`Oh@xgk)gHhQaek{?=#6cN@PlS(TYywk;k>Ci?`0hJBeEi<3P*)3
zK<&xGh>I08JRxJ8;*ejtPat_swXn5|yBRp#%W#8xam~?n4YP7kmbOVoEDaM<GQ+_{
zfP5(F03(~C61TCD%^uaxz~w7HNnGy;SgZ!Q#7E85b+3CXD)D9#t9TZ<MG70Ij&hE-
zgUYU<J&|R^0b}(=ibzGWO5<xL0!|WwfWk>{w{$H>>B1rI+%bHpq-l08jC&EVLM_6U
z0xq6n@B1dTmc7EVC1lKZbi2UirAE!yz0|fR=G>%^$&7RDoTfa26pm>6rW^1qf*fXe
z9H+B&xkv^Q-q{J5Vu5Pj?e^@TE;-7Yt^WYT$SMg7e4!tsPoSD(?YSyemX!q{yDp{x
z`NA^MD57?p0u$MDkV1u+3QL~J8AOgPJ}jbe`lq?Xo=RyY4u=t=$WFd8kQ=4?AW|Y6
z9u-EQL3cP-?;_W}6+M0l;WT>;x&SupZjaMRz3qev=L*YBZ?qmtthykPVlQBSbkaFe
z0fCgqTHY5qTOoKBzjVNJWcTBfbsq_lHZFXpMo2d~ObN}v3WAe0%qK0fcrn=8;X`jJ
z`&vd0QW@xBaJ{=Ey^3?A&BKT8qqUqz_)S2u*0@l*!Qd%JD0z1o00zhp9)nsLfLqVX
zmL@Xz2L2E&GXcmpQ_{;Ib<2OcdkRF=EwinAD0vq0rk%yc=am)!y^<Ea4fiEH@VTb^
z19ajY%3(xfN0lG~$3JAtp9w>5aFLFw4t2KSK`Ay)e&KOqo4Xt$gDD_$a^rpzKs<5q
zi1wZm5rsrSq7dBibhbPdC55b&qXiH$3mf)KAfF)+;hQM#&<7~p7=+!u?ov1cEtKMU
zzyUT=2szKu5m-EJCFEl&U?djB)G(4|ur{(I_?>_uA4J>PEi;|FEH_0x=N{V+D0+7t
z*<l4sF}MmcI&m|D`8Tj!=e59I#|k`<E|=PIl`1+=gkQ!}Y%g*$q+<bo90k0m7~T#0
zd?J`gt?-uD&C>gZ2wj1L&AX;Bt+;nMOS=}mmox%wcwJ-zNKi@RDL`>K3x)RB4iay*
zvQZV#=N#CBl)@WpUkOCNAp8~1lwb6MfGlpo%4u!Kgy%h_xNVb1n^_R1G>a}LvQvZI
zA$7%y!E9~pGE$rN;U%~wb*vU9I{C@Pyd)o_gq9#*1tsyEAj%;~@BR?e-r47}p85Dt
zOiyER;S_1QL#g)iLYI3l`mC0e4Y_K2<B0L?y1WlRFK0yeALa^YImSGIQ0;&hdtMZi
zGDfo2-Sj9)0v&+L8@%Bm7a=2$zl$E}!N8k$NY2O|+l1^JB*$W$$jh!<kUmlrv?Ya(
zY?$NiQaU%b*I~EHW0`i}f7xMNh{*{7!bdcpl+x3F3bLXSko$zU$I(R6LAXz0{{ZkJ
z1jiJXH%dF;-7C9gEsaA+@{sq>*(<rV_(*Mh_E`i=n`e~Jc}_MtNyh~n1q#=lwz_`z
z2H2b^?R(!Ro>ygNf`_`~=k`rMA$H=pIC#ndu`_ko&t=yaz0-I(3s5XvA1QlsyPU2}
zWXA${DK2mFk#&#F($SgM^U3hIxE>M_aGK(>6`V-ALvI|UK0kDqJe1T1G=Y3!FpLp&
z^JAU@VYfF-iOXXg4UhRuJaLrcgUV~KenNDJG8bF>scFM^8>pN`@&_o2H-h1XfXfPK
zqIkaR8`%^2P;%K5Xyc5FxLo`cSEj+i{^(m3kg_S6`d@V}`M}M{3G9v57I*HP{{T^=
z7x+Oi0M$z2e`>6m_jl>A{{Sk^q!JCs?yG7~y2BSu*zqCng1C{`<uo7NaPedrL^u<{
z<v6?B&OTEwW|hO^l&uY8yxldxl=kH*^K=4;!)z=-TpRmvp4$Y{Z<}zjgabAP*GNt;
zbiMELko@qOAT~C~Cxp-q$xi#F$77VD3?r4t0O#nJxA)5A#u_i(I_KecChM*|Ek+qD
zd!KdGEnzZv$~Isc4Vz>sFWv1Na95I~qV{mrmzqnxCW7|{50q7HbPQv*yLGw03qIGm
zw#hzFmD9Ka9^>!=WR%_5QYEg`SY#v*s%;*kH(8?R$y9X?l0%FIH7GII=If>~RA;kc
zPgFL7_Y?7S%Bjq_W*VsCndPIKBAYfjLAnEfM8X!h<XoQWSSdZi!9x_y7TiKQI_9u@
zMbw;=+Y(kQ>0H)#vahQk9Ck%dSohxt=&I-SUgB&=!cDeiZETj3a>oK)dljbBHAzDQ
zT0jHB$Uzxvu6b6}GZVBlaGoxNlKV80RLdg`-fo*m5i<hwbTu(9usnBHnsqhEzCh(i
zK4zALlXPC_?E!!=Tjf~D*0q-?8d+n4A==+4I{j6R1Y9`w0et>gWXU^|CYRCLr9o>>
z%Y~P(sdG*D6MvOHp{SV&0Q1-?*3-#6o18tXtH$wMot2OF3oT2Zb9^ACmPb0m_A2ID
zAlx)ufs_=qj%%*$50&ae$D+!sWO{rB@4qV9l;waI9HBJWp80mO&mmpc&qF~^d7K|7
zadq8~$BY*#GH+}io@PV(nood?X0Yi94|rn-^0ZlHD)o2IAq;NTU!LjIZK$en0GoMA
z=QipFaZ7B`S8JibMF_`oh|!q(w}%^&Pjy*KrEIZ%@N!m<r(=6%Y*8?fd2;mpOl~`t
z+0Bx7q-nHmAiro0$@9w9QgpuPfqOE1gm*^iPWC<aB;|S)9TY8y7hCAP)rv8Vv~gRL
z(c{{$N;pZnCU@k8VWNItLmTG~bBACTsZT)+!227tET2`=(nABAW;Wf|4p=B$qUo26
zWz#Ba`trEIW7FxxK;Sr>{>u-mRO;HDL6WwnNiW*w%IDOerfZ)(fS%26Nm-41Uuk({
z3}h`F3*4?r$_ZSZvhjoTYC2vfLmv5_BaCufRkcr3(ZMI7LwTM#eXzWz{Z?1lOHy3l
z7gpLed|#Mh062r+gump?)ML<I3RZiMN7PnVHLi8d{I5gPXfD>d=H+>x;r6BKHH~$E
z900w0Ng?qx+QD~9U!tM_oj_v0SmC;4(9(vC1=2LPvOS<#MLR(YnNHc)#*toSEm1x5
zNNffX?4=GjD2BkmFwl#VLhzFWqhrQV%^(bw48F$rRT`eD9V-cQu6!kbw!)tR?n#)z
zlB%^0O^j&`H$MwARj-+EYumtCjdQ4H{{U{EE<QLylu64qn%d1+ZYA;nJOY_PT56>M
zrp*5UE6$lySos6$9QWV(M+;rkZ<)?vb9T4F%5H9w7A+o&rZfo0(I0h31y`jIxw3+*
zS!``S@9wms?CFe>Mf{SngCs1!RqN5wz)kON!2?mQ8E)2<ORUqrv7oq;3Rf1o1D%hi
z{6S=G+4)x=l8K9|EA<C^Z5uuUsin}^=H-L-M8{6bHwKFjg;fu-YEmsKV|>)IO82;s
z+w#2IT&Zc7Bv@cCLey)cr_&#I09@Mz<WCQ)uakR?n)78GkhyU|l=z_PXUDY2ZEzJf
zuOOCETy5}=uX`zB$<45`8jhmp7aQCD5y?2hG{`38$Tc~{VZpdrs_L@P<C2T4s4gUu
zTrR1q<C1I}fqn;d<I5bUD>~rRbXHZ=O;aY@lkhttXf*f8;qAgMlT9Ftg?*<|hFAvu
z(RkDq0#a-qgGmh@_WtVPj*>WRcI8gf6iu^;+@*x>A>0MSohD0u!s&;!3ofi^YcBI-
zHAbZ!EMCUl{z{^&)t@Ycz3b0)brd`z*<czSCpHRKxuKg_KBZH`UAopi(JrdRffrtn
zi*f9_MRu?4Bo|))030msP2A!$Zz}q@`lOMPsp^?-%i4!WM0zV_yIamxWp5mP6^%{Y
z<BK3<VIZe7WhCu8_)N{LKV(%%4Zp$(?#@4Tf#`y4y2A)*Kmej&a)q0c0w62r89b-y
z<hD?oF!w1m`x#mi%b_LFzUh-84Yll7py?EbMzpx!<zjk4fb1Ne7o*ZQ(|{fV^0KC+
zLuP|Sjs{p3f__%hN|K&9w@6ynh2`<;jHZ3u@GbI|PNICHV;<{$Y`UT4N)f27lX#q&
zw(5?dr)wPrFc;$CdF4#Q)iTQQlXU0Qmz(+WtF;TBGj$j8<aZ+K2`WX58jE)Zvexph
zsdXb8K?JO2J6{;yac;`yhVuc<mkhB=SvJW@BV9?Vz2tkgk1Beq_dYTs1e<=PPeB9R
z@W!;QEgqQT9m{TQ-FleYONu2)GY78JO%q)54aRb^Z`7))F3|D;ImMTx^&XOCYntJM
z;bP{|{RaTn;Hdc+Qe2ukRJ2l-xLljx%Cypp_KX{;PMkpmf=aW~D8V3Eajc2y3g5B^
zQOP@f{3yTDfZ>_*Wv`^5X3$<Rq^N=xu<ZbwcuSi%1w_>TjC5=?yxE~0ORWfo#`2R{
zV0W|yo}M`ay{nTP?pDfLW|FI2_7dqc*beHX)=4wVuWRK6PekXC=aNdYhMAF!fNZ*C
z;>J|83sqF+vduZSDymwiSnht%thEiUxN6VTvBaMXr^kwYl|WVX8=vhZU-Xpn7c>%V
zvr|TIdn=BfsB8tK*b&OFlN*g7N{>sYm<UDBY^bEFVReR8G*$kq1&9GX(jB)8%>Muu
zRcu)+ETyPvz){B7$tCWxp{S^nb{>*FN;-3QyK(tR@i_DjG-(7ab1pbhH*00HP1PaS
zJzr=x2;Dwl?2?vHZET%3U&kwiU|g;>MnC33iALKFQvi|gyS$~2BxI5;Ddv2R+~*s8
zQO?wi4fd*t%Y$qbGsxm>O1B7fF554uHD|rxxRaHmqSQyG2^I?zrij`@p6e@VYZ%yl
zryf)P0F4HQ;#}A3t!3KMhNsp&L(0k2&+E=w*JkS4k*tCp&LZ|w%j4_y3rQE!>K@Cu
ztlqV#@7w{phO)nVi$kn|sw^xdo2&R<Gfw0fM`aeI^72VpZCKfc<npxogRpIYvs#;O
z(hB$DsU1ZfJIChRyUO<e0K+-yn*?U#ATI~2ab%Yqt)D__^2X-JxQzK+-cyugXog6$
z>FO%z8qs1btRmK8j~5Hd^qpEqLN4;UyIu61{^ifrcv&-Llb}V(9=`^$9EbG;Ybx6I
z{-76)>779Pf?lqh)a_`t`=6?OIo>Z;%KWYNdNh?W-wp~`D%v<J%-huWeS@v_D%Ou)
zV}@R#oy*97wu@uTqHljb8{H_><G<<)7X3`g`dovazGh?+R|a1eQT{Bl@*(WpR%+3*
zGwxVktk+uD-gjXKJ#_K|cOTtn^?F(Ans*X@7k}e?dGfged7{-L7t|Wpt2=`UChD2>
zGdzvBSK5w>8!gB~$w<gqX0$J<;F{UY*k4D<C+653P1m$&7=f4Yyo;l0w`vU}cV5k;
zz(p|lUp?hul;-HBJa@3kBxndpCx|;P1r4i6=$b=LR&u7Mb8;@ctdNu?MP*Sm^HjhX
zOUMCvr{Z0FE~S;R_&HWpl@(2CF5UaDJnNZjC#H~O1L1XeSlp(poU-djgY|1etK}fx
z=J#1@mRlifI*u~hr(czssAb+8+^@KTs3dW>yEK1?nn&lWn9|Xc-F++4{TWQnC56lc
zmh)xf--8qz>moaEV!ou(>DdmNH)70RJNX9XlB~W4yJyUwj(Q|Ca5%=m+ZEzAUr7Eu
z#Ojtx7{jz*HeWc(&9b?^4VR(#*Z%+&S+g|VqB~`5{{Ri;do>uqJUCfnt%9`u0w4aR
z8Ex?8^goZAhGfy^`LR;O(>}!fJA}<c9qw=zmsq1?X~`g6W&Z#SWT+Z+V__H>D^;#G
zLr?B<_k66)%WUv`JTZ>aF%^`pd3A>!mJh9|n8=-BVz+f-cRkDwAbc!`SJSvtxz6Uw
z9#mkweY39&<nvNTlvNi8I0IpIdC<^4qfw2myR&R6YW5Q&ta&Sa_$^5sy2E#YZNk@I
zAn~a)=%ng4dw)oD^pBupo)78aW<MA7YKU}+-A_(Q4L;@W-7!fED4Bu!R!i}L)UfpJ
zU7FJ3!*8l93?eLCnfd9fx$dl($ZqY%=r9ettDSn0?bNDnE&M`NOPX42aJm+dP|`8o
zJ&j1xp3(!dQv`7y+l2(U?58H-4=8cs>k9fHkd71%DpxVy6fOq*C1R11xDX0QgL0ZL
zb&L}m@QtK@xLsGU*-0FmNJ3jcqgO)axq~@I1_O&KEjFV76>|)?3yx9QOi|cmdqa3#
zC5W<!Nnn`iPm2V!cc?Ndq5=iOaj-?rcPOKd?-(l4LQRBG(QW{Mh@O|zZO>(8q{h&|
zN^Y-U(`B0yJ7sMw!H&rst0-#8upebY%erl?IQUvU7f&)+yCG)j8-r|_rb#2cjg@VD
zX8qQ(N_eA#4Oxv=U9u1vbc#u`?hYuILvGiF=sHL~lUJT-b8eIyV(ZZ~Vm&csvLPcT
zTE@!@l=5whCWGzIDX%#3@S)jgj@&M}&o(3k!F27QWTQdk{SirXe0`Npvv$JoqPCUZ
z6(+Lr=|1_eKrz2(o^=5}qm>K4vbyR6{6l3(PJXMi8qv!)v$9dzVE!P*kQpQZtTfN}
z0I^RcqDa{2;=!WJMNPmQ1)S0ifbz5yn~kgrjFHm`B!j^g@AOL2E^?R)?ZQ^aBfAmw
zNa8ohkv8G99_k4s0Gz2G6Tr2K9K!cF;Y~o#E{Pi;1mh|RXZH(X7RqtA+~LB7^wHdx
zKKV|fkv?pNj&sNWXR=A-n{TzH7YpNwzSdsLrmHR%*bx_HA&#NWv0+Eh>F#!9$CWpz
z=NxxW0pBTHkm?PSHinsv_dh9*{Hq8J0Od1gGELJ2K=%8hoq|xJQB>BOGBoDa&VNg7
z@KiyT7EWNw4oES9Bc`Z#dwtV=$Mra=8ZFN$r;%iqRbxVI7D=(Z0G)K7b*wy2YkP2;
zD?l762MLmq-yvZriMe)BO>M%0HVcDfNEQ|-Hc?VQ(>LA1SQ}?#E}YrPU?jM5lxT&t
zcu~(`^-?q&T|+tGBrO(1(fi#J!R@jcy!S-64OEXpNLL{$Ex!K%2)^nGEL?6Dpe92R
zAdF=i*9;-p#@$RCehMIv@9v<eBsESNPr`<zZ3#tN2HkV+L_up~ge$V(5ixPik)fF(
zy_0RhPZr^D7|H=eH8$B|f<Fk_p>`fF5JvamGUyC0jjk=Y2#u!sP*J|o+mt|);Ut(X
ziac2(xk^5Q$%NRY1F&k_n9qe+TbzYwTJPcARlJs`h#Cx`Zg7hOKc?s^1MrV-E>V_+
zp$NF+_Dptra-M85qVLZfBxBH|3yg4~liCSVgvpzB*%*^-OYk>#PGfftMg9~|h=Iy%
zY<LzOm6t>tMCGJkvQQ4(9H`n~Y@3BCzR`s@W5taJ87eo}n}n~u@}dC!Qz6*#=alP?
z0J>oY`8ZA(7CfTHk6_YR%WewiF{Rcm1$4*wfi=!rA;=RPY!Mu1vR2!X%1B8t^Yus@
zoS?|X>~l|RCjfin=#UGMYxz#G8O@L#Gp+YbBREp<Y%q}Js}x9&Bjq6Re5Y;fnnrFC
zG1i22>_IA`xB~uhb!zSkr>{T6DdK6p1MSViv(sB<^Y&G3Iab<mu(>Ld=#mX0?E=a(
z-wJDEmBE+f1u7qnpf_`5!-L@*_#124LSh%VOo>SYv}Wo|i+4`jV!LiKc}!smJ`xl5
zPO-g#O}05oWwWzyg}`6U*LLMOp!oVMwlxSDj`mO%e;&xcO~7zM8cT_IvGTA<gAbpg
znw~OGl?ZVsj47#P&Q$<~sBgPAzruuvTER&<yo8IWh;Z(vi+UX0%_QLcQ`+)vcGxI^
zcXDi{XvNWNS`1@o+|m4Pr1=S^jGOvW#z(`lgnWCCYo?gXO|E{+S~kh*A)X<3w;oXY
z$9Abp1Mp@)LQ`E#K*PcM6v~AKc=uz4%{cFF>PaJWGI4$sZohMcOgI*w=HV$A=PEYa
z3QfSG!DMf^=ISzWVtC<7Y=8Jsyfioe04o@bi{AP9P|xsGrKgZ=p_Dj|%83Zs3_?Qk
zThE0%Un>S;{giZfGg%$(u(;#l22WN+Pf_m3aKFMLXNLh~_$_?5`zKW}0v*NqQkyz)
zEsz6s*Bq3)Zh2j{z~bswcBCVSNt<Ahxy?4czhu$(xJ3%d1d@MIT<3>41CJ?<AZE$f
zCq2<M4r^QH=ixjwfS4H5Y@4OAAIwtN=?`uQ;^{0M+n(vo4cl_zf0Ut?;lXPSA{WBZ
zb7c{V+&lZCT+`y}Gwtnf_(d{pA{K`O$+CU%eo|iKe`LoSX9Y6YmOQ)QqyToxX5x4W
zLGx>^MzQQ}=h;2cJICEd$L;qHRIQxwLJT`Y3rHLvl+la#x|~eImkcg@qH}rrARbf-
z;w@sJk=FPnPVjyT9$-U;FZ4{1Co4fTk2`Ed?cqrG4&<omoC5=Py8XqI{YKwuZdD?W
zKPx$|V0R$>*Hk~)K)4C<7|X4+Tjh06r?BGx07UE<?#j!Oa&PjKke#uln>!yXjCMJ2
zQ)gsG?!u9h7VrXKXdTG<rT+lwApO#ZqIS-1FT!i(Yq<eLT5X;a92TQGW4A_52H&Aj
z7oEfoK2o?FrdWgWsED*Fc;Jujp2rMaC_pz-M{ots5opn5x4rNZE;dQsEfhHU<uvhs
zvQy6_B=4N217dwHlwZo>-phsfSQc=0d?z1}m~aKcLTpA>4UfV2U2YF_&Bpd6D0VUy
z1&Z)8Ep*#AxGSA*5)<8H3y<YCN-tr;ZPyZQg^Y#VMhf8W{{Y=IgJN!y$RjxmxOrSo
z5?jjP$JpZG5HSfzY`B6gd?fm!kgc78_e|_p9C38gfAN&mBaqiyAx86MAs4tjD5M;o
z%7}!X$R17br=@+(${I{$a-^n|js?a1E!ehRQSHUeukwpwb9i<B>av<*K=xe{*_(54
zK}x}8gC6GKg(IW{d$56uR_?a*_e5^MwT=9xF$HUeY!y9Ku5oLtI;RI-;a1LWY<nV#
zMu;z-7cMsJxQ7#BQ4Q?w66b+rnFjsRTyj<l9trT2I~=A0KdCo($n2JeOprJp{{Xt+
zc~O_=h1VA4Y8J^3GBbqJ{{Y>S3xPN*w-Jz0qjDGOQkxv4-(XFyy5ihp!VK1N&DU|s
zxl6gH$W0^zlXOxuXhY62y3X)_bhpPM$!<KOU?(gucM0u*wjkuDx<O%cZz&^~2je$h
z2gNBpoIF`C<x7Rgu=*jYs0PD~ag}cqfsXF5vaHmnxFNS)c<`wE0!*fK5i#Uo*>|Md
z{3Rd<ZX}YTnp42~VP5`%*1}^fYkS!%<QK4SD0*_|;EN&zV#jf^S0AvXk<26%OhBBT
z5Tt>QN|rfx*-loFS}Yk5+k1u2jh8mbx)wQ}<AY$1r48hqs8b~LGAc4n+}l}9#<Cs}
z51pZwXv(Xvk=Zx0Dl?E4-pe{_#<jz9g@-EUn^}eydz=q&y#2LO2YXGvsF<aYo0k*y
zMp)8C6j80K*WV`u0IQ#<x<O)3!l`L-7b<#a_c#DlmK4}{BG!PqM}q5<+Ur9_0QAP@
zfUERc5r;eOt?COSU~4_b-IsPeN;+MVrPz}QV~m!IpM_mL9JNj^BG*?sHkVOXCg*}1
z*mAFGbm-~e*%L17cwX;|`1GUBeVn;`mYpNcYm2Cxv4Dpv8iq+M#m^<qJ<8o`8bs1c
z=e?Up%C3t_*-}4-U32=1mTw1>x(svD0MI&WqPjtX7*@WMrYEDe#_szqUq$I9p}x!C
z;chB4h?z~f?rTlBNBl_PT$mekJgiW{#sgIAJG5h!b<@<WGd0^o8`xP*SEs;hi`ilU
z<t)<vMh*U>VE}%jl0Ii2+C@Ldy(7>x-Aac|r4F8EGZ*D7oo_*xI%dZkc_nxsQ+0S`
zj${uq$Um9R!p2r=b^43Hk5MauKc@BxXZdMMX$5$SKgpj*br<74k3|cjp?|F}7hYMf
z{v}lEGrCD0_h0!y!okBxNZjiL_r%8GxhsP=l`N0;W#FM5Bw1E<R;5&Iz!=q2Q(IYb
z=eWD(>S*9|fZEc2fllg1vLa{2#vAgCSL?}*&3XZ)u9&<MTu0SubWKKZ;kBnHg;AwY
zweQ_v1@N`HB?~=v7XixVj(KvVPI(dSKZF6&hCR)3C*gao0dpa4EWE$)st6*bh+Tl&
zfW2y&t#o49!uR6;07Yj$INP#0tGyQ8#=$a=QDsyA0EX*;v0sVZVWnuau7Q&NX0QJM
z%|vcT*4!*FNq!?#nYKwsG+>+!t7GFKvPr=D8X^ltjnj*O3mwz_L~EGR81PS#WpQ7t
z($LbndbxHnqUX6&oH+JY853G3)aNaY#A3mDuT*NViA!XiqdacP!~Q9LHo5c3rF8u)
zjqGK93Hk+}=$#*^dX_;~Qt1G3%ZfOq&C*12((K-{rb?0;!)APUN7HHTal2b}ZJ=~}
zsOiV%Wpl_JD<MMm${8GXXk8DCbV)+W%{xUh$O&rGY1&AIpn#9lDFYZiwkq9_wT#M_
zG>b<and-P))|-_>Utx89)D;bhr#4v{x~;(Fc41tVvzsKi%S0Q8seAWVbZ%qf7tR)9
zNw&J^x_v;kwz|^CA40=7re4odB5u~$EcT~avF1w`71CF4ak(gYSSD$@i-o#Hep4^h
z8ua0=GdS1_HKT={(yLzgx<WGSttU|FB3PUN<z;23eKbX&ZBm{&Lud|s^f#z$S+wtc
z$Q%N&mG!QCmTm3fTkA#p9A4tH{*$DAz{i#2WOC<oFBFtcY=%s6@{Oa7j&SyZZ`}nW
zM0Nn&-?FvQAuoGe``9Tw%d<U}bozL6L$>pqDJQ3qwrpc+v}~-7FaQ96gOaj8Q)qSF
z;4U2gVs4R=V9;srChjDklvL4rOtD8nBz~RT;1xc*szDvwynO*&QqJb-4wGdrvn`1L
z;b+|`-dyKn>ZR1R0VCW&AG)Kcn&gewUAQqi*?6ihVy*)XwY;L~>dU<SZnCYaYfjK|
zjH0f&us>X{M;0WuI!?_aq}(uXe&`CINIA+#=5ZX|Hb<M}h1QAy%NLP!4P$mN_*SyG
z5PK@EM3O9vF`v{OcUh+hP%U7KsgK=q6c+dkBxcCm%b_Y71@4QH;jOjReM5=9Z)89P
zQETBlO>O3AQBH1g!YfE0#~I35Jqax%)H)sz*07w|t<^*JQ(R*UCD5@KL<v2X!lE|%
z7Cz(hynK^$$w-7HY{zO+Ncm5Ic}~+?G}5$OfC@gYjn8&Q+x#x3V2d09-^%aD8e1+~
z)6$aAH(wo*a!|n)KdC8b{{ShPYuLz3rIn3n?n<lI^>~bKjt5+Ka(t5E9d=Hec0o}*
za?Bdb2*Lf;-j5?3=Cz{WtS{$DKEi)>X`^bQo<QfG7YtzeT!fNmv-I^XJ40OXE>@D!
zf$aj{3(IsKr>Aq;=_LWJ?5?YNuA;1ZI(&OuYi?eyDdY9FNk?UuQB6)J*hsh?mR_l`
zOD^+cVPLwia~Ni-k<Wi51yMer9&FM8@Vw8-W|#3DD+sIf!LZHvMCoyW;Oi<kSHjsn
z@{6mDKCP}`a~f@B$>U<zCKne))7%={xyrh(wWRH3$yM5>rsp_D9vVIrP`rqVXx!u7
zPFSUuT1HSJ)MjHCT`Pj76)`>dBHt=KeYH*wbcW6FsHx;|f4JOuL;O~|8Dp)R8fUX$
zII@PasiOecDp9Ej<Jt~T&8U`XJ;exNmm!o{ZNJqdF}J^THC!=A8=T|rw+ec9wkZ3P
zWCoz;N=e`z%f2ynNUdn5t(ByZ0%a55yb*8_52oDW07OwykZy2Ql1s5V51^<lvauCz
zaIjTkGQ)dZ{30SGW%xpJR2>OfD}XjDH>g(ZlG}~`s`9y#NYk;T4>nnCLJ}l5=IU7S
za(f!lWu;U-@?4xPmXW#b7C5rTbnQQ@Fa>%(l}aOtwiXu3eAp61r2d0x<FiKYY@GSx
zjM$NX2wJ(`#*o2lDhlek8sg$|yx)ztpl~$L)FW$bEUV<KE^*uYtkBemKKEblr-HaV
zgL?&*8WNr8zJ{Vp?sJJhRV7V)u5Qq56(jWsS?w<c-U56z23KPP<z}d5X_mBA9-H?P
zkCwU5Zq~cuQ!$QlusKsWdQ82GoVu{iFGIM|B-L$<+`B3V>J5-s5>+mw`JUsr*my}o
z@((v%xT9=%qROS)+FfOz)Z73d@~$c*A(mPFNb*-*6f@d~>Q<dEP$Q^m-GHj=h0l)&
z&Yo#Aw%$~8D~UXf9<8TVO6p)4?F1;QOM}DQ;-8{JdUliHOQ=H94p);NDbTT%_6-)K
z7<M$}9ZypEO}7<7>Ua9MA9Zb~G_u={6!JkWqc)dCi*Da>B$Q1hbc}vqV5_R@VvUvu
zDhfxLpLGw7v3Y3PQ0n2J0B%u(Q7;!J>n}~UxCARGp2*?c_Xhn{q2t=yB%5WZt7#y(
ziz3?gy_Xy;tE#t4W@qJHP)g$tO7HP-sJ$15_64mqqU3p5iu20R>rb#DWpy`@#}IP8
zKSddD(e+V7SPPs6SF6$MRKlDFxD#dbr8Rtz)mgaDH(K2<Q>uFa^$5ph;`t77lcI|=
zilfwPD_KzUcL13jboT9kg@%r<q>*_Ik+k}Y*nQG}b>?Ko-rFSR+qP;dX<?D3_OikC
z#Ty$;`v5R)WuqFy3oW}VG1awxr8CdM9y*emMC5$$)=>I&kNT{G#pVO$ZF=3n)jamP
z#W<GE56b&kzxa_g(e9suP_xu#21vU4I*K-$Hr#e!Gky+Nh^1f$!CypadV?QG+q`k*
ze7~80BOe>1%YPavL+NMO(RK3XuL*{>Mv>ipcleSco|)(1ua|ntkg~b%Xt28P{9NkM
zNwm?L11ov>X-?Ny#B43NEFJ7`!q)Uos3~fgZaE9umPun*6Pqk~DreYT1t+6J8%3{W
zqpxeHW^ZNXy#drrmKea3Hp=w<HnKU|F5tZP=jO>OY)n|8A3#y*1<faC-D3LpN|HKB
z92xzWv+0z~mOcT(&3+=$(?_Mu=a%l<h0#2jX16UJIPt+dNclRp64~6-<!-+U-RM@a
z;|AemHH!-QY;nA+zKg4MJxH;|`AIpo8!afGSLhnH-94ncvcY~T>jHW?AZNYKx~|i8
z$BGt%E-k=Wj;7S(E_3B}K2&f@d1p_fJ~2m<bq0WMEkunT;z_#mtzHov?rVD$>3wh1
zl*Tv35f}4y=5x#I%3tMra%-eUC2Wq{d#HV5xf52)0&J_@f~GSqDDN$TJMvd;?UV+T
z_iq3WR;G%a$q*!c)e^F8(LpU1(R&qNG#=|MPNfdP-BCHWl!AjpC15|5#n6+)7*>bU
z9+~<oT|&XccSvdkVY2Ps>n3+x!FM9STIr?TmHjBfq|&3kmV%w20J-L00(MVhY$%=1
zRK2)SoS*!piQf7;Hf|wGVrxJttiZxqUvbJ~nV{+^wi^V^P40V2?Ja<tqIEX3Mse9@
z6{4PjgVr6^(?w_u7O+_QANRu8X$H*~?u7at64-5NK9L|ShN{wDaJDr-7|qXRnbaZ=
zl(ZX^kVDRNf%G<(ykgg0g`_x$#g<>Ebho|X*|95cM?zzbx9pcLXssO4%B-F@5(1U1
zzD`qGzzvj*_)}8)I%Bhl0`>`<_ENQl%6O^o$__~n&M`%NkrFSpRBH6DF&i}HX=m9J
zZdP|)tZ|ICGy5%%ByNs*WO8~u_g$m2jqIrfI6MVu)DM-?5?n`+sEK#=726isCW8el
ze1&1A(*WVZp)Zhd@~kwOqz@kQo|_cjXtbfgUn^5dNgEnB7J>3sGe?#}+ioCzRqRqc
zfD4HqRFXqSW%+G0N9%9dMrtY8Y`|Pqd`B5haZ!^m9B3k1w>$K-1TlM@e^!1HFdOH;
zWa81sgpHL@L{Hss)Jot1<nWx~o^jbZqTGxj$SNplZHK~z*Sa9^ZlQB>vUX}61&?Jt
zffou0!3PRpa)436yqvDvY=EB6DG2V074}Bpm7sQ9?4@P5U-nC3NR(p<Hs8WufqSGM
zbVfsq1(Ysn99d2{`BA%tjPx@gCc49wBXBOGlgEDx3ORr&>@0_i$N5C!%NP!C)nG84
zPCe-=ExVNJdx8fAV4%T!e5htBYvaO#pxAv>{g#OkH#S7G^r0F0zEN@5j#UiKa)I~V
zn_&@b-uDU#TkgLfMTGWq9exzo@S<aFWhur1SPW86%7UuoV5wSEH9+mc6a@AMp2*06
z*bpyq?1`pv3?0fW%qO~0e+e3HI8FnMpvOcN0G8wKf+6?L5!ECH8z4Qz@{C20RWIqa
zkqCNFc4U-5x}3WNSn<L~3zV(kE<YR~5IW|YeN|(ya;+<knZm1avB>V80?CGH{{W`w
z)A~?UE*-E*MiYe1Y?^d&808_1azI>7mpR^2F!HerM}-vU+hp?W=E^yXZEq;W3fdxb
zhyyoB$D3rXdvSz}Zrj|eBuS)C8^Hle94tW?2w07=`ze7RRFXl8Ly2ML$}_WoMb}D2
zuWQ*v<6+%ogJau_61v`OnAeUkWgy5{v{*BXTP8;<ti#_4CTH<eGjcA9LC6~zXo~F^
zTm`ZdAV0$T;XR{p&A!V>=ZVDj76B`7k10e%@HtNOoY8xM@`pvDAZ`1bq$9Bj!o$8-
z5;?jBqKNo5I9+Rtr8mFAX}{Sk8i=GG(}hc352$XgrE`Edz7-{FkEn1JA=r~37%I+z
z!ovJ2+gw`8&V*T@Sv<)omMtKGY!vTzH&G6A**t^DDn;Yal0CqDA>Szjg){g$vK{TY
zMH7;-47WK6!Q|mLZ)~SAr<BC#cI)EFOLq(KS6ewto<FivP|c>;PHTwZ1g8gu#EV$8
z-C)@#=3lnOtsxKjjnig4-7D;JhiM+Y@q@}_jdX(?_B`A)w(4jY4;Dj<UcjQMN#fw9
zYd}nbaCem!?hzFR@*G)0>?EV1Jq@|#A$b@V9#cv1xC?}6R!qqqZ`J*jfyDD~su{OZ
zv*j&N-I5)oWMn3mfyNhK2@S2}CKiUs3Be@z%7_7b5p?$k_9K+T$I2)S>m}P|8=Oa!
z(=WE!OerJTVc9XjTlA8e>3$8<M4;m2eN!YOkghDiC-+d)ZQFZ`sR`WNq38WLDA1Ni
zO_@jt@Ff?s$_9`)Np`n&iZD#(n>n^wi|i_y(rzBmZ_0I3u0_I1S%){j!s^Kzz~rgP
zGp7u;MhLb!?zr04Oa|k{lHA{(%2al#Xl>3wNw|ci$GT?h-~6JGvUWTZe5DySxGA`|
zAF@$!gF!>bYXtFz=GRSah$+ow`2PSY8AQ;g-amAX7vl?yN=$%O9*zaW8?F<Xu;0}L
z--{*_j`vLj+Sa|1OjiU<=;3g~!1{#?>Hh$x#}?%^+zg-HGjSKOO%_H`Iq|ulsiY4o
zEL)8EQa$f*0Jz)7Wfk+3<oXmI5|jNY2OI*F23Xy>`lTH`3JDgnPpPs{8QH`Sl<k8S
zdt7`hYa%$lbMT;X{w7I8Ih%4t{)l&ve-=)N&6c!n{s<s$J{LW#C*IdL;DrnT24?>N
zP**+jH}uHi^~$tPES-|a3mtu~AHGyI(FU-aAF)r4c|rFwH~gqI8HMk#x9P&tM#jMb
z$+%CxI8m|S+>vzc*8<8?JF&6Hut-`8;zkp91hr#Y6g2iLi91d2Vv_f7JS04PrlDO8
zzjed{kb`T4(|?rd6LcwPzlF^L{{Y&_q?>0SROXxVvofLA?vR_VwbCBzA@4^UaFE;1
zQlH&4kClaNTacXF-#7ZG%T2qbxeGJ|$q2y6O(8bt&A?rAk_rhL&al3FCXs7pJ8>a2
zk;w?83pg7eDSnBkAMm>9(UTkiISEK9gX+6+92KYzM;ilV-rT1-*E}YY-sZ^AoP-An
zeOEV&fV%?DKH$4^U3-ESXxxVh?}E^pUm3}6eygn8^K{*!{QXu)+>WzJ!>#p9k+!)G
zYnM5PkfS-|rbwKcIKKwqrn$_w%2xtM)j;9^Ir}F_lVUuAP7~<B-Em|)&TKPfJs|J`
z+5=^yB(rQ-51c2mNQn0_%_w$<+XX2y3xkve_88F<kLv+WA_cf}PtdByJcoORQ4z>C
zl1U3t)-6<S0NKXhDza<elwDMth9n3lWZV^y*Ri?!f6C!<6Nn($cNZR04k5S%u4y;n
za5!CY&9ah#V@Vg_CY+PmNrH1=5&_@#Sk^>A2H_zj5o@W7MX*x{MFGf+xx=#J?2IQ7
z;HHs|a*Y61xF7yguWKf4{nrwB2+%oD?a5qjncF<2<39^goQ35k;oz<u@ycDz{-vnO
zR7BZ#a&P4k3+-Y8rl+a4FLZ2GO|`)Q`CKxG(H2=gpoaUOV5_R?!F7ipRRvv9JRlC|
zI^>%KiU1A|^$mvy%HtJ?Jf7+nPT1RK0!rgh^6cPvL;V;w5CF)>)jDZd!TPSNojaR*
z5)^IR^Ky?y4E6UC8V*#Eo7=hsytIIcf=<@qW~^B-);`S`Q^g^1&N79MJcZAa&e}h+
zXk!zy(UUYZ4oViUBiuk95Ui2oj0BPwI_`76w@%{dWQf|vm))T9tSPC>t%6l_Qm{VF
z%C)4bV8(8svGS13(Ld#marO#oCI-qs@SO*#GqTVEeC;td?c^@ShA~!6J1-!siWtBy
zxhl&^VXmkFthl<t!z<>g40E{b3iXe}+IBIKxy-&7e}UtvOOxp4@+ZMkHhnjsA3!<7
zV6w8Q(<!6CXu0p*Ney?jLm9C6Os%Pcotxy8Io>Y4-;por9)A|um)EGFgc&x2WkpFy
zDr$YKz*hRzdn%o^ro!q@pKNhT9M;_VE0ZUY7b-0rZ6j6Fl<tC+w{4Qv)78|xwn=tE
zI|E>y{;35eH>oMv^<HP!Ux;pY`g%Dm1~6BV=J`-^sO_D;J{Gpk4^njolcGfCL|Y`_
z9P$^C^;cEbYBIQq2w}ypf}VPfMq?zeak;)q3a&QnEp3VNxPB)u+FhMI)O3L2d!&-?
zH!9MRtp_A3`dAzuaI9m2`v*5%`7q915tO+w$U~)giae9RTh5OBIjYrmR8#;Ma!10;
z^o=8BuWtUueJ%K9LS%uB+l+k|cZ1<Y{?j?~H*}2U58-tnrVL~)2G+f@sdXR1sA(tO
zWA$!$A$<|)(b7gYy}SHhDz{K=G@#2Xn#PQauSw&@FF;Xi+4HS`K?+afM$L>FAS!vO
zpGzq8{h)VV<*yj48t7?byGJfK3(UI0IvqKVGRngzW{yhX&*I}>w?jpGWv4)OOxknA
zanin~Pvsk|F1=!cZl~%9LuzV2BTnIC6c{9Yo>z>17&aGGws~C9b8rg!L#3G;saWRm
z<#b|-a80`cPU!$?{Sl?Lw=}JDk1lY#kJOcKP13q-Ky9Rnr|7TZ+8O||k!O}(i^mLo
zm9Xhh#M?&JG<*amtD{9#5p0dz3cW+s%-Gm_n{bs$wmXDUJS(cd4m9J`uvI!Cw{^$^
zmFj&jqf$}P#~cwgpbo(gT~6wX&t6*q4g$KPs->i-4wiVB0Pf%wpXn2xF-}$;`Bv?+
z7HFf4@Gh%$4y&MN@Zgj^-w8Czr&c@Fb;vv<gk>duipp_XFDV!;xP>02Rw0PxBd6IN
zxWdSFcCgrEa~kWor^kuPLS)OrB~MXmhH1+h>;kD>DR*=W>I{-@CiluJk-NEGuf<WM
zc`}=mu^b8RY@vJHFfOg5rUYDskEdfs8+FX^(D5l+=>}YE6!6yK&HdA=soe5+3j_qs
z5S^?UP@CY&Err%h!x`P2ELTz0MHwI~y6GMxCC1AS)U_;b=WYWWsd+v`qmI#Bc<x0e
zttpk{k_hMFR<YvSaNMBlH7(B}q@TKqmZ#KzE9WwE$nHmP$4I-Qq-=x|Zm#KJWK0Cu
z0I6x}<B6ZD<RJAedut1K{Q%){WKw!Yj7yzgREh?cwfPG)HP$wL(nuQ6do1>=s=8u8
zeg2A;XGr|qgmHLRxfbG*H&y*$#zpDVl5uOCEY)VYB*eMT=jBm6kO^^j(FHVw;1U;R
z9}64@ibdhncf0ixx%D8o2I`WT#^}IHg@Ii!9T<D&E|Z%ARi2pFdVrN%6IwFvd@D^d
z&UnrhF|m<-4jQ7Aoz_IdAMp6>qLqXb*emo=Dj<38>>w)0Ab=558<XJ$QueW?#^=H!
zl@+|@10lB`bX{2_n~oKH#@AR3hF<qKLd-9~2$up!2zfh;-C%%BGJGO5w{56t`BBUh
zX`QlL-v~9Wi6v@}VCbsAA!`}WpDS|dAcm9kHFCBn#%|-v@t&X7jT~dsZREBI7Xcqx
zU0bO8s%Cq@;9m=o<57R8v4TdMT<Y3qJjJHNym9J1Q`6Q~RZV#$IqW!94Hj@0vNn#Y
zI0z%$Q*jz!NYqk9^3C&0?F0FWtkvd-$+99`JDVsSSv1jZB!;LXb>GkKj~6B+Vm=yo
zxZDB)inWqOlHzi$Af6bR{Z8*>6>BD{1>0;ct?{Z4^gBeUbEj(>a96JMr95t=50TAo
zJMz44iYL=Z9&Qcpw>k$=!%YzNoc9sk#|Yq-JZ;%2$LQB}1aXKRv-H~}uQt?Ym9jfw
zuqU$6>RSAoo4qz0MmrAbqOP5?TW(hum%?(e#qsQ^pk$AnIoBrr%G%IDQ7l2N8%4V+
zO*Wo3&d^9X9oMDw?F?>(j&*?fRq?SY$9)MYwq&K!p2vdbIOn>tqor#Z?igCFZIsYP
zNU#>=dCs@5Kl3kwoLP;<{HkVf#I%M_?2oHVMY|eXe*t1<Yn?90#fOz?T~#$p$t2}F
zO`>#;1hkNQt{7aMvYe4!Pek_{xEG(5VFekA?|1+X<zN0<3QBV%&I}e<-G5VkOwNiD
zTM+*0{{SDPJbuFKHA-lYrq>6%;HvYe?>P#e0m;sk2Jv#6<Kh;}VO-E|MS_+sNrl0n
z;by0m=ZmI7`FB{|BZC#uxTl?uA5?WbEjDxQZdOu)sK&v&vMt)QhueD(3N9|mm-X{P
z8?lyIJxE?s@03`pbH{>*oNhOFbYQ953U2mUbgXR^3?$nt(P<prmKH0{G?`lq!;S0;
z*y$B-m7>kC`Ae50mV|EEXFMD3R&QK^k+hdtY9)5aL!5H4Jw-dEl(o*YZ^BnlMLikH
z%7(H-w5G#RE1O{Q0v@OVA>zxaWes*pYP1$y(ZgaK?4PQ+q$Io!0;kjF--UfaAG8p;
zazac+{g*UhtzacbTTvLe8M2Hu#BxAFS2?h=B$RMs;O&hmUVy5}c_Ae<VV2HSeO95h
z_5>m*YD0$ZO7yXz;GG7}+cN%D4xwRiu4<$vJ6PFJY8%PU7eaPdqLQ@OkZg?U>01<_
zxc5L;4}Fx{NVA2IoKsXzP_xps&0L6p;|SK)iH)2`((4~YTy1A^uBc*u4sN{X;-@P@
zaiZwS8%4#5P)ReaZtD+(B}@Gll3iedZF5|14g%i-NDdFM$I5s4M^RN4GZqSs^*hc7
z)lCH9jJu9kG@{UwMa0^qk&Esl<wX{=>O1(4B~eyYdW4IVD`XAL){Yl0!xcvEi&10T
z03(&F(xnncEJ?!htrl0lc8%6;*QDrgwJUy$)$#H1L&a=ebbtxE%4!GLd|7C<*>RPT
z)aJWQio0c6qK2km%C9+E4I@-+agHzKtX8El{LROeX`~q>u<W=zj7nXJC9`bZQdvJi
z7Whw&c^=?g^ZTmGNSqiig*=i7TXKK8^Jj@JfY;G`Pb*s6mk+w7>RPsbS^nYmRnuy3
zxea&sRQkK+o+lSM#Sb3?=9>}5k2~t=nE9P<ZdNXLT3fA$QpQ1c<&CO7{xH6-3ZRk|
z8@_<lWT%<7b*xvo^!~jg>BDy(EWU2(ilH2>UZ<dHj%ylNY(5v8<l&2VL%{S6YER8T
z?@`zz%JDzM8fas5n+48ty$YvPd*V4Z@Vw`(B=s2~w{)I7c*{i`ba}j(c^@iD8DAX0
zw2_q+NBgJi%94$@kPg>go9K%@d+_5{osMGzj&0q0uS{xE5W@K}^<O!3Tm2%#-FkkT
ztv)EgF5=6=@*?9qi9RR2>HR|-Fj&YiJghI`CsT@uWMdzUtcx}0NG-gNx~bNx{bn1I
zRdHp>Hj^ui$Lb`RoJr)8tU7hy^$i!cRegB(oT;=~!zUNUSA4&TX*x%%>F)mkq#5k6
zABi<JLMJvNK<-w<Nv)6apj;b;m+QjWp(nS(h8&BPB0SFxu5|KLxXR}{DtbtU%aDuI
zsrJ;kfnZJ%dTlP|5JlIZ<w(kkI{56;siYQhTJ2twY-HNYEjvGmN6HD<OC14)(u)PZ
z)2ZzU9}6AQ@i*0N{I5c$V?{XgWoYyvo7Wl|*9&E49f?oXYPIfN;biI^XB#DKD3)1m
z5eC@`j=lSz&vb01?%)+)Qqy~oQU=HhbVDID4+=<{ZaG*5zMSyT0==e?I@av7bb-wy
z7Ao^k-C_O|=8@Bbvc&$JsI&G`{{Strp?R^r{{XU*I@_^spRjjPGWWnm01HLM(InVj
znk?i-qnL_<gpI?^)Vh#9kJSb$D(H{>MmSpiAYGu0m5$Sx_f=!c^nR4m-y>RF4Uv~Z
ze2P7eG*VOzp{FWpK9&+nA0WcnQP9H#LC>(aWG<<xMNYyZ7dG&?GUwr?*&LbN^nvN9
zsVHLr00`l6pVW1kYbuD{U8q#yr*D<2(lmnD!=!G0RIy-`pE-#PkcVJUK<8MLNQY?1
zR&zkeS$ryr%8zjXu9k|!G_pMs#?}J5dWOcr0su(vR8kT_xl(xVvg-_+*dC=<Bc6K&
zNn0l9&GUt2T*7!%_3a^!<u*KOFGXB9nEiaWc>}TKQ5yqwcdiV$-wKTIy(ldl^OnZA
zWgVsu;s6j=N9jZf0%jqv(mqw>99*hBFM)1V<v1sVk|_?upvby;HUr9v5pH~Nq;>Ka
zG`l+Dg#_NoZFJcG09A@}$hJ~Y?Tt3Qmji^2?7IM4i!9JCg*GFPqK(|Ak}PagZ$3Mq
zf-HRbQiE${M9x%}`XXdJINOAdb&`wi@|bY$Q9?0E#|c}DBqcegDOgbZ*>K6iQ)}~O
z!pMw;?3m+%o=z+i9l{7QI18v`z0}tLC}eQnJfa}@`BIaQg#<(&=2IJTg#;RBd%wz-
zpC;-TfxP8Q0RWHkixn`yal#s-`-DydZQVmT7w#^nTQ3(#6}P{1Qwgv`gJmORwiN*>
z6OwF)mB)H`lLbKeJ?9rjgiMw<lHr9ZHy5^0@f9`h7HAEQZweZ-W`!$FkoAA2$WfC4
zkmks$R{+s;E3I%x*&9!{Z)D9-8z*T5VLIhCgk3z5j#51im^DZxrojugP1rXGs;8E=
z<CGDUl8kIg2hxHWVy6u~(A2Iao&q2fYZLn<kRm&bBqWaM2?Hs+yyYg!5Y`*E#aBJ7
zy@5v7JORy>Y_$ysDwxqZv>Qoa2MC+@Rn*gh+$X+bEp=xbBginju{<Q*&B_VW0)JBB
zCPj)@19C_y<F)>Z8A-SoNG2cwd;BIoOSo8f;bj(QD<s<BFm9aC;M0B+8!_%Iq-?Bn
zPE(U@jcD?0q~n64C8HrR(hv}8$B8rCe1q_s(|&kE`lMlVWo`0GDkijv_65PVI5|uc
zH~NBqsM0JvEYlt{K=Qo$yb^4f=ZpKAMbp?fOi#k;8bT3>)1HDMBhj}CV&9R3Go%cN
z6NJyrahoP^A)xlSwDX1Du;$1YRGW9QkMkneu>~u}G;+{;<OGs2@S0vOGOOP+&PNI(
zQy{sqO&m<B&WlaJ{SuiOU;|Z1tT)Ih&aMCqeUiK_vHt+bjR#2P?I!Auxx~ML_EXDS
z>^2;#`6^iBXIvD^6GYx*&SbY%`g_fSrem3WI4df77{(89PUB#XM7u48&TVx5*0Dh{
zrGdBJmDN%9dXs}Lvc`fOE-Vgt%8tZ4BI+krH-JH1`PLi~3fvfuabX_Pcv5X)ZV-mD
zJ6hIV`MAeCaGQ%K$pq{K*`)mwcG%weQAJl9U%KMfQW~h7E=mq2`6%uZl0NDu)J1F*
zFso(HD{*G#m|TY!@Pc%JOM6``l|Z+WLJUd_mbxi3N>&~!8GcCmqbVhCY^snQd~w+s
zPA$l}^W`%V!exElNH|O<w<(Tr-(tGr_608zs%Jkx34-b5gxj<m-EJfNh<hABQZ?2Y
z1L%h`H_1urupE$=gJXP%AiR<dlS{iOOziRn(@f3IQBVWQiAl<9oJTfLI$_8dQ95uq
z!etU~A_zD0gx5R+kSv3BL$8M$rn;g0-8zXklENJJ-up^#s?OY@A2t3GWTxUJ>@-N;
z#>xq$BoxL2+>(*_7btX5B*~~;441X-;T!5SoBEC)R2H2h8sZP`jB}dfaxPXSJq17-
z?E4&4b$C2?T~1g#k@iDYOwjuSgc`B&&WD4LZj|`FvWI0ucH}3vRyz5zn}O7`5)*zr
zB=LNxpCymB#X$Mo)A4jvK=Ox2&JKI0w*X`tD#KXegThbGU$$0w+X~K+YkMBa*8<u8
z>ZkLBgJ&k1$6K4F_?boI#JDmMi>8-@j32tH6^}XLbE@CT${!00^3iF(2hYMy-MA{H
z)lN9bQJSd-7e95D7Ax}6ZsT*|FuV3uCaPQE$qiJtvUuVo{G`iL_T@!(gMxnQyYnx%
z`Ca*k@pQ`_3I0N5ka!$BD~p~pV190^J!uamD3#z~*>8+1$VHfOw;ZH0foxq?{$ck?
z`G*t1LE<<02s!iO#{os_0)JJ|j-0!-teYFbmm<lO5+?H(kkm#%8?A)9i@!{bb<Y<<
zLdc%njHPuu23q$u5>j>+&G-E%dgr@>I80!fhuJ0myrC-}IV3oX{HN?oq0E(_kZz`H
znnx<HbeG6ZWU^l)30y3!b2M6C7)*0)tHknlzwVsciEr+)_)Ea5&V#Mst~b6&LVji3
zmf;|)9ns()l?C^<LQYR8LsY_fNM`<%lvD(HK7(y@Yb7J#6bPB%{-U^5y{EDIqrg>^
zI^FvwpD0Gwl1<otEV$J)`2}taf0+em#u5^5aufnv+RjZgJ8u_TfUh$26T7l@>-Z=W
zKafK2%v*xD0DPgB7s^`#5GJL-sRe6n1Eas*%Wz>?Q8@?W_grn^K<bD|9^%rM)(3~R
z-VmTXsF;Rh+_<oVixfMZagcthKT^Wmzq)Q9SwhQ5?3zg3WGR{8V3irDaW}v2w*Y*b
z4H<Gn$+{2M@)rt=a<>zFfmg>iU3^~XUtAEFWFsT)j}UVWzm(EQ0>q&GcXNO2yYoaG
z-s>oV%rkic*G+YgHVALcU$-9#O-oP5)iny_NaJ9Kc^%W8D06vHla-!@?U2gh*-cF)
zoH7({u{jpXRsz#-8bU@t6kI_j0l3PPKjPsBN?KcxK~sk2;lvcS3J76n!LoU43w-=2
zLtZUw6s6C#wqX3Cg?a_4jhn6t6yeC4r;sugYo_<u6zD01=l2P0;xS|=tz&!PJWr3*
zwu5XSgV?0D4bS&c3B|2^d?`fDA!9i)1&Q#u{Zbdl+xsT&84W8^HzC<0%0q&fTtbYz
z+XmNLKx~xQ;~^m<?w~Uf$+}NeUy<`<L3U0^%1e#H#X=<q0m-g?vvhO{VHX@O4{wwq
zl<{+p>84IT5C+3H4BxU{&F~OLTiBEPuJzB8`y*%@E9v2o=EY3tq+q>?`>hQ%94(J@
zgaE5Gn#y?ESrBRLNL(D%(930J;!TOlmN?pb+$!@aFWifQTm)xy2_V))2*3(CS+HF5
z**UX|7PJqlibrlYIV+t;Rw_(uS-saI=!o=*76!@|KHS(@Ov;9V*(>FG3siGyU3`&s
zG;jtRpYE91!8py-j&<-|aH$t2P3?+YN!l<z6G3Rod~Mz=(Ql%7rVZ`_?1FRxA6IR`
z3MV<zlh4su$3i8~ZpzM&N@%lfVtx`h%1=Xbqc+%H1%O6T#_;yz3u8^w!SQZ=hsC*4
z{{W)4D9eOmz<5@M8rv6@l{7XC_XP&8T^nN~cpm{vtqI_QM@9r~1Dh<2Zgi7gSse4^
zlxJ<w=_Rt~LpP}P4>#d@mrU2l*qYW2pmMywNHH<PBK_9$LaPC-0eT)Lw9YRgE?paz
zYH~t13zvUoRj5`})js~I4Nw`(qQ$|X6+=zxk+fWSE2kvmL?a0@8Yo=p006j?$ye->
z9X^=LF%2Wi8fQVL!@cBg0eSaU^&{$D=vg5EcwQcS`{N$ZLmn+`pRM}BYLe=B9z#X)
z3iFw&B$7?f+<v847JA2fzq%5pFw>g_%N%WNtA3DG6t8#yD>x`#`#Ivx@~gC|BViV8
z$nvxi?va7dAP)h0IAE&IX{UN3j+O=sk#pG>6n?XSYd{=eAu1$mEYMY^k0WAk>jLB5
z%IU|ZN>-6;qR~2)?UQH)dT&g19=oxW^rf+~))-!IO<Mz89W0<NuS#n4zN1_m90zqc
z@N(})r&fA~iTU{%>eW;iy!RnVsZ=-*;yAzl)55KbU!#VQJ<^UmtiG$&an;p&P&g5L
z8x>jQihNMY3^!BMtEF?PsqGjz+y@^;jn}$*P#rZvbdEXP<HFkM^)!r#O7{mlzEww6
z>lD&J=7+Yxa-)?(zhI=<g41<5v?;``h)cBaO_!qd@8dqHW<mK_;f!F0i<RUZL#$D?
z<*krC{yZvJb^icK*NwTqW#h}qc;!)g4;Fo!(w%<YN+zF6XOib-Y-u&P<z>W;UlC~i
zV_yxnys&eEwDg~g)ijLs%&xfpXD?3=myT;_RHm8r%$l<=VIaSNqkT&YcR1yIxkdQZ
z3@y9d`J_GURFi%+>Qz9;MN4Dl$*1MvheK`leGRQvLdabCC2JZ7B(EInUa8$s>U}mx
z%In*B;bj@EYu!U5O>I-l4t6xyE7~d=I3qjU9{YAz!6ln=bcoL)U&KG5-%%w<nzm;g
z-`rQOX?n#haJ7tZz+MqusERzX+eeGpKS=8WBoUcGH|$rWrH)I2A;x#e_f1P(XocGy
z*?I1_TRmM%iO54ktqQ1s-OtLNGa1Pt7y!jUI={H%V3Z}1Y=WLQ-zw&WZL$zPCK3Cm
zes(r;>se9x36uW-9ir|x0uzgv1~RCftHR3y_WtTOYfzpZKXi{QSnC@stDXQhuv9hE
z?Y`bhk5Ja3+D7nx>oKZp(8fvL+<dNFt`D|SIOHFwPy9D-b=RA9y<?+cXwB8_PPEyH
z_u*qYva%VCnr;Ura^+E!PK;1#*^-{3M?75Ed?U2lkOi^zRW*_|qZYCb9Y{p~0B%b2
zb3r{LvaH!nQD}cvg3fA{WzHZw2uU?b9@}Ne0{2StTuI7=JZjrCVvu|u?B8;k?6WR=
zDCr#5uv<6on_E!br_GgQlIYd28tIzTYvoryK<8j5)NXsOe5S<-Cxp;nW7QMVG~X!Z
z5CzZKMFd2g1uMW{veKr^(Z)wO*l@0NKzD*drDcg2$XEIx_kvSFP*J6&jF{9lOvXU^
zqG{wFnD_{J-Eo6-?d+l|>KTJ#tK^R0-<zu{i|)ZfKe;32Yc&-0k&NM1Ou!sT%DSz<
zDz0&J%3)dokYgMu9@}2X*S7xvL_Dm=luiDM%78*0fS04EjGUoEcDpD5ztI@nZu_kR
zTsB#qmS;(kpn^@6^mPC>%p9o6><CJS77LQ0qkEq)7B*c!xz{-=Z8!knPm~jE47{eN
zbg{Plb_vxm8;!gKMI}^1Ew}(7Yb%)d7Ba;5vR$A?Ern_Dvh5b!<M6KO=zwM3&{Zyz
zQxq-_c^K?fl}@<FL|GVU7Uf-J{X~>qmDSA#cV5i{`zpGbHj)@m)k{5Cd&s`xqbz9~
zis7c6vC<0Ct0atulB}oH+Z=g#S;=H{V(jP2t)8Y`*Dkp$N-As)7HTPVg36%qFPs~#
z-iOq$Eoqip2KK)T#^R}U`6|kmwr1h3C0Y~Uw1D7xj<?i?sO%2Mi>&iQUgAjSIa&HS
zC3)QYlzeqXqy^7DQ<llNzeTMzD0}m4_*SfBbkXh&$Os)KZ&KZdbe%z|$4^dUVH>QB
zV?#z1$}Xg@nxcP9zuMl)f^saTnrBE$o!`m=rS2tl!lH}E=wz~6f(jk=4QaLRp{jH3
zi;Jq+OT)$QaGI>rMuv@|dlETTaZ$!vvwCe)*|d09Os*|&DpOC<&eW_Xc$pA3HbL$M
z*x^A_Q7pa69yiDj2Ffimh`D2cYGb8s!F#)^$?9Cz*c20_ndjO{RR+M(sHUojJO<@#
zdVZu3KjnF@oFv{ba<zJV&yG9px0N@It&^i)saLcxjl%X>I`{gnCi&+mTK!4K0Nj)x
z<|Kc6T_eXQv65spk%7l`T;TS;;Hzga5DT1vsSWG~6|u&<9R%sMO^Lv~-DoKFW*aw;
z3mVXOV51->02KTbnV&}Cx~yTg87jL{td@4V)*s~oK*O{-#T76izSiMVI23lt{{Uq>
z;d7+PB&%IEEsX}{4;W#7e4}HPtnGU%MV5oIX`k(~rLS<@Z<KXiQ$RKc=&7pZ-ExU$
zR@Xb+P4bsdlWX}=R03R23AEzJy3b;?YP7n7;?|F%*=Z1y4&$6G7K-540=JrdTNy|<
zIC)d56boKq5s-VT2T0iYKV@OA>TG$ldmhU(S5RK-lVGCLU}eoL-l?##9#xBA1*2fx
z;<K7;;5*#w1*g&~;VuIEkCi10bcssQ7y3n9gLxKj!V<QUYG})gO}<y8=@3)8kjpu1
z8U`*_FRt}%J;2gZNZA~JQ5*%^C}YPT>=8|{Zl8E`t+MoOGEKC=cnizAZcrZ5O5ajd
ze*gh-h0hGXwH1okokLY-n-H>9^9MAAY19=q7A0nCCfw6<smQBEMSI7uoU45jq&IDd
zxmnFdOUsL^9R^U@8c4OgttH895=oo7XH6t~i?FM;ikCF(Y0nB+>upXN4V6^SY?EEi
zy5q=_dO+xwfsd8<b~1~vjj_`cY>||-4}vkd#9Nd;w_g#3!HRHyu{UR%^<(!);n-bb
zYesGY+4TwD=N~0xD_V2)Uqg*t5Rb7msl;-NlgjiR15z769v7Ik#j;#2E`v0rv;tQ?
zY<z<kv(a5z1ZL*`7B{LYcWxKTxrws69G=TRuR!um)Ujhpm3<iLb0PYv=s*$=s_CNJ
zAqbiZcNqa)a#|vdpH521;|C>aqO2qf3oNFS8<@e21#1k18y_pnoD-1zO+6Iuz0Y)9
z<hnC#s+~3W19nxp%yt66ri3Yt2<*@5Acr90kg`xgI99r(U>ln%N4N<y%IfV<^Hz<%
zhf}&BFMKJrnt#kdNgqX>(W?Ya0{;NIv#Zog;j?(|xjrWuXy@W$wW<InxE<8`T{9VG
zkP#Y#%&+5uq|;b;f<@O;w-Bg+>$FAD5*ut`dG@IRj$@47dhV*w`eFlnFEi>WTq+!P
z_f3hkJflcXo|Lvmt=$yQd>d|fSbYW~>H}*njVUdH*0vXHR)~8mHRE7zR$NABsM<4?
zq1H>Ea6kMCw?l^2?Jok??xy=5^k_PFqiQt>!E0_g;ZLpp8`VWl=ZMY6fW4pazMhZr
zaRM90aJ?z|E}v5coeNw@@SBagLUgS7Qn#n->7;XA6YM#{>M8?!5WcwT{{X}KN#cBh
z27zx2!@7s31qQ6>V_`Yu1Tx}qRwQQR%rhvq=GXfp>0z<?S2F2xfpXFZ(JV9$AIfgI
zWq!`wPJm2jZ)>O}XW3mojlsEXkTnpI{HYT<yFd&Uc2P|SZ-o$H+%So24&D)LLVZ2H
z;bc{8WzDv1qtjb=1)!y%5`bI<zEZg**p1Qv>1`X;s176Nh3Wcya8T1X;4I}M>GbGt
zX6~{ceO^kJY-u}5QIy=Cj#%S!doQ&uUv=3Z?trA*G@GVy`;}EQ+#@c&RR*J}Rz&@*
zd1xLI#}d2tbWaLVq<Zd<DB^2uSWm*ZbxduK1X*~Nk+0W>fxqgt)Vh^av3s4_G}M=8
zEPPvgG@6}oB!KX#-2Lyp&?aZO{^N8+PPp=sS>KNuf(dQ0-^yeDS4J=Lp5b+i#h@v`
zBaA9dTs5(~Zg8*V9IA~<AXrH%kXsgVJo8)JT<d>zNJFo})$1|B3yYi;6rP36j#pG<
za!FZV?ywdp{Vk`}3ATickd4#BOrQ%Uu_>Bu9i)N%mHjg$up}UQeim(OiNe)G3>yHr
z{nE*y<7HjTQU~OKttF&mkF==83xD%<7e&<C0c?W&6t8$V{{Vz(q-Jd3qID>^Hy24r
zeryoD<sp*UC;K8rI0TD?rj#B_e{^&XZoveN=IgycP54tflmpHZHkcd^{H4&&Y=}tT
zIP#v^1^FdPD1jEZ@}9~@3liYAn7o-Essnrdlzy-|Cf^97PantCK{YrT1!U2kvNJP5
z7E0OLIdDV1o<|>PP5h*mIa-meg}$M_Kur~KgZiw6eH^D3DkDKsUCBrF4<?HPR?B0`
z=G3&C-?AQ>f!6`g7e@^@*@ugvQ8Sx;k-Bgj&nS6j_hC-`IsX9H{gZ#v<#EH1)q>dA
z<pSAKK5z#=vSHI_Xh_-#oy(DQYax<vb_$Xih$GymZj&RfZf=<UHf9TgN7)<n3ny((
zGT@=8s%g#t0A&+s=K|%yBeeP6E(raQq!l)XI;aE6c&h&Zxeom*t9C!ao(&qTpVgD)
zI;3e%LYkZA_fh)WjyXrOL7u|z&%jf&Kz`rXlx+*ifkPk%oTomegOZ4sMU{fr9|a2i
zCQIAY0HEvGc{X?E*bg{E)z&cg3R9xE5KGVOoHR}6CB-eHHo!kH(r}83rLADfnfe=;
zF49oaX|j)KB{v{!d97#|Hc-1#0~?YJ7HJM%Mbe&@mB#+N{+B^foSGw>P;16qm?{~_
zJ=DMYT2ON<ifp<Zk$>(w=+Xx!!l^1+*5u(#YZ@{Nq^W{vPTx|>Aq_*%wnO$x;*7Z$
z{{Wf?f}iU*xeAgh8mC(FI{lRAO06T?BkYG5hU8DEPTPK=^;I&+(s>BCXw}BS&T$@W
zmAVAS^%vzjNddOVsby<g05?;a8b>^$>3VYJ?vd8|t6F}Sr+63Ke(A3I6RynRb1%q9
z9?(JE{{Y}xxjI^fqk=xA4gUbA=$QOC-{hd>_G3Tl*>|che2W#Ok3pt?02Md>nS%cS
zq<xCpGNU;h(2<n#`1WDJXkF6q8(F2lbsU{C-{mg-(Mf{J0``Xfv2OQK$uxMoz*-U0
zF^1X2$~ih>n`t&bZs;ow{{Uuj)iD16TU0NojQ;>IR}*yAHtT{-`x3f7orD{02k&&;
zfm<lQGRyLw+Q#4qXXR*)flM%1n=Xk=(RQ?c)<MiXQBOfHsWZM&u5XL}%6eTiMK0!$
zRgFH+Q)A-<eGud|6gAFlboVC;yYrA=8@`rXxiq?2;>#L7$Qe3r6YgkgYhqGnNY=&$
zhVR*N)M6a5_8s=EES)~!Y`_oMJ}o9#!6qiU;@N5(pV5?JWgV+h{{Tyxeu<9MsmZvx
z`z=(OOho?x5|O9Q5Otb87-zN(hu|Udv>%N#IBQr=0a3oGrQ1tgf1<LJPHRaKgZBxH
zqi}m}8cqBo^0549ubM{znBDsz<dvb`_CNMo;TR1Uj1lrUQOi$GaOSiV<RSAjd`QWP
znp^EJEk7X@6-_qJY=PfGjh{w|&Lx&2{gh)$iH-NPTg{U^fZ#xDshS8f5EnAGo!_QF
zjE6_2lOCPa{{ZMPj0Sy?Sxn#nC24Np@9dcBkOl8`a~7TGvceKT_+04W0?wv!Km9mC
z<TnrOr8Uuu0#m;`7dCh7tmUSrf9POo@Irk(2L2;y3p{~PD;rl4{%c)G*_>K-l0vqU
zgs@oBj1Q{jQD8Vjw2_fypCHN!`zd9e!}T!zR7R{E3xc$fY1_?%0s4ez`Z#=hT}c`6
zZIs-_aWU<xEf(~PzCwK@;LVm1^$Sw{5HMU*y`$hHr_-N&MUM9ia$w`4q)Nf=+D*I#
zG!;y-{u_b$R<ctNcK%hQd?2KzwZM$D{T911S0!|QsRr$`W3@O#xi?ES5qsTc-3aYD
z#lrCs^JTfv$poE35(n`JKSd0hlu_9FpoDE6nMU@5AkWHi>FRk+n;`py7Et_lRvkt&
zo&Nw!6ppWE>^PKVUrxTAyR63#g<JVXwfjs!rc=I!X`x-I#yNM{H~mSRi<LVlX$^#o
zEIw1ll?(1+dn}J80vNRcC+Gx)J7j#HrI#vbC}gK+=>#h(I;tydsizHa@HtB66$>ck
z6M#>m^Y%hZQ7cZ<6o3!=R^AtBQeZj5{{YfYl7=U+xsHwPKN(81F}@?u-&p<|xP3zA
zRn=eE)|;(_njA8MODv%sH5ePCd2fWucDohEjQkZfWbKw4e1$LZAHa9jUB{zU#t3VJ
zf|e>t;TL=jaQY!BF_SaU3YN-tyB{GG$?6(?&1qMWQq#QI?AYVrC}q+E<lNU1M}$;`
zXbK9lc?5kB)$?81Ckn~%$pg0fV#6FEr)(0tY>XddIZ={DQ|g07i>#ebS04rH!TN0z
zo9+Y-)=)n|f=7P`eY~dmEHu#HUMu23`>rxD=JyFC>B#^tW6#k*-3quLYo15JLy&Ch
zsiFW}8zCQ44`<uO)r<5h-%sAsexm6Hh;3;p3HfjS5mIPZO_j~9V{k}57ac+Yi;MUu
z*L37W?rd^1;DrnNVnBB`&L3N*<iVh3YB3XLxF@=);kOoWJ_?ZNP+_n3JLDy9f<|MW
z<Hhc?Y}yApiErwRkB}2irou46_C|lFRK&s^5g>R@jyhXxk{dtes9O$-)2JS7n(aXL
zZ|to<(^&kqg5L@!=}|QMqHrEsieP1L`k1*JNIxMXwL-!!(2f59PlU;4I1~Q>aI%&?
zGjZBuW4?%iOZou+08`FK?4%X<7id;zLy$B$z-)iIL!pC!91qG~L2Am!YHn!vG~37v
zo2Y^?N7Bm9Jt|0DXF?v|rIc^eqTWG?@%>wHw<AykwF7PxU+M>TSm3Q2qX!$e(|5qa
zNi=zyFX=o1@o=(`8V9D-t$_E0Sk+5NxDE;k=!iIP>=!<pX}g+ivzE<7?A90$x;HfZ
zWkWWj6WmK(g!t*8fAfLxlA}muthg;B;bk*%vLRN&m-DcJXEcz3evvFBmWdDDO-&O)
z^qySP{{V1B<YC~boYzwKlF2_e2^f1%-AHu!3CkKnWSS*3!r`U92q=7v90oeAfLpRp
z&cJzdPr{B)pOKk{VtxvU=ySUcV0X~n9)Cu02{kb|dq@Z2MEZi$a6w%Tl45q(hqwD8
znWn~D@3V*ZTbm65okRm-&Q~{4fyU<qc~-G#w9jqYOAqc7AJb91V#I#Sa|4Z)&D0?|
z!9QCkn%KDj6*GEoVJBt6ob>E&X6=N0j3e@WgMnV^$jz=3n_U&~@7)*vfwh)o+3?_p
zIvk?+hj9M@u%q%B!i4<uFl-1;{M=;b!@?4MA7TFh-C^)kMw&;vcsBW2NrA*O)NO|a
zFw{4Vr9~AxnCsm9sRcZ4!Ep!VtftLKLsY_h-@ysZm=TKu;Uje7=UuP<>%Sp890+ax
zR^-gm9A|q?#s2_x8|n!+;QXnZ6F>pcynKR)Wj!>l0zgNbg`Ai)R+_@zMbqM|YlZe3
zD^a0AD7<bi^OVQvVkY5^A1iY*hy$u4@_zV8Dj9rbPx%ttf-VA2%D_#W&#kbBFtkM4
zn5=Hp<52-Px>G{|{Und6OqWcLXX+olky0B%i6M3au)FwVV?QWUrOZ$8<Z%1lHT0D%
z#^d%|nW+T4w0BJsHw`Kw45hx{Zkp<8c?bI~%nm3cb3gnEE(y3LKxyhNaO<X#GdTz9
z0zB*qBpMrWd!#YDb}e-i879!}+~rLGlYNcQyA9AxJDNXP3SU-6oED#|=0IEl2lrA6
zN0JF+i1-Luxg<05QVv>v*+^^L4neXc)0Vp7-1f3Io+zeZY>_d;x)y4(hN`WOZSvJs
zB<ysA-q~9!ofe9A+(zaf?5S${WET@0fOxvx!$l{lo3+X}PWGE!S-+=hqc^c|9s(L|
zJ@Njw5L0pm0*c2GZWD!LulkgYp=oz-*+}XEYXA`B3fT*5B-}-gR|>PX<dm<Xa2UQ5
zzb@-ov->T`ZkZ3}-Ewynj;nW-F{EKRjD(J&Xcz<qxtgpE)$a!)$pvullxfq!K2&eg
z?g`tUg}I925Ba<PlVY9gy7+QywDQx*UHMrUFbX$d9r=e_B&0Pbn<d!hix!fUHKf|s
zKSiyYgcT&<@DhGw;HQ{cZEoq`mijHoH$=16Pa`(D<Tv40)IFE8N&Bc|o$kO(3@?!7
zb8(_?v4E4pd~b74bW>=~&}@*?kZeL^%sMAulBUI!9+__mz>+ev*xicv6OdG3o)Iv@
zWp%6-ttO25b7F%^J7PCQAd$leh-3rx60a&WBF27#4~0`b8=`U$$r*Gil4lCg(`Gab
zWl0rdLA%|;7xL~siga{uF8Eb)Nf@}Jtq&t@nmm<#Nv%-QFf@PEP2%3s^;vjm2^P*#
z^tv>T7->>j{ULN}q3S4H0iEo>^fv$~wO+KMf(J4t8Kt%wFwy@2m7ji&@o)hl3oeo`
zmJ)xm=}vN8g;8CsYjyghgv@p`fX48vgpO$Lw2^48BH@T??Ip}<_K{@D4F{4dwEFFm
zT#zm0YBc?OV;ac4&g`+qjzcg3x60Ra)|6gY-Jeuq<yv5u6lwHI+2?q4xw+wN;jIwU
zZX_^Uy3bM2#ivK=$VV3f>Wg0L7s&qrLIY;-p_3%PiUNYW3+lakS+_+K&At{6dZO8j
zr6%|8w3=-r>m&q%Z_1lq>B!`zFJNeqgZEd5hSWKNS>t?6qxDv`mT0h5^H)Ac8{sml
zneoc#+|z=iZ8O~N3Plo@k}P!k!5hIR>a1t#HboI*E>FU#iiPe0bee03y@Ib9CD@jm
z3x`^KuLZ=P@D;r-r!jA|n|WFKZ9T!+2Flhr9@bc3E?kk514y1~`APjm{neh0t!i-q
zBHY%51r-aQATDSl!CRdJL=`cD*uXylY&c~gN=YJ`r>HfVS+VlHjQ(N{N_L&pCY7bz
zi^w^;zt^;=DCu3iwXW<I8PGaOi$(2z%bO~kXHj5`tk6|;-E-OLzzc2NP->k)s#Uay
z%<$951rZjM=MD~j7fqx%k8mTxM+wWeGic74q%N@}-4RW2bAYXxp}o!oG@@IgmW;Hi
z<ig^#3tfUmA@ugJWcNziN6L66=ap$qrn_(Hx0G~Lj%|kAeHSk*iP9GJqOy}qVB`y{
zx;8^g7$(Go&q>S%;R!1xk=6v+N?7w`eUp-Jvhode%(EkQ#`ghOx2XhCSZ*a|X{cm*
z7P`5l(nFhh1;@(vJRch(*D4XU5}#kzwJOkA04#5llB=|;sp#ePCws1Pweo4OHJeJK
z)uE=1j^HnPJ}hFbFs!$xi#mS1ij)ShKOODLv8DV(GFUUzKV{{0(?{zN+j6e@ZXa3g
z<13mt<vCX(?WG$%40U~E&AUXF`XKANqf%}|9$KzCe@JAFU=0@`Tk1V7!xrs;U*UGY
z3OsJkU!P~2)b*u&ZXwKg3cjbW>lg?Cg{sy%P&kqrN7-R|lc$X^acfQ2Ec|Xh%fl*{
zq8iV{D(8Y4;y!MxVCp*R>8|-6K`Sq)#$l9#57Aw8WFn$wi(=|{e1DQ@4>_nr)JrCz
zB@e3+amH3=s;;s}kn&BJvuOG(ZqeR047a#hkNqs!DqKr%?(xc}pN1G8WN`Tj+2?Uk
z)m6UMIaYMND>IrLSns;^Ei0v?V?&H~SB%oBso?iCTz0bg%>H7J@h+t)Jsuxbpv@4=
z4m>Jas#zd+epj<=?WT+!!GM2t=KA!JNl~?yx594^$(~tLD;CV?e9aq15;3lE_Yz99
zWjh?}SvmBfj>uk{id!1c18GUgA7s-AYwg&p8D7>i+AW1$G@G4+-z7=Ep_D>nvs-4A
z$sl=l;tqII&}`$9tr<_fx3Znkr6dr%I^|wzOd}(*Y*d4J;aXBQIKU0H)fCeTdkToS
zh0YdlDPp~^!j7TNBFcqsz^WWK8zG1!Tz~?WVndI6q-!4k0FSE1=&Y^=#Nkv<Mfe~q
z>exsGkf>)CdSojY8f|=CMCRR0Q*1sH01kFxR?Yx&w5m8ZRTU1q)-Yb4;!TeV`jFZ&
zVcBQ&@$R=PO+?lPi;$8@FbG)ZoT(Vs3=Apv#4~a9O%ldV2uq`Oa1uBGUTxtyf!nMT
zy+)Ic6NHRzMT$u@Yx)$IjNL;l@?ZmmubXi;z)_R&f0dMyF!)^I?mVJdEx%K+f3gnd
z-PBS_K(Z348iQ&o1HG}gJ<6|<mvzr6&6K*<30~(O27IMdhGS!j?h5ltqu*>Ba)Z%n
zgpz>&04sl`X}~}|IP>Pps}qvZCdy|+95H}7vIWgPrZ6tFdbJkD7i<^osOlKzFq>IV
z;c@H=NPD#g(bMf|8<iDZT(whfb?w+)GNJF0_HikL_(Li(oiMgJ%_L-@r3!N)cLhaI
z)3Cb9qbA0Vz~yKm4EO`jWR+7ExZMcq*Eao^Qo7LE4u%ju+@oQPTbrsOUf^&=(bRP^
zy#0PwY1Y8fWvPq-*$XLXz~m`x;>(gkud0^M+uU-a#@V={X0*t2bX`3#896{xN^A%U
zXVkvdO~hRmur;hVM9owi9k*w~si74WE)0y7q@(G2nWGMHale$y3ztH+kwv`8CzWld
z>C@B;vNt>E7Mnrnd1R?!k(UJUy_=-J58z}BbddsW#g$>=N?nkaUD7^!tkJ8O&BiAS
z3@RC6c#wwzELYZDL(!DXrEw7k<HGWa?u~2fo>>{S)be<(e-YM7?DAH`Sk1&FiNG5#
zNYwg7v{{jrlGZdSD4a`zi^V7_4>ZM~si%%T(l}gpP}XWDXKjpaZO}19=QuXRsohL%
zYpof|LE><#V|-mq$(-;F$sQCm)DCm6Vs25dru12I6>5s(R0BJXZ-gYy#!(d}#@&z=
z4*-9JQFaGaC5{ShGsf!^d!cINCC*(+;mJHEqHNGn&*_kSD+g+F7`B2{6f(DfQ33mf
zu9ct@%TioPIVvIyhrU#0qV`17HM@W$50xg3Eg>U}i`h#RM9>mrxGKV$2EO5<<fEbK
z`ia@NMo{A~M7c$FQdDa?jPZI;tB^<iEj9=i9nZPst9?^Lo|&c2X&+@!=$ylwsLe{o
zO&8iMjBDGKwW6GQIPkphOn7X76P2ohy{x7HJAjTnb+%F|5%m>7-D~owq?g!kQ+1l(
zQe*DN!UNXa(yXExb`MtTzse?pPff!pDK|aX?udp7HiKfbl?JT372eIE>LW9p>+U!B
zK|=()vezSGrI3s5Ds3h;P_CWLz;XT56%Tva`mT%=Qj>sxWU|pn8hwY42uF-qc&3bY
zu);~d7FlZO$S(4>`qd=BIBX$fH9gFc!N7&<VVqoO<D6P$OPgo#w7oJLy`!?tyDnF~
zHw?2()-aKDxjF*u^avdTApyi*+$t@0&uQA*t;b9BbxmX}bC_&L?ya?N!`T^5=Xzvg
z!sCuaq;yk~JOZtSvhkH`pwl`@0oqT|T6HFZ`bytSwBGq%llWKAtkeW@OxxeJmsH)y
zL^^b3sC25CA_0*Tap50L(^`y<{{ZrL4-4sS2k`caC|ErKf#GN=dM1W451`-KdGb?C
zx{aSV=-nS);5SC#w3PiJRvDPh{)^}uew(F?SVYnGME?MyQ-S&$`zDH$>@<<{Hlxus
zvfpe@A7xJO!<|9zCu_fD^?A_gk1T3W^jbmx0Jh)RQkWjkm?(b^s@rYB<oL3+9RW~d
z%N|$JBTA)j3~%hY+H@RPBx!?!K5KvB?9YB<b;`2S{{RkTYenKG?7jE>I+!2O-`Pys
zT6Pc85$48N(csnH0U&_hD}9%d{vmXO=$!ZM##h-ogm8$QHj6I@{Av{9o>PJFgfdAn
zoE2>F9SW2Q2spCSwwQWi=d#aG&KWz1<8~F4nt^P5-FmQ+qlQalT9gd2x~rsM6<{}z
zQ*}K^zU^s0DV;yQTE>zwbt%Ybt39Le{z}F~z`=24>-{}jGa_rJX!<WU=sQJA7<lZr
zQB}qx0^xB#CUJT@78td%*Qhm9H8F}X1;=ca=M~*Q`MQ@(`0h#W7RA+2U$SGWp&VqP
zKO-c&G;qN^7+Lydmi+)K`FeSb1Z*F&-qlpG*R_>RT#a?W0ddbH+d5$gqY0>J?PEx`
zR$oz|*y3!xKBgAP2q9+mtvc;-4GNg1*I=AiqXKD0?i1vvvoT_isEP5&T1Ar_@Zn+?
zT4|7Oh_tAk>I^IC>jf+vd#t-fqTi6)l8vj-=Bu+>(_`?2pqV*jQCl(fI)!CjK@A6J
zIahj261Fy%2VdoDbRLdmZ4Z^1=Z;l{c9~C1%LcaLMp98!gvFIMWh4jEH}RF2)&oP0
zyREHcYz=bAYfWHtkc9SjI%pF}b3~zSbmwk}Sz>hX-%wcmEtZjeg5DEkmVpWgn{!Wf
zH5K0L9I0IcqyX(DAE!|kkmA+LEXfIzEMkcuraNzC(nqzY94ltAtdE6XStD+8v@%$@
zayhcLTbrsqY&+9+jg|Dy?iD7pn2A?}j+T!)*SBvcaa2wY^Od02oBTudREOt<*A9+p
z_CaTZ`iiyDZ|V%H^YE;6gJ}Rx$;Y#EqTECk)Ka($ZnC7&<OU{-D|U7&Ea;3wBbEFI
z6yqb$^A!v>BHXEMkA)`7D5JL@IY>#d$z6`iyQQ{Ll@XF}`ikOR#mZ5X)86;`CbC>r
zk+{2p<gG3S!No4nMnX;s7H%T$lGu5&b4&jKtLT(i{nLOQyKuF!lu{5E<2btK88de$
zUcn(gLe^?TKg73`@8a6x!ALn4%3EBFSq8(wP{tVteE3T%qzt%E4I`T_n%hvbd}syI
z${oo4kubhppzh@k@$ScDL?Z3&@|wlqhRH1U{e9D8s+G6781AHzsu0kMV#*`kTQ}7@
zD(Nr!LLKezY^98S(>kGIgZ}_MQX7k1K{ahbZLSlV%ze{jiwP4Q!7xKtQ@aHdO;uBC
zWA^0^S!18<iKfdy@S4!S887DN2IZh1gx1$p2M)nWv|j1EJ`m(G#)+fUsxlpNM|C5$
zN$qie*$fzOds%gdbU6p&OnjBKF37*p4r-?kB-{^$F45xZ82}yv9LD&OG<Amo#Hq%h
z8Jv^!Ks2;FjHyTt7q%AU2aPb7YRo^V8+{aKQ-mMTNJG7YxWb9Sp|}dFnJGeo{{Yq^
z4*et#qMi+20_&I9Dl)+0ZGfhRou`ByASgCo%c#KS-LngyD!!_xbM7T-h|{wQCsVTd
zD5=Gn;b@dLmSOx^8*qE6TNa+daVr5rHU<KjG%N(!2G>Sd+AO1*otO@39hB_UsiQdq
z3V_7hgML)4jBU-VwNM`P%@Z}6AS`YBCdsT(9ya}g&unQIvgWa%-~`q$23t+5MSp3q
zPLE$?ZT)JU%xNT8C?<?;;2`KOCG4F>#{xHm44S_8UvMJonbD2e3P_-5j(%22dj%KN
z+O%P|GJx-@K0R@Pmi0kDRhKX~kJ%%lXzg^$y$Qvdw)F!6vz`c24xy*MUH4f56MSCZ
zDMW0&?2FNq4T0C`o&3NkXV<A5&AzKb%RVUf_d?Y|3w@<8V{oHMQK{3pq=}n!6nce;
zw8Nh(H0C*`#FZ>Dxc4aWH)f%_tFM=|{M{+kOU6h)b)EdXh`M*8c-%ljklY{9p>10T
z%bL{TR~rq>+CceP_@Ews>QBo!++6*N4MiJ^evKqr<Z+NL2u6;fr7W=`{w%Sgkb{!%
zqLLb8&Hn(pJdu_r%}4spJB`{0?xL5dDZ{oCl|%Vp2Pj&Ip3`t{f|6mDCXu3(TN{0a
zrv6eguBM^45VVDqe6j=je`HlQrBxUEZX@cNgldcDQ_T0@(EXGW(9BKDMWA;IymbwG
zPTj3?j!k;1OpsgjDDX@dBI%T}ZL^wxWajCNk=HIEQb(-S+WYa_3%}MY2^T-IJP<e8
zql-pp9g3Xk6z*-D(fcg1*6T>aiet6iM}Xsw=<x>4H~KUzKG0Mqjj%iy6K|EB{{UUo
zZ+}(R?vdKQpzGcE@Rh_nH3mp51^%}RYGzQpSnMRMW3?Kx+Z!lFb!2AZ_d|%(=-O3j
z^v}p>Km95=Achu_)*Jm6W(|6>F?Tcn04VByq>vAMclw2zqfw`#eK8<Crv7ZK11MbF
zSRatGQS0%!o4pVUll^oS?btr3Q#C(EjnL9G-J?EJ4D|7vIGil#)z1a4{nL)FZ-(FM
z5ui9o&<#S7$7`NGicemMi~6yH^0Oc6>?ZD}X}4=AWz;F9=9Gc;M~ep*YFr|D1+Qa=
z!A+K)85%>QA7zjg6xX{1jQf=<H7S_yZ11q(U2ZJY*?9dLoyT-?S>GW*bh(=${VyG?
ztJ~Bvuv$hJ52BTwO&9Y<P;s!XNSx4J$9zp6WcF#6%Nhatpx>_3zbAP6CXH?oJ+hE~
zQgCQ{VN%dYZXREb%D!zbCcHR{=eScdTazF;t_O>z$*M8N@<;m=c)A7I8??xr-ZAi@
z8hmVaZOxHlzM1U@)GhcSG*v)N$qu(UvRY#(g3SZs0I|f6s*S9ULGEqOd@FzTEhq;1
z@sJUewLLQ_07w{rWKywRqbT|)P0J05>=RhZno;bOk$)?4XnJ06{{Wj{cfmu=py+SD
z%J2UGuIadX2gv@6)g^nF>ptq%3dkh@daVck<s_XuLIE*VG2`XPH|Uh?cIQqkI|n3K
z>4nbMLG6+@`-6e{6)aUS180`!&Q)llq-eM1ZTC{eM@CJZQq%WO#rr1FX3xnyZvGwq
zsXYo{;$tk&^pqIV^tT+<SojaJnmrp%HrrhB^m;sO7BXhW21q|uS6ipi%HUi8K3Y|~
z^f(=TnxF1eZt3>g#<{K@Zif~gMHG}?n}?w{*r}kJcwcEDYl5>H00dsR5#YHI4vQOG
zx7KTi{{T|WP*Wj>dRMmZj5WvQ5&3FaSW5+o@xqQx1{d*EN72_w{{W}uX#N(aTlFbY
z`wK%PqH}V`5IlmUjkOVg>ow!#T}a(JswRehd5`hgJ-Tf}$NvD8I3FO~CgXhzZ4ov`
z5osvd^>1X+1tZPeHhn@Nx*ciEb+Mm^V5U^)y1-|&wcjmpD{*Mnm^`#}j%}LeJL&;L
zKTD;z`(PjYO_Xn<*I|=%l;PkNJag2G3F)4}<Yi}c6wn;B5U?Gyk?=*(?bD<62JMgf
zD=FY@L&<E#xANN%oBoe5v*W4Senrq3k;O$!4T-V(BVp62ABSzZLVjAggxs;;BNtM!
zl^d{L!}8mNQ)J$W<>{I!MaTo>1Pt9XPZmIR{MlGH^Q|7qfj_cjm0G-9G&<jKm>qz}
zrA-O;PV0Exf9$4hBjWvSY=h;hcWSjkww9JD4}MxuQ|m#lv*@Rcd1tsG*vd^4#%cI`
zA*btbr2Mrbhq0|baH;Aws#m(tmv8?7QwS@fsdVlC0H&yb{BE_;;%;TQ(<vU%ZMVYa
z>Cwhc({bSe6LpQZ6wQ&oTJd!F<gFj7o}wdu>^51%Dr}t4Qn>ruwZq6vsMD#-E$PPb
z@S~PpLzYI@{BVbTePm+OP>rX!x)j(Ps2Zn5qB-=XjmN>|0PP%tL^XRz?B#AX2A*2>
zd;*yIx_4#m9Omt^+*!FMQ<y91NgwXF>u^#ZMdtI<+1^&7nwo~PI|l|IAg0u4a=E|3
zk&+HA%2AUujHZFvY@<8^QIJu!xg<Dz6t#L~Ojq4X<8JL$@>EF&wfmX%3APJ<i}<wq
zNt<HlG@q1{bo-8Al)K<6NOcL=E*wbsD7sy4Mz{d?H2j1qqbFfAXtgo7++BbBf&yJS
zsi*Wtet1^U>r%K_kng%j>XEwQM%(0sRhyG4;f{6y*HgP4!9+3gfo8BDf{l*87dzWy
zegcqJKn<M@{>wIv$(8a)Q1B0<x9*x*D;u<zkD*sFR#J90_)7U;mx9A|L2S=mz?-}i
z@{~Q{_h|%=3hG)Ip3*=+*o9p^8(2-a_%=#ECJyGz`<9L02v<bS#7#ibe1T<T(jsX9
zpSqA$4oh2agi{sSLnQ?>o_*3pegcMFB5WFZ#=Q0pZI+Zt44L%6?U0!EMg|&<&}hrL
zp1L3RDZ_`BIVg0N!`~acIbJ$;#_gq{!@5^Gf=hagb5E0-Ey!LhrvCt{Cvj|V1CMS}
z30x1p0yFkkf}WA!n5J$%Y@O&E07G6oTE%WaNfi-K8RG}*WL!?&VA)*Xx-In7t{&)i
zpCK|j5qrk-W5v<XZirt?Gqb(24=M-Hl5-iq!nBS#BXGNJ0y-&JF!tX3po3;sY6)9=
zZnv9Z4<!`*^YFJ}l+rgLw(z)7Q@C6-Wn{&2Fh(hxjgB8g-IHGqzrkC{G}uq_kJ$%N
zq(<%<3O7c(GSRX^Ea>m@6r!3pix$17=&rxhj8DGeJ_u5X%RgAS?}e=gt(0R<E*{bk
zgXJr9w-c6}_*w|zr*=zhiDfGV%Unl=m^p0BjV8j_H}VlM=;YfCKSiQ6=Wik3RF>LF
z^uPm~Af#%trY$tEW+$JUVI5DW$6@Walx$T@VHPBO6iX`McPt644mGmAT_!ToYoCIl
z8c<_}g}ys0xaN#-@9vfIwa4_V_5|q9&qq@meT4%lsfhmo5<k6`q28Oj*!@to6y?J0
zb6k<eibh6v^Ogi#KPiv&sv1FPCf*VCG}~ND;3RwmG;vc0euqb%$Wj}Xl~T~e9(|ek
zQHnPCSB|BOjm(>I@IrKSp}24#RQ(FsNBI~2paHs31A(z-KAbHibnyTN+kB}TNg25Z
z_wKN)&BaK^9E&NAn;e4z*Z5iiNgp5!roNKg4&9c$fTB7iPH(nLAEIaa1l+OU{9Rr(
zg}742^4t-G)*YE?^lF9@On3Sy4xI6m5zoTf7shRz{G|dS+Yr;9Ey@}LY{NfJ2M%HV
zloIKU{+liA&{I5I#y%{Ao|Y~C*4PAW9E?kJ*8_VWx|8w;%a+6PQ9FPEN&cSSC|!i}
zmg!Co{UoF5bkYV}kMO58(Qdgv-8K4?0I<c<@`){yNed%wyP-`s^MF9IWR;=B_X&=#
z79bR?WfnSk7{;6P^+36xKLZK!)EAC!qV;dtWF3~eGa6(C$M;*!9ynbX7`>OA&`Mb0
zcVTI?y;YF6FUQqGJ_nI@LU3|5b#TU7cGzE)M^&Y;ytuac;UU-H0{A~tqJF;#7T!K=
zpAH;&)`J{vA_;Wf-kpNz^x=OBIkni_PSg7Z0oHCUbNi>C7B?9(?vj=W&T>Mvr;0mn
zHUo>SjC#;%%ed^8PNKVP90Pu<onhUH@fy09#bX;RenMq68yxGq>ax*mE&W@riT?mz
zek^PUV7p<JK@IW!8u0`TY5gF1RQi+*kegb{j$WaX*(dCTe!MsP+;8+u^Em}$qS~KK
zX7J{Pq|*dcaES|Au)|*?i{ph9`sDMAdX@=ZNhMJa3+&PL9<=G)<~8<j3q2EolH}Z|
zV{G*V5DS8^i%Y6=F2*>Yq7cD3Z6Hc<MaGY*HU@_7va_2~iO{$?!2R;G5$M{fKG>c6
zDNc*4fpZLmcL8?6W`e3YpTyr_+LTaDQs=hWDhObWxl_89b~uN|;Cqs*>fbyMwrsiN
zr46)nMaEi1oKZ9Y0wItw!sLLnqfwQ;?vwpqVRWA>9YEAaO%=hoQpp?)wn14&>eUB?
zj?^c=C+v~rZ${$1n;I#gWS4Ob0P?joolgxNFl8$S`+lNVlMO;{P1D(3Q2qh3KO;(o
za7O1;)nu-ezG+Fh?o<@-g@=~k>arrDsEb&SszX;&&O%E_)V&^q4OC&E3lrrM$tmx;
zSsS~>*POFbsshb6vSam1zHW?Wy#tCpJM++6Yb}rLn#ziI9mVYhd3n|=I}&^(eyyon
z8?EvRr}Fe_NcC3K(*y01zd25IT{D082gQo=XtjFBJKXY*hfth>xx}9rQJVgR(daW)
zK;m{d6p+gW?p_uX^R-s?msvqBqgV;|e#l2&hEYuQI(o`hH}$s)X*Fn?!UT=|*Ok)N
zY7)N8+;7+`dR;qPs<zl=1IY`o5}W=goR&EDX*Dfvwjr(rES{^VzCu8C?yo62D_p4~
zbZ!^;D)&wNEw7Y=D_!)m>R5BnL|$AlJiUyW@7@6`Pty}j%7!$wixugVzlG0<pqQLb
z(MMU)RWt+Cij~`k!m9A{V_cB0%7nDdKSq9*z2sZvYbz@0y*<0yPt|!V8`QD;BY?G|
z0|iVe`l?ZJ8T*5D@_E{&5md2XX6m)nj%mD%<GEga*6*Q?2bm^gY&@f4(E6UI+UGf!
z_$X?>!#zT@m(;px3FhTZ;?F-+Q|84VXNK#pj;5%H8f|r_{65pB5;fkDAe)jx^g3_C
zV-&!?BVcm39XZg^(Z<#YK)1r}@q9;(+>SinQktlsT^=pESqH*O8hAsuIA1&~ey5`U
z07#)O7-=1so78nAk;$?%w0XZP&-~6gW&R_0@%uMb6%_RB#lC@Lx|3TCYqr0R*Hv<B
zE|r%rCgaMW)oMLm+l|GS#{U3=K6f+HgG)%J>J4J1rbjh~z$yk888^Mem0?!jc{Ub7
zZ7zQn{{WTjc-Z(VNUdluP9^mqTMF>$=1?ru4u?(rU~IRVJphmb;n{V~>WMbfJpR8*
zk)WNoR5Q~#vu&|n$*bwHm|bS}<$3<4LK#(Uqm{|dnP}YtXw(JH7Yjrwc13#tEtK6F
z21Wy&!kbZ=<gvUiT(gsvAuZWQRVAj{(SV4cxg&CGsfm*19ZO2)o7?KTak?uQwi44|
zFo&FOzEtwvjmi#37aSX_sTSizCNSrJ$|@-A+jmjN7{3Kh;^xLv0*bv{wXFGBda^xC
zEA3sx+&1clb{mqN2*|$UE1V6klneoG6Mz}82-pCsm`KR7si+zM0F`-C&C!xBZOW*t
z8+Z#@nbeLgBG^{ZO8)>%5^|{^b(|~_@yh2|C2_D&W94(7gLHKSPL;y<w`2t@PJ8kS
z*YwQ+ne73*pyH?#mlQgON_>D4ESXh61e*sde;$-$fHX4Z-W6P$9P?FR5I%}a9OW*E
zMrLZ4M=r~U)f4`P20&Y?EdkAn?ru|^r4c2Z+^)sq{hOJEIxBV)w2KZ^4xvgSdxG>H
zp?rFEF(hSq?OjoxqTpG#T)s-;swMF&dlyfk^$o~V)YCP9+mNJ!sj<hkqv}!@nQxmf
zJ0Hm@@1wECJVLs9CjMo&AY?C6qN&s9=v!+^AshwdP}DXDVcA+;FIS?aq%&1aFKi3t
zdst;rrf_7A%e`i`j%(^C05O8#a00{XI_KtHvMX&%t?Ct8(J@mrwj2KFNV;~nZss-L
zV6^eddq_t(#8Bv3E?f)Ggf&x~?l7$3&?=%E<!gWe1*pLzZqVF$TvNj1*wK;!r+5y@
zzsh|?z_5iFrF#X=N{U9foTCVoUD;n(mlCRK2?bhKf-jt^x3SJPBMYSkvL>6mC%U`R
z!Epn!u7;G}<SV@{3vdYeODCWp`3P)Q=L)Pt>dkV0Wnom{8*AUPj*K)ATtEn8gR?Qe
zmn~sEkmL2(t17u!u(mOOl}Rh4GYi}cs!%B2^gSzPnW3!)=aucc28~WB7-qG|;4c&W
zKAU9Buq5^i-8yJbQe$I{o8T_&T3R`BS*z)-8W&90HZU4E7G8%%1W-UQ1{Ft5(KaZV
zallr!?<|PhgwlS6iYhvSM$LFxWknW?0~lWB0(`3o_e)qyk9BbBaOiFDf?6|n&ob9&
z<J{mF7oK%ykY!=BEC<5(9ZyVS$vZ{XJ73e`*x+nUl;w>zv7+6dJZhBhqMG{&QByd|
zZ0i8GJz=IsSmG=!79J+D7r40hUVQ2fj=XW?Ur<97Yz4<CeNoJQ8UV5lmEeu6y}XqL
zRbyJy?zvKOl$q1TM6RvDAaJTG-)<4L6Z(Lb=l&2gMCSu=sD-kkt;Y6DrVexYQq{!v
zpM>o;GWXa6WmVA`FxV~{2ZT!;T07YnNkZvGnA@Her5{ezN=LA%%1Id%@nqc@1X4Z2
z+E%Mi==azcG@r7*qUkFU>~Z=9E_C`Ijg|c$qzApOlE(e4y=O(~_+3mrgCoMH>HeRR
zCot?S0c|2Lf&j(?ds@MDV$B-a3E_8UC#!S{e@L`6XMnudT<PaU87yJP!uNM+?x=Be
zttdLqnH7g<hRymU$kW{#IM15J6-;v*u;Yv=DkQ3GR%~a-3+R^g1Qxl4w?7Iw{{Ro6
zehfg5qKdcZveEMd%&d}YnBDs#>FFxVZRtAy07dkKe}@#H-_dXEi-Yj?nWz1x+vu*b
z+7pvLc+&J5$=(Tp!v6pZVW#wyh9Kw0Z}eW<LD7`Zk^C`_g=-g2Q?LQBE_vXSEewes
zBTdpTbAS;$=L*`JqbxHY_FlgZj|)%e3U=wRkL3w}#*z!lndMa7A8}z9_C=0}4i@zD
z@E55^M-zXPDSarKEnt!OtSc%!Q(F8zW1w*{cJRDc@eiYo347Sg1@<<h9B+-o94{jL
zNYU9*6o51w8!LGDr3rQnl8lk^HAOj&Qq#y=kHY#EPpCu)2i$_{jTQ9uZuZ;UwO@pE
zPa1?o1A@Eq$MraqrhPZidNn&}qj#n_S6xG<(~39lX#FJ*(oZqa#@p}|y+>9507)Rf
zW#>F}c1Biw$@s9yDYZcDp`&(B-Fi3Rp07a4Sj>~g+Y1qO=AVpk%QZusIOS7*7*$IZ
zY+$&Ih1ZF-1D_}Iw0*m!>a>zX-$;jJkgNrBeixZ^ePfL*cks00uN<jLWn&Xf`O)P^
zC2$wY%}J<OeypKpuX*9hQpne#)GX7xQWxYX<kW|ilyzH)xq6C9)BS(l6*keFDAYSq
z9#k@FX2fn;qgXBakkeM=i<FL19YW1Cnx@`dhkmbr=2>|vi6`BKAFp$lAmv?+@t0b*
zu0#&Aua7Ihe;0KrDhuNT+mgL!QI)0>?p`<ek{WlB&Qsx%l!eI}N19SJ2{w~sb#Tg9
zogK+kl#sq!oDv1rvXY&#({6BHoMgH@_MMrXMxHp`?H$$cMQOgY?K^oYt5iSr7Pc<7
zJqGqh=96owWF8&t^qm%zK?81b6_eh3IRi;6OdtngIrBIAmokaf$eHgWx{S_7Hz;2t
zPjw6AXC$oQeVH(q&D^;SG^e%HE|q{G<*SXq%oJw?iYYQjPFu)A)ymmLh!<7bhNT>2
z*}*}jRQ_(LH;_~vlx-z!eA+9k9CkC5kn~MU-W)*##h0h_u9pyrj(Y+6tux@HhA;Np
zg_QW7eoXDX9&yv%D(G6!=J2%9X>_#A-0&_w6q?Sl1sh#r*4cT-Q}y#Bd!mGwzvF~{
zM)ZjAoclI<wx<O&Zfgi10b+GMMb#1z)5%%3YgL+yiFqNXvb3RykPEU?<BPx8>c@wQ
zv1bIr>*SS?*5P*d0o<*{Kx<>L1B|TgWNnsxq<38@Br}spsp;J^Y32X}_Fkc&=nia6
zyK{smM``ddHSTU#pi#>Vae&YU7Z!ZU=^V4mBvwJ9v7i?;W3rNJSfXv(+^d4%@!0`b
z!(zEyc@gB_Wesb{xC)M?(ifZF%I>tWuOZ5+sz~f|jNs!7M|KS$2fXl2m3F6=6=Nft
z*;H!JA%|*@i<WbhGpR_$bpu)pzN<9+m3yzseMezX+0Qr&-o~jB%PV>ilxCdcyj#i>
z(s%(Er-CK{Gh#(sHyRs{rY?BlUdM*^vZ2ty^xKcBzldVWQrXcR6SCJCQnvXWlyQOw
z8B$$I=(=JP#uA^>mkD<GDMHxJ6Hn})Zz-hO$odtD@s%6Ex$G{U^TJ@<Pth$J#b!@E
z)XW*mV@K|uFOU%mIo1I&-yEk{-5~>ojBxo+7)%6x(zu=i7BU~WWj0F|SaO;-9Hnr@
z&<h4F$|5`gj40h~_fH&IHHgN_^O0hpZSQ+oOCh+jjFWtDiKtU$%sk;EZ-pZxBrGja
zG(_-6WcU7?sMtuyWUq1CfD+ii?-?f8Q$hu>hjWQ>v9cnci=t@uP8vL>o8KHKT{Y(T
z1t`f0xZd6p*p!0S%6KEXV==a{L%zkzceoqf4JbRW!d2MUp<`e!u_%U%3?U;Yb@@az
zl0W4ZVb1`LP;&SM6m4#8@}iNABH=VyDG@~(C$b_K#ev1pguD}FByVvbUcqTuq7`wv
z*Emd(mpD0G(P7R~ka9votYM1w&k8z*V*sKXgxQ*1z*_bOSG}hSMvrOlgsx++!f+nk
zV1-olLQ2S;`*>Y!@}66NDO$|l$l4VQEhD-faBY064Wo-+vL2`~w%ims8KSw*w_|kp
zq!&$lNIa#7oVO{&=%0GxNE{NAz3fwl>u|BGKx~v`cTNZ4FSqD}V<a)g<BTZgwX9U-
zzjQrYY{Otsv7A9mSm$&7)X*?<bR~`cQB;7G&!8o+kU6s8E~knT_S`2nox_l)bX_7S
z+B{iI#v2P0aFDdN?M-#Xkg>RuWPa<iIZ=n(7qyatPbpZ*5?`F5X0dUx7DNCK!WyBL
zam}uR?9%9k@sfBSWa#3s{UI;{(O~N-;&I!wy6NnVD<gbC!o@=Bak}6m4tw`exxp01
z;+Q)j4Y?xe#eiD@P1@J8Y0rdtF?b>oU^q``X$JzyZSXLazy1ZBn+k#&VqrXgWS)o@
z$|1hx#fH~IlMluZ>9iXVESXUqhCHGkIkJXhVRS5NR7Te@fDN(bI0%XTBkYAPZsJHO
z(b&8YcvL5*!d%9S0F|HukOvZ$&hTue+bF3bMmUagoDId)P2K_FIBxDN5ZG-FBwNCa
zmjiA}albZ9aU+6?Y#JQN7=KerdsxRd;N?YdcnQrra2DjjNPD6LXCU@a3V82uG4Q9|
zaq^T83v**|L}Cyu0zpk2gDn?R2D<#&J7Mlta$_jO4oVh-cDc>^6g5LCVZeRB@)euD
z5Va3*ZcYBEskAKc$FLDJmmZ@HyoD<O;6NY0Um4H16w_iZm91%h3VX6DG*0+~*c4Jz
zS-r?aF{DSECG{)=OF^<;O%+(vK!Pw1NeM#;$a}}!qCG|v`fNgZbSB_f{{Up%!0{kb
zB<IzV-~B~289PfS?ulq&X|N;vrj|4e8=vrxF@7|N3#IQP&)s+N2NFDe)a{Jeo>Q7E
zEas9H=EL#Efr*ri$m8`~9UwOnJ*VNwkKyt`8C>=>i|)EAMBX%rJ$isG`H5}f>047#
z{{ZKnK816cj9D{fjlzCH{AiF=)Q|n={ms+cS5{4hOOzyGC~isag^aPFgD#>n%9mfB
zZlirpqSKm({fb6{G84nyVlRKHUPky(&(7Cd{r4v`P}E!cY8(gu08vjZX<;rMyC_2%
zP7m&ik~hLibuC8U{!sS)97={wUs{OWnuMd`>BW{8LDYlYGH6L+pr&<JyBM*n+y{`H
zdaF^B+c9hY%9-aGvWzqmaEpo~Mf6&<uXg*EpMs}$w^+bKUR{4Gnvy&Wlv`PJzpa&y
zHo~2+RSX#HJ_?c^rKpHl7k%=B5su*@g{1H<eir>e@G{7CJIVKpcHuAnp>@5Ex6~@3
z3jzHi>Oja(>R|egR%#;rOgY;8oVv&CnC*7%1d9>ygEY{bw4dE^qie_OYRSa`;A|}F
z@w@%V<8c1~xuFYDJp=OCSsT2y4f%EqaFg=wIkJ984-*Q9Q1l4&svbT!D@s18s)pO8
z4<Gjntox~3d*3Oald-`CAJAWlX5yQwVyQNK5qy#nKkGCvZH+q*-pkM14UO^$?h2Kj
zt4<|9b-z%2ayJrJ>CbLyW6yvP6Vz!(CYTS9v&@=N%R|5VRHAkkSceB6C}{;^k!;GX
zDZi#N&y-9$l><+*eZNJNnlmXU)FDD?roGzmR;a&W;UsS2)#+OAbi0Sub!@s#TQ4+m
z6Wa?4)=b`RQ-fcAPwth$2aEbIokymZ64r*d{?nDiPt#B6sRRE2s45WGXD0pfm?N9{
zW_QsV{><S1jU03kwEG^{k0Hp0Lj!+a)9~Q3CMuvwY?=D5GU^S+`;OeB#8#SJ8wOD6
zQlEHe`eAgMH5<R!se3+-SnthO17hNw%Idb;-r@8sa2IB){VB|F24=i@a7PU?mC*)?
zT1~%|)>zN=D!YENZR8~X08*^DAfMd_1{7-~(nCK?uW!((C8Morvnm9G!@|qITd#=V
zy!>5DA5_#d0V`hLwbD2-lV$s1loRVy2V0WEYbgyiF<~LnHP-Gf6+?QJ(#BfQ!tVLC
zl$4suxDrKS@s+93tp&M-huYBp0Dx?xmF#<L_C1#J5e=`RmDg)SPs*2kZ*S{w?yyoT
zTS-kZAWANKT}s^w8Ac_y)TY)`vgEeI<SMzRs)gh>R{%K+B;P@_Tppj9jRrYf;eOc(
z@o94p)Wd)KU1duiuU{4e$sSRZ{YOwN980apM~e~fR$arT$!i&3Zx0t!jW$7#PB)MH
zO^T*(RLIlrWxmPds-1t*FXw``{(#a&vD5Y&xsPc3l_O~2b_?0`I4ZI(t}Vvr0sF3h
zRKp{E!G!tRjRT7=;?p2^>3IjXZm0hMNO^66Yl6%_sGxAWOPlm6Hgy$4U3jY8Ex;(G
z%|^AlQ=5WhA471P{+9clvVATrvr+YpY*yW8+qxz`w`;K^7Cu2)r}Pdl?6{XrsBT>g
zBp(Ll4EhM2cF4y^{{Yl1gdJZA$u0qNx~iGu+(W*lYG6r(f2A}30BQLjDb1s)ZLZe1
z1NT+(btMtb8}v~-sGH1kn|8X&#^TF&K=N$p+~1y3eo4;Z<LSbtcT$^;*0<Fs{-kL)
z{{Sfe0O%CaZtXfz`bOby+^Cxam~A6S9qrjwo~UTRyMF73P{$@qfm)2Lxnxj*`p7;A
zPisG=`;`gS;&J4C)Na;eXt=ofx)f?=iOnv<huuTyKKBpf%Ax-NU(MR`ZP=y%0MrDV
zI>*hH;=@JpYk?)e6${~~f9o4h(NaHN@J@SOK>cy#*yMds;vJW6(;;=sBm>2qqjsA1
zaQ;43K-OA#Bp-zFt;*gWZS_ZsGiAh7&KA4TQNrLdE~rkrZSDZ1ZoQn7bXsDX2SfqL
zA#f4#y5Chn{{X0M#m&?I0M{XVeZt=>aRajT&@uTgA7u=br}<7kRZ!L-{Y;SG#ndj=
zUJcs&p~TxQ#Wa^ZaHDh&ZY*!%SN{O5%eNMB`APn|K=&};$VQpA8sb1A<utgKoc`!1
zYY>s{Z};U!?Mf2cTa~!5>^wMu;Xl;>0JN%uUm3r+1>c=-{{WmTaWb>cjHmjS8A<Mg
zFFb#A_=&!IDbcwgt;W~FZs18zWNvePttaIpqb)Zr?1sU}LQXA}*EY}DDJ^SmRD17)
z)MUwGdyX!Mgh=nxa#M8bXHOvGm9fz@R+ft}xSxda#O2VEl`|^%C1~8>L9&3g`>}QD
zQuM^Hi+0R?5Hx)yEVW^!gaS~WHwCl>ki}BcO*6fr$kC)#hTJmW3)?ztphS#m^t1F@
zS^5MvoPi5YJXt|w$jq`kK4qGcSbtk=eu?z-Qb}tJFJ9^{i}VYPtnZO^QKfX~GY@6~
zMPry;tjE!4vb+mMPuW_trzP2P(RJy1eu)cX!vID%MD+)?fDfY7(LPM^eM3leH@Lu5
zr%svjZEH&REmuINYi%F}$F-GpCrd>6w+3SP!br+)RY6l{l*ge|7F@Lc$aysRVURV=
zAYZs&K+|-jZG;mL&&F0mta^GXc;6ss4sL9^;|kj;S~EQ>N+p$%wU;Ks%hYsD2APa&
z=4)^Ayqb!-qfL2qYy_=8PW4o;m>Su!f6@x~d`$33MI+452{zg6x))2*)mv<1Y42sD
zXGT#NwwPOwg_Y?}v7`)RL)r(`Z)iG-ibf67Fcb0@bn-&9aH#KRpY^9g(J~jx$UrOS
z&bFfzm9L9n8L(eY{vq{-lS4rN09K)!$iqfSUoLfqs_j!!l5oPt6YT|j_n+lso8cF;
z((xfBzeZ+eZ69PCPUj-(+;3~4THLQSJ4d7!O3mC0s}@o;GVVc8$|J)@QO0{WbB<47
zp(gB`8x1IXt!#N$+E$kwg}Av?RMMFx4FrX=(d+chItIF~UC*{7Zd|=j78vW4*~gjB
z(IlD-ViNM+JE}U$0LHkG03FrkS5gXw?TRL`otxoM>J`Dk+m7OU1wSHK-|;pjKV@U#
zU?$?pzn2m?G+-orh4&>-MIiMB@!+l;bfvSQw?)>6(`=ZBI?i`0{!Wx>i`y7P^nCQ~
z4Ro?GqvZ0fb^fi==-_lTrL#;$y}SkVFv;WL#d7TP<?>EiJkwgxn@v+}Uj308W|UoH
zwEQVuQzoNYW|)EA!-b)uo|Xu=SP};-$IIm7O|r>JXsMq_*vs4O6>NHFsjCox3A(k{
z^{-)MBmi-BA4WV)sWWlC-Q7QhS?0B(vQmUB^q<52g{5<2d*Ti!`hxZi7o#ZSjib?T
z?5a8<dKyYd%=0ih-OAk3^%j{J4HL#~{{V9OR-=tn5#_Jh+?h28OVT#qz;EoXsd{>q
zqy4Zx$Vx7up_GlXv+Pyn9-#z{1+p~#*CtGv3*&||AM`p<KieO&7OSVJB^EIc*<Z4D
zkTMdwSjRR{`KR`Dd@yLqf9XmfZ|Jx7OaB0->0882{g#HJvIy_F?H_ejSFX^+33TiO
z>Z-EjWTlH51!jd#&LauW(x7W{&{bZc*7{97?^Mf=kh1!};)a<JA(OO`<b_1?KFR)z
zqg7Q!Ov{@!1vBZPX*XzIU9EmA)7<)Uw>^Pa&1dl{S=#2ZQa<YHO)kmy^o_UTuDMM5
zH&ev$Y`i+AL+X-A{nVPrQ9iZh@;tbGRTTPzONlN9>z^e)&WJ^q44jaXcQauxDvSL^
zfLuHGLsV-qM#AU1_U(1&=fxJR>&B^;Z);t+_W40E@%q-ih1O?K>PaMdjw7@ml<g+9
z?v<{4u1_nDFlg&?Pe-9?k~SjOG+k~q2~4eN+yGu-1yO8mb?@*Nlc)75q#`}rTi_Kr
zs$}ZT{-F5162|+SusuM~%97$PwM>*cA)Z3a>;C}6k#WD|S~1aIPb9J(pzR&3tf^?d
zKr9I;T|NTmg5tDvk=cNDLQx(NNER(Mro@4dD2XYU#$W;RRf8k;@D+ZcFl)<8t=Tfs
zXwg|%!1q{Z=!X=>;9A96!A@m$#f{aJdV3lHc1n24kn*mI7-)&*sr7V$u#;{FD?-Y4
zhThl;r&)LrxC;y>wj!e?SxvnAMZ&ACqS`-7(K=X%w&0%y2dEg@%af9;83`zvS=bnJ
z&tRk604i$Nht5djvJOH?Ikq@dPRY>9sczd2>Y||Tcik5`al#T-<0-(%m_613A4bcY
zlml?!Rh<>KjQv(J*>6J@;?TWApmgTE#w~YYd3_Z?GqN_DFJJsJnlD~EyCGZ0j9b|p
z$)1&`=na*v4`|~m&X=T^CEOzxRvHaNbI#T_$K`Ic>P8sBA$I9>ay_1PThpzHzSiUD
zs_JxT+S1|x!u35;g6$*$W#^q-$>54lOj^U0ob+UmDf~jBgYwT74shXlq<UlA@>a8~
zwSARtf=BLoDz2Kc17b@>`z|D-DO);IX%y4Y%Ny)6qLw$XcLi!<WK~jt#^2>GqoP03
zE+WAhVpV8mH|)UFJ<fQsOo%>7njGSD<r%BMDdsH!SHSlPgO49Y%NJ7E@1xa!541?C
zBW#ZVh3T}~9UCFDTGDNk*?C7qYVU?HBzR*R-E1m4-ineC(IK7o!&n!4@*x<Us~;lE
zTGJ_`g~aXJJFhM387ZGv=|^h=%Acz`%Td%?V`uOp@D5fi)Kor0?ztzDxN>GwXG}3P
zTh@9^j@aQ<Jlv4nlteH|AqB*eQEk(oZQDwnq)|YmbtkEp1laVzP8zR2Dq8Chj-aOA
zK-=HKJdn*45ovbGZWQL2#T|oewzT?Ca|POm)O4#xY{e&$S(Gfm*FSGPydaof_keF}
ztyKC;-0~Y4KV<4&pO<~z8^2{(=86_jEA;vkJ8;{TB}R?4yWGXF(X^-20_Vm?II?wK
zmswctvBX1fV~)z-EGU;2nGZnH2;^Y^FK_7P#>p65cwS@E`b_jTcc$V;!q#ZB*0!ak
zz<>_{JUo>WGsND{c+sbfLM%e<UaBz>$l+r2y;^p{)`mF`tk>7g8EkBDB^TvIy#Zr%
zTvFCXYK@#ZR<mmK&_(Z+pnX@J($i|E-R=abU!dxBPQ22--WH#cB&i_B8!k1@tE7pJ
z40u09fYrK+N{I<*Bz6l|7e_hA_?JIaOnn;za3ddEDYueg<42F{Ew8S)WKID29I6x2
zmGurTa4i?&%jlSTMw}6N$Lx%UrYW0m;Sbp&!A{v&$)!m7(wm`c2)QKvkstofrjsrX
z`?Y-|7J*E`e@VZxk=j)-AMJ%m!5OxE+TX*1&*XR9DO>n-NdEw7*7`4@&X)l{peO$T
zrNg)M1l%GXO!=m(@X^l((Vy8nPW&=^9ydnfK8xuu^tylO1#@)x8~ly^lW<fc+2eX&
zLNX970Kd^*(e#rUZPDlGy(m(`-Wn2^7&Bm{@g&AlG1Q$s69tT8=&k5<I9lL+G5ag9
z#ty+q$2GhKr3A+04-T6P8-0N|(MNyM5e9rFdcc&h$3bnejHHNvDk3POZ}O<UU^}FA
z_`y_YP?NBB3O5#C^n^2~?{ypM09!~K3*69nNM>(@1F8Y;qjbdZR{0_xEV4BKcuDzz
z%B}Sel+!J{pxLOgbx2Vfqjg^-zDh>Q4|FbrLC&cvDJqW_Lpk{64=kg~PIfYY`l_om
z+^knr)WYUJaSHoUm-ucYI9_$tu+`PI?2Nbqo(`BA(dAuzTT1$;M*t6Tb&Zyn@S2^0
z;zB$j4@ONa+uqWCt6|dmLDPV+wh_rT#DsQw#*t9QQ?xYpQR>q+NL(Cw3q3_x=Cm{t
zFs7QPb8=K0MbvMj&Hn%qbnnc@{f)U<E{xKjO{juedGNhcRDqQww2PqV^tj@7_OJpz
z6GtjY-vg61T|ZbLrf6}t6{EG50d3)A2$tJ!Kpa^|vO;i4`l(7*RbpnX`nz0k<pZ@s
zPwH9m6uWXy?zyd!{m|1Jj}rOXk?!E2ms7C8RSypW<e{W5cj-k6<dJDEu5V&c&ehyc
zDymrBe3SG@*q%-TR?_rqY_tCWQ*k*d&D5NDy04B45M7d_e0xSXP@3hTqUe2Ypzloc
zb?3cT1l5uo@U~Saw<tH#2b-3HRq<m`5^l@}ouTcMbD3uL!ZT2eMGnTdfo>Me(Kglr
z3qF+`huku{RGpD&dOWLBiOzqur5)4NGgG{KO5H!FX`F6AO>a-Y!|ebcD9Uy!fh88W
z{{T-W*zBctuIGO}lppC~ryP7P{{T<6ET?Rz5^wb<k%M&C*Gxxr=qLx(OC=jaa1`Y^
zbQKhe>8oV5i;y)Hk0UNW3c^}95<mjTcWJIXgpIFbrSwtCWtsUWC2Kk|nX$^(IAgjN
zlS~)6W&X<E804mmZL@H>^5scV3&km;(RAHP2q0)AaI5vsrHVM+XN!GS3a?SA18A1W
z7e^&gyplP}Q2n;aKM}36E~wY0u6v_njfv%DW2AJl+_aPBYTczbk_YUhrPIK60Ltov
zj24QlR95NKzK{fqE2tl_oFgIAKp&>*wG?h^2?MfKJ&#_Bjas-dgl-mD=<7@BJcLHR
z*R{o@s=5~c02CADT{}eFHhLC;Sn(Lmz80%bt1fU3SnUXV8<nP@VJ;S2QpB6GSun26
zRV0mb2XzjkGg%ob8f&sF_*MF>#lV0{(P=t4BZlRoi&m>9LISVe2+EUEjoXW^swJp+
zcF-(-7h+MAYL3nvP*k!T*$+_*Ws5EfN@%2$-be14TzxP=BI%)qFzE})nLTGsY_C2Q
zb2O&6HoCs4B)sKB*9(j;gsBS3DYWuUgGwh$(p~C;T1VAi(?HkQkP+f0L^}i@Mo61R
zqK-Cz>?>hS9kKf=Xs31T*I^$|Gy9bpNu#C^v`+Y~fSTBxZ~~l22p0u9Ihfz&{>d#e
zoMgHp^d2*8COO+NY@>}#WxuB=c^b($?v~7(_6ffDOnidl2$xda<0=^`9nFo9u-y^w
zxxN#c=GzJ>A(5j2F{R@qVPjZWAw9g`lpm;CrH)JTwFNSBViGuEHLeFYO6Pp7Lnb#o
z^0;{LnY-McJS;Hr%4~+fC$`I^VJ*T?*e$_z!klsBCYD(^5C?QvjgZT6k-}?6Fa49B
zYud)eIz9?FqX-4K7*e#@WF$Cml^dnc3jvag5(qcClW4LYC*1f`7h{y8CPMhGZWNIV
zVKvVn`S708e&4cS4mVLf?relxl`t1j&6imrR6aL{DNAsmg}LDokldmx?1{lZ{!T7b
z?sil!a3>1{WM;$#Ht)I{JH^!Ob}~j*W*l#}${BsVl*F`!1MOpSnk3l=s4}FCi-Mrq
zHzMhp2XKsm9?4iNZ((&KTnHByN#}&Zecm#Vs@XeQEr1Z!WP^_CMnC02R_)&i8;C2O
z`|=dgwC%Y=IG^r|fZc#!HsMnAMw?@R!ca20#oQ%p32!J^+(x(#LK><vTjdns?gf-H
zgXILw;#amWc3osd6z70ix%BRExJ`~38V%f4m5^he(#%@<PGhm01cdQ-E@^2t2P*{*
zb4O!^)&Ou4*xQ8DaoGkGad1$~97WXNi;O5|81}fJQh|#z#gw%699rcH^F8+R2MSte
zOnGgBFQ6x~#yJRS0Dzt*cs4fS3%$VD*>?P-YRVHm&UBZzD~TlCM%TLc3P#9JASLK{
z?BdWz%5-hE6GMV<`k=$2U<Z^XTTSlOK7XkXDInu3BqLxBGF*btdnu_NO9(Bp;^Vt5
zQove8t^Jif2uScSqjN44_8W7R8=4v|a#EB;b^vgb+v3W2;ty@X&($^b<R2kqz|hPt
z0CKtQv9UHv)`B_VU=C<)xd5(lAaWONy{?+}+WES{v5$3!WIUID79~pdIGh}KP|a{M
zZS+}oA4E@q<B(D^7aJYD*BPC-ZI<5`PmZEMdmO4OBYO&kqiDud))wqk5V)6I^WjWQ
z?R1Qyp>~VmG?Lq62}t(xnr<*q8i(Dky}$_!Z8>gKZa=@38(sk*5)s)pwn?_mHb@)r
zxsM!zKIz-DY$dXZ4fOMisT$W}>zeL(QpVx%ve;9h7zj_kc*=MJ$p{;8iy3T%;D7Rf
ztzab_`;2x%RbJP@`mC1CCrGYzZfUr2x59e~xW5WQ4~s5n$n2_?h+43?BMxBq*>mD>
z{$PGmF{5a4Bp-z0<HKB3%S4N5?vrMFT}ipbSdda1gTlxsSb(@+?3JS6+}JK6+#B6%
zH4SUA;W$X^`AsK27c;tGP_iA(;0&nkdnv3Bb-{w&u8L&jf$e*XST5UzJDYEmmc5F5
z0*MyXmLIy9wIOCeHwi3$Bw!n0-8f#^%3ZD<l8`{i{g&izB5ttZAR{9dPiO>j`=tyV
zge-LthTQG@psHJQlyjPFY&b#Gexr2pWakpPRx~=-%41uUOofg)7f9AeYlngLRBqAB
z$7IyIz7eb*LV^g*u!&%>$l*#%?8c6;;HHtvaXG?iwXlAuT@`T>+z=8ugPSMgAKi7X
zQRE|nA`AfJ**N`pO5vNX?1N_Dh~7VRoR9n|G5t%n-14=Vz>IwtTKT$u(i3bzOqh)c
z-;3QSEh5JW;x`Zrcu3|wx42rxNetRM70$iwd!^b+>l+KLVWF1<@%t{gy{}>thK??{
zfqW)2iQUd_nni))=|CC23hNuKVl;%|cO8?nWQRB?CK?-ZJg&(Jah1ue+(wg<ZS_c6
z3A2E=n<XT9NppLxVz{G(5xAQX!j4*dag^e7kd(g7$xNFkC?FXc_B;89_fc-S8^AwM
zi;>{)N8Lj3=WyGjY>cB!h0sLfa0SnG&5B6LG05PSM#*q?eZqWics8;m=#i6EGywN8
z!@b5-%&U0)CByER*)T5Fk@At-NI&HoObxV8`PZBWe(D)s=M0ibQ8xf3KSWZa40Z2p
zq}yzV8>s;ac?gV<jgWvhF|PUUm7<-)EiK3Hnp<Ie;cx_DC61yvMG5^9{gWLA(Q#{h
z6q`l7CE7<0Hva$!SX4-h1@KpGH{_`Veq5Bb*A^i)n~5KMt^ub7w^D63x$K(ej^LqU
zw1xmaKuA~s$LypHKToRWjQx?bak4CoU3Sn<buEX2yJ#cmwS`28HyHl_E4E{~Qf%ip
zNo*cU9D~IXmYXQt*CIP(DWq;UM#01$?gsZM?Rn)$STBTyfR(J=C~e0l33<pRA#PKf
zeD_+yk=DhomgHP#DL}AF8+02RiWo)mLQ#$icHHGA+$`7}MQpAH#N8{N*LJb^OxieH
zTYfCFkUlg#dU>;peyhDQau3->V!5P&%GPcSbK-E#ieq;Jl2gl{{YKssGIF;gDA4%i
zb3w5;PZJB|<w2f1Cg(P{!Zsc#F|TRmFYw))<p;R^67M|xAz<PXVh%WeDZYcesC`!t
zDScOYM%n_2o7A+~DP4CofRj$85=b``Z&2zI>NQStM%eFh;WtVxiS066=Y+6vZ~8eM
z(S4?AW$Xkp{{UpVj+q-6a4&Ai+A88>4Q<#DZf>1a=S<sL*HxQUNfL^8vlCMRWR7YP
z&DwL7sISw_i-52_)^@Rht|HmGf@RaP*FYPmXu|exiKC_z>~p|#$n3mdrlNe+L9M<I
zW%OU+UWw|(5qLeXb?A7?QqnoII%T~shb?u3Vga4372ciFFw?jf#tXhe-RblY)6;;~
z4m>8kto1UlC`Y78H(MK_=}^NPKw!VoT2H3>k=tlXrpm^E09Hn3?7CMJy$qW?@2NU+
z7q!li{_D*(vrDGT=EgEG02p4$)pC!^yxn-tu}}HUNVTAwyDQK0B`V_%&B}-AGD}k6
z=L@x7e-*K8V@Ss~R=qKy$LKe6cnaRTP7y`yVEUnl#gdQg#8Yg+R7BQ4bjH{H)t-+=
zW_U5gTF)oCvZc_ydaqJZyFK_?-78F|reGut1zdhBZ<LrhNxd1$+G7<Xh-nrauRGTw
z71bsdjoHokUaQq|uv0iR_UydTk(n#VAExW2Mk&#CCq{0oreJJEzMb5AEH1mF)KJLh
zM$>Ed3+PH+C`$$#+Se+BsCskOW7x=nxUn|jQh4v76!){hsrB0GIY1J*q#g><QT3jt
z*sb}kgUICv*L^cCn=79iN$+)q{KLbxJfD^4W#-ow%Peq~=+^4m<Lcxte6E^Da_1YW
zYKffiNy$RfxVs&@C(P?NoUTubFzC8eLRwz+D{0NL5>pUgbX7!*V{&isl2Uyks2Rbm
zAOe)gLvdnI?|FOgf3QvsC-mFwnkhcSX?i%iLhFY(eF`d>lDOTsC%Gu?7fy9cngedO
zx_?NQ#vCqh*>%Gdq_j#>NXNtK7K|INbP_z<X(#Bn!=-&E0N@4H)|JtsS2f}yPtgf@
zl9rJ-l8-f|(k6Jjm__~<RB3ZW-NA$}ccAET=!Y19`zlVR>Db_pZo&H?{0<9!nmG>~
zV5|qzX??z^*tDw2SRLuR?!6PIx@I}1Z?@!~<Av#3H$+1CM(F!^RF8qlTVl&5=^r?q
zKDGn?+wK!*sG0_l`+_{Lq_sYUfH3WhAF}fvw&@na*A_CwE==E#Ykq@`-)E22O+8e$
zW$sGRbk3EkZfoFc+I*`{k?Ft8>YEF92D>Zh9*pS71w3vrv|t_=q2YMkS0iPgqsQr}
zdXP8UB%mJGD7du#rX+5bU+%t&hoxy6(P%=My*Elf_FBCjU)jvD{{TmTQXZ+Iv5C(%
z@=CkYe-L`7PjF<kZ*ds7%Jx_E?I3UaP5qU9S4+{o*YsKYEacv-9}eur(ta!J+dy>#
z!TYH7FT~EObY#IqMmZ~O7faE%h@1N<k55u;x2DpTzp=hE#dSWj>#D~R+pr%6V!EGR
z>sVOn<eFkT+kn25e@xNb{{RW2?5R3~rYK!X@MC8lIa#e~g=0QPtm|!A?{jCXmv@cI
zx^Aecll4sZ9`|z5{w;K*T6Uo<)XgD;la2!N=?QD>LAvF6B$?41Q8dS>CC+j6T+L!>
zo&y|7D=cK}uDWThlC_(>{{UnZ<tIUKNgIBj(QEZG(_>@ZXe#;!xzx_J_gffSf5NI5
zq-1yi73x)beH2h-t>cy1@ueNI6!~cQn_6{Nn_Vp>NOL5O*2uOMHC<bz1a7+YfByhj
zYD!qTiM3R=1;cBA{{Sn>?!4yPI+SRVGn=bzER!JGs^AwY_d<yJpxXr`-75=pY;<}@
z)KiAo-D`9mCRo5O!h@q=g|W5L5HPk(bQ=H`3&+Xia-Ab%a%>R9=CHJ7SJhBHXWqvP
zNe`vn8&5{bG8=@yDopQ;480zmvAG3V(b5+<HpHtsx?tA^i+z-|>}+kg!Ceb#!6sMg
zA(YS)-pdcDRk`)0&hwSF*GBk=SZex5zG6YPRJne_#XBwZ%|bS?G@p0XUQ<dWXe6wq
z1tEo?y6Wpskc<+ji~23+cx)!vSRSp^%pkFj1Ip0#4zmRvAr}SKunWh!hg6!jwZ+b}
zLBI*(xjI5ONV=x3E_UtTa+#>t?)J2jPs*pEkd_Z}EJ9pw&DESlvMuA65J^MLJ4vt#
zTJj<si-lSrx#^-LiOAiO5cLhPD6xhMAu7+brm<)R&a?1QbdsI{Rni+fg)9<~;F!hj
z45hMz$pv}`Me0)1$Q%jySX}~{vk+WL^e&v!zfLUQDPCodVfgu;<M?S-Wsp7Y<aaCB
zblSL^5Xj+t>(ko2dRrPxz_-fOQgzFmLt5((s<b@FIME6C@=W$xs;Hd9ki7o@uO^4`
zl3l=IR6DF5=2^FKSnjOXD=Q;&K|Cqt^I;W8(ZeU%<G+bAfvHINvg_i@Ii<F~SsG5@
z4`sTj(jQw`T_bmAm3O7|yJ7*wpV@MMkk-rmVBIGWWNc}V-Q1Obsd{avH}^P<1hm>=
zr#{B*`XfaHq#vgXPt2bk46v&_vslw+mZk4=c`CWOQ}_Ox52E$SbTKQf>D>JhG+iKG
zHyH1Kg~+l_TOW*8k1(OrUI1w>1Hw95J&nHA=`!?`k&H6mWH<hnk<PJ<{lcg2#Hg;1
zEUTb&uDEHk>Ma^+ABHbokE96#@&5p2Wv6s|i?J1l(KHrDGie@gq;&0?3));&*ZK)_
zc7|K*y-Jg%<B5Xp%CMyA=!1bQ1MIg6&6|>2JZaq`_vh1a`zdL9UPukL6ZT%`7KH`B
zNd1$Ypwo^R72$$bPE$vcQRs38Wr())wAC)Rrbs^v)v5Ft1G2?$Nu|@q2ec2ev+<)s
ze2nrsK7s%X#bNYT5%feXxA61yUa$FRS}Yn94Lp7V5%E$B$a$Q784)7!iz_-VjHhLf
zrV08j(_)NvQ^wfBe~y?rS&(l^QwIM4wm)SpKTT7y*oZA-oZEI$dW{DKI>eZ+Koq(>
zENz2Ak=kT8%R(s4^MszTw<?jwkgiro7M}xulqtnLE#aX=>C+8J2)J7^VFoDsGz8Mf
z$6$taRr{!&R0b}JRBI3Rfq)VRHuws-)ek8@I0pqy>}1OqxB!Qcf`xTm#!89RAoooe
zfwUS6N7W&C<dg%damrz+`CEyT4U$g^7fJGlH3Q0NlpgCOYX~wXI#XmhnZ8nbfSzoP
z1eD0+?dHj>EZcHab4teWQrU?d@}n}_x)xfNfyx}!0(nM_WrwOtYo6oX3faeUlupy$
z$t36~Ah|&_r?FAKpj!xeCLEHc(_^NQHuHXRluMpaPncOo>B1`-Kyz%dbmGa5oLN^o
zeDb1wPzkt#%LymHbr<GHJgW0j3H?eZ&trQc(qSy0RO8)3>B&{jsm+v;JiE%2<rs|=
z*(F2n2sTyH!pFPxgk?qSg@_XD;VPPH(NB$$eo$NVg$%F({J+^-0MHaO2Bqh0b&iVo
z<FUPxPVa56ghQGX62?filX0?%Bo5Y#<R=h&1op>d@!PT-P#n@BF`Qf{#};@}i(11e
zNXAW)xS@H!M?2DMY)B<UTe#q1DRTkxRE%q!6rCVjlOg=OPwF>OOA7$N!k%|*78yhT
z01`vS5sH18(E*8<xyns|3=1jU9>J76vi|@pN_qx}rE^*JLrEi^Yz=~u%_Q9NqAku7
zD5M4;iuqDDoRPp!gaOVGB3PQ+5-@|EbT0<LB!q&Xa}SIKV(A$nvvL<YCING0zFO=*
z8!8+KDWMTmW8G$^Fn8rWrh&zx9hdqhx--}!!%K~Z0+7?YZTl(DB8ch@mFFB>DXD49
z&H$#=G0ovir`0wWg5ko9rzW&I#J!gkx)^(ISPJTm5sU=bC&knaV>ZVf@ySqC>n@SL
z<6+<^M;=)_WiAoutg3=Kd+h@Xx~f+>wg&$IWL;$brNy~Hxc9J3@CG>wxnPy@U>kWx
zQZv(SoTV~t94H?B#=tD`G=}*T?2@8!V`~JIE_0p<xJBvIO_<%*{gul!_+n-3qbYIG
zlfHqeatA1in2Cq<@)tGjWR?LR0|VP*WYO9KNb|jKN}73&))I!K>FL<u=Q7LG<I@`>
zuV5EdY4OC&Hsv?S)1<*9jCP$(=xq+gmGu+Y!F%OZ>hE+HA(r~888zp`^4-g_9whQc
z(Z!oIZjJo4fHKWFRnp2{Z*`v2^?^}qyPuVJ3&YuQ-E+J@8`(@yRbaY+8y$ZNm9RC_
zl0v<$VJ)((Ee&}kS07_dXpzN{LvhWPb5*JV&d9%IX{k&^XEwsdYPBveIV+`XheVQ2
zNwFy#GeOB!MtdLCZ=#L$CxCfI#ca_tQfxy6B^rs8ixrl1?kE2MluZoeI3V^i(XgR$
za0HO8Y0t&VqSBsR0R5HiIkQESC!@C(&|3;|w`9hAe#zaGi=;95Jf@d894ATt0N70K
zwTj6ZE5X7clVa`$=w=b$3E{xm8xh2j^29~Tf=z^Ar9KlJ(1Ug!13eIOmC=T_!@rc7
z;5l(GKg>DC6A8qC?qNO?9V?D)j_9J(d%GbzKTCs!tXczPhWF3Hm`i|(d~p`wxAsCl
z44V`zHp%0VTL%79<fs9I7ecl&-ZHwz*;&wSq0gG*g(OdI+^879PJ1ax00pf9ocA#K
zzhwBxwSp2ySn|1(SX(Hx6vK;~w<u{{A0aSQZf%G6O||iUP)H-1?{&dXbI2A=V{9zB
z!xrp~0Wo7G#>E!a*dbs9=eja5NXiU&hz*KlhR1QrmteuVjqSP3lF;@wvT)Gb{Hd->
zPd89BhCAg;>R5PM#Txb#-45p1oT<yMRAk=R$|G42Im(%~zhuvC@Ig|5&@cVg3p&7y
zT|qA0q+;q<1LZ*@2^rxSvMd<5Zy^y*NXi(7hwzGrwXm7=Xdr;$&ndu*sGVyr2i<gq
zXdrCvEQG7I?57zPP*yVbC?qs`2iP2oh8r^n{{Sc;%R7~0PT}c*bBiW#M7n1WX-dPJ
zr#;NI?xXbp9Nj9}n>pg{7*JHR+Naz$+!YMu?BLlI*^?{fbd45k+$^Gwd9Fj8mUrho
zadi|x?((e`bI-D12{|Q7#{8)E-p1+8555XvQ(;VL+kCDd=HmBB6w)?35T$KPP8`hq
zC2Vv=#)52lOCws$-w9nICi_%!`<r9JU6mU18&3grdmKHZH&DHVWP((XJTb!sXV9^G
zCXxb0#xSG&yT(rlrcTn{bMm?G4`CP|B_}3yDA+q#08X<oJT46)z@NJ9xkNo2b^-u7
zQZ_I}!iDT0Uik`GW(^q^T7<oi5xCymq2~rS5?Ts1ld{*nydd=g3$J^jVe|<3S(~=X
zdRNBq8U}o-`EPzyluoh9y_3F)do3RgvNQBU$s5{o6T`^^-kB@q+illVwpA(`2^knj
zUh$idn9awLZ@O{tRvq*soE~oBl;+ylB_VHdb<JrPPKZj-@NM#%;*?z>7v%;W(8A)N
zn0rmGiMB4IoDHQ59U`h&+T(j9iH-*b%6VCS3WNs-V=B?;jH9x~ow5Ov57iQHZV+_t
z+6C;0Y1}_i<xWp!7em4LNL<y#yKV7-%8T4`LR+!;=vNzqVxu7aQW5eJ8~qaq;yI1E
zvU@BD%409*l>NEq_e#b@tpJ{ERIQHg!+}t+e5bS#!9)^vOd3ZeI{3BJEqj`8b7Z1I
zd0B=og_8dOy05DTJcMhV+bDX5+=Z86lLUe{zqnHVT3hlI@yBKYIZk8V4<xGD&ASn?
zIJ5%NK8YL!t^JWsm^Li61oyShxHw45LRN8L!cYk1aB%MKJ0-C;+7gwquXC?!T}0_@
zY(kg=V}Gh^fN{COOsEe-Sop~T{{Uqu4R%}4_)xkwlfe3^>Erg^+$_P!P|<uiBy(;r
z**Wky_fR@1Tae<iF#8)^Wgz-}lvkC!;Hj8=g_|`BEJq8lE|iPiHSK+`o)Bzwg}X6x
zWzMsOgN3e#bDg&>%H~UA0Rqb=W{JZ{7%PDzfSAXz$2)?NtPbJ-0J_!`#+RF0pM*Pr
zB$C_?$cOtuHV5P=TJYRko>N3w^a&t^$1Jf;Wjro8e$jM9kA&ZFx60;26W#52x^{CV
zvGB#|57Y=#g2FC%P{|Q*w)X>^rE772>=d5PsG>r~pVCxCrKgLfH|&3Op~v};C@U#U
zW^R{`Q-E#qNKXtG_PkrcL>5Fiw<!-cJgK(ZC7}H<yI?IObKz#qWERTg^3iqMd!m>~
z&F}D(e{}FM#upGRVge|eLNt(`C2%~I8$cWr^ect;fAE-AiEhKo6J%>_2yMO-K`V(K
zE|k<E0EEE7d?#Eu9$J*#9&VT<ZfAS0+C14g)*{xqNt41B4kB$L=dx)QIR!k251*oA
zp8og3)@K?RLQLk#*S{$<-zkM?X(<3UTt{+jkP8&XIWj?UVlbo$B(<}IQxZrK(U&_H
zO4wW-?JgfgR5lL5`l(t5?muO@Q6~UNBB=)FYp$UTcs}M3t(*o5RymflfJI1yiz`5B
z9#6_?wUwldrEv`|XeYI-hNz@y8<_i#3Dl5{01NH-N*qTvBj}!Db4Ec-DXc0Zfn&dx
z-$c6_MT5U}&9>Vg?2*lFv2X{%TOA=xPXn<Z1u?+h#|l8w2ehV;NXYJ%#z>4<_s<DH
z7Q%Mh-?Bo_lXNU~5e|9fA^MvqSd6Z>b*$9J-N0EXe;7_8{{TyOO|Y^$GeVa(*V+_g
zCj%+LpEq5%g0;{nX}asD9&N(wV!-mXn~%`LbIMzc4Z|s11-J>Np=+?w*yA5mg4rA-
zBkGpty1?Rh_eg#c-u;&oj_VqPvPQJv_ezuw-?G*f8x!GhCg-|R2hlhNfshcfltyHp
z61Rl$V(Z@tcH`=mu<;@s=bs4=7a=^i93(mHQA{Zf!fE<)oJZT?CO-YvusEH24la`y
z@R#?$gyt|f+#L8u#b}JMeUe-2g)`!C?UcaR52Ds$H#XxVDZkjMU4AT62)1p7tXdf1
z`=qh*oxr#WE%KR26+@e#OC!CJy5B`1(45aV`Y%bN)1|LtcQ?{!X0#(;p}`w0=G^yP
zQ1Q}7lh0?IX_{=in%$<}Y_#y{7N^`J4t2YX1)-<Yp^V}-*nA=?!Sp)|4pYk#j6j=m
zJj+{%vF?r7_*pGN5M(wMD{<7+&wWFSLEGhH>)0c{GQ8N@f3ei6iynxGetChz`G8+k
z{u{=|QpaIz1@gB=OaB1l2*@}EeMk6lE$P{AEEloj{{RDzH}X9)EX0DS7J2fHfD;l6
zP`gF#bnmfHl+$c>N+xRNwmX*#EX{p!rv=2=Dp_^mQ1417ZtS6xGGDK-b+G=b)LlGo
zjy&CE^okQDS#yQ+-C4+YHt+uF+IyethQ!<+ND5Gja<{fC{j_X!sN$!AqXgMWTGIAh
z+h{`4Ik3VVCGTZht?LpPoX7^>lsug43~lx@S{q%cM@Zv$hMyi(G3&w2!LV4`$5c&F
zTwGpB<wsjl`8Wx2wTE@fgU@_<PeUj>(0^F#>|{^7htX2>gQV0dLz>fKRvTQ@<*co-
zaV!V-UXS>9wUNZui(p+oFD2!bqoKo8dR~vGx6*C%@Tb&t*o-IGKV(LmBO`=mI<~GY
zhU70rWTmn)iR8U|pu<s3AT1dlIA1vRMvM7PMf*Y9b8%($Z&XMoYudql5q09-ZKIbx
z^EeTFt{nLkouTonJhma}uv-Xu-fw>B{YpPY#i6+Jfny8ZYh12g`#MudjgmQ|b?j6|
zSH4W(D`>RY9^38x&{g#QiP|noJX05ykEUx#;Y=LT@EWUGBZEi);Y~(fWE+r%C(78>
zqtrhSXk(g27Z0u%vT2%hO{N4eUe?0#&VZ}gBL^QV)8*<qdTK3(QE)pI?BkSS4V-dK
z$gruSr}bK0w7G0LVvd}|F4p49#cDdj7uIcS@1DzLpmm&Z(u=%t=PN@jK;q9=tTgb`
zkzg>q=cyw#lMu`_8>lL}y|oQ4e1Wln+^m08b&HHHWiv}z@ySUk$F>y{ZPQGpf}jHC
zovYI{nyPaXLrAa-<=rc*Cyr6L5YT&`R_9CWm$IB~d$_{OI%=4%G|z3+s_EGSoaeL)
zFAw}y>PkrWMFWQ8i``Rocj7f?<=+$q#l%|6$8~L5yHKt&PWKW|7hJh>a?&~>A8htd
z!pS0%cF6l(&bhk!3q{l^VW(}J(T^+SPLkKA)0j52xcD8GmQKFbEoMaUJ__oFRHCAh
z87<lMGqu`b{{XnrZ<Pd{Nl4%Q=8wAhQlqYVh2p|Dj{@i!y1S{L!(0c*vR-fK)_q|w
zRM9t@hJNTNdcRK`)HC;ACQsB|RW0o2xA#F!s&!PK`?8PSZgToFqw9IP*G^~t^M7<5
zM_=i{f4tj$SIIL^)e;O%C-*`=4y2Hq$tgbsq0WCn)t^{Y{v~N_xHB{NS-znBPtzX*
zn%aoTx0Ul-w636kFPNXYhEAT=-}=nw_d(8KPAQsS#Gb5!QFGeI0y|lGT<3f47NGQ&
zqapV)PuWcuMplvsr0b7`7b<qjMc+m+wBL`qvC-x<(>2z>TKay6s3+eOuj1BLl${47
zn}}Sc{z6Py%8O2u{7ZvFq-<ne!@qQPsrb(7n2Q+V+;?)$&G>s#=AU7=g<jvoy0<^{
zI?11t%eH7h%k_S}F1J!-kdvFL27`Z<>M?#9)Q~@dRPp{9&wKhr1fM(+ZW2iIstRqy
zToSaJZ8VK7A&2%`?Gy0v&2TSefaeQMP0>SWWN{Jy0CkizXN^(^7GX5Xiiozgp#8a8
zN;-<4PjLi&R>Mx{wn71PcX!A}RCLLXGD`p+7nJ0i(jE$otp!tzqtt#c-D>EoL!;W;
zDoON{9E1j2D#C(_Qov2X2{`V{ytJs6rl?;BDj(0apr=++J>JFwP|{FH#v9)L7XJV<
z(llS#7N=jiq!VDX(&})=?Agx$00{kFmO#P<?6dCC=bCGfZS+>hE87d2fK&Bg;f(zh
z6KhY6gf!jA_&Ro9Obw+-dT5X3=gP92P_I4oVfCuYs=K!Cv03A%OX^+CIbNwZPR7A^
zH$MtEv<5s}#sE}?Xs4kiJ7=HMQaUz^i-4q_rLaUrvb7q<p2%238*6e_ak^=qTmnM3
zG{%c&ezHlb9!;z+nF}7$HwCqir@)JL%YBtjp+V_5j~@su(Ygb&siw@m$I1?-?gqtJ
zM@cNMA&e*NivIvbsd(M#kgVjrn#{zkAl)(`TK@n!SJir4v4eQe?5f*MC#)J<aeoPv
ztX(rx(ovVaynWZE&^$v-HjCk5dMb>UG@N`dN`i=(01fQ9a^rJlvCfK#DrJ&z(s6t%
z{Tds9T&o2Iss=l)e@{>{%>|%*DaI-~D=9XIuoky$Y$Zne2_`vV%GuFrP?iE(5v<eT
zX%=WJqZ}bF&UrSBO$Ldzz?kfQirKnsfB@Lmp^!wumXES`@W*A*@IkVC*_e+;k?!|4
z-(-9`Ar1XFS0U{jHA*MP3p_D>Agq)DMWRO6UCjk(DD>D^(RPp72^9QTWgSm5%4LCl
z2=a?P1TOwj`zRZxLJk@VKY1zb2g0myq$9`(%|0Rgqv)oNo;Gj*QonIgyK--f=p4oL
z*?*Mg289*=sSAoL6$71ywnl)I%HCCLobKfybBf$e$g~v=9n$`FpmM70^W}G>{{WPD
zn#&j0j>*59zjO;AaOFzajuE45BviPb>Q>Yna)xYpPOuA7Hp!n*Pjt~LgpuVY@DC^$
zB*=Rd!uNSlhlS2~STs4#aqgHmUn(a}Vw2aoz0hGumBgOvHw$-A$x-r$bwMV`8iF2A
z0H{ld$#Q~8oCV4bT9@uCDjJz!=^Sthjq?zBL9%CCDmkV$<zP@t>PRVqpq}cz?{kgP
zw|6L5c!!#TKbbN0WN=Ce?l!`U-cAC+pvP4@_&7~9WwyJJj|2=Ls!W7?ZjrF0TOC%$
z+lf*#snX|i%K<2s`Bs$EhA?kGWR0{kiY#P#@}u=O_d}V(vy_gzxmihviU}15%5apP
zP$TtN3#p@HfVnBG6oT07a-p6;IZQGJ@GgX?-yuDe+{REP6M{-(=4kGPa4kc<&nCbd
zqsS^KG1G(HMCl9oD0riJKICK&xZ2G_lM02A?lw)ial$-O?im0D&4sb>F1In(ARk5U
zJ`r%n7&DTbf3kJj1<jP^lPwt06r_|pf%1rv!1ho*!^#OHGh=cGB{kVd=i7jhpu3y|
zSdLZE#@-WO##G`l*j%Wlf!w&+3$kuagE;2R7fRTPH*vy}&1kS(-OhD@SW!R?2X0D&
zMoS^^)nfxAXuGmg<ZB(kT=L7s>~$L{>>0(<{$fk*V6w1%Chpi!x+X`(lcyPM9RrB(
z?tdw=$`~vx6q8EOEHY41w7A{HH#KyPL=_W0Lt(-i<PRv(5O)DP(ql#Kl~jqgS2(-D
zPlh)+*##2zU2uyWpRy8-nMsjUZDVW*B?9fvax!>`B#a@BIYKZ=56Z=lb8~wp%_EL3
zN_Jc@lVLWxWe9_lA&wH`dw%M37S^r~*tp1Fi>%NTn6Y|oH*vBj^AHwUp$s5%lKKUs
zJgK}YU5uvD9Z+NMlqaIw;TmG{o9O*fP*La(O_4G-fq;?B9fF@>3TR;tIZX6`RLL8y
zhLsniBai6*%UMsSM({4*?u?I2r*9#@b;Fm*P-RpbMj_OWBOwnY0hs}8^(bkgX|ZkA
zcB5%=00n$mRzxI|MSK;LLC5c9GxcfQ+gSZ<l(D4nqH_)G0%>83^kp_pNi5Sza!6V|
zIwQ0fI?9Vrj0XbcqotmfIKA>TeOC^6ap<%qWt<fhurwJS6k3L@L+Oyl-{ny1m6Y$l
zr2WMBR8=xaM(xfYb-aHcleTP=eIYuYv9j*kY`pVVkcT@zD^IFO;s{vnYUC4}h4i@L
z#~zO^adMT1^z~^oG;aOM^o<$qd;;gP@l6(?%&iS47hbQ@)f=K{bC;9lDwUo19mb2=
zwvDAxRl94Bd#mYeS@u*~i+@*T&j+%TMFz20)-;lAvATs|e1tV!^$o@HRz`9BLvmMQ
zIhiA-?RCv0oRm8}B4HT03o{M^=H1bh3<co^_Yh5jl8RC#0Te5AZ1jd%gCBKu03cmb
z=n{v9hZU!W5LhgsKF+*SrDSa5l>2$*IK~C;6HShCqS4Z(hWAY(-G}U*Zz&yQXwBH&
z*|D;Fep3fFvU__3S&14jn)ce`gy3!2HSWK3pt3Aob}pT4CW{W(L_w}DvCj#iw^Ho{
zWg{DNj3R~@=IsK>q0ajKl<#l1jHpSrE!}Ge6gAR2z)fp`<viiMWkma)1(5@YWN(Vu
zAtaj|ED8m&lif(x7K?&L5J?Ktp<e~hDUPKnOQdgg&8c=l2=N7xIfcE7SlZ%l0wuG?
zY#h?8DIZAS1%X<C-E;!hcOyPieLId-#Kw@Y*nq30V;ykUW8n>^WbBF<+TQ54I9k`?
z3Ftkd?SJ-B86{(^1<EwW<b&LPP_nt#!6<Poq~sLV%<ac>O4Kr)65N+?6yrUQ)khSu
zsSK?H1qOr2dj<1l&SP$w>WhP5yVVycG{TtAPT3_c>o*B~Kuwo9!u(&t16`4s90?v%
zUnToy$?uVuw$!K6BOIngq``(<h=GFt04fKDwb<^Zfy6t6WHb>uXS%^5W=)f~*yp-%
zc07eUD`Y{W8(%3Wkl0<J5OxuM>M2^sH=M0wC7?+h)4;dFnjvP3XR?pcH@_-ahSADy
z$vUycrsEtWaK1>jk8q!xUy_*fi&<e=8=YZbqLswPLVJ%rlrp>9WMkMp74rw~=HYY=
zad)^~ERP$F!kPjJ1yvDagGjn?1mImfFxcBGuHbOg&4P#eG6wfe^xoSN4itiC00H4U
z)CG=fvw!TRW28bPb?t(dcip1cDeY@6G6&U1P{2kF)*gYsFhL^tOB8{`-;^xOa3r-Y
z7;t@xZ$f(yY;NVbQULahi=>UuYi(>PTOq#~QfFj38MxSaNPH*Z#HQFRjUp!(TEwIT
zi+4^oxdm`-z_K<a3epp58@}Kv7{Cf-&E#&fA*w4TjzH_}H&3N${$N6uM!aM^AF69)
zn0}^%Wc{O^>4XOGe`L9}iBYnm#?EO@YrzUkv}8!#x5>#%wYkcQ*UI7?d)Z*Q5?Q=m
zb%4RK3MPZx-8>r<!Z`|Yn^`r*szBz3a0+Y0cEG>N3^$>G_PUN^jPO&zYfl#mlf8}>
z@Q1T0Fm{;B%Ux@BO4uWDxN?GKw$}%`iKMjL5<Z1lbV^RyWMCEtu<(>LgM(nBf$sF}
zy7x~T>=fiyD3!lr5<hLNdnSXDER#Hg-6?NGZx+b1ZugUr2vRt18M2MhyRl48M67d9
zEjJ1Kg~_$h-tm<yPA{9F&1jc%EqfK$@Kj{q1#@<e<zyp7j&TD&wUROHIk+DMaA_jo
zl-I{`a+|XxO?Dh$l?^}^86fyk7~BpCQOzN5>bd)%ld+o#vzr(@lwPCQ?0{3^0LVZ$
zza`OwY$X@HjmT9<=WAk3CF01n(Cuy7G7%M99S{~DWHpZ<SSgl{hX$MSp4;D)*14y>
zkA)*z2<P@$jGo0~h`ok;CEnA0?78?&2Hn!`&t-=f_(XDB_DlM0wdt3*H(X0bMl7%z
zvR26@vtqfDVB*R!O@O_^ZNcnOV$g?qb;?$5CdqdkVJ-;3{>xb7<J)n+kA!;}3z_^W
z!%u=0c)+@2k8o^Ky_m6eJcJRpIV^>e29MVXVDd7D6H41{aUXRr=VT*m$@xN>H8G+%
z+(>QgJFfJPXB#Dr;FEPIw>KH`jgF8z_p}RGpyxhXtjmVngd?F7UuoeySd&F#rD1i6
zvV3G0dtML4lGRc@uFEg-g=|)LfBY(XIenIqhnDuo%9IBHE)Z1UjvhiWuOw%cDIIv(
z$KweH(K|O>U3&rB;VLZ1@B5{{%5{bF-EnRcSgj5BTa>MmM(4lEV~6gP5*BDt##3t$
zKFN19{3Zi`<x1OJ@`V_A#jH)fscsTAfbnakdk-j}HZ-&@+l%>3_XBWJ2a%h75$FTU
zan09l=d$L%+@E}XR<O|t82}Z>$3Ime0{A&mmY#04fJ@u5P(p5RguT`o3QwCRzWstx
zduGdt#|r{PWDd!sTd=}=_|IhCdG47pD32aj1oF^(u8a;Wjf05MU~Zc74+kGAV;CP*
z9Fd+Z3dxHgIb7ytr-dAKGd0%-cg2*mw`t1?h9}4Bd#p3vI#zS!Z3PWLTlkDDQ^iwG
z@rU!}K_erPzS7&35Tzrx+$K>(9N0}mL##tVzi@|`I5y$$1wJTTEO!y|x^2O}>wQs3
z!~$7=PT)nmguC4D)XRK;m5v<S`zH%t$NZtt>tj8<*o1_U{MbYWG0g=r)W`X4Z>nBH
z@gpBRCx>GRo{<;jAh{M6TI^_{_di^v9qtk|k;oxAq#k%e$4Eeb`A*u~B(OO0md5%1
z$XHZPEH=ReChg8balNo|yEe+!4kTm?SXf)i;v9Z{>EO2a#r{HT!6(`guu#pX`L2+L
z+z$!n<b;HLB4weZ1Kl@ivCsbi3B(JVF1N_Hb&wdr-61$n&CV=-JS4|tz(a9m#2aKM
z+k}K%+k~M=X#Lj!K)sUY);umZw?9R!WP|}dt_P9XFx!xRtFiV$u+b|+Pj$tlAJu#)
z#zm4e*yECvJq|mC*Bo+_dHSVvfZ+WW0M1H6F@bci?f(D?FMEN?);ih7{twY`CA<ry
zAcK3P&yS)uD@c>pJX+~QtvrB2h}y{rX$27+NzTW1;W5#)kO3+n-YiZR2e=R~!otzd
zVF2Yre~<2`E+>(79?yix$$g&trcypfhPAdIMR7ip9B}WE*FF(CQvhYh_Es{$C5YVP
z!uHf@Qalbw^X*1a9Hp_d0NacOTKO9MNZ{`+94$9d(S|j_gX0S!1tZMFJo|3Br)kkx
z^<`GN)|i|a%jVoKJ=dTi#GZUFUDY9lw56>VHqIBC^&D;Wiv@+s^K#mj&Y1L8^q27K
z8c4;)SJPjHwQclc7Z$KzG0?bENDc9I>z{{u`<NKZ-obbHnLQlYqi53e61C9`gq6){
zW-_w9JFGTXnhUdKpfyZ$ISZ+xXvp;~4Amvgx!d3>S{*o3KRozbddVX<1yj_=6JNNl
zEU;H%$u<KOB-6+Pt{ShXC?kP@hTNcFsA02PjH{{==?2?iD`A3B(UPvf>&f)?i<96g
zw&}A^CEsw;au%9cBaB>&l#w;O+QBAFF_X4Ye`a!R6|8OA!NyINH>&7%wb#fUiuD@V
zndugQI9_enHB5*+xPn)e<am6Zi{ohXLqh3wAsa`xb&0a|9+IN`qzrNG%FFb<D4Ks&
z;^dqy^fFVy2yWnPI9=FqM-DZ}NzJ#QioId*u!h_ZDw+EG<aud+FXdMC4y4csV)Ol5
zSe28I$C2<CpOZYNlZtePiq_9fsnnn`A9nYj*<*U9)5cuqSSkoL>X)}`0Us_^`sT4e
zrL?)koUZuG9AlwUc4a!Tu|<8R=IWP93^NBD<u6cFx><;Gu1W@qeX;|7Jg6_(+0fRF
zqkYi^uv-Wk-8f1wYn2QdtZZXh{ND>x($s>wP+r~5Cxz7r$D~G5;*7g=M{FL$bMT{X
zk1HksFxh)7dNeJH`x<TVg8u+UhFY5jgKyb7j9jS;9FB}Gp9N$92!osQ6!jveVYW$L
zMXlj)EA+T&X&mbSZR3UKy4IuU$o4ZQvKcZ$4u*<y+9B8=<DZpxpi<OTyb||YwpLD>
zt<%bVS9jv;ang10Mq1NrDXg(h*kqj=?K49&Fc*^R`6;@WOhy_@fF$@T?@iQUY+#Zu
zM+!|!zBfg<+SbB#<ifN;DOu<4>9(4H#<sz0bY7B-!(z*ecL+*4*xy<PEpl$RT4te7
z1Os!MYh_msY*ggUH0;3jM@v)13y-D&0_)6Oq&7`g(Trc+YlZ5+h+Rhp$3+v`<8I3r
z(c5Y@VJq!@*ZMALc^KzC6j5=Bt?53BWYI=US2oT#TPQjPoUnfhzp}sSF$-zgU@v8<
zib%tAWbe<#2T6*tIV(K)bR{tV0NQWtnI}Y3+Yq<*UWqkCO>gq5>2(Nq7K7iLqW=IR
ziTf4cXvam+w9e)+`yxN|B`|OMP5qYAj-od-6Kf)$RRC}50WMEI30q|&fb+-nB|mtY
z2mb&{Sh^OJpZ1&kExW4Yd#utF)bm6Qt``FQq+F>L{{S6PkBgxxEts2s7EV16NIy&<
ze67<aU>&TZo~kyC4563uNg<<xj1;{UOh5L=?4XyVX;|C(WA<Abn)sSc&C05-)Y=+I
zb=L%Z*<@wDG>n|xJqus@S{jL>(W#q)(e?^D-AU3*X8Be+OPt^w@&HBTlh{5a`yKv;
z41@Fl7c-}6%fCn;C0R*W*0Rj)-3KP5;BmrL<Ud1dB=P7pwjaZ4W3)PL)(mM)W~qx8
zDPygCn7$Nco^8?ur)xyC+C?*YYky==p{8dH0Ywz#HuuVFs<X*LbDBacVLpT`7qAMi
zP;^G%07`V#E^r`T$ateN$;I-e4sv7hX%&vs#PVNf?1}#XP7IF0pnaB(mW(nxkS>+b
zHurE=nwJ^}6FUZ#ad6byy&SoxYcu49s;7;v;9w~w^w`n~1uh>NP1`9LrP=1S{XR}y
z+o-8DHn5Uf2bHz2doFgi>WZ=QIF__q;dZ=IOGutdU=O5)p2h%e-3wI|Q82jV_Et=V
z*4#lKR4nweO&|fdQ+OsMVu}+?`k6mY5f9T`BCugAL#Ju};qCgX8md;u4%V{oAx+|x
zOGYW4LDV{AvPfHFZvit&(3-#;;bZc>DV;klOy)@eu{<j%`eHUma^A?f$toT6d5vu&
zVu*m-{gzgzNt&{!V_0o`uVd8o2S3;u?NRAnIUI6kHB51mR*Bh;>7I&fgG-^gKMPdu
zi-nLK(E*POf1+veLlCnE!k<)+_(h;B;gU>sNbs$DrC}Skvpy`cGW4Uw{@C(QHeT&j
zq`G-YEydFz>BjE4jDE|v4h)O3a+FUs>5T$N3rTPGTUvT2Yz^2+TAE&;U;u_#D_VUS
zjTmLh=uq7=b4bFSCB*LAm20F^`c4Gm%UJCoI1RuA`1Hmz`9iAk;>4C_1q9A54GpkG
zvD-z;nY3Z5MnKVkF0BkOi78}kfHm?Q0u=GmV>c+6*Z|>5IaNw1o3LR?e#%JbyaY^d
zZP5%UHj$ES8Y&@skce$Pf+dzqxwo)Wc}GwqWMFnqCdtL^0>hOHfjK2;<ZR9qbEHuh
z6WKdx@}9ud?o<T=ARJ15+;F7a(3<H0?uRh(BlNGzk~l()%bX{AwjALeM&eG^M$wxl
zNh=$Ghmuzu1Ut)*)dwKZU#to2p4k8xKt>NGO~6{fPU(pqlx9zr89kQ}P~<X0obq_W
zZtmo!5<pCIu!kgSB{JKKBy;YCd+b*St;p0$=UastaVxIhIZ9l>E=m>}A(We3rm)<u
zmEp$0F^;m<WKAO*w<sB!&`Cr-Omd)b-fl`%FgxFjD2>TQ7{>`(zzywm)(T`%Lg!-2
zaY|INNXGMI{{UU5041=b4rzWAFNb2VGsYY8gq8lGy{v~bQ3t1v6cWbF;TH2@We(i?
ziX5!ez|AmsY$iIFZz{|=jcu@?o>qNUvvvm@S>YEPLf0ij>ogAuj;MEKn?oeR$YA2g
zd1V1YWR>Rw2@DcE=K(8`NaAc(%nDNL_D_PHtj|7Fj@my+Q*5Hf3|qT^qLGYXyNC)}
ziG4Pktj4#fy`X^op<5n4Vq}tmeA=o;AJz#)L0c2>3s;b8`t;CAhZFLwI$x+{sd!_Y
zZjMY`L5nvh(dxdf#tMn=?t;^%GC~|t1UbgQ61h21)oBa3l-C<%sT)rz7dQb&D??6l
zP;)}LeGy&GKG0Jh%MWoy!5ojbV5OQkVrATJQz;@%vZdGT6XGA#>t!;gUC#E4B!!Ym
zYc|8lD>q>*8Br8%uo*+hWt`!*A1Y|#WMc2h9#nM|ZD6pni?qX`8&1ZHyyY@U8qsE<
zjZ~7Itsit%JObO~Iq;~h_AZeeex!#18yFFby4O+3G;xan6?I*4zSiXlD6pm*S5_Jb
z1S+X!e6IGKC?5Ab?vVYH*!|dU0xAd=DZ6{zu5NPV`!o)6p?mGZWeBD#lO!${vSGR7
zDkr@C7cyW71v_*t6A0XUC+*rYk+o4Vx7;qFnxsGU-6EZgl^r9Ra8T}zr1lBm-;~!B
z_6i%dp*8kS1YXG;%kqdpq|O3ZnPYOC>jHA577gVa6Jz6$F}Y22rQ8g8P4?V`p`z$m
zXy%RIE1WIaImc>ioC+2iWNtP{Cv!haY=i^K=-Ii*I$<7b>HxD`LWTN`Uml^dAk*W7
zJdlg<p(sK2hgLxOrj*`C5`~q;w?`O=93kh3k!vQ870_LSHdNr^O~ul(p6>T6N-739
zp);CV7mIxWG`x#jpOlVck2hD2)7a5)5Oc&MBqVMuDlHYjTacitk%5F+7a?uF>aMY`
zc_FI!Fu6+5nKCG?l^Tnh;&=-)tH-^r0A*{=p7)!(kAyWwk-4VfdrB0j;Fe_B=CK0>
zU?eX{=^C(NXu77X&_(xv4}KK7TPCG=Yej|Eo#pthO3~5d=Sl4JR>;?|XY8vrA$FS^
zVKYyfN5%oUPp)wh=EA{wDiVv?=t`eP2dM5I;d5n_m7{T5o}-fQH(7}d$pgyji#Zx1
zX!l$qqG=<PFh1jiZ7FT8Qvrx#Je25IJwOf-FML8ia)$K)lHnTzMyEk(7B~7WWD>co
z0c3i1Ti9aDTL1-@vggY7c41m35^hgx1BWPb2;i=YM+0o6vd$kw<|N4*w5N%2oF>RY
z`9w-+fZF`017UEZEIYCHPTD~npy<hpU5lg!{nBmi@}z4B?3Y7WoQ&|BbJ<8hw{;N$
z`9uS+j#9LMka1*yXN1NjIc_kZe$jh7Dbf?dir00&vRWF27b5(mEf>v{n}8f985@so
zRyB`nZZqLBKzZz>ZLM;c^M3hR0rW!VmlfWhkfaynr34HkWax-ToY_d$TQ^Pw906pd
zruPWhMMN^RlgYQ$Bw@hZID)z4f<^3~3wM1HPe5rlNq5@UQAxNEMtq_}EoIJVwnE97
z$LNMBv+iyYP_mjscQhfM*8c$bR{`LyLHO+!Uy!Ac`)&15RO!ubTI->=IAl153+w7w
z@6;@THwJ{MhDf-%`Y0mxL#|kCjE=O*M)rbK=2*xWL=?~~80-=XS2dtn8ppz0o>w{u
z-qU2ZGLc&1-sM2|km3TeG$p{3!e{z%zdZR&m>E_cZ)=i^rghH(=)<DQTeu7;B&B^d
z+~$$;i;0xdV&t3!D=Y?3pP6l!3XtNHi)Fc{8cq$6(wh|M<ObOZB?HL1n@uwDsu;)S
z*TQ)1Y@v%y@T3O76LnOMdAeZ@InFGcLGp(ri+rgWCGlf$g)v*PuZtJuK{E?mn<Bt-
zfo^VxsAPZ<$VCCY6_UNJCgDB@MqOZY;XTo`;EOJXlr`6B7xJBH2+7*(WE<H`*IZo3
z&&rLFhKz+g8*Xk^Y&0>z9@bs6+rdQ=%W$Ec!Kd5dDX4+NkfNLP8*--(xyeZ2OL39@
zRw-pfra_F5mX22!k&7dp9_!tz2&qAq_aososweCzkGNAeDmd5~i-L(`E<TD)otTLB
z;`}DOUxC7Wt#_LtoaeNbpWOt;oeg-&vgW?nDZrD;=C<cNB1Pzxjt1FK);P7evXn*c
zP}Q;Q&nbZ9%IRMqz5yRpwC`~z1TLJm<PbuADPcATDg6<BlQd^MDFemDni2+rFy+OD
z*h<jplQ6K05n{N2b9*S`Yq;e~1~M#CRTNYv-}{qX*8`h<mpFLEly5HVaG5f4LY^#`
z{oRgI9|Wf{jw1b*GDLphdAg2Vf;*zN_AM!oU@br41jgdP1BVV5vQ{=C?A$5;04*NV
zwB;jd$Z#Nws;!Zdrb`rHWIG>KJ3!{?7|_cM8+KCeVX@h7qMVCC=waga7fj?4-9F4G
z4j}xfq_ypIqu8Vjl-_vcc~Q7>L(kBzyN4-&J<jc5xuhJ}fD~rt<GNkh<cuLedL^?-
zu>I4EdxaYvk>N<wV|((5EPEVUar;?J*>Q5vh7wp<fSg^A2s9K)DU5?*Vo)_3UE}Cf
z&wn8gAr}a%LF|?w;TN^RIj)d6ZjSium6W^LcE4#UL={XpAca)ygC=9)*=ZST`AFEH
zep>DnbNZWX_WjW8__+EhwPj<_Td9X2g$v?qZ=8<_80Ue99C=*pmu@_vvC<fB4X{!Z
zkM5oB36H@!L?<+#-Enu6*2pj{k-!ox>tnKG5;WjlJU9m1ZPWlcqTqs%mtTavnu)+~
zJSXivh$vv<Im&Y!d0C)QG2+Bsb;pmbk~56EDZ!@vTp&6cLtVl9BrF}mk*ycb0!J|1
z?KoP)NN=J5vs{!h;@P<=GA;<ZdtOH$-3uCqxV!^)lqAn^b{txM5zcunw{#5R<ekFl
z;!b@7nu><v;lsgPCt?2pau5Fig+(h}d)ObMV0P1D2>PnhIPKVJ*z0;h*7;IL$8frq
zP+RWUN7E>#>~I5NA55uBM@#|kSA5w@=-PivoAgZEV_;A&gzs~byB5mp8<duH?UjRL
zg|Ctd>oE2s<uLQ*AvPFTS|l;}eZpyD$1J$=o4(*&B@g#u%La!=`wNUGi8Jm1f}#T$
zO2cJ^qFc0qac>Kp#+KgdFzfTmQ0^`QU{S%1JmDt8{G<>QgNM-|b;${Aailn3%4O_S
zh1`_WZ-SW<8GDodQvCwp+nd=hwBsuU33l4X={yUkZ6^Z7G>mYv3B&*{Mm(ll`by#m
z9xvG;2jyWzb6w#zt{@A76Tv(M+2D&Nk4EjC>SpHlT<0|K>lBV>i+xm5G>>pOSs^AQ
zj*{e9IjB=4MfQAFx5DY4BW`S?6&~PS{nZjVX35?u-Il)IFNCb#!-pTQDhIkZi<W-H
zHGl_QlDK>)M>8y2Bk&$U3OceJ+yiSU<9op56!|2J(*fbY`3Q`dC9T7XP)Ii->R&)O
zU5^eP6HIc95ri1=9LX#!aHMR4!s6qy9^@Q^=KS3wiB%w*2LpFo>Y8D`K)=yPd*t^{
z7yeR0N1~|+SOK;2xD4e#CkG*Qz7VmJ63w?G_DDu}PPP|qAYX(mG&0?n3xmnJeVkqT
zf%_zL2p6$N!BjL}-d7fj4#hc!{EiaYq<o^-2s3lv!s0XZQx*$g*)hy<`C7q5M#ujE
zDWqQZvX#T?m;mjBY}7Q|9ul9hN;n<T8*^?Ev0WX<IY>p#?r@gZu@+smz~61cAfX8P
zP22JUc)kAsxm-R_84;U;MhfBOJlOMZx<W8)v4-(`SgyG6y1<NfNO6=b%?q~q;P+i(
zaFW(-k3Ut!+ZjYDGoCUBg~to7Ja$~xhdRR-N;QdN^+-+zGN&}o0`~{#qcKR_?YhZ<
zv4mTc(e$!;zi?MLG=+g<J`+jJte!`NmOQ2xv7-0F?cesL{^>oa*b(pgR=WsrZt#BV
zPf4gUNbk5?#n;YSZmU?$Lt~ua1FXG!rE5#+L2<dTUd}1Gt2_zCBHySU3{Ex+&g=C8
z%Et#CtqWh&70nSlbNeqL>g_<fX9maszhxZL<Fb%eTx%Np9Mc2@x!vrubHeFdWqwIf
z=*{&{!Sl+ymL@Woi)DFvWo*1vBO_WpH(YYH9Tia{CSys*m7lL?@oYP-hd^nLsgbTA
z71iQfdMA>SJzu9Pp4K$5o))T~RFR_31yuCrkLg6yVo%DtnuN8O#uukA)f~NpR_X+@
z;n`J^SIFmC#Ql`jl+I~3C^kj6F0foOadO#3(PO1dOrR5Bwc2!z3>$l|K7C|#?#qBz
zS{||{aBk}X<ytu-(lu9R)y(x<eo)hmjkWBX7NZkm%iH^^9e-Vd29xT5KC7EInU5Zu
zGEIrp8oV?#?)PPQr&jCVn$!sOJ-5mu@dvCUA?%Jo=W)vOMom3z{-fMTC2`Bll(!P<
zG`4yso7B-jz{o*1?iHL}K_sUyIqbatot~V2-c^MRrMD#Ad45-umR`dgR<vogJwQF5
ztDeD7Iw35Z-E5xxrpZ!mY=Dv(g@LvHS1tuK`7z!mkVB$mZN2OQ%=HypY*`T6K<4V=
zzO(pcjpyNHwSxCu?;w0HN)mE3an{V$d&{44Zf=2d+|%tgMb)?$9_T3#!tIGhiS+3Y
zt_dXPy7f+o)M;rV5>!pJ0mqf(krD_a1z1NtL)sg?)>?e3qUfBl^6d64Q?8(pww{pt
zcq-dM)}R#rtj`;W?z~Eg&SZhWXX>?jEbeof=iS}{j9bGOTW{IEA4j3;+KcO$SqR$0
z%ZcS-HOfo5-jMo|w6vy4*Z~_yU=wTT+Ssl|hsyI_Y4ZJ<(+o)?&LxfUJmB)JG-{cc
z;CLv?x>h<<wV<V^rP@Z|FX448wy4h)nq4ndd~pLKj~G*G8tjjZw)<MDV1fHVvSn0G
zEw*fgrO8pFiYS_&Sdo+6r|7O3u2st&pEkz#vd2_S9XYumyTDPhs(D69Xettf-j_g@
zBv|X!?R(rB;^$wLFGf{*Re-qnx~6qJlekzFYopT11H-nSRbw78q$IKZ9@n621V+}h
zfEJoPS&WZ!<R7~6{X0;S1`l`H8vSYHd!L2o=J7Jkj|Eyi3sBd6LR%ZL@Kt~MnQQLj
ze~YYiTAcFYHkBxJ)-H9)T^PJ6#v)EOY~t5sHfvpfx*?jy&%Q;6h*UiHR}@rJJPVSk
z{uWo*B57Hw7aK6$T2NGyK`u90`dUqv#mcj#+|I<2@R}Y3mq@2HX`+<5qUA+a>oB;I
zg{6`}E=SouR!cwX!+a}8!IRTL=M+*`O!qkLHwvP!*N|<Er2MU6pbo{8*`<U0pf2oQ
z1Yy}JX1<I)Jp|kLI1+BIXz6D*83W;I<I>pP!}e1$k*weVt1lJ|PHdokAq~kS_*L~(
zuiQghpM|t#6JOfssI<6`EFZFq@v+0OTW6iYLsH}VO_k1{rcGgXkhW22(6{*lDmrEX
zV9<<Vi_#lrRhnzVZtH~;s0)t;Yi5Ow2X&Qvj)*$K#Z_X*KR~vMHtDwj0d!?1oY;si
z3dxU*By`dCvVZaMtxz1~MCLWEun0M#bDeZ~nV$+NXN|Wv3w#*O$$=Kg1)6LV9ZMtm
zI8utZ$*@z3mhHmN<A<Q8*<CK5ju7tCS~zO9eM3(Oc`5-mSxyq@JX-9mcAnBWxKE2q
zX>h=@EXqma3V3D!T$CMFk&xPbF{~cY0aJ}Bm$?d7*2KY*3W|MB=FAJ8P~`e5ogj!P
zV_~@h%1NS#4Xps68B+NUO^4M@3*6&tl9&8s!OVhsCOYH<IHY48dn;KS8s67JNxA$k
zjChhlIWwYoV6#GGtTLZ*zrsNq&o@sEb-q<&1cYsj6!Eu^oY>+Agwn|g=E>}h-PIdl
zpoSR076DHinm7n%$6;bpl0fj6iVcOAH6bF{Lbcy@ASb$HEe<WYN+U=Ok19quUh7x~
zHXxDFo);NFQM#Z7tZF5WFy2a(I0ONlUzNh30hG3CEFCEw@R{o8lmVQ(h2E(^)L4l?
z9HzRUpoE6rQ<^s%m7Akggb7LVoaswKi*RV{gs7=&d!fk<#4yZn%0o5#s?k!{a8vzJ
zYm{u%8S7;sn;AhmTkxZFhl|~7HBn$H1@Kc{I6xP=$%adJLd`{xoOw!WK2>L{@{`ri
zD{?m)Eg3d)RK{Q$sl@j0l!m19y9p$$Wunx`9C=9hT~vy&4X<@8YF_*_VM)0zhe>-S
znbthrN9x&eiO$QeRBmAhg!brK9%duDh4Yi0$&wo(-5>`klLLrft9}x-<qF9K$Au`7
zw&iX{qDMTW^=;im;$534o?bZ^LCqVB3H5xGj+Y28RF3P6w?~j@EI-Lh>RARR1HIHz
zRa=4(axr2aIVCam4Q?(KOqFgt6ctTF{{WWcsI_dYSJ9v~4Du8c)E0~?sxv#y$Tmm1
z5=Xe&>DGhsuz7173Ce@>GQHU05c+1^o>N&1gRx+TB9X+2poz}?M#!ed#`Bd7LugMY
z!CJ>rNR$?i08ZWB>J8cOxH}g@#-eT3365~J(qyEOj@gvFk~WI%T0j_91E}g;8smI$
zwmQ?C&_OE)uRb!@ZaH1vJyFA-Y{Khxmw6Xf9S2lhTpAB0Q0v8|@7aNMKSIdisK;Z=
zlICRLrhOOFjP)RG$l+*UrUQno??_1#DB52jy_L;QtsG*}xO}f0EN0%0*wJcfqHK4O
z!Bp26gU_dBSw6Js9ks5yo|5xe$l?K9yk{3>QdBk4J-BVuPKtR+y}<ca?QJ_7d>@n@
zbzDpa)>p@tZS4WU0e)UM&E1lcN!r1HhL*6%@)>ebG_;0KbcVrpDK?2T4C&>W+gQ@3
zhJnxbN`A`0u)_;|w*LT?6tzr=q}?Q@{RJx+DOni60S{9Bjr~dq^)g&TP_tDxX)fg_
zDcEToUik^lf|JvYt-Zl2rlPdmi148N%%}A@l|>myR?-ctEe_=l+K|&=Q1Us??o?iz
zk0#5ZB5jsJrsI^YkPc1Iku-$)9ksSWnF~=k7`h#j?ssyN(|oSu3TDBuUd3eVvlG*`
zt|I8zAz^L#RgH7nZUP`rD@HG5kNOBi%>#j8fSLPA7fDe(uH=xSxjdB7(X3G}Qb{?r
zh1YEWt|7eI$*c_#2_1Ws$Ik97r7g-$pZ2A53W?Fk<zYn`l#8Bws{OAR0HgHdGhO-(
zys1wo5t6XC&=S&ap=}Gxt$ZsZR^~F!V7<G91e%DA*LNQZQJzLSQADxm+r{s6@AT%v
zZ-AjaOe1dC;@$FspIM%AZ+83yB=T6vK(+K^+mtOsA!x;wQ|jsu1pRJ<nx>$V3-+x|
zg*1z49UgLrmCOR@C|vGb;!o8p-U?+CHa1C`$9!Emy0c*!I8iyRamY`LOKm~Jeu&Bu
zTWm#<u7|&<1&cr^Ni{c3e!#0C)2<D_rH?2&x)Dur?H@p|;zJze_DeQdBnoCHl2Z(z
zAEI+ZORP$B-~=0Rz1T)E=<??`F2roj?w(9;2M9?ZaL71Nm%24eu_z*V80(<jNE-X&
z_EX0=cXcD3xtAANnl?uq#sO=90v}MXYvXXe$`e$T%xPJ=y61vJiCnobLPtb1NdxO{
z^&})JLm!oAJxg8<&QMZW#^bu+%a4Q6(~f+BT-@L$jqMg`MF@rbpOoVe+iNJ<O8_o^
za#2(<I!9Y2bdg-GFG^`fpo6rL-3dyOlCo_M2e5)~Wv!)o^z526lN4a>uup-T1z
zWjkkN6(P<SJ;LUI61d#pE^W_*N~SM<QWBIDqx7s6F{eF~uW-7+WplBVSd9wT0mw>T
zJK+s0oK6aBTz;QKC=F0U-rFd52jczGkVpWWq!De+))kKy11`GY@J<l*4=g<WRB=mp
zbNeE;1pdQ$YKq0aQ-j9akVaD;{{a600wbm?h&H-wTEOeyAx7hs%y-JbY%RG7j%RRF
zp~%Mx<*q41dLi53<s+jxxl)+iEJ-0pDcgmZs9-x>E{cf8c_9XFQ%F6J2m~UjvEJZ>
z*g?1*lmHv|M8GW2KV(<XQYR%LEw)nRjx3^=83>`+j~8{)ZB1r*IZw{qITpa5p{@t)
zg_XC)5idAH$PLaATQeHQ+l3=d!5x%L+z;t0QSuFuqao~Rwh2n<CT|YM%2o@DE`5Q@
z#&JxK^R*c7^hHNpMXu5ZlraOsa2FN<8yDiT-k({3HqWw>ddfP65J1YHbS*rD#=~#Y
z;y&rGM5Tl#s){F)SU|tZ4q8{RV(I7995~@V8jE4)?v&hU4)V8#xpA6M?6lcjG4K|H
za1sMgzQ=9Wu&Fdvwx|!*3rc&cSV!srtA|n1&fGL1XVD|J=3FhYT)7qAt^3_8CHYgk
zN_1_$@}YGrw{xGBxf+=EO!1bI63I~K3lf@XCk*Uu;SEsP8G;K?O)$G2>pYC9;)wHq
z?yF;a+xm$pxauq{QEVNA$s2<XQ(E%X6qN+F!}q#i5;?aW)<blIqI+B{S3Ea8$_a)>
z{-AB;D3s@s^+tinp8(h{dxKkhs05igNhF@bbOy3V)Uv@x>c-$mHYi=e!zxN<H*p2u
zRCv%is|aM7$wbEc3=w4j5#J65$^Oy7NhEaRm)S9v<BO<dvy+-qy{#tqN|g;KWNi$+
zxK071AmuVf;^5^obF7)7clJ&R$8{A|$OQIIjpp7Ib%fgp2SAdxHv%tjs$?-V5<y8L
zFMAcxF~HjQPKh<K{^5{Hnm<st$Ve^4lh{j5g2AF#fgQL~?{9?@Wp)Bh!NlDF4wr9k
zQ17@nDo#f!gcJV&lqfbscV8n5n)hD?KEz(jfWPvEnU$tX9IoyGNl<q(;|9qr-vu&a
z?WV@aF3Q@VTfQ@J;d`etpoaomf1(;^I0JPQZyT~mD(X5pr1o90(Yd!K#HGcohlGcQ
z`>s(1fDB&BQZI~01k)Juo*QAwO)bd*)=F8T7XmxsGv~5<!@=hYGV1^cx5{E|9cz<f
zLQpPpS2Th-OP`A@204*Djl(wVoEYFNMih}u8)0k!iH-4)G78C)Xbd#@vR$X@iKuAU
z3r19JHWni5SkOckvB*$P%N$`HV0$6z8<CFadn(c=fRMrRrEA@BoBdQ#f$58Kp1?`v
zStF6Xom%2qYg-60v?D6V@WB1hmLnj9lI*lP9Bpn*lWZ+;<hBGJK}>KW<Yg&DIqf4C
zP&)qrboP=nV!GGtiVGld?`tFi{%)uAn&WNON%?nQo1<VD%kT};i7Sk5W4K&-;VUvj
zNg(#RKy92KDaEG#R|feA*vSuwHNf1dcHH}2l@kEqDMLv-p<_^?(llowG0q_O1v_)H
ze0-)jo!KQ|s~#Lk!?2nTasoi&FL0a)Az{vNAaaCwYsvR*MmfgW$W`@QZ-Hd-A(7~0
zu|1h-xcDj{U%TAQsL!a=x;K&VxwUgO-uCWQIUixr06+i$ie=luvJxqqC>CgGL^QZ}
z!i<ibT@r32`TC~2CyOUEf-P%(7h|!yQsTtT*S}=%M4Vkl!?&?gwor0SmS$*Uppx60
zXMGBV>~KEjk@iK04};+{cb%3F$Am3_8LheO6232O@R80WdzvngmktUh*};#%%8)hI
z=IN}J;@8cS+cOEva*d0zrMbvTKqKh6uWkPTSMHqV;E`grj36H!ms=SY`Au`22MGj#
zix5^Yqz^evb4Bx&C$x@N5#x_2^eZ7PHo+q)HxTPtOhzy+n0qXkqgp}ol$_zozyL<?
z?3egtkhP56krLyRl#U|()P^%_HRJD;$1&iL;dQJQHskJ>@07z}>l`H)0{8yu&1X30
zvSfsT<vj7ihCqT6TOgE-l7+*c?+rgxQ`l^CVxVI!C5ghMPF#XMorGP!-=apw@NnRM
zp%CbMxBD(*9u9NyWmA&Iv^X0UAFc3~OOax1re`1);dJ{z!5>A3h&Iq2?ZHwuSGT>_
zU6&lC0jGm>t(A&aI84`mrUIHn3+~Zx0VS=3yFy0FsE9!g$XqXE>$#^6C*tdY@)EXD
zDix<5S7QGFE1PdNN(OLlkf@;c{g)HuCBK!{zHYIECB9O&z<#9HXO8KFSmyUx0g_mo
z;|qm{!a*j`013iIo?1SsiLnW9-7pdTMN74g$UkKp+UsDfwqdTw7EN?_;N@}L1&BYg
zPf#A^Zj3a>LT!#kxJq8|Z+*cild*5z6e~ny9n+fYUgW3VGtLLmHTwa<DA)xA5HOnH
z4XwxgrtSpZ>DkEz0O;#l#U;Sz<gU2~{#O?Rk`ow1VtcM|xbl=Ab^9d6?ZOr{4RcMg
zl+p^4_~*K7k7P_T___YcL#>_{9G)x}SQE-oNd-f|7jP-!rQO1VYUC)vKCCYu;4YeB
zh4}{9;33=qCjoHW1%XHX0ogODoG-P&g$u3;Z-l<1?P64JB%GqJ*tF5a-6yx<C?m2<
z{{Y;W)NHlgJ~~RW@X!E05t?67GL|6MJT}1{)wIoQ50Y2=yj^(LP*qhnrQxy`uwM(N
zK4$7CpDz`~TQ~hz)|C4TTPEY;>&~jRX=|!?I}Im=Pbro8Cvoyrv@po&TVQW>Hzy~y
z1sYmL=clFiw1Imb7K&T?ChD7|Xq<ME-|VznlwO@PfaP<|8?zf<C>3G9E7d;>n$3~i
z4p)>*OC#&ITY|kapd4w#2_y_IpBjG~*({NA==uXhjz2}DSm6_>M!^{(%O|C4?1~`P
zxL<_*L#SF~JEQ~6)ie2;(6PWSr7UsY=Ibl0>y-5Ea4!Il9hG-e^$Uv}BXaWHb5xn{
zaeS_Gk6^sTlO&$BbSx2$*{syMls<bk#E$79>zZ9PmweltJ1;V-s+r6rIDzn}s^oj0
zv|Qa*F`D*iLM-+g-^Ir~dUWKE1eKQ8y85!FGrD7Q@~|xuWHcQ7E);bVy5{Ei7)Y>V
zi?^_-eFe*@&0A4-xyI+Z)M)RHID?<c&CqEwhXb_ytsNGdD;f-k+wzV_7O4k=eU_2S
z>k+phS<%uxzyJ-^eIwz5*6qr&hgA)2nBAkzxm+1z{{V_Qam6hXnjM!eHu&<QFgeF)
z!j4TsNhGisJ?@R6YvdyYsU;=ZR-z3p3t1U)$ypAfX&c%BBK?=6%R>2Mv1$4$YR;UN
zXIwD4>bUZ|*(t?Vk0+^yP1mv?^6z(L>6JYzC?xuL`XS-zXP4X4H~KF4X0$=Xz(Yj)
z?jpe%9W;Oqv68(ihoZ~v>M(xF=AWXPT0ew-!ACcn9DS6AK1Y*MQb-?n3k9aq3s@VA
zeU{E{jN0G!$O<_6PC)IUqy%y0S>vNhJbNqS)tOHXngg6XAS!hVs<#jWnm&tJPto8T
zmf!5Gpy^fti0*vZ72#X6e6+NA^iWLaS&^4Go>k_Lpwvw8=?2^UExiv-F@%2(=jgPW
zE`)b9mH-uH;=0hEDU#E=S<YY{nKtsfROv@HJM06>^_p5rN@(mrE<oySWR2R^0)C27
z@pf)>cnyC`$l1-9P0E&wrX(&GX#>TVuRB9zuP%E(vO1GNg`gdS_Fb{@)l(+s&oHFv
zgJ3;B?5ttwt)mhD0A=Zo(_oFiqy(m#5G}M6>jpF{oSElCryNJ=KeCbznBMSAcOh@g
z48H>3MJzBd8{sz?FGfw#l%eUpt;>J1uy0PZb_A_uJZ%l^i;4z5!og>f5dw>5LZ3im
zNWizzS<~rpuvoQe<DqT1OrDr9U@1Q;Hb2J7XsBXo$Wz5j5I3++oQTOJq0LL2>o<jX
z%`_yVLGeVvz*82s*cL)S_gGy@ALTbBEfcYW!jL(jc0xL1YYUYF-7}5>30_1VC4;4C
z9NjZ`JmFWF9^ce*qmr(|$XIB+rj>(}V2U-dv{(`KSjlw>1{&qjRLuK(kKICW=Eqt!
z=Dsn@lyYk9Xd$^-(C3kD#GfgyHW?|SiYWohVfC7nvl0Q?)H^3F$v?UQ^$iBYC3JFc
zc2yEfpgr~;YF_RR6HKx=*k9_R4`|0FE2i4iTQVi}90%${%<@kvH&1htk&-dTC2q`1
z6AkWEyS9v!&HmgbmjW`Uk_vr|7sPv{al=<e!}67dw--`+jRUYv98rqU9Geg}**Q_V
z_sLE(G@eJ*G14&q05DHT0%V23q>+W*t9ZI|W{tTeZ5S#D@tzSO+Xb33fE7&wz^4kf
zTlFoVQw*_jyNM~+1B4If8+!t$fyP6Q5wsFp=ajpGWbJbqbzJ(ruG&!Kj9Hfp;W@4y
z)nh7w#nj@UZCcD3B!DO#DJKdSN?vhv=5dv|8i`usJEw^da!a=tOcM|4Ta_Av%-Boo
zSSq<{*ujDnVz6>n<QgpBId>eUw3063tA%54&62vcpcA<Z1u*A0UkihQ!;Td!`kO(p
zDgmmrXL1fkqfNb`wh7U+JmleKTdg#IHh!wdOw`*W#mbEGIE<2JjtXE$!j#gG+kjM5
zRq!>VbHX9oj3u}sanHz|XsX7F>hk#5c7;hZW_zwq6{e-AL~bq>6;`6bfK+hj%PH*^
zc;ccG*NE^+Q&itLR8!ZINf#(b*F11ntevBkqf_~&fqmcIAghl2tf8%t=W#!Djj5R7
z8wDESQrBM2?3=g~<x$Yc@<DOJyr*<xKP7X|D@=6~IVIcA3J2BzYzVrKRh_MA7ze_n
zlA!Lr?o+}}Kzc6!05&-!DCDmfwbdMzF1ILiGu&@;Wl$Hwy_d;WbT!f9?h6#@9oVPA
zQ1I|Cg*nBuCVEsAQ9Yw-il(9_w36VmRQiM1!IDZzswbb95Ih8&S{~79S*S1)8<YvF
zE;lGAvF#ThbpxMcVpCD9w{2(#l=!RKU2EY{Iqq|;(0<9TZ9`k_1R(l1vtLhD7TcEu
z+N!9neZgbnePK5B3Mwe)f9iQE9~_(PrmLdTN|57VaJh~y%7zL@V)rV-2m^Uf@yqOL
z1$OIUFvBCxRe=$-UkbZXuVgGX3rbEXXyQ$hG6uKxl`L>YdypMvmKwCPRP7hF)`w1%
zmJP?1vB}G2IH>47yIS9903>sX9n(vJ;W%Vire;DLoP^xnNH(r6U^y!wjm?rAC3DAR
z8{W~~Z3^8SPE+GIBI*+0auZ!EW8|e`IhJt%nO9R!3l8Utg;6bRkM^?X=&JQWQ05Zn
zZ5Hy8LAE26ARejKVHax%y7T>7q{trP?5k~J2gxx4?mkMamrs$+H_G(z<Kq*LCQD{3
zRRzvCQRp+8YOwFqo>roxM=#-p2mXZS$OswwCYCnDQ}%i{OzQjT+BXtxugB&pe1@!V
zNYi>255L`d6$L~sj0+3da8Dl>v#JxcM@L3kVs1_OR!w+_a)YU^YeBV;jC|Ekvl?uo
z)s-w|thlhbLl|b9+}s3x4xO|ING^U+Zw!s8G=|w*Pf6+X$|T9@x00c%t7Chrn!5MA
z?T^ZJYz?Bqs<aFHkS0gWd)W-ux!(Ct*>tsSXSJP^aW#^?fr96hB#e?n#hQtv-7|xn
z5%WW6uWKZ3yElCq=~?OC>IS%z#u3#_Yn)V3!aD_2)mWRcB5v*)Nkj@soG#e@>eol3
zW1Q09GPG`nik=(D_`m^8=caBAm^mVnBkmSXV?&NgFJGyKNjB4qi`wB<!xcl#n9{SF
zXvtG7;%sdexK4kiZbBL@HmSpN!<1DN@<vVWKI$tPlm10HHRvb!H^(W>*l~-hSNguD
z39=#wKR)7{;cM8peuJitGB`p=zyT@2z+}7kDmTo)F_Nhm*RwvzZ09<`6BIW&x`mPp
z-A>8&j0BVA=w%!1Dk>(tX5VyuE|(EL;1xO4Ums!jO5Iwi*$xBfxTdp9NUDqxtA|OY
zXuGzjOHW4&O`O28f9kbmzwRNbYicAO`AV1gd7HN()Z)5DwyjkS$c*0J6%>KbKUE8A
z2!2s8PR9@~3iPq@#TsWk<0(6$2S9nTO4f#>Uiiy#WDLaI*d|j`0)&v+r2tqVTGvSa
zFr;%gJKR&)Ht}R>A)WdpWJhhRn<PBAk!9Q6+1N~x<-*&N)4c)dY>m$hcGYjCRkAx0
z0;7?ma+V`yrH7iPCo0-ClWNiWL^jJcs?6z$AxRb7GNY?#4ZWA6;P~;xtsI_4M=dg(
zyJNDXWm|7+i>NB{P$j{><>}p=we(!Nb{3Qr#gFcSbeHe@6tR-yd;OC15Qw9(xG1V{
zcy)>zHxbH|I9s2hJ7BGnSJG3yGEKg#2d~q$k0Ldu)astrkRQUz>NN%A-AY!6RLuO_
z_u}Orr%=f-7`@a_v6x|RdN)dvswV7?_wQxq`FRv0Z0Ygi$<ddSOp$~1l>?~cZY;g7
zo1m&H+6j!?;aJoD7<+E`^YRyy{(KSK@ckYK4GY~U8%WQE=v^mI6*OaU&6c}W=s4)(
zE^J^BIkL_g8ENG#z6Wb3hm#!Yq6LY^Y_y(MJZ)+UNLq3fl<c*y$|GPcT^|~ud9=!x
zus7<E0F9cS=K&At7V~?gsxJvy9g-<aY?-$=K(Av`IQFt}7))^ctP&^Z9g;Kw&na9J
zcUXKT10GL>z>+RWOg`l!M+rg1h3qdLZhNkZp2qhXQaBL1b&e7L06=lE{{WXDV5nai
zX~|QGyBB@ZKF=3JVl+ZoaeOF?4`m~bxXrM+jyLkLiDJOHx{%CTG1*0TAN(lfeVRul
zV-h-{-V+}3;c^g;bIHPdd-jVW=qPsQ6Tk{aw2)7Q9@BArDdLO{=osN^i&&|cL9w-y
z3j=fAIfp9@iMt!9rQtmAnImpFOd18<ZWQb{Z`np;&Hn)5J(mNJ7GM`>IXAkE;?5w2
zFJqf1C3U}<V?B+#Zfu<0rr1$1f_YOlpzv^uW<<;lAta0s7P{tJ%5&TR!ALm>h>MG-
zvjkr$OUcMc0VJDpn0TRGZt6E${3LN8<srE!BQzw9?{qua@QEbxWX-N|BFU2{D3G<j
z-s^*YP7y4OZMjjsg8u;B8zkZ^PMMiwfgTZ&*Ur|B%_MvjBx1)Za0P|`0CXJ997rj(
zkx0@Xxu@kYm`MF$K+{ehOs=)lOmH~evb2N7QgT*lMWD##g1~QXJe23fPa{3sOHXx8
zQ4sY=?R6MzjTn2sbjm1A(P-)#NB*3BN{U?@arOd&WYf2Yl6<Q=EoNw18uo4-{!^&0
zV%tT0noQBV0Wr}}5dA0jS_kXYuV&Z82iaFuY827~W{jn1Dn)UYU_VX4T*Gj8GTBo}
zJb1t%OHLtu&wrG9GXo+k_)t|IY;F$<&Pp~u`$f>R=?{J*bH)7SYXMjpE1S8!(!ggA
z%TLO_rO@g<8wY=6uF>a=5>5WfioJ=+qN$D@$0~O1upN+f9;{Niq#xNZRJztJu}b58
z7L4ey-p2m`HHuGMXWXmI#o0Jb4`>+U${Y;yGQdr9gLS~0=en<Kp6s4f?UA4ipQ<hZ
z`E7=^#}^5eM3A6t!uJliP}NLH8%ka!K19hRHf};#2(`IPxpy}L$ck9*3AMs5Iu<gv
zH@^vcr3^PKwvaH8s~j9WCfpwONEva$iOnr`7Dz_ILk+OFgTV*(L+>r%;VWt%Y~J7D
zH3;O#Il-qZuz9kAM;CX#QWAJU#4150rs_FEgDgT=%Zo-%Kf0fBEwh<)scf&JsIb1~
z*-;oBxM5l{2Ah)74{RtL&9Yl@{gvW!&AviY#P-;p5s|o#RD3iWf|Z8@<xWVn7(-mb
zE<)!9g%<+%1t#HO9ebss+=&Dw{{W!nLoFnr5J6H0S>D$t3W=NE>rkzM2;SS=9v2MY
ziz8oF*G5Cw+mXr<^Ea0;{8?Z&IimK#x_;lEqGKk6j5v>~dt`3hI2C}!8?A?*x<cm+
zoTmph$A!Yyw+jyxBOT4|nIR<J{nVfjBFY&B&Bk(sdn)RJ*=I0ZWj(Q*;F~5w2FoAa
zNYRj5Y^@%SH>NVQA53n|kV4kvkE%Mg&oPbMeN}siHsa|X%fhI52K<7hz#pdn07N@n
zdwrDgy7)LLS{-a%tlPm&bYq_$6uYo{sNG^MU=MYMX_0f^?zjsa9($!ATalE~F?(GX
zv1m|8Cm{a-l^llo1O)bhyBNQe`6Fp0plb#_mjnL*-P6oOSc19HkOkHqF$Q}lw3EO{
z8by<cuvm1_#E@@f;Op|xLQEXpAOq+;tT6jA+?y_JV%&rDOb5V94||n`p&Sm|+WrtV
z1QVPUVB&0V-2+ftyCG5paxDQr2aEj@Mp{n^(gqhC*!-rkru~Yqqm$TuFpS#P2%k(2
z97+lhM<U3$$O9jB868k#tZ%_cP5U2|`=2SU8%K1MTaeBVE3MqFx$fJ9+qUZsV%&^^
zmCtb&B-thJ;W!as2)fiQp_cP(q`q>c+Rrvk+C~Oevslra3t4e!&M#%wx4~VXluS3<
z-Ep|#$xE5Rx9qrvk?lEH79f0p0lOX3gMoF6LT1-+lYzloK}?ds_aP|U0k%_G{{ST~
ze}#a@8<wOtzEse{Wo??_e+#6hk-6GRVQnHf;}34zi-FvxNdv|}xJves`mPFY_p|i9
z!3}|to#V({*&p=*N@sEXO>4f^P2C9w;Iyqm+alZ??iU+<JT4Z!g6oeTbjV@30VVHy
zVLx#Oz~jPD<`PSqI7C(rAOvy`{3b&P-*bRevoZ%9KV!VzbWzM5{5e|T@|iQ5b?jr}
z&#;U9C1H_+CjS6cE8Ow=;<)k?1K3F$oZo^jo-E~*b}Js;)-3&#Dnw<wnn_Z(ZU_MV
z3LdHL`2{zzlA;$j{{RIb4i>h2C$ZOUw<lPTm6wVc>N%s_)xuUgy^3)b7Pr|=Oweu|
z&_@b%P>XAZK)O&!b%;cW7zNr3d|0F~yZK0W!d8kV58PpQ-Ad@52fdE_CYal7I>-%V
zcOc~9I`}-<F4tSiWxU*ctzjHU7xK80MY%{p#f{ezTHN6aG8*nlN#BLT+-^cogvcF=
z4T-U`UG53J`TL}C01FgsR)vwp)*X`zZ^-bL_|3k{yN>9ABdi8jID$Ja=Y-r7V}t;9
z&|CVlqI(^DDT_hEMzEXvtc{A(1tH_M5{U@-L^+Seh5m{+GydBwWfmZmcU)fEbJ;P`
zixh%0i!5RH?wlQ)l-po<N*X}No))mH6u2$~rr6kK$q&}+Fs8?DB{#B6+x(>&;cGG1
z$6&adjHDyyDGoc|<zP_z+ZVVikJ{;-!CWqTqJTTK?VqYol$Y#CU4F=dgy7iWb%)RF
zlw_o`)+w{<8n;Ltxz3T~{>u|rrOP|Z-WQ-xM^6|ek-Pk=`6GlIy4>)*f0}-VP*1ZN
z4^KJvI~9!&PkL_zv%iI?gt5Q|FnC3<!wyLfcYvBX@_QCgf*YgJHl7=n*!fWEvNX6x
z&vE!g56snJmyL(IDw9kMHx1nG<g2eLPqUs_m!h9d(l@`<k(L&^(b6^=MzoV*ZpkN%
zK+F$tRMk}yx#f)x$>z&E*=MMsR3f`C<<~<8rx4GQf~eJ{b8{hcyaW{m1oZ?Rqy=|R
zqc%3(?aF`o64=!fDX7g;IVH|>M_{QZrg_P2{uiLTL=wN+%z05w)5CA+%A`5{3hC(c
z3Yu3Ng4+Z$blv8`rt8wA>3JUemf00W(xe=+!{J&nn?h+Gb4jA_wWB{$7K2UcvTb%?
z{4MnlO|~*Ux$$M9({vVqF3_cu7DiD?BhTr2WvyoKPl4Ssw?=bVSQu^eUbJ+GVvJtS
zJ`gkL;#XX-9|{riCnh(@j~+TS`|vOJMAK+9z24^i7puq9%qHc7_C`ga#KG=mm!l6A
zC9*Fo^m&aZPD<x~ivz$~Z7-+X#)9b9(w|I;zsMDYG^}9#H&V;vC#Z%qe$1sdgb2%U
zh&nVZ7+@<<=yzZXBoyp#IZcbiOR!HVkDEghoJC>g$@Kj;0sjDR?`5=#29PiSL;%}B
zB)>-k0O55k5KE#w+w9BHbn`9?nlP=KrPIdC1_I?~c7&~N;g!vo!pD*9tTQ;2H5zPg
zKcs%j2I*0g`Ye2{1dV7mwbDl(<AAM?1Tm_L7ISjhOx-djXKInOENT5AUkYz+%0o+h
z+Y0nf%E+l$1{e`6gRls;LP4+yh~WTaAkYf`0L!@G-A4FY-{s1+dqu1iLJ&@JQQ{i_
zh7wK7Y>C(-ZS9m$j1Fv&wWpM>A+ojXl1E?^=F*eSRg)te**LT8jc5&(E~huZO4wWn
z3e(dK8BB1wz`_nFHU|W6-D{O;OdAmQ9H?W6o)nIZG+dmhPZhD$s5sR`#`aaU+KU}_
zux>vJIbw8%*Eag6!9v#Lq+TR$*nU<3TO`KsA7vy|);Bm-Y^EL)gf<*5jYU!uZ?GoB
z8r+*FMHcc0Wh{{ra;1PaF>;nyBp!+2qiGkie3YyJ;3kTz3p8OvQC8y88l<tvZb+=v
zTG+w2DvCoRoo2Lw<z3FtQN+02M97#A0axR64n<s4Z+2V}ERWN`7e_wa1rgfZn-YqJ
z8<m|DX4{GyvF!kcpSpETMVo7%qN|o?ImX#pEt<z0IoT>fCedMpFnfxQNp|MwuoiHe
z<fN!4X(s?Gv0fMn$wSpw%_D3v@TSwT)dW=3kao1&DBU~XVoJ>iJ<kqtxmWr`t!sBZ
z)*mQIv<(-Gix&Y#_`^zuT~;PG%__R1QgolC1g6Z|K~*(PjMysawHJ0!NasrHo2Igr
z&Lov(8th9R+Sy$0RL!Y*<fgKaxA{`KB0DFf5nWb5uq3AbasBR-)8N@J<%|CSNJ`>`
zwm0*yz7qa&Q-G$2Pc9<iS<z_Cb%m7V_@UzLuA`DyybF@G8ao_7E*Mf$Xwk;pHAz+-
zPZ8T;Wz6!GQ5RBlal&#gvUSoEAq>JIwyeF@d(Y7Z=d=RjfUO04U}NBOfV+yFl_K`K
zr=Gc?#jW5dW36$0o8P*2=?U94bn=5>5i&ijisXQ^l=ZHRTpawVMMRSybIrc1o8@hk
z;i5|Vz#Mj*ApZb7=V7;9QyX7^Mf{|tq}=W<JgRfhIE%f{wh3JCREz?wpr>O-Y?61z
z(Pp#~kxosG#V*R189}io$*wZESQKZcyxfGl8ZfO)LbTJ!;+_7U_XTAPV2~`2jwUo+
z!~mr{jy)MGC<dHb+qfn<&x`buEUzkLfCKIdqJ6SB*jOP6N?oD2q%1YFG-bs)T~442
z2M`iL0CFMJv0C=IRB&HH+bU$Msg>5;Q{sj1H*qARjVnRE+ajssiZOQ(m99M@miqzx
znb<Ifl7>QUm7<BzIC3nXcn1U}a*$}w!=}2|a#>((eXOqKmJxwvTUhAbdlX|SKFrdf
zAygv37hLUDeY;}-CKj-hgyylQ01j1tHQN&3q6f`1uH5oTNLcfos>%o%a7a@+CWhIq
zM!tYiIwuoik<54o&9b`?0m#Z8sh~9Qm<?G)Ads7IrHVIj0s5(Buzl>glQ25LW@Lis
z;c+9nwx^~R8-l8Wq_^~rRgD~zNOOh9l})`Df<%>2UAAbol|=NfFR;4NY$PU#TGMjS
zgcQnfiB&~F{1QIu$k4DiASuDy!b1FIABnfv=_CdD2A5q;91+GW22|U^X>d8RtW_A`
zNEjGRadt}W-w8JocuX20pLMWus;g+^sJOYZx;Y#!umgm=L(!h4(gbhaw?8W4nw+t!
zazF#RjnbbBQb25Y7B;y~Ckhr9IH_G=+?yc9b4ZQvBf5>!9?7!H8&5Y-ZjxL?!hXvL
z@)J5jIW|yBSsY-S?kYxUv&wHHwuLivsF*$8;;@{G_Ek?iw#L#2$~GD&KQg=OiHev+
z-onToPf`#xhFFwi6(^udRD;7{fw;C6UZZM)TGNG5HlaL(o1da<YUd8&b>qQXXEd_e
zEA+VXa7u<vBv|cl_D0fF?|q3@v6hyPC3U2Zc4X$!$7ZOTq<gGca<(sxr0@`R62l3-
z#nDD+si)IDA-dK?Y<q0bY=qQxxS(mZiB!+(D;tAklZ<4Bgq%%%Eh8OgO7N~}JqSQ7
z0^_>#c)E?n*4#p|i>R6!KZv+;;-qy$C7YU>-L2#*dd)?~?P<AHuvJM|0l5JZB5MWR
zljN>mCCDu_?z_FC>ZXm6#henNo>Tf*6hOFstCZj9%Dt1wT>K0L51`O)N>5mX$tFCZ
zQYw@SDmSt|;3+FBq4e#%U&7DNJAgSqWG?9*{F7xj2KLP51hiT@K`XtSCkwR;44WEM
zGu6GK;^~@nXgDI`Dw$&**)3#}PU%0~mG1hLn3q<29c=!|(Q0pyV?T79TP@2PG;x@>
zX2a^P^rumRE=Sd2#L~Qjaso0cm&VcVE1rHNruNDFu}?_fR8~;O5zB6~T9r&wJnglW
zER|9?@>3lv`MFfZ<8bz8mMk&NVuo1*MVf3-a@0wDA<N`>@5<@o*p6}Z9M^9BNnBbu
zC<80Nwp4zj{!wc{jFs%M4zaMZSG~YsgcLG3qMKtK(m1l8A|R4SZm}wQcMEw!)HL4d
zkh$Zr31|*!mNPpTC`l&+9h09S+hPh0@V-N3oGdZRL!TgVPmQA2xl2!{z1Ae6{Rrc4
zxP-47_Gh2yY;ssw0zyfp0AANkbda}~g#@xj=KEYOnMNo_HZod^Wi~375pYnoF}$B?
zJg$bGPHcWv6jKA3T$LB$By(;ge`Lo-cG#u{kbENa4p-P;Bg*D-QbUoIDcS|rixHxF
za(1Yy&$OpT?!h`%0y`Dzc<)CBWwMI10P?D)Bxc0fU)3-YKvk2(8VM?|B?_Zudp8n@
zgphbqxxgGE=v%qM;8|`)swHW2S-HSiD*a1SjwY7hD$cq$7>JA&i`6J=WSo-M0FqOe
zNHmhRHm0s>mz|d(NBMW#bb~7ML87&q_A5<KN@MBE+mE8$AFwGW(SfK8WkXIab?g5C
zh8l$gP{ryH4{*F^sG)T{*AC#TE|AtA8`=Yo7nSFD{{TE`ot`|@8TH1MuW8MU0k`*7
zr(K~j;mr%@{V!8|@d6|v9BZlovt@O>U3jnYZ|v^*;(A|FYIO6p!LMq@RYeoYEw)yE
zTDr#^%KLb_eLYL>XF12}S56NN;`S`FCLZcmwA?NccCv}J7q!t4yg7O?b=e28j)MKJ
zqI?3!2;xTD<wE?eD5(KDDy4?bP`Q@Hm8_AAACx5Q0C1q;MWc`b*HN7Erh7ABnC9Cl
zRTomQX)tZTOaq_trJC2ZlSP2fD2-x9EEJ6Zrf(Pc;W>_P3mV0DYky@Mg_QSgu2d5f
z+Sd9dHHb*Hth-~oCa{6dQ4KBT=-IsxZL!LlH?sT$uPhzKkj{0TkKJy>q{7QuMiBC_
z6P^<crq;Oz{gh6T<oqCN9zYpNHraGdE;c0<4LeEAkwUpp5hH~>B;xr~%Ssx45VAZ*
z>s#S93uLcwy{x&U3ttFw@Z-voCtEzB#)?8ogq-0plW)4<>mELdk`e(OmPHtsa6Rsx
zGBOkm5*GusqT?Py($Jla1Lv|5c9Kdt<Hit@?FT3(H4sA59o(WrafJg-vI?1@*(rdB
zupa5fgo`d=0B|mselSuot&I$D@Kf4G+a{R_7Dx?($rMXNUeUV+G`EEETXe@*kP`v1
zvKu!6Lg`*Iq?alOUiJ$L$(bX|NYBxAiOOVT+l45_lO#&mpxXnGoK44s&<%o9<NKs#
zBFLoxxb9GTY~6fWNl*>>Ar1wI&HN&PAlSg-_X%FXz)yvsw&wo;vUH6Nw$hc1l4uYM
z8>a#-ke#;nOR$ax6D9`~Ln}cXT?pvGJSze*kfD28->+oJl9UiAj@SgJ?tFH!vU7;|
zQA$brC$cX@(AG&2+%I%odb@?Mw0)IW-QjRyCf4J+Eh8&tq8)9nU}<Z9p%E6P46QA3
zu~|07V|<0%<Yx}Q-6dbJ@UKReN+>E^UA?zKO`?G7w!|vfHAhB3eeA4Z)#7_?ytnGN
zUW~yiw1>5%h80&fpEFOjq<xl@>S4{ea~*EQHXTAD;v|Z~+^n4fzRbI6s&{^i_)ZL}
z9KhrBTS_m;PDO-eSiXvwx7yKfgw9O~rq4B+e@_pI?03;e`KVm$7g(+3W|IV@;18%&
zm3=bj66OZqvI=dC)fG{_g`UTQbVL;niv^<HiZFEbLn8;$C*%Yq)Uv~NxsLslHh{0O
zpPX&TBkYjWvzuK2=N3J|z=QLJ&2YWJ2vk`7<XJLyxxdqO#lVY$by#F@7UfG6jw0iZ
z>u?9jVKQFUQD@3;sN={@GFu@sh&huq@Ela2f<Zuu&g`i~_u(sx9y3TdG+Yo@7Z5m6
z)4Vu~r^;GEH&UaclA>5Az1n*vFKKsU<q1q5wZws*6TvsgDv2D^m9f)EEtYLfYvVS}
zl#UHC=aj~^oRAW>S_?;5U)$X$@jD!Rr&td5PG-{Yak2yUL|XmVuu?U*9N4Kud=TrT
zcyJ%4=Eyk)h@AmB%7R$jGJAGJZY>2w=|hf6)@K_Bb6bB2@iZJK?F8X)hU3BbD7Gq#
zByE6F2Mbt^R7{D$`%XSntl`MG93--_h^}b23JLcNgJnKI;HYMHKyc+0#+uPBHt`s}
z@`z)_`AG)fOl>LQyN$@YvS%2TTZ}^(KsZ~FN<O8bu={X<aVFWhN?9!n5ojP;O5KO~
zkKGOky~t7m0Kq@94FsGw!4^$%1GZAL+~3uZn)W}jx>CuFc6d#4W7zS)DURQ3tdO!L
zj2}~*SSd@KZ~!3)9{vHh%5z@fhh%w0p*BuSFkI3TCN0}`yB&gHm(9|;P2^k)SpteI
zU~{j^f2!+Qz!czH#=;j_q+#Oz3L$9d<Y_jrPb?+3vWdeWjC`kVaQ<W(_GHC2w{W?n
zn^=p4zNedgQaaYSSbJg-aeMc&0-)K)Cih0a4JZnNcc+OQj2+Sz8@-nY%5x;AdB)}y
zDQGS1Qw2L*@6rkQRil&GbTE>@Sn%(KFpRWh5QV0N%*cC!DmkBPI9z<GNi(AziU=dJ
z<CNjExUxsu_&2&z$&uRFzwVj<z5;&>hz8v7gBc8STge0;gy0AAxPAFaw2Y)BhXJG?
z-C<sbI1RaKX!t9?`dws%Jm$d`Wd6=}4sy5=Y$O1bgcI_B=Qsr$gKx<NNo->O07TQm
zAQ^Xz-s#P8cQ{<o(BWaim<XSOc9n%hCmFU9f~61_4`a6|-5iX#ExIX;#pL{{qn>!j
zwnE|I*$8}tf}eMD{nqSSCUstaiB8k>O?<Sn3>~MzQ5=8rneD&1t5A(ljtwUFDZ5W>
zf~2!8lVX@#bAxnKFoypCMc65FEPl(J?Ee63qhYbOQO$7DN9?2-;NRs(ASZ-DCILK-
z9N4Bp{m#s;XUcTVak&<;Oo5kogYumtlPFMhgE3SS@KOqjfa^&JaPk6Vl-DC^{fcyA
zR&YtTl=O~P>61rL$5;?W{y0skEkC5G0o(wQg8u*kML(u6){%tNI(9Sx+<nsR#uFGy
zcsWSUm@(%39F(mjWPfChJ-JKHRGDN**$<nk88dJ0Z`}?}uvZd;9*}b-Vg74<Qz~s>
zaDq1et0fLSjnFXrX90D{!AZQ`I5=A?P&PE${3Q4W;W*m(OeFmhn#H&v-KnE#;DET_
z?3!>BXeSo;OfB-AasohjOod}h4e`Q}tPVEHW1R08_)5u|+j0s1%L>||&WPUN{giHv
z_q~V8pL<=wP8lg}pn_PBh1V_r0F+r6&68gnNX81*VhG7S{!)@g3vYCmvyHo9C@u%e
z-py2mb489UQ+5M#6rt@lYujVxCdLu%a$r#lfW5h0Y<Vf~h1Ude<wjaT$SVTuPp!VI
zyyEMKBb-@r7`aA+(1oD$`y^-sju&Ly3tV!PyY96C2pS2pQywpsz>9!Xw;Ts0Zj8uw
zCYbGVRQDE1WY#PGf%e-U-66hF1-ZygEp5&+m=?kLAufCb_cR|ENw6(w){jA!npfuc
zDPqy3liXWj%HBt!HM~c2=E*83M0ah4`~}YOMjagSlV&NpL&4hL?2o0;cyq<pik6+b
zfGxkmy`t0F_T9h%<b^&QgDDv(^tTK#mI%l+xrne~A7!<Ih5=yM!9G#3P&UHM$ySCa
zFGQr<JpK9+alDr|?3gqd!4`-Qvh*5_J*~MdL;g?>!po`-1YNT!Nu>ydgMVO+i%Tvy
zaL3BO^aF4jlt*E5tfLkSWmH;gI1K?x-7+!A1gjRc#Nb#WV}zatd!tc8+bSESL=E-@
zAk*V-@&$JtE6KI8q<t>N=Oq@=wor;zFyX3JlEHwiUrzTPEE8Ew(c0*7L9jM8&Nj*>
zC<VAg$4}*|W<q|0vUHLb>=Z`U=E;s1Cf(8I0m)JAXgnopv>PFYoz5WI$e{>e_Y~7O
zVD^OzrE||IR9I~fkd6USwWD%#TYn`zk)H~Q2*<*nL!2xZMHx25f-We{@ZY*FR0M%r
z2^n@%%Up0U5x$c`ifEj8!k;ER0KJU|DtG_@SSCI@9H`$e+zu0`p;`~SZ<WrGgXLA4
zhZD(N>Nwym!jWg{HtEJux0PJL^Vp&zjmMM}LP+TeH?mFVl_O#&B{j_erxg*Gmm6IZ
z1TJw2AceOC;apI}*9!oJQLGE{<PH>1VQRaXu|~^WT~pRd&`23eXelsfc_|6Xjn5@0
zILaoXLm>f1UR}w;YmJi$7ec5s5gW!W_C?0<21>0j3>UhE^(Oq`W~{~7m6yg>I%WZq
z6)S4KaGWYHp2>LqnYJG!x8sD?oyR8#BRC33<^$m#k%Mpo9$|8!eROTO2Ixs^cN<>7
zq}_~7E3;vh73`QK2kM&V;_1^c=e(h%mfhD)AhH$4<!7*@KWTZpxJY7P7qGfONN<JP
zuiD6(h~;m#!B@`P^UAdJWt3T<g!uH!d!9)tD8(#vu6|2w6py1MVXE*`297Ke{#~a8
z0JWo2Gp(R=j~GV9K;SY-R>CGT04bwu0QVHhpmAk0s4>AQ8A31mRlJX3z~MsYhKqzb
zBXD4?q+@=nXkcaXpptvL3DHgRwTF!c`Z0#!1q6^X-zi%*E~A=ufO3V0iy$pyT%6gM
z(QI7<Q#mAt;YApGjq-z#coz{>F|GhBtvb2}4|{+s9$4Yrr!-4@T>k1agP75c8`tYJ
z(MS4$`Yi6Xtu||hT~r3R@<}PKr*pYN7$Tjpw;~7BUB%@=G_p)c7zmHcd#z<FX??jN
zbW#_CWjxIcBxID>Jx$lLwRJOYpHD})-DxEI0)s$NwpR?IqYrLe<ZtDg#@g2^Cq!KA
z1eF!g)Yy;$_gk{Dj0Ut@2zVgd@QiC)ZbIB+>?txCB*%m+o-dM%dm2tuW&lnGP|^#C
zBkBk?0^ek@IKO~VETNJ|ev${3VNIq6GUaDA_6`MOeL!w-qnbzB*FU<ltBtV>oGQs@
zgLSZ%^<m-#A$8Al<fa1hQPH$WZUUR~v4M90pOO`zN@DYX6_gD2UEHV)kVD-^E~yIz
zfm+a1S7fyT*ET{ql4iuH<kcE@7f`!UbBV=}vACi_WE{BJIgXY11b~P9%UpfV1K|-B
zOF+fGs5vAaDUz7n(UNcVLd(udgHhC-5U?3l53i_uvMd%-zKqgE$qm0Mcp12h1xF1@
zzq!{((`pWB0gOLXY#*tAOH6QFQSni=%8s6{qE5ssohnI50pQ!pS;?dxC@ATGw(7RK
zPit<pW}+rXw73)DSJb_-I`&ahn`0=WCqA0_9cGMtDQR>gd%Rg_eWS1ow*_$VMSL1m
zF>(Sakw(wb6otu!_C8h{p-&i0Aui!$g~L787-4BCHXEl0i~JSag_4+V#oH1Y8k5!V
zusRphO2~p?mo`sqmKiBrs5UF3vrz8Ct(7~cj@G&gs<I|t+@$4Ta!4XJ2c9`oeo>%Z
z#Zt1qM?TTCpQ5y+bn>_OfVC{9*Fx!$Rk%Xav8uiQ0GpiqTHrjDe%K-zdAe~huzNrX
zYcpMo#>#3fG?xcV;_roZ6i~#$W{e@9Qxtb3g<o5$umT!Yqdf}aMV&=laf53r*>yGt
z5pb$ylB%iRz(Bg5lTC9@=^RN~oQ<RtHDr&BhJ$aasHtI*`O3eJfzQAO$+GE08^5yj
zJbX$D&RnzQqMDY7NNfesuhSSKxwp|+Qno0VK(P5$+Rb}oVcPIM>!HaJQ6X(CZFPmz
zl1d>ex|>vizp3D#s!6pfd0%bFDF%YwRV1XfmjlYK)IE$lkGS)4iZ!rP!?;@Z!pL<7
zsWj7Bq=2)3Kuhee*D6N$2A=AIdZP#~bBR}mo}be7YGxjCR$o_@l1gKMV~eG2prk`p
ztrh}7vUZQHJ@riwc_RE0hJ!_QK`(K_ihVrOOy5ryDp?e$csggU=o*_H18ha?uNe2s
zo&v#iP%mqDy6ezsgBuvPh3C_6XJTrFY-}G@&V*YDvOEKVk@Z_zKnd1`Zpda~ZvhPZ
zo>Z=#(mKg@U*&824Fh_6&k5|N0k<|zv2SZ8zDJA>6AIBBtg*8|T*_v=d-A1=+-~kv
z!M5NO9R}<MO)eMYgpuj7Mt!YTaj>7%ap5?IwDN#Kpwo-TkFuTGU72!InOw+ke3Z$x
zLnC&vqy#xT(Ud`Dfw7wbbswj2ZWPUNdAqKpAX|j?3Ih;dvR_G{TFPl0LBC|MJ%!^a
zFc7wrdA`)ysQ~4_*=eYmOk?*sxB8^0f}PI61x4mb)efM{sHNMG2?@on;54lXr-h@n
z)J~?1-))hOM9kww5rCY#l)(uuunOW@W5XMDVWjBN%JAp5!7g0T#;t)y^ifBr%JzPe
znEEMVb;}Kxq|@oN@I~*n?5Q==O2BQjt_**WQ=KGL;n9$iXGYDfX(d%vvc7j6fHZ#U
z>TgZb8yqJC3tNH-UXp4`$!%!K&8F90@0$MrWi2!hWrLhaS|`)Gq1I@yPX7Q#b+;SY
zBgq){JYv~b6iu)sT{=ypfQ*uq#BGHip}1u<XJ{N+0wfZb(+<c_sE=X5%4|;V>klY7
z2Z_-};8ebuaPm@$h{e02;Cw_};Y;M9_*gR{Aoop~#iN9Krl$bdg-@u~!Z>ypca5LX
z&6gk11h2KpDx$h)NaD!BKSd>7bao&(WiE_kl6}U`H(i{$GoGmppwa53_q-53iq<VS
z!C*lvOQ(kVAZ-cLz#ov%nM$-OiA@wu+qKOfbTxe(Z)tE~S1zZq;YU#)w;^QOV>FCq
zRB}M#W4IwxYPywsSX=5FEsmiBU2s4j3puIKHSKm4?~*y%Y3TD^a;{k=JIb-?IE&<9
z7rJi0r)+s3D-Mp2W1D{~&Cc9<I<ai@eHNUy27ovU%hN3xLuu75WG&+%PbFpDiv_@^
zIWw)rP^GuQPHO<j<qp|L)jUo+s#^yeCl~Idid}~HLArbJnd-UAJ2IqOws1wRqz<~K
zjzha7{S}2Xi-#*lL6Z6<aYM^*Dp_z4(p;Vs)swOpG!ul!Moq#Yv6mhZ42W&uDN7&G
zSmbD>k|z$z633Bp738d793bV4UjZdiWs=I%8MUsJtRP%l=%<;E90H-S9NA_%keMdM
zNF&@ca+QE_bs&9*30pH@@<duVL&)OZ=*eZc`9evMP8LjL^fixjjf#6&eBUZK#f`^5
z;S(M}Bf>3;$ehwUWGINUf-T?-+Qmd{=UoJ1HoS~>PmZO`;1ZNDb6}8Ic3Yq|VFIb|
z843wu^-aerc>OZpB{|-~fQxU?sR4>fMn+c#xt0e37TTS@*96zSj~66eZH9(1?cjri
z?aU|5(@0_Cl#Giv2fAd}us1~Pu*gmiH&EQR<lRPRXgh8P!p&G>{=#3BH0&<nI7-_a
z6rQ2Z5K4+RsER1a7d)wfvrm-h*dE)HZ=!jKTKufq5ioJQ=IP)+!9PUOS{-i4h^CI#
zAqL8fZ-NS4xF0G<$q^R-1r7UzEUJ1M_7lQrWq`fYob;Qo+@=(Uabbd>H@YHF0J?|W
zZZNV0m_#60VNGUV{{V!_VhFMFmDwiFy}lMi821Jd*)ZDJDm%Cwt}eOd20U~{QVGaI
zIj084;S(#p*Z?T^I2$a2`v|6(v<u$Ke_5_=i%{&_++3$!pd~1hp+&m|+q@gDO4|nJ
z$-u@Fenxz#rD*P_abO5(oqP@vMEeGK8?uva#|Ft<0d`TaQxh0-ZEro(EfAL28)G9M
z3P!NpSRx$@nhrkcv4BYj3pPG9H)-IG$*zgEI7JAYMhLLV=f-W2lFRY3wpd2%sP;D_
zIY+u5f)WTl*C~{QmM}epWMB7AYvpcjf9|Yfr)eGvSt&tj*h0=?EMSbPV{Bauf%4od
z3SDA0kQ`n<s=T*jh$9Jo7Dz9!Wo~QO&&RZAV6Ug2iQ9jbIjRA}^tc6<G>s0p7C#9K
zY8Y<GTs|(cYRSvTl19z7@a<@M+MItWP{Wow{p_(Owz4tqYhFG@teqCK>6<<&7<`3J
z`XJ)hWxk`K)6Vkv-(%fX$<xmS*nY}LHK_O4N=Ly~befQm;mmRQHc3rAht`br-7!=8
z*ynu^Gw7P6O$Cp2ui<(To$X+Er?^|OLrqhDW4F{M0{;L;9-fy_-?hLSc?s1N^^G=l
zF+U+|H$wA<*p#r-xz4*@GubaKjMj`B<zoT$8s;C6k~)@=?06^Yy#lLDilQx&K+}Fr
zl?8W8z%J%TWAL3x`xcYwl&q+8K)KJtS5&&(lZ3PAk7M@4=^B2hc{Gh#qxf!YgTWbF
zlzoPzx-9g$Jy_kk;{H*MV}Zd6r%Z04Pj=5r^Zx+TkgVf#oy>1<)FRqK?)G(bhB(8v
z@`Ux;PZmUKggO!K{ncw);gOWInP|zR8YQ{7DO&p+<a{8+fw(Qn@QQ0l0p3S+jx<s;
z*h~e_a19D)7qD5^L(><BZebw(5kH)jn31e|d|4|)DcC#B`3eVHcZFg3sySNV_%=G-
ziU@`q*sO=Mqh{f7e#&UrKnf^`ZNprrWPkt&<pwfLb48BQES%<x-?HyfrKZNkH+8}V
z6BzMff9!^m<nk@@iGJ+b#R)g+0nM^8>=JqpiMNOyxB4j?$Qe-6HQt+cxP8>$#0KTN
zf~q*>*p)`nb8vz-C$cWA-aag=$+*Ev%EsuIXc!?T&~0OD_Ds3*kQ4VqV+2It(PE`*
zntrHI{w@=@Uc_Mrn8}m5q>F-wkl5JSJ9!v4@|fee-r%g21m+l=Y~lMA&WvYiy_8b4
zTpL+1Io~O}G9}tT$l-7T*dV5|VmZ&%E1Vo}a6ZXsq)8f5dq}Yae5SGAvf^=m7NAI5
zG-Mnu0NVV8%oxqTboP?mG@=D)L1Mc7(}RZZb1(Ex0wOsrJ}k4L?1lCqo(ckSl2wd=
zZMbp*Z`F_8G)ZM3F0i_i2{N4cNo~t{@S50&b~#q`abC*^9t&(jQZM7|p^1-cd?{La
z!BJ;cK8G7#_9;Pc1SW%iKe}5E{nC^aG+P9H(@R}`>wqVVSu2?KkJ5g~4#wQx$LyL~
z(nzrdAtv7;cc^iEtQ{Qo5#XjZ&KLxRCgwZ2X&t#ta3_lufkL(5Te@&Dk!uiqs13(&
z-78!P$RMm5B{7?l(kz(!xAioX<~Ux;Q5kb?7O`G|+F2n3^pd2KneDdH96kz1Q=V=2
z39Wpw*aA^9OhVT*@Ig-!$ivP4slur6;0W%y#s`~=w5%I`$cv8s-R`6kgZkPC_`y-g
zcAGZDF5C#p#;YZ?PT}RJ{@}R6;lXRXSwoB3{{RWyyZu%Jh}Vk~cG)t(WE8LCo2EMC
zCIg7(lifAkTe{|F8@8n_aIqr(2+Gtc(U2Qrn=3)!uD(tPDj834gvdz|zA!RZF^z4m
z5cA0>Jck7(6x+ySn{Slq9Qhbcq9EAVsbXW!1)udo$r-)dfR&GXIl5$-&g#Q#+xyvM
zB~v3A2E?bfra(OXLW*fx@JpBvgxfN&L`@d9Zd0y4RAJb-$HIGE;RcGuj?MY~mkb+!
zb-<1W3VTlh%mfb!3!$K!gty^52#*A}>bukMK~rUHZV4$bjEkr3aKQ;Jga#3DwUXFk
z_+4Ob0?ZUQ=(yh4O?zYxxJkH?k!6g~@;oLx+LSo<Af(;oECx3CNF9{oT6pDl(`#~>
z3ee5Ro)VLOS_<nC$Vr>t-@3q~wlJOuE4|>|u3T=EasL1d8if-)8xRzpptgIV$OMCs
zknYF^_gjgr4kg=(2MNr1ZzAd~<+!&A+n9N})Elx=_7ZTLwS-{UrW<n7n{q60iZv4Z
z$LVrw-rzmMDZ9_gQt&{y&6X9ThSSQH%_7(+XV{!4Lf{=@e(N-5{>h9?JY(pX=qv~Y
zb?!dt+lV6RU4>I2a|k>Y8Eubni{Ep?YprY9YYhVeK*71}yVSM~(z`dXHu*^5kzsVm
z4HHIM=HG&q!x%qR15VR^$e<YDENq9d0Nw~bQhkw*h!P6#LH-k1DEi8xjyABhjknQL
zRcS7i;kI6p9*jSy_e0ic@x;<d7gTN*dFjaW+HDuoJBZ3Xly0@S0bA5<W9@5|6^Y8c
zV-~s<^0Bm3t!=w}m1aFCqxRUJC?*}JCdyVlypwcZD6?B4s1A8JL;hLr<yaTDvTKMr
zOYvifZLl`df!gIbQe51Rsw7IrpD7<JoIVhf`U;EoMA#VI3w){JV=gQZ&USL|vU6qH
zcq$JDNjtKfqLFJ)6I?j3PN?)_W^AiJIPfgh1dn{q_q!KVSR}oO<cVdFNhPE6*-s1r
zi@To)W;wBoH<ctcHvL667PO5?hPDQ@COkE#%7xXABEtbhBqX86Y{?>b_qq~5UBIwX
z5?#r{VK}m)O(1bZ4vpQEkidCy!hOeeBxd|@sSr4ih9G$15XeDE84Um>eD)Yj-3!GM
z?2WvoYsU?+KuJ}f)SDep^K_MAsx6w}1<H<D2LS{5k@BN;PH}{Ejl`Z&e3FEgFmja2
zNlbH!CgP54O)l_?g^{#&K^Ze-t&{4qH5N=QJSjJ|qq3|Mp2@D2#PYSXaYc*g7PZBc
zE}f&gu6(XN(*ub(C|G!^EuyPvJgXRMTo^2Ng`H%9oTnPoVAZV3D881d&IjCtk;A#l
zt2J&nvA|4yONLxf4I<3Bx49}gDp=eLDr%iWXs|a`(rOYDfKUqJXkS)4VIyZ2z10L&
z5<J|Z<8*}(X_gbz++hZ1&pA;%n`EfL8<w!>HaSVhWJ?@C$_66qafK(S;D|I7UtyA>
zl45(|MqjxO_vXOdple8yNt|#LO>=>{I8nXfgM|;O^P5;9(XAFNmfV|tQ_P@@l~n18
zz$Hw{1--`!1E9CQ{9q;$07JTQVPzDxZD=;iYoj2*Z=3$=NZiJp<f>QH%6K+I$zED=
z@=$UOqhC)nc(DklOA}jnI4oT@q~blFy6N>9EtlO!O|g|4X{%!{!4?Q<bqK}7Ncyal
z+Jv_@B}Ce(91YyE#{HSiBU1fFHe|U(bx?5Ag_nG$<Xn^el1DMz0P?7y#rYAcZDD`S
z(`Tq~X(X!pDJ}vcSl=UW!sV7%7FjgW8|vB(%aVVnM$Y#rc_<_~$WTj4W9H>rIU5nW
z4R)qa2ke~Mmr3;V;Z?FDzu_Ajc8>vPCS(~F+g-|i>;nq3*8tcln*G)TDOV=O<ftY}
zxZ8j(R0g*G(A3FdBZl0j(@{+KUDp{@O%rlquv8D!<6@+JSnQHIELhs=M^NJnIiPZ2
zPONS022wh?_OJ;msoNW|$W3cn+?!o8X_?82$tHR56{QPF194SGVAFBRLtNn8I><}<
zGHkw{SR!SK7w~|Vq>QuxfMmq`oZ?f1jE4$N673G8gCUYxUtxP)T0>6q%aeo+6p_L1
zBw;OPw7@pTZhQqN$SI~4TGqP6-5E|8K(Grc?LtStb@6mWdbEsfnsQK<Iknh%Bx~Vg
z0m%x=7-RIVZNkD+YEu`2_myaMr?xGlCdv!O$$f?7M4eBytUFJ}7CEmXQ)O>kJhf!*
zeTRU7mX^)AA*-hr2}Nv_=Y12wSjgHg;dGTcn*$Av%By?_aTiiHh>>&0%B*0;2B@i$
zR~LU}4*vi*DDTL*#=*E#N2VJml$1b|Y^`jj__9a6!#P&0(w^r7wAmjPj5dNoM>NXu
zW@aGwKR62J2Sy_T*C^AZ0C8Z5hfHe*Tl=EYk_=+gDJP~g8-^41QAeeca@_o_Lune(
z!g!|xvN1{{alXv#I!ML9Ay`uB(MOU2D$~&yTw}Ln))f>&)-jd<1t+bvS-4ISCG@Y^
zC0NTteOD5=yr~2r9um2L94$d1+~S@ZQ`;VRPk6=>NwDY@<b!1qxhh!*Y04g2nAyo$
zKd_G=t|0PBPztuYg)3YgfqSeDNeEq(p64fsi8)T+6kzUf!Zrso9ga?G4Zg}6twI(H
zH<eo^p*)9dOmV+-ITLa%WqeWH&Tv3asKyPMl>=z%ss`yEMtD{fI!tXhaNK@U+hAp5
z=c<_6HV_YWEiRcXuDs4C;b|L76Br0+7Ew(!ad1LvMnrUU5W)wvVG|>wiI&_IO;)DX
z1MVNXtCLWccWsCglU8e@>Z-CfU)&X4PO49`JCd0eomEgbN==HgqS51wT(;-s6##N5
z+}i4=W7-k4dRYf_r*ZjO2Gccz4FD#;V@JBk=>xD>Y1+|&!YUX6<RNM+p@<Q2ggrj2
zB$zdq`lg2EMxRE7n<9?(S<a!>411cx$12XEcL)h~Ft9yAB$G_$G>|-n=%u5L_Cct1
zA%Ztp-QE^vvr(<CmhX9MFMttsR9=|hA-~lG0XS%|T9ADaNj#9Y+sON>`8BB_ejadn
zB~PimM8^{BtZj8reC4b?^JLCRbR`=n^*|8d7rNc}R5g0NMADa+=e3YjbagW};2V7r
z@aZybE^|&1;@GK`b()P#m~-83`A|Vuw2Ssm)x>oBh6z+tR)KH|l${htx;<z|7SiCW
zYIRo4FaX~xEiF^rY#h1?OI`^*)a309k74LZ_XeIUy&9dv(HZQ#i=ZkE+5@?=^=cwr
z09^A$pvkX)gpXi69HiRou47&0Ed-JX8Ty=Xl6e}@W`w(gTb!Y#W8^qWIv&@?N4V$0
zW9;wJqV)E1a;2sHK$O5Ir-s7iOzo|0(w8(g=vk(@<tc|gLJkn~$m4t`wbvNJX^g(>
z7#n5skb*c<xuv+WVQ4qXbwF*48^AdzhRVxipv*2mr9~uifnmbbYYUo4`xHIM{Wl4b
z#&2?o5f?YY4Fxh0Jj@t*{nUc4P(M*ozB1Cev5zTuqc%VDl5=v1r>=FtCkQD31vDSB
zE+`hwB@J{J9-$Ui{{Z@iikd%Z7g$TU@JjDV$2lvHFNYkRva2T^jUJ`cvd?zKdlj9n
zte$5Q=aZEqVRf%$$!T55RL9~&64Djqa(e`hSGm^8GMS|1+=U*-vw)iUT-*hE)gf%O
zhM+@Z+$En^khHa}RRTx5l9ES|1%i~Y#k*w|Mzo2aQ7o^!u&0RJTIdMwU2=+R?Z8VZ
zMmh?%Hl`x%ggarEb++6qia^JaxGU-nHkzWq0dk=%@JnS9W@3VXO7C_)s@1w2Ww+kn
zm8NG%mw@IxwMcqeSlOAM`>qLRf_;^ZKSmQ!(wQCu@AO&v%^mVM?IeZi^K{tVcSwHa
z4L*p-hi|H`KP4`V@g{iwp`uhXEhfp@H~kcY)gAIzpz2hyGVONNmDQ<Z_ie|~dOkOs
zZkf%S$JUElU3!it4bN!$qT<$R>M<LEzk<BKR;Q7!$tK(`({(pd`$=A$WSPS#xSpj^
zSlHt)I00p~uB@k}aTmD?il<$gqCJ-&eN`<>Sv!xYdGf6K(6+*>I@mf=8h^5hok{Do
zf__z1Mwv|P++71TD<M9|eUhhM%~l_%)V8JHRDVxFwm^P+Ec9)Aqyyz^`hEx5q=g*a
zSxjis(u+m`Hd3Db(;{IF2+DX``);!H<t1lYg9l@+Yo`-_5j7CR&MkByBa5bttPV6N
zaPXTfyG8;+>wQxm_FE@};6q`lk<xLCt9p6t0<46`$hJ`+iwh}^nxe$Y9F>3*bPR7G
z<f0*%0hGzmjR!G<l;?N>MI6A46)S900TFs-$2=u;0?3vDWUXOw^0P)-E2O7kxwchx
zR2xqg9hQsG1-U`hz%r#Ml#I;tuEUih4&k4&b!<dl!3`T;958uOqUqQ}<HvG^kan^)
zp~bmPba~3b0@`;e0C2aITSGvyhEbdhpu(9J<He8Bb`#peyCWl%{eyOGm8`@C)=eZ?
zPb@=kwF>4ruHng$ESd)Z@J|TSG+S&?OmkWRBPkr_xbTJS4mNd34{_RucyoAD*o>&;
z&Il;jQqZtF&Q$Fp_Z*>^Lruw3i`wAeqhaC^=@}bqkgGKfHgoTZ{{Z}=#IiG!^js?3
za6-#WR}B<F^;E{v0!NfxC1`#)D5)cLNFv;%r_o;Had1<&Wa*-4<vV%hJ=4F0kD!_n
zYZLTPu$H)o-|mr=Op@DyHp=4HkCiMhX51Aibau_Iu<AgpC%-CAJLPl0KIW8`J?ybg
zS{mYSWTNDR)0f<(W2|sdXdH(YG@Yc`D5V5}>Hri{8`;VN_lIDS@_;16-9$jc{{Uo;
zf<{{ILdR1xf0&=DA(awJY)|f$ShO|G+h9sU-1fI*=QQ6U$v_s*DT0V30^pn|!&qJV
z^WjY^Ly5|S)7;z;g_-tCu#s_pl%hOd>!W7hvX!J;C>4qr8)5WIw0XKyx4BH+lu@KM
zMglElGp^B*$}HIb0Ob!m6B4ju;^z(#u+31&!&{Na2p2E{q>6omo;#*weU=}akhF)z
z_d~FkI_fu6hc}aS=ud>B#n4k+>v>)39!N;QNV;%lGJ`r38+(r{jky6kXkD9H*Gk9j
z5I#cFf<lbW;0PB^nWX1w1wmpR!AwcLl7qZtWj&;{*c(|kF>st);ZNCR(Ij#kSb$R;
zFLIj99#WD>S(Hss$Fvm$v5w#=-ErAO>m1*N@nj^E27D2?XZt8kKGy>i+&<{C4g917
z<Ls!WbITM)L0hR)i$^=Q_$a9Qin8I8z{jE7;s+K(zF4<$pOkLNxKU)yU4-1k=BeAN
zv^#d|1x3B3*A`PS#^x4n1fJ;95~OIUwbrx{A9Qq8rl4}i6^t;l*B1qKri|T_kW(cQ
zB^UH;pA1hodn|l}@jzVLvm@nYDD^!~o!;3!MuEXs8h=;M3EM0TBjh0BWZ7;h3manG
zr4W~kNeogCqLL1-(q&*3G?xDWxrc;9H7yEpdTO1nJ)A6+LcrT8bqy|xMiBU29sCuY
ztI@p|A3{fMUV!$tMvbnHM*J0DS5C%Y#(v03Ep$93_IdoYHH`PiAaDsEsMgc438^<V
zz5>^pb_od$AYZ~Z8Y+34V;oQTAq4qphFa*u(`$5YJ6s(LyWA(gRE5%eUdIBpHT^lK
z$lIDA*LiBs)%5i~<LSs7ZqCAPDGSIM)e*?UwAiSGu8iK-3D40bjl$QzmX+V>^E$xF
z=AV$ZhfVq%Dw=t)`l(`>xFO%N8f`AUjk^SLkFHQIeDJ!{(>;WDM~Y=*m9ERk<&F3b
z&yOl*G~1P*g02xDE^%la0<7SuV};u&{n9v4@ylV>AlVI2=HBI{NF{TIG7$1i$2@}V
zr7Dic=Dmi~%EG`qSx(mgMVx|(@fdA!f2wpw#{??HXyudGMQzJ3a6+y(>=AVi0xKJj
zlrVc-FU|Ntsx1j<j``0Cz=Cd_wY=P?1~;2u=$6W)nZqW)B^f#X$qOxF5{uy70MP3k
zl^c&ZP8+X+5<DL328j0_7Y(P8h0Yz4+zb#fi!}&X$7Q6Cs9ot0F=O;8*J(IN>>P3M
zlsyTx!PZJzK<<%}cD{a8ppM`o7Q|!P&;em7Nn^m;>wQxkd;?+SAs-wpDLIZomJmnP
zMsIQmu}ls-adhq1z0cJF(-H0)Z*YQ_oLLt9gJFaO?IGaVJOs-0P9$)!Ke~Kx&$*zc
z#__NVkGhezBwvE9=-_K%k%)^fIUz8C;HhC`MnCreJ@BG?IV^BLLZdFuoP7(k76moU
zBf<J5X?VTH6L*4pr7VO$3!5u}<#F)4Yb-4B^g~0YDR$v!Sp3?`7d4%Wf}7KDx!ZLc
zfW3|uHkkv+wYKKzMaK@Y><V+E2L(s5!yXaS7p6(M<B$mMS76{YjO8OkzNtVZ*+8NY
z+vuLh9FTbOxtne7UFo!of<nQ2BojOgv=A2=B7KX7)d^$3xFr1(3yA$eVK|SKqmV&N
zu(t-uNgRZL=G=rvLRfKi)^+ewixbU~WEG4!XEqCnZSioVfsdHkjk)lWNMwkgQMOoH
zA~zlg`AsLW1bq$@&m1O@E!i73n8RWRblt_L1g9HY39c65GGa*%FLA*E-%z5Mu;S&Z
zbM#Qll2JtDfhW684&m^Ul2RR?J=Bi_i>5L+k!FBL!gS7ApwC;tzm+r+#z<~1Rb+wf
zb@sWo_)|kGxHcg=Ioftx214P;wY+yg)<h$Du{KVMLCCvQRW3YWkCeekV<X(#f}GZd
zn-=}lw39~0e-WF$h=zVvTsA=0cy<ytS|Ej?*=vRVQi$XTm(n`k&>TFBsQoDzZ*r8f
z8UX_%2|%_7bu(J`HsH0##}-X+czC>L>)B0}M0=b$H~OW$hXG8`$71_W$W3%7Hn-UU
zxe$Ps$!uC|P1hXu0c)|4jtMLX$jW<83hvw`8i-vGI2cj6k8c@7i+3pqu);PgRu0jA
zMURw^1Oc?EoEJA`tncoPh|vfqxb6ESwlCRC=!LG=eUmmgasdgDw$RVy#lBJ#l;Uw@
zmgN&z!arovE&6+>k&mV>y7tAEOcXGaYc4h^#0%TXZqR@5vp`OS$;e1ct-@WrfD-=z
zWr8$}SuL^u04uo(Zfuxj#<*vd(YM`y9(YJ@1^)nKxv{!i1z4>B_pws7k0Qas!3yi%
z;|rNlD-Fep-HWsuBX}1rx<b%<*+&+n*8aBH5gkn|qWgvZLPvhhV6ryG+@=sdQLc&?
z<*xmdQb6v-1tF{z!#E3pAYiAuH#G2>d|u@`Vh?Q37VZLnu6}=XJ}-|cE<7LEGG;$O
zX4D~TITu;oTU22rH{9<5Q$Bi$a9l<EC$>F}yM}y~SVlLq%x$7M2{)Ef8W43lh;OnM
zU*%0u$I5fU9n|5OATEUj{fWt<7SA*N&aeoGpCRJ^096qT02lB$P5jNy*uk=TOGsBD
z!Z%}-l1go6-zYy{V{S?sO5lG@?eL`WCiYQeEWJ@4UT%B@$4?{pvqyw2JBzY=j4KLg
zNzK0HJaHjjMm9E+mlX5u`l5Xh8+9A4*nQOmuw#4WNgo#`!{tRhn@yNEJNzNGO)I_5
zxbb@+_t0!9^%2~Lo7pjrT^t*D<wzsj-EJY|J|lil*-X*dp+MILq9K`}4iV5Tk}?-N
zCjm9k+l1#-f!##;_i%+@Msi{nv>TIt%4mm-A%VH$E1xj}*RnkV+X<FX+%(+$plT;|
zt#tO1@|Dm6E`the0J-kIN|l(&Do3zK&+MR=chlhxgJi-|<M5ux1S129u;EJEv}GCv
zgf!ojk~kjtLl?W39C%1v=iqR#c1m6e!Ariv<k?3X4~wPr&F<o}0V`fjtQ3Mby8$*5
z*78M^&Z&$G3?&7!FUyYPt}J5)Ep-gltr!JB$(<?1!1A)#{JzO$xjzYwWzEh4kT=Ft
zgB&wtQU@Ue0Bw{rMhMAM5cL_1lbfSJusI=)_!lXxr4Bc6MY=G<e*P4ZGUDXnWMUX8
znhzETpG~`L6621^L)t#5J(z|{ecuW2QpPe{f2xyswn}TNTHH64ts#d>*0fon1uff>
zr;>Y%k}u?;pCdWF(zax9-0t{FK(-Vvm+5bW&s=wKSuuymz;beise2=B%f<XA)m7P~
z17%k<#lYPD<tva^_D<@NxY-dK{kJN*78g5pk<GP$?vm^+XpU)~<7NVu7~VzPjDi*%
zk)MS-#6Vbn$kCH2>Ngv;w?Z06IoBtJbt4;Vjual7jqV6pqerkxctb+zgFwzvQbzW$
zfCxjfo#o)a0VHFw+t4SXWq-6`OZgYHT#GBJXc`(U2kf0V0{|^GFG8lhnVD%{yMm>o
zqH~><bSYf-ZX&@b41oD7e#sh>VLDct#xOYKm2(vnHiK)b%39VmfJ(AvsRLV=0rgxN
z9NfAs6sV4-m;t~6QrE=N?X4D86}q!!1+ffyRiZ;7Je621pFn(2Ghq!N@>67MkF~h@
zN40|n)<aYq6JWYvn(UmI5QH%2C*cuK?d3EBVr+iOC$d)?+QB^5v?A=gfW^0QvWi;R
zgZ8z+1y(;XBX)v7QZkjmSlq5?V3pfto=Db<7HSLz!zpFe0A|?6e4xcOvC5J<P~%{(
z;E^Qk9$93S`@59KGC<wVX}^VYPfHsudlI^)HW7uCMr_SZ>bcgj2_lW$yCqyp121$t
zVrhMitQ8bRa?mtvdx)?$M757-@Q$XAFfD|WnD&;7T^IB!*;^=ct}aufq$FI7BI)B{
zcqLc@#xsBr;;3t76twPc8Z4O|JH@b7*)h4o_Dy@3&}<M%8)b26V=i!`61<x<6hwf^
z`wWFFbhiC1z7nz2NF#fLMbj!Kb+S>>(MbHeA4My4*8c!DO38<TPYH26U0J~kq-ZV{
z2&kyyVIJG5!)!1S9YGMqPTPxtWLpGH77YjGMYY8y*CcVVl1P|I8+!|<8i8wF4YAza
zD2$c3ppuzKDFnjmGZ_JQra(rFOX`a*GK9eyTw*>JHIMaz?^GuGCxV<J{>vK22?BE*
z9C7zd^wJU|IVdppSX06t5>!Um!T{=xfw%;fQK;)R65KS{cu3^^3(<G^h?+<xMLk??
zZVJprEo9HQzEzbq9L~(oANfOO<c_MH@?UMw(F6HfnV;Uu;EHN?+}M%L&{dkuFtmmi
z<FG~7v0R%UPeNlCk=FB-G?jGp&9EZ>09Bf**C(CZVg%p9>RL+Lvw2)YO55};mQ{Mm
zaoZKi`XQQYYK|@kl8&U)A%ucO&&slatZB1AA4RyJ?UmHJRqW}UNmg{!F)&y#VGz>L
zE>v^ZM!;-xwWJDcow2o|)&X&IV{O8vsMUx#8BsF6S+QaQo5@2^MyaShjUW|B`ijbz
z*`dT9>gF0oOzX*&VGSe^k85~BF8d2J^!ik?+0!_mg>6eg99#g8+R(dmS`Ell=uu%{
z2*}KAZQMersnlSBq?Ze-9Y<e#iDXwNz)I!xYOc*qZEP*LX;jryO+CbS%BG=pWmChX
zBsS|$rZOl%-a$RkrW-{=G)l^Yd0az&6`q}>vXI<?b#wXZb~4u&LQPgAB(z~ZCrnAL
z0&0#M3rB^Kt!!=F_x`1SsZ|DUCxEfK#cYy?h5`Xzk0r$9uh^y4D_uO^n?Ma|?4mA?
zD2v=|0J%=4rw(y0wfvwuf*OfoF~AQNx*M$w+V*04%cxvrbQIYq2tJghl4+XxZb?1S
zt?60cR_SC8c5lMd=(<0k0Syhe!hCqz+a)P-REvEonh4`*a34hmy<1HTC9NQRJE`3h
zn!*7pgITAL+>>$PQf>MKQZZWO&YD+P5D#^lt8=42b*I*y96*c(m#cR76~`yC=wxzS
zT;V;EZg969kep)bXic6i-5|*xkI+->b93K?>-tqmbWQPP;@uM07qr`z?79SYr(u7D
zB!Zb_>Cc53o%gd_$|do%w}jTh&~9yHgOIemk+~5awxl7s+K>_jmP*V;GYP-`6QGQu
zpn=l%x-9AS8$Ge4ZZYkLvZ|r`MXrTo9QR#YOQcoEZ?edW9S)$n?r+&FvcfB~Q?jx+
z2pp*mn%f1V{{TRr)4i>QRb8ja2_w2l=8U>yacHNRo85HAw2R-BG|h8el)^4@RhIe#
z9LJC>xVLv?(O_3TOj)>C)H1*m**Hwrw1p53aa>~0D6k|W$a%taagvlW+$3v@d!iCk
zObv<UMEC%8)UnFqJFa;)N&v<{Ilp2iur|w{_KpZlcH&fSY3_^Ay^l3Pfe$TfpTSLh
zA;*-hr(n+~vPUu0Y-?QS19aCAMeoXy>>wKpA*5^WmA1m7y_2w6sa=%>Mc1>gj1i5O
zxVc4tVE3S7&mm7w7UP$appaSD1u2|H+uqnn;F$KySR-p%J^ujRT4{QR<>VJ~$;VwI
z<qZzySVM9HiCo!WzKTXo`#ma$sp4cp<P;98)v^#oZ3D&1#>YD&778kj@{eg;Z^Xvk
z(RjKq#=TW3JEQ~XnNeRnthVc{(;GByzE9O#>F#^TX=zr3BNfmbnO~?!QuBVww9?A=
zTGv~@^w-T0vpH4O8g#U>mpVKIIpa>OD$HeOgCx<C=JKd&I(RlqAN(&(nr+N2Y$P9|
zrLLorN8f1+zYcX&naz_Oy_pE~NLt%me#<S@RIjJq=^U?CgG@UvvwcUQzG*#?mlB#Y
zY1?3)IM$Kn+HEy`T}xsPIV;e#Kf|f2p%P5|ocTxe?@3ifD`oU<ev5ym!KlF)XobK5
z;YTN!lhYO$Q|$9yN1>lVcefyCgf5;<G@>%Yk1N%yDC??5*T-Ods^)Zyq?6Pwu{l$I
zcB)LOz>~O{`dB2HptXu~MOMM>X&*(k(=-uJVDc=i<)NjHJGcXd<ar;ESpNWy&fIw0
z(>$i8mc8yj!*L0XrK@Q7L~gwbuBL_;5a8T-0Rbg;nDby;bqs%+n(iaZ!&3HRg)K|D
zjHgAVPb0m;%T)TBALT!?D^E1CzRRco0JxNvqCxmcKFsAdg&<|XDJnGiAidgfy&9F2
zLNUesD*bAjo><+m4iJasCf?Nn_^Eq5=0~-cxv@=b%|E5r`=sg}D!tR6%Esq?5@{Vf
ztq=^bxqA@uAt>FPt{i1dI-Xk`s~BXs!WijQG~@WJaQh~<K^v@aw0xA_jPd&|BDwl0
zgTq3tZCgP7K|?KeY|?pMDrtz~%STIf6o+yW8iMX@rVibdMY<rCm`Hd`6hXPLMq`xX
zZV+)yDoqs?BWDO1XCYq817CZNP&3gmjxM1nG+sFuOsO-HK=6u$ZUW(R>4OPN9F1YI
zNznIW<ggrN4J?*-iz1yoPxiLOMCR@{vQfPd?;IXftt}v2-9<fsvLADf0&oS$#_hOK
zjf0btqHAO##Mq_S<J{o{f=u$)0k<|xcG1XCInHVE^io9a)&!z}M(`YP2vRcOC(9c^
z_K*<Ik<E4rDvii|uRE=4E^9#w5c20;#>#dJi-IhO$^C^>lE5&IWkG9jKV@3!OIvf>
zgx}5<;^<guGS$^W-sb-5y1X&X+|UL5Cc3L|$Wc0AZV1O@0OLp<rNHxL#Jbnqj--kS
zO`hv3D72bMS#bNKWXcA}>x|t_ACch^Tc!xEV|~C?#jb0)Sx9Z5m$-76IkJm$fVJ+F
zIXa+nCT+{PPV~WdDkiw^8B#Tc@8-a*KytC>7{)gRBN)b7*-^<%;V0_CVQZRgxhX{S
z688<cHoAoENwz_5P1D&MznEDlQ5%Cp!g!CIg!e^j9k)@O+zW%@WX$`}_pr2FaGPt4
zrpRB#@SC{c60u11KWG^_3E)EFGi4K9a4q*p54!1+5=7F*!TL?mvjRp1)S=EKWk)le
zakO_?8_+C_es10qL}0f#@{9ExFl?fnlFlq{oP+FyKnt)@5yWqBP`7Y>iOM!2Yz5G4
zcm&2Cz&If|$}kHoqHD-)lZ$~CIVnq|ad6}(G`A`<x9*gXJ0&UTR}e_TiTigPa=J&B
zym$JfGO(Q6?3>XUC1)1<c}#KdbtImdXxLBPLTzO~XGA(VuJ?Q=8*zS828-V5+imiQ
zP}c*t`A|5E9>|9r6$^myiYCa3v%XT?k#G{0_aSk;lLC_%O~)8P&cI%6j3ax5JllOv
zER0<e$q*}8*rMr0+nWT^z(wv9@V4>XxBI7V$RoC5;^~BAD2Cy@rNQlMrQ|&WHKVo^
zfus6I?4I@l1+JupxBC>y*cw3Zr-}J37q==u%NCDhg{apw4$2uETaHx|Vl@^=4Mlw`
zgQA$@<sTnXS2dta&A@j+i3Pr?-q$xa!p+}iP+p5R^(02ZMt<QHL9c0sQYLAR{1%m;
zd@;D4%nAq6v#=o|P_sO8XQ9znP}B=Ss5IZRjg%UVGq#(xvNy|ey!FvJgqFF&-N8u?
zr(XlMwx&ybxjTw$Oq+|3Xw=m1ga-k_D^K(*7z>`j<(PK8RV;fY4S2VHQd3p6t_~&4
z`D&jAm~PgMqqGU7_c7NUt&}ZZfjMs37~(vTs;GK~uAV?)tlr-aT8bX6e2fj1tv*T3
z)i|mV%4o*d^z^099*85zRg!f4%|5{9eb=b}0I1T`w=~Ul`?UvEO-Uv8?rHCIt!OFV
zXP8S%t5K7-Lhzvz)jHx>^YmVd>PW`shq2@33sI$0NX$kWPbH}k{EQoaG+YBW093!3
ztcKT(&I6k*lv*r&b_pcWqiabQ1vep9%z@PejoBvVfAs|T>H!|dHQz$6s`TGTT(OQG
zEUBurxFnY0o{{I;Y_}vbv`)#d{NK8sIh%l0JE&)j-U_e(0E;Q1+LR>vjg8@IOnBrk
zy+)k<k{5zJs(7_0v}~G{-&U17H7XZl*7V)s;?_foDzc)(aJ{add$*Cw36E=r=1A9%
zgLICS!{jXDKgffCxV6GZMs0f_#buAW>UgSH@&IxUEIilP^3n~wCXi193P#8eBn833
z)=RO}ksDj?9h8BfeN(PD32kihjfYG?EsOoqY(5joZ!TrLr(w+nt{?K0C?43zN-S`t
zA>aHcoZORZeBEmpYng&UK}rdAuXJ08vG-j-=QD7*u}vEzJs}+%fZ;Wv%y;uOScuD`
zyKN&#<*G8)hk!=g`3lJ6Y-Cd%q!D!+9nFaa7U;lb_O#!+7h%5w$r)^6RP#RPcn-&O
z;@#P>vG9gyBZ5<doH4;uqoEQxnXo_nC}fO-kfjn4$+$}Aw70{SVN7IBdw-hWP^J>@
z8(hFg!h|@B+QcNgd;o<Rra8=O&$i%pO_CR|T!KPTAqSh;In$dEK)1@u!EA(I$+D4+
zd#`4aJg#i4Bit;EhG<$pN8A)f<v?y|2F0XVF~EgrCa04D>?gQzvPo$oIk9ie(4hRE
zWmt2Y!AM<kasft7Ojz58HO=_t2<EouHoC(nWNy#GLVJOP;=`QZ=u$Wkh*b>T+RL|C
z@{qML&2Zq~;Tr=a+-?XqK0#BmvZ;c_``h8!LGN(ne#z{8{2@TUu(4B5CMAHd`C<P6
zgy9V|xn%bEb8>?_Tyt=e!q){F6a5m&2o5c4fjz94V|BBXfD8QjPY!UkoqvRO8v7fv
z?L$u)2Lkp*`ndNp=iv=2&wl8{Nde0n#m%qfB{A8YwD-RXNhCiu_)7t7g#Q47pJy&Y
zPgfZMz<gajjD_S`pdYFo(X=|k?LI+I$j0E|{{VL>(>a=^OxjcYudyAJ6GZmp<xLCz
zZEx8}Qu1AU<sF2818juhZa;LQ=eSbF*1Y6cj_We98p$M#-H#zo%IN_9APyfPG0-37
zaCgFu@wf{(DKfD`rj@cj?7L5pogGa>Kc9H;LVz%|;V3Td5NNUvZCq|?6Tm*LPiv`U
zv!k4}kL5VJ02|<y#h~8f324kc<bqmDT$))KX~l{ehi`LWq!JtQv4*<f`ARdAl-Qe&
z>yMC>qGJfp%44nu2~u&}DW}09V_3_Pi=-|j+p>NR69~R6ieMcTfjBAu005|g+Hsqy
z1dP5~TmJwEiqXy)$WgvAYqymy9BkJMu5(;0OA%H~5c$p$5-f;&Th9o0w$3Az=oU8Q
zfAX9hEPIsPgKyn)a7D%bh|nx^e^wIM5p>qLWL$yrxL)3V=rFB~ckGilvT+CI_U^cw
z8w0`?5un=#DO-?`+qf&X?Kd1PVQP+%q;ZuQW^fd(ak%(S1*BvkW(y=&wp3;pTH~K6
zw+54NkhHCA6b92P4VvOUsEDg3W*uYjl(cv9m|ELl+vtm@*r5WXKlKX)*OnIzsvW;&
z!s8hzB#byWIZ0#kmvO#uyVOKu?MJc-d=GonTYX1wci9Tr0e0t`lBR6p%CYgJw%O%N
zBJ@5+3wuHqphm%W5a%f*k<R4X;XvlK&dyI@7ep|%+a~4&_++Sgu(MRHq!Bj*aYx4q
zwcJBTg(IT?dq>@LQb?ZJO8QA9Khocn=;$MlAY7wlk*y>W6l|5QKGSuyZHWv4t|r+;
z`i*09a-wsdLEB&gV<QFExhQRzAWG>idx7!YBZG@=fD*BxtxbK2=j@GFMq4AZK>a(4
z;6Iq*akG0U++6d@QHecKz#np>l2O3PJ<@E(GE<{~yPvww%z@tbUgZxZOV}(pR#HL(
za1f@2?{RS$K2~Vf4+O7yyNR-}fD>;YDbP?fSe%jjDO}Lgv@8zA2WYU#P{`ANDn_2%
z1>2i`ZnX?`I~?b6V5X75t+3@au5rM^;?NJ0un0>>CnTo&CFdg_DA?fu2RSlgf0b%6
z2#Kt~0_qpC_qQryN&2a2+R*HbpxLUx+f3(X#^{LXh&Olak7;8?iONZ2U>IET%Uu*v
z1CgwZTZA1%hlY&yM9Sv9#W032ZZ=hmZERN>1Pzq?jlfKMWO=hx@=1K04-2DzjuX%b
zBcV4AdAUTkCbxw1C7YEIlIN9-69{W_Wh;mS0SMWHQkkv^I12`jmG&gvLMj+A4tywT
z9_L}W2ni|#WPy|1p=P4gI5^y=gK_j!uvR_Ju;E!lE!&*@EqXF0knI<`3QCc4w<*;R
zF1T~BtEP}#wlGi1o0AzUCz7~^@<N1G2ONI)Lz-!2!QmYR0AoGE<tH(?kV!m`$7Imw
zUiT#&DT(d&O>H<1__`>-H=0AWjUXvmOD(f|t9n>iFxG`@MW?atyMQY<7^^kejH#uV
z0z*mpQPJtLNc+8~>Q|#TM~%bugs#$|j9%9(o?b*y$}O1B$OcDX6ef~FZq|~v6H&%5
zfRZ|BEqf2DMdd_)jhOdS)QkaTBoy+0IU#AP;)FDjZ@Q+bo;DH%iB-jsPoZTVC~u(9
z5;7>muaZ=LzV7!?{$Z_k{4Sc&E7*VKS+{$v0;-+uGZ7naY+Xw=OXU_WvwQ^)sT^*;
z3HU)J>@Btx3thBd0duzQP(G{LEPl!nE#G^r-ps5y&-Pex+@U34Hz<feb92Iuq_>XA
zjKJh@V8JL+Rd<}+1tnj&S*SSSCQG>E!b&xkbk8!J17pguhAdgF&y)=Y)(|@_E|ep6
ztOCd^u5B!x!B9<3LCX*9wnCmF+}SbIaJ&&=WI$rs3x_O7_BQ_E_F9U%IG7GvKI*CP
zL%5JGwW9&X7}nvxRTR(Lz{)aa*_Z)TS4vrX6gevmHi?79{m1rFI<7dyfzQICHI6PJ
zo19bF$=#P+EaaJzqVctNZN-8fddmZqTk6SsHK+DS=Dqxrl(sbz$y)amkjm#f7f^@^
zaOD?G4Tu3UU}&ABhUAq5l_Piv^GfG8xE4Y`O_k2Yz*+Wa#fZwbN8FR}nEKfyKG1F0
zBB}I_?<&Tgh6w)vmgq6oKeDct8i`Klf&x48a=yTu0IWc09?(Bz(r{2HponRx<6s2k
z6xPPx0)#l-bDU3duxOp7p+DM1(14JXxz_NoNzTipyE~!o?<sx6tYCm!<#y(PcnEtt
z_DCA_j7(e#aC1~mW4W?+(y&Q4H^N(wx`yN~-=0<hI3wtm;~XeGM%$FhDjEg~4VeX!
z&@ODFe9dolUoA_x7s_Kq@{edKIT^HrB&z@%gau7i@Y|E{r4()?I#=VubDv92EC46v
zZpCvegcTDT*tC49TSo+TGe392ZFZ@(q((l$Qq56aR{gOtz#io-{R?(qKDv&TwqR<k
zt=G;&3Q8`Ytf{e;$2_Z8`c;gM?zuliANFhXjKk`yDxG0)3Nn*Ll3}`HP5h%O>7${3
z1&BszwUM|D&L4G?My5qgq(>Ew(T{~=6fJ9P1(Tmq5Er;AzOz(hO*Xa>az;wSWwUuG
zM^(oWKJ2XhcC|c*Y<IFs2Fp8xq;<hk=Y0;B*?RiN$?ae+`Y6R6RL=KZp&zEQC|C=d
za*YlS%RnDQYQO~+mromaN_RWuAc8i#+AI-{7xJTUYen3*6DLDiW?(5qn_F^F6;<#+
z2`(2|{X<_aagGv6J%Zf@vqM>^vJid2P}gfSyW1Vlg#{Ef70%r$AS<eUHl8+Rpp<E_
zCTCe4ZCmd0S`TGuL8dW)7dGd~S25E@IA~KgA;1WwMsyDZO=E1(6v3w0<xL!EWR@sf
zcMy#jg|U&BVMA9{94sSny06vsxS<3Gg_(V2U3|X4=Cc0)y3u>kveGSUs>G$j_gURa
z;iqWHR_vvfk&BG^K-JT|?-<9?cEwrF^i|TZuzRwLY;1omRy3Mpqyrd5f2N4qO|rTp
z8X+cBia3LJ2*4;w*x1d0vbL#dj9FF4(<Af3s$|FmcXq{=f2m&BATA+li&+$RakBG{
zzSZMsbZkEfGRZ{^1#H0UwT_yp!>}r;?lweA{707_>4q!)7YWk31{~xm=|$ye`ATB!
z5&At7rl@EQxg`q=dOZ{H`kACL<nfj2RE4aCpkZUWBSw-sW;nF*i-odnJdJ4V0upF3
zj)FwzZ_y7eL;RaAb=!~boeW{_yOPz7(AejYn^>Y-Et)TNJXG<4@R?ERv8g1O(P*&I
z>tc>TUTyNUu<JAph+MUK)Rj#RASGkpCz~#5`2PSS?4q9&dp5nNUd_sM9YaVSEY*R1
z!BSJnwb#m3;YZsu%FXp}RMWO2W|Dpa%jz9N>pcGe3BYzXLq2$fc_CI+O4qyEo*pDc
zd0Hi^uXD$-mMBKgGoNBH<vKRsHsvW6{ULPmQB;IYwi5-&xhd|j`9QjI&nfUoWaO<u
zY$c>$>X_*b?_}~oVujanvNQz9<fyg>DkD*DQ4XapA1F$SQU$jl?F^}l{-qNgVy1$%
zvST4tI)oQooT8~>+C|c<F>M@;E%KnME+Xv-V=Vw&rF4w9Yb_>aur{(=@>Gouz$wO2
z*&uf8cS@;@?Gh3#l*a~<!gy#+ej9YukgsKRRE}XJUg@w@yt>XMbzVwr5eGWteGrnd
zkvrtvFoT(|lHfS}qn#C*gb{3_LIZGu4`kGI;yXK%j`j8n451p?Huy;Bq~wyenTJh0
z?s2t%9ueAoLx2J1=m^{+KHz_4D<*7*Ye60?7dAwTM$HTrFn2BctIZ(My3TW&vCz@(
z7rDB7W2k}N$s7XX$&OO#lv+JTlBS$DXtIvK^3P`HZC-y#T~is%t|b>PqfsL*ysk<3
za&K&;UdyK%Cb)n>C~AnIko#H{H9bY8ypn$E+McSNgK=;xx5n_)cgQo0y`XuZF*f!9
zDzjHY%8(~>dE>foRdqEa5V?#Xxp|F#t2Ff{UF2sOU3sy_QR8B9qv#D2Q_-6fMcA#M
zs%asYX=3@9bp-I>PT~Im=_ust+RzC6)2;PhME?LADRm%xiF!VS)cT7{rv%-LFRK0^
z(9?tIhLhlBc)Ys%=QoyjyXxi5ucwe?i>hP%LjM4~fb+jd^eT_U=SeYSbno$dDdOu1
z>Y45iXg*h)eqx+D`-kkOi&kR?wc^Up@i;)dnIm&uS^2N$IaM-K)CU)_&i&ST+S9?i
zUew?9%7<RhRfmBHX(3;b-?H`9HL?3dgX0R@MXjh09;Cnpl7_v~5xvN!)iT1)x6r4b
zhmESCerbK4ucg((_JH}>^K!2#{{SH2chtsy>%=3ge<D|Y=$2|#Odi?ZKI@nN0IG}j
zH~A0f_j(rSq2qj!IQd!{W21<@zLmbq=BRaQ#=7F6_wSTzdV^BgVNmcs3J>v<U&V^^
zC)w>iQ6`XKb)6pz$oh(Cn>jGMA5~i>rByfkwGudeR3=8d^%C!@>BHg6A8a2g8%<R^
z<*_(gN-B8Xz~_)p)n^)754Qys1yqg3<6+@+{B$3ak)ZTi(}g2Nt`&7Xa3BX1OJ)wh
zRE(^YqwFWWlkJ5IE>xoS<v52MZQ&0u1S#A_xkJq0P-X+2px_iE;4XFVluWMoV(L4R
zROcHj2{b_3eU7;|Q?r6Lr!lwXNwXGElxVt=U{f$VlsIjPu;CpuP4SfkZ3V}0&C=Zr
zM#mHF09`yp^PAxEro3z$lxC(ee{$AgfrE9N2iZvISa`5eK6uBuM*7C^27al4$f~zC
z`$`@*z2@$^n7lp2@(;>$NDi<GlQj$xi`=QBXf75fDoT2H%6t!^BmF)>-D@!ciLdsD
zC}g5`>>H^if<`{UG)nm11FnUbV`*e)z`c_sh4!*3vyv_a)86c4T?WDj6ml^9BE5G+
z+iv~RIfS<eI;OmGR_r|nip|4o-Ef-d;FMfAT=-S(Xg$i8X=uUvq6#`%Yda1lF|fQF
zT%`|v{sQ9X7Y76NMGE#HY@$JNfRCpwHtbVqo(;E)qs%c#%e9~%s%r%T)DRD~*Fwro
z?s-K`OCz1_Cdwzo@O{GeKq|=FJHP_u4#<dRE;#{204Cd1g@Csl*((?|js#c$g{dK~
zz~v6&_MdBy?wh^NHzwr@Xed{>li@Yk$>BV;&N#|zn)}$aqKC7ia}R4LhP3B^n;b-v
zcuv|vWGfox*~&)xV0*{xR8J%yqG36|_E;;S)0hti$O+}OgI$F*q&nn+ppZ0-1o3A)
zmd3Qa+T!S#+~6`4F`EuJL`Lh28zRPqleZ%0Dclb!t>c~)gbRICnbjVI4rv5h$r{%e
zU843)aZZj<-_mk{q%v0B-r!VH#sS6br;>R$+_wJ!L^RXyaQ2Xz$v(%mp2U{&a+lm=
z7V?|5!z3hYW#ZiqV@Wwuh8tTpQ8C8$xKfw=AkfOrdq5m0T)~{Dx#Z)u)JEj;m<(yS
z`Yz{`uRcOS$HHMoxt!P`rfY#N+KO=`<qst8j^GeSg0f=EplkUVL_}`P6Z9%GQ5(No
z06tQ&?Q^}N!95(w>?%8LvE^}P#euqHf2B#c9Hbrp07D(^=e`q!n?-`>MC;resNT}o
zT;9pht=bjSv>$V9qNtUQ05qn(qWq}d%Zq}lh>37-W0b5U8;jv4!Z4M&Hbf|%H{RQn
zp`e8WaNbnWfI#OeQb$B)y^%`6V|7_PLBy7;sabX#WTBfJHX--D`>hv2$dg4(amdFD
zg<(p~&9MqWO&gzJ>>{J3YgvbTkeq>v2o2P%EyzD)vD3Z3?Y+asQDu(<i-5VVwn|=Y
z7x>`Bh4t{A(bPN<;HxOL-C7$7BZ_h1!zd8&azGzM>)2lRO7b&58ZV;By+cJW{{WTg
z?up&p!(}1VbmxoHRXv~fyj@efYk|8$7HA@o*BC#tDp7r*AB!c?p@&d=O^FU42%%IZ
zXaSc$2J0v2O2c^NASbqJmN*-XcL|z{>5-R@DEc&27Lk^7Ncx3QRZ1Q=Gb4+q!K~CV
zyJd(xCrhkSJO;Wm8TwfT7wB4Rv<3Mqk91`Gq<)?@-MgBuXtf<R$854}`Q$5BLr*(5
z)6_#C{+B07la`EE`gFIj404KHK2ev_vF-V7*4|23*xSuS;qt_>vW>#g${O$Kdu*A|
zoSO7`-}-es-)~Mx9sdAfE1jikQ4(qDOWHd)U3xL0rI21&SbkcdmrZP5>S;+I(&Kfs
zfaH16HL(&ZsapR4mK!FCWBoy|VemrR%o(`;Zip8D08<cEG#Xrhep%&@Jck9GsCBbB
z4MTzCl{;n!`Lp3!oiVZh04N~%LrbQ#l6^7_lJi5ZOQI7y+U_nC(bNJtvyhX}NXFfg
zJ+}LxC7P-if9*^@MT%uo56IDW>D&pk%I3}saxAIguLOZCPmk-Bq^8p%tAVo8&AQ`+
zvW$I=9L<7>#jaAaRybcjLb|6;tEX|_6SnyS2w+IXf*et0m6JFE4XjXdkKzCn<>jrp
z!X54f;N3cn3oMC~ZhJu5NVkJ!BsH>wwZ*Ojvzz|_DUJ=WzZUF~tOfqp54cZ9G?-|X
zCoqy6({9`(rL)<4g&V!G`{C`&N*HZ92FK?LZ4`qnTF^gG$CQPjU;70FZkRIR;ox>D
z{<*)smQyQdIJA-ovf>&>2tNubTnv|Q1vK1R$*6e9lWDc=ka6WVer<bwQilP`R*K$+
zk$w^YO~EQg*!LMpZ1H4JtY8EV3VR9p32c0>x7h$Ajf;MMQ<)^uW+`3)@KP4oB*8uw
z2=`4R&$-`wSw>n(#|c~y)g`TNKr1vl(9#Gb@$!(8c}^D~-#-h89PmQJSj%LaBpjRl
zlgPS8hTg>CV-XMux@c(Zr`QebLSvdoD+Mw#%Y7F!p6W|qfpmqWU;h9LSQ-#>d*Cj<
zcwKKj(@4iCpfTs;ggn;gizztm%7$}~DX5&lrgPXy1eD53g46F7x$vZyoA&yrQ;7I;
zY^agPm6Ntuq;RvYrE41R2kM8Ck**hGvE*SsD5qe)=N9~g=;dLJX4czaAwe;KziWYM
z3DCLV5?V*mMN{r|?Vk$_k=~PBF2^+GaBQp`6%$3iK8i-oAiy{Jpvy#aWphSCnUx^6
z&gBoi#FK-5QeyuAq>q%16pLsudJ+%QwEQMX8$tHE>K3%vScLqLK^!HbibG2~kh!eS
zJg2t<AGd_-5>}y;v70V1khMu~?2z+tm5zw)Mi*{%^TKuS<#oKE!Z&xqPmq+_{{TdS
z#{mNzLSu)@ko+VzHdr(<pxfm%f>fJt`d#%&?#;!~ur@H@<AkB^0|fobQ)^g@B-+E0
zoJNqosI{Ei{S+^;B#V!QA!xTLu0=9@Msa@SH~#><C%g+A8?FN4=-3F!Bb2wjkA=={
z_$iimb(;z#2IHKh809km0BqSVZ(vXyaU%TintLv@td`$I5;K>hiMYtJ=MZ@dyJTf0
zuHM}ELW8C+x3?Y=lXH8feHUa46{rF~g&T#eLV4tirkfFan<9-u1Lqc9aegwp2I(_?
z5ur!hl2bO1>Hf)W^JKe+!qq`Y`rYKSFLj4uWR0k~vjx6YTV{N|=bfX;D5xZ8wU6Jj
z^(%WkGR8MJj&h!4*gc}|`f!6~Twv`4xSr|msTQ+xPi3uo7h$ZH!+g&q{Zus-Z*a4H
ztw2jx9A@&!FW4sjYk0ZCP^81r&Mt8-E+M{3d{b>9vA1#Zg_@>6=XkK}mI|g43tCX*
zx<RJP7{roTxRdY^EDewKIafZlu}8Vi4e&dZ6uO`;yN$o?zER|AGy*{5X5e{BOF+T7
z@~ES(e1Ln4M}%xr++3BLF+8rhOBUa$LzkDk0DzP^;8<7$IR=8B_B4CQ`XpsTIQ@dH
zo7Ho&eu_w0ux@d($+I+zR!G-n*d7#&cH?dWu8v1Lj0Gr|wArfyzKbA7>1rNfV`iwC
zIRhmjl*nw+_gc}CVi0fSCvET8cS~T#+}XtoQ8llhvfPsjO$IgWYf`oC+zP05ORvq;
zu*oa<77HfK%Qwy~WYF!yI6<|pCdVWxP1%<pvc@O1_~XiCvh5z;RAymob7c$PcVwW_
zF*7E0@@`Z8&&eoZBX?t!DS2~j(_n=o4VqCM!*Wo@M>yP@q@BRKVvGROlgi6x99~Zf
zScq$G<Ms%5I>QOkG0w}*JSU@FgxJ5}E_7kPRN*690B;^r2i?{J=~^-nM{{rzJ(g|B
zL^K{<j~HC|#jhtG61gNAY^;^V*8o^~Kur;Gz`u28Qd_#feF9_@?~(V~eu+~<fK$?z
z`=9#+Tw9B_v=wC*oLoKU=mIvAO$|5OWRl8}xZg!%Xq@(4!AB(sXX#+Sm8TT!jhX$`
zeO!=6Zs#>}<nrR36^16tx_UP>-N=tktr-a&TNAHm3j`$fUZvX8v@VQK<W?lt7E1XV
zMVZQAXg_o#=8h~9nA)xP4Y^d}khWPzD<LO0D#n9Tg|^)AJ{D$gQQ%tOs2dc_H#Z6y
zFuD5~N{!?7*c!_-C@PJ4fux)Lf}o~}qz1h1aw+tY2HnIGr~VvYY;TZ?v#2GN#74&e
zg?6zp7kSzc)zU`Cor3=WMO`ag_xs)UPP|NMXx}W088u0&2^)^oGu<PO39{-Kh3o>d
z5H+KWt41+~kd3)^0^RLp$sr9quP)l$1a(82J*~CSGZ52^xf`&gE2eBL_q#t-D629!
z?e~2YGQjyBT_e858$$$bW&*;DY?2%zshH<v;Y`R_JOoS(0Oy3-4KgQ6Ssj`%5U-y3
zCdi7iELzO`s@JfO)NYNTT4SV`Io57hScdL)6ts|Iac&U~h&taLk!UKwTO;l*b#*~m
zEKKIgvVY;50hHFv@oTA>zea_+tk=ml`lip+6S1T;8!Bc<3A@R+gp-Fz-)n9WtLVhC
zYn2kowa#^}r;kxK%By7~hrEMiu56BW)(m+{l?`Q+t0b2Lx*l3XF}#oV_X=8AYyoxA
zUzc;hH?T_847Ne1>Co>MX!@(jbeN<78-B`;t5Izvf;fivd@EfaRC}AcP(qSzlyOu`
zQKH8iF4h9Gx{W)caTdbXRO(^z?P$8EmM>aD=>R$57^z*bC=|5OO(__#`BxN_?TlUA
zsT&hoFf5eci>qA@qJjgNW!svEB#!w>yBw`yNF<O_f)Jjil8JBJp<xWWY?xfzq08@t
zw>HAoY9uAM?38UPA;MBh)@mgrE+ltRUkU7L4bW(FNbUl5=7hp5E}OY)HxhQZUn`v}
zJ6Q_n+q!~UhOiQYX5t)XYKlshj!0CsHLmPXp0u(%Yc5LG2GTEOt!TqgvQ|6Ff(l9H
z{Z|O+sUV1MkcSjM*u4IM<C=Lmx+)r3q|42M=_@Iq2WV)rs;<}C&|1UxLCGODUk1}b
zmm87g4O^?h69{1oEc)uor&)p4Qq$=*6Z@reie0l>C#u%uk;SoYB=}NLQtB0MyYAMX
zD$7aH;*5e?3cmsvA^=zvX(3x>G<r-?Hu9UFl|4Lk(D2Zvncl7Kdm$%{pnIK<s#kO}
zE-5Qu7{~03n!YbchUD30W2>iy_S`vIEg`h^ExU*}T$0Hsx+z}FZ&lADn&*ZP2g1S2
zuGPa(TO3b0@K?F&dPOYJ`<M@vPfyZXd*<F)({;XGnVx;7>UxD+K=htIs@^IIr5Bp!
z>(L<T`U+@<*xD?HtfQulro?@db4bY;ai+xAWMx=WLmW&1G$N{-8(wyW5M$mf1&5V*
zyFhDVwoi3{M#Sqj<yK2Pbj&22s*3Gt?z<wnDDtCKnkwB&o}H%d$oW~FPpG#zvKzVH
z0<V^uw!Pls;1#Zy)9jAUdvc14dt$j)MJZ){bMEq5)7UFrJ4bAGE*CxSv`|n-8$b;T
zV+%mxJtfes-(b|x1^^l?5wXTCl^Ymv07b(Wl%o*1Sl9%i?PG511lrl+fu|zjWVMZS
z0$CfbPXHj@2mP1YmaP;FHgH)w{c57A<~S}%?xBj7t5K5j7j3@_L8fStK+xxavQ72|
z{)%c1CR&$=)DrKizow*um7EKOJkrGjY}*TXRW&t*?k#1?&Q+vk8|)^krH=N16jacO
zo(|O%Y`EO>ltfh`JTw5ha8A1;mMxbQbd3zTvqBG3bTKr5a)h5&b6K`KlCyf&r8r@8
zjjw*|vE@&rm*Z%YQmT!PCC&gW&Y{#)a5%NEX(PhJ^^Uu!x_7oW7PVxds-8)=PbqOH
zxl?&q>OW_p>pf0g6NGLyJ__^wVxoG<%ialAl(wkCv!v0PE=WPAKFpd%A8Uv5pV=sB
zCxx}tG-x4dKHJ*rx}QjOM8T~DsY*0aGKLy=%J9~-oA_RV(49K>y^oSU`M6fyE79!4
zlC%%1^a=_pYDmK)Xch@AA(Fnsbjo<?p=(1$z)zk`8x9vl=G{6{-GtdAL#IFzlH!&f
z&EO{PCQcEMZMCg`DD-Z{fW5%q3L4nn;b1O2D;PsUNm@BPC1FU<HjU<8&IZcHow3Bt
zuH{KnD_MXpeu!X0@=D229>tZ+d#o{K1A)!COHlU5l57%FRI$dxguvL+AH#_W8o&+Q
za*3Rcm<p<6JKjJ9CR-Jj0%)TaHcsBhHx^Z~Qp)_j*hL808*O}`(8-OEZgql|COx9z
zzp`~c((!SHWE~i0ED%}?Wox8x_PKYc8{A!WQw)#xT@GpA!6juR3MX|_kF;eqrO$W4
zOARc9Tr{T3x)XbFgV4yI@-BD>vS_7jZabVxhy6*wZ6t*DJj-Kzptfg7NsC%63JLzB
zuWS$Uikb)B_fY`$+*t`k(VY-(EE!B~NEW-2)Un3)RpyeV(p*36QArHheMu;I<Rq+`
zDB4S&(f3vG(ba7mUvIjGuScq=7j&coESri4Dr0BWD4Iwz0#uaM^zv9R{{VGYCr#~j
z%kn&_Y4oE`Zs(gM;x{t!l~LQunx1G~azd`9fxVoIiZ;f1unB0^y%WzPE$nJ+b6KR8
zr8O`yosbn(@snnt`UF$EA5kvn5CxGG4Q=juRc)yba2DkqOy^iS#@`E;YwYTeMdU8p
z+l-;>DvNPon@vzZOR$fJPmZf3fpsTLbXG$?Zsbv^C4@Dqz-TeFTsrHUr+R1f+#sSA
zCXC%@<_w#~!1z#4SvZ8ValeqYPo`lOEwT=6Di^xu$&zcKzE=A@=ToApsF1vu8|Q^h
zQKr_9Xas$iuMIw#fCmPYJw}xb)(vR2{3hk95x!lXH#U=0a^m2HlTI=IyOry@hKCba
zadNVnmW3nUb~pQ`jGNLG#ddl9RXf@a(`z7G`Gy=gmA`LH)Jp3g?51x+wrhzhT^R3R
zF1vB~*=4kjY?*PVwt2*p&41KW>EAayiu4&j4e8(db(t7`VFV$k{5P&(y*9H+FT>d8
zs=p66(GT)5KV~h{$kEAC!BX&Ya<1!oBd95fd+B4DpVbV3-`kWNT4a$r(?s?=!-bMO
zQ-|_HDaKtf)b$UzwaT@oGQWnCbqy^L1RE_41aU<WJ8o3xH55`2a$s<_Kt0VP>Zfa5
zdnu=TORy5Pz*!__-p6sFt!=DSf!6JWtrtk}*5$;7MC_A8m~J^zF}S(H1=Ue7+i+9C
zFQ`4G5l~}n2bIO-3?_!U*0Ee7b?~!8CP@?A91Yc#1jgVJs~E$;7P6iq=I}4$DsDeT
z6u!+I1Z};-bLF-bBsDTL0d!<CK2C0elUic5pFvJ}H%xt;({#H{uVoPqzrte>x<1RB
z8NLD`k(18~P{I~7VDZF9YpI(bl^_HJ#}YyfS*?w9QI%g)7-R0#Yk}-}P|F#2KiNuH
z?4&0}Y@314bqltRaIFO>C3M<*UKIE=SL9DcOo6X&w1gX>kQ>;5u4JTaM&U8++$;uG
zK|m0(*7*rRkUING2<W0C^)8j|ZNO>`&}dp&q-fzBDx5}2scf#!0-hNf;c{+#Aodjy
zmp!++vWkC2#AGJP6JPww15D=}94w4>=0<RCE~OO_IBn1Dp!5j&DO*hPNg$(0$dEbY
zSORQ@st+c`rwFzOMh(T(6Un&V+$>;BwZJ(P-Go}$PIki9lH2{1u5=qkg^Fgth$M&u
zjub8yHva&Gd21ZoG^h+Dte9wtuX6y~Wbs!Z;8{dkLHZ?YcN9`J1jkz-<eMplK#+iY
zpq$&^;We!V+}UQ6H3z;e*#SaCjc~h7lEE{YKrXvgo}VlgFW7B?`z5A<$gg;h`Gtv4
zxtnqVzp12zx7YysDoXNWlVg8myoOXQ9l<1oNql$6K|?gx{TB&cQqubt=epZ7k{uys
z{f=D5y~D~LXEd9$31gA$7X+tFTe4XplJ?r5kQmLjq8U{1b7DKDPf*fsTDHgKq7Pl5
z<$$Q9bS^d`#Vg$#oo0dxhDJEM0^u<xta*;aSw11gETi`{ghWK_xv@>?F(d$6Dcs;;
zMjmfu_}V0X&}@;S*R32wha%xN%?9LI6d5Z8uvAk!vzQ0U37c$z&a?c5&2xDzA8?R9
z&LE5@2gL4fi&hU}-~ntVIN!Qi06(OisCgogWse~v(N)m$?EI-3>{yJUTIpMf0Q#aB
zMS%+iSm*7xAF_q!!~krjac#a-Z)L^9fkhg|H10Mj<&NYiKq1D;Xx`!FV2mJ+e{?e=
zY?3>0z(+avZHPj-!LG0frcPZD$wt>?I3;B>qX3eW%6AZ0N1J6l$#5-y*;3ifO2;vT
z3*zZ_I1UmATHVvbn`;!d#u{WGe5l<iwng%#e$&E&K-*h#c%pKU*S&<?;HCoJ#B+rk
z`L)7l*9xf<vTPpftb14}T3ijnlsG#DXQ9@_$nTXa9_#XMm_W7<3Glczz?|EJA44Kz
zBf}02zEBkt?RHvE&?`sH8=LNLI6+RxP3%DUNT@PkLZP66xQip9oz9E`?l@J%MqEX$
zZs?k3v<ws`kl2`WBsS*h<c+qs_d~Iui`{ld1lzKe9YGBO!|Ij9WR4UKC(qeD8}>dD
zv|2Vu*Mt86g#Q3ZkG9e-p&3hN_I6T~c1Y-+(~)%CgYE$+e2oDk+~*s(0#>lC_CIV6
z7dLB{8ff3f(mW`*?6_Qav0C4wJZNN^bXO!dX}@IO%gr8Poy|X6smtB~HzcPu_#lMe
zB#@8Ci$c@tn#DVIws9jzWji{8R-0ARZyzmC5FPNE_<;uJ9uxex+0Q=?K8spSXH1sm
z&U{C}axO}mX&d}Ho8LLY%F9U`+j|Tk<ce6Gc0Is&OsYpbusE8h%_a7=%#oKvy^)vh
z3>@}ZrqswVUf_NTA}X4IF4@UG3Tl!>xUZu}PS`hEUGbkP-kO%0c46#)pDQCxs?{)$
zQG!rBqCeFsUhBFi#_uh-K_(-MW|n;x83xv!g#O4mx<;MsCPs%}`GyJ#pIg{NTU=g0
zq2XK7>#hJda|k@&AyE>Qloh=i?Z5Q3S?tLI8iP;Obh&oEp6tIYKk&9<wkeIwUv?X%
z{NC1(*ZrK*w3VtfWlW}JV11hK4f_$oWn~2=TrLJ3uI%RG#T_&d)jxZp4R@B|5lcu|
zY$OhEhba6{(Px=1&p553ucVdDiem6PIlQ4@o}+jZ(jTi2{4Z9i(y3|(z9I?kGJ-uj
z6CHS**L)FTs}&@PxuX*tW>(w+4}uhDb0j;1ng@F=tMrz}33N^$BPeIlu${IJ9uFz)
zgZ&w{$+d;daCQ3vhkVhvkt0if%Ii_kY2{&X-4XKKEY(d0qe%Y%;Z?F&hw{8+C3G^C
z1pw3f9Bh75+UK*s2rJGTcSmF8r8DymZXO;2%^{SFDC$^UXST=43D1$G)@iu;Rf2f!
zhlJqs%Ulo97XbW}SvJR!&z0L-n_MdR=a+S^rxQrtT9Lt)S&%^n*h(DX^-wmT9FdhL
zs={%>LYgYFCQ1p%3E{%yvVc3mPmggI05~O~(?o=h;1H18wa3*r?Pb?KZh*+^k=-Wy
z^ZO)q`-K~b;1tHPYus~W(tN0H;r8VrbB1oRK;=OVBzRn0)5uVXGwut7t-f89t|N0y
zn`<4Gy59wH4sRe3qHCH)1=FrT!NShMbBjp*KeB6F;m8DhuD)(=yK}H|Y_YmHIy1{i
zDGXbOwc!5%WQ5#{*)h#N6Cq@CnC6lR&&nQf?%)+Y$sQClIDzKLkts5|X$S=sMEKkQ
zJf=w4+%D?^S4R_CL1sRQ&P<ywX{o8?W%oKW@TYAZQ(NqGQjZ<gEOWXuXA-Pv>rMc7
zZz;PX$%tz&>Ox~aM+iyU$2#ES<XKy?t*&LBE-k^z2D9?-Y1-1m+Qk8)0qJ{9ieZWE
z7q!Ahxx!7LpNyhd2^l%?vvg7*zHpp4JSk*l@&;5OZ8^b0>~*2x_T`|d8s?tldA?L_
zaX+gm@oYZ{Sw%#RXeY4>%AS%Zvf<wElq_`Zk(X<Q{4O!i5%!lgErp<|boW~Av#f)X
zna#c0N7YRoWlVP51AtREQHD%R#}BST)G}=qkB!5Sqi`zdvX)WpH@||bt60d+*0>af
zRWLs1%Hl#&-pVp8F@J)XRyz122}AC3qc;7Lj~5G2EOD_Ix@q5Yw64vtcuAY`jRlG&
za31D@K9@_rH*t2Rhgf9tk-?<c+USbWA-%9c9#mvFVK&`?TpaH>SQNx0-xw>qTLC-u
zcu3|t*BMw13>dZ!5(iu5bNBZNrzYg(W@Lwrt`;DL+Xo<~jxv_{{{X@jLm^J)n-I7;
zy~TocuG@l;jB%B^1Bt+Ln&2##Zhg1CmjZ3&6bcwyY^L7Fl_Q;VoD~@z?wkT!#yq4x
z-cz%Ggwt#CkYllXrjeVBCHwp&v9;C(2zb9_mv_Q*xEV>cz7bnC&#IY7E$U3`li5ls
zT_DIUXz-s5LL<Is8D#9<!8%!;CS-VHM_|1e#YG+*ow6oVhMPAjwN4Q*f%=pG05S#|
zLr0$FEKFp^;9oqW*g7d69I{Geu_pYU%6KX2AKZ`oin<i-xWG>^*j>WNsL`yb8haXd
zIF~!gPZ5a500kK{z&m3EpD7x^8@bjc6+mpLt7MJ`Z#~ISLrU=L*q19=9>R9CXUdi~
zhPLe)MN--@Brp~o&%W;p%8s1ML2)2+Zzw6|4Rx<_rKhjh2Xo*k&9~6WQFRqN0LTD*
zA?qIuV{O2<WnWdQP3hUEX*>?<u+%;7+~P};D9Xpta3x?HteL;maJByGyViH#!kQxE
zZb!i7RUu1givZ<IwY=d~8H{;$J`)XGkM^|f3zIHPt<+27glgGkG?BBPaqt%kkkB^^
z9|2c4)OHvyPbb3TPbG*hIZN^9aSte2J!YvKV1nzrz*X$4mZn=Y3m)nzsahl=!s>V;
zEyHkAV8bXoo3mue7pS1<TN41kxyoZLv4)QUMGPc1{nATjX7@h}u;;LmJ6ha(f5}mq
z9PFV*-2KkK!ju!w0cK=}ml8R$hF6x3Y!sx8w>%)GCC>Ot<w4>RPb+WDhmweN_Zwpv
z?n<qVuXC&~_EvQ8S-$RkA=qk&kF;Q1p5;Vu`iQ!+*uc|qa)F!|64rp5u7x2oSm%`g
z08rxp0J3O+@=B4B04`8XhJ<9Bhzi1#Gz-}Y6EkoMC9c_!Hy;ZciC*ouaX?hnxy~RJ
zJmK<;o1VZZS*J+nZguV1B&cPfkdR$+ZdIKaxfsHV9X;fL1&5S-X<W#*w+6`_F_ACk
zDXE!x9?*Ot>UHQMY4qA0dszoP1DxXLl1hChlH2Zhxm?o2DZR1Ok^-vLbqc&NdQ9-E
zrG}<QT1S#Q{H=r<NO-Vqkt0Wmg5+g1JXj}f8ReByG0{@U)?uUt4Mb0E`C6*zqJ^f`
zx~2vf%5n~QT}n|)M5(f-8aZWl=L2MPT70M4#_b+e?F>-ZTm)3YCNps$0J-vJu7`{)
ztEAJ|)?LEqz0g{#BaM#QM;(zB`m`}LwXVO>X6vh^s*=EMZ^D|%IX;STNPKm>9cG=@
zQcG1)FaVnm0SiqTFTmv*_`^k)M$!_Mf;pgmqm(q6cOer|BNzzDDhT6rkI1*ei<U>x
zPBC4EQN58cTioQe6)$nv#*%yhthBu^)*+x?>r<ul#5TEQ&vfyOpJGZ&(SdC=?*Q#3
zNHpmKNi8>Co&JLaWAp_Cx_vZwEeWVzN0`4)ozBY*kr7bL&<4vdLK=Jy$ZJ!dr_;5U
z+7onZZ1dOC%E9_bNgG{%akA5E0-77#v{_~<Dj4}r&(ad9TN#o$fV6;zFfejADPoYE
zB3jtmE^<{+jexz|M$i-BYos0%<qX_h;y#Inv5|`aJ`<)XDWnd`u=y$pX_^7Cxld%z
zlO&OKD<dcLf>JpksMtL{G+^#_Ps%8k?X`dbJ+$w?1#zOC`28UHTH9I~V+5K&2G-b;
znH*9$-K{Ft4K<9*y~Pk9@Bm2DETWNL1Ws@2B%ca*hq=2!AbcWy9P#x^A_uY*GNQ0h
z$9s`;<f0;hvG5U&Vqsw;<r)py5wO8Z8*_Bw87P>d09>O$ut$Ob0W)dtje9S^!e2-M
zlql9$IBhmfJQ9qSEyXlbtwUHJ-77ny#W3Wh5Hu}7uxq6UvM4|bUqPU9g$BX1ZWBpA
zVvO|L!tY6!&6cBBBQA4mC+;9AUSeSEP<0hCjtD`cSotQmB@Zo70>KL{KykBjQ=p@o
zbGgH7Q2zixbD^)QbB%(CM?A*OX*X8z(8CzcN}qfXw!+s5YwTAx%9u2FJl<zmb7f-{
zH6<%<8r*q7*Xr@a4TxF2M_-ah7R9;8;Ria>7QLEXLsf<lLtFyRR_iX6#gUtzf~rJS
z)z7=h1H!t|v_`SuykF{v7W*<|DD>*;=Uv6X6=?@eHX*uJl6&20wDC_(5WrAsb<UFv
zX#<2BOQ52iwD42mtQb-@siO%S1hTl2pZ=aji;aS4r|c5nMTI20nhny-=970lS4&eJ
zGf3T#s5L&IYi`!M=fFX<jFF|PuZ9M47H?G7;w~*~?tCg5iFF-7kkaNb_wJ|Cx_$CY
z*Gsv_<xW$s!j<V0LoD?&ZeS}%rfPFgvhF-~D&Irt!?0O^4>nfPbj3NumL+me$j9_L
zgEI4VMP%;u;ugPkYo=DzwVT}QpOtY#($s8r?Tt&SQNc?Q5d}4xE$I!z>;g*aiA{`_
z9s*;5aJ!yRJDkUo^I(J2b(rC4XmAJWyQ379v?E_Z)efhN-0KoNtp2gD!wXATMg9;~
zGuG-3Er#K$7`l2=;UvMw>Qy$y12fiYGUDxND)&m!gKYQY`6%r^h8P$<pxIe4fB*nt
zGD!n$Wj!k*05zZ@8o~5Ue4q=a$1d}P9H=TbP6jZLGUYe{w&g)pSrh=>z+1USz!W_=
z#ocSFty@`&nTOm0&uhI*$boAfN$dj4nQJvU_er=g_DOB@8luxu)vBxJG1K2~ltz!D
zJ<bx(cR2D&FGHe=AU8BC^E6P!iv(+lyBkYS9XkL5)=+9%gix@J-(_E@>SVaGH(ge`
zo}!`K-*fdrw=RvOIn&EoEt*Je)vYBDv}5jtqowq+@~tDPV_E=Cp-5LUDQLTQLb{pz
ztQv5vMOzDiJR%!aNWtzQZf-t>YRWlj+{PCctZ!7*hKDrRE!MTEQieD%f_@j9>&%j>
zS2(bSs$$6I#gd}~twd&Xh#xCGEhCug*=_3R$Z;H?<kFuY_OSlTrKRYbv}d%}n54H0
zM@e2<&8;>nCUpGQ2VwgKEA+{!&79YM%UudZRXKm^H%DkvF|q?-NGh9BE{JeP$~UH?
zo}y8;hbdc3Zkg&j9Y}m&1#DR2F@;gnlum*n>T_jy=Z3XOq`D}Gq1?hRlv@i+azd?=
zR}*I8Lg^#`-N`l^vd!;-r?D%WQ5oO?^i<*Ra3=UsdhU(ZZhoa}3N(zE5qqd=YZ}(z
z-Bias&dI`T?j%{p*GpRs&`akM8~(~S&#+kx*9P~%QJFz_zH*!heME)%B%g)Ut_*P`
z8zLcruV^H5%8sd##@vt)lu`<n=sFphErt<)l!dJ>HvQIaIh`5Y%ar%l)=1l4!@}1<
z@3P`%FdHz7d?4j*jrS_KD`kvZB&S6sMDDj_w%F<^BFT>pHo7hnWU#%JV1_~ZxlR&F
z%(R;$CcvVZZ7#@#$pHrqbOu{*YN@N9X^CljhsD%%v|u}V$x%tNjaHGVcBMxYStE|h
zj=NE0&mpbF)Ki#aWsQj*6@K99324G@8?kPK7&rTo5IxbKqJjs8v?3zf?D<uQk_r_~
z+wMpn*PH+pGD0?z6b^r;aCi$e1)$j?2fr!@2C!nv56rpPx*{!vd(zN<v5{4V9D+dj
zMgDVe+8UW^dtYcs=SP2PXRr-7ak&Uuw)n~=(y%nB9z)%H{Swf?Y;=uwFcgoRwYgHt
z0~%dq4NRx{R+O|A0m5HZ);RKscjVa}oc8Yes*+yp0CV9BG%^!#^Y<!JZIy~HSjY?R
z+gP93UTN)NU}#w?7R$H*Nm>diofAdUG^=KJ=+VKZ8GtPoRxoLGQIFx3mHz<LlhWal
zxcw5huB#%q{WFOAFEch-0M0-$zs1y1Xxm1%N=-?*7P5ign`pC|F0(Rq?Q4a<F8=`8
z3olwve8S>S!kWvK`ZB*}ilMXLdydp2>TF2g{naaV%|}pmnNC{M-5m`ayEn~(epgO4
zHm*oKmq>iIOb6X3_gx)NcANaDA4DW}9m0@O`b^7$yfL{jN@^<3o~*do<o8e$8;Ki5
z(_187rHL0F3L+=NV_?@6?)bheVy&J}k>s}N5QsZ~)!v!6i=rJf2Ms89%-o+V(o~Vd
zDO(#L0jOupT5#(o&ppW=K2>!^L)vUI5HVr-v!8H3R4rR6s#|GeZTza)Ygz%^(hrm@
zm1W2M%%JJ^XtuVAXVV!Qx5fH=T|oZ;QZZ&UsF|rt8^C>tR*+ReJa-^nd0t)^$7vpy
zjg`wxs$^5h`<rDK9W$CPNkmHPA8Sp%ih2ja=YJQA^1R2Imq&jGRu3FRVW5-rPc#!$
z0@lR*j|+F9f1|aa$XI@>RYr6@gV`U&g5;l{$4LylcKx0xdSa>W+*ssoCW}!Bw!`}`
zTGURSBPKZ8_E^1VQ}kR!H00aBQkUd1)}m5AB!0?xw8`!ILRZjC(}?f%Pa53ug83=P
z3K7;cu}TE6KlW3H<g+)p8h$KSu)1v`s(S$$3c@avu7C9aei2#^Tj?$$?QQ;WwbcDp
zroJ#*<|*X-mV2ng5%J;enVJrbn+8k$)r-1V#~CdaMpyNH98D#zY5FYnZ{h`sV;WD;
zD1VXV<aUcJIHHE?8eK#O;Bu>r3k{r`S=JA!9_YwJ)7JiOKs%DXZyzpN{mxnAkNra!
zLU=vOvD5U%%NTKYD4BF~w#><0iy~xRHi{>o3M)93V^^hBMUxY(tLLePl<ky&epB*G
zu~L47kos-8RrA$`y94_vov1-Mvkm+u^rL^cv>@6IGz{9Q2?J>exMg$NFjQWf1Fd9D
zJDAjUKz4}cguk32odemPRj_Mh7zsr+&QeMrL&qf<>1T5sL2840<iE9PCZLJJ<)Y{b
zshbP^qyGSv7O1pcm0pY8=E<&W*?qT0$xzmk+i-=Fa_-0vWGr<?@wVk1Oz8nT$0#<=
zTI<@#i0i>NcptLH4fNVZLP;cSP00z7%q4Bx<s|Tzvi|_`m6;K~c%RFxkh%gn7DGt`
z14%cyLpt0v-7;ojw_}}Vk!33(i*4P?9+jfT<q}xmPcK=zGT87VYfjP!-48sDwVRYY
zfz3B*O^Q={I_RWsgqC+-ElV7s64>IB$&=Hyj`nbx&@GAxBb3&)rNsA0*D;39@`{C#
zzueRqZ$wOm#^Z!Wm_IKw-0}s&o*jUDlvDa|+ykxhg@G1KtcAn%s@kX1%T!2kB~;4N
z9&F+h8NYYxC*>L&RigeD#M6zXM<}Ot%a|^z<9yM$5bLAjt&j9fz;3q@UV-I=-tmis
z*Tp{4?@Wv<NG7Fr167S9VQ?+M7Fp<9G6cxia6&@z<C`rup-mpr-MBs0dZLxBmeJoO
z6(r35#zshRC(0;EPU3lLiL|vKS-JYAx(UF%k&*Hfb_+VJ#t3r=Au+OWp>%ml!((EN
zXf}eH@J*A5EjMYg_)xG5qN9>6yI$P+O3NytBdC-C?!VP^(z)W~TFG9>i#?7PP&Ag3
zE`VZ)+<%E;7ZYQ~RDiU&-L_mqE<2`=LN~G3_KSpvlVq>97dF=a0Lq)}yd|PH3-T_b
za~gOh5(8cEnD+LtK%pMz2Khcy!4}A|Nwfa|u$#2s!XnVN2g*V=<P@M0kmR5c+ZC+C
zY<a!ZFJUh5rIYTVj2FC(-(*mk9*Bt`<FX;8j*J6>p^^zVTzN_u@X@$fr+pmjvTJw=
zrMdbfjJPL@5s+?`1)+|{3W8RHatfYdU`t(eBgrR~NV07aI^&X+fuvlxG^9Db+L+eg
zAzcz^nXLrlpQ>GeTe4(ZnC=w**MK-m*kXvwb6{?g&Ig4nqO(a3x{NsZLhO4O_rBOR
z_)t0T;S}+9<RP5UZ_m{QMrdOQKd5q1aJ7yWy^q2c#CO5+rfYBpN6HdILC{vmH!UE9
zfP1o-9Vhh?JQVi4oF3l_OzMlWLNSg~wZw80S$hnwB!W^h(IgISxUx<&g%NjR3T@nf
zPbg5%R7?rI?wz~p6d;z2{{Up*>-~OKpvGjaJ+E}F7x1G5U?~9{-6>S;=Z6joYYT}N
z1L~yQ9l^)S>{`XYb&SQ`@pa4v*A`7^Z#S_-)4VhQ;0@A&wva5B9GfAgBpU|;K8n@i
zH{Rn2D!OJCk`0w&&U}p(uWTe)(b)e0Q%YlDjJx<X1L*7|k%g`*2DSU{9s90?v~fPm
z2-_$b&&VoJac4AJ=!JmD&;~{Of{AH$@}|y=X$>uD{!p4*xAeKq`YCO5kdf^jkWy%Q
zV~ZIbMN~u>=5R(wt=BgaZGDhMt^<RVjcu@dD#s_;%`YB4i@I%kBmU%Wi1`ZElUSy3
z7kgX}&Q?Qcaq^Mzi;E6Zazth0o`VH^FaH2)U_b3~vLTv@2G3($Jg+qlnm^Mc$KL8_
z^$OUCEtI&ADXlV33rC|mwik{-LrTadAlzTESje@xg}qqs^i~vF^Z?oS1HlN<HwKH@
zp#Ws=`l`yB3TfO!o3NfSaF3+b^vMR-xc=zqbov_Mx|+GIKhjD@jGHrOK|6Ou=-xbC
z168Mp-?CUO{{V2vTI!7>P=FUk1f$~x0W6cV6;#e7V<9asV<u)~>G*0GT*fy40QUa?
z;Zjv-l`u=St#e1gTh<yv>w&S!)ey$^^4I*7XxxuGbQLjvmm7}G9HnISaf``L96#+V
zXEvD`_YKG6kc6L3X~P;q4owbc8C6Rmv%{l5_XOhDZMm|K-CERX1;CcIt|eB#M4Nd9
zjsXr#*F-zW{U-kabmq$B$uzlPce8tbR7NVMV4dGwCT$HIjR&%^;Crm#JgFHxF6E_%
z>u{=fObwjU6U)n6xV7I<gN#{KnWEXxZLuR<JSbhXs>W0^w3a>zvXE3bH_7-%fxckt
z3t+Cbzy#R&@`Dv55D2oBv$okkL>xz15jD$B6NbVv+^E|lPY3Fqa8G2dGO4C_q|sv2
zwJ2<$THuAlu}iqzf`hV=iWDDiMUo$d&VD#dzjBs_V!OuyG`qFZmtN!hrWEN2*skLE
zC~4izhEW{-6ce-_=E(F)TLdp@HgN$;#+()r@In@51AKka6i~k4vD|#BBby^8KCkn!
zr|1-sv4mZ?@}?5ZEGCRU<npIrrjei!=-hv0wm=<)?ENoM&m){{_WsDpDBRI_-UvT*
zH0*P5@IglQI!S^$?aM9`nNcfj4V<1^apf~@#|36GO%q2{%X@(bx}A=SP76u_%`1l=
zDI7<O*2@D64?o#P=)gYL5<XOMNbm=|{nX8n^5OSGp~f}Ru-p@l6!BNg&ufkT2)gD5
zxZ%KkR~XH~us<ONlMRHnt{49RyB)FH1uvxxjrK^=JRB4g+SB@hOxxYAH%r88B$hK9
z&%1BYMCV-RDSwH7b<e`<f_Pbsn8SbNxlJ}xH)Xl8`BAx;!9g+E9?{t}3n!M?_f77a
z#i2dGVRqr%e#?d~o5p{#CKT=Re(A0jYU7jHC9{Qq&c+vIE%GnI<9lAnY&Ib$Hc60s
zr#9gHr0zwH(G3Z>_X$qYGtHM+gU!4y`hC*$YC>!l7F^+M2H1q{!-Ls%g{%+mwTFnn
z2+t`+?r(*`uI-CucH?Z_V=-@w9#Z>Hf3j#TIpHQOuo$myF>9!ZHvv48@{@4~fQ^HQ
z-uVF|ns4Dg?Id<TB|W=%z0pkC2Oy99q&@F&raMXh0LtSSJos1%kYJybpTF*;dq`ch
z`B=x*wUu#3+X4Xd<x<qvmpcUCvVvQgb~WYl6WFPsrE3l40n&CC;d)NnJT$11n6}~b
zl6*8PdU*?m=?h_uadLr<5g6TTyRvKPq?SPW+-x{+Wt(fGRhJE}hSq>we_Ol#6mwJ;
zWzIiz5OY}DMlMI}6h!)tBYnq|6J~0HjPZ_0`XOqnUvKGeV4Oo*EWvZ+s9zZ6=I-nf
zdooldJB*I-0x9(X0UTp{kAxmu?QiUhrE4P_oPFK`H2(nf21NRPUm?$ck&wx>mbYVk
zs~Ddh?pbr#SxojcjnWaG8WBb*q>O=Klia8S4ajJ@?p3_ahz-sb9fGZ^s)?q+d;k#8
zXjtRh$+_}~CCvmdTj#n7wJmL~Eq)W7SmG=jlfp7-pd?OWbIsoC51v$!un%Z&{!~!3
zpL~aLDo4seu(MLt4wz&v0?ih>S*2@QY;)xc8O6(!OV~ZqKj;v41w)H*xbmfeqWg{q
z$_&(QcNQI&I;4UvVt=y9(V24JaQ#+ql@zUItS$FI#ZXO)j^q84<f&^$P13nAq&vWB
zE}odU0^&(ku~f!n=IYj(wib?5rIDeyqIS?Z<P*YI>CuixPlS!tW8Jm3OrKbZzSia6
z;d4(mN75-6FJqfT$j$M82}oo@?{EQERBEm_Cgh&MSI;$FP6gW4qw~wqT7nL$)R<lA
z$7_5dDOz68UB$Rn6m)xD9Pe=-vd~gD(~ogCHeJwaDx^Y5zKEw_jh8q=vBA#Gt>G@I
zF(aFNpdy%mF|yam=oLl73w9<MZ0iDnbx94gLHej2Q79n(*HoZ3X(*W;gQOr|`>RI!
zEst~T(6NlKF?*i-lpTJ%Ah-mR;c{l?^%Br(_HKVS33do;LTvh#Br%h?6K+?VKU$Xe
zl3$}*gsZQtsbLMf8oAayk&k1_Q8rqKRMJHu0qx!LQc`t(o*V<F4n6F=gIK4laVOPz
z&y`(AOIlyFIqlCXDp}JN$usDRezBn-HIB*b6RLWm4X535djh<NM~bD43}JQqkS<o9
zhLPo=(i?x3=wpQ1xd^0#wViHh$vcZ$t7z-$JzGS=FWjR403z8>n<FV`EC6FI@}J^H
z<Qqd(D<cKOxy47Q)Ko~{d&@^=f{mxAY!TmW-DOd$NaFGUvOgRbKvG~5$ryjQ-2GQI
z!Q<L264KB~Je!aAL{?J>BiaSrnMRht<*_NUY%q$NFe1sa4vmsG-bZyb(vybd`72SZ
z4bA>9x0GEpJ4k!HrKO8`+y&K#<(%dV*jXMX<XLD{Oo`0|Eo?f?G%<d*kGk`@B@mDr
zex(mBTb=C=ar>#Y^b~BmgRLp4T3XA<{=usx{;RI2n7z@KgTPg?wXb<3T&UjL3jt)R
z2yOZ_^nFDpH=n3dR&^YPGT2&4SvdB_>$%@#@mANrYfs%C2+5DFo~EW#B+?V$ctM#6
zJ5g0rv9TKvN$#s0=e_n|KVXHW(YUwSXHOt)h4P6qn|#?prfKs@V&FhmaOtAfDYiO^
zMKq4hfh70|X(%ctcyooD^jZecMBW$_?T6yX(A-cBEfX1F<aBYw%vchX#z0&cZ*{0-
zJKNYN9ufxGb%6OtK{?!frji0&UnO;gkfRN`U3}qoJf*u<q+z5JW!6i%iH?<nxJJ!m
zfVT<6;Y8UQatKb|EQ2t&E1d8KN{#XWEQOLy#=$FN1iEJSvS+Vz;Y7$Ker?K;l&)#J
zkmO<QadK0;!AjEBVJVq|C1)gR5N@}0t|Sgra@8<57FD&C_U@HQ8R$M*hO*}O`=Bao
z$Ogv96D>tUts4otE{{yyL#iKtfVJ3;UqEJ}qIcRLP0>`^ZA7N?J7_B2DCw!#HinO~
z9<Ne@7Lr_rq$6#TQ&B+xy@kR`s;HqEAS~vk)QpS}*WC89&(EpX*1plP!Kb-M=Y0mK
z)Yofqu<Z^Xx(+I;y6^Uy>mKU6OVR2kkUo33m9C|N8Yl+q3k0uU$YfDeXwpgnnZ*2E
zLd`y&oz^zGwbV5|!OW*^{%om(DrcVV+!B0|L2<I`h8W96){G;Vz|IsJR1R!oay8Cl
zKT!&bX^Bj84l=pTWv=6d4Njp9EhG_jLtn35#yHK%`B}{^jYgKDzM7r5BH>YLJwnTt
zu;;J{YAPz7M29}%rCrf<wL2{LwYOYz^3~Al53?sL>#N;ixveP8GeA3oq-iI~TNY{b
z)Z)!xA1RNLILPdS@|0DiGQ{6t^qM?PU>is5tf;i`*Mb_LgHVVY4hM8}dXTl4F1aP;
zPcyD1Ry757TE{tofvq+w32P)SxhkHwQ*!~cRXtX;;c{JL@KojE<)5kyX9R42)tdu9
zi0~F;sCu%Qmv5-k_gO7xSDH{-*PEXOQo*LrTK&(xiRE7hi6}d4Nn}r=&r#}mCvjyx
z+)r?$(&;MeWfD$FN9p<$P=H+3eM1aUSTqIcsHL_+royzEXlY^|z)GHCU)saM;b5Eq
zKUCUg*$9r<;V5VYN?3VMiZ%o8DBS>y(hlW5%!pjt>Gd;36FC7?R7oX4A}z-L67xnA
zR@Ne>VI|;MVl{1kqP9a7C@0CX($@6lO>3_%;yfnPbmUZ@$T9GRUuJjc&S?59le|kg
zE+>_zrqZK{m;hl*>cdJiU<ZUPR<9klu-yD2=9fm{?2>n~oF8yh^}2+TzhrlEos{)8
z&)jYrk7kz~OaKpe(IvSJ6-7-WcG=Qot5{|MqZUf~7Bp^mZr4yxEO9o?94?5)iAkMT
zQUSH>qmFAb=QlySeDd6q0yau^wm)<2ZpozW6H9vqsni1>vv3yhx+;MtcPiSb8tF)9
zl?>AUUNQ-?M6^3rSyanQ7`%=bR64C>J5Q$2eySHtDh^+p`Aa+$;yuLO-O{^7ak$>f
zM={dPeYm=~prv4D=K+KaleQ=OW57n~Grp>E9jwoyc-YxoUq*{f)1#PJL=VlAwS5wu
zusPB+UfhL$qQKTu-xsnAs7w792DZyfB@&D*^1WM0ib{>G;`zeV^tP2vO#pV$yUMDp
zcx^%6b9HT}S23`APi_%}>^U*gvqAhecTiN+0MbBJO`cgM89Pd`_Us#t%6cLJB~;ta
z(0<A%Pa$`>qGxkO_J9yFNYF{;V_FJ|Z)L2cfxDauAdso5s^1<Mr_-vXEe?MPYQxHl
znwf-b{Wn!ks^0Q1e}w9)qbIZu$VRcduX_|yqc)3LX8QIQ`l~p!i1zPsx%#a96@QmE
z+%fW}n_ivK7BRqIx>s+Yuk5y}o+?(B?*UTJQ5>=pzT?H!9cyc9oLnCBe&s9_wGoR*
z<a+EE^j)&92>Bxk(rR!xSP&H>soeez%H~i#&lxvMCeY~?FRF#k!3g?Eqz(44+vuRv
z^yuRO?>8#umReTXmKa(s8c|?kqDMRjG=(&dCO!f=!k$5PfpiUY(NnPSO}GhL3{WrS
zp7}SZYXq%s);nrp)eDV<fcZsJx}IwpU3HTS*<B4ec`kd3oHiKEoIpiawjm9pAQeg}
zOtm06#_6pK(P!#HeX+XtMblZWzX}R^2qFNxkT^!gBmi2;c~PkX)zt04zu7XKrdE=B
zsp@2<F4_ps_D*GO6fDXyk_%b`d?k;`!ZrgQ&<R1$sZ&VfV{eqP)yCojQIkN5VJ~w_
zh;7f%CIIj_PHd62yN#4H>M^u!wUTmPhu}ji$#(@22eqNc7xIRJQ7i7jdz5^1lgP`4
zkdI>8K=Vq+UAVd!!euxaMN6m2AGyZg3K*sI-DHi>$ym?IY;U^?CP3H8XAxvoLuaXG
z*xz8L(t2*DXNMV`Yxz)~Wgf~XHcwBd3k{Yh;Sv6oQtlY*EiRX!zM3#z>z|UQsHtTu
zP1+5VUT#H}Gb(gh3w_`L-9Dd7rifkPxJFj%ERow9)Yw`o8FK3>N*vW9iKvy;kkVzX
zV^H+kODB+RXur`NSEm^qb`o>hTIjSBLAA~pNeoT{IbTC)bf?qDaS*T`5cN)TowEU2
z>iWc#)Wy3;3j<fK)Vi#k8x>bO(7YdJjr7lro58tMI*auQ3!1}VK5U7n)$1mYYhwoK
zB#NqcVZt(a1y>B?8CxYZ+M_-Gov1o(<?;Z3?p9iT4Mc9an3MHV0jNVEVA%U}i>V@!
z;N8u!UqR#LjF;+o{ze%^+XyX@qRze$l`@w3`>Ca!-c@Z|+(!j<rg1dLYAP)52hETY
z)PV1Cztui#lrz{#$OqwO!jT-6Q9rQ1(GN6{I|aG&6Y3#hX|OFSwx@hY93dx2qDY=^
zOpj~sJa|)SGTNX<O@ZL5gD`O$t_{>~o=D^pG1sxW=FF7iMX^3E&sWiC=;ns<SdtO1
z(Wu3UXbUOQI+&4--s@O-TDr>k*-yQ$7qa=x*xV$0n5W4S!ADC0;8_~ly*>v1unNgZ
zt+meEd?0J&eOqlC-Jb;|mEdbN4SJcNhCbjbX?5Cr5^Uw2i$SlQ{@1+UwpFDUNouCY
z(Q}9SOC+9+X$d~D1eYF}Ap9tQF{inQd_WWMt_Mz3M9WD`;cxp@Mx&&?l4d7?=Ex}5
zM&y|jBBPb}iZI`htRSUeXlQeX-5JxmexBQU?i}}5b+BnsM|h+gt>rUU>|RMejQG<X
zDE&nJ(KK2FvODx{`z3;_Wcaq#tI@Rx<BV<%C?wIGie_}hnRiA<#gu1GijCX9Nef**
ztqa*;&_2q8S1qUx+l!#wsK_1-MpoK5pM|pNM+pO6QsMVrUg0bfU8lX#QS~KdEPF-q
z;Z_+q?Sfd_J&#(Fgi$)dq}h0nSJ6JIxa@IjZ`l^^rLU>l!@L9GS<zCqsjYnc^OW++
z<RXHJO`~XGk+tUJtA^?KZLC7FE{dI@pf3E}VYjjoc4;jY6KT5!>)Qx6H*2g_mZ4rA
z3tFqAb=*&t*B*{(b`=wYKtwWdEp#JXEq>}UNj3#HV*3w#+qeix*k5u&bS}<L5dby9
z#Up@JshR4?05<^rf)TM;@ygNEQwIzLALW~Wb`)MVj)jsf6%K*7O%MR?0<o%rpc2l?
zv(|ehv1v%`bgVK4IlK%hB$45ku~Je;B!Q=I$|_o7#$CZL`wvAtjdPkp23VZTt6G^O
zXdq<#Al>ieVKOldG_nT(QE$tBN*`!x2H$k>cX!HWfUIPPY4VsHFP`c{4)e;9w4{LR
zUkHZDsUvHEJFJK?Hra3}NZRJQ#^55o10!z7AF@XFY9VzzPk&-mdz}lmfpEHZPX_}Y
z6mEQu7cEDyT@xA0#fA!FDW#G2zbTDt?he&7a!AYDlsYoluc3ZVbR5vRj<vFleOt#a
zx0Ms6-a&B%GHlgAg|7zTD7nvca|;N$Y8qI@{lD205s4oe_MTDHI+2RO;Qf_&8(nAI
zWfxCR8^#<i7O+us9c(k7bAb!LEew)fwzp+XQ%d$W?f(EOC~Ipe`w{}l0mRfYjK%>D
zA4J;A7HusGrX6v_0V7LFWlp9Z4UN#0Y!uNhp`|_0`jE3HI0}{Yl`M7M!WG>vqa&Ko
z(td?cQ&S|cIj)VQ+Q8Wq+(6Q1dAAMc>YN;Mn<P&c2L|aF9e;4beoNR=YoSAqQ{!<i
z+ip_<v9-m*=Exf$Cxot;@tZ-6V7-XCQxh-xthxyUfgs!^nd5E0x>fWuX|f4`X%<m}
zd9qi(9Ig*-g{^N3G*TmjvxJX0z0{%c5ti9ScIL<on>m&og~iP|Ot*!=6ex7;SsE>H
zQ-d4;H@(zm{0}MZd)wUDBS3b9b;ltF_BcG2<K-MBH#?dw@SqMCCmBq%PENtwQ1;=-
z(Ij%j(Qpr&s9YF%0VCtKLM@Wx^iS#I363oo<fb*w0A+E{Cg@R}h~N*<pyg}Bj?t83
zkHT)y`<q!(B1+2r^0)Q2<Fa+yTg8eg(XbP^5)(ZLoIi%|-8y1y91;gAR=a>oM?&@s
zkSvkEI7RGYP1xk57&jJ58V_uw40n7W^lGusdrW5SKV<=jdw+)`3Gk+SO}|#_s94sx
z5bK9|Nn=nnt(~N9ZN>RTLha4VNF%~suebp29u&`J1DwzeyDZpL6C|Z`TkUY?%9~^a
z;O!__tZlnLDqlztNIC6gCd$<l2wK(`2Ltk&Vmo;RA^qSMxRRVnVHrWDS~6pw5g0v_
z7{b%Iw&S&w;!W)$_PSk;x9Q#T5~e%Z7UmOUgYuWtZLTu8&ArET-JlC(6+(8?6K$L<
zQ>;boZj>+^Sc|7JFL${6eiAfMWD&Quth;d>sl6vO;M{l0YuW}aWr}jLJ<KQdCB6pI
zmtX{?YZ`lPBZQ+w;UmLr4p7xII>n^px-Zip<K1LENRIyVw4(tsB}H?lvDyefWZ&U9
zj#^5ZXkvfpa8R0ATb-ufS4?_5`SuYMGHl%(f!_sil14hj5V|Hkw&W?j;@1}*6xn=z
z9498*njAcgBzxQXn{a#-{fuzF+kF&Ik2VM@975|6l;%3zfI&>yNa1i{1vLq5lx(&z
zmt((_hj>wd;n{ObhDRt-tVi4&gu>ikf~GDuv#frhG0wLGDboca9xe*(C2{f-cMIh`
zh~kC7I8JP{H2(k&XSeR7z7phQBVsrvT2gfexlG_9sxR;yRe<Xn_{FQJcQ?5KXIM_|
zK=6oU(gyM#K2UVY{APlmt29}_Yv}Fg!nLBR>H5$Z+ONyK-HE_hN{DHt%(UPW{LKhw
z(gp(hdZN-ll?twfaQjE3R%lg?9;F3bGqC>v+^Xj_u^&#Vk3K=Q)-smAQ>2hO3aMD(
z{VzY^TgBFz(_6NxC@PviskT45T4M2{-K_!FX)XT%wZRt)m~i%69Dt|?RK+WYt3~Pg
z9HZ!Uy&|E(uXEsV{gWj^w97M16pbz{W5>rR3Y|I!le7SQI4el0>E~#Ymbx>31=DH;
zL_*JrvVcF7-7uR*ZmUXTK`m>C&8`p<P)TP10mo&hbdbE^<%IIm6cR$iaxCHSm7(J%
zW9QSDUHn)s55gV#TXJBYNRMHAg|hTc&I5-TQ3@C)zVBh;;2@ZEV&{iZfP3K+H~O2(
zfwh}mweh$g4i;N!w24}G!6-fgf!c24YPw+a<R?J7GcnfF7W>PhKe$CiSs=VqG3M9-
z*;aD&ycGiU(mFR^^p#bpbj?&Rxrl@PO~TH{StyqCFlV0$Svdgi1gf`E>U6{g%`k6=
zi;vwQs?=KROHSDbmXs>WM>Q7Bm8Cy$b(LIIY_>zAe{kTQ+NcNXE^qzAgeeqRtgvv!
zfk;8->Ih|QxrSy*f0ZZk0rxb7$s6Rc-LGWBVp95+83~)(<AGz{8W)(ag^m}te5q+^
zNI0<y5cdmRr2P@Jl3BpHmkV1XJ)uleG~8r-<x3bC4q<8X5fQpK8~TO51Bd*lxMur)
z<0*)ALSkqaX#n{M3b|jwAgd<^xwbY{RgKzgG8UoY$N?5hxL=gpTalI9fBXwHQ8C5L
zBwP@F7X~rh5Sg@g!AZBhvV%h_M7v9Py5YDGPxed&?au6YvUrf=+jNYgb~rqPbu3c2
z1C<Utr5)^UlyyYzmv8`p5(^w0kA)jH_fFc|a<v+VT-yYu5!j2T2ApLhu7g7n8-kD&
z=L5+JhW)aI1W^9~p<TI$;YLr8m!3-0YS6C@IZbF5{X^g`0Osclw)=TlD?)8J{^<$x
zgy7@#N_Mzgg@VY(9h19oO6M}&ukxCA4hgcxYS6dIy6cX9QVBQ?ZhWP4m`$&1m4zHd
z#l~&nHymEa%1qwC{>iQ+SsD$GEyfB*18x#Dh0b;_bb}^#ZEK|6<O?n*f|^e$jM%${
z@|({I*e$(=dnWB2l7g(@PmsCSxUxbIZWBpADS*WQ2NIAH3gGKp5rx+m1eCz&P1*32
zJdWSpBS0YL%e|u{px6g*xVZ^;HAUrif2Ct8KAVCcL8Y*OFU*8w{S@@Edx>p;{%5$T
zWvFZ1Sr$O=d<7&j17_U4-R;8lwb|g?=&&+F6Mu#-@9HQj%7(S2^Sm^6Xym68BfYF?
zB?~ndzkJRvcYu+m###cFuBN5iSUngAgOZ;c+#9u*K1oJ?SO$RMj|qP$as0RJ6C^8R
zBbYF42XoIS!f+07xVb&ggx82*{a)kX6v(P>`<q*^vf4GUxZ`UZx#d^ZRhG$S1aP~-
zx()F&d9{#`$d^r?L6gb*m1@>Fjqi1v@~deb93tk$!A$4NQT*Q2KhdmZZ2OO;4axFU
zaZp%qc1iM{;>b8?bG#`j>Mr19JD=coLx^mMX~*>up39p`81P9Xs~IJUv2T_}kBgz1
zP$zk8P5Y;+S{JrQBmFjeMtcM!8#AA|<Ls`P3=Q`<hdBve@ENu-%0|-LV<lyL^13#W
za!-X``Dc;W7avq>-U0VCxTsv_3%)`c6driFQB{ehVn$!ImmU;vtZQAhp5t{K&YG*)
z0}EJtt6d93agZ0Zlk%?@%c4yK(nnW4i$Q2Uc|{#EvF*7A$M;*EFG{D0fWK|+<xgKN
z1uR6JxA{uUk>{+^=8WC<Ykqkuc_7&zv>p|mR-pvalVP-ZK~>cHjXs-N!EBUQMsIp5
zXQ*^ww)Rm&R9x+?@5w2(Oy27=_bH8xvcb7>TmFVoEueH!*t_2E2<Y6`3)<fbo|-o>
zZ;<4xT1fX0?h#H>14#zJ0n3Glgte8iK^`nmgxRHI8D^1nRaV!?4UK_IC|FYkt*m_V
zmbBde0EHznV?SHB6fBTEqxxI^Qy3&*z&82rnSQ+kvh9wHHuxv97Pe-K*o%}DZkgD~
zQnD+Y0_S%nHrO<X4*3sop`Mn){mQkD0uQ&I<f)kiV=nhO7L1JKT79J6@KG*=mhBB!
zpO$Ogk$;43KAzKSF)dJgF|%oIdAW}2T5SmK1<cw$i*p?e3~oT&g|3OMVaNmFWYRSm
z@f|%IY``u#E2F7%-?sJ%^-)+Iw@jp`YaAZ)j!~0x0?~D*N4dBkb$3Zl!bWf9XXDfw
z!L^^+7Y?99cRk^a`tp&&Lne#q;*2uF)>+L-v3j-^x@~T@;?0p=0|TXz=2;F3o;bAa
zhD{bU?`(14T%qK%<h#yL^%a)(Mv<hoo7`>ZD*cMWov=3UuxcHxj#pmbG%D)JXOZ69
zhNz%?jW%)nEo{jeYI6`~EE+qe)YiwhYa9xplA?DFtTqWEjz>G*;<J!AlT^%PcQ`{b
zs>HAhDJn^1Wud(O=my0!k1b%qNZCY#O<PClAfD(t%|J%mGu-d+jDt#(Zf-86Zj%-A
z0r@I!$5AulYO04~;1qQ{GPSmC^W9y=K??<}r)(@>zzMW6$FjDYO_Ec0{_5I_f(SC~
zl;&c?gyWm6oe#t{lE%Sifn@&x%?#OAIly;Z*XJZH$TV3Rfz8r>WGd%M2XvmL*0#+>
zgQ|X0KQ-Y8yM%<_D_b=N8kB~nz?2zq1uHKjgIW-<gc_1kde7~1b#J8T#-hdj)|QW^
zW7-bDicFKpk%@)168?rb{G+1M>Ygs^g}tTFp^RmqDXJi(rii)QaJ5%re2t!As?$wN
z6P;sW-C%V-sT9?YgMHjP1+)B7>bh!nnmRz&NO5t>@`xy1Q&Q@QMcm_abq-EX^*SNe
z&90BFK5z**D(#g;%>*oVnNH|{02QI65&$kRs*S5H1Ki*|DPgd7LKTkM2`L>`#*S8D
zF5;c7YL23*fPSE;Dm5E7^;jyp%K4v$T>Te5ORX7F?9fYE!s|5U4>e1Jc~v@WHBvg|
zr}kI0)E2RmB}HP${{WK<$sa)U?Ur+Q5&|+kIx=@Z-Stm=kW;rLVN~i`^iVYW!27O+
zQAF*s+E>F)EZYkpWv@3oO37Ar6Q+}7AiR^xu+mKP0O>;H^0UqnxFO*b-7><mu4gkB
zDvqKJLb3ZnEooY)p=GQ<x;l=UEyLOukB`ps9I8u4M6lyX&S<?VWV59O$K`71dSV#b
zF3?ZWU+FZg0AK*F10jrdE7gaQk*<zs7^Y^U(c2q6thJRct4+4y=HtTLRXi3R8r723
zp97>fAd92Ic^<<VMHCExzY(xo$|@RGL@xVXHmgyBorR-l0cLe>r2)n`PWOB#cp{y>
zhva64zf+2qGw%y2sC68Y%d!Gp^gu@qey1(vE^7(m>ibU6V~L^94OCDQlPh70vbNjY
z;13~N>774k2M|g5R<w+zfD4w`D@tnmYzA2U7eABb#|qLKINXGyr*%63Ycpg>bxYl2
zfTwLtWtRjYB&=bVYfaC9xp4V0$oCQD2EBwy6TLD?%B+@w(z@luqy0-Z?sgD$8jMg2
z?hDk6V%E_cW8u@;AGz)r@|jmxO-j>|g`L(qqBwy9OP(wiTC%>sQE?3pYY%kRmZE|F
z%guACBJ~V#oz6ZG`eZZLJA9Y1?5pTB(ANjZ1^$ZhwIZ4wu?rg^X>Ep^B&eaLr)KF~
z6x0<EH`^V6S=#w3Y9$-q;yfo)#aU}a#}5fpY&Ax<N#iX8a0*ISGaF6Mm6eK*QkFm+
zxC8RFnk590v>8pxs*8P!<y{6bu5b!gMthto+*rZcRq9%#RO~yR1(u|Yn_+b`vKEqD
z0?g~3OC2Ll*NxV|y3ch7Q#x0=8dnz+i-lRHX>~QTiK=emPjZ#qx;I6&7N@Cdl>nQz
zGJkdGeK`wag{ERI2PJ28dKl>#4$OrnsaH_e5fiq7^1R<BIqtEQf{WaZ%=L6lk8bu|
zQrAmQCBtNI*sm_ub&ALdB6kzw>Y|gVHK)sV#!Gu;M;!c={{UoB#ucN{>vZqUJnVNW
zZ9AtTVGohOoA+4SU2j@-hoVRPtGzc=)LuucxOoba$>cxb5o!_bny1sp11!P9uaaG)
zlgf>?^ExX$SqUtq<lFaNmyHaHKk{}%B;wwM)GAM>hYS2F8S3vXjzY4T@in>k6ai}-
zZ?s)?QzK~Ts+vDYx|#C6M%<MKz#VYZL|_)+*=G=^eU;S`x-({Em032OTU_sU=CxnC
zl!qBDe(4)p$UUwhF9tUxQqy$f*luoBfYRE=dw?HRaSdA}i0uF%>t`Tb;3Cp!3%wMY
zjRYiI1l=MJN#kp5(cMW`sMAD9Bop;Qja7sYFg%XQV`zCa&0JdCG?7`yHbB;Eu~mlw
zU_O>vIV!}G6MSEifYqy6PYEH{KL|Lk*zj%t0HS`Qs;6lrNZr@YP?}Y1HvYSXh}A1+
znquNjuYjMX>TiYHNWu_qJ1>zbsy#X#Rw%4Zt@TnrscBqn$1gjRP?B+G`$CM&=H$4G
za;friIHiw?zNpus;f~x&0BVljTu;$t8>mMZ$@<+&HCP+V*0e1e*eZQjUECuju4GW{
zjiBPo9Z#(>#>^t#QD;?#z!SLq6nP|OSxa3z<Tt=6kFJz^Ly1*yu4y+O(ek>Upi1jq
z6*EzJMJwh$;;rCiI|bfaNb;#@fDHDNbu`h);eFP>%G}Yovp~sUdn^b~bv!R_;{O1m
z%L6nc53v5~SmdjeZEVi6R_*93qeW_Ho0l|{9YpMF{{V+#eySP`Int14mBjr~wOVLo
zS7ou`HEUqCV<D+~+5vF7k&%Mn;`95ec%qro?cHTy$~S;6_kC`XtfHUUZ4}Wlw%!Nb
z4^$gDw&Foh#S2*57hPCr@xbZFt02Me!dDs%=z^0<joI|xe#r0itO6l<E6}=TEhX&@
z0gpZIwp7$wOmT-gD8@U5xdN-%;sZ;a!sZ7wadHz4Ej2UmC4-NZ>zzeeqQL`z5d+{a
z7wWqDS*s7AZ)3vensRiRSSnjCX=9{#1;w^1N``5THUw_?S?xM~%ncvi7%7-tcd1VV
z=BY8`IK}N2EYql`$U{~1{8I6R_~&c@2Ik0mold3Bv}YZaJYN-J?Y1Ud+_aDdPfkY|
zxP8yo=r72+2U_+D;2P;$mt*AxSq#>(Iqte-PAqgA4VX>-5r<8Q?cHI*8&05b9;2O<
zO;t&Wn_HVL$3~O%bu=(jzSbX7tcJ5k3`MsWS(=)uU3^@jZug(kN%|ys<lkUZNVU~9
zGgMsI?16%sQvKVL>1e87?qe<WMHnk%W!%fzGE^Qz7-fVK1@@vK*DGn90~_D5K|V^d
zNc2U#sbFEX<ghAPaYkN;jM^^Z>RR(3yb<?8R%;T^gZ@>0RIO_bh_a~_4{X=I7c%i^
zvdoPY3{lGP=?%V%LqQcRZMl9e<zr~;qXcfj@U59&0butgU!vH5pGK|;Xn`OQht&0!
zQo!#{%PRWtU$u_6-A(xkDw+%4U4N9V^5}2k=&#jvI-NkcG}slJs)lGDU;4hQQ9TK!
zBsHiCn2fC3w(4lAc2sHIOxibwx-9W~Bef2pbwnGO&At#78YABQ?Szx?mAXB7Zr0Ms
z=8ixK)+o)Aa&Rl(sMNBcJ+nLm$OUNV<*1pAeZ%pSbxBi1*fBjc%|8Jbrq;HRqA*Em
z@+?=W;laS=@+TR`vhGH_4{&h$ggclV(ry)%C1g{=1HnErfz+5r;@5oTdg-1tm6dbH
zw*LU|gn0mVQa)GQ`;fCZl6b##9D<-SM{+^?D(a93Jg3bogSbLIU`ZRSQp!W9dm)lM
z@`ah84s+p2Q6sN|*#l8Ch0TZ|N<*lJ==IW5Ok)ouc3UknuA-^FkZYZAyxN*}wzelp
zhVB<${{Z-Dp;J^t6rt^Sa0d2XPn*SUo`;E%$3-rm(^a)E4|HTU{erju07r&}fX?1L
zuV$svDPg4tYeqR)F0iH3+Z(sNfUg<m-6Oe4vk^_KY1Fd@*c%@Ud(%BZrOg{hrpx^o
znbt$6wnA6|&nitfP==7<*a~@EqqI7TX!d%UblIXm!)8Z-vl_0SrO$FhK`S!ereTK7
zaX9R%>$Q5RZen>{pYu)V$_WQ*+66Ax7#;!mS$VW-#!G1Cc^@X}^XeLo>zOc%qtwU)
z)HglXRxCN!Y!Yb;L!wsWdxzG_)s&B>hzGjle4uK2f}xRt2*(yfQ|j`|C;dUN`Cai+
zOJuFK7geZwE(2*lK#{ew&fjZ4vaqAC(aT%wIhXI0YwEODv-mG)`X*^U#!SphPdtu3
z+g(I-=KxE_75vYF*JIoJs*3uu(Poikoegb+#@0mZZ5UUyAH`q|I9SOgt214VyKb+v
zn#m(*^%<Xp)`gPUqh_4xoB(nC(K2aGiXuz%$_A5CCE=hOtG34Kh_@Ho;Zg}UB)T#>
zn`3OYX!s=v+W@WgszyZXgL0}`7gP>*hc`Sa*v8*BQ8Zh!nm_QHp;<20f#D_X^j*kJ
zOV|Z6CKtqTQg%>sN;P4zCk?p(As<X6$r(qrts=!mQ5kMpRHcggDIAnKmZ_BN0JIe9
z?M5l0+rp%(Y~Y&|l+1gLoO>udZ5LCEI&jCEeDao_AVE{Qm^HU0HW$XyTet#+=x_8r
zv}NqM0SP@b;{<?l$wt0cHaoHC8D*LGYrEk(YK3-14N;5`>u0($8rBAIIN?^y9q)9I
z*}N3A62e-RzZ+E4(w2(@V1N(f7f)+tc=ijeLnK+5TH&?UDUOANdwEsyiCXX+2nyp*
zd`AzlLfQo)wxUNw@X*usNGc7o%PXpgDWn(T%DQTJ-6qkCEoqn$!Ll3KBvIkt2%|_q
z!?L4s^v1^zx+#F@S-cPrJ(HUl2ILGVVx5g~0l`Sw0pyIMW@v3w;tk6(gJgg_mJ$jo
zKpt<|Mj(yH+lLjc1eLWf!6yFz3#F)pxCb`J%4@0K%vh*>Hy4rFXqnJMqo;c=*S6=f
z7HV?KxuhF*Qwmp+b~!^Zo)fj#u}t644y3DWL>XC&@)ek_rjk1`<L;=-iR32w5<A|;
zTj-5nV)R+mG)Zy@IqaVeGaN5|Rdh2;PVu>g&F-&gH7zmBw1Z>Mlpc^j&<wOf_r6ea
z(?}h5i;sn%l+nlw;hYiS2p<@E7D%PN1+TKQ5awaPwMy$bxhmQkXsR7%oT2OV$>Yla
zH^vnbeXw#xGmV{WSs<}as;7K!8@B|;3ugH4jEY8dNZrE(+$k72x@T+<oE%y&$SEn7
zQcRG>PFhrN+|!Z5dt?@}WX@?8Bkm9y#&5Yxn`Gr7iuq~!CEE7>wT)wByKaBF96Z?M
z*%2d+?b^wW4GppGnG>5KYmYqVlt6XB1eCzd&cGH*?`wd%%t*38eul}eDOyFrzbQ*@
zFtB8ViLG%vonhHX7+7rE5TbKk<whRx>!O8vC6Yz~XS9!$HAIo{({%ZZ+$;zoKwD>V
zbySJD4c_7{**msdV!F+^xV8JD1RJbc;Bn;!(hAuNZERlY+~Axfk&?C6E$*AV-o#mM
z$4u!%c6|0i`n!Ks{;0Ws+dxS2!){PPmHH=+X!naegkIoc<yNvtoI_mDiS*+w8zdv(
zlo|wGghycQ*fvfQ0(&7Y<`bKQtZ=qc(Llml_SibgA};G+0X3fP90HIGSdX|%L#7}O
zZbF(lh{gW^bjG&g&3Eoo97r}GAxNc!Zn?T+-)mnWs6&V&B`wRXb%H<JYu?FNUh{`q
z+$j54h0Sppy^6qSCiAlnZT^Ww=K<f{FiiH3)JXYLGDbi3uwUT@jUA9k=We)n*)+Yu
z*S<o0jTgIaqH}Y~30Y|LO37XZd?>0O#|sf+lW94+hGx3?Bz&ezV$NCymNR>%$2{>m
z!RFoyo!i5GrsKj*tt4-4zCya|XA4&J8%ZN-8huvnBe+w#2JJgtdwD{{*0r~3JSkf#
zI4VrEQ$sIfVRnz*BdyJ@e4+!G>=SRQ8bIRnVT<7eHJxF%1g>knzTgT$aeOYe;e%q0
z3Q4uD&Fzj83v-X`p3+Am=|iF?H);7=%s}Cl8OLwBDbbve0Urt{0@3<YCTg%}bH&pv
z3C<McUn#C-@)M>_q63Z-nrtkbS@4@+E<2|K7oN&SFp+khsv)>=oY#3a`MM0qosv%w
zwS(LAO?&CwFC<QBJ=&F$IB-LU%5Zxfm$Jv>gpKTeBrd0o!*oyG@KZM0!R-oZTOJEs
zN?-(jlYfGRgMka8Vqt}wZD3I*!<K%@paX<?8DmyN$fS?m46;Ul?J8z!nyoOiDqQj4
zo>E!X{{X^@Kn^c*e4)tF$3@i!v+KqgTMJ|#I4FZ8F1dxpqp-gVJrOMyu~RaC{_dX6
zX9{K8Jxk(O52(6FOHk9aw{Y?hRFw`KIG?JTdgn!v7{BfiX#<45i4Am-;4t!vq}3sF
zLuz3r{E^62Y}DA}{AzGVkZ`(M%0~+}GT)&^X$vfG=+Z#yDM&C>u)F$Pc9cnIZJQuA
z@OW8hUrQu-F2B`J6!XMw1!I8zmm7pRR+yg~G!LPpnYoR>Wmi|B({3a*0rX66r%(Xh
z4aojz&A+lH9anQ~@w?!JZpEo0lB+`9e@Je&Y^rK>g3?;}i+)1aNmog@xbBGm0A<E#
zrD+#rfh{q)BL`E{@;ms9ZSlx9Ar98pQM+iVmCYZ^BW^!+zckRvVHw&_$`+$bd#(#w
zLE`C?4bhQhcI$`7WB&kY!gF2?h;6=#>ZhkSdzjsao^Vxs`ekJ^udtSm=%&NXvKGy9
zHw)QVQ$8}`wouZ0I|w+8P9e1*x9qHG=;@?3X)bBt9HIvGq2`_K$rwGtR<Y#&01i;o
z;NYVfqmVaJ%;p~#xc!QPs*h8QlO-^m59VeHD#WrG48gXNGDn*#>Zkj#Ir52`t&9bd
z8DJx{jj%$!@k%!}?Qrr6dom)qwUUAkP80n*i;EQ9k2m)4g{D(zYF-aHQM}00#yjCJ
zs?&!9g{WmBM%bTlvRexRng}EH1i8LDrJ|{!zze0ty!{dj{{Z+?t}km@BTRJAm<I(f
zYo*3J`AKo~KxD-Qz+nFCxBmc8x<Y<ZayeKm;zj(XxCDf9Q%(G#MzILVAmt;j67C(&
zR~G0000^4KlX9Jl1>19infiMn*vNgwjmQb&CfekvuYBD+J;UV&jdm-eaNwqrZSQXh
z+rc?cE*8y-!w`E(z0+JcI4WmG*9(wA@8K}SMVtt?grMw><a2ORk{o%tOTCw~g5uV?
z_B^I$(HnujG39mpUg_np0|w*4QIqjvlq0Rd7`j5!Yu^b0Bf69w!y^kCh;Nf`DM9ah
zr|r1735Ay9B{i7qfN&CG*X)xZq}`iy;bSwMZ{Ny8^uk<!<0%OsdzKZUg#D8odnvGa
zA7vZIaF|!2xAxzK$p|*OP0s$6g-6n?Y-~F>@AGaIof8AbO`G9lsVfW5s`6USY*Xje
z>#8qLLkW$Y-gzt2c@qBsXNH!|bw;C40QBN>Z{5eTtbVf={g9tg=a-(!o|j9mn#OlH
zgW+1!Xip8fI~(T7c}b1LDk|vO0ei0U6sBjqcL4SrlrW=;n=$*`KbZDV$yQ+pZOhMf
zxmRZ5C3tg2MTzVXP|6tV$nC8MfO$zY+mE>9{{SmaPt`IC8LH$3$7ExhCET8aq=K8N
zIzVHMzTb{h#F7)Y1K=jSLqyL`owjwqQh|?@o3z~dMXJ$|cd{XQpZ@^px0NJSQcmrV
zvtv*!rjkRtM-^*N6CsFQ!K39AzS*66A*d~dxjyS;m00T8T2G<~2bUCOY>}6c(YUJl
z80Wue@7N;H2;Dr=Nn%|0cm-L|va@Kt#xT~Rv|T<1T1lKU&y{lE$22mXfvvVpvY(2f
zedrD;L|`^kcMic%6ijnHNl0r{6SgQFeqY?6s%DZwZQELrs~tKQRGF@Ej+LMfJ<1ZE
zgpwaQ`zc!>Yi%55$NGvkf}QU^qwao6oG?K<L6%uHMAVSQ413(bjHauUy3sPj=amGW
zoMP@bKU6F0T-&xWYyRqvgtlKAx5pjjn>OK6YE^EX$0URouID^%aV{kg<_5>P*#7{8
zf3Sea_kusdUF3msbJ+(|Pz<C8V0TLeLoNeN{FJttf|}ctaHWC=x!%T-eAzN8h*~|?
zx}Ca^jkp1W<YcY-uEVgXsH`_i>z@m!ltwMU@Cp^R?vPtK?xLT2{+?F9qa;7`gVYTd
zCjF6-xLb6Nzra*akVhugi<C?fJTyK-e*i3{L91o4WN#j$&$Mxc45B9+G<!m=bxiX<
z#|<5a0ToTT?%LCTCd(-riJKcY00K4`MYCYl4dSMcaT}afJ$A7pB-+cLfR<S+K~b{)
zMz+=lz$oKrCmeYyo(kFCH#yEf7DdNW<CB5m9%(I^BKDX@%#cY%7q~L^4Ic|V6>$#3
zOSAhaD>VsT&5eHE*yT%;VWf%cwLeMwS#o|AeAQCPcgpXe2yhtJ7ro!QnwUpBvz(%y
z=r5upBb?If8!Gy`i9xWs(oGFKP?I47-L9ysr-kp^5CjzNNejfTj;cWLEay2{(>iyw
zx=Y*Yqoswn-CzLZlw5Pi!(0+6Ham()nv#{$yK}e*s<t#ov4?MxtE%;A;BLknm0c#P
z=l41Nl{rNSlVR@k;l0hud{Q;Xbg#2~D&5me@EX$V_X=^RR7sh4Tf$c+`VSOORa+Iy
zB4|G-CrIK!?vJF==8@J7+TP0Mk3x<-yn=p+)SqEcD5#>9?ghZ*Tg6C6xx(kR70fg+
z#xT&P^qXu8AmULZXJnv!kGTThL`^jVA#Lq<c`E197hGZ;?2i%3m&ANoFvTVKvbS_h
zzX_%&{2{>BRC-RnZn@Es*;^Rd#e!zWcCtKCxfO+u@Q|_g$8}~SZ*;z!J{IDQ$fz*L
zdlbKylHLC5<7|Dby3wJ<8re!|r1?*dmHpMREFF?vg!WpHc2}~Q%Z)pghUNr??OTcf
z2jv`5bX2<}7*dH^yVecJHd>Lk^lS7vAg5zYgk4=fSb?pua9(gK+z;#i>z`Kl<J30z
zD?23MZYuhM76b1C?y)^r)U|anx(XJ$=LN+==>Zueq+ns}KV*(K+a57U!Je6^s;YHO
zQ=KE+Z<TFF)1j8#do3)FV+UjnO><feh)kSULo`Dcn*<H_Su%NHiM9g>8mjj^?PbaM
zP{T!6R_}kcs5#$2<dC%$*LK#MpM=QZs;D??fId~t7L!j-1DrQI<r?E0O}VhLo3Cc%
z%4jr;{{X!2vN|n3mLZmpsZ6WX;e;IUvzn(;#~s=qbKn%NX#pn9M3pqu&Gv?>T~nxH
zg{IE~?y?mcuAy4u*qU0?+@+$?>S|seGo0j)oSuVe4zJhhYMxn6*ARQ5q0_5s-W@aC
zLF~1fc7+U02WY?1S;tEhV!@#|6uUA2wLnV0wr4cm8Ih58{{UsCp`~jXX0<u2Ye=xM
zMbn2D3t%kLkZz7;JI-vSiRLHglzT)m#0!tP1vzPU=U60oA@mMymXw;4qi%RzQLZ>1
z!Dg%VIN)LT0cDZax}*YQiQC=qP~#Z%8aDd3QV_x&C}{euPO;S_xUvFX?*UMT>RO}j
z^5(Ff0>9C^agDR2Vr3Qv>!OUiQ`BAjLR!PvU0-PW6IuhMZO_WRj*18x16mTj`&w;)
zkLwWAVzIRJtiT9by+D&@n-0JzX7y?$3}^1FwEY#L&y<%R3oqNVH(Dy7rm3ra{mp4s
z^t2L20BgRg-U>~v+ScI^Da%Fdgt6m&peZmG(zv&4q;->nV5SAe*9mJSd~G41to?L)
zwPD#$6M#L+i=HfhL)4ijx39rW$9ur>m58s`YOAFzrv}9GwGea_bzGjMTb}ZJUkd*K
zPw04QS_xnl_*~gM{4iH0JaI|%j4p?vOH%P9_i=H}*1D5HjwS#Y4i<`^ONNwK0Enj%
z`k)(fxF6@RIdF#AZ}8-oCTE$TK1}T(eH2w%F@>aTHeRKr($l^%aMD!Ox(qcf;AK`m
zYm?|sG<fwkpGw(5dqFDh3P>9rnHXA%&X=czmkVK1*R)cS+l((u7m*1r$jTDz4Ujdi
zxv)!7Qxq&d;4G`_^*Etvad-<0)Ll&HInh%c&f^7ia{3efnk{pv;(@LWetxSLUsI`S
z(iX72v67(EC@Sl!gtY{adl0ueKA#*c7hu29WfykMe@1&m>GIMaBW`<=wRCi`!oUN6
zvNK~NZ(yo5T}~=?pM8@#QUzIIJxp;h<)X_ysn$NAnBj1`s+zi|QJ6Lo?YHDB8aPEG
zH#lx_7s}_9@1n^St<c>&!{>GL#nz8R(J7kIXxop31TxPwz`G5<3q?%x6hPcH4~ey)
z^Vm_KqJ@_&XezRy@JA!IZBc3!6U}hPl~h|OaW5s`2;z=di#`lCdY2P`EQXq-wWo1V
zpHSSJfUBz}mit=M&n0xE(%B7qCv>iq*b~Yo7C1KGUkbX3(gS^_{{TgCO*>m1<OtuR
zQD0Z<o8XVS>L<v-Vo5$qI;yH7FaQWvxvwBJrq~@8P>0VM7q!rJv;l*0JgHkh<)gVM
zBUv=^5Pwb9<$4Di+0B>GZM-1sDjhp+4T376thLFy5HXJSgJd4ZT2@raK-nb4>`w^j
zG^itr?;s9&T~idzZQ>Uw38^(%ns*YXC^gZPmrM^=mYSS7u@QBW)M`CqZtK}!)adn3
zkcnL2RYhi<=#z8D_e;0gPem)5$6nzNFQ(UED+vT_xhQEH8_q0`LhsQ8a=&-9VNWBS
zu-&<`CK#e)R5dSctO8zE^feT9EtS$6U+9|3dEbovm8Yg$>xSOwh-26XwB0(gP9=3c
zEX@Mt)>d>>Zawm*f;Y%)8b`{pr=@+c(u-`=K^~pBezJZM^fWDu+p?0H2ejo{Q&Qf<
zf`zrv$|!76mc&a<u!E?rb3K5PRm-4pZ?(8WH%@4Ibb$jTRS6}ZlH#uPnt1~(Y(Bk`
z$4=1eM$3HyGB9HsY(k`V7Lp#>Sx!MRT%&(B+J<^<c29LnJtwN-Uh`|+Iu?jewD6W~
z^o5G{%bGnkh5O8g=-1KvY}Z{>Q&d&C!q>OaTvJOcS~rZWtS+xW(oskS#s2CFS_$Q;
z0ymy>WJaf|HJ--g{3!HF=ZQ<pNdt@{W@oGPE|nB9G4l`|ZtGR4x`sMZ9Vl)*uOB^4
zUlTS&OGnBYT~4y7UV67!_5~wyk*Of=uMyNv_EWr&d^u!aqelrc%O%f?-CUX37xP@8
zWs~!A7MEG5#c>N|Ppan0wjRd7qauAt8=PE^r=p{be<(cit!ZgsmA=plel#a0%;}m?
za^h3qo<ShS6~%U#(e47@MOyYY8}72mDubzNnnj(D3Q3t9jlISGs*Uvm_HXu4x@xBz
z2iSd3a-i`oCZEw8L$7a?4Anuz+=SSpbMp7yNGPIl-bx#-nub%y>ptTm>drVLjh7%K
zq--$@1nSMtZKJi&=Xx85v%fsZ0k8!RF1wOFAWs}1<fW@Q$Jq@fJMWSfbOg2;CafMT
zBDMS>WvOu&w<t%E5V;mT)MBBp_S^(jb_OAA)5tyK3#)1xNJ9a6y^v8wDFDX8QSkb#
z1AI=u(N1pq9w;J4Qa6E>(a_IQ-{7|jdObJuZ)=Gy2eR4d`Z=b67MA_jG~p-Ncu6jg
zJ^uhiuYzAy-`FdiI(mrM7+6UjR+CkU_pt)Q;Q<>WVchElI(~|`eU<e_M~%gZW;h3X
zp(@(0wv~)6wa}E65YILm09j~PA&}HEH-|new0td(Ojc==Q@zF}T;QK7x;;LYNN!63
zw{olJr!W#JWdq<9Tw0K`wu|j=P17n^`AlE{FP7nW-mya*T8xg0LK(c;+*`ulR8>~8
z7d7SfBG_3CRiw1L2RUBu4v!-%b`Pgd8y#aKg}4M^9aB{cqqCgXV?3<9+MA#xFdlPo
z3RrcQKbAE4BrEbvl0@2&VR3YBu~kw_C^mJ?(X&-DL;4!q_(MwIMTxlbiY$;kj*;J>
z;@JfYD_lt2Ke8>(4b85ZB!Tv}KC3jC+&~{5-uOY(Hw2@qZZ1$265j+V$x)nAE2=;s
zfy(s{!p^iBT^w-KNJ(vmSC~m+4e(LjI5$p3_$!CW#-|!%Vr@%D)3AOc#ZyFMW49Y(
z%O%tm)jFG<d0fzZ6`0UtYa+XRe(Cy+PNLFVPBGbd>&J{`qtQ~)B$V>Ujn_?VPX_-0
z;R{6FT2pz?e+tY;BN{j5TY~myHo79G07;On<B^SJ$^=RpY~l4q!qGSA1uw*qR!bqN
ze&TRSfJGyX+R}=e86wWZgo3EGyLPIm($P09f|f`DE=)1C<K2JVO*`EG0EGa+Au_fG
z#!E{PJgC1W=GezGoAfGM{Z|K`E}5VaNXpiW3WwXW5zVY?_n92w@{PNk>la};)&nN#
zcrT!-HSCv7sXLn4Tl=jQJw+bTaM6X1^{p+ot9?C?%G<fwJ&9137_E-7Nte#AfH($$
zZz{r%P-$hoPwujH0yyumpBO3_=YMA(g_b|2Gn)2l^$A$;ZtcplGTWOVBbD#P&+dt*
zV}@PbRt?9pQ%Up~#@{MH!`qbDUeMg(E2O^)w`4^)<t@UF<gVODD4B}(iy`DT`}`@~
zN#lftgTlrkYq&`xfx?)#vWiyUwaUW+NYHP)Di;Q{`$Cpr=8{ulZsTWggI2Z$Dr8S^
zBWs^wWdrDAaRf|Jve8E%xOIxJlA2haOI}DEC`%LcUO5#Gk%lIVxH&}kn_oX=BLRD?
z?%k1*Q?!6_WR5KqQcR}~CB!%zeHR9@{?vVBTL~>y+m7NpqJlm;hDP$&3;0JtT@zVg
z(e^?zk@8u<CyF<;-*5I>k%{E2W7<Z`p2{{o>~=U!EiE8eso5Lu*8y|kFF~ymvabU+
zQOh|e7F{!58+S)<q8e6`Ko|%h>WN!ZChS~<_q~%0f=Y?8kN^$?>ZAa$i`buqv?!mF
zjn{IG)a8xAI93sY8=mW)ZU`+}(YIx3n#8pB3!3AHvEJd8B(X3P?Kka(5NNpo6v?2y
z62~mgIk`lJdaVQWp6Qfq1Qw8{G_DQY$5^2BZpXGCMj!#bzEyQpz~6bm;YCqVQxnTe
ziE4nBOl;$CDUgl&Biz?J+NFkhBf$MCYI;VNn;fE9Ovcz8{Sk6V)WMBNb{xQd*+9(Q
z?<HAF9A2i;bU*M*wwx8B%+M1|u^(iI_fyBHNX$HPi8Qem-LC|m$Xc3U4ekxo++Skx
zVRW@md%=nJx#H^nnps?1>XJgn2%N*Yjw9}@X!Q!1fDSikMbhZpU$akJPYpveWA;@Q
zI#eN~v8Lm_(}twk<Jue=?)h9LosIoll<l)|Xr-y9mLgmWu!U_zm<|MemaaKHMu6zS
zzbZPqC?wCK0Qd;0S7xuKXInYHl;J=3N6)1TlNIl75Hr#}hT9!+@QQI}Qjn~b`7Jq9
zMO5>G1A?wG$PO`N=w-8rar>jf$}EM8-X7j8LTHNd-<1<caI;-=$~G5~16pGMc}k;3
zc@qY;jmHVDw*FCV5jdOS3oLB)jgCSx1ZA-R1l$!S*KNVNU~P};?3_UY=`6P`2wdPY
zIqac(`w{j;7u~+($F;6JfQlzAgBKTYoEq)7z7N7uz|-)WURqU?(FrY#F}Rx*+aA;0
zDMd_-$!i`yQu@q!%XZxc#*K}NSwZ9x@{s$9HW&B_Tw8ouaoc;6m9p_xG>>hteyB=_
zhdfykJ;N^3Z<Gv@$=b%qEt*b-xqzFg<IRC87R($#aIr+j!fZpYbVXY@kZ+q=b3i;F
z{!*4$<R?cNy_RJX6bE(%NXIx>bM;CiaBAygH?l&pi6-ITrk>n<E^Ch45p~Y7;|Jv_
zn%L4s>`juk#F9=^9dUzV7j6UtYo-bcjy6cZH&~>Snc(1EM;UFDjgjpDwdpz?4A|zI
zX8!;oNWyJv<vG<Zb4YVRw{^@hICp7SW1LN~Wx>oX4Rb<A`%mfy{u7xfXaKU|24=>X
z*<xDj9|&5YMo$Rx*q%7rhO2;qb~_28PEsrP5uVCO<{QPu!Nrqb85s@=9jAD~R;x!N
zYRf-sm^O~wBrPCtpoqDR?__NRe!a<($FNd*Iw158T=00fO%L~8)<#cDEM$>lhI<IH
zAcBG#tZ;ZX1Ok@L=GY1?hmnN#gXfe}pg4{V0G|mS+u<j;UzCO9Sdniiip0xu(nXg(
zM>~^zB-{!8T=q>iK2e}pgbq?V;>9?ejHDK}LCRzX#t?h>Od~vUrQYWJgwk5?gl&L~
zwBG{@gFZnEh_?>9?cL5%vmLbZFJ-~*;HR*T*iPEh*)5EQZU+{!P|!`Xmu0xZOIzxc
zqNXSo!(ES++i{Vfg~I1I2FY6N^JSYi5gaUsmp4T@*u}1foz^xY=pf6XjW2JXp<E@1
zpLiqah>4Anm~cNG)H70$ZO4l$q;bvDB!rFL!*S(LAp~a#Na1@;h5n&Q?gq{`KSZ)y
zEs2td!56qo=(qWRDXexZc~1@^*}7Xgl3vK414YXo=KNm?yJlw(xE@sQelikn2aGJH
z#g-UL(Fm!kW4q(!5gxAgeyEyA=IO3Dx`>84*9fU1Qt?-!%AZ)Fc-v7EnSVJ5#=)mm
zW*GxX?$=poT?-EYgwIH{`&?Rlf~cg9Y@RDMKj||8{0hsS!P)-db7IvgkMSciw0B|L
z7IHc3VgCSbcjJqcWj4L3(^%ZNdAe$|o>-)w%Z67p5+#l8KSem6nxZ=geTu7hQ%5)r
zt)q>{`ipb>g(Ec`CPTTmiQXJB`=PWeh+Fi!X-&*+x5f&5dQCWR*zKpm!fZ8k=k(6Q
z_rfkJhVx+Y@IqxWZY^wkD4xI@`iIXdRzov?L32-zQ`s|QZJ2C)9#i5kW3KdC0(vX;
z217Jum6U>J`2!(kHBAFcl0xc7m|x=iSD_b1=Gc*Pt84W5<^;MRN066eCam+P>6)!C
zx+y(YkLn-tm6g-M?W?Ac4&|#{{WeIQ{22|ur9n|bWEPUZ{SayU9ZJ2K=G4<pZ5+%e
z`d@;QNV&MRyk%I=)699h8aEG%Ata)yrRC26cjO_p(N1;(=74!z*AQ^vigN_!(no*$
znue*;<i6-<KSv^@!F0(Q^K5{ZaPq5N9drXN+y^!(@YT7-&-R}V!fPLzECCkyN^P8>
zgt*2>!f=_l$Z-21X^xsCC;Kkl<S2}->_$_v;bo}GOm^$v2@9^&*AaXK*Be}{jmp{1
zIk`M12?(`~{>zUT%4>&vEmmvUD`aV0S{&Pgp#<_<WV@_zY?q52O%i|`+X;f*oJYdu
zyx8~hmBbT!EkjxmoL<2F6G=9=IY@3Xe1DYYl5yL@3_PfI^JUL*dq&gsO#q~^$ULPA
z7~((|ZPx+_!OC$r1LLx37a9H0NMYNY2p9S%Z)qOk`zVVI`6;2ryx|6nNZ>Dotu_`Z
zzyi>avm~u%Lf;m;;4pK_jE;U2TJv(0B$mhgDBjD1WbpB~DR6jA&;f`b-uOx`N6K@D
zxQnMo&D@m0XBJ(z8Bvy>oFa>CEG`mQgZgfQCgj0Bqk_8Z{*tG2T3um}gr1+mWk9rj
z4IY~x>1122@T_QPDdHQB({4{?LshC&zCpYAF#iBR<o#6f*FI(ea~ys=uR+V`@#wp%
z)S#voji9*%%~kahZM(jKR8>wSccl<FCf7#kF}9t+n{Prf<n5WtmW$}<!H?9be!=4T
zRkf^*$82K5`=i<=oB#oFQ%9s!7Vh-P`6;B+6*l`bzn2X=oB$u?GJ5Ys2HXMJp=f5%
zYo~B)8*BdnF$o*dH3aU!Czm^vt6d<ynKM$?9nw3V$cky-A+#}*^K30`7vbP9-7Jnd
z%GPNe8%YZQEe##X<e|22^m%(@tPZmybdNs?v&UBu-BosccV5Rnl}Aes*kWM+0Jw~*
zD!ngG4>Hubr1rWE)6*J{EuMO}H*6H{4gR7Ku)3|%*?@w1BrWc>K9>YW?qe7@H(4ob
zpq6j?X!f(n9HXb~9U|9BW7+_7%ZUit>YZ;!pWN=`a1|qK92vFl5wLO_$xHsG-M*YH
zvwyixrn&__%NZH9h0;5eIg%nS>j10do$mL{^41R5LrUpqAHzE%9nU2fDm50-)l-A-
zJ6Jn+DA@HMTG2u_x8u6b!$&lZ4kpd=O1#q|ju1AS_i<b~e8rEl(8b6o#`g=m_E1zr
z7~RfANnKA12yePec~zA)>~ptDL%cM0O@}kdx-{|e(6EEMcy0TkwK~TZmX~9|;YunU
zJ9e~fZ|tC!o;P>gO6hLVDk&c4%>MvrHu8z3idT^wcLT~WK@)%6A*~z>scEXIn;>f~
zVb99ZQRpv3^jdSd1ADxbPx@ZNzDE;uT`gN37;yHmAT=#fr0rp_9qygd=v&z{BaSzA
z9|}o<du%MwM+%NTL~lDq&ytR&sxCLlNyus@WgrIT$oefbOOyK{W12P(QmNsM91G=1
zCsD%_Hq(pzlV!=8a!>Us6up*5M~>jSzz)GX@(qYwS)o+L)E=XT3y=0oQLW7(^x|#L
zn_)#yGxRqYk!uclcE$h|eIA{@P0}2x>LznN(%tSVI(g)Ixwr$jWz`73`*tjv=@#_*
zdt3lxMmzRI$w357-107~+o_nDVT3f*^38L*`>MDmB5e~_OxB%@09jVPeV*q!_EA(!
z=R4D7+~eURqly-8sc|km3#_B;)(2TzEU((j+UUAU=hLtodyvkRh2O(sU_S5#%a3G@
z43ZBrRMtCmu5cZN(<GJ}e`v8GE#4y7z)P*!E}f)QPdSoceg|aAK9Ioj)KtpRuokrV
zPNs&YPi$a<d#yb-iU{`wZAU{40{aK-hsMTA`!Y~;^+dorPW{S0m#13S0O7~?T7rGM
zLqG|R9#M=^VQB%<Y1HrmW{aZR3|Ghrq@OuRLB>@LK>^HYvp@skcd8K9K34!xvjqC0
z*+^yxa?%GWt{*D~f<17WYHfm`b8?W!o070eOyu0AI&zt{ccv}M#u3w$(>sp?3I3Bx
z?Ts8IH6fm}te9tdpJPZ%vAz=<K>oAOVp548-s(r}ZwfOzZ(x;#Qs>*7ChmHT^MS%x
zUR-!W(TOhOZc>paf>f+6XuFiq%Nw0*1e3`ay@r?pY}^1;E^SYOw2-nAF5&`)s#++=
z>S-zx@)hVjSw|BmamXPM)|QNrx~{q=gSN`B*S+tvZd0t*W~i{1K+LFJS+x6}8a}9J
ziKXBhscH10<Gyo`3tN&Ax&)}KmS+|~(tc9Mr^z7QGr91tVWoyP*{x^^CzdFNNJmIp
zY!V6>qXNtbhdwx4k^-sJwYVS$-qH72Jy)tXxV8rw3Gk9x7eV4|bq!`HT5RAg^0K<G
zRkXaaH|}xl7J1Fobtx|Q7PR&STj?D+atoTWxdqSzs<j<J`w3`10zXdB9U%^s6Xxqv
zMWjOmN3>m8G8VD836xS5l+-#rFn~){gfKCd+R<b|X(b?O2Pv$=w~P#@wj%CRplH8@
zQ(XjN?r^#qHo@CYZWOHzizKM)bqHdNyK_Rv>%CVLMa+noxOQq;O(3Y>W}i^iqNi!Q
zg~H3~Jy9E+V~yaSg^JZR4O3Bh*}1JfyQk=yMO2Rk%_ZH+pY0*Ek!e{`Rj4?%uOJ@^
z!$RqYNJFG;&yp3^g`pNTrbgLoboywa1K~?PRf0Cd70H!aeu*3ri!=Kvsv>l4uoepO
z^Tg3%WIT?A{{X7rMdM5J4Z254@yyG_hD&WKMo~{THejs;Y^MkG54c7^VFVim-HXlS
zwuF{8o{Ie&LA{*em8GT8qG%UrC?l!EPToKP2L7sOe#pJ&;YTl<kvfV5ai`g({{T&h
zH-HopP)2Y7C@LLFrl11g;0m;cM-g%|xH9=U-kDg!C>|{y7rO6gDEO!-;R4KU{)$MR
zN^!8{u6D9jvGg#uFf7)9K8OnWV~vH*vM#E2M;SL33(P+ddabk}&1=a%2X*FoGMjuN
zt+S^TEWFh92%1m01x)Qw2i!ab=P>Kqo~JR`#|EDvXelTwW?(0NLic|e_{?}=d~QsS
zk(sx}bb2RFbp_=S@BZs~MW_iO2KU18EhdJhnxIJHaJCWa?4+i&k^lhmpC^ZwGIB(D
z!Iu4H)J&j(#AMlc{<YQe&i6Za2LKcY;#XRVhd!Q=?{^mq2cykfQBu(6IJBIT!sqe7
zALL}s&Q6ig^WuamwrH!X^&Lu0k?ss7TId}=xQEEwo=ULLsUVGwE@&lbDH_&{3ook2
z1qjjQIXSVEdV3*Y0e~W&V}XUvASi0<qk)9E!r&}kztl2F^93+2cNpxmopcnw%Wk3S
zC~4T{wC+8uv5lWl)oQmru54HEt#n--)kpIc&b{&i(Zxqg6LzowJ`_~bl`-qs4xI~W
zp=(;vaEX^JB%+-Y0QQS~p`?|JyLRqA6=MV|lPirxk;(080_eEwWs<`w83XDceU=F7
zS`a@`;dE6ZJ+X{=ExYlB378jIt;!~<FxDFkD#;|-o8bkZ$g?IP7;}g&@PL_&l1uHy
z)C{eR+%oP>Y>zJln*>~}6~wWIotrK|03~>XZ??zknAZZ)?zvINLo}}3*PW_vD)dv9
zx&^7zq^UmF?P_#%Z>MdWl8LMJX(GFc!U7#aqIX-;vplBck`cz;kyS@gAr}W6DX1x)
z_X~>@>bjRQFKY>L?wh98K1W!9(x&A5qLhmVY0)@;5x^AR^vGB*8Ok(3*EAPNb8jn~
z3&6qQDwFJLMNE`WWSg8Z;VoT!bnxwLK$~-9eN!G<1+QgaFoC3rZTC&h^u>7ojQsU)
znnx1bU&7C8futK`m8R7lPEDY-``J@Io;};8ASt|wGLgjOjEnT?CULnSC$mUwd2tu)
zRrPe#@ih8w1gbfzWSUK^c0LeUIlTqq;H{B9m7w9*Opi=_hUWHKEel2!PY#ogR+;)N
z6tHeCXjJHxUd(ozqc<Cy_g3*~G@yecG4w<_wwfEXWRBre>Kc@j9k2%<qN92z9?e}P
zCXWOof2VQ#pfx&;G!obtE~qGJ>ZXtxOPb%6c}t>4D=z0{1qUsS$}w9VqQOs9I1VDk
zXs4j1iW|pcj9CMxXw0Q>b6tOhEq!G@7$MHN?k<F)`Z9jX$F^p;fC(4HlEq6=E3Q~=
z@{&D7R7gEGS-w@w4?dH7VQQl-j-#f6IK|ir`XMXgXnAu66!T8Vea^~)8mQ{#5wwN3
z*l8d}QOi4pfzO0fG<T14no7}W+IVY2je@piGfZ|33U2J8=*G3Ir~N<z5<66-W*+Vp
zp1VRDcN_(plTKvBhX-7yac`ytB)de_8qSh4?I*p|`fj5P<Om}c`XJ)zs#9mU65-`p
z>GToPJP6xv%P6(m1Co6b)iKU)=Nl}}rCjQH2xHvq8*;Yt(lzk=oCW(V-l3#GWiGIB
z`X;u;&^CiCwekTWa2zeAFHgq!gM*6AX{>D-zRLiv>AH?M#>=0gMx>sH{a<3#bnK0n
zaC5ECDC#ygkXl5)>#cl4_-BsmKdb6;$nR;kdnSye`vjC%Mv|hUIU^ugthTuepK`}o
zsOhUFBF0WskN1nZL5@@2#Pm}~OH{{hCgB$WkdO$vCeLuQ0Y5$wF)@*}7h3jN$^c43
zBV$_4&$1d>++S$?spWZju;ctDGB%DZla-V~dSe6s0Ngo8&R~i%cQ)#@0TXu<g<V-B
z^$+yp2E|TMcc7-dlU8a+d5$;Z;39O2U(Uz`gxIR;Z878C@ZfwEIjNG5^jr|Aw6-j}
z(Y@0;H%_UH84GTET^IiV?Bh*y_Y9As%k=*MQ_B;YBqrWgvY)Ogqh+6bcu|z3GKyhP
z^o1QPTUrJ@plkYNuKf)}H?1k>#B4Vzk6zdHcgF9^Mx^A*MktycB-5LEjTT1!Wz^Bw
z$^F(5nx{}nFa1q`@Gh+>TUS&)?;$Ikq(2mkYQ0EI;@(gbHPUxBMpJ16Zs)&0DfMuA
zaauf{$TWwtq|-&qfw~?@LmznDLVWaf(@1ump(vr1js7d{r71Pi86-!#q_l|UH&wN)
z)SBP~=G^^NgwAXu+U)pQ?R!+Hk8y4Q9o2BpVoo-+T0vP=6KwhKd|2?RwYD-wZkLmM
zwBcmr)#rSqm!a$RI=4dS7rMj2Uj7`5iR0yu>^`iquX97gfKj!q{X*cCOBG}0oDxZQ
z7glk(zzyxV@-V2Fl)|?>5yO+1;7yJ%*+9W_hwcNhPIl&;58YBMq(X#olV@W6)N<0f
zppZ8M$q6Ho!oXOL;G*Nm7P!Y3T@k4w@ky1kHI5c=$W`;g(Q|A3E2@fj8@p}CI8~KH
z+-z<~Ax?0hN(C)sSGj2WA@u5p(boq9hjI~hAc2FGTRW`n-WL`~-iaqn^!}Z$eC=yv
zHa4}av;v;9cIyJX+otPgV_4{2VixyJ)T<<GeN%9}jETlarH!dXw2AUG?R|k$dST<`
zN9)s;hdIC>l_eyxIl%6_RGgX_B*=|BcUXi}EEMgy0R0h9jyC}2*+kKsa*CT^aYzSH
z)eBqc`g!^wsof-wxni}J7@l&#PtkK@Ya8vh6Db3Z%BrSL)|WM(x~>vRFT53Hs@A>%
zfptSAZB)10OyhL%n=^ub!rxNX*b{3f#XN7ob;_;uYUMY44ro(FPb^Knjnx#BMBG{|
z_Iw52i<~iHpr?{uws=LxUvFtB?8Hr{w<GSQZR53tyeSyz0QU=o_XfBR@RrOgT^ohX
zlV#bRqbPYrpMorvgbq$o;wxm)7c|`#%FAH22EuMF-AF(^va^bPgOMw$#rd)>o}fGh
zT@)>Guv$GUMP!i&dVqb<(lWUNi}DgU;HwJS2Gd7#AXS4eur~>lOwKKKJ*0!elK9~;
zV+jNMEZK#5wbT!ka1-QkAl#vy!Lk-D41AlNY*|F$=Khm(=MSk$#(T0;8ia!6o#d&E
zZ9Z(dtsRrt7Bvu<Snq<E(CFRCBel_uU?-IzrE8FJ8A^c}1XUIez3!l^&_(yePIKiL
z`gcU@w#kQ4d`I}8k>yFmbuy)fdI|Q(F4SnRf>!Mf0Q{nzBsF6AC>p8&*B7z23T=Ir
zPQYrVc&PUNpDI}DoYD_u8JMztuNX(ueqL6B9NYa+bUlxoRQ?{*7Jd+psS=xp{ZSJ|
zPA*G@{9QsA)}LS(K~a;USRibzE+)kxjnTU0*8wr4i-K)*p{~u}aD0@bRS$}|Uu~Cu
zYVYGIvD3s~cMPV6hRJ5076YPa<$tOAZWQK7x8^X1Z2O!V8b4(BxCaAk*);*OSG}wt
zv{<PB05tpB;URo)KI|0?+jsj<WVL;o##H;=y4OQ`0A0w|%El466Ljg{85jwcjMah1
zD2QN@Wi(aH-;#%^U@i9WP(G8z$RsAK3ejzNrIUAV6J?}eJNZLVxxs)J1!GS4wB79v
zY5=0TP}ZA=5EmOfTI$MCM^J40F#KT!QA8mZjr)P)D=KD0f0ra(ruJN0uz*GGx*+g5
zMMThTyj=%nQ$TKDBH&poDrSuPNpSG3BBp`hjo@dxhN_*h<)jdTl?_p3lvV9<Xm|tY
zEUp+Mkb4{m@pYFQZ(=|x@k=ajyJm3sPL6rUW`;mxKcE(<+Uj@Qy}x3rj-^l;vF{F0
zx~;_6gu?L;t)qeLE^I^WsOqS;58;cDtZD1c-%Z5)B0UyL1IHyBqfwq~BxmYln`Cqo
zJ764-3eZtneAu$d^%`B<x*#ro67y!_Rr;(vf)KBidhYP2tfiKo<?SNsrbqt(7jeMz
z<xw=m+)FmR8(S&c*z9ntTK+8Sso5a|Alm*CxKUL-Y$!Bx2~2AXubd@{RybbvODjQb
z*y28jBsHc)_B<w7gOEqUX_96e5F7_}&6v1=1&VYl6~LSk-EaU45AdGX7h7;$v^#_-
zDuiv10Xf@9wUStXogeBK0EDcpQ3UM%83ETq#RHrT@U3ToraOWMge(y~p~m;hF=Avu
zl2S+rAYBs_PGdnK!{tpBzUw;S9XO6iKxt`OPKAbm7|>mJ6rwwlcZ?|vPH9lQ=V?FL
zPVDJQ$y>fL+=JmidkwMsp_*O>9BuVV8ePrqg$JT%hLdhSLTP9M;NLyeR&}{axT27B
zIDvfOF3WZwRM6l-7f%Fm7U*TOn!|4iY(=e*oDMK}TwQU+zK8`37QOr>X=(m&KB-8%
zZ;L3TVCNvAv8W^qHsIYM7$|1%X}CEGK`}g)sgAZt*EzS%{;C<~aP496qz=YZQyT&X
zN_h4|EJ58X2)895$s1kvDda}x`<r9rD2znA*#0=WvN-Ex`3=dj@}CrvFx`ZLqmT6a
zhwPkojEkwV_|}5suaTe!jmV}{K`_m(s~AE3O}dj~NXK*vP?I<r4$c#W$jAjW0@GqI
zoTs#I7YFRHQlqcQvg2cd-`R76t-|KEOKt+;C>a!h1A%20TXi$6;oULKu{Pm4WZEJw
zB=Ea&IKSC(!;RMf)8s08C1N<A1PdhlC+xWA{{WPQroz@(D`No9WZ=<joF<T3Q=01w
z5D;Nbg$+BdGM~2x%I1)80z)BhBOTHXv`WG4vAIZDae!`-vbEnIDohd1P<jevBsr%E
zq=WEOw;k?~v=QgwW>qpUNWL(jlEj;$8~`2=&$)hhS|FJA0?~Gxr-!~fZv=R{hhs)q
z;t$nL9aPL4UK=AvVyc<PG{RteB>g}SqGeM94aP!rGSa-?W1@G#!jf41LG5!~J7*{~
zHa3$5j04H-!f*!oTw^WvoLO+(JgKv?EJ97Vx<c$&4pQFyjHDoQd!-y}opjQ2l#ce{
zCnw6o2ntQuHp*8F;WRbY7w6#=#Aj~dcKakF7P4Uu`h`UzQi>%mYrC|l+{XC*lS%Ry
zZX<(#s-lt4C?SP_8?=_5)=y;hF}m!T!0?cpjNvid;n!4BBP?h>9d@=a_Zl1rbX;9Z
z@rN{y{{RY#_~Qv3W5KdIBJrBaZFz?#Lf?zwSVOEv;qD-Og0LG%99=#+WMTHb!|#Me
z`0Hn*)7R5ZJ?1x$JQXaF(z`Lp0r23w>9fj4P3`ifi&LtL4UyLHauA_hc5NO5A7Vb^
zf}i{ck9%95Y(L>-qu1xPo&q8ragP>x4gSb%9BZRPCX+=t-4jDy-)a8<f}<Kp$Z!Y6
z@Ktj)R=bG+K5mJFTAhZ$%#e6?P-rQ%EZQqv2pBfNAyU`$?aB5V`3p@RwF`g}L|9L8
z!ZJDO<QtmiI1$2=bUL<q#JV+AIlOzZ&6F&3k>Y5>$I``mMDal|wVDrQNnNHycVJuS
zhd7N-(Uvsy)ftXoP3N=6{HA_VrVc&B$jDaJI$2;YjRPb#6!#^sX!4mfZGp)547rv*
zLWoO~Vh@yjayC<G8pnMwS4&9~n|SPg2wLc5*<LDkk{r{N_Eg4g?%VY#Ujvxy7N4>n
zrUn*V3m*1aNY)e{*Wi|$CkEVHI_j83D_w_?^+ZP{OGZV<!gkE2SR4W^Z~0t2-yP7g
z)V|)}e(C=Jnr{WUS$|`xB76BxW=|PV37Guk6!wwX;c5z*JJ?1obkYs3xJqm<l^}ab
z7s5u0CuBeiaJs|pr7?@#a8q2<;R_#Rb~ofEy`*5SecDGiU47mWqg{;!%{<vk$p|(g
z{{ShjwX#0xw)sJz@+B{0?_p%q7$b!ptS+1+aN{X>hmens!s;`2<I0%4J0}9lGh_8e
zjbudSD<myGQ;4u2a++EQz($3zhEz1*{nPFrkU&6?M=5UM!7EqLub{#Kb}|y#-VlwI
z%})Hs(P|dHk9(!lsw?KW1UI?t5f!mfP_xl&o~(z#z*1J%xsm!&xv@97?o~74bhmRu
z&HIs(yYBRn<g_{UHp2iXzrs65oKH~LVHbHhB&u0xt0W$rf5U0#$~#ZeD%lp;p6J_e
zaUA~WtNI0_)AX0=bTNS}(alhKV@>R=B-Zq}$ZV6xyZQm)c?7Mgg78wg&UwLg{{ZDJ
z6$9dwOIJJOdHzsv65N{#iR=vOEjf+506!_M>PmMTn*cnl4L_vV#F9F|adTi5cCo5P
z8T!a*>^rS1Ud)eDXH`-cZEM^0QPg$C3^$G^ndR`_%fx5ZWRUHMIitWfB@?E{S0hV_
z^jLX5P>Pc?qtZ2=vX^6=;x}9LH1YK-&vo9Y)T-w!g~i$Lz(hJBFR_<+9s4Dw(#zxl
zk%N9oM}ob9wpG$l*6I?6)=1~(;k|;sj(|YTu{Yi2Ug?@>WMQ!|+<vE?0+MQWFc!t`
zaplSQ*FZ8=Q8k9nJDqFubrsy!`x|eSqnk>G7|iuD2Dh7cDx!CK&n>5iY(s*QsBXaG
zZujn#mmb$vF^JeNAo?^R*+(dK%d9-9>^(iL$N4KoH=w-{%TVI$4`?0{H1X8WZGeXP
zNev?-9<4*Rvz)2p)#JCNP6HX;$CMY3jxO4^Z<0*|R@1&F;QNm%t?l&Rc`oOk%GRp3
zA`Z`UznR^FrK+r8aV*In%!^T70xj8RM%i9&PCO`eO+pGr?A{Cf1C>=asW4{7I5Zy|
zpy7bb^7jI7lII|ktqpb1`Kzkxq}bMw--T_X(8%%~A+Q{ho2OEjI5m-yK8r&Q8}<f(
za5zs0R>hQnYbre^2&3UrRGFUaf<8*sng%pni@66;L_d@aEhNDjDm3_-+`QZ5_eVOd
zvBpFZ-2VVkQJO~wUB}uvDmt5%hDOT^@=`dqQo!6QYGvIcob&a<K8s3p&u^&Xe*rBM
zL3N9V$yW@mf|4t+2S3S9qZEnVu!?OeC}I~D`=Ue?(K77=ca=`<Nz)Sd$zX)4)hrF2
zW)D1+Z|pW%$r~n?!qy$nWhbWt8?+F9R$5JA<n4?&j{!`|nwi=+k}rS)Sxqj36xm@^
z_IiXh!QVt2^E?p7;{Ft^jm>S}e}<0fSwl3g4lONjgo<T;J0gwjft#C`p6a@4gCyHU
z-v0pbuU(~=fH(>C`czTamV%Eq-oUYykijF_>Bir2?yhvb2$!|<8xH8Yc-s*hBelDu
znJd8gO=xZ!2!l_hh*&f@`6#9`7{!1B$PZcgx=&U9QRW^cn3aHXyVY&E!m4!60|}m^
z{H5eI7UofW5R-WFt61lEDnT~UZcyZE3X(wFo)bNB<pm?&^Uaf59d1^$aV$M%{4Vv{
zJLOk6pD8xDpVU_55a-mi{{Z+?KQcMEL2N!!7JRM9)EH`-IZbt4#t@<_<vEcx3pEpd
zXU<aoYU&{qcup}3En%Wh&0{G<_d~gvQZcp*TM00i3C2=XTT|NJF13P)<#Ue;9fb1a
zORShid?8^N*qeN!7#i05LLJh^!OhV170qu8IU0hhC9pYFwKdX44#!zREoZ24l=yVY
zn&0JcZ<3`bsd^7IfGTyWv4JTcb<{J})V}w7uCD2NULfG<PUFwfThr;(^ur7vRilj}
za+_sMKA$9w222kK*eGF+*KN<rGHIfSauqhCtw94xbbuqMi?&(0(8AJ57*$%9yA&4z
z%OS1xjCV1@OpZN*q=H)QN^s}gG@casIXw)O8)MXE?K?@ZRC>0(SuNQBaVNipYo%zU
z#2q3!EfNzY%WRJZ`(Wt7$ERvl@@|>#u{;HHr1a0GK`kWwg|>o<2tW;B7Vf8R#$RYm
zqL3~7DkyYzM{BSJYZW^fEC31ZB=8ihZ#PU~f-8&!=F_;Gq8ow2=hVj-=PL>|w829^
zr4S{>38?DvMAPpdy2Nz{RX=;8r@P<S1vfOh9<{Ses%r65G@b1Lc`GMZ)iOyo$O&+|
zp)l%tl)I;Mwx8v?(CD2zV%I!p$w4VL7U+!0TVC4|S_&sk>AzM$=eFm`T1rheI9LE}
z{>s*kf-%LDD5NcwG`%@az&Esh%F35dri1;s!1+Zz>JsvNqS(akEf@eLbc8bsDA?yY
z6e1R}T={UUs+eOgJ1XS$<dY=Zz(v6egF$<WCecJMg<Gj=uv4&|;=yv`{B8_Sl@<Bt
zB|$SivD~@VRT`GR4J2mL0J6H@RQiu}ROfTP6;&-AR-q_-&T+cCg6b$=_Fc`?Ggiy7
zgofXhq3Op%xvrJKceyH;PtZdc2?pc2M~yaC;iRZb#g}2{dOaUXsirLgHv+7kGaB3O
z053n%Ow@7Z#_DRVMz&vTPSB+MdA~+X*~_Za!VkPEs?Mc|IJK`9SnA1T+Ch=U$K?YB
z6p}xDj&VhJQlIjA8{|>w*4FE8o+8MO;(k_Ex2IjHPGy{KC0yy$n+NHz`Bv?7Sj!6q
z(~rT!4??{1W_wEMs%kJdG-Kggxv;{^Z2$zy%J^VuE^roDUaIQ&;=FLXd$<DYrsEwV
zdwXVsTi0o*<8dzyvh&?<UaHhy=-_jNX9SMwy`SnDy+CxgEhmo4Rit#?njNz%C^>C`
z%DOYUUWVF-@0#ZMxmvw9L!^WYG+*egDfDMXJ)*!O9Y|qq+~rE3e<2{HiYDH`AvH}-
z3OLQ)1&5RdwX3p~g^hSFSsCdo^_lm*&TL1rpDT2Rswb}3C)6r^Dtnf2Ph@VNM;u?o
zlicIvDYVTNo{_l#lzgp?jP{Ev#t2DCq0~~{`vYtd5=hpAb8>>Crm30xm>kymQ_D*%
zRylD;<5Bb~lVOzNS!2!t;WB916SqCLT@IraI{}bfj>(R!{M)Y_b_E2IGj=*UqT(7G
zwW`jFNNsEtLsI_$NZQva)GwXK^qV5KXQJY`M&N9yYa=fNG+Qca+TY8&Yx!LjRB|%{
z<uhpuRs|I_Y;BxuoERJ|!@@eBOMPs&+->1nvqEJwTcmIn@=%V$EiD;2-6UCU+~j2*
zp<LDrL~Zp&SF#4XV{P?BP*%`Fz{j_9(36TZc`ye)qM_s07%Ih(Q$r5-TaFZU6>&Hh
z27nbkb$0&%V0Js%1UVkLT;fY9;RRDu%T~t?z_&O?Rq70DHiRWJ-%|eo(o<4mJ1+Fv
z=^Ke1dv_?w^?=6Z_am_Gsp)B@bH(fezN6CVgG1ykxz18J(MZnpin`5is%W;s6^9q{
zvU-(9r0I>pxhv4Bn@1B4+h8oFp;1lwt<4*(cu1og>~2z^Jtm5_X5LX@${$#ws35W}
z#Q9n(ZALc40bpo8J1KuXLv7Cj{z?uhzKo>O?DJ{*e^i;q`+z-_j*-)Eh=Wi~){9cs
z;3sS`-{#0jwQa`E4IULEQCd_a)xN{%DGV5E%Ru->NfTuRJ>>n>TXhDz0FqOmHA9W#
zX}MW#hE%#Hmqmg@djO?_MWu@+pp_Lds%~TsE%*w?oXI1t!%ED^0<NAY@X!JHLct@1
zwgJF>739=_o0EH^^tdRQnHmWRqNMZ(Bn?VhVjGQxl^(NCPWO^M#`#)(MfBtr!5R1=
zRK6C5x<@ew3icHw%I!6<#UJPj$}-6?90%P}Rn-A5$i=dzq2A+QZ*&{5)pQxCwwy(m
zT%dH>=;@{2UA0+DMCU<wHu$>C)=*6?SElBc0&udlD^_fouhO<5X{-m7We-$SHM@82
z`URMx>B?rpA0&>r8TVmFGpJ}@M1JR6lvJYh2NrB<by{k+WDmL?Hq*FYXju==%Ok&r
z(mVvFzft`V!s1F_jkjnnX)0!lzN#pO);I!^f~FGP(#p_&t2Z8(tW><qH?_VALh2Oq
z!FDzIRN|Lp`8Uz3uhr?nEM&m_5cKtsJc8%n>a*HroL=DRq;sxsm8ziADGj#(RQXq;
ziCFn6X-rrb`UO`QWR)eshX<8)Q$<M&aDK>0{{Sx6U7RLgY%cmkstdm_W{}mJ)TD5`
zgMqQ~tu;xXvCWLxXTL8jvfb|_6T;G$&=hyFeLgC>*@IazU_KV}r+P`RV_j2HU4F!@
z-jxJ&z&)<BmF*s<Qr89vj^BkB89vG?T^i@~?Ho{9k7=-3ZD&o6DJ~^#ht3yQR#rYE
zwyN0jveoidmmT#Eeo`n?(C%6+XKYd6I28<9gb_b!u|m-Lj&St_&GU40^i=YJU@!2f
zqU=Y|@jEJwnla%WOd*6_%+JvSM;vscF9kDDtK7oY6Y!c=l?thr6;<)&pbM%x$2M1A
zf7w^bET&DMJmpzY!p66Bx4(j>lSMQK8|Gt&rhl>_)fEkH=f!nlO4uZrHalE)SMcfE
z;>!X1Atb{VjNXr5DVD-5xy9D5nzf~XJ%FL((<#{d*fgiqM9AChH?rq&mG)DTETerJ
z#mia>7OuLIm|(OYg;yKPjfpAk(qO7LdA-s&$&DEzDSC<``!Z6THIhfQ<lPc<jVhKc
z@<uK@s@lo)#@sYp!kdM5$G_;2+Jy7F+a}c<qN(n;uY!SPL<RO{F0Lpv>8i*q-DBG7
zkyb34>@!B`ky-DWpqu$A`tL|-vBpf3w16@Tm7Ok~JtRKqT+lvNW2+wNZya?_B>w>1
zsM?C?n%gR!qv$)#WXEyIz1DB3^zAYzo+v;r9N6aHL{l_PL_EmJoc{oVtF`SqwgA~4
z$AN603#Z1&`E8TW6~{=-M@4xH+S`lr0xl`NFk0r9Te=<@Wj7Ca4{Px5FYr{=2i^nD
z(s6OzuU#HuW8;;sxo&<G;O}kAY;2vU(Rz$M-EPHn)Y37)45}qVCNY46?)^Sd@ExuJ
z#5f)gWDGI@cDQG~)P(G55t}sf)p$yZsZf1vZ)7{-7j3NJ;H>R%23^1wo(i>PbD;r}
z0%Pp)%YF~Sg0RC-4g+1>jtV&?87&PdSwT|^?c{bUuBH-2z{ppX1j296Vh|N2j|8w-
zjzZ*`BFXwPq83$}dV_4-73&&gRFl&*FoL`|$>`46S^AoLFGlFCP(C)6Nx7tUIbK(l
ziuQH*`D;ew{U#R+mm7Ul4~$ctv9{$&1zU@MQ3K^U(}Cjag+%S-bwB4{hD1uVq@=1M
z^2fCIRV~&hg~MnB1uM1c*+FP%A5~S2RiZ9(y_WBW5&DP-DvBW`%O?OTi7F~&adDL7
z_DCdk&E{}FRH-`;`Z~8yeeHef2$>`w`wccn(wm&he|03jm~G2}R8p+~5!G9p?~DLB
z!dN3@<ZW%PnIzGdZ4FBt>>r@nXCI(%*=bLsvH5n<^JO#ico;D#3Z7cJ&_9JCvIX@u
zu5k~U-(r<>Zicv)HT2QMNNk||g<j(3;5!MdW8QZe97*z1+f3qrRqU>nEs}3~A#r`v
znn<<tWJruRCfM?r;~6I6-$ZZd9gS^6TZ;tt)b7sPsLNS<rH<DC3#<wx6-{Zqt@lP!
zYSKrBxb65T6G<e809dJ^(%$ERabxn8@%9xL=(cTiRSdMU_U=%wmN?vYNUSKjYMxeu
zBkX>*OI_3S@HXv`pZ@?!MM)>7Gg51y7%Bt#DsVy1DzaK>Vs+y<3GvS6+kMr!Svm}m
zW6Fub<CMcK)M4%?!aEI;1{>qLcwqySv0m5Z5E*_-V-Z9MKIJd~1smgYMbj8u4sL;+
z1cu~)l{*c-$_U?#r<oc8)&_^kXAJO!si$MP3T@XoDYw5XBO<O=Is<rz*-Z|l9M4Wj
zv;Gk?FgRc+3tA3ZgMwowRqB*YsB4`Wvx?8jr|QsM@kw#vZ5-%9xft%adNR9fO_ZEy
zqLMMtO;*z1U8El6T~jca!^6kXSykymR^hk%D(7kPQ{QXI0VI(~G!)ww``8FdV`GUe
z8Tz5ar6XZ=!0c4985-O+{{Sj`MHsTN*02Q&?`b=M<s8{voxlXU;v`&wb-5aWX_#Dh
z9H}J^-GTQ;0TFMskFrOWpJ*t)tQY94b=>gO!xQ%msj6D`IF^f_gpj?(z&)n-Su-?7
zSui;l3V1|r7n9rfM7#~S2uisbvc<VZ%t<s2ECqxSWE{IKw%=6=mEqTGoCjq*4`htn
zAs;0l_GH1@+c(>rBPnV?Xk)=hX(JceF#26GI9}J}fP*nSvD0P2_Hj@(w>Adj>YnIt
z;HLhAVSFr&TR5<{zbLp{xu64;17~3yUvIi>b1|fbyo1>kW)U=RU@rky8Qj+Gal*B{
zk6^p55EV4!xY?^wl!zHMJdXY)!;w+JPaqp*{^&@li(X5CvXVg1{0n^+zo2cCNvAlS
z(aE@vlr!R$gzs<cq-OS;hm|mNjTht;$*^evwZnh7Sxm}_;}?y<j|Ft6-FG($j&yb#
zdGL*oNtP6Pqe1@ws%dY65$voIH2M<<wD!JMcn!lQ_e>GGH|}QUp4KaIOdKSO+L^94
z&fFh`S1lAW?)2^DJ_@HvX3pa8l8vOMY?F^n;@(oFKy*@_HbI_#i3?<m5pBc43s^My
z2*X{T>IvuoxN|M!tmM$DDVZZv6C4Dd!QB|ispJFFm9EEheQt|SJ1=kw&sJzvF+7@A
zk@0lOX@SMAi$c&wZT3*vyRcO;snjUW$zyQ?xbB}#Ulgveb)DeysFHmdWNWhBq>CQO
z>~K7UD`l`37gI67Wv0Og7CdDZPDT4D-Yo6hCpG<&x<Ek9!kKkM63Z(^!3p$Jwfmaj
zqNyz{?i4h(7d(8YiXoA-9Ozv6J+>hwR4;5mfI;|CM<mT~wVV-B)e{Y#EpI4DSOAHt
zqqY6PA)9;s?Xr|fxLbmn_Ln8mbi{4D9y=)-2p907F}b7>l{9W?!4@bomMzVX7d}%-
zZyR&vNamLdixn9Kr^S#%Qe$n5Coo|rDn<*N1)ClzqpiwN(l7mz+bKo-U&<X6(7SsQ
zERZx`;cy@m-8ea?8<LHoj*NCTO?!Our8~CV3?_n6Rt80za-o^T6+3{v_)tg%{uLre
zBOFUlEd+K<*wXGuN*Zo9xP20|5ON4rILCT>8<T&!Z}&t<!?m``k8O|2otKKx*0df9
zTM?1MkjIV5g{QE(7BXiCI1Hr*!sKACXaw_OoJK9m!>4C8-GR77#XNfh9?m(k70vDf
zZJZC1g^MH}=-`xKgYkT*rK7f3O@bMO-x&HSgt9Xmon%uY(_I6|(k$0Eg$;*e_9%yv
z<L2rYw)Z!;-8y2lHug9DlXqLXPj>+{<KZ#|jxHygE(CoFh`Y+>xP#>y082r*PS_oj
zg##a-2#C$bY>}!chPoUJCVPXfZ}5o(TJ1l&=Qig&q_NVnARTT^k7R^fDowjdw+RR*
z7${jph~Mysb%8j)(G>B>;CN6vGVCzzDU+Z{5j;2xf^G7n4|qAqMlrGm7QMUe#gck)
zKZCURDUr(Cy^M|QExEW{*&YwH{VY_bncHwL@(|`HHN+Ev!YPjwPU%S?yOktzSlrmz
z4AO0!+scuI1I3cGi$Rhco-mMs<tVWn<#1uO_LKBeIwR3MaJESO*83F4(_4do3K0FL
z+H9qcsqOZit{*6DU64r=+1TYU-~RxGVe3Tu2MwpkWgSZ+BXccb*&F*6$@>Cz$T&>B
zu%>Xh_yFEOA;0hxX35a9WJKd3H@(IbmIUD@4<nT5lOrWG^YErD2LVLr-FpN3r->Oc
zm+V69SQCZLYll20eeGn#uVd|u8>F?z!e|y4&J>LsfcIPAt<X@;MmbJs&98Lg(l3Md
zO#;hu9YHci#BGo)k<c@+vS^j;9#pYZ#^Y%lVuv;#jS(1}+_ml>;HO6EntiTCHZd!2
z8?Jm5(-~{5_K>&84~2FsDy0qD``_xMj=D(B<~hwO64C|5h)o0o{{RR!nZ6&Q$}Mt6
zkR}1+&j{G{C?;>VR)cTS^JPP|j&49VQM#Rm<)pOuNaGf65=M?WVlT7YM~h@4<cc|2
zb~&#WSr&<-{SP+!r?RS68@29hyoJ6$p&gc$T5L{ncEZEtAm!3$Zef<^!755^W>~H3
z#3ci`!B!D!^ff1IpXs~9@Qq0e*+S-2!fiZGANLG|h8E1yTeP1AX~P;=TnkHnw?NBJ
zO!*C%0sjEE3s}5L14ib*-qHurHa4}cvjvFl<zGupC<kM~_;P`i%r3mq?Z0q{lvlPk
zID4ZPQOikA?=AW(<E4kUbW*k72b3hbe5`i_d|4GBwPic>w_9{i1a?C{mZCRUkD*s$
z8JKOfk>n)~xGf_80R2G_ltk1=?KumDMTLlSex+PV97KD8X;7LtpN5b@JcX?RN=OBj
zPj3zce5qMp3A2U1%1JcMpt*!0Uq>J&?OKy4vdMN#>Dc}ahsr|c-`aa2WTlfJ2RH1Z
zbagRgw&US$EM=V*1>)SMlY3<X*<J=g1$VCCF0xENB4Ow1Pr^rbzbGM8Ks<#bYIB|}
zv$52ZCpq$vUe_2*Z1IttC$-Hy8?9j2fSctgb`scs_zG_;Qed`@C$ea@!f|P~6H7>1
zs64FZu)Bnwo4ka#ASZA6M}CFb^i?jK4&fzJj^o2^lB~rAqXo<m#(45qX)wrM9OnN3
z5b=E3S=T<6jw1P`6HIt*_+Eu7Jd4><$f=+k>MYid-O7q;r`3Yk8R<YdCjkLnQ3K>N
zPU7o+mIOGKqfv8XYfNyC18@QfUV^k(-kv{fe)HrGP&Kb}4fbvD3bTe7Xrcz!kc=TE
zrIL9)NkMB)Y*NWaAx*Nek<?Thz3#V;%1`un$~PN<+?8bu;f>+HsE)x|(^Jn`VDce{
z`asE3c_4<SW#QA}f<hYGy7#&@l*G7iCjS7^7NxpWA-h{(JoiLWX>hf~Gy&w2mHAOY
z_}ke<1t{79ZN4n6bowT;&XJ@40Ht2iX|&+jZ6~=Z=9-3zF?a2Iymm?cP5%H8d~C{2
z+LtoTXQvp)gd4=I7-_#^Lfh1`mfqsra6BrS<3$&_<+nTpW15Y?##TgbWT++QuqZZ4
z9Qy_av~U8o*K25)9Opf@SqjZkNuF6uJvjdWsB%-Ru1`pAG>f;*74|mHe~!T{MmT|y
z<8!+zdI!0nk`L7s-&%4_i&_0j>HQJ`*J>&!CeGTy;ZxHZ$)xn-VRgS{eKj|z;MTN|
zaD0_vr_wSOhLF&FCE~0lLn$SW8`Pc0vjVNChN4Nfmile%09#6!p^cau-gv^Tew`!a
zFL~J0-?}_gc55s2%^o7)WE<UU+rqN^gkXk--Q9o*(U!$%sloXtx+Xb;Pp2QcL&;5P
zfHzO3jsP!W<JnmTv5}L2f5HltjHhp_Qz+a<8{I`)ROzGI2d5v7<q1DQO2G9!NwK)c
z7r5UpO{I~uHtu%O;P*n+KyA9)S>*Dfih62u>PsdEl#y%O4SO$JOe7eL5#dy7^zLu8
zV4lDyf9fsm*$CRfjm1^gYYlXpVQG=w+<Pr25Gx$U{$4Wq4TptSKBu};8*(qgO3CJ$
z=FWBg5@}jo^G&(!ASt_VMWGPdHdIvGXg5FE8Z>vwnV*5kR<soCr;IhA4=1`TY_@pt
zu<IYPnwv^(_CppgmlbJCrm`lD!tU;gY|Lod#(+K&nZe2fsH7_?VQJmA=gChk1AwA4
zU+BBn4H!3B4E9a88Bc3i2LT9b7dCs~We^4ZfJzHM?1XfufTDD#?1h*)(ls;GLGL8;
zQ?71^!8?IY1b9OS5S!{)VE}d)zcx>df~);UI48De0fmi0&MgD7P1&*)uW`;&?sCB=
zC%S2H9n@s^OgH6Y6PW<D(@cWsR}wx_u##}Gf_IN8&3IAA6OMA8_>Gn|4iW+1?w#sk
zK*-8@U;~wmFRC&U`ru(e=-f^eZ(v~e8zI@W8TpZG_Dwa7ZzKg(H9&3wKvc|K{Kz{u
zB)cx=)Z=e-6-KH_A-F+OQq536Ye@&Xx}oXj;nN$R2qeXMK8o0?W}NMfq@RRkK9@Z9
zG995^!9xW*Z5(#_M1sZ)kP*<1O_kJIWj#HKU~{~cXxfIv-K}T{3cC2BZV0-~YW+tI
zIB|5XAAF>g(lSif&!{ntH*i!sr%=TJCDMSfI*(RVR6Men5;(tQT*zx{-W@C7W7_yr
zb8n%Pe#`w+t6wXf9W~wZI8+jiM^S&h&e~5GS6Xg~7y!AuiqTMMOcwS40?G}$VQp57
zzKzq@cyroTzf00#g4Srb_(wrc6fNwf60xKU;a2@2D4C2604I}SoCMh19HrT~B4P*3
zFJY3Tfv%K=7^IQ%V*|=MFGiV}Hz;-4tdK^=GVZ`pI-(HkTq=EcS&k+U9s<N_eOc(Z
zh}>j<U<#Yax(^?-(yHrWiX!Jc3lA#^)V)yH<n*9+=M%tLdc9j&)cuj&fcQmdT{lrI
z;%bLE#N^#-lz^H{v!WGRlwtChSoTLppvS$hEcbmC{*^%uEH)rr7ULLjwZ6!zLv{m0
zr9~ZyXdh*3PYW0=wQ~zd##GI1h01#ph1xs>*AfO2l1Z?-a~Me%2n8Z55^{)!3yu=)
zYcfiXYQ{#~6|B|t6hl}$AggQRg@l&@Wl5}Sf+m|An{XBjUDmZK#}+`>F{im1Q*-(m
zMAG#aR<fS#jo`bm1!608JwsHQ#l@^WuAzrds-63!+~Rp9Xf%Bp%^<m#KSU!2{{WD0
z=v@ayy`1couhZz62nO6H&{O(t7aS`A#kf?e2FV!fH)!L+m8UoecGxLc@nx7vZ()@i
ztnLyLTx=8B6RpM&>;xj1IoCNT*lF0$bF!ESjC|P*Sz6edNpJ(|jhnFfDp?pg00l*@
z>+sUXOP&S3R&S{KraEBeHQ>LCEIhR}y2Vx8U9g-E$u}pUx`}PB^(|d|j)s&tH2(lK
z)LK4?JyfCd-QOi$=o$oVj6O!?Y3XSh6@weXc*RGtZLyjrjTJjbv@HZNv4X%@1SC!o
zw&bC84ONjei;MkHay1qeb&){QOMqDppw}dOOmyb%?1I&5>#N>dPk?)<DQG2*&X|(!
z_fV9Z9Yq4^noUh*SFct}uaFk1Do;u<#xM(aL}-kQWu0I`vXRiY4Y%D+Ic{8NW~o_K
zPp8cz^TAizUWrZ{x?m62vJPtYQ$%(&6Xj>?b-I}zTIsekz$?*$X;H~GnXs*wPNW7X
z%S*mHD$18Y@JV}Hb&9F4n|U#p6XdGuonF1CZJbBKSvDA>S6v(e?*w5|zgCVJHV0$l
zx*CzS^{pGp+Iu6}qDKv-k-(n?PxfUrOHVthi(bgi-sG(|ocLjY2ebz)>~&C6H)ysL
zkXL?X<6y^<wbw>yx7289>f~$r&G=Q75JgP<8zL$vm62LEdx%w#Y1NgoUU?0?UdtxT
z=(3~M*-Pz-n~xVn$x%~SH^~10VeAmGXnu&?O{|$a=3`88j0K!q=*megj+&Se?F9Ux
z{{SN#Zr**z{3gX&>0C`99}AtT!2bYiZS_S$ov?FWh->3>n`WJ@Knge-b0Kq&%6_v{
zeG{;op9+^sHFHdE9exGTZU_lW=(%Q%6t50(ztp1Pr=+JlL)m|XG_=}_quSRN_(Rj^
zdV}T<l0(loNb+w(s5jYUY)LFOw+W6l4hL(?mq|lW2n0Iz<rhyQVvF7~nMy5eR~DX%
z$!TYr!O{>9AtX92JZF2&^L1w%n=F^I>Y_GS45W_~?0?y<kT#xygWSfSvJ$2mNguVW
z8%jys_OZk;mny1?x{yF^JHx(-?9^OG)3md+I>3F>H>PPKeZ`4YEvnYu0BzXL$o)Q|
zwUQ595>c@<x(%C6qo$7HF@!BSjLHCx>eb=X#qJgeI7~FNhPuTR%-*Oq`x^)znEjP>
zvKZb-7FR8jIT$R_YanW&iSEmQ9u{0dOsSHtM}IN;q5lBXW{uWkT;t-(#%g+a+qk(3
z+38|_YzN9tYUp<dR$1w_4v~S+j>qV`Q!X){8W2+J+I$h(Gr89OP^s#5Dyr!TjgAaX
z`Vj>BRP8&Q*5AsKDWYS6XyYYRRm&to{F0K1^VGb6!ai)0n;PiV#i<v@BaNc`WkoG4
zlDm1b0+xcMggVFfSCl@ZBmOAi9xU97I>9>|v=Th1X|x)Ozv7ozA1cdNkT}{l-2D{V
zV{6|SY<6h*K`)~>OJFY3{{SG+Uu${tx;;(^-F8KHeG&B<HDyEhRMcE}2-+<Uk~r?-
zK2tkF>H0HTmanKighv@*D!Pf2RLgmsZ+xv@sY?TJ1_Gv%N=iZ;1>NBY*I;%N1q6Yh
z$CP{!)kPTM;Z?z{xV$y7kO@~b)lQL@HqR-vfp%2tvepA;G@GF*p{;wa@aBb~e63@y
z?1GoqiNO0!kHXxSu+u4~XtqVj@~bL0Z#EVR`lc9M>xmlC@`C>WPHfV9Cuu=AhxP%1
zuP5B^q9QpYh~e(fgn#6rq>k@+aq)FqSy;{1jewAYX@w@c4R5IS-OnfLhM0d44s(<z
z=IUN7#(;ZS6Q;v6<^CzbLqlvn2uWxm)=2s)sa^ase#+jSju9AfCyy#t>JU?V8yO^g
zByz5dqS`Z4Y1Q$a(@BJWi$fJd_R0QK+O15LEhKwdtEuWGfB_q<Q`Lg2qf1eu&_N#k
z&A3$ca5dq~ZLQd$T{T3~12oRt;_7!g2E=xk7kyCD_7%tymLpA2By51?X=!y?j3KQT
z3lmUfZ9#Z0weYTVeL<1132>)5{{TfJ7e)84E8V&GN?sh>9HC#T(z%;h+n&}6N_pJu
zwjxK-Ny^7jCTvXX+g%$=v7`&2iK~?RBd|&ND%)=+)=2DoMXg;kCxn1OSWcwUr)<T{
ze$nu?EUaxie~l&(b=8`EL9uq?dj%;yj**$s;B#djtAngo`$evfmL}boD?dv|33m9}
z>t6X+v{2cD+CJ+>RtFN+ddF9@Xd6Mosi@JYV<t&nOO97pR=%CS#&+zp)9RJezx|`O
z{!-3TZjuUu?6R5hMR5=&%BNDETDo^Y>U>z(qiEeD$lo2ls?InVTXNBK*zG%DXNOn7
z>MHlPTrx-E{#R-g^4YI}+rT&5$XgG@8Y8)~GB8{naxI0E4s!u>0cPGn;4gm!xkAq;
zELxKZ(kr$*WUK+hn<HkPIb^e4lig9xQrW5-Aq^5=C8}C?K1ny0lViwNjGGeKJpT9G
zixGlCfyL~S*Sl;8D9Wa70(gjX5B~smD!G$^G49t4rm?#xicRlyL}YRD6P*Ryc031+
zv>p$_>UPKK7uzDmzbKmMUeMX&H)%KHk^caduk2n-t(qpu1KVOx{{ZTI6`iSLqngB)
zxEw7@gI?h)E+n;x{-N@#HA+@g+Z!Yu(#cvF&PopA9rs4`^=y<CjXQ{m$2s7p%|}w#
zZV`u`;CD@qKWQPP9^j4?B^%Q+bb8K_SlWtqxH|YnnH*1Z_E<iV)O|MwIph}N-d6S}
zwrE4G+mN_tjYXYs$;lAzcJ3EiLR6RA$RsB+cHe|5hHQrN2H4#+f^l?Vo;Lz*{gOi@
zTaNaNA$900{erV_;FUaYE;~siqMa=fZY&R!6q2w$@uj|AgV02g$Q$g9r3WmM2W5a1
zLn>yr4gSg*-sfe_AojRMHne6Snc#!F`>x!_<;6lx%5x)OIVtH0vUa_!Q`1zy96ekF
z5o>!D!IuExD~e{a)=G*J(l-nC%C3~P&LyK4!edy#P1K>d!N1WJ8V%UiGVaO3A~={1
z?b#i!p(M4$Cq^#rR(mlpdxNlWq-|8KH@a3agaVs1Z371>T1IwE-BO@_nJl>KQ%m}t
zbzb~C2^iTNeXS^bQThiaSo-AnvL1I1MbbqSxBVu;Skjn7K#`gHBgI74*;L6r*(4(3
zv9;9IaMQp2me`<L_d@U-4VF?&4lNc;1;W57+Q)z~ge^Tw90ifF$Vwn1e(nlp+xA6R
zAJn<b9IP@27PlW%ju+u9jc_&zfRU4xjY8xOQiojmNMsgV9MfZTOgsQ{WgMd8g#F^!
zvW@2Fn=FxmCTE2ZgokbpH%Dx3u9)U5(qg92>MFS-_PXv0d1Z!wX3IGO8bQHRLmkMm
z%2$mHrbYQS8F9iTkhPd|e(GkmqulbAX8MudHv)VvX~m<WITI@N7ev-rHpNoR`@8^E
zrl(C-;c&u2t&W;Yk5V^&$VFFW8_;zTJ1lczk0Li%j!^WCYa{(CcQ6rf2sT1SNQj3t
zk;>s4NhZK!!X5KV8;EebQ(aOXEZlw2qcDK*&()BJnbAD>@{!WUW3z^Ap>ty`yAQj<
zG-QUfMqPq4{gFSDcH6WAbTeac8E@SgM_9<)wc_^ji!c<hy^c2oA1RD;gSjW_uRU6N
zhV8R%hL(aSyZCo)(NF9T`T%s#0{chRG|1-@d|eeQ9S$DCN0keo8SP?)AnlQCE+XQ}
zS5gZHu-oA?)F5!1`IochU<HT1CjS5s3wcFAA*hJ$dqM4TtD@B-a52dkaPm>m!$UiF
zG5cJD(%5Z!5Yjz@<lg*QG(a3SyY(fODd0ZITw0)flKPo<{2-eR4|NgsKZfCSOmTW`
zw9Fq+g92NZXZKK4RMjxqu5*)ZfuP!&SYFGu;CvNRJYJcyf9GX<R(ovkf`pbyT>fwM
zMm(=z(&&-5zkDe}+%I<B3du-$X+=jMCd6S<iYX0|%_Ex>$fcSmhr=NR9A^pgG&q}Z
zR7JMNKugfvQ#2Y+Q&v;7HmWAb&w#I>*ED+QizE$+<Z)$%jjksJET9AYNWu9*?3}Uv
z8a+-Z+j9hk?c^aDAoRd>fmDXBNR62zfc~Dz#=bX#B)d;yiinTtmK6|3IXl=K55lUf
z>E=&!Of3G^M^aS=*yOXywxXH`o3+3m$=CKxv|;9?)hHfBjB#&*60*FsA6^%*`2l)8
z<9F(7Wd8u_2ujLLBA{AWy*GReBWvtcvkeZT8=dWU#fqF&gJ7;|x?Y-g7gITedElxV
zjV^j=c9%J$%YrGz_BScSnbI}G^?u3FHJ}!iT{CBkk&huwMN&&hk>9#xm!Le2_E^Ue
z+zT9tmDgZojTX4!M@1w=+mDqz?2W)~cHated!o4h&h%n%!4_QVaer&A@P~YFW?1dt
zM8j1hU1M?--It_IBW&#UP&gapcTN*I#NO6QUI_$X_d#f?h|zYQQ;9Aa9Ig%>!j=X$
zN7>vg%#jU&IOTE2$I)2JK+*wYvV@kFR&ohTX^x!{HO>lXWsmuqhj1;y7W<~|{gFsu
z@f#&KjzCY26fdWhr}PyZM#l!nvYnF1(fY8rMnL=A++-&ScVK{isqWhHNf|@Awz(cw
zOwAHG&CT!kLe2+cVxHoArWj0)yBrU~q)`lnZW1=vPL5&?jsEFe*;s6EjxLe8BXdA1
zjU1`$C-WCPT|d-oz6ydyhOxFkRKV_XrNp|BQ=D6n>!kH=J>S_zFyDm2+njQ>42d2?
zxaZ+>UR!H9L_>pqQ-|r`T?!kZfhpm_{{Td!wB)E-Y%B@;r6&CFg$_OJHUt}l&Cb3>
zmu|I)3xPifqHJBp`5$!??BJibC$eVW?3h-FoNZ*+xOWy(Ik~Y3j*kBTr#4QBv_RwG
zG?xUgVF&*JDW2eR6AH<x-qP{B*dyB3I9<H<%Bx_x;Sm{gZM2`dS!^-TW20~-aW8HN
zE1{pWh1BKjaJxaj(M{;AWDI0I$0<$xE-XHOWTzNEy_PD7o=$L}d$zj9;G$n*+*w5#
zW1d?mxLE>y5->co*&|)>O^RuF-~2{f>YVCEUvv`viQzPgi0s)KTss1pSEH4`u%<bo
zm?Fq}ff+Yz^WjL%k_%g9yl{q<jS?F={{Sl_Q5@!*_(&S@W5`Q)G<o|a^><ryc<{Ez
zOp%U>&9saxa-JhI8)zgCVL1q9kpBRSu5(L$z!CIQXtYA5^k4q;1&;ovsEsE4!60z)
z-8Hkw1)M{N%16l88-|vwgG`D>NfA4mQ#ZQywUI8B?qO%CaoXbOV%?_Z#P>{uc6IIa
zO*SUUcK|FxjPrjf(2^Zt;WUe+H{o{dB7_=AZ+j&Y8(G5W$_jBd;zj(YPpAI?N9>KO
z5$p&#gkJVGP`osQc8qvaOHU&XTf%|OAn|2XMniVnD~-XqAt|};kRAv5S)(CCoHKJ|
z{p};%(e+W^&kL-Ss(K%0pVIHLMzm(*?vMkH7Y`gIVeD3iw=8wCre$2M_Q>0X2yq95
zt#BsRDO^Tc2y2-syG@GcUAb@sc2MmATqgqI!>oYGkFX}=1#!Du*!+aY2NQqrxHyAr
zEXT3eBfs4tu^GupyRcn*;?^rEF!4<545mpNNVA31xgD;N#CJAMq)K?v3k=Z$*rt1a
zFNMOcrJwitQd;8T#>yEo2u`G#31gs$b$J{9>qs9csC5QRaqaPyQqT|T82Tb(h9c3n
z?Qrn3iX_u7DXOt&Sl`DfUokv5U$82Xu9h+Yb;6aEBwP}H;Z4I}vexokU6{9J&k(qK
z+5Z3tNGeNnemf#tR|CJ@Wxhfb(5(<U7|HfLXS1-F%0}+K($nyrG;v5thERSlWfNah
z5gSh7;HN^gPHCPE!MO0c28IG2&`-*I6^*r}X4CMbkcW$~hkPL4*_DW3f>DNx_))t{
zYr7HfkZ&KR?IXu@L^W?<&Ck^`W-F?6Q0#__s`<1jT1jXp>K3Xx$RBHsr5g}qfDJ7-
z2&pk1j1T%-+lNMew&gVG;A3j^7t_OR#xkIOolN|Ofpq#2KcfQeIo+-h&!eb~*aU^>
z5@{?hAT)hcPtnI9e`E@&vjl%I!H{irEH9DRD`hr}9Nd9#q8#XvZZ^T~guQwlWNgp1
z#?~P;y7^aA=`Lpglr!|_cLXhCa-y=}pDV1-2*akydo(2cg-8DYnnfF#^aJ%OzfI0y
z5i{wPRW(ITLx~0Uza?m!O9QOf*y-f#J1DBOY1rRZvEnxW04z=9uI88ik22XwM^4w9
z%HrYjw7PvO1U{wO#tuossw@m}^kd_Ol8KAeb)7r+ZQ;Fw*Ifpzv1=lfmq6RJ49NU`
z%D%d)EBZ`+;oO8SrBgfY8)R@`@qnO)&K7Nt*My(QbcULrP1lKl{G)XJPOeA#YzGRu
za2orNPrwM8Q7oXx8+|7Cw<Sy9i*`3Ak!3!$ELVyj;z_}`2_n?%vACBw_HShrQB%S!
z>^S)3sozl@G-qQ*^MC@+#mCq_SqUz;UjuhOK^Xp(6FQeynfqdCYk#Pvf}BnN08v(U
zj==U(Ni0oa5X2ha>O7QJjg59^k=X@CwW|Z^#Nu9moSYA$hjnAd`RW|!o^yonS}}K6
z+sR87`lnb}F%^mnq#jS$IivOOB+f4b_CQrKHpm*rZ6DmL+SdqT4Pd)~=d!A7ZhQ9;
zz30D$PB)}2`wG+P+87-v0i(6il@mqj?20=9-Brs~6(F>Z^<?bOnGvb0b7Ym?jAO7x
zFGw7fh3_}p9trTcJjUP&yNWJ1LdZ*4z(4LKR#erqacm=VyS)aIGLV1fg9Y7f-#w5u
zRquVn1Dt&J3Mk=pzWJYz7v(FT6GfUh?6cX3*y-Fca0)hv$kI08_dU>UsNC?z+w7z@
zER1aq&%$0wbUzPlvok{%F7+h(@P??b47sp;oq$k4$IJR#V0kF0C`+A?1An^GlV~x4
zS3H%KPr0}qh4@_#l`TuJAs}}u`Lyh1tk9ot+rmgH*={yg4K5b2HJ}sn62qd#GI5n`
z#^3;+&`&9@_HGCQJvJs0W&%{=4V(Zz07crtF~;ZqP-7%T>DxETX<;VnUxb3hSpmp{
zES<Lr_OVTMugb#N8Nnbf+UsK~LA5Q#kfRX>A1X$+#V!&!_7+&wbB~0FgoGt`D45}7
zq1}^gPyQ2{%-I0+aU+iDES<L8*(eK9tY8VvZ~p)(*2WUs84FRYbYmC^)*Pm`=Kv{M
z$6JddOxB1V;<%D~DU4U_xI%jcs1^=I)R8m;oSzBqjI?AZjDe0oHW=4!3OOEm<v=Q<
zwn$8UOlSF#U_{&b%4wOSz0i}?3mvEzODvAt7$qxVZ6eNEwvGr03Yw=n;kR*9(&@8H
z?wQsFS;0dLZ2&M6<b)lF<@9G_qN}KQByDL{^g29DJEixZm1ZLi7qA29n)%rnxo|@0
zU9xCd974=!Z`n)hvN7%<QP*nl!qRt(te&&g@Wfo!$XxFY%10y~Ci1IPiZ+wHe(Nu-
z^<)(H{w@9iSSsCjQ`8<=4(2eQ3Dg=TO;f|AE+qL%+@$nvAe~34t7}|YP8`;r2}4oo
zm37Y&O6NM~y3^^MH5_(xm<_%bhLVCPTV}8(jx@VBCd}5E(}A{gn{)E6>2#>$10P_m
z<6synOEe4so34%71wAtuFwt<GE6iZoPR#IA*-qIVoUHb1qM`Fh^NZW)r>CW;kb`2b
z>FDBNzR(oYNXXe>0I=mR6oYnGMG24f9H~V^8Oa3!sOnM14cq_=9j*0bFm7Z=d;A2h
zX$Fn8Zm|?BCwL!qjMw_gINa#rc#-}am6NN~H9b}PL30>;1a6blvPj_R8conjQ~r%<
z0y?Wy)+VtoYYE^hy(6W!5a|Zv^0Zn;jT`_H(68WytQcx|!9-oMvrN!og`n&M?5!I}
z*xP0Sg*b5?lCi}XvrrWA%e01J3fLqLyPQ?g7f2!aT80Ov4gd=xnjCPYjsa_&CpfY(
z$XHRV8%9$lsBB{Q2n|P5iUymw3w*3cQT23jUN~MJ<Jc6gNd}E}r>;W-33I^vtlPE6
z*H5wwxxPmW2_(9nt5J8C29v<yZhBWtFv8u<vF=jwat+aSNv6X1gq0*`;RC2aLfO4I
zn$z;FD<XM|YaMfL%D$6Ikj=hF8+f`Ai%e$GB@GNV1TYn49XlE@&=i#P?TLY*O5z*N
zEURS5!z?foIFa>G&0P}?+l4hT_08Lq9FWLiF8irrjn67}(;M82DOwuAV2zmQ<6{87
zE2WjK9N9rtP}tf@a9K{G>Nu%EZ>ZAlz;{V0BxJ0+)ir1-V{voZ0Qp{X)V)^vi5&$i
zzAg|o)fM`@r`$wj@D$p2PCPgn2i&De%dody721BAJ$%9PmpGp*chmX|P&6H){!{dQ
zG(<yK+kCApG+vtmwQ)r0whAHi$ZJ9%e+{M1Hd4OL1cV&ktl)<6!bc(KtJbw~3kzCv
z+RHf)=j*D2-FC-&{Z^gY43bDBk-M|u9?CeW;{#y*lCAa{Xsn_Pg`uK5yUI0`CVz9B
z8~0Gv5)I=SKsKtU*A3ikcmYvCAzaIk%9ur?H$l|8Xxd$J<KQFdAehDKO5z2$@}rVg
z5?EVd<v#?rPm?qAR?REzBTHL!TpD|3U@dEN$+DiPQH$7u^prJCjo=q!uvAiA3C7*B
zF{QDNH?@~bNk-cM*15>q%D9YYZHcn1VR0qaBf?2Uc*wA!rHVNB3j@j*RE_T!54Dd0
z2>OY{yIXyu!b*y#wWrugw{Vkb4W?CU5(wI%(I%c*NQU+)YF_D`XR!YO!ZS*gK-)&p
z&$2N_lV!tcs%#wh4iwQ;%?S39aDkShc>vobl2b@-cN?DR+MzDP>TBv80KfM@Ph9-8
z+@FArWG|k<w#uGOEwD3uwh3(@ZJ8}Wm31yAHW1^&pH9;zjlQKrjr<j(rj~)3Bm^aW
zR1!S0Hv$eYnpHuHXsxMq4tB!eeiZtA3}?6tCdCaq4(ki2x<cc%fCWA=AC$U9ycH4H
zGQl>svMOd5Il}({1qTf+L!-XnE~_f^simm9rzYo%td;79y7nzbuQaYDqz0<_^@!qk
zz2Kh8#(tlubasvQ9&D>(=_w4}q_UR}lz7)ba($M%J$q^xE(=kUx*?L_K5na^(`Tn5
zC|c+J0y=Fft<Vqpc?tR{Nypn6H(Cm%o|6rEXWXaHCY_(qspxuhR;#HXME17$#|rAF
zp{oTh=lYknQBsQbXD0mu$6cmIGWH*fsHCc<o<JaIA4Nf1)8?M4&o05u)vYh5NXEZl
zxKC^BN^H8Or=D1j)>%_)6jDVms^eqf7CNiZ9-MJ!j4Jxd>Wb&?m83Vd(kIF2c_kD&
zf@z;<?_uR=H2pr3MsA)#yXvv?>TuFDw49DC6jc34*+$X0p20r|p%mY<QLn*46i3sM
zw+kcbGNNM8;bgkB^_6V)M&_{jLTS|1yYSPwO~t2Wd0L{yx@{~iGD~ZKgp#fT{{Tju
zWf4=RY7>h+_612pqKE)@F7mWoo7gENHI&UUi6ssB%C^vArIKJaiy&r#TiVxZH%+2*
zm<tIXOeS(*NY=+qr^O!U$kC1#cU;zJX@l7i4j>@)Dq7|=mc91zbh<W%>X!$}_qrQ>
zvvtxl-|F>JOiXm{4JVsjUFlU-?`SS)X#W5T%Tdx<M+tLU(Ba_&q|`7@TQLA%Dv+ck
z?e-HrML@RlPtgrEYom|dF46T`ZQ5LsZ3J#1Wp(;GcW!W!!?3#2chIR(1X`pIlVh&*
zaHXZGZstY;rqbvyCg2O2ubWjBBzABB{G@WB_}d_dMgBJ6LtAxoOG`@&cD_d4XDe&!
zsvT-~>>f}OQdKzblTmg20)%Jw7Z0OfP|8-4?ad)k*H_cE-keNvKO6;H1sz+TV^Zh0
z<;r@9CV`lXbCb0h3vynF<)(d0u4HpZ)fY>qfZR-5k1Bl*l3JG!Tx}i|#de(>RQ}fx
zZP_w~ss|>WnO#Z)8L+AKJ}#uvC|F!1pJ^TLpso#qV&^r+-g~OL{-Q9qZp;iM{tH7l
z&$D!Y(IJoAW8H2QRb2FbxA0_c(6LR`8&K=*wfn1$I%+a6GlBS7%|61RB=pPH>aoLM
z1D-ww!kRkxCpXwyPr{CaQqw7#0H-fM4Z3x1u}wQR#Y?pLvXkT5D4e<@tOU3QINQKO
z!ACovfpC1GYV~stTTV)^9ZyyyvtTSAR2--22aJBrEL3f4uOpGIexAW+7Tsne)T^s3
z01dyArf!Q_Q)jwh57kXMUeL}luFJV0rJVZ!Af~@bVf`&O_)zIu7NWv7Nx$!fs-mQx
z2nVkbzm-PaY(%%Bj+%f)`kRi|3inGiw+(m!R_gWC>>F-cRZKN9NbhWf1qSz`)uYgl
z<XH(J&HE~SLcS2v){v@cgWfXdJMNiRMJ#}ZlG~(q%$4>DT_h68?{)s^uuDY{7KnXR
zM?k1^_kLj8!XcVN_W)dzqLo2VRYdb)W`n{wTW7YRpq~W^2TvJA_Ygi4YV<e8+X<yV
zbZU)lkk$!|mi5|4)htoQ8++%<7yU8pf4WxyjEa$>J9@4s<rI?@+8~xku=`xQ^A&Cw
zc0K}<N-|CfMp06Rix6G(Rg6(LW`9)$>?T9Fk&E)Y<6o(5A-2$59q!xQ73uv|MKtVm
zbU?OtkVne%9;k)WREcL`Y>|sd+gjt#)q5Bp{AZt;e$1^54rrb%hhe0Dg>j@7#@o5L
zaLxRxewt_+o8pk(K3Y7U%Sm5O%2zPo*&wyN6?o}cI{>b6WS55k{>rKJ^KOz@tXMAM
zJFOiapCh0%?cM0SJ<amY9s4VNZ$|$BL#=IG5wc22q7txP;E(1X-DekK@-muxgwV$J
z^KKQBT=NFrTWi^MJv1@Y32Ck(d#)N!={^xsutOkitkaS3ici=%74N3Icd?|jb8bS6
z#=?E}aPo?rRkBbiatOtR?0%jUl#~^+=AtGE4|WcI%TcVYeKR9C0{w_L1q)MQnP9*D
zz%3k<o|Aphv}ZRqO>F_1Cq6jAXc%)yvfKe^$+9YAKdnqlByTM}*26%q4va?gWE9j8
z8^<#vFYrI|62k-(!px4NdEkL|g)F#jSxk8;npYe4=faM{{3H5vLf17$G($lk-EF2r
zw&``9F0)9i{H=T<DT{XogM2PIW0ZSGN}OLsaR7O`>;O`{sGMFf8h*(KqogEvQG!Xj
zM-mQ35frn>5xkIxAl`$-=%;jN+{_{$R}06ySfd+VLgoM<7x@aZztNHRWOfRF%h3IM
zBQK1Tu-ttUNp-j>^zp^vPk6w&YHOf01|0L-_Da`DZs8IHWZV#(S$=Su#b^`<5tj?4
z4s$=45T<kh<P^_9lb#VU_~i}&n`KDS+uU-S983o}M6f~y?T;y22*C4u0+{z3+>}F$
z2kA-ZZ^#^?n5~1g&IbIc*;HGNg8o-JmO$HE?wjd69uWt!S698b4F~Lpb!4RYx*?Gs
z?Mi6NkHQp!tYsZUm$?^KEsV~=c=GRrEL4T394jgr9S%skM+7$~?3RN;bKSkp+7++*
zEKx^uJ8$18IdxZhds@qQSuJ*5W};*0RK1PtE~4C?kw~c3v})&$IE{piHt<sgj|S^2
zq(@xW56sj#=Ka>15(5TqRU>t=C0>S3EO0ILP%(~?_G@mZnb;=RMCgDS9P%-HAvy7l
zfh%ARqIf@~rWlKGO_rKhN3{D!6;P&*c?m86sNwP+M@<hn(kooU+V)N33eJ5o%wd11
zEURAN!b0k@Vvo|0*aPJ^c;e|DbW9<!#xAF(jlldU;SC4ee#q82jc+RnA<l)QUpGNK
zJ{fm3si&y6E`)rA=I6T2S(TvbYWRzG$lH}Hj-h)=8&zW=ZHY}W?R~+zgy3Hsg5`>r
zmN){0k-@hh;G}y_;n_o090#@7QEH2+CNgcZ3lb1h!L{Db>9PsK@p0izNgTWPI>dKH
z8G^Z=Tc$@5bho*}GO8Ef0>MG=VX+9<)L7B(F#&6j31+2@?ZZGkp_m`AIgYo&;ZrGf
zoK2FMBZVZ5CCw)u3VUa&jn^QXc~6b<fJ+E?J&NbmNC6T=Lfc>?mr`_=5=K7Z4=Y(D
zfU%*!MA_v8leWlvOy}M*cts!tNf~Q!;7XQ<VR>Y&4#o-%?WnfW9e&2hcDkxJ?#c3;
z+AV5mBY8VQ1Vs2I+Sj?ha*Cy`H`?KnlC+1N!M5y{{R-pkmN}*j8(q5IQy)?u;wE7S
zu?whLUVEgiiTkkBw38a!K}T=p?+e;ZxIxbOWA?q4B?T=+&^Q5PO+8?gT1K0Z$w!Z{
z*&HqslkGT3ByBGCjytL2k7y;XA4JDU*xm05quGHagx_!(Ty8OBb7YD9TFLT783S*0
zY{`}3#k}218@D&y+l4WQZ-P7~25xZ43lA1EU}y!TgW+&{h#=%ET52}b#xM_TD5ugV
zV~eA8$AXs7Wh7Enfq!VS20-ozy0WT@NaS~^8Rp1&8qJ~2KSfBiN=%ZHX(MPYu><)^
zyP&PpCU9*;E`|R9)(#eaoLusWW1GXq;qslbX&SicBqTnHaVrmQQ1vflX46Jm?>1Ca
zl~pv-2UE^j@z|@DYcWj-Wo#{V`6^5)2GKSN8M(6DkCoMQVxhS#f7GF&8f>KgUPr>>
zxsg;uFtfzXzax~%SiiC>s<e{Fdsq*`7D^Z%3tYg%<b|k`H@d}=S=QmpjB%K@&jUgJ
zq1|NKHQ#15(8~kv*WIg~DR>Mn$XciA@I8gmxU~2@Dv9)FmzNhgj_g52%k0bgD+?+%
zdtBs=^(|*)cqpf`dTWB<_Wct*cF5Cq*o1}SCc7YLEhG{2Qb(|o9dM(3jcK?@*&2KV
z99hu}kzqzQ+Tp|NbkTM?>^VshYlXLtcutZhfsFkUjQ;?k?XHo7-(oz3M0$j7!8!R=
zq&Qp=f2u~t906($C;>GuY?6Cy2Xzk6E<#3v&PCT;a6&0i-3|aA!s=GAo*bgNxUue@
z96$txhKRoKY~Z1Dl)kNv$xL~T;`km>GkYMC<P*w(g4Y9keH4>M23Sz9GY4V2zUq<D
z&y|M>WCM`z{-Bh-rML99yZa#{oD*pSn0{2?+yV{4c5^Kck-&gQJ=0j$y7wR^$l^Kv
z>R8#mppF#Tbo3}`0|5C-GA!ZyDFiQIyIhc)VePV8Dw)B)5AK%P;9WJ&a6Z%aP4$iL
zTl*ofwnzgkZY+=ikPX6LQLY`6U2X;zObFuJauiO!?l6j^8=P82{;El-NAi*rXbcUm
zb9onB2t1o5mMIu<bMT;ZuIo4uQ=}u65*uR2x?{Oc0i<7YYqOi(sf284JC4#p_$iV{
z?Y)zn(hd_uj$!7@31edRi#ZU+G1eg8;X>!J#_nMHgyvfJWS9EkX(5n6VdB?MYXCTP
zkIIRYIiLaw@}%_}CIHHlDwzDVBrd-q>w}9xDIF#7>?~0Xc=nPof^j>nManKw?YKWg
z6P!bZhEZDt*z(yx+{X}|4Q#ACUzIF!9fNahoYqAs$M#g>jyEQUx>y|3BMED~c2F1Y
zJ(SO)yDuAoLpnD`>o^`zsw*9#=K}<TWYA6Sa+3EPu5E*_&CwZH@J+5To*wq_Zjcte
zI7VDOxwk4Tyd<bX?c9O(2|M>nSVwFmI2J&tn70Kn{C!i1&A~|TBql;jWJC^mO*!(O
z?~dv+Y@HF1gxMh=@VVUFrahqKauK8_M6k^)F5Mi3u13YF$PK57uLrwLl~v>)DMQB@
z2!X${{k0U+iwA&DXC#`1j%ho8WlkRxt;PPTSmvG}1XDPU;{2?UHbGFp*OrdTFb%w^
zWOJV;=Z|-F!LDh!2jNomDHBJLWR|tEr}n#*&0|UOm9mIn+Tp<Q%I&;n>R&;w9@QC*
z?d1y!I@WeY@npLj&5A(d!BRHP93aPA7+QG+FV!yu4ieofLm@74V!6&Y>{7Pf*B0XK
zb<&N-##yA{!|u3?cU)U=m`#m}!RVGbq;0U*50vLR83sXVPy^uDCv7el0byA8!a%%k
z2k21m-rP80NCTUe;PRUKgKIxOP^gGb&@hy>*5o58q-Yt({2*o6=UuHJeNix<U<ZX-
zv~$WqZY>}bgfxM0hsk%f#W{|U9ONxRsS|A$xVTYGF=I~`Qi(1x%7UWBt0X#BMeDtn
zAmk@UUn_I^ugV<Z*1i%E#t{q0VW(1zi#esGPaSl2wZZ$UqQH3pFvrORtkhVJ4H^jR
zqa*cR-cfN>(n(<O(0ut>OUT=MuAJGP4ew%=<6ed0&3S^JLN-VTkfw%?KzA|b!~W%x
zhPFmG4k+qvW}+uy#|WhQ7EyhgZS@iUrk4b)sQ`_@wEUncdX6^$*_zXSO_9;n>GePR
zfu#9FPA}*wv#{`TreuN5<b6;Mr;Wn!$`8<}TxE#cn=B<ZS{F1r__A;Co!ASi_SF(B
zMp8O(>;q!6HBn&bSmTRWraqaDwcB(btne>zRNtGhv#?T8MJ6evhS+V2Ps+3Z0J4>}
z4R>_DtAD8*prhFiu|=oFwvmEKt(RR>)oSw8yt+pc<MVY@B(9cEMv;a2%g+kJ8c1nk
z^(S`smEE_ta%pH|CwrbYw{o6&+}MbXrOy7rLdh8CUc~rlN5erqO9SPzBeolRCaXe}
zO>DEwOs^%r1^`x2eqK1qBoI5IDyd+MWbd~Dyehh;I%n+zU_FqkS{m=MeRj<**qDB$
zPWL*RB1h`~04XV=Wh7gl`nwM33aP4VB=q5oliJCDq-XX&^NkKJnd5hl2#OgUGsBw4
zINumTN2AA1MAg$0>)&T39r@=&7;F&;Bl3SyP01y&Q(@9I*fTs24eS${2zxzAow709
z_d!yJ)XC~RmkZ+jBdQwK;okB%@DX}eZrBvi{$cxK8zKiTaZ<8+dPZzxy;prZp{koy
z;rjNl{Gd#%h1L$-d#S}R*nHBuLR|j*G$>rzp28b=$9oK^XdfJzc7MW>x}qiv2LgKr
zr)rG0K}SUso(zWP_bB(%#=tg#@D&`@^2KwA$M;J~T~jgJ7V92eZd0j8p<G>tS48*W
z@@;SQf~(&5GuaemG-Bi{`Z_7<01buCaqi_~2Tl*yJNG;KM*&Vzeu_nXn2D;T{V}!9
zJ%CTAps%SQ$#yfq?zhoskVlrVT@x0T#^%UzY@&)rCJiP)z|nSubtaJvX6|nD<gHoL
z#{dNQ^yY(dGJ=5iib$XgXaTk!5}4g<E5k(J7)WUt2LWy&<WaUK4$HkFdn>U_*J8u&
zrDZH&TFWRKkwVyAY=V)^cs6TtuZ=u+vQ|>Zn>B7A<WTxj5s*}FjzPm#m{Ub=6Adc~
z;T{OwnVIyYCm`84LnC_?re!Q+uw439TZA|u@-se^oxx0WG84foNNHG3KuRfM9fCYi
zIT^-M%Ig9OowPC$!CDr>8%6+5*xvze2sX^|p?$Is*>iOH4`Q$E-P|b{8*UJ38p;8t
zzqrbH)4r<Z@-u)kxO|0@M%hf=IF7`r2A)S{YzXk2ZEq;jHp*vEC1nn50=C(H0#MM@
zXvJ%2E!ZXh08a$uD;uR}JRzen5kl7FfS%e$_7+AFeo{H@V9L~F4f#gjizPIz0^}xC
z>M+B5IlsEj>pf8n0RI3Gd?l3Bdkq$Po9W<;xSWNJ)%8uUA*RR*-Dba1l!|DaT7Q_}
zDJVL2rm8^tx0heAQsm!8x*?>knxWp(=V!9KqNJ#h11Gl}U0G?GJv}1@qZj%sCc=J!
zYZl7bXdK`@P7&}@M;OCJ(E+Vs$xu&O6kz*+L9-Lttr@a{YRKZfh$UyWuAzdM9n!QB
z^06AXSIaBh+F)FKsXT~oC!uOO>@fp(fB^Eby3bj{&CG?~qn1tQQPf{|xx^m8;ah24
zH2Fw$jkn4PN<g%Vn$1g7)g`blV^3hLbbg(dX9q|LCz4jXOzHR_BJBt4v=r3QLeaIL
zDkw%KZMINpy*(5F7c^a7(NaSZ8(1t9_RknkZTuqHlA+`Vw+b<oT{IrA%AQJA#@o1y
zq0zel+u=LYaqNnUEys%mIrQRgY>lqL{(z%_;lUFY*xPbY722FI-0l`1D<iM<oDc^w
zkKXSMH%Tms44`bQwP>l@ZtyMgv6}Z;#ThJ)Pf^|i##d^Zo~<cpE@Wib0IW1lo0eAx
zO44u5(j_UGwGdjZM^x2i+SfU(CxEOpj+%UgI!2S`>t&>L<05D!fPIzyH5_m@!Jt`D
zK|~Hsne8X1B8tSf_X_eF2;&wF0U8KsvhCZEuu&6XXtjbNk&9o1+z#oFmd7r_R)#~Q
z1A&y*fHG4(W)J33nuvk9cv&h4P;j-^dd+T7QdUIP{=0lCU0+*<nkP8O1-@2oBP3td
z>THRo?%`#1{;j8_jljq+;1!P5x|*iCLk$pdCl>)%!=Y+5kM$;wLw-pKKWTJrAvJ!Z
ztkk3}iN%a37UZdP4IWyDhsx6I@>Sl8(yk6`pBL8)ZKdeKCXKQG0A$Ju3gp-?PjvJf
z0WA&gF0W>xj-D_YjH1)(je{6Mo~KB!kY8y4BeZK)QpIBHcv64>2FQ=eO$EV>-@X(t
zYnna6%UF9GxPHl!M%hKLbKyf*C#KRutQwr{lF<*j3!64cbre?|SN)42q57{9NbuHp
z3f`J1DPs*_1di%}YVt6D5yj3?yITO<lrh4$CK<_kG&4#$z*RbysTDg3bAY#%Q(4q-
zvNLyOV|D7<jYRE<&I~89Rdc-|IO}0ON7ZkY&We%6&N#tY%1t`9zNAYjbFNjUi=as7
zhsX)K-06B_A&d=xSyC|j6|%QL(nK+|IhnWYwN#p9E?_3#M9~Oqa4b^CQ0NFZ7Vw(r
z-Goa-*c*0*QK@P%(*t*8Bd6A2a4jwuRF$+WuakD{eNxMP1!xHCl1}}s4mLf4Dw|e(
zL=zb&#gP<ROmH*+%lxYbP(%je#^D&l><&-SH5RD(nlBj%wbBO+kS<hjEsdlw3@U9}
zvGJQ(&p!%^DG21tC$=FOwo0vJXY(7)tc262s;ZZ3j?s0bhe|$<_Z~&^sTeo1PE;|n
zJjJv+>b|{<0NvNW_D-yPjd6-2ay%jF+TLe*`XJuIm$p(@wn)iyZ)E*87u3C^7g=3Z
zLkz9604XRm`nNmye%5>hvQ33FOv(nZZgKt8a?MW-+k$*q8tO@-ZRLH!uc>1R_K&Gr
z*b6N>3Tb2YCE5xXRy2bQYfY7HWn_>-TNo;o>JkT+OyYhKX|@|kn^vd{{z12!*#}Ef
z*<buIo)k6J@2DFDL;>2$4L#Dr^CP2kT0DiQ-1J_)D%Z#SCV}!wN-7%A>%Kv5>C|=4
zmA2cr=E_QniMHA>N%FLy7|6WRq-`+wWyo%ztCpZ`4lN%DO+KLi0Pi~1QdiZ|248i`
zoiAasuAY^R8>D$Zbm$u!rn7%Y?wo3=T;0Lo{Ss5pPT4R<Q^sr9t}oC_{{Sw*$K0tY
ziyitvx~<fwrUP@H1(jIWOinGQW8Iv5t!cdmnp-w+e4;SW;1o3Qkw2>}xB9G;^*vgk
zjgk6cJ_hP_QhINx*bmA{C)yoJbZPZXd6docqO;w`5L6YF)iZ$WF_-L8(saNv`lfx(
z<dTc0pfqF_xD}$)1eB5K9UrAoh?^}<oZ>FE%%{^`W->M(uwGZD>js^HvP)s&>UnzE
zlqT)FzE_W*4plqs=!1(?dc;&Takq0JW&Q%K)`;|6*2R1;J9pyUEHV4zB}Y&AuSr_-
z7>Ks~TrO$HB$u((BCo5WEva*#9f#3l>MIy-&DSMsI+s^wsS}G>Z`ow%sUb2s&tbj$
zuT#O3QK=HjucN5p5<380SVu)razNM=)bT{i7Jw7#>!gYzECBgku6NNMFW4i-lNbL0
zl|siKkgRmZbopR=B49S`6;H26S76`^{)m|1f(DmH6!^}{TxgqHmXmJEc75!GqI)B7
zxffNst!-?wdUUkoo>UYxnyY1O(}G7SvAKWQ3nZ&XwY1XJw{s5FRjENW9LDtm-V>^|
z>8RlmwkO`!xCkveinmy({KU>JVg6F8;-B#*q}G_f>eSH2eOD5E0H@OR!1r1TcU!R|
zl)9dc4KM}Z3@)LqrKN+@XlWz&Ql)gtUbI+LYHxclBLi*aS3jxQNOrV-!40TBqPY7m
z8}Oi|(6^n_JNH6LDF!LMgw$*ER<_KE&cA?ybv1E2{TBwD+^t5E$_gmMcD3Gaj;XDn
zk~>+gw`El0$3jUo{{Ui-Mr+!@C21G#lU=2S(C&1Ee1v4R5HtO<3Z>Sb>V_8jmKIZS
zzJnQ8qJ0}sqKJAW+nfqMv9z^pCfimjC&5QCEZpPYx;hPJc^$EkI1i^ORwnx$%8Lnf
zxXJz;?rI&B4QuTruXy^R=&Lun&w=;vaIBpaPLFpAs}xcu=dgMj8#nkN#ZM%4Pz%Ws
zvI1Rq{WeXEZu{X*-F#It^OiJtNyROU+j<F#wXNU~eu-t(oNmI><xy3tQ(TzxhJ#gW
zU2xl!IioCXlIoShTnIn11`R%vqcbtKzZOS3QIcP4Y43jaM9}F|RGsf}iK|%ZIw~g8
z=$dv$z}x&HsQPxAOGxJdZ<TWG7M-X4^5=a~6#5+RZTI_oWin_EFYKt5^ppc*Y~-;|
z6+qpvH|&bkbgFuLxUf0?Z*^ZBjBT1*Ww+S2x+Z-rGn*4-1lmO`Z7$z(a*Si(Ey4GE
zCYVgG!8R&#Y;=)W+C2XN3FWHaN{Xq0pu9MFDC%t(Nf<53`lzcYs_B7qTP25pkw|VO
z{*>t$2Gg|sm1#TWe0yY(gnSi%Wldm^HLsDsP_1d|UL*cAgrBOGNj6dmBEqLk)8>BZ
zTnRx>rqf3yp*Q~klm%r}&p*Ixon%&!>XPr{Fy!LuH7hFIXui^EBe30sZA}F`+y3^|
z1a@Q|;sN@qy+W;k*i;aF0-8>cu^n4Z*opM20MkG$zlr)4)Fv-bHdzjPplRleOTEOn
zU%Ievt4kAcN*sQPQeCl~^jo!!5Z*ak`=Q;aLj$(dmf2OES+Zl$djUaJRB6m5^ZjyG
zd|0W-)>EAxzB@I;arjVGXbpHKnqU@Io2j%|<n*Eae+vHqPu1h7VA|pVPparCk(~=v
zVfMX`9}3Gz)9UHo4A5UWMp0D&+&=0_wP!_!w)gl=6qi7j&o%r^s+OLrGZ`^TWUwK5
zmr_jqQ&D6M4iygo6Yx1+mDcsFsMn*8rZDKYll_(=rjznrNk>(OMJC}JhXs2cI=Cau
z&gx90p`>*+W7t967B6nymE()6A0MdT=QX=W{{VhcKWz1-!G*1j)_=++v~t5EXKOA)
zw+8$!mE9wrT1A~CtfAFQ0|bpM0qj4_$7B9V2uZ0&6-Jt6H574^=v>^ecKcfj%1t|U
zdt`YxY&%-ud2cpO(`jB@>7$MEiyT_U$++IxJED%2zLW=h8qo2L*azd`CaVQ>bG7lr
zC4uY?jojNDE2`LIeF@zQfDRzB=WCi2I#mpkS(MPeINC1LA;<2GUW3UYG<_dYl8v)%
zaCjWG!vp5(#kCO7$NvCRD<_+P$k<80&9H{3qkALYS6MukzqT1RxAsNQHG-YLla1Er
z&VGJYro>O|g_G*<H(`#JCuiLSjgOw{QA)!1OHg8w{rxs=y5`f?2^}M$d%<XHx4V!y
zL`6?mBYmN<v=T`fDvBu+l%)DA>SA*v^{J^^(9`a4<RJ`_RIrH4h$iO!)uUmFh2Es*
zO~cL<G@=*{;()LZIsKDR$-iZLj<-(cn6(PH^Xx2;jiGf_cB4_M3Y|v2TDdj`Z<O5F
za1nLdo8J52v<@w0T>AQV0$U#Q+#&Hrt(8)APWtHEa9Q5mq9L9)kPU$$RhEf?f9c^x
z`J%><M;OBApNj@Oe3p$HVTI=VoBO6Z2DIYEW$GuYh3#}Q9i(3TtBoq6X`*qJ+s(0s
z$oxqznb992HL$a^A1U6Lb8%$YeK#9Q*EJaxJu}AU)DiGP=bR-D(OAh#qPAe>I_a!)
zor85~X<=_K+&)qPPRk4==8AD(4QUxpx#rnMxKq0fBos8USm50rXcWYX`@d2)KTX2K
z3;93>KMS`=G65;O71(r;#&Xi16mbFW3cfjI2ZU5ok}`p;Gh`eD<}?G&J1A+QnxatH
zqj4t~7+S3-qjg%w3othRLP=zdJ7Xn%8S-x1U+kf9Xg9wLa__@!V`kwbXW>+8ogJ)E
zw3kD?4+$20Z`gP;f-@bmY?L?y${wbkq6h7CPHFLE)|cAFq$*l_7TOF4cXZ%GU6W;3
zEkoE%lwX>8IdZ`-n<EAeLTmjO<TPLCsT)#neaNax(Ynq-tr=(`(KxtlY4}7%9YY7b
zhTc-cTE>t-7x_fHR4#3dZ6QmY4^|5+jjhMkT4_;ih<vKHzDmk~)<^B+tqnUi#0SET
zd8(s9J0YtfkU7gZWpgAi4kG1TYm>G({XN-P^5X3Lt>Z&YhI<YC%+4E2&62}RWjR7M
z;AIt0S?SvU0J`jr5|z=@P(8WaR0WP<&t!A!!-ck>=5cYjMYIIi!h5C}dFJWP4kHRT
zH{#1Ngf4OUO>OVaQ<~Cnq}gGRfEf4>$|GYAM<_h*y_Bqx?LP}p9ij3@cH6qGtf!sE
z@wkAk1fYzC8|AS!93+$zL&9x#R#P$LT3p!}!q#?4yh!rKw$AXPbtQ0p#6|7r3Jp=v
zq=wZ_(Cc<X`q4e%uG@7uxI1QywETq?Wi)PJd~UOXT@7Txp3*xYB;42W-ANR(?6GzH
zrv`~-1CJ{$1+r=<0m;vVWbJF1E(TD|(;smoUVPytVW@-wYmX&nCA%T2fD`TIMH?lI
z?r$T6Emcg6X*MI_K}%fc+!AhzPKLYe&{I_xkK@EXs#6^_r`pgD(N)1LhB5)Y`xHYS
z_K;i;)hoY7R81u<KH*{-dnI)#X8=4Q-thCgAdcyg)XE)Zy5qvhFw$Z0z6ih%ZqxKc
z#%W~af~%#jjqwIa75<1hVHq&U=3lTVG|fqcYLrmC-Y_{qwwy){z#%hrLk80(;qs@A
zvdBHy3D%GWY(c{p;|Ln&I0lOnts4XK=Dd7m4LN%V+|b}WtrxKRDq?$>Y(YiS)mhd#
zzm#LCp_(1cZr6B1x{cx1*l?ZG5;liEW=P;S0Fbz_9^pV?+UxDPNL)t;_e(`n3#F@;
z6S_BBJS!;rhSqINB>8hy3m<dkInMxGj_YwVEVUY{3Wk@)>l4T!Q%?&djO`%bg*l2T
zbN>J-=7GhawbvgDEekD`7IPhI+Q^DQDU$6s_$bk*NNz86EhRssPWG0SM>I;A7<(LT
zEIWQe=ffMDx+w|xDEB}Ot}vjih0!+b7Z+2qvDgF4<0or~aPAYSwMzPVHwiZn=_*FO
zq*#ooUceuVBNDDQUQ=}?H0=zliP5{r$X2whj;WWWtZRp6lVyzzC$g5E(nNPg^3&TX
zswCx$=+f59SEso8w9b16agdS?Mvk$TyIAhyy04_yYU6I%h>^D8!s^nBT{5_BbPQw9
z^x+*<9Pb>H1Ffcw*DNF9XSGUqhLIUJ9v0SJ3PLXf$#09Q>b*JC<M_<_n<@0lD={J(
zy_XN&=IexyW**WOo^37~kPJ^OBkYBrORaztG(uSa0J?Q+V%jO2G3;&;Fjc*s$WhNt
z43GBiiNml_KAxr~U<n)j(YVX8)Z~js&e>aX8+5|b546~LRgIJf0b;}8ghX{mhXfox
zipMwDP~36KUromrOl;A)p4V8ZVyJi)CgbEOyE-E@$jb=i5S$4uuq6?>jutl`+$iJ>
z7qI(<gUe$a030Y}X|>u^yM^+&v=L#Ig5_uuLO||RJBfJQK8U#+U~VpwH^=&1z<ztH
zMCHmv2ynB2DOkn_5(#gGDP&J@*zKhDJ(8Gq6W`<}WD^kIZJ%O1rUK@Y8f=>>+Uo~l
zEN&mnk)o*t$5t8xUc^X}2ZBNS6am_D1`|NB_L7o<`wEqyi?@{!X<XNkEt~mD9d?V@
z{H$6mYuFvgvGR}t1%bcSJncLa<0%QSvHjLV3fGpKwZs)OYNQ6vvxn0ter^Fxxf$dw
zLdhWZ)Waq(WAlU+eVZl4h&{rOaCNr;6J?8YaO@7(Opyjg9unWUHcWJ7G+nB~leOeK
zIUUo<joqw%Q(3T!I_>#SFgWF;ID8a_vL{421wJ^7joRD&6WG@SghN{cnmtRg-a-;|
zf`Pynu>@P}o*}+iZS+%^-)n-&Tl2_B8ZBYDhrv^_kwDHfMm^0W4BRDTjCkiE5cj#G
zYrCji$lg!11Lb0gGC7IbgLYgqY@+0a!MALL{1g+JC#`L^O%Z2w7ZCsr-tVH3u!$Y)
zBs;Z=9h<<p0FUmArJO|K01gMUyDGGDHtd;=o)KaLoAQO4Z-2O2-HNx0SYFR{<ND+w
zD(PDDxwa$WN%m3>fE;6R2HSp9Lvf6R>1m$Od?*~!2P7g@G3LPF5Tu4jv-F#x!`?7O
z!j+B|0D=%`bi)NpNDX@j*Sd|sImETs_)%W}07c(KmGoU4`-~8p4(>m?SGnP~E>T@F
z7EE*QKb1v;f>fJ{=Z}<yp~DtTiOHff&ybqz_Og4L>+y8LJ0>Q^*d7hj9L(iR+W}`a
zt{*G5hkln^;G&7JZGfL?zxh(J&u{Y_d0gfe-*bNBDKGE{?3kM+^;!J>)bk^n-OVAu
zA^oR}c?kfqz3qO>QLH3O1OEWrVQKOb`XHOc{p0(g$Oo2!7hJSl6aN5&8XZ|F5=QP9
z8QuLqx<=GEjjjOwQ%@XSEe=T6#QYJpE7)2IW3CE|7Pit7kAgy1*y<v+<o=+ab{-sW
z@}nTzBPjs-tU6RkZ)^5ZlI}uK_Y888&T+9IeUgO^-ayFgkQR_GY<#8?Z<ESS_8eJY
z_Bq1GB_wh^ggGVgfpm@^e}u?J7TTy@17#aeaujn@#`c#n;Euz(6oGCOFLT%~#}Q(W
zAEHh}-2{Qxv9<7}V0#C+6Y`^qs&<k5;CV+!RSeAcu(iQDZFX}_F2T1p`NEPi4|UQu
zGV3+Kq+~=`0;_r^iJ4=_;X_j0xxaKq!qIzu!XBgM*h_X=Hbv-rZVic1y^e1n*+|LU
z(PAzK3F2luxE?`B?4^PdZo754!Y%Q&*%lX2IsyS9+mTWZ$l7kwLPr38i-;|~!3i&m
zgl>&TSYdZRb=~Zc->?_@tzhCW4){)E-rTjsAA*^iUki=9@Qs6lVR32|QCn->`=Vmk
zCk{TS1S-5@#_PV<D_J>XF2B{-{{REZmOVj-CxxCO=jCwSy7wrmCh;><6?A8Z3;j~Q
zpg0Q<R#-^(_fKtP%{<{}8xg^yO4*Mfn<su_{^F=vsN>w9`QhY#$Z-$;k9(R}X}^U@
z9f1C0-A4^Hv;P1ZXS;9x+$x&=N?4p+%6;BG5HGFOtB7V|Y3<+t0EN{Tzq67`jVzV)
zG)@h>UoT)Xr-M+Qt-xIE><0>)OzG-?!z}zBT<jv`V1=eAAG8cP*HpH<7L(|+sHlc3
zGkB6t;k}TCaNl)<eyY6A7&gS)d3%t|o%76D6N`Z5=Y+Q@F{vb5#M4y$+k+Y1$GRnz
zFvh_R3qt_?b2(8|*7_sUVf7q2@T8z~svZoE0zP~MT)iVNwp_#njxDB*)e`r4P|KxE
zWc6y_bNwTLiEgb)M;E6VZO40{>UG$|OYRBeUxcZ}J7L?>3cI0T5wwIX)$u~|C6%S!
z#nlCVuUlH;%6Acd{{SBel=?QH_7|PNySuq4{G7ItxE2-K&#XNdJ<k6C2qU&8m&oGx
zD@`Ays$Sq+U7ktgtt~%E(=c94yX9^&>?$TEnyRjM>;T6f8%K42r)jk^Guaid%ZTM_
zDKtt-atMv2{Do%}EN%d|gj7DpQ8JYMEGBq;L$`bouc&ld8bAYK1pKQ!0c6|dGS@*!
zMlq3rwV-_xgL0GsY?aq<WxEfd*8{cJ7u`lkA5_rseo!(d2PsL)h&%(z=SVGef=K6C
zK=%?;OqVx2E)M<HFy?|eN?n{J-Yt^5a3c#EJ&F%>;Cv|XGDuEq+6QDTG)f&|Vah>u
z5t+A1>yF*l&;kc5i;(V~$)A{ML^Ku3VHrcZrzt-(_WGr4AtczQhg>1uI5@g=GKV+=
z-D?KI8VTSOu49fkN6|taFfVmG;f<%|2GOjkY#V!Balo;{w3V^8GHw+eY}a`VN~dmu
zPAz+qoE*@3Ri;UPQaSScrn45Cnlo`^(;)jQuTo20#DJixtt<yT1(<YOI%e)&`Gzwt
zD-)^p2j$7L@8ZP+4!KcOc7W{pNb)2Tb62aw5IG;Z&T4&1+_ExDyabfGO;vMu$l}Hn
zT{ekF1ft+LgtD7r-_e|R`nII&M%TvE+@k2ZMaABwQ7?CUt>&Le2xqZ?52Bi>u*Taq
z#H4hAZT4m$(&?#M16VMpW20&866$i0O}JT&TE0kwzlmU#$@>i&ug$>0`hhAL^*EX@
zxCQ3Z>#y|-M3?)hC)6vdnpqCvd|V{wV^T)5T<VH?M!R&Q;bL_zuBxbUWiUBBlsM2T
z>ZaW(bIIhDf28!FZr3@t`z)g6*c+oK`C9!#OU&nza;|iKns(q^%YByCk4J_OJ%b4L
z#>mIDpm|QC7@KUT({yNI0PGl6@j%GMgF@}(I~V&YMayszuu;qaDQ)fLBr!R}01-^4
zdA1GE4T9R~z&LigHacCSDP)O*n<iq|D=Q2QHgDYvQ>*}P@?4#$OHC6Ae1Lt{AE<Te
zD6Ymx9`69D$<XN5zo{XJTHqB?t94Xujm4z6+W;(84MXdya1D<cS{7*nNPr`r=^SLy
zts^t5>e{BGDP(ReVLgiNGpDL2czl7z=QmqDH>aA%+_hiR(J~f*8)Wf<h#RtpM9`y&
zqjNy}Eq0wv3}7{_7f?kGMa7ZOdqxvjD6@@`vMtWAKvq;Yb(@fzJkB^mmN~@+#z_k4
zNf=BMJR4<C90a0brek>sRfk9suaWr59;veJHoeNXEn@+-fI-#O)55}D=Htm(q-(Q3
zR%-_rYgH|EbwmJ?;)?1%siUU_tSxi6uvjfeSgq7%A~u#Y#gyAmqgUB+Hn&vg5FPs!
zUp!U1jG##3T2I+ON7Jfha4%{4`CAPuP7Jl!ok#2quSLJ%r$^DrwbMk`eOIqh^sbiJ
z2k>L#!t<RbvU(P@MT;xw`j)w|S)%63ih8Oh;j-?(MboLjLmJ<rO+J>1hasSRtc7N!
zsMWu8lI?By2uZ3dEI_Dm9|a3$ac8GRCY=DgoW(n8Xr^zlHr`i~HPsFybwkhHTT@ik
z2)0Kd0T(6?Cc9aiPmQN>U@ISAG&4N55qqw6B(uA8(h@#Oo+u!IS%6>4T5arQqP%I|
zsJxsg-J`@ifUKsSu>wg8JFj&V6p*-?0I*rfA-fk*rlhBgl1JTPx`$b#rg3C$4tK(-
z>K?7At$U)Ud9lUSUY(@Rs7fCt?t7%CCNp#!Pg3g1eYYU+7Q>~qhRq=L8GovaK<T!`
z8sgD)veLB2#z&?sQ&K>?Ea~*x8hUHlprC3bg_jIgCr_Nmcav)>JzhwuT0#9^DIK;l
zYKG5N#%AiTP_Jgk5aa~4PM&S7B<HfQq0<{QcaU89D?U#~O&QrGbhC#vo>ktI>BimI
z2=-`Ev)lkGM#RVtMnZVQ?TabDNHMh$!xra}fPj}*WUnlQU+9O_<YbZludr0px$w96
zV!)nN=_E$mW$UM~_qb=Z&~-D!;CHlGDqr;y*IB^0{4VumsCE4^2g)fabZcv}>V~EU
zy`_z}(O&*>(?S|uX7PnZNGaosbc8hcOq#McJJW^sx;FY1{j$<Q0Cv**6b7LjZE1T&
z?5s3>ItTv%7I|;qB@eH*o+z9na4L007RtIx&?F5DRi{kB0Cn?hEH0fB=cpZkJT0{Z
zC6wG;*=?E74yRK0%gve-Xv1YT!V6sWx02SAZpuA2Y1#mhyFz722>a1|Xeb>K^<8)P
z3bwmQ(;7FsXeeDqsqAf`B%dm)e5J(9;_rfyKcSkk>L%$;{Vi!D;Ve{Cl~Y-)7Cr)~
zr*n7kuV`lsW#ZZml^}(by$4C4(!&5a7aSE)R|Hh-aA+0^daB9BUgr_=gEbJ;k{=-Y
zT~bf&2^B_KzNTSReKwLW_Cr2jS=N!~=(Ku;EJcp=ngQ)@>bjRgnpf^O0G|p?Y;@S&
zI*uogbFFk#wAAsl*a^1?`1FR;#d!%;TBN0fHYSsmsRduM22eJpTRdFf$~*E@l#z?Z
z2_Fe`fiuW+TW>1HYFo2&vQTcqm?NQVvE6_&!x&XA(e(pTWQK4D$wz7xLY0=z6S{v_
zY_fphMth*!K(x+^4O%9E>6}rNjHn*!iEcbAD$3e_O87YJfQGG-oV0=TNlE%0N{0ps
z9kd&w9i<0CT<{JrWHhDhJJ{c%ShYz5cD=wK38LZ&a_r4@6hbGK$4-7q3r}<~$|Q6r
zcfeXbLQy|Ee(SWhP==EIjv*_ATi8^eq9}D(+yHY3A0bWos&`zl0^}aQBvMD|(>0*>
z+u2l7NmowWdQNfjLJ`C6CY0;5RYJ)hn_)+*QdCIYt!;r_)9<R7g5c16D?MgPns^KL
z3jnU8Q4^OYS7}-h*c=6&@{6B9s3PX5w0PlVX*#y4m9B-&aA-WMTAg;LczvgCJgG^_
zhl`I*5!bR>IXyTA_m7lLpA}@R52$c&!mfh42;J&bPSWmja+0U0B762zox{jl3f99X
zT^Cg@fvo|-u0Kns(O12LWMgmHQPbB4fxKk=t14H-;kY<lqqOK(O;}}RB)WrdEZahg
zho&gQ{YOrBcez5<K6a2qwrEr7(!o9?sVpPqB>w1VG#67v6*Daxnn3WYswBB1)c)#C
zUOInI_;va5xj#dppbXzU;zxP9IO3#fIWCIHKZe5RIFNg+{cU@NNFJlCJ6&mdpHb7P
zqjOl`OMDfKcB@Ar+F>p?=W4EzCfjC)9a@44aOou*t#S!fuhj;nRp`<JN06t|bc!uS
zz&@S89_6Gh4F^lp&>va`fn+=B4Zmy~P3an`8Y(2s{t?E3w1l_Q82D12qn?%j0F^BQ
z-zezy3Q1x0Cv!u)g}Hh)CT6udn!0dIP&LR(I;~Eq9r2d-veU_1rb{3VXg_56DrgwZ
ztYBx#o5+VzevGV|O+>EUBZhlfI%*fi6`K(&Nlh-6=`Sq6{9PAO`4b5+oA|m3sRo*7
zom5a)%ul5W0IPnS>57RS9aT7Q!Y;R06!Msv8FjoRWpkv4;nFbpOrrz`Da%HM`ZYBj
zKJzmThr-U+YSF~^M%h3g3XfW<)TX>p$s@k1zK2TG=5^(8X!$|O2a7b&Yt&Tdbdr*P
zvbCn_5m>;=XA7PcR*%y(a@o}`Yn-%{+D@NH%f!aqcM5H#(8)R}>*LlW1@W=2`jwuY
z`jaFgdUt>ND|<a`aK~U3VAUX!YdR*MlBDuwZ&4j6F4>=>muMTqhtw<TD*8sWH)Y-3
z5@3#`Vm4U(A*Z5_Ht^P!TXnQ9ud>FERE@3<X#&TEZ2fE0i}bPB?iNy(ij=&%N|!Wv
z1sN?ymrEAWQVo(yN~|eAL^{P)Tb^GGO}X%^qL#7l24(<03S^qaG_P|akR10<q;Zg4
z?{En%S3@N4WxXrQK(Gj-RMro5fmGzTZJRj<<wnS6eb1~N-~^gusI**5Q28(=a0kJ{
ziYhkm-03b)l7^<!t0fqdXz-g=q*gFo)i@P7Lb@F?@{3C~2XCs-6`|?sI9MGd*%{?#
zbb4yI+ySkTU;b7}W7_Jc9Cs-6w2YmQRL7<?>}<9|Nu%i#xv!|G1b8I{s%XSGyh?H4
zs+QB2JJWpc8S<o+J&#swDJgm`jlacgA^u7eR@Ah1F#iCjJ*18RS*nhgrKq!?S26jz
zu+n-{No(32T_AUY<yXo}vTBp)f}g4CDdzqpE^}|$YcyV{(`vvH##--`B}Yoon6DO~
z-@1mIMv95sjL^J&LRiVIGM)5_KgEeDWoWCU06nhTkEbgw)2)wJ&?Rj56%@oimpR>k
zclK7_iPCMJo;q*~WH%sr;R~Q?zm|0iT;j*b_X029Jg;}euZ=c&9#`|&Frt*xRaCY=
z;rfnob-WCPX{XVey*`!q+#Gk8f7-aZuBFjYMo5aDsm_(W2er*St156mGf$<!Hb?n;
z?*9O{j#p$>&KDv|sG)`e-&8tHqQnc`4+Ug{PnUErght%C-^?${CDOwiBB!T}F^nz_
zb3q`BUgzaG@lrzn09LN1I)`#2j{pwXOqH7GpnO#ovaz0#F_1wv%i2xF%CYnxOB*8I
zL&jU=d|g;aUR>X0J7I<67q!Bwp12ZN#)lA3ySjCt1;b725j|Y7wXVr&!gP|*(zp0m
zU>quUvZ{COEqksxAr(oaRm#?hAF;gHqf9h{B-J4#he%uq#gNBUa38`1JBty@vy(@l
zq+@+a1D$J;fAD~+nk|MX=*W`y5+4B#2L8b$6;sA!bOZy*10@AJs@&UvY~I$gwf_KC
zu8zmkZGq!rn@4;V)nb;WH$vx+V~-c`jnENAO-Sh^{wwxhH$=9YikYW#H<Cq&{_4W4
zP{$*f*?*e@xJ)t7PfGIohO%anwY{7>q0A{2buFjf9LAQ5Cb6_R+|$4NCsi~ChO^z9
zT@M@$a4mC-Z_W|XyCx=;_iJMpwgF6rRzrQ5T?`S3z0N+PPBF?&K*Jla4fa0YW8DVP
zwiOhOk>r=zq~v%}z2B92b6i~0+@Wb@+5mGmw)QCc>7bg3dIR(}#{8ty8t5)MhRD|K
zWx>iX^6^Mo15QWk@TjyXtDk^u){Gl=R`JPJ0fxX6i-k9W4|G*!lzoOjONuF2#<<Ah
zFJO2=R=88RG0_|N<u%b(Y1K@gc}a+j*xZFFd^MA~?0>hh?xQak9EV;+m#`C5=Vh?E
z!{KwQ4Xx=B@<JrlHk?TeX4e+EQ8JzKM$b}Kfa8m(PsMTmC8Oj<U6bjQ)7QIgJ6m#m
zEmoJ%nzc)s=P+zMqxu7;9`MPdosI`LV}V|`q)|SaARKONysZ91gt(&dijuQ4()}S%
zL>gs?ZXXMAM@>xw0Bb^EEhg6&Q!+b_R}*~Qvdcu0J%CtQ0aVE41+Hiy`3R>*qH{ni
zI3^xOTUY5iD*KTTX+8qaRP;0A1V<j`__FkZ?Ysrvy}2K{G36eaxh8mbP;|8M2Nu#u
zZQ-jES4B}Aj%(?rZhxe&sU(sY4}45NWF*v@T;J|e#_y{_tTRe4V3jlF$J0vOhP&uO
zSR<621An6WR&Jl^`F~XuU$TY0HPfs+g)Bqtx)+%gwnu}r=lE!AWw2y#C$RxuX#Fj#
zRXw|y=C{4V_Hj$0QsuD1E$|Q;hf(O%AluUfcu}94t4MfbWd@hi45fn4Z@SqwRsBQx
zZ8jG;y}O5H2T}ea(#N@wN<Vey+P1!RX^!czdtGxuWXmgk7Ic*fS*VJtw>ZBWv0|r%
z?Q>Nd=);}9H|0xBEU>!Ixg0NB9aSTqNv2)koF_4eT4}fVy0WJYb8emJQ5zdb&nurE
zE(($CuuZdx!NL|~KyZ7ef-h@wpCe9Aeu;s($~J2pz&NsyfCfTnA)#<L87mlT&)Fb1
z9!hh;`vn`U(}j$4i5<VPd;q-VxJOV?Hf9GrkA!dJ8r-(l38<TqTG-gvhi%F>mr;hD
z+h1Zl6%A9E&uF#PML-UH!d-e9S$kG#D#0y{yS^54QGxMDLt1vCshuQe7buA)^&7S9
zz0~E6NO;YoJn^-b1xZO1jyr)FMb_zWk-Ot0U$PdK8j4pDCkhgSM@(dxT{)<Y#22Se
zA$x4{7dB|${J<cp?jMI-C835&*q%#V0YOU*G;SyPydoxuJYBA_Ol1S!?aqDtizZCc
zrZSd5=X)HAd**27<La6y_L2NM0Ht+3nRw;Tf`=h^i3y%YTt{#@T}UrKy`*_u%Bs3y
zVYG|zLb9Qqlf}95H+Oq1`Zds^mYQo8*gNO4uGZm}jxSM`a02GYxn*>77YOXc2B}vJ
z;4!Zt9zjZzv76CR{;D5lxwgM`WluKv!H!HSd8y(hz>onb%{C@5*gTf2II1Viv1HN)
zmXVX(Amo}?Jb>eGlzUjm1GY;l`D1iaT>FLlAd#C4q+^`hZXo$Ymdh9}%YuRlS+H3B
zl<u9(VX-M&8a7tXKG{v%Wer4(bbKjli)ANseaE^D>~;CNXrY@3rHr^^7E(Qc3lVUK
zhF3(>ixn#>!Nc2iotZoAhM+VHG!T5Kp{<%T?R%^g)h=tlM|2#4%?Gv7TU#`fT?Nx?
z5A|$F9g)AE54Wh>k0DUH2;{LX&ymWKHcJ@-HxfI7nZXE~G$x^jF|pRSl+#ezM%N2j
zSH%AS;f>8VPA<SUNaIBiPS%%@(h7=3h8tL+$hq7criJcnz<;<DDvGTLNCTWM+|oEw
z%^XrU+CxqFLdzVHXO^tC3sy|v(UG5p(LM1$doX(;gqOAMo*piZ4OU&ybuObwKo*gn
z9IeMx>Ge@;t%SyYLdV|!0Hj?b$aV<*!qk|L8FyP%NF?7yH@Eszsde)a5!J+YaehM1
zdSRJktfY>wWrVSk-sEQK;~(sfOl;XQpGefB-p4RJg;}WR-heJ(C8LXG>b9Hm(>T7G
zLmT-!O~10Shf=74n`Lo(M>ko=TO_V5s+y6n!`c;PT@10h@W>oIElkg+t!<+qKf(?A
zW88h^%^>$mlU)qty_uk08MLh}DoEsz4{O11g?m+|ytHl`#j#+jq@c6?yMauleT6o<
z8p)n5&HfP))nd+V$I1=tm4}wQ#&V0Js-!FtR6<%u4huAjER7OxV~E-@-7&?zuBUYq
zBn9-7wf_JFq2C<QVpbO6B^QoFHO|4h4F3STf<l@{cq#@H>S0nEC6-B&ytrE68ztW7
z3kMXJ&B!4Y3}Ck9p~JBWo{n_EE<?S^%{SpbrZ%<KZa%6uG~Xxgm6nMmh$P?kNrF4w
zJ0M*l&m-=Ym0LLPu-b4tB@!0fa|?cKn`Z(nPu&|&AE_Q()9_GiJrFg)*}CJOl{4wU
z_iYXN3O$=mhEORMHq8e&`y|*)y^aSQCG-9hNaw;UV#sU5ntjbUO#<%roT&qd#s2_x
z8@9g%yGmq5u|_?lCb%??6tFxr?34o2{MO-2`d!QpjllR@*qQ?kJ(K;+_X1kFMoAGn
zg_6fJ19m;6f{O^EcaPO)eU}-p@RYVEg6Q9$1xD!H4s3-ZbV%6<%Si{}Oxm(q81{z`
zq7yg$Drn+s+mmFCB8iSKVRy6<o)VGrlt5Z83TXwrixPq;h~y=$?ZOSRxJlgI7c;Pf
zwdA^VgqseH(7akeT72-F*xFCD+#$#%mbi8}Jf^bjf41!SDb<|K7EO%o!61&vV<eHj
z&2b8NDjXxT#l^o+P)Oz%62rRbA7$}~>bDkcdjLK{9Gm9A{HK;Qlgmnt%y9W136Lh2
zqpS_=Q;6<+CIND6LHJH3z#9xA%?8H~ZUTLQ@R-xwpR#ZS@OV;ZR2YWfadjC0p9)8{
z#9>A){L3K7;4DbEKUAc67Wq;4xXMPz;cn^C88S<_3)nj95?js4`lpvLocl;z@o{oP
zf^<!hpB6}LN@4w2?zoaU7)?SpJUPwc)=R!3J<YScfSVkRZ?(<1zm+4K8-dtR=v^{D
z*o4t+k#I_RZL`5qo#OW&vSCFRAN(%ej|r`Kz6k{@$@scf$3hpj-rzy<66K=c?g_TG
zE%jZ&How^hQ6@c-iw)RP4W~RPZ*i87s7tWk?Kb#9pr=H+93?h5{^~GD<v)>e!dfVp
zg{Igkm+VvB$8eKBU#i9!TXK@euumf5*0<du1Q0BkJqiPDj4lH=T-$fD;!TC_mZ%Iz
z08}zI+<nx<+^D2$j&FqMgwYMGa&4d8631D&#t_agY5t`nT-OZY%D#?SHcA@O@1KPu
zH@A)u_HZ|8Qo|_(ZV5oCg$WM_3JQk+E<$r<Yp?$RDU*AfZdPo(2u8;YV(E{M0E2rb
zxxVb-aC4f0OY}G1*IYP)rH-V6H@4&9MoDqG2@9`rWWAe@(IoP<%(H*GfFExL$;F_7
zbe1EWeG?jmWtSV|TrL9``=ui|@P(VPy{*U#t#O{|MY!QFJfFJO6o%TzDYrb>ryG4!
zP5gaRSgh;cDM7#drvCtBhU0^Egt1-E38Z4_0XF1>xAL1{XIlco={>#=?3U*EvhQ#7
zqKuLB6=R}nt|J4*!k<nw(Vtb!-tK+^%gI?&JFdo?lY&S5C^cPTeKrEf<1U<x+~r^7
z;;i#pZ%Eo|TBDvlCb$m7o&v9yvYH64<LW&8V3mr|<JNUbfi$mhVa@mfXy>elONY~^
zr+sxrtX;R-)9{ZyY!yX*ty5n+ue3o0`0h}0>u^xg`es{LewOl7l~kJ6s_<lt#1CMd
zN6-~DZyuu@>z|Z3&Gd#%do$nql6k6sg$tbC&GN1zs_Gip!&wQ5pV9@Fq4d|`?Hwyx
z`he2@ZQ*Na^g0+o+Y@o{nc;11jGp>Db4}27i66da8=e*Y4@%X{N2|HR=L^#fBn%$N
z$Ly3wz!6xYgKW;|{X0oW&|JXh{PtH7K~BOhz)#96(**O630)WgQ=m}KTs5`;G!7JR
zsy4;SQyWRJ8B(^LhSv#325j<3Y#KmB2RID&3Q)#3046%iQLK&9yRwbbKKy>ldjpIv
z3}`%k)~hf(Unw~yI63NK8ZUsFNbI*pA$#OLN<d^hl`Yy20_h8~utoy=<vVe*ZtJey
zb&W!|apgPQnhk<SKeAH~XeYi?fU<;0Q;V^CrVR>7;dO}$F}RzlTY#_x^ob!z$isfC
zgN3q?y<-td-g2T1E_H_pg3}?eQnC%8+#99PZpb|$ZwWm%-^!K4vP)Yl8)ROU&M=9l
zrg3nyNlc2{#_l_XqtaOsU~{Yj7G~%LpPFoTV=NO3CMNDC>iVK;Ml^szqpsB9Yl~wS
zDsR04Es)G4aN1q%Lzvh&2zsqapc3~6s#^Y|r-TqDYGnAWj9<$5SlhUOs_S)1c&-5p
zEm^HqRualqIFsEC292s#NDV}!1K1^VevmmNS!#Vp9Cr-6kASLSs?~K#OG7;<&vF)$
zgQqE=Xx=wFxhl>&1~(001K=sXP3@bOjMFqYTFbenNe?9DO-ZGCG6#lVzzbCkBLKMx
zOJa}0DGPr<aI&S*i1!vW4g#5wG9kE|p7&8!>X1_mxB{};$5+zRwco_!!9mI~3Qd~_
z*ES~GaI&b?I)<8+gvldG@pa}}r&(20xU!HNALc5VuxeV9_sHoTbLCHzpGay;vtO=t
zyIkionWfJ7;bp4pH9bxK=QuQ;0<_Y4W=EU7r<JbKx_$_N+{WEyj`tureHiT<L7r(E
z=^98pt-hI{HaOdM{Z-u^BoF`^(fcbHSY3uUA4N?rjknoVPo={T@{6KHJ8fXlt)kPW
zl#2q7k3*0$?z&T1nsfrnF#{YhK`K7Dt&2gXboCMjF}_WfU#I%63eS6706)}HDXXHK
zX&S%FFlO0G$ZkNgikDE1q>oI4=P1K77|alyM#3qfV;gr`>Pe-BF>*qquGS%^2Xvqh
zs>y2oUe`RsNPS1~juN@ixcfGB`os_eceGo{SiYg_dU}1)#QpCbhE+V2dcLj+d)~%7
z!hHusIKJ}lchsPpm-HQaGqw8msj57+h0S5?4U_ck2BN9K(zV9rdKCvr!4<usUQ%gL
z!q5XoJEu{K727h}2TzzRNFQ4*O)V1`(S!F!$4<~}00B(a0gQdou#qw*4jPoQ{Dn3G
ziO1yuhMNI|_M76#rLJ({5d}MkD^R3jBJBB6HV`sGBrr5zlA)-Xk&C$5V=l)40Oy1y
zU1K3>yMn3KHTrru+)S+mc`MGf{;a8~dznfcN0m1}NOcx$b^fY`k&gZ#zhDaU{bQ-C
zYu@HTcDKnYwUqUBvhI|)lC^z5(|e0t_T%WXk1ow8T^X%6N~x`v)R?)~Je9c7I(8`7
z(&i7@Ur}ihK^WS>`y(Taw!kV<LUuz<r$ZPPXhy|O*6`4!fw)uPafPhIVT@ngq;r@X
zW~d(_93~f+aIuFu;3y8~oCM;>xZcGZOHW~U1*kSdOHAVHt7s$i+rmi8S%3m{MN~0F
zOPnsVX#ra!o<cqqb!B{X>@IV_`>I}{>RNh6xS0SxFO}x~LDdzSgWVlD+R~=y=?!0I
zo2t6XICn=A_dCE?3YwimSgE^<_LKHg>Dnz#Y}=o?*Eb}s$4~U@DZtz=eu<+GYz^N=
zdqe4mKF^V*ZZwS^I2zkG`zv}%HbofrfTwq~;3`@`NsCPjSzrLdw56+tows;Y@2C+1
z=PC_jTO)HLxhKMunCTi$q3XDzVPpUoadn86dc8_==O1Y(OVm#<sVE_&t6C`=9AE)s
z-55oC1g!;Wx^oyVc~-5B@w9Eiqmxq*yjtX^$*k1L9>}0~*2=mkv|Uoxi|uk+);4B)
za7w4s<EfR~<hyUmwDqB<kKFyv@Un-nIWR_1#}F@i2T*l0{g}@Pikg>9P4L^Q>XybF
z3mbg+OzO5OZpOh&9_{ReU(J+-f-!Q-BPb>GneL3As7W|=OrUMr6DmtUcFH|X(>Z~(
z;JExD=xF4C`m+~qK1$tE)9KJtZjiTim0f3{JpRBf@PKTsqN|zndUqj%<ycif$zuIr
z<H|{3iHrrUu~pRuO~+%bktcLA($LRs6U>c0)$X0Ehp;mQ*<>o-Oq*no+rCwfiuhs}
zJCiifEf>0tLECo4a(o3@ALd?3dv=b%D;CV@MVbM(g<q-ER7Aqovptfemu7#^Z6!Q!
z1J!eJ@|miNI2ba}gVRi}XxvCA<w2>?K4;zJk@Zg1peE4Bq+{-5I7aF3Xp`J*ou*P#
zdSW*a+kDwNqMio3Y)%CIR$r>opY5}?sTk-i*W~zFc;a+Zf4J<M*cE+OOdA<<-c7S$
ztEueg;k<CNZM~VKi;XfSIuQB04ieRB%%>tanhm}cWYSd;wWDiSQAKC&k)-^sD4-_E
zYPBh*VGWJ>^3**HZI)ZiMf@w#Js5{$SPPJD(rPAgmM~fmfRQcecm0M!DPUl+ZyX~c
zh)oXg+k&$4!})3U%_FW2@~tVgXPEsOc9MAEWe3|cl>v1XG)^{fuvBnF$fUGG_FA`S
zvuX!?^*cc~uqp|(nq5BbG6xX18tm6&C?RQJG7bW5U0hW5*v;QXUstL%qtk`l;T5CO
z8IP+u!SYtU8>gZgt!TCvUN-^sS$fTOHpp`9Ev}^9J~kNS4amk8M^V%0s$N-73yY5g
z1uICSxqB<0uNgsZ<zb|6m<Jb}^J0k7x<p~}umR<0X*3#m*Z_Xc*Sar?*cH73mIky4
z;@oZ7IvqZ;R|dVi8cqtdfwc54+GK2>Qi**_=V)tow07*99$!ck$L)sbeLpiAB=tqd
zl^0V|&d5k}+CUjiq^zop76~qXs6AWrby1s_0zzqW_5|X(Fx4={4Q}$#NjX<k^z_p}
zJ?(ABlrwb4`sL3z&wf?C9R&<vdd?tycubU1*p}{$<z9sWsN7$Fs<5YzNusAE<-36U
zt6#}!^)eWlQb%u;Jx@VXO4Bdr+~Rl_StnN!t#r(WudKDx?51b59zwU$Ye|K-VI-m>
z=~&^AwZITNt4b|DPo!vZmALFml;p?90-~xNMxo@x3&{PIe0pxFH9?4n#eU&!;MS>G
z{3xEsmCl$+D3ctm336Km)f80!0EhMUFo_Lpx8~R31pc0_qMy-qOoU#?E7kNpP8U-K
zIl}f-omI9+86#_PpQ>48Nz_9KHm#Xx`g)MU9V~vMt)0jS*+oTK0ig~6_HEUyT9|7L
zau6IlT>)0@&h=PZxO}3Wy^U0~T*t0aHV`ACF_1YeRQi^&S3Ug+8qj#LR2tQ0t0PM(
z*cC392C^!@k8yK*CvvWdt-6t^rl6jpK{V5gocyV){R(J(^WMXb=-LVwNlM>U+i<Bh
zZ8d^Z{6{=}aDtP4pzuqeD7B4~Y=MR6%C&1N>*MagQfX1s$7ZsZbNt&1>9qAy5wv<k
z#gX`;*1)GOkxNadS5iBBqxBjJBBNQFHhO=Qa6bWQDPm(8XSkEyQS0^aQ@Gq8*(CU{
z;)jcOvYH`PQ#SDn@>ZIIMb)Q>Iy!M{cU3w)W9nQCPiuZGwbYfm#1RI>=8<m6RUw<R
zIjQN|-3xCdF|;b`W@<GuhCbn>_*xxaT}q+F)lVdIWCVJJJu__JHzrIK{e;tL&xyOe
zSC64mny~=b=?*-q>2(o1Y}xh?supIKu$bia4Z9vyHS|tOx@DY?WmvJ4G%AfkmX3|y
zw3QCVYzlUnLtgo^-)Ztzfto0iFe)k9N7t1X88@a<EmqN+gQ+7Q!l#t(MrqB|D(ZyN
z%nW0-mBf8NqcHCjZEMGcGb!R}*#zE?WIi4)+p(TSB~?N6vgvTawt8l{%8RHW)9V_4
zFHF{x{gl;OY^B@9X8!<ygOXVxJ1ukMgl}Ntidb}3GH~N-U0yOE*h3i^dADGJd3k>F
z;mR(PswuR?Y3YNHlxq7z@~(kp(lsinu49rY@6W<MpGl^oZt1IJ+&eg<+17@>KTe8_
z3-_|1)+np%o?j%6W%G{7HPsJo^vf6O5;5MLJl7s?bTjo0OMmem9MRvx3r*16$v^z5
z!_HOnD5%>NrIb95a+Sq4ZcQR84OOwb_^t@aHRunugpzzJddhlm;$lAEqKY`#7!EQs
z99;=0p`zr=*kyfGmiK^st2#cLr<m@2Kr1Z`bzqZZZi{bX3b2N{rW3kJ@AN7%;95M9
zb*bslQpd56E<LQWwR$$MJl>@%q-gP!eOA8L8+)AL-pRDRRaG3DcWrO|!AD7yroi8)
zYf-Q^X{2rOh0N*6Y9$VrQK%Q}9IR?}#?;yK&eLqzC+T{eH5DyvM|OEa30NfBTQb_l
zoB3T>QaVS<*2p%O8<iDfDyp?9{R_4_SGG2ga7X~W{{VHT>c}Ji08{m)A(>^5+Uq|I
zl^2ojiZI8L(80@zHzj=^ix<Hj4ta8$B9ghjgp7&*0GEN_Kh=Ngemf&*qO7RA(6&(7
z7#i=9;3+8SDXH1&*TmB6*{ui9#{+~_MSh_j36oByV_MO*qyGTE3$e6_sM*6#skm(3
zuF&su543}C{!!FAED_f>cw`nh3?}6ESZMWKN}{Nm*(I7%>k=G$c2`nQsR}VsLr*)5
zXLHMbenM{5o2?h`r)!@iZH>-zO^Zs7DtODz%23A)65y(|oo;Gsk^ZAX`JU?+A6Z+C
zMy>%@QK#wB&c=<#nn!Nier$U!x&<P4&rb*q+W8*d0B^VVKvYcWkLqJ?ZU7dtvx=)u
z)}V==tLSPi{><LnpM$|&Q`553JNW*nzv&^j2kwXa8(xZN>?%DeJw3!-rOxN*jdLON
z<1<!42<-Na#9;ILBBY|FlAqCS6px%AYn*?wtCE6dH*sTFSS;_a$^&V3Rn}HgM&com
z%zK@-1tWE-KxXJ8vmLpn-r$y~!pTUM9nWtz{{Sf+QKv}oO)G?8Tbq!b3H=aB`C7?b
z>uh|t$7`tHrMGXX6+pGFbHPVM?J%{ZLha3VNOi6g=4&N^{{WP0P0mA)zyAQhRszvb
z=;deg8~9L(rDNPnH-de`x+m3qPAzjt^L(h}o#ETSYtU+j*#7{}nCV{z&BVAlj<$Y6
z24PV%gx|>HZKKMzpsS^LB1jn72X8+_9I|i3ZpH9EP@^eqWih?u5uZ}oA1L}L*%N(g
zsQskaf`f<FbMa=qxxWfZnzJkhDV!V)iOxYD7SKzHwTfuz4LvMC2Mjp_O{hJR2S0<|
zH%*}x(lxQP-q{5fboi-fkUWRCu<`d>i?DWqr>&lOLtXA@;CV`SwZOCp%ZEH8>6uNv
zu44dr@}bq5*;)V=&mI<W1(3Fo+CuqS>|7L-vpw$E$nNHgmiZqE`gXv5If>eE3ZAN^
zx_hD`7QQ3IgO;H6*w<pvYE_iq#M5gZOyKK~2^K2)kFUC#8CexgVS6~sa#mcn8ofwK
z1;ZY40aHGfNh&`q`7By}q^?gV!Nr|^%VlwAls%rm(*1d-%38|m#>W2piu4^fSkr2w
z4uY;H{T#kt)^ysoQnE)ilC^@)b4GruoAWx=1B0lm=ZU<5dxi7fN8__$f2T*Kk32Ge
zv+SWO9xl=fjrJ?$Ej#fKuIO6ODjPFL8<z8={{R=OWG#zUq;n5<1;*BBe<+pL+3ijk
zLexms3zDd4de=s*h&WX-r1m9M>%C7#);rRjuE%1R<Znp@M9|b~P{)1FvZt@=S~x-e
zDE-%#^#@i@B#vZGKVq{p*HzWK_>#B}s=PdWv)j>}p%c`#F1>~#L~=C!7Jjd<>ZQ1h
z5%gG(L7Raub<doqh@3_Z*Hk<hujI)*&(UqE^+u&o2yCux{#6}CKDA$RYIk3;axNV{
zc}3dOgiSpaY)-hi3cmy(v<S_<%<R1{sb$V}{{YHuK9M920#ZWOK54^4UgKp0+Q|>P
z$)Mk`&P&ie1rG2wzdtC6baGpV+@)iEG3<4cNmDQuxml*3g;QR@A4xSVn~Sgtv7)KI
z3y_r(z2n_;@`ir)fwb8?TYZ70=+TJ-hh)=oaH;8LlK{Ia#t9u^d#4t~kh_bf0PnJq
z#FLz+hx3~(Fq>R*cuEFrxz7aPrjiChvF?fmk1q`wPKp-FLy55LqYV$qQm~8weu%9K
z?S{hVMgVERPpGcg&7kE2B(`mueaJ@_6Oxs)D3VJlaU`BfVRJ5{JS7%3Kyqlvz7Y|S
zc|o(!bt@i6bQ5L>G7v1&^+4A-?})Q#<FYB1waHE~waquSR%t%Mn~9p15(zttR371b
zxSM>f1zkHF4T7qYh2W6Wd#TGGv{E@QOl<=_R@gXQ5&3$632pw$2xw|!cHrwP3V9}l
zpgp0%MopJg0VPE7U557gQAbg@p2q6Th^j7Mge=;A3*vqLER_r`J50<s7f*$f#PHaU
z*r;gbbPw4euvQR07rx=b=(a0Xbb?Yg$sZ!iJFHQ?j@;1Ue*tPFGDjz=zW)GaU#x07
zVJ&nmf6bALRtB_V36-z0aUodg?{LT`_e0msPFh^wYrH8m!e8z3x*pLKm6vqV#NqB4
zPnnT80v&vzY+B1&_fWU>pK)!Ea-+0Ro_KvX2Qk;bDIZeijij4fDhZt-H)HMsYkgOb
za0kLQVCW^5m)#rMn>2EZlO6tuW<xM(upt*t`IybF$n1?#ksM%_lHv4R$m5Xz07+8%
zo3Z<*i5MMYU{D%}rKSPcKixx73)>jTca%ia+1U44M>Nba_#?6@u-~9|!gc}_^zpnK
z;Nt--GBxe702D<o9dK@`x)Cx0_J>*RAg+<V&{%o!iJN1jEj9>Brfq0+Z?cg~BfHw`
z5y?&l?z>#0{L8lch0?XoZSLD&DAOpJFp<F6v|Hgd#J`6S6PWPt8SJ_24b8#>CWuQ2
zB$0HSaHrZf^TKIu&PEnYbi`wT=N~EigS+lfybzJ3kAzwZC2$wTlw<-dRE=<VCdDq+
z?Hhs@Mr{ym7r4RfLVIc^9>+<ze5VFB#O~~&niqdBB|4D|kxZS`;@jD|t~t0<)7I(`
zS)ySpf2HcRl{GMXZc9gHJXP#*v2JXhzK&M?GeZq)WMK89bWR>J7fxb(F5uUE_f;@z
zEMvo52GiwPdeBY)05l%psXy#7ThUotMA?nlY<nRMEbM9C1dUfy#?T0Ed=Qc*?r32n
z<RYDg{{UqZB6)S-d1L$(`Kqg1AEi>qZT_xD?ynuE#Nr;`X|jr<o><vn(BbivU71N4
z?@~8|XA2Jr)ZvBWAsZzu5}dR#-axW}l!cRf9vm*2NYZ5fm~glNl_U&nS_uWN@|a?K
zbIrUa`m!`06E|e-p(;Pz_gMWDZ(su)p=zfdue#wrDIWG%5K_3&XiL!Mxy|6+NF)aY
zWT?l2ER+`Ua+JCr=L@GoP4BxZHgZM^b3wOoJ0Q?g3XY;k{{T?j6rR02jrWgt!VnX|
z8TzMU`~;Lbh>vi&4dVUN3GSS6p2?-c_O<&bK#+pn@VKy%ag_Hpju>^m2vJ%{kF_#q
zJM3eN+H-%pd~>;<rRBC<We)!UaiEnOz$e;`CSdsMK?F+1ymu-JhC<=K6YVFC=t4-w
zLPAO4U1b^q(Z_H%X;McsnruzSf}tm{Ob!i2#3_b}P01bmDPonk_X{B6etaofNf<w6
zHc>C4(jwOjwcw8l(lX#~X;q`nQBckZw)>w2D_=p{8#GMZEG|F7R?)=&0Mc%JCr<me
z`*xp>5RIMelo9)aifj|A2%3nrovtnTAwXi4ga<H?tYWQe#@E@y<xBhmF30WocM6E+
zZkPmNg_pj>Bicj#r-flq3r=FVKg`q_1F}gfXI>_n7+gU23xvW!KGIsHakdSVP5_&p
z*jX{B0fppt81S9y3tPI4-SUyH37<rgrcNwIdno}H<qQeE!BVm9zq=nQZ5=R@99-_k
z;Uk>Whc?O1ZN=K`D4a<BL1a6oHPMb*RA4v|Q_0Q~PE(>1M;8w1EHkyrSmJDrHg<dz
z$sv0U_SqW{jm`L6){A7@`=s|b0ORF#?s5f(DbTbv%s05P?}V2iVB6}aV`Ff&!(5vr
zPHqSe9~`1hk%=wHvUqSN#AnD%A-A>5PlsVfE*;Ij=xi1_(nejiz=P#+X*Sw!x!&Pt
zHva%Cm^SgiL@Le&z+ATJK?LDFq#N$R`AM`Kj#9KyF+cqkz#j=t;5#G&{M;pDq2T#y
zOkTj)CAEdcif#e{L$?qu%0OC2aJU?0DQG-6En_4m-;{;c9!gs{0Ifh$zjBj<WsJ_d
zd9{jN!?;lvla%J<eybk^FpZBPq!K@642=NX5L3;?$qAd9K@KRSB#5#dg(cX1uNz9{
zFz&&+k=FiZ{3k~wh=UI-b<>($4W8e+LeJ)Fi+(Pj?*lm=5oV1cOD^NIkAysh?G_}E
z6yUUsbM;ZkLBA+}vhhPVw6{1ZIpWC+K?*&t0_`?QL$pcU*c6AHrUyHM3Ac3M;CrkA
z4ZMEo!1ftPa5Kv04a5P;V{A;=f0Vfg!jQu8V{4{ZgJc>HBZ<1>fx=5>!q{D&-?9`R
zM;_%j=$7XfA7q~;FpNuJq$1-T(whNc%4xX0teFZS0^c7A06ndgpqp`S$wAGEAQ}ch
zu}fzBB^I^pmhJdL!jEm%b*d@`8hs*+&pWVYc>e$h9RoqD)ar!wY;=xszTUxl1qVq`
zQ@eZHz5U9+q@sof+9<<*Y`Z=se5CC2mX#u#PU-4OXc{G8d+qughW*rx(BXWWoW`(U
z!n`aEz_LOJ$xM=44SkSPX|#}!Y)v0F$|0<4aL@oqU*R#&KXhD-l>`R{iv`8_z0?EC
zifiRy%bXCgiSBHg;fp9mLoMw$L(g3pcERp>@!1YW4`Bo9l$(xFF-!w)_XOis%kzbq
zs4cd=!skh}VFmff{{X02K`x;HxZVZ6R^*LA&Xl><y@Ku7!mR%QQHJ;-FZz@~Ug2v&
zqR(}L;`=JGsk63IU8y(57UY3NseS&b4bOE@bv$4uf2ug})HxuR2E&q(#CcS2)ZP#2
zDGsFjUBM1PMcHudlaZA|bxA*_-$ln#n%HS5SZKbu^0?=Y6$@)>3A<WKkW|!jw1jL@
z?V+IDl%$JtsXcm<N3^GzYIfep*u}Yc>_S$&b|F#vwM5~iO&O^+wf_KRg)N-_00lGD
z0P+e1vZC1qMq{Yp0uXjFaTLrPkfeQ3BF(T0nUK_;KgxgQs!lFagV|y0Fb~w1*JZg1
zzw+|1dz^%<m_pJ7g8u+iLq)@?Vh1h(N;NhywlfP3%gwdUpb$K?OLz7G2SZz`*E->^
zWM{ca%^Urmji_tUv>)ONeO7X_sabN!33>R+3ZFx(t1UCi^4|*cOX>PrW4N$gD{cP(
zLa7w(k5<&3?YwRBQ53x>3&fQ#GCgZzip>m-p`+-gYePm(R!WT7U8m`k^sNnKZ3KKP
zIH7H?U=s|DY2`;XTNo}}2i<G?1qJM27AgtqVu)qHEY`KvRCH~2>6#DKV6~pOl6N_@
zt#KYt3UbJoL#UpasB6$uu$Mie-d$yk*E;S9gM=>+cfnX1imgXeknelQJ%L7Py*WJZ
zX?tux%0<pbbatWCTArr;tlY+*3K~5Yy1C)fZ#O;pTa6c`qm7}?VEU~+4w+8?9>%IH
zX?6!D%x;6yEpFFH%l$&uQ0R2=05$<{g=}3L2G)QqhN+$4V+gs|Mp3e8X(3?R)&yi4
ze3Do(mI|tty{wRLJ=ViUucHwMNcM~=xuEd^i%EMdTnR-}wi<K%S2d&LsCt8`VTv;q
zAP$g>EP#%-u76&lcbwkWz(VCO;u=Y8^k{W$J|F;lTvS@8R8iAYJ=>dbFcu%vdj{5@
zxhe@_i<#ZK;FX+Z_GHn3{77!E)%uRcwalgtztt~I^poir(L9!D?6ta%t3gD=V;Hi@
z>OD_AOT8)~f_YhRhN7%4<=Lqflv-RCFAcYHR%c%8mM}UxQ@r`M6-m-H4N1lIRS(*D
zXeh|~GA7u$xB8&@N$lMjdaX}X)uqedwDxMe>3tG+OvlM`50$6VI%){4c8}R=H0lVU
zwVPlS6cSnz+a%IqhMorQV7;uTmO|$ZtpI!lHqbx-VM!ZW(Q{#BDu(RpIA0+Ew1sNT
zF~&RDP}Fq>pFrRrD@(jxPY+sBK061r1s9e#Nsh6;*hORxg~#CszUP~jSE%(nYNRZH
z7ku_dX)T&|hrAJWNKH$jWfp=!bA|$YAaOZH!xI=XnNc$sGhh`-?Xj$DSS@R(I!g<x
zYRzt%oRD5E^+Nvu>N-hVX1IRpQp%Q!C|G`}tH((joZ`IisCw2(BrsCkyUNpQkEN`I
z#m)qg!pa>A87qB8Hp9Z3lYNet(N{@HsA{tZPF(Ao*=XpxS&WD|?BsU~L8DVs(!@QW
z5IHGz9Zoa+HeKIE50TwP7Fg9=W_SHDkjb^6V66s{(Gx(m@PmPq%JAVC$?g@jEcDxV
zSQTigF3Gy|SW}Ymkzl%Ak%CWT`Zn$tJRmjs%OP`GEri)5;(-X;*dC$OG;|IESz6G3
zRQhhSPgHj_-KUJNJE+m+)b%aybBG0PbS)6W8)F2Ee5J$6O4xEzdM+oaV~@1ld}S9w
z9`FsU7eS{%11|iPAec7|unP4=Y$42zhsjKI?HrUPRbyD&k^;$f2U9~y8;7V1hlCuc
z$~J22wR(DH66b+$m4oVzwTy0xnfsl_7Bg1YE44X`821LA!Aqm`{Y6ZH&ko8}7cRqT
zbPFTvbxMu$7aN=ltu}$vjvzWlE6oq5;-_m%nVwdfk~p9MZ6C6wMj)pkEk8<SI{^&J
zIyRW?V2_E-kXQsvdUNJ)w1Bf_MSEtj$+8Df)nTV;B!X3zr=V&MjQR&FC0)|m*^s_s
zOMC#L=je2R>a}U=<T1hxiBr%~J<bo2gx{4E6tC0e9;+|s3i6*(r!j^#w#Ac17qdB~
zpxSy0LjZfWgKiZTs|XbvU>H^+b_@Ht`AmkN*LiR_D$$A~DLbJw%|4Z_64a4(ZyU7M
z3$d&t<x%QouzwBD${slPN4UwfcFGP*q#A2%J5tmb$Ckrud?cZZ*Bjp9ZzWMwJhoeZ
zbbTb{kbq5sbx8=*WA#Tz6oHH+k1E4QhM2@3HL`?{^0K>huW3Tp%^*7|oC3`yvnI=3
zPNE2;+Y1NQ>X%a0n+pgW_5mNI(9b#kE!}iQPM@d5H%)EHX^nJbnW)xOzhrR9ZzN%A
zdVf!q%=ISC)UARYfz<E^VIb5erv<MY6*m%kWA(Q(HtoY~7Cx$J9XV`n+B~ambkx*D
z=fnvlVR`*{)Z(kN+(o!TPwXig*mTI|{v+hx<f4d0D{SLnaup3FW~4xh5aN80uk>v<
zQhb7Hxd~|E=va7~Ju7P(2V><~&UD7d{8uo#$QWM~acs59q1U|#TkAc<TOkQ2>5mkP
zQx)a)As{mM7FD|LtsOHxExVj}vZtl$2Rs<!HfhD~tTfmut11DUhe_J&MsgNd!8Eva
z3du|NIgC64RnPi-)Xd)bukx;c(w!YH=v>zL`BW9Is&wWVWF?^&BxMl<f?{LbTt*bp
zQnD!bn-7IuSu<$kCNN8qY1K6~PX<=FH{~8exP{agK1Q|>UFOKAz+tD~FMOztMJ)>q
zh1Yk&9*a>rq^37D&1La^>p`xKE3K5~x<_hzS#rjle68IEtN#Gv@WR1xJSxhK7A8l&
zCO37v1Q)FMJ&Bue>6s-UZF(u|s#@sCVFewdQa%QcP+#RFY<!2*BG*O4$=z{%qRDsI
zTvwy2tJ@IT9c5ns07|K+d)#m2q}ATab`VH&)m0@}nn8O3e5Itqtppu5jgxL@4px-z
zEsQaZ!Uk~0w{si^(5a}k7DmzP0DECK1iKZ>=rTj6HJhqh3x_vV$5hiJm<Sl#-v9*d
zQmzSw#3tjMDq2=kzOwN|Mtg-kuDTl?vq2`MG{81E!(00)nWxlM!?;XXPlAVYVu~x1
zn`KwlYcfK@$P3Bv0-RyZ6qLBJYcyGDX7wLhPH$pV^pZwMXXY+=!BkY#diJqb?uu5#
zd2w3pJD?|QB2z2FxgeDB#Nr1vE{9W(LBadC0p&%h^*j*9=*2lMwSl)Obqaa(z*{TB
z!$)J;X6mFhFFP6oPbC@Lw3s52+ao%w<($axV{he4F11efdU1Q?w+SCZrwD)Qo*U%e
z$uznh08P3%fpG72J5hBeJ+`hWuBfT5g{D?VYi9^}_04`~+BUkwveeeWrxsbWf_|tP
zc_V^Q83B^t37n(<08=PB{fb(>V_$4#rkZ2)1!wB&_1cG!=qGQ=_AMTIS(*fpSlfaW
zI;=1q-i%R$^g+pnIOFY}X`xY9wc=Uc@HshJX|;%HqYX0)*;-KPE~$N{7HQ=dH%aJ^
zXYnt)<fc<pO~Jm5%@0%<rQF@lZTJAAXX<(CSXjthE-mg>QD_tt_=%y}?xg<!ONg6#
zU=J&BQg$+vilUE4)8MO|zP0Wd#f_GVZ9hPQn*OcLxZH-Rp{HbaY09LZL9D8IaG1uy
z!A{&(gtpy;Ni`sp#{dWClqrf``=fhrd#IVDzK&sflOgaftOF!t2^8-n=k%pXF`Swb
zj#=4>Tr8xTCO$Vgw<QPYSIs4x32S~;wwp;iS+-Vxbo^}#dn@$HnBt#f$lZJ^_~w`m
z@y1{AZcuevEBA?;6K*&th;;|jvtel5)fpz4RZSC1s#P{J2AoOyEXJ(b%E?KRkT4W&
zcT!e<WVA*$-^J{Sj=o8wxQB7`WLMh}s_4$r)3SzU$m_?Ot#*y5Hg*8VgJ7}R?DaBC
zeMpO13KLJRt*4ZJU59t}Oqza;Z61NFK7UA?1CI+k6+I<XpY;wc@~5V&)@s0H%wTGf
zl(2$DKxicSM~hpbTTj?sCX1sy4YGda7dD+sPYLwoVDXe4HklUf>~jF;4n@ljoFdyS
z_C7ClIm%11qLEek*r}x^N`YW|6jVCqnJ~p`!S1OwN_sZTT-R@H(2-YCL+y@$ljg}3
zUudMJmYJy<lwgw_h2q?*nu?jGn)~*Ppj%Z_Q19VVxr2n+q0}4hzzXR~wn@oejb4{F
z*g%l(ReeEO3vkB`-v|min%4mvS{?K#@uxOIB&ldBZa3KKZ_%G+WkizgF}Szri<e3j
zV}GLO6=h#hK}5h9*6!_P9T!&9()$fNo=;#ARTDPfWc@n>=wt!Z<TvCk4OLVUMYKlN
z{nk@g>I$03h@_`<cN~#qHjXtJWW7Y7kC20=?9sX|Wr?qG4RLSKs2NPwOa!iRYP5zZ
z!vQddA2(7KM)B?ipHv=1x-x@%VC*_um|9MFu_=zyH2Tsk@-M*!M=UgKkh$~556Wxm
zDHsQ*Ah_%jHrV`9Eg|UoSflkBT65a!8l66hml99A>Qks4Q&7+0&UXBjCZnf4@ZHUH
zgm_EwsXd33mq3qw98q13VJJXFRF)L2a6cDRx{Ot^Nwt&{xC6*nT|H4#7#pb^4}HoR
zaq)UDj&_10(j#!Y;SKn*wb1D);GLi_a+Z4eq=@c<*zBq1sC7FZBjs>(munk)5>Ua5
zB=RJL&5|k&uzs+tcB7~{u)<7CyCNX|sXYAvMpM(lr0IW}u65@zpH02Xt=&6EreqYd
z>h+CjENS!_?k=;sjI}kamTBcKk@y7g+~fuH*x|-J5#l#*lNL8T>~ya$G8;SL%ITDH
zNkHZqNQ{fwxFo77CvK^pE8VPp!7A>Wx=3lA8(J<h9Dj92v<(!@(j5T&#FOoDH?ZYO
z%I8yBFU-^k9DVjAiy}8kQ75T1obWA+rfN(MqH`Js;NV;I&DM#ekSisk{M-F8ER21<
z&K5r^+LpR@xV9<fV_r6p9czV4EONm}(q7Qu{mmqNDRj+Y(U2bmJDP4CwNZ7lP5ly5
zP&C)b>86>D4>sP?;0I;0>H3*ypRwBGVx(xhgn+rAeG1P_sk*J(<Sic!7EIp^(8&v|
zM2#)E?S-n)RJL5|P8H9Vs*1ij9@A+X3-CM;JQZCXJg?kjtB-x`K{;7XI$D}K#?MPD
zgp9?91b8cBOX%0-^u{?{0dq<J00+WUg4rEjkSC}0jPY+_vw<Uy#Z<YJTMHz6L;el!
zuD>Tu47;R`c*{;&TYLS`Rn*#SQnW=J&$+vIGap1u`T=z{DGhXQu?IKqr)>lm^<zHk
zat;TClF)$C_B58BM|Pl~YnoekY;h&I{>bc9?6aw*rSux-GGA0TaU={|=eSI$(i~>m
z`cFy6AnpV^=%6u6GkqtV{{StGkqn~U048TPLCZ_KEwQa23XLi)-|kucuApv|LmvMC
zS}@>mu$-Tejg_T<u$$ZEK-PM%cGq0A=Q&x#$O1;*aT#%Lc9#)_D>Rous+feWm8H9y
zLAWU9HO&{1f>z%k@{O7FQc=^GNQ!no%^k{GplXPsV_9P#w-z=|a~}BvH(TzD8hn9)
z?gTj8oM0j4j59m8Uyp>qPthb$oClF{+$rBh1DH&XE*=mu$tzvCmbmP4j4qa`fvjlV
z+yoi6Q&bj5KGv5o4m;gQ=Ngv!Ww*tEw<y}W6A)z5Yz3z+CzS+Jh7elUG@dRnvRV&B
zT69ur)qAClyBt6*?%$A~s=w5nO3ln8g1TsG9Pd@{8-97R9=>qb2E35MEro&;9;{gl
zp_g{zHn>~L0t)z8T~AdV;6J6^+N5;xRK`6*(=1}a{1*=e1v#+Yv>%&b{Zh#(8ZV2`
zP%#orM(pfTk}LqpRq)h^A9lB42K!DyTi%g9J+8;-zBbcVftC}8{TGM%5B~s-50b7Y
zr{hg!d~TVQWY1x{O~2tQ>SS@+=^gv8NpDSP+lyw10F8&FdS*~8=CrRP2j#pxy*-_I
zJZzEe9#Ua*&gSJOrsg<ZrsaCn-5H`r!szD%{{Yfit#3=y=`LF%O}pK8f0>KXAC6XI
zn;CJvjg+v{O7n)4v+9&^%2^wCkb4C7>jvJ)2v7b*q`z31!Fy$;1XIS`xLF)$dn4LN
zx6x+~tx!dP4MR^+Q7HFL?D#2oWS?j%N<9{}wJgX05_~GB$tL1MZ=Mt_GLB@q`A%$v
zexk1oY6zU2j}t#Px?S&nZ*k#9=^XC~82noHPgW?el!2QjA9r;xrax7|3GI#|GTSXi
z1=}DuYme0vO;aNX54Y7Lz-jgqZ<Nr&P6AsQQE3!`<Np8&?~8ck54x*~(#GIzap4^e
zPqyR`ie_TEEso2uoW`}sF5yIPJBcKKrj3pLBIxuBY?Lzo(B$(L-{#6=i(?lVDW0J}
zUkElbLQ30Yo83l3w_5m5cqHN9WY)FKIX6Kth$AGWbYj3M1KE_<Ij%MtAqz1USZ#bK
z7q`DD9rRH=2Ls^%l0Huly6?=8EJ_f>>)_lc#~Bzs(;x*yD3Dn=#5ulIj+vw~XgxtI
zcOKW_NiLN%cQzy<3n^r5jTk5y<(P*zAO&qx6PoR)IpVu*!kdC)$0LbHEmX0(#5?So
zHD=|YxI4i|PXk>40C4`w2I=jRZQh%9{S^KxDyLw-otjBK)^mG#M``j9{lFAUblPGp
z8)M`tpr&jC0NUNsIvoVQc;stZ;;QwiTj;p8!;jez`hQs2r0)1tI-FC+3q8l`kw;@$
zoRE<r-Y=f&*GY6l+2+>aSIWb>&gTCBvNn#JaJVED)cPWp%Xa|g?ql!pP_hR+*tCmx
zL}}ELZn3#Um=5AC-Ad_|AcmgI=jxU8=J#o_@T8JfKrHNGM)}&}EN$|FW}(nX<~)bB
zr?Qr3vv0Md36QWoo0{NCf?*_Jk}OdLirFJ1yK3Sgk>DR`J<#(9N-Y`MO6oxNn@S0?
z%~s5$x)!TXk}@3=!-4riy{`@1BR(#zq<bC!YpkPbio{4e@|j2uAh1RQ0SKyjqlj&M
zcfWMzK*N26DCT3L9^reG+<=kK5X$mnd1*q{Mp!c7QwVFMBuTa26Sg=DN(t_khoE6`
zk`c7EO$Te6fIFr+ts~oo1A%Eb7eT8iv{^ZjKOvxavKmIWd1yBQ4j$o_xP?6|@Ui!(
z2WjpQrj2yTVjv4{2kM;mw2mx}r-M(cckrbfj{!>UCG8ethsILh*`({DmQlC4Hu9oz
zY3KVRt7$42NU%0Ry_P=VYbHa+Rz@;!l<^~mHx(lr8ED$!e(7Y0ZMfwdOlHVSi5%FX
z>D<SV*NlV{n&vx;g)9#R;_li|U~Lu?Qo}23Fi;a|rayB{!A3dKHKD<~oA6XKN(lD2
zhkT%<(2fyc4u~|6?#g;{;NRiON5N3t?svFn%6MhP@}01(X_gfAZjAo`6dQRNN*@%G
zhc-<76<*^Y{U-ka3Ks(7dk}jNilHTm*{7$K?Pvt<V8FU5n<Q_w!u~F@u~gQ=J&zA>
zf{dcn;%tCbM(EG=1XYlhC-hj>v9|ssTWyWOS2IkOSvNr_x!@44VVKU_MCj@mdtSv)
z1P}vq*F^7;WK?fxn{8>7Q&Uz`kK#m6$jSxt42QEH-E2J<pKNd3gRaw=D^IOYXIqhl
zoLUDY`!N-)YoF}rz0^=V#_MD&di_1@b(!vOj_L|}cICNg?{S5>6rm!T_;9#SaE-&8
zDCg7O(Y`WTdAK+zU;4=I3<gGyOHivFWT36T((I?lB&=>*$CLzhEic+loI5)OA5T`$
z-LDrPDDlwhc6X@9ax9ki7VM@if?>Ii4R?ZvmKU=in<b*0$8HwkaIrWl5^c%KKu!Lr
z&?M}Uz~23nOYAU8X_SsdlHIRuiT5VrLAnv{2ISZjjBqCo{nS#2Fx>E%9MVOcjTudQ
z32^RiQ+ALrn%6tAN?t)(8I8%u39c9C`zIIQl&!HGqS2IwHsGn^AloV}xx!IkE=`o=
zRxB(7v{>DBvvMtU6E^?|b`+vpi#eqsM8y)x9s#&W$suw6BTG+~rk$tsn;!}=-OjKE
z=%g%?C47y(+g{udofF&*n){ChLgp5mrD!e~!3p{yBpk`y8bKEM?4T}bb==$^3NT(8
zK_I3L!zpB65}<&<;q5oSWdzZ<9t%>m<2S#QyN}8GsoB?7fnRaiL|jSACE=#`P`#Nw
z)mKLx)iGM*Y;*FYV}boZq3mtJ!hCPdh`2$a;VTFLgK$>|pXRX%jW@`+Dc3gPDPKYm
z!`{j=GtcavMUBA1X&{WM6L(|bBpg`~B(bsK1_8a=p4Yf?0m2kc(g=}|Nqd6Fd~k=F
zne7*CoZp1@$kWLnCxL=mNgoK<TLB>3!hB{;xX2xfSC4VHx?#9DHcm~Fher18k(+Pf
zM*4OJlN-KlkV%hlx^WFREpZD5tYeuYS__)+2<0GP#k(RRo@fP{L22crTooqzNk&*;
zf0pIHvfcCmBGOMQn&JvI)Up=uWu#}8pZG&MJD%XBZLZ2irZhP&Eq+r=OHURHn{$Dm
z_)6HyBDaeImwE0#vO)nF<#TQZGCQr=s9S<?Y?QY*2`<um1eZ3jLWWYIL*4prl#p;m
zly)g@M;vxqg58Qh^Mr=SpRo&x1Xv&0cHO5Q6Cqj@TnhtxsAUX1f)9|SE+C7J6mB;>
z-|Ct@l9HjZ2ksAPy^-vDBxciN@Su)17J@DhbdoXl;2-ju&UQ@taCkN;o|KFiBMLa>
zl0N3%3MM*+J)}R{vjkBIXgq)r@8;LR;aC{j=KDw}3ED%fe5G!S#E#vPWDYP?jfkJq
zo1}OxHXx6L3Q-fA;N3K{H&WPNH%iunU`a)w5SE`MIlj^f#k;8tb{Hx*HNg`k5ftUP
zc0zgdUU;$YgSLKB+}hj(ELMVFOUY@vfX3mH60%n|`8HEFpd3706|T+DD~4}$j<P0E
z83eGQor|Jj2+t`k-ph@HS6ta)7~5lvrH!S|uuc{^AvuR@t`k_a5Xu+1yO=JM@()&8
zbyF+>KV@g@)BgZde`Pl|pFv3a71h9S7k+u(FsAe)4d5uuG58D9qlGp??M3~8Of|DS
zUug)&K_B#sr+RVQkL-mYSzc<UJ&KYkW_kT5?u{|VIA|p+cD2{A`Yh5lgFn{|CBohZ
za;xQrwnuJ#!+QmE=eGH>W1Q334lCHjIHsv^+8jVrM@1xK7*;-@XyGx>B-pH|+hu%|
z(;PL%{#0UuM;~*^D%4nurvvh~s3k+_965c`GfOVXckZpgZtJ@xIPgGOBxY5OF@utS
zbno=I$-fG~*mK!5zp&wL86Z)oMBZ|oD4-d(eu#^cl9i(<nt@$I8_2k@N@$`O4f~@2
z9n-)TLq-5@p9^wZa+>NGZ~6cV#lswYsNB`8U|8rP?9iUtC>noAL;@N(NF8#uf`&4d
zA^f8s3C0!^`c#>+<{LV}YXFR=jAXQZQ=JnpfSw6Rvt}FVNBtpiYg%z@C)p$R2HnH}
zfr#Ap_z7EMkPuaxg*7-ga3|`iEBc}+t^>dR6s}2jH5#(`Vi$9og00pl>EkYZjc6V2
zuvPljuUUV}LiV)(05g!(+68{1@clw}xxdmlQJa*t6DcT%YaMCpPUtlDx?J0E2w0-l
zbz$!&D9<Evw0cKQQ&UDgjRbZ9T}2ddv<5UKP)oO9a&j{IcS%Cm2_<QH{-<SVsdU<U
zb^z9bQI`N@*&&snT|J9K<6ss50HiKsGEK^^sMI5j8@|eeSL$k7c9Q9u0QpGeK}nja
zYZ%Yw0asURFhU7*pnXd74P&mi63Sb;{nlouR@F5J`<~#_*d%k4=w%h`^$k<3>0t+K
zqW=H}_gL*`tZVBWSxQSA=E|ajNUN$NaCX(G(t2PpG`*bp2rP1c$jVF6k!>A*qb~WJ
z_mkMI7Ln4=cfMdn_*-2!M}`myVEvWEP{zOjXjF_+1g*0@ru6JlwWPEFJ{8qH958;C
zjC>-=?PU{<&4OnmBoN0iTM0{n;Gw`aQZ<B&Aeau3!?sF@g8bPP6*+O?867JC_boxa
zncAvHIO6GPsB0v4(Ic47=IZiBGWGyjLp4Mc&AW&g@|L0<ji%G7;2WGv-Q=aJs*V=_
z04TE0>pf9RO4nXi<K<wr&a<AW&W@Vlrx)^-<h>!3S8UyD9Y;+}(p@uKZv|sDUa*#-
z#yUp0-@42;8tqD3$X?)lt%pnWuy|{n&i&H3%3Ye*qJ@-|+Jn7GoZ>rNquR=SE+YBC
zac*n^-Zw{yj1k1qf#C_N^we|H7M729Dv<qp7Dfg>x?rjFV5PONF1EcnQ&Ff!$*K*3
z>=tS-!{EyCI~qs^>vg1QzmtWnb_fe`_RSK`nXSOGHH{X*!U>KI1ls9jtJ>QWWvs=7
zTW^F8xigy!n+ZFu*+)+4=6Eb=4f2YXmRTBF#$V+ms#*%sgZ}_Pnzo?HBb@7=>gtQ6
z!x}pUrlp_|4blv$oijnU074ky9*|`xCRb_N6+Jlxz+>TDHSt3on_vP0r&5L%l3Xyd
zJww(M)XgnyfV+SJMp+b0qU39<^;n@{E^q)WFH&`!5tm04rS2Vq%2(@JhN~%K3!1`g
zQMy-4zIO-8((CzCxlCk|=mr|fy;`h#m)Kp473f_v)0FRkIrapF9+T2ufDUUd--T`Y
zddg$9n}ANLJt1k!Y;|6NOA~Ho1K^YlbOqAvreSx=Ih3<Z@MU@Xm2;*?6*(5#Je8{Z
zH$_xh9KtZ^iMNZW4IEL+v8)@Gn^M%`Y<`>#4}G#qqK&Tg438kW$*btxpRvrREoIGu
zXQs>UBIw9se9o{|)Y=!S+qpLoIZ;Z=hPAtRRXU?xR!Ctc_`=lJ=<&b}?16?DVL1T(
zQaGme6)&QTOwt_{j>~x}?k0#??dQspNt$>9$V!T+p=mC638^DDWU@$kaj;c7uB}f?
z8FQWj&-GVU!AQq4H?`0Hki5rN)$8?H&CB*407~0^8%wiU)O}~_Inh!b&f@o3MnhYv
z)NXs6cNBL{XlABX`t2*xG@TBT2*C{-mQk&PmG)-3cc%7+zCcgZEwv3JAz%$?!k#K%
z+gJ-CBW<x{=FqGb<w(|oE>}KAM$D?J{aKNM#u2$IX$%`zsWOeEmw{zgdh$wXHo+60
z_EmFGS88%@yS5zK%6eT0K+q&^enMG6%h(i=r_p~9Os)c=J-$kpTkA+41Dg{GapJ*J
zQ)v|Mu{&Cfk4U841ZA#rSoqEM!t$ljOeU95e)lkop5YNDpCe)~ZN-)U0Octto4!&v
z9s-7QB||L}cCmISa8!<WE>78){Jh)l>xAj`8k%$ILdQGhTgb-Kw3&_7Jw<FTpW531
zQrd2U<3m5w^;*zna3B>MAgQN#j&0{W_E*||zY`-7SQGS8R5(_G;sZxGRO1T$M7dtU
z=`^^i7#`<<d;~VBrb-xF2_RdQJad|NZD}UT9amShC6SO`;cqD@qGdc$wwT&UZcl5X
zn*4&*QYmXBsS?U8)qOzdAtBQbvShD9`z<JIWf0k|H}Zp?BQ;N{D~YytrJGcY4V3VZ
zJlR7W&U?2Ll)W*U(R)o<92B-Tw}nNi)kh@v0>ip{oM(_RoT#hl3~_EQ1M0Kn&?7|b
zuY+J@P27Ch49zAw+MUw?0X+Cs^tzoD4&yU{KScrSN^>^Y8U>Gat~I{Q`6g{4>6&VI
zM2#&r9I7p5u6RF%PSEbyRkb}~Jdk>9Cq5LqGo3sASxLLIl{u>DWbZ?$U0HJKkaO58
zS84IqFbQL`Pn29!!w|Uurc~<9dwnS3u^qxil2t+CkRv*0OAo!neBpEGDCpmKo(b$i
zY`(1L4|6Z!G5Ry*7kyK+{{V7+TBHsSu(Mpz7Q;{)E#*;ax|KX6`cCy8M`dE&3V;#o
zPH*y2Lq*cr5pxSk`AXvZY@(X#j3jk6l~smUM(u#`La?gTj1lZ$4J0Www=x-aK_dYe
zuqwKnN~o_T@0@u>N;RPxm621`7f9(RHyqfb8LUSOhok@_!V6N<4Ln2%w;zIpq|xhT
z0nB6E#PCi_K%1`3j+?E`P|dDz4f?37wJI8abkejR3pZ8y+Bn2QGRyw}H-%juhb?@*
zr9|#O1g!4O9ji9FXHZd2@W|c!tLY?yN^`aOw`G~>-j|9n2yiyfD@7$N6wC}HDsogw
zr)ED~rKxnTk(0Qy!C9$d)=a^$1GJt(^&rhCv-qcX!l2dlN(xe0NfC4VVM)rFMy(YZ
zT^^tq8&LOH^L2Ykqg6S(nIlhd6-_N>p*i0qMXdQ(nntBN-XdtXYlL|<=oFglNvJC}
z?R9`bzM7(#?;BlZuze(EpVgXs8(igN^=(3(wFVfZ4>z_C2uW*UPP!(cf~u|7b1V;U
zD#AT3N_PkTS-&_{6xzG!nl>9BB|5WQ)n{hmBLfnAjygl|a_rYq&0h>d^3<(9EUUE*
zW2xF)(GJ1d%NlzAzfC3r1cYNHNlVrG&aEYzPB!^ezGUl*>>FNZRMok}ya0I@L(oua
z5iovcV%%|ccU4iTJ|XPd<BOG9E`zRDIJ@(04LpE@jcElxYzDfG)hB1>f%3YGL4|_;
zqp$E*k45PDTHjJ>i<~(g6SbJ((xco!Ha5XQ!KJa3m4MM{(FY3xbIDqI4LocPYZ@)^
zvpQz08|2;#K))AS2=xzEFxVs?K$0qoN!c}g&8K@<)(e~)BIxw^>KG-GTYXBTo|{tj
zJ!dy_J6s~P`pDeV6pV0p7)98QuVZzJ_~>8h#6j|@D>Zt;&CyfH{{WDz^?e{!d*TlV
z%5@Da(8L&A+<8I{y9-UN7;4_3*M&yd>E9S9!m!h|okT~zreCO9xpcqG8^3A!vI>0`
ziZ@<upeJ0Pqf$$3ucp-Io<P>L9P@QPqyDStUNeF_DI%by=8WZ8Qt6d-4ch9E(cBbV
zE3tW7(<(Y{S${AEXlsvkwtZfm4K>Rzj|(?lqlzZ_#&Az2#Z*-55w(SZ!2L>2OQ?;-
zy~wcC_2cVorlxa+@NAMA%DF}C=>E!@4Ose?VQ0~5DI|tkc9*v#c1A8<%<Iu#Befat
z6KeJ}_W^WzL!xh~HCyCAAr&K`j!ms;%C)71l`(B=32^M5#MiJ5F`8!+MAwn!O{{7<
zbsPuLfC2|>pmm)(z5rhxGp*Xe0YOmh)~Jf)avl;%xo9aUy%lv;HCmg`qYxnZ!YfOr
ztfK-+X@k$vTt88y05!DCY4QSVg;c`v$i}p(Me%f2tpQE1xu?>Skj4*i)JtO0s#)qw
zSm1mICdH)1GyeeUtK<41wT(WGmILTiwd8SPt;YS5a;MNWe7bEZEQ+#Mc=sy$aV1?=
z$Xw|GJgUF+y4tF(!oi^a>fVU|0HqM(?XC$pNoldvqV|!l(=<3lA@fC>Unp&2uTRsW
zBhrf=S`{<;hgY6IN|r|0;CplXp(5!We_51ERZs&?Y@sYtztz!Il0Mav!PO8tU9G3@
z%UX+@U89kfbW#)aR+Kt3^higm6mKmY*c6j%6pnwU`dESEEDEX1Ns8kav}dBI-6r^V
zGV0BmjE$!)sB6!HGM!%PBF)VVjo%Gb6t%35tKC%4!Pu(35=<}iG!Ay-1f|2V3P)DL
z)?K=Lt><7?uxgq?j5x-}yU115`irG`Z6p?N$WgT4MYmdHEvaO-+ZU(twHFfu1^sX@
z<*K=~`lHVA6kvYIB$loxT4s(_c#`FPhSh4*)5z9GJ4pWk=|n?Y6<mMCsB;g51w3%f
zF84GZ;ZOM{#&<^$f5=g4Hc>Z3hAJZe0C4p)%1Jb;Nly6O=6qdD+DT+%eKrR9z7>TY
zfmbd}tpN7AZb@_s{(&gsFjzKYaq_KW)av120wEy!B4Fv(LN`=5dGZR5v+@*Cmuz_>
z!iG$(=&W(pz^be2YQ4Xg^v9bacDna{PQ&354yR30Efg>Cn)*X4_qnehRnI2TMNgty
zSRFHM9dL2+WGSL#`im+mAGwf=1KZ@;SW-mVNZj_3xQ_~>U8|0sFUh&i-yjC<8L{lW
zPsc{CXCIjKqF41cr!{5bggLB;*{vAB;R{V8UqaSA`;Ey}b5%}jrH*E~zSfTzRytXx
zxf94+9u5b}^|87<*)5R@h+uyCUA4sc<r$||GDgo6gMnzh?T$zOR$Eh@(oXvu0(<?{
zriU|yJ0m2LcLyJ?NBCJuw@5B2Y`luH7d*zs5pL&%bTy@rz6M7foNh@MBMUnDJt=n{
z#^fhKT^nDxvBV$UQBgLTX;lyAqS+w;8(56lLl%$dvvlrpW3n7S!dSHywc<#c0r2MX
znI&82k<O6!y@v_b#JU?BwC0yaT{htCdoV(>rFNAZ!O}WM$AVjBT;SI*8w{YD=X$#s
z%L^s}e%bVxD&G1EXE~R+5_T!omGVsHy@9bgqTbPKg-FOMLAYsc`}R{ZDNTn2Em}3~
zxzn}d46(9c$wPQ#oFBR>O<JCJyVTQJw41lmepr4LJLsWn8zi+5x%T}ap`TV7Z4hv`
zp2$^<X&G5dRs$M+8j*&Vj7ji(6c(dO*&qB!OmFYEgYv1Fs!qpk_Bb9c+t{r}ms3%w
z)9szHIo9@(gY-gx%>8UGF%e>3G8_VBBmFltxZldZtD<0x$rOaNex{yB*$@7mGp)9q
z5O{DLtzZPGWiyD9IYXN6<F~@Do(8gUJaQL0_BZUbG@47LC5>aZ_h8M?`i_`lHuRqp
zhauwETE^(Ef}!j;Ex0EkEbfiO6BURz1Pc(5w6NaavX-X0rdoEyT@<Zv1h?Ei>j4{x
z=&AMoor<c4qil?B*<;{`4pus@3W`^{GHwC>V3VfxsdT+eJ>JOQ?UlWV@{ZK18Cv-r
zNcPEZ)YFR<sirYh%97LXYfZnTBdF?{_j^ENt%GYSyTr$zRyQ%%&fW?(88q<C&2)v`
zv4xnm^b4s=Gv+RP-23<D%1Q}hv5Ig=^WjZbtkOpVm^9|POM72?e(HnQk?(WfExWMn
zvUj1}OX`g^@3UPaT*m@qeeItLo}yPZo`lr=bN>L9IjNRiCD9j>VsLbRK~d4wil+Kg
zH*A1r;@3jGSU}ns2`#<*gWX9Oh=M^SjutH^g(Z9it=}7iTn7ibs*0xb2Fnp)I48H&
z5n6tNbyy=5{=6=+9JNxzUix|2G%`LJm~PVE%Fd<F2bMZFV(mBo0PrfxxB+WUEbr2O
zRA&xqpF=_MHWdATsXCRdnl{NN^|!y&AnLliTax~ZOn<t^!8DYw4nL$D-@?;r)lt?%
zyK6&->H&P#Z@_qw$nq%mdf5E@l8+Y0L$CE5j<c%Xz>F2O^E7^9XFL@Uj1$Gai5yFC
zTWc#r#Knz%u@&W%yJWt?>+Kg)#|Uu!WE2Zz4mNG>rEA{bC0mVX*X%6PJZIDg=%bRH
zpOq74lKho4Z*#43hQrwbX=$>Nx8#ebN)Aa;Z*}}xFszxo3E;G)G_t$&4at$pS<6BD
zq9d$eHvo$)*oYa-sfgLpxjq?v_Hve8Mb2qx4gHmS-s1hhB?~Rv9B*i`$wSmN@Sbn<
zLq$8=+Tl#<mOGP@jUW*|vPNRV@5+qVNaqi4)hzB~jljA1;W9Qc&I5!iL05EGQ&j>0
zHXc!;P{!WilB-1voZH1KZkStB8MDYgM7+HZ#*1L>#{O40kTGkZ;gQ@Difh{AluVtA
za(k}3gL%Ss*7iK6xcOLOC!O3Tvj*g;EYfTemH}&bSOVhQs3v2qY;E*Y7LY6xNI1&F
zf*)15<#(#!GBSvBPlO#q_7X@at&?GtmD9%W;mF{vpw=pb2y^#im71rWrTH1`tl)S)
z7GMl>x5!C6sAXU!JQnaucr7C77KYFS(T8C}>Aj~0;T=0cHw6mv?bZV6y8_eE%wxMg
z-c(f+&$I`$7K6xA7ZHmg>n>Vsab+oE`Yjy4V;@u+;`UvbRT`G9H+Hr5{nAvvR)Tk2
zcqn=aDBn44OI>5aSi|fte?@$iZJ37!kgW9TfCvR$!_)M2jNc9cLsw|xgD-A8s>v!A
zGYY4vjg7_bogHw!o&i*5U9KWG0z4G>=WE{9yjY$Jj}}oh%MD0HJDX;nauZ#rU>Kb2
zrm>D;xOKqttZC=l9o)l&AM_Nyz#B_Z3|r0cp_-}fX>5)Atwx<uPdr9BEHBuhbsa7v
zmJmVsLzeb68QM_CPF~3X@DXlf>~1ggP|rfxU&XSerX_@JdAAu%_s|ljuz6YO<T#9|
z+{eA%*O6|@%35aBgJK7SAf%QPatR(#Oe~H+Rj&67k0BAU^RorU$ay!DcAMjisUoa&
z4fi+egx-L(4J0mY?#mJIoLc5a0VjoH4Q)Kwco*X+T}nup;j~$0FGD}*6!~u<LS3J5
z{nK3hrf)BI(NM^gfPYP{nr_o#7iQciHrKPp3d6mL0WElYe`RG!s7xPWBbt7w7~{?3
z&%&2!<gvr(r!9huN7Tsn?sJ2}4sh9laKW+(?{i7m@-CXm+}q;eFCU{th)EBz>{I<$
zv|Jo~rKNOoW#ZRT$xa+E838?gjOAeOl(^i1_DuB{9B*KqBr-F#{)#7!_~9Bt$p%3s
zi1g-g{{RZk2_k%ZCyA~<)CNM#n4BGUxR0VH8i|;8yC5ZS7A^E#&8D^Fx|&aK${Kn}
z;LF%;<R(+rNWu$TiI-4xjN0~n!W%`^&@^q{Y=6S(U@f@`-m63IJNHUw7sxjFTVZX3
z2Dl#y&H>mh1R{f>c)iEX(8Pf9SXQyqQqdT1rv1>p@gIYQWk;@7zyl@%c>HpK4!$1H
zLXnJx{{ZbcvEB(xr9|h7EWD-F=;w8Vj4!rxg=bGwAz`^}(c6)gjglPM?FZy3X=JFS
ze&{A8y~B~e?B<pOO+7UoMnEyR^L`2fZ844n9(!304zqU#&mQ0Vg0!ZdIa(hSfZS&}
zO4AaW?5g~Xj0MrVb4Ox?sEj#>+F0@2D=F&?Z*xm<4=OVFrT{#TstUuVW-8+jaT7o#
zAJoxe6C$UK5MrI!{zrv>Js@}JH~1>Hs-OPCEU2W!s$>Q1VY9B&<S9h2E%w>%;^7Ez
z{jVQ;r@4)=AlUf@8~X~e#FN=3>lF+C06517$F^1u$CQn%jqkLPxrX_=DW*3su;|+p
z*g<uinI$uaxN<xxX#_HRP23Lz6kBN}ZefrU{VwHe7F#PwcX5BRWR&c1%YS8ID~L9p
z0~`F=54a92R^$o*EtV%6A8%`p6r(M^4aa0d!(KLkg)zCO1l)GAWb6*mjt1AVLI}t>
zPh_NF?F1!nrtG%|!Zu{=V@Vb_PZAyttdQB=lM8Z@mQ+j}8<6WKwdUCyzKS3kKp=#c
za5&{5M8a;@w(Pp--)Cm`_)s=t!|p0V<~)Kf56Z~`OrGs_Nx#)TCa{}Z_d{5NW0dwh
zhg%<Vm`yOLBEdE!C_o&9(IeZzb8*KYu582k+xscAqZ$<5aTgq?G_~U3i+u9CYg{nl
ze+dq?R1G6@VlVemkU+R7i5gq&Bll5|2;ovEE<}iLer}%8a54V?!sj<X3z$3HCw&r)
zSfRX-Zj^jsE^VA8Hns|zIu}C;^3~P{AG+gvrryUr(;{q@t=c`N_wt)&zWad%H+7qp
zC?vP~k)mvm({TMJ<H1e4$CjU!ARr%Ux7Bl;E$&1Tv5tGjTrcvH?QrdXl-GNQv{-md
zEwL%61GZ$?gu=^xS8lK%gzeYD)?_B<43ZDR?`aoHi(oD-2Z3UHC1a$8jJ>W7jz={7
z6*#IdX%!K+Py4Nv3t^GjXf8<L_F>H+{H<W5b?i>ukCfLC3U?;lB(<=HiYqt(xY(ca
zmc!_f++5oqC=4NK;AJUmwwG9t65AL#Q$bMpjkbb2g0+II9DJmAWnx`LQY_|rFY-81
zO+g@L_={y=?haP7f3PbL7D;yusS68Dh%G<eH)#iiY|RV1aI=NSmEV;P_cg?PCX-;f
zwFQ{uCSTDR4iQSuFKZ>-ZSK2%RMhn?d9eoG3MXtbi#EWfAu8wv-tI=>-^x!#gx#cr
z;G!g@4LG>@3NpvHk-Oy!3PfbOJ6MpTd-t4=x^(s<^>NukTI*iNgbTnb7Jx8R&VZgp
z(A4g=u2Jzg7U#M~!qZ?<Q+Nfc2g2qKE<P2zi%3j#Z8`6Cl)zL1=AH^xxuko7I%<1^
zgaoZEaRoJ|Va{t@EZYRfMn&<3z}Ns&*yCYyaGH$B3v+)ffF}h0>StKof|<ALgh6C^
z2b8uZ{nDJcSaOh(+~&&y(1oV!i!p@0r*Z|-`$)mc$VM||%3Y*<r(A^a=D1}R2V^16
zZI231%s={)mNbEH942k}C>b;BS3bhUH+F7RZ+lzG`zCsq78$=~-)9#Pk5b*zhmOSt
z?bpkI_);){GEuWt1eaMbJ2xsPO5Efq-7|lv1S~X6_vf1gtT#cvW;gkV?va%saNvVA
zP;;AZPEv+68<Ug}ouS0KK%Q#h0{h3+9*toxeXatI?mf`|0Gx#X05A#v0GWrKz@cHH
zW*c+LcKeb774>mnE(7klwbbDLptgV(0Vx9ye4+mU)F1;6AG(eDq$9XO(Ay3c13pvP
z!m4(u57+9N?OrZF;cEq1YF(QJJu@zEbw)LKg75XX_ynPPH5b!5Hv2|Oj^1pkf7L+X
zTk4~But~6L){tnta2Dlr8*G(GHCGXlWXJ0g0dUjxTaq;z5=VRlo7g*#-C=cJsgetT
zNGg&}xno_m()+%s+G06VJy+F^_uLe7R>2r0&uIIvD0f;uOhR8Hy8xB4>-x4sjXY=1
zDIETTXx{35O-D@Ad0H*uWwjo!sj5Dm91=gl?3+W<+sKlo&Xo5qD)N&_riQ>VxJhmH
z!+%CrDm`ygl)9!@M$_4=MWuB8JunZEyWiyGtH@(xMT0;JYcvn}TdsxM><zT6HX8sP
zg^|?pF`!@sz~=t|Dkh!@COl)pNlJn%p3p4RHALG5?`3Fd1S}4HnzMaPBijKGF~r!e
zS^1EQqLIerGOJgLB0-VAy3T7IXG=`N#>u_ovsNdlf7Tr{w>iyi$-!0B8dXI@{mp&P
zDdRUjjN?U)tJSsDPH=>f3ZyNsu8?nY-+wDzr}WO^H;?SJx^9C64Fs?ftsH4>h~=#q
zO(&)%kb>rwuhIHiDE65e57lYuXb<v5{gGmxSjXr;RQ%$Fs{*CdY2avRjkX^M(8!tq
zunH**fLH>eCBSDT4puT$7GD?_xKX}*S-cb|Y>z((s(M!tEEZM)8uvL(3{D{UMbps`
zE>TT|tsYjO*b^b`WK2=CexjW#n$Lw_S*XJU981PNP;De?vc$cyf^Gr|w^C$nCDH(~
z+TU112H_bpJB%#MnwGJx&FRL;7}Ja>OE=K`Xw_@IV@pZ62?L+l1Iohc{as&N^2iBj
zJS|R-_-k3H5c-YBasAfkL;NG9g^e;q+j$`vMdVh%<y{^T9W8x)w|J4)_$x)Ebd^KP
zT`WWe?{u9HK}gYP!MDPTQqyTEBRg6#;411O?VfX`Xc1GeU4tJA_6USv2H*txiI^rJ
z3k3L|8Sb^%-4aAQskbnGv2?(0EV=9?b7HVPkk(ei0|_Cc;ZfD=jJ?1lcCc3R>Cwvj
zy6!(I4vSA~?F%&Dvn>_06>h0@$gsM*q@|7I5-;^o)9JB9`{N45g|V{D!WBaW(y|!r
z2mm9+O(<^BwPvd-{X3HH?trD$U^PLqOaKRqu3XQK(;6t(%MhGhgOy3F(bUBmF|?d3
z{VP(S^jmpY5i`|L$ijCpg~$F=>9P189n?(L<e0Ug&1b@;rO;=ZebcqX-Fs%K{**U4
z+b_>5rk+hB)V}E2E~$^ph3qneWe$VWwDHE*J~4rkLeN7L5CO8l4~1tPPLSq?vR0IR
zH71`ncQtf>kp@qT0-~;othN_bRI)+rYP33S3q`<c60h=5H!p3z6RfaE++@mG9^mB9
zS;TD|qTg3QNxQ*K{PhfEUut!hEDkJ=C}xlX7)pETrDjV=N9nq~2H@7cuJ{Ow+UO;W
zh}Z(6lJq9Z%1I1z0!g=Za@}mj7TDWwm7bQWHaLJmDH|)K7e?8rKC-%6hu!WdDIC_c
zxz0k?RW=6Q#>*Ady;va*j+~dj;UkiW$r?RtT&JRq#nLoe<$1SJb$v}+-4!dG*719)
zokF6&Q<rq5<)=GQ8a{<A(gNmS{4Ap0*_-+*;-{*tlXJJYp5<!#Z>R3&x>i_tS{)li
zWDFj_Ps-6z(g?t`e0(Y`3eXJ>lp|=^(BGo8r={7+C*cs&Yyo8L&0}ujgLE3P8Usdf
zxK-1}cD=wAORQ@VzzA!>Dx#7}bqTk7gHkr%LungX#1#<Tq;Rp-)D3Q<>X%<Q3f5`a
zNl9ZaZRKR^^@loR>4Ra*ikwq!iZ+rr+AV!OH8}N)Scla0SZZYqr;OVCtUjBmimBTJ
z2ImuNoUP3Un%Jqt(jRdbvb`MkNeu($i_|jhA6qJYLsMpwcE<A~i9}00@>Dt?@)_VD
zH61oL5hRBBx_HHlCcOmdqOVhsO*7rL_zL}%G0??#`>d!ms)oYx9qc?S3fTmd?hVOT
z)lxzfn%1)ILZ{J!Ba>rcWj#KMUl4QJ1~RJ}@dbYKV6K1GAL;ClGUH{=uVXqzY?^S2
zZ(%Ctf|f%aoh7m5RZBFFadU}ha-U7A1|Lc{0_%BC1;?;A$Tv|m)J$=Z-1k|^okAx#
zm}9%I&5^pBMN<o;ef|kU>Gbfl3juU4gGr30t9i`9-vL|FY?O`GYkp8Qdm^)(!fnNZ
zf?Ang&*8Da5Q>?avi7EG1~X`pp#W=OV^61ILeJ9alU7xeG_o~>@p~<G28BTlK4b;o
zD02HV-$r_)TQu+7);Z5Tf);IWP^@8WjdL0GTDdfayDWvK-v|llBx|f7{>wSPKu})U
zLSdnNLDe|(xmC>t0hj)q7aR6knL2g#Chr#mvWBjPEj}%bgm1Tnsrwq0=+FLchL+x_
z&x<4J^{AZD=`{RUC~35aYb!lk&8=ZPUdzxlJtL<nX@lhviw^3SOJZ@^gsAEo*s&Ec
zchoChovNv<dtXumFWFDkx~ES-T^%FibGraS$hLawi~e3?6F==XP;T9!>W@^83S$;(
zBM0EB`qx1iB+Y^3tj2++*GdDOT_cI?N}p8HrGn3vsn4<fB@XtAdf9CZ4yilX2nV_c
zTx8Hj=EpOd>vk$Qb?K?8y*QxUS{83t*EJa?-6UIEe(Khm=!WbL4Hr|ZuHPi?3@4IS
zg_Lfghi|TL^+Rd3b#(yGKrp{ife^jCE}ojaIKF%B?3Ln9IvzPG&|aAOCe&`MaU-0S
zqyGS3(b-SwQ%2Xi*02j1CZAbU!q{+6b!(z&6*Pc3@R=Xnt&TE^rW})t+(fS~ta*E*
zA-vdxkkUixwbDu$Iptec(rOaKeJI3Y+^QC7u59F0%x!-*T2bS$DRR+!L03rynA(<+
z@>8`Lp`C`)jEvZ<?yF6u(?h+JlK#Tz3Ku@4Igv?klBLNMP-rVs)v4$~yY~@=TTiMw
zwxAk#K|QdYSJUy%{{T{^pj!8~<!htSP*IkcTnXW2kuHrW*(-F;qNt`Wh_RrBPelh(
z=~erkPU%58EnA4|Ya?iEAlk}JJ5UX&-B!VW1yV1Q{fWv7JBeJzYWkff$$d(2MsTW5
zffk<gE9y78{1Uwet68LypVOy+3yy5DmDInRsduj<wiAYg@{KJaV(r^0CnBO@8(b_t
zctn4sZ(wYdjsW;7@{6W4`3CU!u=gaQ-$|$G?FI5SKs@rKqP>)IGVSPkCj&R;o=-mG
zbXJtwT_&hS>PB1M<y+TPX|lz!lQowdG_2&>6(v<h;Zr5ga8c!2K~S}9+zPEGN_)J<
zeuW45$|&4@7k_mQgZOwWV-6Ma0pOK!H$WODjg_0R!6_xD*kZq<F{|}0L;$jxr|zh#
zYi6uzeN>Gj!qaN~Kk3{#*CA0mqpItiM0H_}@U_=rX+DYuz7NcXvd82tPKw%kNWEh6
z3LclDWuTYTnsGOBuIQPjw1{Vp$K@}|k(N0XT9;PsyfC<t<pZX53~*J6<U7spZ!2Z~
zfuYq4w8qaj3bwnYbQ*KHt`0v1G;+t#C5_g^sq6Y-PqsQsy5G{NDfLZWwy;YSC9spn
zWp_bGrbl3D!>z@|(Q~q@M*4bvC5N91z3r0UqDoCtnwlZ`&uRLq{cBp$CC9nf@CiUy
z=#{2lQmyA5yDQBPM~X<nb7ICa+@bO~>5apY7f!!Nm;hxl1LWBqs%iQpk)Kakk&Xiv
zdV^TfX<)ne#?x-gH&-PS2?d+}KvQ`fkwu9uu)(LX@7gsd&d>Xbv5!d6qJwnoiO%_1
zstS4P9e9i51sZfgCTeSDX!vr`$EyUVS{+v&l4aRR0|UH(jBN132l1V>0c;dJ6#9K2
z+YH{Lhn%SE>1MBl#@c*&;ZykbCw&x}zPl4DKk4LrmOKTd>Ahlc6J-Q6k^IXp{RXC)
z=0;fCvYM89;O|S*Z`dIjucJ6NYPD{ssM=#K4{7cKtf7W&M7hp?rb*>P6&9l~8)9yI
zl8kPHsx~{mwTx-(E`!M!?t{Wl*)Zw)HZ#<gw(cJ`KvzoYc3J}W5AvppmX0Ys8i{0)
z{w}N|f+j>?PQvSPbtfl1qRDaXnYbgTt#Nfkl0-+Fg(Q?zF<s)VvfDPgvaXa#84^I-
zoLmK69TVe!s>*h{{#6rIvU1bW%+z3wn<J%p?Qo-QBees0BEaq486c{7vtesT!nDw+
zT;~Dq+<OqHq>(n8?5L+SI#B*21Ae20X-m`)JO<O$0DCLVL#7>77Sm6>Tj;Y=bkk@m
zJ&-%;YpG5RyF*3s(+r-bzNw@!hFkXq2Ti2P>VY*#F^>nbzUloQrml9evif88UW=!6
zwv7cab$o&5*)BF)Nmy@mk1>9oL+M$v2fEx@X6rg;3Fa=6j&j@o045ir^}eyudJ7yQ
znh_x2HQ87SU&TsR)p|fQ$9xi0B_{s>iB-idhiRQRK}^BvQ_N3?8><iWx|jQ5)8Ao>
zfV6!v)OuE}5O|UXpZ=g0otlQ7OwI19gaPsp=Ok~}(dYENBdSmCEtRc3iB>G=n4@7e
ztiRVQV0y1f4cgks3I71<3a?P=N+}vzBx{GkO7r~(kJ*sabWJ7zL@|Ql;}%r&ins^x
z8+MN>>rvEbocDTevGA)TseF++w>Ir$(U&gFqL)C_pPQ|Brs7!R;b|yzZC#Ovwo>+i
zdk$3%6-lRew#VwPX?3TT0A3h=sbyUumHQu1+VSj?cSe3w8Kl+KoV}8L)qbm9`2&ck
z4tI;7^!-Cnh@VIo{9Q>dFGU+~Me8(riZ>S+PoF9AY82tdDS&AnLavKj)+LlgA(fs>
zxJ6ZI_0v;6qD{L%+~aN&rswEd<FZXz)WVsMVE{Pbj_W8Sg1b?IcQ`lHmuPdpm4Mpl
zzNMM*LStb&SpW?B@_y?zBg>$nYjbi*KLh^&mG1cX)FY$H&o?;*ejv$3S=ALUplF7j
zp{!{i&Oot0bx{ng^$j~7NjN6lCss!<=3Lg@);J@&8G(>g9sGlGFPo~Z5?dEjq4cVv
ziG(|N7yYmQ04l~BBSizj{Y3NO4BGh12=wlMmDb2V{e^Ecg;fh?Zx3zH)jl<*!8c5(
zk?xvY8yjUTQNMkQapvkV5r{d(+&c)WXSMUj3HB3Wf8{a(J7II$Hnf{~ML|O;vz+i7
zY@Z0a3f(e|)~k?T`9K#qKx(>^DkX7%IgEGiojvGR{fSao+qczkwE5*ls#Z`^%GT0M
z=?Q2jaN^_2uA0uVJfW*wmb~$6BJ?UOBC33@JLI+dUkIq#a4zyk$yBsq?syG2`BzcG
z$YN`p;`8F@#1i^M(Ks;eEgA93bwxC?G)l<bV}he?Y%mbv0C65ll76ABc`-4u#KYmK
zn-wZ&LrDxII#-2Z4NGE-hC0pU9^p_ra!vPKq!kX$oNwVRjYzm=r02<L-W={P<vi3&
z5iWwFSZ~>`Hd*rbINv{IZAVE{H9qb@;G*f7cVxn@xw7wNRDwWv2LqIBT}M|deH~ei
ztB143ByZ5FLgqkAUguxJV~Y-2<g_)Hl`u9)e=$WdmOe%-N7NwMSl0V$DI$6DE(t==
z>MWup+0JXfP`(N&^;C7u_P3ni`+~q)61C9OMR=eLa2R&$sk%O*Dt$@u)HiRe&8>H9
z_6aoVC}(*Burv&0B-C`%PDa|8q#)g{VMR651G)~?;Jck814#a6_X@0IkJu??u8@Fa
zjF$nIUzFNOStN!=F|RGjYl<~U9ri~x6;((NiWe65Rh3Z73xJWOn@&a6rY&s642+7D
z3yWazRTX4a6>>U4#}^Zlrmo6egF`87X8?kwrmClkP4Yk-5cP1&Pa8=aZi13WTf%P8
z6{6m0;HsZxJ;*#Z`5y|lvI5y%xujc>+##Tq%$L+@vGNtQO>wWKYi9P$&(SMz;cxPS
z{(|4xN&pTZ4Bs~HnOxK9iwg_?0CgnpsE%FJ?U)n#+AMzR#ng0lROV`G=zwUunIW+V
zH=`x9H96khrw7U&nz~&!t~c1Zr;tCGcL>Kbdz`>QAdo&#(?&}i*N!+Vo^iBMI%c|-
zsySh7vAcY47ik4fUK}t&%5=qJX{v^wJGRFzVs-Ex;c9&^c1^AFy!?^k&fIU8Ls}br
z1opY@aJFupur|b%9FxHw9V0>dsab9f6Sl-;45V>$e@*_%x_w3l97qZHC|B!_VLKQc
z5i?X<x@Vj?D1*z5uVqm#w=9jtIr{`Cp0;Cl0^9Hwwk;z}Sl})lbb+LDRV5@kxwC`t
z6_q%s$E?F~&63+5m!Qi7;d7bcI0o9+%5S(FSsMdG>0B7`>NGejs(LC)n8TXT-|VQv
zytnSAhG|FpZX@9=lk^Dx0AU)2oFOE}2@0-2<{xh=<{9cGXk?GU#zG~!Bj#_Z9F1{3
zkc^-Gfhg}qH5A_PBrXHtTRN60W4k8j$`Z3rsHQhDoOcQc>L+Wg_}yz-=_kFRp{~Zv
z*HS*lM!M&+o|<;Zd9og-ZAHM2#HK?8)b6=yEln3oV3dA~VfFs$NCfhtr<OOg3+KX^
zv>OZl$;^b=Yi)8@Tyd1U3rGB}>~67$!_EGw;IxhtUu%F82LO0LBDikgpz7(|^Tp9l
zBeoJXq~E$AE59t@c;OjJ!p7u~i1f+jcG4Yx0b>rcoN&8oJ<<$u!t0Pljg~bIF+AiZ
znB3FCnUfy>0No?zzl5}AGx%hCnxm*>WLc*LE9AJflS5kj@)0pxQ$ZWAYlT@pm;>>`
z(a8xvq~GX;o+klv5mYU-1EbGTK``3lTm2`6uZ8rwjW~{G07zMY2M%rr!Y&Gf6K=w6
z5N?K|4R56;VRZDQzrYJKJ8G$9wD3Kpr^4OQ^(-+E$;kv`JS#@OPSxVR);#?dZ8Q{`
zW(t>7jE1&Yi3hk^8d)f3q$79)@CuVs>H208_~HZXs*au_b$}pzE_qj?@o(6*G?E7y
zDdrgCC|G)eqLzO~t~<0F5)-C$l)!-E6-8X8NeiUr{H2P%#&77;Pdyf)4(Me8$I6B}
z4{jfB_gVOI;95(5iprX<rW@ybPm+sGbZ_<$^HB-*usC-uIZ`sIrM8q1prx;5kFarR
z`A(Ixmj_rl6Os^Ddkg-ED%#WTiO53d5wXVV<I#YCPqoB%K}$>SC7DfQEv<vcLFx_c
zmdC<^dV1Ji3x@W6F0HBIaAyP+B!WQFPEX2iMC87V{hKB4aFLM~i}H=Aa1T40KFP5d
z+%RlBCcOncknJJ2;Wu%>IYvFc(`#^paQ7S`$ak_v?ZFQqqABZIz+;iSf$o5Ke(Se|
z8{YQ+04^43Gh0Zz^eE~Z{5e2z>`*m&e3b6o99+};D)-MLY~~Uyr;Ag0Xl#-YK2S-n
zh2)r3Gz7(Gw$@KExu)^FgtW7^M%!>0<q-)7+Tst$L9l^7X<7()2OOww$KLoT>gc_{
z!?Tb+kq09v*y`Fi#^7)+5`mnl;Cn_0wUo_;vNG+p*19zTw08;Nz+kB#1DS*UknVB5
zLf2($M9~|%#>Gln)5Ej!glnz9x?fO-WGz6lVlB#JaPDrL*)Be*jc{=&G2@_v5e?h|
zk8PYgC&x3IEyxO1zBvYQ^-Ivriw!)oMqd#m1d|t#81?{sgx5M+W4Z^~NZn16fgNNZ
zpXwZ~RxN@(xxqN{jHGSa4XjU$Ccd7YMwuyU0UyxrP;HgL_;Z>^f{n2y7|5`kOeAn&
z4{7o;ftWflZMlcPgj5qs8+YV<C6-uZVcm~6SxSjZAJJVMY|N6u#lz(s$(Z(7gSe{F
zcFnn<bKMmTvF-*<%=rq094KXV9F1Uqrb|z7I6^j^?yzO<eipupXr_op3nXdqRh2%I
zO|#T!Yfp<Lc__*##5R@NY;H}s3JSVn=G$odt-W57$27QmenPFEOtVexC;3RFV>sx^
zz{z2Fa|s_sV#=xgrrU??RMm9iFhd4>6bmGgjv!!oRQ^ayqQ*Mx2Dk%%<#<8WIuhdV
zOvZeJgr2({VDYry7fq>TayH^Z2=U!y>$6&91<iNqa6feuy+)hz61pchEdk#xQJD@~
zxZzPW!7YyxHNwtq*9He=ulpP(?%dmvf1*!K?*z5C9|`PAVw<-F5W98Hkeg{8?Q5<)
z9#rv$?bzno$TE?U6~Xgy`z4Le0_tN=;Wg2gjuiCEAs@0v`+^*YHU82^!kNc!ApJsC
zzW2a*_~mYZ=woJcaNyuaasL2?AdozJTyfz${+>)<VgCTRC*<7H3xBakLZs}HH#=>e
zdnecs04a@WZ|Vf6i(F#K8P|;Myc>2)b7Z3F2_4d+?PyO?%|1uU=Q<~g<)`~3aK)1d
z?Q4X{=9t&E#^J#DvOw;{BrG?(T)O40_cV{HrD%$KAAZR}u*MTHfD)Ve!kb0n>|7s&
zn{bo2kCf(<dtGD(G>qkTLBT2a7SDePu5Lw>p-$iA2Y+Oa8;A`f=vNW(f1*MG;~!K|
zv?sZau?Y#i%I6bpxw1iH!eMOU1-qs=Tk4)K-zhP5f`o2QDfV#B`AqNGD0PLefA~no
zL9}&kh+0-|2MB@aRN<}{@Ks?TfGiUWNH=NWBSBgZmXgGl<H8z9oYRqyDPpajBhAN$
zBAHcBAR)lD-`NeJu8RD(jM*q4;N2}_fOVPy35|9JKIo@tWwG|iOWODQB#EwhusKe1
z9@Fk=vIY|t@JLRISH^C~6rV$4llv@S*4H)QHlilU^K69;NTxP?FLk?uh9IVJd|ea<
zzK)T%xg32|UY&w@b(?!8k_oxvx^zlRR<+G_+NEsHY0d&1OJ?(Ok+WRf;WClWG+0Ga
zYylvJBd2SI0UuRg83f#O<xb1?H(AhPi5?j7bNhuB=72@=oJh71&KsOa7AaaU6ie+t
z1f&m@hV6CKb|U%DlDIk7v9=JQ!dX>|JX_^X$w9W)UdStlVAzDx($Y4%-*l-VXt0s}
z&~w=HWgBW_AE<6je7lY=E)k{*8cTnakbY8+n-v+kc1Bc}0O2@jK;V0&xa^Z?z3iKN
zWUMPW*ZD|N^WAU&lx$iUc>1Q>z0}TakC2*MaeoMby^OgZM5W;NvTK1S;WUd3*sWFu
zNL+Vdr1g)55G5tg%4C7j^jXwuMqRj{gum*wAX{y|%2@y-4FNDkxMVA~&T0|5omm_?
zPaRcj+q&h99F)e#VQVFGTup)dEbP=pJ!MVo+nn-B8PnH40F-HHY0oJEB-l3VBxVGE
zI!7n!p3zl;WFzRT8xzRl$y*zNz*>L+8CL82ic<wa{{Y-@_`0$TJ<^t9>k3y#6oC7m
zYjRZXdw|;=^W5@?5nq)oaJK6)(q(t$<#4%iPh}LJ)PHqnW=C!mPnn?D5p)AU!ie#?
zaiVK^aVU`DQ`*NoVHz+Ar3BjP?bF4t{z|Z9A)@BVByeSkAS}>84HE})N|GuzUhWEU
zBV2jHbEJ$6y1*<78|Xv@niD-3+V6FO8n;xYfwwPcXzz8K)OweD%W0VT9l)|zB!@LK
z%S{_eaRcE}YMQkqEg-xD;`dZd8s4Dmy!tFYGF66~(@YNaXK|6|`tNiVvT~htW_7u%
zwIb$F)4O58aSFPFqpN0=I#)Q7SE)g!)5mKv_V`CbPhn=XG<^~1leT6$ccfsX+WC&>
z4$EB)JW(>uXanfFHf%R3<<`xzw;-fDHodGAW!p{fbjha;{Z1HFRr=K}C@y@hA9RwE
zk6|uEzzd=0uZfr4CVVUot=7y0$4u8e@o<OGpQ~$CjojHIjGPN)MtRa&L#Wqhr|8m(
z$%A9N^Vx2wXxUEybHLt53b&#(F-1hjxt4vhNXpX)E_k~0Gv}PNibg2U*Hah2d%5j(
zRX(0-F4G?Gs9S%@vEQgCGJ-qdp>Xk%Wsf(g=?LmSRAT3xB!i-&h+(7lUYcQsCT7bo
z)qPK<Xz@AKH4I_w+vKO0mi&0zVOai0(MuOi#LN(^Y5IOVU<HM%{7<4YksI0oD2+ey
zHj-!A&&Sn5AC}3J(<v_%MIMU=l}{5cKtE*^^bD5)fCWWG)^wA!ZFT;t&Yxb6Q|&kU
zCSFEdvZ&a+6nheF5rlhMsr3yxv0w|Ig`#$;9?Y96s=B5<<lHY~#Ko0vOy<cY=&Glo
z9FUBStc+j;$*SUOa^M1@)p~-OnT{rAfHRW47c_{dwrC$a8ZKM{tgqH7shUfq01k4z
z?_BGW=ay1k{O7XB*41kotIp|UvFsGyM*1I#z1Mo~m^sl?I6dDAk{Pu<a&Xf3HHU_^
zQfYlRSovC99B=W$_Fu!Unqdrc*a;ZnbLECdrLmKW?5pXY!}in$$vk837o~LHLQ&G~
zccR>UEq05fLr)V)YjN3IpG}RhvgyHtgnw<aGoL4-wu4HhrC<$>xB4S}CU-(=74g8*
zcL8DNg^KDg#O|KZLHzEe3uNrj;dNedk7A_RwylYQhlS_8ZK+UD#_!Be9Bw^{7hYZX
zh5rESCqoT8>GT*~QBpwx=k&FF^Q`rrx36lBuGK3gk<K>^+;+5l1<#UllKl}#((L*s
zuT+MrLh4yV#re8@HEfY(?_MjQb!|j3wl+1ycv}4uvsKlmX>i*e_zRa3%;mDuaHG^{
zH6b^(r*ZgJ@NRoSBFdwuG{(}xA2Wk--CIdlPY|$se|6v2WV;DtEthspmG%~GkfTtD
z{{S#RYMRwGEG5o($9thECE2Nk&rsOOaUguEeP5`lsN*H_w*LTCi0V$WbIX}a`>bU1
z*6LE1InH&;i<G6&N=a<jYn@*`Npy71!S1Oksx>D_UmTJWPm)x6Zi!bTn&JxEXxcbr
zV{=1|vbV!)U{l$hr?1zT;b~v{t623-duQr#KUJcSN{;s+e#qE#_5u1w-9lazSyh%M
z5^>ZuuO;;kX!uJGk*R}sRY*^DzZ47~$`pc)fM05L;o@F}`HW39E~N{uCwcp=E|FEK
zM9?>%y0HATcl{v~3@mM|6E7DX^aqi)GxM5^jsF02+vuw+W2=?k`JQj`ulF&G%SDhi
z5{J6YVx)0FbcAzdOcYY_xT_d+b07upaSOjN$bHYi39r}M+%=B3(LKd_7jLq{4L%xR
z2p1#5oV=0Eg3r&?@v{%YuXk0%TtfzaR_2V6ds}8nxRh3#Q4_tT?criIeR1<dL~gpq
z*L5zbr%X(4-`oX0ZM_WDc6)B2q>9$<-Zqs~ItmxNcwjePZ=n7rYE6}_ng<c^y;r5W
z<_X{qm77m{gjM@S<rYH^LNGfKD{3x|Yb*c&{3tb_#41P`Xd^FwhJ{&2_=j67@kt<W
zlG`Rzp>_6Zk4=~vxdBvQr1rkpO&woRJvrSO1di&5P_L4zTbq-90?ycNBG=Z5_aK3F
zS*wRRghwZC$lVV>s;_u?bJ)Z7T32+PBsAsH$&fsu!bWmOlF6r+NMAF_9OS3EwUp78
z#zn?3t$NA`Da+doydNtV?M{`C^o8Y=oF-iXvRds)?mMa+;Lbq09+{u&PYs2ojPt^}
zqR^tQjkDD8;dNXLr2ZW}htn2EjNeGt6}HPRnb7I!oZXf#zbBQnlAN}bZ*_neSX~~j
zq64@w?mdZCH5!F|TZDUyMfeKq9U?C#$*ZPhZ+E9_{3`d<$syWq<z_VL83B>Zadoe9
zvoqGoPgq(a+;3|m#l&7omoU)E_X!RMWpPF+{Xb4uSgN{e=^YsLMS%M$jFHYQ9vrii
zT?Iuk+NA{m_qD(g#nlB)txrTtTkf}T6|vK*9{b4h=J-<$7718Ej2C<asmTn|^k*q5
zhNn<>pG}`zD_JRY>Ub|4jr9+O)p{gU{^RTleIkyJlJM^;ZOO8cQHtoHsEn6xbDg*9
zj-fHNphgMvb#1J_OQ&E5X;n1Uw337AH~<lEk7CvI9W?Z@#kx_s-U6uq08!sjXsMhT
z^iXR0tPncPA<`Zdze|{EA`?vDFUl#YbOxI2Y)5l$L2dgK_f<zuL!_v%9j=Pj*-Ykb
zf<d3@SzSv&)oQLGb`PHjU(uR1^j&48Ks`4}8;J5%X0_Gy^;ZxU{{Z?cH>Um{Y9+>6
zf_C%WX!Kr+rg<BjH+M+eZi*<<v!LoGQ_=^zL3=Mh>khc6eC}m9Ww-@;&3{AC2mo|~
z*3I0q)qjVYDSMvx-#5PGT6eZ(){*8ky8f*{xx4OuxJAYOy{SAz`DScquqAJ4bZr`j
zPfjN_?gze6l@zhU-SCDq{SzwoCl*!o=Sb<ygiTsWdFOFO>Kc6`2!@Ee{{YcV^=g6L
zASHva3frb?VwQcch&1-NLb*P|{{UY^8f+SkJXVeun+{PQm#CcjwRdZLErm{{O-D&_
z8#e&4I=;J8TIVu2+Sd6CO{Jt{q}{MRQ&6U)CMtGrd035pqOy0FHZ%Jzoh2vcW(UwO
zb@FVkTccCO8GQ8Q4tPx!D(ntXx@Iq;Caw+*F_z!C3wCt3&k&MnEIw5QReLFA+eb*^
zM~0?Ltm<;aTIkF``RtM8$p@ulaD=^<HFa#$+#43x5TuK%B!QRwo1X6gEbMT~`F%&p
zy7{pyO{Y`B=o@yln|M}IoR-N-DKRPa`prU1$q|Y_2yJe92E%DG<JclK2gOFh;#vUl
zgf#>-8kyZBtZ4ZuC#A8Yu8N8+9)_|~=g3Qbs@&;%eLQ49NOidgx{6IYnj1qaOZ+Nr
zMz)@bh3=GnFLb=()ll4Db_1wUvvGW~9i!z`)mI8K4K#0Y99Sl5`txOBY;ALb4@%WH
zOR>>he1s&FR)ZUCyrS#rspApLr@h1soxG;Ashy}+dY_kjJ}k5vBXqim!K#80j%}4;
zQr?=Sk9%JTaPefYn!9699FhUkDyu5oA%+40<dC$K-7`0!Y98_(YuK!`JylIdQ@)x5
zCA)x*s{BQocwG!|Ii!r@%c<mz9N!$1E4qraP@t&vSm0Vsu(R5}qVX5FxRNpvj;oq^
z%=28dy7spTD<#v2CPLe&?d=w&(`6=srq^n9WXCI*3B}6X({$#cNY=>tE-bS;MySeK
zt3XAsg}kHIYHH$aUW=Rv=d#Ovnvx~c^=h~s=s_V41B7v(S(frVk~`d#7@~$EY9uAE
zweqVf_37U@rHX4b;^9s)PFoqejg#t<zDJGnI`_?!sH8ESpg0S1RJ0ltRUgNFd$*j}
z@QbO_t3)M{R7U2Hh1c=MD`Yvzy#mWsPY`snRGe}gv)boS>23D6X>slpdd`aH%X+zF
zEbn85SNSfVra#0tBl?a?l+-;T;^*wN>FqMNTAOrJ%Gmrg*=i@~nJHlPUo8IsH*%rr
zon!KZ{{W{#T+n-AX!RbetCEn3o3|WYP4J2yJf!Zx=;-Moacq-1;~7q>)T5zo<Cg6U
zA62SUO;qwO)|1K>t5y)VbIE<VYTT`KYHQiQZEY5%PA=!U-v~)%{HeH+;iJjnWGH&?
zPNrqQEL!36s(O#FO=aVzh=6_;<kv_Jo|`=eO)95dVHEX(Gvt&o=#4{6KbWYlhE|N(
zVme=1*6uwS9>9B9X=?_vsW1ar`#5B9jI!&aLmPcCip_SGjisK=!v?@9s3<?zA@x7h
zj3EC2EtNe7Kx$PpZ<H4_o^G$1piiRH`-7Wd<tm#RSjY~D?H%S;)Hbi<x`R;GD_aR{
zI&8z`qUbqwO4+8g3@1I+y$vl~(1%pk2=Cg-Wj%hujDPV3>6*hNgjQXL!-Bi6eK?G|
z2xF1mtQA#$l^a-nIo$GmVFgKBCYtL?*FG?Fbg;`8&}9iFu=Z+|u()obbZj3ew{=FE
z#%-wqj_~D8scY1=Z85YM$;H66kaXHK6)i5CQibexY~Y`pV#gDELe*-N)m7xu$ifP{
zf*A!Z{{T4FTwPZ|)7nf9-Xx5>$VNT1ZN!nfMse*cC4R$Ac7R)76cd<DQzdoyAz8j!
z+M00MXzA{In}o=t>1e&?oy?T?C%T5BN@<*1PgEdhl$v@UeT8Y%I*d-d!UObrv3*T#
zE1LRxc3r*-%(dc``<toBE`Lpxy#}crSrHb=e<UQ7r4Yt2mdl29cBJ9xx|z;*7yzo8
z>GkQVJy<E+)*fyahfUF(NU4f;F!N_CS){FsKTFbzLP!4EWZaM`BO^(xRZ<WtWc1v8
zB-HhHR7P5L8LUSDqjeo7u4xRiQr*Az1wp9CNlXZQL8r<bCF~rd=+0^y7KK|Y-%}xc
zjy#fbt3UK!jMwgL#DaM6wpu=mQ>Z=9ru1EN!<B_kN>oJ_>W|^uouyq#C9-wBB9lSs
z?FyZP_>}?PL(%p6KA9|bj;^3vv!8;2o}QkG_H9$-&O($vnxZ{{le+%^93^v1Wg04~
zw8}bH5*`o8a;`Ioo<vnI9~+g!^w$YUY;S9M_aX%~7=*Fxgg?m{Q<H?hlPaMlw1Bkd
zRa6bI?t8otikgdAg`3?Rmj3{?w_QUkscLsX_P4eco}XBpQvoGYPsNn~07cN>v5cmk
zPgc{p;DeisEnbmLqtwP7Q6)g~TIB^)u+={zHxhZWVLz8{VY5eYY?@qJyB4Nj8a|z;
zX6WAcfAzNLDw^FrgKaZITs#FsTdP3k>}j$3r)bj|-OOZP7f_Zo_hZIWOQPDJR}j1O
zIG;AUezU6|^ru<wXqn!a1NT4J6qC}<=!3*f0DnrU*BbZHvAakS#!aosd$!;94qcue
z6z6|LJe-Y0sn;r8XQYYlHf(O)oZO4&{3xJ<cAHOAk{HJ@kEujz6l|&0DmO?Pz~i*?
zdw=Cgq)ijLLU=(AmN^{TeeHGaM!Gz=Cuq;fRPx&wSX+c8bW%2F%+|O9Y;HTLr-{_h
z1?>(GzT5nB{{RTunWWUAbN24q(Z(%g8v6~<E}cm|L=H9#Xa(0i6m(UMr-)OB?j6vt
zmPq0OjwAtMfc`Af4UIP^3FDz&%_ML#qe-4%+qyRaZz{T)R!18o+IIuN`l4tmDk$k>
zht&b{;=?7SzJA34C#mjn7bM)G?Sd@>J<pP$_W+wI+auV(Uz9N3$(ryx=je}gY?2`6
zn~Nh8NEFm>m(yT%{)nh(q^N<<c(4b#vaggmvg6vBP-K$VbB~;@Y{?+DOk$A2%V6bM
z??0E_--Sy-PWdNm1<85Z2wOV+2BM2jjq?_lIkzI*BNs@|Ms4nM-THt`kcR*XOCfl9
z0ib|vrK6^OMMGl^191Qp$%@Ehb<KfN%Hb3x#N`*NQ_|4461CF-XE&QFea?A1iLv1Z
z%~lZ=YolevZFk9B{Z_0qV`g(%;BcXP2GU!{aE5TtI7sYeUV`JOd!J(Klig1Xq;a!D
ziTF^_M;K=Jn*rroQq<5vAeGK9J_anFE`*RAkW0KaKwEzyO?cyAY+zlykgY3q=2bu=
zWf%ZpKERbmTJ6Qx9_+2ziw!=mCp@yD&S*c(2MX?nmWEPeeQn%-NgdWz?G0cgi}xWi
zDVRn{`rTmJvzn5TkMvn6bBI(LjVtM=4)-+Q1Se@zJUykk&kEkASmnGk#w_8GLS%%$
zXr`vFFv<LQcLT|9Z?e%rtLY7hHc2A@kJJIUJ_uBFbRr#ECd>S486CCG?#~KNq0zt7
z-ehg3rYH3SmfcQObW%NZL9SOrUoWRl+pr&NfaO!n(g6e#d*Nt0a+^ziQzR9UnHqO`
zRyS9A-DghB-Lm>INHBLagZr(?MH-uWJn_vU&GJ)=C14hH$HFgGmX0c>{#tfS&c(gH
z6b+fOy3Mx<lSXO#A>0mbN$v`Zb681jt>EPl+Ic0r8EwO|s;hgVl(FqCaO{>+pr!Oq
zV`PppK;X$nLpTTMtXTyPsiy}+Bv4m0S@AgAcmDt?oq)Z7wC!+BlEM4SKp^C)yR8lW
z!D}d`Xnop2jn+T*p2&(S+S;aux#xRu@;s{z8gWfoA$_HWp_^XU3xJ5D)7ek0Wy~;D
zH~43^;oIuD^TYMB*riehh8oA%nwJ6M>cW#wqmcgq)y&|0-B^k!_gcp3j-qQ%>A%%^
z$7*2j(R8-ul||nKsM$$E!(ce>i)9Y%v=UF<aiVxW=Kla>fA(qy52lXctZ5yvxs$}>
z>}VfrDNQ7Iv2Ii2q>P^716b;Mr$_ol?w%`}O`j15;V0!>GRItaDks4G)^N!|s|t}b
zWNe3XL9&|`xk0iCT5i(0?va3#y6MsvkXbiRhC&=Rn<}weoZNkpRMjkgFLa^owBL5$
zl?!TXVR!JRbAA*<i?mrr;P(-7aD!Lbt;Dc8j-Xp<j^Xl|9Z4kbYK{pVyfBjMq9&)i
zL2ZFZ;S@AyAq_(}0@ei}t&HK|Tj+q4x+7wn9I-n4`9Z@&^RSBPVzuEO<M5-Wt1Ym5
zvXE>8wTG1yvBduXaJVR~3e~dW8N-`{bn->}sut9`2U_HWbv;{T76&QNf#+?H7EHyw
zsM!6)+X`ll);uB;n#<=3K+9n{k%4TdI|H1hY%4<uu(E~s-Od!(QI_85fswV=K2xqa
zDSac^JVtx0F$0~IAE}&_QHT``l>Nc`AlR&6cqcq5TGqexxB`ZA9NXf`HWD3zc|{mF
zHbx8I35CGn!8NiSqupi2rPd=pQA}DCh~3LY(i(Wc;Y}1kjEth22q1Y{&Cx|yOB<R)
znk=K!T<Ry@7mx>Kaa9G$!U9Mb*N(+3qS_uZuFDuT$jzBKx5{l@Wi#9|E`C*e>EW8&
zhToN4s8CeG?^+33_V`@C9?SAnTTM?DL{2Os{uXyoq<C>|!VT4)pE)i5Fmz>F(Z*hP
z?`)0i4pSuK*m)*n*%YzhgZm?5d+ay20conKY2|PtJ*SKzYUr58ZfkOjl4h@>nXyG7
zE^WiSBdBi62W6@cQYJgz+h*6YmMPjuYi*Pnka4FIGSRqS!idtz7$MCk=&UIs4QAls
za-Qa%5U{638wBt??z@L;qFYlL1UOits$9nZ0Js7QzJ$!c_8*^VMN<P{l`Vvw+gfkR
zubq(kmW}1O;FZ&fqb05+*#|j$oB<pvMKgEMRi+HRt~{o-&SxUw4%f;s2?**JJ8s!y
zxbxu_sRG!>zA`<{PIN7FcLaGy`V>!$Z8mqxW2p>o1Q6!(r(>>)Y1$ZUM=D4uppb$^
zioNtG=U{7&$J>Gwa%l5LcfdC{;T~c%RQ^^-<lN9m2cF7yI1&hU)86Q&-H+QKEItaE
zloZu2Af1P?1urkLqUZ_n%suTF`2|EC`5IdB?j8H1WYX(t33N^}x8Y5vGC5r4&dshr
zYa)tW6x&`6z_|HNY>sbo)u5kE+6$w|weYKFrm(qgQM(5#25j#p?mL%C_C2|6zEp2+
z(_z6)xcRcwim7N{Pv3ECDMMQB-IP7AbmkLfjawe*aeRQ9&tS0^vXPQoy~l#0dArHI
zuCP^)4r7hKNnGJzEPrJSx%(!*;{g1vLn|ls59v7x4%ZIhLA}HPP1D<xYv+rgYa?`F
zuDB(q;|VTWe5oaChZzb72Uw;^M#5s9&2BGm1xO^0OdJ#&Ug2PJ6YkUG6{r?TGg=M7
zvW<_*LP%}y2;oPITsuA!As&L`E{*=AWVPN}Y^>=u`q*s4wd@^_DwEW8xW~eLQjd?i
z4kA)!&YN1Msf;ns^qzYj6Y5*GB15h%$SWrU;&r!sTsTKl)J+*19l5>~Tn$XE)dcUE
z#jiF62OQ;>60-jQD^SPKR9s2~G7*(qsA&#qGQdQG;Z_n|5tMC}MpnF7FdwRnHPM^2
zpQ160j5xBQGSl;dq!eN8yl)5KrfmY60Ew)7hUb{wf89$ZGv3jLxcLfm6QMh0h=KAh
zmMj~_`+RmN1tO|=Wr^6_)8WIE*mW0EJNWS9`nd}5$l~3zLLS5Lg{Y^YknN4e2Os5r
zT2W5B1GUiVX{c)~TIRLK&;C&pQA*Lcd)wOzj(s`szj$Gcllr4LD4H!su94PsjxGJd
zFZv3f*lQwtU64WWN|4)$8?^cCl1ljMSP5Vb?m}sO*=yWcCuNf&mIsncK_lT0B|o<9
z8&8qSCwU+3$XZnKN=W`IKH(c^&x<LZWWL!LB>C>9r<Lvh0B!E)^uMyOk~m&$EuQwu
zh1AwJ1!m0{SfX;_{6<+ltpwwR7;A^LlVG09@Gz#?*$7a)a=478-bNhT{a0-qf^YJH
zX0$ij?m=nt6CBrb$WA82+$12{?8y05iN}#_g!k-M0&kp!A$7?P7Ad8t#uGA0+YpAH
z*<HZ0;l>5hn`I@IM-JeNh1O{v(_`|JDGz)gY7{h%%Z5`!oH#f5DO~YvHpNgwh(9T=
zH{>S=T-frF%?nwX)+7VvFtiTVNJ$wVMByeZ<V0gLbb|hDr2~@EGLg*(k(6u+5%PIS
zV4he-@(MyR$L^GLC&4SXU|;ULX}U~{cw0tREy2Dlkb(TSzrx{e3hSI;6s)2e1FkQ1
zBTG%kaFBD9;e&*xXhH}#X|kD<$!k1rZ^~dGjEh}33|tj}$w#3n!PxHwM(AW<x%Upq
z3qk#3?h>)jXXt&$g0ZZOpCZ>$J9YeoOtP`fAhOO-kS%}gm>};UjFi^g;1w*R9AOSz
z=DOfx=$Rrjc0J7_E^a)8o|_yn?EI-&ByX^}Yray+4bQow0|lv)IoLRB+uVyOnJcYt
z3Vk{UKB27M2tGo)e@;m>eyuy2O|sN@HZq)3rf1BA99X0eBaTs3ntbp(Y^-xg_(E)R
zO^Q~Zv!)+tUEW72Eqsd~s-MyhXt4@6!tue%Ry7RZ5J3evJK6ykx@aU`>y5mWM0y-!
z1YY+{EEZk8!1H79q-(bfg@U$4w;8%Z2*}|~=*J+a-q!<+tRF;oH(YY0vt5vw_Bo|w
z#dI)?BqW6+9MCL5N<&;dq$elP!2bXwr55aw&D)&eL~gJeBsbt$Ap`E2xP<M(+%00U
zrMFGn{{V4Mcj>q`@|o%%AK4V_$I@2|w*kUNu;%$n8FkQejr9w#-V>X0EE4QLYjB)w
z1(pJ_zMkxIr;IW?3j$LZacdB`gOkF+2=yEMtz6I#WH=|fm9MbDM!{A*w%-ey(Qukc
zDprBtC<mc7_{vf?kNhX$qW=K8=8=1LT7#fs$s{-yP7pPM?f{=97jccFDUWD%$u=J-
z*0cgRLk29RE+-6VJ@`-;K^QK3zyr1URhq9-(9y<2q-#89lpK^+%|*lBBWCBD06VH`
z%HZiRa29H#scNg_ETX4;m*K?NDd^~G<#2serNsXLC>9A@Z=hO5l-i>qVRqu;J2#b0
zQK@RxvKCWC=`#NSsobl$^!5Q@)nQFX6eA63cXTTIV!6LYYL`NqbLv*g=?{W%u4wdn
zcx`4heU+Ko&`Cno*GEnZoNZ;UF&3C)bnK0`V?g;*MNVE;W`3z;WQLDu?t~p@xx_OG
zK2$P^x@9vP$pnPw7O)#*<zk`gXUT7M$>0RFeL^FQx=A+UxlqaF!a5ycY}C4<CjO@Z
z<dUiNO@5vhmd5SJ;d%bM);pY7$xXPzrl;1+<OD|P3GH<+@^a07kt(pI+cz`TYC4H<
zrw(gRB?LNY^$xvM?t717<OEvPTyTQe_KwXQqBPA`x>+|lr<@CAMo`Z7Wx&^T=R?sQ
zuXt^jq;&3qrqLF=Yi<{wXlGfeAh3|%g{q1AjU-#8cV*1spXkeh=+H?MS^yvbr8N*Y
z0mAFdo32&3?Q84@IZ}VD)du0#`BjIHm93yTMD$53VP;(M_f?vYQ_xYcmrT)bm4d0Q
zshZ|WgSYEtSu<H7$u9ckGVo{Z(0){ddb6)}Dwe*VM})Tc^<FR+muek9tm_qKqPnhG
zq;bv82hcA<js{-Ap;=MWGjnfcNPaU4e4gL-Z}KFSBhK{C!-DV(g~WImRuw%TO{F!j
zlr^T<7s~Y4RzX8gXqeYYY<w(!uT4IoQ0b<W-0_|lNBFp-r4oNE-?Fld(9$p&Wdpzp
z)()Yhjk{Rpf%RFPV@-w#oMe{UMe^l`)GKz#V}e_cAu>s6BR2h>zW$}By^Ns!&{dsJ
z3mRR#73H*X)=o*eKfTfKpsm?w0!PVC)TmU@Z&G!wNxLapfBK2S#?)6=SIxR<Uh;os
zeg1<{G5-K<*;o26NwtJJP(F#Hj1p#BN7Je&aI|iAd@bgKq--q`N5_!0S{98<9AfNi
zKp8exb5qlT8w*8;B{PafO@PzV#2OmbG!LTIbiH&`Z44gKg`6VB*iA2UO~a77HCgG-
z>Nul>`@pctUUS#qje1v4mq8niO;2XGHdOk>MNHJ@80B!kg0XMt$ZG1HJmJrKjmaoJ
za@EoUNg3|4{AKFhd5?!ph4j(88~fRLv$RcjR;hILkD6D!+?TkO^bViVR1uH%7*Bhv
z%1)c4h}+R;*etQaCb=``Z8z}tx^w=^{{UroMfhh_U6y0Lm%p=4rG#5(HcRNj-WbrB
z$|sWO{{V;Immrq$%GT-HdD9~To*TS(D_0}oU^}*jO{(iOum?4}T<-xSq@uPr^opw5
z{Ykejb(*Ums8+~G^$GeR^{UN6v>!$ttUbb_hOVxfr)=C_<fta3^i?WbFP~eeGds`O
zS5`i*uLbTS!9+(_C0G&D#$EpacV%ZorOX%$fh9Y}#ZpMlL!g-?$lZU1d!}e`QnWr#
z@UAKJ=^J7|Q%gZ4qiJygHAq&_39hDq>|kgE;T2D*u#anhvgmXOobk9Gc_!-G9V(I*
zk7dewbOzA{Jz;&lp<2>AdoDtXIAUSL1{Co<tR0c90F})rvSDkE1{2#Tape%g-wO-`
zB6ZZPjoetHSkQBX=Z1lcERA5oCfd&BM)(?V1=P+t<v~4MaE;C&S#E%V<<r>w$S^#h
zs~bT~#~19t?y9<ztSM;N<_T^`03KJE^#@Z|*U09z?rRCa2au7w)JE&GN!1$N2ICbu
z4t4TJWkXL;XMLJ^`BW6JO;I4QaVPt&e@*B!I!3+Vgku3*?69KKY9@~gXu4Um%X)!(
z{BpILWg}pOG&Ekw*y0<BDbh$?`zWaTQi3Lr;545kD@r{Qk}+Wz0a{04*>tkU6HA;z
zErlck>Iz85`%U_&XOfl?hPL5BsOoXH;e-;XWqoC2wu<)dlapbjgX?uB-)wfjfVEu=
z%4we2s>4C~So$3zX1G3IaUNEJk|#vV3yUX=YhuXsn$1^FrKhw`ZNTBHC93Mxb$f(G
z&1#{ptaMC1<M%0aJ!+YcwLxh=R8ot7vla5K8UCT8tEqWr=QX6{`AyNfdrYQps_Pj!
zB%7=5rLHyX*+&5;*dbKYP*ySx)g-s!7sm8uVKowv&rX;E6-<=#MJbwW=J{4MPIF}2
z6G1mqRq2&gZQUd6--K1Jg>K%?)9PuYXlNUq@D-&2rixJ`t$zxcl+UJ*XuuuQsA>x;
zT3pS-_9UY$je#U-wGBd9;`HN&%{ahAQ|M5=hNf0Eq~zUP(CV5r5C>GfyRE{g)jEoT
zq`D{`8sDm9*ZT*vIjvN~Pce=>v~q!@)MPUO6l9}o+fOUEH#a#z)Kvaf66m98J+2g5
zcV(4T8WvWVsf+3!(QlPX?yHs6f0v_ZBKF;NnU+mgRH)kbmPN&aywdu13ScBNUF2US
z9k;Mvv|hc&qMOvJlJ^+{vdQZDq|~w)sM>z2?`bbFG25+#7N<ZP5tOpzX4d6V!`cx`
z(V3N+wy5hmLIGF0S4dZw0W~jZJ_V6II>x?j#1;$i<-MbYo`4OK;>t3nJW=O!ba7+-
zNh+M@e3d;Ool{Q#07;V_zeTaAr!JdoNONwEjk<k2SC$axSp@VJwo>VO1ST;w)kk;9
zM^i~pLss8XK=uR<p)=m{DVpHh{>V4UVf;W#zEDa_V>cS3c`mo5x{S4<xfrlmT~}6Z
zHBodW&1opj9$I$0bwhw}f`sawQ$`RLM%EYkMW@>pHRy9SIV#}0r8ZfOa-f=zNwrcN
zoY<#PYINjm4Rc%A0FqzJPcZc0adrOyQ3$>shg0-VrfJZ&A5b`#9Nd*1L~k_$^%xki
zPI#0vV+jYsI)g#o7@AkT&N(46{fWCo5>_@ib`TBwsA;LI>R;;8ksr!7eIBA&Efi;H
z%7VV4uS=)d77qzrXk{P`dWTjm9;T(X{fV-!)8N!#HV4%M%6%MldX-?3vS*Qg<!a*6
zrF;Rj&KI?TP>rcoY_IZGNz&EOQvm9g*!Kk=s%wp_v{cX+1MziM-43cFx}ohqMPn6I
zI&1`rQy~M87ebttq(#9#m~Nl`pHEHd)k4ObWRS3(d(?VtPBGDzlYH4bTGwi|N~230
z52tB1$hFW@^tCaB%{dQuJf`_vmiiatr=qW?^-s;r8eO%dt=&BI)X)O?KsN5Pnk@|s
zS8t-$7Ml!mv@NEkk*yA3Av9;L3n<rMT7)p_(Ge7+{R+%YqEt}S0xD!=MC1oqZKP(K
zLf!E^HP*;kJ$zQ`PAsJ)u=q(iCiXO78w4#h{{X?8)RNuGt^WW(sHm#nRO03y-H}~6
z(i)VH8>@_DpVCV7Jrkg6TnDYH4ZbdlSGooLm<o*^o;Y?jjSlicc8#LM**8DaBb$Zm
z$MEhEPG9+<A+o~trkVbc6WUw_yd|1%vEx5z9(r9ALR&3EVmAJ(EVX3?B$JlWJWrm+
z>p7{!+RBn2RPxi_>hq*2sr2fGO3H^gUpG^D@1mb2_FK?&=A>J=!Ws|4m;V4q>JrR0
z8-2N3YJRWNX=ucAJ}cX~${o7z=YNSovDxGlRG(BVlwRznXGUuNg|;@<@7+;X^hIEC
z{KHS#Y$nt?l1J=??TwwuavxN7yeUhcRRhn0R+OZLidK2_JvBWwU~5C}4Z`&PkJG9f
zOxBb8tSvwK^=6<P_5d1iL0gI$>nUkLG63s#C@Y#7s%DC-L5iV=*Pg@SQ@f`$8fk-{
zE#1f@Dh*qzD`{?A(;)u<>Qu6IWR(sF(Ey*Dq*0oBL$;dP=_Z>;jw{CPpbsl8s@KIx
z_xdk$n|xTRX!VMT?AzFVRCQ)4BmN`onYpdV(TrI3*MF$gh#x3mC%IR#biR^ly-7Ao
z?sBsFZ3P6?S(KL!`<33I6=gjU{GCQxF>`cO(?UuOGPbzSOH?WJ$~SXsv|%M?k<>L1
zdeYKJMZBRjy=zvdtp5P2gucfP0c&9DlO$ppgP6nIsoRU%86^5=m(|CrHmJb*X_!Cy
zaEzzWs-|Y=T>k*|0=<7ppG&Hb430?;lxrx%CKCQxn?`s}<oifGRC{NNGo@#Agua%|
z@&eFlJrklz*1n=gM)BEt`PMphuo$Ye_=~M<1%vA6(YfYbE|Kj#fD$aSvq~{*KvU@O
z>CqEJ8v6_lsy!xf+KW}$gThT8Rn_HhqBQ3?{{Y-MRtKkbjY-0C#=-DaILWb8lyqCm
zUq;$b`g)f&_QrTv9ePb>wzFha`=cj<RsDZYYV?i6<CExZWl=pQqZlSg{oZb!;}K-o
zW{IXYmN6w$&Fyk`T`sEnO^0OeJ_XiRrTVAlHkmfE`S&eOiKo%jzzs!Ad&u&U!c1i)
zWo%Q_ow32W#Nb^@G|f_ZFHukJ`m2^u(9l%+jjCjg@J|ZfJ%2-v9j*kp4#h{0_E()4
z+U+5xBHznx`Bj=$heG<xRvF`M?d@>^Y)?_p$upvgEx@1V36+tGsJF4KVeN!dpJBN4
zO-<5z1hKS5S1Voe>#3&vJg=3zwEajH_TDb3sU@n4ZLM=$LGrKZ`i`!WD>z8d2Q4>Q
zHy}2Vi|Q_s*EH!bT{K>u{{T};hfLF=19R$IFa4z*)%{e;)|Nh5<njo$mO33t&XkIH
zCIs+RQ{uLXzuD;8hS0?x(MSvYf|&&sYu~;X`Xcx$t3-oRsgOxMK#Du?M=Q{Dm^2^D
z2Gv$MukUBsMWrcQ9XeD~Q_HEv?3$}^9l|o6wXnN*t&?|y!X~DJO7(YB*1Ut|*Fo24
zu5&L2qYH(&;Hq&?p&XhDsp=ZH#9@wRzp~F7S87$;DrF1==fOfv6m(TD_3Jh`ap0h4
z*I;CuV~{=GcumH&U~bP>>8&b;f|PBYgpUpgex=rEVu8@P*ZEj&Cs_3xV*H-O**{eh
z%EIQiakpc1K0kJDV3RvXsi^fBCf*J0bYyj+2LAxlvO)C=Ick_@->`w<T+sC_RE*hE
z0R!YG;VLqkMWr2hnA&0PJ*<Y;XvC0{6gMZpP)n}SRc4+xhjt)k3f)suGVKAusTzGT
zqSe_Rm!Ys7(^Sa9?#A|3bLsHY#0+&Fq57d6RXf|dM*@6ZSHDnqud&Z_0u+MfY_g%$
z=Ao#xl+2Z%Em|6S?Hf{t)jD&V^1?#TiYkh@FAZfgvHaLX==AlJ#?N55<btw{Oywd?
zLqh4dUE%dH{1r|9pQT4AWj$-6J+F19)TXO6=FE)alVz2boxZV>q%h|Aa?T#m6zj6`
z3VO()yDNQ2fXPd%%E#(bmS!eH=|%@|8_(`ak3*=ZeHCEdSsYR3=egj2WgTcNo;h~z
zU@v3-;AMI~9x9EqkIBh$&;@?TwE*~9>rEKk51Xo}A$<f6E+=D&BwPEfJXEfz(W_>K
zyQ&~%g}?1^AK?S1QH?^K)Vs#_vC+ExhY^L?m(k0AWK<NCHI&XZ@_J>CykGYlWPgQO
ztUSRJSp!5&ap9?Hp?wTSg0L1&!?~oM3WC0KETM&-=9?4Pt=L<ls#&Im?it!jx9Q0#
z#ZZ>J6zvCa9G{}PtI}v^(8RIET~q+iKrp}9!F9XYXX;~PSPOVK0R#}5gBGn-Ak&y(
zm>a}gZNA*!?4_uucc3IJ0mZ)H4aNJRbXrO0tZN|LU1CL+#yuiW^syZKVtDs%DY`=1
zvk?R>l6G4m#>GVst4~uTL8RH%Age>CRcUgAJ1);s;o~5LcCkkkx`Sn=0LWqvdqL#+
zL9qV-vXUxzC9h$vm(hdyinG<~dS}v#mW;_EZOM=`B=}Uilu{W8c(LxQ*vm}ff0QEI
zT>&L!wux65>S`EvhR5m)j_Ymshg#=MBWtYC(S_vDO)OPyt7Z4G`<i}>d(`!9)M#m|
z<I7}-U%)AQRvwv{nsMrrxP#?L*UKQo+<xc@KT$XCpA7DdjfDJyvVUfvy^lPD_gv<i
zU%l164Ik$;*VRIIIx%-Jaus_frFjf=o}0h!7Efqh*sxR2Gf9o4n{W`uH~Ph!9Mj_5
zEv|)E)7pI}sa0PS=Na1GRW7I0Fill6blOG${_Yw3AlexwS5$_@2Fs1aaDxKhbg{@K
zaWc5?zEr-LxUn|nGGcU3M*Qt|0wPA1pW(P4KPWbldjL_it-IUuoeI?gOS#P=;@#9u
zkKA*Gb*X68aZ?(&S-G5$-a?~cb&Jop>XnSTJp-mR+F?q`*&W5M;_k|~spo~-jp^NR
z(Pw>Ebk9)Q5d@6@w-+7K>ybq)znF)=>Ip5_byNjKUic+zi?B_V%(XF0eG12If#dao
zdn~NrwfF@67N&xbR_M*%J;Q|3Xwg(l(s~^XTJ&{r$|Y|XwhFZTOX=7usb5(|6JwdJ
zxoF|RXLLHLG@VpME!xMM1KDf!+RM-v8xTTS^<iD?@W+DL2p0zVMAFncCpE^zgTV;h
zUXh}y^00eeNmY+&jl@_Lk*J?juc?NlRna-Iyo`g8x{|rNy+Hi!8zY~)qIM74vVu7O
z05Kbz!EQiMP|E6Bp!WhSRAi}?iFaA1Iu`nn<N<piVu7_4QM5P#FSPs>qK;P7Q?bF_
zva;HtmXf=4J&pFPrCMg=dqmZ=l2A_Sc|jI82g)ib2#JtXW}aNfDE>!z2gp{iYZ`v5
zL?YBEWn|26`;E$M6jb$8l0gGs=>u{+eEce?@<O*n)U}19WkcF0Z|cwL`5#qfK|D1t
z*y7Uf3o!a;duS?OXRzL$QH{g95Bw?V^!Xzj**n_rs`5OHE)qQqSyPWj;teiFkt9uH
zyV*LTrkb2=t)eYx{$MV%x<;v~P&fxXOy8bWtlG<~n`xo9mB%Q}7mSkxuBy?TNQL%3
z5P(z2KZPLsq3bAMl1=T7#Q0qe2#+^6`l`k*yB1Q7^b%S@uqnZ(hh;J_S%(AlAuG4?
z%MhQ4EO-_hgK|4rO&nr-4@sroETM*1gO(Q#_*WE9W31*f#Y%a2b~Iq+(H%cb$xt^K
zuzOisQ1oO+1~oMfuUkY%vwH_+XCGJ7j7t$?kCdM>mqGa2TLgbZ!r1N{S@%?Wr%Y7R
z`<WwN-ov`q4y~a!5<0;JS*y_2wZ;kB;qX!B!NkHy*Hg$t+hPiqImac)?M^uA96%oL
zDxzv<uwll@(@(H8(IrdSA+wq``9hc)a~sNZb`AGCKRl^nmL3i)s)S^0hTsD0rn)CJ
z-xo%DbpHUUr#}TFgB&e;A}xYCn7p0}jKKCC%q19D8ZW##GEy!tbgn-^vDB3S5Z9X(
zV#l|TRZhk|mv1Q|nb11Vxj{<w#{U3C-s8p7Zb?JMJ6zFXr4Dg8$}Gv*BMBzRh@%9O
zL9!G(xc!kd(-Hcbfuu@f09+rkf>&)eHnN%1HNe>iE5UV%N@Upm!7B;-D6mcnea*6%
zajs$Ug%hGV#uV%}z&xn{CzXW(Y-A~0xN($8Xuk`CTV;$SE^h3b9_n!@7zk-t22%vP
zaeN@aODvx245%K~zm8L#D_w^Vx>g3*SdxkbgP5#N4UqLz#lQ=j50z>&a7D-XT<Drd
z{3g>j*F`LFH2Yp{;TuUp`0nT)eB|9FT|c<n3cg9}X`D+PcJM(-DB28VOtO5_hlahQ
zo>Y^}(9D%gHIwRrDBFJBm9rv>t`RJDT<#Qf^GyRj2&ZB8SpNW&476e}9Ls_@vbUD>
z@&5o4JC7j;x+zWKlk7rQCwmNOq8fUMVhwKN_wKD=u507>uv~am6(qUV47nJ%O@L1u
z@q2hHRfMps2B4E`1ShLCFtc5D{GzF<E>Ei4D76N{@$7SWOLQ`gqB&%Sp@pwwcUzDw
zv-M!XF|ani5z{!v@aDTI>}x88q;I)aG7+tn%#oynWOY4AZ)|u_O+@w*=J26u1CXCj
zpxJj3rKvWsW4wT$B|NbJSoXYp6;lI<Am^239ObPSxhWc>5kGUB1MqtzDQ2jLF}#-j
zaHI6SY{qVUCK+8Fm_f%VFfzg>M_B&=<2AQDkcF?(j1DiSk>LGQacTl5TW!9f9Uh?!
zfCs!b{!%>#FJ)ymqgP7c$y>Z%H{n{dP@t)9=fom+kT8a=ju*yV?KkcfLvF%-GmG$<
zD;cv!C1}5<@aFs#9ch9{2sYfR8&P00WZ5Jp_d9_LP-3ixcz`(J4Cu|y)UT3Oy4Sl(
z=1L9?!lX)nvNvMDi-e%~HdAeD_{w9LatN@$WI}Nu;Dm%@CkvZ!Jgz3=B`C@0jQF+}
z3lYj!;WXH$1&ZN|ri+enxDpO{QrwZn(hSv{*(^c+$^QVrdkbx~-c)6+{{Zl$Xy?j3
z^i83XK;ZMV-{_+!u?k|>gLd2wES2Wt+|hp_8xIByZDVBK2MPOH3APhlEOMNav@CKK
z;{<prW_oYH_PIgY_6b;h!pOaXiJZr<c?ZIhDW!~D5b!%5S4SuvvXHf<+}TKJB4JR;
zu>SyShZ~Z|Sy@hP47;1)<qRNmuds*xRC^?gf_{gxZYh%g0A-B2taCGEOaZR)0*)!E
z%eOLXAzL$K_RP)0<CN1z$K2D)W8j>v#RWzBE@Co<7Y6#QJoh0zv=r5C1(JGF9>iHu
z(@m&RN*oU6j?NZWbXuhiQ4FdADGz=Slv?Ol{ex6cR#P~EX&Kw)1ot>eX(G4TYbo0!
zS^OCrJb%(oR25Oc`;ay~b_sbjYDFAS?q%V9hjyHx>S#zL?AYRY94m>TW&NjV9m0gZ
zcHzzsA4F8e;>s};vAX~f<S82FpKHl)$W~PmvFreQ9q<)okv*h`WFvNJqB)DB$py{q
z=KlcUItqy~>AX07a;JyW1Cl-oO?(hJ*S^Pj@|;^7Dws{Bk7@JW5f~C!#VyZ*f|@BK
z{X=_xiPUe3+}i$Dq{oA3CRgn{UfXB&B`vrGr+3Isa1OA&$M{?#BP~C&lSh6zXl>lz
z`-jRvTH}kf{HN}=94?TCyM(2zjo^X8VK(Qwlmgse36C4E*)q`?#AVt?xFv5Gx6w7t
zIn9#>;Bpl&L^#tPYz|G5k>7-yv2Ig$4iXhatclMAw%<h?nBmAErE7>dHdDngKG{a^
zlu#N3HynhV=IHm+HTjL!KPYJ_q-(NvrcT6UHYDSehTz#f&3g$p`=r`!dxDro#@t@S
zSvA0YQjua$bcW#kqe9rNwZ?3GsT>FvIZ<Gor4Az?;Rmpxa=UPKgSk!*W3cAi<tSrZ
zF47O(Y8+v;?l@cp#nYXR!6lk_Hc9AYFt-^000}HDboX3fWG1_g`B*y|0S>qqDa5tT
z&Dv59ep7&P9h@w%7^3(i+&&YUK{f>4M$qB<Nd+h;`P*aglorVyamcz>hLPjwnYe-N
zaB%RHJ)~e|V5fbG#|z&C70+u)_I}Bwr8MC4VzNO)aeF%n@1|?p?K~zIo8$r#GDfuf
zO}-P^DWpL)Gnz8g*yffij@HO3(m9&;`<kPcmML=ET{VzshMulJP!}{t;oNYp=`~qm
zv5nx_XXT`G9f5F|$2ucmP7&k<9$GgP`rH*U`gO21{e}~2G(9%FZ=;*iaTsHb?6K^q
zB!O}YDw|N67c{lU=PA}i`yM!@AL18Xp=uOaF_*Xco0VK%<{LewX!P!;nT*)?2^f1h
zR_k^2Rc_qan-rfN(#wyck(|1bUF?0WV|2$sb9Sii&_>q_q9S{?0&*0(DPYB$2?Ql+
zv9ME4_Pw|nPylV%SsSxZ{zcLOf}^<ylAY>b4sYzX&9R_cHswt2_O-r>AmDz<*Uh=Y
zHY-OtqSv*QC644C>Tgw}A7Gp|lZ!24bPgWiNqD+a8t%g7Nh3pzhzbV>0-Q9N(npI7
zsNCJSwZGv=*B#clO_Id@mIFk0BpY0={{Zilw(WouY*9j=Of<0DATBP197(vUX46%?
zT*^TD@}(5>G;&YfbZs1W=(ldmT#@^xnIZ1rN~d%+MEj&IZTMC?eKP}ZDY^Mb=luuJ
zNs)kGfTA@KcOfNPp=h%ma;s*fe7W90_)MD!e6?@`Z&N-OHnN?9<-n@gw4zP-6ZI&T
z=<RR@N1viJ=vyWK09Amy+Hv$x{{UElo$gT5>9p(_=f{;_S}19AE85?w;Rj)|<Nab2
zoBfniYqacjt)G&zlWP=?COSqLU;S3VOpcyvk8|!Wmf5Wu8qTYyh*&!3z*N;;TU$Gb
zf}Q23x$d7yqBci@BDwOfD0D^w0BFC!Mw{)5=k#UWCcUW}I!{4_^3-mf(=Z7=N|0xe
z@?LJY6uKZ0+yF@Ao&t~ZjEX`7w_6wNg-|ylzLQRZ7KX8ad;pAPF}0f1R3b2QlB9f>
z78Yn){>@Yk9XJCgDbfHq2_~tHfaHD3&g)%Ir_lrIPSQtUa*@t4>@kaF@oP=)ZagY&
zUQId{lTj-N)T|b}*YijWbU?MI`HogPzg4fUl)72o`~2ZADNCdpQS8}u2Dhf}F;gAg
zt`$8kQzVk*!L9gN`btWf<l4rP@1oOa-8oqD*SI(n+T0-U%1W%?B22obv4?OTn>^no
zRq7Db)yc9eka)V(QRt6rK$N-X#g)|tl?+5V?F9HskHmyF#+GL#NWp3S5j_6@#F@Yj
z<g5K7q-o%Ivv+)uwk(aHSbztF@snUJWpt>TWqdjXHqX)pz7yin>Ee;32DA=Um@Wd>
zO?V(&f{hx>JvzQBSoT8@HttaRoo!uZ_djEN4(K0OXyGW8&)^#+abCl8NeHpAQq;^N
zVJVG@M_7;Wk?;pQ-b=m$Z$K*yv&{3cq@(E|kT-PC1K=s!9>&>?00hY-3>heBHS|q@
zEYJeuIEl9|u~d4dzehsCWSO9j%LmjQcPoq8M&F}~lgPSTAB*;SCaJB{Q#86+THARm
z53Y6K1jj}TkClR|)GM_KZzPY9pCwr7S_OS;hS*#|LyV=^9Fpi|cB!iB(%W;$JOEU*
z8XbGcdz$N?0d9JCqumhSJ4pWkv;}(jqo*F5A`EEr%6O>9LdnWS7ftDIf)F0dxcOQZ
z&@kpkg+8BWn>1s}E@oV9Y5S*a$bt$=c4uh6(Gmjy_Jr2L8qQR(#yKTmk7L{gjnn;S
z0ou!*v|%>w48Z4vG>u~&P%fNq>=Vi!IBzE7a#2i$?pYy-{U&$HA{Z~g7E{LqS}yFB
zEv(!C0yZN;F^y|&$xU&0Y$dn??%`MJnyob?PIIMeKpoOHmt!QtrIoA~c?yqM*Qu!D
zbDtwxKD?}7Q+2=&d{k#~{;t7cYjq0ELQ-UqoA$a+QkO$N)YbI|TT3Z)bcBKZMFZ3I
zZ>y`{Q7Jb$B&xkHM4qY5=EZILccTr&j&r`rCx@D&Ms)1b=~VI6#>k+JqZumLbTt#(
z>P%W(?C_nV>9SC@qCR}9aO#Et=gIa*9wm)Z45sDSKA+K)aWoc?J^-?Pc9Bg;!a*4F
zS3gp!zR2BS<yY2;>P_UC*7#Po#H4{_bbI!*BI)gp>!GD<3Ms6xx?m5};bA9ru9mn$
z+Xg!B?xVed0_rl{-D45o%HrU73BoetYjUTG27#5dY9WQLF2F`azy;p#ut)%HfD4c5
zO4*S%>+!;lXYCgz$ZD$SsbeMX0>hPy>VC4Or)!xL_rI_S9LJ+ct7}yBahE<pk1Ni4
zo2;KZofR=Q^L3onHG0iTQ@Q29oHQ<=&}*u!;Ta)rE?tV`mqmQiPgO4Wxz2I<y0p=>
zNot-8m_S;7pXo9j9a7E9Z$YEeQ^)LULZXU7TV`WN>F6oi*Eyp907avtq+~!?0IVX@
zXOP}F$p?h#Ad;McD6%clhOwXoqWL|OgPF5&aIy-fz6i-~@qemWNMx**s;!VTl5(?p
zo~ta5EM@G9)T=4p+&g>8;34R#SoeqQ$`MXXFGw1Ol6seJcpx6jO+il;G-1vFA=vn7
zTX$JzdY7wWrv@k<9Vy|Us%j#3YU_0f+ThW&9?A#LTIfrni*_)u9X~#!UtZdpsZQJe
zp3BgwHAceF!Ue36zFHccS(?<{txjFK9jqP|O&jamSkdS_v~oyZwMY3Xr~{=91o9Ir
zDRju0b}~DWfD^A7J=s5-?4#3lnpzrh>qZNJ?iEh4)U`F!`c#y=8gX-lHlsy5=PzUd
ztiL5j$3+<p^!E|)i-S&>RMSDab3GV6SJ}_C$O^wu*XpC3M#kB<?5r6qTP-AwXgz|b
zt$YucWHFf@O@h`64})2vV+-nEe0NlOr&9`v3=|P}w%`@RI&wK;Y_%iWMeMIM4Ld~+
z^n?w#_)Eo4uv>{uqSLmn7W%;MBR59L)ASIZS9@-A%C*-crJ#Y*#TjUCV6ri4b5}@g
z9M%KDLJ-|p?no}C6L&{Q&BwB=evzoi>(3_E{{Tw2h1D^*7~{C|iL8=SOiZA$SAvS{
znw9z~*(RT-i%TFc@Cu*RHBoPi4DDr^n@*0iR{^uQfNr*w6!g?IV)?M{R#LUIIQ<nA
zwee9(eQ@l5F<q$jH3?{IV=p7HQ0gpprBSjd_KWg}gQuxtXnf9TJe#Pz@%t#TGO3!)
z-Rd$QOkcu|v#ck9yCZo6y4KTZT6^N$;4FS@fRm>*w$He*VBabke1#RIWh05V*-4}I
zmZ14I!$&N|YP8eTdb`_d0~=3rQqdhhP9e;vX}5KD&bX$fh<a>eNbI;Do1fGR{1LC@
zU1<F&T=<8o)&fydejd7GzDbDq3Y$gzPmT2=8JrqC-EQc*mI}B-n=5iWu590x%JkDl
zkBt@mnfCNnnE=~6OO%oHR)aQu1|O;~T-T}Lh~49N)p@SD*4m77y|iY)cwTfo&nG1H
zZ5<y35;nT0P3UwnmkM@VEH1k}1Pynh#*1*XI-gx?Qj*z=jr)>=(yG7Jr!A<Eh7+8w
z>{vX!(q54_JWyLYZF!XSfzNOZzE+Bx@dHDKArN?yOL1jWtZ2PI6)}9Ix%TsXs?8gw
zv}&onSlZ_Ivicl&9Acv0&Kc&nXwl8qvPcPn8!+)@j@EjDvZkc_96`nwwc0}|Te3K=
z&NxTueK|=|&BQdn#gnAs_6F3KWiL##)}{`V+TuGc1uZ3eqynBo*7r72ROu2>Mr4i>
zT08}n)w;I2ndX`%7<(5uDm;<;C&B%iJ$ALaR6FXbgPc1Ov(WXsWNVr!?%yjo`Z@Kv
z#MPREp3-l&_zL!iNz&kGiLTt`7am(|s*{hPI-Od2`K?U=2gpa#Q)==tySE1TD&mfk
znvI^TA{PSaN%dO#sZ4N0B4_m;>v4)zVNz|`&xR^k_slmCg^HrSx<ef!cCcdSm0i>o
zQ&Q8HPdi=k3hs^8qcZ{l9oCDdpv_tjsp<OnJUXIT4bgO(CZ|mn>UkP({XuJg^$jy=
z05rko-W5~zH`kKZztC;dYWB(R(Tvr#{aa3{bvxV|@!h?Voi(rPwKKGenTv1sL~B|d
z5vly_)i0g>!Xru5XyR*W>8P9?#_hOG87Aq1P-|x8omDjspZ@?;QNw$c=KW9Cbb5tf
zpymmiyCqs{8cce#Ej-U-Nc|w$P#%S*Y=!X1O}HefPj75^rk0RJJsz7`PAUXVU^&9C
zt7C-!0G6a^y_SbV>B-|eB+O%r94nfL^j$5R>H`DEe(ARrqj%ZoRXshc$bDIc_I3cP
zO%k@ZO^?$MI?e7vw$%EflwFi@gV+*O8f9Fyj|J`a-u6k#RyP<>Jxym(YVP!?9qGI4
zVvN%|bEu#muBle%v}VEAy1%3l(>y(}Soa_!DtdyBC<`WV<Ach2#@72M`=_HjS*=p(
z><rp>4r~=oPgBhB<4V^*zzBY&>Ka2aY*bEo@&Q0-okvF<X!U7!wD|}uaa)MbBf4N!
zwS7UUR2CXZg9+p?t9=`%^%+_{L+KZHc;Rofp0&_vX~A?&b-$^qcXg(ns-H@iPh*e6
zY*G1A(YW61%CknOqKVHn5x&EPjp~hBrXc9s8?Sys^nFq)x3ko38<^hy<)38@HB9!X
zV{Q$ADPB%an9Ch2Mhir$t(KrTx<&=+y)zpnqiLF}bB|{f1zwj$1UF<%2jO>59Wc~v
zo?V0<3zm5Ap_J)t)S7yD0CQ=?o@}2y+B2f`=cf_7<Rjpv(FHc<)!P@uii1;<f=L|=
zSC>7F^0HN?!1uB@zKVg~wH(2=&9BN1e!Gy&+CeqJHa036%?>xlWZ5Vd;FD#ate}aG
zKbNC(-Q;qpsj4K?TRj?rt51>vEXA*Vulkinztqsc;}s<^aTvYUB0WD=mf_8sCY~};
z^qM75H+g%$N{rmoq*f_3X*7zxQmMYHBMc|OPt~<;YL-09ByI0x6&a}0z`Ui6SB#>k
z)+zQ)sKhVi*>uGx9rkm{w90)esTk+&tg3XE<Z`U)>nUc3_zjru@3h$lbP5d~q)N(&
zr5DZJb$Z=drj*A{%6E`IqbM(-mHRQ8j+He?eTis2)ioBJ%6g*7E1uDQ<!UNF)GKP7
z9T<h9xZtY&U#49+zvhcwY}rOjB6hkiz9y^KWHkD0P?t+qB)2zm0$oagIKfK?s(iO9
zhyMUey|NJc>4QPd`z=RH>2&l(zLcVGk}R_QzmSbMbbz3u)Fqv-j*n{({mWHJM^Nf}
zNdv*Pjhu;^k5-x^`8qOjgLRhFW$NlVOJ<0%o^QfwCl#a!(|cr^l^pc5nW>BZj&iN5
z>I&LGTTmN+H@fI(s<l_2Usy3a>Z`TBkgRl0KkFW-?Tn<1qwlfgq`C*6srQ24LKok;
z0S8T~RC?Z|P_So)ptRnXuQgjkjEukYFH-4#nWKspne^yna315iG~d{ePVCQ7YC4U4
zVxB!M?<crzmDZK`U#;r$ws{>rC_RBTSJhK#`cd^Fr~J7Y!Bc5JjAKolQpzKhfZ(_(
zt}*mdcGqH`!R=Z&Zx*uln{ZWRzlYsJrpdYWteK;pMc1K4_>&cU8{&!(NX4G1buOu?
zsCj5Hi|`P6SD_;r6tuJy(SS7yIHY&|!stzNOwj#3(CM_`p8IU9YM-l0-Rxv<__Cp^
zmO%0=16X`;nlfX(0O^{2FsX3Z%NzlI6@_&OY)8-}Keld$cA=og+c}PGzFXZ_R@c0n
z(n#PB^>$3>=n;kN8naK<3(Lz($I$~&$l@DoV<Wn@qt|LE&g#edvG{A1-8Qk&+N?lU
zM<j3J(lX$wyt0pIcB0HXDrlJN(}!*!2)0(e<TU#SkhIkuKhrLg)}jpn{{Tz>0O39z
zFHU9{=-=>4G0zvKE5$C*CXJ?3R$1b)!QH}>Sn1a?BItpT`2kpZY@}gy6h!>7Q&#mO
z;*iAn=ZC>_3N5G8HrMh+6(*fq4Q1tusj%Pq3g75jev?rPN9X2={v2#pdWWd$!TuMc
zJ4a_L0o0$F0x75>Vg9D6ILWb;l17Ss3rce~Rca40_u*0NJvq_rjJ`cl%y8sxz0>2T
z6>YeX7N6x0vbfSZZ%KPY>Y#Q0a)WZm>}AGpqba57RPWJhjU29f9aP2(jzAp$0Cc*v
z;tE|-f+qTph2EC&*x(cUg}JPz(<o%7f-6T9g{L^-;{O2HEOfBb%c^S*jNP)-dW~`J
z+plZImn>-V{FPH+`VOT}OGz+bCZYB=cMiDE_)$$X5Z5zNqxVSbJ?sPdyRMH*6#A1X
zYOD*$k)K1^S@k}c?Jro8SXkD;=-TK=7y`oo0OYQ{C9(_Y8KDa#s)l(SWoUTZN#&&f
z0O3QgY4ho`O#xtiF(L6t1@6*tFYv5%9SWmSs+O7>lOD$J0o)Pc6|S;*=5C)66Np$h
zHM#7TT4>QskD;pR-4#qVX4|Y|Kg><7V4c<7IM!0TQq#bWHn#7L$DbrBZ6AF;xk?H2
z?CaU$!|t^`ai|&S;-rk0vzZANzsJfA`wq%)!|Hh*Q2D(wK*h&ocVARgLfC2Jn29CE
z(fvOuIy+Hi9+^_eL!_H)h+{@c3Y({<6}rRc)Sm0)+4!<AY|C3UeJ@KrW`i9iOhAU*
zUHQ6^{UaMC6>+?=?ecJ~v|7qZVLKifPZ_hH+UQfS)7R=|f(KqUpVkf>wX4yqMh~oX
zspu*ToWo<Af!StV6OBBQatL1I)Ou|-cAjI9hdra&^1Q2C(W+@1D;U>g+z$%`$+93{
zYpZ%XgF+<Jt4o;+hUOE)O1SBMmzttxO;NN*d)vCubw-I6sP;CVn6^mUv^#DO)hnbF
z?DN-A$tB+w*%^P-4irwOk}uV_>~6F(=v5Sr6!Kx$#jp?)Y3_~0J>R<Ab!gW^x<^y|
zrmEOne}^x$gWXv5K8zup&jW79<clnR*Tr55xFOiG^(t2WYe9}%5_b1fi(?*pBmtkw
zx}GB?Od+@~b*>e*tLd`fFadjACXWnqR7OE1`-PenV$&wnk{hq+6*NAbR6*{JL3`VT
z53eIw1IR93lc`IoNkkxRG-MY405QS)FE`a-o;ufw<MiEr2MZ^?8lJ3cD!|LJ^a|@n
zs?yr=C1pdKY}gB|_T9Xta01>FTQ?MXy*{(1)M@S%5(%8f<)m1Z=X&jMt(>#aWB@xm
zMUdKcWR#UGk|!3BRmFCmbt+%a(Z{*RFKFz7jk{)Uv{TSX`gxi`zs=U3o^d1>Ehoy#
ze-a6Hy@wpM_F63tuS=8$%~l|jg4f`F>o-P8J%%!#DF7lc+pQ*>7okel*jmc3PHj7C
zcD7M7I~JR(@wLscVQB4jHzCrZpI4x5TW|&W9|cKN_l}-)bD!cy)MY~)+mV$^)Dye?
zGH~02wB2ja8re^w#~pkULnVmpd=){iY12_umN~a!KGLl^CZiG?i-#+%Z%&U?r7vuz
zDOtyGP*S0q*@e@AHG(nAyr{JrcQx)~o3+5JIB4dj)uUw5;2+dDDE_gee#ok++8o?m
zBPN=&MQ)1i9$6!af=smVnXd-Aa2z?dRgE1Psp+TH!adPD+|k(^SEj>JromYuENN)X
zuBJUuFG)j8UhmB}*>1}4$0Zqbx^(eMJF(bxzC5aC)Y7sM4LdgN{$t5ch&l24jI+Fs
z>#92-=pS02^S`PFM=&=9mmk?#Xga=^Sxj{8N|@8uLff_D`P<|w`HWMuWXvG;Bb8TK
zO;E;%f$HqbByLFfA#(XRen`=5IXE<FY9o!Vv=aJ_KMAZ7jE1Q?YB=iXnN<PU?j&b|
zJ1gkqpxR@tfz3bEz`R#J4w>n3<+M^pUhYDUR>&QD3#*E)J|aD88iu{U(&Ll`V}n~~
z3lNIQeE~p@I*E*7u8(jX?3p}`0Bva8g>`%oI0wtK{2~mZXoI3Gka-H6!N6dud}i$c
zEA0zXqIdA;0kR(JI9f06!j?GVxOMD&-A6Vxk~L$(TpgZ?6$BMAdmat^6<etE^zXZ1
zc-``V(6uMihK9U4-HBT28urwH9Tw7iub9mbFU6I?+C50TStGO0H6EYVpai-DD|?pZ
zRmBYS#@>{Xp7<eqwFNWU(PoD<_9E&%M@OZo1<$5ncaYW7hx1t?t1MB^KN2n6S>rL*
zPR8Yg{E(tGGCjuq*QUElqmAW~QwKKw61$`HD(ryhoO~7256yV((^M<*G9FboyWMQ4
zcDr{3h3YjwhVYP0Jxi4?q0ri;ATEpvo8Vxs%zu&b=hTQx1lMTC#6xgN2f;)%7k9cQ
zvX*LdvZ9&nBmUGZj*Dm+X<d-an$ahWWQ==97s^8*KG!EjC~fx}gr1O?-Zx!8F<b{S
zHj{QZsU9xfvaoy<I}4(dY017(ZIz^5+fbBK*b|^I3{JaAEx&bPO*0)}gPrlb+ZHM>
z_KxNg^g{gvxf^kimiWm*QdG6$Yp_v)pzv-J2E`x{EtM17Vn{@^3tHeNx*|s4u*5Om
z_Z+FqO|8mf8H|-MZZ5LWq+Z}}-99&-;VXb9*Id?tp34Ana4I(u!8T93Z`c(Z+}q^x
zwt_H|n>*n~=I+JpQ)R*Sn~uqhklxo=7C#}%Xo%;97;tt7POxqkvjxWH5%y2s(Cd64
z%dvu%=LX=SY6*72GyTw&G_k*o6rslWKe~4N01qn|sH)S;$r}L(P%E_Ix*+|dve32L
zU3EB}k8PgDxGd6OPm9q<O|J>#^y)yptZ&K!qM|lb6Brg+3fc`ac*%2iJN8r+nrj;&
z5X)wT31crDh$@n(G~WbxDEQ}r{8%5Ao{}n-VU~5ga-^fE+Ak<A1G<}oMLDP0aZw~u
zw)<|YD_<OpA~INf5}YTBcUn0^f-;_ho~f26Yto^N{X^xA!13WGn^QAnB-n*@U!l~n
zA53p*tBQ_Tq_}AWV6>-HD|T5!SsU&pV9zLenrLOa;vuf^p2!1*oCy0U>S2;LdkHpK
zXb)g-WRVg6Q{tXSce_H7vbol4+kZGuiYVOw0B^U-XRvOE`i3mE#g4V`pG`ZZaWW9^
zqLk9P(SwHzAmpZVHxNr**d!Zku!@sr9lqeICyrM<mJ&z!Qnq@CruQ4Q6zZs?Xlah$
zHcYJpuu4j);daR!OMX#}mY!S?SWj@E3~R65sqCj=Kf@;9D71`B_*@&vb5F_{?G2Hn
z+z%H|6FxJv_VS!6TISkT-^aom9uA3E$Ry$9AC(N0PC0M8&65fKlk{B4<%_@BWR8m>
za~~17yL^J2$=*etHw7cA4214zcfwaTHxF%?d?F1IosI;9Z-o=uM+XVcV}Z#B=$zZM
zd05my>x_QMr^=bY6PzgC&<bN5(|lVhR+2cmPz&8Xn~w&_P;8i%xY&VzDXwM5vC1;{
zH2c9y$Fz(evd=)V+n&-v7fMSUEa7C*a!KVV7a7U}A}Lr7LL8ffL)r#K!X4N=Cy6PJ
z8Sa&a$K0b19FcztLA2V)ikR{*#jn{h&wP0)`y6=ek*>KQi~UmATF}p0;2YTd6*DTI
zhRD$)etA$y177cK@9>e0EW@+&blPN<*l+M(`auW5E4?5OwEdJ(w2`<J@J`zsgpBOR
z9S?YWg@djT?rtpRDVj(<)Axcb@9c%p(#EJ|HBC)99)!ev9E4ca9CI@+e1tQjVHawT
zWsXI{Hbvl1qSl{MrFgWA!h4*_i4c(Qf~mFuc>R-_*Ecab$Kb5eCoEEkZ1I-!*ddMH
zb~&Rzx^UDsjgv?5bfK}z{mheR(>6gxqEAFdnnnX=ZU^BpjXSbF#aM?_(=&Xu{{WbW
z`q`T&!rDsWJvkc_kM$cWC1jkdvbs}Ya7%H)?tqd@JKqrc-Cxw{Rd5aAzN<c$2pK5-
zOO`Z){VrOlWh*P=scT2I`$vZ(X{x~hIDNtzrjE=aNX7m_tz>dB<*bm80HOUc)<+XU
z`B>l$f$~Cb)|2gb*p*on^0WZ<ZuthqPRW|{?R}g-mDnkGoe<2JO~}DqY;R>3s772A
zqDbBPy{F0)U*tnvEK?jig)wW6N4$I}oYBi%ev1Q4YnlzN3Tv7{P8djDuquvj(g?kZ
zOE_ZRvRmBcD@)ogFK-B;C9%yiv9|!YDH}hiJu+>7E2F5fvxR}}YlP>v8Aa{4<SZc^
zu}L0paq^?QXOLKY_EHfn4Le=Ar?JQ?2f2@STd<zplci!Y?q=rS^$#ILSV!q~(zHFf
zY5j^vJe%(25K<UMa@2r#9C%J7mfH7B{%?d>6FWEVxMM9gDM19~DFd)dQ3zb?i>}Z0
zClTbP+rq;gaxIj*fk;KUNN;@O!d5b3;QWN39$M=rfn=bPemj&b%~>N$jvNQqx>q!E
z56~uV+n!UKAST2VK}<(9@wELyVQr5JQgMQj#NQ&}C>ax8L9itJC+=&7$jU>s{1n2=
zkbH8nj+g%46h<(43GOAP#X2**Sydu)bR$FC`dxp5luF=k;bkwR_M5eF+C`q*c`FfP
z;+fX$N6L<P!>(;&nj$TB_})P9o?PsS7=Ec*O^p{og`^uEQjD8fPcs<s9Mhi)5Z5y6
zGo}nnka2|Vjgym~DLDiZkb*J_$&V<eE9l%BT*Gw+>7v0N)JrOTJUKhohFgbnwKhUu
zs|Rge$Pa3eIgcLFmP%GgF5j{p@JSXxBkr?CQzvr?<u%PC35=2L063qjkhnRx!9!(8
z?VJ*qapfj&jAcs365EFTQL{9e3-UNo?sHKkfQ1~4{>vs!q$6dqvC8KV=JKF(Tn+3}
z2Ocsmm`eI3KiM|j#s`3!ALqhQd=-Oi;xYZwS-w)A-?~q-VQSB!?#Q`2igRWp;3$g*
z?a#;jr8BXkYXQ$?(`O*_C601@q-&&<ZE3Jw6i$%cz<mc~OG9I5;j09OD1%Mpx%g8z
zHsD+KLRM;2G|`hR%ogV=hOeoll$L4qvQBse41VccmqyYxPM$c0!2;dNr_{QRik9Ki
z2Rp+`%SjHssnizLOkij9GyY1o(|Tqotoa*vd3H)P#CaE>8tr#huP$bt0gapqBpLfE
z>Rz3%t)JGenn_+yn+3k5(_xOl+1BA76jmXuXaQ<V`w_{=%;|kQ9XkcvVy)@uB5C~~
zt8oS{>kq0{h79tB*b<;<U;(ycEIcBhYgp@?u5^R>LXGn>AYAtV5p5(I44$e-HpAG#
z*dU~ocQ{nqw^2~hwZ=)<E!Y)`)%xx3ab+ZD##CNa{{UT%px<YqRcbKPMqMM?!SYs9
zTkE<SR=Kc0)_)k_EG11|ud6({?vca5Cd#t6ORRz4#AC8}<fQ%Q-iQ5SzRO)>taUo#
z=CS4`9|dQg>Y9lz;^z~|D%VWWrJ3M4j&09{veG(QAR1(4&(nnQ#E~a9%pDeuRaD>`
z8{K~EU7~be?XI8NZIA-o&}k4r1(?xqg=ol_!C(j3TS!`Lq0>5cl9Uaxw&USk)6quU
zF@T>IM6tWEYYVG=Di|5>kbu$2C|d_z0n=$SNZ({wNj{k9hrPfblvh!8rjw)7IgEDq
zH-OBNyrZc)`>AzFT^^A@=wm<5@sy5s>N^{L&q<C5T5S1R4~wFMboL8=VTIoXc$6@8
z&0DVex3h7`;b?RX3#b_&eMMZZJ_%WJeWNP$desFDJmhV2Pu*D5==80I<brIndOK?=
znA0Su9E&SCwJF}+fRXd%7b*od!7C_Z6WAOCjE*)DVRYvg5qA{RG!Tu_JPRdquF5Er
zw0m#D5_zMDlHwIMz18}C3~nB%Bx21uUTv>+y;Wn}%3xU1ac)$eThs?ot;qCUU#Y0*
z+U?S`5!f889>3Pp&RrcTEN>f%$jbW4#~B~J_xq`7G^(nXZEQ#Cv~fyb$(iI!plaIc
zim3^E+~Rq;PodMNsdyVn3s<7_ldc^zP0wYq()1`P!)+K>Sky^5wo`OZN5d@4eMDu(
z;{|%KqtUclHoj97b{q~>EgKCxEfLsl*;i|H(p1FaUgr~xo1)&S885Q-Eptz(C9p6?
zKdARr^{j@XZO!-mtj3q5)v~JYbBjU1TH01@U<E2vHQ3sCwu@~7-IV(cz7l{GQcYrw
znUA)7*-FM<*EUc_;_Fyt6%21ATZ9D;)AWZ`Sb}U-kN%c_^%Z5(<|angxaDhLeI0;v
zn}4cx2!YA;Vd?r+_r6i==~=e>ZWivDuon9OQ*L8NWZY1^ndY^9H#{QXl2tCL4Ae0f
zJ*OGKUaeGPkdbSun%y2c!L`wX50sLH^gLx<pFMR)S4&O4IG~Zo$P3POjcZWUBtEQ;
z1G7P2SZW;$q{_qU(zfT}XR3b-^l4sQ=rDY3QdlY5b~niA`HBh|=Xg6!%F}3_H6zPp
zk)#3ez1g3K8f`XN6LIjS{{Yeuuv#{O_EbuRw$D7$^p-%t(7-&a>QCU<3@h0>W@aC0
z<G?`F=~Kabg{Uc<%9n=V{QyjGt(xV-YgBC_C*8w^El#xUo|G{U1eBD5!G+r5)6aD9
z3yOiRbI#{p=enLJSb|d{69|Jw=NqVGtEOSGBI~N0`C3>Xv{?krF|TlQiE>t(3eh>K
zj!)6Y(Mb?4<Y6OeqlvfyD`eVi5kRX64GkYDjwb3qP?8Bl*H=YN882`MH$kA6OdE3I
zFsXIEqNSi=-y?6}6_e_Iv210~(zrS2xZz-R8v2Uq3*~ur`&}b^x(ij=f7G2@J!{<9
zZq^g$m6W`bN?dn1pSmK7j!KDI14`ZW$4|xsT`XYzlc=bQ<k_9+trDuHcE8a(SEuO|
z5>vv~`WD5nWNw{F9Vixv06YX`O>>KVIN=QWAv0!CUdS08zgH?o+W5kXJ?=Mg$xnNm
zA0#2sk#$9=MNJpH5`0-vbsnfH4oHoIHoA(Usk>~~i>$V|CXvMY`0#j1DGZ_}rLIiS
zVW%YB14#~{RPRz!@CiieRP?PNyn^MXqx`d2Hi3VX(TqivqO(uZjlpv-_E&77bWoDU
z=Gaq5BU~)O?oN&>!6x@K?d+_&(kI`u6V(*@ysj*UHwgQ<T~=uwCminGJBgD0`CgH!
zy^n&$&2M5AJ1I<ek&oI?QAjdu1`e0}tYyM)X&zLRx>;nuuW-MWU(_1YsqGM$xy0JR
zU38}D>Ax`{<O7u0(r-YNopwd2KC+%N$lP1v%1)pB)UVx8_Yye;Nvc&-Lo-aW1C(~1
zt5CUsHX&~*+e_GqHZHwbY2dQ}-SVjEHcrA`@woO1^0k_MW342gWdro;2x8pX8Ul-z
zyC|chKVPKOIzaeIBkHX*S5axq-CDrsj_10S+N3nC+Y>jQFKenQ_d2?uwfuJhQAtPm
zlWDiJL8^5|oh*KwO=!1ZP~AWIx~ici9Aw>7nkq_ocTCodB6@SG4x3Z5j-E*y@Gh0R
z4J2-6(RDhAZB-js+h;jhjaN#iqYiC5hV#vWH(2Z1*HhX^9UeGY?LSzl)F<^edwxm}
zV_g>dRBoq()Sbkip2!_;v-5z!#|DAp3iI>yP|=Z4!MfJEp{%4Di;Ji>wE0TXZ(}7$
zpo#R_Y@6Kj=bt5Lbg3iM+6k03zbhNAXj+6-0$F8ih4=@Bxae&NO-|Rj)(1DbcvaA{
zOfIT|7$GJpT1~NKKxu0oIdi0Qnh#}n))7-_(OI&cz-Gl#X*%;B&q=Y|smd6p>V{n4
zuE}aOb43ARW86Z|R%_aoMMFdoI5c-wnz@zd)nz-LPhb>UVU*%ZLffASmNc{@osbIo
z!w2Ra$l*;#NGqhcfy5u?D{G^4{RHv0YL)@<Wm(mgY|>ihY3u~>0$J2h@lHU^>DpMC
z>PX*mGfFZxPf8hF8Zplc0a2}WRa=W##)kQ_FG{A@kGg8X8;?DgEU_$)_K8(d>7I>W
zLT7{-YQZ-CrI6Khs)(Ll6z$r1x(2KLTAbhWZ<P4Dtg4e<t8Ui`7{x`08db)OrzGyf
zC67#FEmtgWBf>wX;-QvnLriw}J(VVv)52+eN~zpmdzO;4)U&ru4T?66x9qPBd=V*2
zlQdN{x?FVN$xhpW-BHIa8L8Vz8(EtXWpxBp^^k6yxZ{Ob>Rmn>pvYl(c{nyo+vJ8-
zK~-j@w72&0*>_87jHRj`tZsX6;ShA{w=;gny@SFc8tMvaa@WAtNISSH&Dl7kQ&p?S
zRYYTkowv913okv^w7PnU-z9u4ExrDTi8Y5hqU@A4gSF6l$5Uz4@sU#_U-ZhHV!Lc+
z%1WqoDC7}SZ)^Mx6_phf@x$uVQJGD+D<7(LMI6(g$<j9W!>q0}PO8+R*vEQoj@~ks
zaMhr~YuK8_S5*g?;?m1ncq4^dO-I#LQd#WT=F8Bi`huQ%V(EiRt@T-*YgDZ@LDUT+
zwp8PaowBbYszq%5B|MROmDMD91gSKNEhdHKub6(w>In61P2Qbkp^REsv<)(rmwe2L
z?gKZnw-!s1DI{|yk8LA^!hw|5k-oWo`Szn5TcgKPV{6+H2FAk*&Pu%wC<KqHj`qFo
zohZpzt+eQZDJi3m-2rw#m?$4455K1P;y-LE+Uly^N#-poJ?+2h?4oy0OB_ONN~TD$
zkki7H`Fb8T?6r<2Nbi24$9!2ncd{6br!GCLvvX(;l0axH<Si$;S2Wsew6V0+P91Ld
z<xOIgyD9Q0^j6ku8ryFcoE(4s6<HKI)YYw@S7YR5?pj6`-%YHef?&}Bk={U3>zcC}
zPD^PI9s*>z_9yaoh;+tu>)--v7=|-&g4DH56HeUPNCo?CSxWtGvRO=Y^o4@_fn_F>
zLp@Z!txE~+FpE#q3X=AXHj&jvR|ZK;1AN(A)lt*y5MDT2axg$yshrA2{{Z<Mgm?DY
zTy);4A@<Wm>-G*ya{eeOC$<@-Xy%>bI+_N^&+6NiCcD$UJoueEshb;sCg3SGO@F8;
z;V*8Ry`Xa2EDpWbT7<>Sl9BPA4mm+{LpK^T{Yz044}5g78v|f0tMn~)x{^z_A`feV
zw>=?Kr|QFHZjxkq{$Li0ucP#k-(H@T@g8=OaGg!Q(7zh(Gak;O*R=*V2=35vdtGRB
zeuva`2DWK67ct~t+7`Q`Y4j>*?5mCtenQl0nwEo4NJST?>RP}sWob$=5hl+n)H*{`
zrI4~+LDH}xj)5IB4DM^5;5+wPs+tX7QmFM}E@XGU4<SoiNZML0v%Xu~HVXLUq_$3R
zu8d5Y?w?H8K|BSdV%JHa>k-LYYAQhN^5spdG{LKxzbP!yU%Po%dUb1NkN%dGkUV)7
zD>*2ED>k)L*2_Ro<f9(m#b95lR?}*wji)vzwpGKbYh$J&s&lme086=5SCSgmRMW#O
z);A!w>Jqta7F3lpO+`GCuszhTdAI3ZTht7sjm<h#g5AhcQFR2ah%nG>aUavd2D?qH
z)QKiS)}G1X&Owrdc4f7#ZnC~@l(fa5@B)`f(E5g<!bcBHr@_k8Xqqc%sv0L~wf_KD
zD}6^nO)WTd71ZLxEjTF89IN{hGfmNfr|C#$iLR@xoJctvu!>|f+Cu|dF829wSGtC$
zL#4d_ctqxp<_=X=-AB`vqtk0!W6lyra*mi~7`}>aS6*-Er--@Ti$YB{J!-G`jBo(v
z#kp716dDxY#frU*KhoxKhSs`)nj>!nu*e(1Xiqlk#7S9EtwpOr6NBknCO?(7S-NWK
zig|t8<31IoM_p=ql%hCV-M(z2Gfe7+$yG|z+?y%E&RwFn71Ix+*EPm8dM&BicyMkL
zwMvarx}DywOs##mArYqPEd;fJ%^w^fwK~HsO`Q1}-Y>N~TB{dbnGecp46d}2Oc}c_
z0GlsM=^YzOmKI4@T<0F(n<}^{rji}->Ja&})oo_6HlHbuW;Nu0`LlbeNlkW&#lz9)
z^%Pw{Ow;L9v>w-4U3@|q=SQiSM{SN(5LIfrqZ(+msU#hVQ_G=sB=Md4TUydTsRxR4
zThJCnnN<S?T&0p~GE_4C&PuU8J*2iTP_gcC&Q(;pCap;|-%Mh;=J*RqqES`tX^@w;
z*&L_G8g*jMSJE@JT8W`>WDt$5#uPE@6_phYEtEzt;`UozVuwvI5j7Kd%dKLv&@)Pc
zQxt7&iQ&g8t`H=g{*5k$4x?7lvrvt|@&opiPO;IIb<pm0RYM==^#zxyrHr$69Z08t
zActfkw9cy4^ddcNNwpD<Z<Qzdb+WpWrci2~H>+tA7rLH$h{4O44gUaTR_$-{?%L>O
z4j;=S2wtMk#vLKii0bJ<e~{Ij>OQp5H6Tn{baE5HbV*e2q#io#tI}%e^*F(oOk=!|
zRg>F6OJ{$k*njmZN)6RFl8vSx`&w+0z1oXL%88`(&ycAbTM@O>3)Qu{K+UxDk}=;7
zRoZr^G?Ll!xudW>mFG`%#CnxDk+m&r$^9g&O3sEcMY+<4g{4ohCgagk{du%-UA4A#
zxKGeE{{Z!R(Mc=X^6m|haOhe+Fe18?%6yS@L^M4=0QIP};k~E%ZVH=>eIlIa_H60D
z4l8S^#I(^<5=FppxA#>#$KlUX(h}jPvv2iA@a5WHTh!@|3}r<`3>dSVf8`qg0K|Ce
zo#|F;lE%~g!6JDVNH(8r#?(^l8cc*uP8`s4XIQI!7pQ2e8|c(cEi3PDaaZF@)Ajax
z(CXrHcm&y2Y8?+y%eZ=PXy7}QuN=G69;UXo3)XWq(No6+#%4y>yVUxsiWh!jqfdxD
zMqM7)A0%a3>(s8K>1m^qJ)~KU&GBNW_P!ksmcBeb87=X`_B?t~RC$@VCuXmz?kef(
z1TAwTXpCQyK;;$G)Bblvia6sBk?q=F*jNRb>OESe{W+&rJdai6y~5ZzBFQA`NS&m|
zK?9u1hcNFp!+rv%Hq|m}DLWUXpDiUVZlK2r9?QbePuD13m8mjn@>EC(Ed|n8aEj2t
zi=_1s8+S(6JL+zS=-3PEYTNyBjQvq<+X|{7>McqtooU{!C}U#ww;4Yu?xUuDp`g>$
zLCYJw0o+@J4^q?98p$CN15zR{0CRA7{jRhfD?Ky%dOuW#G7xt=z)Gu)je9a(8BbL0
zWsPiZVI$qU!n*uLg|K=Kf|@bA^~eTpJADy-HzYc?zgJOC&5*<cV{pdncUHZ91Rwf(
zd1Sz2ZV!U0-|Cqv{h5TKtEfFYGg~Iun>VIfJDX)gqgTF%QjPJA&T$Q~`Bn6in6!Zl
z!6sLk6Q~>=RS_;8*9_m~1=*UUdj6dg&dP~jxx{C}lT)Uns2i#wX)WN46;G#Y5C{4Y
z&ey)&UiMZs4+bG5j{pplbZi7M?S+HUV@KI7HC~h|EmvH~WI5XNU{-Ue`j(b}7~zq!
zN=6zA^P0&jbsEP{Gu&L`$HHFTg0zoZ>T156%<}3K&k+mlW5Fe0#atTP(z+;p5Z8Mf
z@TJl^DAd!oqIZEEuVc!)j)zOpX-ntX$FyHAOqUn72JfR6sA;6sHdZ$vuR!VjzmO5R
zx3g_!kY=w!{Y3iEx;R{M+=a2AuF{<lF;&KHIJy$53cqGgS<|=FI5Zm)PtiX?(~Uh-
zB!6cDu638Sgt{1v-Nw~K>YB=lN2)zA-Wn94chO009+3lEG;A0+vaHwoY7Ig%_cRFy
z1agPz?MOL-H#;F|?k0!zSpNW&-3qpN?z5v*QA}D}a1Sc7Sj$<Kn}zB<MNH=lHMh4n
z3pFl~$*vsBU;C=2n%J#0V(#E>Ftt4uQ&IVm3tl$6^)}pvT~Vg&s4#(Y6|RA&J}QR2
z&k?vB+}SchFpjtB*=bq+qXU10;dhS<8x$bFb;9+Hb6TRM(4>y7&6%5W8ta}Hmj<#(
zeQG<om*9+rHzjmYCst~DOo-Wc28VfCnB^o4tQME4vNpCbEJrt5T|T@@1+r3hI#gbn
zE<CDTdY#i!%d?WxaIE5%?amZ6Z4xoS5s_rKL8Hw&W~=hm^)Nl#NOIfh^R@8V*2=)@
z)X$^Wob9A;D@UbN8!%mHvq=|KbkWMwxuDx1td~;9Byn0dxuAF@YK(^2HdK1^8t99X
zvnw%G8ntyL8^kpaVLX6sbwy3qTKycpr{_$qVgCSXL3X%!vbfeDccS|RhA=*Ar?7S^
zFHX??qt<j?ev7GT#I*6Ynzk@KN^p7dLOt7<Zo)_1c+3W`O|4|nJ@8D!cD<&=E%#6L
zd*y3esx#Dgd0H}lp><-<>O?1wx-|l69s1l4$xjlN+dols;aAf$(|X5QWi#z^9~nR4
z0ySQnbG;$0(_gcIb&vK{d12Ly!InB*Z{%vk>^lIoKuf<^<NQYX9#-N?aZ^s$G10s^
zw+;uD=T3}m-5iXmfaiQ>_FYA+ogPNTRV=23?!(*v0JePn7oFyKy#D}b9lkzpKdg;a
zeI0cebc~7HM|SYC`lh)v8d)SxY4TdPf;zv+M?6&mrkYj<GDf=L!DsboW0vAb+i~PC
zDMcqob?ZhJTK7)j>~R;r3tiIshMgQ?lioY?eh{XH4c9R@>IIas%cWBQ+L&DH_y}f;
zlxYu*B<-GorRkbYV+4WBc<`?&dQ(KI0GLZZy25Dnnrm7OG{6Ddg{{*1j*<q3nx+Hb
zmGhoN{H!naZKJv{#WMa5hSM2mLoU<utfJ82qKnwzNL1|VXgxdcYrch5>RnzK2y2Su
z{{S<{$j4Yx=+M;b(P?+}!3`b8R1tNR1!f?buJ~SUt#xB61EP{AJ9a**jtXg{f94=-
z<G*&4((ztsT-7rt!bi46Sq($4jH4kDf(r5dKU&ski&}3WAJi6_hpVRaz?vH#>&|`#
zSiNlMc@-X+Ni%K*#g&YHi|kE`^0)O_ZekhmpsMS-+F)E_c>}mzQ1LTYL>%JZXR6lG
zX*0C`W|k-UyHyoVfzomxbaAlwUQ=86tuS$8p?My7R2sM90jnOzmVf$LUWbq2`BkRT
z3FOAVv)HRT8>XrnOce}e{1CI+kKyZLyQphg?~AWCpz2LY?glEC=eFf-7f|Zg7Mf6g
zw+qpSkLBb3GyeeellY{%EGznFQh=Mr2p#UJYG|sUBtAC*@UQ80?Pcu(SBV>L;X$Zs
zRRx5;mBZ(57iKRb$Xc9J{{TcKgB#jrY0=6Z&)B7Bt7{vTEcMbo=X4Dt;8`(~w40A<
z`CZYUF44~@ap{pr=~`|9!Y+oq?hSqHqjQ6fY<@x>XtQ>kDo}}<C`)AowB0Fl<2X3*
zsA#HXh1`<g3hEk`P6wX}Xlo~Af!DwaLnGMVZbB8!AlxT0?rE{%V3G;Pd>@pKlfk-;
z`&>9sfwto7P%M?wk;zdx&LHQ78{BVWbg`V9lxsm3)FR*V6Pm#wz3uc;G&T0QUFnt|
zg{;Cgn@AVBoC9o&sMs2N*+|zOE`g|IfZu`wOOxG7NU$YB{P3_&zm$$7A0ab#(i%#5
zI7AFXCQ`NJaFE6wkeCT+vci%)m$ZW0-45tMx+RVr5V`wpV6dfZwC`!$)4KhXZGrCg
z+T+EQgRBn<DFeSyy3JVWmG0A_E-!0c9G!?wajU0zvx}|Va;$|`!Td%C06yqyinci2
ztie#4ce3zltp{oP>)Oq;v^aSQHAg{K-&UQ%{l|4dQd@n^J8#%2s95sg;Ol&(QC*be
zO4_GD;Ma}Hchtu-53~XC*>!Yxk9@2I`3NW+-p&{97W5HgX6X*sA|VZ9&g_dQTILes
z(U6g^JAowqPy(XD9hWwK--1&r9`-l%hY#+dFBS&irEAF^Lc>}FGr&!YMf=<)z6j)Q
z<~$7WrK*BAFqVrOD)$FQ>>dwv@#scO<~}@GbSHF!aUmmW9QJK>tV)ovt!?()9|??@
zL&0-w;Mas4jAgFdkAkHVG`KWBj>U8C;&1j@4-y8ngK(y7d)QAU3|#iQ;9*G>SZ$i&
zZ<Jael?v$G%Z%M6%AK=D^T-J#V=s1)N%=r7Nsy9no>DpGzbb8@iyVDZ9}(x3v;`)J
z_c6xYA0aXLT_Y@0OK*XawGDb532At1h3=1bn=hrknF_Ivb02-V3gb)FS_l#wAnZ;+
zE^Luu@!WT~Q8|%6i^lH<g{v*1tYyFg;Z$mxTVQB=90>4-Br=ti4r|y)ab%)Rzcxx+
zEM$-{qqroV78x=7n<uvRQA)x-Q;P$J2OZQ$)r{co3DB}*2R2V<l)l&grr4xta5-6;
zB&~54Ckc*}2U*PA66B96F(7FoMuGBz4Am1;y{9ZU{{XehX0|80xFrW*;dVOd@fWm!
zQKCuP3iKS)jE{twy__ze9K?~_1g;_O1PlBWhh8!#U|4XNPJ54)F#sMd@K<e(`Mrt-
z9{M9=$*?K=@pQ+;M+fejFNWC>W8TR}l%4((18(FeTpmUKh!n9LZqN_7e5jom4-SdW
zjQ;>-F3><DvgWkC#@Jalgp?xt382<$sGYV*#EkgvtfP}c)krco^3(ToJ*W2WsUFfU
z2vErr4T%Q+LS-|bCyJiYs{D?pLlJ!qQ)=NEw|jjGfwd9U5XtHN7x!~N<SKd{M!Jo|
z)1A%(v$BnoS!G3yO)w7rrr`eoWO=r7%g1pHnvdD;ESa8L$UsS>!#fM$cqjT#DB5a@
zN!xE%``D@f050Zx>7BnE1)Qs~c(XH8Lp&E_*@5K*_O!URM%*ovsv9Bn>RDnuiy`WC
zntAT{tV!|838o6J%!Ho2U+qb`ztZu4?wZ=|rqjge{{ZgfE7|myx7Y}9@OvuSsu^Q<
z=q0I>8A?l`)b%ZpZjM3q2$skl`rEtYDrZw{H()LBI8w&?wl?7UfOb5iMI)Q+v2hn6
zzI&!PdwK4KZG2m{%+njc?g)_PNZYa7f*LBNYfNt!B}*L6XxoB36&V*G90b<~U)qlg
z2ReHQCMWkSJ`-IWjL6773W2X_Hn$2^J?%GZusbEH4W=t(b8&J$6J?Y=zoZ9w9oI`E
zT+efJ@Sq^u1u(55Mm&#?qE`^?@}dOy9hY1lL0Jko<FZ0|2b8S?u}X205wj#TX2SVP
zVtx`}aBh@Iiy%5;o7&5Ue#@{;!sCAZl8-`LH#{U5CkbzqhW(CKpo%|amhf(z#usFA
zk-^P%%TS=$mLrRm#Ap8iDH=`hbnAjMkce)^5=FhleG-Sgyqk}r;s<ZpG>$Ajw?%AI
zobW~MWzB!Ll$$Te;VEdhw4*{j4Uxc%iyz%2PA$pdM<8&{(vT9?^OVUVQjuX4z>FJ(
zA=>WYRkiKCvOaq$gpO$*?Ze>~nKvXF8Emw!E;h4*hAM)7RNkm9;3>%u28bk#IQw`U
zD9eb$h11<21oliW+~88S&WNNmxun@8#qPL<lA3T$)=Z;9JX{;79~+u((oq8<>8>~7
zHItGdWb#IAZUEsD+K}eh+R6ttrKFK{8EbEFY<ngm;({JQ{V9zqGr6YM7Wht#p5Ucr
zB8fo*k`0mcrLJHFR}*D4QaP^3uta89KAo-x)*nPHw8f(r`l4Z&SR1K>n(r1#bR%U`
znQzoCqI7L>AYog+HoD@-S*eK2Mevz13dtZX$QV)NUkHhdm~-?@yIpYLnKq2r&DhQt
zZa#mqS1=QW-jVQ8v}An~BRrg_pHWFonIvEUEPYPBtXKPJshu2WhrLBjp;p$sI=Z4+
zJC+9!7f#v2<rH1&y=kXXU6kR|$=R$I%BpUo)Ec=jF@91Lz&xvsGpDKP>{|mGf2fSB
zxT#@@zo!2HB??}|bAF7zpP;&V1M17>JlV$!Nd*j1Md`;Fjl5%&Tr83P*qO9<Hbh5G
zMjS`UM(AGHBsA@d{k99Kgif#}7}l|(%@+AlJ+3FcmKh<DfZvrb<^u(o-1)MOM>aP5
z>;k0KdWwTj2h^RQj>9T)l3lTsTQ2=ayDo81)#?yH!s#Sq03FSjoa-HW=a({&W6H<s
zdgXm{$&yzQ;Z5Y5{wO?B?Vg*gb<G7JaDl>Cj|E}%uC~<co<k(`n0quV%ULY0unr{f
ztn}WWtEq5195dW3u{Zp-Zht^iRMbxG?|Yo%<f*jUN}8G48pk*joGqr4(d=f|&Nm+G
zRi|k5)a|=t4If2i6p6OkSD?~IMM%-;?v=yG2*31(Pbrp0wa-3#E12PIXWG<5T1HCA
zF2`-Mwu4886TQF_=fbjRWM;vm3EQuNEW2R6+)-kr(cAN22MI&7o31voAYdUKE6c0`
z4Wt%WHbHJ|0!hr(E%aFO)_iwDN9qta9C%iGV;tA+bA6$0Fi<@&NVcc=j)!si7eq_b
zkkWy<jSBbuUC~47#L(ZA1hY#!$#aP-a`b|ty@JO_1Wf~AKV>UJTl!iWx=9+)cMz*9
z^;jvGT_lZbZRI1Kb~Iu1SUJtL+;D}duBU)*aSa2xD-Ex8)jStu1U=teEFQDewe{{h
z=5txt0;kQ(_@Vgm?DXAxt*EHMWO4_;z+Qi@b&X|NA(9x{djhi#e6t%g5>Iturf4;F
zjvmKY`3o#AU&vRN(gBvDdbtTMbBXR%&rWEMs+c+KCB5#o8XreBn_Vk&^0pKj6mdox
z#<i^q+!R$IEw{3ggGHocTE@gaNDAhUNrFGq8(KfQwuX)<MVbaXr+2a|L3`{TI3s2N
z0TUA&YorY%*eRJAvep7O5)RN)Nb)d<^oRu7{#0eTvIZK^Ep(;LZzKedyIWwXH33~K
ziy;LEDj6ipm(CsS2KP^fmGYDZk*8EOqDrYQd@J~65x3eA1rf(cVHbP9WgwdySS%7t
zHtduv^)bZK=R6C1rGMDeS+=5Bns&%SjvZz6wE^#_aRA)i%M-74jV%}~WPrcGD*>$a
zRb^w`81lxR!AZ{F>V{EEv+91E>Z)43u)`>G?VPP#4*bJKpOU^R>He$LG`WM~k;S0g
zo3C&DKm1mPNE+I*Lx(OZ@yV)@87=7d8htw6=eZT>#Teu)H80`?4Nwh^U`bZA+Pqaw
zzpmW;r&3R$Y5OiJ-xmVK23Xr%rHWc$-R1uPa;x=ib4;U&(oa_uZEqyFAnHAh5=ytk
z&(=U6D?O}rCYh(P##)HlM{BPt{89W~iXkNygA?jy$lL}$b>VuQUs&t4rh1vB4JP4(
zfT1jsmY|BLrP=j7eQ8Zl`$X_ZWV2VvS_#`=yc49xvqT%}hr7-0x6~TGpkix8Zt;X8
zDRjcrO+8?3?R=o@(VQXa-%~HXQ*VVZ+-$0}BOD*t1t1S8tpsMuM#@=>0#>t8#jYHi
zCz;3qG;oj-^OTMaXt_4B0HJQ@cO^$NqlvqoK>DEd4NeM3oaa5Qx01a3srtpz7ez|@
zcHE}tx<wNEH9GfG(onU)$}T$v=X(DDQ`YJw(Xr)`{1rh{RV_@r<au+Cl8K<CmZC<6
zu$z=)2Pd#OCD9CVNi*!$mlA(<eWmo>Ou?^wWDk|2>5UFJOJtRRm9U6J#s)Gl2hmcf
zpJr!A(Bp#Jn{)J9S{5>#18=gBL`XIk`X!DRlg1HdstI*jb9ROS@|e<G>$>(%Xbcy2
z5E_o96*~{OC32wEu)3<qpkc@hHLB~(1hJ;yby2BmHMO%kDrm{Mwh<b4NY>8LG~~FP
z*cCmpx<F5@uauWW(i*Gk{{YnL99q}AKMQOAnEFNr%+LT92s+BmKTm0vXEHy!D-2%P
zK30_?i%Zh0n`hKaTG5_Wth&S$EHSi~*nL)hr(USls=W#@?@s*uE!RirG!sS*SZODc
z;;8kcgjV}1G(MveRfYz*=bK?_EBc5wn1&D>Ms3Qrs?hW*NDJ5_X#<hnVY-J<q=n`x
zI&$}%Tnna6rB)=W$Q@rSlbIg;6MJ1==~Wc70LqzmwEpUjf`QV*>QDSKb7Bzn6cq4G
zWpz;>8`G<gp(~MV)KnTfq-&szNiEdW&8>omY%mtK)(AZoD9qvP20%V<b*8G;%{4!z
zB^zTFw&E7$>@@l_I&B-Os`pl#5LNAD5JLr^Xx;FsDm57AdyPI^Ph|{}YbC$Kji7ld
za+3DONv@Ex{$;Y+fCKW5rKWS)>Q3@}<z+Q0x#^}7)zlrsuskWC>X{^q(vF$r5pBgP
zaeWNaU78C0OH8J3rp8_V6Ldy4sm4IZ0OQFDnw8PL!dVzg$>4>h(e)@<VCcOj3=(^%
zP;aq$A)2<63(H+4MXmg|RvJ{AMw?A}86M%|H%-=R^cT~TW!(F43iHiUx<^jvsYA<e
zf{cITeVNpeq}TNrb!vkJJVBu1>H1!eQv)}$TL3OrYfhlm=6hcr+xEKG&{Jx$)7qu`
zkHV++(2Xvvt<+rkXB5$w7xyQHVWnv`w2=C*sTMi6g!XBbFR5&x2H6)=Pa%Y{(~)82
zCl@7bJh+v$hK5X4&I#|8XQXOSM+k<I?r0nposOQCI?wuv0R-TZw)!_uQdQE2!6R98
zw(5!{dnmQdB5hyXD(r2?bRLJ&jG?G9)lBIKJgcp9PpQ(Mc23vZ!<T3klh$3bv{+*0
z2yKFDmeDnD<(W)b2HX7=1Wc)ptjJso3E^1vJK>~>&JtMLvZK@WDsv9$B|C`Vs_ssk
zCut*1{;=jiA=)$DS5&r=S9-M%ZTkYL9jQqrb6Xn=q8zIV-^))=w9~w}j&h@ulv!MD
zNLMl`$EQqK!Tn89H>b9^%{HL(-ou4q(iD_Yyqbaod9f<zU)6LfYF|yU-N1GU*9fa>
z#g`|mGqiOYZ7jkmcT9hEcRegM^rO%XjFF64RrKss6;(dFtlh_g7LK}_Ll6BJ9C8qw
zi&o7QCDD&PJ6#1)ad<2}!j^hnKAtlAnSH~MQ98Y5p#?dO&)R>wz|?7a<$ZIc6TQqi
z12$P?;<Sw8Z)UEOtf=(ay*9+@8Zp|+U03k}ibk}@LGJ8!gcnWp>>=T`t!tn1t~Gvy
z_32CKpgX%*EZb_#kR>PLG_caSuZ5rv7Iv?!Ak-^&%^7P4ASh2r>PEBj^*4>T<gGm?
zL{QREhs+rB=KQ3NCokA%Ds*J^ZlHo_3|e&@kCWgm(=@GizN+(6J+Zj0)4wB4USXwc
z1c2h}Q>STll@JMD_5p6oag%yCB$mu}h0>5y!FqwU#aYMG)G{0Tg!~0<U$T|kA0cu0
zK+CB|NYeI4zslU2dkUtsOC1ww8?v62&uQk$#-B^3o*?;}VsY{~Lv+TyEmc7h(iTKc
z9c8A~x|2wwpmBQ|Tn84)(s4?~R@sr%^!ebJ3TlU2;V|^(wO<k0TPxasq+L{MeQ_MM
zJ0PTUSWUNCYx)aX{xEcP2IS?0VJezSVQTs^GxTLmE6eI2nCJBnQ{&U9BWM!FFXXRk
z)obRLOn7urJ*0OTUQeuQG_>_*DQNeb-r#VV=3n(ejwbtMcju~f$6AJ%mYysXl@6`>
z#*g(Fi*Lvx!B3~vx~McVoH4&4Nv!EL62RxhENnLJw<$fO9x+<6C)M;ySoXr!HQx${
zQLUb`YeO7{JMz$0a<fC#A6{9oxRZU&I9slhGwC#8l@T?-59Z}jHulNMD7^yEJ&@Q(
z9HvA60BKNa57(uTmubb&4)@B{Mbz3WCI0}biY7QF>wRCOI+tZE@e7UtQ=IQZMSClB
z8m$eC*;`2?B<>4&SK3`~OvgAPmG=2+#?ouF!cEdXH=j1TvKo_XaZ3{~{{YgoabD~)
z$?A>HtaNIc2YL~;rNavm1vwSPu}UKzROTI3u@?$+VmJ<2+KN4XYN8r_7L(;?7M;<Q
ztyP<8DB}FR>a{~_evm?<Ju#;0lOM}^ug^HL7yUk|kbl-lWU$Uk1a)xHAGS9%0CRI>
zvgO?k9zSNDEdlxy1EV3W?Sx}%BdLpI)rEtMDvCa;k6na+7$1UA8oeV!T_B%l$SLuu
zHL)hrdON5z*AnR{<$K-8v(X(1tLb`d`*pUw$PX^aS=~6+OHt`VQsOV1-wNhkA(6%^
zC7$jX$X9VqXpb%I^%=UiK%SRn2qDB{+hvZ{r(~}(K6^KtU03M(-CO1Sr9A`_cySg<
ztm!)CU@vt$DcgUt=9F699TDQ!V`=qG6^`3dTJ!RfzDfz%x{K0n{{VGCS3v4WiK%pD
z&G2%v^_rWbnEF*4TftM5oU~CSjeQ}ER{C{L-a7zRsB0876jy95J4XaBC#BTe8@)%)
zT<$`PSn4;)35ZI3aH|bOjM{A1R(1ZKD@b%LX$HiFbx+p%OqAdTHso<-<$4x{rs@)U
zv)0JhoSUtEE{~&7ux)p$>wfEUOQsaRqHdtpB&%sO@0L8{ZNkq*tXIb`rrP?w$FM6`
zr|ETCn~Zc(HH`9v)_NCFrj%BiqZ^r=w+l*Ct+0FOp?w~!s7bn|)oy3VxK@<VLrVy5
z;eIUPm2;r=7^i3Dt6L1AxGvzLbqKT?@#{9H(S7gjAuYe5sXt_TPKi}e##BRH6B_K8
z+*Rq*bRuJeR%|zL?EXs5NvUa+05kKU-G{cx(ZfTkO4rEGP<gpe^GZ4w<4u?I^frS~
z*GZ<-$qBYLxDXb6=v5kBXQ@$CCyA#Q@U;4FjZF+;)bc%o-JVc7<t%TEvRPgSkhs=)
zsTcU8$7a8!`irI`plnr|Z8WX}or2{-)K%IXtTJi(D{bI61$osToeWZkHlk-|0Igjn
zvUKWj4Jec}cgpNp9Ef~;O3hnV(i;V((w$E7IcT-k8&H&0)fUpyOzh&q>i+<%`p%ZA
z+Z#aEyd2yrZ4Y0kimQ32lpie@3tXROTvtVwm#OPIL_^VrrL6+?EGq7w@gH1tUYF%$
zcpUp}b$6la)HTos?GjvYMT)KJM@2~2Nfjim{{ZP2M%r33Ntyj?s%onkMDWQ^f94@l
z((2VT&)rL3E6?=uuV||Dde@ff0FZk-3Tmo8mVt%z&wMWJXI(0%wv5|autxO_bky4_
z-1dCAioPl+wLMBU`jNYF&t)Xqq>;3;7kbeS1DFlaKbYMynXtMiUicPEZF(EE+3Hju
zg_L!4f>u?%q>tp4WxAuGwEZqeGN)3MTgqOW)@70}LDf|ae``r)Yb^{fB5KGg>W7l@
zP;zT%$|>mc$5Lrj67OMUO~0wC??}|>%tXbcM&t0?g|KJ-nrvaFlhbhQ<^r1bX+VF|
z7)QWp31yNmbUa}t?8j<#lI$j*N!atjV71jV=z5Z<hl(lvEAT?q>vO=_Ju^_&?fKzJ
zqwB^NmbO747`Vzf@~HzRK05%@D`%pGvDDH_5ooo`NKL8gStFPY&oTHVSnFL*`Q!AV
zU~wFWv1cX~8jQ_}^z3MH&e3Gtl$}tj6t2xak*UyX2XCt8Jn#v+v>Iy|eM45z-=fOt
znhjM8#IeUI13X=58L7L{^rfaJ{{X028A19onjzGw^jfC6IrT``{{S}&Az!AN7rI(a
zMhe)64Y;~HU7)3?kjdx<9!MS3w0eG+`g?v+!q_E<RM)YtFVQbb*4DkvbP&Z8{4kKc
z29K#V3P^)>EjjZ=Y?kD&JBFRKl84Ya;Ey<7i=b)_G))?fBc)*+fVpzGw@ntt+FE5V
zS!-Hmp{G5XbTc*2Zr3s6^q(r9MG@9?#Z@bw1EOyG9@bY~V-}D3QBkJ{GG9~P$9O9{
zq)=2z7NlS$t$PC<_XT@CBL4u2(dT(C^6V>7qIE|}P`cx7J7gu@wu5zvhjaBxSDp;*
zC+T&ro~EWQi__?i1e@CP+>m%wO^Lslr<ZN*Ah`Rkm_@lZbIs_x>$xhldJ30mR*IT;
znB*4V9}7Lw`qf<}IjC;eJhx@t*>5$PChD41T@&ym0LD*i<R9I6#B|T0FQt%z=9@a)
z0y#>f`#Uw-9VKk%S7xCj_evfMiQtamZTi}h8f_w;s)&|A=LX8goDku5m5PR(%}~g{
zt=3+ZRi-|tq+3BF!FT2C*MHpHwL6MY&=jskcj3_x(MwX-Hqu}Y_*R`l_^Y(ZBbCAJ
zoEuw<*?ILfb#)vDjwyW-eXam!!t@O$iPZXCG!lF4-*c9G*_Mwn)nby8p|p<SjluE|
z4(9}dw%un#Mq28*ru5v_SbYBg<zZr#vXfv()dlo8ZjY%+r`3AxZOIlsRhGBa8kKc7
zpui!BiyLxP8-sU&km7tTgjzHjhJzbJ*xIPZ;cnp;lNRW~pHqI~OPqPRS6V%7Ek0&}
z(mUXws_D!#7|9n3$EGOapHYdDw{r$v;>n^Tqe~4|r>R8G%L7kO$G4O>R8zx6LdVre
z>1yA=C%2WNn!S{;epgGT5=haI%-LnN7^ac3Rcd!@hb<?BAM_RdnJHdOmmK*@$GDqk
z_e%R0k_D2q3mcrQhAi}*dZvNkJNWVNTH>@+_4-b#N2Ku#w#y!EbM;s`TH@=p8+TGu
zM&j@XH|1_kGjTV<ig@G(5^>ycwE7q3fg9TEd9w4GZAPk`4@#;=miE2T@%3)K6E??O
zK;T_~ttV!Q>NOMsrMuqOTi`6eQ_D-H(!A5o!9BgKJgob=<EUR4W2(bjY}vf3hs<jw
zbkCYeWO2K<6*QgfeGj6O^AnfIe~9d#m1Qh)${V<hcL7v-PGh%m{{RZkk5Fs?Hc#S@
z1$3z<MaG!+(lyZ*y@BBVtEcI7kVe-rkqw8kmGzKF+r$Vx!it)!W4OPRve}Z@9<8CX
zd7hU3OHh;*5>vdiw1N$?wGDWC1LLs>TDmx@K`mfxpXE)V)B8G_yKwzT$fxc|v00}I
zno0J$H(Rj*S<*T3vhKo>N(1WcGD-H-!U-cM9ICAx&L<JQgb=or{{W!I?|W_C0b3I(
zCKEOdz<)@}7fj84iwG{Y+JA0UZo3im$c{Xo%GQ@srI3KuO4nM%Ikr<zOxfGG@B0L4
zvuN{OR+>gryvQwa!p~^BTr$Y_KH>Mm^({k2bzGr>H|@SjY7W1qscG0B8~rH<fy!v&
z_QiAbdG4)21K3$32JkI@>V}1;inu{8V|VE#dKR&y8DlPvX1VPd7O^WeU#GTsT^xhc
znYn6N!(fc8vx`oSXatdfai5i2spu|<nc|CdNA)xg50H!K{Y~Deqn{GTf)8-L4^5<o
zX!f`@(Z8|mmx7S|sTdBCt$v*&cYhL|_8{^Xr_0lte^6-u0GQMEhqzyFAgpgw=%48|
z0;(n-LHKos0ao1+tjVTS#zoys^V_m`D$ufaXgWGMbZrhw3aLnFej`7~eiv6k9Ye1J
z+VXo{UG;W|HGLTB8gzw|*f?17d=-Py;iz-VW|8qq({5Lh<zk$2ay>s9QIsgMsicxG
z_abvgn_)m12M=pr6}%M{5f4sh`mv60l^skpl};uC#yL$&`$3dws&zdxj^;2h{3(AS
zOFKYx`%nGKI*8p9y*D@?kfXEPk}f<a_~QEmZFF^JmtRcZQkJZ~G2!a2T~2no)ek(`
z9a?031+9C591E;gyz020bGWo9KNdH1ULH*&XGYknh}uDM;c0Y<T|mHOhtz2BF1&9`
z>L<Y{4sjOpw>k${w`gpIuV>1$!H!YmBu(a%cW0xsS<xyX+bd&h$7@)s%E`31xcU-q
z9u<6ZX<DN$3nP%I<<n)R_r^U)$iWMl{ys5x5{o;1l0FFcZ>O6-(pNB-J7m{y*MuuZ
zZdiVM6l@WihX%CY>QLiaq0+Trn!iue*E87Q9pnotSvmuEzkYre>XMRpow?22J`t{H
zkZmVnP06l>X)^&$(^ApfYsNg4VH+fZJDWS@YAST%TXx7CeoCyKhDTklYnyKUmgd=%
zP#rU;kb@JpyX9DkwP--!M9Jf}cq+PYUXXsBz;_BtUZS3zmNp}c6r7r4@l2kfx>Z=T
z)Q_f@;3|r}HIZG=&dD3#@{gCOY3B!hId_s3byY<?_jF8jWirVoCkT5hBr-Af+CoDi
zZ~&VWlRl<74V)g+=dz8ijq(Eh+~&&gZT3cZ<9Z%T*~R|p^z}|*&B~m|8^z;zJ^@H*
zcQ)qDKLuSYIoqK6TJ|_?E<bcgmpmJJP-xvPsA>`Vl#gSa4TDL_o~ugMG{<bNqLcyL
z3xo~HF-)G@;W4hhZjptqz`~G54+{kd+dGxp1+XlYt+B|maSj6GAz_AXy{t&>f}|UO
zw<(QwZg8az7r-bOL4#{$J)Y}}uCNJP?HERkGE(bpO$Qe$XEfPF@IkeT1|x8|HnBmu
z^0C$f2-0@r7EB?pcOeu9pnuGgdxEBlQu~X7o#;kQ%RniQjg0*+=jC9sP;xj*TrZp`
z1cVC{_gv?EqJcx?7dL8)bA}5~*(r8$aGuAKEaC}74Gb}das~cVT}H=TwWsWfX>ZXu
zNEm}wYiOja(_9I4$nJ-RSJJo#*nqU9?UAGwUj7wEsYJ;^^oa!aDsBZMFR>)mBXa-^
z&vXrNY^~nLkpA03tFCQLF#*hW4<IWppVq0`@f}M8+kBxMbjNenirPBaVw|#e5DDd6
z!6PMY+3p_;RZF61dc-D5XNElXx(2VOPMsy%F4NpCJax1zGJ0hxrgq!4=jc$*mPi~)
z;aoZr;6!pY*8SCN%xm0ZmhC5nC01DI>*A8_dk7^*H6eU%Exy}b2`xO4O<{Wu3MrDx
z#sCAY<nWoQ=oj_{vPjxN7e&!ju(Q*YebIuQlf(_|Pjv$+SR^ffxOoV2u+Zr#Vv)Cr
z=t%_8KE~uC-2{=?!t4BZOmp1#2EC*om6I(L4&eM33yyH3CMO#^7e=+ay`@D}PS+0~
zL~IkFc;F6k^j~s&B_c@Owcvt>Ep$)2URp;46hw7Wy3Lo~)a27?lQvtoIZqM-E)Ur-
zv7}vw-wFca4Y*2Ltd>UtZQVlb-0+dao>N@nk3rD!BZ0Xaf^acD_7-}IGuVI%J{oq(
z75kxdPDC(EEGO9`hus+!RI~oGbMS+fo=C~TBg$lRNlxv}%2tyCbP+V}Y=lU_TA1kI
zk)_eNhj_AlH4#iUxC{KHeJo_%q_q4TA#_nC=n?FEZp%%)rtSwF)Y6GsOK-iZ2Q(0E
zf}JqY&u%W7*4)@%?v~}L1Fw))u+U64ZHt<gT6pFcjEnrFf>7p`I9y#lu?)H={MjRW
z8SQMYnvwCk>?C|AG4Ey`E{$}u4{OEH@)kP9nDP@QMJi&l$0NFbxN-qZU?Z}4z5Z5x
zomkG_d~P2^(&9d;?*Q^L6F@fR{{U16Xi+I2bmI8m@Z}rY+hImQ7_!tWvU6kF_Fc3Q
zb|0WB7@lv39P$wiZTP|rHZ+0`L0s7!!Vf<RK=RSG;1Cmw81aLZjLvMaJY?;6g1gWU
zzSCl&bV&oHkBgDutPQVXO2WrvCJ~-gj;Y?=u5FV6WB&k4fXczN`w(0kgJL`>p{uEd
z;p}m^`B0XYoQr)D4stG<$;%vBc^0orRKXo|ckQ{nscGW$q~AwZ>M-YPxgT|%a0cee
zT6tuIS~&|m_(Mb`gXp}LcL&+c+V7EYnIz16Z7fBn&9H=nQ+q|HU?a~c_-bgX0Ne;Z
zK}L>u7MKjwwC)AKTK+N+kE9J2X#{*Ln!P**dXOE!=L(_1Rz2Sb?y}jKJdnipmQ5Hf
z`9Z%)Epc@vL!0r)N5wc~jt>UMn}l3c@XR+x?T$VZZ35AreD$=B+fz;IFn=>Y@QI|X
zf@AzQXZlYn+M=3vAAEkRJdRa;MHLj;ICsVh*IkE`{{Uw_t#)jqEOT-V!hzJ)a2wOk
zCTH}&l#H)vcFCi3Zu((5c7e>Fea(on<K!h0M)uvV2f+z|-;hzH#`!+QA3wV51D+DH
z#}45+(Gc6T+<X)$ercjI#{x({vQXz+i>_l&@|^fwc)1AB6o&kOLGYZ>aB*~mIE#xe
zW321&eo``sT!V}y4hlgdUv2HN@|V+Vhqb_^vF?a$IR_~Tv%S|-J~9RrWx2>(v6V6K
zO4eTD{{SeP$18EQ$SYfvqi{L<6_J7;OgU$_9nkM%o5(6?=W}p<!A>5>w<60hCcp*H
z!TCz>`-j{qYFN>fICZc;y2#W#AGj;NJERsiH?jJqb->Cgfu=FS;@0k=k*z$Bx*?M7
zcQ*Q`krbmA1v+FVm<eR9_c6eZ>Nd#T*EeDEtiLYi<)-CBEKPPKZhVAngCmXn8)L{)
zm+ooK6at;#lM}82a4r@SHpON<D0`Sk86FcY{{Y}qmbfrF_X(E--q%QVM2_Jt$JIH_
z2Q48s))`AhQ=t#QP2<XNy|`U$eU>wJG>iNumI67-mNu6heH7o8J9}H<8=)FZ1JiJJ
z7c}iY5pIZ%GNF<)-wRq|w9t)p`3iP0TH`2RO!g^5-qUW#Kj_J@vP(_DO38@tlrw5Q
z)*|XaL$Wb`$ZQgN4UT^{QVAOF=nvA~f4b(r)>&*v9cW6%dx-%CM|5PeZpR@C`&_3+
z{)FR{zN5YqLrPDvMHu=fI$CBn#iJdXo;CyQU>^grIMTwybCd9!{5HGV&<g8p^HL#-
z314Gt1wWw_d2udxgszZ*U{BFT>Eepz<P+ljBzg=<y+?-HFdEexNxtG$Cau)kbrVUJ
zrJ~(|Sp9493B);+QP}Vv?#gn?ms=S@o{?3k($ciPqDHZ!%F64%h%^*|(b5Ae{I4t3
zwd&gUA6jQR{N+WaY4sX}fw5V~<fTe;{)Xikm%7JV>Q(O{vifZJR1-}#L(87`J;&u=
zyQIrn8@=AC>=n+9(!wT#C=Mr+WYNTy(61wUW*L-Ka=ZZ>jr;|DrF6Ai`(HCl8grHC
zG#X7jBw8RoRjhRJwYe7iDkPAS*_hF~TAB^FXmk9WtvniZ6tP(Czx0JHYz#L8DQ}&}
zB{t1MF}LBWcE)TjE|M>C8~}=vNMny4=XkyX4UCW|Z@S2auol>4p<MSDUgF9VsYwyD
zW53PPPEB+?Vw>1ZvB<-?f)K8i#o?nWzfjgSDcoVEr*Z5_2(2c9z2r$$L_@vuQbulG
zgD9obEJJq1cX4F|43cRM)_X^CteXn}+6Mmsl_OvykzwE`p$MtsiZC~g?(B*(`)mf$
z@S%{lA#y^c)%t>tiG;p(0zOcb;~v7I*?Re6jBa~^tJJmHN;t`Mt!N)B&N_pw<db`8
zc=EB8+LdK<?=;SEIp>8wQkO$gk7oN{>+oFY=>6Td5V2a8w_m79{Arw7*|);4h6$uL
zjito=Ee?s(l~n{e>>wsslkZ}@kECat1w}-gTGu?D7Mn!qZBn~y%muAEyO!Ihx_%m0
zwa#F;_+FWz%|%U4HnE_Ampi(xMJ<W8d4`ktc_lCpo;&?Qyr$9Pr2qy2WvbQnV^IG9
zPMx4O`94*BffsST&{7IO3>!VIZ`~0c$hlK&Z#GRJ--`u|G1nvu;c;$LjyPP>I7W;<
zEsYl`9X@fwWAASzK@%mCKrLbA3NTA#d%W2=XM{u$wXOFgbC?a7&^}Oa=qVA1ONGi-
zMAn~cMf|A*pjzVU87f-Ak^<H_AOn{hrF@aF5?lw}Q0o0hM@1Wqj{)8S^Uk8{I*O9!
zQxd>?_fmO%L_B@7d(<6CM?o8hstdaSa=hbS>blzJxsW)rKR*jOHDuK?UPrma_dU@x
zRIiwZv4oS37Eo{b0nILfNtRcV=Q+fl=-N6d<*^YG-=fp#T{9$>e4@)=L!;Be%LWcJ
zg<cdRc6rNmsoq0dPUn4=qo*_p+C!ybW&16J6fiQyv4vp-EgS&Qn^Y>Yt||{eUNS-W
zRyuV}Wjpr?T<dnaCD4K}KumK)ZNN)ZH)wXDtZNk!`a-SIv%pjpI!o&b{KZ7F1IR8a
z;f-^iafC}@A-ES>qx2P{GapOov61`+lkyR9X%wu$iGY0-quN2pOqJV3hbZjbkg|rA
zfL)CRNgQ!7`x-xG7=}rof^3Y2ltw+sY%Yex!tTm;wl)m%x$?E6Ya3zR4Y;}3TC5!t
zNI@ryD1&eGNaM6!#=%u;`rR!QNBE5dcE2fGQ3^$@wGqJ?E^xxhbuU*_Qnk#9;qrJ3
zAJqL(Q&i_i427-uSz`GneaS92<fL~Ytswn#U9Hq5adXINH~^}+nJn)ZCo5yp+5{EN
zFPIAjpl*Su!z+CzZave+DQHPI*^be)IVX5BG=P2<<44h<r)aZt<yccuF^vI@0UHc^
zMSxY(7J_K$Vrw!$Qb`*Fy@f=^IQLQpY!@U1tSOVmJ)-GfQ4}q^h*f%qs|_q>?ie0c
zGg|6NrjW-?cN5_wm!ul|HWl?XbysC0LBDlc&Xd=x<_?%Sk^cac7fEW>l&)*1X+6Lz
ze@)g7Z8&RSyZ-=Xls?d|MLZom-6}BYhDV-Cm9_G<rIFdK2z_T;ns+*ChXyyr@D>+c
z>f4u7P#y9UYlQk;nYQ{2>#nAfiLPue-zQ+R-7TiOsVfA!q>tOq-PQ}V?GmR@oAXu9
zb<b|f&aX<IjvG<V<`Ov=LmbkTwPu_fMwe4(O!VfQPpK0e(SX}!Vq4c^^IyPt4ZVXw
zRZ?`GtE*3wEX1B%RnC?8MXWXLnpWAI*aE9LbJ|3bYfQDK>Pp>DYcFQ-Kr2zBf2UKx
zB&h(%21!;O9n#u;1R=FeV;$u3QC&l$P&zx)uojMQ!Vs4pkYt<FGg_5P^%=c7PvNtT
zz;;tm^juRkOFYkza(5KQvDAe6aS{gsHQL^#ERCfNd@Oc13@yIcZ7m|=I=w4HXn+Xr
zs`Yx9wIhF7tzkXNy3=}FOQ?hMRkMQPE=!%2n(B=ri+O^IN4ne=l^m08(k%p%*<qt;
zG_7sfGYh_`U2xY#Jt!UtIIvIY{UOmnJ!*%r5uBpyA*6wY(aF8T$-1O4^8P|gFC9e2
z$)rdmH5KkYc}Hk<`e)`_Oks=xY@X_`T$@p<tq`+!qE3E_%R<w1iebL4-lxwhycN>X
zH92<8qv6sGFYrT4?b&8^3UR!R{>$*EtgK;Yr>4N?y4Ds6+DsJ%-lcpl1LPqn{{Ukw
zpGX7$0LAdf{6Tp<TIfkBDk`1o(?r&>ycMR@>iT+~E6mn0*6(GRlV65;Od4xJZTU#!
zzU*a@FG9hqRcW(`%L}~NU1%w~f=SvK$RD`zaHG(fMNaQqPz`gAP1OBC)p`vbDQ!F(
zq#Rq6(v5b-=kyZTYwDvfbmAu4jul?6e=7s8S_8+*^X*5hHLB{<9V;b@JKzAN{FbSx
zMhvc$Zszw(>!7#x8BH`U)Hl@DZf)<)!qrFBvC~ufRB}1)1G3KOy&5EV_2h6RUq7TN
zX<#p8)^)q2{+Q|g6*b*Ms8vgPi?yWrT5T6x)2ZpVI#%A^Rz<ou=WC1~n6SSqNk`Ds
zLYH&rF2{E(V#lkADb2kyhpT$FmRU@6(V34N6;-6NuD(F?1EXO)kguzBO*)dM%q??)
z@{ThaN^Q-Jt!Ny8mBpuQ(R!p$L8e0tVn@o+k18Eks3^4f{X4Xt0abDJ4F{;^%OgqP
zf>kEEC@aDAi2D@`lW*B*M!GF&y2^%~&UDWv=Y?CW^~EJitqeQ9%D+R>^zY1u)<?Od
z*m+yJJqx9n!0*Xj!@aJRB-IVR%07<P>T2tn1SB&47qC-Rv}yKhTGv@&C#=#a;}Ou(
z?SBHo${5|M$_$cJdQqMl)pdz+(HD`XT56u4t20d_9^VBGQPh<2L?MP4_gdGo%=HGN
zRM&bjM=Sig%B~1%oZnHw#FQgxQd%?a*{`H!MQu}OlAyB2`&zvNN!Hs#NEsk|>^v_f
z&^0+U`he-<bKB#UvS(AWx}3uW7zWn47E_h3hKu_o>YZ`5jv}5A$N3>;;ilHL8NDg0
z%upV7qh+C*X?<B`5w`cRH&E&oB88WZVB_EwOlhTT6MUT-O&jp*rb~Y_Q>n@(=H^80
zWzcA_xs-J;s$)g~$tx?T*UMA>>2Mdpx;m!5nwB8upLc?Uru_ymUqWfpw_BKxN=P1Y
z?-o+)T_EV`ohhyPwbgY7w)(2T){rgU$jxS=QApxvbFbRzUKvSR8Dvpl+9g-z<MbmT
z*20%jw33HT(DwIg&QVor5zA_NH@uV0xmv9&O0219nzU`ccBW5?*c#;Z(OxL&XJ*QM
zFWuOI!nn~Ps-$lB(KWk!;_92Kx`nzMOmJMkfGn!?9aE|G!d*nmu%1a={{S@dJw&&|
z7;VVZ^$%NAQAQz-8D8UySyJhG{PhzVDs;{Jxg;X$G=8Oxo~>OZZntzbANqsm5WL3^
z)eLG}sjY@dC3a|7=;~?1sp1j1_8pZbvfWwE^aGyO99(dYtI_qg)0ffK)0f)#D;Hl+
z*B_fP%`4i#a7PO6IWMA0abC?;9*3$&7?rgGPmc;&q+=T9SI#3n@~ZUMweQP@%U(yD
zCmxk%pz?JMT4K}V7EI#eE1x2tUez>ecWjKdcVCrP>uK`1N?6<YTIzqp-kbG?-AVF3
z{5-7`e}#Hf(FcdP3v$=tO-&EN(dLxepfzlQmWVj<hTVEcPic)b?3vI_8|`!9NvHId
zm!rMgDw<x?{M?l$t*yR-n26=GZP;+A=F+q;$8Tl+pEHT{OwA1#v%;?GSR<!}(+Zf0
z=D@Es)b;wBnt~$KULH;w-cm<PsOk~_02-#CkDH<M&bBMT8_^EE)pfAS_#hkmVO3~a
zB%MoK8>qTUXxwjd7ohZ~MN`!{0vjW*%a@{3^bB!82{ANV#g>zGV2om&GZmtK8fbJh
z;qhux-rv-%o6?#b;72udug3)0N7VXQpo!m?)eJ5l_gpM39<yHse%Dnpc7w=LjO5)W
zS;h-=Zky5Cbra0AGmkbUM_;T^X)#*0kvI$zMb>{&>gtGTj@Gfxw{o!hzM-#bt~+$_
z<`c+rNlz+uLnV!?vsqErx=fWtv|+Iu;lNoRRjf-@M0RThgoTFEdOK08XXYD3$2j)g
zVys`%`qTt((<f_ujD>jJQzF;0s$W_9lZ3NLQ62p9k9`K3$h}7ClkVq>tB5GIDj36~
zre@$cc(SL}x}RBz<{4-q1ISsXw2`fQ7fqUxzSn5`zxtv^Y85oTlVkq?(_r8EgjY=I
z{;4f<MNAjD@pb6B4^mJ7$2(1Vzb9rC-e&@zA0&B&9*`!J)rOhS*yXzjMoUXk9t33k
zkV5yZA70QZni~Bw4d3@L1z}q+Px>YA&?)6-{h%!Ja@tHv;CNPxtJP_2xr_nuRDD6#
zlGW3?pKG!#y)#y>=qB7&blc(`%UG)7lkk42_L3LC<KFHH4>G-{{{Z0WQanAz80Ph5
zWTltL&j_f7fmBY%)xd4qOXu#r#oZ(LXQ{`wkEl!+>|Q_QAg25d(CYzyo7C_Za^1im
z@T-r=i_>&YQ1*`#euDamt@*;{1MMVbdLKY&RSjs`UiRMC<!LGZ00ugSic3RTO;-^9
zm*@Md`VN%pof(&=(`S;yhFFjCs_uO|1Z1K+{T3!uhdbIp$>C)6_ff?mi`KdDRi9Jq
zom)*#=qKsDMWBz=*a`mt3(hr~&02QulSI@S;mPz|vWN6Ko%=57tEs5xCTeple6*`m
zUqM|?e=kidU)uaHJkxrfs*<s=Rna@pC)_2Bi!W5^nfhM7nXd%XJdRpy6RJepZ=(mP
zX%!-&(#;Hhk<TLNb5)|!Fp^@8;AB~E`lgzN)b8}9hIU)|jf(Qx-4jWxsXv*gbYpfz
zav%9h@;<0#4`{m4bxLZ<cE>is<)L5IXp>e^mor|GfRE5sK9SP>JqTf^t(u+RCgESV
zq_sMz%XIx_oy_bUnlpmaGlbsEq*^^C4NzruQ=|@eEm~;0J3z02uVrRPy^EDLqtbfj
zpCOX2NakZr?$=#e=~~W{Pa9#ah=MRpidkFKT^Tz5O33BXD0C;CvNBeV$11N=>Ix^s
zV}^t|+*~zV>a?9bTuhYul+ir!H(_J7Q9hX=FjrI5H^CW9p^-1yrUyKCq|sSdTdXpm
zzMoH#pqvmD=AYC(OX&J;ilKtv&`Qq3)e;H)DG6!6Wv9|QmRQ<73Hj{dbgCEFc}DFO
zb@h6rlX{c7paajagm#}pHDh-&zF5f|IjGG~tSUd-buBymornnfilxup9TSQ0!W5~e
zTuLcMyDXs5Lmov<NRWB8zsk3yq0(vMxGfI;rI4)Zx~5#srcPQr?Lf1sDJqFFNcwZw
z5L2kXLds~`>JiYG52Y=fcsAi@s%dq`lO+XHC1~=(3S|bnPR9>YCQQ#D*sTpGR<Zy+
z9X-XLX9Bf9pxXN?G_6OfgZ93CpkRU(yfoUidylVJ)_e>jM_p;PC(^0Xgm&f4j9n82
zUWHUQM^fnT+V&v?lkZ0BYh*C!lQp2ecFk_i?xU5=(;QyvM}f`TmZF_CEGPI{h?IXz
zosgOStjDy+BS~+7FLa-*9@y^Yv<p74+USd8pkY2*EJB8hs5Sj6@xGPMr@k+n1v6sP
zOvYx!_*_m+h`KxdPfdy~o1Z2)=IdmhId@==IYb_(s42Bda@inbWIgShsi3c-(<rN|
zT>k*!$XRCm--IlZXf+<^MKlr<$ZdiTsVJd#l3wR~n&9R%{{S_J{{V&Pcv84Dj!z~Z
zwU*sUN9uH?6?|;Q_sHgs*LHv5WT-$DP2V76TJY@r6|B{D!w*eIM;K|7YnnkAXm|er
z1!Jk2WROJBcN_ubcgIbfkI|*qdXgCJO+mIvo-p8lNm;(0+gGea%7DiQZV%pYZV#W7
zJTR8)RE;BP_1XwOTOzvGN`9BAI#%EE)h=_I;lOqB)V&+BS!1H7>d0WCpVWlN2+!#~
z+jX?ob=plXfI6}EXYw?1SCYN^9@!aiLB0E{4O*K}uhLmnGhXn<-HvhPzx)-OZ3QJ}
zjJHnKD8JS}F&r;!g~g@WBN(!?)jFP%pH2S&r=7Aqk7xkpdA^4O<dKlH9nUrw;aO@_
zRWubw8mL_xyLfQ&7Ex_%-4+$G*7Z9}qHUcQ3<nB^eKx00dz(=Unp=}~wfs4iks6Ot
zmuVLV<ww`EGPa7)H!-^I#!;0njIEfqR0jYp`g@dH_1Pe#H1wc{yY)%u;a1SFx^0Ii
zz(wlXRMf$bEpTha@;F1$y@9e)Pr27WD443}g``CxW&A4t08QJ8&J%-(H_2HvW{tm1
z>MYXqiR$Hj-ypLta!StXI@MOD@@Mw8_-F_zC3AyX<AK0K$VhfL?zFZJf`Gq!sbh}D
z<qJyUU4ekC^oS}dYa0_9)4Pj{*%<FZW2m&()j7?ztS(8$6y_Q_FwrBf^VlNwS5fI9
z&6=Q3Q)>n=;4JIqbkZ3e$y=AC1e+`;^ohG106mlr4hIE9*&Hok3Y1D5ECB@?3K;h|
zV(F}v@Vk3Y+sb(!a-(?!tkJEO5b8ofvCRx|?n;^m$Yi^k3w(K1Q8w-t7qT`dNY@Rw
zaPei9jo4i5GdZ9=(E-_*x|#;az#8Y5e3d?$*lG==aEO8Y!B~D)1`lfk{z<yYhtU-r
z?uNzJ+EI^qHhT@h9guD(^lY%~x+%REZ8j|_*2H>t7#_(RwZI4VCy%<Gl1SkM)%ssi
zfn)>R+iniQK<aLFL<TnH!-S0uc8wsf(+)o}#{4GFU#AGp*Y9`2#cA3mqge3f#Ngi~
ztxliQ8(DgalGE{&RyErZ<n(~5Dw#8_O}aTd6<t|ZuhSd)vKDqWTDbI$Hkj`P(nvp<
z#RI78a8rK)%xjzS6H@dGWhEa{>MbBm{6TwVxkc(#KboiYHaU(6YMRj@^(o<DwroOL
zeSV@LvRD`!;I%bU1KCdKCaaM8V22J9WTW+>bTw4rvp4j*%UefZO;o}~JWP|wY71EP
z9tQRR2M!#p;x8l2bqZHQU+YH4M?7Z4+YSqF(t4zFwT&<Mx5|QOBCKg+iwv#coL}y<
z(z*I(pxK%nz)!q?%7a`PWbGcz>N;&siPZD3Ig&QV{{Sn@bxK;UmDYbJJ4}?)I`I>L
zLfv$3s>-@%4c_29@~!&EK#Qp~2gcApGZ(%Wcs>?u+A{8#-h=8$92re3EgYEIb7XH>
zXmL_U`O0X4j!$rK?7WLZ)up7Z{GC&MDu`dT!;FRO+E%K~N2kp!uLkY7zhyj-j!2Zp
zH;z_}OP>1>EOF%tvPM61Uw-5uU#T^^-1<FE*rsETrt^UI_E+>eXgtlI4lBu=Tsu7&
z$xH>#WWT6;fKlz*dAEggCWBJaWEOLI!V#KmlTGOv3miDy6yq|ED5t1o<Pye*{SdL!
z)6X!DtQG@{khF7XT9Xg4yRY133qFggk9(mHZ|t4#rcE`~6?HuYM^-&ra>umgQEFWg
zEi<=L%42Zscw22X^;ESDYuNC>b8&#Ls;Ho^gL_=yPYQhGyJK-p=^ivrsieFan(d?c
zg4A^PSUsReJGVCg(m*Z0!<E*nqBH{8c93{kjZ3Fk*B8JxICl!slNFn&r=ip#5<*(Z
z5A2E4<bpXiPqYu}USUmBU8X+L7ZwidNv3O1R4_7GFnpsZsrEEobb53TjgaoAmN^HD
zs=Z#iFw$jbrbloVaym(5_v!VH9|71yRsR61MBplJ=6N}~jPT3Q>T1SR>r=9%ig_O(
zzjZ5hy2&FfbF6+sD^C2SNDP*kF#iBhQ`PCz(6o?CoAb)&c&MtMqK<7+sh_Ev{Pzkv
zT9|5P-7{L>ASvdG2EOn~k;oxJ=wp`tq;@_+c;hq4MXfCr48$1Z4JU;9%_eA>yjoWI
zYNV1mpl#`-`xM%3cU_~C{{YS~a@%1)!q(A0mM^f^Ll`?=(hq{5bu)Kduv*-!NHzUB
zzAIMJItf3ip(LV_?7UMo<F}O1bm^0tb!ez{IRNY#Q9svdu_eD$bA_F7<t$;63rNuK
zs^}s9$h4hnQqrm$H9WZn<aR6CIv1_<j-sb+4yzPCwXAo5yk<&9jIi6|vW1)AkVwK>
z@xz7+Mz5n^(d~U{_<K(zZ>`cJZO(SLy7MZEd1+=a)I|8)-fk7APW~cmT5DSjlYU|$
zjjmF4H&tnx%`>EZF^+q7ZzV}eN$hlyPhjE5DmOF$Y*lqNYhPiy#TF#V{{YIp0>=;z
z6LQn!C2NVbfFSr>M|<4^RgVv89tz^)x5!M`3BE#H+u>t$ahBg@-n(6kTk4qR0+{&E
zY~2b7_Z`O;Dl#+joB;#6aJ7aOMjN^NR4#SF2fCQJa6)6+PkWBR6A)h*3yX;5Nw8k`
z`X@RvN1w95vNpY?)+J0^xLv9v2XHt^8{WfUY>kAOh0G`0g)g!EVK7PvyOPEOvI-)I
z(CDAJu2Pv`kXoV=3I1TY%qI67sNTm5cMCB{t0<y$WzopjH^EesX_T)!wrqEntGBl8
zup{V&mNRo;u)z9DCZn5lQ#<TdvX4+QurhyeJ<7^m>^?jqscUwS(hAKQ%Y9=(6#!2|
zDPzwdEY7D-s#4$Ar}bJtm<6GSQ8C!u*<8|8#a&KgKAXuFA>6KajruJa>t~)**EQIc
zwmu5Er({yo`v4^NJSS@U0}V-YV=>=0RB}gIr^t4fZ2tf$8f&rB`Yz&vC*NV(d?;q8
zd@s2d`XMPM^{uu|j|k7rNXs%%9N#uePR9YMo$)+aTz3nM;%JSq<V@_QsLKewm2kXn
zBb=vH$Bv1iKQ<vb=N{p2qK%euz6Z*ZLgu#a81kD;(qPZn?m!?R%RqJ5a1RQ3T3i8-
zp6VFd>)G6<G*K&Cx!2&NaLEpD-8eD-08p47=HTRfpoi!}*4n_~NcuCkbWRQkp%fCv
z94^CU3!|D7b~^{c7L36Q4(mGw84D_7hkF_x!{d;ogtAauQ4P;$3>5b{)WmvD-yOIs
zH|UdOQPs8H*Bc*{+Lp%n$p8l_Z%tTjD|SDzvWl{jSQ=a<4~+^yOs@?rHw67rRMI}c
zU!N)l1K8i{mmu(3QK8m}WMqN+fgfbu?Y7sob83M0yj*!4r<j=_FKfXcC@<_}$Os*Z
zZr`y^a~#w1yO4`37h_^1IHIGwh3r8>aPiqqPG7%m@8K&}2|DbSM!SP|A;U$@k=GZq
z#@`sihG?^KZ?Y&@kTaC<ERnYc#VEG#g_+SE9mjrqCHYU=f1D=mBP5_YX^bF&{!;<D
zHwo@OKFOy408}gz5!U57uOl843!9MaF7(eWH(8T=31jyUa1S02DN94YLx6XOA#Onz
zQZ_>2YutERfSVlmy{_9MR~d%{0uw+ExZH2^!bh>q<0Ih;7<SglmYn!dxuhQn!Mndu
zx5{_9zxR)Ys)2SyUh7-3P~-Ma4r9ff!qfedz9Y*>AsYeBVRl9bYxhJlhDWn}X6Lvl
zW=SM?;CML&TIn@0<&Qf7HnGT9&CyojBOF@bK^=%n($>1|C64m6brgZo?t2>M9{i8p
zR#a(r1<<^-_;JVXvXC2$yE>a!sDuWaIj6Wq3YvPM@7hnoqnbG)acRNwnYe?HN6S+t
znF(V0F64!W+U5xx*c3aV*z3USTRTbr00j#bWQ`WxxxPWl=hwRa;7`hUqB4U;#T8SF
zwm!k%D9Pw3s@Pok%OCwsRMeI55<OM|6`W6kKm;`;WAwP;B$E{)uCqs|r@WB6)Mx#w
zrlGAQi5f5R7QwsPFbMho0OeNd6meACmbZV9IYCQdXv_Xq*K}?yzm5|>>LNbohYuka
zS4~k%A+Wnt0-=Q2!)gA>?3j_%G1d;knWgOa#^oN^<i6lOp&)>Zm}D$IISPtjVF_&Q
zb|r0(keudwZqgh+5QVet{w!dD$!cq4EpRMx2&R~9B!Pb5q{!nTN9%4Qams)4;Di{_
zn3on(G~0vpQC#>+3BCwQ;)}*fgfe0WyaJWaVIu9qg5uUGTn{118XT0g9I)L*Vh=V*
zc;>|^Hx?(9dKhrG1wE%YDj|VjQtl%>Bn=Z19hWGKci`P~U31voE%TdwmIF+R#Bu%7
z-vC>MCGL5+OmH778pb#@pK$xGh8w%s`}|!c>^b`-jBao&yGpEC8H6>mw3C$KD_x0M
zpCLXuUdCEL2=bQENo#UbRh-SyAEy`v>?zF=ybaA4@|ySv{RYKGM2*Q8w}h=w@ODh*
z7LRWVH^j$qERf7^VS!|=m87JzrX&xA?c*vpcfHlTY-8E&a6cEyf@m5^1-2_#$=O;h
zoY`>sPnr_L%8tg#gG1U#&D7D<kN|gNC?|xwyx|H1ECbl~+!1uyA!~u*0@6UcPaoY&
z4MT_OL9d{XeL3tDUWjn9!9~YBZspi1vptRDDQ%%_0rc-__T+d`lJ>Y^9NB?)$I9on
zH)Pu9uuXqpphn8;*+0|-cq!7;5=mzWa>usd-|DuQ9g8EbO^RV1$x1PMCp27~@|&Yj
zz~VcnZT|qgt{~qWrsK*e2h!#310(_E4Od@9Nf~^zF{0hd^DT3(=6Nlm0j(d*;IbNq
zt6y63>Y9hVA0<<qpYcbX#V*fE*ZTg7p6sLkGlwUDu^OLOYE{?UA&rNC(`B4{T24tP
z=%%Kmsi=O~qj3klu(HR?y_=PFqB@$1Wq#+q&L_DyOk`8c;26?;El!itbIMxjfzKk#
zWux@PJunB;A2$k-f?bH@*@Mx#R<^FvNZpL`LfYtEI?6B_&(?dbGbtg204>6r7O}P<
zCUxiuf>Y`7#L;^=qhp8x#e$Z?*cn~4{roLvp&MW@6pSnxca;=?w<jM8AY5N_b%rbh
z1c%xe3P(Qn$U^$^SO(!p+2<m_;Vm-~I+(EC(%5)VJ?#d=B}!wKKrVlEH9Zp>?ti$g
zK};GLC7t$bapfA_J}7`P8@s?$Me2`ic4+uhdMEjgP_|%pMH>h3;bRY*Wl0=HM|+94
z)pbPB!qQ}st+&q$C$IIL4HI0*r4mRx0;epoLnt<FNv46m=e1F5y;G%W>^rAxo<Eco
z<htir>Xn7UDNJ#n9IVvS&pV5sBc9`wt<GQ2->gliQg!uBL3DIijhtV)#MWvRwUQS}
zE1iFo=qPF`9s^oU)}KY`I*E&2BQ~anB!zh!=*&^l%`=Czm8H?TUZS9fJQlRAwvW>A
zKpJ)eepZ@~Pl_?X0a}tLwq`Vbmx2J&SRM5XNlilx4FE6&WY$E+*?<$}FvoMc_(J}M
zudrbm2al?ip~bej0d%fwO@>qAAmo%7f3t*pdndJ>$Vy%=nCUndvcaNpw%lDqE3!`u
zy=Jwf6&=j3@5;iBX%12}1BEPbhPO7q%2HU~E%jN*DG17a`6j`1n`6MROp>DB)|;qb
zCwI6ZVF_c)`=oJeZsTATE~BkeQAS-P&1fGh0o0v!ESsUBCfsgQbKM}<wr{o0prO;+
zOp`Pb+WB66uJy#Tmok>^Zx<^WS6xw6BcC*mdyjHb(b36MAOpJG9KVoxrO`EAeDyCc
zd&|l4Q5s&0Td140ueZQgdQVBY#j;4?J{HqWru>aJrwm2T@&aWPy$iNwbl!?^cr&<*
z_FAnor|Ia!Y|D}5Sm{)i4}YmpK=`_|EMVZ}RY*!!GM1f<ZGcnyQH~T&b*w+ae0L+9
z1RD)gCyFt}_)aF+3Ow5CdI-H)gIrJz=vdhOx3MR+l#HUNl;wm4si%)jp`{YlNXA%q
zSze~=y&8Zyw4>B;;Dj4Xwgqgq({#2EbhZP%)cTCtWh^G|U;~@4A=EneSg)9}f|^n|
zy{r(d)B2ZLe(KtX#~J=sl#WgGf|0q@_02rVvKbm&Ph{Fl)O+khe5$Pzrl{yhmRC9Q
ze4DH5unml`9uq+|*jYSpjxTFP-Q{$TE(#WcGs=<Ajf~v#0xg(A!bf6*tEq;OrP4j4
z>Z-brswlMhoIOUDb^&>YyVRAMjE(|Q$ovIAlK%jR)R$(@sk*(9walk@KOuS6qp8%^
z%;!E=Sp1<KE2MA^H@d#jI(%0&Jd)P@_eL<iv1Kxz3Mr~{9o$O1(exQTP+s4y)|*Sw
zA)|GLoo|j6%oM;8VPL9|mtfjm35qcrZq}Z`T|rF@ZQ|uVnl^#J0T5wevF?~E$fIs}
z!j-K6Udc9w_d(ZJ#ZJ;(;g6J!q#9vT)HWfTEatt`O@)QAoct<%bEvmC#|b2yVOCI4
z)K*9&n{|odDqM{x#B1iR)aD=)w4PPwlcU854tU(|ZjaNn=El$(z^*Ciz_#G3qL)P8
z`v#__XJ7zK)T`+<_)Fz*Z;Yw+%}$3(qI2YU4g-bb)%ulpQEN@~%e@fnG;o#5w1Sq6
zE~ingbsXM~odbkF)=wy{52Y$}*ZTF%YoE#ZTE3Zl`hJ+kLr1;Aqq3;hk5g(DfBsMD
z#eY4PoK<Krl|7b}HI$nJJupb*1=W=_AdSMyv<eeV9jc?Zm1$EA1g!Q#2_FbY1un*x
zRbbjCzoyYh9_n)7GkYs~&&0?ihw}80G`oPY`sEc|gf^BE(Z%ee(fVelnEql?+ur#~
z;V!R0Qc~#C==GJFjdNzKVPg+#_FD?AL#OGeh?-_@1A<mI4KG)%hh!77CffuocT#lT
zrAt!hRq9@&JQuF0$>NP9NyTJl!d{`$sw@2(R{DbWHsCAzeLqQ>4^~&ThSy$aqcB3t
zQ^eQ5&6T{Adi>FDF}aaj`z}nrOr@gO@FZAklT$%3h6;_@;2ae-6?UIX2dOk|Bo0c=
zIrLO-{yXnKhZQ5K=dOUggf+c_*kd@m8zN6kvDEd3RRSoRd-zoGes(vRB?n<t=Bm1a
zxWfz{slPpy{4K7kr}b-Hv8@-{72Ca$P)X2j9;v2_M<ikLAB38of-Bl*Vf0&TfEHU-
z*5RU)Wi2t0{zFeG^tzu?>Tv9a7sk(`Pm_^H3h1<=*QxXum>kXSVYSj~J$P!F>A?$b
zd!T7_DyKM__>IqUlE0^@V+KZhU*9Nvjp>JlZ338`syw=(p~Uu9dT&is$7j;OT6-uo
zN@<~xJ|-8Q!D-;G*O<ZS)3L4jDv8A+JY^#(t?4~R0R(Mtdlepq)AC6F0Q#42KRH)j
zL8xm|u(A7Df9X6b?GimmI5;)#@={7|y%bQT`x?zNMAB&*9V}6YSr<@Xa|>x;<Gq%B
ztkeZd9Z=Wo2lVzUT}Q1@(^2d+WV{YQ<!(>@z~YxiUbb5J93312<I1JfwOwXWv9NQF
zR-S71>Q#m|w8q2SqTSNXnk~>zx&5<s2Ft}Be++ty0hXcS6V2|1sMYm1yhBf4BfD5-
zY4u)=)txDH^)`>d#t>hY)3he;d~KEEz13prUqt5}m6~psUo4)qlgjtIKH`t9(6##b
zeIZaA8iaLgA1=r#9BhA-Ee@5d)Ye63MCiftES*U*bw(|n7AY!yO3B28^W|!^zLwKw
zga$=tTas0UT|1iJRlpJd0CK9IR%A|deO;gZDB9|cO>DWK(lmW8Z&IvAS~6~~DtgbO
zscHQvDcJcqvs-oMTD5qrccxz<2f0?=EvISlQwjYb_jkRMB;J;VY$H(D*;PBFq|+S0
zP6=(0)cTI0Ji&$#)}G4kwQ<WJft2iM>_Fu*wt`khC5*L-f3oOxPqAN1RV6-Qjkn~G
zg`|P(k<rPq!u)cEk64O13>6hc#A3jsXy%GnZh^ar?p97$Vf|<uRi~$lKUA~=Gs32i
zTADdFQ@{w|m8jGxDyNHgrUQOfc3(n@eX>F~6Tn(r?_#E?vZkt~o-Nf=78_&|s&z@|
zZhbkL;e1_OL8j8y!|Dbcg+s1s{{WXeSwvm)Wu<9!7^QuLXojWkymm2yi`7~SLv44J
zS))>FQUF*?4Dn@cD@7>0vNiGn$x9qpx6uCpB@t;)r=*OT!&pyppGzRtwHDJ;J%nD@
zz7W)uZ`Eq8P|fg@z{1&S8Wj$n!7Vi>r0_3wR^q+rMBD!WsiV^RKUJlqWTEhuv;$;4
zX0=I4BdO|OW1cWWLaWs}hgfVz7%B*8#kgL1uGZ?&&gs2C_q)kT{{VGsp{++uxax@`
z)n+V)fLNPuBZS=!qJEl$x+$Xrn^{(96n#ahJAF$_B0buyHO&GzsSD~IQ@9QZ!c{1x
zvu*7R)PEBzbqmq5GBaZ9a+^h@>KcoMM3cR@?A2AGS7?;=CMnoUfw3f6YFny?)1UOv
zTrG^GxG7lIIWEa5m~^(?)vh+@dzVw|@mAITRK7Q#s>kaPYMRAcVyT_5HOG)u)`!q8
zrwyovx>;Ro+$*bOUY#2G<BmEfNfaQPc34^UtzhaVo|ciW7vSM&;?*j&=Xw>i(iRME
zE#*g9t7sPW$ZKRC3P%+ub`>VIKyp!aHB39km?L$t;NYXvwGOACccorl$j2V*p(X1Y
z*(dzInH0sm17fY{zdbB|t#G~h4hnLMY<Ni^>Rncu?%wyAWbOt~eMPI8U@U@^0(-f<
zA}QSiWIvXsVSoLhMPFZ9PopM=C1JrfPg>coo{BD=(rM<XH8mcWse9V$>r~dG(wYD)
zb9{U&EeEEl>qwQ9a?!k-ousL{hodQ(4(aNoBHz#!`5{$6<2&rB)4Gz0(R$HTm>zRr
zY^XK=0K`pklbT9xNV%r~-55GkPm~zwD;oK`G5A@XOQbdW8u2YojQOdrm&EPLZ-j^a
zmt~Y)Kh`}(5S`kiHoG=1P&=hHogz)O6%m({Yl5`BJReO+1Rk_R57Od6LhCw}L!{e1
z$?bBQF^qOBoSurQ`WLD7C`6Ri6vT64@`9<*`maf8WXxrU^EN<2wry`wvNQgg_dTbJ
zA)%n^Em7sw^)kosaEC5^An<VPXH05(j-OZm09NO0cgo#O)EcRz+e$a%2Xf2B)3k6j
zI;T;VHy-x{Ehd|$QZgo(^_Zk+95?`yP;KaSktMcJ)}3!zyB%IB$n09HD0)j&6~3ia
zOjRrgjoht<p(O<nFZ|Rc*6dbJzpPyZyCZ}+Uct=^Cexu`7qd}G)B0>t`i7CLlgL48
z721snETi<CJ6%;%^(|dvHbI9UDi21j@)>I0K)vu&rR>t1e!#1BexwyXquU@Cx!See
zE7na75!O^q6UQKeLeI&p(bJI(4Ro@cTGvy@L9JAQBWRl(Zpb!8&V}P<*H-GCJJ7r8
zA($S{ZdNXSt<Zlk=08qr^UGKY15~D|rfD<A96;mBqZ36f!?dQx2lE1&GUd=5S}rxs
zTT7{genOwoapu@iY2LltC;E)=cN=9PQdAmX;krjc7N?}yqRSZd<}Wt>VuZ1&1Ce1v
z*E*(<;K=nVnLz&l_oZocuf}a)7RJiySbRKO6-!w`ps;U_nU6h)IaazA2TRnD*{u=z
z0R@ID=+0JX8Thl+^I@NpmA*?7NBFC)#UcLyP}6CoXzv?T(CC^BIHITyHsFjZ{Z~b)
zxtf-aISAtXC`%lyx_Icef8r*KsKNgLRiL%!!>NP6;ZSP5Wzz7Izopt6-(+Ql1xs07
z1B)u*6s{a_LK|4ssvgoO5L89R=CoZ-H_O;uBG!W`b$`RnY+9y+QKRj4NNlX2>3_p&
zk90cyR0Q^s!~RwuPKE(e=|n;7fAVo;bzYyM)HC>|NFC%kbbK>v<0GBTCq~j=!<`DQ
zFeo~`gBTBJC~AMh4PKr1r0Uu?4#RP3sOiZxx+p^(RL8Nsw`Bh6E~C`+$yi%MSt}?0
zUrh3m;?4G$>UL;#55xYh4Bh^vNmx93wnN3D>U41WRhj^r-Pva>j+d-;T_E4Gz47)h
zV~DrZB2QIoZ<lN2F}wc&tl=1}scw)RJ>7(BnoP5uv2^uZLir(<S&IIYiNwG26;#rH
zM6nXz-Fgm>t@R*-dut2Z&5lr7-&$*Q$8ALwJj^)vunYeHWj6A~{{S2R0N8Ca15Hf^
zn(Mxrnzr8-R`6^31DY98)9sD?Zev!PO4aAoA`<@q>BtLRoU;W>RB0O0YC3Sj-|Aqv
zNi3~x#g8BAjGyE*jYeSVclvkiMeMC9`e*X7`mL#?lykJ5r5#G%l&P7lmM2rVn{SQ9
zg=k0Noj$1$mrUwOqYfXYKpp+nA?ISMm8boP@yTq!YEnoGp=$(g{ld)D>6Mid7Me(9
z`&oKMt@t<9P{?MY)oE%-;_odbX0<9Fw$Q(YU(?kSMBI9@GkE>Ns?MeSS~5v#lob6t
zAbSG?BR#=dnpz2{qaT^mW0{~}g`PD!l}Wr5vNBHvrr}9O?S7p901{^#{{Su1xi-5s
zMS3hGlS}-`d=#@&$S_6jKV<hwQ0PC0M9D!vsiPz6s-~r^nxocyyJS6pz18NMQD3FN
zC45m#!Z>iTNeRhyu*pI8Q=Xrzs&SM(@e`b2gz72^`U<A9YNF`xo!o_WFJI{Jw8vkh
z)IjsYnUGawZ&7L5leW^bO!2r_r*TtzK#SqiJvXK)beSm|>d46)M+HAs(zK1Pd@(}j
z59RW_(u#*vc=c)BGZ=fYtB#(Iwt}?HTUP0qc@lCElv4H;HuprDr9Cr4uSqlw9l*jD
zTx%+NVwSC^bdX3`<Kz&%5)Ds5t)ei^4nX}tEPlHloakhv)8yXU?{f&@9~G!%@3Uw9
z;n7XhbjB?%j-j{rLN_0fsI=+K6PbVnwB4c0S5Z7#j)uxeh2ID+K5Pb77N+qMLGN(A
zi#*1xwXdp<zg>c|I9p8D7Va0oaPGDpK~bmI=+aQv$rYqO!*OuCUwja-RPJp>3z%@>
zbMmPw!`m&(+;*I2gtA)D%CBMd^b=6lib|Fi$Q`!!!TAf(H0o-2x>QG20BaaSiR>N7
zS<bqzWnV{7Rk5x0-zx^|WDqhCH5%P@bu(a+P#72*Lq)e+xm$e!{gCNmAN80T$F>%F
zhR$)tf$#QOUbEI|rqkr4rF3-?#x1_r1L#&JppBy(cUFBfq|K<uBjRzqM)vss0Pv#I
zYJ+RCpHA0n;ih#AP7$!3#l!U<y58vY@>f#|!yf48goE(m%E)UPJke@0%*ef<?vld5
zFF^b`nTMtw9ET9Rk$(kftvdttMk7PgBt1_|(!wE<QZ9R2mFPOYl}}Q^PVfj|uqvUI
zwDWaq=_vrUF)x+GaO-3RSJiz>G*h{(2H@BbgOx`?t9u0MS}i+Hf$_%H{$bn!*<@V9
z{{Vz^)4r(s(#Txrc`6T22M6H=Y%F6KWMKochtqcJ5pb;ZRy5YJj=*uU+n$)yAYpw&
zhp1b)0_zW|ql&8&mgvGqNa*RkKn;oS-4#t-Xa?wAx_e-b8l=|i8BpfI0|O$6+T*!Z
z7O@FG(A8^aR60tjjMC-jlARN5Y)#T$+$UPxqLmntgeE!Vj@$xn?+Gjk%47-%58mED
zQ9ZyWwAkAjO^|2G5@Cp4AGm-yRzI0!1P3&e;a2JScmnHP)A}@ZjrFG>v=P}Vdox9K
zHlJ6ik?2P7!;;{&dS6V4qHXG*y4~^>gb+tf5RMjYXzUSiNwjAcS;++^ih8XEq!IyZ
z$HEi+7N84BPWJ_<6%Ho@`=TP4f-bU<XvDuj)Eq5N%Z|+^%BHhV)aYcrL=RxUHeR<I
z*yiJJ?4zq>H8B{f7zjKPI7RdX&nsr9JuD&7`-cR0MbPyJtadzreiOQ%OnnURmKJV^
z{-I@&f>?!DBpcvxv?Y2MBo$gVRrAPUFKH(WI&|voLTkkvh(1;Bj?+AC-+K=#)K3*N
zY{r#p*(A*No1xWHNDV-9Tig(=>U7;Ec>e&3cD~%*9BL(<wzd#eT5~07bIH2KOsjU5
zDI^k7RR_1WQq)8$V-1o=wcbJ+N*aMFY%*f~%CVr+Dt7zk1buFq0kjK8p~rIO)Cc(l
zD$b$M;e9jQBx{_}!qCf2Ejx)42Lpp_DC4Gzq1$A0ta%GKrl`tPWI7J2S`MIwnpavk
z8w;;vrJwTEBR|7;_Fie!eLb{(Vt|t)GxDywD_{QrRH8IBM{Q&nAmF%mDlIjls-?0o
z#qN~c=Jf`e&>TPA4IGasevj0Ps2am9?6-7v4XB}#il)xRtb4B^*Q1v~*QAMnvKdJ%
z_$eJljGJYTT<D*eVANVmrl<E@a$2rBVo4vO$0beMc7qfAj|FCrQhL;kW8O(~3m%Bm
z^&>R^kJQ_=Tk01Nl$~hn!1rv_MXXoCNDkiK#1%Xm+n#MR8eDsk!pT!r7|*t&aqvny
z9YMlR;zS(7@s;OriP*AA_KkFUjIoXJ#^(?FU35KHQc4cO#=FRH%BO8pBmmRQV|QRw
zPN<o)0ap-~Gu#ZNaD9!*2GsREJ&PoxEk10ZhgRM0g~g}E)UTkUt&9p;TF0N{kXZc{
zRc#GUoa@ORIlE34QHu+cUW-|^Ii+ZAOdFawEeL<iLCioq%N>OVovOlF{{T@Fw)s7i
ztLbU#qA%0x7+?J)to5TsUto3d(bOAC&r1F{S<OdDd{1-eCf(m?R)&{UGML`mi|`7X
zDteet@nL&y@VYVGY>rA#Ms9~+t<z-;o79Mo>tUnyc%6-8?hkLu0;ZOdv4%RB8teBQ
zg`TeI$zYSz)2ASFu&1`V6+1mLDQK$3`gaK5@R=m_G~|gICTErA6xy|ZobcJ$_JQ0j
zK9$vsnXPP(ZNIunH2X!MTh~iTIRZF+IXO`VJU5Gv?uw_X)2l$aXeALP6Pn%dygi-}
zN{uMlRtWBzLEDen6E4tf@Ig?yqp=@k%1M!w8ti-}hCQxeHu8|g14$vfPr{6IYyQO}
z-1dSUkh3ycBMu?=-Fqh)i(PP3VWhjpQo1KNou=yw!rMEx*qg3#-`L#(8zW8aZ>l00
z+!`*>QK1_Y-ZzI@;1y#PPMc8}ieT8?Zb}c;f$bsJX+cd+*Bh|k?v_~WXtufz)HKFK
z-&USRmh*z4qN;0MvQAWRu$Bh;j%oNfOp=yHf=R#1RO>^yx3cYyW1G38eUr_|3W5or
z3FML7D=K=B`)zfdelDB{GWID8#@-WsK;yN;CxsNCjt#;TZ4WXI0xp7{N`fth{HpO{
zbCLcP=ABU!B5Zd>=qFa`6EVA*HxGqVEOJEaI1%txt{R61-LC{H?N+{)K<JDu^#J4q
zF3izD**7?YWYgpVK35iQaU&sfWOD_JMUgd~yB{lrrKAo=%2zdyZNaz2)GoNQZ^Fh1
zYnt}rz^L8`<S0YSN$r(0U%jI@MHvmZf|NeQWQ48*vTN*4P%uPOxxA2D{!`yOP6++b
zjRUba@Kc-#JYiv3Gq#rda(gIb4i~t>kKWU9ke$4qPwtrv4*jI$DPg2CH+xSBlQWkN
zQ(>%p7`@x!8z$_L&6Xo)HsjzT=%kBtNs;k8`hiJLR|Mk3+1?Kd8pf~@v<v(tXvzJW
z>L*C}H%YRtJ90U)s@3ReY5{Z(40rT9vZbP)rj^_2=6enJy~pgVq}3fPfAy649LT_v
zB28?rHq+5VUqI&Gz_fwLRm`4vPRTCz`C2JwjzU`ufy_QobrdIN@XG_=l?0kP8%(VH
z!2VYM0CYrgdaWlPPU<-*+{3$R_$gs~m_faW?2G<~k3-ElXt)Od04ZMMw_~yoI7LBK
z85?95`BBwL0dcVw9#FAZBVo6=9jYmdL%bfz(g(W!k;VAs2T>{Y0DZyvP6Z}ez(I@V
z$&*Ij!o?2+p4=R%nKYZN`iFvs(;txfU;}I%0r^A+2RJqD`;HJ*LN_<raO28tB=W>S
zaSm^SgH7xzMU3#+?`6-(Q5%8o0odhD31p2fX|s|{*8z77B~R=P0!b4~31fggfk8T=
zMz_;;Ti(dI$RL1jtLM91sJ1H!j50y&Bj`$F-rzPoTzsLJ{igS_A(Dp=;vL89!Y@Nc
zLrYra+aAz%I{yF(?r7V&rA4@dgJdkCRya!I?QjCgTIS_9oRrrzfrW-da&0cY>lMtA
z!!8)|6JFEF7fsss4{0QLMzkc@eLY_db);{Ca*AUilQF!o{{TrUmN$*Vb8PP@)|U`1
zkUSvJAWt+-jrMTKOlif6;UP8-aX(bx2b8ZzY*nL!d>a&@_BjdG9q>{)xz7nuXy=Ib
z-_L~u*>mm6kb(TCDmR_BxVO<1B(y?JjfmsVDp(vC>?S@y4W7{P*ziK;ZFXaDK0<0H
znhJAclwb?|s7y{_;M=ljac?*(Xy>zR?{M%?9=?e3GL?_=N+6aN0>NwY6mE^K$j8+S
z8EjA(@%<<JCXiv}yTQn^W7zhb{{Usol(!cr$SVn3AGSA(w19jloYyhfC8a&ijN}5-
z{g*ad5F7)Vc^sk#V;v>N*&BZZCT`kp(_~BIjljMaT>k(`?1wEIh;ShN5EVNNqtxev
zhg$rOK~_=f5megXF~^WND?COpk%YAF2E}I-z~QpvRe(97MvfIriLo|DGJWxY>>mFB
zC}|^jadUDIS{V@79JJV^E`Rej>Fxsg8BA~^Alxb`0ii>0$19rY8^f+YWY)N_iz#=t
z+}IQS(M+4hm_-(?Sx=AD&f(b##w|vQyAD5>koO!akO%Udq2-B%<mHa?IQ@~RvND5;
z(QjD|TQ6YRh`*`1!mE~=IR*i1`S?pqJxw_ww=MDyKV(#-Ngt>in`X;3MD+Urj*N$G
z$Uh2WK{Ex~Z}6pxS>kr%8)Rp|;abtl1k4*81CK2!T$(aT^iXb=7i1Qn?3`N^{{ZeY
zYrm*rXeFg%u_Si~$V17dMoXN+K8q=%aA?m<M>`GSaFBT5s2ek(b);*Ud^juD(#Z?)
zkE&$bWMO4QEqi<1CQ}u}u4K%UA;B)!437QO6HqiA)UGZ60JNyRYKmiNSZtoq6r4jh
zZ5adiP6qsTP{&ggjrSd=<v$j<a?KZxLO?+o7)n@dNZ~|W=I|~Q)YGx1&NjNA5}fFc
z__dO>;G-V{B^PEchL#669grxcp*^J7VIjxO(=U_Ccy<m}XmrK61X&}FG5fBy&lV{Q
zag&6mdm?+kbozIIa@#0m1xrtV(sN~4ocS~pyxPFr9?6@9@q(D<xI3FJE(e?{Ba&}q
z?3PBGcJibz+}oQJGjGT#Tti!MY=nn^*<1s-7P^ldgKx4)p3-yulSV$DDrZ~?p?lbU
zt}1WLxc;Gko1sA?x>9q^h*K!y8sAP~&QuSla6Zw66JKL~5iFdB^K`<!0zH=G6(6UZ
zBd08qJBwWgLxs)OOv%{G5&r;$ocG~KNFzL?4F%k-VPing&ycyr)*|<^aba#kO}D{V
z6=MS&1@GNT(BM0+0FKuRMw}zqlF-2SwB(z8Q`+`8*~29xfW41z?3(DuAf6Uz7DY1!
z@S4+Sa-AS>Ja$oJjtVHvk{zzS`AO-IAu+^{KM8*5@6aq`UilnDK_sg^KSi&raN7|L
zJ<9b;4wj*eHMH~$7XD`olCJ4=ns@-aS}oWG(vnA+Z1cSzqev}%LAuxJnguis17NqC
zE5S?;=>enVJVXHiy6bWUdj@1NL^iRiVH3-D90fCD11GX`KymIu)*1qJJKRYE>0_pI
zNG~S-6_J&IS*-y4rZJ(}aliON!pI_E;FZsiHtmg~{(GsV7_?&l03}CHPbqilE-8Uy
z1b6p7<fgffFR)^>Y)xxy^PdS?7~j$d)nI_dOyh0V2&mzPF?(G6l;>jh&xDT{yPQ7B
zY(0))1o2>=8eD8o9fGLTwVDk%j(qd6rrcd(b+5!w!sbv7$AII)o646%aemKAtE+~R
zBI)L2V0kMauYMuX(y`IflQe@DZwt${j-u3c7n4y^^K-@Usox`<b93;KsZYHHILD(=
ztaV<asXT{H<~RCA6)7&2_9VH)+T}+>Lp@Wr#~Yk)`z?lp((Wa)RG*tFLkf>Vyp~jH
zx&>8RcNUhn&9JU$Iz{qI1CO+Sb-2?s#<7iH7HI6QA*G5iI4ROdU9y8j>8L5%35*Yt
z7KSQVVQAy%6R+94c}zDi!MfLBN{N7DMZ5S*^(j~Y&m}STX+BU29k~AhEz^UE2_hF4
z?xief7j>?%2uNuwi$iiv%8qxI-(}Phi5`DZSlyC7cMsB-(<7bTPRejd-feX9Sllz8
zB?}D^vJ=aWJSk&!kF*OUbH$W-BbzL5^i1gq`BAyxG?H+FtgnKVq{$;ivy!phN7j(B
zu8NSCyStR$M6^1Kdo_BFuSrP4Un5y=Nh=G~U2$UQ=*HvyN3zIjn!Qa^++>uS_Ei^r
z(qW|hAe5!qxh2qcqpQ_cJi2*HzW6{he3D=je}#9VbmdN^D_RACIbN63pN4R?f?1@`
z%Cs@kB`Gt`x_dyHvOr$P2KiozrgZHUEG@Gx`*UTnqUk80VDz5PYGnFkl;n~w2XGOS
zNHJDbQBbj@V+z1AjAfbv3To}LdQq^OcL=y{=z(~#J&?OvGmSBU?)#^+d$>*!j^!vM
zamvOQ(>B~rQtr1YuXC&}qPZ@~uvlP?_6ir)%}j3%_x7@Di1M1o7rNnN6?N^^H5VVu
zRJb?5Dk^@Nf=2@*H~#?jWoaOxbB)b_@{1-qcI{}n^K=r52H9PwXtdOz5er*yg<$VY
zH){Z}QAtv4ams50-h3@q8=;aglZ1?jwC>!xqIjv<x$YQQE}`ohYF4?BxH;p(SxrPK
zS)<goI(it3q<9t!&$^qfohImM2_N??p1H48Y7&zqhi~-X3Y0m|eTHt5oVyLB&_#80
zv&v+V?r|q1sNihV5Euyu!m-mdiK<IZ!(z624^6fp9Ohj86=4)kPRdT3>DS8kzJ4#9
zFF?}txZ#X3qQOZ^Md&npc7<n78X6O`dIuD(ZW;+wMFH+Ch>LF)DndgtQra?BM+{cy
z3#z1KOeC9GMO&&;(y*BvKXr=gKBtc@iP!J~NlWN;6603Z<AILa;7Ivcy+>25)Mhb3
zxB_`lM%ukfU|+eh{{WSw(zLcj(d-wugkuZbfhpHOIwpca5>0ow^L4M&wCI@_Bv~ap
z0{|`@Ahq72qthWfo(sDGa;n-$m$LD{m!>y!n}ij1u}t@RFgzFh6^o(ND|(7z$eiey
z4t|Q}4xTiv5=Qc5Jd$`x@(;nif$N<wRjCtEQC34vb|vY}E{{!cYnaknY)XEuRXqem
z&rs(87CvovRMaZ}053xkZsTIL??^V1J%*22r-gx#MAs4fDW9vn<?u8E;02cHEeBVQ
zm{e4_JB%mmn!S8)6!i3>TVVZFl%%^L=)RTz0G$Ldh8rZKrEMFx%P#ep)92NFR+^Z-
z7GE}2mHM?EB`G5EOKvZGpt(JU;<Q<6-AheM&AyOu1C%b9X4i-eo6=$9E6VkaOINS2
zJ6a-)o-La%Lg<FgPfHw=$!B*|i*kRktyf0Lx)!TNPE9pvBHVXgf7Nsq($s@jR$gyy
zw_06uU#b!MaL((IU=}3Bs8m<_)iOv$?g2@WMfw^R8=}K5pED+r*JwAg+&`<Lewt%s
zLyKO^Gd7u3Egz^{7{C>NoX=JMgLe=x;<;ynE$JOAERhXkW2>(+i#_+g(c9{-w7oM_
zsoQecq3{%x+I<BL<@8A>B;S<<Z&8StVuO2oeHG%ARY>QQoSusrsA=d(FKc9X_g7ja
z7K>Bvt($26o7rGxua;4`z4ATXm32mq)Y_Z>0O;E@BkXQc%6HJwi(Q_(sMGXaJvsEm
zE_fKl)>LW+8j>ieNr)atg^;AsHN7RKN~q+K-L6SmEhf6SFc;Gh2au%}?(DOTDrKEb
zbLw0hJRX{f-6<xbJ!qdM-f_WMj;iWO;*i857ahlCd(mBAsJ@&-1YC<<$>8}rVzi=x
zb%Rx)w8Yo}cLM6Fmsr=TE_MbrYxTW8s=OMy*R+w4F0vIG#B?>n3t6|ZD7<w40AqZ&
zsE|~%RH>Q1ruPfwY4lj6rGObtg}-F#U3W=jH*t)<+#qUo$m?YEBQ1@m7gdB|9WKbu
zQ;}~xf~ahYp`pXcR=N}vtsqv&)8zSC2z2^dFZ#JP7Zc5|g?FU&2AJsf2%RYyxoXl>
z_Grq>t#XS(ju%fAKx2n+R#X1~Rl`9eqNb?bWbUD4nvKOYPTS#TY3KztP-RR!l^H?H
z`Y5MG*ZQujuhjZcRysBwNLFm<>NuDtubj?#vyUsFo|cN2d=!DE-GYXPP_EP_AO?u<
zY@DTzDs+eW6>N^an@^*K$4}B;_W^>|@~V1jw^N%}^s6YOf;-^3wqA>->TT0vADCoi
zw(n(Iu5}$Iq<tzHX#GLmqlMVww9aJ0bv+&$%`n=a#%<+!&0P%!l~C`^REY)d9C=oH
zy)RQ39Omi`iHC-&8g7@bt-I?1o95~hZM`ZkxY2E(*61}gp`M4V-ykhUp+TeyBI<4M
zxQ@#orfBC$s2d|}V*UH0^_SLEz+;WX3x6q17`BPIB*EyT)TOE|q^XS9<0{$ucCH(`
zx^QFg4=Wp_vU&=~Na>y(d-AoBjYCzY4Q*SR*LhQt$hsYHeX=)HXw>epf)_u6NYCz|
zmtE7TU;F{KLx2WVZFfsl#W-{8ZZCTg%CpmSDh-?Eb4!8lnlf=)6~#V+Vy@NoNQ`W#
zWKBFC>Nq+#R5N~NSw%qR*20pquTIj&DkHzuT=ef)(vTP=WxlH{sk3}_*<W8*Ri;yH
z8hhN}E$s^zscT(FRXwS+%7D;$EndAosixL8&1*eF<s=$?eqT&tG59D-b8kbeaQ4qB
zrPMltILl?Ddr9Wv$n7ggtJSIp=OlD&Cp${pYVNBI+bnToy^uP6R1GHWYaTwxCfnF$
z6qcEHq-eT!n@$W<7rYJ%6H(QkBoUa)V>rE&C)Vhx<NpAtm8=%#>piGy+I4BPRhGFz
zc%weWjz=DijSO02;NL9KxRJpsms6qBq^R~%7XWW|i>fGfJuZmeS&PY0)%A&Fjc$_*
z<dXjY$_`elRGE~Mdq$nzO-G~B9k5umaj|5zUZ>SMjsArdE2CjH-dk%emrd##j;9bh
zj)x1e!-iFrRGJJ7x1=a!K0vk7I_^a){{RyQrgR%bf0?eTjn8&Xv1M7RM@2_d`ARCs
znNBP+wpz_DsP-4q7%HJ78xLiIs&!2srX-S{COjS-GJ~eq&{AnIx?Z2uoY7Gv<c@4s
zuSV*5bXK+}QAsc!8+7Ui*H>wmYod<hKMNPD{{XD%+K^za5(k_BI9(1cD@Q*h-p@?`
z0M|5Hn}07hme`(g{7BVar_$6qkTp@dnWvjH*sQC+)g-49Nh>j&skAuthe}++($4}*
zf|HAVj^)Q_E;&YvIEk^f!-96*Us2CXR~@F6tqvR@WTn)kk89vyC%u$sO^u8uvUwss
z>@b3iqv$QEF3XyDbc#8I(J}IQ0NU$QLDZc+99w46>Ni`G+pjLGt9=OrPpT6So>bKR
zL953f@fyc?7F6Y8acSAB>Q1_XoVq<Wnan+dnzL0Jwy&v0>bkv=x01_UP-|6swx;l4
zq1^C!00n!}p^(DXYZ@HQm-@y*P)Z70MH-tjnzp4aEm19TbN>LTxJ=Xf%U_1^wrOT>
z^tj!6UZF0O=nEmBgn~bvw;^M79U3z~uTN1FCimI`cH;IeKS26+wX9WC?~;g{^LE)^
zR8l&+obIBGJn-wMbkLQghi#Ay5<)AfwRX`^xVAPm*1%5cgjZ!wmAgcc{&kJ??}FDW
z8ogqIt`gc>hX)_(AM(7zR;$)EDNDUMghztWg<+yqRq5~sIj(RWoYatl_EJ-o8fmnb
z);vi4PByR~(r}Dy6f|*M`ce=%4&`9A?QW`9g33u7ZtQ9Q0EJQ})#^v^8!yn^GihlG
zmo2kNuJr{AYRpp62_wC%IZV^F9-Mo}{S8cRJY1604wciD6)qCi$mTnn*<MFO4xMM2
zy-%H)Q{ffcAC$XDuw^YA(U~asLhD=*RVJ$aP;O(VX=fKat5@o@BAmByB>Y)sH8wh?
zUC>m9f^ZADPh3zNZ_wHiBoc{O-R~I-NIKVBp{LvVJ<S5wS?V60>N>XXppBCc0!*vA
zKAGwW!%cg3H@hAW`BRlOv7^a!XEkkaRn@025lYt{1-MS7hg@(QS$3Xow!#e-kO4e`
zo&I?VA+LrRKZ8*Wt?lhe8OAzAB?m6bO%tT$)hi=*trLws^Rd}po27IoPEpf`!7*XC
z4^<j;l2!izvm03R-G<89oi)@oZ2`4%TeXwClC2^?8YudPN*z0MBc^1Q{*bBk?P7vw
zT1_Tx-`2*Ewvv7wYE!sNJ!ba~&K6f%W{aumQ3ke}mS8(vDXfilKgOAdI)sgAbr-K0
z>?LWku%fTmUkP!QfLoTiXf?{$25qd<8BX5rXa!`ohV<mjE_Sr)X936QSt-rk4ER9<
z*Hl-sQzVXL%{;ZpI`LC98>7+4cQ<4CRWj;2Y!x1rJ$vR2{$lJD>b|U+k~>21@oZ&U
zEk#hSJhmhnjYTY*Drn|}_#s+pm0EpV+bX9qgXCFas=9{1QJTg12OkSt(%OA)rwC)C
zh5ku4aZeewwoY)5{aLA(N$HnTl4p;L+?y4P)ElHhsR*cQ90@k}a7r&*={;hJ{=GDz
ztQjnj;2>zGo+ppZ!A&!V7RXB}sk%XeaqQf5^=7+83tt40%G+>4Cc9L9X)V+=ig^!r
z27k(}(DlhFS_|n~8b6h;!n%J{)48@9a~|Wy>|G@CN-C+33~+Ak6>X%JQ18gRQxn5|
zOn-Hf>bhNWChn<oof~*_NFv{5>pC}2zh1PG(g+&w=)$(tKLx03sr^`W8oGHc`gd+=
zLK%`@uqPeqpFU|Fb6KO0NzxZEU<)hv_0FZLM9)ODF!^p)qh07>({eeQg$y+?jwLbP
z>ofUX74<*#&1E?Uh9p^Gk<!rr034#PvM1I$dosQqqx!b3*WvE7M^8}7VOGY1d3&s=
zU7*QdPBzyu!?$Hy28~sxR&JJf<Y+z?@^Ev9MB^mc^o=1C!q>$pb~_uQBWs(7G!gPH
z79;TQR;F}JfXlJqa7y%Ogi<s)uW4Q~i-V?$J(ZK`T5V2d)2UwL+{7-cYPvH)sJW9%
zh=br+Xe%a;orT5i$I8p<{{V>k28nTBQpm0SNx#Uh*_0okX+I45QdjQuYH8eivQv-U
zbiajqTbM*zrAFWBdqb5}-;TWq*X(sfk9U?b;XzyY)zR*RntHjKZHut0N6C^}zyAOY
z!|bi<Z^Eh&-QS*x+cGyY%L%OL`hK3_8{1ECZFY+k-nsl>mZUyCF|V1YyP87DX`23}
zsQYFxyu0~d{{YJ9!94jL%b?4ISN3`@OnSwlI%wM@WMa<BJE%0xL-NGCPJ6yuE>;Dz
zYg%#j;17Uvb{s3+C$06_Ef42lCy(NbE~koi1(FqPtdCFBnK+UM)YI79wEqC%X(*oA
z8qrlOVnKrE3lh2gSy>Ce{AWP~>^#X41y0GjV_k^)Bu6>^Q0ov-pX$?kG(T&tl|4UB
zBiE|w?hTqw4hUJDYL+)tO%OIA#>-VMoOBI#l2J3C48GD`$OUJ0>0|!@Rg^+7*K_52
zSZ1db&o?AoWYFyzhx6K8jE)_X(&pp&$8c2*bvSWzfVf*uhp3FrQp1N4bxp3(3QbZ$
zk4f&oz`tcjNzpyDMI8(3`Zs84{u_jX{z2pRRE*sNg~!!;bvBUE(-B9y!LoaZ{{Xmu
z@Vx6(h1B(uK<-%LFXUeZ5Bm+;BB*O$1>0^`&+yIB(^5+$nY)Wf@(RYo>Dkf0>JgOM
zy!3Peo|Ua(x%c<_BIQUG=&<VTb`SLmog$EK2F6J{5OM-5r}au*Kd0soe(7W+Ha4Cw
z<znX>=QG@wyY(L^igHhMu}!LBVcH#IsP$TjiMg4$C&*Fj@X0IRKOw^CIUGcR!?M`u
z+Cw!BHM2|ZW1C=n6nN+f?DN<QqIHN@{{ZPaizyjZ=zj_S0HxQ#Qfj?E`bedyAO?q7
zzbj-lIt??R;B91O<(6%SF76guR>Ir87#6ZhNn@I=hBlM!BfXGaQ?1tOnzLo~9~==g
zV;T=+PPeHYR;0`UWJ3&RfU6{9OD}J^N&JmmN6}Ba+UwmBGdwErEyt8h6$aa1VmzT^
z4-L7xb*wp0V?(cJC;Ddu;W}Vs0lB_Yw)V1@WsU{Xe=bo?gy9$=C0!h`vw0rVke)Em
zM?9;_NGYGDx~jTgP5>_B-|UN8*q2PD(rm{xz19VKW{lY4po}r?H*QE?Q59V^O<TVz
z9wKYKx9+rBR;?{LYg|c>#nkTlAEs~pQT<6wgxbYZ(N@P$(CE+F=*G)&YZN*hHLn1U
z{{VDLWhU3iRjhHo0aG$k)7%umXt|`7mjjOo!ItLE3XTcwgOy=VP;Ft5wTjRVw+m*C
z&DneTSQ_mKjH@!X!#NAmtAr9pebzn}V^D~Pkl%1YY1%fLpiMW^iXaQFZP`mPh`Re8
zN(i{cC$tcWhF$BWH6xx;XqpK_PZkL)DhH=#_()@v{)Xe_M(R?3TmJxLMbTL`SEk}X
z&(RS_T_x^ZpFD6vb7EIP`DcKAprdqe{S!|xk%^jgn<e*wW6F7^jl<gGf2snmGYgA@
ziMPtuYO=#osDYrEhz<)ctkYCBvOQvfo}EltaBmL?#>;oz%qQwmtga1=uto^^S*t;f
z#3M}BW7H_)tc2~AqS80GJ;JQ(s3X-h-&L0NnU?)kJ#%HFs(oz`AfNYR?C+Hi`qL+6
z+U)-TGfL-|(PUw_KYQ9kn&!JLR=PE5jr$x;zNnAMLszIs(soIG%sze-9YP}A?X!XK
zxp<e0H5617nu9MB!(K*iY@}|Hs8PJ^mCtWr?1h`sE1yqQ>5@P^EsX}PJ6Y+xZypX;
zpPLhmw07diq^X@Ao2fb>Kjn!W-My4jI;oG?>ykJYR*>s8a2vubKcI{hV>*jZsf%T8
z5Qd<CFyN(4*3p{!D<IX&8X~Kv-);@8LXxU@W`LNdlHJ(#V9J_VqAh$;NY5l?R_YYG
zcHQtu<~aWVFJyi=K7g`LB$`xIl8@pBpQ<?Y%ymQ6q`Xe#7L}MSa}G;@2avSgJykPU
z3>tuIhw`}HB;&_rBa-x2)acrs6N#u}<Y@l@+>ep=O{Uc~3Mcy{imomUb27zi<J4qn
z{{X82-}eB7)Fz;+VQiF4kRRq_aum6gqK-=49>4wiH_=LawA>)7D4_<_)ohUV2L&#t
z)84Ukx_wLGJnVT{n#wIk5?eEgE$+~(2L8o$^h>KkW4mhU-L&`Hg`KL>!^wRNpdQUy
z8ZBP7oCu}<G=I||xJ9sN^)B@!iS&;@%+5b$M(eQ}O<FMVYC4XaC~ZR?+js1?-7nOh
zt6JB{EPRzD`c*YlM{JQ)vfpsCI-ZL97nv!6Xy*rnT3&%1l8<MlR2XXF-q$dnAgtwE
z-wfmj+wQTD^&MpqEs(g|11c(>sWl`AI^QTL`zb7zZAAX4<b&iQ8$5xd)B)csA*AY(
znFsST!q(AL)6EdvHWae{$*<^`yV@KDz7%bg0!Vh#@|^at-)o1}Md`-u0x$BYo`h+W
zvY?v>SfzV`$ijj+Pc6cfM(hU*tiS;HKnK5tXmid7?4odU4V=;uk<-nzIf2$w#PUdr
zc!9qL$X)vx#){bFcc?bx_Ewbs`)_T$j#o{i`i=D<1b4z1HnN@expPNimQm!i6)qvQ
zIz%%?>O&w7@KrTcJyjd`JB46tj^EJcxO||hbt#A}k)}o*e5Hz#3vrP(9djN7T<af{
zY;GOR+E!$eBrXjtx&4u}H8vrxeZK0*nRxbG65k1}dzf%YOomrj8}15cY>*4#27}P(
z>!oGJZd7fUx#Y-ie&sjQaL6|cgIY(u3JEM^8<v~dHRL#1&CisLX56sy6pbL^%UOtn
zJAxBST3kbokq&7Y7P5js2)(Sah-8mxCAkT$C8ppdEpRt$tW!yS@(H(aj?7FP2m!z)
z0FS52WMjemCjxC^a)E`n#g`YGi;Jbc4i`9FWA|9hL1HcvFz+VeaA*UR<^%l0zabQ1
zj&4Z3{w#%-JCZH`0Kz|LCfp{=5gZGJlLJ;&x;G55J~^B)<8)i05^?RajKErKMZ#+m
znJqEMBPzlvp>uY-+vQY{SnLuCk*;<(45ez&(I>3aspPxkyIsxOgvx4}sVx-0#gF=}
zl{79k$tpUC&A}y0i%hGMlG$q&H8pHkVE~@U8toQF4Z)$-{nIFBb0o7)!mS&tNgbO}
z71{kwOE`TE3CU>9KAo+7h%IpPp`Ic|oIhou)MTZpguXD}Dv~*&hF!B8w2WO#X_mDl
zRLK<a<|hz&Q5hd0+gA?b<!EN4jz)Tv&uJuZg_4cMq{zz?-C8ctjTM3xfFBEw(K;C<
z5__A0$}~_HHtlvoA7kT?vBNx}VWXXCU;HzBsHJ4AHhW33e9Z*z9FG_&Y36v4HRo`@
zCy<I}-HT69Vjv#nS+b@#w#0&LxYEZs-Lw;Kd!XM)TH+e(5RuSrkDdtKa>rQsRWmj1
zc?A;p&mG$4;CDk8o!5A{O&twrXlOiI>7|9F+*uGB*M5`xCOg}MVwl=v80T^2NY<CS
z#AP%vJ1sUo6p_8mat}jL*TVK>dxyely}iL16zq4k!~|O@Su-yahVKb^S7WUd*2z;@
zrJxX{s-kpmAlx4*%%*c2?-vNBB-kUV!8Zo~07Rj#VD_7QDa3mZxAt8ivrge;%-GQz
zTpjv_{%oEadk{inf3?%v1@K5dRN2=Q(5)vSD0v;R;dPDu$CcLZI6$vwIqYyB%6_Sj
zzU%UvEO*Oqbr-1i9Po&eM5T>)!i>}B+i+8xBV00`*W%Z@D3=sKeMWm+3BPpa+yJF6
zJ1j-QMmSiXj_WjUXEH(&ET{#WWNS!5?F3vLuCW(Ep|loQ*AL-7{{RIGG;R(fZI?8V
za8#bD&hd08!2PXzBt8@5aC!Y8D9FA8krLSW_XD_N<w|EH5hDYKp6Uj=!o>Ykn)`E+
z;b0Ef*Z%;t;65FN6Txe&dw5Q8Y0FK%si)h6e5@N{u#s{yrH*WK&y@xb0D_R43mk=j
z67t6j5tRXM*IMbJ_x&dJ?3L!{D;R5q&C_j#D>ge9u}J2T#zJLgv0{;p!;cC=#<<)N
zeu!xRwg~ztgXE3lX|O$(O3BEvg2C2%a-@B%06Fo(ikhLWZJr2l;Hl);;qMm*z4C*!
z$jKqFziX`FWZ7Z`+uDBZHco3V`X9J|N#!HSkDHHz5$s+h&{x$`fY*N>F9(nj^!2)Z
zXZuoma(83Rl{2bCMfTkz{{Syg+lK6T;H|>V%1F7L&b@%WhjbLpZv~_hfsUrG0%HVB
z&jl4tUdMYJ(%&t3LxYGprZmyD!N$ZB!9qz4@!h4KqX!`6T}3QJ*{%&I`Cb123RW?j
z?&G%pQ$^U4`!UrJQ{UP>H+UsN8#4wTNcmfOjV7L^ClbI9kQEhHk1acij_znqgtDcT
zGBANF2m`vAvc)G33P;D;&9}mV&_+2H@<tIENuY?OmLqmL?M1~_*Bd>yDxk7xz0sZH
z>bbRTCu_ls_qalnDIA64<BCv70_6)VTTOx<8iLVwI_hW49@H9Wv~mp>&GB@l))@(#
z`y1cN=MY<rp~QY;UuS26rHoi*wm0M<iT7}bjm{1B=iwNpiOr@<9Igb1H*ilZjzjD=
z@(PKs1=zb!d#N14a?&s4DkG9Y`Y&O}KiNeyM%y@96AaQY0P8q-OFyG1$F%)WV?tC`
zdVcQeaRZ3lGP%qVy6w-=O-~?c_hc!^?TgSeqagm06F;)GERIH!E%rl8N<jAJ-(;hy
zCIl~Z_Q~4Iq>asY2I@S6Ygu6SOxXpzuDG|tALTCc50#ldG)aOiIZObIl<S9gO><l>
zbDqU1lXg5jgL{K?@L1q2YyD8c-csCK3k}#^+DHUtA#M1u%7L!82Is<aW$tbhY(|H;
z8=I!Lx^rc1`MC1A)^G)-9)NKn$BU@tV@US$o*G-;>4)}P*^{tmw&xeP;WPgL;!`|i
z<uh;np)hG5N44O#*#p2$_qd+Gc3qO&mX^2al9(rO_A!7DCza57XFZa=z;4HdG*sIG
zJ<oEP8;CbNsa)cDeUQ=xHY;KW^*md`=h!#+U%HGqIo4<=<vcRhB&-@pia2DE_b9*1
zy{)-7{{R6bQU>Rg*`|B_qV`(CO$%Xb_e$dHco<KpsvAoq0fWzU7q|;qME3^e&KTzF
zGX*wQfnrG|bEaq)bAVaBZ>lt{F^&dS$tAdMSDtIVZ&_I9HUeT{;0{#&Py9wv`#m#S
z>U}#-Vf7{j<A%4Df!DhFwxaRTv(st*ZtD$ISv2q6E8OCH6LO@}=__lbY*g^RM;^l{
zD7V;LlzKZ*uB@t*x_O@WAL=NLA4JskIRsRYInF$ITD=$W%c(0E+JjEm+2!|J{+6Sc
zrK1taPaLz3FKjDD3M*t>ucI5KehqacRBe`hu{7{3j(6ci`e*Sfssq|Nz5?|ay0W~t
z_>qUZw_p`Mr>Irx6K|<~^M;NBDW%dfi+!2BH$sY;yIRKFce1#qqKUlZsQ_^p7)r~x
z^%8QmwldNtXbi)7PiwLT`zZZTMVQ+o=qTAaxsu*e(X0+aZH3Xe<Hwb8Q>V~H9^*FS
z{{YmfDr{Wg754TeY6^BvCu48q@`sX8U2(#SHdx)xx^=e_8+1)%&7WwoIY?!Doyu!z
zpSN?4(ekE=gMdEe0}W$I=Lm?H18mXtDLp$7a-<H}-*LI@g8s}yBVK!(cq^F8n_V`#
zwg@9Hncxd~SnY4Esp(qi=}3FH`X!X2nCUiZbqcsC8ceb@Tgh21bFE>8raEtXz~n3@
zv94EYa=Ft?cAgp)L*xw?E=f*b&}|~uSk~)no?R@21K1T$EX3dfPr`jX6V*Fw7;Loq
zFHCN8WSD<tNMcA?O|v_u>6JB)8zXVL+2|c4-)rV=&m=7_lcd2;*6m=wn=8noYZ?Pu
z6*RghRtcnOu+dn?#@s7sRa7>^)Hd)G4F$O+DL3H@v67?}7N<Kb3$UM4TQyU5{+8RZ
z<yW8Xp9yft324H{O4i(#i``APA4L=9dBM6?8}~%Qy~p`dFxcF#c{dA-o41vWERML&
z6b^6>z*4d&$-pHQ4IvgX3lEiy2MiKQ>)6>J6m5aGb8b}emNC`<02FogOboL?DO(*8
zI(L)CI|RoUJ>AgI$t;e`Kx&qzvI=O6<#StaD_*UFt&)Hk+ql_O>s>)hr^4eTt!=w`
zSx%<w6303^S6uORfz)*gt0Xc_D~@}dDe`jYZA885POqu1k<6#NBlC5amClsze2ygi
zq20Ofvo3C~G;Jb!nH#yL-c!aOLb=&p1q8D`&1;?X3suwIDCgQq#hc-2G>s-2W;gg^
z{q7cmni01E28C3pPQWznG75HvvOYVjss^?vUuZvM=;LT^0+KK<@pMc{P~$6h?F}9R
zNFiWuaHl?%tV*oZ>m#KE?*SuYRffqdP=Z`Q0cW+|pn{#GHNy7tvwca`O>12oZo7^w
z7Fs4&>XP0<TFazK%b}Z5EOmWqYT1Nv`-wc?g#9Z?e2x-Na!)AzCrOF`4$w*EU(&$a
ziveX=#YCHvXKC7dSkdhY(7GCU?&}K$(f<GqpQQbeGQ%}>NQeR=?on(BHVIi@Eo{b`
zjE&vTghdxa(9Gdes#N-~Jck^9%Hl0EO4Dg>*D;cwPjw7%wo+VXCB3qfgqs@TwnZg2
zkEJv+k<D*l07@#F=8_%&Jd&!l`KalEagD_A5EODgSbawV8{+BXik|i)vfhzps0s<2
z{6{ta096*5QPcWk!I7~xPl1)0)N32+IkA&&FplW$HjhxQ{{X6KxBbc5x1kii&q1Kn
z8>_d`qm(g+7Z_8`q|xaxI(h0FBhGS?wvSEHw9_RegM)bs&L-DJp{TkVx`%AJ0AC+<
zoRl<{%(h-?+Kjq{o}E2}ZN<hDX{n@?2%>~OL&^D7HFHol9g$UfcI-JQy&qnWOo%!X
z>16UkPm_rJ6GfQmF&F(+U;y)FpVzvIpG~|JuHNB{c23qhhgQ|4Es@TKA1!jq>!0bA
z4BYogEXO2UlsV0-dPAtibRVQ^)kdrH6UJSe+m)@-^+|O}Kor{;JK146W@t4Bv^9=k
zII#=WI#RDo(l(lgHN(N~l}qg0E1+#^u+!4n?=4^pJs(r)l&mqp!z85Sk1N#mD$bnM
zC<|Rl5CnL#^G!m7ru6+q^&YHEXY^vql-|&du8HU$scTsEn+#{NHlw6rfxfJ|j`wqG
zto3hG(Y7NVp4T*t0@UuE)(n-S^Rp7u{Y4wSF=;KJ>S{TluVb0+V_kdO3)VVwS&lk3
z#>zHswYUo*KDVSpOdAM`b-7irb%b=XlXmU+3UgdlM0|2h?Aq&Mwz5J@4Qo&Is%prm
zY(AS~Yko*k4xygDn(-Z=j4C(l6*To^PWQ;$_6j)TDEcosMq0AZOX*!YNexb;GfSPD
zIaoT1j*<4Er(?kGFsWwLsp}fh=E&Q3vBI{~CZ>)ZznI5hx^cn2+0T+mbW2fNM(S5b
zS?tCDE6=q}E|R-YE~1Uj7s>LsRdjS!fQMb=tnRBE`ePmW8gNs~NR)QU8vdPaJR$F#
z#6jR5QGFgXh$>I|i^H3IZatJV)LQPRR3B9Xgkbr-)`^`zNZ3cI0~&3TLR@LL$gG;G
z4C*aYq!~%+(#F{(BMlwOtm#cNT$PTRnt=LFH*LpcDbuv}R<V(~6D{yAGQC@;X>~|6
zhKOW|qiw~)cO<taBx2r?<o#bSRnUUSDVWkfq-A31AJvoU4W70s0~+h+h3cJIsXmgq
z^J;T3`wsxDKT>t|E2A{@F%m6eY`MNv%Di-3Pt>u+L?WIRdX}+J^!wtfk<yn*5GMdE
zW|k+_stk_~$>DDFSSzU--IPA7JQb67u(X;JUWO@HBaW_XyX2vCnrCT^^}S}ea&F{i
zw=HwyHqxHM<)Kjj0H;k|9jB?96UDqIjK0N`evL&JQP5OB(W?x5uV5~$YqfJtPkIUq
zw%px${CzW11mM$3=aO*Z6}$9KrgSzH1hftSP2Pp*j;~d!ua(A1X<YW7($RY(dVf#V
zwJNa_;hL5s{Lf{Sohhk*>FSazVf9|)ava`D-@B>mH40DqZ9TAK^=(bXP%YU@sB~2Y
z6&b0Psjrcu=I&YQTHnjL&5ASWi~<5PP}H2-v;L<x=<mhtWivHhCGh%GQ3t!e7cIEE
zY`rF`j5k(w3)w%W$2)&vWj=`(y;lgF4beM;b!XJ0OJrtxh+_`5_{#2xuc)nap`dAW
zVE)N@td5c!j~%vG)by~_9z|f8hsbi9OzCYmPN`s$SwOyb99eo>G^xKU>P)~NZ{1=#
zqMKQDNQRDxOxGUAAv=tsx)n(_Zu)aX>Gwj{wyBSB?Bc97cF<GP7RNr!SQfc?Oga}=
zLm#UiolwEa_j0G8q}J*lVy=p=8+X0Z+?e*3#n&{wN~)>SQR=UAZ~95X&+3r%JtKCq
zh0_DWm~OXXD0JFg(n?K+cXFzvuhgp~BTkk(59${P+@sSKr6WJn@z>199Y&Sl{{Tzc
zikdhguZ@P1ArU$3t!g6bvkkV>JO1Eusvx1Pi%=CBtD5G6a@Ergj%KN}X+P4a9~Y@j
zrU$$WjiT#A(NO5s8)MWo#!^dr7Zz<$Y28txQ_=`&;|-7tbKPaSqhHkOBypx`4Lmub
z$tNow5u?~OJv&OGqjZq!amLGBUBe5-`o~by>T2B!D+J&i*x^zzPdsjZr>Rr`f0uq0
zZAEUC1fm*dmmcQVx}OKzWApV!t4Qi<T{<Ax<+ZzAT+#JcO=}Vgdir?F`#);TX*y1k
zs>NqST`3$ZtsA9AlTc=D8)Sh008q$Ocw1KxEY#_j)f9SHpiLD_k+R%0g`A#_k_v}Z
zf2lTp;7Mhs^?F98F-uVTnkl@qg+;9NCX-ip(RBlWIrlUvsmeabag4e$n$D-F*1z)f
zaDdC$y`7c!P3RD^owH3}Q5>fv17UR?A4cjLbBvmHp$$+Rf{Ud(yI<*4z{`vbrsvDp
zIPu*Hs_L~`VJxSbN$th*vzm^f)S98&wnjzZFs+SFomn$SsY=!l>Ix|;prD6qs~B7{
zW7!7WS9S!WFH~i8?Gf@{^IDmucVO%yeP}dy?vqiDsP@WDN}@`si~R!jl~(#XN#yjO
zOd8|i$VTM0JJ&|fN7nS6Mi31D0GD~^3Vlt`K^b&fv3qTMU1g!rH1<Qi(#apts!elD
zcw>zfOyqcLiAG#jm?O#bLDc<4RRpgQRk_0bimcOh4N9_R{{R|dFMd^1bZt(0-LGtx
zzb*^Z`WBvxOo6}Z6zp*$F0xeOyEhjiex0qZr-iHxe3;L*Z76B<EnSRetEbcn2lD~l
z2>nA!Fc;~y5XUI~SE1Y0t)w1}Y_Lav=NSn6jRoRJKd346?Jc3Ydjp}iLx&4Hq*Q4$
z*16S^MALjW;X|&~(Q6EIBCnR`yh}WKI%3~ao_U{s?`Z`OlauV#OGxxu?L($%DNEX5
zbFJ{P8kbdRf~Ra$vD*1_TVjIKItNj$sdFW$bUDF!HdfVNhFXOTUbCvHr;oq7#Vy}#
zE0t*n(bVY`)ZxsZVIzW72E6|ON@q4Ry@P{pQ=O#g^n+_^<7}g~)G~DpdV9SIsl?5<
z>f3d7#<oUER%WYYtCDZwLgx$S!Ch$@Zk1F3)TyP7=lPoA6U5)^GMO~U170}*Sv~aH
z-8j8mO${DGKOOBLMs?Y9K~GDg$?9oZgn$f|Nc<~^y8fM;V%2Eg_{X%!!*zwKtfq_;
zEw@{csOl?((|T~Yv^erc6laAueHV^ql^;Usy)DumT}UN~_uem?Cd>GF)A|!hds|`r
z#F742k#x41)Q&8cim0)i-YKkqWwVn^*6QiDR`nfQ4YJuq$L^6P`Wu$E7p&K4noqit
zU`X-ELDBvtww^%7%=~y9tiH9TQt7vJ`jaHTKI^LbXLRfG$xo~1=~OM#4=PrA{+IZQ
z%JLXx+kfg}D_4$fQUfhEr4(k|HN+L+x~{JU3#~@~08!roE}PVv)myz7-?sgY!Azi|
z{fo`BPp|5|L#EXldFuZFH4!!!%Fb%Enue=T+07{1Ya3$gOViYIR7@SJ)L?LMR-$@s
zIv5M%u4BVT8&w{47|}P0wt19&D;ps7o9f0#Ad7@vj~orE6tx;bt-d!kxeH4>9V5%3
z-1dAmKSZs49dLUn+}F3enxQ<iQEj5p#~)0*>F$h*u07FcEQfI7L1krM_<60<Qo3zD
zje+AJ2jN`lU1?g#16@YTjtDBZsQSNKmKO*kYg_*SYnP3a@)_@niPan_?$0;sX7#-k
zPl~1NdpJJeRyvDLu6<Xi>c2`uovs-D*5*iM>MFgJdYkDbzv(W){n69@97<yki&+mH
zt_S=tSH)?^ldC!Mr*-Jf#Ok_s12?>JcAJHBp-kx~X_B0|x9%>k^eT9|d-zpz$2Ge>
zpo9COb$+4H#3aE<3njPy-Y!>6=TRdV??$_)dXd^}4GpGioAt8QQ}x6%$FxT1-)_ze
z#xyRbg1P3FyGg2ua3x`|D$cf>PlyTWbqcHh087QK`z}=#cOtxRqe<6&N2y6kBO-J&
zG0i^N8W)bkO;J}=>2`WDIp4}L_F7#+v63{#YD38FdzDKh)iJ;LY;d;(@TnN3(hse$
z$ZItnIi;irf$_pGORcJ@luY_~+yU%vs4KPV+IV)=X`*I%Y09qCdY+8dhQTECjy#78
zgz3ne;Cj^!Wh@{~B^im}eyH9501CTN>&-%i?qwZtBd{YOX5_4^sel-&>E&&*L9ta6
zQ)ya@{W^)Jf~NM|*W4AS<73XMLVS)L2G@1(UsX!>Q_3o1{{Xe5kh8T=>)N#c0GZYs
z>gV)5wz9m_hN03`PMVS5pM};Z+jXha`i7HVr*wakXRm7(mRQ|Ecv!J%M`J9GUd%?H
z)7nK?+btjE-Z8nR%4(jPsG*F$jm?@b1OtU}sOeKV#nM9he)uE;v-*assZh96#OWUy
z?puNPRL75t(9)Im2^*<fA&#Pzf&T#Z;dJzS!F@A!k-}C%`S*#QZ6|vaVS=_8%b|(S
z+na%VE7XKeB@^nk$U$KBi#!xGQP$5WbKLl|l0w#LnyqAVpIMA>Kh)f#D<h_zzN^_8
zB!4LYrTLOwjqzV)&r5Xkt2E~NQ%6`x$PTd|2rXl$sdTBoG3nG&&JFKno}{a(p{xRm
zSzvK@w`;P!Crq2Dt2DNX!wpkNxNOY1{nIH*YkdL1N23#6tkqUh8akpSZ!yc=rBldU
z;&<G;z5A_hx24p_?*9Nv^hNGVau#-Yz4mi$=L@sNX?~|Kkr{Tx(d&OHIhnV)7AUPd
zP>KCxRBDH*LsuJE1HY7uXZKZe!|8%RBql;z?Jn$BZxr2}cS@1z6^@>tOPUB8964q9
z#|zIj*3C35nsa)MmXMD2C2y%@{KlHs+~feU-B7^|Xn<SV!F%_*PCv0!=^59!?+&%D
zE&}83u|4<+(lD{v;BoX(NJ|MnaEJwXvq1vNNH)6Lc^rk$v)a-H!3s?tn9r$48E)q8
z_YZ`~5_%!3ymoiW^iRWjxTfjJ>E>`7B;F5!WlgU1jcjz{N?_TVN4R$iwkp5<Kc+sO
zX1~>$uDdP3w{#q;%$1V$j=xPlryVsrOW=f(;y81bb6C}?Yno}^cE;WqI0#op*hFt_
z{W%8a-1bQ;ONekc!j-q!=}`J#bbCB0Umx(uLohx!0yss+_uAZon&=&an655Y7KVf2
zO8bWt$21Xs>uH&2WKunb?MFdX8~*^@$Iu|!%Zu4KH*1B;)%0sDgW$E;;C>1b?`6r{
znW@0&BaU7Jh0ttpdABIji`Y93Y@k@5)5={!yw>UBiZ&KR-fzi4Pq;<2V)#yg2C=!i
zSvK?(mt$yH*iP2A!C40zV#q=*$0_l=v?CC`mULB8)5sjsY&jj4zed!dt6*cC*1y8R
zdW4Gtq@}2mo?#;$Vw<pR^zFri0V66dZM3Rg3tfh#f+^i+@U5H!TnlY)g*G~%fZ==a
zRME&s4kE}Fyc~isocUTCYoT-+50a(DwzyUGE)KwMeu^VAe4DQP*@`zcyG{F$sT595
zfhGahX#(o5StX~Ow7a^$remB8j&4e>*J$_0y`$VR5w{j?OGI?_@3<GZM9Dkd5!%~d
zy3V>sMHR{VAf?n~d$xz0kCjz4(I<_jUevPU<-n8jnG;?IwDH+f#Z^7<Pt=5LHBwv`
zxErciv{(w6S&shzR4rVRIFej4n)yteSRv{G8NL4KFrmzO-C_akq;uNQ$pr%0TE|%V
zM7pM#@SjrPfr1Jtf#{A#I#&x5&vi}IdL+<C`Px|hz+LSf(a+Q!6qaj?oAMV;t4%b1
zo3PR>l1egEGPLZ?Qa$w^jEp-a2E%p-(3O27nKU7?#pzVAdx8F7tEK+{qm;|ANej=t
zzw(Wmsj||?=}abQ{UO57XT|%jNm?%+iY;Cv6TL<f2*_8u6ymo}X%8)tyts0J)vY}@
zwldd&k>wAd7t_ghleOH1&yjLPVCdAs?Lm$9M%t#1#{?&ufd2q&u(~&Q4jd$-sgel<
zj5y_KX|+8!P>4ZYOBr>n90iG7PF#H*YCMeV9_BXjIDmOw>qvYMt#utA@~kx!jxLCw
z)6I}Zlt|mOjmnXdYSA{D&?uRp*pQ!xxH*n2aPVxIBV~;2mMz1vvS!$whP<)f3d|nE
znW$F8-L8<mpZ8@zXR36btW&**{?mlkvY=s&Y@^32GUu?|w8!LjQ{f+>?fr#{%DflJ
zyr#OT?mqSx-<2FPZUopn=vO(}z##<)kIqPJkV7rWir4Um8gm@;X<X6Z@KnNZ*M6d;
z5=S5c;FRL+gS$*?M&^<T{$@ExG!wanu9MVn{oJFYGBAOBDP(MpyRUGvv}aUdwY>^i
zTIV&kKSh*&i&Dps=8<me)vAFpmgnfHXN%lRoBfgHKuXNshfP-l!E;Gs+Ue3lV*rxU
zJgVqtjfTaR3DQ)>w3gfKqdD2p2v=pRgibhq!g%nYe034J?EWKswPrO9UGX@8P82j<
zPWYt<b*=K23S&-C>6<EQxfpi2zgw#sN|rS4a0GX{&B3qI)Y!jhBxM@eqIlgK`OTH~
z(ahC5N1$j`8f8mFTbd8f6~x^=9E>tk5KX%U<MY&1K<`oqIj7+rqkbalT2!JMu;(xy
zO6AFlS7%N<k*a3WxK-)$ktA;b9$G!9S@l|1MtykN@0N_KEg!D5U0xu{k4!j>-4Ruy
zXu6Ox(>OK9!A1=(!8~`knEI(;mBht+e4u9Mi;wWMwVf?l2qvA)mA!(es-mcX5i}2B
z9}A^4{haPHUVwy*E!iUjoAb(SkV05r6oIzvQcl*3SmiLahc>ZBnil@frLB?|Z9H+x
zxPq=J+5t8yjnwXVC7C`H4Kl*}5Ji#Eouf|aOlJ5YI84WjclcFQvlm7KjnS|IcmxHQ
z5I}Jsq^F4my~4>OZ+8T*VFUn`p~r#<+k2#QU29(HBWnS(zjY?e+&KI!1VicE+Q;Q^
zU}?3k6uTXJq;rM=3s_J)*e`K#QUFbq#9x~Q8=GV0V=<=S{3ilFL0m6;9Io4vv8>`d
zr!nETYnz13g!XN5K6%RCj68tsjD<5>ax8yz#xgzy!BPl_H@W~v7zZwGijD1Qx3m>7
zbd5G}y5|O*t!yAph!J($E-)0*was<LLP+c#auXvEv5)O^;7$F*_eHiK?2CO<C5y9%
z-2rTY#xr~1rnYGsEpYbt311!v0_luv<F&K(2(+3tv_$x+q$bijCwM$6`QRk`h;_S;
z>dt6kocoT$^i{R=6;WN#yyK4rN#m`e(aGtJqlMnB*)fccJS$ILrYQE!7?b|ystS6^
znJ1-J1Fe75(68tjE7&BZm9h`%cPS~4aTwAG+|ji7?4YPHhkqP26Wv(3!Ke7}Iy3!{
zl~BP@!?D)BY*gI0vWsfa9Yk@pyW8(=v2IX?7EB3^-r?Btx^XQr+HY>(DO(er9`=i;
zS`~{;QBw=;mjUG-Dk7NLKx22$bxiuXB9m*tExrjxHb%(NyW9#b3(L^8+gRZ6@aB{d
zd{SHs45{a$bN$f2>`-!3xEnkW;oKt>8*F={x!oJB@R}S!KC5%&CORph8{2mRnkpPy
zX&Z~Cpk0q72VJJ=!Pmjcgl*-eKOaS!FBUx7=NL|8(?o9*iiEnyISInV0u7JKS{c(t
zggTHUHg=0EP{?G8>>z?TSy>xnax8zbR{A+`k06hbZV;+gN>=nwB{*xY57?-sV?<|g
z$yQE{#lGflZ<e5|A$W|rr*Q5&g_M&HJu<zmZOCqI*(exH$aT&W!|p8Mf0QWigtRy~
zw*+J5I>6k6l%gj&h0GTUCt&h!J0a|MB)T7K;DsEKXY7=`oDpx7?b}7jxGPf!B*7mM
zzA&823?6%;EXNFBp2aco`N3MnXlU>fW4TTvXh=aK+@d2*4FCh=Te46|$00Pc!Ldny
z>I5tb97T=6NFGNkzPU{#aIh_ocGq&4>$GHCd0cqTQeTT-=&_nQ_Z_}MXmJ+_#CZva
z{^E)QL$hm-?42B-8$a9>KPfkhoxu?<f_*UWbVql`bs4_|Cbr`-yXvKExZ5DTyW1#G
zQ?f0h_$dh_XO%PA8=JX@_vJF&i(LWeVf&{xVk{kX!o*|llHHC<%D~X=(Y?M3iSd@5
z!`$BqBm`u3Q3n>A6Jnhbnh%fCdvJ1|8d`8kK(Oz2Fh}zaQ6cj(#oxqlp6IF|)pSp>
z;N&@{oQo#DN3;;(y{g8GP=Z!^RS}6B^MVr9P(w3IsN@IB9C8t9dJJFLOj;e7&Af#f
zyH9rg6tmOG43>Kw7Z)A2k(VAvC|g~Wq}7QO&Tbw9$8+2wp>$L5L&tD%;Ds=UW-<@e
zBQC>d4meuGmOrA!l+Pm2&2T@F{g(qXNo%gt;rtXEWq3P-w^<nlb6sZ6z~=m+vOH*#
zJwke8w1>2OaE_<dDJq7^hR1nBx6ylV6PV%Mg$q$lPUCpVjs3@DRKCQN11mJ>r*U*-
z9~M-#lyXy(zaxzIQ#PWimHBS=d=z1;imolM0N8MQCqmOj7;JX4To`;F6K7})0%*gV
z<O_u@Z5^L@je+3`$tHx^<==i5rP-{B)Xj5)sigGJf^d+@Q3fVqHtqs7u|X>cE!a<X
zrkG@mTK=mRv8|#QYGZh~Hosz=U*5@&f*CT_hWvn`k}0AjwbvbiLdH#mvHt9%7|`Gg
zPE}lTALkZEK;kkD)9B7jHH-vV%>^~kxu)?*fBH&wJiwbcB7|*_drp2)B;*R$IAQIv
z_zEeuxY@jttUWVp6LInobHc*ww&KMrDH0%D&U583+1v|VIES>I*&UQX+>0cVI`Ohd
z-uTVID4445-LJ==lo&X@*I=p9R;;l;l#RG>I6_oIVQ`_lqZeuZ>3=fr90~dq1y+a%
z%1-z2pCg*{ad4fqTH}rr2KGcRYYZj11DmDWWS#sh7eWr#Trqt7r&_})wi#Fyb(~HQ
z-63%aZg&C_lGh9qa<T*HZhM<|PY!c!$xPZtMp9kE_)XY^;&EWt70>q)LHi-dzDn;<
zwA&?MA?^m_3zrE;#gqM>Pwb7*Poo}M;BRyEQJBdY_Jr7*AvX+h@T7PD0K9k}8r+q3
zd4yICHUyLKrjDJ@Zs`bU2^i*sj0Ms>$&KM)oarKrY=~dwC#VQE$w<c2w=Oq7*)q3N
z)2JdZsg;aq@<q^-j8(H!lhD7#bGY`Ul33~EGD|C1-sF{q>Tkqac!QzSV=p{zD*>tX
z2BoOH`t?!<pXCP$Ik_*@4aHv1PuDu{Nue)}oSK<OW}GZ0wbojmqUV1Q!xv_>th=9o
z(%yL_<fp|=G{)BZ1(Z2|Et$ILS?6@_+~*fKqNpfaINal(3VIzPLt<~0q0;CgfQvVF
zGEZb(MQF)3Rnc^;^>PBwYkQKt6Qi`MZ4%O!GFb-~;Z?^{Add03+y^~^gZ)=il29Xp
zM=)~hBw3`Mkk1<SdNp@dYI8^EvFwR}Ti6vytc=K9_ZPhKN~xr*E{rwtI2&ZyGFrNA
z`!3>s2MF_a4k;r@%BH!NZHLK2PhU+7t++Yf0&bWz$3#7Mz0T~$i``E88h1N;U}R0~
zJCxtE_6-&F8noO~(~|E!k#r`eMsKJAzX49j<BJW6r{>AU+sGEMPL+EVk}=G0YpFeF
z+uGtj>L3`_<ma$WV0+D)({F{I!9=7N8@=TH*9JZQ)_&@EXyn~_Fxy`$XFai9tOM$Y
zLF^T@uLs;wFfozjex(VK&pz9al{GYX%bWo6w%LbB8sqObDXot0_KbY4sFDa9z3;Fc
z%FA^ZS<z6$=C(_?aMp5_$w#oH*`utgZ95C3k)qy8$!h&+O-ka{xINk9E6=)zs_XSB
z4V+sa0k>388S16my6!$oUCX@<X&OGD>T1nF<QX<H_zf#O`CR;mT;C|i=yf76{luGH
z6{Ki2H4X*M_MYW5BE14luF9yQnpXz3q>^obue6SsnxWzITn`Ihpy&}(fJ{No?nqi#
zsN#%as>viy*`3pL8ftbAXbSS0k}%r=bZcpw{Wnqw!#F{()e#7`j94F{k}~Gxr?U?i
z7ai2Ed;nNjlo&`_Hyo7bU}D!&G&gO*vKD7NI~*Zf4U%j;;WWE$0ZsL!Ewz_387l(E
zkoR()&=@m<kWJf!_AttLuvo)OuaTdknw|plcMAmJ6fuBLxP*?G$Mg&>VeBl_M*t0t
zyNK?imZi@GlrBlS;K?5)%dFoE7?G}X&9jv0Oe|q^ju!}RLs6%ofVxQ<E%LnMt2)fe
zT?HGhn_LwsOLT`z+clc+RM2Uxb6W7}0N`bLuTk|?UZEkg%UOO0bwyQIEb<pU#m+s-
z7&2KMX16|8P;am~S48qo>2G`GOGiUBT!D-SKMKb~&?+ik9OnB^do9k9qOzHz_+sO_
zs)cqX*<I5;2`s^~%t7yEsb-NK2@!z6d<>%LWu6%QHaIjT4JF&2>z|Z)J2fH~QxM;3
zo|XwO?sdM1hB=Ps3R3noVP_*GaE8splumnM1i9EBDV0^w!4WQa0?QTDJxbBJtRN4s
zDsDq0U2C071sg~Y7wi@XS?U_v`3oSq1gZ4OQ>{+vC)^v&$yYIH6cIQwCY$#?mQnX3
zHvJho4K`V1^=duND@Ui$)bDFzU=8_J%%Y{IU?2}EVwy=M+XGI)+yzDSh4c|mOk-&E
z9raI>P@<x@sViDX%8-bg7x8zr_a$em=yb}uupc|@PC|YxPDZCq)v4>T6^nfNMO4cS
zG3Hh?>B?_UXnH&}po*5qk0>2^{XIu6*H$&}z8iazs-TkDH#g|5)r|E7npmcojDdV5
z(W@%xTf0z&@qxg13rnEMO6Y@__}Jehqw6{<r(JM)n$R5kN>v$m5tCo`W-nBdn^kW2
zy|F~oe3TxUS5H%3D58)$A%{6@b-sz|y*7}F%EP!fBYl=vNRLCJ+~{OzAdnA`gPTsQ
z9BjX;r0LB%mwe8M8(%qD+P<gJsmJ{jEbi9Arq@{}yId(L96)il<HEVoe+TNOfwI3-
z4kxfvb8VDR`Uifgt7~-TDl=xBT~<TTI?Jau64i!+ZbH`0qs!9K*v`|p`>M%$)+dt_
zoJQVr$~@x#0I+a(vJs`hrNB(_3Eyt{RSlA^uCy`;JvR8VU2CgjF_u9YaX-55jHuLV
z^${$wJJLQvUQSMs?g}fi$iY!Z4*A*$9e_ejtLb|!H3MAX+_i7&D)c&POV*Yb0mbsN
zx~EZSBssCrwoeCYHu|vXEtuMlr=X*k{+5t6$HP{uqv|Ht9t)xtSlxeE(_JBRbkGm~
z08Np-CDqc=$RnqwEND03C%u`pdfjhLOEnl0R2W-t<ThB1SElq@If1Fv3*CR_kv~=H
z{bsfgLY60&yjWRRY2SvOU(^$RW_cYGU7Yfac{T}gNV?LrT`H-BQ5KtjF+pm5Fk+|$
zvpM(d-pfIzbY`Q|O>gFEOWWL8Tn?boDIzSM2D)2vLaUOJrpdUt`ZAQ=KTgQQ<lld)
z(CE4zj^Vm<&l{C>Mzrest+aH5)4w+CiG6h~Bt`Q>C~)G!={Wr}U-Vd3(@|1_X<ufA
zQ72N;#V6&>GiP|>&AD0af2iu}NrH-<;jYE(r0ED}q@VLOly8y8j9n|Z`zWeLj%tlo
zvJ2Ab4r6W0n`ND-pH-rs(loKe@K>bM>-BO_?4_b>MZ5P{&2hTDRdAM~h0SO<#n4h$
zpt!o&EE>k5&>ZPwj9b4d$_G|z(R(UdPs*>Y6fS@X>5m?5l~Ekh$0=nC<b)moJSUXv
zqG|@7N%f5&?sTxo-wiogo~r9zQ_*x0LPMM^2p3Y?ziD+$-l8i?(MF+C(=<TF4=ZDG
zdP7brEuLc^{-~*~6)Y0A&fGG+lb~z*j=GFRQL6f3qSn4tn$DG^P*E1LtVJcT0m^4d
zX%MzEQTgng+jWq5)ZH0Bjal7Q(z8{`{C!Nnan3LO)&BrRbU#i-0QDNl=RAi1NkM9r
z)U?elbgd+R+_O#VnDos_uZi2Xp2Y=^<LECZ$o6k~i>94G;XNjt#>Cu`)_{f6x~iH0
zVPzS7gBA_Cq1FEY73*v09Zv-`&n_1BwPtjUds?J(rvCs+e785bYDFhurAGe%P}Fs;
zNu`vuEs2NuoDekqD>RadirVHhjFy4|&d1jJ<!wjhe=I5Q-qu!C5X&_;sWoJ-aTl{)
zWkn0x7VEOpSE-@XY5g|TM(2THWCn}=w^;J}X^z5h4`q#(k&e^@<eFCi?i}t`_d?Yj
z1uJ5rh0bsm77IZ;+cdg5yGyQQt*EY&H*GhyfL1Z}evv^<`FU8~*0wyV?Lvd7H4D7N
zTEm>IF1exVP*v_NVa{^4M<m0JNZ&<IpmhN=PU6r{n=0*IlS<HK4y2G4_$5W5^p>$%
zK-no|5x9;TRTjI^{X-2&6|)z|d>fS+Mp7wtwjZeVS5He%=}$-Nzm1?>JMj8RS*gBw
zbm`)!al1y$a;m5(DYV&}B}-W*%;jt;zY_FqK9kWAFgOc-kcTgiY}L<3-%-}Img(Cn
z8$4#+g|fW*T~;sk6Ezgl$N{)nexmD&tzxLhO3z9%d9u9e4LYKt5jOUFx%f?rQpoM0
zWfdNa^Z1Xe)3@^GnC;_pf)Z|{*ClD1o+#bBHbZq6PSnW}l1jae1NlOx(;}{S@F=U9
zBb$p9-vvt87DrTRbcfe!lY^;Iwao6@t$Se5=qWcdP4u5{<tq_SN!73miJ)NeP<p#M
znam<>LMFGq)XpJ{>$63vRW`SCX@O^jlh!n+I#2q#ne2NsqxveYmWsFyTTqTb4+PnI
z<u<R;Qc-R!hF4pH0YWQXi#fLLk1FYIn1R`*n96Pc0Jv4gsnVLOpdq3t$D63ShJ
z8OyY)7e;#);4Hhk_fwE;mF2AQbsV1})JkLE`ykZ1cBYa->bi&}XCx!EYVMV#+R3P?
z#G{f&bm;Y67f^!LKBMG!IaE5Y`g|1yvFV%H$a96$;aL{s#mM0Fk)YLe-6{z;>FtfK
z?X(3ZmDKu;bY>9?i+H(N?Ih^WkUnZA#qtWeo2c|HIt{QmIp5M3Odqz$%Do}ln>85P
zWQr<%-}g5wH(dUrt0k=2AO8SN?6rDFRA?1{{#fn5{Y5vZ`oE{Bp+AxlxxixCQOzak
zmBhZ$sr)PHx~EddEp?pYE=YD2r{WHqr_s^ALh%#8!Con({w-^ib-tAtXQg}#E1h4f
zwN9mgHmJ3r^R-E-OVt#NlGT;;{{Z@nP^t9kE98=#y8t_~(@^v?Uco&70GM>vySE%&
zP-!uW2=~V%%y7-da*La*wU|JOlKPF~BE?<_B}|OlZpQTm4y#YP7-21pU_DXj`W&XP
zOI2Ftf^w~;*DK}(zN2mX9?F)dsC8D(B8`yB+uJS5E)}q;-kInS=rmJN5Zz)s?ZA6h
zCs%=*O<Df{sS>vQu;E_x?wM1o$LdS`Gu?v-ty`rip^oyGhj+?Z!qu8Gr%cPku15J7
z*kg0;$Sl3qvq76r)SlQXA(982dzpn#qflt@*8cz!VF?EpE7H1q{SG@9)kQCh*r{Zf
z2st5@w@hs(;l`U--&xbSt#@_{D?K;xv!uO2`HF{5@931Rc8ya=VFI0?kL;{o$~XI@
zrf%;xUnM`uc{0gLT0IzIhaQT`9*61L82<q2XdpizAhn%3I3g{lrHQuU?OGV7+3kg-
z52|yc^@s6Ud-+%SrTmlFRBK0=%=*U4S~R%ae6iM9{d-E*E24Ogj-{aXWA44EX_OnT
zVgRSVPNM_a2x;;Pq<<%tFLeI^^enK&{hu<@^xmOQQ}3mjuLnM?X2ktgft3!ThyMV^
z8WkkbH<Pe0a(ydoK()W_7gU<QpFuku%DPxy%VdiM)Bgb7L;lLY(Kz_7^v@Hk>b{YR
za`-f(M?aXb3HmDCW2~!csb3U2d7ct5=QAtPD|$bsnNn(L>8Z`RY=a-Vf^num(;xbL
zF*FQ0js>f)2jtY3>f0le#doxP=~~TZy0y%vp_p9oT5K1peiHPqq{f*mqKLKM%I1eF
z8mBrc;ZsE=IBQN@U@nfQ>v}qHW2&KWBbP?H{{YD4=vd-Qvrnt&x_vD-sZA6xJPer5
z)B7wfcA->cbV2TLX~8+Vxzlxh2dU&Res-dn*R`Hi(|S}=$GRH2S>hZQjQ;CI?$}%O
zk20&@Pz-O=MECEtXZ0NmSKq#qLUSYTM}_N?xs-AeB&1;;9ffzH2(>2cex(El$jDuA
zo;j+snsJ<6o-L&G(42!a*%ZIiCKis9rQ?mkuBna}c6JC`ezNI0m}y^86<r-uEpSE(
z^X)1c%GpeQplD&?=HX6%uUj4;vA5~YoYRX08kJ-+xB8g-5VXJk%d}d`aP2!?bWS`q
z<Txyy9SsdELQ1+(E;3?%RI~L?hd@M8x~d|3I1&_F-itM@mo;4pujv4KQqxt!-t56c
zI*NA-O9*R+HyJ}yYo@C-y1el;jyGXeYduk@Xzg^4t*5JRaPC%|GEIL#jG&l&q9zAM
z`Gj5xSxs)csC4-Zv?iNSfFII)AS=4k9cnj1X@qi|0>@zkM?+N^^+icH&$afq*&^{8
z-(Y@1=+WtQIyScpf7EDA9Osh9aDEk$pmv@^s5K`|8R3#T<SK0~)RMHq^4VwO7$G`s
zI6&?4)K<lu4VNFfq;SQ56lan9E$SmWgLX{8CHpyLYr0ado~!e4%wuRb^zXPWMw6$$
zsg|YI7}-CROJGW*>dhOiXqsvOmZAWETp1~(=D$}!N)KwwO#@fc;b@0aGC<%g4%`%)
z?R*Ud^m?QlJ2k_Vo6&0Z8nNlmC@vqVwJ}(ay6tmGtdJK+O&Ra(BFSNjP4pQ}E|_+i
zt7-CB*HVH{{^Lgos;xqepqfXu?f#S5Wc2+;vWh`ZG;!@8%I4i(HmQ{$56V-4+_6<b
zCq&%aR+$ZEu`RZ?mN&P(!aG3IbS-h9)l#-8yZU0vpIF-i38w+4!7D8`rKo!Lr)<rW
z%MWy9zKt1IXQ}GF52n+>>Qh(C2qTAZu-cU@x^-Q>l}zmBp2_+qxz;VS9ai^8{W3Rq
z`C4dZlBOHhY1D3#*>hT2Pwb)lLE9<%$!G&Y)U@eZ8ec3g9gDD^smUD_hO(Ze?2w*9
zuGC?n4?dkd&^yd-zxF9;^xBH12DZC<f2KiV6a0zxDu&D5JFF|}A{6xvY|-(!w&iq?
z$1{wS)t-qtEqiVd)crB4(mAy>hAC~!LNaJ8s@PdQ4#@!iQ){Gbbs9xJr&!8&mdMIk
z9p!^+5`$7cxNI`M662dY3VHOfCoHRmSnu7<$L^U`rqWWwy^jR{0NPbzt#(c5(Z5cu
ztfc-Nw9{OEqR<`tq=!TefX7<{nEQUVxnSR~R_TvEm#ws%V66vE>s4Blf9fWbT=~M)
z819X7mV?hu#T`_0(rON5jdjPUE-tq88jin510PeSGOiYn_aHg@g;PyM8>zRpKuI0&
zq@~oPqG64d1QGnV!ezz(06=a_p`At56IZ-b(^Ja`?|xMkb7%B{nmy!L{+y!qZAM94
zWpyxf$MX(P?1iP)80Kwt+Tr}J$VnLda^!<KxyG12p-#rJlC<5A7e571)v@iE>;$yt
z%Uh?hnv}H^&af|T=6n^Ou8H*Z4vs)t_7&^GN=nZ*QR3*?^hpxvzKo;zt;;U4y;V}$
zjef6VfeZ|3J`J)KpQYz*O(Am*$FSzhH`JO`v>LRPFMjB24&rTq<Qx60G2BXLi`<ji
z$0{j><GrvusicBP<n;C)R-dHwNcB2-;;M|W5r=mNu?gPHv}JVhEVha$%gyiyC13P?
zJh1f}1w}j9JBKwLL7~T@YT(t?#v>OjCl?C$RM)h~DK|6InnsJXGbi^$l_OQ?O@CgF
zjj}*o1f*Sr@Vv@nC1$B3=5aowTt)o&MAXkEOz)aPNhFbe!s;14lEo;uwb#O4KErjS
zRaO`O0H@ug?upnR329{xYf1esMApU`Q6z5R{12+E(mmB5m47UCiWRyyMWD!0InH6i
zyRFbGXy9#2B6Rex;zkRW{X(doGkj!lv(}hb*ycI144jqBuywMNPot@<t7R=TFP3MU
zHLV#bwalv1tDi|*365CJi(SY{F(?)UDCNQBcc{mW+qgv2QOi~dr-{;$&d{q8e#te_
zEk>I~=`^{|_J9<+4@}k6J<XklAl#d+1uQ?5(r7212M0n)a4kV~A6I&<eH{}(BzvAP
zP@IxsigZxwum)9_A{S(4*YZ>Wq<A(`(a-G+p6&<vk0DJgH@R+G=gOLYW3}`OP0tAl
z1G004iSVO5{HGR&UfJ%P$NBD}2FEEkX3GTyGDkJR(YUq4y3}Z$LHst;)*Ornd07@X
zf(np3!O9n5Jq7hqhKI&*e4#2UbM1Y~$x`Yv!)6y3H^M$TktRp%7D&yS7$$G0zDMNt
zMA63S<lHP84|PElo2)N&pwgrbU~RIUIstbRY``o$VGpT6dO|@(!y`6j4_@~=2a96K
zWb|mQn4Lm4`ZEDyM|GBg$MbHxtS+zhdVv&kT#ib_!(3#kesD^hC9$TR8(L>X<^W2V
zQ?UDk)_RI(SP)ML@jJ_Hy4YQcS~=WZhf47u4+J4(sC&-PMUb^J?O`r*2A->Q#isxy
za`ZAqjEx{<gY;3l#kR70UmNXWK8k4C*Bse017vhD!Rn3e4sG~W)9KW2gVcxGdw{Fm
z3}YeXr4Kop<+0Qg^hG*A>>E&w7Z}=i4hU7y>Gfium|WLJd25Y`N0{ah58ZO7kUF9p
zIe<8SGgM^+$4-FTK~)iSQohgZ$A7_4)1OX#u4!Sv2g)jrt>MOtP;o42{v5y3e!dZP
zF;mn=Sy>(B0`bh#&xOw8qS28x8;haamCp}p+{2KEqMXA_L!4v{#(4;;YM5qi$=X+*
z+T~2_Nu_8mhgYqHZIR{d{*o??mr$mew+z_-030fLf2o$`6Q@>fkP4bnG)D!^86Rai
zMxKXHkXe=Qh>gHq4e3VX?r>@OR<(K*RZ)ItPo3;(&6O2(H1zUpn49^sc)KMiG|61)
zX`gmo!?lW+^X+>rG$G&R4@&tX_PwOG)&&{)SY;c;miQ^C7C_fiJ@<*uW52SQ!NHd-
z-ao0TXz6KOHr#ITyYiD$yL3+b6ND%h%IPWHAT4dp{{V1<eHC0z+yS?hqKWYtKZ-Ux
z&9IDYY<q41H|~ufsWUZCB<>-uB!G>)jW=tt;G*iGg^s(xVeCR+X>LdkVh*TfwnF(s
zo9~PR<pEg8T+?hT8iz%+5bJqVdW4n^BG&SuDV;ds?5?X|VKz8GOH#lsbd}Yl5-fs<
z3W+Q*Y?~Zg>|B#eNS0XJQHKCR75Y3y+nDdNvx1gR18}S<=?MKo>!E1oZpunMAd(Ai
zGOsA8rikIj%Fc?FfP>G%(o;~-)WXomhD+QMgLEo0@Iqca;1tT8HlAQxG(g|TSCx8X
z)Zn-SZ-g(ZZ?WS409CAQnQE?_jgH?*E8%y-o`R>SbkqDghe`(km8C6>;@fY334)!2
zEp~hqvQd|4c)2czX+3kQ!b57QB)5AEEe$tXY1IR5WF@!fb5#s3F`s7B{{U--6~>-4
z`miIbqJ()MC`%fS(RgHUOgDc{*AiIfG?f&cGetPvO;7+lX6Y(=Q%R_4bqwa6{Mb7S
zJ*a6tO{9}0B>uc(HU&*&ciBe>y|T`3pR1%K#ywX2BB*rDI<3u$sxsLRlVz2IuJsy6
zdU}K|jPaCYJz+~!;NxQNBLy>*g^XZq<><I!i`0bf7RGL>Ds;K&9Cm_7a8=Jw^;Im8
z2#r9$79|_1#%k%EH8ibpwgM5!B+V>QYer44wc7Dwo>~rhR2r2|rB7N#OipZk1LYk<
zRwQUFetU(}9iy45VeW0kz{=(TtUy!0ID^PeWTEyB7AuTIy9)$TNxD-TTm{Nl#jto&
zHH~nyNWX*v2>7sjg%hK7!5kvw8+lRM&ba%nKm<2wy^X@=zbAF=@QWd@1P}pGzB1Fs
z<V-T)fwJUxTt)s0d`xSx`bt+tY~1{;WHF_};nyKc9L2mit^;WITEpcqZ6hMqKp_rs
zaJ}-J!`j@an`>Mfk156W2N(%VIonCWQ9aEGzM~7ff>d&n4tPv}OBpREYupL#boWT>
z07cXccL3Pix|7{&w1O|fBG93r5N<-^(3P^c4RdUMLXyCYSfgg50MXoj$?a%!Y{zlf
zsY?ebeKwx}pk@I*D@nOvztJ`a#}t4)rZ79V3fYl^+z_FvqHEiGEYMVm*&vcD64~4R
z)kS1<;zDBG8@qy-_@||la|v^PISI8gK33oLAEk<f*QRu1V6{<~u#1bKDe4~!_Pv&9
z@TD@Ay3e>u(%YNa!7WhkSJ~4?1ye@g)1SJEN>LP7jsE~^DBfBhb{(g}oA{-dz0W!B
zje(>=6w)!)H?o#VA(ZE`d~z|)0qnQRlB$)ZyW-EABH9X6G7%7N(BKb;cTAR=C$y5#
z#~;|HJ~Lt82wA0`Ct0U+Kcu3Q^lnSp6x6Pb*8q?3qq~6jBE>^qz&4h<xI8Fj4RcMf
zQ*YQ)A-LVjehBuv?4WyWPi4XUXDO&Q6%hju2<mynN85XNRj|F>+Tl&=1I5~YQb}mt
znhFZ|jhf@N-`JyPjv3=7z&hN6WtC&j502=FwF#re?iV|Q^gKHyuY|PNWDfR1w2N8T
zQaX1^4|Fqb9iCIh{hcY6G|~n~U`3PN9CI9UtC;<+9g#592D=&gT8&~&O!kvubq4ET
zoGk<_hN=#7RYg@B<B{GxqNV89V8CB3HcOF*B>}DdO;Z?KBQFbqKhxb8MsjF^<G4?a
zjd``~dnP%Liu;AF**5%?8W~8MNFN{TZaXNP&f_-hQ<+sGEDycC!BR3vWp*srcs<aj
zfz5j$*e`2YM)<%OMmzzD8FAz&-pc@4?g*j3SI`@Q8Sa`0CdUZ3FcHD}s2st3qhd5S
zaTqpDFCKDIxwk2V5%%njAs&t*_u4^Gp9l6S;^P)vN#hRsqAL-dvtoWzx0~c$F{}ie
zUgNP&7Z^DDgut=*BIEW=y^oZD<tTBrj|mzbF~Emlizb&5z`|Q@2Hd9E!vy`1K@rXy
zampRrk9(=#wawzzQ2v`-+dQUBoVq$7N4OH#1I@6Dj-(T50cp2AikcV%(G9uqP}4yq
zZud0!x}sKb$+W`+O?cic4`X!4`t3M-vD_OW;V+N$8+jd(ESMkHVSm{pO>|m2TPKH6
zcF`SEJ!W|zTqae=O}Bk4hTqaq^X=Vs<LH~&ZdQsY(7}$x6Wu@5Bw4@_=elKyHzvsr
zGh|atJVcb1y6r2QHU9ut?xbVe{{XtrxJc???{r4tYZ1cx5wCL{xvn8g`P+ckkVlj)
zoZJvwWXH6Va*rz}@s?54yM~bV_$lxFw3Z-xZdHvW9(MRriJU)Jy4Af3@shkgH*>ss
zDN7@p7qR4o*2>pdZnxb_9|IR33ARgx40RQT<{KW_!BLjX-`30da7DG&KG$2}7fk3J
z@FW{td-hXyI!oC~=*briz5FOPkn?;kQJ{)IT*ia)5H*@vAeQ9(A<aI_@wL%NS}c9H
z`zJ%`iwpvirkbJxY#sMdZzjR*+DCAhoduok%W|iJpn?gy3A2{iIAh8t86$t{u?r^A
zs>?WMYuaw$LWWUtNIaq65&coTeFA{hJ~wT9Ngh)vqa{q5Yk|TTkb79EJ$T*?oG;-*
zNG|e=*=SE>gE&dB_zAm+Jlp&!8teY9J0;>@o`xHNd#1kL6r^8*q9FJBAkn!DEjPHx
zU3UY5oofqSa#5DW4(vieFZxgJlJ+33`Qc+b9M+q0bgp103z;LDb7B;xSf1RQSqEmY
zXEflZUz6jqnZVxnzA&0v9h+GZTO$qt@VK}Ugy%=|U=({u8OkUFut&&Ex0S$~C2_lX
zL{YA8Ep*$v%5lN+yFLOb41FavQ{_4Kx3fkRTZd%FMk8r+$u{Jk0;AS?vrE#$nqJu?
z{+64SSxH3ml5D&?oNNjD1Qw^M(dp5j%+$ux1<1ZvnrokkT8%(-R722V#m6frSE$s~
z66vOMoO!vrn{$0=YKq%8`u_l5Ii=C*%pd({m4noEO3LYswNts|_9qAdEx{y`RP;2p
z6|W73Cpe!0G;#j`><&nX$mbh0A}FaQsCaB*<gGT7(elVz`j-~}0NUPu>tCew{1nXr
zkl6VnDylzXaxz*!NXtIgO6{QY@V2^lP3iQIe-1MDe^KtPX=s}pK`i?t+ansl1336b
z^+*-7D<+9kQ6-~mVvHWm$wbri;RJfFB>w<N3q)UYkz_<SIU@lrBr|{6Sw*8n#@+C@
z90I12mOec;W3UR$O&eNV{s#lf3R;shtk#B)j>rKpGfL8bN{UTB2OGJd1!oJQZcW^s
zDTshvN6>Pywhc)HFn}XqZ_SkDz~FM2c7eIV!~Ce5A(8u7EE6*zpul-4?S>!$bF37w
zQ%>drT3Qct-A*Ys-)k;>l(rgREvIRDH?Z<iG0hYL(6Bi7asL2>$)k96&HjNojCFu5
zLy%NXeQdG~qQm^C+S{LX$wWS!M9)%3w0GrEYaLBNrN-jtw{Y#rC^;qAc)vx{fMW}d
znmdxSy6;nI+G|efy+_*(1z~!NuIlUW9WnG`J@_SLC#afv3*6%3b8=E#rPhZ1QKr{A
zvcFMtwwFT}W`eSHbq|(8ONlq+rIuIR0*Ro~>Z@D~P)P5cspE|yT!2{=lQ=b?lYA?!
zFGi|kn<@5ya<sZ1OgcTXOA#l<mF-@g{2>D(b%@Rr$!kD^Mq(<5&p4!|jL7kaI@k+g
zqv?){G3sQL{S!=zk~>EgiOF&0Ts6%e+#w&;QVV?E#Eqgex56Mfjn8!vZtfFHTsxJm
znIeD8hVt8<!9-?r-Nk}Nvi|^8APpR%4#=h6TVQNZ&GtCv<rw{r76<N~9UM+*E_N0H
z95T7q!CfnjksrW|0l@fBJ;BE$EMXffTHM$rWS+CE(4eW0YfFh1?5gVeh7CX29gLqT
zWsyW^#?5Ump3pbQMZT(OSlzo>U<ZZfHGN@L_n&$CUkFEaZFTMH5%elgEBYIXJuafa
z+j#h~PKltiad7*U=M>#hJBalOD#jk6bKDpod;F}YC+IFIY~8cd8FQO&g_`Qlq=Qe4
zvLXxALb=YTE_}hb##R@q<n^9h)41Q1u1&hI#;VG_dtI!rllYQ5ZTP<mj0Zi~H%@b3
zB$gLBT5g-s1mrqa*`92z2+}6oY@?;5mS@;B-D|pkKxKrIi=PVii$sGSoLgEutIBFP
z;TCA);XTkAOoD=ikwybr09Gtx7~J7=Ikl6fj5vO!tO*g21F@AfaNK3cU@eeWKDCfE
zm$(2Hv8Xt}*0*tWf~D4VXegTImxAH)s<qyxYZzG@><4v?o~~_Ha@M`uNwvzIw&*%V
zjc%t=sMLB?`<`5E1@Nr2&V{L{YiesH$<EN9qUp5sFnWxTIzlmiQS|d`Qr(`gV?n{P
zDlI*1)|%KIWhm0xVra<55b%C=#1_Kf)85NTNvAQgdets6y!Uc$v#7;OOhi<r#@q&~
zRdyw&P)!|6f%RoAYPHfestrCJuC$IA7+J{QtZGxb)Dto;-rFnf3rvOzhRItQ4IJDj
z$1W^ME=x>@TGTaNXqdF!G_j<AxaQeW!_&H*4MS(tDgYPAUZp=&Xmm7YDtH(O8F32@
zCb2`QYe3B|_TKwX3r{3lt2ALn#+##8>QvsHBQDZ8xlvSfGbry-T+x1VR@#fIG(9Iv
z_Ur^VvF^OXt@_tf)$1Kkr$cD(&Q@=STQyk8JwvEA3Ns*M4`Q~I{YzV=>E4{vhP9&r
zEN@TMeohkVi+aw_D5|O&&0<!(y{&_ja*a90kiW(38(Gxduhe>bTv|^hPp5Q@4Uc?}
zHzMcVg=I%gNvAVwVG=lZ3eQZUtkyq-#+aCUwIncc)O#LTRJ$-eLt8_lNod1E#sLLb
zbe~Y_x}UNd$FZIB*=_3o01EncYs;!i=RD;5%7#vp&@@O(w6fsfJf?U(%vG0qGyO?J
zJk-S0R+n6ND;G!7?y0G>PV1gRwAHC~O3g&E^F6UN;`{}DNfmydL>~vGD}e4&@r4ZK
zCi(-W=o(m}6Hh7K&j?*suDeNv)Y@eurnWBDT{fRx)MwQ8Rz0i$+h{9kOQ|-VlI^68
zzz@_?WR|~F$AWkJ9wn$j)cU1abn(v(&vvaQi_#ja>6(8r70-8auR5cteOEd-SjPFV
zRQg?RwN)jlq;MYrO9n}|TuNkwYjQNbFVLD>s{{4P*#7{6aJO>)9&~dl1F6`?n_lf+
zX;RvncD7wYS7XDhh@sYBQqM-3zE)z^x}@gsp>f4gaaB#FXm!4{F9%`6NV?Ke{w4_N
z{{SyXN4daTb(SHzO-%3KEXHtqlB}rcBBCMh+R@w+gk>+V$uC8gr>pB4nJ#o&ufQV<
zKQBw_)zX<|k&v?dEq<F(4DGZJXC7B-amNfr)7OS$`AV+^R!O$Z{T7!`qc-wY2fx7~
zTfp~K$F<bWBeSf$`>8c5cU6{A%IV$?GNgy9HR?J*1t|j7zm!zswg(r{q1LIQqnq;$
zb0fE6IY#OIRirYEv(aSoG<FNmhM(2FS26UzK{&gt7OzG8GS{gh^(P=Y+4iO3DO>2)
zkzc6wCb>SO2Ac?iB5iLf-I}*hGLF;J8J%pAl-B8oO0I9`Tp9sdntf+Lj*JN&$2!V1
zqUf@1qt5GeuB6qZbwhSjve(*8l~i-p=~Z5pPT3#c*;_4dQ~cznEi-Wr#ycv?eHM7+
z{KW9@cR4Ac8}uZa`xb&|s@NYR3kS-Yvb4hv%37vGx~I`=3tn3h13i{kRFaw19-IKk
z?}c`hbct?TWbLD<)HOD?TBA8}!3Txtx-Uh%(TBdF;kN#(ELTlKB^->Ybu-1YmA9tq
z`K62Ua7Dex05vRHT49y{0O+Oa9-7nRYqwQNyZ->GWhity2Ul!k-6Mm$_g<MFM)elF
z?^wj>Sne*Mto$*q(%Nc2G}7^u6l9&SsYlTUlImS1kQpgrb3o*Ps<j@emacIQn@tU`
zW5S0~g10pDx$grW&J}b$IjEO<nt$+*H+nLQeIqGXVf99LM$<GAHRm@1$th_yhp_q#
z4{N{fL(faq4FV~>35Niw>0s&@GRT8Z!>*Dsl6xu1RiX;cn6I7QwM6C{asnqs)!Eb2
zS(1A09~VMukab;SJtoT5HQ48sebF5SRu8RRX&&s8*eh|ZtrBu_?3YyhO|7Y>H1zs?
zoO_XAu@9!|J#x6p?`v<sJTF+)`XWa_O(gNgK<?FutfJSnnTU=i&0~VY&)Fug_Sv|<
zMV^aI)Ead&NBV=AVT*+wcTv_uFQ=-=+1cIQ)n#s@)wMMKlW9u_0_v6?o7bvp#JY^Y
zMtS#L7ZmzNQj+#w)>L$^qRq@~&XoTED@jyS=ycKtNfwbYXgG74w%s*BrD-h^7^9WL
zox_xGQ1yj5rgRa|vOHK20&kBSTVPX?dPke-bd+*evX)wN14*^k-I_CW+Gk5gT5QpO
z)T(LqEilGpsfIVod+o6c9o5}SFqFkg=QbnQ6)B|^QDq}5{za~#s_PoOkEVvJXuYtT
zrS$f%Nbk&wvA>cxEbmQzVy>;5Covbhli7N;4?=2nbV6wLsE#jZ6jNMw_6{$WkwGrM
zs!|V5rcglh-BfCQc<4QnP_{wbi<P6P>1kk;!(3Z2AI#FE6xwwRTVJO#TYpq)af*}d
zq??N9rs=4o>PDHrArWovMXXk`hfLG-adKS)o&2&KEVSC`((448Y)z+WKIYpB_e}go
z(&}wZt?BKkX~A%6S$vq?#AtkZ7wy>2qSNcOI1l9_jI;j$&PL!?UXwtUCm+nzvv@ga
z8D5snJ3+38^Ey3DlutPfF82P&d1zp9wOe9)hY~d`{D%Jkk{&)fj^fO1JUVqGt#wV<
zJ7WqCq}FIDsN7(2CfLH&*VF0@h{s7v+UV{2He9bR>n%4}e2%`4TTgS^Beh!|O=yl-
zHug}()ca~nA0M=zD`V4inl`HDIzU=aYu@V#7e?yUQU@`lT=#93`=a_2U4hMzg5A0O
zR|`u03kcU{@{6IgH^2;3f>(F43cI4?JDUegK33bC6{yhab*&;G40Mhy?IA?h{v&FX
zZP`AZ0KNmGH&T?}L-9O=Qt6tyC+?3$lAgzcFq;#qDS-9pUl;=faJQP@R@Z7EZh+^@
za27LLtkui5wXN7yQ*9X}wk$e@Q^%!C0ejtmE}Y#PU#LE<PMbK7`q(dIXH068u>tvr
z;tw2=g135KQL)j8>1K$J>3&qDmvuwK7qbHGCu1@k=MUv@u~E_JKbW6%Y%O<_!rE(f
zQAq986yd-3Mu4Yek~F(ctZQ65J*!2@{{S$_MSl<<%j)_pezawe1HrZxCb8Ca6F~ZB
zM(yNV%DC03_4%SAsz`%48(qrJKBG$0?kd|Gr1=Tlqv%x$Kjoke52pH?s46$oKpet<
znbuyD(;tM|ymB&XjZO6K87y}T6Q%W}R8=;mbE5#<Ihb1k_@P{A_Wpl(1BbUN8I<O#
zIs{US-p^Xl^r`fkVH~nDKnLn+Ru8Fp!+7~$G-|(zddyWt@YXyuo&$=Wi?8de*|JLc
zV{u<OoACZjrrK!l$K>KmXVX;jFgJ6a(f3i*>w0Z1#PxBq-dw(0)~b4%XpFR7Nl-8R
zmna$@fc!@4Sp89|Nha)#(wwfZAMttp&}ZagUuV-b-EGs9;F&czMZfO~j;rx&q$#c)
zszz<$*IzhwAK_15XzleYXyvGm*WSqqS&D9*)hcB$vLM+T%U<ghT%U{O{H0&$Rh=cI
zeI2j<I`rgBb17;aBfD5HG3p=1%}-aG(xG$Wh@86lSkM0eXMITKdZLqaeh5*+)7p&{
zK#r!F@t^yGrVqvV@qe?w_D*^7Ri#Gmi(J$ysr}l!-0tlv89I|zf^h_G6SwyTSoC*J
z>C-W+)M($4`q=W)ud2FFOr{1(I*ARxmO>BrUaUM^QD3S!o@qYWnDytYaD7D!;U~Kr
zYp$5hPRqv|-rh~ZvD6IEL$((=u5Sczg6Zo0R-&!YR6V;%!E;l*afr(!WntG#Y8pQ&
zu!E8tV!aQfI+ljA56jiL>?B(%wxgt<Uf)&KOojcfz(NdY6<TxeB#_F%!=pC-$U<;~
z1mig%zP-_56z{Cl=e@E(e=8TH>(WxVFv{k*f84z<MAEu@QH(`jSyN8(KT}<RhSvW8
z3bg8SYbZ5HD%x{mLtMILi8aY0G05(u%=2XGooW(v`5iPi$S(k+`d3P<(<XGfg*@yh
zl0sw@4xnjtGnP5Huyu$~&(_+;n*RVoS=l^Y+aSIaT5D*kYuTyQH7ztiOJ;Ll;Z#Cq
ztA)>tO!a}`z~B2ST8^*MH82@AnC477!`%H9j)GlXHt1rW2*>j=+fVG4JfA~J$JrAi
zsETvz#^^41b8Nd<Z3(6(phGKd#^rmcME?Lxikiv8M+QNAFFw}UPHLSLbsnHU%-ki6
zoz#r!?GDhW^s1dn%>Y3eIPaCX{{TbTM13<1vF-Df=emB6BVX!4SXxhF70Id8po`Kq
z1<m+8u87H15oy^Z+9gFihNgm^VVja3N;(ds)~O&7M^O9lTPrRVR+Fd}){#A2vA4rq
zuWL+oFo{K5WZT$_5~VcXL&jC69iYptYmWic6vscTHpOdy()x;y8%GSzirg|w{{Uq{
z(%oC9Q2`m-8-@+Vzq+~BzY$=DpJWajh~zm+P`=fajMREF`rSma$?44uf?xZYVikPx
zYEwgccE>9ZV0M*NtMyG?Z9$S^=ds5o*RlcC^+xZZt04FW$Mz`WgO0<JX{sBkz+#Y!
z$X>^IArYd_OG-BycTB=^-s+-Va<WQ|wNbXHv%Re4q0ludTDb&q#8~sldsDtmZIV=m
z>H|X5n&!YNDW~i^EWEMTX_Y>wqVmvi{kU7LLrm4G1?lvti0tN^s`#|7q>L7}FHwh>
z$xDxl?Ub97T@`S3gV_*l)bU700V5;sp^CRv)+BJEjg182?yyHy^qdkqeSJMu6OK!x
zAMwIJNYgaUK0TBgvm|lkP3>}gl|o~TtcOqO?PPna*>Tu|xmh-jvVo>p3uR~-X;Eq#
z#dR!RlrL<qII|q8y=_jR+uquUiS2V_k-2M$M^Sy25cQPQk~%plUlAPmP*(M9RiL;6
z$wBtHrr+6CS43YMy+#7>>h7xOok<NqZ0!Q)2FacxYbMPMomH!vV+_!?SV-<NtEqK5
zNhc3|G_5ztIcmC&ni`1Of0EtBm3@5`TW1Z^m>ka@Q*e!Go0GFaOHrdw4XPoG3wIb*
zb=BH-pHLq~3pV!wyr3ORQs#*2Dcu~OJ(9uGl@cFOm8`#Jlm7sezZ+xxwWC#}>Ta)v
zu4OB&+%*3H!nu-zM%3YKPv1>Z{YTnXHiAn1GFFKrXaMpR-A__7c!MO2TnrxQG|;Kv
zpxUh|x?2Qde_k{FRwwsWT8^0m;xa-S*Pov12K5XPKhu^$EzSppB~5HKFcA~E{>v#z
zX@-+!B^6C}lc_}|K@MYGY<O2)Vkv4VqpyX{4t1|?_f*no+J#Xs^$Vl;%8H{+tYl^(
zC$w1lWZ_dEkg@)(T%J6#e#kGQt7M_o3uPCIZ)v*M>(JBBrOe8QG&GNEydK41DQe$O
zAoU~Nx3T0a3aw6ER++S577f6Qo>!sH<D-dVscedprTTqG<!fn~Ic{3x+;++}ol#XB
zuZ{>|V;X(7Zft|q*!dU<{{VI|&!2@*$+t)(BR1NaGEx>%aV<3(`Rm@#%n(a>`YP#c
z*EoZNl`Gx7w=K(Xh@{fxtYamMEI7Yp>L^}Km8FjnhwM9D!>!-AQOMt5@Vz&t^a^UN
zA(S=I+(jX|9nTjFC)HgmU879r0B5Eq@ygNtkA!NBotc`*#Eph~=Y#fEdY4DlQ0g&i
zRN>MxLc->ckS>LwqkUw;3znB(XUQ3|_DvIRp`g+^><yK%hRD)8fn~U-vs+4lbXbH<
zY;6~Wv{*SVxzc(zq{AVIQ%!Hy!E2(OM?4ST6Rg1N=df7rxaw->*9tuzrL8eEwqOsq
zpM<iSU4}4kqVGW+Khtu>Pg5)|s)Ul+F}laf&weh&r|MO3Y80|C$Xl`d2>TU<np%fU
z=Tw)zM;w=OnAx1u&Ie^DCi@*iwnH5>&3SJvUaR;s9V|1rRj>xhjD>)qrhRVLK;7o~
zw`J(vCg`-94@*-K!dvcZ+(N3Ts}ft$qw4tdI(A6b)>4T3w7gs|71ilun^2abk-x(y
z7EpEVKAWla43!#XM2u%9?ly7wLQ>0JM8?~5+B+PD%;x0FDA6U0O^8y%Q6mk3yL*C(
zhI$I|{6`9DZQp`abJ5EPHnV{kAv$($G%Lh1jnSWQ<P<cmAe)539M@lhxXO5Nx;85r
zeo|lT6OPAla=ESSv60OsJRIF28&4Tadz3~T)5nBM9svQaC{_&FA4g7HMh<(TfXfO8
z5(hT{Xte$I1cDISCY`hgKE-KS1b&bKsJ1A`GRuNhezjQm;Cmb480WSdjuvyNs&-PJ
z>O3jQ=%h?nQ&kpHypzq=K8j*q3O}uDgIFMGyN}AI(ZinbZl?{iOxEerNLViJ*b32-
z9hY;JJOgBHxw3oYdydwd;dCa^7eSRWdY5g_(Md}SK)%o}qNRc6&M23^(*Rs1OWB+H
zALuvv98~dBO4e@mG2uf2d)<-%MK#R;0^$Oq5waOsAsKz`;X@mPO^v}v###@-L^hHc
zhv~}HZd6va<H91C2ag3$Hk>1F;QV+fK`DjVX|l$)$h8P3h#HDlS<M+?7Y+(-I(Vz;
zt?BM){Y)RKGvs_Fp1K1OYpw|%7I@C;O7C8s?r0~Ln<!+Wkp9clNZ~73@o;}cgM;-<
ztD<}|28L}t?ZH+WO-pN|*&~|SUB+zJf8eQ$ofM*$wT@sW%r77F-E+<gNW5}Bfa!xh
zJ3k&&HH>sXz9*6LtZE@_PYr#VPY23^NLc>>YlasiMbl_roa;HX`F#quGI)5-92TCY
zyGGY(Zv>u<-Ghg9kA9O+A+(U#JNdxj9Zl2oK+!EFOI$n?kfTXH$}5r^Q1eYAqHq@n
z&I%%#^wPKZj&mK_+#%{Alst!kN^5psYlh#IWJ#c@<Jd0OhmRpTny-l7?EIm_#AEdf
zCNu(f7p-7OwA@Grz>kr1t=VtkzteyAKr*SZjgEbS7N)6y-Zy^fY;G*HlBw~VR7Tkw
z<RI!RBDwUg--1<S+PP>gaKFl^uha%hTok75ofy>?dWCo(=F2&#Y7cXbpM(`<d2_!~
zhAYnNIAh3K82-&Xi7G?4zITh|TItk6M|&gz-zk)o1O}TMd9t~qq_`Fvmqk*fa?5*R
z6g1MrTG`{rkga2lmIA`blu{U*>AYNgsl!|{&91+MHflp32xq!C5PO99WZL|a-;kag
z>a>6j)G|dZV(q)W7HOEYWo<}<Xm_a7&DCV!lemj0;*z1K+E4xz-lN_>h|o{bEi^TQ
zZg`T-c~dr55JSNFj#4?TaX8vkPie8YWIHK(C*8XMkWz`JkG;ox6gwu_?RGv<18bXc
zoBX1pE0BE_ruK3R{w|Alw;*r(ZX@e;L_ul0aGc3|I9P=#VT)tOETTVCcAKa*-<YPc
z@)aYrss=cgTwjYTiG*+cKz%|L%mAAV1XMVxL32_Bi%!`fbaJ}hLeprqH8jLtpuL_h
zswwl%3YTMv!^=;?4lRS4Oxni!Ek-cfh}!3QvZd7eeelR;q_A%`3Z6RJx@Tk;0C{gK
zMWyNwu873hzlcT}a8&;Qcn;KLR8!U#NMW1x1!oh%Xg9*7*R-8d8Qn1Vx08e(pQ%p+
z!zF1p<Q35uXoLM(st#%8amB2IrL3o@XxS#$cq&rohYQ$*S{liHQcbXYr?spj2Hyy7
z4fwioeTA*Zd!S|z=rM4ib4z(nWUpwuNk0WV%GpJn05-D51|V*|l&vjyB{Eh>({@;>
zjF-cK2fDzZnQ86rX(SXhgpSz0Q=2Q=-)Y=DBz)~HwSaM1gn~zqMUB1}8Kf8@{yU|9
z*PoRc4jAMuS}>*UkmOl3NLzw$;d7gD?I0Aw(lBjxkQ*gygSf#{!zjIp;RZnYNxX+)
zV9{eQym?TEy^g^)`B5@si=tyKlvsgvx-hJlc*CrG6yYnH>k)JCp^`1R93_q4)s=~d
zMKgBZ{{Uq)Q#L{x(lg~&01b#1Qp9X5O^U+@Ra21N#D3XS)sWoWg45WmNb07C{^s`x
znEwDTR?F=TaapAM3|mG*ra1;5X&dLbL0qxtZy!acuca}+_+sMuRh3$JdEVBRyS<d0
zE27IKmF%XG;E+qcQ>`>$wah<MWB^3q*WJDx5wd_=?*YTJz*8udqN+Br%*$>&kfv(@
z_c7+*RU@E@=IuL3;>by&k*?ix2<|va_7pl-mj3{`9olhm$`+(sEg|hcxJDX+VhwXa
zzjP$_aW4Hi@R}`|ub@9rG2f=+`>6+|D7#IHY|U{Q0FK2D2_8qvuVLazByJb>s03r5
z9gz&3&A|b~>6IO~l3R<TV<?P|drj?xL<O=7KFOjt3vLQ%;*5`Q&ya&?Mw%F7drz^~
z9ur9boLHh59^S#j%I7n9I6}vT*$W+Sl_)KDdld*480?j&;RcSB$%qBEDW*4H+HSd*
zvRjlo8SLolCV}^3i+{qgrqtN$Hl?=t3c1b)k#G_<f&T!d+3-+m#JVmj;D%OukdSby
z#vOxW^-K<uCtB`r$7R>QxY(ZSD6|zIp*yhIM)C8{?w8Z0lKWrjyRbP3P))uP+zTG)
z(XZ%Psoxp*40a=eqI5v^Q!=5=z#x1c6wUNyu)fFt0AxA`HS7uAt6PkZl-S<(jGhs5
zLSy6u^h3F%p21`lRiVOr;o|=QMAx~F$SDJHj@}bC*kD;>G{krzxXNj82FDjp1h)VS
ze`LvQ=U6t!x@03~TK(=*90=rDb6i?fmj$^NS?Jx6vvD`%*-9PQ<ub*F_WP%T*AH;9
zJ=W}2gd@9cWY;ttaDGB@YnzbkgqyB1GxC%uX=!E;ehP4T;EVkCNIAj#Cp0wX`$}Pk
zJYA=0zsGbv%Uxm(ydqx{h{4B@nASLu9s&79BugcQ(Y(d(VI$#KvS?-jvNfUHfA&>$
zH)plYyL^Q)hjwE;X2`$jhx-bbPXum^gY;GP5tzviX>ZMua8yeN^H_gL?xd-xilu}(
zwspIq$@>~B=%~N#*>Em5u}*l}<ITQ_4aPz2g`F#CM!O>k;?5SelS`}($J``taxxY-
zM-~x~xIOJSHYwhz05!?hYw$T($^DKJvO%^+-2VVjNcb)<8QeT3J%zWzMm)EJWvtFW
zLI(CC$GT&Knx%WU8}fXnJ*L<w@?fGe0pulYk7h^tO*aSXy5of0g>g(O8N;o-Sr);&
zEFr;G4lr<(NLWD!g}D=!G-xR%d~LfNN03o1)L=M}ZFhHeS?Ft|VHY5elu())kJRn1
zvJMJFlX1~!EG(NbhP-oyTUA29NG-CGBI<G-8_D~r+g>C)WMKNFryh*<R7pYs_(RD|
z=D*koSMH7{o3-E{1vk=Vtma)6AslF;WU@s2I2(Dge1Vd-<y#s?OMLwh($MU_&_P+W
z6ulJ>gE&w>){J{{2bEzwGRER;NKlrS4B-71<iOPe#aPYOln{KPn*RW3Eg{3g5=e!}
zBH;I39B%{IZk@{ZGL;83hY@6;;?6-bX&61hOv-@ad+?g<Jc2e2w{6rW?YJV|RIQLW
z8yu#|W9Q(dXlTfYn_}ym@IqHM=L7DL41A&Js+Er(F_g!*`c$z1O^M2v(GCPG2}l6G
zR%awBSvwrxb;Z<@z(MeabVa?hb($0;HvAif6S2=7lnry)-s#SeJDe0Lg|WovCh2YN
zz4=VF-GtzIx*<$XNwyND7Cd1$Xz+h^tR}0ey8i%C)LvM}n3#W+xLGNxq?DI9x!29f
zLqu-w0RH72OQ+RVNE;MR4f-m>5?vm1oq;sS=W>gs)90yuqidW`dtqv{ewBZ;$r&f*
zZ1jBsC|V1e)&Q)cy@=Z}nkPnIY}Jk=5&A(}9WP3Pn$g1mVB-DN<W!6n1BExD#)|?k
z@U@G?Z6q+TVW6Jn9ZucO0g)5(g^jy2eiN7;_g-n-7(bD?1ucz1(;cnIA1W=^2JH<W
zRSdH5*ub}hkwGNaxfc00Td=(qn(bt;vh??P9fHq8sCAWW{)|+DDt|8JZC^;%d!1(x
zx;b1hz#H;V<Gqc`K$>+maf!d1mhbKYuw*T0$;W`9bdGVu&($ZY2lI@r{)H!=Mzy<J
zW{(I@%tsl!S-kcIB(H!S(!Sp+wyIZ3<LDCBUnbp>H$h2sSs5j$aV|e$gdIk|OQyeQ
zEi!lSWt`SEn#f~yH3Tye!=x>_D<=5$Nu?+9)ea=wkkXNJpISq{F+BpOuH_HGvwWUZ
zFYDT=8L@<h`QqyibgfK{#*$z@MUuy*>eG_g>7=tpd@Qk9oY|~@SyesQeZJ`#)wK*a
zG8Z{w<)@w}Y<oy|du2JW)ZWc$B>W@sAoFJ2^%Y%pm}MY+R%@!^cEa-T3C>PXu|ufC
z?$|;~nrhnO1DfO8;ZNdrGLmS^Nha4=lYfMEpG{L#;Mkb#@NBf&XGQLiNk1pD*=e0Q
z4LceD+ix7Mn4&VXAEorzh_<4v-q|5&Xu67?g3v`mTm~)}v~AO(V?b~Y{{ZS!!%s_n
zzMC)d7IJ=_1yNGox1@oar={C(ELGKiiIg`jf{DcT!qHc0R1-GOYY*847K5ZU!1^$Q
z^g;4#u-Z?cJs+qi)lTypnBNv!Ds~qQ);uQD(a_TYurPQ=$5%|&k%Cg+5uVu-K?cM3
zPjCUf$xSs>_x(cQHcF^=-ssr0D@kd&%1Jj!>j7Y(j;*hFYg$jum848>rVarsSSSs#
zZ5dr|*GGthjhfxcM(OMslEVHGvouoFGFw_Zl7}$X0e?*0Xw5KSy9-D8Tw-_^CkUD7
z#Oe&z=DR6r@o&`Pv(;TQu1fPHjTb!JuTXTQuG?$<kkym2HWMMRNyQ+h&oCV^soa7Z
zLJqq{s-qWqVEQdrP<1UV0rAtxc{sS?VD)WMs-{ivk=DN#LCHRb>#}CkRNruJKB$UF
z=MoExD(E#wMB6#vRcEJG3W)#!-{_t!4Vp$aoYI2wT<dXsDmv;JCw-!AntPR?pr8^k
zTpX(y^guyyxJuxz#Zogm7fY}_K4}|&3v;FEG|@&q>;Nix=<1<1frP0kY4s-$<2!49
zsku7PX?rvz)3EGg+m7l9W`;ZNdr&dZUzr>{sfL>uCglB4rfmdM)Kk0lI1iOPuB9W}
zD@v=Do|2t}mntn&Qihn4#}RH8vuwH5Yoex%km38R9=p_G&U8$1c{~81)az<>C;D59
zBPW$@)4el7K$=OK_wqqOE87ddMt4r2sjrwxICrK^?Ul9Dbb1y*+sB)I7KRAvA&5rG
zcDUQO3z-8$_YekEReC1S1vZ@%9d-k^!6?~kDQKeIApsEi7*C}T1e0Zbq;y3ca|K4F
zQ?<P9B^6yDf3qc~YfPzm+XIV!iPe>EmZiV+n;1EBm!k~}K&FGzqmD2@=IhRS!$*=j
z*1h#6I&g9~V5WJa6-j|&l%1B+bvBnnLL-Ww*O)hkw&v>{J!Y}1R~Jo5H7z~vF56*x
z2Szuh;iqocTRfw^uB7W~sUJl4QBpOy#w~PYuXkWq(TtdA(NpcIsD-D4xa6v{7fl=f
zTmtjmoT^F<Cbp+rKk95go1fo>=#A;!8jgfZ1T7ESdygqr_RX|q4^C6p4d0!X26K{!
zsHB5Mr*j~vj#ppx6Oyjzs$mr-8o1n84~#2X%1)E0r#_`F_mPy6pVoqvv&-S0qO(%5
zb@Oa3lp?G^)`CMVU;$M6tuBj0JEWw7So6;8D;}4osMaKFA*kBh;_0!;Ee23!g*m8>
zFdomTTP~WarK6`3$x$0|!6;+Vva*!ErmQ$yvz7~~sc7jd83c1mUR`20V5>@1(LN2E
z{bQ{3i1!D$&PQe}R<+f7m3z#3K9wQxTng3nyE=M?giTjY!(n@ztgl=3{*gr?W|s_M
z;Px0(oat?vFtZ=4)%A={^(rY$QIp6`{{UarjR}pdE^!>)RO=mOsp~R&P9!kk?OOhb
z(P%5_+G{6!9D6BRD5L2Z$Ys>US*n;4``iRgZ&d1LKSb^Wj4xkjL22^Gx|(LZ+q%zc
zT^`ChtG+m1z;XvDJd`@e_Id7!4P|{$bDHN8SEA8_rcmGV<PtfuHkzkE(x47~J7XYc
z3Y(~U@(Cd{^i<98973ce7Oe?1;>=%K>yy;fIiSA4;>bRfq}OX|oB2q|xy97+!!3Pg
z^BHk-hw`sg=^YMeDVX-e&_D+K6)DL@Y-mNvf@$3|)*qJK-K_*=+^JpCI?YQ*=Ib4Q
z0IO=<UsRxRYvq(iIRmmUK-8hHlzO!;YfmJbBvR+mM!3C#^!HCiKm%$gb4B~Q_g58q
zJq24#QN|=E7bwk64HwV_l@EM_!<K%lTbED2qzMCpx}z%7M>C3VKsB8S4GfO0Y;0(@
zR)15~bb5E1YKu9*<O9Nws=p95NuqTuF*uWpoY`gcE}yT|>djq!*wSxxw<r3bts0sx
zri)H)?K%kn?2m8aezxe$ZH@jifvJN}pn<Gxjd%k$8B0g6blgq!-AW{vjxUt6QeMZ4
zi|nq{^$lNHsSc<cKsQI}RB&CtnUT9sH&RqoHlor~(iqryDxX*M;)J==?Rf2UkyWtC
zn<*cl>C~>3wGpwvU)n;=x2fjTD!(mA=7{fY<zbmK^$Oobr`vmOy7Zoz(sX?~j7u})
zFSXoBRgJ%7xQ~BGvr>!IsMegv5&A`fhL@(G)5*Z7BZn&fqv{$M<@BflbH+WYzK37d
zhycRy4|~}SSlf=v&03;q3u)nah#W0X;f|Rek5T!$qa9A;d%XqG66lgh*>$L!D~Y+k
zWx3R9dQj4Bpk<$I29&aVc7{>s*?FseC}|p9F^p4P;8+HnER6cTv(|4vm6epRo-TVY
zJL;)qWbToao}_m`={okHz*$QF0Lu}Mcu9&*Z}&#Y4nM^7n%x>*4kI;W(MkqM1y&xc
z(js9QzlP;`_fcxvrDJ_My=ZMcu2zGfX|D({HX5V<0Cy{)%DN@LU_C|D(`pl#bogau
z&9`i}75@NC$yUlXzNT&OxAQAaTTHDn68bpluaH0rk_{_UmEnR{J(s}>X~{jI)ihem
z)DhA@_|Qi7e5ok9<|j@frw@bZ(`84h^i_1M^?gUR!#OHWp4DN{El*QL9PVxo;4+KI
z{ezFuuB_?`pUQ5It&%v74i;gW-EBodBsSN{IY;VsvTHCCNue=<*dSR@(9&uURG6yi
z%q{GErEV?VP|3=w%?%UHT%nWBVrlLICcjM6pl_)9^7is<Y*j5)J!BDyDduaBg<Dao
z&cH=;qTAdA+-+E?)1vODSLxascQ{T<hi43|twyIVw^U-I)63&LIGZ9McS=s})l&=i
z&J^=hX;jf}(b+Vlaj~~ilJ?m}FH{F7Ny#I3R88m(;^;{_OGb_Upqx)Hg*;WYwQ}CB
zmaVY^!Nt+>>fI?wc27l8*-r(zD=4<RqbVr%ib|-Zpp5!DL##NHZ~Uidwf#{wK#G-*
zE&iLFEd%w6Nn#^UZ9|)H(pz<%)HSNQI*(GH)TWcmnPeU)r*C7&GpaXQUY*sB0zpF?
z$>-E|6Sb-xX|(P&+Iu3$>SKWm0?))AtcoJm)G|hPAZ1in^{-Xxm!@R19oRNi;f;S4
zvQH%6eFST<dbLHZtBIC5Y2_WG*HO_k_|%Zj;4t78K=ij!x<gwvElb)>?hV(Y^e;`(
zYE(^SWdnU?;^oDq3X<$9NbNeZZBB6<4s9%MJos9wZkuI1AD9}`CpNijiVnM_qS45a
z(Y>*Dv#(`YSFP#v(KtrQWh1a@!f3-BmeqmfoL-9<I=tw5hQ>7R2QIb3)gG;Ow?pZe
zAaEm{xn3Ep^(!T;Yke27x5zEZ*z}gWLo{uQnhBdHdvK)SqQ6!$%G=qXc8yT!OQL&P
z(r>hm6z~~z_lC_@*xGy)CaQH=pm(D);l>S@nrqbh^+jll{Y1%kcEyx=O6ek>+3T9T
zG?lbqn$}+2wf0#Cbk%J|L%%1iG_-Knoywa`>1{>O56sufE<csY@X*1dPrLnAR}y`|
zyCFNr?VIGiBS#K{tU}$gR6`(C9ao|2QO0D6rr#M}gV9xb6;ylX)JY?=%A2nBT@r$T
zmc5djSXik`B7+_&$x-vGsrAOzmc$%ielN=1^oEzMNww85O%4A5n1t;LyGp39eMLlW
z{a0<m(%1Dp1q~tmvyJV6byqq`(6PsFu*o#({{Sw1db<EPa;#>lrRh#^mZ`bqa<IKg
z))kdu>=gxo_6Ey6rBlhN)a{;kSfAB<pr<)^pvo|Yqqcemy{<!E?@Lb-J>=tKk-8R$
zCa3jlpe94wM%{N#^gK`q>Z!FT_knv`3hJ_^zJdot_eC(bE#+GqjCvuHlkCcMT|SpV
z5dxYJ^V|zrROlTsQ`FOXT7Rg|p2~e;!me=X?CkJX_we&j)3lgld~XoE41>W|gkw2=
z#N^yojJ*E<gxdC+J!+UFnS(b1_)}6hLZxq^U#G-g+!9;0!FrCn_^8TCM?g$&1-7^s
zUUe-!CsWkEtV>O44cyRdQJi5P;>{U3X`nhb^y{@K+G{1Hg~yU^0{5T8=V-LljC4Ak
zER6tUI0fMvk56cHE%&|Q<I8~vNMtmRYiM5Wr}|xseHSdJ7WDRC<CR-Jm+Jng>G*WX
z1x&EWz%#YLua|nv)9aelv*?jMkdtk|WR<9;(^+2K(#d=Np~A9@N7Er?qIhJ3xoy9?
zi*ioN#VS1SO4Ie|WDvJftBtNd)NHmiT|KBs#{Oon^M4L<BBV{YHI9+RzA~kQSF3`|
zsHXK8JBC=TT)*lY<LoV(YbhfHwajoFZb4PmQxak=n7{tT6?U{FC(~==7X2>^I9pj$
zT3+cyM4xN8R*I#fGTYg5>Po7BTTMYzD0gz(D5L2vqkO^ilunN4m!l{uI=@SWuG6cc
zc;?brg>x6;KT=WC`g)ZNMZjh8j3ajTjn_m}+9yy$2#%t5G>*x#MJ+YkRK`d<oxrL-
zpzGSI=In`^UhlG^8l0|hl4^JFKhM7CMk~5Am7`6lepQSwr-|{u$R^5)eRoia#y!t1
z@&dl;>WL?3sVx|+gmO1zE2m4-QVp`fB{ZGb=HWY>qtTRMBh2I#I*n%Ns@(}VH#Z9I
z55t=6TAO<{T4%qoy_MFi?KUt?BypdRGP2dW_vM`76wZu~=_DZxm!}X)JJT$*{)DB|
zDjWW-S2ZN9;ot`}t<IgK(bH0HhPpZKFzwl1b)jpzO?la^)lV;i=Nkp0rJF*edtX7Q
z7m|Ik?kKfSy#YORL)LXw6tEUaFnbT_ZNKGbG)Z)}%f5JBbIr&r)ua^_+HUI21+|dc
z!OQ~d4PT<@znr|3)wBSg(&1o{xS{yAv|eetw@0!e9bGF&&edwybWL<_6mDb9xWQDk
zT0cg<5fxo)VlEa1?*9Ok4y)37W|}`YrD_g6!E3h!j&WTvp^8%USM_F#roi(xBrXE^
z0m>Z?z6hagGtmOk$#Bo^qpsEFf+E>p>Vf@1Ri3Y+U@WMF1MrqUNB$)x<GAidp00kM
zdv_XR3(q8rtgg2e3(0jXg9jNwGgkiqP^-N=2#lN%t=pqg$l*0m+}{m0S>>Fb^aYM7
zYhfK7rbVd8-(F%^IRl^FYBdgohEOG-)}n?+i~4m8!T$jCg2%-AN*NsLdZ$CTfpjH*
zR%#No#6O76#PU^l=#;D2eyc++mp$vKV3Yp<-_t(o<EDCpOlR<)NXZG~dwt)!##7Wy
zR4(|Zj{LY>kJ%xXYHEP!+SjyqI4QWxwjz@09>O)Mcxm^+6pgoTLa3|iH<xZ3<2UBY
zi$>L_d<`_R$1H?<p_E(pDK!mFtb-k1m*^AVTojI<W5qK=Pu7gyBh;A`@s92pvMREl
zqqX+$ibhks@(IP)nQGc>wJ{l>YlFGlep2+#olfU$uKd+JzHV%?j;qm|G&<IgN2N?1
z6pVXM4r{IzbM^5Yev4&k`R=q#&}k!s)O~1`w!n5(Mx~{6+lX_o1fE)OQpOGsQW?of
zZ40J0t5Cd=M9PMaSU?1*^=&^&E&l+irJjmG<YMV4TTe*w`6|gT+rmwAs5Mqom|qMs
zH;v90Dc>Pi8rmwU^?7v3{VGY!@ek#A<!N+%Y6_Ve>8V=@JlI)fG`jg+HRqzHpK;)~
zkGj`V)KfYDAErJb{Y}V0+E$U4-C21ou{J+eARXLZ#3D3_D0P79TDlr@b8YM!T(O#+
zYw6i|1A+KKXq{y?nOF?;Zk%5Z7(cp#%PBgd-x7kmHr+|kGt$Cp=qf7AKwL4$cv#un
z>F$nu0x)r9>U}x*snhi|o{eiJj^f3xYN_h#K9koN>Ww<K2<iy9VKyaNGxW*IDXkuE
zDcI+m`+@Ls5p?lE0K01dKhp4wk57Y6cJkQ;yODO4U981NRKi&MKepT|c22mLRQiPQ
zLS%$TC&Nn4>)P#H!NAixIS&TPni{I=N{y06{{Tk#a=toURedvOY*K9^;M)lvD9dc5
zGPtKkdV;f1YwueV_LKVUaIGn-3tk@ATf(!Tf8<^1)zi4P_9oW~Z9_$hwi8*VIhGv8
z2*2#Qv1H@=vKcY*{gCLV{PcGg5;SM!RnHq^m(;PbHgG{lB}F8b7i*h>6_q^j*2Lks
zHeUz2=uWnXHL7CL(#u&fr>7y)5M0Lp09CsqdN*7eZCsSKk&{mMdx05^-c>{u6VPfA
zPh!_Z@Zt6=d8}wOI>Zs{6ixKxmA9FV;m6O_UM}{CwOVG!M0Grn0|VOjIPPnQb!hln
z_{&@x_K}v6g_!9Ya~7QF$FzbijtIe4RTWh+G&A*hOxUSkMF&&qdLD?+^+&=Q;UEob
z9c+`?X=o#-5XDhXx6ze>_Xm(x6Ru0O2?ZP8cSJXQ2XYotO<P>kVf?gpvbGlSw}7Ok
z_hmTRJyWf9+8sARsw|PenE-lCzDX;?CyCR_>YrG)NBf+9Q5AKQ)jxFdzGr!JuVgEv
z09bbHr7gQ<B9c^ueMM_PY>pGN!?_=I5PUKl8^rGp82!}jb>rWAo7j&DF!7r$VWBB1
zYUtiyODmai{Jqq5nuTR${{S^pESK!#g&-EoO^RcfNXQ2Kp=O{7LG-|BApKKm>uMr4
z-;W0<xgr32hCUFIQ(fDdZT3OX!C#**7m@}zj^hewH8;cl+hl8hruPL_n4|}>OS#4S
zNLUnHw^gE>6Gmfq^#GC0f?JqnV~5pK7alf}q-8Px0CG|3jz#$^DH+5$(YdD|*(`E7
zxV6<=%}{;eo$$194sN(sS4V5MDO=py#HUgb#g}2xJX>)Gx_GC1vfB`;nW^LWw2%J)
z^h!F1R-kTPXJPOg!YWAA%UT^iX&si4b*j<y#>ZzrKMNxdQbifHIGo$Q+aqJ@neF;z
zKYJm}JXyb|U>I*72*W&3L%LGdx5-{=&ZMrB+Q~gD_XjE`*3`ZGrk(PC^%SkPGL0Hu
zpw;H1ib}dlH`Uu9Ucq@LvDezARb+x{7@{pU3?qf<I)1EUXQ2BS+%gKzbvH{;>T{Zk
zKpQFKpDA2#*lnI=RXs+dRA!f#9tQzmXw;@Q2U%GE0O_eT_g;2x`2z(`)-i)<umi%Z
zAePBWOi$JAxgJrJG~l>ggd5#sWOXIOM&p%O_9NM1;Knxxgezk*NIB(52zD|`cyNdZ
zaEoS0mGra5z-?euWVyI^DOp(gWdY74c2i9F$o)A&G7CsZWX*ueDk_4(@~fIX_Xf&;
zP}<wR%87{L6Y5JNi6+hYP9`|UP0AcS`$JpLWF)?^Ht@3r3tHw(`vwbqD*Zx*&4kGo
zd)ZjS5x>0K<xf^)6y<>2+mx<48)%@>D{UvF^Jg^SdJc(Q4Sg}AsIhP!(oZ3I#bgc#
z*NwjRo=0_MqgMd-KK5|=;d8xqRX$5b-&E7&o;Je9kodn%$8QRfM#&S1a3GH>PoZkC
z*G3_!a1#tROXu#YwW>$OSoe}#*M7^NENS1O@Sh}C$5!Tm9mj<$YlA(_CjJ74(vDML
z@EzcxB=u<}_ppKV!CX_6QQ3|Strs!YLsY;VEc5%OO-lD=mOn%#JdjQ9VcPU-DqT$5
zJ=gJdFP@6OACX^DO+F-Rhtwdau8e+{3w$H>Ek%;FhntSztd6lgI3&R?*LP`89Gr=~
zTm$O0Mu2WYr>WL9ypZ)*G{xr5c2IJ{=?&X*nL)5Qsx6MK>R`D+G{!;gaX%`oQd9?i
zhknY-N^7E&85kTq6;1^HSJ2pL-y`lt!n)IFO~u8B(P=t={W4I|B{&AlQr!nns*F0F
z?P<0$m*!E^K=_=uW@3VyYeQ}Oqm3hW?rqrbAsIfIH5tpA=J^E<UhSj|gvv@?3gXkI
z4;Ugs*SLHXLqmZCTEn<dNX(bHq~F2eM;qSH_M`-VNlpf+HL?~y?KUU6os-0FW#`C1
zHg~<&bT&T<NvWiCWy}ZUByvb94VG~-2jz|j=#of4IT!g<@QI^vBKYi&0Kq^$zimt8
z0j>u9f^NXoJ&Pk+abf=eC~2WLy9sIVRId`>x%g5<PRmN$k3JTl0KLrsHfX><)DxQ&
zjc2I~gPJ~3-<I4%Mp%2IY5ID3qu)s&`UFkcSrnHRmNE~N=f!XwEbpgeRQhhAN`H?5
zb4PFxppF3}>V|=`H#2GOkVZ~h%6yM?^J1JF1~@BF$Q%a;WLVu3PT|29OK|4d!v#b~
zr2Wk}O2$;fC5hpo;iL<4pkdi4aCXTD^9&SSHlpG-NYLTfrKyIVp`@}+uH{Q_vYc0C
zmY=IkBN5J7GY|Cy4z)=H<JOIhZTu>hNhB}Y4<1#OG}AgemKP7D(o>H^RAh>bLnc~r
z+$(xXUiN~=+<4_fRTOgqLo9pQRhcEEoA^S(S`y?%!Nk&wxxV3JbsO0u4avG2P1IR4
zZ6V3*tQzcpQ29j3kTOww8~s$b1nvYV<c+(o(_`T9lJ+(t-z!n9owEkv%bwWexd;29
zo(RqND8z&wQ9&m$ZEfyUat3hW?(&|=&8$f&k`}meVzn5E;~a(AwZpEOLyj6Q60{qg
zw+M>F2JXKJ`)|lefJWxnr-BKv;Ra+gYe*v2Q9dUFaglUItO{=;;M+VPg2>nj85dJA
zr2CpmWr)h2C$zUe*%lGZkXSYMu;DA%!Z3ej8_REwJ1E4Kc29Mv#E&j#ZNkYz+Tb&k
zo}f0(zE==9{^0`?$0LRh3RoNgyl$}_knxenbJ(dGEbD<}dnOjyHw#MJA3c&x#*ucB
z_D~D$weXx8_Oz5ZjHC@cAFM3lZ<Ga9HB}+IUA{YH1#J~aq;|QxuAL)UG2F)wq8t+&
zn?`U<$DZvy*KC>I>)d%(wR&_CoS#kJM|E82swpH5ce%ZfWhrBE+AAEE3nN^|S;La2
zhh&W{Ha<d}OAEkkt=fEmqHQdUm({0mdrx7Mk7ZS$I;vN+-VFZ$+EAsS*{^QLcLix-
zht^=dn&H_2sM4M$kN*JDSxeA%QppJyJSN7+6JUvw8CcR-;Ujz=$~b+eCu#Xq^fHh{
zHryKV?ee9Xj_odm*B=S2%YE&?$VS4~Ha*d}ICx87m-JNK@jA}9`A-jRu5b2M6&{qh
zm7%WsAstN!xG!+Oj>wG%K)<Qi0U&W{1x)%`SkF<v#Ao$2b7FC6C8zAQm(b>Va<|%S
zdxDtemYj}L9~l{K?v^>8+&!hhc37Kj36;a1eu?syIBsbQFbj?_u-&3ZJm5Rr5^Mw)
zL~MK&8Qq+ejF17`1j0K)?;wEe5TCe^k;RV|Hu|J2a{zG2_)0WnM<uUgh0T@hcOk>)
zl<r0OOf9&z^YXAIA7M?Z_S>>>dn9NUu|O8MJ0{^fb%%n3jT#{qbZ^`MARZO&n@OeW
z(d-X2^&ozm;FX;cyS=QI2@51_jB#t4Z*(YYWv;2AS5Y{ZN4`JnYN(Nf5)M8V$4S@N
z=-VA(-HT+RYxJEnQjE(^;S`p>G7224u^jcY0$byc1$NRn{gsBJK_x83j<K;qUdGl>
zX@(<O-NM`-38p(^g)nG5VE0^b2ynvII#v$XIh^pN8zg1%xhtb-9@BB)q2C*r;zkdJ
zy9H4383!WC!N1)yo?&}RG4hTS?2(|r;7|0DvAF`c5G>PV_~QhN+vu4yT*I`2J_=X~
zFaH37wK8&HjD_tu2k4ZsrNZ9VC&eqrCg2<c%9nIg3l4s8Q90bUL>%UeOAvccbq!o`
zJ)gpLvHD6RvQ~>;?eI{O?cIyC_(7F`3wHyw=E*_Fgy{{Ad#0NJ2Wu=@Gmkmr%9J&a
z88)|Yqhp#qrwQ9TgKv<qM>;z<79-_HV$+KPm9jmT2m2{-@CgIzvl7OBVAwWRhYvl{
zxv|IzVgA-3bD8%FEu<TaB^$nuKGJWMz_s1;@|Su3cHcavNFzKPkKHo|DmeUrm|71X
zx=rM9l(%X6qfFLDZUyaxL@@fX`%Z1b;LD7FQyj;}?aU>mG7<j(LP-<aY+8P*J;kT!
zjEbZmY^~3g(m=^uxrg>eB5(U6hOz9u&D62gMC+FgpWz844q-S^f#WEdQ!Lv%Tt?Se
z__{uxtht_?gC11?$hFk4&m>N<CE+C|XBN6NHfS4~>vu{V$DOi!epO3r32nDoOxc`H
zc<z<sVq0B=%}o0f7!Mv06GO;zK>I5yX*;#n@AXZnd3Gg=<FkNEOlwTf%LpzYVF@E&
z7Xe?oiH{qiARh|0vYJ?l1&5SZVl)H3=ib{cYg$d(c~Wfz*ozd`)3_V8Qi<qqyaTrB
zKQSX58sTue)s`Ydn{YfNGes+W6jhqZTRTmyg)?MnZMz_y5Ow?g6lA_PVBCEc>~$*a
zvIGNu{gDw%VRCL&NS_%b6*Mydw-EC!M1cOFnE2S?kFpiB-vLU=d@Rs;qB-eYE<r-R
zA`VrfC21BaId(W)46W9Nuom2Qx^T%R%11?O_)M`J{^&8#(ld@bF1SuTxVLncZ;*u=
z&9;ltkV4?;nYj2{8XXm}un3`R8|KPb%*;4|-@sC}`lFrgfG~Es%IW6cN1eqW$Y~*g
zzT<zg=Qn$UTEk@ki%||9t%djs&XS5^-SWyB-vJ9|q=Ee@18r@kGiYWxD$II77RJ{~
zemFr^(@$dH=;8;nMamY;njtQ6HW(j7pfF&Ylq+c`bL{E);>d>S<}tcj&U-hMb{!8R
zZR}d#sZI4_2Jf67i{U5aqL5whkhkS5dR05z8qj&<<!fNk&ZuLC);JOMNg0Xm4KBaH
z%D<xN%`K67l@gnu<>5>J0OG0_ZKa93#y1TA0Cj=^OQ$kHc|nbz-5A;m2N1}q%e<Ex
zshu=$86csi%XYBb9~fC!G!!Uw$lLFMk9W%E)6mLnDVXnoFquI^>NpvnW_Sp#V_MMk
zDmOXuG0zRf&8$&vM{Ef<(FEFE3}e)mDBEt<R2t^LqUmidEr)R7qQtL0>o3Ggy6K+{
z41tlHU8@B(O-#=(mPfhH@@}Ik&R@qxR3f`J-AUIK6>=EqqYy?9Yh0?6)fKLX(lUlK
zy}3VClb!Cpi}UbP;DUOG20{o0Wd}x+Myi)lif37Yt-mCdai_t%-ot-|O`vq-muscm
zJlw7BkEX{AV{sr4IaEr8yDJ%{)=OtdKpmPps~tZ?s%y7<S{39@f;%;g-sLcwN0GP|
zg_=O*`URrXi)0?7fzDO5pa`~8MAqXjJfWRb#y4v+R8E=Fou%g8!X_eh8=T|5a(;<L
z4S=)UZ}N<$Z97HWNj<El^`p7==diLIP;3f4HKcpq;rCLrNu~nf&vEcn&z0}}4azEw
zm1iubd;b9a6jdQyfLWwCn~2;;fSENE5W8#I1H3ILs;_J&Hq%KR#l5Y{qpylqmq_|~
z1G~A!2SX-Tm?Pz_9|;5uzq|{0N@u&awZNjO;dFx_+sZzTyBSUya2pu?m5eZg0g!+@
zD58n6JKL9hq^@(rJ<@=DH48Ndwa~;pgdwV`*wcVqd|6gQJKEw6$Wu#D*SBua5jBhX
zsh<1W{{V$IuHtt{?07<%84Gv3fCp==uTyocB{Lrc0j_w*DJ41ziL|TgO(#yJCU!CM
zTe)6U)?H@$>7L3)h}p(CSv_N1s?;VfmG&3F2ePen%sjg1vK(bD!s&EM>X}T1?>V}a
zlQF`^<ftj>-B9q>0!b@h)4eq7wn>^T;HQj5vX@HIDl4W1u{&>KLf-WM08R))T=>Cv
z%Dd4h;DMWc7XHfi0TsXv0Y6JZ)Am==P?jHaZDd(5VX$Saj+ybt7&Zz9JJmJ~$xCA(
zS2&USE}9~9vPG_od=j$6Hwp@x*x`)tARh=_8n!w%Fbg<==IBc5h+%0BkX=*iTGJRD
zcLtBD#%mhwMO2Q4j1o>a5|PUK9;mnKEoqeGv`M}EZ3{Nm)@l<6$j3G_<y&;dl^g2)
zTGp4i<d<b?YAGOi4TJ`P&J)E~WZSbjL#D*WfwL;+hMlq6$ml5AEC>nJlhaYfx#J^&
z<x;-I<y{VjrLi{dHn(zvo~ENxs1#a!jS@K8{uX|&eOFhM$3ssnabGVjuuDt%odQ8G
zsd<kiq-<!$+3B4x_<O2BALeSS!^zFBl{Zs4x@06&*AN@nIa27l?zdG;9W8&Q4ZN)P
zSL=F7WRXoIl`?SS$hwwDYg#E8#c7YD>qthS`Fdx)_jR{+R=q_*ORQ0c&sg@Ixc6Gi
zH`4W5EOD8?EXLS!Mp4mL(rVShnw;7z`?J|JG1^J(i#(gPqJEOq==2THOL?}N2X`S~
z)%7zqR+du01~YJjuWwE1G&|%mx?6BSD-%AwSuE~4Tn%e4iv`msD5_f}7M{&Zw1>}7
zC7QfJe!|Gv>1$~r20G7PA@R!dhSPOUuc$SRl(pBtCkta1jn%YtL9$5{jkon>MlhFb
zGL&1SL8<j+4KqzV)W5|Cn=0tFX=@2}G%j#F02CjSgx6nHhd0mFZ}evL=AEbdyP#>c
z?YLber(0}gjXsPdv^CR>^TK0qk`>QMNktt)X~f}=2F@cEQtLXT`pmAT)7Zwua9zTt
zmX@1Eywy`QyyneM7TUTCNjg1(nvRjwfd2rh7h{6u=Y4%HpFt^i@MM&5dzD+I&s(c7
z{!T~1745j3pmkjeDtY}{nP#k%XC*s~(z150is)*!9bLkkbE1Ho3oTxg_;H~ce_pO;
z%>GW}b(5C5yVVd;(8}9jIJH>ErgddR7ZqNMUF6v`GDR(`1fbvX4cBy@kkNsVGA+&F
zqq?7^`irMGHaEo9kD|`h{vT>Jr`4*}OT3O!P16u*@a%PQF9QH_S2k>slP!lFm!r`&
zuBOwe=nLp4YcY#CV>C#$POGVr?bQuCL#(o=Mbzq~^xF5BugT$QdUryWhi$7|!tTxN
zhCD9q>@&&fXt=HD@5w!`t<=R#cgQP8ru64V3O2m@ZkM>ir>}~NDnjbbMbEI{n_Xlf
ztCjVC{wsy@fNfw^xHY6tm8)m2=-O{jQ@Fl5HV_Uysy%m8mA8(9k<rFKn`+KzTK!!C
zW2>lK)`6YNTsqgMYN<UZ#kN8%Y;ufoDKFWX<!hp{Du`-nh?i-37B^Yy*6H*Ux%1Su
zo3a`T6RTv@++8k@Lo?cQaoKtNl$zyspwm+vjc_?@mPsv8IXNDOCbtu#*{0LJXO83>
zEVoik)z4{>vBb#x0CKdHJwpbKrM4=H7MHQMzAjcHUg`?XTTv{fX=7gOHvB1M%aJ;Y
z8Doo9*<GT+uhi;5OAX6idvdqcRaMlKJ8B?nY};HZI!j2@XkZf7xDZ9v-ByXE>v395
zPtqg#Zn_~URVF0k6nSk<qWZdzLi<aK&}rQj>cA?Ec;0dau&3&6Cr;3rxuz*V;lWVp
zy+K(tzJ)2=3AL`WYyQAr(WBFgDXN=ERUk3(xGU-UbEWH`-%#-4dH2~=={-ALsX4OM
zKhkMeI-ZN9X_R}Xm^id^yCnvnXgz{abO%q$@-*2V*B}1?d383W_-|6$a_3dMU>F7K
zBTueR9bs;g_pzbem33LGYO_%jQ>%Jr*#Rdc*IOAzikUi6Dmk~bJ?|b3@~X8trGigI
z&oTc1VvCPobrYnBRv8K8xbm{v?x!}PT*uj@@GPjJlI%&#bdj*>`Dsmrk~!DsD&DVA
zqNR+AX^4Mp@`UJai>=hDSylOl#?mjhxmxGw9Vw;9w^xtUco`+hXRh=#FVW}vth$v{
zKBILev7gXYO${ESSt*Vewdae1v|Uv%M?Uds;#ke`wZ_TaEXo>2?~KUed)n$t`YYdO
zXu3TPnJ2HWQTpTLD@x9+=-N1hdTlh2%jK5>=(>$|k<plBiOv?cxvL>prbDUfTjGhW
zX+O#>WG+q6++vlRPM43UdY)kT-!P;+Uik~uw0@Lz1u%E4L+zXAD=qkcuYc*CIj}x9
z$rDEhkfiF5#d>+z=qM@6W#Zx8)5+w<v_U9I>~~nv>!);7GDRUjq!VR{rRZLzeOKq}
zrHz|%TiG_JU)N1n=1i^f8+C6UwbeSk2c-*G#u56B)`hilTMJ8;fvftSvq6jUtf!7i
z0I=Ayb$w6N6_tLgsHE5p?PO(K^XQWo>hLn9_qcOTRR>XZ#Y>y%&``OIJe{c&cgo80
zNmJ3FZn>$}FjI;zLFX4KS<;eK6F#F^j&_5EmFd=2>azN>*2>2daL}|GolQoaPqI(U
z$^hoXu9Y^H(ahqnKw8utH$X%!kJguku;`}N!$i|Zr^O>k_JVsX&q?XB^#xw)Z8@(E
zIW9T6^jWC29TJm!*w~r}99bimv7(WZ>kUs<xn!Dgrfuw9*;MrHB_z`sYMf+!{{Tr=
z&ek;jV!YDTR65(UVzpX-PU#J&^{Az5h#WhVu}icxp6QfT)wGlm0R=wCTaYk<h8mr9
zz&Vjh%kV}}U3X7d&{)}<6G2Ys9-(fE#{Pbd)5m-7Zft}V%l0#sM@YOq2}v9U{{ZPy
zvDW4{AMmIqrHe?ZyJ?>rul(%)0F~+Vzl$9fA`N_wiQs;j0?T!8R_R*AQaet8uLr%b
zpCn-&rYt2XX`;TGrmnUNHleI-zUmF*PL#d1vbE#0LeB~7TI(@`Cjq9&`YO7r8HAHk
zOCUeW=3ePk<1Gc_lvwRws4MC%5viH%?d?W%{Z6e;$4uG=RSt3hD$whiY}B@@(q)L-
zpG>MZ>v6|ZzKedwpVNCF;^OWsYfWtsbylk_M0;n@L~cFy3@d-by&<(RwrJ~MrIp9@
zNZVN#OR8uUkpBSJN@AMd&%(;}4P;PM6Q@jFoH>P4<JH}X@_$FBbsY|+OGe=>RWq4y
z)e#5#FEgf=nvYfzRMiLB#`g$KK7CH9_N%Iy?C@Mww2*Y<a06Kz+W!FR2I?vjQnpu=
zTy$Sn>e^@IuTN0I>v4YSw?@=-N}=g$8hlc`AJ$fGrmsr%c0o4i`&=UQ+BVh_>Nv!{
zcAWmojWKjxYL%K*9%v}z4IF}aKxw+xku_Dd3I;is##CB{n_R|iI%QaQ%x2%Zrjth3
z!~IY6dA%O)8OPB|IKOUGH_1wqH?{TsBFZiB)3vU*=@u)`-PIjE9<1oAs07fLTW@t2
zqej{7T+<sz>S;S%6z%E$m()QpM>FT_0l8I|>?B<?b)rf5S6xmdmq_<pA<ZgEh<^*<
zB+^h#PX5KMBrI-^NB)se8zd64JN}tiZDnhz>bg{LnWKaUfqSze{{ThE<C(gB9T9lw
zK7OT!iTfyN-#tHV(b+lGvTD%ohLj8c04Ny?Go^K4s+-X<h6~ua(crCanW(`_YKA$u
z&DuFeIQW_5QUj;bX_)KQX;ZlOxVTceniNObMO6_WQWg7u5Om2SH1oO;=8JpVWs&MG
zprxK-DP&<T{*s^eTTGj2>7enY>2>UL;+{C(1{)!@)^AnP<foF({{W^puzY6+_CRV7
z)JWe@RBk-mg=NundLFA(X|)=upqYpHWx@L=lXd$cVv>4b@bu=Vs5fcWVS7($FLkZy
zUWBNoXfsIJfbP<?)SWR&M;M+NMMNVbe=BLy@@TR`Jy?tn1I`LW;Jp-S{h0Rj!EKE-
zb7FsX$}B&1TdZjHRLnl3!-)Q9&BFApavdT_$Yb`Ka>r$2t7_(=d21RfV*dcVWfdtt
zkh=RZ)Iz3Ow=$Zi^mA~pTP;j+Y^Z^f{Dmb?P*KDSoufm0ex{ohov+qouaj&}l8-ny
z@BaWREk3pvwb;E!QvU!;YjmoE;mwSn@Tn<VQ!nvA05txG3oXutt5?xMzFL}UhJRB?
z2kr_=-ni3U8=G07)7Lik-4tQ33ctr~6N*yOW+PDQV?sSC;Vl-hEjJ4@{{X3VDJ$CO
zBY9wV4i^?%i0e8-QPi6wsHTV$nC2K;5A-gbG@_z`u(nHFGQn<Xu1L-l>6l2SZEY{D
zS)(1+{ZV0N<7uqa9RuGb9Cx!zn|0|_nyoZd52vW1V*tP{z$!gbk3*?%ttBCi-JZu;
z8*|+O#xT{DT4zgYbnR_MpRH5K!aE(O_EYMbPPaS`ZA{R}0Ks9pB9gbJX<6vkwqoDq
zng@{K_E!{DeK7cg=(WKp{{ZuIVZ;9bDsD>YhA~ZAJnM5b$+lO@LvL%{Y`S)vrfZ`Q
zkI<-j&CQZ^3>`C8!s?izlpgoW%W19YeLlPRexz~VBtM0oNUnxZY})GjR*1&#Zl6g1
z0RI3%WNYKnSyBTunJL`UeefHD_E+LvCDg8cKA>b_9puPajb3dP(HSXqd1II#(n=7D
zp3@AZ<ED*ffz-27MkA!DnS^$crplYCdbX|Afx3eOqAttWFOQJ36uoBJDGW6%ilAEC
z`>Ne{T>SQF*evhm0d6r)>Y2H=k3fe=(RzlJuB6o<4nNDgX&+*%tGW|k)0%2D?Nmt{
zP5mP7RJ{wN>2>rhbxa!`fA=GOkK8N$YeKBksr_9qQkrJl^hoO{%5qOdVHDBkn#EMH
z-aSg6(s03WIJzIEbZRYfrOXjBrMLY%?BJ8DrK+!aimEvn``Y0@MCdJgDA`}5)^5MJ
zhP!KmXs>-5QfbmX6Q??BN7D!{WY7W2Wp3a;;b|*$j-J%1wo{#w+SiTNUUw$7)iiJl
zJxQDUZj@*DN9kUrO9Q2-o(CW1W<XP%WVSpco{GJ5q-3MiT<=)T8@!Gbl=@vfQH{}W
zBd`}+JvJKX*kYEh3W%M<?T|h~ywQ4UCcE=RtdJa%(~sFaGTwxo8tBL9`qqxiP|rab
zBNhV1F1@E{l@W;{Yv5@a8$nxLXGrPqNz&BO#v}vvw*`6jp|0o}eD9}xvH%T*+i<G<
zs#R7;;J0N%v^W_kn@rUUByMa?zp~M2{YmMxQR^_$R4@xRQZ80<O-n$io7DA<yf+Hx
zN~-CJ8T>gKU)(rlLRp`5QDdz(KdEY|8wr<AV@M;0n}w9p^=6uaD%$Yd^3{E-(&;i1
zV)Y>hg2T$AW}8mqdTAWzcqy^9Eu%QIUln9=(3gVQVcUB-wks#9&86xRmcZ?jgZfLb
ziDgc)rhvy$nIicY1SgG0LauO%zeL+1;z)&$?h)YIyEUY$hxE>l((+{n*Yd6PPM9;Z
zbsVAQ-=)Yn;+Ide=$kX4Kg#|<`m5b1T81Wn6{g&f;JPC<RU#5kxRCV6NYF^(9divl
z<N1NXS_;h?Ej}Fk;~Wvfqtx}iFar8|r$aYplW<jKF2Abk0K*kmq8sfc%)3hG$!Y17
z#_vrI*Qw#EiN=wot{4Yu#xj>timbM1eOSTGn!OKCilUyMZA_6&-z+vlYK)R*xs=a_
zDLWUNB*xQ!uFA^lng-G6bgHO!M;wsNZtcB_BxqHT%e=CZRt`U@1ESaJx+eJR>02XS
z>zPJJ?zHi1nq%mnEb$x<<y~@rYK~;Rt%65PCugNGA-)b(e7z{|QPNU3)W0LTuGhMa
z(Z=IRDT$|nw&(X$S|?Z6QrB*L^AO{Z;G@QEl~Y|BX}WdeGTDysLN`a$E3}Bj64OUL
zJ9`d5PKR29Q>HEs_gjmsy<GZ)bxz*H>E8nVl@m=<6L<QWt!G-$YalFR1QL;u;bC>1
zhM3d8)rIEd{;1vm0E8^;ZCgFh495g0^x9|APCqMDL;MqPQpvj0DHyA^X<tmr%0ueI
z9KzXl!MJ>^wxOXICG{xkTexR!&DN(()+#8RO?4>Rd2<EP6}4SIUf)z*kGCTQXk?U7
zCkVD<TIV=^Ur~&;$B8X)eyefNvl@7fG?MO!`=bQs!3u(J$h_=@;r;>Sr#_x~a~(xI
z-i*x4E-nwkzCSLVGFg09){jDTf|{q)iw$wRz~LU#8>2GFK#Y6A`Y%7C>bieT(CUBm
z^$q<(*nh}geX8pE`yEwJO{-KsjLzrA*B)BB<(KH?SogB-ePW`0TC!<L_s(42-rnEY
zI$FqOzUJQQmrvDcs@dsP##<|RK2Z*)cEco3yLrk9=x<}@rHT8U`hG&Kl9oog`>>4?
zxwdIJDY8p&E=AS}Ue>-h6L5TwDcNZ*Zyr1;-D2Z_ZliEu1PmXlR$;gC+mxZr?R680
zzaMa#`}QepWJu=%ab%8gu^74#vQTaw55jKwZ?VlkWE&cZURpkWi=&P5=GGocmXZ;J
zVo67OA~^S(Io-Yxd(pHF4Lexf`$L`D>PCj%(l8Qxl&vn`lAb_6RYeLBy9KC(5=gN_
z7=`SNd9$peb6V~&RuzMKP2Ir1g~B!m8#F0RnsU1V8Zg$ho<|Abk_Ir85JE>e0FuLC
z;BCQ2y5)ga!U)Pf8#%Tm33M_V_YeuXT6(9F8s{622_zS|3Kqsg?mH=_QKHf+``Rj&
z?r&mpqO8-YCy2=b7x8OZA%oY17K=Cq1WtS}u{;$;CW*>6fSsp3mnEcu!B2`X2)egz
zOI+I#f0YE##V@&z+Et@8$hb5^7SYB^hOc|wU^z~7Ph+f~XMy@vTC^uXzy=Ms%9V$5
zhE|YHGNO)0HTF13bTeU%1UlfU8*qM9aXqIuPY$`tqSy(V<H#9OhXY{jc~G#6+@2Jm
zw43fsD;3dq7(&&!v8NcaD{uoR3OR&MY4;zxR%8JTVZfG<Z^%@$yYf1QE+cv4!nh9f
zCOZf!yIY0TciUk9017jWtrUae%c@6I#~W&4Yl}un8M4&Ds#EGZcx-~xF}A&zm(Xf8
zbkepLNLc3JgWX$0s!0V%lE5_cZWli<`m(g{(X8Ih#gaxGFUpX@$H(lDY(L2+LJ74Z
zqMfoww{nm3C8p28TpmO?v(WM7YR;&qiYFH_+a2I=f~~B0j?Q-AF?H4TQP}(Kg`CuC
zBp}$Ec3iQGXH2KX1WjDqpLXJ^>MbkFxVhn1Oz8v5w-r4T%dqR8mD3og?B$f)iA62X
z)e%n<V>|*;lyt0{0p-6{YfaPBNW%Jm;sA@96+oLqrG`?{_O?&^NLTLZ>PmrO6I=FK
z>TNc<2?L>VYsd1rUuoL?MJ1xIr#Sv=DN0hk6^vrlGI7&X(Xg23*zh<&R6$=t;zs8;
z%SzCSiY-PlvCTgR1y*XYRZ~J+PU3zYlp~ehFiRbDSI4VJeUdrfH%77T8)R#Dv%1FA
z&s7~+{KRFT_X7&&Osf`XCBS_bO)4Pd{g>@Dv)o~>Le)_g4a@^P5SVs67YsVsa8c7$
zygSmITy}6pSgodof}n?nJlqAX(AgD4ZQZnmjMORKS?g1s!<#8OcUYR5O|lZ(b}2Gl
z6voxjwAAz%Bw>;VY=3(!-BdEuJhD-7{XuA;)tNjO-<xLYhgZ}ZB(sIb%8W8J=@*_g
zC19SZ{-rx6A-3drLPYrLO@)K6<x2SFgDzu$@>f!JamhHngbIc>#5-Z|Q50I8MJ$3?
zBp`#rtddCNX#&?!dX9<r86DB$jb`ebs;Met5$X_G_O{>^cCy_%U*g0V2bQeKni)>g
zNIkw3jx#np2XAM>Pl<Mh=K5z$@W&mF+}_twih+EN*##pW=DUlI_X<t%NZ`juZ<Jf3
zDA^=$YlpD?ihBTZi}J)=#QnqIu4`N!Vh#L+Z7@9(>=^QzNIlbxQikqro<2DW7f3H+
zGj+6P*vW8jYpV@ARrE_+ENyT=8~s;BPWfcn8*)-gDq1vU#hSf6+FfI}Zw-0p;YF)x
zkW4qmLAQ35pL9}FyKM13H+CR@%9WE>LIjY`;@<?Qyi$wPIu=;9v<X$CRzeJs*~8<M
zH8!bJPVpShHXW7owMiwXEqEKax(0fBdY1nH5DngJtrq>FEid|qQECv>FbDF8c>ZP(
zTW-rMJa3_w*y84^oi9;im>T>P)C&x3t=nsic2T^y7`6MUCXP8h(U8;RcR{#H*I48Z
z5TjW=!4@{ULCuO|9@h&T9|?UT<L!0+3ML*}ZMc7A_PCMm7xJTNl0Vea0+FuV+~r}8
ze0!UF+WnMX<{McM!Ofj??Sr_mN(4t2@ddC7W1@3&l`)JD(~S92ZE*(T;b4L_#0{h;
z>;<=J%8;-g57?xUyG{j>vn62V#9`c|uy=9_lH-CtiYKrEaBNUDeU1%qKHQ&_<~iIH
z#yRaaCqF80VHvg40f^TUbCoo5=Ev%yXdAMhv~ms7n^q9g4q8;Kk=?R}j>iGS5Enmt
zb9IeGvu%{zfDdw^^xVeXu1IFJiQ~dgUNUfR@QsSaGM6^a2L4nJjn3>yM6?GLEOFz6
zOq~?9F_0~^k18rrJ7hkFehIR?o)AT>tLiCVebBnZcvF;99yuizPfu3UX4J-5@xy{9
zMv0q(*&D^erxh*(Wb7dJa79tcX9vXmeQ;D<8rjgYsUTfOhI&)$#y7C!fP&uzOKf(v
z*6tR8(|W$gv;*Ha1q(KV6-Wjx%yI4tc&9|%wo);ZLhHo)d^;eb;;D(^&;A6Rh~TDH
zY4x;Dv%!3RRdn-g<YVZARyt*b?s+zlHN*OX9p~CeH$y{F*^c_Oo>Ivs;BD<FQD{ge
zmPs1j%y9>WV@FXDJ7-~IkMjYAM+A>+zUuE!A=WMd2WYF>C!UH4iS*t9^4<!qsHKt<
za@=`WMxG}&@w;P_WNfA)9^K9CLJ8Qdv}at_+uMWSrrFImvLe10GF!7DK^uq`7y1<I
zVdzldwJyfITZG3rUd1{wy88$vY8#Shibx*Zw)RUC+}i@X)RB(O&%%3sIgj+XtlJW-
zdsx@-c9iGCW?k2@;mCOd;*f7?E&id|6$Gvf_P9N_@|0dw4*2{0@)Tv9TqBsqNaM8F
z{HWxMYsfys@{N>Db_wa*J&JR1+>2pK@Yb7LeUj4#xx`+_<q**mIJ-_!bb5tNB!GuF
z0DR#=G$cCU79Z@Q-sa)s9}8WRXuYVbgH(t%Qr1ca3Z!riE&$yl861xGIJMtY@kt|(
zxRQk=WSS#sDM`0%Cprf(V?R{Ok;t;ove9-W@N8^;tBbGtu#kqHS6agBSZnNSq7H8W
zq+yl^0~sUWsTv&Cl0W!Kyl~-U3Ctu_$1?*bV?pwjw6b4xBudW~$Uw-}o0goS^x59R
z8Xa${bcjkyf+7ImxLkiLxlzc{AMLpu*&iz-sRPvxYx_C8pk!@CPO(0t2XV@w2iW0L
zC>vdO0p&qaD_(AGbMS~`<B_At{m}EW<nWQAxY#R+Ccuj(y8Ijj;~CD}{3ep&f-Dl9
zDB=sQ6XG3#Em2<>TwZOIXwO8hHV4#b0Cx$k4sYlo!1hSVdti>>t}JEl%f?S}-3nrk
z5(i)%r?^d);AB}am&QSJcMl;ydmomY4+Su`#x=xpFY=V^b4`aUp40TdAut>*LA64b
zi(utOdC1Qx<l_5snr~&5irFL*77@jYEs{1-!mhS&{gdK*n~}oJSQ`qKoE)_ewn#|Z
zbW}ABIB>aB4UZmHwt=8l)Z7M4+x+)UpJw1%LHY#g;BHGVe+Xa;FmOB~or8@r;8<~V
zp`h>+ZE=K+aRa(qEf$4yNH|Z9cgOM*3HKGjpmU4)MLGkDVQ^J@t}YdwJ#$<(xZeDN
zs13ouO4%*m$l7Gy6ls{qB+D$ve0NQf2`pPAVc_sp6+KJX{(hNPlv;~!1cLrb4kX%W
zuC3FU@pfSRs?!va`$!~S%V9Gq=NDmb!UCp{hS+BOtr>a|#``nk0U$QP@P~a9cjcfT
zAzeNK(oL*FX4~MmDfQ@1Efpq}?HI^NV&?7p6>;eh+<wWAjyDT9dy=rEQyN{y<Lsh!
zG=r6KB|DgI%!Lsz7$IdQ7F8YXHnNaQY~Lu?#T)#66fUQ?xCD8D9LfGdS3egD7e!(X
zl6#wfm8>dM6xZJb;VA&%AVZDK?{zG4yEi2Gy3G}g$%wE_vGRXp;PByVuD8k*HJ?NS
z8&1$Y%EpD%aWIh+r<=fT2i*%!AwSH}JCb=%mr!H?vYx<yP!_uAx;*ExWgyOFnj0R?
zz5<GRgCPxh_Kq6f6arbQpI}A1p2}ez94saCZhw3r+8AS}dqtR86Mv|SsAPLzaM>Lp
z?&6&*slQ*Q`5buN!22kpW1jppxyOc%$gxp1IEAM28{2>qODhY(EZRE-JX&o_tmz!s
znw=yKrW=_Vk=@?%vl$%(CR-BSt?-YHk;8^Hq21i>RbZ-=-0#>pvs3A#hDR6FO7K21
zN(>zZ)zs6*EaU39`8ZYYm5zPQu6qRPxFdcb9-DlVcN7I%skG>f)iUe=a!r!CQ0ZA<
zBy$Gm9j)v;l*-L&j)D^;g^VC$d$PRmsQU6ImqS3(=W)2KU1p_OT_c|?j(I#>-A&F<
zp}0kMZF;Y-s$aR3lE@py!Lsw({YtvNZS@jJ>;C{#ihPhvS?Wk_e<ei7rhBanPJ6xu
z?6hLv_GZ_ijc5Zm1I^J9G|On>ZcZ*y6dFBUOSe6)x1G3Joijl6nh0aJALb!fhuE%V
ze@=8YW}x9LfHkK%?zg&UMmmZxKP(CI0*gbT)M=y+6`Nar9v04;O+k!q?Mfg#ZM~Cn
zYg8>FmAXujjMJQOEtFg|QkH;Vb4SQll{FQuit$hRi8}^1%A##gsbO`W3`Cw9c}m~(
zGE3|sv~n@GV|I?@gu?1}dmjDA;RPnQt(;Fp*Z%<6%ps=N>!N9Mv_oOy$$5W9;=aox
z9Xp-4G~d8VA!zsdZVmFY&g%V4zR_r&n}52V9cxyuEo_vAHXkV7!$st8X>b9hPc1|d
zj5Hj5Pz(<ZvyOfgasY4>Y+V*q`kYW5;vn;X(ynOw&UmcG(M4}7B++MB5J~Qdj*@UU
z?ICWxf$yV7sr996qS;SN6JG3YIkL`49-*pD>Q&TBDLgf}AF@AB5wHhKPSQNN9(9^%
z$EO4=ZLxH;yJKvvr_-BFV=HsmDQYHj8ZGS}0-3VDc|BL$jxe7jTfrrS_(s?OBAw@v
z^up;GbG_#%hSJDiaqS*ROskrThBGBiLtH@cgOZB2GEMYB6m27O@D(<>uF&bNb>wTD
zJ6&gb!>yWkK}O&k#lrJFOHq=hS3J4SxxLDoo1a<>ijQWSsXD^4vF?TmOmUvUWu%bE
z?apy7Cg&(<V|_%scM*Q;Ytui5+QzchI*hf~7Z(bV$6X64*_xx%D=S~Nnga9iuBo~o
zRCd`aDa0-R0KDaT$4>qlbxwyC@eB`latf{LO*5!O+be40g_q&HlqBUIkkL_lY|rRj
zHxv#4Z7*8LH1P`s?PMm4O!zD>xc>lGm7o-|mTr)Xce-_SBmRhKBW}ziTOW4iG8RJS
z*f`(zM8OkYLoRHF%tISrE4Go{O)sNH(D#<^`l)N14J0JA*xQm;J6_b7))VTVlXM%Q
zlCs-U*NY=_Sa22xUg`;bR|cKVJOHY-jdn?-FjEri;JGH5r#?a?m^s9rR#31xCD8<N
z*XnW;A#h<lU2A%GrT6VS*^!b`Y4lqgfp4m_hB~HLM=hJ+Dy3Zs{>vFOsHn!>%yIZB
zV=zK4=G+7oMN_GxE}G=5&abL#)$DXyPMI+s<hBrUOS351cdvC7JtGWs>@rM8wXM!p
zb4;h#bxl>3T8uJ7NYl76-NLTXbd6#f;WcXsmCoR;d*rSS0)6cqAd{BZTBk<F4QouM
zp!~EHcYUpUVP-3IX6p4Kd8BMiz4@}O)T<+=g3PSEpVMrhD5cbONqr|tEKr_E@R}=o
z*kwIZFLg?dFHVG0M^a>P7PAf2Ofpl*!+JyVT;5f~Xu5Yxgi9maB-Xhvb=5siy2|;#
zDW%3Axb47HaZCM@<WOtXl0po0(AwvVSzi7fX_Xp`qt*r+_X}OppM}->qnlNzKht5&
zm!eVhT^@~1`~Y0wIY}hpv7*$BwO8Thg)KL!JkOF+FLJ!=s<fAB5_)=Tz-8=ky%Vc7
zYW+2j^tQWimF2p}QP=7dmOcT`EnL4O??}H0*1{;9%_f*u&tGW>y_Jrc)b+Zn3m|)>
zXuw&ju8h_7%5PD%f;Jr6y3lkVPS<q(#II|w{Ka(gzeF5qjGITTudCfw=dqmQlv8?p
zN`!+`B+u_>I||2N)oQ7jWV|og{JvHjS?kKF*ytnEiFX$Q>JrK6BJoLWnjK=UiiV%l
z(}-_u9u|5=OH#ul++2CPle$WRt6P`UsXmK&vxTmw>y1K#r)j+gG)ngiVOc?_@?@ov
zNzw$R)+#6mrpLGu$Y@)Ri>QLNf?Cc`A<N48Ikg(LsL3T`gl={CzzgW!l%na%ItD&k
zGc19*+7ep!WqqQ9Rhph4Tc_#9SN1!3RJ7FkwPj|?)=Ntj?`!s3t$V68+6bK5S`D@x
z+hu{M>RGGnL+6Oc0OrTCPAX6T0Q!egX&Y*NH>csF5lLA6_Q?)aHJv@vG|zQuuXK;*
z(i@=N)m;@wOL~_dRin8%ST3ymOwvevI&Ckg-Y!CE#xZ)U6-l&dD>dypYLi1k#^Bhx
z$i~xYG>{saim!dHL2~ihKB%jzssai!(ogcWYiV>{V_J+lLg<=&-BuHAY)M0U7pgU=
ztDpILC|xdW2p1|n3X5B$cdbWDBVKcst=~m-#+Rh9yHE|5L;T9ySL!`0NtvRaAXwf(
z7bR+^W=EB4ls$8)`+X?`M{C&|(YjWlq)+SXl<u(2&R3yB*A(^N!>6KV<KJSe>Kctk
zu9?<r7!P7OO55!QF;B6Y_g(2Ulm;4C2D;o?d4*R}>h-nHbv8jfhOO?C(qEl!>Z)cv
z-bhzkXG=RxpVW$hj|Z>;Mz?L0+EkAstkU|UQD`Kcr;DPrZj9C<m9-KZxu*8I_F9c6
zRn!QIpHCFy`iEeSqv$HI&DAw-ZTSGK@;Cm27(~HAKC~&nEcaMi++`cnnhRyA50+^}
zm$?_h-N(~<RS4fvQs<H6pmkk;r}T!Od`-7?1?0jHTPpCmt(84d(=V)|FtV6Qy8*|t
z&-CZv-4>ZI<|?XvH(umlgifpYofE^M)1#WA*a3{Xq^8&FwQ7Re#!E`W{a}Tje6!qD
z8aSaI*|4tkDcEA9)E?pmu(H~wm0eIwlRBby{{T;AEo9X6O>gDq5=eX%vFV*|mRdm`
zp+@lSzo<0~Yb>40LrddbBhR3w1-_eTTnITm)D?O)EUzu8l32WMb`|$qOBF1SsMFlw
z3AwN<Cq+%H>(xz(&wE%+fg`eI43c_c%1}$9NP2&#qLeyHmp?fd<!-c2km#D4X3Ew8
z`(FEv)cObEnSz*4B~)`<Ud}@6x@&aS5gT0<x!PAta)P21r0oKA1#7eh7<9_g#{U2-
zN$jyw9eb#1_PU_R*Bf0sRfF@h9ge7x{{VA!YtmX>bTc$G%N}p;ZWdVW?HS6EXP|x=
z#Zk5Tjag~#I10~J&}e#Yn7*F1k~O1;I^|!sgHm-Xo+_jLK3A7@vt12#+Pcqg!>+pJ
z1f$W+r?OhjYNDad^r;&pXPY%>bTb~-UN*7E<AfJUojOQc7?r$oLe!p*eOm<dx{G|+
z5Tg}aMY%6wQc_VGPgV6qV~b&VS6Fp5HlI}ZAf{``IDXaW)t{ZyslP8MjzBSU%FM;n
zl=_uno~oFTP5rzhIH|tP8L0X*Ju$DrT{A^smN9%D%hDq18cGTu`e~Y5x5}uf&`y@p
z>Ka&OXLh}zR8%n5xy*edV0UoQV5KD1hl@{a8&lT5*7YFS@fGk@_L&Bp$ePDT9OL?2
z&{ZJNng0N`PUFT@f0VD%rS)FfOGk{Ri)m1@R?XI#NkIrNhLSjY*fmpirF8Jq5l<u;
z96HLjlDnw&aA~x<No6Ml+k{d4EbDzpi7I1kO+4-?o10o%65_iuIww-=x?Mw^13)C?
z$K70N9dWN}k$N@L6BiqJD^W-IUt6a~X=`JR<NBL$n^pK<SE)At0PC<u2L+4?B^wz@
z867^qLZ>^QNqLX+DXY4gR<ms+u8elGxKis~2R4VgN{vbirZ>12Dz=U)VIxE>5+4P(
zQ?KlFlP@}7Ri&zs9acjy{{XnH7P}`)wu#1>%!$^%EVFd9bqsr5E}GWHP4@t-t76jT
zrz|i4ZN<B;h)&}~<qCFXs6WsuD~oEH$w_t(3wNfor)i=Mj0S)|Ned~Z!J*L1=hs4F
zb@+5-ghsWg^!-dthfb?wWg^xAan4VbBdZ)&8wu)Nb3&vBN_Mr<kJGg~rn<XOs{jfX
zIgRd4e%Dm`KS#-1c`8ktdxECcs9mH)8BI|bb+MZjP6{sDB<Ck|YU{ejumMbTmdIc2
zX)Ox3OX(V#-AL*c=g<z$#tQ|ArPX!%DuFAcYvTs?BH?--jrfLYDVr5d8%uz(+EtVL
z7yTMWbbn1%z$21a{Z@<T3aYw~PtgyjQ>RB$Pr!V3+&)!Y`j_S^HqkZAd(Jl=5pC(+
zVzNE;l@9dJW}GEi8tBg&mtcB~dOVEvXkRR3@W(L&MWj*ccomH@cVn<srB0bkP6Pt1
zhjH#I5A+EkyzG+p7u?qb@XO8V3p{)fEk=hyrjK+Zcbi-)imgsMNo@w!JIh6pI<BoW
zOmqTcF5DaBstrD9C)AoMY25ZW@Y7<Q-_bQsv(R*HPg9<au8y_aPh*uq)Y|5~42Bwd
zvfJ~8aSbI56x*PhdUsm(BMPdvjr9&Q#a9%>d|gkQdPDF?$sUpF{-=@C)4mz@o8Q#2
z{ff2F`cJAlex;Q)5PO-M-D$crQ#2Zm%CF!H^51AHeX8n|FVl>#nkkwE?BSB7EUpgy
zl~7V3>0Ylhz}ihphK``x#7e+_;V)A3_fBe1x^MkE3@;+#^z!Y>%pGs1XC$@{Mp4{4
z$Qqqeq3tcBtCMNq2QH7Ea#o1EP=nYFRTXxTGoy-ylhSteLtNqa2uheIsRQ!hLVLA}
zNg&oAA(Y7^z6IABwm{$ds!3yze=~Vp(wn+%9T0-6qqOdgcB?3Js-STP-5i3%{nedE
zMQ9ZEHBGA1+&Ob!c9olxsRR;}1kSkgf{%x)TdBkOTFIqoaIht}2_8vBZ4JRm>456`
zB>;PyL9UISCGMuuIvP5-1ymZF9U<&RkM0!z0Qy{(equQtBY6Zi{{Y!dOIbFWJut@K
zi;IO-kx6V%jltR^)92T8+Oelis5r(yOI+*z#cV0yo}vKhYUigm{Y}ePpK7yKR!k;v
zEpvZMks4)AxcI#&>f?WF7bQw7v}bRoX!U6|T`pGC#i$C1+H!4teHD!lSW(x~eqOGP
zzM&QpM~tjJW`WfeH+!7+wD%6UL(}yC08nY~6G;=Ez-~)Qq+5d5MC7gP+STbot)=lf
z+fNHEtmuw{?lo><9g)=iMLY}<vHK<P?iEi`Ppnr*ys>~D?9J6bS@eW_qwHptr?REZ
zG3$}B?LY0m0IhukXeeRZSqvoq09ze!SCPY{SJYJRbf!BV4lcI(6f)7o-^}ijqqB{|
zNk&L`xUl}F*R+^n*$fRX>}|rc=xK(d0CaLP!0<|jdfu9RU{z2+Tt{Kbrg5Z-XHBKY
zJr>-w2YX6b>ufTnsUC}{(9uH~bgYfUi<_)YuU)6p$XdwU>m0SF;a1DlI-6Kxt%uf!
zf*s%PwS5((Xqv+rIH0MgkoPBZN@&lM(61jAvk|RTbp1^^d=8qLaoFXz`YcJ-TFS!=
zfIB|d1@zXd_+g=HbcK$HF~ni*79n|WQ~nB7QBG&mwHW4TKc+!r^tx#~1Y`8fYh6)N
z&|2q~__{wt(qw%=l(so`{{Zbu>s=KVpQ&h1**z}nV32UE^i5Yxbx?gxqkB#o6kAB5
zPRr<M`g2gF5LW2*I&_w>a|PH>n}wCvKMv!XcO5y>7|#xKuXX7Zy55NTU*l7?v4Q&7
zY)9E<^=_}Cf<nzUSxCPwWq@4yb50+{7srY-?DN@w3U!w}x;fa<{{VJX#);7yrj{>L
z3o04hf{D~R&suH$J(4%eaH?I@dfil)-y<!^Tx-bkXWB^}e+C%)HPld2Qxa)kB{YMZ
z8;{vqR_k@JQjb{0RKPiBB{QU3r0Z0zhJDdg+a$WglpkC4y!w0&bsVw-$Z>D{@VfD1
za#tc5Ck3dOPNC|JIO<{UrE?Djyx93$9);_TKADydXm9k9WrC^c$!e-Y>Pg@IZOXQw
z>FDVujq<UR#tvNEAK7$8sJc0tbJ@S@ZlUSjUWxmd(KWGS-Ff{q?qzTkmG7o&jkgna
z{>x15D@Le>^wlknOMZzku=?XgEm?>QSn@bmloM7(Hkq}39<5gZwPRet{{XuQxAtA8
zYduY(Rff~*hDv+;n)ZhaES8Y{L8o+bJjO@qW6CA826>4UlEUI{;QO1XxMPn<y2&=E
z^r`jeHCi_`$kt9poweQmi_Ln17$KfZmdHuDy1mhK%_-MplD&`a_PdnrZ>9A4VK1cB
znCX9_UjG1aif}?W$(c<jMW(N)0ge!x`NH%q3#A)K!7kXP7UUb1i_`S#x+xv&xHjLU
zwA?ELsOnVW?W=oR+_lR&KS5Dm%@0t%hLWAeq7usvKvi8ouhB&C*V4x$5A)kAsCH`b
z?Wol3<NUJb{{VFbet|_oclwTPyRh68E{tv2tLX-qxy@sT^p%S0O+k;S-=)AA{{U;6
zGE&j92wd3<tkaKhxJS(%n<Rdtp3vc+VZzQ$>?tCnP3kRbl<kt8vN!r2!b$p$qH2In
zpA!##yeTTR2pcJ58VUL;s@k2iJK6#ID15uxEAT3`%XzA)D`Ens7K?Li6f`=O4xcW_
zC3v~+Zl&pp2sJ5P`NL-0+qCkn>%R_ZDq}N6Q6zZ1`Bq!(NBZ<vRn)^*PE2x!$ar&I
zw5r)O{Z;HP{KKV>{_aQJ6#kE>raNM*Y{94XHQar<L{d`K&>P89>a_9?D>%ck6y)@0
z>T5MRNX$lA3lCy$66pGsd=g!cE@9<_Ee%~>oc4bn1~~W%ma2U=H{K?`7k}Ina^$--
zqT=q0VNV@>Kd8pCIfiU-fRZ;uC~ZVBn}0BBO*d8&JVPW+n09c%3tgnsQ&d5<@$L>8
z-O4dZ>4DnXE2v)sBOa!lWQhL&?!;_I*%=ij6rjEd97lG^$W~)RijaEr)47=aH$c`r
zN;bKzYsNP>2sG2|JgkO&5wo`v24gnJS?yC!nvKqL9ea0aR^;js4b3vV1BbULI@-A^
zSXo@c#`cxCKXlyd`5-)Z(<v!Bl1e%DNO!lxvbLIKMun`?G`)<0?#3~7iFZlOs8ty#
zY8yOc-1Z?_LDRMRU7s@?S^ofTROQ8w7|JEhZ%#!OQyoPn@=d@d;G<bbQE=L}SPlqP
zR3=F=MOk<9Vso-Tb*j^4)juj9Q%xOAV+31k!i=Ay(b6+LPo+~-LeUrnz<#lU7Akn<
zrGKY5$7fpwdRDCXrFrz4=+6c>427Pmp>;!C&rPo!>?c2E(~5MCe34C<ny4dty`y0~
zu7bL*m4+v@$sZWyS!#M@^rXuhT=opQGBV$ysFVpu@W}(maJo~ooyMNaC~6{=mIQ9L
zJddhtq`0%O@)bX#`2PTj8_Qka<tO@uy|Ua9-?A=D$$b`O&S=30?x6L{TtnJG<P`*U
zEq+78ll@bBTrFW}oAV=WvG7wJP|_?)Wy6jLNa#!b!PfdEKqq9aaJ7`tQ||XThPUUG
zG*LP+`ic50O*))P{kJ2{$}NnDh-*M(Sou7uwC`EcKh%!!17`X9tLj}Q3xIBXs~G4a
zXtP)_nh|N(Ce=}!siViK3EU8lVQXwwj;fK-NM9B|?d+?}aa3Fp>AZ3X<ykbzZEU2S
zw(OvDNaEpHR#Ul-Ah!rY%Y4}i*lxjrHunU_w){CuBYYBvH*3i3fsSz_8A#CQ8<j9~
zTr6-?UeMg-V_7s;=IH2cw<@|94Z$0{G*~2-kkRa#%_hmf18Zcc8Mx>BDWe2sK(b*F
z$*}jb>bTnWZeoO+_C-@Q=FKD8Q>UO&TNIlQ$M{k^BXbY;QtC9KC+-=#5-rS=0^`Cd
zfuNXVd3M(~D91Iiw{yl6aYh~*{0nCZ(p1Lg?0+io%GQ}FW3T|NKvKVYiK2Mg)--&o
z*`RT`YCc#P2If2)_$nX>1dytvq)Ux37@I6+?nOl?aJO|MgIq0a1ja(rJQP;C1(LGF
zUg15K@`v<ZICX+^8u9$d@?fHT?LHI+MuKjpF~89yI2<aL$swwAasU89x@PniBlTap
z*HgyW<A3pCYn$H+IF7-7$b#_kViU%ND|(MbWo0<4pg+ZCY_suBWNyhu*S7?Gt(0w&
z5xJKi^0V6g8%*Dtg_|V)cKKZS@!ru)Q)$rMGgOv}aK{p3D(6(F4vDivmPy~j$~nHQ
zHyA2iJ5rgkni_|0jQ*R2!;&1;9k82&v===?Lyx-U0Z}X7IR(E8N~jD(7P{<kxI#U}
zxC%=eL(3;22EhLS2--+k^X(vJ=qOrbH!8-K0?;gMi&_;(u%(M_fOgk^Wp$=%byQCt
zn8()&jyFup2^x0a2G~bKDX<?2cqiE0n%XvW8m66Cf9j(Ql=leN>9n;CKbELuzxKM<
zSX^_KpCJ=XRWw97uW;}|NbvsvWBkR{Z4;@aKBNv|>_-YHs-DJx=Wk&0n$32w#p%=^
zRkp_Lp(dTK_cU7PfVac;AC#7{v@^BNH)%i0Mi6mHO&AeAAX|JN2^<+H_M16ZR>M<!
zFpq@G9eWYvOucMvV@$Mjf&k2KIZ#C;b2#>Qg`JXJQk>>8;ql!`Nm%DUbd7Xw`9_?3
z2A@W@n%4|)BzZ>5rNbm;@$GfIa;dcXwuTMv`=X@OLl5xX%8cgvEsr0uAG)2}ZbGQl
zE4Dtw?)Xz`dXNk|ot2K%YovUnhY~KQ6y(cEsG~_uD{34JZ`kjJb4{t$(=;-nqIkdV
z$yj|dpb`jmk7cE#s&nGmD@g}}x?={8IW*aEFr%!GeKVZL_h~^nvqy&ugvbx4CgvZq
zv23i8FdhZ`s@)T436Pg%sF;hRuq3qq0A%(sw)<QQRMD8;ELuK=Yp{&lcJ6Q=P*g$T
zkGU5e%92>iMdK#OcDtXRP<t}baSRkSP>V=eFOYDdnvz%r-R}PYxGL~k*9SC~pM_-<
z(}r1(-Yu4uw9MbwF6mfzFqePAb1L9-hpfO{JSK|Q#Uq;dL1psPvcXSS&ConX{{ZQ7
zG!2rl(@O7Y+I$rw82C>1+z!P7`FFzmO2Xf&o-;PW82gV4QH>22uMClhH3%CcJ37}Y
zN{upxNKEuqAc8Jf3d}NRMDgkZ!Z;_oHV1m7I6Gmt>Th%&%(Td=DXx8j_Wjfilt%5Z
z7e>t-%@=FKnnx&RMAyg+w@RY@jO2#P2dp<X&IgcrQ3?mNg4VgG!aPH_F*twaS?SWo
zeY3O^;H@U&v>5)yO*5s74+hFtozBKp{F;3wLvI6v9&>B*sOw{vl2X}Nc8}&9B#uQP
zoE%7Y-P~k%PZ1T+7RWBr3GklaKnH}tO%aF4%s(wsvC+H$&;e06=Rb6Ttp{^(RtY_b
z;HL+;HpE;g+D|Se6B%TdxUwynVK>V!e(Fe_*sgRNMcV9kvK~$1-1B>_b_xo3X&iuu
zE-fXm$WZ$3Ypm=2QodmB`C6<g(CH&<#o3e_!@=i{%1=;-UiSG4K=!@47Fj9-b`B-%
zLYgZ)V5D?xb}wx5m<Gdko1y@WvDV}#HQ<qBpV>MW2M%ru=f)aEysXTE8)vs5G^Q6w
z%n`U<HaFPVa-<SB?v!FFcD=U($HEM@&hg<JD{q#C2xjMTWraE!9MS{EJffQ+wk|>i
z;mmgz7eq$u0I;l)(z_?Jf%8~e+^HT3<FXQ48-s;`bU`cH;zO*V5!n9#4aKMXCrcZH
zt_~AJt%nX%P&sVkW@!%GK^?+2i&K^oJ#lvb08>XFR3NzE;H0*9Hw6l=hEu-Fikisk
zA-?9w-quu=u)y|{w*@js4fhv~<C`vI^2h%4exzr(847$$r=qk`#@Cld@(+TUBST1R
zg2w9c+DmJ|eH`Jgwf3A8B~=A&KenQnybj}(8f&rPHlB+1w6yNM!my^QXs{y60Zc)>
zWZU{rDj6H@=WB;#j+xN1CX2{tyA6%Po(hR01<g2A)DI=wNw?R!v<`05xTI>CoBAQE
znwo3g&40oizza*5Lx;kKz84o4WOoE8spOI@I^=l@i8>Wz`y5!(NO1kq`X#5?d-H_S
z?dIXvx=|~d2yOQdDD*3r(APTWY^=Y^K@r=%zUHQh+UIR>%9blN!ObS!!Xw67*nsal
zFKhNHH_|zTz84ms>{XDYWX%#pKzDYi-X?<tTz^SRRA$ov6FIKiJ1j@@1WR5V-*uck
zrJvB5wkK=+6fuSIa7YUe2V=}ucr3{9nDR@q2tGnay}{QZInr-A2kMrJ+7*+&F=7Ln
zlI)WVc={CA*zw209qqTc3;hv7G?_4AWSgyGtf?f%*Al8*E5H}dRh<)=Gj8A1gp8F1
zJTgmzZ`lhqAU7>Px+)e(23vH=ZZBd%OSA=7qOw?A(~KxdBb*}Vp4f00LZ5Z^kOlZX
z(JY;<j%&Vd6JKHtvYJ6@#uJ+FHU$!ML{70d!BbMk;_sfsCOxflbNi%%S*hF(!uFoy
zvb0^CSu|Z!%wqwvv=E7GQP2L{h5RV#q=u#&w%72brlXV8E{xg7wbMNjTL-P9Y+$&y
z#CHmwce*(($Xcm{qB7aoPAzpySrkFnwSoBIBQFBD5>3Waj@OKjvU8%^?`BeqI}RC0
zbRcPBE%y!-dx7K}BBX2DFfP<S=2(M*eij&EZg55X1dWui+naVOZ$aBGE~9&MX9U(w
zx*R1A7$E!=Bvh=Z!yF@U@`W*H+HdfckCB9BWCqD+Wlb}z_LmOHtaMHo_MZfzVXhl?
zO5AuUWu>Q`yP<evye6S<?10#hpDH)7gN)rWc;|%K+l9DIWkJ24k>v_#);xxsaD1j6
z?Ee7aN;b;dvc*L3=3@9+G{IsA`;ie!ZEe{@dtHERS6gVg1!}WhmLbh>v(7w(hB0h=
zkdaC+@}+E`9Fh;h4Fxe=%M5<XH(KCudz46Ua7=u6$XI&@wr|RI@^Eu?&S7Y}X*bQR
zR_p}ZFP8qrLgtakvf(Lcw>DC?Mm@Ga-3kq|7J^O@Fv=Qi>x7<|$zcj752#r&w97au
zUfeat$jIx7!CBz>7;$?kp{f@b#ny2q;)~+uNG;@dL(3M&dwB?0<^+36d8i;~pD1k#
z;e8Vau)5E%C;KTKP3ku7;Z{p7K^&=R>s$!2BFdejEmI_W9}ByXk*<bewZI2?QyG~c
zySXS?soj0?<ttVjqAIFj%&`f&Mq$AI$j3eG8-G{Ta4|^S^Wh5n27x!m@q1XNx+~-r
zJE@rBcAFIwqLGa@%0K7~fze-)-8Jx#1&Si>1a1~w?D5$hgP<X~m^Z>)`BRWMEw|A(
z_eRE2X!;5`$!T#9YX^~K%#xft^j!G=0LodbX=E0e&y?HrHv{)fj%bC1FaSFMGP*3~
zC6Uf^f24Q{7df$l7z>ZiY>kGJuAqYEvIzMua_WibXq&Pd)Jxsx0DY2$AWC>DWjo|)
zV|x?bS;jvv7%gbs<;KdkD#I*=?j_`S?4>N4q=!i20LTFg8iR+eebZ0R4IlUkCUixh
zNiVqI0ETAB@443}#t^kK#TYL#HMZoQ%UVXZ%Nc2-jxEo9+(sD8lm7sPPghYaM7m9p
zF}_Nn*Lv$tp<|(m&z?(mIJ)!wTdK7^N<siFX91&yIb?tJK~dh#=C#(Yq+^*z<~if}
z&jESnxv%OvoW##i=Z@LHRnv-@Mc(bcepDM;!}^@#@szPm?n5_S2;I&%ca(e&!M8nv
zT`x_ltd*@~L<8k*be@)mosE4=(U+dXHdf>IFE67hN2S(Q%-2X<*zP&*x7uY1ik+}S
z0~pXOU2K$PE}KUH4s^ocVXX-GCXe(*v;o|$`t*&mT_%P&z%Grr<dCc+Y%!aF(e!Ew
zk_!?fE<S9Pk{7<-nR)u*Yi6a{E1by>w&KcYBn@@ECI}vLAZtPF6s`2wFx#Rp`U?Ep
z%WWCi<lQsZYjeG&-g~CT&s&RI!dJn!4Q0vjI9YaQvRG@OjimY>qx_r%C1kQypW<x;
zuxP+cmLU-?eouuY8{BRh(cmWR-2s?d2)j+Zkfw++pUHFP%30l1$6i1!{UIp;vwV_m
z@GOC>W3zw>`XOf$HP&wHl`pJBn`3EtN7GYZYw8<sgsp`j4LX*2C2Ot0;a-;QZ@Y7y
z;P8@XmPNJ@)(+lK63b9Utbb*+V75n5Q1aH606tQhCR3gAmb~}}2pGjfb7IhYl8vW{
z(zkT7w0OBkpmxLQHF)5P%%O?S91<`Pvg$Q5NM7Q`j{sN&1!Z*w1Wq+GG_(uYVR@%o
zb;BOx4wmA^@LlCfSv?|=hqGtYonsc8PUgB$Uv2{OKBnrr%|>Su=QW3b6$NE<)l)i3
zi5~Ohs9GO0tib1AvR)SMTMLzRJj*1GyN&O{dm|D!Hs56UH0q}SOivy#v^_tdR!{CR
z?6(AkRiS&>PJz?ZO@*~Ja=J6fXytl$LhG814$5sFjnfVR+ser4{WjxL9XzgZz3tg=
zbf3=Y)SyvG3?kpCjH2(*uAYxWqkg|t06L7!r375Ga<d&zr)h0-q>`<&OXbhGS=zeo
zLaD{GSIqCDu!W8`vD=O0cazFb*}EAui5m%YwuPp{f~=Uy+&_r#Z*WvJvpuKU&7k>G
zYBCW{TxPNGow@=-Nl^?Kuu!{HiMK6q1!k-DK~CcNJ-~Om#PtVM86IM!k;TOR$SGJ_
zNZxfGwFEFaN$YnIFu=U_s;0MDoa`l#-_Iz08Yfpy9jHC;1ok{Fe0psQ7#l_&4|}7>
zdl!*Wrs%Q8KzIa&pr)m4O#!yTCWeaE>`Eo{@<u(oUGS(cLcs~!bHG6A`o$iX3!gN=
z8*r(*o2crj!>MUtd!%+Q8f?3z{{RU(qpbF7RW-4)Cud`h2i0nF)KS0Lm#fwFoqtme
z)7c~8zXO7{^i`c*r_nWrh({LOlHSWx2jR_cNK=U<5ZR;kw1f<mRXXFHNXqjAe@S(c
z{BU}AWAdC;u8JtSt|~HQt7v@wEQvLm-%!SXClqi(d%Kimy$z(&v(%edWUuD#vJyvA
zY4AEIHFf|vu?T7_X56-h(DV&V^Lmxqlx?}Wuv$s9oi9$I5y`5@8$hwK$ysigjrz`}
zVUtssupY+CQLkuSKcvx_>Px00o$k6>PNSnn4YLib>G~~H<|;X7tCXI_Zhs5<3{gF`
zwN%>$?g?34Gg#AMul025Az*MoTWWr?)*Vh6`7N>Alwm4Y>=KH)HoEs-XgxPbe=}It
zY#afV<Xv6=0P7v6fg~DT9F-0j-0Tahn(+O07ctb7&U1!Kz$?l+qwvn9m2axuOdEUc
zW<Rno4CS}cxy5OAR#f$uQ1w-Jts`C{ClSYVPpMxE+v?Lz8UFyesP3Gh8e4#Yq0$aO
z%HH(egFjKs1$@7kV8=OBgkxM{E56tlOLYsNg`!>9_*YuLSLyAeKA>ne;ThCDBSE6l
z2GUoFr93jgm6L;{>$L|x)pUidC);+T9Fk9s3n(V7GYQmvUdgJQ#yIT12+ogubrL#j
zHP_&Bwv_(>gqlTc`|G9jS==;$il3x<V?r&DO`2IH91ZtLl9y~~DKjst*K074+8RmR
z&^coiS``GEyzX|bO7^%P{l=~AdX;r7ew{r$O~rwIvZ8R*<#BaeU~5iyHFL`(n*B<w
zX**-I$n>oyHnc?$0CweHQuQlhh>AD?By(kx)F_CI$pfR9_zqO3U#p;LjMIi52IiFb
zXD*nzVHMLf9YtLgRHki4q(laG`B}NO?J6s>nTAq(+k`zflzNV&)an|Cp%~4H0VboS
zXtXbE8ho<XR2*$+z1LUqM><#8G<`Q!)PKceSsZ7QLa)|(FHX`}4NTX6aklG0qes;u
zCbB9CX<`@!!4+TAT9ssbt7`*pGD?h-eIl@Niu*B|1L>)%K&6R}0QYL%H>l-~lrg$|
zh1Rv&!m{ns^v<8C^`z9q&*y5<X#W6-8e}_R{HtcRE*J_hX*z7vZbeblHR{@@Haa?n
zHux@S0cbQ%nU1bzNvu?CzaiW$4HsSLQ?v<bLkZw*vNBq|H(7|Xo*m?jTMC-{B(C}d
z)#y5JNYnjFdWeJCIcZpGexRnT)Ew7T0}wU_=>DSoIMn8Qsv{DJj&`}%S<O2^qtWX&
z)`nahf^4|+{@%{aDob>Fwu7i?K7&cDXg1)KeNR;A8hZ<*sbK@<c}}ycboDeFLtnnw
z^wtksn!3Ht{{Ty)o$WjlSDzJ{QlyTz@uh8^<6rp6)3i=^qzmogW;JieM^;`fI*HCa
zWZ8JE9XqJh&uvMP!*jsG)9BqB=#BL9N>7q5y5r%uxigYk_xhs4UF&YAuZ_<q^6fqe
zSmMn~Se*Km#m>L!aayfQr!{x9wUPopaI2_v87ZZ_!}yoYimY%)9_Uq(&rO=2!@7C&
zS2R7WE_meSdYwHxbxLvhibgvh%Fb7x^!|x7u(n53Ixsl6y3r1ye^1A4?tQ*FPs?H9
zT?=2NX>?WXd872e@(R$>>Y5x>ds`%Jb+dacd%BuVrkv8fj)AVm>vE*kIx>zbLs2H8
z_hSD5s@7DDB-O5o%1Jt5+SawBnBBebiw_GT&aG@Udnt<x1}?FB<EZ1RbWznk)+BqJ
zu6jMRPo10NWWP|8<G0v(){U(fQEK&%5Yp5DUx9OFc<z?!8kmJuTfKO#asf?&noLx|
z?Wb!T1;Mha)jG3OrH%2?R+caf2W3ujOG{-V7WTvc0M#_D66~K$lhker*>z8<ekSRV
zU6D{p^xCpAYkKCVskRxaqmi$5jk_;l=q`}ZDk#|fMXZuSGq?hpIV9KY=$x@9(d3og
zcU7v$VWEylOR<7cnjc0xU6HTVq?EbG0IyH$evQ&8Y0Ua#X_(=VKme~l(lw1imEM7w
ztqnXT#hG%Z8Q^uv8md3Sms8V+>F$tQk8&2fO6pA_>}=lA<XL(*Mr)8dk&)F_h~01I
zQgu|iW1w@5bPu@T5LaWz8EqWg++NQY)O3!Z)du0HMBn>KR=qF&p`@@uSmwRlG}%-2
zUZ)K;aQv*~=aw5Q{*%;Xnw_&v5SQs=Wz3U=i(F+8&0d>P)L4Bf8wewi7AIQi{c@Sc
zNOc%wKhwhB>ODZn;W0x@_dNJ#3j@?Y`i6P^XlZR7?_%p=B&6>_j90SP@b^frud3Oq
zJh8Xt>v_~Y4@(A`>FM=Xw#~lRX6pl>%U2C2sKP_Jus5;rq1SruXrO&OjwS6DKJFJz
zIpcAriDZPL?J{j2sB1cIcd%1}V{!L4{HrZP@y4)6>3S!|SDaF6`nIE53>4Bx$DVfG
zTT9cLrBM>QNFevP3KC7d6jb{Q)xQ(98ra<E;*s0CgTkiJ^`55GtNkczDqvwbEzOnn
z2TW8syCsGQvHZrxJ-St9iBb8ej814gwbxUNsnn3~8d0>!wN8)J>R2jjdWqBG?v6`@
z-49NR2?Ht1rIoyZi`DwkhKbQh3=cN7?ZR*2#<0jWFU?I83~oHzkA-}Zg6Nc7i?`P5
zEvGR_r?`uMN~LW`f~ZL~GufM*FJ7wGdVaG^aQ+CA*&_rmC+iJL2&XNlEszt1%gQm8
zCS5s6Y(4tF`h-TBDq4DyMTYi^g^iy;uA;3qv(Yd&cHv=VaiB$8ERCq9r~V+%w5zRW
zQ`Em8=qog-+%0Rhg>*tV-rTlIPHRbMp?_OVO-JcLOB<ZgYXys%T~}Mx4D&VZxx*B-
zk~%8)JMwdelii04L8I113mWrELx*zPC6bDF*j2Uk2`+`MwwHW*Y|=L0%aj!aRrJph
z$wxCEejL+vuYXw9Ll(#*C+Zb5HJZAeKu=R8v%v{gPEL{;LYCQSqEKoQ%GrO32p`lI
z)}L0XprkR>R0p=*_(ADaBC3(0v&0>2pmlu*^FW%NP%)>$vgr7t(JzssIn=t;4zJ$H
z0o;Af2MYV8G_$Nm1QpUmUCS?mu^Qfir%+Amvr;mUZb4W58`Sz`BU>9M+aq`dBF3?>
z{G9tYbzg_nRL~i!8M(k^*S*)CYpl|=ok$jf$F$v~Wo$K0ynE@4Op|somF8N-HAb&m
z>E7d$`=Kc}Eg3~t&r{HPr%kWY{R)aWY6uo28#!V6hH7dpV|5&IvL_qtJ(UD{T|`a(
z43aSRRytORs@F)+*~8?&wXSwk&n2yi98Eh%q;%u-y-t!SY9Tyk<0{un=}4QXIoq8z
zA^!l{cVy0y=}mpGuvNAe3t_>jdZw4DG*}-sJxmW{K|iR1qVfB)p-)vs<e!E;8Cu6k
z3+W~~uywQaUH<^2I%h|SyVq-jc_z!r8P*+JStq30nBKx|?imX~L8iZ2rSvr&W?FZ<
zovy-9mB&M@YFjLNi>SIPhViziYsYqFd9P9RewieNly5Sy_j6W@Qv5KEo=3>tRw~H(
z1G>%XogGg|!yvH5_LPstSsy0HUPFeG0McKlY7>V_{f;M#FIVY`9RR?<=Tg1a$RT;R
zO+}?cQR!FG$0TI;J5SiHvvlsAjh?odQs~`p_T+WP?y1Q`Oory{(dt@_9*)xJHn4VU
zNOMZ3qUv_*Q@WYjRWyygw-~~q)->T=0d#Oo>vC!2x&4$K7p>{KU0>y^Ug%yO`lN2s
zKC4nr>V|JsX6kRl`L$Ss>6~eA*|{IFS-p4gpQ$Ook40Y;;knzEIeNEGbtacBI}0md
zc(-RGHEyJ#hLz59y+(n>ul>_GA_+>*De0QcQ%qo^)X4>yEq)K~t~E_sib#uFD`7Us
zalusmLDYI4r(Eb8FQ*|k+VOAhx{i-X^nt3g!Q<U^mRm!pZ)QhZY;x*8xMN=1=Wldm
zbab*oc&a6h#kT;Jp|0tuY9rsLGi|Z~;X0C@YDh#{wu1R!Xa3|_C}WzFY3O;vqibdg
zo70ZG3Yp7n?oL;sP*Ui1lq?RE#%=nV?p8;wsXAh2I%*2KifKU09NVmqPYq^y<cgZ5
z?uZ)<auw2&(%H`Gn=Yr*v|4GdDw`=k%)^xKpQ6*>XGN*J+xZ-Bvs#vgsXc~QyF8nw
zbmVoE)kD&2WN<bu-D{+hkx0?3*XZcvgo$Kp0L|J{x<{>9)6NwBx2X`o-Qf+ZX~$Bh
z*v83ARc~t~z$faw`&ZDqiW-v?x^+ph{Y+sa_Y0Ohqb|;wML3^9%lNmZI+zAMvAW(C
zL#aO$8zWumJ+j||4VRtiy$`NeMh!8Mg!0KnmCX;~PPZh(^Q;luyA9CEo<8I(akc2I
ztm_J@+LG7q5t6ihJ)y&>!rGRGIp>=j5LMkL;M6q@7oMUg+nZr%v=73Xoi;$|^$8Er
z*!`53myLAFJPquri%&H02;^nQhYnVIU(;*lE*gHA<MJ1^(e#a)-(Bu;9nT8$PwDzt
zi1irPeUnSegIY#dq`jXp(DWZxYBK}qh#P;p^xlg6C#sA!)w4avzAP8C(`oe458=eX
zK8Wbu9AB!y1t*a|=+4oJrTi(<9~d&QhyMUuPS+2*pz3`CT<MsklTOtcQ%uqR#anJI
z;_KCC)u~}&{wqh_VY<tx^jTtkJ!Ml`9gadp<T$_8hlfApk02di(lzgNT9pU-ZEFpk
zEiM5+P8CkG)Ui>>BcyFUsRM_!xtm-*s{Q`}hJ7ok);_yT*1b6&cNRUsw*LU|fT-yh
zv^u|5N5fLaX3cf(y+79^ZJe=A5@|CbQ5^c5qIzmMX^A;teZl%GT5Tjx7;Qx{W5Bn(
zTl=l9ovC!)RA0k%bkc#A+zkB{4!zVcK{2NQNZtY9DSWOfqqD9)JYLzD)hJ!3%l`mR
z8_l`fn=6i-rH4|mo<hg=z6uD{!71PQr$Z_ICf9G>MN>YtNfD|v@y`I_Sct#un;YfY
zBb6omS*)+oe<cZXi)COOjzXxU)u?IQ=q7=a#&AIy3o$oYYE=y|H+cU5>Ii)*Hr3RZ
z*17TD`Iw#3+9ej=nX}aCGzzM7KA&48GXZ}_Lxc2LEk;Mi;T`OM%Dw*p(y`4Kt3#_Y
zLu-iS!;~=xY40&=ludhosAv16Q;TIBWK~e=l(9$X$s3Ems08=U$H>=3Qz6gjDs5hE
zDn@UhjJ(@}<qe|LL~1~*r+jSwt+xv~BXE9;dRd(*5lRbBf-Q6{Y*M<UM@kDV%ZCMS
z^vViq`Vi-`3EOK2H}xT;&?+J>G(nOuoV1*T9z^sq#?hB<p6A)lAH)MBcTm*P$?Mtd
z#fKq!PKnS}Qvo}wE?xYfjD42BOy~j_KQS9#K0@bko!NCbB}av6)b%mdvCM3c0B}bO
zZ62ek2!t&HL2F%wdPLnZMW?j5#U4HuPhYFjXal604Xtl4j97%<EoqZ@`E3}jS54JR
z{di(^`6aiyrmUW!jV-C(*W3Am*J(XjqSRIh<J64tUd65!b5*ZW^u(IA5uZtQHDqL7
z+qTHx{I0ba$~P08wxvw+iY+=FMxoxNWRbtI2H|LQ{*RUHx2+vhE!^d2t90tUHo4m*
zFv`<sG2+VKMb;|6*^maj3^+Q-LTV<ITL;v%S7~#4jfu<v<*MVS^}28a2`wWY<gsd#
z)JocYLOsxv%Z2{{x;_q>e1q4~>gnchCJ6$xl4{~fHk~rw8UFw`8QAuL=J!;3rk$#X
zI#^6|G-ksESZVW6Q`Cx0N{)Rts9+J66{CKW9Yr^?q*#lGwD7$AnHqXKamFod$mx32
z4Tw|JGtiV_&3LuY9Zgq6%5xxN9e%@wZL0LvsT6`!>FO{8n_>3)DXBD#3U-L5FQ<S1
z0GpTe-|ncgsm9qkV&g3{%xSf^(^Uy6H%4!ZVQMt)uBw%uoYdw_TK3A+OVb(@Qdq?k
z2|uZXIj8Kb^vw@TjiSwhMvm>Wi^!YNSjD7yex~`Rtz_(`F_P=xSe5Ag2~z3eZ9ClQ
zal?*6(2WyHmLawlyWox#+D?^Arp{)F298S7%AaOf%FdzFB9@Kj5XMSBs|8?cqcOaP
zTs(Ly*lOj|s^fR48GA1(*I=h^qcbTU)-)f|cvi!b^h$A{CeGqE%Nt~GVnyt#^)8>L
zt`3%(Q4IXxSRbmffsJ&6H#kJ@#PE!%)Abs7g#Q4Q^`W*Thaq&Sq)Jh<&1<RZ^!a@n
z*j&MUJF!8%jdjQX{I5&3J#;RPMzT)Dt_vrw=rPA5%`1#w9JDJbCPl`I2SH9CAQC1g
z4j;-C1lBOy*zxk-RF96b2U<wCG#*=(JQWbX+bARKvq>2b6jkNEprzd3EOE*wPK3!Q
zZ1nQPFUyV<rju4_!E_dq0s%3*u~t-ChMQ3LwyK@<u5q^G?r-)?k`>srT68Xg@wPXA
z+%i`k8`F2G?k?<6F4E><{LY;F#zoDt(uk(iiy9-XgtqwHI8>x1v_(qlx;)6kD?5?M
zR<zZW(~sf22X_YrO96&<ZjJ17ZEO@ZMwbkmoX}e!JdQ#%{RZvqo@j%?&9B{7)zF6n
zX6LaSg#Q3XQ>Sxwyh`5>MZr}Yy|Rsu@a!$$VKa3eq*sn;_b`7qbR_hwEDwp-2eQ>x
zQpYJIfnum@DBlaoivIvbt)o@+QA*!&2zguXR<g#~0S+4<;RjIzo8=$$00VGtm9pOs
zx_g>IvE?(<JlPWx#2bCUcSc8N9x{W1H<M=eRy6Fha-}h#gaF?H%63P7PE&3;2^`~b
zo>ZA{WWvqvq-55>LKB`+`mG5<ST;XhggE6_&cMf(_(W37;_wC2H5|NJ+2+XD83c7k
zBeussDP(ArZ)rDBdS%YJ`yy#uwcB06Or46=0zA2*+$U4L<k+L?XnjD}H2&Sv(?=8r
z@3-AD(-o}^6ou{H4T>G@bZ)b`2+Eq6M0btWAy!LMx#Mx=RylS_<F}$`Ue`>>7Z>F#
zBn|)qp5cpI=(-b6qHR!-$VME5sDaLu$iNNM?gd8YxC3)+Aufy{5;SBV**G|kE<O}Z
zt9)(4vOI)6MymF5#yjez^3dEYxTL7JwZiTBOIZXmHzB#~vyRm&rFO_;4Znbn(`S4n
z8Jt|>&B}F=%h0YIc2w$A(o$5H2LAvJ$V!+SGk3EDe`T<dl(q3X83=2S1!XE>mrtv7
zGG)KYe1#0yt7xt~m!>wFQ7k42$!Q!EGvOiFb;2s9owB#pjM>AwN=T-AhqrMYh069_
zIzy=A+Uu4Tb4?o@IkJkHF<>6ur{x(OKnu0sWCBRo%XmLz-HqLU(nldk-Yip`-NNB!
zjGYY)E*{f!;Uh=#l3GV)+rwNgFZAU~*T*LWU%}-r!=aJA&34!Of}3e}Vs-u#TV@ar
zM}nqgO($~=zKGo#lLvXuT3Y1jpC@r~<f5F=K`$5jDBkGW1&_^=N@|CWHW5!OKc;xW
z`l%|ZbonALU|{%FlT<Rwwx>{RM3y`1x#f|)9Wlm`RYL<Eb~u1M6ct5qj3049OQ^a_
z*n||t(wpCvp^d)9o<zDNt*v~-`>qgM9Pf81n4;rwL`6tkeTMh!x}yaXnp13sjewAC
zVzd+vEof=V77ab(*Nl&qVNXi%+wCXgx?v;OTsZ8AX}2G6Q1KGdF~?+GIgUqJ_`e7Z
zLi(-X+#4s;%Xfyj;HOJU;M?Bq@}iQO?e@6->ln2ZuOo8}@pJ_30mk<qWIQ!h^e5Qz
z_WuA&k?ho{>f8SSP}12v3@EuuFJ)9?CG^1G8FphlC8w5FJa2F8n^5*K-@|b!jF&k%
zR9iwcTgT~CL_@%FC|^O*IF@(pR58zM6N@4ZK(=g+uqq>wlDgM(vDwE7At!NRC8T&$
z3EbcVS_t__TE`pkM`e=(L)%;ExHh6MS~KyGttcodH71v7l}&7;n4WA^OI*vANC8~>
zZ%hfP+*(1ynruQ@MfQe_mrWLx8h)V(B3SH4YjT5oVgRyD(ZA<{uC#8bk|@L)tSzgj
zwYS&@xBmbt-fb^V)gk=F1dNrZCO2{vzHSfqL%dv-!I&35XkEFa+xNPY{YjEAHbJrf
z0Mr7xuG6A{#gT_b;maMuqphU(+(%>ND%yKQ(rN5{KBZd&t_YGpj#Sk;+ooY_noq%1
z(ZMr4)**Gnuv>HA2^<yJ%2Mc$^Ts)@%x3D=hQ1n$GDBwp%Bh~7H@4t_?*#ziBo4SG
zJa!3vn!1SG4h_PNClG81K2=7asy&u$zUKET;h~ic62Req2+@-Xh_JW8TtOTa17zAZ
z%+qfnOdQfK(g+Ap$&yDim~)Vx=e74FC|qtkE^o)(3Pxiljig)35=cmOu2Ihz_S+~&
zytJF&DUhUgH%=G=#Dcl91NTn=5<DjKD2;uMl7`%y9H|{0xWZuPizOb8jm~aMN+Kzl
zAlmErQ4bcnM@5~$SfvRofe$5z3C)tjIZ!q34m_zZoP=44Jx`PLNp`&5r9?wd>E$Kt
z?*#;4fzE7jmCO!p+ALEcklWq`yxWyGr+kBs%Lu`)TYbcX<uY-(w<I5sr<faA*h0wH
zFz#u;!YG>|B0w(Fap6a}6JiKHY>8{Z#|0z6c*y&w0SSz>+#DtlZVHgK>=$V+YDo6G
z1Q1HbLrYrk);{S29|*WR<MG@gghB1V;dh|mEYec6njS5#fq@Mn^v*1Q_*$I@Q*5-}
zjcZvU<9CIbk^(aEYj8qjbG{c4E-pC<935z?l6{(uTSbC)8L2=g<CT}KpnEPJ&~4wk
zGM8MQm<GrRXOLB|tp#;Isb;(Bh0iNR;$xc86Z4RXrk$nROa8~Qmr#hdLRip6@>P7y
zxZKc1ydt(UbXpb*TpiyCcQO*<&}?|ILc=`q3-T8Vh~}4#u0>h{b~2%^icl?OD{S`r
zn{c_zbMd$p8Q&4b$JJ{Nh$f5&V<9UE77Zm3LnUR)PuWLN7-;ebaD)DaQu{CT+Ba0w
zw!|`Kj9<E1mcBO_tD!gJa;npHx|%Jlb41a9{XuHzE9kXKdo}Hp9%FI$kFw~BjFCAv
z6FE_)nHXOIY>ZX&3E%~exo?LK7QE@Kh2}~(pP1dksj8Bmt?q)R6BF8PYbj3P_t9*B
zveBR1*PFEG!g&!tzoz^BiZ-iBb4h(Wi<{!;GS@TPBW!+9O+JfkiR^n0KYq!Zns9J_
z6ytMvDmfU(3yU<S1F9mmh$DnV1cz^g-1tKP=9^;5P%J@dvG_{RrJXLI0ofoizro<6
zo?@0exwbusR02@%Y^?-&Qd7w^Ch$AdkGmX$jgsW-p0W@Ph`8-!5oXT>e}r6>5zO7p
zagIUDPX$8h+FNN^kAx`bjK0RQ#h=6*hh)bxz>$!+w2QhY2M-A&kY3Ik57BC%w_`m!
z{)d11B@;umKWqO0Welw&+|l<6S|?-)03THGXC72sMM)dKi5V<%zR=(jH*A38`I@Pz
z?$$Ig+<c>{D`bh*Zak_cbJH*DD4y5}4G&_;>Qv2nA}~SlMncrlYY~QQn)zK@Nk?AN
z_=|UTAxdhtQyiRL%mlRZ#!0ar3K+>}?T`R`g{!Zko|ql%-qGI6HCY@*<go2`^pKO0
z+LC)jPPoW79zucPq?ZsrQUd7yKI&Eo<!!+YaPScaLnCvVJ&wP@T=y~fb9OuX6xWAF
z4aPj#F|q^gaJp&|L!TZnqHzF_;0RLY*I_?GnJH;*M%N}3fxs6KxO$N|Ij88D_Yvg%
z6WHQK?wY|?wii!bcKULQkCYu)j6ZV{Il#M%6ow~;?zP%c62684=8#%TPr`q!TsFLY
z!c5rVMp!|x!oeIF+&bYok8nG0gvJwl3@HVP%Eq(1<COL|TwQT!8EL{}$BZR=52ALs
zgY6^ep2=JVtZ;(`!1z+OVftJ?5NKo;*R|f$f`^(i9dVS$6M_g*$1&PBc0-`2WHvlm
zAp{@!L`h<Oz0_opf)=uZG3CEMRP!Tb`jpFF;BuJYN5VEMi0KZ(nBot`(mLh8DmPpV
z;W81nv`X1u85X`2f~Z=~7DET)DaUL40<|GiqH^%_&AwAXaCPpW8-_u`k&g}*$U>SK
zH2Vo;?ijxam@4yU6b1<vNq%jQgjU6r7ihJZ?>D$ZIi~l%K8gq@dro-nrgXvL*0Dy2
zIJ7ttEu8sJYx@wPYk{y+#zn^&T7a8Fy*A0&MEXk)Xhb!F#I)zaR=vW(z}O32CjAeh
zz3{jksJ%aha9GFO19cbW*tZ~YJ-R(BU=G+V<<3&a8H@d<G`ioZ#{oWBx3bRMex(d*
zBx$o-x9Y8SLXsttI*Glnd!K&8gx63tjRsbi9~WI4YUaqDkdNwjWyfS6u6b%5-R{6z
z((Er|V{_UL%2?xQ?&E*#q<EFlnJ1a7XO|tI{g!X3I=fBNcUU%AM_}vOdEU9!b-I~5
zNsXKjcL`kY_@i;I&DT_QKA)zw%#KkkhW6U)uR7Jbp0`nVrY9_q`dV#uQuFILx<|T4
z9|(C|)&dwTl`DG<*GE*4Uzd`5DIk1Nk8{oYA)%+5cL2~yC22H1nUbPF=dhosRpDqy
zI%Rz%6;-kZ#Th>(YqSoPV6>GWU*zFl&}l!Efw92@1Hk=6-C5FU)!ey_KR2>yq_m9p
z*##b%O#?uUq_}q&2*`Bs=WgCU{gG^D%Lz+y&A3xW*j#P7qz{}R{>-n?Jaq6zEb<)R
z0U1hZw(T_GqqW79rfOKm-%>r__KTGZW@L~46I^~sTab8;sSuI278CRq325LT2N3K1
zFr6D+zTt(=`6=^DGrg{pXdhsf%uFPT9G11m<#4H|mEo>t(0`k1Wiu$8cTZH}M`nb|
zffJ>)4S8tp;+ZNy<$4U3dMFqKCB*k6@`H7I+)HC2qvMn%Loymet?-bto;GAXza*>_
z6S4CPlYgmEJbDJ=LA&55!&6GembAE%mMST0AGwwS{GQ8yplF2DySdy`<B9TF&o*y_
zdo=1=dtADCJKF##r8ae}1^59LWJ^!!#6N`#OT4*9Q9Q19zSi*3g$%EBb{jAL6O58d
z%XaVulAwtlLs;#^7at_2$*4&2XqXr~*kwW~9lLy_kb>3qsvRx@Ugm-Z1@2PHe0vIw
zmT}cJjNdsn10<}^Qgyv816>s>L*L|{7AL7X)~2=YiWhoO{{V8bGt6djad~k)$w=Fl
z$5e}bcc`niIZ2jdw)ki`RM>Ic=Ou<R_XftpBadc_tD0Vs*DD$x$|)Himm6I?BV7wA
z6fKTPU$!RQZ#omED%|lcR6&v2;JHuJognz8Z>;tQjz#Vk@$VFr!Z!v>VPFDjey9-J
z*;A-cX*92A{X-;{-=rz%Y9TvX*xPkStyaTK*(HvWCOq=z9EC^I+Q~KKK2K1S{JBz$
z_eEtN*3VLF80f)hJBa79f@gYu*SMdmZl74^Led*xM|CW|;7gbat7K^Ea@$_l_)~gv
zyzY&d8BxO<wwHd8s<nMucp775fuqV-DjuvlqfvAXB0>e0Z&=r(ZsPg&G!FgNZ>YMV
zv~3_tCX}2GR#GFWYn5K4&2V8i4GC4tqc)@2X{>7%TD3=^O(FE}&y{V{-7NZ&3;jEu
zZgQv4bQZwYlOMaa!q;i~U0Y+`*0rqeZ)Ig3Jrlb+hooVr0rE){ZSU^7Dp)l7a9I<K
zkMiCWE`sE=ytw$j5Zaw(E|W@SsBmBc_U?m~cEeZF3llOnZjb@vDJk`>IwD;u7G7_x
z^=z7rN9E{YcxCKdO6X#!5eFU8N_#DB{{RqD_G`L_tSC*Qq@rmj0mXxrru;nD>wO0L
zT9YXo{R<7#{Tr?7(uYY0ro+K2SpNXSrs<U8qPn&1XvqzItez2+e`l~tSEOzAXNvg!
zO8r<)z%m^B1%&EurO-5{np$VV>B+EcM&{}^bgeeE5sOZ%uXV6btA(1^`eRDzkK)zH
z=g)j^H#bh^xY|^NrrkDadS9gvQ`)M!x=7=8M0@RpqN@Bd>DqWnacju#=@tv7b!ys@
z8%*c5y@NuZs%Gj~>B)#x?6zIGbIM;)D-_pkJ5;9AdUJE=C2UR{4a+e4Zn5h*Of&#V
z0Clf){R^Ts?xAPq>T1i_dpMh|PL)@vbT9DWh#kD#^0XrxxrTC={R8?#@V{BpqHC+k
zX*oFIXlpcDT1Hx~sO=xia4xW&LHNnk(=fqL0BAVegwUeZx{B4hmaP7F1_NaJm+?fC
zlI*|Mr7$p!8j5F;{QIz~w9QUqA#SA|t;i}aqphx@h*HzlhBV^$%6CU-6t!*q#-U#<
zk0g@O!qIL{lO9b)TSe_HR*XqB(6zE2NNO6cD%olS;*rs_;{|Bw=_%lQW2B{NZyTJ&
zRrrGqZ9ba$DXZY8aA`N%nbKAyTV+d&=_&+<N69Z@_pLUGt<_XDu}wDCafRV}UZYta
zrTL9Uzt;iW2NkiKtTb^<8xfI?1CV>Ai);N1==D8X3K!ECy12IEBI^(|S69?I`fXri
z?ndXEtW5gf=bg2+bGUW^#cTRHp1ij0hH}HfAcS8TJ)kDz(-wZ4)+lFfMQw1L197z3
zX*3t<HGoH|PUf?MFJhw9DPAKkschRo&$(iC%~MUIpKA=a9k+0UN;*SZleT+x7K!+N
zDa4VMhYsdKvORsMbdH-%BVuGySYRBL=Ct*5YBIJeN{J)i+&_h^(?1R&t%OggRJwA1
zsp&o(lj+dkEMwlx1TK$Rtb1w8*%>%%9c6!|=z5NiD{83p=^jA1bBJ2jbiRq9yVZrQ
zW1HMLSL&Lsr&+p_O{hC<Yk-~HG%DjJR_Z-r)q4ygo;ZNT%anATJJ-ES5t1s{*&Dy1
z%CA-F`nztb)g*L>hFg_$(v@9fqck>x2hA5_xg;e9{{U@`I7ux6&G<8{O6}T?r%(@j
zG?grWhY{%T?iHK1<lVMg${l;GDj901j3fT+s!p(>)U^s{x%z{mxX#=v%1}#4jAH$i
zG!s)X{{WJVM>My#25z<;JJVW|&#u~s(>I(iFX_)qL)FDYszlCfjrSGk@BC1WlwO2X
ztaHHRCxgc&`x;!L^j+&yR%vvuZBD3Mz%%48Fw|-^YRyygKb)FpG~BeD6(*z9^XhXS
z^&K{8Darm&N?HoOhYud5Bj9&?-~LpdEN)zpMVlj3&3=Jh&~s7<>!?`SJnaQLP@AJE
z9A8B3fbakTR>4!!ViIV`k;Gx4w<S{4QJU(^XtMej{d-GQ+jL1Smu{e=*PFV9yY2ke
z%B|KWlck}xL)&h^wOvrvQRuMR7Mgc~!6<nv<LVlb4x>tHAO`ohKXo2d^i@UsJlk06
zy+>1VZl436@X^XQqO{FMzH;i=UdN1`%hX>@()v9ibv~RUfByhV$y9X&&aH8wi`otV
z3UbeK;!$DZxmmQ)Xe!{1tn}e~K(M>4Rc}`VM+>E!OLKr1JAJ`ZR&`xuG~dR7?Qk5B
zqUi3qp0`&N6_E*}d9!zB$hOkZs+-x7sp|SzCq9)JjE>-CEWJ%#szf0(J&_z*>*y+u
zi0PeTgVvWuq<hP6xHJQQs9t5&JrmPfRF6Nzq|ayJWpGx_Dv^Mv=^9N&O~$p1aXsB-
zrKRbkp+MQ&Bvk+l-L6^bso^yxloLK-*lx*2dYZj0HH;FL_PDxM+`0@ntun@|U3Br7
zgC7{+=Y^Wo%|qN;$s}<n$0|5$XO_G+XdKW^Now>x2S<GHHdZn-e(q{G@u#rLevFoZ
z(z@H2+PGjY2RFV}rafDzG<bHp2ic>&)y%c?=+O{mWMFtJJpFd7R<CSrsAHI2V%sA;
ze6-LbG`eHQQR`aaG|*EG=NWaBOz3`~iO#F8fzhz!7~R73O&>s_j(}7afi16aIat21
z>K>qqXV7W0IlyAhI0!s3$I{tlH#N7Sh16Bm72=AIS1~wp*&k)9r_$onX?;yvu*?9<
zjF$_}U8d_b6(*vlLlmUko7*Y#X}Z*>(KU{ge?fijtp~+zY~{&PdU`aPwyUPkFs9O|
zTTvs8fhlxNAFAW69<3CVkT~2qrtPwaK+~%9rZ#Gd7dgW_fZ<%v)jH)=PNmYQDjq<#
z1(Hi5zKs|<?DhVQ>G~+B8!dO`=5ZG!kh5QkT8~ZX)UJ#en)`6Vyt_-AuH>&URvOAU
zoyl;*+-ZG0$sq$!bXA4?nLt0~89s5YjTqBBWu0Q}KUXiJk;RU89NlXF0M>NAp@2J3
z(xY^P{{VHZvHr_vt9}}3+l^Z^8ajqr?l3=N!p~OeS|u|?G!>FiR16sEfAYEN3s!V~
z$XzB%IyM0bF|=`U!YZ>^s%&m`Jy~e@R6|SGsvh=3EHky77Lco_(>1tc{yQXKzkB60
zW5rrxx5?3`(cCphIz3Wx@ONz}`Sh&<gZ}`^DyDQUJQv+iX|y$x#sP!WJ^`^;S|*)E
z4QV>n6t0UHCxxKpcUlb8VygCM`lC+imd0k&9W;_2Bip*@ZkLBxmBt9P8iq07rQ$qY
zdqo9b;nfT+dt;10xO;LH)}Pj0D&}mXk|tXpr9ARRdZKWHj_mQ*ej4?bqadiJ*%JuJ
zaUmAZ!Yz4>6I55hymH5Ix7}ORdXp(6pG9lra2IHgy7EW$w^vrzIvrj~;DY2@#iV`I
zYIjN{c|+{8)afg9CVFx+Ynne?Z^2FJy<4biCoOEmL=HDL_e^CE=2`iV^;u=VG01L;
zr`73nM}k8^9JC%*Y2WOTCpj<R&Abd`^vyM}Q<H4C#xk+JWvWqW!T$ikgtU0FF1PU`
zN2;Xs4I`NQTXPN<o9fzTrK;+tq`ptf-t7k<tr$C~u^i_w<QJezQ>|7P#RFRf`{8P9
zbm|x>3#MZmVUuBnTclONro<Tdn%4nhTA<h2scLYS)6W~D8QZ$Wbgl_dQkC73=-PC3
z?|hV#I5DTQh#^DNR4~%UOx4r1!?|+H$5pE74s)Y(O}PQt3qREzO<SrF9Hu}<4bg2@
zh28AaX|!5Kr7N3Ltokm#H*kKceM?8tG`PJ-RYfm?$7HWQ)8U=O9gZiu(NXE~Owifd
z@_cS8IUy-@=&m`a_N+3KP=a~H5P7gJD{Z3m#-UdmUL<2$ax6o?!pu`eLq!0A)a0Kw
zx+0#ZSAwms(&mwo+w_NH_D#jbY1z47qtSHgD74s&b?t&ist&BGrH0aJ-@|avwAi3$
zmsFmdI;tt0;ol@G4O>wyZ>J;=4jADF2R%r%bF6(EK9BrZ)O3O<^+{xW2Muu-+O)dv
zvktdM`Ko%h%*Tv|o<7UUx@wl5zHlnpyk7vVRa6vOO((4j9Kb)6928%S>d^<}E=8W3
zL!(s4-}+!By|+f~rE6p9$}vs7<@dHXa<Tmn)p{juYhbFSWjw7m-No0VYI>arqb3)E
z&@e%|3K464jmi3YJlCqFgGVLt%Hl_D#|tN4))bX7dNZ(Nz4Dv*gIs2;kTK=WCxuI;
z^zqcA5*8PEvKW)~(WgM}tE8=xMuO{K2Kfk@dODcK>Up0dJZ>t?bk!v({wqK~u}4tp
zly5)4s+Kp78f-#VoL<IM(OVX^Tc)(%f6cD5JxQrat5mSr=1ts{>)KC8)oPA!s>YTd
z(n!j&uKX*hrKkMBq-{e0x!Zyj9MW4S@iy%kUWL+idOej9x%)^5Yw{PV={m%MFGix8
zBI|Je6)u~u(CE<$D%jdKV$K#THP(G=Llm3nNY8`9gz_)?m5wLxMwhHK+KR}`@o1ED
zx1G_rZVM?xOHxkArIC+m{{U^r^#1CCldJVwx9o<c@rN5Nr%&h_gwn@e%~~lWc1vC?
zj5$B$(WIifW`n0Sy7~|sRUC4FEyaqq)ODHbAR?P<9!47e5YkoBQbJ<YXxq3C_aio0
zU1MF-+8o_Fuhnqnn@z$=#Y_7s3PAeSfmx`%&eSyb#(O?82tTr~rO;oZJXAJE2KEGH
zKTGPpUMX)*ECKx`+>fHZm#L)GVi4Bp!SA;qZ7ZW4#y_bE(|bi#eyrM>Ljkjh9NNl`
zj%_*#Z&Mq?@A`pG)M)h)T3sC!tclzkTm<Im_4QHh5wM>ZLnOH>mVp>kxa_t)b3>+6
zk65-?dji{)VblKriW(hcf&otWgRmT1cC4L0PS?`U>P<-;t^Su}e#+{XLeqe4M0$H*
znB@9n1pOD6lMFBRlYjd=;^z8PdL$ae4~#wv2D}~~%&Dk#x!X0a+Y|a;&-q!MAJ(R5
z*%@IR4#i#4YOuz3)ziKQd2?>l_fuXrH?$Wg(>5AyPv&F1bxe*<>~T|6S89}uE^G{y
zqxx1tU0X(Q{v>{zyGX-?_;qGP-O*Rd>u`4}{{Vpr^`bv79?NR3uGHXRc%r!Rbw^eB
zuRIR)<kRJ2{{Zf86dI>hIgpWA1Qjv)BF_EL`Zl%rZLUtrO<JB>DZlS|Ex*F2{{UX0
z+hATweIZ}?!BXd#<A-bi0HlRisD37O6y&y^f$lcsIcjyDkLX{^87TESW?XwqTnS!V
zsnkQ$dh~Cns%>mLtV?_+UL+;`f>~s?H&g1qrmdILma<w)n-E%yq|oYXpx-@Tu1_xA
zd;ONOlT+#KZkT>{mL|#t+Ur<?gQa$n9ZQ%h9|^y;z^2FJ<BO^cvdXN^{{W`{0Hr%^
zLu7nk)eG!GvD0car?SxM9;p6i%535Lsdb;sIr}Nk=9=yga<V-^q3U8cOf>fq{{Uwy
z^6_OQ`skE=n5X+}z1Fm?5}+BFe~rl4?Ee5|lGG_DxnrLu-T`|`u;_g=Qj%{_dXeop
z69Pi?X>{7RQg51uDaEttkZ!q_Cy!ERPt6&vBg!fC+Q+mAqAxyfr!+dfC=Yk8BL1DG
z$jyITc9*E^hK_1S1H*wAR(cm-Rz~K<EhJL4_}L?UrCuDC=#2O<8XYw1Q5Skqg5Tx<
zZbiYPG6xS)t}PtdYIP`Mnw;0SMX1x~w&3b#?rXlmP#tacP(Ge`-xJ6F;b{dkoSV`U
zf=B~Xp`v^)6t!NP0M|e$zwP>WTFX01Y5xE_=vG&}=EL1^r`IVYkQoCck*E3Df~4sE
zCqSx|rlP&@)wGL=xF}b)Z*+}5m#65SlSyMp{{ZuWS;Ix7H2bQc^vL+S+33_-FXbBr
zTv0KO77t~tRR>n|&XY&JeLdzwYuYz|kdq`-pCXZyS}5x1e=m8o$!-4t&{cdrO;bfs
z*3~%J9J!|DQfgYAL{Bk5=f~LC*>;K2^?JGW8#9>a8|2&+Y7J-~x$B)B)f#ltHeb$d
zBH3x<>KCf$eMzTPhP2i~;cjjh%G$3->)LPeSrhI!mIHD3RW$YeM?p9HliZ$KPxx9Y
zOQs1c?H^qAPvmMTUg)YCO}S%%UpaO2nJr|n4NykroJYZOsidve<^|@urstn|1S*+y
zu~}H>S5?R)C-pk!$)cN=?10))(<7&#h)1;2?r=BX9vrRo&Y{$FyGKn>_p~3-{1A!K
zwCepC?WkiLsM6x@jNG(+70pE5HLg=!?Sh~S8`-V}SDTC3B^4$8nQpArDm7CbM9mD9
zqbJIy()F1sDg$cc_2T#zAzn*I>B{I^FXk99H!8{WI)_i{$BQ4(jYWdwjdqtM9-#-T
zr^x8t{{ZIRI7<apRRvLWjB{*%mkPJ1nNu0`!#Lz|Wq(k~s$tnIZzIb^?4|rV9e&-A
z)@l)IOae*l_V8S#&^6IVQ~6nHm;p8(>?%35$=y@wn9Ev52?P}3({qQl@<1hN&4J1L
ztkRkpew~|*PP%5Z)QVR`^ZH!eg0cGMr>a<rm?D+Ep2KUa%{NMe(h<|v%SkQ2+Nn2h
z?z8<>Nvcpdx}p{sPxG<YX;Ff4mdZ)SNY9;ecGU=`Y>~uGt{g~Pj+~-=TWe_RT{Kb*
zw{^f?WvXhdV}ObxUEqtYPvP#WA2V4~x}N8jI>7xxrc7$B3yy7Q^}Qyg^0~3hHUq<e
z!qEOgM?@VQ&3*U*WEdwTI)bV^{{SP#3c1s3^?D}{UYBp)?LR`fS}%4B)U@?<@w?Tf
zdquxf7n;|^#?102FLRB}@Iv+-LsflEIrSN9_Bjj8`m#t{SNu9l3uVAyu8b`vM=jBw
z4lluQAS+!Ps4Mh`ZDBG*<CYwSUfA6uOPJgL0F@r+0$SttJg$i(`y(4&8ZAPzN!1wY
zmQ%Kts0@~16`a-MbyXp2Tv~hlrnVRQo0#Kck`>hxX(p#@Dq#$8{{Y@+KXhRlG{0jG
z_#6(`Tpq|uiZ;kWEdj&fZ1qhsk8}MdhlYNa0m{!!42^jXVFVuwrEKTpMN46+rj@f(
zy5YRA@a1tr+I>x~eKVTLzn%vikEfL_JS6_1WAYI7I&<3~o}I;#HzCczOqB}QRU<Vz
zDINJ)9TktcuFFr^T0^VSytXY;pVPiKuwB2mWnD+qGsS3iNPTF>{_97)eSE8!X(%;F
zeOf8wnWvV6?r+p8B)th^#*EjrRcSRI(~+>;Cezne(aHsU21brv-can*t2F6-O+KPX
z9(e%Z{X#koea-$Bu}5$J0D8uPKH(a!&3?-&O4=&X{5e~H=_bS`>KbfvMqWYsg$uNb
z3i8^j2egBo%sC6CZnr|+pnhU8#&WY^wR$W4DyncyPcuj1+=SCSQys4cH;&FkQ|oYg
zh8n1yPa)>x1sx>?HDqDHHQ@IPSJAA_R?!EL@H5zjUnMizEJpF!XliuIsBU6$b37q%
z(iuAo56TrmGmoPM*8}?|x`Iax3k9hBt0ZA8vy?7`v=Bv;SSX@`m(pMa5_^>)ryyKk
zD$&u4Udg01i&y}ILnlRBqc*t;7Xp5Y-dcUk+zJ=b##{ALaT!Rheh(!^)9$^|RV?Pg
z4Ax|%abs9i4z~qKJXUV;g#;vDJS!=-$wiL|2Cx7=Q-kboIZ*C5Qbe#>JafEYn~uq~
zaJ|u&w48TJ#(|QF6)h3$Ey89k8Tkv^^L(z{*I*2zYhm0=z!yVD9i4HM)(RtvDK}hP
zg>6j^_^w^qEgWU+KG1}%l3I5VE}k>uETdzlj5XH1!X53s)DhMfyWEKZvNqtWtf`_d
z4FJ@{TXHy6lEpKmuyD80U)uO{ZWL0}vDt1E+gGsDqPCizvNLezkcinS{XmbDOG#nk
z_C&SqdwB&`G)>woh?%(r{1h&wBdV$WIhr>&Eq8T!AO*M$L(NGXts%n5xB)XcLo4?>
zCuFyg=jBS$_DQ-Y*r#e#Gt$ZHLw(Kehoi1#T~DPe+Z^`6BMw|yG1EFBE9|$XmRT%i
zx%o!4*}n>z@>Ej3_T#r=u5{^JR|s{szqnH@Ng2Ne%3C-K@}rg)wEJudd{2999+J>h
zY-EM6{$IFAX&&}&V}pnH2))pdZ)^N0C73XK4Ub|J<&iFmtZ&)S-GgkGKUE=+Gu+aI
zlDVz~O5MlERq|E<O`Lv;Pa}O4j1nznuNE!fpeL-yBPbWlWH`cmU@|xLTHaPz+w3lC
zBsCRs8~8xJLm~M`$wvMFKPWk(^xbO^RhBe}ODkj|Cjt%ZjHhkQon(}4GdwW<>dCrn
zk+*;9YJDV5@33~lZF^iJXya(k+Z8oDWrD;9BO<0_#l^0BA^yUZi%jRX*|_Wqv89?P
zk-deE9M~ZvrFdn*2kxd55oXFRMlWQo{SOuP86zN=cE9xwP?JRHUTkhV6)PIq1;PE2
zxv~Msc<_Rkpvh6xl@c}9F2{sSr*n5S29;m8Yk?e&%6N<1+!W0TW1lN;XE*MkEN#oS
zB3c0?I~MY#3}I;6K|T;}f{-WWcUjHlG4XBo=KQM`Li3p2bNwr$o;F>TFkj9230#=U
zKV@jUNd#dyI1_9TtW7*MEiR>gf25QRO*FAO`v^r!!s1O!C~3eJ`9|%6W`^ajJ=H@U
zkPl=`Psck?kd{i`n9E(0&qnyN?{j>P$!LUo?IVe2k;qUsdD=*Hgtapymo(V_0A)zu
zvNB5aSxHID;37t-si&!=ls*|98;63Rg0@KCpK0@SWVNtM9i?M;_HbHJO;a>mk43Q5
zKh$9n)PcK#d#de1ih6Ke6TMjc9zq&9b{)((R@BmoVkNHK<akg~_};oY8(A0jRno@!
zdAHNLnpy~Cx!bk=RPweG;&&E2cO0Z;cpk}`4~KVEyILW|-7>PGlW(=-AYg@ERRoN<
zb)4TJU(~uM0z>x>!?;y*NcIzkxxXkOkxMj1gL4TZ!jg)%NMyJqc?xNE?=Ek*;R`Gx
zOt;$M{nZn(8mFUCL01i1Hj)F=p2tQ{0c0Skk_kgz2tHPmNz~aW5mX)5;GoT6ZFs%G
zu~Qd=ZNlFvlT!jW#_NwEGB<5INzckr$sKTSarH?i#}DE(ACQy-x7wq7NzV%bpn0Qf
zPqf^2T~8rlvC4a{&iP0~WVdUlLi-De?2uRydv{7=4&evxX}~2*6r^F?{{Vy-XmhT|
z5aEx6gqz$PcTe5CWML-ToN%znMv>ymL4tCbW8HRe0sEyerJ!VEx@iEPl_0ThZXM+{
z{8`_)M$9ZgfyL1*BzCy)g=5Qd2q6^<+Tn0=5EY_Q*1f*qf|`-QlNq>HG1!X~lEKMg
z%EB~Mh+S*AU+KzoBQ3ExX-5{@5;JN3t0y)s+*|6HS_5<kZszCV4(fLkacpv}gB=^M
z+sIFBY<S2QTE?Q7#Un@o`$~LInU4M|Y)1rejh>#)KicW71%TXcA0Z135$|J#oB<uw
zCYi4v!?nD4L<re?k8S%V`Y&PJ(~p9(7zywJi)}s+1uPEq<gpHj{{Ui)owCTl>jaU;
z1{~ePxF|JiW{kMK4g8^;kZcJUAy?H=%}sVr&u?e6Tq}s08Sa7B{{Xb9#DaDh+|V3(
zY3{kCoLSWu$jcZ**=9Hgk3G=yM%FkNG_?6wRkR_p5g7E{&eOp`5&`t4V7TmircE$3
z&@3%20F!a#B4l8DZY)}fZ7UrY@ZD>6Lb;N|lFPHtWUY@Kph=kMTpZhgR~HEyebzn^
zo7pG>2jHP<=@?shi<<6iir5$%{f_sx-y?*emJuXxb0irKVYQP>r-<57cKNbnWQY-g
zl*>j`%?6v))iFot*G4KC!)0zBKE6=;m0+rnO%sdHn^@UawlYVw+<Yz<Vg6?PrfsxV
z5mDMKDXZSh6Z@&Fr>B|`xHKNhvipy?XUItAlHYbm!i$ddS&b4|+2AMP!;C1)MZKv5
zyBmb|Eegh6*<9*pgSnh{NOv{cntq6yYOSvu#lBOCBn!bUk+?Wc4cKnNt=%0xLqH%4
zj(Z?#XrznW%NF=aWbN1+-qL;CmCZH)au*hoY~YkI_BZ;h%fMstnB8OYq>aJi(zosx
z1~tyl?4HQq8?Hw2^T<URk91CJ1DHW-bt79NvIt4Ia@S+ReJq<M2aklPgw=;e*{R!m
zmoWG2h=O*=J&qUd3L*zZBzA4u<NT!Hs3xWWlec5L5yG^3BUHy3FhRixDRml}N8TAe
z%1IpNH*4FD$I7g%cyY1F`lOL;X){4j)bULKj-+IHR9dUzndR`fIhViD0Opc$pQkAR
zEd&gC2@+n5s3p*$_UHCb4g-KbZkR0KlWA$V%E568jz+r8Bs<`yOHS7du-oG3M~gdf
zz3!hB?_u}kT{_tp79-gB`M*4-@3{9`$i2*&gm>(OmN&4FL9$_ekUGHJaFM*;<R66c
z0Xa7MuGxPJATh4b>d(kh#2>Vl8-)Xg%v|I4OB94U;~r0x!n92GwEnMY@}oB3=jf(v
z&2R!h56V#15<^H9{^&4t4YvFcN@-(&xFmg%4v60Te1yX58yu}>L~MBi#~)QD3gXtB
zwDMC6NH^hUv5?{c7{YCUN*+MU;6d((K|@%6RDiUM@}fC57%5s!`9OLfat=Pp;!E-@
zQy50#3A&ThyGZ~QhGG%mChj)m6~sBXvHjBt&9D%lSf<>9o49aNI{qvYwY!DxnFz$&
zgJl!92PsQj+}i0J;6{6+WZM|WTjUh-8u4yE>OGy>cwE<J=l4aKY;$)94|Tv(8`|MQ
z*Phn5%24Cmm4mWiY@E^v86w;$n;^~8ht*~g#Jcyr)RD?Txhfz}B`uPtKxr_@>PK^h
zJaV<?pR%eV+$Cg=XKv`)6N6nBBEulrcJcisS2Cy^Udmrwe^5e=Z`tpWM)J+l5(kSY
zWHCo_Nx$|`YduG&X>gxbVCN3QE-TJ@m+=OAu=pvOAd8DLll3b+mg*!_D{R^7y;rAc
zt#B^h@GQLdsygnXz0QUQ7?^Qja#mKZvTB(Nq<x3|$CU_@1AyC}=HK$Ni+!2Dp|d_p
znG2rxIQS(fB0tpOgr-4#kjJ^|!%OM<+PPZ!nBc?N!pgCWVmU8l8g`wlYZ3@_+DWGW
z0O?^`x=w@|T{~*}nyvKA;6%%Baqt$SM5)y@eLb{VNrD$2)h^A&OG%@>)j#T5r1Mu*
ze_Y1{=o9tOyM2=M$3{C*V0{LY9UU>^YMDLGAMmuV(=?qHAr|_2y1QFsZZ2z2%BS@u
zdD|q<+5HSQ0Z96Q#)d^3V;>xpY!pn$cSvM=n-Dp-7DmMsZyv`wPb8ZFfP#8JN3Pe(
z?+qXFi>a^mA@r$XWJAre5U|s1Wkgit5;%Q|jj`$AV{t=>p4OL0_Lq6Obu&F#a5sGr
z_BDqww9JqAaoqVRd6^@!UnQ@@O_bFQoHTobN5J7iz~JkN-0z@T#Ymn9)dpBbBag{B
zDq}ee#6$l8sD#!wS2pgDMm|nT=LY`(Ig#Vw*&c#)Y<ro4*vE5hp&wCE3yWZ8^Ziyv
z!|9jUu!i_9xlXUBdsrD9MUnTjY=xSNr&Uywcen>0Q=+4&sym+Ue3fTGM+H=kGL}T%
z?s4H0s8#5?bVfQ!WUQb60NqD+kG~5#G6JQbh7vc8$Kf9o>}+MM1OeQIR4S#PE-q*}
zvUHNwIlE$Io8X&W1nfEsH4ol=d9sc2x%h|@f2zs|M9x3Ojic_4_eUNij1J*vuEMqi
zVv+B&-d*sBsHtrYF_u6Y#*Ro-9YfUgI$K;EL*yNSUSHJRSy`$|V>3Omc4#;XeD6qV
zOS5Uz--uBF>UtJ>uHd-vyz^1jrmK*;Su*a#s@WxR;=}5q^$0zQSw{A23UF(M$retd
zY;#oz3CDA86R4>wYTaPVkASuvKcxzLI8!n2{{X$Jsvl(eSj{QaI#_I!P)SozKdGM8
ze+Hwi>V?0XA~>yx;}-tvdU|O$2RH`&HMUv}HI8#Okk*f)+*jCnItHO<roaS0va@5U
z_F3^e=n|H)A?$U}_DtMfZ;!B9vn8TxEgz@rrM{*%M}94JXy`g0OtUooAXLBloZAIX
z*d7h`l_TC7!XDco*itSf)wIV$vOO-IH(M6$sA{U9X>;81&KebcZl_NT+C_lo%N^8x
zVW#Qvk|T7}8~bmBj#kF1MgFU;%Ntzg$k>?P?kmo^i>PX==X4a4IsLBFg`3oMZC75a
z{$@f>8aM%J`d2^^wXcu?bjl6(E0XB|X!;zIxJ_0!5^}aWRU9z}h}c8Cqp7sV5Cm|z
zf!uJ34u*r>BS~=V6&AE2*lj!>m<}T<S60CowA1Y#E`x1s)qrhaia+W;7H6q-N?2d{
zdMnRR<7@JSn+m1bYt+3*`6_+XQZcSL8<ulS>CUg~8NGLHbU@&})(Xd_beLeM{{T_y
z6C2rUhCJK_u>SzoI#e)-wCURmTY%Wqw4VDZZLjF9)4vKeYDoP_swsgTg0s=|+FdTJ
zHnFj|gULeA)LNZX4|64zv42yrvTmBQSFSYl^2<BP%Yils#m!4d4~vai?-X4}(-bsC
z(^W?sfc-6AUHFI9)m=eQbo~lB9SJ#mfdOfHE2ZF|rfjvXj%ShjUz`5w^I95obdEpi
z^pKD+-~d;aNk8O9F^Vu9JUXXM(|tNtGBQS9;;<b}4x?GE`r6K;9Ob9<1H!rL?Qc_(
zc_^th64*&1(HoUt(pqgSRpM<;(@xTE;VW=TR`~@|H61<Fnof^I*yE%QcpQw~S9L#G
z*6KHoC_Ole*3^IdJasTN5W>fSn;R_7t<*gUr(8iuB?F6_gpIFkD_sfF-EC8*!RZ$p
zD@$tqXI1Ia7@OFan;fq=)q2}Zo}<&F)1wT(VU=s4^+iQH1F0JL9D9JYDZ70R=G18(
ztws1xLqx{SuU53QjD|T0)fz`h>6A|zWo<!}3^Au9uRYazv#4r;j8)9<iz?=8Rdh@b
zsC%6u?(ErF&K1!W89!uIR26d8Z+z0m-Pqpcvgvts4I^yu0aVui04U0+={caSt~FY@
z5-?;m@V52+Z=mUPzMU4B$B-@U7g=MCUC>;&LpqP~J6seWm!{B*B(=9}vh#|HuBYls
zzfQhMAc@A-?6!JeQOB!PnQNHXq8SYXfSc6X){##eMJ?J-c8~6d#Si4&nPh!YTL<C(
zkx!?(dFGN?ZF6FIRee36X%$-WqpGJSm>X^vR~lDR#8?|Fmyf-|xTV&*cpdF|5*(ea
zz11o*>qP$mXq)bx=njRTrfp1ak9ZgNAN-<f>onR@Vbk`y*a4w={bsiji~gDlsR#c6
zNmNx`WnH7O?~hH-mz@5|WS_o=i#FX(HA?DtHYc(mMT3uJ=8foKHEX5Rb*S7gavE}~
zHGaD4ZE{~tq`?`%48qxd9CSq5lwz|{)E%_vVRDr#vH3cprn^qj^fJ?@*G)X$IaX8^
zU1wPU6i~a;0~?Ks+1IzFdUV=R438c_DvwkANT7}<L#I-U@$DEvO?}_`4-+@2(rb>C
zGgYXTAbB9%FID_C>Ae~BW7Mo^BzHObuMO4p?OL+6(^bk@5#gi4wb8nQy`inAG8T6^
z7FkV4az;^d)K6dQ{Rd2;h10_%Z?N-~fYZ9RIs#)3Ynl!bI)1xJRQ9sD=1bs*I^kVS
z4@=2TT@@4$dF<ALQpG9lX$>VPX@}@q+jUsY-Lw(yS-->xH3+HRX(txjkmF#1t#{<y
z=_z8Uqi<_8fL14{b<IYir_gn5k~H}kMsaOb0Y6~08dY4Cm#a1oKV|9tAE9XPb3JA>
z+mcPz15J{hur^AW$$!JLp5CQvB``%$=!iHa7``rzsVhC+t4Pr)=&s4x8;HGymzec^
zPMs94iIBxHz7ETj9+fp_phu}+BcZlPD%e!$+H*ZNL@FmZ8?tVngPXgdRFd>d(RIB$
z3q4Aq3=((Ughy5WC1~1YE{2WK%I+-DkKI&O^rpGgF5VeWLrz99n<`4r!s;4#hgNE3
z#`z<J@|#PDsyv;8X+2KeS6CHwtPYCz+2wj1oo%AiY2rF+2>nnjFrU$%gc=QHAd)>v
z#n$6@{3dm0;fxwP4DiV5c8iSinZ{9wiKinaJe^O~ReLF@%rwOEII`2}T`NtaQu_7s
zztjTm-NK>My0cl+!KI?7e%AYLV<j_NkE*rkNuIPZt{2(`f`f(s02FmcBxC%F-nHtw
zM#yL=gJnEg${v^LU2dW6)M*54arXdSWt*R-CZMcz($tr}_afI;uysDWr$OjZ2R_^Y
zE|=rs-(Z$UKlFM_ddpeq`U3@IC)h1^y9><v(_7d2y0Ax26rvmQGOBeK^=7|6@#3gs
zJnbuK&`y^`i_@*DgbaSMl_{<}kYKqwK>Z{5d09}%-BDjHGtVH77T#~e(@jQP{c>y%
zs7o(VQ8aFjvJ>Dmu8v(pTLv0xjf_3PR)o1NB6E)y*@3R9hf38=Je6#z0P^;QtI~B(
z%u<0*QX;tQR9c7OjU(kX6?IZM=Qp~7PL6dfJ89}p-q$IVWf5GHDz(iTzPhZR^%qUM
zw$o(FZkg36OK0^O&^x23tLplCVjf#Iat>4VUbUA|{seR`j`$~H&-niUW{-4T=(>c`
zMA)h|jhjWR2m~t4eUy~)I#{*F%=aE0&CptQho;rH)vbK-NbK`qfYtQ<4u)OOxzZ4O
zy>2pU!_RaVQ%kGMP3uM@oq%%JXZBWIFVp&sd2Fw5rDMSfdPl2zdM37#u86dQZS8j}
z)3mKiM0GGUmJK5Ogd;EfjU>B?n4X%iP7M`KWQ-rne5-9IsybqVJINa%m=5EWmg~J&
zbxCAq{{Tgnr)HxpoBsgQrJ11L^b(PBlXNzc*|6&#vi|^3{uY<F)F#a!s(LxPoWegj
zGg;xvZ9h@a_L#K|Ewu9i$!^jL%=K?m)6kI(45jRGw#Rl(uqds&7v*oQ7n-K0)-<pm
z%S<JVj%=}#)^!bKU^URiD{ql}t1Sm#)n8#e1VP(rx{FwRPpC6CQeNZ5tU{N<qbs87
za+G_~yXk6uE=o39XVK4Wf^HC<L0MI%&KxUQEJKUrA#@&=ny!pg4MJ$#Meul39ZjWI
zM^tG)Hu{WnY=zY-ai)%FrlqECbd7QuY1u54tsnQW8!FDI>i7&UWO12aYc}1GeI3*N
zO$8tQ4y6%exq@aO^`4g3U#S`D<EM?y?HI5>WfbQXR8mP#W<I{ZQ=N}-hD`B-QT-1-
zq$?ZhhX&t*J1yT&(-)7+R7Fp_%D#U~)IKZ2=(88NuuBQ2{EaMabX#c^x@%}HHAA76
z+>RHM{wL}&jZwdqsS>x#e4{$1mtNDH=RJ?~!Tn6gSY1w9nyEI)5hnits@Yu+EM*d0
zB^PD22E0TYTnnr@9ID+;dYZX+L?8DG!$hNFST_rw1zy9Y)jhtYJs>R~%-pCnrLxON
z%jkVOscKaXYm3;+<l4*Av`&<Mn+qlX08^69<*ztZbamDGdv=i)J2+UXE~)B0esU?P
zwrzF?rgEzn4mCuirG1`{{{W|SjZP;z7eeW~mb<#o)$~rTWpq(hM+m+*1w+$457u)Q
z*HTtHd;QxzLJHDWQFV<74b)<&X#(5-08stHg*5EwTS&<DAK|}KLLEGMl{3dC&a%zX
zbj@?-BC2Y4I2_#C>t(F7s2<l{&yq9ql}|yXY96Nc%^S~lyx62tb{3;u7Medu%pq&c
zY-m0*tl!h@r?aGMY!78y1$AX6Ka9dZq}(X$^*Y*t@0sKrE|n<O$h7Z9pH8Hqa|rYp
z;5>_zE}+VKNer<>*4vAPMWky_pqJeHj^L{ub6BFTr1sga9tt%Ug}E-nD0-%nFj-pX
zG;j^B5IXg4ky6t%HS~@=>~m~ZF0N5LzKn189#*43{5+-9Y1uthYnb<cEwF~#3|aw(
zzMe;IjwUt3hcNP^t*@vIF}_mvcz0!asC15>q>ZAcFz(iMu7{)0B(8s?NRlIf;n_>)
zr$s&+R%W7eTQHhDIlen9M)jplGzOYj4AJliBo(S>;lQT?SgPAAZF1KIJY7Gey}~J|
znCS)yY0c1*Qwq4P9$l$wk=9FgG3+Gp@&5oS^QQHQ^v3@H5+@jsdt5C}tDsTR+zMdk
zj?Zcek|^M9qNFoL-GE-pC&!~Wxps9`L%M~({x1wNe@H{=RF#@#c@>m|gUeiPf1<ge
zmXWUp9WC*^WVwynS8F=M{Xb9Bdz<C$$V}R6U`m;yrRu2ks%H8!%MkvDjl=g>8gJq(
zb!_y*>@8wg?mo-N<eW;v*Gu+Ry(Og>YDBdlHa8o!&B#Ah8DmR!QZtj$d)Hb8H&Oop
z)=<|*>W}GjY*(IE^i5S9?UJr1PTpJ^?Ady*qXiQp^}~Z~FTIA#3$N<*^=xz>n|mI^
zW}Z`Gu7Q@q^e&p|D%eM(S0x=t<&QQ)YSGD}ytbcEe$m0c3Zm)isdW8I*OaodHyqm~
zZfjYfYZ`v%NF$Qpp!Qt}#<p|2W+}S1p<h4c-7DoT#jk~DOQ(u4a$ip=&7RyJx~HC*
znr(SBvj9gII98{qtC>jX=YlzIEDtI(m46gg3EeUsTDn?x`)HWw@+D#dpIy}Ca31Gv
z&9<9`QBeAaR2fW<u{Q&<(sb`r8Wy%G=wPU57P)BM`>8CC*<X&s=sNytRv2nw4;*A6
zt9rZCkV{9kuD=0X&mNDj)49#j9@(vpwgqP==|4%u<{4rmhLK{Zq@~#@M}yNhJvpp8
zwvD2xmn3HCy1cBUe)@WeV|A}<;bZ74>U68^Y?4MhI9VALc-N=cWc0y2D=6Y>sFyse
zZI7F(sw1iba@RB-L9trim+A>?npodTSo^W!>nEsmaeX_UZ6iRv+H$HWW1B{r@K##f
zvD~Swc;NJkJd={!Jyx`6m27l>mlX9K_MN2v0Kr&Ia<-#NpVDD2VK}}Df!$42EM^I5
z#H8Rji;?tDRB6@K)ZV0WhufIkG7*&GyEJjh^c4ABQw84gZZCqfHO&0ATVLvy5OIsG
zE|4Jfzb{k`H0&0=`B}cHiL~{ne7o7$qUC55q8%MflT)3q4#(<ah(EHbZ5>?G2XAx8
zH?i)jX4C^4wj*zlrqQ(u#?@|Xo^#)XBNr1&e37=(A5{!NuBLEs7$dr=)a9+GozEgr
z55^YnrZpWdwkAhg8K-@+=HwM+t!PopO6fHDp`Dh!k0`kNK~nV3H_~+)$z0b{)j6(j
z^19)APfm4P<ECvkuSpeCZThY5A9d%kRL7)hSE!|77qfvFvfSx0=o+ObtptLeYhP~b
zf~kuui=tD;m^V;rKb5I9+9)jDmqy`&qKB?xl9aY;V@pucmoxN|h3XiMD_y$84&#O9
z`sS=7k;23ug!wV4J7$JQ9V2h6bvrBIEUggKH^bNszUsR~)Fh;<^=RpRdUAd7x-IQk
zO){j{*S0r0*E#Kl>i+<T)YY1OXqA#$3uKIfpraP}lv0w}wdt*QN~@;;(oag^`n?D5
zVE+L0PC^S_6t#7&4g9pw-`p*=>eEoB(<-7hP*b)Fz%eujX(!}xSDn}OeN`o7v|5Bw
z&RXrFO`sF?T-h+>$17V$R5HSGu8&{o&X~}vsQ`$?HxF}05A2Ap=sur~ru6X0ZID_4
zUSXj1Lt=~7hCm3&X?F_Fey-GN*axcU+y4M|Z}ce1%eINeE7K3w`aYH*;iKx4(aHR=
zIrnP7YA@=2Hl@t04wfKnTrZHV^&L{aR~EK%{{SW9Bj`|Y^<93O{2I98u7L8%21n4R
z#l~HOCn)U#Qo*L`LC&a-SfoG9&fjGii%`&K6;u_im4iD@FZBu9o~NbO13sJ|Nh#(s
zaH=1vJUOhZB(R*DBP>+=1an`b&@^wvc&CIxT};>|wTp-8DjLq9(j74`Y!*G*5E=|!
zFI>SJ+*;x}B^{`Ar7STzSW7A(BKw%(cKwpLeGIZ+V`8n*>mDPHUrp!q*|<P;4wF?A
zH#V5e)0?zqR(}sqpL_&Q3po!N3uUBr9SvO|hDI9^Yw{3KOR!3E^|Q@Gs^EKs6;jhU
z<898<^-ZRwk@Z9UMi;m{`Qty`U-gv)k=M3*Sc{-`ZUxajKUDx|ilUr@<h4_@BbW3=
zP1D+dr~Jm3R~=kqCO6^Z{{Sjh(alpIrd%SJc6Kta43rRm5t3~BVOQ2_l+(Y{W1`$m
zu1)^{x>}T2Z8T@6g1&;RHemL;{H<S2)K^Nv=$alt`rRygZDjPN&wC|^kJE7AsVnF;
zDhK-7Z9}1df^eak?u+3x^<7g9GhGI$rUCx|bZx!9%BnqkO%F2DRLdAY$n1~Utn2!Q
zu4z9ft+Ei~fhQLGqCfQ2dtwz3#>(nfWco(r1aTz04oO<kbpEA)xH4GVD?EXe%DqO4
zsux8Jz=A(R)qc$_vHD?#Hw+d$ScD9kJWi8*6<(R-0_>~Ovz;~rs!&pg7d9Zrd?8|v
z7|3?w*A5)hYby$<Y9qw%5;S+Zf;uRwj_96Rdxg0~6w6v3u9l7_!uE-pF~9kO(&+tJ
zSmy~pFxlzP{@KYNWtXC%rhx613%v4ea8lK2)NOyO1m>0e;Mf$IFh#40TzOh`BY9QS
z)WxCEME8@(Z*Q`x)pZ)lVms+rSmEE5SJOI;Gb)5t(neYj`+$Fy=o0DLPN_^B*NfW@
zX~*_l*yB%ZzDX+4=P-uu4r{OE4$DD9rRmy(J@U7Gv)G_|uSov@OM6`mn}dywxeAa?
zDR^*^%y8nxcXqUK-pw|l(=~L1)Phz|7e65dO*AZbrywyugW#d5bxl#s^qW{n;9Lu?
zlFkLsB)_@0D=S@%9hOaWS+NDaLWZYLietJrHP`LkSI1h`dpSimptu7QtZu0p(C;54
zS5#5DDM&3j;^8YGwk>hpT1{0Wnj0$vfc|SC{b-u*00*+XW{!NAS}Lpb<~@bMmU7R!
znp#=Q;dGF^AJo!9+j`JE-KNBH6;`JlQ#s*)0DC8GGBnesN2c{XQ~|K+QGQ{Ai3jQm
z{u#8*MVEqR8~*?!`B^4J91KqvAlv0OYB^wVk_jB&qAE=a(lyM|Dk&f9Y4g4pbB;e`
zRVJ@r72B!N?qg5;v5tOhsWeWatfwLx#x`bK1mOPa_6=iBnfoM-@B(>vxu@>3$s77I
zi>vIP)6#Wj{{RKimmb7f!|a2o&}wNMUr95W-q*sOuSTY*kj)X=PD7Y%g){3~U$i~7
zF?fDWzN&(v7iyK%#79|9Uf=3sHIh)*Fct<E9zo<NM^Hl{Y*jjYn&NYOfQkH`om$=W
z@(A7k0BNy6&-((KNp|x3cbMJdu|Z2AiT;&LPRH{FV<UA6JBANhG1&8DJeBad)|xWM
ze1(F69@Zbxlq8HTC0qJ*(~a?we}aaZ2NvDK1G*+aOt}{A-9<B7wAfh|A^_MMj>(fW
z5nzKDuMo0M9bw$0nwlGJVY%+4mAeMf{gh?Jqa2~84YIy?gl5-Lwx}|j(%~$vyNPwK
zn++ozOW$Gwl;Vm-zhLYa;9*MK8z)H?)9n~hxI7Ekgq%mQ(ntWwNY^>%7*Xxb%5ZyH
zG0IyFga&}iyO4!+%#55V+QB#Kb%%r<d>aVZG2ZJV4K>m=$6>OK^15^GCg~Xs`NA%q
zowo$z<q$HqN>~1-ghd-3+XZ_Nru3}v-O8&_A~#+nUV+&x!Hs7(DUj2?R_+`sqb#mI
z;%*VNwU1+VwDO9OD4JS#Fyx`#c=MD%bh2g12o4r^bx6!fM#w!<aoHnhA=^p9g0ZF-
zZnfL+hjiQ<tEpKB9hQxevJXx`2wDAKN{*VSRW-J4@_ZxXm>V6|vL-p>o+Av_Amb@y
zl#!EYNN68D7?vO7GT(o)hAA6QC~TXVn_t4O71iA@SS5z@P&wIQ{$HZl(=$iv`V%z_
zqB^iW&A%&}QN0}ymVhcA_?p*l^%zCNf)ZNR=iDx#)aYwySo&9&0^TmNb(K{NmuVyr
zxUyrFospDk%`}x>5A24PvE&;noj$kJcF9hBtJw6}CX7B39gZ)Q7A5RwljyE9NcjNV
z;qZx#p~K$Wf7}zKq>>x%jN{=BBzqsU1yuyPB<8}5B0q3&a6SrqYFf-%;ST4AFzpt1
z!enl7a1IznD<;@^sNCCMa8TjSvxUdXo(fjYn4MyK6hk!G*e>f4@Q+4R3mr6I?}@~G
zD@r-#i~#TAGq_O2Ohc_~gj7`WG=s2@lidft%;{__3K?5)Om01wHGmvD=t6TT?$F}f
z5y?Z(P-4Zo_(<IaFqX@*+qv?IW9jN!XKg<tl|?OSDi&0hA5n(ICD`1kyOExo?7~ZY
zrH!T5A;;wnOR0$l*;)^4giF}R4e=Wk$%gEhv7}t(LR|Qq3r+KYxstx%9s+Zo1@{4C
z!hXbI5mZMo+VC29xlNg_gx#(Lc~D0WsxJ%u-_lceJ|bH7ACOY;8BalU^^M(U64!YO
zcS*cjaq2Yp?iE;Ua`0^L9ut`Qm>p}Ev*jA2a<G|c-x2j`q$RxDf)tFde2fg3?*p6i
z6C<gLMpzp=xFImY*ShwxS)|OHM6y8}z0teupuW;ZRDeC5ijCp!B--Clmxy_eyHB*6
zBs-bj;FQ*upJ~IB_PM#W+L-~3w%|zT!fRZ{k{xh<LYOe$b3#zYJ>%4l{!<DtO6LBP
zaoiOwHBv_LBxTKT?bxT96K_(L;n~b?<ulZX`)VUGzsgp=#!u+7WmOe>LuyausyjS>
zl7_2}dRJ|j2S#|2xdb65rGKVeJ?uZsI8nh-H97Rly+}{;JY0Q}D7f@d$xE=KxQ+0T
z_MSo>LF!!CwEYr^BM;pXF`n%zc;sZ5lEC>1*2%pUva-Muq66h#zKN1B`@rynbq>c_
z*#`?Tdu40cyb$q!3IQ37*J&f@uAQdJ8@@k#d=w1O5J=$n1R$iIhHz*%OVwWx5zGsj
z=E~b-brJfM@(lJ_BIiWway%4m1!;-l%yAw<aZ@h0J{N6w_frQo;9Cd6j-H}A$npVl
zN5tlzZPL)mitAj5i-MZ?TaAwY0O2cN*~uQ;J98Ws*^Xt~jHg&0+47wfj5r}kSl++_
zuu&Ttc^o7=fVmh?B(oqVi5V+x`dpMGA;b?0feyE4A|r+%?Xv<e+;F<0h1TB-w*=G+
z*$K$a!AZ5*vWS<)?Xt9v*Rqw4BHh8|V_1W+0>{F8PA_#JjgQDAd=#FWn0><uLQfOP
zZI3<^!`>Zz#>tEunh*C0!LDfL<I2EcEq?K5w*LSrp}RpWJ@`<y_BSeKxv%{$u~-6<
z9td^_Q4r>xz}$Q(9vt3(!Wr^8hrO?mv5Ea)@n^QdMC*ZIE}<_E8OOrlNCM}Tg(7v^
zC&z^}Ehj8^2e?tl$pH>)ZY;T*j~>z!Ft!^RYsH>6A1RVYw35;d{P$7CBd@kmbLCDr
zu*g^zL4e>KHlL0Zj*Z)IlWyaXo?>p_a%JRa2IJ)hlNmOFDyo{sZK{mQ&I89GRMoIb
z1K@a(qsJj#PS&_wjGu*5Q>T+JtptXiPR;`d>J+{&qN_HxEi-|PTI3Gk<xd^W#lw|L
z=BuQbeqt*h{{TA957aAKH+rB-(ky?SoGD5!J(P^o2B@d>iG7H^M}#{qCJDQ|6{8J~
zN^;o%IQ>9!sVem62a^N9JlLEpnCyl|ToCqLTOL((v}|*+gnU&pG5(EAWFFU3NfdHn
zuCuLig}GN@rRb)KvcU7T*B%Z+C`lZG(l=@H6RIiXg~Z4{jvdh8HQ6IRRTjpKnIqcR
z?AzgU8gGwtS2i(hT!OiQ(YzM$m5<1n(+Mu<oGw3<s0&GU$F{^G8uIHB%O4=A%#4wt
zlQ#Yw5E0Fyv_#?hea*U_D48pEy6rww=8e&iT6Z(C9HQvVayKAf{G#+_H6pH7)Y3eV
zZr_AOHmB_&*ZBzfnAbG72Hb^PRY20>SO`DeWhBL?dLJX<mgS&){2@(&Ao1MzP?Go^
zvEZKtItRJZV#R7L7ou-X+e3%Byn;I>i6o3z`<i?Vq9P0~_MMLKQ3e1-%RoKI;G<|+
zwhGoZq+S9y_`QmJ5y&JvhI}4UOGS5XiN%t3`A(&*sE7D<v3jlI_Q*vmIi%>ZXtQq8
z8hiYuhO{x>oVT&YQ+6^)_tQzdcsztGgxt19e(0poF3U$U8KN$Y_ZHz$Y7iE_&Gv*`
zVayw$amQr^Orld~`&_fxTy~jVo8N=wJJb#y{Cua&8EC!!;XpxX&8$+@oeF4|VHpPF
zvS|ak;WdvS`%XM51KR94wkuFnh}<)N{H8lR;_6ocYu!fscg7H^Gp04TBQ`~3w!q)W
zC^uaok<B<ax5{!)OqzH`3vNCN9_75E;hnA<Uu&h3Cde)<vSP425n>Zv9tmi;Qpph<
z6%izV%5rRPxu>7(mvyav6RrretQ2nZ$XM1D1mu#}40l~LY;&%|VuoQi=IUTW$2K<Z
zm4%``q;qlfPHT<*!s<Xs1UOtIc<#)Fn=)f|vBL(*g|;?N1OR-lEeC>t{A`ZiLU0(u
zQY?^-qsqfAb|4+RC$Z!awKO}khbheh*9b9@G;%Qhus*3|fv;&S${)T|)Z*^AaIpDB
zIu+XJf=JxakeI_`W9Nlp@(3Zy387&=(r$_+DSeS#aCk`QnBnq~;mzbGi7lQG+5sEl
zd}o7Y5pW{N!7w;}Q)P}fG?twBOr`cr6aqL;Yk?-=Fz#ju`dKi%;^7*wsRagt6M%br
zVM7eIA9O=xxa^hLPDeGwpLcZf0A>zSSRNAX2cB%ThNx(ME#Y<vy|TJUoIz2C7L&PZ
z_JPRfuz)T5rtXu^_EK-Y4=FAa1u<*&TAJsQ`CjXu>9IruH(Mu=xs=U`gBzT*oh#AZ
zOVrY~Ei+Gh+HtzpAG&B`zv7N5OWS5rR<OymFu3>~k@{whQCjBv3~fGFtq;Mv?GBJu
zYjyNg;0u<QT%oBbX<PpQ<kJGcaQ2H`R+7+`$~_CFVy1Il>3WiO+}s7DZkZ%)4wv>R
z@k;1kTE_r>c~de;C3fdOaUJ^wt%M?il2;4I76)^HlBBuP7Rd18Fl_6jb;~_7Q6qu=
zMic%N^px>{Jxz=r59%pc7J(V*wZH-h@#PfOi81N(z*82+$8D#k-tX$NiS-_nto^qg
zuCulfh^ZoA25G6{@X~I7vLn-_V7Yej-`YZ~ZB%Y`{Ycn*2IQ3Y&n2!S+TW9t_E~7(
z&{U?K_iR+QAJpuX1W`Sb2Qo{4+SDv{Ra437#ZE1JxzDium5ertww72TcZM64yEjKT
z%1`lsa&DIJjGe>eBy(8cT-RN`PbCK|zst0>qx-EvEH4;t@G<4jxAsuUQ5$SBTzny7
zw2uvBZ$CVhXG=!}f5dwoGyedjoGiiY>NusBF}3&eZa(T~`Vkz(>&Q7SI0`z7$;(7Q
zwULkIVaMGM>&o-Btvh_B3SVN>mP-4*#iN~#z*2_;7-)%>9lI_Ox3po-`X`uWBsuM{
z{+{bAT^Xdv9LLDvv^0GJk+C_X2Rs4wQa-Yh2LAvYhJo2-I<KuMX=8IJ#9{We`LYt6
zVl-1__Nl4R>ChL>ZU-ZB^PZ~fhsx(gMAt^nKUP*#Sk>!w2^}Mz=L7pHawRw1(td7|
zoVyLB&_<(L`iGe$B)Io3x(Ye6c92qtC8%&~MTf^FYPx%%b&W-=nUR)4f0@F{sVWu7
z&QZ}-*Gwa)jL7F402bpy{598SiL+Ef$RjzsirnZLM^E&P1FGwt3uR+&WO?AM=BfCF
zU9HxdJpw5tj`sBk+SGX^rM6Dnc39H%zxsF#4vf2kK~^;ManiQs+uijA1*G)#Ozjmq
zuCcyDlN3h4ebvCAjuEwwCf_`)+x9Yv6d)M^k)(mxBVJqp^kOY&<dUL}mS;E++z#ZU
z+YH{FwzqGa<z~=h*$ZEG2H?4LP)h8VhW`L{BU=*<<RE=eTBfNLI}2ld@!2C|Buy<?
zrFEYmaUF`G*LBv0;D&+NESFOCNPxZDn)mh#3sGOH>eV65dz#R0EK;Q9p{+#Kbq`Q#
zQ%2~hG`hKO%fks-Iz0<j)GB>is%nN@<T-_Jx<^;kG`e8NM%i816@50du2#11nx2|7
zz-tB3kLvmZN?WrprD+gSMjGhAaPk(0o=R$XgPPXhU|m5S4MjwS(n#kE<dMoY9WA#W
zrynZ2kf}ur4yRdF{5V_bLNG`~P5CM~4Am0ub*>tFs@-o~)AV><6Fu_U!L0~Rn$k5M
zrj*rA9Zvx`+=cPd7Om{5)OAfuRjD-ekNmwkId>RZ&Wq^{2(#Czt1?ucTpe`%Tcb4U
zHXZeo)JWguW&$&$G&$cU*y*KnFMu$P7TmTRu}V5%{Z*t<f+LB~k-dPqx}au+%0enC
zB5ZMtjmFnriPSniwMzjM6fw2j2T1T%4yU9#hf}C8)+>D|@4$8w<W%h;V_w-wuj<v+
zto)vvPf_Vw$74wZEsx=@tnC7WZAO?L?p?irl`KV_IYs$sDkFQX&B0Vv8fA8(_f=K(
z1a!=I4BNt3OX$-}*`(@E#a7do2sD3xYYrAyPN?eczON9%*(vEs$Zjy1KTE*aOy{Us
zC>hHvr|CYTtI=k4HkSS8k7(r;6@R|PcmDuW+4=+Uw@%V&n=NHCXPAq)za?kC80hqh
z8YwnO6b}O7t+C3?Y8`LZbG@*cO)FoE?#hm)eL9+(^IEKq)as6QxNgd;eB-SlBc^$U
z6(qWzqv^Ts5nkJmWqGLd-i1d`Y)?J13-NUaQuR9y@5|}Gl^uYN%Mx`enyUOdL%8zQ
z7QG^>OS0~xO@^7mR@1N!YzGT@_;VhSSM988T3UD^3DNpf-3w)vrdy0P?OW|1Ns{fB
zJt7vgcWAOjHk~v(ifYkt{*$BBY0Gq)IGpQp>@Pg({{X}NN{V9o=mQ!~HXDWLwHmwh
z>T+X$p!SXe&B@j8t(w)&mPWMV!r-CJH=xEewqYXajZm}xoIEgj!h%X&MwU-TSVOFN
zIkMf=bu=y>jWs0Y#~En>1jkg&@g-FtYYF8w(3P^6Ow(FNt0@5Ux5|94g|%Lk^o)Fd
ze5;4e2#|(SyEwqIf^8Z~+KAj5VvhOua*rm^IME<F8-rN}j_FOmm6t?%T3iwOtcEIA
zTZgvF!R)8${WbGJEM@Is<mGu^RB9UcP-+d0fZK-cz(?e3Q5|B7{iI!WUsUQeFuAnS
zLRdH~A$gsCwX5or8<)5f=IhjYJD_zrHchR;6X|&%za?DieLK-qvNe%1C?)P1?&xG~
ze<2c0=<}|Yr>_hWIAZ<6+3A|TsM%XZ8_Z2O+^t?TnkrJtH!;p4_Px-wv=i2YE43PW
zYoBN>%7d3LMdJk(*>FD#D|N<-x~+Awhh&03`BPH<7HKpl(&~Zl{{Xb|yF}^Dda3(H
zy+5EhEd&Czlw(Ti@BaX}RvDxNCFN2L-6cXwDy_1upNE}08$EiKOFq%VjuscL>Z$0%
zsWgb%%VUlf)2cegDwdjkDUwX*U^R`p#kZom+h3_OvWUdTALj^5#-2%AVTY3#DvB{W
zZDg@lGxNKg(C>A=tJ``{ROqkt;PzCQC20P0{{WShoA8rgf-hFB&1vph+l8HfOEx<1
z%T2098?R%0EAepA7cOqihgJ2ZJa2V13&m%E(Qv%_t@_5HQ|dN_k+7SPTDEjlnpaQK
zUROa<_kS~NZnN6vp{dPKWunt+1OQkN+l8DLc5ZK~2+_1nK3B2&l#YYRVO!lVr8+{U
z5Ygz)PxBFV<jtn)ZBY7jv=vRi^ATVcqowq2qtTirs+FxB!-`o(O<L$Mn)YuU(#_H>
zQ>N0j(D!RfqUsGpOAkJ^EK$ziu?pu#)U_(-dS9E3tRJXuS>MDueKtCGKBAqEseT&v
zyD1;*O%+R#Q>p$SO-oK`p_C59-yu@z)fL*^Safw$OkI!xRQh(24OXDo+6%6Kn6GgB
zJkT_aDwUGd2%~szTnNf$l(xi4ttM4;`RZLV2AX)JIKXqPkE+#my15v27QL(o+&5sW
zuB_{Q4@{5JhiuNa14YWj)oa6Af$tAA1F>+jSCUdy4UO?dZbrCuw@c}Co{eP;LBkt^
zLAu8E7g=d~jK!K%WsY&S8(_TisbZ&&vCK7wt>=Qngg%cJr6pSgbh}x9)!_vhKjgv9
zE|Kc`28h|%Dr%h@-OkdTuAMfTBG$nZBm)Ei%7aYMYM(+ReyHey7a^{-mUCOv>0+Gv
z`i#%9&%c#fx6qJY%@0r1YLmbIpVBb*xK`T3wARyq_}+?<`0-+?x@%q2wAv3u10ft9
z=o<QXdYZU;^$&&{@C~k`%2Iq$UNKSRz@7erXLGdbS2SPr-r-(pI=eLa86;8JfMuj`
zx;-;M(4f0z5|BHasy$~{cmz?<yfpCZVO!&rQ3o{pJq7(uqgGQ7UO^0>RhrZ_`XNwZ
zrl=AN=EY?+$@I$kcIwkUn4azb0F`T3Mbgm5(?Kt-I2bXy<e!wUm$2*6=o$`zqUv<*
zshS<nweNLR)b!MPbBU&gFfVJCg_WSzx{{VM*mU^}K>J(|WF&f?uc_)HI`%v={1u#~
zRJ3IjdN)eJqiPf%_2w&_9NA@h{{W=)nWqfVCM=cQjrVE_zB(#cfsOM;Bd`M;w;cu3
zdNn|7)lZsNk#b2lLMn1}7sYg9I&<*GM#d-9Woyqq$Jtz0(`fos9*ySQIN1EH&sNgt
zR1{7SR#d{~jxTV$SXUaJqPMB)#@F)W%3O`zA)^&mLtUyx`R6oCHqd>dUVpm2(|W>6
z2rOGIyoGP9SLspdZZ$LzJ;AsIqm|~hwN(`_bb4-{;(wKcH~J^XmyVDpkCL_-*8N}k
z@Cb9ojleC+$;+<N)Ru{(Yur4kYBc(pB->jAusr_&DHgKR^nXj}(?;=MP9ESc*YHB3
zZzB<|D6G>frF3_RuZ(uVvcAwXlTz_4mpQl&SAXi7S5F2}nmB4;em%_ugss#lsvql6
zN9Y6mfbgZYBC47!>h-Vmiam_QhAh0_P}ZvT4Qtlk;bX{Jippoz&Hn&XX(Bv;Y*mdH
zP4w$2_r>eR^UGX!g{MDk5rvv=fz+wrNgw7a?D73d`>N~o^GHjkiSD)v^ZFV}SgHgq
zbE9L8iCQ_jA@wxEdRpexMn%gWZ)8?SDAEI5UfGYL(Rznmul2O2Ih$SWaB|uWKdtnN
zFzrf^)WQZ_!(tUxJE!THjIer;?c^}rT@hdSxmWpDK<Ag6TE&ZS$0fea@=ZMzde>3I
z3@-P$ynd*p&6k_&T~!;agp{;<9MkR_ZVDq(t)|wsSthG9Q@TffxQDm)S}vP9cAD=>
zT6%3kkMAUQAuM37tZ7ZPbazg5PfBVKwk<{{QBDP~w*;*$8s3{kz{&~fsv{gV*gv|j
z>VBM>s)zG>M^45`7aJT3#_4j_!&+$dO(IAhO@S=`0F|1YUW}TO?6&Iq`s%5DT75n2
zXZ1DPg09gt{Z>k-YU2^SF~E^~6mF>vT{H#M&wZ`>R%%T{QjN!Ns}sDW=Wkt&!n-}o
zOxI?HkccYbZ0&FRavNo5DnAkWjw+cVsEQfl2E~Nm_FiqLRBJVJ10)ho&h8l@Xkl!W
z?GiPm*5$74`=FD(ji=F~m#Ap#8|q06l=2*qTX2A$wu#`8D8KB0cC7^VY_K*n@D`Im
z>FpO-h%{;elYjZSnT!2U_@bD3HjGVWTZKj70NOw$zb<gUW6HSFB=z7vqz)(SwUr-+
z^G7Y<d`&&AkfHwo()z^=!LvsXqHtcr{{RV`B$kCudoz+zQAr?dwB?861feT*dUrYA
zjB+;Kd#_8N(%B3|)Im>IA8~sSfYs{sYADNvJkgFek#IiiW1YHYoIRt@bo~Y1yJQf$
z<Kb=e@mEVt>Ao`2+15cvs#Dawibu3J#|2qMRWuQ9w&tHaDz$4wllwC|o{y+&73L@^
zDfhd8_w84`J<=Utq}%?TwGkibb?~#jS64Z4nhJMs9hrq;(O-#@Q$*St#@9gci`<d>
z6&Y9iD;D}ST7@>EBirjfie5e9;RB>nY7{jE)ox_Kn}@L66$esvWR)@caG7Rv$1Z6W
zRFoR6TO_>FJ*+*5QiR>;w6W`Fp=$M%a%ttV#K#@H+bhbZ)uq#QH~vyh@$UU46R&FZ
z@&^h>Z)bte?6IZ|S=BD6*j&<hBE?^CWTetmdj9}TYjIXUeP~+OcO)wQwVIifj(ba5
zO2g6Xm2?mXKArnVBn4NkbqlpCM%f$zHYud-Q8?+@ebZG`(pLt^*zQfe+!g6;6m(Q=
zbd)kc%YV5axu3UX<efiBPD5mrg6>1Ewe9K&Xqd=jt8r%qx42Vry$+gNFCC@Pbswo5
z6HLaO2gYnK^jT^8A^J^W{{T>!%L9+=XtjsPS}g-uYh~X}JZ*EiXci~zi0dAsWV&0a
z9TOchnnv#llz8+jmoCZ)I(JTE1k|#?_JRDS#Zc>%(LWFwqIke_zfJzCu6eae6TQ((
zG$%K0{{Z1SJ!9332&H>p-L43@-o=cn(JXxz)iTD~*{MxUEArVQcI+Y_K*|U|>RB{a
z<T<3-TJ*<X>Y6BQF~s8+am#;Y7hHA0)k7amM8?1Q#koRy=?@0%%(|w4)G?9He^x<h
zv0j^@Xu36YF+G$~ytoUH7CWUijXt66k5JL$adELAWG`On5v4=5)J(H^EOM7Cb<tG4
zvYKi=DvDo8o2lL~HykLcO+`ucOPefb^qX9dy3lo(`fRlCkg$4$Ud3Q^O3J!ArvlR(
zFLr~FmM&bVX~k8SGU;{Hk^W*PvOqtP>;x(uQnx}5bElv*HNVvuvq@X+8>=*@H}cxF
zA)&&;MirX;LFtML=$&7sRmD4b4B)HEEBPixOVNpUQ&;8)gMi>V_)VaSwoTI*A*$SS
z9F6DbR9auBPbjC90h?`iWu~JwG_p0+(K1#Ma?p8OoIRW4pQB6DT@j}1G_lV5T8%n#
z0R@iS+pQHxL~2xYw}e4j!N|7PSylAsQ&rJ0e+Bf!e<2ts{a3H5r2;B=i(lM~E=;nF
z-4=?;A4W5(I$nmp@zc*yrq{RmCKqeI>&>;kp4TZVzbRbi$kX~<({MuexsI!@2EMD&
zds~p^41_tRp@Krnh(r4l<8;{P$4{V69F?9`p!6j3N9$mZ1m#^bM5du=62uxuViw5h
zbh1smOx6W2^)bUAWJPC7)M`|g6-}A;{Y@DwuAJlgobr-`+2>VL(bKqkUe^x8D)*=L
z*&>U1yW#`h8ZJlKL92AknsbSs*yjAILtPG=RN1Me+V=81sVTTR_8m*I)2ga8O-hmS
z(a7IllG1rp-3z73tZK%dhIdCRKU8gfkJ%epL7;V1SBdVR)VU8~+8lfl!Usv|9bZhY
zZA&JS37G50Q4_O&D*pf@lF}FB;_b6%)Lj$RG|`b9?=hd`nYcgxlEGATok@}3oTid8
z4o@TOSJM9ghMj*wsL@5!-DKF^KHZF}+wFhX!ByXj9T!`nQ_HL9O=W(bebPcQT0Dg-
zpRvD3(mXRp=?ymyr<I~_4#LyN44PCSvXc-TIk^R6b-i{8NHnc6zWE$kU3AyxH5RZ|
z%_EpN4>t+EH!Y?glC?pv)nyTp9d5~8dpNZ1KloW4UqsdF<}%3%adE$>&u}Z)bWWC|
zsIyweGUJQjqIEu%ijkhe8)0#@+R3L3i2@RXXN+jtR-sK$$J9n;iKi_XHeQ#c={ioO
zO4i3x=%phu$WXJ*O$3G=LF5hupk#ejPPL`$?2q$$JdxGG$T7R#2hm65f5oBP7ja?T
zOQyd{h2v<Epm#S|*yqt}9%-uIB_xN5T5dk!0jg?Ry<3eu@13s(#j+ACP}I6rYbI;z
z;U$MVyA>rD7owf5m-BT00OfW`PhAa6Zpd(VKloN!cS}#GS&xhYco$P?R1}V+Xqlo`
zk%CQ#`V>_-pGKTbNmn!J#&$?<N7Kr9<Zb@OaZy?ZuIOp0+8og6i+i;H0F@@4OBFZ$
zJ!FsfU_G)Mg>f%kk3r0uA6dM6MpvKp9=};pRq97b=vjOlD%wv(oxaQ6b46@W$x%;M
z$w2H*R(gw3bu`8{jgJ2SE2y<9$#JyEKbUf?>8Z3z@wQO<T7lpH0EMRG>=8`0(rYDt
z*EVt*e^g{#6{7zDOsA};^(mtal#AN<C1hz^9-ekOp^`B0>!PRD<bVSNw(wd}ij4wN
zm4&{glodt|R+a2&;m41$QPtDvQiCg_E@A#=VZm2TsMcz7HX6uVQGe5(LI$Fh-m9U4
zX=&aC{W(RyWt<}V3Uc;cX>_%*z0-8&sw!B_x(Q936ne)|YH~(t=F^!RqXon&Jr<s-
zg1pNN(g|;ya8|ln(OF1;)M){b4{N}(Nk{(xC1b7iqZ1`9T}zC!v951$QF<n$U!_m~
z07ER$4()bYRg^E7k{cHAKd1iy2x`i)1MK*k(sPiWlaE65`z&k!06nWm9bD~#UA(#>
z{z9v*rhC7M5tI?lvOoAlQ_ds;N=ZL2FP5AivT)XF{Xq<n#K{jbH-~*x?vV6U$1B91
zocoCKQ)=nKCP*IUpCM`AK^<!b=o-l!Fj-;>2D3q_r;pULi10Z<IKG%EpdBYysHYyC
zQyVsaQ8`c4ogHLF&12j@?9G&8MxM4J=t<twV%0ZJxBWL#46JjZB-j^lsNWcfmCA~J
zHh05ShB$`u90)5<rRu^5+K#43WbVRo`xWR~Wj2keK*m+Y6VLL>&@cO`tNL?Hf-S}f
zsw3>;+>g5RrR700(T|NLk3FratF3kCad5rvI6^uXTJ6f&)I+4U@VZ#z99h^ZhgZ|0
zfO^!mEG@qca_qt6Lne{Mo5z$M%E&{qG6?V8PB*`6T5jTOE>uQSeX_K$jt`W_iGe0N
zI1Jo!7fTW{B&?yTfbNzZp!Wv|Mola)&Bc_G*492B%eq&X$<5Q`rw~CLvOKuEoAyc9
zWs~|1qpglsfd2s0eDJ!iosVgBWCE$3wX$9}n{s{>)b+#{GDlj&1otahcu79UB{D?g
zVr-fu-ZD`#%M^n51Qh{eMtKLqq+}*cQI^od43Cq1cQ!^-NF`&M;qGq+%DQJr*IqY~
zZ`pCJs1Xao$N4QNskCwA#8}G=WMo_91lLm6GCxuf*%|x)0Aw6Gn8RIgdjg85)V6T<
zH2rX=lHSp=($fyo_4z366;yi%V%&v#-E&TwJ=G&)Nc~O7SqkciCmWpMzx<&grF@Ot
z#<(-c;TU9^LeCso=rGYzR>$j8J~>&~wA~LjlVflTNbWGRT4YmG#AK$O@gBv6Ox~~5
zC?pZpwmP<Pkz@O=sCfykk(L+ew43wv_AyN2Kc(4C{{T{rtSqjhxj)R-rK0NH4z9wZ
z)TMF$p>P$OW772t8d~akLF^m>RZcIVDX!5^r^7>8H}EBNPCO0~^6Ax$VHOfI<GPvJ
zA&cJ=Y<m!$8}&*);#U6vN`4|aS)Z<Bpd`JeiYB%1U~^k=v{iMKb;D(3CI^4qFsmx`
z*Mqu_p_$JqTA`CGB@vf^<`8~VGesF6uHR%tf}$r{c=rz=U2tSl3xn?Pm$8c1#~A%Y
zlkldbjLPd4*`tI*>0TXseF#!|MT`IoVHFRvN$6+g<3A`mno>#H00_o{!C`gJkO5+g
ziZXOi%^TX{ETGzVWMy7T__mwms`(hwNd-z+>}4`I2?TDy3VO(c;@pKU0OHn9lByO#
zX<c)`3S4-UyFj7VzzN~xCeyIXcjm=R*udw6Qf9Hf=Wq&<w62t7B@#891mjfTE-V&i
zKs9s@U@o<Q?1gD;d;xWA`5!RLvQ>3OA!Cb=2?BI=GP=Mw9#Ij~%=X-rGbN4&lY&!D
zr7^o$FqtrDur$qc52`>tm0fi!d5P92h#ON;YZ4J`)1+=*ZWF08ZYFV!k&|qdmIsFf
zV<_Z*=y3|lx{3$0Xm&zn6fy|?t``^=Rg8(sAktAyB|D&=KT(by);@Tv`fpTiMI4ew
z(r(fZ_AAiC$s1jQ5SoP?Rd6~v8XON7?6l)xi=xj<)Zyx_8LX{iW2|Vfc*WKusWdu>
zDqILHw+^=|y0mIqHDB<haAp0ZE0{Wpdg@UPd}d1wI1GgeE9|UUnj&}z5=2W!cC9B)
zYTI1aHbCog*Ybvq(aR~0;EUqwN9mC~?%B1&`GB&MiCDU3;+m$4c)*?#$6JxY4^h*o
zq`R0ye#(M}{YsMzduk%?$vH;HSxGh?>8Pdd59v{ok<$r9=!og=jsC*dj{u`7^w_Ey
z?K@nDsG_WYzMgpG`WqA|)T$|F5mg69M{*RNT#(&aPm3IjL#9swxEJ|FQod%5q}$EV
zl)XS39@jmuZ^|LMwG_wsK`M~V$ege!hQwnh_>CbS35rH-VdKiD{M1e!$B&|k)n*b4
zU2mdmvT}khCxT{VewABO6I|Ss=4(5fwdZy5bTqQZBd#2>P4-WK6!dN{J8n~1K~UU=
z+;<jMFukoinCqVin5&ow1)-<sf{ziBKvcBW;8^%aMA;dOSx)Mzc}1MS*LfT#HfY0a
zOI?4IM&a~8K|FW(N=t?fh);R2+{+fGvPhrpbF6+41$q#Mk8^I<4+z>vI;eUtV0k=w
zNl#AK4a||R^3&ZLO4u0icDaNh@*r?4YqYwUB;FyFqqW75(a#_|WC!+Mi>2z2h}z1?
zM3M2hWhSrFT3)FWswie`Z#mkN<yW!(Jz6~GSi`L&IYd%cG!2iiJY^H9=~bF+yDAyE
zm&1Yu&<FdQa;Zv4OQ6XmcsrwY$9wRd9ZW<9ylp43;HdPrlP1$^99i5IX;IViNe`<N
zwgcMN1uM|Xm;<Sxm|3T5zNr}m(Gb@gx5^S)YMMC<Woy_w9zpx586?g3?<9A+7Q)gD
zbv&#)!wF&TG7>ewxC~u7k5hDJ&-RZ8f{r4FtZx>H{y@TYB5hC+7d^r93g<Y;(#hiz
zcqfpZEN+d5hYrLjN!|J%w5;0-q7AhWNxBD{cWL1!@lx>Dw`0ldr;<mq!lD-z{{T~Y
zP1_rpy|!@V9^oQmG!rh5T-ZdCQodO2aOP&nGZWYj!Exa7t~4&8tJ7Q?xJ?26M=dlX
zr@EQ9jEXwTeH96_2L(f;Hg_HhGkYa&<_!3{FJ0;S%`#G6#?2RJvp>41CD9N-{gE*|
zT9lL$<Zq0hbZ5G^Z8n{()B4n8GEg%SISP^H3Yhjf+pXOL=}kp1s}XZZ<7rTwFKL&C
zYSRtWG>0|Cg`_*R)iqTmO(d3)gg466X?o;!jr_i#+q%{g0g#BQU<@(JKQjUSE(0kR
zNk>v1SmQm!$x>9hH#D*25VRU~d~*9I0{(ld{X<KKGE%sK$!X*uqml7C$Fj1LeH`vB
zX_}|g0^RXh&G4fvZSGnL1IGv*D^s!BPt+@aQaJ|uVE0%E5?DBJvHB!qjkeo_P&OXZ
zxPNsU>`6R?!;$a71Yt(tFK}#8Ee&wm;bhrh7WSnu*yb&>PC}X)T-?OsJd2?m*9+d|
zD_^jG;b1b&veQi4O&y#NPKBlJF*?n@0ql@ClbrY|;fM7#U@ZvNI@bh!6WcA0*9(s;
zw-9XMWR?c^A9aQv3xAg%;Yi1uTHpMkOmAVkO@efD{{SofrDFt^-;5s#HtjgUO4D&;
z`=z!#g^W1OakT#cbdm-;u(FNK1Xx@5NWxfbMaR!5^e>^3!uGc8xoTuLFWOC!dxtG4
zj*L4Z;G<x=>~w7{JdeK$X2Tq#9@l*Ep@s5Chva!gvOVBBH|N4V0Rujr(YV|$40XMx
z#Sr(Fjj{qfT}N<E4UjV;ad<fwQZd26V(DDa<F(i)_FU#RJe!4?gmeMmmV<DForQ#l
z0DPlf@&@Mep_)cHmXKus05BO?Vyak!*|C-*yIubP2sk3Cqp1^7ytTua&jnda5&c5X
zZ;-eVYdO2W$XTS-Fk4$ev=vl(i+vfJ`C5Vcvw~CVblE9ia^1{4I1Cj{Sp#MP!wwuc
zV1!1Ut=G_xN~Hc`9xi#Z=awfOqVdapk?K^;b;jKGRZVlEac_02{KlJI9_Cq&J&D4n
z)im3U%s2T`Uqx&LRNbYIv%U(0(1^cuF8M4f8Nq?x;C`wmJj<55+%s^VF#~p5MMU`+
zWThi_^g9<w+F<+dVTwV^N`flcVzv$b5%FqqRBdeSy}O=Jw`N)+j)}p95%&riBN0Dq
znrwTkMv&9GHwUoxDU}h#<^ti5@Q7O~-p9t>@Q~*CQL)53dk)9=J<)PgNgE5Jf48v;
z5wM+;w%6g!P3T_5WoukEy_;R-D3Cd)`G;bKtfQ7T`hf3@_d`PWGs;?3Xn4pXv8<7#
zpZ-;QTIM+Ix%ov@Odi|u@`h#1mj>vgqAgHNPIk~GVI#>#!6V`qjoza#mb=1|j;<2V
zLaq>4f1ARVO)!@F)G~*+`U%Qs3tA^BZ)4c#Dq4LaSnFklBy`UP&uEr2*x-+$K@HoE
z<`z7Ch(~Gl1=fwu0QM)knsn%tkojmp_tUtv_~59$M*->7#c|oe9O->G4^gF~$l-IC
z$%f`QI_mXkkFvG#u(Y}t=fPDqZYK^F`mGD;V=X1NYrGB>O?)M{4jD-;9eC0!L3;)b
z+uSAtlZ%xzfo=PQ!ZW$QvfhVijpoD@<6~<nTFB(EKG**Ml^Kdy-D`jHvL|9@*X)p+
z-s3BUyYt<1S_!y6{GzBfG&#HwxzP(<w<>7y?0ZQG<_Cj#&BubUw*7#TL9q%*<dK<a
z7Vtuy%wzE3VxX26$HmC=;b1po-zy|#oGjpncq8N#xOOm_{mjkojT2;$#@Djp!u|?m
zk&tXfikg}6xtn-4?xiQQy~E`*V2NIC)9wT(4nevr(hejGeH0Qx=8KDug@&<NC9rZ6
z#fUa12vTfp;bNZCdszmJWUm-0jU_z2);Gwqh@TiJG2+QL4ZkT#`Y4OIxk??J`NC9+
za{C<SoD10_FyYxH&F`BfIc_kBNmws?<v29Q?gy0=ZrW@S7me+(Ir&&lRi-_!V}RYt
zW8-ia2I?y~al+=k!1!24Oh>-WAhzgdmX~7)x4Ez6XU&k+5do3=qM9Z%VX@k7lXHNv
zQ8Ir`#iZOKS?SC$Kq$ZLMh;)@H_g*z4Yk3=`zb0ZoHEdGhaj}u#uG>SH$sONl_MVO
zi&!Y{?zuNhaC?+m88E2kHvpnzb?syXME?NtjDUupDI|vsVY@EiqLvmsWA;)9hc|$j
z{lHu$+5@0zAuYf+OtZi3{gHwA%3ZAfl*nF2n@Q1Wni}b&GCPu7a2KWYhg4Q{<p<@o
z`e@#5hsaHb*;7%&r^f5d*E-+IGj$}-bL0(zCqU81a=IP0NaIvLU8~hPnzT)=RaDeQ
z+_os&=|%qll9jZ^HjR)utOEcH1tbisiQAas=XsMq*rIBgsY@N|YD-uL=mZP>f>j#Q
z8Op)iO!-($a5RC-oInHjQS6i*j(aWQG5-K6T6o=tyB-m8z{r{%>jL6GNKOuj;1b5&
zu|(L%cb-a-l~6>@v6hD(UPa0ZV=LRVyxaO(E}sN6%*)J$-GR0e)rQc0J4D$L$u0ZH
z{jL3ilCw&lSgsihBk#0We&q=p<lVkGMTZy4d)=wk4X-mgG2mD%j1B&uOHM!htKa=G
zkNHk)@YA>bnBITx_Y#-VWJdm$<J`U1PkD3NLtepe0>B~Jm^{_<NZUsPV;27a+hwks
zMH}4G=KwxPT-n`n4AC*8zT2gyr;@T;GG{rL{YL}#2<RP;l3>g=<b2r?ML^n@htBfI
zyt&p#L#EQx4c@48`<DY@^g~s|$H)sLnpY0tgft=kf?3HHjY$XnJ7t<ney6^|{{TR%
zrI5;f&n;l=J)oieIh^gG^1JETMJ#2G+Si+(Cgp2k{{TTP5T4%OsydP=r69F{Fmqyn
zhfJ1R7fb-~U1cprEEFxf>%(oGprGFsW=h#<Ej$lxo3<v7>YrKEblo~4O;99x<z%|2
zuHmO^sVJOfaJVn*yx&*WDl23zk?+riE^?C5PAWZ`F0AUqJg<(F>|yRXSh|Y0O8w4x
zc|KHIBXhue-bv&Izx+Ju4Hr^-YIQ2s#>Sua_gIu;1s>QXE9lQ?ng+3|#vMmS`6Khd
zQR?~@xk)FdHlHheZEe@QI-^I?sXs5KG6uDylPD`KS=1Gkb!IANwapy74`})!8K(4Z
zI<wCDdqJ)I!z7S;WE+6-V7(%YYb>T~9Z?yK3^AA=x_uoylE2h@Jy&@y;T`#Fyl-v3
z8s&FiME#k%zMQPrD;fFu{b<4V!qbns(a`kGE}YiHVS+Pm8*BdnWOE^kCfqg6KmB=8
z$t{JO9^3c5$`+EO3f{sUNl6nuk7;*+pnX%K1)>=Kr9#IsqY)Pq+}%jn-6mfcw~N>y
z>~%yjOFZtwiEsU_!kyK!Q?P>I){osbuD*tr64yy9O|aJRvE4`15z|KJz2T#?Tv9m>
zqFQS@>p*t-OIY4*-C#PKtEpuMnuV{DP79n=5uIbJW|A5=HL-)h7Eg<!^(`tu`prI9
zi{E(2D=1#ru2s=Xrs*|0g+P{aP0tH&L!{8@)WS(ycmDt@K;;vpQ~GQkjU=1E$tKoQ
z%SBT>q0-&08~~`D>1bA~Wpr}aRLolqJ7R|Tb+WFs?JptnJ9EdA!ZL$Sdw^pB{gs>a
z%9=W3FQY7^3xGSU+;OXHTa<xhjg;|jmQcn4`j2IX>i(>XCpwc#oJljWaClI4482LI
zSNaps)W<{*y3gc&miwW4fAHvO?R8#?=_>7)J;dc`$xo(coO?X$r#dTB)*b$*RZ#cX
z+ylbeX;pfJGaWhMf;M2C)<^Yp^J&!YZjI<e4-H`C1(fNCW0s}$8m^%$9OIDEo>=28
zM9U`=f2Y>zT75$wR`B-|!FB%t%HHYv){P}Nd{e~`x0^30n@Q;DZ7kI_QaBFs*=0Jn
zT<NL^%oLMVf;a+INT-Q<B`K-1-FkzpI#*4lajC9sl5N9UZ*si5Q`R+ZrkTS>i_xbh
z!S6XM1=Bi|TAra4Y>RYc<<HI+(!C=;LeS}PwxN(mFlY|<cTLBdw#>g%$n@@r)dRh1
z-AG7IZEGks{+^(Ph12RYL_qQ^y#w(NThU{tbF_(FBeP%|{{Slsp>)gonnO0BQzK$=
zz};mo4Z4YLQA*j5CKkWZinPu++KK|cou%4-p7%VD)w7Sf^&LB-Izvd1Jh75W-dyM0
zs~uZb>DmoB;gVCvK*m8SzB*fEx$crMT@}-{I)y`OwaT#w95kB+wyW1VOG1m%Z=p1;
z#l@F{bq2p*sdX#kq^o$QF2>VkuhBYUnbgdxtD2%&4t4=@r*f)}hS#!gx~Qbr!4N>k
z1I3$_58?j+;m)qwmen$ZIwPCNIYd@c>Jh!Bhd`-w7;YpY*H;=};x4(QMk(qj-Yt!z
zm6LGWv7Jju+B>9m80mwbRZmU_X7>10y0)cTqsHd5Rg91=V%1BiYkg_eXKtSp>7sXY
z%4{EoT~(=n`Bc(e@?1@nrOs~Zkw~bmHVZ?jMXXkT_|B}kjXkgm+ECN!W}9UM43L4%
zkoqU#B~1yvO>1r4pe=5n)3h2}K=qnFFKee$j1>XFy{2KcST%Tt>KI~myExfqYxR9)
zjxkh4PQp2BUM{^qtMwSP?K(pXV|$3j*UkMw7gXw+>#D^p%z(T3cp)ri=IJ1~sH<n7
zX}ZiZN+Ye1$Ku6o>8tc8D1Y3!0{6P|nm(S?Ur5=FJxiTz`+KC1LDlNy5w@^HV{MW;
z%SsMCGe;%*ChGlVwc3NBr;y0fY|s_YNOYXjwY76g=#E9)r|I64r(}TCh{V6wd##N9
zH$W%{uhdP6pnjI&R|Yi|Z)EaLQhGDpMX2f8JvX5~re-$%5xXk^QPny?sduMDAD`6X
zNmhMXPty8rTbSyTTu1W<EXn@>MX8h;Iz5NY)|8c*LSD^JPwMg3*2dVh@cW#D-EH*`
zMU;)*rb82jy})5n^d6r>D>um}qT$`Py0_}L>6DNV?Os_({!b`!g>2O%=+tzqrIhU5
zR~&4&^(t?~ZCgmCppeT~1hQKIexk6NX1k}=>TIEW^EIdWfm=OCp}JzXO*7TcE1X5{
zUP5ksqoga2_G5Z4sT)aO`G}a;w*LUkFNN;?C)ae<l<bVsG#gl!74xk?(DXe;)bUQ~
zVFthhm9y!$)J+Q|(qWZ=<X?*>Q=D{eF@2uT)V1}Mx^vm5#y63Mz02mlpwc>`i>e(}
zU#G`V*SL_@I^lX%L%N8=aZwy+uvnc&r>ZIS2TLrG)U<ZL{3*^-li5WW#TFW69Fnn<
zRcPW64g9X^4y9#0VvdFluO`>qfPjBlPQoLpp_#7n<wH}eiuX0K>24+8%xr^}sS8%@
z-}H4Zpxr!FKTwU^h1@U4!aA!~(%9EWTIinP<=iY*ouYMo&^6St6AOk0{{Z+_5q=j}
zYH|9N)e^w&O^|COwGA0Kr~4E-=BCGL{+@}s&w1gwR+N1at!n!!by-~#0JsOjFGJC^
z-iNPr)g)Dc-Qz1+SNNHwRnrJ4==b8*x}M;v_E(adzeav4K9uRNb!>4yPd6D&)b%Yd
zQKj9dMG$Xqe=3WvD)fn|Uo`p^OJudfgHQQhd!=f!$y6CfNgx2>pqrr;E7)A)U#aO|
z>KY{^FKt$s=_LaNtu9`FuJt49^-)Pj1hGO*j^@~{{{T;F8uXBcw@DYZuPbbX>Rmgi
zCugkfHi@OV_S*jdx_jNRX|<s`dqnBONZD$`ohfb0iBeU=q(uF+k`{Pb`grxJ52k3|
zE#rk1buOm>-uh`;JCM2^HEj^4omp$B8t+eRb+=)_1=d|b(N#6zR7t2t_8gEOb&sv9
zp5PfAJ{7M@>Qy3bjji<0g6t_ePSHjEo4OvE(<!1c%FXTrlI5G~V;+|-+IE(BAgvTL
z)XN^*x@VD%nYzby6&9sYs0L3A@kUMzj36TCeHli8nOQ8-2`6!L25gV1>L_BTF+}n%
zEwrQP^xYzc0PRXf$lm#}Kx%beAp=XPpnSg$H?pK>uF1*<Q&TZbc_OGG<lkvUbhOoU
zl`Wn~U9=oKZSaNEHC;8*TAG5#wbjmrs?@R@GA1>jIa0}zx*r}ZX0E%c&-#0r8(JJ%
zv4>dHA67|*Lf`5N#L+WRd*(8+kLJU=7;ACpQ?yA<6#3weQqz{$&-HXoM<qm)GH1EY
zV+b~0qoDpGXxeQXBdCdi?QUE-SxpnHx_)rks(N|!?ziiYEk9LltjW>3=9uXlM;j&s
z1*XLhmxip$Dn)-*{vorechG6HFOkl`aT!8%uS3>U$R(^YM{|2{LZ{N5OQu(uDK<60
z@pZeQ>ZzX#A&dt&-~e*88gAI_G>2<_1wh(T_v({v4Zo&bu^;N1S58$nH$Bpg+#W~W
zX!^n)u&JdoLq#Er<C`p14@5(*O}?*Dd=&uYj>VCbBKpvZa$9GqX*F6Vze?ZX$57V}
z9x@SC9UVv^GEum~4s7lg0*6MErKA!=s28=oU0YUuCRW2rVG*)>3k%^-6ga-h<dTxQ
zE4r7Z8w>qfsqVmUxrc<BE{QJRQi@?SK1G&GQr9|zQJK=YuMBax0N^XWgp*!vM#_0e
zX+GdPeU&99y%UN|xzw~>Z*X*U!OiYk`>VYonUGS0RMN+Rl2(^Z=^am4h(3C^L{4tZ
zA+@i<9;26Wpz0>Mq<)E7NB2p|KG4*?GY`}nl^il1lLkC-WmM0^Z9_~3H!+hlvzS$;
zulP~b6s~jYDTPx(<{2-4vX?~Z4xV)rskMDJc&b0H<*o=+0MmUUmW!x0Ua7AX^sX@n
zoR=IgSm?fy6cIJrg*-KEIdQOZ^Ec^qeLJf+{W^EPGkX_{7OSeBtJGnn*%eEe0OhW+
zSH$5JqEn2StLxexjfS1|FjGZOGc&fr#IH0xMWx8c#@#*5c;W2fR%;raW~sTe%;_$9
zwop2EPHM8qKQAxpI5y#C<k^y-$$H1A=?QL~QMH4Hl+8O@>WZ4-HGMIZlW;?Bi`0J(
zI-6@}l31jNl4CyQH&0Pj=@m_Q)LtCJ{@l4r+PZA2gR4j*Qmm|=ozck)p(py=VzV*o
zvT3q7xvZ6!%U&)D^sQrFq^Z*6ZDbI=+i_vtc!s$+sMKBqwzl{P%M4?&erEJ~&qMVU
zHEjFoXk%=kS<C|kX!?d~I+`-tjV?$fBM%L_@s5_J)FGTcj;O}t-K%^xKBA40!CqM;
zU)JHs`l&ll`YRX9{g6`WEqz6rT=rl3a<|<&Tc$$KQj|*8`56kMOo9HGsHZtOHpoO*
z^)*hNPDMtWB!Cap!F705Ssa&iY(Mq(nFCBtrD-Fv!3v{L>bh-BrWSt)o&)$^ORws+
zTHNk+6n>M3@|+Ytomr{GL{%}raPps&p5H|2dhEXHDK*VHq|FsXh8G-I+$#6=Wac9c
zY%Q1^1AMDlD<Y|*5IB<JG907OzYd?RRQje_1XsgH{#0H}clwp#lC6Mgx*dM11!NL>
zEGF&Pc>1kwl}TGk2#%_tJ)ie07JeUUIvqKiPSqrBh07!t2jNwkJz}n){&nqTkN(<t
zWydWp#FR2eZIJ5|(nQi)8r$IbRXPrdMXu^Q8(L$M{?Kecy4Oe1G*!&J^EmuD%1C-E
zOVUrR1oA~AatM9WJW#ts$1Im-j)$RZDXAFQ<`YM3dV==*s;zscOc1;_NZJpU?g}^l
zBh+;4KbEPPm2eCT@)lEH{6TJ^Av8t6KlxWY<4^T18MoO5CXpZdledua4mO-Ets^wJ
zsXaQ{aQs*}w(HI`&2&dxC8>enj!Szj9;4K{bM*c2RJ6DbJB8DYsKk~@N=(l6^+uVd
zN$b!#t_0l1iu^d#Iy+sQL0w4NN~3_{+p)_Zu4~b1Q@R&M!`k*wqtoFmY_$8S-ZQ<K
zAF|3kwl6*`_gzz=bdg2tL8gkR$heZ2<b8tks?L{!O83W49PD8JVh-m0mvom}b#9w@
zsON1<Bf)F=D@XqT?LF<2)YNolM^Zmin%-0-q@A;&N(~u^G^up6xzWh+f7SwzSgE4)
zcRufu*v+i9nup>qPHK94qpE~c&f#mcS$VFlsZ-A9h#R<E*q-4h%{a=aZ;CTlW4e2&
znMbHPo_B)H)&coe`s6w_OsuMoHbWuJ*Z?20#Z96*u!&<Oj=jZ}x25z`SQ|xOQ?&Lc
z0H%^@^Fl|iEV$FCsB0;UcC^@XGOKkCo2fMyrDJ3R`A;ijrgSB31cF$fD5oR!v)l*S
zT+wM2@Js49(y3>boc_tDoxX#Q0$rYWq)<Z1_D>t2nWus*wz__y9UN8;81PoA4w%#R
zXzb`qCnFoUy3chtN7ZPI{LMrX%Mi}!fp_*w^2V(N<7w5E8l8NatfHNufK9h}PO0hb
zT85w3g{`iHi`agl_Ey~+t@P}-ifCKy{X$0AkFwQO>b*SrV;wDTrfpycAy*zu4O4q3
zIAvWe9uZv?ZlPBsZ+WBxhMvd%7fBwsrqdAV9V9m9_X}sLQfcw)CZJ2|G2<_{`B3YE
ziS#dIRZ)gGWw+%fSty$oGs(3Is<+gMVj;vHJgwhIYGz7N>oe1r$CZ_+Wepu(;U&j|
z!oH%cgVPUS3<HE=2u>iJ<rkw*SJv*+8d*~tUctj&+@HFrlkqR7tEKd6borWmv<n2-
z>msjnVXUQXOamEbA9WpPL-fsa{aP8NqmtJxJY6rt6z;+D$(oHDsvt04h0bd`HRAsO
z-3hJgt*Wpsdkc<9<M&xuXzDa+%tB_))|&z_RnPjRSE3jpZSDNcO&oaM?8_wAL=!?-
z&s0_m^R?&v6n9VRdW+rZQ|g8WoL`k$Jav_9Kf-0ZfE8Qx+WL2isb?X>`BfJf^u>Io
z+BceyPHTFcJC3B<yN?zt4Xt$C)Ds`iMDQ=k{{YIg(t3whiT;enNRRaag&$GsTFqTE
z{ZjeaYX>Et7WLTCPPReQ(NKD=CRR8D!>~f#Lq49!16wEu<l%Uo5Bi){F7|8};l*w`
zWwTTbm2Ep6@~H_Z_D)f@6V>{}R76V~n;YAfxutt|;73{0^`A}(Ii_#sp&MjjIU#s9
zz4(7sQrA>c)tO`D#`BT%Ky-_B&WY9|)wHL&38OydyDfO|R&LC(w0dXbf8mt6E~5Qn
zhKtmpnb(ukAMKwuR9!7cTS-pYDXHSrDc#FheZhK<P5wFb-n~KonblP7ps0IxInEoR
zcm5U*s;5WNI*OtC9-_z7x!ao7J0E2gHkn#YTMuTa*w`BzpGx7(atm1{R=cPQVjA{N
z-v=o7YWhy6OKIN^scucKvRy>sMhuklG!HB{1uk6qVzh${aBQL1bva(=M^#O<l5!O^
zdWNe?0i~=aE9Ics!5-ST*GgME8b@bYB-&@F;6p<l+1-*tQ<D9WNk$3jgi^^}Ucn>d
zinWK3_WRrWD;jEVL8Z(O1G^q>6}Lt7+|jwOsga@N+*snv(3{hmbnxw~V@r<@2E{)p
zuEmpnnd7yU9)LcO13U!Cbqz`&C5{$N75&jm-{`hoMbH%xRGPXe8$CEVjPj{VApy|D
zHocg1ZX702jL<Go6Hcq?ZAxbTdKXYl{LObCy4g{5{(|V*Xx#;5L}ji3-Feob6%(Y}
zA#-K5fgO<gblQfQH>nJcY<IobO}^u@i^Vv-GQ8l{&qS{1y%*FqI#Cog7R*i;W54jT
zI-ZqCBz!uA0-i?kBX~bIM90*PsD-YT?hdw1@Tj_<Sc+CQHoTX+fKC-2IV46o6_xX7
z_ufm)klzOP!U$;_33W90Z+5t=o|e?aRbQ0UVRUgn0q2El)cO&Mk=3*hY^=4;)mY<v
zZ4-GF(?(xQm9*8ZY@`8hZ^2t8Pf1@+)=L~UECSnKhd1a~n#C`zF^%rC^S83Q>A7m5
zlhT}SY2nTNK}p43*;u(gjU_D%RP`jWrLo@N9G{}n(j6|MoW(mpz6zpc9Yf<1iAirL
zTG23N<8cokI4Pc09WgjI&et?3X=F3$^-@OSZUycYLuX}c3>Eb3mD~vdMpHJXqT!Wp
zj-Vg*+<E#UXtY@8swSm|3C>HI!@i*yP2PrZ*37Jw)6q^$7crB;$WD?#@(hvL!;luT
zuS@*7a64shd|_10q{S)S3-&wudnc7X#a5n(G>X@={h3Y2@{+ZbdW7>p1oW+V9l=?u
zJu)#cF8&k8Il=p_zJ);)kZq1unJvQM$po3zj&`W2)EY#sbv#XIJ;pzDEnPfS5rb10
zbB6?u>f2P)rHDM`q<B>xuIGSVxxMe%G-GPfr2fkt7J4|qfydD&xIWYW0EIPt+QkH=
z)K&3I5g+YHZ~GNPT|i}UeJuM)?1h#}h(U^C;w@_varP;4VunxU8#FRY8~s>Dvsf$r
zl~m>@+a<XQjw)xvISqN)d}R|2VQoN(?k;bK1##&!(mNR29Gr5S$HuW~4WA>*wgGoC
zEw2H?u|oQ<YqBl!mZN-c+`@UwNy0|Ck2%3zuV)HW$Gn2V;L#`FC@QIHq+o00y8+<x
zijj_HTc45HM<k}8Z6Tlz4U)80GZXVP(NhhlbcWpaLB3%xxc1~(KCYT5n%Nss8_SMb
zIS47-1DaTVp($HL;!A<I_9@JJ>_x@9gd}(0Y}lfqBoZtLDv1M|K@i3zxDRIT!N$a>
zDk5QZ%S=)ZNZ_deX>Ma5Ug{}Y?pW+B;wyGDXq*Pf1;=s9W8!m0NpSeVQbN+=ED1g@
zYpY5~blK0LQ0Zx<@=efAiAh;R=9XoSA0YCyT_YQ%_lH^c$nE<sujzW$#Ac#=b+KCh
z!)F2XOVTWSGq_60BXD<dVm_f3(?r#yS6M+#B`I-_(U+afz&~Z@TI)cpb8Ifv>2<Xr
zQl1@Q$X;8mO5<GeFJe-yGolf=m31J1Y%TRsP}9!m7sDZIyoV5*T_cN6e+nuMYA9q8
zR5i`)90D?v^bRR4nhigxI-5vvV=E0q2mai`>qn=4C`Vx3Q%Z9P<<aG3e?3h*16}~|
z;m6%UQ%QF2Ykj0(jtY2YlJ;}U6k9zVy<5^cxY+8}!sGn13t2syWd%b^=rsu34o2Bm
zlGIScC;O3re1tS~byTnQC@ZFn{{TkgVyXT^_63LN^}3o0*xFhpxc${dOjR(u+{5(&
zWVGI;)oDl*)H%hzRn<RTgZw(0X1sScNBoFB!|=@@*sG*t_PMSD<sS`YJh*uoRZZ$$
z4y=(ZMTB_a7aO!{){n|nv4^lHg+(RWWZK;_dX2lijs-(22^YuFHcA?X+`}l44);+R
zYFO(@5k5#p+W<97fOU{kJdyy$QS;hE?QM^ehjkp}Z#J?P!$8J8*adW2b6)GX6P^ks
zu{oIApPtG{gV^hmN)*^r`Xpr$WO)9_N~SrOvOH9{4F3R?9J?kLJf~?;skPZw0Vdto
z5#<_b+71dHScp6%a2ZHQ-)j&Mx|EM`AaJJ`Jf_RF*EUjUrRb~??)^$=giOu~imQ8H
zi)AEDapa(Y9~EDwZx~X3a(T^;KIkSeB4e<(WK22KbINxY*%M7p$eVed9DAlRa0b$F
znNaa20XbPpj7<2%kGy9eRFXpWi<K1{9>aG&!{rfB_7;AlaH|=KD5g~E)bZ59=19<d
zER)|;rp@WtJ}cvJ;ced=qz2;!RBF_1m4%LN@Qjx&h@TR&Ibf(~tq2T}zp1xZ`fu@|
z2H=s%Sw_YwX0hDI57O?=_*U9QZpmy(v0U<tMN_i)F|9mUr@9tAS?p`a$WCOT?F6(q
z6s-W<wbuA34M0w#^qsn%S4MnZ;Vkk<_`N#%Sm$9D-Z=`xXf3hjG0~m{?3JVyDI+ge
zr$Wc>rgNIp{HH1hP|PgmZU@TMJ_z0Vo1ZCSg^d<-Zr=-1LAK1JU0D`R;sPp`wn8lT
z5I$Co)N#Fpv;sSX6x0#8pJ@9bNF1NAM%lvqw%rvRO>-{S<aS*hFm5||M8{6ck5279
z@{Jf7%`7=29>q-@t#fwBH+-q2iNU|bW;}!=<8VID?z8@l{>jN`9@BC1lrwvMlNP(M
zC^pDi?XS2evY0r1ehO6fHB!+$QcoMhBq!j4jxagkIl#1@{few)t_Ifxe@lWoj=aV;
zk-44PR+aXR2EC7KYAN4#zXP}^*mWM$Hva%B4`iUemHSPy!cfl3vNjR@(o&aWJBe;}
zFG$`A2tBXCMn$Mr`d+LOT=!^M#%^gL?c=&GmRTc^7>;}<_}8#}jIgWJbqbiA*V*mh
zwDJ&CVEUFe1LaynEj3u%DD<WB1;2DPO*Yr<b4y*>?ck<SQRqh|`wOSjcRWhR+<)4C
z%Gc;~GB`vMv=*FYVyPKfO5pQw4+M7$L#Nfk`0p$BJL9^PrS?%r=(^Q(F*FX6pKIEA
zW0oGik_f5{A^wD*<&NO}7OpK=z(0ol_UuZj*XpSCCp66$ry$|>OBB09HtLy~nm%p;
zT~9Nj_L~;}0E9(EE{?#R&9@;}J;koR>$d8sPxf3=)a}2tOB=sXDER1MsAs88MUV24
zk@Qp)?+(jc7=Ow#8p$Cc&3&!mHHy;<nvS9qc7oyHp(SK5c>tPuewZr88u!!yBe9dd
z<qn}FZv~YQ?32%AtsurtXs>(^XX+sT0NglE1;91TcE^l@3W$fseT2E54+&!-?ZRmE
zE9^14&Y=@MIcgoW`N$|qWpmzK-~c(tbjg8ewY{gY$`rlPy3N4;l9q?G!X${Fb5}L;
z0kPiU;PRObN!~4s@(MZdM<5O#!*|LJrPx$iSoSbHIgZ-z?iGz5p*=fxmY1~)Fxt`_
z0Ump(*!RY7%Ti7}knwIT(lTl)*vniR$B~hH6+^1&vqd46o!+B6w)sX=HX6vbwC#V6
z6mmsfO>uWh-=0F|i*R~6Toy&Lq8S5?h%9jItZ6HzioxFI_(9jUNg8AkS;N0{9X(^e
zOpQ41S5#%l<eYf+YoL@!-SN7`O3B*uwe0|`>=h<59Mf>EDdlA1;lMc%FYK{&dxhh0
zDkezg64&827rB^q!SWQhY=DU}PXsIxg~W^P9B@-bkNyftA(4Q&xo^Qx5=S>i%<PrG
zw309ML_;Ps;WnC9xDfX499<CFVBlRD0Qg45dl@Jtw-$H8iLcsC`0%Co$IDH^Y@j{2
zI6hLFuEh@y9#e#Ec)M-%LWVuBxHc+yp5Sc$e2(bQ#PI+PuVo=`Dgx`D`A-r!5qyLI
zn2rQq$ynh092F~A*S73%zl74pgSFT`Rsk7|i;;BpIo9kFlIZ^c?rK6CAh<uWU|ot{
zEoX9`#~XszD2T>I$CT1Y7Y5;Df1szlmTh|n)ePrsH|29Ca5p3-$kQVart5iF%>_Xy
zBP0-r4P)4CVyVcIBa4slr-H1T2M00Udn^VKEJdd6!0@9Dz8zqDsf9>zv-$F)kpBQP
z4`q#D(!=SSv)kbIDhWpJeXjBmeya(y?ALfa6q7J_wU*he1)Iqs;CwkF*>XSw9|)a|
zX*SQnO>-l2aO1f#nNd><n`cBz9pkZ39ZIqbHQwMm6>B6#!25Vr^)R$v?A$wp%ABC2
zJaRaU_35kGXAsAzB-7-kf2kX;IW|zwMjY+*?{ge8amt#XP?nf%oEvs`WjR5j(UN1S
zq=si~aN6*Ql86^wt|3JrrK=vJUFpgFO-_P(s$v^Z-SPH#7*l`IPxd|&JvI&Y{drQ$
zS{wYl^Whf9!!%cE1RidKsizHbEFg~J={Z~3xcw2CF4Fjq)r6rcr7dtfOMHSC0cYK$
zf;k0BY9n)Y&c>gg3W?CJKSL?&4Xo>yp2_mT49(pefOn3_StDhSrfv^)17wyr+W!DV
z&MVL(-p18Z%M<SAl02@7fRVKOkwUP!n<gJZqIis(vkvp+EuAUQOhg}SjVP#FEGK<C
z#@`CMIm;ckM&rsYk{lKs6}EvUnRQE5MOH*Qj3KTf!a;%*8kU*)QR_h~W{m#;Gfqd<
z3?z<5*}yg3lbT-AHn_Bb_Dd;WWRm(D6>GzGOJ}pe3E~j%;?hh(<glo!8rS9R*#7_{
zgZ4ugOHOwO8+iu_p)+v$EF-Np^yO`&9sHo{Cvd~rxt>x!rYeSQmAUc_iU`RgTv+#S
zXgEF7J&zp{IgvbFhn~n;VJ$xF6)Tuex)aB1DBUx*?UMxxvYe=Z-M^~m!kQ_a7|0Sc
z=dy&7PrE)7g}4~|tOrb=WD~deSU=KKE@ZG97Va10xJ>k&lEPYisasJaTeep29#1Hu
zZH3aho@m2gcAmu$`X{xZjE^IQUf)gkF}lb4N+yo7T4xKL%{;X5v$0gDbD;!#nSYfL
zh=cu2R`AbDR4hM+{{RPslhTp;oAf9twb`jNKP?!2-5ImIAkOIATO)qz?xqJu;#zJ#
z5OXv<5Jmhau{r>JVZ(EA@{zBRxV^$5tT7T>ka-Cl*yPJywf+waSW*%>80=gEr8lr?
z8-fy678^aJA0c#8$j{Z5_P;2-ny6XY3y8K#A7hv<2|pfGvq;y-PZmvMt;z||MPu$P
z;8XpjFxcfF1RI1d#z<KsAn>CjB}~~nIdfVZcQjoT7RZCFc~2H63GzY>j|DSf4#~32
zDnfR+!cFcR3?~uV>zvWy0J>w_KLGHbhcwvb3|ZV1#<|Qny2%o8`X?mV<#ys(Z}OTR
z2q1*VzSs%LgH*@vF14<qX>@M8dm}Bl5o-kl<0AI`(;zZvs>v33x|z(1X53opxPlFe
zbS2DwI75%of+nRbKGhHeWTT>&b8O-JsO4i_`bIn;rS@e&>?XtNrDLvaI0=r9#^5JL
zEN^sJ=rWn^B^7UJK|>%0#M;QVNC~kiSS&{~$N5b6c|?Zp$SMAdzolz7nd-FjHP<m?
z=n+kTmX|rfzkIIzub?hm(t9)|GO)M)re?4X0YC7%KckbqlT*QB4&!s&o2lkyI~#d7
zO79IMs;AYtm-GSnA-tj~>GfK+jgZf<@<6al*j9tI$I}Umok013{zki>s&20|u8<$e
z(@{j<(#Ct7ex*6FGJ+%P7rE!Q`!p)~CW=>=daNhp5&~=V1cTtHbdiQxtroDlS!2*?
z+FesMRZT;`k&Y3xebr{j+(;8ne308Fm>B^NbP`+3o05jW5I-bbT^qIz%ojHLl9oxE
zv=3eG1NnO<K395nWh_zOyRv^|jfIVF`QGdH3~kEa>}w*btue%0@&g<83Xp1ArF8y|
zm8Q)t&-;${uq{TNq_)0h`uC@Y`sNq@%JQ+=MwLz>(`pQ}aOXBV1&oR<BS@+Y57eH?
zB|rOY7z)*leL1m)-UFN(tG_i+WG_Cczu7B@x2W=5<Je^_hKng=t(fkHo}V1;1pfeX
zgnQ?i<&&N}HOO-5ogIt)CZ5L%NIe#`xDfvUE(n5=Kk%ZkX>+`eRFT9SJy!-o!JEA0
zS6A0*)DfAgC6Tu54VRzwUtY@a=yc{bDERdr>$y$O(j7qD>)lzR=}@>l&oqPj8Daac
zDeBI$n^JR`4(OviG;*_guCr5A^7@I~{{X2~Vp(J-V;t|YRSsKYIVkiLYGf}tB>bj6
zQcaxV(eRka>Nelef7Z(Dr+RZx)TiEP<duVv71Rj108vFG*n}Ma05z7EM(NK~hf4Xc
z$+0VGq-Z@qO8{+EHBB_Y3%Tz0g>4p>Nnj{78hIPwoTB)nQ)NbpqftUF=@|$dy|-FT
zI+?IPbdf;j4jUtEKVZ5lIqB>}pl|)nc)FSNZjq(?oa5xb32#~%cd_-8GNM5fOb|2r
zVUEQWNu^aiyXhKU(USRG0722u6(fjersw%By_E9QR92B2<&ekyAdo*`g&N4^cF9X5
znisfp>AP?V0fgt&dHA)}g(K<dtiv5S_<VOl>sp*4q(vPoNaJL7O4?q-vFwsIL|*0q
z(frN|lT*}UCGCOEu;s%5DjjdAs_E`zkJo4Nuq+<GsB3z)+Q`i`Byh{6ZpKKs>dvlZ
zJB>X%{YiNCo2+@D)OEUnElZvm&52X#+H)Zr-p9*7Kg1RnQaZP(TPLGJ#({i#ZM~By
z*6PJ??V8?=*`U<LBM80yz@AsNQ1yO|QKvPv`g>T?-`4T~UK!IJ57xTO&8V2ZHlAH5
zuwIj+bQY1NZK&!EU-K_+eHM54Nj!~v3=&?84OXW`te7`Krkbi_!x+zJ?xv#Y=K?Bq
z`kHDn$c3E!)9X5}lS`&CX_RnL)3koKGzSp8yQ_NG>JvITTDHq47Y7TS{IlD1hy7bU
z9=lg#YTKst<WS2wHo48dRm*y6b4V(BgIaaSzoQYbUK!IhdX|?|?M5kmN!&6!E7>~R
zQk}!|&vCa67gWRJ;^lHy{{X#<IY}*O)oS`(1L{33GLiDS{{X4Pkgs&D8dzw+mYz0a
zCe~O8e-X_CElEsX?;u$|pQ?I;s3i<7mYxEA$KiS~_~5E2<&&JA*=N;|=#iI4Q7QFp
z#Af6y#+lQR>JBD1Y5|@@EEk|rY8^MBQ15jUDysS4FSy-NSM_eMsmkay`hB~w)<qUl
z$*a&{{>;{)(O#Rsg{sWJPw9EeveLf~I#x<CHl)W@OfpNQAsMIs9(CrgRx0YLCZ~bf
z-665J(OBzU8>;E_9+}h_(ZjbKsoRR#MHMcF(oy~&X^?s}^pP@F^X|X*Nc~p;)j%r0
zr{jo<N+{%iV|%Jy52Kw`DJ+U<WGD5TmX)Wb{4myo#N$z-iGw=;HwpO3L{}wcB_B<7
z7gSVlYsDQ1{^4wC=(=;JsRT88i|3J|#5CI~zgMl+bjS?^HPp<-ufSCOF;5HiF+RH_
zRV}_ib;6RHZkE5Y++vlzhiWcnu;(*K(#)XnP5%JO!*vJY*HOA>Ni+fo`TqcUdv>SQ
zeHWu?hw@N1DFbn|_g*`%b;hgI6|SYz{YSOuYg*HEu9URxfyviY3DdnNPeCA-SlJ|i
zgJA2e{+ratPl!Pdi0K?K52Q*P@b~chsHc&&wU=W~c9rdVK8Z_50|c=LJPzP1DY*Nl
zO~&+jV=4N}sfNfY9YX`Zn6v|Bqv@Z*sv1WMjZSGQXE}Av!t|J33kK0<j}~1$R19zG
z0Zv&P+hZuD(U{cd(0X2p&-570qWA*q!v6pee;c*h3ft*4hBzARI!4$zdS~LsmmaG{
zB$V}n8G9Sye8JSQ6IUfIZBt}1n_%1&k&4ON8gg-3H?%+gvHH{4BCXP4eeg>Sl)As-
z9Q{K@dU|Q$k^EWf#wMnTvVj~=Be4M4ZTdS-e%8w3>kAtdo*3TE9FDYWx;seJ>Zbh0
zrBhP)!NVL$3(#Vx(_@GNIOI9DSjoDMO)i^dJrzuk0~;I4&eio-Q`Xi-CDN;zPq<$3
z9EDzKYA8y5wt7aVtiw$SikhACp3IG;s+||6x|^vgiH?z!5jfv;tst#8N_BTm>9h=V
zntY9`$NP-$_gXR6(oF}b`gkIQah%z0J;{fCBQH1L-%=0^Jx2=(&d@*kS?z!Dr><$D
zE*h0BTL*2$rD!z|#CB9_Vv|k}6%IDs9qn4`R@7Edij7}a5l3r~#|$8wYT{8wKF=8G
z-@}?}%A(z3cSAc)T1~=}syaVS(LnUJxrh0fR)eiNpFq-Odnl(BGK=T`04vOOzP6U8
z;lLJlXyFH%EpbZBu(bJIBSE6UM(gaUb9-1hQgxIXd@kDBiOb2g!>*|)b^icXtTHwL
z=N?8Es`O{!?H5osDy?Qow!0uO*$BbOf>VmWXPxxMkjUm05gBH9$UAPfRg_&}s?wNg
zV3pAkz!o-M>!I{#PH0pXqlvC)AN!32s$EZ2jyk77MI=<@ci=9LTz^!^RqdWL(|sL5
zMOtL)2&ZH3#Fzzo3pJja(kX)=s*Q~T-I3bEX)2&6Q`BHL9#@`f)V(Pbgg&Y{Ld{7k
zu*JkTsDBVNNZR2|IeeXf;d%XDxnHT*`h-3xuW(0nexnaXcEh~43bskKHr<rf?`wah
z_9`wdKe5!44y&ze;A>2!&H~pxlv-r9Ub|aP=e(XUqNdWn)E#OXhR*9>Yk67@o0Xaj
z#kKH(e$qC_?5T}Kzt|I#OZ6{w1FzCFO8rJi+6BXVEj0&URZ_e1&uglQ#ui&!>KbaQ
za>_Vd*B(3|G+jSbeMjaYb7FUwD>%VF)QWSGwre_(wOagJ+e&HgpK`;yOFCt9TIz`8
zmB#_ND%YvC4yB5p(>2TuBPD|?Euld>bw+9xH4@Z1H*U7lKvAE^bc*9s?DY*VPu1(_
zL{Fx6#|wLf!3rvG!o5Z*4Qwz%<9*n{TfUI|LFww9J(Sfhj-F<=*RrzIy4OsmrF%t0
zFUB4U(on9$8?()2)$8<Gg)LM}8*ne#T<NsX>-7G!Um1DLw_E!!A^b_|_i7rm-XyzP
zeYQNR-5acHDA+_sP!GyXO)uoEY_I6`ty-2%E?Y3PSmjn#R7<ErVr(X2dp9L{?SE8O
z>MjA&%HnthX?hn`pHG-gvPT|n1=XHp^g&~Nup0i6)+DO+8K%Ew?`L6X<k58a^uhVw
zlrc=kez=XV^L4Wyh+FBsDe0LbZJp5@s(oAWJ4ucQ!#qrLEo&BJe(G(coieFx@~Aa^
zS5MR&+BylyW2_57Hdp@u>m6&<Q3@faxWw!iIhG^tv-*!$%|)&n{Wb@P9P8U{+P2yk
z;<Gl!WTT8f84cw}lj2ici(Z-hA*rr~vg(y{7M!{_3@G}K@UKkK>EBUFQF1b4cXht$
ze!6y{8+}$XHl7PgPOsE-$tjPiQ4xP^qYh15&?Ut)=Y3LL0-AEkBQ24p!~|ZKTcK20
zl#rIc=Yq6#Js}3asd}!W5rTi*X#GoFMfi24&{8$zL?3JWll**@jSl-f#-mNHaWhds
zV<Upo%FSz3nx#cRih66wdj|n!?Cz(gqN!^g8$$u)93wTMpu0_T+~_xk-sg~lbd2%a
zJg-L5wR&h;*3r~5<N2BGD(^<<+S;jqHCO6WF!5o^3O~h4y&kpNf2S2yBTbvQT#vfe
zQ1#VTr$~P<=*Ao{-c%cJq)|pO?U??o=~&>Mu7<wPCmFZyrqVQex@Iy-Y7XJUn&m8-
zUazR@9=$}YEhhn^vf0yg#BHSyc#)>ujumlYn_UyjI9`TRb;U&;59M7{*Vt_$L3LR{
z(-l2QJhlG->Mf^yhj0wSs_K0nmM0f%aJF|{71Mg;`fNfdfRVQClzufAbWfipNtK;n
z(wgp^_Qw5EIT&$wn^{9a(mJGYiiuxOR}dE^j~588xBmdtdbAFbj*v{<zsl@|is}0P
zpwp@h6^yBkm$7T_WV~g44y78|rK_uLD_smRfZ>Z3O-|0HW}?dNCOIQ;H@{`*dKXN;
zTBH>XjyIPK4(iH_Lf7<}3t@zqiO6ucR)SK~B|A#dpy*z@*C3#cn&yxk=72p|&58Rf
z9dGesf`x^}kH;-MtiGc9)<Sm{!0TjoD*@CracVU?WvGvNHYKLXXNDJ}MshuuM(dN*
z(SP{98JgqW&BfIxR_Xm(_>9o$@k$$=*0D$a5{)-TqK+R?jv!>YdIqc1`YUOi$GwLZ
zxI8XwnBg9dtW$o^o6Bn^tSr^3T*m`qSnCkA6fkHJ(S}sD(g$*0E~D$MUKZDxXerxL
z*B^D-vsBamZlR8mvr;nt=8S;0Ia=0(lfSa{+7^pjR2!$uEHCY5-KhGWmg-6vn)+B{
zsAp$1FGBo2(ln{48sRG>Hs=>wxv7N+v^Lw|s!B}}jb6_Ht<*Z_Po;PN0E#D;Ffv#!
zLc|EQO=D3r$uyMG6OkiqzM0o6n+y&oXup-=zlc@UGF6#rJr_J41_}L?R%r4{NVgd{
z{;aKcPU=zyLi(mSIDv3*wUl3l6fx1Zq3sg6!sNS>SDDdj`p~UwrQ9}~hLXK|p}Mw8
znA=TK3kViB;dMD9n~go0I{g}hOsFu^Q^;i>(lDmeD@Z?=t7MS_$Ee?F{nq~gQl_S4
zj;woHE-nhm>-|ef98QJQ(aGSsMp8?%i+vgm7Ds9H!bvpGUYzjeWPfD+TV3h;m<(bk
z#Nt0gf}!XxwKUa62gK6{^qjR=_00M$bPlVA2Ei?_?HDCD`3)*E#H8$|r0JS{POH|Y
zkVe-Z(B`crA4Wh!TT<4Rx3M|<6_e@Sw2w^w9Q5A10p+718>@aNQ&<`Z<dXcxMXmdz
z^0c%oh4yGQtp`D;r?m0yb4DG*huu~5$6e9%%}bz-;-a4Y#zLUft9plDpfW*9Srdm2
zD=Q9xQpwBegpkS&$Z)~>C5_4NLwfr?qh0(_>H6wJ`EW#pSc_qKezVqw3a?U>*b|Vo
zT{WcWb#bw^RPnM<IRlivN7H>a_(+llf(9Pk5&r;{qv5Vx(=+ll#iP$PF1gg|h!m4K
zj~~*bq}DpRt?d$4z0te-C&{7EM_TA<<Svk(X#<o{mHJ^Y&1O6%<6EG2>^csG)Ov-Z
zWlW{#B$0JzrhXgMX_JRkJ<<`IhNAjEtKC5Mh~~IFgUZ}jb<7gc{{XVW@-pjWC6wK1
zQyws0%wDO}lwu<xaE?ZfJgTiXrut&Nu4bd^!!b7A*(?^6%^tKLc|%`(4=XvY=@pbM
zGL5pue1Xc?<&kbdmN>m84XXYcXz(=6r)#Wm=WET+?x^F@>M5l#$5L&^=H)tCi!_Kg
z0C{VQsCK<krPK#Bn-lJ9vK4tYtr2lcOx)=mD_aadnf03TMZ=^20FbHr#r1GPBB^Kq
zaNs#sT{-xH=tke*jf7bDAF>;+tF-N2nAB4;(h-uwa8=hC!}}uBjE^^xv@&bR!1mo<
z=+D#ZtsEiDfAp5zEd5Loy{;ah4jqcK=vu0J9aXNZ5A?5+(YOT}H4>2Ck4WkMot8*i
z;zL+}buPctI)yp)>1E#^CvFH^8U|9<X^g4UDkFK@{HDk57DK4(wdT#~`YsWU?BU54
zSWQs>036`#PMqrQpwXmkKbUchWB8ut{leT*{vgxD(CtG>ibCwVT47>-p?UoWrB!&U
z*|GNiVakG{7tl;w7UnhFT<!%zSpCH5jFVrn>TUc<=~p(*mP&a%NWwq5dp{9ldmS7T
zHlicsTrUyUsOlphnte0f6SKXd;YX)x{)9rnv~hH@#-gkcxjOWEeydxf>JmCbO$<^y
zCCqJ>M_kqDC>miO#&f?(X~<M{I<cs<P?9%c9i?=|T}W)=kJgO-r(X6$9ycd!e3MaB
zfNS+xUq*cr=kCYIS?1N&8O&}k+V3mX>OT*qlT7^1n=qB#;CQk9)>*nF@KyR%+I+B+
zi#RT-M=s2zZiiDmVt6JJ5&Ww2qA8hCUmZ4~6QHrNzXe=W>4FAco7w=r(~Bz2IvL$w
z*NOI<^6nA1wV+d7p8o*T9V??6CWb>E(mPtnKC$UN3-XR6h@J)uO^8^k4y~`zV-1+O
zmhLjrg4H_CeOiA-@w&%{wBZMrRYs0CcVjd<JvUC&WrnJzDz-V^-%{Ixz0~xr8}g2-
zr>GIM3zibH6}=TvtOnF+)!vms&7ABiJzqlW8d!}ql@G=Ma5g_h7du)j@wmGWW}_Rm
zLj-fSIKj2nsx2B?hy&v-mgAP;c`G!!*j!C>B#LYPujMM|OzM4WMrWqkcgNT`s=_HP
zlgQh8Hr09y04|nWJa#;)nu+3~X=7vrcLyqtudHiphS?b6einYeQmU4qF|oa`ILb1L
zV#U8~)lFALDFRrU>l_yLTRw}a)8~j%R0y3P^1Obw{nwOf@Kl<X`t5s5z82<#K&*5^
zuTGq@P%pQ$l;tFgLJgjUt@QnUB>}9`>IGdX{Z=04{Z<aVR6UL^fV>;u86Rb9)7^Jf
zqtyORt<I;HhX;>i){1>^r*%=e<~mxF<Mg=*<-J*@7aq~%=ce1K%IC#900-R5<b9RK
zm(dOpZ>N;F_hX8+>U}<vA}grm9-~deqc$qPPU_m04@u>&kZ^62`z;)f>6%bYS_9N{
z3F%4P;>&UgK+xU_ma)$gHQa)3u4mScs$Uz3yLmq-eI{{1R9{g>Cym|hkgFxDB%4gV
zq|@l-hkvBj5u6MZHla~VPR~kEY<qyM>9rjycnjg3k>fGH1!Q`jww>F(EwXm@<SrNF
z<WG$qQNtIrVbWU6G?0iVnUye}FUSbKuh;4*bn`x&FR2$h3CLbWLh8>_<9rNx_CDU<
zy0MO3N|sN{>M_b`<l<KQnpGSd*qXCL(w~Sm=CAmV-vf`im$?gTS2mBVQkj|~Wc=@F
z0pVdNzYn0T0>4MB^kgRIX~Fu1s?hXV;cua+v|M1w%oFmJw!e!j7^b#W&!f{xG?K_n
zmOrhc-?&0m(Zc9m8zgrej#l=crrH=?OI}%i&+qkF9<|Y{sADqvaz^3$WQ&I@!<Ai<
zpBw1N%NwZOusZ%c6wymXQ(;=u1J4iSF07QvN*g|9Kl_crK?*9@i?UMocDkautrD&~
zW|D(Ra~K;*Qw>CChMbT5gsz)ZrI5lJV?X|G_;=A|psTCXYZ)Nl7;A>%d=<EmS69<V
zECI5M0tgujcRXxw(nUY|B|fE9>oze*P+jhg_yqhO%VDN;%{@FV1=g61Za?y~Q1x4&
zpYj@|7`reewTSww89JhnwXwxe*Ae<f&{p<WNm4B8-8P<fRmW(5{OIHEs5Naylr)H3
z*Z6ZvO=7!NuBI)eX87&yXwAaTQ^P4Gu4cz~1Z7b{f7pzh?FnBcV@Q#%`Z-HU)V0iL
zj!7~w9D9A$#+wOjVUn@3Gx}aIfAE{AX&QW@@Q*>~v&F~Qr+imPl5)PqgI|)VzLikg
z-p(8-Y9cRo>ROSWLI$TzucVIRJ<&TJ+=L`fm4rKX-1FflJJD4K*lm49Oc7c`f1;00
z>ME)!1dJqs@{+qx)hcQINat+rwd~QAoBXz=6+^BFw;+xZN+WV>qtvwisgG2qG0OIX
zZulWnYLU#=J@L2IjN}&Ng<aFygbizA)M?t>ThtBz04qxj5ysI`MNtrq+_dBs2)+_J
z8s!@)dTUZFt88^wEhfV2YW|p$REyQ1mNRkw+5Z57vz0VWsgODtn%R5p;FLy>ug#>$
z*k^3e5NtOCwEfe{Ej~y{N;1$ErPI|kb$*pmaN2kx&L2bFNlh7nrJ?)V{npN>s3|on
zU^NPD?IOZfjE}m=YI`7@I+|9#CmRnV>Wn39(poFEHnq;XFnfhoKp&?gy1a7?nRe1X
z6?J_Z24j7Q?7HG|$$`Z?w_G@oI~4f~C2=g~-V`mk1WCtY6X1g2xsN1xAsQ7ip@PH~
z^W|38Q_U2G%*gH)q>gcB$F%M5WzO{E7r8%PP-vo&L;07n*aziXXp9w;UCv;(c9UzM
z>mpzzv{<2>{{TpfgS7Vtg`(-%r1Wgrr?#pW8hA@y-beK+dYWmXc@i<rJ=Vvi;||lB
zZXIwv!52P<4A4r)7Z<!-AC=bNq_jazr$?MSb6tX*YDodIv`KFF$odp+v!d!6d2^(R
z&WxNs%8-}7;C2h1aci=+%Nk8ewvGGgD<zJ{i>sOrpscEO>f(lX4jvn|-`kbvwOWkP
zN+Wo+&A3_}9q%!+$0`XsD;U|VsjqC2JjElUco}K#vQ?nD?sKfJCUb-rBP%<oOiP{m
zigxJgSgIh-EiNq~w)!SXrNsXLeVT`Pm96y~`vfG~jDXm?X&sU{$@Fu{$EF|XM-{+z
zt=V(yOi`8z2p&5u?Ov=ewazy}x~cMIuek7&gsc}5_H9X{^*IYJsLPu={uO*}jz;92
z-U{PR!ICVG0CPbP)JujNbqD5Vej3{)jyAQ|0^o9riLp7h#nXIfSCO5h$s;O%i@{e;
zp%|7IIhW0vY^oYs!)`!U+D&_1Gb5Aqk!zLHjn<BNt9CuI>a^$hb&eo#4pDGxI;$}A
z>JOE4{Vk>uBu8*?x{jYuX5t-SRsJ@%Nl5{-U6B6(xld#CQ^&8;j7Thgwz8Dz?GA7(
z$l$8#-8LtIW()a2#f3kz;tfuUTl>eHsUIv37i-#n>nQpShuBE_rF1i}fXN-7B?V#8
zru4(j!-2nK$F|1TvZ7^GRWQjV5gxJ#+VC&(k0y=TV&^%$C?uS4Q(02UN3q|!j!lH;
z?zb?}&v<u*6XdrADY3w~OxoMs#Ut3nPiFIU^A(0Lq>1g^0Bwh5D}xV(k^_?iH*RnH
zCi<iRijpSwP{|Fm*eyonFu0R<JM5&2P}77ngMr~Sj?WfI)em9rl1K4?n;RrAxqcK;
zNYE@?n<YWLqZmpO+BOZBE<n~s2q2J3992vOlYo5LCxr2n5vwU{*wSoU-?{+EV~{s*
z92Iw|#9GsEsV9$j=~R+ZMAK=SEeff#w`Ilr6>|7q&<FsJg@@DUl8&XWBI5ZAaYIn^
z6D5f5YlZArG_=b{Vgr5;*%wS{XK$ulW0$q~Dkq3#&-+gP$`>&9<abEjl&TMIl~m^&
zFc7)gO;;i^3L{AB3W`0kRK&?6AEeubuF`eAGO&i!MkBxT1sUa%?GB*3MiNavvM>FY
z50S#HsoxvzD;*oVTynj(JvxeL_eCUbX;pgPP3hHf7DyT$*!WXkLQi8nZb<SkP+yCD
z`9#Fai?!KSdf!adP!i~XmLPcwnm<w_adYG@sLe@QBP7$=X-e3D0!Lc?*HvllKK76=
z{LSE~X{2P94;Dm4Q1~7}1<{qAu7hZ-d;zZ6Ge^}*bl+z9UA?E9c12am1kAeyzwJZ8
zQ21O62@5CoD^<`O)J4GGa3LfR5O%rw?5_l|RL6HWWBxcmPY`RfkCeb7Y;s5XfgT7_
zM(a3wqjP+zDdySik-M0DsVXCjZur4i!7#-XvDvN!e5c8$$qPiDn}d5e94f|dY26d-
zMr^F8b(yKLAO)Sl7YU3N10$J@Gdjd@M<HG5kEdfp9$PbQZ1z<Jv=!h>1frf(*zi;m
z$2<-p-M^WIPD#+pjce&Cr(ra&X&=+vD!R=&M*Em@6*DynsT>^~zM=3xQk~sS`A4TL
z4js1v!sT$4lu|<tTyRQbs{|h)sA{z#PT=@MY8l<7MNnH-T=|)Q1R+fmT0vu#mNdHu
zGXDTdpFq|Rq}ku6)p4>%dr$74sdSZGZQTpmBYPH=nv#klEh7%@Lx*K+r0SZ^l+f6x
zHB|lMeryvfLb_nC(ktP9W8m@=oljE}Nqi3t@<Py4>-u$Q{yYz+m-@RBi>K8onDM#s
zNY9>7bNdR3iZYnwC8f<bR#EDvb_lEE^#!aRISXSZi_`r<72=tc)mFoSuqWkYHSV9(
zbSbS<5qt;q%F%FEwIgw8m{KxGw^2?cZ+OZG0ND#%$44OK6&)*@_wHlNPX3^Xl+?!U
z)gVt7X&cB*8(oO$^g2co-_yCiY=M>*IP-*OuXi`okdRceKqPMe08YpHf)*5tp$>3<
zms7^)fEs<kX30yoJhn#QcTx?b+|nL9`Aa8gqR`ev*;!!Y^gWQX$0S7B?icWniL7>6
zU_w_zAO_<fJ<=z=m8(U4Bg175zQca~maj{Zv&Cmw<FQmsr=*namhnI7f}Yws+7}7w
zB-}a22kMg~d30#DjU?Jka)MgGeu|G$&_jcZS&`vbXxj8{k+9W&0z-@TD@W)<P|KSe
zj5(?bP7J1{rg>!W$w?t&$Fz4{9FL5LMshN@`o4rFW4A}Sy_^EY>UvF83(MHYIxmIO
z45~yYjmKy<lTr1U8#S&tDEK95wnx=v*!IY7+&j2N(o}(FIN4O4noE|p<1O+N3=zw6
z(gE&(r>cBsAi0Ge!r58sK<{^OwFHIGIfoZ-bVWR*ayzF-Fmc&17Z|!n!dvc)tYETQ
z_Feh;QAraVEY$;LxdR}nuIp#}BF)e{p?qYMdoGCBA`9?A%7#W*7e;P5A!{=o$N+xH
zt}ku?xKT$no&my~OwTy;WI6>5yT`eP-wH-f9N-^teu=NK7iszw(UWOfTJJrRAO&s%
z<Sr~>_cVd@LmyHz&Dx}6OY<AE-D?$+2R)~R;2S46DmFOAZ1Kt_7Pa|lx58kifoFy6
zZO%uKqHKYN#{U3NtRJ|3tc!DGB+v(Ynru?gEt0X#dvXD9keM_WwY%_xW2BAt9>e{L
zHYo$g8(sa1JsQ4<3mqSl6AZ2f<a>OMQF36AMT#11o;$5(9t3h{<Hi#%_TU}E!BCsG
zkJ&yqwZrGQKphHX{{Zj8jl>h;%6GQl8+PSD@ne7RiVcX&p2gl$OA{P6ya#u>;gf#p
z41j_ipOhJZ>S&F(Fp@hF$W@gQNXHUey{D1_z7fbh(VLHj1FYljZJazUc5S9m#}5vI
zK-2vvf{cc;NZMkM8=vHG!Bfvh$q6FOcaShpt`3OosEoaxlFA8{j!GEW;@#|!#P8@g
zvYtAZZnr=3nkZqbAHj2F@W)}p=u~1UASJdWj255N)d@hfa$iBsWHk*p!~AeibyRX~
zC7$o{rEJW37Js|@rx~STvxfHh@RMkE?4@t38?BIhc2fxn!+_yiHIU9O7##2JqLv6`
z8*OWM9E9niDvIA}xNrm%$FpI(O~;Q2sWkam()NPp`3NURD_wUs-$c)2#z8Q=U_5i>
z5$Kix=$&u-Nypg_42^Yz+hgS!6I>bW%X@^VGg~Lq-yFx%k-Hub4jlaoGJ10u_FUhP
zc~#-08-Z{;9#PcQq0JG#&I7UK2EK`_K*rz@=KNTuJlTb#gV|g~922x{=df|g3ciKm
z{@mMyx3Y>wB&>5CcHnqSu{`0(s;0fTaLv%{eV#Xre5YF|nnRczGn?B9CA6d7EPfH*
zlOGUtP7cOec?f66pDQK_FcK`{*AZ^s7Y4M89z3G`684eL)NqG<WE&6JHH*kn$r{_V
z2RE`n=D2a6l=x-X;tmRPn8zE8JNp!D66(;g!qZ~TQan6hi>47QM+V2TA{j2<du)7_
znxa-V2=||7BeCTfPhC6=G0Hcy!?_9zG>}-}9oa}_4sO|)E&V|+W@NsrB_Ocg-Ml7E
z3nT=L6%nUz>Zg<fm}(?zw#?EGk-{l`0{+1&B6My(KgtqYwCA58Tsh2@rr;k4N$LLp
zro<k|jSv>hZD|JK^10B0H^xC7$8?g!T6`um)M>v9A(~@Iz6h~MJ-8>~K395#UA8_`
z3k|yz*Jeo_#g9G{fx=C;?6`Qg60wDFy_Ar&lZ%3)`2#8Oy})+{%LeS7!o%J^E}B|-
z1Q3<70@HEIa~e;%mIJ~UU5eEa7Tn{Xo)a9~VH8+N$Xw`soM8|-f*TGEly4Z?q;Rp}
zAZ^AlienIu7)@}wz0>6On-SeGIj09F%5=%JJYyGJN4qHjvvZX8*yjAAgkbMw`wN90
z(mtrSv;lP!!0xq~9Spd$hxSvngOG59a3JFfNUja?5NO2Zr<)`(++N{H8`?;^m@qgJ
z)H!{a7%{^*T*(~M-A?9~izv%M`h|^QH1z-xaz5z4%(u#?AdV7xhsi^YjE{YT(s;X~
zl3zPbf{vn<n}m+0h8FfOeaab)bHE}}-wh7RS!gGCxof_z$yQp?$o3mc3{UqqXzV+?
z3Dq;s<FU0;$kE$%niXlHovs1$HNOQL6X~OmWRuGBF}61U0Low@Du|l<da^!4*{$R5
zolY4@3$`*N*aq$?t}`%~!A@fxjE>5K)Rsa-gcJV&Yk%b}gq}LtgvIT>&vKSZxurQ^
zbG(yuJ1LBg06q8mt6C}u*wAHvsDGuV{{Xp4!U0W1RZ%tB8-VWO>j184VuqENcdIXp
zDCz|E*w7<j7-%_NO4h>>FJNIj5^lF<B$|4O&eARMe5t4?Zqp?1Y#@0dRn$uG;#xO@
z+`7rJ2RWp=5(mLdv<909t(~5;qJ~G#2kfWQBC03UZR7s{^e&;Jr*x$M02o3CauAyC
zr9-0AI!e7vy!LBe8kTt!MvNOSUiL>Jmbykf4$lE&def~aAP$O^tR!O1AOZU<4^(w?
z^#{H<XW0$--fpr|NXOmb;CUs<Ey;ZisK2t`UFr$z<Suz}AJf@TK5tVli@HNA%kiHG
zh&0-Y$AKGNG>+kn7bo^kl0vyQLApQb1LaLhC6+)S8+%+WPJ{Sw)RoU`ou|5*FEgFD
z`*OV#Oy~#E(zTCu7W-w)jJW>gMt)`tU(QI}B`%SL>3*88tdLxXU(aRqcj1>rwu?*^
zHCq}jy2ikM>j6p9^-#C|o~5n&G=x<8PO~gtl}@QFkpBSrz3#G{zb)fcDWI<&e#^ha
zO+!zfr0H~Rpp;(HNE{B)_E~u0qNaz^rHO&v%SF`e(48Hc$HqQ3*&7y#T3KezNY)RV
z6e0N!9k1qtC{21Po)|&jxF3ZyG|@UO=B8(OU}gd?T^*uJNjqJh0m42i7~_lr=Mp>;
z0$F}f#e=6bABJzx6)v41i`8pm+B-SG6jV~WC|q3|Az&GH{FLcp0h?MJ<L2tBr$%JO
z&X#G7`(D99f0*%CQvU$^AN+Zh+P=8~d*i0QKU234^1S~5srt^AjJhEI09IfAtJ!ZV
zbX_&)(UFDiwrulr_fk>xhfFozq<Td&r1K!$f4bzK=RA1*zx@<gW_YC@udHg-R;Fam
z2Y}X+w3Hn))%Aoq?0r0a%iU${+J27r0Tm@Ybj%!jYz?x|X`MF|1WQvd<|ORiQIF+v
zWMA>Zm-ZvXm-3P29XI%CQ&!>miC-!HVg<+USD@(~1EXlreqvg2Bib)_y9;+uN9e`s
zPWHtUavITPm+E~&T}Zl<O{bP{-hDC3>c^WlPuBLy)DyCUQ`f6p<4HjraYEdCPYQ~=
zRfd#arGi-x^tnl`yHwNSbZ1AXfLktgg7eCqag@4`sVr@hOW-{2vh=X{@q)j9Wap8~
zNc1W_FGAOLn%y^0sB^!Q*4p3fv^1ZFT_|F^ba*LA&B-r6+^m*?_>rdRG^T2Xhe>V>
zM!{6-e~o=Zsnr@?28tG!8wVDyn5gyH2Ic74bq7IcbQG>Etd23s7upskT8^31<S@xq
z1Krqxxo0)_I*(PoM!&BzGVJ<MoyX~5vnQtJmZUlnSv-B*S!5))r9;KH+32l@O{tl+
zFt`zWfYtyOw^8b?GfmJoO4!T8O@_?fd36M{P%uFSJwu)`mX$4Ljje0G$z(9bdpOw`
zw@n~7y_GQQQ)=3S+WDLdoOb86*S-D})@Xe*M9Qk2l1ppvc2|;Uy$<>ZG}uVv{K45?
zo1k>8Y@sz8gyrB1f!S!|oBld8oL6SQtA8GJdOAl%3tIPqU>Z4IVMo{SYuc%wRfzsv
zoG_?0sA;OTAxo#y!}_g#forsH!;uXS=c{C=APbO4uu8mXKiRtr%)g4!X-m{POjPZD
zlIJrYqzkGZq3XV(t6_$ROqR$00C4+4s_G7_(E55uK@eopHvzG%Wq(=gy4^>kM^E`!
zU5lKQT2I)D%`GOoKAH=)T2VZg{U**;x`w0GI`p2GPxS1JV~%7IkU#LYpM~8YrcW~`
z)oNW;P;7R)h3>jt1tkSDW2A~W+Bglu52|Grj|%9o!J(_d+K#K9vKd{>ZFPe6E|~l~
z={}q-I&A|VApUtWO4H3KU?s#4s;qXgO%#?dWyi{!l0)`gLmL{~1_qA-QgwVfxB7IC
z(p?ypqToE)2dwqZm8H`<YO0u;){Zv|uMzw~{A{k&<aV9Y5fTZpmBRr_Q&Rm_*wIzC
zIp2&Lzf9_KY28~y;{C)m@W>r;*-ff`HRz_4$po@B*25eZkn7q%P*#JeYBbSKUT$95
zE`Mch(VaD>)NQHMnAsTKV|R4_00Zf|73KDk7f}8u>$?1}r_)=qH(;LjSHFgu4u?~E
zo})3ka&CQI5^EZdPw8#+^sO$Lu5T{eb(oV>tFD|F>E7nwhBFG7)N#Mn6O(i7^}T;f
z>DN*^4H_7Xp|)?P+pjdD(skH%g4)`L(m}ffvld!Dp4MBZQ-WzGYrEaNqiXf~3h+*)
z1dq3ZMUj){JQFn?FGEOUX_r=s<aaGvjYCk<sOSimx(%%y;e7qC^+uUVJDWn;<7n*S
zZnM?8y<Vs-43!z<aU>$AN~q2)GtfHAt~B`S9}O{%aeEWl57Je2y0v_7bWL?N?&cTT
z;bF9XmaD6(W9p6APnGni;bw``T3sAwr_+>x32TZ~2)A-(bCOh%FzFX+`e1gArc=|@
z2I1~-3jx;sE!MhyE2FQ}V~#P|hXj3>zUmt0lS@M9Y4nc-3>FM8o_`ej%Br%p)NsW!
zo=u3_N?Gx`O2dv)`#g_Rqp6Oe(YkH!zaXZ^)B3EeYmGC@9m9tU*7`f3#-l<jt73Cp
z@o)%Nlzl&>K{2M9S>k(tOPKtA#a=ihg!xl@JoBT!4QuNfDnWBx4aVi`oj=r79V197
zH4j5;MZbs^Z(FI=v;ne_?Vg<Q{tb}&H%r%beM4%is$J>xu)mOml3HDgt@;k?{{Y2`
zxy$La&4Yd}-WE$wt?D}I_cESY9U=Wgh3QPvv`&|6WB&k8ibLOU4!Vn0)pU~&tw~KC
zB*0^40+Ml0?5`J8%1Tav)oNh;=Bp%(1Yc#%m!9>kG!(UNrKLWkjk`(tTFrB-wV9~j
zPBk|&J^*RTf8qZCM^oz6ADF9{Navl`deXVI$3sQN5!vMQdKG@DQRzcZCER~d7Yj>G
z_(8AC!6RjegXP&@L$gKGG>9)85f?Oe3mw&+XH!DgMNg#8;lO)Yf%jBtN3vIa7;O)s
zbxxhBZCR~|7G#U9O@5NjqN8o4W2I(qZvOyKh3V$Esbq21E2X4q7Y!fst!fUH(#-;z
zy^}EK^<^&$RyR7)U#Il`ujzV5j-O+3az)mwrMh|;F6!Eb?*5W^SlxTBXl18xrIG%%
zvA4?4QA^cTq18~$BQN@Q6P1%`>t?95ZT|oh^*s|yqjOudzSskm=Uoxk^}24L=;5V?
zsu>No%HQx+Pf+L`Nm){4sozj<du0Kp)9SiyOGLVSf-rL8&JwOyY-ZI`K8Dity%VV;
zj=HXzDoHln?7&fLT`SWiu48JNPt=9y^c__-B?x1Aw*gXWomo)%9QL*CJ&%P>YpNl^
zt=V<2bYDvfmc;s}M<dOe;UKU-D*I0SC~I`lBSf+e(l*X%UQ6oN>otHq&Me)Ne6Mc&
zJFJsP(_@eQUS^ACH@@ThrBHHuD5uA?P|MJA&@s|JnZ<+ogHtqJV^7iKF-*qZ`6O_*
zy4PLPQU@{hak}^|=IhP+kEps*vR6$lF4<2dn7Ut%OW4kFYN)r=`qNE(fwa&YcP(yK
zKdE&Zy+$+nZ9YkV{{R}j&?_`ri0@6OO@7V{xc$}knXExYTESCBV~>w}EDzmk-q;$}
zj7LS(oxhdUG>M@H0nU!$X=dsDC_C4Qjf@<D*?KIs{V7#J>ShUm`n7pyS?f^2JEEqR
z?Y}MI31i{3!yK2UhRdnVro6=i+SdFOJsz)DQ(D(mJV?NCbOi>XrBpDssm>Bx`I~~I
zcB`gQo5vVGQ-oE~la1{3tut662E|7X`49A)SsHZSs;B|dHSB@h9&E84E7i1n+UC=e
z;o8?*hkhqT1t*~B%LTA|B$h|hL$BzLlc(hT$cs>UEGHzRb+5wSp0CrM@u*7+$mOrH
z$-As)s;YU3+v6t|?1-0IsjP^`(>So@rr|BhNDb4o3oqd0j@KU)I)kQ)_<gRo8du?L
znq4Dg6*0<N*qx<nx*n14KCDtYN80A+A$M8T)_P839vI<^+R56IhQk_ivo{rG2ANVI
zmOYcVi{|Rh-Dbu{U=%WL>~`R+R*O{wdX=u#OXk{aEH9PqlyY?B`g0voO2XZ^4rWy_
zWtu`|#};_ETGi@Rkh#%muG`Jp7o1b-H8j=RWn{2A{2X0<8`QPB4IMkoGPR93+ueC{
z;?Xr7bN;Vypm;nGn>J6eapU>|(<?QasCLoEHP3OvWp0Di^#nR<Nn8)}U3z|-PowEn
z&61v>hA=obMNQUvEHRckrY1YVvf-DKuSZhC-)0A-w63nx>RQ@5hRDN_8=bf8uj@L?
zT+yCJp+`|0hd$lS{nS-Dq`IA8cA0h?-+X0XQ`2gWq}x$8;(x8T1$5w2Yn@TgmBoIh
zV_Mg0dXk8mM^hOHw$}cjyo0Hz^_?!a)Sg1z+ymKrey{mDZ+mq5cxncHNWg9X0A+*f
ztxffDx*znm%Kpy1?wV4QcEK30MHYe8by3rXIq$awh3I+*O-s~zc&TosQybrq&~CFI
zhT3!!Y8KRKVhrpHd#_@A4$!HEexCsm2H$H%!j?&>l!PSA%@;-LI%zR}Z`HqNw)a)q
z?@Vi@z(+>izts`X>`}Ux;<Yqnz4Wp{P}6L;1yO2Wj1H)XvMMV}z<XW)019eOUWRLl
zqv#5X-4401*EzwXjo2Z31bX(DEf_TqX$8HGSIru4RcjjEP>Qc+!g(#R1M02nCDdr4
zbg)!DSirlO<G}b`5R9v$QgQ6mekM-PA2yL!Ew6JM&-h+STI!m!C+19YUo3wGY4obE
z{Xr|K{{S@jO~0Ruq56-eYp5bKzhj^o^%!mvyfLe2Xykn+GKQ*=v4&OC#^b?oT`f#7
zOX^XA!GCEhKSik08T}dFHiK>FveH2-DPa@DVVV=>&IK%E#SG=hIlAq2RT-u-fNgA?
zER5Ptr6p60n~O=l)7@xWRYmGHLq_<6k1^%Hw`H=?pwXXB*=_FmKk%}s?VwjJBMU>N
z8hA-|=D*=pYYx;!;$=gc)5h)>r0ddYal%X!FuZ>)`B|3K=@oAD=X0WP<8y8TdV|=n
zlF?Vv`WtEhb!4TI9vs|)tTkN*7#`P<**2fl&VJz${+Pni=}hKCe@w7Ddw%1Pj?=U{
z=0DYvp|uft2eKTmpr!U&=^CXh6isI4jia_WSk9u<buD9BG}>#!Tr$?2U1&9fOGzI2
z17vRnuEG7#OwgjP46V~<eLUkW^#Qlou6Em%v!XFgX_YZatkFNxuBDxm4jdYP%6z(x
zqqzE{xONW0-)S1IsT~L8b)7Yp4FcYw&HjZpS}iiQhA5gG=YQ==EpMSu9Mb4Vg?lhm
zRg~VSl4vg|&Tv+$Df)j@)66x@WOG{&AyD-WhBWDKF8X+{a0%Q$bsa2J^4ZZ<#PBn;
zy2tFhu{M^@Ii+PDv!k6lsnSFYkb`#18SIMED<t(AW^9jP?pCTA{Vqy>LFPN~TK?&=
zOG8dWXxPvX>S@R*Wl3!fiMeQG1%@LmGB*Pv_9};{^%sbUWlNez0F>^k)gq%L#u~>v
zuvzxg$*NiAKu3$^K}(U*C%~&3q_3*?7CW&m36+$_t>N!!E$0gQ9TFHW;~l)CDd^}V
zC7aycy@EE8Hn|6MW{acOQhHSnbP{$WAqmyJF&>-mf^s8w^Rd?pp>;hY$b5yd{{UDv
zAxEegD;n6Kua0<}a9ryUi<0yXEp}q6^xe`B%8?=Q!CMZD(61YA%lRji`Yw@lRV|o3
z&L<_uEnB@ZmKtbUB@GrFg*MceW5qbTq8Q?B1R=1D_qHyXQB_*ly=qcRhcUY#rt4az
zJ3)=48~*?>?5nihMy6Bg!qVnnlDTDxu8yeWzRyJH2lV$+14phw9VKTCk%GXW{{Rs>
z8lyyk)s)gUT2YYUkg*zzE9t7^si$+Jc*#dr^_I6TktGd8h3s=nY~%6ry6coWrgFJB
z&%FR>+O#vj(5V59;~aj<_M4=%%9s9OrZ-<ZZELSDpoXB;?K1jcyOY^_4@Xn#bhL4L
z;yRc}yJcs%fAF~YH0_;gYN-b4y&t9A7t%)GuPWjiD0GWDncl(tg+r)S3TT9nbM{++
zZnO0rM@u`sII1mg<$elwrRbfd*|V2cF+d(7j04C5%7<I08oT4EqLde~+{SoK)9Ry=
z5(JEpp4YvQlS$}S2_vZV+Htk1@uuFylSyc<)-=keM(xmTHpuQ)Vv33fPUcqLp6<5m
zaJ?nf8<}|~-HvXv{Y6U*k(Z6Tt#C(m(BWG|6!|(Ssx&=Dm8J1owv>zzZi>-#+9p#I
zF>G%=h_#gjTK#^NRp~@tSa4fnK~~h-fYc|9R77LnlIIH#-A{|VDSnA6DnHZeJxFIJ
zG2r1^Q}rWjq7hUzj{sZTuITzhOV_CcPMAdNV71oD%5^tMYP~chbE##krR^+2<b6U5
zk3p$FVA_NbSIFq1nW9hWD=(?&m4ar&B{BCKG>#F}MecE#t&-R9K?>m4R7p+gx=VrC
z-I6&tKj=JEyC^8Mx9M{1uA}z4->J6;?yRQLbg3Kb)9u_d>AU_4w9>0;9^cE=#@fh7
zEpf;nRLZ?JFHp-y$5W2XF1TGPc8ECfVSP0HIszRm4JEt>fpE8aKT`DDNNrUtFx&a<
zh2>IBQ3QdrF{3}qRm=>bt)*-axGolOJ=B~prcyJm&r+(N@b_0{%E3V)J<YDGE4mA!
zwK`cNp{RfoJ-(Z);q+KGbpD@7D3{URJYMT@p}$NlV;aWB@Hlt=Q)9t7cFjETN1ST?
z390C{GMKfYJuY^!*A5?B^0HN0HlY;lsMuTqzo^d3+&ZD!M6|Aku76D18?*Zr<=WP>
z{*YYSPfoI&n>ajX-vt@qly+!lOfRSCH2qE{wzL?kT5%%|(tf^G?QW4v`Cmd80WiZ|
z*!@;An^n?vD1AyA!B03I=wvoG_)$yLGqsMVmE?xtI6Et1oqn=L%NyKT2EU|g8f?e&
zakfSia6z~z7$J?v{*~ql4>3uWpP^IBs82KZNjZ`~=_iC>rmK<`)KXG<vA5jdIU#J3
zgW3i;Oe;sL7YuV78^#M9F4Oc{IQ2SuSj06{PB6G+hVE*i(<?OkvFO!AB5>_%8?M#=
z05d`XqL|Fbf9<<CT-+LesnFW3n++@d9!Cf1b)Jif;jYEeI)<?=2>$@9Yb9X*cK2Rp
z`H5(fHa?D{leOO0C~CFZ*0a#4b;YbMs_|cHnH7<zr=!v$>Pl+)#1wTNg!~4`a8b22
zT7zl58mV`<ivny|yhZKQ8z`&V?@s>G+^gL?UDe<hmC{QA8ObChX{{lWZ)~*Jw92<u
zdaZ|RUEPBSe?q<z9UM*#?~FM|2U1rVw$o4PfNogtb4uH2+T9&x5RR^yk;!kd`X+>B
z4T4QQ88byss8hf54J>nUVa?UIO2Mh=u@6UdjBBthn|%`MTAdz`UfPJ-*&{9++qVnW
zI$kXwU(y*<K<2|KXt&iaOs+#m98u?*)Vdy`L$w-6>FNlveXI#tNi-cgT~IUg5&A&j
zhiCU*m)E^7O6oZy)Cau&nWMoUE6A$pU8c_Jc_bB3_H#}`XitzO`ku4Wv^sqx4QzWQ
z4IWWi_L-tqu)bJZ1cQgPTFcJ5S5lgaE$patu#e?Gsj0nBt!lMUxzNZxGmE#7nZkc!
zDWcA*D5970&7L_20l@zNlm@RwSq(9DITJLG(lSEF==#&Ny5l8Wa!4F~#I5e0A=T*(
zUY#$dTawG+XK4m4HfD59b@Y`+Iqv3zXGY<|x~Ydr)Y>M6t*4aoLBabcJZTlxAD7i=
z{W-W2w+YofIBBEbr%YcTHY$*Xt3h(&>4SQ*(Cuc%kPU;GkV0DDN_fNE#uuOFwpBG_
z^&L6o?u?fA2O(F<t<*X|L~UpsfU;Glg_6CdXyDV~sAK&*ZXAz4WlLQ7wC6do63}^J
zI8BdOAbOEJwncfPRB2lLE~C|BY;xMocs3<ZB%-@o3?na0tI&1FMKGEvcDNj|*#&R3
z&ZFt=U9F|mDaAa82XMO_ehTxgccJwiI#W}nJ=G9$M{p6HIZqU{{*_By**k;CLJ;{s
zgAAp^`6JSurRi|6{z|LUY2l9jC1$m~CLR8ubEAJZ92HktO{vjZT1uzX(~te9A9H?+
zMpj8xN$N#kyB2g(jI^YdIYI1b&N5nH{{X~=-kE;zdydJI2W>8MOWWjf7e(u_#7YB!
z?i9~`&$QV1SBudZEtL{MyWGcP;W3VqH`oh-;aSYqxbC*Y<RB(&jF8#8!STvHnu#Nk
zu5FwNB=A!tYaU2$2>sK283T7WBgb%%A5!-O5roviXk^sE&DtHf+q$i(gVP11eUbAz
zMq=jw04f*zu1;>1CYgfzb6=NC0yl!_LC76~^o<8qq1B-eq@A)6$nF=9&cY7nlk!yB
zMNMr5Yig(t=>f}Fe^Rt^IEdnpZEy~2qI+8AI|Mi^uD#Ke^#RospTd7OYP-<&X6h6y
zb!2X*n2sJSQQ*Ema~>QO)RflBC^UGUtJ8Im)E`z2&A&ER8b+78CfxdEqc>iaRLExp
zOAsXdD(Z?TV`1AEw`CbYC8F4t?8NHv$qZXZxu9~gHF8=|T;XNB*P$Mpwu=ty&b7kU
zImaP$dp!w%5h@-H%YCQF?y9v9Nzu5!+Tbup1r7Q4MB*GtZP5CKQzwiDl~pYsW<|21
zp@(@O++B1<?ckJrbfmX%8{6^O8AnSPa3z7m!COp_6fZ6uB3mS`0@wYO+cer~2I_mY
z!;n<;nsig2NRbss06X-%?vb<_Gw{VMkG04sh_v~OhpO_%o*Wg-+H>iqG0Pj6{=nk@
z07c%b;>O%}1TA6XWHkCbvAME7R?QdvsE6tCy3eO}#}3Lb&AOe%(7cZ<JSBFo8;CxM
zWBc2Jg|=l$n!cE?{tx8pMV;E}!mcMo?@^pA7}Vu6$0HkUrEWBO==B<Xg!}g372Sg+
zs%JJxQ?x$e?G6N9*+NdhNwSzX^79by(z>mpz_;|3R)w;rraM01s0E9M2&qlnMi8<B
z*NZ8-3Ob>!*n6sq=vd$^Y<nwOgJxY-)IW59S!Rv224tzHKF1Ohf7WM=kmi%*qGT;M
z7eY@14*(R7Ax~kH+WZ_!Y>$UhqL&VPM~tkb)WEpd3n5)jcO9gUp-D_@H;tZ^!tIbI
zlXrVw30N0PR|&+9x5{*SwRB_$IFa>2+A=rI-U!N4><~^CN|&gf(Pz81Zj5hGM(_oN
zzNqpTyprDtNi5z98ZAy4Es^`FT{LbN4huOW3A~O|+bARD4(S?rAvVMuSt~&c^=#x!
zGl9Se7K{VgHP6{{O2+JyQkLyG!laSy-Hyol=VQgMY^utPKLJuC<=EFelXHTv`fpb-
zMqryPIcvYAXA6KL`A(*nW5cdMzX(nWMvS<-H%^t)9nEke_#rv2kP8f|8X3$?5=Q;)
z?%S)XdD%Qc>_1WALBfji3T&*9Y<RIvaeIG6j%e}<OEtsa_91Y)4T%nKl{Xt7kv$fv
ztI&I?>z?L+NjD2cr}ceYk?g66Nbmb{R$0IijtXpVFuQX}7Vf7!5ua$JayXhA{-%Y%
zjl_9t@TpwrYMf+;+nj|YZ=%!>rC2sez<L&@mTf*;wB9@6!?;O~9~-1RpEOL!i*oLK
zr6JbAOG#8F_Q{WxGlNCIAzI0(pgBFJ=LgE*;6;efl`PS=Q(*6Rge;Lu4<g|*c1}uy
zp?1UYoc4(a>QO-ExLgnqf}|kW+muo@gS&eP&f)$M)UvVdv#^AF$iv%V<vpS|U=&yo
zWYn96_<6SqDA*heBx!4t>76uq1QGJ4ab&o6wcH_e8n6e`O9Q<|7h345YPWD5p9M%;
zBse3~VNp65<U6Awr|OS;HBeL^mYw%;5y|Gs#6}!jP{4DC1Q=lr_k-|4b84L#5y@w?
zt!6BsWKM96z4%hgr;A;N$NMUWKV_c-i5%@GAsa=jU@}bG8SIs?q{d1ML2H@~lVO#N
zcl6&M1s6NwmAk{O@T)3W@3T${+7I+tIu=Mb1~%uySm|lyjK=aq`(K4!1x&Q=v%Spl
zj*g}ohqT$=3JfZUC8MaKkUA+Oi1u)Dw4v%<VxB+C)Rxy%92Q6}Y@?2<%-JT_H~L(g
zH|4G!4(1cfPak51MfL>bfwc(e<$I=~-4Qu3yRrB})6~rk$T;A%=IYGB9L=;ie{hFv
zLKhJ%R~`y6)_~viMkJ+|+|S{>@;fPMDr8~2ZU)?sE1O3f&iEWIf0W>;A58YT;1;{M
zD@rMuN`sy$^$5rXvB*BkvUsPZce%J6ICoAypf|B=hj5rGW(RBXJd_floUfscnC{%e
zp6Kdo#|Gu0?L2~jd*PASX!PIxigP8NmG^rAAK0aoENIQ5)JYl3MZC14DC%}P&2`6i
zlq3?;R<Jd$^rq|`i=b=Zsfpw{#2&>-N7E~Mv}mQK(<|F{kqrL;(tD}&s>+QrK?P7Q
zi}_vQWZ=|ffQC-e;5cyPBjeSl5th$thz}08xGB#YLq=%yN@~W)&G8oGB&nvRtA))i
zXmJ^BxmcY$R}tn3NgvX1e`REKaXU9P<&GW{8gXTo%C4g6$m4URfbDSb7G1JBH<;%H
z5N&n8gHaVu^y&dWC%U8R9U4oS;$_D;U0Cw^XFgnSv{q470NWP=(ygh(TpJ}jtnu3G
zEH}jR*IlG`Mp4%~Ck(5c>6$i7Wp>${vED+Nvbry8h1=NO2TNBCOF(`Pp6H8);8?XD
z#uiY=jm$PHqm|7zep}@-;1jePcwE=E_PvQf!C>CS)*&`Va$0Thx(2zqZ|Sy2l<66J
zmSFf;z*0sYNVS}r!uB|a65ywO%Yb#-e5Bia5o5?98U>AQ>_|B9o+LR3Bjqa^=H&3D
z0j?Yi_e2b9W&qScE5CC`XE(u9M&?Q{8QSj(Cqv!1N*Y+;K(SiTI|^&DwonRjhyl7I
ze~$=u%0?ZVshIHQ`%coB6h1i#!8boCNNe&e3FIhT`yY2cQ-N!+ZGS5mNnzX$GN2K<
zG8)tNDsp9EvAJ)Qk~y*f4i93mXl={IoD&}t?RNWzh0Y~|-fldnGEnB+8~lZUL$#z3
zFnfZcmJ$y38x%y_U)TfXFv#`~dqdm6Bb25fZ06f!8Ax6VmR83jHw%4`l0@Jx9BuVS
zp!7&cv2#H~$W5<%t}>PjI_?TsizL4vK(zwM8!=;s(nrP79@&^I;vSM(a7Fw4Ajy(9
z;cm=K_}||r;SVr2+FQ63K%BT(oc{oI6pkF&{Z{A&bdfc$FNl`A!k#+TzR}f3xDFgJ
z;FhVab8bbCA<aNY9LEjf<NB7X>?yQZ&qT+MS~6Za-F%O-V_pFC<Z!oVTl}c0-y<^D
z`+O;8jnaTwYxnt4mMiGIa@Ls?k-3L_P7OcQI4W2sWTw?4(~$oFJA3_5tuKY;rvv(X
z6kB3tM1I?DwYK*ADb;pT{i0xGr}wn)j{J`4CuKEPxDgw>+k`6w^sd`yZSDv}Hl7-o
z%jw=@e|XP-qRut2S^%1zf#hHIOB3XU!`->5`z%fF2*Cw5LvPh^i0C#KM<K(r%9dCo
zb;$v)95^b-$rf-HKM3kdt<BpnWFPbd_HZ*qMoIqwxFQ8}pB~wX_&wJP9JGQDZpj@8
zwm}#3!ba06#`*)9;zC&G2lzeEvPKwAE~cxdEq?Y~9^Wc4DRWC?ZJpSsOIC%pyC7?<
zeXiT_bvq>_0VVC^Am?qQ&Hz)zBZG5i4+JIym(W~8`PkrWn@|}h2n~1Fl?ZS1Lj8yO
zPX$3N?-E(<+VAXz1C{n9u)Jgo*)w)_-q-Aofx*qO$nc@4r`?uf+4)<L9ABYgl!lPu
zy}k<I;6WUZ9uyImv=DRkQf_O2w>{GVh#25Y<96ZT@|-8!Hs9UgrUFB<G2|&*7?(B#
zj_7n`f#jM<ox1kAk}BZwvR*%Q`C}oraNHGq&=5DoZT|pjHkhu^V}NU~3$S}#FjN-4
z&jr6#R_PqlL35gZQ`u1QX2>@-{P<dii!5H~<QE`)LK1LVEHc~jnBpyVoF$3w9Ds3U
zkxLnC<Yi4y5OcQhkZpO!3X(EocyZxlP;?qeorJO0C|d0<s+jxZz~qIa(C2Hmkzy8(
zKSAu<BU<L3ZZ5gynZ{HyN0zmOn}21_C70Z{nzu|rP}fUDc0Tv9?y}XCb5gv)R{?Lz
ztTIM@8cXP_X}<+b#}@EcK9bMh6RtcZa|pwQila!AY??WmMV)UPDYrLe!9Wee$J8#|
z;tiZZ`k>G*$t7rc<MvTDG7bB9O4$zUJbl7=A=zpA-5!yyh$H}vi=m$x2N_04K{mCN
z5?Ew^b(0HV=Iu6Jy3WD-sjzzhQzVZj+$te?eUe7v;gN8az!7xF4%{Cohcq}}{3T-5
zY#Gf-kJ(SO-;5@{I}45xOmZMx(R^E!O*F>#Bq3Z+Ckf3R+H>-Qpgk5_n(&5rEh;$W
zb2+d?hqb{Dgs^*yq}YBG(!|gS3LkQ0@1UngxDX*XV_d*KrA{iJ>Dc;!5y>cL$59~N
zJihM){{X^)#6u`)^`7I#aH!GDm|LpiV?$ajPjYTh@6>6aeVo}Ql<?N3dRMdNW3A%o
zih6%=baai{a9rnQWP)&X^@G%vzJy=U*Ib{vDwc|Ojm8Nggnu#QsrPzp9*l7{{{a4S
zKuwbyJ$s+;sdTOQZGc<Zmq9EBHrhINzx)2`dJRfiFkJYdVeRY$BB@S``D6LIs`=!%
z=#85hf0Nx%)|z=Hb6Dvb(tV(`<L-?lZpmxv<E)&`Jfh#y-)R2IIO-Z*X0eQC(&YWh
z=xJey2M0$f@WK97o}ErzAeKs6P}bxJ9G~ukG){q(uV8tAHKX~94u0i6rnZ)z66aRJ
z#<%%Mx}obXv!l}wr#(DwaKmC_>^|$s`j@OLb!i+M8!6!I);IoCoZHk&s8-py>dw3n
zxYN>1#{rA9S$T%Hs>`U(WRcHydz;w=_6bhr&9}|dT=u{$Z!gdwp-$gmZu$^etlal)
zA0b7WleK`@cT2bP4*e2e!QozLI$!Zx`7L621BGQDvTc?f1<{e~RbbT0V~BpQC+HWx
zbnc0x^z|!aprMX80hwIexT+qApy}Frb`c$9lMp@Lm4N>1W$9@}g4JP;J&nm;2jr!e
zPLrfx7ZawMIT&(2$Oo5~5Z*pQvZsSc2i;mOdj^tGQh%jG9oWfdJ%aG1<G1{zb$p3*
ziU!LgIN?e8ryLfQX7@z+i;NM*J7C=g%3odQ(1q^#b-+`8F6nG#J0fh(d9{b#MPDI~
z6S6W*xd9b5Jg{IkGXDUn!V%C{OzSwbxBk|XWMkt>I-!$Yvo}3;L~{`4y2F4`^jf5H
zH*3jh`XVc|S!XtEZgK8NvM)&K;>Uj)F=5$SKaY%)lNMQPMQrm(Wd01L!1f5LS}jhw
zzMBTnd%0>L(_@T+%68!vV6A&Y7}#QGz{-?-f7+U1az;X*q^e?=KC-GXJU1k(x;-wA
zGS)#(>0jiGD^^jmG6^q{{{XO7RMbK29;A(9d^F{D!^eZ^Q3p1?fJa3L0M*qpFZ&oW
zjAdS*O3>PHT<<)Rmb$Y{(`nrIz5%p%Hzj#DSbi&2L00N5D@KXM$7q?y`>V!$WT6>v
z=w1$Mm1x!VroTI$+8RJ#G^cA?7KfoUs;w@7RBE+U@opC_HWvDokLVg{BVpC`IU=6A
zQM;Ts=$+L%gmp5PYL#bT;vpyvA5b}7{{V~Q&M~*!IcGTZdIwNebgfMj#eH_4EJ42S
z;)V0ySpFk^9cX%tl$}4*@K)4={@`dW2kYGv)zkF-Zk*`mbE1q34^6--U&2qr4HK!g
z-_5!+`9?qV@3DI9jwy2fLOHHI6!jfTuk|n@lc%>ZoHiPAK>OKQ=)Z^kSz8H_=S|ar
z;j+JD{{U+*sbiz*?upQc<)CB`#@;P*yhHI5@h*<Oq_&QQk097S)>M;>HQ10&TQKhF
znYwRK6Kaw{Uf_MAH*O!@TDGbB*%bcGKA-u3Zc49qt4&?DTFQT5$@kd_t#xLLPfz(>
zD@8L*ak#v@`vfCxSY*+*rmN|WmZTE7jIEH4WH%@{`j%aLbF{q;k+UE@%mJZbbln$U
z)*tzqGzo-Y+-GRF+^s!UxvXe9Xr})FNf8FL+U^$#`8WK8ucEhAn^n`b4_dEKXFu&m
z+bfayjZ(@M(M1QS;w_btG+L)rIMh{4>UQ6j_C@GjHzXC!Y%)z;@N7SZPxnDeQRpox
zc4_)%mI~Sb05M-A(7n#TwAd-S-lmG4fzW@e)t0*+$%r8lSJGWYH87Y(9U}nc&#?<7
zU(p(dwNPmy)qP2tY;BM}>0G7N87TdkjT=p(n^go<&o$k1zbn{u4LXPN(Z>dp0e^SB
zxm4O0;SQ~#L@I`(1LU>rMbj&)x|y{fkfe>iuLaTeTH4V3Z+3fsOb(mTG|^FCB|K7w
z-NnRT?6dtz_{E{pOz5;tBEM9WWB5^>zq-k29WPwQerr~9t7RhlC3mzd>U~d2p#`;+
zQB$>}hC0_vC^!7&K~9(IjJ~b-&D7IMSniUnrikNnm~f+us`TpSiK>l65_f4Ne`Nlv
z{6N#`n&xTr?I(+qb&b&(UDaC9mZY_m_ZJPt!dNJ$OMmP#wzg`kwH}(Rfx=2DYhTy~
zl~V*%OmUhXoiMO);mY-WBTLh?3Kq>u*hvk@b%|N-sn&&SNN%4Mt!?p(D!ht42%%?_
z^&YWNQzzwVshkIJRi25V(LYTut<+?saT&9)5M4)2H7tg%5fh0&)nb64(ly<3R>T|V
z#_nETmNMr50I}S7b^}s0$Td?GRlk{IU4li4T1sxAikc=tO-~iLzRas=zY4T%Hh}6H
zjd_|&T$V@&_EnTD=~}9zNlwbKAT|!(2wNm229pG2r0pAimeMr+Vg}DwTMHaT%Uo?_
zcDDwJqf$BIqMg7G0IZujOHzHGL94lpKg!^!`k$ip??}G0Q;fyk!N%Zy6;@6$q=~r6
z?#$0ubsn8psJb}mVRJWH`$F`8!dN<fNH@z20`|Sa!O(sczQ5C`gI$Hdn~>&^y^HYo
z@b-=hR<f^A4mPm>*-b)H_BSOFdc#ZUvlFJIu7;K1V`##|X_}+WSf+}oOzV){rq^Dn
z)O{DywDhD@(@!WP^$9FO@-16L(sXTUwVGzBW--_F<^4_jpyIKQ$;{fh{bf@^=21Xn
zWv#iuuR7JV4ye<0Z}kezuJ>*(WS2MkEuCNDr{r|A1Ws&@Xu|S-qw4)bR;@2<-rdK5
zN>`HJfT3NU!=(NsjXz6lRd7W)4YBN2OIPcubxOxFikYy2e^tpVAJg<z8l^*GtCMJP
z{Y83KnbK4`Wg}%0GEVA`ET3Tb)!G}Q=yiI#SSQxYLC(uyEta3qmGo3bS`MayH-Uyp
z!CCz(u8q}=jt4Xmf-t?8rCrmp(8n!IP`Tg>m#O}_6B)_lXUso|fBM3Xw8vFd9PzaO
z0J#Y^P;|8xp{c>Q^DZXYE^_+vzg+2uQ#vQoQAofzbYTAgmE*sNPwA59$)(W8O)36r
zakl>evdR#LPQvEq&m-14dZLPEx_ZVCP8c~}q4;T|Y7U}gtR%3DjCNjpDP*3c&nsqm
z2IF<st3d1dx_T1?E-~1Chc@7<W0X_2ER$!V>as~s7Re)UHtw)JPt-9{#PH`dJHc6g
zv;0!lHAx)Cmc$QsjH+Iql4|O&%+<Tr9G1T~OF1bTDw!K~U29g<3pD1(V(Vb-E6{Ww
z!a23-R?n$wvcn-4Ed^7Z8cM2$O{HnfYubIzW)`ZSuBPeQKSH(x>TUflIr}AtR?yRS
z=@c5T;f9;jH3p&8vP-u)AcBXe>bPm5{JeV}Ta1e+bv~iidZMY%ri0R@2izR%l7-g?
zPt(xuu7RzpAI!&D-*AGA`{@IedM)(+xP~YkC17#31DXg_TE4fb>eH4`Q<5FvVNmGt
zY5JtQ1f~K{wZ!A@y*HxhG~F_vY_c`v{{T2Q1y`3Y#N)e0KTOc;m_2Itv<^ri89fa>
zP!ZG6Z+G<pd#%M*g;TB01tHr7^KR=)qja4%pH2*uv94&~l&w0@_Y`?W288N)0iKA$
z)BMdATIxQ4q}Hheozw!B;{(F9>bjUH;CoE*7J<drpHu2>HEwHUdt)Z#HP|Xq$dsv#
zDDqZ=^>4y9LpT2b^vtLP_7^Iyf5PfIcQ#q)e9?pMEjBCA`feDG*T<4Y@`&pi_^I^g
zHb5F}%SS7r@k+@nANYSk(-gFVmX5YC=Klcf&IQU&wbG-So<Ri|aJB<-KFi8<KBS_8
zy~47U&O7cUX|W$=t!LuSm!<<1OmaFghPZ{xIZ3XI#U<?X?P@K4f}zZcg0-w9;4qM>
zCDS^aQg#0T((3kqP>ip0>F>p^lho=3JkZJuupA?}TUh#^rD)nEWXxx93~5$PY-bC0
zkDBzVC|d{RwMk+QZUJ+4y}x3lk3iC9E^p_H@A^ny$=7rAe^t|%=h8!^{z>9y*AJV8
zmeKSI3I-UYgi9DVYoGdnRD+Z3S*Wd)JvF64r8t&d!Nd8RkFsTa?2}ZAF#vQV+2Yn(
z+M2C8k)#4P0f2if7Qe1hL0TOj=`O{O2(`NvHAk@Yo{iHIQ3;z!=v`})!E{!mL89z)
z=%!<21GYbP<=P)mbrl3`tD=a@PIGaQ_X_rYsHxSW23iQCmf0-!-8;z|rYv#F^ip*X
zSL(Vxsj`xGLiS)5kJOK$)jEr*X@jbt8wd3PlCb?zO{mmr0$GGYAb7vHEniCYBs5e_
zf_B}_7H%@92NtQ1K56t5K8HSyRLxD*4VBEXu?x_8Z>wl^jWpA`2*k~8ufp@aa%zg!
znd5o0$LVmwtkbnRT{-ruW1@KB>{>Y~(&(gNf5_DJZ%@`sQ0j(~8^~$lVKqlOn3&{@
z2aJ1F-A`0h)jUB>s0m5^A>~kO8W&Z~Ft3)E)`Ivko1~mmdOA5m5!qhYI)<=qrhA(i
zILZG22>O1U)h1`Bs8g8<;n%TN-8-v(PuVjJau4Nruv)Drs9=&%CXI!+St#<VBgxZt
zQFO&UZjAB#IfDWIVTI@v-BU>FZIw@J56=qDEki?=fVhS=+in5KUOV`isnUL9)1eGx
zmm=+5?%^FXfvC-z4QjHBQq>tr6=P!(I>F%KYBaCIZ%K`sd3P}6Nysb1beZM#n=MRs
zAl~DGy$ekIS=97eFUho-;M;AE$Wx4>)wDB<Pe#M2bSga}ozlK0RL0idbZ2YZ^L2=m
zt!gN-r`O9>N>0}@L2}iQ>W;V9wb^84G;&kLCB>O_U(%3OP__QMcbA)x@S{JvEeGn&
zHBOaR))lXkkVOtI>k9>W(|rr4Hb&EH6wPF#4V8xlGo&hKgHdnfVBFV!unN$1e7d2c
z64OO@vnOvVNz$?8?o=Hw;lva){=6m9Mn(%w)=R3i$!RIThN$d6sh7I2)4vfXq@fh`
zkCBozSc0&9SJrQ-s&tKOcHe=ErgN3(oLAUZld26eVJkL~{J@S;ddF2$YSjM#lWXLO
zr}gbPKV^iIU1aVj(;%Ke3!!Y2%+pTN*E@hy^7O;SzKt|gQBjjo18M4EIeT6&f2c+_
zUY~dlrG{!rPwHTO*nWVjDYTBF+Sd97t#z#Sj1^_3=ruyjm6nkABLxX0G&R|}>3ZD{
z*eaMDI3!@L-6ao5*3zFwv(kASJ$UmpTFpA{m97mU_ijQY8rH|U8BZToSmf0cmO6G9
z_=ToNrc?>zni=6Hz{c!^{+grEwF*Z602sqkMt7VP7N0>&s8qGOquq1erpn)0>Dpa7
zgwIV<(#E#<IS6oRS{Z)MnO~|hEh4kiYk`#T<~sx_W7jIFq1<AZVI1u?SqeJ%>orjn
zk8p5xn(oWhw1>JaIjpK=RgjkOLYhgSwD}%ktZJuNs}P4;<N_~c>)(bQIQGy+O<QGU
zzf1FFh3eXFpZvg`lwO3L+{0@qw4S*C081NbYR|Ka@~3HNcOPf0^*t!k;&ie_{68(>
zd4{Fbbmq7Ij&bS(mXTtsdWZ2ozfghn#!NU`{#9p6&AM|ekVf+3a!9!gV#MV;eFAgi
z6IW5xLV80MqfhEJ!rZJbvmGmCGSNNJu;dNaA!z!dzf6jWz;E^Kz~OmDqhC;Gb(}@c
z1=n6lK9LBoWtCNQf@Zh#Zn!>Hr$yCS3<L9Rak#^Q!og8R>r6i~!=B4!rAJRsPqWl(
zqqpgPRB8Q`<xB^u<ZSYqflwaOa4(R7(H}T|=xPgGIB7hqc&W5mD?=)1WR@o!n6GfX
z2c|j?La6lQrKoWZ$c|xR64Qv^$jj;GvZxQtJXu&zMGGS?Yi!^$M=NEibWBt%^%_e^
z81PjMOz=}~WlSuQg9iMmIn&ul#@3mD*N?2%KpyX?D?j;a`a%qDE^m%ku=MRGMAuf9
zR^Q$Hu64Gn&1>-MMHG&!(yF5Lt$P<;8+H1IqkBBZqIKH%DjQ1qH!;U7lRvWb*J&_S
zQF`>!80B#H0&u+Ir$D6q=?$!8Q#AX1*d=K+O+!)Bnj)(%a|h{t@Iuj!tPWeCX|(Ft
zs@&f|Paf+!_*#u8O@atS#ilo(<Rc%t5^Y?u?Wuw72Hxf#91!(Ae?r*Z1L$7Ij2jEH
z_EkzPe`Mt;FIo=PwVgGQIv2IAcowsQ^F41-4VC4R65h$ZO{!FD72%Y&^zVCLvboZ_
zB9~UA21<v+DI9`v_Ce3n0*>@%v@Lp`I^fFDz7l)(UbWKN*ZOpAs?#b-rz70bE<WLT
zf#_XFO4ni)TPi7>@EZ1<eb=sZ?u`s|&1A5E+hkiICQNaA9usRt!0SB@vut{Vall+{
z>NTF*{{X@ZU(o3#Z|7;L+an0LdmFi@_E2j&4w@o#l%z=C=4XTshpg3Tqtm6S-A+%s
z7w7g;j351ESDb(Bi8Ok68#pWiHv{~*T4SeBRKh)C1Gx_Z#ZpyuE}Kx|=hC!4`k8{O
zYI>=(_ia3mb5Carsz)6AV$N{%Ti3+>J^P`Vl`(g3bsZk1Pb-T*D}OC4SWRoHDw!ad
zMCP}+>{YKx^^Fxpi<o17^9PK6=;VuCu^`hna8u|tG6v4(K;n3GXz6sl9w@dw;qg0y
z8iM}-)H)SSCfbHX;zw@F6V!b|>LTN&%Hs(q+HyY15tD@bvaj}C7y8TVG!SYunI9|%
zJ8ylejvvK+a-8~dM-<WUSs~?RnbkEf+}FAGcOaZ9O-1jPS4hS^_ct~RxyBM*9K5F&
z+3EB>aiG`9x}#1s(-ZD!wU5zgp@*h5x;xUp(Wvg%3oi$u6MEQd$ACqamrSmzfw?ah
z{lZAaMem`Taz+0DQ_xgt5|=>tH*P@(loprP5lGL<S4C;K4;&Pgl2+G5*Hk)E!NDnX
z-7bz<f9fL^{-*Z&r})!irpUEwIchCY46ciJ0`~{#nM119(Kts_7;^^>11j#eh6-3Q
zAd)e`2KN5|!piFP(X!$@5CyDKPaPDDlk{t8HFwJ^Cu`he9l8D1f*oFhsvy~p&n|Ce
z<2qikJUW{j1ckfJh&&asr>c^u2Q~o5aN^JWA#yhuwq11%Tnrl@P%0pCu+Boj^#waz
z@^tBoL%TTQ>g!X|WEYw@IPT<KRKG>4VG}k-4BTBRwD!W%Ye>$sLDXL-s#sd!a$DVO
zG=7n(tbwyV_QwRG`fpiv1xC$EkWCrJ_KpJ7imF<WCDJMy)5&lA5Rb?O8Zp%!D^U#L
zt#N6-E^xgwptPA80~sxyjF73{EnP%oY%C|elIc=w8f8(aif0Co<x4J79xgF7eQEe{
zOIu88^x_**J=Pc{U}BoTPIvl#p{G3d+(t*;Z&}tdO&6x<+}VKTz1CZ(I-;Vf#yRPl
z;M4rvt&O<$jghIX8Le2+(z|$-+fHoZkXCNGp_P-htRKS%Hs;F5U9O{=LfHeXdyulu
z6aH|DQSH7kx@9ZroXR^lT1JPeh(9x<%-Z-Z?~S>0eyvhTIEkZV9+bR2t`;A%qta`&
z-4>y>bZ>N0uwUE5zM*KQ>fJY~zk{mKeos-b0(gakkH|{YUe{*jHLpcXl<byqB|LV0
z?%)O$_M1#(fO->JLCkL!Bj`|Cb6-g_j4o`Mx4{cfq|ZY;UF$*^@%pSdQ=4TVQcFo&
zG~th?YuZhmx4jb?(%Qij-5Uq;td6kh$MJOPhRD{UbiS;Xm5pwrN?zMrb5xqO(N1k>
z^xmnej<-qmExhfqE#~XRX46G}uOu&jrd^*4O;grUQ_9IH%bg4PYlW<cs-|wQ3pEO7
zH*psdGoPVL57p>tZEU6;D)<0!d!26M1v#{=h9emw-R`X+)GKKs^r{181NpA9{X?!D
z<TA~_!Z|U@TZ^MYN;+cI>9jW`<)k0wArGW6l-hubhON;DAJ9+sS=sd|WS?uKHazCa
z_d}wjtzdIzcd9#+kf&3|zh*z_H=^HJF&G>tiR_qg_KSxqY8`5-mHSyMfNv~!b))>Q
zqfF7c!nT}p(mlW|=AtMnE8Q9PxF2nWoD;)7!8|%9tahVNH@UB9aK6_J5UDBvr<6a_
z1m5IZ3vZy+w!)gYdeMPk`&q#mt>`*sOn$5`8=N^D{le_GC1~XSE{q%E)9Y9t8=Ff|
zI~+B|Lr&<~Q~7#_HW@F6e<}JDMz5qvM)CmNA958-;D}h*$~(8ZoawLZXf~gEJr_=r
zvI;Q}l*-#<H~#9Tz1u3AB#qcf<PKDQD^Vm+?WdeMwz-Z@%F4XMRyMnAPaFcd;M88U
zbxk(Eq8gc`mXNjwko#nJSqj=+ZW^;yOkP0bTc4`ZLsJ}c`ZWM^U{$pip6aQZ=xTO&
z{{ZABmR9ryi6Vzj)P+qT62j=G9N1yVgYE#^D_u5%(+%gQV_p4Gk88eu6;%2_cyOnk
zfzAF`n-pO%P9}Np+Tsb%WU#%zs^fRnOHmZG^13-=$^PhB>7McY6X~C#yjjmA%L*A|
zmZhz*1mJ~bK93uNTpBsO$7PF_da7scEjz*GUFbbnW7`g)8@ArT;a)is?3W8Hr_te&
zyIgF1s_Ard8_3um-yvRA>U2iZLjCM_g#>zyGu>}e!1+(gGAS6eRa5CL^$zA;r?CoX
z`hFJ7CW7s7D?tpjpbvWrA(K-VUwFFDjSi!1q-_;Ps2pc`E%I^|%{HLuVhnr9Aq`zq
z8yrhV+${d3sWE_^%2JwL9dL%WX{Fa8U@qL>oTa1IC~I!O@YjqHd@mu_bs42|j1m^R
z{Hi@WUeu`dINc-c!faHz$*?)XC${UfKBOh=Bm>=fPgm2rCpeRV@VzgmHCNYA2DpMq
z$T?X4xTl&u<*_#X#g!!sRx-_K@~P!J$W4jBoT)Wf!(=YnSo`F8LsL8l4b8fmM;zs4
z)}Ko&z>)|3k-%gL2d3fP*h1;E?Je4De1&dghIq-4S>1})u~G+$Nh3eh2XLo-L!|@X
zau3}M*9J&M@$#PF(`PhV>ofyFrfV?E18B8~-8=&glzzDW>Rm@qbu?mTmR8U^^v=PS
z{5UMl&tqbzqtxqYTzv@$Y5i<=TJN%1L+Eucu-Wv;r)K(TL#^8Cx>_L<?JEt`&#tGK
z`jNNt(sy7uKOs2PnHjLz*!zU4!stfn@ktqVG^cRor4gjoO{dnkcyIvoWnUq49vvHt
zPn9dH-7I@58XS8$JY>_fD@mS(QR!FEwx%Qczfc{D4w>7S=%0IxDjt~D4K%-(mB-U|
z75!@(TkAsWgOGf#_)Se5vQ8|lu3?HoE>N%cH<V>-y++(}IY4f)vMdRWt3UMR$L^`6
zf4N@H(E2$D&A-abz25%-pOm2_G8@<@1B;adPI*thELJlS?YToq72S0?aY`CZu!UKZ
z0h%D;Vh~P*ZnybY5-?p2Q4QPe?2(|^S1mB*K<HfF6^n<I&AW}erD!%+2TIfJbBEnZ
z+PZ)M-cb*P6T*$q4&0$ev16~9oRU$r`m39le#*GQQW%N>G!W}7x4Rw^&#6Nw=PNp6
zH|EKtI37@-rdia>cLLIF%5-vi&DweLtC;g^5^$d!g{}orF&KDgW4-Mp1q{14lE7L#
z5~pj#tR7Tlo4FZG3LQ%`qJ6=^?5*i49}yD7>>fvzNcIuNLL!1^G22fFFs_Y-6=ZcR
z_WNEr2!Q6?gUZY_yf{8GLxxq(om$y|j$1NMK2&Fpwu;79wj3OI2L5cB>No!Yg#E29
zv%iNY^(bbE#y}+&Cx?N8rDYUbIo5Z%ro?ckin37A6yE0eCgDZ-S#7zXxcn%Hb;};o
z56DS6DHPCb(Cq?Pt^v)8jyax47~?-Fw3TweJvl66J&KvoGG^|la1Q3lp|K>6&BL-B
z6s>uGwn2OML$XIl?UY~2A&wRWq&dIcW{jAUQ#2d51GrrS%U!hlhk}S~mKGpAoyD@a
z#Mc7&Tpi>dP*NGB`XmA=8?o&lTOp;Sd|vqS)cEAi*NY+?*AN{G^WgVQbS)rw9Pli7
zMTUnnBH;}8kn6pm6Y+#p0nUuMmNpp!lq}sHzhDCQ2@7f8axWXasHD05Cd6_SEqUFy
z^q-W-3?#c@vCsHTkTP5xA3jt~c^7NO7YB37%mi;^;~;kJbhve{EKw{CfAb69f|K+~
za=_+;+;Eq%lc6InZML|P{nLzXk)+1!p9heNV^~J$ZT|q$o9rauwbtjlN`8u3U~O=Y
z?45?kxI{-l_qTj6^#^UIDJ8R-TI&(?LqRP?EZ(Iog`^%k6x(97OiYo#)2M5Pa8U$o
z7<T6T@QI61rLH0>*u+wvUD+j8ocO))NFN#gR4)551am$TBm}gN*%WJGs%VaXWBWVG
zhtqQ#eY=NtlnkObJo-R`e6XSKVd54<l+s){xu+n6R5P|{?Ju}_Rq)gnk4*b}S;<?u
zgp+F?d?!{-hRaMG!sw3cat|u5U`4~5WoH}xMqFTo*TcRdO`UJuFl*?l{Iqk8&5*I<
zx0TR2@wi1XxbBKD0R7GVlf5wP5S6Pkb+Rd-1KiMd9tiBEZ1RW%PXbo<zDP}t#sg>E
zG^rgBf4V1Fp2;iI8vcs9r=8y5e&G>B=-qZamOHT=AB04WY=E)t+TeheDIk5@f1;%c
zZp*4#T3=9lptPSI(KQ-0#inXGeNa1J+!Z|)OWR-#!R3xW;aSt_CZFFE+|oH=<S5S-
z?G}zz(*_gO(;GY72R9ZWUFn*WY9kGC`zMP1Cst>tS7>T2?UW0C{#89~5v7!ty``u0
zy{6$o;w-XKEVWH4hP8zISpLpx$m*0cP|RB^9ka8?3enZ|48c2sE|*iMsEEN@&tc;E
z385*&zJ#13J)<)POW`1bZR9JO4O9>V{lP)2=>CZO#TYU|bBx(kw(WN2`$+J*BGcMA
znsMyg(}=2C9LEAvCZ}^w>s&0|1$>b>7Px{Ij)PT(a2Y?f=Y!ccf}16$mF@QOJR&zT
zLF_g?!fcT?;p2|PCN|gS;_C`?!(4W}+rdoq%x<~MdnqI=c(uj*6&qh9Zrb5-^TN!;
zj2I+v5+7+K;Yi)D%MFi&js%Mk5{z(gBR{xHV{Su-kf9*Q^zfd?2Y1@BhDnYvS3>Mv
z#@{LKdpM9=<ut^0lF}R#8Io@{#zN+}41xjhR6AY=IORRj?ie5yj28@nz=LdgO`0~A
z-M6wAbJ%^vpOp4YLACGoN^Z_Rpyj*S{lZ{j2Xth7f~77W%0<!#ZFS9>Qzj^l$m|nb
z-NccHe@R4<9F4tzDhISQ`@y%BnlKcRxum&-wcWwsq}=0R>=KT}t$pMBsHBV$f)Bz`
ztO3m}c3Xtg8NTSviY$xV9FOjybao`<4=L;oeGO$pnl{P^K0<!@<ri?xu<^=;#O0DV
z2l;?Z40AovxDUF>QdiS}Hyne(3Mm<2mO6q7Ypy@#ImYLVcv%8~WD-XG@sdTj?4f&v
zy@Orf!adC*{?qg-7edFIi!}E{YoK<pvfG=2h=#=A<#QXb+W0+>3P!}j>#z`fEDp!I
z80s1sAQ<o60aZghE-#J5x3!gvH;kKoRPf7VXEYFd6e%#K<Izt`T=?80sBY%=y1S&O
zr>u(bJ8YgVhN_~5W|G0~JdY?^C}pOX_;R_9z6Sv-hO|E`2-Ik0Yi#E3w{gf+@<%%w
zMYp%l{#K%&P!hOBT^`>LNnb+W_hYk~bGf~g9=j@=W>%ha8|>kO<yb`(Jw=Rf*(Za+
zLh4W!yqgC!_XrlcNSq8rk>K)$UqdEbz8Z)H^I_o?NnX;>$yzPJy04<ucx2y86m#RJ
zsgHC-G><7C_EkS<T9|h>@Vj$)+E4tTB#0B<{{Y<=9{8JX%3vEPu@*loFVr?x2!Z`v
zC?<rq{+>tGT2#|GH**c_fU}(Ab7H8SlajuOp>%SzvBzu2VpAk!tu}i^jQ-(1crZ)F
zyf`T1o$)v}R_-2C3P~2x`W=r264;#PU4WC|q3RhF%npYK!iGAD>Eu4*S};LK)r_Q;
znJd^GaBd16>@0RkRx!^@R4n%fJwsbg_{GJZ-ozzMptPFMBMAq{DB4oPfrH&wHv6s*
z*%c5E;{`uxRiNj@*&AzsP>!K^c?S0K0&697Zrd&G*py{GLAD$m613tSNCKvWOC89$
z9o1a)Z-(RoTj6RyhU+<mgW(TS)<{T@0OVscaITExL&x`1#K#kHWj$R3n&RllKScy4
zMjfsMc2%qBH$<g?ax#}|fVi`Qk)%C<8x-Gj4cUZ_&|NZGD!)QNTH+R$Pt@BW0JvV<
zEScFM$RPH@;A$z3<{OWNESS`Sn@6Hk)E0naeec@pX&*^a!pf+c@JEcSPM57Yt_^u0
ztqm<~RSo?{>yg4xV^Vtq);f8OCT%)jotIhpFB|<ji1X!NYBe*!ZpS*`RY^Xj9Y?li
zjosH)DNEkOnn3S`q!%;X5YJ#Yu(9}48;2J{`;P@g=?FJ-Y`POAO%XUbyrjkmHdF3n
zf)=C}i?v|bu9TnD5b_dlVt!J!<lz44EG^1ps2}V`y2m^xT-fB@G=YBq0A!-TSQOL;
zvA&=N<Yw4JMJ>ik8O<i-eUdWm7FnwTECq<cQZcP}dmy8bfDRPxmp^p08ffXD1e;{2
zeK$1yu#Ic3KK;`-4cX7xV^}fIDZ93{7WkU{f`^(H4*VYLCIJ~Mh_{?6ap3;wV12-M
zQ+>iFv)NqI#$G2saqq%xaLp@&8rfxW@xWGeR1-bIO1GHDJ3z|N(zc$C8^aK5zp3Ko
zQcj2z6q;2#2z_*}4j;&^W2j|2cT>p=cJR_Nl19|X_fI1mv-+GZf3ga#_jnNoi+46?
zK{jefRaaM4RW#N}*2WLDp}0rdhtb_5-sg4=lW0IsR2<f_SsRZ4Svr(ydw0nBDkK~Y
z+gd;JiINqt`ma8bY+&)Z_bHOl67XlOxF5>c%ZWwCCE8_*oz0AYFm69}lIq^IhK@H!
z1depz7UIUmPE$x_8#GnArkAEuA6}XPVaxA#eXhLosruYhi7E8q=rj7GZLYC8zfkJB
zgv8X!=L5hYRn08V0gZ}hljLm(ag@6cB_HBTS5*1tbKfT7Pu!uUb%DLcJCy$bNI*Y`
z*2eSOlC)h9(R!CvR))hLrA`f<Bb8$jTeBv?B$9^4OP$~gm7~+TD_@=_)lH{Q949`c
zjt$4quVrqH(;tWQEs^xpl2x=^%Q0zjKLh^&3qMy|sC7+Otofs(q#vhq>`&QcG~FaC
zjV+n2C#4wK2Imdm)giE2y*EXuiQ%-&hEe@Z2mF+7mq|}YP{9oDsFY)K`2Cj7hf$}9
zH~mGB7LMZI@T27UQNtUMVHrzEr=y~+WL9%*;yW7vv>FdjS5!DYNm;b^V88cA#noLQ
z2G;&!5dQ!MGD5e9sHkL(zKvxpkstlIq9B#v^T(Qe+q0#qMN&e=pi@(`{-UM`hj8gY
zDEbOL7T%mQGFNxocPS{Tw2Gi7Iy51~ez_V+{^<DMPfpuGO$;O80Ik9ceu>*46nb<%
z=dc0f;R#u*>2&NYf}F_y){fy%U0+Jv%-JOPV^D`tkjH8*IjzPE$OR<yzhD0Vp^=l;
zwVi#hbLey<S>SBi6^~C+>w29imr&EcB<~TtD|%fsSJdS%uc>4)c4TiP{{U<&YCRf?
zjozVjvbcG9x9pc58TTVgB4%#0K&*3vT~92{J-tgKXgYd2Si{{-ByK$a01&$0y3>Ag
zD1ag`gsawCPQb%*j!ZDBv2DLaCaWzTpAV}%pxgR^AK_L%RMRS{%iXEAHUV-N9Ifi2
zrm4H?ViOPPwbzz@F?FOm9-e44+IV7?PiWdQ3geb(<C4dZZJiLtr?;YRsOr53OeN91
z<d5fcuKxfFE`JgrtajFFHO*lDSm4L*7E`0Nc=fusR_f1^pp$*4H(PmnOIV$j(i=^t
zz~AQCcOSC!aef~zRe2=u`p}Z{vBlI^{{WyBJy}Um+d87D?H|`0f&S=rJ6hIQS)*v-
z>>vBG06)qiqolQnnq4lU*_;i|_H7D1KdY+xZed7Y84cuvb=Bj3BL|BvZ8rY^u`+p6
z$f<Nl-7Bo%fVQHFR!3~PkK^vCWudNQu92nAlKjZ~t1Wl&hDohSPfhu`U4SoP{gt;$
zbhl7-ApGTgals44#4&)<2h^`pKfg;yHK_Jtb$ugM)S=&3G<#c(tRMJVkHbwyt4F5|
zrh8)zIV5B)#J`8MQBoGkB(#kJ<;G_J0Lfl=)Pq3KrhPnmyX2DO*f<~Xg{Uo!T>3A%
z`>bZFqI6Sgl0EkQ3^)tTG>Qt1b5d(tD_apcFLGq8pIo2Q)7WGL*gD{?ri1uztFuo0
z$NHlnlngLLZ~LPaPQd!4Y4m=T>1rxQ{(d;6cp2X%$Lyi4)OtTiB-6(X4sZVenuvdu
zl|2jA_0zeAt~jCw!SX)azEorIwr0*BtaTkQXyu@itmQ9Ch^XwmXI@1tzLgy;wFk3W
z%iU3RHnpwl4%#|;T3EO*k|ScTX>0mRqUnf?($&m6+>)Wvwd$U;)*BsHrAMW=`4~;z
z_eJq~<*}S*w$MLDGJ+rajc!<sP5wqd{H;vCjD0Vmw9;uhWJSXpw&iSFN70&YnX)=s
zZQF87ZhyM+FT^)=jIunonmyx!)_{Mqgz{JG$T7vsbPv=$d9L+cSEme(rKfj;n=Q9N
zNkOAfiDm*v@?1|Pc~4BsM+Hx)B7dMeJC(Sl{Fb>Oii#<t0>F~|CxjdRA$1<hZoK?a
zj6(Wa2axMni>${-_01IpL#iu*bnfm&*P`h99*aRr89tXBu0PJ^2W4lv&rRv*>EAT;
zura*hfFu4hhWTtCGLx#&Rn(t|de*S-%V_knOb;HEcR$%-bvSz3NgXWOKA`WHFok{4
z+Wi)rs+Q@Y#rv>1vh_O3j;PkC!y?nm1BM><TkfO9f3{PfqvyZ$?Lt{Y>su^Y%O27S
z(`g!;G}yx#xw}Sg)#;jN;iIZ*MMkMu>18JVp6dX#I*&?e)HHXiqKasmG9PRH>1T0^
zVT(>wc-2=`)zp6m6D7|C6lR`glAO9}rDTM2b$_WImJ-^63RtCSw$gH-boAmdT*laV
z3&qdoWXbyDRCYrYW42&*T75=p$44}7nmgZc3fDsqp>3jMppMyA-|AX)H9(d~P5%H(
zTYIDAmcLYBi%ZjX6a4Zv)?T-QrsABtIlPw@(U$5Oy?aoN)REdK-TcqRkex9>7LQih
zD=HwJ#DaFam3OUlE~;X5)tbbQkmu58_*sF{`n@@Hj~<j`JLNcC)3og6k5qehl@5Wb
zP~I7RDL}vzSyF4AJySDZ6m?ZwK1SxRCXT9FYLOFlSlb{x#!B>_jy*+DOL4Bp7(9B7
zy4>M4v<9ahm>mwisq}P44^9f0ZgBPte(4$bvjLXx(j$rY{ZZj(KND!R#?)?`R-v7j
z;hxg7x-N}ZUe8XQqM}p$tZ*t^?dg@{_Kn9_eke~<ra6?d5J>JWSC31r>NPdQ+D8(9
zNgS_4py|${(q{b4S5KOVhauToS}k6lrOj-eHBT1YIJtu3`z1={`v<7#^PMk8)iqMq
zhzubA05NVBiVlu_6GcSQQ%P)_8$0{2LaLsL^cRMvmYLzc20qKpb=r#e*R~(dwpKXu
z%waX-x=&*M>03shrs?3WoKr+1550!q5BCexbl=0RS@gnI*2C$XmJ@Ki*P`i}O4i8e
z$d%XyX!VY&>OCqwvB6d7+YVs3Or;gx%~E{@>)ky|p;Y>{5l0`FwBc1&>hyvOQtLnw
z!$G>Jpwxf$Hlo@((>r&ccJe`6dVj$^EWkB7eL_}B)3`U5{RmTZH8;B{`g)SPQ*e9g
z9_Wvb>tP0yr%}gwVq@MpE=#3#9*?6n+GTW5`q2w+7HKOh)qPSbUiN9QO({GEi=>pI
zm+ExGAJ}(LYMN~vPAz0i@nABrhf{}G)!7VD#?Txtc7<70p!JToQ+80#97mGj*=#y<
zpeyw1cFiN3>H%}Pwz6Dtl6>S0vyC{TQ$^6)HD;P5ov^j!bF?gWx1?w~JjObTiD^hS
zYuEv4`zPzV-nF8{=DE?jA&fsG?5VU3GJd$LBC@6MQ-hZSo35EnPiW+fTuRMLt76i_
z+ox&-k;9rfSj|GGs5+xi5<YV5;J8>2y_&1=v!-+*>(<qpxKH)+-`Nh`8$i?KZ2CQH
zFK6@~LU?}O#F}<c^lLR85+HRt5j1w?rsMWd^+u1O^@gDoR1~vPRJp)8;nr{5D{iRN
zs)ZY!4KrLg-qUaFvz;YTJL{bDCdcz+l3%u%@#|-_bRXcRfv4%w$yUQq^4solQuS|1
z^!}X%ppEf4ycWNOk3Wf;?uQVkhN#Zo(Y#$(yRSyMHr+yI)41{-fTfd^oh=oEj8(82
z?xoc<DPQ?FNh1di0aSnM&Y;yQgh9?SI{~(`+`&_$z9Q3AOy_@4a4RFPNkvPji6ama
z4ch436<#$Jw`A1ql=|Fy<D}iGddvs2ju4b`#>};@l!K7dm3uy|Q>rvj&Rptub8&lp
z3c5WL($Ar7Of|I>RX|+1kGQ|ku6ZQ3b;c>J9nqD#y>IYnAGD6r425;6X&p%UW1CV8
zbWI@O5K6_->Jw?TrL@|dPL?x=I9qbiOZb~7<v%T`yJUj_z=t%Z`4f*s);g6k&tIQH
zt<&8~{W=F#hV5mV1A+R5iJS13Rjq_odiWyyIkL{`y-77jwd==yx5Js;ZgkGHnCX6$
zl@4RJ*cSwml&CUMPK@0Sfc+9zGVFA$IR^z1KU7q-nt3Um?G_-5pfxQ<s(QCLIJ^^r
zf~`86ft8Mk{{Z!Jnw?yj5^qpO(@XqF{FOJOJu_qgV3uSm`StyCsOsGwl}_i_T!y!R
zvU*Gv`jt?M@HYL=3(<Nf)alB$PgP9F+-yBa-EietPW1XCENyg0q;$<)VQY0iP#0mq
zgl50^Ij6dh^VIbd3ueuB=KkD;>M-@6PgGKeOd$0@&j74PUVbL%)Ku?^iblRnji9E;
zqZQa8ZS;Bel~~@Loz#t~-qxEK$x`YX<srPW4@{GL1?JTnteUS<KBiY4vOjTX<CUh>
zXy_)>{YE}W+z08p=6Lx=+0z*`=>l~ottC`tu|ISB2ArX~T<VRfYp0Gzu$&i+D$N?2
zX*D*8jmr)F-Pf*ZQni{`6%>tqhjIQAs>E;GC{~N9Q5d~Cn3`Q{1=YXkj)m8yY>sz!
z;lT+*6(sdOr43YWH}}OR2>L6@I$j-Cj7dvZ9CZ!lh1MtNsftcoNS;Wfw#+45G||*u
zw8q0Ne*`P76IIt9-^)=-3_}}TloqK*{Whr6Y6OBig=e7CQL@z#RD*87ttjtii?mr&
z^krVFKjv$|YfmA#N7r;^1qCkl$mTQ){-k6bOv*?$nKB0p8`j-iWr^*IM*>G;i)k$x
z*;`##9CePSj=ABjHp%5lRY{@CO?sCI<h9H1dzI!@x}@^fIlz}2_A14)SJhJwNOs7&
zcuq-doYHSX>e{<#r*w3K)QDo|f}N%o*SWHt&2Tr^MZ$`QL)B|ueFzK9@(5ae7edx3
zWNebqxtn>gzxG3tu(-10NY*JSX+tN|TI&u&GOKl7qGeQu8a*(V9x;`+q^_a-n_F2z
z(B_ZS8U>aks`U*w^CZ#6BXBry7An)k+U%TiB>FU8hPAGys4l3C#`j={4i=NH_1b!U
zEzXGga*^ADymh^0T}t0g-kiX2`+JAoUg&*ErR$9}nuCloyjib*>0Fs2)M&I?Zp@Cq
ztD4$^9&T@vmq^juskdup_jo5OeM$I0b*h)kO<fdi8EFo<ayl=<`t2Ovxy82q4~*cT
zrBTsE8<xg?A9Upn44~A~#`!Uq3)yS6$T}(U`gQct(@yWxEKRrW7CySJr$lF`Q8wm(
zDL<?CSYEN}Nh$$ka)Nlh)8mtCV$CSM9<igv`B@B5YK)Sc{{Xk@UCp=rE6qNdo|dD2
zpw^b0wc{;bC(wGeWY&Ud9@ZQS@K)%>sWpRfaES0&>x(C<Vsf;4ZCUBLsdm(n8;HZ>
zH~rRLr>E%Kx@|hKuLC=LtYuXVYaC>zs4g6qIo3lzsivlc!7ayPmR0Cz+w8T}>LHFp
z8`>KqRVJya);g8Zwo^1@eutd?>XNTiZB+Zj_xL9%rf10+5#8?W0-RjYMxavDR=%H5
zaWU<?xH(&G6RI^0qMjN_WO(2(Zcy}BN5`+%231uGCzD~kex>d`JNQ*krU>N|kuVsM
zq-9pLM(Rg{YmoI7Y=%LnRPBF#rAyNvhdSn?FsXO&+H+?NkFxrjnu?N^A4aMOBy&gW
zumt@=uCA`rw8H5dPSD<Nz%ZrqsOh5WDqS<f>wgNXsHx2Ci`Tax3lgZL(CcZ56zzO6
zH<r13tw&YS*Ao;D4jscrRSu&JbuTg&V0R-ap_16MibsWN)Vj4xj8YbZ$GKH${Wqwy
zQ;ta?_49DhIbN^S)HL(H%nf6J!3#Y=%|}PnBC8W`V-4~!o1MC`R5fO!M9_3P+6Kp{
z>Fk1V+in8I2UDSGI&DVR#@V922^j%tDK&~sT8z3zG8sdEQ!#R|okZ<u$s=0A=z+oP
zp^_OB{aDeQJ({{0G(oh}%TC}qYe%>(-jk?ka?&;j!q-UN97Tv;Ez)8JO6c`CoYy;t
zhggMot3z3(!YV0i{{S%q&Mt0S^;N{>9Z8yLNogC7rRo}LP4v$o#z(U2%xfdmwaUq0
z(_k_Je^+7mLDx;J>J=LuO*4q#+Tf3Zy>sxKXo8ir{+ptxun%j+v)vg&GIqpG$4MR~
zK8vi-)D~4zO&J_K3x#V%t7{Y#{)_j?3$RFEL3Jjdr^ia~L(p^G{I4R*&3cbWjtXbF
zku{PWkkNvh9sdB-6G-zdW=2)}oOYYxUG!ySCC#R*sr6cTYxxU3uT)12u3@uX;b)sy
zDV?GxI2+)E(~Dw3(>>OwNTr$Vl0eqRJC6vz{WH`0gg1?>+y#lZE6#dnQ`G7n$R?IR
z({I#yT5m&Er>Ar2r*IiJ8Bc}qU$FT<Zj9GgboDl$R_D;V&Tetp38VE*RU17ineK1t
zkShUER%+ZUcFF2so^G3|X%tO>&l9ZYe<4osMoQ5ql1b1erPTFRSbj%h-d3-qe-cGK
zJ81R#7t0m4wyH7i1Lb+;WG{!@+Y5GDUYyk_4G5#Er(>G_ZWNp~M&#Qx)%vYAqgux4
zwapBF4;Vj8s!dNz))^_9GG%W#?xU%sq@}21sbhE#>|4jstwk29DX4up<0ZRn*K$7V
zV#SU<jXaZo=*6-M+Lzi*&9@+O6~3FHJ>+jYhbHQ;TCI|nv(~0{`?&H7xX`-OO>}K#
zL}8B@Il`@_p)IoREgG4y?V2{Zy}?;6Zi0tRt2Hzrw4c=<@|CZXS){Fp_!6|^fL0Hw
z>Sbik42|+<uu;jq6o!?C!A+;?u?mU_ol8*M$pelL(IcXQNZkcSE%LIlRmr<_jdW+R
z;G?LSs8_pmOnGJOUPbPw95l*2tdgfl0!zSd%k$Y==uUo{GfkTIcg4r-h|_w1Q`v7&
zZ9mGBQ`75cqr7n!I{C%|qe&qx*{`E#PinN}O2$P|&Dz`_vJPz?hBuhsb93!*SP5OJ
zZ{Hi<**pVfb)ofKv09T_jm~Jmkc@>ilYNwwn)GbqWH3e<D;inZ!Dl+6dOCKKO*Yq&
zlGJ5=dtU(jtjv-pe=t0KRdDG^^*G%;b#c6(2IJ_uJ~>NBhsc)Mj&{8>cf|J_IDVk3
zD%({ncd?|j_*eShP0t4AOA%{_!lu)!TSq_S>K(jr4YCqX9HZD)M9FjwE*h8a6A0>o
zxNG<;Yokvs8}?Sy816q<7%G~X+H1h|TeZXVyep_@d5A$If_UxhcW}9<EuC27Yek{d
zDE$-aZFn4(@~T;>)5THxSv50{xsK!~I*p_f(ira^Rb#YCDynYRnBF+Q1#0BG1<|Ie
z={D+-3Y{9GV;nAGcW<H+pQZIGB3ub;+HyRpdT&v#(j;tCwZ*s1zslanT@_t0mMa$#
z%2wJkR%P_6pGb(OVPu1wqiX9OY(!g_KbR)!L9#y5MYY$%fKWo&+R|D<1F`O@2IM57
zkz1%mD}$<NcRoS<t>tHDI+ba2Dk&vn#xCJvwiK1L^m>q<Vd=MmEsL#dDYTt#4^kJg
zuOpFbAvax(6>RzMS*NLnLL`ar1HHIbT`u^+XRk}^M0s%KrFw?3qUq2)vZHA$J^q^w
zJx{BryVKpvZE)q!^7=*AG`1ZMpHEc~d}WTu+$s%fi%*WQMKoeJo*Xc>8hit7<NgzX
zyPMek5SrZ-Q^4m)(0-}n+*Pq9Qgi^@KqS9a>9kS88@cxv_LVNBRA}Vg`F++FHpUe!
z70#xpFoH}?IBDc93`{!4pSZC54&B3*(6UBRqFiMe4Wsnyp^|C`?I2z8yOmb=6Dxy=
zVFxWa1x-ywU!~XF5L)bjN9rCF`mHrBbZ(lOZ$_%wh341#CdUf*pk<#gTN6#IqmE|B
zSqohe=GhBnp+i9fg+`Ys^qu<RCkN=fh4a+J>lQeU{{RZtMV`F4npc*e>GG$NE7LSN
zKS#1^T1*nt3bsNW1I6EA`c@}j>Do$~ce<2^KE}YFQQZ~Q8kUhbk5FrBD4u_b8;7~S
zAzpRQM$4$_r>QzBtUa%8>1nrP?ck*6II2uMBHq#AFVgCN)y*%XBS<-Gh8LmqzfL{z
zw1cqQfUD@|ox7pc>D<@<0QuhSD@Uf)%|{S<A@TNmauQBXOJ%XeN1-(xGgE=2MN;Ai
z^>V0Z)9Wf_63tH@@&5q0(UbLC33`SB6{;a6r-!sEO3g;3ILi!8bRC=r`3YeN4>?Ps
zI!ae=Yi6@u{X_m#_0*HV!y_HM0edv6%DrIhF7#h<;Z`%Ls+llu#|9H@@Sakfe~6LA
z7yN;BR_Zl%1hv4la^L13WD6;tBn6{vgRu(Ude>G}G&&;#$@a(vn&o9(LL{dXIu~zi
ze_KXU{L<;6z6izXnbAWbEqf<1$Umh^Qrh?_&4Z^M!9Z8)Qqs!SwWY)!e5*PweqT&E
z)PT2w5aBs7{zySlpMJ6gg_SW#1AlO}{U5Ew`C8KJxA|^zsCBw{H8z=JV;Xzgly6SZ
zMJ#c|@EG>~mjhyqpwgx!ax2m66!kJbAo^Jv^K1G~@AO%{Zn}b^M@3Z`rJNsbEN+j|
zDcs204MVO64!%*9x;-suwNo26huho|V{JW#btP!X7dg=w<N{WX3Ix5e%eF?Aw0~08
zR_H8+fKu)@?6O+uk`P-oZpJTV*%>O)%Ou9sMFgxQv^}L(%R>`gVgYYpP;lx3DN9T4
z(s;iL$d*;bx+z*mj^Q434ghjfY!`*@X#Sg_$Ee5d^(=d*RW_;~+v7REg$XZsu?VRF
zCWroRrZaIVKLsS3#bbX-xE-#c^vMJ`l0f~`doFpgTbRi*I-P#K%_DPw`YLMOO14ap
zY*n=I5tC(ID+{jD+Y!ggOIACa%J}LW=X=4wl;^fN96d(;6vmi190t4PEHs<03#{S5
zJ=HlPG|l%!Fc_KX$%AWHtB$JEA3Yg%&EDLQvRw@6sb$(6aCrDzs@nU|y5`mkrZP?-
z<l=ZoQc%7L$u~JvTSn!(>j~hJSA!El@)kNsL3ZGA*r+`-OM4`tdzeL)ta1m7IFMCU
zFxWsPSw_J2{-6?arWA=otO#;^a+Zr85as($*A9EB8p7l4u}m(>OPcH2;mO;Y_UwK<
z8z{sN;ll+fh4GuXUB4Wy$jU5=SV%d!9hWubrrpst4sOy(9g2oX_WX|_4nsH&GwvH)
zGNW-Lz7t%~N{#nu@)58P6+10skbh;V>CI!+i}Lci_C3}y!AnCU;Fo(3b)%Duu(;Yc
zbzakU@yY^blHf(GQ)p|OQxjTFQ8BbgLrybqqV9|3vyw}TBcqkB62$Y`!Dnh&vUdw`
zRo150QdJSf##KF6xy9ovGa?bnd+^m854}2e*_@ze_A!R;;Sxc)utQV(opa?B@B+aH
zal8JBTWeT^%h|-IvgC^dtiaVU4c7w5e@iCA3dQ*aKx6%opx7a0xd{juHu@tyE02{6
zq9cQJD99YM93>0{_D*mqTj#<J7>vR^C|?e6jR4=mcFW*}j8^(&1BC_b;tyqR=&WyL
zTU`-kp~Jcz7?PdtX%0uUHdgKg0uT_h+7U2rVNQ)+$=c9vE|KtF#keX~w{v#@ET&*S
z5u;huj|6Qzr#P0pBr%Y8HA}R(WLVi_7W!tT8DN63o8#a-ex|D#i=qPpSY5+{%R+1|
z<Ah};RFOKslHTnlMtD@VibE@onRx|6*g=igZ-r|V)RnPpsb~-Wz6zp+?2uia)8R|W
z7rp$hcZ|Bp^c^i2iOy&ZmM`vx{IHDgfy55u!gO;@81}f4^++mQ9da%TUNT(=l9yz1
zhdBF*T-N;C#gTG831Ti~fwu(;1&%L{$>S?R$}~7g@y>pVb~%o-ns&T*1w`2+bA8~0
z<RpAxi?G~z3pAJ$XfiFby3-4IcnIjD4YOPT@Ou?W46?xM9Jl2e4xm3r9|wfA8w;$a
zk%sMPb9;m=GPfawwd1l^YHoxQ9d`F=Rn?k}Jo0agYaRyxrmF`c*hv(Q0(Ow@H@E&&
zGr;DN?hgc95Ky!=jhEXcw|7L!#|svcNBCOoDG3{%J+5dV_9=F^J8$$Wm<_IT*(1Y&
zHaA33<%OejZbh<|Iq(C8$CTDMj!nmvC#J{beZs+La~#{=H|06A?sc9;#~xHIithHC
z6(i}KS$kNH>l>nWOxF#M029ITp{arGJA+TuAw-Udox<b6M^n`emSNo9?ROy~i%&x-
zC)ooUB>}Pzp$OI*x;A?pWRBmmfWA2$aNB(p)b$Qv+HJSNMZd9YdLIpD^KqXcMJp-l
zZet;j<b#FIjgE194X@cm@Yg!|4jt0yb!0NKNZoC@{{SjVSC{)ZKhjq@(lmRUxxRcZ
z^u(4T*Z56hvR0jvTIMs_{3+b|7=6QO?BT)~xy|;?AFAIckevjUJ6P~yJh8!NOcu#Z
zk>70p0K+GT4hrW383y2k!5z|6zzln$IR1iv!moF$8-~|8w*FJX)j@8{H##S?Y>fn-
z5JWx+3!`(32V$KKLrJs!j{e0+@(*Kg{`f`g3$Y@aIe%S&@KlV6uRiBn$HEQq?)Nm0
zs8Yiv{gP+ymFRS~bo7CwIfw2OeZ*~$Ty`kNHo%7Dcu$RxOg8Tfe}mmgWN~F)H6&KP
zHynPU{nrUx!L+!6{Us4mPWa@oJ6+(Oeu^nh(Y9!>@;M5sNs?)z7dhLn%YVY>5fgzU
z+I;YzBQ0k}eMXUgqKq30SQek<D>Y_LgY@}KS9A^zY5h?<gY;2qT6-#5>WV?>N&L~f
zkFtUo+UJKwCf5#I+<g_z2HBbz^K))g9l_ctnwr^@+(Wjw7Dx_oiKn04XB!^M`%}<;
zR+nziA;2uvR1?z6vSyohHdTz&x+N$$vhs&gmJeggoWt0oqn(nC(YTD>%P$R1%s6gp
zE(wcWz9(M%gyN$@CfaQAWiXQB#?HE{rK)Vr4L052lvF^s+{@dzDABAjg{0uAnp{Q=
z{t%3igLe<@luU0Qsigpmd*GyVNAjtEhb{@RQ9kW)1bxt<h|7Vv!SWMY{iGHhr@>Eq
zaecS>0YH21<FW<~j#fxAEac-DKOZO<o>=SQ&GL+m;qCUECKZiyT*3pz$CT30Mib?G
z*f`wY;Y2L+c+I?mlq_I7PbutsueIP2<SyDDa0m|YQ&<aJM=kk90GrcrZR2r239Out
zWP|RW*8n}FE|Sh3;gy)A4&*tGvS8dtyC(dnn8mC(NE+rF8<2aVHH?#RxAT1yTK@n%
zcqq?FgaX$B5Yxcnk>z6%S&{-<izuBQ+_2l@vLTJJvBADnj*IR-5LyO`=WV@+PmQ}s
zBL4tFiF7S<O~!czG&D5X-r$<eLOqel+~EA6rj5-c+T+MYIfwZT{;P*}kh16v6~Xtx
zYMvr(#r`-?bWPp4s#Z0R01yFLnITxv=7J5+ap824-y@WTlE!xox3LOHq->aYu|Q%b
zdW~=Z6Y+HSIg*P?(g^N(Pm!;V*aRLFcWdzTW9Pay3KE`H#Qn23d}q&PV#Bn0l#(^f
zJh956W|4avj>(Wc@jH7Yb5D-NPEb+|X44C;riQWZbZ60*yIp`)2BAqT5_{t;cVpPC
z1LqYZWWWdZa4C`Ho|C|tgMj{2lpIT`CbVSVCC#O6h~dE-OLu{_*FA_u)X>D@=R^Uw
zEO5v{I+gLrA5P-OUoAb>W?BnnT#>)howv7gh>EG3fM~~XR4~fQi$hkz$N5pqM=UaL
zh5n;F6OffxOm<zg$1GO8&yNUdia<@vK_48T<DBhj1dDd=iTuee$v;#nqk0<FHG^aF
z50zVAOd9Rc@!?o{jgXM%fqpK5t!$8zN4>qmbz(XzcRh~w{>YI~*SBQtH@7#)T@Z?4
z?KVCXa>caRg0mIaj)B>HM(y+6Ney(cH*5XOP_W3yU5-UH(Ns3Yqkrs+L5rq6t*5Cz
ztS4)`{HAW$?XMeLJNZM&46vQiWPeJ0Qwcq<!@M3)NM^|$Fmbevz5CfKT3PRm-M#{j
zSe^yj`xMxvb4~@m6%({g_n`RXY^(!^4(d4^?1wu36b_M(H@?UD9n%b@qzN<f6!=rL
zI-jOW*-Kqw2_3>@<~IxC<son*19#CuG$$@*M>b5D?b;m^<2PcG-fn{}Cxd4M_Ebv|
z_kvs97Aqxq@R(#RyL&0(d{Z|D$HIbmi%t6_q&j0C=}0aCVH_vYRnJQM-r)*x?1B^8
zNh0|RaYKKi>DrqrS!W#Eg;`Mx9R1)}_EDIDZQ5*9ezVwY{D8C~lhG+!CSWW!JgGge
zY2E^4Z)5XteyU>D7W+<B8WzBx83y2$1g>`l9_HX&WkmRcfxU{xQu_eCxx!7u>Zh6!
zdxSHXT5V*?n9P<k3A4YtB+~;P=J!Cbo(i5RoWsd0H2ngEd~R=YqZSthrzqyWIh$uF
z=BEVRr}jd{dLY|!m4t`c!wKzaYqON30<pOhFx$1kT_b!8CPM2t0&a=H<HisJ>>N46
z1TJ)f-s@RP@o)hc@>Ei@7(+&~H#8iMS8ezzH(kFaC#-xA-4i3|ky{6;?`x+c`L1je
zD(YVH3>)450M&q{qpYHaTY62My~C~oDxvY!yL%Z8I~q7(0a2nU?5>h(p%vzHTk>;c
z$e{I&+ff-OyRfB|!Oz+w4+Dba2CDd};4)8B91Zf{{3LR%kH*W|dObQiV(HxzoH;v*
zRN9|aX}U({G6;zrU|o6t08n*&?PK7fd2>Jf;Wqxu5m{eTJDm9?FDJ%QNy=eKF3mq#
z_1>kbJ@7><p@8FS4VEGGFF16LdGD0w`p+)g5I-(Z$tZyT02s#dcnu1W#+Hz>orK0-
z*u6-iU^eB>8BL`%l~pZ<oq_Va*arDpK9=b?dWxLQE~4s7e<NcqD#DAT;M27&g0^#G
zhYDl6`;_S-du7K;{uNaEZPfanzM7JhdyIR5c?(lNTj{h=4F{sAH@%~4stb0pr_KAU
zrEg3PLCtB^by?VXWUchu{#DME)0DK4wx83JX#SZ%2-B9ILux&CHk(Lmt4(gDKl+Vp
zvuo}R_yJu)_#y?9(rsn3*uVs-==5EY7eO2#59X3%WCcVOCS9#{JfIxxb;8eD7x`>t
z-<6VU#Y`#3{nA{Yx{j)ruAm6u^vEW|+!9LKCONIDF)_s9m*@6Rijo-~3^dVO>OlS1
z50&FX$c;$6B;mAN={*T%GN)6nrj3U?L%qd%FHC8=UY!$N1q0-;#I6`W*?B~Q7C0B|
z^&7_56K~x*tEqaD7=&~hgs}$jHxvDr0`Mh^_>||*v)bzQYG~VMInD6ai=brICzNcY
zr7kCjIi#;D>0Z9on^Gg{DS(K7?#UI0+=c6XIn)|1qfQQ=snE^;0MRJ_01G^BKhH$l
zu7ste*6NMqsfs52vex?|B+~X<ePolnxMOyO9;K;>8htYPkN*I>0^hpxo~i4~${8HU
z8B`sA({KDGo@{v5m6|b>nd?x}mqY`q3@jh_Su#yeO{PAKbNa3v*xh&~CZX3|PgWU3
z(+dg9<lF-EK9%X(y(BhWcD5O&JT-)<{L_-;l?BBuHf?3p*ke0s_WuCf;;LOBbcBf-
z=M&{v!vLyg?Ym<<e5#J6s?+o;2`Vb8Bc@;&xXCFeDM@TFRP<2ww_Q{8wF~`6hf3k?
zYjRi5I;=fe*BZ;~Xta9Tz31DuGqt1Z!uD>N>5V_CHJ|m}ed20Xo52hJ07>~FZzk3#
zbfU^_DUiVvFc}Lhy-y4Au*d%ZEdKzL{{a0PCU*Y-NFE{5x*u2cqZ=(|hfoKA1FidA
zYi8>nr2M|<x_+S8VERRR^$$^LrjyjHnV{SGmz{nib<G_c9O?;y?QfOqJc<iU<&Hm*
z^m#W|>-}+F9^<4>6ivPTrK<%7ovZ4VCH3<%nS}oUJC~vd^?zANL{Aiygyv}tfgXNP
zHTnlgbmW3fS6r7<tOqeif&G%E+O|7UPLlx9C@8dH`J))B4bJw*Z2i@pPvQjR`fyZ9
z8yne#g;}a~oja-9N7MRLlO6+hZzv5q4PLH6CZnXuNg2s6fV3c_-)7@mEauj_yIwAX
zN`|(qp3QM9GpqDZS-JkMrAH+&CjS7%HY?RM9dl05C`02B?r7nywaTf~wZ5Y33h^6v
z!9>?&i|%q(lXQ^VOJ;wfTKyHj#0ByX82<n(RX<v4P_t`2c);TX{{V$?Nz<B~bYK1?
z={mhiqTlXJ;cNZYC#bZ~#L7KIvR8D~O&kFK03=|ve#(l_oc@BxQuQ{mRLVM0P+uXl
zL#{5iIw#@Yt6Lwbuj{R%VdbFT?6b7Gv;nZoQB_phsH}DvfEPsTU2CY;!rDe1%>vjt
zO5f5Aw)+k09+dn((jB&G-KfkDCPJvpbhq@h4JGjp>)hY~`k}gRhL)>TH5#GV0pZ8>
zEsnX=Fj7(q9VRwSAsawrK_xtJy5%ST0Hh?cQ>rLgOxjp?YE_fW`(M)%8w4w4Wl27i
zanZ;9QVqpLRibLuOm$wNQxz)+y_{@+Wt^;)kU!Ikdb!)*(~OXsqP+`myDwQCMRjXv
zqLs6>oVYWE={+%_3VL>Xn-`m#FE`LN{W6B1_-vK4cP?QCL#%a1p;#RqG}E|u3{3|Z
z>=NY9OY07;(mHaH(aBiZCIby?ua)7N&bzAhhN4*<#yWCr1<|y91=Jl+dYWpQOW)lb
z(w4k^iZA~FOX^)d&6CqJ)F06Be`TdBcFdqVr=y|ihccn{d*^R$psgiW;|8q2Dd}o<
zvewQQo9cRYwLHdFY12Fm<10B?1!Jmq%^Tu3$aWN@)QTk1J$iq|Jyq?$szdzlDyLNZ
zO4VwhbX7HSox;Ow%E)OtG?gs@^&x}g60T|ba+U{gsHlbQ^3^wvFR_zrWF0>Gik(CA
zvN}r#Tod7KwSKYuwv=FJr?@u6kh5}XET?Ftq=lq#9tH}q>CTOlsU`mau9!y=$t^ig
zNh*jo_RP+Y))GgldXllS5bKMJ_g;;o^><ck&1`yY2xLR~!!ECMf5M)P(a4@hnz!?5
z9tywz08!Jl76CyN5V4rYWX?%0#ZhhaWh&@8;%iFHHd$TH;_wIEW_q(j>$>`546wsa
z&ga!1@Vx_D{7V9r(YB{??i%Ig+W!Dq)Xgk}O*7iz!8fvllDb<cl#Jy+NNV(TLTZ_5
z<sj#5ms_r#n_Zh`pG8gyb^#{9EEO)VQBhlG%428B^e&ax;L{^%d&xHBDn7auHD=R9
z{3VjIX4Ul@9Xn1-TP1*6O3s7n9V(nlK}-2*+A!d3Rt~4HYiA-FI@t@38p2k`qO?7G
zU5&Hq6%qy!dj!9<l|>C{ZL=xW9Yv~8#A$s|BqIQmau#Dpbeg-~(L16f+jBEz?V9gI
z=@j(tbx?`+{<Y@%&38#?l0WjM7^fYWIY{mw$&8Yh@kV!2=#5yvdv#c5i1{U?eUj<@
z4e7`wb$D?dxd`nyt7)}qok-d`my&E92)feHbe^+V-SNXKBjgtg6?|$OY@FM=1=2cB
z3dsagYp$eoashRLD88YVewn9jElq57Y;g9H@KE}PP8w!A)YYE^qxoDgyvwNc`s&R<
z!YiKkw}<XFDO|B#C9tKFyDw`xk8Ax#Ll_|3I0Ox6;%87mJsN7cg9ZR)@QLZ2Kk^O&
zyG(YV4`G|AI@eIpXaSZ!ovEXf`mAiUl4{r^7FqQ7P-(i<te0D$mD8Jl7k58p>$(oL
z(ezXz(Ll#EcOvWOO&+qpRg3c!5ku&MVh8G4DtDTiQA<-z9Q}>%96sSH<iC!B`1?Iy
zRQyxZXr(Nnh|gohY`^$f{a5iuy0jRn=v@ZvUPjm~BwBS|j>lF}Nf-d-j?KOmKDAlY
z+QIaorVJbs!C<q;C#PmkD6s0Wt7=blvQ<U_&6waoMs#fM(;6CT_Mar!6`9le8>y#o
zmRgrLzFlRbq3L?|IjpLzYqtLYE%{Fvd~2XNbJ8yL-Bw!ITqb*+i(ENH(K=-fRa={0
z`8FTYLE!wUX6f3t)9r#rI1&0zS7}u((c1Xy8pgQy2Pxv$bS$9JbJZ@V(J2H_nCjtp
z;lm+dqNRK49aT*mw?6w=+^q~0bM;MI{{Ssk*jo|yhvXG|qUmqx>c-Sp80Ok<aFMw3
zvC?iP4y&j7!QfX%)3uL@qb_S!OI(_|T8~0XDQV^h+#b@>zO&Q+02TUvIzdeH7?2BX
zHp26Mxzse>b5m_pG?7R_$qgKRlSxIt)SO#Nq<J?_^uDjE5FwOB@bhb}6Tc1SWF}gj
zMEZbU#nxJ_LsX-u)3>%3#_%jHg+Wb2tLyU;{X#(qHUOO2QYk%Ao3CYdj~n5vG%!Eb
zAll_@q3I1yzA))(wls`13?^xs12i`ZfblEFNpjIs{vgv+#$c+WVIWu$g}6dL$jWp7
z0I8d)=sg{cBDN>8QT*+7uCX0S)0$;9K@n8US`Tw|u<D+@hG6JvXyh+Fo&Nv}&NUi}
z`r7dM0c>vO+=VGuq%>T;htkWZ(ZVBmWYLc983?^1T1jUwkTvo4ZS7^F=)RiK>h$p}
z(lSX%;mCbcr*wDf29BQe@^VWZf|W(tMI^S&?^0@7brAxXInojOdj%g%>9chWK>XEH
z>7hT$-stUHq$w$G`DHF~9nJp$x(c4QEi{HhDZc{gqXeaL*k_%!QPHcPK+^hlpYt%+
zG=MK>9F>XJ`nA$XSp&VG_9&fGPuBHVgu)qp5-{U?DhiI4)HV|s4n5n!PdUe~h(%6|
z3TM=6&<9fL4HF;aaj{jJzfWsTX*0n2JKd(}&X&+?TQ{l$np$j1^(`){DoPU-V_M(_
zN#!Eq#-@)G(R50~QM>)OG~hoMS~ta5_<bit;O6`*UZd9Zxay2eg^t{CM`b5XQ@XaH
zrII~>_i{-$^inhfqUe<dqB$Q6<J^B+o9+G9+E{9+;A<z1!Xd$Dxu@>7{T-!46gy<8
zjqM}c#|}|i_K{2JIBE4%@(<>Rb(}tlTTN3#Z9Oy1C!=$SmS{a6>3cAK>9RXeYXF8*
zjxKF~y4yAFZ9k(@$j&WtEJ6=Oi>G9-G`huS<(lVvU4LmsTzVE%`!O@pYE{xTv%w*M
zW4m|vM6;*0`ZoHo(>?6u*jao2gVDV&3{9z{tA=)waOS)?6mF|mrRmhJia^_1!q&1$
zNwJ`p(ergoI=jWBq;p8Y&DBL-i&G&x<H78`UtF$(^DlKA4J>zd^0RgIAnp%^+j+5R
z1q-FLJA-dVJ5K33c|qM4*K={%Si{jeq;71KZ;9i#WA|E)ihT^VQbgLw!;U=}yZsXN
zl(o78nNvY4;4eHJu&r%71EsHFdKQyAAPuRf5KPgRH-d-iI*RHzh=*x&e5~6)6Dn!Q
zW}{5k_AiL@_Enuh*3|l>1(7`Gw{&F`_J!vCk?I=dT&;Jh5pf6HS}p?4&rMreKQP*P
z40pA|R=1;cky!Im9P9mm$Xlo*f(Gq;aR+w=ysm_$TOiVI&m5)ccT_#HJ&pi&{{YI;
zQfPFLwW3&>2;f@FO{r>d($*J>Mwanz5xqO6Qfu`hq9+zLw!^puXxq@vqq4I}HS`vi
zf$~OM!*^h-*t(}$sx6ADLFu&nqkAuZy4}+B3~!_LBB*F}v2d~7QK8joyWb!WwelA>
zd{T#^xbr4g^*2rF-A6~h2gyxV8~Q=JPuY2;4@1jOtr)ck%cE)Jj1{A%*Jp;Y!a0K)
z59x5_7p!$NMIn*Q*(mOE3K*2)tZb5mv|dp3{*g;Y*GC*|4IJ52YSq!x63S@_Xzkf#
z<?CO}#$arlAA1qmK>6!j!7QwCW4ny1$;s@JNoclyviC|iN04#><ua#9r`97chGx^r
z$!qa-UL$mohd1?)+#{%DWlLL6y|KzWxZt4Mq2ht4`dOkvDq%MqNZf^IMbq>UR0j%!
z>J9=E^SaF?b7|m^xC3u#xLRmws;XcTO-ManL)(IpDbJz5SoU2(S*5atu~mrMD@B92
zDypCH7gp2t7g0f8`RN*LBb465;Hx?~^jgXf%jz(Cash8pV1lrnNufbST4bb~^D$cC
z?KugYDcfT5QdE)cT2*}qQEAtgQ<{#Z-reTxC+pc`daF^?bQxV0WUZ)y-=*Q#4qkCf
ztm<?({IrGbZ!INJ^(R!+S4Zhc9@pRWo2pVHZ>DP5)s(bapsA;Sq~hzA_FMQm??<oG
zy*b?2<|FkE>*tL-Pp_|=b0d9;<nXi+X?mkbr*uW`99Z&((A9k-P1IWH8i8dzw`n}9
z4HCXOnEeXBaCi1tIA|&bab-hgidLV}@K&yZiQbz@bE9|iyl}a)By{3TGgGIRPnFVB
zx&D{J=z6852SP}8I4b)@r)1QxhPqKCoDY=Q{{Rf>btufV)g~H_Kp0PsTG=_T=*Wqr
zt*I7v#@~f~Nly4<^&*rsixYgb{Z(~OP3syZPo-M}gF*JlI3W$FPh0tN$lqWG1G>G!
zwnfHwqj8}1Hk|j0O2HK~#yv)5g#Q4-zILmo#?$Oze`%sPE5hiXQTc<kyM6Ks)6;5_
zQ`7oS1d=R4?4c+s(=Q1%rfaqBZ2DWEk@Ap#tl?*Cy01`eGofrQeZ_;E(p5|~1=E5m
zm>qmE-Tv!Qr`OQBAr)jzWB9pmD!x9ISv<Ra9!sn<Qmv?b&y1UuYtkAS)X%3IgJ%Z;
z*j|rUq3N|uCIUm&Zl_MI(x>&|1X$pKm2SHt_t9xVrq^lj5!TX?Z|1VO63S_u$euwX
z7vTd%*5TBxr_^HgK>lvwGP9_(^2^hkgUBIjPo`xiy%@fwX0Zine$%v@k~mgc96F|_
zPD4)O!NsnC*Y)N|@X$rC!7EkxWvl6;qhpVv_Z*X!l_x$05>sV7+8(ViaCAFJ;jSG0
z(4Xn`v@$W%Q#=523i=_mnr&SJ9_Zt_{&pg%x?@VKrP(7Rk)&j}VN2(1ufmsSjp$Xe
zO4ixUd|+lbjD&q;)IqK>H)GE&IcZuhq3B8~3bQ>s%rUvw_V9zL>9+n~)Pg}J#z^5-
zE1u9CDV}YqRhlaQ0L;Tq-Iw>oa?-A;v@Ve9+Hp}qEShz7zlj$BpQ4Xn)1L<6EMT=#
zXw%bE*EOzxrtR2u?4>JS%Y02MeHxfLO|&m$QMlum4(k5^{Sty$171Lu+!4wOoW0v6
zj(G#E+}sj_msNZ<Mmo#2-JA+!xql)u{dzjHrD>#)weZ`)2(1zsdVRZF6J>;-a|q=!
zqPDS-er6d=k&O93%hm8Y6CCZ_c)-edMMtJ1l%?7>@oODDGyt+jK_UH2a;?=XDN9b*
z#_)JJUT0HZO+9z04;-}MqS+{(G9h)_-G`sDFK7|$pI5G@Z05~iBgPeNRb(}c^yFYZ
z9b~k6A=PRNp`5&fa?9i^S9HBZQ5~S%c~e;FSzdPNrl6w%#f+Xt2XI<Z`dvn+pw@{W
zBcD!tjtUl9cThZ#;v6||VuG&LA2ec}#DTyHxbrT(lgox(n+~VfDs@dLwY1U5!rO<p
z^#$Y=@>Cr~qG;W^_5>}B9aU{3N3OymKc(#-<yLDYt(;F_;B#wonprt^PB{3MI#m^9
zwBU%$i~}|qANg8-o1%@)*y%3Nat|$0ejnCLGuaEGb6MHMaJ^qk&?sg8KET;rGT=W~
z)o@Bm>77u%(TSf$mu~1~X<_VCL9^0;M1HGVgNu;0`p%I(5OlF!tsJ+q?E(fo85|mO
zp5Zn=BTdPfN7mBRQn|4fx=Us^43DA{r?p8UoW&c!BbGaow0%#~aaL7+YMH{CL6BR)
z`mBDbr%y#Ap8Lw?oVlkX=(CDjObhCbob@qOL>(hUZtaX9q<m(<k^tf0s=W`WX`K(D
zTG1#N-~7Ys5Zyrdqi3y0J=$|?u8eD1BR5@yYE@L_rIjtu0q8w8zN1a5j!IbxiO1Xr
z3o}uu%Txm;Cz}IhdDBgfCJ1Y{JUHO+RI{elve+84(xQ%^R-nAz^5Oc2WtP>bD=1|@
zmywTPQ^ilIY42?Mbb;_3n2&S^R905aN9%|rrgMK$<S0TMx<#ihAn|Ihh1PiualvY^
zZA>+E&JK74aefNOvS!x8?^K68e=y`IT|Gn$0k0*irZKHEnojnF*I=LXE_bJ9`5n<6
zDby3_wGL#l`qc6fyUSA@s8!7l#zbU40^};GMMmT5K=wQ2BP>v@0y!mTusW|s)iiTC
z0__+13(tD8NGaN7VG_rGYk{!}qK>|3N2d3=t#$|nHn-5IZ>HCm1N@}$f`eYe$ubQK
zQ4g&xsEzMq@DAJC<!yADW2MXMx&bT?AFOs&Ju)e2+}2G4Tzfj)FG<p2rIwRvE%e+z
z$<`$&Yp{H>imydINP@1B(o&W<+W73Kx?}MItEKg4K=(M)Io5o4#k{K?q0`-_K1ryj
z+Q)JM!t?E315+t+kK7IK<s{&f*kdOodq+{nq-)eI)u=Xt@C({IuQ=6e<)e_((Yi*l
z*A54SKSb+NY4d(cXO_VH1N|re00_Raib`iTrY3HM$3F=;uVIXx25B|VbWDb>D>l{+
z?2Xh~+E`lVJNRzws=9Yorj?r?XAbRmWpP-_N#VUTfxv$uJR<yfy{0sLhaSo|)>6Rm
z=kfiM<eN{Go5LCb<=mn52qN3GfI_E*#+GkjCNs+pK?z<ax@A^$`$nFIu7#f02;Uj7
z+Tn$Nr|OgtxHJ%99JSq+9-fvuq8+EX-l^uC_WBg|#ASj=oaaR|Icu;`h8aty8D@g*
z8lJ1^{U2V9l^S%-rmAjkGS_?%sdW7!N@>L%Y-P^u=Hz`=Z}U2inOMmoo$iMBaQI%c
z(d?wwshLqtD`b|#a}Oa>E^yN#;|c8<onNE9N^i{2N&~>TZMjrBbW+mP?5W(sKFil@
zblR#`x=5OS!yk2m>iU>KaH)tkP(M&p$u!DFEe63={{T!FBq!t?t~&J8gf;S=y@^=;
zKU-r(i6ma%Pn1mcEUIa<!6&gt;fv@_Z9STg{Z84g)<51j7gYMbqcvD8k$`;LD>*AY
zH~#<(mX#o^m{>Tv{z@wdK2pC>)2}HY+1^5ioAVUz+na;U)zFq1TWeX~P*pJyN$urZ
zg`!Smk=9IF8zf=uJ`Plp{#ot2FnkqS$#%Rnn;yr?cHkZLOYzX_Dq+!7M8^7a#3YRO
zx4Ehs$^p06q?Ab+?c66(PRI}O7+o3oxd_?X$1~QZ+x2e+PD_g!OOhx}-?@&sa6_6|
ziN4FLXVfq}i6RVlpDHQb@^?p*+QAw|<@Q%kLhnm)xd8=d#_PA;Zz}nfPiqh6qb(NZ
z*98M!DWnESUIU2z&|gdss}o7pJsE?Af$r0VeC=`>;Cmi6lG_E5EREo9Xt?f@S3Ruu
z5^dR9Ho7F`V4Xo}BzX>5@Ep>u>YC{;9MTZtn1P>gPb*?4K(XAO5g?Y14Zey-Q-V0K
z@TZP4!Q>@z8<7TH+~qa078?RWG{Djep*iqWMlemD-`ND1T`|zr*a0sdQBlsu<Twy~
zs`tb#w~^SW>{-ad&NgK--QI+r=D0E5J0az3hXDs0-F$GSZ0`cZ+<c+JgUn-yBG$5u
zmv<OMmbP4jVxy6!K5~dV1(0)v(2Ea+J(@+^pM@hKYuk38vJ5JTB9qhF=HXn?RtXx{
zU)<l-@~E8LTlCpQOH}%Ku1*y^e6;C<J}Zr*Rn#O;40AU)u~Y-WD%vTTQA2}!4i!{@
zwZ*3yUC(D4L`AlEJ-JS+Z?GN{*g-i&*T796dvjp7pp}%o{{X@!XILR<NAZ42o~VY5
z;SWG=fy1(L0-h|n2-gDSTnE2oqgm1m6w)r7P23YtHbt0I*rt#QTNCiPmT9pl7-5CE
zz)?Og2!~wXut*#abhKbg5p?Ui{GuHgBMF8w2*(^DK|(d$2L%OeLCwZg;e><okhFti
zm4HJ8BX1p)f;$^_PmC6uc2bu6IKnn+Ba9XwghW>RCNZRht-Bp-VKtbrV;bgQWixGs
zhy*C(lWmQ~kvrKSw*_l51Ck=wZfa641I5Aaq<gYjZV!~!xEq6l1})udptWR_^Exu$
zaU%YBR`l|=W?#CXjF5JpDC#*J!Uz}aeiBVuu*K6Ynru0^@VVPxz_CgV?Yj0#TEhFg
z1IS#(hzW3Yh7Xl24=--l;lqN7Z40Gt=w2QNjF6ig5<w{SVn0<mTG>c%Oo+6DVhF!<
zQ#AUPMkS4|Am;7JD#i*X)eDT{j^RE!ddfG4MC-@gUj<F%Poj$+%E+N?#?m;(`}1sl
z(UItzop%f0f;cM3)4^4n2;@FEDfIO9+I--;7rqn7<)uzpAEK)oDysT!N5y!YZ~Y}@
zb&V3fh?iKoz3ez%)1`h|t)plRasEdfgzaZZr<Rzp@id<{%98SB7qI*hXN1u{Yz@Za
zi}JL3eOt=}H2}5UiaS~9*kYK;3EJVCTF3}q*xl&Vw{v{=3h~ONvQHC^gXNYskR<`0
z9ymroY2}TrnXMrHm$g>O7!eY}C5Zn3FK~kOC8YPjeMpZnyO62LHK91sb5%s>#^~(!
zd=xA%7!DjJ(d$gTt!DoKPlWo)nrQ{t({stX%O}|16MY0UMDKG>f4YC>3`Wlzhm}ty
zNsNaz$-`1(o3-cevz-BBvf4(|N-oy`O0TJ4jn@Z12nnkhbLq)q5R&RAhd7m-m{dI%
zl+(4&&*~rD9Oelbx;}e_lWlW(y{*Ex(e+lz{5iPn;ew23V3s=AYs|6OJb&<_Y_4nf
z5Kq^YX}URCVnf^6!;~?GH#oJUKindk6KHf(HSD+`p6RD;?$Kl6Hhn&5$esd7@VEl;
zVhbPK6_t83364PTYq?O(6`i;MJP?NuEPb3@iHboWvrg}VjS4y`HXn9Jf>YfTRUnoS
zNEvD5A?5bqrodX~mo?_?<FQPI=!$xI7<t^^@RB(sh}q4%d=yZai7g=i0Q7+W04hm+
z7c%DA2r<zFMkz=w_PI&vhYMgIC`qDxM|^I-{i*b|v6l$s_B+WKDssNi@oU*UMpoIm
za2$C=ifHPG>n(R6-pN|ly3PGAJZB0i47Aew!D#I6LWe6l6hmnYagRc_Gb1<$$Izx%
z>1DB*sbA|w&cc1cHMJqk43^Gnk}2H-iEI5xyN=`Phc<)76s=)0{{RZ@csJUXNZjH}
zqjMd5+zc%N{{T;&zN3f){{S<4CkSG24Gs?;RTg4T4$Q_cwczuDr>B-!ULMyH2XL+{
zC_!!+asCx#)TM{ne0I90ILJ;77jzn|GBvEI_7i~a#T!*iOHl!At&T=Jf;m|iZ*7f^
z5meJj8v~({?Z5JqaFOD@pmS@oJzu8hiLRc7-n2mek;qgnbK-HqYlk4MOnR+Ea*LB2
z$Lv$<V4&35x>&z0Qbr_T_PhT836z|5A$Z1HMs}Wdxx;bV<!wt?>@oHy%BQcOnvPpM
zdw-~Kn@>@;!Py)tt?dZyc5365r`=+Sk7-~rkPmg8qOG->PqkXbCE6Vm!5$L;H-3HM
z-}eO}l!3L^a6A<QCTxt_aPI{=`&+mB6r)+rk<2#-3HORtjO{)=s0r|JdnRo+yl3jv
zrew~GZd!Zs*>fFd92SteISqh6WcPsKaxe0>&DkqlNU>1N&>RRmT%N}4Hy5&5OCAGU
z1&;{Xs9=6Siap(&IZqA_<O_LG7D&vu-ox723Rw0%mLGIXHNdokY<UUndtHmA*<q8)
zjq%u$)AmA)ERm3RFq@=f?&~~Qu8v0ow%78f4P(YYx(4WG(;3|u`h@nqvSRi=3hz&7
zwn+Z~3Mrz<cqa=Qi6n)moP4B?H?#iX{uf6v+i8FxU^sFSA-%!9{{WdVG(uxz#ljAF
zoYHKpfM|ES+ItYXNQ2vu2=W#R(MI4}ZZ0gHxw3ws8t)+!QBGq7w<F~NGi)v{(y}n?
z5y<<5(mv^}b5H6vca_6?NxvPFSiZ^PlmlaxE8}c}>>xPyK)8Z&gy`mbPHs}rY?bbk
zGqy&b-A4Zab8g)K0K!+7I3DBWM~0MA0UMs?_uM<&WpM$(Ij*vlhP>O41w!_695MA;
zjbosGHk%NM4SvtzfcBBW<RAeIb=vHOJQF(v64xU@wz?pje)3$`I1fC8+co0sJIU@p
zP*#nT^A8M}yIy~oC~CB~2YQjbgZ)ka0K!KEQDiA*J6&#m)+zMWj%gm^=6Co~RL3wS
zwGo0lNYVaPbwxapJ9BP+RHXvSS}#a~t()3f96OFsQ-?FzC)vSOLp4NF2QZL)BHO43
zy3z|fx}8wmlO-*6@az1j<eAKN(oMWB61L>C7wn^{dnB+pa8yiICdNPB&ujh@!`xZ6
zPj||WGFS!j6ybsG_7i^#HAX;AaSpYt7d#t>f_|g2l3470;DqSdZ=MmMMS^z%8vg)r
z{-CFPOn<$kpO6r;Ftpv6?_~OUi(Sss{gSbh3yyOL*&{=n=en3tGOeZ1I3KbV?rf~^
z<sCHBQc1a&ZczUKMv}07LYktT<T<AZPf_Gp=jyc3)xlSZ+5t_UMP#1%z$3zCB>M$X
zMHb-Q%|B&4QiJ-iijz!yV1|MS93bR{;Mk9HI<V|?f+yG>dk}?}*!`sL9g2{#>^q1^
z?XDi{Bg6_sAI-Uj$HIGR-Uiu5JgD6pnU<ewVR$~*01~*4iKW>4xu)eu6N_D96m21<
z%{=x}-*B-<q3o5fumoVGA+mm<VxzILb4PNpuVV~lnHNnny|}r!;Sfm&H@C`)SlaxI
zeM)5PlR65}@wQ7M3qywHk!4pbE*}JE3Cx;E&Mr}-1xQOqMmt?X?XFWcR!rL)Tqq`q
z%{OK3@PUxuO60DRG6ok%Esc%QOxWgwy7yVOhD-$9Tgs9uhctk46!Jm|xV6ylh=KqG
zWX)-XH`A0`0H~*p(eQ2*TS&F8KI%~7TVfFrqBa}2BdPCf_COfT_i_IKDC#GGZ0rKF
zp<R+aw;Unf2))57$i~v!wBO+iD?Hr`vse_Cx^C9|DW#9N<w3FE)a9r#K81OLx=|*<
z3w$=#QdL70JbS}r*asz6>Xp>gFuq?_2<$E!dw*r-T~pRoH4c1G$nrSBLQ`^e5Jo90
zX1}QVwuXWyGCHTpH)aOlFErOWj<Zsg+oTrp#g#Pk$tf>;y~h2}#legP+Z}&Aqa1$N
z9N(a(dXl`2&XE5AP1EKwL+o*mJa8Ryg{GcA(G@dG-HpY?S<-aXMNsv>GfXZnT3vf8
zG?!u~<<VXFnTguc9op7fy#(m7(cY`4TT?y1S(6t~=~@&~%V)i_IDbI6TKy+UVcWVe
z*7g?4r6jaXwhhz%w9*j^r=x_NLrh)$%GglG`0)#8jose($v?Tu>IzAsZJ7h1jBsN<
z;-4!ZV~gu6qKZDkSxI;761h<6S{9-@hdXF{rI7b`2#S3lQE(1mY=g$q8b0Vju4$A_
z-AAX@RzCQWb~%xM<fL~~YZI`xDFh|h0yy@uzrIRdPtqMlR@rG<+Fdq?&#H=08aQb!
zzwTCGYWkk5IU02>9VH`wN!?=gBQ#gnOltKisOzQ%<JOSaeHt*W==A8?1)+_g9vft|
z-|{k&T1Xv~)zZ0ws)~x7cbuK>`vhH0BLhQQsQSS3{{T)~Z@E)d#Z44t?x|!X4DN0J
z0Oe)%Ek%M-VAVy3^KG!Y+^a@uJ(m@MwD9_L(YjZkFdKhml-D|rpGb-3rkWEl&93JE
z0Bfw*Q}v{@<<LP|`iVHZUO*pZiY=<us@*+&g~0F}<Wh1K(k!}*tM%P!#unARklzew
z#g%0QI*cw7wt9%)<*p#B+8PQt*gZHL_x}Le4T8I-pls25+!!sz(Riamsk1p2sjkx>
z;Oe!FJ_N;RI&J>|h@C@N%1tJ=rlIG8cyH8|&C}p?{**C?JH7LibXr$YKsV9qXHRMG
z9O0+-QGPBzaYOQxJwr(RGwOP37S#1;;t|uuu40Z$AKwb{i%;o|DuwlOYkJ*iV8qUQ
zgHO%Zj?w7Vuc&2ZUa4JKJ5Ac@<lNi+3e)O3A6j)aJ7JQ(NocKz+bC;K*dy>lJw+oX
z-?HTOF11wz)tYXzJalX)X8A5`7oW>hRo43Vp*3AqLt%B^eM^SfYKKM1qv>WXN_x9H
znB$vcK>f0%>0Kh0jyFT5z#!gkUJmCUx@CtSD^XT&*)G8PlV7Fjni%LKs;Kq0hPLuv
z%AZBmx`Mt@`36)~mm7h+5Aw7+&raxcvOcQ5hx2nd?k}iuIr?z2)qO=tq|JRLwA63C
zxWal#>@7b=>OPq3-Aar2($Q(rICDJqAbpgSe}x)NV+ho`jMY`&A(9Zm{gpRLYxLD~
zGOt(EUsyl<+h1Y(E1t9KjWS3ZMWfO_nn!y>nn3>m3se^CU{aIUqNlBTUbjWlpG`~E
zG%!Ne`(q^D%gwYdoT}9|FxslGR+t~+J}Aw|@0IKwCD74oFbzjimP)CdHwMV!Kv%Qq
zTFfl;DRlVT4+CjvR8ebeSySl4$<#eF(Ns;N&@^eCT;XFRtiRlnv%O3@t6HZO)e~11
zI9v*L0?<Cn_p5qmT7q#kWKE7Ta!i8@L(^R^qcWY9G4%yQad*aC96riX#TP4+wlt>V
zzf=SGL(w`Vb6Zo?lg%}_iOnE=*Qsh%e}~!xEo2eXQifZY)>@-o(scO6EhR?a2f5Ax
zrBQ0~Q0nlQsK}_5!y&{tD#^a0MJ?Mm^&gDgA*IugO0Jf0Kas4nzp@FPYpQkhex8%2
zh-gW(rh7?0W#g6q0EZPqPtM5<FoJKi94${y^+cT~r+!+Q-jjv^k07BPKi!Phzf*e`
z;a-h9{d$_3s)<O;T+r64Zl=(BH>V<To*FRrkLGR4%S-r?)fKXlPWj~B!*(3~)=#Xd
z`omd>$x-=eT66qKEKr=EQASJu047D$okye1F@sN`h7wLCj^q0)zJz@w9`eT2RZ0BE
z`A5R?mURBMD}-}K$K2m^a)K7~Ms!*QCi=#oShxC<!SU^aO8PxgdHP~H7fY^EzF9!K
z2O)XJv(_NZB{r2t$l~2*-Gb{UtZVw_qWK1!1f`i61gh?q(RJF*TyFuh1AVf)ZIEr=
zjTrr#>P;G|x*;~FsMAul*(A2^31>PEio(ZMwz1CsU^bPc(fS6iyhkR#tI{%^zx#2?
z&(%lxm($;e+IER2<YtOWwzJv|$tU2XaLVIyq*gM=8B*DXqp#8`wHGzhSHpfC41sDX
zYI;vji+yM3s^uI$LzRu_%_BjrW4%p5)YZA#$D1_x%Gh-8LQAVw80)oY;D{Rl*8<`e
zPP8@qVfqzTpVSo&h|@Y6V11_cb(WG|i0BC6bk#Jio=aSr-E;e)^)JI|w3;C<kJNBH
zf%;_t8~s<Ebu2wsb5A~_1ERgLAVN}WQ3L(9%bikQou;aF9+eD3HVlkz2+bp-=(Qjv
zocbhZ-z9-q%_~RLsHSYJjgr0D^&0Tty-TG!a&1PGJ66<Wjkf(QuvEt%y^@{(0My6z
z?M|7~)MA;C(a9~bv;uy(SS<&swFxKm=;M?UeY-`MqW&WE7fQz0O9rK0*~V-R@K4cE
zbhe!9wkA=^-G|#FqP6}~Q{?P)zfdh%{bu;XrlqWgGm!EysodV7o>s*Azf*CxNnWd4
zORiT?8X-F(YlW_Re(Iv1r0evX)X!H<HMlk)gufiF>p@eEQ(=82_)Dki6n~i3b!k}g
zE_NItb-s$}exImuhPHXltam!#{gCyYZ2CCOJ7m~fgJXq{)jEQGO0Q#NFL5^bMoqOz
z2^7;b8cv_nH9Ck7gVg^3vBJSx>rnKiGzKVRWJF@b@>XJPx-Ob)C3ANc?sI{?m!4JY
zwK}$`>m9-{?`TOLPgYgbRld(n(@vQ~P}--w3p(Ih_WQ3;r2JBDnW2M5Y32=YW01Ui
zNQ$m~D|piCYNO+GBP4%il+_~Cg;V2(j(7n-q=FO4OVbrKS4O|Ce-yfdsA?pS^B$CU
zw%E;;7J)%7t6IZa^RdnsE>Y;657jl+mMtzx8gesYR)Lxhy{G>G26#U%?#+-{Z;y()
z*}1uNdgo17^yf?ItZ;&zqz+qap>@B;N>;JVrKn&7`dYkluSwP?k<6N41^8>O3ZF{o
z8TBC`ZlxSjG+%4G{nXrLH@OXJJEHSc{79#-oU&R`RQV0L%DCyCm8jHQ-A-WmVm{`?
zU3&$J)4El<Zl)uuEp)6P;IB@n*Xk(r-^)W2pY64p+xAw$ha5KcPcB)tOQJn<S*Fn-
zba6(<J);<2PuD$PsA}<=cK}(%fL4812UOKbEkM$$-4V^hZ*Q^>qqGY8*&6zqNf{A7
z=ayuBk(5-}iMW)VCqt@5BV>e46CQa33(y-{?Iw)M_}wNw&MhZDD|e)HFpEzT>H5Cr
z0q%-M3;mS(R+%LPmMv?A^2fIa_e`{BAG6Ig9Yxx`Z>d^s2JA3!y%LvF>Dnq_);ciY
zI5xOW*C5fD$H^|6O-}R3V*_vdFDdFd^a!iSj;45x{{TkowGW$)jq%>imcP~Xpt+PR
zbdLB7B;9vambZM+NgHp6Ta{^}^_NWP^gfLGb0&ST_Ox84>D5&IMXNM=f0LuX>Ap&7
zHTEoR8ZAFqt)7XoF^zE|+lV&^O3t5>vA(r*#F3G1%YUP3Iz)7hiiO^+mctK!x~J<3
zE~lfRl1O@fqDa8Ok3ZQY`BsOIdoT>HrqQH(BA9L+?__3&u2XddbEvB|lT9!dV18Kd
zi}qf1uIjZFdXc8Bp_ZON?C*@UuS5Jbo2MxwYjp}}i~j(sL7&}D7}MJxQ*qKAuXLqt
zGs$@q1D3ur91r}eF{!^vccmuwIA9Viy`E~Wo~WZEPOEGW0}XS51$h@+PT$Y$oKwue
zaOM?9E-r<xNP|zN)%D#)vKU-o2K$^W3iRDNg1b$jVKle);lN=~bXQTwr%|#Y8y^rD
zYlYXR^!HbE?x6sKP+*9WYqyWtI-k(IDD#a_>Qw>TU~#wo%P&1GZEZ*8rG@Nq;E=tC
zUZT;%9X6k-!tin!>=ox){Y&X2bk2rQ0mH*^qb$3oJYWMCP8vve)Hpbd+=S{1eIHPN
z<!fXV(*y00cM7Vjs$W#!MUEs7BP!cLqL)%=-pEDxFBwY(IS)4#MWo#yT}Mh~((38z
zo6Uo^xP?I0O;2CGwUR?Cf3KCai=g_NN?qE1q}_*xHTerCt?2sBog?DbDoldJ4dW^6
zB!7|?@yTnlIbx4j9*5?`Nj3nL8@~@69@*rsEEl*h7YJ<!K-4N~TKZ-=(S!Qj3fjrj
zy11bswX(%=kaE-es`H9lMEJYWUnZz@O*7D*NM~ysX5?jLXfzFfs;gf$EX{@@>=E1O
ztNNFwb?CJd>ee=R9Dhu1$onr${4~*ZYC0h-F}#}#FsQW|JM5*jtD(Io(AxHicS%y&
z<91xvv0du4dRL-<ISg^S+yx(0YWnRR#PqYVw!r|9u=N_W_4}DSj`v={Dt789ZkE^v
zt)=wi>&g7Fc5wL4LbRlWY4q(rgr1Q;**4?_LrTf0^)|>EAahPGFt?PwS*Es^)2@lJ
z%myyp6?|=_Oq`Xy6cXy%h<%wTd{@JUFt0RyHk(ueX{uz7VZ(#gKd80J0a9nAV?ie6
zt>FEXx+b|Kt=~%5wD__yp7yL)8%LqkX^o1QvT20O1G&ocj<2NA+r0qEKsLXvs+J?;
zb;37O)OE?CEsX7VYcD+3sI__P59S)@3+31U0EML2q-d!xW{0J<+Px}Gx^AO1jPBjW
z#cniitE<+kn?WcnaW>rJg@fsSk(#N6^z{vC9FFB*Qfd0ek6OYbVR$&df1;Hn?UhaO
z(d|7s(FR?WGRpAdk#mB!F=#qrh&G~*35$EVqU+82Q}HfH*xf%-rji-jEZ=V`>rm=#
zLH2xK!@n2qyOu~Lu8v0>l6wXGN9gXDtD=0=%oLSu7X`lG?z|newOXZP=w;PvBV<Qt
z-s0xq*?KqP7OAXOQSOQDVYk1*ST2>T6CcaU0C{=1cLe=c23f*V{Z6<>X@0_0ejC?%
zW}-TV)kABN$9sp$20oQ#FcNNTjrrt#miCICy^lL3bTIh8D?Qb)NM#bmR3W$OxxrH9
zCD}!dF`7jG0O*br!uz+lQtJI(Pc&nA+b1~T2h(#$B%5Y?Ww+cde0o<;YfKc?a5guz
zVeyMP>!Ledk$Qa?iWz6uC-m7;B5z{hb))I3uA=Fw{U=iiX`FEOo3Q@?;c0q*rS#~W
z=1B+}Pw?dfHu+NPnsbGrd)y-*rOY@#RVR{Ac2nb0S|Qbc615s&*s1BIW386o3pvy}
zms9G@Wkirl%6H`L$+EVn)9Rl@=CRSwVU5Dh2yGuwtkSl}BxY#Aw%2w~$xNDyiI=FO
ziZ+*2H2Jy1g3If3ncOMcDSTwud@p3`FZAtGOCqYBmn}BfZ042XH4r#!62VP(vNz**
zBqnyW1xB;*<3rKkHT4J!rzhH9`d05*(e#=sb39TqH(KF?^p%LvYTpbZIbuH-2+cwr
zO1QPKI5s}T?zjqaU)f0Oq+RG$T2!CItD=reoEEp-)Ly648ZM;6B^2%7Y=&XMX0(kj
zQK6~bQ@O4@I18|?7<i@IB(b_FNd0k~6uhHhrj?c24^LE4SGnR%%m&{6R?V)brlKYG
zE>v@C5qe(t2RMH<>_W?R2U9(y!yB)KXyj2;iOMcc*zU2^UMDZ7e$qIyE2Z5{s?v&y
zSlB0M+HID*?65WZo2HWFl6$X3=&A~O>IkQXM^i`#?tY4LsV8GWwDd<?q(fCJgfOx<
zgKgHZDz1K$rIJzkh6ld*EelVoY7eBS^y*=0jkxt=;HaS2s6_3&VdMIW=Z0PJM@+F&
z<ik2^q~p`ugB*=;%U;w!RY4UDW?EQ;61TB!!qd}M(Mw6|vUY+$mBo4ATx+}GmN5SS
zX*aPvE{S7Qa;%Lo?JHT)_1{j5R-|NgZNp}3KqYTzdU}#=JVe;rcMAtuc&|a#($;l7
zD0J;*&I#b33+fJ^ppBFbdq=o8_gwigs?liWXN7fa6@4qHv5$^H6VJ4`UB6<99ZN}3
zOvxmcSmt2%y^gU9)cUSXE%ee;YEd!lBlNsozx*#FgQX~>uY8O$2uq1;JO#1iQ_^F+
zm9|vt9e=1)xzuwwRYWigo0X8%x{GV==osDDmF+R~W|I0~TMTytF1A*BzoWW-t5Rhx
zTlTc`w13L7@zfnzH=5O>%IPaBs%o1i!Ug{TU97IEs~%&#?X$qJaPGb1rT+j8bZTmL
zh@)iCk;}csT52DMS_H6|olhHD;p2sO<B<9Hv*wK=f?Y~sBf;BzTe9Ei{W~-1+Q&@i
z#yGzrX|+$oVWN{$rOWC?dzi_(7K>1cuQd1cp4=9cQjB!at+{T(D6|=w8%%Q?adndG
zY3m>lh~1AIcq?N4OY-COl6(b>>+0jEQn{s;kPmCxo=PofRONd-%2TXW)SpcHPHspY
z)NdN2U1^&jchi(lPMuA)ZZojDJ;Yp$h3RySf=xNGRnm!A;fXf;oA+GzUW=rjk07gx
zwn3IWj&K*C{u=1=)KN6aeW#xwt6I$>o;!LwWNWy^kL-x)s;Z45a>hmsMb~s>TlQ0%
z<iAp|ii@^-2Tw$F<}w#mzCGA)sg|F*)<au083wJ55ufI7b?4Rk)hv|F0{dJt#|{&z
zH42F7wn0@h;^Z~%y_Y+Kt1RZaFFNk7rlO7S(W)COh|Etv;d$Ph)EcIo=S5KG!r{wZ
z!B#r1u{=_3abetYS}cR9Y!#4hmc;oytKhZSEV3(g?R)cJ?;w?m)+(b1d}ha$cdTjP
z%0zC(`0~3>>FO%T%R`Bj^2eX>tt6h<Ba&Sa^v6_GIw4If%a}0Ro)yfJO;u39VRX^|
z05y&56x}D&dTl*WrLBxGlkIuq=(ZZ4ND2lrr%#j8aLaRcy+%^5jTm2L$4zLI)jDHE
zF&4$zsr9~<rG~WL2DRq|0m>Uo>Vu|KnCqDOd71po{VrDj0Q!oHR4w%0441fd*EF&@
zGVzK=YOkUwq^M-mHQ|FLt>rUX>9);FyG(tY#@gU#?zOS&5U?04Td;P0xeAY6t)`}p
z^HEgoaUF{7jyB__b5AN#==1$PwrvYnA<pz?XF0)MpQZJ7jjK?It4m_2+xo|I^1Qkq
z%Idm<*<C3Qam0u{Yo;}gDaN9jVN*`;(&ilg$)h(P)rqF<7d>x0Fx5HG%-I>(g@&lq
z3#Pk!9#w<sbqcC-_j~s8-r+M$(^~lmm824<#x_@*XwmfjZBr=&Cx}fO`Pwgqw9z^e
z9cOJoh3p45SzeuK(rcldo$;~2xrc%m(?5q5ojt8lGF>`Ygti;vHUuA{RF#94x-gng
zMa!fH>|k_!*oA)$b9C?l0>j~YUZ<wU`hVfIyMSJ2uSo<|#-3(?NwEYjT)5hid~!_^
z*Hu&M^u|5SX>i4sHQHTXl~`X#R9yZ`9l=*$>Ba{dx*4}SlNl-+&Y+@^f|pRH^d$nq
zUgPe9N+VRI(O+Ax%Gz+snpec)Fi7^Fx}bAss}nhmYwwcN-{_94*WeNwDyGFz0sSxG
z12^TMk&{tX4X*xO*V>vhNDdONj26A7YJZ)3qKw6!0*V;54@=XX?gxQx>(;2|rPLtw
zs$l*#y|Mv<tMz>evDx00$0rM_HCj2E-pm(G(@#xQ=T8f2sjqi1jE|MIZ6=*l18ONG
z4rmyS!`#xSH5ng8CE;NNASBnzTIYaao3UuYLnb-N1`>=}r8=C@P3Z}2NAjNk07Yp}
zuTa#+>RFoCzlSl)%4gPPl2<;V-s8dWRfdg2sMo_KL;=!m&gPpG{yr%|gEmOX7M)Q;
zMMqLAsAhaJ7iKZS=%;OD0`WDjwn*-&E1O)`0aDiz-zsW4w!<CAwb#nCac^fn&=##V
zMwvL8o<oCj+pA3%t8~3pf||LWl;az~!lu{eZBTLU;n`PcI()6EY?4!u+y1aSB*~61
zW5Xjg+J>48qDWdxNx==lP`^T{4l*&NvW$Rxh3H)iTR_$_lT&B#P8lt*eyh;WMd*5j
zLP~iV?ih1iqZvo5FRQkXpY(lI)K$%8T{{i1=AH=u0EOu~Ji11wNL{8>2;{b6amZ73
zXW^L<ywiKnAcf}jI(DI<R2I3iK_gAU<Mvre^<zmxv}yXDj=nft(;LV<IB-@UQ;w>c
zpv?@8A0c09oo%a8KW%GGT_dpOIk_JpZFKsr4_ctPYbAxk&SQn1#AR)4MI@QzR27u%
ze)<0ZNy6H6)}y9sOgcuS^6Gg9@aG)Hd>@5d*8LeBI5iqvqF4#JVCAZxr>R{>?%Z78
z@U#+ZW^Z~V>mHHn4xO&t*!@}wGYwp3?IY*GLD1FL!sdzIT6o;OGo|{TN(y&UYA`cV
z(%vm3QVW)kArq){W|gl}KT+vP*;5^^`ciE69|;~>^g70y*^#A<^>H*z-gt1xL_?u9
z#?Az{;Z@UWGH5ljQO^vfHoM&nt+Si-y3^^pr5$X3wIrDC)5uYtXJt6iuKYjgJu+st
zN_d*tT7B0Uy4&hshFT`K2HJ>S1op(yVBKMQW2tHM>V~#vmS^>Xy^}!KX=`X3G*dD`
zZ`9Mr)pcUZnmKYsrhNI=KZTn2PBKXz-}MR+`e%v0=8yY=q3HUr^vby8iNsmiEjC|L
zR_ipuu8u;&(kypm72{useK(`aQzd?u1vNpti&%Z6{SsxC?GKCS)@k~*dW8=Ct$8i6
zK7Omu`rkvRnX*h_^+CCFdxcZey+Jht_DTzEY)BaUtsQ==1zSCOSsUtF?qT4rc{8du
zk2R<1nmd|`XOhQr5j-c)qn5XPSpf0eBK1o8LS=j}FjNC~#(Sy?uBVcef?U^mx-rWz
z%M@zM7#dnOR7MMbtGGkzH2B>K1b9MH>(Ock;D(dRHSYztX<e{wqlRfFRfD^n5z3G`
z!`kD5Ep)T7yRbX{pq*03vYn;O_WuA^gwkM&y%0}G3pcmiJ_?Df+Hc4mib!ii99rjN
zvYJ;h-rzmnQBKf}QymQPn{ENF?5AV4IF?z2jQ;>hRnoTnf)8Y|$m?y8n-1w*Y@(GN
zSqse9xwkf4&Ey@fvXr##xN#vuOPcHXO5$!r+I3s0XCh{ap+BjmTi0~XldIDHYe}7u
zRCBPq+T;HK1!rcwt;yQt%37JJrUi~IcXAF2NkR7!l-Eoes*a|Lq15$onB;Gf&(Sc(
zK)C(FxU8;qTw${S;5?2#g;u$vHn>cip=#J8<7@c<IY9V!yCE3%fyl8;aNOJS6GlSG
zP&t5LgJbkc){Z1?t=&IyVX+uJ*GZB73TqaH^c!omfPNG&j2t*vsiKo+2?}Cb;bI5D
zL5zy$!))5&LnJrI$SC)31dhrl05ULEOw<4)ARVI~7joSG=$ROAxCGk*FJx-LVC^M_
z;N!wqygXj%(#N=A4nY_~f|(S~4R^HI{3VK^*5<`I;2+dKWWxt`UdwSclRBZ!Z@AqF
zE3VU<sWuSo{^}_sBRnPJvH7;BD@xQ|PbSBlD{1yj1hF1+Ld@;&-5I7<IynSyb@IA#
zWUVuvarRjTo!lFu-B3gZH)jeXwa?tsa8xxoA#{2pRt*=ntO3EwpHpFP#lmYF{8qcc
zN9%Cf20Ui%L(pGk6lCtOA9Q>|&9`M<z(j-Uk736>lA(?V-DS@5nmI^qm6?ef#|k;I
zl{6#xWTw1a+Q>h%5yJ6?oT<GV<)~*gwZg-?I)YDdX;?M%L>gOrshJRvT-jJYnmHME
ziywp>(Y_<MfR%-8hDZZN!hy}P;T7rtENoN-z`TMiJfUU=t0AzG26;(IHu$nKrJg<P
z+CmkPm~cWVnT5phzRGui;0OSO4mW~0?v03o&T@(a8wm|1t{77opNBUp0@Hi&q>e{4
zSf&9ZeaCE^sRTO>$Jsg!vfnl*f~IhEEh0mX$I4d525e>WBOs;PFLU&=btFElUZYC6
z(P<4-%#84POOk3aZH6&&U@=HG?S4K}$=Y+r_FCz>JUm^EA>Kl&)Vg}EfET%i@%I+G
z^JC@WlcdhCic8U7O38usY2+;<!B&i@E{fGGEg#iv6-sxt#Kcek07^efs(YRpAQ%3V
z-CesfRiL=NvR<BFrg9PDckQ&TXn+3zoC62y6rbrd_0fY1g*@Q);HLggrkMJ3+>h!b
z1#)EjM@~KHiZLeeUIR_>V}tZs{S~a(FF&Z#GaHslXeDEA!;c+`>T2U21Kh_BE>z<r
zRmGlw{W_jTnP|vs$1Uy@GRol76zw+{1g!N2y6A}YWZ2=uflSppni9tc%EICN!5Jjb
zsWid*jk{Xsex~^ym!4`>dnzr+R@$#qw7Jb|zi#U#s8u$3%&is&vPeO$ipolhR@VRn
znJH-sIW-4JcVhnl9o0lLl57AY!aj;7%5#8w_*Y7Zx;V&O{p<ueOY2TD#*^fuBBGW%
zUu)ah&Hn(EYfGnzn_vLAz5J$4dllN~%)X*fNN^!TG_L05YO1u4Nach66>R!fsN!Q6
zcl4%IE0g*tnCD0^<M5I3$zm;(Y?^!8`?T#NvYIH%u_J6keG`<MDkEdV>`7Ko#Nb1L
zH}Z}Aqg>F}G-HCNfuMUOwYxbwiV{;{I(<Zqwr+f*pEH~TfEOLXLb8y?1IAl!TBe6#
z89RPk{{SdG0Xr@9y1n)V+<$drBs9~q(y%wfhAgu#ipK1Jrzau9gY`z~nzNyk^7ZZ7
zdpogHWs*|tDyD#jmdHere=LpX?y0Azo|Z!4a^B7hMNtIBqN0iWffu)8t0t^*e%HcS
z;fFMY>VIH(K8R_jWWX{|1O9uZmXbhsN1q;7NdT3b;b<e{l`Ru$nBf=(R`@3&7|9c!
zIUp$>K`oh<K5djM<tzlT*Kcukp{%BgR$5rBK*0kcQCDf@mv98I<8VgBpi`&@@Kg`0
zhC^$O$&=|d5-`aT+ybVlrm2bE=8!?<3sx4L8d^<8N?;iv^&&mIEe4%iO)Mp^w6MRH
zySLF`^y=cr2<jS0ILKOEIv5R|6q_&GvRsf|q2W4o%>>$8n-QN)kV_T4(VkkXr-pYn
z?7K+tt#r-MI65gUjEnND_R-c0;u*&v@K-N7WzmL?vT8?`yluJR!`kIzOHf=x>7BIy
z05ncN;aS(xQ@PHHvJv$G1nnX?+8qRi@ty~ErnJpWw4&4*BR0P-9E)TjtL1^ib3;eS
z3Ij<|6E~KbS_kTA$U{48-Ewxg`8ZlVf%I^e=EZ=E@&Y!M(6EO{%oSNC=$*N@Y3<<~
zMPCEQrBxVj{no;-tr2Ltf|7!u04&!Y#9>)dXw=Rd1BJX5LiimR^(kHIGn)hc5mXxc
zSUoC$;#=HuKC3Lgn2#5<Thw&qFNm<TJ%^T+hw3hzl8QqmJ4lT1JTE|?*6Cybdd(xv
z)r5_qt%$YdrvCu3M$+6w{kms|wns+)08QY7!ZHfUA#g2n*>x95(#l-=XSI*)79z5i
zZ9ZcaK(M|Kl~pv&OwrJ46!onPmduy2Mv!*eUvqmnENgFl%shBjT5hoTkE2pIGqLWP
zz-R*;%z<{NnD^Pk1olzWPZQc4*KTR~;T5ylxw#%e;S&M}xt9*}o1$XdBR!`701KW2
zhw%aWfs{L%=*{DI&JwWu3Uh1+g%i6F0ZxXab2ht?!LnoDXJ-fer5t-4ZR|H54=KjP
z?q{{u@R<u4H~!|wb}5sIA$6r`w`UF$3+{s%#fZw|7`4VeiWsFWZR{N1BeIpR+|cOX
zp6gkd*GAG!><VV%8?5kt3Z1STI|uxwd|Q}y<aY&QQOrBV`5lN$a@&V{f*qmp8?fWT
zdn9YHL1|b~&Wir#WOz!+JYw9Y``Ue{gx3)FUi)4CRxm+-w~l)#OWw@Je#LWMN43KW
zH=VrXd04`_c1mnOW4^qhs$px7Yo|$PgJ%Qc!-O%F%_JO;7U6I7F$3b-?WF$cgL5uH
zzrj+=F7EdV66|LoVMHzu&j-Tb50s6uHo+g^DGqPBxlN!C4$n6EPIGqx91p{SWNu;Y
zW8F@}VeLQstYA_LGyT-DJ+CE>{^|Ayk@W>KMvL48T^feeQyXq=kl?+J_Ya~euQwv(
zr@A)CFl^<Sk|Ty@mfF_{nCf2}L5!C-`cEphq8G;P%{DhnPf>DxLAAqzfGW!mTArb{
zKf@=Rs_M!q8Fxpu%ssml`9;R&pSbLnDa%crXEA1zGLwl>G+>fi(hq{G>KU}#YSK>1
zd4VjjclcG+5Ju~Zaoi+uD;cI&(z(Oh?m0wB8)auX?0cx%8p(FN{R%0OZX22nl$xTE
zph(#8c8{_to0vx7W924VeeJmHKt#sdjsu!`2>LY(6XTGEN&xz)DyYLn;ePLgJk(CM
z_^wCvsG_QpBeC}f!Q>#npp1~Yr0yJYnnNV^w2P|-dQ}mZV{q(+mY5H7aq<?lErYeM
zjli6>62ix{-yw8T7Pn-qCB9Nk6G7a=&k0#XaEP?sgpu75O<g<=_PXQ2L&o#^Nl!2d
zI~(>Z8J3Y(GNAte62;xebhQ-BmAJM1s+UCeXCU?|zn+?%){tGd!3%Nv2SF7SvPKQY
z;7}6NgZgk)y)ATeGz){}HnKRJ-Oa<1ww}$|pLu%?iQz>q$KQ3XjHm;Bj($+?f%)2R
z^iSBy0g-29DPw+kxbnI2k%9>!G!3`6-EPBQLA3i%d;B6D4Zt8O=$u1=7giMYBLU+H
zUV%fJ-p&BwB$R=}a|yqMK-&C+aGEb2$hikLMKK!sDyD0iNO=39$iW<|=dwAOXN#3z
zS3>3zS&*NwbXT<4;Hg_FCeAqeDBQ<2#BEM%PXu$_W~?h{d!u8;+EXngeo96X(|nXf
zPYyd@V6s$cXlzoOi-j`)cs^H4PBz`D7MC#cP<sJ6iKDWNGQ{>%Lh$jEl#(=;gKLDh
zux*_i8e5cx2LZTUO9Ml&;*D%zHp3{{sIO$QG2VPBiQmo&o=8}D3J1noY%U5mD^xMj
z<I0a`!k8N_yFZ~0#!ia;M_s9yyVjNOzZq35sgcgO7(PN!$O+tCdnPh7EVhIbo&vIp
zT@h`t$X^UhCDg)KJ2xkUG;m8(DfD1A`NfvUrTPl5R1KPEnBwHTouCDzsAoa+l`(6g
zZl_t?6M#_X80*=TB_h9|x?@eOjo<15oyEMiTAxgRZc*B<ou*S(iaIFZr3aHtT=MU^
zP-z<Gt*yvLmD8|A9}RP3vHjMEOQ6)@tM#=RBaTadwjFm5-Dz@cXtf2|K8-=A(^H7s
z84fuwlz>##GilVG*xxIq@&P~HLsSc;+au#7@CgL}0A(v;^jW#|%xFK-Y*uZGlI*Lh
zWcq}GlFvMGf7tVKKIrOQGen|@IkCO(8Q$lTf6AITo46m!JpD)^7Y!Z8_K_dJ09h(&
z2foO~EY-0IqNwzuZbz$s@R=)G#%+Dve6@!tqS+!o=^XL(QyR)9!bLzQAJ))6y4--1
zDruo(2|lBm50hop)s#?Exsg-WR84Gccenc>b!|qDQ143duyS1dEH6}bR+&u;sp+PC
zwIo;;y1*rS9T!^8p-(`^RB95voy1<IO7q=kscSV^j9Ps;hAZ0Ss)@x-e7>Zwk=u`R
zg>j~7VXXkP{{YIQA@)jBy&!!rO>>{VR>vdGNhbDMS~_}27!1q={0yULY4oTmw$#O0
zEA4?001vIy(M?ZJ?v5z|<)PNNRe#WnY@1EfWvpm?P|9NF<n3?nR*$CY`a@55rKxCN
zpQ#=yt}pTe%t<b(t38lDzE;FdivhDo?60V_8f`s{5$ZJWaXIwbarL@bslLaT9+7LR
zR#H~XKOsp?qd|NB01go6AGuILr<cC;o~2uf{a&9dN1<pMVPKlGQl`d3TyjzMn*N`q
z!efimV+ZpF@~;d_*(qf7ifV3{)vDv$Q7NX3@(A}U${DHpT90S?gwol(O5tzpu^mPD
zpvV~LX_)sri<6JpWoVn!JzrC~^)f{Rj&H@5lE+#!Wj4#sx%@(kT9*-09NxnCy2nG-
z+QaHM($qMz_>2K#_Flo$KZpGnMNZSHX|d`P9$z8dpP~<{`WL6!dYvChf(v98vu%_b
zjCwA)KF>QJ`iog`s;+4?!<fT}y1mdJp;Sm|YIHdo8;3eahY#)*dts}it7{)sAz(O-
zhYNY4bUvM~Qi`o(sU*{*x9DR%*7~JNH={~&sxci*&Wfa{0+yn-2MiWM00nnRQs{O1
z%sVHoh7fLDBrb6M*P-eCC(_zAVVgwLM!4qx0Pj>v0l(48U4N^crP4pwr>E1v9@eqV
zcl;)Fm57_VJu{{u(&_Z**+-~BD7PixAMUGq)2k_TDr4wL1yxhUql!0z;(p8JPO0mi
zXHwK(6(vljBI{leY<-rGq2rE<pYyXZ^)-(dX>ldM{3vmhowCuSYI>JT*LsboQ0jeo
znq?*TM@ti~@451^a_SV?EUt@8udA7txA7l?_FEZr9Zy|js<m3tNdU-exwqYA^=&_<
zDO_QJlGV&GUg<rzPw_PVkX}f&U6HZXTEu>%XQyD`wa+2TWzp@2MvbyOwa+~Jmwp=b
z9CgH1)>T147wTgli;t?=Yx*Bg(@{wnk`pUO>uC-Psbk=*<a1JVRP`5GX|JF$y}t0?
z0`m#0<kf1-5p9Wt;G2vqZ4OEw{X#{1;+7^n?Y013!%WRKw@wbBo{)gtv_{h8iVA<T
zWAfnX7)=XZrs=&S(v`7PJ8uWwb&=Mq_5P=-aMLvDgnffavft|(_L-x~MMPARh8%}P
z+pLdKelF9&Xf(Y(DBgdd0G09f%#1X;KUCA|EsC~|cv|OvvDtdRPyQC^`u>u~J6O~s
zsJ2VlX5Z+t+9Nfdv7NF#{)>6L-)k>NrmT~uG}gscsS+41efUK})tj2IR(>B()3lC_
zmGpZ+{ddXxESt32kM%Ph6!BF}f7A`X%70V!>=j$1ibEmbJC#YJYL#tss$qhrMi1v?
zWRKkiN>(#`qehadioTXI{X)KINZ>aM3DvrV1KxdUXO+VrtR(ABqtvQS(L9BthPYU)
zwGNe4Un!`obIUogO*wMtoFiSHtN2aRJuTEUZhd6m#Rv57u>oG{JsAd{TmJw-t<4M<
zz`pA*I@7g!4I(DRM?zzqe>`N1t7-`P$6I%;Pfa6OPwJG|70TX8Ju63KV+hA=-+oI(
zG`7`sdfJ-|fhN#@W#`>xQPWY(AkiphmU3(Zq$d9WWn0x0okd1AR#!m_`vB|Rcj4xP
zUpAmB3nh|$*KCeyuq!A^TI>B8&M@fF^d^m|Sh~MYl99Z&{nw(>&dNxG1lPA~-APH)
zT}59=W2@B}O3PzxYtQ=EMbtDpl3mm>NY9X3S5GAs(alay(>8S#bfx9a^oj4f$V!c7
zjuw8ntUCk3^Jr=)<Zt~}p(BrS%l`nv7N&*@i8s+|ayb70OZ%bnGjP_=L7S=RS(eMY
z<CR6!I`*Mk1EZm$s5cyjn=3Ab(|T3Z>~5tr)b(STKU05YuC1h{qo*=y`re&1WBEzg
ze`2WNYTGBtBf#l;e_7NuFzrSeso^fUb-OQI=}w5~I(XSB)@G)w1DQZ@C+M>}?^DY9
zw^GtmiK+pyG30+_?Kh_NEkVDU)ZAfd$PG3>bYmM-k(~FlPt~0b)0J@AO3F&OhyMVY
zmtp&bi*A$A+7#igYaZSJcn-JRBXylWOrn6Z)sja6o4t9)u?#g8&5jzU#xKL2aHS|X
zy%dboTRl>PtMr{JFHVAX#}PN$I92sp{U)PRzDkz7lW-ixoze70{#~YG9y<}jv6hx5
zFvsaO!-rcb8eYeYpQF%vW2n72eJNZY8%8X6`Yg}lM^i&QkyFx2`DF0!$Lg}xf~Jxk
z@XkwoH1LS%-4?4?)Z0@abdA1l5^<cJUWzG3D_xeoGt!!#tXVZ&{)}ff7%N?<==yGr
zKzGbtBSsy2l2(S3N7O0lS{t@Df&G>@uVAN&E%g=UuWokk<u*wutqTabJ7m9y+8Z@}
zQc3FK-3c~mlek`msA(E5mk{*ebZ)mBt{0Sar{YBwG=Gt7Z*$p=&28?c)O!8zoY)r*
z&3+Wzn_3Ev?VD=-QSsA|*nOM_1)8PQx{8Xi)%tFc`MPud<(s%4sO48u^;Jz%NHnb>
z!z04h^o4etNZ(!3$peYGX?7DvqqzaQ=@HU?B+@~RLqlvQxdOz0;Zk)M;%pPteqT$|
zpDz3Y?AagI{Y%l4i5pQ(>dXC18M^cBH(Ah)cy&EJgALl^E&HZ~)ZJc%lC9CD(<ybz
z>Va2Pu)zLda5e!Mt8})9RDEeQ$eS<qH2(m?)b#%VSLlzSYiemBk-%E)AQT5s^)F8v
zX&oF+jrKOPmtV(?D@QLmH?sk(bk2~*-Z+~ZhkNo>Jsll+subFJX5wrzt9plCs;txv
zH8Cy@HVfB32f8Mi&_}51bI9o&E?ayB&o+v|Hg`kGUDNU3Qlg#2XL!g`^?%~kTL<K5
zAe+YL0vZ;}thEgjMx!icTQ1Rod#@7KbsC*-Qa_W9KLD2D$`SH;J_k&^br|w4#*;<V
z4Q+0vJA}^3e=Yw2;U3?^y)t-%#cY9|V>ehj_iDOZn#tKUI6pqq^jDoD)HM-Qwl~b@
zFr0#TU9g@vsyQba#od8*k4j6W#9v2SDgK?gzu98w^nF8AtPsgsVRh^bmmsgA1q3>c
zJ7$Mum&vywOG(poFFWOlj3YPNE}7w1bOo2u=9)H+G@3t8Re{p9j7r0gs;bqcWK)my
zy4i*K+%0c~?Dcwe1TpM($r<5hHMulOSY7K=z~<Yy%AAt)GG-@08oR3FnxW<K1DhL#
z=`}ix6xtzih8mN%F}t$!7wgn8>INzo7=w-l@qePO>V0yd(LIiLJP=aGTu}6z6}s&k
z_30lSEG=nuoW~3;R2qvQ+a)Y}0T~y#A4TN)RRvvbUix=6=XP6slD3gYUr9_oN_vI{
zj_f3U>U`2;Q<6PPr+Tr_Q<oXC21V9mt2%|c{;3@+NqcwXm6y|7U8+c8q+^S~$s7b+
zIv%-CR%HB)j}1SqycE-uYLTNF+3fuxEe@5Xw9Oj}Lw@Ti*Zplp9Nvr$^xJ!5g&vQk
zYISs5W~h{0TVd?0^)7^gjC8t$Qay(y!z-Rx=PurgMp28=U7*Vjr(D@%f30ki7q@hN
zt)tS?wkb<vkP8suYp*Nl*t%+xsMAw8!yr7K3ccz*Mv1|cvIg^J%G@BA9U+>&&CgcX
z(aT8VPQfE>*aKzbm2{N#y194_jm<rUf%>gZn_VR>IsC(e*>7pSRtxbDSafrWnin!R
zj!R9yb!Cl3^0FT#{;e0<lj$ibe~#8Uz*sLk*Xx~8Q?-ziz<gn7x?4@J*PPjE9_b=I
z+rV0>`dPG*hQ0wHBNqy-H?bqF819|Zw91-aTB4c4KsmPx#npOE53&{l?gfRGhLRTP
zk-G7-(&pX5#dUtCr;7Hv7{GImd=j&pN|5PWEwvgQex^3QmYIzX7hygA>MakZ>Z^mP
z^|<7xslT<u{{XzL-{GfI>9XlfqOTFS2HB<Dg<02~K}V&yhe|esc-_ehj(O?P)f_5I
zMq5zRD|&Kp41w+CvNylM2t8A%O-(U^p{{el!+^0LbYnV=n$<a`sgbuorN{d!=`@$H
zJK7}{xO+;yS|Hsp9V@6cDoMj1BWoZB0$<eMp<8Hr&W=hgo}g^aZW{C7;IBMzhw~;Y
zfcw}kexEC9*dzq7o<X=mspvO-qT62TYO1zABGb*iqY9&^*;yS=uQfc4W$qnoh3&ls
z(^_7qrbZu46P(uA;`d$Doj(SU*E*gM#*gJA1tWxF>}5A4N1N64M6^))MlHmQTQ^wx
z=juA$X4zi$MtIGvy&{IMN0z+Bsp+v6lVJ9XS!iVG4HCYe^EypTLH5jU!oDvZNpiAT
zbGYd9?E|Jw1R?Kv$i2bk7W&`x`MpM6;in;5YWjYmr9|eJ?P$fh3kP33g0wmEk#n1s
zX|6h=Fm1a>r|Cb4x;v>`1$1U22R7kW^$%TXk~lIM%h}kpEVQ~MMyW{GwwaQ$*p@z2
z4*WjUHV4IW<Jhh_#Y?t!M<ZT?=jwWi+#3OPugbR2>f2FJ*VIq6_ubuPS)^)|K-1Jw
zy{;TM_xq_RJ!mHMCI!2X>OGS|Mh`+xa-NyE)-?7CXHQE~BR0K*t_sF<#*ih~U-^kz
z?a$}BvZ|o0Z8<R3m&Qg~3eUZj5LE|yg^vdY_9~K+vT11a9;4Hlr_vdj8y^@R;cTq#
zldVL_H!?FcE*TfgRlbc`QK`{7hf|mkTV}h3L8$cQPK!IIf=}U-e}a-xZ()X+b6wPI
zr>Apaots=NTH%nYsCw?2nx(Y*j3Rg(ZMnH~K2}d(t}ba|4G;1VJtMMBK(<JoE__`}
zhqBU<>{a@1hp%a$nbWI%83^_~e}Wbfof)iZGD=@F7+UfHJU9;FYV^%MkU}J<mCPrW
z17vK}TFnR*G#jcS<<UR&4>t0-oaY<kvYb<^Fxp2(RmZEc9Yj3Gd^v;suS_}&w3Ka@
znnAUL`BsCcO)jyd?unj^_Oq|e)*JB$S(~SCO!-{tB>gRE!nZc!tqPP=(NR^Xn!3l+
zxtlhfuD^1M(=<3=FfDl8c<{0C>Qxn0ezeBzJ~>)#KTvcG5;X1{@~w^uAtyWbU21x4
zv~d?m?{9!`u^QA+RZEZKN5j~8A4Q<l`lwGz=wz|DwU1;!M$bo8>P1rsaB(^AiwdI0
zrMfdp6l|^2B=w63abv$zO7(3IsbGqbP|q)+D_e&zH9CE6msZ-H7Ny|3u;cEIBCc7*
zMPy!`MY87pmwl8}XFiPFW7%=kdYvYsWP#GQXZao0W{RGsieOCShZ}~Idnt7pDJj93
z&GhE(K*N+8cC({JJ?ds~2N}-Nj8liBH-5tF^-93v!XD9V7WY*yq}67SRKxEC@=ikB
z(8Z?Jv9A2YQbyr+I21Kw;nV6iIEJ^7;lWmmOi5Zmx^BI$=+t2QoWe3WvW8y1t&zkB
z*~6BSiq!SpJk!|hy{x>qRMaV?)?Vjbkepq=<rgU_Qs|md<FtAtopC3mMB9P*Hwz<O
zt3g?*naRVvV5Y~Wz0}{Cqm)#~$rrk+)FNnMm(%o|-wE6wutrgR8fV2+>N8PIIGQod
z&$xY*G&0fD656|yehwCQOX?=a8H7p=xfjYCRjv||EH413xcUa!rPXO@U}2h^F{8!R
z&q(VXGpQD7(^U!@%UaSKvFGE$@~XP6PG)UuiEogfqiGcqN+oj%H@(V)oxL)uC%jdD
z9#zznEfqv>zCZ<3RrKdlX_6Mz=<ch8e=|q8DxRIywaqFv8f{Ktv=3w5dweaPh4`hb
zOCzaj=;Ek!V>aZ48S-6}gQF>^P-=5hmr_v5=L49W+c{Nf)f%>)Q0CU@)i6QFxuk%-
zo`<O@btd}1keV3>HVQiZZ$iX+j4lU_<~2W_^vZlz?vEkrN*Sf6ZEOuLY00t^NPN>U
zMjBmwTex1YDCx=Kb7-Y$Yq@V_=iN&TT0L;8q%AO$kUJkK<0iTUlwV+#T{BT5y;hfe
zAf2U8PU3dCj~&9=bpHTQ(#sQfxsMjeB^O^lnOf4=z>VGtcPAyHOHA{M@AVH){pS}C
zx|)ZswLLbR(rOGd!)pLfA4OrWhQWQuZ-N$G)wFUu(y3@Uw(D?&WqJ!mi(_`TUFyR3
zY<CU5LMpSRHF`1mnkk;r+~BGDemJS6WVFr&ysgzfw@oY_jNk`twbx`Jjjf}ea+-FJ
zE`F_9wA1Pic#*x&1xF<%T|@$^if>vm`r`*J`y%@B)Xts89k{;=kECGK9aZ_dY23)#
z>k)oZWP-=g(375+T_C1;EptS24ne}OZ2E&~ODU#ojN~+&tBq4Yr`4bm(-y&2c|D0$
z`ZkTI(P|<Z=v>B*9msdcDi;}+<0$q4rM{xBqtlX<K`=RY8<m}2kR2Z54W%8%7WNG)
zjr76KV7M4?89`S`6*EYaYpuZnGlqbqdF4b>!aX~iA1JL7qgm1<WqkvtiOe?=u%3QW
zb!~JHX)SOT@T+=Dt0tnUF~4lEoH>rjAtWHBsShdFNcDXq@qegbje@(<sU6L%;)&Jz
z(@xf7^{T0#9H3%G43DbHRnTa<y*K9c=eC+t`lH>CvZAk})wH&H(Z}o44qV)jr<VhZ
z)3Nd9i|tXbi(hk^eF~k{;ZbY-NcY|vov&{fwpK~{j@b;6mo>+bO0KMuO1FkSS2q3p
zE$~IHg=cY<qUs4H)T(_5WdXg5j|lo&3c5GANY`Hc-wKyN63|pNwGA(A?j!+vJuBgw
zht$J}7s_RhF;v3y%3CY+9a^hQs1N;dU);xk!re!&={lVm{wo8({RHGJW|L8)*VQ_f
zy`r9A>oug|!|JQLtEMXGo@#Wb85nX}5BN#NJthy@?V;UMS4#TU!xNa|><e<Tx~7*@
z#~BMtm~(-`FQ?;UbrUUQPIIrD^3uH`iW*vqab~tgTZ=BpMoKGZEZli?c}AI_zffb#
zOG~54jPggq^e&Kw3OZoOeXbv=hmch_QN-OYzB;`%;y1C^7VNHc{Z~lWAq{C1I<p&$
z*|L<&D}&gt5}FL^Dor|S32Gz_WUOgFRpc6!*OA4Z(R>ByI@~&qYYjA{vEz_CtZuKM
zRz~cx!{r(N+Y&#nnO&vI$?BTSdY7;Vg0}ixGgD5;>#2-k!rNRh;qbAv+Ec$&V2RnE
z{{RBsXkASd)UDI{frB2_Pi{V|lQsG}u_g3sVy4qyL>mLy6YZ8=XDao*d#2`d=;wFk
zxeReOA4M#hduZzfu~d4@c-+?qT!4qyjP-QhjE8#%9#B}ht7CkeSZ0s-*;pQ7tfP`f
zj2AHO{>t$6R)y6x?quPY;?5QzuOMca+Dh+Uo?#Tg+ylY*A#XZ)ng+8QSu|15YG7oH
zGE%p~m#}iZq(4*A>ES+rXp$59PjHIT^kzkA;32l=-PCn3Y8rdo*3%i92L#^Z;b)`j
zY2c`PTG<){z07d2YNT6QVo5I1udLG>BTJ#3(a3+4oE3@HqmqK5{_TeT=JqP}{X<Pv
z1<bo#2W3@R9F_8kf830I>025$z^N-InT52?yZ->B_g6h7KBcB=(N$9kA()?dZNPWe
z%B`oM^(sV^<i{gUEVq3w;OW^0rA`{-`egE!QjCzwE<Kxxw2cp~^u~==jf|@U6S1H?
zFE;9*!%bhOC3R+;=g$Wr>=(z#Ucsa3zL0C6b;ppkH0=_z)077SEN-~deKL+ze6^-l
z%~<zRRz<Q#{{S#nT2`m7=@q*uD;)sl#QR>ogRVaebnR8Ht<#_R3h|b`qU?Xc3&*u4
zR%mtSPU>wv^ym2}0PJ_jDzRD(r?hFS`kzv%(usUUm0(!5_;<?lx~`(vO;e+&l!(c(
zZ-ua;o(C`%O4^9rFy`css;<|msOEw8Xl%TUDn+SwCezVR6-be!hl1nDB~<E~gw)~E
zMJt#`U~p3>d!dklf)5I^qOP6wCOO^hJ+GCibWzXsD(X6-qDr4mrp|5cyz&q=o~)HX
zO5z&qhjt_35v%Bbn7s6k-roNJ{Gl}2rK2K~P^C2#*W&hbeuYs*B2G=3?v~LaoBgRl
zaUZ7Y?tMP0k-3byqZU<KO*3LGs?w^xSV+Fx`<Q$cv8L7|nvg?V0VHuC8T+iVND_jt
z?9Mffk=vsqaOJA|r<qNtJ=Eo`FSVTu&QH-)S3~GXW`yC{A4D0I{;MX5<&w88b9n_c
z-zA`9Tta%oq^6`}s`TLZuzt8)J;UkcXY}Vi&DiH3{{To@-wV>Zd#dSc*xf%}4P@91
zscr+m`jrP&=<cJg^`L7dhD?Vux}F@ei{l~k;!<3q%=>|0v$7K$JAsc1d+uQbW5MJo
zA7J9!SdRWzS<3VzQaQNB-wD?a7XdYqxVprC%6dv!<dik7xF;nFFwaenZycfLhhVuE
zZ<S|PM=Tj5+x<vaHP+nAUxGUn5ttDH;B7o8qy@M)Mad5)F|_vy14ND5>jH;Cuos()
zb8hMvw6`rK9QYi^5O50VXrya547Bi2v>mdz+2c4qQv+=4UkII+!4^@ugSY<xD1eQv
z1GUG(k*)R%IFOOHCfpv&w>hq{_Mhxlqgcn6H|Uss#3|&+<32p0+y(fu$rx>mNwNDT
z?FPl5gWM@veZKL7+$NCb`<erS-581N&A_+99nAM|tQuJ$@Zs4HGc0Xl5ljpb(T6s}
z1u>wo+xscahwA$j*ECxEqeeosM=0XOK`eGY;e{=T7YFuSF5zR!6lTDrjB*g}jI{0;
zM@Tl3Ey`eLjuz<8VLDXjaBGdiJ5i5m4hHQirHpeOxu(a$ux&t*pgeZ6zC50p8AhF<
ztgx}NGOnqz(=~?J2vEa+kMf78xER8#dKcLPg`~!F$}NK993a{+$~pmX0Pd9pVHPO}
z$JI?M2+g=q9)1xpRX8Fg87Fckm7~!;kkVgyTFfxy-8w6^!^&9O+=U@vIl2uDm~Ax0
zw$0S@Y?Zx%vaZMgV+uyf;foX~-H^>5*Wa=lt8if~<SQ`WRkk9?T9|}Uz0NoRE6{AK
zW~#=(M9d-FTm-+Krk*efvz2W_gz>ya-*wdVH0^AD@$N~=gGGcb4{gT?_#(T0EP|$U
zV*>ml+gcdowYLQ_nYf(R7aMm8?}6Je7eTstH?Ugj-kVIQscyy=wckC`OFSdn3dG+<
zO(-pWh_+R$Dc@4&z|U|zqv*O~zE=S*#*ZOt^d6dJ8*jYG<K5ha#pQlW7C3&c*=$}k
zoBg^esdNe3EOEuO#O#y*01J1bboCoHzBu+tY>~lDq@`p|7dZ;^Pmni(h4UUq<#T4!
zXQd1fhe1@@d!iofgzEh<lErp_;6_D}QOmuy2IImeou{`8ju~ZRxT-v}sdOrKInuNE
zPUnS@naqkp*PA#VL0<K$X;jtlxvz|FBG<C<&b#RCOH7^hlr4Qk11@KFuXDrl+x=wD
zdBgew)Ac#wa1uD}z6#P)YOJ0B*T~r#M+cC+)-6+LEPDvH2t0zG%E!Im!I<0Qki98v
z5lJI;S5hNsXdc7b>pQ8{usOlJ_60{u>YaePPgHg&O-Op=f(S^VvW`xHW!0u@_C42c
z_d?W4Bn8F9gYua*Jgm!`>NCjXA*5@WnDRU;Mkti0^hY#h#O)*@{VAi65D7&>OPmM=
zT<Odc5XZ%9_p)lC8?urnGE-+CN<rVTM^U;+pJFd=;cMdQ23AG8Xad}YG#xSd8#Tes
zZ=VTgIGQQhS*JP9U@^VBydDa(g040lvc_R}^TJx4FVP#>>_1EtB}kFc`g048$HI=E
zMU#HZDQmxnZK3Q`T9no$(7$QD?R=qSj;@*8pq0``-KUU(nysbQorhsRsl0_qMUs;o
zb!goEl>*XsaYxZjM^NC|eWdW<ggrhg;}S&UBM7)H<SD6odZH{H#fSF^n@iZL-=fvj
z7LM>gc;^ULMBw5G$Byb+dQD1%8#U6$-^wbQrjnt>lJ1URKbb1YBs0erfoW<TO#6em
zo!U`OFid?|ho*cCq?(pF2-;c+?hX`C(#-_i5PrB-<!GE$IwcMu?ROqjv(mlM4Zukm
z;CMtv*2vASZJpd6>5{TYeb62TSX6mzza16y+KpzFEwcD8$9AjQdhI_}U~GlEj|TQ|
zK@&||6^lb8;DV{DwAm@;GQ#&p?$+TlkYi}mnhB|%WQIcc@5(ACGGI4`$0uXhtjz|!
zS480*TO8(byes-jx?0G@vAk!vI9bN_hEh+kgE=SCsb&uk0S8@2J6r105cYg<i;|+E
z2HEh5;T^mtN2^o24fY-^f8{J^Bu-F8JPu)#2Vo~8vOYaFj=8%f03RSBwP5$3Rk60-
zTf%0QTnob=?J1glnkiXZuXLRBW7mnMSg&wfk^+xLuxW+j$F<h-o~rR$;Nss^QLAaN
z$_&s3#UbPl3K7cInWu*O0c4dFrvy4N$UKE-Nm)x+&8~54$8c;yq=voF$Y88x#q1s2
zBC2Vrq=-)w$RjO#3Nnh3INWqyNai_$IiwD6XYxW3##(2GMJpWJ^Vq6=^EBDgkUa7a
z)jA2^8M99B`yIjhC0N=W&qk7uP=-%yz-znM;X6>#psrz-oVBuZjujm{;gS28Hov<M
zD#AIQ#_nU!(PxdVpeYpfRP{8Z$0#mfI2XU{h20y87teyUl{3Xw-LiXLI48QLtEHAF
zURGV7%I4%IguO6HS3*(M)YE^p?`L)s{t**Z(^WF>jK?VW{>Tu?8}4JV%3H@V+VB|r
z;HtRUB=%1WqHF!6G3Sxkt7>YQV`uQ@Hty1Y!q3SQ;x?I=Vg6>H`AZE<)S0oG0p8ha
zoS<1VR?3;>ZMT^l<GLEEfwe>U;611MhC%|9QHX&gPq)Zd^csydP!Y`CkN&axO6S~N
zlxaSU#--Agl<}IqHQu~Dx-dn;qI(-4EqhBIFhLwIPh~Xp&h=@f8*j(*kgK(=B8OD>
znA=HMcyn;apOw=L_u0=pUeSi5sh*McY24fSS}ikCY^@KC+g>?uVyQI^KC4fd#Zwsv
zvFv_|2wr1&b8uDD`XNuFaT}RCF43|5+u1=Q94~L$%BxMSbIU<+xZtZ+)V4us2y6V3
zk01~d=9^hOS^S$P$*>zZ7L$;Cs7SV3dn`9&9$yQ_F4Sc$TMKr$2ek6nc2I}hS;Ggq
zW9f)@sK+KZ`wTRp?JuNwzjhQY+{f60$BxIkmYz)J?RZko{{UG302BjnvR`IHAf1mp
zA7;D9Vx?@(isHnCERi{_!*{pB=%jFN*L#Q0At{RwQaN}wQOOwxAG#E<UhFp=!kQ_|
zeXchj-7uq=^BJ?UJQX3@?6>w!E^WMn-s(Hr*8T3VTO9F!{3y3wr?~#<?w0lkHtw41
z5piIC763G@H{9NSsxQ>*I}ZACr#3&N5Pnn=^KuA1mJ1`2G1z1%9bjzhgYb!Df!LD&
z094r+(gpbJQA_}jJ2G)~ByJ8DX-H#pPmqzVaLY}KWCltACnIT2XmoiwZ<PUYJo2Su
z@sWesXQL9_KZ~v{u(<aNB#zF*eZL)(+6XrO*FeNOH#^#GWP$E!%WZDzXU5lO^pw+J
z+ewd<F2h3Z5_?}_Jor${N&vfT=J{OaIj3_CljD%K+qw8ez}sCLtS}E^pXmpSi+u__
z2&5J*8O~HrfzACEa|iAgOb#FtKwItt#YX78KuPwy;Bu`)Smyh<`Y5HRAlwXj2&O4X
zH5mtv>UuU?laQ=i9r0`ZQ)HwPWuDXEEhzFsMs6&D@v=u7;ol)d_yY-ZO^EIiyh{s+
zm5y_J9}A<Au3;PQxtv^1n8`?iwJ(ZL*MbjY*rHy_ddB|%6@Wh6j!@EDBLzm+ZT&8>
z@K9rMOl?gh)a1E@kUNgbCe^rmW*<iYj*6rcwn2XvQPfk#ApRK$Sgs(FzZ;t1M})CU
zy5sz)pGzwrc*=Zuw)X8m92DJwS|?!L$QR)`u6%Ae+}{ZrF55RgeiJ0U?f(D?N3el2
zUw|w-gpx+r4%YC3_q5xA@TY9J8?EqB=+|KKLg-vw3AeyW9czoW$Si!R-s=uShm<Vs
zjrX~+@{NkC(ImTGJgB#pJli0sF8H0buDJ4^UPu_v`B-&i+nFaI6&tC?E&Y@yb8bN)
zO$|W3oQgG(>@7ASJ*@=TqPDh7<31B4hi-WZs7^y7E{uZIL{qllJD-&lU=wdCW`V;k
zz7Syc7DIOKY5vM1A->*14YNKmXJIwcl0oLlHiGGg8fe^Zc_|%2(lKN3nGHZT&&83A
zlHfQ5+=8P;Wb|%mKHH&vG78bfByJmCEPu+1rh&3H@qzY6(VHol_cfplj_Ix;=&32+
z3HJg*iO_;EkA%oZ3U1u~%4j9N3hzvST1Ryg+FSZ?R*<YVGC{&FDJ*iTspYX5N5=M?
zsl5#r8SO2_lrpsE35DbwB@ex>f*#N`g5L@sQQ!TQVCX}|zz67{{IAFNR80v(dUvI0
z>-M^`vN~u<zUM#w7VbSe@cX6dn^O9?^(v4q))R4mqVBEfzL6E;lckMp?QiRu(%pmL
zAff3xMo1s|Ici)p?tT9NuvBVK-ifCb=!$Jesyf1P2AN9wO)wjKY`_QIYI=X9Ixk9l
zU#QX5YE|9+QXI?v>2&DehA_rcx-a`p>=88-b&fmWbT4m)w2OV#Nk>u89NX`r$57cD
znA#|5H0Xbou{OrvRZ*!^dan{Xc`9Az!AADZUFppfL*$Le?R1}$k-V|w9xehF?#)Vx
zX=8LPEro%E_uX>2@0$B0bWd^M<k>okIikO(PWyi~!XwZ#9sdB85t01dlr0*C+bdxK
z%@4OFttuI%r?Xn;2#?C2*J}xE^1dd4&e8(Q>pGMsso~BKfxpZ#{nEEx1tP~&)~PAT
ziZ`}LALwx*W%UlHp`|W$OBzkA8qlcvgQ}@%8s=$~;K+ZROMmRL5VKI!=6v-f`8)>Q
zG+@{zIt=O#qttad9|b!^FmN`u#>%djPadFgcrU;60#&sg8=EM+Lmo=F0NOw$zoVy;
zN8OBTZSi$z#UfIZeSy%?N*Xu1KcVGZ(n9D+Abrtvw6L|M^#!Dk2*Q!EOFOo*NEsJm
z22s0UNP)&_Bo1|$!fkt$LnvX9z{gN$C$I#6bzugc=$h9$V&Ug)kyP!G(g>q_Nj<>f
z1~MRt(9s5m(-ye+eeSMlDYa_Kd(vnT77_mRt}VCDQp;JQ^!zQTs&sW#miD#&;t#-8
z<Em=4DVr{(IEs_`Y3^FmJQb5tbcW+f*e!iAqj_$ju0tH$h@fw%N5ZG4pp#kD#VabS
zg9*0zqb+LLPeG$~9XXFr{EnAU(RR8v66bwMD;aHPPSm8Jbz@rg6KBaSgNK})CTXtO
zK2d!mX{3G^#~XcCYMM1nhar;g4*viuJ!Y4vv=~bTH6NfjbVnb$#ng30Z7jZ=vqdo-
zgYFi0syd>ot-D(+k@;g}HvN#5Ng6GtY{s>yNl@75t@MdJH2(m~-BML_*ZLEVsZ(C*
zc7CYpEpzl<Ezq<xYZ8ynY6g-o{{T4Qdj-2RJq@AN#Zh0cR%(&7g7_NC3;jY_Vv>!a
z)=0Ooo{`Z10QDZLE3}W#wl+A1z0zO%5VRWRpVVDC$3DDM$pdl=<qdiJd0O2A@gG2{
z)7eAPx-^Uyw(!8)e#+65@y<UpTORox+Fy0QbTLA6-BJYS71`kWr(9|eagR>Zr}Zyj
z=10%nV)}xQt@Ua5&!yJ5J0k7Hm(sfBUX@D=oh#|$0DJ}JdW7{|L0;-^o2HU?{{UE$
zz$!dZzqSbE*U^#uJL&43DzwY1)5#Y8!MR?HYP3B%^&@<b90v<K?6X>*NcFav8LHGO
zso38Rs5c7V@XJtwgHhkAG77*=z257662(4MVQ=-(kn0|@tF3#WW2BB7;ilr~9+af~
z<y&W+&Hx*)XzR^8ruBH6JvCh=Iop`t-M0PLnbfkEPL;wM+INw_Y2|17vnrC&=+s?F
zrfHf<6_Uj0+S>*^k#*x=h@XhESJ%EBDZY&`HXkYtcB@d<WHj+H<-9q~ZY;UKhg+%H
zQzcxo0xnw{Zb#W0a_q`A(Ldp|8t%JR*y3UIORo71t^L=l^%jj)MWl$SYiTH_+hFNm
zZ@t%>X<DG^Xp9g+F&6${SgEz%r`2_deIq>XjQ;>5$#s^LV%CL=X_^`ifz*0~S8Xi%
z!zPwP`l5Zp^er>+7eb+6mr$vyeAfM2mMiemzFiu!I;S|Dzq<53wESAp;nTLmEmP|4
zVHc;#`l`XgG3#QrCoPoSO`|iU=$$5=sW)Q=8t^W>t6JCU^$E)#Bjj;57CfN3zh3H|
zp_%fEDz;PR!(p|PIwC3JsS;IFypVY<y}qhW-r65aqi^_Yq6(cwwHm&eJd}fvZV6tq
zscM>bokjUw9wP%tu?}Jzpfzers!>k)AceqKHQ2h+)lz9N#OW%%83F7Z3cvWUlD5fw
z&MuMVHTpiEJddiL10=4=CjkwoXj(3-C*=gy6xA2OV7pbnSXD_Wbv}irR7eg9X8~vQ
zrgbifRNA_#W=$F70ky$HDpAx*<8qVP>b*JmVWsJmBD$hjBzr}}-JkNQI^(P2(di#g
zNceX&SQd*c*1!0XEHs9mR!;@SLxEmZtk-H9-BZmqC0wm>z1YK*#;2BYrKEKw2&;Qx
z^)gA+I;ZAqYb-;txZ!%&;m22vF|q0LJ{cInU}Ui$xn4ul-7T$De->Du3rF%i5K1a|
z>LZoZa5eHuF@@5<RY-%mJ7=~2B7P>C3Li?E2z^Hk2D;!cB|2|f^^{Morlpdi0_$!B
z8-12`Y7I_lty*M_qXTu;<D$Bq+6AfFXKViemPiTb<Z!ej7Vcn^b^3+=AL;ddAyF&!
zx@hH%<7=AsUc<$Te^hGSD=m4Jl7Q2fey>m36q^30)qO%eDq45cHQ&tmz(2WElJs9x
znEh#?fcGtP?BKIj%@)uEy1S_=MD(T7Fk}Lbqp7LtnVC%B%4QQ{>sd{u^z}qf46mbw
z!@2c1{gsV=pAL-}sH2^h{*ZTVPYj7Yi#T4<tk61ZN6_ham&W-y+z7f4Uf1cNW1|zW
zwW8Q78&=Mu)agXDt=}Icw2(mg3ni;iYpo-B1QTy-^ZP5yH_;Ua%Z+1EZDgg4aeL2U
z-FHLuqcx3froNJ42!46Guh8__Ab6S5A5*^N=$$WLIGKT@N4J99Wpk{LpGBM!k7uTT
z>296U^p=R?vs&I9-~6v9{6MISPMxw+HKbqk+UrTyeQ~R4x<jIMd{eNu^h&^2g6dsC
zTd8UebdorNac;?S&y=Ye5v8-#w1#Oq%@~x!`AVDQU)ogjbtQLA{{RXqCQQMGxxf4`
zKhvkwUkgB)%?E>QttOWGs40uz6Q*#_)o9Sta!9nQ>prK{S+%s%Q?<hcn=GEUOFc#9
zudg@chd#jz)E!l;86N}?n0}(gVk_!(8p#QoSqVOFgHdltWjUqUuhX?1GexKsR8lqa
zw2QUbT1t+uqUs7!9Y%)MN-)`@ZH?9!qp09zY;#w}*`o*C$8cAnYZZMvO-k7`$bAV<
z>TT}O5#XxZ5lN?1L8eIPTe-4W4$l@)>)OGRAjsde+Sojx;r{?tuXX5Ql4kcIrprOo
z`fUY>*0hOQ^N&%u{>db@Y<TVH&rx*dv8z#f^sfXT<##1m(*7CsH1r>trGhs|1<Yag
zcm5XclCpw=3u&)u3>Fvd@Ipp)tx$1-Dt)iw@$jUwZjvkU>g0J8^g87YOW>Wd(@eu+
z*McmEsixJY#MKV^g1wTVznzKGYUQ#z*J!qXbxlj6#a~`wjlaPMK2`6eL9N;6nk^ut
zm`yp{LBopN(*7c9I%PNI;A13htSxoB(|-;$qX2kwaz9Ir)U4=TG6y(*S|@~Oflsi<
zD~Csp*6JFsP}PUj64=~tw(Hct3!&4r@f#{3jrQkox~1xkJ4(@HGPW~MoZEtm=^+lI
zBP5P}v7SoUBNXZ=*(D~EZ1s+;&^mWs(Kkm)3*>8V01L^d=z3AR(`2v^actRoT^%>&
z;oluVBHzmF6;G^J2$<&YX#W6}*sw>oLFRQv8I^V2Jn+|5JJJ{q2KEa{rD}8Q4QPVC
zH#n>pSL#fdx-x#MpQoxSsayG)CzlqRmIGp^lGD=;I(?(r#RWre`KLACBbAoxDD;L?
zIkj;YH1Ou06&+9F4N;-=T-g}rjtg$Q_o+Izs<gS1IFWQEHCh6TyCBqPY2B(1^y$ol
zcLeagBc(qMq3SAlWUsCehUCY7e(N9jYo|9*mHxdsdt^9q#h0Tqr}ZdiXrir|k&7L@
z*A9Op9w^&r>ctl=8d_e4>0X*^Dm@tY59bFfMWpK;A2Afu2Df%D=G-5u$+ttMo&fDi
zwr%6Hq$*gn%5f2fiOiDU%ufr>kDnZ}sI#y9ek$2<ujv{!1!&ZC_#t$C%tpuVi=@`H
zw?NiN(8mG#2(rb`Nm~@Yl=45&zw#U@r*%CgIg(l0K;V;*yJIOevNNMYsP$f%O8u_%
zqdk=sf8u_ZOvl4KLD#_BkXM{_R;i~|)NN~|5)K^G&(%;3Ih8MC<$mnk5rP$>q}ODh
z6G2<9I;U5Xrk<7YMKi7r+gV4fRBJQ2n;pHN+$)VfnXyp*p(zc<<yTQrsYvI+Nla!w
z7}9Knl-EdTxO-!D4ydV%Ocd@ej#jqB9_tMqT~4W3O+@b7d^Y^8Ji1M6j@hbGR6^Hd
zbDBsC)Vf3P+oiRA1~^2`ZAGylHg(e}dt}@`k3Q**Zfyq6WUgaz!CLB%#R_?8gjEr>
z#^0;D8(sW3mV&&}Nb^xn4Y!VLfSd5%29YdMxU<8RVBDUCl1s2nW2!YBN)r_gFd@Rg
z-DO$R`lV%Ot5>-BXCJcky$?f&PHmps+l66XViA%<MZ5)niaoMlBj~}&qfbLhC5ouG
zi(J@*&;30%qQYzIohcaub;7aNbt+*QiuWa0{v33@POUkR%Or6Fa0$bQ{4Q*fig!if
zDLn#c6ci65O0C-4AK|=UtEqZNP-ISZ6=vpkY4Eh&Ptue$w4ST>vC%f+!;x<55kc26
z3ExG%-@`jZm*qiaxlvz^m6W=Mn(aQgKTxJ~n}2a`57k~$>2$88ZAB$pBx8mf+$&kC
zsr4FrRBfnZhHuD2GJ=YorS!78Kl@5~Tj&v`*l$ktEV>NMWAHz+(sdtPQdjAYW181E
zw~!Z+bq1j5svIO?a|z<yBRYFZtgC31%#-r+evs}|=NCiAi)A%#w9%;+fI!?$jtace
zx{J}UYaM>Yx4~9=mqR=9;(1sk9F4eeMD)I!q{KuuY!S#0>UVW~4^?DyLf=F+m3pSB
z0S$AEZWbiBD-o{r?xI@xVRK}2a#?#i-wWAlq|@jib+$Qxa?-Hc#dejdR+?ckfyeZ`
z6?~FQv0(y}@Yh$Xp{e}5rQx@;qI&gLY7F!}NTawTEZdcZpy=9%)HbD+LRQ=LH05tJ
zd4`=ESzi-ojDJ6Hxf=G0rn+SoqpVZ0g_UqQjVA_1{{Vy*o26;pNh_j)wXr?Fzu9TJ
zgIwt;=%lBsF*-L4wbr`wDL*eythw3+OwNk;WzCCzFWoF%y$s`C&90^ReXi;4cjYw)
zJ+9!M>kq8y8qF;GYr$~8>kC>skEk0)BAw*2->96S=)}6UV_7w8c9(vaxfPR>p<XtX
zunh{AQDa)r()h^1zY62gmRMg)UiX$ehXeXos&ubO$N2!)>;cWjFn)_C_=TpsLy7M6
z{ipP}j4Dg?5*s{&s<eOfdD~SS%$_oC8cs-CufxguJ6DD$PfhtM=70;@+X7dYbylWj
zkcl6-g>(3QR}hu1eYO*vWPOy=bTdh_+x1;9PGvu<0E|A^dw-czQ)`W*aHXnl_HnfH
z_9{50EDeq@YAIwHa5*1jHm#%>m}jB}c3S16<*I5fPRqF@fOQRZ`gL=vw6{5g<b%Oj
z{;r;<t7~JKt`W@JUA&|9Ce+MKY>#V>J;|CpFVkw+{Z5holg=b(E%{dAM0wjM>HdeU
zsD{%$&3(O(0UA0lU5&4RmKP7x+UwGKW=;N#u}vJ*<XAbKzM)z5GaMn3cw2DB+!U`Q
zqqa0-89GPL^?g06#aig6pqLT-!MADqqV)YHzK&?*Y*NQ#kXG7WuY61ms)eu4+kl%t
zR_L-r>CX(CkARQJ+PVXRi=z8Md{WZ0a2v<&pR8(BRM0t+2JQpDWrM2f2`QdmK?J3T
z%FgQ=wxL+#BiR1{z7=CRR*1?9!g`}zbdo)|*gr`NH>N=@t6T$~=0*+32b5l)Oe?Dg
z=D`d&wUyL5Y0{<=v~P!-_X&AZ*mye8q0{MVXsE*)=LqfXAn>VmZllx<LDM6f*4=;)
zD$cW9YjoobZflxHBa}BnQE9b0i{DglE&YV1jx{L(&8UXyT|HG(OdVajBNpxTOx1c)
zH$`W*!+_wu9w_6Zr7m%9&=w=CwV)XI*a&GIlg%jTSlcmXinmCq*-KR87xQg6QdhEh
zVf7Djm0L}#yYml>9l)Lnu=T2@X^oIQ?LG$yV<z+-E3+4?(=g6m8;c|yma9zy2h_#{
zgt&}x%9edHp_Ois#9Y@NJS`r9qnV@M2rPIxYFX)7OlsW^q|=~aXmH#A0BKq+K9-s$
z2Qi_;z7&6!ii`gM%Cn3TI4W^W*(uBErx3c|V!7ic_H;@qXct;7nYN@ClndcfQOT$Z
zpHlvfLrsAl{;8FEjZU9kx%-<SJdO&}X_}6atV4Ni4O>S(Rd*yyNtzCu>WX(#ww}3y
zma)7@-_rGGscQ7@i_@MDSh#Y*dn_a0>Jt~B(gCn_vbCCCm|~}6pmC5}+z%>W4eV!@
zv}QGkWR1q6hDS%-H_FddRM*wKM>X65%Sg)f%GwHf81GTL9pPqm9Xr#Lb6dE19H)Y(
zu_pN<PM^|rePW%kNKTzu!(<<&#Z&cWldtG9nCe<)i}@#v;DmE$hBIkK+i*f5`t0Tb
zNaqRQb{Zte3$eIMv~yJB(TAG0dZ_&=q;tCqo)vr=M6%379AECpC%3}cY8^J`$|Z9Q
zZIdl69@2$wk6A|hfLuOGgxn%u9A_<zr_<{+`cW)0IqV#ZaEGeb8X8+8wmE2Ms*WS7
z7H^w>l}pt<C0AHYMHp<+J0oG?50!n7EL2d=_g9ib?%ybl7HRa!J%a2fAn;T=B@ED3
zeoCl5o#ffBaK+WFeH~R3j8!z&Jcl%0t{y_I!b+J18AoWimt2M#F+Df3UhFHhp0I54
zh%1^cdyfkvQ4^(Q+D+9}TV!Ch%U(EK{{RGH?HwN^n%V4C8q*<x(!%FCovg9FL#|ZL
z9QfMeE!kCcw!17KLr}vs4mNX7KV`Y2(dcHU{N*gId{5<$?0h3B@zJ9c`aFwRnzm>R
zrYD9f%_1td)U>b=4o8B$rk|#%XRY^!`Yz;K3eQmdH=>H2m2?HsxOM{VKln+_RfmJK
z5!26XPh;HT9zRofUW-HdYKkvXl#=^oU!SO1&3C5FG);TKYk<367H*qU)gi0&DBc@T
z4Vv57JSoYyrc%A4`&`nfq^Z3`KbLXN;60?QzOAOZ7VeMS-o+KGSL!v**(`)g)9#Me
zv0X(aYpLA~k$RwiDIVoaP?ZYj4}FmIm0+i;5mx^I7MSu6Bj~*lP(>{tuct}6GA>%Y
z$&j<w-?_|i?0E}CqH6Q$<7;1VM;xm)s$#}U?E!TI3o05-+UA?{kW|#2U0+K}`FA<9
zGS(Zp3Lc@Fr&Ex+2!X%!g-XpLz0L%(-yT;w$LXCC$eOfX^wZ_8)m<$?xO=WM!u1Lr
zHG-D$5(mQb9VVK3LL_8PW5*!yR<lg%zstet&f?b&%ce6?RE`Njw`?O@=@D4xOC0ZO
z{B|oc{+KLrjm6BJrtKjA0EKU>b&lBg#d17_ny%|<9`=_;96`b2%5#;C4pC*KRhpG8
zLnEtysMg>(^0idcQED`sCJo=^X7rktbqyQZSR$(1?P=lPMN?LFT`Hqwkjox!0T}-P
z<u)AO^<m3~{{UoK>zaHpJlFt6K?^Ia%NyD0%HMYz!9?o1^wUHb<74N#qJ2GfqT<%E
z%{{I#RVT%*lZPeIq3OL+N^P+|Pf|Vw&t;|5CxFozVsmarLi4J9KU1TW2|-}&<#Fmi
z(%UWXWFXa2G~({cU2dvLY71HVuY^X0Sv;;0J;kqY2e>Kq8YNA9ZkCv3g6J(KDz;X(
zo}_GZPqdsZI55GadlyUUp1e`h*Wu#=PR{zPjYp+)%KC;+I~dtJO5Wq=%JW)1S=2x>
zZ*XswaR*tSN77`MXKS2=&p6F=bVgA%^*sZo)kI@!7}xfDFo31$$7xSA^S5+;o)spa
z*A-M1jW2j~4(v+5pQ~Ziss8|iNgdCErE>N?N6<E-qqdm-W*ZO%&AX~<O=eHcg65DT
zb_Z~V)cT^LCprK_o8<7S=(R{H=Je_<5xymF{H*cIu&KwR=)c3=R*zDoU~GU&2f3wg
zMJq_$Fjvi;C#}?JI+P5Qg3Ex(8gOsI`U9r*=&Pw%*$5I5=anb=_9T&F@EA78aI<}9
zr|H_Rn=KV|5zQNi>3IJD3sEy$AUnmv%Jo}c90l=R*6cY6Wjg2)TRaC=={-lL^%qs>
z(zw%J<`QpUqnA{rtcZt?N}}0gxGKx8x{h%x>1AY*zqFhK@K>AamCkv&w&tJI72x@+
zD3x|Qsfnk1-X0t;i*{IDN~!WoXMzpzLN8a=By@ytE>J;JPgLEq4*Ymliu)2$zJt1V
zRF(-tWO;LLw5|Mwe52Nf(<I@*VP(J4UIS!}*By$o((4^W{{Tv=J;0$o^k^@$NZk&2
z9r>L)Lgx<6?yM;F2?+G+q79M1s9MDZrfL&YA5xZ3SmBlxaWwS0q#(?}1xOf?qx`Az
z*2;WeObVuW-I&SPdlV6K152^>3Rz+?os$4hka<Bq3%G_7Tijh*5wcT!McDR_Qr85l
zT3XqEFX)$-#z*Kmx6xI$V-eWwwLFaaksdrMG@h9SCYjRge8hf&d#GH?J7dq?5a%*R
zg6jugkfD{Ncfb55S_9b79MkYPM^RUrci)!x9uV+`y@90Ms3s1D*EcQmZV-Dldo?gk
zPgu`mgW5(~Rd%C6NfUsEYZq|S*;UiX<~!Aa`%im!Qp#O1-bpfeNYh0XG)~xIb9PA3
z9y_6`>5MJhEJ5Ie-^@9V+UDF3+$S=yxr7Gp9tsyA{-t!Tac)lFJ0zp8d>4uB^&;-m
z$oeT|V_xF+0@LHd9Mf<3ca@xMUP)|qTOoTrYIj_BZ*YPnJo`w$bV-1=?IPW;<qP?D
zMIn9ne5QnG5|Vuldr3$REbu<4kihocro?g+BxS)=NKVEW$QUKV{3bd(w<GSQjjoJ>
zJ<af^kTkb@EL+_MnTpcKGun7vYaC$`_6M|(e#lo{n07+O81ZAfgXJ;qBv}6dWiW6f
zX|_`&gj((WmNv);ZR}fOn&`_ge@Wn}cG~^?f}I`gKp?mJO4e!xdrM9Q!AMB@6kgC8
zOGU?ao<f3H!FAfQW@u-!QD@+e3WT(^;`s1<r;tG5as4(afkzgDk;qI0HQ7t<zsGMW
z*l@_o2+T5_;mz9P^eQT-t=kF~?q|4gjAQ*~*mL8`ta5r}+)D7$PaV;eu4_oYWYHa;
zYcBNM9f4(Auu}|?vAA3j_dv?f*O7GTnImJm4YIr&J1914Mb4f#MqA-QQy$q46ZE;+
zdmDu{e2{MzkX>s4KHq1;VR05|Mbojbgpx-Ij(}q~w}p&H1-E1pjugew+ya4gjEZKr
zf>oV0Ol@tifHH%SQ3P!bH+C)9s(z)cWQ`ESZ~aMi9ZK^^)*B1hDv4O)OUd1J8P3Wm
zk;Ki1AG#r~C%+xk0DR?0!UCO*&`Tt>hanLIJwh$Q8lE!ufHD>4od6qBWXZ)0qhZ=b
zIKtKGw9fX}XW>?9u(TH3531H_QN|h$;8%&|XKe1p62nSufD$(2%DQYp?Yw6yx-in;
zZY&Wr&wOtL72{2|_H-R1NPV2r50qsKi*RhGX^v)l+h=)Q99tccaG@v}22-?x9>Oo-
zA5SnQ*V^PQGXSw^L~Uuquzan;gJpzn2kL~?SUn?t<0%8n8)ANj=t}C6=*wJj<u@jQ
zN0ojcbncx{=hag}*eVAlg2CTafTf{(WU>7~*?O;6G3{&K&vQ>J&Lx<#sE{#yh3)t`
z=P1);=M=gw^g2h91GDv8Ixe21s)%omyN~x-O&Xv$fN}o-D`lou7@98i(LAz?5vxXL
zsQO*>CDTC7?Eaf9HA5qPLz}e5;Bwn9Zl10Q<1LW1-?3OeuhXbp9W+gAUNdpZzC7va
zh|x)-QPDgBD;m;!tt|$hNZS^Mkg>FrU7K8U*sHBCP?i@B?j^m7T%3T7oe^{Z2IamL
zoF*w_A;4Vn6&|0eQhIx8O@ZKp!ji91iU`Bl`?Q=m70#Pl9;`a1juGu6+IuS9Q$?qe
zl)eYq<F}M2`m5)4tV2(GqJyL@1U!&)%BoWAdTAJKK)RN9MNrp7Z_kxgS7#DgwZh!3
z-l<7XSPLp+yL|TxJts@b*?meXhe;7U9)61OkvT<`x+bqSoiI4re7Cantpcx1)oFyW
zxH0z2Z^Fla=_%)7a64V#ge!C{S4OFAL~fC+87^)>`h;at_GINBN2x_gNKLNWpFPl;
zpG(nKGkaPYAQ*FbRWucKQc?*d7dFG2kW(AfQqxFSOMwT1rkhNqCI>!=TR|nHVSInr
zY<<$PlE%+-Jw|sO$I)o?uBV`^c&4q}1KozX-=*JFZlR+I8NL>`YqBhGQ@Jv7gjtVl
zP|xiI{RzlKMIWRGr~}#$J^tv5%_;G^;k#ZucSF=NZ$oegaOET4L*s5elSxmfY68{}
z&A@Q(gs9T%X~x%sEPb(?Dmkm41pBOTb7iB^I)W*f*3>+?oL`dEckE~V6k3E1i`wRH
zVI9J)Zl6%u4NjFaqm*RF{I2^iNuDYyrnSMX8@P3@3XV>mjqEa0fFIx|jOa#Vbj^N7
z5l^Va=*htZdr#1#YN+6?Z>vt>zsN?{(Nj1YT}q#6;7PSnRq2|JkpBS8Y4VzyZg$@w
zd@8A?0j{o}PX;=u$za9pa8PpU6mC1CBpcybQ|eT@gnpGs+Ws!#!Us~&96^?q&5@@z
z3aY)4lwW8!OV-3>Hgk4%aO8be+*J*go1l1mUH1zKOzCMREUAdPFQ!7!P`S3>OE0wY
z0_U6(=&m`*_7kZ=42I&{xhy~MP_dH66A>*u7L;jxQ@7Kryl?FAaEB~(4k5$TVd23D
zOVOsif-<ArLvVYrqMF#|XxQ@8-Zy{2PHYfOme`TUl*uCv7ICrcRlDeo{fPQm3$hD{
z;Dch3lhi_O>NwlT{{SiQ%_L2>WN7koh%JhCg5kFP$0@G66a5hS{=0)Df297->{G>U
zO*@QIZFVvb4p01pfCb^Q#CUM*x@rgPyAP=!Yw{LuEGv-sUliBa#<ZSVhN`A>K_R3B
z$3-M=4rw^>j;5_{&*KbvK_<F2uVr;LT$KL+!+Qj=92U729~<M}Oab#5<yf;wqST`Q
z0HvrARsR4h9r|DNDu!5U=xUu5(LIl8?kt*6v;~rf%cluRo{hpef0{nUbu~>zKk(iR
za(4%Ur4=oGkLh^+X5#+<RVkJUz=pMr1GC3v7mm9uvL;<<b+S2@WcG0VQM-j|`6GA3
zkMg^^#_X1kK=|G2L^2!>Lb#yS87p>70aJLFXk{|TP@*+-u4Es@7R*mR;qnT@R?@x~
zxDZ8;2LvsfY6ZZEn|*juRzV$eNT^}n2ewhq-Dpk0npoo`VcRR?b-}S#`hKMoz>cHZ
zPxD<zsOj=kOSVufcz0r}=cg?kVRfk~9Fl`wn#jGe*gJe@?`0d>=3KPhr}tUyKT(#H
z?Qt%T!n~!bhGv5svVWH8k&!HKxyLqBMI&!vkE)IElHJYc!h{pt5n_rMHRL#ga8#gz
z&=1)K9DpBjxbxW*(oeaE?3IeiM&a@jJ|@2-2eG=3*RZ#KEW2^Ab4eq*20}Qwk2eX&
zWQ@45aPE=s#fVUc3zK_zOb=s?*mKHK^MVb&2vNFMH2bsim5yWZ953}s8aTL@T;VXz
z-aDm!;0?kWL7TWAsZ=v$#%ti5c}Pvi^?ae+NCx>HQv=+?e#f#DDEUDn34!j7);S5=
zuaSGEI`<dl6A}kBi?rMxLSw<c=9~N`WD#sRD08pw86DO}Vzt1HuCQEg21XYW96S--
zHM^UK3@ic6dEJ9!;G!as;0&RSoyTP)WD{rK>aarE_PAL7-P4@WYzu?gK;{u=4i9jZ
zvbls`Aa_{9p3mtx@!>-+f)PSSNtYXVBmPrnj0+rC_*gaz9GgHEHbloGfW@3Yx)xZh
zOPTitBvNL^;@yyF)*O8~2lTtjM!oSHSQep~Al+{2Ry^%HvI^F2DU%k(FS)k|xJ|W<
zh_DHuF~;pb@IvOek88!n`3R;j8YVEuBXN*bbyksZWTzpn@T^+g0~@}`n4Z&z1-k{b
zWNMi#K#3W&j_RIjhlwq7W$2Yu(ag_tLxQ2ybQs<Xp*AD6l00at%Kely^&Y3R^XB<d
znO?_RmiAE3K{YglIi|{J0C2HCVxuf=6;n)_DYx)*@~3m5nU;~EuJRC4QoLR9k_sF1
zGDPc3+qzwcOg+%a3$DYtrAWs$<Zk_4)HKy&7CV8#1rj0>4bfnZLN|Sfh{>VF+Hip-
z>~)C1Mo8z!gLMn7APooI;TsX665-g|>Ivc}EGOutdpzAn;`W;miZWpA4rx1w+@x!W
zb~1_}JSbkk4}?cu2;vC7eu=i-@T6(R*JLFTo<|FGDEfE0KKB6<>DuO-gfA_z!gB@B
zDZ3T1#!EYcZy^;8KqAK0Ooj%yTO_FFfzXq+E2hEL$>)iZ3$+0Fp2u;EsbZ-uHaJtZ
zXy1Z^v@&)H6}MXG$eu^EaHEnCa>9|Vc(PyYYY6oL&CULbT6&i>*qed!gnJw_ketHd
zf}Si_Wv~#=(|$-mRa3Q&+};#MXT|{p*>~pmVHCC_(HR4S%7RGlF_5Q|Il76iEjdKq
zf!`4Z-N8?cxu(R~NNn$QlU;*r;b5X>NpWIt;VtqkhiD^%pOo<-2E?ReAc*HI=OgN*
z_1o})d%?I-`k(fpRywoSDRiAe7y4C`Q?aA4cm5TTtEZu0iM3EUr;<4e4ML8hiK0m<
z_ch*R$x!;cV-9YZT2J$nb=LNA4K=XIROZDg0E|0fApMi%mT(JL@ZdWTNA_J$6Wa4A
z0`BFcSxWd^9lh}re-Be*FR(HyWs}=r?!v_%4IHtsOElwmji(5j7^Rl`SjfQdBdkAl
z4SjtK4z*0>t{A&A7HnnMWi@Qgh{XvFHpv3y{^`|I>U1<;nEwDxtpUQ~P%P528kVI;
zETB@=Ij#O@Jngc~bthLtr@;75rBPP$J-cchX8n*<*28qmey{49%4&ByX$wzwJHPI{
zw_EC+M^ZkE8pcJ~M}!r1ZGNvgbh1q=PaEBIRV6fWv8C~V<nhM6i0AYTNkb#t*EqXz
z;|oH{4Mv_OnMCZ5wXt-x^pMB{iyjE#&i?>~VGJ)K<*$Bma;wr3t({91L118y2g?Qj
z0CZ!0I2n1d=D}5Jx`5N#3nQ44Gqu@G>AJmBRH_lhNfRl__eoGU5I(6k#!*GYT84`x
zzMOSc22Kbp0DpCHr#2u&@yQ*VkRH7Ur?p?hKAzJUHH|Ay)GJ!tm?+DfPsu8mtF?}X
z>N+=#9)bE*Nc{oP5DEVP^j74TLE_n#)iuiLrwsJz3~fKk!an?>C^hXCj*d^x%^;H2
z4UCReMRiO%eKDro*UI5;G4(=GR#55CxzCOYx!!QuBe+4cK{h$Yma47wzJ$&M`%9g;
zsb(~_5(y`iwZn$Hf%`2-L-cP@brXLzR~$NKoOApLtXvVjTcUIpfdP%t$x~7X>obtz
zeu|DR3uN@<%$$v6l)jxcL)#%14r@>RDf(}tX({T4r>xfgZTGl}L3aJsk55aY)j~_?
z#SCrYN6m6VvpVNTQM8E+)vj*^rwVRTucC@EJF2xEAn5Oc4wKUh_Sv#UP4527&9si0
zpH{4VvS`xA!t8rXK>gO%tMM+9Dv?W}=u%HH!$b4_5Y_d4Yp6zQ^%}@@YF<lQhgleM
z>=WXZHdpFeY??#@6H3_o01f{D!mW;iI>{Q@%UIisl83J9ts71b1Ju;#AN!IMYyB2e
zQR_<Txrk(KiJS(pqXALPvS}mSwEnT_{*2Qa$~`(cB?I+u2Iu8tdb9DHThz<qr1a^-
zje}zsHePJXZBJ4m?1H9U-Wt6p@Y|+_ol_lVv!s?n1@}}lx>@9vY-nPSMs9|isXB&F
z%vZjtv6G$m7aw)J()Eour*!7QMkjS(9I#(1>!~`D4PL4(A5Uy7fLK0Ow+$ZzBcr0z
zG-^i81Z{h*a`T_=h9}N9(D@*s>$A@_>3Ywo!SxK0Q@bF{Y%TOcQE4@l5!zi!2Fw2d
zVOoBv>PVj-qYaCni#6C&bPk32`oULP?Tx*`a0bcJjp&<gEtx8obwyN0Ha)cw_AhuJ
z<z#hzD_@RcW`y(09vnZi_wKm=07=qm!{e-`em_Rb61={@SkR=DxQN){$!M}!Rnel|
zSU*Kl*Dx?u$5z6BnWotKFH?hCk4)1&Dssm-kLLkkX*!Y_DcMN_TPsHn&C&GLv$^eS
zBWZtq*&ni1p`34Jk*%)PYP~1Z!!dEdb3wAdhodyO=uK9sro|W{`{TPv{grh*jG=^8
zP3Xq!T<pTi^{-x6)WZ5YYKKP`4k6rx{E`AqkaazNjX_f+6cRiTY!2(HeIg+~pxUaM
zjm4(z+_6>7Z1o$3UEJfGtwx<p*l8H?R$S|Tl9n3Tr0++gGpgN717UqFJw#0wwX9Z0
zTi5BOuW#hE#=|4dTE|==eH~TM85^cm$sNC2B5@Y_srpKduhrR8PzyFX<8yobs!Jy>
z#ZYnR+jMV2^-j9j>lsN=Pfl~e_XX(m`UueJ!z$^F&H~4ID%+v|01)8QDA`Ww82H*O
zOKtuTpNPMTdR<L7<!RxLN{8S#XSkoTS!Ik?m}3byvW{8pI1%iLr2deo`nO+?NiBP$
zjoXcbfw(_nlcsuStF<b@tW=1jroF^B&69esrnFshv60qluB51kI|l`F%aps()d;Ak
zTMX%KXGZD>n@_B0w30>*!;1yKW$9WzmC}xZte~Z*jN02;FuVg+nukDhW2MxaAZfL)
zYooNjyN-x8-k~nH>S?-oI$G#St?#qa`uj_#rH$KLwS;mF*OA3jrci1xG65@tyPgU^
zs6P?^05wGRIl=cIb>rt$s;JhVJ)UFVadw*_8|9-)xa|5Trr%Gj2EMikBZ}DE&~6r@
znv<pJ<qo6#xS6)z-GgZ#Mc{C2)qj?3aX7_c%U!~K6?UK{6310Bc**y2i*xA;qK~2V
z2{gaUi6Qi3AZKfKtTw;ZT74Ugb4}`j*c^p`)b-77N^PP?Hy&_RUr$mULci42;WDrs
zv9IMUG31=8!sQsNF13!n)7nf_u{qBF0J#UI>eTg;32FzYo7&i2)=_li6wPe~3&gGE
zuHb#u4HWRcA!eAnc?!=L4|XTX&-yl+hf=m0e@dC*n6M#ZEA>~pLS}JsCiewf(De01
zbbEzdPKf5f<x^@MCtmGC^7M~;gOBu+x9*dbv6OU8r)rPfBOB~|j!|>#H8gHA)3wfU
z&K8fRIzL&Vq}^Gk3dlJ(W%j0Pnq?%BUK8lNc5vY^wP&357O$x5Z)|0cZgMk}XHDpy
zgT%APyqwtfSCB<ZOS|(0kAGr$2<;F$qO5J&SPl=BH!F0CC{nf;rfD0cY>Z$L_Z}79
zL{QViW=O{4xw1Li8Bgrm#|#@`WcrSwrU$ooy8I@Ll2jzN%(qs)H`cU=f_HKXpHKXc
zq71RZ=btL3kEb<_ZmH5z#7GYPCDtWe>7R#PTT!V-$n^P|&_&De(m&;EVW3L6;D$g2
zJY}TY3s2LXGe=(lo>;Ea%T5pOy*%^=n0jn}c8VD4V`$~J&Ah6<mZOcZNl55`a3oo$
zuuJl%q5dsdKS{?)qO<bw$9Ow2*|*(4sj48EgqAklv5<nO)2gAGNvYX0nBH5;&+66n
za>!w82|OLxAu5|;t~)C$G>1N?*9GB(^3#M~pGiqcd84S1zS(QLD-M~bsgiKYpyox`
z99?=8G&&R-dG(`>*v>gs_^)?DJf4p(msWLDrjig`?ku$Z3qvmV2$>^f2Q7G6?xPe9
z)ZFbpF#*5oVjaCpt?0AID{CPw0~pErrN<Q)Z)THiQaz3;avS_<Jr@rpXZo958dE=u
zFnf3o2bG(n>Md)j-RQPx;F-e?XysyhvqabEbyoiXt5lg;zW)Gad2-`vXq0N{n@X;m
z)q2UX%*h=UGmq-E*1x6y01GN~YEvY7fg;y9{{V$2;m=m-lo~@~l4yf~17nI4tN#EL
zspw3Mf#Th^mCF2x<LIiy<=LL=*mbQAK~V)*bU@qK?mnSsbk_9;QoOc0wv5>JD<#yu
zUtg~3&NTBlMo+w73t!PXi)bMdmu+`-Oj&0x%{*{Q%^e@%T(4)TsLE%)NWRh%)O7V0
zj5ft$2LOwZj*F_b4M_f8j5*|ByNfGrD?qEPc#^%uj`&TV%EyIm?2I8PK94@A(G7f`
z^z@boy^-2?;k^vM#jl7u+2YI9WTew{$~PET$2<(1FE{Ewu`$Uk6i#U^zWeaJe3|@=
z?y>0|aD*bRMU5pMjiNL*Fvi(gj-k_xMXj(l<*UUtU3#jrted>IvqDM=jcQ3nqIiUy
z+m*2XDYwfbwmb4-w6tz|roGj3whBs(u5rn~0ToT6)ams90G*1uR{$<uxn!&KeOc7v
zt~uKzXOY8#wxHMQhLr6;(=TvgZMj`v;;b=s9gFihw5$uMdW%$(Y!vk)X9c$92Teh&
zR>mJwB$7sWXzZ`Q4|FKCH`G3?0Z<+7W3X1%mD+xg=TgfXOMuPry0GJ@Cn7m=e$^Ar
zDyb=HX&fh~vA2trouH_V_3n*~aE{|>E6}>eze{_+>4RMJ+zf@7i%_P9&Zwhopd0#)
z79l)$Et$!<=>@peK?vIup3{$_^zXvRbp5fl>|k*Nb^EV0hpDOF-GTzr2eh~#D>}}q
zjr-}rf$j1zRg}0pL|l0z=}w{3GzyAGZH5-U*(=HVm($VO^Gz<+4mP^hSeE`L)Xz#A
zESc|>L)1M_Eo>V^ra*Wrn>4w)NVX`r`!yP8Sn49J%+w}y&=Y1p_bvOabUNJ})T3ov
z9@EIUxL!M;`jcIS#20pO!ZuwZsgrIFdqM8fsfqAZEdKy@Z|il+T4H~U(mY*Zy05E&
zacpkSYZY;&eje0oT3nSZo#oB#yCketS4m4vuQrl-9qJcY2P)1@6N*eTrc9cpP?n|V
zo(lKwgw=HYGK4`ZeLD;|@UV0rhxPg`G&Qrv9?Ju{g5WI~l8MwCo>~AIy5pOURY{kM
zaNPj@Ep;4~<+^PI;hw3na5%TsXS!4H_6VLTsvc+Gmt3m7cUIG5uPoX&Uy<1zr}eay
zj1V>Z;vc2gTMRxm_8G~@)>d@&6(nKpo73^`KsQjKrVeE8jl_R2S^aORe>X}<kdGqx
zSUpEmnbH#+i%L(HffcQq{;#jnXB*;@(he-Ne}^4IJ1EDm9CODQ_OjVtCp&8^CE>?B
zuS5Jhsgi<5esQEX=eo{HwlYrik6V{mZlg~mw9q~`w12YZ*x%t-()8@QynelF3_zR)
z;Dx5prP6gecE0V6?HBQNX&rSP%n=6NxXOGyFJ{Thv(I{$p=w*FxzrV}xNqru@P3QS
z=ya)_T<B_d7q!+R>)QIMx}?pK)Y5+l3`R1%)w@Mon^X)F1Iv?2Nk|Dd65mU0UY|-m
zIo%lp7dJraeL+0?>6}Dz4s3r?i&52^8$B>?K<CQHNZP$aQ~v;^w(*-2&%$=nM5^A+
z&q#E2CsIo1RmdZdWCD3w=k!Gekr@q*p5EkkSl*Y^Ur!MA9_S}$@{wfjt^7gMMJS}-
zmf$-1vgV#zRYz7lY3&DVbvkVuj9ZxF#>W+itgVh3-&zL-kZuPSRI<-ss!h0Vad!mv
zT8^LT3Yylm)nD)3a>pE#<k@#6Tv6*khChf@uG5=KTK3orXO^b^AnR26j1HxaqA3{h
zU=C7r&*7GpT|~yqx;X&<0C9%JPpN(yN2Z<eOY0HF=UsJ4x7p64O!2?{B}F8!l2PhB
z{{a0zWffM9QK0Rr3}fN{0JAn*o}{96EKe~36-0mCW@6Ny*xvfPO3vU61xVD9Iew*v
zfvvJ=N93w5(}Eq#O0<()nuKhYH#nY1UT`W!HmYZ$XYiiyb4EY1+7=T)+K3z^HoK#D
zZ=z3)#pq=;`wxYUtc&wRG!k+xVvnY*rW7WQrWU!qi-!q1VyjNpLul&i8B0(Ff$o03
zRi#(q?z2}YbsbY52^eq}x@A4k96gzymDFL;`la!TkjSJUG+)|RuukY}H2uW2q3y93
z!Cp(RejnFROM0^QI^Nf}Em22V)S5jYrJe7nrT$lPTlZ7Q-BKSMcVS&u(7J<U6}n@Y
zJt&iOjK8=G<vOpR-6bP63Kn~|g6Q4F)crTqx{PlzJQu|5Soiv^{+p}D`gXO^hPA_s
zaH)zC<Gl--NlQnUX|(Wrqo|3kdwB#YD%qtp?0i5Tcvsy)6%#8RGzGai7v*ERnrP#Q
z$ra1n%SRzmO|3F~6WSz>iiT-#P8xIBTUY50Zkx5l7Lc+!9;pitt!FYoc(w}Hj-#hE
z-^8`H<P^@Ng;y3}tLfPc&R}(qg>BLLT=f%r&2xh<z~xoz?0t5iXP^c~6OFvDV*EMK
znf{XuPiD%EpprtLCY7PmQkKf1Y7IDoN4UlZepD42T`7w420gAF^0j?sK>BKXF`kr`
z!@$Dw`mI8Gd7j5hz1PVH3xatvPE?uS3~-9Fm#Mm97Ek$_M~JL%ZUI`}fP3FWBdB8?
z820V}U+$}DW&G@-I<h@CVH*81qeyY7)81bR$#25x!m}v-ocW$6%gtt+M5c^O>=IuM
zJ=3&C(p5w1MH^sv{$A@5)H<i;Vrv@{oO}NO+Eo2BS5aUlmB+?bpE-XcMa6Vzx}FwK
z3$ASO{nme{sv)a$^xDUmPU|(-M{3o8y^K4J`71lG5l+!i##zHR2w<1Q_N@mrd96Ah
z)_N^Yni}~X`G_6*WNvJP=$g7gs0iv>Hl7{f2|=${>P<8+mCg>sTI_<NW}jO@UHoVq
z%bSdHx~0Xf9FbCtwtH#NsH!L%Fmqa5F4-D?%8G+ik4c@B^<}^Iyc`g+`Ug-;1s~<z
zFdz$UD>Kzv#Qy-CvmXBdOy_AgvG`o+wDeumj?Y)sD(LG&pBtD7;>BZiD!Cw;(GpzH
zY!*U`TdNyez1Q-zH1&|w!UTfPx9ak*+96DeSSPD#aRIHjoRv&pE}K5r2R=LI{HwQ0
zV9xswC|b&z8rWRX{`ZwPcSTZ5X0xPvii%oc46PGE-HzqIMK-ZnrvQH|D_;@dUoBp9
zNl#G}`<h)595`@M^>kmEXQ*T>n%S|zS>lsHj%dfQit5oU#x}4Mdjb`{fkCXY(?vGc
zpX50UBSgt4st2!oe3j|FCtpt_E!!YC<GRts6{!OzXD{LfTS*;cCOt-z-TiGD2zaBl
z8>wWI^9*42m;Rs@{z^kv5AY$};;L$Tc4s)d(R5Ezag<-`G$;0XeyIfy@eEE8R5O-;
zQpD=@d#=}Djx4=XuR2Ovx=&sZY3m{$*EC_n!tq^RI=Xt7L01`UgZrz+@&u(_8qScC
zp1u}EW*M8<jJa)Lh4jr1r8^z`(75yTUS-m7e-<;4;CTljdQ1YPkAT-V){FTkXX<a&
zLp*GJGNVt@aLGHwg|}%r2eRIck<o1f+5*mWy(DkgV}2cz;H?I^59Ku1NgIjAM|BQV
zT_j?9r&MJu!Y8qhjpo}(?7X+CnNBOeF-vB&`+yyawCak=ne{ii&udt0*1H#3n(5?`
z+azIW>`Lo`w1`c#%S}I2gHSDwxCT`)S(A_E_;R?0SH1T1OB~J|JFK>yMCQsQIrv)o
z32hL)g@v!(UmSS7baPGf?5^rD4D{wl$LZAp?Rz+P)G7{^mTJ9Cw6nU+2E_PUE~SnW
zPGxMZ4kPreeurGjT~)GQJF=Qjc4~Bc&rfu`5>vKF%Vce{@UCh)UXhWP7O?lY3p>$W
zK-V>fmQQ`G=*i`6q;-8=8|9{m`hZ--dyj=2l-7#lwDx253L042SXeMTEC*F-t@RB|
zPXiXRwdzfBvD$;_;f7e|VX<R{h*8sNHTs6vR5*sek_H0i#|iVb(Rt1)Ei*NwMD_<q
zD?LULV{|UNqB1rbs#lADLF6s;oi$ZK7?vwc&l`C{RcNfL_d*^&sfBt?!nS$oNxMZ4
zL+Z40IkXdxN}zs&#^vg?j-{#7#TK~;mK%Q#YkQgDd97DQi5u$Ckquii0pZ^t33Tme
zSEg{&^#(}N%x#nYJgy9olpVzF#U&+DG@9>0QiloYWo(hjmc70I0Qp&&=_S%<44x;x
z5OU#?7N<|v<AR#as0E<^0JcvbWZKI3D&lj9VZJOtPM<jJR`|UT&_h92N;f%@FpPN$
zlUkvIiNy06{>kvuNliJdq<xwWWB&l*A6q;+wK<Kk+FNmDu_(PKv1cdUXra?}i1hbu
zdk3cM2|In!bvk4ku{9BZPav?Y)}=#Tr_T80h`ty904=btdRDcxkccCFfjGY*T{m>e
zzAah|qR^_}7-d5m=*}Ad03TJE>OCrbKB>(C%^kcsdZv$A8=1CX-*=u0gQzJq`l?68
zIS*%S`<wJto1{)E-5yIoe=<xmNE>e@YWj2d4s|rf%y_e0svn|99--++DJ&-KlnWJq
zNkud;Y>~Uj;lV;*Wnrx{KB3X1iZ@6>0@n*GLoem#{w20<u{^DR`siz2r`N`1hTB0r
zwNf)iEU0$ECV|G{#b?DU4L8xI(jpZU?Aa*Ua7EAfUbE1Zu+|3A%PEd#TFxEUi%`*4
zY4J$-cRm7du=3xcK8IeHPnnZCN43p9*SC@NQj~GzjRvwUpGy9EY9<J3ow=XOC;n9z
zQ0j5P5qq2nwZT{|FY!K(wv<s;%+^W;n)h)30Q@Y6TXmnK6X~gB^+SQh{{Tw!UO6dI
z)e81i{w(X%^^$sHXnRe`3&?d%RoC`A9u(T<qcu#<FL7}yq)<s$8=V`6s54@DUHEbF
zTP2o%Lt!7BI5u(Yt*CUT?grUaI$RUSQ)0r`j>})9)(kRHZ<{O1;<QE$N$j!F>EvvC
z9u0!CevuViVUjV;cV~{tlvS|O$$9p^B026Brh=-5ct@l`zi#V?B&40AyBdvAlsbJy
z1mZawZTzRRliKIDP)-Q!wGy?HHPJbuM)n7h^i}orAhE6<*Ix(9Rg&Jv<4Z+g4w1g%
zN$d$wPrjJ$elOq3DUnRcaxT%`6IV>in07lN%ei%<icZ}!nbnl?jgKG{!8nB3rw9#8
zPJ1Wzk}ttfGAe;~OUU6i#cC;+Pnt5#@nrXE75a-qi(huz$_=cVGB8?G<Pp@gHg;@y
z;ox$XR%JwzY63DG)5?}TQIa;#IX-);$#nXNoyO)K2nuLuoIox`MZJR2VH3c1_}$Mf
zMYOh7Ze`l<9m1>>lR|yBMM7Nb9v%~V5$mDy1A99s%1C7No(ul~PxU1-wb+xNDY9E{
zo1;JveLH20O2RIDcR@H7JdOzEB{fu(zSmvwyOH5bR9P#1RugY12UIc6W9|!VP|`*k
zNe1a$=YE%V?wDlkay+bnFt*tkBPqq9!*Ch59#Y?M9mkZ*mK$<Aqh=G@MZ9tpdtDhN
zryatULdUdU2eCuSWQ=>o!R`|nZ0rTQ*@t%saQl)T+aL0ZfX4G;;0jsbY3H9QOa<wO
z8;@zX1tWJg#1N)1%EOVkb}NmZGsykcW<*i|cmx##uYYjJ?h!5|9k2Toj|31ef0Pn1
zId#8LBn}8oct5GRQo1thx;uQ2DW#jQU_-lvOblJ0@{z%=;Y#L$axCDZEg;-r-}g*n
zFb_PZSYGzJTbB|$t_@hkfO~E-lmb1>{>m|S<S7I0E|r*;DFd1}ex)!BaJVQJi~E|8
zNcQ(dNv?yYS~-k#J4y;lW<A!yO%*OJ&B}<*;Ol}_7E99+z?qbfX!czPSx-15-sKp|
z(gmIW0O3mNpx}3mSsrLwXsT^Y?T>B9O3KMbE`C={?s+XdsGKj_#Uq%?Cq8$+e^TcO
z#;QQV)|+3H&9)^q%oeyv<Tnx$NhbM9*&NaEl!VjT*Fm#WCM|2m;8MdFd#r~Jw{;|P
zZFR>f8y$aTy(>gyVOmp40l4g_Y3hd#<rvw(7rN%in<*7WvWB6KXX>%=jBc)AAF9B1
zSV^@PFj<6y@R-e6()(sTxeJ;2y!Og0wWHBs>T?!-LR<A$8fR8gO7Pia4ZjZY^<FnE
zQ^CZ9gYt%S)3#9frYt`RALHWC%QHvPl=ZAFX$}M&wZPmITvgWoVP)Z69o5y86Ec>u
z-nA(_9^Xaj^tFwe5j+px!~2Eg`5q*&y`2%7lF_!Ju49N70HYmIabmGF)tgRAyrixV
zj0YXU-1uCNLv&fqRvU*KgauVifg#rjO+sy>a5o-RJk{lf!PxMo;@cT)8(gT|T-LiC
z$Cc;$oFLSh8G;T%*lN%9n&(99_X`oK%OhkXAog<g{0%Z$mV+p&LqOW%*AJCvPpr(t
z>BtB@vx2h`nH&MO*LFTpBC5>{m~p{gyTqm02+gBGHmOkTvBZ7VMx|X<Aah*n-^oC>
zcZZVMF4A~TmEqX{+(0A0E=?S2A(OB;9$H9o$yYi>TNvQUM&=b(Ard@a8RcDR`aqSS
zHP?65Y0!xl6*R4yE%cI^8Qqu2LeNW5Ln$KiN8OIffBHtDOE0NT=h%NLzSE<ot%NdI
z_D#XZDlV%<QX!@^@~}@#EPt9a*&R<K5400+1wm1v$iiO<b1lJdbSRFhH-8nbus^6Q
zwoyybX!wE8Ay>^kO$9?{rn7)P;Cw3@H<y9CpCLtGLm~boO$PnEqL3MBr0Z05p3)f`
z$2ab-1QE>`7$A&%uQi%IlakM4o5)1RuT@gTvvbL4y{@yx^bTKUo~ulfif2he;MO?Z
z(75|u{{VyqR+&qxHyfa+X!kMPgYo54JF6s;JDt)uxEzHWb+^>*dm8L;;mG(!LSW>Y
zC!a)`2YPi8m&g5KS?C&$v7w!;ajl^KXkYr8KkX_CT~2vy*APc=?p6H^Y??m~wbpH*
zI`&z`S*Gf={<S2&;riot9MkkcPeuqWEh797t15KYMOG?d-3$K!sfPtw(N@kQ+dFQ1
zpDQI`dg#k*nlGy7du&hh1(T?vtkbHl((4m&M+?;IHp~fYZagXtW|r`mZLs<xq~aY&
zhoyCQMQEkl?&YriF8=_+*2H9erl5Bpsy7^ur<LciK-V}17Pb9>@AO(d8ls{S8eHOA
z*zyuf`X7#sY;)1-4E(mGN*d#h*6yjbu9~f&W2e*aQ&0Uok@iQ$J7-`rM|ThA3g1kw
znk#H}=8jrYsS8wi?zN_VW#&lYbQ6yUztL7uYW2Eo-i=cT4d-ydUgNFk)Ec{eSePm5
zyp9Q2jblK3Z!p(W0DqO>Toq_#5}GO@mrd284jWr32qULWMLVBQ=PkYn@)A~by;Ki%
zMws()lO6f`CeUiqHbX~W8=B#RyjX<k#$67d*<nujs$(pbyIwhJZ=m?S(7$|V`AOkR
zBO2|p*th|Q4nmfKk~w7F*)4wkzUp#RHE0ev;*sDv{+q9YrmKML+V6LQ5tZ6ebFUMA
zwm2z}!!#_~=DE!rwDO)3eu&B_r6tjV0VTc)baS@&HY2fCwKTCv&FvWdh*gu&xH|i>
z*sG}~Nv4TKWbL=0;2qo^=*k^l7e8d}bQ5qK4hpC&Eg_Oze@lXq#1;lrGkbeHC2&EE
zi}_m-A?#~GIooe*zMc?s(l$-T0Cx<!GlCFt)Kt?p(a0r;i&*jz4XpKA()N&B!`gDv
zl_?>#$YOt?C5_wh;a<{eRP_-ypHhq0i?oCFv;P1px=pg#l`H|)_RKr|LJnADfyZgw
zISQ&|<pf@8eKyBJYc$y#JU(07>a&wV=p@-Q4ZI_0bt=k9H_}Y#-@}{P-&AO>rqnMT
za~T|`hcs9vbJ!FaRRhdS1X=O+1x#RTo9a_IwoY~*_)*u<OGzm$H(~GCq^6WOZMZ)N
z{t~tA6i@6rhP99W1faz)0Fi`AbzEm;*tzz+WE2b9CKs@A9mgRNOH(`z^xV-bN0vK}
zw}mEJBG!*qFHUCe2N_jDf>?&w-Reevl=fGxk_j5%z+T=<59)9JQ|XO7CidSM?`{)D
zR3xKjPOh2EH`+!1GKY#sLh$C27XGS+maZGcwb;eESuI;gnwi^}3z~c?!zJmFc<Z8C
z4Ncbp=N?tF8YX9{5xMRbIj(eX<Lp(H4Q!B*=-z%>szkZi;79{K+E)j;yb=$O3QB6a
zde#QX?34PEz9QFJM%}%f5nDk=2M2+?XUGXRx-0JBoD|!b-De+Z?w8ayAXwkEuXHE^
zi5l@^hjtx`Y^}!Abr~1^KeCo7F}6nE=fcAfIM`a`{Zm1`_TZu(!E<A{C?svXtY%3a
zL1Eh_LXqt*X7-Tb;2>Xt?iUJJWh~1M6ADO2w*ub^7e>+zvG9sJWE-1<;HaL_yCXe{
z!%#2;b}9DWEPr)47_)#-y@k91^jK0CZeg>%&AM<cAdq)7{^`wg9CkSEC(m`xiOso<
z3ozVTz^NJofVfeI*`t0Bl_iH`luX7tJ39XW-8c(#pOq_IICt*4R(np~=Z`BGYaI51
z8^?tEhYS!t6g!AE<KZUYNb)&ZpdrTK-MBr%mMQJ}vGLhN96z5Y$W9@pwl=X^!pUA*
z{sGD!W)j?=+mwJkg9h#H6SoI9<RT8p2H-(9AaGRdb%nvj@}e!tzCKqso!8I80YMCK
zakx85CNsAWZ`^Q!x4QT2h=ObeySh=6u(rdH=*_#@>A<+yI9R5_;M|Yd5JO~b?UZhT
z#A9T0K3m;(=DRquWRbbIJgA!D+=Is`*sTwm2<L5_z-~EJHTo$4z82h%3g$O8z#Iac
zTwC--I~7{!%f@7d-jvKEJ;IUHQBE)IAgk%&f^c^R-rdj=(Ygb8!Q0_VaQZ78pJfF4
zRJ8Bk9mw#V9EE@fToA9~k(MlxwjIibvVtj?Ul|uuluJf!6^)ck?XsKvs45_QXW9vA
z@VcT2A$6>zf^x>#`@%|SrKSqzIl}({WedS*u@_b(wbv{l9|&1vxw~zD3DYFiG8hXB
zt;N)m!`vUTjjR_o!S1=zzB6NT5uo4E8HvL@kCf>0epIZHl5i}Z=tZv6m6@)_`fYF|
zjHulkn0>cS-dlFs>Cww^o>AXo_BtsGO~DA*q-@}}KriK1J(hOn;Y&?053|2@w9QmW
zSwUc4)mrf+X2$C3If3p7DIHA|{{W)iP7>ePc$JXUI1J~`RNlA*c}}R)+`+g6DT&Po
zxki_0!STx32N_cB7SAfO2km};WnkGsz)IB{m!V5rYa0@To+}bsr*rO9PIqE(o-7Px
zZX)eDPc6Pc1tDf`kP_Q-Z=xVuILBm;W)JsLHNf8H#dD9GrPyc`lH3&65qptup;JiP
z+~eqmEg;<+HI8lh92B?z0Pe|+b-q--p#GFYw0jd`l1oiJL36%T%&B<x$4u!+;MkNk
zV3F(&ia<@cD9sL=TX-ynH#w*JTB*gz=epY=H8%eM^61|ej>xuEK<Iyh))U#!aLO*D
zL#w8V)p~@Dhz{mJPwcX~rlY30#8TBr`33Lo7Fnc%o%9!7tcp0^!tmmI46L<ove;WB
z^Unzc;62$NK&ZN}s~!oafWXHAZT8B-*3{KkzSFs`2l<eSY!5}pQ*}73o6vxVx5ykS
zYI-)$E#+}H_~B1OrqedgY=pbPYPF?>yTzmpBY;h=s*+j}$+3`8Ll^)|U2X>3SgVaM
zMyjfFUmRua>}~)Fu+l!FMmk&Li+B2~>UR1tfat&t7qD>zqT2#R&r5Ve^$8rwYTFaX
z8(Hdp_9)F~pmjQOV`i&L=8nekpY9fJZll#AYa66fO&i*AA#Wdbe?!%Jy>%a@tJO;s
zp}(!LHO)U>;c;cjojZ!ObwU{Zvp*(@O+!{0S+=G?c@6|3%}?dOhR9>|t=XUet6f=Y
z$sJJe{NmgYskIuZs;Wgb9AngbtN>jwww05WCti!{jbBcsE;2LMcZSKeWVMc}suczL
zWKq)m{-Uko{5aO?*d>=yq=$F%$W7JnPyQRlMDNYl!A+<L@>t1vvZ71uR_SQT^v=Jj
z>J_b~t*)hrNNgvTFhhR0TF?D6N2ThpY8tM+r&m*x`e~he_u**k^)8wkLzvwTjM#1T
z#W3CbfV}z(SJk>5H>Rg$&8}l5r}yCnZeOUYt)9ULSJY~Bt<w5?d~g67WOFP68UFx=
zdUagC>N?h_`k8sQ?X4eWjiR4j>Do_FXw@+R$zyH;%JmObbtbbTsp%)Jc;Lpy+w8h7
zD{rzDE|*83^)#I$)Aa9whLTrW#hbSk=Z@8AbqUQq6$>H`KdGeK`>dO^t$M0*9jDc9
z2i>?EuUY&X>Afa7N!O`eBaQ$LBHv`HKO-5w3d$DhT31a|nPO;laqqW+h0*kmqwC7=
zR;s2*X)j{y*jwRxH{!=g^tCl8t)ii5w{64{vAsFg15b&xR1}1_jg84aMYN?-*_PGB
zn^^od(6mq-Yo(e?bGTV&YC0mOvZOyxW8TtubT=Qm*GwxlN~oV#L03y0gc9i(LrD9p
z&ZO4aqUi0T)9Bvv;cfA|1L~(YTSX$h6#6|Lr=!re392HbAb&Ff2t9JTNue>jQ8EMl
zEH?hhdTor<D+JoKuk^vWX?H6{s&%hQXjH};XhYu7fFlSjdbZ5+Zjv!NWn(n=7dA$?
z9!0EA?x5HD(oqAVY{jj&0HC_BuidT6DQRd~XBz+*H-BZb{4@L<X1rn4wf_LjQ`2F_
z8`!(+@P#GsLA%+5==~q4db?BuO{R2>2Ifa#0KJ)=FIk~!%#OEGik?8;3s$RDpQrjW
zP86CIG*K3dUe>qYy7At)>e`yg+$ELa-Zx!yODv@L<NpBkq;aq1A`M?fext2687loq
zo^tjQw>>fVIn$AbYBdtiQ*61f0?P-|T9JlNRprtic)HW;--wl3cAi^I*`vq*0Gl>d
zjHLzE%;On78;Z)#iP7NnDX7@lT0c*uFudQaI>wf1eH}WPh2xKCUUOg6n%=*t7RNK1
zTyEzPW$J&0x@Lu^?VqSL<5@ei{_p%J$BpIwPKBODkNB%HuxR~Fth02D^jPlU{gZ2d
z5A_C8yZEv1BlQ!7@AW-t(KIwpY<(>wqicP{G+ZwQ{6_1D>a`c07uBbN_6&C+URdE3
zqAMhsjc-Wm6myqO$ld||S75ELMd<o`)lB^3{T8z$xF`Pr3p1wc(+OK7w|j>m{H+d`
zszDZ_+KKepWv3(D82f#}3Juqx;+sB;qt|+Nr>6e^(@ZXcX2u%Xq5zBAmE_u%nV{+Q
zwG--^q?0-BBw4_Jgf)L$=<rZF8W^QvEwJ8fytk+|dF!fPV`R>A&OM}sE0dOsf7Y3%
z)^(jFwMHE_N}CgH!#~*{(a=Q>tqoO8Y(zQs4x1Z(pzyQZ3+m}Jipr62P4X_Ry2`$N
zbg)ABqGL_TV*^P>P-qd7dS}u4WYV2EmNC8}EZ0PC96YL>d+^6X>SAid^|V!PAMQf$
z@(S>Z4z1U;JuFkvR~GFS&TaHZ^v~jlUrSKRR_d$~UoSBNS`^eKpG8(krB-S+{{a60
zS1opZ(opO1R=2Zd8(a`N7vOfKLnZaO3u9@u*!zXQq}QwJDcJcn=_({6J3YBUYn2sF
zh|5u_O33Y#>sed&Tcky}v5|CtNNDkUqK0<?lHqgrRGRHaPE*EP4xLOfY&0r&YLrt~
z3SB+Md7NxqU3KZ58TfalSJH}|Rr{Xtdklf`WZd~7c%;t=tJHLut4NZPHb&#iO{}e{
zYP70qf6VTU?Y0HivGqUU&q`B9;Wn2|GYCH7HkIJLd(wJ!6<e92>Mx2X6L=(j!1^9k
zRz#&memho*y=Pq-o}wvq#<)Gk!p8{4(`wpl0jj5xB1g6P0m@Iq?GA>Ps7+kwU557!
zy7oD`kEbKjgf;Ynp{*DaMs541bK)#xeV!`>dXBMB+DO~FM;i^x&@^xV09VeXuBU9S
z*J<hZi-ES`bXtc^PpGne4uV=)+UvQ$%6^MORoDGXM;mFVC}xtv+fFa{RaqkAvTqyZ
z`jKfrg*`>lvKpGXDYYnjxu(Q@iYlvFr=)O_j*bYb2P`Jx-}pdOb=O)~4@ycIB8kGz
zYl<66(rYU!OtVJUZguQMh+Mg4ZldVv!x#SmWNmc6#L32-`0I3N@Y{QPFEHwQs{MCU
zl4>eBc003UwZ5xk)Os~dH9T_DMB~NVWECxSewxkh)8B4fNKcJw<k%+Cf2uL`-4!OH
z&}*A5JG<SuD@{q$Iwp-oB#x=U?H=vvHU7Pr(3V2RnY%M?LcwaYb)KzDB}{ZPzMN&m
z3;><-uhj~v{{SXz+a{T)lN=SzhCz=_&izTRr_pGEI*l-$rx$75Li24NimkK$W<uvU
zUvpiHEiRE&9X6=hUmGNZ{-(bzDHL4gRy(N1&9_WVp+N6al7_F*2I1wmR@$H9T`rvw
zj)s<3%HA60@}kpqzL|nCBvevBZSM4)kFAzlton~m)X1cvgw#v?uQBX%Ps#4BKMf_R
z9P7&dgDXD}^{sx5;OWnVvm03JkUZH9pz2kW(T52C05J=kOST(5r~It7HBV6JH7t_1
zN`IpN0R6_BwZU0xTD3G$erBD8ta!gREGw1b;OdT*kxg0X+I+8UVx}sB3CWC~@~Jgl
z)w+-~QaHNy+}8H{EUZ0WS6xl{Z_9$~ZDg#$KUFq_dYTIM$pveNaL0>-@TmmXaTavd
zrfjCBbv!L6b8al#g&a`&k(lZxcyEAmqSbneyizrlv~e;~`k%=9stVn9KSbI~JGGO>
zd+47E3Dsz{=mXv=0X`gk!D6-AD5^ufDyIY6c2o5V_e%2SKKJA**(zUbT>S#n%$n%G
z=^FDu=6m+Y(}Q)Z>i(&v)$|ihs#6ElF~7p8jM>2aj^TOkl|3CqMj4}?8NtM?1cUVm
zN~Y@4Z;A?8=5GLol|`9Fab%^9-Jm!s-%&f`6K%1uAlVP8GFCTfd42qwt3H|NE}+!)
z0d^WzIP&G}dJo`RWR5DDx|wB=Sdi=m%`CX$tfW-Eo+Hy*ZB&x~0Mk-QGmdQ5uT1G~
zjMeL<WR)y^JYUjASG07`L+RRU7|{zF=Hmfa^)*~NMFX7J2F8v+US40w-~RyPM^eXn
zGg@YcL8H*`Eo)rSd-+*jq5MOJf}qpD;x?Ndzw)8gI+9IK)r#+9Y(q%6ULn?X)ik=S
zji?7F+V3jZ{3VgBlXfhp$MvJu>wggF=A(1vad5UnPD=8<Z(NsE)Qf1M{JbRCk=<su
z)>eY(qm+@@1!1LA*23W76M_E#ySnt@6pmJ`^^Sm{(%VSa)x^ixbKEOUds@-7!M2=6
zN$|X?EpJk%lh9>6jJ_>nWMgz)UsP|dB6E%K0_^#<Nf21yv(-9ZMR!xv`p`>v9Qs$b
z74;WG(&_actboTT=IhP6Gg;QUW}%*~Jcc%$+V=}-t$rakvX1of2h4G_k8mkvl{K_7
zgs(;Jr$?p59_DR^W{=j)73MnaRc&UtDgOXADl_eKaPOiITCD2&<NP`~L~k|^v9e~D
zrs_IvLn^DcHfHAMh0Sg5v{tLL*7{ea2BoG3YBZ5q!`kva%gwsCLaNd_u<7EKLj#Yp
z?e>xNTh5jILxi=oJECnvMT1`JU+$pS`nA=SjfYaEa4mJ(OL6unDwNRtr5LqFVci~T
zAQCyYxW$JEJx`;5>2^-wKp48-yQnnw(}u$4-rrS@>Q16_q;yOnt~`9MjFO64Ar&Ld
ztNJ<e)_z_I*vC5!7r{OeI!8m)GI38+FQX{qarTvSNl5)eQE#s22DtLo=oOth`E+34
zTh(J*?2!JZ{ntB$+O%Cbtw_!2+EXduZ6#eGC8o`g4poz=gmIA85Zl-bT~g?}%#;&9
zPp+8DvEJ7ltBP*7qokS8R8hWIuVE`2dwo|lvSo|Xv!Oy0L7HW5qo$42P|8n$Fjhyc
zqSv*JVk-K59!OsuzfW>It<5J^Xn=<}-KQeQg`v^9r>AFiqml;`$a96q?t}6hRM9_<
zF?N|<)16VO%cC}vP^A7VW7-KEn|BKhS)p|vqfs=mZGo~lkj&Y80I1OCm^3;Tz1&*D
z>TOnm{{WG_Fc`=qkh!t`vTYP?HAl*wW7GXZq}73`Q@ydg`(<ugP?}{t+uG6{u#u3x
zgQ@i`eU6%rr%#TmpR<l{_CWNnPD58`{#DJnxn;OshABCEB{-<=%-i~ESs)TYF_tF}
z{_caN>609{lmVU!^m^R`RMME~DO>75<CfbkNkYnLwo}y8x+;O)!wyl&%}R>HhZ|)k
zi_?_RJ&rN8%|8kKLk6Ej(sqE+kVhe3>a<OzqIFFK;1-L%Cma6D&Gmg*`m3Er<F)w)
z$0$b^{zjHn{{T~2p>+&983CE33^cT>Sv4ueTUy6S8~OKeLi1feMyrL*^v#+xyUO&g
zpVc(_?K&zAR5i5_jjW%8_gx%S5?rjk{{UQ;8e5VJfXQBM*7}I6k<%T!yV+^#>ga?L
zL+ZBT<8}F7SJe8Pan(L8-lKeil34jJ%0^U6qJC#o)Z?U&bAy~3Pc~kmrG6eyrxw-4
zE2;?>IN^EUKu060nLQ)@H@V&Wh3*Haou+8!H#2j~Y;C|lRZcFtBHUB657z98j)*^F
zW0+)uKTufx8%mF;YRjXTNak|S3BQP4Qrfv>ibrpG`Qc^yGEHV3UMJ~pczfIhyE!az
zdPezZ_T2-cspz9?r;J$t05^rMr-BM7!$#RyMjR7*dr0bvng%|mnU^gatW>Y*-Fg{G
z3=D|!(k>R344%<N<U#umr|KtCxv?+?Uk$%?o9k}5tEFjU8uydIZv*O#sMBVqeX1JZ
z50Q_uqUw5b+8HElexL*N+T@||TDAw7C!&&t)w<y|6$f?uG@>f>7}&<Wu>eo%9hO%^
z*DAESvn4!sV0XGVExcV(N2=3?Z1m-|oGiL9#wk$@vXgdYE3}$0?Zv^52Z73kwN9df
z(T(l3tX2J9fhAO)q!YM<zz7=dmamGO${gd2f)h!kByIFzYw9HY=$Vr`CvLbc#h0)C
z7<JE3>D26|dz)EGe^7VoA4TOc&^@}7%|v%-I1ALj5A^6Fdmc{KxbxU3IL2(eT%xS>
z%FT7Ug&}KT^?gB@+|`cNbn1fFIncO9bGMc0dOn*@_!{6D$0NFfs3{|gnfrz<%BT3r
zt%>u$M~u@{(?O_yTt#O&*0CHFX{y$mctafV8Mm~8vz=P#X?0@a;L=VHg<Gv^kvmRv
zD?ydJeU1jiCB8qa8u>dL`S~mLaZBrxT5{mE1E++{5)xc(%JQz1>L_Bbb7pA6y{_+N
z=_jixzthj8@w|=-TUD?-y#Q)@W}i(dFCsU23YMZsV3*Wmy-2~x>`)y+UsG2pkV)-T
zl-1JFlF~g!ID3P;sd61-XQ^nqB@UqjD)hGqYJX7!f>!51tDc2{nwe`RX!gCl73P13
z+JL8XW{Kaxc>>3=TmGXG9W(Qg{{RpM+^}=@OF1&og0e26>l!)g9ZyzUcHy_+tfg*|
zNnF!eLI&q#w)j{*TUVb})Wi*l#p%BS)+=MvjMVAr!7;mKuk}J0n*EJDkEB-AQdQE<
z4DIxV{im@-$JB14jKxp`*hQ6{W~EIeZ>Ow?wXVg;!t-vVtNfi~p=-Coe@Rza5_E`4
z7OXd@Yv9~!DI7D}>OP*;rI@?ZzV@7h-7ie^^Yy^<6tT3A<#FUGTcpjRY5}swLob(E
zJe8p$>FBsMZJD9Z_PBBgNm|I~q#?u>k&vxq()~Jk>i}&;FBh|XAS$SLH`k^PbUeAI
z1*?*B^mgM{wr1d_j8q2E#b<+tj&Jb252xv?8>gT3T2S@@aOXGN(6jneDFtIU5gEQ7
zy;DJ}rgbQayJ=|_-n3?)VVrAd#cFzXpHWU<P6He=9l=@3Dj&>Nmew_v2F;LW{{T?6
zy?pu#N4N5GHNo!MKt5J~PotJcvUZ)!JdxR64Ktorhw2(UF-Mj(4$f~1oq@5`2-_$v
z_$ysoNPi&a5>3U3Sl8+Af~Lac1K*Wi43{*+WTU8&;o!PfcKB8LogrW|MeKO}K=)U=
zMyVY$j1z$Da(gP?sI8~;-Ik986`dJf*;7TUPS~v0hqN0Ic?oNELAP{dv*A){lex77
zkPL5qg0<DOX{4nURM#QHj|lvgs{+M)E9$kU%0wpaas4DMFGN!6hN+YKj%!ECsOfzR
z_@1=P-6!;|zMWLcUvA$_w~$ma=B*<5@Lt)z(KTtQ9>FWHJA$@!`u>?w5Nx(C@)wKL
z^*swBa|^C`uts#|vAZ#oVZc4YI5IXaTwG1ZRaR0tk}@(L+i~G|7hlsddbg0><8~Z*
z3)kx9g03exJ7k^LpY=^O9HLL+hP;1tXEdeIu!E|z6{6D34C84fzuYfI&_6d(PIk1&
z#$nz<^T?`2Jx~HbT;2#<ZjkDFW=iHiXnEug>TTO7lS-L=q;((qOy-_&Sli(ESKs=+
z3Z^-dO4DJC@}blyw4Gl_lAvu8TanGzlWKZZT{TPJPWPJ}3-G0r2eikAZ$<A^>Wr?`
z3=EB-p#GpTgr7#LF$rA|k}i1RL8sJH%>iX>MU?{q{{Z<~UY>l>x6_f^>CcjvAL{6|
zwyuoy5HNt)o(+!$Nmkm3BeP?0$0NemR&@O}a57QthHhJ9Ym^-|EmbrB04u4}5I7F(
zepgp1C8L=}E$s6xUV4`}w3lbHrgc1#&Fa0b0Qn2p^<JCPYH7>Z=C(jEe5~|(D_u9E
zQy;+jPYEa4Ii|WQx;s;-qOYf@jmK*o2_FmS?v3g?Jwlm=H?%z9=PSdjI$`wD3Fuww
zi~E=cLYq!@qol~m;*fw1%SUv%BlI>m_IsyOX?hl;0hQ6jD**P$22a6RN_uxuxY?Iz
z{Y@)3Nz^93aQLcR5A#Oiv=LVcp)pAA)(5&wb8XWM()3!xsL?f+J6zL;F!od$%c)G>
ztu>l&n-xo~vTA9Z=15%LPF8lOTrm>a9&o7O*)=3-s_U5C?hSD7bTv(77NZD;p{;w{
z!@rn)3e8o$)wJHNB*30PzbGv#u(oebW;u@sAo3KFy(U_#bZKGIsRPV}xQ@p8OIt)3
z&*1arNi3J9W7~t|D4^6Ox2E9I2a%N=j!-R*DrI9NsHLCyfVrgPc3OH0dU<I?@Q~SU
zk>yZo6_*4(fPJimq|_=PaC|N=XK{WIgss?Tjnx|GQL?1}03I-02XLx2JuZS7a9YQC
z1BG*?*9yuoT5lj39o25JK{Z22Xmz{!3e8KjMORF1G|!Gd%E*6L>3HE9G|HD#dfN-*
z@~9|dtD~4QXF5nvpXFM8FIO}>A(i4t95H^&bC<RbG4zVFK*u~r@LCDOydtBHY9Z*(
z0bw|Du-0N^^v|lLaM~Mk)tHN3U}2@Lxs2hj?$Vhliuj4D(!o<W8vu7_4(iWE(mkNx
zX&(zaCZ=esgCw-DxZFH=TP+h)q@Ez?q-hr7`B2FzEi(Axy$6V+jv~n#2hEl{s_3H)
zl1RfqBe7Td?xh@Xy6zl#UT?1Jh0c2!DaXo`Exi|MC2XatsTAegjqSiwY4bL<t}hww
zb(z%aoh*kX8PnDAwc;ncY3+5?p-RqIJ%ws|K@T!9x4K;ir{<jRYsetvE0HedXDvtQ
zj%;-T#@8II<v`+@Sy!UHjrE%ecHT(jfAFKzA*Yy@yaG6~^eBxnhkUjU1D`7)uEk6F
z*Hlme6od6M`Car+47a9ESkl@9sncbN+kteH{zolVnjVW)EQ8RTh9A=5+v<kWwOh*I
z;lTH{_*VLUqA4mHH8X=xc9D<SP08Idu~w}bjW4Gw;io^EyZg26Ls!vMG#Kh*!2K^D
z^0oad)tYsEFr%nzVV2*Z_xTFPQyOrA#m)|49HpEh)uH1#CV6pSisDg$-E-p?1-1=6
z`xP%x0w#H;aC;9H?1rV0<}lH1*5L53iRgw{y9TVHWbL>YBeJi2aR&NxGXnv`kgR1g
z#&2gdrf!N>o3w85tz>=duaX9|5JO(x#CSt`QMBzW4rhd1o7(SZ=<rgu7Rb%aKTwu~
zK<$amU@SYM@OvU)jsgL|J`*Esksl!b$t7VHdjM^@3s7vgrG}bAwcrPLx^AJQ$0U2H
zaPg9=*;%w%_xglP8k~%10?%jcQdGMcQCloUr_+^%uIyALj%aWhvbL|Qj-{4-V4lQw
zRg8IKjq*NIro?(9W4jUdDN7v_ZyCE!AwE_%L3SHE{H8-D+qJ_fm<WmF@;j!Tw%pHf
z@T8TW%-kO89vyqw{C7aYHKygvHyy%xvzu(&&xD)oct21QkA29s``KV2f;$TwgWWgW
z)|-Il@ox#@?RGfs6!C04_gd)$uY3W(n9aMVFv!-8;JLlklc>$E!}dw}XE+gMH<pU5
zO@K0H3|`?nT3fVDAGxQSc2ZPOJM}bil$74Q4!cf&r?E_?n3BfR1d*WNjDLk5-qt?~
z!gyOSE@k6*<%hq~2yVhdn}tC^+Sjqy+ESLA?_mew84w-4%_<qGv%VJ__$dNJV{HEb
zqyX{AQHm#*WDum~#1XaOPRh3n2l6qw2Wz0J_Cxs_19tnnp=PCfPT`fHfU;JHW9pkx
z3mcJ@AC;%FiyCOmKI4)0U9;PE<SSa3BbCQs4R?eK;d2~7HY(~?Nva11#UTLpQn{e=
zHk&BOEk6msCA(hV34{#xDa0OHn|qrfKul}ccKK0)TY-_>6iZ0poG7MlPTUk54H1^K
z<%d2Bjl$#S%1e;%1Swh@FMAa>%0*Z!oI|r~Bx{MlQ%e(p_XP_bu<aoIQr)4diCYtS
zJg$5|jCNcdaFv9#*rj%D0?Qw8qBjWX0|@q<_(Dj~U29mUh>S?(wiL!!me>?F(j8}D
z`BF5wxaDS$V&9{Tjt4hNV%#^j-$f_2-13kIvD^?)v8ZEM;pIJ};XIwg+z4`&t?$a4
zV<bl$WE;2Yw>=ZCIwB!^?bw6CSs0_m@0B|m<~%$bICxyyVzMe_VXdCP^2s3+Mf!XB
z3#seh2@VGfAJY2x+vra0@s)E`I2SB%J}g&@m&b8*&bZ3aqZ+JpMq9W7c?yqHoHj=m
zpOs5BX$KCmL00Myb8>PLM+38RNIm+1xdi?0f~<-<p=V&89I8!Uy3WB)6%JtB*Im8B
z@4<<|+9f$&m_u0lVd+Q<nZR-yx|&BYIy1ehXseqeOAdYyWho{$Z;0K!+Pzq}+0M#_
zI!K8YKSYkIYmJ5o<Rj&4CUw{VJ=ZryZAlJkEq$;;drZx=2~AMo2?ucglCE@ZYB=5-
zE!uqD300&?3q8QK<AOV?*F|R$AT4;{`9e@q7n4V<boQqOL&S5Ixu=KsS_!m@SsEsc
zi}r8}#OO6Dx)-<8yM_2#%@3+-!^1?Sj{gAjZx}0@SY;QY(VBWa5}Fdh>Bx5k=TbuK
zJ+}V<lnn)VsDM4du%Fp2O>DHlJ>z_SM`X8JV{yKYsnS@|WP#Qr`A-Eloc{nL+3xNw
zf}m!#6qeZV_MS!Z5zUe*V{6!VG>^DRJ6#PI_E+jU2(Mw102?Ud<z#E<CW2!fOhv9A
z3(%vL@mR2zx5(rtSHVfB!LoLM`+HtFLOGvI&OXl=ucWA_sr<|a-OGCrr_*aAnnCEf
ztdQZ%BL!`BUY~nfTJSjbybKVq8qSX;HCvw2V|z`(7zK6X%B7}8ajm0aM8PvdzeD?l
zXG>W6M}YHo_E;SsU#Vn*Du-OR8;DyP4PK6-4U+&J{!-+NvXGj3HWXEGOu_EBBOszp
zG)6M`&D-_JSjcKb5?&JG&jj#@I=xLe^<muR4q7s&88qk)7twE36WaakBxkaQrmmJ~
zj5RH@k9FF9y+^1)mo_;^Bg(1Q%N){Lc<u^j1>V7`DC33XfYQ=%;JPa3(~#Hum^eMc
zt)kUsf#s4BEN28bUg26tQ>RMH#M_Hygyek^vZ>K+NvJkfwC(_LxPQn+n#rl0AGo-A
zYR|SNuzK{fSa%9|wFb0pbH~nZrzDtCMw*XXbk4CE^VuK%qYUgYRWJ~ExLAX!z{hTm
z{{SIM-F1%}T+DXLUMw7JywoY5O#c8@litCR<Sg#2G`&&&o}j}|QT($sTHjPlHQ6F|
z0ee2YA{!+ps=|FXZ|)Z3E3v6A%*ka=kuRq!y?SH%WF8fr1fif!PD7jBsg;y7!s8fe
zd}sdvZP^LBZkqN<x)(k%{Rbg*#%-#Qtt4q^eJYrVry~CV%*5%b-D?rY?iC>w5I=h_
z9HY44t9?6Hr>bbDtF$xQ1e`fdryZj>{Q}KM$vLoa#loo6sp=`nCi^ehURKf6f@P+E
zs?c)V<pCvL_}v_g_$^svVEF8zmGRr&!MD0=LmQTz@t#2{YS>x^_-^KRY2{Wut`~hf
z$nw%~x?z&Y&lr2?++#CQo$Va6xKL46Gu9Ex(!;^HP}0>;41vsbk8$N$RYOUvL)sdF
zkXwb-QIgTk%29hQp`>fr3rH<JyDpbc^oI8PoBci&29>DR=#@eZMTEpngZTw+DCMTF
zgh@<8v6ikm-Z!%GYD-39Xc-~Ew{TE$z(cm2kCmpbqGLgG8)MuBT4Ih{vBZKqrRF+7
zFp8Hm(Z2S7N$2dkO(t7<kl*O0lAfX`-LBlh-uVju07a^XXu~Q)eL;ZX{{Sedwb7d1
z%&+}KPadmW95H`{OjRY=cR%HADzwO|BDjsN7Uz|j)U;`0e(0KZj~$R%6MG7a1R<~Y
zSceYnIUhvUPWat&L%ciB!3qN<MJ$$;gn`4Y{!y{XLsrwcnC1SV!B2l;d(i4y_eCYx
z;TybmSCCHyYc@Q!kGFmb&c2snv+~}>5la-2koZV=8QOA{{{TaG*f&z>Ww(}++qo?4
zR$-4j%MIG$$naO7u*X)z8=e^P{H``CgImyUOn@8qdqS)-S7fIPdMYXBbYwdGcUN>8
zlVxY8Bd^;lHe;F@eJL7GhbbP{vpENluir#oyEV;pZx+EHRUDDJI}viysI>h|wZWAK
zz8tP;>M#f)%y*Q+i@mNQ{Eq$?7Y3U=Tz^nYG(i6V5;30&COdV<2f;#&JYM0z+yt#~
zd9}Dq+U6f_4}-#Mg~>ml_*#Qw-y1<75ptk(PRVW$`ANKkVo6emZWbt-#zf*U>w={9
z0mFsB?wUo#&RTpVvw*naC`mDEjHWoaXOOrwyDfEyTnP@^@nijpz-WcRkHyG8;Vf@-
ze$(!6WU{jE#lm4W$7H~wVi@M{W<rg@&C6|X35*V5yA6lJorDpAV{R5O#ymTN{{ZNe
z_P)b8_$o5cTzLn|R>*jg$K_*DGuR{;Lp(XI+HY??)RJy)Mn}T!+p>5=XcRK#qupXJ
zf}GcZ^z4!GxLM6N@)Tjbf%`4kLYuYX?8nEH;|MOz!;sYX7;V8Ei=vr0AP0`zqRcW#
z$Z^NnLPd@Rz6vmwkTY<j^xEKB?)(*v(E!2lp3*pSYnoU~PDhl%kJ3q4)D*`$FhMtO
z)e#K9{*!fFBqQ2;^K{@(AlV8vvf;A_422ZTX*-xuQB*isJF+3Q0oD%v(5elJ4UfC*
zQ-qEK+;;?z4J{~A=P=;s!pWJS-%YL?qjml+qV)>~*S6tD6qm?#o#9H^8vC*0>C+Xh
z5X}s7w7N65;RNqi3yhI;WkgSH-p2w5f`xrUP983Ph&ZNYCV}Lricnb~0HEim4EMzA
z-9EA%#J)S_0P3g2{f^;Hz^avvkb#hPxi%V`$QvlJ@)IfulIGzEcLUAGg*3NJKiP2h
zFtc#JP_i@|gOH$(cLtjhehPahzA^VrR0|sD$adx%6*DRx&;*=$P|6L%nsMPdlC}QX
z1+0aR6C>F6_R4}b=LhVforRVxKl~^osC!M_eo<HGTP#KixHeHp+i;x>!Q&~?w(YuC
zps50S&SSB~_(xII<bN%YGO+PubrWvGbjxTaj854bw3~tu^FR(Q_f?S0@Nc^c#tNp9
zXIR_HTBCAI5^8b{`1_=fdkx7pRv*J~#fTw7_^dE-;TyhzR6^(6+z+aPS2$l7Qn(A-
zg&dq@VJ|@=6#!UprevVlU+RUCgLTsxF2?|PM!=}DYi@1<vPW3oDUeDCwfRz!i-a#@
zQ3Jtf=L#2_<CQz{dmQ}`vft=RC{{JrzbQSxDmS>c`0dI~=lTckogkj(X&p{n+NL_4
z<Gb2Ih5b(5J~u?_w>PjY{{WOet*KR1Mp+$PPq?$aLw9|a7pUjbbiwbenreriaKHgp
zw{~+U=(^UmSs!`o-v0p0yjVInWA41~sI~aau7Zu&;^5@1u9?zsbv~TaN7O~&i@F}|
z`(0)=o`jb`tPQIUFq8iAY6@|jxV9fwW$7s0QvU!}d3N0Ja<8bg*vSREapdy1ohMDu
z4b#BXT-Q~O?r~@-y4IP~50#IkVc2=}UvvG_e34S(1s2t_G$`E^U^KPY;56RIxG3T<
zfPEG?a$anuo|=x4#L+r;x44y};Qf@^eITgXXC}vs4ikx{b7|V<G({r|hc;GpbVS4*
zGuT_<!5>GWNh2F1b49d&DRqfX)#x=iDM$SSggxEBvd$q*bU?#T1~*5ulGYo4m7eOJ
zproTF8aKJGb^{;oB>WJJhKic4u5DFk<>PN9tR(*G+wkwFdKKM6>(y58k~4O`q1eCC
zEw5uG?8xXnGu9nL6Xl`PgvQsl?WW&!UrluOqowNw+O<2Porm2Ujzan_zo@!9L!fi1
zwJLdP18mmC%J9usQLC@&IkhR?);2@!1dbHc)SF16kJ+q@(a8?!;(fpR&K7^IH8^PW
zqfJLr=1nDoP5%J0>djcgr@hqg-rzr!Un|dQ>9u`Qyj4{>q7eIlO^HgCzQUa@k5T+P
z>8h$~23Kmef>yX(0{jKElT^}SrgKegH@B9x!r^$Pqb{RCri)7;hznRrar-JQ4wqcl
ztG_Qo;}+wWy8tfe$<O$ll7g#~H~#>L{bNl}NakskFLaI;ATKr1^{VQ3$yZTPG;VRb
zLoJWpdgo1k5>e9z*Xz2os;1<zj{pFL>iD`dOlzY2oGw0Za<jtMY|3$Jk>~nmy!}&9
z51ML;+zpFd+Yj6=Y_;N+7QQn0-EPjvSjOslB{gfk3RvS~xN}@VSNcQrO7}FHx|h27
zZtN*1##$>}k#nb0Y8_7D9-*jK3NPku?{#NeN7MZrVXV@0=;o@3?hcUTtBNgBgH6-6
zQ$3plZF>u^EbEPQ)#?uPYbCih8wM5SCC5Y}ou1Urr=P3zXvErdaoM?J9biw@dDmC;
z=T$bL&ZN^lDr;c+q2J*}(0ymAX*zMFo{hC^cj$0sh(A71n$D-J>MoV+sGgCoIAaL_
zt~CX2(bT5YbWv3eYMvt*4r9g%4h1u%zYqF{tSiiMI#z=0%3F31x-N^SH96)L6%`Ul
z+up@`?@8*Ku8X1ww0$ysHpRiW2jx50O2uu3bZ_A&Omr+Q)HQdquCNP-NCk(`CiQ>f
zO%*IorqlMZg8`uOvl{(wx2?+W^=kQPzwInGx7A~{dJQ6)M$Jzo^UNJ%bA$F=vxM@$
z+0yzc7Z@vB3$3r}9;}?jr_nv^zFbZf?@s;~#u_U1soMEQOip#J_D|`qtU6^76!ejt
za9L$b)Lmn%YEn7Wntev$&!kBUw+=XBRTOjN$tk|gez{wq^z8wT3K%1JZy*a5gk@(@
zbya8N^vZU~!hBhvDoOOduGX9DzKT~s4t>`keK}jMjn<peI&=M24^Z=Bi;{bhlv?N#
zvqX=kDa4w-!y|@l(UP*dzOzAC2&Hr2cVHYq{>j}-scYSHugJ|hnpw+5gBhKz@>0_N
z6m<ne51dy)6rfy3AUQq~M-=AyC83<-9@#-PeS2`q$%p>{<hlgIB~+sY&nG2V)b!_2
zP*(~)LXRZbuV=Zg`>j_?bbhN*S@~$9h*a9*IUX9~J{H>SJ?s;vx=y~U(|@MenoeIK
z!3#mC=}yuoik_lacFDt<ZY}=+3tLOm6<T#J-D%Zu+*{fR4f<JB>OD24nSFTmN{OSr
z_DnPTteTUcQ;ylG=-m^eE8uK(^bCBbnONJcS?S)0q8nKq&9L7{61?Y3)f=ToA);t5
z><X4mcU7o<>02=)Blva!bf}PaY4trHLy)<&+EJOlHrOAs^8WzDT_kDD{KXE7R|842
zw)=oq`lngyFar=|j3fD+EoGjQRO$_Ws6yK3dUwe@1st4GDGp7H=?;U{`kINgvC%qc
z-Pw~3<LtGX2jPadMKjqJmr&B|ZgWM{x?~l4H7j2oOPeSc-xG^(`y$)deOXT%ggTU^
zqxA1Pzsiq1Qqyee;WVuzS!ln9+M_iu`sp1>ehC%{{{V=ehk6V;GwLe3jq%LZk_3|b
zO7niF{735=sY@iUkb&8l3nmV$)D=MMT7^sCzj+F+#;Pcd$x7JXnAB-#^>WHuX=VY~
zk))rx`a|%`T%@Uqt<)+_JgpdO!2x-1Pean(JriF5Y_i*n0#=?LqKdYV`g9CqM;ojh
zKV>(MU5(ED8h^#Ut)qP}`gJ6q#eM{UUc<;<2Vc@%M^j$fie{Zbj(1`~UgOghUxu24
zPx`)~D76-H$)xs^@T+>W@k69Kc4ts&(KfPihDl5Tx7|mCAn&$OIW=7(ucW^Yq^YNc
z?5D1yt!TU1zU@Cky$Xw?>Zz$iDrIbuk!LnW0#}{rpNO4BtCpWY(y*UoyR7Ri7QfVe
zNkL4>^-7ta2HTerYmcvVWjz`(w?)j_29r(hj+PzG?9i#Yqh9IiDs6><vo{+Ev#y5F
zy5FWMoD1t;45zfC1pQGRd8Fz3=7wtMn?+joi~AjCgYbN=cXE3=BgQ=$v#iNkraq#I
zt~Sika}0-Rx4|llqxGJktLi`cYKO8ge~8Dn;bq^a>T<ld)-g4wgUZ=-CsgTrEo3lj
zEdnrXWCK5S(6PcVqn=Zok7J5b`WF6atu7-X*i{<c6=tPM=;?L_+Sl-}VbydUMwyaQ
zR5C#J-KD3pr`8<kT3<;m@yibisxoU!MD8i=?D4&CL9WsDwp7=Kx-HiZ86S1%QT3LU
zNz=r~O%#J~ztgqH*;I7|HPv8>&CUn8;DzP=Tc=A&x%3jfpVZKBf^v$Ww41Ohj<7Oy
z4OF5wep*=#qj17Hkjtq{YABxj<Ta-OW%RC+)U{d5!(X@c5<4$J=&1)xms8fTNuEa_
zEyk6Dm4FEAqM!2b62$SyD_PT2amMz~C>xI(hbi;wG@8t<c!&>3`v~Xmv|5YkDRf~{
zTN}e!c^Z2kg<NudlF0>NU0Eem`XrIVPrf@^!Ff#twIaRL^1}Br_AGF*3tL&%5XB6J
zj;CN~;l}EZKz6s(db4Jugb>$d<+v#(?dWJKRBh<`PD)BhwFsjQ4guD;A9dB*?JX@i
z4Yu|Sfy+wWXgWr;bk@>OVH4YDHN*Taq5Le-<CxV{`-wL#c2_Tv<zvRS%VNaa=<!Wc
zSl2p^Q%R-KOEiGnc)+*HH>dvq40^(8H)=C_3^}m(S$z+uXk9-*2c;Vt_VHn5X!_X9
zKAdc59k9Gv{$eS$6R~*h_IS+~;X^|KsFCIVT<Zd@=zkA%xGm~2h2yt3Tlr^;b%{bu
z)=F$2ZwrSf<a0~@#bb&q(VmM!(y4z<Bw@pwG%FfSDhIal(KHV>R<yK1&%5qNkgS^F
zNZT+1JXv%90F{yZGm7+9Y1A>&&e=T(z#c-@L0Z!g0A}1O6H+97@%B?xRI-kk%_FQW
zg`wo++PwkeOq*TQ<J0M#D~N6`yoas2r&XwmNhl<aq6X$hyEY21@q_UNu}38g5(6W}
zfCYJ0o7B~GkxL8QUmT;|a=mW@#FkIp^iL*8<NbY`o{+88HQMLIBaTXT8yB^<E%;h3
zW230$k9|ZfJ?`~`{5aQ{qiPSCvRWxk$nduPRn-$$v5lf(lo9-^+vCAhQOC=iwop%`
zY4oxdQ^&dEfCdnzmQT+%Dd@~?aRYU~<x8eTs?A>6Ofp14;lq`>bsbGj6I$3B*MXc|
zeU%{@EweS~lSk>zI%+l<V2#4u*;vV?!9y8+F=zv_$yI9lzK-z(ux(+(N#LQ*tF3C1
zh$-6WoO_<jr=F^bRd!oyy5650Z;q-s*(I>+V6QCdEop;L-$w((gRoc*SEfPG6*Z^U
zsxmrZk{!WTRGlNIQ%Kn+iH~y)i*1mV#lFUiu8Iza>-I%N%4+&B=3CreI7Ic2QE8Q0
zRH7CzTzg35FG8x(dTOId4XCAvJ8m2RUJccnG!g61qtj~-r1SbuVxZR-#WDNc7|Erm
zsMNrvke8QWgTnOApVReiQi?h{s^`Zm1{)|J*s6}0>8EL0n<lAfmAA<uYW4j>3MzI<
zMDXXh*aOQ-XBArPRNd^JqK+ymZ$e<!J&n0{pOu2v^*E=L#S;vUX|Q-+g`w$HI{Xd%
z<fiZPQ5F3cL!*n-FgcFl$)kc&{iG|)6{KT2ebr_Lyg)^=4`p#TR8&V1rnwI|<r6-m
zNumK54U!Tuo2(~N>-2Kh328tVIUSW8R8^)gJ9{*`cTLpS>J6`x8NIHz)H+_93jwNv
zCgV5@57K>2s54I{Di_TY23!XSO;@a{<_{i|nlEpVjHeaS5h*vbRn>hxpv_GA=-kL3
zYu%U&$!qj^q?!AtJ3+*e9EEQMKTzut%<3w=#iMtm<B~oQoi|CSH&uvg0!GAS+bFg`
zQIuQV6@#y1XsI=rsmG_NRXL5od3hmfdUvS0!i}Dv<{wuOz+;Wi*sEPzqiU#HDx-Uw
zPayV4IB@w(q0>#KxrU-3A~_Ek0dq?Z`Y#zpt+41dZA(&s!CypSd%sMfycAbY%U`6|
zfn3JB7i*ithm~<psnGsj&S-JBWth};*k!N$oiiT$oL{mr$2h;#XOa#(H`U!mq*hV-
zb8UiaV4e!gOBd$@fM|WMXSHWFT4^SXhk_kzgeOk*9JF<2j-l;oy_<7_s~j)6l6hBA
z4b@vwO$*xV?eCT6Ra$hkx{K;!aC=F<ISbJ`lU0njY>|dJ!;!&QI@#R%lF0AwDY!?Z
z4o&u1QR^&<CdT%)*XI17_1#J~v_6tio=D^&ok1bAjU~<pEF&md+BN~}F}6LyM~@Xu
zDt19oHAhA2!uLz+a?pT&fvS6IDrsILC-rz+E{lZ8TNor?x7B+7lLZZ36X~lUV_wnv
zNWuCh#}v?$lf9lj(w>zNW6l6tD&0<^wj&KI<2$iu94fxEql-?}9NJjOh@J;zE|YIn
zk0$NE-5B;HmW;N!($&<ugXF5d=R0v1xce=qKu1RfOfvw`V>})~S31n!>Kc2X3}l-}
zwcXlP7L}yV$B9nh>saR3O(?Yg08m<epH1{fQfY3YYfS78Xtjw~m73KC(rm)MXA)0C
z2r$m(5zbJ5`oCC;Q44CFBT2SKLSA!PVOZe$J;$mw-8IlXn^}?Fc_&iqQn98u8uHf@
zwA+;GI*Of6AYboydv;b7v>uDEJa=z`rsm}7j-aBg9(yBeJx^Km#0MOkSy<^&!s&NJ
z?UHv3)M)hmCa#6-E)94b5tZhBRZPt*Q!b16ZW#oBFjsi$HkgYh>6*POP-QDGBZli`
zr;oBGqp0AWhBst+@Uawn!z-XIwWVsX)1Vb3I3IU#xt+etMvJNro~G0)jZ1HL@(&2j
zYfh`tBaV25qiD-`1S@`)k{VsH%y#&?XIxiC>KDN?zl7`ucu6$ktrmmi>5+7oU9qlf
zeQX1k6T;eRJyAtprn_+i+s)U__1Zmtn?L8MCH&PihxvJL!Bat7s?@~j86&{pw)qO{
zD^c0aJZVahFXEQ8*|jptcY9jyZnN#wDr%?<Wu?G3lAWpO^=_(j>P7R9lua}Y*dq-M
zc*2X8ibgKz%hOWK+JfROm7%4iuJ+x|EH+KlDW`<`zn62E(~{7&Jt3$;BR?-y0CZ)x
z4z@xunrfMzHkc%F65B{DEo`dx!|OTJ?PlY9U2R=K1iqwfec12NP!Q<#+I4GQ+GiVN
zIl~SKBG${vI!LtqJ=5f(-%nQ)i(i%!xAS_ML~*)Cx_DkL=JT~s=(>e7<K0q3QnXm#
zvamX&Gml8i>NThT0J|x-$%3c?qeRm64M+V#o))pr=N1cN)3h)ea~#cS1G>t^By!IE
zmyMhO!nvfXbvytxoum6ICg@LPC*maqED%Wc008W~T3wZOl0tK1Yaa{KzY_I^I*HBP
zZoGp{o>uCnZKcd7CfHKOo0}~*xSo~LT5Qy?wrJ$^&4B~TyVSi+LYL8&kJXf7>bpj(
zY_u^tH&_b-FT%a0l7C&Vfr0D>#l>}BEga1#mD&iJn|w|OV8M;w@T0A%XnWZdTR*6H
zR~qN>X`fL8eL98<mfMx)_1fh_+(-_NrLM}8#+d6P0L?%$zpF1BK@`n1dW1x9;0{~z
ztn@QmN*zxnL#C%c?Y`W6Dm^Z)Jw`BL{{W`1AFdaEiHDKkqv~p^DOv?3JcoWB#}Cp{
zrCy4vYitLqbegBgCXMeV_agTS!=vlOf53U$BSu)`%CXbuo}vbcfZPUJRMP15)kD^W
zq8XczL9(wOp&E^CmNm6h(+iEUkT@$Jsa3qXK*n6O@)6Z^wJm9mcNcaJ2yT`!GgEyH
zV7s6C9DAmDsS;RQW^$+V4|tkDN%#ngYGYds<Y(B0yVtsDl!2AdW+VF8proaum)%cb
zPwE~Pf?0Yr)5Kz7&_Qu@HW|wbw5F~6lme1=?qj$%{VKy+rW9w?X}R(iYO1-iG0b*<
z$WJ^Lsfi5yS*_6Er7mocyL)^23T<YG^NiUGcAhr@%JYg{Zlg)mSyN3RC8sSsI4?)j
zdX9@#q7%U8#WP2~KH#oTg~n;Vj-Q!HXrX^e%*K~UNx$hgP5jIBq9b|Q=Hly17PC%i
zcFOG8dH(=f*T*ZI*qjZ&NnKJ(v_>zx4Ai=|M@%DZn@<?U(6sNDQ+t^u#^cJ%QPH}-
zMwdR$1$swH(J~+-sBgO1a#aftDl)paO4ib|^Dq}ZfZT*NH6)cVnP8B?Q5nuTUb9&f
zAf>(tw+FiOy>rx#uh*b}?!UQ>9H`AoFGoxur5h&Fb?VAM+Ipv(9B#e}wy3LQ;B0$b
z=XVHgDmqO?o2IAO{v6UW6!lsw=%w{3noNAzJY?REcNDfAQKr*Y)9;K3=V<x@sUfMU
zqN)+tfqa9)J{?F#?Xxtrj2zh|O(W`$uMOm3;ox8QOT}{7%2K08rD}{ZG@sNKk{wcl
zu9!inv|ssN2MYtIFvab4!5xZP%D1q%9^5XK#T>0R%WkHOMBpiAYnV<P(z9|&t3@*}
zAF9jY-NF)mY0*t=5)JHotKOZ}DeEpTat>SJLT`)FXm7CnHoVix9Ix&(@RwVthGzP(
zv|8TamY~tRmbt-~?tx`10e7bI>y8OXpENX;6s)3sMOUp!C#L4RARMjEh{<JRTQi$`
zey-tp?Q9iPHRgJ9Mshr@$4cr9pHBS4?$@^t3n+n6Yf+?CIyobj#JGE2I4jFK!%wQA
zsCy=9+k7uqi>v5kX@XC1{*tKrsrr7cr${Y}U9Pr5s+^x_91=XIN1nQtru5Eqj6Amd
zEu{-#)EdW46JwZgd#p&3N;<+Dk9C?t^iGkVP1Ye4(^?vvTH_Z!S2kF?v!@J_RLcrT
z2#K+qI1GJJRMc?qv)S$Q;W~XHu7upYy@Q8@4P|+z8;iZ8lBHQFdxe&Dx*QcT-X`7T
ze(MdcX_|(YQVU{xTiWY?)0NQ68)b^5NY@@OkgWAs;MAfp$q4l}@<vm^rP?&DuFp8>
z?M=*?rQXK^GQAs1siM^441U<=BEj8?^DTczsnV*$-~PdMn(pJ^qi8i3!}=awi~x96
zjMPqNjkmK;uTcJ7?rCkE{ffkDnuDpIw)bxzMWK^keM~-uZQLzpymHlt)&}~Aw{dU>
zoAMFiZ$k2}%bh=2osDw?-00of{3hzuaaK3f{U@8My&>_$@YzM$d#wb{g^<{d(UHn6
zaUMUpLlM~1Pd%Im1q@}Wp_olgE0_Vn3A((#i6l5VosV@&?R2v2k+%cS1q<ca^~0l5
z>Z<)om^U`L0c7?1I=JO=EH}E)bmvghK315v$16rbI4fcKN*!(zY}QWPxE|@F7{wEm
z<tBK)<)$wFD@Z+x8m5|P?C=O4LiKT=K{WExJTwt|Ds59kl7j7;E5vv<;X0ICqEdvG
z*-_K7I!GH0Np{CzKfzYikX2AsA6oK4e@n+?KAjwNZriuif#)qfzE+cAr=}A}{{U4+
z>=Jor)kh>6c8cSYYMA!ES?P#luVI3+deqf4vc5TEdvk(9)@gFniO6fL9l$3ATvgD~
z*U}j3Vrj-420}$O5|168VWmwk=ESY{UywVmLDIBH^}0`2PkW)OX!kM7EhD3%iceY@
z1ITx|w(PwdK+)l3Y?3C3=4j+5oR?@wCv?n3A5GU6i0T8`BMu10Ro!6J8AbV7w;yeT
zyse>`fQaiNvxg4@g*^21lhTlOxE=^mmPFB28fS)T5?5*E+uHX>f7Naj6gt+|fbox&
zvg?{jX(MxCV3rpj84Cp35hL!=$>YMVB&LPQk;UxPL0wHyz;_ICn>;X^%M*qBwP#_b
zk{L@$cHbkiG&*~N!frbb=(uE$ObU4A+ALWdPXyo)I88K!8?yrW3c5*V1jqpda;K!M
zmGN$A1dc)~Sr8mx8Y%43>w-Il9Q0x1bZ`2%xKRFZkPVK1vWj}A#sk44<RYgpXxt-2
zGg3Gna-)hLPab<IUtZY&I0wJV8P!?1AS2C-!4rB;85s+OC#x0MZ6}W^HdbxU3TUe#
z<h0m~qOvf2X^Plh4%Y(5k18qSdrh9p9>gOBb0==cG;i$X!gjs3a2WH--za_}ziZ2U
z`B9de+Q|17wA&U@J<N6pvTu<K@jk)!lH0c@!iCLnaV){^3M`g`e&f357C2`Iv0Iuq
z#KFMd%Sd;Gpj)0odz>0<>wFc?b4b1}7UqHRv^qKDg~81C3-GMz>S^i#y_)XfQ<;D_
z!h&g9PUbsnl%*9S*yiKerXnj?f%QPvLf1OYBK@qYA=O;ZYx8dEaj3Dv{gk-4vfSe&
zImPWIl7aAhq2-Tt>~{|dvsK3+4JQ8pJ`(|RKTFkPIw3gThS|~Ozf?pr2`ujY(-|Qr
zx5_|Sa(F5JM9KVPYblJ5yH3+@2yaE%W6hoA7%DdVUB#0nk~eYBmA*jyVC@pZeWcsM
zo7Iucv368`s2t=bK1T9A!~7&}{SKo;CMNeL&L7O9Gj0}l?w%)$hkJrk98VWzmQtfQ
zr?L_QvC56{TOeE`V5cr3$mlfRP~P8A5%~q+iUQGacq%Cyp9N`av?J&lAs*q`X6jn_
zURfhZAooof*sduN0$Ou~_w9JNAQc1U7wnsJ$l*U?wnsVI?1dX%>+S_iT-S}SA9W0o
zxx5>XD9{rRrJgyzhbXhV6&+nYooid=2*;3aMgCQUPW9p2%Yu}b7igqqYM2{au;it2
zYlXNeB?XQl!ySreBQ^)IOqGiCA&Jd5y~mKGEn}Os;mLwWM~+8?pv5O1*K?JcW{q?=
zZNUy*vuL*?{3UQKHh%}YW2CkQQ0zSp^o_0!!hArJXAAgIvCcWgmk9tiI7`KiXeq2?
zfNYl|$mAw$lAYH+=AP@KlmZ(k*r~(D+Z?o|X`^;NEwVH@gkQpb@-XhmCy^7kMr;&<
zp|2UX?<pKCbs&Q0F~Q9zaL6j&gIXpb4Cg(a;Zgd6)+I*!9EB{Hl$A00mz7ngaUu8l
zP{muh)_X_QRTnt3X>n6Qj(he=3<(G1E=(<vn}7}oXSPVeIV>r(wGu)_jlwX^9HSNv
zJ&Lqok*oyT``T<%&1=}*udv4{^1vN|?KVMAPcB+T+u2nlB!cMbm?RfH*26-Y2Z6o0
zBMZ-IW0jJ7fh@n=Ek2D<VGZun{g9fjg--O%jFilgwsS#m(N<S<>{SddjNaL|aICb-
zwmvXJgNKg_z`7y}nBWg}B{qiQdEIuGEitz10h^Gl^cuPvg4$Zhgf$<^{{ZDG_fn($
z`5=v_&6O2iieV+Pw4C8lWWK=h?AB6AEjbX&cSdm16}25StruwZpms|RRzs(2s;M5@
zdZwC+VZlGCp>4GKsA2)}NIf%=l^Lk9{{U!|T}9Kcg|4pA-flh4iunsYr}aFP@)~-8
zV|eEM*7H)UWX=wNZFuI`y2o`UnGJi4>}w*NaxGxxI{O(-`wyVkOXRy<YySW(@KwxJ
z@yyN4b({uUb>{K4@Vje)_V)0NgHn4AB(sMO9FMA;u_w`GEgNc$V8<V)BX>05g-2c~
zE1Kp$!KaUe6SWB?0J__UaI31Mozh*TwcPzvLL69<YJqF|eoA>ABU)brznpRqPKL69
z!PhcEcs>=>I-Pwe_eZ)v+$$OhDQg;E5NIy_aXT$?>T+~NC1o6Xgxf(G9#iAh%x}xf
zeBAP_X3*QU^3n^AT^Z%SMPK;_xLCv<2R9iCUhH*a-7PI+chkMm&)&wssf6|Ji)4-5
zZOHDXpwI)rnh&WL{VPeQ>AuFcM%>$!u4r_d?8LzT0ONXcw`0k`JQZTfcwRtt<9}-{
zR-w~WwXMT8N!Wm><)p0AUFhminW;hc%m=xj{352GMxsh6{UiKLf;m0Vnyo&;z5*@D
z3g()h_zjvF8&OXF91Z^fbTvkv`2j6A2etBz4NS;MUclnVIJL>}Rg&vD*hgwzG-M_D
zYrm*}%BcSUPM#@T!0<@IYF>o4UBOVsfJ65LRCT_Q^&<AW`xQwI9IO`vgWk&5O{NaB
zWp3v8O8)?{lWiJJFIIx62&col6`-f2XlCu8j?N1$Nu&lJQj~`db|3g!jTXGb!3)`T
z@Ie_1CXqIq8B<B>+?IlT*-`3RP<`wT$8pG8A4#Y9up5u*@PgE%j#!PokNEO~bi)?W
zjEhjJpp#^;acIL_f8`rBZ6#|4_BJ_fhqs3+%KEl8tkTwvt~hIm!9dm0O9|Z(E{x{L
zaO7I(BD6Xu`>*g?qNb&er`*Tc{{S2xstuKr#NC%JY3y@l9CfA{gX0B<!QiSwEfSoO
zV>J*K1X;tnYbnOyT;kUb;S~;}1!Fck%#-CktaBW9w{vgGeaC2(CM>Z&dS6aviDUX9
z=r?Jy38<xTZSGi6&6TVH(Z1uj{{YH@uthsB8-pL?%AE2!X^$LfY`><}sjFfhrJE(P
z0t-`wHuA<r`M6Y6&f5L5UA_u1K4y%*?J8X{)JWY}?^A4-2g;fmo46Lb-$cpa5{q0L
zp*<O4f3)r%5x=8X*`(7onwmKQckv?rm8NAy9-~erfQaS(mv>%r+L>ZE*}0v;<Rd7x
zMzq<N`W{w$H8S^7jsq!*c*9@Ch_%%PR+BBvv_+&0mKALVr43N@Ywq~S_R0LrD4619
zJA<Q>)QIr*ri{4hh~j2xr*smC>TVi&VHh7mj0}8E6Vgm1i=U^#SDJ>OO;HD_W*h$i
zFz&Mzw9`?)d@p{_kN)zW)PT8mixDj~QM2Rp<p-POeF`8{%}&j)9=ullLy`4a$H^q1
z7PvLzw*dbD;TJ)w7|4oyvBMcb#i8v<7ZK4=RvpbDjwsX9P*ua}O5MH)LDI6GW4XIx
ze`3?^D)NT1rju{xFDyUSIcj+2qBF;47pQt-yG$;Xv6)~Q+y+4TRa8}Pi0#Q97rDVD
zC4Da~m5vrG8P&ZF6r1Yw_Xyv~9g66VOCaM$Zi=osS_7T5_)<?5-MP5=3W4pYq^L1U
z(#JILkEYZfHn97Lg+wb3ihp*=hB&$+N>W+sM(<I+JA@>z62=_d{3cUXPfGpFaV+i=
z0Flf$_Yb;e($j9;td9?-t!Z;lr7!j<S(xa^W5(a`P%<M9+I%Gv2Y0dm04c5l*ve^W
zBY-{-?8C_f<J#`ZP0f2lWEmgL-9hghw73rIgS_N_ghJUnm_f~)6CWPXUNV+BF=JxV
zq$GZ({>uP>co<Fu52#KoYr%D_?)gk`Ao*A|MAu}EA>(Q6LW%KgBpidmUF~)5a(M8R
zZ*R1Vj_U%*h2wY){gj|F=bfj)OmkW|_YW7y`YyP&$G8mqg^W7xVZR}9Yb5Z~@VGc1
zkh|JN@IF$TV;t85XK*+nAtv@bDX(F*z!Bv#NWmMJap5t)*pbLuag{3{`}jkP3>*E^
z_!n+$v4R{h2=Cbr_JhD5ME1x*9Ilqm7aXi$a}0+zQJ0n-r<G?*BW<<TCf(Om(lS>2
zMf@#Eg4hFO5AH*k2^`mZii)C=SWj|1ro%18pU0GHjbW^-u(3<Kcsp_|gmVLh+Cp2o
zg6+k*D;S)(u%|YlUna<NIC%G9+Sg2w;`jTY&@b#bR1k1*l14``y?`pck~m}a1w2xc
zMUB3zbP=*b<{S1y)Y6GTAP?DEM&R*hSf<GkAEw-PTEVntr=xpL1-u~Sjm$pl*!Nn)
z8()V5{{VyyRUOGT1tgJZyC}q07ir3Cm`UQrANg0t>$SG{PHZiCw+FgZjNKK@4`~6|
zPA#);6^rN{w%{S33!)hWg}8^6f&zFZ{z6|(ju-$G=^1w$3lxoOt__ORZ(~{=8Txro
zZ0_%prfF-(xC^1?h_HeV5dN8{A%}VG<u&j(X(PIUk1aO2M8`W_gUZPPg0}2&u}>Mu
z!B3Hwxlx9?{1m`r<C)CO`{f%AOI`qX2vEz6i=;6SZr&2Mf|x}1B)O#q`5f0-*!WXI
zOHGREh{J~KT?+dRgP(aeLsT{3@qmbqCo#gt!4N}U4ad=E`j`R<%T1BdP8{3a1yM{v
z+&{98Cpm{JIH$BSm!?{iyOhVr@S%=hJbbA{mucZDW^3q%Nc@lNnX~@Tr*nm^*+=(x
z?x?m6k!w9f=E!2Dd*qkR(9|6-u5}PKO)Yrjwa&3X={kI-Q8V)4oBXXcHovJ;$LK<0
zX&BrapX{vEqQ73wbk*#prqZhP+M^pKnx0l1mb-<ei&@qxD2+7L^%W8EX%66kBCcr+
zj+A<j<dl6gO*B?>gPebv8c%Pqd)Gr~=q(_0kz5?)3nPsMRYb-;Iv2RKWHenJ6tfC#
zvQUeWiEqN2O_q8+@=#S4R5*K&WuNpiRs~H#QrW~c1hzmj9x|>eDcu+>U@mvYR)eCt
zGg#KDzd0nq;n{gSFKp=knbI`Kh3Fubp}(o_ZPk=(`3U6|(cx5jS5QvSX*8O-N0!D_
zcUL>Epwk~4bc)j*js1j>K8xvIrs^FpN2PPBClE9Y27mCpuUP9{F1nU_iFFAZ7$h~$
zHYHCcRTZRY#XYm;tuD5zuC7XIpIwd)v)XRgeZuse1E(4^$JR$%O$lhfr!XL&xLC(k
zM?X;1)HC>wbIqM=k}kJeHi@k3L5*mZ3T$1)wp4^$RtGLEnR-D6r>l`usWOrVJKW+A
zyXda;odx>lwfRj5#ON45i8IZbev4xtPUzITC?Te0WoPv}HvN^=4^G3QFjUOb6o)ou
zEQ7`Uo8_}VUC>ig5GiV1Pd6s*20z_rHU6GuE88u8tm!S<CRuCxi(99piO&^5r1IV0
z<S!}euBl{>aT5cZSQMO6Hz_jyDYQB|ntHlTQhiQHj%g|($L^%+9;BzKosxcDJv0H9
zvO5#^SWb_ZQq;PJCs9+$BLTat%Z2Mz{S~NnC!_huY3bu_u0hH%$0#(z`o7Groj*`(
z&onwsOPLwNr8psMG{3^0mx`QKbuO(@Sx|D}zQBEz?wipu>9nDdYEaYIWV4lw{6vPQ
zOoP;es6A3Y_TB}`IWlBQq8xF@dkfa|?ts#x^yu`cCwF5Yxj^ZiD^;u?S5494qoz6B
z;k4V~V{})~Eo&<4T-W+%aBl25Z)?94Cyz}ORP^kQ!r8J+aA|UzvGU|!#t5&~x^ja`
zKlPHnSqCi!!BNRqM-#}U)8S|z%;wyx-BYNlH3`Y6c_f~}Yx)mChg7rYcqabeaIyO*
zNy*nlWl>gAvbwHj?T#WxZL!!Zj+)SQEnchBeRNa}8Q&;5TmJya)M(LchK3hLIR&D{
zQtG<SlPnKtiS)98VgUqQ89^?M9E=OA`fit}sbZ{yshLqIAUZhQ2yy=aAy&JsrlzM9
z^b)<Yk?tpjMNvheYIS>Rt0mLqx&HvEW!w+J3JIwwG>U^1TAe<o2*cXje*XX}X|#uR
zEwGB7tkj5ebqU)o&A<)1&FXr^MRbL*Lg3(kP-au#M?F<pm5|6;f7Au`{nnMW)RdG>
z6I8-yZw253`>DK5%an>naY~REOT;0j^{cAO$NvDEF1PHg+1D<i-42(hu;SNnz5f7Z
zPqJNdwm4}v0ORgEg{|Fv0r+jvy(deh$Ljhnsx9|9#1nPfjof~b$&#<^`MXi8>kUS|
z)fDvAkq4XYh!%o_uBPf2krjTOQwv@Cp5_}bs(QCe)AZ{)I*NGWBL%j?^3J;JUY?<(
zbu>k@R)Jt*eZ#)0a!^AlKSoERsww(pin@BOvyq*r+<q0dwfKbRNa~2BKbdg0Fh6Bq
z)7>qo^=rjlQI4JhZZ?ZL%WtRj4vC|*OFRN+jPG&WsG~Nv=wH(8#p#;nqgoARY)*U6
z07rzB6`f@#P{UtArUu6oy`o+STj}*JCr@U^G8VLU!l2c9>Y5N?q>I#dZH-IDE3uTN
z=^AZst2&EN(>)5EKAM@~wl{U`u#)N(5>4qn>@Eh!X}YG>_3ozCZxt;Az;_*r?w08t
zc6zf>sz~}~oZM&oDC#|Es^t4UH=<&rz@4#3_x5)yZ&jnm4Iz@z#~rVR<Schf)O5Cp
z&AOFjPm#Z>?iatnIaj)`;x|Rlr@D!??`yW%qS;)zeCb~tW5dV2$npOG#M$6xuNx^U
z*-+;?&TCD``ma^!DqRR@aa2`PL+Wh>*KLjLy#6|FnmV+#?51^Ot~<Am-|&}R>e^~(
z9TQ=im;q~o5B3SxM$)xxFB)AlS=Bnui9+Z4F^dk@UT3UzwJ4}8f*8;Jq+Me*oocI5
zsC;zOx<P;D!781)Uaz~>G?Nj2Ldq^%V7lzn>blS7rE8r|#)JIL7DUok(ulwh7Pkts
zK+`AGh^Lk**!$$${uiZa9T%cQMhulKmQpO}p3SaBH5IV9xjh*c8abE@cM|*+6;7+E
zP_V}Y&Tu%|2P@F@f5LjrR;PBKTN5F^TH|K`y%rz9-6oSq^<}D%)$G3ayN{xJ)tSA~
z^Cpwiy7yC8pH4S6J>K^;T!Hjk>aW95plM>dnnqVSt=%h2Z7A|U@AO6fS6JzetZV5b
zyl}hqGX=u^*Q4vyx{p@qEuT-OiO(Y>dtSr;04W{UL!}hY8jbam(7E&#O^z}>!QB4<
z@UA*fsQQOeV{|&bwN&Hu%J%Lp9uLBXZkDgp>fbd*OQUc;@JA~{&|O2*`XzMK_2M?Z
zPtx++3;j`8<69BU-i+^4X}WHmSjIW5r*wdyZX17qtBrKj(d?t2a6IjHKV^B<Owsz6
zUwauiWKrdgz6tnMmAx@FGX%P1Zm70g8gfvpV>UxaUs~a|qL4`se{Ida%1N}nI(mre
z>7jXHIctvPq|$XgHja&+y*ugWZXDgd>#MB?N~hE-KR-t#OcEc`({J1$l%*v>PBDpj
z&@?nOv_ayW$M6O2v=x*ZeDS(SXY`&ku$(HvInx_wZ6IM$^(R%)K}KHJwWo&;>#@ls
za@D;Romr{2iL%qVz}y=j3&*;HR+>p4vhN`O04TlD-A%8*Qm-tg+(9<I?zBBA(^Jm_
zCNwUR`MC?4QjhYHWql-4^k%O5YI5dH=se`L?ZHvj!&R>8mt=xAms-P%uR@3L>ZZ1E
z=^<n>oR+n#Wz(Gpq-kysZ97=+=G~jFT)&aQ4Ov)t*(K=nofoHdT4sPCCEiB`8$UpG
z2C;agtuV&_0MynDuV{{nk|;LD%YncMNoppE{+`{f?BGA;c>Yi4YfwjKKLY;%lRV!@
z{1Vb4h#Io_U2K;-{uaZhI$n#Xz-1s0Xy97KTrk#$hXP*IZ7boF+4p1ng1qT@dGjl_
zU*g9PM37YwJ?tSirl>i)cYTxQm5_o9K^|3IT|_PfwX2IRX>{JglI;k_LA-~$#PGUb
zQa2Aw+;~BHKC|%R0r0JK+IPUvBye+kUyy>t+fG4pu87@E+NifUS;2KYdmpg05&hMZ
z+``Y{w?6}vBR4Wl(zLXEr<N*u6+7%UnbET?_MYkr>A`RTmrBQnI_w_RGog-V-rHO}
zr<OO;2A0aFHSoO4Yc%Cibq=?77yu>C$HF(OHKu9Q62|)jW#SZ{h%Ap^mMZoW4(m0=
zc78X-j$FIx37Sq2zh&)bMrpdt&Zw9<(vx=&3a+d0wu(|?^{0Wy^qXL<zJt{LKTumF
zQnjS=2@3M7UD3ZR<GMFAcE1bj;~2szBg<}5c6jYy;f-#X(<C*Xqd>jE<zMtBpHt{c
zT^{2Ju_KT|AFaB|k{F*AB$o%}0nj!2gq5PUCpnEhyEzV4%~jE}lUt4>u+wgHd)Zp(
z`u!}fx9RdYRNA|JX$^0tBYnNiXys(}omLo0d{>S@Gxb?atGYFxiWQJgrX7wOhFkD~
z{4drSwT!9_bJ}p{a=g=6>i5<&^3n&FH@&$Cu9VcQ9iL9;x++fXi8_+e^tEqL(6Wbi
z;klq>FE;9Kv846fVUV^#n}V`6I<;G=oY5(BN6pusYg5cC-qJ`U+;}KFj!ZlhQRq6?
zUR9b&BaU|7-MLvFp02B{)I{<<*WG*fMD({u)@zW8gFeXbpCNkRO8yd1#Yo8wL#2O^
z`vs#F?TaSfkwa5d>8P6#Hy~laWPMgzp|uUJ0#`V+8-jRVw^`AU>1{H_Dc(D|_x-}m
z>M&_C%4y_~Hm$kz+hQH}LA4jLlx+{`-FVSJ8L`qj-^vw#T6LXU>12i@wlXZ{ykvb9
zwuMav8=EuQ8E+__uBPd&OHXs9YZ)+aEmnE-N8;Jxb$YdRP}tv5%|Fe}k$peY^%YeO
z^%`E+oP)?(zLL;jt<)ydVGID0<~hd;QAtAm16OS>rAiplV#x+t@1aY|!^VwoMd*-e
zdQ&5N0By2tvOkDS(b-kLo;EUYZ@72*g|n*Gp&Dsx9@`O&@UegTSnAbpsi>H^IR2B^
zDa|>$OlZ<p$+}vjN7pGF+G&|dslY$my|?^@MXPGlH&WYFz{w*vb=zWoR;isGrPDAu
zfsoAJBnHJ{diAYr;j>ildojEmkdj$kT1}LWH6>`(X`hJ@Gf$IA)Z_Iji1v}lK0=F1
z>Y6&UBp3m|rLO*9vATYX{;N+P`h225c@8-W>JEj}gTZS{55WHb3W?hjilS+CM?qBS
zVts}G06|d4SxWk*RzmHP?z@^+gHPyMhmdD3bB{kN=AWQMZU#t3-p9gqE+RPC4OLuv
zo|s^O2FwT1V2u>@8phdTaP-f+8D5L3boE}E!8JYhw>S$qsOvPr!dV&{Q5p9>)<1N9
zep1<%8eNup-%Y;1r_E-V{{UOjW#1Xgg}g61rDLQwEjz*eiu5S@jxh^npqJB<-^5_y
z%OljXz}nNOQM52WGO&5>Q%bJT618E_I-a7KHO<>FAE{T(qZ*Lo49&lXA>h>MrH^}g
z`0Svn)GFf^XeGUz6x(B}qTi)qZ8c`sg2|e44gp@PO(h<qLK?y&or44%uPW*HL#)Qe
zHdnHuGw!&_TM90g)}@KAqpEX@zeB~qKLr@%OGcC%*+bV+&lPlYNA4{)aqNDo+JmRt
zsc8(Yh9Jqd-OXnOS;Nq}-9&(D&3@bS82<pu(bDv-c8Lc1S3XGXa0$3Y#r7(ax@^g4
znmyum+IL>WDfL)mp{Kot$HJPkUmA9%TT@2pUgPdJ_LWQ4I_)gf<?u)j;lN!nlw3$k
zElAAk8mk`1hC3tYga=Pe6YImC1A)d+Cr_@`Wj~f}u6!wB(rc(s@fzm1XLXdNG?>wY
zX17!`XtB3app*uK$Ax>*--x<CrtwLvQi^$a5&`W$KMT(5b%{L#Nm33)fjkvYp}ezL
zYb0m=JDu;hkA)nNQ+B&62{>t=L{-vJZ54D=wan$Eq*$sAa+gHbWCpq>`i&MKKFBwL
zNu{=3GE(SV+w9%K^KPuyrV}}l$?v_5mRRQnO@>p1x<{w!y$7Jj{8~0l_B$kcm$JO0
z>6$7c9~@7&kXO$-XHjbOl7G_b6%iicuQvUb=chXNS*9&zZByrk$CJoOK2$z7x;<X2
zNRC)c)OCA^AE1sGpY??LfQ9tZA85cOF0HBRFzwVd>gTjclEIN=ESkkutpSRw(UHTw
ztW;Fol^3oiU#7Jx?JrpoR6LqVFmJ-uRp_<Nu6CtI7q3kJ0B|hLm2?oryumaVZSdpS
zZS)vwsI=|+blcl(u;dj-2G{B*Du1vA7K+-)8!MqX9_F|z{a>O*dynKB`FUD6>{b0I
zT4^+obv~yX;BYx<9DNp+mI!rvR@Z3tB53)$doF0UofdS}o>|jW0)tR?pR3+EI056@
z<)YNOUV)VEsibIV@3%Hu-Fv2KHJvz$f?}*__Q*K}W4|x2=#>njtEg<W&cj|tK80y1
zcA2AASag*IJ3wpN2`8T`U0<feXuvy6U|^eEEPJV|=xSM27~KnoK<tUtb@z%-PB(5m
z2BW`YJ+gzSbbx1-)Xy&4`hX}c9w#-e7j?XokdNuPrhca@Yk`cvAULV|w@;peoa$Oz
zOO5@^<R6sJLbq;$+9hj4`5nqytw6&ExY%3wSp7e#YGpo=WQ=|P07JM|dWYtuqunqL
zX&Bl#TJ2L8i?b!x6%yB0Y+*Z3ASrYm9yuw4T-$gyQ&Ca+^*-=zer&anQ^7|??Xg`r
zqN0v$vTd25AEwXg7i}jaJgqlQ>UNUB_b0Jf?x1Vxs<yG^t{<o2YWf>Vlk%;7bX!Tl
ze{=GkN7%BLrd(<j)Z1j-Kyeuh4Xe_{G{2aNJ~Bw<Yx=8AlA4&z8@@J-+rrD~_4M!!
zr24SA-1i?<J5AFHO)Ev0PHB|2@sC;NH{00Zjip^hNmWTwDeG9-7;wpage?K4hza3%
z0E>XG*{Z_&Z$?J7!{?BP1X)e6Ip|$Z@hcqLbA$~>vlJx9v^C?um1QM$A&t>KL7oNp
zSk9u710$_*ZVEDVQDahD4%Icw!I#{u!}UpjJsj+5A&$M<$W--n)X4JKfq%la>5V>L
zP)$)MwZ|+|omH_TY0>QcFR0S>Cr>&k-VCf|i%%=fwbxhl{<84c-eZvV7qYq2w7ShA
zq*v*)xrB1j`dk*AMIO5gY9)oOscpA3_fx~l60}=1qbSon%C}jlsHZ-pE)DZ+EbFN1
zYNu<XeVXHIh3;?Z%1NNvEjwBW$hH+#S4q&u9q3pe=^d9`@;^ruAs=U!9+`8d4s?#O
z9FHnlG^)Kc`jPG+b8hQPse`1>TPEi;91=gu9i2l>Q4`^GK(vbkZt3vNWK}N3$rlH%
zjEz>SBOSK>;o9gi>Q_w7%yD2j##O`mR<~KKbhMyHY}>n)=9SYrg(Gh~B!=SlNs*|H
zjX7)<hed3xZ1lDk!n<se(!>j+bF4FqkeAUkZS^5LUERHkf{R{_nu+|wY!9@zwUoX`
z*>x23SWrn<t4wKsLrDEjT8#^)$h>mXHQD`pQ5r2CpI7PDLIYSu$!{%Qg`*m1VQXKt
z!rYGO+|-q!9jzE?`bIj7{{RV*No+U^U1T-rYP6{xO;X*>;e>Wx%dNf_Kwk^PZP|Ix
zRSIoFmCT*wJ-j$_3WJ?J4wb4f)H-<7x5>)}E<C3QtF%WK$9KYiQ+pL*(r;xX($h;~
z*Bm)q>yU`F`6Vsg5ghhiE-FgV1l(msZ7o#>u|!#R!#hW`lCm8^Q#~ZcIY$Q$9nji@
zQ&LuX)bhMA^3ZrvRF>CMhe%7D25zCswpm56R>uyf{49w`!37gZr&sCIGmt^SZ*=WG
z2;h5MM;sBzS{7Ed(T2Xq<s`CD@yGTuou0YfIKS0f!$us<%pCJ&LswfAX6%p;gd2L0
z!!3jF@pUDYtrU3E_FHQqo|eZn1N})lVyHki$l>mHKL`qH(W+LkOaN)cg4j}YoF)M@
z9_Eq7_*TVown}O-(Vyyicnn6eoa~XgAa_-?I*aC|Ae-XO3ty>p$E`|O44aQ&cvPdK
zD(MHR$y``_E{tu*vz~P>jJ<sn8;pg`7tYkmSR5YNX=N>uxod$(YkE~xI3?FD^Wg!e
z?}k9fWNu8{W-8?ljrT}(tY>bUt+X-suzBIZU2FObb#$(&(?cXBxAe#J4~6IYo{TDK
z1kt!T;9nh-T{YGkmVr2=uH7v#HV!8(P;qc~6QNB_RFDldbec}I_OM9<gT2we3)D1@
zprop!X?WW$u<r;;s$QS#3UMp;Hlz$l+&NRt)0&o*8^lgCuzr_(ByKZyimQsIFIQAP
zqU||6-?0k`6>PLM*S+Jv={=UI!mh3{y@Yl+;Z)ajrCXk7zo^e4bSOmSbCs6Vm2_H+
zV#GD%TK@p~L+Tn!Z@7bg#X+U%Qba6n9HZ4MD`?1T$#VylSV}!IQn_>uJVuyta)PSW
z<b{Sm<>Nh(&{Vp<Cmo>MkQ1piYI>P1P!88%*l>)a8EDazqGPoR_sadYBp(W@qMAt<
zZNXb!rRiDp{{Z8_M6eTfxCL3IQ?hrM<r`go3g+X*=;&EFEtyu+RnoXfOMwRkX*B+z
z)Env9<%PZct9q>(M#ceXbZ3QES*4g;xuXkOkhIe`9X(oW<ZSZ0_`rhim3^q1ddgQr
zGg=PZ73R7<T}1=f`x4vp;b`U61w>*-Zr$JIOXH?=#&))5^$_}6;|}5)3b)Z~q=BW6
z0nxt>Z(^%8CP`B{aA~<w(7H$*8z?1&+l+;HTU$A@C3cINs%AqwCyD3KcQ*c2eWuo!
z;}Fd7_8SJgcv<4@toFFMhme^`R%z#Je^dnIcv8!X_KM@l>6*~`oilAj65QV5r-Bxz
zK<avGig6)uj#mD*94vh`ODh}sR^9C&ZFhxNs#8=@J9|rkZd&3004XDl(DIV(^&L-J
zr<#=6?YhS^s4M8JTw{}b1ms_Zmu{g`P%h`V4&#N-no4u(WzFssWr9m(p_UC%wAHmS
zSwJ4#k}?9#!x&_l76*j7UZn%bEO4>@QjVUORKn>g-reBksj)sRT(Gn-(?=skh}=*T
zv-0wg>jZOmHK01<=G-Xe9;1E2=gRaGw0Z6{$Z%s0Xt^KUD1A7?_pog}z)z-zV^Qh1
zBeqdhl&^`+E@5Fx=`oeil#HgHJ3Xa_->d%sDJnGP?6J#F^LSCj;hP+y*)y3I%odQf
zS(TJEdS{|}$6|$bCH>9htIC6L=HBga;PzGJuZWQBglHfKPnO%5O}mBPl$7MO{>sUc
zH~`^;-4hgylMlzjR+rJ6WfQddg`XKDc?rRjaQlaO@~@3QqzsUqz>DojL=yrF06oF%
zmXLWrvWT)_$TuC57~LQs8#}_Ynhl&A+xH3wF|YV=?h&NT$)cUknU5@ZBf&`dWfl$=
z9&E1|#!U&1b^`9sL%xq;EyIUoI7G^FD&6Y6mu^pm3+0e|UJFQ8h7U~LxUzeqhIS3$
z2O-8NWhpX^)3`fp+iUPrNFTH~WO-In(T~vJ2=a%DBNU`Lq_HxJeG2B$TPs|9Wimfd
z06;eIuHQ_@jm&TEp)}#Aa35ckc%XA-V3ET%xbCH7q<{i4T4p>K#@zR6htXlnTVvcM
za6$Q58)gl4h&fJthZee(u!1jar?xg9W1D53IEUq6W^xUl(r?0Sj&+G{LMm7TFhMQs
zn%3<C!|s_u3-UGwT;kNjyn-4}DDuXWa4h7$n{(~TG?BS7uVaYXK_6u3qNs*TJ9gg1
z9OeRU1+1SOz<&+m{{UVJNmtR6VOnX3vd=qwSzA-R(EG6F`B}%iW4)HQgiSV}V-|V#
z_XS0v)Qw21jzP4L*LXeE9=l0PQr8n^zu^H@RM!pAOV1<1tgWt{t=i+fb|DTAv<B>|
zt%SunWz!h)){NXHNh_t0x!k2_B#bVISdNK}o&gJ*2u*89$Wm^<WkGC>@ihB|*F^U~
z{lg(h0Qx47I7-k~f+R82MVva=C<g~d{jV1aTRo24-aIGD88ZQIAtg}F@<UxsE1>ll
z3)$R`LKwxkhXRbHnrc(+vzz?Qz6vq)^!2g&)MsR)^)UBEuq0PT;^z8q&A3p_5o4|n
z5ienD?B?xw>{HlTBR0Ok`BQq?MZEwQ?H3=ibXz6COsI{~$!80<vx1K0sn*bq?t>(R
z*bYaP1D`ZT*Sl9oR(N*`Qds7B2tTG8AvFg7096^3gK_&Vk%Io-6c4x`2+|4)6O&_n
zspF{ZLIMYeVBr+VcQ=cKB?Q8lL7O)nl(9^C{>UdW(G2CjRE!(hxrYA$M5+k|NVtk%
z;cKS8SH^cY_f@dWTI(C!c}2wLNZ=fojSpc^SGeK%`ztDU$1n|eyGZ3%MM^Jl+qe9q
zsp+2+gV}d5^YE5bGTC5s_}IW&K^{VgLiipmJ)M$z(?CPn?qTJq${Ay+Acqf@l$#A8
zszYJDjv%8Ms1SBYNH(x2DwcX}-48v&36(6B#j;!;{z67j-Dy=+@<tl_18h3!bqGW7
z;kliP#>FJfZ}250zAmlwty*T06+>>`5T;~V!AldKHk%F!R*a*4D{|84&vDrX(HooU
zK>HsG$4u0NoGI#T2LSd-ErysJq3m|%xR#y@9<G~v3)zyd>h$)IWT$Ys$!+jeB$AlR
znm>mle^VT^WFt=WQAtK6n*$@1HExvG0_brdTG|?D>YwT`S;)G*2umLJ03176J(;>Z
z&Kij*>U}Df5Z?C-Pe(@#@U~WuRwrX{<SDfcJ{d0!YeQT=On@e7G?f~3`>Du$XO<ou
zvtVtp)f!Kv325~pKilf5>hw9{ajBp$@>oCNZlHWKv>02mKt1t0{{XzHA#4tD*fz=C
zr~VT2Xen8V(yQK1%An@FU^?0RtIBvGp3fFz{Eq6zyGp03JA`0Kf7A#0K{k$hNj*6j
z?U%v24oQ?qk_cT*F6Irc{>5ME(nB}_;jzejb}G6!i{lQtBHZ{&*xc6K-oWxZDY)ol
zUTtJ<+aXd&+9}~NPR7W>JF3&ZT4A-`qk9p^S?yM~uTOb4bEEU&BwJ2~X*3&K)3q9O
z&aLU`L5$`~SN?~6JQT`Gx>~muIx|a9+&(Ar55kW~>LIzM&*!&fexS-7QG!An9K(qk
zGyAJL7T6x49@v~YX$vP=M<JBSAGlwE*=ap#sc#iSM6vd8P!G#F`=jrY5mMqBO%&8k
z1-m3*$A0SjO`#5GYk(y1LV}_gOG~30N+Uv^R?Zkr+Da~5fmE!yq|&C0hcto$H~l+#
z5;X02?my*Q>7k|}xM3P$VQ%I-X|mrP5_9F*pJ9@l^^LzHgtIydxQPUA_(s;mNG))|
zS<31e;gHKtU18ekCl^{8F1suBohllZmQ=;Oe=El!W#n~6kvM{K>1he}xb|CW8u(>C
zjZLGFV>}eyLrbTtVPlxbH1<=5SwYh%_Kba16m>C)sa<k&WCWBBlorUs(zFfIq|)Xk
zjwT{_J&~`aj-nwfWNrhp?2OaeB`DdBWfZVH2L}=4c3KTF?%EkNf$TU1N=!_Dr89P)
zo(e1dErf|+aTm$(gs1ie1d5$kORRy$qKVt%KdGI<0kfBjA7q0B6|RZ0MPT4a9n#il
z^xA`cNW&tU*mnS_b6qj&jMJj1mYlvZ>NI~XvJmZ>QxR)U(mzlt!StGrnK$XcIRk>6
z_C;1pgG6$V)$*E?=qcA_Y&CCVtmhje<D5tX+wE}v=z6LLIk#oO9|%~B>ECHMJRZq7
z1+vkz#Ua}znJ1DtOqv*-Yk<i+9>q6ga<kst{{Sga{$xNsIhuC%C2l6M(mHB$?#;XR
zMAK@IV{s<Y-@!vRvO8>;Zi}%Tg&fpiv)7`LuW9Z70N)Ccr>0I{(R-)rdyRnwr;*tm
zBvDkyxrA~0Nm!U<k_p42KAZco+$(6SpCdK`St#HtOBHlYWZes>Q^v=gmk$M1)e|H^
zj&9d>DCsImcG}3?TsU)7-;@<_pH9vxcOJ*JB9@m>tf7-@?&$B>;chyARs6&QWA~0r
z9m>VkLnS+lWN9q}HyH?xDUvnKnu+#zf{dV=v?`YAo}EC}7y7hM^rYp{o(eu%*SaFv
z8@1#4NabSm?N&h0+Lji)aNw>Ps>d@#RaQNlAmk~jGzmeJJzEtuKzoZeNH{j`vE({8
zmbhRqK-MYasHSsXH?;njwP3YcO1cTX#K{pja9ud3WM>^{mKol_3tVm7gkW%z#1IdW
z-Bdw1Kcv~-5iFF43*h)xB&e_k*5#+lHX5Dd(wuH@7d?=4vNA^5+>hN7%6Ar$({b1o
zY{*Gt+wP3ry_6(^FW<tPTzfzujzJ5H8vA0!Y72Ho*N@WRmGt)>q%OyCbjLBxCgR~M
z3z+@PIYb0x7Gwend~e)*9|(~6sxbD3KhI?hv21Y!Sz{brLRKF30Y(k5mo3T2T8(0s
z0&df^_(;hJHh3g=Dd63r*$J{-HqRGoP}aqB1M?ZW7ESTLb&bb$J8s`|39@;Sj`qE|
zOb7iCM<ZX!v%IHo+H6Iy!bu{wMUz9nk<G$W6N9+pl-z@X_DlzFk`u%4`mj8vGdQ#!
zLTChJAKgDT&+d?bN6N<ZD=ba;DM{xbBo-h6gpN74fAX=t3w+}ROASG2=KlZ+1ABNO
zM)#JRzQB11EdaCzIY9?$!Vao|moAOgDj4Q1;`z<|qGPGJH|EK#4Kldzf<o5<Gvz!T
z%r-d*XMXZ-2f~Sj0pJyov^GX~Ha-etcedc;;G!CLTfdZ&$GBp|juQnCk=%aCyY1)7
zk)*VcMZoTn&1;9ZzjUKr5<yY{8?%&KWDagEWme`nyeT1hVFKth8!W)N`AAuli>P9p
z9)D7uhWYc|V06fz6I?$?P|HZ%Ii|<q9gAlLMDpSKaz0Y=`W;Kt0**-{HjrJYg9KG=
zJ1unAIgdHxjD-%_B0J)7BfwgPbOl{N_?>?!HsIKg-Cspi$wtXQ-NC{hs*R5qj==u_
zWEfP6pwL_h?2+v~#qON;J~xo-ruv<%k(5tbB77j_yr|sUTz5o^9D`)w!2aEqLC_GC
zvfH>sLnKlF0RhS?n2ct`Tp`0;*IXQ<Le-W<n{o})<FO!E1M-EZskMXfJgLi?<93^b
zANFLnOz45mKFPZXJ4i_!gdE<=Ocz`nrCpRt#Pk|Q0)j}32}ic$l*fjf<11_qG=Q68
zEa0N3rfbKw6C`_h{>lx`X}1e>3ILKh7;(Z_<*~D`{{WR>=7+b+2BICVbA``^lT0GK
zn_}u8Q~u(RJn(Lp{{YcXKt+u`3!e__0>x)Rr8b(M^Fv_WjQ3GeNwy-#lefTE+D@R#
zdPh?}7;0d6!(|z7(R4P>Rj0CsIGZfwM%?#SETxViy{`3-^pK)4wig#iy4T>Tqn)md
z<ZrdWST{u5noc+UAHXR6CW@m_t7H_Ek9>rSmUvavJ0_fZuN%0v*0)Elew0kKak@#5
z0fAQ%-$rTGp0Crt>RKk56hepI8<6J<DvqN3Rf|X81#D5$N(b`tvO(Q@)B?t()KMM@
z<Schvei_xp1MBrIc1a{6<=p=Ol({7c>9AviZ0@i8PNLL{<Asl&M<3Sn$IvW`be^f!
z18W&gGicmyFURbN=w64WtF09$R*%$$;E3d5v#hsWd96u8Dd=K>u-&%y8#TZr)Oy(0
zdPQeS=+No%#Wc)p)i%U-#n!i|Dti7sFd8j3o*GvRU8DnLoanmI{;3s3LoQnD?Qy#H
zr)#<;T?-<6<!%P{Yy@32q$*U;0)wcv9-nijtBQ71Jmk5zztF1PfAJezs;6=M!-G#@
zeaqanO+Tcjf$uJn`*K?50zdd!EqcGBqtK^qJro8|(gx_-K|fTkX-8pEP3Zadvs2Y|
zN%l9_l(^tnuSxti{2Z><{XIikmC@6aaUXN_R)2?GQA*l*DC#s?H?gkv$Rqa!ys!LI
z&@??e(%R?91{w!-(T;J7x+jyB(luH~PHDY8rwV#1T6Qs_+lT>B>m5O+X|lM<Qun*F
z7&k8}*1r^W&3>TAPFqb&e>ov*dUsyYC!k}0G$E`5B-z(1UpH(<xRsqr)*9`8_;ei>
zvSL4&##RPR6R7oFLw3B%iZD&~yb*u8^_@enbiFyv673Z%<gtZ>kCl+>Zn&oF4MHtD
z^KsF}EO$uj6ZcCv!E9(wO;RSH(YiZLqHL8D%Pfr^=%hB!#gnD0=^Ot5(m_tkavsb7
z0F+!kKmMmgC@E<ss&%&d;DQIru%P@IqK9opx2^gt?$(|@sTA8?l=#eCwKT7*EvJf^
z?CcvA(b_Cp<aG_GqSI<@4gUa!!WzA6r#dgEwBj42R!~+r^4A+VT~=zp=n+0Tm|}&k
z7!GJi@+fVUSd^6>Td(S!K|K%-{KQXav5bpf?!4Bum9td2&w@d7?j`=<wqJ-ncMW}8
zprMVPp*AIk!}e9WeIA!4o@#Yw)IIJvbZ_JAv@*P#T>~Z<;?nHT&e|v#*0Q2mp8i->
z?@!CpI#m<uwP+mq#zS51Y5OAIqx9G19ajxhut)|3rr`b7Css5Qz07>OtWIx*MI{mq
zHciysb?Zv_^jb#ILBP$*&uG*dpHXT}f*)3S9CMXrp!Bplj-nd+pF$Im^N_Z5%%$jk
zP8ym@h$ndcKsw-rB`;$}H_@r+pTZuXZ8K&SQ9$0{3ze&H;r6QtA)4gOleRDwmqY$C
zXtL9_wXKD&IJ2>2Pg(vdbnQGv)Z#Y2-^%cAxbpc9Jr{;6(?^m1A@q+~(+56XR$97o
z$PXhQMd!5i`duWVNuqz|8hzI{y4m%A;#R4vm&K>j&i0-h)|HRbX|);5ve(4uu5W1t
z!faE?C2~{=#w(+9)16HeH06*~dLTCqcLfEn^_^qGqh(nGf)*yJjBAIc@YfS;D@nRP
zUS^vfs^+#@XJp%!{Z~uM-mHqlOwn{^i&@mw9;Hm;ICo~}C3|O1^nXfev`sD$87-4>
zd#|7LuB>*A2c*)_M>a<f#L4A|vDD%I91cQ9l7B<SG4^|9bXpxVo+PV<@s2P7YR79D
zln#5N(juOv-}VcS-Fe=dTVJfzw96ye2J7VZUYVflT6UQeV%Z+>J8|_($CvVSRy4Mc
zFY4VtT&^xP8f2_tKdHjRDf%lzgg13lgWS%~<!*ZOtf=Imd@(o|5n*9q7m<x(NNTsT
zR{~AB<p|VY>S@Ke+dU$wt(X`o;%heGmf>CW&X1zSPwMJX38g%joBqqssWob-V{J@Z
zp3~mf7gsc$MI^NQWQ=jkQz<`0+-(<qV+Tw&oVuS&hBuBJ(UpP~&@yjJbE9W$-pa#R
zt^CYl&$17ux>~2HwQ)-e%xo4feXoxQT${EU)duw5pI@nKOr@hPa~yx&2Mu1;LDKZP
z4wx#nNuMQ!-6Mtel|N1NeIG{XW@sXGjt#rRvQN=@?^gA#MRiov?0eZx+qAX!1pFkY
zCrEqZt(*Rx>WUL1<83=VHvXC6efNCX57*scUk04$>FcHRoq`Ln2mCJ)sMjc|+V9KN
zO-DC|oH+?cs10r9vr8nz8y6R3EU~o3=9)LORgzbRx>}O<1AAWfTb_*SkMw80neho>
zlv>@#(Pug<rXZ-&HikI33xYW%U^@D*QPOK=qk?BRvDgm7f~>TKgSKve68fTn^U5M?
z+(`W|7A-#u%&DRO08*@Dr=*e4lkRkRAymUrsp?K^>LzrAadCg{v|28gs>c5SQIi%E
zotDW#U$Dum(XyfGoh_8jk}9ptBZrZH{t&v&Z5E8e)>X|LfW?i%f+knFp}UJ;YY+!0
zx*Zydt|wFLR5DNMewm^-bbn+yQL6hfb^5J-x2Q3(xIMtwI5xuHC2smNO4exD=}f0-
z8E8M<X!>vP`kj=aw1Aek^u6N5g}BjrUDVcevfkZ^!r45GI917kLUVMH=2i51%}lO}
z38gm{2b(IoPr|)#RH@ymS2#rDa@G!4y^0Db4a96N9|}g)GW$eAKcew`pUT_+0F3U#
z;?mjYJu~=4rD)Q!aL`^dOa0ed_%!MYSc6$i(Qkxsl$KcJChZQ**OQyc$&qcHQO6kc
zh?pB|HJ}fo5~iQsxGOd~Hj5hs*|t5l+kchE#@A&zQ!A-h;B&$!(}}}tfcQ%u*1Oy-
zZdA37g^+rJ-(;#au(?|Yju9BMKm)P{wnns{QI;cu6AeW~lWYLYKr_FA`2PS2HdPtJ
zYMZ&8oD(dKtpUcnDe7w^bo&FHZv__0SIQdkU=@XZ6)B8J0NfBU)_zgqH#E2&EtMAs
z%HG3vv{~u&vBb=P4|Lk+21pD%9zvFl?x<$q!ry|MBO2K*@o-feeG{$OH4O2vUBm2|
zT;|kBBaB!T8K)*tU~nMv4`pEu2Fpkav$-k;ld-yW3t)?Mg6LgJU54?x))-b#n33s$
z&t*-o#P(6iBRK;AtrbRFdpuk5zgwNOuJpkY3|MCC#G5s3P%iwN-hAy_pT!QKb9HeH
ztvf@F+DfF;`jVDA80oGC2tC)*{xcGWEB4MmE=|ji(FT=8sYu^a2;UpOq}?4nde9pS
zo&oNRr|Pj8-yJC1=E}w$ef8`n8gV17`aoWnCfUrRMnnA*QI?<?!<-4Y9#-?EwQ4;w
zkJ6c;rGnYz5u!&^sRpuWOe_wy_T{R}slN{@XVV34p7QCVZQR#jy{O7M6+MB=)l`z)
zwe};om5b`Cm@A~-((IgArc?C$>!18LIyW~C2eQ-YJrx{L2Td`M9FpU~NU^rG#&fMQ
zi=rZi8rB^~iSknuXE?`wt8>&{FQ-EYuhXm}c)1q936#=Dq7ugeD*)o)t8F){wAmtk
zIfS|=eyGbqQk-O%@RUq-E}2&yP>a!f;*eqBTqjp_j3m3(Bs=+EZVK1w_0&*QlS4C|
z1C7K_8E41Q6V#LbZi>{fY?O;}hb!a8oNaa{OszWfX1W_%gQe@gD_qt~O7GO)`3qgC
zYSU6T{X;<1H_}Kq7|Fihh2~Rq&Z|{3#LaUgKcMzfXb@^TCZYKqOLG|G`knepS>lq~
z4mqajnkufO)pcnkrxIF2$-R)eUXuEHp!&F6$pPFXJQX~YRL!a~M)1~~5a4(!_K#D5
z!})5++W5y0x~yWWWajDUD6)!pJw`tBG<}vYUX8A(cce>SdpLF~?_8~;qJ`2^%nJ|B
zLd46fHlnWZ$P0nV@|DvxTdOwO1q~phWRbYVR^0CxB~|r*Ub;GGX;pNwRIp%3PFj40
z(&}xCOD<)bAZ?vx<@&txR#%%H*K%o9QWo2G%~Vyog;gV81cmJGF0ZtXwVHwv4NPQ~
zi(c74bVUrZLFh0RKGy(@6?svlvRD3FQKZ>(cDxL%p}xb(*F`?L)pgZ3G?MRQh5+O&
zopznBYPXZpxF;m9RMR>;Oax6z;lKHsPxo3{T`Gncz%6JtwSd7{V2#@g%IcBi--pzC
zpHEh`)e)H^ko}jx^#1@*Xz!$8ovmpfs1d@$YOjirow2pi-;7|Y3e8%au(_l)!?o6u
z`W7zxJ>8DdXJD3&c-`K><S3`ArDwKBHKcj&zG0iJYjn!?no5_ot~mwR3h?#SeRU}Y
zP0|6|kfkSHiYT7lsOma!fz6Pxi!TcNP5hL4o2I0Fo<+!L!m-fmYjq}*RZ#DNbh_?~
z1hDTfYiuu)vWxA8y(7(-`j*+j?vJ?epq9F^<;`)pI4JFMdRj8(7w$d+XGzr1R?J|X
zws|&dld0IQ6egP!gFyq6m9o=gps9<~n{09h;`}*Abb(I$ID1?!(iPU1(+--Q&zhQM
z;`c2@N!F2^RqUlS(`gmWnT;$Qiw;8CbU#`$ioP=}hijZSG29hj3H+w&ElMFIEpM{?
ztj@CfXlDj7c!|Zi3VeBf$bL#ct3I>S^<6HzPh~?K!Yz9e6;`ROP`(LbjDcZdyo>Pu
zx;m{qM@Lm5a~tl7&d=EqsMb%p!SWb@{Z}@+=uNb9(kTA`6AL7T!N+yU*!K4NuQQ|d
zDrWR1c5iR0(sf?1Pe(bL3BNSM`q)kW%NlihZ}kCD14|iy(|$e_-nuE;J>#ajN+)QM
zPfpM!Xd8!>Thzvu7##$#k5RbXLhr-ww}er$GbjWO3Bgqzd#zGx5=$gcY;t(=xpGai
zxZ_3_T#_Lxnp)Qn@SxHgO4_*ndBkld+pMZ)mP-9nIyl}M`5m+u91p7A(sX521sI%3
z9c7#RNbUX=<7zf6s!oD+TKDO+kBN^1dp(j2w1wt1wAGar4|^hefjqBZ>8eU;q4Z{n
zk8fz?9DOdeadiHhJOSUAg^mNjPO|e`V!Tw(0ix2}BMy=~A1I*{spJ60WN-A0mFT@o
zK|@3y=*xT%yxO~06k3dRFpylwgJ%nZr}L?3XNAXUn~s(-*Xiac2s1^*PUM9spmepx
z)b0GVjQw%EV3mE+RXsn|nsaJt+ZLaxFn*>RT>k*!8K}6^N+Q%_V1EL3_fTt#v#Jv0
zshOIJcamJ;wo%CQ^hW7gjMP7*62r(v*i7QfGExP@nt2Mcv94?OwYCQa{grWL**uu^
zQFVkL>sqWr29dqib-4@LzY4TEojR5uLNgmSi;l%%dOnhjYHW35K^F$=-}Dnr6(a<D
zcJ09nr}b*iM%~aJv!%r(ezPpeEyBQcBu@-<HBdFto=umhY84O$l3oqhp7pgsY%hEu
zI01Fbk}2%AIklq;MbwU@noT}<_pqBr<DH>LGbt)Jxt`aPaBi_$_N3R=zIGQz=9>_S
z)Adm3gvG#-o>0e$U9z*wdPaed0$)#1Xl~EZCv_?6R>v3RBLb%9X!%)PXInLKgSx~8
zK}lUBE7>DtAl+7Yljxer&s@_q8aZNY{+l<Pliuj)bl*&oX1Tl&LeFU(M8OM8hi!&W
zl`UUX)0YQBHU}ykQe~8zLAr*G0eO}d20Oi$SEzqAM&_2dx;xl~ematxNI^C}Y_mO2
zskP7-1`@|A?kdqYP5#84KS<ijrp!Pj9D=<Xk?_S#8D@`#<UKj9x{{z0E=O+mTNt%>
zY7yQG-1Z!*M=hdK#akuo4Pnh_qojALBm@!Jt2d@})RSI#o?9XR0CF?ITMZ{cbcfZE
zg~i!7$qM{w@l!NE^pU|sg>8%SYLVxU(kh^i%(w%$gaoxUG>_RPZfptewcSOm#S@D_
z0D+&C=UVoz*@*?&?30$qjG8atX{c`JxW?izgqusPtE+7}XD9V}37sLSeq@?WM*9Hv
zNI45*r@T{2&|KM=@6#a4M>>&o-C0*h(#(Z`7T@fSW|YX9Z(;RX=*>IneM^ggvRbuc
zsw#aL$!I3m9g=2y(6F)>^(8)<MI7-uNX`St@+*BWQekkZrv#4n@#RNN(xvq6sB=A5
zxMy}$&``R7S*-RR$i+CVhE*<&44T~~MJW!H2iq$ZuWNsnoS3H%w;4cnSdxeus(Ap7
z->6@OnxulFx^3-ok*@y8$CTKODE3<F8kD-LUg={2z*_d@1*B=v)l>lB8bRbM$_);2
z9iBa><0?9;fAs2r=&T&ND}u2TP0^|8xM5?P6WAk>xMYA~%V7wj^b2Yj*2+f*hXsz%
zt6-jldv>^T)5!WK*4Dho>AB}4+E*;{TBcest)jQB>8YUq0IH^QK@Q6<v9iSmruz?L
z$6ywdRf2lBjB*lgEF3viRQe@MQi3iVIB;7IDRFx==999|p|xrBeMPi&g~plq4?KMe
z+I0nGeuWU!=s~HWIg&n0K0@=UBB+GB^8lZ!^bUd4;MR1xw7Fg!_BO??<!W&n;=yUU
zwjE*{(@Gi-AmYd^W}a3!%G;3O4VG7_w2F-fTzhERSsUGZb_++-`h>GUDeIkf57Pet
z2^?GKWYl{pHcK4dt3ejzA}aOM{+}frr`qA%qqVAMGGZbk$0Na5zN3hi7w#d$uqvt(
zOF}%5y^O7>gr9rbtBq_8mt!OizkbTHnwqAva=`N7tY*<CftQts&B#Sze!%jtL~qsI
z4BniK8Q|Fx+PNwXqjBBX1eDrrb+MS=`iBR)4V2XsQyC%L3lHf%)fO0&d7B?Fsr3tA
zxE~04=%jzWrq1kE&q$w5*695jfFrDE!+^EZYBZ?ZBcrz0fsYPU{{S6UiG0k<=rdJO
zR08pFe>Yym(c1Jrn**K*wn1K7QqRjcwc~}<x{;?hWQ2VRP7XZ>nwMw1RO)mtln?+=
zPpQ+3hOvhDBe7mTN!2Bi22B3|X~1_jRuF5_nLYmiqqCHpr)4<Cv}<+O(M-eqA!2wq
zvc=ZYK@~`mzoecPj-IZYR)f>t8B*RnIaX9qNi5!+ptJ*(Xklyi5zTZ(1ydto0Pbkz
zP<1=$WVsEwwrm!F(=wIh08TsiR9d?mDJ={G?1o828WC&*r)sB-%{22CIlNhV4u{o_
zdp{|u4U!B8c5?E&&8E}`ScYE&EkzYoHl+&$qzCqJ?zv?fc8-`zl}O!8`gTq#pkqjI
z_m0jV`9xlsv3_om&3q330CF+NSxRb|X`(PV?~LOr3EMR>GSbu$xMif^{42sULQTP%
zN|(?`!z52{$nF+Xs9hAXI@Tm`LeExeH8EAVwZseLUkYkkqg2-d?{|+YNxLH$E6~jl
z7S<n4+?=&*A~F8}xgDDJk8@U3(mFSppmy0ClHV%Amr`W7kZh1(rTHJC%Nq7-scIV~
zIc$)J#_TzS^YmFwQ%<Kfh14xEo_4#CuJlUi>H&$~*EI{Q(9gfti;<hEsW;g^F<lW*
zhx&Ub=H1Zq!5qd$3tV<8NOcw%%u^PL2X$RlQs2yeu6v<8N$w_wUraMh)7dnIfHvch
z?&`)(HL$kqZHIB;S82u4o3X{RH!VI@^)*YUjK@26$Oq~i6)qBe6>~_ZeG42zh`-7z
zZ4xQq4~zioXXQj>mOVwVK0qRIvAUa875aOGkTl5%$?s)cb8*y(WQw0gcD0gIII+Wo
z6jcoqSlG1k7Kc!LT7*8J0kT^lEcBG6vRn%lX;B#8vqz%THl6XlG7AZ{zoluaKQCVZ
zZr1Pq#bPv&_Bz9l3htg)M1O`zB|-0_qQ1js(`o%8!UJA7J{4VMDW|unEDs(Eb#+9~
zcJ?@lS~xw_5>?h!Qy65XHu)JJL>pmBfu96ZN*zo5Ie(eGo%BZ2RaDZvdaQFxM?I7}
zWDbYi;7PxJ%U0N<uA^&Q)|Y|Jxl)oyv|FK+GR0RG*_zgpE{Ct8bYQuL?d^m$L{iZ^
zZHuGr@T7-Omt}>EPaCqWj{O|@60j%xPHxu&`>Sd?*s3A?t#7zm!Tu0aHaXZ%0q}z^
zbY~zcN<5H}n~Mn5^!HIadmXwnmXM;Sd!NOwe`NFO&jB&WUf%JObg@UUf*MDVLKfn-
zH7Pv_Ei0VDK_B=+xsC&4!65gy3c=)t?`_;W+mN~Mjz;eo@)E3<re}?%Xr`TpCyN_`
zQ$PAg)L(^VEDbqji%v-Lgls;UB$HxO@<66KnrRw6ggAEy+Aqt^C;dR$c)x`Na5&lV
zw{ShelBx;giL*JDZT|pJ9DP*V`WZo|Y$~@;4UCo@!;n=g;%RvV?0DnlA4{o84Wpki
zo(h9gbv&1Rb_AQ@NlIzcFTyPYLf!IgZMP5Zrj{qL+3m1EM^R~kX(7!#`C3Y9ifuvx
z9GhD$t@TDzk~Co!P`)1a!VY#8-q{M)zKWufLuYP`sC@>=z~&M1(y0ezrTXcWV88UW
z*<42KIA^*s@H4Tw@VTPR4Vk9hoC2y;N$d_bx+BN6E7}OSM7gDdBYO`DH$!i9d1+Vx
zmfCl;q;pv#OTn=UV#jjPW85C-dwa<jYra+m4FI%@kEl}yMJqY`_)TkpJ6;k<$1%ao
z{{Zl#K=v`f#_vu3=AH_P@s_&Ycqowe$O}#ng$Jl(f2QGa{tyWRgMqQng&XB`ZnK6F
zp4Z^mwD?iU5I)yfwFYEF*D_&nY*aF}+pI;u!j5QVrgy0kyL>0XR@sKfu%Th5G0t#l
zW4^@)F_$6S_C8gajjm}I2jvc1XBN0&1x9I=o|Lz{N%<E_-%+RCaut)|*g*pAOfj|m
z3p@O$&@G@dM;yN9*{|@JAlhv4o1&fUcGnIPl1pq&)><{+V7`DO7WyU_#z43|!Yj>+
zM*!os+@>%$rc(&9u~WDfoaA;s5|GypMb<G3SS`(piOnF~VM^wf+$Qeq?5qkJEbc{*
z`BK5TuiYEAI4IrmmCPhM<B{1-q2kHvWptnyv|M)xDKE$<@%%>ITX%#lOEbBcJ=&+s
z?4ynC0~t3rWAYHs8*gK9r8aS~!A)}r=PA&=kl1cH<vQ*H*GTxt&Qqc|vxUd_Mf3qT
z6Os~;92BL47U6Jc?uCp3=9W6)SZTEa;iRGEZWIkAj<_}<H)35HsGyE!<O6VnpG}gT
z{-hVTj>;`2yoYTj-wQ=gEON84_)~U^MJXbl0R=<0J&kO`&vaCJXmPw}YrHAzwAM)7
z?Dn{15#<X_Su7F=s{zIvDE|PI8~O`~Z7UrMwn_lc*sH2`0Kn!R-NG6PscIS`s{y-*
zwd02=n@uengQI`1PJVI}B+5r&Eo2h{EEy;Co(iw6qLw#$wEqCZc*?ep2<4B|j?TAl
z39-qw`z3AIaq<#a{A{JB)g*Jh8nLnC`MVTrpk+YahCj213Dx>!Z##kC8Q|N5jHIZJ
zoV9?-ACbsZO)_mbvN~yB1ny^pk=U&T5vHw<?Do8J7Dv>mhC(N4Exm)RtSAje=E(!C
zZ{{EJm7%#BX8N$o)^5S#<ybfmPduO9S5iIIQ3lV4qFXcIc#5QMi?hJ}KUFy);^=f*
z#M*4X#4eHx<akBYPe-e<uZByL`dmL#PlBVU(*FQ64(P1#axL9a4KBKZv)81N&2vr5
z4+rXzMK@?;OQbe>DcahMf^hM{TF7J$gdRfAXnK<>;n`CdWB7AV{3~`b(EFjgnf*7&
zMceFOVrm+6HSrSBXIjfQB^^$gAr>!)oVUl(YT}RqzC0f7IJ%Cd(Nwg8+dKM7Sm-Rz
zFh?b&ibH=r!fkBiI5?X~JN7DSx>rLXk}I_T0F)%pZ1Ipl5)MI3&BU8Z*JJg>RUX$I
z2OjH8T^z9nxCbzWf^{p27iqBIqp7PZX=4q!bbc?w4H+5<<Mc1-o3s2V88HsAI6vJ1
z2DKZ%SG*h({{WP;)I)8|aIx$P6dz@+B!U?UiN?<TO*|>;scEYtA?+C%1!rGYc5aE~
z&F1&WL{aMliB0}OR;<l51*r7nY20Ltmqc@Z?LjbAP`eLwkssVG9F_Z_FOAK39JL7@
zMHNlNZUOz+@Az3Z2)39jW_;0!A(I{3$S5k7%GYmY*x~%Wio6t1mU^^<YsVwXV2P5Q
zlDA}ox0JU<lCUi`@Kt{fQe%C%D4LBbwuz#)mhX&Y?a3efB%4MPw7M4-$lff9(RC`V
zHR1}u=_0+2`zkGym522I08zss6!VbDM*#5Us->PO*=GAm?6Lhp(zJTjDX!6{Y;_jC
z)|?an00m`qzN6MOI?<==5J~B@*hqP5tY4y1OSF20bKMZLnoE56RJC&!o$(OhIZlIH
zhNhjR(uo-1hk}5vib71VJKB646qB0hF^{sdRhE*i-q#3bAKazWsw$#p+lfH^(6x}Y
z#?NR6`hpe;nu<3QnPW=h%@n>R<waX0ZKMDn2MVr9%rftR;8^~ZJXKV+(b?D|w{U{1
zVW%V?dwUR;5pgqUvU6#*C@w%`qrw)Jrd={&4M0Ab;^N_E>UDW&rVe3sugFK!>#ePe
zWYLELJF8O>Y}r%G9F6s&w6XG8e1u2k86!PvC*1!4GYRgp6pxykK`b&Iha`Acl$A2b
z&sv^Q9K*Qa{X&GJvWuz=n1}xW4ruZ@4hp)rO^L+1A8GCIj*nS_rNWa@V1lEDxNz^G
zOEC~W(l{3OavMgfDU4FKBH0>A961Uir>K+Bk<E%j#l{@8H;Mda=t{jZI-q?!HRB*2
z>ABZtQB0(D9MrBXE#A)r@$_9JEs$B(dkF8yRuRuVE$OQmT*1SL%YN!<V~z3ej>h~E
z{{ShJglp`}&!#=3x)*Pc`a#G`Pe)S#FM;HF7v)?!CvWv4_DDGgf{~L4zhl5-`{M;V
zkQ$<?(K4j%+3CzXc~jER%^jO7cQdgZwG~&VNaN~6LGSJ5MNM5<M(wlz01=nL?iJ%V
zS|cd0Vb0UNSVyP><LvI?SIZ4vnLn#eOXKb@*<Wdu@lHr<n;VV@ISx`+QwKEcjDy{u
z_*qWfF)5Jg^J$vALMek;As^jP>-r6TmociLE-~LDu~R;Q-l3kA+e=UB?iKcnt~^Ki
zO7@4ai+j7Q(}veWUG`>lZFV}J;MBCW;{+Z;zm66@FzB7Q6$ems%>`&RT5N(TIodzr
zR%umLdTgQ!tPVGJDl<v$B_i2y%9qnTvvJ$qr3YUuQ?<g@Cy;n5!f7e1BD07Owg^=&
zh0Ung;tNj%B#fByNT9FM%zLJQmkZpqoP;er&j)0Hk@VqgDs<`NfXv9t+1|>!DhMl2
z@T|#)BgtJ*&0ola!^?3i1K%IMH}TzAY1*#W221Tedld~{oi#JaEFkwiiV8@#lF}?y
z<0SecC^(xIM;%)O+HP&1Aq`niBwXP3a8w#~eMK9`xR!;eqSYy@8W}Fo<L82%Kd~sT
zFS!kt*5ctt_C1c=2R;>@Z3%7N7D4Q*#^~?|x5B`&j3MJZ-<2ql%^sYME{u+Qg$vpU
z+{=e2M=8F?ji=49R-mEfjVA)(F@tHdvefX>+_auJU3TrsvK<DjZ>Hw^m`#(LBVEo9
zbg_^LJ(HZk_U-^J*a+l|x7^YH0EE`KJKFJJI8#NqVDZ?d%@*s}aEXQ($ON?AsxM4C
z-Q7<Up2K2pJgHpPKJI9<km$f=w!Ttrxb~X_Q{uTDih=AcCf$)R%(U{Ka7D-5CbWk-
z*aYIq++X2lYZDjAU2uO@hl07r{eok#JFH>uyLrg+neBHO2_uuYBe*GE1-CO6?64UN
zn&w=z;We+Z?xhaSaGYUenf)i|vAgVx2K|#<(m}O>uw3ZNNdypAG?x5<ggOp}G&zSq
z<x3ll{sLQHkdQMsX-!~gS23;^2PH!GIfm*{d)VArIGd12zig%j41}@f*3J8+lAIej
zVD?V*K_%?vJ~tBIehOO$U}cYCxgW7aK`9mn*7~WO&_@8M{Qw<%g@TwvWVpT44ap%h
zVQ9v4oTmqZa!4oyYuZbFsv=7bvxPaf-at`2_9O1H2*<IL3!iI;bUVz@b8^)?n`;r-
zBOQD^8y_onU{^XhuycM?64MJ^yp(+OVa?wWvG9c(+V6eAL7*o<E@RkoFuAf86OI+D
zJtzBKGvzXB0tMM(E|RFKl3>gXnV=Gdsin4B3L(sNZua1=6B6Pcg}Vt_T1T{tE^FMv
zEKku`O337Aw%0((6Pv(UI|X|Pj!@y1D_yi)al!-=2aF^#5H0eB1v1%_0^1TUmG1Cz
zszm!m?xu>S!z7d*hOol?57|QY2MdFgf<`}tryoVTF##on0x+2~gYW_+(e7!sY=d}k
zb&yEUWHQCLV+orNf{kNu`hxF7dH(3~F>J_UBYU0;Z<5z=ttjDxW!m6Hv6QuPQ&@Ub
zjEBv;lmzlPyZ)Vzd&do6xm`(F&3hKAS3ZAEFbF2Vc~icLv9t%g8J%lK+!bj-)5dKX
z)p9yU)F06p=IPomLTa@W9Y(TQV3C<^^Mp9gO3>FBe<MrK`VNVwv9&tneypy|ye;Y0
z`Z9(V8d`R=_W%Xr9YkvB>I)>)rE{B&q~TLVQ>x7%YaU!a4bg+2{g@=;_K#=kZ^V5r
znllEC8J?-b*v9j9;~jCS_2#88cBiM-Q_#5F?QQ@o);cdq(BRV})U|k`+y&huxgUPY
z!>ILsoz-ZX-6pk;+CzOZHwSzzB@gx_X49m2riH3Or2xjx_kuIHSgVZ#K$EDoLtj;0
zYF4`2T<f`O_1y<TqSHlQqfHA~@o*X3pn67yvNiIu86u|{VLieS{h#VPN-?%x>Rl_Q
zvrc2Q`F#h*+&p6c0Qp{htX5YYMYPoVq^@zn+U{0|@dv7)({%63#V{|muy|e}TddT}
zse1I!b6<Oh1C;H0CmAz*bsDM~v%gZQZ1&4b&5EbgCX%V|XsB`CZa~IR-7}<C>($<+
zWkZGScNMIu(t3ZV*}3|=Dx^HOZb3@YkMd!?=o3I?RW&E@rHVXrCN32wzYR3iKBY#c
zWN|rTGnCC=T%(?F#?_WaO^9QAC7`0x<ExHpdY9D1?EA;*DY+^K7Hv8cLDPK^Ray&T
zXt)QDx}oZ6DC&BIQt1#!PH$$pq=A1Y!kb&yTqxN^L`~g*2b7uyiCAUzUri&Wc0+(A
zBza0!SM^b#KBCjLsApv!zfop^b~q48A5~MQQRp%1HZ65YzDv*PS3OzNJ#Af3+J`{t
zAZ8ox&69M_lCPwRv&%g-&+222K~J^WI*<KL)|anGq3Ij+=N5}`e1%g@sOy^bQ|hOl
zqIg<z0rr4}(Yku8^HIKVUr0~!8V_%U=v2?p^qOx^OpDSaUClXZDItcoRp!z~6grJ9
zD?zAxq5x&UkV3+Bw@~YP#NU^rsI01|2Ww8^Kt2}RS=Hdw1eC&t883^FsXBfp=(@kF
z9W&a;8|`Pg31L@kX!#9kc2o4<;m1<d%F4-{0CkAJA$l&6_-(0>-&(NSy_<!i(z^Fd
z0kIas!Z~Z3w5#^@WeeiCcc*cK*;Ps@QOzeOwr2HCgrIhbB_%;Iy4aF4kXMLmT@_WQ
zYYvK*XX*^S_O+*QA4TjvZPrxGrh6f&5<G)o-fpp-5v6Oowzzd+RQe#(cDT3od@1s6
z=%Q5}mHKvt)HMwh`gWduM+<so)*)$hU&BtR(}((&r=-!;Gm{LbaUpE_PFji`ef3(P
zg1R09qV~Cjce1(b?x=R9rkY(mOA!Lb=E<8$bOqfWTdZ_#7O7I%sAyx;Z~EHD;{O0e
zXQXs5OlkE00GQOPqn*tc_q!k6X1b47*EGns!B8C2#ravCK9^F}DqB5VuX78oV<gzE
z4Z1UJdpCVSt!Q+xnqHivWV3O)Hrx-oqoV0vsMkoEqPOz!yOy=K!rkdL{W(pfHYQQT
z*_zvJI4x8fhg8;6x=88b4UhRtzu|QJQIC5g&B<#(I^Rh2=8L15C#!g^Xt>Vp#UIc=
zh?*T9m~{O@BOqw7X%}mP@@}@*tLy5BmZk1Dw%h*zWnuVv(@vhMD(dp~#xg<V1<#Ty
zf6;7B$NN1Rx1#iZs@2)3X!IYJrg^-9*aY9Qz105z40K9pV{>5qte^~oc0C`b>N-ZB
zLO&@xM#1iF^L0Vg{c9nI)29-;*W?mD$}ZPOY+#<u&bJLdkoVHkytVnikFvy6YE_0;
zZJtfv1s|>IHTBOgFi7WiDvFTHHE4mrMJeD(i~R~{r|gDKKlL?TE7JPkQ@X*<WMh{*
z{ua;w0NBM1EjX&I)T9!$Zrb83Rj1+JxlN|%ew|f2>E?)AeXa@ev;A?^)!L;z)YSDX
z_M0{L+FYjcZ;V#Lp{`BnlTX#US4Vs3V=a;Gzo`So!;isC8bn&WPp;96shO8LC-6QM
zM@V#yMDH4m64O@~W=PAu{{Y=zY86pwyQ!VJhG&axegR13PLtTt#@_uD8eW-GsA`|-
z;jP_&c6eUX_<Pgzx(qCPV<G4D6P?G(%yjOJO+i8aqrN(q$OD}uX7*P4cTz;cT`Zez
z!(D|~P1zigrK8uH=xS(7o?3B$SI<9<?9;tMV==`zakH6={Z-FY{w763O!(rQ18fj`
zuMF4qtwX7GG9!6?-N`sjDROlZP)%)?{WsFpI>|DLLyL1_Fjm{6dVfV`vkfI=Po=7M
zHn@9UehL$z9^E#XqHH(}f~~r*sHh>OY{P42Y23$HV1-8=S_+owp3$e!QRx(|+CU&-
zc<<xJktVlW1y-3r_SOTn?qINZRa8HU^_B3llrXwx4YzI0)}u<P>WyYLhSEn9UBr?C
zPwb+pJDV?m_@m1-O&3?8W5r|_Y3?~`TMmq;tko(#8R=y$ZUeyo0F~-mCq_PZ33WGz
zzqu{2D_f`NT6F*hD22y$$Dhu{7f~J<CjS7Dk)!C1@U_jB&9+%={_6Wg>8ct()Brv3
zv<`MQiw~lPR)$%`h304T=aWlEPCp(o>~l;IFg7MMSuyWyha`j@U0f|TCdflw8-JO3
zxiWi`I^hqbTS*fGHwg*&D!!sq6TPGn@`iSz4mTj`>f5{8Z{O&-rQ}5vj32VmmG@_l
zDT27}u|Gvo3+A2P#*y|`)D&-JobW$oqmFa^o{^;}ts%{=CEG~1)f+)pV!4vfY3!Q%
zSl;61jQ6^()I*_ZAdm-OsFKIDN&ean)T=3^1Va6?cq=U~uPLiE)h;b*!(0%R^{kEM
zz~mqV?x~fejo^{lPAN)Xu+2EfM&ChX(aIeCuZh`fo11-A&Zjgx3qSy@{*gyf3t25R
zrI^S$1zObaoq))|9y^Ze^%$)Y+j}aX9FKdhPSkFX1R_?68rKH*Au>`}MaC4=Mlm+#
zo=#T7jVE?ePxYe1SC%>`n>9RQLEVa)eL<BhE)kZVz>6zgMkhV3EH?;fw9Vq~0{zu8
z%a>%~1cN$m2Gqb_e^BLF)PWc*I3ZT)5zR+Y>>#xER+XpJZs!c7n~b29>{@C?c!zwg
zdrt=_4zLV%nJxXU48aQKhte-G+yb*dh?PH;qH%Hd+XZC@N`nV-+46T+==D0cR!t1f
zb=Xc?74DJvcL0U2mQAu-p2zIBx@;P3m6B=@?J^(MTvb<B^&JH)4`n;-{tb`mUt{Cq
zP{k9>&zF?l84W{8i%+TiqxR(36}9Ltl`y%p#@6KSzbneduQsQwuopS)Yq>qwvvh{6
z?K+k}TQ&*ZMOd49HS<x>Q`4G;v5k?V-rHcTA5`_UbTPV;DXwqqYfgTOxA6<Cs$-du
z&^@j)n-DuD{u}hvI*z8@OHtb_j&<xt0-RIJF6k6+g8t0@g{O6HrKrnUO{TgyWOdqK
zi>)-&eN9KS)zVrq&!%|`=nW!^N~EJ`w08r-&h>VqMH^iVQ81Ta0xr5-Ar+z#oTT=6
zuTjMe+F-4vl!+KD<~Zd1EGC_+pY?`D#<`a^BybA#TKzgIs+k0^S+C@@aH*;~QkFMv
zX%`0s1hI?uJe+Su=98tw_+hKD5}cAw3em+R3<K2I>v9$bgQ%aRJZZB;W{8_L-NLqQ
zM70buL>>Xi9o6F{80d_XY}~QbPK*%NxE?%(o9oDE-=;ry(%>%FcMCNyQB=}YeprpA
z++A7HXcKi!EP?fs#Ua1|;TM@oAXwa4=CnOYG*!leNjF4In|{k&_$%k4-9*Ps)0+aa
zT~+vTt!Q=6s4jG@-GgrHNBD8BYIL=1p{=Bl#&BFkthprqj)fb0Gn%yywr=-C{g3|N
zRcFvWB{rj|7^>uTJcM0?&(V7uqM)pJhN2ka+%n=YR(DXRc8#hqwmZ}A{v3@tY5J&g
zccR=P(VFVclGgND85F?JPbLJ79DP-N2Tes!8>E&YxQpDcTdV3A>U74kuWW=i+n1d6
zX0uNeE@eD{&$X<qn@fF?dwLzydesFR->20*jFK~Wr2hbduYdJ+kyja_s4Q#S-*5OU
z$#nfTdhJM5-PUo>h3HyWPBo|3^xL$H5OPrXoSoQXlC;ncv((>}d;b6{A!%*$I3ZL)
z*0u9TcQ}u_FRAoucFZGWxhDg%ZkM7_O9j0<J-?}|N?aDelAEMfR&^C*_uleae0NmU
zwRKX0=!1bPLsh56NmLpD*iJ&$=~^z0H8gTQHj`_VIr8X#kB?`VL(|%>p-=gUp!ERG
zIai%KK@}lnHJ5Au0I2@}h3xtTHkC~n5i%w>i!3kVKAt45AL+5T)qXv`e5R6ZXn4f~
zPf-@0-OMc*z7}I&)~mGu=D=>z{Gh9iFGAGX12ux@MsOYBMXhKq(_AWIb>Z`5B${8b
zE8dyr8jEUXpKHMmzHYU>8KG=*CwooKMli0lZk?y<8vg)AuJoU4hg*`i+DA>)Xi=DI
z?<`%393`D7jSb78+8&VVvf1X$ah?~c=~8LaP%*FA(8k%vy7M@77EsDZs2LG<ZmW8q
zspf)F9-k{i94_l*CB>Umjhh>jvqkuUL#NJ7MHGi?4ctHQuo}HBEYx1KE^D0M)Gz(h
ztE=lI(<P~fcS{i;!~>Qem4=H`s(zsOV|nz$zq05}HKGkP=+kuVbhML)Q_A>Xy4MA0
zwdd7WQx95l=aI`!3d&MO=Sg=91KnBC>XOs7^wL84T0cp*30q^u8QpVCnkXc5Z;-PT
z8gu4ziv!)a4geLru7<w4C%wB%f24A){{Rj38Y)?zrq@xjGW>d^Wlxbu9hkj3mZqJ7
z@IKb<b=sfjCvU3q;NgO|olT+BX*!D~ie@@Fjl%)w=!KG!9i`5QIupx5$oedoEsW`C
z^On)d$yrmAbCcnH8Tem9+TN3a{;--*%K~`^!CoV)2<fT|VfRMwD?|8G)z#W2q9Z<`
zr!K&@0(aJlU+uF~)X-`=Zm$0T%)-cq>w?}8I*(A#6m5m_Iy>-utG~p4pk}M5I%wku
z7vm%7v)_m2hPtoN)ngLGa4vZHT=7=voeoN@pw%R)t&Pndp*F(Gf2KSANsg?BN5max
zHp}Sh&W(bVjeIR+l;mBn1CNDGS<=+f65`hG@nrl|dPJo@NQb4m8%&o+ZBC5v(_ri#
z=xt^><KIbGPpZNE-NHLeeOFJD`FX7mc<!h=m#AA;SQ{jJo_Iaf<C0wIj*_hvRCTST
zsU|CprrhwYb!wVwiZ(g|1f<>Swi*)m7qzwzMpJ2mGI!ix%CEzFK>6#k3R=mjHoI$_
zM+;$~b)9L0()UJxq@VDp>F9?0J-2USQSYRIjSjeNyQ)LSYuPF0i}YwB>N%VX-ytKt
z%C4{KDCKd9t`<BjhQFw?k|(wqE_;F9VWR38Td3_XBwrs1TpD4F(?$1IX`l5ksRRbR
z-v@<D3_=!`mtDW%Tvu0`+A9-tYkgIH4KObbep(Je?x>PNJ77?;lGGRpwfIukX%kbH
zy{tb6%F@&5kV-vDU~kCs6}X{uX+1iSFff)-eWp?qRZPKta!BCYn~qS>zG)sk&KEt@
zy4!y#R_*@)?cHB#lns`OBP3^I{{TaRTl+Hox-^|1p*C7(K2LFY?yWVhkpdzFc58-k
zu73}k52DH`+|c%ZljUl)V;`bodu?ILS@obRv*()KFzH%|WY=_M)&|)NVbWq2N+pN_
z*I?mA*Re!P!+^NRa?9vi*`lA*FZT9Q#V0TJT2EEz_x&nLPs)e1v^v=fJJp($P%-;l
zEIH3B8$P>R6(O1fc5S{2!F2~$)m3g`dymyw&B%wxM7>|FIrBejvwT?z)7o=u$E_o`
zIGhDjrqWHURM<)ZJd(W^rMgb4iH)2{Tn9M97NUnq%S62^q(&=U9PuA-=_^aBX*1GO
z8r?C4@(jrb^$#HhSy<Qr4QY;6@_egpBV3MpK<7%<$}nzz5K&n=D4e3UQ&MX(PXmlC
zH)!`pc?b$h)*6Qg`&@ew!hcm#{{R%~dTZLrK)j4;uyP-#Yc$Pd+3#!>tizgnm6kem
z#g|r%k56?N(;ey5yVR#VT%tO!SJSI0OXw$H4sGlY3X@aNjZG7q89S|lyxUZVQ_|{8
zayCFes>aAp4d~F4>~6iN)&6(Ubj9(z1T7y%%3uvUZr<X{4r(1!QZCZxcf#28txR!~
z49?j5V(PdmIuk0Cwt7V!Tmn0dpjl-);M1B{OB8@Q#NeQHTG=7}FCo7RKUFN1PTJ=i
zAC-C2L>1X%(OTU_Z042BcJ>=J{hSuAx{{`%0kPzH9u+S`z{)Cym&Dwj;d*oEY3eA%
z^yQ(!zTmmvj~1;ROEX=be#vU62yEwjKdERa>*(iz2W`E%K<ffAJEM?s%FWh4(3F~I
z9lr?Ula7U)dF-|7SH{3>K?moBilXW{v^{z%+Ia{Kb)E<F1YW68JxoQec?Yps%6%Gr
zLs9&>lVjcbZ^0<EDztq8)D*OxS<?|})MPqeOgQaXEi>8#a)2ysZl(Mop1(qw`bMS+
zrjYGv<RW_i08OjW^+!((Mbxw8ICd&=sLF?F$|I`%CsUEQTyRzospM;1Z;r^?+WPq8
zE^IP5TR7~pTJET7VJ&y-3hky#i$vNH4b`GBi?Qa;1F>Gc7K0w6K;6ycV%?XI{u#kF
zM!FtJcFtSyzLn{kHkx(~zS1~Jk<uO!ws=mpLs6jW_K~O4z8%<w4OEd&{6Nq{yf0b&
zLD6XH_cnH2o=0N5wrw!!)e<xk__MV3vWzmXWhaihAkrwJYyC*<9(YA+a#V%~ZZ~gq
z9VYvhf^H4Mnq5P4KP@;OrR)jrsq!*>5FJmiRTk$$_dCl%s-w}SuCEY>xs4{o_+F{_
zeHA;|=+x~t;FY1&dQzCq>dH94aW^&`q4V!!d`2#h@b)1_*R{q>X6iY*eblhJ2S<4R
zM+?!kX$>oVIfe!e(0xx|rnVwjM(^;s^X1i{@#CjV^DR1^wAzQKRV(8M{keFt?26Vk
zda7xd%BF6SquV2YoGPBF)R^$-fbW8t(zSz8Cr#CfF_HW!4<M^y&gC78mkNxuX!QAD
z)nf;Jq~_P|s<o%Z8=VP^wpQ@&#a2~8U82|eWH>P8uN)LbT}x}&-Qbsz$nuL^p2du~
znd!u`&FRbM7*C!V=^h_Xayhb>P!5fpT(wQ2*F`+7idP1k`%AyV+!8?LVf{T{C3N14
z>?J?Sd#jB~mZ#7yjf5Ly6bp36RBBO}2c<C2w}&m&4J)LkZ{|+v0K<q`&828OceBc?
zpprLQXwA<C%1SCnN<)}7Z9Mr~eRhJLXKg!L;m69L{JfO!EN8i=$7LwwQYf+3(aw#I
zhXT(7p5<2QhMa2*6%76xy{-f+h#uN{ruyI*{GQ<l)O1XcwxWgLo<RzgTR`PnEh;o)
zO*pBdaeM^aTb8T0HMMjGH(93HK2~$2b-AK&rK@en1Qh*aQJRLh>;%B<g0i2cE045i
zHJVvrtSqyvP6`?tS3W?;J8(RFE9&h=mZ}izw7mC2Xw7Hl$FAMGie-|WF?e4@+Eg>s
zOgA*Sr?@KmHnq_^X~-XSX-lHPQ2=yuf)#$NLnQ<EGUhSKRZcf(R;AM^bts!GWE1Y~
zoTK_jSBbKJr)vKAorXwzeN}x(Gq{lJ4<SoWOHWYEud^j+_Ma%a_9C=g^(Ku4JKH@4
zoX2O|!pl^(n}{vi>*Z;5+V9DqMsQrfECaHr`iMaKzh0aW&k8c6T@X>eAtpO32RM3r
z+hcCZze$aiFD;F>a2Zz+Q+gx`TXuIUO;ahVD(WiYk-J>t*A58eBQ)Jw0Ko*z7aTbz
zv!XPx)Kh_D;b)l?jFR3CT6qZSdiDhPyYy=2iLxJ7oRT|_D7`kX(P6uT9zSBTqfn`%
zgzR&#Y<#9gRZ&-I8++f}!N^jSWQy`nqgPp8+NM~t&TnKO!wrZnCj=;?Yo%*gTrX@m
ze}cJ?%NxsF2>$>IxLF*iN4d>*4U@OFP;X%1KXk4E-rnIxV%p*l4jhHlL;4#8u7*J9
z&PQc)Pc&5#-1}r4k1B=tiQeOm#Z6CA7(j8s;lV7UVNQ!0f#})5fAWFUX(uoW>MOc4
z`q(=o!_2G<Bv|)GX|c&oCPwI=`k8O;xu+gGFA3h6m2{Iv(K8%gKbfbpk+KQEb547O
zu+%gdCI)(YFr1NYR&!O*<fOdx&v9?_3viwjQ$kMQ$Y^Rz4;x7yT2;(7(8${ywZ_G#
zy39GH)-N_Ex;mbo@cN8-xa0(0FJW1I78;g@T~2CfPWauE895(Co_sQg5IgeHu4uJd
zx<~qChemMVQ4>QATwbeOE_;vgQ$<%|N=9+CV%wQ_TabB1Q&XF7h1PiGrApY#CUYNP
zL9!+mu)F#kJEoGfD$pLKSuuvv0!S8B^pzs^I0v{qe5>llM^N39G%`zDcV{g0+I-PU
z?V|SKN-^WmWZNv;3uG5@Ztl(<)H8xTjur|!8Jyo^!ZbCmZgQ(ardBzwZUMq;AGO47
z+kV9nEM=w6VYnQF*)le^R-OFzDUunx=!)R{{HUjavR>FeRI)<&P49!<AvQ!%Cq`O!
z$=iaJuGrw$<*1n(xun|Qe`Gs=Hfy-@v5uAq{{Y-+xIMyxc3<_6p;8_2<O1fD_PMeR
zz<Ya-3jrVlb{<Io0F>sv#1Qdw{!tP#*J!Z^;XwA5X4h}`2vNVWTIQD7*0*FV)UDmV
zFhN8X5Z%L%gyuJU32DgwRJ1ps4U%oU1<!D}NY~wxjjtF)mXLQ0JI9ogvMJkQLtoy=
zN+C|jStq9NP2%A!@U`CN9Qg`2HPPL&*xU5Eb4h0g;PMedvNr%pYsOS05N&i>+W!D)
z9QRPZCp6gS<uYJsAMTR<oIdI97QqRnsDxyVHa58ljpEj^QZd_2igV*@@-X53)-eOg
zBi)ab!rj<7ca<p}h)i=$`B=mbYnW_#<tTP<kV2Z_*l^F3j*7<MEMzP$AE;obPiMEo
zf{o3yG5aQoE-da>Jmc)FBo9$e>)Z>U@}gsh4n{U+G}+??MNtssWeB?Lc8FXBv5-_@
znZlH@+iVXCJcn^$m_|z*fBW*Icp%^@Vk43hoZIAZu+^Y5eh5sFfb)CyD#9&<fac@6
zK0PV5EWBiW5xOG#Gr^8)hr+hgD;*n}*AwtjZPF)%+41gYkfNVXd}n-O;BqXqq`i$6
z*3o}OP}y6O4b)nNGh|^PVN%h~=$-~fathH?NG6Ywl{Tr_(-+93ib-hCrbn#-<%hS?
zTxr$bn?~1{MD9nAs%1?8c3Kp1Q9diVtasajgsGu+nSV%RWv79_x4U~3bLrbz5t^KA
zc>Qso_*6Q4@=~}tfVrQ{!WM^3sg7UbQyZV=VdX)_x+<iarUDF+9i(T$;S)<x_)h2<
zxxdWCWm6qJbayP-Cy=UShH5wNEhVGBg_gl5>6YS)OxB_<g3(StQ%JI@6tig4*v3mQ
zV}8imDwySwt|x4O;qAr#s>-DPZX(G5bBFi(Ep?+tBs6S}rXNzA`-VtXF)@=f(vhGz
zV#m79Q_D7=Qe6nR2Q9W%o`SN2Q-nA@u~ZJn7b#j9=rc#B^dGV}dwa0<`YT$kHI;F0
zi~{fOso|<S{W)7=-W;tcYrQ#xT<{N`#cns*xfInDvQxaaXw8QX0?NlqE@O9z3)nw!
zt?F4%TEfeQN=7f;XDUTrl~cMllFQ^JZLJKyV)m`kPY5ubuM0I<sXCrw%9go=96WYb
zl=TqTFi8u8CH}=M+Iwo*>CW8$09Cj{u-$eKMX1M72=zd4;5ob%6<s7Ud*ZnIc2Pe_
zmranmGG7z9Z)Igc6fb4tdB1j^P-&nkq*TRrA5HEK`LdkTGFI4(6zxu&GEY^5jzyDb
zs-rdq*zlIx9jn?at8|l2?_N9D@&c`>WRYeNOM8xNwe=5Vv40HQj>@_8tuEakwcpsM
zQ?Xa}W`xr=&H&i*6W;r<mX&Wc0C6NUW4s>!07MkjR=Ebn7Sq_sqn56&mP@tAZ~0Mw
zsS^JHQ!&5cTF(G@Epu|JD=9rPO_5Y9O&0VT)Q=!;CEiut9buKANHRDp1x`$IS*N<w
z=~ZFP4K}@$=O1WjNY+!z_Ov~(2k(_Ul@!%Y**iA7`n#;_rh5hBIPj&8p_O9A+a&|d
zkV=P=OtHOInIM{mV&AU^>ZPlypz1196>Lq4se>0B{R*c1<xDOx$lp<;`A<J&ALk&F
z?q>6DZHF~duV|BW_A**JtuBAyI`JG4d=-DBPWdDDIE(TMqn5INNRr_^UPmM9qtmr-
z%TIe_!bwH2>7!3m2z}hvi}wT|qoiZxEoGYF{HMCNpsu8@g6#cckfWZI$o<wWBZ3s7
z+B14G`qq^8JJqHxib3I4I<~SHiz;Fd?QpkDEN}4Ynn*YfC=E+Uv`&025=YIug=Ign
z9B-ooQ3Gn*b_abdx`$4wh=**me5<LV^kpt>n{F}wQ`u4+c92@($RqqNl_b`QRHDdX
ze6X_4CBSlxrK{ROjzZE@LI*s0jW_sFRZ}~5=2@;t(z5DYk#yk=d<BkZC%^vy3I<D4
zMhp`@^T0U2>tO!?l~)Zz;<vc9!}dqAv6T%1LN|`~OYzVY$v-^!qcTL{EF-^kMK-Cp
z2e92mr#gViumK#WkWL(<)O7DkLp>ncd$X}h;ICsTmhY^BvLMQU1G^PlEOODxT^YP?
zK2U6wJ)2z8$wwfgDScNk?IuQdXK<5)iwkL^pH$ZXK(X?nd!e4~lED7}QiD-wg}~ov
z?0YJyeP*5P_YV10QPCFYxMS)mUI6#Ud^~nUNhA}q_^bet`iBaJn!ZK@xbAOopCx-p
zCM!3~Nkv2rg?dhgOU6Bf_A1_sQG8K>F!dNXJ=(L>)o<U1<GW9FZB6LZv)JvVe=l^;
z`!r&`7Q5-{N38^)Kgd7j0XSo%ER}_i?0Xb6`dvhFdem~3zmnVF{gjNBNi7uYA>Y{j
z5sTMi$}I}oxnTCS=Nx54S2HVFX<7sA$O$Ha(VL5r+u=bdZqH+^?+3rp9x1R{3{94q
z+?~7(t14+CkQT^$V5&(acsL|m%6t`rcGot}_(>=+qdn}@QEGC~*^(0^KRy)Inq?-S
zKRc#M*s3`#9n}>zY(~wH9j6y4#<ogQDk$VGXC=N8a;-7kccQ|Mp^yInq}1RIe*xZA
zcDtbf9W6h(r;96?DyelEawY+?j9$r*OD!b6gvWeGhgoFWcMztfsTg?}=-gQ|O}Gk3
z;w&OSZr;}HwVLjc4OCvVBjj7M#?0C1=P}89e`30E<m8A?7agMSPt>N22<AKE?0bZ4
ztcInV;FY_)DhOT+cLRlCr8*fU^vi=u<Fcxi5pkjAg@<c_Bg#iI&AqM>Qo|%?_=j^p
zsUd{1o8utkAv$S@^bH%fn>XA%cu%ulJ-PCb#vSiq+Ixh+?T)#@@`;eUT+@vFC$-0x
zocJn08!Ijx&`)m4H#0eD4jsb5WURD}#vR+`IfbO{b8JxT#ewIsQaS$HKkPutQ+7UR
zPd$_lyK|d_LmpZzPVwa{;{<L7<KZ!^fwBT~f|2`OgZrc{&8(5&^L#81L^870BR&&7
zS1^GfxbhUv;>6)K?7ut|8Ii;SZqhB}CJ$}eMbkiZZuaH9!ji$@SfFR37c;wg?3&PW
z3VVZ^axOlpT3X|4f{S1fUe-DJPj5E~&2BNm?S}Vn+#+L*i)`U_#tVR2K?y(y93Ki+
zf<6{C1ME1sKMRXV7qT=)*ED3@sLO4DKXsPO&?eh+p9w>6#zL9Vf^a!ZEOSXCgg~f9
zHp3ru_eLH#&y;`*<wyy(3KkL|*E1b}x^N(m1xbQU#jcZJ83=>f8OJG)j1mf+%?=!3
zq2IZVxj4E3BR-=A&mJzDC7#dKj_8)Xu5Y{Oqn0j9PCP6g!2{mHFO@5OH{cr-j~KIt
zLSthg*KaFm44*6l_qF**SlK`()=dww+Vr5DmXu6L+GY`JDFkkgz+8^%Fz_r1L^4tO
zTruS<M!&K-DPyT;w`g}|QC&qOMEh~(%KeRLH*2hxeX=uTtORy8NuiaknG?P-i`&9o
zz>KS!ngCoJ%OGkgtkOelLd^`MnN=-;unITl7B)|*X<;PZ)<XKEy2T1(Q0Ib0+i#+4
zUTilG6oTFPP1-IvSjcp5cHoJQeC=?#?1vz50^^gMSuKaM&N4O(kCnnO;%-14m3t(6
z4h_O43Y(A*C_VHQq4Gnwi&-;lo&qR5I9syqjPw1Fvo-WtQ3*AAwo_6y+ljHq3)1>O
zrQy<@>c4EVID3o7A4P`H<z|smBx4u=;P+anda=)t0$KrG>bgf9n>X-KQpFjSjg6${
z_*p)r>MDvt<{29BFg7A+DzzPK2sHK+xPGI;WW6(|X>+<>rk#?LlO54>j8?>qT#q%@
z<Ez%BE`o|lWj)v~R2qJR)U<Iu&eG~5xb7@Z%JqF0SJGKlS*Njrot%3Bw?Ih0Mby1h
zQ>|-JHYygrHiL;R*+IEWQHf-fduNJj6n#fEJE7fD%5(go#^17+M15w97HB1Twh3*m
z^1VFttz@u|&s1lhZNa*NT?z_l%N+O0KkjmRby7j)6zv%LNUH1R6`It~WDUz0U4iyp
z)g5z9rct_&NhQU?*8_xKQB4zIbS|-H^sEIdA%k0NwDAXka@Pxklw$QrNBcXGSp6%h
zHTtGb>Pm+}E5BWd0ef%Zzu;bnQ9#+X#y&}0FS(8&wOe$Rd~T<Krj8m`8v@n~1NL5}
zrB^{6IA{$Gwg^n8ttvF4VrqW{`dO65Iyvj<Wdjdvm%r36H|qZY!J0T(HA&T~+FA+S
zE<*RcS6il_gv~soi~w@H!>X!vzOUayME26tzZ>4ua*@h&brO+^O6Ae>{U1*0udjVP
z^-<Z6+q@eOs`R}B@b^omF&gJOO+H5d0KHErJA4v3T5gy88q=wFH&d9@x!Jw#m3gW3
z=7pi@@ARc~3<KQV_#su}lvna1vc<YFk@O!$>H3G}Ki1}R8gAXr1zJ{hPfuyB^yp_5
z4rsGLZ!66@!&lPat9%eh=eFk7a;NEG4Mw0}JW@#+{Wf)oQ{^fPihY}1bFAy9W9&UB
zPhhJ$WwPoTn5(Ff-kVPcf}^UXZ1M)Ol31I&l5Pso=(JEmBZf(szy<GoBaPG8CmLU=
zs->==rlmVWTnO-nY*h8G{utN~WF38Who(h&<czos?RP6Ds{SQW(KXTOu(ijrJg%Ne
z5v%Cg>RKH>olI(>{#?0)jy@JAsd}0iBWvk{F5Vn4Ry$YgjeAvjZ?5Jv<7-Y8Wj33r
z>JGfldt>CAD9dG1YqL>9Sy$AWoG~}`INNoythIVAV@R%T59S|dw(ZUndN1;NHA5tk
z<9kjsb*k&injKPx9Y&qaY|+>of0ZdDJX>s`>D?|#tJx-^OWF;<^1UL8vYr<*2uq`H
z79$JF-CsRCO{tB}EGPAHjfbfumLYd;c^1N5jkDBc)pV*x7RmfKALa#Qx`V1Afv*v{
zuLt?B!pnwh8mo5F(@i0E1%<#;v+%F0tD4u>%lT+skZp1k)TPj_quG_}E~oV#=7LSm
zGLO)8xeXX|*!az`;xM&T-+|DZKC4-K%T4{A)xBPUN2BRZ)9ND=KtK0dEZ~w~q8chQ
zdu9%!TrY^SqicZuF9yVY)m2uds_LimnrstP6M$ONh3fq;(R~wJPG@yXXOX_=G`}P4
zwAwzQq3IQ0l&6Z6MlcCzZPr<1)z}t4XPf>Pei+reP;Gv_2!7*m*9(uj^^T;`^vZn|
z(b7}4G8#pi0R5A7-m=j2=7Rc&ng0N59sd9eC#`-V=<`xJ)U)q!<&G9rc@vEwB<{>q
zbaiuA${BFhyCaJ&)drsgT`=Q2BbkH~as}Fd%Ja(Ztfi={52ikw-N^>Y&+2O0I(IkM
zafU&km9fn(!I3x7)0taUVG%6diw;xWM-@xj`RT)4({`I>WvhCcVCynQk>H{<THSk6
zsAP2DY;gc%C^yTaC0jN+jdT>cJDW`H?zYm<Zs1lmw3>@y{LJ(-h}>}EFjuSepW)qD
ztB$8rERa2**d9Ks(k1E2KlJlV+GyW)+iQi;UOj%pOUX@fK47D%o|(p4YKdT(xw~9J
zTMYt|r>?4?rPb=}=(5=heZ+XW((9cOpwm_vq>1d>e@pv)5W04wrs?%!pG%9>ka4!d
zDpJOiy4cXj+NiVI`ZuI{drQ&drkLEdwk7YlS%1V04^4^WQpU$b;fFV}!Rx<>8nqi6
z6x1`pC-S-9rNIYH*E*h~2#M6C<lq+NX5{@0lZ!JwOQF%jU+SBX*I!{b2jN~(^ouo!
z;HuDcnW<)f`;9IBAK0s|nCaa^Ro7yy)F}%fX}_la>)rIYsVHffB89Cs$O8!_ni%8z
zF`OkQq<r&N(Y;p`f+y30{>J2gbWIoGj;E;>{{X7J!K0QmTl=q}Dr#e%!d3zY0EJmw
zP$C}DVeq&z{z)ZKI&t{7*^B94!)+f&V_h5(wcYV@R^o;VdNyr|jcB)oEj@DxAe1eA
zd1xW0vhy<eZe6pgI1(-;t7}GGbqlo?jBg7x>eA+Woo}0<YBf062rtO;xH5SW`#KgA
zRX(KFw)a)_8q+{Gcp+qKHI})g2{>8ZLt1kkV&%^BzL99)HyVzw6oA?P0Nqu)QZ6<Q
zB=!p}N%`vON29p3^KiDkHPg=oNj2Tx<p_BBb3dTYP{ef@s-3_P;1%sYp2*rCGlNx&
z*+WMK+*;BH2g;{p^%a$4X#N;Bvh?wInDFiGoO8=5^l0>GBmGTiw_{{wQ$QBAkhJx2
zQNy+0uH1M*Ro2ZYE*NS|nRz-UpwT?Ff)<gxg+r@q%^}Tk7EsmHlH%7pD=n?fF>{!~
z_gr(y=;($!1J(5a$;jLd&BD?2JvXl3S>pY`Sxp~Hn!dPtppXs)m#cKm11RBZ9MCQk
zW5(OI434ymN((iCrM9vrU<+>055icz5O&`^k_H{eI4h~a5lpSCdt_m0XZAwrw6ZpP
zhZ5WOR@G43mfR;(zyo&+SuId+K`=x>AeA#3=HLsc8#@Wu<8HxNQ?~J7<PY6WP_bLC
z!31vKxLhVpQue=VhB!q!R@{Svs~-E#TJPN$#y*X*X#g$U!?nXVSuVe-ZBCZ>Wwz^D
z=Yq9$18gn>n=c~#P1W5SW`VA=z&84-LN3xn#V*WMFGh7WQ|Fq3t`ki2a?s<r1zo9r
z8EchoedZ<Y7tO$4mH1oLRBqD=WX-44U>0;w;z9oag>BRyh#DmHaxm1zNjrbti1H7|
zmG%&7FiD;(w<dh;r|8n?)$gaNY4uuiP8Hp5yDK3PHsJBX&-I^D$*lDr>N~NFcF_I{
zhsyLWhv`@~jXjlhhjV+h9NjH*>}L4A82uYdpIFrz=RVK9+kOi5UYXNsY1kMZBa{L3
zD#5)ur_sU)Ya-e`q;iICp(Is1Sba^I+!ZP-LN?yRwF=F8frj9{mca#7Qdc`ts|C;6
zK(nK9$Uh5DHn&Y#rM@?owc)oQuPm>ufBLJLN*!W<SCut7nC>?p?DZ2v2&4p&aycsv
z)p~;{oMLIQ@}-MX)(tPEE^&t}e^KfB&1}W<xxzdCpt~n4=^V-}c4+inE|R*LwGzlA
zbF*MLR`buNY1IDLUc(~m&mpVTbXsQ$SvO+YJSrNAHOkkSB&jEN>H~`|X-T~njCE$C
zs&#5g>8~3Ps?+T)8T+jlLiHrH<~VHTJby79s_(-68V}C4YStIDWP{ylI@d_1qH`*!
zni>hew0BaI;n_(3#-4d*)Fu+hH#5ERi)NEX=(kST+D8V<J=1!_U8e>}9NAhkamoi=
z>X$&rG`NdoWl>EfMBH0;S@j#?hM2(D-ruGE7oOJjhNSs_(dt+wj2~@<&+eksy3Mt5
zJ}ZF!Hy&=Ov?rN0n5t#|BSXPIDPt8WY-Z^f8jXE$q}dCc*0@;t3aOeQsAs7!s9f*o
zz5?BK%rr02j;BZl=C|I_*<<>1s$yeI64=CXk;2&&qVzU7CaIcEmVzo~wwh)%;|^Ey
z)wZ1NYwvIF7HdzUs;IAw&^6_fo3-xYZ|M3tlCiSOcgRLX@SmMV*p3^dd8b#;xC)pJ
z#qZAxF+;D^y0c?RxxvczeN*uIDvxQ2%xUZmmJeV2J(EG7^D%qiamhI?QTd~E%B)Y(
z6eaQy>w1oNKMK&%%S}z|K~Uh*GarPSGwA7>*A}(r);Cs015oh#dloywqKd5o*_;0W
zS*fRxz~{-d@_Z>Y%~gi2f@hZya8D~;NzyE-ZRTM2cv+6J>G7kHJZB9&ctW@_t;td~
zm73<89+|n@WguC3=DV%Us29_~36HhZG*bTnsceW!S_!dRJtw58T@W$6ms<DinZuuK
zkMTxlqNJ$Ps{`c(cLjP?M^nX9LL!rCAXt;hRC=zT1w9*^v^GY!mFHFZq_Edp)FRlo
z-E(Bd+oaBnc~V;}waV(cy+PFNVdvUF#g!JR6?GBbT<15qTAebk2}Du=3FO>l6(>|a
zj!G|3ZQsBFTMh`uH|$Kg<tJW>UYz{RcIRoXA<k~uV|NZ6?hu-nPtT&)ih~(wes=N^
z-7x1;Rklc7uy(g~tJk#{Yjooruo*}e1*0IYh+<7y&hkEr-55hPJ7uSHH-YYH3rnL@
zP{=O!#vb8f9o>1v4b-S-H3BCH$1PUWy7;>!Xg6uUJSaCztar0tS)fNvFR4!9XXG~6
zS?zM3Hq;RKgijnEF0Qohq@}HkY|;TB7|NyVJw~2bM(1snqXkY;OK7^AmYGoYx_32<
zk<OMZv957B_)eC&&xOPNx!H#_tn50RlU6V{cJ`ayt4*lTNvKB3>PXM7(eAhN4+S1h
zBJkwQ?R#H5jK$g=?p}$~nqHTvY4N>`V<!VY_bPo4OOCOZmOZW}*%ne)vVNbRbuoKd
zdH6;-($KQ;+vvaQ9WAiZJjO1<J<R1|X{sHkRu4?=vA8QoL$6Iy3%x-1lG|~0lGa^$
zTmv1t_`(iK%@|24XRCDAUrqTB%2kG#%W-kal3iW0jqp4ce{j6RrmG8>DQbn73EJ-M
zR&^CZl7Hd2+#J~8qMxB$J(@0{)SVMtADfGVZdab_6|Xg|fARx$ss8|0qpFM2pZaV*
z6(wagHAH)(ups{HB^R@88hswNDPU#X0RsoZGN)02!()gK9oL-AsXmq$#>Z`QMhd8h
zsArS)6LHQ{<D2#gMINN>RECyr2f+v$?Qd)(Io-UhMIN%}$>~V)-P~PEsl%u?X2&c~
zYh=q^*o8+u6HvAT)H=i6A==_e?x?AsBdR@D1C^qmrzWZl5w*qO-29_xv@qK+um_IE
zu~Bnfl;cAvB|d{(4aKZggc5+^o>ZqzYhxBRlzygp`AvcV*Vr7R%}E(W#q6`v^(krU
z0A>dnR(htY>0rIb9IWinRKp*r80Rn^K;Z#4sr)xF!N(TkD=h`2%5JHx67P=pK3Avy
z7HQLJ8az~$4K8D>SbT-$vT5(El!gpDIbP%VIa>`S927MSv1S_LrzxT1kJx2*O6uBt
zzP$sU;=y|qLuxfD%5Aj`+bc%Wy)F8UAdlQxa67DbP}ETRu9i6)8;>9)<UbS2`o4m+
zPF*8|;5^&1z|~N`8lB9$m<~ep{;JpXs!&@jfx*Dy>kn0^>C?vl07vS}@}{LvMHCel
z+67BZ38tCXV}-J_-BHuj?37hR{n3}@qq+&YoRG?P`$uFwM!f$3U7^k;zsxyIoRhG%
z9yHBAPEb(OJ(YB98-=$udPb9~z#_P5F_G_OmyKz<qrW)WX}2^J?j4t;X_R#{M90G|
zp^>1MH?i=UDNAgN;<QiJ5y3S#txVHrewTL(2kKT+OK|cQ?7{g~x(b3^!}?r%EZ0y7
zA-Mz)s|fI7IohBIwW^ZuO~%KJ_fWS@_3Ir|O#c8%pywPE4aAQ!Huy%-Rc&x}{muDR
zQcp||l^Xtv>VpiQ>AJPUue3SGg`w&iDoWV4y{ve(+Tb}}ajiuCLX1^G8Eo<AaOTMU
zBdF>m(_2k2B1Q`WQqD9aSp{y2%{IBUkwhep{{X~b@ULt1NHu*um2?hlbF>2+o8RD}
zw7piIr*u<TJmJkh<sC@FL>?)mE{VqbLBi#mY1z{To{X&|b(PhVX|*l%s$)A&?<yIn
z>a^<P1xqs1f(8oEI)<XRQuUbqvyL1&`>j1CG*#5b4N^7<*?|85Dv{3pp=F9IqPIec
zl2Wj?!Tw4vw^gpwPp2i=2*C#h8AYZ?xV8uFb1`GVMCufASJD~^z#8y9kMNz#U#k@=
z?8rM(b!AyHkWU93gjHsq!xyg++}m7_3pJ=w)aja&>7;SHPqF?&vWr<TFu^~u+ju>~
zINE44v{6@1-&NhLP>!w<NXc65vM}AH0n~NC&i?>U7d@4AH9b{SMp1In%5<A1+3nwl
zde)iLkQ#caTODj-_Pw`!h3QmLQR^CG^or8cD}UR0?!Hyhg+(1qbrh01Ihb#8h3Z{9
z*A4U|bx|?ZMsK)qR5HQ(DG7Quv2^5A(#c0t7$6%1WnHa)7-^ccZhR~e%WhkXtyZ6|
zQS}~;9-&S_k)qEX(2vxey@HxurKivKT+b|`%c!P|A5L@?MuA@GULA0Gw=33qURcdI
z5?PM|*7BvMtcJdXM>`tXEuWQJTNtE`@<!sS^0ozyARfPCprewaG3rO1zzeT6&}5|4
z-#iZ^ZSDc=w$*y@5jnGv<~Ufi=IhFOx+m#ci|e$PxJ4_s77pJ<I5o(5#kgp*)u|ap
zIc<Rhg0q#vIX$+yR`Tm7QqoD1HwjwaZIw}>SJKC-xAU;?h~dMyT@Z^>uSYbc`j$N}
zUr|L+(DHpT$HMe@I<hDzuIUA>dxeSCv|~*ZE2y3(q>~_z<@hR-)+6|CKGT8`$%A?X
zGTJ>aO4q6NX{Bpq7ww)^e^Tkqnm0L)KVq`9S~YDwIIg36k9#!bX!Lzl%NM0s2#|Ar
z>zYyHBc>AMjHOnSacLMy@>4131TGHQ#z9-UmQqLwYeB-J)Ff;`v(v%&N9L^x@wQJ*
zQA=Au>MHOHY(RH#vK4TCPP$0qCP;zyxOhpc)XvE_Mh@SFK8;dmEhG!~1zQwbc9|Kp
zl`tBXncPO(8-D9Isleze2c}C+?k(ARC2o`*6Q-vJ$Q~9}sv-HH*}xgWE2-<U313FH
zq3S<11X0!7)MgncaJMiL+(~PX*oA=U=CUBu6Rtb0WRkt~d)n{PIUSVRu8S@9RCTG1
zhkG1HiyK*GsP!owGh&eU!B-ljt*djG{{VWW6jql6wZP#dVy?p}G^o6-qit;!nr!{Q
zy3Wy6O{LX}YOJ#M1grWw&q2PNhQtrqQS~@8kl->iaotv<Bu3<(`YjnH6-3T3v9ZcB
z8|54fRS}q~7!C22i=dWLS~48o3crfBPfu*j_uApZx?VaO%6_2H=A(J2rw%c97vUAt
zH4Kr$8n*6?@atuT89iLJFc_QzPhy4A0ET_9WsTIPwX%^-vu!~IMGN=D{{T`VE(pjd
zit5^VSWLDDxOa3F6<}m-4E-O?ACIEEf{#wrsP?!5;ya^_Mo|VwD7~1f>Ubk~o{DiK
zWc%a3TBCuxrUATjbvIDxH5xrwtALloeAw~zPoR7i7LqZu`r1FpLCMATG*>-@YEOjG
z0N@Ob;lQlTO;7Q5WP-0X3TKbf>&AE?QB*`JW)J5)6kAOhMa6~auMt*<xE8hD?ZVc9
z>qb2`2a?_gbxEgwTCNt_%{Jr0DUwa6J-ZxCSN)V^pJ=M99LlNbpCm>HIfL~x!l=|F
zq>^DQ9@E@-T3TBATH1n3+RBfg=L)A=(SwVsDB5>_G-H$$(0(u>6+4@<X!e7al*(#x
zOINxpX8G(wi%zQzy)|PGrVXxnYAUGyP&ASs6Y|FcdnT0rg^U_y#RU{qaXLudwqcVR
zif6hO`f~$td-g!-)#6OV`%KOUa)^C&I;)HmxWzL@97Yt>nq?&v*1_sK5Poo*9KpCG
z6co}}x+3fCHoue<vPjq9n|3Rwn;_v5`Rs;9;mxrb2o|<DrF$GnY2d2oRLIa=39#jH
zu56av;eP0Rl1BK^XvyCLiwl8a{U^e^(e*G0j&ca#Kf=eFtG8iw$7L9<^oRk(i}^xQ
z<ftneN3GD-KtPS<qT>YcRc@;wh359!d-f{_9<L~eYh)x3o)I*?K>C6CI*Yvj04eTQ
zKN&^ZDB~8mu)R(yTNz+@7Cz<_1tn31{>NRnP*zjTA>PN35>e4QQMNbP;}%z0b+Hx-
zEu89lrWXeWxC@m8a|Qyy`(L+Wt91yfs0cE#!KZ_6Py(^rxgj#0^eck)Ubc3J+4=B)
z@`;L8JGfcbRPGjWu^bf0>f~nxn<LGO!5W9m-M*Zj<{#W4-y`ETE)H+<li3ABRLRE2
zdtcZd=)mEYk#KN9REx55R4=00$Fu<D8+}Mg4hG|t;0#U<X(hgVCr;xpy5n`SM{uYu
zjFr3p0E)|JkfZd&hW2x8k19wB4smF=mZvvseeC;%j6rd2uWk?aLrB{a212ovM)v0(
z3a*mzNn$SE>jTjnL229*-vcFSe0=u`SHLz2p*xs)@)S(m$8HM*7_rRxZ*?1?HV=pN
zk&)pYeZ-JB<wWKHcSrYa(ub~rTOL2C6~(Q+kJzGpJ?DIW*A7CCMw5aqWD&asEetjz
z1xDal@LR$q;E!vw;Ha!X+H#8m8s>?z2G@`7g^`)!)<rqDIJhH($vwcH;R-c^Jh{Vb
ztU*!wC6_EanSMKjUeMuZD4!Vz+HG&xqGrfkE<fZhVIjL*E)=^Q*IbXNDW$d+?fw=6
zWKu@Q3xqS{EI9;^@QN)U<LpyO-TJ>*`AljBdu^LsBn0u2ry~c)aG2&|<0}M-=I4b2
zw*z~3L>7^oTqY0?!CH()EdJIhaxm+a(ndv!k%r>V7x_xofV9TBps*h3X>EM+5pH2_
zM+kX?Trb^9>75B$0;z4=Vb68cRUxkQroiAI39^zMVwz)YqxxK#Bu-Ac38{`qUJbpc
zAoeOqTMa<7{jX8b&SQ+hP~TDqayz%=DIWlh!STP;iP;Yy@|J?7dpXq3jAUUj1K1*=
zd$1kuZ<NVHTKj>I@RHw5vWjZZ$b(COwVYMO1K$Y*0z#~8O_*JdvxfywO;+e0BB*Ht
z$~S97r4whQR8!6a9tF=Jt4f}qrmKXy0?_MRS!Fc&BYS`j7xEU8lCoG@Ehb0GgrvZ+
zzR{D{G$|?MbAt;W4;JMCr_??vc0UEBZ|iI6>f_m09>-e`SnXbgpPB|Y08a#WRD-oc
zDKyI}XSQg=hbX#dv^!}6#ZqbVNfU!!2nx;3d&T0hC$e6ddbMTkHj@=gw?QLYH;&Fk
zMWeLM?qR2?9l@|Fik7lkbM7)UH<N6&Us81)GuYTG{nz~y4nkR{=rNK(jHi<4)@W<S
zH+fSEcwQ_mar&6!&&W=OsxZ;H!R+keo1z^A6#zM=$FqWmCRN2UuBT6eKjKC)-rb5B
zwJnYN9MUbqxt5z~%e}*&loa$aPQ$ckxc>mcJif<KR7Yw`-emOW0}ns*<RY~F9+Oaz
zQpo=R%2xsWH#GZX`3j0y3=)2_M{Mw?ZCsHwHO}74-M8c)AofpfbS$Eob*LKs4b7+5
zDctIFi0YU<ze1YXn<yJ4yB+#m3c2Y{vZ0<arF9f-sHBi>^(AfX@bCPm^*2FJr$X&l
zrX>9Cn(uR|!>;JZ$B>@WIofe_%BZU)V}w$?;QL&yMR2H#(W_u_{#W<=ti?2<c*`Gq
z3>KbRn>|HM85b^m9i7}HwRAl?G||$;$M0vf__hkUp(053oE44Ix`C{4g0tNT{VyNN
zu31{vd)WQVJQ3k6qR=^8G$xyHv#jR*5S4mdZM?91UOXY_^*f(rm+}#xon*|gAQU-z
zGetc_krHB@?Q+a(RPKrXtvuUZdyL?%4!FSY)-C@4a9G`5D%gXJGKr!+iLnbR9yXCa
zm8(eU%u*5_4o8)J9YY>K4*}fRuP}nPYJEsLpgFC-9mmSo(^UHGYnbtK!5z_-KWHj<
z*>^pAY2?{EcQ*X^O{?_Y!8A?}VeUIB+QMgTq`5v-Ow~0SbcDv@S>30ChZ_yib2CV8
z>u+z7*$Yul*;q?^@`0w;BlS1L>wi>k;aWjcO;k6)@W-B7d#uxlRFfzxX!hiSK71sh
zl2~LLj^>^mKjmrNPRYfH0p1lgZkr@8FN2QkSuiwRQaDK%H@P7TUkl?ttYm@^dTjEH
zHueMb_X^Rqu}IL#tR2PDwBpB4kQ^25oxYTy2|E$NO@F2*4XPfS_-x>I`SP7#qrJcN
zFlD^hf5LSn(aR5^R>DBwo<en9p<mM$dOE6SHdq|p$0PbA`=DIfTImcD56abp`U$nq
z!m_5UsM1ZE!C6A{?}YaG9tyFo(X`&7)BgZ7r^;R%-u9Lg;Q0tPmtbl7C~0b{w5foY
zH~?_)Kg!zZ`m8lEk5R(sy7Ria%|k?+@|wh7nWs2p{lG`*l0;l2qMOu>+1r2cgrn?A
zv(g_FPiA(Ol~+>fXx+Le7f0j50+z0!knWC6?H{R!^#qb?EqFG5dxOeH7G-D$S)P`u
zrOo~n{%wM&<CWXm$yx{p7C8#TQ>PUTE`{yg&Ah5Mx_D*u<^tE{S01!HsiQ>zF|<m@
zhsJsGKB$+zneF#IfZKvqL=JcX%yG8_c~1PKbvTdO@!3&{6-2XsUiNX^)5-1-Q#I7&
zmOFbn1Sfu8Ry>DXID9A`WR1iDe}lnI77UOY%8yeAp2~WCc4}98RabmnpWzENKd20p
z{>cVQReaNWkrvL<*SDXAN{oqHMuM((Oy5#3;xy+Rh150fia_oAZHxZ^<z;EBB&H<A
zCgvaIz7jiAmGkD!B-v?Wq!l*J?32;z5g6X_9JayiRTWh|RU6&Q<NeiZA3NjU1CO_m
z71oEUK2iBv{jvjqNK@lo4f1mIRMfeoda+^Sk>v*R2`_2d?(JHQLr$l4<bc@s9hD^X
z22)}STsUx9B+T@61pcN8A;DYG%GQy02;|@s!Br7cdTtDo;r)uSgkSh|4Hi5VpFvyM
zp{1*HhS%lE^S9l*ZNjOBnn;D%?d|j785K*mZIIk~QE{${r+tJm?2+3qf2hh6QK2B0
zG!i)lJ?&$?&2~owauLwgGyxT0!>}F(57jbl6LB+>L}h7j4;_jOK<L~9nQ`LFQ(L5o
z53Nk?-w01jec_p#UD@5$W06S{aVi-0w~>!N71o<G3kKH$@98I%Q&&wS5^a!Kx5I}8
zHH|U*gZ8_zx|T?ngY;=#Oe7+Da$}HkJf&owuka_kB>Cg_Ra#!5C~%Hz4+QsDPyQrh
zdpES_9EB~QogGB9ZVi+dN7>w<wTdX~BQr%}ZP_0afrzokdw9LGZ<HNVC4g?HlW+aK
zig>-+12WBmYI$ty+rpX5B$u()JmDQQ@YOi6{{X|7au0MY(d@u+y1JhBNx^ywpw>43
z00yjFadNEVF*&>7ecSy!thB7$ecAa>rK_5e_7B|83en$3JeJKH+Z?9%*#7|RR5AvW
zvEVh|<v|sEQ^mLsa2zK#SgIrD{{S7rqIOA$TIjz)xC&_H54d^1g%e&FLmY0?fP8&Y
zy`yg7Z1)MM)=cK^2Wa~y3lasz{3bGD%p8wC6oj?FJNzUKjr|-c86~b;e~_B+cKHED
zUB!{36TFEH+hA>#7&i8}1s?Y_+~j;G?rX+Kzm!8soaTTq1-qt}{{Z+C_gL7QfSY^p
zuque2%iM&FXzzsg5Dra`l-C=Lzp)D#cEDR=GE^^u$8&#VwsSxvlBHyz;nzPYdNCYs
zIk@3Y(O@n?UFoskrPd`NabdH7D_Mtz2NBr$PPMS^JcQ8Zn->1b?Q=*iKeEU=JGKZZ
zr<=H4JOI{%a#Jtvu|)*!w{_E9&eQfzXdny!0AizY&QZH3v^2+Sd?f_`05D1(FJQX%
zy}O{oCm%%J&f?#?kXgpZp6MRJV~nH7%?Q^Kizk+~{j#8IwjXvA<8Us;(R&n*NDFOX
zqAzvqLOXTsbri6%*CUXCz@%;$@#Sz}BG*rQ2;f;aH?xl@QLK&emkV2tQU*Lb0TLPj
zz&S`jBHh-o&@ndWpDE$j9FMwl<Gt~f5sZwRl-3OrHS#jWg%HYyyY--f_gIr<ErGUD
zwPPni1>0N=$L^UkW0ZXNLd@A3+qJ~}pxr!-c5a0>WH!2t8-d+Z)X}-FHp0CXB0=uT
zW7@}H*r2u8%Vh%^=J_gJpyJt9l2Nt5kcE9an0r|XBPIsmMaK!Y#!-)q9#k)Y+T$q)
zOluk}r1Xg63NSX2d-L5+*WaF2c80P_eb>%HCvotgV}h5|`6)H*$danAYPNu65sx6D
z>HS~Kh8dh%PEGC=k5yA?dQEegPb(yZ<c-P>o~_bro%wj8kjQWYa(>IQFWgRF_IoEo
zx?Mk~1KCp6lH2ZYg^%k>xhkhJO{+3X90F8S@Kw{&nr~L7IPLmm7Q&;i(wQ~GT<5s<
zJ=Bv<MG|p{S50b7r>twtt#A&x9#^~cmssd^RB^#n#zgx8y36LD$g-UJZgb;zYoaOj
zeM?K2HYYZvoPbK}jF(J=(vkH3s}_|#GpB;G9lYCkURBn*-317H1nqOX2DxNubsa}t
zVU3P;7`M2G5EetJ^wCRL-TI-MKIWHQX;;{gj`mzqims>Bg(VrwiMy|WwmmoaaUPji
z+PeDa<Sof<u%`Sk(W$8^#bi@P=12w4aILzNRi@BpeMIsKm|e?nkf7YUiGS60%D$uO
zS|850Pt#b>R-W6-QJQyAO;Fa;`o)esJHb`wUg%9=v-nJ;sD2E)LrD6SmDDTQrRvXy
z8n~*Wz1a31-}ze{mGKPSt4FL-X%*EjY_(N%^(`51zmKxeGg6|`;oDZoA=)_vWq50P
zz0Hiq8zt?FJ0W8FpIp@{OTm_M!{x<va^kc>r!VBsY3qN+3LP=8i%;~b9mU((cu!V!
z-l?wEz4A`xM(!9KY_l&F6?6J~iE%yFpQbu)lC(OSx+gNEi^ludAB8DSyBR{XjP(UQ
zRb^N<bICj{{{T$WOG_+bXl;Hri>sXrq#>lHYySW-5OwX6w;emB&{D&`wT*N8I35zI
z#g7=Z*+os$TK=j-Xz8{v{{S<Eki9|Dy7rq)_RQ#{k)s0kE70mc5vX)}6HI+M9Kb^y
z&;ed$)?IeZRmMRr-Pi)BEUh|;(+nxDQZj$~TU*sBpIbA7qid{g>sem(*FiO{FRF?u
z7~x`Xdn39tr+TAUf%DNn(xH(1!94wzwzH-p)AZMG)MkoijE&X>bf(g|oRg;NCSlzr
zq3IC5s!1Vjjl(Vq!1W(ivPy?h=}<A2_Lnz;pVzLfYhM&qZkjvf6O~KT{WUy=wGxun
zexdS`QcYMR8Fb6Ol<ECPR+LLsJN7u<<AAkt^z<~25J{*y#QvMye#*n7UglCbwXJJo
zZH@7TQL5@O%ULA5h3{gg$+E2^i|5g4l=^q4OhGOl<`K9!{T0_jei=VhYjq0fwlen&
z0>aB3(zRil#BxkMNDeG}7439=Ni`;%BByIaKx4|jHlnsiBa_lEG`#~#(&<|2Qq9cg
zgk<&AH7tEJVT>W9*~1PC&#Sdb>R9TyrgK5&#}`<BvHVA`p{4w*C1HDV*#XK~WK0pq
zv(dFpUW-qHS4=}*&Otc~$U4vQ5tTlrB@|)KI2Yw)9j)tKM_sVa>&R^9lD2(4_+uP<
zYU`?+`;FV1l##<MpUX(2nuq%`T{oxo1!VG1AGMC;T!Imrr8Qg;x;nX@*LHa(?Ov#8
zG<_nEb86TlBb(f>DC@memGil<%eY>_!@6l=gnH}|%PDu!NGK$Ho8MC;x8c{l(Qni0
zT+77QI{3H>&!DuY>T_Br+!KGI_4-{WP1CgY`r<adqa=lte$3@(jp!W>sOk^(noB#2
ziz}U1@c#g*T}^1|%*-8{Mc1M~RHUP3=wA^$g3>HPl8dWpE^R1dfXKgeB;t&dXNV4x
zs;8+9s-}Ey2izXF-6kpYZIbL^VB{NNXa4{aI?{TbLD0dq?r#oja<Y0|cCA@4Yo(E&
z1Xv|fl)6LC2_Hl1KZrU<`gBYadQ!6^Xu0|oQ>y+c!37ACno{WpE$+OY3JTdCF3BV(
z`f|0MBlu@quT_84wpwPBjpLA-dALXRbV@iAdP6Gz01!28ZhueGXQuod+^=E$B<Za+
z`f#nQrH)CT?s0HYbl2eSk)}Db$$2Cl-fp+_6ja)D0vK=yV7MRU@nUYab;HAL8E&rW
ziY-y%6HE+zjDC`vq4aK*r&-LWV_j^JIa;cj8V4a(RMy78ec^c?PvzX+w0ao4RFwob
z^7O5=Y-sx^pIS$Ig-ugmx!%%9K+UK)65ZHdPG2_8*x*I<`jc;mA!@Z2n2zUX>ax}P
zn_?cO`vsiVI+`HgWP~3VQCX!oqKgtnx~ExW4<tMvx~tTBm9h=3b(fv$T|n2kfi3Uy
zswUU0<9P?}tg&R8=w}En+39m@?rSVuEPhojez$x3?iK`V?WvT+B_;e=a<6)CN!4{-
zL7S<bDX)@7Rb%-1w`~FE#RaBX)7I42KhvgZb=Iq=Iy$1U?UttQ9th!VdP}2e>0xAs
zCi%!)7^0@7j^F@CU>8;|78v%<Ouk!siJsB=ex8M+Yem9ccU+^=sb9J6Ynm@>;aBy4
zTT$r+&6VwMz~nC?)Fsrq<EaBF%&gOzZz2A#g=IcZj7X@z<s)IG>ovVqsW{Vz3T8Un
zj|b?z8%n19ojy+KNL5`M)A4B(ENpE8&BImvG_yU=aX4Ig=H)6ws!G{cSL+%5*SB>!
zbH6O$-1rK>Q3tf{b&twM(zT|*oN^S_IW2|BGcfHwT89@rn_Uf2r8%+-fp7A)#sD35
za8wmBHb$0_^e8-BsAW1U^c_AZB@z~a^$PxTa0Fxn<x|rc87|j;pDOB>FyJysT~UHc
ziN5UUqLhG1N6@{__B?&cnw}=QAloTofJXZ)*7Q#7Ng!|4MCh#BHwc=7cGw`9GnoC3
z`zGKEV3lkQlskfnr>T-K1@CngV}qZuG4Vb&HNzviNkuM(@36Vt9K!b6{lcw+rN5d2
zOAv5=6s|5J;E{e+HD9Y7#E?PkQlyZ|CC;~91syA-FBby_>*p`TU0O|FsT)P6#_6Xf
z@7s{KpNTr`l-gX7$nw{Qov!k;KmM;Y)Ov+QU2R_1%_Nq)ym(%(<MBr<xi!(x<jvxS
zy_I@rMe38n*AnQRZ{_5D(`tVW=X|C~r<O@SspPMq>IR!eLtE*!%RAIHv_=;=0rg(2
zoh=*@c6|4#blK7>L|TjuYXh#?8JsPjPinB~RKB$o!bmM=GW;JXo~fO+lyXMxk~n^z
z<zwa0C3c<px>+33J<f-O(7ch_44R8H72QQuS38Se{5$b}7f@;rr<_XXmo$un;bh^d
z5izdA2o`fm<u<mp?x)`qu$e}H-Iskqt4Ae!Sp$fUPIJQ7^fe7FRVLZPT_y1EKSkxV
zR8>{;v7>Wte^D4(T6)b(LyQ-0J9{^`%6K&gu_T<<k4@DZLrVenvh5Zt0j~8eJR#K1
zb6ni*cNX|7JJelMQCiQ``}YI7&3;O!RB(Kf7B>DaRVO<pp!z#n*Ndh;iT3?f@8R5a
z8l78PD?f(gdzBp@ML{HOdrPEnJeBCZ9i-FgaEA~YZIw8r_B4}^M(;xD%1Ef1aMyuw
z;e|=m?x%&}m5vQ#JCz=>)y$-(FtOkeEG$+ZQPgJEY38M=adX|4IYTaFy%oidQeoPz
zy{1#gwl|JHP+ongPgkjG1}a%ejpr9tuF|y$wG&JvbJ`zlmFztm(iF|pBYT?PR14hp
zMJrZ4anmq5PeWDKN(D)gp#K0c!qr95GHA^eF+NG7u-*vER=Qf+dMJqYhsHC0Y^XYe
zts-qHY*HJMVgfv=3&hHGgc3_k@lQ03Yw+fWVEvT`NNF)oT41OI5NwlI*Pk$ToI<3b
z>KW;4*()AFX+x8c)S`Q?ixae{*x7&DZHT{RxzakGhH6085$iL*mE$!1X%&8+88w?I
zZzqQ;nRV%@oY`ZLw&#GBO7t{ZyFP%c*J<a4#(6_X7+!DJ9ZwvTGSfA{;Dw6RdYe)a
zG4n?wSa@;ZqcnX!O;(Ocst2}A0&``^uuf0*=)cJo{7lx1Q&~||=$mrV?tBI5{VOC8
z!q}W_M<kwA96d26n@zeB*OQzK*$Gs27BIFLCMS*H8!tjFB}nF!9oskcomoRb(;H+D
z_yu7)*Q#5o(!H$xA0=fg#awgxbBDFg;JdoB(e#sBMI;k6i6tJ?lYe6;^omUer_-1?
z99?>sP4x@{kJI%7U2aPAnr#BNPOOoxZ?nM}M$^*IE!#>R>UV9pOq%pbrrymbQtOU&
z*iGDUE!|MlbbVI21e3=%r#CHW?uM3^P>Q97x+k@l_L43N-*nYTrlxGIC)<!0K5UK@
z(QI(!VS0Z})F`VYq11!pmAGg<(E6h)p{XpK9k<4KUW3$Hr3S4Cn`mWBCfDGfg0Ou_
zsm&vqAEwh|YuhC>GxKx_V6CDVC43AU4bQ@|>3wU`s|~6IG@RTcx+V%OMl(%YP6U>?
zF7NbOny#9rl9a$&*1F!uv<t3|R6~XKN2$rC%RuS(#MYMkmzu)*M|Bfpg~Y`3m1EQz
zO??yJ1Lbp}?PJ2K(DdJUh=c2gU9KmUCwFXk$5e~+($dEF%MDB1!fwlURT}1%uLs(y
z2f3E^$lTm5c#^i4PW0TzwnhwNpM`y(YxKIMJ7_B5WKWD*-c<Ru*<Knvk4m7Hnyk6)
zAmY~x)VeqFrW?9;wa4`|_d)eemrXNdeGH5fFkH9F$Z53|{=9-VJ+edko8?k7QbNi+
zc6x<%G!$+#vcZnX_*j0otuKksVcZ%xOm|k*zMa%_(}LbNUm;Y_J7$oV@oco5BzXQ!
zjU0~|d(hh5Jh2F7jjeDU`>PJ1rJ<Y|W0EG{<Sa{!A&zt|EO6s*Ayr7~%83gEvo+m`
zy^7Mr{R*;KcUlD$hCt@Iz4DxD;i!u6J9B@ySuH|6PB$2(4|98wbXJE$S5E!go?7lc
zR!PUU7yAawQ8OmJ&(tNKP?|V*0&Q+p^*)el=$!umL^b1s<yA>VwZ4>%upUBnD9Pwo
z86;*Z>t8d81d>W8M5S!|{YLC@N788xZl=dErO~+La<_Ed8p#;is7Bk5a7#I;c03`>
z!yPK(#`hi<rt~}6U7|LEwSsM<*ht6<s;^HJ(l#ct=drgc!=>t=pww6$?Q6}3e@Rn$
zRFLZvi?FxpF~K9Ih2WUY?ZHj1q>81YvMVy7pQ*OPmHw*)a+6aC*!JXraO8!Mn8V|3
z?mfXuq~3~twX+*77y6hpQ@FOGFVxUEPz@fYNWV0|ae^(%wbk71GNe}0*gN@v;ExK+
zLDy(&q77>U9!;Fj1yVC{>=J^PK;0usWUBP00nw3S50$0V{{RjtH5f~wjj=rEa2C2<
zIh6FTk{7TEWXQ)MTvPQA`fLJ{y~oie(M#RG1w5vn(KyDP9$~0-q0wtaJx%tX(IxP&
zbcVxD)|-Iw!m;Z;MwWU<ioAyl#^K-PW;#Dof~Bvds%Z`mA&x!P!51k9G}3`_uIqKo
zX%R|5vdC6eYE=&}bn+hK+_d%dQVEUo5$|pgwK`kjh&&5}-FGZ8M+?f|v(I&+$6U<I
zp7%k)O&s*4(7XqZ%HOOZV`6>q;udqI#IC5^_Zv0bc?wg2_~g?IG;+8HmfgG`C~0(g
zu3p9+r1xH*r0JBEb4TcbXAHK;n(ZDsXBdk;u276`Z0eMkN1ABVZiMY{wtKHh=`BO@
zux*eB#(8gWsWl21qPwsy;Z#ehK8{AYk2VL7Dc!D#YDT|b)Y(?qnM&8n$iX&f%Ja!}
z3W~|SH(WOMv0AR1*J#GA1z6f0eX_=Qb5APIuX;KtA$L&d?P;cex>&&dKOqGqH5s9&
zxs=Ut7$Wxywo)Le1;ht;9#zhdTX;k=0&Fm|y+R)SO{IqMgO7!rH)wlYS~dMTT~P=j
zzrt{^b+}M#ns?;Cj?x+&wSR}y)YX~`BP{|({{VFUuj%(Xh2&+nCdaqYQOid%TRf7c
zt<h9^k-YB*7AogX)@xkg$8I<9s46I(1!0W1xNgBKMWcpB<`)5R!dWEMu%^>DeK$X<
z=vy>9UhHnN)Yno*-)z7&*29&5O*(?MnY&8_tmUJ!v(%g=gwslMY!r`;Xno$y?Nw-^
zE^{RSgU$I>6}?>>F6r)V{J^S>c4?{KH9VJdLBrNQx<@=bckVo>@V%7fT0IGx&X=w|
zjW1z;0mrg4R_UnqJv-4PGFFSnDCKy~4HZbL_334E8@lD7uT|*%dS=4PTBnyc`CL@z
z31ixJJY=P&VXJg$>8qVjTFXe%MtDCfNz%G&VUy97myN?0S}vu63f4AK0gz-LAy&aT
zr7dA^-@@s|o0L-}EJ-j9r_h_HgINI{nKvP2<gRC`2=<U{R{K+`ZFK|Tdz-r4EHiYt
z{{S-Uo!Q8`4<fPFKcivzVboITI=G5g7g5xk9}O#C)=|$zIIpF7{Ir=iKc!>(dV#P3
zx-HFj7wo+T3P)6FhLUT#GT-Lxxtx@wSwoLwx<^}*qBcc1I2eCothJiS92y$$W4o;O
zh}d-F`ALm{aSbQ3wylJ?G)L}?_F1av(J1<kf*C1aEK(CCyBsXWis-BBKhvw@wtb|9
zw4RO4I}3?v!X6ziiaO}a$MG*<P>*9bN{*uGs2KOe=*On+6@InQtcpiZPan98j4w;m
zsT(Cb0T-~tl$9}w7-Ds<I4R{f7oj*QBgN>Z)Vg`Dj(808ZWfX^a6VQ`Q<Hs5=713!
zop9d^-gOEJYM9>~%x%ab$GY>H?u&bC-s)%n013wfoxcmK9)5afHcUJ=h(8athX?*r
zQNAOL_F8_V(_xMwJT1erESb}tEBQ^Q)7tCgS!<m@3?dnsxwgVwnADvO42~%C2y11D
z!Y6}cg!!an>>NP_Yx;wvSo&|x(tf6kkUK9v*4t4`;cslLJa#Fi;qj(u`B$Ln^r-40
zC4dwJI#cPU^&@EnauwH3YBcqbZ4TQrKT`^`s%sw+ENBH<2}KZ`n`Ikon%Kq&aK=_w
zsUs2xO%TQVc2+v{?}lq|;(K>OM^8NS02)J&Eh7XaoU}X=ZjR|0CoLqK=D>MZ^J=ou
zNpl;FZo}GAY4mWltn`M$*JZvIoBb}IRHC!&*;?EmE1EeQc8-Sxqq8XYQ_CQ$r#5dc
z1mr7vSakhTn8$X-RNv74$LgsyEjC(5$jHHA;QXpu3YwZqlN{yjH};#Zg_b_ZI5K{r
ze3W%2o~4D7u;7u(4xV>ZG)6_wWM@!ng1(T!T+Pxje+p5^KPs0>sM#O{i-Up|xcW6o
z7Z0Nhls%2P{$b@?Y0yV70@uQho>=6Ecp~5+<g0x=qDW1yauT`yhlRT@B+{ei!3$SF
z!yeKs;lqM$HnL=8oNRmDHcGb2E*+l<8*HZ(wlX@S6Fn(O4;(lors^qZ>OecTp5aAM
z)=I*2bxWx;Y<IoDO0l%;FC<z$5Nq^xRAsdU9m3h*tgUO=OH=C6+(u3I--Sn}%w-!1
zBwou|r|H6`Esn@I1qTN97|9|EYW7Im8(8uR2T-OnJ9K0pzX>{rNv+bHC1XpXIW|J+
zb)nA>xWA7oY7fy)QA6N!soQoxYnrE%TlE?k@&%E#nrG+fjZGi>jTvC>vQ;rSO8DH;
z9^PAQszo-0o2F<WbaG19HcKAF9_sdzs(Z8-pHZUM^1Sa)mUyZx(&7o>dIwI+6<k6$
zklC0rJCr2~+YB<NqPth7sC7h@QN?}Pb4PVUS6M&h%t5Z&59uQ<E7hr~BjN15l~+`B
z%O;ESbW8$JJ<aS^{b<s=(dKk@^7@u>+Tr?2wV|kWRNn9zPzTw_dYvi$ud$mA{mr-d
zQ#yubHL?bqj{U-Tw28GU40K+pEdtLRs0BNk{{T)yhjH~*8c-Dtv2gWTKXo-+1YyG;
zMbQ+FcQ@>+WjHS}KJ9hze5fjP$F<iNR{}Q7-I8FB((d6tjzHNx3Zb|T96TnZEweai
zq;Iv?Hc`t;?bi!cS4|s+<~wscI4bF(AnmXY{{Sdb8re(e5DwBpMpHe~G_}My92ITo
z+14V*!kE#34Xzxw6b^DN^f_Uvj8oPztf&K%#Do6;DfL=EqbIEk><5EueN|-@L}t|0
zM#LXu`+|+1RGyMC9Z}rdSV{du<#A-h;O!lF@~JJBQT|s@r8E`o0mOS;Rzq6QrPHUu
z-xH6u$k$g#BmJ+(BRnOj)m-{#Q_g)x5nykSwmXX#CdyV*7Xa6fx>r!i8^ysQ_$b<1
zh@Q=l7I*nhl6N!O?6q~;Iow}pWE5N5aBShmRh0`1<PlUIuNZ5*p=jiN!36VytlrTq
zTZs22PAm;bY_WQ8EPhXv9KrCraO1c{!B7jm8My39bny+OTo9O27@8#lW*nzU8-cy7
zJJ|^wkEeef@)eV14`6V!nt!qkDFOC3{U^VKJgp3Mp3wGoJ`t0!HqRdBrk1tw`$fn2
zL?Dd4JA>mlVdNq$5&kSeq<3#A(Z(!E8=KsCNMmegb4l8JC1x%(-6u@d+8G>%3ZECj
zKx<tmt7*<JY(`kS7K9{Dk|`T3FLN9X+hb+u9Uazm(}Ab!05RMLxL~Qt$~!}<XPLzl
zp652jk~ffXbrg*z?QpffaJ`?Yx<-Rkq%{;qF!Pp3&O-A|OHHV!s{FNUJvrKaueY_~
zXwQ%(7L5Il($@>!Lo7wNE#tzrtf8|`&PO1iK-+e^?wwN+rhuajH)HNc_+0plNe;;D
zQ4fe8drC$Nu(jMKqihI)#s2A!1-Ll~sbROcCT;%!?5qutHNc&(`xM7Cw-&;dNPy2}
z%)qnnwD(wGIa*upZbyY2jR)K=M|ET(4ry(ye4*utvDU}iy3{YQGBLPiCc+4FdGLsI
zAmyUg?3&h)d?8~HmTm-w*xMke3qf^=u~r5x{@`pvhFER^Jo#BO0~XrA@#QyR2LqKh
zSZv{TsWt}-wFc<G?grh9P*n{#@H;C~(BWf)@~i3^TX5lp8`)^|S3S2jPK}r2l_TS^
z+zu46FgRdkRTGoh52du+qG{STkkf1SPip}dJcOZ!<cturR)C(ywWXM`2_=lVm*p1=
znrz7iJf}T@hmcx$Ax1}38AxQ7nn5II>I%{6a!_j2{+qqBv}7Jf$W;}vHbJ?Vb-40{
z)21}lKH^y6!5x-y<sEh-mkDp9NOby&IX!^6fZ&3x=&B5$G`rjnd?0AGNlQSGf_(W`
z6bz))EwqT{^XKZhq}u*PRAVi~>W4dS*EZMSl|`u7KFuT$c<{Cch2|3!&G!NAa9RCN
zO(si8cAm~nj#05^j#1fG%8391M%;EbR&+B509tN@4RtZ}s#qM)J(mWEBy5n#3lDqo
z^;BVp^lS7wjW(i2(rS&^(}quP)9`*3maF)ED;jDv_lY8SxM|2E$XNPmTK4?+TCR`k
z+RX{VnsDl>0&>HbNAlnNEWfd4pK&SYqt~>SThM%v4!~Z>ohMmzjj-Iuj#^i&!8Vzz
zQ#PuOMoPzyJN*b%mHi>5*SN_PeuVx)62_R3%}mbG$m+^{%p^a^Tw$19t^_}~%051u
zuhS<Ef=rL)aKnPQf;wvWjB`X`s2sHa0K(^#X&o@heHe<WS4jIlGS_`ML(4??*=Mwt
zp4M8*>K8*GY>hi_hj?8kpLp|f4|OGyv{j`0Fq6}<gpqxxu~wZm)!N5R$k9tNo|5^6
z?j#SP?26TNm)XvY@!4dnJxXViLACM<vT8`1Ri=7`wH-Uw5xTB~vrg5m{6-u$L-If6
zR>?$SE~KkqW5CN#2jnk4q><jcXQz<0;M``*Z>8$*tAVg;Y;)Q_Or!O){{V!ti|o;V
zMHaKCR8ly)Chv%wn+_FSF0WTZQ?Om|pXDcyqTfj##%z0=G;SW(jtE%&c7=?a)s40n
z$XYoqabT2hXtj#EIoR3h=Gft!{{YG=4Q20k$s4j!!3PCm<CXC`!}di936F4b`X-DQ
zKyOCQZ9q#2Wk9=6dn~50G|)_66U(AMbY6?AHtm9<&Tkhe%}Rl@L}jNJZ*UcsBu|?&
z6%f<cuonOxI6cCelA5lTJ@F0ka7FNeu4J_Gmonqy!k0tVq=s#hewP~%vQ20<jZU9C
zWry6-;08^yKB#R@iIc`m7IrRMfAET?d{SBf`#=Q0SS;5Zk=UkBFl6D)Zr5Ke7zIt}
zrJjAOQp-(MxwmRaD{5nVTpWI@b*a+PYH<6Q87LpQS!#_f(8yW`AF)(THL`6qTIl-e
zvsqFJAJ#bwLFz{|TjOwZPX%Kjgf+l^pCZcIf+^y5_#JQiPX$I$R#Gx+K{bP9o7wGf
z?mMS4rYeSPkOn{Kqp6Y3Z@rse@xfHJvdbH{HLkcp#CFX+Eqv4?5A|T~%jA6%>V!3n
z^{ESY4B2Gh)tXzfe_`^crPLbPL5@HVk=<txX69VOR#<&Gnn4~>RPCCQZ}kl(Z%$E{
zv-w^=PzJ6Fxc>l({{T*5-?2i+Q7m%a7ZBioP4HGV{Tp^VgQ@6W46!ykn|~4$-{q^%
zHJui}rz;GU&U@)gv0=yl71cbm`mLyobW;OxMi#n?s-Ih>G}Vj@skM#8n<xJODQ(03
z29%6;jnvWXV=H}whRxg`4*vkkys3eeY;3SSyU4h=4*RNZq3Ll+D~lRLXOZDj>5tSj
zX)P0-QAT-)pVR*U(x{@PxRQLAWsadV)Y5I0rZ)qSR6m-Esem|#A1c;L%|BJ8*(O2Z
z*0Y*?6+u^~%||Zy-Mxh1w}d0uZLs*>=#M_p`ztzm8z2s2hVLqhmVM3I?D+{KnreA>
zL=MuOY%J4FR|${Pr~$7WJIV@ALTmy&T>{ySSPhsF^-@JgGzZ$^_J44d<7;SW%j_%C
zaAv{?aQ!a|gH~grn({Q~y}4QlUiihwxxK+nscaPtEs=n<{H2aYp3OK~(UfHk-|9ea
zJF#=9eQ(f9Tssk!dUWFf62$HC{{V1`f}WbGfH~VH?D78qD*pg2Y>&j*p3}_KGY!`b
z?{%c7podV8)}eDmpk2(rDTbOmntI5#zxiF*{H3O(l7dk!KI~*zrIhcZLM=LE@JTFB
zFjU6o5sRKt520*>bAH5dtZAz#wJ5|jvHEob^vISdjXawjmiD&=OPKV^I*M4^iiSGh
z)H^6Z^x7El>P7sn?iQ|UcFN7J0nPHNrqbl6cc~5CA8=7q`wt&z5{6?DAI`(&T0|)x
z>$4vSNT^sEWQF$!^)&WPeI(%TivIvbyLt}Ma}5Mj4a^`r{Ha}~Iq{b5xbD-!rKPQ^
zq>|yn<F}Qd({;G#aBIfL_XRSs8(`5<RMK3+T=@I2oR6YyRXZk+bAfBVISWk~hE|8h
zK_if&o(LsryLP+JWRj1x1k7aQFc_u*%{aM0I+ivPT5i+WpYX4BZ8_~OF@i@WzxY}D
zlK2`;i<{l2ke)KNvr}6*!)y*b6n>kj8b=0B9OnN3S8%IoYS`dIo)3%i5qE3bXE$*2
zIS5V^G-b(CG%b>rqzNE+YmabnRCN^MMr?4{;y%S@OQxlNsZ4h;@&dfl_0~wy6+=fK
z&Dl?jTS2<e6<(ghb1=te_*FHOvqA%!OpWYT<gyy5ZpQ}&M_WevX-%3#9oU={@tvBC
z&<-NRSoiQy^8ns%J{8?n9m}5>KP~Ww6h5;o;7C8XSB&VC;blB>SlzAz=ur^N_DjCx
z6w2K$NS<98Ax)<S%ls*tLx*+HrE1a1D708bQR_1{-QLQ0Uu-no{{T;wRZ|5;6Svs9
zBmBV^O)Dm7F}owR(<T7t2FNk(aO5V$;L%`IY?y<#VQ&skdvFQQ%Xlf8vtQWqT*HDs
zi8nR;9jD5Ky5FdqCAH1L<HA}Ek8v&JTpXqw5K9l)IgTgV;c%HWWscs%geb^HN=1XN
zJcTrG1Y8h?yJZ9)YrLk~NX@UxCSh(ng{|~ZIJzNh?fNccg-p^2$-2fv1B07zaGQ|p
zgtA5a%(y=RBTdM-u~^KKCy+T(?rYm;9H?!Jk2y(f+#x_rkhHbf;W#_V&y^nM3><~T
z-;P2i2ohr{2@bg!LT`2Z+rp4bj^L~}WTC~SEB3v&2R;-oIKB7@Vv^?9vK2rW@ZfHF
zDFgnuL>7q~Y+Vg23teJ3MFFBqn-UIusUv;t4nhdI<MfaDQ?d5|5tGWs2$79&_$Wfx
zHQwG45s}60x!@c5K{^XV86YERwbI;x4aL3`5;oSh7cyeUZFX*$R*9VZ^Vu|jd)nz9
zT7AIc$`?7nfAF;f**&Ze_eucqbqgjU#HpG?fZBl8G=h+@c2XAN<Q%5$wd^pp7=i4#
zQH!<N7exjGdw+D-uoHj*Sl2^X;7y%tD5_~&B!1rui*~2R<7<<ftYW672_iV`h4o(7
zSmMh?BLsrP3;zIw1yukbkO}UFpJC-hH1!u2KSeY4N!VN}_eA*JYjB+u&H}^{{{Smf
z4=W~hIK9BijnQyV3T92l<vc;J7_wG_7FNp@?pxsq@a9}Aso*?;f1(n2H(XdGsvR&7
zQ0?a_J%5tAXp3)asCJ(p*$yZuzUm&AjwxJbsdLTqn}p7cr=imIsA?W<7(cIz6;-V3
z(pAb{$CnrK0>9}!3b$0Iuoh{~;xM}*8Oa>dnn$wLYML&$M#kz4k8>Ml&mIro%JWX6
zucM%?k+8qjXg<>3R*OXGZ^}dsOs*gdf>e6>>8&OQO8DTB_RC%_RNsqF`2}ZHNgiXV
zYf@L%fXLiW79z@ONgm1fRYzlMH1@g^UDn%ETx8R!0|oFv;T_ZZo1VwEvJtzr#nU`(
zBSvf3*VgK-mF=e79l!&Efd2qM*K2CT^)&MBz0JofOQ%*gIol&54tPJLw*_yg-Kc8X
zccmQ<rMO|<6QxSh7EfkJOzH?UiZ)SHvBKCTyoHtgLh1okBci93&xlz47N4lU4z&SL
zDyu6AYtBPC3oX>08CyXBmMNQ21HAGQzgq%J(UZ`_>#BVa;xe`MT{P-8#WYe#@a{=B
zM)Zb{rbkHU$ad5Wu!G9e#iZ&L(Y7`a#t-Ij?3qE$>6ytz7{AMUZvHdc!RG1>OHZn+
zrrkvLPTw8DUX>T&?FB;#)Mk;-@EvO@DEe1P(YMP(B!GZ-G3M<*AyMP4*)@?f2h*Jk
zH1LXw)|g&00xEVjm5rjO1J!BEtgP!gk?xXeT5GxNCu>@JDt!*3Z_YlVv72Pwadit)
zms%~jqfRtW%hNV`n#a5ma7QETvpV*=`g7?+UnbFk@~nD?THQxz-`hD}Z>!E_k=Jd@
zz7sg9bcKwhj?^ortf+IFJDlV4QF;Xd_2ZtTILCfdI(CGDB{0bD_u5v0;qSXyPWHFB
z3@H3=Jt3T&k5%aYq@~le@lQ`PT0=nEdxTAWEImz2HtM&+NIP5?l2TAsx>mX|Gnw0H
zCd+Y8sa0uua|@u90xU^kQpp+iQV~h$!)kh4DJ$I#T!v_x@*GEXyXdVGNS>9)NvUO9
zt#Jf|Z)xzddZld@RY`EWT>P7!>IP|*jSR2TDjfvzn}<g06qMQ-w4RMdxirz4Ddp2<
zpnn%F!TYR^r9$SnaRjvH;cPT7#EST%j+3ZqV$`A-E^~d>`lGc?BSY$nZQV1dHjbc+
znrX3P@UohYo`vAwMiQ1r!%OLsT6qp#SJc|QH6f>tV)*Tc46A;g=?z|&RWy3o1~Pq;
zH!X1g0D`?2PU#H~P9f7%M&?K`O^#8N)O$2>S>Z7CKDgLqf)~8DOb~8_heoZ`Tx6?}
z_vL!8SZNvqwKm13#M)Yy3@|p#f7Kb&T^CzfBw}cXqu*~KG#Zye&O8ikoi$0MbhLWC
zEkH7iy|?540F)GZ?z1!@l+TgPwl=th?ela_pFv1smKMG@WVG<*gzAbdGfa1>O;6~S
z_X|pHE{vhc9(g4PQ0fr5?UCVx`<ruwx<^J-O<NT8f5(RY=J^WM+M|q*k+YVPe|2@!
zXHnG%ii#5A>;l{ir`);|NYm&VR*R=d$I!6C{l4G^5Fdy&@kkp3oaTdv5Nrp^Ca*y1
z%{Vvnt!z;{i5fQs{Z@CV`b(+m9qPwXO;H)hvE(e^*I~5YjMXy@C2@h(CTL%gW0k4t
z-k+tetq*lunmz_q8+3^1+&?no9GA%Cw62z~QHA?7@gv>kz0+f>`vkdqJvJVL=-P5>
z>ZAq7^%u=yf1)c*=^mWcC3pH<G{!jHwerL-W8rztH&69etsd%`j4_ei5>c8YI_E=F
zKDLKY1<oG$q{|=m9#GAZ#x)+rgd29*?YbXAX*zb<TE>(A0B{RQ0HmS;u}0DMUTM+&
zZK`VedunT%$2)NZ#<d4g^`YJg4(<y0Psn-s+}vg8_wZnk6w#xo)Ie|Q7Fn%(R+b^Y
z2i$}De5&fbP1_xJU@T^})Ku+}@w!r6K3A0to<><zQP{D<J({|XqI2W1J6+)n$ttG2
zg}YjNyM^a$>s>0AcYa~*9mB7CDRn=_9UYo;poS;SC>Ch~&0dxd#b(Ivc1nI+A*h~<
zPUr>OHAugP;4I%+>w0FNO8H~0h9|USIrl5Y^?tI|HBj=}_rZP}9u_*U*Pc@9iDi(U
z?{O>K!T4B3e#Z_^K3Ah()E#+KSu>kUA$^Z-7H)lZx@Ycugn1W1(b5-61A7!^r=`9S
zFZ{ybuTvj`hZ_B2am&leKG`J}r#szeS;NY(ijKEYm8_?0u1&55)n13ER8&i7m`gzc
z-wWtJ!+w>fhfHk2!L<iBBZSY!g4$aL`4X-zneW42!#Ry~b#;*!clR%$bS|HxrG=KK
zZr}!NvpqA^P|;PITIz7Z!(#70D^XY0niU%hol_P60Pb~{nU^)no{KB37V~~uk)OnS
zSUfCeUUg2DL8i**RW*b(<Q0YdTl`9-sikXlYMt{FVi}tS;hLK@oo;dJ)K50^h8GnW
zMtNk@(k`JG$CG<3wZ5pT>Md~5&_d}8-C-lLY`y;g@QbF!4vxo8&v3~kWR;Zs68th0
zaWb~HE6*lLBaemdkE4o)lzL47G;pWnP7wVut$mFa<@|tU4Ts%;4+v&fgEqz+pmkcu
zI!j0Hx%(-!iWj-<lFlIVy!5S?YL?3h80QVdocyF<Ho0;tXq?7ua3J<7wxV$vEF7w(
z=vA=8u*Y%AgJ~oZf`Un1C%5#T%D}uapu6`~(nhKyY$4KEkJa5;(^AODt_KKeUw8y$
z4i(HY{{RdJ45dh%n6&P1r*q2bUID`4U@kaN%;9V*sVJ?JNNn;D6mhY#o!!bFX<X-R
zBj{0@b58{#$#S8ZrDSz9X5rx6DPV}n9f0^nR5W^IUnqJh3?zqPEUGVJsWy(1k+HJG
z1(nyTV}sObAowdwt5*RD%JOf-9Y$6?p@$E3w*@C9l1eb`md2lK!u}=H%d1k&3?j~H
zwa0aj{5jS&9Rk1d&5X82`QZGoLZ_g!A3KKN;oW03NZjp6%Ns1_9splU;&}f63@G5w
znPh*`Jv&90Q`ThlrJCSpZTVK3zo8uynON|^8gJ!e`dd}hDO($(fQb8(d!}{c^&L)~
z(!(ikFJLUGk*KOA2stu}IqBim<ZC1{!+W;qjeAwwM<kTlc^0!;vozXns>)yW8hE6g
zj3?9pT(pI+=)HeTtY~AQiLPnd=D1`P(+s>J_D)#2OswdBmX}?R^R9%*TJL;r79-><
zKB?%h^qE^+90YD6@h?NCuBFo8HT3dEHn-dw+z_xoh#!c$J!LGB!*|Z!8`|rhS>?+}
z=!O{a+cljzL8sN|;+i<4XbtAs1!MZVORk1t6a})egn(Q>vhTyKc1h^2_xf^P_C6KX
zxzrRUoy}`OaQ#H~RmqV)$U-eW7z%0_rri{=?3KB-ku<Qu4*(J{MU{57tG=SF7#d5P
z-J>N*Lsci{Vl%|%8-j1aPYGXUoKa}Ws|3wt5(Y8YBHSsebvn&5X2(9_9h~rsk{G?U
zjRCB2$W`54R}8v)Snvaz`d|M51yMz8o13Hsuhm1Sfh(RNb?i?7t#3`~bhBx#JDTZ$
zyI<vbgPbY@Vt=~dD|gV;8rYz0l;d?dCut`?A#zUyrP0$2$up~HBcRkpOMtm`-WHMi
z^fa1inw{X|fRWlIWlM>whTw}8m+DTKtfFh3O)Jb!&cbhGV+lo3r!^;N&vh?S%{@!p
z9b$R0<z=d?<d~mvKMDGU9Ybbxa+@3e>HRwkTVMP}2Ypj0(zYinbWzq!;&zZjxw1E>
zG*9&j3+COl;kN8nmsaVP*2vQdYi4)pw{@fZI?&5&zbR1}VUP7+x(aHvJBG}CR)eVN
zgJo4L%wfwUwg^{UD@10IvCB;Ai<}#9SJ8TYlR-Y1DeGz5EFreY?5Joudr8rCXPR)=
zQ_ODAf0X!2@*t=f@zW2RPB7L*{4ti}Dt#WEl=Q!oV-Kd=+TnTyWYiI}Y_4ldcxukn
z%R*;!paSkWxxrJGOVLQewr1$1tBX*PzL9iC4JWeJX@8V_1{vdECy`{dte_BY$EnSV
z$aS8sbf%h`b8&lG>6S+xk(?Bs!M_mndTH9`z~<SxYlb$JC*kWNtkb_OSX#=MzeE23
zs4D#zTc*_r6`;5i?f|b&=^mQW<n-z(OCJ-mJc5^#lGt??P)(-L)KsyxgvR6TE=#59
zlr&nu<>!s8E;nSh{b6c)*QE_zDKtc~XxeN+w&mw=&#6gD-8!T^$pp3%yY)85kD^4{
zRA*hDkEnF@1L-c<+bzahZWd=!={TT=^K_DtYu+*0UTO7JH1sW~^-Pu?=9CR?tsUJq
z@XL?Wbg|^L#+5ar&fB5NbyMnGHba|mRJyNA!x{A&1CJ`^qgRR2mw?u=9u+RV)U1v+
zvIFjMx6yURDeUEPm5{VULgr0!&79knuF+<0rKh%dWps@_{4X=qjcoC{cD36G_W-8p
z4R)tPs1I|C>0U>u&TaCkj~^L+#OFI&H}zE1?w`}EV|Ke2D<!SdGe^}K!GY%OaQ;%Q
zx`(JJt7$jWOwvfWJ{AjG*QBbY6w<qU+UvI6m1k8%px<Y%XilNk=u0PiJz&fqA$k7*
zRmANJRx%5iiNl92D!)b5D(RtQw1vbBIlaQ&>D?(eQHIT^IKSI=v~X0Mc^2iw&2;0d
zt0wiR!H^%-zl(e=6-5m!ZuKN!jFIkl3rj=OBTi^!EZMYL-wLOyrKF0T(aLQ8Hi6wj
zYAd49lW5Fq+C3cNFUotRkXzaj8Ye?OuWM@ynBl+(K98ym*1&oG7&ZX*UfrY7(|%dC
z7j6JI@`PJ}XHqg+cR*3b*0r?lzj8+?$$AQvp7`mbZ`o`Hu}2rMv;sSjg4K1Hgk-ht
z;~7agxdBFxHtKGcf;frvque|9SqeHhA(X;w1?&OrR^MK(HLr9+VA576sx+$oHU{bu
zlPfRpAJUc>@=N^``5_$_(9q3K7%VL<JdcG()Dgzofaig0SfDhnvSe|#IqYrc!qI89
zG+j+gBWd6=MZs_xX-~nUOCn_@4LA}uSX|dK`Nl%@-k+rW&YC?r+9YV={H%_h)0LF6
zY-=|GkUXtUg{M_Q*E;TF#|`YGKiH%xEfku=nMqLQ%G0}n?Yhd=P}I*-%9z0oamR(Y
z*L4`l^s1@7Ih%{ym03wNMU7x+YesE#TxlrN7I(_gchhurT85O`T8G+33o=h5!Bl#^
zRbGdv`ZYO;!v@$}E}hgVqKj{~;3}@aik7~C?y%kkz(G`5pX|1I-nXb4wm)O?P6uQk
zMbgzbP;{?ztX<h3r|Auy?G3pD`z?-zqWS|YzjK9G9!o@<;#@i=*HW?Dw#^v3U3HY|
zin@xj%6GU1#%}EXrGKirY8baf(~PV>p;BKX+<#Mz@>FV_GKy)dLG(4W^>)+i?%``N
zyRsqLTr~565gUd<3oA85WrPE@<AR9MHRtd2rFP;Cx#4x<q;qB2vXZ`|(Gi`bv{+q9
zNvKC89)!l$B~&`TC&jyhsP!#J(s6SQms*`1&IEsmdUIyHw4{t&g_-F(c_evluugsz
zg<iTQyJR=QkEEiSYWKPmw&1$nRHpBt;*FMxQtdXfBh8A`*H%TTQa(mlN(If9LU|!D
z10mTXJo1Rr>x6MQmjiI3rKVeruqw8hn(+5rgOIa2wI=4BxLRt5g6Bzl4pkPZR?ySw
z$CQn->M=$}qAB304rAQR^Wl4k;kK(LqoF%Zt#FmHN4Go>yke@Q&v6bID(9m$x}7qu
zjB#;<y99qK4O-|#sp#BK(~gRFK*oSBb~@aA6b7}RdQATSYR>~dD}Sfe($>PsTIQFy
zayz5-oe}j^z}vO%7E^5v#aV;ss?kIM7<&zf@)oOG)?t>Fj>DrP+&nC$W}NC;;^u<T
z4pVE}C#GD}YmAR5?UHF(k?N?Uj;Gg(#f0A-leE+Mh(lr*cZJpDK2J@;<G4fV&61A2
zuBX1x>w*6O3F7KI6{Tgqp6y>uoYce~8r<8lR?zjCn&NY52P*qWnwwCh^yFhh+%gEt
z$#r&u$_f7fGaZ|o*bY}OIJR|sZmkZh)G4c3CgL|aWpx-_$qj%Yt7mEd0GXux#VhR~
z{Y>(qr(<hBhUS*Y%vh)7mqPq)l=N}S48iO-Z*aAgPJ}=n2(cLmD5xI;%!WP9Cm|H-
zCd&z$ncw|Px=FPm<Bqn%Td7Hihq;%q&kE9;O*OF+B(WpfEx}YeMLS<nwBK+z3vZx9
z=slwMzn;lyL!qwOgVpHk=&HRp-|K8BVPj!&n4I!gsB6?zm2~fPt!Q{00I*t?n%E}V
z*9S0*{S(5bg_Ch*o`tEv=2^z~#k?)Pov8YhA%uYNJ%_PgWv0@y84H>TW3y}Uw2%oR
zpaeYnXCvWCSX^DAoVl;;Hn&ryhgWE?Zq||RJ_^*+x(O+xeKdjb5q6Mnyq~LPHE>5G
zUHnG-Nb;fRj;5^9Dt|9Ibo6dHY308~MF!Cc+*#|D(H9oT!)Jl+2f7#3q^lve44tJ#
zO{~)D3~S(i4nb7fpprWCEJU^4te4|#JpRqbldXzp2qrco3H6$^Z*|(>EWFC6Sb3ZH
z_>%pX4NhraaO3lo{{Rz`0-qP7(2Yb@t`V1pNIyxxDe*%sG`rl;@J>a!UU2<Jr_>ED
zEj)vDb)fZwW0ACao4_OV$ar!e8;H**B~0}CM!`Kedt<e}G88jgX={kwlR&S9@!UDP
zNVv}`v#E_ilu1U@viBpxKP57M2nM05ROzz<&}D7%-yvhV)+nk#t&N)lv$w+8#Yrt=
zOp-S5w+FhS)^zb8bT1<Zg1sDBRHMY?$&ZV(&e;r(oK#YslQ91O01HJyskUgnIWEbE
zEg>wrL4rp;qSnq;KDHbKW`Jy!hWGN8aB&KneUSA8ZI#40S-|G%!=&rz>Y-+tT3ZzC
zKf#;5{1pr3kEk@)I-P;Kg*d#Bj$S;4n0p<(mIpRQ9(W-5Tv;c2XKp-ptsC0tB%`P;
zdv?5V;lqcN*)`U{16cj9?iNaZtg3Y=qpNG3Bv@m<6<l@Vd5hdmRAU(@XsdB+XQ65u
zoi3vQaB%fnGxD+e#au5wo5#iMrh%7()Q#B+k5hAmj@&-#^2FZA$0TA|K^rO{G0C6l
zauPi-iHMAoVuaB(C&gAEm8H>>&xO6ysi~hBnlaf<QE}Nw$xB58DQY5%9gxNMaR<uP
zRzla^&9}+}P|@2YKbV5S?H=a&N}Qg;=@oRLwGR>4G2C4k$|tf-uEGJkV{RR1w~rwk
zO{+4d5gf;Cjlgp2#gZ>aCRoV?iefve{Z1w|j_wa3A00u%UViE-m|IZO<oI2Q#iNnN
zUd;ZKSsh>_gN5kY9@fSP9haTYK{YKvk)V(Y*!1S0C62^d!;qmSi$y<Xrn*X6nll8!
zrMCNp<(kz2)AfzfW+xn5g{anRWMhr6ZIwhP{O`5i?Dy=VyR!94nX2j8V)Pmv?QsIf
z%7>}CZQ7(pyGspjr3k*x(+~Wv(`h9T3xZp09|>QsJ4u`}pb#(Yke(2l-JrrvDt#F^
zDStA-Q3Pf=n~9+!#jYHy%@#J)O4qQMsw4YdT|PQ3ZO2p7_Qzhv{{S8#fiUtuQB?X&
zGX~Yuw`7*c7_soV<&l<*VqEE;$B#D>G-P>35om}b>vdgAJh4jF%H6IU5#3#lvoJZh
zb-#4VNukV-P-#q+u9^|G$2T0T)86`d1T~PBIR2O0+W!FlSED|e-l=<A?e5<RE3{f&
zMv%iaK(vn;2gq3<J)UVbBjJ&=(*keUD_S<bp@2^foo^hg3T+y%MXU^;{-T(hHRmJ`
z1#I-~77Ds{%M)A0)#ENG<&-U+c|MagZr;#LM~q}4s%UDPXKW-73)UN=wS!~ZaC@en
zo@)*n?I|CTOg{ylQwvL4L20qUX+ze)18&=v_C6P=SM<bXj@ryPX2T(2b?q*zOOyDm
zE~j=ICBLy$hG@@1PaLAG&N}jed_AgKX^3{&h5rELCruk{T^R**E%l?n^S8HkVF{|V
z_~!m24i5)~UtVU86HPeZAM&`P<C0jc(k>Bgjta<&Bm(4O{gOQ`g(CqZvQkTDU(+Wa
z2&PWi0C086Ghfr65p-|;9g5FFC8mDM5<kiuQwx(t(IQCww`;;CmQeVM9(}-aRc$px
zWjXe^BN$pu#vVI)TZxp54L(5}n;-g0z4Y8+4q&*qD?LlHLH_`7{_5XMt&#z-i^h9+
zQ<NWQq-MHgbu8a)*!c)oPc%d^#F5ymI>$o$y@j?v%8t>fsp=R#R<*(1iagp@!NoU7
zq#l&*+U!5FYYX6gox%R<=UdT3Z0dYDzo-7;@~PXrG11gC*kJhyvE@@1c-%(^o#w~b
z?m<nvqIoR@wK=f|0?_eu`c3&xrhlg=rBEz86;Tcj-q9px$GB1uJw3zj6RK&wH~NvA
zf;)FZHN~TYjzYk(vaqt`8?f>4p?Pbt^K;qAt-`_MF`N<HC~BY$Zs`5Yz5a^~TWB3q
zs_4!U`i_zg&2hTW>Kgu+tx^c;;tYTCn`9q1SUB7ZOI?<neG^}J9ea|)!5x(41l^&O
zzRNnNwX(V)CjGoW%7O4hI3dT=lGr`2fpm_zxwzyNJ72k$H^*_=Wfp4#nh9ZXYsP=E
zP;f~D?5vpcw6bDL4-W1S)esil&B*eoBL^(IJ+~vc@S<?HBMMV?yeCL6d|>|oWr5f!
zX#?RQXm&VK{)4sIX-MW4oAT0?u!6bHiNrf0PD3SN;_1#~Uc<e<-ozl>$HxBvX*NXx
ziz7@=xA#nuqD#5EL%b(GP3^P4Q2y#7(hlbKKqyF@SnnTIHqc6i<T!h|NY^>G#oBxJ
zOkvd&#kYK8a}OiJ7!9NroFfFKg7_o2Op$@@^&uA@%-;zvw9Q{cX410)$HEe&mIbc|
z;G#g-;Oig!A|#EoGd8`HrxLJ{ogT>ucL;_@?z>8kt`iict_o@=4j;m#Iujz@g-1%~
zvv3z6aG2<bJS#d^1`r;7r-vdcXxSroMh5G4PS~jw4q+gn_r5c<o3p`J4u}^JT0@2n
z)Dy(V3l@NUq>@Z{Nv2jv@JF<tqJ~xnpW+PL1S20$V`4sqDWz~1BH?7HEw+fLq<jQ!
z8=2u8=g$yrRV20`<RO^}795VnPR2R77tbiXX^G9QjkiekEj@DuJzx!xV#k$#sA*AE
z!d(@f2wqkxoYyv3iEGAg7RROfozMXdUG6csE-b!37s>}#EbZz*+La@y++wSYx)N~W
zI8-&XFQ@)BF)~1TvEh2LpG(y#%yPAk4ht95y+2!|Uao@mG)MIgOH$*??~I3>6IT;6
zNjszdBu?DXlHTE5)6_>iVa#y)AgSqLsv>$*>B<IJd#AdFXk;@}gLC@X+w83&BPLtv
z)%BWezO5AQW%+5~tu~w2vqxc6#{xT!3dGaSBxnQxM=Ev}-`>#RQYll|)5N5#_5BO3
zG@AB^Y9wnMdljIPo{Fu4YG<^c<#Txp=emeMaFP;0zhjWB^j@OXbjJZtP~yS-kH{*V
zIV~LfiS3h9vUV7%8Uu*6`xOV|%mZVr=5{L|q;>2y4QzFh`ci-0!qn;7<sD!RWX&Xw
z3g*d(yfb}?U88!jmqKnx;b6LxL6Q5vhj(`t<$7!rh|R&=->(TZN;qnx4*+g(!SbT6
zEUI>o4jNqWT(CG1*sFaGq3n<{p|-vOAM&*Nu9qunL}o63OTa*#D7~(0OIbTl7sHhl
ztr@CioHV|)7H8?V7gU;!E7;==LoU<$UO5Qe7QRY39ZgWu(mNi?(z*2Y5SKS;zaz@Y
zZpGx$=Ngq1l+Pz^+u6gqseN0cd9k<rEw-r%jf5LM6WHd<AFR+e=16c(ao_5@p^DX`
znt5sLuYRCCTsqGF%KreT`ho0_2arI)2fD%67soLU_PfHDPp$U`5<|NtaG@4UJvUmU
zrqpSjQAkIr{LEO1qI5MR91vB8ld4L>0D1b~ly!V?SGU#LBbME`a)W!>WJ#k}nBxLY
zJA5lz*RrmdIk|gH?mMilGo2AJzs?G?p{aCIShSEr4G$Mcnku5lSe>pM9_WG_RNJ(I
z{{RXah~b&H;P&`Hv6WP^?rY7#!3u13Kj=8=?vU7wr@-2Z833KGbY6TbT@qH;hOzE!
zbpyBcE2mLziP1>Fabs|mhmtDeiW-P_Foy$>s<jGe+i>P%&5>2KH5zk_w7HJ=EGi>g
z4P0AXc0a)!q)n7n?9Er{u{@VD*Hjg>l`xWGCc}`mHS(HgoA9e@CyH-#Iq<0&G)hrL
zZ3R_ikrui#{lC-tzh!@+O3IrF0R$X^g45wXpq3|wNIZ91O(LF_wfjI6^?>KFa%oN=
zj3wE9rBSk0hP>wX4p#?9af}xJq559jAatfaH;ARXTsxJm(<Cw3ugglBY4$U1bX3IQ
zGX(~yz#VHgOLDVX_JsO5_q1L!!EX!DtEnKVis7w2?crCj0UN1mnd-vqXR=-{F3`$q
zU7lYin&*ESox!f)pFdR;PpO9S)H8Dl<FQ(fsn9C4(CY0xnQ6H#8QMNV%*UxkCBxZq
z+yzCn3Q2;`MjlMGjx9Wv71Xl4-Z@+D>}`c%O$eFW;C~&7%C(D3WT$y(YySYTL$1SD
z(N{|eCeMrzuXOr*Fdx>#-~RwBp{Hz82&EbNs|HfK8%r6xPlT>xaZLf%XziJW^zPX&
zj>Tu?rKn`iV}WFi<at}#P}jGBe1zKSdTFEEEMnt_4nj^z_ARxe7f8tmwe2Iw@}a5I
zCu_|`Db4O!f8l6kfswqm!vlhx)-*T{9p!Fq71Ko>JkOFHl`xa!JCLP{s8YBVk5V2p
z$XD;6j&|-M&i<gPbsaJ71h5cCZpAWaO0by41y}|!*1UG^rDOJwN>9<)_*o|kig_&<
zA;9pgsI@5_?5d2k_I0m+svI;cbZV&V2+iBsSjR@!w{u3}+$s$|wXwOPQFb02J1rFh
z&d~VCEj(FjV11BHr3ZVWZr7osr!l+Jk%SZ8%TW<)o17bPnKe5flF(Maqkpp{U!%F;
z$rC~E!lA9Fng?C%Ew=;}=mn05*f(=jHB{8qF}OXAx#cuv>{h<aT?W5B9lcQJG=DH!
zN*!*NwW7`qkoN3VUZtZ)3$Du+p4L@|PaBV>?Y;u4oLUj8HZFWmBpYAlQ)`qFPQqKX
zJJ0@AbXAkYJsHmHewX(N%&nY{P3GsZ>{Qw-6lSaFWrj=S5OMOmPSlJN2&x)Gcv^eK
zQhhlX8vAfhDz8@2Nnw0V+&p+s8Qz$(jXebj87n<%cW1%ip(^2uazk7ps2|JNpmf@b
znmG$v;^uH#dn@x#O{hQ#cF8+CxF|_+3fV&juUn-~81Ul3$SYr>Yg9U%TV1r1hcv9+
zT|44;qo^}`59yR4C7_ax!fHq3$XcTyY~56840C-*4g1@|qSPUpo!27S=Gai^{Y6;>
zjbxW|d@UO)=`~2~;2Qqmp|#jdyC#Zb>A%|V@|CoaG5+S`$W|J*iWt{O#*jN%RL4^#
zGyOT6xts!-KcQN((mF=T5oPzV@o=d%O&WSvndvSEaIPsTHn>R{xILBKJL#(9+Ta0I
zj#j%lr-iM=!cy1AG4yJhV~}F!gh(>ekm2u${n5Qupn}sZ3>$#BAab*`Rnt;Q=+xcp
z7_scSqa@adQ!WeI=7Ph?;Py-s7PtZuM%bojs{zMgnI*s>!<CyEQwby%n+&H${odD)
zq6R4((g8U6MZ)Gv4ULM%7HB`4u{bG#*xK{=L`LVZ?Qptuk+s9y`z#*7oYD>3VwO1^
zFza1N=*(vs38kQ$Szw}gq$A`W)=K8I+0DsNG#hdEQ%7--a+C*fY;2UYJ0p?EN()_r
zELUWG7PBFy*ReK8;b(H4ZP*~DKXAbpw{%l6z%|%Cluu#Zl=kH3f!RtdMTo*C_79PS
zx5ff|k&Kr9$~=Q&v8a0_I0UJ|Yrx!twax9_Nf{#Ctwy^YEL(h@>Kuz;qQkBZFq-xQ
z#tIz(jtAUi=JrHbIClGYLb<MK=j^48_CDeAiMkR-IDDa>Vr+Rwx#8CRkn=>-dj*$a
zXcN?PK)uu0@LOjT$r+#dQQq7q0V{`amNz~-8>r&_R?3~bNWXFAD7H??Lz`!F<v+<5
zLAjPUX~%?&nav*Tgem$B*imsE(%2Jg{S-`*uNFN20EFw~1!@SdV7C@b*|dEWqdkSw
zoZI$T)Iif`C2$ToPS{&=e{|ap1=cYH)Xjfu3o7ZUY;TW+aOZ#c6HIM*;2R>OD=5nx
z(_wV@q<anxm4wvbHsgdLX4hP!*lZ#?hLA7!OEXyEcI63c3?<&?j>=9Wr+Xu)gAO6L
zL3$qrSvF8W7P@b>El~Dnbd5AaFnq7wwBMdq{{TYjXmr?1Aq0IEFG!}Vs+=@5*p=x$
zDbaNDZIY}t$KiJ=asEu@lsOcdzgFw@?Q~jnZ#Uy>Ng-0f(!EnzAgrv4N3`b7C426b
zrRdsY8+aH19u;p}^*)!U(7VtK4g-erQqMX{qJs=xj~LW+`Dqw8Q!#{N2f8n&^fzkI
zPg4Y;vcqlB5&DP1r0Nc!nzpc!yK9e*7pi^`^wF)N{M?cd$B*T8u97mB9#2M^j5-sh
z^xZxf1oJjG7K`n07glq1JuMYE6m9}LTEntGT<CfqR`J(L%i|7MYR-k!sdYa<)_T-$
z$dn9^s@HzRr1le8*3EkyAGPFX-H@;yP1N#DR#{F<SnuTr3)4UJHit({W~iJw*0}}P
zD>+TmS|whs=|@gvgp=>T>G5SNjs2EU)s$T)3C#5e4$c<xgItc9o80g=c0JJbS``M9
zOkC-UhYh;OY7!Y|bZ|BMNyW;xJc+sy<8QNPsC67>G5J}2Qb*|=gW+WQn^)ImW1Ag4
zLjmsQ*=|1zI%*fnDl10s7Yot#?JAmGJjBXY8*tz<x?EBt%AFrJXjBiSnX)=dRL#LZ
z&G4<dmrS05m{mHhl9zJU^3tw)yG)Lrppoo*4cd4BstTI8>T4sKqD|xw*MNUe9oG!`
zDOu467O1ADY}H58EOWPGh3mhC{{V&BEmLBz)b>d3cDs+F##Pr+Q$8v5;~Br|jEfMo
zS|?QNV70Jm^9GLs!CMwqm82}--mLl~PU*gzqNZ$6>6E})-|d9w^#1@(Ozpqv)U9`o
zfq8z9_<>tUz{>VHqxxh+bsyp(eN<A=$!i?68<lmHx7i<!qta{i&YsePpZN-Qk=Ovd
zm+?QVG=mr9s3_xX<l4jweZmW?`lG0|NJA;&amF5SR%@sFYO-pRKBoQiINTel$}^c*
zsKac6mrc^+(qC1o#~-M22*%%{#@1^w$5vvY5;?c9vB?Y5HI9~TQv)ZEhKy|mX7vu4
z)3o_Skl1~Er1%=!VfmF&L#5SGNjNodyFI(zJ5to(sg<<abZ=!-54G*VA5{ai$Lcz}
zA%amGONG|@ho!X5DTVb;4w#SkJCdU;5#`CUvCQJAtm)}`+J&rq&`GGk@%mk#*sH1?
zW=ZReb#lu}&}`^s8EHV$>$;YmJGRcpMH{WP$B?V~$EoORViU=-Ih*{<9I3oYPoblc
zqgP$2X?0V>1L0%K4cQ>%6};(fLMWha%Ua9ly*E*F-5kwp+Q&QFC9qec>6+vbX)-(3
z44N^)Jf@98fj`{zU29Zpp?H)uSYU<Y{dcTD()O^nKyItGp0%r*H^m8iyI@^;?zvZA
zE6b#gR_-^*!r3lQpyP^NmRdKbsaKd8?Yp>M_xNc^L!#5Qu4@i1O7Ty_Z324A-&N1_
zX62y&05aO^H9Cb6*dFNI1%U?&>NAQ|MouzqGuV2wT%?;ya~SrP0hatP1k~lMsn*>F
zm0vpppJ34J1!tyyYg5zbZBC%*Dx3OT=YI{u!3Y`(6Gs`Wbd58y+nfi-g(taw!^Lrp
zBVD0>9@SR4l^UH(<#`$1fVQ-KGoxv-gCuNe9mop{L->~1=#4z&2Q*k73di+d;)QIR
z<Az-D4=buUBNa%88Bep(`roOv-6oOkh3#nr0{LDY)SBM4tUSJs8J`o6>Td{b0$IAB
zsNsuIo#rVYlH-N%+GkB^x>Y-4j-E0${+nL-Nb&Riq(43%syv7A!&cXH3dtj^gMB2%
z?v2MF`2~9=KT~N&gwDwsy`t`6ISPZS=qVWs%xr96i-H33D*3CbwLkRwE#_w(qiXVe
zug2rcK1por!Q{#j+dUtvdb$dlX+P6nzG0ocmyYWi)ohh!N#*ar?6i~VI-LO&^=-|s
zxC?!jf2edBz-!v$XP#}sZy&;r9V8r{Ly=7R&0DO}a(GQTWn;l}8?wUoBbB%5UX^4~
zwxUd%T$cr-s?xOi;Vp&YDJ_Q|J{MD{^hq}^&m4{!qnHT+2kNgVG?{BZOo6TLQ>tNq
z`q8DCzV^DuAKiMVM07+I^v#-C-ro&jvA2~(oR*2UqIt2>pQlv@Is2O7cDmgBB&?32
zbLkcyaJ{l`!>TsU-^^442srm<$bDO+^qL`f-qI~_TvgUKmf1Hbwt4SIPzp+hz1Ghl
z_gnYtwHkdPWHC67L2nACR%!77*14d!jO3xU9b%r2oPqpC+buaNQjKh+WS)REezDZu
zDVR0vBf85~)#@6pXqH(X>z~uO*ei!i`RHG=ncGf5w+S>#Q3J0dMS;G4st*hs<k3jY
zrB-PAS51#obXs_Uf@h9x%Jp86{40u*R#d&aqz3nJ;WO}~MWe5RJx-m0t_N#{vMu3y
zy!B0`X4~0#-cOYUCm5Yr<0J_~9C}nDH?&v|%ClM4<1Q?P+kyQ<!h>DcVU4c4f%=u6
z)2~-MrDHig*P8M<I!8i=t(FDQ$0Re!{?T~4+0#cHEo_lyCkueHx@88&IypgnZa1+X
zq^$)UamNE=Yl#gO7fl6Sb_qM|W~n<2c4!yuvo!;Bxhm?lq{u)&Dz>(UV;`>8lHL<7
zyJN<Zp&>1ey@4u8T<Kyq>=Z1fbD{Sel`T9n#!lgJ*-gz18=^Sy{126FCE7i`&{}*u
zh{i%AQmclFFl0GBkmX`Y?C(|aeyfmDHO2T)>Gg5e8;(0GYFb7#?zqa7<lL&jnn;2g
zGV!?ml(4hYn1g~ci;>KUw**}QS5(vP9EH9`0bQ~6(gu*=eW#UMJlG%}ctv`GW)P}%
zIa^4_IqtWGESXzY*wBv3jb6R+lN-1u#_J`n&>GtYk!{xiq57ArD59)1(o1)fag|L|
z)wJH2*)79xm&Tl<l};$U(&J3MucwYG4@6m}-Mgw?Gp9_|ADNOqd1{fGqbuWu%_nnS
z3BPc?Ge(b1n@x^(7T(q^Jl%c7GC9FXs%MPx)Twl3q0?Z33zh%}Yb>`{YB17MKVfTj
zg|h0(*lA*OgMa{FU3iC8SIMbXIw;B5O|ji@PnJpXJEO)C<VDjRSzgU<N?0R&l+&Mh
z0`^;dGo@)AS^3!Ea~}TybG#HM;U<|yMW{5@M8eWQ4sggT*mcb|o{EvP((Q8`FJQe)
zcw-3KJlvTaq<P;{RKuoe=X*grZDZYd-lIa@V^J=mjg6R})5X`N^~6)^m0y#J=J~il
zX+1K^2exMdBpJ$B?bvp-ioTDal+&0c4u(k0u5eQ|%_6wWJvX`Saj|ghw7TY{O8{%y
z(Aj_?<ah9+(lrmvL+Ucm7Rco*n!OI9(%8<5>36Zg^RPUh<~`N+xuMX-5tnO3gOHEX
zYuyYivn<p6%D1X2Cy|bHZ7;Ybzz*J1&g(#jWem?_A`!jUkGKabBh@Z0iQ8Rvfq+UE
zSk|g3WpgA1Hu$>E)M|A#@))DJCxE7<F`Q#Xj)+XvJ6vsL?Z1cmwJx6%W1DZKZ*czr
zmF8U;qOxcjYQw|8$pv0iX;rSBuu(|xFJf<eD|6yWLy_z=^#++!8<_yRz*w%Ns+LgW
z0}tFQT??jbDCr}7&vTka9c9{sDXE<1%5G0($>e!lbai3DZ1JwCg0$XEfS!JepQh^=
z>d@Me>5^<sxL%vD3VFA(IEBilrRj+3TxN~{*A7LwQN!dp>7u!CMk>=T^y*!b$1R%X
zxB<KW01H_~rorkmb~pIPhXdJVG%YTqQ%crVZZR8(k0Es*SDiYbG3|3pU1tNx`zk20
zIWEsurmdEqA4*n`0JYbh_5PzhAvILhE^Up#y19?4Xe+2m6NkI!7G6o$`tho%d@+(^
z2ExfHwvbe-W`{}Y2lX4{{M62lNbo>54q8g4`V`GLXaeA`E$IrTMmIR^BL!S*y-g%k
z{*Llm1%=maAsFcAmRU$ITIzY}UTr=>!C5U&U43JSmQwT0iBvj`Wkp<t+nvgWmXfM>
z4^4!W+)$0XH5x{v98$7YTW~yiUe(a`b+OShrjlc_L31C4^W8NCZ7p1Gm97jf$?Uze
z@Xu6jJVH50b1i^W<&H09BRM5TtEhU$su%=P!1&%UAK3j?Mz^S#LuMO&LTx3696YU0
zR?^aHlrD8S0G!*wUN@*RYFfv__ZtF6RHcTP%QlZq(|V1qfU*aAp~C=WX7%YSYAOrb
z?@hPkx*MP!6jc&MQ)0<KLy6${T5W!gD5LcN7VtZ(s75G@n{38aHm%Y72{z<;Pu6-j
zP>O;bS(P7{idKT=G=7C~MOOnz^%w`i;a<>dl=O7c#VmfU8-`iq=$1*Xq2na<%nq4W
z=*uY|lJj6l{>hbkRYRpOf+84yP$3bi7-iH=Wh)C~4!}QE=z0;MtkW4G+8i*taNbq3
zpDI}1j~CP_>M36DNyK??Wd@x^C0x7O-QHHm@j8;8kQ#^{1@C(miRo=pR#q0U9faAy
zc=D4h9Bm=7$xE|a)09F&=frl-&(#tBU>B@(4zW*8TMX6>w|>hBr0LD8Yinp^Yib+I
zf2b>2PXY1zQd-Xg8S=RPR+-oFCXLrw>(tDn-AX_<z1NF%4^Vz)sLBpn>p2nC6?ISz
zl1$=1l-~p@3RoFgXYIc4)DewKU~zC%U+C0NsdIHG4%=IB^0%}a{Pc99A{<%aQS^SC
z_~<=00^xjp5!#zYI|wZo9}BuZG-S4M%R7tFN7UV8Q0bi<V`&}uvIc{w>#C{CB$cis
z=PHk?i(kG$hb-oosmV!F9!@Wir9U1q=%h1p?DQ%_RZ~y{-`?P>$u+8IXq`)5!2bYk
zjred`ojX=!(E5->NCPI^D*bw@O3HT@Uw;D1*xX?fQcg_8bqrC>ug?_=iy%2;e0(oJ
z{0P;l^m^%Z-9rqV`w8-}6tq<)yuIykH}BnOMI^EMb40=%*8&_lQf)L=Dc;YdYQHT`
z#?N*Oi;tqIuhglFeMU?gL0C#HcTv=|i0R#bRf5IW?6Z~s0G~5Crlw7o;_H#)wsi8O
zYI?g^qN@TY5G8N(j#feQxs&gXXO{ex6k2?e%w{vW&K!bKwK{n;f$Tgcr4uWVW}m3b
zlGzJM<Xu`mqNVWOSKXt!!?tN-b}x3Etra$)=hFrO?IV=3jfNfUywM9=QV3|V<au6;
zrb8KoNsN!(c?CUmlvQj5TpWeD)4G9zlr*?tdEs<nX)Te@ZdxolqBy+=I9RsX_+CTQ
zlD0WtvGyaf()C|emNoIQ*ge;l>b25URPAetFLIt*Z$ia1j-OF;<@Ce7-IFOQ<cCpb
zs0cUD%GLC*O~*J7eVqGT+$$YhqvD!Y$!&$d-6V3tIvb07MYfwy2D7CyIKPKGa@P+3
z01G=`p=wi3=shymH1`~<j-PEtj$OOl2kBcaGNrnUMD2~cfU(9=`5b@IP6?yQYPw#s
zIh!=F9jrd_<z6>O{FPNTbOicD0^r`u)TgCu=+CRP8(~&yntWy%&4Zd<YaYpdNlEC+
zF-vB1S<;!Q(Hh!#w#def%>$K_bE+XbNH*bmr%giWYo(5Mg5B5$!l~=7or(rYTMIyl
z<-mU`=~30PJhw>m$tq=ZVlXbt_E(e|BwDtW>O$}1uzQ>3XCSC#HR76Q4^71FD^H@<
zjVh(GFpaM5bkM7yWNx%%HC-sdE2ELSTo5$OF-QZBJD)3O*OOCKZK#9>xQy9gpFN*q
zNC-5#7A>>UdOEkzdw0op6Z<by(K?0++9@S)HsQ<X?FUfXc5XH$Y2(x-r3`yyIpEz#
zhZkj>`6GGNk+HHmNC<Ezvc}I*IVFXlkMOjbCZQgoMQ0Y5@IfjmwD04WwU=S|M!t-l
zEt&dAX(xGW+5^vW5?4?)ht!RO<rS*Z3MYvH4Q<f1dczGJqp@>)`9ZxIEs3Y<jirzo
z8)k!(@Q>G8{YOs{Q@_=T-*Ok7>l)FHSApL)@TKW)uBoA`4SC%QjhxfL3!UP&bVn~9
zi~2uSmQn*vh*P>K<d95TvE#TFy0J6CQyg^>*fLCl6thsh@rfCmX2D6Oi^n7+0_mMB
zWuc+3AKeH1cmbX^+2i#z4po7P?X#NPj>IbnDPyaMdxK<eKPe+B?4#PUnwCi9+c;@s
z?~!X|X!PA$7}>UKgV?HC>L*gXxu<YH$`gMtBkA4g{;oySw_@;2(A4TpmA;wBg0q@|
zd~z4N+z+1#{XH|KoYG1Oa5e;ttp#3`$su%a7B=VQJYNlxn@>i2PkdkpH{8Sfg?H=1
z+ET)CY%01vG|<#KK;vszu<%z`Lp09+0H$lcM}+dput8a#>S+TW3tT`BxK;NvO4qai
z?%_?ZvS&-^NYi%rQ|T}@)ZjRK+rd|Y(HyN=xaji?)QyCY$Bg|JiS*HymPp@yuvTlN
zG^(ec%r@j-f!S>5f##es?Kd6O+DRO??DMXwrr7s6g4XV;bS*)?sbt)P-EBIGm8P0Y
zvgY0wo>DXa0LD*^;53i!x%n%kUB$TBt*U{tKqO}3(l2q@XEl0%Rq?g%_6G~OYBX8I
zP;8KHX%@1m>Iz>$?wUKg7k^}~RQ6<z-%J-tK@3q&L1?o`H&^a`Wh*y4?zf)n%eo_6
z{{T;`WD-AgE+c6@m!@iZtQC~ajyJTB-a+MZ<%3SnoO4Z4X{A-gJ)8?g`5!0_r=o7-
zQwhIwWkEq)>Nx`(<n3EtFoC(=*N;4{k0hegMx0|MMQu}^QVUw^IlY#Cz6%F#<rdn&
zYowYt65hcxS*ebuozDfWkappEk;`h?=gSuzBNJ6MMwzL_Uq>O1Xr2fogYZ`3ww{Zq
zsRpN~z{smh0I8>G!~X#83(j@QkQzxh$|s>U*<!5>^-DIp+Tee(hIrbvR|K3{F1eyq
zGF|a7xud^v@Pd<1k%g{jwf+xv>{QLA)qSQWMOIsK-{pVERJw;uf*kTJLH#|#<%VuO
zol?ikqYtIkIx)53!?6W7T5NBOxqx4~(Yr`saSw0t2RP&^y<1N)#d}@8d@jg&Fp{H|
zUNo-E)}F_<ZIVVt{t4i%k55S~AHs1Zr-D^BksBp<p;K@#gW+i?pfI!3m7tq@U2afo
zk`M7E)Tc1SWVMHIsws76)W~CD0Q~n?VmT&_?Uk3h&DQC&QdGKF+urv^ICz>_tnE^q
zGx+VeapWpsZ%{04m31vo=VK8N1j7V*Rn=N$MLU3&H#2ee8zIAC<)Y6{WUsZ(;ljSA
zp+1;)?D$#T4rj+ZVVCw>5CdQiW4mEj(JL!zDcOMb<LHC@zo73@17pcg)GIRJNDd03
zO-!-&Cl^w7#&22<)T#r(E*ZDE1w$74kYPCh13~=0zi#MxszlGYcelEZIcA}&WbqQ_
z+!C@*AyT~_qoFV|ovnBTk&vl6+eUq4WAd!t3CnyW(RJwO0Fnn7SM-(e2X1?Yc)DDR
z*kI}G#Pt4&t7*?`*!O_L?00Z{e1)yitLBcQZA5O3$MpljK31lkl(lr?NH(7%xG5@h
zIH~|G06($$OBAKpT$&}Pqo>qiJT^cs5H1r?RC+Ul2V#4x?GA=W9N6A0;lWn=-jxM?
zAEx%&P%a#!D7ZZqjMMDQ)6Umg{{XtQqm7Rvu~|CD&!tc3RJ85Aw=0b@xBxS7cqqk;
z%Uaq<>{{jr1A?K^<9!VO0Kz23d1*z*P$U*`3GuXC?FyC(4Xu1mr7}g&ap6@rTVp?k
zBY?LE@fdRpP65Ui2d!u-<8!8_ac{~;jYt>7*uPVa!!92MR%+5wS5rEkp{;m#Ag?y2
z>I%{P3WM)y@}F0&)w0BbNAkFT%17eM&=zF$2d`;w(<_`KJE@*an0yZi0M`cx#B<~;
z8MTvD52ZX#H}lz6(>TW=2i($pF5FzIq;pQMMXe+)nhU$XD0;XbO7Bs*YrG>VNNi>8
z7jGnZPkY-V3m!Kx@O&o}si-kj!D%u)_$xoC(E+$N$H5)eif98LcK-nQRb69U9H-iL
zo=1c@??G<N@r!HxIDd3aJez<Ak-<dOM9Brf7xIMk-q(y=A}DkZa~*qFqoSO!ha9op
z{3`l)5_Y>D5wN>qu^XCsYRn0QNW%8+jn^LvT{5~@Ck!q-KD;P)nse$xcf#&RgvkqE
z?r7WK_(8=;btblrgcVJmFxNO|f)IL_<%RdTt&-pW02jigqnb}dwXXLL-c@yE^=^4=
zhT{0SP>v?0qR%RE*=p*2@rj@}2bTCz7l;1<4pE)~QEAmrjAQN;^&2G{*^A_Yx;i=E
zV;NHTtrUjr;5)*aLc#-?Yxh<2Uciin95XmS!3P;kkiNrqxH|W>{{Ui}8=TjY(RQ9%
zmKj8Z2MZMHmPs9+&~0u}p@`iZ9OC$|Zs9bGToMZpKM8ji3yeRw@|^$@wA|nvf!PBC
zIf18b?;E&264=IZ#ko?;AE%yJf3j`8wg&Ayd@O4@qttD~tb2tuH6!I~jAt$69?BSn
z&D!fc91ke^PvRd^HyGw`Z!0qul~6g4v)N;Ru~0k~jxe+*(yaxqZpj<^oBseIRn${D
zDK@#j)5DUd>6(h^;w8JAayd}M?S{uK?iGuoEd4hi_Cvm(1?=bfhlJWO7TbHH7isK=
zmNEK=={)=*+R`lMq<dQIfwcDtOjicA&atrn0F<7Y1de<u=Y)bBz?Ls?vE?y=C644c
zSRd?~)3wAnUA{ak2S;&YEKu@AZ2gkx#4d{);yapqcu|1nShSX@*j&ScMY##j+I`LY
zg_*1y_1^XcOBP1n4~5T+pL2Lz!?b`>NsSOn_?qxq{{YqHR)(10VsNkOBJ~-ObLCRb
z3neU&eF_-lG}eP@q`P*w;T=y<`g}NUjQ-(O(v8?0quL2zy_Fgf1XR8`toFEPzmyD&
zCCA%hl!Dh-9Cl7?$!^!<!W7M94L0_>j^RxmfIDnjdlbndCnVh@S8J`<qS3h%7-P2P
z9G*f_*7xJ*vfvH(F(aLv;H|SUtuBg7ix8)DESPSM!*_6o+*s=#JB0SS$8>JO%m|*I
zs<x5;0K;)3`bk<1BdMLYWUUTq!`S``p=6Aewtuz$e5hxPn}A693Npl`QaK!YEwySI
zXUOX9E!#;qbVIk%KS-^Lt-gfh2aIQssA7_;ockm;@OUXCmBMi|F4y<6Uyao<zC_)Z
zy0)7vcA5|mf(I(PImsEp;DW65-C@pvMJWdTj|B;+!rlI?JUfu4qv@4X(HkeT!TrLK
zz)B0Cusz#!6PjEu)0GT!Ij$^tAoeNapiZ94I0K$7Yq);sm?~z8`=XWcyc_#Ut)-q=
zrV?FV#Ax*qXE;MsY&pCYM>_168|c2!`o5)`VXSZmhP-fot5HkUaIl6=a@FOv5lald
zjO{IW;`}*HNmv@+LVK2Z9EB{NI-b#^k;6>(2kI2_!X}8eSiASKt*(wKo4O(evxS4x
ztL34R^waN++_0<Yb!eW=@VjfjnS`!Kj!=Km(x#=@?NG%q4X8UFFv$X>sjaBfooTPI
z@bSX2nx>wh7QWUz{1rp0Y7s`)(ag~+J09UtCT7#oESkGs33KiWua<bG4)oj$Ph=~o
z!|2^LJDli8>b6ThzY3sH*HTDiieW4+H(l6fk;Rq`kn3?Z<bvCH_&{lqx775c7tS26
zYoL~BL+lTmDyCA@$1`5m?rACJ(^?i0Y3#6`mU?FT(SqiDD_t(7l0+LJxBMftNaQep
z=6aDFIY+7Ju7&>qn4|^FzFIkI;gh{HvN35`Jyb4<=2o5UJgKzzhYx8bzB`2dIlzxj
zQIW_c88)9AUHOVPZE*cfz7q1Hk%<jMWR1b?8-ehQq7l?bYk>akO{1NzE^CIzaOR#7
z6wxuy+})wT;m9|mI8)IZ;dBoYMD4C_MX*BBXqwb@L6FtCt&m_m{{YIVsHT=k%T0sr
ziz;WbX34{uASqVOSEhP3T`W^a+UNEw8`OG3Ze^tfvJ8>sO`~hmQ`(le7e;s|HdYnV
z!&McdkZ-memAYY#^v^i2s&?ZIQ(OQRzlB3sDygRRA|>&=f;cN}tm&e6Ij;eec0Gtt
zXmrs)e=kzjxr4KpPAX*b#jc7y8}pLL*EZq5Md%tXpA_-5RE@6XuN{hpo`RYehs3~H
z{uTb5_5e1te7DMZ!Yo)$P%LTLAD}7f&*}XW4u0sEWi;o~e1Yu#R|236-5GpCdpono
z(E(6P1>*(m?%oJovV&a~Qc^DkcHC~kLsr!vP0o$rkS?>%t2r!rBf;#VeR*##`XpSI
znCl(%Xf%y>BJ)o<Xa@v4hbm67=)o@SS3m$f`=qDrep~+lg-xlk)eaIs;Ms3`-<5CE
zok3SZ_S4pl@m|*`t6PX`RLo>mPHdKQB&Vom2;p1lol73!1xxn09{5_`r0Mz{dLPfx
zklKJRxxN0Y&2?=ara2uHv2A!fswWwW;?~i<ZA?{hfaf*MBiixVM#{Og=|g0G=$*kF
z73Z`yb=q{hB;4j*XsPvx<fru9;OmTsBP?_(o#@#^Q4wgCo%e5cUxZ60Z0z2{xOe{m
z<$1jNjMUFE)5vZ8B%(CVsNVax_;U<7r-vv@3+)Zbdo`MaBn>5|?e5a6=<A29Vw8|O
z9|}rMR+~_c+r2pl^54J0Ni?xD{Xj`~`C30x8tG`brIGQp8<()<6(rEQJb>ZjxKuQv
zs)^fP9QeF*WNzk2(&*09+$Cz5$=_q@=qRg2?i&8ZQq^gaK=Q+4J0B`)!!%&NGH>-l
zjb=vPImO4wPYbOXuS{!yF-}MTxt<X^UawO{D04}BFP4?m)zs1pJ2&8|oktZz3*sXE
z?3<DohtaU3uZpG-EN(U<Ao3N2a^1JR)&hdEZ9ZMH+_L<w6grb%7?LXyY>TP3BekPO
z(#bGzd?=-+1QOm=Z4RXb?hJdjJF&kC#k0AGY_|HQKxHPR9>7DHcKPlVEX@QRgoD{_
zDxr#a^J|rw)wG$Jx=M5QTa9cfqLdQyL+yW}ccx-*8=2e@kb|hGk~s@y4r9l1pAM$X
zM=!P4!R%3QK}eXoH#fl?c?r>K4P%5=4*EQQ${u!!j_A#=^MzAT`5N;agX?vpvD&m<
z*HJ}L{78Tg>{@V8ameW3>9`iScI;5pHPca_YrROjwD$Td86>B!i+d~&_f&t`8fYRa
zu;{%ih?_KL2H;#MpHAvldbGBdoc^YNN`{uf-kZhIENt}e5=3_};J30$u7*G*u}tq#
zgme2T;%nG04T#``OQ~t<e~VB2Igc#tQ(DKw@*dA{?07#!!(9{8Ykr9ID>B|Ld#2aZ
z(@w)JISy;N7vV!yOBGaDxjn%_MNe5q@M3$mcWFbgXjW6r1HXoSo!U`U?U1+@k_uR)
z59iwN3DHzWB(wdcX4oo=N_v9mOjC`**7_<PdqEWd)KZau7FX1)WX&b6Q+f|+veC%m
z$x9lM=PYea1hyf-1In_dt%_l`OEi_LuhOEZVJ?gZ6_(WWc`0Nshup)P4$H0?<1!M&
z*F>(T1a57u<RRS~n0GXrrczWrr)~bAqlu1Db`gHym1Ingo~MS$+oGD`%MLst3~hcd
zkec1`l0&#e0o#W-Dmf!-z0DvHqmE{~;Hd+yZ^FSuK#)jq%9W!y;VXb}NIj?gEFR8q
zx4V?0Lwg*h2H@Q^vzHE1fN&Y-l;V7ZJ4tT_%0@omU0|ekz%F@QE--Ioq=FMpJK-Au
z@CYCBk<0{=Ib6s2H%|??1X}AhWXLU&ES0UmvX$)e6EY3EqhO=G$!~Fl@X+iVT`+>%
ziy_&DxNamI{DPae85m9m-IK+DvL+)0kGflvg(lA6CK2{nBr>#F4E9;sKSX1gNWuD{
z<rX$0y4SD_jDSVYAK5GH1=>zi2ejWQ_XfuK?RA-jWQ6-q2}=QQ7rKo0Hn()<ym>f8
z5$uV~b289urHX6gg*$dQTNgvk4TahkThKxyeZe59nIIrtRR_74@QIFa?051IrV9>p
zL9w;eZvY%5icDmb@(CES)N9x|#x55%#5evE<ZpnZa3ho3g^bXp;mx)$@Q0|2*nEWd
z3+IHw{>LZEC>2Nz`<ieqbjLd4#PExITIT%r!Wu~I(S&I;CqVDGB#)x)&hmeB{iLPX
zK2p(6OWCB*T}cEYLK+>;R*Efoku%u)W3gE3Jw9UgvZRp_Hoirb#a5L^roF7FsXmk2
zxuo(Id~dKNA$6{#)Mow^7a;cvzK^Er^=FB-3ZTf3^*bt)RO%{PM!k>*yJ@gDS?a#A
z)C)@^kbqM~{{Z5RB`>qkH9CHp&}k%$wmIek+0Ip0Np*IqO;-ASIJuBK@D3Ibes@)I
zl*s3QQ%`lU=^-AUXUM>CwduKRR-%<7*K`NePQg=GQs>_`F13*TU)3;a@EGAC&mzOR
z#Y@y0jFGwuNF*1)HbnHUi9LR#*>#6qq}*LbNw;m#(Ta}2wCQzydZXU=#{oIHu(H<)
zwA}|!19JqV9N(2+_>rv8^xZol)0zXG-{tJQV^r!|-9lp5Na3F-E>r$J4brx5wM|}H
z>Zb!KEWR?Ww1}Z}O^~!5zC!c89rXdB`-%GaT53&7M#pB{-E_h{dL=gGk4w_^$f+V5
zeXbmY&2#Y`v~ansaW1!&=JIN_J9f4S3%(k1sm(n`rKoyxHb!nZxFK7esw2Vn!n%*B
z^-XrE!Z7PN;@kxN3#4@#r}~vu1{RZYNwU@G+C@H{P8%d`FCzxZT1_8Ou8s1(v(br$
z+kAwZ^fG8SNzv$xEv23~=5!<$$!wJ-yVZwFrZiMkjC_s2C$gri)+zLcn4)(11_=i1
zDO;$^RZ{6dbIXm*h1BJbkkOk=mR(b+HQhzD)h=vtxz+`O)(h48OQh*2Xqhyn&zl?f
z8{K(^nN|6Bwr4bgGk*&1U&J|S7y*6<8C_W1BOMaS&Qd)>c2h?fX3)Yg9IK?B2qX@B
z*gkF-m%FUBon~*#>CAiF^I#e;by2Cms+&}4tJyU_d%Ee~KrC&u)OGHopo%iXC^8N<
z<zw|-P1P_Nr=_Wi18^lQJ4yPhKf`{Xh4mt?x$LN!xe>qlf<N(3tTey$$uufWG`?vY
zv^288hsaWtl+`ZELmfZp!RT_e`lCfGz})lU57spr?KJK6Dx`c@w>Pr2{5R?OJx^Y;
z!MDAKE7HvePS_fl<CJ&ZlBWz!OKf>$ROs=VN*zvETTvvFIgS@M1O(^Q(n7-xR2%#f
zI9}PRPoXzReLXBp7H_quvhc2<oJXii&>9*~1q_g0g@o+7>3Pedo|Yyt^v^rJH*nvP
z;b}DbDj*ta2y=T}-pdcu?|n3;W($Hcu4S$DBMynqYq)SeRMwd8+BKE#>G~Q1^9wFN
zNdR1|ezR3Bs~cNIrvtRuI5(AZqV)B4t4<`5#myPoR{N#&N;+C?rL1emEj%kEp4%qm
z(TLD=eP)|ZilvYk%Q9>-5kp^qZl~2^+<cLcSD@Ctv{bJRF_w|S@K3}|NPnqFVj;IT
z8&bU7e^eEZp3ALsU7@C9-Aw-gVgAb*UDZ#U*w;Cr91yCh=(QbEP}rE_*B(y`(7I>v
z>MDp@YM2~;QCQse!sW!kI(m&pp^-owUh`lFb+^$!3iTSgc2-rr&56T<$SZ53{vYYu
zU37IUEoo^7D`{1)(ooaMNg-{Edz7=r<D@huo3>!OH=#zKS?W&4?Q5_>$X<b~)l+Ho
zpuV6uHMn*AFDll$`h7D|m9%dXF~cB>tVX@nI=-z^*kqPiV|l@~fWQ1EQ>8*Uw<gV}
zTy>l^Ep;6`fpIvuB}w>2qzSddRXf-uEx6zR01M73w0gRIU;eD`zqya>;I@=Hl|>8V
zeK{?2I3WnhCt;LbQR+QW)9<OBpvE?|9i;awEwAWsyGWWzBXD#hBoEX70KzLy{7RXT
z7&Rm6GT0}ORV80lSL*t?r=W%2ll_txj5(*VPTXar1<4uBCs-1+(lx}Eow!b`r_@P(
znEwEa6|m{vjib|?Ws)%0y~L1@*XE(6q9bcTZ(+)t!$W+V(d9JMk2;sFP|{@ME71CD
zQPtq54X37=jBY(mxU#L%VT!X-WmJ&2V_kAQuSeASlS84=Ejf*(GQu{Dl<|yG+XJ>_
zb!}@^YYW*cw~^djELN+mYEPBEyw7na**FMJqw1NeYGwSfF~hj+ZTJWtp8VFSS^Qu2
z0r#IO5@jP0xuDjb?^p8f5tD}!wHhvk9Iy#0ow>)kI9J+B-&G8Bk;NO_8?~FpKI)UH
z-Kpua8cC_lSHL5JwmItB458@+RaR+~G{y#&mke2<5z)OlH&E9$V+*6D4!IxHf&4${
z>b{|`6*a7LDcV5*{{TAr3qjH8^qM9yk+q-<3ojq?f0J037(JaHKaYE19X+Sh=sIxp
zTeLKOk-<W1Q`PDgG}miS>iR2sE7iTxzm6=d>1ZIQZU7_YeEerQE>b&PMbU_Zrwv=f
zrrhE`sI4ZSr9npkX=u3NSj-t4uG|G(U8~Yl3(X)I@|szcRRWxziC$g$SS&t^nq0=(
z_VA>mtDviavqL)_b7P(q8iTzqO@foi*6d|ZM>aRT+n<JxPnFNB^hq0cG1%I<mGFv9
zujC9WcULgZ8uOA<!z?2kZ(x*VCsbNP7#DE;F6@b5U~QfDRkBvY19r&vwA$^t<wr%W
z(M><5AMYKmrxz@lIK>R=F}7)Fn#K=S;8-k=SXaScR>&i$WK%@zmfs{I`iEBhr38*+
z?B=%Md0ru_YIT$AM^=1~W5yaTy{{j@%{9fUIH#T~_OsrorJ|vs6E;SZw(b|;peO5k
z8fe__RAU)l8&}pk%+nZH_Ou>(Rh4knR)@Xy4{3KG8v>^f!)BD<CrGFHSkgU*Q2bfb
zp{X!WENwiDqcncFpsjleX)w+DCB7Gdw?w;dCEnnB=IcqOzMh{=bu`a&VFTN@mX*-|
z00jvz+FKF%Rnk48tEy<IWGsAx;NJ_*{{Ruc5h)|3k|?C#DIV5>v6Y3@Z4n2|>{uPf
z#44ur_WF-fP0r5_%1mE@sobTbKP@GsXX>go9b&K7czX{$)`v#Y=6geCd+dAoTOB7&
z)5Rl4rpCMu3XSc7p!!c3Id6sTV(~FzNkw#W%PjIcuzDC@O3McvcSS#0ucT>o6TjuR
z!9?jomTCPtTrxOB>smx?gg!DhTaZ=qIM9)8GcDAby=`SXT=@;Hk#$8v$ei&hIc`zf
zrQ&m%;vJq46tLbvdlQtf#U9XQl1)=(+jSRGxst_jI4%DGm19%*gH=sJ=wuF&w)Ttg
zs9i%>UdJ|y6C;=|@C}Fx?u(-%s?g7<;_847*N;95Gkif6$(8yyQ5w3jQ1gIn;oTe6
z-BnK=F3NX+>vB0*3Wrqb71F@q8!T=hj>T2ZXVj{|VIY&A0Zpq#BKW!rlUAs#sxNcN
z&IQ(wr)$k5)^Q=S57?<Rj*N7=XXY9RnYp)>Jtm1Ghw&Og93x4s0^RJ|XqucdQ<hYc
z2cHP4iJB?*M&0f6;Zo9R?uML59d_6QbX69h&-RH9>{wSsWV$6NyR$9T+HD@79N`#c
z#qc|<=Sb-Bvb0Atb9@^wOq)y+UA~^?J2+5{8LS2SLmbhJt;b+&bg|OX(lA2XI@ZFg
zhft`Y)}xAf3mV@3K~QV;FKi+)A!FOzcUAAy==BOH;H!PAnP!Iplk!(SWZ7I&RY$n#
zol8RP7txT1UB1E=8(yho^-XAZxyH(ho;t{A3~qn%8ZO5JhXf3|k%mDu=I;meuRY=U
zCa=-m8Ssvc%@%-N7<0wkb96zcr=ui1?Y}<-KczLpRirm~yN)+_SwF;0Qd&l_(UMyG
z-NTQf^%8^?BhGGfdl@}+(e*qJ)9f9)Y>n*TRj*TYolR8YzA8o*$UW8z9ntkqs@7tt
zmm5v)SH99})D6;DC2%)wlJSdnZgP%~7l%uA4WgEr+k2|5bEcaA0OPTsLg91&0BZD&
zcCSm3(lxUNxMsw!HtJ1V&;|(VcQBkZ_xMqq8hS4bsp*wZ(M2Oz_PD*Ln;a0Gs&u7I
zKy5@Wd!e>FttU$8a_UifzN4JS57XE!wwa>Or^0<pzC2tJ!p%)CK~4?vM~Bns^1(5R
zc!=?Et?6kD4{O@ppmT-jeOXJVJ_96eYg`5I-BReZaMy>mz<URN>QKt&=@gbV1#G|R
zE}hbKN-t8VHSavL{#9>N=#?5AqDmG!^5Ff#w&?!={{R-(`Yv(wi?Q&wT~kKt%`wi3
z+Y3tTSY=j@Rhe?8d2J50IB)x#n{1B?vs{4cGKa*_*IvZgMJO~Ho8fpQ6Z;jd(_2j~
z2m&ieTargAYrU0eC8DoD(BzNVG?@bJBf6Vdo}xQJBZ*+ZB}+c74w@Xvfw(v!XSL3y
zj<AT~h}`!h`>IQQ5lN@AI<vW?T!ZkcW1h8=V|i}tUh3;e(<*9%WO*j%0Id{#I^Chp
zY1(-NBMfr(Gm>RREi)=;KQS3@@IA~`kn6JP@;V?(ZhuYIno2RHmp(TF(kxoB9ZJ}x
zd!>%y_q~vWo;ezDQ-~i^RBBqyG_IzF@<hRRTQ&->rD)w8jhTVOcL$Z|ABXY8&wDnx
zl8Z>fv>KmBQ&VoOqb(uhaf}`lIXSk_sysU?bc&W~(nV0$5Z>d$(d*Ju>KaGqso!ZD
zJ=R$Gswv>BFw}u#f)8Z{MP&MHk7Q3Srjq{N%aV9oI`QUFGn&q^>p0TP;y`iFgl3H=
zr7K?<yGY1Y57R$8T=&97iN6TyYHHdt8@12uEI-P8c=)Ph@=u$zdJj%&{{WJxU~~Tf
zhUajvdW+MZoYcnPadHC0X!=b>L_zboi}oDdZ8VBzvX{`15<6eI>5rKRM~h@1jX6F@
z^FF4csHt<Lq>aQL%7T-oYo~tsNdWc>*yhsOByowHlZ7=djSw5j1IV)B%jY)g2<yY)
zMJth%=-o8XyfQ{^VHR*c7J|R0so5iHDVjDvmX6B7l+ea-J<05q!KJzS70C1Co{o=-
z5qdKkw@*{GzPt^y`?XXySX%EwOEtr>3t?XsM2vHxBsgZ?RQ)TV>Agt|jg_J*#^U^C
zR}`nzg~`Qj8EPqGgWSiA41g?!u73HqMnP-29tzg${S8$@$L({$9C%)Ts0rw5NO^Ny
z)4@*}w#iHECP$cusTl-!7g4iQcK-lOFp%zi1dvSxqt%Vz#_T<x&{3LH6w_3GUG`}|
zq25uK_B0-?0%^3=^6Cy`&a++md@GpgBc}cf$MA{v9}3<*0+x6SE$K)<OMvc)qoR(Y
z5lK+j8CWg<0Ll{D&@SH0obkNXx7EWN!A+`_?O_qSj|)p((-ly>9nO4D#ktypsp*;N
zE?i5;V`WInmc($jdET<xncP~&mlNezQfXB%)Ws~#HU{J`N&f&rCEMIBoG0pfR?2Yu
z3tGhqW%?W9vAr=oY>BUHfZN#_u4|O<qj`nluWktWSrIgpvOH6p{2?Zermu5|aB=6t
z<ai|~XlS(^GfC6B%vJEq1xqg@Z?yRe_fDvqjIv5`{5NtuEFVunQ%PPY8Ex$5_*>{?
zVPjs*u=2W8bO!5Yht@Tb1{s4%7_tGf%cfVfmzOs7k-kEwtd>SK&t!$5ew!g_dX62&
z8sWjV^pKN;!z!Fj^?gMzqa8&vn|BMJg`es@Y7g|O<CaFBZLQ^Gb&Y0f2|Zdj`qa<J
zZSQ4@)_Q_^qUL*r%I@XOXykF?$SdlbB}w$X*~PmniV0?xj0s#_Yyz{IEOQM-vidH3
zMEixVy+S<+l2OG`M{>eF!1+qw9>!7Sv}NiX`RTnkUmPs^=$|Xx8ge@?OP571gf)?n
z?$}k|`f<#dNoy1Of?ie*HPMdIAeIRWC1rz;J{A1%RK^2H-5s%R%T-a+Eo}>Cb3iA!
zLN+rHY%c)V*b<q{DjF$tddVp3SXlF7Y`64!yDDM+7zB}!vYLj5;!SNewv+E*?ed7y
zp{s?#(KM1fc}6?f99X?gGo+`Hj>Z1~Nec@El?<tKANo&~wbx>rNL?d^z7|fQpucsq
z!gm$eBAWr$G`7^Y)MxAe04Q306V$M~@7RvY)KoSzw73hYDXRSnmc54UC)_?1WZLMe
zf~}g4mY|wCPs>g3h2z?M6{gX2%8Cl0Cohr*WFh)mu8quPjoNc>3waFGwG@7s47eC7
zYkh_3XwT}JT`aK~pdcG$ER@ndmT>0aUd3s3tw3o`bDx%l=e<qTRP#8=6G&sQ;1u#f
zHdhu$9{Mh-Cf!{eWD?m<9Irpo=iJw^hm3*YWBLzOZADvX>WD2T_)b6JdlrW9&?1$)
zhhn*<H3!9_(vy2eRvjiNBoz`zwb$m|)s<5N;SOgu?cHB$v@y7rfHpgVshG(r<`j}N
zmbhJ}*i^?gJriilYUSmgqypuKBmNbpgFOvxFSG{A*8c#13f5gIrOtn)YyP2bP}CX|
zVXO7&kFfrx4?a~m@j`R6JFe(Lu17twfbXKrQc^w|hs5Tc%r+r=9;v6xPS#bio1!2G
zg_zd*dDDmLG%dS`xoGaGj&v;5jp(galvA~iv15<873vM5rmUuH(Uy?maJ&Lp<fVVA
zE&w)rd@Ywu^_!u9L+f3(#m@@sFR2pv{i5Tk=mb04Y%e0}rnZ{1)QlF8SE<+a3>9Z=
zt^m6MVmiM|Wlq<#`Hl*Mhwo^#U+YW*NYsBfOf6=;gCqKrs&xibK=@tA#fk$>)9PsE
zv1tQ~qw93*0W$%y7rMKG_C-v~AI!yH>}epL0`v}^g0J%In{)W!l|w}vV5wxXusNXT
z3($IgN?G7<r*D9RifVz$r=q7)G7ui%K^Q*@r&o|qNY=f^z~GL{YpGB&NL?W3xL$Lv
zRf-v36TQ(Bkb5bp{{Ta&*xEXcgu>%v*r4@#m#{cF-MLl2o4rdwb>ngNyTV;=Ihx}e
z@-buBh0z-5jG2?wr+oDeYYE9$eHEvcR);?(*CWc4{TZ@TZj4#rU+SHtI#_2BI_#0W
z6uA>hgN>x@^_@Nz%TF8FOJt7Q9Mh1mnLK)gTPgsKt)ju*o<H)kT{T=EPiY8ifEO3#
z9apHw7{Ok2w9iH_kshlC*^7_0%_^d<cuY?vq0Jb3NdDn7TGgF99NXv0t(v0rt#;eC
z)+K1;y`Z^q1+9UMiPcoiE{&%)<*4l^QW8^$-gh$m_Xy6H)28&_E+wXrZF5hBThv-)
znmq2B0DTu6j|;XJ4M^ml?ye@cLwrwoj!QYNHoCd2&?26lz_p|v4VRpB=CmS|HO?is
z#rrQ&(Dhcnove8UgnrAm57EUXyF9z7^jWAXy+#59P1@nvZhA5;H>|X0>C<dxqYG?X
z!FR}0^;|L3(?|naaefz;&{x-JI@>DgBy?|$_iKmvQOO^okZilxI(oB1)ZIr|$Fzrk
z4oh;RrJ8GOdyn6R?38n9e~G;t>ITOauLFOG&@xTA3(DrxrKGBsj;)20#%yuV${7Cu
zeS0*WbZ2$ySsnaVxPr4Yhmv<2mYl7YuEz$JzUJN5PP{d)-VRk9MYcALrNO{w3g1S9
z)@I3F?ROaAQ|Q%9g1kCFHai3@#XUVWg!Hy_Zv8+G6f!o8Vo8;5(kG*sJ}k8I6!kJx
zwlTDuEjFJ{+K|?l0tW>?uS;PCwgD>rqBN;UuIXKRT56`pBdvT~@Vyd`U8R~J=*`GB
zBf(xtUk~MH-E5BwW71}tvL?N+0#W_`7d^PTD$;vBKSz{QLL?(27b^Olu}c=$TX5sy
zWb|s5Ld~NF*+tcAZioq?c1I)1&Q`_aKpl0a#VsqE_KVvF%K@iWOQ*ZjpK*vAT=rg}
z{-Z~%(z&J0+;HZeLd$DfEG&iLpcdN~N$hmRpwwb^(dq&Z2I}gTc9C%4u(4@XZ=y9i
zeaw-cd_VY0L#<u{TH@IwHhT^TKPr|K?DSUE#L;IFbxp0!46!+mu?MovH(z9p{dRcd
zD&0?AvkBdC{u3ZFo2V!w6B8NtUj!<)&RD|~!tK4dP1N<sMNa3q{CGpUv6DZ0K-%tC
zRyS*BG}iQJG@2M?U~BB)e@RAFXwb9+Z*cL!S*m)OX||TQx-fC@wYp7vD{1z<!*!Ih
za*MP)IJHGNE~S#g0`^Un<%fJg8;@}Et!v<lKw3qd4=RGDK~E`Zb~_`ESJ|f;6h7^<
zvI)REgxAK|n`3K^3Pw4yI_)`9w`)07BvaMVh~7(h?hwK-MTl3DGt_l~OsS!00l-_x
zOqjG&z82cxsh~VH<BkfNq8CKlw#B|wEg*~9_T(eksFo=m7t2pAQhIGC9s4N5uFJFB
z-|n8n+#4Wj5VXeof^pqB<JVxbKyc+s-{Sj7vw%wje~Gst<B*n4wlr0PdL({<kh!jK
z2M6U^#TMhZ45A&Uwn4lLKf0I9y_fhTXUC{b^JO8Y-Dd{-O3=lpHNw`iansCafn~mB
zVR$UhLl<M)f{CY?#r!#eb50e7WeZrs=4a=^0pYhTamiJT)cPSPN-tzJ&=$MYiPsjw
z9j*k2gJ%!!kEf6U=*yA(r3*7`^Rxg*1u(QYJJe;GY~hkS6$7_k;{O04Ihc4PTRo9=
z6vfbb@cW!UP(tX`1V8{ix5iYlNpc?77Qe_*w6*QQ+Tq9{M`tnj<H$^A*=SF#X)S46
z+;>pdR6bbtxxV4g%8Ch&`-fn1ES7Lc502*-O42p58fi1KKtMcqvXWR_4cUX(`AZub
z_J>;6<vu%su;g|qgaX7o+<Uu)9Fg+jfUKr~I9-Cp25#GjXUfK)TL5yH_<$wNx*|y0
zI5!EcxcLPy`T+}UTVhmm4A_slCRoqvVuTxu5tIT5cAPr|e=>1sZ#l;!x^vha$34?C
zYZ3HCfp#GqMZmc36I{^d-M#xMSTkdQRKkhH+lT)E1x>Z=qD}M-PW`e5JmboPSfIG|
z8^S!%IN{jwWJNPv(kbei3tfQnp(n-iMWfX-Ij6$s4)+CEG+PcIWJN_2=_*5meT3W|
z%E^=rtb*)t5A2)gUcoOPS}7!qJ1yh5Q8kw*x;9v5rj*4rWv8|Kq2%^Ib47=6x)hX_
zj&~NFG9uF3f^c$>0ds7k-5&ODX9WuOIj3+7DOf3s8MkaFJ~q9$KXi=uVE+L4Q`u|U
z-({F|4(6Neeh&bsizJQPm<xxLYns=zhh-pXh}h&G=CalXMH`y&o_mDoo<XydpA${q
z%sC@%YaUii+aBhJi-ifWJ6<u^_fm{xT!gYTJ-AI)2FRMz9gA{2c}Kx8eK~0$f~%Nz
zA5G2nr-JC6zBBFr0PmG7kiLhEtFmT~P5$BSJXo%%g|ars2eDlo?33C+`3Sh<8wU<=
z_))*I@!44sb04x!f3hKubZ_3<*-ujo2)jk?+qxJK-c7=!UG_?Ai_v>WsMFQcifa6i
z<&(Qg7P67hKlL_P&*+i7AF8c5JAk-6q9Le}tspp-cLh;Lk3zXAEsuzs*t*BHl-{(B
zaJjL*2t$*L@SfLiXc)g_WUsSD(InL~`hoks!=D8UQpVNDOE)$4%SxTwh}!Y@P=Z?U
z544U7UMZt<Xfvk8O$|rAo}@(koA9r7Zk>PSU8-nymJ^w&M{ky@stU3sZs!I(aN)sT
zjnWkm)HR{4Y;y46KTFgnX_t=Go?Gd)%`b=%ep}oqUrX-Y5Vw|<>m6;-GS$NUV?&HG
zrK5DPkLLR?IfiK2C!<#hie{S|V#O~Zl2QiKB$|?K@w;!3R>MejCZit50TidV3XBQ~
zKo5A0$AjfRYiXVz>RQ}5DbA#aigE0pS?S4Ps1wEr9mwFKboyZEfIQh1LDUcy{$91=
z%p%u4k;09v0-}-PXdjT^cvH92DO%A<T|n2rW81O+0Lt$ws?}67`f|4yxObJj^rMz7
zvI~RX!mg{L1)iL&^<wNu;RNUj*-J;Lw7IQ)+V0;ds+b#C#}?SQcO0l|bW+IuNbXt>
z?1$3~t(-JGvOsWq6v-~poiKS@Bv16JA}$@B<vJM~Yg~Xk+bc}Q!&u)+b^#}kKSfih
z>F%d~_8t#DeyOc7RDqo|QZv$=^TWG@vT1?r7sdYoOoJe!sc9grgtde=M*gN1)KX2S
zP3TI~Ejy0~mZ8vFvc8nhODCl(PStS*np*Z>J-Zcg6%{pgHQDcPZ!JJgr&Lhi7is;K
z7EiKnDfAmc_lW^(zQ~%$VUearI5Jbug0Z!_m2EVqV@}Y2WaxEy<zcxP<Q1gZquCz0
zQ0jTy!rw|x*u#}v8iQ&t9L?JP%Iaqd_=9J(jUE30nX0y3B(eDg%>GyS`l)hVGVx7q
z9Souujo_A^>f#SVc($K#J^O`8BvY}XDH>cm6%{+`DCXSK>vsib8|Y;^(=>E76&hVm
z_+>7OxK^5kG`i(4s{m-IYjWQ|MNJ#xu8-7XgCw?F<e{Ugl8&Qu4%f8gB;Ef2W9jr&
zY7|4%bTT(%hmnv~4P89+vu$`H+&i&eku(&2K}uy~!zvrey@)G0RRpxJG+L84#!Z^=
zJ1fFS=g9|pGVODX#DLi0aG)~Wv9}$F#g+WpN4Iot5=493Ek@Ak{{WY0dCX^@gzc|F
zML%YDOr@%Vt*&$21@Kp*=+e2+v9b_d+=MhVG}6QjWIMkJ10|%A>;~Qx-8~GEp<`hq
zY^@jh?xUAak9O*JeTs&jrYhLB?%N>3R{GF5<m0{6+$<@y$m%Fb2X+e2>e@@lE^BvL
zYmIe0pfXYz^bL92?rVda<S5&VES;^MeKb`R(p)vgz3s?EQfiY@xH+$ISCv91zV@*w
zNwnCeVSF~vAS<b-*tFCAN5fqmV|NDvPa#iBQ0jRBiQeArJ=Sijf})y2`ezVtmZhfD
zWIoB-TH)Wq&mHs+lm7rCb{Pd+Vrbszr5+WQk*F6B%T>DNycLC@)r=Ab$ozJ2S4Od~
zXp%Pve1$$PBXLioV)s5ja~xdX3Mngq7Ir~d{Wn?nY;&+X60Is34OBbW;0f@J(2hIU
z9<xgoRD0SRp6em0QOynUc7KJWoAXr8J5Q+2;Qs)^jL8*LL^-1z-?BYz8mmTHine-J
zfbV=?JcV-q0L#|G9Co;Q9E297MX}CwIUYQ!xTKzzP4Sa%?XrG6wvEcW4ymDhV3^5s
z2ksE`(@Re<E@8Kjt+eX6su(t#NI7XoNkaudwixdxgl@FJ-GV_pQ?mza{&_@0Q7t?6
zNH?(fLOO}m@*Tt4JF5yfx3CtS&F}D*Rp{2yAY)ua&_2h)E;$=CdnahzI6ctDm`3pS
zou|)~=F4NYOdJ0I_E5VT(?i_>ic5@+#YpKJBTnGZMg}=fjp5C~xbxvhGg{MfaDx=C
zstprd01;8p#XMkxa-Aeidq}XiYbB#Dh1R|b*GMV5+0fI}Qa^NVHtq_zq^V@h4K@!P
zg1RR~J2uD%)kRT2KrfBv;Pz6KgGq)G&Ikxfx@e?nwX@kn9YdM?IYp0Rx$bmk?sv5J
z2b5ynh~m+n)%2E|z7e(l6)xw+C7ugjJFTr#8!T62fh#MlGi#3FW94>Y$ogb5Le-Hn
zr`!aXJ&GaD1-HGGBWhY7vO{ZkM6#r?ak;Cl9LzDqUls@9b0m?j&CXP9m69|Tp7+Y@
zkWJ1?G-MeZz}n}PAaFb?_LFiiYjB8T&At{0MaBFCqSm-k2erUhr-yebLt;D!bKMMH
zS;_8<!-e~(BxudT$Oke)d)-J)#m6XDH)%^7$i2;o@|eTqacLe@u+7EPZuc~kV|4@L
zb4}VlQiAqb?`yaOl%b&bx~_^>f-n(~zWkh~st(COHn>Z1!Lnue9n#zqO2!&m4tuCw
zcARJB5n?;2U!35qY8EMrc|51P+z!K)1+Rs`y{79Jn#wsMz3_gjSl%23?3MS;kJ$@1
zND4^Y55<!U4%^$5bD9Y7qH`^gaI@KvBd&WU+d1#y5ayG9$}O(GJfmi4YaVl9WhiiP
zCnr28%P@PUjlkOW_(cF&q8G*#0i~zPF^&XSk#yN37Qn(Oi6yc)WX-ex0EAN{7Uc)D
zwe~7jI@cIQg#;JwzyUSc7qCsejk0l+`;2Gmkk&x(4Zpcizc?eeD3_a@6g!#<!x0x7
za2Eq{o>I72^TKD}=$Q*gJ%b6m9pOE$10W0dQtof{Cb5eRa-vvjq=q>#9d$+4HQI%B
zG(mvfg4b__t7exiZE31-0i@+x)M)y1X*TU>eZO?E#F9;dd1_ibVxLX*S|29yCGyk3
zS`8;dr-r^MDq;?S_6`Jg@}|~mXy~;85CZqjm5!ZKYPQ57bJ%bVm2szJ@;gL*e?z6{
z8l5TA2=r=U4+8%Hr1uJt>ZSr78F9+8*1A_*u931n34JDuFx!Bji>4}C-IE&;*sYQ&
ze;`8oEi`VW6%J!r3t61|SD@$&n^11Y0?phxdA^xVPp4FeOaTD-TipX*ic#rPG=tm9
zf`ok{@|3EI&aCLi8rMEr-%{g;8-<zB`T~x9Y4O&37;+1EE7S!P+Ka@JIFc2%ouReP
zYm0I|6y-M;NXpvTOQ-aQP3csiO9*=p^Eh1)Vd)B6yi>(sIU#MK(AzC5qLv``IAk8n
z%s&u%2Uvj1HiqZP8OeyAK8a$S^yF^35B~tw9UTozVr&c&_8=-=q}BA9>m!<;osA3`
zcpQb~RnY6SdY;P43E_A)_csJ9x_I>o;S4c61Kb5zVQ_q#G^E<9H9D5HO*<oO2i(_X
zPe#pOR34oc_+xh__EefbPfjEf$X#RQdT&q36(kLh+SdVMS3;Z;*(qaXE}Qsu5gxr`
z-z&Lx<lSdU(loeE$k+>3rn^?#84Z|N_PWJ&6fLfG-uGv)ODxC>9GQmdEnX%_TNw8E
z9hP5YnuS|hZq}3bTlw@|GA0*PF~QzQ<yE=VRL?(_V;ye9D6EU5i~MwH{{RjtAkY{!
zA8d{T+|n*o{eRW%)}>=<XtuqhF1PquIA+yqvqaZzCe{nke-FAAdg_Sg)EWA$cH0(4
zII?7R%_+hP{hoYf*D4<y=_h<IjDj4(ZWg7wy#;=k>FcpZH5hQ(i)G(c>$=}VX!JUN
z<|1%wfXKS>UbY%sE|w#-ICw&Mzpz6pXg5)dSEJM0T|pnOMn&9X<ONMntVr@CV~f7`
zRXsV@x`vB8V2VLKFgR=Tj|)LrLqS@`>pD>MqLALE5B~r*PjT>uJd=y5{{Z?KV~gBD
z>$PWkWH#de0NH0@(QEbHL^?K|m*fR`Srsk|Ue{YBU0!G!_M4@_un%(SjFar=l4)q4
zMCn>uDowR!#@KN|>yDtO4Q9p{G~083m@4ges~u4*g9#1ns`STHYjvUq2V~frApZbo
zp_l8~r_(y5=}?BkLz+0hD$Tu7S*!-OiXTctf_opLwdwAU(Wv5KuMK!3CHYh9T27m%
zfc-JeBKHNjvJFLh2Rk#`j+3uf)47sWydQ&Q=T&_zRaLA$g0iH?D9mm=JK=h5cDXzj
zl2<jY;lX5ey>6PPQ;K`EIz9+Iq^f!uNwaJCf75idI%A=!hCf-kx$pE>G!w&3JJ|a*
zqmPAz{{YoxwCoW|OUSp))G<-@cDFA2SX~ockms9U=(@Kh`jJb!E_&CkVx@cO;Wu!_
z+OwTANn6%hi-k>8utd?Frz9xn=)GDBlUt}0BZ2ofuvQukd|EwYoeA51*5Ij5<Jm~1
zRDgB9iDr{r_}=jHea$XBk19FE3$(AwR8zFh&(k0Xt$SORuC33R+pK-2{3@o-*?6%%
z*Cei6XG+&amXj3?Wg{tT<n&~Z5y@`e6~3d=7tzIjmp7}o{l>Z3w~(?1sJ-Ehx3`sl
z6gsw-D;p$|L?>qG_Y<|l!3e1}(VT7Bo28^RdXQv*v^3bSOwj2x%|3yKMzlB!?(SAC
zo8Yc|uZ-G5asckGBh&RQLJ(T#HJz{FbmD(UHeIm(pz21oj){^08~Spx6&jQEDy@K$
z+gp@Iv(u9Zo?Rgi0{rr+wA;{<Uy>1&otiPEX<bzookRgPb(S|>uc@qSq>L9ZIE~j@
zjSEg@zdOXQHfX)R6n#aa!=<uO8Ed0>!+a3ArIjrm5rca?`j(zrnOnV&^zULoUZ>L9
z1r03=XN}I{=I4|j;mmqXZ8O<c10D}5Eq(2zu5~<8Ijq07&g3dJXhkiagGD_B1Z}Dh
zk7I?gk_wrw9amW$6QX2{VF!J?cwSc6^(jksdWDCJoGs7c-mvWwXR@)OjebMVWy|EL
zM;mCSIoywL(R8Xk7f+9KSkfD7D&0e<Xg}0rrhP+NUf|Y?@>X7>t0UH_q-7Ms(Veb0
z<K=kAT*;|BsN#*ak02Yd?K~T=n}3g%X<V7!vT=@&t)mgqv96G{xVTguU)EIGRU70l
zXaI9{g`w&VW!)!D6=C%yje(|OazI{x*3}hN5ID^<q>qv>fTjLEM=l8s2Abr}mYew5
zrcYBoomVcvE@PJ1`Yd-<{vf|mnekCfc9Lx1SC_h!RMrtp({~$LYPxr%XOY44G4>pV
z>O=83<x+M>{D&Jz(r6mSzfVo-L0chX#|}6u>Z|b&S*D<5Q?b)X&K%QVTBH8}rqcAm
z6u>k!whJOB8ijMBh=S5=mS2sGrBOu|WTSFDi$d!f9ebvn_}%GN!rRFiIr^-He_eVN
zE{&j)4<M|yR*hGuOv#~qk&-`@+jqjLG&0mqUuOfl_DK)HHIn7flJemg=+X5b;vH>m
zD5a!io~Upwmj3{x`1&mmKx!4TNXm-ocRX0%i>$tpr9xvR>;d+_)nDmsk}%lf1a`Py
z_mAP?!?>-UeoV5TX3wm(IAo#|!yqoToZIrew!V4l<Z#GvJX^BWKT4^U_mbt8$hwkU
z8Y*i{&;|Ui#zj9yN}7-W9P5YtqTv>}BKA(Ids$HCb7eIxq<4=A2C++C;q0*brHYDq
z00EZ@?@ZFn<Pr;q!n+g#7FxpJMDz|uOi~!54I?2TXlVIX+MAmhAON$KwXACi4gii&
zdIi}vL&#;fmbhdas3qF^Lsdxs0OB|O)_6WvXI0ldAZ~u@f*z%sI;XZL{-)TEAxcl^
ztUt2eyQnH7oNRu{80-+ODLTHi#^y>(+FOvbdIp85bylPqK-K_F+~*z^#;2oo4HHy?
z7e?8M9k_RtlgI6bFVZtLb@NqLg2U}4TT-?0$l0%gl9#6M)DD6>xJi)T3r(x^tyL8x
zW%S+!vJ=KiC|O3?n1foV(mIM7>UUj^J7tfvn!Oscsx;<NerHep61MM+*xFZ+>Qr@c
z>MfDXE@(FkK}}IhRj0Q*U28prsO4OWV|AjFsGc<)LRyC07as_|iPEX7brVe?*zzvZ
z<fd0sdQ$?=)8$`ucA8yV9N_J6I9m9`E-p^Zod%y%rPA7=yMe<?LaDEl(vj2KCk3Hx
ztEUlZyQ*yP*5G`vJJ)MjF6luH7yTh|<;f_&)ab_;%W?y)>Q6#BAa$D84{5TX(zOZQ
zstSg`hjG}U^=6u~8xXslj4K@@M4Zw3?Y`!Ip=H;C<he2#sxFb}v>K!iqHD{B>wAZV
zL$2%aFuARiTaXqyqf?%p?r!6Z6`QV}y1rNbUO5~Au_J}n=V;|nrd?Lo&8XHo2%U27
zE!h&yFw@2B*qJ$UcSdM+V)BTb=kiB&ua``cN_iqIES=1|2LkFdX-BfS*X&dsakTUd
zif031?LE~k1sz_kskP2=^xolX9N9Ze(Q4(asEW0OIi%U7cUOHS{{Z4`NII@EU?$f+
zmo4$OyE@nG>GXP*i_?-rr$_mA3l{r_&6Wr84bf1s^p!D}dY*d~>b*a$z~~GyxDes(
zD-Za;O9a$nR{+=YaHY-7sT5IBv}JlPPW<azQ3Hco(_$8nSNzQ#A&=K{n{GI=%5;5k
z(|~w>*qm=`t3Iddx*<=oqkD+#7q1*~YT4#XBTkW()oQ2pT<6H(;7y1tH0PR~L9LPb
z-GWLcwywUp?iBRSE%Ri$W`S2MqIss;;gA4Pl8PQKO!Xds)EhxfX-EZ@Hoq%rQPnhV
zq;>WSixuZueFSq*H*}H-7%grtj?<#2Yo7$M0xipwWsxG0#q7;>cC|fbsrfn`#jbUT
z9u}vi^qR=2n&Jo{xhM*aA*|H|kT3vvBeKyuP-dM$dE^ZsSp1=ngcYP5oTTVBgG~J0
zP_;;pZ*P_8njJknGzJ=p1hyU5g$}ENlT!5|l*rd|8=EWB_@7S$2KssT0m1HuPb(r{
zsFA{(*#7{<4GVUnYbaP6)|`MbWuWL<2LAw~80QUiq<dU5h37i|0AAE<6Mk9<%rG8L
zbMUplhWhk0<Wki*?7ibB$Atv4O<8F*5)P)&olRI|sAl-j3WBdfhG`o-00Q3ETYj*r
zWb(@L`@}y@my_3OwK{g7=f^Xh3yxdiByeVg?({!6N++S{42B4rUIp9OqpNjFVH=yd
zqwcT~>oXV`AR}vq@Ka)zdhO2KY}46#ag%yE+)~+Ltm<TkfCap-I@jwZ^$Bh4R<BWG
z>`m}F3p1(0$qC3!C<)CL9SN#SPW{H^r1@T#N7QhLkE;IwWwHwK?IKUf%o^{|<NGVe
zI(H51dDv2>qGp_i^~R+L)qPq+cD(lTj-=Bys?8;m$xh=9?hkt*D74tM2&9ee0!HWm
z01MYY467-tbno=a_{XUWLvBYQLnc(1@Pv;i(&%NS)tJkEqjJ@}iW*5HXxW=*9IY2n
z^z97N7g81nu<mPzKSTvBBN)TDS>Z}|k!b0M81@ZM=)f^x2lrAtP_QBxi9S%;%^byo
zNR5c>f}pJ%eK~9o%Hn=BoBfWc=7ngx(sih1n6cn);lXJsX`!eWU=}_Xn^wUj6(X*j
z?#^1?=*mv1sic=-y9;|B%cmYL3wt4we4d%E)o6t@qma|x3?pk^G511C)iBr57D(pr
z1D^`Ilc;H=W9i=Uy`QJ$7ZjbLc{a9NYHkp-b9^l2KD!=|tjAje_OQ5mjR;L^r~rx0
z-N3^0+Koa=-9_;FgbVvqLgd7k>b8AFRn*#UtD>@2mbjMlb>V-BRdnWeIy)2OAi8f<
ztf3|;9OE0XT2BZrx6<nv*48xouu1N??RB4xCo42_B&ek6?N8CKaFLgd_$zy-!pgTr
zJtymo?%U)n4woElBX@oZ(NJn~>7|c>z}WGA$m9+;XRGOPdhBenH17)8vC}eE&i018
z>B`S^&bJj^9B*;j=L?Z^cBftZJ4QE=+We%t4gH&{87L=!2QWJ0f~K2K(<&k@Eyx&H
zjVDm8k}(@$EkDbY9;4LtbhAF1NSxVQ&CUwVfi`IB^qL2UM;-{{<!5y*G8czJT;My4
zaEGGmYPyEG!UMgI0?3&)Avxb9C9>MYc}YpK$+HJpqJB#N;6NY0Q9A>qiO$c$)Y9m*
z@1qjN!Fy*2m(NctiF6VIJcTo6m6WCNM(<1Lx}w^N2`iS2rlUgIDxX!L5qyN{YGaC=
z$q@!K`kUaP_1d?(t<brT8@M*WC<#QLmoaT5k>M(jEu%NbOmw<|7Y{cF^!%Y|G>Nr2
z?pj*I{m`<*I5u-gBY|bC=<PsmWEBmw!NOUjm{N71DqfPFka}<TH2#uvbq!}mMqTQd
zuh`fxV1f#HsTv*uzFL8<rfIY+XxvoX+Ik9(k3G_QZQ68<l*S)U4~`a(@={W?OG{@&
z?76*`yGNjGl;)mxG}vWPYj8=XZ(w!eAnnHmS`u>87ELXo`U7cak<rU*gNvqW+GAmy
zxDVl+tehH@kXDhuYq|I;(tfa|G@+A7GA+syi;Dtj=+Mx~OD!qW>H}=-vEC1bg6f!`
zr|MpthA+9N$Vbp>^wlH{;k&;{x(lfpEp&|B33ET2;U1Zz(Pz`u)YGxHwe65qfiT44
z=ClT%h37F(Jq1X6Tz1~eRZUqgqozJeTRvEaxtHzaE{OC7*RYLku+2{69j|W7&$Vcc
zGwu!US8JN(eLLI+=74fMA>iGqK-U+N?o!E($t@M~LoGx90EP)8I944q2dhwHm|eq*
z_gcyg4UD0RrYw>@;@_m8^$G(+J7$fWP3}<DlX8%3RC3ZtC4iQBM7ODArFd(ecQ=rq
zrs`DHbcM2(i5fDo-9$?!dzx|O8Dd?bBayztI`67os6ZOR8e8D<vwC3s)h_pC-^>+8
ztoa0DQVz%99?QCJx>{O`I2SS8sLLLTMq4#n6MZ_CwT8}Xw=}O~>0NP>N3x&>${S;R
zFDq>!d@QY}0D^J{VvcU3D`FBb?R#)kGUDd9*=V{wnUx|^<GdE0-W64SOPf1G_-VUJ
z!*u@uR=vc<P<FYa+HcCSlc=dG+(VyZ;I3r}Md+`so~5Ex(pOTouG%DM%B$8SI&DX-
z5cc1XA!Bq+UP!A0>E-r=Vy?9vU(}Cm;1EU$T`L@#C(bC=>3X#mr>D9bwBv%avepeB
zP;(@=p#K0oEEQ(2B@I!QmPaz&x3U+gdY#quEoJO&lk%vsx+dm}{;ATas^os9rxuV!
z<cu7BR&Pzy;{3sUZXvG0Z-S_!>T1nCK=w&^&KwRwQ|bLd3+jDlJ7~S!)YT-m4okFH
zbsaTT14Ds%XgF4SB<EAoy*Jp9FjW5l>e^<fLii+by|77CJt<boT~<m*JZ;@}=dw<8
zS_Y#>jydm5J4dQGcaWyk=ot_!+wDAr$)6Q1Q)az`jl-3mpzqDndW-{jZO6*IGICVN
zWW~kWG81|clNlK7f{Rp>NT?FV;^?oCpQ|6@xH|12Qfe}_(H5T=DV!SFJNq^RtA$lL
zEVv_^6`s~9POKc}TzLwEOsZscVi|B9fL7~CV;JBrE}AVaz}L}}JttorTc8Et=E<;^
zk^Y&fM(Cvf0NZ=J73^9}F;5Fd(SHc8qUd@aq0$SY0hN&pvA|@ZHCslEy)($D>7}NT
zkyKj8f;cFxS4@ON*`sLnhmPSDG!w(>Y1)fRY9Ko=#m8b3B9ZYuwAF-X{kQoE9!^m!
z3~5VcT|Dxzg3?;%;>f1eK1;FOpX{xtp@r<+&;#w;y3SWQ^sgY@Mo_(%Q{w1NOv@FX
zb9^auIoUJ4#_TwAQ{y92rS#7rVE8IMHi^{rS#I3qdHGKW@$6Ykk-5@Kbe0DJzMfp$
z!nD>jx_xg%k@Vm>!KUr_Rdf<ZCY~ZTb%L#%Td2_LFB6Gj?bxf$DaM)42IDJ7n$F3z
z%}z>pZfI-qb+_qVY{h8iIP6LntSKq=x)y8tYex2)Rlqr6^KS}=Op?Gc#@6na9N5_)
ztn|8?!z5<L>~Od%FRJNmcyq0jkc!YN*y3rYcW-NxwO2YTkLB~>R!fq!MLr-s7t|G9
zC9lC)*SJ6&8z}z(wR<mJ=@4}uhZj-k;jWlQ3&VeyFQ2tp+V(h`cwU?T0P6SFE@^&+
zSpCcw^!IVJ_EDY3_FayemW)=fSaz7DZr6-tEVWE-l$U=fI9}=atI-thk@b{pv{D_!
z4#jx=RRq*>m?mks{U^$<Jj!BE8;;RQBw#ky%ChOLQlgfqLR?H|2L2RNQxFS=ZOBt;
zjEqXxi*5@|C)uFdX8!;|tbwJ#I>GrP$I)HN(IWwCu6(LJDuOE7W>nJ<9^cf_*<DgK
z%wc22hzpU)<7Y;sXLZ_Zf=Ia>g+-&*%R^co*AZg1dc!vo0?F4?S>@nZazY%VCNfPU
z(lp&_I*3~G@E>gDPg$-)$ebMU`>!meuQ4A<(pleC4Q%yqIeVPb+$Z>VX^GG5(N*;=
zRX(mKp?MZQ=HCtrSx41TS5vf;XAzd3#d+3^r^`@41noW6iVZALI66D-cO^?KV!ADj
zTG_kMYJ?SA+wI-TldQT@9YQB-x-&gGwvYOVTg0Q!)n_ScBy2+2A!|B6Uu;tPH6G@i
z5TxZsaXh<Jp?r`Uig_Irjll=8@Is}PwNkXT=FT0Db?TpqIujzkwWNUPUH<%S&Ax2B
z@Az*w3$qJSL~=Sa^XZO|66V~f=^>Jp+g)<SqV~1^;h#QJDrwmG%YX%^k>OvWOQ2X@
zBLLVsGs=;Unw|UU$s@K`K~Ct~pL9pzbgnP}K-|OFtirp{ORK6UVGlMVn-vVP3W)6M
zk~^WFDK5Nb*Iflmn0dG-Bf?adpu2sG7W!ufy7nm7O4mn`aCj<4h-;zREF=RNLPktd
zIw=PoiYQiujqZ+3j^O^2bbK>4?GedqjtUM|jz&fQ0A$GUcDUGfTcZWd5e+2T-TW0<
zJO($1u;BjyWn|gNgv9Z1P&3B%w)eYF1uzJi=d`I+S%Ovt1yaIgot{{WN}77oq`
z?uuoYNgeqfP+>*S`g0_wyA7U3EO=E@G43W8k4koamw!?=hOzL0-M`@*TMQNO2^v6<
zaqw3=Z9SGzO=zgo>vt0rgJjMAUn<55u+x9+s$UCbe#g6H&Ed(SXFGEpi5vaWPYt_8
z@#m#dH4xNBS-G~{r}blzp5>5+x$zNvf{gs@n$aT(Bf68rBA+x_XH_7L#2mD$n&vU>
zFOMg(Y}MYdu{OF1vdrRIZ_n<pj~tfB<;xi=CTKFZXg7GsP<n)u9Idl~uv0}%Bgd@?
zKB(>GETOeA`-a(@{nt^+WG!g7yN@WUS&U?VbSy4Dp^fd&a8u@Hz#SRf&i?=if3P+a
zRZPi;tp*?6o=}ZrBqTgp!xvJ;C@i+^gnu%INu2pMx!&RZ&`F~`kNml7fxWDVYj4Nu
z@#RHLC_c$9M;Gv?b9Ur*@Q+~V8bP)A!6iM0<OBMwrI0dMiMP0RLq>hzIN13_Vp42#
z$7KY-J-`qF_)|P*I8Z#?A0zvvF%w4Hj{g8oQ(VA!7EUfC8=tp?th1U)Alrl($q+Xl
z)0UMDOn=Tha8YHgHU}OGh1X#qj2_Dwpjg|w_{i*=BR`u8Ng6}9Humzm;ozPRg@w>D
z1*XR#U1&4MAr#YC4#ibHxW6eOki_ue*z%VoRFKe{i?eMejy8!H1DoY^nnX1a7LmyP
zijSvt)|lG_?zlcx%+F~4BqUq7US!<j>7DW8E{vT;3*i3%rK)KxBFuk;B`2w;)doqH
z9v#_hDrJVUH$*@O=dz)hvAxEYqQgGdcT-Ki%Bn%tR8;z%CAN=J-qJj*Wpymnbw(P7
zTQ&#EyKPNYl{jRCx*~n9_*PXeqSYX?z};?Du+CWD+9#R{Yx^^luviB-Af&3IX<>YL
zJ;IsWsHQQSmfsge##uXW86>WmN%oFa71J{B4v716Zb43A+%R&jYv~wXTs^Mu@~cc%
zH*N^zE5de&&J=b|cs<t=dyIDpTWs#ZPIF6#%62VT7#8<4E&l)s)@*|OIXW&)`zFfL
z4&V)z4GnMVusKd?<s$%aw+G5|nPXxt;SpLG_`w+;M9A7$>vld=tS$%0TtFuo1u=o=
zgxo!Zf)vzsZWd$i*MF5GTWoTpngHRsyoD*jNN7#Phk#zof<Zw|8GM!k&+vFEDtgz%
z?@j!9Q%NIb7Y99xg1Eh%5=v+tzT1LGw`5flgJiSv5RZGkLA+<rl{9uBE|s)$wNGWd
znseV4_&x3B!zee!BLVi1?*&h$R?AB8TJ6p57LGXR^(ZdJv_9DZ2R9zaQ038<iR84k
z<LH#_c-rA_p9<4Z(dK9_jB&!MdtVc_$kNh^Y3&N)*JGN;Gyp*@?BK36O;)2$m9Dva
zFU8e<pH=8QdW;fAa#&T-rKGHY%TC{E<O7za$xpH2evek@j<BPvjj_uv(lK+$_$Uv=
z&WM9mh5ELP);6dO#iR7dyq48kZAh9YxLD&nuR!Sjwjv=E@3H=7IN?RZj?nz6o^9`j
zV+BNJH?-|@95T|5f#s~)<`>3B4}!f5t8~pTU5E3u!HlQ^<g|XJhMEV{U7k6zoT(Oz
z<ONwpvN0@2a}Q!TP0@8~%_d^{ce(MC?}^6XsoPNa+ITJQ3Kps+%F``BZbDYCu)o#l
z^bHqQqt#j(%SAP^#~x8~$RKfR#jnUc*OgMsEOQ6KT*+E~>uuAWMNO!*X}Yt7b8#HU
z&w`~Wwb03?T*w+l<NYU)RW*GhL(Gu01IY-zLMn|qeUp2mc3SblLR8j=GT8dxDPr0w
z!FErjNXeWcd$!0py0V^&)?to9FW9VBp{Q*?t7DtP!LqgK&aH|<+A8+}Ck&IZ`lo4=
zlAxKi*(qk;(_`7e6&xR$Xlu(`AmI5^RnFIq%{zhZ=jerwSj>ZC?BICtiW1uj)15w@
zQ?#_O-yRClHh8O|+V+M&$6~2lJ7j}otq$;fD4?s`H>D$myAXpx3a--W<Z)}8WAs#&
z+8CyHsS_^WkgjB}*xi*EBeTb3$TbkzeK~-1X93G8G;RAcGf~SEgwZ&(_Z^W`^>Ms<
zZUcG!OgtZ=zpB%jJ9pE#SoQ@}Rp{m80?!!)a<f<1$=5(tQMHyL#hyF0b0dl4WXu*k
zI4R;}k-O5JruVRS{!viEMhkA!;V&8urc_C%7-ZcGi*LaS8jxxm>CYMU2M-<AgV8aI
zWV8Gvl7*8t?gIUsjj-J#4f*Q56HwmbTEcn%0Ls}@R8VympJEs$w-^5EElW#^s-MxR
z06hMeS!M>ETcgzpX-NPZk$%akOKVJCZFkXZDd*FwOj3g8Uf2Hs$~4mMXr7VTKdLlF
zov2gl)Z!|T1f%(nE1OE{SvmIq0A-Z7vD|)$BBz{MYFA(S;wYv_W{SnW;mACqsfOcl
zZhWGDEgYwQ87LSw=jxqP?1Y<4p{RxIczkzZz7a8N5yu~=R_yQ`rPN(}u-UG+ZVJxo
zkcn96-?(@oYOM^PB5iW7Yqzo6n0O&m#nlg|COO}_JF1CIbsOCrj&zWoFWFX1&F{Uf
ze4?=?XD89Jb#SO>t4{Ft^KS{1`iT#_WC6nj9_u9p)6$!<?gPhUO)JGy_Zc?7zEF68
zvb1a;G!;#_8((aT_drg_iT5_dcPKhY<pcGXcs>zRdYcPs06rb%B2Fx?B_*;sDH|+y
zWBEe1O8q_d1<#Ac*9puL{;VqqWn}T;!y_ZgvZvZ4)jLFxRW_lbSlwq^K2?nlu_QQi
zt_PJs_@7Sl=)t#eq;A<+xvsax(3Uhh$ogibn#6Lp?lvFO-8M%DKh%Z6r~IsBv&j^h
zJ5O(wJwB-<WCy$Mlj5zTJgN3-$ZbSqGTYiRJE}^!i(W;nQz6ut>04<wyRo{mJ1bfN
zk)mG4_$w_LQz_cX86cJ%IbBfdFLOk4v<HspC(%t4h&Q@!$6PhQ+$WPw0Y;1XY8xYV
zO_rYN9TA34QW-A8`zo4Qw!3VG-#wAOvja$Eql~Dy)6nW(jSU{jq78FJ?R5=Z6G^jy
zE$#5DsC70*TGDJs?zEIOFwW7q-{k}=O>|K@mZkyfLgMC*+@+4Gu3>B2W87Q1(n$*d
zC5H#Ml~-Fy43}^lU-8`<MpCkhq0+{EN_@At@SRUsByYHTf}Uu0V2^P9im#h%^24>^
zYOuD$*;*Pf;)$fy<c<4f8<?}6tBdx$?IVRfJyRG%Bo`OW(!6HmYveTbG470v{^(Kz
z8d&UujFp|5qNWeyQ#*4xARZLd`n+{b*yFZE2MHpIN$5Gunl~3j;#=UMH5yjc#BKv$
z%2;a5Z?m0_;Hw776wTb*ZdQccN#s^}#;rv(GM()$vB6POPWF3bB#$d`sMAGK(%Bj=
zd#skHrpZe3;qPHM_+8lYsVX?<j*eudjt`C32eLYvp^~?4^Wjp(A!+9x6yT6|#_y`S
zWLl!xz_&bv_Q(T;#ljYrsyRSo$PQDvyIpa@G;0cLLz}sm2gilM<U47?f;k-1a8U)!
zlGp*rP)S(fe&Xrw1B2WlZd-ydp2;q9mt%H0%{T0#aLME62#gV&sGi?;au8q`(nldp
zVC-@BQ8x#SCyohe<u_)b9T+(lO^ms&vxSt+Hx?_N0UkmoL)z=)WjGQubUSx9l^}K8
zE^@J%A$9Nlmtc!uDGxWgYk{@LWIHvDb%!S@f#;7Lr@K6q!T}iWjRM7K$NZ<U#0;qY
z%{S~Yq-~Es;b4-q_(*NRO3`eCgr?aB<K-v_oXdk?0*%e#OhK^Z__{&`#nT$d3kAWl
zYoo!wPh~Lz_~kVC`z&GyH)sGA*V}OHsSU4dl8}J!m4QP`Lyh>lh4%#8fTnPD?3w_%
z93y6-t$VTm04s_5-7dgyZW0!r=%#?v70$)3ZkRy5z{kN$Yy*B$J;RPZR%j?m2N>X{
zZ2+A8lbqm4&pr|Y0LFf(0ro`y0Bf)Q6L0XOlP8b5j^9*KsNcG_Drj~B2iLO6bzf2j
zMI&N=ynjLuRI96d-qP3e&tz{-bRAB$YQI<(@>+RRb=xMidC8imRMf-62_&z0{3E5)
z;faS(jfZ#j4is8{N$AkQ6Pru6W}7?ewBtvof&k{0v^$F>dD7A!k0V1_U!ubkplc(y
zY%eD3Ce+WVJN-VH&u3x+^ldw*<Ea8i$$O3#qe|(T7_5CZxSxd?N-h13AJqBY4wBb(
zIe~RKV81Q}dY40VE9qm1)Hdz|n=e(R(&*wAY-|VUmZ9|Y?Z(k$Wt)nmZ{$<abnPuW
zZHuDfpo%AM$I6A;wL4@X^R~l*b(QLG#62%e-TYR$<F(XxCO29)BBmIaabOirr>@XM
z36QWa7}q})=bkq<k&Ye<yM2}mRO(%OR&#);Ed=lrJW^&-jqLU=vFc8odk^L#f$tm(
z3#>hVRq1iCwhC5(d>y!6RjktLP|nFGmPs1(gLQkQK5;@>Gy&|}lWc^`3QKOn@;;HJ
zlc`MN@GuK_<y&cxYP!f{;&F|a&z0udbxEbwz!$ad7r693tEM+i5|_1){%}>{2t%|a
z=PC=+Iye>wR7&Tc`-xZ3bj2ReP0S7ect_}!)U~pK49#)ywG{C{#)3flBRuhri6}|!
zo@LgZBHGO#(5Hwo;QL+SdDFiR-ADX-il;rG+<}Gbe~SG}7Kx-tVzH9m(ek_}QR{6=
zvrR6kC56O;Z~0uxbDOxW9UN3*t(!iPp`xd(*&CSV2VCWP1#ehsIxQnc_B4jt_s!RV
zXx%{iNY2;Y?(cPJqv`W&^@2*799ewd!s~<85SqQ0{ZrSvzP$HArZM6-V{y1y`hUai
zUt2rs=X(pXJTFnu`g=^FiZ4a2xE3JgXoOM67;AQh_P1qE)Jtol#9;h0exE54JAaGi
zPfbZKjQ6kr_@rrMj6K5jEn1=&8eJ=Zw{_(`bJP@~SNbj&9uF!Lr=qZK%;vX8Jv+ZM
z1D)x+u{<pEMMSS5&NsTWXHYtD`bh@nN#$DT+B6!45qxrwRi`cQbuLaNV-(6LX&zq2
z$OznRa<&~WsnF;yESaNl<l^OQG|$7@ty8At8$XI$c*z;M%fa|-tyfnT>Hx9r8(Lf3
zgj0RkWfdhw?RK*Ur%cz=%m5<WZ<U>^)Muuf(e)nVkVWpZI=vRB)0+IcMMH>tGA+Y_
z;Dw;++DBE)$)_Jw$-iWr64BFX+UB7Vsr1Q%hXdR!{;ku|K`Uj7XEo=R6Tx2lMfo;p
z4vqU-@Z2vJ>Y3PeqBnB;SRpwsRD+B7u#Si6@a;kw<@dJW=ZmkP=p&_mlNgRBhqPE0
zjtcSKo_FQj7Q<k3^<JB&YZQ=Zj`buAnWE$px-rW{CbwlDSl2oT+-D4EwTK<pjO*2~
zwx&nK`&{s@zYzMuI*HvJPX(8^-FeMTOqEi5F5`Rvl5)Kd6c=5ozh%k7FQ?lkpytU<
zAr9SVHFlNLbvmIDy@k8DUWL+qBTJ(&O*4aJ0^}08vP~p(LJgAWy)V4SJn`*tA>1!Y
z{8G{3ABVJB%`75E)0UU*7a_gYBUab_ZL}I!@hTiF8q=Sm(dgY*Ed3ECkE_Gz)J6+j
z$q(uUP7-ogMWsomWcqVWk5-kF+XpuAwiWEB(=>wUzy*T&RC-l)CY`uO0~$^Ki!;^z
zP3yVriR7^31$QcpXyKD?Rs+=<!J0>y-IB32nt%*-&&qXlwGz0wm$!ves!~-pm)6_u
zz6k85)r_=lIxAIhfwM&5*R<ORPOq-3e9j=ayEbptXS!~OS%y+zVQXA2dx96E>3SdL
z{TVAqybe^pAKJ>SzpXRRG%9^+nnNphM-#F~b?ALPpu1FQlA___&SRc`veHm#)K9OD
znnn%h2f{O`C8p4t(BcR5{Dp2hvOKAklbU@ZAjzV;NA~$teM6{I%*)e@G2_Y~t2%}%
zx;uj1?Ka17sC4M+btVQ=0zygS=cF_xL=?5Ul@6imQ%L5v`2&I#-63wHsl!%xZrnF8
z@%B~}eJx$+2f90v&B7X$pOCGz{{X{tP61K)Vx6-803`Ue==2KhLMZfu5Fn5(Vcc1H
z^(LTZ>RNhvfi$weY=OfBBQ;%KHoc%YZE*V_MSh<<T3+@tNR8O*{{Unb810I(G->Mk
zI)h2ny-G9cK_J}1dmjqhNUCg;HkJkhF9ePP%2aE$b%H2F=W9r{mdl{o8LAUGpbLUY
z{^-`OL6oe2RQ?{+SJ4^YB!t@F4g$eY=<d<0{W%-_NX_&7!F?B~>lCii%u(&#w#9i*
zRrJM0a~-JDR6Mzd+}n2eS`uo1uR%+cYD8MQ1$L1P@EzP<-IisM?3CPD{lQj^qt<lT
z3u0-Wox=PquBEGp>Rc_hLC9UsX`_)sNty_1;*Z+$2Zf^PS3^|d=Qv>7j?2eu^~Xse
zV|QFFA4%)gnottfMEKb!=yBkrQdTpAquR9-O-jpx*8(mI!)to%QVA)yZR{=OQEOdY
zJn^xSKJgr!@KrS|t)8QEopR%nQ%R;xBI26!?R&CsXA{X+dQ}`{;JEN|FUq1}^x!UI
zPCIx>{{W~A5rPGr&gZ%jkxD(QrlX@}9sQ!nUZJd`^qg4si*f-A1EqBhMO7Fu8xzft
zI)Kz_ORppDdjf2qlYJs}_6^kf;~HGno;$1-udGV@`e!9v>XZ{ONfgB2o2>jWHPsDd
zOfEaDpzg|~t3^{I)GOr!V~Y<q<ycbmeSfUkZ05%N3x(>vE7Nq}myWT_{vjD^)m6~a
ziXGcVJ0?+}S)cqMrEY^MWbum=aP!a6U4ATeH4Q8@@y5btbHk%>JSxh)LKvd}5Z7Cu
zE6%#6ywq=Ou5*h|w7A_*BiQ)#?A^Y$2&!qdSR>l!H~5|wvbU)8s?8s4l7jNvTK(6I
zXkA9hwEqCe&vMWR1q%!7Bh+>>M+n`P_)~GRoVIEvm9MRQQZN`CY#nTZjp(kNpw%_X
zohGMsJyh+zGw)`SsADcOnI8LZ!D#d4SV5?IQbr8!ilzq#Q_fASM`X0n>YEDHv>MGL
zQI}2Bq1fonjmPXqkcZQ%r=+P7!pA<`ZC<I=4yWs$gojY}GghTw4<q^Q$XITkf+tC^
zi#evp>XsEQ#+U2S7NxK1QPLQtq?2pgYpi_r6I2IS5aHQ-Jxv~+CZ0s(ZUeIOy>1Ff
zs$A$ciys^+N)aa)CW>tagiTNRxb9xp`++<yizlb2r7p8Z@n;Ksa<M~D{{Tv>bn#+2
z2f4kJl-jdu;*vMW33bbItBzHoStIS4&a0@|UgH=56PqnhKtV%3g6U&(UnGvSqS<L!
zjeWpQ`<s#7N6`A+R+p+gKsU!G9Mi%XHneDI+3UJ~tw*L*mKj;OhQxPTnp(XxQH)eY
zD?LW!fV@4%qDrZZyMvzVlD3^4rBuk^TH_tZZt60|+S4qiucJlO4v5r>m_tWrSSqT>
zS*l0AHj!atg`#eQR88I;wDWXKT5J@IBme>C>QtcZmE5$7j)nZy4Oiu=9eDo$k;kz`
zekM7mPmz+zc>wm`y6Wn>dS(}H0FDUkuw7%+@ys^J{l%jfDo-x|08~;qy|z@y=f_FD
zB1jyIaGeD)si1Xh9A4%hdo6npDz8n|1zTLk4bLZqpy?Q=I-@BYwWe!;9l^&7(Z@Sm
zI5I&eqqM)`J-(S2K1$Q+^z?8x(l|Z*?H!hF`gGcEwI{4Lw{{0*p>&kc!YZyemj0eD
z609oinp1sIEk$<MkqjVP`H8_)_4?gZZnntV@(|V4h2Hj?H1TCms7WM{mjFvgB^hFX
zvB@hh2C-PiiN7#j&jYfynwC9Am6Gpsqmj1+p6e6S-n6wQAPeGuBf|Bbm+8q335l&Q
zaTfs?;-#R<cI}xcba4c3WKjK2l}oD8n4DW9fbr#eq}1k~H*SvaZU`ZH=T=gf>wRe)
zULC?$hwOEi=*vd%*>(=aXf(>#MAq1lM+WMKy{v0JMhh0@O+!EC8U$v}wpN5xbO}CN
zHWiwrwKN5up$`KY<zZ^f)iOFK2LpT+eWynueWbnnEk2*4Qfib^MCLWM4a{%1by+(W
z5NVVhH%uQ$Ae3Kk0Qg!hJ5OXWK1j#3n=IpJc9~!KdF;tp>t_o|rB||8ofv(Z;oV0I
zZbfq>k(}y@+Zl5jEaI|-j+ES7kgj@~b1tIxyZKFm6G@D^d)nakSCoh(Sai;cYpNR@
zfNdux%VjT322qx<Uc(5UgQ1P}CM*K+cAqOnt;znI8H!LrwX%;C<FR>D(d6^W-73Ds
zI2M}~ccp8@OeKZ(lY#~?v;AE(a!(|!KHzS$$5xh|z{cwvu1VrYL^B?^I)bi}b~)rZ
zui%rLt2uRMI?}j{yWNH5T1?eioiUM;I#&acei4-Vl~Y`4=WCi-#nFODdF@&~HTsM*
z!(!ob76+=Tzb^N^jxFzkp9Mu*VKSV@^;zDbtu>LGUwGv-wj^B|Kf{e^O<MRW9%L?d
zH+EW{t<Xe()zh0BUme$(bX;#0tdcTA!+>7jNkcZFriiXdw*ej|<+I8srl<ghmwk$+
zs}+>edaWkmdsBLCquOJ+9OEcGQ>5aO7dXR@qFFSyYiEnWSv6#ijzVswr_v>RB&uca
z5z4>S`g`&frdZo%lba3^8eG1F)_XTZ@wMQ09#VXfOGEH&>~5CWYUr9IAH@dWWpL`+
zcF;*dRK~g|3j%p*RC=pMlU&wD@>w9<!|<!CwJqS66USwEO3^8*W@}TZWhHE|M*GGb
zcKjh>)M_0608TPaQ>y7?sB@oVd#i4d(O)G{E{vP-hXmL;QKsnURMfGs7d?luzYASe
z6?9M+<?m?X`1+!{b3|=4ZE<GPWuuZ9T?X3^st*iU-#n3*>3*V`37r*a+a~Le3hSzA
zq1H6xT~8xK@eBKVj|(x?I!oS5>CK(w9H9C@R?*h6l`_5b<k`)?Wy?6z(a|5<VSP0%
zWi*1Oc*ud~*ITVVk~-;xuvyJ;_hb914Fx2T1~IKP@^N9oLr@8HO3@LM_<g>KCkl3l
zjITw@w78*jL)Z=YDdLs}-HvG5ab;#Ef~JTP;hqnLmDjZysiSz0FJ?!|Ny*Ugifn^b
z(4l=rp2nQrr6hVZ4vOY6xOY_X^+|gV<}M^@!r|4?hh^CA0^<2HC!?jtEo`!rr>W+c
zNLVnGXfVd`_BEi6=^)o4ENj~(+U$g~>y3@Oq`*E=c``9#qv*WSStMjJ?z?*{X{h6M
zq#W60=ym7~fpE_X)a!BjLhiz>d9)+onV{2lO?KP~8Z5HCX66W`WR}K3`X)bKWKS+*
zwzzk{DubzYcr_{+A#}SXKkc8D(S~x2m7*CV87&xHdT-<1j<v@tJy9XOw^%ER_RR0$
zR4}q$>Xt~J+OJAhkblbbB`Y};J(AH$RLX|1?y=!|Mv)_>qG6rB;4De-vKnj*dq&}r
z!CLJSX3ZIdk9ffOQ{!l*(Mi;_ZH=a8GVzm=J1Xv%)m^6Q43K6rbDl!D>PODT$x6oi
zNXQ{&G%86Yt9%dK0XRLtS`y;+3gl|K<3f(TgHzL*3~~>9M`E)Y9URn^06H?*&ycsB
zFzI7y(<?4d@}ABJ{YyrR&~pnzUHqjpsR7#2O$MOKXElQ@b8O`vuRT3|1F2$o6Il9A
zJ-!N{*4+A1_B#%0tB$?SdtM2<Y@njiRU{7iD=F$-4U1%9v%C~-O(jKT5s~e^hH#FR
z@YPhZM>GdHy!@+;HGz$D9?(ODh*wgyMaG$f(;<pEokd*D^wQ$z`A?N${{W@g2rP_^
z*1Hd91$D0I?229OBh!9C0Y^_)B|ST1dEe>&pEgN9v@}6_cCp%Yzn7_L+j}{sTXh{1
z8%QfCtmZsi+p>pMrKZ*?8&^g{Dxz)P&+1iC)>YHP=sSC(<7pf!LyY504Y<2SG<9Yw
zpL49Qnpss$+2J3=XwAE-sWg*UA(@2On~)WbmlTwS+=0kbls%P$Y`V}Z?k{b&HX&Ti
zs5R{j-JZo~9~g}OVk`ra6m<20^6exGr;D;ujXi{G5}5<t9rw4Nm5<aarj5kdhLy50
z7n}E0+NPA*VkLv!+*xY}6DdPn$y{Nm2Wyq>28eL@!7V&nxKy=zMA13U4LiP8x1x13
z?WU+6@Nso4jmK!NG@GVY)ag~!@(C%+jBfo+2ZS9-tEQcmEe;Q7H}1V?QL|yHWP6)$
zdu_^eeLbe?O#T~N?(@i8?sitF%TQ{p)iie9*K<d^;ag}rpQQnYcifH-kf79hDyvVK
z($P4J{-$;+t+W-i^#PJxwZ|U{_+ps3r0AQfrH)hUMgTUmt>I+qC2N{PtTTn6)%QcX
zDMgLB@)ZN<W}N#PcHciMvACt9iKhE0>p^vh#f}`k3#H7Og&b{#;8aG;f7}Ah$wV6$
zp!VmnR$UzVG~GxCxP~4L*F2r{Rw<-!bX`_Pe-1{vIhlt7uj%@M@HviSj(Jq|RPk08
z)xvhp8}GOC1zAxqr*iMp+;~|tG_17zL57o6q#B$Btg4J%*8XLT4Q{EYuwP`c9DEfn
zx2V1fXKi(wMS<|L)S9c|pL<W&<s>8flyCJk^wLcZ*ykr5(3<dx@%om(l_f=VRdh^y
z9qt0fQpsBF&Vo`lo(k;v)mhK-HUkcz>Kcvg%P)|xS*pcT6JEkM-D5R&x+zIvC52bT
zUp*zu3#_K#6*kXWqN^-s<~rVNRcBPn$>`qj?6;BNtgeaFw{FRKL~1oIk)*KPJCwEP
zqLpm~bl#;rGda;Z?gMMt+3oOEokp7lR1U781OjaM!2JipsL*K3YS}wQ{{X0Y3(zPu
z;ZDI-O5M>&KZxEzT=Ho>7mC01VV)|fKy{AM!<CgjtlFwyLUIGZ!CE@qJ}Acht#lF#
zeG1F!`WxxNmJ@cnAhll(e@upKRnbmiWn|BU$!P(`QGGW0&YjmHo><Fl;BGuBwz1!t
z_c+Gzd0vszOr_TJ{{YL?HHM-wV0@{05@TY5_IqZVEL!(VvQ`lH7F>LV<XvT_Mjs?@
zXls~oPa$hR4z*c2dVlol!FqCik34-7zZLYR%}#X+E(qLgx$#P*JfL{<slhI7fN>a9
zlCkvF7H}XFgW+9NJ^S|$<=}*}M-6Q`1X$Z6!tZitKN=3{U0w7wEOUu#Pb13P)Ynqg
zKq??}Z*Ox)W#r+{h`JY(cHxfrPo&kVDJBgsA*TvCA<LqXe`fBcQ6=q_NnSTyj`q8;
zU8m~IbH@97xkYMlHh6@w=ebdiDk;dyY7~<P63|KSWoMznXJ`}tn{bSzo*2%_K)CXb
zr=(`x@Ee2L{3=Pfsx(q;eK<6a_BQPJ3hJ6@=4G90eRx4fVHVOp3JzIKE1c`uxi-4y
z+>5$J<3m|g))xQ|8Rc0yv9dkvHgNE~*HzbMknCfK1A;phf6|>t9b_Vkt--U5HRR#w
zI7uOSCiY*))Ur~_=%)8ZMV`lZ3qP(=(mGdH>8}C_4a{KvlCE`KJ}QVq!5*OQ7In~i
zPjf-rep~+lD&8wZ^TxIS^5S+sj>RNWz9*R6euWn_B)4O}prN*UgVKH+KS}IYb5?UF
zM6kbOw~Vy@pr)P%OA&hx=8?j#d6olbiviEVnwq81J9|#}&meY6(>3o!e36*mS>FEu
zx{cRsgPJkjURFU3TtZl^4>&-@2>lP_e{>QXkTo>VYxl=-ZfvghN2pVo2GKi5?yDV7
z>BtOtQo#2`F?%i#cBWvmXd`hXIAgkWl<h4qXFe3Jv*HuO$o)Y*k^0trM2GkZTd=At
zi@%lW)aLRS-In~KXNT2|&bHT&)Y~BA{{V2c#@-RF0gsZHG4Afu;YA}1W84X8;P^+=
z5L>b4=dtpi>9STBo-^5N^lAX7d!u!a9z3aJe9Rl6apL8vl@ziuzTAP3lA2OLYmKen
z!VOqcXoSl7UL=3D?f&XnS?k6g(`UDWrm28Gkz?`QMNa2NOJ9TM%4Piu?2Uo4g2@G>
z;QXXvF&|CYVNb1qya{7Adw5NReqtvF;oxK}=*f(HJ5Q+GwaQ`|_5ux$Awx{_6U<W_
zc2m8fxo$$;Xe^Qm9@h=0Y=bI#s2f=y<{%p<X#OJy^L&LA4G#eD;lWZmU5?&8uWxbZ
z$_~tuD(W0=2_E6WQ$Z_EZ_gvjBBV!9;@}6WMaxGH`5!1LB5=87{zBb?hszsAK)ZX7
z2x(eD+%89AiG|k|aLtrbFvfQbwDK0Pi%lRe4LqC!<rL>WF}0xD+;~;a_PcXM!ZMz6
z;NMX5!C9DZtmE)P=8-g)w$~0qDtcDQV;I`+@`TvtJ3iNim{LJZXnQs|obXWdvGE*&
z;pf7VH|J}wbt|2A?L2lxY**L|hWn9V;n_x7K@M%MJ1M4y#J)S@kfJUG1KkrQg^U?l
zc8i|jM&ceeJY;t&Se!$HfwRABsVW#}jJPvwgP)Z*raswUBV7?7fI^J44|Z&Oj>v*8
z3miV53Nv`!XMU2Jgd!v9{{WQ7Fc$M=Guj$2%MbQQN6_DbJFQ<vA%<7P`(KXg_Jdb;
z(AT>vmGSPu<wEv3gOh&6PFU3Y9y4+1(NtHB`=fP_`Bl1wVUTVZdriRzILn*>c{{wM
zEwQtd{s{C_=ViW!sZ(l^8Va%m!wo083sR-5(k648a}PLG)fD%0XQy__SZ)Yfj-1r#
z^@@M=?L-FE0bt|Zb7aQxJ6#pWl}%KNBdEn$9i$_7Vpmg4_)g{=CUrK2KABSKVrlg6
zkTdsHkkm|A3tR~LE{tk3j)`Qry_eM!wsvIgb-7iOUv_Ze-9qnC{{W%ZDbUFM+hoZd
z)4~l1=9w#7xL(=rm7d>gxbl|33%4WuCv$6y{DoG8Ok?BPFMEQV({L}skOOXR-uPYV
z3jzrs{{Urz$e#^{;5b|y9qn*a<)Y5ZRBwy}al*i|2RC7{{XSDg+VB4Ir#7{Z3Kz7q
z7svQnGf?(`M}oNAkLe?V6Iw5C_)g9@U?XC*16IQRaO-jq0(l{R*WTV$)RBXIz<rf{
zR0Lte+t{UXMI$jInU5B6!R`?eIm~v~40bB3(Q_PZaot+!&l`O?1>61+N`T#j#PZ*e
zj-;r34iZH22<(G&4vcPZxrf45k`2cmQKZGTnWv)GnDQGpwcYRC8BtF~T@Bk}?}eI$
z(Mul52GeX69FtVhy6kzkV|51#=;(~?e#G@uQb8$b2HlcU)XhaWdoDbK-AfL&9PRY#
zTW9uie7=;z*uS3$#&@Y2SpCJ8tbI161;vBMEmYN%@>0vamuS8U9p1GxyPD$D*o7pu
zl@D!+4;IKFI*oPFIZM+Dpw?^Y9lj|G+ufw)7X4NVr*C@$N&REGqHD$OE(&lSp}TPJ
z0cm4Q5y;|RKAnZT;um4%3icSD9KmvXfP$v3nip*j$8et|S#Ts=d?<W!Oux$+BdXzS
zgVu!lb2qYqjE=kbZyuFXbCYe~MJ#U;Ut_G{*r&l9RiDC@!YP6FKjmizjHHWg2dJc`
zhy5>F9<4V4&OYXRf}5>I`d50;$|j|LTJUf7RQ2ry{!>wDj!qdbXCbMo>a^f#<sPjw
z`yU?)4m-47Gon3GsFvJhcT~~TUDhX)kA-1h9C91N^RSE9_EfbHNgM7sT^QA(IT^Ci
zwb|ffVV%ZEzm?s>wwAGykoHSwTiWi&>acosL9k=;R*O&ETeOd9O!1;hMxKXOZM`Y|
zvJU-<eDy#-csD)O1eEfS8vB_0JHm8Mo(2fzE_`3g?%^xP^fxDFk_zTb-Hsv5;WAj{
zYk*^cjPMmTG=Z`QG~WE#U(t~)c5faO<pj1;Gb}WUsUQKQ+;;@4qGFkw*fOYLh_sI#
zm8An@Zb2y=LdVNZ9EaY{d!%J37y}Byj4yAwNgQA%;+U>QJhX2I{?eoLB#2<+!CC<r
z;19Bfcmd#Ymw<U$K_gyUXR_@+6fS|TU~H}38Q}O=5<pqo39X5iBWU_9#5QMV(ptv}
zBKErYBf2V<Nee_(3?~-Pb#mClMXiqEG4RIY!Yx^pnkuA-!0%QsdpnN`c1^lF?aCm=
z=$u>*JEr<gKIT|?33!dB4A`QT_IS_AhO&k?G>yO66j^5*^VvK+aQ^_YO=7jZ82wXC
z8TR0;y?q1VB!=C${g<fLK*H0DtnR5rYmf<H<OI=XlC)r+(fVEA38sPJ!ST3*+RE2Z
zrj9u`HqL41;WnDrAXv3mt)fX=rb(vMO9QiSoA6eK0S#Op&^XI{Do4f(Zq+p$l0fkG
zlk^2m#ZRHXXc6k#JKK37KV?$SR-Qn8&9dB6RYOx9pR`He<yLC65jyW+w~(F=oiQZu
zXsn93O2FBFbdtsg@gjAP*OWZe?u^}{<K=WNAmHD~RpG4(@_mE`vUZj@0OTb_Hq0Ie
zbt8j^y@&q*g)DNqO9?G|bLA^d56LpNT2kSHZP<dOrmCu@vn6pX?Ba5YdkY<Kap62R
zIU}`&{!+=R*vT;JJ!(K39Z&Hi?Ip54sP|12mUZxWa9P$wV|9jDc?gKu_+7dulOJ}d
z$_unwGNR~56wR}q2ZD!^npjB<b;2Gw!^N&I@}`QR?HN0p^;4#b2`=IV#gCOG4zE#2
z;K!S{%8<)|T+rd>$a$h`+kVHCQ(nby(Xi7sc2vYRyx+r-Q_2V=tOO5zESsZwvb2X<
z+|9Bcd)*fwp>OQImRO!_>sr=TmDKn5M(#81C|6do=Hb@+s3xp)a@S#GgJ_PW*7i)(
z@IoHWCm9JRtP%no?5LSi*v0<<Q&XivFs9T=7bMvaSqo%7y)3&V8Ml<Lost8zp&m;l
z+}ni8DTotGsYv&FH7&FI6kHXO#_?<0%C8}kk9f~wrGer<WT$g`9|;^QXrhzpnn)%U
z5sRO7u!pXtGe%qekT6JE1&zm*XG1ehn;;|}>U8}D#K~$Jbg)QET6W(d2^rdP`z_6T
zBQ3Y;YRqahKIc9G-?He(k@U#R7!hc9xuiA2x-OEiv-or5c~#buCz3%4?UAxH17KG|
zm7MN0URkdJ%|6n&8ykzN+G(E)fW5-9jqH`TYqM?>`WDF<I3mvn;Y!d0aeE=0%o}mt
zIvER1t}S#ZAuVxkFL0bjG5aQA);9?Qt$oQ_3w9~D2fAkWG~}rrvCZ&&D2@($qGD!9
z2u?1~gfl_0wXUAm5-fPS#s~yBCXt^CE0*5L;rF%95a<+0(tn!VB@VyJj`;W~GC1eq
z5K$ojiwoT`*R}g3Ylz7S#>cY3=-_U4l(ryV{{UqjtS%RNgbd^@MkZ^mf~9NjMetDj
zfg;5?8*qN;c4Be?1gMBy!hHNEZoxN28Ic?T*(N&>mB%LhD9Oi@bXksfwBMACBId~)
z;b0S7NIZnB#Fhke*)i?qG13<N_(&w&4UgFx&}>H&e|HP6G8Y~$Fn&@154*a^3`<_*
zW8pQ!7|o7T^M3p$5t48$dnYjoHXJ7h3v*<S2Ff#g<CTRZcevlR@SFE30U+m;x$+h<
z>J$`uOwzfMdPc_AHd=m~(`ca7UHMts);YNzSB2L}snRj>iJS<@C=C;?bxLa8rg<;N
zI8lsd)22L>TC{yLs%Ui7^ix#AT3pawh2b;)A=Xsu52S?JIOQ#|_$iZqChLx4soL`G
z!)W<f{WnXlHPTm@jpT81rYudT%?l|~J%)p=>L_Jx!Q0y_Tc&;}Q0)SD1{-%Pz_l$-
zSb%KJb6zo!spYS#n{Z(^JXj@`D4@miN7B{5i<&$PB+f9r=c>OMoipCbF!FDLyrfgq
zRJ8BijzI{$KT2cYz3ny!zjc;4Uc*(<uF*B!cc`nH9aQL8<ABp|-5=IkOnPKqtyIQI
zTraqlouSmD(jV%w&DoHt`lqPt`iiNsmpfx{7jjWaR*qYgo3aUKmRU<_qutu-!$Q)v
zV?VEFHK1PHtNw=5XyJvfstqKL7KX1_q@-h_h%umoFcQ8rYj#uAX>F>fYv&Ez(hcmJ
zJ1OayBWrNsVpVNsw&oIA>=3GI>*}g(*kh5z_W?=A=&EnoCZ@`G32-1A`)q)ItuSzG
zQWjqrJfy7B^~$Dy`7^_Okc5Xp)FXKHnpigrT`yg-i8gw_;4Y(9?x>Clq<iAAHa&{^
z5}?M|&evS8pZ@>}8xEVOG4naTqrlqb>@3u&{RchM3tr9_;c@557VLEvndBdc`jaa<
zrd>L%*Nuad*sm$-u`M-6q{1B;b(%*DXZVpN`rlBKb_g4ORySC2k~TLF8^H^w6>&o3
z{$X7=q&h(y(w)qA_FjXc%^sZHj3XV@Ur1^5O-Jc6&0+l{skOa6S~k0UfH-`n=TBtR
zTQtyX1*AXM01nqtYaL=KVmoBNjITDW)n6QCtdy5{x{FQIr_{-O^AOuyHtChf)Rx(8
zs&yWvtjg%2nC<UnoUNsJlm4N_#mADhdKQLRF>3%9X|`0=y)9DsA3N?#dlc#vFC#q+
z6u;@W5&r-gr;s@cUY>@dPuHocnCCh(ATN)x7f+)Nrj`Dv7H%w7ucWD|wGCd9H(9K6
zg~{Un62?5GMIx##p3wfHq|)?QW{rR~(SvUbJw^DJr9V+)Dg!`q+DRNCKN(?ugQUSs
z;fWYFIB-JnTAH6ypgVcxN?2mMDH&W%XX13t*1Fu(QrN{8>5;!G-$SSLAz{Ea%EUul
z>UTBv2hIDdx?ZD%pGwxdadMU1RRR9pnr@=i<c5RNjF9p>FFc{6tJFGzKUz1nk9Dqo
zsG9A3wz<BcX$^Ke;b<uOlS*t&v{sQyS9e3jMyTy!^&K}eVxHD*iyV7}mFmu|nx;Ll
zNcNjpkVp$#)J?4FS_qtBI~qNY8N$z1=x|3u89N5{;{I1eBQ&j|GvRcZ=I(scNs#w$
zJe9xvIML}Rm5rz%IpY^kj*CrgD2e-8;B9+yJgaRlN|nrGX-N-Z1QFd!BXZKwSVk*v
zX0-lCPIDLo8?f_bEoC%1+##_|w2^`hm1d{Wy3JiHE6q#p1)MhUvlYiu(B$;rD}}#H
zk}NWcO^)WCqFFaXpQd_-pHdSU9UJd*Z*Z+Tv#Dsc30Po+GC^YS1+uYPr&3l`#3PZ;
zE&|=qx_t(tQ7Ng~;txJ-sg5(0tVvRhnmt0b^TH%!&5LYos2v$|cR1hRtKp=&I&kB^
zb*|v58pgvr;g|FhY<w!p*JPu`m6cC)55q3g$yORw1iG7BOk=ce?`5ax?G~R=s1Z!f
z(C{zH^onkirKFBONrA2GhTlQgv&_0`PxQ&%r)m`6^!N73Y=y9|fsjx~SxvXlI3RKY
zvDG?aIVUr?1CAD3s9z?R35ZB`k!ur$IdhA$i;TJ*QC!FvW{vl7{Uu<!%U-Y5CuA}`
z!*A)bv5KZj-PF(r$nt+nLN1e|HCmYi<fC%{$hggwmntCAOw4H-Jw;@}lLuIl-Fk;b
z=&)&}rQmJ7?iFaDI&4fYWt=%SQp2jgN46M2C$ebDgT|iEMXIi%f}Fet40m2D_^GW@
zjX+CG_O-;=fVTRLB}=r!BjhII_Fgg7^b@+g`fYTVHaX!&Qc{%{T8)}bFQ+wqb5D+;
zjs#ne0W6&rT?<Q0j&u7q+^a9cZDUi?H1@$$7Wj?{{*bQe^_k_>ZphkL(|eGSxu;YJ
zD79?Q>3SZeLnKD3H#Lto1om6XQBy;w`mBk?j2Ceol=V91p5_W_veNlQf$&sRy5tcx
z?0u!Dkos}}FK?AO&9%^4qRT+5exTE}#q71*wNyZewy?AUIP$!gPU<1k`m5rEIrPED
z1a>89sQSvC^WFy?q+A1!vaA}efbX+ath4<)O*Ky=)5$IHzJBY;>8f>;E}AYLZsFkg
zTkfyx#=e4TMzon8(mCVhd9Hy8bz7<`M&jdv*d}V;f|^R7WWSM$I%w*pXx+nyj4xNB
z&~*Nx{3P`NZ{{E#*A80Y{{WTe)jD*#g#Q4RhU7oO^q<3xKBGs`Ds<_Kj8iuk?R1Va
zYS3bmXOoQ{dRUnx&c5M%DH{Q}EF=$wwd$H?>DpW4Fc+4awZwK=C?<+{43W44{{Skn
zm!eaJY&Mp1AlULrwZ6y?%Qm7%MSpGAGC`c#Ei9q3mmBT!iqj|P^$v&7Y0jM1#zDpY
zipsiyw1@PIABB$Texx)-u^D~54E9<{x{{W9cd}Q3j1s%z(^hi3Pi8l-wl%xkVB^SH
z9+M23w&aV4T^ZM!(<Cq2```4c4x64xTkEy1BKJ02lYg;%eQfud37~G6*T!4w2H1eJ
z`i8Vx$rxTOb&-pxWNaIExLfARi&xg%`5ZyL`S7PH4x(D?I=1M|pT`Rot!jRxo3~u|
zP}k}%d3U&#Ls0o1`@0w6C0iS!+e4~9oxT0H%G=QIaA+i!_BL3J2951;b*?XQb?IFx
z6ncY2Che{U#P~u@A>(gEGqz^R*9crd&f&tcW`$o}NNX7w5rJ|on|WHgZ46Vy8!6r|
zaBQvg$J5aVx<U+Y!<vUbNG>(mn(1oly&j$Ly`)7ju^xVib5QDMxy^U#aU}OwTD$2g
zcg0Rx1Aj-tpH0!J^(`Ini#Dd$Y3@p8f>PKXWdfF~UTbvs2ROKqgLQ(RRFZ0k2fpfF
zpo3A<wFxL{80PIg)daM)515FFbI)XWP<~ZZORLvL=u3BHRB6?+`rpD1aR;(lwA#1V
zx}JNr&B+UK(S1Enak?>ga!RBi<U(_!9a{xeTerEpZ_2#r%_53nBoa4mLCX)7tLkkM
z8Y*!s1)5eOO+)gPJL%j*+HMLHjcCxHv|YXIj<?aAS<E|Jy%VIW>EhT6+h7KKuOg?^
zCDkhn=FEiT+RI~4LtPC4o(;vLAcCUc=(?J-*yq(Ln@Be}3}E?Qf7Lxr1v}oxNqg~S
zldkG2w$hf8=U6H#8cLmZq_cTzott@F)57K1(HxPA7h38$=X09JW9qV10=l-M-jswM
z_FDZbMEt(8VybWHHamj#%{M^PCDZQ8ctLZ0uD1nbp^b|vxt<lF>2*{!ZJ%wLe68Cl
ziz%SgckGdlyKV5L>WC@y=^P$IV>tR04v$q1r5w6@B?eZsmJ9NpIXSHhC@5{0+Rmw_
zY8q5i9MzF)0OLR$zkIB1ZEWnbUhFj5%Bl4=aaKtK+U5w~w;@=*AIw3#d!9QhMbaeV
z+X&HEYwQ02Ecfi(F59BDnt#cYP6gR~qq<W<byXv(noBApH~~Y|RXf-i_HCSCgd27=
z6jEb)Ql2>KLs&r|-~RxG?ENQM6B^J+4rs#hZkPfFZZ5ol+!eIxy1I&;LA3EZZTqg6
zPP;ksM*2NVU7)AbsGU^}grs|#JN&N->ejj{>1pM-vAb@)mZCbkI%c@J-={X=d2d=#
zzfh_&F{DTj?wcgy!3Z-3DWt2B)XjCBVn_ZJzemtAdTFTK(Aubvw;6Jlk4mhHp|t`s
zUe^L_IbMOMbmb&6Q|j>-Hc~y~vgFApXG~&|k~C7mv)7HxeeK5~6xx}o8R{{vA0ceD
zifF5&E@*2@Mm`k_83`tyVB0$vPX)<n(wdK>%evaKZBJ3&J+hK6d#k+#)15SL1WLi5
zls{DIf0fp6%Ws3&g}dm8bo%NK$xhaZhFE;6<A?tMq%vgx0PypDd`S5{P%i8Hg0RwP
zrF}apBW0Z4-PO-oXcFnQPMNK7grC_1)0Od4&*{oW(~PNRQjW@Elx~@OqgNPYiR_bO
z*lre|uC)q%U#I^7FxQ6F!q0HOE6#P7{#v2(Q%D~fHv|<~Rj(Q7Ulfv-I5!8+)mI)%
zi7c4fmW=kVUo)g|<xop3lDPX#uC1VHo>E_no=Vwt&rMM3kUl3LPGT<`t%6XDdAc?6
z?4kTNs&x*m42>>|OgLR`x{iVuJ+njr5^$)s9-f;*orXr8r!8<8D&BoXwfaL?+X-U9
z7thsm<%^80>c=G26_oQyLr`g|&+uMtp32zttToWKYAIUgxaP=BdWE%GELD(_`54=~
z;Z}5Zw>FJdH#zdbBeKKUPvmk#yh;xJ7Zm+HHicarvSugbp9OlCN$OF;TGMU4ilKDW
zy1gNci(Gz_$WmyKx)yp;6YV%YRdKf@OD7oY^lF)@T-MY^2JZg=DX*56s+Gn)wzY`x
zv3iE3ED_y@+iMkvuIoC@H&U}s=-h2&T746XPi600n4&KhA4TSqYT}xpXW9;ai(9YN
z$*I#ebA83PE6uffX-uvGt^l6u5b@-s%RI5I8o6W@ZH`A>?6<f6)Gc<JUe?ILf1)3z
zq>@M*O!7m97Q0TRk+u$LEhClCqSlGFp2}?(ryo$}ytCSJR{sE}dU7gKAG8C{3qjMm
zL~NvE!&+~gBkNloBqi7$63T8pnMFvfuG>iocV&pxdZY4HMm^rbj_UrPV`=1If4bgR
zlIj(Ytd!pQDKW}YV@X9LaaGiAe2sfgu>7md3ZkB<wEBZQFFBxv&!!Q)n~oKQB(u|I
zCzg@OMp$lEG&6BjdUYRAN2R(-YRCTo4E~aP6eV|13YRs-!NUI2b?1FYs7YC;?{l0b
zV95whmYSwl13ab7{!o%$Je$)V8KSn)>(n~i+`${9vuvcSt*3lMyn;`4g^GDu?Y?}W
zYc-mfBQ2By0-XGL)`~|wF4=!s3>6aZir6T9OG9+D-nBGtdA4oYWvF$^fjf>%Z*Ui)
zbS|?T(uitW3mxS*kK;7zK=M3@wP?m^wKY^TdNl#TpyK0#v=UZR>Xb**arK#k7N@Ct
zcABAvXqwOtM%CupgJ;sK9O$q{4}!Wfc-6C(8TL&bU!hazNJ!2N){c_AIhH4N#ftN)
ztwqyRI!UnNabd!@(sc&8frY~M<wd6g+Q?m2*FFhIdx>rFl}V^q8GY>+7rqlKs+%VG
z$;bFXv=M=u{{VFHk1dMd9U6x0)u~{6>?Di^liY<pc8tm4X$%4E7<IC#^f6Hkn}bPd
z<XK<Cs202UgyXSBP-*rRHCrn*>R-#aws3x_MQf-lnJ738AAGGAlT}4rC8BT}pZXv3
z;bQu<O{YrwdDwB5xpXKs8#&yS(Yn_tzcWhOsDLDmz>eq*A5Ev9WlLHEnsfD5pNIAF
zYaJ;BMc>2>+4mjRRr<X8KC>kxtSuYJKlxmaKe5uC!p-zLd@@AW5Co0OPlOh`Q7d39
zb+@!&j_L|sZZiu>a3GFTH7Ofcr#e<0&Nty*Qbb+8&oJvPNX;NSz1Ox7x-2hjt#qK+
z*%7Gd(mt`$yb{+Od@H>Ug|fmTkOs)l(|+k`EsfrZYqasQ8R_@~Hu9#1vt)K4mk#KP
zSw%fbrj&b0Lsi5DS!our<I1w)(Klc^o}l-@=+76z&r4cZ>pkAy#a`-AvPO{G18fDA
zu7+7J7H*NG6wP-@Ir7!8LT+BRRoyoeqx{2JZQ}07b>|%qQ0iKyG3RWJHw)Rc>gcMd
z_TwWcan^>6uWZBr0H!vcQuyq9IB|6>v~V-{xY~cRH>e&c9$pR!!pLfR!Ly59X7>sb
z<!4+}R>jq-n@k)U?`h>`r_^>5_P7EQH9bU3!)IR|)e9q<rRQNkM9@yjWRg7}r*#8c
zP6*AGhfjxe&6(}o-r;8Y5`p58t^&kz7V3s3FowKYjvumoiikykbuNz_z*a!PVm;!^
zEe@PnR39DMLAWEb^tj^@w8tO@A~04qx>%|8<4!Er6Lzi{O{Yg@B&FG@(Q01mMz&V%
zb*xAHu87S|UMGtFpYt$x`Bpkz8*8-tGQvPTq$<ZvH8o+TorE}WPjxs;WhW2T&6Ndg
z6>zpW8ZT>tRCDO`l`k%6ZTpW18c4(8X|WjOA?md`bonkxHs|QO@$vL=O2+jUM7L6;
zb7LOn<)kk@rKO)suXdkb7-0w6@-SDhbpHTQ!z+L;ZqloN5Oi8iQUf#~Zvyy6cDe*z
zx@VSaG|bvd0Q(*lVXJH)HQ;XYi>a!8Jnqx#m_(d4-c?woboCyL<cD7cN-yZEi=$7Y
z>kkdLslc!)Dzz6m&vCcAkg5#@MJ0p5u^2v7exsNi*IbgiQaRn&-AZuy%L%(Ycv+g5
z+}W=g#nt?fx<hlpLQP0JEyO(m$0VjQBY6(CLWVX^Q7dDRk#lRJWsF5<0&WzPbuqly
z*f@DbwvZH4b`>^>GhlBo9NyPeHTqC3Br?aivfgyQp$_)bRN2iq1gmXtL8h87%tFvE
zKXkBieUCV#c!Q}Q1wbGhEB!BYtqcG=wo&@-o++Pl%dnnp!mg%xiT91c9FcS^B)yuR
zorsCU95$`yl;=}{8;7yoyDvS^^%!K7M)CxMy4=xJwt8U0VCL{w9HQGg)RIKivcVf(
z(_<OIZ-t+de@s3MIx<fo6Rx&H33PWa1A*OVBds#r5JQ{DPl-QbO{Rc#h#S4e+g;fC
zQgo)GV5k7UX$HXE6R1QhDadKF#}-tuQON{^n}gk6aO8-_Ni)`H^;W(HnLvM%7KrN5
z)ag#8bA!MaVJpeBS?3WJhw+OPOnT(nbI6cxgz`JCSC7%q-Ry?7)bVO_)7Wezk$%@y
zHImOsTEfD16Knh;dYZPC@`~6VGE{nfOf_w5WFU{_y6nc&j?P)8o{40DRF=xp1^G^@
z(@*8Y!)~I2Uq+?za4*SMR5c8HL{c1fLtPG+vohC73&1xS?p5ZOs%&qkE<wT@U8HDh
zp3Xjsn@<j@suaQdUVl%@MA~%5aZOq@)imv@f2jk2C*>_2O-`KRY60}`Yn~N6Gt_DI
zW*OS%=f8EUqWr$4N?9Ol+Tmi<TvW6z(Hwfj4jTal$AX5MU(6C*>)W!Y)--yJCVyt<
z!0*uE*#gSx81or--AWkgm6YuV*TB-^=6%&AVSFwRW6NCAa6#c%nzOW%lBqQsjqk$g
zX;IB>vtglii{*i^RG;EA7xJy&RUK13b`f#P^IA$-Bqi}5qS|!TH1bn9gb?d4b&fH1
ziz&G(WxJl)Bk*j5ow@%2l(DhwZpQ)$E2JX!b=OVV7p)ACi5LU2ZEN`oIAZj#w<Ez*
znAkwI!fV5#XmJ;5{>Y{)BZgl=<TLc1T8eXHm7&ZTQ3wRAbJ#t@$8`)6hP~0rgV_dx
znjbJA*pA60ZsvmCZOW0-0yew9bp`!0E^tu?WVBMgGDn;d<rN5fCv24DXCwq1&DhZU
zV2(nbmRCmRxu+w7m4#?NsD5V7jhiMMkLp!YLB01jYsVM=01H7*=&IYjyIWBoBa8hI
zTAWsCoHsZ3j|o$u+O$^0cHNQ-5y9}E>N(>)x4K6;vW(>Rca;;QbaH|QM`PVOp+cE9
z@p3Xb3A0iOBXvbKNAnK_Le~igs~7(Oq~8Te6w*_>)`N$BwxVk~89kyWpP^238bJ~;
zeS9a#*k&SVLANh&aq^Z{7P8|l>{6Hs;z(U%?qT4lqz7<&EF3vg`k-BzEIxY`1o6A|
zG=e!y0!M*S7U5v=${q<^$8B)GWU;u10u7IZ=eKa)8iPS(?RMsp(_{Wrv5@wbKMw5W
zTX)3Z=8{@bag!r%4p1{XMix58_6PP#z$7KNvyTU{Q9fH8k2vgCL<RSM&kF*Dnlj$j
zAvL#iNC2N95ciTU?4HNUj^;T8v5Szf%V4udZZ4ll<_SGHK-zF_jFqjakJg6Y_p`V`
zJOS-^xa@m`7(=8cn!(O4hnBy>Swkje$@d-)kc6k3)BYT!J~Q8y(g8~Au$RQ{Gr~nD
zbjOr6Xjeu9#^Y;uT{~oeZZ6!%ckojT?KeDx=;kc;JKYfqgjoZodmqkw6tCGMcQ@Mc
z$g-MxR=O}_v1dO-G+TrAAJjPc35<rhqzsG{Welx*eJM?y*!fZJYek;hwDLSC<%q^Z
z!MjfcC2GTA74S8~cMtxrKL`tNZqfzEBf_wzsSh5Mpb&T}I;wCTzB6R1)`IA)v19CV
zKgvuu87%(*2&cDrE**|VxJ+zC_h`WZP)DLSH*-@XAUrlfk14<yO`OtM-{Cm1ukY^c
ze5Gh9hf~o-I1RWCwh;P-43yr-<Q@u2dEWzt?~WDq6p+=&vS1t!b<H_T8^1?HRA!8g
z+{XY@{{Si~Ej=rXDkI3TR+`q9>Q`@TOX5BJD!8}9Ad)9og;dnzXpEN^Ow#Cjq<Xz6
z)3pEu>=wBhD>c+wEZSvLrirA)PJCG$*0Qj+cn_mj9&P<gO`}Z)vqtJlkQ+Nih;rh0
zhE}>d6qMsqJoY<0Z)Qirm~D8m!-sTsy`xlV6^GbNMBk1OKnX_RELU_UrmY;(TwODm
zT^X~0vYn(G5Cyxa;mP#g55Z1!Z;bG&Es_?wxf~?PKGXJ6K=AKlhy%}rrZUrXp%OO(
zhYzahVk{SKTBA1)1mN~6W=V6j<H`o?9!7h2436qB(0RHc%yUiHKE*`vGht)gAy?2-
zq9GA3_8j*4QV68Aq-}~E%wl&c(vGegn6^H_!{G+n86@-qSXwMeQA-&h++8100gT*S
zx5|Z}Ufq#QR~CxH3qikSBO%%@-sq_!vEI>tg%}n&7(dxiMomjGVA%2PK2)!SJKr7t
ziXDw303U#!*S<0=fA~r7LnmWE_gLWH1x@PiZ>1}KiSUT(92)!*dnqd@Wr4o&x-*dA
zi>VnlnO9Q-qW1y0hp<d!lC%#@lF{Vwi*a~n!=D8N()LJC8Oly2IeRQ=D@3Exm;!vM
z9SO;1NBBZV3uFRF+hg1*fOZbz3S@<CKE!h`f-FKtIJNdTBf6Y>#f}~2GEs{=7EVlS
zfOY=>sWg%eh)Zj8$6}mD@owuG49iaTouqMY=~({&P}#=M{{Shz=6w?$H*wFKp+UAD
zD%m_=k<_E!&KW0ms{KL=iaSLqGSeUS-|(Et8sV~Q6WEk(6-yYyPg2n}Gli^qZ^%)c
z7ihdD(MKyC7~PW7!i#6-9@fW_<6sK3tAIfv4Ljg@_MZVj>IX8@MoZg%-H?R_ZLnA<
zBy8k4g|7!7ttOPmFo5B4YbR-yRQ1elHF5OkXtZ<Np8?<bR!ygUD}yCy4j*uSiSh{!
z!>Q@PiojeheGzEj79WJ#T9F;fvWBKNi>_;FmP*QTMd_P>Hj=Dpp>%E!Wv%dvK8eZU
zOAw8jZHVr-F!7+eS29Ml5w-o*oD6G6xmCva#fZ1rNNd9|K_Mq2QFOy@I8NPu>WpeV
z!NK7_{X|$?rn6Ca(i5&YJ=H5UCSNBgsB5Emv31tu3JZH$;bMiBJ+34a<2y(yC%tAG
z8sUESDXqIxgPKC;5y4u<7;NG4hmaN=T~6m%;W6YmdHF$upjlkg$T#w$cY>y!x9*{~
z-g_kth{q6ixDwSBeK>SQ@#GaFpPXeo)B(0R1w2J&A6%euCP+XBxLN(O!zIBjcZKN{
z^v!TCj9&R!ZCZdEyfVdAOVEusv;j#_$wt>5uN{$Pj%W@7%Bhh*eZa^(tBpQQ)?}@?
zDP<lm(9xZ$VgT7d*!_}xcU}3JS^PO}Nb;qu)1SB0f!|LkP)vj}R@uY7xm1f%M5LM{
znWgXC4tt^Gi}{#r?+BNJ87e6T;db(>i4ZZsn|_ytBU%frMV<asZvp1~IjLiRxHaJ8
zg_stJ_L2)E7EwzCjJue34=Q`Ov~Tx#a%&#un>&R!6w5|#BrrYBHgNl*SmHUrNLUEm
z%U{AqzT(FvL8lX<6Xns*iPAdl8Te4TX<<7^$I2oZOfm;s2+3lGvNBizb*@p<><zWi
zT?J%~?{VQ16-!=j4m*pWDk)@z<bX&D2?2IvBs_Ro;uTD}k_JxF=-xr@5EDe^I@t(F
z>Su-F*CFHfD3@vic5IoYuIx}sNru#gYo!DLO_G@%ko)~oMC+ShDo|SMf-F@#C)S8V
zH;ec3r-`gB+D3oMd?B{CAx!9r0pJTD#)uQ3a|tZR$Cbk)-E?zp!>pCmUaM}~6YzqS
zb~BIA3odxT2}w4!%5;>oMRQ|sqKLdZ+Hia#*R(2sWYA9N&P~F&qMfd_zhy$^No-hz
z$ftZSxh@KPY@%kg#^(#SAo3JqnS+7PAqS=EAlq?QQ9e4B-L?+0M`&)!%B>z6xJis!
zKs&6)p{Gqs@*dI;Y%SPpqi`n{@7YOF6*X*TIm1J(f~g6#N^rBz87qUV>yN4~2@4MP
z@_9yUx+#J}ST{G2LZ)M%6NqrI9#>RknmMHgnR^VvPzCH%j%$Zts-cwa+zwThG{Q#g
zb_wp8FcL6^k!}$HgZ24PIh#h|kT^>lh0XavqY^j}Y@7|izbWmrfxjohW8-su!pGrY
z*vA45$M#En0o`+5bMD2LJ~41XN?~vb1M7v?Jl#cb3AeWY013c>YZZ)4#~Wwvoorlv
zlmWw)BMImCOkvi!&4OtqyjeBG<b(DJ82<q37e6ZikUs;;Nj=v9Sw`!dk#2CBT;M@i
z!j~52_ys+ZH1KkxcGn9VfSN2XZ?eW)3u}$;0$s<qWGf`akKZal>;Mq3(Dy#(*t%)s
zK2u!aTk~R=Tx^eE9P4J@QeOn~^-;OpF5EoX5Oyq?7CG{v1h&>ZsSWH!)J{0ILB0{N
zq)f+x&@W`5p~=YHY`by3EP<FyPqgQ@6I?7WU=(e6Cga8vx08aH#BMm_?xJxQ<xeKl
z+wP%rKloV+Fx;kG{{T__lk(GqmOcU|MYRO5YjVCfI5DruC`#^)WOZZFXgLPpc0=@x
zMTM>xHeQ7lR9=Hin%&?kV#K2KM<zozP1AJnHII?EKTcJ_Z8bF*8yeejjslXVra60$
zXu8X5nv{f?S#x|`c2;yvTPwQON=lkXwU+e;LZ;BE%#pCUru?h;Iy%0-2G+U6#(OD0
zEB>0&$F{^^E<C?T?8d0H(e$c0;&7FKJd70!sVM21TKhB%eHBF}wIwA+{{Ym{*->ly
z#Z5$y5t2dhR8(i^qidlxxuG>~h&%Xq!XA`I9Y76lw*)Hqsp{$;31hkBuS@8jm8aAx
z_sUC1uyVVX75g#{JN-({Hd>m82w(*6zyWHsf5V+;Rg6mOwWqfwXnJ#{==9A<aN*eA
z>(cbSVwQ?V!5c-b*>9dbA=Womd94rO7=gQ|W1r-ecT3RJ6c1+Vb_?)r-EZnTl8Ldq
zaTc=2YyDeEvEzFz+_yQpN0G>W71}Dgjg)j0vR#c1VDJ}-^*>cR^HNi?Fl=rJ94(%`
zs@3&Aq4`=3)^V|Quob?E_&porWld)39^rCamKZPgkY$xeOS8<nYQI;hnXieD+R_L;
z!t|Q4snY2!uY8Vpd9<wYe(PI7(e%1pWwAohY#b>nDWf$10G4w-z7U)vdP1y^v&pLZ
zeydTe{KT(uYySY4^JUeYGf7Iv#P_sF*6wZp0GWD_q^FIBHvrH$D;w2Rw6&848H{fp
z*0>%LIW<bmsqLBGm)9bpifVZ<9hN)7wx!Y?)ink)Sm?!#h$uZLr6PM}Z9~JHJ=eY!
z){7ik9Glr7u*k~jSe5dzUQJRcE58e>wED3tr!z$3f_Vi2sX%ns7#iZ&H<R$Udf!&D
z^e>NbcZ1-sGS%y5)pZ87g~j|EcL}81V#eQPwKl3~V;fu@aeLn=O;@Yu^d83E?jBZy
zNa(>+rv7GEd&RI))bynUFdtEZ<L;lev06!<X-!>KTUU0q+Z^nz?@iAfW;mTErs0;K
z2ePc1il0xJ;i0%U7*)EBUeHWV_jm;e$)}-`Hva&Moo7|4=(L($b3vAu4VTF5ypfYW
zN$kK)&t-ia6*}Vqd&`S?@)LCJ3ZkB8pGERG8~_$=Nru{u7J3yd9*A{iuWkx|`WrP3
zK$>%QUmHrKe6<yIzm#K)Kpl?91#I-UNz!wesx0<P7;|27sHY32MaFArhgIlzjWo{C
zHvxm)XB(sk)5k1k(nRY$x8-Ve4!UfxIt`%Tg0l4W&XZDe!Lwh;9#Z6zTSH?~eV&cc
znzU3@jii~4a|q;)>YuJ>j!8r5m^SzUE|&`&*2}y!gL@Oo*XdOnMNK%0rLej2pXLK0
zRt-&Tl%U}Bc)Y)vbf6fV0r=&52S?R5nmAoCXxiWn`5|s))4F;{Z|Kty;bUMhyo;);
z4HmTeN?8Ni*ZWIN@TZd$S4DATK82rGpm$9MLf{<cuLbMbrkbhy{{Y(rfV90LYh6zh
zYMkQ<Il9jNEtb+%T0e7T7`I}lC^S|xy%ahPC+6y+e9gOWk>z@<bozY`p4nq#K-qG<
z<D<mKPcjzWz+ib=s(llv^@=+~8{=ndl}vhCBR#UKsI`_hGRWU;r03yeY3f~5P+aGG
zL0anGfz<ssI%y<v9DuW0mYx2R^9!yGuBRuxjYpyMYuiW}C~!P2g=bN<tY{9n@Vtko
z^`}El*rg)fk91XTuIFMqk?@n1G15=7(CYfGHpWAo4~3Agim$76XsKyh=EhB=e_*Jn
zOxl%Lr?D3~Ui<iG({xl+aY`D{ZIkomGE24zK0O5f9R3>V^c2kXA#Upfz0Jv5eQ!yj
z)8h^e7U5pOP{^U$#}8=5mMgBhfu4)tbAwAyC{HCJVFu4H{8Or;f+>R>7}pDcJ1;o=
zKI$q*bqJ=Y&i?>lC$a3J{8-mtHB+JwyKHQ;e}`~IQK+@jH1FMT{{RYU+HI9-Do3*G
zdaEL9=%X9E6X8&e8X24>b%PzrLsuV5S1f#l-MMi+&^21*l>4do;BYRff-#D=E?G(G
z8fhb>r=#@X0J);Z_R7u8thS!0#~TIm6+88M$!86SIN!p9^3@V*Y??-Gzi;_ZHi^YZ
z)6&t)sLt8DjN0mYnI(d(eqEQ`Hodm~>H2%*hG@h$7ZxsB{*KXLmsD__rQ3zt;u6Lj
z-3=*mTQV|fW?inDGF()nM{^?*uzwM~hlS|<L8sDE(-y`Ds@^cO)Ri>wN?keH*S5pp
zs=RSXUy+_`sp+r$)1Ler--X(JDSVqE86_Fl8nq*3k<mWVFxtpohScDGpwl?^y~Do?
zoUC?wM?>ggfwD{if1ic4o+iZ57|;jNSLuxOy*i3;3rMlDKDJ``_i$78imep-?w<vH
zE8&m;964T9tn^&Ec#@)p?=9{x%JoX>rnWoZg_+m&BMlUi4gktYH4&?pk1W|<V|lsU
z)3mi-^yM+Cqne7V*dE>SNPm^Xx7||1tAne(?QZ5cn}9KOtDu3^RKiGDLkYO}DE2~0
zCq-m>O=+i|W;((z)AFii)T(xviyU2hFHzGdSsekA#I&~3H^<7(OQ+IE`D6^Uw-N$H
zmQj^HhIr!RXv=ARF;S~jwps7C`M+hqe@;-*X*(i~qRr;Y4KlKtnW8q9-QE&)Oxm29
zcw{@98@q)`&sq`@ZJv3rHac0J81Pz8ZpyxziPf}n$s4`kT}4wtRr$v@a`z3{y7V5H
z(W#xLda>EkG-Mt~QIz<rWjHqJ9$5MrTsJiC&73X4MM0*L17&CzHw5-ueI}X+D{86T
zO=lM#NB2VNG>wJUb3xpFq$T+_9w2&s5P^ctyL+2(u5`*us2?7qO>o`&O}wf4agL^~
zgj6?l5{nhSk4P-1e2k0!o#0;>zhaBoqUd!#yH4#jt#G`y$nSMUTd29xZ)<D^BK#<-
zU9)!38sUt2Lum{W)XLd1T+%k(GD<4U<lCe=mS<GeHpGnZ7UM)@w7#78+hDM|drdx|
z=z+*My4A_8Fj9z%fOr-F_g&bsDmd~**<1Lc*efDsQ&`bBJoyXGA|e`~^5JhDR->z`
z>VpGc!9TLY>NPBi&U1mjLY(^ybc=mns*KGINddClHP-GttNkNWh8>=rt!3s_mCmSW
zYXKMGX?i-IuBoOO9gpQIeB2$B<IhIZs^)y!Sa^2kIAHiI$tnw*Q1EVYy<V!GT5UD-
z^0Cr3-?z%e{#G~EhZYN7#9Ni6l}YH!45F!mbi@vIL6M^8!u0-?uZ9R+Nmk$^dF1w4
z?Hfq+CH&xE5PWw@txU+|CNs1i$SDQH52~9DHm5UUv!QV%z87>gJxyJE-A49<PwqZQ
zR8?|GQCirXOPEc8T3&>ssM0mDFmWw@91nJswaE=;r>W>E=BJ9bj2BESWd8t_Uk0^b
zO$nxL+QY-I!CLJ{@{pH)UB07UH(SD?k_O$|+R?b&4+<|5eUx)N!>eV~YwP4SQb=RH
zvw)LDrm53simoRR_K-mx!rp5dO*LINw0pwOP{iiUXxujtc`4LXbb#f{u<c$7ZBNpx
ziK00kKZpmE+8SX^i(Oj7NWnyQjJJ@hYHH)BVQaY`D7g9rUmlAsFIQ%jQYCZk88&b#
zqpm7qt<?VjHA3CYkPbU4D(Z*T)P^?YYPwrZ{umPE9xvG#Kv~H>l(ce95NUHrve)#E
zpap9PuyyViYC23iOSZMRS>{xoF13>|VXn$EOQS`fP3V7<)^saM=I`5Ym5A3mdGJ=3
ze<(cp3a_I2n9@|l?@)eTe2lI3t6fD`N?ab&Hry4@l69tZLKo4IZl6mCY=NMM4BxVt
z$rMzt0F9tt*HqfBwMkASVUQ9pg@DyMs&;RQk{zb@0ZW^gL&_Dh*1xP8{Z0B^J9fzK
z9exlMwJ(Y8VUYTPWORx;+TC<k1{O4)O4(}kW++8d@<VLp)dt{|ob4$#Q0sLv&l6-j
zoYwH-q|)nZs9zM!aR-)^eFY>{1M;tFbZ<9r)mXPhEop)6!*bO{k*QdY3bb3vt--2k
zu4P+J;@pe>0CnYkM1Ln%_O;x8mFYBnIZ;zg3`B<y)AaDL-EpE+M^wOAS#fSVt30uq
zqAL@R`ZM&J_R!d+JDLx5cVDGNQwuAphUUC*J0F#urs?^lscz%#y7dl|(B`M1^xQWv
zjC?3d6MIKSJe+jQH9nOrjdsCjw>DZ1pR0Wv+QWj=a6+)v=%k^j6U5tG=iyY>J{Cx1
zX$>yTuiYY(iyBHYHM+*9O|9t$nxUbSG<#k00?PD#6Dunvf<tGq-rILlX<Mo#!?59%
zaiVFiq19Vd(d{QGa%FSZvtxpbFKPOB@~}7(Oj3TJcv$^+LHwlu0GNrs-Pc~aYT$h*
zrdU5s)+b%Aq%h43#h;KqtCw+hbtx$-2<aBXH8_!{-D^7KT-G#3H#Ccd=3O_dPaRZ|
zM<Hki&I@fdbEcs-zTi1s(VC1-3B}4qFH>vnhBq?(t!3x6bp~leoPSZcD?zO3QrAf%
z%ZrKN4=Ipz<w2(f?8|r-O0rw9{8Wv9NkImqp)dkHRtq?P%C6TmnrAcBjC-$QEQaZt
zik&K~G=d^HD6LOXXsj;{aAWXW*>}cqXy%k!dMH04=w2m@4rYF<PoioORMUq$mf^#?
z&Q(=xncEyJQT-J7rqrDSz-g0%<#T0Av|AHvv(Y+xUu7^5xx--`lrL24MeTcF_cV+U
zctGkJd4-z;NX3R0Wsa$3MD+8>O^ye`=XEzs=zprTXZ0Cnnz6<1C9gI&?4dei7~tSJ
z%Dk%5OPVSg2#)^aZV?euvGn#~+<O&O6#_Qq%23Bf&{*5slv`=NR(gO~m2CwPck*L{
zgiC0@F74PXx9pE*TI|bJ>F<&^vcwyH=x&_?3EfWoI2<iDrs$Xf1XwJ7vSfm#m9d;O
z=E+u=@_d$!jLi*zxRJWbvPcB&b7dJkBD7k_wF)M=$KFTon_T|@M&JyD(vY!>qNhsJ
zUj0zhmN>V_SBw(rb-|7#G#)}{N$WJw>oLbr&|4#bx$IWQuCx;RL0t<?oG);v&x;?2
zB*)S96P-jMl#&4DX8M{)>zL=p&>X3$>ZFS8lJ*>{8b-E49eab7)$%DLn}srknn;$;
zExAzC(mt4ASd5D;z@uo1uV}KS*USxy_}ry9swoE6(UNoBQz2_lxD17^>ADE#rf8kE
zln-e>7CtFGI^R$?1oFKTr79_E;1HLF$^3-&_)=e~SNjKPH0>^u8319nG2K+_@IDu~
z2H1{Oo~>IQFS*ui%)uU2PN}N4vIdetAll=?Sw2BZiV7(!MP=X*1RH`ptFEMNR=c6M
zbtAts5VM>)Dt1x6ib$uhd~$d2wR${EZrK}R4<TL?Y9ywUW-IWjrcFKHla%dqU66Za
zT7DvF#%)46$k~!N9C8ueXQBRG!&=i>?rvmjd#lX~qKjV9Be@1fvfm*1T+{B$<LZnJ
z3!MvE&`E2!_*xw;&WxDOSmX_Up86d`?`ia$?2iRrQ&Y4;Hk*PLif?00@zVyIOO5gt
z+YZS1RW;ONn&e_g&DMr_eKw86ZX6P`y7g$9BO^!-XCuf}zehg6w>GYCRoHd>qpRqh
zH9KD&{YK;;DzisvnnNRaJp3(omc}|F$uLO5j#k#ue0A)?R<=_ErLo@6)D>k9rCC$D
z;jV5nwY@<~*q-vs3-Yk@MCwgL)Qs7#c0!~l$XVm!!)xhZ6+>zv8(cZE(P^5@tfdYP
zv)U|Fnq?T&s7#{QXv(FYl3Hn=3vFZLkf|FMPPT(9^(i$MdNMlh&fk?yU!u<TJ7vYk
z_e0i5=w=QE!u`7yrs?YXdG<D;!@(r~0CgOV$7M0eOH9Vl^zCcj=-vsx1db9jOP^1#
z43&kXI>!sz^!f@X3jo4M<y3VZg$(hy@hfuIc~Xvl*rf3)4CqP-YINqlCXMa=Kr3xp
zj6%)L9hOU>b!Tan-<Or!EbC{w-|N#sKAzf$h#>x;J13l-5lG9oQU!*dQ)1o<#&uJS
zwIH<GKycuX*Xn&K43VF3@!e&$D$`Qk+lW4XRCw~(>C-)L@XJsil5A7E-UlbT&}({Z
zTAK^wvu9|yA$adaYcetHV~J~luwIQ8x?_p6Z?l4o;?vRCrD(9z<(38-YLG+61cgb|
z)oqQ$IA-2fmZE4ijWku$k?OQ&%K_9=nTFT?wqxoNDYo<l1?;DTS(bvRpHapqAK7j+
zZlGmupS7}XcHS49O-ku5Mp}C)DC(!vDuaWFVLkgVP6@dF#|}ohXwY>Rr&C&8D+b_j
zLP~l_>nVepe~TX;R8<qhSjNg81CJ<Zt3M|#&BIisg~y@elFdGsEj3*y<f=<VgY=TB
zwY@j;_d9S^O>KJwf@){;&yZDs*1t7L=~RBZTI;71O;aP0Q_)WIvBWr9$Z2E)H&W{7
zVRM^uJ1R+P!QiGfl2*zKNgvq+))}HNjM_#Vx8X}2<n78Tmrs`dq<8x%w%<b}kamqJ
zbbgzSjjkNDT7J1x6NNofuD}JZsOg~$W$Z_r_EOdQa#QVnn<EFc$idUIO>$IR>u;j3
zgobSnBR?z7wOV<o>Wf)&!fw*8;F?|J8{tb|0G=D|7Yfpnk<6mvW@+Y?l?;`>*Iw(<
zI%`uiurcHZjt`ZRk4}-z-RYHUqeUe=>~O`6)S5+A(YBUO?`R<Mv%0M-M9!8F8cu$y
z@sIVOwT9~|%I(HCd>s5O#TiMZMO8e&ox|Ek>I&+X3Tl?N;1?|YI|Q|a7Y4t$?Br}R
zOG!Anv}gMuq@yYtoRyb#I#7lmS_|6Q9u{L*4s%`|%GXosu|5#TIAmF7dYUFi?@^8$
zU6EprNT;+INu^B1R?0@`&NG0Yrqnth1<npW5fyrK<d{goc+dGvZ4{A$($WuPkyaTp
z+8LWWZcUy$rwW-{ID+JRZ*(0j4h*=*{39u0bd>?p4{{At*kagZGE__*41k<l>Z__W
zy6RcmQwv>oo3w?v>HRUaU|ek=VEI}RrNr3%DHsUvg`3f@(VL}$ldAMqvcf9(MttA@
z01A&vbykt88fvDNIi}V<)`w8jCDSz~Y8rXi_|8D#&G3oqN?LtaNRL>f7ke5vfy+;H
ziO|hh`l_fZs7qePxsD#@_a7m7&a+GTdY6dEEWO%Q&Yh`{Haz?xI)l=DZjqc@gd1^o
z1eF2l3~h4@0Un_2fYvnHnre;3rr%CbwAIg}u59odIj11-LiEil8ZM>Nn)uoQ4ag((
zm0oYQ1q5SyW|l|0dmFiq!@d`)^zN9)(loW8I^6kLN?k5Z7QDZfU)<j#%G&6)kp?uz
z;8^bqmTzUF9TnQfm`>+0mV0?w*<!oPNXRxJdSHN70&VUgVmhvhS{+2atTsQXbYhpH
zIV0?+cyxKS!jX^M&5yAKByu&!W4JthQ(Qea*}&Oei6{0ok{Wl|WrXwL30n`SH#eSe
zh?qZVbA7<}P*Y0RHr@{&5kj&WS?)|S;EoD;xVt3%J&GE&pTykWLF}IdzN<Drmhge7
zvZo>Nn25)P7S}-F*OFR)NlvAd+&Q1Ey^*uBI;acTU_kdb$H-VVB@4@)?09UA$oWS;
zvMHn6DBB>zg}+jv8{l^);NYV@M%Kr<pf+}o+$ptV-iYgAYzNkc?uo}E`bvsn>oaps
zQEY9YaB#aw&%z1qbW#$|+$K!a4GZLgeZv+x9#w<OOMPg8u^DQEY;%i|wZN&VuN(Hb
zV5Ss^6K_%?LGk4kMK`F@-K5)=_+2C|Y24hj<a{oU?37I%gNGyff=95Sm9#R5{dky5
zJAkVjF~5x3%WbC34AEVK2lX`eRUJp7TJ_Woxc>m$h<}ikW!*5iG*bq()^M;X?K!sv
z4-<!{yk)oT*-Y05SUdF&>YafxgaGr5DLpqc+`)0l%IA{aMn?rtPD90;YmUoVs=?=P
zsy8;<knze`;@2ajWrpU99^pYOB42RJhDXZJW+siydoA0zO(SQ2Y3_qzdnDf8Tl#`3
zIa@qr4tupPMj9UIW#19Ahi=3vr({#YW{$v<?q#_7P&V6kyUq`V8w`<2u%DsqQ3E0e
z(|w)#4|O3f*<qG=PLYgoz!&bKj}F>?%Q&VLCWxE4uJ+pAQ4Dr3&ybPL?gh!o2><|H
zhU2*Kn8dNZNF8?j*hWHon;k$q0Bf6;{ZuY>hB!`&K*!&){>f+^oetTWT1MGNBhSio
zK()n=%Q>==q9F1mW33?Ij_aX#k(P68{{H|efWana!|gX|&C|=Buo5xY**->G5bh6k
z6i+a?$0L1*%E3n)w1*Btb2h!(n}U`|!*;kEwB!`VwcemD!RP9fEFsKnjo<<Y9#wph
zn0><Ko;)MLXd8ec+>Z%l*(7$qZV|Cs02Xku=dn+xmP&JW91cQ9#9BR~;G_o4u@^z4
z)iYaLMX1zUQ3aj}$9~F|sh`9yjkvx-mNy2waKS`^!ye!>+$2y?=yxYR%J>0m!`M$a
zRt>3@ld`fKwswA@{XszJ>_eGi)5r<sjsOsD3KN2wqee|=-RaKL`lCrPzTU7Fu^9zo
z^*)}TOVo@qu$aj<Hc@GHH9Ah9D=C~yf1S7GdVCU5^)8Uv0dK6)gWl`RZhkcX0Hzk#
zv&to*w7>vBJR2z_rE^Bd^Vs%Us@*ujE2DdI4XjW#P_@j!zxiH-GpVG|-x4y<gtf#t
zSdZ?U$C51LkMOLkX|CHF{16pjC8uNg^W|APMB1h~!y8;N<s+M7Ja#@38`{T@3Ctq)
zDa<vla5g9ImGQOLw;^$Dfg_I#n&E@{sk9vd)WLg#GJ(6{e&9$W`>V~N=EmG1YH9Og
zihh_JeuA{h`08WXDI2ZAb!{++daNL@s%Jp>pSigCvN{Q5d|{6_w`4d|&|Lj9n=5T+
zXXS8=9JFOM(Cu~Gk=!RVk!;~mQ<~QfEpV5U^W(~qwsEn+?3BiK<b4XpB4{nkZZfR&
z-9WX53X!@qjH>4c0vh3C=gRImLV>XDM^D(_S_?iCoE{ZvjjtSws|pIo(;H>+I9Rmy
zU8u)Q=X%ty0{pcLr?7!W!x$Su`Y9X%0l_tnzEYlU20SB17RJ}?JSA&`+h-i6I5~~p
z%eZ%HK;ZGYxIMxK?Bd&8U2}1f!h0GWZpmE2)NC{|*X2g|%Q68WN=<^`;96Qv5j6un
zyMX5EHo44pQAL?edjT022v9l+q;wS#7+!tc?LE`rh4jRMb05m6mNzhh)1Jh3R+@gH
z>P6{JKzP6;VEtD#;^VY*W0IDb>FER9WP;<!M``utkqTPi=fp7CKbfEWAzbIi{{U){
zt@W_+WByj>XfGWw$+tq`XNR!<hmH#G%}C6*vW^;A;*HFW*Nw*ZDeQ_uY+GcGy9!L1
zm9oe`Rf>45njyG2kcTwS85vG>JiBjVLKK6v6%MHP<Z@9>s`Um+r(_QOR<Q_}97Y{*
zgF)=FWTmGW1l-+BWG5q!@P&!k9n|f}!22a*(G-p*`$<iPx$wL;LO@ft2fO)g@R?Jm
zzE<14u!Wk78a+rm8?IG^buDoHT&!q<s*X!I65hlsN(!QE9dNZU(rC~ZIi}#;cuL7b
zxH;|+P|b{-c~duQh1<`R9fE=$>kovD2KNUZ7e)aVJfxEBw}fmIB!ec|3I_peIX&;b
zT5=O`;o$gM!9dbSZa7irfQyiS@}Vrh7)*>0yo>(;aD%LYvNXB9`3TuqZb}|PLAz5X
zV>MewV}Gj+gS&&lQqVRja~Rs;`j~qaYf`}Bz`0eGF_@p~GQhXGE!q;jmejFbmlnT|
zC|yF1H{WYWa!M-UHJImZkbiV_+arDC2M+6<xkZ(v%*{-1kJ#~!$T=G38?fbQE8=U#
zyN>FjNNsy(;dSE6eVp@!bOcYS@KZr)cx%WXDp_OOaxkEEoGjsGe#mqX$32H>%U2sa
zi`b!}mC>EA{V28oea$~aT2u=nc`Y|59#f0Mt!xzcV)qz4q23E!j08BQ8)zmYzu5a+
z@T6@uOinIiNdx5w*B1fgBdF`&84Qyx92G7cN^`aSj}9*(lC%u+P?eN>ZuVN=3f10~
zQ%P^?@`ibIZrLa#b}9Jk(44ojl2dE$?u2{WzRnm{b&)mia2%?-h@8X52X(lOWbsG<
zwei^-O(<})&5vTK+Cy?Ii-Jwox9UTPY`A1cV75<UluqbfXB&3<q2Qdi1agUJ60n0}
z4<88}e#eZyhuM-hb8vg9X=ZdT&PRn_=E+QNVpw<~5e-ywGXz|GDatImX_xUjmZg>;
zU*!X-X)(MPMTd5>s}%*VyGaFF&}uDk5zlLRQT?IN@{DA*RK#Samt?K|)YUX?oq|ZL
z3E^DV(8oJBw1)yOaH?3@Xyma0&AO~)r?uGzoPW_+#?MbU01`Ya-8QAz7hSR{mhJ!t
zcM1l^VKxAZEj4IpGeZ?aUI2BE-A6M){Vr8>^X{-bqC~G~;YB(tNrVC%&rV-+RSvnN
zHtv!fx5!qmdz^2<NM7L54sH|1bji*Zj8WeU_LFZYxF-j?v(%^=F)m=wg-0w;iTg;x
z>x`3Da>^|il+{+Sakxait#I7KbwdQi8x>(sQsK$R3GT$8*17F+A~{-3iXE?PqT`g;
zZehn9q7K5Oh&wzcu$JM&?xTug2Y<Sn;oxvW9fzT>j7Zy#ZIuCGVI%yaN4EJt3yq#W
ziv_=+ZN!286WHr=Q(Vo5-NHrz$UGqSWwcCkd|froCppIjCChROQE~{zRz{(hb6t~!
z;_ykn1(!Q5u@>y3BIMh*D4K`4p!0;6Eyteef#-u@mvFW$PCn~Vk;L18xvnIA5|MN5
zx^2EM^;pC2?E|t)jtE_G<Srop0A;KV3~=lUW<`kXq;T(V*)ih(06>poiMZ~uvBwLE
zzD0+^Lc^N`nHcPcVN7WR{Spg<$8_L9_)R?WFo*{+#2X6|oYQ_VR3zuIPHVgb0+A*D
z6V0v2`BCodY(i;umI$%|Y*|OOKKB>q!FIv&nK5dKsNMdXS{Oy+AQfY)YSA>0M%K3=
zpyY(g3*^1~VN@D<og<j*mfyN~x7ZvkC;etZ@*3hv#g+d6Nl{Z&msC}4C8S(AW(J+<
z)v&hq?yoea%ec33Ye}$La<!&t!JDeBcTLl%T?1U(4g&LDs_F`P>i+<T!3rLyj(Fme
z_@vvLtiGK^HDylgIlvVt!9Ceu;)`u0y0)WdrMb847UMza=w*?Hq7$|G2Fm;Jx29lo
zqIA(^!z7Dkdb~O<94xb%+kb`4m&%SgQCQ))o>l(<?D@=_)rJycw*)F}MrrgNU-I$X
z2ea(G;%!QjlAO2LY!{66Z8Un`u4<wnIfRQ37f*tJKWLo4<6A3fdZJirFDvhr!>lHQ
zQ*?kA#PM-%%BHrOoJ{DAgMtc##}#JDK-wK|vbV&LpEk5y^&eQxEj8c{2fD}q0I1hj
zy6%zozCkNz6+I1HQbyQ-H?Ymhf_(xiIQ@6nGS?lG#tIuV%;%#^_*YLyO}3&;$;rC*
z?KfD{rla)S<_7@2TaR6qmZh;$KZ9&9OXz6pYvXLSGPnnFI6_VLV#)`i>l%d{9Dj(?
z2))*RuTaz4!y}y0k1DUKp%ly;CLQhWUS-rLQ!<uAQ1c6i?5AnI&BlvvvFj*dl1S<0
z4gg@UJC~`Zs?=K3CBbmY16R{)cNe}weyD99OnIo>O~^M{V^?GH(Z8YADm@|^Nq82w
zl&=2(QK@5#VtM#W({w?uyo2Oia=jZsrlxEjxnSGg>gtg<evculf~$Cq?QpruveR_>
zdUm#QM&Nn6x%^G8)9B?6gtR;h+$;qqxg^yV85hDwE7?aHJyw%miVAI;fesuhT~fYD
zp?=%ktW$M4<D9Zni`*4^r&dKQL_FPAEm0<@iWujql*c?o2R6Wz$+}s_Gf}_v=ENhl
z9d44Im8}f|MxJbdm#8YLY0GKY;!Y7!-hs*08yz1>(;uhO*3lL+b~4j4<J>#p9$iCE
zDR$PI4i-P8w5?3lMOo^(rKc?HLGra)trRgw>qzF@42!7b@n+uG%QSj3n%1AE)Ktq=
zL>nB0-Och<U0W+UiSbb|lPn;$F0EPw;K6X_;Mnr5{{RoDs-Lemv8?tx^&Z6|#^R|x
zm5lFg87TA`sA|nD)b9>!wmS<~Pte506p#SN*b-d5qK`+?s;XTyku*x+300k2Pftk!
zbvuW&UcqR^rkGw!(mc;v(5p1MUG682M+(2C^yxJzWPh&U_WuAX*mWMi1pPiljRru~
z<(h9&)M*;flAXtEo$dpIF0;!v>OF!nj~iw0QC3uFdYPk}aE?~{NWN8Wm8A-e^{#)Y
zL#_vVEyZ;$Cs9&1rS52u4eY<l!PQrPrqoSJ$Kl77XDPU*`z2B3`kPU$Q&Z_}Zt&Lu
zZN2UmQ(cayUWN5P`)t5A%BQNT-tlQ}5BFEP2C*F`nNdqSHx~o99#XmJUNl?&9Mi_x
z*vUY_u?Ncc&Y5)sXxi3>@9$;vH%{tPvRAm^-FlBiYmyAk{{W#SWj2sp8%EoyL=nDr
z00!Z?q%W7h6sqNqTrf2IZf#}k-Eq}f*u&pxaO|>^bd-9m@zzY;;llSqE1ZT;g4yOe
z5Sm@Ae(Q5}>%A|cY37I-ecPLINb-!Q=^94H!qzl7qQ?lCC?8D$iI1>oxB(ovo9UVv
z5+KubYD!Ai%Mb(}3GlXBCcF7~y&&KKUSnCT%cr%(xSWw=;VzM`db2i7t_&wCYBK0)
zHQDVny+|6vypRWSyqocFs7vYtX{02&_y@Yx%RMcAi#!ad5J=`;Gk*RTkxiu4yHsPU
zWHSE%62xBp(zqt+vEu1iKTmXpUsTr#s~qOWGI7H6h<^;Iw7OQyNG0EEgYu21V|r!=
zK0wyB?YJQg7hg%J$Y|hrYeD4lpP&6w6-NI6X3YMn)AAch>SdTB`B1^p(NxOW9_{zd
z*21)J(;rd+dE1qOcU8|vE1+y+*hmDGIY%sdD5VBpNz(KbZQW)71;%+n)>Bc*Ei{n;
zeK%Rd$W%IqRMgi28%w?{R1~%K5Fb)UW4KaL$#%*)!l?8aboxpt+dF^TBKhoss_Lld
zT^rzb(9$z?i|P)lshXS7ibJ;Fq%5?r)T)_+^4s`bQF8QiG`*gW)V+D@`<XZnc+ZuG
z)cU32j{-vH_5iB*bb6`eahRSlbZ(KL!phJp8Xddz-+)$a*1(b|1bU98JL=@zS~6AE
zi3^z9u#olW(CL&zN&&Gktu3>xI4ZA8(!Dw5A`n>PVC!&%A0Wwb*{%FO>L<mgnmV~X
z@&5oZ?h$(LSW#1Mw3i<RdA6eIDeL_PIJCIgX8M{M_RM3F`vFaUimAle>fLA__Xr<w
zPYIM-hx(LTC3V{2X9Y*oJv92tX3E>T-ImKs&|;^Lc^={Vh0yr#Y!5c68MbImjz>rU
z4ZX#R^j?gHo;od(0g;=mon=UEXXTlO{{SkHy0oxUxq{6$u+J+_Uqs;**?F()Euor7
zVA@(mh`Peo>a)sZFx-pq5!z)ex|M&aJDlc|!rKm+qkTQ%fHaZMgo-z|Go5sKrh!pb
z>Gw+44X*FudQ++?=g~I5Z>R;p@}rNX>D^BDv<Aw~enO|I{{Wz4;*i|630Fpq-IZpF
zJwmf=AQ@eaw$0Xx4Fgou8?=+Oi`WGp;nAjlQ#PQqIlc<^9;j^_Xycj9Xt=ORk);vf
z+nM9c(c_k<)OgzW3lrT7sAvL|nI3n>@q$hEm2cElZiZd(fB^VT)9Pfe)4z;22Ml9{
zC_-;#XE?1gk4h0W>|~@ltav~CuVvDrqnktyX>P|ix#4&{dnBOL%tVnJire&7qgzuM
z)5OPN9>vnzYLU*??#e!>Z{>B#A!~=G<H{11uZFZZexQGKr`Nh>qw_wsTX62=AZuw^
zPXVw5+mtqz$8uMqZD*ybeJ5&dn6=LV&1efHs5$qF?{Jl_z1H(U>e?AJSt#`hnAu>%
zLyzhU5no$Ns#VJrAVsy-X(uHZPNkqYrmc<YJxY`P71b3oG)mlCzYEI5wHk#{Hg?i|
zt4r2Yvo=;iAR*1~<Rf}IhMuO8v6eJS!+sUAWlv-wi_jjKph+Vd;~6A#h3FkErT$s1
zbe3hjgna;|hL{l6gT_LGQPg5E?Q4TeafJzFQb$a2@pfHSx|z^R4VqoI80C2$u~6zw
zT1bn)W6mwvX!X5#ww02?PWBzH$02#IQtAe)Ru5@5<XKM~Um(s)jUJuR+RSsr>Peg|
za4+QpsnbneTKFJob6Rb6P0^6PSBXfmE7f{iO@*}$GB9l-;I4^DA~A)d4@aTBk~PFM
zI2EX+jyQuu!$ghw$}g(f7L``n96)1_Wt8fTWsPKYkUX@s+21N_J?Nvu^lXJoOE(K(
zTGv&zwG1~dHd(zhs08q};QLScMbff;QhkuzHvZ$vt9l@n0M<Y$zcPB7;L=N7f;;(8
zK-lDzR0fYwWZ7zHdMDPU2Wc-kxeB9Q(A}gwNXHjA3qJf=FC<foqN=}CWfjRIYsIa8
z3eD;tn5ZIP$8CGL?1kznUp+;dNf+U5`ctRswT&f_vxX6Ws%bkFFR~7n(BQ16F57t-
zm3=17J~6mkZ^sKy(_K0=7|fD_;_+e%tLl0eR0(4Zu#<v=$dWRHW<OZe<(5!bOIv)8
zDyF76>YPWWLr*JBrRc7jGfyZb@ta(&Ef-J5APg~$;AE5=)rK+jW4daZQ$qS@z5Ane
z<IX~~q1LNt<^KRro<}*dVXk*&Wj!l2*}Xw*bA_Agnuuo1AP4f&Jg!MiP18DK4l6}p
zRGR2@UqS99yj`vw5U1(=5LC_`IJrFCXf${!^(`tnE2O;fVW#;<Lr%(BTIL)d@Vc=^
zF(a03mbzYtNXmA$D1h!2UsuvPIzrnWw#e|c`e|z^!5zS|Zl^*j;B%bYk}?(N4oKvK
zX`W%zRnhvQn;78yt-U#IL|`ypON*a{jMlVQ>9wY!0c#t87LTB1mabzf@*RQoT=RSp
z)gRgD-E{RM8d}l?iMUyx#a$+vSlsqCtv!#*+%<w2LA9I)7n=ShR@FL!P{3|Dy5ojd
z%FelBxY96GE`|z*wrc`So$yxw079;&6yb&KBzf+<vbIObPA6%zub($s9+0D~t*71`
z;5%h{IOk`bIM-#jS5(AzHKZNGm4}uSQqoByVanBOv~Of~Idgof3UlrwA1NgzWfIUX
zhcwjshoa|Mx40|R>6;AtQ)O@K11roXF~IOhvAzn?=$hZ;+8H~EV~5!*if+MeXw=ba
zOfkMEI0pc177MECoZ6QYaOWv%>zyvHO+17~<Jn!*X^?7g#Vv;L+dJiNkCPeABQw)l
zRMphxx{TgNyWZa`(KM*xpG*xR(zUi#y&Xh!s`rO9h~>kAJ6tTFsP*aH?RH4w#XE&M
zU{X?A?8xf1)6;5!i~)c<g}Kq7g0hvfw#RU@hsyJPZm3q*mw+1f@)x827|RUs3VB_$
zk!zt0Df9`=(GH`d!ouqgbHdDPbT4Z?x42%jsp%p%7YFY8uRrQmh@45jaJn3LswK+L
zJ*sP&a!CXnB6J6q*2OGt+V;BZwMR2^h$@yU(@R+%(_y?}MUIbfsnlYw(i#XJvjy+u
zuRPRsR!vay=7z|^LF}ce)SVqTEO{H7=Y@!<teSmBM{q^K`BLL@ve!u5={k#NkWxNN
z$0uc?(zNK}d11>z!t?Ddl`xp*^qv`ehgohk%E@F5aNvHcsz<tFzqDJ_#{_LAHr#=g
zo7FWYMjS4W)+@g+5Pk4M^KPNk<#j`v(}Gd!Lh<$!scNLjw|48CWk4kS#09SxX+mh)
zT-D>$XmgG5w7O=EG_krM!-0`*3Y@kw(M{8)dP=WG=hG(OtLn}2f*dSD>Ma&%!F-^H
z-vi-XoirGPgk0Mwt@anKnYv15QrAIKBQFz;o&NxD%J$6;X!Q*r@^cX*OMQpR^9iGc
zk(lIYEh5D`raHx%H9?}N+~~u<hT+)^(Y2#up7v>Vu84NWPY&jv<_jnU)D?!FOM>1H
zmFpTdxlO23g6A}cg+tcbH8Yv{s0(+2aHR~6%1$VuhN>s90&Fe8D>u}!9qtV`2ZbcE
z$isG$0_V>iL<Gv=ag3|Ux+0QBbI^3Ot^fwe!*TM5rPQXPB0%ETH1TzA!UWbI{uP_*
zW|r45Mh~X-M3X{Wi!?Qw>$PYEm%QLu{TFE)q;sN>5FRj4{UfK|VY#;iT&={tK6W-p
z1+9=$N<TxVt%P*^%$k?|KCEA0_L8Nku9r=a#N4!StEO<K4Q!Wet-wB2WnFcu+$VPC
zy!&oc<0^DAj;)$Ot<_aVX`=z*;=~juPU(7vjjVocrQVE(-oe5PNR(66vFsp#Z)@Rt
zuTHX;Rig&Y-)y5OuFyHO%I$uN8j3$&FdSUVm7AfeY!5KZc93ung|)4w6ot`04Yn7a
z^{W}_x@cXtM)0|#ljE24RjzRd>T2-TJJNXEJS?3?qGVxfkGuS#g>k9g*F2dU$hr$_
z>r0F*CCxTAT@FZ^gEk#0cUjlCD@$7D#Rm4A4i+D$Yn?>#4A*O1c|D4`)O8027|X5-
zo<!TC&}xD8eNWY9*AH-6nuoTb&R`>ZMZofiu9eP`-IZj~%GrdhDY4>di<2s4=S%An
zQ@+OGqmZ>4fu^sb-yYr8z5f8=WW5H-O4^8U;rhZF9ZI5=#5DU4Bf{#8tFx9#y`sNf
zmC?#$Ao880nLRMqIl~w}6dI$=bgeDE`{iHhR6<%dmW{7w2q7y;nKpxTexRzRaDrzW
zv-CURXg~EWJxo57uG;a($yohTl=^LWy}|%Q=Q)lJBF8I{`0CE3nbynN=FcTjsBSxg
z6~2|!QvO%+lDnU6%4bipv%uCo+*<^r<j`YqE@1Zq%A?~{Endv#y7L8CG7@5w^q#>x
zr*wEVIbRD;>Ng=?SLqF@pmi+mxwo|Z`Az6eK57cBlN&vU_X<&IbW*ejt8|R|WI}p!
z>kOfxuASwOOyV%Tx%8Bpj*x9{Q*R5%daFtNm01iH1=#poQe!7bx9RHXXq;Hrdk-O0
z^(|usQE<1vkf776$RZiPS7N(gqLNx)%)|+BHXwLY_`iD@&-J1mHfBB9AcXyXiYckf
z;SDC)0aod;OwvPv7{W4H-yBY{y|6;`;U!ehI!WD`IO?XSpVKek;46x0{{T4&7r7j&
zn)tWR>a#h@pG@^&lp9@-{Yp6{#nF6mY%B7&%T9bNIt?}TWv(vTM}^YSmc}Y6!E+8s
zS6U3wG0c7d;N3xF-it~UM^mG{v3hc_9AVy8GhWjrrIg6V9k*W93=q}A*v*Z{wD>D4
z)VgycE{<mRvJ;zwvqCAO&ZuMG7?r#X5#evTK9-WAFHTLO_E{Ms{Dnz-0CZ;#YSeVh
zPhs^VH)DX<Lbf?B$<7y`?xWD#1>V7f<G5J*$YhS&u38T(*=QhxQ`3z-NweDAEKakc
zzMiPlNYm-M`(5y@K0TsPQo3d^h|FQ^{bQA7qD0D<h7o@ubovcVB|#%BKjBFXFVm_U
zQqgwz9#<osbaXgq(0`}G#(}T^N9=$!4`jz=S8ecYt?BAnS572hxb6zQ(wj<P+bxT`
z6nT+LbY;vgrwu$CWG7V8wx$y#Hn<+(ueDl6O43>e0?JQSE}v1q`7dVzsR`bLI6lfv
zUWxSb30ZLA#gUp^vFbGDDQqVLzjb#%<#jq=VFky9k*I966~)cFT+?(X9ze%BV%IWi
zDfWUu?S9G$9Qu~*dAok7y2;IRnn=rrQB=BfqH9IBHuneq5La6s(|Rhj@?n%kFuQNx
zy3sdCf~ElG4n_WmdYS;>4;J|0Hj=h#7lup4{{V1=C+K<OwP+5ih|{^uBNtIZ&`p8J
z;H#ZVSgRs3Ho?cjp?toR?bz_CC1{)_PiD`iYgo|GFyVqOwT5O%70tI<d3^-4`eJwi
z+|L7_g?CA>da(n%hkrAC6)4|Kr0T5}`o(;3g4r@W_*r&qvC-5J!VE7qk)A>msPzeI
z2@Jijm6WKCcFVr*Ao7_)nKtcFrq}4=rf{vKCDgMUi+>?i)4=KJi3grCg^y9Hj*P={
z_}zli5&8`5mN5(d-wK))*`Jz(hj4B?Ek8r*hfAptle8QQ@KF_daF7zglnba!Ky!tU
zkd{h@j?YQ0F;>$9YZJjkX)rz-y`bJVc2u1=s64mwbDV*8IR5}J@U)s#;ne~=XR%Rf
z6}F9@hUT<c`1wxiT^cP)o7IQ|BSwBxsHvXnP~bR3(oE=IXCG=+X_>1>km}lOl#{pt
zX5WMx++7~R4aWs~N8$}5C8c#`GeK|{cpbv?$yvA@bHeI`tsL@H$mwKe;}o{f7f{wx
z`Z5=^Se{Z;0`>q!o;&$OQcl{IHVMt8Z|QmO@Sea|%nN<v-R9~S#bfHni}C_Cc(%RR
zBG@4ZcSh^Cj|41bv^qHpcFNCb2PoL;z2BLH*taff5sYk?E$`VtchkIqeT8n!Urfq+
zs6_D)5A!#|8W=3>UA9$hno4*2jB(iRLbi%_$i}`ii+;%*S{XFXH7}-{+}pJNtEp;X
z1%g=a=-vI3q+@Dh+HHQv!j6_#(!9ecC8q>=3m^fxq+gu(L{iAt{{RL|I^NeN)yL_(
z)Q;|m{{UqZ;{IX6WCkA-ww;dS<vJq9OSJHE5V1(-vd+W16(EXP1=_=L-3Oqppti{R
zN&RS!Es@xTaYtDjz?F^`Jh#Hn2bWoo{XszYIs#nR5p_AkknxpvSZmr`E_17BEq7*E
zM}Ls0B(pLy-roq}S1~tZ&Bq{jL&^)T;LtCU6GGOQC0>MVo7<e(D{j|^v$Bc?vcwKl
z<~J~UjLUn4L2NJv&j^u*&lq!jp~xGq+<6`o81r!Wjfmta3xmz=W8Eq@V`PhY+}u9j
zx&~;S8~sS`3x7~nK$}>Mjx3_6{vf@8eXLKESO_C{nU`&Yhap1ekT#p+`zaw|^$51o
zJ1HiL=XJQ`d0MC>4gEKD&C=~Ru^0JV=u0g4&DeP!5pYErj{JkjTES!ub)B5pr#=nC
z)`r5|g!!O6w)XSkbRp5daXkM3bSxm?2@TtA-V_cmYmLXXSyWSx_hJ_E0*BIMpdJbA
zm|Gc3HQTU|LXyNf{{Z1Y`gca{%}+bbX2!&JT7zWdTy7ciqLHlF1es~Ta+aDv_T*Xo
zmj3|Cl(D6@EgMfG{#Kwi0~^0C?@9jX-Tjjue=jGv?v30PG_i>NkGY8cmmbO)*>>1~
z=ByM=aV3LDzhl^@Y;y(12XWyE9FC`P#^xS=5wXk&xX3&ejbQt%?WFRN!14u(bgdp#
zY>>3s-(psvSjP)wDFetLsh=2;o0xsw)FGRj{{YItLWk{k=HwniF|6Adm7qE^&%z61
zw&NZX=_+3vh#9^d-ziMp7j#t6OxrMmPa??8In_EPYieM*fyds!s97VTw9q{52KMl@
z8aAmNQ1qn$yMjEfUm_fpGLfkxQ>jx!tk4RoS2xuH>m5>DJw}nTc=>7Wv|3x_pqF$m
z-2;w5JScjzOJ#Ilo}>26(Q*fM=i-yaI(-E`E{ueA5mc8j`(7|dm04Wa{Za-9?4qlf
zvVGZP%{D!*qLNu9lhk+WUbH^Yl9i5a+A=P>z>q=3(vN++JHk-cUgPepDEnYvk197e
zX}1b?ex5Jzn=5SFw<G){u#q&_SfzFQ`-ha6wT~T&Z@H()?u{E_mI64qP4vJwZSJ1O
ze#yjlZwmlz{PLo8fyeBny}pZ_(DvlmqhMq<@sva|57Pet7(<WMwJq(+EFmB_X=%v+
z011wawCCL3#W9X8;M^%1`wMapHz*?!@NHvd&K<@SuV~wL<*F^fANzm8CSw4(zFO}d
zQ?70PLgL-ozuhBE+#2qC6@?T$v|MnTfZ*oXe0fj7xICzfNI1ywwHnDcg5ARg`BTP2
z+A=POxIEylVJvmVY?i2GPUagN{gfr766W#U6}hrB5r+(LnY06p6^srX(xhu|cHfke
zL<uE^$GAw-c6Sa5yA+OS_L2$}?Amd{vun4vYq{)D)5KaxwpQ;<+fKrCijjzF7+l}w
zcZGdVPaD7iyzyn6(?}26@rAI`BO6+73xC4p$qIIK!y{{A(^I*Qv$$3t>G8<h+xA95
zN*!ZhLOKd<qQEJ%-qB7)Lv*|g3xzv$yNhiD;a<Z51QHQ#g}5LEs)e&I?Hb<Zw0wla
zq%q>)HtSeo^JFx%<1S#z16wnU()J(H5pn6mlF+SSj^yqiWiVhC1B4#KY^W4~V2;V2
zn_J6O%c2BvgdIdckMNPI9z6g)C}ahXXg5H<fss1x05w>ak;qU;;suWvSj$6c*uX4C
zE{OE@3%1rmvf<a{BO#Dl#chH^1Feq9cjm{0vqnEtaG(UY2Iw%RIpA9yD9E-)_D*pl
zf({f<b+dFk2%+Tj%4j(^;WYc(%4pm@r8usKJYxR<vKDsPzTOmt<OAcvjK~};m;iFL
zb~z|Xh7W$o>4wpMN*UvDBf27$Q^)DZ9?X0rY3j?Pu^^C{JZ8rLj|dkR#_(Hv4nlO4
zw8d?p+2*+B{{RZAd2C3&dm^`bppZVOO1gKx<)DHSMhP(-^a$y}cn&$g3!Kp5dnn_L
z*CFE}PSEDq5z4<rdmwWStn8#?-v%;Tdm>9a@pOT=7InU;rUzt<k+LwB=ix;l4LHkG
zZjMM@zAhAj;$C_1k3kTAl)Fc6S6gXH+m1L&!Lih}1}C&0F0LbVRT0?c>YvgNWrhh|
z1kZu{b7Z?)L)v;|_4HCl{6-DU?eMGQj5(&`3g$Y~vuPJ^lm%goxR#52C*+@ExVV)Q
z(i`2DKLJ9(_=&q*tV^tJ(S)Ilc)xz@G-WCoOE0JZdC2aJYn>iAP&NQE!DT#UulBzV
z;VlKQnC0BvuE;70>3^Oc-IBGXhTE>BW8Bg#Zk49G9ZJgJ_qEm_+;WP6;q3$qI?40K
z*#nJ$KMDZHNB;nnt_h-%n?<&tsL4v;9d|Q=3b!q%t%SZ0aka~QEWZ82Hwri^=cJrT
z6WlC#T=K&EU6xZ-vesyyO(-nK!Zs&GP|F)#bP`3XL2!1>Y@lU^qLNQ=a6IstHq}1G
zarT3K5Z7dV(QvdlZ6gR;T7f9q;5fpcabX@5B#J;;ARt_DhLY_hT$Ed+8*t?d+8z?7
zGb`TW*H~~$60Vd?3!2*-D=DEMr~oavwTiT5T?*2YGx9*@8xWDMb4gb-Md}N<Sp0=w
zJuz-t7gRDMmT;y%o^l8PqgzlMz#X5JP%bzsRz26T;X8IjvMxQ262~cPxw!6xj!!1)
zP&XTn5maWwn=a<u_DhT4@`Gt3o7qhp{kI2&xSGO24!cNENZq!#{{RUX{{WDj*IZkl
z3soA(&4{(_mCY8h&C{fgz`L?-#nCX}M{t_r>-RTHaBbiuCpJJmiL`#4T_ajM6u<G^
zJPpGb!WIFaru>ppw~&#-_as>$Xvn#`*Jfn41nwYz<t2{n4#}Iw26Cipu6X^C2#yyi
zHho2tj~59+Hdt4(GT)o1T-<Poako6(M&JX7g^);g<12{Af89v&$xLOpA`KBZatA%r
zcDYR9dz)C4!E1BfYYkA`f|1AjC)(K@CXsGOD;QRvX(Q;m?f#U~aJuaBiWbfE`a}$W
zr)${b%8G3&k`~?WXuf$_4MVFWl2<>}Cg%1Ew!5in>HrLL$@xy=-$z5yajsTV(>#Fe
z1wl7bM;lJZdxljlb2U1%ys}FkaD$6SsdRum5p&%SkL+1wR2fyQRaQ#x*R}oab+`O4
zrh-b?W2$HkJ?yHwcSeRe8rf~+sadEuOssH-+iQ-}gwk<o9Q>S~&wQw;)3mx)$x9<z
z_JMJ97gP0=G?Y!1k^mjemx$MOWmM;HsN;W?T{fj#T-!PC+AUzXSBGtKIu>e2r#q=C
z>f9v{0h!?h`r}K!P<gpIS<MPr+YhAXy2?FnTD^s>jp4sV-HRHBNax8ZWb6}C)C`r*
zkQ2{kZKF_{;LC$|5tTutQaX9do)601X;VW<2zJrz&H}d~IQk5iOpi*Y_1-`MVmimF
z-%`OzO7CbEAR;=~swS;-X`sH*ivp^&j-76#J!Uxi*1Lj?<hzkr#*qh0LPczH&g<@Y
zE7>Wv$S8Eyx)%WEh2=EVQ$$@6X=#j{sizfhVQH1t`tXu)a_D61vg4|{vU<s!#=NvD
zT3X#oZ*(kk!kb0udaYu)frlfy^^TwDgQvjONfq2VBqojuTQkWXk0oZ8sp>9pd~RjA
zQNyBCX|>Gtw+6h~d*JEF@9H&x8(86II;%*gWP9Y>ge003PA^6s@|qgCDV}o65PX6W
zvvoUYsQnGYY>oDicq=>A+MIC9>oMTHjM`6|DjhN^uB4Tew1wO6fP_~iY$@?7`m(xO
z`oGrqi;xA-np_gWweAFcSE=Zqg*8(-kE$f+n=NHe;f*vjTiY1~43nEJIYug(Sf?km
z$Xib>dt!4~MURB{Hd;AMFS|+d7Mojw4H3?Tw*8eX6EjepnQREf(8l8>pk%ncm2v5{
zdWNLdfaf*YE7Lk_rKzbY*!kKEhH?;nINC~CSot<!V;|iUuJueb(Y`obFf0o6AxRur
z8*I1LDyg*SiC_#C?S<#vRn)GK5XmeERNYC`($v3blHg;Nm@-XSC~e$D(n}$u15u#J
z{X%ix{I6!{QAt6kx;b`-w}Mxbbf_A8<0d`V!q?aT0I0kgnqebi+h<vFxXH^$N|LH(
zlc+kOw6zX&GLT0gEX@5;SE$J5MPg0}y2@76xz!G2t~Mo2p-A|(Hpdt)zZMr+<C9xA
zD5f)AsHt<ENai>_-=qZ|gV9xWR;Z|qx46G`=-PIPPpVW!Qs}>r83k+q04Wp@76{r1
z3!?@YrEju%GdAfSWml)y>H1WH2A#}dHV3zL<x+~u`q$pzmv{2Mht;ZSX`yqTT1Biu
zUNzJebX1z0lTv^~pSx%rWo(;$3kFqFY4w7nMKB}6nrgV<ki#G$$Ax>S>QK~B)6_MN
z5;K!-RUl<Pr&z*BYqw(yo42y*==A=I>AG6(lNE0PlFNT_?cq8t7P5kxTfcZ=<ak;d
z_+O@U98uFW`kt7;@}H#5Jo*$8OCPwh&je=bPEMOE6qOjBtJ9ebQO;aTB*+7?T0IuE
zgH40nE*WAKM^@9+)KG>**AT<~mON_pQ~*Tc?*Ug7v`-{#^w(;UM;nQF{nme2>Nv>s
z<9Gz({ni?%R;;Kbfbi4dTJ)}sQK?mlW(2Sv2v?2Bi%D!hOVFxyA5x-wmXdabtJ3r;
zcGCvgq1NKu6>+E1$3;qG4gUb}raRi=>)2gcB#|jL$|*FrzHO|Tz_r*nvaRZRdYvoN
zt1P=o7jo28Ra3^pA#kzqd#s;XYl5<jQAXfe@wezyawzs!9OS)(Ykfyasr3AGrtYX^
zfIbyAk4+6bzcGv6<RCN{;gPe^$_K92`w#e58a*Xk@jM2Q1{7gYWhA*HT@I|lrbyR-
z8s-qZXHby8S~Su-+FxshvDNBiqN99r5({s8uRX4qPh8gn?s>sfl=%`+aXmXi>3HLT
zvpfqB2>C(RXwR2WbPWWwp2__&tkpA5Wfe<_a|N33D`7_^IAdyF16^+Go(f!_BGPKK
zQ0YAd8$+b28=7)16xx=JM?+>Yp{=(n-%;xd3P>c0^0xbNp6knXp0BB`d*fliCdFN3
z)`++_vcpoWrlg+Y&I6nT+Fw?>cDkLoCg6pWjnh_Ev5wqB&6lfm7Lv+X+UkajTNenz
zJi9cX6bS_+@Uh>Rd#%rfeMKcJ^x_@0yVzO}f}`rXs%RKvz;&(`5&Eo!@<i8>bBh&9
zjCvPxDs^hlPQA?zE|Lj3CzWwsRTi<Q!r;xa2JI%?s}7&&^I03KUUxbE<8*BLBPoA}
zaN8TMY>guDO@nlns5E!&m>*1wAEKYAdY&jM3#s1F*JlcwTYNDv#t68=#ZDxWsJD47
z><L*<lF%iNnW?1I4MwOWChc*-S{+V}yBjky95NPPL#No$yOphmp{;<^&0-!sq^vYu
z1oZro(z|`VugLgXN9#;vO_8s&N!sABlU6n;ivi0@1+|qD%2^Zc9CLK7Gd7Lvy-5u`
zhR+1KVY<($Bc5U-H!j73S+uIzKzV6B>=aJvm%diY=&f_%Bgbyo{MVs+D_N3?s80K}
zrvR0`m#ZJCPaF=Axq$gt==31UchgIP&vQy1IA2F8A;#es2+6AglZv!&^-3t}3^Say
z#0L*5;*U*^l9ugf@W{CMSq(c^bhM%;X3J3hawh1(k9fY^{a0)fN{(5%He>qaL?4!b
zLBaS?bWXg=YR0^u_RlLn)!M7)GVKm{Wyv610IB*}^S)P?wceAzPt`_Bos^FIKA6|F
znhjs3#PL15nB4tWj&%=FM%s5YI`0<+LHUZfV*I#!gl`#WDw9{!9@Y}zecn{%`<04O
zGu1U!Rdo)ME8we*4kx;8{@`71dlXiOrZK}~g{}^MRLyfJ>Naj}3f0G>a%@hgm6h<u
z9UGfF2HTPPlIc2iXQArShX-3e)Ip7v^&XQCy!)B;Ucb;?KTlbp8CuXJ7<+r&K0JJZ
zDJc6qju%$O-%b0sdAfXhbyMW^4eWVdm9BK$5KL^r>JxwhtE{FJbficuJXu*_j7Yq#
z`#k$sqGWMxExzEenvEx?QM%ux-EDf8Q;m}rhhMM@38~ddEajIV6J<FidJ1pZx9In^
z@vyTC)O0Ggx{!wvc6VM&(5>_&G0N-j2Vp&y=StLLjjxHu+l9XCn>R;R7jB4u5%mKs
zMxETVEpqbe>e*@{H01DCrp=^3s97r;CFfwUYkR7iFT*;QRklf_b6ieu!BWPO?6zLC
z1JN2hwXrsxts$p3Uc=G-I?8xkxt1*F9I1Lcq>U{jL`((E_~l+#REi2x*IGBS;n!Mu
z8qgt)GR>8AbaeJ1xE42FTlkZ%&_xuik-?_Kv<^zC>W;H~b?>I9d62kT!?()9YIGW&
zuU00hd!KBuA&of(ZA7e^v-4VvLN+_z?ibPDgNBlqPGk-(FL22`uN&#kmz}k2nee;z
zTj)&s0~=X)ZEkS7TjHqYu1B!yRFq;D8HmWZUT>+?3AHl=NAQ_@6g+)qb!vN=b~ER?
z&ubk((NF|U+iw0;)3#kkk$>t%Pa%0C=fWmES|-Q(+i<aUy2q<cdlB-p4%F)Bn`BQm
zx_(@h1B&d~^)9y*t#M%&`m7aQe3HydPZ<jIP#4oZt~YbraDG-^nimSw9G3(e6&S%-
z(w)af+o#+erwWNq*q@A^3b)ege=$@koZ{fqgXL7{@cPt0l0T&6d?Ivbifu#Ff9hed
zK2>4-iAh{fPSWF!C>mwpC9Kq;Xnai|Tw@%p?Pk3bD9Cfg?d4;u`m@~THQwRDSDf{t
z5Q1gCt6d#UXXSsH#@SlVkkcDR_P1zjPD1j%0-}9asF^E44PnV%(Ms_il3d|w0A6R4
zmGpWzF|NY39YQwB7+eK~ip%v~BV`RFZjHk$AJsimBzlt?$9uQ!aQm%3v#P}YoMgen
zEE!N%md>SDNb@eE(_5$NWw!<ivCjo<KMxw%SZUvu-r;$NQ)<)7@E+n?*I=Kj)AX*e
z=%HiW;thu-dLB0=4W56LmpvNpwQMx(bBO_9v}nafr<}06glAjo?y1>l5(q$aoWNH#
zt_0lSJQH%VPfJFFsI(9x_1MdcV!>u!2p*Jz`*0VmR2a^ewd~yMcwS@FE!k4y#_bpE
zjkLqY<6zX$h~*A#_T6i=%9cU3<=0{Cv06n<<uOVy<Ijbz(&=EDBLmJ4b$BuoMeB8X
zM-jK46)#d(vQlH*Z)H)c#U%w%WzNujrB>F~`lJ^Tdm$%!HyQw*M?<K3jyJi_(Q5P!
zS=19pJPyGi*=1x6seU;NOVX4rnx-p@upe;nmzNRJa#VVrpVd^glnrdeHQ;9J8`afN
zPW`bw8<Itp&aI#aQaSLAyN6|kiiV~wLDA0F8yhu0&ZMYWVR70j>gXhscO;das?)0B
zt80TxfOW<fs8P@sJQ+i5mr~Oyubra#2Fea}I#1c0qoRJHMlLMiE?N{++9YyUi5$=y
zeWvSAqQU7@J7^x!f2wUsik<IvEOT!KMp?MX>W(!imN4m&3L#A9i!^%;vQ>O=%TG{X
zYY82ZI(DwfsoNW!XSae?=7ml9+OlMC9AlIu+jfAGisH<lQ$Z`~H|-;6Hw(|9iYm$F
zh3&}T_+I_g-8%UwNoc`mW#dlLB%s%1ieYBTaDGt7mz1fRSoLVO{566)de*^HhJ)X@
zUbz0Arl*8gQQ6IKxd3py&XSz5>~mT~jsE}(aiDc4<r(>E$61aRxm^ia7WjkebP<Ug
zHHSI*RGPI!RJLFsHQklJQfiPyHbEm^$$vq=1z>dw*GpAtkGl9vTN$*`F0RR25s+VN
zvI@g$k`Yn5*C63~ORZN$=n-<zu$@Ch>Upe1tWo(lKzOxb{V}dqP|DI|agO#|k*!Tz
z35>Y7IAY7qw3jw!m{>03!t@T3(<c15^|0<+^h}_e5w?{8RnonY$mWapv03&?;ZW$G
z-+;Ygx<h7+G&eohpLNEMCYMq9rnb##y4<PLGFG%y$j1|Lab!Jp5vz@^4fg|;bwN!X
zZklT$aB;=j4nj2Pl2Mpm_TD*#uA22|3cZ7LyF?Em!#2;+dJdge5Tw|04+p_nDKyz2
zB3MPi?hx{7@1$vpP6@}sLfY&pCL7fIWG-_*Q%_}$)M}e69M>B?ycAZktv#mgb;0Ca
zWh?88<#d2!l#OhC7kxRbxs`%BNgx}2SEcm-08)RXOxLmZh2x(K#&p=^ocgi*Me${}
z(jt}Ag_45dY+th0WdqYSuAyahH>}5kZP|IhQdi9Qo^DT(bas~a#tcs+v$B$}Ml~%i
zXt+G#MdNp6BV8V5=Sv+?m7w!~s@QZKFv(i!0S9w$wD&#~)qOc5K^rahRg`g0rPs1Z
z?ks;~)@s?V)%2*G*Gn9Bzc%c%mCcp5YqPXiABD50)TyP@e>Lqk7LmRdV_%jyj`3p0
zWryKB89C{UW|{e#VIyyQWep`LV+&l{I4cgG)MK$>IPN|ZHR}mW*^DmTHKUVvMLC?p
z3}D!IRrT^Q(|dd1r)n|=jl$rnKg~Py4ZFBEQfOrKX|&oKO4kwhTB>?KN-;D*UfBb>
zsL*7Nrj#&Scoz!#hNZDLWR@1<={Zp86ngX691AcA$ndJ^%L&JoKT^!oE8iAJfT7YU
zUsFoy7(a>+9#UV}>NH$vb%vUtH2#uSwi?qFrWP!4v9j~|J!tIbw6)FUUv%E4*V-A)
z+Hj$fKGA$>Ju^{LQ3)Qd;bWCkUs&ksW0o#QHt>hl8zm&3!b~pX;Q<X!+K?XGw)V<|
zV$&~C>d#Q=%Cq@aNY@d5R$K8gf%|8O*xu&d*Hh|Grej+Rt_`lH)S^0-C%h8ZV5&CL
zu_(jE1l4hg8U_a|Rnii&rXx#KKZ?O-{{Y+&=AE=-YeCpBZP_-S7sV&58>~US!m5&F
zT69mV>7SLA(>1@sas7(V>QS3|jNpEu{{Sm>RXD1kvzza?yBw@8w^8|dof}2lY^ri6
zRu4_5MLceMZFAVC8WR(2Mi0UUi%=|_Hux&`DWjSbbCKCfZL^~qqFoK*2bkss(KuV^
znX6Mej?=<_gyqmk#*L(lr&UxoN@Ekv+5QTYqwN$@-7<X#sJ|@X49_P20Hl>|tkuV<
zQtkv7f!n(CD&7A8n%L4t(}jPd%{yZalw->2gnmez`5y@oRMR|2THpv)-6>Qks(&v%
z{U>qoR25g<k&vL1_>t~uv&V#79Z;P2XQan55r@KT?#IfveH>cum`Jy;7{`_7nkKyH
zm|&g8;90I$+6Ph^I)L^`!?F~iCl^e+NygAor`lgjQr~+Gf%sKbx?}J9e};Y*zglcM
zl?c>n2;a-VLQ@A%M&`)dI0Vv3F=HmyiV7+*PQqiq83-D>_fXeF;!mbr0r*x^)VhwK
zhYx8~y-FdT11wGjr;*(WFJ?<-(m7+Oq!O@#2+fMf^;9<j(6cws(Ny%uP)SPjMKjLA
zeWacixvYw^Gjh`6F@Ea!F>)i9BZ8yOtEH&Zo+g3s*m6Khbx3t6EaC*s@8m0vq0{{r
zI61$=KO8J2Tu-9Z0dMJXSDrdKl&@x+N&-@8B=)?z@w)#2*=lq`=9g1c$C1s}Z%d7?
z3~?Vf@V1&;W2lL{u`30GyoDBurhqHh>Pd*(cwNCNy1po?smqu^eXz9})h_Kl*toV0
zmz>L6B^_I$aV4PPM~$<hIW$ELTi}$#DLZ?V9ch+2q5RRg*eKmqjHrlIM{DvzsAX=!
z=*})Lf}J<)5=r!KdP+!`;~bVOlNtX22)f>!baR>DaSV2B0?O!hPGo_m_7<}Ao}R6S
zrVq=`ZE=EB?~JTwt~6!k(#suZwA}enRA`oN?Uw~@UriBvp&hs=a}!v7H;<xhiKS>r
zHPbxew@ozfKHMtO9Zx^09q?{I?!6OOqGzT_x7A>^J5$uy@pU+4Z$r4ztkUL=yH4L3
z9;gbr^ZJe~k-J{p5UTW=$5P5Ah~77H(5&?@PNp$e6N6=LNdBbmMo}U4T?4_t(D++^
zmm<0bNZd%@)B?lG=G0S{Gz*6Cr|E5GqJmI!gOTJY%k2+#d&f`Jg9w5^E<32YjgEna
zSpNV?<!7{wUK)ya)I{#y;o(_TYOI!+vO)`O-7IBbYK(<`y8i%LN`2d!cv<S13njP&
zH1qI{)+w6G*SZ6Cmt1@*>VjO|q!8iC?1D)g?d(yqR@mEjVuG2jYt8NpcuHJBv#nxz
zJ(SF~NG-p-4t%N$WMXpv0DJ5l1&WSnukUU_QPf8EJpA&XPbHhM_VTg?5Z%zcNW+Vw
zfMrBQ+eQ0@8-Trt03K8=d!UlTAeESIh~#6VC8r~@mX=3GeTLWUr<e!Fya99YlAaRg
zk;8`zCT4=+kb%9oBe+C8&8lDn4jdI<3!KLmoDhf+IGyn1^I_R7Y&K03jBPBDr*HE#
z{{WPdMi@W_?K~8;@;0h6*B!Dq3Mi!!ywg-%G29;oV<FLjxC`ZKdSR5)G)CeB#}`>C
zOPKAaw+{ZLH5Fu$$#}_Zjp0W$T;rg}Ox1N(hq<P%k(O{C=7o)%ou#h97_#&}pVgz(
zsr@+|1fW=h-BI;!jMg>PRMr;#O<cG$xWA5NB?Q%@7wWh^z}m>B%Ez!CLJjTQ;s7Ds
z{ZnG~8eChSA$k-^lT8boXE5OKQFK!WjigxG#3n%_3wF4Y)6c?=NX$?6yS>3o0GZ${
zaeQ2OOoB^`I02g*Cq+AhM(mF3pBQj2jQzZ&qYrp2Al~gf70qj8_Jd>Croku;*)JYE
zCd?fZw*&3BWX9}`!R&vyS?%xTO&M&>@KU|ZsbB<x;4o0^FOE&F<abKVM6yC#?{0Bt
z4=8wCV|Ckoo;)H<_HN=c<H~|-KJSl?;Gk;zCuD;7I8*vfk}b?R9hFQ|n4Pfjc=%Ha
z*F@`qe<@vsX_gebgSMO-<K;4F3~t`v)8fhTNgYIfq<r@t6!A>S2G<X8PMMrRSU?ta
z@|Exp)ZXc3vrWLqap5{C!*17LAJR&3Xo6S?{v!>ZJA5T;gp43uIC2pVc=!lsun9M`
z*$#t42_S5D1b0Kdu8a_JJ1Y_+nmZ9^AtVm~vEugO$XWu?Un>ioZO17hJ3#~P5e;Dv
zC-(`mMW0qKdxR__2Vm>i@NdG7rG>fe*-N}0IJQFV!rLBh)52>5RzXcGn0e#-qkT5Y
z-&Q+ZauAbKmV26Tx(Ob~UB7UH3SkWH(~pG5LL4sJ2l?`(d1TR<1{^tRVR^myLt$#h
zLoAUx_Rn^wK1Q|TdUqDP$Au}0vNL}c?uC40919dXK<lGJrR&9vw3#2w3caAzqkdZ;
zEO&1U0?};$0A%3#;6AN8&;86La^>-qwuW=$sh3@4q%v2!rUroSNDC(mi1s)TT6?WM
zF0c8R3ns&@ZdER&2=z>i7CqAV(v*K$3dou_3$)qE;N0JbC|Pmt3RaNdJg)F`Oh<kf
zG2Y?`&xF>J*Kvg-njQfdASIxtLiP*Yqv{h2gFz0+>{Otg!Gw@}Cb^xR%41m_lCj%e
z=HK0MYnhHh?Vul<A<>B*z~=90IZ-j+2+B9H<TbzoRCRRQeeAIv?2$`!9y+jM(BXl~
zk8fkjo-fmIZ*D?YusB`3r?3zUj9G9uHtwWo>{E6Ed?I0Dk<B(d6t4l!yKsNXOKlc+
z?vnPw$SWA;I^2cNu^37~x0KsBAhu(oJFk91b`A*2j{fV8f699t9x;R65F|CtxJ_wu
zU9^=U1PlzMa1QO1K>Hlm5N@S?qyqSNVulxG#qOku;EUhvfWxniuDCslQW{5x4(a5H
z1(YruaBfHVSi+D<#t->Yz*{Hq<pdMwls@}h9zVi%?c&7Q-JF90p~aqr<2#y4)aa5H
zhKt-^0c5v0kk{aY$nLZ~J0{=&^N^)3ipTmldUc!u?5$$37O+&>VIssF5UtqYMgoyS
zc8hVskPO@?SnCc`!>z%(QxmiYG+bpPqZhDEWR@ysk!$jULnaF>Kyk{5iyNFH9s#-<
zM%e+ZKyC_(M&pE~<P?R#_d<dLQyDEb=iyP+$uuuFX(4GOZTUmZPaMo4!|sP04bh*1
zzCGcuz*a0H^)TFgD!p$@ER4w=!-p1C`ZliUr2M@_@r<p+7Hb-J4}{0Y3B8ijy{}_j
z#{v%sje)@m1%VjsK8h)$ByIs5_H9v?gUHGa2KH4t?KcTTfSj9s(RDE3mf=-Z?v2~C
zg^`=EiAD)POkT%x^ioArxLMY^WlMvbenMrSp`uXnl*bEO#n6v-*Yj+tVV8hK!gM1E
z5Vg&-c|5B6`d2jW0^UNkrFD;MDJx=Rv64AJ*XYYIIg;*Z_V`wmu}3s}nmFYPQyZdn
z+S}PbPpJ%edrgSsCzP8)ID16XY0=aIS}fp$mW}aUrJvbosl6(I*%&~1?4+I+Og6X;
z%3mv59b->u$jJuYT5O?w4%v2#wP~i)$iITC=A?WimW|Es3V7xgSgfaE02aNsYGl-{
zAifu1BkEvl^2`(rW$-@0U~(5ka$3;`3L?$+xMgrYo_QV74)muOw(o@t*jjeDdwVDB
z3r}G*>|~7&Y5OSZA_b&a+$b3LLhHALbaFOk8~{R#ZY;GXfClKzfw=if>phole1eIZ
z4b2wk<v<y;;X0C$Hx{%G=uOGB!bUS`@Qi64$|^cw@wv7M`3uFcD6flxoisth;8>%5
z0@fdI)F`9`3~+}daL^=AAcj15<w)>b@;(zJBlMKm=GfvKZq)i<+9qR~d#8rA?X{54
zBXDrYB|VZ_#3XV08A`S}(QP=&W1|FTl{;h)7C0-M%NyJFQg(~QsUip@mX<)~UmUF_
zpI=R=Kq8*O<GP_H?I57s;{>~yTm|?_(wUlZ+BCHkzJu=EwD3Y!5byxy2d3(ttU@_W
z`~s$y?0)F-3XGuFWg|3B=*w<yQ(8++`5dAtWo)tSb-(bUtBuVb+lzcC?J~)xi5s#@
z4pV<B%iN2q;ZpWHCn(xl!0cY-H8d`)k<dn4VlGOrs-+_Mxa_TCcsb|gbd3&gHwl!Q
z7Ev;lwC-WJ2w-k3d0M)fM$FeZH?pFx)1KRq2>ULGPweKD0GjIq;Y%E(5Qcu{dtGq3
zq#S~-h_&`uwovh7%6na7by(R8asddsY1-leBMH!<o~Ag#QZ%0&C|Usk-pAoQW4T46
zCq#l%fD%5$+!VoU4CHfU(&8>YQr5=34kU!(#qE^PM%;Z9UE=5JjRCek<AOiBb6>~`
zF_H1%DZVX)tpz$K1fJjBBZaeTD1jo`K2*@S7UtJJP@`EBnoF%~S#_<OoFWTPCyvRE
zX$OoWW<wh5*mnv+Yn&*Jz`qtt9ESbYVWH=oo2c+YkP&R06&spG?1EynF~_#wx@iDA
z9lR%iZ=cyA1F=nD7+fq#I7}A0bexPP2NLg(m8do;#qbgq<B*r1z84+|<p7bE_px2}
z3H^w=ZGvP9D(Lh&ih>P|iT#$-rn*&thg8PVZdR8;(cxr!%x!m!aI}$W<i>V3*zmeH
z(j_T<l;=g$X{mqNVaGP%V!EP=7^U4$5DoZVmo}dFLIa7g<xuqwolg}ji2zt&l#+#e
z0+!D*6>o~6q+g2_Q>w)I<lf7YRgSLavS&5DjuhQL0IHp>c*0bQE$pn&^eURk?8wWn
z;4ez){)n_8(#M~o)AWv)K}QQ-=C<T_<y=pxQb0>uKm)-}<h=>ID>UAirj9YXCfpB&
zQPuR?eLWk1Y<vDfD_rX;T4<ieJQoh$SDM%BbL$nLIGv>9!j!H>5=(3&r>NgOOSUlW
zCl*?F=;e{P8(fQEsXBGklynZ=w(V~zm7PIMV=e?1_*8PGqHAu<<eCIRthn3C=;Vh>
zoyCr^BF8+ZY8u>6aV$3FW3_6ks=9|q16=Q-oBg{VWzMUv#k{$IZYIjEn^38Dyo)yX
zL23F$W9J{3VQ?i}&jEw@K9|P`#iZywU$fai2C3nafK@oOy6e+ws^DZ+b4S&D`OsZR
zbZ2@c;6~$<eip~6dbl@E^&@e1ISHjEnIDbWtk(LPl8z^P+AW3RU4Pd;tE6O7dv9)4
z4!zWsm9Bl>{l5gPHEdNim2PM*b<Px;a%E!`5UKSEbt;{%IC1j5xA0%4qKa5+hC{ob
z?!1pn>AIR&n^h<_z5!n6&~>e(>7DFw4`{dpl(Ux@()K^QJ$@!rLl9}T`vp_3>eSFv
z%M;wt3r}_BHJ^wxM<HXJM$_G6ddIG3sGDqZ8+W&b%aSs_G*%5TFU1W~H`bFIh8(lH
z4y4b0+&Q?qqSq?st(4rj+@gAVf$|f$k@C85!-Oe`np~NycCJKL4<qPRCZRO-QV`PP
zZ<KvLp8o(`#%@|TB_1f55f^Sx!s$|@oy8OsIysz|OL9*DtBpHJjh1m78+{RxNeouV
z1a?K~lS3@7WyW~=q~tX;PeT(OGg#rbX%_ijp31E{K9-ofZT&NQ{TH6mMH8hrHa=Be
zzg4KoB$PC=I>#0Vvg=$_Ea#QVbd0XEshPD023!DfW$FI_f)rGmg>;eEH~7AvvB$E(
zXqqUByc)4{eBEEr>JQL0g7~B?ZLmj`80C$!(uAsyR((w-ji|f_0M?sws`{I)H29)-
zrz3aU0{pKd>JFyWHEl)AWR7*sfdLuQy+2u1Gi0a_c|FMCJD;&sKErGEElXRMWGsHy
zaILye@cq-&dbO-`%Z@iKZ%B0PP)N<}1d_J$Pe-T1=3R|@MZn=hCQ<m&iPd^if;~9G
zVqnFvyp#PfL9cC#E@SWe73kez)|AW=vN>8^ayedYp=u7Q>KDuo3$CFC+hw|2K91?w
zDfL|%COx6sST3I>B`gwtTv#-WSylcU*0e#f&b90ieOIZPO<qX1W00Py88>t#3^9IY
zc2qQ2U8Cx}udQim#-mXi2==(GuD`AbDGfs&Jx}tywyL%DdW4RV#Fr9DQRT{CsP(I5
z$4NGtt-q9<fOrJ2N788Fpr#IK76U8Gv;pW!CnIXVuj*+wh$6e1N8anR8{%@wTcm3B
zJzh8@EC+G5zzT~}*X8u>6CQ3afx@}yUY?Uz{{X6)q__*(=&f(3Y3QeXa(h~MOOrB+
zvGL-!O!D1lTGUG()-c%Q09JmEvZ_hXs2ol10qngOR-vMgaCa*(+G<8>aS#LJ-Zz2a
zbH_i(=(Mo$Rt-dDsnp_?gs=g%#CKk$)1Q}uh3%2RI17uccCSSSm#KzB9@yk)a}X7p
z)l5Ts8cy6ed?%Ht=t$FK--%UJvu-e!f(4C_D*({hshJ?KbY&T<erCE?Ij+NxlrEpA
z%^dBG<d9VHTGK0$bkU}z)uI%!xQj^9lk%gl>PopFF$cH{V<^2Nr{%ACiYDFGMC*MU
zEe4M2mk;8y#@`B-lcGvCWGSgDb(*F{9F8QO=Y=aYM^nuB<^4@L@UD7(mZwarg1PLp
zE_a2lZ5=M5s~IC_@XJO1N*t-sR2x=hx_eHEv&QES(%?a|+v{4JX()k?!P`e3R9fDS
zG~*piEwdfXyr)N{J5i@(#Dd=8S~FBl;%)52YW3B+joe!D;w;js^xA5l&$reVAl-Vb
z+BG#iVAy^8Ds4`Nm7vJmZyW$QQF*sTei}vJNoy4J)DEYA>bGz3v0Yu%H>;4u<Adcy
zCzX{%Mo6~{E3bOauXrtY@iLXik(1&#sC9=_29{uvl^;zBYNrB5JIEzN4woe5(Vg3^
zaq_g?F-@??8;EYxYn8PXLEN31w&?7Fg_Uf7sMn0+f~s|AO8D4exhy;ds%2l~>4ht!
z^&xQNb}GX_(dnw{MOUY}j~}P9SkA_Aqt7GKwOX;3IyRh_5T&7|eI0JcoD70jt!lb_
zanS%nSQtOD^UkDfW=6?RmiKqhbw@u$)J-0bs8R?TUO^)V2)fy+OhN1|7Vxkz%P0ff
zR*R%5Wz?!&9H5qrSfb>TwgnX@p}M_W8qnt4{T6%ka#U(eX^5E49Bj6_ri{vYgQR7H
zTt$^_RUA-GBx6R^ADT8<VsuwaO+6hjs61}6tE;Y_rdHEL;!DUD3s+S<ReE%^go}pV
zr{!VkqN$_Q#FEBE&$Oq<mCD7I6t;SoN%Yp9?Fw27h?^_wSVP`MZbHvc^r6!ymYzaC
zg5z(eWp_!g4Kqz)%cgL^Rnlwjosx<F0NimV;cRk~yB0}BXs*_u6gF@m*w~d<scI2P
zNn!=9aH@6PMoDIT5r;gJzzVJOnxya&@L1OH4|Q6hD&E86)k|(8Ho5FjI+3fYkUk(q
z`TC*gX=L?mPFs?+urY=J2m>BDDdLkBPM(Omc2`HR$Vicf#d`k$;nz_L8II=z6oSqd
zULmQ=`B!g@l22f)dRJJRc;CBe@8LXU#73<i^{eVMvr1}rgJaoYdgE88{EOe}2H1I7
z%FS`mw75L&?k>Fdt99x135;zn5sug8JIJUC4(zPfbrVrqY~nyT%8GI7`f^*~s`$Zl
zw<}%Knn&khX>)~-Wz5}nRVxb7jFHnZ);odr{S}PWH7=evZP;Cm6{ypCY=5S_HNN1>
zsG!ruO*ykbdp~v0EQz{0VUJeLm*M`O7MBYvTwNoc1Ds0J^#x5R4Xcfzj3VH8L-fQE
z9R;QBxnnR8`sSHcsc8-|U91kaJS^8Og=wCf)ACV2MW?T)EiI9v_VT>H@yb~tr+sx4
zg5X);Df&B8pFyCh(yJvVBGTxb<KM#a55zvQn^d3ju}kdrEI>T1D5*LOUj*1MO=;|^
zsBF@>x$kw!<$DKD^yMSrVf4WuV&QqGN;){$$DYg7^c`jxV`r##n<_enh&egzv>HV`
z48s~0XRLh_M(CbJhXGsb{XrCQ631Y#H|i}~qPgc_APg>il5%v4V~?{tPaua=6y@cS
zIoKgtR?)~LY`aUEgPTaInZBW8n0aZpb#M9TztY(R!QQ-hH}I(z;`TC+D+I5M$xI6e
z11bs#B4gO*v>TfrgpaK(h_Spoi*kpGSs@O4*!%VtDd~vaX`1b@{{W}R1DYPdT;G+0
zs;G)xRn87*F3I|$rPgL-Vn^M%w%>)C)GAsl%#mMfjnGkdVU(2{{*|wf{Z1GpAaC}M
zs?zEjd~SImyCuFI*sn3u{d$*2Ej7d1K?HeT-q;(dbi5NsZ(IORoz_W`PA<{0(^Std
z>jPf}Kedjq?h41n`O1e9BYE;bUdmvKv8FkjwZq!rLY|AJXsF10V-92Zx+^MunZxL(
z{3g<asbhI(@k6fbj>~z~vkDp@L$-~%Nz=3u>GGM_&>DFIvY`A%uWZ_U;5yj$<$1YV
zmP63PQGw&tm5#0IdWRcqy_!~&NYx)CZqnrU?iOGrV|MygEG;K-c{lF0-5;k-QPdDh
z;d>jeNkK{~EZ}o+lad=%p|RIw(Tl4O^r(iP`Iz}&v)Vt(+V#$mDfIT$!pnPZSDVpw
z8)<4Jr<4P~8R0BkqTEK6Npcv?JM(jhottnLmr3d4NcPHOAdISwI=U$986#|cz?=A9
zpGfLy=ouqOHy2$BL}a(1c%gHkZ?@vgGt@dOUf0Ohg{_9NINIo4Z-qs#>P(6^gTj-Y
zG15HBx|{OT--U6cS2{hXKL{OF@2Hi|U?h36PMmurm`3xEcvVtqTO}l{)oSoXs%hS<
zLG_p}K2}a`HN+AD!t{MVO%g&J&#jWwXz*-t004eFr@Prck>yns^3zEiyH4BXYC2y4
z=Rg?0P-GPhoc@#gnu*jX;0=6l13Z0JUP)U;E1Q39{i-<^BG}&(+_e2p3AFs!hYT#n
zsA4t1kO1uB7GI||TBk;0B<wsZy+!VQ7$p0ExF|;hZo@3Aq57ReBBa>TFUTu7RjoL{
z=$!kxynL$dQoeVR#}X}tnx1)IT*e0yTy15ZC+rGH+UQ!Nz>(X%#Ny~ar_>(|E|u6N
zz*!Zb>CT$6o;IIp<y(Fsbi3x$T3~0m3!8aT__;nv=~)yNKFSRh&#0(jj1wEh$HMjQ
ziik)fFT<E~^1P3roFRMZCm9$7_91$1hp38YHN)st9<)boS?T(eFuzT^K(TM^SB3r}
z)5c^aqiliKZM#`|%^tY};dD|w206GlURC&n_DxXtG2QGJ8;|aqFA09FFs_tiH7zD8
zg5Tpe+aU5sbtbi@2gXL#7vUtWl4nyq*!Wuxp`kGF+%G|<k;>i5k0aD+Dj@^{?`~~$
z1vzBZP4%s~8!fJ<16=0<IpJZoxLpLL%ocFUnr_2JgWX3ZiT2v<K0?Op)4IP<co-M4
z_*#t$cIvuY;iz`mS}wvo_*wdj2_UF45KDpgVGcjG#*FPz2TxMIo~$^G-Fojyktkqw
zfUsVBNwBf9n*!cet3}o0gaXnp^-V04iboP^k3{sF4~3cQtvR}`oc6R0;1w{}g+(cL
z`xdI{wV2CEFSsEm$fejm2A!UB(~qdo^=DJdxzIV*vEh1yp{CSy#)ewlx8STUu;^-L
z^;!Wp?4{7PhtN*e$ssZK7gooVN#K2(4Jb9G)YFTW-J<Is*Lq8$yW<$W!3e3f_|B^&
zt$o^mzse&~)gZ3Zp4nbEFcLmfywK^3@JqCL7Nu7+Y{$0FZ}(PRHA@zv-{Ld^a6t&F
zx=5;Ca4w6{Xw4j~m4KT&g$ZPhXn0|eRC-vTm8~qZ4neZiXaX1i01UKba;I<Q>ga<W
zGi)CPRT63D4UFZdvXnA!Wu7LHq@P4%ee5_qk0{+dG7{LH2ZDgowSeXb<|E-7Qs%jW
zSjfL(7gsdSeiAJzsNi&009b{B>dH1jDRT$3tuu8eHKsD`j>|386~b6v!l5*oY<7%&
zUZ*7^Wn^#mxLAv*=(QnRPx)z|ar}h#Dzj9MNeM0C3#LOLoCgvCDe)&;BbV(OT?Ru>
zsyBW1Zrbm^b+M|Xj;@XIy25K-H+fXLUYZ{Olnutp;+KEr%tYDojm$nrg=r@pk&99>
zH83B{IvD{DZ)H<er<PQ;;2o#?EhkgY44_p;JvrH8?$<y;G*xhigP#8Y3tgjCFs&4r
z0NPGCR?e8#KEUn%rB_1sT*TAzv>HtSs({ZC_qPsei<K6PZ=gA-T3i|i^Yl|`&2=Q6
z#*v=N;wX)*1)bea+ExHxgXMEPg?=^c6H?QnsHHUm!Ne?WOQoTzAY2|+(^9GsQkF92
z$Ay~IoB7y`rai6$!sv>$BW*DKH&!*2-h<9S?w(r70qk#;nW1d3)Rvooatgbn-N3nb
z`CEeQ4s5y6sv8^qIgaL>0#=Vq)L~$C8-_`{50#LKrH=vF2ZD`hF-p+mV$*iH8DmWY
zoAzj`s2%A#U^fHERTIwIGwGWUe@XuUg?pvzG}2RSn6x{B3FT$_x}DKX+K9<96LD_E
zMv6t>W}iyiSEUeaBv_8CrY+xbVmVfQJF7blxwzzcMRi;(s-XPbW86Pbzbm1_<Dx2b
z=<_(7=_L$l_YMlRY?BxWxesVnzSdQ5Xtj<)y`>RO!0rzUa&(G8TclUhYA+xMUj-3S
zU3l&|wp8^xa|tFklYa`bS}K4`NI$YFq_h^CdlH%EcbAcXY)aeoq;OQUMKBg3%ORpc
z`AWdbmY+rD&iKD|uhZ$I(rd#XnA|TL`w*?;$wFLN9Px9HBwXrUJ9r6<WDB(0m5bEc
z`ci$T9IsT<>*1Oa8_2z|R!^;T_G~o~H=aQM04ugoQb#0a){Gmfnq|Gfy13Dxbyi||
z^%<LAm6z2TV<GMRH%I6io2e>UCgW?^t{kwVsuFEk>6#sUv`hibC4&!Y*Xb>#u7t@<
z=AFRUcv(F<dTQ!1JT7kgdxg+++Kk!`rrDZYX(VtGH~LSN%O`p-8Emuax+5DTE@oO6
zo!8Yq?_hVgvi40~^t#TDWP$B3+uOSF`RI(Z&mP^bW5^=N!fol4anYPFduAubL0Wwu
zT$Qmf7ZY#ps2sr^SEnXB1bj3vjCzreZ^G!qkt3Hfvs+hRNnJ^2k-pv5KU$z<vI4+J
z2I!c^^Rf2_vX&je{+xhr9Q>=#HzHBRMYm3AqFM&qBoA`D)1eg77@zhi9R^VYngJF+
z-Ct@j31Do|+a5a<o$MVt31isk%u-me;d%c6Tj*Y$L8yRThr-s=%t$SA16-2yu8K^H
zSR|Z%qefMu%;Kta4s<TPjy{MwxJ<3~gL~kjHQ0<bMBBa*+AIR0t+3A-St~1NXcur1
z$lFLb`C5v4scD+lfI%4wz4~vZXS7&_Zv$hfr2ZxzJEJUNj!RU-sI^k#a(%#eQ`Blr
zsJ8*b`>fpeiS`GDUstF;B3#0LP~z%=%h{u?tS*hsCkqwSOmu*_bLCpn*T+`@A=Yr@
z6b);^=OCy&bnO?6ty3v<s;MBT4UiKVHa`mLXSt3386}R$Lbiu}q-I)tD+)LRTeZgH
z{3ff}lOxk)E|e4PH_L6xzMg@Oi`R{y5&D4aswIKUkVwEVaIC4TkELUR20`wnk`J^P
z$g|PqeJpNtPPn(Zs#&$r&{$n|IQijLQ&z^w_q5rkkblB;eKc<$n5VI0zf(e-KbFc#
zTyz}_!Ogih1o!ZrQyXd{1~cv)A3qA3f>%c&iRR<^N-#+Fdzf#Wh1#@nzQL+m9d;jU
zhanH|2iu7naEz{FW`xYo_XlgCA$X7naQ5?+K~o8V-<piM?X->kL&{^IH!ff{9Hpmt
z55Jz?Rg4jf-12|AUV_Sp2NrE3EjTE5xx|p+V|9I7OdQhq`Bd^oOS8{p(RL2bqj0ff
z@)1!DvbBWT{{W@P784une(3fwkB{K@1qL5PvM@`)w5{ZMPtq!x1wayyVK#Td8W$4%
zg~Uq3cDu+;n1@NbgTsQ<V)I+li$JZRb-@?MbxQdgQ4!qRNI3_UZ=h<QmnNE^?t%Ev
zWX_?|#7}KqGlth2i*Qo6OyAK}PcvQxG{iKI(&D2f@JM$O2;sxJY|Rq1J-*ksl;%t7
zH`9;;dlXEG;I5jUVN*`x*#=xZg>zNZPOYR4wn(whb)En;hPdakO9%{<fs67!RA+)R
zcE?hrG3_!w{{W@q`=kNRcc{QOw+<du^0lDff;dsg2tK0?h~-@qV;l({t3KfsOdC-a
z%i2NNL%Fgydr$uWP))m9{{T^s+V11Z%qMO!xy*J&)1#HlxxK;grG2X-F9y;N9ncLf
zW1I*-AfgmlxCvSw)9wl<?-4i>NF22`o=^tc=eNpqvf2BF2<0fO1JrbGyA7;vixW1Y
zBH}|{21k_@R84U8V-^RI;R@V42H*0FRvQXqiC_d0)BTg$Uc<N#Z~0E9vySGAp6xyq
zu3%^u%MbQS5P6#%p60h5!jIA*3yZh0Q@S@W++=ntX18+<$Jr19M(5K%d}kl!6zK%5
z62g7M^)*E1J|mXyVdvpO_}v?Xu$*#0Sj;?5*SCvX8Bsbw*O1|GbCnBSya{9HxJ`VU
z+qK{R1jY&yfNV|M*r?qzqkoWvW!da;J5L34rOmTnk=U$ipte*s$8fjN62c_`uKm?E
z;?gaGkE5t;jkAr9aFLnsq0`1=b(96-{@fABQ`AoGACNdgRC~XP8L>yO_1OOaMY00s
zjjtSpJH4XBW4KbqI3t@ozsgAnaoj%ZEgFQ1OA8wo{H}a$IbpYj9I?0p;rdcU`&!1u
zFbSfuHocs>c909LaFzR9(DvLO>PTGIdrllbx<I{=Lh?M@x|QHK0tLZLnj+70EEAx3
zck>+bv->d%qtCYmb8p;P<FcMcdS_|i_fX01c5v~>$|-_|z7ZfYL+y}q6eee7uLk|@
zrQYGe+Tf&oO{s0b+VTC;xURwI2mo)lj|uLKhKDrc%11!>-)mXj)Qq_AgUIlmXg!aN
z-vnJc+fBkoG+gZ_$>o<Dg{}S(&?sz-5;PtjI7q<PjgPQ!?z!VPCn?Shdq+FM!Lm27
zf;S7_`=&`A&{|OpcJ^&`gOgifc06<4DS<BL8}N>%oJie{0Nf}X#@lPY#YeHxKK8;{
zMKGsCvqE8isLYP)M#jk^^&>Yu$CQnn7VUmPQ3n{L-5=?{3oA28^dybu!o(&9hvX0s
zglXA4Wy}_JzjO?svDe^)Qv)0eUc$!_bcLHuuW{I}AWR7s4+$WUhk9}gqGC5;-{o^%
zXK{pNl%$)m+<g$T#^~Ndfd=bZH5}$QkfCraHwjDJ1&Wd{;x~+r-ctb%jr*J6q&B(o
znp?H^93^(^hc?II1QA`pzu87xv=>~3GaYvu{nt5y`S${ehQ%e0LLyd&GQ%N3ELIzW
z=w%@6cL-Uijli_zVKkc_E)kM2Ikz8V8=65pqA0C%TsD+ulUV9HmKT1Li=YTQu$JVv
zX}2k56wqTTXQ}A5QOOHl$Af@ut<1x1#lAxF4I@^l)8@9~W4=Y!{{TzXBdw-unD9-P
zEaKvHCYgWv)(m3{zdFuAS?Z}|1eTomK)$|M&55>9N%{_rtW}Y?V5!AU+Y#Mjsq61&
zwa4Tus%qBBPjc+p2F9v14V{h`1TJ%$;cTp&x`UvS`;C#*x}bhbuk|P@32QI3p5YE$
zdoC3$kYMxjklT=rAlWNOaLQ}&3BS;w>M9H;e`N^Nqj<^Z<puznkjYqD`z%*cY0in}
zSjKx0v~@LB7Y5-0Q&$|U^xtKZpfayP)}2g5GlOfbT_t=nv^lP|{#FB4Ya(%Tc)u&O
zjbsOUMc^I<%4Zwe6+g4nM%kmdAgE+*iMaYK=AW+mFAb5vw(CO;Wj$0|n)c**NW!}#
ze}^Dyp=+)Q$~s$daDl0Pjf;v}89OK{*yx@}z)-fNy94!jDC*J(BL4t&M_4wzxrBu4
zV=#%I?!O1Z>Uk`3P!QGbJ0EL=^70Mu*&1j|FJYF=7E&4S-r%Y_dc4`l!7aw&`zD}T
z2&rpjVYUsG6;}Fr3z%%K457mq!UIum_>L1Kg>UG7mtVQ#YxcZ$S_mqeGXQoTy!r2R
zQ*H*ta8`pyt#pkIdC2agmlbTLIjLyX#`}$~7f+UyNXrxjB}+)!<DZpjOzaC~LB@)y
z8O=(G&=U5Ks8te%NC>r@R^q-UNXrni`o^5*lOqOv`BcR(vU6H9(>3tE>`rA%9NRo+
zy6N8Lk{mFFkhGhNS$8IKzQW5v9?}bc!fl-yFJ=Bv(8}QMaEWB0%}rKh+(IL$4g&o6
zNg-o}xICdGW_L8M-FA_Dg(r@>9ZfOMbD4YPSZQ@lHe=6xd@5rzgZ8-n7dAq}xE|=;
zX_~CtG8RhATk3$Up?h7qxj<<;xnT^GD*8H@=4c}!3uB`_EJ6MO3cjirG}`9NOI=Ra
z4ed7aLa%%w_iKX6bSsUNk;+<Z>yW2u-THV^)X=<L%xSgM4T@G~%BpFSacG&Z$UVX$
zDMjq#&y@gf=G<VW65+}XCKTwgENQtJ2f`Aj17Zt#T}xH5!KaSu$8=J%;>(^&nRv?k
zDPv({!MeVpoEU>%Zh@K>i|tL0U57k&S+^t(C8f+y+|y)zEkh<@Yrr_RRWl{t!f$cm
zAakR5BKT62ETm+RcBMhL-5DhV8#WsrO0uS`Y>f<g&y^iSKn=hoO|3EAF<_I1y9#$W
zSX;uZZ2L`}ghX;~7X%x8rf5Ybp34e1jn+NUQqwY4;3}aZ2ep-j6;<pB=gOP3Gv7r<
zt)qvqxr5!{EWJcBQ#^-*ju)fK1g#cT8lIfV*yFb<`103er;pi<4h5+Li%r5KQPbq6
zd9~~iPI(wBt}Qia=WAt!Jy8S#RfKW}_gVIvsp+a68TeF8og(uf;>ngI@S>)juNf$Y
z*qej&TSlTiq#FRZxZ1?nsoA#QRL8Ji9guy63~9~pa-J`B3HJ6+Ypilg3}RM-;m6RY
zH{-WBOav2yj|xWQ0B(V(nm1y{vHjD#Tqs%%ymtyl6K{kb!O_w)$K62oTOa+DPT|}X
zgfyc=bO;G)Ch6O`3Gy&l<GO{{2gzHrSo7d;qjk^KD054=DaOXYcUfoz4&$GkCJ}Rk
zWix>!l0Fl5;E&iNVzop~y_12k%Hll#0A$-(+UWLS*0IV<4+V9=7QR<+cmDukWE6V`
zPcS$JoB*^F$l7LH+XJyxQAQ~UHnqM}bt=DB7c^fhvP~SRY!bg*g{*T6t>CO)yRN!o
z=-PJ+aE#Qns)<XU97X#m^v;@W^KO)jkfS`2uFFOZ?88ezQ(rraV>cyO>6>)f+Q~(p
ze6L0S07QdJEt$gYw{?W;Xkx0=qn?@HrKf$DGRtng7WnQqf@`{_N^!CmxLb=AL8<jU
zRD|8`H|`Y;JnoU?%HxMwH&~V^*du8hm2c3CM8bNi*+Jam)AFxjqVyw<VB2Eu!l&ub
z;_z&2wYr3iW}NJMwxHI)*;`wv$s8_YUCV52sj2EFl!liZ0*j)fsIQjMf<ar3p6I~(
zV(Hp9k^2<Y#cUR2{{YiOlun#G+yX15sAGapTA{6V!5LR|S}c@LbZ<YyCcu0w{-aW8
z<uEnbxyVZ`>c)euo9OANXQgbcjiVicSoA77mlrxQbKPWg?w}A;HJg@;OX`XvM(ytb
z;Cbb8B`EZC$*CZd(^_+6_geQ>fBJfsqfOfFu4fC(HSVL-sx?=NXP-{i1TA+<Yjsg*
zrYfhCD0RU-#g%5}qjoBaYy({BiZ(UDyBmdz&}dl>zau1RA+N!=WwO=lDrAw)Kct)l
z9+?C(86}Vg${q?BoSJ-%mMJY0bra!iVhGu9vY?^YYBcE|8(e)iV1Ty9nvSNatdYZU
zHgHtkW72M;o*J5F{{Rj`cMl4RDXJp0=*Q|3NvLWzk8o?<b7g-oMU$t;Qr2!H`<1?x
zr%=M^q;PKb^K!M4>l$r67S~A72<_!%B|^^Aqsgl}ayVoSds+xRks5BBwo5U%;T6<c
zv{UL$6z;g)$ndoNAx9ML-7T(DU5vE0XDcaRO96RdC&^TmRdYR|tpt#JuU6MI>UUEH
z;=uM;tyYGb4bF_;JT2(Srecg$lGGNESPku!VWd+}6VCUM-;{Kc!qPan@St^UEqE6J
z5QafC+lbslgRE7CkY5(8*=85L?tG~9cw1E~g|bFIt6`()@w_$F09=1`B`!;g6N+0Y
zE9peqhvs8x+C}(OJzEiLV|BB2>Jw7aK_14jpb^TU*7W)+iWypVm$Y1ckc?DNWj7~m
z&2%o0O*K!cFdK!ASF2J}(Ln=4O9361lT&I<(+H9yV`~t!bb5@MuT9j{)5t|c8L&L0
zo0awz6xpw?*XeZjVePw5b>;s6h~0BhElK>N&8@cJ*;nedl@i2cmF~G7RyMX_ETlce
zoA*L6w{3>#h{;o3F?{km&Nt<3dR~q?S=#b%fI&UhW(sGR8d}0hI3aAbib|=YiGhS!
zpb`~YYoKZNY&5-P^sj4SaR=&`U#gzIM$aJk0b}!I%_~e~EW6Fg9F&!{5k&-yb*{_>
zDLO3}rf0g2R~W-P2KiZP63@*L?*3JeP--FXw(N{7#I;08xvt94j=?{pQu%EanpKBQ
z&^l_s`5Swii>hq~8S4W`V~7|ldqqn6Mlt(&0O1)+R4ijm^?$;n1w5t)00V`VXYrb8
z^vda5w1(d8KM9&1srgsOFm~UNRNsnvg%+=(Ls0n|WDVMLmB}gow9be{a=)|2E48U7
z4rwOn?v1C8qfu+BGS?dwngNZ~-3UI{94$tc@5@=t?cH|x@Q#_wno{WXO3sa;)oCG=
zyuV<^c*67Ux9P@dE_2)Z9nMwWmDW|XP*}To`mE1g^?P+HcSPn5-dCe2#;D^`m6)h1
z;fhBw*1<+;?G<uJVabSYSqi5+*K>h6H^S2NJe4uldZs6q7VUO93x-(f+B%~*RC<Tu
z+r)E6ERldnu_wa2>pHqt!uXm4-0^E37GFqoqMvgdV{=Xb=F0L7B<dhN;qQIza;3sj
zm9o5&GqsMUIw67n*EcK)oj+e4Gf9wu0K(Qy(c)M`ow=pBvcq*onJ%328sBKaAR#!=
z&~{#Gy+IvSD<ULWuDy|6A*|EKDTYJsaob|NvTCWrwu8rIJuQ6j)VFbSUC7GZ9a0Z9
z^m-n-sDSyQYySXCur8qK%^J5{m~IYiH|0=LnQN+quOyReuWS50ik3Yx{?O(P$s+|F
zuum(hN0Ie5hV3f5+Doi?DzbVgD%dR0>2H;?{7}{Dovu2H1~uNGxjsCqjVg*bL~}aD
z&o(E*q*d%kFGVbRQ{b98wg6gg0<+ZVX~2%67PYa;EZ{piS?l{LqGQPd+^jyStC3at
zc08ENu0{AlPm`o*{;Ou+r{VtqP-7r?{XW+pD|w^RvVs=2F@~P&ANYSHI~wwGa;`P)
zd-9lwU$FzSm2qWL<Qdfx`jM9zHZ+XbuP@ZKI%uYnk<J?lxcaMYb6KdVr*wN<1+Ki)
zQ*86pyKy)-<z$?lhSF4RX-slCq}y%(0ClX<Ya`ONXl1>jnSc}EtX7P`{W>QBk!HL9
z04qy16#9;p8ySNbJb6z)+eF~0mmPJl#`b!VIkqjx9zw>_>QmN81Fx`!cK(-jW{D(>
zbGPg^A1gbcH_?~Uk+v;yX$4Lg(kspB8ZMimk?xpEE`OAt3QnM)fsuNSds;^qQbAKw
z8wqPfdoVs$E2{OGWG;?ZlHtG#&YGk>Q?|>QYnc5q`+=2)-1blD-6DNrpgr<BIJw7l
zhSTe3e4(wr(sI3bq5U{$StFbpY_eQg3AFkprs-Np+UELA^&8xdP<qW2Fw;A8TH68&
zwbweHnwmf$A<_|Nd=-P&^-7xBhgsxC{=r60Qk@{hB^zZ!TFCVW1`z9;D+f|a=780I
z)4d%e^n$3k6KmaA&8Iezpgp67=))6BXB_e?(T)EANA(+d2hm2#Xz7V)0DP;xR<1Zf
z4J#F`>fxo$joCs-3D}y|S!;+7BzRN-jjEV6jV^PIfF4&tB$c(BEM0yAywN&#r0Oh@
zzrz;<SwdZxi&aK-)G|d-TO&&V>{ipD=VNB{kA4rz&~-OT7dD=@7+mo70P7Cu9*NPf
zuKrwuhk|aB`7M;C7ijd3pQw$|G21N9(r?{W>eL38RGLT~XyiM9_$yCUr#6-##<T%z
zj4ZCTsYe^E=LZ4pK0@P@;`CZB%RLWWZ6t1rSqF<B3un^W{S@@l(>cu}HeWyM`j@3U
zpA>{P>hGdvmPrJWPW!*GE2%q;i6*X@x$DZ92A?B6Kpf5pIbI1_PS@)0bVbFEb^e8V
z&aI<YYI2yRmF2d<DX@MYIl5DfYz9`H*S1Q0aow>p%GDX|5r#M#>z*uC^(8~AS|e-A
zWQbYT?iF10^U@E?Iv0oD)*(Y2HIx;w&ijq#*76lHMKxsMcSeSu8p^tZPT)?{g0#AB
zff<dhd<}EEn<M&ODp?IY#0~Zvma|ccDrSizummZ^CUqpyn5xlYZ6$*Rz_Rm=b53Z~
zghk>##>B5m)-_hc3yHu!3i3X;)o(8LKizwb@RKKJMmSVmnjJetrKDqhOH6qLt7>`*
zO0k$&9orq&Z%gVLYK;k#ODkI|8)6C_-B~1HepWC;P4DF@Q*TEsoKiOJ=<01ko=8j$
z+*(H+)*n>-I+C8D*I~0sTRxBLKU!Go90P1^AS-{UnkxDuQx4Kx%b_fihhR}m@(zg5
zqK-)ffxDRNS$aJaAfSY_5E$WbK2{e})ETAf%$`5c=N7yKny*(=HLi=)Ac2gh<gy@f
z;>(>vN?};{ZUDUHO;4yco}JLh@aFQ;SDaM!J0-ae;UA^zkyq0g9)10fl{vxC>QQE<
zpR3v`%{e~9f>wK~YJWXe>PX$V5sQ4RmbX^wd7Rc88{HGqdW&i`dSNTCxxf-iSm90b
z8d-R%L3JHC_~@Tf=6@BO4~3`vF)_NWu8<4d0=3Q4BbByu1)MBaH%6tZpz5jVqlv;W
z?3GS`WZu!~J#=FK0Mm0uZEc3%viWORlt-y&HgftGtlwVk4oJgG-dndG7tfl$iK<Cn
zcfjqW@`Q56Q|t~efqA6Qzht-VVivna*QBSXFqtj4i<OM&>KWSc9O29Z;U8SXPf%hv
z1mGVlsm9}If|WXEj<Z~Jp5{20eNb^vQ>aK7>yS#%z#hu2j^OaU3#8~El88=6y}XYI
z;>4u(9GM(ehv|Jb)>AvxU^}udvQ_#-v^_}1!*Iu&73zYjF-jUp1*;vX)d}^+J)>}G
zx7l>&Nkr$y-y>0_GFoUX<8f~sA+;*V;sovmq#h3iUQxm&)5Y*Za<SUX4rNo}eZV5?
zf;lft>v->Gcc^s+?jRhjT~$}DKc-J7%DL*eB#U#dNxv&CLHtUf4?B}an-)=VR(f|r
z(|YjiaQ9xpUutmrOngt~*i~H@Ag5~{ac))DRLIF-^;mPavhIphb307)ePeg#UwjLy
z$_jGrL`%qSe(KLvJArUFQfYCqw0p&gzE?JP#wD<)DH@)Usg63Z;zk#v!s>e3GrGqX
zvherUnijf1>l1*rojuf#{EJx9;{O2nP{8%F{zADb2kN>8X<C@7h;3<hY?a#ArwdQ@
z1b)9K`o5l8z<ow$%RNs*>Y8&7StCaUPa@vK2cqIGpp(!HFC-2KC@p?zUr!XzB$ww3
zqA2E$LmZ7aX|V-f>Ct|26GuNFUNTcGOR#gT26P=q<*S)6Hr?1SVbmmpQ_>qVZR#{x
z!FYWnFQBX}H)v_&<!tn>p!8tcWU#e}y67a|uwJ2OrM}o$UZIh)L|y#LUDR5oJh8a7
z`B*x~zNPMDV*IE{Y_fKVIx(mHL9v6&t_t01nh<<muxoNNg@NhEm}^DG*EFwP(`p%4
zr)_x~h)pGEnsm=K)M#H#8-qV(otsmZk@hzMZ~B@s8=P_SusYQ=QooyD3TdaNS;?-6
zDY}wh_S*Av@|&q@b@4zX0nTT8c0khTbHh~7;B0a*wz@u$+2Q=XL}Y^7WF(gubW#pd
z?8@j`xvX>Jb?$h-l@&!)?Wz2`@3~k*({pKB%l9<x-FBN`g=wg1@kj*0gVY!)pyK3d
z^HH-gF`6d&mnt^u@-?BQ++gKsYv=>0_p}pX?h6}RNh2gXTisGv(>bG-R2bb%vQ5PI
zy4C0vu+%hM0!qqh8Z4Dy?r8-4Ee@BYPelB*@}rXuj)-Pvwq`TX1%}4ml|$tIDGoXF
z<r5p;8W`euRTWdP%vrn#f}se$j)#(wWaI2EYqFM`SDB~MF5wA5c^>%pdxLNk4yKq&
zWZG^HRpX75d86#ImbyUl<9w=(MpG-v1mzziOW+Q-xvGM?cf|4txH$;CZ2@MB5;}H0
z<*pbhkD?Jg+v{}<I-3LR=K*d}6;+LVVa+3qSge$m&@L~tNz*lr07T=9D{V-!D2&Z;
zy7O3dV@)tSyQ_z5PN;-k*D2iCpA>AY>Xy1)#h*~Knk7upR&0B$!-5urP^)XfXl?GZ
zwIG>;+S1c}s$*@USz?nmRMd_P62$wsX5Losquov^{YdOyY#!C;9Xnj<0Eyg=F1A`N
zsOtpLyzP_q50wnAyB`u>jaH?nJTT1{1ygA+bb6zy=0C5CtyrmwZ98aiB#bH{q)$BT
zou_Nq?aeAsYV5qOsE=RL<blnYu$Ue>w*^y4PRRwD-f@NN6x6i(j*a<gz%I6L=gPrq
z+Em(Rq+25n-hQLXzb$Bw8`+zz(+e0Kw1PM)I!(-V?d}V7$f@gSy(>3;tP052QAtT!
z=;Rg!7|ZNgAc(d}7`>5hiM22~Ghp_QVO21P#7QR}6u+F<_T1$eJ!lYLWld}6r<8)?
z9@FJpY5IdJ=v_%O#{Snq>cO)#O42ScRUD0$Dg8*CM|-0RXjy)y%7aP`lXD$&@T@DS
z<#j8V#}E%Hzos=oJVBBVcptja!8CF(i;VKSBNWli$)<UJx28UxV(<;Ss3|9ORyX>s
z$5GR;vBUsJb?176y&9&2hLWR`7RthY&5n&#8=lc11RQd-@@bUwusyM~f;kHVqaCw0
z?*1FCmFapL2!t`_;@B!N$HcSCWfgvn8`wiyFWSqr$wgf|v`X8F8ZS*L?0hW+XQv1v
z;10__BchW~4rl7U!SI%G8ZN`Mh^k^~hNj|H8y}QjqR-4}(#CT8aG&{sAdW|Y>NgHQ
z)DqW5=Ev*8ZU#@vtaHkVJSxv3)GjI}rI1?32sW|pW!MQLveb2+p2>gf>Hh#zP24_J
zE}JVPrxI9h9FFO^siAndFy5Qhswk=eYmU#Aqn}fTwlc?_dn~lHg``wO4#Sc>BAHI-
zus9QQ!3r|Qp2k;nX*3;DY6m)=Id?{Q1n`+(QyH!`77TN;;pI@mUmL+UxGG&u{<J%{
zZEzRmMky&BE-#4Pc8)rc`G|1tN;jpZ655ibx!@lvn@`jLagIW+bhpJNKrFCuI3pHa
zFp5m(o3v`B>BwILpBOvG7*sXXJ6u@dwnp$)%So&<LK^=7);alAolQ>3qBF!mc;qI_
zi&lY-bm^G?0L?y~?K`m3`z!r3Uu&W<Il$k_&c{ybnuo=U-?|#Mj-rZQ2(m~vX{7o$
zG>vrRzA`?SL+VgD@s>PURdn92THx0Z2;?m-VQo|bXo$GvDs%Kok2}|BWH)QspD1pg
zf90x!NyY3|=u^d3T*upgg-@vT<dpLI@VDFE%4%snmEhXZa>!$-rfb_{aD=Fdu&|cc
z6ds#i>SqXL#yCl;)-}!C!)xHKl<g6wm<4p!aRjOg=}zJ-t^{7a@7-3{z*<X4?v_kw
zqK-M_f~RvFK)(v&7rLQ<jQLcR%yVCWfAXv}Dw{|nc(M8JqcX8xi=7%zN~hD8F*w_f
z6~$dRgqJfTl}jsjNFLFGZ}e8wm125x3;zI682Led%R_$_LSDi_2ke<#&>AFR=bI{;
z>ZeoA;4U-5iMoTN8$er$t%;~=0g>E0Ylrto^zO1=(8oCc0Ngx<p4C_!!tMd(L8JQ2
zlY2q1@R7k)jHOK9O2)nSZNWKhyCtQVhk9@4%7aO$Y|yo?HX#`_K%MOw92H3QM5Oj4
zq_mRTi=gL?%>Fcde=rD#l3RYsA(5ln?l?}6jEi>mda;{Zx5~BCsy$Y1dH0Nqs%nOq
zB=+H_vXYJD$+?dA1N($pHQA<%Y>gxzssmA^4FT-qzrv0g-4&mYlzVC!Bw@|V9mw#J
z+6qQ?a5odkPl8hc*ndGp*3<fLE*98Oqylz7gTe5bJ3%L?X)O{)>-`igmvG(u+#i+D
zx$rw|hU`2Pu80{o#zxX|5dh%)fP3(dgHW0}Lr*uoovwIQ)3mT(wYjoqskm%+J&>z2
zA28hQ(R1NF)Y3XHPy>JPnG5zijCWSluV`Q(-Zyd+BnJM9X1us;kXViidAqiQ`tO8g
zWe{uk3+#6Uc0owTGX#5wbQ%J76vOLASaBf!>H-OF(kw#eNw{uqByaab$Rnty^#I!|
za7UEA4E9#Ixr1{)<H~j=VJss3!c&58_X;;g;&(-Rrec!OmxpB7g)Lp2?ZjEv=gR79
z$_vIMZV2+FmNNDbN7LY?7zO_Ts9fPoV(w0RU%GQ+4+XAmon_4f{kMw_#bXgQ<~c0v
zgM)Ok!qaE6);+u_<%;Bojl;3>nAqJ5g~2U6CIyUumb@MuKe{>+9uM^%$`{1h1~5{<
z=QY4M*~5aB>?Hd^_IB){XfeEkrj!@m%@%TixyRb?)IYiiB&{LMvEcboz9R@OW>|X;
z$<dsKpQ7iy#O&W^bU?ve-0qL|3Mp=G>v764@sNFJNF%sN=CYzP=3(8!#sJ(%&jm=w
zZ*JEf_)%HSCAP<8*D=jIvW;1loiMRYhC{oXIB=$Gn)?R~`B6SCrtL)58pnwlXLEGN
zu(h`2A1VrY3A<0V!-AzRb<13pX^q%4jB#+b4`by|7UwsDNan)n2PXHo_)}BJVw@g)
z{H9`T<~TH2*=gq-D5i|uJ)9m9^)$jr{dha_JRlhN3$%+{l(qB|m~O&tXJ3S_X>&nt
z2>!`ScDs8r3YnrgG7X%8k<gz}yHD!w6jC&U?7{F9wz0tta8kA=PaVPABY9fFMH|~Q
zJtw<syA(96a~xXhn{cHOKh?9pP|wv8=5JtQzgJ{#h1dmy$OPnYQ`la|ZNJK6+FIh%
z{{Y}l4<rVjdlbP4Hk4S4JIamG+>qQne{}ZyUA4em@$#f|LBKX}7X>O{=mZx6dmjow
z>wAZE=|`&IEon!N>JxU7EN|ZHSV>C*hqv$Wp}A?#)F(CD92^hXbHFXQcPkm}R}l7s
zFhWszaDQF@0CfN^z7yKuc{U+njyE3Hjufmcdqi)wzm><b=K%KS^>%la6}F2Jk-}E3
z83`l~iNqGzCLS<G)n!E_H4%tr!^RrxsB5Vm2{!wL6umIC2@9Oev+fs4_PMt_sL3NX
z%IgPlV0(o`g&0QH0@HOPea{4pq-$;49ul|McXBSYm(US+rZtjBaDBtFlDdXDqc#Dr
z3bvMiNQojOj!0K@^%2%Ha|qqxaL#ToXF^&r^>IEKHas4ADUExYcQ?0Xqtz*!P}>n{
zc;d@9EOJEst^`?M7F8`WbH`gjK#3c<r|J_yu(-;G5_esPJ;ET}+z)qkeuNNMkCd&w
z?BRvL=ZkqyV};4(YcVCZjElGBM<W3D0fjp@k+h4n@)Se}PRHD^@ZgoPmdC){UB2Pm
zD5_X5xwf+G#O>`k@SYsm8Fu}`%2a0*!3$FCBy*JKg4>%PqDB*on<uh$L~murN6@Ks
zy6Lp}!{c$=e1$A=`nbMVNkIE?amrU-##iXm((6!FFc%QlTPZ3w%+1Uotf-}tqu5CQ
z0F`B?RK6z$%5DPZlxt|Jx7cG$kw10u-A>&|w;+(FF~>VWXM_b!CEa%5gM^fr$<S<-
zqG<5!*;c<(eJr1-?Ee4?J*AH)KOsk51arZ-b7UzY+ca8Ev>pe%A1gyoSlJtgFByWm
zT|U3kaUwtPw%RtN=e4D-z7cVta<gY6gWF?kEZ(ymw61iq7i<~8RxnkUv=R<fvTT+z
z*R&8vbgM=(ZPtUmj&S|Z^Vej#rwT5v(dMQGs+1QnWPq{k)+GeCMvy|ZVxG{Bb=jn=
zuWQ&^`&g{jpeBN&*MY}tP1JJM8DC&X2m2|2kT5ja%yOh-M5QY%wC!Zi8(AZ){{RT;
zPN9~DVQ1a9Sy|~_8@DhJ6AtIMYp?f5<2N(aC_0)NxWV2pY~>W~N;w)u#rrQDh1C?3
zhsNg%^Obo^t{sDaJ=CR#=&W)Znu?oW-Gx_KC~+p`Rza)BJ9fF*`mUa%uso$up!3lj
zl3DpAI_h|8ukCR_Nbw*&lm=JE?B8#c=?i7v;d`{Asj3T2uXRaJQ-R$W$pg44s2q!V
zB^J1~)DE0D5K0y)GP+9}-2Kr}1CTvbTb;VtQ)#jo-(sYW&GtVa_ef(AzTjaqR;XCE
zq-Y@`Mgr0<tf*=TvmSD@6m<@X!#F*awLFcKVA%OwGK-5lBGX2UNFRgtLDxrveh~E4
zMlu^W({eI*vPM{BB+;atOqQ!fa_2B(!lQg;t|O0&EncJx2_q{#R$AwqkP7R@+BxRF
zfjtAua*#FcI8STc8TdrR8!vuUQzfu=y!UG2Z`+hi)UE>T7ejzrY;pBPG{DnDQ$`DK
z!3blxV4Nc6xVgF;c-@p*vnJNaT=&LFZdHzxslAU3E;d3vjd(jq`9VBB7lHy#Bl9;5
zn8?e5NVZfm+&gu!t28R$;27g;tFqAM+;F2eS}hfOI*Vk3W5!hS>8&ig8VEtg(#bb8
z*xg;}l|jSPeSuMvYiN42HCsmbU3RzVgL_NGh{#)N+BVF>S_ka2^_qLw@>_7Jk2UrQ
zV_lR_V~5c?8C@H)aF3b+`bhh#`iP53uvJn_n^YSV?R!ANj%EYKe(JY-<8`lOMLkaA
z-w9fvwn-e0jo$;5d{VYSlVX4*Ug0^e$RPbuaj<eM3wDrLeyEu0F5Rcim1}2kZM&%7
zGq+q^C3yJ_8Pf}`j^^z`!BFUA4Lm7es03Nx-6Ze{2Jv7)?2@?Ylxaz5v5Hp8%LA1p
zWzms)*;GX5M(Yz|tZC{4n`htQB%`A%MYSbG>=6<GTe(sh9U0!k{ndpHTO<Ll{nVPR
zk9I>@1ah#4G<aEkS55TEb5_oxEyHsS$8}Xy+ug4K{3~OdT@#cn#GTQ)#|l93NFNH*
zQlSLhg27YE8=^MgF1X6hX-0x0mCSzbRh1=G`6`w<IJ%v#?gjo8Nwi-!P1(3AQ1P6P
zg-=gWw*?y<pn=_B1(vk-&-qc7+Wpdrc(4}oq+ky5YheZ(A-V6$dr7~Wd?hTld!!Z^
zB><vmi6oB7P%Ji%3K_R+d}oy;PaA-D0SXP-Eu1?f-)s?tq}|sTQ9j^tgiJd3?PGM3
zx5qux1H0S{B`&$X-ha9Vs$>so1l@M?fn_lO=HtOpJOBab=F1w+X&Z^QJTADk_#7q<
zZg@+cZT*%5Vp}|>k#pnfq;MDi05(l=HWszMQL#}G801>%EIt#D9F*0DN3h8|=R1MI
z5~`t)Fqs{26RH~}Jvqie!t<`F)hf*8jV{}Ja<i1@pu#amgHq}T?Qn&pju0_*O!WB-
z;CBdaml0JkGFumXm3LR8)5^d^V0g-pB%L%@L^_9Ava*Cm;b+@|u`a2Y%ReMM8!L@l
zNQx-|VHX{f83Ym2`<gFhXyZ$wa-DQ!T?@o6Zo&z5#uaPnWR|e+zqI9PwHcy?#?k#O
zvvpPbCvg}ACVZ396*SEzo3fdpizn6UADF0YTddM7vy`=x)B-?05mCh}UfCURni_ww
z8a<cr%SoqwJ8C5W-@TU7rbr=;(ZpIT<>Wmt)eoT4%pm6I;nY>LN?t*+Jd|XcB$Gwo
zS?Vydk?!0#2XTC_9oBVUR;ZiseDbt?cU@BH4YC|Bg^Hx0b!@)jVpL+OTQBG+);k0o
zce1w9sA_9SbY#2WCQ;~QIjw$g<!bs?Hc-}v$(Fby$$AP+m;D{l#-~noM6s6<V{0p_
z&X<xZsO4mPVYWq<!=Y<wBZ2Uc(jCGtUao=|jCiq0C$Op3j0U5lGxGkP!*>y7FaDB+
zum=!#+ncF%ZDt6IS-5*ol)=>PozcX{3mhD##-%MGWi6c#O-of%`G#B;*c*4UxaxWn
z7M{^FcL3iC??}`r>FHZ5oWNWzRzLACtSH$==-DH8Sd10ZD5|17<tbU_I`w;^tdXpB
zfcaGNOC?^LHs=!do3vjlzG>yuD_r)HL3RHCy4ZBCkp*0hhEZ+e$0-&!S~RjHwq^9)
zI##&8&T;3-THPa9l8Q0Cg`f`M8tN#tJ$1BoKkdrfw3TPCQR(#>cGyb<fz}pD)Tx%f
zNTbws>Z-H0B2U>?dNtKAKB#?`$3*G)n#Rkt93yHdA`Kyo7#w$3aa2d2q<Q?BJfEn9
z4Q`6<o4_~b!Eb6P-@e;O7RD7tToS_f0^5&;H)v}rx_WU)=7}9`xVc)1x{@Z-feVJ<
zv6_PmUP$|>=-TNR=Zuz+6r6WsMe2*n&Z4Q5l3s1$Q`YO1PT;tYgl#6C$HpG<!?L=r
zfrQ#NUgN@b8x^`TRWsB{P#E)Om7&pf8jUU&h@WQ4+c<nK{{TX&ndA6w7UKx!bhT#C
zcDcyQ9j%2u_GUHeiiu)#A!~@`S7~}RME8<rxutqd7K<A_wK3%!XlX<h5yluE8E`w{
zO-)Bkt6D1bEgCn|#vIX*7SB$gf|4tc4Tmc+rPeYzgGm4*wXJ?Sc5Mz9woshCAz>RM
z)%7t2TVZ4UhYLB>x|gP0H(KpgTGqE4-Eix>%FF9ow3RLf<d7}OMY69$bvolCx%;B}
zZ%=)E{1VWpsbYOaLtC2?y<4I*mp~gKZH2N`5~N3M=)LIuHY!$wBWx{fty!cs5e7ss
z7IKy4vX(aZD@ml*G9m=84Zo6t#m(4dmx3uZDhkS4X=7&RdS`n|%h%6SQB3G%ee-ZG
zy(?YRsM!(R_WPQB*Iq@g>kw1cJVgE1;Zfj%5oePts`UQ=My4u&4o&{6f28Q2n(5P0
zK@M$+`YeuzJGChq$BTxXd@n`QbtovbNg$Qsq_rfa$Ds1PvkR#1q@D5F>^u^)x}`9w
zdt47H&!{y<PF%}aw3{C&Z5A^t+Q*(v!ZFJx7maok(tQ%@%ErECZjYRW>$(?3Qo|4;
z7J+MUyP^L8D-2Ny7|=jkTFq8C4TFGh!m^c$`_W7P0HxxJpzL7BfUYR0+er>vYhb8p
zHP{TcbJ`EpR&_T~K~EctWCO@TQ$dVvmKu($Pfpj}&B)GIm34lxO;l%KaNXHg^(R$_
zz1v^U%EPu=jZ08>q~l__+W8$Ksqj`y1kuY}T0E_0o72qHY2unQceIdD+8<8(QZ{1C
zl0D05p)>tFxuu`OesSel;gVV-@~g74n@c)fNRC?;k?mHHbp-SgU4VuWwaI#ps-B{l
z2D;KlZVIgFsyAv*nisU}y~oOmgqcSuwP41X+J#iLFK+1_?gWk(R#iHRiOkw}oCD!)
zVbR4TBF)If$XR}~q70{VurRFgXqwBtnHr5keMZcdLJtJpQB9^)f2(X`N!$S+MCd9S
z%JUxU=L>tG)5B0;sVxP}7AD+<3ga=HtulU>)2b<=VVXkG;a}I#u+#daU%HOAs-Bt_
zxyIJ)0s~X(R=Y=ejx)KK<B+QOt%#*3(Nn21FkCk@0xinNYGxRwbFL4RvQ}5>RYkFr
zv$0x=K9&>cf_DqZ=8)_8Nl1O5K7yT-R0!k&(YV^yUZJPO1P$73)*PFxXF+HNie|cK
z?n%B@{nUnS(e2=1r*TMCCiYfU>lB)Cm7?1Z0bqoY)aq3;!Ys$XaIjV#Z>85Wafltc
z<z{q=C5jg_hXa)^D(x1Gof`K`>(Kz-K(SeUV?=dL-HV@vt?1T8Q5)MPOM(5=nyeAi
z?!f!2#}%t5EdGoxm!TM3(Cd@rEemT+1sRIx0}2|QLYg*`*AHsV>$=22q_x-F5tcPX
z<B{0SUaQu7<=<<Z*rRk;#Z^Ifzxa(dSlFuNtf&yjjmFDe)4F|4C0JyQxWO1w`2Cgn
zJsz>pT9h%-ep+W(fnjx9*LBfCPS=Z(a6we{u|AQ4c*zVc2OXAQs%qa;2m6P0t&+Na
zT^#&2QER%<bdF~0-DaNYs^;4mxpKFr(j=|97bm$|PL=7xCL!$igMvbp+bE+*52bo)
zaP~~#OZi@@L8LK}#UN+^08!c=j}%nQFKEZYvvV682;g>Fa8fj6)3Q2w=|lpaQVos)
zRg=<F>D@v3$Xd|ZhT(7Ssx|4RY|a$G@9cag=^Bia)WHpV!=Be*g1F}{9?qn!*!3Q%
z>S+P=_cGen3j{QJirG)BNhdZ33s0!Z8&D!2pqndgI)*qQY^K8bC2_)B<k~9#091MI
zxzZ*|7Rh0Do7f=qh8-HIvYYG{a0}A)I*MrEdv4ni$zE}<RzS$z8%X_My6s7*(HAR`
z=(JkKolz7sG`DH7TkSp642n0#TIRfRzE*a-B^KsF`?tmTTQ9@@zLH%%)LMjvvPN$k
ziR5@q8=yU&wbZ>oO;G;;%(6BYG~WSY`i6nB)9r8o$L?t=@`I{{MKzf6O{{LKwV4@H
z9>#vBVHDi-jN`*>1EsZr`YcAnWqqmj1HUX|u^@1=6jaZntRRa3RGPg&5Swxn{7n>I
zOlT8a)n}R)f%<N|>tFTddAqC$TFQyHli;ddP5~rt4mLKz&l#oVHmCzj)93U=h2_mX
ztgopw=MA>VDS99>dRN6Mxn=CHX~a>@vCbC03K5g#M4W$H5}Qjg#Ng6deB;U{ld9*@
z?FCGw(3ATo)oKvKMCTF#3(NYiRuW9$9fe$wjN?p%B_z$6)M<5XdTM4$9LM{abHP#S
zy*TL_=SQ3PUU8t-%?)s>X(MS~kEL}N@dIRi+U$kLIJkckwi8m*D)em)=ArRaw4JAm
zCsgT`6je?j7B`lye04BBW>iPE{r*&aS2a870gldp!fbQo_6(TRR*yQ>r4<sgGJWLO
zt1S~tsHJl%nhl!ZK|nqL?L<v%M&WVgdmm2eP}ESy(#Gv`K^E?sfANDFQ(H8YRb|~h
z4NxBEFaz~U=0hxTY7wvp+ibQ^Z9k_(>Jlu_E~#{?=hIZwQ_ud}#fUwRVz}}_<XS2G
z3q3-mfvs$yY~tlW-5QQ?Po~#m;IA_4KB%fQO-T_f*lmKYKMy*du4)!i)Hs=2`doYb
z73Spdv$f3@j#w=keP^d3bsL=&O=H0146ixYH0frenx(j!l-ReqUYRDo*0cDc=HB44
zwNk|<vFkN}K|i(Q<$Ax5`BYqHj!z**?HM{)#Z@$NHMWookhC2+tBM!8IloJSnx{t;
zHEs<35BE0S6?U;nc#Mn|Bf|7yaCSmTNfGrQQ9e4yG6_Fd02P1H6n~nhZA^o6{1xW&
zut}%_;qD%MFH`(DnUT}Ak021KDRNsU7}GYBK<G5qmh)_^cChbOUr?KE!4_L8>gdd7
zJB}Bdbxx$pdEI9W_FjHp)#&cUvZJcK7gM>!jD_cvPifSPSbO1H^$w=#;w@vY0?uh{
zCbx0tu}y_Hv2!)i>HR%eJs><QJwmbHmU{uXA!9U}qZ@&}j|3~GOl4uajz$+;XGbfA
zl)99nFhSs`dTOE0sFIoP_PFBeEoeyh?Ery(Y=zQ`p{i?+GN+yLMQ|phTkCYP0%9WM
z94&86Xtge*in=&$vc$CaUDMRf)GOegXs;N<uibjqnMVaQUXW-l+x?e3Wl=4ae#IPm
zY!Sg7bSxJwvziAAgHY34+V9TBEYtd$0@%7(wE3RL<|ptxDt%W_rKb*V2yym>Dayuz
z*;%h?H14F1vYn$XyR5ThJ{d!q`kHW7&W!r>Pm6Ha?gxdI)Jr0(bbOY$s$-orN^xy5
zWr5SPe3*N^%8t6GMmR>-*xg^cph-%0pL0eQUcJqINs!x>-qNF%4cXE<XARDAHbWT=
zJwseSOZ%-BpGeA@M*s!<Dw^6&kxLu-VY?SIOQWGNl@R(;GO96lo>rem)SlSG#r-q=
zmMNN>y${Qep;``|oraP0vKww5)AF)Twr3;})Ov$n!b!OU_gG5$gCQZj_E-AO;kZAy
zA1fnP@X3vbbvGT28EEz{gP^9?^ho48T`L8S7N(a-iX1oq_T%cjkMPT>4wb2h9_vLX
z9|d~dMynjqdhn6CnIh|-Dx;$tvHGr&6<r{H!M&U;Mz2iDYG<9ca5)RnVbrPSp%O8|
z_Q+m&*R^pGx;KGy?h1INQ=-#X9T})K7{=zf1G^R}lp17n>HxTIW1On0Y2*jgX}BW%
z;b?kA{-fEr+=p<zE?-BSqrICQJEvl$^yH18#yQ7jYh9#4=$Eyk&KC;TL6R9MOj1|^
zFodkEiURsqy5G`D6LyD+X`Xx3QGQXz$GXaD40O_pmSBOKEiYNtM<(FXFjh*Ep~h0f
z`dqp3EtbhG7Ftx!W19WMIA;D<t|qdg7F0)Tk?spC9AHPeytjg_G-{);#9T%H0Ltm>
zXC-oFjdTr#o~v8zJ(f3JbbH*}fC$3X*3}=&J}2V~&-I5sN`nx+!NPY<0V;G-)l69^
zb*yfzV04a*Zn<d~MYE@7uB8qD?+atnJsj%TUlh*RTFbWl-@-<|hE01s(ykdKAY>3x
zv@pzL9PYC8ik^dbII%sh5Fh$tcpe(&ZTbX~Zn`Z2;w&B09{Vvb5;5hk1R~?pn^zcg
zIC$iFTB^REB)5A8>nCZtM3i+cdqvtxRgr(}(#I#?MJ}DD3Ujy)=-R2~k87Asns{3o
zG)74fk$_p;f!S2o>04UxTVOc4=gBnL(T)_fSakf4pG*}2#JR2nf>w%-vC^@nt+p0R
zql^ClF(nxowZhm?#wqRU3j$Q0hh?6PQzL5I8?G<Mg=y6kk!o5{uxP1>9k}P=3f4tE
z7<>)>BTqfkYadfI0!HFS@)cvzKkUHK)w+_g&3UkCwTeGfG`fT>cyRR^f3gRw;vbqd
zQ8#O(!-s?AQb#RBEo+_)orPFa5`SiZ&@xyYTapGs%+$jpDvSpi#nr}>sfNGPanJcn
zt<njb>cl{B%C%VzR8U9=4i4;uFE-k(n-Hmp;?HgkyDG`z^rS6!2-N|~#<a;#X`&=I
zy}J~3Hmg*|?rW|<LPaZEcD}`q!3q!dq|fNT_D7Rl3&l2EJ64vm64HL5W;G}b(iolk
zuXdHIgG{|6YH7vTc?cT14gULNDN8oXEGQ2^A<PiCS<U{-d7^5qY$BRN?`|4a8IAN_
z*_tdtu^v^k86j(GSbjoi%E`(V*`(I01L6+dZ-tJNP<&N;w{UnxYFe9}7>(Ds7%MMX
zGo145+$=TG=~@n<6>Jy3xD13%Ua<``OcESBA9d!s7Na#J;q7~XDD7Uq^Df<d+bLXW
zj~UqRsH=2NkTKVd<0~_xNLy6+&*>=o<1?UZ!QRi66i~Iz62>gxb7axbuG=*lI|Jh_
zaTYv;X@)qlVPLBC$q9|FX&{bOoR4gf7qpGQWGUoq>cbSu>dOg9X;j*^Q=1uUU1Uz9
zSR*C31gc889Wck)N;f82d}6ji1m;(?ZubJTx=E6m%#@N_-D8Y$LpZ&~&KBcAdn#ys
z7h%9I*e2B;Rz{PwZFI`$-%i&x%?}72Z&VP(@*SHj>~haZDU1_tKB=0Ro>+^dYk(uV
zcG^NJVD!3+n_cRMa_g;|;)_+&y;j)D0`kva(w}KJv0Cnv){Qg6TyDZ_gnpT&_K4=D
zl9qBs#g86U=9j5DHj9yKX6hcGsEO|NB4`)xsSM?ZxCl62jmz0#s_MU%sT08aI2?tz
z>1|SvS)gcs-RB4DypvZhdrYku<b=H|tIMa>Hb|Uy-z~lra$_rwX!R|7r9qUK#vPWp
zFFw{Os`T22MN-FXz8%=FTj@@qrPQEnWwE%myd>(q3ZGG@bS`KuaQ3>~DaR{@nP-hm
z@@ffz#qytB52)OX*-0joQ>9nBl6H~@=yC25Gc))$cj_E2o=K2V;>^UftqwbaBA$*Z
zTXvAy8^V&k;M{;N-a-aBq>fKgGmx@oldYEUNHZM6BMJ#6Z9Lc_*X0xhb+q2IPT6gc
zt1BXLX$J&l4mGrHccC?gvUt5%h}=6Wn71-ecqoYFEjBJvn42Smn$fs_bU|z(w9Tr9
zz*yUa4GDIeS{Wlo!h3~rK@n}8+;&rH^ikEpc8fS=Mox<@ps&h<Ox;3+U7SeJZbCke
zX3ZYc`mCzDLbghI3~~*?8$E~lg1xVyY%UeFZVrM>*ncTa8E%Bh8&-j5X=Ckf=y{q2
z$Uj9pr1cql<u*VIFXxb~OdJ->$437E)Ho^&nBE8^5TqapF5CT7?x)<qY%Ykj6Q|4T
zu-ez*z@jM}>UoP^FB|dnRPnl6dVwP`<at*@R#ZY92fEq#O2UxY-XkVC2I$?v@PL(@
zNdo1)tgJ@a7+{cI-=zGg9}}8vY)I^fLjpwh-_eu;)4@-rc!F<AOvZRVQzwS^aJop3
zv(uDu-7$+Aig4!GkXY~1d@AW;Fu&X^2L%~NJECh_Dcun~_)^w2k7bAjr-S7$^Z*Ap
z+r63crlp)S+|lg*VciE4%{<04mj3{ROpOg5t2pqRqZZLUkB@1)qbN#<*x5D`4Y(-1
zE|~sYOxJFO=Rfw9KBuLbATMG5ARgb8lFE~&WfsZ_p)7vp@T8}3dq{2`Ke{(fV`>`c
zWghn6g<oGyH7xtu2=G?rvr`gy$u|PtR8cs!)^H#cY!Wi1or8iJc!4(l$l1TyD*=hZ
zM*T`UKTdWBFo5Cuf~}4FeUBeSJP!1p9u6*mdM2x-8+}F`pxQlQw}ad(Q1K%-54b=}
z7pE&_VZb>72F#Krp{J8+j!Th$Y4E3-l2)^8n|2-#g>R(C9ZVtEw||9qPej+pvCX*c
zh2&=Zm%}<|Ts(CpqXp?n8@MLiVI+;+kSyWITWR!`i<Y+tSu}<`8?w%}3sqtHOj1J2
z#*|E?Pa@mC#X0Qt2Ih+ptTinjYJ0vgOGhD9mzd<SCkwwGSmak0LQrw+iQ(;j<JjNo
zq_~zbeE$H-oQ6vm0G}uc3*nQ%PuPf>Ho7BbA7S#FI~>P};kF03C1k<bX;0hg<%Z6;
z?wH*Wy^N@5sTG0#Vc@7p2ii@Y+rdjXbP{^e<NAV%LM0o<4~2}L&U<ZPYb3SD%9Ifx
z1dn(b`BCg7Tz<)n(HrBrHod}{5ZPEFb{;q-FuuotZOBT(*B!vy{ub=Qxu<s0J<Uwr
z+pzw~#)ir^INAM=lr>BbXxuRF_Cm}NMO0yvBoW+s2#Weh=8y9<r=CZJPRTAUdlXGA
zOt3tF;97YHf{BKY)8P0kp%y!V&xIu6vwszW$HIxcUxKhB*j?Kw7sJO1H$9I6z&v+D
zlYR+nhxt=SFqxt!;lqNJpx8m#I1U(lQ{j7F?XMp3{m>=FhWD`tl=Cnx2Zs*`QGzR}
zM1VP_&mXZ>E)QdfI0K)BbxBYqZH^oiHPp?N?rpdD^0IUu!KtKd-@uah{!$dLX>ctD
z&ja^W?_-+p7ATnJbHHqvAYsX<TWD7T{{Z_WYHPoV&$Z*il>Yz|oIlT$Jf_@>IC6sx
zk-e^F4p%UNVcAI=*hmk#Z}?8BrwswokXU#jF{opj*8p4kzsio*Il)s?$0NZk7a<`Y
z?XMOi%E8dqJlfs7C$NXQ#o0U`DUJjKacd+W0_t=d9sbmqzA&sJs%zpA$S>G9s@>ol
z9H|-cm8BHHWR(=zE+4DMlqdn&9@mb@*GO9!-Et6;?UwFo0pI0iXbf$Mxd+@i9#ckt
z<RuOu*ozU}IlwyZ0>x0wj5x;NLASzuQ%MuV&=LSX=BAe1XOzGk+YxX=j!bGpMr{_4
zu8yh_Hx|kjJ$*x5cE1h>pDC3E%=b3q$U)Q*FuDCoFvZ1=<`WCII_>0mR#dwsZqs1@
z04jz8_}(+^R<zOrLhG#(ZkYMwa~?ymM+tzFmf(->j}Bz<`f>|9u|Z1{qJGz7!Sb>-
z4vJpG1xy^-1&%@FAl-25@ZgoQX5$1P)rKu5Ni$s&f2o(p!iBH&&f&*|NRh8**90Vu
zbWb2<r7A-<6z8$vIC7zTKsOvHpMi|G{3f-|Va{3Q6=+*bA+B_Gb59w%ywfURsscCJ
zvRjWThzpN`xuwy(NWwuJ5SD7tV$C&0BUlTAZWV1@7CYm$(OOQX+NKDmu#kN6iK&Mr
z?Z~?4<kQ*H#WkX~j<wY1xo>oP>m!;wwA<lV)xr<GgWNd?P+I1a(nEpEQ*lz-6aAJ?
ze&M>{;Z{}7Tb6Nbgr2!!wfRET?~vGD#b`%+7Fy`7uVX67du_OK66t!3x_qIJarFLs
zDP2n-cr0lo{{VEd(mGb!NSzzUk;=af5>hq#UaK6jfF0RdMO+$gO7lu*)KE>|VdP(h
zp`z4;tOIu{630cOD>d()IT^Lqb6v<-ZmH?W{YO<&3wJFF-Wt-wYl|WsQrEXR2Nqf>
z#o9Efo^SbUJg|><2>KhweK)i@q<8GE^-UrvnrbP?-N|aE3@s&+H!GzzBy%-H(o=%l
z;I#MfhLVgEacq1dsody|j#_&noW{AgX}eD-vm%Yu_ZB0v4ths&0=<$p-rR)*(3bXE
zjb?qKSkJY@d?P9AWggcJ!4)+g;kXQxGhx{KSq(7klvEx;Bz&pkc#v3|p4U*a08POA
zDPoGw1P=LIiZzaF9LHE3BB`W*arR3SLABJTGDX@g@UU!}H-{gUJ4Nv13tmA0ixfj7
zHqLCb(U4qYHaQ8!+YWNm-@*~IIj4l<DJ`|lyddl(t~*WJ-AzkW=<G&3gc*{;;M{i#
zGav*xzEq^Fv{|cycFzrsuVoOed=J=NcAxC1Y3od8;Mo%_&6&HJeaoALGosX^MWs~j
zk|KG(b(qw{nDFM{9ucCU>}eiHbRAdm4cAUIa%9s7Z1(^-52}(W9T^S=;Xx}c?jL`I
zu|B|yD>O|q>V~ne7ANY7mV!E#heSYsHd&)1n(fUtN6>1HV}K^=ZY^yNq@QHdQobTt
zBM7pus;4cvXe&(}O+9R3roqJvQA`7iPEd|dOfDYLmfrZ^fGnlEDj9AZJe6lxLJjN{
zOwc+f8(bA-B+(}l5$aRPcAHy*uk@W&#0E-mRXZNpTe0HAD2OpQ=NIgjaZ*D@ZY<oy
z=DoX`;77tPFa|)%$7$M=qb+NWKC4GbTF0{C!Exlq;&sAmMfEjLv@z!=x@}V$;A{aX
z2Glj&6#oEQ*@B@(9RXIx+>>H_s+o&!TH$}HvaNfM848xE&IaqF8?sYWK~oz|_Jjf4
z$K&p-;UV1jQBP0YDk)JqA&OE(flp+Pz0lGJM(lY~#Bc2?k!0qmHIfHlpP^1IHa*bH
zu>#*!J0#B1oyX`^D-!m-l+eyafx2th(l2|co$NkPaZLqDrdR+Z2eM%fXu=v9oYQNN
zj%g2XKUL2p;&etzLPIGWlk`PK{hsEG*#=q%8B#IMu>R_82c}!m*8^rd{I0BHWgCY!
zD!M$Ii(GkA!%?*DH_7goj_nP|uc&L9;@!DGRnsy?Tm___7EID?E~{pxb8*>HG7-ki
ztkF6*6Juo7O5oreuWIS{Hvv@CQkD{IZ`pLlX`J$n3de3276nfXrGx@X02eUW;Y}Ow
z&vit}wd}NxYud#V9M;9kscVaHrewGmAQWr`xR5vkQeQU)!2=xE9N*}tWT5>Ppr#bk
z2)Q^)K*1S2sN*-lDa_Bo`XyrzWS0Fx{{U3&!N6fL<L`9AaNAu5k*tukV5psDyRud|
z7hgOie;NA}OgKKnfG(a+IsK6CBNp<MKF&8jEK;#(dz)in-7)tbQ-R(0E1VA&<K-I-
z5sY$dR~zlY7+m3FlW<ZC=fc1kdG3=5*8l;})hGV|d?y(r*Ls?+CPeL|U@t7y<rNhq
z2IlJj08pB$vjCD0-7`w*$36Sx1OioKfxVIBlPfe9NfXI!!oO`rL)aPtxbClLbU5QS
z*=r1885WrfEb9yX6;>#F5?NnJ%MB{3td|>rrf*D_KzF#4;DxY=K?^Jh7*N#LLmY3r
zhab9UNofhmv&=R97C1xi+q%T+x^!TY2tP&Wn(Xq{N?RLA7bBIMpGuGd=U<-dn<UbG
zmd6%n`hE*a0ckyeTI$^^eJmx7?Uh}n#}pMUCd1slHVCNQr*8J!XwTV3QdXKQw9h%B
z)1B(=b;ehwboPr$B`(s|WC9jSe@U|5KF5`BORb7HMc-qzi!P<Oke%LuI{yGmriR-<
zwYw}MgjBNni~v}6S3OUzO<L<X+;$z-KTw`+r`qdzDotL8k0SY+%R`#{0z4yWwNF-d
zIiwTtu#|3^M~06+R==h6=e^^8ep0+~j>l4L^iGl0Om5isZLsp4)m=`=#?v6&MV5O~
zZ{$5arrU-7t0}5WC03{D4a9EZ=u*h-0j9QF$31STP~#To8xxNKEhR+s?)O|+_gXH4
zp==}G20~t;(&B86djPTQ6{8mta+-Q(b6M)@`04#P<Rab*#Z*?-YIQ@^k<SF$#NlbR
z3I>-D=HXN_lvCBU%>vh1$*`iwNTzKxLgPKwgGiXgICM`S-?FNP8C@A6q_lTj%A)}n
z#gBEd$)P6@zr?LzRZB>JOwfBt2auCNtCpa)NnS{>!7DYdO8Wgzdv02;w8H2jX#n6M
zIV%cHMvqC-by%W`&mzMgMKpDA$uKQ=H}bsr)=2%#+;VP-qpgw+u5<W4cuuB`9B;GG
zYfU?2Yw>pZS^lA@rHr-3%>lt@H7#;yM&<%=eDboIhN)Xx^AjBBStR7ELq;qoTGb+C
z&H#cgfYLR6lFB!GU4eB>>S~IbhY1M|1zc%bNo#IFxa6siUq+iwtbE0-Wx#P4UXRim
z92GBXrWqr@V!Yc*V<CKZHnQ7jT}a4wfhJmPsTo#<lx-f79)m<F_ic>0d~kxRqk<NY
z8rxY_(sdDg9N{N9<u<EUY>>F`ZS92Z>tZC)N7SYkQ^_k1S{IzltjPwT=Q+n|7CBei
z{-oy_TGw)N786+|&Gj-ap*6FjFH~AdtFzYM8@M>ig1Vww<`Nu9;3_Q;3aY^y&JSg&
zq0`MMVUQnp3n&WZOv*)1HBC{2hYP4Gs3c>+u|9CMRTPecsT(|TpH09z!{u4CM)lhy
zfu7yhzrxQ<%1N!2y)mOQX2SBpyOOuBlu%O$z_Ht6v-(!uGf-n+mfwZ2)~Mptsl<>x
z2RWm<gyl||Ty$n()tenrCD<n`wS8^OY;w03IKCC6T|Z1%!?$ydu1c3%=~g<FNFByN
z@UM<vMDj&ln5|n}o~E2f?m1cC%G6d&Tw3Bgm9C#hV;*=0%HN|XDd%-mGO?!YJ59JL
zuk4yhbWwDuZ5zGZj3V`Fx4FfwHxA~-RoBn?TB#V`&M7Hs46*`pE;6L5QYzx&tRA;c
zmR2?4rybU#K+#(L9rdianlXm0cTVXvm0EL4;{>_5`l+;vXy~S%pKr0l3X_M?ILyrH
z`n1i1b4d<jO+#9%mJ=rTSPsf}>0$|`H^Ff>@PU#WM<gM;i?3h@bQ)-NOskh&t7|v!
zKSiI`HQKtjy|-{a3e&fytLj<)-oeSbob-HqnKOmUo9_ClO~yNsNJX`y&*<oCD_y<!
zTAc?=ijnM<z+mR;)@?Q|HbCQnWkId$ET`PoIDA=O6yxZINXw>c<kcxDndvua$0%qu
zp*7;cH?Ur1HnBXeCwb*w^t7_RrH^qo4jikg+a%#g^o<Whp0)etzSEEv+d|M;NZYlc
zpdosCq6p~N=Qs>r$=c6SK}!)LR@e_JwuxI|9Ys+EJuy3gAZ2*ZTy+?J_?qk^ddsXt
z%zGntIOmn+I=-U%iCp4IP{}_?tRgIRE`57Tdll*ZDOll7);Q;oyt6<X^%(ELHp=xK
zDgwxbutMjP^jRx5G!$aBz`47J%4b+;O^;0VVP%cIz<5)1&0vm3i`x9%Sak-X*3wN2
zoCr~KbUaqiCDFFgYJwR>n&Q1jK`}>0_FND}+PrJ2s)*GGrfp|jEw@JN2hb7DZvD3z
zMi<7$npS!Z0b^jht+*TnbQ+9pdr2dUWn<*jBzY1rkkV{a#yMnRa~yBT%HOjWiVo_X
zT9Qbljlf^IUS&q+zo{7nM|5&KB^}i*t&BLhlih1NA4t=yDB!E~hpIU?@7*ThwmfT~
zO=XVhy6Bx48z*Jk^;Ei>^=(RbJhjbhhi>cAy6Z)TzJ`&_XeI{&4}?t~l}^f0c7O=R
z72%uo*(u{nT09F@ps$2Wa_fLdy3AA4RoA_tmpQS|3)*`2nwBOL85@DI1H#8>G!Vs9
z@Yap4cI<XW865irprS8E^rIUqB$nm>04vj9rBgPN2bPWPuqvvGYHB93M_U0!s`Vs0
zOJa5{<z2Nz71-{gsfq|qJFHu5FFe&|iNj$c<CSq$Q6{G|W87@2I)_MfAeL@FDiU7H
zN9l+3V;bo$;c((Y-{^5b9e_7C1$qAfLKi!9PQe2i?zEKkvQt$(t|!gXr%a_>Pe6i3
zh>eKCt<-DdiNqIJ9ED5%xYkA-96mrRHLvStR#}eAcsEs)v`#B#f{LlNx{S2g!*_i`
zt*(jm)kaV()@JI5q;*Ld)G)o-X**rw#cj3Pc1Rq~{MmVV@xFF;VU_5t)jEZarG`jb
zx!{0L{Hwh`U;NII>Pq`Ljp2Fbus<ugr0{}|S9_@TM&d7m6?|AlCqj7_(Wut7(<m(x
zSX;`(>Xq($&T({2U~q`Za(4@=x_DhvHrEVryEyFUS|p~VnyM1!u#yf>!Zw1L)YCMR
z!B_n|PT1oub3q$yR9cRoJD%YaPTQLsau${$qm<EUb6yzbVYwI}EethnV+4|83n|jn
zl@1=8i5Bt}lD>jQ(Ff-C<H9(g;h<!nA`L@Tj(Zra2=Wysr(WXX!g&}#>MxR(W9~Lp
z;-JYObB_mv?bwPaHYUq6_KT3Y`gD)x_wKYBB_wi<%mDl=p+E~R;4#Ru$yhAOXgXu5
z>#i^yJ0;iLX>Qix&F;02iWnl?0J}~8RyV9_;tg|!ujk4Vidz{?^k?cTWvMNXeZ}lW
z&>F{2nuhw(--J(3HMKH0+dHtgG&J!3P_|GqKV<RR5xQrVY1BoRWvoH7g0nR8milb=
zy@Kr{!m!pLj*nM%%WRNa?vK;7*$t;HIqp|9qSTI<w9#2dT~iBrC+bvHTEypY87IoT
ztJ4f~ZVWpg#uZIX0A)?~n<K`Ziss&fx=&A&Q_-~<a%P3W_VO0<qV>(Xb7`DyEL?pR
zKjD;O3W}#&_;NHg!9}Xloj<6mjX67R9M+EnDCGT}7sXLldZVk^H36x=xC<5M-ASoQ
z43C%)1O1^xNvzcv9b!WWvw-ZXx{7yIQZ=j>wlJCyuEoha(Vo>0=IeySf=(UswS5&s
z>AkXya8_Q5neCabm$|a^4FhCUb|ep~=*JX7O_FLsrSEf2-NPYMM>AUT$9s=uKEGY*
z?hQHMtmo#Bsl1f>h>qE+b$6&osB#5`(ACnl(Ks^3!wQ;e!0LU?we4lvRa51YZTaUM
zq?T30XyauLtn(E>oHz8GtL~lG8vtwCN1jxDMWr~zNFLb-?5JpHB&Vc#bII6vQCU>V
zyly9;S9LgbJDk^ht>t;=Qfm&WbB64b<u-Yy*z0Ay6X8@EXH6rAapfzAA-VAxNZD!}
zS^+A~4L{OzNf}l>HK&HU#k{MDbn)Yk6?G9U$f1%q#UyWF<oklYr)K(Ay}iZ46VY$3
z)<_5!%G~JPD(6JUvF1o#H#Z7%nn-9xwr8vK##ZSqeLQ!WxF7`%kJ2(pYMQ&Y+1cfK
zc7xMmnse>L{HIGq=GVFaEH`BNQ&MlTttHSGPH93aF!0a?tOC5G)O{!(COcgpA4FXY
zErLHu_`X8Vbx;wK8;!=vr3zXl$+xnfsJfmv)Cj=@Uf1xcE2>MOE-&7DXN6C%Q^+a{
z#|U~VtHfC$wY;hPRkDgn=)2MSjDRD1tU$LY9Y(mChe^Bj8?5%COfs1xBWsUjB-N8R
z2Aud*Skvg6n@rLF0IL=>k-#05Gpl`Cg3xYUZmjxhh*d-HXmhW@Ruz3W=r{8bGxX-b
zCUf)%!uEo?YPGGWA<i4yf)IT}QqB9=Q-uts7S>XNHsS3GvsZ+cxPnLm_D7Ot<3%p*
zm4)BR<8`W{_tG`-+i(jdHb*%J!nV<?j5lk)ONEYA5h?!wL%NetYnaym06zs~++8EC
ze5+kvBRxx=-#7?IQcoEKu$G<(2_&~=A`Zv8H-|9U!-b;JdY4d!W--qs91y9UMI)FV
z-c^>7P9y?A+>AJQNi`O>QZ1*WU8icba7}XK=}G%6=U8gN^@afAcVi0fo|;$Ex(%d}
z`bx~|T5E=)B$!^t!t0(8joHxV>Wx25P>RhoHRA3K?uMspw92y6a4xhR3mBE{g{IdA
z-&7x8Kw%DeZJg6%WFa@th+J0-E;Q|S(F;q!QrA?SLV?q<#67pqb&lz}I*O@1!NI+}
z6|~ay^1xv?5xnQ%s?G5w7M{;E)ufsAE{*pGaz9VeWH9=~W1phg^)E?7`D0xH21XBX
z@)R91(fMan%rHlFd@3?TGPaqFs(<C5>5y%8CY0j(ut7NID88|y^dxXUWDiQP$xs0{
zH~z`gcSdbijRj0DsE*^CEN;6+By}6ZZ04Ka%Jh+^x*#QJC8zr;y?ad$fXdcgGLD3D
zuy4bvh^oPYKsU5^TlyG<EbW<qk0E&V4NLTmO|=o=UgR%NrPgAr)8nj!`)oH43LKmm
zRBalKKr%>$LqNCld=*bu>B`f^!l$U}kIO>v7+)NNXwL;>wVtNbX)1k#b03iJDwdhQ
zWNoSg9^Nw5H4Q9PEG@QHCrs)`)mzlNNabjBooSKPTMfUS>ytDR+B$Jby)#Qs0f1~d
z2pwjKNeO#KM`Tm0<C;Ce!y@5Q)N2l8uBMa#I}*9wwP!?L^hMLqvJG2vt+oE!_$yPd
z(>PLx$D4C*<I3~d^)JiSx!3l%-{`lxCan&kr3OnNFJQI&gwJbWbe*97ma1dnbY%Yk
z6}`NLYUyd%;PT<MdF^#{x>lzhL^s+Ay|Z!QYhO<7M@eR*O5?TS_6TE>Of!n2x2*Jk
zR(NYE#^{N(jUVMwRp~7dx+gaTU4?0MJytm${W_@oh7JD!$}XmoC$aH1+nbjBh0x>6
zaUiE!XOq5?NGg56hcy1-8$7ZyFzelpR~=6S8pgZ}Ij1W;XZ53eB!GJ>#kU=jlu~*k
zj<82LaktS$Uijw);0ydJJyNCc65IQSZzwulTY2w(;U8kjFG14EBg2Z3vV&%xJfY@j
zsBfy$4YOpSzrnD<84EEJMw_K|K~Ev0p2jEPw^q80EsdsD+he;dRV=q{?`JoKa_wK$
zp!8gB`&mj@?`2_<oiGa7HpyT`uC6+Ec1aPYc?2KQd@QwfKyk1rjS9PEKx>H>O^H^R
zGP~Jvtx%S{kQQ=y_PW-}+||B0wDR{6xCM=@7MmjngzhxNQcVNF86<2M9n&XljU~J|
zBlOEQYd+g<tTieozAsuZ2_M}nnz~~swyhPKEUa<-yx?sj$eM}=P*hxdp?*OeSqT&p
z8CxS5<K<}S?)qU*P}5`j2~v~b%ECOA05!ge4`KGWe#$xO9Ueh8D5+p{Cu7I3@KBRP
zEJ6DsrDap%ialJHzk3Ex`9x@xZk&SQd#6hS-7pPp?aI=0^&6P>I5!J_5J|j>ioIJy
zcje2P!d%gNfQQiHouR}F82<pe^yz3DB^YpJ?lKleu9y8jw|&2c^J9fvIa74bT)5m;
zfa@jS6J-L=Zc4bIbQ;E*V{XwaTVfCzjVOD6hi$In$XyJ{r&l!J+kC3!nn;`@W`C%(
zsc7bS+Cc?ZXtnOAt7~NzVK!d1)Y^46rKYy7J8rd|p6ko?9Xr#P4ah2Z@~NSv4lLEm
z=Fd*ox7^!uJ18ZGbOpna$_J-w3lHU`%T6=dT#(q^wAi$!jQul8Hne9XkX_Ng7sgc7
z8b;y0nIzm<Nv&zmF7;v;?h(B`IBVG13AO#f8E6ouU1&_2kTLAIw;_5ylc+~MGh>+I
z*gh6W(*{D?i2cBeyTWxfXQKNPXvxpQgrc8Cl$tKOmW~RBmP!D1uGcJGOeW8T->sYw
zv>LTkj$pg)&@ig0+9!M5<L(&xq=l^yEvqp4+g%%sqXoaHc|uc$$iVTzT77RzFM02E
zS4*e52Nv!2_*GI7s|JY42;9PL&AhIuoJ$#a9^uGGnti6$Ll^@jxEMTyWjYZ;^k=Ia
zUj5Nz_Xzz4Ib?sn=O~$|KP^@HmN#@VTX67I_L)G?_Dd6P4X%;oNoZw_-7*S_XF}%4
z)}5qfB}jXr4`|BWQ|R&3Q(JAp3Z}nFG}0K}F2mg?%9#HE8IjXo!Bkzt$M;$tInQW*
z*B3_dV&2MwSfiGfs6B()c(S(8Dg#^^;x0!XR^+bG)%wvbRXK?6W?RY^aR+sUyM>{B
zFRbFm0zt?MwyKHoN<)BY1$4!xj%I)#6I=;z2O&*MF7M$#kf)L@vF>Lb{t$9Bmu_Yx
zZyzbZPc=6DxAt8~(;3I?jiQy3G+&W|6Xu1Fys-YE$Uq9nO^62eJg#%D8sKh1kj5V#
z=H|#-mLW#4s)}(WUc6j)3bsZP<Jg69M<&nvqjw|17Pc0#<?YK{g;Sxd4i^a6Sn;{8
z<Q~dL2S(3L#F*XsPlS#w;H4K}*yFl0*>7fGA&1rU<?q2xm9juKl1n=&rDI;wFYX_t
zq=HXTzJ%l4Fb|Yl0A_)xm`SI7wi_)(4rJ`~Tx<?l@Az0MxL*smv$D9*bxYbQPtf>L
z$qQN;OJ$CuNcwu8%)|(hzo>R_R+RMAx}6YvGm8*=9|$U{_~vV&bH9qwc9MAtmrB<E
z0Mqp_+xs4U<Fb?#ny;bc(id6MrqbsX4F}RD*zNUDKGMb{ZHXP0-l|${LW}?!_Pi{1
zr9(EIHSKs@aPJ=q*yqbkSudgwO|rLhc^*__1hLs&ytCfUJB0ZQCXaJXo!L@^Olu@`
zM%TDfiAR3?g#%9J*zz!Ln%CW>ym&!`xasQO%IXbaH;LFGdOai~(`=0(vE9P*ts=&?
zvB})>y-%i`TN7b<y9)WA&f&GnJ)W0?I@1n)D_+Zhh7@A{(UovwG2@n=>M5fw_ctr!
zqn>bjJ#HzLpOK1I7QL4|EWWqXqtq^BX2-(a3rO5y%a~Z>>B`afUZ08iESTkXbLGIK
zk0Pzn>S;fV8%Z77qBMr0p1@i_Fuj7WM}~OInj2!V+Qx+?1ja@%>^$52ucyKJKapAH
zPsiOJX&{oGQql`t4sfJpK@Kkf-@4RmS~uq66%jVlv}Ac%DPxi+xvvBf<S%0ec;=0+
z&Rm$>I}G(1I}4gXaO58786$LK)nU7Pgxi*#&B5-aiRAl$+)2xPg>9l_Oq3D1pLHx!
zg8O#vp_zfF)Qj|<$*eZ9X}7{Xfs@q6ZR$pD6g!Cb54c3ZF4tQG9?6vu*!qm`*$W7;
zOm_|02fu`S?O}Z1gXL8QoxY=Z?h%xA7xqb({{Vzo6B}1ZHW_1XIdDTq`nDgkvx-v_
z?D9(p!BJIGw|4mWJ(jTl0ATxE%=Y@Ekl>qh%90anG2D&{d*c?ku_KVOW(3?1B}yB1
z?*TG+iw5S4j_awPv;cAnHUvDDyAB_91Fjvk-y9TMqOiMtz^I(v!v6sMg{;&zCy;ru
z3UM@qi=2cruEXU>$8NAZ`AWitnc`RH2fAU6!vr0@ihPaSJUhyDG{88rP72AHp@(&V
zJoYKTwnqlYGv!G3HYZz{&-PKx9}a21i+4uA$faS0`55?5hGQ7oKy+ua=Exl1PEWD$
zn&uWbi`*U%4Hk3;INToJb9^H;8VIVO^&tY_c2rQx=uO*^+$%~7=C#8(JcNxqu&U{m
zG6yjFQr_bLsIFM@3Bm5P+JyvFu==rEb(VUf86qW*7#tMQX_@GTcIM;vOB=8+%4-Xl
zY~gmPgGI0Wr85C5NOMb1*$X^wjn`@*0@Ju;c~ZHomAOAeEFhSXmjccSp~a)+J@J-2
zf(qgZ!p0gs+3u0R_bZDFNFw&|k;dJw698+P*I=8W<fjAN+>Z#b0XMR71N8t_Fc0Oz
zb0aN0qHYf&$;}NoKe`t{@3J^$vCk;COX@Rg@`jQt{+lMT#g_yetx21q(?;IcKPoMt
z{1qTQ!NNk(x5^<I##8Rsx0{rN8)uHiH11=r)s16IOI>l1;WM>}BpfNtp4-~RLt@kL
zl)^E^gtU@d=fZirPBPSmm*a%imqy|pa^BwvGYjrxgpq;>&K1s|s+X`bU)AMQ<-X>h
zX-(RH+-KcRQBSgwl`R()GYpYqbyrw-pH?GhG-W-GCOcmtKuHfL_X|QaX-I=}rIP#+
zk`YwzzqQyu<wGMbcQDwd$0lq=oC<kH#f-~(d&MJUXD!XUEkqG%+TACl_O?2ZIr&)%
zdVoM_us%^RRY^@dWMi!1kWhr0(=_3GLTfriw6nS?m~H&7whEz|2UEDZFmK^{R-IWz
zt<!#1t7w|oJ<85?7K=3$hugY4;mWNhBC|b7T<2M`HpLXmr!eH8ri0zNyoJ%a=WD`F
zBXTT1IPqfFD5vzQNq6aZQHaBGo9TwW?YStVkQ*3UTkLQ@1wEVFdlXP$m782W-INcF
z(Veas356nc!MPal6I*8s5T7UnV=6ZLUBbpf?Hmi)GH4qA0B{-q04jZ<z_@3^M&k)u
z_J*(_7Q_Dl3U)EC7Z@scvvrM=14tx`4}@$CZ>M4pB}~I{oFrjsusq!^T5s794Rm)0
zvTF%$4<1y%H(h4PY<XD6cE4hm9uq9+@I}H>ZqPzjGG{p0_fdc?&n0&I5(-HO4ZW_V
zB+5mNCfWI29L|lvgO2JT@Lon!gAMKl!dfY1gJo>2#tMpCwE03uA&vJOBU>Y7X9DXj
z0$V_?b<ORb>8@xPJf}+Ct|s>hrNCPGT?y!gP{KYF0K19#Qkx56{{Shr`yvezQ_f;`
z4T`j;)L8Fp^V;f}z#i$I;CcO&rv%50+BB_u9N#}G3aVzjTw6I+G}SUkVYrs77;3?`
z>nZVQt*I50(U9Ur!T3-*H#gerkgs30{{W)a?uVWRxNt70rb<xyDR!2+_p&yQszwp+
zE2W2LYo;}s;X6s7D_bog)Gpu)vX73imVtGiV+eKpBPr(Kclat#67*4JuFH2y*NYRv
zudE#R3C8xuN{G3{Sm)}IW1*bEV{v1F9n{X87|Fj1H^xCW;HaL$O~5x!<7D{_kO$n`
zDj|0K6)Ok^#B!eI2LX$lB9#T53;QX-7`?xA97AM-2!cr$x_hE-B-^uV;XR}tN*RwA
zvBGe5vJLKt8=_*;G8B-?SmER43+kJEB@$euk|_ewj%&cTKjALhbA%-%p{VwODD8VL
zc`7;+7!9pr6Nwi$%4Cta8=gBPYhAf0$Sx^d4Yy<bB7kg|1L~{WxC?FNOAN(?069I7
zVJDi8cLK+^%B!rRxZ>l!7KWALTW&n3O-u+R8=$7pyl=AwS4ctQx(vkTT#J>qtJA?Q
zHv6ht+9J|@y}4J0TO~YSMMQ7La-?Bxl1%|&yKkQ9fRW0)WSI#n2xHL<c(Bco8;@(1
zD<8K%WY#4XamqG~{>pZ~?&iv_IXi-hj!R_o@`;lT4;S*5{@;W<Wb>6Eb@5|zu*sY~
zp>v3^%0h4n@S0D>(zFwg7x0ie_CG0iW4+T`#nwXfN**}EQseNW{z3AQr?u{d44Ct4
l5p>hoT_APZQgdK@VG})zcC?&bHs|_^L&poZAL>}g|Jk!$A)5dI

literal 0
HcmV?d00001

diff --git a/tests/v1/ec_connector/integration/run_epd_correctness_test.sh b/tests/v1/ec_connector/integration/run_epd_correctness_test.sh
new file mode 100644
index 0000000000000..55dd39c0a957f
--- /dev/null
+++ b/tests/v1/ec_connector/integration/run_epd_correctness_test.sh
@@ -0,0 +1,476 @@
+#!/bin/bash
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+#
+# EPD (Encoder-Prefill-Decode) Correctness Test
+# 
+# This script tests that EPD disaggregation produces the same outputs as baseline.
+# It runs:
+# 1. Baseline: Single vLLM instance
+# 2. EPD: 1E + 1PD setup
+# 3. Baseline for (E + P + D): 1P + 1D vLLM instances disagg
+# 4. EPD: 1E + 1P + 1D setup
+
+# For GPU usage
+
+# set -xe
+
+# Find the git repository root directory
+GIT_ROOT=$(git rev-parse --show-toplevel)
+
+# Model to test
+MODEL="${MODEL:-Qwen/Qwen2.5-VL-3B-Instruct}"
+
+# Set 1 to use multimodal prompts; else to use text-only
+USE_MM_PROMPTS="${USE_MM_PROMPTS:-1}"
+MM_FLAG=""
+if [ $USE_MM_PROMPTS = "1" ]; then
+    MM_FLAG="--use_mm_prompts"
+fi
+
+# GPU configuration
+GPU_E="${GPU_E:-0}"
+GPU_P="${GPU_P:-1}"
+GPU_D="${GPU_D:-2}"
+GPU_SINGLE="${GPU_SINGLE:-$GPU_P}"
+GPU_PD="${GPU_PD:-$GPU_P}"
+
+# Port
+ENCODE_PORT="${ENCODE_PORT:-19534}"
+PREFILL_PORT="${PREFILL_PORT:-19535}"
+DECODE_PORT="${DECODE_PORT:-19536}"
+PREFILL_DECODE_PORT="${PREFILL_DECODE_PORT:-19537}"
+ENDPOINT_PORT="${ENDPOINT_PORT:-10001}"
+
+# Storage path for encoder cache
+EC_SHARED_STORAGE_PATH="${EC_SHARED_STORAGE_PATH:-/tmp/ec_cache_test}"
+TIMEOUT_SECONDS="${TIMEOUT_SECONDS:-600}"
+
+# Output file for baseline comparison and logs
+LOG_PATH="${LOG_PATH:-/tmp}"
+BASELINE_FILE="${BASELINE_FILE:-/tmp/vllm_baseline.txt}"
+BASELINE_PD_FILE="${BASELINE_PD_FILE:-/tmp/vllm_epd_baseline.txt}"
+
+mkdir -p $LOG_PATH
+
+# Trap the SIGINT signal (triggered by Ctrl+C)
+trap 'kill $(jobs -pr)' SIGINT SIGTERM EXIT
+
+# Wait for server to be ready
+wait_for_server() {
+    local port=$1
+    timeout "$TIMEOUT_SECONDS" bash -c "
+        until curl -s localhost:${port}/v1/chat/completions > /dev/null; do
+            sleep 1
+        done" && return 0 || return 1
+}
+
+# Cleanup function
+cleanup_instances() {
+    echo "Cleaning up any running vLLM instances..."
+    pkill -f "vllm serve" || true
+    pkill -f "disagg_epd_proxy.py" || true
+    sleep 2
+}
+
+# Function to run baseline (single instance)
+run_baseline() {
+    echo "================================"
+    echo "Running BASELINE (single instance)"
+    echo "================================"
+    
+    cleanup_instances
+    rm -rf "$EC_SHARED_STORAGE_PATH"
+    
+    local PORT=$ENDPOINT_PORT
+    
+    # Start baseline instance
+    echo "Starting baseline instance on GPU $GPU_SINGLE, port $PORT"
+    CUDA_VISIBLE_DEVICES="$GPU_SINGLE" vllm serve "$MODEL" \
+        --port $PORT \
+        --enforce-eager \
+        --gpu-memory-utilization 0.7 \
+        --max-num-seqs 128 \
+        --allowed-local-media-path ${GIT_ROOT}/tests/v1/ec_connector/integration \
+        > $LOG_PATH/baseline.log 2>&1 &
+    
+    local BASELINE_PID=$!
+    
+    # Wait for baseline to start
+    echo "Waiting for baseline instance to start..."
+    wait_for_server $PORT
+
+    curl http://127.0.0.1:$PORT/v1/models
+    echo ""
+    
+    # Run test in baseline mode
+    echo "Running baseline..."
+
+    python "${GIT_ROOT}/tests/v1/ec_connector/integration/test_epd_correctness.py" \
+        --service_url "http://localhost:$PORT" \
+        --model_name "$MODEL" \
+        --mode baseline \
+        --baseline_file "$BASELINE_FILE" \
+        $MM_FLAG
+    
+    # Cleanup baseline
+    echo "Stopping baseline instance..."
+    kill $BASELINE_PID 2>/dev/null || true
+    sleep 2
+    cleanup_instances
+}
+
+# Function to run EPD with 1E + 1PD
+run_epd_1e_1pd() {
+    echo "================================"
+    echo "Running EPD (1E + 1PD)"
+    echo "================================"
+    
+    cleanup_instances
+    rm -rf "$EC_SHARED_STORAGE_PATH"
+    mkdir -p "$EC_SHARED_STORAGE_PATH"
+    
+    local ENCODE_PORT=$ENCODE_PORT
+    local PREFILL_DECODE_PORT=$PREFILL_DECODE_PORT
+    local PROXY_PORT=$ENDPOINT_PORT
+    
+    declare -a PIDS=()
+    
+    # Start encoder instance
+    echo "Starting encoder instance on GPU $GPU_E, port $ENCODE_PORT"
+    CUDA_VISIBLE_DEVICES="$GPU_E" vllm serve "$MODEL" \
+        --port $ENCODE_PORT \
+        --enforce-eager \
+        --gpu-memory-utilization 0.01 \
+        --enable-request-id-headers \
+        --no-enable-prefix-caching \
+        --max-num-batched-tokens 114688 \
+        --max-num-seqs 128 \
+        --allowed-local-media-path ${GIT_ROOT}/tests/v1/ec_connector/integration \
+        --ec-transfer-config '{
+            "ec_connector": "ECSharedStorageConnector",
+            "ec_role": "ec_producer",
+            "ec_connector_extra_config": {
+                "shared_storage_path": "'"$EC_SHARED_STORAGE_PATH"'"
+            }
+        }' \
+        > $LOG_PATH/1e1pd_encoder.log 2>&1 &
+    PIDS+=($!)
+    
+    # Start prefill+decode instance
+    echo "Starting PD instance on GPU $GPU_PD, port $PREFILL_DECODE_PORT"
+    CUDA_VISIBLE_DEVICES="$GPU_PD" vllm serve "$MODEL" \
+        --port $PREFILL_DECODE_PORT \
+        --enforce-eager \
+        --gpu-memory-utilization 0.7 \
+        --enable-request-id-headers \
+        --max-num-seqs 128 \
+        --allowed-local-media-path ${GIT_ROOT}/tests/v1/ec_connector/integration \
+        --ec-transfer-config '{
+            "ec_connector": "ECSharedStorageConnector",
+            "ec_role": "ec_consumer",
+            "ec_connector_extra_config": {
+                "shared_storage_path": "'"$EC_SHARED_STORAGE_PATH"'"
+            }
+        }' \
+        > $LOG_PATH/1e1pd_pd.log 2>&1 &
+    PIDS+=($!)
+    
+    # Wait for instances to start
+    echo "Waiting for encoder instance..."
+    wait_for_server $ENCODE_PORT
+    echo "Waiting for PD instance..."
+    wait_for_server $PREFILL_DECODE_PORT
+
+    # Start proxy
+    echo "Starting EPD proxy on port $PROXY_PORT"
+    python "${GIT_ROOT}/examples/online_serving/disaggregated_encoder/disagg_epd_proxy.py" \
+        --host "0.0.0.0" \
+        --port $PROXY_PORT \
+        --encode-servers-urls "http://localhost:$ENCODE_PORT" \
+        --prefill-servers-urls "disable" \
+        --decode-servers-urls "http://localhost:$PREFILL_DECODE_PORT" \
+        > $LOG_PATH/1e1pd_proxy.log 2>&1 &
+    PIDS+=($!)
+    
+    # Wait for proxy
+    echo "Waiting for proxy..."
+    wait_for_server $PROXY_PORT
+
+    curl http://127.0.0.1:$PROXY_PORT/v1/models
+    curl http://127.0.0.1:$PROXY_PORT/health
+    echo ""
+
+    echo "All EPD (1E+1PD) services are up!"
+    
+    # Run test in disagg mode
+    echo "Running EPD (1E+1PD) correctness test..."
+    
+    python "${GIT_ROOT}/tests/v1/ec_connector/integration/test_epd_correctness.py" \
+        --service_url "http://localhost:$PROXY_PORT" \
+        --model_name "$MODEL" \
+        --mode disagg \
+        --baseline_file "$BASELINE_FILE" \
+        $MM_FLAG
+    
+    # Cleanup
+    echo "✓✓ 1E+1PD Correctness Test finished"
+    echo "Stopping EPD (1E+1PD) instances..."
+    for pid in "${PIDS[@]}"; do
+        kill $pid 2>/dev/null || true
+    done
+    sleep 2
+    cleanup_instances
+}
+
+# Function to run baseline for 1E + 1P + 1D (PD disagg)
+run_baseline_1p_1d() {
+    echo "================================"
+    echo "Running PD BASELINE (1P + 1D)"
+    echo "================================"
+    
+    cleanup_instances
+    rm -rf "$EC_SHARED_STORAGE_PATH"
+    mkdir -p "$EC_SHARED_STORAGE_PATH"
+    
+    local PREFILL_PORT=$PREFILL_PORT
+    local DECODE_PORT=$DECODE_PORT
+    local PROXY_PORT=$ENDPOINT_PORT
+    
+    declare -a PIDS=()
+    
+    # Start prefill instance
+    echo "Starting prefill instance on GPU $GPU_P, port $PREFILL_PORT"
+    CUDA_VISIBLE_DEVICES="$GPU_P" \
+    VLLM_NIXL_SIDE_CHANNEL_PORT=5559 \
+    vllm serve "$MODEL" \
+        --port $PREFILL_PORT \
+        --enforce-eager \
+        --gpu-memory-utilization 0.7 \
+        --enable-request-id-headers \
+        --max-num-seqs 128 \
+        --allowed-local-media-path ${GIT_ROOT}/tests/v1/ec_connector/integration \
+        --kv-transfer-config '{
+            "kv_connector": "NixlConnector",
+            "kv_role": "kv_producer"
+        }' \
+        > $LOG_PATH/1p1d_prefill.log 2>&1 &
+    PIDS+=($!)
+    
+    # Start decode instance
+    echo "Starting decode instance on GPU $GPU_D, port $DECODE_PORT"
+    CUDA_VISIBLE_DEVICES="$GPU_D" \
+    VLLM_NIXL_SIDE_CHANNEL_PORT=6000 \
+    vllm serve "$MODEL" \
+        --port $DECODE_PORT \
+        --enforce-eager \
+        --gpu-memory-utilization 0.7 \
+        --enable-request-id-headers \
+        --max-num-seqs 128 \
+        --allowed-local-media-path ${GIT_ROOT}/tests/v1/ec_connector/integration \
+        --kv-transfer-config '{
+            "kv_connector": "NixlConnector",
+            "kv_role": "kv_consumer"
+        }' \
+        > $LOG_PATH/1p1d_decode.log 2>&1 &
+    PIDS+=($!)
+    
+    # Wait for instances to start
+    echo "Waiting for prefill instance..."
+    wait_for_server $PREFILL_PORT
+    echo "Waiting for decode instance..."
+    wait_for_server $DECODE_PORT
+    
+    # Start proxy
+    echo "Starting EPD proxy on port $PROXY_PORT"
+    python "${GIT_ROOT}/tests/v1/kv_connector/nixl_integration/toy_proxy_server.py" \
+        --host "0.0.0.0" \
+        --port $PROXY_PORT \
+        --prefiller-ports $PREFILL_PORT \
+        --decoder-ports $DECODE_PORT \
+        > $LOG_PATH/1p1d_proxy.log 2>&1 &
+    PIDS+=($!)
+    
+    # Wait for proxy
+    echo "Waiting for proxy..."
+    wait_for_server $PROXY_PORT
+
+    curl http://127.0.0.1:$PROXY_PORT/healthcheck
+    echo ""
+
+    echo "All PD (1P+1D) services are up!"
+    
+    # Run test in baseline mode
+    echo "Running PD disagg baseline..."
+    
+    python "${GIT_ROOT}/tests/v1/ec_connector/integration/test_epd_correctness.py" \
+        --service_url "http://localhost:$PROXY_PORT" \
+        --model_name "$MODEL" \
+        --mode baseline_pd \
+        --baseline_file "$BASELINE_PD_FILE" \
+        $MM_FLAG
+    
+    # Cleanup
+    echo "Stopping PD (1P+1D) instances..."
+    for pid in "${PIDS[@]}"; do
+        kill $pid 2>/dev/null || true
+    done
+    sleep 2
+    cleanup_instances
+}
+
+# Function to run EPD with 1E + 1P + 1D
+run_epd_1e_1p_1d() {
+    echo "================================"
+    echo "Running EPD (1E + 1P + 1D)"
+    echo "================================"
+    
+    cleanup_instances
+    rm -rf "$EC_SHARED_STORAGE_PATH"
+    mkdir -p "$EC_SHARED_STORAGE_PATH"
+    
+    local ENCODE_PORT=$ENCODE_PORT
+    local PREFILL_PORT=$PREFILL_PORT
+    local DECODE_PORT=$DECODE_PORT
+    local PROXY_PORT=$ENDPOINT_PORT
+    
+    declare -a PIDS=()
+    
+    # Start encoder instance
+    echo "Starting encoder instance on GPU $GPU_E, port $ENCODE_PORT"
+    CUDA_VISIBLE_DEVICES="$GPU_E" vllm serve "$MODEL" \
+        --port $ENCODE_PORT \
+        --enforce-eager \
+        --gpu-memory-utilization 0.01 \
+        --enable-request-id-headers \
+        --no-enable-prefix-caching \
+        --max-num-batched-tokens 114688 \
+        --max-num-seqs 128 \
+        --allowed-local-media-path ${GIT_ROOT}/tests/v1/ec_connector/integration \
+        --ec-transfer-config '{
+            "ec_connector": "ECSharedStorageConnector",
+            "ec_role": "ec_producer",
+            "ec_connector_extra_config": {
+                "shared_storage_path": "'"$EC_SHARED_STORAGE_PATH"'"
+            }
+        }' \
+        > $LOG_PATH/1e1p1d_encoder.log 2>&1 &
+    PIDS+=($!)
+    
+    # Start prefill instance
+    echo "Starting prefill instance on GPU $GPU_P, port $PREFILL_PORT"
+    CUDA_VISIBLE_DEVICES="$GPU_P" \
+    VLLM_NIXL_SIDE_CHANNEL_PORT=5559 \
+    vllm serve "$MODEL" \
+        --port $PREFILL_PORT \
+        --enforce-eager \
+        --gpu-memory-utilization 0.7 \
+        --enable-request-id-headers \
+        --max-num-seqs 128 \
+        --allowed-local-media-path ${GIT_ROOT}/tests/v1/ec_connector/integration \
+        --ec-transfer-config '{
+            "ec_connector": "ECSharedStorageConnector",
+            "ec_role": "ec_consumer",
+            "ec_connector_extra_config": {
+                "shared_storage_path": "'"$EC_SHARED_STORAGE_PATH"'"
+            }
+        }' \
+        --kv-transfer-config '{
+            "kv_connector": "NixlConnector",
+            "kv_role": "kv_producer"
+        }' \
+        > $LOG_PATH/1e1p1d_prefill.log 2>&1 &
+    PIDS+=($!)
+    
+    # Start decode instance
+    echo "Starting decode instance on GPU $GPU_D, port $DECODE_PORT"
+    CUDA_VISIBLE_DEVICES="$GPU_D" \
+    VLLM_NIXL_SIDE_CHANNEL_PORT=6000 \
+    vllm serve "$MODEL" \
+        --port $DECODE_PORT \
+        --enforce-eager \
+        --gpu-memory-utilization 0.7 \
+        --enable-request-id-headers \
+        --max-num-seqs 128 \
+        --allowed-local-media-path ${GIT_ROOT}/tests/v1/ec_connector/integration \
+        --kv-transfer-config '{
+            "kv_connector": "NixlConnector",
+            "kv_role": "kv_consumer"
+        }' \
+        > $LOG_PATH/1e1p1d_decode.log 2>&1 &
+    PIDS+=($!)
+    
+    # Wait for instances to start
+    echo "Waiting for encoder instance..."
+    wait_for_server $ENCODE_PORT
+    echo "Waiting for prefill instance..."
+    wait_for_server $PREFILL_PORT
+    echo "Waiting for decode instance..."
+    wait_for_server $DECODE_PORT
+    
+    # Start proxy
+    echo "Starting EPD proxy on port $PROXY_PORT"
+    python "${GIT_ROOT}/examples/online_serving/disaggregated_encoder/disagg_epd_proxy.py" \
+        --host "0.0.0.0" \
+        --port $PROXY_PORT \
+        --encode-servers-urls "http://localhost:$ENCODE_PORT" \
+        --prefill-servers-urls "http://localhost:$PREFILL_PORT" \
+        --decode-servers-urls "http://localhost:$DECODE_PORT" \
+        > $LOG_PATH/1e1p1d_proxy.log 2>&1 &
+    PIDS+=($!)
+    
+    # Wait for proxy
+    echo "Waiting for proxy..."
+    wait_for_server $PROXY_PORT
+
+    curl http://127.0.0.1:$PROXY_PORT/v1/models
+    curl http://127.0.0.1:$PROXY_PORT/health
+    echo ""
+
+    echo "All EPD (1E+1P+1D) services are up!"
+    
+    # Run test in disagg mode
+    echo "Running EPD (1E+1P+1D) correctness test..."
+    
+    python "${GIT_ROOT}/tests/v1/ec_connector/integration/test_epd_correctness.py" \
+        --service_url "http://localhost:$PROXY_PORT" \
+        --model_name "$MODEL" \
+        --mode disagg \
+        --baseline_file "$BASELINE_PD_FILE" \
+        $MM_FLAG
+    
+    # Cleanup
+    echo "✓✓ 1E+1P+1D Correctness Test finished"
+    echo "Stopping EPD (1E+1P+1D) instances..."
+    for pid in "${PIDS[@]}"; do
+        kill $pid 2>/dev/null || true
+    done
+    sleep 2
+    cleanup_instances
+}
+
+# Main execution
+echo "================================"
+echo "EPD Correctness Test Suite"
+echo "Model: $MODEL"
+echo "================================"
+
+# Step 1: Run baseline
+run_baseline
+
+# Step 2: Test 1E + 1PD
+run_epd_1e_1pd
+
+# Step 3: Test baseline 1P + 1D
+run_baseline_1p_1d
+
+# Step 4: Test 1E + 1P + 1D
+run_epd_1e_1p_1d
+
+# Cleanup output file
+rm -f "$BASELINE_FILE"
+rm -f "$BASELINE_PD_FILE"
+
+echo "================================"
+echo "✓✓ All EPD correctness tests finished!"
+echo "================================"
diff --git a/tests/v1/ec_connector/integration/test_epd_correctness.py b/tests/v1/ec_connector/integration/test_epd_correctness.py
new file mode 100644
index 0000000000000..69c4c58e349b9
--- /dev/null
+++ b/tests/v1/ec_connector/integration/test_epd_correctness.py
@@ -0,0 +1,305 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+EPD Correctness Test
+
+Tests that EPD (Encoder-Prefill-Decode) disaggregation produces the same
+outputs as a baseline single instance.
+
+Usage:
+    # Baseline mode (saves outputs):
+    python test_epd_correctness.py \
+        --service_url http://localhost:8000 \
+        --model_name Qwen/Qwen2.5-VL-3B-Instruct \
+        --mode baseline \
+        --baseline_file .vllm_epd_baseline.txt
+
+    # Disagg mode (compares outputs):
+    python test_epd_correctness.py \
+        --service_url http://localhost:8000 \
+        --model_name Qwen/Qwen2.5-VL-3B-Instruct \
+        --mode disagg \
+        --baseline_file .vllm_epd_baseline.txt
+"""
+
+import argparse
+import json
+import os
+import time
+
+import openai
+import requests
+
+from vllm.assets.image import ImageAsset
+from vllm.multimodal.utils import encode_image_base64
+
+MAX_OUTPUT_LEN = 256
+
+# Sample prompts with multimodal content
+image_1 = ImageAsset("stop_sign").pil_image.resize((1280, 720))
+image_2 = ImageAsset("cherry_blossom").pil_image.resize((1280, 720))
+
+image_local_path = f"{os.path.dirname(os.path.abspath(__file__))}/hato.jpg"
+
+SAMPLE_PROMPTS_MM: list[dict] = [
+    {
+        "messages": [
+            {
+                "role": "user",
+                "content": [
+                    {
+                        "type": "image_url",
+                        "image_url": {
+                            "url": f"data:image;base64,{encode_image_base64(image_1)}"
+                        },
+                    },
+                    {"type": "text", "text": "What's in this image?"},
+                ],
+            }
+        ],
+        "description": "Single image query",
+    },
+    {
+        "messages": [
+            {
+                "role": "user",
+                "content": [
+                    {
+                        "type": "image_url",
+                        "image_url": {
+                            "url": f"data:image;base64,{encode_image_base64(image_2)}"
+                        },
+                    },
+                    {
+                        "type": "image_url",
+                        "image_url": {"url": f"file://{image_local_path}"},
+                    },
+                    {"type": "text", "text": "Describe these 2 images in detail."},
+                ],
+            }
+        ],
+        "description": "2 images with detailed query",
+    },
+]
+
+# Text-only prompts for mixed testing
+SAMPLE_PROMPTS_TEXT: list[dict] = [
+    {
+        "messages": [{"role": "user", "content": "What is the capital of France?"}],
+        "description": "Simple text-only query",
+    },
+    {
+        "messages": [
+            {"role": "user", "content": "Explain quantum computing in simple terms."}
+        ],
+        "description": "Text-only explanation request",
+    },
+]
+
+
+def check_vllm_server(url: str, timeout=5, retries=10) -> bool:
+    """Check if the vLLM server is ready.
+
+    Args:
+        url: The URL to check (usually /health or /healthcheck endpoint)
+        timeout: Timeout in seconds for each request
+        retries: Number of retries if the server is not ready
+
+    Returns:
+        True if the server is ready, False otherwise
+    """
+    for attempt in range(retries):
+        try:
+            response = requests.get(url, timeout=timeout)
+            if response.status_code == 200:
+                print(f"Server is ready at {url}")
+                return True
+            else:
+                print(
+                    f"Attempt {attempt + 1}/{retries}: Server returned "
+                    f"status code {response.status_code}"
+                )
+        except requests.exceptions.RequestException as e:
+            print(f"Attempt {attempt + 1}/{retries}: Error connecting: {e}")
+        time.sleep(2)  # Wait before retrying
+    return False
+
+
+def run_chat_completion(
+    base_url: str,
+    model_name: str,
+    messages: list,
+    max_tokens: int = MAX_OUTPUT_LEN,
+) -> str:
+    """Run a chat completion request.
+
+    Args:
+        base_url: Base URL of the vLLM server
+        model_name: Name of the model
+        messages: Messages for chat completion
+        max_tokens: Maximum tokens to generate
+
+    Returns:
+        Generated text content
+    """
+    client = openai.OpenAI(api_key="EMPTY", base_url=base_url)
+
+    completion = client.chat.completions.create(
+        model=model_name,
+        messages=messages,
+        max_tokens=max_tokens,
+        temperature=0.0,
+        seed=42,
+    )
+
+    return completion.choices[0].message.content
+
+
+def main():
+    """Main test function."""
+    parser = argparse.ArgumentParser(
+        description="EPD correctness test - compare disagg vs baseline"
+    )
+
+    parser.add_argument(
+        "--service_url",
+        type=str,
+        required=True,
+        help="The vLLM service URL (e.g., http://localhost:8000)",
+    )
+
+    parser.add_argument(
+        "--model_name",
+        type=str,
+        required=True,
+        help="Model name",
+    )
+
+    parser.add_argument(
+        "--mode",
+        type=str,
+        default="baseline",
+        choices=["baseline", "baseline_pd", "disagg"],
+        help="Mode: baseline/baseline_pd (saves outputs) or disagg (compares outputs)",
+    )
+
+    parser.add_argument(
+        "--baseline_file",
+        type=str,
+        default=".vllm_epd_baseline.txt",
+        help="File to save/load baseline outputs",
+    )
+
+    parser.add_argument(
+        "--use_mm_prompts",
+        action="store_true",
+        help="Use multimodal prompts (default: use text-only for quick testing)",
+    )
+
+    args = parser.parse_args()
+
+    print(f"Service URL: {args.service_url}")
+    print(f"Model: {args.model_name}")
+    print(f"Mode: {args.mode}")
+    print(f"Output file: {args.baseline_file}")
+    print(f"Use MM prompts: {args.use_mm_prompts}")
+
+    # Determine health check endpoint
+    if args.mode == "baseline":
+        health_check_url = f"{args.service_url}/health"
+    elif args.mode == "baseline_pd":
+        # Nixl toy proxy use /healthcheck
+        health_check_url = f"{args.service_url}/healthcheck"
+    else:
+        # Disagg EPD proxy uses /health
+        health_check_url = f"{args.service_url}/health"
+        if not os.path.exists(args.baseline_file):
+            raise ValueError(
+                f"In disagg mode, the output file {args.baseline_file} from "
+                "baseline does not exist. Run baseline mode first."
+            )
+
+    # Check if server is ready
+    if not check_vllm_server(health_check_url):
+        raise RuntimeError(f"vLLM server at {args.service_url} is not ready!")
+
+    # Select prompts to use
+    if args.use_mm_prompts:
+        test_prompts = SAMPLE_PROMPTS_MM
+        print("Using multimodal prompts")
+    else:
+        test_prompts = SAMPLE_PROMPTS_TEXT
+        print("Using text-only prompts for quick testing")
+
+    # Run completions
+    service_url = f"{args.service_url}/v1"
+    output_strs = {}
+
+    for i, prompt_data in enumerate(test_prompts):
+        print(
+            f"\nRunning prompt {i + 1}/{len(test_prompts)}: {
+                prompt_data['description']
+            }"
+        )
+
+        output_str = run_chat_completion(
+            base_url=service_url,
+            model_name=args.model_name,
+            messages=prompt_data["messages"],
+            max_tokens=MAX_OUTPUT_LEN,
+        )
+
+        # Use description as key for comparison
+        key = prompt_data["description"]
+        output_strs[key] = output_str
+        print(f"Output: {output_str}")
+
+    if args.mode in ("baseline", "baseline_pd"):
+        # Baseline mode: Save outputs
+        print(f"\nSaving baseline outputs to {args.baseline_file}")
+        try:
+            with open(args.baseline_file, "w") as json_file:
+                json.dump(output_strs, json_file, indent=4)
+            print("✅ Baseline outputs saved successfully")
+        except OSError as e:
+            print(f"Error writing to file: {e}")
+            raise
+    else:
+        # Disagg mode: Load and compare outputs
+        print(f"\nLoading baseline outputs from {args.baseline_file}")
+        baseline_outputs = None
+        try:
+            with open(args.baseline_file) as json_file:
+                baseline_outputs = json.load(json_file)
+        except OSError as e:
+            print(f"Error reading from file: {e}")
+            raise
+
+        # Verify outputs match
+        print("\nComparing disagg outputs with baseline...")
+        assert isinstance(baseline_outputs, dict), "Baseline outputs should be a dict"
+        assert len(baseline_outputs) == len(output_strs), (
+            f"Length mismatch: baseline has {len(baseline_outputs)}, "
+            f"disagg has {len(output_strs)}"
+        )
+
+        all_match = True
+        for key, baseline_output in baseline_outputs.items():
+            assert key in output_strs, f"{key} not in disagg outputs"
+
+            disagg_output = output_strs[key]
+            if baseline_output == disagg_output:
+                print(f"✅ {key}: MATCH")
+            else:
+                print(f"❌ {key}: MISMATCH")
+                print(f"  Baseline: {baseline_output}")
+                print(f"  Disagg:   {disagg_output}")
+                all_match = False
+
+        assert all_match, "❌❌Disagg outputs do not match baseline!❌❌"
+        if all_match:
+            print("\n✅ All outputs match! Test PASSED")
+
+
+if __name__ == "__main__":
+    main()
diff --git a/tests/v1/ec_connector/unit/test_ec_shared_storage_connector.py b/tests/v1/ec_connector/unit/test_ec_shared_storage_connector.py
new file mode 100644
index 0000000000000..a58daa2628e21
--- /dev/null
+++ b/tests/v1/ec_connector/unit/test_ec_shared_storage_connector.py
@@ -0,0 +1,609 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+Unit tests for ECSharedStorageConnector.
+"""
+
+import os
+from unittest.mock import Mock, patch
+
+import pytest
+import safetensors
+import torch
+
+from vllm.config import VllmConfig
+from vllm.distributed.ec_transfer.ec_connector.base import ECConnectorRole
+from vllm.distributed.ec_transfer.ec_connector.shared_storage_connector import (
+    ECSharedStorageConnector,
+    ECSharedStorageConnectorMetadata,
+    MMMeta,
+)
+from vllm.multimodal.inputs import MultiModalFeatureSpec, PlaceholderRange
+from vllm.v1.core.sched.output import SchedulerOutput
+
+
+# ------------------ Mock Classes ------------------ #
+class MockRequest:
+    def __init__(self, request_id, mm_hashes: list[str], token_counts: list[int]):
+        assert len(mm_hashes) == len(token_counts)
+        self.request_id = request_id
+        self._token_counts = token_counts
+        self.mm_features = []
+        for i, mm_hash in enumerate(mm_hashes):
+            feature = MultiModalFeatureSpec(
+                data=None,
+                modality="image",
+                identifier=mm_hash,
+                mm_position=PlaceholderRange(offset=0, length=self._token_counts[i]),
+            )
+            self.mm_features.append(feature)
+
+    def get_num_encoder_tokens(self, input_id: int) -> int:
+        assert input_id < len(self._token_counts)
+        return self._token_counts[input_id]
+
+
+@pytest.fixture
+def temp_storage(tmp_path):
+    """Fixture providing temporary storage path."""
+    return str(tmp_path)
+
+
+@pytest.fixture
+def mock_vllm_config_producer(temp_storage):
+    """Fixture providing mock VllmConfig for producer role."""
+    config = Mock(spec=VllmConfig)
+    config.ec_transfer_config = Mock()
+    config.ec_transfer_config.get_from_extra_config = Mock(return_value=temp_storage)
+    config.ec_transfer_config.is_ec_producer = True
+    return config
+
+
+@pytest.fixture
+def mock_vllm_config_consumer(temp_storage):
+    """Fixture providing mock VllmConfig for consumer role."""
+    config = Mock(spec=VllmConfig)
+    config.ec_transfer_config = Mock()
+    config.ec_transfer_config.get_from_extra_config = Mock(return_value=temp_storage)
+    config.ec_transfer_config.is_ec_producer = False
+    return config
+
+
+@pytest.fixture
+def mock_request_with_3_mm():
+    """Fixture providing mock Request with 3 multimodal items."""
+    request_id = "test_req_123"
+    mm_hashes = ["img_hash_1", "img_hash_2", "img_hash_3"]
+    token_counts = [100, 150, 200]
+
+    request = MockRequest(request_id, mm_hashes, token_counts)
+    return request
+
+
+# ------------------ Unit Tests ------------------ #
+class TestECSharedStorageConnectorBasics:
+    """Test basic EC connector functionality."""
+
+    def test_initialization_producer(self, mock_vllm_config_producer, temp_storage):
+        """Test connector initializes correctly as producer."""
+        connector = ECSharedStorageConnector(
+            vllm_config=mock_vllm_config_producer,
+            role=ECConnectorRole.SCHEDULER,
+        )
+
+        assert connector.role == ECConnectorRole.SCHEDULER
+        assert connector.is_producer
+        assert connector._storage_path == temp_storage
+        assert connector._mm_datas_need_loads == {}
+
+    def test_initialization_consumer(self, mock_vllm_config_consumer, temp_storage):
+        """Test connector initializes correctly as consumer."""
+        connector = ECSharedStorageConnector(
+            vllm_config=mock_vllm_config_consumer,
+            role=ECConnectorRole.WORKER,
+        )
+
+        assert connector.role == ECConnectorRole.WORKER
+        assert not connector.is_producer
+        assert connector._storage_path == temp_storage
+
+    def test_role_assignment(self, mock_vllm_config_producer):
+        """Test role is correctly assigned."""
+        scheduler_connector = ECSharedStorageConnector(
+            vllm_config=mock_vllm_config_producer,
+            role=ECConnectorRole.SCHEDULER,
+        )
+        worker_connector = ECSharedStorageConnector(
+            vllm_config=mock_vllm_config_producer,
+            role=ECConnectorRole.WORKER,
+        )
+
+        assert scheduler_connector.role == ECConnectorRole.SCHEDULER
+        assert worker_connector.role == ECConnectorRole.WORKER
+
+
+class TestCacheExistence:
+    """Test cache existence checking using has_caches() API."""
+
+    def test_has_caches_all_exist_3_items(
+        self,
+        mock_vllm_config_producer,
+        mock_vllm_config_consumer,
+        mock_request_with_3_mm,
+    ):
+        """Test has_caches returns True when all 3 caches exist."""
+        # Test for producer first
+        producer = ECSharedStorageConnector(
+            vllm_config=mock_vllm_config_producer,
+            role=ECConnectorRole.SCHEDULER,
+        )
+
+        # Create cache files using save_caches (proper way)
+        encoder_cache: dict[str, torch.Tensor] = {}
+
+        for mm_feature in mock_request_with_3_mm.mm_features:
+            mm_hash = mm_feature.identifier
+            encoder_cache[mm_hash] = torch.randn(10, 768)
+            producer.save_caches(encoder_cache, mm_hash)
+
+        # Test using has_caches API
+        producer_result = producer.has_caches(mock_request_with_3_mm)
+
+        # Assert
+        assert len(producer_result) == 3
+        assert all(producer_result), f"Expected all True, got {producer_result}"
+
+        # Also test consumer can check if cache exists
+        consumer = ECSharedStorageConnector(
+            vllm_config=mock_vllm_config_consumer,
+            role=ECConnectorRole.SCHEDULER,
+        )
+
+        # Test using has_caches API
+        consumer_result = consumer.has_caches(mock_request_with_3_mm)
+
+        # Assert
+        assert len(consumer_result) == 3
+        assert all(consumer_result), f"Expected all True, got {consumer_result}"
+
+    def test_has_caches_none_exist(
+        self, mock_vllm_config_producer, mock_request_with_3_mm
+    ):
+        """Test has_caches returns False when no caches exist."""
+        connector = ECSharedStorageConnector(
+            vllm_config=mock_vllm_config_producer,
+            role=ECConnectorRole.SCHEDULER,
+        )
+
+        # Test without creating any files
+        result = connector.has_caches(mock_request_with_3_mm)
+
+        # Assert
+        assert len(result) == 3
+        assert not any(result), f"Expected all False, got {result}"
+
+    def test_has_caches_partial_exist(
+        self, mock_vllm_config_producer, mock_request_with_3_mm
+    ):
+        """Test has_caches with some caches existing (1 of 3)."""
+        connector = ECSharedStorageConnector(
+            vllm_config=mock_vllm_config_producer,
+            role=ECConnectorRole.SCHEDULER,
+        )
+
+        # Create only the second cache file
+        mm_hash_second = mock_request_with_3_mm.mm_features[1].identifier
+        encoder_cache = {mm_hash_second: torch.randn(10, 768)}
+        connector.save_caches(encoder_cache, mm_hash_second)
+
+        # Test
+        result = connector.has_caches(mock_request_with_3_mm)
+
+        # Assert
+        assert len(result) == 3
+        assert not result[0]  # First doesn't exist
+        assert result[1]  # Second exists
+        assert not result[2]  # Third doesn't exist
+
+
+class TestStateManagement:
+    """Test connector state management."""
+
+    def test_update_state_after_alloc_3_items(
+        self, mock_vllm_config_producer, mock_request_with_3_mm
+    ):
+        """Test state update after allocation for 3 MM items."""
+        connector = ECSharedStorageConnector(
+            vllm_config=mock_vllm_config_producer,
+            role=ECConnectorRole.SCHEDULER,
+        )
+
+        # Initial state should be empty
+        assert len(connector._mm_datas_need_loads) == 0
+
+        # Update state for all 3 items
+        for i in range(3):
+            connector.update_state_after_alloc(mock_request_with_3_mm, index=i)
+
+        # Check state updated for all 3
+        assert len(connector._mm_datas_need_loads) == 3
+        assert "img_hash_1" in connector._mm_datas_need_loads
+        assert "img_hash_2" in connector._mm_datas_need_loads
+        assert "img_hash_3" in connector._mm_datas_need_loads
+        assert connector._mm_datas_need_loads["img_hash_1"] == 100
+        assert connector._mm_datas_need_loads["img_hash_2"] == 150
+        assert connector._mm_datas_need_loads["img_hash_3"] == 200
+
+    def test_build_connector_meta_3_items(
+        self, mock_vllm_config_producer, mock_request_with_3_mm
+    ):
+        """Test metadata building for 3 MM items."""
+        connector = ECSharedStorageConnector(
+            vllm_config=mock_vllm_config_producer,
+            role=ECConnectorRole.SCHEDULER,
+        )
+
+        # Setup state for all 3 items
+        for i in range(3):
+            connector.update_state_after_alloc(mock_request_with_3_mm, index=i)
+
+        # Build metadata
+        scheduler_output = Mock(spec=SchedulerOutput)
+        metadata = connector.build_connector_meta(scheduler_output)
+
+        # Assert
+        assert isinstance(metadata, ECSharedStorageConnectorMetadata)
+        assert len(metadata.mm_datas) == 3
+        assert metadata.mm_datas[0].mm_hash == "img_hash_1"
+        assert metadata.mm_datas[0].num_token == 100
+        assert metadata.mm_datas[1].mm_hash == "img_hash_2"
+        assert metadata.mm_datas[1].num_token == 150
+        assert metadata.mm_datas[2].mm_hash == "img_hash_3"
+        assert metadata.mm_datas[2].num_token == 200
+
+        # State should be cleared after building
+        assert len(connector._mm_datas_need_loads) == 0
+
+    def test_build_connector_meta_empty(self, mock_vllm_config_producer):
+        """Test metadata building with empty state."""
+        connector = ECSharedStorageConnector(
+            vllm_config=mock_vllm_config_producer,
+            role=ECConnectorRole.SCHEDULER,
+        )
+
+        scheduler_output = Mock(spec=SchedulerOutput)
+        metadata = connector.build_connector_meta(scheduler_output)
+
+        assert isinstance(metadata, ECSharedStorageConnectorMetadata)
+        assert len(metadata.mm_datas) == 0
+
+    def test_state_cleared_after_metadata_build(
+        self, mock_vllm_config_producer, mock_request_with_3_mm
+    ):
+        """Test that state is properly cleared after building metadata."""
+        connector = ECSharedStorageConnector(
+            vllm_config=mock_vllm_config_producer,
+            role=ECConnectorRole.SCHEDULER,
+        )
+
+        # Add state
+        for i in range(3):
+            connector.update_state_after_alloc(mock_request_with_3_mm, index=i)
+        assert len(connector._mm_datas_need_loads) == 3
+
+        # Build metadata (should clear state)
+        scheduler_output = Mock(spec=SchedulerOutput)
+        connector.build_connector_meta(scheduler_output)
+
+        # State should be empty
+        assert len(connector._mm_datas_need_loads) == 0
+
+        # Build again should return empty metadata
+        metadata2 = connector.build_connector_meta(scheduler_output)
+        assert len(metadata2.mm_datas) == 0
+
+
+class TestCacheSaving:
+    """Test encoder cache saving (producer only)."""
+
+    def test_save_caches_producer_3_items(
+        self, mock_vllm_config_producer, mock_request_with_3_mm, temp_storage
+    ):
+        """Test cache saving as producer for 3 different MM items."""
+        connector = ECSharedStorageConnector(
+            vllm_config=mock_vllm_config_producer,
+            role=ECConnectorRole.WORKER,
+        )
+
+        # Create and save 3 different caches
+        mm_hashes = [f.identifier for f in mock_request_with_3_mm.mm_features]
+        encoder_cache: dict[str, torch.Tensor] = {}
+
+        for mm_hash in mm_hashes:
+            encoder_cache[mm_hash] = torch.randn(10, 768)
+            connector.save_caches(encoder_cache, mm_hash)
+
+        # Verify all files exist using has_caches
+        result = connector.has_caches(mock_request_with_3_mm)
+        assert all(result), f"Not all caches were saved: {result}"
+
+        # Verify each file's content
+        for mm_hash in mm_hashes:
+            filename = connector._generate_filename_debug(mm_hash)
+            loaded = safetensors.torch.load_file(filename)
+            assert "ec_cache" in loaded
+            assert torch.allclose(loaded["ec_cache"], encoder_cache[mm_hash].cpu())
+
+    def test_save_caches_consumer_skips(self, mock_vllm_config_consumer):
+        """Test cache saving is skipped for consumer."""
+        connector = ECSharedStorageConnector(
+            vllm_config=mock_vllm_config_consumer,
+            role=ECConnectorRole.WORKER,
+        )
+
+        mm_hash = "test_hash_consumer"
+        encoder_cache = {mm_hash: torch.randn(10, 768)}
+
+        # Save should not raise but also not create file
+        connector.save_caches(encoder_cache, mm_hash)
+
+        # Verify file doesn't exist using has_caches
+        mock_request = MockRequest("req_consumer", [mm_hash], [10])
+        result = connector.has_caches(mock_request)
+        assert not result[0], "Consumer should not save caches"
+
+
+class TestCacheLoading:
+    """Test encoder cache loading (consumer)."""
+
+    @pytest.mark.skipif(not torch.cuda.is_available(), reason="CUDA not available")
+    def test_start_load_caches_consumer_3_items(
+        self,
+        mock_vllm_config_producer,
+        mock_vllm_config_consumer,
+        mock_request_with_3_mm,
+        temp_storage,
+    ):
+        """Test consumer loads 3 caches from storage."""
+        # First, create producer to save caches
+        producer = ECSharedStorageConnector(
+            vllm_config=mock_vllm_config_producer,
+            role=ECConnectorRole.WORKER,
+        )
+
+        # Producer saves 3 caches
+        mm_hashes = [f.identifier for f in mock_request_with_3_mm.mm_features]
+        saved_caches = {}
+        for mm_hash in mm_hashes:
+            saved_caches[mm_hash] = torch.randn(10, 768)
+            producer.save_caches(saved_caches, mm_hash)
+
+        # Now consumer loads
+        consumer = ECSharedStorageConnector(
+            vllm_config=mock_vllm_config_consumer,
+            role=ECConnectorRole.WORKER,
+        )
+
+        # Setup metadata for all 3
+        metadata = ECSharedStorageConnectorMetadata()
+        for mm_hash in mm_hashes:
+            metadata.add_mm_data(MMMeta.make_meta(mm_hash, 100))
+        consumer.bind_connector_metadata(metadata)
+
+        # Load
+        encoder_cache: dict[str, torch.Tensor] = {}
+        consumer.start_load_caches(encoder_cache=encoder_cache)
+
+        # Verify all 3 loaded
+        assert len(encoder_cache) == 3
+        for mm_hash in mm_hashes:
+            assert mm_hash in encoder_cache, f"{mm_hash} missing in encoder_cache"
+            assert encoder_cache[mm_hash].is_cuda, (
+                f"{mm_hash} cache is in {encoder_cache[mm_hash].device}"
+            )
+            assert torch.allclose(
+                encoder_cache[mm_hash].cpu(), saved_caches[mm_hash]
+            ), f"{mm_hash} cache saved and loaded tesnor are not the same"
+
+    def test_start_load_caches_skip_existing(
+        self, mock_vllm_config_producer, mock_vllm_config_consumer, temp_storage
+    ):
+        """Test cache loading skips already cached items."""
+        # Setup: producer saves cache
+        producer = ECSharedStorageConnector(
+            vllm_config=mock_vllm_config_producer,
+            role=ECConnectorRole.WORKER,
+        )
+
+        mm_hash = "existing_hash"
+        saved_cache = torch.randn(10, 768)
+        producer.save_caches({mm_hash: saved_cache}, mm_hash)
+
+        # Consumer setup
+        consumer = ECSharedStorageConnector(
+            vllm_config=mock_vllm_config_consumer,
+            role=ECConnectorRole.WORKER,
+        )
+
+        metadata = ECSharedStorageConnectorMetadata()
+        metadata.add_mm_data(MMMeta.make_meta(mm_hash, 100))
+        consumer.bind_connector_metadata(metadata)
+
+        # Pre-populate encoder_cache with different value
+        existing_cache = torch.randn(5, 512)
+        encoder_cache = {mm_hash: existing_cache}
+
+        # Load (should skip since already exists)
+        with patch("safetensors.torch.load_file") as mock_load:
+            consumer.start_load_caches(encoder_cache=encoder_cache)
+            # Should not call load_file since cache exists
+            mock_load.assert_not_called()
+
+        # Verify original cache unchanged
+        assert torch.equal(encoder_cache[mm_hash], existing_cache)
+
+    def test_start_load_caches_empty_metadata(self, mock_vllm_config_consumer):
+        """Test loading with empty metadata does nothing."""
+        consumer = ECSharedStorageConnector(
+            vllm_config=mock_vllm_config_consumer,
+            role=ECConnectorRole.WORKER,
+        )
+
+        # Setup empty metadata
+        metadata = ECSharedStorageConnectorMetadata()
+        consumer.bind_connector_metadata(metadata)
+
+        # Load (should not raise)
+        encoder_cache: dict[str, torch.Tensor] = {}
+        consumer.start_load_caches(encoder_cache=encoder_cache)
+
+        # Cache should remain empty
+        assert len(encoder_cache) == 0
+
+
+class TestFilenameGeneration:
+    """Test filename and path generation."""
+
+    def test_generate_foldername(self, mock_vllm_config_producer, temp_storage):
+        """Test folder name generation."""
+        connector = ECSharedStorageConnector(
+            vllm_config=mock_vllm_config_producer,
+            role=ECConnectorRole.WORKER,
+        )
+
+        mm_hash = "test_folder_hash"
+        folder = connector._generate_foldername_debug(mm_hash)
+
+        assert folder == os.path.join(temp_storage, mm_hash)
+        assert os.path.isdir(folder)  # Should be created
+
+    def test_generate_filename(self, mock_vllm_config_producer, temp_storage):
+        """Test filename generation."""
+        connector = ECSharedStorageConnector(
+            vllm_config=mock_vllm_config_producer,
+            role=ECConnectorRole.WORKER,
+        )
+
+        mm_hash = "test_file_hash"
+        filename = connector._generate_filename_debug(mm_hash)
+
+        expected = os.path.join(temp_storage, mm_hash, "encoder_cache.safetensors")
+        assert filename == expected
+        assert os.path.isdir(os.path.dirname(filename))  # Folder created
+
+    def test_generate_filename_consistency(self, mock_vllm_config_producer):
+        """Test filename generation is consistent."""
+        connector = ECSharedStorageConnector(
+            vllm_config=mock_vllm_config_producer,
+            role=ECConnectorRole.WORKER,
+        )
+
+        mm_hash = "consistency_hash"
+        filename1 = connector._generate_filename_debug(mm_hash)
+        filename2 = connector._generate_filename_debug(mm_hash)
+
+        assert filename1 == filename2
+
+
+class TestMetadataBindingLifecycle:
+    """Test metadata binding and clearing lifecycle."""
+
+    def test_bind_connector_metadata(self, mock_vllm_config_consumer):
+        """Test binding connector metadata."""
+        connector = ECSharedStorageConnector(
+            vllm_config=mock_vllm_config_consumer,
+            role=ECConnectorRole.WORKER,
+        )
+
+        metadata = ECSharedStorageConnectorMetadata()
+        metadata.add_mm_data(MMMeta.make_meta("hash_1", 100))
+
+        connector.bind_connector_metadata(metadata)
+
+        assert connector._connector_metadata is metadata
+
+    def test_clear_connector_metadata(self, mock_vllm_config_consumer):
+        """Test clearing connector metadata."""
+        connector = ECSharedStorageConnector(
+            vllm_config=mock_vllm_config_consumer,
+            role=ECConnectorRole.WORKER,
+        )
+
+        metadata = ECSharedStorageConnectorMetadata()
+        connector.bind_connector_metadata(metadata)
+
+        connector.clear_connector_metadata()
+
+        assert connector._connector_metadata is None
+
+    def test_get_connector_metadata(self, mock_vllm_config_consumer):
+        """Test getting connector metadata."""
+        connector = ECSharedStorageConnector(
+            vllm_config=mock_vllm_config_consumer,
+            role=ECConnectorRole.WORKER,
+        )
+
+        metadata = ECSharedStorageConnectorMetadata()
+        connector.bind_connector_metadata(metadata)
+
+        retrieved = connector._get_connector_metadata()
+
+        assert retrieved is metadata
+
+    def test_get_connector_metadata_not_set(self, mock_vllm_config_consumer):
+        """Test getting metadata when not set raises."""
+        connector = ECSharedStorageConnector(
+            vllm_config=mock_vllm_config_consumer,
+            role=ECConnectorRole.WORKER,
+        )
+
+        with pytest.raises(AssertionError):
+            connector._get_connector_metadata()
+
+
+class TestEdgeCases:
+    """Test edge cases and error handling."""
+
+    def test_save_empty_cache(self, mock_vllm_config_producer):
+        """Test saving empty tensor."""
+        connector = ECSharedStorageConnector(
+            vllm_config=mock_vllm_config_producer,
+            role=ECConnectorRole.WORKER,
+        )
+
+        mm_hash = "empty_hash"
+        encoder_cache = {mm_hash: torch.empty(0)}
+
+        # Should not raise
+        connector.save_caches(encoder_cache, mm_hash)
+
+    def test_load_nonexistent_cache(self, mock_vllm_config_consumer):
+        """Test loading cache that doesn't exist raises error."""
+        connector = ECSharedStorageConnector(
+            vllm_config=mock_vllm_config_consumer,
+            role=ECConnectorRole.WORKER,
+        )
+
+        metadata = ECSharedStorageConnectorMetadata()
+        metadata.add_mm_data(MMMeta.make_meta("nonexistent_hash", 100))
+        connector.bind_connector_metadata(metadata)
+
+        encoder_cache: dict[str, torch.Tensor] = {}
+
+        # Should raise FileNotFoundError
+        with pytest.raises(FileNotFoundError):
+            connector.start_load_caches(encoder_cache=encoder_cache)
+
+    def test_has_caches_empty_request(self, mock_vllm_config_producer):
+        """Test has_caches with request that has no MM data."""
+        connector = ECSharedStorageConnector(
+            vllm_config=mock_vllm_config_producer,
+            role=ECConnectorRole.SCHEDULER,
+        )
+
+        mock_request = MockRequest("req_empty", [], [])
+
+        result = connector.has_caches(mock_request)
+
+        assert len(result) == 0
+        assert result == []
diff --git a/tests/v1/engine/test_engine_core.py b/tests/v1/engine/test_engine_core.py
index 84441aa7d28ca..4e852dca95eb0 100644
--- a/tests/v1/engine/test_engine_core.py
+++ b/tests/v1/engine/test_engine_core.py
@@ -10,6 +10,14 @@ import pytest
 from transformers import AutoTokenizer
 
 from vllm import SamplingParams
+from vllm.config import (
+    CacheConfig,
+    ECTransferConfig,
+    KVTransferConfig,
+    ModelConfig,
+    SchedulerConfig,
+    VllmConfig,
+)
 from vllm.engine.arg_utils import EngineArgs
 from vllm.platforms import current_platform
 from vllm.utils.torch_utils import set_default_torch_num_threads
@@ -450,3 +458,141 @@ def test_engine_core_invalid_request_id_type():
     engine_core.add_request(*engine_core.preprocess_add_request(valid_request))
     assert len(engine_core.scheduler.waiting) == 1
     assert len(engine_core.scheduler.running) == 0
+
+
+@create_new_process_for_each_test()
+@pytest.mark.parametrize(
+    ("ec_role", "gpu_memory_utilization", "enable_prefix_caching"),
+    [
+        ("ec_producer", 0.01, False),
+        # NOTE: ec_producer never allows prefix caching
+        ("ec_consumer", 0.7, True),
+        ("ec_consumer", 0.7, False),
+    ],
+)
+@pytest.mark.parametrize("use_kv_connector", [False, True])
+def test_encoder_instance_zero_kv_cache(
+    ec_role: str,
+    gpu_memory_utilization: float,
+    enable_prefix_caching: bool,
+    use_kv_connector: bool,
+):
+    """EPD (Encoder-Prefill-Decode) Encoder-cache-specific tests
+
+    This test verifies encoder-only instance initializes with 0 KV cache blocks.
+    Under EPD disagg mode, Encoder instances (EC producer role) only execute
+    vision encoder, so they don't need KV cache for text generation.
+    """
+    # Form vllm config
+    scheduler_config = SchedulerConfig(
+        max_num_seqs=10,
+        max_num_batched_tokens=512,
+        max_model_len=512,
+        disable_hybrid_kv_cache_manager=True,
+    )
+    model_config = ModelConfig(
+        model="llava-hf/llava-1.5-7b-hf",  # Multimodal model
+        enforce_eager=True,
+        trust_remote_code=True,
+        dtype="float16",
+        seed=42,
+    )
+    cache_config = CacheConfig(
+        block_size=16,
+        gpu_memory_utilization=gpu_memory_utilization,
+        swap_space=0,
+        cache_dtype="auto",
+        enable_prefix_caching=enable_prefix_caching,
+    )
+    kv_transfer_config = (
+        KVTransferConfig(
+            kv_connector="SharedStorageConnector",
+            kv_role="kv_both",
+            kv_connector_extra_config={"shared_storage_path": "local_storage"},
+        )
+        if use_kv_connector
+        else None
+    )
+    ec_transfer_config = ECTransferConfig(
+        ec_connector="ECSharedStorageConnector",
+        ec_role=ec_role,
+        ec_connector_extra_config={"shared_storage_path": "/tmp/ec_test_encoder"},
+    )
+
+    vllm_config = VllmConfig(
+        model_config=model_config,
+        cache_config=cache_config,
+        scheduler_config=scheduler_config,
+        kv_transfer_config=kv_transfer_config,
+        ec_transfer_config=ec_transfer_config,
+    )
+
+    executor_class = Executor.get_class(vllm_config)
+    print(f"executor_class: {executor_class}")
+
+    with set_default_torch_num_threads(1):
+        engine_core = EngineCore(
+            vllm_config=vllm_config, executor_class=executor_class, log_stats=True
+        )
+
+    # Check encoder cache manager exists
+    assert engine_core.scheduler.encoder_cache_manager is not None, (
+        "encoder_cache_manager should exist"
+    )
+
+    if ec_role == "ec_producer":
+        # Check 1: num_blocks should be 0
+        # NOTE: num_blocks=1 as BlockPool always needs a null_block.
+        kv_cache_config = engine_core.scheduler.kv_cache_manager.kv_cache_config
+        print(f"kv_cache_config: {kv_cache_config}")
+        assert kv_cache_config.num_blocks == 1, (
+            f"ec_producer should only have 1 KV blocks, "
+            f"got {kv_cache_config.num_blocks}"
+        )
+
+        # Check 2: kv_cache_groups should be empty
+        assert len(kv_cache_config.kv_cache_groups) == 0, (
+            f"ec_producer should have 0 KV cache groups, "
+            f"got {len(kv_cache_config.kv_cache_groups)}"
+        )
+
+        # Check 3: kv_cache_tensors should be empty
+        assert len(kv_cache_config.kv_cache_tensors) == 0, (
+            f"Encoder instance should have 0 KV cache tensors, "
+            f"got {len(kv_cache_config.kv_cache_tensors)}"
+        )
+
+        # Check 4: Verify EC connector is initialized and is producer
+        assert engine_core.scheduler.ec_connector is not None, (
+            "Encoder instance should have EC connector"
+        )
+        assert engine_core.scheduler.ec_connector.is_producer, (
+            "Encoder instance EC connector should be producer"
+        )
+
+        # Check 5: Verify chunked prefill is disabled
+        assert not vllm_config.scheduler_config.chunked_prefill_enabled, (
+            "Encoder instance should disable chunked prefill (no KV cache)"
+        )
+
+    elif ec_role == "ec_consumer":
+        # Check 1: num_blocks should be > 1
+        kv_cache_config = engine_core.scheduler.kv_cache_manager.kv_cache_config
+        print(f"kv_cache_config: {kv_cache_config}")
+        assert kv_cache_config.num_blocks > 1, (
+            f"ec_consumer should have >1 KV blocks, got {kv_cache_config.num_blocks}"
+        )
+
+        # Check 2: kv_cache_groups should NOT be empty
+        assert len(kv_cache_config.kv_cache_groups) > 0, (
+            f"ec_consumer should have KV cache groups, "
+            f"got {len(kv_cache_config.kv_cache_groups)}"
+        )
+
+        # Check 3: Verify EC connector is consumer
+        assert engine_core.scheduler.ec_connector is not None, (
+            "Consumer instance should have EC connector"
+        )
+        assert not engine_core.scheduler.ec_connector.is_producer, (
+            "Consumer instance EC connector should be consumer"
+        )
diff --git a/vllm/config/__init__.py b/vllm/config/__init__.py
index 7f1cc52024205..dd76a722106ef 100644
--- a/vllm/config/__init__.py
+++ b/vllm/config/__init__.py
@@ -9,6 +9,7 @@ from vllm.config.compilation import (
     PassConfig,
 )
 from vllm.config.device import DeviceConfig
+from vllm.config.ec_transfer import ECTransferConfig
 from vllm.config.kv_events import KVEventsConfig
 from vllm.config.kv_transfer import KVTransferConfig
 from vllm.config.load import LoadConfig
@@ -54,6 +55,8 @@ __all__ = [
     "PassConfig",
     # From vllm.config.device
     "DeviceConfig",
+    # From vllm.config.ec_transfer
+    "ECTransferConfig",
     # From vllm.config.kv_events
     "KVEventsConfig",
     # From vllm.config.kv_transfer
diff --git a/vllm/config/ec_transfer.py b/vllm/config/ec_transfer.py
new file mode 100644
index 0000000000000..d95236f818abb
--- /dev/null
+++ b/vllm/config/ec_transfer.py
@@ -0,0 +1,110 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import hashlib
+import uuid
+from dataclasses import field
+from typing import Any, Literal, get_args
+
+from pydantic.dataclasses import dataclass
+
+from vllm.config.utils import config
+
+ECProducer = Literal["ec_producer"]
+ECConsumer = Literal["ec_consumer"]
+ECRole = Literal[ECProducer, ECConsumer]
+
+
+@config
+@dataclass
+class ECTransferConfig:
+    """Configuration for distributed EC cache transfer."""
+
+    ec_connector: str | None = None
+    """The EC connector for vLLM to transmit EC caches between vLLM instances.
+    """
+
+    engine_id: str | None = None
+    """The engine id for EC transfers."""
+
+    ec_buffer_device: str | None = "cuda"
+    """The device used by ec connector to buffer the EC cache.
+    Currently only support 'cuda'."""
+
+    ec_buffer_size: float = 1e9
+    """The buffer size for TorchDistributedConnector. Measured in number of
+    bytes. Recommended value: 1e9 (about 1GB)."""
+
+    ec_role: ECRole | None = None
+    """Whether this vLLM instance produces, consumes EC cache, or both. Choices
+    are 'ec_producer', 'ec_consumer'."""
+
+    ec_rank: int | None = None
+    """The rank of this vLLM instance in the EC cache transfer. Typical value:
+    0 for encoder, 1 for pd instance.
+    Currently only 1P1D is supported."""
+
+    ec_parallel_size: int = 1
+    """The number of parallel instances for EC cache transfer. For
+    PyNcclConnector, this should be 2."""
+
+    ec_ip: str = "127.0.0.1"
+    """The EC connector ip, used to build distributed connection."""
+
+    ec_port: int = 14579
+    """The EC connector port, used to build distributed connection."""
+
+    ec_connector_extra_config: dict[str, Any] = field(default_factory=dict)
+    """any extra config that the connector may need."""
+
+    ec_connector_module_path: str | None = None
+    """The Python module path to dynamically load the EC connector from.
+    Only supported in V1."""
+
+    def compute_hash(self) -> str:
+        """
+        WARNING: Whenever a new field is added to this config,
+        ensure that it is included in the factors list if
+        it affects the computation graph.
+
+        Provide a hash that uniquely identifies all the configs
+        that affect the structure of the computation
+        graph from input ids/embeddings to the final hidden states,
+        excluding anything before input ids/embeddings and after
+        the final hidden states.
+        """
+        # no factors to consider.
+        # this config will not affect the computation graph.
+        factors: list[Any] = []
+        hash_str = hashlib.md5(str(factors).encode(), usedforsecurity=False).hexdigest()
+        return hash_str
+
+    def __post_init__(self) -> None:
+        if self.engine_id is None:
+            self.engine_id = str(uuid.uuid4())
+
+        if self.ec_role is not None and self.ec_role not in get_args(ECRole):
+            raise ValueError(
+                f"Unsupported ec_role: {self.ec_role}. "
+                f"Supported roles are {get_args(ECRole)}"
+            )
+
+        if self.ec_connector is not None and self.ec_role is None:
+            raise ValueError(
+                "Please specify ec_role when ec_connector "
+                f"is set, supported roles are {get_args(ECRole)}"
+            )
+
+    @property
+    def is_ec_transfer_instance(self) -> bool:
+        return self.ec_connector is not None and self.ec_role in get_args(ECRole)
+
+    @property
+    def is_ec_producer(self) -> bool:
+        return self.ec_connector is not None and self.ec_role in get_args(ECProducer)
+
+    @property
+    def is_ec_consumer(self) -> bool:
+        return self.ec_connector is not None and self.ec_role in get_args(ECConsumer)
+
+    def get_from_extra_config(self, key, default) -> Any:
+        return self.ec_connector_extra_config.get(key, default)
diff --git a/vllm/config/vllm.py b/vllm/config/vllm.py
index df9a1fd08af6f..60458b26944a5 100644
--- a/vllm/config/vllm.py
+++ b/vllm/config/vllm.py
@@ -28,6 +28,7 @@ from vllm.utils import random_uuid
 from .cache import CacheConfig
 from .compilation import CompilationConfig, CompilationMode, CUDAGraphMode
 from .device import DeviceConfig
+from .ec_transfer import ECTransferConfig
 from .kv_events import KVEventsConfig
 from .kv_transfer import KVTransferConfig
 from .load import LoadConfig
@@ -103,6 +104,8 @@ class VllmConfig:
     """The configurations for distributed KV cache transfer."""
     kv_events_config: KVEventsConfig | None = None
     """The configurations for event publishing."""
+    ec_transfer_config: ECTransferConfig | None = None
+    """The configurations for distributed EC cache transfer."""
     # some opaque config, only used to provide additional information
     # for the hash computation, mainly used for testing, debugging or out of
     # tree config registration.
@@ -183,6 +186,10 @@ class VllmConfig:
             vllm_factors.append(self.kv_transfer_config.compute_hash())
         else:
             vllm_factors.append("None")
+        if self.ec_transfer_config:
+            vllm_factors.append(self.ec_transfer_config.compute_hash())
+        else:
+            vllm_factors.append("None")
         if self.additional_config:
             if isinstance(additional_config := self.additional_config, dict):
                 additional_config_hash = hashlib.md5(
diff --git a/vllm/distributed/ec_transfer/__init__.py b/vllm/distributed/ec_transfer/__init__.py
new file mode 100644
index 0000000000000..0decfd143e343
--- /dev/null
+++ b/vllm/distributed/ec_transfer/__init__.py
@@ -0,0 +1,14 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from vllm.distributed.ec_transfer.ec_transfer_state import (
+    ensure_ec_transfer_initialized,
+    get_ec_transfer,
+    has_ec_transfer,
+)
+
+__all__ = [
+    "get_ec_transfer",
+    "ensure_ec_transfer_initialized",
+    "has_ec_transfer",
+]
diff --git a/vllm/distributed/ec_transfer/ec_connector/__init__.py b/vllm/distributed/ec_transfer/ec_connector/__init__.py
new file mode 100644
index 0000000000000..e69de29bb2d1d
diff --git a/vllm/distributed/ec_transfer/ec_connector/base.py b/vllm/distributed/ec_transfer/ec_connector/base.py
new file mode 100644
index 0000000000000..2b7b14d89b8a1
--- /dev/null
+++ b/vllm/distributed/ec_transfer/ec_connector/base.py
@@ -0,0 +1,247 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+ECConnectorBase Class for Distributed Encoder Cache &
+P2P Encoder cache communication in V1
+
+The class provides the following primitives:
+    Scheduler-side: runs in the scheduler, binds metadata, which
+    is used by the worker-side to load/save Encoder cache.
+        check_caches_exist() - Check whether Encoder cache of requests exist
+        update_state_after_alloc() - update ECConnector state after
+        allocate. This will decide to load the cache or not
+        request_finished() - called when a request is finished,
+        free the cache with the requests
+
+    Worker-side: runs in each worker, loads/saves Encoder Cache to/from
+    the Connector based on the metadata.
+        start_load_ec() - starts loading all ECs (maybe async)
+        wait_for_save() - blocks until all saves are done
+
+        get_finished() - called with ids of finished requests, returns
+            ids of requests that have completed async sending/recving.
+"""
+
+import enum
+from abc import ABC, abstractmethod
+from typing import TYPE_CHECKING, Any
+
+import torch
+
+from vllm.logger import init_logger
+from vllm.v1.core.sched.output import SchedulerOutput
+from vllm.v1.outputs import ECConnectorOutput
+
+if TYPE_CHECKING:
+    from vllm.config import VllmConfig
+    from vllm.v1.request import Request
+
+logger = init_logger(__name__)
+
+
+class ECConnectorRole(enum.Enum):
+    # Connector running in the scheduler process
+    SCHEDULER = 0
+
+    # Connector running in the worker process
+    WORKER = 1
+
+
+class ECConnectorMetadata(ABC):  # noqa: B024
+    """
+    Abstract Metadata used to communicate between the
+    Scheduler ECConnector and Worker ECConnector.
+    """
+
+    pass
+
+
+class ECConnectorBase(ABC):
+    def __init__(self, vllm_config: "VllmConfig", role: ECConnectorRole):
+        self._connector_metadata: ECConnectorMetadata | None = None
+        self._vllm_config = vllm_config
+        self._role = role
+        if vllm_config.ec_transfer_config is not None:
+            self._is_producer = vllm_config.ec_transfer_config.is_ec_producer
+        else:
+            raise ValueError("ec_transfer_config must be set for ECConnectorBase")
+
+    @property
+    def role(self) -> ECConnectorRole:
+        return self._role
+
+    @property
+    def is_producer(self) -> bool:
+        return self._is_producer
+
+    # ==============================
+    # Worker-side methods
+    # ==============================
+
+    def bind_connector_metadata(self, connector_metadata: ECConnectorMetadata) -> None:
+        """Set the connector metadata from the scheduler.
+
+        This function should be called by the model runner every time
+        before the model execution. The metadata will be used for runtime
+        EC cache loading.
+
+        Args:
+            connector_metadata (dict): the connector metadata.
+        """
+        self._connector_metadata = connector_metadata
+
+    def clear_connector_metadata(self) -> None:
+        """Clear the connector metadata.
+
+        This function should be called by the model runner every time
+        after the model execution.
+        """
+        self._connector_metadata = None
+
+    def _get_connector_metadata(self) -> ECConnectorMetadata:
+        """Get the connector metadata.
+
+        This function should only be called inside the connector.
+
+        Returns:
+            ConnectorMetadata: the connector metadata.
+        """
+
+        # Should only be called while set to valid metadata.
+        assert self._connector_metadata is not None
+        return self._connector_metadata
+
+    def register_caches(
+        self,
+        ec_caches: dict[str, torch.Tensor],
+    ):
+        """
+        Initialize with the EC caches.
+        Args:
+            ec_caches: dictionary of encoder cache
+        """
+        # TODO: Implement this later for P2P feature
+        return
+
+    @abstractmethod
+    def start_load_caches(
+        self, encoder_cache: dict[str, torch.Tensor], **kwargs
+    ) -> None:
+        """
+        Start loading the cache from the connector into vLLM's encoder cache.
+
+        This method loads the encoder cache based on metadata provided by the scheduler.
+        It is called before `_gather_mm_embeddings` for the EC Connector. For EC,
+        the `encoder_cache` and `mm_hash` are stored in `kwargs`.
+
+        Args:
+            encoder_cache (dict[str, torch.Tensor]): A dictionary mapping multimodal
+                data hashes (`mm_hash`) to encoder cache tensors.
+            kwargs (dict): Additional keyword arguments for the connector.
+        """
+        pass
+
+    @abstractmethod
+    def save_caches(
+        self, encoder_cache: dict[str, torch.Tensor], mm_hash: str, **kwargs
+    ) -> None:
+        """
+        Save the encoder cache to the connector.
+
+        This method saves the encoder cache from the worker's local storage
+        to shared storage or another external connector.
+
+        Args:
+            encoder_cache (dict[str, torch.Tensor]): A dictionary mapping multimodal
+                data hashes (`mm_hash`) to encoder cache tensors.
+            mm_hash (str): The hash of the multimodal data whose cache is being saved.
+            kwargs (dict): Additional keyword arguments for the connector.
+        """
+        pass
+
+    def get_finished(
+        self, finished_req_ids: set[str]
+    ) -> tuple[set[str] | None, set[str] | None]:
+        """
+        Notifies worker-side connector ids of requests that have
+        finished generating tokens on the worker.
+        The scheduler process (via the Executors) will use this output
+        to track which workers are done.
+
+        Returns:
+            ids of requests that have finished asynchronous transfer
+            (requests that previously returned True from request_finished()),
+            tuple of (sending/saving ids, recving/loading ids).
+            The finished saves/sends req ids must belong to a set provided in a
+            call to this method (this call or a prior one).
+        """
+        return None, None
+
+    # ==============================
+    # Scheduler-side methods
+    # ==============================
+
+    @abstractmethod
+    def has_caches(
+        self,
+        request: "Request",
+    ) -> list[bool]:
+        """
+        Check if encoder cache exists for each mm data of requests
+
+        Args:
+            request (Request): the request object.
+
+        Returns:
+            A list bool where ith value is True if cache exist for
+            ith mm_data of requests
+        """
+        pass
+
+    @abstractmethod
+    def update_state_after_alloc(self, request: "Request", index: int):
+        """
+        Update ECConnector state to decide allocate cache for requests
+
+        Args:
+            request (Request): the request object.
+        """
+        pass
+
+    @abstractmethod
+    def build_connector_meta(
+        self, scheduler_output: SchedulerOutput
+    ) -> ECConnectorMetadata:
+        """
+        Build the connector metadata for this step.
+
+        This function should NOT modify fields in the scheduler_output.
+        Also, calling this function will reset the state of the connector.
+
+        Args:
+            scheduler_output (SchedulerOutput): the scheduler output object.
+        """
+        pass
+
+    def update_connector_output(self, connector_output: ECConnectorOutput):
+        """
+        Update ECConnector state from worker-side connectors output.
+
+        Args:
+            connector_output (ECConnectorOutput): the worker-side
+                connectors output.
+        """
+        return
+
+    def request_finished(
+        self, request: "Request"
+    ) -> tuple[bool, dict[str, Any] | None]:
+        """
+        Called when a request has finished, before its encoder cache is freed.
+
+        Returns:
+            True if the request is being saved/sent asynchronously and cached
+            should not be freed until the request_id is returned from
+            get_finished().
+        """
+        return False, None
diff --git a/vllm/distributed/ec_transfer/ec_connector/factory.py b/vllm/distributed/ec_transfer/ec_connector/factory.py
new file mode 100644
index 0000000000000..bfdf51d775bda
--- /dev/null
+++ b/vllm/distributed/ec_transfer/ec_connector/factory.py
@@ -0,0 +1,88 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import importlib
+from collections.abc import Callable
+from typing import TYPE_CHECKING
+
+# yapf: disable
+from vllm.distributed.ec_transfer.ec_connector.base import (
+    ECConnectorBase,
+    ECConnectorRole,
+)
+from vllm.logger import init_logger
+
+# yapf: enable
+
+if TYPE_CHECKING:
+    from vllm.config import ECTransferConfig, VllmConfig
+
+logger = init_logger(__name__)
+
+
+class ECConnectorFactory:
+    _registry: dict[str, Callable[[], type[ECConnectorBase]]] = {}
+
+    @classmethod
+    def register_connector(cls, name: str, module_path: str, class_name: str) -> None:
+        """Register a connector with a lazy-loading module and class name."""
+        if name in cls._registry:
+            raise ValueError(f"Connector '{name}' is already registered.")
+
+        def loader() -> type[ECConnectorBase]:
+            module = importlib.import_module(module_path)
+            return getattr(module, class_name)
+
+        cls._registry[name] = loader
+
+    @classmethod
+    def create_connector(
+        cls,
+        config: "VllmConfig",
+        role: ECConnectorRole,
+    ) -> ECConnectorBase:
+        ec_transfer_config = config.ec_transfer_config
+        if ec_transfer_config is None:
+            raise ValueError("ec_transfer_config must be set to create a connector")
+        connector_cls = cls.get_connector_class(ec_transfer_config)
+        logger.info(
+            "Creating connector with name: %s and engine_id: %s",
+            connector_cls.__name__,
+            ec_transfer_config.engine_id,
+        )
+        # Connector is explicitly separated into two roles.
+        # Scheduler connector:
+        # - Co-locate with scheduler process
+        # - Should only be used inside the Scheduler class
+        # Worker connector:
+        # - Co-locate with worker process
+        return connector_cls(config, role)
+
+    @classmethod
+    def get_connector_class(
+        cls, ec_transfer_config: "ECTransferConfig"
+    ) -> type[ECConnectorBase]:
+        """Get the connector class by name."""
+        connector_name = ec_transfer_config.ec_connector
+        if connector_name is None:
+            raise ValueError("EC connect must not be None")
+        elif connector_name in cls._registry:
+            connector_cls = cls._registry[connector_name]()
+        else:
+            connector_module_path = ec_transfer_config.ec_connector_module_path
+            if connector_module_path is None:
+                raise ValueError(f"Unsupported connector type: {connector_name}")
+            connector_module = importlib.import_module(connector_module_path)
+            connector_cls = getattr(connector_module, connector_name)
+        return connector_cls
+
+
+# Register various connectors here.
+# The registration should not be done in each individual file, as we want to
+# only load the files corresponding to the current connector.
+
+ECConnectorFactory.register_connector(
+    "ECSharedStorageConnector",
+    "vllm.distributed.ec_transfer.ec_connector.shared_storage_connector",
+    "ECSharedStorageConnector",
+)
diff --git a/vllm/distributed/ec_transfer/ec_connector/shared_storage_connector.py b/vllm/distributed/ec_transfer/ec_connector/shared_storage_connector.py
new file mode 100644
index 0000000000000..c8388141dcc97
--- /dev/null
+++ b/vllm/distributed/ec_transfer/ec_connector/shared_storage_connector.py
@@ -0,0 +1,201 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import os
+from dataclasses import dataclass
+from typing import TYPE_CHECKING
+
+import safetensors
+
+from vllm.config import VllmConfig
+from vllm.distributed.ec_transfer.ec_connector.base import (
+    ECConnectorBase,
+    ECConnectorMetadata,
+    ECConnectorRole,
+)
+from vllm.logger import init_logger
+from vllm.v1.core.sched.output import SchedulerOutput
+
+if TYPE_CHECKING:
+    from vllm.v1.request import Request
+
+logger = init_logger(__name__)
+
+
+@dataclass
+class MMMeta:
+    mm_hash: str
+    num_token: int
+
+    @staticmethod
+    def make_meta(mm_hash, num_token) -> "MMMeta":
+        return MMMeta(mm_hash=mm_hash, num_token=num_token)
+
+
+@dataclass
+class ECSharedStorageConnectorMetadata(ECConnectorMetadata):
+    mm_datas: list[MMMeta]
+
+    def __init__(self):
+        self.mm_datas = []
+
+    def add_mm_data(self, mm_data: MMMeta):
+        self.mm_datas.append(mm_data)
+
+
+class ECSharedStorageConnector(ECConnectorBase):
+    # NOTE: This is Simple debug implementation of the EC connector.
+    # It save / load the EC cache to / from the disk.
+
+    def __init__(self, vllm_config: "VllmConfig", role: ECConnectorRole):
+        super().__init__(vllm_config=vllm_config, role=role)
+        # req_id -> index
+        self._mm_datas_need_loads: dict[str, int] = {}
+        transfer_config = vllm_config.ec_transfer_config
+        if transfer_config is not None:
+            self._storage_path = transfer_config.get_from_extra_config(
+                "shared_storage_path", "/tmp"
+            )
+            logger.debug(transfer_config)
+            logger.debug("Shared storage path is %s", self._storage_path)
+        else:
+            raise ValueError("ec_transfer_config must be set for ECConnectorBase")
+
+    def start_load_caches(self, encoder_cache, **kwargs) -> None:
+        """
+        Start loading the cache from the connector into vLLM's encoder cache.
+
+        This method loads the encoder cache based on metadata provided by the scheduler.
+        It is called before `_gather_mm_embeddings` for the EC Connector. For EC,
+        the `encoder_cache` and `mm_hash` are stored in `kwargs`.
+
+        Args:
+            encoder_cache (dict[str, torch.Tensor]): A dictionary mapping multimodal
+                data hashes (`mm_hash`) to encoder cache tensors.
+            kwargs (dict): Additional keyword arguments for the connector.
+        """
+
+        # Get the metadata
+        metadata: ECConnectorMetadata = self._get_connector_metadata()
+        assert isinstance(metadata, ECSharedStorageConnectorMetadata)
+        assert encoder_cache is not None
+        if metadata is None:
+            logger.warning(
+                (
+                    "In connector.start_load_caches, ",
+                    "but the connector metadata is None",
+                )
+            )
+            return
+        # Load the EC for each mm data
+        for mm_data in metadata.mm_datas:
+            if mm_data.mm_hash in encoder_cache:
+                continue
+            filename = self._generate_filename_debug(mm_data.mm_hash)
+            ec_cache = safetensors.torch.load_file(filename)["ec_cache"].cuda()
+            encoder_cache[mm_data.mm_hash] = ec_cache
+            logger.debug("Success load encoder cache for hash %s", mm_data.mm_hash)
+
+    def save_caches(self, encoder_cache, mm_hash, **kwargs) -> None:
+        """
+        Save the encoder cache to the connector.
+
+        This method saves the encoder cache from the worker's local storage
+        to shared storage or another external connector.
+
+        Args:
+            encoder_cache (dict[str, torch.Tensor]): A dictionary mapping multimodal
+                data hashes (`mm_hash`) to encoder cache tensors.
+            mm_hash (str): The hash of the multimodal data whose cache is being saved.
+            kwargs (dict): Additional keyword arguments for the connector.
+        """
+        # Return if it is PD Instance
+        if not self.is_producer:
+            return
+        filename = self._generate_filename_debug(mm_hash)
+        ec_cache = encoder_cache[mm_hash]
+        tensors = {"ec_cache": ec_cache.detach().cpu()}
+        safetensors.torch.save_file(tensors, filename)
+        logger.debug("Save cache successful for mm_hash %s", mm_hash)
+
+    def has_caches(
+        self,
+        request: "Request",
+    ) -> list[bool]:
+        """
+        Check if cache exist externally for each mm_data of request
+
+        Args:
+            request (Request): the request object.
+
+        Returns:
+            List of bool indicate that ith mm_data exist in cache or not
+        """
+        result = []
+        for feature in request.mm_features:
+            result.append(self._found_match_for_mm_data(feature.identifier))
+        return result
+
+    def update_state_after_alloc(
+        self,
+        request: "Request",
+        index: int,
+    ) -> None:
+        """
+        Update ECConnector state after encoder cache allocation.
+        """
+        mm_hash = request.mm_features[index].identifier
+        num_encoder_token = request.get_num_encoder_tokens(index)
+        # Insert mm_hash only if this block has not been recorded yet.
+        self._mm_datas_need_loads[mm_hash] = num_encoder_token
+
+    def build_connector_meta(
+        self,
+        scheduler_output: SchedulerOutput,
+    ) -> ECConnectorMetadata:
+        """Build the connector metadata for this step.
+
+        This function should NOT modify any fields in the scheduler_output.
+        Also, calling this function will reset the state of the connector.
+        This only build for load mm_data only
+        Args:
+            scheduler_output (SchedulerOutput): the scheduler output object.
+        """
+        meta = ECSharedStorageConnectorMetadata()
+        for mm_hash, num_encoder_token in self._mm_datas_need_loads.items():
+            meta.add_mm_data(MMMeta.make_meta(mm_hash, num_encoder_token))
+        self._mm_datas_need_loads.clear()
+        return meta
+
+    # ==============================
+    # Helper functions
+    # ==============================
+
+    def _found_match_for_mm_data(self, mm_hash) -> bool:
+        """Check if the cache is hit for the request."""
+        filename = self._generate_filename_debug(mm_hash)
+        return os.path.exists(filename)
+
+    def _generate_foldername_debug(
+        self,
+        mm_hash: str,
+        create_folder: bool = True,  # <- now defaults to True
+    ) -> str:
+        """
+        Return the folder in which the cache for this mm_hash lives.
+        If `create_folder` is True (default) the directory is created
+        recursively the first time it is needed.
+        """
+        foldername = os.path.join(self._storage_path, mm_hash)
+        if create_folder:
+            os.makedirs(foldername, exist_ok=True)
+        return foldername
+
+    def _generate_filename_debug(self, mm_hash: str) -> str:
+        """
+        Return the full path of the safetensors file for this mm_hash.
+        Ensures the parent directory exists because
+        `_generate_foldername_debug` is called with its default
+        (`create_folder=True`).
+        """
+        foldername = self._generate_foldername_debug(mm_hash)  # <- folder auto-created
+        return os.path.join(foldername, "encoder_cache.safetensors")
diff --git a/vllm/distributed/ec_transfer/ec_transfer_state.py b/vllm/distributed/ec_transfer/ec_transfer_state.py
new file mode 100644
index 0000000000000..95f516129e0c3
--- /dev/null
+++ b/vllm/distributed/ec_transfer/ec_transfer_state.py
@@ -0,0 +1,46 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from typing import TYPE_CHECKING
+
+from vllm import envs
+from vllm.distributed.ec_transfer.ec_connector.base import (
+    ECConnectorBase,
+    ECConnectorRole,
+)
+from vllm.distributed.ec_transfer.ec_connector.factory import ECConnectorFactory
+
+if TYPE_CHECKING:
+    from vllm.config import VllmConfig
+
+_EC_CONNECTOR_AGENT: ECConnectorBase | None = None
+
+
+def get_ec_transfer() -> ECConnectorBase:
+    assert _EC_CONNECTOR_AGENT is not None, "disaggregated EC cache is not initialized"
+    return _EC_CONNECTOR_AGENT
+
+
+def has_ec_transfer() -> bool:
+    return _EC_CONNECTOR_AGENT is not None
+
+
+def ensure_ec_transfer_initialized(vllm_config: "VllmConfig") -> None:
+    """
+    Initialize EC cache connector.
+    """
+
+    global _EC_CONNECTOR_AGENT
+
+    if vllm_config.ec_transfer_config is None:
+        return
+
+    if (
+        vllm_config.ec_transfer_config.is_ec_transfer_instance
+        and _EC_CONNECTOR_AGENT is None
+    ):
+        if envs.VLLM_USE_V1:
+            _EC_CONNECTOR_AGENT = ECConnectorFactory.create_connector(
+                config=vllm_config, role=ECConnectorRole.WORKER
+            )
+        else:
+            raise ValueError("V0 is no longer supported")
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index 0a82745bf55ab..13c7704f5bf3d 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -38,6 +38,7 @@ from vllm.config import (
     CompilationConfig,
     ConfigType,
     DeviceConfig,
+    ECTransferConfig,
     EPLBConfig,
     KVEventsConfig,
     KVTransferConfig,
@@ -527,6 +528,8 @@ class EngineArgs:
     kv_transfer_config: KVTransferConfig | None = None
     kv_events_config: KVEventsConfig | None = None
 
+    ec_transfer_config: ECTransferConfig | None = None
+
     generation_config: str = ModelConfig.generation_config
     enable_sleep_mode: bool = ModelConfig.enable_sleep_mode
     override_generation_config: dict[str, Any] = get_field(
@@ -1105,6 +1108,9 @@ class EngineArgs:
             "--kv-transfer-config", **vllm_kwargs["kv_transfer_config"]
         )
         vllm_group.add_argument("--kv-events-config", **vllm_kwargs["kv_events_config"])
+        vllm_group.add_argument(
+            "--ec-transfer-config", **vllm_kwargs["ec_transfer_config"]
+        )
         vllm_group.add_argument(
             "--compilation-config", "-O", **vllm_kwargs["compilation_config"]
         )
@@ -1676,6 +1682,7 @@ class EngineArgs:
             compilation_config=self.compilation_config,
             kv_transfer_config=self.kv_transfer_config,
             kv_events_config=self.kv_events_config,
+            ec_transfer_config=self.ec_transfer_config,
             additional_config=self.additional_config,
         )
 
diff --git a/vllm/model_executor/warmup/kernel_warmup.py b/vllm/model_executor/warmup/kernel_warmup.py
index 28792338f036f..95f5982bc8c7b 100644
--- a/vllm/model_executor/warmup/kernel_warmup.py
+++ b/vllm/model_executor/warmup/kernel_warmup.py
@@ -49,10 +49,18 @@ def kernel_warmup(worker: "Worker"):
         except NotImplementedError:
             return False
 
-    if not worker.model_runner.is_pooling_model and all(
-        _is_flashinfer_backend(group.backend)
-        for groups in worker.model_runner.attn_groups
-        for group in groups
+    # NOTE: we add check for empty attn_groups to avoid errors when
+    # deploying models such as E instances and encoder-only models.
+    # As for those models, worker.model_runner.attn_groups is empty.
+    # This change is made during EPD feature development.
+    if (
+        not worker.model_runner.is_pooling_model
+        and worker.model_runner.attn_groups
+        and all(
+            _is_flashinfer_backend(group.backend)
+            for groups in worker.model_runner.attn_groups
+            for group in groups
+        )
     ):
         logger.info("Warming up FlashInfer attention.")
         # Warmup with mixed batch containing both prefill and decode tokens
diff --git a/vllm/v1/core/sched/output.py b/vllm/v1/core/sched/output.py
index 866136648bcba..20fdb3446404b 100644
--- a/vllm/v1/core/sched/output.py
+++ b/vllm/v1/core/sched/output.py
@@ -14,6 +14,7 @@ if TYPE_CHECKING:
     import numpy.typing as npt
     import torch
 
+    from vllm.distributed.ec_transfer.ec_connector.base import ECConnectorMetadata
     from vllm.distributed.kv_transfer.kv_connector.v1.base import KVConnectorMetadata
     from vllm.lora.request import LoRARequest
     from vllm.multimodal.inputs import MultiModalFeatureSpec
@@ -21,6 +22,7 @@ if TYPE_CHECKING:
     from vllm.sampling_params import SamplingParams
     from vllm.v1.request import Request
 else:
+    ECConnectorMetadata = object
     KVConnectorMetadata = object
     LoRARequest = object
     MultiModalFeatureSpec = object
@@ -188,6 +190,9 @@ class SchedulerOutput:
     # KV Cache Connector metadata.
     kv_connector_metadata: KVConnectorMetadata | None = None
 
+    # EC Cache Connector metadata
+    ec_connector_metadata: ECConnectorMetadata | None = None
+
 
 @dataclass
 class GrammarOutput:
diff --git a/vllm/v1/core/sched/scheduler.py b/vllm/v1/core/sched/scheduler.py
index 46dc1071b8395..8455746cd56d2 100644
--- a/vllm/v1/core/sched/scheduler.py
+++ b/vllm/v1/core/sched/scheduler.py
@@ -7,6 +7,11 @@ from collections.abc import Iterable
 from typing import Any
 
 from vllm.config import VllmConfig
+from vllm.distributed.ec_transfer.ec_connector.base import (
+    ECConnectorMetadata,
+    ECConnectorRole,
+)
+from vllm.distributed.ec_transfer.ec_connector.factory import ECConnectorFactory
 from vllm.distributed.kv_events import EventPublisherFactory, KVEventBatch
 from vllm.distributed.kv_transfer.kv_connector.factory import KVConnectorFactory
 from vllm.distributed.kv_transfer.kv_connector.v1 import (
@@ -14,6 +19,7 @@ from vllm.distributed.kv_transfer.kv_connector.v1 import (
     KVConnectorRole,
     SupportsHMA,
 )
+from vllm.distributed.kv_transfer.kv_connector.v1.base import KVConnectorMetadata
 from vllm.distributed.kv_transfer.kv_connector.v1.metrics import KVConnectorStats
 from vllm.logger import init_logger
 from vllm.multimodal import MULTIMODAL_REGISTRY, MultiModalRegistry
@@ -104,6 +110,11 @@ class Scheduler(SchedulerInterface):
             self.kv_events_config,
             self.parallel_config.data_parallel_rank,
         )
+        self.ec_connector = None
+        if self.vllm_config.ec_transfer_config is not None:
+            self.ec_connector = ECConnectorFactory.create_connector(
+                config=self.vllm_config, role=ECConnectorRole.SCHEDULER
+            )
 
         num_gpu_blocks = self.cache_config.num_gpu_blocks
         assert num_gpu_blocks is not None and num_gpu_blocks > 0
@@ -230,12 +241,14 @@ class Scheduler(SchedulerInterface):
 
             # Schedule encoder inputs.
             encoder_inputs_to_schedule = None
+            external_load_encoder_input: list[int] = []
             new_encoder_compute_budget = encoder_compute_budget
             if request.has_encoder_inputs:
                 (
                     encoder_inputs_to_schedule,
                     num_new_tokens,
                     new_encoder_compute_budget,
+                    external_load_encoder_input,
                 ) = self._try_schedule_encoder_inputs(
                     request,
                     request.num_computed_tokens,
@@ -342,6 +355,11 @@ class Scheduler(SchedulerInterface):
                 for i in encoder_inputs_to_schedule:
                     self.encoder_cache_manager.allocate(request, i)
                 encoder_compute_budget = new_encoder_compute_budget
+            if external_load_encoder_input:
+                for i in external_load_encoder_input:
+                    self.encoder_cache_manager.allocate(request, i)
+                    if self.ec_connector is not None:
+                        self.ec_connector.update_state_after_alloc(request, i)
 
         # Record the LoRAs in scheduled_running_reqs
         scheduled_loras: set[int] = set()
@@ -445,6 +463,7 @@ class Scheduler(SchedulerInterface):
                     num_computed_tokens = request.num_computed_tokens
 
                 encoder_inputs_to_schedule = None
+                external_load_encoder_input = []
                 new_encoder_compute_budget = encoder_compute_budget
 
                 # KVTransfer: loading remote KV, do not allocate for new work.
@@ -480,6 +499,7 @@ class Scheduler(SchedulerInterface):
                             encoder_inputs_to_schedule,
                             num_new_tokens,
                             new_encoder_compute_budget,
+                            external_load_encoder_input,
                         ) = self._try_schedule_encoder_inputs(
                             request,
                             num_computed_tokens,
@@ -583,7 +603,12 @@ class Scheduler(SchedulerInterface):
                     for i in encoder_inputs_to_schedule:
                         self.encoder_cache_manager.allocate(request, i)
                     encoder_compute_budget = new_encoder_compute_budget
-
+                # Allocate for external load encoder cache
+                if external_load_encoder_input:
+                    for i in external_load_encoder_input:
+                        self.encoder_cache_manager.allocate(request, i)
+                        if self.ec_connector is not None:
+                            self.ec_connector.update_state_after_alloc(request, i)
         # Put back any skipped requests at the head of the waiting queue
         if skipped_waiting_requests:
             self.waiting.prepend_requests(skipped_waiting_requests)
@@ -591,6 +616,7 @@ class Scheduler(SchedulerInterface):
         # Check if the scheduling constraints are satisfied.
         total_num_scheduled_tokens = sum(num_scheduled_tokens.values())
         assert total_num_scheduled_tokens <= self.max_num_scheduled_tokens
+
         assert token_budget >= 0
         assert len(self.running) <= self.max_num_running_reqs
         # Since some requests in the RUNNING queue may not be scheduled in
@@ -653,8 +679,18 @@ class Scheduler(SchedulerInterface):
         # 2. Wrap up all the KV cache load / save ops into an opaque object
         # 3. Clear the internal states of the connector
         if self.connector is not None:
-            meta = self.connector.build_connector_meta(scheduler_output)
+            meta: KVConnectorMetadata = self.connector.build_connector_meta(
+                scheduler_output
+            )
             scheduler_output.kv_connector_metadata = meta
+
+        # Build the connector meta for ECConnector
+        if self.ec_connector is not None:
+            ec_meta: ECConnectorMetadata = self.ec_connector.build_connector_meta(
+                scheduler_output
+            )
+            scheduler_output.ec_connector_metadata = ec_meta
+
         with record_function_or_nullcontext("schedule: update_after_schedule"):
             self._update_after_schedule(scheduler_output)
         return scheduler_output
@@ -755,7 +791,7 @@ class Scheduler(SchedulerInterface):
         num_computed_tokens: int,
         num_new_tokens: int,
         encoder_compute_budget: int,
-    ) -> tuple[list[int], int, int]:
+    ) -> tuple[list[int], int, int, list[int]]:
         """
         Determine which encoder inputs need to be scheduled in the current step,
         and update `num_new_tokens` and encoder token budget accordingly.
@@ -765,6 +801,7 @@ class Scheduler(SchedulerInterface):
         in this step, i.e.,
         [num_computed_tokens, num_computed_tokens + num_new_tokens).
         - It is not already computed and stored in the encoder cache.
+        - It is not exist on remote encoder cache (via ECConnector)
         - There is sufficient encoder token budget to process it.
         - The encoder cache has space to store it.
 
@@ -776,12 +813,16 @@ class Scheduler(SchedulerInterface):
         blocks and externally cached blocks (via KVConnector).
         """
         if num_new_tokens == 0 or not request.has_encoder_inputs:
-            return [], num_new_tokens, encoder_compute_budget
+            return [], num_new_tokens, encoder_compute_budget, []
         encoder_inputs_to_schedule: list[int] = []
         mm_features = request.mm_features
         assert mm_features is not None
         assert len(mm_features) > 0
+        external_load_encoder_input = []
 
+        # Check remote cache first
+        if self.ec_connector is not None:
+            remote_cache_has_item = self.ec_connector.has_caches(request)
         # NOTE: since scheduler operates on the request level (possibly with
         # multiple encoder inputs per request), we need to create temporary
         # trackers for accounting at the encoder input level.
@@ -862,6 +903,12 @@ class Scheduler(SchedulerInterface):
                     num_new_tokens = 0
                 break
 
+            if self.ec_connector is not None and remote_cache_has_item[i]:
+                mm_hashes_to_schedule.add(request.mm_features[i].identifier)
+                external_load_encoder_input.append(i)
+                num_tokens_to_schedule += num_encoder_tokens
+                continue
+
             num_tokens_to_schedule += num_encoder_tokens
             encoder_compute_budget -= num_encoder_tokens
             mm_hashes_to_schedule.add(request.mm_features[i].identifier)
@@ -871,6 +918,7 @@ class Scheduler(SchedulerInterface):
             encoder_inputs_to_schedule,
             num_new_tokens,
             encoder_compute_budget,
+            external_load_encoder_input,
         )
 
     def get_grammar_bitmask(
diff --git a/vllm/v1/outputs.py b/vllm/v1/outputs.py
index 5f65e4ee0d1f3..e32d5bb608b1d 100644
--- a/vllm/v1/outputs.py
+++ b/vllm/v1/outputs.py
@@ -8,6 +8,8 @@ from typing import TYPE_CHECKING, NamedTuple
 import numpy as np
 import torch
 
+from vllm.v1.core.sched.output import SchedulerOutput
+
 if TYPE_CHECKING:
     from vllm.distributed.kv_transfer.kv_connector.v1.metrics import KVConnectorStats
 else:
@@ -136,6 +138,13 @@ class KVConnectorOutput:
         )
 
 
+@dataclass
+class ECConnectorOutput:
+    # [mm_hash]
+    finished_sending: set[str] | None = None
+    finished_recving: set[str] | None = None
+
+
 # ModelRunnerOutput is serialized and sent to the scheduler process.
 # This is expensive for torch.Tensor so prefer to use list instead.
 @dataclass
@@ -167,6 +176,8 @@ class ModelRunnerOutput:
 
     kv_connector_output: KVConnectorOutput | None = None
 
+    ec_connector_output: ECConnectorOutput | None = None
+
     # req_id -> num_nans_in_logits
     num_nans_in_logits: dict[str, int] | None = None
 
@@ -192,6 +203,41 @@ class DraftTokenIds:
     draft_token_ids: list[list[int]]
 
 
+def make_empty_encoder_model_runner_output(
+    scheduler_output: "SchedulerOutput",
+) -> ModelRunnerOutput:
+    """
+    Create a ModelRunnerOutput stub that contains the correct
+    per-request bookkeeping but no generated data yet.
+    """
+    if not scheduler_output.num_scheduled_tokens:
+        return EMPTY_MODEL_RUNNER_OUTPUT
+
+    # Convert to list so we get a deterministic, indexable sequence
+    req_ids: list[str] = list(scheduler_output.num_scheduled_tokens.keys())
+
+    # Give every request its own contiguous index
+    req_id_to_index: dict[str, int] = {rid: idx for idx, rid in enumerate(req_ids)}
+
+    # No tokens generated yet ⇒ one empty list per request
+    sampled_token_ids: list[list[int]] = [[0] for _ in req_ids]
+
+    # Pooler outputs are not available yet ⇒ use None placeholders
+    pooler_output: list[torch.Tensor | None] = [None for _ in req_ids]
+
+    return ModelRunnerOutput(
+        req_ids=req_ids,
+        req_id_to_index=req_id_to_index,
+        sampled_token_ids=sampled_token_ids,
+        logprobs=None,
+        prompt_logprobs_dict={},
+        pooler_output=pooler_output,
+        kv_connector_output=None,
+        ec_connector_output=None,
+        num_nans_in_logits=None,
+    )
+
+
 EMPTY_MODEL_RUNNER_OUTPUT = ModelRunnerOutput(
     req_ids=[],
     req_id_to_index={},
diff --git a/vllm/v1/worker/ec_connector_model_runner_mixin.py b/vllm/v1/worker/ec_connector_model_runner_mixin.py
new file mode 100644
index 0000000000000..00bc909df2975
--- /dev/null
+++ b/vllm/v1/worker/ec_connector_model_runner_mixin.py
@@ -0,0 +1,87 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+Define EC connector functionality mixin for model runners.
+"""
+
+from collections.abc import Generator
+from contextlib import AbstractContextManager, contextmanager, nullcontext
+from typing import (
+    TYPE_CHECKING,  # noqa: UP035
+)
+
+import torch
+
+from vllm.distributed.ec_transfer import get_ec_transfer, has_ec_transfer
+from vllm.distributed.ec_transfer.ec_connector.base import ECConnectorBase
+from vllm.logger import init_logger
+from vllm.v1.outputs import ECConnectorOutput
+
+if TYPE_CHECKING:
+    from vllm.v1.core.sched.output import SchedulerOutput
+
+logger = init_logger(__name__)
+
+
+# Defined as a EC connector functionality mixin for ModelRunner (GPU, TPU)
+class ECConnectorModelRunnerMixin:
+    @staticmethod
+    def maybe_save_ec_to_connector(
+        encoder_cache: dict[str, torch.Tensor],
+        mm_hash: str,
+    ):
+        if not has_ec_transfer():
+            logger.debug("Not have ec transfer please check")
+            return
+        connector = get_ec_transfer()
+        connector.save_caches(encoder_cache=encoder_cache, mm_hash=mm_hash)
+
+    @staticmethod
+    def get_finished_ec_transfers(
+        scheduler_output: "SchedulerOutput",
+    ) -> tuple[set[str] | None, set[str] | None]:
+        if has_ec_transfer():
+            return get_ec_transfer().get_finished(scheduler_output.finished_req_ids)
+        return None, None
+
+    @staticmethod
+    def maybe_get_ec_connector_output(
+        scheduler_output: "SchedulerOutput",
+        encoder_cache: dict[str, torch.Tensor],
+        **kwargs,
+    ) -> AbstractContextManager[ECConnectorOutput | None]:
+        return (
+            ECConnectorModelRunnerMixin._get_ec_connector_output(
+                scheduler_output, encoder_cache, **kwargs
+            )
+            if has_ec_transfer()
+            else nullcontext()
+        )
+
+    # This context manager must be used within an active forward context.
+    # It encapsulates the entire EC conector lifecycle within execute_model
+    @staticmethod
+    @contextmanager
+    def _get_ec_connector_output(
+        scheduler_output: "SchedulerOutput",
+        encoder_cache: dict[str, torch.Tensor],
+        **kwargs,
+    ) -> Generator[ECConnectorOutput, None, None]:
+        output = ECConnectorOutput()
+
+        ec_connector = get_ec_transfer()
+        assert isinstance(ec_connector, ECConnectorBase)
+        assert scheduler_output.ec_connector_metadata is not None
+        ec_connector.bind_connector_metadata(scheduler_output.ec_connector_metadata)
+
+        if not ec_connector.is_producer:
+            ec_connector.start_load_caches(encoder_cache, **kwargs)
+
+        try:
+            yield output
+        finally:
+            output.finished_sending, output.finished_recving = (
+                ec_connector.get_finished(scheduler_output.finished_req_ids)
+            )
+
+            ec_connector.clear_connector_metadata()
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index fbd3e5f313167..b14b6b1c3f52e 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -35,6 +35,7 @@ from vllm.config import (
     get_layers_from_vllm_config,
     update_config,
 )
+from vllm.distributed.ec_transfer import get_ec_transfer, has_ec_transfer
 from vllm.distributed.eplb.eplb_state import EplbState
 from vllm.distributed.kv_transfer import get_kv_transfer_group, has_kv_transfer_group
 from vllm.distributed.kv_transfer.kv_connector.utils import copy_kv_blocks
@@ -114,12 +115,14 @@ from vllm.v1.outputs import (
     EMPTY_MODEL_RUNNER_OUTPUT,
     AsyncModelRunnerOutput,
     DraftTokenIds,
+    ECConnectorOutput,
     KVConnectorOutput,
     LogprobsLists,
     LogprobsTensors,
     ModelRunnerOutput,
     PoolerOutput,
     SamplerOutput,
+    make_empty_encoder_model_runner_output,
 )
 from vllm.v1.pool.metadata import PoolingMetadata
 from vllm.v1.sample.logits_processor import LogitsProcessors, build_logitsprocs
@@ -134,6 +137,7 @@ from vllm.v1.spec_decode.suffix_decoding import SuffixDecodingProposer
 from vllm.v1.structured_output.utils import apply_grammar_bitmask
 from vllm.v1.utils import CpuGpuBuffer, record_function_or_nullcontext
 from vllm.v1.worker.dp_utils import coordinate_batch_across_dp
+from vllm.v1.worker.ec_connector_model_runner_mixin import ECConnectorModelRunnerMixin
 from vllm.v1.worker.gpu_input_batch import CachedRequestState, InputBatch
 from vllm.v1.worker.gpu_ubatch_wrapper import UBatchWrapper
 from vllm.v1.worker.kv_connector_model_runner_mixin import KVConnectorModelRunnerMixin
@@ -237,9 +241,12 @@ class ExecuteModelState(NamedTuple):
     sample_hidden_states: torch.Tensor
     aux_hidden_states: list[torch.Tensor] | None
     kv_connector_output: KVConnectorOutput | None
+    ec_connector_output: ECConnectorOutput | None
 
 
-class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
+class GPUModelRunner(
+    LoRAModelRunnerMixin, KVConnectorModelRunnerMixin, ECConnectorModelRunnerMixin
+):
     def __init__(
         self,
         vllm_config: VllmConfig,
@@ -1873,6 +1880,8 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
                 output,
                 is_embed=pos_info.is_embed,
             )
+            logger.debug("Finish execute for mm hash %s", mm_hash)
+            self.maybe_save_ec_to_connector(self.encoder_cache, mm_hash)
 
     def _gather_mm_embeddings(
         self,
@@ -2191,20 +2200,27 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
         torch.Tensor,
         IntermediateTensors | None,
         dict[str, Any],
+        ECConnectorOutput | None,
     ]:
         num_scheduled_tokens = scheduler_output.total_num_scheduled_tokens
         is_first_rank = get_pp_group().is_first_rank
 
         # _prepare_inputs may reorder the batch, so we must gather multi
         # modal outputs after that to ensure the correct order
+        ec_connector_output = None
+
         if (
             self.supports_mm_inputs
             and is_first_rank
             and not self.model_config.is_encoder_decoder
         ):
             # Run the multimodal encoder if any.
-            self._execute_mm_encoder(scheduler_output)
-            mm_embeds, is_mm_embed = self._gather_mm_embeddings(scheduler_output)
+            with self.maybe_get_ec_connector_output(
+                scheduler_output,
+                encoder_cache=self.encoder_cache,
+            ) as ec_connector_output:
+                self._execute_mm_encoder(scheduler_output)
+                mm_embeds, is_mm_embed = self._gather_mm_embeddings(scheduler_output)
 
             # NOTE(woosuk): To unify token ids and soft tokens (vision
             # embeddings), we always use embeddings (rather than token ids)
@@ -2284,6 +2300,7 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
             positions,
             intermediate_tensors,
             model_kwargs,
+            ec_connector_output,
         )
 
     def _sample(
@@ -2508,6 +2525,14 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
                 # Update persistent batch states.
                 self._update_states(scheduler_output)
 
+                if has_ec_transfer() and get_ec_transfer().is_producer:
+                    with self.maybe_get_ec_connector_output(
+                        scheduler_output,
+                        encoder_cache=self.encoder_cache,
+                    ) as ec_connector_output:
+                        self._execute_mm_encoder(scheduler_output)
+                        return make_empty_encoder_model_runner_output(scheduler_output)
+
                 if not num_scheduled_tokens:
                     if not has_kv_transfer_group():
                         # Return empty ModelRunnerOutput if no work to do.
@@ -2583,6 +2608,7 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
                 positions,
                 intermediate_tensors,
                 model_kwargs,
+                ec_connector_output,
             ) = self._preprocess(
                 scheduler_output, num_input_tokens, intermediate_tensors
             )
@@ -2699,6 +2725,7 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
             sample_hidden_states,
             aux_hidden_states,
             kv_connector_output,
+            ec_connector_output,
         )
         return None
 
@@ -2720,6 +2747,7 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
             sample_hidden_states,
             aux_hidden_states,
             kv_connector_output,
+            ec_connector_output,
         ) = self.execute_model_state
         # Clear ephemeral state.
         self.execute_model_state = None
@@ -2811,6 +2839,9 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
                 prompt_logprobs_dict=prompt_logprobs_dict,
                 pooler_output=[],
                 kv_connector_output=kv_connector_output,
+                ec_connector_output=ec_connector_output
+                if self.supports_mm_inputs
+                else None,
                 num_nans_in_logits=num_nans_in_logits,
             )
 
@@ -4797,7 +4828,8 @@ class GPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
             KVCacheSpec: A dictionary mapping layer names to their KV cache
             format. Layers that do not need KV cache are not included.
         """
-
+        if has_ec_transfer() and get_ec_transfer().is_producer:
+            return {}
         kv_cache_spec: dict[str, KVCacheSpec] = {}
         attn_layers = get_layers_from_vllm_config(self.vllm_config, AttentionLayerBase)
         for layer_name, attn_module in attn_layers.items():
diff --git a/vllm/v1/worker/gpu_worker.py b/vllm/v1/worker/gpu_worker.py
index 19061fcffdf1a..2b9d8bb2f25e6 100644
--- a/vllm/v1/worker/gpu_worker.py
+++ b/vllm/v1/worker/gpu_worker.py
@@ -20,6 +20,7 @@ from vllm.distributed import (
     init_distributed_environment,
     set_custom_all_reduce,
 )
+from vllm.distributed.ec_transfer import ensure_ec_transfer_initialized
 from vllm.distributed.kv_transfer import (
     ensure_kv_transfer_initialized,
     get_kv_transfer_group,
@@ -887,3 +888,7 @@ def init_worker_distributed_environment(
         parallel_config.pipeline_parallel_size,
         parallel_config.decode_context_parallel_size,
     )
+
+    # Init ec connector here before KV caches caches init
+    # NOTE: We do not init KV caches for Encoder-only instance in EPD disagg mode
+    ensure_ec_transfer_initialized(vllm_config)

From b9ce9a301341a4f128f434c874f452fb7767e94b Mon Sep 17 00:00:00 2001
From: Fanli Lin <fanli.lin@intel.com>
Date: Wed, 12 Nov 2025 11:13:21 +0800
Subject: [PATCH 348/976] [BugFix] Add fallback path in
 `apply_rotary_pos_emb_flashattn` for non-cuda platforms (#28447)

Signed-off-by: Lin, Fanli <fanli.lin@intel.com>
---
 vllm/model_executor/models/keye.py | 7 +++++++
 1 file changed, 7 insertions(+)

diff --git a/vllm/model_executor/models/keye.py b/vllm/model_executor/models/keye.py
index aa0134badc402..2998c87918a99 100644
--- a/vllm/model_executor/models/keye.py
+++ b/vllm/model_executor/models/keye.py
@@ -346,6 +346,13 @@ def apply_rotary_pos_emb_flashatt(
         from vllm.vllm_flash_attn.layers.rotary import apply_rotary_emb
     elif current_platform.is_rocm():
         from flash_attn.ops.triton.rotary import apply_rotary as apply_rotary_emb
+    else:
+        # For other platforms, use PyTorch fallback
+        from vllm.model_executor.layers.rotary_embedding.common import (
+            apply_rotary_emb_torch,
+        )
+
+        apply_rotary_emb = partial(apply_rotary_emb_torch, is_neox_style=True)
 
     q_embed = apply_rotary_emb(q.float(), cos.float(), sin.float()).type_as(q)
     k_embed = apply_rotary_emb(k.float(), cos.float(), sin.float()).type_as(k)

From f31419ed8ba219d70a1982f238e42e74e0ed86c9 Mon Sep 17 00:00:00 2001
From: ai-jz <156989844+ai-jz@users.noreply.github.com>
Date: Tue, 11 Nov 2025 21:00:45 -0800
Subject: [PATCH 349/976] [Benchmark] Add retry support to fix workload bias in
 multi-turn benchmark (#28493)

---
 .../benchmark_serving_multi_turn.py           | 130 +++++++++++-------
 1 file changed, 82 insertions(+), 48 deletions(-)

diff --git a/benchmarks/multi_turn/benchmark_serving_multi_turn.py b/benchmarks/multi_turn/benchmark_serving_multi_turn.py
index 2c1a051cc9c97..ae9e9753441aa 100644
--- a/benchmarks/multi_turn/benchmark_serving_multi_turn.py
+++ b/benchmarks/multi_turn/benchmark_serving_multi_turn.py
@@ -55,6 +55,7 @@ class ClientArgs(NamedTuple):
     verify_output: bool
     conversation_sampling: ConversationSampling
     request_rate: float
+    max_retries: int
 
 
 class RequestArgs(NamedTuple):
@@ -527,6 +528,25 @@ async def poisson_sleep(request_rate: float, verbose: bool = False) -> None:
     await asyncio.sleep(interval)
 
 
+async def exponential_backoff_sleep(
+    attempt_cnt: int,
+    base_rate: float = 1.0,
+    backoff_factor: float = 2.0,
+    jitter_fraction: float = 0.10,
+    verbose: bool = False,
+) -> None:
+    # Sleep with exponential backoff and jitter after a failed request.
+    backoff_delay = base_rate * (backoff_factor**attempt_cnt)
+    jittered_delay = backoff_delay * (
+        1 + np.random.uniform(-jitter_fraction, jitter_fraction)
+    )
+
+    if verbose:
+        logger.info(f"Backoff for {jittered_delay:.3f} seconds...")
+
+    await asyncio.sleep(jittered_delay)
+
+
 async def client_main(
     args: ClientArgs,
     req_args: RequestArgs,
@@ -655,59 +675,62 @@ async def client_main(
                 )
                 time_of_last_turn[conv_id] = curr_time_sec
 
-            success = True
-            try:
-                result = await send_turn(
-                    session,
-                    client_id,
-                    conv_id,
-                    messages,
-                    current_turn,
-                    tokenizer,
-                    req_args,
-                    args.print_content,
-                    args.verify_output,
-                )
-                if result is not None:
-                    result_queue.put(result)
-                else:
-                    # None means that the request failed,
-                    # and should not be added to the statistics.
-                    success = False
-                    num_failures += 1
-
-                    logger.warning(
-                        f"{Color.YELLOW}Client {client_id} - Request rejected during conversation ID {conv_id} (turn: {current_turn}){Color.RESET}"  # noqa: E501
+            success = False
+            for attempt_cnt in range(args.max_retries + 1):
+                try:
+                    exception = False
+                    result = await send_turn(
+                        session,
+                        client_id,
+                        conv_id,
+                        messages,
+                        current_turn,
+                        tokenizer,
+                        req_args,
+                        args.print_content,
+                        args.verify_output,
+                    )
+                    if result is not None:
+                        result_queue.put(result)
+                        success = True
+                        break
+                    else:
+                        logger.warning(
+                            f"{Color.YELLOW}Client {client_id} - Request rejected during conversation ID {conv_id} (turn: {current_turn}){Color.RESET}"  # noqa: E501
+                        )
+                except asyncio.exceptions.TimeoutError:
+                    exception = True
+                    logger.error(
+                        "%sClient %d - Timeout during conversation ID %s (turn: %d). "
+                        "Base timeout is %ss (set with --request-timeout-sec), but the "
+                        "effective timeout may be longer based on max_tokens. If this "
+                        "is unexpected, consider increasing the timeout or checking "
+                        "model performance.%s",
+                        Color.RED,
+                        client_id,
+                        conv_id,
+                        current_turn,
+                        req_args.timeout_sec,
+                        Color.RESET,
+                    )
+                except Exception:
+                    exception = True
+                    logger.exception(
+                        f"{Color.RED}Client {client_id} - Exception during conversation ID {conv_id} (turn: {current_turn}){Color.RESET}"  # noqa: E501
                     )
 
-                    # Remove the conversation (should not be used again)
-                    active_convs.pop(conv_id)
+                # Sleep before retry if not last attempt
+                if not success and attempt_cnt < args.max_retries:
+                    await exponential_backoff_sleep(attempt_cnt, verbose=args.verbose)
 
-            except asyncio.exceptions.TimeoutError:
+            if not success:
                 num_failures += 1
-                logger.error(
-                    "%sClient %d - Timeout during conversation ID %s (turn: %d). "
-                    "Base timeout is %ss (set with --request-timeout-sec), but the "
-                    "effective timeout may be longer based on max_tokens. If this "
-                    "is unexpected, consider increasing the timeout or checking "
-                    "model performance.%s",
-                    Color.RED,
-                    client_id,
-                    conv_id,
-                    current_turn,
-                    req_args.timeout_sec,
-                    Color.RESET,
-                )
-                break  # Exit gracefully instead of raising an error
+                # Remove the conversation (should not be used again)
+                active_convs.pop(conv_id)
+                if exception:
+                    break  # Exit gracefully instead of raising an error
 
-            except Exception:
-                num_failures += 1
-                logger.exception(
-                    f"{Color.RED}Client {client_id} - Exception during conversation ID {conv_id} (turn: {current_turn}){Color.RESET}"  # noqa: E501
-                )
-                break  # Exit gracefully instead of raising an error
-
-            if success:
+            else:
                 num_successes += 1
 
                 # Update the turns counter to include the LLM response
@@ -822,6 +845,7 @@ def get_client_config(
         verify_output=args.verify_output,
         conversation_sampling=args.conversation_sampling,
         request_rate=args.request_rate,
+        max_retries=args.max_retries,
     )
 
     if args.limit_min_tokens > 0 or args.limit_max_tokens > 0:
@@ -1357,6 +1381,16 @@ async def main() -> None:
         help="Expected request rate (Poisson process) per client in requests/sec."
         "Set to 0 for no delay between requests.",
     )
+    parser.add_argument(
+        "--max-retries",
+        type=int,
+        default=int(os.environ.get("MULTITURN_BENCH_MAX_RETRIES", "0")),
+        help="Maximum number of retry attempts for timed-out requests. "
+        "Default is 0 (no retries). "
+        "Set to higher values to retry failed requests and maintain "
+        "fair workload distribution. "
+        "Can also be set via MULTITURN_BENCH_MAX_RETRIES environment variable.",
+    )
     parser.add_argument(
         "--conversation-sampling",
         type=ConversationSampling,

From ac0bb2c3075f87b62afde8ea7dab10207bb71df1 Mon Sep 17 00:00:00 2001
From: Lukas Geiger <lukas.geiger94@gmail.com>
Date: Wed, 12 Nov 2025 05:03:01 +0000
Subject: [PATCH 350/976] [Core] Cache `vllm_is_batch_invariant` (#28304)

Signed-off-by: Lukas Geiger <lukas.geiger94@gmail.com>
---
 vllm/model_executor/layers/batch_invariant.py | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/vllm/model_executor/layers/batch_invariant.py b/vllm/model_executor/layers/batch_invariant.py
index 65babd10a948b..746a543ab827d 100644
--- a/vllm/model_executor/layers/batch_invariant.py
+++ b/vllm/model_executor/layers/batch_invariant.py
@@ -4,6 +4,7 @@ import contextlib
 import os
 from collections import namedtuple
 from collections.abc import Callable
+from functools import cache
 from typing import Any
 
 import torch
@@ -857,6 +858,7 @@ def get_batch_invariant_attention_block_size() -> AttentionBlockSize:
     return AttentionBlockSize(block_m=16, block_n=16)
 
 
+@cache
 def vllm_is_batch_invariant():
     env_key = "VLLM_BATCH_INVARIANT"
     is_overridden = False

From 91864b79b36e5a7799f90c1c350e663d484bcfee Mon Sep 17 00:00:00 2001
From: Chenguang Zheng <645327136@qq.com>
Date: Wed, 12 Nov 2025 15:09:33 +0800
Subject: [PATCH 351/976] [CI/Build] Fix crash due to removed VLLM_USE_V1
 attribute in EPD (#28521)

Signed-off-by: knlnguyen1802 <knlnguyen1802@gmail.com>
Co-authored-by: knlnguyen1802 <knlnguyen1802@gmail.com>
Co-authored-by: Roger Wang <hey@rogerw.io>
---
 vllm/distributed/ec_transfer/ec_transfer_state.py | 10 +++-------
 1 file changed, 3 insertions(+), 7 deletions(-)

diff --git a/vllm/distributed/ec_transfer/ec_transfer_state.py b/vllm/distributed/ec_transfer/ec_transfer_state.py
index 95f516129e0c3..ef3c978b36a3a 100644
--- a/vllm/distributed/ec_transfer/ec_transfer_state.py
+++ b/vllm/distributed/ec_transfer/ec_transfer_state.py
@@ -2,7 +2,6 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 from typing import TYPE_CHECKING
 
-from vllm import envs
 from vllm.distributed.ec_transfer.ec_connector.base import (
     ECConnectorBase,
     ECConnectorRole,
@@ -38,9 +37,6 @@ def ensure_ec_transfer_initialized(vllm_config: "VllmConfig") -> None:
         vllm_config.ec_transfer_config.is_ec_transfer_instance
         and _EC_CONNECTOR_AGENT is None
     ):
-        if envs.VLLM_USE_V1:
-            _EC_CONNECTOR_AGENT = ECConnectorFactory.create_connector(
-                config=vllm_config, role=ECConnectorRole.WORKER
-            )
-        else:
-            raise ValueError("V0 is no longer supported")
+        _EC_CONNECTOR_AGENT = ECConnectorFactory.create_connector(
+            config=vllm_config, role=ECConnectorRole.WORKER
+        )

From c748355e0d55c98d5458aebbd680ce684c87c9bb Mon Sep 17 00:00:00 2001
From: Huamin Li <3ericli@gmail.com>
Date: Wed, 12 Nov 2025 00:51:19 -0800
Subject: [PATCH 352/976] [CI] Introduce autorun_on_main feature (#27836)

Signed-off-by: Huamin Li <3ericli@gmail.com>
---
 .buildkite/test-pipeline.yaml | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index 8d2a7bc5a8029..e816a20fe0642 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -25,6 +25,7 @@
 #     and $$BUILDKITE_PARALLEL_JOB_COUNT environment variables.
 # working_dir(str): specify the place where the command should execute, default to /vllm-workspace/tests
 # source_file_dependencies(list): the list of prefixes to opt-in the test for, if empty, the test will always run.
+# autorun_on_main (bool): default to false, if true, the test will run automatically when commit is pushed to main branch.
 
 # When adding a test
 # - If the test belongs to an existing group, add it there
@@ -606,6 +607,7 @@ steps:
   source_file_dependencies:
   - csrc/
   - vllm/model_executor/layers/quantization
+  autorun_on_main: true
   commands:
   - pytest -s -v evals/gsm8k/test_gsm8k_correctness.py --config-list-file=configs/models-small.txt --tp-size=1
 
@@ -939,7 +941,7 @@ steps:
     # this runner has 2 GPUs available even though num_gpus=2 is not set
     - pytest -v -s tests/compile/test_fusion_all_reduce.py
     # Limit to Inductor partition, no custom ops, and allreduce & attn fusion to reduce running time
-    # Wrap with quotes to escape yaml 
+    # Wrap with quotes to escape yaml
     - "pytest -v -s tests/compile/test_fusions_e2e.py::test_tp2_attn_quant_allreduce_rmsnorm -k 'True and Llama-3.1 and -quant_fp8 and -rms_norm'"
 
 - label: Blackwell Fusion E2E Tests # 30 min

From 1761dea1a8567fc143b7bfbe61cb1e00cc081c7f Mon Sep 17 00:00:00 2001
From: yyzxw <34639446+yyzxw@users.noreply.github.com>
Date: Wed, 12 Nov 2025 17:03:56 +0800
Subject: [PATCH 353/976] [BugFix]: --enable-lora with model granite-4.0-micro
 crash (#27733)

Signed-off-by: zxw <1020938856@qq.com>
---
 vllm/model_executor/models/granitemoehybrid.py | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/vllm/model_executor/models/granitemoehybrid.py b/vllm/model_executor/models/granitemoehybrid.py
index 3a98abed76fdf..ea49a0ffee011 100644
--- a/vllm/model_executor/models/granitemoehybrid.py
+++ b/vllm/model_executor/models/granitemoehybrid.py
@@ -597,6 +597,9 @@ class GraniteMoeHybridForCausalLM(
             "k_proj",
             "v_proj",
         ],
+        "conv1d": ["conv1d"],
+        "in_proj": ["in_proj"],
+        "input_linear": ["input_linear"],
     }
     embedding_modules = {
         "embed_tokens": "input_embeddings",

From d3ade61e429fcae40829587244ced9c553120703 Mon Sep 17 00:00:00 2001
From: wuyaoxuehun <798143193@qq.com>
Date: Wed, 12 Nov 2025 17:14:00 +0700
Subject: [PATCH 354/976] [Model] fix glm4_moe_mtp load weights with GLM-4.6
 checkpoint. (#27597)

Signed-off-by: wuao.scotty <wuao.scotty@bytedance.com>
Co-authored-by: wuao.scotty <wuao.scotty@bytedance.com>
---
 vllm/model_executor/models/glm4_moe_mtp.py | 15 +++++++++++----
 1 file changed, 11 insertions(+), 4 deletions(-)

diff --git a/vllm/model_executor/models/glm4_moe_mtp.py b/vllm/model_executor/models/glm4_moe_mtp.py
index 9a2ae3c476f07..9db2aaa075de1 100644
--- a/vllm/model_executor/models/glm4_moe_mtp.py
+++ b/vllm/model_executor/models/glm4_moe_mtp.py
@@ -256,11 +256,18 @@ class Glm4MoeMTP(nn.Module, SupportsPP, Glm4MixtureOfExperts):
 
         params_dict = dict(self.named_parameters())
         loaded_params: set[str] = set()
+        spec_layer = self.model.mtp_start_layer_idx
         for name, loaded_weight in weights:
-            spec_layer = get_spec_layer_idx_from_weight_name(self.config, name)
-            if spec_layer is None:
-                continue
-            name = self._rewrite_spec_layer_name(spec_layer, name)
+            if name == "lm_head.weight":
+                name = f"model.layers.{spec_layer}.shard_head.head.weight"
+            elif name == "model.embed_tokens.weight":
+                # This name is same with local model, rewriting is not needed.
+                pass
+            else:
+                spec_layer = get_spec_layer_idx_from_weight_name(self.config, name)
+                if spec_layer is None:
+                    continue
+                name = self._rewrite_spec_layer_name(spec_layer, name)
             for param_name, weight_name, shard_id in stacked_params_mapping:
                 # Skip non-stacked layers and experts (experts handled below).
                 if weight_name not in name:

From a4730c1b4fa297848aeb8b81a36c5158b3845e9c Mon Sep 17 00:00:00 2001
From: Chaojun Zhang <chaojun.zhang@intel.com>
Date: Wed, 12 Nov 2025 18:20:55 +0800
Subject: [PATCH 355/976] [XPU]Fix crash due to removed VLLM_USE_V1 attribute
 (#28520)

Signed-off-by: chaojun-zhang <chaojun.zhang@intel.com>
---
 vllm/platforms/xpu.py | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/vllm/platforms/xpu.py b/vllm/platforms/xpu.py
index 684d6d9a6b57d..359eafc66445f 100644
--- a/vllm/platforms/xpu.py
+++ b/vllm/platforms/xpu.py
@@ -65,7 +65,6 @@ class XPUPlatform(Platform):
 
         if use_sparse:
             raise NotImplementedError("Sparse Attention is not supported on XPU.")
-        use_v1 = envs.VLLM_USE_V1
         if not use_v1:
             raise ValueError("XPU backend only supports V1.")
         if selected_backend == AttentionBackendEnum.TRITON_ATTN:
@@ -115,7 +114,9 @@ class XPUPlatform(Platform):
     @classmethod
     def get_vit_attn_backend(
         cls, head_size: int, dtype: torch.dtype
-    ) -> AttentionBackendEnum:
+    ) -> "AttentionBackendEnum":
+        from vllm.attention.backends.registry import AttentionBackendEnum
+
         return AttentionBackendEnum.FLASH_ATTN
 
     @classmethod

From d143152308ede994406196aa484566a25a68fe3a Mon Sep 17 00:00:00 2001
From: ziruiliu <ziliu@ddn.com>
Date: Wed, 12 Nov 2025 18:44:58 +0800
Subject: [PATCH 356/976] [KVConnector] Enable get_block_ids_with_load_errors()
 in LMCache connector  (#27978)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Signed-off-by: Zirui Liu <ziliu@ddn.com>
Signed-off-by: ziruiliu <ziliu@ddn.com>
Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
Co-authored-by: Nicolò Lucchesi <nlucches@redhat.com>
---
 .../kv_connector/v1/lmcache_connector.py          | 15 +++++++++++++++
 1 file changed, 15 insertions(+)

diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/lmcache_connector.py b/vllm/distributed/kv_transfer/kv_connector/v1/lmcache_connector.py
index 575ab468be566..0c24a53fb754b 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/lmcache_connector.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/lmcache_connector.py
@@ -136,6 +136,21 @@ class LMCacheConnectorV1(KVConnectorBase_V1):
         """
         return self._lmcache_engine.get_finished(finished_req_ids)
 
+    def get_block_ids_with_load_errors(self) -> set[int]:
+        """
+        Get the set of block IDs that failed to load.
+
+        Returns:
+            Set of block IDs that encountered load errors.
+            Empty set if no load errors occurred.
+        """
+        method = getattr(self._lmcache_engine, "get_block_ids_with_load_errors", None)
+        if callable(method):
+            return method()
+
+        # Fallback for older versions that don't support this method
+        return set()
+
     # ==============================
     # Scheduler-side methods
     # ==============================

From c5f10cc139ec87e217f2bb56a677dd57394729f5 Mon Sep 17 00:00:00 2001
From: ZhengHongming888 <hongming.zheng@intel.com>
Date: Wed, 12 Nov 2025 03:53:08 -0800
Subject: [PATCH 357/976] add cpu option for p/d in nixl_connector (#28356)

Signed-off-by: Hongming Zheng <hongming.zheng@intel.com>
---
 .../kv_connector/v1/nixl_connector.py          | 18 ++++++++++++++++--
 1 file changed, 16 insertions(+), 2 deletions(-)

diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py b/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
index 375ea79d0e817..42433c717cf26 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
@@ -91,6 +91,7 @@ _NIXL_SUPPORTED_DEVICE = {
     ),
     "tpu": ("cpu",),
     "xpu": ("cpu",),
+    "cpu": ("cpu",),
 }
 # support for oot platform by providing mapping in current_platform
 _NIXL_SUPPORTED_DEVICE.update(current_platform.get_nixl_supported_devices())
@@ -348,7 +349,13 @@ class NixlConnectorScheduler:
             + vllm_config.parallel_config.data_parallel_rank
         )
         assert vllm_config.kv_transfer_config is not None
-        self.use_host_buffer = vllm_config.kv_transfer_config.kv_buffer_device == "cpu"
+        if current_platform.device_type == "cpu":
+            self.use_host_buffer = False
+        else:
+            self.use_host_buffer = (
+                vllm_config.kv_transfer_config.kv_buffer_device == "cpu"
+            )
+
         logger.info("Initializing NIXL Scheduler %s", engine_id)
 
         # Background thread for handling new handshake requests.
@@ -820,7 +827,11 @@ class NixlConnectorWorker:
         # cpu kv buffer for xfer
         # used when device memory can not be registered under nixl
         self.host_xfer_buffers: dict[str, torch.Tensor] = {}
-        self.use_host_buffer = self.kv_buffer_device == "cpu"
+        if self.device_type == "cpu":
+            self.use_host_buffer = False
+        else:
+            self.use_host_buffer = self.kv_buffer_device == "cpu"
+
         # support for oot platform which can't register nixl memory
         # type based on kv_buffer_device
         nixl_memory_type = current_platform.get_nixl_memory_type()
@@ -1021,6 +1032,9 @@ class NixlConnectorWorker:
         # Set a no-op if the host buffer is not cpu.
         if self.kv_buffer_device != "cpu":
             return
+        # Set a no-op if self.device_type is 'cpu'.
+        if self.device_type == "cpu":
+            return
         assert self.use_host_buffer
         self.copy_blocks = copy_operation
 

From edb59a9470f5c67ef11d52e7bb25fb8ea17f120f Mon Sep 17 00:00:00 2001
From: TJian <tunjian.tan@embeddedllm.com>
Date: Wed, 12 Nov 2025 05:01:14 -0800
Subject: [PATCH 358/976] [ROCm] [Bugfix] Fix `fused_qknorm_rope_kernel` rocm
 compatibility (#28500)

Signed-off-by: tjtanaa <tunjian.tan@embeddedllm.com>
---
 csrc/fused_qknorm_rope_kernel.cu              | 54 +++++++++----------
 csrc/torch_bindings.cpp                       |  2 -
 csrc/type_convert.cuh                         |  7 +--
 tests/compile/test_qk_norm_rope_fusion.py     |  4 +-
 tests/kernels/core/test_fused_qk_norm_rope.py |  4 +-
 vllm/config/compilation.py                    |  4 +-
 6 files changed, 37 insertions(+), 38 deletions(-)

diff --git a/csrc/fused_qknorm_rope_kernel.cu b/csrc/fused_qknorm_rope_kernel.cu
index cbd23975a7739..83017250ebcd5 100644
--- a/csrc/fused_qknorm_rope_kernel.cu
+++ b/csrc/fused_qknorm_rope_kernel.cu
@@ -35,10 +35,12 @@
   CHECK_TH_CUDA(x);    \
   CHECK_CONTIGUOUS(x)
 
-#define FINAL_MASK 0xffffffff
+#ifdef USE_ROCM
+  #define FINAL_MASK 0xffffffffffffffffULL
+#else
+  #define FINAL_MASK 0xffffffff
+#endif
 
-// TODO: suport for AMD ROCM platform
-#ifndef USE_ROCM
 namespace tensorrt_llm::common {
 template <typename T, int num>
 struct packed_as;
@@ -60,7 +62,7 @@ struct packed_as<uint, 4> {
 
 template <typename T>
 __inline__ __device__ T warpReduceSum(T val) {
-  #pragma unroll
+#pragma unroll
   for (int mask = 16; mask > 0; mask >>= 1)
     val += __shfl_xor_sync(FINAL_MASK, val, mask, 32);
   return val;
@@ -97,12 +99,12 @@ __global__ void fusedQKNormRopeKernel(
     int64_t const* position_ids,     // Position IDs for RoPE
     int const num_tokens             // Number of tokens
 ) {
-  #if !defined(__CUDA_ARCH__) || __CUDA_ARCH__ < 800
+#if (!defined(__CUDA_ARCH__) || __CUDA_ARCH__ < 800) && !defined(USE_ROCM)
   if constexpr ((std::is_same_v<scalar_t_in, c10::BFloat16>) ||
                 std::is_same_v<scalar_t_cache, c10::BFloat16>) {
     return;
   } else {
-  #endif
+#endif
 
     using Converter = vllm::_typeConvert<scalar_t_in>;
     static_assert(Converter::exists,
@@ -179,7 +181,7 @@ __global__ void fusedQKNormRopeKernel(
     {
       vec_T vec = *reinterpret_cast<vec_T const*>(&qkv[offsetThread]);
       constexpr int num_packed_elems = elemSizeBytes / sizeof(T2_in);
-  #pragma unroll
+#pragma unroll
       for (int i = 0; i < num_packed_elems; i++) {
         // Interpret the generic vector chunk as the specific packed type
         T2_in packed_val = *(reinterpret_cast<T2_in*>(&vec) + i);
@@ -200,7 +202,7 @@ __global__ void fusedQKNormRopeKernel(
     float rms_rcp = rsqrtf(sumOfSquares / static_cast<float>(head_dim) + eps);
 
     // Normalize elements
-  #pragma unroll
+#pragma unroll
     for (int i = 0; i < numElemsPerThread; i++) {
       int dim = laneId * numElemsPerThread + i;
       float weight = isQ ? Converter::convert(q_weight[dim])
@@ -222,7 +224,7 @@ __global__ void fusedQKNormRopeKernel(
 
     if constexpr (interleave) {
       // Perform interleaving. Use pre-computed cos/sin values.
-  #pragma unroll
+#pragma unroll
       for (int i = 0; i < numElemsPerThread / 2; ++i) {
         int const idx0 = 2 * i;
         int const idx1 = 2 * i + 1;
@@ -245,9 +247,9 @@ __global__ void fusedQKNormRopeKernel(
       __syncwarp();
       // Get the data from the other half of the warp. Use pre-computed cos/sin
       // values.
-  #pragma unroll
+#pragma unroll
       for (int i = 0; i < numElemsPerThread; i++) {
-        elements2[i] = __shfl_xor_sync(0xffffffff, elements[i], 16);
+        elements2[i] = __shfl_xor_sync(FINAL_MASK, elements[i], 16);
         if (laneId < 16) {
           elements2[i] = -elements2[i];
         }
@@ -269,7 +271,7 @@ __global__ void fusedQKNormRopeKernel(
     {
       vec_T vec;
       constexpr int num_packed_elems = elemSizeBytes / sizeof(T2_in);
-  #pragma unroll
+#pragma unroll
       for (int i = 0; i < num_packed_elems; i++) {
         // Convert from float2 back to the specific packed type
         T2_in packed_val = Converter::convert(
@@ -280,21 +282,21 @@ __global__ void fusedQKNormRopeKernel(
       *reinterpret_cast<vec_T*>(&qkv[offsetThread]) = vec;
     }
 
-  #if !defined(__CUDA_ARCH__) || __CUDA_ARCH__ < 800
+#if (!defined(__CUDA_ARCH__) || __CUDA_ARCH__ < 800) && !defined(USE_ROCM)
   }
-  #endif
+#endif
 }
 
-  // Borrowed from
-  // https://github.com/flashinfer-ai/flashinfer/blob/8125d079a43e9a0ba463a4ed1b639cefd084cec9/include/flashinfer/pos_enc.cuh#L568
-  #define DISPATCH_INTERLEAVE(interleave, INTERLEAVE, ...) \
-    if (interleave) {                                      \
-      const bool INTERLEAVE = true;                        \
-      __VA_ARGS__                                          \
-    } else {                                               \
-      const bool INTERLEAVE = false;                       \
-      __VA_ARGS__                                          \
-    }
+// Borrowed from
+// https://github.com/flashinfer-ai/flashinfer/blob/8125d079a43e9a0ba463a4ed1b639cefd084cec9/include/flashinfer/pos_enc.cuh#L568
+#define DISPATCH_INTERLEAVE(interleave, INTERLEAVE, ...) \
+  if (interleave) {                                      \
+    const bool INTERLEAVE = true;                        \
+    __VA_ARGS__                                          \
+  } else {                                               \
+    const bool INTERLEAVE = false;                       \
+    __VA_ARGS__                                          \
+  }
 
 template <typename scalar_t_in, typename scalar_t_cache>
 void launchFusedQKNormRope(void* qkv, int const num_tokens,
@@ -413,6 +415,4 @@ void fused_qk_norm_rope(
               stream);
         });
   });
-}
-
-#endif  // not USE_ROCM
\ No newline at end of file
+}
\ No newline at end of file
diff --git a/csrc/torch_bindings.cpp b/csrc/torch_bindings.cpp
index d4a69cbe7971d..c3ae06a30e3e8 100644
--- a/csrc/torch_bindings.cpp
+++ b/csrc/torch_bindings.cpp
@@ -175,7 +175,6 @@ TORCH_LIBRARY_EXPAND(TORCH_EXTENSION_NAME, ops) {
       "float epsilon) -> ()");
   ops.impl("fused_add_rms_norm", torch::kCUDA, &fused_add_rms_norm);
 
-#ifndef USE_ROCM
   // Function for fused QK Norm and RoPE
   ops.def(
       "fused_qk_norm_rope(Tensor! qkv, int num_heads_q, "
@@ -183,7 +182,6 @@ TORCH_LIBRARY_EXPAND(TORCH_EXTENSION_NAME, ops) {
       "Tensor q_weight, Tensor k_weight, Tensor cos_sin_cache, "
       "bool is_neox, Tensor position_ids) -> ()");
   ops.impl("fused_qk_norm_rope", torch::kCUDA, &fused_qk_norm_rope);
-#endif
 
   // Apply repetition penalties to logits in-place
   ops.def(
diff --git a/csrc/type_convert.cuh b/csrc/type_convert.cuh
index 6da06f1e66cf5..2678f69e19b6c 100644
--- a/csrc/type_convert.cuh
+++ b/csrc/type_convert.cuh
@@ -67,9 +67,9 @@ struct _typeConvert<c10::Half> {
   }
 };
 
-  #if defined(__CUDA_ARCH__) && __CUDA_ARCH__ >= 800
+  #if (defined(__CUDA_ARCH__) && __CUDA_ARCH__ >= 800) || defined(USE_ROCM)
 // CUDA_ARCH < 800 does not have BF16 support
-// TODO: Add in ROCm support once public headers handle bf16 maturely
+// ROCm 7.0+ supports bfloat16
 template <>
 struct _typeConvert<c10::BFloat16> {
   static constexpr bool exists = true;
@@ -89,7 +89,8 @@ struct _typeConvert<c10::BFloat16> {
     return __float22bfloat162_rn(x);
   }
 };
-  #endif  // defined(__CUDA_ARCH__) && __CUDA_ARCH__ >= 800
+  #endif  // (defined(__CUDA_ARCH__) && __CUDA_ARCH__ >= 800) ||
+          // defined(USE_ROCM)
 #endif    // defined(USE_ROCM) || (defined(CUDA_VERSION) && (CUDA_VERSION >=
           // 12000))
 
diff --git a/tests/compile/test_qk_norm_rope_fusion.py b/tests/compile/test_qk_norm_rope_fusion.py
index 973123a3af920..511e50f5fdc24 100644
--- a/tests/compile/test_qk_norm_rope_fusion.py
+++ b/tests/compile/test_qk_norm_rope_fusion.py
@@ -113,8 +113,8 @@ class QKNormRoPETestModel(torch.nn.Module):
 @pytest.mark.parametrize("enable_rope_custom_op", [True])
 @pytest.mark.parametrize("dtype", [torch.bfloat16, torch.float16])
 @pytest.mark.skipif(
-    not current_platform.is_cuda(),
-    reason="Only test on cuda platform",
+    not current_platform.is_cuda_alike(),
+    reason="Only test on cuda and rocm platform",
 )
 def test_qk_norm_rope_fusion(
     eps, is_neox, enable_rms_norm_custom_op, enable_rope_custom_op, dtype
diff --git a/tests/kernels/core/test_fused_qk_norm_rope.py b/tests/kernels/core/test_fused_qk_norm_rope.py
index 88bb7691ec3bc..a23959e353da9 100644
--- a/tests/kernels/core/test_fused_qk_norm_rope.py
+++ b/tests/kernels/core/test_fused_qk_norm_rope.py
@@ -44,8 +44,8 @@ def _apply_qk_norm_rope(
 
 
 @pytest.mark.skipif(
-    not current_platform.is_cuda(),
-    reason="fused_qk_norm_rope custom op requires cuda platform",
+    not current_platform.is_cuda_alike(),
+    reason="fused_qk_norm_rope custom op requires cuda and rocm platform",
 )
 @pytest.mark.parametrize("device", CUDA_DEVICES)
 @pytest.mark.parametrize("dtype", DTYPES)
diff --git a/vllm/config/compilation.py b/vllm/config/compilation.py
index e1d60ee84d89c..68eb9420e70d0 100644
--- a/vllm/config/compilation.py
+++ b/vllm/config/compilation.py
@@ -184,10 +184,10 @@ class PassConfig:
                     "Fusion enabled but reshape elimination disabled. "
                     "Allreduce + rms norm + quant (fp8) fusion might not work"
                 )
-        if self.enable_qk_norm_rope_fusion and not current_platform.is_cuda():
+        if self.enable_qk_norm_rope_fusion and not current_platform.is_cuda_alike():
             logger.warning_once(
                 "QK Norm + RoPE fusion enabled but the current platform is not "
-                "CUDA. The fusion will be disabled."
+                "CUDA or ROCm. The fusion will be disabled."
             )
             self.enable_qk_norm_rope_fusion = False
 

From a9d18b51078d29f732e2811e91e8c002b1d1d0c4 Mon Sep 17 00:00:00 2001
From: Jee Jee Li <pandaleefree@gmail.com>
Date: Wed, 12 Nov 2025 21:02:06 +0800
Subject: [PATCH 359/976] [Bugfix] Fix gpt_oss packed_modules_mapping (#28536)

Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>
---
 vllm/model_executor/models/gpt_oss.py | 10 +++++-----
 1 file changed, 5 insertions(+), 5 deletions(-)

diff --git a/vllm/model_executor/models/gpt_oss.py b/vllm/model_executor/models/gpt_oss.py
index 291ac833f26ad..9cb481fc30c79 100644
--- a/vllm/model_executor/models/gpt_oss.py
+++ b/vllm/model_executor/models/gpt_oss.py
@@ -92,7 +92,7 @@ class OAIAttention(nn.Module):
         self.scaling = self.head_dim**-0.5
         self.rope_theta = config.rope_theta
 
-        self.qkv = QKVParallelLinear(
+        self.qkv_proj = QKVParallelLinear(
             hidden_size=self.hidden_size,
             head_size=self.head_dim,
             total_num_heads=self.num_attention_heads,
@@ -129,7 +129,7 @@ class OAIAttention(nn.Module):
     def forward(
         self, hidden_states: torch.Tensor, positions: torch.Tensor
     ) -> torch.Tensor:
-        qkv, _ = self.qkv(hidden_states)
+        qkv, _ = self.qkv_proj(hidden_states)
         q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
         q, k = self.rotary_emb(positions, q, k)
         v = v.contiguous()
@@ -606,9 +606,9 @@ class GptOssModel(nn.Module):
     def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
-            (".qkv", ".q_proj", "q"),
-            (".qkv", ".k_proj", "k"),
-            (".qkv", ".v_proj", "v"),
+            (".qkv_proj", ".q_proj", "q"),
+            (".qkv_proj", ".k_proj", "k"),
+            (".qkv_proj", ".v_proj", "v"),
         ]
 
         tp_rank = get_tensor_model_parallel_rank()

From 10138c92a5c78678dd7e47cfb9df638d5a6b5719 Mon Sep 17 00:00:00 2001
From: wangxiyuan <wangxiyuan1007@gmail.com>
Date: Wed, 12 Nov 2025 22:03:52 +0800
Subject: [PATCH 360/976] [V0 deprecation] Deprecate use_v1 parameter (#28112)

Signed-off-by: wangxiyuan <wangxiyuan1007@gmail.com>
---
 .../vllm_add_dummy_platform/dummy_platform.py |  1 -
 vllm/attention/selector.py                    | 41 ++++++++++++++-----
 vllm/platforms/cpu.py                         |  3 --
 vllm/platforms/cuda.py                        |  7 ----
 vllm/platforms/interface.py                   |  1 -
 vllm/platforms/rocm.py                        |  7 ----
 vllm/platforms/tpu.py                         |  3 --
 vllm/platforms/xpu.py                         |  3 +-
 8 files changed, 31 insertions(+), 35 deletions(-)

diff --git a/tests/plugins/vllm_add_dummy_platform/vllm_add_dummy_platform/dummy_platform.py b/tests/plugins/vllm_add_dummy_platform/vllm_add_dummy_platform/dummy_platform.py
index 0389e28746cbb..a80617a366cab 100644
--- a/tests/plugins/vllm_add_dummy_platform/vllm_add_dummy_platform/dummy_platform.py
+++ b/tests/plugins/vllm_add_dummy_platform/vllm_add_dummy_platform/dummy_platform.py
@@ -27,7 +27,6 @@ class DummyPlatform(Platform):
         dtype,
         kv_cache_dtype,
         block_size,
-        use_v1,
         use_mla,
         has_sink,
         use_sparse,
diff --git a/vllm/attention/selector.py b/vllm/attention/selector.py
index 6e5fa854d35f5..262cdf0e575b0 100644
--- a/vllm/attention/selector.py
+++ b/vllm/attention/selector.py
@@ -1,6 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
+import inspect
 import os
 from collections.abc import Generator
 from contextlib import contextmanager
@@ -141,17 +142,35 @@ def _cached_get_attn_backend(
     # get device-specific attn_backend
     from vllm.platforms import current_platform
 
-    attention_cls = current_platform.get_attn_backend_cls(
-        selected_backend,
-        head_size,
-        dtype,
-        kv_cache_dtype,
-        block_size,
-        True,
-        use_mla,
-        has_sink,
-        use_sparse,
-    )
+    sig = inspect.signature(current_platform.get_attn_backend_cls)
+    if "use_v1" in sig.parameters:
+        logger.warning_once(
+            "use_v1 parameter for get_attn_backend_cls is deprecated and will "
+            "be removed in v0.13.0 or v1.0.0, whichever is soonest. Please "
+            "remove it from your plugin code."
+        )
+        attention_cls = current_platform.get_attn_backend_cls(
+            selected_backend,
+            head_size,
+            dtype,
+            kv_cache_dtype,
+            block_size,
+            True,  # use_v1
+            use_mla,
+            has_sink,
+            use_sparse,
+        )
+    else:
+        attention_cls = current_platform.get_attn_backend_cls(
+            selected_backend,
+            head_size,
+            dtype,
+            kv_cache_dtype,
+            block_size,
+            use_mla,
+            has_sink,
+            use_sparse,
+        )
     if not attention_cls:
         raise ValueError(
             f"Invalid attention backend for {current_platform.device_name}"
diff --git a/vllm/platforms/cpu.py b/vllm/platforms/cpu.py
index 2f32496337101..8b3b8d4cb44fc 100644
--- a/vllm/platforms/cpu.py
+++ b/vllm/platforms/cpu.py
@@ -131,7 +131,6 @@ class CpuPlatform(Platform):
         dtype: torch.dtype,
         kv_cache_dtype: str | None,
         block_size: int,
-        use_v1: bool,
         use_mla: bool,
         has_sink: bool,
         use_sparse: bool,
@@ -144,8 +143,6 @@ class CpuPlatform(Platform):
             raise NotImplementedError("MLA is not supported on CPU.")
         if use_sparse:
             raise NotImplementedError("Sparse Attention is not supported on CPU.")
-        if not use_v1:
-            raise ValueError("CPU backend only supports V1.")
         return AttentionBackendEnum.CPU_ATTN.get_path()
 
     @classmethod
diff --git a/vllm/platforms/cuda.py b/vllm/platforms/cuda.py
index 22c6dde754d01..ebcc290a64cd7 100644
--- a/vllm/platforms/cuda.py
+++ b/vllm/platforms/cuda.py
@@ -336,17 +336,10 @@ class CudaPlatformBase(Platform):
         dtype: torch.dtype,
         kv_cache_dtype: "CacheDType | None",
         block_size: int | None,
-        use_v1: bool,
         use_mla: bool,
         has_sink: bool,
         use_sparse: bool,
     ) -> str:
-        if not use_v1:
-            raise RuntimeError(
-                "V0 attention backends have been removed. Set VLLM_USE_V1=1 "
-                "to select a supported backend."
-            )
-
         device_capability = cls.get_device_capability()
         assert device_capability is not None
 
diff --git a/vllm/platforms/interface.py b/vllm/platforms/interface.py
index 4969bcf116a49..d0eb232e14c6e 100644
--- a/vllm/platforms/interface.py
+++ b/vllm/platforms/interface.py
@@ -215,7 +215,6 @@ class Platform:
         dtype: torch.dtype,
         kv_cache_dtype: "CacheDType | None",
         block_size: int,
-        use_v1: bool,
         use_mla: bool,
         has_sink: bool,
         use_sparse: bool,
diff --git a/vllm/platforms/rocm.py b/vllm/platforms/rocm.py
index f5f6808258ec6..5fa8969b860ef 100644
--- a/vllm/platforms/rocm.py
+++ b/vllm/platforms/rocm.py
@@ -213,7 +213,6 @@ class RocmPlatform(Platform):
         dtype,
         kv_cache_dtype,
         block_size,
-        use_v1,
         use_mla,
         has_sink,
         use_sparse,
@@ -224,12 +223,6 @@ class RocmPlatform(Platform):
         if use_sparse:
             raise NotImplementedError("Sparse Attention is not supported on ROCm.")
 
-        if not use_v1:
-            raise RuntimeError(
-                "V0 attention backends have been removed. Set VLLM_USE_V1=1 "
-                "to select a supported backend."
-            )
-
         if use_mla:
             if selected_backend is None:
                 selected_backend = (
diff --git a/vllm/platforms/tpu.py b/vllm/platforms/tpu.py
index 575a9892c2118..4773fef6829d1 100644
--- a/vllm/platforms/tpu.py
+++ b/vllm/platforms/tpu.py
@@ -58,7 +58,6 @@ class TpuPlatform(Platform):
         dtype: torch.dtype,
         kv_cache_dtype: str | None,
         block_size: int,
-        use_v1: bool,
         use_mla: bool,
         has_sink,
         use_sparse,
@@ -70,8 +69,6 @@ class TpuPlatform(Platform):
         if selected_backend != AttentionBackendEnum.PALLAS:
             logger.info("Cannot use %s backend on TPU.", selected_backend)
 
-        if not use_v1:
-            raise ValueError("TPU backend only supports V1.")
         logger.info("Using Pallas V1 backend.")
         return AttentionBackendEnum.PALLAS.get_path()
 
diff --git a/vllm/platforms/xpu.py b/vllm/platforms/xpu.py
index 359eafc66445f..3a8e174f2b74e 100644
--- a/vllm/platforms/xpu.py
+++ b/vllm/platforms/xpu.py
@@ -48,7 +48,6 @@ class XPUPlatform(Platform):
         dtype: torch.dtype,
         kv_cache_dtype: str | None,
         block_size: int,
-        use_v1: bool,
         use_mla: bool,
         has_sink: bool,
         use_sparse,
@@ -76,7 +75,7 @@ class XPUPlatform(Platform):
         elif selected_backend:
             raise ValueError(
                 f"Invalid attention backend for {cls.device_name}, "
-                f"with use_v1: {use_v1} use_mla: {use_mla}"
+                f"with use_mla: {use_mla}"
             )
 
         logger.info("Using Flash Attention backend.")

From 54aecd9ed55d65d1f7be9d14e4e82751663438c8 Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Wed, 12 Nov 2025 14:13:41 +0000
Subject: [PATCH 361/976] Fix pre-commit (and XPU) on `main` (#28556)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 vllm/model_executor/layers/quantization/mxfp4.py | 2 +-
 vllm/platforms/xpu.py                            | 2 --
 2 files changed, 1 insertion(+), 3 deletions(-)

diff --git a/vllm/model_executor/layers/quantization/mxfp4.py b/vllm/model_executor/layers/quantization/mxfp4.py
index 7940b359a150c..0f69a18a1f3fd 100644
--- a/vllm/model_executor/layers/quantization/mxfp4.py
+++ b/vllm/model_executor/layers/quantization/mxfp4.py
@@ -1145,7 +1145,7 @@ class IpexMxfp4MoEMethod(Mxfp4MoEMethod):
     ) -> torch.Tensor:
         assert activation == "swigluoai", (
             "Only swiglu_oai activation is supported for IPEX MXFP4 MoE"
-        )  # noqa:
+        )
         hidden_size_pad = round_up(self.original_hidden_size, 128)
         x_pad = torch.nn.functional.pad(x, (0, hidden_size_pad - x.size(-1)))
         hidden_states = layer.ipex_fusion(
diff --git a/vllm/platforms/xpu.py b/vllm/platforms/xpu.py
index 3a8e174f2b74e..0309ae0fe9620 100644
--- a/vllm/platforms/xpu.py
+++ b/vllm/platforms/xpu.py
@@ -64,8 +64,6 @@ class XPUPlatform(Platform):
 
         if use_sparse:
             raise NotImplementedError("Sparse Attention is not supported on XPU.")
-        if not use_v1:
-            raise ValueError("XPU backend only supports V1.")
         if selected_backend == AttentionBackendEnum.TRITON_ATTN:
             logger.info_once("Using Triton backend.")
             return AttentionBackendEnum.TRITON_ATTN.get_path()

From f76e85c29984df2b0312efa5bfb80218689b9e17 Mon Sep 17 00:00:00 2001
From: Alexander Matveev <59768536+alexm-redhat@users.noreply.github.com>
Date: Wed, 12 Nov 2025 10:51:43 -0500
Subject: [PATCH 362/976] [Performance][Hopper] Avoid M dim padding to 4x for
 most cases (due to cuda graphs paddings) (#28492)

Signed-off-by: Alexander Matveev <amatveev@redhat.com>
---
 .../layers/quantization/utils/fp8_utils.py    | 31 ++++++++++++-------
 1 file changed, 19 insertions(+), 12 deletions(-)

diff --git a/vllm/model_executor/layers/quantization/utils/fp8_utils.py b/vllm/model_executor/layers/quantization/utils/fp8_utils.py
index 0c54cf4def005..4384857f9270d 100644
--- a/vllm/model_executor/layers/quantization/utils/fp8_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/fp8_utils.py
@@ -115,20 +115,27 @@ def _padded_cutlass(
         dim if dim % pad_multiple == 0 else dim + pad_multiple - (dim % pad_multiple)
     )
 
-    padded_shape = [padded, *qx.shape[1:]]
-    padded_qx = torch.zeros(padded_shape, device=qx.device, dtype=qx.dtype)
-    padded_qx[0 : qx.shape[0], ...].copy_(qx)
+    has_pad = padded > dim
 
-    padded_x_scale_shape = [*x_scale.shape[1:], padded]
-    padded_x_scale = torch.ones(
-        padded_x_scale_shape, device=x_scale.device, dtype=x_scale.dtype
-    ).permute(-1, -2)
-    padded_x_scale[0 : x_scale.shape[0], ...].copy_(x_scale)
+    if has_pad:
+        padded_shape = [padded, *qx.shape[1:]]
+        padded_qx = torch.zeros(padded_shape, device=qx.device, dtype=qx.dtype)
+        padded_qx[0 : qx.shape[0], ...].copy_(qx)
 
-    output = cutlass_scaled_mm(
-        padded_qx, weight, padded_x_scale, weight_scale, block_size, output_dtype
-    )
-    return output[0 : qx.shape[0], ...]
+        padded_x_scale_shape = [*x_scale.shape[1:], padded]
+        padded_x_scale = torch.ones(
+            padded_x_scale_shape, device=x_scale.device, dtype=x_scale.dtype
+        ).permute(-1, -2)
+        padded_x_scale[0 : x_scale.shape[0], ...].copy_(x_scale)
+
+        output = cutlass_scaled_mm(
+            padded_qx, weight, padded_x_scale, weight_scale, block_size, output_dtype
+        )
+        return output[0 : qx.shape[0], ...]
+    else:
+        return cutlass_scaled_mm(
+            qx, weight, x_scale, weight_scale, block_size, output_dtype
+        )
 
 
 def _padded_cutlass_fake(

From bc5bd45c7d1abbac4a63d97d383212c108e55308 Mon Sep 17 00:00:00 2001
From: Canlin Guo <canlinguosdu@gmail.com>
Date: Wed, 12 Nov 2025 23:56:47 +0800
Subject: [PATCH 363/976] [Refactor] Remove redundant TP gather/split in
 split_qkv in QwenVL (#28271)

Signed-off-by: gcanlin <canlinguosdu@gmail.com>
---
 vllm/model_executor/models/qwen2_5_vl.py | 30 ------------------------
 vllm/model_executor/models/qwen2_vl.py   | 13 +---------
 2 files changed, 1 insertion(+), 42 deletions(-)

diff --git a/vllm/model_executor/models/qwen2_5_vl.py b/vllm/model_executor/models/qwen2_5_vl.py
index 4662176a1cc51..b0557d58d6ddd 100644
--- a/vllm/model_executor/models/qwen2_5_vl.py
+++ b/vllm/model_executor/models/qwen2_5_vl.py
@@ -291,25 +291,6 @@ class Qwen2_5_VisionMLP(nn.Module):
         return x_down
 
 
-def all_gather_interleave(local_tensor, hidden_size: int, tp_size: int):
-    """All-gather the input tensor interleavely across model parallel group."""
-    import torch.distributed as dist
-
-    gathered_tensors = [torch.zeros_like(local_tensor) for _ in range(tp_size)]
-    dist.all_gather(
-        gathered_tensors, local_tensor, group=parallel_state.get_tp_group().device_group
-    )
-
-    gathered_tensors_split = [
-        torch.split(tensor, hidden_size // tp_size, -1) for tensor in gathered_tensors
-    ]
-    ordered_tensors = [
-        tensor for pair in zip(*gathered_tensors_split) for tensor in pair
-    ]
-    result_tensor = torch.cat(ordered_tensors, dim=-1)
-    return result_tensor
-
-
 class Qwen2_5_VisionAttention(nn.Module):
     def __init__(
         self,
@@ -383,21 +364,10 @@ class Qwen2_5_VisionAttention(nn.Module):
     def split_qkv(self, qkv: torch.Tensor) -> tuple[torch.Tensor, ...]:
         # [s, b, 3 * head * head_dim]
         seq_len, bs, _ = qkv.shape
-        if self.tp_size > 1:
-            qkv = all_gather_interleave(qkv, self.qkv.hidden_size, self.tp_size)
 
         # [s, b, 3 * head * head_dim] -> 3 * [s, b, head * head_dim]
         q, k, v = qkv.chunk(3, dim=2)
 
-        # 3 * [s, b, head * head_dim]
-        if self.tp_size > 1:
-            splitter = partial(
-                dist_utils.split_tensor_along_last_dim, num_partitions=self.tp_size
-            )
-            q = splitter(q)[self.tp_rank]
-            k = splitter(k)[self.tp_rank]
-            v = splitter(v)[self.tp_rank]
-
         # 3 * [s, b, head * head_dim] -> 3 * [s, b, head, head_dim]
         new_shape = (
             seq_len,
diff --git a/vllm/model_executor/models/qwen2_vl.py b/vllm/model_executor/models/qwen2_vl.py
index bbebe7c0f9289..ff04baee91d1e 100644
--- a/vllm/model_executor/models/qwen2_vl.py
+++ b/vllm/model_executor/models/qwen2_vl.py
@@ -50,7 +50,7 @@ from vllm.attention.layer import (
 )
 from vllm.config import VllmConfig
 from vllm.config.multimodal import BaseDummyOptions
-from vllm.distributed import parallel_state, tensor_model_parallel_all_gather
+from vllm.distributed import parallel_state
 from vllm.distributed import utils as dist_utils
 from vllm.logger import init_logger
 from vllm.model_executor.layers.activation import QuickGELU
@@ -396,21 +396,10 @@ class Qwen2VisionAttention(nn.Module):
     def split_qkv(self, qkv: torch.Tensor) -> tuple[torch.Tensor, ...]:
         # [s, b, 3 * head * head_dim]
         seq_len, bs, _ = qkv.shape
-        if self.tp_size > 1:
-            qkv = tensor_model_parallel_all_gather(qkv)
 
         # [s, b, 3 * head * head_dim] -> 3 * [s, b, head * head_dim]
         q, k, v = qkv.chunk(3, dim=2)
 
-        # 3 * [s, b, head * head_dim]
-        if self.tp_size > 1:
-            splitter = partial(
-                dist_utils.split_tensor_along_last_dim, num_partitions=self.tp_size
-            )
-            q = splitter(q)[self.tp_rank]
-            k = splitter(k)[self.tp_rank]
-            v = splitter(v)[self.tp_rank]
-
         # 3 * [s, b, head * head_dim] -> 3 * [s, b, head, head_dim]
         new_shape = (
             seq_len,

From 728a9eb70ee30b1ab355a98f7e19fb81a0a7b873 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Nicol=C3=B2=20Lucchesi?= <nlucches@redhat.com>
Date: Wed, 12 Nov 2025 17:05:44 +0100
Subject: [PATCH 364/976] [Misc] Refactor Attention kv transfer methods into
 decorator (#27816)

Signed-off-by: NickLucche <nlucches@redhat.com>
Signed-off-by: Mark McLoughlin <markmc@redhat.com>
Co-authored-by: Mark McLoughlin <markmc@redhat.com>
---
 vllm/attention/layer.py                   | 115 ++++++++--------------
 vllm/attention/utils/kv_transfer_utils.py |  60 +++++++++++
 2 files changed, 99 insertions(+), 76 deletions(-)
 create mode 100644 vllm/attention/utils/kv_transfer_utils.py

diff --git a/vllm/attention/layer.py b/vllm/attention/layer.py
index ec705126c710d..487bba76babf1 100644
--- a/vllm/attention/layer.py
+++ b/vllm/attention/layer.py
@@ -15,14 +15,10 @@ from vllm.attention.backends.abstract import AttentionBackend, MLAAttentionImpl
 from vllm.attention.backends.registry import AttentionBackendEnum
 from vllm.attention.selector import get_attn_backend
 from vllm.attention.utils.kv_sharing_utils import validate_kv_sharing_target
+from vllm.attention.utils.kv_transfer_utils import maybe_transfer_kv_layer
 from vllm.config import CacheConfig, get_current_vllm_config
 from vllm.config.multimodal import MultiModalConfig
 from vllm.config.vllm import VllmConfig
-from vllm.distributed.kv_transfer import (
-    get_kv_transfer_group,
-    has_kv_transfer_group,
-    is_v1_kv_transfer_group,
-)
 from vllm.forward_context import ForwardContext, get_forward_context
 from vllm.logger import init_logger
 from vllm.model_executor.layers.attention_layer_base import AttentionLayerBase
@@ -842,41 +838,6 @@ class MLAAttention(nn.Module, AttentionLayerBase):
         )
 
 
-def wait_for_kv_layer_from_connector(layer_name: str):
-    if not has_kv_transfer_group() or not is_v1_kv_transfer_group():
-        return
-
-    connector = get_kv_transfer_group()
-    if not connector.has_connector_metadata():
-        return
-
-    forward_context: ForwardContext = get_forward_context()
-    attn_metadata = forward_context.attn_metadata
-    if attn_metadata is None:
-        return
-    assert isinstance(attn_metadata, dict)
-    connector.wait_for_layer_load(layer_name)
-
-
-def maybe_save_kv_layer_to_connector(
-    layer_name: str,
-    kv_cache_layer: list[torch.Tensor],
-):
-    if not has_kv_transfer_group() or not is_v1_kv_transfer_group():
-        return
-
-    connector = get_kv_transfer_group()
-    if not connector.has_connector_metadata():
-        return
-
-    forward_context: ForwardContext = get_forward_context()
-    attn_metadata = forward_context.attn_metadata
-    if attn_metadata is None:
-        return
-    assert isinstance(attn_metadata, dict)
-    connector.save_kv_layer(layer_name, kv_cache_layer, attn_metadata[layer_name])
-
-
 def maybe_calc_kv_scales(
     query: torch.Tensor,
     key: torch.Tensor,
@@ -911,23 +872,46 @@ direct_register_custom_op(
 )
 
 
+def get_attention_context(
+    layer_name: str,
+) -> tuple[dict | object | None, Attention | MLAAttention, torch.Tensor]:
+    """Extract attention context for a given layer.
+
+    This helper function extracts the attention metadata, attention layer
+    instance, and KV cache tensor for a specific layer.
+
+    Args:
+        layer_name: The name/identifier of the attention layer.
+
+    Returns:
+        A tuple containing:
+        - attn_metadata: Attention metadata for this specific layer, or None if
+            no metadata available
+        - attn_layer: The attention layer instance (Attention or MLAAttention)
+        - kv_cache: The KV cache tensor for current virtual engine
+
+        Note: attn_metadata may be None, but attn_layer and kv_cache are always
+        extracted from the forward context.
+    """
+    forward_context: ForwardContext = get_forward_context()
+    attn_metadata = forward_context.attn_metadata
+    if isinstance(attn_metadata, dict):
+        attn_metadata = attn_metadata[layer_name]
+    attn_layer: Attention | MLAAttention = forward_context.no_compile_layers[layer_name]
+    kv_cache = attn_layer.kv_cache[forward_context.virtual_engine]
+    return attn_metadata, attn_layer, kv_cache
+
+
+@maybe_transfer_kv_layer
 def unified_attention(
     query: torch.Tensor,
     key: torch.Tensor,
     value: torch.Tensor,
     layer_name: str,
 ) -> torch.Tensor:
-    wait_for_kv_layer_from_connector(layer_name)
-
-    forward_context: ForwardContext = get_forward_context()
-    attn_metadata = forward_context.attn_metadata
-    if isinstance(attn_metadata, dict):
-        attn_metadata = attn_metadata[layer_name]
-    self = forward_context.no_compile_layers[layer_name]
-    kv_cache = self.kv_cache[forward_context.virtual_engine]
+    attn_metadata, self, kv_cache = get_attention_context(layer_name)
     output = self.impl.forward(self, query, key, value, kv_cache, attn_metadata)
 
-    maybe_save_kv_layer_to_connector(layer_name, kv_cache)
     return output
 
 
@@ -947,6 +931,7 @@ direct_register_custom_op(
 )
 
 
+@maybe_transfer_kv_layer
 def unified_attention_with_output(
     query: torch.Tensor,
     key: torch.Tensor,
@@ -956,13 +941,7 @@ def unified_attention_with_output(
     output_scale: torch.Tensor | None = None,
     output_block_scale: torch.Tensor | None = None,
 ) -> None:
-    wait_for_kv_layer_from_connector(layer_name)
-    forward_context: ForwardContext = get_forward_context()
-    attn_metadata = forward_context.attn_metadata
-    if isinstance(attn_metadata, dict):
-        attn_metadata = attn_metadata[layer_name]
-    self = forward_context.no_compile_layers[layer_name]
-    kv_cache = self.kv_cache[forward_context.virtual_engine]
+    attn_metadata, self, kv_cache = get_attention_context(layer_name)
     self.impl.forward(
         self,
         query,
@@ -975,8 +954,6 @@ def unified_attention_with_output(
         output_block_scale=output_block_scale,
     )
 
-    maybe_save_kv_layer_to_connector(layer_name, kv_cache)
-
 
 def unified_attention_with_output_fake(
     query: torch.Tensor,
@@ -998,23 +975,16 @@ direct_register_custom_op(
 )
 
 
+@maybe_transfer_kv_layer
 def unified_mla_attention(
     q: torch.Tensor,
     kv_c_normed: torch.Tensor,
     k_pe: torch.Tensor,
     layer_name: str,
 ) -> torch.Tensor:
-    wait_for_kv_layer_from_connector(layer_name)
-
-    forward_context: ForwardContext = get_forward_context()
-    attn_metadata = forward_context.attn_metadata
-    if isinstance(attn_metadata, dict):
-        attn_metadata = attn_metadata[layer_name]
-    self: MLAAttention = forward_context.no_compile_layers[layer_name]
-    kv_cache = self.kv_cache[forward_context.virtual_engine]
+    attn_metadata, self, kv_cache = get_attention_context(layer_name)
     output = self.impl.forward(self, q, kv_c_normed, k_pe, kv_cache, attn_metadata)
 
-    maybe_save_kv_layer_to_connector(layer_name, kv_cache)
     return output
 
 
@@ -1036,6 +1006,7 @@ direct_register_custom_op(
 )
 
 
+@maybe_transfer_kv_layer
 def unified_mla_attention_with_output(
     q: torch.Tensor,
     kv_c_normed: torch.Tensor,
@@ -1045,13 +1016,7 @@ def unified_mla_attention_with_output(
     output_scale: torch.Tensor | None = None,
     output_block_scale: torch.Tensor | None = None,
 ) -> None:
-    wait_for_kv_layer_from_connector(layer_name)
-    forward_context: ForwardContext = get_forward_context()
-    attn_metadata = forward_context.attn_metadata
-    if isinstance(attn_metadata, dict):
-        attn_metadata = attn_metadata[layer_name]
-    self: MLAAttention = forward_context.no_compile_layers[layer_name]
-    kv_cache = self.kv_cache[forward_context.virtual_engine]
+    attn_metadata, self, kv_cache = get_attention_context(layer_name)
     self.impl.forward(
         self,
         q,
@@ -1064,8 +1029,6 @@ def unified_mla_attention_with_output(
         output_block_scale=output_block_scale,
     )
 
-    maybe_save_kv_layer_to_connector(layer_name, kv_cache)
-
 
 def unified_mla_attention_with_output_fake(
     q: torch.Tensor,
diff --git a/vllm/attention/utils/kv_transfer_utils.py b/vllm/attention/utils/kv_transfer_utils.py
new file mode 100644
index 0000000000000..210be55feb2fa
--- /dev/null
+++ b/vllm/attention/utils/kv_transfer_utils.py
@@ -0,0 +1,60 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import inspect
+from collections.abc import Callable
+from functools import wraps
+
+from vllm.distributed.kv_transfer import (
+    get_kv_transfer_group,
+    has_kv_transfer_group,
+    is_v1_kv_transfer_group,
+)
+
+
+def maybe_transfer_kv_layer(func: Callable) -> Callable:
+    """Decorator that handles KV layer transfer prior and after execution of
+    an attention layer, if enabled. Otherwise, the wrapper is a no-op.
+
+    On entry: waits for the KV layer from the connector.
+    On exit: saves the KV layer to the connector.
+    """
+    # Import at runtime to avoid circular dependency
+    from vllm.attention.layer import get_attention_context
+
+    # Inspect the signature ONCE when the decorator is applied.
+    sig = inspect.signature(func)
+    param_names = list(sig.parameters.keys())
+
+    # Find the index of 'layer_name' parameter.
+    try:
+        layer_name_index = param_names.index("layer_name")
+    except ValueError as e:
+        raise TypeError(
+            f"Function {func.__name__} must have a 'layer_name' parameter"
+        ) from e
+
+    @wraps(func)
+    def wrapper(*args, **kwargs):
+        if not has_kv_transfer_group() or not is_v1_kv_transfer_group():
+            return func(*args, **kwargs)
+
+        layer_name: str = args[layer_name_index]
+
+        # Extract attention context (layer-specific metadata, layer, and kv_cache)
+        attn_metadata, attn_layer, kv_cache = get_attention_context(layer_name)
+        connector = get_kv_transfer_group()
+        if attn_metadata is None or not connector.has_connector_metadata():
+            return func(*args, **kwargs)
+
+        # Wait for KV layer on entry
+        connector.wait_for_layer_load(layer_name)
+
+        # Execute the function
+        result = func(*args, **kwargs)
+
+        # Save KV cache layer on exit
+        connector.save_kv_layer(layer_name, kv_cache, attn_metadata)
+
+        return result
+
+    return wrapper

From a742134cc5fbdec6c2af1ef383704aac5c445fbd Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Wed, 12 Nov 2025 16:10:28 +0000
Subject: [PATCH 365/976] Remove deprecated fields from `CompilationConfig`
 (#27593)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 .buildkite/test-pipeline.yaml                 |   1 +
 docs/design/cuda_graphs.md                    |  10 --
 .../compile/piecewise/test_multiple_graphs.py |   4 +-
 tests/compile/piecewise/test_simple.py        |   1 -
 tests/compile/piecewise/test_toy_llama.py     |   1 -
 tests/compile/test_config.py                  | 151 +++++++++++-------
 tests/compile/test_decorator.py               |   3 -
 .../multimodal/generation/test_qwen2_5_vl.py  |   2 -
 vllm/config/compilation.py                    |  95 +++--------
 vllm/config/vllm.py                           |  12 +-
 vllm/v1/attention/backends/mamba1_attn.py     |   2 +-
 vllm/v1/attention/backends/mamba2_attn.py     |   2 +-
 vllm/v1/attention/backends/short_conv_attn.py |   2 +-
 13 files changed, 122 insertions(+), 164 deletions(-)

diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index e816a20fe0642..2af0e46ea15f4 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -443,6 +443,7 @@ steps:
     - vllm/
     - tests/compile
   commands:
+    - pytest -v -s compile/test_config.py
     - pytest -v -s compile/test_pass_manager.py
     - pytest -v -s compile/test_fusion.py
     - pytest -v -s compile/test_fusion_attn.py
diff --git a/docs/design/cuda_graphs.md b/docs/design/cuda_graphs.md
index b56cf61e782c4..177a581587d02 100644
--- a/docs/design/cuda_graphs.md
+++ b/docs/design/cuda_graphs.md
@@ -218,16 +218,6 @@ outputs = model.generate(
 )
 ```
 
-### Migration from legacy flags
-
-Legacy `use_cudagraph` and `full_cuda_graph` are unified by `cudagraph_mode`:
-
-* `use_cudagraph=False` → `NONE`.
-* `use_cudagraph=True` and `full_cuda_graph=False` → `PIECEWISE`.
-* `full_cuda_graph=True` → directly set `FULL` and rely on the graceful fallback policy.
-
-As they are deprecated and will be removed in the next major or minor release, i.e., v0.11.0 or v1.0.0, we recommend using cudagraph_mode instead.
-
 ### Piecewise compilation and full graph custom passes (attention fusion, sequence parallelism)
 
 Unfortunately, some custom compile passes have to see the whole graph to be effective and hence aren't compatible with piecewise compilation. This includes `AttnFusionPass` and `SequenceParallelismPass`. As a short-term solution, we automatically disable piecewise compilation (by setting `splitting_ops=[]`) when attention fusion is enabled. We use CUDA Graph modes `FULL` or `FULL_DECODE_ONLY` (depending on backend support). However, this leads to another optimization incompatibility and confusing performance tradeoffs.
diff --git a/tests/compile/piecewise/test_multiple_graphs.py b/tests/compile/piecewise/test_multiple_graphs.py
index 700f57ffb0681..64d626bae483d 100644
--- a/tests/compile/piecewise/test_multiple_graphs.py
+++ b/tests/compile/piecewise/test_multiple_graphs.py
@@ -203,7 +203,7 @@ def test_multi_graph_piecewise_compile(use_inductor_graph_partition: bool):
     vllm_config = VllmConfig(
         compilation_config=CompilationConfig(
             mode=CompilationMode.VLLM_COMPILE,
-            use_cudagraph=True,
+            cudagraph_mode=CUDAGraphMode.PIECEWISE,
             splitting_ops=["silly::attention"],
             cudagraph_capture_sizes=[1, 2],
             use_inductor_graph_partition=use_inductor_graph_partition,
@@ -281,7 +281,7 @@ def test_multi_graph_piecewise_compile(use_inductor_graph_partition: bool):
     vllm_config = VllmConfig(
         compilation_config=CompilationConfig(
             mode=CompilationMode.VLLM_COMPILE,
-            use_cudagraph=False,
+            cudagraph_mode=CUDAGraphMode.NONE,
             splitting_ops=["silly::attention"],
             use_inductor_graph_partition=use_inductor_graph_partition,
         )
diff --git a/tests/compile/piecewise/test_simple.py b/tests/compile/piecewise/test_simple.py
index 228859532ef4e..a48af8a8952ad 100644
--- a/tests/compile/piecewise/test_simple.py
+++ b/tests/compile/piecewise/test_simple.py
@@ -62,7 +62,6 @@ def _run_simple_model(
     vllm_config = VllmConfig(
         compilation_config=CompilationConfig(
             mode=CompilationMode.VLLM_COMPILE,
-            use_cudagraph=True,
             use_inductor=use_inductor,
             splitting_ops=splitting_ops,
             use_inductor_graph_partition=use_inductor_graph_partition,
diff --git a/tests/compile/piecewise/test_toy_llama.py b/tests/compile/piecewise/test_toy_llama.py
index 6887673eb6a5b..92998ede16992 100644
--- a/tests/compile/piecewise/test_toy_llama.py
+++ b/tests/compile/piecewise/test_toy_llama.py
@@ -449,7 +449,6 @@ def benchmark():
         if piecewise:
             compilation_config = CompilationConfig(
                 mode=CompilationMode.VLLM_COMPILE,
-                use_cudagraph=True,
                 splitting_ops=["silly::attention"],
                 cudagraph_capture_sizes=cudagraph_sizes,
             )
diff --git a/tests/compile/test_config.py b/tests/compile/test_config.py
index 7455147f2b95a..bb66ef5529b12 100644
--- a/tests/compile/test_config.py
+++ b/tests/compile/test_config.py
@@ -2,8 +2,10 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 import copy
 from contextlib import nullcontext
+from unittest.mock import patch
 
 import pytest
+from pydantic import ValidationError
 
 from vllm.compilation.counter import compilation_counter
 from vllm.compilation.fix_functionalization import FixFunctionalizationPass
@@ -11,7 +13,7 @@ from vllm.config import CompilationConfig, CUDAGraphMode, VllmConfig
 from vllm.config.compilation import CompilationMode
 from vllm.engine.arg_utils import EngineArgs
 from vllm.platforms import current_platform
-from vllm.utils.torch_utils import _is_torch_equal_or_newer, is_torch_equal_or_newer
+from vllm.utils.torch_utils import _is_torch_equal_or_newer
 
 
 def test_version():
@@ -23,14 +25,6 @@ def test_version():
     assert not _is_torch_equal_or_newer("2.7.1", "2.8.0.dev")
 
 
-def test_use_cudagraphs_dynamic():
-    vllm_config = VllmConfig()
-    # Default V1 configuration now starts without cudagraphs enabled; the
-    # engine decides when to capture based on runtime settings instead of a
-    # blanket default.
-    assert vllm_config.compilation_config.use_cudagraph
-
-
 def test_copy_pass():
     vllm_config = VllmConfig()
     inductor_pass = FixFunctionalizationPass(vllm_config)
@@ -65,7 +59,7 @@ def test_VLLM_DISABLE_COMPILE_CACHE(vllm_runner, monkeypatch, val):
     monkeypatch.setenv("VLLM_DISABLE_COMPILE_CACHE", val)
 
     compilation_config = {
-        "use_cudagraph": False,  # speed things up a bit
+        "cudagraph_mode": CUDAGraphMode.NONE,  # speed things up a bit
     }
     with (
         compilation_counter.expect(
@@ -83,20 +77,31 @@ def test_VLLM_DISABLE_COMPILE_CACHE(vllm_runner, monkeypatch, val):
 
 # forked needed to workaround https://github.com/vllm-project/vllm/issues/21073
 @pytest.mark.forked
-@pytest.mark.parametrize("enabled", [True, False])
-def test_use_cudagraphs(vllm_runner, monkeypatch, enabled):
+@pytest.mark.parametrize(
+    "cudagraph_mode,num_cudagraph_captured",
+    [
+        (CUDAGraphMode.NONE, 0),
+        (CUDAGraphMode.FULL_DECODE_ONLY, 1),
+        (CUDAGraphMode.PIECEWISE, 13),
+        (CUDAGraphMode.FULL_AND_PIECEWISE, 14),
+    ],
+)
+def test_use_cudagraphs(
+    vllm_runner, monkeypatch, cudagraph_mode, num_cudagraph_captured
+):
     # Disable multiprocessing so that the counter is in the same process
     monkeypatch.setenv("VLLM_ENABLE_V1_MULTIPROCESSING", "0")
 
     compilation_config = {
         "cudagraph_capture_sizes": [100],
-        "use_cudagraph": enabled,
+        "cudagraph_mode": cudagraph_mode,
     }
+    num_gpu_runner_capture_triggers = 1 if cudagraph_mode != CUDAGraphMode.NONE else 0
     with (
         compilation_counter.expect(
             num_graphs_seen=1,
-            num_gpu_runner_capture_triggers=1 if enabled else 0,
-            num_cudagraph_captured=13 if enabled else 0,
+            num_gpu_runner_capture_triggers=num_gpu_runner_capture_triggers,
+            num_cudagraph_captured=num_cudagraph_captured,
         ),
         # loading the model causes compilation (if enabled) to happen
         vllm_runner(
@@ -168,19 +173,18 @@ def test_splitting_ops_dynamic():
     assert not config.compilation_config.splitting_ops_contain_attention()
 
     # When use_inductor_graph_partition=True
-    if is_torch_equal_or_newer("2.9.0.dev"):
-        config = VllmConfig(
-            compilation_config=CompilationConfig(
-                mode=CompilationMode.VLLM_COMPILE,
-                use_inductor_graph_partition=True,
-                splitting_ops=["vllm::unified_attention"],
-            )
+    config = VllmConfig(
+        compilation_config=CompilationConfig(
+            mode=CompilationMode.VLLM_COMPILE,
+            use_inductor_graph_partition=True,
+            splitting_ops=["vllm::unified_attention"],
         )
-        # with inductor partition we use splitting_ops directly for
-        # partition rules
-        assert config.compilation_config.splitting_ops == ["vllm::unified_attention"]
+    )
+    # with inductor partition we use splitting_ops directly for
+    # partition rules
+    assert config.compilation_config.splitting_ops == ["vllm::unified_attention"]
 
-    # When attn_fusion pass enabled, splitting_ops now default to attention ops.
+    # When attn_fusion pass enabled.
     config = VllmConfig(
         compilation_config=CompilationConfig(
             mode=CompilationMode.VLLM_COMPILE,
@@ -189,29 +193,41 @@ def test_splitting_ops_dynamic():
             cudagraph_mode=CUDAGraphMode.PIECEWISE,
         )
     )
-    # With the new simplified logic, attention fusion works with splitting_ops
-    assert config.compilation_config.splitting_ops_contain_attention()
-    # cudagraph mode remains PIECEWISE
-    assert config.compilation_config.cudagraph_mode == CUDAGraphMode.PIECEWISE
+    assert config.compilation_config.splitting_ops == []
+    # cudagraph mode also fall back to FULL
+    assert config.compilation_config.cudagraph_mode == CUDAGraphMode.FULL
 
-    # When both use_inductor_graph_partition and attn_fusion pass enabled.
-    if is_torch_equal_or_newer("2.9.0.dev"):
+    # splitting_ops can not contain attention ops when attn_fusion
+    # pass enabled.
+    with pytest.raises(ValidationError):
         config = VllmConfig(
             compilation_config=CompilationConfig(
                 mode=CompilationMode.VLLM_COMPILE,
-                use_inductor_graph_partition=True,
                 pass_config={"enable_attn_fusion": True, "enable_noop": True},
                 custom_ops=["+quant_fp8"],
                 cudagraph_mode=CUDAGraphMode.PIECEWISE,
+                # work around for accessing all attntion ops
+                splitting_ops=CompilationConfig()._attention_ops,
             )
         )
-        # With inductor graph partition, attn_fusion and splitting_ops
-        # work together. Default splitting_ops include attention ops.
-        assert config.compilation_config.splitting_ops_contain_attention()
-        # enable_attn_fusion is directly supported under
-        # use_inductor_graph_partition=True, and cudagraph_mode
-        # is unchanged.
-        assert config.compilation_config.cudagraph_mode == CUDAGraphMode.PIECEWISE
+
+    # When both use_inductor_graph_partition and attn_fusion pass enabled.
+    config = VllmConfig(
+        compilation_config=CompilationConfig(
+            mode=CompilationMode.VLLM_COMPILE,
+            use_inductor_graph_partition=True,
+            pass_config={"enable_attn_fusion": True, "enable_noop": True},
+            custom_ops=["+quant_fp8"],
+            cudagraph_mode=CUDAGraphMode.PIECEWISE,
+        )
+    )
+    # With inductor graph partition, attn_fusion and splitting_ops
+    # work together. Default splitting_ops include attention ops.
+    assert config.compilation_config.splitting_ops_contain_attention()
+    # enable_attn_fusion is directly supported under
+    # use_inductor_graph_partition=True, and cudagraph_mode
+    # is unchanged.
+    assert config.compilation_config.cudagraph_mode == CUDAGraphMode.PIECEWISE
 
 
 def test_should_split():
@@ -293,25 +309,36 @@ def test_should_split():
         "tp_size",
         "enable_sequence_parallelism",
         "max_num_batched_tokens",
-        "use_cudagraph",
+        "cudagraph_mode",
         "expected_max_size",
     ),
     [
-        (None, None, 1, False, 2048, True, 512),
-        ([1, 2, 4], 4, 1, False, 2048, True, 4),
-        ([1, 2, 4], 8, 1, False, 2048, True, RuntimeError),
-        ([1, 256], None, 1, False, 2048, 256),
-        ([], None, 1, False, 2048, False, 0),
-        (None, 0, 1, False, 2048, False, 0),
+        (None, None, 1, False, 2048, CUDAGraphMode.FULL_AND_PIECEWISE, 256),
+        ([1, 2, 4], 4, 1, False, 2048, CUDAGraphMode.FULL_AND_PIECEWISE, 4),
+        (
+            [1, 2, 4],
+            8,
+            1,
+            False,
+            2048,
+            CUDAGraphMode.FULL_AND_PIECEWISE,
+            ValidationError,
+        ),
+        ([1, 256], None, 1, False, 2048, CUDAGraphMode.FULL_AND_PIECEWISE, 256),
+        ([], None, 1, False, 2048, CUDAGraphMode.NONE, 0),
+        (None, 0, 1, False, 2048, CUDAGraphMode.NONE, 0),
         # truncated to nearest multiple of 8 or 16
-        (None, 257, 1, False, 2048, True, 256),
-        ([1, 2, 4, 15], None, 1, False, 2048, True, 15),  # max from list
-        ([1, 2, 4, 15], None, 2, True, 2048, True, 4),  # filtered out 15 due to SP
-        ([1, 2, 4, 15], None, 1, False, 8, True, 4),  # limited by the max_tokens
+        (None, 257, 1, False, 2048, CUDAGraphMode.FULL_AND_PIECEWISE, 256),
+        # max from list
+        ([1, 2, 4, 15], None, 1, False, 2048, CUDAGraphMode.FULL_AND_PIECEWISE, 15),
+        # filtered out 15 due to SP
+        ([1, 2, 4, 15], None, 2, True, 2048, CUDAGraphMode.FULL_AND_PIECEWISE, 4),
+        # limited by the max_tokens
+        ([1, 2, 4, 15], None, 1, False, 8, CUDAGraphMode.FULL_AND_PIECEWISE, 4),
         # the list should contain at least 1 element when use cudagraph
-        ([], None, 1, False, 2048, True, RuntimeError),
+        ([], None, 1, False, 2048, CUDAGraphMode.FULL_AND_PIECEWISE, ValidationError),
         # the max capturing size should be >= 1 when use cudagraph
-        (None, 0, 1, False, 2048, True, RuntimeError),
+        (None, 0, 1, False, 2048, CUDAGraphMode.FULL_AND_PIECEWISE, ValidationError),
     ],
 )
 def test_cudagraph_sizes_post_init(
@@ -320,15 +347,17 @@ def test_cudagraph_sizes_post_init(
     tp_size,
     enable_sequence_parallelism,
     max_num_batched_tokens,
-    use_cudagraph,
+    cudagraph_mode,
     expected_max_size,
 ):
     ctx = nullcontext()
-    if isinstance(expected_max_size, Exception):
+    if expected_max_size == ValidationError:
         ctx = pytest.raises(expected_max_size)
 
-    cudagraph_mode = CUDAGraphMode.PIECEWISE if use_cudagraph else CUDAGraphMode.NONE
-    with ctx:
+    with (
+        ctx,
+        patch("vllm.config.parallel.cuda_device_count_stateless", return_value=tp_size),
+    ):
         compilation_config = CompilationConfig(
             cudagraph_capture_sizes=cudagraph_capture_sizes,
             max_cudagraph_capture_size=max_cudagraph_capture_size,
@@ -342,11 +371,13 @@ def test_cudagraph_sizes_post_init(
         engine_args = EngineArgs(
             model="facebook/opt-125m",
             tensor_parallel_size=tp_size,
+            max_num_seqs=min(max_num_batched_tokens, 128),
             max_num_batched_tokens=max_num_batched_tokens,
             compilation_config=compilation_config,
         )
         vllm_config = engine_args.create_engine_config()
 
-    assert (
-        vllm_config.compilation_config.max_cudagraph_capture_size == expected_max_size
-    )
+        assert (
+            vllm_config.compilation_config.max_cudagraph_capture_size
+            == expected_max_size
+        )
diff --git a/tests/compile/test_decorator.py b/tests/compile/test_decorator.py
index c9d01f2317d29..1850cc8f1479a 100644
--- a/tests/compile/test_decorator.py
+++ b/tests/compile/test_decorator.py
@@ -80,7 +80,6 @@ def test_ignore_torch_compile_decorator(use_inductor_graph_partition, monkeypatc
     vllm_config = VllmConfig(
         compilation_config=CompilationConfig(
             mode=CompilationMode.VLLM_COMPILE,
-            use_cudagraph=True,
             splitting_ops=["silly::attention"],
             cudagraph_capture_sizes=[1, 2],
             use_inductor_graph_partition=use_inductor_graph_partition,
@@ -215,7 +214,6 @@ def test_conditional_compile_enable_if(use_inductor_graph_partition, monkeypatch
         ),
         compilation_config=CompilationConfig(
             mode=CompilationMode.VLLM_COMPILE,
-            use_cudagraph=True,
             splitting_ops=["silly::attention"],
             cudagraph_capture_sizes=[1, 2],
             use_inductor_graph_partition=use_inductor_graph_partition,
@@ -257,7 +255,6 @@ def test_conditional_compile_enable_if(use_inductor_graph_partition, monkeypatch
         ),
         compilation_config=CompilationConfig(
             mode=CompilationMode.VLLM_COMPILE,
-            use_cudagraph=True,
             splitting_ops=["silly::attention"],
             cudagraph_capture_sizes=[1, 2],
             use_inductor_graph_partition=use_inductor_graph_partition,
diff --git a/tests/models/multimodal/generation/test_qwen2_5_vl.py b/tests/models/multimodal/generation/test_qwen2_5_vl.py
index 1a7d854352ae6..6b009075abfa7 100644
--- a/tests/models/multimodal/generation/test_qwen2_5_vl.py
+++ b/tests/models/multimodal/generation/test_qwen2_5_vl.py
@@ -61,10 +61,8 @@ def test_qwen2_5_vl_evs_functionality(
         model,
         runner="generate",
         max_model_len=4000,
-        max_num_seqs=1,
         dtype=dtype,
         limit_mm_per_prompt={"video": 1},
-        tensor_parallel_size=1,
         video_pruning_rate=video_pruning_rate,
     ) as vllm_model:
         # Generate output - this should not crash
diff --git a/vllm/config/compilation.py b/vllm/config/compilation.py
index 68eb9420e70d0..b0d1bc2bab306 100644
--- a/vllm/config/compilation.py
+++ b/vllm/config/compilation.py
@@ -206,7 +206,6 @@ class CompilationConfig:
         - [`splitting_ops`][vllm.config.CompilationConfig.splitting_ops]
         - [`compile_mm_encoder`][vllm.config.CompilationConfig.compile_mm_encoder]
     - CudaGraph capture:
-        - [`use_cudagraph`][vllm.config.CompilationConfig.use_cudagraph]
         - [`cudagraph_mode`][vllm.config.CompilationConfig.cudagraph_mode]
         - [`cudagraph_capture_sizes`]
         [vllm.config.CompilationConfig.cudagraph_capture_sizes]
@@ -216,7 +215,6 @@ class CompilationConfig:
         [vllm.config.CompilationConfig.cudagraph_num_of_warmups]
         - [`cudagraph_copy_inputs`]
         [vllm.config.CompilationConfig.cudagraph_copy_inputs]
-        - [`full_cuda_graph`][vllm.config.CompilationConfig.full_cuda_graph]
     - Inductor compilation:
         - [`use_inductor`][vllm.config.CompilationConfig.use_inductor]
         - [`compile_sizes`][vllm.config.CompilationConfig.compile_sizes]
@@ -396,18 +394,6 @@ class CompilationConfig:
     Warning: This flag is new and subject to change in addition
     more modes may be added.
     """
-    use_cudagraph: bool = True
-    """Whether to use cudagraph inside compilation:
-
-    - False: cudagraph inside compilation is not used.\n
-    - True: cudagraph inside compilation is used. It requires
-        that all input buffers have fixed addresses, and all
-        splitting ops write their outputs to input buffers.
-
-    Warning: This flag is deprecated and will be removed in the next major or
-    minor release, i.e. v0.11.0 or v1.0.0. Please use cudagraph_mode=FULL_AND
-    _PIECEWISE instead.
-    """
     cudagraph_num_of_warmups: int = 0
     """Number of warmup runs for cudagraph.
     It means the first several runs will be treated as warmup runs.
@@ -425,15 +411,6 @@ class CompilationConfig:
     internally managed buffer. Default is False.
     Note that this flag is only effective when cudagraph_mode is PIECEWISE.
     """
-    full_cuda_graph: bool | None = False
-    """whether to use a full cuda graph for the entire forward pass rather than
-    splitting certain operations such as attention into subgraphs. Thus this
-    flag cannot be used together with splitting_ops. This may provide
-    performance benefits for smaller models.
-    Warning: This flag is deprecated and will be removed in the next major or
-    minor release, i.e. v0.11.0 or v1.0.0. Please use cudagraph_mode=
-    FULL_AND_PIECEWISE instead.
-    """
     cudagraph_specialize_lora: bool = True
     """Whether to create separate cuda graphs for cases with and without active
     LoRA adapters. When set to False, the LoRA-enabled cuda graph will be used
@@ -603,13 +580,19 @@ class CompilationConfig:
     @field_validator("cudagraph_mode", mode="before")
     @classmethod
     def validate_cudagraph_mode_before(cls, value: Any) -> Any:
-        """
-        enable parse the `cudagraph_mode` enum type from string
-        """
+        """Enable parsing of the `cudagraph_mode` enum type from string."""
         if isinstance(value, str):
             return CUDAGraphMode[value.upper()]
         return value
 
+    @field_validator("pass_config", mode="before")
+    @classmethod
+    def validate_pass_config_before(cls, value: Any) -> Any:
+        """Enable parsing of the `pass_config` field from a dictionary."""
+        if isinstance(value, dict):
+            return PassConfig(**value)
+        return value
+
     @field_validator("compile_cache_save_format")
     @classmethod
     def validate_compile_cache_save_format(cls, value: str) -> str:
@@ -666,9 +649,6 @@ class CompilationConfig:
                 func if isinstance(func, InductorPass) else CallableInductorPass(func)
             )
 
-        if isinstance(self.pass_config, dict):
-            self.pass_config = PassConfig(**self.pass_config)
-
         if self.pass_config.enable_qk_norm_rope_fusion:
             # TODO(zhuhaoran): support rope native forward match and remove this.
             # Linked issue: https://github.com/vllm-project/vllm/issues/28042
@@ -684,36 +664,6 @@ class CompilationConfig:
             self.inductor_compile_config["combo_kernels"] = True
             self.inductor_compile_config["benchmark_combo_kernel"] = True
 
-        # migrate the deprecated flags
-        if not self.use_cudagraph:
-            logger.warning(
-                "use_cudagraph is deprecated, use cudagraph_mode=NONE instead."
-            )
-            if (
-                self.cudagraph_mode is not None
-                and self.cudagraph_mode != CUDAGraphMode.NONE
-            ):
-                raise ValueError(
-                    "use_cudagraph and cudagraph_mode are mutually"
-                    " exclusive, prefer cudagraph_mode since "
-                    "use_cudagraph is deprecated."
-                )
-            self.cudagraph_mode = CUDAGraphMode.NONE
-        if self.full_cuda_graph:
-            logger.warning(
-                "full_cuda_graph is deprecated, use cudagraph_mode=FULL instead."
-            )
-            if (
-                self.cudagraph_mode is not None
-                and not self.cudagraph_mode.has_full_cudagraphs()
-            ):
-                raise ValueError(
-                    "full_cuda_graph and cudagraph_mode are "
-                    "mutually exclusive, prefer cudagraph_mode "
-                    "since full_cuda_graph is deprecated."
-                )
-            self.cudagraph_mode = CUDAGraphMode.FULL
-
         if self.use_inductor_graph_partition and not is_torch_equal_or_newer(
             "2.9.0.dev"
         ):
@@ -891,20 +841,19 @@ class CompilationConfig:
 
     def set_splitting_ops_for_attn_fusion(self):
         assert self.pass_config.enable_attn_fusion
-        # For dynamo-partition (non-inductor) attention fusion,
-        # set splitting_ops to empty to avoid splitting at attention ops
-        self.splitting_ops = []
-        if self.cudagraph_mode.has_piecewise_cudagraphs():
-            logger.warning_once(
-                "enable_attn_fusion is incompatible with piecewise "
-                "cudagraph when use_inductor_graph_partition is off. "
-                "In this case, splitting_ops will be set to empty "
-                "list, and cudagraph_mode will be set to FULL. "
-                "Please ensure you are using attention backends that "
-                "support cudagraph or set cudagraph_mode to NONE "
-                "explicitly if encountering any problems."
-            )
-            self.cudagraph_mode = CUDAGraphMode.FULL
+        if self.splitting_ops is None:
+            self.splitting_ops = []
+            if self.cudagraph_mode.has_piecewise_cudagraphs():
+                logger.warning_once(
+                    "enable_attn_fusion is incompatible with piecewise "
+                    "cudagraph when use_inductor_graph_partition is off. "
+                    "In this case, splitting_ops will be set to empty "
+                    "list, and cudagraph_mode will be set to FULL. "
+                    "Please ensure you are using attention backends that "
+                    "support cudagraph or set cudagraph_mode to NONE "
+                    "explicitly if encountering any problems."
+                )
+                self.cudagraph_mode = CUDAGraphMode.FULL
 
         assert not self.splitting_ops_contain_attention(), (
             "attention ops should not be in splitting_ops "
diff --git a/vllm/config/vllm.py b/vllm/config/vllm.py
index 60458b26944a5..f581267f73f7d 100644
--- a/vllm/config/vllm.py
+++ b/vllm/config/vllm.py
@@ -656,14 +656,6 @@ class VllmConfig:
                     f"cudagraph_mode={self.compilation_config.cudagraph_mode}"
                 )
 
-            # final migrate the deprecated flags
-            self.compilation_config.use_cudagraph = (
-                self.compilation_config.cudagraph_mode != CUDAGraphMode.NONE
-            )
-            self.compilation_config.full_cuda_graph = (
-                self.compilation_config.cudagraph_mode.has_full_cudagraphs()
-            )
-
         if self.parallel_config.enable_dbo:
             a2a_backend = self.parallel_config.all2all_backend
             assert a2a_backend in ["deepep_low_latency", "deepep_high_throughput"], (
@@ -853,7 +845,9 @@ class VllmConfig:
                 )
                 # de-duplicate the sizes provided by the config
                 dedup_sizes = list(set(self.compilation_config.cudagraph_capture_sizes))
-                cudagraph_capture_sizes = dedup_sizes
+                cudagraph_capture_sizes = [
+                    i for i in dedup_sizes if i <= max_num_tokens
+                ]
                 # sort to make sure the sizes are in ascending order
                 cudagraph_capture_sizes.sort()
             else:
diff --git a/vllm/v1/attention/backends/mamba1_attn.py b/vllm/v1/attention/backends/mamba1_attn.py
index 909af09be255a..8e949e53330c1 100644
--- a/vllm/v1/attention/backends/mamba1_attn.py
+++ b/vllm/v1/attention/backends/mamba1_attn.py
@@ -123,7 +123,7 @@ class Mamba1AttentionMetadataBuilder(
         elif (
             num_decodes > 0
             and num_decodes <= self.decode_cudagraph_max_bs
-            and self.compilation_config.full_cuda_graph
+            and self.compilation_config.cudagraph_mode.has_full_cudagraphs()
         ):
             padded_decodes = self.vllm_config.pad_for_cudagraph(num_decodes)
             self.state_indices_tensor[:num_decodes].copy_(
diff --git a/vllm/v1/attention/backends/mamba2_attn.py b/vllm/v1/attention/backends/mamba2_attn.py
index 4bc1057333a50..888734e5d2b6b 100644
--- a/vllm/v1/attention/backends/mamba2_attn.py
+++ b/vllm/v1/attention/backends/mamba2_attn.py
@@ -302,7 +302,7 @@ class Mamba2AttentionMetadataBuilder(
 
         elif (
             num_decodes <= self.decode_cudagraph_max_bs
-            and self.compilation_config.full_cuda_graph
+            and self.compilation_config.cudagraph_mode.has_full_cudagraphs()
         ):
             # Pad state tensor for CUDA graph
             num_input_tokens = self.vllm_config.pad_for_cudagraph(num_decodes)
diff --git a/vllm/v1/attention/backends/short_conv_attn.py b/vllm/v1/attention/backends/short_conv_attn.py
index 22ad1054b35e1..de0cb73db0917 100644
--- a/vllm/v1/attention/backends/short_conv_attn.py
+++ b/vllm/v1/attention/backends/short_conv_attn.py
@@ -81,7 +81,7 @@ class ShortConvAttentionMetadataBuilder(
         elif (
             num_decodes > 0
             and num_decodes <= self.decode_cudagraph_max_bs
-            and self.compilation_config.full_cuda_graph
+            and self.compilation_config.cudagraph_mode.has_full_cudagraphs()
         ):
             num_input_tokens = self.vllm_config.pad_for_cudagraph(num_decodes)
             self.state_indices_tensor[:num_decodes].copy_(

From 304419576ae9dc2ecaa28c4506d3870f7c68bd85 Mon Sep 17 00:00:00 2001
From: Benjamin Chislett <bchislett@nvidia.com>
Date: Wed, 12 Nov 2025 11:56:40 -0500
Subject: [PATCH 366/976] [Perf] Refactor cudagraph_support to enable full CUDA
 graphs for spec decoding with FlashInfer (#28479)

Signed-off-by: Benjamin Chislett <bchislett@nvidia.com>
---
 docs/design/cuda_graphs.md                    |  3 +-
 .../layers/chunked_local_attention.py         |  2 +-
 vllm/v1/attention/backends/flash_attn.py      |  2 +-
 vllm/v1/attention/backends/flashinfer.py      | 38 +++++++++++--------
 vllm/v1/attention/backends/gdn_attn.py        |  2 +-
 vllm/v1/attention/backends/mamba_attn.py      |  2 +-
 vllm/v1/attention/backends/mla/cutlass_mla.py |  2 +-
 .../attention/backends/mla/flashattn_mla.py   |  2 +-
 .../attention/backends/mla/flashinfer_mla.py  |  2 +-
 vllm/v1/attention/backends/mla/flashmla.py    |  2 +-
 .../attention/backends/mla/flashmla_sparse.py |  2 +-
 vllm/v1/attention/backends/mla/indexer.py     |  2 +-
 .../attention/backends/mla/rocm_aiter_mla.py  |  2 +-
 vllm/v1/attention/backends/rocm_aiter_fa.py   |  2 +-
 vllm/v1/attention/backends/rocm_attn.py       |  2 +-
 vllm/v1/attention/backends/triton_attn.py     |  2 +-
 vllm/v1/attention/backends/utils.py           | 12 +++++-
 vllm/v1/worker/gpu_model_runner.py            | 31 ++++++++++-----
 18 files changed, 71 insertions(+), 41 deletions(-)

diff --git a/docs/design/cuda_graphs.md b/docs/design/cuda_graphs.md
index 177a581587d02..aac7b76eea265 100644
--- a/docs/design/cuda_graphs.md
+++ b/docs/design/cuda_graphs.md
@@ -177,8 +177,9 @@ The following table lists backends that support full CUDA Graphs at the time of
 | FlashAttention v3 | `ALWAYS` | has unified routine for both batches, so `FULL` mode is good |
 | Triton Attention | `ALWAYS` | prefer `FULL_AND_PIECEWISE` since it has different kernels for prefill/mixed and pure decode batches |
 | AITER FlashAttention | `UNIFORM_BATCH`| |
-| FlashInfer | `UNIFORM_SINGLE_TOKEN_DECODE` | |
+| FlashInfer | `UNIFORM_SINGLE_TOKEN_DECODE` | Will be set to `UNIFORM_BATCH` when using TRTLLM attention on Blackwell |
 | FlashMLA | `UNIFORM_BATCH` | |
+| FlashInferMLA | `UNIFORM_BATCH` | |
 | AITER MLA | `UNIFORM_SINGLE_TOKEN_DECODE` | |
 | CUTLASS MLA | `UNIFORM_SINGLE_TOKEN_DECODE` | |
 | Mamba attention| `UNIFORM_SINGLE_TOKEN_DECODE` | |
diff --git a/vllm/attention/layers/chunked_local_attention.py b/vllm/attention/layers/chunked_local_attention.py
index 5532ce80d7f15..f144e8435b6cf 100644
--- a/vllm/attention/layers/chunked_local_attention.py
+++ b/vllm/attention/layers/chunked_local_attention.py
@@ -32,7 +32,7 @@ def create_chunked_local_attention_backend(
     underlying_builder = underlying_attn_backend.get_builder_cls()
 
     class ChunkedLocalAttentionBuilder(underlying_builder):  # type: ignore
-        cudagraph_support: ClassVar[AttentionCGSupport] = AttentionCGSupport.NEVER
+        _cudagraph_support: ClassVar[AttentionCGSupport] = AttentionCGSupport.NEVER
 
         def build(
             self,
diff --git a/vllm/v1/attention/backends/flash_attn.py b/vllm/v1/attention/backends/flash_attn.py
index 9cec623814c9f..d9bd52d8f9800 100755
--- a/vllm/v1/attention/backends/flash_attn.py
+++ b/vllm/v1/attention/backends/flash_attn.py
@@ -207,7 +207,7 @@ class FlashAttentionMetadataBuilder(AttentionMetadataBuilder[FlashAttentionMetad
     # to FULL_AND_PIECEWISE.
     # TODO(luka, lucas): audit FA2 as part of:
     #  https://github.com/vllm-project/vllm/issues/22945
-    cudagraph_support = (
+    _cudagraph_support = (
         AttentionCGSupport.ALWAYS
         if get_flash_attn_version() == 3
         else AttentionCGSupport.UNIFORM_BATCH
diff --git a/vllm/v1/attention/backends/flashinfer.py b/vllm/v1/attention/backends/flashinfer.py
index 18bbc3cc3c12b..1ce8e6f3d89f8 100755
--- a/vllm/v1/attention/backends/flashinfer.py
+++ b/vllm/v1/attention/backends/flashinfer.py
@@ -15,6 +15,7 @@ from flashinfer import (
 from flashinfer.decode import _get_range_buf, trtllm_batch_decode_with_kv_cache
 from flashinfer.prefill import trtllm_batch_context_with_kv_cache
 from flashinfer.utils import FP4Tensor
+from typing_extensions import override
 
 from vllm import envs
 from vllm.attention.backends.abstract import (
@@ -274,10 +275,6 @@ class FlashInferMetadata:
 
 
 class FlashInferMetadataBuilder(AttentionMetadataBuilder[FlashInferMetadata]):
-    cudagraph_support: ClassVar[AttentionCGSupport] = (
-        AttentionCGSupport.UNIFORM_SINGLE_TOKEN_DECODE
-    )
-
     reorder_batch_threshold: int = 1
 
     def __init__(
@@ -355,6 +352,9 @@ class FlashInferMetadataBuilder(AttentionMetadataBuilder[FlashInferMetadata]):
         else:
             self.q_data_type = self.model_config.dtype
 
+        # Prefer TRTLLM attention for decoding in all cases.
+        # This allows us to use AttentionCGSupport.UNIFORM_BATCH mode.
+        self.use_trtllm_decode_attention = can_use_trtllm
         self._init_reorder_batch_threshold(1, supports_spec_as_decode=can_use_trtllm)
 
         self._cascade_wrapper = None  # Wrapper for cascade attention
@@ -412,6 +412,24 @@ class FlashInferMetadataBuilder(AttentionMetadataBuilder[FlashInferMetadata]):
                 "passing --block-size 32 or --block-size 64."
             )
 
+    @classmethod
+    @override
+    def get_cudagraph_support(
+        cls: type["FlashInferMetadataBuilder"],
+        vllm_config: VllmConfig,
+        kv_cache_spec: AttentionSpec,
+    ) -> AttentionCGSupport:
+        has_trtllm_support = can_use_trtllm_attention(
+            num_qo_heads=vllm_config.model_config.get_num_attention_heads(
+                vllm_config.parallel_config
+            ),
+            num_kv_heads=kv_cache_spec.num_kv_heads,
+        )
+        if has_trtllm_support:
+            return AttentionCGSupport.UNIFORM_BATCH
+        else:
+            return AttentionCGSupport.UNIFORM_SINGLE_TOKEN_DECODE
+
     def _get_workspace_buffer(self):
         if self._workspace_buffer is None:
             buffer_size = envs.VLLM_FLASHINFER_WORKSPACE_BUFFER_SIZE
@@ -573,17 +591,7 @@ class FlashInferMetadataBuilder(AttentionMetadataBuilder[FlashInferMetadata]):
             has_sinks=self.has_sinks,
             has_spec=uses_spec_reorder,
         )
-        decode_use_trtllm = use_trtllm_attention(
-            self.num_qo_heads,
-            self.num_kv_heads,
-            num_decode_tokens,
-            max_seq_len,
-            self.cache_dtype,
-            self.q_data_type,
-            is_prefill=False,
-            has_sinks=self.has_sinks,
-            has_spec=uses_spec_reorder,
-        )
+        decode_use_trtllm = self.use_trtllm_decode_attention
 
         if not (prefill_use_trtllm and decode_use_trtllm):
             if self.has_sinks:
diff --git a/vllm/v1/attention/backends/gdn_attn.py b/vllm/v1/attention/backends/gdn_attn.py
index 2ca19646911ec..69b5a6fb48564 100644
--- a/vllm/v1/attention/backends/gdn_attn.py
+++ b/vllm/v1/attention/backends/gdn_attn.py
@@ -59,7 +59,7 @@ class GDNAttentionMetadata:
 
 
 class GDNAttentionMetadataBuilder(AttentionMetadataBuilder[GDNAttentionMetadata]):
-    cudagraph_support = AttentionCGSupport.UNIFORM_BATCH
+    _cudagraph_support = AttentionCGSupport.UNIFORM_BATCH
 
     reorder_batch_threshold: int = 1
 
diff --git a/vllm/v1/attention/backends/mamba_attn.py b/vllm/v1/attention/backends/mamba_attn.py
index 49d7d6c31b9a0..0d875565fc99a 100644
--- a/vllm/v1/attention/backends/mamba_attn.py
+++ b/vllm/v1/attention/backends/mamba_attn.py
@@ -20,7 +20,7 @@ M = TypeVar("M")
 
 class BaseMambaAttentionMetadataBuilder(AttentionMetadataBuilder[M], abc.ABC):
     reorder_batch_threshold: int = 1
-    cudagraph_support: ClassVar[AttentionCGSupport] = (
+    _cudagraph_support: ClassVar[AttentionCGSupport] = (
         AttentionCGSupport.UNIFORM_SINGLE_TOKEN_DECODE
     )
 
diff --git a/vllm/v1/attention/backends/mla/cutlass_mla.py b/vllm/v1/attention/backends/mla/cutlass_mla.py
index 0a10ce74cd1d4..60cb5022a55eb 100644
--- a/vllm/v1/attention/backends/mla/cutlass_mla.py
+++ b/vllm/v1/attention/backends/mla/cutlass_mla.py
@@ -29,7 +29,7 @@ logger = init_logger(__name__)
 
 class CutlassMLAMetadataBuilder(MLACommonMetadataBuilder[MLACommonMetadata]):
     # enable full CUDA Graph support for decode-only capture
-    cudagraph_support: ClassVar[AttentionCGSupport] = (
+    _cudagraph_support: ClassVar[AttentionCGSupport] = (
         AttentionCGSupport.UNIFORM_SINGLE_TOKEN_DECODE
     )
 
diff --git a/vllm/v1/attention/backends/mla/flashattn_mla.py b/vllm/v1/attention/backends/mla/flashattn_mla.py
index 5662acbe32c29..7794e89cc0a94 100644
--- a/vllm/v1/attention/backends/mla/flashattn_mla.py
+++ b/vllm/v1/attention/backends/mla/flashattn_mla.py
@@ -92,7 +92,7 @@ class FlashAttnMLAMetadata(MLACommonMetadata[FlashAttnMLADecodeMetadata]):
 
 
 class FlashAttnMLAMetadataBuilder(MLACommonMetadataBuilder[FlashAttnMLAMetadata]):
-    cudagraph_support: ClassVar[AttentionCGSupport] = AttentionCGSupport.UNIFORM_BATCH
+    _cudagraph_support: ClassVar[AttentionCGSupport] = AttentionCGSupport.UNIFORM_BATCH
     query_len_support: ClassVar[QueryLenSupport] = QueryLenSupport.VARLEN
     reorder_batch_threshold: int = 512  # process small prefills with decode pathway
 
diff --git a/vllm/v1/attention/backends/mla/flashinfer_mla.py b/vllm/v1/attention/backends/mla/flashinfer_mla.py
index b0f514ba44513..52bb19e039e45 100644
--- a/vllm/v1/attention/backends/mla/flashinfer_mla.py
+++ b/vllm/v1/attention/backends/mla/flashinfer_mla.py
@@ -29,7 +29,7 @@ FLASHINFER_MLA_WORKSPACE_BUFFER_SIZE = 128 * 1024 * 1024
 
 
 class FlashInferMLAMetadataBuilder(MLACommonMetadataBuilder[MLACommonMetadata]):
-    cudagraph_support: ClassVar[AttentionCGSupport] = AttentionCGSupport.UNIFORM_BATCH
+    _cudagraph_support: ClassVar[AttentionCGSupport] = AttentionCGSupport.UNIFORM_BATCH
     query_len_support: ClassVar[QueryLenSupport] = QueryLenSupport.UNIFORM
 
 
diff --git a/vllm/v1/attention/backends/mla/flashmla.py b/vllm/v1/attention/backends/mla/flashmla.py
index 8f0364cd58def..3aab1f9bb7fb6 100644
--- a/vllm/v1/attention/backends/mla/flashmla.py
+++ b/vllm/v1/attention/backends/mla/flashmla.py
@@ -96,7 +96,7 @@ class FlashMLAMetadata(MLACommonMetadata[FlashMLADecodeMetadata]):
 
 
 class FlashMLAMetadataBuilder(MLACommonMetadataBuilder[FlashMLAMetadata]):
-    cudagraph_support: ClassVar[AttentionCGSupport] = AttentionCGSupport.UNIFORM_BATCH
+    _cudagraph_support: ClassVar[AttentionCGSupport] = AttentionCGSupport.UNIFORM_BATCH
     query_len_support: ClassVar[QueryLenSupport] = QueryLenSupport.UNIFORM
     reorder_batch_threshold: int = 128  # process small prefills with decode pathway
     # ^ TODO(matt): tune this
diff --git a/vllm/v1/attention/backends/mla/flashmla_sparse.py b/vllm/v1/attention/backends/mla/flashmla_sparse.py
index 4794312eb96ef..5fe9c69d35007 100644
--- a/vllm/v1/attention/backends/mla/flashmla_sparse.py
+++ b/vllm/v1/attention/backends/mla/flashmla_sparse.py
@@ -248,7 +248,7 @@ def triton_convert_req_index_to_global_index(
 
 @dataclass
 class FlashMLASparseMetadataBuilder(AttentionMetadataBuilder[FlashMLASparseMetadata]):
-    cudagraph_support: ClassVar[AttentionCGSupport] = AttentionCGSupport.UNIFORM_BATCH
+    _cudagraph_support: ClassVar[AttentionCGSupport] = AttentionCGSupport.UNIFORM_BATCH
 
     def __init__(
         self,
diff --git a/vllm/v1/attention/backends/mla/indexer.py b/vllm/v1/attention/backends/mla/indexer.py
index 4f071145625fc..37aa5dad89a0e 100644
--- a/vllm/v1/attention/backends/mla/indexer.py
+++ b/vllm/v1/attention/backends/mla/indexer.py
@@ -206,7 +206,7 @@ def split_prefill_chunks(
 
 
 class DeepseekV32IndexerMetadataBuilder(AttentionMetadataBuilder):
-    cudagraph_support: ClassVar[AttentionCGSupport] = (
+    _cudagraph_support: ClassVar[AttentionCGSupport] = (
         AttentionCGSupport.UNIFORM_SINGLE_TOKEN_DECODE
     )
 
diff --git a/vllm/v1/attention/backends/mla/rocm_aiter_mla.py b/vllm/v1/attention/backends/mla/rocm_aiter_mla.py
index 5757aeadba056..e1864526f02cc 100644
--- a/vllm/v1/attention/backends/mla/rocm_aiter_mla.py
+++ b/vllm/v1/attention/backends/mla/rocm_aiter_mla.py
@@ -55,7 +55,7 @@ class AiterMLAMetadata(MLACommonMetadata[AiterMLADecodeMetadata]):
 class AiterMLAMetadataBuilder(MLACommonMetadataBuilder[AiterMLAMetadata]):
     # TODO(luka, lucas): audit this as part of:
     #  https://github.com/vllm-project/vllm/issues/22945
-    cudagraph_support: ClassVar[AttentionCGSupport] = (
+    _cudagraph_support: ClassVar[AttentionCGSupport] = (
         AttentionCGSupport.UNIFORM_SINGLE_TOKEN_DECODE
     )
 
diff --git a/vllm/v1/attention/backends/rocm_aiter_fa.py b/vllm/v1/attention/backends/rocm_aiter_fa.py
index 81991244f5d90..4888ae51d1d3e 100644
--- a/vllm/v1/attention/backends/rocm_aiter_fa.py
+++ b/vllm/v1/attention/backends/rocm_aiter_fa.py
@@ -251,7 +251,7 @@ class AiterFlashAttentionMetadata:
 class AiterFlashAttentionMetadataBuilder(
     AttentionMetadataBuilder[AiterFlashAttentionMetadata]
 ):
-    cudagraph_support = AttentionCGSupport.UNIFORM_SINGLE_TOKEN_DECODE
+    _cudagraph_support = AttentionCGSupport.UNIFORM_SINGLE_TOKEN_DECODE
     reorder_batch_threshold: int = 1
 
     def __init__(
diff --git a/vllm/v1/attention/backends/rocm_attn.py b/vllm/v1/attention/backends/rocm_attn.py
index 1d2c70f65d0f5..6dfdfc19ccba1 100644
--- a/vllm/v1/attention/backends/rocm_attn.py
+++ b/vllm/v1/attention/backends/rocm_attn.py
@@ -63,7 +63,7 @@ class RocmAttentionMetadata:
 
 
 class RocmAttentionMetadataBuilder(AttentionMetadataBuilder[RocmAttentionMetadata]):
-    cudagraph_support: ClassVar[AttentionCGSupport] = AttentionCGSupport.ALWAYS
+    _cudagraph_support: ClassVar[AttentionCGSupport] = AttentionCGSupport.ALWAYS
 
     def __init__(
         self,
diff --git a/vllm/v1/attention/backends/triton_attn.py b/vllm/v1/attention/backends/triton_attn.py
index 37c0ae61e65d0..889c79db18ef5 100644
--- a/vllm/v1/attention/backends/triton_attn.py
+++ b/vllm/v1/attention/backends/triton_attn.py
@@ -67,7 +67,7 @@ class TritonAttentionMetadata:
 
 
 class TritonAttentionMetadataBuilder(AttentionMetadataBuilder[TritonAttentionMetadata]):
-    cudagraph_support: ClassVar[AttentionCGSupport] = AttentionCGSupport.ALWAYS
+    _cudagraph_support: ClassVar[AttentionCGSupport] = AttentionCGSupport.ALWAYS
 
     def __init__(
         self,
diff --git a/vllm/v1/attention/backends/utils.py b/vllm/v1/attention/backends/utils.py
index 751c5c15a4c98..fd37a665cf05f 100644
--- a/vllm/v1/attention/backends/utils.py
+++ b/vllm/v1/attention/backends/utils.py
@@ -244,7 +244,8 @@ class AttentionCGSupport(enum.Enum):
 
 class AttentionMetadataBuilder(abc.ABC, Generic[M]):
     # Does this backend/builder support CUDA Graphs for attention (default: no).
-    cudagraph_support: ClassVar[AttentionCGSupport] = AttentionCGSupport.NEVER
+    # Do not access directly. Call get_cudagraph_support() instead.
+    _cudagraph_support: ClassVar[AttentionCGSupport] = AttentionCGSupport.NEVER
     # Does this backend/builder reorder the batch?
     # If not, set this to None. Otherwise set it to the query
     # length that will be pulled into the front of the batch.
@@ -263,6 +264,15 @@ class AttentionMetadataBuilder(abc.ABC, Generic[M]):
         self.vllm_config = vllm_config
         self.device = device
 
+    @classmethod
+    def get_cudagraph_support(
+        cls: type["AttentionMetadataBuilder"],
+        vllm_config: VllmConfig,
+        kv_cache_spec: AttentionSpec,
+    ) -> AttentionCGSupport:
+        """Get the cudagraph support level of this builder class."""
+        return cls._cudagraph_support
+
     def _init_reorder_batch_threshold(
         self,
         reorder_batch_threshold: int | None = 1,
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index b14b6b1c3f52e..987d451fd6baf 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -4167,14 +4167,16 @@ class GPUModelRunner(
             return attn_groups
 
         attention_backend_maps = []
-        attention_backend_set: set[type[AttentionBackend]] = set()
+        attention_backend_list = []
         for kv_cache_group_spec in kv_cache_config.kv_cache_groups:
             attn_backends = get_attn_backends_for_group(kv_cache_group_spec)
             attention_backend_maps.append(attn_backends[0])
-            attention_backend_set.update(attn_backends[1])
+            attention_backend_list.append(attn_backends[1])
 
         # Resolve cudagraph_mode before actually initialize metadata_builders
-        self._check_and_update_cudagraph_mode(attention_backend_set)
+        self._check_and_update_cudagraph_mode(
+            attention_backend_list, kv_cache_config.kv_cache_groups
+        )
 
         for i, attn_backend_map in enumerate(attention_backend_maps):
             self.attn_groups.append(create_attn_groups(attn_backend_map, i))
@@ -4203,22 +4205,31 @@ class GPUModelRunner(
         self.calculate_reorder_batch_threshold()
 
     def _check_and_update_cudagraph_mode(
-        self, attention_backends: set[type[AttentionBackend]]
+        self,
+        attention_backends: list[set[type[AttentionBackend]]],
+        kv_cache_groups: list[KVCacheGroupSpec],
     ) -> None:
         """
         Resolve the cudagraph_mode when there are multiple attention
-        backends with potential conflicting CUDA graph support.
+        groups with potential conflicting CUDA graph support.
         Then initialize the cudagraph_dispatcher based on the resolved
         cudagraph_mode.
         """
         min_cg_support = AttentionCGSupport.ALWAYS
         min_cg_backend_name = None
 
-        for attn_backend in attention_backends:
-            builder_cls = attn_backend.get_builder_cls()
-            if builder_cls.cudagraph_support.value < min_cg_support.value:
-                min_cg_support = builder_cls.cudagraph_support
-                min_cg_backend_name = attn_backend.__name__
+        for attn_backend_set, kv_cache_group in zip(
+            attention_backends, kv_cache_groups
+        ):
+            for attn_backend in attn_backend_set:
+                builder_cls = attn_backend.get_builder_cls()
+
+                cg_support = builder_cls.get_cudagraph_support(
+                    self.vllm_config, kv_cache_group.kv_cache_spec
+                )
+                if cg_support.value < min_cg_support.value:
+                    min_cg_support = cg_support
+                    min_cg_backend_name = attn_backend.__name__
         # Flexible resolve the cudagraph mode
         cudagraph_mode = self.compilation_config.cudagraph_mode
         # check cudagraph for mixed batch is supported

From bac904565f170ba198c2398a0f627b38f9cb8e18 Mon Sep 17 00:00:00 2001
From: alberto <aperdomo@redhat.com>
Date: Wed, 12 Nov 2025 17:51:39 +0000
Subject: [PATCH 367/976] Implement ARC KV cache eviction policy for CPU
 offloader (#27039)

Signed-off-by: Alberto Perdomo <aperdomo@redhat.com>
Signed-off-by: alberto <aperdomo@redhat.com>
Co-authored-by: Or Ozeri <or@ozery.com>
---
 tests/v1/kv_offload/test_cpu_manager.py | 308 ++++++++++++++++++++++++
 vllm/v1/kv_offload/arc_manager.py       | 237 ++++++++++++++++++
 vllm/v1/kv_offload/cpu.py               |  25 +-
 3 files changed, 565 insertions(+), 5 deletions(-)
 create mode 100644 vllm/v1/kv_offload/arc_manager.py

diff --git a/tests/v1/kv_offload/test_cpu_manager.py b/tests/v1/kv_offload/test_cpu_manager.py
index 4f90ca022ceff..839cd9b6dc55c 100644
--- a/tests/v1/kv_offload/test_cpu_manager.py
+++ b/tests/v1/kv_offload/test_cpu_manager.py
@@ -11,6 +11,7 @@ from vllm.v1.kv_offload.abstract import (
     OffloadingEvent,
     PrepareStoreOutput,
 )
+from vllm.v1.kv_offload.arc_manager import ARCOffloadingManager
 from vllm.v1.kv_offload.backends.cpu import CPUBackend
 from vllm.v1.kv_offload.lru_manager import LRUOffloadingManager
 from vllm.v1.kv_offload.mediums import CPULoadStoreSpec
@@ -187,3 +188,310 @@ def test_cpu_manager():
         expected_stores=({3, 4, 5}, {6, 7, 8}),
         expected_evictions=({2, 3, 4}, {8}),
     )
+
+
+def test_arc_manager_basic():
+    """
+    Tests ARCOffloadingManager basic operations with a CPUBackend.
+    Verifies that ARC handles store, load, and lookup operations correctly.
+    """
+    # initialize a CPU backend with a capacity of 4 blocks
+    block_size = 256
+    cpu_backend = CPUBackend(block_size=block_size, num_blocks=4)
+    arc_manager = ARCOffloadingManager(cpu_backend, enable_events=True)
+
+    # prepare store [1, 2]
+    prepare_store_output = arc_manager.prepare_store(to_hashes([1, 2]))
+    verify_store_output(
+        prepare_store_output,
+        ExpectedPrepareStoreOutput(
+            block_hashes_to_store=[1, 2],
+            store_block_ids=[0, 1],
+            block_hashes_evicted=[],
+        ),
+    )
+
+    # lookup [1, 2] -> not ready
+    assert arc_manager.lookup(to_hashes([1, 2])) == 0
+
+    # no events so far
+    assert list(arc_manager.take_events()) == []
+
+    # complete store [1, 2]
+    arc_manager.complete_store(to_hashes([1, 2]))
+    verify_events(
+        arc_manager.take_events(), block_size=block_size, expected_stores=({1, 2},)
+    )
+
+    # lookup [1, 2]
+    assert arc_manager.lookup(to_hashes([1])) == 1
+    assert arc_manager.lookup(to_hashes([1, 2])) == 2
+    assert arc_manager.lookup(to_hashes([1, 2, 3])) == 2
+
+    # blocks should be in T1 (recent)
+    assert len(arc_manager.t1) == 2
+    assert len(arc_manager.t2) == 0
+
+
+def test_arc_manager_t1_to_t2_promotion():
+    """
+    Tests that accessing a block in T1 promotes it to T2 (frequent).
+    This is a key feature of ARC's adaptive behavior.
+    """
+    block_size = 256
+    cpu_backend = CPUBackend(block_size=block_size, num_blocks=4)
+    arc_manager = ARCOffloadingManager(cpu_backend, enable_events=False)
+
+    # store and complete block 1
+    arc_manager.prepare_store(to_hashes([1]))
+    arc_manager.complete_store(to_hashes([1]))
+
+    # block 1 starts in T1 (recent)
+    assert to_hashes([1])[0] in arc_manager.t1
+    assert to_hashes([1])[0] not in arc_manager.t2
+
+    # touch block 1 (simulate second access)
+    arc_manager.touch(to_hashes([1]))
+
+    # block 1 should now be in T2 (frequent)
+    assert to_hashes([1])[0] not in arc_manager.t1
+    assert to_hashes([1])[0] in arc_manager.t2
+
+
+def test_arc_manager_eviction_with_load():
+    """
+    Tests ARC eviction behavior similar to LRU test.
+    Verifies that blocks being loaded (ref_cnt > 0) cannot be evicted.
+    """
+    block_size = 256
+    cpu_backend = CPUBackend(block_size=block_size, num_blocks=4)
+    arc_manager = ARCOffloadingManager(cpu_backend, enable_events=True)
+
+    # prepare and complete store [1, 2, 3, 4]
+    prepare_store_output = arc_manager.prepare_store(to_hashes([1, 2, 3, 4]))
+    verify_store_output(
+        prepare_store_output,
+        ExpectedPrepareStoreOutput(
+            block_hashes_to_store=[1, 2, 3, 4],
+            store_block_ids=[0, 1, 2, 3],
+            block_hashes_evicted=[],
+        ),
+    )
+    arc_manager.complete_store(to_hashes([1, 2, 3, 4]))
+
+    # prepare load [2, 3] (increases ref_cnt)
+    prepare_load_output = arc_manager.prepare_load(to_hashes([2, 3]))
+    verify_load_output(prepare_load_output, [1, 2])
+
+    # prepare store [5, 6, 7] with [2, 3] being loaded
+    # should fail because [2, 3] have ref_cnt > 0
+    assert arc_manager.prepare_store(to_hashes([5, 6, 7])) is None
+
+    # complete load [2, 3]
+    arc_manager.complete_load(to_hashes([2, 3]))
+
+    # now prepare store [5, 6, 7] should succeed
+    # ARC will evict blocks one at a time from T1 as needed
+    prepare_store_output = arc_manager.prepare_store(to_hashes([5, 6, 7]))
+    assert prepare_store_output is not None
+    # Should successfully evict enough blocks to make room (at least 1)
+    assert len(prepare_store_output.block_hashes_evicted) >= 1
+
+
+def test_arc_manager_adaptive_target():
+    """
+    Tests ARC's adaptive target adjustment via ghost lists.
+    When a block in B1 (ghost list) is accessed, target_t1_size increases.
+    When a block in B2 is accessed, target_t1_size decreases.
+    """
+    block_size = 256
+    cpu_backend = CPUBackend(block_size=block_size, num_blocks=2)
+    arc_manager = ARCOffloadingManager(cpu_backend, enable_events=False)
+
+    # store blocks 1, 2 (fills cache)
+    arc_manager.prepare_store(to_hashes([1, 2]))
+    arc_manager.complete_store(to_hashes([1, 2]))
+
+    initial_target = arc_manager.target_t1_size
+
+    # store block 3, evicting block 1 (moves to B1 ghost list)
+    arc_manager.prepare_store(to_hashes([3]))
+    arc_manager.complete_store(to_hashes([3]))
+
+    # block 1 should be in B1 (ghost list)
+    assert to_hashes([1])[0] in arc_manager.b1
+
+    # touch block 1 (cache miss, but in B1)
+    # this should increase target_t1_size (favor recency)
+    arc_manager.touch(to_hashes([1]))
+
+    # target should have increased
+    assert arc_manager.target_t1_size > initial_target
+
+
+def test_arc_manager_t1_t2_eviction_policy():
+    """
+    Tests that ARC evicts from T1 or T2 based on target_t1_size.
+    If |T1| >= target_t1_size, evict from T1, otherwise from T2.
+    """
+    block_size = 256
+    cpu_backend = CPUBackend(block_size=block_size, num_blocks=4)
+    arc_manager = ARCOffloadingManager(cpu_backend, enable_events=False)
+
+    # store blocks 1, 2, 3, 4
+    arc_manager.prepare_store(to_hashes([1, 2, 3, 4]))
+    arc_manager.complete_store(to_hashes([1, 2, 3, 4]))
+
+    # promote blocks 3, 4 to T2 by touching them
+    arc_manager.touch(to_hashes([3, 4]))
+
+    # now: T1 = {1, 2}, T2 = {3, 4}
+    assert len(arc_manager.t1) == 2
+    assert len(arc_manager.t2) == 2
+
+    # set target_t1_size to prefer evicting from T1
+    # (when |T1| >= target, evict from T1)
+    arc_manager.target_t1_size = 1
+
+    # store block 5, should evict from T1 (block 1, LRU in T1)
+    output = arc_manager.prepare_store(to_hashes([5]))
+    assert output is not None
+    assert to_hashes([1]) == output.block_hashes_evicted
+
+    arc_manager.complete_store(to_hashes([5]))
+
+    # block 1 should be in B1 (ghost list)
+    assert to_hashes([1])[0] in arc_manager.b1
+    # block 5 should be in T1
+    assert to_hashes([5])[0] in arc_manager.t1
+
+
+def test_arc_manager_ghost_list_bounds():
+    """
+    Tests that ghost lists (B1, B2) don't grow unbounded.
+    They should be capped at cache_capacity.
+    """
+    block_size = 256
+    cpu_backend = CPUBackend(block_size=block_size, num_blocks=2)
+    arc_manager = ARCOffloadingManager(cpu_backend, enable_events=False)
+
+    # fill cache with blocks 1, 2
+    arc_manager.prepare_store(to_hashes([1, 2]))
+    arc_manager.complete_store(to_hashes([1, 2]))
+
+    # store many blocks to fill ghost lists
+    for i in range(3, 20):
+        arc_manager.prepare_store(to_hashes([i]))
+        arc_manager.complete_store(to_hashes([i]))
+
+    # ghost lists should not exceed cache_capacity
+    assert len(arc_manager.b1) <= arc_manager.cache_capacity
+    assert len(arc_manager.b2) <= arc_manager.cache_capacity
+
+
+def test_arc_manager_touch_ordering():
+    """
+    Tests that touch() correctly updates access patterns.
+    Similar to LRU test but verifies T1/T2 ordering.
+    """
+    block_size = 256
+    cpu_backend = CPUBackend(block_size=block_size, num_blocks=4)
+    arc_manager = ARCOffloadingManager(cpu_backend, enable_events=True)
+
+    # store blocks 1, 2, 3, 4
+    arc_manager.prepare_store(to_hashes([1, 2, 3, 4]))
+    arc_manager.complete_store(to_hashes([1, 2, 3, 4]))
+
+    # promote 3, 4 to T2
+    arc_manager.touch(to_hashes([3, 4]))
+
+    # T1 = {1, 2}, T2 = {3, 4}
+    # touch [1, 3, 4] - should promote 1 to T2, and move 3,4 to end of T2
+    arc_manager.touch(to_hashes([1, 3, 4]))
+
+    # T1 = {2}, T2 = {1, 3, 4} (in that order, with 4 most recent)
+    assert len(arc_manager.t1) == 1
+    assert len(arc_manager.t2) == 3
+
+    # store block 5, should evict from T1 (block 2, only one in T1)
+    prepare_store_output = arc_manager.prepare_store(to_hashes([5]))
+    verify_store_output(
+        prepare_store_output,
+        ExpectedPrepareStoreOutput(
+            block_hashes_to_store=[5],
+            store_block_ids=[1],  # reuses block 2's storage
+            block_hashes_evicted=[2],
+        ),
+    )
+
+
+def test_arc_manager_failed_store():
+    """
+    Tests that failed store operations clean up correctly.
+    Similar to LRU test but for ARC.
+    """
+    block_size = 256
+    cpu_backend = CPUBackend(block_size=block_size, num_blocks=4)
+    arc_manager = ARCOffloadingManager(cpu_backend, enable_events=True)
+
+    # store blocks 1, 2, 3, 4
+    arc_manager.prepare_store(to_hashes([1, 2, 3, 4]))
+    arc_manager.complete_store(to_hashes([1, 2, 3, 4]))
+
+    # prepare store block 5 (will evict block 1)
+    prepare_store_output = arc_manager.prepare_store(to_hashes([5]))
+    assert prepare_store_output is not None
+    assert len(prepare_store_output.block_hashes_evicted) == 1
+
+    # complete store with failure
+    arc_manager.complete_store(to_hashes([5]), success=False)
+
+    # block 5 should not be in cache
+    assert arc_manager.lookup(to_hashes([5])) == 0
+    # block 5 should not be in T1 or T2
+    assert to_hashes([5])[0] not in arc_manager.t1
+    assert to_hashes([5])[0] not in arc_manager.t2
+
+    # evicted block should still be gone (in B1 ghost list)
+    evicted_hash = prepare_store_output.block_hashes_evicted[0]
+    assert evicted_hash in arc_manager.b1
+
+
+def test_arc_manager_full_scenario():
+    """
+    Comprehensive test covering multiple ARC operations in sequence.
+    Similar to the full LRU test but adapted for ARC behavior.
+    """
+    block_size = 256
+    cpu_backend = CPUBackend(block_size=block_size, num_blocks=4)
+    arc_manager = ARCOffloadingManager(cpu_backend, enable_events=True)
+
+    # store [1, 2]
+    arc_manager.prepare_store(to_hashes([1, 2]))
+    arc_manager.complete_store(to_hashes([1, 2]))
+
+    # store [3, 4, 5] -> evicts [1]
+    prepare_store_output = arc_manager.prepare_store(to_hashes([3, 4, 5]))
+    assert prepare_store_output is not None
+    assert len(prepare_store_output.block_hashes_evicted) == 1
+    arc_manager.complete_store(to_hashes([3, 4, 5]))
+
+    # promote some blocks to T2
+    arc_manager.touch(to_hashes([2, 3]))
+
+    # T1 has {4, 5}, T2 has {2, 3}
+    assert len(arc_manager.t1) == 2
+    assert len(arc_manager.t2) == 2
+
+    # store [6] -> should evict from T1 (4 is oldest in T1)
+    prepare_store_output = arc_manager.prepare_store(to_hashes([6]))
+    assert prepare_store_output is not None
+    arc_manager.complete_store(to_hashes([6]))
+
+    # verify blocks 2, 3 (in T2) are still present
+    assert arc_manager.lookup(to_hashes([2])) == 1
+    assert arc_manager.lookup(to_hashes([3])) == 1
+
+    # verify events
+    events = list(arc_manager.take_events())
+    assert len(events) > 0  # should have store and eviction events
diff --git a/vllm/v1/kv_offload/arc_manager.py b/vllm/v1/kv_offload/arc_manager.py
new file mode 100644
index 0000000000000..45b166d6797f8
--- /dev/null
+++ b/vllm/v1/kv_offload/arc_manager.py
@@ -0,0 +1,237 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from collections import OrderedDict
+from collections.abc import Iterable
+
+from vllm.v1.core.kv_cache_utils import BlockHash
+from vllm.v1.kv_offload.abstract import (
+    LoadStoreSpec,
+    OffloadingEvent,
+    OffloadingManager,
+    PrepareStoreOutput,
+)
+from vllm.v1.kv_offload.backend import Backend, BlockStatus
+
+
+class ARCOffloadingManager(OffloadingManager):
+    """
+    An OffloadingManager implementing the ARC (Adaptive Replacement Cache)
+    eviction policy with a pluggable backend.
+
+    Data Structures:
+        T1: Recent cache containing blocks accessed once.
+        T2: Frequent cache containing blocks accessed multiple times.
+        B1/B2: Ghost lists tracking recently evicted blocks from T1/T2.
+        target_t1_size: Adaptive target size for the T1 partition.
+
+    Algorithm Flow:
+        1. Cache lookup (lookup):
+           Searches T1 and T2 for block hashes and counts consecutive hits
+           until a miss or non-ready block is encountered.
+
+        2. Cache touch (touch) - Adaptive Learning:
+           For each block_hash (in reverse order):
+           - If in T1: Move to T2 (promotion from recent to frequent).
+           - If in T2: Move to MRU position (end of queue).
+           - If in B1 ghost list: Increase target_t1_size.
+           - If in B2 ghost list: Decrease target_t1_size.
+
+        3. Block eviction (prepare_store) - Adaptive Replacement:
+           Determines eviction source based on adaptive target:
+           - If T1 size > target_t1_size: Evict from T1, add to B1.
+           - Otherwise: Evict from T2, add to B2.
+           Finally, bound each ghost list size.
+
+        4. Block insertion (prepare_store):
+           New blocks are always inserted into T1 and removed from B1/B2 if
+           present. Blocks may later be promoted to T2 during touch operations.
+
+    Adaptive Behavior:
+        The algorithm self-tunes the recency vs. frequency trade-off:
+        - B1 hit: Recent access patterns matter more → increase T1.
+        - B2 hit: Frequent access patterns matter more → decrease T1.
+    """
+
+    def __init__(self, backend: Backend, enable_events: bool = False):
+        self.backend: Backend = backend
+        self.target_t1_size: float = 0.0
+        self.t1: OrderedDict[BlockHash, BlockStatus] = OrderedDict()
+        self.t2: OrderedDict[BlockHash, BlockStatus] = OrderedDict()
+        # block_hash -> None (only care about presence)
+        self.b1: OrderedDict[BlockHash, None] = OrderedDict()
+        self.b2: OrderedDict[BlockHash, None] = OrderedDict()
+        self.events: list[OffloadingEvent] | None = [] if enable_events else None
+        self.cache_capacity: int = self.backend.get_num_free_blocks()
+
+    def lookup(self, block_hashes: Iterable[BlockHash]) -> int:
+        hit_count = 0
+        for block_hash in block_hashes:
+            block = self.t1.get(block_hash) or self.t2.get(block_hash)
+            if block is None or not block.is_ready:
+                break
+            hit_count += 1
+        return hit_count
+
+    def prepare_load(self, block_hashes: Iterable[BlockHash]) -> LoadStoreSpec:
+        blocks = []
+        for block_hash in block_hashes:
+            block = self.t1.get(block_hash) or self.t2.get(block_hash)
+            assert block is not None, f"Block {block_hash!r} not found in cache"
+            assert block.is_ready, f"Block {block_hash!r} is not ready for reading"
+
+            block.ref_cnt += 1
+            blocks.append(block)
+
+        return self.backend.get_load_store_spec(block_hashes, blocks)
+
+    def touch(self, block_hashes: Iterable[BlockHash]):
+        for block_hash in reversed(list(block_hashes)):
+            if block_hash in self.t1:
+                block = self.t1.pop(block_hash)
+                if not block.is_ready:
+                    # block was just prepared to be stored, not really touched twice
+                    self.t1.move_to_end(block_hash)
+                else:
+                    self.t2[block_hash] = block
+
+            elif block_hash in self.t2:
+                self.t2.move_to_end(block_hash)
+
+            elif block_hash in self.b1:
+                delta = max(1, len(self.b2) / len(self.b1))
+                self.target_t1_size = min(
+                    self.target_t1_size + delta, self.cache_capacity
+                )
+                # move to MRU position (end) to keep it fresh in the ghost list
+                self.b1.move_to_end(block_hash)
+
+            elif block_hash in self.b2:
+                delta = max(1, len(self.b1) / len(self.b2))
+                self.target_t1_size = max(self.target_t1_size - delta, 0)
+                # move to MRU position (end) to keep it fresh in the ghost list
+                self.b2.move_to_end(block_hash)
+
+    def complete_load(self, block_hashes: Iterable[BlockHash]):
+        for block_hash in block_hashes:
+            block = self.t1.get(block_hash) or self.t2.get(block_hash)
+            assert block is not None, f"Block {block_hash!r} not found"
+            assert block.ref_cnt > 0, f"Block {block_hash!r} ref_cnt is already 0"
+
+            block.ref_cnt -= 1
+
+    def prepare_store(
+        self, block_hashes: Iterable[BlockHash]
+    ) -> PrepareStoreOutput | None:
+        block_hashes_to_store = []
+        for block_hash in block_hashes:
+            if block_hash not in self.t1 and block_hash not in self.t2:
+                block_hashes_to_store.append(block_hash)
+
+        if not block_hashes_to_store:
+            return PrepareStoreOutput(
+                block_hashes_to_store=[],
+                store_spec=self.backend.get_load_store_spec([], []),
+                block_hashes_evicted=[],
+            )
+
+        num_blocks_to_evict = (
+            len(block_hashes_to_store) - self.backend.get_num_free_blocks()
+        )
+
+        to_evict = []
+        while num_blocks_to_evict > 0:
+            block_to_evict = None
+            if len(self.t1) >= int(self.target_t1_size):
+                # try to evict the least recently used (oldest) block from T1
+                for block_hash, block in self.t1.items():
+                    if block.ref_cnt == 0:
+                        block_to_evict = (block_hash, block)
+                        eviction_t = self.t1
+                        eviction_b = self.b1
+                        break
+            if not block_to_evict:
+                # try to evict the least recently used (oldest) block from T2
+                for block_hash, block in self.t2.items():
+                    if block.ref_cnt == 0:
+                        block_to_evict = (block_hash, block)
+                        eviction_t = self.t2
+                        eviction_b = self.b2
+                        break
+                else:
+                    # cannot evict enough blocks, cache is full of in-use items
+                    return None
+
+            block_hash, block = block_to_evict
+            del eviction_t[block_hash]
+            eviction_b[block_hash] = None
+            to_evict.append(block_hash)
+            self.backend.free(block)
+            num_blocks_to_evict -= 1
+
+        for b in [self.b1, self.b2]:
+            for i in range(len(b) - self.cache_capacity):
+                b.popitem(last=False)
+
+        if to_evict and self.events is not None:
+            self.events.append(
+                OffloadingEvent(
+                    block_hashes=to_evict,
+                    block_size=self.backend.block_size,
+                    medium=self.backend.medium,
+                    removed=True,
+                )
+            )
+
+        blocks = self.backend.allocate_blocks(block_hashes_to_store)
+        assert len(blocks) == len(block_hashes_to_store), (
+            "Backend did not allocate the expected number of blocks"
+        )
+
+        for block_hash, block in zip(block_hashes_to_store, blocks):
+            self.t1[block_hash] = block
+
+            self.b1.pop(block_hash, None)
+            self.b2.pop(block_hash, None)
+
+        store_spec = self.backend.get_load_store_spec(block_hashes_to_store, blocks)
+
+        return PrepareStoreOutput(
+            block_hashes_to_store=block_hashes_to_store,
+            store_spec=store_spec,
+            block_hashes_evicted=to_evict,
+        )
+
+    def complete_store(self, block_hashes: Iterable[BlockHash], success: bool = True):
+        stored_block_hashes: list[BlockHash] = []
+
+        if success:
+            for block_hash in block_hashes:
+                block = self.t1.get(block_hash) or self.t2.get(block_hash)
+
+                if block is not None and not block.is_ready:
+                    block.ref_cnt = 0
+                    stored_block_hashes.append(block_hash)
+        else:
+            for block_hash in block_hashes:
+                block = self.t1.pop(block_hash, None)
+
+                if block is None:
+                    block = self.t2.pop(block_hash, None)
+
+                if block is not None and not block.is_ready:
+                    self.backend.free(block)
+
+        if stored_block_hashes and self.events is not None:
+            self.events.append(
+                OffloadingEvent(
+                    block_hashes=stored_block_hashes,
+                    block_size=self.backend.block_size,
+                    medium=self.backend.medium,
+                    removed=False,
+                )
+            )
+
+    def take_events(self) -> Iterable[OffloadingEvent]:
+        if self.events is not None:
+            yield from self.events
+            self.events.clear()
diff --git a/vllm/v1/kv_offload/cpu.py b/vllm/v1/kv_offload/cpu.py
index f765d19ea0175..4b1bbe6f0cc2a 100644
--- a/vllm/v1/kv_offload/cpu.py
+++ b/vllm/v1/kv_offload/cpu.py
@@ -8,6 +8,7 @@ from vllm.config import VllmConfig, get_layers_from_vllm_config
 from vllm.model_executor.layers.attention_layer_base import AttentionLayerBase
 from vllm.platforms import current_platform
 from vllm.v1.kv_offload.abstract import LoadStoreSpec, OffloadingManager
+from vllm.v1.kv_offload.arc_manager import ARCOffloadingManager
 from vllm.v1.kv_offload.backends.cpu import CPUBackend
 from vllm.v1.kv_offload.lru_manager import LRUOffloadingManager
 from vllm.v1.kv_offload.mediums import CPULoadStoreSpec, GPULoadStoreSpec
@@ -33,18 +34,32 @@ class CPUOffloadingSpec(OffloadingSpec):
         # worker-side
         self._handler: OffloadingHandler | None = None
 
+        self.eviction_policy: str = self.extra_config.get("eviction_policy", "lru")
+
     def get_manager(self) -> OffloadingManager:
         if not self._manager:
             kv_events_config = self.vllm_config.kv_events_config
             enable_events = (
                 kv_events_config is not None and kv_events_config.enable_kv_cache_events
             )
-            self._manager = LRUOffloadingManager(
-                CPUBackend(
-                    block_size=self.offloaded_block_size, num_blocks=self.num_cpu_blocks
-                ),
-                enable_events=enable_events,
+
+            backend = CPUBackend(
+                block_size=self.offloaded_block_size, num_blocks=self.num_cpu_blocks
             )
+
+            if self.eviction_policy == "lru":
+                self._manager = LRUOffloadingManager(
+                    backend=backend, enable_events=enable_events
+                )
+            elif self.eviction_policy == "arc":
+                self._manager = ARCOffloadingManager(
+                    backend=backend, enable_events=enable_events
+                )
+            else:
+                raise ValueError(
+                    f"Unknown eviction policy: {self.eviction_policy}. "
+                    f"Supported policies: lru, arc"
+                )
         return self._manager
 
     def get_handlers(

From a1e7fa362a514589d4042f2287bde2a0653eb959 Mon Sep 17 00:00:00 2001
From: PerryZhang01 <Perry.Zhang@amd.com>
Date: Thu, 13 Nov 2025 02:16:35 +0800
Subject: [PATCH 368/976] [EPLB][ROCm]: support EPBL for ROCm backend (#27731)

Signed-off-by: Perry Zhang <perzhang@amd.com>
Co-authored-by: Perry Zhang <perzhang@amd.com>
---
 vllm/config/parallel.py                          |  4 ++--
 vllm/model_executor/layers/fused_moe/layer.py    |  6 +++++-
 .../quantization/compressed_tensors/__init__.py  |  3 +++
 .../compressed_tensors/compressed_tensors_moe.py | 16 +++++++++++++---
 4 files changed, 23 insertions(+), 6 deletions(-)

diff --git a/vllm/config/parallel.py b/vllm/config/parallel.py
index b19c8beeae3df..61bcd15e06a84 100644
--- a/vllm/config/parallel.py
+++ b/vllm/config/parallel.py
@@ -278,10 +278,10 @@ class ParallelConfig:
             )
 
         if self.enable_eplb:
-            if not current_platform.is_cuda():
+            if not current_platform.is_cuda_alike():
                 raise ValueError(
                     "Expert parallelism load balancing is only supported on "
-                    "CUDA devices now."
+                    "CUDA devices or ROCm devices now."
                 )
             if not self.enable_expert_parallel:
                 raise ValueError("enable_expert_parallel must be True to use EPLB.")
diff --git a/vllm/model_executor/layers/fused_moe/layer.py b/vllm/model_executor/layers/fused_moe/layer.py
index 615da58eeda28..3bd7c54c520ca 100644
--- a/vllm/model_executor/layers/fused_moe/layer.py
+++ b/vllm/model_executor/layers/fused_moe/layer.py
@@ -1218,7 +1218,11 @@ class FusedMoE(CustomOp):
 
     def get_expert_weights(self) -> Iterable[torch.Tensor]:
         weights = list(self.named_parameters())
-        assert all(weight.is_contiguous() for _, weight in weights)
+        assert all(
+            weight.is_contiguous()
+            for name, weight in weights
+            if not name.startswith("_shared_experts.")
+        )
 
         # Filter out the non-expert weights.
         # `e_score_correction_bias` is a bias for each logical expert,
diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/__init__.py b/vllm/model_executor/layers/quantization/compressed_tensors/__init__.py
index e69de29bb2d1d..6655f89136238 100644
--- a/vllm/model_executor/layers/quantization/compressed_tensors/__init__.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/__init__.py
@@ -0,0 +1,3 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
index f1050c15f79e7..bda94cee9e429 100644
--- a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
@@ -1019,9 +1019,10 @@ class CompressedTensorsW8A8Fp8MoEMethod(CompressedTensorsMoEMethod):
         logical_replica_count: torch.Tensor | None = None,
     ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
         if enable_eplb:
-            raise NotImplementedError(
-                "EPLB not supported for `CompressedTensorsW8A8Fp8MoEMethod` yet."
-            )
+            assert expert_load_view is not None
+            assert logical_to_physical_map is not None
+            assert logical_replica_count is not None
+            assert isinstance(layer, FusedMoE)
 
         topk_weights, topk_ids, _ = FusedMoE.select_experts(
             hidden_states=x,
@@ -1037,6 +1038,11 @@ class CompressedTensorsW8A8Fp8MoEMethod(CompressedTensorsMoEMethod):
             e_score_correction_bias=e_score_correction_bias,
             indices_type=self.topk_indices_dtype,
             num_fused_shared_experts=layer.num_fused_shared_experts,
+            enable_eplb=enable_eplb,
+            expert_map=expert_map,
+            expert_load_view=expert_load_view,
+            logical_to_physical_map=logical_to_physical_map,
+            logical_replica_count=logical_replica_count,
         )
 
         per_act_token = self.input_quant.strategy == QuantizationStrategy.TOKEN
@@ -1145,6 +1151,10 @@ class CompressedTensorsW8A8Fp8MoEMethod(CompressedTensorsMoEMethod):
                 quant_config=self.moe_quant_config,
             )
 
+    @property
+    def supports_eplb(self) -> bool:
+        return True
+
 
 class CompressedTensorsW8A8Int8MoEMethod(CompressedTensorsMoEMethod):
     def __init__(

From 64d57c3be7443137a6a117cf7f3fb9bd625a749f Mon Sep 17 00:00:00 2001
From: Thomas Parnell <tpa@zurich.ibm.com>
Date: Wed, 12 Nov 2025 19:17:55 +0100
Subject: [PATCH 369/976] [Model] [Config] Correctly identify granite-4.0-micro
 as non-hybrid model (#28563)

Signed-off-by: Thomas Parnell <tpa@zurich.ibm.com>
---
 vllm/config/model.py | 7 +++++++
 1 file changed, 7 insertions(+)

diff --git a/vllm/config/model.py b/vllm/config/model.py
index 6ce91ebb87b90..49b66039d4a0a 100644
--- a/vllm/config/model.py
+++ b/vllm/config/model.py
@@ -1619,6 +1619,13 @@ class ModelConfig:
 
     @property
     def is_hybrid(self) -> bool:
+        # Handle granite-4.0-micro case which uses hybrid config but does not
+        # actually contain any non-attention layers.
+        layer_types = getattr(self.hf_config, "layer_types", None)
+        if layer_types is not None and all(
+            layer == "attention" for layer in layer_types
+        ):
+            return False
         return self._model_info.is_hybrid
 
     @property

From a39dd7bb06c3bea055057d5c272ca952e0e000bf Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Wed, 12 Nov 2025 19:38:13 +0000
Subject: [PATCH 370/976] [CI] Skip "Multi-Modal Models Test (Extended) 3" test
 that's broken in current Transformers (#28559)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 tests/models/multimodal/generation/test_common.py | 8 ++++++++
 1 file changed, 8 insertions(+)

diff --git a/tests/models/multimodal/generation/test_common.py b/tests/models/multimodal/generation/test_common.py
index de74acf3b8a52..5504c417fda4c 100644
--- a/tests/models/multimodal/generation/test_common.py
+++ b/tests/models/multimodal/generation/test_common.py
@@ -9,11 +9,13 @@ from collections import defaultdict
 from pathlib import PosixPath
 
 import pytest
+from packaging.version import Version
 from transformers import (
     AutoModel,
     AutoModelForImageTextToText,
     AutoModelForTextToWaveform,
 )
+from transformers import __version__ as TRANSFORMERS_VERSION
 
 from vllm.platforms import current_platform
 from vllm.utils.func_utils import identity
@@ -851,6 +853,12 @@ VLM_TEST_SETTINGS = {
                 limit_mm_per_prompt={"image": 4},
             )
         ],
+        marks=[
+            pytest.mark.skipif(
+                Version(TRANSFORMERS_VERSION) == Version("4.57.1"),
+                reason="This model is broken in Transformers v4.57.1",
+            )
+        ],
     ),
     # regression test for https://github.com/vllm-project/vllm/issues/15122
     "qwen2_5_vl-windows-attention": VLMTestInfo(

From 94a9ebcf317b804a6a70d74de9f91804d314ff6a Mon Sep 17 00:00:00 2001
From: Yihua Cheng <yihua98@uchicago.edu>
Date: Wed, 12 Nov 2025 12:25:43 -0800
Subject: [PATCH 371/976] [KV connector][WIP] KV cache proxy based on LMCache
 multi-process mode (#27902)

Signed-off-by: ApostaC <yihua98@uchicago.edu>
---
 .../kv_transfer/kv_connector/factory.py       |   6 +
 .../v1/lmcache_integration/__init__.py        |  15 +-
 .../multi_process_adapter.py                  | 379 ++++++++
 .../kv_connector/v1/lmcache_mp_connector.py   | 867 ++++++++++++++++++
 4 files changed, 1265 insertions(+), 2 deletions(-)
 create mode 100644 vllm/distributed/kv_transfer/kv_connector/v1/lmcache_integration/multi_process_adapter.py
 create mode 100644 vllm/distributed/kv_transfer/kv_connector/v1/lmcache_mp_connector.py

diff --git a/vllm/distributed/kv_transfer/kv_connector/factory.py b/vllm/distributed/kv_transfer/kv_connector/factory.py
index 494a4d3c33aa4..df871dd7cbe4f 100644
--- a/vllm/distributed/kv_transfer/kv_connector/factory.py
+++ b/vllm/distributed/kv_transfer/kv_connector/factory.py
@@ -161,6 +161,12 @@ KVConnectorFactory.register_connector(
     "LMCacheConnectorV1",
 )
 
+KVConnectorFactory.register_connector(
+    "LMCacheMPConnector",
+    "vllm.distributed.kv_transfer.kv_connector.v1.lmcache_mp_connector",
+    "LMCacheMPConnector",
+)
+
 KVConnectorFactory.register_connector(
     "NixlConnector",
     "vllm.distributed.kv_transfer.kv_connector.v1.nixl_connector",
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/lmcache_integration/__init__.py b/vllm/distributed/kv_transfer/kv_connector/v1/lmcache_integration/__init__.py
index 3c73a1c09e58d..07e05cc8f8932 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/lmcache_integration/__init__.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/lmcache_integration/__init__.py
@@ -2,6 +2,17 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
 
-from . import vllm_v1_adapter
+from . import multi_process_adapter, vllm_v1_adapter
+from .multi_process_adapter import (
+    LMCacheMPSchedulerAdapter,
+    LMCacheMPWorkerAdapter,
+    LoadStoreOp,
+)
 
-__all__ = ["vllm_v1_adapter"]
+__all__ = [
+    "vllm_v1_adapter",
+    "multi_process_adapter",
+    "LMCacheMPSchedulerAdapter",
+    "LMCacheMPWorkerAdapter",
+    "LoadStoreOp",
+]
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/lmcache_integration/multi_process_adapter.py b/vllm/distributed/kv_transfer/kv_connector/v1/lmcache_integration/multi_process_adapter.py
new file mode 100644
index 0000000000000..ab2eeed9f6b8a
--- /dev/null
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/lmcache_integration/multi_process_adapter.py
@@ -0,0 +1,379 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import os
+from collections.abc import Iterable
+from dataclasses import dataclass
+from itertools import islice
+from typing import Any
+
+import torch
+import zmq
+from lmcache.utils import _lmcache_nvtx_annotate, init_logger
+from lmcache.v1.multiprocess.custom_types import (
+    CudaIPCWrapper,
+    IPCCacheEngineKey,
+    KVCache,
+)
+from lmcache.v1.multiprocess.mq import MessageQueueClient, MessagingFuture
+from lmcache.v1.multiprocess.protocol import RequestType, get_response_class
+
+logger = init_logger(__name__)
+
+
+def wrap_kv_caches(kv_caches: dict[str, KVCache]) -> KVCache:
+    logger.info("KV caches keys are %s", list(kv_caches.keys()))
+    return [CudaIPCWrapper(tensor) for tensor in kv_caches.values()]
+
+
+def send_lmcache_request(
+    mq_client: MessageQueueClient,
+    request_type: RequestType,
+    payloads: list[Any],
+) -> MessagingFuture[Any]:
+    future = mq_client.submit_request(
+        request_type, payloads, get_response_class(request_type)
+    )
+    return future
+
+
+def get_lmcache_chunk_size(
+    mq_client: MessageQueueClient,
+) -> int:
+    future = send_lmcache_request(mq_client, RequestType.GET_CHUNK_SIZE, [])
+    chunk_size = future.result()
+    return chunk_size
+
+
+def striding_block_hashes(
+    block_hashes: list[bytes],
+    blocks_in_chunk,
+) -> Iterable[bytes]:
+    """Striding the block hashes to get the block hashes for each chunk.
+    For example, if blocks_in_chunk is 16, then we will get the block hashes
+    for the 16th, 32nd, 48th, ... blocks.
+    """
+    return islice(block_hashes, blocks_in_chunk - 1, None, blocks_in_chunk)
+
+
+@dataclass
+class LoadStoreOp:
+    block_hashes: list[bytes]
+    block_ids: list[int]
+
+    def __len__(self) -> int:
+        return len(self.block_hashes)
+
+    def __post_init__(self):
+        assert len(self.block_hashes) == len(self.block_ids), (
+            "The number of block hashes should be equal to the number of block ids "
+            f"But got {len(self.block_hashes)} and {len(self.block_ids)}"
+        )
+
+
+StoreResult = bool
+RetrieveResult = list[bool]
+LookupResult = list[bool]
+
+
+class LMCacheMPSchedulerAdapter:
+    def __init__(
+        self,
+        server_url: str,
+        context: zmq.Context,
+        model_name: str,
+        world_size: int,
+        kv_rank: int,
+        vllm_block_size: int,
+    ):
+        """
+        Args:
+            server_url: The server URL for the LMCache message queue
+            context: The ZMQ context
+
+            model_name: The model name used for LMCache keys
+            world_size: The world size used for LMCache keys
+            kv_rank: The kv rank used for LMCache keys
+            vllm_block_size: The block size used in vLLM
+        """
+        self.mq_client = MessageQueueClient(server_url, context)
+
+        # Request futures
+        self.lookup_futures: dict[str, MessagingFuture[LookupResult]] = {}
+
+        self.model_name = model_name
+        self.world_size = world_size
+        self.worker_id = kv_rank
+
+        # Read chunk size from lmcache
+        self.chunk_size = get_lmcache_chunk_size(self.mq_client)
+        assert self.chunk_size % vllm_block_size == 0, (
+            "LMCache chunk size should be a multiple of vLLM block size"
+        )
+        self.blocks_in_chunk = self.chunk_size // vllm_block_size
+
+    @_lmcache_nvtx_annotate
+    def maybe_submit_lookup_request(self, request_id: str, block_hashes: list[bytes]):
+        if request_id in self.lookup_futures:
+            # Skip if there is already a lookup request
+            return
+
+        s = striding_block_hashes(block_hashes, self.blocks_in_chunk)
+        keys = [self._create_key(block_hash) for block_hash in s]
+        future = send_lmcache_request(
+            self.mq_client,
+            RequestType.LOOKUP,
+            [keys, True],
+        )
+        self.lookup_futures[request_id] = future
+
+    @_lmcache_nvtx_annotate
+    def check_lookup_result(self, request_id: str) -> int | None:
+        assert request_id in self.lookup_futures, (
+            f"Lookup request for request_id={request_id} has not been submitted"
+        )
+
+        future = self.lookup_futures[request_id]
+        if not future.query():
+            return None
+
+        result = future.result()
+        num_chunks = sum(result)
+        return num_chunks * self.chunk_size
+
+    def num_blocks_per_chunk(self) -> int:
+        """
+        Returns:
+            The number of vllm blocks in a LMCache data chunk
+        """
+        return self.blocks_in_chunk
+
+    # Helper functions
+    def _create_key(self, block_hash: bytes) -> IPCCacheEngineKey:
+        """Convert a block hash to an IPC cache engine key"""
+        return IPCCacheEngineKey(
+            model_name=self.model_name,
+            world_size=self.world_size,
+            worker_id=self.worker_id,
+            chunk_hash=block_hash,
+        )
+
+
+class LMCacheMPWorkerAdapter:
+    def __init__(
+        self,
+        server_url: str,
+        context: zmq.Context,
+        model_name: str,
+        world_size: int,
+        kv_rank: int,
+        vllm_block_size: int,
+    ):
+        self.mq_client = MessageQueueClient(server_url, context)
+
+        # Instance id for GPU worker
+        self.instance_id = os.getpid()
+
+        # Registered kv caches from vLLM
+        self.kv_caches: dict[str, torch.Tensor] = {}
+
+        # Request futures
+        # request_id -> (future, other merged requests)
+        self.store_futures: dict[
+            str, tuple[MessagingFuture[StoreResult], list[str]]
+        ] = {}
+        self.retrieve_futures: dict[
+            str, tuple[MessagingFuture[RetrieveResult], list[str]]
+        ] = {}
+
+        self.finished_stores: set[str] = set()
+        self.previously_finished: set[str] = set()
+
+        self.model_name = model_name
+        self.world_size = world_size
+        self.worker_id = kv_rank
+
+        # Read chunk size from lmcache
+        chunk_size = get_lmcache_chunk_size(self.mq_client)
+        assert chunk_size % vllm_block_size == 0, (
+            "LMCache chunk size should be a multiple of vLLM block size"
+        )
+        self.blocks_in_chunk = chunk_size // vllm_block_size
+
+    def register_kv_caches(self, kv_caches: dict[str, KVCache]):
+        # Register kv cache and send the request
+        self.kv_caches = kv_caches
+        logger.info("Registering kv caches")
+        future = send_lmcache_request(
+            self.mq_client,
+            RequestType.REGISTER_KV_CACHE,
+            [self.instance_id, wrap_kv_caches(kv_caches)],
+        )
+        future.result()
+
+    @_lmcache_nvtx_annotate
+    def submit_store_request(
+        self, request_id: str, op: LoadStoreOp, event: torch.cuda.Event
+    ):
+        keys = self._block_hashes_to_keys(op.block_hashes)
+        future = send_lmcache_request(
+            self.mq_client,
+            RequestType.STORE,
+            [keys, self.instance_id, op.block_ids, event.ipc_handle()],
+        ).to_cuda_future()
+        self.store_futures[request_id] = (future, [])
+
+    @_lmcache_nvtx_annotate
+    def submit_retrieve_request(
+        self, request_id: str, op: LoadStoreOp, event: torch.cuda.Event
+    ):
+        keys = self._block_hashes_to_keys(op.block_hashes)
+        future = send_lmcache_request(
+            self.mq_client,
+            RequestType.RETRIEVE,
+            [keys, self.instance_id, op.block_ids, event.ipc_handle()],
+        ).to_cuda_future()
+        self.retrieve_futures[request_id] = (future, [])
+
+    @_lmcache_nvtx_annotate
+    def batched_submit_store_requests(
+        self,
+        request_ids: list[str],
+        ops: list[LoadStoreOp],
+        event: torch.cuda.Event,
+    ):
+        keys = []
+        block_ids = []
+        for op in ops:
+            keys.extend(self._block_hashes_to_keys(op.block_hashes))
+            block_ids.extend(op.block_ids)
+        future = send_lmcache_request(
+            self.mq_client,
+            RequestType.STORE,
+            [keys, self.instance_id, block_ids, event.ipc_handle()],
+        ).to_cuda_future()
+        self.store_futures[request_ids[0]] = (future, request_ids[1:])
+
+    @_lmcache_nvtx_annotate
+    def batched_submit_retrieve_requests(
+        self,
+        request_ids: list[str],
+        ops: list[LoadStoreOp],
+        event: torch.cuda.Event,
+    ):
+        keys = []
+        block_ids = []
+        for op in ops:
+            keys.extend(self._block_hashes_to_keys(op.block_hashes))
+            block_ids.extend(op.block_ids)
+        future = send_lmcache_request(
+            self.mq_client,
+            RequestType.RETRIEVE,
+            [keys, self.instance_id, block_ids, event.ipc_handle()],
+        ).to_cuda_future()
+        self.retrieve_futures[request_ids[0]] = (future, request_ids[1:])
+
+    @_lmcache_nvtx_annotate
+    def get_finished(
+        self, finished_req_ids: set[str]
+    ) -> tuple[set[str] | None, set[str] | None]:
+        finished_stores = set()
+        finished_retrieves = set()
+        for request_id, (future, other_reqs) in self.store_futures.items():
+            if not future.query():
+                continue
+
+            result = future.result()
+            finished_stores.add(request_id)
+            finished_stores.update(other_reqs)
+
+            if not result:
+                # TODO: add error handling here
+                logger.error(
+                    "Something went wrong when processing the "
+                    "store request for request_id=%s",
+                    request_id,
+                )
+
+        for request_id, (future, other_reqs) in self.retrieve_futures.items():
+            if not future.query():
+                continue
+
+            result = future.result()
+            finished_retrieves.add(request_id)
+            finished_retrieves.update(other_reqs)
+
+            if not all(result):
+                # TODO: add error handing here
+                logger.error(
+                    "Something went wrong when processing the "
+                    "retrieve request for request_id=%s, result=%s",
+                    request_id,
+                    result,
+                )
+            logger.info("Retrieve request for request_id=%s finished", request_id)
+
+        # Remove the finished requests from the tracking dicts
+        for request_id in finished_stores:
+            self.store_futures.pop(request_id, None)
+        for request_id in finished_retrieves:
+            self.retrieve_futures.pop(request_id, None)
+
+        # Update the internal states
+        self.finished_stores.update(finished_stores)
+
+        ret_stores = set()
+        for req_id in finished_req_ids:
+            if req_id in self.finished_stores or req_id in self.store_futures:
+                self.previously_finished.add(req_id)
+            else:
+                ret_stores.add(req_id)
+
+        # Calculate the final finished stores
+        ret_stores.update(self._update_and_get_finished_store())
+
+        return ret_stores, finished_retrieves
+
+    def num_blocks_per_chunk(self) -> int:
+        """
+        Returns:
+            The number of vllm blocks in a LMCache data chunk
+        """
+        return self.blocks_in_chunk
+
+    def shutdown(self):
+        # Unregister kv cache
+        logger.info("Unregistering kv caches")
+        send_lmcache_request(
+            self.mq_client, RequestType.UNREGISTER_KV_CACHE, [self.instance_id]
+        ).result()
+
+        self.mq_client.close()
+
+    # Helper functions
+    def _update_and_get_finished_store(
+        self,
+    ) -> set[str]:
+        """Converge the internal states about finished stores
+        and returns the 'safe finished store request ids' back
+        """
+        safe_finished_s = self.finished_stores.intersection(self.previously_finished)
+        self.finished_stores.difference_update(self.previously_finished)
+        self.previously_finished.difference_update(safe_finished_s)
+
+        return safe_finished_s
+
+    def _create_key(self, block_hash: bytes) -> IPCCacheEngineKey:
+        """Convert a block hash to an IPC cache engine key"""
+        return IPCCacheEngineKey(
+            model_name=self.model_name,
+            world_size=self.world_size,
+            worker_id=self.worker_id,
+            chunk_hash=block_hash,
+        )
+
+    def _block_hashes_to_keys(
+        self, block_hashes: list[bytes]
+    ) -> list[IPCCacheEngineKey]:
+        """Convert block hashes to IPC cache engine keys"""
+        s = striding_block_hashes(block_hashes, self.blocks_in_chunk)
+        return [self._create_key(block_hash) for block_hash in s]
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/lmcache_mp_connector.py b/vllm/distributed/kv_transfer/kv_connector/v1/lmcache_mp_connector.py
new file mode 100644
index 0000000000000..55831dc56c803
--- /dev/null
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/lmcache_mp_connector.py
@@ -0,0 +1,867 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import enum
+from collections.abc import Iterable
+from dataclasses import dataclass, field
+from typing import TYPE_CHECKING, Any, Literal, Optional, cast
+
+import torch
+import zmq
+from lmcache.utils import init_logger as lmcache_init_logger
+
+from vllm.config import VllmConfig
+from vllm.distributed.kv_transfer.kv_connector.v1.base import (
+    KVConnectorBase_V1,
+    KVConnectorMetadata,
+    KVConnectorRole,
+)
+from vllm.distributed.kv_transfer.kv_connector.v1.lmcache_integration import (
+    LMCacheMPSchedulerAdapter,
+    LMCacheMPWorkerAdapter,
+    LoadStoreOp,
+)
+from vllm.v1.core.sched.output import SchedulerOutput
+from vllm.v1.outputs import KVConnectorOutput
+from vllm.v1.utils import ConstantList
+
+if TYPE_CHECKING:
+    from vllm.attention.backends.abstract import AttentionMetadata
+    from vllm.config import VllmConfig
+    from vllm.distributed.kv_events import KVCacheEvent
+    from vllm.distributed.kv_transfer.kv_connector.v1.metrics import (
+        KVConnectorPromMetrics,
+        KVConnectorStats,
+        PromMetric,
+        PromMetricT,
+    )
+    from vllm.forward_context import ForwardContext
+    from vllm.v1.core.kv_cache_manager import KVCacheBlocks
+    from vllm.v1.core.kv_cache_utils import BlockHash
+    from vllm.v1.kv_cache_interface import KVCacheConfig
+    from vllm.v1.request import Request
+
+logger = lmcache_init_logger(__name__)
+
+
+# Helper functions
+def reformat_block_ids(block_ids: tuple[list[int], ...] | None) -> list[int]:
+    if block_ids is None:
+        return []
+    assert isinstance(block_ids, tuple), (
+        f"Expected block_ids to be a tuple of lists, but got {type(block_ids)}"
+    )
+
+    if len(block_ids) > 1:
+        raise RuntimeError(
+            "LMCacheMPConnector only works without hybrid kv cache manager. "
+            "Please pass --disable-hybrid-kv-cache-manager when starting vllm"
+        )
+
+    return block_ids[0]
+
+
+def create_scheduler_adapter(
+    server_url: str, zmq_context: zmq.Context, vllm_config: VllmConfig
+) -> LMCacheMPSchedulerAdapter:
+    # TODO: have a helper function to calculate the correct rank and
+    # world size for the MLA and other models
+    return LMCacheMPSchedulerAdapter(
+        server_url,
+        zmq_context,
+        vllm_config.model_config.model,
+        vllm_config.parallel_config.world_size,
+        vllm_config.parallel_config.rank,
+        vllm_config.cache_config.block_size,
+    )
+
+
+def create_worker_adapter(
+    server_url: str, zmq_context: zmq.Context, vllm_config: VllmConfig
+) -> LMCacheMPWorkerAdapter:
+    # TODO: have a helper function to calculate the correct rank and
+    # world size for the MLA and other models
+    return LMCacheMPWorkerAdapter(
+        server_url,
+        zmq_context,
+        vllm_config.model_config.model,
+        vllm_config.parallel_config.world_size,
+        vllm_config.parallel_config.rank,
+        vllm_config.cache_config.block_size,
+    )
+
+
+def convert_block_hashes_to_bytes(
+    block_hashes: list["BlockHash"],
+) -> list[bytes]:
+    return cast(list[bytes], block_hashes)
+
+
+class LMCacheMPRequestState(enum.Enum):
+    """
+    State machine:
+    PREFETCHING -- update_state_after_alloc --> WAITING_FOR_LOAD
+    WAITING_FOR_LOAD -- process_loading_requests --> READY
+    """
+
+    PREFETCHING = enum.auto()
+    WAITING_FOR_LOAD = enum.auto()
+    READY = enum.auto()
+
+
+@dataclass
+class LMCacheMPRequestTracker:
+    # NOTE: this class used vLLM data structures, should be part of
+    # vLLM integration code
+
+    request_id: str
+
+    # Read-only lists to track the token ids and block hashes
+    all_token_ids: ConstantList[int]
+    block_hashes: ConstantList["BlockHash"]
+
+    # Block ids and hashes will be updated at update_states_after_alloc and
+    # during the generation
+    allocated_block_ids: list[int] = field(default_factory=list)
+
+    # Number of scheduled tokens in this request. We keep tracking this to
+    # avoid saving half-full blocks.
+    num_scheduled_tokens: int = 0
+
+    # Number of blocks stored will be initialized when lookup the external
+    # hit tokens and will be updated when processing new requests and cached
+    # requests.
+    num_stored_blocks: int = 0
+
+    # Staging load operation -- save vllm and lmcache hit tokens during lookup
+    num_vllm_hit_blocks: int = 0
+    num_lmcache_hit_blocks: int = 0
+
+    # Main state
+    state: LMCacheMPRequestState = LMCacheMPRequestState.PREFETCHING
+
+    def __init__(self, request: "Request"):
+        self.request_id = request.request_id
+        self.all_token_ids = request.all_token_ids
+        self.block_hashes = ConstantList(request.block_hashes)
+        self.allocated_block_ids = []
+        self.num_stored_blocks = 0
+        self.num_vllm_hit_blocks = 0
+        self.num_lmcache_hit_blocks = 0
+        self.state = LMCacheMPRequestState.PREFETCHING
+
+    ####
+    # Check the state of the request
+    ####
+    def needs_retrieve(self) -> bool:
+        """Check whether the current request needs retrieve, will be used
+        update_stage_after_alloc"""
+        return (
+            self.num_lmcache_hit_blocks > self.num_vllm_hit_blocks
+            and self.state != LMCacheMPRequestState.READY
+        )
+
+    def is_ready_for_retrieving(self) -> bool:
+        """Check whether the current request is ready for retrieving,
+        will be used in process_loading_requests"""
+        return (
+            self.state == LMCacheMPRequestState.WAITING_FOR_LOAD
+            and self.needs_retrieve()
+        )
+
+    ####
+    # Update internal states
+    ####
+    def increase_num_scheduled_tokens(self, num_new_tokens: int):
+        self.num_scheduled_tokens += num_new_tokens
+
+    def increase_num_stored_blocks(self, num_new_blocks: int):
+        """Increase the number of stored blocks for the current request
+        This function will be called when processing the cached requests.
+        """
+        self.num_stored_blocks += num_new_blocks
+
+    def update_block_ids(
+        self,
+        new_block_ids: list[int],
+    ):
+        """Update the block ids for the current request
+        This function will be called when processing the cached requests.
+        """
+        self.allocated_block_ids.extend(new_block_ids)
+
+    ####
+    # For debugging
+    ####
+    def __repr__(self) -> str:
+        return (
+            f"LMCacheMPRequestTracker(request_id={self.request_id}, "
+            f"num_tokens={len(self.all_token_ids)}, "
+            f"num_block_hashes={len(self.block_hashes)}, "
+            f"num_allocated_blocks={len(self.allocated_block_ids)}, "
+            f"num_stored_blocks={self.num_stored_blocks}, "
+            f"vllm_hit_blocks={self.num_vllm_hit_blocks}, "
+            f"lmcache_hit_blocks={self.num_lmcache_hit_blocks}, "
+            f"state={self.state})"
+        )
+
+    def __str__(self) -> str:
+        return self.__repr__()
+
+
+@dataclass
+class LMCacheMPRequestMetadata:
+    request_id: str
+    direction: Literal["STORE", "RETRIEVE"]
+    op: LoadStoreOp
+
+    @staticmethod
+    def GetStoreMetadata(
+        tracker: LMCacheMPRequestTracker,
+        blocks_in_chunk: int,
+        vllm_block_size: int,
+    ) -> "LMCacheMPRequestMetadata | None":
+        """
+        Generate the store metadata for the current request tracker.
+
+        Args:
+            tracker: The request tracker to generate the metadata from.
+            blocks_in_chunk: the number of blocks in a LMCache data chunk
+        """
+        # Store the blocks that has block hashes
+        # NOTE: the invariant here is that `num_stored_blocks` should
+        # always be a multiple of `blocks_in_chunk`
+        # TODO: This should be checked everytime we update the num_stored_blocks
+        min_available_blocks = min(
+            len(tracker.block_hashes),
+            len(tracker.allocated_block_ids),
+            tracker.num_scheduled_tokens // vllm_block_size,
+        )
+        num_staging_blocks = min_available_blocks - tracker.num_stored_blocks
+        num_chunks = num_staging_blocks // blocks_in_chunk
+
+        if num_chunks >= 1:
+            start = tracker.num_stored_blocks
+            end = start + num_chunks * blocks_in_chunk
+            block_hashes = convert_block_hashes_to_bytes(
+                tracker.block_hashes[start:end]
+            )
+            block_ids = tracker.allocated_block_ids[start:end]
+
+            ret = LMCacheMPRequestMetadata(
+                request_id=tracker.request_id,
+                direction="STORE",
+                op=LoadStoreOp(block_hashes=block_hashes, block_ids=block_ids),
+            )
+
+            # Update the request tracker
+            tracker.increase_num_stored_blocks(end - start)
+            return ret
+
+        return None
+
+    @staticmethod
+    def GetRetrieveMetadata(
+        tracker: LMCacheMPRequestTracker,
+        blocks_in_chunk: int,
+    ) -> "LMCacheMPRequestMetadata | None":
+        """
+        Generate the retrieve metadata for the current request tracker.
+
+        Args:
+            tracker: The request tracker to generate the metadata from.
+            blocks_in_chunk: the number of blocks in a LMCache data chunk
+        """
+        if not tracker.is_ready_for_retrieving():
+            return None
+
+        # |---------------------|-----------------|----------------|
+        # | num_vllm_hit_blocks |
+        # | lmcache chunk 1   | lmcache chunk 2   |
+        #                     |  need to retrieve |
+
+        start = tracker.num_vllm_hit_blocks // blocks_in_chunk * blocks_in_chunk
+        end = tracker.num_lmcache_hit_blocks
+        assert end % blocks_in_chunk == 0, (
+            "The number of LMCache hit blocks should be a multiple of the "
+            "number of blocks in a lmcache chunk. "
+        )
+        assert len(tracker.block_hashes) >= end, (
+            "The number of block hashes should be greater than or equal to the "
+            "number of LMCache hit blocks. "
+        )
+        if end > start:
+            block_hashes = convert_block_hashes_to_bytes(
+                tracker.block_hashes[start:end]
+            )
+            block_ids = tracker.allocated_block_ids[start:end]
+
+            ret = LMCacheMPRequestMetadata(
+                request_id=tracker.request_id,
+                direction="RETRIEVE",
+                op=LoadStoreOp(block_hashes=block_hashes, block_ids=block_ids),
+            )
+            return ret
+
+        return None
+
+
+class LMCacheMPConnectorMetadata(KVConnectorMetadata):
+    def __init__(self):
+        super().__init__()
+        self.requests: list[LMCacheMPRequestMetadata] = []
+
+    def add_request_metadata(self, request_metadata: LMCacheMPRequestMetadata):
+        self.requests.append(request_metadata)
+
+    def __len__(self):
+        return len(self.requests)
+
+    # For debugging
+    def __str__(self):
+        request_strs = []
+        for req_meta in self.requests:
+            request_strs.append(
+                f"RequestMetadata(request_id={req_meta.request_id}, "
+                f"direction={req_meta.direction}, "
+                f"num_blocks={len(req_meta.op)}, "
+                f"block_ids={req_meta.op.block_ids})"
+            )
+        return "[" + "\n".join(request_strs) + "]"
+
+    def __repr__(self):
+        return self.__str__()
+
+
+class LMCacheMPConnector(KVConnectorBase_V1):
+    """
+    The connector for LMCache multi-process mode.
+
+    Extra configs (kv_transfer_config.extra_config):
+    - lmcache.mp.host: the host of the LMCache server.
+    - lmcache.mp.port: the port of the LMCache server.
+    """
+
+    def __init__(
+        self,
+        vllm_config: "VllmConfig",
+        role: KVConnectorRole,
+        kv_cache_config: Optional["KVCacheConfig"] = None,
+    ):
+        super().__init__(vllm_config, role, kv_cache_config)
+
+        assert vllm_config.kv_transfer_config is not None
+        server_host = vllm_config.kv_transfer_config.get_from_extra_config(
+            "lmcache.mp.host", "tcp://localhost"
+        )
+        server_port = vllm_config.kv_transfer_config.get_from_extra_config(
+            "lmcache.mp.port", 5555
+        )
+
+        server_url = f"{server_host}:{server_port}"
+        zmq_context = zmq.Context.instance()
+        if self.role == KVConnectorRole.SCHEDULER:
+            self.scheduler_adapter = create_scheduler_adapter(
+                server_url, zmq_context, vllm_config
+            )
+            self.request_trackers: dict[str, LMCacheMPRequestTracker] = {}
+        elif self.role == KVConnectorRole.WORKER:
+            self.worker_adapter = create_worker_adapter(
+                server_url, zmq_context, vllm_config
+            )
+        else:
+            raise ValueError(f"Unknown KVConnectorRole: {self.role}")
+
+        self.vllm_block_size = vllm_config.cache_config.block_size
+
+    @property
+    def role(self) -> KVConnectorRole:
+        return self._role
+
+    # ==============================
+    # Worker-side methods
+    # ==============================
+
+    def _get_connector_metadata(self) -> KVConnectorMetadata:
+        """Get the connector metadata.
+
+        This function should only be called inside the connector.
+
+        Returns:
+            ConnectorMetadata: the connector metadata.
+        """
+
+        # Should only be called while set to valid metadata.
+        assert self._connector_metadata is not None
+        return self._connector_metadata
+
+    def register_kv_caches(self, kv_caches: dict[str, torch.Tensor]):
+        """
+        Initialize with the KV caches. Useful for pre-registering the
+        KV Caches in the KVConnector (e.g. for NIXL).
+
+        Args:
+            kv_caches: dictionary of layer names, kv cache
+        """
+        logger.info("Registering kv caches!")
+        self.worker_adapter.register_kv_caches(kv_caches)
+        return
+
+    def start_load_kv(self, forward_context: "ForwardContext", **kwargs: Any) -> None:
+        """
+        Start loading the KV cache from the connector to vLLM's paged
+        KV buffer. This is called from the forward context before the
+        forward pass to enable async loading during model execution.
+
+        Args:
+            forward_context (ForwardContext): the forward context.
+            **kwargs: additional arguments for the load operation
+
+        Note:
+            The number of elements in kv_caches and layer_names should be
+            the same.
+
+        """
+        metadata = self._get_connector_metadata()
+        assert isinstance(metadata, LMCacheMPConnectorMetadata)
+
+        with torch.cuda.stream(torch.cuda.current_stream()):
+            event = torch.cuda.Event(interprocess=True)
+            event.record()
+
+        request_ids = []
+        ops = []
+
+        for meta in metadata.requests:
+            if meta.direction != "RETRIEVE":
+                continue
+            request_ids.append(meta.request_id)
+            ops.append(meta.op)
+
+        if len(request_ids) > 0:
+            logger.info(
+                "HERE! SUBMITTING THE BATCHED RETRIEVE REQUESTS %s", request_ids
+            )
+            self.worker_adapter.batched_submit_retrieve_requests(
+                request_ids, ops, event
+            )
+
+    def wait_for_layer_load(self, layer_name: str) -> None:
+        """
+        Block until the KV for a specific layer is loaded into vLLM's
+        paged buffer. This is called from within attention layer to ensure
+        async copying from start_load_kv is complete.
+
+        This interface will be useful for layer-by-layer pipelining.
+
+        Args:
+            layer_name: the name of that layer
+        """
+        return
+
+    def save_kv_layer(
+        self,
+        layer_name: str,
+        kv_layer: torch.Tensor,
+        attn_metadata: "AttentionMetadata",
+        **kwargs: Any,
+    ) -> None:
+        """
+        Start saving a layer of KV cache from vLLM's paged buffer
+        to the connector. This is called from within attention layer to
+        enable async copying during execution.
+
+        Args:
+            layer_name (str): the name of the layer.
+            kv_layer (torch.Tensor): the paged KV buffer of the current
+                layer in vLLM.
+            attn_metadata (AttentionMetadata): the attention metadata.
+            **kwargs: additional arguments for the save operation.
+        """
+        return
+
+    def wait_for_save(self):
+        """
+        Block until all the save operations is done. This is called
+        as the forward context exits to ensure that the async saving
+        from save_kv_layer is complete before finishing the forward.
+
+        This prevents overwrites of paged KV buffer before saving done.
+        """
+        metadata = self._get_connector_metadata()
+        assert isinstance(metadata, LMCacheMPConnectorMetadata)
+
+        with torch.cuda.stream(torch.cuda.current_stream()):
+            event = torch.cuda.Event(interprocess=True)
+            event.record()
+
+        request_ids = []
+        ops = []
+        for meta in metadata.requests:
+            if meta.direction != "STORE":
+                continue
+            request_ids.append(meta.request_id)
+            ops.append(meta.op)
+
+        if len(request_ids) > 0:
+            self.worker_adapter.batched_submit_store_requests(request_ids, ops, event)
+
+    def get_finished(
+        self, finished_req_ids: set[str]
+    ) -> tuple[set[str] | None, set[str] | None]:
+        """
+        Notifies worker-side connector ids of requests that have
+        finished generating tokens on the worker.
+        The scheduler process (via the Executors) will use this output
+        to track which workers are done.
+
+        Returns:
+            ids of requests that have finished asynchronous transfer
+            (requests that previously returned True from request_finished()),
+            tuple of (sending/saving ids, recving/loading ids).
+            The finished saves/sends req ids must belong to a set provided in a
+            call to this method (this call or a prior one).
+        """
+        val = self.worker_adapter.get_finished(finished_req_ids)
+        # logger.error("Finished req ids: %s, %s", val[0], val[1])
+        return val
+
+    def get_block_ids_with_load_errors(self) -> set[int]:
+        """
+        Get the set of block IDs that failed to load.
+
+        Returns:
+            Set of block IDs that encountered load errors.
+            Empty set if no load errors occurred.
+
+        Notes:
+            - Applies to both sync- and async-loading requests.
+            - Async loading: failed blocks may be reported in any forward pass
+              up to and including the pass where the request ID is returned by
+              `get_finished()`. Even if failures occur, the request must still
+              be reported via `get_finished()`, and the failed block IDs must
+              appear here no later than that same pass.
+            - Sync loading: failed blocks should be reported in the forward
+              pass in which they are detected.
+        """
+        # TODO: add error tracking
+        return set()
+
+    def shutdown(self):
+        """
+        Shutdown the connector. This is called when the worker process
+        is shutting down to ensure that all the async operations are
+        completed and the connector is cleaned up properly.
+        """
+        if hasattr(self, "worker_adapter"):
+            self.worker_adapter.shutdown()
+        return None
+
+    def get_kv_connector_stats(self) -> Optional["KVConnectorStats"]:
+        """
+        Get the KV connector stats collected during the last interval.
+        """
+        return None
+
+    # ==============================
+    # Scheduler-side methods
+    # ==============================
+
+    def get_num_new_matched_tokens(
+        self,
+        request: "Request",
+        num_computed_tokens: int,
+    ) -> tuple[int | None, bool]:
+        """
+        Get number of new tokens that can be loaded from the
+        external KV cache beyond the num_computed_tokens.
+
+        Args:
+            request (Request): the request object.
+            num_computed_tokens (int): the number of locally
+                computed tokens for this request
+
+        Returns:
+            A tuple with the following elements:
+                - An optional number of tokens that can be loaded from the
+                  external KV cache beyond what is already computed.
+                  If None, it means that the connector needs more time to
+                  determine the number of matched tokens, and the scheduler
+                  should query for this request again later.
+                - `True` if external KV cache tokens will be loaded
+                  asynchronously (between scheduler steps). Must be
+                  'False' if the first element is 0.
+
+        Notes:
+            The connector should only consider the largest prefix of prompt-
+            tokens for which KV cache is actually available at the time of the
+            call. If the cache cannot be loaded for some tokens (e.g., due to
+            connectivity issues or eviction), those tokens must not be taken
+            into account.
+        """
+        tracker = self._get_or_create_request_tracker(request)
+
+        self.scheduler_adapter.maybe_submit_lookup_request(
+            request.request_id, convert_block_hashes_to_bytes(request.block_hashes)
+        )
+
+        ret = self.scheduler_adapter.check_lookup_result(request.request_id)
+        if ret is None:
+            return None, True
+
+        if ret == 0:
+            return 0, False
+
+        assert (
+            ret % (self.scheduler_adapter.num_blocks_per_chunk() * self.vllm_block_size)
+            == 0
+        )
+
+        # Update num stored blocks for the tracker
+        num_vllm_blocks = num_computed_tokens // self.vllm_block_size
+        num_lmcache_blocks = ret // self.vllm_block_size
+        tracker.increase_num_stored_blocks(num_lmcache_blocks)
+
+        # Save the vllm and lmcache hit tokens
+        tracker.num_vllm_hit_blocks = num_vllm_blocks
+        tracker.num_lmcache_hit_blocks = num_lmcache_blocks
+
+        need_to_load = max(0, ret - num_computed_tokens)
+        logger.debug(
+            "vLLM hit is: %d, Need to load is %d", num_computed_tokens, need_to_load
+        )
+        return need_to_load, need_to_load > 0
+
+    def update_state_after_alloc(
+        self, request: "Request", blocks: "KVCacheBlocks", num_external_tokens: int
+    ):
+        """
+        Update KVConnector state after block allocation.
+
+        If get_num_new_matched_tokens previously returned True for a
+        request, this function may be called twice for that same request -
+        first when blocks are allocated for the connector tokens to be
+        asynchronously loaded into, and second when any additional blocks
+        are allocated, after the load/transfer is complete.
+
+        Args:
+            request (Request): the request object.
+            blocks (KVCacheBlocks): the blocks allocated for the request.
+            num_external_tokens (int): the number of tokens that will be
+                loaded from the external KV cache.
+        """
+        # NOTE: the `blocks` are NEW BLOCKS allocated for this request.
+        tracker = self._get_request_tracker(request.request_id)
+        block_ids = reformat_block_ids(blocks.get_block_ids())
+
+        # No matter we need to retrieve or not, we need to update
+        # the block ids into the tracker
+        tracker.update_block_ids(block_ids)
+
+        # Update the state of the tracker
+        condition = tracker.needs_retrieve()
+        if tracker.state == LMCacheMPRequestState.PREFETCHING:
+            # If need to retrieve, change to WAITING_FOR_LOAD
+            # Otherwise, change to READY
+            tracker.state = (
+                LMCacheMPRequestState.WAITING_FOR_LOAD
+                if condition
+                else LMCacheMPRequestState.READY
+            )
+
+    def build_connector_meta(
+        self, scheduler_output: SchedulerOutput
+    ) -> KVConnectorMetadata:
+        """
+        Build the connector metadata for this step.
+
+        This function should NOT modify fields in the scheduler_output.
+        Also, calling this function will reset the state of the connector.
+
+        Args:
+            scheduler_output (SchedulerOutput): the scheduler output object.
+        """
+        metadata = LMCacheMPConnectorMetadata()
+
+        self._process_retrieve_requests(metadata)
+        self._process_new_requests(scheduler_output, metadata)
+        self._process_cached_requests(scheduler_output, metadata)
+
+        if len(metadata) > 0:
+            logger.debug("Final connector metadata: %s", metadata)
+
+        return metadata
+
+    def update_connector_output(self, connector_output: KVConnectorOutput):
+        """
+        Update KVConnector state from worker-side connectors output.
+
+        Args:
+            connector_output (KVConnectorOutput): the worker-side
+                connectors output.
+        """
+        return
+
+    def request_finished(
+        self,
+        request: "Request",
+        block_ids: list[int],
+    ) -> tuple[bool, dict[str, Any] | None]:
+        """
+        Called exactly once when a request has finished, before its blocks are
+        freed.
+
+        The connector may assumes responsibility for freeing the blocks
+        asynchronously by returning True.
+
+        Returns:
+            True if the request is being saved/sent asynchronously and blocks
+            should not be freed until the request_id is returned from
+            get_finished().
+            Optional KVTransferParams to be included in the request outputs
+            returned by the engine.
+        """
+        return True, None
+
+    def take_events(self) -> Iterable["KVCacheEvent"]:
+        """
+        Take the KV cache events from the connector.
+
+        Yields:
+            New KV cache events since the last call.
+        """
+        return ()
+
+    @classmethod
+    def get_required_kvcache_layout(cls, vllm_config: "VllmConfig") -> str | None:
+        """
+        Get the required KV cache layout for this connector.
+        Args:
+            vllm_config (VllmConfig): the vllm config.
+
+        Returns:
+            str: the required KV cache layout. e.g. HND, or NHD.
+            None if the connector does not require a specific layout.
+        """
+
+        if cls is KVConnectorBase_V1:
+            raise TypeError(
+                "get_required_kvcache_layout should not be called "
+                "on the abstract base class"
+            )
+        return None
+
+    def get_finished_count(self) -> int | None:
+        """
+        Get the count of requests expected to complete send/receive operations
+        via this connector. This method is used to initialize the
+        KVOutputAggregator, overwriting the default world_size.
+
+        Returns:
+            int: expected sending or receiving completion count.
+        """
+        return None
+
+    @classmethod
+    def build_kv_connector_stats(
+        cls, data: dict[str, Any] | None = None
+    ) -> Optional["KVConnectorStats"]:
+        """
+        KVConnectorStats resolution method. This method allows dynamically
+        registered connectors to return their own KVConnectorStats object,
+        which can implement custom aggregation logic on the data dict.
+        """
+        return None
+
+    @classmethod
+    def build_prom_metrics(
+        cls,
+        vllm_config: "VllmConfig",
+        metric_types: dict[type["PromMetric"], type["PromMetricT"]],
+        labelnames: list[str],
+        per_engine_labelvalues: dict[int, list[str]],
+    ) -> Optional["KVConnectorPromMetrics"]:
+        """
+        Create a KVConnectorPromMetrics subclass which should register
+        per-connector Prometheus metrics and implement observe() to
+        expose connector transfer stats via Prometheus.
+        """
+        return None
+
+    ##############################
+    # Helper functions
+    ##############################
+    def _process_retrieve_requests(
+        self,
+        metadata: LMCacheMPConnectorMetadata,
+    ) -> None:
+        blocks_per_chunk = self.scheduler_adapter.num_blocks_per_chunk()
+
+        for request_tracker in self.request_trackers.values():
+            if request_tracker.state != LMCacheMPRequestState.WAITING_FOR_LOAD:
+                continue
+            r_metadata = LMCacheMPRequestMetadata.GetRetrieveMetadata(
+                request_tracker, blocks_per_chunk
+            )
+            if r_metadata is not None:
+                metadata.add_request_metadata(r_metadata)
+            request_tracker.state = LMCacheMPRequestState.READY
+
+    def _process_new_requests(
+        self,
+        scheduler_output: SchedulerOutput,
+        metadata: LMCacheMPConnectorMetadata,
+    ) -> None:
+        blocks_per_chunk = self.scheduler_adapter.num_blocks_per_chunk()
+
+        for new_request in scheduler_output.scheduled_new_reqs:
+            request_tracker = self._get_request_tracker(new_request.req_id)
+
+            num_new_tokens = scheduler_output.num_scheduled_tokens[new_request.req_id]
+            request_tracker.increase_num_scheduled_tokens(num_new_tokens)
+
+            r_meta = LMCacheMPRequestMetadata.GetStoreMetadata(
+                request_tracker, blocks_per_chunk, self.vllm_block_size
+            )
+            if r_meta is not None:
+                metadata.add_request_metadata(r_meta)
+
+    def _process_cached_requests(
+        self,
+        scheduler_output: SchedulerOutput,
+        metadata: LMCacheMPConnectorMetadata,
+    ) -> None:
+        blocks_per_chunk = self.scheduler_adapter.num_blocks_per_chunk()
+
+        cached_reqs = scheduler_output.scheduled_cached_reqs
+        for idx, request_id in enumerate(cached_reqs.req_ids):
+            request_tracker = self._get_request_tracker(request_id)
+
+            # Update block ids
+            new_block_ids = reformat_block_ids(cached_reqs.new_block_ids[idx])
+            request_tracker.update_block_ids(new_block_ids)
+
+            # Update new scheduled tokens
+            num_new_tokens = cached_reqs.num_computed_tokens[idx]
+            request_tracker.increase_num_scheduled_tokens(num_new_tokens)
+
+            r_meta = LMCacheMPRequestMetadata.GetStoreMetadata(
+                request_tracker, blocks_per_chunk, self.vllm_block_size
+            )
+
+            if r_meta is not None:
+                metadata.add_request_metadata(r_meta)
+
+    def _get_request_tracker(self, request_id: str) -> LMCacheMPRequestTracker:
+        assert request_id in self.request_trackers, (
+            f"Request tracker for request_id {request_id} not found. "
+        )
+        return self.request_trackers[request_id]
+
+    def _get_or_create_request_tracker(
+        self, request: "Request"
+    ) -> LMCacheMPRequestTracker:
+        request_id = request.request_id
+        if request_id not in self.request_trackers:
+            new_tracker = LMCacheMPRequestTracker(request)
+            self.request_trackers[request_id] = new_tracker
+        return self.request_trackers[request_id]

From 58ce8d12b741b5bafe6bd0fb878727baea6171fe Mon Sep 17 00:00:00 2001
From: Andy Lo <andy@mistral.ai>
Date: Wed, 12 Nov 2025 20:29:21 +0000
Subject: [PATCH 372/976] [BugFix] Priority scheduling and spec tokens
 preemption (#28558)

Signed-off-by: Andy Lo <andy@mistral.ai>
---
 .../v1/core/test_priority_scheduler_random.py | 252 ++++++++++++++++++
 vllm/v1/core/sched/scheduler.py               |  14 +
 2 files changed, 266 insertions(+)
 create mode 100644 tests/v1/core/test_priority_scheduler_random.py

diff --git a/tests/v1/core/test_priority_scheduler_random.py b/tests/v1/core/test_priority_scheduler_random.py
new file mode 100644
index 0000000000000..b4805be802723
--- /dev/null
+++ b/tests/v1/core/test_priority_scheduler_random.py
@@ -0,0 +1,252 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import random
+import uuid
+
+import pytest
+
+from vllm.config import VllmConfig
+from vllm.multimodal.inputs import (
+    MultiModalFeatureSpec,
+    MultiModalKwargsItem,
+    PlaceholderRange,
+)
+from vllm.sampling_params import SamplingParams
+from vllm.utils.hashing import get_hash_fn_by_name
+from vllm.v1.core.kv_cache_utils import get_request_block_hasher, init_none_hash
+from vllm.v1.core.sched.output import SchedulerOutput
+from vllm.v1.outputs import DraftTokenIds, ModelRunnerOutput
+from vllm.v1.request import Request
+
+from .test_scheduler import create_scheduler_with_priority
+from .utils import EOS_TOKEN_ID
+
+pytestmark = pytest.mark.cpu_test
+
+
+def _create_random_request(
+    max_tokens_range: tuple[int, int],
+    num_tokens_range: tuple[int, int],
+    arrival_time_range: tuple[float, float],
+    priority_range: tuple[int, int],
+    num_mm_item_range: tuple[int, int],
+    vllm_config: VllmConfig,
+):
+    max_tokens = random.randint(*max_tokens_range)
+    num_tokens = random.randint(*num_tokens_range)
+    priority = random.randint(*priority_range)
+    arrival_time = random.uniform(*arrival_time_range)
+    num_mm_item = random.randint(*num_mm_item_range)
+
+    mm_positions: list[PlaceholderRange] = []
+    for mm_start in sorted(
+        random.sample(range(num_tokens), min(num_mm_item, num_tokens))
+    ):
+        if mm_start + 10 > num_tokens:
+            continue
+        mm_positions.append(PlaceholderRange(offset=mm_start, length=10))
+
+    request_id = uuid.uuid4().hex
+
+    sampling_params = SamplingParams(
+        ignore_eos=False,
+        max_tokens=max_tokens,
+    )
+    mm_features = []
+    for j, position in enumerate(mm_positions):
+        identifier = f"{request_id}_hash_{j}"
+        mm_feature = MultiModalFeatureSpec(
+            data=MultiModalKwargsItem.dummy("dummy_m"),
+            mm_position=position,
+            identifier=identifier,
+            modality="image",
+        )
+        mm_features.append(mm_feature)
+
+    prompt_token_ids = random.choices(range(100), k=num_tokens)
+
+    caching_hash_fn = get_hash_fn_by_name(
+        vllm_config.cache_config.prefix_caching_hash_algo
+    )
+    init_none_hash(caching_hash_fn)
+    block_hasher = get_request_block_hasher(
+        vllm_config.cache_config.block_size, caching_hash_fn
+    )
+
+    request = Request(
+        request_id=request_id,
+        prompt_token_ids=prompt_token_ids,
+        sampling_params=sampling_params,
+        pooling_params=None,
+        mm_features=mm_features if mm_features else None,
+        eos_token_id=EOS_TOKEN_ID,
+        arrival_time=arrival_time,
+        priority=priority,
+        block_hasher=block_hasher,
+    )
+    return request
+
+
+def _mock_execute_model(
+    scheduler_output: SchedulerOutput, num_output_tokens_range: tuple[int, int]
+) -> ModelRunnerOutput:
+    request_ids: list[str] = []
+    request_ids.extend(req.req_id for req in scheduler_output.scheduled_new_reqs)
+    request_ids.extend(scheduler_output.scheduled_cached_reqs.req_ids)
+    random.shuffle(request_ids)
+
+    num_output_tokens = [
+        random.randint(*num_output_tokens_range) for _ in range(len(request_ids))
+    ]
+    sampled_token_ids = [
+        [random.randint(0, 100) for _ in range(num_tokens)]
+        for num_tokens in num_output_tokens
+    ]
+
+    return ModelRunnerOutput(
+        req_ids=request_ids,
+        req_id_to_index={req_id: i for i, req_id in enumerate(request_ids)},
+        sampled_token_ids=sampled_token_ids,
+        logprobs=None,
+        prompt_logprobs_dict={},
+        pooler_output=[],
+    )
+
+
+def _mock_draft_token_ids(
+    scheduler_output: SchedulerOutput,
+    num_output_tokens_range: tuple[int, int],
+    seen_request_prompt_length: dict[str, int],
+) -> DraftTokenIds:
+    request_ids: list[str] = []
+    sampled_token_ids: list[list[int]] = []
+    for request in scheduler_output.scheduled_new_reqs:
+        assert request.req_id not in seen_request_prompt_length
+        seen_request_prompt_length[request.req_id] = len(request.prompt_token_ids or [])
+        if request.num_computed_tokens >= seen_request_prompt_length[request.req_id]:
+            num_tokens = random.randint(*num_output_tokens_range)
+            request_ids.append(request.req_id)
+            sampled_token_ids.append(
+                [random.randint(0, 100) for _ in range(num_tokens)]
+            )
+    for req_id, num_computed_tokens in zip(
+        scheduler_output.scheduled_cached_reqs.req_ids,
+        scheduler_output.scheduled_cached_reqs.num_computed_tokens,
+    ):
+        if num_computed_tokens >= seen_request_prompt_length[req_id]:
+            num_tokens = random.randint(*num_output_tokens_range)
+            request_ids.append(req_id)
+            sampled_token_ids.append(
+                [random.randint(0, 100) for _ in range(num_tokens)]
+            )
+    return DraftTokenIds(req_ids=request_ids, draft_token_ids=sampled_token_ids)
+
+
+def _chech_valid_scheduler_output(
+    scheduler_output: SchedulerOutput,
+    seen_request_ids: set[str],
+    seen_mm_hashes: set[str],
+):
+    for req in scheduler_output.scheduled_new_reqs:
+        assert req.req_id not in seen_request_ids
+        seen_request_ids.add(req.req_id)
+    for req_id in scheduler_output.scheduled_cached_reqs.req_ids:
+        assert req_id in seen_request_ids
+
+    req_ids = set[str]()
+    req_ids.update(req.req_id for req in scheduler_output.scheduled_new_reqs)
+    req_ids.update(scheduler_output.scheduled_cached_reqs.req_ids)
+
+    assert set(scheduler_output.num_scheduled_tokens.keys()) == req_ids
+    assert (
+        sum(scheduler_output.num_scheduled_tokens.values())
+        == scheduler_output.total_num_scheduled_tokens
+    )
+
+    assert set(scheduler_output.scheduled_spec_decode_tokens.keys()) <= req_ids
+    assert set(scheduler_output.scheduled_encoder_inputs.keys()) <= req_ids
+
+    for req in scheduler_output.scheduled_new_reqs:
+        for mm_feature in req.mm_features:
+            seen_mm_hashes.add(mm_feature.identifier)
+    for mm_hash in scheduler_output.free_encoder_mm_hashes:
+        assert mm_hash in seen_mm_hashes
+
+    assert scheduler_output.finished_req_ids <= seen_request_ids
+
+
+@pytest.mark.parametrize("enable_prefix_caching", [True, False])
+@pytest.mark.parametrize("num_speculative_tokens", [None, 1, 5])
+@pytest.mark.parametrize(
+    ("max_input_tokens", "max_output_tokens", "max_num_seqs", "num_blocks"),
+    [
+        # Standard profile
+        (5000, 500, 256, 10000),
+        # Generation heavy + high max_num_seqs + low num_blocks -> Many preemptions
+        (500, 5000, 1024, 1000),
+    ],
+    ids=["standard", "preemption"],
+)
+def test_priority_scheduling_blast(
+    enable_prefix_caching: bool,
+    num_speculative_tokens: int | None,
+    max_input_tokens: int,
+    max_output_tokens: int,
+    max_num_seqs: int,
+    num_blocks: int,
+):
+    random.seed(42)
+    seen_request_prompt_length = dict[str, int]()
+    seen_request_ids = set[str]()
+    seen_mm_hashes = set[str]()
+
+    scheduler = create_scheduler_with_priority(
+        model="Qwen/Qwen2.5-VL-3B-Instruct",
+        max_num_seqs=max_num_seqs,
+        enable_prefix_caching=enable_prefix_caching,
+        num_blocks=num_blocks,
+        num_speculative_tokens=num_speculative_tokens,
+    )
+
+    num_initial_requests = 10
+    for _ in range(num_initial_requests):
+        req = _create_random_request(
+            max_tokens_range=(1, max_output_tokens),
+            num_tokens_range=(1, max_input_tokens),
+            arrival_time_range=(0, 1),
+            priority_range=(-3, 3),
+            num_mm_item_range=(0, 2),
+            vllm_config=scheduler.vllm_config,
+        )
+        scheduler.add_request(req)
+
+    for _ in range(20000):
+        if len(scheduler.waiting) == 0:
+            num_new_requests = random.randint(0, 2)
+            for _ in range(num_new_requests):
+                req = _create_random_request(
+                    max_tokens_range=(1, max_output_tokens),
+                    num_tokens_range=(1, max_input_tokens),
+                    arrival_time_range=(0, 1),
+                    priority_range=(-3, 3),
+                    num_mm_item_range=(0, 2),
+                    vllm_config=scheduler.vllm_config,
+                )
+                scheduler.add_request(req)
+        scheduler_output = scheduler.schedule()
+        _chech_valid_scheduler_output(
+            scheduler_output, seen_request_ids, seen_mm_hashes
+        )
+        model_output = _mock_execute_model(
+            scheduler_output,
+            num_output_tokens_range=(1, 1 + (num_speculative_tokens or 0)),
+        )
+        scheduler.update_from_output(scheduler_output, model_output)
+        if num_speculative_tokens is not None:
+            scheduler.update_draft_token_ids(
+                _mock_draft_token_ids(
+                    scheduler_output,
+                    (0, num_speculative_tokens),
+                    seen_request_prompt_length,
+                )
+            )
diff --git a/vllm/v1/core/sched/scheduler.py b/vllm/v1/core/sched/scheduler.py
index 8455746cd56d2..4fcc7955df195 100644
--- a/vllm/v1/core/sched/scheduler.py
+++ b/vllm/v1/core/sched/scheduler.py
@@ -300,6 +300,20 @@ class Scheduler(SchedulerInterface):
                             ]
                             req_to_new_blocks.pop(preempted_req.request_id)
                             num_scheduled_tokens.pop(preempted_req.request_id)
+                            scheduled_spec_decode_tokens.pop(
+                                preempted_req.request_id, None
+                            )
+                            preempted_encoder_inputs = scheduled_encoder_inputs.pop(
+                                preempted_req.request_id, None
+                            )
+                            if preempted_encoder_inputs:
+                                # Restore encoder compute budget if the preempted
+                                # request had encoder inputs scheduled in this step.
+                                num_tokens_to_restore = sum(
+                                    preempted_req.get_num_encoder_tokens(i)
+                                    for i in preempted_encoder_inputs
+                                )
+                                encoder_compute_budget += num_tokens_to_restore
                             req_index -= 1
                     else:
                         preempted_req = self.running.pop()

From 478ee511de0776159163877924f7e77ce1f472d0 Mon Sep 17 00:00:00 2001
From: Wei Wei <wwei6@meta.com>
Date: Wed, 12 Nov 2025 12:59:43 -0800
Subject: [PATCH 373/976] [Misc]Fix typo in llm_engine.py (#28584)

Signed-off-by: Wei Wei <wwei6@meta.com>
---
 vllm/v1/engine/llm_engine.py | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/vllm/v1/engine/llm_engine.py b/vllm/v1/engine/llm_engine.py
index d27d13840989e..6224af5700b7b 100644
--- a/vllm/v1/engine/llm_engine.py
+++ b/vllm/v1/engine/llm_engine.py
@@ -281,11 +281,11 @@ class LLMEngine:
             return []
 
         # 1) Get EngineCoreOutput from the EngineCore.
-        with record_function_or_nullcontext("llm_genine step: get_output"):
+        with record_function_or_nullcontext("llm_engine step: get_output"):
             outputs = self.engine_core.get_output()
 
         # 2) Process EngineCoreOutputs.
-        with record_function_or_nullcontext("llm_genine step: process_outputs"):
+        with record_function_or_nullcontext("llm_engine step: process_outputs"):
             iteration_stats = IterationStats() if self.log_stats else None
             processed_outputs = self.output_processor.process_outputs(
                 outputs.outputs,
@@ -295,11 +295,11 @@ class LLMEngine:
             self.output_processor.update_scheduler_stats(outputs.scheduler_stats)
 
         # 3) Abort any reqs that finished due to stop strings.
-        with record_function_or_nullcontext("llm_genine step: abort_requests"):
+        with record_function_or_nullcontext("llm_engine step: abort_requests"):
             self.engine_core.abort_requests(processed_outputs.reqs_to_abort)
 
         # 4) Record stats
-        with record_function_or_nullcontext("llm_genine step: record_stats"):
+        with record_function_or_nullcontext("llm_engine step: record_stats"):
             if self.logger_manager is not None and outputs.scheduler_stats is not None:
                 self.logger_manager.record(
                     scheduler_stats=outputs.scheduler_stats,

From 74a9a9faad062e6fe90f7d238b5fad7e2f3da237 Mon Sep 17 00:00:00 2001
From: Varun Sundar Rabindranath <varunsundar08@gmail.com>
Date: Wed, 12 Nov 2025 16:13:03 -0500
Subject: [PATCH 374/976] [Performance][B200] Fix deepgemm prologue (#27897)

Signed-off-by: Varun Sundar Rabindranath <vsundarr@redhat.com>
Co-authored-by: Varun Sundar Rabindranath <vsundarr@redhat.com>
---
 .../layers/fused_moe/batched_deep_gemm_moe.py |  7 ++
 .../fused_moe/deepep_ll_prepare_finalize.py   | 29 ++++++++
 .../layers/fused_moe/modular_kernel.py        | 25 +++++++
 .../model_executor/layers/quantization/fp8.py | 74 +++++++++----------
 .../layers/quantization/utils/fp8_utils.py    | 57 +++++++++++++-
 vllm/utils/deep_gemm.py                       | 19 ++++-
 6 files changed, 163 insertions(+), 48 deletions(-)

diff --git a/vllm/model_executor/layers/fused_moe/batched_deep_gemm_moe.py b/vllm/model_executor/layers/fused_moe/batched_deep_gemm_moe.py
index b8a97e92ab790..869082f8231d1 100644
--- a/vllm/model_executor/layers/fused_moe/batched_deep_gemm_moe.py
+++ b/vllm/model_executor/layers/fused_moe/batched_deep_gemm_moe.py
@@ -232,6 +232,7 @@ class BatchedDeepGemmExperts(mk.FusedMoEPermuteExpertsUnpermute):
         """
         super().__init__(quant_config)
         assert self.block_shape == get_mk_alignment_for_contiguous_layout()
+        assert self.quant_config.use_fp8_w8a8
         self.max_num_tokens = max_num_tokens
         self.num_dispatchers = num_dispatchers
 
@@ -250,6 +251,12 @@ class BatchedDeepGemmExperts(mk.FusedMoEPermuteExpertsUnpermute):
     def supports_expert_map(self) -> bool:
         return False
 
+    def supports_packed_ue8m0_act_scales(self) -> bool:
+        """
+        DeepGemm supports packed ue8m0 activation scales format in devices == sm100
+        """
+        return current_platform.is_device_capability(100)
+
     def finalize_weight_and_reduce_impl(self) -> mk.TopKWeightAndReduce:
         # Let PrepareAndFinalize::finalize() decide the impl.
         return TopKWeightAndReduceDelegate()
diff --git a/vllm/model_executor/layers/fused_moe/deepep_ll_prepare_finalize.py b/vllm/model_executor/layers/fused_moe/deepep_ll_prepare_finalize.py
index 500bcefcfaa92..06c9df317f7c7 100644
--- a/vllm/model_executor/layers/fused_moe/deepep_ll_prepare_finalize.py
+++ b/vllm/model_executor/layers/fused_moe/deepep_ll_prepare_finalize.py
@@ -6,6 +6,7 @@ import deep_ep
 import torch
 
 import vllm.model_executor.layers.fused_moe.modular_kernel as mk
+from vllm.logger import init_logger
 from vllm.model_executor.layers.fused_moe.config import FusedMoEQuantConfig
 from vllm.model_executor.layers.fused_moe.topk_weight_and_reduce import (
     TopKWeightAndReduceDelegate,
@@ -20,6 +21,8 @@ from vllm.v1.worker.ubatching import (
     dbo_maybe_run_recv_hook,
 )
 
+logger = init_logger(__name__)
+
 # DeepEP kernels quantize dispatch inputs in 128 element chunks.
 DEEPEP_QUANT_BLOCK_SIZE = 128
 DEEPEP_QUANT_BLOCK_SHAPE = [DEEPEP_QUANT_BLOCK_SIZE, DEEPEP_QUANT_BLOCK_SIZE]
@@ -94,6 +97,29 @@ class DeepEPLLPrepareAndFinalize(mk.FusedMoEPrepareAndFinalize):
         self.handles: list[tuple | None] = [None, None]
         self.num_dispatchers_ = num_dispatchers
 
+        # We don't have enough information to determine if we should dispatch
+        # activation scales in a packed ue8m0 format during object construction
+        # time. This setting is handled by post_init_setup.
+        self.use_ue8m0_dispatch = False
+
+    def post_init_setup(self, fused_experts: mk.FusedMoEPermuteExpertsUnpermute):
+        if not fused_experts.supports_packed_ue8m0_act_scales():
+            # Early exit.
+            return
+
+        if self.use_fp8_dispatch:
+            logger.debug_once(
+                "Update DeepEPLLPrepareFinalize to do packed ue8m0 scales dispatch."
+            )
+            self.use_ue8m0_dispatch = True
+        else:
+            logger.warning_once(
+                "DeepEPLLPrepareAndFinalize is setup to dispatch raw/unquantized "
+                f"activations despite ({fused_experts.__class__.__name__}) being able "
+                "to support quantized activations.",
+                scope="local",
+            )
+
     def num_dispatchers(self) -> int:
         return self.num_dispatchers_
 
@@ -206,6 +232,9 @@ class DeepEPLLPrepareAndFinalize(mk.FusedMoEPrepareAndFinalize):
             self.max_tokens_per_rank,
             num_experts,
             use_fp8=self.use_fp8_dispatch,
+            # round_scale needs to be set to dispatch in ue8m0
+            round_scale=self.use_ue8m0_dispatch,
+            use_ue8m0=self.use_ue8m0_dispatch,
             async_finish=False,
             return_recv_hook=True,
         )
diff --git a/vllm/model_executor/layers/fused_moe/modular_kernel.py b/vllm/model_executor/layers/fused_moe/modular_kernel.py
index b5fa2c71bec58..a3142f37053f9 100644
--- a/vllm/model_executor/layers/fused_moe/modular_kernel.py
+++ b/vllm/model_executor/layers/fused_moe/modular_kernel.py
@@ -149,6 +149,15 @@ class FusedMoEPrepareAndFinalize(ABC):
     described above.
     """
 
+    def post_init_setup(self, fused_experts: "FusedMoEPermuteExpertsUnpermute"):
+        """
+        Initialize FusedMoEPrepareAndFinalize settings that depend on
+        FusedMoEPermuteExpertsUnpermute experts object.
+        The FusedMoEPrepareAndFinalize implementations that have such
+        dependencies may choose to override this function.
+        """
+        return
+
     @abstractmethod
     def prepare(
         self,
@@ -503,6 +512,13 @@ class FusedMoEPermuteExpertsUnpermute(ABC):
         """
         raise NotImplementedError
 
+    def supports_packed_ue8m0_act_scales(self) -> bool:
+        """
+        A flag indicating whether or not this class can process packed ue8m0
+        activation scales.
+        """
+        return False
+
     def workspace_dtype(self, act_dtype: torch.dtype) -> torch.dtype:
         """
         Workspace type: The dtype to use for the workspace tensors.
@@ -698,6 +714,8 @@ class FusedMoEModularKernel(torch.nn.Module):
         self.prepare_finalize = prepare_finalize
         self.fused_experts = fused_experts
         self.shared_experts = shared_experts
+
+        self._post_init_setup()
         assert (
             prepare_finalize.activation_format == fused_experts.activation_formats[0]
         ), (
@@ -707,6 +725,13 @@ class FusedMoEModularKernel(torch.nn.Module):
             f"{fused_experts.activation_formats[0]}"
         )
 
+    def _post_init_setup(self):
+        """
+        Resolve any leftover setup dependencies between self.prepare_finalize
+        and self.fused_experts here.
+        """
+        self.prepare_finalize.post_init_setup(self.fused_experts)
+
     def supports_expert_map(self) -> bool:
         """
         A flag indicating whether or not this class supports expert maps.
diff --git a/vllm/model_executor/layers/quantization/fp8.py b/vllm/model_executor/layers/quantization/fp8.py
index cb065eb68b66b..bbd0a4df1048b 100644
--- a/vllm/model_executor/layers/quantization/fp8.py
+++ b/vllm/model_executor/layers/quantization/fp8.py
@@ -60,11 +60,10 @@ from vllm.model_executor.layers.quantization.utils.fp8_utils import (
     create_fp8_input_scale,
     create_fp8_scale_parameter,
     create_fp8_weight_parameter,
-    expert_weight_is_col_major,
+    deepgemm_post_process_fp8_weight_block,
     maybe_post_process_fp8_weight_block,
     process_fp8_weight_block_strategy,
     process_fp8_weight_tensor_strategy,
-    requant_weight_ue8m0_inplace,
     validate_fp8_block_shape,
 )
 from vllm.model_executor.layers.quantization.utils.marlin_utils_fp8 import (
@@ -94,7 +93,6 @@ from vllm.model_executor.utils import set_weight_attrs
 from vllm.platforms import current_platform
 from vllm.scalar_type import scalar_types
 from vllm.utils.deep_gemm import (
-    get_col_major_tma_aligned_tensor,
     is_deep_gemm_e8m0_used,
     is_deep_gemm_supported,
 )
@@ -846,15 +844,31 @@ class Fp8MoEMethod(FusedMoEMethodBase):
 
             # DeepGemm scales need to be transposed and aligned. We try to do
             # it ahead of time for performance reasons.
-            if self.allow_deep_gemm and not is_deep_gemm_e8m0_used():
-                if expert_weight_is_col_major(layer.w13_weight_scale_inv):
-                    layer.w13_weight_scale_inv = get_col_major_tma_aligned_tensor(
-                        layer.w13_weight_scale_inv
+            if self.allow_deep_gemm:
+                dg_w13_weight, dg_w13_weight_scale_inv = (
+                    deepgemm_post_process_fp8_weight_block(
+                        wq=layer.w13_weight.data,
+                        ws=layer.w13_weight_scale_inv.data,
+                        quant_block_shape=tuple(layer.weight_block_size),
+                        use_e8m0=is_deep_gemm_e8m0_used(),
                     )
-                if expert_weight_is_col_major(layer.w2_weight_scale_inv):
-                    layer.w2_weight_scale_inv = get_col_major_tma_aligned_tensor(
-                        layer.w2_weight_scale_inv
+                )
+                dg_w2_weight, dg_w2_weight_scale_inv = (
+                    deepgemm_post_process_fp8_weight_block(
+                        wq=layer.w2_weight.data,
+                        ws=layer.w2_weight_scale_inv.data,
+                        quant_block_shape=tuple(layer.weight_block_size),
+                        use_e8m0=is_deep_gemm_e8m0_used(),
                     )
+                )
+                layer.w13_weight = Parameter(dg_w13_weight, requires_grad=False)
+                layer.w13_weight_scale_inv = Parameter(
+                    dg_w13_weight_scale_inv, requires_grad=False
+                )
+                layer.w2_weight = Parameter(dg_w2_weight, requires_grad=False)
+                layer.w2_weight_scale_inv = Parameter(
+                    dg_w2_weight_scale_inv, requires_grad=False
+                )
 
         # If checkpoint is fp16, quantize in place.
         elif not self.quant_config.is_checkpoint_fp8_serialized:
@@ -990,31 +1004,6 @@ class Fp8MoEMethod(FusedMoEMethodBase):
             del layer.w13_input_scale
             del layer.w2_input_scale
 
-        if is_deep_gemm_e8m0_used() and self.block_quant:
-            assert layer.weight_block_size is not None
-            # Re-quantise the expert weights so their scales are UE8M0.
-            block_sz = tuple(layer.weight_block_size)
-            requant_weight_ue8m0_inplace(
-                layer.w13_weight.data,
-                layer.w13_weight_scale_inv.data,
-                block_sz,
-            )
-            requant_weight_ue8m0_inplace(
-                layer.w2_weight.data,
-                layer.w2_weight_scale_inv.data,
-                block_sz,
-            )
-
-            # Ensure column-major TMA alignment expected by DeepGEMM.
-            if expert_weight_is_col_major(layer.w13_weight_scale_inv):
-                layer.w13_weight_scale_inv = get_col_major_tma_aligned_tensor(
-                    layer.w13_weight_scale_inv
-                )
-            if expert_weight_is_col_major(layer.w2_weight_scale_inv):
-                layer.w2_weight_scale_inv = get_col_major_tma_aligned_tensor(
-                    layer.w2_weight_scale_inv
-                )
-
     def maybe_make_prepare_finalize(self) -> mk.FusedMoEPrepareAndFinalize | None:
         if (
             self.rocm_aiter_moe_enabled
@@ -1037,7 +1026,8 @@ class Fp8MoEMethod(FusedMoEMethodBase):
         layer: torch.nn.Module,
     ) -> FusedMoEPermuteExpertsUnpermute:
         from vllm.model_executor.layers.fused_moe import (
-            BatchedTritonOrDeepGemmExperts,
+            BatchedDeepGemmExperts,
+            BatchedTritonExperts,
             TritonOrDeepGemmExperts,
         )
 
@@ -1053,20 +1043,24 @@ class Fp8MoEMethod(FusedMoEMethodBase):
         ):
             max_num_tokens_per_rank = prepare_finalize.max_num_tokens_per_rank()
             assert max_num_tokens_per_rank is not None
+
+            experts_impl = (
+                BatchedDeepGemmExperts if self.allow_deep_gemm else BatchedTritonExperts
+            )
             logger.debug(
-                "BatchedTritonOrDeepGemmExperts(%s): "
-                "max_tokens_per_rank=%s, block_size=%s, per_act_token=%s",
+                "%s(%s): max_tokens_per_rank=%s, block_size=%s, per_act_token=%s",
+                experts_impl.__name__,
                 self.__class__.__name__,
                 max_num_tokens_per_rank,
                 self.weight_block_size,
                 False,
             )
-            return BatchedTritonOrDeepGemmExperts(
+            return experts_impl(
                 max_num_tokens=max_num_tokens_per_rank,
                 num_dispatchers=prepare_finalize.num_dispatchers(),
                 quant_config=self.moe_quant_config,
-                allow_deep_gemm=self.allow_deep_gemm,
             )
+
         elif self.flashinfer_moe_backend == FlashinferMoeBackend.CUTLASS:
             experts = select_cutlass_fp8_gemm_impl(
                 self.moe,
diff --git a/vllm/model_executor/layers/quantization/utils/fp8_utils.py b/vllm/model_executor/layers/quantization/utils/fp8_utils.py
index 4384857f9270d..03d086bda8e3a 100644
--- a/vllm/model_executor/layers/quantization/utils/fp8_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/fp8_utils.py
@@ -34,6 +34,7 @@ from vllm.utils.deep_gemm import (
     is_deep_gemm_e8m0_used,
     is_deep_gemm_supported,
     should_use_deepgemm_for_fp8_linear,
+    transform_sf_into_required_layout,
 )
 from vllm.utils.torch_utils import direct_register_custom_op
 
@@ -929,6 +930,50 @@ def requant_weight_ue8m0_inplace(
         s_old.copy_(s_requant)
 
 
+def deepgemm_post_process_fp8_weight_block(
+    wq: torch.Tensor, ws: torch.Tensor, quant_block_shape: tuple[int], use_e8m0: bool
+) -> tuple[torch.Tensor, torch.Tensor]:
+    assert wq.dtype == torch.float8_e4m3fn, (
+        "Expected quantized tensor dtype "
+        f"to be torch.float8_e4m3fn, got {wq.dtype} instead."
+    )
+    assert ws.dtype == torch.float32, (
+        f"Expected tensor scales dtype to be torch.float32, got {ws.dtype} instead"
+    )
+
+    if use_e8m0:
+        requant_weight_ue8m0_inplace(wq, ws, block_size=quant_block_shape)
+
+    original_ndim = wq.ndim
+    if wq.ndim == 2:
+        assert ws.ndim == 2
+        wq = wq.unsqueeze(0)
+        ws = ws.unsqueeze(0)
+
+    # From https://github.com/deepseek-ai/DeepGEMM/blob/c9f8b34dcdacc20aa746b786f983492c51072870/csrc/utils/layout.hpp#L46
+    recipe = (1, 128, 128)
+
+    # Ref : https://github.com/deepseek-ai/DeepGEMM/blob/c9f8b34dcdacc20aa746b786f983492c51072870/csrc/apis/gemm.hpp
+    # DeepGemm uses the `transform_sf_into_required_layout` function to
+    # represent scales in the correct format.
+    dg_ws = transform_sf_into_required_layout(
+        sf=ws,
+        mn=wq.size(1),
+        k=wq.size(2),
+        recipe=recipe,
+        num_groups=wq.size(0),
+        # is the scale factors for A in (Refers to the argument A in A @ B).
+        # Weights are B.
+        is_sfa=False,
+    )
+
+    if original_ndim == 2:
+        wq = wq.squeeze(0)
+        dg_ws = dg_ws.squeeze(0)
+
+    return wq, dg_ws
+
+
 def _maybe_pad_fp8_weight(weight: torch.Tensor) -> torch.Tensor:
     """Pad the weight tensor. This is an optimization on ROCm platform, which
     can benefit from tensors located far enough from one another in memory"""
@@ -1141,11 +1186,15 @@ def maybe_post_process_fp8_weight_block(layer: torch.nn.Module):
     should_use_deepgemm = should_use_deepgemm_for_fp8_linear(
         layer.orig_dtype, layer.weight
     )
-    if is_deep_gemm_e8m0_used() and should_use_deepgemm:
-        block_sz = tuple(layer.weight_block_size)
-        requant_weight_ue8m0_inplace(
-            layer.weight.data, layer.weight_scale.data, block_sz
+    if should_use_deepgemm:
+        dg_weight, dg_weight_scale = deepgemm_post_process_fp8_weight_block(
+            wq=layer.weight.data,
+            ws=layer.weight_scale.data,
+            quant_block_shape=tuple(layer.weight_block_size),
+            use_e8m0=is_deep_gemm_e8m0_used(),
         )
+        layer.weight = torch.nn.Parameter(dg_weight, requires_grad=False)
+        layer.weight_scale = torch.nn.Parameter(dg_weight_scale, requires_grad=False)
 
 
 def expert_weight_is_col_major(x: torch.Tensor) -> bool:
diff --git a/vllm/utils/deep_gemm.py b/vllm/utils/deep_gemm.py
index a928cce09011f..4c15baf7a8f93 100644
--- a/vllm/utils/deep_gemm.py
+++ b/vllm/utils/deep_gemm.py
@@ -49,10 +49,6 @@ def is_deep_gemm_e8m0_used() -> bool:
         logger.info_once("DeepGEMM E8M0 disabled: _fp8_gemm_nt_impl not found")
         return False
 
-    if envs.VLLM_USE_FLASHINFER_MOE_FP8:
-        logger.info_once("DeepGEMM E8M0 disabled: FlashInfer MOE is enabled.")
-        return False
-
     if envs.VLLM_USE_DEEP_GEMM_E8M0:
         logger.info_once("DeepGEMM E8M0 enabled on current platform.")
         return True
@@ -77,6 +73,7 @@ _fp8_paged_mqa_logits_impl: Callable[..., Any] | None = None
 _get_paged_mqa_logits_metadata_impl: Callable[..., Any] | None = None
 _get_mn_major_tma_aligned_tensor_impl: Callable[..., Any] | None = None
 _get_mk_alignment_for_contiguous_layout_impl: Callable[..., Any] | None = None
+_transform_sf_into_required_layout_impl: Callable[..., Any] | None = None
 
 
 def _lazy_init() -> None:
@@ -86,6 +83,7 @@ def _lazy_init() -> None:
     global _get_paged_mqa_logits_metadata_impl
     global _get_mn_major_tma_aligned_tensor_impl
     global _get_mk_alignment_for_contiguous_layout_impl
+    global _transform_sf_into_required_layout_impl
     # fast path
     if (
         _fp8_gemm_nt_impl is not None
@@ -95,6 +93,7 @@ def _lazy_init() -> None:
         or _fp8_paged_mqa_logits_impl is not None
         or _get_paged_mqa_logits_metadata_impl is not None
         or _get_mk_alignment_for_contiguous_layout_impl is not None
+        or _transform_sf_into_required_layout_impl is not None
     ):
         return
 
@@ -124,6 +123,9 @@ def _lazy_init() -> None:
     _get_mk_alignment_for_contiguous_layout_impl = getattr(
         _dg, "get_mk_alignment_for_contiguous_layout", None
     )
+    _transform_sf_into_required_layout_impl = getattr(
+        _dg, "transform_sf_into_required_layout", None
+    )
 
 
 def get_num_sms() -> int:
@@ -179,6 +181,15 @@ def fp8_m_grouped_gemm_nt_masked(*args, **kwargs):
     )
 
 
+def transform_sf_into_required_layout(*args, **kwargs):
+    _lazy_init()
+    if _transform_sf_into_required_layout_impl is None:
+        return _missing(*args, **kwargs)
+    return _transform_sf_into_required_layout_impl(
+        *args, disable_ue8m0_cast=not is_deep_gemm_e8m0_used(), **kwargs
+    )
+
+
 def fp8_mqa_logits(
     q: torch.Tensor,
     kv: tuple[torch.Tensor, torch.Tensor],

From d8140b98337a253f73dedd58c7d1e9b8832a9e3f Mon Sep 17 00:00:00 2001
From: vllmellm <vllm.ellm@embeddedllm.com>
Date: Thu, 13 Nov 2025 05:46:57 +0800
Subject: [PATCH 375/976] [ROCM] Fix ROCm warnings, environment flag access,
 and GEMM kernel naming for consistency in `_aiter_ops.py` (#28464)

Signed-off-by: vllmellm <vllm.ellm@embeddedllm.com>
---
 vllm/_aiter_ops.py                            | 49 ++++++++++---------
 .../quantization/kernels/scaled_mm/aiter.py   |  2 +-
 .../layers/quantization/utils/fp8_utils.py    |  2 +-
 vllm/model_executor/layers/utils.py           |  4 +-
 vllm/platforms/rocm.py                        |  5 +-
 5 files changed, 33 insertions(+), 29 deletions(-)

diff --git a/vllm/_aiter_ops.py b/vllm/_aiter_ops.py
index 8d35aa65738b2..5508e59bcd2f5 100644
--- a/vllm/_aiter_ops.py
+++ b/vllm/_aiter_ops.py
@@ -32,13 +32,13 @@ def if_aiter_supported(func: Callable) -> Callable:
     def wrapper(*args, **kwargs):
         # checks the platform, device arch and aiter library existance.
 
-        from vllm.platforms.rocm import on_gfx9
+        if current_platform.is_rocm() and IS_AITER_FOUND:
+            from vllm.platforms.rocm import on_gfx9
 
-        if current_platform.is_rocm() and on_gfx9() and IS_AITER_FOUND:
-            return func(*args, **kwargs)
-        else:
-            # Return None or do nothing if not supported
-            return None
+            if on_gfx9():
+                return func(*args, **kwargs)
+
+        return None
 
     return wrapper
 
@@ -296,7 +296,7 @@ def _rocm_aiter_mla_decode_fwd_fake(
     pass
 
 
-def _rocm_aiter_gemm_w8a8_impl(
+def _rocm_aiter_gemm_a8w8_impl(
     A: torch.Tensor,
     B: torch.Tensor,
     As: torch.Tensor,
@@ -313,7 +313,7 @@ def _rocm_aiter_gemm_w8a8_impl(
     return gemm_a8w8_CK(A, B, As, Bs, bias, output_dtype)
 
 
-def _rocm_aiter_gemm_w8a8_fake(
+def _rocm_aiter_gemm_a8w8_fake(
     A: torch.Tensor,
     B: torch.Tensor,
     As: torch.Tensor,
@@ -327,7 +327,7 @@ def _rocm_aiter_gemm_w8a8_fake(
     return Y
 
 
-def _rocm_aiter_gemm_w8a8_blockscale_impl(
+def _rocm_aiter_gemm_a8w8_blockscale_impl(
     A: torch.Tensor,
     B: torch.Tensor,
     As: torch.Tensor,
@@ -339,7 +339,7 @@ def _rocm_aiter_gemm_w8a8_blockscale_impl(
     return gemm_a8w8_blockscale(A, B, As, Bs, dtype=output_dtype)
 
 
-def _rocm_aiter_gemm_w8a8_blockscale_fake(
+def _rocm_aiter_gemm_a8w8_blockscale_fake(
     A: torch.Tensor,
     B: torch.Tensor,
     As: torch.Tensor,
@@ -419,6 +419,7 @@ class rocm_aiter_ops:
     _FP4_GEMM_DYNAMIC_QUANT_ASM = envs.VLLM_ROCM_USE_AITER_FP4_ASM_GEMM
     _TRITON_ROTARY_EMBED = envs.VLLM_ROCM_USE_AITER_TRITON_ROPE
     _MOE_SHARED_EXPERTS_ENABLED = envs.VLLM_ROCM_USE_AITER_FUSION_SHARED_EXPERTS
+    _TRITON_UNQUANT_GEMM = envs.VLLM_ROCM_USE_AITER_TRITON_GEMM
 
     @classmethod
     @if_aiter_supported
@@ -494,6 +495,11 @@ class rocm_aiter_ops:
     def is_triton_rotary_embed_enabled(cls) -> bool:
         return cls._AITER_ENABLED and cls._TRITON_ROTARY_EMBED
 
+    @classmethod
+    @if_aiter_supported
+    def is_triton_gemm_enabled(cls) -> bool:
+        return cls._AITER_ENABLED and cls._TRITON_UNQUANT_GEMM
+
     @staticmethod
     @if_aiter_supported
     def register_ops_once() -> None:
@@ -555,18 +561,18 @@ class rocm_aiter_ops:
             )
 
             direct_register_custom_op(
-                op_name="rocm_aiter_gemm_w8a8",
-                op_func=_rocm_aiter_gemm_w8a8_impl,
+                op_name="rocm_aiter_gemm_a8w8",
+                op_func=_rocm_aiter_gemm_a8w8_impl,
                 mutates_args=[],
-                fake_impl=_rocm_aiter_gemm_w8a8_fake,
+                fake_impl=_rocm_aiter_gemm_a8w8_fake,
                 dispatch_key=current_platform.dispatch_key,
             )
 
             direct_register_custom_op(
-                op_name="rocm_aiter_gemm_w8a8_blockscale",
-                op_func=_rocm_aiter_gemm_w8a8_blockscale_impl,
+                op_name="rocm_aiter_gemm_a8w8_blockscale",
+                op_func=_rocm_aiter_gemm_a8w8_blockscale_impl,
                 mutates_args=[],
-                fake_impl=_rocm_aiter_gemm_w8a8_blockscale_fake,
+                fake_impl=_rocm_aiter_gemm_a8w8_blockscale_fake,
                 dispatch_key=current_platform.dispatch_key,
             )
 
@@ -606,7 +612,7 @@ class rocm_aiter_ops:
         return torch.ops.vllm.rocm_aiter_rms_norm(x, weight, variance_epsilon)
 
     @staticmethod
-    def gemm_w8a8(
+    def gemm_a8w8(
         A: torch.Tensor,
         B: torch.Tensor,
         As: torch.Tensor,
@@ -614,10 +620,10 @@ class rocm_aiter_ops:
         bias: torch.Tensor | None = None,
         output_dtype: torch.dtype = torch.float16,
     ) -> torch.Tensor:
-        return torch.ops.vllm.rocm_aiter_gemm_w8a8(A, B, As, Bs, bias, output_dtype)
+        return torch.ops.vllm.rocm_aiter_gemm_a8w8(A, B, As, Bs, bias, output_dtype)
 
     @staticmethod
-    def gemm_w8a8_blockscale(
+    def gemm_a8w8_blockscale(
         A: torch.Tensor,
         B: torch.Tensor,
         As: torch.Tensor,
@@ -625,7 +631,7 @@ class rocm_aiter_ops:
         block_size: list[int],
         output_dtype: torch.dtype = torch.float16,
     ) -> torch.Tensor:
-        return torch.ops.vllm.rocm_aiter_gemm_w8a8_blockscale(
+        return torch.ops.vllm.rocm_aiter_gemm_a8w8_blockscale(
             A, B, As, Bs, output_dtype
         )
 
@@ -938,5 +944,4 @@ class rocm_aiter_ops:
         return tuple(shuffle_weight(tensor, layout=layout) for tensor in tensors)
 
 
-if IS_AITER_FOUND:
-    rocm_aiter_ops.register_ops_once()
+rocm_aiter_ops.register_ops_once()
diff --git a/vllm/model_executor/layers/quantization/kernels/scaled_mm/aiter.py b/vllm/model_executor/layers/quantization/kernels/scaled_mm/aiter.py
index f5cd91469b788..038a92c516cec 100644
--- a/vllm/model_executor/layers/quantization/kernels/scaled_mm/aiter.py
+++ b/vllm/model_executor/layers/quantization/kernels/scaled_mm/aiter.py
@@ -117,4 +117,4 @@ class AiterScaledMMLinearKernel(CutlassScaledMMLinearKernel):
         # a to be [M, K]
         # b to be [N, K]
         # CutlassScaledMMLinearKernel prepare weight `w_q` in [K, N] format
-        return rocm_aiter_ops.gemm_w8a8(x_q, w_q.t(), x_s, w_s, bias, out_dtype)
+        return rocm_aiter_ops.gemm_a8w8(x_q, w_q.t(), x_s, w_s, bias, out_dtype)
diff --git a/vllm/model_executor/layers/quantization/utils/fp8_utils.py b/vllm/model_executor/layers/quantization/utils/fp8_utils.py
index 03d086bda8e3a..541c6c631053d 100644
--- a/vllm/model_executor/layers/quantization/utils/fp8_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/fp8_utils.py
@@ -328,7 +328,7 @@ class W8A8BlockFp8LinearOp:
         if use_triton:
             gemm_a8w8_blockscale_op = rocm_aiter_ops.triton_gemm_a8w8_blockscale
         else:
-            gemm_a8w8_blockscale_op = rocm_aiter_ops.gemm_w8a8_blockscale
+            gemm_a8w8_blockscale_op = rocm_aiter_ops.gemm_a8w8_blockscale
 
         if input_scale is not None:
             q_input = input_2d
diff --git a/vllm/model_executor/layers/utils.py b/vllm/model_executor/layers/utils.py
index b17bdd0b72078..68262a2703f99 100644
--- a/vllm/model_executor/layers/utils.py
+++ b/vllm/model_executor/layers/utils.py
@@ -8,6 +8,7 @@ import torch
 
 from vllm import _custom_ops as ops
 from vllm import envs
+from vllm._aiter_ops import rocm_aiter_ops
 from vllm.logger import init_logger
 from vllm.platforms import CpuArchEnum, current_platform
 from vllm.utils.torch_utils import direct_register_custom_op
@@ -105,8 +106,7 @@ def default_unquantized_gemm(
 
 def use_aiter_triton_gemm(n, m, k, dtype):
     if (
-        envs.VLLM_ROCM_USE_AITER == 0
-        or envs.VLLM_ROCM_USE_AITER_TRITON_GEMM == 0
+        not rocm_aiter_ops.is_triton_gemm_enabled()
         # MI300's - fp8nuz=True
         or current_platform.is_fp8_fnuz()
         or dtype not in [torch.float16, torch.bfloat16]
diff --git a/vllm/platforms/rocm.py b/vllm/platforms/rocm.py
index 5fa8969b860ef..d977d999de672 100644
--- a/vllm/platforms/rocm.py
+++ b/vllm/platforms/rocm.py
@@ -325,6 +325,7 @@ class RocmPlatform(Platform):
 
     @classmethod
     def check_and_update_config(cls, vllm_config: "VllmConfig") -> None:
+        from vllm._aiter_ops import rocm_aiter_ops
         from vllm.config.compilation import CUDAGraphMode
 
         cache_config = vllm_config.cache_config
@@ -332,9 +333,7 @@ class RocmPlatform(Platform):
         parallel_config = vllm_config.parallel_config
         is_eager_execution = compilation_config == CUDAGraphMode.NONE
 
-        use_aiter_rms_norm = (
-            envs.VLLM_ROCM_USE_AITER and envs.VLLM_ROCM_USE_AITER_RMSNORM
-        )
+        use_aiter_rms_norm = rocm_aiter_ops.is_rmsnorm_enabled()
 
         if cache_config and cache_config.block_size is None:
             cache_config.block_size = 16

From 3eb0c2673e128714073f7e3fd105cf962a4c8c16 Mon Sep 17 00:00:00 2001
From: QiliangCui <derrhein@gmail.com>
Date: Wed, 12 Nov 2025 14:31:14 -0800
Subject: [PATCH 376/976] [TPU] Support GCS path in VLLM_TORCH_PROFILER_DIR
 (#28487)

Signed-off-by: Qiliang Cui <derrhein@gmail.com>
---
 vllm/envs.py | 8 +++++---
 1 file changed, 5 insertions(+), 3 deletions(-)

diff --git a/vllm/envs.py b/vllm/envs.py
index b99e2524318fd..8e2f872c069c7 100755
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -824,9 +824,11 @@ environment_variables: dict[str, Callable[[], Any]] = {
     # Note that it must be an absolute path.
     "VLLM_TORCH_PROFILER_DIR": lambda: (
         None
-        if os.getenv("VLLM_TORCH_PROFILER_DIR", None) is None
-        else os.path.abspath(
-            os.path.expanduser(os.getenv("VLLM_TORCH_PROFILER_DIR", "."))
+        if (val := os.getenv("VLLM_TORCH_PROFILER_DIR")) is None
+        else (
+            val
+            if val.startswith("gs://") and val[5:] and val[5] != "/"
+            else os.path.abspath(os.path.expanduser(val))
         )
     ),
     # Enable torch profiler to record shapes if set

From 10f01d5a3a5c1570e36e15cd57eb3cc1534483d6 Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Wed, 12 Nov 2025 18:14:13 -0500
Subject: [PATCH 377/976] [Bugfix] Adjust Marlin CUDA arch selection to
 8.0+PTX;9.0+PTX (#28294)

---
 CMakeLists.txt | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/CMakeLists.txt b/CMakeLists.txt
index 5cddf81a4b4aa..ad63649d4b16d 100644
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -331,7 +331,7 @@ if(VLLM_GPU_LANG STREQUAL "CUDA")
   # Keep building Marlin for 9.0 as there are some group sizes and shapes that
   # are not supported by Machete yet.
   # 9.0 for latest bf16 atomicAdd PTX
-  cuda_archs_loose_intersection(MARLIN_ARCHS "8.0;8.7;9.0+PTX" "${CUDA_ARCHS}")
+  cuda_archs_loose_intersection(MARLIN_ARCHS "8.0+PTX;9.0+PTX" "${CUDA_ARCHS}")
   if (MARLIN_ARCHS)
 
     #
@@ -915,7 +915,7 @@ if(VLLM_GPU_LANG STREQUAL "CUDA")
 
   list(APPEND VLLM_MOE_EXT_SRC "${VLLM_MOE_WNA16_SRC}")
   # 9.0 for latest bf16 atomicAdd PTX
-  cuda_archs_loose_intersection(MARLIN_MOE_ARCHS "8.0;8.7;9.0+PTX" "${CUDA_ARCHS}")
+  cuda_archs_loose_intersection(MARLIN_MOE_ARCHS "8.0+PTX;9.0+PTX" "${CUDA_ARCHS}")
   if (MARLIN_MOE_ARCHS)
 
     #

From 4ca5cd5740c0cd7788cdfa8b7ec6a27335607a48 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=E2=84=8D=F0=9D=95=A0=F0=9D=95=9D=F0=9D=95=9D=F0=9D=95=A0?=
 =?UTF-8?q?=F0=9D=95=A8=20=F0=9D=95=84=F0=9D=95=92=F0=9D=95=9F?=
 <hollowman@opensuse.org>
Date: Thu, 13 Nov 2025 01:24:12 +0200
Subject: [PATCH 378/976] [Core][AMD] Migrate fully transparent sleep mode to
 ROCm platform (#12695)

Signed-off-by: Hollow Man <hollowman@opensuse.org>
Signed-off-by: tjtanaa <tunjian.tan@embeddedllm.com>
Co-authored-by: tjtanaa <tunjian.tan@embeddedllm.com>
Co-authored-by: kliuae <kuanfu.liu@embeddedllm.com>
---
 CMakeLists.txt                                |  30 +-
 csrc/cumem_allocator.cpp                      | 409 +++++++++++++++++-
 csrc/cumem_allocator_compat.h                 | 109 +++++
 docs/features/sleep_mode.md                   |   6 +-
 setup.py                                      |   4 +-
 tests/basic_correctness/test_cumem.py         |   9 +-
 vllm/config/model.py                          |   3 +-
 vllm/device_allocator/cumem.py                |   2 +-
 .../device_communicators/cuda_wrapper.py      |  30 +-
 vllm/envs.py                                  |   5 +
 vllm/platforms/interface.py                   |   6 +-
 11 files changed, 582 insertions(+), 31 deletions(-)
 create mode 100644 csrc/cumem_allocator_compat.h

diff --git a/CMakeLists.txt b/CMakeLists.txt
index ad63649d4b16d..dcc44be87e557 100644
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -39,6 +39,13 @@ set(PYTHON_SUPPORTED_VERSIONS "3.10" "3.11" "3.12" "3.13")
 # Supported AMD GPU architectures.
 set(HIP_SUPPORTED_ARCHS "gfx906;gfx908;gfx90a;gfx942;gfx950;gfx1030;gfx1100;gfx1101;gfx1200;gfx1201;gfx1150;gfx1151")
 
+# ROCm installation prefix. Default to /opt/rocm but allow override via
+# -DROCM_PATH=/your/rocm/path when invoking cmake.
+if(NOT DEFINED ROCM_PATH)
+  set(ROCM_PATH "/opt/rocm" CACHE PATH "ROCm installation prefix")
+else()
+  set(ROCM_PATH ${ROCM_PATH} CACHE PATH "ROCm installation prefix" FORCE)
+endif()
 #
 # Supported/expected torch versions for CUDA/ROCm.
 #
@@ -237,10 +244,27 @@ set_gencode_flags_for_srcs(
   SRCS "${VLLM_CUMEM_EXT_SRC}"
   CUDA_ARCHS "${CUDA_ARCHS}")
 
-if(VLLM_GPU_LANG STREQUAL "CUDA")
+if(VLLM_GPU_LANG STREQUAL "CUDA" OR VLLM_GPU_LANG STREQUAL "HIP")
   message(STATUS "Enabling cumem allocator extension.")
-  # link against cuda driver library
-  list(APPEND CUMEM_LIBS CUDA::cuda_driver)
+  if(VLLM_GPU_LANG STREQUAL "CUDA")
+    # link against cuda driver library
+    list(APPEND CUMEM_LIBS CUDA::cuda_driver)
+  else()
+    # link against rocm driver library. Prefer an absolute path to
+    # libamdhip64.so inside ${ROCM_PATH}/lib if available, otherwise fall
+    # back to linking by name "amdhip64".
+    find_library(AMDHIP64_LIB
+      NAMES amdhip64 libamdhip64.so
+      PATHS ${ROCM_PATH}/lib
+      NO_DEFAULT_PATH)
+    if(AMDHIP64_LIB)
+      message(STATUS "Found libamdhip64 at ${AMDHIP64_LIB}")
+      list(APPEND CUMEM_LIBS ${AMDHIP64_LIB})
+    else()
+      message(WARNING "libamdhip64 not found in ${ROCM_PATH}/lib; falling back to linking 'amdhip64' by name")
+      list(APPEND CUMEM_LIBS amdhip64)
+    endif()
+  endif()
   define_extension_target(
     cumem_allocator
     DESTINATION vllm
diff --git a/csrc/cumem_allocator.cpp b/csrc/cumem_allocator.cpp
index fab6ca36d422e..78dc840a98b67 100644
--- a/csrc/cumem_allocator.cpp
+++ b/csrc/cumem_allocator.cpp
@@ -3,14 +3,58 @@
 // need to be unsigned long long
 #include <iostream>
 
+#include "cumem_allocator_compat.h"
+
+#ifndef USE_ROCM
+static const char* PYARGS_PARSE = "KKKK";
+#else
+  #include <cstdlib>
+  #include <cerrno>
+  #include <climits>
+
+// Default chunk size 256MB for ROCm. Can be overridden at runtime by the
+// environment variable VLLM_ROCM_SLEEP_MEM_CHUNK_SIZE, specified in megabytes
+// (MB). The env value is parsed with strtoull as an integer number of MB
+// (decimal or 0x hex). The parsed MB value is converted to bytes. If
+// parsing fails, the value is 0, or the multiplication would overflow,
+// the default (256MB) is used.
+static const unsigned long long DEFAULT_MEMCREATE_CHUNK_SIZE =
+    (256ULL * 1024ULL * 1024ULL);
+
+static unsigned long long get_memcreate_chunk_size() {
+  const char* env = getenv("VLLM_ROCM_SLEEP_MEM_CHUNK_SIZE");
+  if (!env) return DEFAULT_MEMCREATE_CHUNK_SIZE;
+  char* endptr = nullptr;
+  errno = 0;
+  unsigned long long val_mb = strtoull(env, &endptr, 0);
+  if (endptr == env || errno != 0) {
+    // parsing failed, fallback to default
+    return DEFAULT_MEMCREATE_CHUNK_SIZE;
+  }
+  if (val_mb == 0) return DEFAULT_MEMCREATE_CHUNK_SIZE;
+
+  const unsigned long long MB = 1024ULL * 1024ULL;
+  // guard against overflow when converting MB -> bytes
+  if (val_mb > (ULLONG_MAX / MB)) {
+    return DEFAULT_MEMCREATE_CHUNK_SIZE;
+  }
+  return val_mb * MB;
+}
+
+static inline unsigned long long my_min(unsigned long long a,
+                                        unsigned long long b) {
+  return a < b ? a : b;
+}
+
+static const char* PYARGS_PARSE = "KKKO";
+#endif
+
 extern "C" {
 
 #define PY_SSIZE_T_CLEAN
 #include <Python.h>
 
 #include <sys/types.h>
-#include <cuda_runtime_api.h>
-#include <cuda.h>
 
 char error_msg[10240];  // 10KB buffer to store error messages
 CUresult no_error = CUresult(0);
@@ -49,7 +93,12 @@ void ensure_context(unsigned long long device) {
 }
 
 void create_and_map(unsigned long long device, ssize_t size, CUdeviceptr d_mem,
+#ifndef USE_ROCM
                     CUmemGenericAllocationHandle* p_memHandle) {
+#else
+                    CUmemGenericAllocationHandle** p_memHandle,
+                    unsigned long long* chunk_sizes, size_t num_chunks) {
+#endif
   ensure_context(device);
   // Define memory allocation properties
   CUmemAllocationProp prop = {};
@@ -58,6 +107,7 @@ void create_and_map(unsigned long long device, ssize_t size, CUdeviceptr d_mem,
   prop.location.id = device;
   prop.allocFlags.compressionType = CU_MEM_ALLOCATION_COMP_NONE;
 
+#ifndef USE_ROCM
   // Allocate memory using cuMemCreate
   CUDA_CHECK(cuMemCreate(p_memHandle, size, &prop, 0));
   if (error_code != 0) {
@@ -67,6 +117,39 @@ void create_and_map(unsigned long long device, ssize_t size, CUdeviceptr d_mem,
   if (error_code != 0) {
     return;
   }
+#else
+  for (auto i = 0; i < num_chunks; ++i) {
+    CUDA_CHECK(cuMemCreate(p_memHandle[i], chunk_sizes[i], &prop, 0));
+    if (error_code != 0) {
+      // Clean up previously created handles
+      for (auto j = 0; j < i; ++j) {
+        cuMemRelease(*(p_memHandle[j]));
+      }
+      return;
+    }
+  }
+  unsigned long long allocated_size = 0;
+  for (auto i = 0; i < num_chunks; ++i) {
+    void* map_addr = (void*)((uintptr_t)d_mem + allocated_size);
+    CUDA_CHECK(cuMemMap(map_addr, chunk_sizes[i], 0, *(p_memHandle[i]), 0));
+    if (error_code != 0) {
+      // unmap previously mapped chunks
+      unsigned long long unmapped_size = 0;
+      for (auto j = 0; j < i; ++j) {
+        void* unmap_addr = (void*)((uintptr_t)d_mem + unmapped_size);
+        cuMemUnmap(unmap_addr, chunk_sizes[j]);
+        unmapped_size += chunk_sizes[j];
+      }
+      // release all created handles
+      for (auto j = 0; j < num_chunks; ++j) {
+        cuMemRelease(*(p_memHandle[j]));
+      }
+      return;
+    }
+    allocated_size += chunk_sizes[i];
+  }
+#endif
+
   CUmemAccessDesc accessDesc = {};
   accessDesc.location.type = CU_MEM_LOCATION_TYPE_DEVICE;
   accessDesc.location.id = device;
@@ -82,10 +165,16 @@ void create_and_map(unsigned long long device, ssize_t size, CUdeviceptr d_mem,
 
 void unmap_and_release(unsigned long long device, ssize_t size,
                        CUdeviceptr d_mem,
+#ifndef USE_ROCM
                        CUmemGenericAllocationHandle* p_memHandle) {
+#else
+                       CUmemGenericAllocationHandle** p_memHandle,
+                       unsigned long long* chunk_sizes, size_t num_chunks) {
+#endif
   // std::cout << "unmap_and_release: device=" << device << ", size=" << size <<
   // ", d_mem=" << d_mem << ", p_memHandle=" << p_memHandle << std::endl;
   ensure_context(device);
+#ifndef USE_ROCM
   CUDA_CHECK(cuMemUnmap(d_mem, size));
   if (error_code != 0) {
     return;
@@ -94,6 +183,30 @@ void unmap_and_release(unsigned long long device, ssize_t size,
   if (error_code != 0) {
     return;
   }
+#else
+  unsigned long long allocated_size = 0;
+  CUresult first_error = no_error;
+
+  for (auto i = 0; i < num_chunks; ++i) {
+    void* map_addr = (void*)((uintptr_t)d_mem + allocated_size);
+    CUresult status = cuMemUnmap(map_addr, chunk_sizes[i]);
+    if (status != no_error && first_error == no_error) {
+      first_error = status;
+    }
+    allocated_size += chunk_sizes[i];
+  }
+
+  for (auto i = 0; i < num_chunks; ++i) {
+    CUresult status = cuMemRelease(*(p_memHandle[i]));
+    if (status != no_error && first_error == no_error) {
+      first_error = status;
+    }
+  }
+
+  if (first_error != no_error) {
+    CUDA_CHECK(first_error);
+  }
+#endif
 }
 
 PyObject* create_tuple_from_c_integers(unsigned long long a,
@@ -120,6 +233,36 @@ PyObject* create_tuple_from_c_integers(unsigned long long a,
   return tuple;  // Return the created tuple
 }
 
+PyObject* create_tuple_from_c_mixed(unsigned long long a, unsigned long long b,
+                                    unsigned long long c,
+                                    CUmemGenericAllocationHandle** vec,
+                                    unsigned long long* chunk_sizes,
+                                    size_t num_chunks) {
+  PyObject* tuple = PyTuple_New(4);
+  if (!tuple) {
+    return NULL;
+  }
+
+  // PyObject* list = PyList_New(vec.size());
+  PyObject* list = PyList_New(num_chunks);
+  for (auto i = 0; i < num_chunks; ++i) {
+    PyObject* addr_size_pair = PyTuple_New(2);
+    PyObject* addr = PyLong_FromUnsignedLongLong((unsigned long long)(vec[i]));
+    PyObject* size =
+        PyLong_FromUnsignedLongLong((unsigned long long)(chunk_sizes[i]));
+    PyTuple_SetItem(addr_size_pair, 0, addr);
+    PyTuple_SetItem(addr_size_pair, 1, size);
+    PyList_SetItem(list, i, addr_size_pair);
+  }
+
+  PyTuple_SetItem(tuple, 0, PyLong_FromUnsignedLongLong(a));
+  PyTuple_SetItem(tuple, 1, PyLong_FromUnsignedLongLong(b));
+  PyTuple_SetItem(tuple, 2, PyLong_FromUnsignedLongLong(c));
+  PyTuple_SetItem(tuple, 3, list);
+
+  return tuple;
+}
+
 // ---------------------------------------------------------------------------
 // Our exported C functions that call Python:
 
@@ -147,14 +290,55 @@ void* my_malloc(ssize_t size, int device, CUstream stream) {
   size_t alignedSize = ((size + granularity - 1) / granularity) * granularity;
 
   CUdeviceptr d_mem;
+#ifndef USE_ROCM
   CUDA_CHECK(cuMemAddressReserve(&d_mem, alignedSize, 0, 0, 0));
   if (error_code != 0) {
     return nullptr;
   }
+#else
+  CUDA_CHECK(cuMemAddressReserve(&d_mem, alignedSize, granularity, 0, 0));
+  if (error_code != 0) {
+    return nullptr;
+  }
+#endif
+
+#ifndef USE_ROCM
   // allocate the CUmemGenericAllocationHandle
   CUmemGenericAllocationHandle* p_memHandle =
       (CUmemGenericAllocationHandle*)malloc(
           sizeof(CUmemGenericAllocationHandle));
+#else
+  // Make sure chunk size is aligned with hardware granularity. The base
+  // chunk size can be configured via environment variable
+  // ``VLLM_ROCM_SLEEP_MEM_CHUNK_SIZE``; otherwise
+  // DEFAULT_MEMCREATE_CHUNK_SIZE is used.
+  size_t base_chunk = (size_t)get_memcreate_chunk_size();
+  size_t aligned_chunk_size =
+      ((base_chunk + granularity - 1) / granularity) * granularity;
+  size_t num_chunks =
+      (alignedSize + aligned_chunk_size - 1) / aligned_chunk_size;
+  CUmemGenericAllocationHandle** p_memHandle =
+      (CUmemGenericAllocationHandle**)malloc(
+          num_chunks * sizeof(CUmemGenericAllocationHandle*));
+  unsigned long long* chunk_sizes =
+      (unsigned long long*)malloc(num_chunks * sizeof(unsigned long long));
+  for (auto i = 0; i < num_chunks; ++i) {
+    p_memHandle[i] = (CUmemGenericAllocationHandle*)malloc(
+        sizeof(CUmemGenericAllocationHandle));
+    if (p_memHandle[i] == nullptr) {
+      std::cerr << "ERROR: malloc failed for p_memHandle[" << i << "].\n";
+      for (auto j = 0; j < i; ++j) {
+        free(p_memHandle[j]);
+      }
+      free(p_memHandle);
+      free(chunk_sizes);
+      return nullptr;
+    }
+    chunk_sizes[i] = (unsigned long long)my_min(
+        (unsigned long long)(alignedSize - i * aligned_chunk_size),
+        (unsigned long long)aligned_chunk_size);
+  }
+#endif
 
   if (!g_python_malloc_callback) {
     std::cerr << "ERROR: g_python_malloc_callback not set.\n";
@@ -164,9 +348,15 @@ void* my_malloc(ssize_t size, int device, CUstream stream) {
   // Acquire GIL (not in stable ABI officially, but often works)
   PyGILState_STATE gstate = PyGILState_Ensure();
 
+#ifndef USE_ROCM
   PyObject* arg_tuple = create_tuple_from_c_integers(
       (unsigned long long)device, (unsigned long long)alignedSize,
       (unsigned long long)d_mem, (unsigned long long)p_memHandle);
+#else
+  PyObject* arg_tuple = create_tuple_from_c_mixed(
+      (unsigned long long)device, (unsigned long long)alignedSize,
+      (unsigned long long)d_mem, p_memHandle, chunk_sizes, num_chunks);
+#endif
 
   // Call g_python_malloc_callback
   PyObject* py_result =
@@ -182,7 +372,27 @@ void* my_malloc(ssize_t size, int device, CUstream stream) {
   PyGILState_Release(gstate);
 
   // do the final mapping
+#ifndef USE_ROCM
   create_and_map(device, alignedSize, d_mem, p_memHandle);
+#else
+  create_and_map(device, alignedSize, d_mem, p_memHandle, chunk_sizes,
+                 num_chunks);
+  free(chunk_sizes);
+#endif
+
+  if (error_code != 0) {
+    // free address and the handle
+    CUDA_CHECK(cuMemAddressFree(d_mem, alignedSize));
+#ifndef USE_ROCM
+    free(p_memHandle);
+#else
+    for (size_t i = 0; i < num_chunks; ++i) {
+      free(p_memHandle[i]);
+    }
+    free(p_memHandle);
+#endif
+    return nullptr;
+  }
 
   return (void*)d_mem;
 }
@@ -206,36 +416,96 @@ void my_free(void* ptr, ssize_t size, int device, CUstream stream) {
 
   if (!py_result || !PyTuple_Check(py_result) || PyTuple_Size(py_result) != 4) {
     PyErr_SetString(PyExc_TypeError, "Expected a tuple of size 4");
+    Py_XDECREF(py_result);
+    Py_XDECREF(py_ptr);
     return;
   }
 
   unsigned long long recv_device, recv_size;
-  unsigned long long recv_d_mem, recv_p_memHandle;
+  unsigned long long recv_d_mem;
+#ifndef USE_ROCM
+  unsigned long long recv_p_memHandle;
+#else
+  PyObject* recv_p_memHandle;
+#endif
   // Unpack the tuple into four C integers
-  if (!PyArg_ParseTuple(py_result, "KKKK", &recv_device, &recv_size,
+  if (!PyArg_ParseTuple(py_result, PYARGS_PARSE, &recv_device, &recv_size,
                         &recv_d_mem, &recv_p_memHandle)) {
     // PyArg_ParseTuple sets an error if it fails
+    Py_XDECREF(py_result);
+    Py_XDECREF(py_ptr);
     return;
   }
 
+  // For ROCm, copy the Python list of (addr,size) pairs into C arrays while
+  // holding the GIL. Then release the GIL and call the unmap/release helper
+  // using the copied arrays. This avoids calling PyList_* APIs without the
+  // GIL (which is undefined behavior and can crash when called from other
+  // threads).
+  CUdeviceptr d_mem = (CUdeviceptr)recv_d_mem;
+#ifdef USE_ROCM
+  Py_ssize_t num_chunks = PyList_Size(recv_p_memHandle);
+  CUmemGenericAllocationHandle** p_memHandle =
+      (CUmemGenericAllocationHandle**)malloc(
+          num_chunks * sizeof(CUmemGenericAllocationHandle*));
+  if (p_memHandle == nullptr) {
+    Py_DECREF(py_ptr);
+    Py_DECREF(py_result);
+    PyGILState_Release(gstate);
+    std::cerr << "ERROR: malloc failed for p_memHandle in my_free."
+              << std::endl;
+    return;
+  }
+  unsigned long long* chunk_sizes =
+      (unsigned long long*)malloc(num_chunks * sizeof(unsigned long long));
+  if (chunk_sizes == nullptr) {
+    free(p_memHandle);
+    Py_DECREF(py_ptr);
+    Py_DECREF(py_result);
+    PyGILState_Release(gstate);
+    std::cerr << "ERROR: malloc failed for chunk_sizes in my_free."
+              << std::endl;
+    return;
+  }
+  for (Py_ssize_t i = 0; i < num_chunks; ++i) {
+    PyObject* item = PyList_GetItem(recv_p_memHandle, i);
+    PyObject* addr_py = PyTuple_GetItem(item, 0);
+    PyObject* size_py = PyTuple_GetItem(item, 1);
+    p_memHandle[i] =
+        (CUmemGenericAllocationHandle*)PyLong_AsUnsignedLongLong(addr_py);
+    chunk_sizes[i] = (unsigned long long)PyLong_AsUnsignedLongLong(size_py);
+  }
+
+  // Drop temporary Python refs, then release the GIL before calling into
+  // non-Python APIs.
+  Py_DECREF(py_ptr);
+  Py_DECREF(py_result);
   PyGILState_Release(gstate);
 
-  // recv_size == size
-  // recv_device == device
+  unmap_and_release(device, size, d_mem, p_memHandle, chunk_sizes, num_chunks);
+#else
+  // Non-ROCm path: simple integer handle already extracted; drop temporary
+  // Python refs while still holding the GIL, then release it.
+  Py_DECREF(py_ptr);
+  Py_DECREF(py_result);
+  PyGILState_Release(gstate);
 
-  // Free memory
-
-  CUdeviceptr d_mem = (CUdeviceptr)recv_d_mem;
   CUmemGenericAllocationHandle* p_memHandle =
       (CUmemGenericAllocationHandle*)recv_p_memHandle;
   unmap_and_release(device, size, d_mem, p_memHandle);
+#endif
 
   // free address and the handle
   CUDA_CHECK(cuMemAddressFree(d_mem, size));
-  if (error_code != 0) {
-    return;
+#ifndef USE_ROCM
+  free(p_memHandle);
+#else
+  for (auto i = 0; i < num_chunks; ++i) {
+    free(p_memHandle[i]);
   }
   free(p_memHandle);
+  free(chunk_sizes);
+#endif
 }
 
 // ---------------------------------------------------------------------------
@@ -271,19 +541,87 @@ static PyObject* python_unmap_and_release(PyObject* self, PyObject* args) {
   }
 
   unsigned long long recv_device, recv_size;
-  unsigned long long recv_d_mem, recv_p_memHandle;
+  unsigned long long recv_d_mem;
+#ifndef USE_ROCM
+  unsigned long long recv_p_memHandle;
+#else
+  PyObject* recv_p_memHandle;
+#endif
   // Unpack the tuple into four C integers
-  if (!PyArg_ParseTuple(args, "KKKK", &recv_device, &recv_size, &recv_d_mem,
-                        &recv_p_memHandle)) {
+  if (!PyArg_ParseTuple(args, PYARGS_PARSE, &recv_device, &recv_size,
+                        &recv_d_mem, &recv_p_memHandle)) {
     // PyArg_ParseTuple sets an error if it fails
     return nullptr;
   }
 
   CUdeviceptr d_mem_ptr = (CUdeviceptr)recv_d_mem;
+#ifndef USE_ROCM
   CUmemGenericAllocationHandle* p_memHandle =
       (CUmemGenericAllocationHandle*)recv_p_memHandle;
 
   unmap_and_release(recv_device, recv_size, d_mem_ptr, p_memHandle);
+#else
+  if (!PyList_Check(recv_p_memHandle)) {
+    PyErr_SetString(PyExc_TypeError,
+                    "Expected a list for the 4th argument on ROCm");
+    return nullptr;
+  }
+  Py_ssize_t num_chunks = PyList_Size(recv_p_memHandle);
+  if (num_chunks < 0) {
+    return nullptr;  // PyList_Size sets an exception on error.
+  }
+  CUmemGenericAllocationHandle** p_memHandle =
+      (CUmemGenericAllocationHandle**)malloc(
+          num_chunks * sizeof(CUmemGenericAllocationHandle*));
+  if (p_memHandle == nullptr) {
+    PyErr_SetString(PyExc_MemoryError, "malloc failed for p_memHandle");
+    return nullptr;
+  }
+  unsigned long long* chunk_sizes =
+      (unsigned long long*)malloc(num_chunks * sizeof(unsigned long long));
+  if (chunk_sizes == nullptr) {
+    free(p_memHandle);
+    PyErr_SetString(PyExc_MemoryError, "malloc failed for chunk_sizes");
+    return nullptr;
+  }
+  for (Py_ssize_t i = 0; i < num_chunks; ++i) {
+    PyObject* item = PyList_GetItem(recv_p_memHandle, i);
+    if (item == nullptr || !PyTuple_Check(item) || PyTuple_Size(item) != 2) {
+      free(p_memHandle);
+      free(chunk_sizes);
+      PyErr_SetString(
+          PyExc_TypeError,
+          "List items must be tuples of size 2 (handle_addr, size)");
+      return nullptr;
+    }
+    PyObject* addr_py = PyTuple_GetItem(item, 0);
+    PyObject* size_py = PyTuple_GetItem(item, 1);
+    if (addr_py == nullptr || size_py == nullptr) {
+      free(p_memHandle);
+      free(chunk_sizes);
+      return nullptr;  // PyTuple_GetItem sets an exception
+    }
+    p_memHandle[i] =
+        (CUmemGenericAllocationHandle*)PyLong_AsUnsignedLongLong(addr_py);
+    if (PyErr_Occurred()) {
+      free(p_memHandle);
+      free(chunk_sizes);
+      return nullptr;
+    }
+    chunk_sizes[i] = (unsigned long long)PyLong_AsUnsignedLongLong(size_py);
+    if (PyErr_Occurred()) {
+      free(p_memHandle);
+      free(chunk_sizes);
+      return nullptr;
+    }
+  }
+
+  unmap_and_release(recv_device, recv_size, d_mem_ptr, p_memHandle, chunk_sizes,
+                    num_chunks);
+
+  free(p_memHandle);
+  free(chunk_sizes);
+#endif
 
   if (error_code != 0) {
     error_code = no_error;
@@ -301,19 +639,56 @@ static PyObject* python_create_and_map(PyObject* self, PyObject* args) {
   }
 
   unsigned long long recv_device, recv_size;
-  unsigned long long recv_d_mem, recv_p_memHandle;
+  unsigned long long recv_d_mem;
+#ifndef USE_ROCM
+  unsigned long long recv_p_memHandle;
+#else
+  PyObject* recv_p_memHandle;
+#endif
   // Unpack the tuple into four C integers
-  if (!PyArg_ParseTuple(args, "KKKK", &recv_device, &recv_size, &recv_d_mem,
-                        &recv_p_memHandle)) {
+  if (!PyArg_ParseTuple(args, PYARGS_PARSE, &recv_device, &recv_size,
+                        &recv_d_mem, &recv_p_memHandle)) {
     // PyArg_ParseTuple sets an error if it fails
     return nullptr;
   }
 
   CUdeviceptr d_mem_ptr = (CUdeviceptr)recv_d_mem;
+#ifndef USE_ROCM
   CUmemGenericAllocationHandle* p_memHandle =
       (CUmemGenericAllocationHandle*)recv_p_memHandle;
 
   create_and_map(recv_device, recv_size, d_mem_ptr, p_memHandle);
+#else
+  Py_ssize_t num_chunks = PyList_Size(recv_p_memHandle);
+  CUmemGenericAllocationHandle** p_memHandle =
+      (CUmemGenericAllocationHandle**)malloc(
+          num_chunks * sizeof(CUmemGenericAllocationHandle*));
+  if (p_memHandle == nullptr) {
+    PyErr_SetString(PyExc_MemoryError, "malloc failed for p_memHandle");
+    return nullptr;
+  }
+  unsigned long long* chunk_sizes =
+      (unsigned long long*)malloc(num_chunks * sizeof(unsigned long long));
+  if (chunk_sizes == nullptr) {
+    free(p_memHandle);
+    PyErr_SetString(PyExc_MemoryError, "malloc failed for chunk_sizes");
+    return nullptr;
+  }
+  for (auto i = 0; i < num_chunks; ++i) {
+    PyObject* item = PyList_GetItem(recv_p_memHandle, i);
+    PyObject* addr_py = PyTuple_GetItem(item, 0);
+    PyObject* size_py = PyTuple_GetItem(item, 1);
+    p_memHandle[i] =
+        (CUmemGenericAllocationHandle*)PyLong_AsUnsignedLongLong(addr_py);
+    chunk_sizes[i] = PyLong_AsUnsignedLongLong(size_py);
+  }
+
+  create_and_map(recv_device, recv_size, d_mem_ptr, p_memHandle, chunk_sizes,
+                 num_chunks);
+
+  free(p_memHandle);
+  free(chunk_sizes);
+#endif
 
   if (error_code != 0) {
     error_code = no_error;
diff --git a/csrc/cumem_allocator_compat.h b/csrc/cumem_allocator_compat.h
new file mode 100644
index 0000000000000..74f4bc9eeadf4
--- /dev/null
+++ b/csrc/cumem_allocator_compat.h
@@ -0,0 +1,109 @@
+#pragma once
+
+#ifdef USE_ROCM
+////////////////////////////////////////
+// For compatibility with CUDA and ROCm
+////////////////////////////////////////
+  #include <hip/hip_runtime_api.h>
+
+extern "C" {
+  #ifndef CUDA_SUCCESS
+    #define CUDA_SUCCESS hipSuccess
+  #endif  // CUDA_SUCCESS
+
+// https://rocm.docs.amd.com/projects/HIPIFY/en/latest/tables/CUDA_Driver_API_functions_supported_by_HIP.html
+typedef unsigned long long CUdevice;
+typedef hipDeviceptr_t CUdeviceptr;
+typedef hipError_t CUresult;
+typedef hipCtx_t CUcontext;
+typedef hipStream_t CUstream;
+typedef hipMemGenericAllocationHandle_t CUmemGenericAllocationHandle;
+typedef hipMemAllocationGranularity_flags CUmemAllocationGranularity_flags;
+typedef hipMemAllocationProp CUmemAllocationProp;
+typedef hipMemAccessDesc CUmemAccessDesc;
+
+  #define CU_MEM_ALLOCATION_TYPE_PINNED hipMemAllocationTypePinned
+  #define CU_MEM_LOCATION_TYPE_DEVICE hipMemLocationTypeDevice
+  #define CU_MEM_ACCESS_FLAGS_PROT_READWRITE hipMemAccessFlagsProtReadWrite
+  #define CU_MEM_ALLOC_GRANULARITY_MINIMUM hipMemAllocationGranularityMinimum
+
+  // https://docs.nvidia.com/cuda/cuda-driver-api/group__CUDA__TYPES.html
+  #define CU_MEM_ALLOCATION_COMP_NONE 0x0
+
+// Error Handling
+// https://docs.nvidia.com/cuda/archive/11.4.4/cuda-driver-api/group__CUDA__ERROR.html
+CUresult cuGetErrorString(CUresult hipError, const char** pStr) {
+  *pStr = hipGetErrorString(hipError);
+  return CUDA_SUCCESS;
+}
+
+// Context Management
+// https://docs.nvidia.com/cuda/cuda-driver-api/group__CUDA__CTX.html
+CUresult cuCtxGetCurrent(CUcontext* ctx) {
+  // This API is deprecated on the AMD platform, only for equivalent cuCtx
+  // driver API on the NVIDIA platform.
+  return hipCtxGetCurrent(ctx);
+}
+
+CUresult cuCtxSetCurrent(CUcontext ctx) {
+  // This API is deprecated on the AMD platform, only for equivalent cuCtx
+  // driver API on the NVIDIA platform.
+  return hipCtxSetCurrent(ctx);
+}
+
+// Primary Context Management
+// https://docs.nvidia.com/cuda/cuda-driver-api/group__CUDA__PRIMARY__CTX.html
+CUresult cuDevicePrimaryCtxRetain(CUcontext* ctx, CUdevice dev) {
+  return hipDevicePrimaryCtxRetain(ctx, dev);
+}
+
+// Virtual Memory Management
+// https://docs.nvidia.com/cuda/cuda-driver-api/group__CUDA__VA.html
+CUresult cuMemAddressFree(CUdeviceptr ptr, size_t size) {
+  return hipMemAddressFree(ptr, size);
+}
+
+CUresult cuMemAddressReserve(CUdeviceptr* ptr, size_t size, size_t alignment,
+                             CUdeviceptr addr, unsigned long long flags) {
+  return hipMemAddressReserve(ptr, size, alignment, addr, flags);
+}
+
+CUresult cuMemCreate(CUmemGenericAllocationHandle* handle, size_t size,
+                     const CUmemAllocationProp* prop,
+                     unsigned long long flags) {
+  return hipMemCreate(handle, size, prop, flags);
+}
+
+CUresult cuMemGetAllocationGranularity(
+    size_t* granularity, const CUmemAllocationProp* prop,
+    CUmemAllocationGranularity_flags option) {
+  return hipMemGetAllocationGranularity(granularity, prop, option);
+}
+
+CUresult cuMemMap(CUdeviceptr dptr, size_t size, size_t offset,
+                  CUmemGenericAllocationHandle handle,
+                  unsigned long long flags) {
+  return hipMemMap(dptr, size, offset, handle, flags);
+}
+
+CUresult cuMemRelease(CUmemGenericAllocationHandle handle) {
+  return hipMemRelease(handle);
+}
+
+CUresult cuMemSetAccess(CUdeviceptr ptr, size_t size,
+                        const CUmemAccessDesc* desc, size_t count) {
+  return hipMemSetAccess(ptr, size, desc, count);
+}
+
+CUresult cuMemUnmap(CUdeviceptr ptr, size_t size) {
+  return hipMemUnmap(ptr, size);
+}
+}  // extern "C"
+
+#else
+////////////////////////////////////////
+// Import CUDA headers for NVIDIA GPUs
+////////////////////////////////////////
+  #include <cuda_runtime_api.h>
+  #include <cuda.h>
+#endif
diff --git a/docs/features/sleep_mode.md b/docs/features/sleep_mode.md
index edcbaa7164479..9ab167ab9a237 100644
--- a/docs/features/sleep_mode.md
+++ b/docs/features/sleep_mode.md
@@ -11,7 +11,7 @@ Key benefits:
 - **Fine-grained control**: Optionally wake up only model weights or KV cache to avoid OOM during weight updates.
 
 !!! note
-    This feature is only supported on CUDA platform.
+    This feature is now supported on CUDA and ROCm platform.
 
 !!! note
     For more information, see this [Blog Post](https://blog.vllm.ai/2025/10/26/sleep-mode.html).
@@ -116,3 +116,7 @@ curl -X POST 'http://localhost:8000/wake_up?tags=kv_cache'
 
 !!! note
     These endpoints are only available when passing `VLLM_SERVER_DEV_MODE=1`.
+
+## Limitation
+
+On ROCm, the virtual memory allocation on ROCm is done through chunked memory allocation. You can control the chunk size through `VLLM_ROCM_SLEEP_MEM_CHUNK_SIZE` (in MB). The default value is set at 256MB. The larger the chunk size the faster the performance. However, setting it too large will cause OOM. So if you encounter OOM when using sleep mode. Try reducing the chunk size. It is recommended to define the chunk size as a power of 2.
diff --git a/setup.py b/setup.py
index 8139d0d62b8ac..0934a8608eb12 100644
--- a/setup.py
+++ b/setup.py
@@ -208,6 +208,8 @@ class cmake_build_ext(build_ext):
         # Make sure we use the nvcc from CUDA_HOME
         if _is_cuda():
             cmake_args += [f"-DCMAKE_CUDA_COMPILER={CUDA_HOME}/bin/nvcc"]
+        elif _is_hip():
+            cmake_args += [f"-DROCM_PATH={ROCM_HOME}"]
 
         other_cmake_args = os.environ.get("CMAKE_ARGS")
         if other_cmake_args:
@@ -628,6 +630,7 @@ ext_modules = []
 
 if _is_cuda() or _is_hip():
     ext_modules.append(CMakeExtension(name="vllm._moe_C"))
+    ext_modules.append(CMakeExtension(name="vllm.cumem_allocator"))
 
 if _is_hip():
     ext_modules.append(CMakeExtension(name="vllm._rocm_C"))
@@ -643,7 +646,6 @@ if _is_cuda():
         ext_modules.append(
             CMakeExtension(name="vllm._flashmla_extension_C", optional=True)
         )
-    ext_modules.append(CMakeExtension(name="vllm.cumem_allocator"))
 
 if _build_custom_ops():
     ext_modules.append(CMakeExtension(name="vllm._C"))
diff --git a/tests/basic_correctness/test_cumem.py b/tests/basic_correctness/test_cumem.py
index 0c037622f5e82..754ef20dbeb2b 100644
--- a/tests/basic_correctness/test_cumem.py
+++ b/tests/basic_correctness/test_cumem.py
@@ -8,12 +8,13 @@ import torch
 
 from vllm import LLM, AsyncEngineArgs, AsyncLLMEngine, SamplingParams
 from vllm.device_allocator.cumem import CuMemAllocator
+from vllm.platforms import current_platform
 from vllm.utils.mem_constants import GiB_bytes
 
 from ..utils import create_new_process_for_each_test
 
 
-@create_new_process_for_each_test()
+@create_new_process_for_each_test("fork" if not current_platform.is_rocm() else "spawn")
 def test_python_error():
     """
     Test if Python error occurs when there's low-level
@@ -39,7 +40,7 @@ def test_python_error():
         allocator.wake_up()
 
 
-@create_new_process_for_each_test()
+@create_new_process_for_each_test("fork" if not current_platform.is_rocm() else "spawn")
 def test_basic_cumem():
     # some tensors from default memory pool
     shape = (1024, 1024)
@@ -72,7 +73,7 @@ def test_basic_cumem():
     assert torch.allclose(output, torch.ones_like(output) * 3)
 
 
-@create_new_process_for_each_test()
+@create_new_process_for_each_test("fork" if not current_platform.is_rocm() else "spawn")
 def test_cumem_with_cudagraph():
     allocator = CuMemAllocator.get_instance()
     with allocator.use_memory_pool():
@@ -117,7 +118,7 @@ def test_cumem_with_cudagraph():
     assert torch.allclose(y, x + 1)
 
 
-@create_new_process_for_each_test()
+@create_new_process_for_each_test("fork" if not current_platform.is_rocm() else "spawn")
 @pytest.mark.parametrize(
     "model",
     [
diff --git a/vllm/config/model.py b/vllm/config/model.py
index 49b66039d4a0a..c47b619118ff2 100644
--- a/vllm/config/model.py
+++ b/vllm/config/model.py
@@ -264,7 +264,8 @@ class ModelConfig:
     merged with the default config from the model. If used with
     `--generation-config vllm`, only the override parameters are used."""
     enable_sleep_mode: bool = False
-    """Enable sleep mode for the engine (only cuda platform is supported)."""
+    """Enable sleep mode for the engine (only cuda and
+    hip platforms are supported)."""
     model_impl: str | ModelImpl = "auto"
     """Which implementation of the model to use:\n
     - "auto" will try to use the vLLM implementation, if it exists, and fall
diff --git a/vllm/device_allocator/cumem.py b/vllm/device_allocator/cumem.py
index 5e3dbde393be3..e9695698bb493 100644
--- a/vllm/device_allocator/cumem.py
+++ b/vllm/device_allocator/cumem.py
@@ -63,7 +63,7 @@ try:
     libcudart = CudaRTLibrary()
     cumem_available = True
 except ModuleNotFoundError:
-    # rocm platform does not support cumem allocator
+    # only cuda and rocm platforms support cumem allocator
     init_module = None
     python_create_and_map = None
     python_unmap_and_release = None
diff --git a/vllm/distributed/device_communicators/cuda_wrapper.py b/vllm/distributed/device_communicators/cuda_wrapper.py
index 07ab2f7124091..6aadab33e3132 100644
--- a/vllm/distributed/device_communicators/cuda_wrapper.py
+++ b/vllm/distributed/device_communicators/cuda_wrapper.py
@@ -14,6 +14,7 @@ import torch  # noqa
 
 import vllm.envs as envs
 from vllm.logger import init_logger
+from vllm.platforms import current_platform
 
 logger = init_logger(__name__)
 
@@ -105,6 +106,20 @@ class CudaRTLibrary:
         ),
     ]
 
+    # https://rocm.docs.amd.com/projects/HIPIFY/en/latest/tables/CUDA_Runtime_API_functions_supported_by_HIP.html # noqa
+    cuda_to_hip_mapping = {
+        "cudaSetDevice": "hipSetDevice",
+        "cudaDeviceSynchronize": "hipDeviceSynchronize",
+        "cudaDeviceReset": "hipDeviceReset",
+        "cudaGetErrorString": "hipGetErrorString",
+        "cudaMalloc": "hipMalloc",
+        "cudaFree": "hipFree",
+        "cudaMemset": "hipMemset",
+        "cudaMemcpy": "hipMemcpy",
+        "cudaIpcGetMemHandle": "hipIpcGetMemHandle",
+        "cudaIpcOpenMemHandle": "hipIpcOpenMemHandle",
+    }
+
     # class attribute to store the mapping from the path to the library
     # to avoid loading the same library multiple times
     path_to_library_cache: dict[str, Any] = {}
@@ -117,7 +132,13 @@ class CudaRTLibrary:
         if so_file is None:
             so_file = find_loaded_library("libcudart")
             if so_file is None:
-                so_file = envs.VLLM_CUDART_SO_PATH  # fallback to env var
+                # libcudart is not loaded in the current process, try hip
+                so_file = find_loaded_library("libamdhip64")
+                # should be safe to assume now that we are using ROCm
+                # as the following assertion should error out if the
+                # libhiprtc library is also not loaded
+                if so_file is None:
+                    so_file = envs.VLLM_CUDART_SO_PATH  # fallback to env var
             assert so_file is not None, (
                 "libcudart is not loaded in the current process, "
                 "try setting VLLM_CUDART_SO_PATH"
@@ -130,7 +151,12 @@ class CudaRTLibrary:
         if so_file not in CudaRTLibrary.path_to_dict_mapping:
             _funcs = {}
             for func in CudaRTLibrary.exported_functions:
-                f = getattr(self.lib, func.name)
+                f = getattr(
+                    self.lib,
+                    CudaRTLibrary.cuda_to_hip_mapping[func.name]
+                    if current_platform.is_rocm()
+                    else func.name,
+                )
                 f.restype = func.restype
                 f.argtypes = func.argtypes
                 _funcs[func.name] = f
diff --git a/vllm/envs.py b/vllm/envs.py
index 8e2f872c069c7..1c3247a315c1a 100755
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -18,6 +18,7 @@ if TYPE_CHECKING:
     VLLM_RINGBUFFER_WARNING_INTERVAL: int = 60
     VLLM_NCCL_SO_PATH: str | None = None
     LD_LIBRARY_PATH: str | None = None
+    VLLM_ROCM_SLEEP_MEM_CHUNK_SIZE: int = 256
     VLLM_V1_USE_PREFILL_DECODE_ATTENTION: bool = False
     VLLM_FLASH_ATTN_VERSION: int | None = None
     LOCAL_RANK: int = 0
@@ -520,6 +521,10 @@ environment_variables: dict[str, Callable[[], Any]] = {
     # when `VLLM_NCCL_SO_PATH` is not set, vllm will try to find the nccl
     # library file in the locations specified by `LD_LIBRARY_PATH`
     "LD_LIBRARY_PATH": lambda: os.environ.get("LD_LIBRARY_PATH", None),
+    # flag to control the chunk size (in MB) for sleeping memory allocations under ROCm
+    "VLLM_ROCM_SLEEP_MEM_CHUNK_SIZE": lambda: int(
+        os.environ.get("VLLM_ROCM_SLEEP_MEM_CHUNK_SIZE", "256")
+    ),
     # Use separate prefill and decode kernels for V1 attention instead of
     # the unified triton kernel.
     "VLLM_V1_USE_PREFILL_DECODE_ATTENTION": lambda: (
diff --git a/vllm/platforms/interface.py b/vllm/platforms/interface.py
index d0eb232e14c6e..bde825f7709a0 100644
--- a/vllm/platforms/interface.py
+++ b/vllm/platforms/interface.py
@@ -171,7 +171,11 @@ class Platform:
         return self._enum in (PlatformEnum.CUDA, PlatformEnum.ROCM)
 
     def is_sleep_mode_available(self) -> bool:
-        return self._enum == PlatformEnum.CUDA
+        # TODO: Actually only mi3xx has the sleep mode support now
+        # for ROCm, but currently we don't have a way to detect the
+        # exact GPU model statelessly here. So we return True for
+        # all ROCm platforms for now.
+        return self._enum in (PlatformEnum.CUDA, PlatformEnum.ROCM)
 
     @classmethod
     def device_id_to_physical_device_id(cls, device_id: int):

From 69d0e903137109dd9a1e0f88bc0af20db7ca70fb Mon Sep 17 00:00:00 2001
From: Alexander Matveev <59768536+alexm-redhat@users.noreply.github.com>
Date: Wed, 12 Nov 2025 18:37:24 -0500
Subject: [PATCH 379/976] [MoE][Kernel][Perf] Improve Shared Expert Stream
 Overlap (#28406)

Signed-off-by: Alexander Matveev <amatveev@redhat.com>
---
 vllm/envs.py                                  |  8 ++
 vllm/model_executor/layers/fused_moe/layer.py | 85 +++++++++++--------
 vllm/utils/torch_utils.py                     | 24 ++++++
 3 files changed, 81 insertions(+), 36 deletions(-)

diff --git a/vllm/envs.py b/vllm/envs.py
index 1c3247a315c1a..0530938c32f9e 100755
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -222,6 +222,7 @@ if TYPE_CHECKING:
     VLLM_USE_FBGEMM: bool = False
     VLLM_GC_DEBUG: str = ""
     VLLM_DISABLE_SHARED_EXPERTS_STREAM: bool = False
+    VLLM_SHARED_EXPERTS_STREAM_TOKEN_THRESHOLD: int = 256
     VLLM_COMPILE_CACHE_SAVE_FORMAT: Literal["binary", "unpacked"] = "binary"
     VLLM_FLAT_LOGPROBS: bool = False
 
@@ -1476,6 +1477,13 @@ environment_variables: dict[str, Callable[[], Any]] = {
     "VLLM_DISABLE_SHARED_EXPERTS_STREAM": lambda: bool(
         int(os.getenv("VLLM_DISABLE_SHARED_EXPERTS_STREAM", "0"))
     ),
+    # Limits when we run shared_experts in a separate stream.
+    # We found out that for large batch sizes, the separate stream
+    # execution is not beneficial (most likely because of the input clone)
+    # TODO(alexm-redhat): Tune to be more dynamic based on GPU type
+    "VLLM_SHARED_EXPERTS_STREAM_TOKEN_THRESHOLD": lambda: int(
+        int(os.getenv("VLLM_SHARED_EXPERTS_STREAM_TOKEN_THRESHOLD", 256))
+    ),
     # Format for saving torch.compile cache artifacts
     # - "binary": saves as binary file
     #     Safe for multiple vllm serve processes accessing the same torch compile cache.
diff --git a/vllm/model_executor/layers/fused_moe/layer.py b/vllm/model_executor/layers/fused_moe/layer.py
index 3bd7c54c520ca..aed8245cbd830 100644
--- a/vllm/model_executor/layers/fused_moe/layer.py
+++ b/vllm/model_executor/layers/fused_moe/layer.py
@@ -48,7 +48,11 @@ from vllm.model_executor.layers.quantization.utils.flashinfer_utils import (
 )
 from vllm.platforms import current_platform
 from vllm.utils.math_utils import cdiv, round_up
-from vllm.utils.torch_utils import current_stream, direct_register_custom_op
+from vllm.utils.torch_utils import (
+    aux_stream,
+    current_stream,
+    direct_register_custom_op,
+)
 from vllm.v1.worker.ubatching import dbo_current_ubatch_id
 
 if current_platform.is_cuda_alike():
@@ -331,7 +335,11 @@ class FusedMoE(CustomOp):
             logger.info_once("Disabling MoE shared_experts cuda stream")
             self.shared_experts_stream = None
         else:
-            self.shared_experts_stream = torch.cuda.Stream()
+            # TODO(rob): enable shared expert overlap with non-cuda.
+            # aux_stream() returns None on non-cuda platforms.
+            self.shared_experts_stream = aux_stream()
+            if self.shared_experts_stream is not None:
+                logger.info_once("Enabled separate cuda stream for MoE shared_experts")
 
         if params_dtype is None:
             params_dtype = torch.get_default_dtype()
@@ -1606,7 +1614,9 @@ class FusedMoE(CustomOp):
             if has_separate_shared_experts:
                 assert not isinstance(final_hidden_states, tuple)
                 assert self.shared_experts is not None
+
                 shared_output = self.shared_experts(staged_hidden_states)
+
                 final_hidden_states = (
                     shared_output,
                     final_hidden_states,
@@ -1684,13 +1694,34 @@ class FusedMoE(CustomOp):
 
         use_chunked_impl = self.use_dp_chunking
 
-        if (
+        use_shared_experts_stream = (
             has_separate_shared_experts
             and not use_chunked_impl
             and self.shared_experts_stream is not None
-        ):
-            # Start the separate shared experts stream here since we want
-            # to run in parallel with the router/gate (next op below)
+            and (
+                hidden_states.shape[0]
+                <= envs.VLLM_SHARED_EXPERTS_STREAM_TOKEN_THRESHOLD
+            )
+        )
+
+        if use_shared_experts_stream:
+            assert self.shared_experts_stream is not None
+
+            # Clone BEFORE switching streams to avoid race condition
+            # where routed_expert kernel may mutate hidden_states.
+            hidden_states_clone = hidden_states.clone()
+
+            # Record that the clone will be used by shared_experts_stream
+            # to avoid gc issue from deallocation of hidden_states_clone
+            # For more details: https://docs.pytorch.org/docs/stable/generated/torch.Tensor.record_stream.html # noqa: E501
+            # NOTE: We dont need shared_output.record_stream(current_stream())
+            # because we synch the streams before using shared_output.
+            hidden_states_clone.record_stream(self.shared_experts_stream)
+
+            # Mark sync start point for the separate shared experts
+            # stream here since we want to run in parallel with the
+            # router/gate (next op below)
+            assert self.shared_experts_stream is not None
             self.shared_experts_stream.wait_stream(current_stream())
 
         # If router/gate provided, then apply it here.
@@ -1709,33 +1740,6 @@ class FusedMoE(CustomOp):
             self.quant_method, FusedMoEModularMethod
         )
 
-        # If there are shared experts but we are not using a modular kernel, the
-        # shared experts must be called here
-        if has_separate_shared_experts:
-            assert self.shared_experts is not None
-
-            if self.shared_experts_stream is not None:
-                # Clone BEFORE switching streams to avoid race condition
-                # where routed_expert kernel may mutate hidden_states.
-                hidden_states_clone = hidden_states.clone()
-                self.shared_experts_stream.wait_stream(current_stream())
-
-                # Run shared experts in parallel on a separate stream
-                with torch.cuda.stream(self.shared_experts_stream):
-                    shared_output = self.shared_experts(hidden_states_clone)
-
-                # Record that the clone will be used by shared_experts_stream
-                # to avoid gc issue from deallocation of hidden_states_clone
-                # For more details: https://docs.pytorch.org/docs/stable/generated/torch.Tensor.record_stream.html # noqa: E501
-                # NOTE: we dont need shared_output.record_stream(current_stream())
-                # because we synch the streams before using shared_output.
-                hidden_states_clone.record_stream(self.shared_experts_stream)
-
-            else:
-                shared_output = self.shared_experts(hidden_states)
-        else:
-            shared_output = None
-
         ctx = get_forward_context()
         sp_ctx = (
             ctx.dp_metadata.sp_local_sizes(self.sp_size)
@@ -1776,12 +1780,21 @@ class FusedMoE(CustomOp):
             )
 
             if has_separate_shared_experts:
-                assert not isinstance(final_hidden_states, tuple)
                 assert self.shared_experts is not None
 
-                # Wait for the parallel shared experts stream to finish here
-                if self.shared_experts_stream is not None:
+                if use_shared_experts_stream:
+                    # Run shared experts in parallel on a separate stream
+                    # NOTE: We start the separate stream here and mark the
+                    # sync end point immediately after it is done. This is
+                    # important to avoid excessive stream allocations by the cuda
+                    # graph replay later.
+                    with torch.cuda.stream(self.shared_experts_stream):
+                        # Note that hidden_states clone() is necessary here to avoid
+                        # conflict with the main stream
+                        shared_output = self.shared_experts(hidden_states_clone)
                     current_stream().wait_stream(self.shared_experts_stream)
+                else:
+                    shared_output = self.shared_experts(hidden_states)
 
                 final_hidden_states = (
                     shared_output,
diff --git a/vllm/utils/torch_utils.py b/vllm/utils/torch_utils.py
index fd5c1b73f1910..7c094e14cff72 100644
--- a/vllm/utils/torch_utils.py
+++ b/vllm/utils/torch_utils.py
@@ -409,6 +409,30 @@ def current_stream() -> torch.cuda.Stream:
     return _current_stream_tls.value
 
 
+# Global auxilary stream for running operations in background streams.
+# We have single global auxilary stream to avoid an explosion of streams
+# for every layer (and make profiling look sane).
+#
+# aux_stream() is currently used for:
+#   - MoE shared_expert overlap with router
+_aux_stream: torch.cuda.Stream | None = None
+
+
+def aux_stream() -> torch.cuda.Stream | None:
+    """
+    Ensures aux_stream is initialized only once
+    """
+    global _aux_stream
+
+    from vllm.platforms import current_platform
+
+    # TODO: validate this works properly on ROCm platform.
+    if _aux_stream is None and current_platform.is_cuda():
+        _aux_stream = torch.cuda.Stream()
+
+    return _aux_stream
+
+
 @lru_cache(maxsize=8)
 def _cuda_device_count_stateless(cuda_visible_devices: str | None = None) -> int:
     # Note: cuda_visible_devices is not used, but we keep it as an argument for

From 51c599f0ec9c754ddf9f6094f27c1fa2be76b318 Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Wed, 12 Nov 2025 23:43:57 +0000
Subject: [PATCH 380/976] Skip models that cannot currently init on
 Transformers v5 (#28471)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 .buildkite/test-pipeline.yaml                    |  8 ++++----
 vllm/model_executor/model_loader/weight_utils.py |  3 ++-
 vllm/model_executor/models/whisper.py            | 11 -----------
 3 files changed, 6 insertions(+), 16 deletions(-)

diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index 2af0e46ea15f4..36a867f1addb7 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -872,12 +872,12 @@ steps:
   optional: true
   commands:
     - pip install --upgrade git+https://github.com/huggingface/transformers
-    - pytest -v -s tests/models/test_initialization.py
+    - pytest -v -s tests/models/test_initialization.py -k 'not (Gemma3 or ModernBert or Qwen2_5_VL or Qwen2_5vl or Qwen2VL or TransformersMultiModalEmbeddingModel or TransformersMultiModalForSequenceClassification or Ultravox or Phi4Multimodal or LlavaNextVideo or MiniCPMO or Lfm2Moe or PaliGemma or RobertaForSequenceClassification or Ovis2_5 or Fuyu or DeepseekOCR or KimiVL)'
     - pytest -v -s tests/models/test_transformers.py
-    - pytest -v -s tests/models/multimodal/processing/
-    - pytest -v -s tests/models/multimodal/test_mapping.py
+    # - pytest -v -s tests/models/multimodal/processing/
+    - pytest -v -s tests/models/multimodal/test_mapping.py -k 'not (Gemma3 or Qwen2VL or Qwen2_5_VL)'
     - python3 examples/offline_inference/basic/chat.py
-    - python3 examples/offline_inference/vision_language.py --model-type qwen2_5_vl
+    # - python3 examples/offline_inference/vision_language.py --model-type qwen2_5_vl
     # Whisper needs spawn method to avoid deadlock
     - VLLM_WORKER_MULTIPROC_METHOD=spawn python3 examples/offline_inference/audio_language.py --model-type whisper
 
diff --git a/vllm/model_executor/model_loader/weight_utils.py b/vllm/model_executor/model_loader/weight_utils.py
index 3dbe803f99860..93986e5f2fc0a 100644
--- a/vllm/model_executor/model_loader/weight_utils.py
+++ b/vllm/model_executor/model_loader/weight_utils.py
@@ -82,7 +82,8 @@ enable_hf_transfer()
 
 class DisabledTqdm(tqdm):
     def __init__(self, *args, **kwargs):
-        super().__init__(*args, **kwargs, disable=True)
+        kwargs["disable"] = True
+        super().__init__(*args, **kwargs)
 
 
 def get_lock(model_name_or_path: str | Path, cache_dir: str | None = None):
diff --git a/vllm/model_executor/models/whisper.py b/vllm/model_executor/models/whisper.py
index 502783b1fd932..23436a27d489d 100644
--- a/vllm/model_executor/models/whisper.py
+++ b/vllm/model_executor/models/whisper.py
@@ -13,7 +13,6 @@ from transformers import (
     BatchFeature,
     WhisperConfig,
     WhisperFeatureExtractor,
-    WhisperProcessor,
 )
 from transformers.models.whisper.modeling_whisper import sinusoids
 
@@ -660,16 +659,6 @@ class WhisperProcessingInfo(BaseProcessingInfo):
     def get_hf_config(self) -> WhisperConfig:
         return self.ctx.get_hf_config(WhisperConfig)
 
-    def get_hf_processor(self, **kwargs: object) -> WhisperProcessor:
-        # HACK: Transformers 4.53.2 has issue with whisper tokenizer to
-        # initialize processor. We use a monkeypatch to fix it here.
-        # See: https://github.com/vllm-project/vllm/issues/20224
-        processor_class = WhisperProcessor
-        tokenizer_class = ("WhisperTokenizer", "WhisperTokenizerFast")
-        if processor_class.tokenizer_class != tokenizer_class:
-            processor_class.tokenizer_class = tokenizer_class
-        return self.ctx.get_hf_processor(processor_class, **kwargs)
-
     def get_supported_mm_limits(self) -> Mapping[str, int | None]:
         return {"audio": 1}
 

From 52eadcec9ea6f59433bfcba2f0d065b3ce5548b4 Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Wed, 12 Nov 2025 19:00:23 -0500
Subject: [PATCH 381/976] [Docs] Update meetups.md description (#28583)

Signed-off-by: mgoin <mgoin64@gmail.com>
---
 docs/community/meetups.md | 20 ++++++++++++++++++--
 1 file changed, 18 insertions(+), 2 deletions(-)

diff --git a/docs/community/meetups.md b/docs/community/meetups.md
index 3fca4659e284a..0735f452df960 100644
--- a/docs/community/meetups.md
+++ b/docs/community/meetups.md
@@ -1,6 +1,14 @@
 # Meetups
 
-We host regular meetups in San Francisco Bay Area every 2 months. We will share the project updates from the vLLM team and have guest speakers from the industry to share their experience and insights. Please find the materials of our previous meetups below:
+We host regular meetups around the world. We will share the project updates from the vLLM team and have guest speakers from the industry to share their experience and insights.
+
+## Upcoming Meetups
+
+Stay tuned for upcoming meetups! Follow us on [Twitter/X](https://x.com/vllm_project), join our [Slack](https://slack.vllm.ai), and follow vLLM on [Luma](https://luma.com/vLLM-Meetups) to get notified about new events.
+
+## Past Meetups
+
+Below you'll find slides and recordings from our previous meetups:
 
 - [vLLM Zurich Meetup](https://luma.com/0gls27kb), November 6th 2025. [[Slides]](https://docs.google.com/presentation/d/1UC9PTLCHYXQpOmJDSFg6Sljra3iVXzc09DeEI7dnxMc/edit?usp=sharing) [[Recording]](https://www.youtube.com/watch?v=6m6ZE6yVEDI)
 - [vLLM Beijing Meetup](https://mp.weixin.qq.com/s/xSrYXjNgr1HbCP4ExYNG1w), November 1st 2025. [[Slides]](https://drive.google.com/drive/folders/1nQJ8ZkLSjKxvu36sSHaceVXtttbLvvu-?usp=drive_link)
@@ -26,4 +34,12 @@ We host regular meetups in San Francisco Bay Area every 2 months. We will share
 - [The second vLLM meetup](https://lu.ma/ygxbpzhl), with IBM Research, January 31st 2024. [[Slides]](https://docs.google.com/presentation/d/12mI2sKABnUw5RBWXDYY-HtHth4iMSNcEoQ10jDQbxgA/edit?usp=sharing) [[Video (vLLM Update)]](https://youtu.be/Y0C-DUvEnZQ) [[Video (IBM Research & torch.compile)]](https://youtu.be/m0dMtFLI-dg)
 - [The first vLLM meetup](https://lu.ma/first-vllm-meetup), with a16z, October 5th 2023. [[Slides]](https://docs.google.com/presentation/d/1QL-XPFXiFpDBh86DbEegFXBXFXjix4v032GhShbKf3s/edit?usp=sharing)
 
-We are always looking for speakers and sponsors at San Francisco Bay Area and potentially other locations. If you are interested in speaking or sponsoring, please contact us at [vllm-questions@lists.berkeley.edu](mailto:vllm-questions@lists.berkeley.edu).
+## Get Involved
+
+**Want to host or speak at a vLLM meetup?** We're always looking for speakers and sponsors for our meetups. Whether you want to:
+
+- Share your vLLM feature, use case, project extension, or deployment experience
+- Host a meetup in your city
+- Sponsor an event
+
+Please contact us at [vllm-questions@lists.berkeley.edu](mailto:vllm-questions@lists.berkeley.edu).

From d75ad048184f2864dad6b5da2e6e11322aec13aa Mon Sep 17 00:00:00 2001
From: Gregory Shtrasberg <156009573+gshtras@users.noreply.github.com>
Date: Wed, 12 Nov 2025 19:46:58 -0500
Subject: [PATCH 382/976] [ROCm][Bugfix] Revert removing setuptools version
 restriction (#28592)

Signed-off-by: Gregory Shtrasberg <Gregory.Shtrasberg@amd.com>
---
 requirements/rocm-build.txt | 2 +-
 requirements/rocm.txt       | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/requirements/rocm-build.txt b/requirements/rocm-build.txt
index 56ec90c563c04..51f58e57a7851 100644
--- a/requirements/rocm-build.txt
+++ b/requirements/rocm-build.txt
@@ -9,7 +9,7 @@ torchaudio==2.9.0
 triton==3.5.0
 cmake>=3.26.1,<4
 packaging>=24.2
-setuptools>=77.0.3,<81.0.0
+setuptools>=77.0.3,<80.0.0
 setuptools-scm>=8
 wheel
 jinja2>=3.1.6
diff --git a/requirements/rocm.txt b/requirements/rocm.txt
index f06e4248a7242..6f1cca90e5e2b 100644
--- a/requirements/rocm.txt
+++ b/requirements/rocm.txt
@@ -10,7 +10,7 @@ peft
 pytest-asyncio
 tensorizer==2.10.1
 packaging>=24.2
-setuptools>=77.0.3,<81.0.0
+setuptools>=77.0.3,<80.0.0
 setuptools-scm>=8
 runai-model-streamer[s3,gcs]==0.15.0
 conch-triton-kernels==1.2.1

From 2dacd5739409847e91299e7747a142e200fdff6c Mon Sep 17 00:00:00 2001
From: wangxiyuan <wangxiyuan1007@gmail.com>
Date: Thu, 13 Nov 2025 08:48:47 +0800
Subject: [PATCH 383/976] [platform] Move get_cu_count to utils (#27005)

Signed-off-by: wangxiyuan <wangxiyuan1007@gmail.com>
---
 .../quantization/test_rocm_skinny_gemms.py    | 24 +++++++++++++++----
 .../layers/quantization/utils/w8a8_utils.py   |  3 ++-
 vllm/model_executor/layers/utils.py           |  3 ++-
 vllm/platforms/interface.py                   |  7 ------
 vllm/platforms/rocm.py                        |  4 ----
 vllm/utils/platform_utils.py                  |  5 ++++
 6 files changed, 28 insertions(+), 18 deletions(-)

diff --git a/tests/kernels/quantization/test_rocm_skinny_gemms.py b/tests/kernels/quantization/test_rocm_skinny_gemms.py
index dc6557b93f050..15ff6d5364136 100644
--- a/tests/kernels/quantization/test_rocm_skinny_gemms.py
+++ b/tests/kernels/quantization/test_rocm_skinny_gemms.py
@@ -8,6 +8,7 @@ import torch
 import vllm._custom_ops as ops
 from tests.kernels.quant_utils import ref_dynamic_per_tensor_fp8_quant
 from vllm.platforms import current_platform
+from vllm.utils.platform_utils import get_cu_count
 
 DTYPES = [torch.bfloat16, torch.float16]
 # Specific (N, K, M) combinations for targeted testing
@@ -85,7 +86,7 @@ def test_rocm_llmm1_kernel(n, k, m, dtype, rows_per_block, seed):
 @pytest.mark.skipif(not current_platform.is_rocm(), reason="only test for rocm")
 def test_rocm_wvsplitk_kernel(n, k, m, dtype, seed):
     torch.manual_seed(seed)
-    cu_count = current_platform.get_cu_count()
+    cu_count = get_cu_count()
 
     A = torch.rand(n, k, dtype=dtype, device="cuda") - 0.5
     B = torch.rand(m, k, dtype=dtype, device="cuda") - 0.5
@@ -102,7 +103,7 @@ def test_rocm_wvsplitk_kernel(n, k, m, dtype, seed):
 @pytest.mark.skipif(not current_platform.is_rocm(), reason="only test for rocm")
 def test_rocm_wvsplitk_bias1D_kernel(n, k, m, dtype, seed):
     torch.manual_seed(seed)
-    cu_count = current_platform.get_cu_count()
+    cu_count = get_cu_count()
 
     xavier = math.sqrt(2 / k)  # normalize to avoid large output-bias deltas
     A = (torch.rand(n, k, dtype=dtype, device="cuda") - 0.5) * xavier
@@ -121,7 +122,7 @@ def test_rocm_wvsplitk_bias1D_kernel(n, k, m, dtype, seed):
 @pytest.mark.skipif(not current_platform.is_rocm(), reason="only test for rocm")
 def test_rocm_wvsplitk_bias2D_kernel(n, k, m, dtype, seed):
     torch.manual_seed(seed)
-    cu_count = current_platform.get_cu_count()
+    cu_count = get_cu_count()
 
     xavier = math.sqrt(2 / k)  # normalize to avoid large output-bias deltas
     A = (torch.rand(n, k, dtype=dtype, device="cuda") - 0.5) * xavier
@@ -153,7 +154,14 @@ def test_rocm_wvsplitk_fp8_kernel(n, k, m, dtype, seed):
     ref_out = torch._scaled_mm(
         A, B.t(), out_dtype=dtype, scale_a=scale_a, scale_b=scale_b
     )
-    out = ops.wvSplitKQ(B, A, dtype, scale_a, scale_b, current_platform.get_cu_count())
+    out = ops.wvSplitKQ(
+        B,
+        A,
+        dtype,
+        scale_a,
+        scale_b,
+        get_cu_count(),
+    )
 
     assert torch.allclose(out, ref_out, rtol=0.01)
 
@@ -180,7 +188,13 @@ def test_rocm_wvsplitk_fp8_bias1D_kernel(n, k, m, dtype, seed):
         A, B.t(), out_dtype=dtype, scale_a=scale_a, scale_b=scale_b, bias=BIAS
     )
     out = ops.wvSplitKQ(
-        B, A, dtype, scale_a, scale_b, current_platform.get_cu_count(), BIAS
+        B,
+        A,
+        dtype,
+        scale_a,
+        scale_b,
+        get_cu_count(),
+        BIAS,
     )
 
     assert torch.allclose(out, ref_out, rtol=0.01)
diff --git a/vllm/model_executor/layers/quantization/utils/w8a8_utils.py b/vllm/model_executor/layers/quantization/utils/w8a8_utils.py
index 7fe902807a74a..fceed3e55c2df 100644
--- a/vllm/model_executor/layers/quantization/utils/w8a8_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/w8a8_utils.py
@@ -13,6 +13,7 @@ from vllm.model_executor.layers.quantization.input_quant_fp8 import QuantFP8
 from vllm.model_executor.layers.quantization.utils.quant_utils import GroupShape
 from vllm.platforms import current_platform
 from vllm.utils.flashinfer import flashinfer_scaled_fp8_mm, has_flashinfer
+from vllm.utils.platform_utils import get_cu_count
 from vllm.utils.torch_utils import direct_register_custom_op
 
 # Input scaling factors are no longer optional in _scaled_mm starting
@@ -200,7 +201,7 @@ def rocm_per_tensor_w8a8_scaled_mm_impl(
             out_dtype,
             scale_a,
             scale_b,
-            current_platform.get_cu_count(),
+            get_cu_count(),
             bias,
         )
     else:
diff --git a/vllm/model_executor/layers/utils.py b/vllm/model_executor/layers/utils.py
index 68262a2703f99..4b7ba2eed94cf 100644
--- a/vllm/model_executor/layers/utils.py
+++ b/vllm/model_executor/layers/utils.py
@@ -11,6 +11,7 @@ from vllm import envs
 from vllm._aiter_ops import rocm_aiter_ops
 from vllm.logger import init_logger
 from vllm.platforms import CpuArchEnum, current_platform
+from vllm.utils.platform_utils import get_cu_count
 from vllm.utils.torch_utils import direct_register_custom_op
 
 logger = init_logger(__name__)
@@ -151,7 +152,7 @@ def rocm_unquantized_gemm_impl(
 
     x_view = x.reshape(-1, x.size(-1))
     if m > 8 and 0 < n <= 4:
-        cu_count = current_platform.get_cu_count()
+        cu_count = get_cu_count()
         out = ops.wvSplitK(weight, x_view, cu_count, bias)
         return out.reshape(*x.shape[:-1], weight.shape[0])
     elif m % 4 == 0 and n == 1 and k <= 8192 and bias is None:
diff --git a/vllm/platforms/interface.py b/vllm/platforms/interface.py
index bde825f7709a0..12c377384270e 100644
--- a/vllm/platforms/interface.py
+++ b/vllm/platforms/interface.py
@@ -545,13 +545,6 @@ class Platform:
             cls._global_graph_pool = self.graph_pool_handle()
         return cls._global_graph_pool
 
-    @classmethod
-    def get_cu_count(cls, device_id: int = 0) -> int:
-        """
-        Returns the total number of compute units (CU) on single GPU.
-        """
-        raise NotImplementedError
-
     @classmethod
     def get_static_graph_wrapper_cls(cls) -> str:
         """
diff --git a/vllm/platforms/rocm.py b/vllm/platforms/rocm.py
index d977d999de672..d20dc9e6b0674 100644
--- a/vllm/platforms/rocm.py
+++ b/vllm/platforms/rocm.py
@@ -423,10 +423,6 @@ class RocmPlatform(Platform):
     def opaque_attention_op(cls) -> bool:
         return True
 
-    @classmethod
-    def get_cu_count(cls, device_id: int = 0) -> int:
-        return torch.cuda.get_device_properties(device_id).multi_processor_count
-
     @classmethod
     def is_navi(cls) -> bool:
         return "gfx1" in torch.cuda.get_device_properties(0).gcnArchName
diff --git a/vllm/utils/platform_utils.py b/vllm/utils/platform_utils.py
index 34ac820c6e9d6..3327fce6707b1 100644
--- a/vllm/utils/platform_utils.py
+++ b/vllm/utils/platform_utils.py
@@ -24,6 +24,11 @@ def xpu_is_initialized() -> bool:
     return torch.xpu.is_initialized()
 
 
+def get_cu_count(cls, device_id: int = 0) -> int:
+    """Returns the total number of compute units (CU) on single GPU."""
+    return torch.cuda.get_device_properties(device_id).multi_processor_count
+
+
 def cuda_get_device_properties(
     device, names: Sequence[str], init_cuda=False
 ) -> tuple[Any, ...]:

From a543e678b45a08c6bd98a4e5ebcc244679003659 Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Wed, 12 Nov 2025 21:40:59 -0500
Subject: [PATCH 384/976] [Bugfix] Fix SM100 gpt-oss regression due to faulty
 attn sink support (#28561)

Signed-off-by: mgoin <mgoin64@gmail.com>
---
 vllm/utils/flashinfer.py                 | 31 ++++++++++++++++--------
 vllm/v1/attention/backends/flashinfer.py | 15 ++++++++++++
 2 files changed, 36 insertions(+), 10 deletions(-)

diff --git a/vllm/utils/flashinfer.py b/vllm/utils/flashinfer.py
index 5101020fda12f..62af39513d651 100644
--- a/vllm/utils/flashinfer.py
+++ b/vllm/utils/flashinfer.py
@@ -35,9 +35,20 @@ FLASHINFER_CUBINS_REPOSITORY = os.environ.get(
 )
 
 
+@functools.cache
+def has_flashinfer_cubin() -> bool:
+    """Return `True` if flashinfer-cubin package is available."""
+    if envs.VLLM_HAS_FLASHINFER_CUBIN:
+        return True
+    if importlib.util.find_spec("flashinfer_cubin") is not None:
+        return True
+    logger.debug_once("flashinfer-cubin package was not found")
+    return False
+
+
 @functools.cache
 def has_flashinfer() -> bool:
-    """Return `True` if FlashInfer is available."""
+    """Return `True` if flashinfer-python package is available."""
     # Use find_spec to check if the module exists without importing it
     # This avoids potential CUDA initialization side effects
     if importlib.util.find_spec("flashinfer") is None:
@@ -45,7 +56,7 @@ def has_flashinfer() -> bool:
         return False
     # When not using flashinfer cubin,
     # Also check if nvcc is available since it's required to JIT compile flashinfer
-    if not envs.VLLM_HAS_FLASHINFER_CUBIN and shutil.which("nvcc") is None:
+    if not has_flashinfer_cubin() and shutil.which("nvcc") is None:
         logger.debug_once(
             "FlashInfer unavailable since nvcc was not found "
             "and not using pre-downloaded cubins"
@@ -183,9 +194,8 @@ def has_nvidia_artifactory() -> bool:
     This checks connectivity to the kernel inference library artifactory
     which is required for downloading certain cubin kernels like TRTLLM FHMA.
     """
-    # Since FLASHINFER_CUBIN_DIR defines the pre-downloaded cubins path, when
-    # it's true, we could assume the cubins are available.
-    if envs.VLLM_HAS_FLASHINFER_CUBIN:
+    # If we have pre-downloaded cubins, we can assume the cubins are available.
+    if has_flashinfer_cubin():
         return True
 
     try:
@@ -208,9 +218,13 @@ def has_nvidia_artifactory() -> bool:
 @functools.cache
 def supports_trtllm_attention() -> bool:
     """
-    TRTLLM attention is supported if the platform is SM100 and
-    NVIDIA artifactory is accessible
+    TRTLLM attention is supported if the platform is SM100,
+    NVIDIA artifactory is accessible, and batch-invariant mode is not enabled.
     """
+    # Batch-invariant mode disables TRTLLM attention
+    if vllm_is_batch_invariant():
+        return False
+
     # Requires SM100 and NVIDIA artifactory to be accessible to download cubins
     return current_platform.is_device_capability(100) and has_nvidia_artifactory()
 
@@ -229,9 +243,6 @@ def force_use_trtllm_attention() -> bool | None:
     return `True` if TRTLLM attention is forced to be used,
     return `False` if TRTLLM attention is forced to be not used.
     """
-    if vllm_is_batch_invariant():
-        logger.info_once("VLLM_USE_TRTLLM_ATTENTION is disabled for batch-invariant")
-        return False
     return _force_use_trtllm_attention(envs.VLLM_USE_TRTLLM_ATTENTION)
 
 
diff --git a/vllm/v1/attention/backends/flashinfer.py b/vllm/v1/attention/backends/flashinfer.py
index 1ce8e6f3d89f8..0b650e2e0d33b 100755
--- a/vllm/v1/attention/backends/flashinfer.py
+++ b/vllm/v1/attention/backends/flashinfer.py
@@ -229,6 +229,21 @@ class FlashInferBackend(AttentionBackend):
             12, 1
         )
 
+    @classmethod
+    def supports_sink(cls) -> bool:
+        """FlashInfer supports sinks when TRTLLM attention is available (SM100)."""
+        from vllm.utils.flashinfer import (
+            force_use_trtllm_attention,
+            supports_trtllm_attention,
+        )
+
+        # Respect explicit disable flag (e.g., VLLM_USE_TRTLLM_ATTENTION=0)
+        if force_use_trtllm_attention() is False:
+            return False
+
+        # Check if TRTLLM is supported on this platform
+        return supports_trtllm_attention()
+
     @classmethod
     def get_required_kv_cache_layout(cls) -> KVCacheLayoutType | None:
         from vllm.platforms import current_platform

From 8832fff972b2f2c4a653f6cc10d3c77013b8326a Mon Sep 17 00:00:00 2001
From: Nick Hill <nhill@redhat.com>
Date: Wed, 12 Nov 2025 19:06:03 -0800
Subject: [PATCH 385/976] [BugFix] Fix `mm_encoder_attn_backend` arg type
 checking (#28599)

Signed-off-by: Nick Hill <nhill@redhat.com>
---
 .buildkite/test-pipeline.yaml | 4 +++-
 vllm/config/multimodal.py     | 3 +++
 2 files changed, 6 insertions(+), 1 deletion(-)

diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index 36a867f1addb7..be1b79ddc4324 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -57,7 +57,7 @@ steps:
   - pytest -v -s -m 'not cpu_test' multimodal
   - pytest -v -s utils_
 
-- label: Async Engine, Inputs, Utils, Worker Test (CPU) # 4 mins
+- label: Async Engine, Inputs, Utils, Worker, Config Test (CPU) # 4 mins
   timeout_in_minutes: 10
   source_file_dependencies:
   - vllm/
@@ -66,6 +66,7 @@ steps:
   - tests/multimodal
   - tests/standalone_tests/lazy_imports.py
   - tests/transformers_utils
+  - tests/config
   no_gpu: true
   commands:
   - python3 standalone_tests/lazy_imports.py
@@ -73,6 +74,7 @@ steps:
   - pytest -v -s test_outputs.py
   - pytest -v -s -m 'cpu_test' multimodal
   - pytest -v -s transformers_utils
+  - pytest -v -s config
 
 - label: Python-only Installation Test # 10min
   timeout_in_minutes: 20
diff --git a/vllm/config/multimodal.py b/vllm/config/multimodal.py
index 9348c1b2af8cc..9f62b35ed515c 100644
--- a/vllm/config/multimodal.py
+++ b/vllm/config/multimodal.py
@@ -170,6 +170,9 @@ class MultiModalConfig:
     def _validate_mm_encoder_attn_backend(
         cls, value: str | AttentionBackendEnum | None
     ) -> AttentionBackendEnum | None:
+        # We need to import the real type here (deferred to avoid circular import).
+        from vllm.attention.backends.registry import AttentionBackendEnum
+
         if value is None or isinstance(value, AttentionBackendEnum):
             return value
 

From 32262834610d56f533c53acb953777ac8f3d7942 Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Thu, 13 Nov 2025 03:12:14 +0000
Subject: [PATCH 386/976] [Docs] Add some details about what the MoE block
 needs for the Transformers backend (#28588)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 docs/models/supported_models.md | 24 +++++++++++++++++++++++-
 1 file changed, 23 insertions(+), 1 deletion(-)

diff --git a/docs/models/supported_models.md b/docs/models/supported_models.md
index eed1b3fb4bc85..c1eb207efcd18 100644
--- a/docs/models/supported_models.md
+++ b/docs/models/supported_models.md
@@ -75,7 +75,12 @@ This section details the necessary modifications to make to a Transformers compa
 To make your model compatible with the Transformers backend, it needs:
 
 1. `kwargs` passed down through all modules from `MyModel` to `MyAttention`.
-    1. If your model is encoder-only, you must also add `is_causal = False` to `MyAttention`.
+    - If your model is encoder-only:
+        1. Add `is_causal = False` to `MyAttention`.
+    - If your model is mixture-of-experts (MoE):
+        1. Your sparse MoE block must have an attribute called `experts`.
+        2. The class of `experts` (`MyExperts`) must inherit from `nn.ModuleList`.
+        3. `MyExperts.forward` must accept `hidden_states`, `top_k_index`, `top_k_weights`.
 2. `MyAttention` must use `ALL_ATTENTION_FUNCTIONS` to call attention.
 3. `MyModel` must contain `_supports_attention_backend = True`.
 
@@ -102,6 +107,23 @@ class MyAttention(nn.Module):
         )
         ...
 
+# Only do this for mixture-of-experts models
+class MyExperts(nn.ModuleList):
+    def forward(self, hidden_states, top_k_index, top_k_weights):
+        ...
+
+# Only do this for mixture-of-experts models
+class MySparseMoEBlock(nn.Module):
+    def __init__(self, config):
+        ...
+        self.experts = MyExperts(config)
+        ...
+
+    def forward(self, hidden_states: torch.Tensor):
+        ...
+        hidden_states = self.experts(hidden_states, top_k_index, top_k_weights)
+        ...
+
 class MyModel(PreTrainedModel):
     _supports_attention_backend = True
 ```

From 97d1c99302df6f7eadc0d0b32ec174db69cb4421 Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Thu, 13 Nov 2025 03:14:33 +0000
Subject: [PATCH 387/976] Rename clashing method names for vLLM model protocol
 (#27583)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 docs/contributing/model/basic.md              |  4 +-
 docs/contributing/model/multimodal.md         |  6 +--
 vllm/model_executor/models/apertus.py         |  8 ++--
 vllm/model_executor/models/arcee.py           |  8 ++--
 vllm/model_executor/models/arctic.py          |  8 ++--
 vllm/model_executor/models/aria.py            |  6 +--
 vllm/model_executor/models/aya_vision.py      |  2 +-
 vllm/model_executor/models/baichuan.py        |  8 ++--
 vllm/model_executor/models/bailing_moe.py     |  8 ++--
 vllm/model_executor/models/bamba.py           |  8 ++--
 vllm/model_executor/models/bert.py            | 14 +++---
 vllm/model_executor/models/bert_with_rope.py  |  6 +--
 vllm/model_executor/models/blip2.py           |  2 +-
 vllm/model_executor/models/bloom.py           |  8 ++--
 vllm/model_executor/models/chameleon.py       |  8 ++--
 vllm/model_executor/models/chatglm.py         |  8 ++--
 vllm/model_executor/models/clip.py            | 12 +++---
 vllm/model_executor/models/cohere2_vision.py  |  2 +-
 vllm/model_executor/models/commandr.py        |  8 ++--
 vllm/model_executor/models/dbrx.py            |  8 ++--
 vllm/model_executor/models/deepseek_eagle.py  |  6 +--
 vllm/model_executor/models/deepseek_mtp.py    |  6 +--
 vllm/model_executor/models/deepseek_ocr.py    |  4 +-
 vllm/model_executor/models/deepseek_v2.py     |  8 ++--
 vllm/model_executor/models/deepseek_vl2.py    |  2 +-
 vllm/model_executor/models/dots1.py           |  8 ++--
 vllm/model_executor/models/dots_ocr.py        |  6 +--
 vllm/model_executor/models/ernie45_moe.py     |  8 ++--
 vllm/model_executor/models/ernie45_vl.py      | 10 ++---
 vllm/model_executor/models/ernie45_vl_moe.py  |  8 ++--
 vllm/model_executor/models/ernie_mtp.py       |  6 +--
 vllm/model_executor/models/exaone.py          |  8 ++--
 vllm/model_executor/models/exaone4.py         |  8 ++--
 vllm/model_executor/models/falcon.py          |  8 ++--
 vllm/model_executor/models/falcon_h1.py       |  8 ++--
 vllm/model_executor/models/fuyu.py            |  2 +-
 vllm/model_executor/models/gemma.py           |  8 ++--
 vllm/model_executor/models/gemma2.py          |  8 ++--
 vllm/model_executor/models/gemma3.py          |  8 ++--
 vllm/model_executor/models/gemma3_mm.py       |  2 +-
 vllm/model_executor/models/gemma3n.py         | 12 +++---
 vllm/model_executor/models/gemma3n_mm.py      | 12 +++---
 vllm/model_executor/models/glm4.py            |  4 +-
 vllm/model_executor/models/glm4_1v.py         |  4 +-
 vllm/model_executor/models/glm4_moe.py        |  8 ++--
 vllm/model_executor/models/glm4_moe_mtp.py    |  6 +--
 vllm/model_executor/models/glm4v.py           |  4 +-
 vllm/model_executor/models/gpt2.py            | 12 +++---
 vllm/model_executor/models/gpt_bigcode.py     |  8 ++--
 vllm/model_executor/models/gpt_j.py           |  8 ++--
 vllm/model_executor/models/gpt_neox.py        |  8 ++--
 vllm/model_executor/models/gpt_oss.py         |  8 ++--
 vllm/model_executor/models/granite.py         |  8 ++--
 vllm/model_executor/models/granite_speech.py  |  8 ++--
 vllm/model_executor/models/granitemoe.py      |  8 ++--
 .../model_executor/models/granitemoehybrid.py |  8 ++--
 .../model_executor/models/granitemoeshared.py |  8 ++--
 vllm/model_executor/models/grok1.py           |  8 ++--
 vllm/model_executor/models/hunyuan_v1.py      |  8 ++--
 .../models/hyperclovax_vision.py              |  2 +-
 vllm/model_executor/models/idefics3.py        |  6 +--
 vllm/model_executor/models/interfaces.py      | 32 ++++++++------
 vllm/model_executor/models/interfaces_base.py | 43 ++++++++++---------
 vllm/model_executor/models/internlm2.py       |  8 ++--
 vllm/model_executor/models/interns1.py        |  8 ++--
 vllm/model_executor/models/internvl.py        |  8 ++--
 vllm/model_executor/models/jais.py            |  8 ++--
 vllm/model_executor/models/jamba.py           |  8 ++--
 vllm/model_executor/models/keye.py            |  4 +-
 vllm/model_executor/models/kimi_linear.py     |  8 ++--
 vllm/model_executor/models/kimi_vl.py         |  2 +-
 vllm/model_executor/models/lfm2.py            |  8 ++--
 vllm/model_executor/models/lfm2_moe.py        |  8 ++--
 vllm/model_executor/models/llama.py           |  8 ++--
 vllm/model_executor/models/llama4_eagle.py    |  6 +--
 vllm/model_executor/models/llama_eagle.py     |  6 +--
 vllm/model_executor/models/llama_eagle3.py    |  8 ++--
 vllm/model_executor/models/llava.py           |  2 +-
 vllm/model_executor/models/llava_next.py      |  8 ++--
 .../model_executor/models/llava_next_video.py |  2 +-
 vllm/model_executor/models/llava_onevision.py |  2 +-
 vllm/model_executor/models/longcat_flash.py   |  8 ++--
 vllm/model_executor/models/mamba.py           |  8 ++--
 vllm/model_executor/models/mamba2.py          |  8 ++--
 vllm/model_executor/models/midashenglm.py     |  2 +-
 vllm/model_executor/models/mimo.py            |  2 +-
 vllm/model_executor/models/mimo_mtp.py        |  6 +--
 vllm/model_executor/models/minicpm.py         |  8 ++--
 vllm/model_executor/models/minicpm_eagle.py   |  8 ++--
 vllm/model_executor/models/minicpmv.py        |  2 +-
 vllm/model_executor/models/minimax_m2.py      |  8 ++--
 vllm/model_executor/models/minimax_text_01.py |  6 +--
 vllm/model_executor/models/minimax_vl_01.py   |  6 +--
 vllm/model_executor/models/mistral3.py        |  2 +-
 vllm/model_executor/models/mixtral.py         |  8 ++--
 vllm/model_executor/models/mllama4.py         |  2 +-
 vllm/model_executor/models/modernbert.py      | 14 +++---
 vllm/model_executor/models/molmo.py           |  4 +-
 vllm/model_executor/models/mpt.py             |  8 ++--
 .../model_executor/models/nano_nemotron_vl.py |  6 +--
 vllm/model_executor/models/nemotron.py        |  8 ++--
 vllm/model_executor/models/nemotron_h.py      |  8 ++--
 vllm/model_executor/models/nemotron_nas.py    |  8 ++--
 vllm/model_executor/models/nemotron_vl.py     |  8 ++--
 vllm/model_executor/models/olmo.py            |  8 ++--
 vllm/model_executor/models/olmo2.py           |  6 +--
 vllm/model_executor/models/olmoe.py           |  8 ++--
 vllm/model_executor/models/openpangu.py       |  8 ++--
 vllm/model_executor/models/openpangu_mtp.py   |  4 +-
 vllm/model_executor/models/opt.py             | 12 +++---
 vllm/model_executor/models/orion.py           |  8 ++--
 vllm/model_executor/models/ouro.py            |  8 ++--
 vllm/model_executor/models/ovis.py            |  2 +-
 vllm/model_executor/models/ovis2_5.py         |  2 +-
 vllm/model_executor/models/paddleocr_vl.py    |  6 +--
 vllm/model_executor/models/paligemma.py       |  2 +-
 vllm/model_executor/models/persimmon.py       |  8 ++--
 vllm/model_executor/models/phi.py             |  8 ++--
 vllm/model_executor/models/phi3v.py           |  8 ++--
 vllm/model_executor/models/phi4_multimodal.py |  2 +-
 vllm/model_executor/models/phi4mm.py          |  2 +-
 vllm/model_executor/models/phimoe.py          |  8 ++--
 vllm/model_executor/models/pixtral.py         |  2 +-
 vllm/model_executor/models/plamo2.py          |  8 ++--
 vllm/model_executor/models/qwen.py            |  4 +-
 vllm/model_executor/models/qwen2.py           |  8 ++--
 .../models/qwen2_5_omni_thinker.py            | 10 ++---
 vllm/model_executor/models/qwen2_5_vl.py      |  2 +-
 vllm/model_executor/models/qwen2_audio.py     |  2 +-
 vllm/model_executor/models/qwen2_moe.py       |  8 ++--
 vllm/model_executor/models/qwen2_rm.py        |  4 +-
 vllm/model_executor/models/qwen2_vl.py        |  2 +-
 vllm/model_executor/models/qwen3.py           |  4 +-
 vllm/model_executor/models/qwen3_moe.py       |  8 ++--
 vllm/model_executor/models/qwen3_next.py      |  8 ++--
 vllm/model_executor/models/qwen3_next_mtp.py  |  8 ++--
 .../models/qwen3_omni_moe_thinker.py          | 12 +++---
 vllm/model_executor/models/qwen3_vl.py        | 14 +++---
 vllm/model_executor/models/qwen3_vl_moe.py    |  2 +-
 vllm/model_executor/models/qwen_vl.py         |  2 +-
 vllm/model_executor/models/roberta.py         |  4 +-
 vllm/model_executor/models/seed_oss.py        |  8 ++--
 vllm/model_executor/models/siglip.py          | 10 ++---
 vllm/model_executor/models/skyworkr1v.py      |  8 ++--
 vllm/model_executor/models/solar.py           |  8 ++--
 vllm/model_executor/models/stablelm.py        |  8 ++--
 vllm/model_executor/models/starcoder2.py      |  8 ++--
 vllm/model_executor/models/step3_text.py      |  8 ++--
 vllm/model_executor/models/step3_vl.py        | 12 +++---
 vllm/model_executor/models/tarsier.py         |  6 +--
 vllm/model_executor/models/teleflm.py         |  2 +-
 vllm/model_executor/models/terratorch.py      |  2 +-
 .../models/transformers/base.py               |  4 +-
 .../models/transformers/multimodal.py         |  2 +-
 vllm/model_executor/models/ultravox.py        |  8 ++--
 vllm/model_executor/models/utils.py           |  2 +-
 vllm/model_executor/models/voxtral.py         |  2 +-
 vllm/model_executor/models/whisper.py         | 10 ++---
 vllm/model_executor/models/zamba2.py          |  8 ++--
 vllm/multimodal/processing.py                 |  2 +-
 vllm/v1/spec_decode/eagle.py                  | 10 ++---
 vllm/v1/worker/gpu_model_runner.py            | 10 ++---
 vllm/v1/worker/tpu_model_runner.py            | 22 +++++-----
 vllm/v1/worker/utils.py                       |  8 ++--
 164 files changed, 574 insertions(+), 583 deletions(-)

diff --git a/docs/contributing/model/basic.md b/docs/contributing/model/basic.md
index 795bd5507a613..a7b54f015c2da 100644
--- a/docs/contributing/model/basic.md
+++ b/docs/contributing/model/basic.md
@@ -56,13 +56,13 @@ The initialization code should look like this:
 
 ### Computation Code
 
-- Add a `get_input_embeddings` method inside `MyModel` module that returns the text embeddings given `input_ids`. This is equivalent to directly calling the text embedding layer, but provides a unified interface in case `MyModel` is used within a composite multimodal model.
+- Add a `embed_input_ids` method inside `MyModel` module that returns the text embeddings given `input_ids`. This is equivalent to directly calling the text embedding layer, but provides a unified interface in case `MyModel` is used within a composite multimodal model.
 
 ```python
 class MyModel(nn.Module):
         ...
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         ... 
 ```
 
diff --git a/docs/contributing/model/multimodal.md b/docs/contributing/model/multimodal.md
index 4e74afc688cf7..c2ca199220a1a 100644
--- a/docs/contributing/model/multimodal.md
+++ b/docs/contributing/model/multimodal.md
@@ -36,7 +36,7 @@ Further update the model as follows:
   
   More conveniently, you can simply pass `**kwargs` to the [forward][torch.nn.Module.forward] method and retrieve the keyword parameters for multimodal inputs from it.
 
-- Implement [get_multimodal_embeddings][vllm.model_executor.models.interfaces.SupportsMultiModal.get_multimodal_embeddings] that returns the embeddings from running the multimodal inputs through the multimodal tokenizer of the model. Below we provide a boilerplate of a typical implementation pattern, but feel free to adjust it to your own needs.
+- Implement [embed_multimodal][vllm.model_executor.models.interfaces.SupportsMultiModal.embed_multimodal] that returns the embeddings from running the multimodal inputs through the multimodal tokenizer of the model. Below we provide a boilerplate of a typical implementation pattern, but feel free to adjust it to your own needs.
 
     ??? code
 
@@ -49,7 +49,7 @@ Further update the model as follows:
                 image_features = self.vision_encoder(image_input)
                 return self.multi_modal_projector(image_features)
 
-            def get_multimodal_embeddings(
+            def embed_multimodal(
                 self,
                 **kwargs: object,
             ) -> MultiModalEmbeddings | None:
@@ -69,7 +69,7 @@ Further update the model as follows:
 !!! note
     By default, vLLM merges the multimodal embeddings into text embeddings depending on the information of their locations defined in
     [PlaceholderRange][vllm.multimodal.inputs.PlaceholderRange] from input processing.
-    This logic can be found at [get_input_embeddings][vllm.model_executor.models.interfaces.SupportsMultiModal.get_input_embeddings].
+    This logic can be found at [embed_input_ids][vllm.model_executor.models.interfaces.SupportsMultiModal.embed_input_ids].
 
     You may override this method if additional logic is required for your model when merging embeddings. 
 
diff --git a/vllm/model_executor/models/apertus.py b/vllm/model_executor/models/apertus.py
index 233b8c79f2992..0a8f21abb0a35 100644
--- a/vllm/model_executor/models/apertus.py
+++ b/vllm/model_executor/models/apertus.py
@@ -382,7 +382,7 @@ class ApertusModel(nn.Module):
             ["hidden_states", "residual"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -396,7 +396,7 @@ class ApertusModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -557,8 +557,8 @@ class ApertusForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
             vllm_config=vllm_config, prefix=prefix, layer_type=layer_type
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/arcee.py b/vllm/model_executor/models/arcee.py
index f33970aff279c..20c3ff0754506 100644
--- a/vllm/model_executor/models/arcee.py
+++ b/vllm/model_executor/models/arcee.py
@@ -239,7 +239,7 @@ class ArceeModel(nn.Module):
             ["hidden_states", "residual"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -254,7 +254,7 @@ class ArceeModel(nn.Module):
             hidden_states = (
                 inputs_embeds
                 if inputs_embeds is not None
-                else self.get_input_embeddings(input_ids)
+                else self.embed_input_ids(input_ids)
             )
             residual = None
         else:
@@ -423,8 +423,8 @@ class ArceeForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
         logits = self.logits_processor(self.lm_head, hidden_states)
         return logits
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
         """Load weights into the model (delegates to inner model and handles
diff --git a/vllm/model_executor/models/arctic.py b/vllm/model_executor/models/arctic.py
index ae3b96c83509d..b5cc07a56535d 100644
--- a/vllm/model_executor/models/arctic.py
+++ b/vllm/model_executor/models/arctic.py
@@ -442,7 +442,7 @@ class ArcticModel(nn.Module):
             ["hidden_states"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -456,7 +456,7 @@ class ArcticModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
         else:
             assert intermediate_tensors is not None
             hidden_states = intermediate_tensors["hidden_states"]
@@ -496,8 +496,8 @@ class ArcticForCausalLM(nn.Module, SupportsPP, SupportsQuant):
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/aria.py b/vllm/model_executor/models/aria.py
index fe37487d6ed88..3d07e6b612ca3 100644
--- a/vllm/model_executor/models/aria.py
+++ b/vllm/model_executor/models/aria.py
@@ -613,7 +613,7 @@ class AriaForConditionalGeneration(nn.Module, SupportsMultiModal):
     def get_language_model(self) -> torch.nn.Module:
         return self.language_model
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         image_input = self._parse_and_validate_image_input(**kwargs)
         if image_input is None:
             return []
@@ -629,8 +629,8 @@ class AriaForConditionalGeneration(nn.Module, SupportsMultiModal):
         **kwargs: object,
     ) -> torch.Tensor | IntermediateTensors:
         if inputs_embeds is None:
-            multimodal_embeddings = self.get_multimodal_embeddings(**kwargs)
-            inputs_embeds = self.get_input_embeddings(
+            multimodal_embeddings = self.embed_multimodal(**kwargs)
+            inputs_embeds = self.embed_input_ids(
                 input_ids,
                 multimodal_embeddings,
                 is_multimodal=input_ids == self.config.image_token_index,
diff --git a/vllm/model_executor/models/aya_vision.py b/vllm/model_executor/models/aya_vision.py
index 839ab5947e094..0ada2ed5028bb 100644
--- a/vllm/model_executor/models/aya_vision.py
+++ b/vllm/model_executor/models/aya_vision.py
@@ -417,7 +417,7 @@ class AyaVisionForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsP
     def get_language_model(self) -> torch.nn.Module:
         return self.language_model
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         image_input = self._parse_and_validate_image_input(**kwargs)
         if image_input is None:
             return []
diff --git a/vllm/model_executor/models/baichuan.py b/vllm/model_executor/models/baichuan.py
index dac012eb9f829..8991ef4c606b6 100644
--- a/vllm/model_executor/models/baichuan.py
+++ b/vllm/model_executor/models/baichuan.py
@@ -309,7 +309,7 @@ class BaiChuanModel(nn.Module):
             ["hidden_states", "residual"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -323,7 +323,7 @@ class BaiChuanModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -426,8 +426,8 @@ class BaiChuanBaseForCausalLM(nn.Module, SupportsLoRA, SupportsPP, SupportsQuant
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/bailing_moe.py b/vllm/model_executor/models/bailing_moe.py
index 641bdb69c366c..a878134022565 100644
--- a/vllm/model_executor/models/bailing_moe.py
+++ b/vllm/model_executor/models/bailing_moe.py
@@ -438,7 +438,7 @@ class BailingMoeModel(nn.Module):
         else:
             self.norm = PPMissingLayer()
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.word_embeddings(input_ids)
 
     def forward(
@@ -452,7 +452,7 @@ class BailingMoeModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -608,8 +608,8 @@ class BailingMoeForCausalLM(nn.Module, SupportsPP, SupportsLoRA):
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/bamba.py b/vllm/model_executor/models/bamba.py
index 4a2b3da1c194d..e0a2defd5127e 100644
--- a/vllm/model_executor/models/bamba.py
+++ b/vllm/model_executor/models/bamba.py
@@ -314,7 +314,7 @@ class BambaModel(nn.Module):
 
         self.final_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -328,7 +328,7 @@ class BambaModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -493,8 +493,8 @@ class BambaForCausalLM(
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/bert.py b/vllm/model_executor/models/bert.py
index 1c2334a785437..2679448bce775 100644
--- a/vllm/model_executor/models/bert.py
+++ b/vllm/model_executor/models/bert.py
@@ -375,7 +375,7 @@ class BertModel(nn.Module, SupportsQuant):
         self.embeddings = embedding_class(self.config)
         self.encoder = BertEncoder(vllm_config=vllm_config, prefix=f"{prefix}.encoder")
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embeddings.word_embeddings(input_ids)
 
     def forward(
@@ -486,8 +486,8 @@ class BertEmbeddingModel(nn.Module, SupportsQuant):
         )
         self.pooler = self._build_pooler(pooler_config)
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
@@ -835,8 +835,8 @@ class BertForSequenceClassification(nn.Module, SupportsCrossEncoding, SupportsQu
             }
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.bert.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.bert.embed_input_ids(input_ids)
 
     def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
         loader = AutoWeightsLoader(self)
@@ -893,8 +893,8 @@ class BertForTokenClassification(nn.Module):
             }
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.bert.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.bert.embed_input_ids(input_ids)
 
     def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
         loader = AutoWeightsLoader(self)
diff --git a/vllm/model_executor/models/bert_with_rope.py b/vllm/model_executor/models/bert_with_rope.py
index 31fdc4d21245a..131cb68914cf3 100644
--- a/vllm/model_executor/models/bert_with_rope.py
+++ b/vllm/model_executor/models/bert_with_rope.py
@@ -463,7 +463,7 @@ class BertWithRope(nn.Module, SupportsQuant):
         )
         self.pooler = BertPooler(self.config) if add_pooling_layer else None
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embeddings(input_ids)
 
     def forward(
@@ -714,8 +714,8 @@ class GteNewForSequenceClassification(nn.Module, SupportsCrossEncoding):
         loaded_params = loader.load_weights(weights)
         return loaded_params
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.new.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.new.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/blip2.py b/vllm/model_executor/models/blip2.py
index 2986a72f2e487..f71b9c01d359d 100644
--- a/vllm/model_executor/models/blip2.py
+++ b/vllm/model_executor/models/blip2.py
@@ -630,7 +630,7 @@ class Blip2ForConditionalGeneration(
     def get_language_model(self) -> torch.nn.Module:
         return self.language_model
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         image_input = self._parse_and_validate_image_input(**kwargs)
         if image_input is None:
             return []
diff --git a/vllm/model_executor/models/bloom.py b/vllm/model_executor/models/bloom.py
index 18b09ee43b7b0..00fba93423d8e 100644
--- a/vllm/model_executor/models/bloom.py
+++ b/vllm/model_executor/models/bloom.py
@@ -271,7 +271,7 @@ class BloomModel(nn.Module):
             ["hidden_states"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.word_embeddings(input_ids)
 
     def forward(
@@ -285,7 +285,7 @@ class BloomModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             hidden_states = self.word_embeddings_layernorm(hidden_states)
         else:
             assert intermediate_tensors is not None
@@ -353,8 +353,8 @@ class BloomForCausalLM(nn.Module, SupportsPP, SupportsQuant):
             self.transformer.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.transformer.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.transformer.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/chameleon.py b/vllm/model_executor/models/chameleon.py
index 64f73e938bf6c..fb7476c45fcdb 100644
--- a/vllm/model_executor/models/chameleon.py
+++ b/vllm/model_executor/models/chameleon.py
@@ -886,7 +886,7 @@ class ChameleonModel(nn.Module):
             ["hidden_states", "residual"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def get_image_tokens(self, pixel_values: torch.Tensor) -> torch.Tensor:
@@ -912,7 +912,7 @@ class ChameleonModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -998,7 +998,7 @@ class ChameleonForConditionalGeneration(
     def get_language_model(self) -> torch.nn.Module:
         return self.model
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         image_input = self._parse_and_validate_image_input(**kwargs)
         if image_input is None:
             return []
@@ -1006,7 +1006,7 @@ class ChameleonForConditionalGeneration(
         image_tokens = self.model.get_image_tokens(
             image_input["data"].to(self.config.dtype)
         )
-        vision_embeddings = self.model.get_input_embeddings(image_tokens)
+        vision_embeddings = self.model.embed_input_ids(image_tokens)
         return vision_embeddings
 
     def forward(
diff --git a/vllm/model_executor/models/chatglm.py b/vllm/model_executor/models/chatglm.py
index ccf7c93001664..5d6f5e9125a28 100644
--- a/vllm/model_executor/models/chatglm.py
+++ b/vllm/model_executor/models/chatglm.py
@@ -353,7 +353,7 @@ class ChatGLMModel(nn.Module, SupportsQuant):
             self.encoder.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embedding(input_ids)
 
     def forward(
@@ -368,7 +368,7 @@ class ChatGLMModel(nn.Module, SupportsQuant):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
         else:
             assert intermediate_tensors is not None
             hidden_states = intermediate_tensors["hidden_states"]
@@ -451,8 +451,8 @@ class ChatGLMBaseModel(nn.Module):
             self.transformer.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.transformer.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.transformer.embed_input_ids(input_ids)
 
     def compute_logits(
         self,
diff --git a/vllm/model_executor/models/clip.py b/vllm/model_executor/models/clip.py
index 27953c27188d9..50f476dfd185b 100644
--- a/vllm/model_executor/models/clip.py
+++ b/vllm/model_executor/models/clip.py
@@ -561,7 +561,7 @@ class CLIPTextTransformer(nn.Module):
             eps=config.layer_norm_eps,
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embeddings.token_embedding(input_ids)
 
     def forward(
@@ -842,7 +842,7 @@ class CLIPEmbeddingModel(nn.Module, SupportsMultiModal, SupportsQuant):
             }
         )
 
-        # Assumes that self.forward is called after self.get_input_embeddings
+        # Assumes that self.forward is called after self.embed_input_ids
         self._is_text_input = True
 
     def get_text_features(
@@ -903,7 +903,7 @@ class CLIPEmbeddingModel(nn.Module, SupportsMultiModal, SupportsQuant):
     def get_language_model(self) -> torch.nn.Module:
         return self.text_model
 
-    def get_input_embeddings(
+    def embed_input_ids(
         self,
         input_ids: torch.Tensor,
         multimodal_embeddings: MultiModalEmbeddings | None = None,
@@ -917,16 +917,16 @@ class CLIPEmbeddingModel(nn.Module, SupportsMultiModal, SupportsQuant):
 
         # This is to satisfy the type checker for each overload
         if multimodal_embeddings is None or is_multimodal is None:
-            return super().get_input_embeddings(input_ids)
+            return super().embed_input_ids(input_ids)
 
-        return super().get_input_embeddings(
+        return super().embed_input_ids(
             input_ids,
             multimodal_embeddings=multimodal_embeddings,
             is_multimodal=is_multimodal,
             handle_oov_mm_token=handle_oov_mm_token,
         )
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         image_input = self._parse_and_validate_image_input(**kwargs)
         if image_input is None:
             return []
diff --git a/vllm/model_executor/models/cohere2_vision.py b/vllm/model_executor/models/cohere2_vision.py
index 19cc31c9bd18b..139ccba9df6d8 100644
--- a/vllm/model_executor/models/cohere2_vision.py
+++ b/vllm/model_executor/models/cohere2_vision.py
@@ -439,7 +439,7 @@ class Cohere2VisionForConditionalGeneration(nn.Module, SupportsMultiModal, Suppo
     def get_language_model(self) -> torch.nn.Module:
         return self.language_model
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         image_input = self._parse_and_validate_image_input(**kwargs)
         if image_input is None:
             return []
diff --git a/vllm/model_executor/models/commandr.py b/vllm/model_executor/models/commandr.py
index 6ae1dc3560827..77bb178519813 100644
--- a/vllm/model_executor/models/commandr.py
+++ b/vllm/model_executor/models/commandr.py
@@ -311,7 +311,7 @@ class CohereModel(nn.Module):
             ["hidden_states", "residual"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -325,7 +325,7 @@ class CohereModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -436,8 +436,8 @@ class CohereForCausalLM(nn.Module, SupportsLoRA, SupportsPP, SupportsQuant):
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     @torch.no_grad()
     def forward(
diff --git a/vllm/model_executor/models/dbrx.py b/vllm/model_executor/models/dbrx.py
index 70999501f4c69..528ef4f76742d 100644
--- a/vllm/model_executor/models/dbrx.py
+++ b/vllm/model_executor/models/dbrx.py
@@ -354,7 +354,7 @@ class DbrxModel(nn.Module):
             ["hidden_states"], config.d_model
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.wte(input_ids)
 
     def forward(
@@ -368,7 +368,7 @@ class DbrxModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
         else:
             assert intermediate_tensors
             hidden_states = intermediate_tensors["hidden_states"]
@@ -455,8 +455,8 @@ class DbrxForCausalLM(nn.Module, SupportsPP):
             self.transformer.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.transformer.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.transformer.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/deepseek_eagle.py b/vllm/model_executor/models/deepseek_eagle.py
index fd2f20ea501d0..9e834a73f8e5e 100644
--- a/vllm/model_executor/models/deepseek_eagle.py
+++ b/vllm/model_executor/models/deepseek_eagle.py
@@ -73,7 +73,7 @@ class DeepseekV2Model(nn.Module):
         self.hnorm = RMSNorm(self.config.hidden_size, eps=self.config.rms_norm_eps)
         self.norm = RMSNorm(self.config.hidden_size, eps=self.config.rms_norm_eps)
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -222,8 +222,8 @@ class EagleDeepseekV3ForCausalLM(DeepseekV3ForCausalLM):
         self.num_moe_layers = self.config.num_hidden_layers
         self.set_moe_parameters()
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/deepseek_mtp.py b/vllm/model_executor/models/deepseek_mtp.py
index 26b9c25e6bdb5..e028dc497aa6a 100644
--- a/vllm/model_executor/models/deepseek_mtp.py
+++ b/vllm/model_executor/models/deepseek_mtp.py
@@ -142,7 +142,7 @@ class DeepSeekMultiTokenPredictor(nn.Module):
         )
         self.logits_processor = LogitsProcessor(config.vocab_size)
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -206,8 +206,8 @@ class DeepSeekMTP(nn.Module, SupportsPP, DeepseekV2MixtureOfExperts):
                 self.moe_layers.append(layer.mlp.experts)
         self.extract_moe_parameters(example_moe)
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/deepseek_ocr.py b/vllm/model_executor/models/deepseek_ocr.py
index 0432567521843..c89caab93a1ee 100644
--- a/vllm/model_executor/models/deepseek_ocr.py
+++ b/vllm/model_executor/models/deepseek_ocr.py
@@ -557,9 +557,7 @@ class DeepseekOCRForCausalLM(nn.Module, SupportsMultiModal, SupportsPP):
     def get_language_model(self) -> torch.nn.Module:
         return self.language_model
 
-    def get_multimodal_embeddings(
-        self, **kwargs: object
-    ) -> MultiModalEmbeddings | None:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings | None:
         image_input = self._parse_and_validate_image_input(**kwargs)
         if image_input is None:
             return None
diff --git a/vllm/model_executor/models/deepseek_v2.py b/vllm/model_executor/models/deepseek_v2.py
index 38189e17f7d8b..115818d903a6d 100644
--- a/vllm/model_executor/models/deepseek_v2.py
+++ b/vllm/model_executor/models/deepseek_v2.py
@@ -1236,7 +1236,7 @@ class DeepseekV2Model(nn.Module):
             ["hidden_states", "residual"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -1250,7 +1250,7 @@ class DeepseekV2Model(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -1389,8 +1389,8 @@ class DeepseekV2ForCausalLM(
 
         self.extract_moe_parameters(example_moe)
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/deepseek_vl2.py b/vllm/model_executor/models/deepseek_vl2.py
index 306eef3dca990..e7b48e0f4e554 100644
--- a/vllm/model_executor/models/deepseek_vl2.py
+++ b/vllm/model_executor/models/deepseek_vl2.py
@@ -619,7 +619,7 @@ class DeepseekVLV2ForCausalLM(nn.Module, SupportsMultiModal, SupportsPP):
     def get_language_model(self) -> torch.nn.Module:
         return self.language_model
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         image_input = self._parse_and_validate_image_input(**kwargs)
         if image_input is None:
             return []
diff --git a/vllm/model_executor/models/dots1.py b/vllm/model_executor/models/dots1.py
index 15caa3184581d..d24da0c42a254 100644
--- a/vllm/model_executor/models/dots1.py
+++ b/vllm/model_executor/models/dots1.py
@@ -398,7 +398,7 @@ class Dots1Model(nn.Module):
             ["hidden_states", "residual"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -412,7 +412,7 @@ class Dots1Model(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -541,8 +541,8 @@ class Dots1ForCausalLM(nn.Module, SupportsPP, SupportsLoRA):
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/dots_ocr.py b/vllm/model_executor/models/dots_ocr.py
index 1b2bb60a17c16..25e5588961a63 100644
--- a/vllm/model_executor/models/dots_ocr.py
+++ b/vllm/model_executor/models/dots_ocr.py
@@ -840,7 +840,7 @@ class DotsOCRForCausalLM(nn.Module, SupportsMultiModal, SupportsPP, SupportsLoRA
     def get_language_model(self) -> torch.nn.Module:
         return self.language_model
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         image_input = self._parse_and_validate_image_input(**kwargs)
         if image_input is None:
             return []
@@ -858,8 +858,8 @@ class DotsOCRForCausalLM(nn.Module, SupportsMultiModal, SupportsPP, SupportsLoRA
         if intermediate_tensors is not None:
             inputs_embeds = None
         elif inputs_embeds is None:
-            vision_embeddings = self.get_multimodal_embeddings(**kwargs)
-            inputs_embeds = self.get_input_embeddings(
+            vision_embeddings = self.embed_multimodal(**kwargs)
+            inputs_embeds = self.embed_input_ids(
                 input_ids,
                 vision_embeddings,
                 is_multimodal=input_ids == self.config.image_token_id,
diff --git a/vllm/model_executor/models/ernie45_moe.py b/vllm/model_executor/models/ernie45_moe.py
index b35666175ea7b..f2999968669f6 100644
--- a/vllm/model_executor/models/ernie45_moe.py
+++ b/vllm/model_executor/models/ernie45_moe.py
@@ -465,7 +465,7 @@ class Ernie4_5_MoeModel(nn.Module):
             ["hidden_states", "residual"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -479,7 +479,7 @@ class Ernie4_5_MoeModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -726,8 +726,8 @@ class Ernie4_5_MoeForCausalLM(nn.Module, SupportsPP, SupportsLoRA, MixtureOfExpe
                 moe.n_redundant_experts = self.num_redundant_experts
                 moe.experts.update_expert_map()
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/ernie45_vl.py b/vllm/model_executor/models/ernie45_vl.py
index c040b19bba20e..daa5bf03ea4a9 100644
--- a/vllm/model_executor/models/ernie45_vl.py
+++ b/vllm/model_executor/models/ernie45_vl.py
@@ -1656,9 +1656,7 @@ class Ernie4_5_VLMoeForConditionalGeneration(
 
         return modalities
 
-    def get_multimodal_embeddings(
-        self, **kwargs: object
-    ) -> MultiModalEmbeddings | None:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings | None:
         modalities = self._parse_and_validate_multimodal_inputs(**kwargs)
         if not modalities:
             return None
@@ -1681,7 +1679,7 @@ class Ernie4_5_VLMoeForConditionalGeneration(
 
         return multimodal_embeddings
 
-    def get_input_embeddings(
+    def embed_input_ids(
         self,
         input_ids: torch.Tensor,
         multimodal_embeddings: MultiModalEmbeddings | None = None,
@@ -1694,9 +1692,9 @@ class Ernie4_5_VLMoeForConditionalGeneration(
 
         # This is to satisfy the type checker for each overload
         if multimodal_embeddings is None or is_multimodal is None:
-            return super().get_input_embeddings(input_ids)
+            return super().embed_input_ids(input_ids)
 
-        return super().get_input_embeddings(
+        return super().embed_input_ids(
             input_ids,
             multimodal_embeddings=multimodal_embeddings,
             is_multimodal=is_multimodal,
diff --git a/vllm/model_executor/models/ernie45_vl_moe.py b/vllm/model_executor/models/ernie45_vl_moe.py
index d002d1838c8ea..e8ef86f9b7f01 100644
--- a/vllm/model_executor/models/ernie45_vl_moe.py
+++ b/vllm/model_executor/models/ernie45_vl_moe.py
@@ -561,7 +561,7 @@ class Ernie4_5_VLMoeModel(nn.Module):
             ["hidden_states", "residual"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -577,7 +577,7 @@ class Ernie4_5_VLMoeModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -642,8 +642,8 @@ class Ernie4_5_VLMoeForCausalLM(nn.Module, SupportsPP):
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/ernie_mtp.py b/vllm/model_executor/models/ernie_mtp.py
index e7036840388cc..1b9abc3572a3b 100644
--- a/vllm/model_executor/models/ernie_mtp.py
+++ b/vllm/model_executor/models/ernie_mtp.py
@@ -112,7 +112,7 @@ class ErnieMultiTokenPredictor(nn.Module):
         )
         self.logits_processor = LogitsProcessor(config.vocab_size)
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -160,8 +160,8 @@ class ErnieMTP(nn.Module, SupportsPP):
         if self.config.tie_word_embeddings:
             self.lm_head.weight = self.model.embed_tokens.weight
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/exaone.py b/vllm/model_executor/models/exaone.py
index b9c7a520caffb..6c56bfc433c7a 100644
--- a/vllm/model_executor/models/exaone.py
+++ b/vllm/model_executor/models/exaone.py
@@ -357,7 +357,7 @@ class ExaoneModel(nn.Module):
             ["hidden_states", "residual"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.wte(input_ids)
 
     def forward(
@@ -371,7 +371,7 @@ class ExaoneModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -512,8 +512,8 @@ class ExaoneForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
             self.transformer.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/exaone4.py b/vllm/model_executor/models/exaone4.py
index 6a5c888c095ae..b89e168ada20e 100644
--- a/vllm/model_executor/models/exaone4.py
+++ b/vllm/model_executor/models/exaone4.py
@@ -344,7 +344,7 @@ class Exaone4Model(nn.Module):
             ["hidden_states", "residual"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -358,7 +358,7 @@ class Exaone4Model(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -498,8 +498,8 @@ class Exaone4ForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/falcon.py b/vllm/model_executor/models/falcon.py
index 1b9c7da334909..85acdff3d96b4 100644
--- a/vllm/model_executor/models/falcon.py
+++ b/vllm/model_executor/models/falcon.py
@@ -399,7 +399,7 @@ class FalconModel(nn.Module):
             ["hidden_states"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.word_embeddings(input_ids)
 
     def forward(
@@ -413,7 +413,7 @@ class FalconModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
         else:
             hidden_states = intermediate_tensors["hidden_states"]
         for layer in islice(self.h, self.start_layer, self.end_layer):
@@ -515,8 +515,8 @@ class FalconForCausalLM(nn.Module, SupportsPP):
             self.transformer.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.transformer.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.transformer.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/falcon_h1.py b/vllm/model_executor/models/falcon_h1.py
index 38838be29093e..3653425b8e1ca 100644
--- a/vllm/model_executor/models/falcon_h1.py
+++ b/vllm/model_executor/models/falcon_h1.py
@@ -461,7 +461,7 @@ class FalconH1Model(nn.Module):
         else:
             self.final_layernorm = PPMissingLayer()
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -476,7 +476,7 @@ class FalconH1Model(nn.Module):
                 hidden_states = inputs_embeds * self.embedding_multiplier
             else:
                 hidden_states = (
-                    self.get_input_embeddings(input_ids) * self.embedding_multiplier
+                    self.embed_input_ids(input_ids) * self.embedding_multiplier
                 )
         else:
             assert intermediate_tensors is not None
@@ -601,8 +601,8 @@ class FalconH1ForCausalLM(
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/fuyu.py b/vllm/model_executor/models/fuyu.py
index 005fac4b1f05d..269c36ab5b9c7 100644
--- a/vllm/model_executor/models/fuyu.py
+++ b/vllm/model_executor/models/fuyu.py
@@ -333,7 +333,7 @@ class FuyuForCausalLM(nn.Module, SupportsMultiModal, SupportsPP):
     def get_language_model(self) -> torch.nn.Module:
         return self.language_model
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         image_input = self._parse_and_validate_image_input(**kwargs)
         if image_input is None:
             return []
diff --git a/vllm/model_executor/models/gemma.py b/vllm/model_executor/models/gemma.py
index caeee7c2e1ecc..7aaae7c503b58 100644
--- a/vllm/model_executor/models/gemma.py
+++ b/vllm/model_executor/models/gemma.py
@@ -293,7 +293,7 @@ class GemmaModel(nn.Module):
             ["hidden_states", "residual"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -307,7 +307,7 @@ class GemmaModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             hidden_states *= self.normalizer
             residual = None
         else:
@@ -396,8 +396,8 @@ class GemmaForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/gemma2.py b/vllm/model_executor/models/gemma2.py
index efd01535fc3ef..4d5d6cbb37c62 100644
--- a/vllm/model_executor/models/gemma2.py
+++ b/vllm/model_executor/models/gemma2.py
@@ -290,7 +290,7 @@ class Gemma2Model(nn.Module):
             ["hidden_states", "residual"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -304,7 +304,7 @@ class Gemma2Model(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             hidden_states *= self.normalizer
             residual = None
         else:
@@ -409,8 +409,8 @@ class Gemma2ForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/gemma3.py b/vllm/model_executor/models/gemma3.py
index 213f9f562f8a0..357e61a4e78bf 100644
--- a/vllm/model_executor/models/gemma3.py
+++ b/vllm/model_executor/models/gemma3.py
@@ -393,7 +393,7 @@ class Gemma3Model(nn.Module):
             ["hidden_states", "residual"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         # NOTE(woosuk): Only apply the normalizer to the output of
         # vocab embedding. Don't apply it to the vision embedding.
         return self.embed_tokens(input_ids) * self.normalizer
@@ -410,7 +410,7 @@ class Gemma3Model(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -540,8 +540,8 @@ class Gemma3ForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/gemma3_mm.py b/vllm/model_executor/models/gemma3_mm.py
index 8e1dbd9e2cea7..02fb7ef31dc94 100644
--- a/vllm/model_executor/models/gemma3_mm.py
+++ b/vllm/model_executor/models/gemma3_mm.py
@@ -596,7 +596,7 @@ class Gemma3ForConditionalGeneration(
     def get_language_model(self) -> torch.nn.Module:
         return self.language_model
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         image_input = self._parse_and_validate_image_input(**kwargs)
         if image_input is None:
             return []
diff --git a/vllm/model_executor/models/gemma3n.py b/vllm/model_executor/models/gemma3n.py
index 22d51ab762692..64443190f53ed 100644
--- a/vllm/model_executor/models/gemma3n.py
+++ b/vllm/model_executor/models/gemma3n.py
@@ -685,7 +685,7 @@ class Gemma3nSelfDecoder(nn.Module):
             per_layer_inputs = per_layer_projection
         return per_layer_inputs
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids) * self.embed_scale
 
     def altup_embed(self, hidden_states_0: torch.Tensor) -> torch.Tensor:
@@ -712,7 +712,7 @@ class Gemma3nSelfDecoder(nn.Module):
         if inputs_embeds is not None:
             hidden_states_0 = inputs_embeds
         else:
-            hidden_states_0 = self.get_input_embeddings(input_ids)
+            hidden_states_0 = self.embed_input_ids(input_ids)
 
         adjusted_per_layer_inputs = self.get_per_layer_inputs(
             hidden_states_0, per_layer_inputs
@@ -881,8 +881,8 @@ class Gemma3nTextModel(nn.Module, SupportsQuant):
     def get_per_layer_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.self_decoder.get_per_layer_input_embeddings(input_ids)
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.self_decoder.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.self_decoder.embed_input_ids(input_ids)
 
     def fast_prefill_forward(
         self,
@@ -1125,8 +1125,8 @@ class Gemma3nForCausalLM(nn.Module):
             config.vocab_size, soft_cap=config.final_logit_softcapping
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/gemma3n_mm.py b/vllm/model_executor/models/gemma3n_mm.py
index 2b727a538bf25..6ae76976eb46c 100644
--- a/vllm/model_executor/models/gemma3n_mm.py
+++ b/vllm/model_executor/models/gemma3n_mm.py
@@ -645,7 +645,7 @@ class Gemma3nForConditionalGeneration(
     def get_language_model(self) -> torch.nn.Module:
         return self.language_model
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         mm_input_by_modality = self._parse_and_validate_multimodal_inputs(**kwargs)
         if mm_input_by_modality is None:
             return []
@@ -664,7 +664,7 @@ class Gemma3nForConditionalGeneration(
                 multimodal_embeddings.extend(audio_embeddings)
         return multimodal_embeddings
 
-    def get_input_embeddings(
+    def embed_input_ids(
         self,
         input_ids: torch.Tensor,
         multimodal_embeddings: Optional[MultiModalEmbeddings] = None,
@@ -689,9 +689,9 @@ class Gemma3nForConditionalGeneration(
 
         # This is to satisfy the type checker for each overload
         if multimodal_embeddings is None or is_multimodal is None:
-            return super().get_input_embeddings(input_ids)
+            return super().embed_input_ids(input_ids)
 
-        return super().get_input_embeddings(
+        return super().embed_input_ids(
             input_ids,
             multimodal_embeddings=multimodal_embeddings,
             is_multimodal=is_multimodal,
@@ -709,10 +709,10 @@ class Gemma3nForConditionalGeneration(
         if intermediate_tensors is not None:
             inputs_embeds = None
 
-        # NOTE (NickLucche) During profiling, `get_input_embeddings` is not
+        # NOTE (NickLucche) During profiling, `embed_input_ids` is not
         # called, hence we don't have input_ids to compute PLEs. We simply
         # select a chunk of pre-allocated PLEs. During normal execution,
-        # `get_input_embeddings` is called before forward, hence this slice
+        # `embed_input_ids` is called before forward, hence this slice
         # will contain PLEs computed from the actual input_ids.
         per_layer_inputs = self.per_layer_embeddings[: inputs_embeds.shape[0]]
 
diff --git a/vllm/model_executor/models/glm4.py b/vllm/model_executor/models/glm4.py
index 4172f16737c18..faa0674a2e43d 100644
--- a/vllm/model_executor/models/glm4.py
+++ b/vllm/model_executor/models/glm4.py
@@ -275,8 +275,8 @@ class Glm4ForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/glm4_1v.py b/vllm/model_executor/models/glm4_1v.py
index 60cad2e2907f2..b2d4fe0c0139b 100644
--- a/vllm/model_executor/models/glm4_1v.py
+++ b/vllm/model_executor/models/glm4_1v.py
@@ -1594,9 +1594,7 @@ class Glm4vForConditionalGeneration(
     def get_language_model(self) -> torch.nn.Module:
         return self.language_model
 
-    def get_multimodal_embeddings(
-        self, **kwargs: object
-    ) -> MultiModalEmbeddings | None:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings | None:
         mm_input_by_modality = self._parse_and_validate_multimodal_inputs(**kwargs)
         if not mm_input_by_modality:
             return None
diff --git a/vllm/model_executor/models/glm4_moe.py b/vllm/model_executor/models/glm4_moe.py
index b30bd66161da9..1422dbe9b3cd0 100644
--- a/vllm/model_executor/models/glm4_moe.py
+++ b/vllm/model_executor/models/glm4_moe.py
@@ -455,7 +455,7 @@ class Glm4MoeModel(nn.Module):
             ["hidden_states", "residual"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -469,7 +469,7 @@ class Glm4MoeModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -704,8 +704,8 @@ class Glm4MoeForCausalLM(nn.Module, SupportsPP, SupportsLoRA, Glm4MixtureOfExper
 
         self.extract_moe_parameters(example_moe)
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/glm4_moe_mtp.py b/vllm/model_executor/models/glm4_moe_mtp.py
index 9db2aaa075de1..110ed0a646334 100644
--- a/vllm/model_executor/models/glm4_moe_mtp.py
+++ b/vllm/model_executor/models/glm4_moe_mtp.py
@@ -149,7 +149,7 @@ class Glm4MoeMultiTokenPredictor(nn.Module):
         )
         self.logits_processor = LogitsProcessor(config.vocab_size)
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -211,8 +211,8 @@ class Glm4MoeMTP(nn.Module, SupportsPP, Glm4MixtureOfExperts):
                 self.moe_layers.append(layer.mlp.experts)
         self.extract_moe_parameters(example_moe)
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/glm4v.py b/vllm/model_executor/models/glm4v.py
index 899797a510539..1c18ea0745f2b 100644
--- a/vllm/model_executor/models/glm4v.py
+++ b/vllm/model_executor/models/glm4v.py
@@ -756,9 +756,9 @@ class GLM4VForCausalLM(
     def get_language_model(self) -> torch.nn.Module:
         return self.transformer
 
-    get_input_embeddings = SupportsMultiModal.get_input_embeddings
+    embed_input_ids = SupportsMultiModal.embed_input_ids
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         image_input = self._parse_and_validate_image_input(**kwargs)
         if image_input is None:
             return []
diff --git a/vllm/model_executor/models/gpt2.py b/vllm/model_executor/models/gpt2.py
index 6d99d02a32be2..a5e8131c7fba9 100644
--- a/vllm/model_executor/models/gpt2.py
+++ b/vllm/model_executor/models/gpt2.py
@@ -213,7 +213,7 @@ class GPT2Model(nn.Module):
             ["hidden_states"], config.n_embd
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.wte(input_ids)
 
     def forward(
@@ -225,7 +225,7 @@ class GPT2Model(nn.Module):
     ) -> torch.Tensor | IntermediateTensors:
         if get_pp_group().is_first_rank:
             if inputs_embeds is None:
-                inputs_embeds = self.get_input_embeddings(input_ids)
+                inputs_embeds = self.embed_input_ids(input_ids)
             position_embeds = self.wpe(position_ids)
             hidden_states = inputs_embeds + position_embeds
         else:
@@ -293,8 +293,8 @@ class GPT2LMHeadModel(nn.Module, SupportsPP):
             self.transformer.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.transformer.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.transformer.embed_input_ids(input_ids)
 
     def forward(
         self,
@@ -365,8 +365,8 @@ class GPT2ForSequenceClassification(nn.Module, SupportsCrossEncoding):
             }
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.transformer.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.transformer.embed_input_ids(input_ids)
 
     def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
         loader = AutoWeightsLoader(self)
diff --git a/vllm/model_executor/models/gpt_bigcode.py b/vllm/model_executor/models/gpt_bigcode.py
index 99cdaabb98dfe..cdf038ba25c92 100644
--- a/vllm/model_executor/models/gpt_bigcode.py
+++ b/vllm/model_executor/models/gpt_bigcode.py
@@ -230,7 +230,7 @@ class GPTBigCodeModel(nn.Module):
             ["hidden_states"], config.n_embd
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.wte(input_ids)
 
     def forward(
@@ -242,7 +242,7 @@ class GPTBigCodeModel(nn.Module):
     ) -> torch.Tensor | IntermediateTensors:
         if get_pp_group().is_first_rank:
             if inputs_embeds is None:
-                inputs_embeds = self.get_input_embeddings(input_ids)
+                inputs_embeds = self.embed_input_ids(input_ids)
             hidden_states = inputs_embeds + self.wpe(position_ids)
         else:
             hidden_states = intermediate_tensors["hidden_states"]
@@ -306,8 +306,8 @@ class GPTBigCodeForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
             self.transformer.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.transformer.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.transformer.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/gpt_j.py b/vllm/model_executor/models/gpt_j.py
index e04b2465e54ae..e416ecde0c1e0 100644
--- a/vllm/model_executor/models/gpt_j.py
+++ b/vllm/model_executor/models/gpt_j.py
@@ -215,7 +215,7 @@ class GPTJModel(nn.Module):
             ["hidden_states"], config.n_embd
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.wte(input_ids)
 
     def forward(
@@ -229,7 +229,7 @@ class GPTJModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
         else:
             hidden_states = intermediate_tensors["hidden_states"]
         for layer in islice(self.h, self.start_layer, self.end_layer):
@@ -319,8 +319,8 @@ class GPTJForCausalLM(nn.Module, SupportsPP):
             self.transformer.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.transformer.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.transformer.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/gpt_neox.py b/vllm/model_executor/models/gpt_neox.py
index e6c145602d29a..af0c9209231cb 100644
--- a/vllm/model_executor/models/gpt_neox.py
+++ b/vllm/model_executor/models/gpt_neox.py
@@ -229,7 +229,7 @@ class GPTNeoXModel(nn.Module):
             ["hidden_states"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_in(input_ids)
 
     def forward(
@@ -243,7 +243,7 @@ class GPTNeoXModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
         else:
             hidden_states = intermediate_tensors["hidden_states"]
         for layer in islice(self.layers, self.start_layer, self.end_layer):
@@ -317,8 +317,8 @@ class GPTNeoXForCausalLM(nn.Module, SupportsPP):
             self.gpt_neox.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.gpt_neox.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.gpt_neox.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/gpt_oss.py b/vllm/model_executor/models/gpt_oss.py
index 9cb481fc30c79..692ef605fe175 100644
--- a/vllm/model_executor/models/gpt_oss.py
+++ b/vllm/model_executor/models/gpt_oss.py
@@ -269,7 +269,7 @@ class GptOssModel(nn.Module):
         )
         self.aux_hidden_state_layers = tuple[int, ...]()
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embedding(input_ids)
 
     def forward(
@@ -283,7 +283,7 @@ class GptOssModel(nn.Module):
             if inputs_embeds is not None:
                 x = inputs_embeds
             else:
-                x = self.get_input_embeddings(input_ids)
+                x = self.embed_input_ids(input_ids)
 
             residual = None
         else:
@@ -703,8 +703,8 @@ class GptOssForCausalLM(nn.Module, SupportsPP, SupportsEagle3, SupportsLoRA):
         num_layers = len(self.model.layers)
         return (2, num_layers // 2, num_layers - 3)
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/granite.py b/vllm/model_executor/models/granite.py
index 5fc8718ca75e5..c44b4021471ef 100644
--- a/vllm/model_executor/models/granite.py
+++ b/vllm/model_executor/models/granite.py
@@ -318,7 +318,7 @@ class GraniteModel(nn.Module):
         else:
             self.norm = PPMissingLayer()
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -332,7 +332,7 @@ class GraniteModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
 
             hidden_states *= self.config.embedding_multiplier
         else:
@@ -473,8 +473,8 @@ class GraniteForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
         else:
             self.lm_head = PPMissingLayer()
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/granite_speech.py b/vllm/model_executor/models/granite_speech.py
index 3ddf02bbba2ea..1797adab8d146 100644
--- a/vllm/model_executor/models/granite_speech.py
+++ b/vllm/model_executor/models/granite_speech.py
@@ -767,7 +767,7 @@ class GraniteSpeechForConditionalGeneration(
     def get_language_model(self) -> torch.nn.Module:
         return self.language_model
 
-    def get_multimodal_embeddings(
+    def embed_multimodal(
         self,
         **kwargs: object,
     ) -> MultiModalEmbeddings:
@@ -779,7 +779,7 @@ class GraniteSpeechForConditionalGeneration(
         audio_features = self._process_audio_input(audio_input)
         return audio_features
 
-    def get_input_embeddings(
+    def embed_input_ids(
         self,
         input_ids: torch.Tensor,
         multimodal_embeddings: MultiModalEmbeddings | None = None,
@@ -790,9 +790,9 @@ class GraniteSpeechForConditionalGeneration(
     ) -> torch.Tensor:
         # This is to satisfy the type checker for each overload
         if multimodal_embeddings is None or is_multimodal is None:
-            return super().get_input_embeddings(input_ids)
+            return super().embed_input_ids(input_ids)
 
-        return super().get_input_embeddings(
+        return super().embed_input_ids(
             input_ids,
             multimodal_embeddings=multimodal_embeddings,
             is_multimodal=is_multimodal,
diff --git a/vllm/model_executor/models/granitemoe.py b/vllm/model_executor/models/granitemoe.py
index c5b36c362ee32..5c6759ded0669 100644
--- a/vllm/model_executor/models/granitemoe.py
+++ b/vllm/model_executor/models/granitemoe.py
@@ -315,7 +315,7 @@ class GraniteMoeModel(nn.Module):
 
         self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -329,7 +329,7 @@ class GraniteMoeModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             hidden_states *= self.embedding_multiplier
         else:
             assert intermediate_tensors is not None
@@ -531,8 +531,8 @@ class GraniteMoeForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
             scale=1 / self.config.logits_scaling,
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/granitemoehybrid.py b/vllm/model_executor/models/granitemoehybrid.py
index ea49a0ffee011..05177f1d1ac2c 100644
--- a/vllm/model_executor/models/granitemoehybrid.py
+++ b/vllm/model_executor/models/granitemoehybrid.py
@@ -366,7 +366,7 @@ class GraniteMoeHybridModel(nn.Module):
 
         self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -380,7 +380,7 @@ class GraniteMoeHybridModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
                 hidden_states = hidden_states * self.embedding_multiplier
             residual = None
         else:
@@ -680,8 +680,8 @@ class GraniteMoeHybridForCausalLM(
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/granitemoeshared.py b/vllm/model_executor/models/granitemoeshared.py
index e08e9f73ec879..926c539af33be 100644
--- a/vllm/model_executor/models/granitemoeshared.py
+++ b/vllm/model_executor/models/granitemoeshared.py
@@ -182,7 +182,7 @@ class GraniteMoeSharedModel(nn.Module):
 
         self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -196,7 +196,7 @@ class GraniteMoeSharedModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             hidden_states *= self.embedding_multiplier
         else:
             assert intermediate_tensors is not None
@@ -295,8 +295,8 @@ class GraniteMoeSharedForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
             scale=1 / self.config.logits_scaling,
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/grok1.py b/vllm/model_executor/models/grok1.py
index 0770e03b5356e..9dc231863f74f 100644
--- a/vllm/model_executor/models/grok1.py
+++ b/vllm/model_executor/models/grok1.py
@@ -334,7 +334,7 @@ class Grok1Model(nn.Module):
             ["hidden_states", "residual"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         hidden_states = self.embed_tokens(input_ids)
         hidden_states = hidden_states * self.embedding_multiplier_scale
         return hidden_states
@@ -350,7 +350,7 @@ class Grok1Model(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -522,8 +522,8 @@ class Grok1ForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/hunyuan_v1.py b/vllm/model_executor/models/hunyuan_v1.py
index a05a00932c13b..1eadcbe67ade3 100644
--- a/vllm/model_executor/models/hunyuan_v1.py
+++ b/vllm/model_executor/models/hunyuan_v1.py
@@ -643,7 +643,7 @@ class HunYuanModel(nn.Module):
         else:
             self.norm = PPMissingLayer()
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -657,7 +657,7 @@ class HunYuanModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -987,8 +987,8 @@ class HunyuanV1ModelBase(nn.Module, SupportsLoRA, SupportsPP):
         )
         return loader.load_weights(weights)
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
 
 class HunYuanMoEV1Base(HunyuanV1ModelBase, MixtureOfExperts):
diff --git a/vllm/model_executor/models/hyperclovax_vision.py b/vllm/model_executor/models/hyperclovax_vision.py
index 3d28ba951b94e..db46353efde5c 100644
--- a/vllm/model_executor/models/hyperclovax_vision.py
+++ b/vllm/model_executor/models/hyperclovax_vision.py
@@ -732,7 +732,7 @@ class HCXVisionForCausalLM(nn.Module, SupportsMultiModal, SupportsPP):
     def get_language_model(self) -> torch.nn.Module:
         return self.language_model
 
-    def get_multimodal_embeddings(
+    def embed_multimodal(
         self,
         **kwargs: object,
     ) -> MultiModalEmbeddings:
diff --git a/vllm/model_executor/models/idefics3.py b/vllm/model_executor/models/idefics3.py
index 06ca8c4886341..9c5f9389e54bb 100644
--- a/vllm/model_executor/models/idefics3.py
+++ b/vllm/model_executor/models/idefics3.py
@@ -550,8 +550,8 @@ class Idefics3Model(nn.Module):
 
         return image_hidden_states
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.text_model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.text_model.embed_input_ids(input_ids)
 
     def forward(
         self,
@@ -674,7 +674,7 @@ class Idefics3ForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsLo
     def get_language_model(self) -> torch.nn.Module:
         return self.model
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         image_input = self._parse_and_validate_image_input(**kwargs)
         if image_input is None:
             return []
diff --git a/vllm/model_executor/models/interfaces.py b/vllm/model_executor/models/interfaces.py
index 88b45bf07c0d8..929bfaaee5cbb 100644
--- a/vllm/model_executor/models/interfaces.py
+++ b/vllm/model_executor/models/interfaces.py
@@ -94,7 +94,7 @@ class SupportsMultiModal(Protocol):
         """
         ...
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         """
         Returns multimodal embeddings generated from multimodal kwargs
         to be merged with text embeddings.
@@ -104,7 +104,13 @@ class SupportsMultiModal(Protocol):
             the appearances of their corresponding multimodal data item in the
             input prompt.
         """
-        ...
+        if hasattr(self, "get_multimodal_embeddings"):
+            logger.warning_once(
+                "`get_multimodal_embeddings` for vLLM models is deprecated and will be "
+                "removed in v0.13.0 or v1.0.0, whichever is earlier. Please rename "
+                "this method to `embed_multimodal`."
+            )
+            return self.get_multimodal_embeddings(**kwargs)
 
     def get_language_model(self) -> VllmModel:
         """
@@ -119,10 +125,10 @@ class SupportsMultiModal(Protocol):
         ...
 
     @overload
-    def get_input_embeddings(self, input_ids: Tensor) -> Tensor: ...
+    def embed_input_ids(self, input_ids: Tensor) -> Tensor: ...
 
     @overload
-    def get_input_embeddings(
+    def embed_input_ids(
         self,
         input_ids: Tensor,
         multimodal_embeddings: MultiModalEmbeddings,
@@ -131,17 +137,17 @@ class SupportsMultiModal(Protocol):
         handle_oov_mm_token: bool = False,
     ) -> Tensor: ...
 
-    def _get_text_embeddings(
+    def _embed_text_input_ids(
         self,
         input_ids: Tensor,
-        get_input_embeddings: Callable[[Tensor], Tensor],
+        embed_input_ids: Callable[[Tensor], Tensor],
         *,
         is_multimodal: Tensor | None,
         handle_oov_mm_token: bool,
     ) -> Tensor:
         if handle_oov_mm_token and is_multimodal is not None:
             is_text = ~is_multimodal
-            text_embeds = get_input_embeddings(input_ids[is_text])
+            text_embeds = embed_input_ids(input_ids[is_text])
 
             return torch.empty(
                 (input_ids.shape[0], text_embeds.shape[1]),
@@ -149,9 +155,9 @@ class SupportsMultiModal(Protocol):
                 device=text_embeds.device,
             ).masked_scatter_(is_text.unsqueeze_(-1), text_embeds)
 
-        return get_input_embeddings(input_ids)
+        return embed_input_ids(input_ids)
 
-    def get_input_embeddings(
+    def embed_input_ids(
         self,
         input_ids: Tensor,
         multimodal_embeddings: MultiModalEmbeddings | None = None,
@@ -167,15 +173,15 @@ class SupportsMultiModal(Protocol):
 
         In case the multi-modal token IDs exceed the vocabulary size of
         the language model, you can set `handle_oov_mm_token=False`
-        to avoid calling the language model's `get_input_embeddings` method
+        to avoid calling the language model's `embed_input_ids` method
         on those tokens. Note however that doing so increases memory usage
         as an additional buffer is needed to hold the input embeddings.
         """
         from .utils import _merge_multimodal_embeddings
 
-        inputs_embeds = self._get_text_embeddings(
+        inputs_embeds = self._embed_text_input_ids(
             input_ids,
-            self.get_language_model().get_input_embeddings,
+            self.get_language_model().embed_input_ids,
             is_multimodal=is_multimodal,
             handle_oov_mm_token=handle_oov_mm_token,
         )
@@ -185,7 +191,7 @@ class SupportsMultiModal(Protocol):
 
         if is_multimodal is None:
             raise ValueError(
-                "`get_input_embeddings` now requires `is_multimodal` arg, "
+                "`embed_input_ids` now requires `is_multimodal` arg, "
                 "please update your model runner according to "
                 "https://github.com/vllm-project/vllm/pull/16229."
             )
diff --git a/vllm/model_executor/models/interfaces_base.py b/vllm/model_executor/models/interfaces_base.py
index d87a65a47083c..4267b6c6598e2 100644
--- a/vllm/model_executor/models/interfaces_base.py
+++ b/vllm/model_executor/models/interfaces_base.py
@@ -41,24 +41,19 @@ T_co = TypeVar("T_co", default=torch.Tensor, covariant=True)
 class VllmModel(Protocol[T_co]):
     """The interface required for all models in vLLM."""
 
-    def __init__(
-        self,
-        vllm_config: VllmConfig,
-        prefix: str = "",
-    ) -> None: ...
+    def __init__(self, vllm_config: VllmConfig, prefix: str = "") -> None: ...
 
-    def get_input_embeddings(
-        self,
-        input_ids: torch.Tensor,
-    ) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         """Apply token embeddings to `input_ids`."""
-        ...
+        if hasattr(self, "get_input_embeddings"):
+            logger.warning_once(
+                "`get_input_embeddings` for vLLM models is deprecated and will be "
+                "removed in v0.13.0 or v1.0.0, whichever is earlier. Please rename "
+                "this method to `embed_input_ids`."
+            )
+            return self.get_input_embeddings(input_ids)
 
-    def forward(
-        self,
-        input_ids: torch.Tensor,
-        positions: torch.Tensor,
-    ) -> T_co: ...
+    def forward(self, input_ids: torch.Tensor, positions: torch.Tensor) -> T_co: ...
 
 
 def _check_vllm_model_init(model: type[object] | object) -> bool:
@@ -66,11 +61,19 @@ def _check_vllm_model_init(model: type[object] | object) -> bool:
     return supports_kw(model_init, "vllm_config")
 
 
-def _check_vllm_model_get_input_embeddings(model: type[object] | object) -> bool:
-    model_get_input_embeddings = getattr(model, "get_input_embeddings", None)
-    if not callable(model_get_input_embeddings):
+def _check_vllm_model_embed_input_ids(model: type[object] | object) -> bool:
+    model_embed_input_ids = getattr(model, "embed_input_ids", None)
+    if not callable(model_embed_input_ids):
+        model_get_input_embeddings = getattr(model, "get_input_embeddings", None)
+        if callable(model_get_input_embeddings):
+            logger.warning(
+                "`get_input_embeddings` for vLLM models is deprecated and will be "
+                "removed in v0.13.0 or v1.0.0, whichever is earlier. Please rename "
+                "this method to `embed_input_ids`."
+            )
+            model.embed_input_ids = model_get_input_embeddings
         logger.warning(
-            "The model (%s) is missing the `get_input_embeddings` method.",
+            "The model (%s) is missing the `embed_input_ids` method.",
             model,
         )
         return False
@@ -110,7 +113,7 @@ def is_vllm_model(
 ) -> TypeIs[type[VllmModel]] | TypeIs[VllmModel]:
     return (
         _check_vllm_model_init(model)
-        and _check_vllm_model_get_input_embeddings(model)
+        and _check_vllm_model_embed_input_ids(model)
         and _check_vllm_model_forward(model)
     )
 
diff --git a/vllm/model_executor/models/internlm2.py b/vllm/model_executor/models/internlm2.py
index d856f5c79e33d..60fbeb842dd4b 100644
--- a/vllm/model_executor/models/internlm2.py
+++ b/vllm/model_executor/models/internlm2.py
@@ -284,7 +284,7 @@ class InternLM2Model(nn.Module):
             ["hidden_states", "residual"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.tok_embeddings(input_ids)
 
     def forward(
@@ -298,7 +298,7 @@ class InternLM2Model(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -350,8 +350,8 @@ class InternLM2ForCausalLM(nn.Module, SupportsPP, SupportsLoRA):
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/interns1.py b/vllm/model_executor/models/interns1.py
index 1f251935a70a9..c2195fd0cb88d 100644
--- a/vllm/model_executor/models/interns1.py
+++ b/vllm/model_executor/models/interns1.py
@@ -742,7 +742,7 @@ class InternS1ForConditionalGeneration(
     def get_language_model(self) -> torch.nn.Module:
         return self.language_model
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         modalities = self._parse_and_validate_multimodal_inputs(**kwargs)
         if not modalities:
             return []
@@ -765,7 +765,7 @@ class InternS1ForConditionalGeneration(
 
         return multimodal_embeddings
 
-    def get_input_embeddings(
+    def embed_input_ids(
         self,
         input_ids: torch.Tensor,
         multimodal_embeddings: MultiModalEmbeddings | None = None,
@@ -778,9 +778,9 @@ class InternS1ForConditionalGeneration(
 
         # This is to satisfy the type checker for each overload
         if multimodal_embeddings is None or is_multimodal is None:
-            return super().get_input_embeddings(input_ids)
+            return super().embed_input_ids(input_ids)
 
-        return super().get_input_embeddings(
+        return super().embed_input_ids(
             input_ids,
             multimodal_embeddings=multimodal_embeddings,
             is_multimodal=is_multimodal,
diff --git a/vllm/model_executor/models/internvl.py b/vllm/model_executor/models/internvl.py
index e2d2647f01777..ccbde115009d2 100644
--- a/vllm/model_executor/models/internvl.py
+++ b/vllm/model_executor/models/internvl.py
@@ -1344,7 +1344,7 @@ class InternVLChatModel(nn.Module, SupportsMultiModal, SupportsPP, SupportsLoRA)
     def get_language_model(self) -> torch.nn.Module:
         return self.language_model
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         modalities = self._parse_and_validate_multimodal_inputs(**kwargs)
         if not modalities:
             return []
@@ -1367,7 +1367,7 @@ class InternVLChatModel(nn.Module, SupportsMultiModal, SupportsPP, SupportsLoRA)
 
         return multimodal_embeddings
 
-    def get_input_embeddings(
+    def embed_input_ids(
         self,
         input_ids: torch.Tensor,
         multimodal_embeddings: MultiModalEmbeddings | None = None,
@@ -1380,9 +1380,9 @@ class InternVLChatModel(nn.Module, SupportsMultiModal, SupportsPP, SupportsLoRA)
 
         # This is to satisfy the type checker for each overload
         if multimodal_embeddings is None or is_multimodal is None:
-            return super().get_input_embeddings(input_ids)
+            return super().embed_input_ids(input_ids)
 
-        return super().get_input_embeddings(
+        return super().embed_input_ids(
             input_ids,
             multimodal_embeddings=multimodal_embeddings,
             is_multimodal=is_multimodal,
diff --git a/vllm/model_executor/models/jais.py b/vllm/model_executor/models/jais.py
index 782ab6f1e2da2..5549a1fc1cd30 100644
--- a/vllm/model_executor/models/jais.py
+++ b/vllm/model_executor/models/jais.py
@@ -275,7 +275,7 @@ class JAISModel(nn.Module):
             ["hidden_states"], config.n_embd
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.wte(input_ids)
 
     def forward(
@@ -287,7 +287,7 @@ class JAISModel(nn.Module):
     ) -> IntermediateTensors | torch.Tensor:
         if get_pp_group().is_first_rank:
             if inputs_embeds is None:
-                inputs_embeds = self.get_input_embeddings(input_ids)
+                inputs_embeds = self.embed_input_ids(input_ids)
             if self.wpe is not None:
                 position_embeds = self.wpe(position_ids)
                 hidden_states = inputs_embeds + position_embeds
@@ -339,8 +339,8 @@ class JAISLMHeadModel(nn.Module, SupportsPP):
             self.transformer.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.transformer.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.transformer.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/jamba.py b/vllm/model_executor/models/jamba.py
index 70f52e3106f81..3a2c98c73dab4 100644
--- a/vllm/model_executor/models/jamba.py
+++ b/vllm/model_executor/models/jamba.py
@@ -340,7 +340,7 @@ class JambaModel(nn.Module):
 
         self.final_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -354,7 +354,7 @@ class JambaModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -508,8 +508,8 @@ class JambaForCausalLM(
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/keye.py b/vllm/model_executor/models/keye.py
index 2998c87918a99..1eb0eccc0411c 100644
--- a/vllm/model_executor/models/keye.py
+++ b/vllm/model_executor/models/keye.py
@@ -1484,9 +1484,7 @@ class BaseKeyeModule(nn.Module):
     def get_language_model(self) -> torch.nn.Module:
         return self.language_model
 
-    def get_multimodal_embeddings(
-        self, **kwargs: object
-    ) -> MultiModalEmbeddings | None:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings | None:
         modalities = self._parse_and_validate_multimodal_inputs(**kwargs)
         if not modalities:
             return None
diff --git a/vllm/model_executor/models/kimi_linear.py b/vllm/model_executor/models/kimi_linear.py
index cce22842d3330..f3675075a48f4 100644
--- a/vllm/model_executor/models/kimi_linear.py
+++ b/vllm/model_executor/models/kimi_linear.py
@@ -439,7 +439,7 @@ class KimiLinearModel(nn.Module):
             "num_attention_heads must be divisible by world_size"
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -454,7 +454,7 @@ class KimiLinearModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -504,8 +504,8 @@ class KimiLinearForCausalLM(
             self.config.vocab_size, scale=logit_scale
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/kimi_vl.py b/vllm/model_executor/models/kimi_vl.py
index fa04f60b9c140..8167b82f32330 100644
--- a/vllm/model_executor/models/kimi_vl.py
+++ b/vllm/model_executor/models/kimi_vl.py
@@ -404,7 +404,7 @@ class KimiVLForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsPP):
     def get_language_model(self) -> torch.nn.Module:
         return self.language_model
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> NestedTensors | None:
+    def embed_multimodal(self, **kwargs: object) -> NestedTensors | None:
         # Validate the multimodal input keyword arguments
         image_input = self._parse_and_validate_image_input(**kwargs)
         if image_input is None:
diff --git a/vllm/model_executor/models/lfm2.py b/vllm/model_executor/models/lfm2.py
index 21d71887178e7..aeb25602f11a4 100644
--- a/vllm/model_executor/models/lfm2.py
+++ b/vllm/model_executor/models/lfm2.py
@@ -351,7 +351,7 @@ class Lfm2Model(nn.Module):
         else:
             self.embedding_norm = PPMissingLayer()
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -365,7 +365,7 @@ class Lfm2Model(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -504,8 +504,8 @@ class Lfm2ForCausalLM(
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/lfm2_moe.py b/vllm/model_executor/models/lfm2_moe.py
index b191164671050..6b7b5564ee989 100644
--- a/vllm/model_executor/models/lfm2_moe.py
+++ b/vllm/model_executor/models/lfm2_moe.py
@@ -466,7 +466,7 @@ class Lfm2MoeModel(nn.Module):
         else:
             self.embedding_norm = PPMissingLayer()
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -480,7 +480,7 @@ class Lfm2MoeModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -714,8 +714,8 @@ class Lfm2MoeForCausalLM(
         self.num_routed_experts = example_layer.n_routed_experts
         self.num_redundant_experts = example_layer.n_redundant_experts
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def update_physical_experts_metadata(
         self,
diff --git a/vllm/model_executor/models/llama.py b/vllm/model_executor/models/llama.py
index 0a08bd376badc..c49a1ea817f91 100644
--- a/vllm/model_executor/models/llama.py
+++ b/vllm/model_executor/models/llama.py
@@ -424,7 +424,7 @@ class LlamaModel(nn.Module):
             ["hidden_states", "residual"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -438,7 +438,7 @@ class LlamaModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -640,8 +640,8 @@ class LlamaForCausalLM(nn.Module, SupportsLoRA, SupportsPP, SupportsEagle3):
     ):
         return LlamaModel(vllm_config=vllm_config, prefix=prefix, layer_type=layer_type)
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/llama4_eagle.py b/vllm/model_executor/models/llama4_eagle.py
index b59176191e7aa..e8716d652415e 100644
--- a/vllm/model_executor/models/llama4_eagle.py
+++ b/vllm/model_executor/models/llama4_eagle.py
@@ -82,7 +82,7 @@ class LlamaModel(nn.Module):
         )
         self.norm = RMSNorm(self.config.hidden_size, eps=self.config.rms_norm_eps)
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -93,7 +93,7 @@ class LlamaModel(nn.Module):
         inputs_embeds: torch.Tensor | None = None,
     ) -> tuple[torch.Tensor, torch.Tensor]:
         if inputs_embeds is None:
-            inputs_embeds = self.get_input_embeddings(input_ids)
+            inputs_embeds = self.embed_input_ids(input_ids)
         hidden_states = self.fc(torch.cat((inputs_embeds, hidden_states), dim=-1))
         residual = None
         for layer in self.layers:
@@ -195,7 +195,7 @@ class EagleLlama4ForCausalLM(Llama4ForCausalLM):
     def get_language_model(self) -> torch.nn.Module:
         return self.model
 
-    get_input_embeddings = SupportsMultiModal.get_input_embeddings  # type: ignore
+    embed_input_ids = SupportsMultiModal.embed_input_ids  # type: ignore
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/llama_eagle.py b/vllm/model_executor/models/llama_eagle.py
index 3617294bd621d..ab2a9f6f06dbe 100644
--- a/vllm/model_executor/models/llama_eagle.py
+++ b/vllm/model_executor/models/llama_eagle.py
@@ -84,7 +84,7 @@ class LlamaModel(nn.Module):
             self.config.hidden_size * 2, self.config.hidden_size, bias=False
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -158,8 +158,8 @@ class EagleLlamaForCausalLM(LlamaForCausalLM):
             self.config.vocab_size, scale=logit_scale
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/llama_eagle3.py b/vllm/model_executor/models/llama_eagle3.py
index b8b9cc76d08d2..6edc9519dfbbf 100644
--- a/vllm/model_executor/models/llama_eagle3.py
+++ b/vllm/model_executor/models/llama_eagle3.py
@@ -172,7 +172,7 @@ class LlamaModel(nn.Module):
             eps=self.config.rms_norm_eps,
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -183,7 +183,7 @@ class LlamaModel(nn.Module):
         input_embeds: torch.Tensor | None = None,
     ) -> tuple[torch.Tensor, torch.Tensor]:
         if input_embeds is None:
-            input_embeds = self.get_input_embeddings(input_ids)
+            input_embeds = self.embed_input_ids(input_ids)
         assert hidden_states.shape[-1] == input_embeds.shape[-1]
 
         residual = None
@@ -261,13 +261,13 @@ class Eagle3LlamaForCausalLM(LlamaForCausalLM):
             requires_grad=False,
         )
 
-    def get_input_embeddings(
+    def embed_input_ids(
         self,
         input_ids: torch.Tensor,
         multimodal_embeddings: NestedTensors | None = None,
         is_multimodal: torch.Tensor | None = None,
     ) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/llava.py b/vllm/model_executor/models/llava.py
index a3dea0ce86f8e..c1fb2d4f4af7d 100644
--- a/vllm/model_executor/models/llava.py
+++ b/vllm/model_executor/models/llava.py
@@ -661,7 +661,7 @@ class LlavaForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsPP):
     def get_language_model(self) -> torch.nn.Module:
         return self.language_model
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         image_input = self._parse_and_validate_image_input(**kwargs)
         if image_input is None:
             return []
diff --git a/vllm/model_executor/models/llava_next.py b/vllm/model_executor/models/llava_next.py
index 3cf546644d04a..98b1b46045c3d 100644
--- a/vllm/model_executor/models/llava_next.py
+++ b/vllm/model_executor/models/llava_next.py
@@ -483,14 +483,14 @@ class LlavaNextForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsP
     def get_language_model(self) -> torch.nn.Module:
         return self.language_model
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         image_input = self._parse_and_validate_image_input(**kwargs)
         if image_input is None:
             return []
         vision_embeddings = self._process_image_input(image_input)
         return vision_embeddings
 
-    def get_input_embeddings(
+    def embed_input_ids(
         self,
         input_ids: torch.Tensor,
         multimodal_embeddings: MultiModalEmbeddings | None = None,
@@ -501,9 +501,9 @@ class LlavaNextForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsP
     ) -> torch.Tensor:
         # This is to satisfy the type checker for each overload
         if multimodal_embeddings is None or is_multimodal is None:
-            return super().get_input_embeddings(input_ids)
+            return super().embed_input_ids(input_ids)
 
-        return super().get_input_embeddings(
+        return super().embed_input_ids(
             input_ids,
             multimodal_embeddings=multimodal_embeddings,
             is_multimodal=is_multimodal,
diff --git a/vllm/model_executor/models/llava_next_video.py b/vllm/model_executor/models/llava_next_video.py
index 77c331b0182bd..902c598c226f0 100644
--- a/vllm/model_executor/models/llava_next_video.py
+++ b/vllm/model_executor/models/llava_next_video.py
@@ -422,7 +422,7 @@ class LlavaNextVideoForConditionalGeneration(nn.Module, SupportsMultiModal, Supp
     def get_language_model(self) -> torch.nn.Module:
         return self.language_model
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         video_input = self._parse_and_validate_video_input(**kwargs)
         if video_input is None:
             return []
diff --git a/vllm/model_executor/models/llava_onevision.py b/vllm/model_executor/models/llava_onevision.py
index c4cae240ea469..322bde94ff66d 100644
--- a/vllm/model_executor/models/llava_onevision.py
+++ b/vllm/model_executor/models/llava_onevision.py
@@ -866,7 +866,7 @@ class LlavaOnevisionForConditionalGeneration(nn.Module, SupportsMultiModal, Supp
     def get_language_model(self) -> torch.nn.Module:
         return self.language_model
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         mm_input_by_modality = self._parse_and_validate_multimodal_inputs(**kwargs)
         if not mm_input_by_modality:
             return []
diff --git a/vllm/model_executor/models/longcat_flash.py b/vllm/model_executor/models/longcat_flash.py
index b848ae6e822f1..5de10e7086830 100644
--- a/vllm/model_executor/models/longcat_flash.py
+++ b/vllm/model_executor/models/longcat_flash.py
@@ -498,7 +498,7 @@ class FlashModel(nn.Module):
             ["hidden_states", "residual"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -512,7 +512,7 @@ class FlashModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -583,8 +583,8 @@ class LongcatFlashForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/mamba.py b/vllm/model_executor/models/mamba.py
index 02abe693e071d..aa16640a94276 100644
--- a/vllm/model_executor/models/mamba.py
+++ b/vllm/model_executor/models/mamba.py
@@ -135,7 +135,7 @@ class MambaModel(nn.Module):
             ["hidden_states", "residual"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embeddings(input_ids)
 
     def forward(
@@ -149,7 +149,7 @@ class MambaModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -218,8 +218,8 @@ class MambaForCausalLM(
             self.backbone.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.backbone.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.backbone.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/mamba2.py b/vllm/model_executor/models/mamba2.py
index d19480b064e05..fc17f98be1986 100644
--- a/vllm/model_executor/models/mamba2.py
+++ b/vllm/model_executor/models/mamba2.py
@@ -131,7 +131,7 @@ class Mamba2Model(nn.Module):
             ["hidden_states", "residual"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embeddings(input_ids)
 
     def forward(
@@ -145,7 +145,7 @@ class Mamba2Model(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -257,8 +257,8 @@ class Mamba2ForCausalLM(
             self.backbone.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.backbone.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.backbone.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/midashenglm.py b/vllm/model_executor/models/midashenglm.py
index 322cce79d4cb2..a84c99059cd9c 100644
--- a/vllm/model_executor/models/midashenglm.py
+++ b/vllm/model_executor/models/midashenglm.py
@@ -791,7 +791,7 @@ class MiDashengLMModel(nn.Module, SupportsMultiModal, SupportsPP):
     def get_language_model(self) -> torch.nn.Module:
         return self.decoder
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         audio_input = self._parse_and_validate_audio_input(**kwargs)
 
         if audio_input is None:
diff --git a/vllm/model_executor/models/mimo.py b/vllm/model_executor/models/mimo.py
index 666ac90c44293..cd0a6190e9502 100644
--- a/vllm/model_executor/models/mimo.py
+++ b/vllm/model_executor/models/mimo.py
@@ -70,7 +70,7 @@ class MiMoModel(Qwen2Model):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
diff --git a/vllm/model_executor/models/mimo_mtp.py b/vllm/model_executor/models/mimo_mtp.py
index 3d7695a2a3042..9905f65b74ca7 100644
--- a/vllm/model_executor/models/mimo_mtp.py
+++ b/vllm/model_executor/models/mimo_mtp.py
@@ -120,7 +120,7 @@ class MiMoMultiTokenPredictor(nn.Module):
 
         self.logits_processor = LogitsProcessor(config.vocab_size)
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -164,8 +164,8 @@ class MiMoMTP(nn.Module):
             prefix=maybe_prefix(prefix, "lm_head"),
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/minicpm.py b/vllm/model_executor/models/minicpm.py
index d9f0b477180e4..914b097fe199e 100644
--- a/vllm/model_executor/models/minicpm.py
+++ b/vllm/model_executor/models/minicpm.py
@@ -440,7 +440,7 @@ class MiniCPMModel(nn.Module):
             prefix=f"{prefix}.layers",
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         embedding = self.embed_tokens(input_ids)
         return embedding * self.config.scale_emb
 
@@ -455,7 +455,7 @@ class MiniCPMModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             hidden_states = intermediate_tensors["hidden_states"]
@@ -615,8 +615,8 @@ class MiniCPMForCausalLM(nn.Module, SupportsLoRA, SupportsPP, SupportsEagle3):
     def _init_model(self, *, vllm_config: VllmConfig, prefix: str = ""):
         return MiniCPMModel(vllm_config=vllm_config, prefix=prefix)
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def set_aux_hidden_state_layers(self, layers: tuple[int, ...]) -> None:
         self.model.aux_hidden_state_layers = layers
diff --git a/vllm/model_executor/models/minicpm_eagle.py b/vllm/model_executor/models/minicpm_eagle.py
index 6efc61e25ea1b..0ca31913485db 100644
--- a/vllm/model_executor/models/minicpm_eagle.py
+++ b/vllm/model_executor/models/minicpm_eagle.py
@@ -193,7 +193,7 @@ class EagleMiniCPMModel(nn.Module):
             ]
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         embedding = self.embed_tokens(input_ids)
         return embedding * self.config.scale_emb
 
@@ -203,7 +203,7 @@ class EagleMiniCPMModel(nn.Module):
         positions: torch.Tensor,
         hidden_states: torch.Tensor,
     ) -> torch.Tensor | IntermediateTensors:
-        input_embeds = self.get_input_embeddings(input_ids)
+        input_embeds = self.embed_input_ids(input_ids)
         input_embeds = self.input_norm1(input_embeds)
         hidden_states = self.input_norm2(hidden_states)
 
@@ -354,8 +354,8 @@ class EagleMiniCPMForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
             vllm_config=vllm_config, prefix=prefix, start_layer=start_layer
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/minicpmv.py b/vllm/model_executor/models/minicpmv.py
index 09937706f8c5d..2ac97764dd341 100644
--- a/vllm/model_executor/models/minicpmv.py
+++ b/vllm/model_executor/models/minicpmv.py
@@ -1139,7 +1139,7 @@ class MiniCPMVBaseModel(nn.Module, SupportsMultiModal, SupportsPP):
     def get_language_model(self) -> torch.nn.Module:
         return self.llm
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         modalities = self._parse_and_validate_multimodal_inputs(**kwargs)
         if not modalities:
             return []
diff --git a/vllm/model_executor/models/minimax_m2.py b/vllm/model_executor/models/minimax_m2.py
index 21ed428a05d0f..49d2f2d261969 100644
--- a/vllm/model_executor/models/minimax_m2.py
+++ b/vllm/model_executor/models/minimax_m2.py
@@ -360,7 +360,7 @@ class MiniMaxM2Model(nn.Module):
             ["hidden_states", "residual"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -374,7 +374,7 @@ class MiniMaxM2Model(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -510,8 +510,8 @@ class MiniMaxM2ForCausalLM(nn.Module, SupportsPP):
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/minimax_text_01.py b/vllm/model_executor/models/minimax_text_01.py
index 1409a309f3aeb..bf1ecc822756d 100644
--- a/vllm/model_executor/models/minimax_text_01.py
+++ b/vllm/model_executor/models/minimax_text_01.py
@@ -620,7 +620,7 @@ class MiniMaxText01Model(nn.Module):
             )
             minimax_cache_tensors[:, slots_tensor, ...] = 0
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -709,8 +709,8 @@ class MiniMaxText01ForCausalLM(nn.Module, HasInnerState, IsHybrid):
     def get_seqlen_agnostic_capture_inputs(self, batch_size: int):
         return self.model.minimax_cache.get_seqlen_agnostic_capture_inputs(batch_size)
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/minimax_vl_01.py b/vllm/model_executor/models/minimax_vl_01.py
index fb7c6d42a0658..0939a72ba53ec 100644
--- a/vllm/model_executor/models/minimax_vl_01.py
+++ b/vllm/model_executor/models/minimax_vl_01.py
@@ -353,7 +353,7 @@ class MiniMaxVL01ForConditionalGeneration(nn.Module, SupportsMultiModal, Support
 
         raise AssertionError("This line should be unreachable.")
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         image_input = self._parse_and_validate_image_input(**kwargs)
         if image_input is None:
             return []
@@ -371,8 +371,8 @@ class MiniMaxVL01ForConditionalGeneration(nn.Module, SupportsMultiModal, Support
         if intermediate_tensors is not None:
             inputs_embeds = None
         elif inputs_embeds is None:
-            vision_embeddings = self.get_multimodal_embeddings(**kwargs)
-            inputs_embeds = self.get_input_embeddings(
+            vision_embeddings = self.embed_multimodal(**kwargs)
+            inputs_embeds = self.embed_input_ids(
                 input_ids,
                 vision_embeddings,
                 is_multimodal=input_ids == self.config.image_token_index,
diff --git a/vllm/model_executor/models/mistral3.py b/vllm/model_executor/models/mistral3.py
index 26d4deca2e120..1ddb470a0f93d 100644
--- a/vllm/model_executor/models/mistral3.py
+++ b/vllm/model_executor/models/mistral3.py
@@ -549,7 +549,7 @@ class Mistral3ForConditionalGeneration(
     def get_language_model(self) -> torch.nn.Module:
         return self.language_model
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         image_input = self._parse_and_validate_image_input(**kwargs)
         if image_input is None:
             return []
diff --git a/vllm/model_executor/models/mixtral.py b/vllm/model_executor/models/mixtral.py
index c1f411b6cd2ac..d7a1cb82fb4fb 100644
--- a/vllm/model_executor/models/mixtral.py
+++ b/vllm/model_executor/models/mixtral.py
@@ -345,7 +345,7 @@ class MixtralModel(nn.Module):
             ["hidden_states", "residual"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -359,7 +359,7 @@ class MixtralModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -591,8 +591,8 @@ class MixtralForCausalLM(nn.Module, SupportsLoRA, SupportsPP, MixtureOfExperts):
                 moe.n_redundant_experts = self.num_redundant_experts
                 moe.experts.update_expert_map()
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/mllama4.py b/vllm/model_executor/models/mllama4.py
index 4548abde77d5f..14e741f322582 100644
--- a/vllm/model_executor/models/mllama4.py
+++ b/vllm/model_executor/models/mllama4.py
@@ -865,7 +865,7 @@ class Llama4ForConditionalGeneration(
     def get_language_model(self) -> torch.nn.Module:
         return self.language_model
 
-    def get_multimodal_embeddings(self, **kwargs) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs) -> MultiModalEmbeddings:
         image_input = self._parse_and_validate_image_input(**kwargs)
         if image_input is None:
             return []
diff --git a/vllm/model_executor/models/modernbert.py b/vllm/model_executor/models/modernbert.py
index 5a0769f3bdaae..3a8a6c74d9d15 100644
--- a/vllm/model_executor/models/modernbert.py
+++ b/vllm/model_executor/models/modernbert.py
@@ -46,7 +46,7 @@ class ModernBertEmbeddings(nn.Module):
         )
         self.norm = nn.LayerNorm(config.hidden_size, eps=eps, bias=config.norm_bias)
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.tok_embeddings(input_ids)
 
     def forward(
@@ -225,8 +225,8 @@ class ModernBertModel(nn.Module):
             config.hidden_size, eps=config.norm_eps, bias=config.norm_bias
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.embeddings.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embeddings.embed_input_ids(input_ids)
 
     def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
         weights = self.hf_to_vllm_mapper.apply(weights)
@@ -337,8 +337,8 @@ class ModernBertForSequenceClassification(nn.Module, SupportsCrossEncoding):
             }
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
         self_weights = []
@@ -424,8 +424,8 @@ class ModernBertForTokenClassification(nn.Module):
             }
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
         loader = AutoWeightsLoader(self, skip_prefixes=["drop"])
diff --git a/vllm/model_executor/models/molmo.py b/vllm/model_executor/models/molmo.py
index 7a9e3d81b73a1..ab83a271e30a0 100644
--- a/vllm/model_executor/models/molmo.py
+++ b/vllm/model_executor/models/molmo.py
@@ -832,7 +832,7 @@ class MolmoModel(nn.Module, SupportsQuant):
             ["hidden_states", "residual"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -1491,7 +1491,7 @@ class MolmoForCausalLM(
     def get_language_model(self) -> torch.nn.Module:
         return self.model
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         image_input = self._parse_and_validate_image_input(**kwargs)
         if image_input is None:
             return []
diff --git a/vllm/model_executor/models/mpt.py b/vllm/model_executor/models/mpt.py
index 29e887c4d9c98..106ad971a321a 100644
--- a/vllm/model_executor/models/mpt.py
+++ b/vllm/model_executor/models/mpt.py
@@ -248,7 +248,7 @@ class MPTModel(nn.Module):
             ["hidden_states"], config.d_model
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.wte(input_ids)
 
     def forward(
@@ -262,7 +262,7 @@ class MPTModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
         else:
             assert intermediate_tensors is not None
             hidden_states = intermediate_tensors["hidden_states"]
@@ -308,8 +308,8 @@ class MPTForCausalLM(nn.Module, SupportsPP):
             self.transformer.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.transformer.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.transformer.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/nano_nemotron_vl.py b/vllm/model_executor/models/nano_nemotron_vl.py
index 86fc1d6046cee..cb39c2ae482d2 100644
--- a/vllm/model_executor/models/nano_nemotron_vl.py
+++ b/vllm/model_executor/models/nano_nemotron_vl.py
@@ -655,7 +655,7 @@ class NanoNemotronVLProcessor(BaseNanoNemotronVLProcessor):
         The replacement returned is not actually used to replace the placeholder
         tokens - it's just used to make sure we allocate the correct number
         of tokens.
-        Actual replacement is done in get_multimodal_embeddings of
+        Actual replacement is done in embed_multimodal of
         NemotronH_Nano_VL_V2
         (specifically in _process_video_input -> _create_final_video_embeddings).
         There, we create the final embeddings with text embeddings for indicator tokens
@@ -1401,7 +1401,7 @@ class NemotronH_Nano_VL_V2(
 
         # Create final video embeddings, merging text embeddings for indicator
         # tokens with video embeddings
-        text_embeddings = self.get_language_model().get_input_embeddings(repl_token_ids)
+        text_embeddings = self.get_language_model().embed_input_ids(repl_token_ids)
         final_video_embeddings = _merge_multimodal_embeddings(
             inputs_embeds=text_embeddings,
             multimodal_embeddings=video_embeddings,
@@ -1465,7 +1465,7 @@ class NemotronH_Nano_VL_V2(
 
         return modalities
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         # Validate the multimodal input keyword arguments
         modalities = self._parse_and_validate_multimodal_inputs(**kwargs)
         if modalities is None:
diff --git a/vllm/model_executor/models/nemotron.py b/vllm/model_executor/models/nemotron.py
index 17e8e7f28258d..92dcf5ea57008 100644
--- a/vllm/model_executor/models/nemotron.py
+++ b/vllm/model_executor/models/nemotron.py
@@ -351,7 +351,7 @@ class NemotronModel(nn.Module):
             ["hidden_states", "residual"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -365,7 +365,7 @@ class NemotronModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -491,8 +491,8 @@ class NemotronForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/nemotron_h.py b/vllm/model_executor/models/nemotron_h.py
index 8ef3eee173eb2..f7e0caf410e10 100644
--- a/vllm/model_executor/models/nemotron_h.py
+++ b/vllm/model_executor/models/nemotron_h.py
@@ -548,7 +548,7 @@ class NemotronHModel(nn.Module):
 
         self.norm_f = RMSNorm(config.hidden_size, eps=config.layer_norm_epsilon)
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -562,7 +562,7 @@ class NemotronHModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -823,8 +823,8 @@ class NemotronHForCausalLM(
                 moe.n_redundant_experts = self.num_redundant_experts
                 moe.experts.update_expert_map()
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/nemotron_nas.py b/vllm/model_executor/models/nemotron_nas.py
index acd0d0c982348..b839206a3094d 100644
--- a/vllm/model_executor/models/nemotron_nas.py
+++ b/vllm/model_executor/models/nemotron_nas.py
@@ -291,7 +291,7 @@ class DeciModel(nn.Module):
             ["hidden_states", "residual"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -305,7 +305,7 @@ class DeciModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -461,8 +461,8 @@ class DeciLMForCausalLM(nn.Module, SupportsLoRA, SupportsPP, HasNoOps):
     def _init_model(self, vllm_config: VllmConfig, prefix: str = ""):
         return DeciModel(vllm_config=vllm_config, prefix=prefix)
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/nemotron_vl.py b/vllm/model_executor/models/nemotron_vl.py
index 2f78e2f60c93b..5a1dda8aac2c1 100644
--- a/vllm/model_executor/models/nemotron_vl.py
+++ b/vllm/model_executor/models/nemotron_vl.py
@@ -561,7 +561,7 @@ class LlamaNemotronVLChatModel(nn.Module, SupportsMultiModal, SupportsPP, Suppor
     def get_language_model(self) -> torch.nn.Module:
         return self.language_model
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         modalities = self._parse_and_validate_multimodal_inputs(**kwargs)
         if not modalities:
             return []
@@ -580,7 +580,7 @@ class LlamaNemotronVLChatModel(nn.Module, SupportsMultiModal, SupportsPP, Suppor
 
         return multimodal_embeddings
 
-    def get_input_embeddings(
+    def embed_input_ids(
         self,
         input_ids: torch.Tensor,
         multimodal_embeddings: MultiModalEmbeddings | None = None,
@@ -593,9 +593,9 @@ class LlamaNemotronVLChatModel(nn.Module, SupportsMultiModal, SupportsPP, Suppor
 
         # This is to satisfy the type checker for each overload
         if multimodal_embeddings is None or is_multimodal is None:
-            return super().get_input_embeddings(input_ids)
+            return super().embed_input_ids(input_ids)
 
-        return super().get_input_embeddings(
+        return super().embed_input_ids(
             input_ids,
             multimodal_embeddings=multimodal_embeddings,
             is_multimodal=is_multimodal,
diff --git a/vllm/model_executor/models/olmo.py b/vllm/model_executor/models/olmo.py
index cb47f76a27ff5..487e3f671a455 100644
--- a/vllm/model_executor/models/olmo.py
+++ b/vllm/model_executor/models/olmo.py
@@ -268,7 +268,7 @@ class OlmoModel(nn.Module):
             ["hidden_states"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -285,7 +285,7 @@ class OlmoModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
         else:
             assert intermediate_tensors is not None
             hidden_states = intermediate_tensors["hidden_states"]
@@ -379,8 +379,8 @@ class OlmoForCausalLM(nn.Module, SupportsPP, SupportsLoRA):
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/olmo2.py b/vllm/model_executor/models/olmo2.py
index 2aa01adebc9f1..045582c889ee4 100644
--- a/vllm/model_executor/models/olmo2.py
+++ b/vllm/model_executor/models/olmo2.py
@@ -304,7 +304,7 @@ class Olmo2Model(nn.Module):
             ["hidden_states"], self.config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -419,8 +419,8 @@ class Olmo2ForCausalLM(nn.Module, SupportsPP, SupportsLoRA):
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/olmoe.py b/vllm/model_executor/models/olmoe.py
index 35a09334a1293..499eb05de76e4 100644
--- a/vllm/model_executor/models/olmoe.py
+++ b/vllm/model_executor/models/olmoe.py
@@ -296,7 +296,7 @@ class OlmoeModel(nn.Module):
             ["hidden_states", "residual"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -310,7 +310,7 @@ class OlmoeModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -471,8 +471,8 @@ class OlmoeForCausalLM(nn.Module, SupportsPP, SupportsLoRA):
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/openpangu.py b/vllm/model_executor/models/openpangu.py
index bf1b7570a8828..d13a745beffeb 100644
--- a/vllm/model_executor/models/openpangu.py
+++ b/vllm/model_executor/models/openpangu.py
@@ -753,7 +753,7 @@ class OpenPanguModel(nn.Module):
             ["hidden_states", "residual"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -767,7 +767,7 @@ class OpenPanguModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -969,8 +969,8 @@ class OpenPanguModelBase(nn.Module, SupportsPP, SupportsLoRA):
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/openpangu_mtp.py b/vllm/model_executor/models/openpangu_mtp.py
index f4049f2d39705..436b7f981b1f9 100644
--- a/vllm/model_executor/models/openpangu_mtp.py
+++ b/vllm/model_executor/models/openpangu_mtp.py
@@ -100,8 +100,8 @@ class OpenPanguMTP(nn.Module, SupportsPP):
             vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/opt.py b/vllm/model_executor/models/opt.py
index d124b7671b9cf..5df700d1a2e17 100644
--- a/vllm/model_executor/models/opt.py
+++ b/vllm/model_executor/models/opt.py
@@ -262,7 +262,7 @@ class OPTDecoder(nn.Module):
             prefix=f"{prefix}.layers",
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -274,7 +274,7 @@ class OPTDecoder(nn.Module):
     ) -> torch.Tensor | IntermediateTensors:
         if get_pp_group().is_first_rank:
             if inputs_embeds is None:
-                inputs_embeds = self.get_input_embeddings(input_ids)
+                inputs_embeds = self.embed_input_ids(input_ids)
             pos_embeds = self.embed_positions(positions)
             if self.project_in is not None:
                 inputs_embeds, _ = self.project_in(inputs_embeds)
@@ -311,8 +311,8 @@ class OPTModel(nn.Module):
             ["hidden_states"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.decoder.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.decoder.embed_input_ids(input_ids)
 
     def forward(
         self,
@@ -394,8 +394,8 @@ class OPTForCausalLM(nn.Module, SupportsPP, SupportsLoRA):
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/orion.py b/vllm/model_executor/models/orion.py
index cbfce18b43885..859cd2cecf897 100644
--- a/vllm/model_executor/models/orion.py
+++ b/vllm/model_executor/models/orion.py
@@ -255,7 +255,7 @@ class OrionModel(nn.Module):
             config.hidden_size,
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -269,7 +269,7 @@ class OrionModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
         else:
             assert intermediate_tensors is not None
             hidden_states = intermediate_tensors["hidden_states"]
@@ -345,8 +345,8 @@ class OrionForCausalLM(nn.Module, SupportsPP):
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/ouro.py b/vllm/model_executor/models/ouro.py
index cc7947df50aea..9db6c317c26a8 100644
--- a/vllm/model_executor/models/ouro.py
+++ b/vllm/model_executor/models/ouro.py
@@ -361,7 +361,7 @@ class OuroModel(nn.Module):
 
         self.total_ut_steps = getattr(self.config, "total_ut_steps", 4)
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -374,7 +374,7 @@ class OuroModel(nn.Module):
         if inputs_embeds is not None:
             hidden_states = inputs_embeds
         else:
-            hidden_states = self.get_input_embeddings(input_ids)
+            hidden_states = self.embed_input_ids(input_ids)
 
         for current_ut in range(self.total_ut_steps):
             residual = None
@@ -486,8 +486,8 @@ class OuroForCausalLM(nn.Module, SupportsLoRA):
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/ovis.py b/vllm/model_executor/models/ovis.py
index cc6c9b4e72d76..a0fab820720fb 100644
--- a/vllm/model_executor/models/ovis.py
+++ b/vllm/model_executor/models/ovis.py
@@ -514,7 +514,7 @@ class Ovis(nn.Module, SupportsMultiModal, SupportsPP):
 
         return tuple(vision_embeddings)
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         image_input = self._parse_and_validate_image_input(**kwargs)
         if image_input is None:
             return []
diff --git a/vllm/model_executor/models/ovis2_5.py b/vllm/model_executor/models/ovis2_5.py
index 9a4d69dea0968..85f37cfea10b1 100644
--- a/vllm/model_executor/models/ovis2_5.py
+++ b/vllm/model_executor/models/ovis2_5.py
@@ -617,7 +617,7 @@ class Ovis2_5(nn.Module, SupportsMultiModal, SupportsPP):
 
         return modalities
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         modalities = self._parse_and_validate_multimodal_inputs(**kwargs)
         if not modalities:
             return []
diff --git a/vllm/model_executor/models/paddleocr_vl.py b/vllm/model_executor/models/paddleocr_vl.py
index 62994abe8e317..183f458658aa3 100644
--- a/vllm/model_executor/models/paddleocr_vl.py
+++ b/vllm/model_executor/models/paddleocr_vl.py
@@ -1328,10 +1328,10 @@ class PaddleOCRVLForConditionalGeneration(nn.Module, SupportsMultiModal, Support
             inputs_embeds = None
 
         elif inputs_embeds is None:
-            vision_embeddings = self.get_multimodal_embeddings(**kwargs)
+            vision_embeddings = self.embed_multimodal(**kwargs)
             is_multimodal = kwargs.pop("is_multimodal", None)
             handle_oov_mm_token = kwargs.pop("handle_oov_mm_token", False)
-            inputs_embeds = self.get_input_embeddings(
+            inputs_embeds = self.embed_input_ids(
                 input_ids,
                 vision_embeddings,
                 is_multimodal=is_multimodal,
@@ -1391,7 +1391,7 @@ class PaddleOCRVLForConditionalGeneration(nn.Module, SupportsMultiModal, Support
         image_embeds = self.mlp_AR(vision_outputs, image_grid_thw)
         return image_embeds
 
-    def get_multimodal_embeddings(self, **kwargs) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs) -> MultiModalEmbeddings:
         image_input = self._parse_and_validate_image_input(**kwargs)
         if image_input is None:
             return ()
diff --git a/vllm/model_executor/models/paligemma.py b/vllm/model_executor/models/paligemma.py
index fb0b4b2904675..ec5d0fa6226dd 100644
--- a/vllm/model_executor/models/paligemma.py
+++ b/vllm/model_executor/models/paligemma.py
@@ -375,7 +375,7 @@ class PaliGemmaForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsP
     def get_language_model(self) -> torch.nn.Module:
         return self.language_model
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         image_input = self._parse_and_validate_image_input(**kwargs)
         if image_input is None:
             return []
diff --git a/vllm/model_executor/models/persimmon.py b/vllm/model_executor/models/persimmon.py
index 37a7108d5c013..3bf6a1d9763d0 100644
--- a/vllm/model_executor/models/persimmon.py
+++ b/vllm/model_executor/models/persimmon.py
@@ -270,7 +270,7 @@ class PersimmonModel(nn.Module):
             ["hidden_states"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -284,7 +284,7 @@ class PersimmonModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
         else:
             assert intermediate_tensors is not None
             hidden_states = intermediate_tensors["hidden_states"]
@@ -347,8 +347,8 @@ class PersimmonForCausalLM(nn.Module, SupportsPP):
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/phi.py b/vllm/model_executor/models/phi.py
index e76fb1904727c..8fee53c23fb4b 100644
--- a/vllm/model_executor/models/phi.py
+++ b/vllm/model_executor/models/phi.py
@@ -240,7 +240,7 @@ class PhiModel(nn.Module):
             ["hidden_states"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -254,7 +254,7 @@ class PhiModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
         else:
             assert intermediate_tensors is not None
             hidden_states = intermediate_tensors["hidden_states"]
@@ -346,8 +346,8 @@ class PhiForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/phi3v.py b/vllm/model_executor/models/phi3v.py
index a7b28bd18cc7a..384572217bc19 100644
--- a/vllm/model_executor/models/phi3v.py
+++ b/vllm/model_executor/models/phi3v.py
@@ -664,14 +664,14 @@ class Phi3VForCausalLM(nn.Module, SupportsMultiModal, SupportsPP, SupportsQuant)
     def get_language_model(self) -> torch.nn.Module:
         return self.language_model
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         image_input = self._parse_and_validate_image_input(**kwargs)
         if image_input is None:
             return []
         vision_embeddings = self._process_image_input(image_input)
         return vision_embeddings
 
-    def get_input_embeddings(
+    def embed_input_ids(
         self,
         input_ids: torch.Tensor,
         multimodal_embeddings: MultiModalEmbeddings | None = None,
@@ -679,7 +679,7 @@ class Phi3VForCausalLM(nn.Module, SupportsMultiModal, SupportsPP, SupportsQuant)
         is_multimodal: torch.Tensor | None = None,
         handle_oov_mm_token: bool = False,
     ) -> torch.Tensor:
-        inputs_embeds = self._get_text_embeddings(
+        inputs_embeds = self._embed_text_input_ids(
             input_ids,
             self.embed_tokens,
             is_multimodal=is_multimodal,
@@ -691,7 +691,7 @@ class Phi3VForCausalLM(nn.Module, SupportsMultiModal, SupportsPP, SupportsQuant)
 
         if is_multimodal is None:
             raise ValueError(
-                "`get_input_embeddings` now requires `is_multimodal` arg, "
+                "`embed_input_ids` now requires `is_multimodal` arg, "
                 "please update your model runner according to "
                 "https://github.com/vllm-project/vllm/pull/16229."
             )
diff --git a/vllm/model_executor/models/phi4_multimodal.py b/vllm/model_executor/models/phi4_multimodal.py
index 4799b7aba7f76..0f1230a55bae6 100644
--- a/vllm/model_executor/models/phi4_multimodal.py
+++ b/vllm/model_executor/models/phi4_multimodal.py
@@ -1371,7 +1371,7 @@ class Phi4MultimodalForCausalLM(nn.Module, SupportsLoRA, SupportsMultiModal):
             )
         return image_embeds
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         modalities = self._parse_and_validate_multimodal_inputs(**kwargs)
         if not modalities:
             return []
diff --git a/vllm/model_executor/models/phi4mm.py b/vllm/model_executor/models/phi4mm.py
index c2a3be16b6107..8425549a7bd20 100644
--- a/vllm/model_executor/models/phi4mm.py
+++ b/vllm/model_executor/models/phi4mm.py
@@ -1180,7 +1180,7 @@ class Phi4MMForCausalLM(nn.Module, SupportsLoRA, SupportsMultiModal):
         )
         return image_embeds
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         modalities = self._parse_and_validate_multimodal_inputs(**kwargs)
         if not modalities:
             return []
diff --git a/vllm/model_executor/models/phimoe.py b/vllm/model_executor/models/phimoe.py
index 97e5537877908..92fd858b608bc 100644
--- a/vllm/model_executor/models/phimoe.py
+++ b/vllm/model_executor/models/phimoe.py
@@ -482,7 +482,7 @@ class PhiMoEModel(nn.Module):
             ["hidden_states", "residual"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -496,7 +496,7 @@ class PhiMoEModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -648,8 +648,8 @@ class PhiMoEForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/pixtral.py b/vllm/model_executor/models/pixtral.py
index dfe5f0c52a505..8cb7d6a889da4 100644
--- a/vllm/model_executor/models/pixtral.py
+++ b/vllm/model_executor/models/pixtral.py
@@ -461,7 +461,7 @@ class PixtralForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsPP)
     def get_language_model(self) -> torch.nn.Module:
         return self.language_model
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         image_input = self._parse_and_validate_image_input(**kwargs)
         if image_input is None:
             return []
diff --git a/vllm/model_executor/models/plamo2.py b/vllm/model_executor/models/plamo2.py
index ece1c5ec23cff..0c87f5000ff45 100644
--- a/vllm/model_executor/models/plamo2.py
+++ b/vllm/model_executor/models/plamo2.py
@@ -762,7 +762,7 @@ class Plamo2Model(torch.nn.Module):
         self.layers = Plamo2Decoder(vllm_config=vllm_config, prefix=f"{prefix}.layers")
         self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -776,7 +776,7 @@ class Plamo2Model(torch.nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -839,8 +839,8 @@ class Plamo2ForCausalLM(torch.nn.Module, HasInnerState, SupportsPP, IsHybrid):
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/qwen.py b/vllm/model_executor/models/qwen.py
index c99f628004fbd..50a125c3f5973 100644
--- a/vllm/model_executor/models/qwen.py
+++ b/vllm/model_executor/models/qwen.py
@@ -221,7 +221,7 @@ class QWenModel(nn.Module):
             ["hidden_states", "residual"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.wte(input_ids)
 
     def forward(
@@ -235,7 +235,7 @@ class QWenModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
diff --git a/vllm/model_executor/models/qwen2.py b/vllm/model_executor/models/qwen2.py
index cdf32c6c51373..1bbb969ce5aa3 100644
--- a/vllm/model_executor/models/qwen2.py
+++ b/vllm/model_executor/models/qwen2.py
@@ -355,7 +355,7 @@ class Qwen2Model(nn.Module):
 
         self.aux_hidden_state_layers = tuple[int, ...]()
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -369,7 +369,7 @@ class Qwen2Model(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -504,8 +504,8 @@ class Qwen2ForCausalLM(nn.Module, SupportsLoRA, SupportsPP, SupportsEagle3):
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def set_aux_hidden_state_layers(self, layers: tuple[int, ...]) -> None:
         self.model.aux_hidden_state_layers = layers
diff --git a/vllm/model_executor/models/qwen2_5_omni_thinker.py b/vllm/model_executor/models/qwen2_5_omni_thinker.py
index 8f74cab0534da..262ea771d9cdf 100644
--- a/vllm/model_executor/models/qwen2_5_omni_thinker.py
+++ b/vllm/model_executor/models/qwen2_5_omni_thinker.py
@@ -1132,7 +1132,7 @@ class Qwen2_5OmniThinkerForConditionalGeneration(
 
         return llm_positions, mrope_position_delta
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         mm_input_by_modality = self._parse_and_validate_multimodal_inputs(**kwargs)
         if not mm_input_by_modality:
             return []
@@ -1158,7 +1158,7 @@ class Qwen2_5OmniThinkerForConditionalGeneration(
 
     # TODO (ywang96): support overlapping modality embeddings so that
     # `use_audio_in_video` will work on V1.
-    def get_input_embeddings(
+    def embed_input_ids(
         self,
         input_ids: torch.Tensor,
         multimodal_embeddings: MultiModalEmbeddings | None = None,
@@ -1168,16 +1168,16 @@ class Qwen2_5OmniThinkerForConditionalGeneration(
     ) -> torch.Tensor:
         # This is to satisfy the type checker for each overload
         if multimodal_embeddings is None or is_multimodal is None:
-            return super().get_input_embeddings(input_ids)
+            return super().embed_input_ids(input_ids)
 
-        return super().get_input_embeddings(
+        return super().embed_input_ids(
             input_ids,
             multimodal_embeddings=multimodal_embeddings,
             is_multimodal=is_multimodal,
             handle_oov_mm_token=handle_oov_mm_token,
         )
 
-    def get_multimodal_embeddings_v0(self, **kwargs: object) -> NestedTensors | None:
+    def embed_multimodal_v0(self, **kwargs: object) -> NestedTensors | None:
         audio_input = self._parse_and_validate_audio_input(**kwargs)
         image_input = self._parse_and_validate_image_input(**kwargs)
         video_input = self._parse_and_validate_video_input(**kwargs)
diff --git a/vllm/model_executor/models/qwen2_5_vl.py b/vllm/model_executor/models/qwen2_5_vl.py
index b0557d58d6ddd..23591480b160e 100644
--- a/vllm/model_executor/models/qwen2_5_vl.py
+++ b/vllm/model_executor/models/qwen2_5_vl.py
@@ -1534,7 +1534,7 @@ class Qwen2_5_VLForConditionalGeneration(
     def get_language_model(self) -> torch.nn.Module:
         return self.language_model
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         mm_input_by_modality = self._parse_and_validate_multimodal_inputs(**kwargs)
         if not mm_input_by_modality:
             return []
diff --git a/vllm/model_executor/models/qwen2_audio.py b/vllm/model_executor/models/qwen2_audio.py
index 4de6a19c1ff0c..7e883a393aa8d 100644
--- a/vllm/model_executor/models/qwen2_audio.py
+++ b/vllm/model_executor/models/qwen2_audio.py
@@ -439,7 +439,7 @@ class Qwen2AudioForConditionalGeneration(nn.Module, SupportsMultiModal, Supports
     def get_language_model(self) -> torch.nn.Module:
         return self.language_model
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         audio_input = self._parse_and_validate_audio_input(**kwargs)
         if audio_input is None:
             return []
diff --git a/vllm/model_executor/models/qwen2_moe.py b/vllm/model_executor/models/qwen2_moe.py
index c03bd6a3c6d74..2ff0d19df238c 100644
--- a/vllm/model_executor/models/qwen2_moe.py
+++ b/vllm/model_executor/models/qwen2_moe.py
@@ -389,7 +389,7 @@ class Qwen2MoeModel(nn.Module):
             ["hidden_states", "residual"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -403,7 +403,7 @@ class Qwen2MoeModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -566,8 +566,8 @@ class Qwen2MoeForCausalLM(nn.Module, SupportsPP, SupportsLoRA):
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/qwen2_rm.py b/vllm/model_executor/models/qwen2_rm.py
index c5582218b852a..eac46e0f8b055 100644
--- a/vllm/model_executor/models/qwen2_rm.py
+++ b/vllm/model_executor/models/qwen2_rm.py
@@ -73,8 +73,8 @@ class Qwen2RewardBaseModel(nn.Module, SupportsLoRA, SupportsPP):
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/qwen2_vl.py b/vllm/model_executor/models/qwen2_vl.py
index ff04baee91d1e..13b54bbe17488 100644
--- a/vllm/model_executor/models/qwen2_vl.py
+++ b/vllm/model_executor/models/qwen2_vl.py
@@ -1507,7 +1507,7 @@ class Qwen2VLForConditionalGeneration(
     def get_language_model(self) -> torch.nn.Module:
         return self.language_model
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         modalities = self._parse_and_validate_multimodal_inputs(**kwargs)
         if not modalities:
             return []
diff --git a/vllm/model_executor/models/qwen3.py b/vllm/model_executor/models/qwen3.py
index f689ff79d7617..8d7f22a33fe6c 100644
--- a/vllm/model_executor/models/qwen3.py
+++ b/vllm/model_executor/models/qwen3.py
@@ -306,8 +306,8 @@ class Qwen3ForCausalLM(nn.Module, SupportsLoRA, SupportsPP, SupportsEagle3):
         num_layers = len(self.model.layers)
         return (2, num_layers // 2, num_layers - 3)
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/qwen3_moe.py b/vllm/model_executor/models/qwen3_moe.py
index d57b82cb02273..96751fee800bb 100644
--- a/vllm/model_executor/models/qwen3_moe.py
+++ b/vllm/model_executor/models/qwen3_moe.py
@@ -427,7 +427,7 @@ class Qwen3MoeModel(nn.Module):
         # Track layers for auxiliary hidden state outputs (EAGLE3)
         self.aux_hidden_state_layers: tuple[int, ...] = ()
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -441,7 +441,7 @@ class Qwen3MoeModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -714,8 +714,8 @@ class Qwen3MoeForCausalLM(
         num_layers = len(self.model.layers)
         return (2, num_layers // 2, num_layers - 3)
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/qwen3_next.py b/vllm/model_executor/models/qwen3_next.py
index 9cd342caacb06..86508a7c64317 100644
--- a/vllm/model_executor/models/qwen3_next.py
+++ b/vllm/model_executor/models/qwen3_next.py
@@ -998,7 +998,7 @@ class Qwen3NextModel(nn.Module):
         else:
             self.norm = PPMissingLayer()
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -1012,7 +1012,7 @@ class Qwen3NextModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -1217,8 +1217,8 @@ class Qwen3NextForCausalLM(
         # Set MoE hyperparameters
         self.set_moe_parameters()
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/qwen3_next_mtp.py b/vllm/model_executor/models/qwen3_next_mtp.py
index 9a552db029ee9..83694caa52480 100644
--- a/vllm/model_executor/models/qwen3_next_mtp.py
+++ b/vllm/model_executor/models/qwen3_next_mtp.py
@@ -93,7 +93,7 @@ class Qwen3NextMultiTokenPredictor(nn.Module):
             config.hidden_size, eps=config.rms_norm_eps
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -107,7 +107,7 @@ class Qwen3NextMultiTokenPredictor(nn.Module):
     ) -> torch.Tensor:
         if get_pp_group().is_first_rank:
             if inputs_embeds is None:
-                inputs_embeds = self.get_input_embeddings(input_ids)
+                inputs_embeds = self.embed_input_ids(input_ids)
             assert hidden_states.shape[-1] == inputs_embeds.shape[-1]
             inputs_embeds = self.pre_fc_norm_embedding(inputs_embeds)
             hidden_states = self.pre_fc_norm_hidden(hidden_states)
@@ -257,8 +257,8 @@ class Qwen3NextMTP(nn.Module, SupportsPP, QwenNextMixtureOfExperts):
         )
         self.set_moe_parameters()
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/qwen3_omni_moe_thinker.py b/vllm/model_executor/models/qwen3_omni_moe_thinker.py
index e6cb4442e2bef..5df2372a842cf 100755
--- a/vllm/model_executor/models/qwen3_omni_moe_thinker.py
+++ b/vllm/model_executor/models/qwen3_omni_moe_thinker.py
@@ -613,7 +613,7 @@ class Qwen3MoeLLMModel(Qwen3MoeModel):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -1252,9 +1252,7 @@ class Qwen3OmniMoeThinkerForConditionalGeneration(
     def get_language_model(self) -> torch.nn.Module:
         return self.language_model
 
-    def get_multimodal_embeddings(
-        self, **kwargs: object
-    ) -> MultiModalEmbeddings | None:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings | None:
         mm_input_by_modality = self._parse_and_validate_multimodal_inputs(**kwargs)
         if not mm_input_by_modality:
             return []
@@ -1278,7 +1276,7 @@ class Qwen3OmniMoeThinkerForConditionalGeneration(
                 multimodal_embeddings += tuple(audio_embeddings)
         return multimodal_embeddings
 
-    def get_input_embeddings(
+    def embed_input_ids(
         self,
         input_ids: torch.Tensor,
         multimodal_embeddings: MultiModalEmbeddings | None = None,
@@ -1286,9 +1284,9 @@ class Qwen3OmniMoeThinkerForConditionalGeneration(
         is_multimodal: torch.Tensor | None = None,
         handle_oov_mm_token: bool = False,
     ) -> torch.Tensor:
-        inputs_embeds = self._get_text_embeddings(
+        inputs_embeds = self._embed_text_input_ids(
             input_ids,
-            self.language_model.get_input_embeddings,
+            self.language_model.embed_input_ids,
             is_multimodal=is_multimodal,
             handle_oov_mm_token=handle_oov_mm_token,
         )
diff --git a/vllm/model_executor/models/qwen3_vl.py b/vllm/model_executor/models/qwen3_vl.py
index 87494c6735cd1..5f5bde1dd72d3 100644
--- a/vllm/model_executor/models/qwen3_vl.py
+++ b/vllm/model_executor/models/qwen3_vl.py
@@ -1100,7 +1100,7 @@ class Qwen3LLMModel(Qwen3Model):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -1493,9 +1493,7 @@ class Qwen3VLForConditionalGeneration(
     def get_language_model(self) -> torch.nn.Module:
         return self.language_model
 
-    def get_multimodal_embeddings(
-        self, **kwargs: object
-    ) -> MultiModalEmbeddings | None:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings | None:
         mm_input_by_modality = self._parse_and_validate_multimodal_inputs(**kwargs)
         if not mm_input_by_modality:
             return None
@@ -1557,7 +1555,7 @@ class Qwen3VLForConditionalGeneration(
 
         return deepstack_input_embeds, multimodal_embeddings
 
-    def get_input_embeddings(
+    def embed_input_ids(
         self,
         input_ids: torch.Tensor,
         multimodal_embeddings: MultiModalEmbeddings | None = None,
@@ -1565,9 +1563,9 @@ class Qwen3VLForConditionalGeneration(
         is_multimodal: torch.Tensor | None = None,
         handle_oov_mm_token: bool = False,
     ) -> torch.Tensor:
-        inputs_embeds = self._get_text_embeddings(
+        inputs_embeds = self._embed_text_input_ids(
             input_ids,
-            self.language_model.get_input_embeddings,
+            self.language_model.embed_input_ids,
             is_multimodal=is_multimodal,
             handle_oov_mm_token=handle_oov_mm_token,
         )
@@ -1577,7 +1575,7 @@ class Qwen3VLForConditionalGeneration(
 
         if is_multimodal is None:
             raise ValueError(
-                "`get_input_embeddings` now requires `is_multimodal` arg, "
+                "`embed_input_ids` now requires `is_multimodal` arg, "
                 "please update your model runner according to "
                 "https://github.com/vllm-project/vllm/pull/16229."
             )
diff --git a/vllm/model_executor/models/qwen3_vl_moe.py b/vllm/model_executor/models/qwen3_vl_moe.py
index 284b1301d07fa..5c3205faf9c2f 100644
--- a/vllm/model_executor/models/qwen3_vl_moe.py
+++ b/vllm/model_executor/models/qwen3_vl_moe.py
@@ -97,7 +97,7 @@ class Qwen3MoeLLMModel(Qwen3MoeModel):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
diff --git a/vllm/model_executor/models/qwen_vl.py b/vllm/model_executor/models/qwen_vl.py
index cf74f72fe633d..6a259cade9cf1 100644
--- a/vllm/model_executor/models/qwen_vl.py
+++ b/vllm/model_executor/models/qwen_vl.py
@@ -777,7 +777,7 @@ class QwenVLForConditionalGeneration(
     def get_language_model(self) -> torch.nn.Module:
         return self.transformer
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         image_input = self._parse_and_validate_image_input(**kwargs)
         if image_input is None:
             return []
diff --git a/vllm/model_executor/models/roberta.py b/vllm/model_executor/models/roberta.py
index cfccb904f46c9..31cc645099141 100644
--- a/vllm/model_executor/models/roberta.py
+++ b/vllm/model_executor/models/roberta.py
@@ -220,8 +220,8 @@ class RobertaForSequenceClassification(nn.Module, SupportsCrossEncoding):
         loader = AutoWeightsLoader(self)
         return loader.load_weights(weights, mapper=self.jina_to_vllm_mapper)
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.roberta.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.roberta.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/seed_oss.py b/vllm/model_executor/models/seed_oss.py
index 04da19a440a16..bf211d28f1844 100644
--- a/vllm/model_executor/models/seed_oss.py
+++ b/vllm/model_executor/models/seed_oss.py
@@ -334,7 +334,7 @@ class SeedOssModel(nn.Module):
         else:
             self.norm = PPMissingLayer()
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -348,7 +348,7 @@ class SeedOssModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -467,8 +467,8 @@ class SeedOssForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/siglip.py b/vllm/model_executor/models/siglip.py
index 3cbdd64acc4a9..b175dd60cf650 100644
--- a/vllm/model_executor/models/siglip.py
+++ b/vllm/model_executor/models/siglip.py
@@ -595,7 +595,7 @@ class SiglipTextTransformer(nn.Module):
         self.final_layer_norm = nn.LayerNorm(embed_dim, eps=config.layer_norm_eps)
         self.head = nn.Linear(embed_dim, config.projection_size)
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embeddings.token_embedding(input_ids)
 
     def forward(
@@ -1117,7 +1117,7 @@ class SiglipEmbeddingModel(nn.Module, SupportsMultiModal, SupportsQuant):
     def get_language_model(self) -> torch.nn.Module:
         return self.text_model
 
-    def get_input_embeddings(
+    def embed_input_ids(
         self,
         input_ids: torch.Tensor,
         multimodal_embeddings: MultiModalEmbeddings | None = None,
@@ -1130,16 +1130,16 @@ class SiglipEmbeddingModel(nn.Module, SupportsMultiModal, SupportsQuant):
         )
 
         if multimodal_embeddings is None or is_multimodal is None:
-            return super().get_input_embeddings(input_ids)
+            return super().embed_input_ids(input_ids)
 
-        return super().get_input_embeddings(
+        return super().embed_input_ids(
             input_ids,
             multimodal_embeddings=multimodal_embeddings,
             is_multimodal=is_multimodal,
             handle_oov_mm_token=handle_oov_mm_token,
         )
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         image_input = self._parse_and_validate_image_input(**kwargs)
         if image_input is None:
             return []
diff --git a/vllm/model_executor/models/skyworkr1v.py b/vllm/model_executor/models/skyworkr1v.py
index 44550ae595d13..d825eb3a1c134 100644
--- a/vllm/model_executor/models/skyworkr1v.py
+++ b/vllm/model_executor/models/skyworkr1v.py
@@ -872,14 +872,14 @@ class SkyworkR1VChatModel(nn.Module, SupportsMultiModal, SupportsPP):
     def get_language_model(self) -> torch.nn.Module:
         return self.language_model
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         image_input = self._parse_and_validate_image_input(**kwargs)
         if image_input is None:
             return []
 
         return self._process_image_input(image_input)
 
-    def get_input_embeddings(
+    def embed_input_ids(
         self,
         input_ids: torch.Tensor,
         multimodal_embeddings: MultiModalEmbeddings | None = None,
@@ -892,9 +892,9 @@ class SkyworkR1VChatModel(nn.Module, SupportsMultiModal, SupportsPP):
 
         # This is to satisfy the type checker for each overload
         if multimodal_embeddings is None or is_multimodal is None:
-            return super().get_input_embeddings(input_ids)
+            return super().embed_input_ids(input_ids)
 
-        return super().get_input_embeddings(
+        return super().embed_input_ids(
             input_ids,
             multimodal_embeddings=multimodal_embeddings,
             is_multimodal=is_multimodal,
diff --git a/vllm/model_executor/models/solar.py b/vllm/model_executor/models/solar.py
index 5b8bf150edf6d..4ec855f794446 100644
--- a/vllm/model_executor/models/solar.py
+++ b/vllm/model_executor/models/solar.py
@@ -310,7 +310,7 @@ class SolarModel(nn.Module):
             ["hidden_states", "residual"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -324,7 +324,7 @@ class SolarModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -478,8 +478,8 @@ class SolarForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/stablelm.py b/vllm/model_executor/models/stablelm.py
index a4e309e0aa6ba..06eb7201c1a89 100644
--- a/vllm/model_executor/models/stablelm.py
+++ b/vllm/model_executor/models/stablelm.py
@@ -246,7 +246,7 @@ class StableLMEpochModel(nn.Module):
             ["hidden_states"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -260,7 +260,7 @@ class StableLMEpochModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
         else:
             assert intermediate_tensors is not None
             hidden_states = intermediate_tensors["hidden_states"]
@@ -332,8 +332,8 @@ class StablelmForCausalLM(nn.Module, SupportsPP):
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/starcoder2.py b/vllm/model_executor/models/starcoder2.py
index 4cdc90b1f5cb9..0f2942acd5006 100644
--- a/vllm/model_executor/models/starcoder2.py
+++ b/vllm/model_executor/models/starcoder2.py
@@ -249,7 +249,7 @@ class Starcoder2Model(nn.Module):
             ["hidden_states"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -263,7 +263,7 @@ class Starcoder2Model(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
         else:
             assert intermediate_tensors is not None
             hidden_states = intermediate_tensors["hidden_states"]
@@ -333,8 +333,8 @@ class Starcoder2ForCausalLM(nn.Module, SupportsPP):
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/step3_text.py b/vllm/model_executor/models/step3_text.py
index 381b3f4932e55..4fff356b29e28 100644
--- a/vllm/model_executor/models/step3_text.py
+++ b/vllm/model_executor/models/step3_text.py
@@ -354,7 +354,7 @@ class Step3TextModel(nn.Module):
             ["hidden_states"], config.hidden_size
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
     def forward(
@@ -368,7 +368,7 @@ class Step3TextModel(nn.Module):
             if inputs_embeds is not None:
                 hidden_states = inputs_embeds
             else:
-                hidden_states = self.get_input_embeddings(input_ids)
+                hidden_states = self.embed_input_ids(input_ids)
             residual = None
         else:
             assert intermediate_tensors is not None
@@ -419,8 +419,8 @@ class Step3TextForCausalLM(nn.Module, SupportsPP):
             self.model.make_empty_intermediate_tensors
         )
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
-        return self.model.get_input_embeddings(input_ids)
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/model_executor/models/step3_vl.py b/vllm/model_executor/models/step3_vl.py
index dbb549ba3f985..5d16be1eb3128 100644
--- a/vllm/model_executor/models/step3_vl.py
+++ b/vllm/model_executor/models/step3_vl.py
@@ -1075,14 +1075,14 @@ class Step3VLForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsPP)
     def get_language_model(self) -> torch.nn.Module:
         return self.language_model
 
-    def get_multimodal_embeddings(self, **kwargs) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs) -> MultiModalEmbeddings:
         image_input = self._parse_and_validate_image_input(**kwargs)
         if image_input is None:
             return []
         vision_embeddings = self._process_image_input(image_input)
         return vision_embeddings
 
-    def get_input_embeddings(
+    def embed_input_ids(
         self,
         input_ids: torch.Tensor,
         multimodal_embeddings: MultiModalEmbeddings | None = None,
@@ -1093,9 +1093,9 @@ class Step3VLForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsPP)
     ) -> torch.Tensor:
         # This is to satisfy the type checker for each overload
         if multimodal_embeddings is None or is_multimodal is None:
-            return super().get_input_embeddings(input_ids)
+            return super().embed_input_ids(input_ids)
 
-        return super().get_input_embeddings(
+        return super().embed_input_ids(
             input_ids,
             multimodal_embeddings=multimodal_embeddings,
             is_multimodal=is_multimodal,
@@ -1113,8 +1113,8 @@ class Step3VLForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsPP)
         if intermediate_tensors is not None:
             inputs_embeds = None
         elif inputs_embeds is None:
-            vision_embeddings = self.get_multimodal_embeddings(**kwargs)
-            inputs_embeds = self.get_input_embeddings(
+            vision_embeddings = self.embed_multimodal(**kwargs)
+            inputs_embeds = self.embed_input_ids(
                 input_ids,
                 vision_embeddings,
                 is_multimodal=input_ids == self.config.image_token_id,
diff --git a/vllm/model_executor/models/tarsier.py b/vllm/model_executor/models/tarsier.py
index bfa1b5bbaf84f..4d310712f303e 100644
--- a/vllm/model_executor/models/tarsier.py
+++ b/vllm/model_executor/models/tarsier.py
@@ -576,7 +576,7 @@ class TarsierForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsPP)
     def get_language_model(self) -> torch.nn.Module:
         return self.language_model
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         image_input = self._parse_and_validate_image_input(**kwargs)
         if image_input is None:
             return []
@@ -593,8 +593,8 @@ class TarsierForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsPP)
         if intermediate_tensors is not None:
             inputs_embeds = None
         elif inputs_embeds is None:
-            vision_embeddings = self.get_multimodal_embeddings(**kwargs)
-            inputs_embeds = self.get_input_embeddings(
+            vision_embeddings = self.embed_multimodal(**kwargs)
+            inputs_embeds = self.embed_input_ids(
                 input_ids,
                 vision_embeddings,
                 is_multimodal=input_ids == self.config.image_token_index,
diff --git a/vllm/model_executor/models/teleflm.py b/vllm/model_executor/models/teleflm.py
index 4dfeddb0b28e4..8a0bec9dff848 100644
--- a/vllm/model_executor/models/teleflm.py
+++ b/vllm/model_executor/models/teleflm.py
@@ -57,7 +57,7 @@ class TeleFLMModel(LlamaModel):
         if self.use_mup:
             self.input_mult = self.config.input_mult
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         embedding = self.embed_tokens(input_ids)
         if self.use_mup:
             embedding = embedding * self.input_mult
diff --git a/vllm/model_executor/models/terratorch.py b/vllm/model_executor/models/terratorch.py
index e799e41e2c387..19052c8d49e44 100644
--- a/vllm/model_executor/models/terratorch.py
+++ b/vllm/model_executor/models/terratorch.py
@@ -251,7 +251,7 @@ class Terratorch(nn.Module, IsAttentionFree, SupportsMultiModal):
 
         self.pooler = DispatchPooler({"plugin": DummyPooler()})
 
-    def get_input_embeddings(
+    def embed_input_ids(
         self,
         input_ids: torch.Tensor,
         multimodal_embeddings: MultiModalEmbeddings | None = None,
diff --git a/vllm/model_executor/models/transformers/base.py b/vllm/model_executor/models/transformers/base.py
index eb992f7bec72b..63096e57f8eee 100644
--- a/vllm/model_executor/models/transformers/base.py
+++ b/vllm/model_executor/models/transformers/base.py
@@ -385,7 +385,7 @@ class Base(nn.Module, VllmModel, SupportsQuant, SupportsLoRA, SupportsPP):
 
         _init_parameters(module, dtype)
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         inputs_embeds = self.model.get_input_embeddings()(input_ids)
         if self.embed_scale is not None:
             inputs_embeds *= self.embed_scale
@@ -416,7 +416,7 @@ class Base(nn.Module, VllmModel, SupportsQuant, SupportsLoRA, SupportsPP):
             and input_ids is not None
             and inputs_embeds is None
         ):
-            inputs_embeds = self.get_input_embeddings(input_ids)
+            inputs_embeds = self.embed_input_ids(input_ids)
             input_ids = None
 
         if self.model_config.uses_mrope:
diff --git a/vllm/model_executor/models/transformers/multimodal.py b/vllm/model_executor/models/transformers/multimodal.py
index 2efcef68d1c72..9b0463f41fa87 100644
--- a/vllm/model_executor/models/transformers/multimodal.py
+++ b/vllm/model_executor/models/transformers/multimodal.py
@@ -330,7 +330,7 @@ class MultiModalMixin(SupportsMultiModal, SupportsMRoPE):
 
         return LanguageModel(self)
 
-    def get_multimodal_embeddings(self, **kwargs):
+    def embed_multimodal(self, **kwargs):
         pixel_values: torch.Tensor | None = kwargs.pop("pixel_values", None)
         image_embeds: torch.Tensor | None = kwargs.pop("image_embeds", None)
         # Model might use `image_patches` instead of `pixel_values`
diff --git a/vllm/model_executor/models/ultravox.py b/vllm/model_executor/models/ultravox.py
index 95d574fb81d7a..bb0f6bd036f14 100644
--- a/vllm/model_executor/models/ultravox.py
+++ b/vllm/model_executor/models/ultravox.py
@@ -579,14 +579,14 @@ class UltravoxModel(nn.Module, SupportsMultiModal, SupportsPP, SupportsLoRA):
     def get_language_model(self) -> torch.nn.Module:
         return self.language_model
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         audio_input = self._parse_and_validate_audio_input(**kwargs)
         if audio_input is None:
             return []
         audio_embeddings = self._process_audio_input(audio_input)
         return audio_embeddings
 
-    def get_input_embeddings(
+    def embed_input_ids(
         self,
         input_ids: torch.Tensor,
         multimodal_embeddings: MultiModalEmbeddings | None = None,
@@ -597,9 +597,9 @@ class UltravoxModel(nn.Module, SupportsMultiModal, SupportsPP, SupportsLoRA):
     ) -> torch.Tensor:
         # This is to satisfy the type checker for each overload
         if multimodal_embeddings is None or is_multimodal is None:
-            return super().get_input_embeddings(input_ids)
+            return super().embed_input_ids(input_ids)
 
-        return super().get_input_embeddings(
+        return super().embed_input_ids(
             input_ids,
             multimodal_embeddings=multimodal_embeddings,
             is_multimodal=is_multimodal,
diff --git a/vllm/model_executor/models/utils.py b/vllm/model_executor/models/utils.py
index e5ebd8138b0ac..f14b79f2886c4 100644
--- a/vllm/model_executor/models/utils.py
+++ b/vllm/model_executor/models/utils.py
@@ -474,7 +474,7 @@ def _merge_multimodal_embeddings(
 
 @deprecated(
     "`merge_multimodal_embeddings` has been replaced with "
-    "`SupportsMultiModal.get_input_embeddings` and will be "
+    "`SupportsMultiModal.embed_input_ids` and will be "
     "removed in v0.12."
 )
 def merge_multimodal_embeddings(
diff --git a/vllm/model_executor/models/voxtral.py b/vllm/model_executor/models/voxtral.py
index cce18984b67e4..18ad8851fccda 100644
--- a/vllm/model_executor/models/voxtral.py
+++ b/vllm/model_executor/models/voxtral.py
@@ -399,7 +399,7 @@ class VoxtralForConditionalGeneration(
 
         return hidden_states
 
-    def get_multimodal_embeddings(
+    def embed_multimodal(
         self, **kwargs
     ) -> list[torch.Tensor] | torch.Tensor | tuple[torch.Tensor, ...] | None:
         audio_inputs = self._parse_and_validate_audio_arrays(**kwargs)
diff --git a/vllm/model_executor/models/whisper.py b/vllm/model_executor/models/whisper.py
index 23436a27d489d..91a10b95a08c0 100644
--- a/vllm/model_executor/models/whisper.py
+++ b/vllm/model_executor/models/whisper.py
@@ -570,7 +570,7 @@ class WhisperDecoder(nn.Module):
         positions: torch.Tensor,
         encoder_hidden_states: torch.Tensor | None,
     ):
-        inputs_embeds = self.get_input_embeddings(input_ids)
+        inputs_embeds = self.embed_input_ids(input_ids)
         positions = self.embed_positions(positions)
         hidden_states = inputs_embeds + positions
 
@@ -583,7 +583,7 @@ class WhisperDecoder(nn.Module):
         hidden_states = self.layer_norm(hidden_states)
         return hidden_states
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         return self.embed_tokens(input_ids)
 
 
@@ -907,12 +907,12 @@ class WhisperForConditionalGeneration(
     def get_language_model(self) -> torch.nn.Module:
         return self.model.decoder
 
-    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
+    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
         # Required as part of SupportsMultiModal interface.
         audio_input = self._parse_and_validate_audio_input(**kwargs)
         return [self.model.get_encoder_outputs(audio_input["input_features"])]
 
-    def get_input_embeddings(
+    def embed_input_ids(
         self,
         input_ids: torch.Tensor,
         multimodal_embeddings: MultiModalEmbeddings | None = None,
@@ -922,7 +922,7 @@ class WhisperForConditionalGeneration(
     ) -> torch.Tensor:
         # This method just returns the decoder sequence embeddings since
         # Whisper does not have encoder text tokens.
-        return self.model.decoder.get_input_embeddings(input_ids)
+        return self.model.decoder.embed_input_ids(input_ids)
 
     def _parse_and_validate_audio_input(self, **kwargs: object) -> WhisperAudioInputs:
         input_features = kwargs.pop("input_features", None)
diff --git a/vllm/model_executor/models/zamba2.py b/vllm/model_executor/models/zamba2.py
index bf3107525bc53..64e6979c8fcfb 100644
--- a/vllm/model_executor/models/zamba2.py
+++ b/vllm/model_executor/models/zamba2.py
@@ -756,7 +756,7 @@ class Zamba2Model(nn.Module):
         # Final layer normalization
         self.final_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         """Convert input token IDs to embeddings.
 
         Args:
@@ -786,7 +786,7 @@ class Zamba2Model(nn.Module):
         """
         # Handle pipeline parallelism for first rank
         if inputs_embeds is None:
-            inputs_embeds = self.get_input_embeddings(input_ids)
+            inputs_embeds = self.embed_input_ids(input_ids)
         hidden_states = inputs_embeds
 
         # Process through layers
@@ -930,14 +930,14 @@ class Zamba2ForCausalLM(nn.Module, HasInnerState, IsHybrid, SupportsMambaPrefixC
         # Initialize logits processing and sampling
         self.logits_processor = LogitsProcessor(config.vocab_size)
 
-    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
         """Convert input token IDs to embeddings.
         Args:
             input_ids: Tensor of input token IDs
         Returns:
             Embedded representation of the input tokens
         """
-        return self.model.get_input_embeddings(input_ids)
+        return self.model.embed_input_ids(input_ids)
 
     def forward(
         self,
diff --git a/vllm/multimodal/processing.py b/vllm/multimodal/processing.py
index 55132a6036efb..85a03efd5bb9b 100644
--- a/vllm/multimodal/processing.py
+++ b/vllm/multimodal/processing.py
@@ -208,7 +208,7 @@ class PromptUpdateDetails(Generic[_S]):
     `None` (default) means to assign embeddings to all positions of `full`.
 
     The embeddings are obtained by calling
-    [`SupportsMultiModal.get_multimodal_embeddings`][vllm.model_executor.models.interfaces.SupportsMultiModal.get_multimodal_embeddings].
+    [`SupportsMultiModal.embed_multimodal`][vllm.model_executor.models.interfaces.SupportsMultiModal.embed_multimodal].
     """
 
     @staticmethod
diff --git a/vllm/v1/spec_decode/eagle.py b/vllm/v1/spec_decode/eagle.py
index 55b04949ceb2a..beef5203e0394 100644
--- a/vllm/v1/spec_decode/eagle.py
+++ b/vllm/v1/spec_decode/eagle.py
@@ -279,7 +279,7 @@ class EagleProposer:
         if self.supports_mm_inputs:
             mm_embeds, is_mm_embed = mm_embed_inputs or (None, None)
 
-            self.inputs_embeds[:num_tokens] = self.model.get_input_embeddings(
+            self.inputs_embeds[:num_tokens] = self.model.embed_input_ids(
                 self.input_ids[:num_tokens],
                 multimodal_embeddings=mm_embeds,
                 is_multimodal=is_mm_embed,
@@ -447,9 +447,7 @@ class EagleProposer:
             self._set_positions(batch_size, clamped_positions)
             self.hidden_states[:batch_size] = hidden_states
             if self.supports_mm_inputs:
-                self.inputs_embeds[:batch_size] = self.model.get_input_embeddings(
-                    input_ids
-                )
+                self.inputs_embeds[:batch_size] = self.model.embed_input_ids(input_ids)
 
                 input_ids = None
                 inputs_embeds = self.inputs_embeds[:input_batch_size]
@@ -972,9 +970,7 @@ class EagleProposer:
             # text-only draft models
             try:
                 dummy_input_ids = torch.tensor([[1]], device=self.input_ids.device)
-                self.model.get_input_embeddings(
-                    dummy_input_ids, multimodal_embeddings=None
-                )
+                self.model.embed_input_ids(dummy_input_ids, multimodal_embeddings=None)
             except (NotImplementedError, AttributeError, TypeError):
                 logger.warning(
                     "Draft model does not support multimodal inputs, "
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index 987d451fd6baf..c9c64137ca04b 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -1853,7 +1853,7 @@ class GPUModelRunner(
                         )
                     )
 
-                    micro_batch_outputs = model.get_multimodal_embeddings(
+                    micro_batch_outputs = model.embed_multimodal(
                         **micro_batch_mm_inputs
                     )
 
@@ -1866,7 +1866,7 @@ class GPUModelRunner(
                 # 2. A list or tuple (length: num_items) of tensors,
                 # each of shape (feature_size, hidden_size) in case the feature
                 # size is dynamic depending on the input multimodal items.
-                curr_group_outputs = model.get_multimodal_embeddings(**mm_kwargs_group)
+                curr_group_outputs = model.embed_multimodal(**mm_kwargs_group)
 
             sanity_check_mm_encoder_outputs(
                 curr_group_outputs,
@@ -2225,7 +2225,7 @@ class GPUModelRunner(
             # NOTE(woosuk): To unify token ids and soft tokens (vision
             # embeddings), we always use embeddings (rather than token ids)
             # as input to the multimodal model, even when the input is text.
-            inputs_embeds_scheduled = self.model.get_input_embeddings(
+            inputs_embeds_scheduled = self.model.embed_input_ids(
                 self.input_ids.gpu[:num_scheduled_tokens],
                 multimodal_embeddings=mm_embeds,
                 is_multimodal=is_mm_embed,
@@ -2261,7 +2261,7 @@ class GPUModelRunner(
             # Some tokens ids may need to become embeds
             if token_ids_idx.numel() > 0:
                 token_ids = self.input_ids.gpu[token_ids_idx]
-                tokens_to_embeds = self.model.get_input_embeddings(input_ids=token_ids)
+                tokens_to_embeds = self.model.embed_input_ids(input_ids=token_ids)
                 self.inputs_embeds.gpu[token_ids_idx] = tokens_to_embeds
 
             inputs_embeds = self.inputs_embeds.gpu[:num_input_tokens]
@@ -3889,7 +3889,7 @@ class GPUModelRunner(
                     )
 
                     # Run multimodal encoder.
-                    dummy_encoder_outputs = self.model.get_multimodal_embeddings(
+                    dummy_encoder_outputs = self.model.embed_multimodal(
                         **batched_dummy_mm_inputs
                     )
 
diff --git a/vllm/v1/worker/tpu_model_runner.py b/vllm/v1/worker/tpu_model_runner.py
index 26816ce0f2091..0f90578671db5 100644
--- a/vllm/v1/worker/tpu_model_runner.py
+++ b/vllm/v1/worker/tpu_model_runner.py
@@ -962,7 +962,7 @@ class TPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
             # (feature_size, hidden_size) in case the feature size is dynamic
             # depending on the input multimodal items.
             torch_xla.sync(wait=False)
-            curr_group_outputs = model.get_multimodal_embeddings(**mm_kwargs_group)
+            curr_group_outputs = model.embed_multimodal(**mm_kwargs_group)
             torch_xla.sync(wait=False)
 
             sanity_check_mm_encoder_outputs(
@@ -1065,7 +1065,7 @@ class TPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
             # NOTE(woosuk): To unify token ids and soft tokens (vision
             # embeddings), we always use embeddings (rather than token ids)
             # as input to the multimodal model, even when the input is text.
-            inputs_embeds = self.model.get_input_embeddings(
+            inputs_embeds = self.model.embed_input_ids(
                 input_ids,
                 multimodal_embeddings=mm_embeds,
                 is_multimodal=is_mm_embed,
@@ -1484,14 +1484,12 @@ class TPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
                 )
                 # Run multimodal encoder.
                 torch_xla.sync(wait=False)
-                mm_embeds = self.model.get_multimodal_embeddings(
-                    **batched_dummy_mm_inputs
-                )
+                mm_embeds = self.model.embed_multimodal(**batched_dummy_mm_inputs)
                 torch_xla.sync(wait=False)
                 num_patches = mm_embeds[0].shape[0]
                 items_size = num_patches * num_items
 
-                # NOTE (NickLucche) pre-compile `get_input_embeddings` when mm
+                # NOTE (NickLucche) pre-compile `embed_input_ids` when mm
                 # embeddings are present. We assume `--disable-mm-chunked`,
                 # hence only whole items can be scheduled. This implies we just
                 # need to compile when `num_items` fit the (padded) `input_ids`
@@ -1519,7 +1517,7 @@ class TPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
                         assert a is None
                         torch_xla.sync(wait=False)
 
-            # Pre-compile `get_input_embeddings` when mm_embeddings are not
+            # Pre-compile `embed_input_ids` when mm_embeddings are not
             # present. Chunk is only made of text, no mm_placeholders.
             for num_tokens in self.num_tokens_paddings:
                 placeholders_ids = torch.zeros(
@@ -1738,7 +1736,7 @@ class TPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
                     # impact of recompilation until it's fixed.
                     start = time.perf_counter()
                     torch_xla.sync(wait=False)
-                    dummy_encoder_outputs = self.model.get_multimodal_embeddings(
+                    dummy_encoder_outputs = self.model.embed_multimodal(
                         **batched_dummy_mm_inputs
                     )
                     torch_xla.sync(wait=False)
@@ -1974,11 +1972,11 @@ class TPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
             )
         return logits_cloned
 
-    def get_multimodal_embeddings(self, *args, **kwargs):
-        return self.model.get_multimodal_embeddings(*args, **kwargs)
+    def embed_multimodal(self, *args, **kwargs):
+        return self.model.embed_multimodal(*args, **kwargs)
 
-    def get_input_embeddings(self, *args, **kwargs):
-        return self.model.get_input_embeddings(*args, **kwargs)
+    def embed_input_ids(self, *args, **kwargs):
+        return self.model.embed_input_ids(*args, **kwargs)
 
     def prepare_structured_decoding_input(
         self, logits: torch.Tensor, grammar_output: "GrammarOutput"
diff --git a/vllm/v1/worker/utils.py b/vllm/v1/worker/utils.py
index 0ca7e81a5c7b8..095407a8b9596 100644
--- a/vllm/v1/worker/utils.py
+++ b/vllm/v1/worker/utils.py
@@ -177,27 +177,27 @@ def sanity_check_mm_encoder_outputs(
 ) -> None:
     """
     Perform sanity checks for the result of
-    [`vllm.model_executor.models.SupportsMultiModal.get_multimodal_embeddings`][].
+    [`vllm.model_executor.models.SupportsMultiModal.embed_multimodal`][].
     """
     assert isinstance(mm_embeddings, (list, tuple, torch.Tensor)), (
         "Expected multimodal embeddings to be a list/tuple of 2D tensors, "
         f"or a single 3D tensor, but got {type(mm_embeddings)} "
         "instead. This is most likely due to incorrect implementation "
-        "of the model's `get_multimodal_embeddings` method."
+        "of the model's `embed_multimodal` method."
     )
 
     assert len(mm_embeddings) == expected_num_items, (
         "Expected number of multimodal embeddings to match number of "
         f"input items: {expected_num_items}, but got {len(mm_embeddings)=} "
         "instead. This is most likely due to incorrect implementation "
-        "of the model's `get_multimodal_embeddings` method."
+        "of the model's `embed_multimodal` method."
     )
 
     assert all(e.ndim == 2 for e in mm_embeddings), (
         "Expected multimodal embeddings to be a sequence of 2D tensors, "
         f"but got tensors with shapes {[e.shape for e in mm_embeddings]} "
         "instead. This is most likely due to incorrect implementation "
-        "of the model's `get_multimodal_embeddings` method."
+        "of the model's `embed_multimodal` method."
     )
 
 
From a1d3866dda6539a0e9e2cfc49e9cb1e887baaaec Mon Sep 17 00:00:00 2001
From: Jialin Ouyang <Jialin.Ouyang@gmail.com>
Date: Wed, 12 Nov 2025 19:36:07 -0800
Subject: [PATCH 388/976] [n-gen] DO NOT repeatedly return finished child
 requests (#28591)

Signed-off-by: Jialin Ouyang <Jialin.Ouyang@gmail.com>
---
 tests/v1/engine/test_parallel_sampling.py | 103 ++++++++++++++++++++++
 vllm/v1/engine/parallel_sampling.py       |  15 +++-
 2 files changed, 115 insertions(+), 3 deletions(-)
 create mode 100644 tests/v1/engine/test_parallel_sampling.py

diff --git a/tests/v1/engine/test_parallel_sampling.py b/tests/v1/engine/test_parallel_sampling.py
new file mode 100644
index 0000000000000..736c0e54837fe
--- /dev/null
+++ b/tests/v1/engine/test_parallel_sampling.py
@@ -0,0 +1,103 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from vllm import SamplingParams
+from vllm.outputs import CompletionOutput
+from vllm.sampling_params import RequestOutputKind
+from vllm.v1.engine.parallel_sampling import ParentRequest
+
+
+def test_parent_request_to_output_stream() -> None:
+    parent_request = ParentRequest("parent_id", SamplingParams(n=2))
+    parent_request.child_requests = {"child_id_0", "child_id_1"}
+    output_0 = CompletionOutput(
+        index=0, text="child 0", token_ids=[], cumulative_logprob=None, logprobs=None
+    )
+    output_1 = CompletionOutput(
+        index=1, text="child 1", token_ids=[], cumulative_logprob=None, logprobs=None
+    )
+    # Request not finished
+    assert ("parent_id", [output_0], False) == parent_request.get_outputs(
+        "child_id_0", output_0
+    )
+    assert ("parent_id", [output_1], False) == parent_request.get_outputs(
+        "child_id_1", output_1
+    )
+    assert ("parent_id", [output_0], False) == parent_request.get_outputs(
+        "child_id_0", output_0
+    )
+    assert ("parent_id", [output_1], False) == parent_request.get_outputs(
+        "child_id_1", output_1
+    )
+
+    # output_1 finished
+    output_1.finish_reason = "ended"
+    assert ("parent_id", [output_0], False) == parent_request.get_outputs(
+        "child_id_0", output_0
+    )
+    assert ("parent_id", [output_1], False) == parent_request.get_outputs(
+        "child_id_1", output_1
+    )
+    # Finished output_1 had already returned, DO NOT returned again
+    assert ("parent_id", [output_0], False) == parent_request.get_outputs(
+        "child_id_0", output_0
+    )
+    assert parent_request.get_outputs("child_id_1", output_1) == (
+        "parent_id",
+        [],
+        False,
+    )
+
+    # output_0 finished
+    output_0.finish_reason = "ended"
+    assert ("parent_id", [output_0], True) == parent_request.get_outputs(
+        "child_id_0", output_0
+    )
+    assert parent_request.get_outputs("child_id_1", output_1) == ("parent_id", [], True)
+    # Finished output_0 had already returned, DO NOT returned again
+    assert parent_request.get_outputs("child_id_0", output_0) == ("parent_id", [], True)
+    assert parent_request.get_outputs("child_id_1", output_1) == ("parent_id", [], True)
+
+
+def test_parent_request_to_output_final_only() -> None:
+    parent_request = ParentRequest(
+        "parent_id", SamplingParams(n=2, output_kind=RequestOutputKind.FINAL_ONLY)
+    )
+    parent_request.child_requests = {"child_id_0", "child_id_1"}
+    output_0 = CompletionOutput(
+        index=0, text="child 0", token_ids=[], cumulative_logprob=None, logprobs=None
+    )
+    output_1 = CompletionOutput(
+        index=1, text="child 1", token_ids=[], cumulative_logprob=None, logprobs=None
+    )
+    # Request not finished, return nothing
+    assert parent_request.get_outputs("child_id_0", output_0) == (
+        "parent_id",
+        [],
+        False,
+    )
+    assert parent_request.get_outputs("child_id_1", output_1) == (
+        "parent_id",
+        [],
+        False,
+    )
+    # output_1 finished, but outputs won't be returned until all child requests finished
+    output_1.finish_reason = "ended"
+    assert parent_request.get_outputs("child_id_0", output_0) == (
+        "parent_id",
+        [],
+        False,
+    )
+    assert parent_request.get_outputs("child_id_1", output_1) == (
+        "parent_id",
+        [],
+        False,
+    )
+    # output_0 finished, as all child requests finished, the output would be returned
+    output_0.finish_reason = "ended"
+    assert ("parent_id", [output_0, output_1], True) == parent_request.get_outputs(
+        "child_id_0", output_0
+    )
+    assert ("parent_id", [output_0, output_1], True) == parent_request.get_outputs(
+        "child_id_1", output_1
+    )
diff --git a/vllm/v1/engine/parallel_sampling.py b/vllm/v1/engine/parallel_sampling.py
index 26ee10d2b9bbf..59aacd1963076 100644
--- a/vllm/v1/engine/parallel_sampling.py
+++ b/vllm/v1/engine/parallel_sampling.py
@@ -97,12 +97,21 @@ class ParentRequest:
         child_request_id: str,
         completion_output: CompletionOutput,
     ) -> tuple[str, list[CompletionOutput], bool]:
+        already_finished_and_returned: bool = False
         if completion_output.finished():
-            self.child_requests.remove(child_request_id)
+            if child_request_id in self.child_requests:
+                self.child_requests.remove(child_request_id)
+            else:
+                # child request ID is not available in child_requests
+                # which means the request had finished in previous
+                # batch step and returned to the client earlier
+                already_finished_and_returned = True
 
         if self.sampling_params.output_kind != RequestOutputKind.FINAL_ONLY:
-            # If streaming, just return the current output.
-            outputs = [completion_output]
+            # If streaming, just return the current output
+            #
+            # DO NOT output finished and already returned child request to client again
+            outputs = [] if already_finished_and_returned else [completion_output]
         else:
             # If not streaming, aggregate the n final outputs.
             self.output_aggregator[completion_output.index] = completion_output

From 7c38ed0f1c83077111bac6dd044d441c6e4fab67 Mon Sep 17 00:00:00 2001
From: Andrew Xia <axia@meta.com>
Date: Wed, 12 Nov 2025 20:03:23 -0800
Subject: [PATCH 389/976] [Frontend] split append tool output (#28333)

Signed-off-by: Andrew Xia <axia@fb.com>
Co-authored-by: Andrew Xia <axia@fb.com>
---
 .../openai/test_serving_responses.py          |   3 +
 vllm/entrypoints/context.py                   | 129 +++++++++---------
 vllm/entrypoints/openai/serving_engine.py     |   2 +-
 3 files changed, 72 insertions(+), 62 deletions(-)

diff --git a/tests/entrypoints/openai/test_serving_responses.py b/tests/entrypoints/openai/test_serving_responses.py
index 788a1e9121825..93e11b61020c5 100644
--- a/tests/entrypoints/openai/test_serving_responses.py
+++ b/tests/entrypoints/openai/test_serving_responses.py
@@ -34,6 +34,9 @@ class MockConversationContext(ConversationContext):
     def append_output(self, output) -> None:
         pass
 
+    def append_tool_output(self, output) -> None:
+        pass
+
     async def call_tool(self):
         return []
 
diff --git a/vllm/entrypoints/context.py b/vllm/entrypoints/context.py
index 0041db822080a..7a41c668d7645 100644
--- a/vllm/entrypoints/context.py
+++ b/vllm/entrypoints/context.py
@@ -80,7 +80,11 @@ class TurnMetrics:
 
 class ConversationContext(ABC):
     @abstractmethod
-    def append_output(self, output) -> None:
+    def append_output(self, output: RequestOutput) -> None:
+        pass
+
+    @abstractmethod
+    def append_tool_output(self, output) -> None:
         pass
 
     @abstractmethod
@@ -151,6 +155,9 @@ class SimpleContext(ConversationContext):
         self.num_cached_tokens = output.num_cached_tokens or 0
         self.num_output_tokens += len(output.outputs[0].token_ids or [])
 
+    def append_tool_output(self, output) -> None:
+        raise NotImplementedError("Should not be called.")
+
     def need_builtin_tool_call(self) -> bool:
         return False
 
@@ -205,28 +212,28 @@ class HarmonyContext(ConversationContext):
         if self.parser.current_channel in {"analysis", "commentary"}:
             self.num_reasoning_tokens += 1
 
-    def append_output(self, output: RequestOutput | list[Message]) -> None:
-        if isinstance(output, RequestOutput):
-            output_token_ids = output.outputs[0].token_ids
-            self.parser = get_streamable_parser_for_assistant()
-            for token_id in output_token_ids:
-                self.parser.process(token_id)
-                # Check if the current token is part of reasoning content
-                self._update_num_reasoning_tokens()
-            self._update_prefill_token_usage(output)
-            self._update_decode_token_usage(output)
-            # Append current turn to all turn list for next turn's calculations
-            self.all_turn_metrics.append(self.current_turn_metrics.copy())
-            self.current_turn_metrics.reset()
-            # append_output is called only once before tool calling
-            # in non-streaming case
-            # so we can append all the parser messages to _messages
-            output_msgs = self.parser.messages
-            # The responses finish reason is set in the last message
-            self.finish_reason = output.outputs[0].finish_reason
-        else:
-            # Tool output.
-            output_msgs = output
+    def append_output(self, output: RequestOutput) -> None:
+        output_token_ids = output.outputs[0].token_ids
+        self.parser = get_streamable_parser_for_assistant()
+        for token_id in output_token_ids:
+            self.parser.process(token_id)
+            # Check if the current token is part of reasoning content
+            self._update_num_reasoning_tokens()
+        self._update_prefill_token_usage(output)
+        self._update_decode_token_usage(output)
+        # Append current turn to all turn list for next turn's calculations
+        self.all_turn_metrics.append(self.current_turn_metrics.copy())
+        self.current_turn_metrics.reset()
+        # append_output is called only once before tool calling
+        # in non-streaming case
+        # so we can append all the parser messages to _messages
+        output_msgs = self.parser.messages
+        # The responses finish reason is set in the last message
+        self.finish_reason = output.outputs[0].finish_reason
+        self._messages.extend(output_msgs)
+
+    def append_tool_output(self, output: list[Message]) -> None:
+        output_msgs = output
         self._messages.extend(output_msgs)
 
     def _update_prefill_token_usage(self, output: RequestOutput) -> None:
@@ -502,45 +509,45 @@ class StreamingHarmonyContext(HarmonyContext):
     def messages(self) -> list:
         return self._messages
 
-    def append_output(self, output: RequestOutput | list[Message]) -> None:
-        if isinstance(output, RequestOutput):
-            # append_output is called for each output token in streaming case,
-            # so we only want to add the prompt tokens once for each message.
-            if self.first_tok_of_message:
-                self._update_prefill_token_usage(output)
-            # Reset self.first_tok_of_message if needed:
-            # if the current token is the last one of the current message
-            # (finished=True), then the next token processed will mark the
-            # beginning of a new message
-            self.first_tok_of_message = output.finished
-            for tok in output.outputs[0].token_ids:
-                self.parser.process(tok)
-            self._update_decode_token_usage(output)
+    def append_output(self, output: RequestOutput) -> None:
+        # append_output is called for each output token in streaming case,
+        # so we only want to add the prompt tokens once for each message.
+        if self.first_tok_of_message:
+            self._update_prefill_token_usage(output)
+        # Reset self.first_tok_of_message if needed:
+        # if the current token is the last one of the current message
+        # (finished=True), then the next token processed will mark the
+        # beginning of a new message
+        self.first_tok_of_message = output.finished
+        for tok in output.outputs[0].token_ids:
+            self.parser.process(tok)
+        self._update_decode_token_usage(output)
 
-            # For streaming, update previous turn when message is complete
-            if output.finished:
-                self.all_turn_metrics.append(self.current_turn_metrics.copy())
-                self.current_turn_metrics.reset()
-            # Check if the current token is part of reasoning content
-            self._update_num_reasoning_tokens()
-            self.last_tok = tok
-            if len(self._messages) - self.num_init_messages < len(self.parser.messages):
-                self._messages.extend(
-                    self.parser.messages[len(self._messages) - self.num_init_messages :]
-                )
-        else:
-            # Handle the case of tool output in direct message format
-            assert len(output) == 1, "Tool output should be a single message"
-            msg = output[0]
-            # Sometimes the recipient is not set for tool messages,
-            # so we set it to "assistant"
-            if msg.author.role == Role.TOOL and msg.recipient is None:
-                msg.recipient = "assistant"
-            toks = self.encoding.render(msg)
-            for tok in toks:
-                self.parser.process(tok)
-            self.last_tok = toks[-1]
-            # TODO: add tool_output messages to self._messages
+        # For streaming, update previous turn when message is complete
+        if output.finished:
+            self.all_turn_metrics.append(self.current_turn_metrics.copy())
+            self.current_turn_metrics.reset()
+        # Check if the current token is part of reasoning content
+        self._update_num_reasoning_tokens()
+        self.last_tok = tok
+        if len(self._messages) - self.num_init_messages < len(self.parser.messages):
+            self._messages.extend(
+                self.parser.messages[len(self._messages) - self.num_init_messages :]
+            )
+
+    def append_tool_output(self, output: list[Message]) -> None:
+        # Handle the case of tool output in direct message format
+        assert len(output) == 1, "Tool output should be a single message"
+        msg = output[0]
+        # Sometimes the recipient is not set for tool messages,
+        # so we set it to "assistant"
+        if msg.author.role == Role.TOOL and msg.recipient is None:
+            msg.recipient = "assistant"
+        toks = self.encoding.render(msg)
+        for tok in toks:
+            self.parser.process(tok)
+        self.last_tok = toks[-1]
+        # TODO: add tool_output messages to self._messages
 
     def is_expecting_start(self) -> bool:
         return self.parser.state == StreamState.EXPECT_START
diff --git a/vllm/entrypoints/openai/serving_engine.py b/vllm/entrypoints/openai/serving_engine.py
index 30b8499b08d5b..1456727a3cdd6 100644
--- a/vllm/entrypoints/openai/serving_engine.py
+++ b/vllm/entrypoints/openai/serving_engine.py
@@ -1227,7 +1227,7 @@ class OpenAIServing:
 
             # Call the tool and update the context with the result.
             tool_output = await context.call_tool()
-            context.append_output(tool_output)
+            context.append_tool_output(tool_output)
 
             # TODO: uncomment this and enable tool output streaming
             # yield context

From 1a0b157a2ea46eebd69072f78e5a97ece4f6a2e7 Mon Sep 17 00:00:00 2001
From: Andrew Xia <axia@meta.com>
Date: Wed, 12 Nov 2025 20:47:22 -0800
Subject: [PATCH 390/976] [Frontend][responsesAPI][1/n] convert responses API
 tool input to chat completions tool format (#28231)

Signed-off-by: Andrew Xia <axia@fb.com>
Co-authored-by: Andrew Xia <axia@fb.com>
Co-authored-by: Chauncey <chaunceyjiang@gmail.com>
---
 tests/entrypoints/test_responses_utils.py     | 30 +++++++++++++++++
 .../openai/serving_responses/conftest.py      |  5 ++-
 .../serving_responses/test_function_call.py   |  1 +
 vllm/entrypoints/openai/serving_responses.py  | 29 ++++++-----------
 vllm/entrypoints/responses_utils.py           | 32 +++++++++++++++++++
 5 files changed, 76 insertions(+), 21 deletions(-)
 create mode 100644 tests/entrypoints/test_responses_utils.py

diff --git a/tests/entrypoints/test_responses_utils.py b/tests/entrypoints/test_responses_utils.py
new file mode 100644
index 0000000000000..48bf06088bc05
--- /dev/null
+++ b/tests/entrypoints/test_responses_utils.py
@@ -0,0 +1,30 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from vllm.entrypoints.responses_utils import (
+    convert_tool_responses_to_completions_format,
+)
+
+
+class TestResponsesUtils:
+    """Tests for convert_tool_responses_to_completions_format function."""
+
+    def test_convert_tool_responses_to_completions_format(self):
+        """Test basic conversion of a flat tool schema to nested format."""
+        input_tool = {
+            "type": "function",
+            "name": "get_weather",
+            "description": "Get the current weather in a given location",
+            "parameters": {
+                "type": "object",
+                "properties": {
+                    "location": {"type": "string"},
+                    "unit": {"type": "string", "enum": ["celsius", "fahrenheit"]},
+                },
+                "required": ["location", "unit"],
+            },
+        }
+
+        result = convert_tool_responses_to_completions_format(input_tool)
+
+        assert result == {"type": "function", "function": input_tool}
diff --git a/tests/v1/entrypoints/openai/serving_responses/conftest.py b/tests/v1/entrypoints/openai/serving_responses/conftest.py
index 8081e5fa1d837..b948b6d058a5d 100644
--- a/tests/v1/entrypoints/openai/serving_responses/conftest.py
+++ b/tests/v1/entrypoints/openai/serving_responses/conftest.py
@@ -30,7 +30,10 @@ def server_with_store(default_server_args):
     with RemoteOpenAIServer(
         MODEL_NAME,
         default_server_args,
-        env_dict={"VLLM_ENABLE_RESPONSES_API_STORE": "1"},
+        env_dict={
+            "VLLM_ENABLE_RESPONSES_API_STORE": "1",
+            "VLLM_SERVER_DEV_MODE": "1",
+        },
     ) as remote_server:
         yield remote_server
 
diff --git a/tests/v1/entrypoints/openai/serving_responses/test_function_call.py b/tests/v1/entrypoints/openai/serving_responses/test_function_call.py
index cf57956a9dea7..90161e7c221b7 100644
--- a/tests/v1/entrypoints/openai/serving_responses/test_function_call.py
+++ b/tests/v1/entrypoints/openai/serving_responses/test_function_call.py
@@ -116,6 +116,7 @@ async def test_function_tool_use(
         input=prompt,
         tools=tools,
         tool_choice=tool_choice,
+        temperature=0.0,
     )
 
     assert len(response.output) >= 1
diff --git a/vllm/entrypoints/openai/serving_responses.py b/vllm/entrypoints/openai/serving_responses.py
index 9b79e50c32085..06efb43ecb7b8 100644
--- a/vllm/entrypoints/openai/serving_responses.py
+++ b/vllm/entrypoints/openai/serving_responses.py
@@ -48,7 +48,6 @@ from openai.types.responses.response_output_text import Logprob, LogprobTopLogpr
 from openai.types.responses.response_reasoning_item import (
     Content as ResponseReasoningTextContent,
 )
-from openai.types.responses.tool import Tool
 from openai_harmony import Message as OpenAIHarmonyMessage
 
 from vllm import envs
@@ -94,7 +93,11 @@ from vllm.entrypoints.openai.protocol import (
 )
 from vllm.entrypoints.openai.serving_engine import OpenAIServing
 from vllm.entrypoints.openai.serving_models import OpenAIServingModels
-from vllm.entrypoints.responses_utils import construct_chat_message_with_tool_call
+from vllm.entrypoints.responses_utils import (
+    construct_chat_message_with_tool_call,
+    convert_tool_responses_to_completions_format,
+    extract_tool_types,
+)
 from vllm.entrypoints.tool_server import ToolServer
 from vllm.inputs.data import TokensPrompt as EngineTokensPrompt
 from vllm.logger import init_logger
@@ -108,23 +111,6 @@ from vllm.utils import random_uuid
 logger = init_logger(__name__)
 
 
-def extract_tool_types(tools: list[Tool]) -> set[str]:
-    """
-    Extracts the tool types from the given tools.
-    """
-    tool_types: set[str] = set()
-    for tool in tools:
-        if tool.type == "mcp":
-            # Allow the MCP Tool type to enable built in tools if the
-            # server_label is allowlisted in
-            # envs.VLLM_GPT_OSS_SYSTEM_TOOL_MCP_LABELS
-            if tool.server_label in envs.VLLM_GPT_OSS_SYSTEM_TOOL_MCP_LABELS:
-                tool_types.add(tool.server_label)
-        else:
-            tool_types.add(tool.type)
-    return tool_types
-
-
 class OpenAIServingResponses(OpenAIServing):
     def __init__(
         self,
@@ -513,7 +499,10 @@ class OpenAIServingResponses(OpenAIServing):
         ):
             tool_dicts = None
         else:
-            tool_dicts = [tool.model_dump() for tool in request.tools]
+            tool_dicts = [
+                convert_tool_responses_to_completions_format(tool.model_dump())
+                for tool in request.tools
+            ]
         # Construct the input messages.
         messages = self._construct_input_messages(request, prev_response)
         _, request_prompts, engine_prompts = await self._preprocess_chat(
diff --git a/vllm/entrypoints/responses_utils.py b/vllm/entrypoints/responses_utils.py
index 6eb7c0b70a670..d966f58804b67 100644
--- a/vllm/entrypoints/responses_utils.py
+++ b/vllm/entrypoints/responses_utils.py
@@ -10,7 +10,9 @@ from openai.types.chat.chat_completion_message_tool_call_param import (
     Function as FunctionCallTool,
 )
 from openai.types.responses import ResponseFunctionToolCall
+from openai.types.responses.tool import Tool
 
+from vllm import envs
 from vllm.entrypoints.openai.protocol import (
     ChatCompletionMessageParam,
     ResponseInputOutputItem,
@@ -43,3 +45,33 @@ def construct_chat_message_with_tool_call(
             tool_call_id=item.get("call_id"),
         )
     return item  # type: ignore
+
+
+def extract_tool_types(tools: list[Tool]) -> set[str]:
+    """
+    Extracts the tool types from the given tools.
+    """
+    tool_types: set[str] = set()
+    for tool in tools:
+        if tool.type == "mcp":
+            # Allow the MCP Tool type to enable built in tools if the
+            # server_label is allowlisted in
+            # envs.VLLM_GPT_OSS_SYSTEM_TOOL_MCP_LABELS
+            if tool.server_label in envs.VLLM_GPT_OSS_SYSTEM_TOOL_MCP_LABELS:
+                tool_types.add(tool.server_label)
+        else:
+            tool_types.add(tool.type)
+    return tool_types
+
+
+def convert_tool_responses_to_completions_format(tool: dict) -> dict:
+    """
+    Convert a flat tool schema:
+        {"type": "function", "name": "...", "description": "...", "parameters": {...}}
+    into:
+        {"type": "function", "function": {...}}
+    """
+    return {
+        "type": "function",
+        "function": tool,
+    }

From 7dca0c90cbd221bdc2650a46ba04a288fc95fd94 Mon Sep 17 00:00:00 2001
From: Pleaplusone <ygan@amd.com>
Date: Thu, 13 Nov 2025 13:18:56 +0800
Subject: [PATCH 391/976] [BugFix][ROCm] Fix `get_cu_count` missing variable
 error (#28608)

Signed-off-by: ganyi <ygan@amd.com>
---
 vllm/utils/platform_utils.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/utils/platform_utils.py b/vllm/utils/platform_utils.py
index 3327fce6707b1..433c6734e8a92 100644
--- a/vllm/utils/platform_utils.py
+++ b/vllm/utils/platform_utils.py
@@ -24,7 +24,7 @@ def xpu_is_initialized() -> bool:
     return torch.xpu.is_initialized()
 
 
-def get_cu_count(cls, device_id: int = 0) -> int:
+def get_cu_count(device_id: int = 0) -> int:
     """Returns the total number of compute units (CU) on single GPU."""
     return torch.cuda.get_device_properties(device_id).multi_processor_count
 

From dbbe0c756a41e5a64d6e364c131fd7d12a56b926 Mon Sep 17 00:00:00 2001
From: Fanli Lin <fanli.lin@intel.com>
Date: Thu, 13 Nov 2025 13:31:42 +0800
Subject: [PATCH 392/976] [XPU] Support Triton path for LoRA operations on XPU 
  (#28511)

Signed-off-by: Fanli Lin <fanli.lin@intel.com>
---
 vllm/lora/ops/triton_ops/lora_expand_op.py | 1 +
 vllm/lora/ops/triton_ops/lora_shrink_op.py | 1 +
 vllm/platforms/xpu.py                      | 6 +++++-
 3 files changed, 7 insertions(+), 1 deletion(-)

diff --git a/vllm/lora/ops/triton_ops/lora_expand_op.py b/vllm/lora/ops/triton_ops/lora_expand_op.py
index 7f7d70cdc3a4a..311c4b1918597 100644
--- a/vllm/lora/ops/triton_ops/lora_expand_op.py
+++ b/vllm/lora/ops/triton_ops/lora_expand_op.py
@@ -48,6 +48,7 @@ def _lora_expand_kernel(
     SLICE_NUM: tl.constexpr,
     SAME_STRIDE: tl.constexpr,
     USE_GDC: tl.constexpr,
+    launch_pdl: tl.constexpr,
 ):
     cta_n_num = tl.cdiv(N, BLOCK_N)
     cta_m_num = tl.cdiv(M, BLOCK_M)
diff --git a/vllm/lora/ops/triton_ops/lora_shrink_op.py b/vllm/lora/ops/triton_ops/lora_shrink_op.py
index e78379cf684af..71bd5e3614667 100644
--- a/vllm/lora/ops/triton_ops/lora_shrink_op.py
+++ b/vllm/lora/ops/triton_ops/lora_shrink_op.py
@@ -46,6 +46,7 @@ def _lora_shrink_kernel(
     GROUP_SIZE_M: tl.constexpr,
     SLICE_NUM: tl.constexpr,
     USE_GDC: tl.constexpr,
+    launch_pdl: tl.constexpr,
 ):
     cta_n_num = tl.cdiv(N, BLOCK_N)
     cta_m_num = tl.cdiv(M, BLOCK_M)
diff --git a/vllm/platforms/xpu.py b/vllm/platforms/xpu.py
index 0309ae0fe9620..c629325f76a32 100644
--- a/vllm/platforms/xpu.py
+++ b/vllm/platforms/xpu.py
@@ -101,7 +101,11 @@ class XPUPlatform(Platform):
 
     @classmethod
     def get_punica_wrapper(cls) -> str:
-        return "vllm.lora.punica_wrapper.punica_xpu.PunicaWrapperXPU"
+        xpu_use_triton_kernel = os.getenv("XPU_USE_TRITON_KERNEL", "0") == "1"
+        if not xpu_use_triton_kernel:
+            return "vllm.lora.punica_wrapper.punica_xpu.PunicaWrapperXPU"
+        else:
+            return "vllm.lora.punica_wrapper.punica_gpu.PunicaWrapperGPU"
 
     @classmethod
     def get_device_total_memory(cls, device_id: int = 0) -> int:

From 7e082bc14e431af0311186dd18d4f4da7a757f3a Mon Sep 17 00:00:00 2001
From: Lucia Fang <116399278+luccafong@users.noreply.github.com>
Date: Wed, 12 Nov 2025 21:40:45 -0800
Subject: [PATCH 393/976] Support DeepEP for Kimi-k2-thinking through enabling
 gemm selection for compressed-tensor marlin wna16 (#28574)

Signed-off-by: Lu Fang <fanglu@fb.com>
---
 .../layers/fused_moe/fused_marlin_moe.py      | 75 +++++++++++++++++--
 .../compressed_tensors_moe.py                 | 52 ++++++++++++-
 2 files changed, 118 insertions(+), 9 deletions(-)

diff --git a/vllm/model_executor/layers/fused_moe/fused_marlin_moe.py b/vllm/model_executor/layers/fused_moe/fused_marlin_moe.py
index 3b0df6c416a04..0b0f59f673182 100644
--- a/vllm/model_executor/layers/fused_moe/fused_marlin_moe.py
+++ b/vllm/model_executor/layers/fused_moe/fused_marlin_moe.py
@@ -499,11 +499,35 @@ def batched_fused_marlin_moe(
 
 
 class MarlinExpertsBase(mk.FusedMoEPermuteExpertsUnpermute):
-    def __init__(self, quant_config: FusedMoEQuantConfig):
+    def __init__(
+        self,
+        quant_config: FusedMoEQuantConfig,
+        w13_g_idx: torch.Tensor | None = None,
+        w2_g_idx: torch.Tensor | None = None,
+        w13_g_idx_sort_indices: torch.Tensor | None = None,
+        w2_g_idx_sort_indices: torch.Tensor | None = None,
+        is_k_full: bool = True,
+    ):
         # TODO (varun) : Enable activation quantization
-        assert quant_config.use_mxfp4_w4a16, "Supports only mxfp4_w4a16"
+        assert quant_config.use_mxfp4_w4a16 or quant_config.use_int4_w4a16, (
+            "Supports only mxfp4_w4a16 or int4_w4a16"
+        )
+        self.w13_g_idx = w13_g_idx
+        self.w2_g_idx = w2_g_idx
+        self.w13_g_idx_sort_indices = w13_g_idx_sort_indices
+        self.w2_g_idx_sort_indices = w2_g_idx_sort_indices
+        self.is_k_full = is_k_full
         super().__init__(quant_config)
 
+    @property
+    def quant_type_id(self) -> int:
+        # uint4b8 will be set for int4 weight and float4_e2m1f will be used for mxfp4
+        return (
+            scalar_types.uint4b8.id
+            if self.quant_config.use_int4_w4a16
+            else scalar_types.float4_e2m1f.id
+        )
+
     def moe_problem_size(
         self,
         a1: torch.Tensor,
@@ -533,8 +557,23 @@ class MarlinExpertsBase(mk.FusedMoEPermuteExpertsUnpermute):
 
 
 class MarlinExperts(MarlinExpertsBase):
-    def __init__(self, quant_config: FusedMoEQuantConfig):
-        super().__init__(quant_config)
+    def __init__(
+        self,
+        quant_config: FusedMoEQuantConfig,
+        w13_g_idx: torch.Tensor | None = None,
+        w2_g_idx: torch.Tensor | None = None,
+        w13_g_idx_sort_indices: torch.Tensor | None = None,
+        w2_g_idx_sort_indices: torch.Tensor | None = None,
+        is_k_full: bool = True,
+    ):
+        super().__init__(
+            quant_config,
+            w13_g_idx,
+            w2_g_idx,
+            w13_g_idx_sort_indices,
+            w2_g_idx_sort_indices,
+            is_k_full,
+        )
 
     def supports_expert_map(self) -> bool:
         return True
@@ -616,7 +655,7 @@ class MarlinExperts(MarlinExpertsBase):
             gating_output=None,
             topk_weights=topk_weights,
             topk_ids=topk_ids,
-            quant_type_id=scalar_types.float4_e2m1f.id,  # works only for w4a16
+            quant_type_id=self.quant_type_id,
             apply_router_weight_on_input=apply_router_weight_on_input,
             global_num_experts=global_num_experts,
             activation=activation,
@@ -628,6 +667,11 @@ class MarlinExperts(MarlinExpertsBase):
             # output buffer allocation. Please refer to workspace_shapes().
             intermediate_cache13=workspace2,
             intermediate_cache2=workspace13,
+            g_idx1=self.w13_g_idx,
+            g_idx2=self.w2_g_idx,
+            sort_indices1=self.w13_g_idx_sort_indices,
+            sort_indices2=self.w2_g_idx_sort_indices,
+            is_k_full=self.is_k_full,
         )
 
     def moe_sum(self, input: torch.Tensor, output: torch.Tensor) -> None:
@@ -650,8 +694,20 @@ class BatchedMarlinExperts(MarlinExpertsBase):
         max_num_tokens: int,
         num_dispatchers: int,
         quant_config: FusedMoEQuantConfig,
+        w13_g_idx: torch.Tensor | None = None,
+        w2_g_idx: torch.Tensor | None = None,
+        w13_g_idx_sort_indices: torch.Tensor | None = None,
+        w2_g_idx_sort_indices: torch.Tensor | None = None,
+        is_k_full: bool = True,
     ):
-        super().__init__(quant_config)
+        super().__init__(
+            quant_config,
+            w13_g_idx,
+            w2_g_idx,
+            w13_g_idx_sort_indices,
+            w2_g_idx_sort_indices,
+            is_k_full,
+        )
         self.max_num_tokens = max_num_tokens
         self.num_dispatchers = num_dispatchers
 
@@ -720,7 +776,7 @@ class BatchedMarlinExperts(MarlinExpertsBase):
             w1_scale=self.w1_scale,
             w2_scale=self.w2_scale,
             gating_output=None,
-            quant_type_id=scalar_types.float4_e2m1f.id,  # works only for w4a16
+            quant_type_id=self.quant_type_id,
             apply_router_weight_on_input=apply_router_weight_on_input,
             global_num_experts=global_num_experts,
             activation=activation,
@@ -728,4 +784,9 @@ class BatchedMarlinExperts(MarlinExpertsBase):
             output=output,
             intermediate_cache13=workspace13,
             intermediate_cache2=workspace2,
+            g_idx1=self.w13_g_idx,
+            g_idx2=self.w2_g_idx,
+            sort_indices1=self.w13_g_idx_sort_indices,
+            sort_indices2=self.w2_g_idx_sort_indices,
+            is_k_full=self.is_k_full,
         )
diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
index bda94cee9e429..06ee96d55419c 100644
--- a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
@@ -35,7 +35,11 @@ from vllm.model_executor.layers.fused_moe.cpu_fused_moe import select_experts
 from vllm.model_executor.layers.fused_moe.flashinfer_cutlass_moe import (
     is_valid_flashinfer_cutlass_fused_moe,
 )
-from vllm.model_executor.layers.fused_moe.fused_marlin_moe import fused_marlin_moe
+from vllm.model_executor.layers.fused_moe.fused_marlin_moe import (
+    BatchedMarlinExperts,
+    MarlinExperts,
+    fused_marlin_moe,
+)
 from vllm.model_executor.layers.quantization.compressed_tensors.schemes.compressed_tensors_wNa16 import (  # noqa
     WNA16_SUPPORTED_BITS,
     WNA16_SUPPORTED_TYPES_MAP,
@@ -1578,7 +1582,51 @@ class CompressedTensorsWNA16MarlinMoEMethod(CompressedTensorsMoEMethod):
     def get_fused_moe_quant_config(
         self, layer: torch.nn.Module
     ) -> FusedMoEQuantConfig | None:
-        return None
+        if self.num_bits != 4:
+            return None
+        return int4_w4a16_moe_quant_config(
+            w1_scale=layer.w13_weight_scale,
+            w2_scale=layer.w2_weight_scale,
+            w1_zp=None,
+            w2_zp=None,
+            block_shape=[0, self.group_size],
+        )
+
+    def select_gemm_impl(
+        self,
+        prepare_finalize: mk.FusedMoEPrepareAndFinalize,
+        layer: torch.nn.Module,
+    ) -> mk.FusedMoEPermuteExpertsUnpermute:
+        assert self.num_bits == 4, "only supporting w4"
+        layer.w13_weight = layer.w13_weight_packed
+        layer.w2_weight = layer.w2_weight_packed
+        assert all([w is not None for w in [layer.w13_weight, layer.w2_weight]])
+        assert self.moe_quant_config is not None
+        if (
+            prepare_finalize.activation_format
+            == mk.FusedMoEActivationFormat.BatchedExperts
+        ):
+            max_num_tokens_per_rank = prepare_finalize.max_num_tokens_per_rank()
+            assert max_num_tokens_per_rank is not None
+            return BatchedMarlinExperts(
+                max_num_tokens=max_num_tokens_per_rank,
+                num_dispatchers=prepare_finalize.num_dispatchers(),
+                quant_config=self.moe_quant_config,
+                w13_g_idx=layer.w13_weight_g_idx,
+                w2_g_idx=layer.w2_weight_g_idx,
+                w13_g_idx_sort_indices=layer.w13_g_idx_sort_indices,
+                w2_g_idx_sort_indices=layer.w2_g_idx_sort_indices,
+                is_k_full=self.is_k_full,
+            )
+        else:
+            return MarlinExperts(
+                quant_config=self.moe_quant_config,
+                w13_g_idx=layer.w13_weight_g_idx,
+                w2_g_idx=layer.w2_weight_g_idx,
+                w13_g_idx_sort_indices=layer.w13_g_idx_sort_indices,
+                w2_g_idx_sort_indices=layer.w2_g_idx_sort_indices,
+                is_k_full=self.is_k_full,
+            )
 
     def apply(
         self,

From d44fbbab0ea383a768823e99285b5be364afcd09 Mon Sep 17 00:00:00 2001
From: Radu Salavat <radu.salavat@arm.com>
Date: Wed, 12 Nov 2025 21:43:08 -0800
Subject: [PATCH 394/976] [build][cmake]: Bundle static ACL and torch libgomp
 for CPU extension builds (#28059)

Signed-off-by: Radu Salavat <radu.salavat@arm.com>
---
 cmake/cpu_extension.cmake | 78 +++++++++++++++++++++++++++++----------
 1 file changed, 58 insertions(+), 20 deletions(-)

diff --git a/cmake/cpu_extension.cmake b/cmake/cpu_extension.cmake
index 51447cde0b294..bb0179c79c108 100644
--- a/cmake/cpu_extension.cmake
+++ b/cmake/cpu_extension.cmake
@@ -210,7 +210,30 @@ endif()
 if ((AVX512_FOUND AND NOT AVX512_DISABLED) OR (ASIMD_FOUND AND NOT APPLE_SILICON_FOUND) OR POWER9_FOUND OR POWER10_FOUND OR POWER11_FOUND)
     # Fetch and build Arm Compute Library (ACL) as oneDNN's backend for AArch64
     # TODO [fadara01]: remove this once ACL can be fetched and built automatically as a dependency of oneDNN
+    set(ONEDNN_AARCH64_USE_ACL OFF CACHE BOOL "")
     if(ASIMD_FOUND)
+        # Set number of parallel build processes
+        include(ProcessorCount)
+        ProcessorCount(NPROC)
+        if(NOT NPROC)
+            set(NPROC 4)
+        endif()
+        # locate PyTorch's libgomp (e.g. site-packages/torch.libs/libgomp-947d5fa1.so.1.0.0)
+        # and create a local shim dir with it
+        vllm_prepare_torch_gomp_shim(VLLM_TORCH_GOMP_SHIM_DIR)
+
+        find_library(OPEN_MP
+            NAMES gomp
+            PATHS ${VLLM_TORCH_GOMP_SHIM_DIR}
+            NO_DEFAULT_PATH
+            REQUIRED
+        )
+        # Set LD_LIBRARY_PATH to include the shim dir at build time to use the same libgomp as PyTorch
+        if (OPEN_MP)
+            set(ENV{LD_LIBRARY_PATH} "${VLLM_TORCH_GOMP_SHIM_DIR}:$ENV{LD_LIBRARY_PATH}")
+        endif()
+
+        # Fetch and populate ACL
         if(DEFINED ENV{ACL_ROOT_DIR} AND IS_DIRECTORY "$ENV{ACL_ROOT_DIR}")
             message(STATUS "Using ACL from specified source directory: $ENV{ACL_ROOT_DIR}")
         else()
@@ -224,38 +247,53 @@ if ((AVX512_FOUND AND NOT AVX512_DISABLED) OR (ASIMD_FOUND AND NOT APPLE_SILICON
                 GIT_PROGRESS   TRUE
             )
             set(ENV{ACL_ROOT_DIR} "${arm_compute_SOURCE_DIR}")
+            set(ACL_LIB_DIR "$ENV{ACL_ROOT_DIR}/build")
         endif()
 
-        # Build ACL with scons
-        include(ProcessorCount)
-        ProcessorCount(_NPROC)
-        set(_scons_cmd
-        scons -j${_NPROC}
-            Werror=0 debug=0 neon=1 examples=0 embed_kernels=0 os=linux
-            arch=armv8.2-a build=native benchmark_examples=0 fixed_format_kernels=1
-            multi_isa=1 openmp=1 cppthreads=0
+        # Build ACL with CMake
+        set(ARM_COMPUTE_BUILD_SHARED_LIB "OFF")
+        set(CMAKE_BUILD_TYPE "Release")
+        set(ARM_COMPUTE_ARCH "armv8.2-a")
+        set(ARM_COMPUTE_ENABLE_ASSERTS "OFF")
+        set(ARM_COMPUTE_ENABLE_CPPTHREADS "OFF")
+        set(ONEDNN_ENABLE_PRIMITIVE "MATMUL;REORDER")
+        set(ARM_COMPUTE_ENABLE_OPENMP "ON")
+        set(ARM_COMPUTE_ENABLE_WERROR "OFF")
+        set(ARM_COMPUTE_BUILD_EXAMPLES "OFF")
+        set(ARM_COMPUTE_BUILD_TESTING "OFF")
+
+        set(_cmake_config_cmd
+             ${CMAKE_COMMAND} -G Ninja -B build 
+            -DARM_COMPUTE_BUILD_SHARED_LIB=OFF 
+            -DCMAKE_BUILD_TYPE=Release 
+            -DARM_COMPUTE_ARCH=armv8.2-a 
+            -DARM_COMPUTE_ENABLE_ASSERTS=OFF 
+            -DARM_COMPUTE_ENABLE_CPPTHREADS=OFF 
+            -DARM_COMPUTE_ENABLE_OPENMP=ON 
+            -DARM_COMPUTE_ENABLE_WERROR=OFF 
+            -DARM_COMPUTE_BUILD_EXAMPLES=OFF 
+            -DARM_COMPUTE_BUILD_TESTING=OFF)
+        set(_cmake_build_cmd
+            ${CMAKE_COMMAND} --build build -- -j${NPROC}
         )
 
-        # locate PyTorch's libgomp (e.g. site-packages/torch.libs/libgomp-947d5fa1.so.1.0.0)
-        # and create a local shim dir with it
-        include("${CMAKE_CURRENT_LIST_DIR}/utils.cmake")
-        vllm_prepare_torch_gomp_shim(VLLM_TORCH_GOMP_SHIM_DIR)
-
-        if(NOT VLLM_TORCH_GOMP_SHIM_DIR STREQUAL "")
-            list(APPEND _scons_cmd extra_link_flags=-L${VLLM_TORCH_GOMP_SHIM_DIR})
-        endif()
-
         execute_process(
-            COMMAND ${_scons_cmd}
+            COMMAND ${_cmake_config_cmd}
+            WORKING_DIRECTORY "$ENV{ACL_ROOT_DIR}"
+        )
+        execute_process(
+            COMMAND ${_cmake_build_cmd}
             WORKING_DIRECTORY "$ENV{ACL_ROOT_DIR}"
             RESULT_VARIABLE _acl_rc
         )
+
         if(NOT _acl_rc EQUAL 0)
             message(FATAL_ERROR "ACL SCons build failed (exit ${_acl_rc}).")
         endif()
+        message(STATUS "Arm Compute Library (ACL) built successfully.")
 
-        set(ONEDNN_AARCH64_USE_ACL "ON")
-        set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -Wl,-rpath,$ENV{ACL_ROOT_DIR}/build/")
+        # VLLM/oneDNN settings for ACL
+        set(ONEDNN_AARCH64_USE_ACL ON CACHE BOOL "" FORCE)
         add_compile_definitions(VLLM_USE_ACL)
     endif()
 

From ca00b1bfc69e71d860485340f0a197bf584ec004 Mon Sep 17 00:00:00 2001
From: Pleaplusone <ygan@amd.com>
Date: Thu, 13 Nov 2025 13:43:42 +0800
Subject: [PATCH 395/976] [ROCm][BugFix] Remove the usage of `device_info` from
 aiter (#28383)

Signed-off-by: ganyi <ygan@amd.com>
---
 vllm/v1/attention/backends/rocm_aiter_fa.py | 11 +++++------
 1 file changed, 5 insertions(+), 6 deletions(-)

diff --git a/vllm/v1/attention/backends/rocm_aiter_fa.py b/vllm/v1/attention/backends/rocm_aiter_fa.py
index 4888ae51d1d3e..c7f925817a6a8 100644
--- a/vllm/v1/attention/backends/rocm_aiter_fa.py
+++ b/vllm/v1/attention/backends/rocm_aiter_fa.py
@@ -31,15 +31,14 @@ _CP_TOKENS_PER_ITER_ROCM = 32 * 1024
 
 if current_platform.is_rocm():
     import aiter
-    from aiter.ops.triton.utils.device_info import get_num_sms
 
     from vllm.triton_utils import tl, triton
 
     def block_size(x, head_dim):
         return min(65536 // x.element_size(), triton.next_power_of_2(head_dim))
 
-    def num_programs(head_dim):
-        return min(head_dim, get_num_sms())
+    def num_programs(total_tokens):
+        return min(total_tokens, current_platform.get_cu_count())
 
     @triton.jit
     def cp_mha_gather_cache_kernel(
@@ -58,11 +57,11 @@ if current_platform.is_rocm():
         x,
         max_block_num,
         num_tokens,
+        num_programs,
         DEQUANT: tl.constexpr,
         PAGE_SIZE: tl.constexpr,
         CACHE_FORMAT: tl.constexpr,
         BLOCK_SIZE: tl.constexpr,
-        NUM_PRGMS: tl.constexpr,
     ):
         bid = tl.program_id(0)
         col_offsets = tl.arange(0, BLOCK_SIZE)
@@ -70,7 +69,7 @@ if current_platform.is_rocm():
             k_scale = tl.load(k_scale_ptr)
             v_scale = tl.load(v_scale_ptr)
 
-        for token_id in tl.range(bid, num_tokens, NUM_PRGMS):
+        for token_id in tl.range(bid, num_tokens, num_programs):
             key_ptr_offset = key_ptr + token_id * head_size * num_heads
             value_ptr_offset = value_ptr + token_id * head_size * num_heads
             batch_idx = tl.load(token_to_batch_ptr + token_id)
@@ -162,11 +161,11 @@ if current_platform.is_rocm():
             x,
             block_tables.size(1),
             total_tokens,
+            NUM_PRGMS,
             DEQUANT=dequant,
             PAGE_SIZE=page_size,
             CACHE_FORMAT=kv_cache_layout,
             BLOCK_SIZE=BLOCK_SIZE,
-            NUM_PRGMS=NUM_PRGMS,
         )
 
 
From 4504e8029bd15c60e164661a4283358381616846 Mon Sep 17 00:00:00 2001
From: tjandy98 <3953059+tjandy98@users.noreply.github.com>
Date: Thu, 13 Nov 2025 14:42:29 +0800
Subject: [PATCH 396/976] [Bugfix] Prevent crash on empty grammar string
 (#28210)

Signed-off-by: tjandy98 <3953059+tjandy98@users.noreply.github.com>
---
 .../openai/test_chat_completion.py            | 20 +++++++++++++++++++
 vllm/v1/engine/processor.py                   |  6 ++++++
 2 files changed, 26 insertions(+)

diff --git a/tests/v1/entrypoints/openai/test_chat_completion.py b/tests/v1/entrypoints/openai/test_chat_completion.py
index 522c72b559556..b5aa20448dfcb 100644
--- a/tests/v1/entrypoints/openai/test_chat_completion.py
+++ b/tests/v1/entrypoints/openai/test_chat_completion.py
@@ -138,3 +138,23 @@ async def test_invalid_grammar(client: openai.AsyncOpenAI, model_name: str):
                 "structured_outputs": {"grammar": invalid_simplified_sql_grammar}
             },
         )
+
+
+@pytest.mark.asyncio
+@pytest.mark.parametrize(
+    "model_name",
+    [MODEL_NAME],
+)
+async def test_empty_grammar(client: openai.AsyncOpenAI, model_name: str) -> None:
+    prompt = "Say hello"
+    with pytest.raises((openai.BadRequestError, openai.APIError)):
+        await client.chat.completions.create(
+            model=model_name,
+            messages=[
+                {
+                    "role": "user",
+                    "content": prompt,
+                }
+            ],
+            extra_body={"structured_outputs": {"grammar": ""}},
+        )
diff --git a/vllm/v1/engine/processor.py b/vllm/v1/engine/processor.py
index c49fd1bde8b98..f2d992403e1a8 100644
--- a/vllm/v1/engine/processor.py
+++ b/vllm/v1/engine/processor.py
@@ -270,6 +270,12 @@ class Processor:
             raise ValueError(
                 f"Choice '{params.structured_outputs.choice}' cannot be an empty list"  # noqa: E501
             )
+        # Reject empty string grammar early to avoid engine-side crashes
+        if (
+            isinstance(params.structured_outputs.grammar, str)
+            and params.structured_outputs.grammar.strip() == ""
+        ):
+            raise ValueError("structured_outputs.grammar cannot be an empty string")
 
         if backend.startswith("xgrammar"):
             # xgrammar with no fallback

From c33b87e7778d2a6900e73969c38785e0254f880b Mon Sep 17 00:00:00 2001
From: Huy Do <huydhn@gmail.com>
Date: Wed, 12 Nov 2025 22:48:53 -0800
Subject: [PATCH 397/976] Use official xformers-0.0.33 built for PT 2.9
 (#28600)

Signed-off-by: Huy Do <huydhn@gmail.com>
Co-authored-by: Roger Wang <hey@rogerw.io>
---
 requirements/cuda.txt | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/requirements/cuda.txt b/requirements/cuda.txt
index 4e393d6b66152..76874cbd2f482 100644
--- a/requirements/cuda.txt
+++ b/requirements/cuda.txt
@@ -9,7 +9,6 @@ torch==2.9.0
 torchaudio==2.9.0
 # These must be updated alongside torch
 torchvision==0.24.0 # Required for phi3v processor. See https://github.com/pytorch/vision?tab=readme-ov-file#installation for corresponding version
-# Build from https://github.com/facebookresearch/xformers/releases/tag/v0.0.32.post1
-xformers==0.0.33+5d4b92a5.d20251029; platform_system == 'Linux' and platform_machine == 'x86_64'  # Requires PyTorch >= 2.9
+xformers==0.0.33; platform_system == 'Linux' and platform_machine == 'x86_64'  # Requires PyTorch >= 2.9
 # FlashInfer should be updated together with the Dockerfile
 flashinfer-python==0.5.2

From 4ab34f6ef1bbd4720a915fe2613ecb9da3090913 Mon Sep 17 00:00:00 2001
From: usberkeley <150880684+usberkeley@users.noreply.github.com>
Date: Thu, 13 Nov 2025 15:03:52 +0800
Subject: [PATCH 398/976] Add NUMA node validation for CPU thread binding
 (#28555)

Signed-off-by: Bradley <bradley.b.pitt@gmail.com>
---
 csrc/cpu/utils.cpp | 10 ++++++++++
 1 file changed, 10 insertions(+)

diff --git a/csrc/cpu/utils.cpp b/csrc/cpu/utils.cpp
index 02514edce8073..c5a48352e3089 100644
--- a/csrc/cpu/utils.cpp
+++ b/csrc/cpu/utils.cpp
@@ -45,6 +45,16 @@ std::string init_cpu_threads_env(const std::string& cpu_ids) {
   // Memory node binding
   if (numa_available() != -1) {
     int mem_node_id = numa_node_of_cpu(omp_cpu_ids.front());
+    // Verify all CPUs are on the same NUMA node
+    for (size_t i = 1; i < omp_cpu_ids.size(); ++i) {
+      int node_id = numa_node_of_cpu(omp_cpu_ids[i]);
+      TORCH_CHECK(node_id == mem_node_id, "CPU ", omp_cpu_ids[i],
+                  " is on NUMA node ", node_id, ", but CPU ",
+                  omp_cpu_ids.front(), " is on NUMA node ", mem_node_id,
+                  ". All CPUs should be on the same NUMA node for optimal "
+                  "performance. Memory will be bound to NUMA node ",
+                  mem_node_id, ".");
+    }
     bitmask* mask = numa_parse_nodestring(std::to_string(mem_node_id).c_str());
     bitmask* src_mask = numa_get_membind();
 

From fa183e92713456dec682088a362dd9908100cc03 Mon Sep 17 00:00:00 2001
From: Jiangyun Zhu <riverclouds.zhu@qq.com>
Date: Thu, 13 Nov 2025 15:59:58 +0800
Subject: [PATCH 399/976] [Bugfix] fix kimi-linear crash (#28445)

Signed-off-by: zjy0516 <riverclouds.zhu@qq.com>
---
 vllm/model_executor/layers/kda.py | 21 ++++++++++++---------
 1 file changed, 12 insertions(+), 9 deletions(-)

diff --git a/vllm/model_executor/layers/kda.py b/vllm/model_executor/layers/kda.py
index 26458f2e3c4da..2e7500bac7188 100644
--- a/vllm/model_executor/layers/kda.py
+++ b/vllm/model_executor/layers/kda.py
@@ -44,7 +44,6 @@ def kda_attention(
     k_proj_states: torch.Tensor,
     v_proj_states: torch.Tensor,
     g1: torch.Tensor,
-    g2: torch.Tensor,
     beta: torch.Tensor,
     core_attn_out: torch.Tensor,
     layer_name: str,
@@ -56,7 +55,6 @@ def kda_attention(
         k_proj_states=k_proj_states,
         v_proj_states=v_proj_states,
         g1=g1,
-        g2=g2,
         beta=beta,
         core_attn_out=core_attn_out,
     )
@@ -67,7 +65,6 @@ def kda_attention_fake(
     k_proj_states: torch.Tensor,
     v_proj_states: torch.Tensor,
     g1: torch.Tensor,
-    g2: torch.Tensor,
     beta: torch.Tensor,
     core_attn_out: torch.Tensor,
     layer_name: str,
@@ -284,7 +281,6 @@ class KimiDeltaAttention(nn.Module, MambaBase):
             k,
             v,
             g1,
-            g2,
             beta,
             core_attn_out,
             self.prefix,
@@ -299,7 +295,6 @@ class KimiDeltaAttention(nn.Module, MambaBase):
         k_proj_states: torch.Tensor,
         v_proj_states: torch.Tensor,
         g1: torch.Tensor,
-        g2: torch.Tensor,
         beta: torch.Tensor,
         core_attn_out: torch.Tensor,
     ) -> None:
@@ -316,8 +311,15 @@ class KimiDeltaAttention(nn.Module, MambaBase):
         has_initial_state = attn_metadata.has_initial_state
         non_spec_query_start_loc = attn_metadata.non_spec_query_start_loc
         non_spec_state_indices_tensor = attn_metadata.non_spec_state_indices_tensor  # noqa: E501
+        num_actual_tokens = attn_metadata.num_actual_tokens
         constant_caches = self.kv_cache[forward_context.virtual_engine]
 
+        q_proj_states = q_proj_states[:num_actual_tokens]
+        k_proj_states = k_proj_states[:num_actual_tokens]
+        v_proj_states = v_proj_states[:num_actual_tokens]
+        g1 = g1[:num_actual_tokens]
+        beta = beta[:num_actual_tokens]
+
         (conv_state_q, conv_state_k, conv_state_v, recurrent_state) = constant_caches
         # deal with strides
         conv_state_q = conv_state_q.transpose(-1, -2)
@@ -372,7 +374,7 @@ class KimiDeltaAttention(nn.Module, MambaBase):
             ).transpose(0, 1)
         else:
             decode_conv_indices = non_spec_state_indices_tensor[
-                : attn_metadata.num_decodes
+                : attn_metadata.num_actual_tokens
             ]
             q = causal_conv1d_update(
                 q_proj_states,
@@ -438,8 +440,9 @@ class KimiDeltaAttention(nn.Module, MambaBase):
                 beta=beta,
                 initial_state=recurrent_state,
                 use_qk_l2norm_in_kernel=True,
-                cu_seqlens=non_spec_query_start_loc,
+                cu_seqlens=non_spec_query_start_loc[: attn_metadata.num_decodes + 1],
                 ssm_state_indices=non_spec_state_indices_tensor,
             )
-        assert core_attn_out_non_spec.shape == core_attn_out.shape
-        core_attn_out[:] = core_attn_out_non_spec
+        core_attn_out[0, :num_actual_tokens] = core_attn_out_non_spec[
+            0, :num_actual_tokens
+        ]

From 5c9ad138d507320f6432cfc3d727980853fd5e91 Mon Sep 17 00:00:00 2001
From: Chauncey <chaunceyjiang@gmail.com>
Date: Thu, 13 Nov 2025 16:14:13 +0800
Subject: [PATCH 400/976] [Frontend] supports interleaved thinking (#28531)

Signed-off-by: chaunceyjiang <chaunceyjiang@gmail.com>
---
 docs/features/interleaved_thinking.md         | 118 ++++++++++++++++++
 ...penai_chat_completion_client_with_tools.py |   1 +
 vllm/entrypoints/chat_utils.py                |  17 ++-
 3 files changed, 135 insertions(+), 1 deletion(-)
 create mode 100644 docs/features/interleaved_thinking.md

diff --git a/docs/features/interleaved_thinking.md b/docs/features/interleaved_thinking.md
new file mode 100644
index 0000000000000..7343324b48494
--- /dev/null
+++ b/docs/features/interleaved_thinking.md
@@ -0,0 +1,118 @@
+# Interleaved Thinking
+
+## Introduction
+
+Interleaved thinking allows models to reason between tool calls, enabling more sophisticated decision-making after receiving tool results. This feature helps models chain multiple tool calls with reasoning steps in between and make nuanced decisions based on intermediate results.
+
+Important: Interleaved thinking increases token usage and response latency. Consider your budget and performance requirements when enabling this feature.
+
+## How Interleaved Thinking Works
+
+With interleaved thinking, the model can:
+
+- Reason about the results of a tool call before deciding what to do next
+- Chain multiple tool calls with reasoning steps in between
+- Make more nuanced decisions based on intermediate results
+- Provide transparent reasoning for its tool selection process
+
+## Supported Models
+
+vLLM currently supports the following interleaved thinking models:
+
+| Model Series | Reasoning Parser Name |
+|--------------|-----------------------|
+| moonshotai/Kimi-K2-Thinking    |  kimi_k2  |
+| MiniMaxAI/MiniMax-M2           |  minimax_m2  |
+
+## Example Usage
+
+To use interleaved thinking with tool calls, specify a model that supports this feature and enable tool calls in your chat completion request. Here's an example:
+
+??? code
+
+    ```python
+    """
+    vllm serve MiniMaxAI/MiniMax-M2 \
+      --tensor-parallel-size 4 \
+      --tool-call-parser minimax_m2 \
+      --reasoning-parser minimax_m2 \
+      --enable-auto-tool-choice
+    """
+    import json
+    
+    from openai import OpenAI
+    
+    client = OpenAI(base_url="http://localhost:8000/v1",     api_key="dummy")
+    
+    
+    def get_current_weather(location: str, unit: "str"):
+        """Get the current weather in a given location"""
+        if unit == "celsius":
+            return f"The current temperature in {location} is 22°C."
+        else:
+            return f"The current temperature in {location} is 72°F."
+    
+    
+    tools = [
+        {
+            "type": "function",
+            "function": {
+                "name": "get_weather",
+                "description": "Get the current weather in a given     location",
+                "parameters": {
+                    "type": "object",
+                    "properties": {
+                        "location": {
+                            "type": "string",
+                            "description": "City and state, e.g.,     'San Francisco, CA'",
+                        },
+                        "unit": {"type": "string", "enum":     ["celsius", "fahrenheit"]},
+                    },
+                    "required": ["location", "unit"],
+                },
+            },
+        }
+    ]
+    messages = [{"role": "user", "content": "What's the weather in Fahrenheit like in San Francisco?"}]
+    response = client.chat.completions.create(
+        model=client.models.list().data[0].id,
+        messages=messages,
+        tools=tools,
+        tool_choice="auto",
+    )
+    
+    tool_call = response.choices[0].message.tool_calls[0].function
+    
+    messages.append(
+        {
+            "role": "assistant",
+            "tool_calls": response.choices[0].message.tool_calls,
+            "reasoning": response.choices[0].message.reasoning, # append reasoning
+        }
+    )
+    
+    # Simulate tool execution
+    available_tools = {"get_weather": get_current_weather}
+    
+    completion_tool_calls = response.choices[0].message.tool_calls
+    for call in completion_tool_calls:
+        tool_to_call = available_tools[call.function.name]
+        args = json.loads(call.function.arguments)
+        result = tool_to_call(**args)
+        messages.append(
+            {
+                "role": "tool",
+                "content": result,
+                "tool_call_id": call.id,
+                "name": call.function.name,
+            }
+        )
+    response_2 = client.chat.completions.create(
+        model=client.models.list().data[0].id,
+        messages=messages,
+        tools=tools,
+        tool_choice="auto",
+    )
+    print(response_2.choices[0].message.content)
+    ```
+This example demonstrates how to set up interleaved thinking with tool calls using a weather retrieval function. The model reasons about the tool results before generating the final response.
diff --git a/examples/online_serving/openai_chat_completion_client_with_tools.py b/examples/online_serving/openai_chat_completion_client_with_tools.py
index 41dbb3236297c..0bd1d05322f81 100644
--- a/examples/online_serving/openai_chat_completion_client_with_tools.py
+++ b/examples/online_serving/openai_chat_completion_client_with_tools.py
@@ -161,6 +161,7 @@ def main():
         {
             "role": "assistant",
             "tool_calls": chat_completion.choices[0].message.tool_calls,
+            "reasoning": chat_completion.choices[0].message.reasoning,
         }
     )
 
diff --git a/vllm/entrypoints/chat_utils.py b/vllm/entrypoints/chat_utils.py
index d7d6419d643b0..3b722c2d92770 100644
--- a/vllm/entrypoints/chat_utils.py
+++ b/vllm/entrypoints/chat_utils.py
@@ -240,6 +240,9 @@ class CustomChatCompletionMessageParam(TypedDict, total=False):
     tool_calls: Iterable[ChatCompletionMessageToolCallParam] | None
     """The tool calls generated by the model, such as function calls."""
 
+    reasoning: str | None
+    """The reasoning content for interleaved thinking."""
+
 
 ChatCompletionMessageParam: TypeAlias = (
     OpenAIChatCompletionMessageParam
@@ -265,6 +268,12 @@ class ConversationMessage(TypedDict, total=False):
     tool_calls: Iterable[ChatCompletionMessageToolCallParam] | None
     """The tool calls generated by the model, such as function calls."""
 
+    reasoning: str | None
+    """The reasoning content for interleaved thinking."""
+
+    reasoning_content: str | None
+    """Deprecated: The reasoning content for interleaved thinking."""
+
 
 # Passed in by user
 ChatTemplateContentFormatOption = Literal["auto", "string", "openai"]
@@ -1374,7 +1383,7 @@ def _parse_chat_message_content(
 ) -> list[ConversationMessage]:
     role = message["role"]
     content = message.get("content")
-
+    reasoning = message.get("reasoning") or message.get("reasoning_content")
     if content is None:
         content = []
     elif isinstance(content, str):
@@ -1396,6 +1405,12 @@ def _parse_chat_message_content(
             # follow the OpenAI spec.
             if "tool_calls" in parsed_msg and parsed_msg["tool_calls"] is not None:
                 result_msg["tool_calls"] = list(parsed_msg["tool_calls"])
+            # Include reasoning if present for interleaved thinking.
+            if reasoning is not None:
+                result_msg["reasoning"] = cast(str, reasoning)
+                result_msg["reasoning_content"] = cast(
+                    str, reasoning
+                )  # keep compatibility
         elif role == "tool":
             parsed_msg = _ToolParser(message)
             if "tool_call_id" in parsed_msg:

From 11ac9ddd037c63a8c9404cd1f62f9f81a5f38652 Mon Sep 17 00:00:00 2001
From: Yong Hoon Shin <48474650+sarckk@users.noreply.github.com>
Date: Wed, 12 Nov 2025 22:57:20 -1000
Subject: [PATCH 401/976] Support all interleaved layer types (#28485)

Signed-off-by: Yong Hoon Shin <yhshin@meta.com>
---
 vllm/transformers_utils/config.py | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/vllm/transformers_utils/config.py b/vllm/transformers_utils/config.py
index 14cae2b168e19..b7418cfb7cc75 100644
--- a/vllm/transformers_utils/config.py
+++ b/vllm/transformers_utils/config.py
@@ -472,8 +472,7 @@ def is_interleaved(config: PretrainedConfig) -> bool:
     """
     text_config = config.get_text_config()
     if layer_types := getattr(text_config, "layer_types", None):
-        interleaved_types = {"full_attention", "sliding_attention"}
-        return interleaved_types.issubset(layer_types)
+        return len(set(layer_types)) > 1
     return False
 
 
From e63fd445605b442a81a4eb2f402206cc337ab8dd Mon Sep 17 00:00:00 2001
From: Di Wu <95495325+dw2761@users.noreply.github.com>
Date: Thu, 13 Nov 2025 18:57:44 +0800
Subject: [PATCH 402/976] Fix: Correctly filter special tokens in
 benchmark_prefix_caching (#28615)

Signed-off-by: Di Wu <dw2761@nyu.edu>
---
 benchmarks/benchmark_prefix_caching.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/benchmarks/benchmark_prefix_caching.py b/benchmarks/benchmark_prefix_caching.py
index 146c268a6b7f2..28fc383a318dd 100644
--- a/benchmarks/benchmark_prefix_caching.py
+++ b/benchmarks/benchmark_prefix_caching.py
@@ -69,7 +69,7 @@ def sample_tokens(tokenizer: PreTrainedTokenizerBase, length: int) -> list[int]:
 
     # Remove the special tokens.
     return random.choices(
-        [v for k, v in vocab.items() if k not in all_special_ids],
+        [v for v in vocab.values() if v not in all_special_ids],
         k=length,
     )
 

From 5e973209aaf5fa15459555eaa42bcd20ea63aa0d Mon Sep 17 00:00:00 2001
From: Zijing Liu <liuzijing2014@users.noreply.github.com>
Date: Thu, 13 Nov 2025 03:30:04 -0800
Subject: [PATCH 403/976] [BugFix] Fix type error when assign a trition kernel
 tensor to a torch.nn.Parameter (#28603)

Signed-off-by: Zijing Liu <liuzijing2014@gmail.com>
---
 vllm/model_executor/layers/quantization/mxfp4.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/vllm/model_executor/layers/quantization/mxfp4.py b/vllm/model_executor/layers/quantization/mxfp4.py
index 0f69a18a1f3fd..5552c1ae5edf8 100644
--- a/vllm/model_executor/layers/quantization/mxfp4.py
+++ b/vllm/model_executor/layers/quantization/mxfp4.py
@@ -755,8 +755,8 @@ class Mxfp4MoEMethod(FusedMoEMethodBase):
 
             self.w13_weight = w13_weight
             self.w2_weight = w2_weight
-            layer.w13_weight = w13_weight
-            layer.w2_weight = w2_weight
+            layer.w13_weight = Parameter(w13_weight.data, requires_grad=False)
+            layer.w2_weight = Parameter(w2_weight.data, requires_grad=False)
         else:
             raise ValueError(f"Unsupported backend: {self.mxfp4_backend}")
 

From c428e8d80b2bc17b0a306d1e80c8e4567b9dd9f4 Mon Sep 17 00:00:00 2001
From: baonudesifeizhai <85092850+baonudesifeizhai@users.noreply.github.com>
Date: Thu, 13 Nov 2025 06:34:14 -0500
Subject: [PATCH 404/976] Fix io processor pooling  #28273 (#28484)

Signed-off-by: baonudesifeizhai <baonudesifeizhai@gmail.com>
---
 vllm/entrypoints/openai/serving_pooling.py | 6 +++++-
 1 file changed, 5 insertions(+), 1 deletion(-)

diff --git a/vllm/entrypoints/openai/serving_pooling.py b/vllm/entrypoints/openai/serving_pooling.py
index 0eade272111f1..ee4c5c8bacaae 100644
--- a/vllm/entrypoints/openai/serving_pooling.py
+++ b/vllm/entrypoints/openai/serving_pooling.py
@@ -4,7 +4,7 @@
 import asyncio
 import json
 import time
-from collections.abc import AsyncGenerator
+from collections.abc import AsyncGenerator, Sequence
 from typing import Final, cast
 
 import jinja2
@@ -122,6 +122,10 @@ class OpenAIServingPooling(OpenAIServing):
                 engine_prompts = await self.io_processor.pre_process_async(
                     prompt=validated_prompt, request_id=request_id
                 )
+                if not isinstance(engine_prompts, Sequence) or isinstance(
+                    engine_prompts, (str, bytes, bytearray)
+                ):
+                    engine_prompts = [engine_prompts]
 
             elif isinstance(request, PoolingChatRequest):
                 error_check_ret = self._validate_chat_template(

From c47b6c85ac25ecb0a26dfff76c70a0b1a9a4a6bf Mon Sep 17 00:00:00 2001
From: zofia <110436990+zufangzhu@users.noreply.github.com>
Date: Thu, 13 Nov 2025 19:35:04 +0800
Subject: [PATCH 405/976] [XPU] add sym params to IPEXConfig (#28611)

Signed-off-by: Zhu, Zufang <zufang.zhu@intel.com>
---
 .../layers/quantization/ipex_quant.py         | 20 +++++++++++++++++--
 1 file changed, 18 insertions(+), 2 deletions(-)

diff --git a/vllm/model_executor/layers/quantization/ipex_quant.py b/vllm/model_executor/layers/quantization/ipex_quant.py
index e0234191c62bf..5ca9167faec80 100644
--- a/vllm/model_executor/layers/quantization/ipex_quant.py
+++ b/vllm/model_executor/layers/quantization/ipex_quant.py
@@ -52,6 +52,7 @@ class IPEXConfig(QuantizationConfig):
         modules_to_not_convert: list[str] | None = None,
         desc_act: bool | None = None,
         lm_head_quantized: bool | None = None,
+        is_sym: bool | None = None,
     ) -> None:
         super().__init__()
         self.method = method
@@ -60,6 +61,7 @@ class IPEXConfig(QuantizationConfig):
         self.modules_to_not_convert = modules_to_not_convert or []
         self.desc_act = desc_act
         self.lm_head_quantized = lm_head_quantized
+        self.is_sym = is_sym
         self.pack_factor = 32 // self.weight_bits
 
         if self.weight_bits not in [4]:
@@ -108,15 +110,25 @@ class IPEXConfig(QuantizationConfig):
             modules_to_not_convert = cls.get_from_keys_or(
                 config, ["modules_to_not_convert"], None
             )
+            is_sym = not cls.get_from_keys_or(config, ["zero_point"], default=False)
             return cls(
-                method, weight_bits, group_size, modules_to_not_convert, False, False
+                method,
+                weight_bits,
+                group_size,
+                modules_to_not_convert,
+                False,
+                False,
+                is_sym,
             )
         # otherwise for gptq
         weight_bits = cls.get_from_keys(config, ["bits"])
         group_size = cls.get_from_keys(config, ["group_size"])
         lm_head_quantized = cls.get_from_keys_or(config, ["lm_head"], default=False)
         desc_act = cls.get_from_keys_or(config, ["desc_act"], default=False)
-        return cls(method, weight_bits, group_size, [], desc_act, lm_head_quantized)
+        is_sym = cls.get_from_keys_or(config, ["sym"], default=True)
+        return cls(
+            method, weight_bits, group_size, [], desc_act, lm_head_quantized, is_sym
+        )
 
     @classmethod
     def override_quantization_method(
@@ -180,6 +192,7 @@ class IPEXGPTQLinearMethod(GPTQLinearMethod):
         # The float activation will be quantized (dynamic, per-token) to INT8.
         act_quant_mode = ipex.quantization.WoqActQuantMode.PER_BATCH_IC_BLOCK
 
+        assert isinstance(self.quant_config, IPEXConfig)
         qconfig = ipex.quantization.get_weight_only_quant_qconfig_mapping(
             weight_dtype=weight_dtype,
             lowp_mode=lowp_mode,
@@ -200,6 +213,7 @@ class IPEXGPTQLinearMethod(GPTQLinearMethod):
                 bias=bias,
                 group_size=self.quant_config.group_size,
                 quant_method=IPEXConfig.IPEX_QUANT_METHOD_MAP["gptq"],
+                weight_qscheme="sym" if self.quant_config.is_sym else "asym",
             )
         )
 
@@ -250,6 +264,7 @@ class IPEXAWQLinearMethod(AWQLinearMethod):
         # The float activation will be quantized (dynamic, per-token) to INT8.
         act_quant_mode = ipex.quantization.WoqActQuantMode.PER_BATCH
 
+        assert isinstance(self.quant_config, IPEXConfig)
         qconfig = ipex.quantization.get_weight_only_quant_qconfig_mapping(
             weight_dtype=weight_dtype,
             lowp_mode=lowp_mode,
@@ -269,6 +284,7 @@ class IPEXAWQLinearMethod(AWQLinearMethod):
                 bias=bias,
                 group_size=self.quant_config.group_size,
                 quant_method=IPEXConfig.IPEX_QUANT_METHOD_MAP["awq"],  # type: ignore
+                weight_qscheme="sym" if self.quant_config.is_sym else "asym",
             )
         )
 

From c9fe6abe7c0b03d552420edd63c6c678ed683dea Mon Sep 17 00:00:00 2001
From: Fanli Lin <fanli.lin@intel.com>
Date: Thu, 13 Nov 2025 21:06:06 +0800
Subject: [PATCH 406/976] [Bugfix] Fix FPS value type for Qwen2.5-Omni video
 processing (#28630)

Signed-off-by: Lin, Fanli <fanli.lin@intel.com>
---
 examples/offline_inference/vision_language.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/examples/offline_inference/vision_language.py b/examples/offline_inference/vision_language.py
index 371cf6309a678..624de2a2debc3 100644
--- a/examples/offline_inference/vision_language.py
+++ b/examples/offline_inference/vision_language.py
@@ -1536,7 +1536,7 @@ def run_qwen2_5_omni(questions: list[str], modality: str):
         mm_processor_kwargs={
             "min_pixels": 28 * 28,
             "max_pixels": 1280 * 28 * 28,
-            "fps": [1],
+            "fps": 1,
         },
         limit_mm_per_prompt={modality: 1},
     )

From 86d15bfd8d681a2ca2f3b2e550149a5ba3282ef1 Mon Sep 17 00:00:00 2001
From: Akash kaothalkar <61960177+Akashcodes732@users.noreply.github.com>
Date: Thu, 13 Nov 2025 19:02:21 +0530
Subject: [PATCH 407/976] [Hardware][PowerPC] Fix fp16 compilation error for
 Power in cpu attention backend and bump oneDNN version (#28535)

Signed-off-by: Akash Kaothalkar <akash.kaothalkar@ibm.com>
Co-authored-by: Akash Kaothalkar <akash.kaothalkar@ibm.com>
---
 cmake/cpu_extension.cmake  | 4 ++--
 csrc/cpu/cpu_attn_impl.hpp | 2 ++
 2 files changed, 4 insertions(+), 2 deletions(-)

diff --git a/cmake/cpu_extension.cmake b/cmake/cpu_extension.cmake
index bb0179c79c108..aa84125818d10 100644
--- a/cmake/cpu_extension.cmake
+++ b/cmake/cpu_extension.cmake
@@ -242,7 +242,7 @@ if ((AVX512_FOUND AND NOT AVX512_DISABLED) OR (ASIMD_FOUND AND NOT APPLE_SILICON
                 SUBBUILD_DIR "${FETCHCONTENT_BASE_DIR}/arm_compute-subbuild"
                 SOURCE_DIR   "${FETCHCONTENT_BASE_DIR}/arm_compute-src"
                 GIT_REPOSITORY https://github.com/ARM-software/ComputeLibrary.git
-                GIT_TAG        v52.2.0
+                GIT_TAG        v52.6.0
                 GIT_SHALLOW    TRUE
                 GIT_PROGRESS   TRUE
             )
@@ -310,7 +310,7 @@ if ((AVX512_FOUND AND NOT AVX512_DISABLED) OR (ASIMD_FOUND AND NOT APPLE_SILICON
         FetchContent_Declare(
             oneDNN
             GIT_REPOSITORY https://github.com/oneapi-src/oneDNN.git
-            GIT_TAG v3.9
+            GIT_TAG v3.10
             GIT_PROGRESS TRUE
             GIT_SHALLOW TRUE
         )
diff --git a/csrc/cpu/cpu_attn_impl.hpp b/csrc/cpu/cpu_attn_impl.hpp
index 8f4c780998020..c317453530af1 100644
--- a/csrc/cpu/cpu_attn_impl.hpp
+++ b/csrc/cpu/cpu_attn_impl.hpp
@@ -821,10 +821,12 @@ struct VecTypeTrait<c10::BFloat16> {
   using vec_t = vec_op::BF16Vec16;
 };
 
+#if !defined(__powerpc__)
 template <>
 struct VecTypeTrait<c10::Half> {
   using vec_t = vec_op::FP16Vec16;
 };
+#endif
 
 template <typename T>
 void print_logits(const char* name, T* ptr, int32_t row, int32_t col,

From 8da2f28f53c14e2c21c50821d89e3909d9c84af6 Mon Sep 17 00:00:00 2001
From: Pleaplusone <ygan@amd.com>
Date: Thu, 13 Nov 2025 22:18:20 +0800
Subject: [PATCH 408/976] [ROCm][BugFix]Fix `get_cu_count` in rocm_aiter_fa.py
 (#28618)

Signed-off-by: ganyi <ygan@amd.com>
---
 vllm/v1/attention/backends/rocm_aiter_fa.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/vllm/v1/attention/backends/rocm_aiter_fa.py b/vllm/v1/attention/backends/rocm_aiter_fa.py
index c7f925817a6a8..ad454daa582eb 100644
--- a/vllm/v1/attention/backends/rocm_aiter_fa.py
+++ b/vllm/v1/attention/backends/rocm_aiter_fa.py
@@ -18,6 +18,7 @@ from vllm.config import VllmConfig
 from vllm.logger import init_logger
 from vllm.platforms import current_platform
 from vllm.utils.math_utils import cdiv
+from vllm.utils.platform_utils import get_cu_count
 from vllm.v1.attention.backends.utils import (
     AttentionCGSupport,
     AttentionMetadataBuilder,
@@ -38,7 +39,7 @@ if current_platform.is_rocm():
         return min(65536 // x.element_size(), triton.next_power_of_2(head_dim))
 
     def num_programs(total_tokens):
-        return min(total_tokens, current_platform.get_cu_count())
+        return min(total_tokens, get_cu_count())
 
     @triton.jit
     def cp_mha_gather_cache_kernel(

From a7791eac9d29a4a26b007db42130a9e28b3e77ee Mon Sep 17 00:00:00 2001
From: amdfaa <107946068+amdfaa@users.noreply.github.com>
Date: Thu, 13 Nov 2025 09:34:55 -0500
Subject: [PATCH 409/976] [CI/Build] Install uv for AMD MI300: Language Models
 Tests (Hybrid) %N (#28142)

Signed-off-by: amdfaa <107946068+amdfaa@users.noreply.github.com>
Signed-off-by: zhewenli <zhewenli@meta.com>
Co-authored-by: zhewenli <zhewenli@meta.com>
---
 docker/Dockerfile.rocm | 35 +++++++++++++++++++++++++++--------
 1 file changed, 27 insertions(+), 8 deletions(-)

diff --git a/docker/Dockerfile.rocm b/docker/Dockerfile.rocm
index 06d229f315bdc..137452cad2c15 100644
--- a/docker/Dockerfile.rocm
+++ b/docker/Dockerfile.rocm
@@ -15,6 +15,20 @@ RUN apt-get update -q -y && apt-get install -q -y \
 # Remove sccache
 RUN python3 -m pip install --upgrade pip
 RUN apt-get purge -y sccache; python3 -m pip uninstall -y sccache; rm -f "$(which sccache)"
+
+# Install UV
+RUN curl -LsSf https://astral.sh/uv/install.sh | sh
+
+# Activate virtual environment and add uv to PATH
+ENV PATH="/root/.local/bin:$PATH"
+
+# This timeout (in seconds) is necessary when installing some dependencies via uv since it's likely to time out
+# Reference: https://github.com/astral-sh/uv/pull/1694
+ENV UV_HTTP_TIMEOUT=500
+ENV UV_INDEX_STRATEGY="unsafe-best-match"
+# Use copy mode to avoid hardlink failures with Docker cache mounts
+ENV UV_LINK_MODE=copy
+
 ARG COMMON_WORKDIR
 WORKDIR ${COMMON_WORKDIR}
 
@@ -59,13 +73,15 @@ FROM base AS test
 
 RUN python3 -m pip install --upgrade pip && rm -rf /var/lib/apt/lists/*
 
-# Install vLLM
+# Install vLLM using uv (inherited from base stage)
+# Note: No -U flag to avoid upgrading PyTorch ROCm to CUDA version
 RUN --mount=type=bind,from=export_vllm,src=/,target=/install \
+    --mount=type=cache,target=/root/.cache/uv \
     cd /install \
-    && pip install -U -r requirements/rocm.txt \
-    && pip install -U -r requirements/rocm-test.txt \
+    && uv pip install --system -r requirements/rocm.txt \
+    && uv pip install --system -r requirements/rocm-test.txt \
     && pip uninstall -y vllm \
-    && pip install *.whl
+    && uv pip install --system *.whl
 
 WORKDIR /vllm-workspace
 ARG COMMON_WORKDIR
@@ -89,14 +105,17 @@ RUN case "$(which python3)" in \
             rm -rf /opt/conda/envs/py_3.9/lib/python3.9/site-packages/numpy-1.20.3.dist-info/;; \
         *) ;; esac
 
-RUN python3 -m pip install --upgrade huggingface-hub[cli]
+RUN --mount=type=cache,target=/root/.cache/uv \
+    uv pip install --system --upgrade huggingface-hub[cli]
 
-# Install vLLM
+# Install vLLM using uv (inherited from base stage)
+# Note: No -U flag to avoid upgrading PyTorch ROCm to CUDA version
 RUN --mount=type=bind,from=export_vllm,src=/,target=/install \
+    --mount=type=cache,target=/root/.cache/uv \
     cd /install \
-    && pip install -U -r requirements/rocm.txt \
+    && uv pip install --system -r requirements/rocm.txt \
     && pip uninstall -y vllm \
-    && pip install *.whl
+    && uv pip install --system *.whl
 
 ARG COMMON_WORKDIR
 

From 07a606aa7eb30923a3cc631185d93de9e51b37cb Mon Sep 17 00:00:00 2001
From: Huamin Li <3ericli@gmail.com>
Date: Thu, 13 Nov 2025 07:11:27 -0800
Subject: [PATCH 410/976] [CI Failure] Fix backend selection for encoder-only
 models (#28534)

Signed-off-by: Huamin Li <3ericli@gmail.com>
---
 vllm/attention/backends/abstract.py               | 14 ++++++++++++++
 vllm/attention/layer.py                           |  1 +
 vllm/attention/layers/encoder_only_attention.py   |  6 +++++-
 vllm/attention/selector.py                        |  5 +++++
 vllm/platforms/cpu.py                             |  1 +
 vllm/platforms/cuda.py                            | 10 ++++++++++
 vllm/platforms/interface.py                       |  1 +
 vllm/platforms/rocm.py                            |  1 +
 vllm/platforms/tpu.py                             |  1 +
 vllm/platforms/xpu.py                             |  1 +
 vllm/v1/attention/backends/cpu_attn.py            | 11 +++++++++++
 vllm/v1/attention/backends/flash_attn.py          | 12 ++++++++++++
 vllm/v1/attention/backends/flex_attention.py      |  7 +++++++
 vllm/v1/attention/backends/mla/flashmla_sparse.py | 10 +++++-----
 14 files changed, 75 insertions(+), 6 deletions(-)

diff --git a/vllm/attention/backends/abstract.py b/vllm/attention/backends/abstract.py
index 697beed918693..9275d70fd86a4 100644
--- a/vllm/attention/backends/abstract.py
+++ b/vllm/attention/backends/abstract.py
@@ -142,6 +142,17 @@ class AttentionBackend(ABC):
     def is_sparse(cls) -> bool:
         return False
 
+    @classmethod
+    def supports_attn_type(cls, attn_type: str) -> bool:
+        """Check if backend supports a given attention type.
+
+        By default, only supports decoder attention.
+        Backends should override this to support other attention types.
+        """
+        from vllm.attention import AttentionType
+
+        return attn_type == AttentionType.DECODER
+
     @classmethod
     def supports_compute_capability(cls, capability: "DeviceCapability") -> bool:
         return True
@@ -171,6 +182,7 @@ class AttentionBackend(ABC):
         has_sink: bool,
         use_sparse: bool,
         device_capability: "DeviceCapability",
+        attn_type: str,
     ) -> list[str]:
         invalid_reasons = []
         if not cls.supports_head_size(head_size):
@@ -195,6 +207,8 @@ class AttentionBackend(ABC):
                 invalid_reasons.append("non-sparse not supported")
         if not cls.supports_compute_capability(device_capability):
             invalid_reasons.append("compute capability not supported")
+        if not cls.supports_attn_type(attn_type):
+            invalid_reasons.append(f"attention type {attn_type} not supported")
         combination_reason = cls.supports_combination(
             head_size,
             dtype,
diff --git a/vllm/attention/layer.py b/vllm/attention/layer.py
index 487bba76babf1..37f9a4b383ce9 100644
--- a/vllm/attention/layer.py
+++ b/vllm/attention/layer.py
@@ -291,6 +291,7 @@ class Attention(nn.Module, AttentionLayerBase):
                 block_size,
                 use_mla=False,
                 has_sink=self.has_sink,
+                attn_type=attn_type,
             )
         else:
             self.attn_backend = attn_backend
diff --git a/vllm/attention/layers/encoder_only_attention.py b/vllm/attention/layers/encoder_only_attention.py
index 4929bbf5efc73..5e99c99010034 100644
--- a/vllm/attention/layers/encoder_only_attention.py
+++ b/vllm/attention/layers/encoder_only_attention.py
@@ -74,7 +74,11 @@ class EncoderOnlyAttention(Attention):
             block_size = 16
 
         underlying_attn_backend = get_attn_backend(
-            head_size, dtype, kv_cache_dtype, block_size
+            head_size,
+            dtype,
+            kv_cache_dtype,
+            block_size,
+            attn_type=AttentionType.ENCODER_ONLY,
         )
 
         attn_backend = create_encoder_only_attention_backend(underlying_attn_backend)
diff --git a/vllm/attention/selector.py b/vllm/attention/selector.py
index 262cdf0e575b0..1a092db9ce378 100644
--- a/vllm/attention/selector.py
+++ b/vllm/attention/selector.py
@@ -76,6 +76,7 @@ def get_attn_backend(
     use_mla: bool = False,
     has_sink: bool = False,
     use_sparse: bool = False,
+    attn_type: str | None = None,
 ) -> type[AttentionBackend]:
     """Selects which attention backend to use and lazily imports it."""
 
@@ -94,6 +95,7 @@ def get_attn_backend(
         use_mla=use_mla,
         has_sink=has_sink,
         use_sparse=use_sparse,
+        attn_type=attn_type,
     )
 
 
@@ -106,6 +108,7 @@ def _cached_get_attn_backend(
     use_mla: bool = False,
     has_sink: bool = False,
     use_sparse: bool = False,
+    attn_type: str | None = None,
 ) -> type[AttentionBackend]:
     # Check whether a particular choice of backend was
     # previously forced.
@@ -159,6 +162,7 @@ def _cached_get_attn_backend(
             use_mla,
             has_sink,
             use_sparse,
+            attn_type,
         )
     else:
         attention_cls = current_platform.get_attn_backend_cls(
@@ -170,6 +174,7 @@ def _cached_get_attn_backend(
             use_mla,
             has_sink,
             use_sparse,
+            attn_type,
         )
     if not attention_cls:
         raise ValueError(
diff --git a/vllm/platforms/cpu.py b/vllm/platforms/cpu.py
index 8b3b8d4cb44fc..cf954768689f3 100644
--- a/vllm/platforms/cpu.py
+++ b/vllm/platforms/cpu.py
@@ -134,6 +134,7 @@ class CpuPlatform(Platform):
         use_mla: bool,
         has_sink: bool,
         use_sparse: bool,
+        attn_type: str | None = None,
     ) -> str:
         from vllm.attention.backends.registry import AttentionBackendEnum
 
diff --git a/vllm/platforms/cuda.py b/vllm/platforms/cuda.py
index ebcc290a64cd7..2e4dd8bb808b4 100644
--- a/vllm/platforms/cuda.py
+++ b/vllm/platforms/cuda.py
@@ -298,6 +298,7 @@ class CudaPlatformBase(Platform):
         has_sink,
         use_sparse,
         device_capability,
+        attn_type,
     ) -> tuple[
         list[tuple["AttentionBackendEnum", int]],
         dict["AttentionBackendEnum", list[str]],
@@ -318,6 +319,7 @@ class CudaPlatformBase(Platform):
                     has_sink,
                     use_sparse,
                     device_capability,
+                    attn_type,
                 )
             except ImportError:
                 invalid_reasons_i = ["ImportError"]
@@ -339,7 +341,13 @@ class CudaPlatformBase(Platform):
         use_mla: bool,
         has_sink: bool,
         use_sparse: bool,
+        attn_type: str | None = None,
     ) -> str:
+        from vllm.attention import AttentionType
+
+        if attn_type is None:
+            attn_type = AttentionType.DECODER
+
         device_capability = cls.get_device_capability()
         assert device_capability is not None
 
@@ -356,6 +364,7 @@ class CudaPlatformBase(Platform):
                     has_sink,
                     use_sparse,
                     device_capability,
+                    attn_type,
                 )
             except ImportError:
                 invalid_reasons = ["ImportError"]
@@ -379,6 +388,7 @@ class CudaPlatformBase(Platform):
             has_sink,
             use_sparse,
             device_capability,
+            attn_type,
         )
         reasons_str = (
             "{"
diff --git a/vllm/platforms/interface.py b/vllm/platforms/interface.py
index 12c377384270e..0471c20429b1d 100644
--- a/vllm/platforms/interface.py
+++ b/vllm/platforms/interface.py
@@ -222,6 +222,7 @@ class Platform:
         use_mla: bool,
         has_sink: bool,
         use_sparse: bool,
+        attn_type: str | None = None,
     ) -> str:
         """Get the attention backend class of a device."""
         return ""
diff --git a/vllm/platforms/rocm.py b/vllm/platforms/rocm.py
index d20dc9e6b0674..788f9d69c357a 100644
--- a/vllm/platforms/rocm.py
+++ b/vllm/platforms/rocm.py
@@ -216,6 +216,7 @@ class RocmPlatform(Platform):
         use_mla,
         has_sink,
         use_sparse,
+        attn_type: str | None = None,
     ) -> str:
         from vllm._aiter_ops import rocm_aiter_ops
         from vllm.attention.backends.registry import AttentionBackendEnum
diff --git a/vllm/platforms/tpu.py b/vllm/platforms/tpu.py
index 4773fef6829d1..b997bb9e6999b 100644
--- a/vllm/platforms/tpu.py
+++ b/vllm/platforms/tpu.py
@@ -61,6 +61,7 @@ class TpuPlatform(Platform):
         use_mla: bool,
         has_sink,
         use_sparse,
+        attn_type: str | None = None,
     ) -> str:
         from vllm.attention.backends.registry import AttentionBackendEnum
 
diff --git a/vllm/platforms/xpu.py b/vllm/platforms/xpu.py
index c629325f76a32..5552e4ca4b2f9 100644
--- a/vllm/platforms/xpu.py
+++ b/vllm/platforms/xpu.py
@@ -51,6 +51,7 @@ class XPUPlatform(Platform):
         use_mla: bool,
         has_sink: bool,
         use_sparse,
+        attn_type: str | None = None,
     ) -> str:
         from vllm.v1.attention.backends.utils import set_kv_cache_layout
 
diff --git a/vllm/v1/attention/backends/cpu_attn.py b/vllm/v1/attention/backends/cpu_attn.py
index 674398e19c4ce..f1254352c0585 100644
--- a/vllm/v1/attention/backends/cpu_attn.py
+++ b/vllm/v1/attention/backends/cpu_attn.py
@@ -48,6 +48,17 @@ class CPUAttentionBackend(AttentionBackend):
     def get_name() -> str:
         return "CPU_ATTN"
 
+    @classmethod
+    def supports_attn_type(cls, attn_type: str) -> bool:
+        """CPU attention supports decoder and encoder-only attention."""
+        from vllm.attention import AttentionType
+
+        return attn_type in (
+            AttentionType.DECODER,
+            AttentionType.ENCODER,
+            AttentionType.ENCODER_ONLY,
+        )
+
     @staticmethod
     def get_impl_cls() -> type["CPUAttentionBackendImpl"]:
         return CPUAttentionBackendImpl
diff --git a/vllm/v1/attention/backends/flash_attn.py b/vllm/v1/attention/backends/flash_attn.py
index d9bd52d8f9800..bfb4a45c2b566 100755
--- a/vllm/v1/attention/backends/flash_attn.py
+++ b/vllm/v1/attention/backends/flash_attn.py
@@ -66,6 +66,18 @@ class FlashAttentionBackend(AttentionBackend):
     def get_name() -> str:
         return "FLASH_ATTN"
 
+    @classmethod
+    def supports_attn_type(cls, attn_type: str) -> bool:
+        """FlashAttention supports all attention types."""
+        from vllm.attention import AttentionType
+
+        return attn_type in (
+            AttentionType.DECODER,
+            AttentionType.ENCODER,
+            AttentionType.ENCODER_ONLY,
+            AttentionType.ENCODER_DECODER,
+        )
+
     @staticmethod
     def get_impl_cls() -> type["FlashAttentionImpl"]:
         return FlashAttentionImpl
diff --git a/vllm/v1/attention/backends/flex_attention.py b/vllm/v1/attention/backends/flex_attention.py
index e53cd0d8af4f2..7768827d26dc3 100644
--- a/vllm/v1/attention/backends/flex_attention.py
+++ b/vllm/v1/attention/backends/flex_attention.py
@@ -84,6 +84,13 @@ class FlexAttentionBackend(AttentionBackend):
     def get_name() -> str:
         return "FLEX_ATTENTION"
 
+    @classmethod
+    def supports_attn_type(cls, attn_type: str) -> bool:
+        """FlexAttention supports both decoder and encoder-only attention."""
+        from vllm.attention import AttentionType
+
+        return attn_type in (AttentionType.DECODER, AttentionType.ENCODER_ONLY)
+
     @staticmethod
     def get_impl_cls() -> type["FlexAttentionImpl"]:
         return FlexAttentionImpl
diff --git a/vllm/v1/attention/backends/mla/flashmla_sparse.py b/vllm/v1/attention/backends/mla/flashmla_sparse.py
index 5fe9c69d35007..bb8d914d15719 100644
--- a/vllm/v1/attention/backends/mla/flashmla_sparse.py
+++ b/vllm/v1/attention/backends/mla/flashmla_sparse.py
@@ -40,14 +40,14 @@ logger = init_logger(__name__)
 """
 NOTE: FlashMLA Sparse uses an fp8 cache with the following format
 
-In the "FP8 with scale" format, each token's KV cache is 656 Bytes, 
+In the "FP8 with scale" format, each token's KV cache is 656 Bytes,
 structured as:
--   **First 512 bytes:** The "quantized NoPE" part, containing 512 
+-   **First 512 bytes:** The "quantized NoPE" part, containing 512
     `float8_e4m3` values.
--   **Next 16 bytes:** Scale factors, containing 4 `float32` values. 
-    The first `float32` is the scale for the first 128 `float8_e4m3` values, 
+-   **Next 16 bytes:** Scale factors, containing 4 `float32` values.
+    The first `float32` is the scale for the first 128 `float8_e4m3` values,
     the second for the next 128, and so on.
--   **Last 128 bytes:** The "RoPE" part, containing 64 `bfloat16` values. This 
+-   **Last 128 bytes:** The "RoPE" part, containing 64 `bfloat16` values. This
     part is not quantized for accuracy.
 """
 

From 3035d1a166821272d4e7eb204e2c613bb02bacd7 Mon Sep 17 00:00:00 2001
From: Yuanping Song <yuanping.song@outlook.com>
Date: Thu, 13 Nov 2025 10:24:35 -0500
Subject: [PATCH 411/976] [BugFix] DeepSeek-OCR: apply
 NoRepeatNGramLogitsProcessor to greedy path (#28617)

Signed-off-by: Yuanping Song <yuanping.song@outlook.com>
---
 vllm/model_executor/models/deepseek_ocr.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/model_executor/models/deepseek_ocr.py b/vllm/model_executor/models/deepseek_ocr.py
index c89caab93a1ee..8179f916ff417 100644
--- a/vllm/model_executor/models/deepseek_ocr.py
+++ b/vllm/model_executor/models/deepseek_ocr.py
@@ -161,7 +161,7 @@ class NGramPerReqLogitsProcessor(AdapterLogitsProcessor):
             )
 
     def is_argmax_invariant(self) -> bool:
-        return True
+        return False
 
     def new_req_logits_processor(
         self,

From b230286fbc0b6d192e176ead55000471fd4f1080 Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Thu, 13 Nov 2025 16:02:42 +0000
Subject: [PATCH 412/976] Fix `get_num_experts` when config sets it explicitly
 to `None` (#28652)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Co-authored-by: bruceszchen <bruceszchen@tencent.com>
---
 vllm/config/model.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/vllm/config/model.py b/vllm/config/model.py
index c47b619118ff2..f4ed99689e5b4 100644
--- a/vllm/config/model.py
+++ b/vllm/config/model.py
@@ -1342,7 +1342,8 @@ class ModelConfig:
             # Ernie VL's remote code uses list[int]...
             # The values are always the same so we just take the first one.
             return num_experts[0]
-        return num_experts
+        # Coerce to 0 if explicitly set to None
+        return num_experts or 0
 
     def get_layers_start_end_indices(
         self, parallel_config: ParallelConfig

From d3387750f191f3bcf6607db95436147bbccfacb3 Mon Sep 17 00:00:00 2001
From: Roger Wang <hey@rogerw.io>
Date: Thu, 13 Nov 2025 08:38:08 -0800
Subject: [PATCH 413/976] [Misc] Turn off encoder torch compile by default
 (#28634)

Signed-off-by: Roger Wang <hey@rogerw.io>
---
 tests/compile/test_multimodal_compile.py          | 9 ++++++---
 tests/models/multimodal/generation/test_common.py | 2 ++
 vllm/config/compilation.py                        | 5 +++--
 3 files changed, 11 insertions(+), 5 deletions(-)

diff --git a/tests/compile/test_multimodal_compile.py b/tests/compile/test_multimodal_compile.py
index b76c29819a2df..621f6a51a918f 100644
--- a/tests/compile/test_multimodal_compile.py
+++ b/tests/compile/test_multimodal_compile.py
@@ -10,8 +10,8 @@ from vllm.platforms import current_platform
 
 def test_compile():
     vllm_config = VllmConfig()
-    # Default configuration compiles mm encoder
-    assert vllm_config.compilation_config.compile_mm_encoder
+    # Default configuration does not compile mm encoder
+    assert not vllm_config.compilation_config.compile_mm_encoder
 
 
 # forked needed to workaround https://github.com/vllm-project/vllm/issues/21073
@@ -39,7 +39,10 @@ def test_qwen2_5_vl_compilation(vllm_runner, monkeypatch):
             "Qwen/Qwen2.5-VL-3B-Instruct",
             max_model_len=2048,
             gpu_memory_utilization=0.8,
-            compilation_config={"mode": CompilationMode.VLLM_COMPILE},
+            compilation_config={
+                "mode": CompilationMode.VLLM_COMPILE,
+                "compile_mm_encoder": True,
+            },
         ) as _,
     ):
         pass
diff --git a/tests/models/multimodal/generation/test_common.py b/tests/models/multimodal/generation/test_common.py
index 5504c417fda4c..22083d9f16148 100644
--- a/tests/models/multimodal/generation/test_common.py
+++ b/tests/models/multimodal/generation/test_common.py
@@ -131,6 +131,7 @@ VLM_TEST_SETTINGS = {
         prompt_formatter=lambda img_prompt: f"<|im_start|>User\n{img_prompt}<|im_end|>\n<|im_start|>assistant\n",  # noqa: E501
         img_idx_to_prompt=lambda idx: "<|vision_start|><|image_pad|><|vision_end|>",
         video_idx_to_prompt=lambda idx: "<|vision_start|><|video_pad|><|vision_end|>",
+        enforce_eager=False,
         max_model_len=4096,
         max_num_seqs=2,
         auto_cls=AutoModelForImageTextToText,
@@ -160,6 +161,7 @@ VLM_TEST_SETTINGS = {
             VLMTestType.MULTI_IMAGE,
             VLMTestType.VIDEO,
         ),
+        enforce_eager=False,
         needs_video_metadata=True,
         prompt_formatter=lambda img_prompt: f"<|im_start|>User\n{img_prompt}<|im_end|>\n<|im_start|>assistant\n",  # noqa: E501
         img_idx_to_prompt=lambda idx: "<|vision_start|><|image_pad|><|vision_end|>",  # noqa: E501
diff --git a/vllm/config/compilation.py b/vllm/config/compilation.py
index b0d1bc2bab306..10673041aa685 100644
--- a/vllm/config/compilation.py
+++ b/vllm/config/compilation.py
@@ -320,9 +320,10 @@ class CompilationConfig:
 
     If None, defaults to attention ops for piecewise cudagraphs.
     If empty list [], no ops are excluded (suitable for full cudagraphs)."""
-    compile_mm_encoder: bool = True
+    compile_mm_encoder: bool = False
     """Whether or not to compile the multimodal encoder.
-    Currently, this only works for `Qwen2_5_vl`."""
+    Currently, this only works for `Qwen2_5_vl` on selected platforms. 
+    Disabled by default until more models are supported/tested to work."""
 
     # Inductor capture
     use_inductor: bool | None = None

From 06c4873d959feb0d4cb062ef17cdd0dd09dbf10f Mon Sep 17 00:00:00 2001
From: "Jane (Yuan) Xu" <31798555+janeyx99@users.noreply.github.com>
Date: Thu, 13 Nov 2025 11:52:50 -0500
Subject: [PATCH 414/976] Rewrite C++ meta funcs to Python (#28595)

Signed-off-by: Jane Xu <janeyx@meta.com>
---
 .../gptq_marlin/awq_marlin_repack.cu          | 16 --------
 .../gptq_marlin/gptq_marlin_repack.cu         | 16 --------
 vllm/_custom_ops.py                           | 39 ++++++++++++++++++-
 3 files changed, 38 insertions(+), 33 deletions(-)

diff --git a/csrc/quantization/gptq_marlin/awq_marlin_repack.cu b/csrc/quantization/gptq_marlin/awq_marlin_repack.cu
index 8ba617a9e6555..e607107b3e77c 100644
--- a/csrc/quantization/gptq_marlin/awq_marlin_repack.cu
+++ b/csrc/quantization/gptq_marlin/awq_marlin_repack.cu
@@ -247,22 +247,6 @@ torch::Tensor awq_marlin_repack(torch::Tensor& b_q_weight, int64_t size_k,
   return out;
 }
 
-torch::Tensor awq_marlin_repack_meta(torch::Tensor& b_q_weight,
-                                     c10::SymInt size_k, c10::SymInt size_n,
-                                     int64_t num_bits) {
-  int const pack_factor = 32 / num_bits;
-  auto options = torch::TensorOptions()
-                     .dtype(b_q_weight.dtype())
-                     .device(b_q_weight.device());
-  return torch::empty_symint(
-      {size_k / marlin::tile_size, size_n * marlin::tile_size / pack_factor},
-      options);
-}
-
 TORCH_LIBRARY_IMPL_EXPAND(TORCH_EXTENSION_NAME, CUDA, m) {
   m.impl("awq_marlin_repack", &awq_marlin_repack);
 }
-
-TORCH_LIBRARY_IMPL_EXPAND(TORCH_EXTENSION_NAME, Meta, m) {
-  m.impl("awq_marlin_repack", &awq_marlin_repack_meta);
-}
diff --git a/csrc/quantization/gptq_marlin/gptq_marlin_repack.cu b/csrc/quantization/gptq_marlin/gptq_marlin_repack.cu
index 7c2d089a70d95..ad80d51ece94e 100644
--- a/csrc/quantization/gptq_marlin/gptq_marlin_repack.cu
+++ b/csrc/quantization/gptq_marlin/gptq_marlin_repack.cu
@@ -321,22 +321,6 @@ torch::Tensor gptq_marlin_repack(torch::Tensor& b_q_weight, torch::Tensor& perm,
   return out;
 }
 
-torch::Tensor gptq_marlin_repack_meta(torch::Tensor& b_q_weight,
-                                      torch::Tensor& perm, c10::SymInt size_k,
-                                      c10::SymInt size_n, int64_t num_bits) {
-  int const pack_factor = 32 / num_bits;
-  auto options = torch::TensorOptions()
-                     .dtype(b_q_weight.dtype())
-                     .device(b_q_weight.device());
-  return torch::empty_symint(
-      {size_k / marlin::tile_size, size_n * marlin::tile_size / pack_factor},
-      options);
-}
-
 TORCH_LIBRARY_IMPL_EXPAND(TORCH_EXTENSION_NAME, CUDA, m) {
   m.impl("gptq_marlin_repack", &gptq_marlin_repack);
 }
-
-TORCH_LIBRARY_IMPL_EXPAND(TORCH_EXTENSION_NAME, Meta, m) {
-  m.impl("gptq_marlin_repack", &gptq_marlin_repack_meta);
-}
diff --git a/vllm/_custom_ops.py b/vllm/_custom_ops.py
index 7d70c01cefbb6..096266c9764e8 100644
--- a/vllm/_custom_ops.py
+++ b/vllm/_custom_ops.py
@@ -1174,13 +1174,50 @@ def gptq_marlin_repack(
     return torch.ops._C.gptq_marlin_repack(b_q_weight, perm, size_k, size_n, num_bits)
 
 
-# gptq_marlin
+if hasattr(torch.ops._C, "gptq_marlin_repack"):
+
+    @register_fake("_C::gptq_marlin_repack")
+    def _gptq_marlin_repack_fake(
+        b_q_weight: torch.Tensor,
+        perm: torch.Tensor,
+        size_k: torch.SymInt,
+        size_n: torch.SymInt,
+        num_bits: int,
+    ) -> torch.Tensor:
+        pack_factor = 32 // num_bits
+        marlin_tile_size = 16
+        return torch.empty(
+            (size_k // marlin_tile_size, size_n * marlin_tile_size // pack_factor),
+            dtype=b_q_weight.dtype,
+            device=b_q_weight.device,
+        )
+
+
+# awq_marlin
 def awq_marlin_repack(
     b_q_weight: torch.Tensor, size_k: int, size_n: int, num_bits: int
 ) -> torch.Tensor:
     return torch.ops._C.awq_marlin_repack(b_q_weight, size_k, size_n, num_bits)
 
 
+if hasattr(torch.ops._C, "awq_marlin_repack"):
+
+    @register_fake("_C::awq_marlin_repack")
+    def _awq_marlin_repack_fake(
+        b_q_weight: torch.Tensor,
+        size_k: torch.SymInt,
+        size_n: torch.SymInt,
+        num_bits: int,
+    ) -> torch.Tensor:
+        pack_factor = 32 // num_bits
+        marlin_tile_size = 16
+        return torch.empty(
+            (size_k // marlin_tile_size, size_n * marlin_tile_size // pack_factor),
+            dtype=b_q_weight.dtype,
+            device=b_q_weight.device,
+        )
+
+
 def gptq_marlin_moe_repack(
     b_q_weight: torch.Tensor,
     perm: torch.Tensor,

From 327c0a9a23f2939923d02fbf882640753bf1e030 Mon Sep 17 00:00:00 2001
From: Nick Hill <nhill@redhat.com>
Date: Thu, 13 Nov 2025 09:14:08 -0800
Subject: [PATCH 415/976] [BugFix] Ensure `EngineArgs.create_engine_config` is
 idempotent (#28515)

Signed-off-by: Nick Hill <nhill@redhat.com>
---
 vllm/engine/arg_utils.py | 19 +++++++++----------
 1 file changed, 9 insertions(+), 10 deletions(-)

diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index 13c7704f5bf3d..ca7f5e5e3e056 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -1631,40 +1631,39 @@ class EngineArgs:
             )
 
         observability_config = ObservabilityConfig(
-            show_hidden_metrics_for_version=(self.show_hidden_metrics_for_version),
+            show_hidden_metrics_for_version=self.show_hidden_metrics_for_version,
             otlp_traces_endpoint=self.otlp_traces_endpoint,
             collect_detailed_traces=self.collect_detailed_traces,
         )
 
         # Compilation config overrides
+        compilation_config = copy.deepcopy(self.compilation_config)
         if self.cuda_graph_sizes is not None:
             logger.warning(
                 "--cuda-graph-sizes is deprecated and will be removed in v0.13.0 or "
                 "v1.0.0, whichever is soonest. Please use --cudagraph-capture-sizes "
                 "instead."
             )
-            if self.compilation_config.cudagraph_capture_sizes is not None:
+            if compilation_config.cudagraph_capture_sizes is not None:
                 raise ValueError(
                     "cuda_graph_sizes and compilation_config."
                     "cudagraph_capture_sizes are mutually exclusive"
                 )
-            self.compilation_config.cudagraph_capture_sizes = self.cuda_graph_sizes
+            compilation_config.cudagraph_capture_sizes = self.cuda_graph_sizes
         if self.cudagraph_capture_sizes is not None:
-            if self.compilation_config.cudagraph_capture_sizes is not None:
+            if compilation_config.cudagraph_capture_sizes is not None:
                 raise ValueError(
                     "cudagraph_capture_sizes and compilation_config."
                     "cudagraph_capture_sizes are mutually exclusive"
                 )
-            self.compilation_config.cudagraph_capture_sizes = (
-                self.cudagraph_capture_sizes
-            )
+            compilation_config.cudagraph_capture_sizes = self.cudagraph_capture_sizes
         if self.max_cudagraph_capture_size is not None:
-            if self.compilation_config.max_cudagraph_capture_size is not None:
+            if compilation_config.max_cudagraph_capture_size is not None:
                 raise ValueError(
                     "max_cudagraph_capture_size and compilation_config."
                     "max_cudagraph_capture_size are mutually exclusive"
                 )
-            self.compilation_config.max_cudagraph_capture_size = (
+            compilation_config.max_cudagraph_capture_size = (
                 self.max_cudagraph_capture_size
             )
 
@@ -1679,7 +1678,7 @@ class EngineArgs:
             load_config=load_config,
             structured_outputs_config=self.structured_outputs_config,
             observability_config=observability_config,
-            compilation_config=self.compilation_config,
+            compilation_config=compilation_config,
             kv_transfer_config=self.kv_transfer_config,
             kv_events_config=self.kv_events_config,
             ec_transfer_config=self.ec_transfer_config,

From fdfd5075aa0b9b32e3000554d719f1622acff800 Mon Sep 17 00:00:00 2001
From: Johnny Yang <24908445+jcyang43@users.noreply.github.com>
Date: Thu, 13 Nov 2025 09:36:54 -0800
Subject: [PATCH 416/976] [TPU] patch TPU wheel build script to resolve
 metadata issue (#27279)

Signed-off-by: Johnny Yang <johnnyyang@google.com>
---
 setup.py                |  4 +++-
 tools/vllm-tpu/build.sh | 28 ++++++++++++++++++++++++++++
 2 files changed, 31 insertions(+), 1 deletion(-)

diff --git a/setup.py b/setup.py
index 0934a8608eb12..e9b36e2a2e037 100644
--- a/setup.py
+++ b/setup.py
@@ -545,7 +545,9 @@ def get_vllm_version() -> str:
     # Allow overriding the version. This is useful to build platform-specific
     # wheels (e.g. CPU, TPU) without modifying the source.
     if env_version := os.getenv("VLLM_VERSION_OVERRIDE"):
-        return env_version
+        print(f"Overriding VLLM version with {env_version} from VLLM_VERSION_OVERRIDE")
+        os.environ["SETUPTOOLS_SCM_PRETEND_VERSION"] = env_version
+        return get_version(write_to="vllm/_version.py")
 
     version = get_version(write_to="vllm/_version.py")
     sep = "+" if "+" not in version else "."  # dev versions might contain +
diff --git a/tools/vllm-tpu/build.sh b/tools/vllm-tpu/build.sh
index fbc91e379df33..45ef8dfcb1db6 100755
--- a/tools/vllm-tpu/build.sh
+++ b/tools/vllm-tpu/build.sh
@@ -7,6 +7,13 @@ TOOLS_DIR=$(cd "$(dirname "$SCRIPT_PATH_PARAM")" && pwd) # Absolute path to the
 REPO_ROOT=$(cd "$TOOLS_DIR/../../" && pwd) # Absolute path to the repo root
 VLLM_DIR="$REPO_ROOT/" # Path to the vllm sources
 
+CHANGE_FILE_LIST=(
+  "vllm/entrypoints/cli/main.py"
+  "vllm/entrypoints/cli/run_batch.py"
+  "vllm/utils/__init__.py"
+  "vllm/platforms/__init__.py"
+)
+
 # Ensure we are not running from within the vllm directory if SCRIPT_PATH_PARAM is relative like "."
 if [ "$TOOLS_DIR" = "$VLLM_DIR" ]; then
     echo "Error: This script should not be run from the vllm directory directly if using relative paths."
@@ -30,6 +37,20 @@ if ! grep -q "name = \"vllm-tpu\"" "$PYPROJECT_FILE"; then
     echo "Patching pyproject.toml project name to vllm-tpu..."
     cp "$PYPROJECT_FILE" "${PYPROJECT_FILE}.bak"
     sed -i '0,/^name = "vllm"/s//name = "vllm-tpu"/' "$PYPROJECT_FILE"
+
+    echo "Patching ${CHANGE_FILE_LIST[@]} vllm to vllm-tpu..."
+    # patching
+    #   importlib.metadata.version('vllm') -> importlib.metadata.version('vllm-tpu')
+    #   importlib.metadata.version("vllm") -> importlib.metadata.version("vllm-tpu")
+    #   importlib.metadata.metadata('vllm') -> importlib.metadata.metadata('vllm-tpu')
+    #   importlib.metadata.metadata("vllm") -> importlib.metadata.metadata("vllm-tpu")
+    #   version('vllm') -> version('vllm-tpu')
+    #   version("vllm") -> version("vllm-tpu")
+    sed -i \
+        -e "s/importlib.metadata.version(\(['\"]\)vllm\1)/importlib.metadata.version(\1vllm-tpu\1)/" \
+        -e "s/importlib.metadata.metadata(\(['\"]\)vllm\1)/importlib.metadata.metadata(\1vllm-tpu\1)/" \
+        -e "s/version(\(['\"]\)vllm\1)/version(\1vllm-tpu\1)/" \
+        "${CHANGE_FILE_LIST[@]}"
     PATCHED=true
 else
     PATCHED=false
@@ -45,6 +66,13 @@ cleanup() {
         echo "Restoring original pyproject.toml..."
         cp "${PYPROJECT_FILE}.bak" "$PYPROJECT_FILE"
         rm -f "${PYPROJECT_FILE}.bak"
+
+        echo "Restoring vllm code..."
+        sed -i \
+            -e "s/importlib.metadata.version(\(['\"]\)vllm-tpu\1)/importlib.metadata.version(\1vllm\1)/" \
+            -e "s/importlib.metadata.metadata(\(['\"]\)vllm-tpu\1)/importlib.metadata.metadata(\1vllm\1)/" \
+            -e "s/version(\(['\"]\)vllm-tpu\1)/version(\1vllm\1)/" \
+            "${CHANGE_FILE_LIST[@]}"
     fi
 }
 trap cleanup EXIT HUP INT QUIT PIPE TERM # Register cleanup function to run on script exit and various signals

From fe1cd7704ddd3266ddc97181ab24a167b3c9223c Mon Sep 17 00:00:00 2001
From: Varun Sundar Rabindranath <varunsundar08@gmail.com>
Date: Thu, 13 Nov 2025 13:16:55 -0500
Subject: [PATCH 417/976] [Performance][B200] silu_mul_quant: pack scales in
 int32 (#28358)

Signed-off-by: Varun Sundar Rabindranath <vsundarr@redhat.com>
Co-authored-by: Varun Sundar Rabindranath <vsundarr@redhat.com>
---
 csrc/quantization/activation_kernels.cu       | 164 ++++++---
 tests/conftest.py                             |  13 +
 tests/kernels/moe/test_deepep_deepgemm_moe.py |  18 +-
 tests/kernels/moe/test_deepep_moe.py          |   2 +-
 .../moe/test_silu_mul_fp8_quant_deep_gemm.py  | 321 +++++++++++++-----
 .../layers/fused_moe/batched_deep_gemm_moe.py |  76 +++--
 vllm/utils/deep_gemm.py                       |  23 ++
 7 files changed, 466 insertions(+), 151 deletions(-)

diff --git a/csrc/quantization/activation_kernels.cu b/csrc/quantization/activation_kernels.cu
index 2521b2797e2c2..0c3bcf3b64b26 100644
--- a/csrc/quantization/activation_kernels.cu
+++ b/csrc/quantization/activation_kernels.cu
@@ -279,17 +279,17 @@ __device__ __forceinline__ void token_bounds(int32_t n_tokens,
 }
 
 template <int BLOCK_COUNT, int SMEM_SIZE_BYTES_Y, typename fp8_type,
-          int THREADS, typename Idx_t, bool USE_UE8M0, int GROUP_SIZE = 128,
-          int NUM_STAGES = 3>
+          typename scale_t, int THREADS, typename Idx_t, bool CEIL_UE8M0,
+          int GROUP_SIZE = 128, int NUM_STAGES = 3>
 __global__ void silu_mul_fp8_quant_deep_gemm_kernel(
     const __nv_bfloat16* __restrict__ _input, fp8_type* __restrict__ _y_q,
-    float* __restrict__ _y_s, const int32_t* __restrict__ tokens_per_expert,
+    scale_t* __restrict__ _y_s, const int32_t* __restrict__ tokens_per_expert,
     // sizes
     Idx_t E, Idx_t T, Idx_t H,
     // strides (in elements)
     Idx_t stride_i_e, Idx_t stride_i_t, Idx_t stride_i_h, Idx_t stride_yq_e,
     Idx_t stride_yq_t, Idx_t stride_yq_h, Idx_t stride_ys_e, Idx_t stride_ys_t,
-    Idx_t stride_ys_g, Idx_t stride_counts_e) {
+    Idx_t stride_ys_g, Idx_t stride_ys_p, Idx_t stride_counts_e) {
 #ifndef USE_ROCM
   static constexpr int NUM_WARPS = THREADS / WARP_SIZE;
 
@@ -466,9 +466,22 @@ __global__ void silu_mul_fp8_quant_deep_gemm_kernel(
 
   __nv_fp8x4_e4m3* y_q_base_ptr =
       reinterpret_cast<__nv_fp8x4_e4m3*>(_y_q) + lane_id;
-  auto y_scale_base_ptr = _y_s + warp_position_scales * stride_ys_g;
+
+  Idx_t scale_group_offset = 0;
+  if constexpr (std::is_same<scale_t, uint8_t>::value) {
+    // packed int32_t format
+    int pack_id = warp_position_scales / 4;
+    int scale_in_pack = warp_position_scales % 4;
+    scale_group_offset = pack_id * stride_ys_p + scale_in_pack * stride_ys_g;
+  } else {
+    scale_group_offset = warp_position_scales * stride_ys_g;
+  }
+
+  scale_t* const y_scale_base_ptr = _y_s + scale_group_offset;
 
   for (auto j = tokens_lower; j < tokens_upper; j++) {
+    int current_group_id = warp_position_scales;  // Running count of which
+                                                  // group is being processed
     const Idx_t base_ys = expert_id * stride_ys_e;
     auto y_s_ptr = y_scale_base_ptr + base_ys + token_offset * stride_ys_t;
     __nv_fp8x4_e4m3* y_q_ptr =
@@ -509,7 +522,7 @@ __global__ void silu_mul_fp8_quant_deep_gemm_kernel(
 
       __nv_bfloat16 y_s = __hmul(warp_max(_y_max2.x), fp8_inv);
 
-      if constexpr (USE_UE8M0) {
+      if constexpr (CEIL_UE8M0) {
         y_s = hexp2(hceil(hlog2(y_s)));
       }
 
@@ -527,8 +540,24 @@ __global__ void silu_mul_fp8_quant_deep_gemm_kernel(
       y_q_ptr += WARP_SIZE * stride_yq_h;
 
       if (!lane_id) {
-        *y_s_ptr = y_s;
-        y_s_ptr += stride_ys_g;
+        // Store scales.
+        if constexpr (std::is_same<scale_t, uint8_t>::value) {
+          // Packed UE8MO format. Remove Mantissa.
+          *y_s_ptr = reinterpret_cast<int16_t&>(y_s) >> 7;
+
+          bool const jump_pack = (current_group_id + 1) % 4 == 0;
+          // Minus 3 because we need to get to the first group in the
+          // next pack.
+          y_s_ptr += jump_pack ? (stride_ys_p - 3) : stride_ys_g;
+
+        } else {
+          // float32 format
+          static_assert(std::is_same<scale_t, float>::value);
+          *y_s_ptr = y_s;
+          y_s_ptr += stride_ys_g;
+        }
+
+        current_group_id += 1;
       }
     }
   }
@@ -573,7 +602,7 @@ void persistent_masked_m_silu_mul_quant(
     const at::Tensor& tokens_per_expert,  // (E)
     at::Tensor& y_q,                      // (E, T, H) [OUT]
     at::Tensor& y_s,                      // (E, T, H//group_size) [OUT]
-    bool use_ue8m0) {
+    bool cast_scale_ue8m0) {
 #ifndef USE_ROCM
 
   // This kernel currently only supports H % 128 == 0 and assumes a
@@ -583,9 +612,12 @@ void persistent_masked_m_silu_mul_quant(
   TORCH_CHECK(input.dtype() == torch::kBFloat16);
   TORCH_CHECK(y_q.dtype() == torch::kFloat8_e4m3fn ||
               y_q.dtype() == torch::kFloat8_e4m3fnuz);
-  TORCH_CHECK(y_s.dtype() == torch::kFloat32);
   TORCH_CHECK(input.size(-1) % (GROUP_SIZE * 2) == 0);
 
+  bool const is_packed_ue8m0 =
+      (y_s.dtype() == torch::kInt32 && cast_scale_ue8m0);
+  TORCH_CHECK(y_s.dtype() == torch::kFloat32 || is_packed_ue8m0);
+
   using Idx_t = int64_t;
 
   Idx_t E = input.size(0);
@@ -597,15 +629,18 @@ void persistent_masked_m_silu_mul_quant(
   Idx_t stride_yq_e = y_q.stride(0);
   Idx_t stride_yq_t = y_q.stride(1);
   Idx_t stride_yq_h = y_q.stride(2);
-  Idx_t stride_ys_e = y_s.stride(0);
-  Idx_t stride_ys_t = y_s.stride(1);
-  Idx_t stride_ys_g = y_s.stride(2);
 
   Idx_t stride_counts_e = tokens_per_expert.stride(0);
 
+  int const NUM_GROUPS = H / GROUP_SIZE;
+
   const cudaStream_t stream = at::cuda::getCurrentCUDAStream();
 
-  #define KERNEL(BLOCK_COUNT, USE_UE8M0, THREAD_COUNT, STAGES)                 \
+  // TODO: Get this from cuda_arch ?
+  static constexpr int SILU_V2_BLOCK_COUNT = 132 * 32;
+
+  #define KERNEL(BLOCK_COUNT, scale_t, STRIDE_YS_E, STRIDE_YS_T, STRIDE_YS_G,  \
+                 STRIDE_YS_P, CEIL_UE8M0, THREAD_COUNT, STAGES)                \
     static constexpr int NUM_WARPS = THREAD_COUNT / WARP_SIZE;                 \
     int sms = SILU_V2_BLOCK_COUNT;                                             \
     static constexpr int max_shared_mem_bytes =                                \
@@ -615,43 +650,86 @@ void persistent_masked_m_silu_mul_quant(
     VLLM_DISPATCH_FP8_TYPES(                                                   \
         y_q.scalar_type(), "silu_mul_fp8_quant_deep_gemm_kernel", [&] {        \
           vllm::silu_mul_fp8_quant_deep_gemm_kernel<                           \
-              BLOCK_COUNT, max_shared_mem_bytes, fp8_t, THREAD_COUNT, Idx_t,   \
-              USE_UE8M0, GROUP_SIZE, STAGES>                                   \
+              BLOCK_COUNT, max_shared_mem_bytes, fp8_t, scale_t, THREAD_COUNT, \
+              Idx_t, CEIL_UE8M0, GROUP_SIZE, STAGES>                           \
               <<<grid, block, max_shared_mem_bytes + (E + 1) * 16, stream>>>(  \
                   reinterpret_cast<__nv_bfloat16*>(input.data_ptr()),          \
-                  (fp8_t*)y_q.data_ptr(), y_s.data_ptr<float>(),               \
+                  (fp8_t*)y_q.data_ptr(),                                      \
+                  reinterpret_cast<scale_t*>(y_s.data_ptr()),                  \
                   reinterpret_cast<int32_t*>(tokens_per_expert.data_ptr()), E, \
                   T, H, stride_i_e, stride_i_t, stride_i_h, stride_yq_e,       \
-                  stride_yq_t, stride_yq_h, stride_ys_e, stride_ys_t,          \
-                  stride_ys_g, stride_counts_e);                               \
+                  stride_yq_t, stride_yq_h, STRIDE_YS_E, STRIDE_YS_T,          \
+                  STRIDE_YS_G, STRIDE_YS_P, stride_counts_e);                  \
         });
 
-  static constexpr int SILU_V2_BLOCK_COUNT = 132 * 32;
+  #define LAUNCH_ON_H(scale_t, STRIDE_YS_E, STRIDE_YS_T, STRIDE_YS_G,         \
+                      STRIDE_YS_P, CEIL_UE8M0)                                \
+    if (H >= 4096 && (NUM_GROUPS % 8) == 0) {                                 \
+      /* 8 warp config */                                                     \
+      static constexpr int NUM_STAGES = 4;                                    \
+      static constexpr int THREAD_COUNT = 256;                                \
+      KERNEL(SILU_V2_BLOCK_COUNT, scale_t, STRIDE_YS_E, STRIDE_YS_T,          \
+             STRIDE_YS_G, STRIDE_YS_P, CEIL_UE8M0, THREAD_COUNT, NUM_STAGES); \
+    } else {                                                                  \
+      /* 1 warp config */                                                     \
+      static constexpr int THREAD_COUNT = 32;                                 \
+      KERNEL(SILU_V2_BLOCK_COUNT, scale_t, STRIDE_YS_E, STRIDE_YS_T,          \
+             STRIDE_YS_G, STRIDE_YS_P, CEIL_UE8M0, THREAD_COUNT, 2);          \
+    }
 
-  int const NUM_GROUPS = H / GROUP_SIZE;
-  if (!use_ue8m0) {
-    if (H >= 4096 && (NUM_GROUPS % 8 == 0)) {
-      /* 8 warps config */
-      static constexpr int NUM_STAGES = 4;
-      static constexpr int THREAD_COUNT = 256;
-      KERNEL(SILU_V2_BLOCK_COUNT, false, THREAD_COUNT, NUM_STAGES);
-    } else {
-      /* 1 warp config */
-      static constexpr int THREAD_COUNT = 32;
-      KERNEL(SILU_V2_BLOCK_COUNT, false, THREAD_COUNT, 2);
-    }
-  } else {
-    if (H >= 4096 && (NUM_GROUPS % 8 == 0)) {
-      /* 8 warps config */
-      static constexpr int NUM_STAGES = 4;
-      static constexpr int THREAD_COUNT = 256;
-      KERNEL(SILU_V2_BLOCK_COUNT, true, THREAD_COUNT, NUM_STAGES);
-    } else {
-      /* 1 warp config */
-      static constexpr int THREAD_COUNT = 32;
-      KERNEL(SILU_V2_BLOCK_COUNT, true, THREAD_COUNT, 2);
-    }
+  Idx_t stride_ys_e = y_s.stride(0);
+  Idx_t stride_ys_t = y_s.stride(1);
+  Idx_t stride_ys_g = y_s.stride(2);
+  Idx_t stride_ys_p = 0;
+  if (!cast_scale_ue8m0) {
+    TORCH_CHECK(!is_packed_ue8m0);
+    LAUNCH_ON_H(float, stride_ys_e, stride_ys_t, stride_ys_g, stride_ys_p,
+                false);
+    return;
   }
 
+  if (!is_packed_ue8m0) {
+    // UE8M0 but not packed
+    LAUNCH_ON_H(float, stride_ys_e, stride_ys_t, stride_ys_g, stride_ys_p,
+                true);
+    return;
+  }
+
+  TORCH_CHECK(cast_scale_ue8m0 && is_packed_ue8m0);
+  TORCH_CHECK(y_s.dtype() == torch::kInt32);
+
+  // Int32 packed ue8m0 scales tensor.
+  // Let E, T, G be the number to experts, number of tokens and number of groups
+  // respectively. Let, E = 2, T = 4, G = 6, in this case the int32 scales
+  // tensor are of shape [1, 4, 2] and stride [8, 1, 4]. The scales are expected
+  // to be arranged as follows,
+  // [[T0G0-T0G1-T0G2-T0G3, T0G4-T0G5-X-X,],
+  //  [T1G0-T1G1-T1G2-T1G3, T1G4-T1G5-X-X,]
+  //  [T2G0-T2G1-T2G2-T2G3, T2G4-T2G5-X-X,]
+  //  [T3G0-T3G1-T3G2-T3G3, T3G4-T3G5-X-X,]]
+  // where, TxGy is the scale ue8m0 scale value of Token x, Group y.
+  //
+  // In memory (in bytes) the scale values are arranged as,
+  //  [T0G0, T0G1, T0G2, T0G3, T1G0, T1G2, T1G3, T1G4, T2G0, T2G1, T2G3, T2G4,
+  //   T3G0, T3G1, T3G2, T3G3, T0G4, T0G5, X, X, T1G4, T1G5, X, X, T2G4, T2G5,
+  //   X, X, T3G4, T3G5, X, X]
+  //
+  // An Int32 tensor of size [1, 4, 2] and stride [8, 1, 4] can be represented
+  // as an uint8 tensor of shape [1, 2, 4, 4] and stride [32, 16, 4, 1]. In
+  // english, ignoring the Experts dimension, the original int32 tensor is
+  // simply treated as two packed [4, 4] uint8 tensor (or two [4, 1] int32
+  // tensor). The following strides setting reflects this change. Caveat: This
+  // means that the G dimension is no longer contiguous. i.e. Note that to move
+  // from G3 to G4, we need to jump along the packing dimension. The kernel
+  // handles this case.
+
+  stride_ys_e *= sizeof(int32_t);
+  stride_ys_p = T * sizeof(int32_t);  // Packing dimension
+  stride_ys_t = sizeof(int32_t);
+  stride_ys_g = 1;
+
+  LAUNCH_ON_H(uint8_t, stride_ys_e, stride_ys_t, stride_ys_g, stride_ys_p,
+              true);
+
 #endif
 }
diff --git a/tests/conftest.py b/tests/conftest.py
index 5e127e4e939e6..b17081352edcf 100644
--- a/tests/conftest.py
+++ b/tests/conftest.py
@@ -1384,3 +1384,16 @@ def image_urls(request, local_asset_server) -> list[str]:
     """Indirect fixture: takes a list of names, returns list of full URLs."""
     names: list[str] = request.param
     return [local_asset_server.url_for(name) for name in names]
+
+
+@pytest.fixture
+def disable_deepgemm_ue8m0(monkeypatch):
+    from vllm.utils.deep_gemm import is_deep_gemm_e8m0_used
+
+    with monkeypatch.context() as monkeypatch_ctx:
+        monkeypatch_ctx.setenv("VLLM_USE_DEEP_GEMM_E8M0", "0")
+        is_deep_gemm_e8m0_used.cache_clear()
+        yield
+        # Clear cache so the next time it is used it is processed with the
+        # default VLLM_USE_DEEP_GEMM_E8M0  setting.
+        is_deep_gemm_e8m0_used.cache_clear()
diff --git a/tests/kernels/moe/test_deepep_deepgemm_moe.py b/tests/kernels/moe/test_deepep_deepgemm_moe.py
index 9d039b81690a1..0faf8bc95d2ec 100644
--- a/tests/kernels/moe/test_deepep_deepgemm_moe.py
+++ b/tests/kernels/moe/test_deepep_deepgemm_moe.py
@@ -21,7 +21,11 @@ from vllm.model_executor.layers.fused_moe.config import (
 from vllm.model_executor.layers.fused_moe.fused_moe import fused_experts
 from vllm.model_executor.layers.fused_moe.modular_kernel import FusedMoEModularKernel
 from vllm.platforms import current_platform
-from vllm.utils.deep_gemm import is_deep_gemm_e8m0_used, is_deep_gemm_supported
+from vllm.utils.deep_gemm import (
+    get_mk_alignment_for_contiguous_layout,
+    is_deep_gemm_e8m0_used,
+    is_deep_gemm_supported,
+)
 from vllm.utils.import_utils import has_deep_ep, has_deep_gemm
 
 from ...utils import multi_gpu_test
@@ -413,19 +417,16 @@ NUM_EXPERTS = [32]
 @multi_gpu_test(num_gpus=2)
 @requires_deep_ep
 @requires_deep_gemm
-@pytest.mark.skipif(
-    is_deep_gemm_e8m0_used(), reason="Skipping test for Blackwell DeepGEMM"
-)
 def test_ht_deepep_deepgemm_moe(
     mnk: tuple[int, int, int],
     num_experts: int,
     topk: int,
     world_dp_size: tuple[int, int],
+    disable_deepgemm_ue8m0,
 ):
     """
     Tests for High-Throughput DeepEP + DeepGemm integration.
     """
-    import deep_gemm
 
     m, n, k = mnk
     current_platform.seed_everything(7)
@@ -433,7 +434,7 @@ def test_ht_deepep_deepgemm_moe(
     if topk > num_experts:
         pytest.skip(f"Skipping test: topk={topk} > E={num_experts}")
 
-    block_m = deep_gemm.get_m_alignment_for_contiguous_layout()
+    block_m = get_mk_alignment_for_contiguous_layout()[0]
     block_size = [block_m, block_m]
 
     world_size, dp_size = world_dp_size
@@ -487,9 +488,6 @@ USE_FP8_DISPATCH = [False]
 @multi_gpu_test(num_gpus=2)
 @requires_deep_ep
 @requires_deep_gemm
-@pytest.mark.skipif(
-    is_deep_gemm_e8m0_used(), reason="Skipping test for Blackwell DeepGEMM"
-)
 def test_ll_deepep_deepgemm_moe(
     mnk: tuple[int, int, int],
     num_experts: int,
@@ -497,10 +495,12 @@ def test_ll_deepep_deepgemm_moe(
     use_fp8_dispatch: bool,
     block_size: list[int],
     world_dp_size: tuple[int, int],
+    disable_deepgemm_ue8m0,
 ):
     """
     Tests for Low-Latency DeepEP + DeepGemm integration.
     """
+    assert not is_deep_gemm_e8m0_used()
 
     m, n, k = mnk
     current_platform.seed_everything(7)
diff --git a/tests/kernels/moe/test_deepep_moe.py b/tests/kernels/moe/test_deepep_moe.py
index b49319a7e6f54..d78b8250463a9 100644
--- a/tests/kernels/moe/test_deepep_moe.py
+++ b/tests/kernels/moe/test_deepep_moe.py
@@ -294,7 +294,7 @@ def torch_moe_impl(
         # blockwise quant and de-quant.
         assert not per_act_token_quant
         a = test_tensors.rank_tokens
-        aq, aq_scale = per_token_group_quant_fp8(a, 128)
+        aq, aq_scale = per_token_group_quant_fp8(a, 128, use_ue8m0=False)
         a = (
             (aq.view(-1, 128).to(torch.float32) * aq_scale.view(-1, 1))
             .view(a.shape)
diff --git a/tests/kernels/moe/test_silu_mul_fp8_quant_deep_gemm.py b/tests/kernels/moe/test_silu_mul_fp8_quant_deep_gemm.py
index 420dbbffaac08..d6b78dd2c2323 100644
--- a/tests/kernels/moe/test_silu_mul_fp8_quant_deep_gemm.py
+++ b/tests/kernels/moe/test_silu_mul_fp8_quant_deep_gemm.py
@@ -1,6 +1,9 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
+
+import random
+
 import pytest
 import torch
 
@@ -8,27 +11,30 @@ from vllm.model_executor.layers.fused_moe.batched_deep_gemm_moe import (
     persistent_masked_m_silu_mul_quant,
 )
 from vllm.platforms import current_platform
-from vllm.utils.math_utils import cdiv
+from vllm.utils.deep_gemm import DeepGemmQuantScaleFMT, has_deep_gemm
+from vllm.utils.math_utils import cdiv, round_up
 
 fp8_dtype = torch.float8_e4m3fn
 
 CASES = [
     (1, 1, 128, fp8_dtype),
-    (1, 4, 128, fp8_dtype),
-    (2, 4, 256, fp8_dtype),
-    (32, 64, 256, fp8_dtype),
-    (17, 31, 768, fp8_dtype),
-    (1, 1, 128 * 1, fp8_dtype),
-    (1, 1, 128 * 3, fp8_dtype),
-    (1, 1, 128 * 4, fp8_dtype),
-    (8, 16, 128 * 1, fp8_dtype),
-    (8, 16, 128 * 2, fp8_dtype),
-    (8, 16, 128 * 3, fp8_dtype),
+    (1, 4, 128 * 1, fp8_dtype),
+    (2, 4, 128 * 2, fp8_dtype),
+    (1, 4, 128 * 3, fp8_dtype),
+    (8, 16, 128 * 4, fp8_dtype),
+    (8, 16, 128 * 5, fp8_dtype),
+    (8, 16, 128 * 6, fp8_dtype),
+    (8, 16, 128 * 7, fp8_dtype),
+    (8, 16, 128 * 8, fp8_dtype),
+    (8, 16, 128 * 9, fp8_dtype),
     (8, 64, 7168, fp8_dtype),
     (8, 128, 128 * 33, fp8_dtype),
+    (1, 4, 128 * 10, fp8_dtype),
     (8, 128, 7168, fp8_dtype),
     (8, 512, 7168, fp8_dtype),
     (8, 1024, 7168, fp8_dtype),
+    (17, 31, 768, fp8_dtype),
+    (32, 64, 256, fp8_dtype),
     (256, 8, 7168, fp8_dtype),
     (256, 32, 7168, fp8_dtype),
     (256, 64, 7168, fp8_dtype),
@@ -38,14 +44,159 @@ CASES = [
 ]
 
 
+def as_uint8(x) -> torch.Tensor:
+    return (
+        torch.empty(x.shape, dtype=x.dtype, device=x.device).copy_(x).view(torch.uint8)
+    )
+
+
+def silu(x: torch.Tensor) -> torch.Tensor:
+    one_f32 = torch.tensor([1.0], device=x.device, dtype=torch.float32)
+    x_f32 = x.to(torch.float32)
+    act_f32 = x_f32 / (one_f32 + torch.exp(-x_f32))
+    assert act_f32.dtype == torch.float32
+    return act_f32.to(torch.bfloat16)
+
+
+def do_quant(x: torch.Tensor, group_size: int, ceil_ue8m0: bool):
+    eps_bf16 = torch.tensor([1e-10], device=x.device, dtype=torch.bfloat16)
+    one_bf16 = torch.tensor([1.0], device=x.device, dtype=torch.bfloat16)
+    fp8_max_bf16 = torch.tensor(
+        [torch.finfo(fp8_dtype).max], device=x.device, dtype=torch.bfloat16
+    )
+    fp8_min_bf16 = torch.tensor(
+        [torch.finfo(fp8_dtype).min], device=x.device, dtype=torch.bfloat16
+    )
+    fp8_max_inv = one_bf16 / fp8_max_bf16
+    assert fp8_max_inv.dtype == torch.bfloat16
+
+    assert x.size(-1) % group_size == 0
+    num_groups = x.numel() // group_size
+    x_og_shape = x.shape
+
+    x = x.to(torch.bfloat16)
+    x = x.view((-1, group_size))
+    amax = x.abs().amax(dim=1).clamp(min=eps_bf16)
+    assert amax.dtype == torch.bfloat16
+    s = amax * fp8_max_inv
+
+    if ceil_ue8m0:
+        s = torch.exp2(
+            torch.ceil(torch.log2(s).to(torch.bfloat16)).to(torch.bfloat16)
+        ).to(torch.bfloat16)
+
+    inv_s = one_bf16 / s
+    inv_s = inv_s.view((num_groups, 1))
+    xq = torch.clamp(x * inv_s, min=fp8_min_bf16.item(), max=fp8_max_bf16.item()).to(
+        fp8_dtype
+    )
+
+    xq = xq.view(x_og_shape)
+    xs = s.view((-1, xq.size(-1) // group_size))
+    return xq, xs
+
+
+def silu_mul_quant(
+    gate: torch.Tensor, up: torch.Tensor, group_size: int, ceil_ue8m0: bool
+) -> tuple[torch.Tensor, torch.Tensor]:
+    assert gate.size(-1) % group_size == 0
+    assert up.size(-1) % group_size == 0
+
+    assert gate.dtype == torch.bfloat16
+    assert up.dtype == torch.bfloat16
+
+    act_bf16 = silu(gate)
+    assert act_bf16.dtype == torch.bfloat16
+
+    # act & mul
+    a_m = act_bf16 * up
+    assert a_m.dtype == torch.bfloat16
+
+    q, s = do_quant(a_m, group_size, ceil_ue8m0)
+    return q, s
+
+
+def pack_scales(x: torch.Tensor, tokens_per_expert: torch.Tensor) -> torch.Tensor:
+    """
+    pack float32 scales into a int32 tensor
+    """
+    assert x.dtype == torch.float32
+    E, T, G = x.size()
+
+    # Add i32_padding here so we can view it as a i32 tensor later on.
+    i32_padding = round_up(G, 4) - G
+    ref_s_i8 = torch.empty((E, T, G + i32_padding), dtype=torch.uint8, device="cuda")
+    for e in range(E):
+        nt = tokens_per_expert[e].item()
+        ref_s_i8[e, :nt, :G] = x[e, :nt].view(torch.int32) >> 23
+
+    ref_s_i32 = ref_s_i8.view(torch.int32)
+
+    return ref_s_i32
+
+
+def ref_with_scale_fmt(
+    E: int,
+    T: int,
+    H: int,
+    group_size: int,
+    tokens_per_expert: torch.Tensor,
+    gate: torch.Tensor,
+    up: torch.Tensor,
+    scale_fmt: DeepGemmQuantScaleFMT,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    """
+    The precision types of the operations triggered by this function
+    match closely with the kernel implementation so we compare more
+    accurately.
+    """
+    scale_dtype = (
+        torch.int32 if scale_fmt == DeepGemmQuantScaleFMT.UE8M0 else torch.float32
+    )
+    ceil_ue8m0 = scale_fmt in [
+        DeepGemmQuantScaleFMT.UE8M0,
+        DeepGemmQuantScaleFMT.FLOAT32_CEIL_UE8M0,
+    ]
+
+    ref_q = torch.empty((E, T, H), dtype=fp8_dtype, device="cuda")
+    ref_s_f32 = torch.empty(
+        (E, T, cdiv(H, group_size)), dtype=torch.float32, device="cuda"
+    )
+
+    for e in range(E):
+        nt = tokens_per_expert[e].item()
+        if nt == 0:
+            continue
+        ref_q[e, :nt], ref_s_f32[e, :nt] = silu_mul_quant(
+            gate[e, :nt], up[e, :nt], group_size, ceil_ue8m0=ceil_ue8m0
+        )
+
+    if scale_dtype == torch.float32:
+        return ref_q, ref_s_f32
+
+    assert scale_dtype == torch.int32
+    return ref_q, pack_scales(ref_s_f32, tokens_per_expert)
+
+
+def token_random(E, T, H2, tokens_per_expert):
+    """
+    Initialize each token in a random range so we test a range of
+    scale values.
+    """
+    y = torch.empty((E, T, H2), dtype=torch.bfloat16, device="cuda")
+    for e in range(E):
+        for t in range(tokens_per_expert[e].item()):
+            exp = random.choice(range(1, 20))
+            y[e, t].uniform_(-(2**exp), 2**exp)
+    return y
+
+
 @pytest.mark.parametrize("E,T,H,fp8_type", CASES)
 @torch.inference_mode()
-def test_silu_mul_fp8_quant_deep_gemm(E, T, H, fp8_type):
+def test_silu_mul_fp8_quant_deep_gemm(E: int, T: int, H: int, fp8_type: torch.dtype):
     group_size = 128
     current_platform.seed_everything(42)
 
-    # Input tensor of shape (E, T, 2*H)
-    y = torch.randn((E, T, 2 * H), dtype=torch.bfloat16, device="cuda")
     tokens_per_expert = torch.randint(
         low=0,
         high=T,
@@ -54,71 +205,83 @@ def test_silu_mul_fp8_quant_deep_gemm(E, T, H, fp8_type):
         device="cuda",
     )
 
+    # Input tensor of shape (E, T, 2*H)
+    y = token_random(E, T, 2 * H, tokens_per_expert)
+
+    gate = y[..., :H].to(torch.bfloat16)
+    up = y[..., H:].to(torch.bfloat16)
+
+    scale_fmts = [
+        DeepGemmQuantScaleFMT.FLOAT32,
+        DeepGemmQuantScaleFMT.FLOAT32_CEIL_UE8M0,
+        DeepGemmQuantScaleFMT.UE8M0,
+    ]
+
     # Run the SiLU V2 kernel
-    # TODO (varun): use_e8m0 is set to false as the reference impl does
-    # not handle that case.
-    y_q, y_s = persistent_masked_m_silu_mul_quant(
-        y, tokens_per_expert, group_size=group_size, use_ue8m0=False
-    )
-
-    torch.cuda.synchronize()
-    fp8_info = torch.finfo(fp8_dtype)
-    fp8_max = fp8_info.max
-    fp8_min = fp8_info.min
-    eps = 1e-10
-
-    y1 = y[..., :H].float()
-    y2 = y[..., H:]
-    silu_x = y1 * torch.sigmoid(y1)
-    merged = silu_x * y2
-
-    for e in range(E):
-        nt = tokens_per_expert[e].item()
-        ref_s = torch.empty(
-            (T, cdiv(H, group_size)), dtype=torch.float32, device="cuda"
-        )
-        ref_q = torch.empty((T, H), dtype=fp8_dtype, device="cuda")
-
-        for t in range(nt):
-            data = merged[e, t].float()
-            ref_q_row = torch.empty_like(data)
-
-            # process full groups
-            n_full_groups = H // group_size
-            if n_full_groups > 0:
-                data_grp = data[: n_full_groups * group_size].view(
-                    n_full_groups, group_size
-                )
-                amax = data_grp.abs().amax(dim=1).clamp(min=eps)
-                scale = amax / fp8_max
-                scaled = data[: n_full_groups * group_size] / scale.repeat_interleave(
-                    group_size
-                )
-                ref_q_row[: n_full_groups * group_size] = scaled.clamp(
-                    fp8_min, fp8_max
-                ).to(fp8_dtype)
-                ref_s[t, :n_full_groups] = scale
-
-            # process remainder group
-            rem = H % group_size
-            if rem > 0:
-                data_rem = data[-rem:]
-                amax = data_rem.abs().amax().clamp(min=eps)
-                scale = amax / fp8_max
-                scaled = data_rem / scale
-                ref_q_row[-rem:] = scaled.clamp(fp8_min, fp8_max).to(fp8_dtype)
-                ref_s[t, -1] = scale
-
-            ref_q[t] = ref_q_row
-
-        y_se = y_s[e].float()
-        y_qe = y_q[e].float()
-
-        torch.testing.assert_close(
-            y_qe[:nt].to(torch.float32),
-            ref_q[:nt].to(torch.float32),
-            atol=2,
-            rtol=2e-1,
+    for scale_fmt in scale_fmts:
+        y_q, y_s = persistent_masked_m_silu_mul_quant(
+            y,
+            tokens_per_expert,
+            group_size=group_size,
+            quant_scale_fmt=scale_fmt,
         )
 
-        torch.testing.assert_close(y_se[:nt], ref_s[:nt], atol=1e-4, rtol=1e-2)
+        ref_y_q, ref_y_s = ref_with_scale_fmt(
+            E, T, H, group_size, tokens_per_expert, gate, up, scale_fmt=scale_fmt
+        )
+
+        # deepgemm scales transform
+        dg_scales = None
+        if (
+            has_deep_gemm()
+            and current_platform.has_device_capability(100)
+            and scale_fmt == DeepGemmQuantScaleFMT.UE8M0
+        ):
+            from deep_gemm import transform_sf_into_required_layout
+
+            _q, _s = ref_with_scale_fmt(
+                E,
+                T,
+                H,
+                group_size,
+                tokens_per_expert,
+                gate,
+                up,
+                scale_fmt=DeepGemmQuantScaleFMT.FLOAT32_CEIL_UE8M0,
+            )
+            dg_scales = transform_sf_into_required_layout(
+                sf=_s,
+                mn=_q.size(1),
+                k=_q.size(2),
+                recipe=(1, 128, 128),
+                num_groups=_q.size(0),
+                is_sfa=True,
+            )
+
+        expected_scale_dtype = (
+            torch.int32 if scale_fmt == DeepGemmQuantScaleFMT.UE8M0 else torch.float32
+        )
+        assert y_s.dtype == expected_scale_dtype
+        assert ref_y_s.dtype == expected_scale_dtype
+
+        for e in range(E):
+            nt = tokens_per_expert[e].item()
+
+            torch.testing.assert_close(
+                y_q[e, :nt].to(torch.float32),
+                ref_y_q[e, :nt].to(torch.float32),
+            )
+
+            if scale_fmt == DeepGemmQuantScaleFMT.UE8M0:
+                G = H // group_size
+                y_s_sliced = as_uint8(y_s[e])
+                ref_s_sliced = as_uint8(ref_y_s[e])
+                torch.testing.assert_close(y_s_sliced[:nt, :G], ref_s_sliced[:nt, :G])
+                if dg_scales is not None:
+                    dg_sliced = as_uint8(dg_scales[e])
+                    torch.testing.assert_close(y_s_sliced[:nt, :G], dg_sliced[:nt, :G])
+            else:
+                torch.testing.assert_close(
+                    y_s[e, :nt],
+                    ref_y_s[e, :nt],
+                )
diff --git a/vllm/model_executor/layers/fused_moe/batched_deep_gemm_moe.py b/vllm/model_executor/layers/fused_moe/batched_deep_gemm_moe.py
index 869082f8231d1..79c92eb48612d 100644
--- a/vllm/model_executor/layers/fused_moe/batched_deep_gemm_moe.py
+++ b/vllm/model_executor/layers/fused_moe/batched_deep_gemm_moe.py
@@ -1,6 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
+
 import torch
 
 import vllm.model_executor.layers.fused_moe.modular_kernel as mk
@@ -13,14 +14,33 @@ from vllm.model_executor.layers.fused_moe.utils import _resize_cache
 from vllm.platforms import current_platform
 from vllm.triton_utils import tl, triton
 from vllm.utils.deep_gemm import (
+    DeepGemmQuantScaleFMT,
     fp8_m_grouped_gemm_nt_masked,
     get_mk_alignment_for_contiguous_layout,
     is_deep_gemm_e8m0_used,
 )
+from vllm.utils.math_utils import cdiv
 
 logger = init_logger(__name__)
 
 
+def scales_shape_stride_dtype(
+    E: int, T: int, G: int, quant_scale_fmt: DeepGemmQuantScaleFMT
+) -> tuple[tuple[int, ...], tuple[int, ...], torch.dtype]:
+    shape = (E, T, G)
+    strides = (T * G, 1, T)
+    if quant_scale_fmt in [
+        DeepGemmQuantScaleFMT.FLOAT32,
+        DeepGemmQuantScaleFMT.FLOAT32_CEIL_UE8M0,
+    ]:
+        return shape, strides, torch.float32
+
+    assert quant_scale_fmt == DeepGemmQuantScaleFMT.UE8M0
+    shape = (E, T, cdiv(G, 4))
+    strides = (T * cdiv(G, 4), 1, T)
+    return shape, strides, torch.int32
+
+
 @triton.jit
 def _silu_mul_fp8_quant_deep_gemm(
     # Pointers ------------------------------------------------------------
@@ -49,7 +69,7 @@ def _silu_mul_fp8_quant_deep_gemm(
     eps: tl.constexpr,
     fp8_min: tl.constexpr,
     fp8_max: tl.constexpr,
-    use_ue8m0: tl.constexpr,
+    ceil_ue8m0: tl.constexpr,
     # Meta ---------------------------------------------------------------
     BLOCK: tl.constexpr,
     NUM_STAGES: tl.constexpr,
@@ -86,7 +106,7 @@ def _silu_mul_fp8_quant_deep_gemm(
         y = gate * up
 
         y_s = tl.maximum(tl.max(tl.abs(y)), eps) / fp8_max
-        if use_ue8m0:
+        if ceil_ue8m0:
             y_s = tl.exp2(tl.ceil(tl.log2(y_s)))
 
         y_q = tl.clamp(y / y_s, fp8_min, fp8_max).to(y_q_ptr.dtype.element_ty)
@@ -100,7 +120,7 @@ def persistent_masked_m_silu_mul_quant(
     tokens_per_expert: torch.Tensor,  # (E,) number of valid tokens per expert
     num_parallel_tokens=16,
     group_size: int = 128,
-    use_ue8m0: bool | None = None,
+    quant_scale_fmt: DeepGemmQuantScaleFMT = DeepGemmQuantScaleFMT.FLOAT32,
 ) -> tuple[torch.Tensor, torch.Tensor]:
     """Quantize silu(y[..., :H]) * y[..., H:] to FP8 with group per-token scales
     y has shape (E, T, 2*H). The first half of the last dimension is
@@ -137,7 +157,13 @@ def persistent_masked_m_silu_mul_quant(
 
     Returns `(y_q, y_s)` where
     * `y_q`: FP8 tensor, shape (E, T, H), same layout as y[..., :H]
-    * `y_s`: FP32 tensor, shape (E, T, H // group_size), strides (T*G, 1, T)
+    * `y_s` depends on quant_scale_fmt,
+      - quant_scale_fmt == FLOAT32,
+         `y_s`: FP32 tensor, shape (E, T, H // group_size), strides (T*G, 1, T)
+      - quant_scale_fmt == E8M0,
+         `y_s`: Int32 tensor, shape (E, T, H // group_size // 4), strides (T*G, 1, T)
+      - quant_scale_fmt == E8M0_FLOAT32_SPARSE
+         `y_s`: FP32 tensor, shape (E, T, H // group_size), strides (T*G, 1, T)
     Let NUM_WARPS be the number of warps in a single thread block and
     `GROUP_SIZE = 128` be the size of the quantization group.
     """
@@ -155,17 +181,18 @@ def persistent_masked_m_silu_mul_quant(
     fp8_dtype = torch.float8_e4m3fn
     y_q = torch.empty((E, T, H), dtype=fp8_dtype, device=y.device)
 
-    stride_ys_e = T * G
-    stride_ys_t = 1
-    stride_ys_g = T
+    ys_shape, ys_strides, ys_dtype = scales_shape_stride_dtype(E, T, G, quant_scale_fmt)
     y_s = torch.empty_strided(
-        (E, T, G),
-        (stride_ys_e, stride_ys_t, stride_ys_g),
-        dtype=torch.float32,
+        ys_shape,
+        ys_strides,
+        dtype=ys_dtype,
         device=y.device,
     )
 
-    use_ue8m0 = use_ue8m0 if use_ue8m0 is not None else is_deep_gemm_e8m0_used()
+    ceil_ue8m0 = quant_scale_fmt in [
+        DeepGemmQuantScaleFMT.FLOAT32_CEIL_UE8M0,
+        DeepGemmQuantScaleFMT.UE8M0,
+    ]
 
     cuda_arch = current_platform.get_device_capability(
         device_id=y.device.index
@@ -173,7 +200,7 @@ def persistent_masked_m_silu_mul_quant(
 
     if cuda_arch >= 80:
         torch.ops._C.persistent_masked_m_silu_mul_quant(
-            y, tokens_per_expert, y_q, y_s, use_ue8m0
+            y, tokens_per_expert, y_q, y_s, ceil_ue8m0
         )
     else:
         stride_cnt_e = tokens_per_expert.stride()[0]
@@ -189,6 +216,10 @@ def persistent_masked_m_silu_mul_quant(
         fp8_max = f_info.max
         fp8_min = f_info.min
         eps: float = 1e-10
+        assert y_s.dtype == torch.float32, (
+            "_silu_mul_fp8_quant_deep_gemm does"
+            "not support {y_s.dtype} scales. Only torch.float32 supported."
+        )
         _silu_mul_fp8_quant_deep_gemm[grid](
             y,
             y_q,
@@ -202,14 +233,14 @@ def persistent_masked_m_silu_mul_quant(
             stride_yq_e,
             stride_yq_t,
             stride_yq_h,
-            stride_ys_e,
-            stride_ys_t,
-            stride_ys_g,
+            ys_strides[0],
+            ys_strides[1],
+            ys_strides[2],
             stride_cnt_e,
             eps,
             fp8_min,
             fp8_max,
-            is_deep_gemm_e8m0_used(),
+            ceil_ue8m0,
             BLOCK=group_size,
             NUM_STAGES=4,
             num_warps=1,
@@ -255,7 +286,7 @@ class BatchedDeepGemmExperts(mk.FusedMoEPermuteExpertsUnpermute):
         """
         DeepGemm supports packed ue8m0 activation scales format in devices == sm100
         """
-        return current_platform.is_device_capability(100)
+        return is_deep_gemm_e8m0_used() and current_platform.is_device_capability(100)
 
     def finalize_weight_and_reduce_impl(self) -> mk.TopKWeightAndReduce:
         # Let PrepareAndFinalize::finalize() decide the impl.
@@ -329,10 +360,17 @@ class BatchedDeepGemmExperts(mk.FusedMoEPermuteExpertsUnpermute):
             expected_m,
         )
 
+        quant_scale_fmt = DeepGemmQuantScaleFMT.from_oracle()
         a2q, a2q_scale = persistent_masked_m_silu_mul_quant(
-            workspace1, expert_num_tokens
+            workspace1,
+            expert_num_tokens,
+            quant_scale_fmt=quant_scale_fmt,
         )
 
         fp8_m_grouped_gemm_nt_masked(
-            (a2q, a2q_scale), (w2, self.w2_scale), output, expert_num_tokens, expected_m
+            (a2q, a2q_scale),
+            (w2, self.w2_scale),
+            output,
+            expert_num_tokens,
+            expected_m,
         )
diff --git a/vllm/utils/deep_gemm.py b/vllm/utils/deep_gemm.py
index 4c15baf7a8f93..b5ab37534dd78 100644
--- a/vllm/utils/deep_gemm.py
+++ b/vllm/utils/deep_gemm.py
@@ -9,6 +9,7 @@ import functools
 import importlib
 import os
 from collections.abc import Callable
+from enum import Enum
 from typing import Any, NoReturn
 
 import torch
@@ -20,6 +21,28 @@ from vllm.utils.import_utils import has_deep_gemm
 from vllm.utils.math_utils import cdiv
 
 
+class DeepGemmQuantScaleFMT(Enum):
+    # Float32 scales in Float32 tensor
+    FLOAT32 = 0
+    # Compute float32 scales and ceil the scales to UE8M0.
+    # Keep the scales in Float32 tensor.
+    FLOAT32_CEIL_UE8M0 = 1
+    # Compute float32 scales and ceil the scales to UE8M0.
+    # Pack the scales into a int32 tensor where each int32
+    # element contains 4 scale values.
+    UE8M0 = 2
+
+    @staticmethod
+    def from_oracle() -> "DeepGemmQuantScaleFMT":
+        if not is_deep_gemm_e8m0_used():
+            return DeepGemmQuantScaleFMT.FLOAT32
+        return (
+            DeepGemmQuantScaleFMT.UE8M0
+            if current_platform.is_device_capability(100)
+            else DeepGemmQuantScaleFMT.FLOAT32_CEIL_UE8M0
+        )
+
+
 @functools.cache
 def is_deep_gemm_supported() -> bool:
     """Return `True` if DeepGEMM is supported on the current platform.

From 119c4927b33f78cb8bb2283a57ee0e3a14021777 Mon Sep 17 00:00:00 2001
From: Yannick Schnider <Yannick.Schnider1@ibm.com>
Date: Thu, 13 Nov 2025 19:18:47 +0100
Subject: [PATCH 418/976] [Bugfix] Fix validate model input for decoder models
 (#27099)

Signed-off-by: Yannick Schnider <yannick.schnider1@ibm.com>
Signed-off-by: Yannick Schnider <Yannick.Schnider1@ibm.com>
Signed-off-by: Michael Goin <mgoin64@gmail.com>
Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
Co-authored-by: Michael Goin <mgoin64@gmail.com>
Co-authored-by: Roger Wang <hey@rogerw.io>
---
 tests/v1/e2e/test_context_length.py | 63 +++++++++++++++++++++++++++++
 vllm/v1/engine/processor.py         | 15 +++++++
 2 files changed, 78 insertions(+)
 create mode 100644 tests/v1/e2e/test_context_length.py

diff --git a/tests/v1/e2e/test_context_length.py b/tests/v1/e2e/test_context_length.py
new file mode 100644
index 0000000000000..0ac40bec35fe2
--- /dev/null
+++ b/tests/v1/e2e/test_context_length.py
@@ -0,0 +1,63 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+Tests for vLLM `vllm/v1/engine/processor.Processor._validate_model_input()`
+handling of maximum context length for decoder models.
+
+This test ensures:
+- A prompt that is one token shorter than the model's maximum context length
+  can be processed successfully when requesting one additional token.
+- A prompt that reaches the model's maximum context length throws a
+  `ValueError` when requesting at least one additional token.
+"""
+
+import pytest
+
+from tests.conftest import VllmRunner
+from tests.utils import create_new_process_for_each_test
+
+
+@create_new_process_for_each_test()
+@pytest.mark.parametrize("model, max_model_len", [("JackFram/llama-160m", 2048)])
+@pytest.mark.parametrize(
+    "prompt_len, max_tokens",
+    [
+        (2047, 1),  # prompt_len = max_model_len - 1 -> allowed
+        (2048, 1),  # prompt_len = max_model_len -> not allowed
+    ],
+)
+def test_decoder_max_context_length_validation(
+    model: str,
+    max_model_len: int,
+    vllm_runner: type[VllmRunner],
+    prompt_len: int,
+    max_tokens: int,
+) -> None:
+    """Check vLLM decoder model input validation for edge cases where
+    the prompt length is (almost) equal to the max model length."""
+
+    prompt_ids = [[43] * prompt_len]
+
+    with vllm_runner(
+        model_name=model,
+        tokenizer_name=model,
+        max_model_len=max_model_len,
+        max_num_seqs=1,
+        tensor_parallel_size=1,
+    ) as vllm_model:
+        if prompt_len + max_tokens <= max_model_len:
+            # Should succeed as constraints are met
+            vllm_model.generate_greedy(prompt_ids, max_tokens)
+        else:
+            # Should raise the ValueError defined in
+            # vllm/v1/engine/processor.Processor_validate_model_input()
+            expected_msg = (
+                f"The decoder prompt (length {prompt_len}) plus the number of "
+                f"requested output tokens (at least 1) is longer than "
+                f"the maximum model length of {max_model_len}. "
+                "Make sure that `max_model_len` is no smaller than the number of "
+                "text tokens (prompt + requested output tokens)."
+            )
+            with pytest.raises(ValueError) as excinfo:
+                vllm_model.generate_greedy(prompt_ids, max_tokens)
+            assert expected_msg in str(excinfo.value)
diff --git a/vllm/v1/engine/processor.py b/vllm/v1/engine/processor.py
index f2d992403e1a8..69509d5d4712a 100644
--- a/vllm/v1/engine/processor.py
+++ b/vllm/v1/engine/processor.py
@@ -575,6 +575,21 @@ class Processor:
             # check that chunked prefill does not truncate them
             # max_batch_len = self.scheduler_config.max_num_batched_tokens
 
+        if (
+            prompt_len == max_prompt_len
+            and prompt_type == "decoder"
+            and not model_config.is_multimodal_model
+        ):
+            suggestion = (
+                "Make sure that `max_model_len` is no smaller than the "
+                "number of text tokens (prompt + requested output tokens)."
+            )
+            raise ValueError(
+                f"The {prompt_type} prompt (length {prompt_len}) plus the number of "
+                f"requested output tokens (at least 1) is longer than the maximum "
+                f"model length of {max_prompt_len}. {suggestion}"
+            )
+
     def stat_mm_cache(self) -> MultiModalCacheStats | None:
         return self.input_preprocessor.stat_mm_cache()
 

From f9f3b596f374c4a01acef275ee1f35398bb05164 Mon Sep 17 00:00:00 2001
From: Matthew Bonanni <mbonanni@redhat.com>
Date: Thu, 13 Nov 2025 12:20:01 -0600
Subject: [PATCH 419/976] [Attention][Bugfix] Fix FA sink support (#28660)

Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>
---
 vllm/v1/attention/backends/flash_attn.py | 6 ++++++
 1 file changed, 6 insertions(+)

diff --git a/vllm/v1/attention/backends/flash_attn.py b/vllm/v1/attention/backends/flash_attn.py
index bfb4a45c2b566..81623549ae850 100755
--- a/vllm/v1/attention/backends/flash_attn.py
+++ b/vllm/v1/attention/backends/flash_attn.py
@@ -130,6 +130,12 @@ class FlashAttentionBackend(AttentionBackend):
             return flash_attn_supports_fp8()
         return kv_cache_dtype in ["auto"]
 
+    @classmethod
+    def supports_sink(cls) -> bool:
+        if not is_flash_attn_varlen_func_available():
+            return False
+        return flash_attn_supports_sinks()
+
     @classmethod
     def supports_compute_capability(cls, capability: DeviceCapability) -> bool:
         return capability >= DeviceCapability(8, 0)

From 5d6ce2b9601f3251487e44eb9e00c098101c4af6 Mon Sep 17 00:00:00 2001
From: elvischenv <219235043+elvischenv@users.noreply.github.com>
Date: Fri, 14 Nov 2025 02:21:25 +0800
Subject: [PATCH 420/976] [Perf] Support stream interval for reducing host
 overhead (#27869)

Signed-off-by: elvischenv <219235043+elvischenv@users.noreply.github.com>
Co-authored-by: Nick Hill <nhill@redhat.com>
---
 tests/v1/engine/test_output_processor.py | 18 ++++++++++--
 vllm/config/scheduler.py                 |  6 ++++
 vllm/engine/arg_utils.py                 |  6 ++++
 vllm/v1/engine/async_llm.py              |  3 +-
 vllm/v1/engine/llm_engine.py             |  3 +-
 vllm/v1/engine/output_processor.py       | 36 +++++++++++++++++++++++-
 6 files changed, 67 insertions(+), 5 deletions(-)

diff --git a/tests/v1/engine/test_output_processor.py b/tests/v1/engine/test_output_processor.py
index d77a119ec60f8..8e1198b315bd1 100644
--- a/tests/v1/engine/test_output_processor.py
+++ b/tests/v1/engine/test_output_processor.py
@@ -49,10 +49,15 @@ def _ref_convert_id_to_token(
 @pytest.mark.parametrize(
     "request_output_kind", [RequestOutputKind.DELTA, RequestOutputKind.FINAL_ONLY]
 )
+@pytest.mark.parametrize("stream_interval", [1, 5, 10])
 def test_incremental_detokenization(
-    request_output_kind: RequestOutputKind, dummy_test_vectors
+    request_output_kind: RequestOutputKind,
+    stream_interval: int,
+    dummy_test_vectors,
 ):
-    output_processor = OutputProcessor(dummy_test_vectors.tokenizer, log_stats=False)
+    output_processor = OutputProcessor(
+        dummy_test_vectors.tokenizer, log_stats=False, stream_interval=stream_interval
+    )
     engine_core = MockEngineCore(tokens_list=dummy_test_vectors.generation_tokens)
 
     # Make N requests.
@@ -104,9 +109,18 @@ def test_incremental_detokenization(
             if request_id not in gen_strings:
                 gen_strings[request_id] = new_text
                 gen_tokens[request_id] = new_tokens
+                if request_output_kind == RequestOutputKind.DELTA:
+                    assert len(new_tokens) == 1, f"{len(new_tokens)=}"
             else:
                 gen_strings[request_id] += new_text
                 gen_tokens[request_id].extend(new_tokens)
+                if (
+                    request_output_kind == RequestOutputKind.DELTA
+                    and not request_output.finished
+                ):
+                    assert len(new_tokens) >= stream_interval, (
+                        f"{len(new_tokens)=}, {stream_interval=}"
+                    )
 
     # Confirmed tracked values matches what we expected.
     for idx, (ref_gen_str, ref_gen_toks) in enumerate(
diff --git a/vllm/config/scheduler.py b/vllm/config/scheduler.py
index 47aa343527b39..71a06e167fd9d 100644
--- a/vllm/config/scheduler.py
+++ b/vllm/config/scheduler.py
@@ -142,6 +142,12 @@ class SchedulerConfig:
     speculative decoding and pipeline parallelism.
     """
 
+    stream_interval: int = Field(default=1, ge=1)
+    """The interval (or buffer size) for streaming in terms of token length.
+    A smaller value (1) makes streaming smoother by sending each token immediately,
+    while a larger value (e.g., 10) reduces host overhead and may increase throughput
+    by batching multiple tokens before sending."""
+
     def get_scheduler_cls(self) -> type["SchedulerInterface"]:
         if self.scheduler_cls is None:
             if self.async_scheduling:
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index ca7f5e5e3e056..b025004ea022c 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -558,6 +558,8 @@ class EngineArgs:
 
     async_scheduling: bool | None = SchedulerConfig.async_scheduling
 
+    stream_interval: int = SchedulerConfig.stream_interval
+
     kv_sharing_fast_prefill: bool = CacheConfig.kv_sharing_fast_prefill
 
     kv_offloading_size: float | None = CacheConfig.kv_offloading_size
@@ -1067,6 +1069,9 @@ class EngineArgs:
         scheduler_group.add_argument(
             "--async-scheduling", **scheduler_kwargs["async_scheduling"]
         )
+        scheduler_group.add_argument(
+            "--stream-interval", **scheduler_kwargs["stream_interval"]
+        )
 
         # Compilation arguments
         compilation_kwargs = get_kwargs(CompilationConfig)
@@ -1562,6 +1567,7 @@ class EngineArgs:
             long_prefill_token_threshold=self.long_prefill_token_threshold,
             disable_hybrid_kv_cache_manager=self.disable_hybrid_kv_cache_manager,
             async_scheduling=self.async_scheduling,
+            stream_interval=self.stream_interval,
         )
 
         if not model_config.is_multimodal_model and self.default_mm_loras:
diff --git a/vllm/v1/engine/async_llm.py b/vllm/v1/engine/async_llm.py
index aee21fb3fffe7..48ea6ef8515c9 100644
--- a/vllm/v1/engine/async_llm.py
+++ b/vllm/v1/engine/async_llm.py
@@ -120,8 +120,9 @@ class AsyncLLM(EngineClient):
         )
 
         # OutputProcessor (converts EngineCoreOutputs --> RequestOutput).
+        stream_interval = self.vllm_config.scheduler_config.stream_interval
         self.output_processor = OutputProcessor(
-            self.tokenizer, log_stats=self.log_stats
+            self.tokenizer, log_stats=self.log_stats, stream_interval=stream_interval
         )
         endpoint = self.observability_config.otlp_traces_endpoint
         if endpoint is not None:
diff --git a/vllm/v1/engine/llm_engine.py b/vllm/v1/engine/llm_engine.py
index 6224af5700b7b..1db83446ba0b5 100644
--- a/vllm/v1/engine/llm_engine.py
+++ b/vllm/v1/engine/llm_engine.py
@@ -96,8 +96,9 @@ class LLMEngine:
         )
 
         # OutputProcessor (convert EngineCoreOutputs --> RequestOutput).
+        stream_interval = self.vllm_config.scheduler_config.stream_interval
         self.output_processor = OutputProcessor(
-            self.tokenizer, log_stats=self.log_stats
+            self.tokenizer, log_stats=self.log_stats, stream_interval=stream_interval
         )
         endpoint = self.observability_config.otlp_traces_endpoint
         if endpoint is not None:
diff --git a/vllm/v1/engine/output_processor.py b/vllm/v1/engine/output_processor.py
index d8d03f19d4663..bdbbfe2595f81 100644
--- a/vllm/v1/engine/output_processor.py
+++ b/vllm/v1/engine/output_processor.py
@@ -104,6 +104,7 @@ class RequestState:
         arrival_time: float,
         queue: RequestOutputCollector | None,
         log_stats: bool,
+        stream_interval: int,
         top_p: float | None = None,
         n: int | None = None,
         temperature: float | None = None,
@@ -131,6 +132,10 @@ class RequestState:
 
         self.stats = RequestStateStats(arrival_time=arrival_time) if log_stats else None
 
+        # Stream Interval
+        self.stream_interval = stream_interval
+        self.sent_tokens_offset = 0  # Offset of sent tokens
+
     @classmethod
     def from_new_request(
         cls,
@@ -141,6 +146,7 @@ class RequestState:
         request_index: int,
         queue: RequestOutputCollector | None,
         log_stats: bool,
+        stream_interval: int,
     ) -> "RequestState":
         if sampling_params := request.sampling_params:
             if not sampling_params.detokenize:
@@ -188,6 +194,7 @@ class RequestState:
             arrival_time=request.arrival_time,
             queue=queue,
             log_stats=log_stats,
+            stream_interval=stream_interval,
         )
 
     def make_request_output(
@@ -205,6 +212,29 @@ class RequestState:
             # Only the final output is required in FINAL_ONLY mode.
             return None
 
+        if self.stream_interval > 1:
+            assert self.detokenizer is not None
+
+            # Send output request only when
+            # 1. It has finished, or
+            # 2. It is the first token, or
+            # 3. It has reached the stream interval number of tokens
+            if not (
+                finished
+                or self.sent_tokens_offset == 0
+                or len(self.detokenizer.output_token_ids) - self.sent_tokens_offset
+                >= self.stream_interval
+            ):
+                return None
+
+            if self.output_kind == RequestOutputKind.DELTA:
+                # Send tokens from the offset in DELTA mode, otherwise all
+                # tokens are sent.
+                new_token_ids = self.detokenizer.output_token_ids[
+                    self.sent_tokens_offset :
+                ]
+                self.sent_tokens_offset = len(self.detokenizer.output_token_ids)
+
         request_id = self.request_id
         if pooling_output is not None:
             return self._new_request_output(
@@ -310,9 +340,12 @@ class RequestState:
 class OutputProcessor:
     """Process EngineCoreOutputs into RequestOutputs."""
 
-    def __init__(self, tokenizer: AnyTokenizer, log_stats: bool):
+    def __init__(
+        self, tokenizer: AnyTokenizer, log_stats: bool, stream_interval: int = 1
+    ):
         self.log_stats = log_stats
         self.tokenizer = tokenizer
+        self.stream_interval = stream_interval
         self.request_states: dict[str, RequestState] = {}
         self.parent_requests: dict[str, ParentRequest] = {}
         self.lora_states = LoRARequestStates(log_stats)
@@ -385,6 +418,7 @@ class OutputProcessor:
             request_index=request_index,
             queue=queue,
             log_stats=self.log_stats,
+            stream_interval=self.stream_interval,
         )
         self.request_states[request_id] = req_state
         if parent_req:

From 968060c15adc0b68a76d37db00acf1273a23b829 Mon Sep 17 00:00:00 2001
From: Qiu <qiuchunshuo@huawei.com>
Date: Fri, 14 Nov 2025 03:29:22 +0800
Subject: [PATCH 421/976] [bugfix] correct local_chunk_len for DCP in
 reorg_kvcache with long context (#28526)

Signed-off-by: QiuChunshuo <qiuchunshuo@huawei.com>
Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
---
 vllm/v1/attention/backends/mla/common.py | 29 ++++++++++++++++++++----
 1 file changed, 25 insertions(+), 4 deletions(-)

diff --git a/vllm/v1/attention/backends/mla/common.py b/vllm/v1/attention/backends/mla/common.py
index 467c01cd9d069..2ccdd1f143ce8 100755
--- a/vllm/v1/attention/backends/mla/common.py
+++ b/vllm/v1/attention/backends/mla/common.py
@@ -337,6 +337,7 @@ class MLACommonPrefillMetadata:
         local_context_lens_allranks: list[list[int]] | None = None
         padded_local_cu_seq_lens: torch.Tensor | None = None
         cu_seq_lens_lst: list[list[int]] | None = None
+        chunk_size: int | None = None
 
     block_table: torch.Tensor
     query_start_loc: torch.Tensor
@@ -902,6 +903,7 @@ class MLACommonMetadataBuilder(AttentionMetadataBuilder[M]):
                             device, non_blocking=True
                         ),
                         cu_seq_lens_lst=cu_seq_lens_cpu.tolist(),
+                        chunk_size=padded_local_max_context_chunk_across_ranks,
                     )
                 else:
                     chunked_context_metadata = chunked_context_metadata_cls(
@@ -986,6 +988,8 @@ def reorg_kvcache(
     local_context_lens_allranks: list[list[int]],
     sum_seq_len: int,
     max_seq_len: int,
+    chunk_size: int,
+    chunk_idx: int,
     toks: int,
 ) -> tuple[torch.Tensor, torch.Tensor]:
     """
@@ -1001,6 +1005,9 @@ def reorg_kvcache(
         local_context_lens_allranks: local context lengths on each CP rank.
         sum_seq_len: the sum of cp_chunk_seq_lens_lst.
         max_seq_len: the max value of cp_chunk_seq_lens_lst.
+        chunk_size: the local padded max context chunk from
+            chunked_context_metadata building.
+        chunk_idx: chunk idx of chunked_prefill.
         toks: the number of tokens for local gather cache.
     """
     kv_c_segments = []
@@ -1012,20 +1019,31 @@ def reorg_kvcache(
     ):
         cur_seq_len = 0
         for rank, local_context_len in enumerate(local_context_lens):
-            if local_context_len != 0:
+            # Note(qcs): We split the context into multiple chunks,
+            # depending on the size of the workspace.
+            # local_context in dcp0:   |-----------------|
+            # local_context in dcp1:   |--------------|
+            # n*padded_local_chunk:    |-----|-----|-----|
+            # local_chunk_len in dcp1: |-----|-----|--|
+            # so we need update the last chunk length in dcp1.
+            local_chunk_len = min(
+                max(0, local_context_len - chunk_idx * chunk_size),
+                padded_local_chunk_seq_len,
+            )
+            if local_chunk_len != 0:
                 kv_c_segment = allgatered_kv_c_normed[
                     rank * toks + src_token_idx : rank * toks
                     + src_token_idx
-                    + local_context_len
+                    + local_chunk_len
                 ]
                 k_pe_segment = allgatered_k_pe[
                     rank * toks + src_token_idx : rank * toks
                     + src_token_idx
-                    + local_context_len
+                    + local_chunk_len
                 ]
                 kv_c_segments.append(kv_c_segment)
                 k_pe_segments.append(k_pe_segment)
-                cur_seq_len += local_context_len
+                cur_seq_len += local_chunk_len
         max_seq_len_check = max(max_seq_len_check, cur_seq_len)
         src_token_idx += padded_local_chunk_seq_len
     reorganized_kv_c_normed = torch.cat(kv_c_segments, dim=0)
@@ -1676,6 +1694,7 @@ class MLACommonImpl(MLACommonBaseImpl[M], Generic[M]):
         assert prefill_metadata.chunked_context.local_context_lens_allranks is not None
         assert prefill_metadata.chunked_context.padded_local_cu_seq_lens is not None
         assert prefill_metadata.chunked_context.cu_seq_lens_lst is not None
+        assert prefill_metadata.chunked_context.chunk_size is not None
 
         output = None
         iters = len(prefill_metadata.chunked_context.seq_tot)
@@ -1725,6 +1744,8 @@ class MLACommonImpl(MLACommonBaseImpl[M], Generic[M]):
                 local_context_lens_allranks=prefill_metadata.chunked_context.local_context_lens_allranks,
                 sum_seq_len=prefill_metadata.chunked_context.cu_seq_lens_lst[i][-1],
                 max_seq_len=prefill_metadata.chunked_context.max_seq_lens[i],
+                chunk_size=prefill_metadata.chunked_context.chunk_size,
+                chunk_idx=i,
                 toks=toks,
             )
 

From 262d263f6c56fa95e15422d3a475da8efdf67cc1 Mon Sep 17 00:00:00 2001
From: Yanan Cao <gmagogsfm@users.noreply.github.com>
Date: Thu, 13 Nov 2025 12:09:05 -0800
Subject: [PATCH 422/976] [Bugfix] Eliminate tuple inputs to submodules in
 graph partitioning (#28533)

Signed-off-by: Yanan Cao <gmagogsfm@gmail.com>
---
 .buildkite/test-pipeline.yaml         |   1 +
 tests/compile/test_graph_partition.py | 124 ++++++++++++++++++++++++++
 vllm/compilation/backends.py          |  17 +++-
 3 files changed, 140 insertions(+), 2 deletions(-)
 create mode 100644 tests/compile/test_graph_partition.py

diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index be1b79ddc4324..52539728215bb 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -445,6 +445,7 @@ steps:
     - vllm/
     - tests/compile
   commands:
+    - pytest -v -s compile/test_graph_partition.py
     - pytest -v -s compile/test_config.py
     - pytest -v -s compile/test_pass_manager.py
     - pytest -v -s compile/test_fusion.py
diff --git a/tests/compile/test_graph_partition.py b/tests/compile/test_graph_partition.py
new file mode 100644
index 0000000000000..1cd783843a626
--- /dev/null
+++ b/tests/compile/test_graph_partition.py
@@ -0,0 +1,124 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import operator
+
+import pytest
+import torch
+from torch.fx.experimental.proxy_tensor import make_fx
+
+from vllm.compilation.backends import split_graph
+
+
+def test_getitem_moved_to_producer_subgraph():
+    """
+    Test that getitem operations are moved to the same subgraph as their input,
+    preventing tuple inputs to submodules.
+    """
+
+    def model_fn(x: torch.Tensor) -> torch.Tensor:
+        # torch.split returns a tuple, creating real getitem operations
+        # Should become first submodule that produces tuple
+        chunks = torch.split(x, x.shape[0] // 2, dim=0)
+
+        # Following ops should become second submodule that consumes tuple
+        result_0 = torch.relu(chunks[0])
+        result_1 = torch.relu(chunks[1])
+        return torch.cat([result_0, result_1], dim=0)
+
+    x = torch.randn(4, 3)
+    gm = make_fx(model_fn)(x)
+
+    has_getitem = any(
+        node.op == "call_function" and node.target == operator.getitem
+        for node in gm.graph.nodes
+    )
+    assert has_getitem, "Test setup failed: graph should contain getitem operations"
+
+    # Split on tuple producer aten::split
+    split_ops = ["aten::split.Tensor"]
+    split_gm, split_items = split_graph(gm, split_ops)
+    assert len(split_items) == 2, "Graph should be split into 2 submodules"
+
+    for split_item in split_items:
+        submodule = split_item.graph
+
+        getitem_on_placeholder = []
+        for node in submodule.graph.nodes:
+            if (
+                node.op == "call_function"
+                and node.target == operator.getitem
+                and node.args[0].op == "placeholder"
+            ):
+                getitem_on_placeholder.append(node)
+
+        assert len(getitem_on_placeholder) == 0, (
+            f"Submodule {split_item.submod_name} has getitem operations on "
+            f"placeholder nodes: {[n.name for n in getitem_on_placeholder]}. "
+            "This means tuple inputs were not properly eliminated."
+        )
+
+    new_x = torch.randn(4, 3)
+    output_original = gm(new_x)
+    output_split = split_gm(new_x)
+
+    assert torch.allclose(output_original, output_split), "Output mismatch"
+
+
+def test_no_tuple_inputs_with_multiple_consumers():
+    """
+    Test that when a tuple is consumed by multiple split operations,
+    getitem operations are properly moved to avoid tuple inputs.
+    """
+
+    def model_fn(x: torch.Tensor) -> torch.Tensor:
+        # torch.split returns a tuple, creating real getitem operations
+        # Should become first submodule that produces tuple
+        chunks = torch.split(x, x.shape[0] // 2, dim=0)
+
+        # These should become second submodule consuming tuple
+        result_1 = torch.relu(chunks[0])
+        result_2 = torch.relu(chunks[1])
+
+        # Artificial graph splitting point to create another
+        # independent submodule that consumes tuple later
+        # This would become the third submodule
+        result_1 = torch.sigmoid(result_1)
+
+        # Fourth submodule that consumes tuple
+        result = torch.cat([chunks[0], chunks[1], result_1, result_2])
+        return result
+
+    x = torch.randn(4, 3)
+    gm = make_fx(model_fn)(x)
+
+    has_getitem = any(
+        node.op == "call_function" and node.target == operator.getitem
+        for node in gm.graph.nodes
+    )
+    assert has_getitem, "Test setup failed: graph should contain getitem operations"
+
+    split_ops = ["aten::split.Tensor", "aten::sigmoid"]
+    split_gm, split_items = split_graph(gm, split_ops)
+    assert len(split_items) == 4, "Graph should be split into 4 submodules"
+
+    for split_item in split_items:
+        submodule = split_item.graph
+
+        for node in submodule.graph.nodes:
+            if (
+                node.op == "call_function"
+                and node.target == operator.getitem
+                and node.args[0].op == "placeholder"
+            ):
+                pytest.fail(
+                    f"Submodule {split_item.submod_name} has getitem on "
+                    f"placeholder {node.args[0].name}, indicating it receives "
+                    "a tuple input"
+                )
+
+    new_x = torch.randn(4, 3)
+    output_original = gm(new_x)
+    output_split = split_gm(new_x)
+
+    assert torch.allclose(output_original, output_split), "Output mismatch after split"
diff --git a/vllm/compilation/backends.py b/vllm/compilation/backends.py
index be69075f94f09..60ef6eef21663 100644
--- a/vllm/compilation/backends.py
+++ b/vllm/compilation/backends.py
@@ -4,6 +4,7 @@
 import ast
 import dataclasses
 import hashlib
+import operator
 import os
 import pprint
 import time
@@ -307,12 +308,24 @@ def split_graph(
 ) -> tuple[fx.GraphModule, list[SplitItem]]:
     # split graph by ops
     subgraph_id = 0
-    node_to_subgraph_id = {}
-    split_op_graphs = []
+    node_to_subgraph_id: dict[fx.Node, int] = {}
+    split_op_graphs: list[int] = []
     for node in graph.graph.nodes:
         if node.op in ("output", "placeholder"):
             continue
 
+        # Check if this is a getitem operation on a node from an earlier subgraph.
+        # If so, assign it to the same subgraph as its input to avoid passing entire
+        # tuple as input to submodules, which is against standalone_compile and
+        # AoTAutograd input requirement.
+        if node.op == "call_function" and node.target == operator.getitem:
+            # Assign this getitem to the same subgraph as its input
+            input_node = node.args[0]
+            if input_node.op != "placeholder":
+                assert input_node in node_to_subgraph_id
+                node_to_subgraph_id[node] = node_to_subgraph_id[input_node]
+                continue
+
         if should_split(node, splitting_ops):
             subgraph_id += 1
             node_to_subgraph_id[node] = subgraph_id

From faed7bf07ec831529c5ed54e15b21e30b30dc16e Mon Sep 17 00:00:00 2001
From: Kebe <mail@kebe7jun.com>
Date: Fri, 14 Nov 2025 05:48:08 +0900
Subject: [PATCH 423/976] [Bugfix] [CPU] bump torch to 2.9.0 for Darwin to fix
 segmentation fault (#27791)

Signed-off-by: Kebe <mail@kebe7jun.com>
Signed-off-by: Michael Goin <mgoin64@gmail.com>
Co-authored-by: Michael Goin <mgoin64@gmail.com>
---
 requirements/cpu.txt | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/requirements/cpu.txt b/requirements/cpu.txt
index 605ce73bff9ce..d11787df4d92b 100644
--- a/requirements/cpu.txt
+++ b/requirements/cpu.txt
@@ -8,7 +8,7 @@ packaging>=24.2
 setuptools>=77.0.3,<81.0.0
 --extra-index-url https://download.pytorch.org/whl/cpu
 torch==2.8.0+cpu; platform_machine == "x86_64" or platform_machine == "s390x"
-torch==2.8.0; platform_system == "Darwin"
+torch==2.9.0; platform_system == "Darwin"
 torch==2.8.0; platform_machine == "ppc64le" or platform_machine == "aarch64"
 
 # required for the image processor of minicpm-o-2_6, this must be updated alongside torch

From 1b622deba73347f044c13fa80a09a5647d21a45c Mon Sep 17 00:00:00 2001
From: Simon Mo <simon.mo@hey.com>
Date: Thu, 13 Nov 2025 13:01:43 -0800
Subject: [PATCH 424/976] [Misc] Update CODEOWNERS for simon-mo and comaniac
 (#28675)

Signed-off-by: Simon Mo <simon.mo@hey.com>
---
 .github/CODEOWNERS | 16 ++++++++--------
 1 file changed, 8 insertions(+), 8 deletions(-)

diff --git a/.github/CODEOWNERS b/.github/CODEOWNERS
index f26c782bccf2c..bfb0e91fd06e2 100644
--- a/.github/CODEOWNERS
+++ b/.github/CODEOWNERS
@@ -3,8 +3,8 @@
 
 # This lists cover the "core" components of vLLM that require careful review
 /vllm/attention @LucasWilkinson
-/vllm/attention/backends/abstract.py @WoosukKwon @zhuohan123 @youkaichao @alexm-redhat @comaniac @njhill
-/vllm/executor/executor_base.py @zhuohan123 @youkaichao @alexm-redhat @comaniac @njhill @22quinn
+/vllm/attention/backends/abstract.py @WoosukKwon @zhuohan123 @youkaichao @alexm-redhat @njhill
+/vllm/executor/executor_base.py @zhuohan123 @youkaichao @alexm-redhat @njhill @22quinn
 /vllm/model_executor/layers/fused_moe @mgoin @pavanimajety
 /vllm/model_executor/layers/quantization @mgoin @robertgshaw2-redhat @tlrmchlsmth @yewentao256 @pavanimajety
 /vllm/model_executor/layers/mamba @tdoublep
@@ -20,15 +20,15 @@ CMakeLists.txt @tlrmchlsmth @LucasWilkinson
 
 # Any change to the VllmConfig changes can have a large user-facing impact,
 # so spam a lot of people
-/vllm/config @simon-mo @WoosukKwon @youkaichao @robertgshaw2-redhat @mgoin @tlrmchlsmth @houseroad @hmellor @yewentao256 @ProExpertProg
-/vllm/config/cache.py @simon-mo @WoosukKwon @youkaichao @robertgshaw2-redhat @mgoin @tlrmchlsmth @houseroad @hmellor @yewentao256 @ProExpertProg @heheda12345
+/vllm/config @WoosukKwon @youkaichao @robertgshaw2-redhat @mgoin @tlrmchlsmth @houseroad @hmellor @yewentao256 @ProExpertProg
+/vllm/config/cache.py @WoosukKwon @youkaichao @robertgshaw2-redhat @mgoin @tlrmchlsmth @houseroad @hmellor @yewentao256 @ProExpertProg @heheda12345
 
 # vLLM V1
 /vllm/v1/attention @LucasWilkinson
 /vllm/v1/attention/backends/mla @pavanimajety
 /vllm/v1/attention/backends/flashinfer.py @mgoin @pavanimajety
 /vllm/v1/attention/backends/triton_attn.py @tdoublep
-/vllm/v1/core @WoosukKwon @robertgshaw2-redhat @njhill @ywang96 @comaniac @alexm-redhat @heheda12345 @ApostaC
+/vllm/v1/core @WoosukKwon @robertgshaw2-redhat @njhill @ywang96 @alexm-redhat @heheda12345 @ApostaC
 /vllm/v1/sample @22quinn @houseroad @njhill
 /vllm/v1/spec_decode @benchislett @luccafong
 /vllm/v1/structured_output @mgoin @russellb @aarnphm @benchislett
@@ -36,11 +36,11 @@ CMakeLists.txt @tlrmchlsmth @LucasWilkinson
 /vllm/v1/offloading @ApostaC
 
 # Test ownership
-/.buildkite/lm-eval-harness @mgoin @simon-mo
+/.buildkite/lm-eval-harness @mgoin 
 /tests/distributed/test_multi_node_assignment.py @youkaichao
 /tests/distributed/test_pipeline_parallel.py @youkaichao
 /tests/distributed/test_same_node.py @youkaichao
-/tests/entrypoints @DarkLight1337 @robertgshaw2-redhat @simon-mo @aarnphm @NickLucche
+/tests/entrypoints @DarkLight1337 @robertgshaw2-redhat @aarnphm @NickLucche
 /tests/evals @mgoin
 /tests/kernels @mgoin @tlrmchlsmth @WoosukKwon @yewentao256
 /tests/models @DarkLight1337 @ywang96
@@ -49,7 +49,7 @@ CMakeLists.txt @tlrmchlsmth @LucasWilkinson
 /tests/test_inputs.py @DarkLight1337 @ywang96
 /tests/v1/entrypoints/llm/test_struct_output_generate.py @mgoin @russellb @aarnphm
 /tests/v1/structured_output @mgoin @russellb @aarnphm
-/tests/v1/core @WoosukKwon @robertgshaw2-redhat @njhill @ywang96 @comaniac @alexm-redhat @heheda12345 @ApostaC
+/tests/v1/core @WoosukKwon @robertgshaw2-redhat @njhill @ywang96 @alexm-redhat @heheda12345 @ApostaC
 /tests/weight_loading @mgoin @youkaichao @yewentao256
 /tests/lora @jeejeelee
 /tests/models/language/generation/test_hybrid.py @tdoublep

From e64011f29a63ef9c4fc67bad1fd42af4f3cfad35 Mon Sep 17 00:00:00 2001
From: Wentao Ye <44945378+yewentao256@users.noreply.github.com>
Date: Thu, 13 Nov 2025 17:19:35 -0500
Subject: [PATCH 425/976] [CI] Bug: Fix ci entrypoint pooling (#28684)

Signed-off-by: yewentao256 <zhyanwentao@126.com>
---
 vllm/v1/engine/processor.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/vllm/v1/engine/processor.py b/vllm/v1/engine/processor.py
index 69509d5d4712a..0404f6ff2771c 100644
--- a/vllm/v1/engine/processor.py
+++ b/vllm/v1/engine/processor.py
@@ -579,6 +579,7 @@ class Processor:
             prompt_len == max_prompt_len
             and prompt_type == "decoder"
             and not model_config.is_multimodal_model
+            and self.model_config.runner_type != "pooling"
         ):
             suggestion = (
                 "Make sure that `max_model_len` is no smaller than the "

From 6e25b1cddfd78eab307acdb5e3ec14475e465d90 Mon Sep 17 00:00:00 2001
From: Mark McLoughlin <markmc@redhat.com>
Date: Thu, 13 Nov 2025 23:30:59 +0000
Subject: [PATCH 426/976] [KV Connector] Test async mode in scheduler tests
 (#28550)

Signed-off-by: Mark McLoughlin <markmc@redhat.com>
---
 tests/v1/core/test_scheduler.py     | 100 ++++++++++++++++++----------
 tests/v1/core/utils.py              |  24 +++++--
 tests/v1/kv_connector/unit/utils.py |  86 +++++++++++++++++++++++-
 3 files changed, 165 insertions(+), 45 deletions(-)

diff --git a/tests/v1/core/test_scheduler.py b/tests/v1/core/test_scheduler.py
index d5b829e79b8f7..d31338220fca1 100644
--- a/tests/v1/core/test_scheduler.py
+++ b/tests/v1/core/test_scheduler.py
@@ -31,11 +31,11 @@ from vllm.v1.kv_cache_interface import (
     KVCacheConfig,
     KVCacheGroupSpec,
 )
-from vllm.v1.outputs import DraftTokenIds, ModelRunnerOutput
+from vllm.v1.outputs import DraftTokenIds, KVConnectorOutput, ModelRunnerOutput
 from vllm.v1.request import Request, RequestStatus
 from vllm.v1.structured_output import StructuredOutputManager
 
-from .utils import EOS_TOKEN_ID, create_requests, create_scheduler
+from .utils import EOS_TOKEN_ID, create_requests, create_scheduler, mock_kv
 
 pytestmark = pytest.mark.cpu_test
 
@@ -888,27 +888,65 @@ def _step_until_done(
         all_finished = all_done
 
 
-def test_kv_connector_basic():
+def _step_until_kv_transfer_finished(scheduler: Scheduler, req_ids: list[str]):
+    """Cycle requests through a KV transfer cyle."""
+
+    # Requests should first transition to WAITING_FOR_REMOTE_KVS
+    output = scheduler.schedule()
+    assert len(scheduler.waiting) == len(req_ids)
+    assert len(scheduler.running) == 0
+    assert len(output.scheduled_new_reqs) == 0
+    for req in scheduler.requests.values():
+        assert req.status == RequestStatus.WAITING_FOR_REMOTE_KVS
+
+    # No model execution yet
+    EMPTY_OUTPUT = ModelRunnerOutput(
+        req_ids=[],
+        req_id_to_index={},
+        sampled_token_ids=[],
+        logprobs=None,
+        prompt_logprobs_dict={},
+        pooler_output=[],
+    )
+    scheduler.update_from_output(output, EMPTY_OUTPUT)
+
+    # Simulate KV transfer completion using KVConnectorOutput.finished_recving
+    output = scheduler.schedule()
+    assert len(scheduler.waiting) == len(req_ids)
+    assert len(scheduler.running) == 0
+
+    MODEL_RUNNER_OUTPUT = ModelRunnerOutput(
+        req_ids=[],
+        req_id_to_index={},
+        sampled_token_ids=[],
+        logprobs=None,
+        prompt_logprobs_dict={},
+        pooler_output=[],
+        kv_connector_output=KVConnectorOutput(finished_recving=req_ids),
+    )
+    scheduler.update_from_output(output, MODEL_RUNNER_OUTPUT)
+    for req_id in req_ids:
+        assert req_id in scheduler.finished_recving_kv_req_ids
+
+
+@pytest.mark.parametrize("is_async", [False, True])
+def test_kv_connector_basic(is_async: bool):
     """
     Test whether Scheduler with KVConnector schedules tokens, allocates
     memory, and cleans up requests as expected under normal operation.
     """
 
     # Setup Scheduler.
+    BLOCK_SIZE = 16
+    NUM_MATCHED_NEW_TOKENS = BLOCK_SIZE * 2
     scheduler = create_scheduler(
         enable_prefix_caching=True,
-        use_kv_connector=True,
+        use_kv_connector=mock_kv(
+            matched_tokens=NUM_MATCHED_NEW_TOKENS, is_async=is_async
+        ),
+        block_size=BLOCK_SIZE,
     )
     NUM_TOTAL_BLOCKS = scheduler.kv_cache_manager.block_pool.get_num_free_blocks()
-    BLOCK_SIZE = scheduler.cache_config.block_size
-
-    # Mock External Cache Hit.
-    NUM_MATCHED_NEW_TOKENS = BLOCK_SIZE * 2
-    scheduler.connector.get_num_new_matched_tokens = Mock(name="method")
-    scheduler.connector.get_num_new_matched_tokens.return_value = (
-        NUM_MATCHED_NEW_TOKENS,
-        False,
-    )
 
     ######################################################
     # FIRST SET OF REQUESTS - External Hit Only
@@ -928,6 +966,9 @@ def test_kv_connector_basic():
         req_ids.append(request.request_id)
         req_to_index[request.request_id] = i
 
+    if is_async:
+        _step_until_kv_transfer_finished(scheduler, req_ids)
+
     MODEL_RUNNER_OUTPUT = ModelRunnerOutput(
         req_ids=req_ids,
         req_id_to_index=req_to_index,
@@ -978,6 +1019,9 @@ def test_kv_connector_basic():
         req_ids.append(request.request_id)
         req_to_index[request.request_id] = i
 
+    if is_async:
+        _step_until_kv_transfer_finished(scheduler, req_ids)
+
     MODEL_RUNNER_OUTPUT = ModelRunnerOutput(
         req_ids=req_ids,
         req_id_to_index=req_to_index,
@@ -1020,17 +1064,10 @@ def test_external_prefix_cache_metrics():
     """
 
     # Setup Scheduler.
+    NUM_MATCHED_NEW_TOKENS = 4
     scheduler = create_scheduler(
         enable_prefix_caching=False,
-        use_kv_connector=True,
-    )
-
-    # Mock connector to simulate a partial external cache hit
-    NUM_MATCHED_NEW_TOKENS = 4
-    scheduler.connector.get_num_new_matched_tokens = Mock(name="method")
-    scheduler.connector.get_num_new_matched_tokens.return_value = (
-        NUM_MATCHED_NEW_TOKENS,
-        False,
+        use_kv_connector=mock_kv(matched_tokens=NUM_MATCHED_NEW_TOKENS, is_async=False),
     )
 
     # --- Prepare simple requests ---
@@ -1085,21 +1122,16 @@ def test_kv_connector_unable_to_allocate(use_ec_connector, ec_role):
     # Setup Scheduler With Mock External Cache Hit.
     BLOCK_SIZE = 4
     NUM_BLOCKS = 10
+    NUM_MATCHED_NEW_TOKENS = BLOCK_SIZE * 2
     scheduler = create_scheduler(
         enable_prefix_caching=True,
-        use_kv_connector=True,
+        use_kv_connector=mock_kv(matched_tokens=NUM_MATCHED_NEW_TOKENS, is_async=False),
         block_size=BLOCK_SIZE,
         num_blocks=NUM_BLOCKS,
         # encoder connector should not affect test results
         use_ec_connector=use_ec_connector,
         ec_role=ec_role,
     )
-    NUM_MATCHED_NEW_TOKENS = BLOCK_SIZE * 2
-    scheduler.connector.get_num_new_matched_tokens = Mock(name="method")
-    scheduler.connector.get_num_new_matched_tokens.return_value = (
-        NUM_MATCHED_NEW_TOKENS,
-        False,
-    )
 
     # Create two requests. The second request will not be able to
     # allocate slots because it will not have enough blocks.
@@ -1174,9 +1206,10 @@ def test_kv_connector_handles_preemption(use_ec_connector, ec_role):
     BLOCK_SIZE = 2
     # NOTE: there is 1 null block, so this is 6 blocks.
     NUM_BLOCKS = 7
+    NUM_MATCHED_NEW_TOKENS = BLOCK_SIZE
     scheduler = create_scheduler(
         enable_prefix_caching=True,
-        use_kv_connector=True,
+        use_kv_connector=mock_kv(matched_tokens=NUM_MATCHED_NEW_TOKENS, is_async=False),
         block_size=BLOCK_SIZE,
         num_blocks=NUM_BLOCKS,
         # encoder connector should not affect test results
@@ -1184,13 +1217,6 @@ def test_kv_connector_handles_preemption(use_ec_connector, ec_role):
         ec_role=ec_role,
     )
 
-    NUM_MATCHED_NEW_TOKENS = BLOCK_SIZE
-    scheduler.connector.get_num_new_matched_tokens = Mock(name="method")
-    scheduler.connector.get_num_new_matched_tokens.return_value = (
-        NUM_MATCHED_NEW_TOKENS,
-        False,
-    )
-
     # Create two requests.
     # Both can be scheduled at first, but the second request
     # will be preempted and re-scheduled.
diff --git a/tests/v1/core/utils.py b/tests/v1/core/utils.py
index 3692e633322e2..65511c17473b2 100644
--- a/tests/v1/core/utils.py
+++ b/tests/v1/core/utils.py
@@ -3,6 +3,7 @@
 
 import torch
 
+from tests.v1.kv_connector.unit.utils import MockKVConfig
 from vllm.config import (
     CacheConfig,
     ECTransferConfig,
@@ -33,6 +34,10 @@ from vllm.v1.structured_output import StructuredOutputManager
 EOS_TOKEN_ID = 50256
 
 
+def mock_kv(matched_tokens: int, is_async: bool):
+    return MockKVConfig(matched_tokens=matched_tokens, is_async=is_async)
+
+
 def create_scheduler(
     model: str = "facebook/opt-125m",
     max_num_seqs: int = 16,
@@ -40,7 +45,7 @@ def create_scheduler(
     enable_prefix_caching: bool | None = None,
     long_prefill_token_threshold: int = 0,
     disable_chunked_mm_input: bool = False,
-    use_kv_connector: bool = False,
+    use_kv_connector: None | bool | MockKVConfig = None,
     num_blocks: int = 10000,
     block_size: int = 16,
     max_model_len: int | None = None,
@@ -94,15 +99,22 @@ def create_scheduler(
         cache_dtype="auto",
         **kwargs_cache,
     )
-    kv_transfer_config = (
-        KVTransferConfig(
+    kv_transfer_config = None
+    if isinstance(use_kv_connector, MockKVConfig):
+        kv_transfer_config = KVTransferConfig(
+            kv_connector="MockKVConnector",
+            kv_role="kv_both",
+            kv_connector_extra_config={
+                "matched_tokens": use_kv_connector.matched_tokens,
+                "is_async": use_kv_connector.is_async,
+            },
+        )
+    elif use_kv_connector:
+        kv_transfer_config = KVTransferConfig(
             kv_connector="SharedStorageConnector",
             kv_role="kv_both",
             kv_connector_extra_config={"shared_storage_path": "local_storage"},
         )
-        if use_kv_connector
-        else None
-    )
 
     speculative_config: SpeculativeConfig | None = None
     if num_speculative_tokens is not None:
diff --git a/tests/v1/kv_connector/unit/utils.py b/tests/v1/kv_connector/unit/utils.py
index f0031643aa9d4..f35f91bb3adf8 100644
--- a/tests/v1/kv_connector/unit/utils.py
+++ b/tests/v1/kv_connector/unit/utils.py
@@ -3,7 +3,8 @@
 import tempfile
 from collections import defaultdict
 from collections.abc import Callable
-from itertools import count
+from dataclasses import dataclass
+from itertools import chain, count
 from typing import Any
 
 import torch
@@ -18,13 +19,18 @@ from vllm.config import (
     VllmConfig,
 )
 from vllm.distributed.kv_transfer.kv_connector.factory import KVConnectorFactory
+from vllm.distributed.kv_transfer.kv_connector.v1.base import (
+    KVConnectorBase_V1,
+    KVConnectorMetadata,
+    KVConnectorRole,
+)
 from vllm.distributed.kv_transfer.kv_connector.v1.shared_storage_connector import (  # noqa
     SharedStorageConnector,
 )
 from vllm.utils.hashing import sha256
 from vllm.v1.core.kv_cache_manager import KVCacheBlocks
 from vllm.v1.core.kv_cache_utils import get_request_block_hasher, init_none_hash
-from vllm.v1.core.sched.scheduler import Scheduler
+from vllm.v1.core.sched.scheduler import Scheduler, SchedulerOutput
 from vllm.v1.kv_cache_interface import (
     FullAttentionSpec,
     KVCacheConfig,
@@ -307,6 +313,82 @@ class TestSharedStorageConnector(SharedStorageConnector):
         return attr
 
 
+@dataclass(frozen=True)
+class MockKVConfig:
+    matched_tokens: int = 0
+    is_async: bool = False
+
+
+class MockKVConnectorMetadata(KVConnectorMetadata):
+    def __init__(self):
+        # Scheduler tests check metadata.requests
+        self.requests: list = []
+
+
+class MockKVConnector(KVConnectorBase_V1):
+    """Mock KV connector for scheduler tests, supporting both sync and async mode."""
+
+    def __init__(
+        self,
+        vllm_config: VllmConfig,
+        role: KVConnectorRole,
+        kv_cache_config: KVCacheConfig | None = None,
+    ):
+        super().__init__(vllm_config, role, kv_cache_config)
+        extra_config = self._kv_transfer_config.kv_connector_extra_config
+        self.config = MockKVConfig(
+            matched_tokens=extra_config["matched_tokens"],
+            is_async=extra_config["is_async"],
+        )
+
+    def get_num_new_matched_tokens(
+        self,
+        request: Request,
+        num_computed_tokens: int,
+    ) -> tuple[int | None, bool]:
+        return (self.config.matched_tokens, self.config.is_async)
+
+    def update_state_after_alloc(
+        self,
+        request: Request,
+        blocks: KVCacheBlocks,
+        num_external_tokens: int,
+    ):
+        pass
+
+    def build_connector_meta(
+        self, scheduler_output: SchedulerOutput
+    ) -> KVConnectorMetadata:
+        metadata = MockKVConnectorMetadata()
+        cached_reqs = scheduler_output.scheduled_cached_reqs
+        for req_id in chain(
+            (req.req_id for req in scheduler_output.scheduled_new_reqs),
+            (
+                req_id
+                for req_id in cached_reqs.req_ids
+                if req_id in cached_reqs.resumed_req_ids
+            ),
+        ):
+            metadata.requests.append({"req_id": req_id})
+        return metadata
+
+    def start_load_kv(self, kv_caches, finished_req_ids):
+        pass
+
+    def wait_for_layer_load(self, layer_name):
+        pass
+
+    def save_kv_layer(self, layer_name, kv_layer, attn_metadata, **kwargs):
+        pass
+
+    def wait_for_save(self):
+        pass
+
+
 KVConnectorFactory.register_connector(
     "TestSharedStorageConnector", __name__, TestSharedStorageConnector.__name__
 )
+
+KVConnectorFactory.register_connector(
+    "MockKVConnector", __name__, MockKVConnector.__name__
+)

From f2b8e1c5510cf3621dc4b910f0eba5289d9fee88 Mon Sep 17 00:00:00 2001
From: Alexei-V-Ivanov-AMD
 <156011006+Alexei-V-Ivanov-AMD@users.noreply.github.com>
Date: Thu, 13 Nov 2025 18:16:34 -0600
Subject: [PATCH 427/976] Mirrored test group definitions for AMD (2025-11-11)
 (#28573)

Signed-off-by: Alexei V. Ivanov <alexei.ivanov@amd.com>
---
 .buildkite/test-amd.yaml | 163 ++++++++++++++++++++++++++++++++++++---
 1 file changed, 153 insertions(+), 10 deletions(-)

diff --git a/.buildkite/test-amd.yaml b/.buildkite/test-amd.yaml
index 5fd048c2ad0c6..e232000511c31 100644
--- a/.buildkite/test-amd.yaml
+++ b/.buildkite/test-amd.yaml
@@ -226,6 +226,27 @@ steps:
   - VLLM_ALLOW_INSECURE_SERIALIZATION=1 RAY_DEDUP_LOGS=0 python3 rlhf_colocate.py
   - popd
 
+- label: Distributed Tests (8 GPUs) # 4min
+  timeout_in_minutes: 10
+  mirror_hardwares: [amdexperimental]
+  agent_pool: mi325_8
+  # grade: Blocking
+  gpu: h100
+  num_gpus: 8
+  working_dir: "/vllm-workspace/tests"
+  source_file_dependencies:
+  - examples/offline_inference/torchrun_dp_example.py
+  - vllm/config/parallel.py
+  - vllm/distributed/
+  - vllm/v1/engine/llm_engine.py
+  - vllm/v1/executor/uniproc_executor.py
+  - vllm/v1/worker/gpu_worker.py
+  commands:
+  # https://github.com/NVIDIA/nccl/issues/1838
+  #- export NCCL_CUMEM_HOST_ENABLE=0
+  # test with torchrun tp=2 and dp=4 with ep
+  - torchrun --nproc-per-node=8 ../examples/offline_inference/torchrun_dp_example.py --tp-size=2 --pp-size=1 --dp-size=4 --enable-ep
+
 - label: EPLB Algorithm Test # 5min
   mirror_hardwares: [amdexperimental, amdproduction]
   agent_pool: mi325_1
@@ -238,11 +259,11 @@ steps:
   commands:
   - pytest -v -s distributed/test_eplb_algo.py
 
-- label: EPLB Execution Test # 5min
+- label: EPLB Execution Test # 10min
   mirror_hardwares: [amdexperimental, amdproduction]
   agent_pool: mi325_4
   # grade: Blocking
-  timeout_in_minutes: 15
+  timeout_in_minutes: 20
   working_dir: "/vllm-workspace/tests"
   num_gpus: 4
   source_file_dependencies:
@@ -250,6 +271,7 @@ steps:
   - tests/distributed/test_eplb_execute.py
   commands:
   - pytest -v -s distributed/test_eplb_execute.py
+  - pytest -v -s distributed/test_eplb_spec_decode.py
 
 - label: Metrics, Tracing Test # 12min
   timeout_in_minutes: 20
@@ -273,7 +295,7 @@ steps:
 
 - label: Regression Test # 7min
   timeout_in_minutes: 20
-  mirror_hardwares: [amdexperimental, amdproduction]
+  mirror_hardwares: [amdexperimental, amdproduction, amdtentative]
   agent_pool: mi325_1
   grade: Blocking
   source_file_dependencies:
@@ -288,7 +310,7 @@ steps:
   timeout_in_minutes: 40
   mirror_hardwares: [amdexperimental, amdproduction]
   agent_pool: mi325_1
-  #grade: Blocking
+  # grade: Blocking
   source_file_dependencies:
   - vllm/
   - tests/engine
@@ -337,6 +359,7 @@ steps:
     - tests/v1
   commands:
     # split the test to avoid interference
+    - uv pip install --system -r /vllm-workspace/requirements/kv_connectors.txt
     - pytest -v -s -m 'not cpu_test' v1/core
     - pytest -v -s v1/executor
     - pytest -v -s v1/kv_offload
@@ -344,7 +367,7 @@ steps:
     - pytest -v -s v1/logits_processors
     - pytest -v -s v1/worker
     - pytest -v -s v1/spec_decode
-    - pytest -v -s -m 'not cpu_test' v1/kv_connector/unit --ignore=v1/kv_connector/unit/test_lmcache_integration.py
+    - pytest -v -s -m 'not cpu_test' v1/kv_connector/unit
     - pytest -v -s -m 'not cpu_test' v1/metrics
     - pytest -v -s v1/test_oracle.py
     - pytest -v -s v1/test_request.py
@@ -353,6 +376,20 @@ steps:
     - pip install -U git+https://github.com/robertgshaw2-redhat/lm-evaluation-harness.git@streaming-api
     - pytest -v -s entrypoints/openai/correctness/test_lmeval.py::test_lm_eval_accuracy_v1_engine
 
+# TODO: Add the "V1 Test attetion (MI300)" test group
+
+- label: V1 Test attention (H100) # 10min
+  mirror_hardwares: [amdexperimental]
+  agent_pool: mi325_1
+  # grade: Blocking
+  timeout_in_minutes: 30
+  gpu: h100
+  source_file_dependencies:
+    - vllm/v1/attention
+    - tests/v1/attention
+  commands:
+    - pytest -v -s v1/attention
+
 - label: V1 Test others (CPU) # 5 mins
   mirror_hardwares: [amdexperimental, amdproduction]
   agent_pool: mi325_1
@@ -479,10 +516,11 @@ steps:
   - tests/compile
   commands:
   - pytest -v -s compile/test_basic_correctness.py
+  - pytest -v -s compile/test_multimodal_compile.py
   - pytest -v -s compile/piecewise/
 
-- label: PyTorch Fullgraph Test # 22min
-  timeout_in_minutes: 35
+- label: PyTorch Fullgraph Test # 27min
+  timeout_in_minutes: 40
   mirror_hardwares: [amdexperimental, amdproduction]
   agent_pool: mi325_1
   # grade: Blocking
@@ -491,8 +529,23 @@ steps:
   - vllm/
   - tests/compile
   commands:
-  - pytest -v -s compile/test_full_graph.py
-  - pytest -v -s compile/test_fusions_e2e.py
+  - pytest -v -s compile/test_full_graph.py -k 'not test_fp8_kv_scale_compile'
+    # Limit to no custom ops to reduce running time
+    # Wrap with quotes to escape yaml and avoid starting -k string with a -
+  - "pytest -v -s compile/test_fusions_e2e.py -k 'TRITON and -quant_fp8'"
+
+- label: Cudagraph test
+  timeout_in_minutes: 20
+  mirror_hardwares: [amdexperimental, amdproduction]
+  agent_pool: mi325_1
+  source_file_dependencies:
+  - tests/v1/cudagraph
+  - vllm/v1/cudagraph_dispatcher.py
+  - vllm/config/compilation.py
+  - vllm/compilation
+  commands:
+    - pytest -v -s v1/cudagraph/test_cudagraph_dispatch.py
+    - pytest -v -s v1/cudagraph/test_cudagraph_mode.py
 
 - label: Kernels Core Operation Test # 48min
   timeout_in_minutes: 75
@@ -544,6 +597,8 @@ steps:
   - tests/kernels/moe
   - vllm/model_executor/layers/fused_moe/
   - vllm/distributed/device_communicators/
+  - vllm/envs.py
+  - vllm/config
   commands:
     - pytest -v -s kernels/moe --shard-id=$$BUILDKITE_PARALLEL_JOB --num-shards=$$BUILDKITE_PARALLEL_JOB_COUNT
   parallelism: 2
@@ -562,10 +617,13 @@ steps:
 
 - label: Model Executor Test # 23min
   timeout_in_minutes: 35
+  torch_nightly: true
   mirror_hardwares: [amdexperimental, amdproduction]
   agent_pool: mi325_1
   # grade: Blocking
   source_file_dependencies:
+  - vllm/engine/arg_utils.py
+  - vllm/config/model.py
   - vllm/model_executor
   - tests/model_executor
   - tests/entrypoints/openai/test_tensorizer_entrypoint.py
@@ -861,9 +919,10 @@ steps:
     - cd .. && VLLM_WORKER_MULTIPROC_METHOD=spawn pytest -v -s tests/models/multimodal/generation/test_whisper.py -m core_model  # Otherwise, mp_method="spawn" doesn't work
 
 - label: Multi-Modal Accuracy Eval (Small Models) # 10min
+  timeout_in_minutes: 70
   mirror_hardwares: [amdexperimental, amdproduction]
   agent_pool: mi325_1
-  timeout_in_minutes: 15
+  # grade: Blocking
   working_dir: "/vllm-workspace/.buildkite/lm-eval-harness"
   source_file_dependencies:
   - vllm/multimodal/
@@ -934,6 +993,7 @@ steps:
 - label: Transformers Nightly Models Test
   mirror_hardwares: [amdexperimental]
   agent_pool: mi325_1
+  # grade: Blocking
   working_dir: "/vllm-workspace/"
   optional: true
   commands:
@@ -961,11 +1021,16 @@ steps:
   - vllm/model_executor/layers/fused_moe/flashinfer_cutlass_prepare_finalize.py
   - vllm/model_executor/layers/quantization/utils/flashinfer_utils.py
   - vllm/v1/attention/backends/flashinfer.py
+  - vllm/v1/attention/backends/mla/cutlass_mla.py
+  - vllm/v1/attention/backends/mla/flashinfer_mla.py
+  - vllm/platforms/cuda.py
+  - vllm/attention/selector.py
   commands:
     - nvidia-smi
     - python3 examples/offline_inference/basic/chat.py
     # Attention
     # num_heads2 broken by https://github.com/flashinfer-ai/flashinfer/issues/1353
+    - pytest -v -s tests/kernels/attention/test_attention_selector.py
     - pytest -v -s tests/kernels/attention/test_flashinfer.py -k 'not num_heads2'
     - pytest -v -s tests/kernels/attention/test_flashinfer_trtllm_attention.py
     - pytest -v -s tests/kernels/attention/test_cutlass_mla_decode.py
@@ -1002,7 +1067,33 @@ steps:
     - pytest -v -s tests/compile/test_silu_mul_quant_fusion.py
     # this runner has 2 GPUs available even though num_gpus=2 is not set
     - pytest -v -s tests/compile/test_fusion_all_reduce.py
+    # Limit to Inductor partition, no custom ops, and allreduce & attn fusion to reduce running time
+    # Wrap with quotes to escape yaml 
+    - "pytest -v -s tests/compile/test_fusions_e2e.py::test_tp2_attn_quant_allreduce_rmsnorm -k 'True and Llama-3.1 and -quant_fp8 and -rms_norm'"
+
+- label: Blackwell Fusion E2E Tests # 30 min
+  timeout_in_minutes: 40
+  working_dir: "/vllm-workspace/"
+  gpu: b200
+  optional: true
+  num_gpus: 2
+  source_file_dependencies:
+  - csrc/quantization/fp4/
+  - vllm/model_executor/layers/quantization/utils/flashinfer_utils.py
+  - vllm/v1/attention/backends/flashinfer.py
+  - vllm/compilation/
+  # can affect pattern matching
+  - vllm/model_executor/layers/layernorm.py
+  - vllm/model_executor/layers/activation.py
+  - vllm/model_executor/layers/quantization/input_quant_fp8.py
+  - tests/compile/test_fusions_e2e.py
+  - tests/compile/test_full_graph.py
+  commands:
+    - nvidia-smi
+    # Run all e2e fusion tests
     - pytest -v -s tests/compile/test_fusions_e2e.py
+    # test_fp8_kv_scale_compile requires FlashAttention (not supported on default L4/L40)
+    - pytest -v -s tests/compile/test_full_graph.py::test_fp8_kv_scale_compile
 
 - label: Blackwell GPT-OSS Eval
   timeout_in_minutes: 60
@@ -1253,6 +1344,7 @@ steps:
 - label: NixlConnector PD accuracy tests (Distributed) # 30min
   mirror_hardwares: [amdexperimental]
   agent_pool: mi325_4
+  # grade: Blocking
   timeout_in_minutes: 30
   working_dir: "/vllm-workspace/tests"
   num_gpus: 4
@@ -1267,6 +1359,9 @@ steps:
 ##### A100 test #####
 
 - label: Distributed Tests (A100) # optional
+  mirror_hardwares: [amdexperimental]
+  agent_pool: mi325_4
+  # grade: Blocking
   gpu: a100
   optional: true
   num_gpus: 4
@@ -1281,6 +1376,9 @@ steps:
   - pytest -v -s -x lora/test_mixtral.py
 
 - label: LM Eval Large Models # optional
+  mirror_hardwares: [amdexperimental, amdproduction]
+  agent_pool: mi325_4
+  # grade: Blocking
   gpu: a100
   optional: true
   num_gpus: 4
@@ -1292,8 +1390,27 @@ steps:
   - export VLLM_WORKER_MULTIPROC_METHOD=spawn
   - pytest -s -v test_lm_eval_correctness.py --config-list-file=configs/models-large.txt --tp-size=4
 
+##### H100 test #####
+- label: LM Eval Large Models (H100) # optional
+  mirror_hardwares: [amdexperimental, amdproduction]
+  agent_pool: mi325_4
+  # grade: Blocking
+  gpu: h100
+  optional: true
+  num_gpus: 4
+  working_dir: "/vllm-workspace/.buildkite/lm-eval-harness"
+  source_file_dependencies:
+  - csrc/
+  - vllm/model_executor/layers/quantization
+  commands:
+    - export VLLM_USE_DEEP_GEMM=0  # We found Triton is faster than DeepGEMM for H100
+    - pytest -s -v test_lm_eval_correctness.py --config-list-file=configs/models-large-hopper.txt --tp-size=4
+
 ##### H200 test #####
 - label: Distributed Tests (H200) # optional
+  mirror_hardwares: [amdexperimental]
+  agent_pool: mi325_2
+  # grade: Blocking
   gpu: h200
   optional: true
   working_dir: "/vllm-workspace/"
@@ -1305,6 +1422,7 @@ steps:
     - pytest -v -s tests/compile/test_fusions_e2e.py::test_tp2_attn_quant_allreduce_rmsnorm
     - pytest -v -s tests/distributed/test_context_parallel.py
     - CUDA_VISIBLE_DEVICES=1,2 VLLM_ALL2ALL_BACKEND=deepep_high_throughput VLLM_USE_DEEP_GEMM=1 VLLM_LOGGING_LEVEL=DEBUG python3 examples/offline_inference/data_parallel.py --model Qwen/Qwen1.5-MoE-A2.7B --tp-size=1  --dp-size=2 --max-model-len 2048
+    - pytest -v -s tests/v1/distributed/test_dbo.py
 
 ##### B200 test #####
 - label: Distributed Tests (B200) # optional
@@ -1315,6 +1433,7 @@ steps:
   commands:
     - pytest -v -s tests/distributed/test_context_parallel.py
     - pytest -v -s tests/distributed/test_nccl_symm_mem_allreduce.py
+    - pytest -v -s tests/v1/distributed/test_dbo.py
 
 ##### RL Integration Tests #####
 - label: Prime-RL Integration Test # 15min
@@ -1330,3 +1449,27 @@ steps:
   - .buildkite/scripts/run-prime-rl-test.sh
   commands:
     - bash .buildkite/scripts/run-prime-rl-test.sh
+
+- label: DeepSeek V2-Lite Accuracy
+  mirror_hardwares: [amdexperimental]
+  agent_pool: mi325_4
+  # grade: Blocking
+  timeout_in_minutes: 60
+  gpu: h100
+  optional: true
+  num_gpus: 4
+  working_dir: "/vllm-workspace"
+  commands:
+  - bash .buildkite/scripts/scheduled_integration_test/deepseek_v2_lite_ep_eplb.sh 0.25 200 8010
+
+- label: Qwen3-30B-A3B-FP8-block Accuracy
+  mirror_hardwares: [amdexperimental]
+  agent_pool: mi325_4
+  # grade: Blocking
+  timeout_in_minutes: 60
+  gpu: h100
+  optional: true
+  num_gpus: 4
+  working_dir: "/vllm-workspace"
+  commands:
+  - bash .buildkite/scripts/scheduled_integration_test/qwen30b_a3b_fp8_block_ep.sh 0.8 200 8020

From 4d5943bda63c306275afc1a10edee26da45cd4ef Mon Sep 17 00:00:00 2001
From: Hank_ <37239608+ILikeIneine@users.noreply.github.com>
Date: Fri, 14 Nov 2025 09:24:10 +0800
Subject: [PATCH 428/976] [quantization][config] enable override existing
 quant_config (#28510)

Signed-off-by: Hank <hcc.mayday@gmail.com>
Co-authored-by: Michael Goin <mgoin64@gmail.com>
---
 .../test_register_quantization_config.py           | 12 +++++++++---
 .../model_executor/layers/quantization/__init__.py | 14 +++++++++++---
 2 files changed, 20 insertions(+), 6 deletions(-)

diff --git a/tests/quantization/test_register_quantization_config.py b/tests/quantization/test_register_quantization_config.py
index aeef4c2fd8a70..8da048703df93 100644
--- a/tests/quantization/test_register_quantization_config.py
+++ b/tests/quantization/test_register_quantization_config.py
@@ -7,6 +7,7 @@ See https://github.com/vllm-project/vllm/issues/11926 for more details.
 Run `pytest tests/quantization/test_register_quantization_config.py`.
 """
 
+import logging
 from typing import Any
 
 import pytest
@@ -100,17 +101,22 @@ class CustomQuantConfig(QuantizationConfig):
         return None
 
 
-def test_register_quantization_config():
+def test_register_quantization_config(caplog_vllm):
     """Test register custom quantization config."""
 
     # The quantization method `custom_quant` should be registered.
     assert get_quantization_config("custom_quant") == CustomQuantConfig
 
     # The quantization method `custom_quant` is already exists,
-    # should raise an error.
-    with pytest.raises(ValueError):
+    # should raise a warning when re-registering it.
+    with caplog_vllm.at_level(logging.WARNING):
         register_quantization_config("custom_quant")(CustomQuantConfig)
 
+    assert any(
+        "The quantization method 'custom_quant' already exists" in message
+        for message in caplog_vllm.messages
+    ), "Expected a warning when re-registering custom_quant"
+
 
 @pytest.mark.parametrize(
     argnames="model",
diff --git a/vllm/model_executor/layers/quantization/__init__.py b/vllm/model_executor/layers/quantization/__init__.py
index b92fb8d266b73..bb42b10f87186 100644
--- a/vllm/model_executor/layers/quantization/__init__.py
+++ b/vllm/model_executor/layers/quantization/__init__.py
@@ -3,8 +3,11 @@
 
 from typing import Literal, get_args
 
+from vllm.logger import init_logger
 from vllm.model_executor.layers.quantization.base_config import QuantizationConfig
 
+logger = init_logger(__name__)
+
 QuantizationMethods = Literal[
     "awq",
     "deepspeedfp",
@@ -70,15 +73,20 @@ def register_quantization_config(quantization: str):
 
     def _wrapper(quant_config_cls):
         if quantization in QUANTIZATION_METHODS:
-            raise ValueError(
-                f"The quantization method `{quantization}` is already exists."
+            logger.warning(
+                "The quantization method '%s' already exists and will be "
+                "overwritten by the quantization config %s.",
+                quantization,
+                quant_config_cls,
             )
+        else:
+            QUANTIZATION_METHODS.append(quantization)
+
         if not issubclass(quant_config_cls, QuantizationConfig):
             raise ValueError(
                 "The quantization config must be a subclass of `QuantizationConfig`."
             )
         _CUSTOMIZED_METHOD_TO_QUANT_CONFIG[quantization] = quant_config_cls
-        QUANTIZATION_METHODS.append(quantization)
         return quant_config_cls
 
     return _wrapper

From 2aa75c752bdd9ce3ebc994353fa49146caad1940 Mon Sep 17 00:00:00 2001
From: Sage Moore <sage@neuralmagic.com>
Date: Thu, 13 Nov 2025 17:24:28 -0800
Subject: [PATCH 429/976] [ROCm] Bump up the version of amd-smi to 6.4.3
 (#28680)

Signed-off-by: Sage Moore <sage@neuralmagic.com>
---
 requirements/rocm-build.txt | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/requirements/rocm-build.txt b/requirements/rocm-build.txt
index 51f58e57a7851..b977e80be067f 100644
--- a/requirements/rocm-build.txt
+++ b/requirements/rocm-build.txt
@@ -13,5 +13,5 @@ setuptools>=77.0.3,<80.0.0
 setuptools-scm>=8
 wheel
 jinja2>=3.1.6
-amdsmi==6.2.4
+amdsmi==6.4.3
 timm>=1.0.17

From 622e6106a9e3d64fb4927e3d9dc6e4f5289d174c Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Thu, 13 Nov 2025 20:49:55 -0500
Subject: [PATCH 430/976] [CPU][Bugfix] Fix Apple Silicon M1 compilation
 failure (#28681)

Signed-off-by: mgoin <mgoin64@gmail.com>
---
 csrc/cpu/cpu_attn_impl.hpp | 28 ++++++++++++++++++++++++++++
 1 file changed, 28 insertions(+)

diff --git a/csrc/cpu/cpu_attn_impl.hpp b/csrc/cpu/cpu_attn_impl.hpp
index c317453530af1..5de8a114b2b55 100644
--- a/csrc/cpu/cpu_attn_impl.hpp
+++ b/csrc/cpu/cpu_attn_impl.hpp
@@ -5,6 +5,10 @@
 #include <type_traits>
 #include <cstddef>
 
+#if defined(__APPLE__)
+  #include <sys/sysctl.h>
+#endif
+
 #include "cpu_types.hpp"
 #include "scratchpad_manager.h"
 #include "cpu_attn_macros.h"
@@ -741,9 +745,21 @@ class AttentionScheduler {
 
   static int64_t get_available_l2_size() {
     static int64_t size = []() {
+#if defined(__APPLE__)
+      // macOS doesn't have _SC_LEVEL2_CACHE_SIZE. Use sysctlbyname.
+      int64_t l2_cache_size = 0;
+      size_t len = sizeof(l2_cache_size);
+      if (sysctlbyname("hw.l2cachesize", &l2_cache_size, &len, NULL, 0) == 0 &&
+          l2_cache_size > 0) {
+        return l2_cache_size >> 1;  // use 50% of L2 cache
+      }
+      // Fallback if sysctlbyname fails
+      return 128 * 1024 >> 1;  // use 50% of 128KB
+#else
       long l2_cache_size = sysconf(_SC_LEVEL2_CACHE_SIZE);
       TORCH_CHECK_NE(l2_cache_size, -1);
       return l2_cache_size >> 1;  // use 50% of L2 cache
+#endif
     }();
     return size;
   }
@@ -816,10 +832,14 @@ struct VecTypeTrait<float> {
   using vec_t = vec_op::FP32Vec16;
 };
 
+// ARM only supports BF16 with ARMv8.6-A extension
+#if (defined(__aarch64__) && !defined(ARM_BF16_SUPPORT))
+#else
 template <>
 struct VecTypeTrait<c10::BFloat16> {
   using vec_t = vec_op::BF16Vec16;
 };
+#endif
 
 #if !defined(__powerpc__)
 template <>
@@ -1588,9 +1608,17 @@ class AttentionMainLoop {
 
               if (use_sink) {
                 alignas(64) float s_aux_fp32[16];
+#if defined(__aarch64__) && !defined(ARM_BF16_SUPPORT)
+                // ARM without native BF16 support: manual conversion
+                for (int i = 0; i < 16; ++i) {
+                  s_aux_fp32[i] = static_cast<float>(curr_s_aux[i]);
+                }
+#else
+                // All other platforms have BF16Vec16 available
                 vec_op::BF16Vec16 vec_bf16(curr_s_aux);
                 vec_op::FP32Vec16 vec_fp32(vec_bf16);
                 vec_fp32.save(s_aux_fp32);
+#endif
 
                 float* __restrict__ curr_sum_buffer = sum_buffer;
                 float* __restrict__ curr_max_buffer = max_buffer;

From b39a5026ebac9242740e48debc79ce8db92c868b Mon Sep 17 00:00:00 2001
From: Bradley D <bradleyhd@meta.com>
Date: Thu, 13 Nov 2025 18:44:36 -0800
Subject: [PATCH 431/976] [ci][amd] fix basic models extra init test (#28676)

Signed-off-by: Bradley Davis <bradleyhd@meta.com>
---
 .buildkite/scripts/hardware_ci/run-amd-test.sh | 10 +++++-----
 1 file changed, 5 insertions(+), 5 deletions(-)

diff --git a/.buildkite/scripts/hardware_ci/run-amd-test.sh b/.buildkite/scripts/hardware_ci/run-amd-test.sh
index 0e5b21ddf25b3..864eb470bb0a7 100755
--- a/.buildkite/scripts/hardware_ci/run-amd-test.sh
+++ b/.buildkite/scripts/hardware_ci/run-amd-test.sh
@@ -59,7 +59,7 @@ while true; do
         fi
 done
 
-echo "--- Pulling container" 
+echo "--- Pulling container"
 image_name="rocm/vllm-ci:${BUILDKITE_COMMIT}"
 container_name="rocm_${BUILDKITE_COMMIT}_$(tr -dc A-Za-z0-9 < /dev/urandom | head -c 10; echo)"
 docker pull "${image_name}"
@@ -177,13 +177,13 @@ if [[ -z "$render_gid" ]]; then
   exit 1
 fi
 
-# check if the command contains shard flag, we will run all shards in parallel because the host have 8 GPUs. 
+# check if the command contains shard flag, we will run all shards in parallel because the host have 8 GPUs.
 if [[ $commands == *"--shard-id="* ]]; then
-  # assign job count as the number of shards used   
-  commands=${commands//"--num-shards= "/"--num-shards=${PARALLEL_JOB_COUNT} "}
+  # assign job count as the number of shards used
+  commands=$(echo "$commands" | sed -E "s/--num-shards[[:blank:]]*=[[:blank:]]*[0-9]*/--num-shards=${PARALLEL_JOB_COUNT} /g" | sed 's/ \\ / /g')
   for GPU in $(seq 0 $(($PARALLEL_JOB_COUNT-1))); do
     # assign shard-id for each shard
-    commands_gpu=${commands//"--shard-id= "/"--shard-id=${GPU} "}
+    commands_gpu=$(echo "$commands" | sed -E "s/--shard-id[[:blank:]]*=[[:blank:]]*[0-9]*/--shard-id=${GPU} /g" | sed 's/ \\ / /g')
     echo "Shard ${GPU} commands:$commands_gpu"
     echo "Render devices: $BUILDKITE_AGENT_META_DATA_RENDER_DEVICES"
     docker run \

From 01bea115c426a86c5e565a1fc0b9563f58e0bd1a Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Fri, 14 Nov 2025 11:10:10 +0800
Subject: [PATCH 432/976] [Misc] Remove `warn_for_unimplemented_methods`
 (#28613)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 vllm/utils/__init__.py        | 45 -----------------------------------
 vllm/v1/worker/worker_base.py |  2 --
 2 files changed, 47 deletions(-)

diff --git a/vllm/utils/__init__.py b/vllm/utils/__init__.py
index 9b0045279a67e..040c0416c5ea9 100644
--- a/vllm/utils/__init__.py
+++ b/vllm/utils/__init__.py
@@ -1,10 +1,8 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
-import inspect
 import uuid
 import warnings
-from functools import wraps
 from typing import Any, TypeVar
 
 import torch
@@ -69,49 +67,6 @@ def random_uuid() -> str:
     return str(uuid.uuid4().hex)
 
 
-def warn_for_unimplemented_methods(cls: type[T]) -> type[T]:
-    """
-    A replacement for `abc.ABC`.
-    When we use `abc.ABC`, subclasses will fail to instantiate
-    if they do not implement all abstract methods.
-    Here, we only require `raise NotImplementedError` in the
-    base class, and log a warning if the method is not implemented
-    in the subclass.
-    """
-
-    original_init = cls.__init__
-
-    def find_unimplemented_methods(self: object):
-        unimplemented_methods = []
-        for attr_name in dir(self):
-            # bypass inner method
-            if attr_name.startswith("_"):
-                continue
-
-            try:
-                attr = getattr(self, attr_name)
-                # get the func of callable method
-                if callable(attr):
-                    attr_func = attr.__func__
-            except AttributeError:
-                continue
-            src = inspect.getsource(attr_func)
-            if "NotImplementedError" in src:
-                unimplemented_methods.append(attr_name)
-        if unimplemented_methods:
-            method_names = ",".join(unimplemented_methods)
-            msg = f"Methods {method_names} not implemented in {self}"
-            logger.debug(msg)
-
-    @wraps(original_init)
-    def wrapped_init(self, *args, **kwargs) -> None:
-        original_init(self, *args, **kwargs)
-        find_unimplemented_methods(self)
-
-    type.__setattr__(cls, "__init__", wrapped_init)
-    return cls
-
-
 def length_from_prompt_token_ids_or_embeds(
     prompt_token_ids: list[int] | None,
     prompt_embeds: torch.Tensor | None,
diff --git a/vllm/v1/worker/worker_base.py b/vllm/v1/worker/worker_base.py
index 30ea0ab77bd9e..3991c16eefba9 100644
--- a/vllm/v1/worker/worker_base.py
+++ b/vllm/v1/worker/worker_base.py
@@ -13,7 +13,6 @@ from vllm.logger import init_logger
 from vllm.lora.request import LoRARequest
 from vllm.multimodal import MULTIMODAL_REGISTRY
 from vllm.multimodal.cache import worker_receiver_cache_from_config
-from vllm.utils import warn_for_unimplemented_methods
 from vllm.utils.import_utils import resolve_obj_by_qualname
 from vllm.utils.system_utils import update_environment_variables
 from vllm.v1.kv_cache_interface import KVCacheSpec
@@ -33,7 +32,6 @@ logger = init_logger(__name__)
 _R = TypeVar("_R")
 
 
-@warn_for_unimplemented_methods
 class WorkerBase:
     """Worker interface that allows vLLM to cleanly separate implementations for
     different hardware. Also abstracts control plane communication, e.g., to

From da14ae0fad3165b88fcdc03a8f59f1813f8e832a Mon Sep 17 00:00:00 2001
From: Kunshang Ji <kunshang.ji@intel.com>
Date: Fri, 14 Nov 2025 11:15:50 +0800
Subject: [PATCH 433/976] [XPU][CI]disable lm cache uts (#28696)

Signed-off-by: Kunshang Ji <kunshang.ji@intel.com>
---
 .buildkite/scripts/hardware_ci/run-xpu-test.sh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/.buildkite/scripts/hardware_ci/run-xpu-test.sh b/.buildkite/scripts/hardware_ci/run-xpu-test.sh
index 27ed67c4517e2..d49f3e2f47cf1 100644
--- a/.buildkite/scripts/hardware_ci/run-xpu-test.sh
+++ b/.buildkite/scripts/hardware_ci/run-xpu-test.sh
@@ -46,6 +46,6 @@ docker run \
     pytest -v -s v1/worker --ignore=v1/worker/test_gpu_model_runner.py
     pytest -v -s v1/structured_output
     pytest -v -s v1/spec_decode --ignore=v1/spec_decode/test_max_len.py --ignore=v1/spec_decode/test_tree_attention.py --ignore=v1/spec_decode/test_speculators_eagle3.py
-    pytest -v -s v1/kv_connector/unit --ignore=v1/kv_connector/unit/test_multi_connector.py --ignore=v1/kv_connector/unit/test_nixl_connector.py --ignore=v1/kv_connector/unit/test_shared_storage_connector.py
+    pytest -v -s v1/kv_connector/unit --ignore=v1/kv_connector/unit/test_multi_connector.py --ignore=v1/kv_connector/unit/test_nixl_connector.py --ignore=v1/kv_connector/unit/test_shared_storage_connector.py --ignore=v1/kv_connector/unit/test_lmcache_integration.py
     pytest -v -s v1/test_serial_utils.py
 '

From 0aecd9138f45f6f687858ac1e0c5206d30c8425e Mon Sep 17 00:00:00 2001
From: Roger Wang <hey@rogerw.io>
Date: Thu, 13 Nov 2025 21:52:53 -0800
Subject: [PATCH 434/976] [Misc] Update xformers to 0.33.0.post1 (#28678)

Signed-off-by: Roger Wang <hey@rogerw.io>
---
 requirements/cuda.txt | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/requirements/cuda.txt b/requirements/cuda.txt
index 76874cbd2f482..d63fe9e1e77c1 100644
--- a/requirements/cuda.txt
+++ b/requirements/cuda.txt
@@ -9,6 +9,6 @@ torch==2.9.0
 torchaudio==2.9.0
 # These must be updated alongside torch
 torchvision==0.24.0 # Required for phi3v processor. See https://github.com/pytorch/vision?tab=readme-ov-file#installation for corresponding version
-xformers==0.0.33; platform_system == 'Linux' and platform_machine == 'x86_64'  # Requires PyTorch >= 2.9
+xformers==0.0.33.post1; platform_system == 'Linux' and platform_machine == 'x86_64'  # Requires PyTorch >= 2.9
 # FlashInfer should be updated together with the Dockerfile
 flashinfer-python==0.5.2

From 0b25498990f01ea2553c02731d6e2ce2d550156a Mon Sep 17 00:00:00 2001
From: haoyangli-amd <lihaoyang0109@gmail.com>
Date: Fri, 14 Nov 2025 13:56:35 +0800
Subject: [PATCH 435/976] [Misc] add ignore mapper for quark quantization
 (#28275)

Signed-off-by: Haoyang Li <lihaoyang0109@gmail.com>
---
 .../layers/quantization/quark/quark.py               | 12 +++++++++---
 1 file changed, 9 insertions(+), 3 deletions(-)

diff --git a/vllm/model_executor/layers/quantization/quark/quark.py b/vllm/model_executor/layers/quantization/quark/quark.py
index 095a66ef10f9a..1bb698faf46df 100644
--- a/vllm/model_executor/layers/quantization/quark/quark.py
+++ b/vllm/model_executor/layers/quantization/quark/quark.py
@@ -2,7 +2,7 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
 import fnmatch
-from typing import Any, Optional, cast
+from typing import TYPE_CHECKING, Any, Optional, cast
 
 import torch
 
@@ -34,6 +34,9 @@ from vllm.model_executor.layers.quantization.quark.utils import (
 )
 from vllm.platforms import current_platform
 
+if TYPE_CHECKING:
+    from vllm.model_executor.models.utils import WeightsMapper
+
 __all__ = ["QuarkLinearMethod"]
 
 logger = init_logger(__name__)
@@ -54,6 +57,7 @@ class QuarkConfig(QuantizationConfig):
         self.kv_cache_group = kv_cache_group
         self.kv_cache_config = kv_cache_config
         self.pack_method = pack_method
+        self.ignore: list[str] = cast(list[str], self.quant_config.get("exclude", []))
 
     def get_linear_method(self) -> "QuarkLinearMethod":
         return QuarkLinearMethod(self)
@@ -74,9 +78,8 @@ class QuarkConfig(QuantizationConfig):
         from vllm.attention.layer import Attention  # Avoid circular import
 
         # Check if the layer is skipped for quantization.
-        exclude_layers = cast(list[str], self.quant_config.get("exclude"))
         if should_ignore_layer(
-            prefix, ignore=exclude_layers, fused_mapping=self.packed_modules_mapping
+            prefix, ignore=self.ignore, fused_mapping=self.packed_modules_mapping
         ):
             return UnquantizedLinearMethod()
         if isinstance(layer, LinearBase):
@@ -90,6 +93,9 @@ class QuarkConfig(QuantizationConfig):
             return QuarkMoEMethod.get_moe_method(self, module=layer, layer_name=prefix)
         return None
 
+    def apply_vllm_mapper(self, hf_to_vllm_mapper: "WeightsMapper"):
+        self.ignore = hf_to_vllm_mapper.apply_list(self.ignore)
+
     @classmethod
     def from_config(cls, config: dict[str, Any]) -> "QuarkConfig":
         export_config = config.get("export")

From 15ae8e0784d3889c6aa2c487ca00df4e3fde6f44 Mon Sep 17 00:00:00 2001
From: rasmith <Randall.Smith@amd.com>
Date: Fri, 14 Nov 2025 00:34:01 -0600
Subject: [PATCH 436/976] [Bugfix][CI/Test][Spec Decode] Fix illegal memory
 access in offline_inference/spec_decode.py (Issue  27619) (#28432)

Signed-off-by: Randall Smith <ransmith@amd.com>
Co-authored-by: Randall Smith <ransmith@amd.com>
Co-authored-by: TJian <tunjian.tan@embeddedllm.com>
---
 vllm/attention/ops/triton_reshape_and_cache_flash.py | 6 ++++--
 1 file changed, 4 insertions(+), 2 deletions(-)

diff --git a/vllm/attention/ops/triton_reshape_and_cache_flash.py b/vllm/attention/ops/triton_reshape_and_cache_flash.py
index bbcd560ad56e3..5d2ba154ae018 100644
--- a/vllm/attention/ops/triton_reshape_and_cache_flash.py
+++ b/vllm/attention/ops/triton_reshape_and_cache_flash.py
@@ -97,7 +97,6 @@ def triton_reshape_and_cache_flash(
     k_scale: torch.Tensor,  # float32
     v_scale: torch.Tensor,  # float32
 ):
-    num_tokens = key.shape[0]
     num_heads = key.shape[1]
     head_size = key.shape[2]
     block_size = key_cache.shape[1]
@@ -155,7 +154,10 @@ def triton_reshape_and_cache_flash(
 
     # TODO(ngl): maybe replace with static launch grid to avoid overhead if
     #   using cudagraphs
-    grid = lambda meta: (int(num_tokens), triton.cdiv(n, meta["TILE_SIZE"]))
+    grid = lambda meta: (
+        slot_mapping.shape[0],
+        triton.cdiv(n, meta["TILE_SIZE"]),
+    )
 
     reshape_and_cache_kernel_flash[grid](
         key_ptr=key,

From 93103575ce0480f36fc1a3603eb51d9a89f38a00 Mon Sep 17 00:00:00 2001
From: rasmith <Randall.Smith@amd.com>
Date: Fri, 14 Nov 2025 00:41:29 -0600
Subject: [PATCH 437/976] [BugFix][CI/Build][ROCM] Fix import error and apply
 assert in appropriate case in test_struct_output_generate (#28311)

Signed-off-by: Randall Smith <ransmith@amd.com>
Co-authored-by: Randall Smith <ransmith@amd.com>
---
 .../v1/entrypoints/llm/test_struct_output_generate.py | 11 ++++++++---
 1 file changed, 8 insertions(+), 3 deletions(-)

diff --git a/tests/v1/entrypoints/llm/test_struct_output_generate.py b/tests/v1/entrypoints/llm/test_struct_output_generate.py
index 4cd26e7b41d3a..a7d769c8542a9 100644
--- a/tests/v1/entrypoints/llm/test_struct_output_generate.py
+++ b/tests/v1/entrypoints/llm/test_struct_output_generate.py
@@ -677,9 +677,14 @@ def test_structured_output_with_reasoning_matrices(
     reasoning, content = run_reasoning_extraction(reasoner, [generated_text])
     print(f"Prompt: {prompt!r}\nReasoning: {reasoning!r}\nContent: {content!r}")
 
-    assert content is not None and reasoning is not None
-    output_json = json.loads(content)
-    jsonschema.validate(instance=output_json, schema=reasoning_schema)
+    if "Qwen3" in model_name:
+        assert content is not None
+
+    assert reasoning is not None
+
+    if content is not None:
+        output_json = json.loads(content)
+        jsonschema.validate(instance=output_json, schema=reasoning_schema)
 
 
 @pytest.mark.skip_global_cleanup

From 529cea343da8662f135a69d9c3157f388f5eb64a Mon Sep 17 00:00:00 2001
From: Yan Ma <yan.ma@intel.com>
Date: Fri, 14 Nov 2025 16:55:29 +0800
Subject: [PATCH 438/976] use default CCL_ZE_IPC_EXCHANGE (#28700)

Signed-off-by: Yan Ma <yan.ma@intel.com>
---
 vllm/v1/worker/xpu_worker.py | 2 --
 1 file changed, 2 deletions(-)

diff --git a/vllm/v1/worker/xpu_worker.py b/vllm/v1/worker/xpu_worker.py
index 31fa3f3bd6acc..26c6f8d06bdcd 100644
--- a/vllm/v1/worker/xpu_worker.py
+++ b/vllm/v1/worker/xpu_worker.py
@@ -159,12 +159,10 @@ class XPUWorker(Worker):
         else:
             raise RuntimeError(f"Not support device type: {self.device_config.device}")
 
-        ENV_CCL_ZE_IPC_EXCHANGE = os.getenv("CCL_ZE_IPC_EXCHANGE", "pidfd")
         ENV_CCL_ATL_TRANSPORT = os.getenv("CCL_ATL_TRANSPORT", "ofi")
         ENV_LOCAL_WORLD_SIZE = os.getenv(
             "LOCAL_WORLD_SIZE", str(self.parallel_config.world_size)
         )
-        os.environ["CCL_ZE_IPC_EXCHANGE"] = ENV_CCL_ZE_IPC_EXCHANGE
         os.environ["CCL_ATL_TRANSPORT"] = ENV_CCL_ATL_TRANSPORT
         os.environ["LOCAL_WORLD_SIZE"] = ENV_LOCAL_WORLD_SIZE
         os.environ["LOCAL_RANK"] = str(self.local_rank)

From c36bcfe6b37967ab52763f2ddb9400ff4fe3885b Mon Sep 17 00:00:00 2001
From: Jiangyun Zhu <riverclouds.zhu@qq.com>
Date: Fri, 14 Nov 2025 17:01:26 +0800
Subject: [PATCH 439/976] [Bugfix] fix dots.ocr pp support (#28705)

Signed-off-by: zjy0516 <riverclouds.zhu@qq.com>
---
 vllm/model_executor/models/dots_ocr.py | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/vllm/model_executor/models/dots_ocr.py b/vllm/model_executor/models/dots_ocr.py
index 25e5588961a63..405af8f8be426 100644
--- a/vllm/model_executor/models/dots_ocr.py
+++ b/vllm/model_executor/models/dots_ocr.py
@@ -780,6 +780,10 @@ class DotsOCRForCausalLM(nn.Module, SupportsMultiModal, SupportsPP, SupportsLoRA
             architectures=["Qwen2ForCausalLM"],
         )
 
+        self.make_empty_intermediate_tensors = (
+            self.language_model.make_empty_intermediate_tensors
+        )
+
     def _parse_and_validate_image_input(
         self, **kwargs: object
     ) -> DotsOCRImageInputs | None:

From bc3e43069aadb1fa301a9f60a22872b6ec4453b9 Mon Sep 17 00:00:00 2001
From: Nick Hill <nhill@redhat.com>
Date: Fri, 14 Nov 2025 01:11:13 -0800
Subject: [PATCH 440/976] [BugFix] Fix multi-modal async scheduling race
 condition (#28706)

Signed-off-by: Nick Hill <nhill@redhat.com>
---
 .../shm_object_storage.py                     |  6 +--
 vllm/v1/serial_utils.py                       | 26 ++++++++----
 vllm/v1/worker/gpu_model_runner.py            | 42 +++++++++----------
 3 files changed, 43 insertions(+), 31 deletions(-)

diff --git a/vllm/distributed/device_communicators/shm_object_storage.py b/vllm/distributed/device_communicators/shm_object_storage.py
index 2ec33afb87839..4af2caa16b0d6 100644
--- a/vllm/distributed/device_communicators/shm_object_storage.py
+++ b/vllm/distributed/device_communicators/shm_object_storage.py
@@ -342,8 +342,8 @@ class MsgpackSerde(ObjectSerde):
         from vllm.v1.serial_utils import MsgpackDecoder, MsgpackEncoder
 
         self.encoder = MsgpackEncoder()
-        self.tensor_decoder = MsgpackDecoder(torch.Tensor)
-        self.mm_decoder = MsgpackDecoder(MultiModalKwargsItem)
+        self.tensor_decoder = MsgpackDecoder(torch.Tensor, share_mem=False)
+        self.mm_decoder = MsgpackDecoder(MultiModalKwargsItem, share_mem=False)
         self._mm_kwargs_item_cls = MultiModalKwargsItem
 
     def serialize(self, value: Any) -> tuple[bytes | list[bytes], int, bytes, int]:
@@ -368,7 +368,7 @@ class MsgpackSerde(ObjectSerde):
         # pickle.loads do not read past the end of a pickled object
         # within a large buffer, so we can skip storing the metadata size
         type_name, nbytes, len_arr = pickle.loads(data_view)
-        serialized_data = bytearray(data_view[-nbytes:])
+        serialized_data = data_view[-nbytes:]
 
         if type_name == torch.Tensor.__name__:
             obj = []
diff --git a/vllm/v1/serial_utils.py b/vllm/v1/serial_utils.py
index 102357ca7c642..cf0b1a41b50f8 100644
--- a/vllm/v1/serial_utils.py
+++ b/vllm/v1/serial_utils.py
@@ -31,6 +31,7 @@ from vllm.multimodal.inputs import (
     MultiModalSharedField,
     NestedTensors,
 )
+from vllm.utils.platform_utils import is_pin_memory_available
 from vllm.v1.engine import UtilityResult
 from vllm.v1.utils import tensor_data
 
@@ -282,7 +283,9 @@ class MsgpackDecoder:
     not thread-safe when encoding tensors / numpy arrays.
     """
 
-    def __init__(self, t: Any | None = None):
+    def __init__(self, t: Any | None = None, share_mem: bool = True):
+        self.share_mem = share_mem
+        self.pin_tensors = is_pin_memory_available()
         args = () if t is None else (t,)
         self.decoder = msgpack.Decoder(
             *args, ext_hook=self.ext_hook, dec_hook=self.dec_hook
@@ -347,21 +350,30 @@ class MsgpackDecoder:
         # zero-copy decode. We assume the ndarray will not be kept around,
         # as it now locks the whole received message buffer in memory.
         buffer = self.aux_buffers[data] if isinstance(data, int) else data
-        return np.frombuffer(buffer, dtype=dtype).reshape(shape)
+        arr = np.frombuffer(buffer, dtype=dtype)
+        if not self.share_mem:
+            arr = arr.copy()
+        return arr.reshape(shape)
 
     def _decode_tensor(self, arr: Any) -> torch.Tensor:
         dtype, shape, data = arr
-        # Copy from inline representation, to decouple the memory storage
-        # of the message from the original buffer. And also make Torch
-        # not complain about a readonly memoryview.
-        buffer = self.aux_buffers[data] if isinstance(data, int) else bytearray(data)
+        is_aux = isinstance(data, int)
+        buffer = self.aux_buffers[data] if is_aux else data
+        buffer = buffer if isinstance(buffer, memoryview) else memoryview(buffer)
         torch_dtype = getattr(torch, dtype)
         assert isinstance(torch_dtype, torch.dtype)
-        if not buffer:  # torch.frombuffer doesn't like empty buffers
+        if not buffer.nbytes:  # torch.frombuffer doesn't like empty buffers
             assert 0 in shape
             return torch.empty(shape, dtype=torch_dtype)
         # Create uint8 array
         arr = torch.frombuffer(buffer, dtype=torch.uint8)
+        # Clone ensures tensor is backed by pytorch-owned memory for safe
+        # future async CPU->GPU transfer.
+        # Pin larger tensors for more efficient CPU->GPU transfer.
+        if not is_aux:
+            arr = arr.clone()
+        elif not self.share_mem:
+            arr = arr.pin_memory() if self.pin_tensors else arr.clone()
         # Convert back to proper shape & type
         return arr.view(torch_dtype).view(shape)
 
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index c9c64137ca04b..d0f7f3a501f59 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -2590,28 +2590,28 @@ class GPUModelRunner(
                     )
                 )
 
-            dp_rank = self.parallel_config.data_parallel_rank
-            if ubatch_slices:
-                assert num_tokens_across_dp is not None
-                num_input_tokens = int(num_tokens_across_dp[dp_rank].item())
-                self.pad_out_ubatch_slice(ubatch_slices, num_input_tokens)
-            elif num_tokens_across_dp is not None:
-                num_input_tokens = int(num_tokens_across_dp[dp_rank].item())
-            else:
-                num_input_tokens = self._get_num_input_tokens(
-                    scheduler_output.total_num_scheduled_tokens
-                )
+                dp_rank = self.parallel_config.data_parallel_rank
+                if ubatch_slices:
+                    assert num_tokens_across_dp is not None
+                    num_input_tokens = int(num_tokens_across_dp[dp_rank].item())
+                    self.pad_out_ubatch_slice(ubatch_slices, num_input_tokens)
+                elif num_tokens_across_dp is not None:
+                    num_input_tokens = int(num_tokens_across_dp[dp_rank].item())
+                else:
+                    num_input_tokens = self._get_num_input_tokens(
+                        scheduler_output.total_num_scheduled_tokens
+                    )
 
-            (
-                input_ids,
-                inputs_embeds,
-                positions,
-                intermediate_tensors,
-                model_kwargs,
-                ec_connector_output,
-            ) = self._preprocess(
-                scheduler_output, num_input_tokens, intermediate_tensors
-            )
+                (
+                    input_ids,
+                    inputs_embeds,
+                    positions,
+                    intermediate_tensors,
+                    model_kwargs,
+                    ec_connector_output,
+                ) = self._preprocess(
+                    scheduler_output, num_input_tokens, intermediate_tensors
+                )
 
             uniform_decode = (
                 max_num_scheduled_tokens == self.uniform_decode_query_len

From c9a3a02149d83cc2840769228c4e591d39351bb6 Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Fri, 14 Nov 2025 04:32:03 -0500
Subject: [PATCH 441/976] Add output token counting to gsm8k eval (#28594)

Signed-off-by: mgoin <mgoin64@gmail.com>
---
 tests/evals/gsm8k/gsm8k_eval.py | 32 +++++++++++++++++++++++---------
 1 file changed, 23 insertions(+), 9 deletions(-)

diff --git a/tests/evals/gsm8k/gsm8k_eval.py b/tests/evals/gsm8k/gsm8k_eval.py
index c7799607912b6..0421f8bb18592 100644
--- a/tests/evals/gsm8k/gsm8k_eval.py
+++ b/tests/evals/gsm8k/gsm8k_eval.py
@@ -83,8 +83,12 @@ async def call_vllm_api(
     stop: list[str] | None = None,
     url: str | None = None,
     seed: int | None = None,
-) -> str:
-    """Call vLLM's OpenAI-compatible completions endpoint."""
+) -> tuple[str, int]:
+    """Call vLLM's OpenAI-compatible completions endpoint.
+
+    Returns:
+        Tuple of (response_text, completion_tokens)
+    """
     data = {
         "prompt": prompt,
         "temperature": temperature,
@@ -98,10 +102,12 @@ async def call_vllm_api(
         async with session.post(f"{url}/v1/completions", json=data) as response:
             response.raise_for_status()
             result = await response.json()
-            return result["choices"][0]["text"]
+            text = result["choices"][0]["text"]
+            completion_tokens = result.get("usage", {}).get("completion_tokens", 0)
+            return text, completion_tokens
     except Exception as e:
         print(f"Error calling vLLM API: {e}")
-        return ""
+        return "", 0
 
 
 def evaluate_gsm8k(
@@ -146,10 +152,11 @@ def evaluate_gsm8k(
     # Run evaluation
     async def run_async_evaluation():
         states: list[str] = [""] * num_questions
+        output_tokens: list[int] = [0] * num_questions
 
-        async def get_answer(session: aiohttp.ClientSession, i: int) -> str:
+        async def get_answer(session: aiohttp.ClientSession, i: int) -> tuple[str, int]:
             prompt = few_shot_examples + questions[i]
-            answer = await call_vllm_api(
+            answer, tokens = await call_vllm_api(
                 session=session,
                 prompt=prompt,
                 temperature=temperature,
@@ -159,7 +166,8 @@ def evaluate_gsm8k(
                 seed=seed,
             )
             states[i] = answer
-            return answer
+            output_tokens[i] = tokens
+            return answer, tokens
 
         async with aiohttp.ClientSession(
             timeout=aiohttp.ClientTimeout(total=600)
@@ -167,24 +175,28 @@ def evaluate_gsm8k(
             tasks = [get_answer(session, i) for i in range(num_questions)]
             await tqdm.gather(*tasks, desc="Evaluating")
 
-        return states
+        return states, output_tokens
 
     print(f"Running GSM8K evaluation: {num_questions} questions, {num_shots}-shot")
 
     tic = time.perf_counter()
-    states = asyncio.run(run_async_evaluation())
+    states, output_tokens = asyncio.run(run_async_evaluation())
     latency = time.perf_counter() - tic
 
     # Compute metrics
     preds = [get_answer_value(state) for state in states]
     accuracy = np.mean(np.array(preds) == np.array(labels))
     invalid_rate = np.mean(np.array(preds) == INVALID)
+    total_output_tokens = sum(output_tokens)
+    tokens_per_second = total_output_tokens / latency if latency > 0 else 0.0
 
     result = {
         "accuracy": accuracy,
         "invalid_rate": invalid_rate,
         "latency": latency,
         "questions_per_second": num_questions / latency,
+        "total_output_tokens": total_output_tokens,
+        "tokens_per_second": tokens_per_second,
         "num_questions": num_questions,
         "num_shots": num_shots,
         "max_tokens": max_tokens,
@@ -236,6 +248,8 @@ def main() -> None:
     print(f"Invalid responses: {result['invalid_rate']:.3f}")
     print(f"Total latency: {result['latency']:.3f} s")
     print(f"Questions per second: {result['questions_per_second']:.3f}")
+    print(f"Total output tokens: {result['total_output_tokens']}")
+    print(f"Output tokens per second: {result['tokens_per_second']:.3f}")
 
     # Optional file saving
     if args.save_results:

From fd75d3e8c0f522178e39845276fd57908760b4d0 Mon Sep 17 00:00:00 2001
From: Boyuan Feng <boyuan@meta.com>
Date: Fri, 14 Nov 2025 01:32:31 -0800
Subject: [PATCH 442/976] [Minor] avoid register new custom and just import
 silly_attn (#28578)

Signed-off-by: Boyuan Feng <boyuan@meta.com>
---
 tests/compile/test_config.py | 12 +++---------
 1 file changed, 3 insertions(+), 9 deletions(-)

diff --git a/tests/compile/test_config.py b/tests/compile/test_config.py
index bb66ef5529b12..1e8a882a7f3eb 100644
--- a/tests/compile/test_config.py
+++ b/tests/compile/test_config.py
@@ -15,6 +15,9 @@ from vllm.engine.arg_utils import EngineArgs
 from vllm.platforms import current_platform
 from vllm.utils.torch_utils import _is_torch_equal_or_newer
 
+# This import automatically registers `torch.ops.silly.attention`
+from . import silly_attention  # noqa: F401
+
 
 def test_version():
     # Test the version comparison logic using the private function
@@ -257,15 +260,6 @@ def test_should_split():
     splitting_ops = ["aten::add.Tensor"]
     assert not should_split(node, splitting_ops)
 
-    @torch.library.custom_op(
-        "silly::attention",
-        mutates_args=["out"],
-    )
-    def attention(
-        q: torch.Tensor, k: torch.Tensor, v: torch.Tensor, out: torch.Tensor
-    ) -> None:
-        out.copy_(q + k + v)
-
     q, k, v, out = [torch.randn(1)] * 4
 
     # supports custom ops as OpOverloadPacket

From 8cfbe89b9389e5a10ee08059e6b2855e6c979e4e Mon Sep 17 00:00:00 2001
From: Xing Liu <93360308+xingliu14@users.noreply.github.com>
Date: Fri, 14 Nov 2025 01:32:46 -0800
Subject: [PATCH 443/976] [Misc] fix comment in test_envs (#28529)

Signed-off-by: Xing Liu <xingliu14@gmail.com>
---
 tests/test_envs.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/tests/test_envs.py b/tests/test_envs.py
index 841d7945f9120..6a9835a68e7e2 100644
--- a/tests/test_envs.py
+++ b/tests/test_envs.py
@@ -36,7 +36,7 @@ def test_getattr_with_cache(monkeypatch: pytest.MonkeyPatch):
     # Enable envs cache and ignore ongoing environment changes
     enable_envs_cache()
 
-    # __getattr__ is not decorated with functools.cache
+    # __getattr__ is decorated with functools.cache
     assert hasattr(envs.__getattr__, "cache_info")
     start_hits = envs.__getattr__.cache_info().hits
 

From ecf8230d4d196566a76c907949d6569b1ff176ad Mon Sep 17 00:00:00 2001
From: lyn610 <610lyn@gmail.com>
Date: Fri, 14 Nov 2025 17:47:45 +0800
Subject: [PATCH 444/976] [Metrics] Log number of preempted requests (#28522)

Add tracking and periodic logging for the number of preempted requests in the
metrics logger. This helps monitor system behavior under load.

Signed-off-by: Yining Liu <610lyn@gmail.com>
---
 vllm/v1/metrics/loggers.py | 23 +++++++++++++++++++----
 1 file changed, 19 insertions(+), 4 deletions(-)

diff --git a/vllm/v1/metrics/loggers.py b/vllm/v1/metrics/loggers.py
index 1a175e9e110bd..21280b9c84cf2 100644
--- a/vllm/v1/metrics/loggers.py
+++ b/vllm/v1/metrics/loggers.py
@@ -118,12 +118,14 @@ class LoggingStatLogger(StatLoggerBase):
         self.num_prompt_tokens: int = 0
         self.num_generation_tokens: int = 0
         self.num_corrupted_reqs: int = 0
+        self.num_preemptions: int = 0
 
     def _track_iteration_stats(self, iteration_stats: IterationStats):
         # Save tracked stats for token counters.
         self.num_prompt_tokens += iteration_stats.num_prompt_tokens
         self.num_generation_tokens += iteration_stats.num_generation_tokens
         self.num_corrupted_reqs += iteration_stats.num_corrupted_reqs
+        self.num_preemptions += iteration_stats.num_preempted_reqs
 
     def _get_throughput(self, tracked_stats: int, now: float) -> float:
         # Compute summary metrics for tracked stats
@@ -196,18 +198,31 @@ class LoggingStatLogger(StatLoggerBase):
             "Avg generation throughput: %.1f tokens/s",
             "Running: %d reqs",
             "Waiting: %d reqs",
-            "GPU KV cache usage: %.1f%%",
-            "Prefix cache hit rate: %.1f%%",
         ]
         log_args = [
             self.last_prompt_throughput,
             self.last_generation_throughput,
             self.last_scheduler_stats.num_running_reqs,
             self.last_scheduler_stats.num_waiting_reqs,
-            self.last_scheduler_stats.kv_cache_usage * 100,
-            self.prefix_caching_metrics.hit_rate * 100,
         ]
 
+        if self.num_preemptions > 0:
+            log_parts.append("Preemptions: %d")
+            log_args.append(self.num_preemptions)
+
+        log_parts.extend(
+            [
+                "GPU KV cache usage: %.1f%%",
+                "Prefix cache hit rate: %.1f%%",
+            ]
+        )
+        log_args.extend(
+            [
+                self.last_scheduler_stats.kv_cache_usage * 100,
+                self.prefix_caching_metrics.hit_rate * 100,
+            ]
+        )
+
         if envs.VLLM_COMPUTE_NANS_IN_LOGITS:
             log_parts.append("Corrupted: %d reqs")
             log_args.append(self.num_corrupted_reqs)

From 360bd8762f053c59ee19e2fd72cb1e5a28423958 Mon Sep 17 00:00:00 2001
From: Srreyansh Sethi <107075589+WorldExplored@users.noreply.github.com>
Date: Fri, 14 Nov 2025 03:03:55 -0800
Subject: [PATCH 445/976]  [Frontend] Added chat-style multimodal support to
 /classify. (#27516)

Signed-off-by: WorldExplored <srreyansh.sethi@gmail.com>
Signed-off-by: Srreyansh Sethi <107075589+WorldExplored@users.noreply.github.com>
Signed-off-by: vnadathur <glvikramn@gmail.com>
Signed-off-by: wang.yuqi <yuqi.wang@daocloud.io>
Co-authored-by: vnadathur <236933696+vnadathur@users.noreply.github.com>
Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
Co-authored-by: vnadathur <glvikramn@gmail.com>
Co-authored-by: wang.yuqi <noooop@126.com>
Co-authored-by: wang.yuqi <yuqi.wang@daocloud.io>
---
 .../pooling/openai/test_classification.py     |  10 ++
 .../openai/test_vision_classification.py      |  95 ++++++++++++++
 vllm/entrypoints/openai/api_server.py         |   3 +
 vllm/entrypoints/openai/protocol.py           | 116 +++++++++++++++++-
 .../openai/serving_classification.py          | 100 ++++++++++++---
 vllm/entrypoints/openai/serving_engine.py     |  21 +++-
 6 files changed, 318 insertions(+), 27 deletions(-)
 create mode 100644 tests/entrypoints/pooling/openai/test_vision_classification.py

diff --git a/tests/entrypoints/pooling/openai/test_classification.py b/tests/entrypoints/pooling/openai/test_classification.py
index 671bb948780ae..25080d4189c2d 100644
--- a/tests/entrypoints/pooling/openai/test_classification.py
+++ b/tests/entrypoints/pooling/openai/test_classification.py
@@ -46,6 +46,16 @@ def test_single_input_classification(server: RemoteOpenAIServer, model_name: str
     assert hasattr(output.data[0], "probs")
 
 
+@pytest.mark.parametrize("model_name", [MODEL_NAME])
+def test_add_special_tokens_false(server: RemoteOpenAIServer, model_name: str):
+    response = requests.post(
+        server.url_for("classify"),
+        json={"model": model_name, "input": "hello", "add_special_tokens": False},
+    )
+    response.raise_for_status()
+    ClassificationResponse.model_validate(response.json())
+
+
 @pytest.mark.parametrize("model_name", [MODEL_NAME])
 def test_multiple_inputs_classification(server: RemoteOpenAIServer, model_name: str):
     input_texts = [
diff --git a/tests/entrypoints/pooling/openai/test_vision_classification.py b/tests/entrypoints/pooling/openai/test_vision_classification.py
new file mode 100644
index 0000000000000..f2616e057b175
--- /dev/null
+++ b/tests/entrypoints/pooling/openai/test_vision_classification.py
@@ -0,0 +1,95 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import json
+
+import pytest
+import requests
+
+from tests.utils import RemoteOpenAIServer
+from vllm.entrypoints.openai.protocol import ClassificationResponse
+
+VLM_MODEL_NAME = "muziyongshixin/Qwen2.5-VL-7B-for-VideoCls"
+MAXIMUM_VIDEOS = 1
+TEST_VIDEO_URL = "https://www.bogotobogo.com/python/OpenCV_Python/images/mean_shift_tracking/slow_traffic_small.mp4"
+
+HF_OVERRIDES = {
+    "text_config": {
+        "architectures": ["Qwen2_5_VLForSequenceClassification"],
+    },
+}
+
+
+@pytest.fixture(scope="module")
+def server_vlm_classify():
+    args = [
+        "--runner",
+        "pooling",
+        "--max-model-len",
+        "5000",
+        "--enforce-eager",
+        "--limit-mm-per-prompt",
+        json.dumps({"video": MAXIMUM_VIDEOS}),
+    ]
+
+    with RemoteOpenAIServer(
+        VLM_MODEL_NAME, args, override_hf_configs=HF_OVERRIDES
+    ) as remote_server:
+        yield remote_server
+
+
+@pytest.mark.parametrize("model_name", [VLM_MODEL_NAME])
+def test_classify_accepts_chat_text_only(
+    server_vlm_classify: RemoteOpenAIServer, model_name: str
+) -> None:
+    messages = [
+        {
+            "role": "user",
+            "content": [
+                {"type": "text", "text": "Please classify this text request."},
+            ],
+        }
+    ]
+
+    response = requests.post(
+        server_vlm_classify.url_for("classify"),
+        json={"model": model_name, "messages": messages},
+    )
+    response.raise_for_status()
+
+    output = ClassificationResponse.model_validate(response.json())
+
+    assert output.object == "list"
+    assert output.model == model_name
+    assert len(output.data) == 1
+    assert len(output.data[0].probs) == 2
+    assert output.usage.prompt_tokens == 22
+
+
+@pytest.mark.parametrize("model_name", [VLM_MODEL_NAME])
+def test_classify_accepts_chat_video_url(
+    server_vlm_classify: RemoteOpenAIServer, model_name: str
+) -> None:
+    messages = [
+        {
+            "role": "user",
+            "content": [
+                {"type": "text", "text": "Please classify this video."},
+                {"type": "video_url", "video_url": {"url": TEST_VIDEO_URL}},
+            ],
+        }
+    ]
+
+    response = requests.post(
+        server_vlm_classify.url_for("classify"),
+        json={"model": model_name, "messages": messages},
+    )
+    response.raise_for_status()
+
+    output = ClassificationResponse.model_validate(response.json())
+
+    assert output.object == "list"
+    assert output.model == model_name
+    assert len(output.data) == 1
+    assert len(output.data[0].probs) == 2
+    assert output.usage.prompt_tokens == 4807
diff --git a/vllm/entrypoints/openai/api_server.py b/vllm/entrypoints/openai/api_server.py
index fbb2d32a229da..f30c6ef2cd0a4 100644
--- a/vllm/entrypoints/openai/api_server.py
+++ b/vllm/entrypoints/openai/api_server.py
@@ -1784,6 +1784,9 @@ async def init_app_state(
             engine_client,
             state.openai_serving_models,
             request_logger=request_logger,
+            chat_template=resolved_chat_template,
+            chat_template_content_format=args.chat_template_content_format,
+            trust_request_chat_template=args.trust_request_chat_template,
             log_error_stack=args.log_error_stack,
         )
         if "classify" in supported_tasks
diff --git a/vllm/entrypoints/openai/protocol.py b/vllm/entrypoints/openai/protocol.py
index 69e757d4764d2..45584df8b9e26 100644
--- a/vllm/entrypoints/openai/protocol.py
+++ b/vllm/entrypoints/openai/protocol.py
@@ -2000,10 +2000,10 @@ class ScoreResponse(OpenAIBaseModel):
     usage: UsageInfo
 
 
-class ClassificationRequest(OpenAIBaseModel):
+class ClassificationCompletionRequest(OpenAIBaseModel):
     model: str | None = None
     input: list[str] | str
-    truncate_prompt_tokens: int | None = None
+    truncate_prompt_tokens: Annotated[int, Field(ge=-1)] | None = None
     user: str | None = None
 
     # --8<-- [start:classification-extra-params]
@@ -2015,7 +2015,21 @@ class ClassificationRequest(OpenAIBaseModel):
             "if the served model does not use priority scheduling."
         ),
     )
-
+    add_special_tokens: bool = Field(
+        default=True,
+        description=(
+            "If true (the default), special tokens (e.g. BOS) will be added to "
+            "the prompt."
+        ),
+    )
+    request_id: str = Field(
+        default_factory=lambda: f"{random_uuid()}",
+        description=(
+            "The request_id related to this request. If the caller does "
+            "not set it, a random_uuid will be generated. This id is used "
+            "through out the inference process and return in response."
+        ),
+    )
     softmax: bool | None = Field(
         default=None,
         description="softmax will be deprecated, please use use_activation instead.",
@@ -2040,6 +2054,102 @@ class ClassificationRequest(OpenAIBaseModel):
         )
 
 
+class ClassificationChatRequest(OpenAIBaseModel):
+    model: str | None = None
+    messages: list[ChatCompletionMessageParam]
+    truncate_prompt_tokens: Annotated[int, Field(ge=-1)] | None = None
+    user: str | None = None
+
+    # --8<-- [start:chat-classification-extra-params]
+    add_generation_prompt: bool = Field(
+        default=False,
+        description=(
+            "If true, the generation prompt will be added to the chat template. "
+            "This is a parameter used by chat template in tokenizer config of the "
+            "model."
+        ),
+    )
+
+    add_special_tokens: bool = Field(
+        default=False,
+        description=(
+            "If true, special tokens (e.g. BOS) will be added to the prompt "
+            "on top of what is added by the chat template. "
+            "For most models, the chat template takes care of adding the "
+            "special tokens so this should be set to false (as is the "
+            "default)."
+        ),
+    )
+
+    chat_template: str | None = Field(
+        default=None,
+        description=(
+            "A Jinja template to use for this conversion. "
+            "As of transformers v4.44, default chat template is no longer "
+            "allowed, so you must provide a chat template if the tokenizer "
+            "does not define one."
+        ),
+    )
+
+    chat_template_kwargs: dict[str, Any] | None = Field(
+        default=None,
+        description=(
+            "Additional keyword args to pass to the template renderer. "
+            "Will be accessible by the chat template."
+        ),
+    )
+
+    mm_processor_kwargs: dict[str, Any] | None = Field(
+        default=None,
+        description=("Additional kwargs to pass to the HF processor."),
+    )
+
+    priority: int = Field(
+        default=0,
+        description=(
+            "The priority of the request (lower means earlier handling; "
+            "default: 0). Any priority other than 0 will raise an error "
+            "if the served model does not use priority scheduling."
+        ),
+    )
+
+    request_id: str = Field(
+        default_factory=lambda: f"{random_uuid()}",
+        description=(
+            "The request_id related to this request. If the caller does "
+            "not set it, a random_uuid will be generated. This id is used "
+            "through out the inference process and return in response."
+        ),
+    )
+    softmax: bool | None = Field(
+        default=None,
+        description="softmax will be deprecated, please use use_activation instead.",
+    )
+
+    activation: bool | None = Field(
+        default=None,
+        description="activation will be deprecated, please use use_activation instead.",
+    )
+
+    use_activation: bool | None = Field(
+        default=None,
+        description="Whether to use activation for classification outputs. "
+        "Default is True.",
+    )
+    # --8<-- [end:chat-classification-extra-params]
+
+    def to_pooling_params(self):
+        return PoolingParams(
+            truncate_prompt_tokens=self.truncate_prompt_tokens,
+            use_activation=get_use_activation(self),
+        )
+
+
+ClassificationRequest: TypeAlias = (
+    ClassificationCompletionRequest | ClassificationChatRequest
+)
+
+
 class ClassificationData(OpenAIBaseModel):
     index: int
     label: str | None
diff --git a/vllm/entrypoints/openai/serving_classification.py b/vllm/entrypoints/openai/serving_classification.py
index 45bbe732a680f..167ee152fece3 100644
--- a/vllm/entrypoints/openai/serving_classification.py
+++ b/vllm/entrypoints/openai/serving_classification.py
@@ -4,13 +4,17 @@
 from http import HTTPStatus
 from typing import cast
 
+import jinja2
 import numpy as np
 from fastapi import Request
-from typing_extensions import override
 
 from vllm.engine.protocol import EngineClient
+from vllm.entrypoints.chat_utils import ChatTemplateContentFormatOption
 from vllm.entrypoints.logger import RequestLogger
 from vllm.entrypoints.openai.protocol import (
+    ChatCompletionRequest,
+    ClassificationChatRequest,
+    ClassificationCompletionRequest,
     ClassificationData,
     ClassificationRequest,
     ClassificationResponse,
@@ -32,7 +36,10 @@ logger = init_logger(__name__)
 
 
 class ClassificationMixin(OpenAIServing):
-    @override
+    chat_template: str | None
+    chat_template_content_format: ChatTemplateContentFormatOption
+    trust_request_chat_template: bool
+
     async def _preprocess(
         self,
         ctx: ServeContext,
@@ -42,31 +49,79 @@ class ClassificationMixin(OpenAIServing):
         and prepare model-specific inputs.
         """
         ctx = cast(ClassificationServeContext, ctx)
-        if isinstance(ctx.request.input, str) and not ctx.request.input:
-            return self.create_error_response(
-                "Input cannot be empty for classification",
-                status_code=HTTPStatus.BAD_REQUEST,
-            )
-
-        if isinstance(ctx.request.input, list) and len(ctx.request.input) == 0:
-            return None
-
         try:
             ctx.tokenizer = await self.engine_client.get_tokenizer()
 
-            renderer = self._get_renderer(ctx.tokenizer)
-            ctx.engine_prompts = await renderer.render_prompt(
-                prompt_or_prompts=ctx.request.input,
-                config=self._build_render_config(ctx.request),
-            )
+            request_obj = ctx.request
+
+            if isinstance(request_obj, ClassificationChatRequest):
+                chat_request = request_obj
+                messages = chat_request.messages
+                trust_request_chat_template = getattr(
+                    self,
+                    "trust_request_chat_template",
+                    False,
+                )
+                ret = self._validate_chat_template(
+                    request_chat_template=chat_request.chat_template,
+                    chat_template_kwargs=chat_request.chat_template_kwargs,
+                    trust_request_chat_template=trust_request_chat_template,
+                )
+                if ret:
+                    return ret
+
+                (
+                    _,
+                    _,
+                    engine_prompts,
+                ) = await self._preprocess_chat(
+                    cast(ChatCompletionRequest, chat_request),
+                    ctx.tokenizer,
+                    messages,
+                    chat_template=(
+                        chat_request.chat_template
+                        or getattr(self, "chat_template", None)
+                    ),
+                    chat_template_content_format=cast(
+                        ChatTemplateContentFormatOption,
+                        getattr(self, "chat_template_content_format", "auto"),
+                    ),
+                    add_generation_prompt=False,
+                    continue_final_message=False,
+                    add_special_tokens=chat_request.add_special_tokens,
+                )
+                ctx.engine_prompts = engine_prompts
+
+            elif isinstance(request_obj, ClassificationCompletionRequest):
+                completion_request = request_obj
+                input_data = completion_request.input
+                if input_data in (None, ""):
+                    return self.create_error_response(
+                        "Input or messages must be provided",
+                        status_code=HTTPStatus.BAD_REQUEST,
+                    )
+                if isinstance(input_data, list) and not input_data:
+                    ctx.engine_prompts = []
+                    return None
+
+                renderer = self._get_renderer(ctx.tokenizer)
+                prompt_input = cast(str | list[str], input_data)
+                ctx.engine_prompts = await renderer.render_prompt(
+                    prompt_or_prompts=prompt_input,
+                    config=self._build_render_config(completion_request),
+                )
+            else:
+                return self.create_error_response(
+                    "Invalid classification request type",
+                    status_code=HTTPStatus.BAD_REQUEST,
+                )
 
             return None
 
-        except (ValueError, TypeError) as e:
+        except (ValueError, TypeError, jinja2.TemplateError) as e:
             logger.exception("Error in preprocessing prompt inputs")
             return self.create_error_response(str(e))
 
-    @override
     def _build_response(
         self,
         ctx: ServeContext,
@@ -118,6 +173,7 @@ class ClassificationMixin(OpenAIServing):
         return RenderConfig(
             max_length=self.max_model_len,
             truncate_prompt_tokens=request.truncate_prompt_tokens,
+            add_special_tokens=request.add_special_tokens,
         )
 
 
@@ -130,6 +186,9 @@ class ServingClassification(ClassificationMixin):
         models: OpenAIServingModels,
         *,
         request_logger: RequestLogger | None,
+        chat_template: str | None = None,
+        chat_template_content_format: ChatTemplateContentFormatOption = "auto",
+        trust_request_chat_template: bool = False,
         log_error_stack: bool = False,
     ) -> None:
         super().__init__(
@@ -139,6 +198,10 @@ class ServingClassification(ClassificationMixin):
             log_error_stack=log_error_stack,
         )
 
+        self.chat_template = chat_template
+        self.chat_template_content_format = chat_template_content_format
+        self.trust_request_chat_template = trust_request_chat_template
+
     async def create_classify(
         self,
         request: ClassificationRequest,
@@ -156,7 +219,6 @@ class ServingClassification(ClassificationMixin):
 
         return await super().handle(ctx)  # type: ignore
 
-    @override
     def _create_pooling_params(
         self,
         ctx: ClassificationServeContext,
diff --git a/vllm/entrypoints/openai/serving_engine.py b/vllm/entrypoints/openai/serving_engine.py
index 1456727a3cdd6..03f10e5a91e64 100644
--- a/vllm/entrypoints/openai/serving_engine.py
+++ b/vllm/entrypoints/openai/serving_engine.py
@@ -43,6 +43,8 @@ from vllm.entrypoints.openai.protocol import (
     ChatCompletionNamedToolChoiceParam,
     ChatCompletionRequest,
     ChatCompletionResponse,
+    ClassificationChatRequest,
+    ClassificationCompletionRequest,
     ClassificationRequest,
     ClassificationResponse,
     CompletionRequest,
@@ -114,13 +116,16 @@ CompletionLikeRequest: TypeAlias = (
     | DetokenizeRequest
     | EmbeddingCompletionRequest
     | RerankRequest
-    | ClassificationRequest
+    | ClassificationCompletionRequest
     | ScoreRequest
     | TokenizeCompletionRequest
 )
 
 ChatLikeRequest: TypeAlias = (
-    ChatCompletionRequest | EmbeddingChatRequest | TokenizeChatRequest
+    ChatCompletionRequest
+    | EmbeddingChatRequest
+    | TokenizeChatRequest
+    | ClassificationChatRequest
 )
 SpeechToTextRequest: TypeAlias = TranscriptionRequest | TranslationRequest
 AnyRequest: TypeAlias = (
@@ -814,7 +819,11 @@ class OpenAIServing:
         if not hasattr(request, "messages"):
             return message_types
 
-        for message in request.messages:
+        messages = request.messages
+        if messages is None or isinstance(messages, (str, bytes)):
+            return message_types
+
+        for message in messages:
             if (
                 isinstance(message, dict)
                 and "content" in message
@@ -907,7 +916,8 @@ class OpenAIServing:
                 EmbeddingCompletionRequest,
                 ScoreRequest,
                 RerankRequest,
-                ClassificationRequest,
+                ClassificationCompletionRequest,
+                ClassificationChatRequest,
             ),
         ):
             # Note: input length can be up to the entire model context length
@@ -915,7 +925,8 @@ class OpenAIServing:
             if token_num > self.max_model_len:
                 operations: dict[type[AnyRequest], str] = {
                     ScoreRequest: "score",
-                    ClassificationRequest: "classification",
+                    ClassificationCompletionRequest: "classification",
+                    ClassificationChatRequest: "classification",
                 }
                 operation = operations.get(type(request), "embedding generation")
                 raise ValueError(

From 41b92f7d38d3f056004991c026f6a24846755ef4 Mon Sep 17 00:00:00 2001
From: Shanshan Shen <467638484@qq.com>
Date: Fri, 14 Nov 2025 19:16:13 +0800
Subject: [PATCH 446/976] [Model][MM] Extract conv layer as CustomOp (#28455)

Signed-off-by: shen-shanshan <467638484@qq.com>
Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>
Co-authored-by: Isotr0py <mozf@mail2.sysu.edu.cn>
---
 vllm/model_executor/layers/conv.py            | 236 ++++++++++++++++++
 vllm/model_executor/models/clip.py            |   3 +-
 vllm/model_executor/models/glm4_1v.py         |  17 +-
 vllm/model_executor/models/qwen2_5_vl.py      |  18 +-
 vllm/model_executor/models/qwen2_vl.py        |  18 +-
 .../models/qwen3_omni_moe_thinker.py          |  17 +-
 vllm/model_executor/models/qwen3_vl.py        |  18 +-
 vllm/model_executor/models/vision.py          |  16 --
 8 files changed, 277 insertions(+), 66 deletions(-)
 create mode 100644 vllm/model_executor/layers/conv.py

diff --git a/vllm/model_executor/layers/conv.py b/vllm/model_executor/layers/conv.py
new file mode 100644
index 0000000000000..e6f2d2990c241
--- /dev/null
+++ b/vllm/model_executor/layers/conv.py
@@ -0,0 +1,236 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Conv Layer Class."""
+
+import math
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+
+from vllm.model_executor.custom_op import CustomOp
+from vllm.utils.torch_utils import is_torch_equal
+
+
+class ConvLayerBase(CustomOp):
+    """Conv layer base class."""
+
+    num_dim: int
+
+    def __init__(
+        self,
+        in_channels: int,
+        out_channels: int,
+        kernel_size: int | tuple[int, ...],
+        stride: int | tuple[int, ...] = 1,
+        padding: int | tuple[int, ...] = 0,
+        dilation: int | tuple[int, ...] = 1,
+        groups: int = 1,
+        bias: bool = True,
+        padding_mode: str = "zeros",
+        *,
+        params_dtype: torch.dtype | None = None,
+    ) -> None:
+        super().__init__()
+
+        if params_dtype is None:
+            params_dtype = torch.get_default_dtype()
+
+        kernel_size = (
+            (kernel_size,) * self.num_dim
+            if isinstance(kernel_size, int)
+            else kernel_size
+        )
+        stride = (stride,) * self.num_dim if isinstance(stride, int) else stride
+        padding = (padding,) * self.num_dim if isinstance(padding, int) else padding
+        dilation = (dilation,) * self.num_dim if isinstance(dilation, int) else dilation
+
+        self.in_channels = in_channels
+        self.out_channels = out_channels
+        self.kernel_size = kernel_size
+        self.stride = stride
+        self.padding = padding
+        self.dilation = dilation
+        self.groups = groups
+        self.padding_mode = padding_mode
+
+        self.enable_linear = (
+            (self.kernel_size == self.stride)
+            and not any(self.padding)
+            and self.groups == 1
+        )
+        self.input_size = in_channels * math.prod(self.kernel_size)
+
+        self.weight = nn.Parameter(
+            torch.empty(
+                out_channels,
+                in_channels // groups,
+                *kernel_size,
+                dtype=params_dtype,
+            ),
+        )
+
+        if bias:
+            self.bias = nn.Parameter(torch.empty(self.out_channels, dtype=params_dtype))
+        else:
+            self.register_parameter("bias", None)
+
+    def extra_repr(self) -> str:
+        s = f"in_channels={self.in_channels}, "
+        s += f"out_channels={self.out_channels}, "
+        s += f"kernel_size={self.kernel_size}, "
+        s += f"stride={self.stride}, "
+        s += f"padding={self.padding}, "
+        s += f"bias={self.bias is not None}"
+        return s
+
+
+@CustomOp.register("conv2d")
+class Conv2dLayer(ConvLayerBase):
+    """Conv layer with Conv2d."""
+
+    num_dim = 2
+
+    def _forward_mulmat(self, x: torch.Tensor) -> torch.Tensor:
+        assert x.dim() == 4
+        B, C, H, W = x.shape
+        K1, K2 = self.kernel_size
+        H, W = H // K1, W // K2
+        x = x.unfold(2, K1, K1).unfold(3, K2, K2)
+        x = x.permute(0, 2, 3, 1, 4, 5).reshape(-1, self.input_size)
+        x = F.linear(
+            x,
+            self.weight.view(self.out_channels, self.input_size),
+            self.bias,
+        )
+        x = x.view(B, H, W, self.out_channels).permute(0, 3, 1, 2)
+        return x
+
+    def _forward_conv(self, x: torch.Tensor) -> torch.Tensor:
+        assert x.dim() == 4
+        x = F.conv2d(
+            x,
+            self.weight,
+            self.bias,
+            stride=self.stride,
+            padding=self.padding,
+            dilation=self.dilation,
+            groups=self.groups,
+        )
+        return x
+
+    def forward_native(self, x: torch.Tensor) -> torch.Tensor:
+        """Expected input shape: (batch_size, in_channels, height, width)"""
+        assert x.dim() == 4
+        if self.enable_linear:
+            return self._forward_mulmat(x)
+        else:
+            return self._forward_conv(x)
+
+    def forward_cuda(self, x: torch.Tensor) -> torch.Tensor:
+        # By default, we use CUDNN's convolution ops with optimization.
+        return self._forward_conv(x)
+
+
+class CausalConv2dLayer(Conv2dLayer):
+    """
+    A causal version of nn.Conv2d where each location in the 2D matrix would
+    have no access to locations on its right or down
+    All arguments are the same as nn.Conv2d except padding which should be
+    set as None
+    """
+
+    def __init__(
+        self,
+        in_channels: int,
+        out_channels: int,
+        kernel_size: int,
+        stride: int,
+        padding: int = 0,
+        dilation: int = 1,
+        groups: int = 1,
+        bias: bool = True,
+        padding_mode: str = "zeros",
+        *,
+        params_dtype: torch.dtype | None = None,
+    ) -> None:
+        if padding is not None:
+            raise ValueError(
+                "Argument padding should be set to None for CausalConv2dLayer."
+            )
+        self._left_padding: int = kernel_size - 1
+        self._right_padding: int = stride - 1
+        padding = 0
+
+        super().__init__(
+            in_channels,
+            out_channels,
+            kernel_size,
+            stride,
+            padding,
+            dilation,
+            groups,
+            bias,
+            padding_mode,
+            params_dtype=params_dtype,
+        )
+
+    def forward(
+        self,
+        x: torch.Tensor,
+    ) -> torch.Tensor:
+        x = F.pad(x, pad=(self._left_padding, self._right_padding, 0, 0))
+        x = super().forward(x)
+        return x
+
+
+@CustomOp.register("conv3d")
+class Conv3dLayer(ConvLayerBase):
+    """Conv layer with Conv3d."""
+
+    num_dim = 3
+
+    def _forward_mulmat(self, x: torch.Tensor) -> torch.Tensor:
+        assert x.dim() == 5
+        B, C, T, H, W = x.shape
+        K1, K2, K3 = self.kernel_size
+        T, H, W = T // K1, H // K2, W // K3
+        x = x.unfold(2, K1, K1).unfold(3, K2, K2).unfold(4, K3, K3)
+        x = x.permute(0, 2, 3, 4, 1, 5, 6, 7).reshape(-1, self.input_size)
+        x = F.linear(
+            x,
+            self.weight.view(self.out_channels, self.input_size),
+            self.bias,
+        )
+        x = x.view(B, T, H, W, self.out_channels).permute(0, 4, 1, 2, 3)
+        return x
+
+    def _forward_conv(self, x: torch.Tensor) -> torch.Tensor:
+        assert x.dim() == 5
+        x = F.conv3d(
+            x,
+            self.weight,
+            self.bias,
+            stride=self.stride,
+            padding=self.padding,
+            dilation=self.dilation,
+            groups=self.groups,
+        )
+        return x
+
+    def forward_native(self, x: torch.Tensor) -> torch.Tensor:
+        """Expected input shape: (batch_size, in_channels, time, height, width)"""
+        if self.enable_linear:
+            return self._forward_mulmat(x)
+        else:
+            return self._forward_conv(x)
+
+    def forward_cuda(self, x: torch.Tensor) -> torch.Tensor:
+        # PyTorch2.9.0 disabled CUDNN's Conv3D, which caused a
+        # significant performance regression.
+        # See: https://github.com/vllm-project/vllm/issues/27406
+        # and https://github.com/pytorch/pytorch/issues/166122
+        # By default, we use CUDNN's convolution ops with optimization.
+        if self.enable_linear and is_torch_equal("2.9.0"):
+            return self._forward_mulmat(x)
+        return self._forward_conv(x)
diff --git a/vllm/model_executor/models/clip.py b/vllm/model_executor/models/clip.py
index 50f476dfd185b..5d611deb942d1 100644
--- a/vllm/model_executor/models/clip.py
+++ b/vllm/model_executor/models/clip.py
@@ -20,6 +20,7 @@ from vllm.config import VllmConfig
 from vllm.config.multimodal import BaseDummyOptions
 from vllm.distributed import divide, get_tensor_model_parallel_world_size
 from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.conv import Conv2dLayer
 from vllm.model_executor.layers.linear import (
     ColumnParallelLinear,
     QKVParallelLinear,
@@ -315,7 +316,7 @@ class CLIPVisionEmbeddings(nn.Module):
 
         self.class_embedding = nn.Parameter(torch.randn(self.embed_dim))
 
-        self.patch_embedding = nn.Conv2d(
+        self.patch_embedding = Conv2dLayer(
             in_channels=config.num_channels,
             out_channels=self.embed_dim,
             kernel_size=self.patch_size,
diff --git a/vllm/model_executor/models/glm4_1v.py b/vllm/model_executor/models/glm4_1v.py
index b2d4fe0c0139b..6953b805653b4 100644
--- a/vllm/model_executor/models/glm4_1v.py
+++ b/vllm/model_executor/models/glm4_1v.py
@@ -56,12 +56,12 @@ from vllm.config.multimodal import BaseDummyOptions, VideoDummyOptions
 from vllm.distributed import get_tensor_model_parallel_world_size, parallel_state
 from vllm.distributed import utils as dist_utils
 from vllm.logger import init_logger
+from vllm.model_executor.layers.conv import Conv3dLayer
 from vllm.model_executor.layers.layernorm import RMSNorm
 from vllm.model_executor.layers.linear import (
     ColumnParallelLinear,
     MergedColumnParallelLinear,
     QKVParallelLinear,
-    ReplicatedLinear,
     RowParallelLinear,
 )
 from vllm.model_executor.layers.quantization import QuantizationConfig
@@ -103,7 +103,6 @@ from .utils import (
     maybe_prefix,
 )
 from .vision import (
-    conv3d_to_linear_weight,
     get_vit_attn_backend,
     run_dp_sharded_mrope_vision_model,
 )
@@ -486,15 +485,18 @@ class Glm4vVisionPatchEmbed(nn.Module):
         self.hidden_size = hidden_size
 
         kernel_size = (temporal_patch_size, patch_size, patch_size)
-        self.proj = ReplicatedLinear(
-            in_channels * math.prod(kernel_size),
+        self.proj = Conv3dLayer(
+            in_channels,
             hidden_size,
+            kernel_size=kernel_size,
+            stride=kernel_size,
             bias=True,
-            return_bias=False,
         )
 
     def forward(self, x: torch.Tensor) -> torch.Tensor:
-        x = self.proj(x)
+        L, C = x.shape
+        x = x.view(L, -1, self.temporal_patch_size, self.patch_size, self.patch_size)
+        x = self.proj(x).view(L, self.hidden_size)
         return x
 
 
@@ -893,9 +895,6 @@ class Glm4vVisionTransformer(nn.Module):
         loaded_params: set[str] = set()
 
         for name, loaded_weight in weights:
-            if name.endswith("patch_embed.proj.weight"):
-                loaded_weight = conv3d_to_linear_weight(loaded_weight)
-
             for param_name, weight_name, shard_id in stacked_params_mapping:
                 if weight_name not in name:
                     continue
diff --git a/vllm/model_executor/models/qwen2_5_vl.py b/vllm/model_executor/models/qwen2_5_vl.py
index 23591480b160e..7617929e93ac4 100644
--- a/vllm/model_executor/models/qwen2_5_vl.py
+++ b/vllm/model_executor/models/qwen2_5_vl.py
@@ -26,7 +26,6 @@
 # limitations under the License.
 """Inference-only Qwen2.5-VL model compatible with HuggingFace weights."""
 
-import math
 from collections.abc import Callable, Iterable, Mapping, Sequence
 from functools import lru_cache, partial
 from typing import Annotated, Any, Literal, TypeAlias
@@ -56,12 +55,12 @@ from vllm.distributed import utils as dist_utils
 from vllm.forward_context import set_forward_context
 from vllm.logger import init_logger
 from vllm.model_executor.layers.activation import get_act_and_mul_fn
+from vllm.model_executor.layers.conv import Conv3dLayer
 from vllm.model_executor.layers.layernorm import RMSNorm
 from vllm.model_executor.layers.linear import (
     ColumnParallelLinear,
     MergedColumnParallelLinear,
     QKVParallelLinear,
-    ReplicatedLinear,
     RowParallelLinear,
 )
 from vllm.model_executor.layers.quantization import QuantizationConfig
@@ -110,7 +109,6 @@ from .utils import (
     maybe_prefix,
 )
 from .vision import (
-    conv3d_to_linear_weight,
     get_vit_attn_backend,
     run_dp_sharded_mrope_vision_model,
 )
@@ -525,15 +523,18 @@ class Qwen2_5_VisionPatchEmbed(nn.Module):
         self.hidden_size = hidden_size
 
         kernel_size = (temporal_patch_size, patch_size, patch_size)
-        self.proj = ReplicatedLinear(
-            in_channels * math.prod(kernel_size),
+        self.proj = Conv3dLayer(
+            in_channels,
             hidden_size,
+            kernel_size=kernel_size,
+            stride=kernel_size,
             bias=False,
-            return_bias=False,
         )
 
     def forward(self, x: torch.Tensor) -> torch.Tensor:
-        x = self.proj(x)
+        L, C = x.shape
+        x = x.view(L, -1, self.temporal_patch_size, self.patch_size, self.patch_size)
+        x = self.proj(x).view(L, self.hidden_size)
         return x
 
 
@@ -957,9 +958,6 @@ class Qwen2_5_VisionTransformer(nn.Module):
         loaded_params: set[str] = set()
 
         for name, loaded_weight in weights:
-            if name.endswith("patch_embed.proj.weight"):
-                loaded_weight = conv3d_to_linear_weight(loaded_weight)
-
             for param_name, weight_name, shard_id in stacked_params_mapping:
                 if weight_name not in name:
                     continue
diff --git a/vllm/model_executor/models/qwen2_vl.py b/vllm/model_executor/models/qwen2_vl.py
index 13b54bbe17488..5d21e249fc4cc 100644
--- a/vllm/model_executor/models/qwen2_vl.py
+++ b/vllm/model_executor/models/qwen2_vl.py
@@ -25,7 +25,6 @@
 # limitations under the License.
 """Inference-only Qwen2-VL model compatible with HuggingFace weights."""
 
-import math
 from collections.abc import Callable, Iterable, Mapping, Sequence
 from functools import partial
 from typing import Annotated, Any, Literal, TypeAlias
@@ -54,9 +53,9 @@ from vllm.distributed import parallel_state
 from vllm.distributed import utils as dist_utils
 from vllm.logger import init_logger
 from vllm.model_executor.layers.activation import QuickGELU
+from vllm.model_executor.layers.conv import Conv3dLayer
 from vllm.model_executor.layers.linear import (
     ColumnParallelLinear,
-    ReplicatedLinear,
     RowParallelLinear,
 )
 from vllm.model_executor.layers.quantization import QuantizationConfig
@@ -107,7 +106,6 @@ from .utils import (
     maybe_prefix,
 )
 from .vision import (
-    conv3d_to_linear_weight,
     get_vit_attn_backend,
     run_dp_sharded_mrope_vision_model,
 )
@@ -566,15 +564,18 @@ class Qwen2VisionPatchEmbed(nn.Module):
         self.embed_dim = embed_dim
 
         kernel_size = (temporal_patch_size, patch_size, patch_size)
-        self.proj = ReplicatedLinear(
-            in_channels * math.prod(kernel_size),
+        self.proj = Conv3dLayer(
+            in_channels,
             embed_dim,
+            kernel_size=kernel_size,
+            stride=kernel_size,
             bias=False,
-            return_bias=False,
         )
 
     def forward(self, x: torch.Tensor) -> torch.Tensor:
-        x = self.proj(x)
+        L, C = x.shape
+        x = x.view(L, -1, self.temporal_patch_size, self.patch_size, self.patch_size)
+        x = self.proj(x).view(L, self.embed_dim)
         return x
 
 
@@ -844,9 +845,6 @@ class Qwen2VisionTransformer(nn.Module):
         loaded_params: set[str] = set()
 
         for name, loaded_weight in weights:
-            if name.endswith("patch_embed.proj.weight"):
-                loaded_weight = conv3d_to_linear_weight(loaded_weight)
-
             for param_name, weight_name, shard_id in stacked_params_mapping:
                 if weight_name not in name:
                     continue
diff --git a/vllm/model_executor/models/qwen3_omni_moe_thinker.py b/vllm/model_executor/models/qwen3_omni_moe_thinker.py
index 5df2372a842cf..40b80ce2387c8 100755
--- a/vllm/model_executor/models/qwen3_omni_moe_thinker.py
+++ b/vllm/model_executor/models/qwen3_omni_moe_thinker.py
@@ -22,7 +22,6 @@
 # limitations under the License.
 """Inference-only Qwen3-Omni-Moe model (thinker part)."""
 
-import math
 from collections.abc import Callable, Iterable, Mapping, Sequence
 from functools import partial
 from typing import Any
@@ -54,9 +53,9 @@ from vllm.config import VllmConfig
 from vllm.distributed import get_pp_group
 from vllm.logger import init_logger
 from vllm.model_executor.layers.activation import _ACTIVATION_REGISTRY
+from vllm.model_executor.layers.conv import Conv3dLayer
 from vllm.model_executor.layers.linear import (
     ColumnParallelLinear,
-    ReplicatedLinear,
     RowParallelLinear,
 )
 from vllm.model_executor.layers.logits_processor import LogitsProcessor
@@ -102,7 +101,6 @@ from .utils import (
     maybe_prefix,
 )
 from .vision import (
-    conv3d_to_linear_weight,
     get_llm_pos_ids_for_vision,
     get_vit_attn_backend,
 )
@@ -138,16 +136,18 @@ class Qwen3_VisionPatchEmbed(nn.Module):
         self.hidden_size = hidden_size
 
         kernel_size = (temporal_patch_size, patch_size, patch_size)
-        self.proj = ReplicatedLinear(
-            in_channels * math.prod(kernel_size),
+        self.proj = Conv3dLayer(
+            in_channels,
             hidden_size,
+            kernel_size=kernel_size,
+            stride=kernel_size,
             bias=True,
-            return_bias=False,
         )
 
     def forward(self, x: torch.Tensor) -> torch.Tensor:
         L, C = x.shape
-        x = self.proj(x)
+        x = x.view(L, -1, self.temporal_patch_size, self.patch_size, self.patch_size)
+        x = self.proj(x).view(L, self.hidden_size)
         return x
 
 
@@ -566,9 +566,6 @@ class Qwen3Omni_VisionTransformer(nn.Module):
         loaded_params: set[str] = set()
 
         for name, loaded_weight in weights:
-            if name.endswith("patch_embed.proj.weight"):
-                loaded_weight = conv3d_to_linear_weight(loaded_weight)
-
             for param_name, weight_name, shard_id in stacked_params_mapping:
                 if weight_name not in name:
                     continue
diff --git a/vllm/model_executor/models/qwen3_vl.py b/vllm/model_executor/models/qwen3_vl.py
index 5f5bde1dd72d3..faeb9f81d9613 100644
--- a/vllm/model_executor/models/qwen3_vl.py
+++ b/vllm/model_executor/models/qwen3_vl.py
@@ -24,7 +24,6 @@
 # limitations under the License.
 """Inference-only Qwen3VL model compatible with HuggingFace weights."""
 
-import math
 from collections.abc import Callable, Iterable, Mapping, Sequence
 from functools import partial
 from itertools import islice
@@ -57,9 +56,9 @@ from vllm.config.multimodal import BaseDummyOptions, VideoDummyOptions
 from vllm.distributed import get_pp_group
 from vllm.logger import init_logger
 from vllm.model_executor.layers.activation import _ACTIVATION_REGISTRY
+from vllm.model_executor.layers.conv import Conv3dLayer
 from vllm.model_executor.layers.linear import (
     ColumnParallelLinear,
-    ReplicatedLinear,
     RowParallelLinear,
 )
 from vllm.model_executor.layers.logits_processor import LogitsProcessor
@@ -114,7 +113,6 @@ from .utils import (
     maybe_prefix,
 )
 from .vision import (
-    conv3d_to_linear_weight,
     get_vit_attn_backend,
     run_dp_sharded_mrope_vision_model,
 )
@@ -139,15 +137,18 @@ class Qwen3_VisionPatchEmbed(nn.Module):
         self.hidden_size = hidden_size
 
         kernel_size = (temporal_patch_size, patch_size, patch_size)
-        self.proj = ReplicatedLinear(
-            in_channels * math.prod(kernel_size),
+        self.proj = Conv3dLayer(
+            in_channels,
             hidden_size,
+            kernel_size=kernel_size,
+            stride=kernel_size,
             bias=True,
-            return_bias=False,
         )
 
     def forward(self, x: torch.Tensor) -> torch.Tensor:
-        x = self.proj(x)
+        L, C = x.shape
+        x = x.view(L, -1, self.temporal_patch_size, self.patch_size, self.patch_size)
+        x = self.proj(x).view(L, self.hidden_size)
         return x
 
 
@@ -579,9 +580,6 @@ class Qwen3_VisionTransformer(nn.Module):
         loaded_params: set[str] = set()
 
         for name, loaded_weight in weights:
-            if name.endswith("patch_embed.proj.weight"):
-                loaded_weight = conv3d_to_linear_weight(loaded_weight)
-
             for param_name, weight_name, shard_id in stacked_params_mapping:
                 if weight_name not in name:
                     continue
diff --git a/vllm/model_executor/models/vision.py b/vllm/model_executor/models/vision.py
index 0e814e5c86ad4..e5d70eb7bc2fc 100644
--- a/vllm/model_executor/models/vision.py
+++ b/vllm/model_executor/models/vision.py
@@ -550,19 +550,3 @@ def get_llm_pos_ids_for_vision(
     llm_pos_ids_list.append(_llm_pos_ids + start_idx)
     llm_pos_ids = torch.cat(llm_pos_ids_list, dim=1)
     return llm_pos_ids
-
-
-# Due to a performance regression with Conv3D in PyTorch2.9, we reshape
-# Conv3D weights to Linear weights for better performance.
-# See: https://github.com/vllm-project/vllm/issues/27406
-# and https://github.com/pytorch/pytorch/issues/166122
-# FIXME(Isotr0py): Revert the PR introduces this workaround
-# (https://github.com/vllm-project/vllm/pull/27418),
-# once the performance issue is resolved in PyTorch.
-def conv3d_to_linear_weight(conv3d_weight: torch.Tensor) -> torch.Tensor:
-    """
-    Reshape Conv3D weight to Linear weight. Only work when kernel_size==stride.
-    """
-    out_channels, in_channels, kt, kh, kw = conv3d_weight.shape
-    linear_weight = conv3d_weight.reshape(out_channels, in_channels * kt * kh * kw)
-    return linear_weight

From 4516d44b7f990b8f92450e73720b89cc8ac155ca Mon Sep 17 00:00:00 2001
From: Jingchun Gao <63247409+gjc0824@users.noreply.github.com>
Date: Fri, 14 Nov 2025 19:24:10 +0800
Subject: [PATCH 447/976] [DCP] Support Decode Context Parallel (DCP) for GQA
 with Flashinfer (#25438)

Signed-off-by: gaojc <1055866782@qq.com>
Signed-off-by: Jingchun Gao <gaojingchun1@huawei.com>
Signed-off-by: Jingchun Gao <63247409+gjc0824@users.noreply.github.com>
Signed-off-by: QiuChunshuo <qiuchunshuo@huawei.com>
Co-authored-by: gaojingchun (A) <g00955623@china.huawei.com>
Co-authored-by: Jingchun Gao <gaojingchun1@huawei.com>
Co-authored-by: QiuChunshuo <qiuchunshuo@huawei.com>
---
 tests/distributed/test_context_parallel.py |  17 +-
 vllm/config/model.py                       |   8 +
 vllm/utils/flashinfer.py                   |   9 +
 vllm/v1/attention/backends/flashinfer.py   | 343 ++++++++++++++++++---
 vllm/v1/executor/multiproc_executor.py     |   5 +
 5 files changed, 331 insertions(+), 51 deletions(-)

diff --git a/tests/distributed/test_context_parallel.py b/tests/distributed/test_context_parallel.py
index 3576efca591cf..b16fd0d06b145 100644
--- a/tests/distributed/test_context_parallel.py
+++ b/tests/distributed/test_context_parallel.py
@@ -39,6 +39,7 @@ class ParallelSetup(NamedTuple):
 class CPTestOptions(NamedTuple):
     multi_node_only: bool
     load_format: str | None = None
+    attn_backend: str | None = None
 
 
 @dataclass
@@ -58,6 +59,7 @@ class CPTestSettings:
         multi_node_only: bool = False,
         runner: RunnerOption = "auto",
         load_format: str | None = None,
+        attn_backend: str | None = None,
     ):
         parallel_setups = []
         for eager_mode_val in [False]:
@@ -79,7 +81,9 @@ class CPTestSettings:
             distributed_backends=["mp"],
             runner=runner,
             test_options=CPTestOptions(
-                multi_node_only=multi_node_only, load_format=load_format
+                multi_node_only=multi_node_only,
+                load_format=load_format,
+                attn_backend=attn_backend,
             ),
         )
 
@@ -117,7 +121,7 @@ def _compare_cp_with_tp(
         chunked_prefill,
     ) = parallel_setup
 
-    multi_node_only, load_format = test_options
+    multi_node_only, load_format, attn_backend = test_options
 
     model_info = HF_EXAMPLE_MODELS.find_hf_info(model_id)
     model_info.check_transformers_version(on_fail="skip")
@@ -177,6 +181,13 @@ def _compare_cp_with_tp(
     if hf_overrides:
         common_args.extend(["--hf-overrides", json.dumps(hf_overrides)])
 
+    if not attn_backend:
+        cp_env = tp_env = {}
+    else:
+        cp_env = tp_env = {
+            "VLLM_ATTENTION_BACKEND": attn_backend,
+        }
+
     cp_args = [
         *common_args,
         "--tensor-parallel-size",
@@ -205,6 +216,8 @@ def _compare_cp_with_tp(
         model_id,
         cp_args,
         tp_args,
+        cp_env,
+        tp_env,
         method=method,
         max_wait_seconds=720,
     )
diff --git a/vllm/config/model.py b/vllm/config/model.py
index f4ed99689e5b4..8ec66b6b3160b 100644
--- a/vllm/config/model.py
+++ b/vllm/config/model.py
@@ -1183,6 +1183,14 @@ class ModelConfig:
                 f"but got {decode_context_parallel_size}"
             )
 
+            num_q_per_kv = total_num_attention_heads // total_num_kv_heads
+            assert num_q_per_kv % decode_context_parallel_size == 0, (
+                f"Total number of q per kv attn heads ({num_q_per_kv})"
+                " must be divisible by dcp world size when enable "
+                "decode context parallel for GQA "
+                f"({parallel_config.decode_context_parallel_size})."
+            )
+
     def get_sliding_window(self) -> int | None:
         """Get the sliding window size from the HF text config if present."""
         return getattr(self.hf_text_config, "sliding_window", None)
diff --git a/vllm/utils/flashinfer.py b/vllm/utils/flashinfer.py
index 62af39513d651..79e5a4c302594 100644
--- a/vllm/utils/flashinfer.py
+++ b/vllm/utils/flashinfer.py
@@ -259,6 +259,7 @@ def use_trtllm_attention(
     num_kv_heads: int,
     num_tokens: int,
     max_seq_len: int,
+    dcp_world_size: int,
     kv_cache_dtype: str,
     q_dtype: torch.dtype,
     is_prefill: bool,
@@ -272,6 +273,14 @@ def use_trtllm_attention(
     if force_use_trtllm is not None and not force_use_trtllm:
         return False
 
+    # Decode context parallel is not supported
+    if dcp_world_size > 1:
+        logger.warning_once(
+            "Trtllm does not support returning LSE and as a result "
+            "does not support DCP, reverting to FlashInfer"
+        )
+        return False
+
     # The platform is not supported
     if not supports_trtllm_attention():
         if force_use_trtllm:
diff --git a/vllm/v1/attention/backends/flashinfer.py b/vllm/v1/attention/backends/flashinfer.py
index 0b650e2e0d33b..4da1637d96eb6 100755
--- a/vllm/v1/attention/backends/flashinfer.py
+++ b/vllm/v1/attention/backends/flashinfer.py
@@ -10,6 +10,7 @@ import torch
 from flashinfer import (
     BatchDecodeWithPagedKVCacheWrapper,
     BatchPrefillWithPagedKVCacheWrapper,
+    BatchPrefillWithRaggedKVCacheWrapper,
     MultiLevelCascadeAttentionWrapper,
 )
 from flashinfer.decode import _get_range_buf, trtllm_batch_decode_with_kv_cache
@@ -24,8 +25,11 @@ from vllm.attention.backends.abstract import (
     AttentionType,
     MultipleOf,
 )
+from vllm.attention.ops.common import cp_lse_ag_out_rs
+from vllm.attention.ops.merge_attn_states import merge_attn_states
 from vllm.config import CUDAGraphMode, VllmConfig
 from vllm.config.cache import CacheDType
+from vllm.distributed.parallel_state import get_dcp_group
 from vllm.logger import init_logger
 from vllm.model_executor.layers.batch_invariant import (
     vllm_is_batch_invariant,
@@ -50,6 +54,7 @@ from vllm.v1.attention.backends.utils import (
     AttentionMetadataBuilder,
     CommonAttentionMetadata,
     KVCacheLayoutType,
+    get_dcp_local_seq_lens,
     get_kv_cache_layout,
     get_per_layer_parameters,
     infer_global_hyperparameters,
@@ -160,6 +165,113 @@ def trtllm_prefill_attn_kvfp8_dequant(
     return mock_kv_cache, mock_block_table
 
 
+class BatchDCPPrefillWrapper:
+    def __init__(
+        self,
+        workspace_buffer: torch.Tensor | None = None,
+    ):
+        self._context = BatchPrefillWithPagedKVCacheWrapper(
+            workspace_buffer, get_kv_cache_layout()
+        )
+        self._new_tokens = BatchPrefillWithRaggedKVCacheWrapper(
+            workspace_buffer, get_kv_cache_layout()
+        )
+
+    def plan(
+        self,
+        qo_indptr_cpu: torch.Tensor,
+        paged_kv_indptr_cpu: torch.Tensor,
+        paged_kv_indices: torch.Tensor,
+        paged_kv_last_page_len_cpu: torch.Tensor,
+        prefill_start: int,
+        page_size: int,
+        num_qo_heads: int,
+        dcp_world_size: int,
+        num_kv_heads: int,
+        head_dim: int,
+        sm_scale: float,
+        window_left: int,
+        logits_soft_cap: float | None,
+        q_data_type: torch.dtype,
+        kv_cache_dtype: torch.dtype,
+        prefill_fixed_split_size: int,
+        disable_split_kv: bool,
+    ):
+        """Plan the prefill operation with given parameters."""
+        self._context.plan(
+            qo_indptr_cpu,
+            paged_kv_indptr_cpu,
+            paged_kv_indices,
+            paged_kv_last_page_len_cpu[prefill_start:],
+            num_qo_heads * dcp_world_size,
+            num_kv_heads,
+            head_dim,
+            page_size,
+            causal=False,  # This is context run
+            sm_scale=sm_scale,
+            window_left=window_left,
+            logits_soft_cap=logits_soft_cap,
+            q_data_type=q_data_type,
+            kv_data_type=kv_cache_dtype,
+            fixed_split_size=prefill_fixed_split_size,
+            disable_split_kv=disable_split_kv,
+        )
+        self._new_tokens.plan(
+            qo_indptr=qo_indptr_cpu,
+            kv_indptr=qo_indptr_cpu,
+            num_qo_heads=num_qo_heads,
+            num_kv_heads=num_kv_heads,
+            head_dim_qk=head_dim,
+            head_dim_vo=head_dim,
+            causal=True,  # This is newtokens run
+            sm_scale=sm_scale,
+            window_left=window_left,
+            logits_soft_cap=logits_soft_cap,
+            q_data_type=q_data_type,
+        )
+
+    def run(
+        self,
+        layer: torch.nn.Module,
+        prefill_query: torch.Tensor,
+        kv_cache_permute: torch.Tensor,
+        key: torch.Tensor,
+        value: torch.Tensor,
+        out: torch.Tensor,
+    ):
+        prefill_query_across_dcp = get_dcp_group().all_gather(
+            prefill_query.contiguous(), dim=1
+        )
+        output_context_tmp, lse_context_tmp = self._context.run(
+            prefill_query_across_dcp,
+            kv_cache_permute,
+            k_scale=layer._k_scale_float,
+            v_scale=layer._v_scale_float,
+            return_lse=True,
+        )
+        output_context, lse_context = cp_lse_ag_out_rs(
+            output_context_tmp, lse_context_tmp, get_dcp_group(), return_lse=True
+        )
+        lse_context = lse_context.transpose(0, 1).contiguous()
+
+        output_query, lse_query = self._new_tokens.run(
+            prefill_query,
+            key,
+            value,
+            return_lse=True,
+        )
+        lse_query = lse_query.transpose(0, 1).contiguous()
+
+        merge_attn_states(
+            out,
+            output_context,
+            lse_context,
+            output_query,
+            lse_query,
+        )
+        return out
+
+
 class FlashInferBackend(AttentionBackend):
     accept_output_buffer: bool = True
     supported_dtypes: ClassVar[list[torch.dtype]] = [torch.float16, torch.bfloat16]
@@ -281,7 +393,9 @@ class FlashInferMetadata:
     # For cascade attention (CPU for planning).
     use_cascade: bool
 
-    prefill_wrapper: BatchPrefillWithPagedKVCacheWrapper | None = None
+    prefill_wrapper: (
+        BatchPrefillWithPagedKVCacheWrapper | BatchDCPPrefillWrapper | None
+    ) = None
     decode_wrapper: BatchDecodeWithPagedKVCacheWrapper | None = None
     cascade_wrapper: MultiLevelCascadeAttentionWrapper | None = None
 
@@ -303,7 +417,9 @@ class FlashInferMetadataBuilder(AttentionMetadataBuilder[FlashInferMetadata]):
         self.cache_config = vllm_config.cache_config
         self.model_config = vllm_config.model_config
         self._workspace_buffer = None
-        self._prefill_wrapper = None  # Wrapper for prefill/append
+        self._prefill_wrapper: (
+            BatchPrefillWithPagedKVCacheWrapper | BatchDCPPrefillWrapper | None
+        ) = None  # Wrapper for prefill/append
         self._decode_wrapper = None  # Wrapper for decode (general shape)
 
         if vllm_is_batch_invariant():
@@ -341,9 +457,23 @@ class FlashInferMetadataBuilder(AttentionMetadataBuilder[FlashInferMetadata]):
                 self.compilation_config.max_cudagraph_capture_size,
             )
 
-        self.num_qo_heads = self.model_config.get_num_attention_heads(
-            self.vllm_config.parallel_config
+        try:
+            self.dcp_world_size = get_dcp_group().world_size
+            self.dcp_rank = get_dcp_group().rank_in_group
+            self.dcp_kv_cache_interleave_size = (
+                vllm_config.parallel_config.dcp_kv_cache_interleave_size
+            )
+        except AssertionError:
+            # DCP might not be initialized in testing
+            self.dcp_world_size = 1
+            self.dcp_rank = 0
+            self.dcp_kv_cache_interleave_size = 1
+
+        self.num_qo_heads = (
+            self.model_config.get_num_attention_heads(self.vllm_config.parallel_config)
+            * self.dcp_world_size
         )
+
         self.num_kv_heads = self.kv_cache_spec.num_kv_heads
         self.head_dim = self.kv_cache_spec.head_size
         self.page_size = self.kv_cache_spec.block_size
@@ -455,11 +585,19 @@ class FlashInferMetadataBuilder(AttentionMetadataBuilder[FlashInferMetadata]):
             )
         return self._workspace_buffer
 
-    def _get_prefill_wrapper(self):
+    def _get_prefill_wrapper(
+        self,
+    ) -> BatchPrefillWithPagedKVCacheWrapper | BatchDCPPrefillWrapper:
         if self._prefill_wrapper is None:
-            self._prefill_wrapper = BatchPrefillWithPagedKVCacheWrapper(
-                self._get_workspace_buffer(), get_kv_cache_layout()
-            )
+            if self.dcp_world_size > 1:
+                self._prefill_wrapper = BatchDCPPrefillWrapper(
+                    workspace_buffer=self._get_workspace_buffer(),
+                )
+            else:
+                self._prefill_wrapper = BatchPrefillWithPagedKVCacheWrapper(
+                    self._get_workspace_buffer(), get_kv_cache_layout()
+                )
+        assert self._prefill_wrapper is not None
         return self._prefill_wrapper
 
     def _get_decode_wrapper(self, batch_size: int, use_cudagraph: bool = False):
@@ -526,9 +664,29 @@ class FlashInferMetadataBuilder(AttentionMetadataBuilder[FlashInferMetadata]):
         max_seq_len = common_attn_metadata.max_seq_len
         seq_lens = common_attn_metadata.seq_lens
         seq_lens_cpu = common_attn_metadata.seq_lens_cpu
-        seq_lens_np = seq_lens_cpu.numpy()
         block_table_tensor = common_attn_metadata.block_table_tensor
+        qo_indptr_cpu = common_attn_metadata.query_start_loc_cpu
 
+        if self.dcp_world_size > 1:
+            if num_prefills > 0:
+                qo_indptr_prefill_cpu = (
+                    qo_indptr_cpu[num_decodes:] - qo_indptr_cpu[num_decodes]
+                )
+                query_lens_prefill_cpu = (
+                    qo_indptr_prefill_cpu[1:] - qo_indptr_prefill_cpu[:-1]
+                )
+                seq_lens_cpu[num_decodes:] = (
+                    seq_lens_cpu[num_decodes:] - query_lens_prefill_cpu
+                )
+
+            seq_lens_cpu = get_dcp_local_seq_lens(
+                seq_lens_cpu,
+                self.dcp_world_size,
+                self.dcp_rank,
+                self.dcp_kv_cache_interleave_size,
+            )
+
+        seq_lens_np = seq_lens_cpu.numpy()
         num_blocks_np = (seq_lens_np + (page_size - 1)) // page_size
 
         use_cascade = common_prefix_len > 0
@@ -589,7 +747,7 @@ class FlashInferMetadataBuilder(AttentionMetadataBuilder[FlashInferMetadata]):
         # write self.paged_kv_last_page_len_cpu inplace
         paged_kv_last_page_len_np = seq_lens_np % page_size
         self.paged_kv_last_page_len_np[:num_reqs] = np.where(
-            paged_kv_last_page_len_np == 0,
+            (paged_kv_last_page_len_np == 0) & (seq_lens_np != 0),
             page_size,
             paged_kv_last_page_len_np,
         )
@@ -600,13 +758,16 @@ class FlashInferMetadataBuilder(AttentionMetadataBuilder[FlashInferMetadata]):
             self.num_kv_heads,
             num_prefill_tokens,
             max_seq_len,
+            self.dcp_world_size,
             self.cache_dtype,
             self.q_data_type,
             is_prefill=True,
             has_sinks=self.has_sinks,
             has_spec=uses_spec_reorder,
         )
-        decode_use_trtllm = self.use_trtllm_decode_attention
+        decode_use_trtllm = (
+            self.use_trtllm_decode_attention and self.dcp_world_size <= 1
+        )
 
         if not (prefill_use_trtllm and decode_use_trtllm):
             if self.has_sinks:
@@ -651,7 +812,6 @@ class FlashInferMetadataBuilder(AttentionMetadataBuilder[FlashInferMetadata]):
             use_cascade=use_cascade,
         )
 
-        qo_indptr_cpu = common_attn_metadata.query_start_loc_cpu
         paged_kv_indptr_cpu = self.paged_kv_indptr_cpu[: 1 + num_reqs]
         paged_kv_last_page_len_cpu = self.paged_kv_last_page_len_cpu[:num_reqs]
 
@@ -703,24 +863,52 @@ class FlashInferMetadataBuilder(AttentionMetadataBuilder[FlashInferMetadata]):
                 attn_metadata.max_q_len_prefill = int(query_lens_prefill.max().item())
 
                 if not attn_metadata.prefill_use_trtllm:
-                    attn_metadata.prefill_wrapper.plan(
-                        qo_indptr_cpu,
-                        paged_kv_indptr_cpu,
-                        paged_kv_indices,
-                        paged_kv_last_page_len_cpu[prefill_start:],
-                        self.num_qo_heads,
-                        self.num_kv_heads,
-                        self.head_dim,
-                        self.page_size,
-                        causal=True,
-                        sm_scale=self.sm_scale,
-                        window_left=self.window_left,
-                        logits_soft_cap=self.logits_soft_cap,
-                        q_data_type=self.q_data_type,
-                        kv_data_type=self.kv_cache_dtype,
-                        fixed_split_size=self.prefill_fixed_split_size,
-                        disable_split_kv=self.disable_split_kv,
-                    )
+                    if self.dcp_world_size > 1:
+                        assert isinstance(
+                            attn_metadata.prefill_wrapper, BatchDCPPrefillWrapper
+                        )
+                        attn_metadata.prefill_wrapper.plan(
+                            qo_indptr_cpu=qo_indptr_cpu,
+                            paged_kv_indptr_cpu=paged_kv_indptr_cpu,
+                            paged_kv_indices=paged_kv_indices,
+                            paged_kv_last_page_len_cpu=paged_kv_last_page_len_cpu,
+                            prefill_start=prefill_start,
+                            page_size=self.page_size,
+                            num_qo_heads=self.num_qo_heads,
+                            dcp_world_size=self.dcp_world_size,
+                            num_kv_heads=self.num_kv_heads,
+                            head_dim=self.head_dim,
+                            sm_scale=self.sm_scale,
+                            window_left=self.window_left,
+                            logits_soft_cap=self.logits_soft_cap,
+                            q_data_type=self.q_data_type,
+                            kv_cache_dtype=self.kv_cache_dtype,
+                            prefill_fixed_split_size=self.prefill_fixed_split_size,
+                            disable_split_kv=self.disable_split_kv,
+                        )
+                    else:
+                        assert isinstance(
+                            attn_metadata.prefill_wrapper,
+                            BatchPrefillWithPagedKVCacheWrapper,
+                        )
+                        attn_metadata.prefill_wrapper.plan(
+                            qo_indptr_cpu,
+                            paged_kv_indptr_cpu,
+                            paged_kv_indices,
+                            paged_kv_last_page_len_cpu[prefill_start:],
+                            self.num_qo_heads,
+                            self.num_kv_heads,
+                            self.head_dim,
+                            self.page_size,
+                            causal=True,
+                            sm_scale=self.sm_scale,
+                            window_left=self.window_left,
+                            logits_soft_cap=self.logits_soft_cap,
+                            q_data_type=self.q_data_type,
+                            kv_data_type=self.kv_cache_dtype,
+                            fixed_split_size=self.prefill_fixed_split_size,
+                            disable_split_kv=self.disable_split_kv,
+                        )
                 else:
                     attn_metadata.qo_indptr_gpu = qo_indptr_cpu.to(
                         self.device, non_blocking=True
@@ -770,7 +958,7 @@ class FlashInferMetadataBuilder(AttentionMetadataBuilder[FlashInferMetadata]):
                         paged_kv_indices,
                         self.paged_kv_last_page_len_cpu[:num_input_tokens],
                         seq_lens_cpu[:num_input_tokens],
-                        self.num_qo_heads,
+                        self.num_qo_heads * self.dcp_world_size,
                         self.num_kv_heads,
                         self.head_dim,
                         self.page_size,
@@ -797,6 +985,8 @@ class FlashInferMetadataBuilder(AttentionMetadataBuilder[FlashInferMetadata]):
 
 
 class FlashInferImpl(AttentionImpl):
+    can_return_lse_for_decode: bool = True
+
     def __init__(
         self,
         num_heads: int,
@@ -989,6 +1179,8 @@ class FlashInferImpl(AttentionImpl):
 
         # Inputs and outputs may be padded for CUDA graphs
         query = query[:num_actual_tokens]
+        key = key[:num_actual_tokens]
+        value = value[:num_actual_tokens]
         output_padded = output
         output = output[:num_actual_tokens]
 
@@ -1015,17 +1207,46 @@ class FlashInferImpl(AttentionImpl):
             assert prefill_wrapper is not None
 
             if not attn_metadata.prefill_use_trtllm:
-                assert prefill_wrapper._causal
-                assert prefill_wrapper._window_left == self.window_left
-                assert prefill_wrapper._logits_soft_cap == (self.logits_soft_cap or 0.0)
-                assert prefill_wrapper._sm_scale == self.scale
-                prefill_wrapper.run(
-                    prefill_query,
-                    kv_cache_permute,
-                    k_scale=layer._k_scale_float,
-                    v_scale=layer._v_scale_float,
-                    out=output[num_decode_tokens:],
-                )
+                if self.dcp_world_size > 1:
+                    assert isinstance(prefill_wrapper, BatchDCPPrefillWrapper)
+                    assert prefill_wrapper._context._window_left == self.window_left
+                    assert prefill_wrapper._context._logits_soft_cap == (
+                        self.logits_soft_cap or 0.0
+                    )
+                    assert prefill_wrapper._context._sm_scale == self.scale
+                    assert not prefill_wrapper._context._causal
+                    assert prefill_wrapper._new_tokens._window_left == self.window_left
+                    assert prefill_wrapper._new_tokens._logits_soft_cap == (
+                        self.logits_soft_cap or 0.0
+                    )
+                    assert prefill_wrapper._new_tokens._sm_scale == self.scale
+                    assert prefill_wrapper._new_tokens._causal
+
+                    prefill_wrapper.run(
+                        layer,
+                        prefill_query,
+                        kv_cache_permute,
+                        key[num_decode_tokens:],
+                        value[num_decode_tokens:],
+                        out=output[num_decode_tokens:],
+                    )
+                else:
+                    assert isinstance(
+                        prefill_wrapper, BatchPrefillWithPagedKVCacheWrapper
+                    )
+                    assert prefill_wrapper._window_left == self.window_left
+                    assert prefill_wrapper._logits_soft_cap == (
+                        self.logits_soft_cap or 0.0
+                    )
+                    assert prefill_wrapper._sm_scale == self.scale
+                    assert prefill_wrapper._causal
+                    prefill_wrapper.run(
+                        prefill_query,
+                        kv_cache_permute,
+                        k_scale=layer._k_scale_float,
+                        v_scale=layer._v_scale_float,
+                        out=output[num_decode_tokens:],
+                    )
             else:
                 # prefill_query may be non-contiguous
                 prefill_query = prefill_query.contiguous()
@@ -1101,13 +1322,37 @@ class FlashInferImpl(AttentionImpl):
                 assert decode_wrapper._window_left == self.window_left
                 assert decode_wrapper._logits_soft_cap == (self.logits_soft_cap or 0.0)
                 assert decode_wrapper._sm_scale == self.scale
-                decode_wrapper.run(
-                    decode_query,
-                    kv_cache_permute,
-                    k_scale=layer._k_scale_float,
-                    v_scale=layer._v_scale_float,
-                    out=output[:num_decode_tokens],
-                )
+
+                if self.dcp_world_size > 1:
+                    decode_query = get_dcp_group().all_gather(
+                        decode_query.contiguous(), dim=-2
+                    )
+                    output_tmp = torch.empty_like(decode_query)
+                    lse = torch.empty(
+                        (decode_query.size(0), decode_query.size(1)),
+                        dtype=torch.float32,
+                        device=decode_query.device,
+                    )
+                    decode_wrapper.run(
+                        decode_query,
+                        kv_cache_permute,
+                        k_scale=layer._k_scale_float,
+                        v_scale=layer._v_scale_float,
+                        out=output_tmp,
+                        lse=lse,
+                        return_lse=True,
+                    )
+                    output[:num_decode_tokens] = cp_lse_ag_out_rs(
+                        output_tmp, lse, get_dcp_group()
+                    )
+                else:
+                    decode_wrapper.run(
+                        decode_query,
+                        kv_cache_permute,
+                        k_scale=layer._k_scale_float,
+                        v_scale=layer._v_scale_float,
+                        out=output[:num_decode_tokens],
+                    )
             else:
                 # decode_query may be non-contiguous
                 decode_query = decode_query.contiguous()
diff --git a/vllm/v1/executor/multiproc_executor.py b/vllm/v1/executor/multiproc_executor.py
index 1e249161c6886..881e6ef40aaf0 100644
--- a/vllm/v1/executor/multiproc_executor.py
+++ b/vllm/v1/executor/multiproc_executor.py
@@ -31,6 +31,7 @@ from vllm.distributed import destroy_distributed_environment, destroy_model_para
 from vllm.distributed.device_communicators.shm_broadcast import Handle, MessageQueue
 from vllm.distributed.kv_transfer.kv_connector.utils import KVOutputAggregator
 from vllm.distributed.parallel_state import (
+    get_dcp_group,
     get_dp_group,
     get_ep_group,
     get_pp_group,
@@ -726,6 +727,8 @@ class WorkerProc:
         pp_rank = get_pp_group().rank_in_group
         tp_size = get_tp_group().world_size
         tp_rank = get_tp_group().rank_in_group
+        dcp_size = get_dcp_group().world_size
+        dcp_rank = get_dcp_group().rank_in_group
         process_name = "Worker"
         if dp_size > 1:
             process_name += f"_DP{dp_rank}"
@@ -733,6 +736,8 @@ class WorkerProc:
             process_name += f"_PP{pp_rank}"
         if tp_size > 1:
             process_name += f"_TP{tp_rank}"
+        if dcp_size > 1:
+            process_name += f"_DCP{dcp_rank}"
         if enable_ep:
             ep_rank = get_ep_group().rank_in_group
             process_name += f"_EP{ep_rank}"

From 9324e10275cce6e0fd189bf1ebb0c399d858e9e1 Mon Sep 17 00:00:00 2001
From: Yong Hoon Shin <48474650+sarckk@users.noreply.github.com>
Date: Fri, 14 Nov 2025 01:53:42 -1000
Subject: [PATCH 448/976] Fix KV sharing fast prefill with cudagraph enabled
 (#28537)

Signed-off-by: Yong Hoon Shin <yhshin@meta.com>
Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>
---
 tests/v1/e2e/test_kv_sharing_fast_prefill.py | 57 +++++---------------
 vllm/v1/attention/backends/utils.py          | 15 +-----
 vllm/v1/worker/gpu_model_runner.py           |  2 +-
 3 files changed, 17 insertions(+), 57 deletions(-)

diff --git a/tests/v1/e2e/test_kv_sharing_fast_prefill.py b/tests/v1/e2e/test_kv_sharing_fast_prefill.py
index f2c6d1c1fd1a4..2778b0c5e5670 100644
--- a/tests/v1/e2e/test_kv_sharing_fast_prefill.py
+++ b/tests/v1/e2e/test_kv_sharing_fast_prefill.py
@@ -4,13 +4,11 @@
 import random
 
 import pytest
-import torch
 
 from vllm import LLM, SamplingParams
 from vllm.config import CompilationConfig, CompilationMode
-from vllm.distributed import cleanup_dist_env_and_memory
 
-from ...utils import fork_new_process_for_each_test
+from ...utils import check_answers, fork_new_process_for_each_test, prep_prompts
 
 # global seed
 SEED = 42
@@ -45,28 +43,12 @@ def test_prompts():
     return prompts
 
 
-def cleanup(llm: LLM, compilation_config: CompilationConfig):
-    # hacky: below lines are required to free up memory for the next test
-    # when setting VLLM_ENABLE_V1_MULTIPROCESSING=0, del llm is not sufficient
-    # TODO(sarckk): when enforce_eager=False, memory is not freed:
-    # find out why and re-enable test for enforce_eager=False case
-    llm_engine = llm.llm_engine.engine_core.engine_core
-    model_runner = llm_engine.model_executor.driver_worker.worker.model_runner
-    del model_runner.model
-    del model_runner.kv_caches
-    del compilation_config.static_forward_context
-    compilation_config.static_forward_context = {}
-
-    del llm
-    torch.cuda.empty_cache()
-    cleanup_dist_env_and_memory()
-
-
 @fork_new_process_for_each_test
-@pytest.mark.parametrize("enforce_eager", [True])
-@pytest.mark.skip(reason="Disable until Gemma3n supports fast prefill")
+@pytest.mark.parametrize("kv_sharing_fast_prefill", [False, True])
+@pytest.mark.parametrize("enforce_eager", [True, False])
 def test_kv_sharing_fast_prefill(
     monkeypatch: pytest.MonkeyPatch,
+    kv_sharing_fast_prefill: bool,
     enforce_eager: bool,
     test_prompts: list[str],
 ):
@@ -79,36 +61,25 @@ def test_kv_sharing_fast_prefill(
         if not enforce_eager
         else CompilationMode.NONE,
     )
+    batch_size = 10
 
     with monkeypatch.context() as m:
         # Make scheduling deterministic for reproducibility
         m.setenv("VLLM_ENABLE_V1_MULTIPROCESSING", "0")
 
-        llm = LLM(
-            model="google/gemma-3n-E2B-it",
-            enforce_eager=enforce_eager,
-            compilation_config=compilation_config,
-            seed=SEED,
-        )
-        ref_responses = llm.generate(test_prompts, sampling_params)
-
-        cleanup(llm, compilation_config)
+        prompts, answer, indices = prep_prompts(batch_size)
 
         llm = LLM(
             model="google/gemma-3n-E2B-it",
             enforce_eager=enforce_eager,
             compilation_config=compilation_config,
             seed=SEED,
-            kv_sharing_fast_prefill=True,
+            kv_sharing_fast_prefill=kv_sharing_fast_prefill,
+        )
+        responses = llm.generate(prompts, sampling_params)
+        check_answers(
+            indices,
+            answer,
+            [response.outputs[0].text for response in responses],
+            accept_rate=1.0,
         )
-        optimized_responses = llm.generate(test_prompts, sampling_params)
-
-        cleanup(llm, compilation_config)
-
-        misses = 0
-
-        for ref_response, optimized_response in zip(ref_responses, optimized_responses):
-            if ref_response.outputs[0].text != optimized_response.outputs[0].text:
-                misses += 1
-
-        assert misses == 0
diff --git a/vllm/v1/attention/backends/utils.py b/vllm/v1/attention/backends/utils.py
index fd37a665cf05f..578153cda7863 100644
--- a/vllm/v1/attention/backends/utils.py
+++ b/vllm/v1/attention/backends/utils.py
@@ -965,12 +965,6 @@ def reshape_attn_output_for_spec_decode(attn_output: torch.Tensor) -> torch.Tens
     return attn_output.view(total_tokens, attn_output.shape[2], attn_output.shape[3])
 
 
-KV_SHARING_FAST_PREFILL_METADATA_FIELDS = [
-    ("logits_indices_padded", torch.Tensor | None, None),
-    ("num_logits_indices", int, 0),
-]
-
-
 def subclass_attention_metadata(
     name_prefix: str,
     metadata_cls: Any,
@@ -986,8 +980,8 @@ def subclass_attention_metadata(
 
 @runtime_checkable
 class KVSharingFastPrefillMetadata(Protocol):
-    logits_indices_padded: torch.Tensor
-    num_logits_indices: int
+    logits_indices_padded: torch.Tensor | None = None
+    num_logits_indices: int | None = None
 
 
 def create_fast_prefill_custom_backend(
@@ -1019,11 +1013,6 @@ def create_fast_prefill_custom_backend(
                     for _field in fields(metadata.__class__):
                         setattr(self, _field.name, getattr(metadata, _field.name))
 
-                    # Set additional fields that will be used in model code
-                    assert (
-                        common_attn_metadata.logits_indices_padded is not None
-                        and common_attn_metadata.num_logits_indices is not None
-                    )
                     self.logits_indices_padded = (
                         common_attn_metadata.logits_indices_padded
                     )
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index d0f7f3a501f59..341bf58f2da8f 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -1314,7 +1314,7 @@ class GPUModelRunner(
         :return: tuple[attn_metadata, spec_decode_common_attn_metadata]
         """
         logits_indices_padded = None
-        num_logits_indices = 0
+        num_logits_indices = None
         if logits_indices is not None:
             num_logits_indices = logits_indices.size(0)
             if self.cache_config.kv_sharing_fast_prefill:

From db56a59970a84842da2adc3aa64e436f42448b48 Mon Sep 17 00:00:00 2001
From: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com>
Date: Fri, 14 Nov 2025 07:19:22 -0500
Subject: [PATCH 449/976] [BugFix] Fix FA3 IMA with FULL_AND_PIECEWISE and
 cascade attention (default) (#28702)

---
 tests/kernels/attention/test_cascade_flash_attn.py | 1 +
 vllm/v1/attention/backends/flash_attn.py           | 6 ++++--
 2 files changed, 5 insertions(+), 2 deletions(-)

diff --git a/tests/kernels/attention/test_cascade_flash_attn.py b/tests/kernels/attention/test_cascade_flash_attn.py
index 4295f852f95bb..20f573821b25f 100755
--- a/tests/kernels/attention/test_cascade_flash_attn.py
+++ b/tests/kernels/attention/test_cascade_flash_attn.py
@@ -170,6 +170,7 @@ def test_cascade(
         logits_soft_cap=soft_cap if soft_cap is not None else 0,
         block_table=block_tables,
         common_prefix_len=common_prefix_len,
+        max_num_splits=0,  # no max
         fa_version=fa_version,
     )
 
diff --git a/vllm/v1/attention/backends/flash_attn.py b/vllm/v1/attention/backends/flash_attn.py
index 81623549ae850..a5d4435000d4d 100755
--- a/vllm/v1/attention/backends/flash_attn.py
+++ b/vllm/v1/attention/backends/flash_attn.py
@@ -704,6 +704,7 @@ class FlashAttentionImpl(AttentionImpl):
             logits_soft_cap=self.logits_soft_cap,
             block_table=attn_metadata.block_table,
             common_prefix_len=attn_metadata.common_prefix_len,
+            max_num_splits=attn_metadata.max_num_splits,
             fa_version=self.vllm_flash_attn_version,
             prefix_scheduler_metadata=attn_metadata.prefix_scheduler_metadata,
             suffix_scheduler_metadata=attn_metadata.scheduler_metadata,
@@ -950,6 +951,7 @@ def cascade_attention(
     logits_soft_cap: float,
     block_table: torch.Tensor,
     common_prefix_len: int,
+    max_num_splits: int,
     fa_version: int,
     prefix_scheduler_metadata: torch.Tensor | None = None,
     suffix_scheduler_metadata: torch.Tensor | None = None,
@@ -994,7 +996,7 @@ def cascade_attention(
         # s_aux is incorporated into prefix_lse inside the GPU kernel,
         # enabling its effect during the final attention merge.
         s_aux=s_aux,
-        num_splits=1 if vllm_is_batch_invariant() else 0,
+        num_splits=1 if vllm_is_batch_invariant() else max_num_splits,
     )
 
     descale_shape = (cu_query_lens.shape[0] - 1, key_cache.shape[-2])
@@ -1019,7 +1021,7 @@ def cascade_attention(
         q_descale=q_descale.expand(descale_shape) if q_descale is not None else None,
         k_descale=k_descale.expand(descale_shape) if k_descale is not None else None,
         v_descale=v_descale.expand(descale_shape) if v_descale is not None else None,
-        num_splits=1 if vllm_is_batch_invariant() else 0,
+        num_splits=1 if vllm_is_batch_invariant() else max_num_splits,
     )
 
     # Merge prefix and suffix outputs, and store the result in output.

From 8d3748d3c718dd1dfb1f7e9e0825bc9032bff75a Mon Sep 17 00:00:00 2001
From: Fasal Shah <fassha08@gmail.com>
Date: Fri, 14 Nov 2025 18:13:56 +0530
Subject: [PATCH 450/976] [Doc] Fix macOS installation dependency resolution
 issue (#26721)

Signed-off-by: faisal shah <fashah@redhat.com>
---
 docs/getting_started/installation/cpu.apple.inc.md | 7 ++++++-
 1 file changed, 6 insertions(+), 1 deletion(-)

diff --git a/docs/getting_started/installation/cpu.apple.inc.md b/docs/getting_started/installation/cpu.apple.inc.md
index 7e2ed55008a57..4dc707d5f9a14 100644
--- a/docs/getting_started/installation/cpu.apple.inc.md
+++ b/docs/getting_started/installation/cpu.apple.inc.md
@@ -28,10 +28,15 @@ After installation of XCode and the Command Line Tools, which include Apple Clan
 ```bash
 git clone https://github.com/vllm-project/vllm.git
 cd vllm
-uv pip install -r requirements/cpu.txt
+uv pip install -r requirements/cpu.txt --index-strategy unsafe-best-match
 uv pip install -e .
 ```
 
+!!! tip
+    The `--index-strategy unsafe-best-match` flag is needed to resolve dependencies across multiple package indexes (PyTorch CPU index and PyPI). Without this flag, you may encounter `typing-extensions` version conflicts.
+    
+    The term "unsafe" refers to the package resolution strategy, not security. By default, `uv` only searches the first index where a package is found to prevent dependency confusion attacks. This flag allows `uv` to search all configured indexes to find the best compatible versions. Since both PyTorch and PyPI are trusted package sources, using this strategy is safe and appropriate for vLLM installation.
+
 !!! note
     On macOS the `VLLM_TARGET_DEVICE` is automatically set to `cpu`, which is currently the only supported device.
 

From 433c0f86751f20dbdfdeb1a711def99b7ae3df92 Mon Sep 17 00:00:00 2001
From: zhaozx-cn <59479021+zhaozx-cn@users.noreply.github.com>
Date: Fri, 14 Nov 2025 21:33:02 +0800
Subject: [PATCH 451/976] [Model] Fix bailing_moe accuracy problem (#28277)

Signed-off-by: zhaozx-cn <zhaozx2116@163.com>
---
 vllm/model_executor/models/bailing_moe.py | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/vllm/model_executor/models/bailing_moe.py b/vllm/model_executor/models/bailing_moe.py
index a878134022565..6e1e5b1ddc509 100644
--- a/vllm/model_executor/models/bailing_moe.py
+++ b/vllm/model_executor/models/bailing_moe.py
@@ -39,7 +39,6 @@ from vllm.distributed import (
     get_pp_group,
     get_tensor_model_parallel_rank,
     get_tensor_model_parallel_world_size,
-    tensor_model_parallel_all_reduce,
 )
 from vllm.model_executor.layers.activation import SiluAndMul
 from vllm.model_executor.layers.fused_moe import SharedFusedMoE
@@ -330,7 +329,9 @@ class BailingMoE(nn.Module):
             final_hidden_states = final_hidden_states + shared_output
 
         if self.tp_size > 1:
-            final_hidden_states = tensor_model_parallel_all_reduce(final_hidden_states)
+            final_hidden_states = self.experts.maybe_all_reduce_tensor_model_parallel(
+                final_hidden_states
+            )
         return final_hidden_states.view(num_tokens, hidden_size)
 
 
From 96b23b8e3b5cd5d05345489a304e65f7ab53ef8e Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Nicol=C3=B2=20Lucchesi?= <nlucches@redhat.com>
Date: Fri, 14 Nov 2025 15:40:05 +0100
Subject: [PATCH 452/976] [Bugfix][Nixl] Fix kernel physical<>logical
 block_size issue  (#28677)

Signed-off-by: NickLucche <nlucches@redhat.com>
---
 tests/v1/worker/test_gpu_model_runner.py      |  6 +-
 .../kv_connector/v1/nixl_connector.py         | 67 ++++++++++++++++---
 vllm/v1/worker/block_table.py                 | 17 +++--
 3 files changed, 73 insertions(+), 17 deletions(-)

diff --git a/tests/v1/worker/test_gpu_model_runner.py b/tests/v1/worker/test_gpu_model_runner.py
index b02d9a657407b..b95c8df3469b3 100644
--- a/tests/v1/worker/test_gpu_model_runner.py
+++ b/tests/v1/worker/test_gpu_model_runner.py
@@ -985,8 +985,10 @@ def test_hybrid_block_table_initialization():
     req_index = 0
     block_table.append_row(kvcache_manager_blocks, req_index)
     # Get expected kernel blocks from the implementation for verification.
-    expected_kernel_blocks = block_table._map_to_kernel_blocks(
-        np.array(kvcache_manager_blocks)
+    expected_kernel_blocks = block_table.map_to_kernel_blocks(
+        np.array(kvcache_manager_blocks),
+        block_table.blocks_per_kv_block,
+        block_table._kernel_block_arange,
     )
     # Verify block table state
     assert block_table.num_blocks_per_row[req_index] == len(expected_kernel_blocks)
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py b/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
index 42433c717cf26..3d4547c514532 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
@@ -49,6 +49,7 @@ from vllm.platforms import current_platform
 from vllm.utils.network_utils import make_zmq_path, make_zmq_socket
 from vllm.v1.attention.backends.utils import get_kv_cache_layout
 from vllm.v1.core.sched.output import SchedulerOutput
+from vllm.v1.worker.block_table import BlockTable
 
 if TYPE_CHECKING:
     from vllm.attention.backends.abstract import AttentionMetadata
@@ -112,6 +113,8 @@ class NixlAgentMetadata(KVConnectorHandshakeMetadata):
 @dataclass
 class ReqMeta:
     local_block_ids: list[int]
+    # To be used when logical block size does not match the kernel block size
+    local_physical_block_ids: list[int]
     remote_block_ids: list[int]
     remote_host: str
     remote_port: int
@@ -139,6 +142,7 @@ class NixlConnectorMetadata(KVConnectorMetadata):
         assert load_remote_cache ^ save_to_host
         _req = ReqMeta(
             local_block_ids=local_block_ids,
+            local_physical_block_ids=local_block_ids,
             remote_block_ids=kv_transfer_params["remote_block_ids"],
             remote_engine_id=kv_transfer_params["remote_engine_id"],
             remote_host=kv_transfer_params["remote_host"],
@@ -935,6 +939,7 @@ class NixlConnectorWorker:
             attn_backend=backend,
         )
         self._use_pallas = self.kv_topo._use_pallas
+        self._physical_blocks_per_logical_kv_block = 1
 
     def _nixl_handshake(
         self,
@@ -1133,6 +1138,22 @@ class NixlConnectorWorker:
                 if base_addr in seen_base_addresses:
                     continue
 
+                # TODO (NickLucche): Get kernel_block_size in a cleaner way
+                # NHD default "view" for non-MLA cache
+                kernel_block_size = cache.shape[-2] if self.use_mla else cache.shape[-3]
+
+                if self.block_size != kernel_block_size:
+                    logger.info_once(
+                        "User-specified logical block size (%s) does not match"
+                        " physical kernel block size (%s). Using the latter. ",
+                        self.block_size,
+                        kernel_block_size,
+                    )
+                    self._physical_blocks_per_logical_kv_block = (
+                        self.block_size // kernel_block_size
+                    )
+                    self.block_size = kernel_block_size
+
                 seen_base_addresses.append(base_addr)
                 curr_tensor_size_bytes = cache.numel() * cache.element_size()
 
@@ -1479,7 +1500,7 @@ class NixlConnectorWorker:
         assert self.use_host_buffer
         assert self.copy_blocks is not None
 
-        local_block_ids = meta.local_block_ids
+        local_block_ids = meta.local_physical_block_ids
         self.copy_blocks(
             self.host_xfer_buffers,
             self.device_kv_caches,
@@ -1492,7 +1513,7 @@ class NixlConnectorWorker:
                 "synced recved kv of request[%s] to device kv buffer,"
                 "local_block_ids: %s. ",
                 req_id,
-                ",".join(map(str, meta.local_block_ids)),
+                ",".join(map(str, local_block_ids)),
             )
 
     def save_kv_to_host(self, metadata: NixlConnectorMetadata):
@@ -1501,19 +1522,22 @@ class NixlConnectorWorker:
         assert self.copy_blocks is not None
 
         for req_id, meta in metadata.reqs_to_save.items():
+            meta.local_physical_block_ids = self._logical_to_kernel_block_ids(
+                meta.local_block_ids
+            )
             if logger.isEnabledFor(logging.DEBUG):
                 logger.debug(
                     "save_load_kv for request[%s] to host xfer buffer."
                     "local_block_ids: %s. ",
                     req_id,
-                    ",".join(map(str, meta.local_block_ids)),
+                    ",".join(map(str, meta.local_physical_block_ids)),
                 )
             # blocking
             self.copy_blocks(
                 self.device_kv_caches,
                 self.host_xfer_buffers,
-                meta.local_block_ids,
-                meta.local_block_ids,
+                meta.local_physical_block_ids,
+                meta.local_physical_block_ids,
                 "d2h",
             )
 
@@ -1582,7 +1606,7 @@ class NixlConnectorWorker:
             if self.use_host_buffer:
                 self.sync_recved_kv_to_device(req_id, meta)
             if self.enable_permute_local_kv:
-                block_ids_to_permute += meta.local_block_ids
+                block_ids_to_permute += meta.local_physical_block_ids
         if len(block_ids_to_permute) > 0:
             self.permute_device_kv(block_ids_to_permute)
 
@@ -1669,7 +1693,7 @@ class NixlConnectorWorker:
                         req_id,
                         xfer_state,
                     )
-                    # mark all blocks for this request as invalid
+                    # mark all (logical)blocks for this request as invalid
                     if meta := self._recving_metadata.pop(req_id, None):
                         self._invalid_block_ids.update(meta.local_block_ids)
                     self._recving_metadata.pop(req_id, None)
@@ -1686,13 +1710,19 @@ class NixlConnectorWorker:
         We check for these trnxs to complete in each step().
         """
         for req_id, meta in metadata.reqs_to_recv.items():
+            meta.local_physical_block_ids = self._logical_to_kernel_block_ids(
+                meta.local_block_ids
+            )
+            meta.remote_block_ids = self._logical_to_kernel_block_ids(
+                meta.remote_block_ids
+            )
             remote_engine_id = meta.remote_engine_id
             logger.debug(
                 "start_load_kv for request %s from remote engine %s. "
                 "Num local_block_ids: %s. Num remote_block_ids: %s. ",
                 req_id,
                 remote_engine_id,
-                len(meta.local_block_ids),
+                len(meta.local_physical_block_ids),
                 len(meta.remote_block_ids),
             )
             # always store metadata for failure recovery
@@ -1740,7 +1770,7 @@ class NixlConnectorWorker:
         self._read_blocks(
             request_id=req_id,
             dst_engine_id=meta.remote_engine_id,
-            local_block_ids=meta.local_block_ids,
+            local_block_ids=meta.local_physical_block_ids,
             remote_block_ids=meta.remote_block_ids,
         )
 
@@ -1867,7 +1897,7 @@ class NixlConnectorWorker:
                 "Marking blocks as invalid.",
                 request_id,
             )
-            # mark all blocks for this request as invalid
+            # mark all (logical) blocks for this request as invalid
             if meta := self._recving_metadata.get(request_id):
                 self._invalid_block_ids.update(meta.local_block_ids)
             self.xfer_stats.record_failed_transfer()
@@ -1906,6 +1936,23 @@ class NixlConnectorWorker:
         descs_ids = region_ids * num_blocks + block_ids
         return descs_ids.flatten()
 
+    def _logical_to_kernel_block_ids(self, block_ids: list[int]) -> list[int]:
+        """
+        Convert logical block ids to kernel physical block ids.
+        This is required when the logical block size (the one set by the user)
+        does not match the one required by the attn backend.
+        """
+        if self._physical_blocks_per_logical_kv_block == 1:
+            # Noop when physical and logical block sizes are the same
+            return block_ids
+        block_ids_np = np.array(block_ids)
+        block_arange = np.arange(0, self._physical_blocks_per_logical_kv_block).reshape(
+            1, -1
+        )
+        return BlockTable.map_to_kernel_blocks(
+            block_ids_np, self._physical_blocks_per_logical_kv_block, block_arange
+        ).tolist()
+
     def get_backend_aware_kv_block_len(self, layer_idx: int):
         """
         Get the block length for one K/V element (K and V have the same size).
diff --git a/vllm/v1/worker/block_table.py b/vllm/v1/worker/block_table.py
index c28bf542f85c5..9f6c19e464308 100644
--- a/vllm/v1/worker/block_table.py
+++ b/vllm/v1/worker/block_table.py
@@ -98,7 +98,9 @@ class BlockTable:
             return
 
         if self.use_hybrid_blocks:
-            block_ids = self._map_to_kernel_blocks(np.array(block_ids))
+            block_ids = self.map_to_kernel_blocks(
+                np.array(block_ids), self.blocks_per_kv_block, self._kernel_block_arange
+            )
 
         num_blocks = len(block_ids)
         start = self.num_blocks_per_row[row_idx]
@@ -188,7 +190,12 @@ class BlockTable:
         self.block_table.gpu.fill_(0)
         self.block_table.cpu.fill_(0)
 
-    def _map_to_kernel_blocks(self, kv_manager_block_ids: np.ndarray) -> np.ndarray:
+    @staticmethod
+    def map_to_kernel_blocks(
+        kv_manager_block_ids: np.ndarray,
+        blocks_per_kv_block: int,
+        kernel_block_arange: np.ndarray,
+    ) -> np.ndarray:
         """Convert kv_manager_block_id IDs to kernel block IDs.
 
         Example:
@@ -203,12 +210,12 @@ class BlockTable:
             # kv_manager_block_id 1 → kernel block id [2, 3]
             # kv_manager_block_id 2 → kernel block id [4, 5]
         """
-        if not self.use_hybrid_blocks:
+        if blocks_per_kv_block == 1:
             return kv_manager_block_ids
 
         kernel_block_ids = (
-            kv_manager_block_ids.reshape(-1, 1) * self.blocks_per_kv_block
-            + self._kernel_block_arange
+            kv_manager_block_ids.reshape(-1, 1) * blocks_per_kv_block
+            + kernel_block_arange
         )
 
         return kernel_block_ids.reshape(-1)

From 511a6b611d2e7e6b13e09c050147b367434f1a54 Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Fri, 14 Nov 2025 22:41:02 +0800
Subject: [PATCH 453/976] [Config] Clean up SchedulerConfig initialization
 (#28665)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 .../models/language/generation/test_hybrid.py |   7 +-
 tests/v1/core/test_scheduler.py               |   2 +
 tests/v1/sample/test_logprobs.py              |   1 +
 vllm/config/scheduler.py                      | 102 +++------
 vllm/engine/arg_utils.py                      | 210 ++++++++++++------
 vllm/platforms/cpu.py                         |   4 +-
 vllm/platforms/tpu.py                         |   4 +-
 vllm/platforms/xpu.py                         |   4 +-
 vllm/utils/__init__.py                        |  11 +-
 9 files changed, 182 insertions(+), 163 deletions(-)

diff --git a/tests/models/language/generation/test_hybrid.py b/tests/models/language/generation/test_hybrid.py
index 681b380e6a155..37830093cd3c5 100644
--- a/tests/models/language/generation/test_hybrid.py
+++ b/tests/models/language/generation/test_hybrid.py
@@ -348,9 +348,14 @@ def test_fp32_cache_state(
 
 
 # Helper functions for the APC tests
-def _get_vllm_runner_params(model, max_model_len, tensor_parallel_size=1):
+def _get_vllm_runner_params(
+    model: str,
+    max_model_len: int,
+    tensor_parallel_size: int = 1,
+):
     return {
         "model_name": model,
+        "enable_chunked_prefill": True,
         "enable_prefix_caching": False,
         "max_model_len": max_model_len,
         "tensor_parallel_size": tensor_parallel_size,
diff --git a/tests/v1/core/test_scheduler.py b/tests/v1/core/test_scheduler.py
index d31338220fca1..287e735b54913 100644
--- a/tests/v1/core/test_scheduler.py
+++ b/tests/v1/core/test_scheduler.py
@@ -2256,6 +2256,8 @@ def test_chunked_prefill_disabled_for_encoder_decoder(
     scheduler_config = SchedulerConfig(
         enable_chunked_prefill=enable_chunked_prefill,
         is_encoder_decoder=is_encoder_decoder,
+        # Must <= max_num_batched_tokens if chunked prefill is disabled
+        max_model_len=SchedulerConfig.DEFAULT_MAX_NUM_BATCHED_TOKENS,
     )
 
     # `is_encoder_decoder` should only be used during construction
diff --git a/tests/v1/sample/test_logprobs.py b/tests/v1/sample/test_logprobs.py
index 354fff22dc2ac..42584938bc06f 100644
--- a/tests/v1/sample/test_logprobs.py
+++ b/tests/v1/sample/test_logprobs.py
@@ -47,6 +47,7 @@ def vllm_model(vllm_runner, request) -> Generator[VllmRunner, None, None]:
         max_num_batched_tokens=16,
         max_num_seqs=16,
         max_model_len=128,
+        enable_chunked_prefill=True,
         enforce_eager=True,
         # TODO: enable this once we support it for
         # prompt logprobs.
diff --git a/vllm/config/scheduler.py b/vllm/config/scheduler.py
index 71a06e167fd9d..5117344a6844d 100644
--- a/vllm/config/scheduler.py
+++ b/vllm/config/scheduler.py
@@ -4,7 +4,7 @@
 import hashlib
 from collections.abc import Callable
 from dataclasses import InitVar
-from typing import TYPE_CHECKING, Any, Literal, cast
+from typing import TYPE_CHECKING, Any, ClassVar, Literal, cast
 
 from pydantic import Field, field_validator, model_validator
 from pydantic.dataclasses import dataclass
@@ -12,11 +12,6 @@ from typing_extensions import Self
 
 from vllm.config.utils import config
 from vllm.logger import init_logger
-from vllm.utils import (
-    DEFAULT_MAX_NUM_BATCHED_TOKENS,
-    MULTIMODAL_MODEL_MAX_NUM_BATCHED_TOKENS,
-    POOLING_MODEL_MAX_NUM_BATCHED_TOKENS,
-)
 from vllm.utils.import_utils import resolve_obj_by_qualname
 
 if TYPE_CHECKING:
@@ -33,25 +28,32 @@ SchedulerPolicy = Literal["fcfs", "priority"]
 class SchedulerConfig:
     """Scheduler configuration."""
 
+    DEFAULT_MAX_NUM_BATCHED_TOKENS: ClassVar[int] = 2048
+    DEFAULT_MAX_NUM_SEQS: ClassVar[int] = 128
+
     runner_type: RunnerType = "generate"
     """The runner type to launch for the model."""
 
-    max_num_batched_tokens: int = Field(default=None, ge=1)
+    max_num_batched_tokens: int = Field(default=DEFAULT_MAX_NUM_BATCHED_TOKENS, ge=1)
     """Maximum number of tokens to be processed in a single iteration.
 
-    This config has no static default. If left unspecified by the user, it will
-    be set in `EngineArgs.create_engine_config` based on the usage context."""
+    The default value here is mainly for convenience when testing.
+    In real usage, this should be set in `EngineArgs.create_engine_config`.
+    """
 
-    max_num_seqs: int = Field(default=None, ge=1)
+    max_num_seqs: int = Field(default=DEFAULT_MAX_NUM_SEQS, ge=1)
     """Maximum number of sequences to be processed in a single iteration.
 
-    This config has no static default. If left unspecified by the user, it will
-    be set in `EngineArgs.create_engine_config` based on the usage context."""
+    The default value here is mainly for convenience when testing.
+    In real usage, this should be set in `EngineArgs.create_engine_config`.
+    """
 
-    max_model_len: int = Field(default=None, ge=1)
-    """Maximum length of a sequence (including prompt and generated text). This
-    is primarily set in `ModelConfig` and that value should be manually
-    duplicated here."""
+    max_model_len: int = Field(default=8192, ge=1)
+    """Maximum length of a sequence (including prompt and generated text).
+
+    The default value here is mainly for convenience when testing.
+    In real usage, this should duplicate `ModelConfig.max_model_len` via
+    `EngineArgs`."""
 
     max_num_partial_prefills: int = Field(default=1, ge=1)
     """For chunked prefill, the maximum number of sequences that can be
@@ -76,9 +78,13 @@ class SchedulerConfig:
     NOTE: This will be replaced by speculative config in the future; it is
     present to enable correctness tests until then."""
 
-    enable_chunked_prefill: bool = Field(default=None)
+    enable_chunked_prefill: bool = True
     """If True, prefill requests can be chunked based
-    on the remaining max_num_batched_tokens."""
+    on the remaining `max_num_batched_tokens`.
+
+    The default value here is mainly for convenience when testing.
+    In real usage, this should be set in `EngineArgs.create_engine_config`.
+    """
 
     is_multimodal_model: bool = False
     """True if the model is multimodal."""
@@ -111,9 +117,6 @@ class SchedulerConfig:
     - "priority" means requests are handled based on given priority (lower
     value means earlier handling) and time of arrival deciding any ties)."""
 
-    chunked_prefill_enabled: bool = Field(init=False)
-    """True if chunked prefill is enabled."""
-
     disable_chunked_mm_input: bool = False
     """If set to true and chunked prefill is enabled, we do not want to
     partially schedule a multimodal item. Only used in V1
@@ -188,15 +191,7 @@ class SchedulerConfig:
         hash_str = hashlib.md5(str(factors).encode(), usedforsecurity=False).hexdigest()
         return hash_str
 
-    @field_validator(
-        "max_num_batched_tokens",
-        "max_num_seqs",
-        "max_model_len",
-        "enable_chunked_prefill",
-        "scheduler_cls",
-        "async_scheduling",
-        mode="wrap",
-    )
+    @field_validator("scheduler_cls", "async_scheduling", mode="wrap")
     @classmethod
     def _skip_none_validation(cls, value: Any, handler: Callable) -> Any:
         """Skip validation if the value is `None` when initialisation is delayed."""
@@ -205,16 +200,9 @@ class SchedulerConfig:
         return handler(value)
 
     def __post_init__(self, is_encoder_decoder: bool) -> None:
-        if self.max_model_len is None:
-            self.max_model_len = 8192
-
-        if self.max_num_seqs is None:
-            self.max_num_seqs = 128
-
         if is_encoder_decoder:
             # Chunked prefill should be disabled for encoder-decoder models.
             self.disable_chunked_mm_input = True
-            self.chunked_prefill_enabled = False
             self.enable_chunked_prefill = False
             self.long_prefill_token_threshold = 0
             logger.info(
@@ -222,37 +210,6 @@ class SchedulerConfig:
                 " prefix caching; disabling both."
             )
 
-        if self.max_num_batched_tokens is None:
-            if self.enable_chunked_prefill:
-                self.max_num_batched_tokens = DEFAULT_MAX_NUM_BATCHED_TOKENS
-            else:
-                # If max_model_len is too short, use
-                # DEFAULT_MAX_NUM_BATCHED_TOKENS as the default value
-                # for higher throughput.
-                self.max_num_batched_tokens = max(
-                    self.max_model_len, DEFAULT_MAX_NUM_BATCHED_TOKENS
-                )
-
-            if self.runner_type == "pooling":
-                # Choose specific value for higher throughput
-                self.max_num_batched_tokens = max(
-                    self.max_num_batched_tokens,
-                    POOLING_MODEL_MAX_NUM_BATCHED_TOKENS,
-                )
-            if self.is_multimodal_model:
-                # The value needs to be at least the number of multimodal tokens
-                self.max_num_batched_tokens = max(
-                    self.max_num_batched_tokens,
-                    MULTIMODAL_MODEL_MAX_NUM_BATCHED_TOKENS,
-                )
-
-            # When using default settings,
-            # Ensure max_num_batched_tokens does not exceed model limit.
-            # Some models (e.g., Whisper) have embeddings tied to max length.
-            self.max_num_batched_tokens = min(
-                self.max_num_seqs * self.max_model_len, self.max_num_batched_tokens
-            )
-
         self.max_num_encoder_input_tokens = self.max_num_batched_tokens
         self.encoder_cache_size = self.max_num_batched_tokens
 
@@ -262,7 +219,6 @@ class SchedulerConfig:
                 self.max_num_batched_tokens,
             )
 
-        self.chunked_prefill_enabled = self.enable_chunked_prefill
         if self.max_num_partial_prefills > 1:
             if self.long_prefill_token_threshold == 0:
                 self.long_prefill_token_threshold = int(self.max_model_len * 0.04)
@@ -276,6 +232,14 @@ class SchedulerConfig:
                 self.long_prefill_token_threshold,
             )
 
+    @property
+    def chunked_prefill_enabled(self) -> bool:
+        return self.enable_chunked_prefill
+
+    @chunked_prefill_enabled.setter
+    def chunked_prefill_enabled(self, value: bool):
+        self.enable_chunked_prefill = value
+
     @model_validator(mode="after")
     def _verify_args(self) -> Self:
         if (
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index b025004ea022c..cacebc530b6ee 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -428,11 +428,11 @@ class EngineArgs:
     cpu_offload_gb: float = CacheConfig.cpu_offload_gb
     gpu_memory_utilization: float = CacheConfig.gpu_memory_utilization
     kv_cache_memory_bytes: int | None = CacheConfig.kv_cache_memory_bytes
-    max_num_batched_tokens: int | None = SchedulerConfig.max_num_batched_tokens
+    max_num_batched_tokens: int | None = None
     max_num_partial_prefills: int = SchedulerConfig.max_num_partial_prefills
     max_long_partial_prefills: int = SchedulerConfig.max_long_partial_prefills
     long_prefill_token_threshold: int = SchedulerConfig.long_prefill_token_threshold
-    max_num_seqs: int | None = SchedulerConfig.max_num_seqs
+    max_num_seqs: int | None = None
     max_logprobs: int = ModelConfig.max_logprobs
     logprobs_mode: LogprobsMode = ModelConfig.logprobs_mode
     disable_log_stats: bool = False
@@ -485,7 +485,7 @@ class EngineArgs:
     model_loader_extra_config: dict = get_field(LoadConfig, "model_loader_extra_config")
     ignore_patterns: str | list[str] = get_field(LoadConfig, "ignore_patterns")
 
-    enable_chunked_prefill: bool | None = SchedulerConfig.enable_chunked_prefill
+    enable_chunked_prefill: bool | None = None
     disable_chunked_mm_input: bool = SchedulerConfig.disable_chunked_mm_input
 
     disable_hybrid_kv_cache_manager: bool = (
@@ -1738,41 +1738,41 @@ class EngineArgs:
                 )
                 _raise_unsupported_error(feature_name=name)
 
-    def _set_default_args(
-        self, usage_context: UsageContext, model_config: ModelConfig
-    ) -> None:
-        """Set Default Arguments for V1 Engine."""
-
-        # V1 uses chunked prefills and prefix caching by default
-        # for non-pooling tasks.
-        # For pooling tasks the default is False
+    @classmethod
+    def get_chunked_prefill_prefix_caching_defaults(
+        cls,
+        model_config: ModelConfig,
+    ) -> tuple[bool, bool]:
         if model_config.runner_type != "pooling":
-            self.enable_chunked_prefill = True
+            default_chunked_prefill = True
 
-            if self.enable_prefix_caching is None:
-                # Disable prefix caching default for hybrid models
-                # since the feature is still experimental.
-                if model_config.is_hybrid:
-                    self.enable_prefix_caching = False
-                else:
-                    self.enable_prefix_caching = True
+            # Disable prefix caching default for hybrid models
+            # since the feature is still experimental.
+            default_prefix_caching = not model_config.is_hybrid
         else:
+            assert model_config.pooler_config is not None
+
             pooling_type = model_config.pooler_config.pooling_type
-            is_causal = getattr(model_config.hf_config, "is_causal", True)
             incremental_prefill_supported = (
                 pooling_type is not None
                 and pooling_type.lower() == "last"
-                and bool(is_causal)
+                and getattr(model_config.hf_config, "is_causal", True)
             )
 
-            action = "Enabling" if incremental_prefill_supported else "Disabling"
+            default_chunked_prefill = incremental_prefill_supported
+            default_prefix_caching = incremental_prefill_supported
 
-            if self.enable_chunked_prefill is None:
-                self.enable_chunked_prefill = incremental_prefill_supported
-                logger.info("(%s) chunked prefill by default", action)
-            if self.enable_prefix_caching is None:
-                self.enable_prefix_caching = incremental_prefill_supported
-                logger.info("(%s) prefix caching by default", action)
+        return default_chunked_prefill, default_prefix_caching
+
+    @classmethod
+    def get_batch_defaults(
+        cls,
+        world_size: int,
+    ) -> tuple[dict[UsageContext | None, int], dict[UsageContext | None, int]]:
+        from vllm.usage.usage_lib import UsageContext
+
+        default_max_num_batched_tokens: dict[UsageContext | None, int]
+        default_max_num_seqs: dict[UsageContext | None, int]
 
         # When no user override, set the default values based on the usage
         # context.
@@ -1793,8 +1793,6 @@ class EngineArgs:
         # NOTE(Kuntai): Setting large `max_num_batched_tokens` for A100 reduces
         # throughput, see PR #17885 for more details.
         # So here we do an extra device name check to prevent such regression.
-        from vllm.usage.usage_lib import UsageContext
-
         if device_memory >= 70 * GiB_bytes and "a100" not in device_name:
             # For GPUs like H100 and MI300x, use larger default values.
             default_max_num_batched_tokens = {
@@ -1818,22 +1816,26 @@ class EngineArgs:
 
         # tpu specific default values.
         if current_platform.is_tpu():
-            default_max_num_batched_tokens_tpu = {
-                UsageContext.LLM_CLASS: {
-                    "V6E": 2048,
-                    "V5E": 1024,
-                    "V5P": 512,
-                },
-                UsageContext.OPENAI_API_SERVER: {
-                    "V6E": 1024,
-                    "V5E": 512,
-                    "V5P": 256,
-                },
-            }
+            chip_name = current_platform.get_device_name()
+
+            if chip_name == "V6E":
+                default_max_num_batched_tokens = {
+                    UsageContext.LLM_CLASS: 2048,
+                    UsageContext.OPENAI_API_SERVER: 1024,
+                }
+            elif chip_name == "V5E":
+                default_max_num_batched_tokens = {
+                    UsageContext.LLM_CLASS: 1024,
+                    UsageContext.OPENAI_API_SERVER: 512,
+                }
+            elif chip_name == "V5P":
+                default_max_num_batched_tokens = {
+                    UsageContext.LLM_CLASS: 512,
+                    UsageContext.OPENAI_API_SERVER: 256,
+                }
 
         # cpu specific default values.
         if current_platform.is_cpu():
-            world_size = self.pipeline_parallel_size * self.tensor_parallel_size
             default_max_num_batched_tokens = {
                 UsageContext.LLM_CLASS: 4096 * world_size,
                 UsageContext.OPENAI_API_SERVER: 2048 * world_size,
@@ -1843,44 +1845,104 @@ class EngineArgs:
                 UsageContext.OPENAI_API_SERVER: 128 * world_size,
             }
 
-        use_context_value = usage_context.value if usage_context else None
-        if (
-            self.max_num_batched_tokens is None
-            and usage_context in default_max_num_batched_tokens
+        return default_max_num_batched_tokens, default_max_num_seqs
+
+    def _set_default_args(
+        self, usage_context: UsageContext, model_config: ModelConfig
+    ) -> None:
+        """Set Default Arguments for V1 Engine."""
+        (
+            default_chunked_prefill,
+            default_prefix_caching,
+        ) = self.get_chunked_prefill_prefix_caching_defaults(model_config)
+
+        if self.enable_chunked_prefill is None:
+            self.enable_chunked_prefill = default_chunked_prefill
+
+            logger.debug(
+                "%s chunked prefill by default",
+                "Enabling" if default_chunked_prefill else "Disabling",
+            )
+        elif (
+            model_config.runner_type == "pooling"
+            and self.enable_chunked_prefill
+            and not default_chunked_prefill
         ):
-            if current_platform.is_tpu():
-                chip_name = current_platform.get_device_name()
-                if chip_name in default_max_num_batched_tokens_tpu[usage_context]:
-                    self.max_num_batched_tokens = default_max_num_batched_tokens_tpu[
-                        usage_context
-                    ][chip_name]
-                else:
-                    self.max_num_batched_tokens = default_max_num_batched_tokens[
-                        usage_context
-                    ]
-            else:
-                if not self.enable_chunked_prefill:
-                    self.max_num_batched_tokens = model_config.max_model_len
-                else:
-                    self.max_num_batched_tokens = default_max_num_batched_tokens[
-                        usage_context
-                    ]
+            logger.warning(
+                "This model does not officially support chunked prefill. "
+                "Enabling this manually may cause the engine to crash "
+                "or produce incorrect outputs.",
+            )
+
+        if self.enable_prefix_caching is None:
+            self.enable_prefix_caching = default_prefix_caching
+
             logger.debug(
-                "Setting max_num_batched_tokens to %d for %s usage context.",
+                "%s prefix caching by default",
+                "Enabling" if default_prefix_caching else "Disabling",
+            )
+        elif (
+            model_config.runner_type == "pooling"
+            and self.enable_prefix_caching
+            and not default_prefix_caching
+        ):
+            logger.warning(
+                "This model does not officially support prefix caching. "
+                "Enabling this manually may cause the engine to crash "
+                "or produce incorrect outputs.",
+            )
+
+        world_size = self.pipeline_parallel_size * self.tensor_parallel_size
+        (
+            default_max_num_batched_tokens,
+            default_max_num_seqs,
+        ) = self.get_batch_defaults(world_size)
+
+        orig_max_num_batched_tokens = self.max_num_batched_tokens
+        orig_max_num_seqs = self.max_num_seqs
+
+        if self.max_num_batched_tokens is None:
+            self.max_num_batched_tokens = default_max_num_batched_tokens.get(
+                usage_context,
+                SchedulerConfig.DEFAULT_MAX_NUM_BATCHED_TOKENS,
+            )
+
+        if self.max_num_seqs is None:
+            self.max_num_seqs = default_max_num_seqs.get(
+                usage_context,
+                SchedulerConfig.DEFAULT_MAX_NUM_SEQS,
+            )
+
+        if orig_max_num_batched_tokens is None:
+            if not self.enable_chunked_prefill:
+                # If max_model_len is too short, use the default for higher throughput.
+                self.max_num_batched_tokens = max(
+                    model_config.max_model_len,
+                    self.max_num_batched_tokens,
+                )
+
+            # When using default settings,
+            # Ensure max_num_batched_tokens does not exceed model limit.
+            # Some models (e.g., Whisper) have embeddings tied to max length.
+            self.max_num_batched_tokens = min(
+                self.max_num_seqs * model_config.max_model_len,
                 self.max_num_batched_tokens,
-                use_context_value,
-            )
-
-        if self.max_num_seqs is None and usage_context in default_max_num_seqs:
-            self.max_num_seqs = min(
-                default_max_num_seqs[usage_context],
-                self.max_num_batched_tokens or sys.maxsize,
             )
 
             logger.debug(
-                "Setting max_num_seqs to %d for %s usage context.",
+                "Defaulting max_num_batched_tokens to %d for %s usage context.",
+                self.max_num_batched_tokens,
+                usage_context.value if usage_context else None,
+            )
+
+        if orig_max_num_seqs is None:
+            assert self.max_num_batched_tokens is not None  # For type checking
+            self.max_num_seqs = min(self.max_num_seqs, self.max_num_batched_tokens)
+
+            logger.debug(
+                "Defaulting max_num_seqs to %d for %s usage context.",
                 self.max_num_seqs,
-                use_context_value,
+                usage_context.value if usage_context else None,
             )
 
 
diff --git a/vllm/platforms/cpu.py b/vllm/platforms/cpu.py
index cf954768689f3..fdfa1c19789ca 100644
--- a/vllm/platforms/cpu.py
+++ b/vllm/platforms/cpu.py
@@ -15,7 +15,6 @@ import torch
 
 from vllm import envs
 from vllm.logger import init_logger
-from vllm.utils import DEFAULT_MAX_NUM_BATCHED_TOKENS
 
 from .interface import CpuArchEnum, Platform, PlatformEnum
 
@@ -339,10 +338,9 @@ class CpuPlatform(Platform):
                 "prefill and prefix caching to be disabled."
             )
             vllm_config.scheduler_config.enable_chunked_prefill = False
-            vllm_config.scheduler_config.chunked_prefill_enabled = False
             vllm_config.scheduler_config.max_num_batched_tokens = max(
                 vllm_config.scheduler_config.max_model_len,
-                DEFAULT_MAX_NUM_BATCHED_TOKENS,
+                vllm_config.scheduler_config.DEFAULT_MAX_NUM_BATCHED_TOKENS,
             )
 
     @classmethod
diff --git a/vllm/platforms/tpu.py b/vllm/platforms/tpu.py
index b997bb9e6999b..4ab037fdb77ee 100644
--- a/vllm/platforms/tpu.py
+++ b/vllm/platforms/tpu.py
@@ -10,7 +10,6 @@ from tpu_info import device
 from vllm.inputs import ProcessorInputs, PromptType
 from vllm.logger import init_logger
 from vllm.sampling_params import SamplingParams, SamplingType
-from vllm.utils import DEFAULT_MAX_NUM_BATCHED_TOKENS
 
 from .interface import Platform, PlatformEnum
 
@@ -186,10 +185,9 @@ class TpuPlatform(Platform):
                 "prefill and prefix caching to be disabled."
             )
             vllm_config.scheduler_config.enable_chunked_prefill = False
-            vllm_config.scheduler_config.chunked_prefill_enabled = False
             vllm_config.scheduler_config.max_num_batched_tokens = max(
                 vllm_config.scheduler_config.max_model_len,
-                DEFAULT_MAX_NUM_BATCHED_TOKENS,
+                vllm_config.scheduler_config.DEFAULT_MAX_NUM_BATCHED_TOKENS,
             )
 
     @classmethod
diff --git a/vllm/platforms/xpu.py b/vllm/platforms/xpu.py
index 5552e4ca4b2f9..ad4beb28bdae0 100644
--- a/vllm/platforms/xpu.py
+++ b/vllm/platforms/xpu.py
@@ -9,7 +9,6 @@ import torch
 
 import vllm.envs as envs
 from vllm.logger import init_logger
-from vllm.utils import DEFAULT_MAX_NUM_BATCHED_TOKENS
 
 from .interface import DeviceCapability, Platform, PlatformEnum
 
@@ -185,10 +184,9 @@ class XPUPlatform(Platform):
                 "prefill and prefix caching to be disabled."
             )
             vllm_config.scheduler_config.enable_chunked_prefill = False
-            vllm_config.scheduler_config.chunked_prefill_enabled = False
             vllm_config.scheduler_config.max_num_batched_tokens = max(
                 vllm_config.scheduler_config.max_model_len,
-                DEFAULT_MAX_NUM_BATCHED_TOKENS,
+                vllm_config.scheduler_config.DEFAULT_MAX_NUM_BATCHED_TOKENS,
             )
 
     @classmethod
diff --git a/vllm/utils/__init__.py b/vllm/utils/__init__.py
index 040c0416c5ea9..3ef44e7703204 100644
--- a/vllm/utils/__init__.py
+++ b/vllm/utils/__init__.py
@@ -3,7 +3,7 @@
 
 import uuid
 import warnings
-from typing import Any, TypeVar
+from typing import Any
 
 import torch
 
@@ -39,12 +39,6 @@ def __dir__() -> list[str]:
 
 logger = init_logger(__name__)
 
-# This value is chosen to have a balance between ITL and TTFT. Note it is
-# not optimized for throughput.
-DEFAULT_MAX_NUM_BATCHED_TOKENS = 2048
-POOLING_MODEL_MAX_NUM_BATCHED_TOKENS = 32768
-MULTIMODAL_MODEL_MAX_NUM_BATCHED_TOKENS = 5120
-
 # Constants related to forcing the attention backend selection
 
 # String name of register which may be set in order to
@@ -60,9 +54,6 @@ STR_FLASH_ATTN_VAL: str = "FLASH_ATTN"
 STR_INVALID_VAL: str = "INVALID"
 
 
-T = TypeVar("T")
-
-
 def random_uuid() -> str:
     return str(uuid.uuid4().hex)
 

From 3f8a8740656f2c0079b9e2b1623a0758a61104af Mon Sep 17 00:00:00 2001
From: Duncan Moss <djm.moss@gmail.com>
Date: Fri, 14 Nov 2025 08:02:44 -0800
Subject: [PATCH 454/976] [Kernels] Enable FlashInfer FP8 Blockscale on SM90
 (for TEP DSR1) (#27134)

Signed-off-by: Duncan Moss <djm.moss@gmail.com>
Co-authored-by: Robert Shaw <114415538+robertgshaw2-redhat@users.noreply.github.com>
Co-authored-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com>
---
 .../fused_moe/flashinfer_cutlass_moe.py       |  23 ++-
 .../flashinfer_cutlass_prepare_finalize.py    | 147 ++++++++++++------
 .../model_executor/layers/quantization/fp8.py |  48 ++++--
 .../quantization/utils/flashinfer_utils.py    |  29 +++-
 4 files changed, 179 insertions(+), 68 deletions(-)

diff --git a/vllm/model_executor/layers/fused_moe/flashinfer_cutlass_moe.py b/vllm/model_executor/layers/fused_moe/flashinfer_cutlass_moe.py
index 85ce77fb1f7f7..943695f921ad3 100644
--- a/vllm/model_executor/layers/fused_moe/flashinfer_cutlass_moe.py
+++ b/vllm/model_executor/layers/fused_moe/flashinfer_cutlass_moe.py
@@ -57,6 +57,7 @@ class FlashInferExperts(mk.FusedMoEPermuteExpertsUnpermute):
         tp_rank: int = 0,
         tp_size: int = 1,
         use_dp: bool = False,
+        use_deepseek_fp8_block_scale: bool = False,
     ):
         super().__init__(quant_config)
         assert quant_config.quant_dtype in ("nvfp4", torch.float8_e4m3fn, None), (
@@ -69,6 +70,10 @@ class FlashInferExperts(mk.FusedMoEPermuteExpertsUnpermute):
         self.tp_size = tp_size
         self.out_dtype = out_dtype
         self.use_dp = use_dp
+        # Enables DeepSeek-style FP8 block-scale path:
+        # - pass per-block weight scales to the kernel
+        # - skip input activation quantization (kernel applies scaling)
+        self.use_deepseek_fp8_block_scale = use_deepseek_fp8_block_scale
 
     @property
     def activation_formats(
@@ -147,7 +152,12 @@ class FlashInferExperts(mk.FusedMoEPermuteExpertsUnpermute):
             "Only activation silu is supported in FlashInferExperts"
         )
 
-        if self.quant_dtype == torch.float8_e4m3fn:
+        # Select quantization metadata based on FP8 format/path
+        if (
+            self.quant_dtype == torch.float8_e4m3fn
+            and not self.use_deepseek_fp8_block_scale
+        ):
+            # FP8 per-tensor path: use global alphas/scales; do not pass input_sf
             quant_scales = [
                 self.g1_alphas,
                 self.a2_gscale,
@@ -176,6 +186,15 @@ class FlashInferExperts(mk.FusedMoEPermuteExpertsUnpermute):
             # FlashInfer API requires weight to be long for nvfp4
             fc1_expert_weights = w1.view(torch.long)
             fc2_expert_weights = w2.view(torch.long)
+        elif self.use_deepseek_fp8_block_scale:
+            # FP8 block-scale path: provide block-scale weights, omit a1q_scale
+            quant_scales = [
+                self.w1_scale,
+                self.w2_scale,
+            ]
+            a1q_scale = None
+            fc1_expert_weights = w1
+            fc2_expert_weights = w2
         else:
             quant_scales = None
             a1q_scale = None
@@ -196,6 +215,8 @@ class FlashInferExperts(mk.FusedMoEPermuteExpertsUnpermute):
             ep_size=self.ep_size,
             ep_rank=self.ep_rank,
             output=output,
+            # Informs FlashInfer to use the block-scale decoding path when True
+            use_deepseek_fp8_block_scale=self.use_deepseek_fp8_block_scale,
         )
 
 
diff --git a/vllm/model_executor/layers/fused_moe/flashinfer_cutlass_prepare_finalize.py b/vllm/model_executor/layers/fused_moe/flashinfer_cutlass_prepare_finalize.py
index bc9aab5208d9a..762890867e605 100644
--- a/vllm/model_executor/layers/fused_moe/flashinfer_cutlass_prepare_finalize.py
+++ b/vllm/model_executor/layers/fused_moe/flashinfer_cutlass_prepare_finalize.py
@@ -28,11 +28,15 @@ class FlashInferCutlassMoEPrepareAndFinalize(mk.FusedMoEPrepareAndFinalize):
         self,
         use_dp: bool,
         num_dispatchers: int = 1,
+        use_deepseek_fp8_block_scale: bool = False,
     ):
         super().__init__()
         self.num_dispatchers_ = num_dispatchers
         self.use_dp = use_dp
         self.local_tokens = None
+        # Toggle for DeepSeek-style FP8 block-scale path where activations are
+        # not quantized here and weight block scales are consumed by the kernel.
+        self.use_deepseek_fp8_block_scale = use_deepseek_fp8_block_scale
 
     @property
     def activation_format(self) -> mk.FusedMoEActivationFormat:
@@ -73,8 +77,9 @@ class FlashInferAllToAllMoEPrepareAndFinalize(FlashInferCutlassMoEPrepareAndFina
         self,
         use_dp: bool,
         num_dispatchers: int = 1,
+        use_deepseek_fp8_block_scale: bool = False,
     ):
-        super().__init__(use_dp, num_dispatchers)
+        super().__init__(use_dp, num_dispatchers, use_deepseek_fp8_block_scale)
         self.alltoall_info = None
 
         # Initialize all2all_manager only for DP case
@@ -97,15 +102,19 @@ class FlashInferAllToAllMoEPrepareAndFinalize(FlashInferCutlassMoEPrepareAndFina
         )
 
         if not self.use_dp:
-            # Non-DP case: standard quantization
-            a1q, a1q_scale = moe_kernel_quantize_input(
-                a1,
-                quant_config.a1_gscale,
-                quant_config.quant_dtype,
-                quant_config.per_act_token_quant,
-                quant_config.block_shape,
-                is_fp4_scale_swizzled=not self.use_dp,
-            )
+            # Non-DP case: quantize activations unless using block-scale path
+            if not self.use_deepseek_fp8_block_scale:
+                a1q, a1q_scale = moe_kernel_quantize_input(
+                    a1,
+                    quant_config.a1_gscale,
+                    quant_config.quant_dtype,
+                    quant_config.per_act_token_quant,
+                    quant_config.block_shape,
+                    is_fp4_scale_swizzled=not self.use_dp,
+                )
+            else:
+                a1q = a1
+                a1q_scale = None
         else:
             # DP case: use FlashInfer AllToAll
             global_num_tokens_cpu = get_local_sizes()
@@ -122,6 +131,7 @@ class FlashInferAllToAllMoEPrepareAndFinalize(FlashInferCutlassMoEPrepareAndFina
                     top_k,
                     num_experts,
                     quant_config,
+                    use_deepseek_fp8_block_scale=self.use_deepseek_fp8_block_scale,
                 )
             )
 
@@ -154,8 +164,9 @@ class FlashInferAllGatherMoEPrepareAndFinalize(FlashInferCutlassMoEPrepareAndFin
         self,
         use_dp: bool,
         num_dispatchers: int = 1,
+        use_deepseek_fp8_block_scale: bool = False,
     ):
-        super().__init__(use_dp, num_dispatchers)
+        super().__init__(use_dp, num_dispatchers, use_deepseek_fp8_block_scale)
 
     def prepare(
         self,
@@ -173,22 +184,42 @@ class FlashInferAllGatherMoEPrepareAndFinalize(FlashInferCutlassMoEPrepareAndFin
         if not self.use_dp and quant_config.quant_dtype == "nvfp4":
             return a1, None, None, topk_ids, topk_weights
 
-        a1q, a1q_scale = moe_kernel_quantize_input(
-            a1,
-            quant_config.a1_gscale,
-            quant_config.quant_dtype,
-            quant_config.per_act_token_quant,
-            quant_config.block_shape,
-            is_fp4_scale_swizzled=not self.use_dp,
-        )
+        if not self.use_deepseek_fp8_block_scale:
+            a1q, a1q_scale = moe_kernel_quantize_input(
+                a1,
+                quant_config.a1_gscale,
+                quant_config.quant_dtype,
+                quant_config.per_act_token_quant,
+                quant_config.block_shape,
+                is_fp4_scale_swizzled=not self.use_dp,
+            )
+        else:
+            # Block-scale path: pass activations through, omit per-token scales
+            a1q = a1
+            a1q_scale = None
 
         if self.use_dp:
-            topk_weights, topk_ids, a1q, a1q_scale = get_dp_group().all_gatherv(
-                [topk_weights, topk_ids, a1q, a1q_scale],
-                dim=0,
-                sizes=get_local_sizes(),
-            )
-        if quant_config.quant_dtype == "nvfp4":
+            # Build gather list conditionally - omit a1q_scale if None
+            # (block-scale path)
+            gather_list = [topk_weights, topk_ids, a1q]
+            if a1q_scale is not None:
+                gather_list.append(a1q_scale)
+                gathered = get_dp_group().all_gatherv(
+                    gather_list,
+                    dim=0,
+                    sizes=get_local_sizes(),
+                )
+                topk_weights, topk_ids, a1q, a1q_scale = gathered
+            else:
+                gathered = get_dp_group().all_gatherv(
+                    gather_list,
+                    dim=0,
+                    sizes=get_local_sizes(),
+                )
+                topk_weights, topk_ids, a1q = gathered
+                a1q_scale = None
+
+        if quant_config.quant_dtype == "nvfp4" and a1q_scale is not None:
             a1q_scale = nvfp4_block_scale_interleave(a1q_scale)
 
         return a1q, a1q_scale, None, topk_ids, topk_weights
@@ -221,6 +252,7 @@ def flashinfer_alltoall_dispatch(
     top_k: int,
     num_experts: int,
     quant_config: FusedMoEQuantConfig,
+    use_deepseek_fp8_block_scale: bool = False,
 ):
     from flashinfer.comm.trtllm_alltoall import MnnvlMoe
 
@@ -250,30 +282,42 @@ def flashinfer_alltoall_dispatch(
     )
     topk_weights = topk_weights.view(dtype=orig_topk_weights_dtype)
 
-    x, x_sf = moe_kernel_quantize_input(
-        x,
-        gs,
-        quant_config.quant_dtype,
-        quant_config.per_act_token_quant,
-        quant_config.block_shape,
-        is_fp4_scale_swizzled=False,  # delay swizzle to after comm
-    )
-    x = MnnvlMoe.mnnvl_moe_alltoallv(
-        x,
-        alltoall_info,
-        all2all_manager.workspace_tensor,
-        ep_rank,
-        ep_size,
-    )
+    if not use_deepseek_fp8_block_scale:
+        x, x_sf = moe_kernel_quantize_input(
+            x,
+            gs,
+            quant_config.quant_dtype,
+            quant_config.per_act_token_quant,
+            quant_config.block_shape,
+            is_fp4_scale_swizzled=False,  # delay swizzle to after comm
+        )
+        x = MnnvlMoe.mnnvl_moe_alltoallv(
+            x,
+            alltoall_info,
+            all2all_manager.workspace_tensor,
+            ep_rank,
+            ep_size,
+        )
 
-    x_sf = MnnvlMoe.mnnvl_moe_alltoallv(
-        x_sf,
-        alltoall_info,
-        all2all_manager.workspace_tensor,
-        ep_rank,
-        ep_size,
-    )
-    x_sf = nvfp4_block_scale_interleave(x_sf)
+        x_sf = MnnvlMoe.mnnvl_moe_alltoallv(
+            x_sf,
+            alltoall_info,
+            all2all_manager.workspace_tensor,
+            ep_rank,
+            ep_size,
+        )
+        if quant_config.quant_dtype == "nvfp4":
+            x_sf = nvfp4_block_scale_interleave(x_sf)
+    else:
+        # Block-scale path: pass activations through without quantization
+        x_sf = None
+        x = MnnvlMoe.mnnvl_moe_alltoallv(
+            x,
+            alltoall_info,
+            all2all_manager.workspace_tensor,
+            ep_rank,
+            ep_size,
+        )
     return alltoall_info, topk_ids, topk_weights, x, x_sf
 
 
@@ -304,6 +348,7 @@ def create_flashinfer_prepare_finalize(
     use_dp: bool,
     use_nvfp4: bool = False,
     enable_alltoallv: bool = False,
+    use_deepseek_fp8_block_scale: bool = False,
 ) -> FlashInferCutlassMoEPrepareAndFinalize:
     """Factory function to create the appropriate FlashInfer implementation."""
     if use_nvfp4:
@@ -311,5 +356,7 @@ def create_flashinfer_prepare_finalize(
             return FlashInferAllToAllMoEPrepareAndFinalize(use_dp)
         else:
             return FlashInferAllGatherMoEPrepareAndFinalize(use_dp)
-    # Fp8 only supports AllGather
-    return FlashInferAllGatherMoEPrepareAndFinalize(use_dp)
+    # FP8 path currently supported via AllGather; optionally enable block-scale
+    return FlashInferAllGatherMoEPrepareAndFinalize(
+        use_dp=use_dp, use_deepseek_fp8_block_scale=use_deepseek_fp8_block_scale
+    )
diff --git a/vllm/model_executor/layers/quantization/fp8.py b/vllm/model_executor/layers/quantization/fp8.py
index bbd0a4df1048b..0479bec338408 100644
--- a/vllm/model_executor/layers/quantization/fp8.py
+++ b/vllm/model_executor/layers/quantization/fp8.py
@@ -3,6 +3,7 @@
 
 from collections.abc import Callable
 from enum import Enum
+from functools import partial
 from typing import TYPE_CHECKING, Any, Optional
 
 import torch
@@ -122,10 +123,13 @@ def get_fp8_moe_backend(block_quant: bool) -> Fp8MoeBackend:
     Select the primary FP8 MoE backend
     Note: Shape-specific fallbacks may still occur at runtime.
     """
-    # prefer FlashInfer backends when available and enabled on supported GPUs
+    # Prefer FlashInfer backends on supported GPUs; allow SM90 and SM100.
     if (
         current_platform.is_cuda()
-        and current_platform.is_device_capability(100)
+        and (
+            current_platform.is_device_capability(100)
+            or current_platform.is_device_capability(90)
+        )
         and envs.VLLM_USE_FLASHINFER_MOE_FP8
         and has_flashinfer_moe()
     ):
@@ -134,14 +138,14 @@ def get_fp8_moe_backend(block_quant: bool) -> Fp8MoeBackend:
             logger.info_once("Using FlashInfer FP8 MoE TRTLLM backend for SM100")
             return Fp8MoeBackend.FLASHINFER_TRTLLM
         else:
-            if block_quant:
+            if block_quant and current_platform.is_device_capability(100):
                 raise ValueError(
                     "FlashInfer FP8 MoE throughput backend does not "
                     "support block quantization. Please use "
                     "VLLM_FLASHINFER_MOE_BACKEND=latency "
                     "instead."
                 )
-            logger.info_once("Using FlashInfer FP8 MoE CUTLASS backend for SM100")
+            logger.info_once("Using FlashInfer FP8 MoE CUTLASS backend for SM90/SM100")
             return Fp8MoeBackend.FLASHINFER_CUTLASS
 
     # weight-only path for older GPUs without native FP8
@@ -641,6 +645,16 @@ class Fp8MoEMethod(FusedMoEMethodBase):
             self.flashinfer_moe_backend = FlashinferMoeBackend.TENSORRT_LLM
         elif self.fp8_backend == Fp8MoeBackend.FLASHINFER_CUTLASS:
             self.flashinfer_moe_backend = FlashinferMoeBackend.CUTLASS
+            if self.block_quant:
+                assert self.weight_block_size == [128, 128], (
+                    f"Only support weight_block_size == [128, 128], "
+                    f"got {self.weight_block_size}"
+                )
+            self.flashinfer_moe_fn = partial(
+                flashinfer_cutlass_moe_fp8,
+                moe=self.moe,
+                use_deepseek_fp8_block_scale=self.block_quant,
+            )
 
         self.allow_deep_gemm = self.fp8_backend == Fp8MoeBackend.DEEPGEMM
         self.allow_cutlass_block_scaled_grouped_gemm = (
@@ -1012,8 +1026,15 @@ class Fp8MoEMethod(FusedMoEMethodBase):
         ):
             return None
         elif self.flashinfer_moe_backend == FlashinferMoeBackend.CUTLASS:
+            if self.block_quant:
+                assert self.weight_block_size == [128, 128], (
+                    f"Only support weight_block_size == [128, 128], "
+                    f"got {self.weight_block_size}"
+                )
+            # Wire block-scale flag through prepare/finalize when using CUTLASS
             prepare_finalize = build_flashinfer_fp8_cutlass_moe_prepare_finalize(
-                self.moe
+                self.moe,
+                use_deepseek_fp8_block_scale=self.block_quant,
             )
             logger.debug_once("%s", prepare_finalize.__class__.__name__)
             return prepare_finalize
@@ -1062,9 +1083,11 @@ class Fp8MoEMethod(FusedMoEMethodBase):
             )
 
         elif self.flashinfer_moe_backend == FlashinferMoeBackend.CUTLASS:
+            # Select GEMM experts with block-scale when weights are block-quantized
             experts = select_cutlass_fp8_gemm_impl(
                 self.moe,
                 self.moe_quant_config,
+                use_deepseek_fp8_block_scale=self.block_quant,
             )
             logger.debug_once("Using %s", experts.__class__.__name__)
             return experts
@@ -1251,16 +1274,17 @@ class Fp8MoEMethod(FusedMoEMethodBase):
                 workspace=layer.workspace,
             )
         elif self.flashinfer_moe_backend == FlashinferMoeBackend.CUTLASS:
-            assert not self.block_quant
-            assert not renormalize and custom_routing_function is not None
             assert activation == "silu", (
                 f"Expected 'silu' activation but got {activation}"
             )
-            assert scoring_func == "sigmoid", (
-                f"Expected 'sigmoid' scoring func but got {scoring_func}"
-            )
-
-            result = flashinfer_cutlass_moe_fp8(
+            if not self.block_quant:
+                assert not renormalize and custom_routing_function is not None
+                assert scoring_func == "sigmoid", (
+                    f"Expected 'sigmoid' scoring func but got {scoring_func}"
+                )
+            # Delegate to CUTLASS FlashInfer path; function already bound with
+            # use_deepseek_fp8_block_scale for block-quant when applicable
+            result = self.flashinfer_moe_fn(
                 x,
                 layer,
                 topk_weights,
diff --git a/vllm/model_executor/layers/quantization/utils/flashinfer_utils.py b/vllm/model_executor/layers/quantization/utils/flashinfer_utils.py
index e49d374f154d8..d9e9b42402712 100644
--- a/vllm/model_executor/layers/quantization/utils/flashinfer_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/flashinfer_utils.py
@@ -17,6 +17,7 @@ from vllm.model_executor.layers.fused_moe.flashinfer_cutlass_moe import (
 from vllm.model_executor.layers.fused_moe.flashinfer_cutlass_prepare_finalize import (  # noqa: E501
     create_flashinfer_prepare_finalize,
 )
+from vllm.platforms import current_platform
 
 logger = init_logger(__name__)
 
@@ -190,17 +191,22 @@ def register_moe_scaling_factors(layer: torch.nn.Module) -> None:
 
 
 def build_flashinfer_fp8_cutlass_moe_prepare_finalize(
-    moe: FusedMoEConfig | None,
+    moe: FusedMoEConfig | None, use_deepseek_fp8_block_scale: bool = False
 ) -> mk.FusedMoEPrepareAndFinalize:
     """Create a FlashInfer CUTLASS fused-MoE prepare finalize kernel"""
     use_dp = moe.moe_parallel_config.dp_size > 1 if moe is not None else False
-    return create_flashinfer_prepare_finalize(use_dp)
+    # Propagate block-scale flag so prepare/finalize can skip act quantization
+    # and inform the kernel to consume per-block weight scales.
+    return create_flashinfer_prepare_finalize(
+        use_dp, use_deepseek_fp8_block_scale=use_deepseek_fp8_block_scale
+    )
 
 
 def select_cutlass_fp8_gemm_impl(
     moe: FusedMoEConfig | None,
     quant_config: FusedMoEQuantConfig,
     out_dtype: torch.dtype | None = None,
+    use_deepseek_fp8_block_scale: bool = False,
 ) -> mk.FusedMoEPermuteExpertsUnpermute:
     """Return a GEMM *experts* implementation for fused-MoE layers"""
 
@@ -212,12 +218,14 @@ def select_cutlass_fp8_gemm_impl(
             ep_size=moe.moe_parallel_config.ep_size,
             tp_rank=moe.moe_parallel_config.tp_rank,
             tp_size=moe.moe_parallel_config.tp_size,
+            use_deepseek_fp8_block_scale=use_deepseek_fp8_block_scale,
         )
 
     assert out_dtype is not None, "If moe config is None, out_dtype must be passed"
     return FlashInferExperts(
         out_dtype=out_dtype,
         quant_config=quant_config,
+        use_deepseek_fp8_block_scale=use_deepseek_fp8_block_scale,
     )
 
 
@@ -231,14 +239,22 @@ def flashinfer_cutlass_moe_fp8(
     global_num_experts: int = -1,
     expert_map: torch.Tensor | None = None,
     apply_router_weight_on_input: bool = False,
+    use_deepseek_fp8_block_scale: bool = False,
+    moe: FusedMoEConfig | None = None,
 ) -> torch.Tensor:
     quant_config = layer.quant_method.get_fused_moe_quant_config(layer)
     assert quant_config is not None
 
+    # Construct modular kernel with block-scale support when requested.
     fused_experts = mk.FusedMoEModularKernel(
-        build_flashinfer_fp8_cutlass_moe_prepare_finalize(moe=None),
+        build_flashinfer_fp8_cutlass_moe_prepare_finalize(
+            moe=moe, use_deepseek_fp8_block_scale=use_deepseek_fp8_block_scale
+        ),
         select_cutlass_fp8_gemm_impl(
-            moe=None, quant_config=quant_config, out_dtype=hidden_states.dtype
+            moe=moe,
+            quant_config=quant_config,
+            out_dtype=hidden_states.dtype,
+            use_deepseek_fp8_block_scale=use_deepseek_fp8_block_scale,
         ),
     )
 
@@ -258,7 +274,10 @@ def flashinfer_cutlass_moe_fp8(
 
 def get_flashinfer_moe_backend() -> FlashinferMoeBackend:
     flashinfer_moe_backend = envs.VLLM_FLASHINFER_MOE_BACKEND
-    if flashinfer_moe_backend == "throughput":
+    # Prefer CUTLASS on SM90 to cover both SM90/SM100 generations
+    if flashinfer_moe_backend == "throughput" or current_platform.is_device_capability(
+        90
+    ):
         return FlashinferMoeBackend.CUTLASS
     elif flashinfer_moe_backend == "latency":
         return FlashinferMoeBackend.TENSORRT_LLM

From c934caee88f65258aac00d71d9ae0ecc4a4e1cd7 Mon Sep 17 00:00:00 2001
From: dongbo910220 <32610838+dongbo910220@users.noreply.github.com>
Date: Sat, 15 Nov 2025 00:07:20 +0800
Subject: [PATCH 455/976] [Fix] improve aspect ratio in dummy image generation
 and add common  VLM tests for PaddleOCR-VL (#28711)

Signed-off-by: dongbo910220 <1275604947@qq.com>
---
 .../multimodal/generation/test_common.py       | 18 ++++++++++++++++++
 vllm/model_executor/models/paddleocr_vl.py     |  3 +--
 2 files changed, 19 insertions(+), 2 deletions(-)

diff --git a/tests/models/multimodal/generation/test_common.py b/tests/models/multimodal/generation/test_common.py
index 22083d9f16148..95b64b380db0d 100644
--- a/tests/models/multimodal/generation/test_common.py
+++ b/tests/models/multimodal/generation/test_common.py
@@ -12,6 +12,7 @@ import pytest
 from packaging.version import Version
 from transformers import (
     AutoModel,
+    AutoModelForCausalLM,
     AutoModelForImageTextToText,
     AutoModelForTextToWaveform,
 )
@@ -691,6 +692,23 @@ VLM_TEST_SETTINGS = {
         patch_hf_runner=model_utils.ovis2_5_patch_hf_runner,
         hf_model_kwargs={"revision": "refs/pr/5"},
     ),
+    "paddleocr_vl": VLMTestInfo(
+        models=["PaddlePaddle/PaddleOCR-VL"],
+        test_type=(VLMTestType.IMAGE, VLMTestType.MULTI_IMAGE),
+        prompt_formatter=lambda img_prompt: f"USER: {img_prompt}\nASSISTANT:",
+        img_idx_to_prompt=lambda idx: (
+            "<|IMAGE_START|><|IMAGE_PLACEHOLDER|><|IMAGE_END|>"
+        ),
+        multi_image_prompt=(
+            "Image-1: <|IMAGE_START|><|IMAGE_PLACEHOLDER|><|IMAGE_END|>\n"
+            "Image-2: <|IMAGE_START|><|IMAGE_PLACEHOLDER|><|IMAGE_END|>\n"
+            "Describe these two images separately."
+        ),
+        max_model_len=8192,
+        max_num_seqs=2,
+        auto_cls=AutoModelForCausalLM,
+        image_size_factors=[(), (0.25,)],
+    ),
     "phi3v": VLMTestInfo(
         models=["microsoft/Phi-3.5-vision-instruct"],
         test_type=(VLMTestType.IMAGE, VLMTestType.MULTI_IMAGE),
diff --git a/vllm/model_executor/models/paddleocr_vl.py b/vllm/model_executor/models/paddleocr_vl.py
index 183f458658aa3..3ef6470070d18 100644
--- a/vllm/model_executor/models/paddleocr_vl.py
+++ b/vllm/model_executor/models/paddleocr_vl.py
@@ -232,8 +232,7 @@ class PaddleOCRVLProcessingInfo(BaseProcessingInfo):
         # Find factors of max_num_tokens close to its square root
         # to create a dummy image with a reasonable aspect ratio.
         h_patches = int(math.sqrt(max_num_tokens))
-        while max_num_tokens % h_patches != 0:
-            h_patches -= 1
+        max_num_tokens -= max_num_tokens % h_patches
         w_patches = max_num_tokens // h_patches
         return ImageSize(height=h_patches * factor, width=w_patches * factor)
 

From 5f3cd7f7f20a8e4445d70cbd1f5475175ef391e3 Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Fri, 14 Nov 2025 16:34:14 +0000
Subject: [PATCH 456/976] [Docs] Update the name of `Transformers backend` ->
 `Transformers modeling backend` (#28725)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 .github/CODEOWNERS                            |  2 +-
 docs/contributing/model/README.md             |  2 +-
 .../frameworks/hf_inference_endpoints.md      |  4 +--
 docs/models/supported_models.md               | 26 +++++++++----------
 tests/models/test_transformers.py             |  4 +--
 vllm/config/model.py                          |  8 +++---
 vllm/lora/layers/base_linear.py               |  2 +-
 vllm/model_executor/models/adapters.py        |  4 +--
 .../models/transformers/__init__.py           |  4 +--
 .../models/transformers/base.py               |  9 ++++---
 .../models/transformers/causal.py             |  2 +-
 .../models/transformers/legacy.py             |  2 +-
 .../model_executor/models/transformers/moe.py |  4 +--
 .../models/transformers/multimodal.py         | 12 +++++----
 .../models/transformers/pooling.py            |  2 +-
 .../models/transformers/utils.py              |  2 +-
 16 files changed, 46 insertions(+), 43 deletions(-)

diff --git a/.github/CODEOWNERS b/.github/CODEOWNERS
index bfb0e91fd06e2..6e178bb690c56 100644
--- a/.github/CODEOWNERS
+++ b/.github/CODEOWNERS
@@ -57,7 +57,7 @@ CMakeLists.txt @tlrmchlsmth @LucasWilkinson
 /tests/v1/kv_connector @ApostaC
 /tests/v1/offloading @ApostaC
 
-# Transformers backend
+# Transformers modeling backend
 /vllm/model_executor/models/transformers @hmellor
 /tests/models/test_transformers.py @hmellor
 
diff --git a/docs/contributing/model/README.md b/docs/contributing/model/README.md
index d8c40c5195735..13f3edb7e1af1 100644
--- a/docs/contributing/model/README.md
+++ b/docs/contributing/model/README.md
@@ -1,7 +1,7 @@
 # Summary
 
 !!! important
-    Many decoder language models can now be automatically loaded using the [Transformers backend](../../models/supported_models.md#transformers) without having to implement them in vLLM. See if `vllm serve <model>` works first!
+    Many decoder language models can now be automatically loaded using the [Transformers modeling backend](../../models/supported_models.md#transformers) without having to implement them in vLLM. See if `vllm serve <model>` works first!
 
 vLLM models are specialized [PyTorch](https://pytorch.org/) models that take advantage of various [features](../../features/README.md#compatibility-matrix) to optimize their performance.
 
diff --git a/docs/deployment/frameworks/hf_inference_endpoints.md b/docs/deployment/frameworks/hf_inference_endpoints.md
index d39bb9a899c8a..05df0dacd8f11 100644
--- a/docs/deployment/frameworks/hf_inference_endpoints.md
+++ b/docs/deployment/frameworks/hf_inference_endpoints.md
@@ -156,7 +156,7 @@ In this guide, we demonstrate manual deployment using the [`rednote-hilab/dots.o
 
 ## Advanced Deployment Details
 
-With the [transformers backend integration](https://blog.vllm.ai/2025/04/11/transformers-backend.html), vLLM now offers Day 0 support for any model compatible with `transformers`. This means you can deploy such models immediately, leveraging vLLM’s optimized inference without additional backend modifications.
+With the [Transformers modeling backend integration](https://blog.vllm.ai/2025/04/11/transformers-backend.html), vLLM now offers Day 0 support for any model compatible with `transformers`. This means you can deploy such models immediately, leveraging vLLM’s optimized inference without additional backend modifications.
 
 Hugging Face Inference Endpoints provides a fully managed environment for serving models via vLLM. You can deploy models without configuring servers, installing dependencies, or managing clusters. Endpoints also support deployment across multiple cloud providers (AWS, Azure, GCP) without the need for separate accounts.
 
@@ -167,4 +167,4 @@ The platform integrates seamlessly with the Hugging Face Hub, allowing you to de
 - Explore the [Inference Endpoints](https://endpoints.huggingface.co/catalog) model catalog
 - Read the Inference Endpoints [documentation](https://huggingface.co/docs/inference-endpoints/en/index)
 - Learn about [Inference Endpoints engines](https://huggingface.co/docs/inference-endpoints/en/engines/vllm)
-- Understand the [transformers backend integration](https://blog.vllm.ai/2025/04/11/transformers-backend.html)
+- Understand the [Transformers modeling backend integration](https://blog.vllm.ai/2025/04/11/transformers-backend.html)
diff --git a/docs/models/supported_models.md b/docs/models/supported_models.md
index c1eb207efcd18..0439e9cf23644 100644
--- a/docs/models/supported_models.md
+++ b/docs/models/supported_models.md
@@ -15,9 +15,9 @@ These models are what we list in [supported text models](#list-of-text-only-lang
 
 ### Transformers
 
-vLLM also supports model implementations that are available in Transformers. You should expect the performance of a Transformers model implementation used in vLLM to be within <5% of the performance of a dedicated vLLM model implementation. We call this feature the "Transformers backend".
+vLLM also supports model implementations that are available in Transformers. You should expect the performance of a Transformers model implementation used in vLLM to be within <5% of the performance of a dedicated vLLM model implementation. We call this feature the "Transformers modeling backend".
 
-Currently, the Transformers backend works for the following:
+Currently, the Transformers modeling backend works for the following:
 
 - Modalities: embedding models, language models and vision-language models*
 - Architectures: encoder-only, decoder-only, mixture-of-experts
@@ -25,7 +25,7 @@ Currently, the Transformers backend works for the following:
 
 _*Vision-language models currently accept only image inputs. Support for video inputs will be added in a future release._
 
-If the Transformers model implementation follows all the steps in [writing a custom model](#writing-custom-models) then, when used with the Transformers backend, it will be compatible with the following features of vLLM:
+If the Transformers model implementation follows all the steps in [writing a custom model](#writing-custom-models) then, when used with the Transformers modeling backend, it will be compatible with the following features of vLLM:
 
 - All the features listed in the [compatibility matrix](../features/README.md#feature-x-feature)
 - Any combination of the following vLLM parallelisation schemes:
@@ -44,7 +44,7 @@ llm.apply_model(lambda model: print(type(model)))
 
 If the printed type starts with `Transformers...` then it's using the Transformers model implementation!
 
-If a model has a vLLM implementation but you would prefer to use the Transformers implementation via the Transformers backend, set `model_impl="transformers"` for [offline inference](../serving/offline_inference.md) or `--model-impl transformers` for the [online serving](../serving/openai_compatible_server.md).
+If a model has a vLLM implementation but you would prefer to use the Transformers implementation via the Transformers modeling backend, set `model_impl="transformers"` for [offline inference](../serving/offline_inference.md) or `--model-impl transformers` for the [online serving](../serving/openai_compatible_server.md).
 
 !!! note
     For vision-language models, if you are loading with `dtype="auto"`, vLLM loads the whole model with config's `dtype` if it exists. In contrast the native Transformers will respect the `dtype` attribute of each backbone in the model. That might cause a slight difference in performance.
@@ -53,12 +53,12 @@ If a model has a vLLM implementation but you would prefer to use the Transformer
 
 If a model is neither supported natively by vLLM nor Transformers, it can still be used in vLLM!
 
-For a model to be compatible with the Transformers backend for vLLM it must:
+For a model to be compatible with the Transformers modeling backend for vLLM it must:
 
 - be a Transformers compatible custom model (see [Transformers - Customizing models](https://huggingface.co/docs/transformers/en/custom_models)):
     - The model directory must have the correct structure (e.g. `config.json` is present).
     - `config.json` must contain `auto_map.AutoModel`.
-- be a Transformers backend for vLLM compatible model (see [Writing custom models](#writing-custom-models)):
+- be a Transformers modeling backend for vLLM compatible model (see [Writing custom models](#writing-custom-models)):
     - Customisation should be done in the base model (e.g. in `MyModel`, not `MyModelForCausalLM`).
 
 If the compatible model is:
@@ -66,13 +66,13 @@ If the compatible model is:
 - on the Hugging Face Model Hub, simply set `trust_remote_code=True` for [offline-inference](../serving/offline_inference.md) or `--trust-remote-code` for the [openai-compatible-server](../serving/openai_compatible_server.md).
 - in a local directory, simply pass directory path to `model=<MODEL_DIR>` for [offline-inference](../serving/offline_inference.md) or `vllm serve <MODEL_DIR>` for the [openai-compatible-server](../serving/openai_compatible_server.md).
 
-This means that, with the Transformers backend for vLLM, new models can be used before they are officially supported in Transformers or vLLM!
+This means that, with the Transformers modeling backend for vLLM, new models can be used before they are officially supported in Transformers or vLLM!
 
 #### Writing custom models
 
-This section details the necessary modifications to make to a Transformers compatible custom model that make it compatible with the Transformers backend for vLLM. (We assume that a Transformers compatible custom model has already been created, see [Transformers - Customizing models](https://huggingface.co/docs/transformers/en/custom_models)).
+This section details the necessary modifications to make to a Transformers compatible custom model that make it compatible with the Transformers modeling backend for vLLM. (We assume that a Transformers compatible custom model has already been created, see [Transformers - Customizing models](https://huggingface.co/docs/transformers/en/custom_models)).
 
-To make your model compatible with the Transformers backend, it needs:
+To make your model compatible with the Transformers modeling backend, it needs:
 
 1. `kwargs` passed down through all modules from `MyModel` to `MyAttention`.
     - If your model is encoder-only:
@@ -134,7 +134,7 @@ Here is what happens in the background when this model is loaded:
 
 1. The config is loaded.
 2. `MyModel` Python class is loaded from the `auto_map` in config, and we check that the model `is_backend_compatible()`.
-3. `MyModel` is loaded into one of the Transformers backend classes in [vllm/model_executor/models/transformers](../../vllm/model_executor/models/transformers) which sets `self.config._attn_implementation = "vllm"` so that vLLM's attention layer is used.
+3. `MyModel` is loaded into one of the Transformers modeling backend classes in [vllm/model_executor/models/transformers](../../vllm/model_executor/models/transformers) which sets `self.config._attn_implementation = "vllm"` so that vLLM's attention layer is used.
 
 That's it!
 
@@ -182,7 +182,7 @@ To determine whether a given model is natively supported, you can check the `con
 If the `"architectures"` field contains a model architecture listed below, then it should be natively supported.
 
 Models do not _need_ to be natively supported to be used in vLLM.
-The [Transformers backend](#transformers) enables you to run models directly using their Transformers implementation (or even remote code on the Hugging Face Model Hub!).
+The [Transformers modeling backend](#transformers) enables you to run models directly using their Transformers implementation (or even remote code on the Hugging Face Model Hub!).
 
 !!! tip
     The easiest way to check if your model is really supported at runtime is to run the program below:
@@ -451,7 +451,7 @@ th {
 | `Zamba2ForCausalLM` | Zamba2 | `Zyphra/Zamba2-7B-instruct`, `Zyphra/Zamba2-2.7B-instruct`, `Zyphra/Zamba2-1.2B-instruct`, etc. | | |
 | `LongcatFlashForCausalLM` | LongCat-Flash | `meituan-longcat/LongCat-Flash-Chat`, `meituan-longcat/LongCat-Flash-Chat-FP8` | ✅︎ | ✅︎ |
 
-Some models are supported only via the [Transformers backend](#transformers). The purpose of the table below is to acknowledge models which we officially support in this way. The logs will say that the Transformers backend is being used, and you will see no warning that this is fallback behaviour. This means that, if you have issues with any of the models listed below, please [make an issue](https://github.com/vllm-project/vllm/issues/new/choose) and we'll do our best to fix it!
+Some models are supported only via the [Transformers modeling backend](#transformers). The purpose of the table below is to acknowledge models which we officially support in this way. The logs will say that the Transformers modeling backend is being used, and you will see no warning that this is fallback behaviour. This means that, if you have issues with any of the models listed below, please [make an issue](https://github.com/vllm-project/vllm/issues/new/choose) and we'll do our best to fix it!
 
 | Architecture | Models | Example HF Models | [LoRA](../features/lora.md) | [PP](../serving/parallelism_scaling.md) |
 |--------------|--------|-------------------|----------------------|---------------------------|
@@ -720,7 +720,7 @@ These models primarily accept the [`LLM.generate`](./generative_models.md#llmgen
 | `TarsierForConditionalGeneration` | Tarsier | T + I<sup>E+</sup> | `omni-search/Tarsier-7b`, `omni-search/Tarsier-34b` | | ✅︎ |
 | `Tarsier2ForConditionalGeneration`<sup>^</sup> | Tarsier2 | T + I<sup>E+</sup> + V<sup>E+</sup> | `omni-research/Tarsier2-Recap-7b`, `omni-research/Tarsier2-7b-0115` | | ✅︎ |
 
-Some models are supported only via the [Transformers backend](#transformers). The purpose of the table below is to acknowledge models which we officially support in this way. The logs will say that the Transformers backend is being used, and you will see no warning that this is fallback behaviour. This means that, if you have issues with any of the models listed below, please [make an issue](https://github.com/vllm-project/vllm/issues/new/choose) and we'll do our best to fix it!
+Some models are supported only via the [Transformers modeling backend](#transformers). The purpose of the table below is to acknowledge models which we officially support in this way. The logs will say that the Transformers modeling backend is being used, and you will see no warning that this is fallback behaviour. This means that, if you have issues with any of the models listed below, please [make an issue](https://github.com/vllm-project/vllm/issues/new/choose) and we'll do our best to fix it!
 
 | Architecture | Models | Inputs | Example HF Models | [LoRA](../features/lora.md) | [PP](../serving/parallelism_scaling.md) |
 |--------------|--------|--------|-------------------|-----------------------------|-----------------------------------------|
diff --git a/tests/models/test_transformers.py b/tests/models/test_transformers.py
index a18f5b6077636..ae5befd2c00b7 100644
--- a/tests/models/test_transformers.py
+++ b/tests/models/test_transformers.py
@@ -1,6 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
-"""Test the functionality of the Transformers backend."""
+"""Test the functionality of the Transformers modeling backend."""
 
 from typing import Any
 
@@ -85,7 +85,7 @@ def test_models(
     required = Version("5.0.0.dev")
     if model == "allenai/OLMoE-1B-7B-0924" and installed < required:
         pytest.skip(
-            "MoE models with the Transformers backend require "
+            "MoE models with the Transformers modeling backend require "
             f"transformers>={required}, but got {installed}"
         )
 
diff --git a/vllm/config/model.py b/vllm/config/model.py
index 8ec66b6b3160b..b3a28af6de389 100644
--- a/vllm/config/model.py
+++ b/vllm/config/model.py
@@ -732,7 +732,7 @@ class ModelConfig:
         return self
 
     def _get_transformers_backend_cls(self) -> str:
-        """Determine which Transformers backend class will be used if
+        """Determine which Transformers modeling backend class will be used if
         `model_impl` is set to `transformers` or `auto`."""
         cls = "Transformers"
         # If 'hf_config != hf_text_config' it's a nested config, i.e. multimodal
@@ -746,8 +746,8 @@ class ModelConfig:
         # User specified value take precedence
         if self.runner != "auto":
             runner = self.runner
-        # Only consider Transformers backend pooling classes if we're wrapping an
-        # architecture that defaults to pooling. Otherwise, we return the LM class
+        # Only consider Transformers modeling backend pooling classes if we're wrapping
+        # an architecture that defaults to pooling. Otherwise, we return the LM class
         # and use adapters.
         if runner == "pooling" and task in {"embed", "classify"}:
             if task == "embed":
@@ -759,7 +759,7 @@ class ModelConfig:
         return cls
 
     def using_transformers_backend(self) -> bool:
-        """Check if the model is using the Transformers backend class."""
+        """Check if the model is using the Transformers modeling backend class."""
         used_cls = self._model_info.architecture
         transformers_backend_cls = self._get_transformers_backend_cls()
         return used_cls == transformers_backend_cls
diff --git a/vllm/lora/layers/base_linear.py b/vllm/lora/layers/base_linear.py
index d619a0edc1241..3db4165e20176 100644
--- a/vllm/lora/layers/base_linear.py
+++ b/vllm/lora/layers/base_linear.py
@@ -121,7 +121,7 @@ class BaseLinearLayerWithLoRA(BaseLayerWithLoRA):
     def apply(self, x: torch.Tensor, bias: torch.Tensor | None = None) -> torch.Tensor:
         output = self.base_layer.quant_method.apply(self.base_layer, x, bias)
 
-        # In transformers backend, x and output have extra batch dimension like
+        # In Transformers modeling backend, x and output have extra batch dimension like
         # (1, seq_len, hidden_dim), while punica expects (seq_len, hidden_dim),
         # therefore we need to flatten the batch dimensions.
         if x.ndim == 3 and output.ndim == 3:
diff --git a/vllm/model_executor/models/adapters.py b/vllm/model_executor/models/adapters.py
index f742090df71fd..a9cc49451a1d3 100644
--- a/vllm/model_executor/models/adapters.py
+++ b/vllm/model_executor/models/adapters.py
@@ -429,7 +429,7 @@ def load_weights_using_from_2_way_softmax(
     if text_config.tie_word_embeddings:
         # embed_tokens is the assumed name for input embeddings. If the model does not
         # have this attribute, we fallback to get_input_embeddings(), which is used by
-        # the Transformers backend.
+        # the Transformers modeling backend.
         embed_tokens = (
             model.model.embed_tokens
             if hasattr(model.model, "embed_tokens")
@@ -487,7 +487,7 @@ def load_weights_no_post_processing(model, weights: Iterable[tuple[str, torch.Te
     if text_config.tie_word_embeddings:
         # embed_tokens is the assumed name for input embeddings. If the model does not
         # have this attribute, we fallback to get_input_embeddings(), which is used by
-        # the Transformers backend.
+        # the Transformers modeling backend.
         embed_tokens = (
             model.model.embed_tokens
             if hasattr(model.model, "embed_tokens")
diff --git a/vllm/model_executor/models/transformers/__init__.py b/vllm/model_executor/models/transformers/__init__.py
index 365b5eb08893d..93cd8ff507669 100644
--- a/vllm/model_executor/models/transformers/__init__.py
+++ b/vllm/model_executor/models/transformers/__init__.py
@@ -120,8 +120,8 @@ def __getattr__(name: str):
     """Handle imports of non-existent classes with a helpful error message."""
     if name not in globals():
         raise AttributeError(
-            "The Transformers backend does not currently have a class to handle "
-            f"the requested model type: {name}. Please open an issue at "
+            "The Transformers modeling backend does not currently have a class to "
+            f"handle the requested model type: {name}. Please open an issue at "
             "https://github.com/vllm-project/vllm/issues/new"
         )
     return globals()[name]
diff --git a/vllm/model_executor/models/transformers/base.py b/vllm/model_executor/models/transformers/base.py
index 63096e57f8eee..f4ba4758bcc46 100644
--- a/vllm/model_executor/models/transformers/base.py
+++ b/vllm/model_executor/models/transformers/base.py
@@ -14,7 +14,7 @@
 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 # See the License for the specific language governing permissions and
 # limitations under the License.
-"""Transformers backend base class."""
+"""Transformers modeling backend base class."""
 
 from collections.abc import Iterable
 from typing import TYPE_CHECKING
@@ -118,7 +118,7 @@ class Base(nn.Module, VllmModel, SupportsQuant, SupportsLoRA, SupportsPP):
 
     def __init__(self, *, vllm_config: "VllmConfig", prefix: str = ""):
         super().__init__()
-        logger.info("Using Transformers backend.")
+        logger.info("Using Transformers modeling backend.")
 
         self.config = vllm_config.model_config.hf_config
         self.text_config = self.config.get_text_config()
@@ -147,7 +147,8 @@ class Base(nn.Module, VllmModel, SupportsQuant, SupportsLoRA, SupportsPP):
             # Check for unsupported quantization methods.
             if quant_method_name == "mxfp4":
                 raise NotImplementedError(
-                    "Transformers backend does not support MXFP4 quantization yet."
+                    "Transformers modeling backend does "
+                    "not support MXFP4 quantization yet."
                 )
             # Skip loading extra bias for GPTQ models.
             if "gptq" in quant_method_name:
@@ -458,6 +459,6 @@ class Base(nn.Module, VllmModel, SupportsQuant, SupportsLoRA, SupportsPP):
         required = Version(min_version)
         if installed < required:
             raise ImportError(
-                f"Transformers backend requires transformers>={required} "
+                f"Transformers modeling backend requires transformers>={required} "
                 f"for {feature}, but got {installed}"
             )
diff --git a/vllm/model_executor/models/transformers/causal.py b/vllm/model_executor/models/transformers/causal.py
index 42fd11117c737..b2865ed0c7ff5 100644
--- a/vllm/model_executor/models/transformers/causal.py
+++ b/vllm/model_executor/models/transformers/causal.py
@@ -14,7 +14,7 @@
 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 # See the License for the specific language governing permissions and
 # limitations under the License.
-"""Transformers backend mixin for causal language models."""
+"""Transformers modeling backend mixin for causal language models."""
 
 from typing import TYPE_CHECKING
 
diff --git a/vllm/model_executor/models/transformers/legacy.py b/vllm/model_executor/models/transformers/legacy.py
index a453870a2687f..aca630be56154 100644
--- a/vllm/model_executor/models/transformers/legacy.py
+++ b/vllm/model_executor/models/transformers/legacy.py
@@ -14,7 +14,7 @@
 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 # See the License for the specific language governing permissions and
 # limitations under the License.
-"""Transformers backend mixin for legacy models."""
+"""Transformers modeling backend mixin for legacy models."""
 
 from typing import TYPE_CHECKING
 
diff --git a/vllm/model_executor/models/transformers/moe.py b/vllm/model_executor/models/transformers/moe.py
index 8e39eb0b9902c..4973014c3d4ed 100644
--- a/vllm/model_executor/models/transformers/moe.py
+++ b/vllm/model_executor/models/transformers/moe.py
@@ -14,7 +14,7 @@
 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 # See the License for the specific language governing permissions and
 # limitations under the License.
-"""Transformers backend mixin for Mixture of Experts (MoE) models."""
+"""Transformers modeling backend mixin for Mixture of Experts (MoE) models."""
 
 from typing import TYPE_CHECKING, Any
 
@@ -39,7 +39,7 @@ if TYPE_CHECKING:
 
 @CustomOp.register("transformers_fused_moe")
 class TransformersFusedMoE(FusedMoE):
-    """Custom FusedMoE for the Transformers backend."""
+    """Custom FusedMoE for the Transformers modeling backend."""
 
     def __init__(self, *args, **kwargs):
         super().__init__(*args, **kwargs)
diff --git a/vllm/model_executor/models/transformers/multimodal.py b/vllm/model_executor/models/transformers/multimodal.py
index 9b0463f41fa87..ccf6053719871 100644
--- a/vllm/model_executor/models/transformers/multimodal.py
+++ b/vllm/model_executor/models/transformers/multimodal.py
@@ -14,7 +14,7 @@
 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 # See the License for the specific language governing permissions and
 # limitations under the License.
-"""Transformers backend mixin for multi-modal models."""
+"""Transformers modeling backend mixin for multi-modal models."""
 
 from collections.abc import Mapping
 from typing import TYPE_CHECKING
@@ -310,9 +310,9 @@ class MultiModalMixin(SupportsMultiModal, SupportsMRoPE):
         return model_output
 
     def get_language_model(self) -> torch.nn.Module:
-        """Transformers backend multimodal classes do not contain a separate vLLM
-        language model class. Therefore, in order to return a language model vLLM class,
-        we use a wrapper to give `self` the same interface as a text model."""
+        """Transformers modeling backend multimodal classes do not contain a separate
+        vLLM language model class. Therefore, in order to return a language model vLLM
+        class, we use a wrapper to give `self` the same interface as a text model."""
 
         # Exclude self and object
         bases = self.__class__.mro()[1:-1]
@@ -385,7 +385,9 @@ class MultiModalMixin(SupportsMultiModal, SupportsMRoPE):
             for k, v in kwargs.items()
             if k not in {"image_grid_thw", "video_grid_thw"}
         ):
-            raise NotImplementedError("Transformers backend only supports images.")
+            raise NotImplementedError(
+                "Transformers modeling backend only supports images."
+            )
 
         image_grid_thw = kwargs.get("image_grid_thw", [])
         video_grid_thw = kwargs.get("video_grid_thw", [])
diff --git a/vllm/model_executor/models/transformers/pooling.py b/vllm/model_executor/models/transformers/pooling.py
index 8117bbac013ea..4c2a74bccb6a9 100644
--- a/vllm/model_executor/models/transformers/pooling.py
+++ b/vllm/model_executor/models/transformers/pooling.py
@@ -14,7 +14,7 @@
 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 # See the License for the specific language governing permissions and
 # limitations under the License.
-"""Transformers backend mixins for pooling models."""
+"""Transformers modeling backend mixins for pooling models."""
 
 from typing import TYPE_CHECKING
 
diff --git a/vllm/model_executor/models/transformers/utils.py b/vllm/model_executor/models/transformers/utils.py
index 267a6e06e6bbf..517eb54d53ac6 100644
--- a/vllm/model_executor/models/transformers/utils.py
+++ b/vllm/model_executor/models/transformers/utils.py
@@ -14,7 +14,7 @@
 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 # See the License for the specific language governing permissions and
 # limitations under the License.
-"""Transformers backend utilities."""
+"""Transformers modeling backend utilities."""
 
 from contextlib import contextmanager
 from pathlib import Path

From d54a18a47e7cb6a126a022914c7965f84e15217c Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Fri, 14 Nov 2025 11:37:18 -0500
Subject: [PATCH 457/976] [CI][CPU] Smoke test for Apple Silicon using GHA
 MacOS runner (#28688)

Signed-off-by: mgoin <mgoin64@gmail.com>
---
 .github/workflows/macos-smoke-test.yml | 73 ++++++++++++++++++++++++++
 1 file changed, 73 insertions(+)
 create mode 100644 .github/workflows/macos-smoke-test.yml

diff --git a/.github/workflows/macos-smoke-test.yml b/.github/workflows/macos-smoke-test.yml
new file mode 100644
index 0000000000000..f56fdc0dbe79e
--- /dev/null
+++ b/.github/workflows/macos-smoke-test.yml
@@ -0,0 +1,73 @@
+name: macOS Apple Silicon Smoke Test
+
+on:
+  workflow_dispatch:  # Manual trigger
+
+jobs:
+  macos-m1-smoke-test:
+    runs-on: macos-latest
+    timeout-minutes: 20
+
+    steps:
+      - uses: actions/checkout@v4
+
+      - uses: astral-sh/setup-uv@v4
+        with:
+          enable-cache: true
+          python-version: '3.12'
+
+      - name: Install dependencies
+        run: |
+          uv pip install -r requirements/cpu-build.txt
+          uv pip install -r requirements/cpu.txt
+
+      - name: Build vLLM
+        run: uv pip install -v -e .
+        env:
+          CMAKE_BUILD_PARALLEL_LEVEL: 4
+
+      - name: Verify installation
+        run: |
+          python -c "import vllm; print(f'vLLM version: {vllm.__version__}')"
+          python -c "import torch; print(f'PyTorch: {torch.__version__}')"
+
+      - name: Smoke test vllm serve
+        timeout-minutes: 10
+        run: |
+          # Start server in background
+          vllm serve Qwen/Qwen3-0.6B \
+            --max-model-len=2048 \
+            --load-format=dummy \
+            --enforce-eager \
+            --port 8000 &
+
+          SERVER_PID=$!
+
+          # Wait for server to start
+          for i in {1..30}; do
+            if curl -s http://localhost:8000/health > /dev/null; then
+              echo "Server started successfully"
+              break
+            fi
+            if [ "$i" -eq 30 ]; then
+              echo "Server failed to start"
+              kill "$SERVER_PID"
+              exit 1
+            fi
+            sleep 2
+          done
+
+          # Test health endpoint
+          curl -f http://localhost:8000/health
+
+          # Test completion
+          curl -f http://localhost:8000/v1/completions \
+            -H "Content-Type: application/json" \
+            -d '{
+              "model": "Qwen/Qwen3-0.6B",
+              "prompt": "Hello",
+              "max_tokens": 5
+            }'
+
+          # Cleanup
+          kill "$SERVER_PID"

From 6f1e7f7226447f606a0731376a2d0bd080aa2767 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Nicol=C3=B2=20Lucchesi?= <nlucches@redhat.com>
Date: Fri, 14 Nov 2025 17:58:01 +0100
Subject: [PATCH 458/976] [DisaggEverything] Tokens in<>out `/generate`
 endpoint (#24261)

Signed-off-by: NickLucche <nlucches@redhat.com>
Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 .../online_serving/token_generation_client.py |  49 ++++
 requirements/docs.txt                         |   4 +
 .../entrypoints/openai/test_serving_tokens.py | 262 +++++++++++++++++
 vllm/engine/arg_utils.py                      |   5 +
 vllm/entrypoints/openai/api_server.py         |  81 ++++++
 vllm/entrypoints/openai/cli_args.py           |   5 +
 vllm/entrypoints/openai/protocol.py           |  77 +++++
 vllm/entrypoints/openai/serving_engine.py     |   4 +
 vllm/entrypoints/openai/serving_tokens.py     | 269 ++++++++++++++++++
 vllm/sampling_params.py                       |   2 +
 vllm/v1/engine/__init__.py                    |   8 +-
 vllm/v1/serial_utils.py                       |  65 ++++-
 12 files changed, 822 insertions(+), 9 deletions(-)
 create mode 100644 examples/online_serving/token_generation_client.py
 create mode 100644 tests/entrypoints/openai/test_serving_tokens.py
 create mode 100644 vllm/entrypoints/openai/serving_tokens.py

diff --git a/examples/online_serving/token_generation_client.py b/examples/online_serving/token_generation_client.py
new file mode 100644
index 0000000000000..88ee43c5d9cdf
--- /dev/null
+++ b/examples/online_serving/token_generation_client.py
@@ -0,0 +1,49 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import httpx
+from transformers import AutoTokenizer
+
+GEN_ENDPOINT = "http://localhost:8000/inference/v1/generate"
+DUMMY_API_KEY = "empty"
+MODEL_NAME = "Qwen/Qwen3-0.6B"
+
+transport = httpx.HTTPTransport()
+headers = {"Authorization": f"Bearer {DUMMY_API_KEY}"}
+client = httpx.Client(
+    transport=transport,
+    base_url=GEN_ENDPOINT,
+    timeout=600,
+    headers=headers,
+)
+messages = [
+    {"role": "system", "content": "You are a helpful assistant."},
+    {"role": "user", "content": "How many countries are in the EU?"},
+]
+
+
+def main(client):
+    tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
+    token_ids = tokenizer.apply_chat_template(
+        messages,
+        add_generation_prompt=True,
+        enable_thinking=False,
+    )
+    payload = {
+        "model": MODEL_NAME,
+        "token_ids": token_ids,
+        "sampling_params": {"max_tokens": 24, "temperature": 0.2, "detokenize": False},
+        "stream": False,
+    }
+    resp = client.post(GEN_ENDPOINT, json=payload)
+    resp.raise_for_status()
+    data = resp.json()
+    print(data)
+    print("-" * 50)
+    print("Token generation results:")
+    res = tokenizer.decode(data["choices"][0]["token_ids"])
+    print(res)
+    print("-" * 50)
+
+
+if __name__ == "__main__":
+    main(client)
diff --git a/requirements/docs.txt b/requirements/docs.txt
index 0fd6dbe22c512..32e004b2b64ba 100644
--- a/requirements/docs.txt
+++ b/requirements/docs.txt
@@ -10,3 +10,7 @@ mkdocs-minify-plugin
 regex
 ruff
 pydantic
+
+# For generating argparse docs.
+# Adding requirements here should only be used as a last resort.
+msgspec  # Need for multiple inheritance involving msgspec.Struct
\ No newline at end of file
diff --git a/tests/entrypoints/openai/test_serving_tokens.py b/tests/entrypoints/openai/test_serving_tokens.py
new file mode 100644
index 0000000000000..62d843e35b86f
--- /dev/null
+++ b/tests/entrypoints/openai/test_serving_tokens.py
@@ -0,0 +1,262 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import httpx
+import pytest
+import pytest_asyncio
+from transformers import AutoTokenizer
+
+from vllm.config import ModelConfig
+from vllm.v1.engine.detokenizer import check_stop_strings
+
+from ...utils import RemoteOpenAIServer
+
+MODEL_NAME = "Qwen/Qwen3-0.6B"
+GEN_ENDPOINT = "/inference/v1/generate"
+
+
+def get_vocab_size(model_name):
+    config = ModelConfig(
+        model=model_name,
+        seed=0,
+        dtype="bfloat16",
+    )
+    return config.get_vocab_size()
+
+
+@pytest.fixture(scope="module")
+def tokenizer():
+    return AutoTokenizer.from_pretrained(MODEL_NAME)
+
+
+@pytest.fixture(scope="module")
+def messages():
+    return [
+        {"role": "system", "content": "You are a helpful assistant."},
+        {"role": "user", "content": "How many countries are in the EU?"},
+    ]
+
+
+@pytest.fixture(scope="module")
+def server(request):
+    args = [
+        "--dtype",
+        "bfloat16",
+        "--max-model-len",
+        "1024",
+        "--enforce-eager",
+    ]
+
+    extra_args = getattr(request, "param", None)
+    if extra_args is not None:
+        args = args + (
+            list(extra_args)
+            if isinstance(extra_args, (list, tuple))
+            else [str(extra_args)]
+        )
+
+    with RemoteOpenAIServer(MODEL_NAME, args) as remote_server:
+        yield remote_server
+
+
+@pytest_asyncio.fixture
+async def client(server: RemoteOpenAIServer):
+    transport = httpx.AsyncHTTPTransport(uds=server.uds) if server.uds else None
+    headers = {"Authorization": f"Bearer {server.DUMMY_API_KEY}"}
+    async with httpx.AsyncClient(
+        transport=transport,
+        base_url=server.url_root,
+        timeout=600,
+        headers=headers,
+    ) as c:
+        yield c
+
+
+@pytest.mark.asyncio
+async def test_generate_endpoint(client):
+    payload = {
+        "model": MODEL_NAME,
+        "token_ids": [1, 2, 3],
+        "sampling_params": {"max_tokens": 5},
+        "stream": False,
+    }
+    resp = await client.post(GEN_ENDPOINT, json=payload)
+    resp.raise_for_status()
+    data = resp.json()
+    assert "choices" in data
+
+
+@pytest.mark.asyncio
+async def test_same_response_as_chat_completions(client, tokenizer, messages):
+    token_ids = tokenizer.apply_chat_template(
+        messages,
+        add_generation_prompt=True,
+        enable_thinking=False,  # default with Qwen3
+    )
+    for ignore_eos in [True, False]:
+        payload = {
+            "model": MODEL_NAME,
+            "token_ids": token_ids,
+            "sampling_params": {
+                "max_tokens": 24,
+                "temperature": 0.0,
+                # NOTE coordinator will set this to skip detokenization
+                "detokenize": False,
+                "ignore_eos": ignore_eos,
+            },
+            "stream": False,
+        }
+        generate_resp = await client.post(GEN_ENDPOINT, json=payload)
+        generate_data = generate_resp.json()
+        generate_res = tokenizer.decode(
+            generate_data["choices"][0]["token_ids"], skip_special_tokens=True
+        )
+
+        payload = {
+            "model": MODEL_NAME,
+            "messages": messages,
+            "max_tokens": 24,
+            "temperature": 0.0,
+            "stream": False,
+            "ignore_eos": ignore_eos,
+            "chat_template_kwargs": dict(enable_thinking=False),
+        }
+        completions_resp = await client.post("/v1/chat/completions", json=payload)
+        completions_data = completions_resp.json()
+        completions_res = completions_data["choices"][0]["message"]["content"]
+
+        assert generate_res == completions_res
+
+
+@pytest.mark.asyncio
+async def test_stop_string_workflow(client, tokenizer, messages):
+    token_ids = tokenizer.apply_chat_template(
+        messages,
+        add_generation_prompt=True,
+        enable_thinking=False,  # default with Qwen3
+    )
+    payload = {
+        "model": MODEL_NAME,
+        "token_ids": token_ids,
+        "sampling_params": {
+            "max_tokens": 24,
+            "temperature": 0.0,
+            "detokenize": False,
+            # stop strings are only supported when detokenize is True.
+            "stop": ["27 member"],
+        },
+        # TODO stream test is much more interesting
+        "stream": False,
+    }
+    with pytest.raises(httpx.HTTPStatusError):
+        generate_resp = await client.post(GEN_ENDPOINT, json=payload)
+        generate_resp.raise_for_status()
+
+    payload["sampling_params"]["stop"] = None
+    generate_resp = await client.post(
+        GEN_ENDPOINT, json=payload, headers={"X-Request-Id": "42"}
+    )
+    generate_data = generate_resp.json()
+    generate_res = tokenizer.decode(
+        generate_data["choices"][0]["token_ids"], skip_special_tokens=True
+    )
+
+    # NOTE This is under the responsibility of the coordinator
+    # stop_checker = StopChecker(
+    #     max_model_len=1024, get_tokenizer_for_seq=lambda _: tokenizer
+    # )
+    stop_str, truncate_to = check_stop_strings(
+        generate_res, len(generate_res), ["27 member"], False
+    )
+    assert stop_str == "27 member"
+    # abort request that hit stop string (requires tokens-only mode)
+    # res = await client.post("/abort_requests", json={"request_ids": ["generate-tokens-42"]}) # noqa: E501
+    # res.raise_for_status()
+    generate_res = generate_res[:truncate_to]
+
+    # Get stop_str response from chat completions
+    payload = {
+        "model": MODEL_NAME,
+        "messages": messages,
+        "max_tokens": 24,
+        "temperature": 0.0,
+        "stream": False,
+        "stop": ["27 member"],
+        "chat_template_kwargs": dict(enable_thinking=False),
+    }
+    completions_resp = await client.post("/v1/chat/completions", json=payload)
+    completions_data = completions_resp.json()
+    completions_res = completions_data["choices"][0]["message"]["content"]
+    assert generate_res == completions_res
+
+
+@pytest.mark.asyncio
+@pytest.mark.parametrize(
+    "server",
+    [
+        [
+            "--enable-lora",
+            "--lora-modules",
+            "Alice=charent/self_cognition_Alice",
+            "Bob=charent/self_cognition_Bob",
+            "--max-lora-rank",
+            "64",
+            "--max-cpu-loras",
+            "2",
+        ]
+    ],
+    indirect=True,
+)
+async def test_generate_with_lora_adapter(client, tokenizer, messages):
+    # Verify adapters are listed
+    models_resp = await client.get("/v1/models")
+    models_resp.raise_for_status()
+    models = {m["id"] for m in models_resp.json().get("data", [])}
+    assert {"Alice", "Bob"}.issubset(models)
+
+    # Generate using a LoRA adapter by specifying its name as the model
+    payload = {
+        "model": "Alice",
+        "token_ids": [1, 2, 3],
+        "sampling_params": {"max_tokens": 5},
+        "stream": False,
+    }
+    resp = await client.post(GEN_ENDPOINT, json=payload)
+    resp.raise_for_status()
+    data = resp.json()
+    assert "choices" in data
+
+    token_ids = tokenizer.apply_chat_template(
+        messages,
+        add_generation_prompt=True,
+        enable_thinking=False,  # default with Qwen3
+    )
+    payload = {
+        "model": "Alice",
+        "token_ids": token_ids,
+        "sampling_params": {
+            "max_tokens": 24,
+            "temperature": 0.0,
+            "detokenize": False,
+        },
+        "stream": False,
+    }
+    generate_resp = await client.post(GEN_ENDPOINT, json=payload)
+    generate_data = generate_resp.json()
+    generate_res = tokenizer.decode(
+        generate_data["choices"][0]["token_ids"], skip_special_tokens=True
+    )
+
+    payload = {
+        "model": "Alice",
+        "messages": messages,
+        "max_tokens": 24,
+        "temperature": 0.0,
+        "stream": False,
+        "chat_template_kwargs": dict(enable_thinking=False),
+    }
+    completions_resp = await client.post("/v1/chat/completions", json=payload)
+    completions_data = completions_resp.json()
+    completions_res = completions_data["choices"][0]["message"]["content"]
+
+    assert generate_res == completions_res
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index cacebc530b6ee..999ed780c20bf 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -566,6 +566,7 @@ class EngineArgs:
     kv_offloading_backend: KVOffloadingBackend | None = (
         CacheConfig.kv_offloading_backend
     )
+    tokens_only: bool = False
 
     def __post_init__(self):
         # support `EngineArgs(compilation_config={...})`
@@ -1495,6 +1496,10 @@ class EngineArgs:
             else ParallelConfig.data_parallel_rpc_port
         )
 
+        if self.tokens_only and not model_config.skip_tokenizer_init:
+            model_config.skip_tokenizer_init = True
+            logger.info("Skipping tokenizer initialization for tokens-only mode.")
+
         # Forward the deprecated CLI args to the EPLB config.
         if self.num_redundant_experts is not None:
             self.eplb_config.num_redundant_experts = self.num_redundant_experts
diff --git a/vllm/entrypoints/openai/api_server.py b/vllm/entrypoints/openai/api_server.py
index f30c6ef2cd0a4..3e59af717d95c 100644
--- a/vllm/entrypoints/openai/api_server.py
+++ b/vllm/entrypoints/openai/api_server.py
@@ -65,6 +65,8 @@ from vllm.entrypoints.openai.protocol import (
     EmbeddingResponse,
     ErrorInfo,
     ErrorResponse,
+    GenerateRequest,
+    GenerateResponse,
     IOProcessorResponse,
     PoolingBytesResponse,
     PoolingRequest,
@@ -96,6 +98,7 @@ from vllm.entrypoints.openai.serving_pooling import OpenAIServingPooling
 from vllm.entrypoints.openai.serving_responses import OpenAIServingResponses
 from vllm.entrypoints.openai.serving_score import ServingScores
 from vllm.entrypoints.openai.serving_tokenization import OpenAIServingTokenization
+from vllm.entrypoints.openai.serving_tokens import ServingTokens
 from vllm.entrypoints.openai.serving_transcription import (
     OpenAIServingTranscription,
     OpenAIServingTranslation,
@@ -357,6 +360,10 @@ def engine_client(request: Request) -> EngineClient:
     return request.app.state.engine_client
 
 
+def generate_tokens(request: Request) -> ServingTokens | None:
+    return request.app.state.serving_tokens
+
+
 @router.get("/health", response_class=Response)
 async def health(raw_request: Request) -> Response:
     """Health check."""
@@ -1228,6 +1235,41 @@ INVOCATION_VALIDATORS = [
 ]
 
 
+@router.post(
+    "/inference/v1/generate",
+    dependencies=[Depends(validate_json_request)],
+    responses={
+        HTTPStatus.OK.value: {"content": {"text/event-stream": {}}},
+        HTTPStatus.BAD_REQUEST.value: {"model": ErrorResponse},
+        HTTPStatus.NOT_FOUND.value: {"model": ErrorResponse},
+        HTTPStatus.INTERNAL_SERVER_ERROR.value: {"model": ErrorResponse},
+    },
+)
+@with_cancellation
+@load_aware_call
+async def generate(request: GenerateRequest, raw_request: Request):
+    handler = generate_tokens(raw_request)
+    if handler is None:
+        return base(raw_request).create_error_response(
+            message="The model does not support generate tokens API"
+        )
+    try:
+        generator = await handler.serve_tokens(request, raw_request)
+    except Exception as e:
+        raise HTTPException(
+            status_code=HTTPStatus.INTERNAL_SERVER_ERROR.value, detail=str(e)
+        ) from e
+    if isinstance(generator, ErrorResponse):
+        return JSONResponse(
+            content=generator.model_dump(), status_code=generator.error.code
+        )
+
+    elif isinstance(generator, GenerateResponse):
+        return JSONResponse(content=generator.model_dump())
+
+    return StreamingResponse(content=generator, media_type="text/event-stream")
+
+
 if envs.VLLM_TORCH_PROFILER_DIR:
     logger.warning_once(
         "Torch Profiler is enabled in the API server. This should ONLY be "
@@ -1629,6 +1671,31 @@ def build_app(args: Namespace) -> FastAPI:
             )
 
     app = sagemaker_standards.bootstrap(app)
+    # Optional endpoints
+    if args.tokens_only:
+
+        @app.post("/abort_requests")
+        async def abort_requests(raw_request: Request):
+            """
+            Abort one or more requests. To be used in a
+            Disaggregated Everything setup.
+            """
+            try:
+                body = await raw_request.json()
+            except json.JSONDecodeError as e:
+                raise HTTPException(
+                    status_code=HTTPStatus.BAD_REQUEST.value,
+                    detail=f"JSON decode error: {e}",
+                ) from e
+            request_ids = body.get("request_ids")
+            if request_ids is None:
+                raise HTTPException(
+                    status_code=HTTPStatus.BAD_REQUEST.value,
+                    detail="Missing 'request_ids' in request body",
+                )
+            # Abort requests in background
+            asyncio.create_task(engine_client(raw_request).abort(request_ids))
+            return Response(status_code=200)
 
     return app
 
@@ -1851,6 +1918,20 @@ async def init_app_state(
         if "generate" in supported_tasks
         else None
     )
+    state.serving_tokens = (
+        ServingTokens(
+            engine_client,
+            state.openai_serving_models,
+            request_logger=request_logger,
+            return_tokens_as_token_ids=args.return_tokens_as_token_ids,
+            log_error_stack=args.log_error_stack,
+            enable_prompt_tokens_details=args.enable_prompt_tokens_details,
+            enable_log_outputs=args.enable_log_outputs,
+            force_no_detokenize=args.tokens_only,
+        )
+        if "generate" in supported_tasks
+        else None
+    )
 
     state.enable_server_load_tracking = args.enable_server_load_tracking
     state.server_load_metrics = 0
diff --git a/vllm/entrypoints/openai/cli_args.py b/vllm/entrypoints/openai/cli_args.py
index 476587c178237..946362ce2ef0a 100644
--- a/vllm/entrypoints/openai/cli_args.py
+++ b/vllm/entrypoints/openai/cli_args.py
@@ -189,6 +189,11 @@ class FrontendArgs:
     Helps mitigate header abuse. Default: 256."""
     log_error_stack: bool = envs.VLLM_SERVER_DEV_MODE
     """If set to True, log the stack trace of error responses"""
+    tokens_only: bool = False
+    """
+    If set to True, only enable the Tokens In<>Out endpoint. 
+    This is intended for use in a Disaggregated Everything setup.
+    """
 
     @staticmethod
     def add_cli_args(parser: FlexibleArgumentParser) -> FlexibleArgumentParser:
diff --git a/vllm/entrypoints/openai/protocol.py b/vllm/entrypoints/openai/protocol.py
index 45584df8b9e26..65bd15ba387b9 100644
--- a/vllm/entrypoints/openai/protocol.py
+++ b/vllm/entrypoints/openai/protocol.py
@@ -3220,3 +3220,80 @@ class TranslationResponseVerbose(OpenAIBaseModel):
 
     words: list[TranslationWord] | None = None
     """Extracted words and their corresponding timestamps."""
+
+
+####### Tokens IN <> Tokens OUT #######
+class GenerateRequest(BaseModel):
+    request_id: str = Field(
+        default_factory=lambda: f"{random_uuid()}",
+        description=(
+            "The request_id related to this request. If the caller does "
+            "not set it, a random_uuid will be generated. This id is used "
+            "through out the inference process and return in response."
+        ),
+    )
+    token_ids: list[int]
+    """The token ids to generate text from."""
+
+    # features: MultiModalFeatureSpec
+    # TODO (NickLucche): implement once Renderer work is completed
+    features: str | None = None
+    """The processed MM inputs for the model."""
+
+    sampling_params: SamplingParams
+    """The sampling parameters for the model."""
+
+    model: str | None = None
+
+    stream: bool | None = False
+    stream_options: StreamOptions | None = None
+    cache_salt: str | None = Field(
+        default=None,
+        description=(
+            "If specified, the prefix cache will be salted with the provided "
+            "string to prevent an attacker to guess prompts in multi-user "
+            "environments. The salt should be random, protected from "
+            "access by 3rd parties, and long enough to be "
+            "unpredictable (e.g., 43 characters base64-encoded, corresponding "
+            "to 256 bit)."
+        ),
+    )
+    priority: int = Field(
+        default=0,
+        description=(
+            "The priority of the request (lower means earlier handling; "
+            "default: 0). Any priority other than 0 will raise an error "
+            "if the served model does not use priority scheduling."
+        ),
+    )
+    kv_transfer_params: dict[str, Any] | None = Field(
+        default=None,
+        description="KVTransfer parameters used for disaggregated serving.",
+    )
+
+
+class GenerateResponseChoice(BaseModel):
+    index: int
+    logprobs: ChatCompletionLogProbs | None = None
+    # per OpenAI spec this is the default
+    finish_reason: str | None = "stop"
+    token_ids: list[int] | None = None
+
+
+class GenerateResponse(BaseModel):
+    request_id: str = Field(
+        default_factory=lambda: f"{random_uuid()}",
+        description=(
+            "The request_id related to this request. If the caller does "
+            "not set it, a random_uuid will be generated. This id is used "
+            "through out the inference process and return in response."
+        ),
+    )
+    choices: list[GenerateResponseChoice]
+
+    prompt_logprobs: list[dict[int, Logprob] | None] | None = None
+
+    kv_transfer_params: dict[str, Any] | None = Field(
+        default=None,
+        description="KVTransfer parameters used for disaggregated serving.",
+    )
diff --git a/vllm/entrypoints/openai/serving_engine.py b/vllm/entrypoints/openai/serving_engine.py
index 03f10e5a91e64..c50b0c4a23e17 100644
--- a/vllm/entrypoints/openai/serving_engine.py
+++ b/vllm/entrypoints/openai/serving_engine.py
@@ -58,6 +58,8 @@ from vllm.entrypoints.openai.protocol import (
     ErrorResponse,
     FunctionCall,
     FunctionDefinition,
+    GenerateRequest,
+    GenerateResponse,
     IOProcessorRequest,
     PoolingResponse,
     RerankRequest,
@@ -134,6 +136,7 @@ AnyRequest: TypeAlias = (
     | SpeechToTextRequest
     | ResponsesRequest
     | IOProcessorRequest
+    | GenerateRequest
 )
 
 AnyResponse: TypeAlias = (
@@ -145,6 +148,7 @@ AnyResponse: TypeAlias = (
     | PoolingResponse
     | ClassificationResponse
     | ScoreResponse
+    | GenerateResponse
 )
 
 
diff --git a/vllm/entrypoints/openai/serving_tokens.py b/vllm/entrypoints/openai/serving_tokens.py
new file mode 100644
index 0000000000000..69a526b9b70d2
--- /dev/null
+++ b/vllm/entrypoints/openai/serving_tokens.py
@@ -0,0 +1,269 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import asyncio
+import time
+from collections.abc import AsyncGenerator
+from collections.abc import Sequence as GenericSequence
+
+from fastapi import Request
+
+# yapf: disable
+from vllm.engine.protocol import EngineClient
+from vllm.entrypoints.logger import RequestLogger
+from vllm.entrypoints.openai.protocol import (
+    ChatCompletionLogProb,
+    ChatCompletionLogProbs,
+    ChatCompletionLogProbsContent,
+    ErrorResponse,
+    GenerateRequest,
+    GenerateResponse,
+    GenerateResponseChoice,
+    PromptTokenUsageInfo,
+    RequestResponseMetadata,
+    UsageInfo,
+)
+from vllm.entrypoints.openai.serving_engine import OpenAIServing, clamp_prompt_logprobs
+from vllm.entrypoints.openai.serving_models import OpenAIServingModels
+from vllm.inputs.data import TokensPrompt as EngineTokensPrompt
+from vllm.logger import init_logger
+from vllm.logprobs import Logprob
+from vllm.outputs import RequestOutput
+from vllm.sampling_params import SamplingParams
+from vllm.utils.collection_utils import as_list
+
+logger = init_logger(__name__)
+
+
+class ServingTokens(OpenAIServing):
+    """Provides Tokens IN <> Tokens OUT functionality to vLLM API."""
+
+    def __init__(
+        self,
+        engine_client: EngineClient,
+        models: OpenAIServingModels,
+        *,
+        request_logger: RequestLogger | None,
+        force_no_detokenize: bool = False,
+        return_tokens_as_token_ids: bool = False,
+        log_error_stack: bool = False,
+        enable_prompt_tokens_details: bool = False,
+        enable_log_outputs: bool = False,
+    ):
+        super().__init__(engine_client=engine_client,
+                         models=models,
+                         request_logger=request_logger,
+                         return_tokens_as_token_ids=return_tokens_as_token_ids,
+                         log_error_stack=log_error_stack)
+        self.enable_prompt_tokens_details = enable_prompt_tokens_details
+        self.enable_log_outputs = enable_log_outputs
+        self.force_no_detokenize = force_no_detokenize
+        if force_no_detokenize:
+            logger.info("Tokens-only mode is enabled, skipping detokenization "
+            "step for incoming requests.")
+
+    async def serve_tokens(
+        self,
+        request: GenerateRequest,
+        raw_request: Request | None = None
+    ) -> GenerateResponse | ErrorResponse:
+        error_check_ret = await self._check_model(request)
+        if error_check_ret is not None:
+            logger.error("Error with model %s", error_check_ret)
+            return error_check_ret
+
+        # If the engine is dead, raise the engine's DEAD_ERROR.
+        # This is required for the streaming case, where we return a
+        # success status before we actually start generating text :).
+        if self.engine_client.errored:
+            raise self.engine_client.dead_error
+
+        lora_request = None
+        lora_request = self._maybe_get_adapters(request,
+            supports_default_mm_loras=True)
+
+        model_name = self.models.model_name(lora_request)
+
+        request_id = "generate-tokens-" \
+                     f"{self._base_request_id(raw_request, request.request_id)}"
+
+        request_metadata = RequestResponseMetadata(request_id=request_id)
+        if raw_request:
+            raw_request.state.request_metadata = request_metadata
+
+        # TODO(NickLucche): Change to EngineCoreRequest once Renderer work is
+        # completed
+        engine_prompt = EngineTokensPrompt(prompt_token_ids=request.token_ids)
+        if request.features is not None:
+            engine_prompt["multi_modal_data"] = None
+
+        if hasattr(request, "cache_salt") and request.cache_salt is not None:
+            engine_prompt["cache_salt"] = request.cache_salt
+
+        # Schedule the request and get the result generator.
+        result_generator: AsyncGenerator[RequestOutput, None] | None = None
+        try:
+            sampling_params = request.sampling_params
+            if self.force_no_detokenize:
+                sampling_params.detokenize = False
+
+            self._log_inputs(request_id,
+                             request.token_ids,
+                             params=sampling_params,
+                             lora_request=lora_request)
+
+            trace_headers = (None if raw_request is None else await
+                             self._get_trace_headers(raw_request.headers))
+
+            result_generator = self.engine_client.generate(
+                engine_prompt,
+                sampling_params,
+                request_id,
+                lora_request=lora_request,
+                trace_headers=trace_headers,
+                priority=request.priority,
+            )
+
+        except ValueError as e:
+            return self.create_error_response(str(e))
+
+        # TODO(NickLucche): Implement streaming response
+
+        try:
+            assert result_generator is not None
+            return await self.serve_tokens_full_generator(
+                request, result_generator, request_id, model_name,
+                request_metadata)
+        except ValueError as e:
+            return self.create_error_response(str(e))
+
+    async def serve_tokens_full_generator(
+        self,
+        request: GenerateRequest,
+        result_generator: AsyncGenerator[RequestOutput, None],
+        request_id: str,
+        model_name: str,
+        request_metadata: RequestResponseMetadata,
+    ) -> ErrorResponse | GenerateResponse:
+
+        created_time = int(time.time())
+        final_res: RequestOutput | None = None
+        sampling_params: SamplingParams = request.sampling_params
+
+        try:
+            async for res in result_generator:
+                final_res = res
+        except asyncio.CancelledError:
+            return self.create_error_response("Client disconnected")
+        except ValueError as e:
+            return self.create_error_response(str(e))
+
+        assert final_res is not None
+
+        choices: list[GenerateResponseChoice] = []
+        num_generated_tokens = 0
+        for output in final_res.outputs:
+            token_ids = output.token_ids
+            out_logprobs = output.logprobs
+
+            # This is top_logprobs in completions API
+            if sampling_params.logprobs:
+                assert out_logprobs is not None, "Did not output logprobs"
+                logprobs = self._create_tokens_logprobs(
+                    token_ids=token_ids,
+                    top_logprobs=out_logprobs,
+                    num_output_top_logprobs=sampling_params.logprobs,
+                )
+            else:
+                logprobs = None
+
+            choice_data = GenerateResponseChoice(
+                index=output.index,
+                logprobs=logprobs,
+                finish_reason=output.finish_reason
+                if output.finish_reason else "stop",
+                token_ids=as_list(output.token_ids))
+
+            choices.append(choice_data)
+            num_generated_tokens += len(output.token_ids)
+
+        assert final_res.prompt_token_ids is not None
+        num_prompt_tokens = len(final_res.prompt_token_ids)
+        if final_res.encoder_prompt_token_ids is not None:
+            num_prompt_tokens += len(final_res.encoder_prompt_token_ids)
+
+        usage = UsageInfo(prompt_tokens=num_prompt_tokens,
+                          completion_tokens=num_generated_tokens,
+                          total_tokens=num_prompt_tokens +
+                          num_generated_tokens)
+        if self.enable_prompt_tokens_details and final_res.num_cached_tokens:
+            # This info is not available at the /coordinator level
+            usage.prompt_tokens_details = PromptTokenUsageInfo(
+                cached_tokens=final_res.num_cached_tokens)
+
+        request_metadata.final_usage_info = usage
+
+        response = GenerateResponse(
+            id=request_id,
+            created=created_time,
+            model=model_name,
+            choices=choices,
+            usage=usage,
+            prompt_logprobs=clamp_prompt_logprobs(final_res.prompt_logprobs),
+            kv_transfer_params=final_res.kv_transfer_params,
+        )
+
+        # Log complete response if output logging is enabled
+        if self.enable_log_outputs and self.request_logger:
+            for choice in choices:
+                # Get the corresponding output token IDs
+                output_token_ids = None
+                if choice.index < len(final_res.outputs):
+                    output_token_ids = final_res.outputs[
+                        choice.index].token_ids
+
+                if output_token_ids:
+                    # Log token_ids only.
+                    self.request_logger.log_outputs(
+                        request_id=request_id,
+                        outputs="", 
+                        output_token_ids=output_token_ids,
+                        finish_reason=choice.finish_reason,
+                        is_streaming=False,
+                        delta=False,
+                    )
+
+        return response
+
+    def _create_tokens_logprobs(
+        self,
+        token_ids: GenericSequence[int],
+        top_logprobs: GenericSequence[dict[int, Logprob] | None],
+        num_output_top_logprobs: int | None = None,
+    ) -> ChatCompletionLogProbs:
+        """Create OpenAI-style logprobs."""
+        logprobs_content: list[ChatCompletionLogProbsContent] = []
+
+        for i, token_id in enumerate(token_ids):
+            token = f"token_id:{token_id}"
+            step_top_logprobs = top_logprobs[i]
+            if step_top_logprobs is None or step_top_logprobs.get(
+                    token_id) is None:
+                logprobs_content.append(
+                    ChatCompletionLogProbsContent(token=token, ))
+            else:
+                step_token = step_top_logprobs[token_id]
+
+                logprobs_content.append(
+                    ChatCompletionLogProbsContent(
+                        token=token,
+                        logprob=max(step_token.logprob, -9999.0),
+                        top_logprobs=[
+                            ChatCompletionLogProb(
+                                token=token,
+                                logprob=max(p[1].logprob, -9999.0),
+                            ) for i, p in enumerate(step_top_logprobs.items())
+                            if num_output_top_logprobs
+                            and i < num_output_top_logprobs
+                        ]))
+
+        return ChatCompletionLogProbs(content=logprobs_content)
diff --git a/vllm/sampling_params.py b/vllm/sampling_params.py
index 4b2a3bc4dbaa6..dd820840410ed 100644
--- a/vllm/sampling_params.py
+++ b/vllm/sampling_params.py
@@ -15,6 +15,7 @@ from pydantic.dataclasses import dataclass
 from vllm.logger import init_logger
 from vllm.logits_process import LogitsProcessor
 from vllm.transformers_utils.tokenizer import AnyTokenizer
+from vllm.v1.serial_utils import PydanticMsgspecMixin
 
 logger = init_logger(__name__)
 
@@ -122,6 +123,7 @@ class RequestOutputKind(Enum):
 
 
 class SamplingParams(
+    PydanticMsgspecMixin,
     msgspec.Struct,
     omit_defaults=True,  # type: ignore[call-arg]
     # required for @cached_property.
diff --git a/vllm/v1/engine/__init__.py b/vllm/v1/engine/__init__.py
index 058a4bcaecb58..3f621d77c0241 100644
--- a/vllm/v1/engine/__init__.py
+++ b/vllm/v1/engine/__init__.py
@@ -15,6 +15,7 @@ from vllm.pooling_params import PoolingParams
 from vllm.sampling_params import SamplingParams
 from vllm.v1.metrics.stats import SchedulerStats
 from vllm.v1.outputs import LogprobsLists, LogprobsTensors
+from vllm.v1.serial_utils import UtilityResult
 
 # These are possible values of RequestOutput.finish_reason,
 # so form part of the external API.
@@ -131,13 +132,6 @@ class EngineCoreOutput(
         return self.finish_reason is not None
 
 
-class UtilityResult:
-    """Wrapper for special handling when serializing/deserializing."""
-
-    def __init__(self, r: Any = None):
-        self.result = r
-
-
 class UtilityOutput(
     msgspec.Struct,
     array_like=True,  # type: ignore[call-arg]
diff --git a/vllm/v1/serial_utils.py b/vllm/v1/serial_utils.py
index cf0b1a41b50f8..0a6806390451d 100644
--- a/vllm/v1/serial_utils.py
+++ b/vllm/v1/serial_utils.py
@@ -8,7 +8,7 @@ from collections.abc import Callable, Sequence
 from functools import partial
 from inspect import isclass
 from types import FunctionType
-from typing import Any, TypeAlias
+from typing import Any, TypeAlias, get_type_hints
 
 import cloudpickle
 import msgspec
@@ -16,6 +16,8 @@ import numpy as np
 import torch
 import zmq
 from msgspec import msgpack
+from pydantic import GetCoreSchemaHandler
+from pydantic_core import core_schema
 
 from vllm import envs
 from vllm.logger import init_logger
@@ -32,7 +34,6 @@ from vllm.multimodal.inputs import (
     NestedTensors,
 )
 from vllm.utils.platform_utils import is_pin_memory_available
-from vllm.v1.engine import UtilityResult
 from vllm.v1.utils import tensor_data
 
 logger = init_logger(__name__)
@@ -104,6 +105,13 @@ def _decode_type_info_recursive(
     return convert_fn(type_info, data)
 
 
+class UtilityResult:
+    """Wrapper for special handling when serializing/deserializing."""
+
+    def __init__(self, r: Any = None):
+        self.result = r
+
+
 class MsgpackEncoder:
     """Encoder with custom torch tensor and numpy array serialization.
 
@@ -469,3 +477,56 @@ def run_method(
     else:
         func = partial(method, obj)  # type: ignore
     return func(*args, **kwargs)
+
+
+class PydanticMsgspecMixin:
+    @classmethod
+    def __get_pydantic_core_schema__(
+        cls, source_type: Any, handler: GetCoreSchemaHandler
+    ) -> core_schema.CoreSchema:
+        """
+        Make msgspec.Struct compatible with Pydantic, respecting defaults.
+        Handle JSON=>msgspec.Struct. Used when exposing msgspec.Struct to the
+        API as input or in `/docs`. Note this is cached by Pydantic and not
+        called on every validation.
+        """
+        msgspec_fields = {f.name: f for f in msgspec.structs.fields(source_type)}
+        type_hints = get_type_hints(source_type)
+
+        # Build the Pydantic typed_dict_field for each msgspec field
+        fields = {}
+        for name, hint in type_hints.items():
+            msgspec_field = msgspec_fields[name]
+
+            # typed_dict_field using the handler to get the schema
+            field_schema = handler(hint)
+
+            # Add default value to the schema.
+            if msgspec_field.default_factory is not msgspec.NODEFAULT:
+                wrapped_schema = core_schema.with_default_schema(
+                    schema=field_schema,
+                    default_factory=msgspec_field.default_factory,
+                )
+                fields[name] = core_schema.typed_dict_field(wrapped_schema)
+            elif msgspec_field.default is not msgspec.NODEFAULT:
+                wrapped_schema = core_schema.with_default_schema(
+                    schema=field_schema,
+                    default=msgspec_field.default,
+                )
+                fields[name] = core_schema.typed_dict_field(wrapped_schema)
+            else:
+                # No default, so Pydantic will treat it as required
+                fields[name] = core_schema.typed_dict_field(field_schema)
+        return core_schema.no_info_after_validator_function(
+            cls._validate_msgspec,
+            core_schema.typed_dict_schema(fields),
+        )
+
+    @classmethod
+    def _validate_msgspec(cls, value: Any) -> Any:
+        """Validate and convert input to msgspec.Struct instance."""
+        if isinstance(value, cls):
+            return value
+        if isinstance(value, dict):
+            return cls(**value)
+        return msgspec.convert(value, type=cls)

From 8cc40f89926f0f49d320c4ef078c70cf535c589e Mon Sep 17 00:00:00 2001
From: Matthew Bonanni <mbonanni@redhat.com>
Date: Fri, 14 Nov 2025 12:13:37 -0500
Subject: [PATCH 459/976] [Attention] Bump FA for removed method (#28429)

Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>
Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>
---
 cmake/external_projects/vllm_flash_attn.cmake | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/cmake/external_projects/vllm_flash_attn.cmake b/cmake/external_projects/vllm_flash_attn.cmake
index 29db9fa273a41..567c8959f0454 100644
--- a/cmake/external_projects/vllm_flash_attn.cmake
+++ b/cmake/external_projects/vllm_flash_attn.cmake
@@ -38,7 +38,7 @@ else()
   FetchContent_Declare(
           vllm-flash-attn
           GIT_REPOSITORY https://github.com/vllm-project/flash-attention.git
-          GIT_TAG 8e1b01d56210dc72030a2d0d41c2d8d266ba6309
+          GIT_TAG 58e0626a692f09241182582659e3bf8f16472659
           GIT_PROGRESS TRUE
           # Don't share the vllm-flash-attn build between build types
           BINARY_DIR ${CMAKE_BINARY_DIR}/vllm-flash-attn

From a17e36f2236a15012c8ddfedbf076a526de4b17b Mon Sep 17 00:00:00 2001
From: Mohammad Othman <48595863+OthmanMohammad@users.noreply.github.com>
Date: Fri, 14 Nov 2025 19:35:45 +0200
Subject: [PATCH 460/976] Fix typo in comment: existance -> existence (#28737)

Signed-off-by: Mohammad Othman <emranm226@hotmail.com>
---
 vllm/_aiter_ops.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/_aiter_ops.py b/vllm/_aiter_ops.py
index 5508e59bcd2f5..7c35bf1857bae 100644
--- a/vllm/_aiter_ops.py
+++ b/vllm/_aiter_ops.py
@@ -30,7 +30,7 @@ def if_aiter_supported(func: Callable) -> Callable:
 
     @functools.wraps(func)
     def wrapper(*args, **kwargs):
-        # checks the platform, device arch and aiter library existance.
+        # checks the platform, device arch and aiter library existence.
 
         if current_platform.is_rocm() and IS_AITER_FOUND:
             from vllm.platforms.rocm import on_gfx9

From 085424808ef705efbf59e7b18bc010f53d9d7f75 Mon Sep 17 00:00:00 2001
From: Julien Denize <40604584+juliendenize@users.noreply.github.com>
Date: Fri, 14 Nov 2025 18:54:38 +0100
Subject: [PATCH 461/976] Remove audio optional dependency for mistral-common
 (#28722)

Signed-off-by: Julien Denize <julien.denize@mistral.ai>
Signed-off-by: Julien Denize <40604584+juliendenize@users.noreply.github.com>
Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com>
Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>
---
 docs/contributing/model/transcription.md     | 2 +-
 docs/models/supported_models.md              | 3 +++
 examples/offline_inference/audio_language.py | 1 +
 requirements/common.txt                      | 2 +-
 4 files changed, 6 insertions(+), 2 deletions(-)

diff --git a/docs/contributing/model/transcription.md b/docs/contributing/model/transcription.md
index a590ecd6a1a23..fca941acd5076 100644
--- a/docs/contributing/model/transcription.md
+++ b/docs/contributing/model/transcription.md
@@ -249,7 +249,7 @@ No extra registration is required beyond having your model class available via t
 ## Examples in-tree
 
 - Whisper encoder–decoder (audio-only): [vllm/model_executor/models/whisper.py](../../../vllm/model_executor/models/whisper.py)
-- Voxtral decoder-only (audio embeddings + LLM): [vllm/model_executor/models/voxtral.py](../../../vllm/model_executor/models/voxtral.py)
+- Voxtral decoder-only (audio embeddings + LLM): [vllm/model_executor/models/voxtral.py](../../../vllm/model_executor/models/voxtral.py). Make sure to have installed `mistral-common[audio]`.
 - Gemma3n decoder-only with fixed instruction prompt: [vllm/model_executor/models/gemma3n_mm.py](../../../vllm/model_executor/models/gemma3n_mm.py)
 
 ## Test with the API
diff --git a/docs/models/supported_models.md b/docs/models/supported_models.md
index 0439e9cf23644..9cdf644c3cc52 100644
--- a/docs/models/supported_models.md
+++ b/docs/models/supported_models.md
@@ -785,6 +785,9 @@ Speech2Text models trained specifically for Automatic Speech Recognition.
 | `Gemma3nForConditionalGeneration` | Gemma3n | `google/gemma-3n-E2B-it`, `google/gemma-3n-E4B-it`, etc. | | |
 | `GraniteSpeechForConditionalGeneration` | Granite Speech | `ibm-granite/granite-speech-3.3-2b`, `ibm-granite/granite-speech-3.3-8b`, etc. | ✅︎ | ✅︎ |
 
+!!! note
+    `VoxtralForConditionalGeneration` requires `mistral-common[audio]` to be installed.
+
 ### Pooling Models
 
 See [this page](./pooling_models.md) for more information on how to use pooling models.
diff --git a/examples/offline_inference/audio_language.py b/examples/offline_inference/audio_language.py
index 53d69bbdbdc7d..04e6f99f8957e 100644
--- a/examples/offline_inference/audio_language.py
+++ b/examples/offline_inference/audio_language.py
@@ -43,6 +43,7 @@ class ModelRequestData(NamedTuple):
 
 
 # Voxtral
+# Make sure to install mistral-common[audio].
 def run_voxtral(question: str, audio_count: int) -> ModelRequestData:
     from mistral_common.audio import Audio
     from mistral_common.protocol.instruct.chunk import (
diff --git a/requirements/common.txt b/requirements/common.txt
index 90efb79a845d3..ad92ba3ad8278 100644
--- a/requirements/common.txt
+++ b/requirements/common.txt
@@ -31,7 +31,7 @@ partial-json-parser # used for parsing partial JSON outputs
 pyzmq >= 25.0.0
 msgspec
 gguf >= 0.13.0
-mistral_common[image,audio] >= 1.8.5
+mistral_common[image] >= 1.8.5
 opencv-python-headless >= 4.11.0    # required for video IO
 pyyaml
 six>=1.16.0; python_version > '3.11' # transitive dependency of pandas that needs to be the latest version for python 3.12

From cdd7025961cf79480f885804c21e7d60866fb33f Mon Sep 17 00:00:00 2001
From: czhu-cohere <conway.zhu@cohere.com>
Date: Fri, 14 Nov 2025 12:59:11 -0500
Subject: [PATCH 462/976] [kernel] Improve FP8 PTPC on Hopper for larger shapes
 (#28692)

Signed-off-by: czhu-cohere <conway.zhu@cohere.com>
---
 .../c3x/scaled_mm_sm90_fp8_dispatch.cuh       | 27 +++++++++++++++++++
 1 file changed, 27 insertions(+)

diff --git a/csrc/quantization/w8a8/cutlass/c3x/scaled_mm_sm90_fp8_dispatch.cuh b/csrc/quantization/w8a8/cutlass/c3x/scaled_mm_sm90_fp8_dispatch.cuh
index 4ff3e65f2b2e1..b8433214be1ba 100644
--- a/csrc/quantization/w8a8/cutlass/c3x/scaled_mm_sm90_fp8_dispatch.cuh
+++ b/csrc/quantization/w8a8/cutlass/c3x/scaled_mm_sm90_fp8_dispatch.cuh
@@ -116,6 +116,26 @@ struct sm90_fp8_config_default {
                                ClusterShape, KernelSchedule, EpilogueSchedule>>;
 };
 
+template <typename InType, typename OutType, bool EnableBias>
+struct sm90_fp8_config_M8192_K6144 {
+  // M >= 8192, K >= 6144
+  static_assert(std::is_same<InType, cutlass::float_e4m3_t>());
+  using KernelSchedule =
+      cutlass::gemm::KernelTmaWarpSpecializedCooperativeFP8FastAccum;
+  using EpilogueSchedule =
+      typename cutlass::epilogue::TmaWarpSpecializedCooperative;
+  using TileShape = Shape<_256, _128, _128>;
+  using ClusterShape = Shape<_2, _1, _1>;
+
+  using Cutlass3xGemm = conditional_t<
+      EnableBias,
+      cutlass_3x_gemm_sm90_fp8<InType, OutType, c3x::ScaledEpilogueBias,
+                               TileShape, ClusterShape, KernelSchedule,
+                               EpilogueSchedule>,
+      cutlass_3x_gemm_sm90_fp8<InType, OutType, c3x::ScaledEpilogue, TileShape,
+                               ClusterShape, KernelSchedule, EpilogueSchedule>>;
+};
+
 template <typename InType, typename OutType, bool EnableBias>
 struct sm90_fp8_config_M128 {
   // M in (64, 128]
@@ -273,6 +293,9 @@ inline void cutlass_gemm_sm90_fp8_dispatch(torch::Tensor& out,
   using Cutlass3xGemmDefault =
       typename sm90_fp8_config_default<InType, OutType,
                                        EnableBias>::Cutlass3xGemm;
+  using Cutlass3xGemmM8192_K6144 =
+      typename sm90_fp8_config_M8192_K6144<InType, OutType,
+                                           EnableBias>::Cutlass3xGemm;
   using Cutlass3xGemmM128 =
       typename sm90_fp8_config_M128<InType, OutType, EnableBias>::Cutlass3xGemm;
 
@@ -291,6 +314,7 @@ inline void cutlass_gemm_sm90_fp8_dispatch(torch::Tensor& out,
 
   uint32_t const m = a.size(0);
   uint32_t const n = b.size(1);
+  uint32_t const k = a.size(1);
 
   if (m <= 16) {
     // m in [1, 16]
@@ -312,6 +336,9 @@ inline void cutlass_gemm_sm90_fp8_dispatch(torch::Tensor& out,
     // m in (64, 128]
     return cutlass_gemm_caller_sm90_fp8<Cutlass3xGemmM128>(
         out, a, b, a_scales, b_scales, std::forward<EpilogueArgs>(args)...);
+  } else if (m >= 8192 && k >= 6144) {
+    return cutlass_gemm_caller_sm90_fp8<Cutlass3xGemmM8192_K6144>(
+        out, a, b, a_scales, b_scales, std::forward<EpilogueArgs>(args)...);
   } else {
     // m in (128, inf)
     return cutlass_gemm_caller_sm90_fp8<Cutlass3xGemmDefault>(

From 9261eb3dc19e985806a47ab2eb03035557f29c1f Mon Sep 17 00:00:00 2001
From: Chen Wang <Chen.Wang1@ibm.com>
Date: Fri, 14 Nov 2025 13:08:30 -0500
Subject: [PATCH 463/976] docs(lora_resolvers): clarify multi-resolver order
 and storage path requirement (#28153)

Signed-off-by: Chen Wang <Chen.Wang1@ibm.com>
Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 .markdownlint.yaml                    |   2 +
 docs/.nav.yml                         |   5 +-
 docs/design/lora_resolver_plugins.md  | 220 ++++++++++++++++++++++++++
 vllm/plugins/lora_resolvers/README.md |  16 --
 4 files changed, 226 insertions(+), 17 deletions(-)
 create mode 100644 docs/design/lora_resolver_plugins.md
 delete mode 100644 vllm/plugins/lora_resolvers/README.md

diff --git a/.markdownlint.yaml b/.markdownlint.yaml
index cd9df57cd9803..d0d3179766efb 100644
--- a/.markdownlint.yaml
+++ b/.markdownlint.yaml
@@ -3,6 +3,8 @@ MD007:
 MD013: false
 MD024:
   siblings_only: true
+MD031:
+  list_items: false
 MD033: false
 MD045: false
 MD046: false
diff --git a/docs/.nav.yml b/docs/.nav.yml
index c103ed476d76d..3151ea0e2ec22 100644
--- a/docs/.nav.yml
+++ b/docs/.nav.yml
@@ -46,7 +46,10 @@ nav:
       - contributing/model/multimodal.md
       - contributing/model/transcription.md
     - CI: contributing/ci
-    - Design Documents: design
+    - Design Documents:
+      - Plugins:
+        - design/*plugin*.md
+      - design/*
   - API Reference:
     - api/README.md
     - api/vllm
diff --git a/docs/design/lora_resolver_plugins.md b/docs/design/lora_resolver_plugins.md
new file mode 100644
index 0000000000000..bd0dc6dc9c7bb
--- /dev/null
+++ b/docs/design/lora_resolver_plugins.md
@@ -0,0 +1,220 @@
+# LoRA Resolver Plugins
+
+This directory contains vLLM's LoRA resolver plugins built on the `LoRAResolver` framework.
+They automatically discover and load LoRA adapters from a specified local storage path, eliminating the need for manual configuration or server restarts.
+
+## Overview
+
+LoRA Resolver Plugins provide a flexible way to dynamically load LoRA adapters at runtime. When vLLM
+receives a request for a LoRA adapter that hasn't been loaded yet, the resolver plugins will attempt
+to locate and load the adapter from their configured storage locations. This enables:
+
+- **Dynamic LoRA Loading**: Load adapters on-demand without server restarts
+- **Multiple Storage Backends**: Support for filesystem, S3, and custom backends. The built-in `lora_filesystem_resolver` requires a local storage path, but custom resolvers can be implemented to fetch from any source.
+- **Automatic Discovery**: Seamless integration with existing LoRA workflows
+- **Scalable Deployment**: Centralized adapter management across multiple vLLM instances
+
+## Prerequisites
+
+Before using LoRA Resolver Plugins, ensure the following environment variables are configured:
+
+### Required Environment Variables
+
+1. **`VLLM_ALLOW_RUNTIME_LORA_UPDATING`**: Must be set to `true` or `1` to enable dynamic LoRA loading
+   ```bash
+   export VLLM_ALLOW_RUNTIME_LORA_UPDATING=true
+   ```
+
+2. **`VLLM_PLUGINS`**: Must include the desired resolver plugins (comma-separated list)
+   ```bash
+   export VLLM_PLUGINS=lora_filesystem_resolver
+   ```
+
+3. **`VLLM_LORA_RESOLVER_CACHE_DIR`**: Must be set to a valid directory path for filesystem resolver
+   ```bash
+   export VLLM_LORA_RESOLVER_CACHE_DIR=/path/to/lora/adapters
+   ```
+
+### Optional Environment Variables
+
+- **`VLLM_PLUGINS`**: If not set, all available plugins will be loaded. If set to empty string, no plugins will be loaded.
+
+## Available Resolvers
+
+### lora_filesystem_resolver
+
+The filesystem resolver is installed with vLLM by default and enables loading LoRA adapters from a local directory structure.
+
+#### Setup Steps
+
+1. **Create the LoRA adapter storage directory**:
+   ```bash
+   mkdir -p /path/to/lora/adapters
+   ```
+
+2. **Set environment variables**:
+   ```bash
+   export VLLM_ALLOW_RUNTIME_LORA_UPDATING=true
+   export VLLM_PLUGINS=lora_filesystem_resolver
+   export VLLM_LORA_RESOLVER_CACHE_DIR=/path/to/lora/adapters
+   ```
+
+3. **Start vLLM server**:
+   Your base model can be `meta-llama/Llama-2-7b-hf`. Please make sure you set up the Hugging Face token in your env var `export HF_TOKEN=xxx235`.
+   ```bash
+   python -m vllm.entrypoints.openai.api_server \
+       --model your-base-model \
+       --enable-lora
+   ```
+
+#### Directory Structure Requirements
+
+The filesystem resolver expects LoRA adapters to be organized in the following structure:
+
+```text
+/path/to/lora/adapters/
+├── adapter1/
+│   ├── adapter_config.json
+│   ├── adapter_model.bin
+│   └── tokenizer files (if applicable)
+├── adapter2/
+│   ├── adapter_config.json
+│   ├── adapter_model.bin
+│   └── tokenizer files (if applicable)
+└── ...
+```
+
+Each adapter directory must contain:
+
+- **`adapter_config.json`**: Required configuration file with the following structure:
+  ```json
+  {
+    "peft_type": "LORA",
+    "base_model_name_or_path": "your-base-model-name",
+    "r": 16,
+    "lora_alpha": 32,
+    "target_modules": ["q_proj", "v_proj"],
+    "bias": "none",
+    "modules_to_save": null,
+    "use_rslora": false,
+    "use_dora": false
+  }
+  ```
+
+- **`adapter_model.bin`**: The LoRA adapter weights file
+
+#### Usage Example
+
+1. **Prepare your LoRA adapter**:
+   ```bash
+   # Assuming you have a LoRA adapter in /tmp/my_lora_adapter
+   cp -r /tmp/my_lora_adapter /path/to/lora/adapters/my_sql_adapter
+   ```
+
+2. **Verify the directory structure**:
+   ```bash
+   ls -la /path/to/lora/adapters/my_sql_adapter/
+   # Should show: adapter_config.json, adapter_model.bin, etc.
+   ```
+
+3. **Make a request using the adapter**:
+   ```bash
+   curl http://localhost:8000/v1/completions \
+       -H "Content-Type: application/json" \
+       -d '{
+           "model": "my_sql_adapter",
+           "prompt": "Generate a SQL query for:",
+           "max_tokens": 50,
+           "temperature": 0.1
+       }'
+   ```
+
+#### How It Works
+
+1. When vLLM receives a request for a LoRA adapter named `my_sql_adapter`
+2. The filesystem resolver checks if `/path/to/lora/adapters/my_sql_adapter/` exists
+3. If found, it validates the `adapter_config.json` file
+4. If the configuration matches the base model and is valid, the adapter is loaded
+5. The request is processed normally with the newly loaded adapter
+6. The adapter remains available for future requests
+
+## Advanced Configuration
+
+### Multiple Resolvers
+
+You can configure multiple resolver plugins to load adapters from different sources:
+
+'lora_s3_resolver' is an example of a custom resolver you would need to implement
+
+```bash
+export VLLM_PLUGINS=lora_filesystem_resolver,lora_s3_resolver
+```
+
+All listed resolvers are enabled; at request time, vLLM tries them in order until one succeeds.
+
+### Custom Resolver Implementation
+
+To implement your own resolver plugin:
+
+1. **Create a new resolver class**:
+   ```python
+   from vllm.lora.resolver import LoRAResolver, LoRAResolverRegistry
+   from vllm.lora.request import LoRARequest
+   
+   class CustomResolver(LoRAResolver):
+       async def resolve_lora(self, base_model_name: str, lora_name: str) -> Optional[LoRARequest]:
+           # Your custom resolution logic here
+           pass
+   ```
+
+2. **Register the resolver**:
+   ```python
+   def register_custom_resolver():
+       resolver = CustomResolver()
+       LoRAResolverRegistry.register_resolver("Custom Resolver", resolver)
+   ```
+
+## Troubleshooting
+
+### Common Issues
+
+1. **"VLLM_LORA_RESOLVER_CACHE_DIR must be set to a valid directory"**
+   - Ensure the directory exists and is accessible
+   - Check file permissions on the directory
+
+2. **"LoRA adapter not found"**
+   - Verify the adapter directory name matches the requested model name
+   - Check that `adapter_config.json` exists and is valid JSON
+   - Ensure `adapter_model.bin` exists in the directory
+
+3. **"Invalid adapter configuration"**
+   - Verify `peft_type` is set to "LORA"
+   - Check that `base_model_name_or_path` matches your base model
+   - Ensure `target_modules` is properly configured
+
+4. **"LoRA rank exceeds maximum"**
+   - Check that `r` value in `adapter_config.json` doesn't exceed `max_lora_rank` setting
+
+### Debugging Tips
+
+1. **Enable debug logging**:
+   ```bash
+   export VLLM_LOGGING_LEVEL=DEBUG
+   ```
+
+2. **Verify environment variables**:
+   ```bash
+   echo $VLLM_ALLOW_RUNTIME_LORA_UPDATING
+   echo $VLLM_PLUGINS
+   echo $VLLM_LORA_RESOLVER_CACHE_DIR
+   ```
+
+3. **Test adapter configuration**:
+   ```bash
+   python -c "
+   import json
+   with open('/path/to/lora/adapters/my_adapter/adapter_config.json') as f:
+       config = json.load(f)
+   print('Config valid:', config)
+   "
+   ```
diff --git a/vllm/plugins/lora_resolvers/README.md b/vllm/plugins/lora_resolvers/README.md
deleted file mode 100644
index 48f27dddea07e..0000000000000
--- a/vllm/plugins/lora_resolvers/README.md
+++ /dev/null
@@ -1,16 +0,0 @@
-# LoRA Resolver Plugins
-
-This directory contains vLLM general plugins for dynamically discovering and loading LoRA adapters
-via the LoRAResolver plugin framework.
-
-Note that `VLLM_ALLOW_RUNTIME_LORA_UPDATING` must be set to true to allow LoRA resolver plugins
-to work, and `VLLM_PLUGINS` must be set to include the desired resolver plugins.
-
-## lora_filesystem_resolver
-
-This LoRA Resolver is installed with vLLM by default.
-To use, set `VLLM_PLUGIN_LORA_CACHE_DIR` to a local directory. When vLLM receives a request
-for a LoRA adapter `foobar` it doesn't currently recognize, it will look in that local directory
-for a subdirectory `foobar` containing a LoRA adapter. If such an adapter exists, it will
-load that adapter, and then service the request as normal. That adapter will then be available
-for future requests as normal.

From 964d65deedb9ae0480fecdb2e726ba16d63409d7 Mon Sep 17 00:00:00 2001
From: Fardin Hoque <kfhfar@amazon.com>
Date: Fri, 14 Nov 2025 10:27:56 -0800
Subject: [PATCH 464/976] LLaMA4 LoRA Adapter Enablement (#28602)

Signed-off-by: Fardin Hoque <kfhfar@amazon.com>
Co-authored-by: Wei Wei <wwei6@meta.com>
---
 vllm/model_executor/models/mllama4.py | 36 +++++++++++++++++++++++++--
 1 file changed, 34 insertions(+), 2 deletions(-)

diff --git a/vllm/model_executor/models/mllama4.py b/vllm/model_executor/models/mllama4.py
index 14e741f322582..e25a104d822a7 100644
--- a/vllm/model_executor/models/mllama4.py
+++ b/vllm/model_executor/models/mllama4.py
@@ -35,6 +35,7 @@ from vllm.attention.layer import MultiHeadAttention
 from vllm.config import VllmConfig
 from vllm.config.multimodal import BaseDummyOptions
 from vllm.distributed import get_tensor_model_parallel_world_size
+from vllm.model_executor.layers.fused_moe import FusedMoE
 from vllm.model_executor.layers.linear import (
     ColumnParallelLinear,
     QKVParallelLinear,
@@ -45,6 +46,7 @@ from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.layers.rotary_embedding import get_rope
 from vllm.model_executor.model_loader.utils import initialize_model
 from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.models.module_mapping import MultiModelKeys
 from vllm.multimodal import MULTIMODAL_REGISTRY
 from vllm.multimodal.inputs import (
     MultiModalDataDict,
@@ -68,11 +70,15 @@ from .interfaces import (
     MixtureOfExperts,
     MultiModalEmbeddings,
     SupportsEagle3,
+    SupportsLoRA,
     SupportsMultiModal,
     SupportsPP,
 )
 from .llama4 import Llama4ForCausalLM
-from .utils import AutoWeightsLoader, maybe_prefix
+from .utils import (
+    AutoWeightsLoader,
+    maybe_prefix,
+)
 from .vision import run_dp_sharded_vision_model
 
 
@@ -724,7 +730,12 @@ class Mllama4DummyInputsBuilder(BaseDummyInputsBuilder[Mllama4ProcessingInfo]):
     dummy_inputs=Mllama4DummyInputsBuilder,
 )
 class Llama4ForConditionalGeneration(
-    nn.Module, SupportsMultiModal, SupportsPP, MixtureOfExperts, SupportsEagle3
+    nn.Module,
+    SupportsMultiModal,
+    SupportsPP,
+    MixtureOfExperts,
+    SupportsEagle3,
+    SupportsLoRA,
 ):
     merge_by_field_config = True
 
@@ -1067,6 +1078,17 @@ class Llama4ForConditionalGeneration(
 
         return updated_params
 
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        # Params for weights, fp8 weight scales, fp8 activation scales
+        # (param_name, weight_name, expert_id, shard_id)
+        return FusedMoE.make_expert_params_mapping(
+            ckpt_gate_proj_name="gate_proj",
+            ckpt_down_proj_name="down_proj",
+            ckpt_up_proj_name="up_proj",
+            num_experts=self.config.text_config.num_local_experts,
+            num_redundant_experts=self.num_redundant_experts,
+        )
+
     def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
         stacked_params_mapping = [
             # (param_name, shard_name, shard_id)
@@ -1113,3 +1135,13 @@ class Llama4ForConditionalGeneration(
         )
 
         return updated_params
+
+    def get_mm_mapping(self) -> MultiModelKeys:
+        """
+        Get the module prefix in multimodal models
+        """
+        return MultiModelKeys.from_string_field(
+            language_model="language_model",
+            connector="multi_modal_projector.",
+            tower_model="vision_model.",
+        )

From a425dc256e4c2f76f98be136cd898b43f02e6a32 Mon Sep 17 00:00:00 2001
From: TJian <tunjian.tan@embeddedllm.com>
Date: Fri, 14 Nov 2025 10:30:50 -0800
Subject: [PATCH 465/976] [Bugfix] [ROCm] [AITER]: Fix aiter block quant not
 compatible with torch compile dynamo (#28716)

Signed-off-by: tjtanaa <tunjian.tan@embeddedllm.com>
---
 tests/rocm/aiter/test_grouped_quant.py        | 137 ++++++++++++++++++
 vllm/_aiter_ops.py                            |  48 +++++-
 .../layers/quantization/utils/fp8_utils.py    |   2 +-
 3 files changed, 180 insertions(+), 7 deletions(-)
 create mode 100644 tests/rocm/aiter/test_grouped_quant.py

diff --git a/tests/rocm/aiter/test_grouped_quant.py b/tests/rocm/aiter/test_grouped_quant.py
new file mode 100644
index 0000000000000..c7f0f1eda3558
--- /dev/null
+++ b/tests/rocm/aiter/test_grouped_quant.py
@@ -0,0 +1,137 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# This is a test for the AITER group_fp8_quant op.
+# It tests if the AITER op is
+# 1. correctly defined the relationship between
+#    implementation and fake function
+# 2. can be used with torch.compile
+# 3. can be used with CUDA graphs
+# This file will be skipped if AITER is not installed
+# and the platform is not ROCm.
+
+import importlib.util
+
+import pytest
+import torch
+
+# this import statement is needed to ensure the ops are registered
+from vllm._aiter_ops import rocm_aiter_ops
+from vllm.platforms import current_platform
+
+# Check if aiter package is installed
+aiter_available = importlib.util.find_spec("aiter") is not None
+
+pytestmark = pytest.mark.skipif(
+    not (current_platform.is_rocm() and aiter_available),
+    reason="AITER ops are only available on ROCm with aiter package installed",
+)
+
+
+def test_rocm_aiter_group_fp8_quant_fake_implementation():
+    """Test that the fake implementation is correctly
+    defined for torch.ops.vllm.rocm_aiter_group_fp8_quant."""
+    # Create test tensors
+    M = 128
+    N = 4096
+    group_size = 128
+
+    input_tensor = torch.randn((M, N), dtype=torch.bfloat16, device="cuda")
+
+    # Verify the op's fake implementation using torch.library.opcheck
+    # This checks that the fake function returns tensors with correct shapes and dtypes
+    torch.library.opcheck(
+        torch.ops.vllm.rocm_aiter_group_fp8_quant,
+        (input_tensor, group_size),
+        test_utils=("test_faketensor",),
+    )
+
+
+def test_rocm_aiter_group_fp8_quant_torch_compile_with_cudagraph():
+    """Test that rocm_aiter_ops.group_fp8_quant
+    with group size 128 can be used with
+    torch.compile in cudagraph mode."""
+    # Create test tensors
+    M = 128
+    N = 4096
+    group_size = 128
+
+    input_tensor = torch.randn((M, N), dtype=torch.bfloat16, device="cuda")
+
+    # Define a function that uses the op
+    def group_fp8_quant_fn(x):
+        return rocm_aiter_ops.group_fp8_quant(x, group_size)
+
+    # Compile with cudagraph mode
+    compiled_fn = torch.compile(
+        group_fp8_quant_fn,
+        fullgraph=True,
+        backend="inductor",
+        mode="reduce-overhead",
+        dynamic=False,
+    )
+
+    # Run eager mode
+    x_fp8_eager, scales_eager = group_fp8_quant_fn(input_tensor)
+
+    # Run compiled version (first run will trigger compilation)
+    x_fp8_compiled, scales_compiled = compiled_fn(input_tensor)
+
+    # Verify shapes match
+    assert x_fp8_compiled.shape == x_fp8_eager.shape
+    assert scales_compiled.shape == scales_eager.shape
+
+    # Verify expected shapes
+    assert x_fp8_compiled.shape == (M, N)
+    expected_scale_cols = (N + group_size - 1) // group_size
+    assert scales_compiled.shape == (M, expected_scale_cols)
+
+    # Verify results match
+    assert torch.allclose(
+        x_fp8_compiled.to(torch.float32),
+        x_fp8_eager.to(torch.float32),
+        rtol=1e-2,
+        atol=1e-2,
+    )
+    assert torch.allclose(scales_compiled, scales_eager, rtol=1e-3, atol=1e-3)
+
+    # Test with different input (reusing compiled graph)
+    input_tensor_2 = torch.randn((M, N), dtype=torch.bfloat16, device="cuda")
+    x_fp8_eager_2, scales_eager_2 = group_fp8_quant_fn(input_tensor_2)
+    x_fp8_compiled_2, scales_compiled_2 = compiled_fn(input_tensor_2)
+
+    # Verify second run also produces correct results
+    assert torch.allclose(
+        x_fp8_compiled_2.to(torch.float32),
+        x_fp8_eager_2.to(torch.float32),
+        rtol=1e-2,
+        atol=1e-2,
+    )
+    assert torch.allclose(scales_compiled_2, scales_eager_2, rtol=1e-3, atol=1e-3)
+
+
+def test_rocm_aiter_group_fp8_quant_different_shapes():
+    """Test rocm_aiter_ops.group_fp8_quant with different input shapes."""
+    group_size = 128
+
+    test_shapes = [
+        (64, 2048),
+        (256, 8192),
+        (32, 1024),
+        (512, 4096),
+    ]
+
+    for M, N in test_shapes:
+        input_tensor = torch.randn((M, N), dtype=torch.bfloat16, device="cuda")
+
+        x_fp8, scales = rocm_aiter_ops.group_fp8_quant(input_tensor, group_size)
+
+        # Verify shapes
+        assert x_fp8.shape == (M, N)
+        expected_scale_cols = (N + group_size - 1) // group_size
+        assert scales.shape == (M, expected_scale_cols)
+
+        # Verify dtypes
+        from aiter import dtypes
+
+        assert x_fp8.dtype == dtypes.fp8
+        assert scales.dtype == torch.float32
diff --git a/vllm/_aiter_ops.py b/vllm/_aiter_ops.py
index 7c35bf1857bae..e53e4ae6e5296 100644
--- a/vllm/_aiter_ops.py
+++ b/vllm/_aiter_ops.py
@@ -43,6 +43,36 @@ def if_aiter_supported(func: Callable) -> Callable:
     return wrapper
 
 
+def _rocm_aiter_group_fp8_quant_impl(
+    x: torch.Tensor,
+    group_size: int,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    assert x.shape[-1] % group_size == 0, "Input shape must be divisible by group size"
+    from aiter import QuantType, dtypes, get_hip_quant
+
+    aiter_per1x128_quant = get_hip_quant(QuantType.per_1x128)
+    return aiter_per1x128_quant(x.contiguous(), quant_dtype=dtypes.fp8)
+
+
+def _rocm_aiter_group_fp8_quant_fake(
+    x: torch.Tensor,
+    group_size: int,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    from aiter import dtypes
+
+    M, N = x.shape
+    x_fp8 = torch.empty((M, N), dtype=dtypes.fp8, device=x.device)
+    out_bs = torch.empty(
+        (
+            M,
+            (N + group_size - 1) // group_size,
+        ),
+        dtype=torch.float32,
+        device=x.device,
+    )
+    return x_fp8, out_bs
+
+
 def _rocm_aiter_fused_moe_impl(
     hidden_states: torch.Tensor,
     w1: torch.Tensor,
@@ -512,6 +542,14 @@ class rocm_aiter_ops:
             )
 
             # register all the custom ops here
+            direct_register_custom_op(
+                op_name="rocm_aiter_group_fp8_quant",
+                op_func=_rocm_aiter_group_fp8_quant_impl,
+                mutates_args=[],
+                fake_impl=_rocm_aiter_group_fp8_quant_fake,
+                dispatch_key=current_platform.dispatch_key,
+            )
+
             direct_register_custom_op(
                 op_name="rocm_aiter_asm_moe_tkw1",
                 op_func=_rocm_aiter_asm_moe_tkw1_impl,
@@ -887,14 +925,12 @@ class rocm_aiter_ops:
         return gemm_a8w8_blockscale(A, B, As, Bs, dtype=output_dtype)
 
     @staticmethod
-    def per_1x128_fp8_quant(
+    def group_fp8_quant(
         input_2d: torch.Tensor,
+        group_size: int = 128,
     ) -> tuple[torch.Tensor, ...]:
-        """Only applies quantization method for fp8 data type only."""
-        from aiter import QuantType, dtypes, get_hip_quant
-
-        aiter_per1x128_quant = get_hip_quant(QuantType.per_1x128)
-        return aiter_per1x128_quant(input_2d.contiguous(), quant_dtype=dtypes.fp8)
+        assert group_size == 128, "Group size must be 128"
+        return torch.ops.vllm.rocm_aiter_group_fp8_quant(input_2d, group_size)
 
     @staticmethod
     def is_triton_gemm_w8a8_tuned(n: int, k: int) -> bool:
diff --git a/vllm/model_executor/layers/quantization/utils/fp8_utils.py b/vllm/model_executor/layers/quantization/utils/fp8_utils.py
index 541c6c631053d..ae63b4a767268 100644
--- a/vllm/model_executor/layers/quantization/utils/fp8_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/fp8_utils.py
@@ -342,7 +342,7 @@ class W8A8BlockFp8LinearOp:
             )
         # MI300 uses tuned AITER ASM/C++ kernel
         else:
-            q_input, input_scale = rocm_aiter_ops.per_1x128_fp8_quant(input_2d)
+            q_input, input_scale = rocm_aiter_ops.group_fp8_quant(input_2d)
 
         return gemm_a8w8_blockscale_op(
             q_input,

From 67187554dd478ba76e79d7a6f8bf02be01290de3 Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Fri, 14 Nov 2025 18:39:19 +0000
Subject: [PATCH 466/976] [Docs] Enable some more markdown lint rules for the
 docs (#28731)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 .markdownlint.yaml                             | 3 ---
 docs/contributing/benchmarks.md                | 2 --
 docs/contributing/ci/update_pytorch_version.md | 2 +-
 docs/deployment/frameworks/chatbox.md          | 4 ++--
 docs/deployment/frameworks/dify.md             | 6 +++---
 docs/design/fused_moe_modular_kernel.md        | 8 ++++----
 6 files changed, 10 insertions(+), 15 deletions(-)

diff --git a/.markdownlint.yaml b/.markdownlint.yaml
index d0d3179766efb..937487f47364d 100644
--- a/.markdownlint.yaml
+++ b/.markdownlint.yaml
@@ -6,9 +6,6 @@ MD024:
 MD031:
   list_items: false
 MD033: false
-MD045: false
 MD046: false
-MD051: false
 MD052: false
-MD053: false
 MD059: false
diff --git a/docs/contributing/benchmarks.md b/docs/contributing/benchmarks.md
index dca01eab5b426..ec0dfc4199d17 100644
--- a/docs/contributing/benchmarks.md
+++ b/docs/contributing/benchmarks.md
@@ -10,8 +10,6 @@ vLLM provides comprehensive benchmarking tools for performance testing and evalu
 - **[Parameter sweeps](#parameter-sweeps)**: Automate `vllm bench` runs for multiple configurations
 - **[Performance benchmarks](#performance-benchmarks)**: Automated CI benchmarks for development
 
-[Benchmark CLI]: #benchmark-cli
-
 ## Benchmark CLI
 
 This section guides you through running benchmark tests with the extensive
diff --git a/docs/contributing/ci/update_pytorch_version.md b/docs/contributing/ci/update_pytorch_version.md
index f983c25f26ee1..09fd85a466eed 100644
--- a/docs/contributing/ci/update_pytorch_version.md
+++ b/docs/contributing/ci/update_pytorch_version.md
@@ -95,7 +95,7 @@ when manually triggering a build on Buildkite. This branch accomplishes two thin
 to warm it up so that future builds are faster.
 
 <p align="center" width="100%">
-    <img width="60%" src="https://github.com/user-attachments/assets/a8ff0fcd-76e0-4e91-b72f-014e3fdb6b94">
+    <img width="60%" alt="Buildkite new build popup" src="https://github.com/user-attachments/assets/a8ff0fcd-76e0-4e91-b72f-014e3fdb6b94">
 </p>
 
 ## Update dependencies
diff --git a/docs/deployment/frameworks/chatbox.md b/docs/deployment/frameworks/chatbox.md
index 002935da56009..5f7cef1a87dfb 100644
--- a/docs/deployment/frameworks/chatbox.md
+++ b/docs/deployment/frameworks/chatbox.md
@@ -29,8 +29,8 @@ pip install vllm
     - API Path: `/chat/completions`
     - Model: `qwen/Qwen1.5-0.5B-Chat`
 
-    ![](../../assets/deployment/chatbox-settings.png)
+    ![Chatbox settings screen](../../assets/deployment/chatbox-settings.png)
 
 1. Go to `Just chat`, and start to chat:
 
-    ![](../../assets/deployment/chatbox-chat.png)
+    ![Chatbot chat screen](../../assets/deployment/chatbox-chat.png)
diff --git a/docs/deployment/frameworks/dify.md b/docs/deployment/frameworks/dify.md
index 820ef0cbed9fa..673cbf4b6a24a 100644
--- a/docs/deployment/frameworks/dify.md
+++ b/docs/deployment/frameworks/dify.md
@@ -46,12 +46,12 @@ And install [Docker](https://docs.docker.com/engine/install/) and [Docker Compos
     - **Model Name for API Endpoint**: `Qwen/Qwen1.5-7B-Chat`
     - **Completion Mode**: `Completion`
 
-    ![](../../assets/deployment/dify-settings.png)
+    ![Dify settings screen](../../assets/deployment/dify-settings.png)
 
 1. To create a test chatbot, go to `Studio → Chatbot → Create from Blank`, then select Chatbot as the type:
 
-    ![](../../assets/deployment/dify-create-chatbot.png)
+    ![Dify create chatbot screen](../../assets/deployment/dify-create-chatbot.png)
 
 1. Click the chatbot you just created to open the chat interface and start interacting with the model:
 
-    ![](../../assets/deployment/dify-chat.png)
+    ![Dify chat screen](../../assets/deployment/dify-chat.png)
diff --git a/docs/design/fused_moe_modular_kernel.md b/docs/design/fused_moe_modular_kernel.md
index 76df0d8d8a38f..e1a96be6c3445 100644
--- a/docs/design/fused_moe_modular_kernel.md
+++ b/docs/design/fused_moe_modular_kernel.md
@@ -19,9 +19,9 @@ The input activation format completely depends on the All2All Dispatch being use
 
 The FusedMoE operation is generally made of multiple operations, in both the Contiguous and Batched variants, as described in the diagrams below
 
-![](../assets/design/fused_moe_modular_kernel/fused_moe_non_batched.png "FusedMoE Non-Batched")
+![FusedMoE Non-Batched](../assets/design/fused_moe_modular_kernel/fused_moe_non_batched.png)
 
-![](../assets/design/fused_moe_modular_kernel/fused_moe_batched.png "FusedMoE Batched")
+![FusedMoE Batched](../assets/design/fused_moe_modular_kernel/fused_moe_batched.png)
 
 !!! note
     The main difference, in terms of operations, between the Batched and Non-Batched cases is the Permute / Unpermute operations. All other operations remain.
@@ -57,7 +57,7 @@ The `FusedMoEModularKernel` acts as a bridge between the `FusedMoEPermuteExperts
 The `FusedMoEPrepareAndFinalize` abstract class exposes `prepare`, `prepare_no_receive`  and `finalize` functions.
 The `prepare` function is responsible for input activation Quantization and All2All Dispatch. If implemented, The `prepare_no_receive` is like `prepare` except it does not wait to receive results from other workers.  Instead it returns a "receiver" callback that must be invoked to wait for the final results of worker. It is not required that this method is supported by all `FusedMoEPrepareAndFinalize` classes, but if it is available, it can be used to interleave work with the initial all to all communication, e.g. interleaving shared experts with fused experts.  The `finalize` function is responsible for invoking the All2All Combine. Additionally the `finalize` function may or may not do the TopK weight application and reduction (Please refer to the TopKWeightAndReduce section)
 
-![](../assets/design/fused_moe_modular_kernel/prepare_and_finalize_blocks.png "FusedMoEPrepareAndFinalize Blocks")
+![FusedMoEPrepareAndFinalize Blocks](../assets/design/fused_moe_modular_kernel/prepare_and_finalize_blocks.png)
 
 ### FusedMoEPermuteExpertsUnpermute
 
@@ -88,7 +88,7 @@ The core FusedMoE implementation performs a series of operations. It would be in
 It is sometimes efficient to perform TopK weight application and Reduction inside the `FusedMoEPermuteExpertsUnpermute::apply()`. Find an example [here](https://github.com/vllm-project/vllm/pull/20228). We have a `TopKWeightAndReduce` abstract class to facilitate such implementations. Please refer to the TopKWeightAndReduce section.
 `FusedMoEPermuteExpertsUnpermute::finalize_weight_and_reduce_impl()` returns the `TopKWeightAndReduce` object that the implementation wants the `FusedMoEPrepareAndFinalize::finalize()` to use.
 
-![](../assets/design/fused_moe_modular_kernel/fused_experts_blocks.png "FusedMoEPermuteExpertsUnpermute Blocks")
+![FusedMoEPermuteExpertsUnpermute Blocks](../assets/design/fused_moe_modular_kernel/fused_experts_blocks.png)
 
 ### FusedMoEModularKernel
 

From e2741f6cbce6dc4c364d0a8d77375259d72a21ef Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Sat, 15 Nov 2025 02:39:57 +0800
Subject: [PATCH 467/976] [Chore] Rename
 `SchedulerConfig.chunked_prefill_enabled` (#28735)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 tests/v1/core/test_scheduler.py     |  1 -
 tests/v1/e2e/test_spec_decode.py    | 10 ++++------
 tests/v1/engine/test_engine_core.py |  2 +-
 vllm/config/scheduler.py            | 11 ++++++++---
 vllm/config/vllm.py                 |  6 +++---
 vllm/platforms/cpu.py               |  2 +-
 vllm/v1/core/sched/scheduler.py     |  2 +-
 vllm/v1/engine/core.py              |  2 +-
 vllm/v1/worker/gpu_model_runner.py  |  4 ++--
 9 files changed, 21 insertions(+), 19 deletions(-)

diff --git a/tests/v1/core/test_scheduler.py b/tests/v1/core/test_scheduler.py
index 287e735b54913..04e738293cd77 100644
--- a/tests/v1/core/test_scheduler.py
+++ b/tests/v1/core/test_scheduler.py
@@ -2282,7 +2282,6 @@ def _validate_chunked_prefill_settings_for_encoder_decoder(
 ) -> None:
     """Validate chunked prefill settings in the scheduler config for
     encoder-decoder models."""
-    assert scheduler_config.chunked_prefill_enabled is expect_enabled
     assert scheduler_config.enable_chunked_prefill is expect_enabled
     if is_encoder_decoder:
         # Encoder-decoder models should automatically disable chunked multimodal
diff --git a/tests/v1/e2e/test_spec_decode.py b/tests/v1/e2e/test_spec_decode.py
index 4a6b84ae4817c..6cffaafb127ed 100644
--- a/tests/v1/e2e/test_spec_decode.py
+++ b/tests/v1/e2e/test_spec_decode.py
@@ -272,7 +272,7 @@ def test_speculators_model_integration(
 
 
 @pytest.mark.parametrize(
-    ["model_setup", "mm_enabled", "chunked_prefill_enabled"],
+    ["model_setup", "mm_enabled", "enable_chunked_prefill"],
     [
         (("eagle3", "Qwen/Qwen3-8B", "AngelSlim/Qwen3-8B_eagle3", 1), False, False),
         pytest.param(
@@ -358,7 +358,7 @@ def test_eagle_correctness(
     sampling_config: SamplingParams,
     model_setup: tuple[str, str, str, int],
     mm_enabled: bool,
-    chunked_prefill_enabled: bool,
+    enable_chunked_prefill: bool,
     attn_backend: str,
 ):
     if attn_backend == "TREE_ATTN":
@@ -396,9 +396,7 @@ def test_eagle_correctness(
 
         method, model_name, spec_model_name, tp_size = model_setup
         max_model_len = 2048
-        max_num_batched_tokens = max_model_len
-        if chunked_prefill_enabled:
-            max_num_batched_tokens = 128
+        max_num_batched_tokens = 128 if enable_chunked_prefill else max_model_len
 
         ref_llm = LLM(
             model=model_name, max_model_len=max_model_len, tensor_parallel_size=tp_size
@@ -420,7 +418,7 @@ def test_eagle_correctness(
             },
             max_model_len=max_model_len,
             max_num_batched_tokens=max_num_batched_tokens,
-            enable_chunked_prefill=chunked_prefill_enabled,
+            enable_chunked_prefill=enable_chunked_prefill,
         )
         spec_outputs = spec_llm.chat(test_prompts, sampling_config)
         matches = 0
diff --git a/tests/v1/engine/test_engine_core.py b/tests/v1/engine/test_engine_core.py
index 4e852dca95eb0..3ba8ab26f5522 100644
--- a/tests/v1/engine/test_engine_core.py
+++ b/tests/v1/engine/test_engine_core.py
@@ -571,7 +571,7 @@ def test_encoder_instance_zero_kv_cache(
         )
 
         # Check 5: Verify chunked prefill is disabled
-        assert not vllm_config.scheduler_config.chunked_prefill_enabled, (
+        assert not vllm_config.scheduler_config.enable_chunked_prefill, (
             "Encoder instance should disable chunked prefill (no KV cache)"
         )
 
diff --git a/vllm/config/scheduler.py b/vllm/config/scheduler.py
index 5117344a6844d..444568994a95b 100644
--- a/vllm/config/scheduler.py
+++ b/vllm/config/scheduler.py
@@ -8,7 +8,7 @@ from typing import TYPE_CHECKING, Any, ClassVar, Literal, cast
 
 from pydantic import Field, field_validator, model_validator
 from pydantic.dataclasses import dataclass
-from typing_extensions import Self
+from typing_extensions import Self, deprecated
 
 from vllm.config.utils import config
 from vllm.logger import init_logger
@@ -233,6 +233,11 @@ class SchedulerConfig:
             )
 
     @property
+    @deprecated(
+        "`SchedulerConfig.chunked_prefill_enabled` has been renamed to "
+        "`SchedulerConfig.enable_chunked_prefill`. "
+        "The old name will be removed in v0.12."
+    )
     def chunked_prefill_enabled(self) -> bool:
         return self.enable_chunked_prefill
 
@@ -244,7 +249,7 @@ class SchedulerConfig:
     def _verify_args(self) -> Self:
         if (
             self.max_num_batched_tokens < self.max_model_len
-            and not self.chunked_prefill_enabled
+            and not self.enable_chunked_prefill
         ):
             raise ValueError(
                 f"max_num_batched_tokens ({self.max_num_batched_tokens}) is "
@@ -271,7 +276,7 @@ class SchedulerConfig:
             )
 
         if self.max_num_partial_prefills > 1:
-            if not self.chunked_prefill_enabled:
+            if not self.enable_chunked_prefill:
                 raise ValueError(
                     "Chunked prefill must be enabled to set "
                     "max_num_partial_prefills > 1."
diff --git a/vllm/config/vllm.py b/vllm/config/vllm.py
index f581267f73f7d..1e6e455210c88 100644
--- a/vllm/config/vllm.py
+++ b/vllm/config/vllm.py
@@ -411,7 +411,7 @@ class VllmConfig:
 
         if (
             self.model_config is not None
-            and self.scheduler_config.chunked_prefill_enabled
+            and self.scheduler_config.enable_chunked_prefill
             and self.model_config.dtype == torch.float32
             and current_platform.get_device_capability() == (7, 5)
         ):
@@ -584,7 +584,7 @@ class VllmConfig:
         ):
             for reason in disable_chunked_prefill_reasons:
                 logger.info(reason)
-            self.scheduler_config.chunked_prefill_enabled = False
+            self.scheduler_config.enable_chunked_prefill = False
             self.scheduler_config.long_prefill_token_threshold = 0
 
             if self.cache_config is not None:
@@ -1026,7 +1026,7 @@ class VllmConfig:
             f"seed={self.model_config.seed}, "
             f"served_model_name={self.model_config.served_model_name}, "
             f"enable_prefix_caching={self.cache_config.enable_prefix_caching}, "
-            f"chunked_prefill_enabled={self.scheduler_config.chunked_prefill_enabled}, "  # noqa
+            f"enable_chunked_prefill={self.scheduler_config.enable_chunked_prefill}, "  # noqa
             f"pooler_config={self.model_config.pooler_config!r}, "
             f"compilation_config={self.compilation_config!r}"
         )
diff --git a/vllm/platforms/cpu.py b/vllm/platforms/cpu.py
index fdfa1c19789ca..1da34629472c7 100644
--- a/vllm/platforms/cpu.py
+++ b/vllm/platforms/cpu.py
@@ -192,7 +192,7 @@ class CpuPlatform(Platform):
 
         scheduler_config = vllm_config.scheduler_config
         if (
-            scheduler_config.chunked_prefill_enabled
+            scheduler_config.enable_chunked_prefill
             or cache_config.enable_prefix_caching
         ) and cache_config.cache_dtype != "auto":
             raise RuntimeError(
diff --git a/vllm/v1/core/sched/scheduler.py b/vllm/v1/core/sched/scheduler.py
index 4fcc7955df195..ba7ad0c091737 100644
--- a/vllm/v1/core/sched/scheduler.py
+++ b/vllm/v1/core/sched/scheduler.py
@@ -497,7 +497,7 @@ class Scheduler(SchedulerInterface):
                     # chunked prefill has to be enabled explicitly to allow
                     # pooling requests to be chunked
                     if (
-                        not self.scheduler_config.chunked_prefill_enabled
+                        not self.scheduler_config.enable_chunked_prefill
                         and num_new_tokens > token_budget
                     ):
                         self.waiting.pop_request()
diff --git a/vllm/v1/engine/core.py b/vllm/v1/engine/core.py
index ffb5232e770d1..a6965182fc2ce 100644
--- a/vllm/v1/engine/core.py
+++ b/vllm/v1/engine/core.py
@@ -124,7 +124,7 @@ class EngineCore:
             # Encoder models without KV cache don't support
             # chunked prefill. But do SSM models?
             logger.info("Disabling chunked prefill for model without KVCache")
-            vllm_config.scheduler_config.chunked_prefill_enabled = False
+            vllm_config.scheduler_config.enable_chunked_prefill = False
 
         scheduler_block_size = (
             vllm_config.cache_config.block_size
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index 341bf58f2da8f..9b3e5b668aab5 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -2031,7 +2031,7 @@ class GPUModelRunner(
 
         supported_tasks = list(model.pooler.get_supported_tasks())
 
-        if self.scheduler_config.chunked_prefill_enabled:
+        if self.scheduler_config.enable_chunked_prefill:
             if "token_embed" in supported_tasks:
                 supported_tasks.remove("token_embed")
             if "token_classify" in supported_tasks:
@@ -3825,7 +3825,7 @@ class GPUModelRunner(
         supported_pooling_tasks = self.get_supported_pooling_tasks()
 
         if not supported_pooling_tasks:
-            if self.scheduler_config.chunked_prefill_enabled:
+            if self.scheduler_config.enable_chunked_prefill:
                 raise RuntimeError(
                     f"Model {self.model_config.model} does not support "
                     "any pooling tasks with chunked prefill enabled. "

From cec275efcef62a9fb6ea5c3445572dddf9736206 Mon Sep 17 00:00:00 2001
From: GuanH <60228748+GuanH@users.noreply.github.com>
Date: Sat, 15 Nov 2025 02:44:27 +0800
Subject: [PATCH 468/976] [Bugfix] resolve Qwen3-VL GPTQModel quantized model
 loading failure (#28663)

Signed-off-by: GuanH <guansdrailib@gmail.com>
Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>
Co-authored-by: Isotr0py <mozf@mail2.sysu.edu.cn>
---
 vllm/model_executor/models/qwen3_vl.py | 4 +++-
 vllm/model_executor/models/utils.py    | 5 +++--
 2 files changed, 6 insertions(+), 3 deletions(-)

diff --git a/vllm/model_executor/models/qwen3_vl.py b/vllm/model_executor/models/qwen3_vl.py
index faeb9f81d9613..f1c020ab5813c 100644
--- a/vllm/model_executor/models/qwen3_vl.py
+++ b/vllm/model_executor/models/qwen3_vl.py
@@ -1138,7 +1138,9 @@ class Qwen3LLMForCausalLM(Qwen3ForCausalLM):
         self.config = config
 
         self.quant_config = quant_config
-        self.model = Qwen3LLMModel(vllm_config=vllm_config, prefix=prefix)
+        self.model = Qwen3LLMModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
 
         if get_pp_group().is_last_rank:
             if config.tie_word_embeddings:
diff --git a/vllm/model_executor/models/utils.py b/vllm/model_executor/models/utils.py
index f14b79f2886c4..e5663c8a057ac 100644
--- a/vllm/model_executor/models/utils.py
+++ b/vllm/model_executor/models/utils.py
@@ -117,9 +117,10 @@ class AutoWeightsLoader:
     environment variable `VLLM_LOGGING_LEVEL=DEBUG`.
     """
 
-    # Models trained using early version ColossalAI
-    # may include these tensors in checkpoint. Skip them.
+    # Models trained using early version ColossalAI or quantized by
+    # GPTQModel may include these tensors in checkpoint. Skip them.
     ROTARY_EMBEDS_UNUSED_WEIGHTS = [
+        "rotary_pos_emb.inv_freq",
         "rotary_emb.inv_freq",
         "rotary_emb.cos_cached",
         "rotary_emb.sin_cached",

From fd4555089a7ea3094499d9a6a9cec1c1b6903674 Mon Sep 17 00:00:00 2001
From: Andrey Khalyavin <halyavin@gmail.com>
Date: Fri, 14 Nov 2025 21:58:18 +0300
Subject: [PATCH 469/976] [BugFix] Fix misprint introduced by modular_kernel
 refactoring. (#28728)

Signed-off-by: Andrey Khalyavin <halyavin@yandex-team.ru>
---
 vllm/model_executor/layers/fused_moe/modular_kernel.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/model_executor/layers/fused_moe/modular_kernel.py b/vllm/model_executor/layers/fused_moe/modular_kernel.py
index a3142f37053f9..093affe51f503 100644
--- a/vllm/model_executor/layers/fused_moe/modular_kernel.py
+++ b/vllm/model_executor/layers/fused_moe/modular_kernel.py
@@ -1060,7 +1060,7 @@ class FusedMoEModularKernel(torch.nn.Module):
                 global_num_experts=global_num_experts,
                 expert_map=expert_map,
                 a1q_scale=_slice_scales(a1q_scale, s, e),
-                a2_scale=_slice_scales(self.fused_experts.a2_scale, e, e),
+                a2_scale=_slice_scales(self.fused_experts.a2_scale, s, e),
                 workspace13=workspace13,
                 workspace2=workspace2,
                 expert_tokens_meta=c_expert_tokens_meta,

From 8977ffb5e6428a3e682d47d9ca8342ccab9916f8 Mon Sep 17 00:00:00 2001
From: Sage Moore <sage@neuralmagic.com>
Date: Fri, 14 Nov 2025 11:06:01 -0800
Subject: [PATCH 470/976] [ROCm][Bugfix] Fix compilation errors with
 fused_qknorm_rope_kernel.cu (#28682)

Signed-off-by: Sage Moore <sage@neuralmagic.com>
---
 csrc/fused_qknorm_rope_kernel.cu | 10 ++++++++++
 1 file changed, 10 insertions(+)

diff --git a/csrc/fused_qknorm_rope_kernel.cu b/csrc/fused_qknorm_rope_kernel.cu
index 83017250ebcd5..baff8363162ef 100644
--- a/csrc/fused_qknorm_rope_kernel.cu
+++ b/csrc/fused_qknorm_rope_kernel.cu
@@ -37,6 +37,16 @@
 
 #ifdef USE_ROCM
   #define FINAL_MASK 0xffffffffffffffffULL
+
+  #if defined(HIP_VERSION) && HIP_VERSION < 70000000
+// On ROCm versions before 7.0, __syncwarp isn't defined. The below
+// implementation is copy/pasted from the implementation in ROCm 7.0
+__device__ inline void __syncwarp() {
+  __builtin_amdgcn_fence(__ATOMIC_RELEASE, "wavefront");
+  __builtin_amdgcn_wave_barrier();
+  __builtin_amdgcn_fence(__ATOMIC_ACQUIRE, "wavefront");
+}
+  #endif
 #else
   #define FINAL_MASK 0xffffffff
 #endif

From f08eab2acc17da9e86d20673bd801659ca912749 Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Fri, 14 Nov 2025 15:29:55 -0500
Subject: [PATCH 471/976] [CI] Fix macos smoke test uv cache issue (#28736)

Signed-off-by: mgoin <mgoin64@gmail.com>
---
 .github/workflows/macos-smoke-test.yml | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/.github/workflows/macos-smoke-test.yml b/.github/workflows/macos-smoke-test.yml
index f56fdc0dbe79e..8d40aa587bf00 100644
--- a/.github/workflows/macos-smoke-test.yml
+++ b/.github/workflows/macos-smoke-test.yml
@@ -11,9 +11,12 @@ jobs:
     steps:
       - uses: actions/checkout@v4
 
-      - uses: astral-sh/setup-uv@v4
+      - uses: astral-sh/setup-uv@v7
         with:
           enable-cache: true
+          cache-dependency-glob: |
+            requirements/**/*.txt
+            pyproject.toml
           python-version: '3.12'
 
       - name: Install dependencies

From 0de4f217abe2c73ce6df52743365302466f7bc00 Mon Sep 17 00:00:00 2001
From: Marcin Ostrowski <mostrowskix@habana.ai>
Date: Fri, 14 Nov 2025 22:13:53 +0100
Subject: [PATCH 472/976] [Bugfix] TypeError: 'NoneType' object is not callable
 (#27410)

Signed-off-by: Marcin Ostrowski <marcinx.ostrowski@intel.com>
---
 tests/v1/core/test_kv_cache_utils.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/tests/v1/core/test_kv_cache_utils.py b/tests/v1/core/test_kv_cache_utils.py
index df6a5f109874d..24611a4aaa1b8 100644
--- a/tests/v1/core/test_kv_cache_utils.py
+++ b/tests/v1/core/test_kv_cache_utils.py
@@ -55,7 +55,7 @@ pytestmark = pytest.mark.cpu_test
 def _auto_init_hash_fn(request):
     hash_fn: Callable
     if "hash_fn" in request.fixturenames:
-        hash_fn = init_none_hash(request.getfixturevalue("hash_fn"))
+        hash_fn = request.getfixturevalue("hash_fn")
     else:
         hash_fn = sha256
     init_none_hash(hash_fn)

From 5a84b76b86e03694d612afc8f0225512d9b4ddc9 Mon Sep 17 00:00:00 2001
From: Gregory Shtrasberg <156009573+gshtras@users.noreply.github.com>
Date: Fri, 14 Nov 2025 16:34:18 -0500
Subject: [PATCH 473/976] [ROCm][CI/Build] Change install location of uv
 (#28741)

Signed-off-by: Gregory Shtrasberg <Gregory.Shtrasberg@amd.com>
---
 docker/Dockerfile.rocm | 5 +----
 1 file changed, 1 insertion(+), 4 deletions(-)

diff --git a/docker/Dockerfile.rocm b/docker/Dockerfile.rocm
index 137452cad2c15..731a97d93da1f 100644
--- a/docker/Dockerfile.rocm
+++ b/docker/Dockerfile.rocm
@@ -17,10 +17,7 @@ RUN python3 -m pip install --upgrade pip
 RUN apt-get purge -y sccache; python3 -m pip uninstall -y sccache; rm -f "$(which sccache)"
 
 # Install UV
-RUN curl -LsSf https://astral.sh/uv/install.sh | sh
-
-# Activate virtual environment and add uv to PATH
-ENV PATH="/root/.local/bin:$PATH"
+RUN curl -LsSf https://astral.sh/uv/install.sh | env UV_INSTALL_DIR="/usr/local/bin" sh
 
 # This timeout (in seconds) is necessary when installing some dependencies via uv since it's likely to time out
 # Reference: https://github.com/astral-sh/uv/pull/1694

From 2e0ad629b0422358d424e1fcfddeb22d102936e8 Mon Sep 17 00:00:00 2001
From: Laith Sakka <laith.s.sakka@gmail.com>
Date: Fri, 14 Nov 2025 14:11:10 -0800
Subject: [PATCH 474/976] Avoid bytecode hook and simplify
 TorchCompileWrapperWithCustomDipatch (#25110)

Signed-off-by: Laith Sakka <lsakka@meta.com>
---
 .../compile/piecewise/test_multiple_graphs.py |  11 +-
 tests/compile/piecewise/test_simple.py        |   3 +
 tests/compile/piecewise/test_toy_llama.py     |   9 +-
 tests/compile/test_wrapper.py                 | 151 +++++++++---
 .../multimodal/generation/test_qwen2_5_vl.py  |  10 +
 tests/v1/e2e/test_spec_decode.py              |   8 +
 vllm/compilation/decorators.py                | 220 +++++++++---------
 vllm/compilation/wrapper.py                   | 204 ++++++++++------
 vllm/envs.py                                  |   6 +
 vllm/v1/worker/tpu_model_runner.py            |  10 +-
 10 files changed, 409 insertions(+), 223 deletions(-)

diff --git a/tests/compile/piecewise/test_multiple_graphs.py b/tests/compile/piecewise/test_multiple_graphs.py
index 64d626bae483d..6d3788af9de0d 100644
--- a/tests/compile/piecewise/test_multiple_graphs.py
+++ b/tests/compile/piecewise/test_multiple_graphs.py
@@ -22,6 +22,8 @@ from vllm.config import (
 from vllm.forward_context import BatchDescriptor, set_forward_context
 from vllm.utils.torch_utils import is_torch_equal_or_newer
 
+from ...utils import create_new_process_for_each_test
+
 # This import automatically registers `torch.ops.silly.attention`
 from .. import silly_attention  # noqa: F401
 
@@ -193,7 +195,14 @@ def run_model(
 
 
 @pytest.mark.parametrize("use_inductor_graph_partition", [False, True])
-def test_multi_graph_piecewise_compile(use_inductor_graph_partition: bool):
+@pytest.mark.parametrize("use_bytecode_hook", [True, False])
+@create_new_process_for_each_test("spawn")
+def test_multi_graph_piecewise_compile(
+    use_inductor_graph_partition: bool, use_bytecode_hook: bool, monkeypatch
+):
+    # Set the environment variable for this test
+    monkeypatch.setenv("VLLM_USE_BYTECODE_HOOK", "1" if use_bytecode_hook else "0")
+
     if use_inductor_graph_partition and not is_torch_equal_or_newer("2.9.0.dev"):
         pytest.skip("inductor graph partition is only available in PyTorch 2.9+")
 
diff --git a/tests/compile/piecewise/test_simple.py b/tests/compile/piecewise/test_simple.py
index a48af8a8952ad..e258133ab50a7 100644
--- a/tests/compile/piecewise/test_simple.py
+++ b/tests/compile/piecewise/test_simple.py
@@ -21,6 +21,8 @@ from vllm.config import (
 from vllm.forward_context import BatchDescriptor, set_forward_context
 from vllm.utils.torch_utils import is_torch_equal_or_newer
 
+from ...utils import create_new_process_for_each_test
+
 # This import automatically registers `torch.ops.silly.attention`
 from ..silly_attention import get_global_counter, reset_global_counter
 
@@ -124,6 +126,7 @@ def _run_simple_model(
 
 @pytest.mark.parametrize("use_inductor", [True, False])
 @torch.inference_mode()
+@create_new_process_for_each_test("spawn")
 def test_simple_piecewise_compile(use_inductor):
     _run_simple_model(
         splitting_ops=["silly::attention"],
diff --git a/tests/compile/piecewise/test_toy_llama.py b/tests/compile/piecewise/test_toy_llama.py
index 92998ede16992..915fbc6ce7f39 100644
--- a/tests/compile/piecewise/test_toy_llama.py
+++ b/tests/compile/piecewise/test_toy_llama.py
@@ -29,6 +29,8 @@ from vllm.config import (
 from vllm.forward_context import BatchDescriptor, set_forward_context
 from vllm.utils.torch_utils import is_torch_equal_or_newer
 
+from ...utils import create_new_process_for_each_test
+
 # This import automatically registers `torch.ops.silly.attention`
 from .. import silly_attention  # noqa: F401
 
@@ -334,6 +336,7 @@ def run_model(llama_config, compile_config: CompilationConfig) -> torch.Tensor:
         ("inductor", True),  # Inductor, Inductor partition
     ],
 )
+@create_new_process_for_each_test("spawn")
 def test_toy_llama(
     backend: str, use_inductor_graph_partition: bool, monkeypatch, tmp_path
 ):
@@ -513,4 +516,8 @@ def benchmark():
 
 
 if __name__ == "__main__":
-    benchmark()
+    # Protect against subprocess reimport when using spawn_new_process_for_each_test
+    import os
+
+    if os.environ.get("RUNNING_IN_SUBPROCESS") != "1":
+        benchmark()
diff --git a/tests/compile/test_wrapper.py b/tests/compile/test_wrapper.py
index da0afd9eaa49f..356cac7af258b 100644
--- a/tests/compile/test_wrapper.py
+++ b/tests/compile/test_wrapper.py
@@ -2,59 +2,134 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
 
+import os
+
+import pytest
 import torch
 
-from vllm.compilation.wrapper import TorchCompileWrapperWithCustomDispatcher
-from vllm.config import CompilationMode
+from vllm.compilation.wrapper import TorchCompileWithNoGuardsWrapper
+from vllm.config import (
+    CompilationConfig,
+    CompilationMode,
+    VllmConfig,
+    set_current_vllm_config,
+)
 
 
 class MyMod(torch.nn.Module):
     def forward(self, x: torch.Tensor, cache: torch.Tensor | None = None):
-        if cache is not None:
-            return x + cache
-        return x * 2
+        if x.size()[0] >= 4:
+            return x * 2
+        else:
+            return x * 100
 
 
-class MyWrapper(TorchCompileWrapperWithCustomDispatcher):
+class MyWrapper(TorchCompileWithNoGuardsWrapper):
     def __init__(self, model):
         self.model = model
-        compiled_callable = torch.compile(self.forward, backend="eager")
-        super().__init__(
-            compiled_callable, compilation_mode=CompilationMode.DYNAMO_TRACE_ONCE
+        super().__init__()
+
+    def forward(self, x: torch.Tensor):  # type: ignore[override]
+        # this is the function to be compiled
+        return self.model(x)
+
+
+@pytest.mark.parametrize("use_bytecode_hook", [True, False])
+def test_torch_compile_wrapper(use_bytecode_hook, monkeypatch):
+    """Test basic functionality of TorchCompileWithNoGuardsWrapper."""
+    # Set the environment variable for this test
+    monkeypatch.setenv("VLLM_USE_BYTECODE_HOOK", "1" if use_bytecode_hook else "0")
+
+    # Create a proper vLLM config instead of mocking
+    vllm_config = VllmConfig()
+    vllm_config.compilation_config = CompilationConfig()
+    vllm_config.compilation_config.mode = CompilationMode.DYNAMO_TRACE_ONCE
+    vllm_config.compilation_config.backend = "inductor"
+
+    # Test DYNAMO_TRACE_ONCE
+    with set_current_vllm_config(vllm_config):
+        torch._dynamo.reset()
+        mod = MyMod()
+        wrapper = MyWrapper(mod)
+
+        # First call should trigger compilation
+        x = torch.tensor([1, 2, 3, 4])
+        torch._dynamo.mark_dynamic(x, 0)
+
+        result1 = wrapper(x)
+        expected1 = torch.tensor([2, 4, 6, 8])
+        assert torch.allclose(result1, expected1), (
+            f"Expected {expected1}, got {result1}"
         )
 
-    def forward(self, x: torch.Tensor, cache: torch.Tensor | None = None):
-        # this is the function to be compiled
-        return self.model(x, cache)
+        # Second call should use compiled code
+        x2 = torch.tensor([1, 2, 3])
+        result2 = wrapper(x2)
+        expected2 = torch.tensor([2, 4, 6])
+        assert torch.allclose(result2, expected2), (
+            f"Expected {expected2}, got {result2}"
+        )
 
-    def __call__(self, x: torch.Tensor, cache: torch.Tensor | None = None):
-        # let torch.compile compile twice
-        if len(self.compiled_codes) == 2:
-            dispatch_id = 0 if cache is None else 1
-            with self.dispatch_to_code(dispatch_id):
-                return self.forward(x, cache)
-        else:
-            return self.compiled_callable(x, cache)
+        # without the wrapper result would be different.
+        result3 = mod(x2)
+        expected3 = torch.tensor([100, 200, 300])
 
+        assert torch.allclose(result3, expected3), (
+            f"Expected {result3}, got {expected3}"
+        )
 
-def test_torch_compile_wrapper():
-    mod = MyMod()
-    wrappers = []
-    for i in range(3):
-        torch._dynamo.reset()
+    # with STOCK_TORCH_COMPILE we do not remove guards.
+    vllm_config.compilation_config.mode = CompilationMode.STOCK_TORCH_COMPILE
+    torch._dynamo.reset()
+    with set_current_vllm_config(vllm_config):
+        mod = MyMod()
         wrapper = MyWrapper(mod)
-        wrappers.append(wrapper)
-        x = torch.tensor([1])
-        wrapper(x, None)  # profile run, compile
-        # create a cache tensor
-        cache = torch.tensor([2])
-        wrapper(x, cache)  # warm up with cache, recompile
 
-        # for new input, dispatch to the compiled code directly
-        new_x = torch.tensor([3])
-        assert wrapper(new_x, None).item() == 6  # dispatch to the first compiled code
-        assert wrapper(new_x, cache).item() == 5  # dispatch to the second compiled code
+        # First call should trigger compilation
+        x = torch.tensor([1, 2, 3, 4])
+        torch._dynamo.mark_dynamic(x, 0)
 
-    for wrapper in wrappers:
-        # make sure they have independent compiled codes
-        assert len(wrapper.compiled_codes) == 2
+        result1 = wrapper(x)
+        expected1 = torch.tensor([2, 4, 6, 8])
+        assert torch.allclose(result1, expected1), (
+            f"Expected {expected1}, got {result1}"
+        )
+
+        # Second call should triger another compilation
+        x2 = torch.tensor([1, 2, 3])
+        result2 = wrapper(x2)
+        expected2 = torch.tensor([100, 200, 300])
+        assert torch.allclose(result2, expected2), (
+            f"Expected {expected2}, got {result2}"
+        )
+
+    # NO_COMPILATION level not supported.
+    vllm_config.compilation_config.mode = None
+    torch._dynamo.reset()
+    with set_current_vllm_config(vllm_config):
+        torch._dynamo.reset()
+        mod = MyMod()
+
+        try:
+            wrapper = MyWrapper(mod)
+        except Exception:
+            return
+        raise AssertionError("expected an exception to be raised")
+
+
+if __name__ == "__main__":
+    # Run with both parameter values
+
+    class MockMonkeypatch:
+        def setenv(self, name, value):
+            os.environ[name] = value
+
+    mp = MockMonkeypatch()
+
+    print("Testing with VLLM_USE_BYTECODE_HOOK=False")
+    test_torch_compile_wrapper(False, mp)
+
+    print("Testing with VLLM_USE_BYTECODE_HOOK=True")
+    test_torch_compile_wrapper(True, mp)
+
+    print("All tests passed!")
diff --git a/tests/models/multimodal/generation/test_qwen2_5_vl.py b/tests/models/multimodal/generation/test_qwen2_5_vl.py
index 6b009075abfa7..3ba665710af46 100644
--- a/tests/models/multimodal/generation/test_qwen2_5_vl.py
+++ b/tests/models/multimodal/generation/test_qwen2_5_vl.py
@@ -34,6 +34,7 @@ VIDEO_PROMPTS = VIDEO_ASSETS.prompts(
 @pytest.mark.parametrize("num_frames", [16])
 @pytest.mark.parametrize("dtype", [target_dtype])
 @pytest.mark.parametrize("max_tokens", [128])
+@pytest.mark.parametrize("use_bytecode_hook", [True, False])
 def test_qwen2_5_vl_evs_functionality(
     vllm_runner,
     video_assets,
@@ -42,10 +43,14 @@ def test_qwen2_5_vl_evs_functionality(
     num_frames: int,
     dtype: str,
     max_tokens: int,
+    use_bytecode_hook: bool,
+    monkeypatch,
 ) -> None:
     """Test EVS (Efficient Video Sampling) functionality with different
     pruning rates.
     """
+    # Set the environment variable for this test
+    monkeypatch.setenv("VLLM_USE_BYTECODE_HOOK", "1" if use_bytecode_hook else "0")
 
     # Sample frames from video assets
     sampled_vids = [
@@ -86,6 +91,7 @@ def test_qwen2_5_vl_evs_functionality(
 @pytest.mark.parametrize("num_frames", [16])
 @pytest.mark.parametrize("dtype", [target_dtype])
 @pytest.mark.parametrize("max_tokens", [128])
+@pytest.mark.parametrize("use_bytecode_hook", [True, False])
 def test_qwen2_5_vl_evs_batched_videos(
     vllm_runner,
     video_assets,
@@ -94,6 +100,8 @@ def test_qwen2_5_vl_evs_batched_videos(
     num_frames: int,
     dtype: str,
     max_tokens: int,
+    use_bytecode_hook: bool,
+    monkeypatch,
 ) -> None:
     """Test EVS functionality with batched videos.
 
@@ -102,6 +110,8 @@ def test_qwen2_5_vl_evs_batched_videos(
     2. Both pruning configurations work with multiple videos
     3. The model doesn't crash when processing multiple videos simultaneously
     """
+    # Set the environment variable for this test
+    monkeypatch.setenv("VLLM_USE_BYTECODE_HOOK", "1" if use_bytecode_hook else "0")
     # Sample frames from video assets
     sampled_vids = [
         sample_frames_from_video(asset.np_ndarrays, num_frames)
diff --git a/tests/v1/e2e/test_spec_decode.py b/tests/v1/e2e/test_spec_decode.py
index 6cffaafb127ed..03396270a31cb 100644
--- a/tests/v1/e2e/test_spec_decode.py
+++ b/tests/v1/e2e/test_spec_decode.py
@@ -75,6 +75,14 @@ def model_name():
     return "meta-llama/Llama-3.1-8B-Instruct"
 
 
+@pytest.fixture(autouse=True)
+def reset_torch_dynamo():
+    """Reset torch dynamo cache before each test"""
+    yield
+    # Cleanup after test
+    torch._dynamo.reset()
+
+
 @pytest.mark.parametrize(
     "speculative_config",
     [
diff --git a/vllm/compilation/decorators.py b/vllm/compilation/decorators.py
index 0946fa69171b4..e325bca73abb0 100644
--- a/vllm/compilation/decorators.py
+++ b/vllm/compilation/decorators.py
@@ -17,7 +17,7 @@ from torch._dynamo.symbolic_convert import InliningInstructionTranslator
 
 import vllm.envs as envs
 from vllm.compilation.counter import compilation_counter
-from vllm.compilation.wrapper import TorchCompileWrapperWithCustomDispatcher
+from vllm.compilation.wrapper import TorchCompileWithNoGuardsWrapper
 from vllm.config import (
     CompilationMode,
     VllmConfig,
@@ -246,14 +246,14 @@ def _support_torch_compile(
     """
     A decorator to add support for compiling the forward method of a class.
     """
-    if TorchCompileWrapperWithCustomDispatcher in cls.__bases__:
+    if TorchCompileWithNoGuardsWrapper in cls.__bases__:
         # support decorating multiple times
         return cls
 
     # take care of method resolution order
     # make sure super().__init__ is called on the base class
-    #  other than TorchCompileWrapperWithCustomDispatcher
-    cls.__bases__ = cls.__bases__ + (TorchCompileWrapperWithCustomDispatcher,)
+    #  other than TorchCompileWithNoGuardsWrapper
+    cls.__bases__ = cls.__bases__ + (TorchCompileWithNoGuardsWrapper,)
 
     old_init = cls.__init__
 
@@ -290,12 +290,43 @@ def _support_torch_compile(
             return
 
         compilation_counter.num_models_seen += 1
-        TorchCompileWrapperWithCustomDispatcher.__init__(
-            self, compilation_mode=vllm_config.compilation_config.mode
-        )
+        self.compiled = False
+        TorchCompileWithNoGuardsWrapper.__init__(self)
 
     cls.__init__ = __init__
 
+    def _mark_dynamic_inputs(mod, *args, **kwargs):
+        sig = inspect.signature(mod.__class__.forward)
+        bound_args = sig.bind(mod, *args, **kwargs)
+        bound_args.apply_defaults()
+        for k, dims in dynamic_arg_dims.items():
+            arg = bound_args.arguments.get(k)
+            if arg is not None:
+                dims = [dims] if isinstance(dims, int) else dims
+                if isinstance(arg, torch.Tensor):
+                    # In case dims is specified with negative indexing
+                    dims = [arg.ndim + dim if dim < 0 else dim for dim in dims]
+                    torch._dynamo.mark_dynamic(arg, dims)
+                elif isinstance(arg, IntermediateTensors):
+                    for tensor in arg.tensors.values():
+                        # In case dims is specified with negative indexing
+                        dims = [tensor.ndim + dim if dim < 0 else dim for dim in dims]
+                        torch._dynamo.mark_dynamic(tensor, dims)
+                else:
+                    raise ValueError(
+                        "Unsupported dynamic dimensions"
+                        f" {dims} for argument {k} with type {type(arg)}."
+                    )
+        if mark_unbacked_dims:
+            for k, dims in mark_unbacked_dims.items():
+                arg = bound_args.arguments.get(k)
+                if arg is not None:
+                    dims = [dims] if isinstance(dims, int) else dims
+                    if isinstance(arg, torch.Tensor):
+                        # In case dims is specified with negative indexing
+                        dims = [arg.ndim + dim if dim < 0 else dim for dim in dims]
+                        torch._dynamo.decorators.mark_unbacked(arg, dims)
+
     def __call__(self, *args, **kwargs):
         # torch.compiler.is_compiling() means we are inside the compilation
         # e.g. TPU has the compilation logic in model runner, so we don't
@@ -303,6 +334,7 @@ def _support_torch_compile(
         if self.do_not_compile or torch.compiler.is_compiling():
             return self.forward(*args, **kwargs)
 
+        # if aot_compiled_fn is set, just call it.
         if getattr(self, "aot_compiled_fn", None) is not None:
             return self.aot_compiled_fn(self, *args, **kwargs)
 
@@ -362,120 +394,84 @@ def _support_torch_compile(
                 )
                 return self.aot_compiled_fn(self, *args, **kwargs)
 
+        if self.compiled:
+            assert not envs.VLLM_USE_AOT_COMPILE
+            return TorchCompileWithNoGuardsWrapper.__call__(self, *args, **kwargs)
+
+        # This is the path for the first compilation.
+
         # the first compilation needs to have dynamic shapes marked
-        if len(self.compiled_codes) < 1:
-            sig = inspect.signature(self.__class__.forward)
-            bound_args = sig.bind(self, *args, **kwargs)
-            bound_args.apply_defaults()
-            for k, dims in dynamic_arg_dims.items():
-                arg = bound_args.arguments.get(k)
-                if arg is not None:
-                    dims = [dims] if isinstance(dims, int) else dims
-                    if isinstance(arg, torch.Tensor):
-                        # In case dims is specified with negative indexing
-                        dims = [arg.ndim + dim if dim < 0 else dim for dim in dims]
-                        torch._dynamo.mark_dynamic(arg, dims)
-                    elif isinstance(arg, IntermediateTensors):
-                        for tensor in arg.tensors.values():
-                            # In case dims is specified with negative indexing
-                            dims = [
-                                tensor.ndim + dim if dim < 0 else dim for dim in dims
-                            ]
-                            torch._dynamo.mark_dynamic(tensor, dims)
-                    else:
-                        raise ValueError(
-                            "Unsupported dynamic dimensions"
-                            f" {dims} for argument {k} with type {type(arg)}."
-                        )
-            if mark_unbacked_dims:
-                for k, dims in mark_unbacked_dims.items():
-                    arg = bound_args.arguments.get(k)
-                    if arg is not None:
-                        dims = [dims] if isinstance(dims, int) else dims
-                        if isinstance(arg, torch.Tensor):
-                            # In case dims is specified with negative indexing
-                            dims = [arg.ndim + dim if dim < 0 else dim for dim in dims]
-                            torch._dynamo.decorators.mark_unbacked(arg, dims)
-            # here, it is the starting point of the `torch.compile` process
-            start_monitoring_torch_compile(self.vllm_config)
-            logger.debug("Start compiling function %s", self.original_code_object)
+        _mark_dynamic_inputs(self, *args, **kwargs)
 
-        # if we don't use custom dispatcher, we can directly call the
-        # compiled function and let torch.compile handle the dispatching,
-        # with the overhead of guard evaluation and recompilation.
-        if len(self.compiled_codes) < 1 or not self.use_custom_dispatcher:
-            # it seems Dynamo reuse the compilation across instances,
-            # while we need to make sure the compiled code is not reused.
-            # we need to control all the compilation of the model.
-            torch._dynamo.eval_frame.remove_from_cache(self.original_code_object)
+        # here, it is the starting point of the `torch.compile` process
+        start_monitoring_torch_compile(self.vllm_config)
+        original_code_object = self.original_code_object()
+        logger.debug("Start compiling function %s", original_code_object)
 
-            # collect all relevant files traced by Dynamo,
-            # so that the compilation cache can trigger re-compilation
-            # properly when any of these files change.
+        # we do not want tp delete the original code object entries since
+        # we depend on them now to look up cached compiled functions.
+        # torch._dynamo.eval_frame.remove_from_cache(original_code_object)
 
-            # 1. the file containing the top-level forward function
-            self.vllm_config.compilation_config.traced_files.add(
-                self.original_code_object.co_filename
-            )
+        # collect all relevant files traced by Dynamo,
+        # so that the compilation cache can trigger re-compilation
+        # properly when any of these files change.
 
-            # 2. every time Dynamo sees a function call, it will inline
-            # the function by calling InliningInstructionTranslator.inline_call_
-            # we hijack this function to know all the functions called
-            # during Dynamo tracing, and their corresponding files
-            inline_call = InliningInstructionTranslator.inline_call_
+        # 1. the file containing the top-level forward function
+        self.vllm_config.compilation_config.traced_files.add(
+            original_code_object.co_filename
+        )
 
-            def patched_inline_call(self_):
-                code = self_.f_code
-                self.vllm_config.compilation_config.traced_files.add(code.co_filename)
-                return inline_call(self_)
+        # 2. every time Dynamo sees a function call, it will inline
+        # the function by calling InliningInstructionTranslator.inline_call_
+        # we hijack this function to know all the functions called
+        # during Dynamo tracing, and their corresponding files
+        inline_call = InliningInstructionTranslator.inline_call_
 
-            # Disable the C++ compilation of symbolic shape guards. C++-fication
-            # of symbolic shape guards can improve guard overhead. But, since
-            # vllm skip guards anyways, setting this flag to False can improve
-            # compile time.
-            dynamo_config_patches = {}
-            try:
-                _ = torch._dynamo.config.enable_cpp_symbolic_shape_guards
-                dynamo_config_patches["enable_cpp_symbolic_shape_guards"] = False
-            except AttributeError:
-                # Note: this config is not available in torch 2.6, we can skip
-                # if the config doesn't exist
-                logger.debug("enable_cpp_symbolic_shape_guards config not available")
+        def patched_inline_call(self_):
+            code = self_.f_code
+            self.vllm_config.compilation_config.traced_files.add(code.co_filename)
+            return inline_call(self_)
 
-            with (
-                patch.object(
-                    InliningInstructionTranslator, "inline_call_", patched_inline_call
-                ),
-                torch._dynamo.config.patch(**dynamo_config_patches),
-                maybe_use_cudagraph_partition_wrapper(self.vllm_config),
-                _torch27_patch_tensor_subclasses(),
-            ):
-                if envs.VLLM_USE_AOT_COMPILE:
-                    self.aot_compiled_fn = self.aot_compile(*args, **kwargs)
-                    output = self.aot_compiled_fn(self, *args, **kwargs)
-                    assert aot_compilation_path is not None
-                    assert cache_dir is not None
-                    try:
-                        os.makedirs(cache_dir, exist_ok=True)
-                        self.aot_compiled_fn.save_compiled_function(
-                            aot_compilation_path
-                        )
-                    except Exception as e:
-                        logger.warning(
-                            "Cannot save aot compilation to path %s, error: %s",
-                            aot_compilation_path,
-                            str(e),
-                        )
-                else:
-                    output = self.compiled_callable(*args, **kwargs)
-            return output
+        # Disable the C++ compilation of symbolic shape guards. C++-fication
+        # of symbolic shape guards can improve guard overhead. But, since
+        # vllm skip guards anyways, setting this flag to False can improve
+        # compile time.
+        dynamo_config_patches = {}
+        try:
+            _ = torch._dynamo.config.enable_cpp_symbolic_shape_guards
+            dynamo_config_patches["enable_cpp_symbolic_shape_guards"] = False
+        except AttributeError:
+            # Note: this config is not available in torch 2.6, we can skip
+            # if the config doesn't exist
+            logger.debug("enable_cpp_symbolic_shape_guards config not available")
 
-        # usually, capturing the model once is enough, and then we can
-        # dispatch to the compiled code directly, without going through
-        # the Dynamo guard mechanism.
-        with self.dispatch_to_code(0):
-            model_output = self.forward(*args, **kwargs)
-            return model_output
+        with (
+            patch.object(
+                InliningInstructionTranslator, "inline_call_", patched_inline_call
+            ),
+            torch._dynamo.config.patch(**dynamo_config_patches),
+            maybe_use_cudagraph_partition_wrapper(self.vllm_config),
+            _torch27_patch_tensor_subclasses(),
+        ):
+            if envs.VLLM_USE_AOT_COMPILE:
+                self.aot_compiled_fn = self.aot_compile(*args, **kwargs)
+                output = self.aot_compiled_fn(self, *args, **kwargs)
+                assert aot_compilation_path is not None
+                assert cache_dir is not None
+                try:
+                    os.makedirs(cache_dir, exist_ok=True)
+                    self.aot_compiled_fn.save_compiled_function(aot_compilation_path)
+                except Exception as e:
+                    logger.warning(
+                        "Cannot save aot compilation to path %s, error: %s",
+                        aot_compilation_path,
+                        str(e),
+                    )
+            else:
+                output = TorchCompileWithNoGuardsWrapper.__call__(self, *args, **kwargs)
+
+        self.compiled = True
+        return output
 
     cls.__call__ = __call__
     return cls
diff --git a/vllm/compilation/wrapper.py b/vllm/compilation/wrapper.py
index 4d26619bd128c..493e57f97f0f4 100644
--- a/vllm/compilation/wrapper.py
+++ b/vllm/compilation/wrapper.py
@@ -4,11 +4,11 @@
 import os
 import sys
 from abc import abstractmethod
-from collections.abc import Callable
 from contextlib import contextmanager
 from types import CodeType
 
 import torch
+import torch._C._dynamo.guards
 
 import vllm.envs as envs
 from vllm.config import CompilationMode, CUDAGraphMode, get_current_vllm_config
@@ -17,88 +17,153 @@ from vllm.logger import init_logger
 logger = init_logger(__name__)
 
 
-class TorchCompileWrapperWithCustomDispatcher:
+def _noop_add_global_state_guard(self, *args, **kwargs):
+    """No-op to skip the GLOBAL_STATE guard entirely"""
+    pass
+
+
+def _noop_add_torch_function_mode_stack_guard(self, *args, **kwargs):
+    """No-op to skip the TORCH_FUNCTION_MODE_STACK guard entirely"""
+    pass
+
+
+@contextmanager
+def _compilation_context():
+    """Context manager for compilation settings and patches.
+
+    This manager:
+    1. Sets higher dynamo cache limits for compilation. (Needed for
+        qwen2_5_vl see test_qwen2_5_vl_evs_functionality).
+        Generally a recompilation can happen whenever we use a new
+        backend instance in torch.compile.
+    2. Patches out add_global_state_guard to skip GLOBAL_STATE guards
+    3. Patches out add_torch_function_mode_stack_guard to skip
+        TORCH_FUNCTION_MODE_STACK guards.
+    4. Restores everything when compilation completes
     """
-    A wrapper class for torch.compile, with a custom dispatch logic.
-    Subclasses should:
-    1. Implement the forward method
-    2. Implement the dispatch logic in the __call__ method
-        It can use `self.compiled_codes` to access the compiled bytecode,
-        and `with self.dispatch_to_code(index):` to dispatch to
-        the compiled code.
-    3. Implement the `__init__` method to determine how to call
-        `torch.compile` over the forward method.
+    # Save original values
+    original_global_state_guard = (
+        torch._C._dynamo.guards.GuardManager.add_global_state_guard
+    )
+    original_torch_function_mode_stack_guard = (
+        torch._C._dynamo.guards.GuardManager.add_torch_function_mode_stack_guard
+    )
+    original_cache_size = torch._dynamo.config.cache_size_limit
+    original_accumulated_cache = torch._dynamo.config.accumulated_cache_size_limit
+
+    try:
+        # Set higher cache limits for compilation
+        torch._dynamo.config.cache_size_limit = 2048
+        torch._dynamo.config.accumulated_cache_size_limit = 8192
+
+        # Patch guard manager
+        torch._C._dynamo.guards.GuardManager.add_global_state_guard = (
+            _noop_add_global_state_guard
+        )
+        torch._C._dynamo.guards.GuardManager.add_torch_function_mode_stack_guard = (
+            _noop_add_torch_function_mode_stack_guard
+        )
+        yield
+    finally:
+        # Restore original values
+        torch._C._dynamo.guards.GuardManager.add_global_state_guard = (
+            original_global_state_guard
+        )
+        torch._C._dynamo.guards.GuardManager.add_torch_function_mode_stack_guard = (
+            original_torch_function_mode_stack_guard
+        )
+        torch._dynamo.config.cache_size_limit = original_cache_size
+        torch._dynamo.config.accumulated_cache_size_limit = original_accumulated_cache
+
+
+class TorchCompileWithNoGuardsWrapper:
+    """
+    A wrapper class for torch.compile, it ensures that all guards are dropped
+    when CompilationMode is not CompilationMode.STOCK_TORCH_COMPILE.
+    When guards are dropped, the first time __call__ is invoked, a single
+    compilation is triggered. Dynamo should never be traced again after that
+    since we drop all guards.
     """
 
-    def __init__(
-        self,
-        compiled_callable: Callable | None = None,
-        compilation_mode: CompilationMode = CompilationMode.NONE,
-    ):
+    def __init__(self):
+        self.compiled = False
+
         vllm_config = get_current_vllm_config()
         self.vllm_config = vllm_config
-        if compiled_callable is None:
-            # default compilation settings
-            # compiling the forward method
+        mode = vllm_config.compilation_config.mode
+        if mode is None:
+            raise RuntimeError("Compilation mode cannot be NO_COMPILATION")
 
-            backend = vllm_config.compilation_config.init_backend(vllm_config)
-            options = None
-            if isinstance(backend, str) and backend == "inductor":
-                options = (
-                    get_current_vllm_config().compilation_config.inductor_compile_config
-                )
-            if envs.VLLM_USE_AOT_COMPILE:
-                options = options or {}
-                # This effectively drop all the guards.
-                # We need this because bytecode hook is not used any more to
-                # drop guards in the AOT compile mode.
-                options["guard_filter_fn"] = lambda guards: [False for _ in guards]
-                if hasattr(torch._dynamo.config, "enable_aot_compile"):
-                    torch._dynamo.config.enable_aot_compile = True
-                else:
-                    msg = "torch._dynamo.config.enable_aot_compile is not "
-                    msg += "available. AOT compile is disabled and please "
-                    msg += "upgrade PyTorch version to use AOT compile."
-                    logger.warning(msg)
+        backend = vllm_config.compilation_config.init_backend(vllm_config)
+        options = {}
 
-            compiled_callable = torch.compile(
-                self.forward, fullgraph=True, backend=backend, options=options
-            )
+        if isinstance(backend, str) and backend == "inductor":
+            options = vllm_config.compilation_config.inductor_compile_config
 
-        self.compiled_callable = compiled_callable
-        self.original_code_object = self.__class__.forward.__code__
-        self.compiled_codes: list[CodeType] = []
-        torch._dynamo.convert_frame.register_bytecode_hook(self.bytecode_hook)
+        if mode != CompilationMode.STOCK_TORCH_COMPILE:
+            # Drop all the guards.
+            options["guard_filter_fn"] = lambda x: [False for _ in x]
 
-        # read the env var to determine whether to use the custom dispatcher
-        # subclasses can use this to switch between the custom dispatcher
-        # and the default Dynamo guard mechanism.
-        self.use_custom_dispatcher: bool = (
-            compilation_mode >= CompilationMode.DYNAMO_TRACE_ONCE
+        if envs.VLLM_USE_AOT_COMPILE:
+            if hasattr(torch._dynamo.config, "enable_aot_compile"):
+                torch._dynamo.config.enable_aot_compile = True
+            else:
+                msg = "torch._dynamo.config.enable_aot_compile is not "
+                msg += "available. AOT compile is disabled and please "
+                msg += "upgrade PyTorch version to use AOT compile."
+                logger.warning(msg)
+
+        self._compiled_callable = torch.compile(
+            self.forward,
+            fullgraph=True,
+            dynamic=False,
+            backend=backend,
+            options=options,
         )
 
+        if envs.VLLM_USE_BYTECODE_HOOK and mode != CompilationMode.STOCK_TORCH_COMPILE:
+            torch._dynamo.convert_frame.register_bytecode_hook(self.bytecode_hook)
+            self._compiled_bytecode = None
+
     def aot_compile(self, *args, **kwargs):
-        if not hasattr(self.compiled_callable, "aot_compile"):
+        if not hasattr(self._compiled_callable, "aot_compile"):
             raise RuntimeError(
                 "aot_compile is not supported by the current configuration. "
                 + "Please make sure torch.compile is enabled with the latest "
                 + f"version of PyTorch (current using torch: {torch.__version__})"
             )
-        return self.compiled_callable.aot_compile((args, kwargs))
+        return self._compiled_callable.aot_compile((args, kwargs))
 
     def __call__(self, *args, **kwargs):
-        """Implement the dispatch logic here, beyond the torch.compile mode.
-        NOTE: this function can have additional arguments beyond the forward
-         method, for directly dispatching to the compiled code.
-        """
-        return self.compiled_callable(*args, **kwargs)
+        if envs.VLLM_USE_BYTECODE_HOOK:
+            if (
+                self.vllm_config.compilation_config.mode
+                == CompilationMode.STOCK_TORCH_COMPILE
+            ):
+                return self._compiled_callable(*args, **kwargs)
+
+            if not self._compiled_bytecode:
+                # Make sure a compilation is triggered by clearing dynamo
+                # cache.
+                torch._dynamo.eval_frame.remove_from_cache(self.original_code_object())
+                return self._compiled_callable(*args, **kwargs)
+            else:
+                with self._dispatch_to_compiled_code():
+                    return self.forward(*args, **kwargs)
+        else:
+            with _compilation_context():
+                return self._compiled_callable(*args, **kwargs)
 
     @abstractmethod
     def forward(self, *args, **kwargs): ...
 
+    def original_code_object(self) -> CodeType:
+        """Return the original code object of the forward method."""
+        return self.__class__.forward.__code__
+
     def bytecode_hook(self, old_code: CodeType, new_code: CodeType):
         """Hook to save the compiled bytecode for direct execution."""
-        if old_code is not self.original_code_object:
+        if old_code is not self.original_code_object():
             return
         # code borrowed from https://github.com/thuml/depyf/blob/f4ad79fadee27ea113b4c75202db1eb1a11c0dbc/depyf/explain/enable_debugging.py#L25
         frame = sys._getframe()
@@ -114,7 +179,7 @@ class TorchCompileWrapperWithCustomDispatcher:
         if frame.f_locals["self"] is not self:
             return
 
-        self.compiled_codes.append(new_code)
+        self._compiled_bytecode = new_code
 
         path = self.vllm_config.compile_debug_dump_path()
         if path:
@@ -153,16 +218,21 @@ class TorchCompileWrapperWithCustomDispatcher:
             raise RuntimeError(msg)
 
     @contextmanager
-    def dispatch_to_code(self, index: int):
-        """Context manager to dispatch to the compiled code.
+    def _dispatch_to_compiled_code(self):
+        # noqa: E501
+        """
+        Context manager to dispatch to internally compiled code for torch<2.8.
         Why does this work? Because Dynamo guarantees that the compiled
         bytecode has exactly the same arguments, cell variables, and free
         variables as the original code. Therefore we can directly switch
         the code object in the function and call it.
 
-        See https://dev-discuss.pytorch.org/t/what-is-the-relationship-requirement-among-original-bytecode-transformed-bytecode-and-bytecode-returned-by-hooks-in-dynamo/1693/7
-        for more details.
-        """
-        self.__class__.forward.__code__ = self.compiled_codes[index]
-        yield
-        self.__class__.forward.__code__ = self.original_code_object
+        See https://dev-discuss.pytorch.org/t/what-is-the-relationship-requirement-among-original-bytecode-transformed-bytecode-and-bytecode-returned-by-hooks-in-dynamo/1693/7 for more details.
+        """  # noqa: E501 line too long
+        original = self.original_code_object()
+        assert self._compiled_bytecode is not None
+        self.__class__.forward.__code__ = self._compiled_bytecode
+        try:
+            yield
+        finally:
+            self.__class__.forward.__code__ = original
diff --git a/vllm/envs.py b/vllm/envs.py
index 0530938c32f9e..7987e5fb83fdf 100755
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -92,6 +92,7 @@ if TYPE_CHECKING:
     VLLM_TORCH_PROFILER_RECORD_SHAPES: bool = False
     VLLM_TORCH_PROFILER_WITH_PROFILE_MEMORY: bool = False
     VLLM_USE_AOT_COMPILE: bool = False
+    VLLM_USE_BYTECODE_HOOK: bool = False
     VLLM_FORCE_AOT_LOAD: bool = False
     VLLM_TORCH_PROFILER_WITH_STACK: bool = True
     VLLM_TORCH_PROFILER_WITH_FLOPS: bool = False
@@ -556,6 +557,11 @@ environment_variables: dict[str, Callable[[], Any]] = {
     # compilation is done in warmup phase and the compilation will be
     # reused in subsequent calls.
     "VLLM_USE_AOT_COMPILE": use_aot_compile,
+    # Feature flag to enable/disable bytecode in
+    # TorchCompileWithNoGuardsWrapper.
+    "VLLM_USE_BYTECODE_HOOK": lambda: bool(
+        int(os.environ.get("VLLM_USE_BYTECODE_HOOK", "1"))
+    ),
     # Force vllm to always load AOT compiled models from disk. Failure
     # to load will result in a hard error when this is enabled.
     # Will be ignored when VLLM_USE_AOT_COMPILE is disabled.
diff --git a/vllm/v1/worker/tpu_model_runner.py b/vllm/v1/worker/tpu_model_runner.py
index 0f90578671db5..01490e0dfac9c 100644
--- a/vllm/v1/worker/tpu_model_runner.py
+++ b/vllm/v1/worker/tpu_model_runner.py
@@ -21,7 +21,7 @@ from vllm.attention import Attention
 from vllm.attention.backends.abstract import AttentionType
 from vllm.attention.layer import MLAAttention
 from vllm.attention.layers.chunked_local_attention import ChunkedLocalAttention
-from vllm.compilation.wrapper import TorchCompileWrapperWithCustomDispatcher
+from vllm.compilation.wrapper import TorchCompileWithNoGuardsWrapper
 from vllm.config import (
     ParallelConfig,
     VllmConfig,
@@ -1895,12 +1895,14 @@ class TPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
             compiled_model = self.model.get_language_model().model
         else:
             compiled_model = self.model.model
-        if isinstance(compiled_model, TorchCompileWrapperWithCustomDispatcher):
+        if isinstance(compiled_model, TorchCompileWithNoGuardsWrapper):
             logger.info("Clear dynamo cache and cached dynamo bytecode.")
             torch._dynamo.eval_frame.remove_from_cache(
-                compiled_model.original_code_object
+                compiled_model.original_code_object()
             )
-            compiled_model.compiled_codes.clear()
+            # Reset the wrapper to re-initialize.
+            compiled_model.compiled = False
+            TorchCompileWithNoGuardsWrapper.__init__(compiled_model)
 
     @torch.compile(backend="openxla", fullgraph=True, dynamic=False)
     def select_hidden_states(self, hidden_states, indices_do_sample):

From e5c78956c0c576d8f7230c29550ff09ffff0c064 Mon Sep 17 00:00:00 2001
From: Alexander Matveev <59768536+alexm-redhat@users.noreply.github.com>
Date: Fri, 14 Nov 2025 17:13:46 -0500
Subject: [PATCH 475/976] [Bugfix] Fix incorrect use of hidden_states for
 shared_experts due to do_naive_dispatch_combine (#28740)

Signed-off-by: Alexander Matveev <amatveev@redhat.com>
---
 vllm/model_executor/layers/fused_moe/layer.py | 6 ++++--
 1 file changed, 4 insertions(+), 2 deletions(-)

diff --git a/vllm/model_executor/layers/fused_moe/layer.py b/vllm/model_executor/layers/fused_moe/layer.py
index aed8245cbd830..023132acfed3f 100644
--- a/vllm/model_executor/layers/fused_moe/layer.py
+++ b/vllm/model_executor/layers/fused_moe/layer.py
@@ -1749,14 +1749,16 @@ class FusedMoE(CustomOp):
 
         with sp_ctx:
             if do_naive_dispatch_combine:
-                hidden_states, router_logits = get_ep_group().dispatch(
+                hidden_states_combined, router_logits = get_ep_group().dispatch(
                     hidden_states, router_logits, self.is_sequence_parallel
                 )
 
             # Matrix multiply.
             final_hidden_states = self.quant_method.apply(
                 layer=self,
-                x=hidden_states,
+                x=hidden_states_combined
+                if do_naive_dispatch_combine
+                else hidden_states,
                 router_logits=router_logits,
                 top_k=self.top_k,
                 renormalize=self.renormalize,

From bf3ffb61e61525cce5fdec8a249f8114a0c0bfcc Mon Sep 17 00:00:00 2001
From: Benjamin Chislett <bchislett@nvidia.com>
Date: Fri, 14 Nov 2025 17:14:46 -0500
Subject: [PATCH 476/976] [Bugfix] Fix ChunkedLocalAttention CUDA Graph setting
 (#28739)

Signed-off-by: Benjamin Chislett <bchislett@nvidia.com>
---
 .../layers/chunked_local_attention.py         | 19 ++++++++++++++++---
 1 file changed, 16 insertions(+), 3 deletions(-)

diff --git a/vllm/attention/layers/chunked_local_attention.py b/vllm/attention/layers/chunked_local_attention.py
index f144e8435b6cf..48fcc6fa736bb 100644
--- a/vllm/attention/layers/chunked_local_attention.py
+++ b/vllm/attention/layers/chunked_local_attention.py
@@ -1,7 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 import functools
-from typing import ClassVar
 
 import torch
 
@@ -12,11 +11,16 @@ from vllm.config.vllm import VllmConfig
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.v1.attention.backends.utils import (
     AttentionCGSupport,
+    AttentionMetadataBuilder,
     CommonAttentionMetadata,
     make_local_attention_virtual_batches,
     subclass_attention_backend,
 )
-from vllm.v1.kv_cache_interface import ChunkedLocalAttentionSpec, KVCacheSpec
+from vllm.v1.kv_cache_interface import (
+    AttentionSpec,
+    ChunkedLocalAttentionSpec,
+    KVCacheSpec,
+)
 
 from ..layer import Attention
 
@@ -30,9 +34,18 @@ def create_chunked_local_attention_backend(
     prefix = f"ChunkedLocalAttention_{attention_chunk_size}_{block_size}_"
 
     underlying_builder = underlying_attn_backend.get_builder_cls()
+    assert issubclass(underlying_builder, AttentionMetadataBuilder)
 
     class ChunkedLocalAttentionBuilder(underlying_builder):  # type: ignore
-        _cudagraph_support: ClassVar[AttentionCGSupport] = AttentionCGSupport.NEVER
+        @classmethod
+        def get_cudagraph_support(
+            cls: type["AttentionMetadataBuilder"],
+            vllm_config: VllmConfig,
+            kv_cache_spec: AttentionSpec,
+        ) -> AttentionCGSupport:
+            # Explicit override in case the underlying builder specialized this getter.
+            # @override omitted only because of mypy limitation due to type variable.
+            return AttentionCGSupport.NEVER
 
         def build(
             self,

From e0c910bb89e45f4a2a976dc3c76248bbdea854e0 Mon Sep 17 00:00:00 2001
From: Thomas Parnell <tpa@zurich.ibm.com>
Date: Fri, 14 Nov 2025 23:55:42 +0100
Subject: [PATCH 477/976] [Hybrid] [Kernel] Fix chunk scan kernel when
 BLOCK_SIZE_DSTATE > 128 (#28295)

Signed-off-by: Thomas Parnell <tpa@zurich.ibm.com>
---
 vllm/model_executor/layers/mamba/ops/ssd_chunk_scan.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/model_executor/layers/mamba/ops/ssd_chunk_scan.py b/vllm/model_executor/layers/mamba/ops/ssd_chunk_scan.py
index e5a5c9dd6f712..661c884627b00 100644
--- a/vllm/model_executor/layers/mamba/ops/ssd_chunk_scan.py
+++ b/vllm/model_executor/layers/mamba/ops/ssd_chunk_scan.py
@@ -245,7 +245,7 @@ def _chunk_scan_fwd_kernel(
             )
             if not HAS_INITSTATES and (seq_idx != seq_idx_prev):
                 prev_states = tl.zeros(
-                    (BLOCK_SIZE_DSTATE, BLOCK_SIZE_K), dtype=C_ptr.dtype.element_ty
+                    (BLOCK_SIZE_K, BLOCK_SIZE_N), dtype=C_ptr.dtype.element_ty
                 )
             else:
                 prev_states = tl.load(

From ba041d980b5677a0ab6cebb3c7fe24cfe27bac66 Mon Sep 17 00:00:00 2001
From: rasmith <Randall.Smith@amd.com>
Date: Fri, 14 Nov 2025 17:26:39 -0600
Subject: [PATCH 478/976] [Log] Save profiler results to file instead of stdout
 (#28144)

Signed-off-by: Randall Smith <ransmith@amd.com>
Co-authored-by: Randall Smith <ransmith@amd.com>
---
 vllm/v1/worker/gpu_worker.py | 21 +++++++++++++--------
 1 file changed, 13 insertions(+), 8 deletions(-)

diff --git a/vllm/v1/worker/gpu_worker.py b/vllm/v1/worker/gpu_worker.py
index 2b9d8bb2f25e6..283e3744bcf6f 100644
--- a/vllm/v1/worker/gpu_worker.py
+++ b/vllm/v1/worker/gpu_worker.py
@@ -596,14 +596,19 @@ class Worker(WorkerBase):
             self.profiler.start()
         else:
             self.profiler.stop()
-            # only print profiler results on rank 0
-            if (
-                isinstance(self.profiler, torch.profiler.profile)
-                and self.local_rank == 0
-            ):
-                print(
-                    self.profiler.key_averages().table(sort_by="self_cuda_time_total")
-                )
+            if isinstance(self.profiler, torch.profiler.profile):
+                rank = self.local_rank
+                profiler_dir = envs.VLLM_TORCH_PROFILER_DIR
+                profiler_out_file = f"{profiler_dir}/profiler_out_{rank}.txt"
+                sort_key = "self_cuda_time_total"
+                table = self.profiler.key_averages().table(sort_by=sort_key)
+
+                with open(profiler_out_file, "w") as f:
+                    print(table, file=f)
+
+                # only print profiler results on rank 0
+                if rank == 0:
+                    print(table)
 
     def execute_dummy_batch(self) -> None:
         self.model_runner._dummy_run(1, uniform_decode=True)

From 75f01b9d3c3a40e52e2fa4a2c9efc92cf45a88fc Mon Sep 17 00:00:00 2001
From: Gregory Shtrasberg <156009573+gshtras@users.noreply.github.com>
Date: Fri, 14 Nov 2025 18:53:21 -0500
Subject: [PATCH 479/976] [ROCm][CI/Build] Upgrade to ROCm 7.1 and AITER main
 (#28753)

Signed-off-by: Gregory Shtrasberg <Gregory.Shtrasberg@amd.com>
---
 docker/Dockerfile.rocm_base | 7 +++++--
 1 file changed, 5 insertions(+), 2 deletions(-)

diff --git a/docker/Dockerfile.rocm_base b/docker/Dockerfile.rocm_base
index 19f7fa7e1468d..df4f9b6c26e7d 100644
--- a/docker/Dockerfile.rocm_base
+++ b/docker/Dockerfile.rocm_base
@@ -1,4 +1,4 @@
-ARG BASE_IMAGE=rocm/dev-ubuntu-22.04:7.0-complete
+ARG BASE_IMAGE=rocm/dev-ubuntu-22.04:7.1-complete
 ARG TRITON_BRANCH="57c693b6"
 ARG TRITON_REPO="https://github.com/ROCm/triton.git"
 ARG PYTORCH_BRANCH="1c57644d"
@@ -7,7 +7,7 @@ ARG PYTORCH_REPO="https://github.com/ROCm/pytorch.git"
 ARG PYTORCH_VISION_REPO="https://github.com/pytorch/vision.git"
 ARG FA_BRANCH="0e60e394"
 ARG FA_REPO="https://github.com/Dao-AILab/flash-attention.git"
-ARG AITER_BRANCH="9716b1b8"
+ARG AITER_BRANCH="59bd8ff2"
 ARG AITER_REPO="https://github.com/ROCm/aiter.git"
 
 FROM ${BASE_IMAGE} AS base
@@ -19,6 +19,9 @@ ARG PYTORCH_ROCM_ARCH=gfx90a;gfx942;gfx950;gfx1100;gfx1101;gfx1200;gfx1201;gfx11
 ENV PYTORCH_ROCM_ARCH=${PYTORCH_ROCM_ARCH}
 ENV AITER_ROCM_ARCH=gfx942;gfx950
 
+# Required for RCCL in ROCm7.1
+ENV HSA_NO_SCRATCH_RECLAIM=1
+
 ARG PYTHON_VERSION=3.12
 
 RUN mkdir -p /app

From 58e61e56b744da109269586fe45ecc47b10dca5f Mon Sep 17 00:00:00 2001
From: Nick Hill <nhill@redhat.com>
Date: Fri, 14 Nov 2025 16:01:09 -0800
Subject: [PATCH 480/976] [Test] Rework e2e async scheduling tests (#28744)

Signed-off-by: Nick Hill <nhill@redhat.com>
---
 tests/v1/e2e/test_async_scheduling.py | 362 +++++++++++++++++++-------
 1 file changed, 270 insertions(+), 92 deletions(-)

diff --git a/tests/v1/e2e/test_async_scheduling.py b/tests/v1/e2e/test_async_scheduling.py
index 444afd5196dd8..dbe403ece0514 100644
--- a/tests/v1/e2e/test_async_scheduling.py
+++ b/tests/v1/e2e/test_async_scheduling.py
@@ -1,5 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from itertools import repeat
 from typing import Any
 
 import pytest
@@ -8,126 +9,291 @@ import torch._dynamo.config as dynamo_config
 from vllm import SamplingParams
 from vllm.logprobs import Logprob
 from vllm.sampling_params import StructuredOutputsParams
+from vllm.v1.metrics.reader import Metric
 
 from ...conftest import VllmRunner
 from ...models.utils import check_outputs_equal
 
 MODEL = "Qwen/Qwen3-0.6B"
+MTP_MODEL = "XiaomiMiMo/MiMo-7B-Base"
 
 
-@dynamo_config.patch(cache_size_limit=16)
-def test_preempt_and_async_scheduling_e2e(
-    sample_json_schema, monkeypatch: pytest.MonkeyPatch
+first_prompt = (
+    "The following numbers of the sequence "
+    + ", ".join(str(i) for i in range(10))
+    + " are:"
+)
+example_prompts = [first_prompt, "In one word, the capital of France is "] + [
+    f"Tell me about the number {i}: " for i in range(32)
+]
+
+default_params = dict(
+    temperature=0.0,  # greedy
+    max_tokens=20,
+)
+
+
+def test_without_spec_decoding(
+    sample_json_schema,
+    monkeypatch: pytest.MonkeyPatch,
 ):
     """Test consistency of combos of async scheduling, preemption,
-    uni/multiproc executor, and various sampling parameters
-    including structured outputs."""
-
-    first_prompt = (
-        "The following numbers of the sequence "
-        + ", ".join(str(i) for i in range(10))
-        + " are:"
-    )
-    example_prompts = [first_prompt, "In one word, the capital of France is "] + [
-        f"Tell me about the number {i}: " for i in range(32)
-    ]
-
-    sampling_param_tests: list[dict[str, Any]] = [
+    uni/multiproc executor, prefill chunking."""
+    struct_outputs = StructuredOutputsParams(json=sample_json_schema)
+    test_sampling_params: list[dict[str, Any]] = [
         dict(),
         # dict(min_tokens=20),
         dict(presence_penalty=-1.0),
         dict(bad_words=["the", " the"]),
         dict(logprobs=2),
         dict(logprobs=2, presence_penalty=-1.0),
-        dict(structured_outputs=StructuredOutputsParams(json=sample_json_schema)),
+        dict(structured_outputs=struct_outputs),
         dict(
-            structured_outputs=StructuredOutputsParams(json=sample_json_schema),
+            structured_outputs=struct_outputs,
             logprobs=2,
             presence_penalty=-1.0,
         ),
     ]
 
-    default_params = dict(
-        temperature=0.0,  # greedy
-        max_tokens=20,
+    # test_preemption, executor, async_scheduling,
+    # spec_config, test_prefill_chunking
+    test_configs = [
+        (False, "mp", False, None, False),
+        (True, "mp", False, None, True),
+        (False, "mp", True, None, False),
+        (False, "uni", True, None, False),
+        (True, "mp", True, None, False),
+        (True, "uni", True, None, False),
+        (False, "mp", True, None, True),
+        # Async scheduling + preemption + chunked prefill needs to be fixed (WIP)
+        # (True, "mp", True, None, True),
+        # (True, "uni", True, None, True),
+    ]
+
+    run_tests(
+        monkeypatch,
+        MODEL,
+        test_configs,
+        test_sampling_params,
     )
 
+
+@pytest.mark.skip("MTP model too big to run in fp32 in CI")
+def test_with_spec_decoding(monkeypatch: pytest.MonkeyPatch):
+    """Test consistency and acceptance rates with some different combos of
+    preemption, executor, async scheduling, prefill chunking,
+    spec decoding model length.
+    """
+
+    spec_config = {
+        "method": "mtp",
+        "num_speculative_tokens": 2,
+    }
+    spec_config_short = spec_config | {"max_model_len": 50}
+
+    # test_preemption, executor, async_scheduling,
+    # spec_config, test_prefill_chunking
+    test_configs = [
+        (False, "mp", False, None, False),
+        (False, "mp", False, spec_config, False),
+        (True, "mp", False, spec_config, True),
+        (True, "uni", False, spec_config_short, True),
+        (False, "mp", True, spec_config, False),
+        (True, "mp", True, spec_config, False),
+        (False, "mp", True, spec_config_short, True),
+        (True, "uni", True, spec_config, False),
+        (True, "uni", True, spec_config_short, False),
+        # Async scheduling + preemption + chunked prefill needs to be fixed (WIP)
+        #  (True, "mp", True, spec_config, True),
+        #  (True, "uni", True, spec_config_short, True),
+    ]
+
+    run_tests(
+        monkeypatch,
+        MTP_MODEL,
+        test_configs,
+        [{}],
+    )
+
+
+@dynamo_config.patch(cache_size_limit=16)
+def run_tests(
+    monkeypatch: pytest.MonkeyPatch,
+    model: str,
+    test_configs: list[tuple],
+    test_sampling_params: list[dict[str, Any]],
+):
+    """Test consistency of combos of async scheduling, preemption,
+    uni/multiproc executor with spec decoding."""
+
     with monkeypatch.context() as m:
+        # avoid precision errors
         m.setenv("VLLM_ATTENTION_BACKEND", "FLEX_ATTENTION")
         # m.setenv("VLLM_BATCH_INVARIANT", "1")
-
-        outputs: list[tuple[str, list]] = []
-        for test_preemption in [False, True]:
-            for executor in ["mp", "uni"]:
-                for async_scheduling in [False, True]:
-                    cache_arg: dict[str, Any] = (
-                        dict(num_gpu_blocks_override=32)
-                        if test_preemption
-                        else dict(gpu_memory_utilization=0.7)
-                    )
-                    test_config = (
-                        f"executor={executor}, preemption={test_preemption},"
-                        f" async_sched={async_scheduling}"
-                    )
-                    print("-" * 80)
-                    print(f"---- TESTING: {test_config}")
-                    print("-" * 80)
-                    with VllmRunner(
-                        MODEL,
-                        max_model_len=512,
-                        enforce_eager=True,
-                        async_scheduling=async_scheduling,
-                        distributed_executor_backend=executor,
-                        dtype="float32",  # avoid precision errors
-                        **cache_arg,
-                    ) as vllm_model:
-                        results = []
-                        for override_params in sampling_param_tests:
-                            print(f"----------- RUNNING PARAMS: {override_params}")
-                            results.append(
-                                vllm_model.generate(
-                                    example_prompts,
-                                    sampling_params=SamplingParams(
-                                        **default_params, **override_params
-                                    ),
-                                    return_logprobs=True,
-                                )
-                            )
-
-                        if not outputs:
-                            # First check that the different parameter configs
-                            # actually result in different output.
-                            for (other_test_outs, other_test_logprobs), params in zip(
-                                results[1:], sampling_param_tests[1:]
-                            ):
-                                with pytest.raises(AssertionError):
-                                    check_outputs_equal(
-                                        outputs_0_lst=results[0][0],
-                                        outputs_1_lst=other_test_outs,
-                                        name_0=f"baseline params={params}",
-                                        name_1=f"other params={params}",
-                                    )
-                                    assert _all_logprobs_match(
-                                        results[0][1], other_test_logprobs
-                                    )
-
-                        outputs.append((test_config, results))
-
-    baseline_config, baseline_tests = outputs[0]
-
-    for test_config, test_outputs in outputs[1:]:
-        for (base_outs, base_logprobs), (test_outs, test_logprobs), params in zip(
-            baseline_tests, test_outputs, sampling_param_tests
-        ):
-            check_outputs_equal(
-                outputs_0_lst=base_outs,
-                outputs_1_lst=test_outs,
-                name_0=f"baseline=[{baseline_config}], params={params}",
-                name_1=f"config=[{test_config}], params={params}",
+        outputs: list[tuple[str, list, list]] = []
+        for n, (
+            test_preemption,
+            executor,
+            async_scheduling,
+            spec_config,
+            test_prefill_chunking,
+        ) in enumerate(test_configs, 1):
+            test_str = f"{n}/{len(test_configs)}"
+            test_results = run_test(
+                model,
+                test_str,
+                test_sampling_params,
+                test_preemption,
+                executor,
+                async_scheduling,
+                spec_config,
+                test_prefill_chunking=test_prefill_chunking,
             )
-            assert _all_logprobs_match(base_logprobs, test_logprobs)
+            outputs.append(test_results)
 
-            print(f"PASSED: config=[{test_config}], params={params}")
+    baseline_config, baseline_tests, _ = outputs[0]
+    _, _, baseline_acceptances = next(
+        (o for o in outputs if o[2] is not None), (None, None, None)
+    )
+
+    print(f"BASELINE: config=[{baseline_config}], accept_rates={baseline_acceptances}")
+
+    failure = None
+    for test_config, test_outputs, test_acceptance_rates in outputs[1:]:
+        for (base_outs, base_logprobs), base_acceptance_rate, (
+            test_outs,
+            test_logprobs,
+        ), test_acceptance_rate, params in zip(
+            baseline_tests,
+            baseline_acceptances or repeat(None),
+            test_outputs,
+            test_acceptance_rates or repeat(None),
+            test_sampling_params,
+        ):
+            try:
+                check_outputs_equal(
+                    outputs_0_lst=base_outs,
+                    outputs_1_lst=test_outs,
+                    name_0=f"baseline=[{baseline_config}], params={params}",
+                    name_1=f"config=[{test_config}], params={params}",
+                )
+                assert _all_logprobs_match(base_logprobs, test_logprobs)
+
+                if (
+                    base_acceptance_rate is not None
+                    and test_acceptance_rate is not None
+                ):
+                    if "spec_mml=None" in test_config:
+                        # because the acceptance rate can vary, we use a looser
+                        # tolerance here.
+                        assert (
+                            pytest.approx(test_acceptance_rate, rel=5e-2)
+                            == base_acceptance_rate
+                        )
+                    else:
+                        # Currently the reported acceptance rate is expected to be
+                        # lower when we skip drafting altogether.
+                        assert test_acceptance_rate > 0.05
+                print(
+                    f"PASSED: config=[{test_config}], params={params}"
+                    f" accept_rate={test_acceptance_rate}"
+                )
+            except AssertionError as e:
+                print(
+                    f"FAILED: config=[{test_config}], params={params}"
+                    f" accept_rate={test_acceptance_rate}"
+                )
+                if failure is None:
+                    failure = e
+
+    if failure is not None:
+        raise failure
+
+
+def run_test(
+    model: str,
+    test_str: str,
+    sampling_param_tests: list[dict[str, Any]],
+    test_preemption: bool,
+    executor: str,
+    async_scheduling: bool,
+    spec_config: dict[str, Any] | None,
+    test_prefill_chunking: bool,
+):
+    spec_decoding = spec_config is not None
+    cache_arg: dict[str, Any] = (
+        dict(num_gpu_blocks_override=32)
+        if test_preemption
+        else dict(gpu_memory_utilization=0.9)
+    )
+    spec_mml = (spec_config or {}).get("max_model_len")
+    test_config = (
+        f"executor={executor}, preemption={test_preemption}, "
+        f"async_sched={async_scheduling}, "
+        f"chunk_prefill={test_prefill_chunking}, "
+        f"spec_decoding={spec_decoding}, spec_mml={spec_mml}"
+    )
+    print("-" * 80)
+    print(f"---- TESTING {test_str}: {test_config}")
+    print("-" * 80)
+    with VllmRunner(
+        model,
+        max_model_len=512,
+        enable_chunked_prefill=test_prefill_chunking,
+        max_num_batched_tokens=48 if test_prefill_chunking else None,
+        # enforce_eager=True,
+        async_scheduling=async_scheduling,
+        distributed_executor_backend=executor,
+        dtype="float32",  # avoid precision errors
+        speculative_config=spec_config,
+        disable_log_stats=False,
+        **cache_arg,
+    ) as vllm_model:
+        results = []
+        acceptance_rates: list[float] | None = [] if spec_decoding else None
+        for override_params in sampling_param_tests:
+            metrics_before = vllm_model.llm.get_metrics()
+            print(f"----------- RUNNING PARAMS: {override_params}")
+            results.append(
+                vllm_model.generate(
+                    example_prompts,
+                    sampling_params=SamplingParams(
+                        **default_params,
+                        **override_params,
+                    ),
+                    return_logprobs=True,
+                )
+            )
+            metrics_after = vllm_model.llm.get_metrics()
+            if acceptance_rates is not None:
+                acceptance_rate = _get_acceptance_rate(metrics_before, metrics_after)
+                acceptance_rates.append(acceptance_rate)
+                print(f"ACCEPTANCE RATE {acceptance_rate}")
+
+            if test_preemption:
+                preemptions = _get_count(
+                    metrics_before,
+                    metrics_after,
+                    "vllm:num_preemptions",
+                )
+                assert preemptions > 0, "preemption test had no preemptions"
+
+    if len(results) > 1:
+        # First check that the different parameter configs
+        # actually result in different output.
+        for (other_test_outs, other_test_logprobs), params in zip(
+            results[1:], sampling_param_tests[1:]
+        ):
+            with pytest.raises(AssertionError):
+                check_outputs_equal(
+                    outputs_0_lst=results[0][0],
+                    outputs_1_lst=other_test_outs,
+                    name_0=f"baseline params={params}",
+                    name_1=f"other params={params}",
+                )
+                assert _all_logprobs_match(results[0][1], other_test_logprobs)
+
+    return test_config, results, acceptance_rates
 
 
 def _all_logprobs_match(req_a, req_b) -> bool:
@@ -149,3 +315,15 @@ def _logprobs_match(lps_a: dict[int, Logprob], lps_b: dict[int, Logprob]) -> boo
         and a.logprob == pytest.approx(b.logprob, rel=1e-3, abs=1e-6)
         for a, b in ((lps_a[x], lps_b[x]) for x in lps_a)
     )
+
+
+def _get_acceptance_rate(before: list[Metric], after: list[Metric]) -> float:
+    draft = _get_count(before, after, "vllm:spec_decode_num_draft_tokens")
+    accept = _get_count(before, after, "vllm:spec_decode_num_accepted_tokens")
+    return accept / draft if draft > 0 else 0.0
+
+
+def _get_count(before: list[Metric], after: list[Metric], name: str) -> int:
+    before_val = next(m.value for m in before if m.name == name)
+    after_val = next(m.value for m in after if m.name == name)
+    return after_val - before_val

From 186352b2703652141df75bc2c012a784706e8572 Mon Sep 17 00:00:00 2001
From: Jialin Ouyang <Jialin.Ouyang@gmail.com>
Date: Fri, 14 Nov 2025 16:04:04 -0800
Subject: [PATCH 481/976] [Core] Performance: Use list[np.ndarray] instead of
 list[list[int]] for output tokens for GC optimization (#26368)

Signed-off-by: Jialin Ouyang <Jialin.Ouyang@gmail.com>
---
 tests/v1/core/test_async_scheduler.py  |  3 +-
 tests/v1/core/test_scheduler.py        | 76 +++++++++++++++-----------
 tests/v1/kv_connector/unit/utils.py    |  3 +-
 tests/v1/spec_decode/test_eagle.py     |  5 +-
 tests/v1/spec_decode/test_ngram.py     | 18 +++---
 vllm/v1/core/sched/scheduler.py        |  4 +-
 vllm/v1/outputs.py                     |  2 +-
 vllm/v1/sample/rejection_sampler.py    |  8 +--
 vllm/v1/spec_decode/eagle.py           |  7 +--
 vllm/v1/spec_decode/ngram_proposer.py  |  6 +-
 vllm/v1/spec_decode/suffix_decoding.py | 10 ++--
 vllm/v1/worker/gpu_model_runner.py     | 36 +++++++-----
 12 files changed, 102 insertions(+), 76 deletions(-)

diff --git a/tests/v1/core/test_async_scheduler.py b/tests/v1/core/test_async_scheduler.py
index e0645ed43015e..1d80ee9875913 100644
--- a/tests/v1/core/test_async_scheduler.py
+++ b/tests/v1/core/test_async_scheduler.py
@@ -2,6 +2,7 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 from collections import deque
 
+import numpy as np
 import pytest
 
 from vllm.v1.core.sched.output import SchedulerOutput
@@ -21,7 +22,7 @@ def _make_model_runner_output(
     return ModelRunnerOutput(
         req_ids=req_ids,
         req_id_to_index={req_id: i for i, req_id in enumerate(req_ids)},
-        sampled_token_ids=[[i] for i in range(len(req_ids))],
+        sampled_token_ids=[np.array([i]) for i in range(len(req_ids))],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
diff --git a/tests/v1/core/test_scheduler.py b/tests/v1/core/test_scheduler.py
index 04e738293cd77..6d95c29ec1ab4 100644
--- a/tests/v1/core/test_scheduler.py
+++ b/tests/v1/core/test_scheduler.py
@@ -3,6 +3,7 @@
 import dataclasses
 from unittest.mock import Mock
 
+import numpy as np
 import pytest
 import torch
 
@@ -169,7 +170,7 @@ def test_schedule_partial_requests():
         req_id_to_index=req_to_index,
         # Only the first request has a sampled token id because
         # the rest requests are still being prefilled.
-        sampled_token_ids=[[0], [], []],
+        sampled_token_ids=[np.array([0]), np.array([]), np.array([])],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -216,7 +217,7 @@ def test_no_mm_input_chunking():
     model_runner_output = ModelRunnerOutput(
         req_ids=[request.request_id for request in requests],
         req_id_to_index=req_to_index,
-        sampled_token_ids=[[] for _ in range(len(requests))],
+        sampled_token_ids=[np.array([]) for _ in range(len(requests))],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -276,7 +277,7 @@ def test_schedule_concurrent_partial_requests(enable_prefix_caching: bool):
     model_runner_output = ModelRunnerOutput(
         req_ids=[request.request_id for request in requests],
         req_id_to_index=req_to_index,
-        sampled_token_ids=[[] for _ in range(len(requests))],
+        sampled_token_ids=[np.array([]) for _ in range(len(requests))],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -300,7 +301,8 @@ def test_schedule_concurrent_partial_requests(enable_prefix_caching: bool):
     model_runner_output = ModelRunnerOutput(
         req_ids=[request.request_id for request in requests],
         req_id_to_index=req_to_index,
-        sampled_token_ids=[[0], [0]] + [[] for _ in range(len(requests) - 2)],
+        sampled_token_ids=[np.array([0]), np.array([0])]
+        + [np.array([]) for _ in range(len(requests) - 2)],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -347,8 +349,8 @@ def test_stop_via_update_from_output():
         req_ids=[req.request_id for req in requests],
         req_id_to_index={req.request_id: i for i, req in enumerate(requests)},
         sampled_token_ids=[
-            [EOS_TOKEN_ID],
-            [10, 11],
+            np.array([EOS_TOKEN_ID]),
+            np.array([10, 11]),
         ],  # First request hits EOS, second continues
         logprobs=None,
         prompt_logprobs_dict={},
@@ -392,7 +394,10 @@ def test_stop_via_update_from_output():
     model_output = ModelRunnerOutput(
         req_ids=[req.request_id for req in requests],
         req_id_to_index={req.request_id: i for i, req in enumerate(requests)},
-        sampled_token_ids=[[10, 42, 12], [13, 14]],  # First request hits stop token
+        sampled_token_ids=[
+            np.array([10, 42, 12]),
+            np.array([13, 14]),
+        ],  # First request hits stop token
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -436,7 +441,10 @@ def test_stop_via_update_from_output():
     model_output = ModelRunnerOutput(
         req_ids=[req.request_id for req in requests],
         req_id_to_index={req.request_id: i for i, req in enumerate(requests)},
-        sampled_token_ids=[[10, 11, 12], [13]],  # First request exceeds max_tokens
+        sampled_token_ids=[
+            np.array([10, 11, 12]),
+            np.array([13]),
+        ],  # First request exceeds max_tokens
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -475,7 +483,7 @@ def test_stop_via_update_from_output():
     model_output = ModelRunnerOutput(
         req_ids=[requests[0].request_id],
         req_id_to_index={requests[0].request_id: 0},
-        sampled_token_ids=[[EOS_TOKEN_ID, 10, 11]],
+        sampled_token_ids=[np.array([EOS_TOKEN_ID, 10, 11])],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -616,7 +624,7 @@ def test_schedule_concurrent_batches(
     model_runner_output = ModelRunnerOutput(
         req_ids=[requests[0].request_id],
         req_id_to_index={requests[0].request_id: 0},
-        sampled_token_ids=[[0]],
+        sampled_token_ids=[np.array([0])],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -633,7 +641,7 @@ def test_schedule_concurrent_batches(
     model_runner_output = ModelRunnerOutput(
         req_ids=[requests[1].request_id],
         req_id_to_index={requests[1].request_id: 0},
-        sampled_token_ids=[[0]],
+        sampled_token_ids=[np.array([0])],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -670,7 +678,7 @@ def test_preempt_during_execution():
     model_runner_output0 = ModelRunnerOutput(
         req_ids=[requests[0].request_id],
         req_id_to_index={requests[0].request_id: 0},
-        sampled_token_ids=[[0]],
+        sampled_token_ids=[np.array([0])],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -687,7 +695,7 @@ def test_preempt_during_execution():
     model_runner_output1 = ModelRunnerOutput(
         req_ids=[requests[1].request_id],
         req_id_to_index={requests[1].request_id: 0},
-        sampled_token_ids=[[42]],
+        sampled_token_ids=[np.array([42])],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -704,14 +712,18 @@ def test_preempt_during_execution():
 @pytest.mark.parametrize(
     "spec_tokens,output_tokens,expected",
     [
-        ([[1, 2, 3]], [[1, 2, 3, 4]], (1, 3, 3, [1, 1, 1])),  # perfect match
-        ([[1, 2, 3]], [[1, 5]], (1, 3, 1, [1, 0, 0])),  # early mismatch
-        ([[1, 2], [3]], [[1, 2, 5], [3, 4]], (2, 3, 3, [2, 1])),  # multiple sequences
-        ([[1]], [[1, 2]], (1, 1, 1, [1])),  # single token sequence
-        ([[]], [[5]], (0, 0, 0, [0])),  # empty sequence
+        ([[1, 2, 3]], [np.array([1, 2, 3, 4])], (1, 3, 3, [1, 1, 1])),  # perfect match
+        ([[1, 2, 3]], [np.array([1, 5])], (1, 3, 1, [1, 0, 0])),  # early mismatch
+        (
+            [[1, 2], [3]],
+            [np.array([1, 2, 5]), np.array([3, 4])],
+            (2, 3, 3, [2, 1]),
+        ),  # multiple sequences
+        ([[1]], [np.array([1, 2])], (1, 1, 1, [1])),  # single token sequence
+        ([[]], [np.array([5])], (0, 0, 0, [0])),  # empty sequence
         (
             [[1, 2, 3], [4, 5, 6]],
-            [[1, 2, 7], [4, 8]],
+            [np.array([1, 2, 7]), np.array([4, 8])],
             (2, 6, 3, [2, 1, 0]),
         ),  # multiple mismatches
     ],
@@ -745,7 +757,7 @@ def test_schedule_spec_decoding_stats(spec_tokens, output_tokens, expected):
     model_runner_output = ModelRunnerOutput(
         req_ids=req_ids,
         req_id_to_index=req_to_index,
-        sampled_token_ids=[[0] for _ in range(len(requests))],
+        sampled_token_ids=[np.array([0]) for _ in range(len(requests))],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -972,7 +984,7 @@ def test_kv_connector_basic(is_async: bool):
     MODEL_RUNNER_OUTPUT = ModelRunnerOutput(
         req_ids=req_ids,
         req_id_to_index=req_to_index,
-        sampled_token_ids=[[1000]] * len(req_ids),
+        sampled_token_ids=[np.array([1000])] * len(req_ids),
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -1025,7 +1037,7 @@ def test_kv_connector_basic(is_async: bool):
     MODEL_RUNNER_OUTPUT = ModelRunnerOutput(
         req_ids=req_ids,
         req_id_to_index=req_to_index,
-        sampled_token_ids=[[1000]] * len(req_ids),
+        sampled_token_ids=[np.array([1000])] * len(req_ids),
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -1088,7 +1100,7 @@ def test_external_prefix_cache_metrics():
     MODEL_RUNNER_OUTPUT = ModelRunnerOutput(
         req_ids=[r.request_id for r in requests],
         req_id_to_index={r.request_id: i for i, r in enumerate(requests)},
-        sampled_token_ids=[[1000]] * NUM_REQUESTS,
+        sampled_token_ids=[np.array([1000])] * NUM_REQUESTS,
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -1154,7 +1166,7 @@ def test_kv_connector_unable_to_allocate(use_ec_connector, ec_role):
     MODEL_RUNNER_OUTPUT = ModelRunnerOutput(
         req_ids=req_ids,
         req_id_to_index=req_to_index,
-        sampled_token_ids=[[1000]] * len(req_ids),
+        sampled_token_ids=[np.array([1000])] * len(req_ids),
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -1239,7 +1251,7 @@ def test_kv_connector_handles_preemption(use_ec_connector, ec_role):
     MODEL_RUNNER_OUTPUT = ModelRunnerOutput(
         req_ids=req_ids,
         req_id_to_index=req_to_index,
-        sampled_token_ids=[[1000]] * len(req_ids),
+        sampled_token_ids=[np.array([1000])] * len(req_ids),
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -1332,7 +1344,7 @@ def make_output(scheduler: Scheduler):
     return ModelRunnerOutput(
         req_ids=[req.request_id for req in scheduler.running],
         req_id_to_index={req.request_id: i for i, req in enumerate(scheduler.running)},
-        sampled_token_ids=[[1000]] * len(scheduler.running),
+        sampled_token_ids=[np.array([1000])] * len(scheduler.running),
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -1749,7 +1761,7 @@ def test_priority_scheduling_preemption():
         req_id_to_index={
             req.request_id: i for i, req in enumerate(low_priority_requests)
         },
-        sampled_token_ids=[[100] for _ in low_priority_requests],
+        sampled_token_ids=[np.array([100]) for _ in low_priority_requests],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -1818,7 +1830,7 @@ def test_priority_scheduling_no_preemption_when_space_available():
         req_id_to_index={
             req.request_id: i for i, req in enumerate(low_priority_requests)
         },
-        sampled_token_ids=[[100] for _ in low_priority_requests],
+        sampled_token_ids=[np.array([100]) for _ in low_priority_requests],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -2064,7 +2076,7 @@ def test_priority_scheduling_heap_property():
             model_output = ModelRunnerOutput(
                 req_ids=[req.req_id],
                 req_id_to_index={req.req_id: 0},
-                sampled_token_ids=[[100]],
+                sampled_token_ids=[np.array([100])],
                 logprobs=None,
                 prompt_logprobs_dict={},
                 pooler_output=[],
@@ -2150,7 +2162,7 @@ def test_priority_scheduling_preemption_and_resumption_when_out_of_kv(
     model_output = ModelRunnerOutput(
         req_ids=[request_low.request_id],
         req_id_to_index={request_low.request_id: 0},
-        sampled_token_ids=[[100]],
+        sampled_token_ids=[np.array([100])],
         # spec_token_ids=None,
         logprobs=None,
         prompt_logprobs_dict={},
@@ -2181,7 +2193,7 @@ def test_priority_scheduling_preemption_and_resumption_when_out_of_kv(
     model_output = ModelRunnerOutput(
         req_ids=[req.request_id for req in requests],
         req_id_to_index={req.request_id: i for i, req in enumerate(requests)},
-        sampled_token_ids=[[100] for _ in requests],
+        sampled_token_ids=[np.array([100]) for _ in requests],
         # spec_token_ids=None,
         logprobs=None,
         prompt_logprobs_dict={},
@@ -2207,7 +2219,7 @@ def test_priority_scheduling_preemption_and_resumption_when_out_of_kv(
     model_output = ModelRunnerOutput(
         req_ids=[req.request_id for req in requests],
         req_id_to_index={req.request_id: i for i, req in enumerate(requests)},
-        sampled_token_ids=[[], [100]],
+        sampled_token_ids=[np.array([]), np.array([100])],
         # spec_token_ids=None,
         logprobs=None,
         prompt_logprobs_dict={},
diff --git a/tests/v1/kv_connector/unit/utils.py b/tests/v1/kv_connector/unit/utils.py
index f35f91bb3adf8..c248104d5b5ea 100644
--- a/tests/v1/kv_connector/unit/utils.py
+++ b/tests/v1/kv_connector/unit/utils.py
@@ -7,6 +7,7 @@ from dataclasses import dataclass
 from itertools import chain, count
 from typing import Any
 
+import numpy as np
 import torch
 
 from vllm import SamplingParams
@@ -228,7 +229,7 @@ def create_model_runner_output(
 
     # Make sampled tokens.
     sampled_token = EOS_TOKEN_ID if use_eos else token_id
-    sampled_token_ids = [[sampled_token] for _ in req_ids]
+    sampled_token_ids = [np.array([sampled_token]) for _ in req_ids]
 
     kv_connector_output = (
         None
diff --git a/tests/v1/spec_decode/test_eagle.py b/tests/v1/spec_decode/test_eagle.py
index 89d0ec769ac09..421da52415559 100644
--- a/tests/v1/spec_decode/test_eagle.py
+++ b/tests/v1/spec_decode/test_eagle.py
@@ -3,6 +3,7 @@
 
 from unittest import mock
 
+import numpy as np
 import pytest
 import torch
 
@@ -112,7 +113,9 @@ def test_prepare_next_token_ids():
     sampled_token_ids_tensor = torch.tensor(
         sampled_token_ids, dtype=torch.int32, device=device
     )
-    sampled_token_ids_cpu = [[i for i in seq if i != -1] for seq in sampled_token_ids]
+    sampled_token_ids_cpu = [
+        np.array([i for i in seq if i != -1]) for seq in sampled_token_ids
+    ]
 
     expected_next_token_ids_cpu = [1, 4, 30, 40]
     expected_next_token_ids_tensor = torch.tensor(
diff --git a/tests/v1/spec_decode/test_ngram.py b/tests/v1/spec_decode/test_ngram.py
index 692c39282c372..563bc1d957f41 100644
--- a/tests/v1/spec_decode/test_ngram.py
+++ b/tests/v1/spec_decode/test_ngram.py
@@ -77,7 +77,7 @@ def test_ngram_proposer():
     # No match.
     token_ids_cpu = np.array([[1, 2, 3, 4, 5]])
     result = get_ngram_proposer(min_n=2, max_n=2, k=2).propose(
-        sampled_token_ids=[[0]],
+        sampled_token_ids=[np.array([0])],
         req_ids=["0"],
         num_tokens_no_spec=np.array([len(c) for c in token_ids_cpu]),
         token_ids_cpu=token_ids_cpu,
@@ -88,7 +88,7 @@ def test_ngram_proposer():
     # No match for 4-gram.
     token_ids_cpu = np.array([[1, 2, 3, 4, 1, 2, 3]])
     result = get_ngram_proposer(min_n=4, max_n=4, k=2).propose(
-        sampled_token_ids=[[0]],
+        sampled_token_ids=[np.array([0])],
         req_ids=["0"],
         num_tokens_no_spec=np.array([len(c) for c in token_ids_cpu]),
         token_ids_cpu=token_ids_cpu,
@@ -99,7 +99,7 @@ def test_ngram_proposer():
     # No match for 4-gram but match for 3-gram.
     token_ids_cpu = np.array([[1, 2, 3, 4, 1, 2, 3]])
     result = get_ngram_proposer(min_n=3, max_n=4, k=2).propose(
-        sampled_token_ids=[[0]],
+        sampled_token_ids=[np.array([0])],
         req_ids=["0"],
         num_tokens_no_spec=np.array([len(c) for c in token_ids_cpu]),
         token_ids_cpu=token_ids_cpu,
@@ -111,7 +111,7 @@ def test_ngram_proposer():
     # In this case, the proposer should return the 4-gram match.
     token_ids_cpu = np.array([[2, 3, 4, 5, 1, 2, 3, 4, 1, 2, 3, 4]])
     result = get_ngram_proposer(min_n=3, max_n=4, k=2).propose(
-        sampled_token_ids=[[0]],
+        sampled_token_ids=[np.array([0])],
         req_ids=["0"],
         num_tokens_no_spec=np.array([len(c) for c in token_ids_cpu]),
         token_ids_cpu=token_ids_cpu,
@@ -122,7 +122,7 @@ def test_ngram_proposer():
     # Match for 2-gram and 3-gram, but not 4-gram.
     token_ids_cpu = np.array([[3, 4, 5, 2, 3, 4, 1, 2, 3, 4]])
     result = get_ngram_proposer(min_n=2, max_n=4, k=2).propose(
-        sampled_token_ids=[[0]],
+        sampled_token_ids=[np.array([0])],
         req_ids=["0"],
         num_tokens_no_spec=np.array([len(c) for c in token_ids_cpu]),
         token_ids_cpu=token_ids_cpu,
@@ -133,7 +133,7 @@ def test_ngram_proposer():
     # Multiple 3-gram matched, but always pick the first one.
     token_ids_cpu = np.array([[1, 2, 3, 100, 1, 2, 3, 200, 1, 2, 3, 300, 1, 2, 3]])
     result = get_ngram_proposer(min_n=3, max_n=3, k=2).propose(
-        sampled_token_ids=[[0]],
+        sampled_token_ids=[np.array([0])],
         req_ids=["0"],
         num_tokens_no_spec=np.array([len(c) for c in token_ids_cpu]),
         token_ids_cpu=token_ids_cpu,
@@ -144,7 +144,7 @@ def test_ngram_proposer():
     # check empty input
     token_ids_cpu = np.array([[]])
     result = get_ngram_proposer(min_n=2, max_n=2, k=2).propose(
-        sampled_token_ids=[[0]],
+        sampled_token_ids=[np.array([0])],
         req_ids=["0"],
         num_tokens_no_spec=np.array([len(c) for c in token_ids_cpu]),
         token_ids_cpu=token_ids_cpu,
@@ -157,7 +157,7 @@ def test_ngram_proposer():
     # second request has 3 tokens and no match. Padded with -1 for max len 5
     token_ids_cpu = np.array([[1, 2, 3, 1, 2], [4, 5, 6, -1, -1]])
     result = get_ngram_proposer(min_n=2, max_n=2, k=2).propose(
-        sampled_token_ids=[[0], [1]],
+        sampled_token_ids=[np.array([0]), np.array([1])],
         req_ids=["0", "1"],
         num_tokens_no_spec=np.array([5, 3]),
         token_ids_cpu=token_ids_cpu,
@@ -181,7 +181,7 @@ def test_ngram_proposer():
     input_2[:3] = [4, 5, 6]
     token_ids_cpu = np.array([input_1, input_2])
     result = ngram_proposer.propose(
-        sampled_token_ids=[[0], [1]],
+        sampled_token_ids=[np.array([0]), np.array([1])],
         req_ids=["0", "1"],
         num_tokens_no_spec=np.array([len(input_1), 3]),
         token_ids_cpu=token_ids_cpu,
diff --git a/vllm/v1/core/sched/scheduler.py b/vllm/v1/core/sched/scheduler.py
index ba7ad0c091737..c640c40a455d0 100644
--- a/vllm/v1/core/sched/scheduler.py
+++ b/vllm/v1/core/sched/scheduler.py
@@ -1010,8 +1010,8 @@ class Scheduler(SchedulerInterface):
                 continue
 
             req_index = model_runner_output.req_id_to_index[req_id]
-            generated_token_ids = (
-                sampled_token_ids[req_index] if sampled_token_ids else []
+            generated_token_ids: list[int] = (
+                sampled_token_ids[req_index].tolist() if sampled_token_ids else []
             )
 
             scheduled_spec_token_ids = (
diff --git a/vllm/v1/outputs.py b/vllm/v1/outputs.py
index e32d5bb608b1d..60ee9671e4977 100644
--- a/vllm/v1/outputs.py
+++ b/vllm/v1/outputs.py
@@ -158,7 +158,7 @@ class ModelRunnerOutput:
     # num_generated_tokens is the number of tokens
     # generated in the current step. It can be different for
     # each request due to speculative/jump decoding.
-    sampled_token_ids: list[list[int]]
+    sampled_token_ids: list[np.ndarray]
 
     # [num_reqs, max_num_logprobs + 1]
     # [num_reqs, max_num_logprobs + 1]
diff --git a/vllm/v1/sample/rejection_sampler.py b/vllm/v1/sample/rejection_sampler.py
index 926305d25f56b..f31a0cddda9ae 100644
--- a/vllm/v1/sample/rejection_sampler.py
+++ b/vllm/v1/sample/rejection_sampler.py
@@ -3,6 +3,7 @@
 
 from dataclasses import replace
 
+import numpy as np
 import torch
 import torch.nn as nn
 
@@ -204,7 +205,7 @@ class RejectionSampler(nn.Module):
     def parse_output(
         output_token_ids: torch.Tensor,
         vocab_size: int,
-    ) -> list[list[int]]:
+    ) -> list[np.ndarray]:
         """Parse the output of the rejection sampler.
         Args:
             output_token_ids: The sampled token IDs in shape
@@ -220,10 +221,7 @@ class RejectionSampler(nn.Module):
         valid_mask = (output_token_ids_np != PLACEHOLDER_TOKEN_ID) & (
             output_token_ids_np < vocab_size
         )
-        outputs = [
-            row[valid_mask[i]].tolist() for i, row in enumerate(output_token_ids_np)
-        ]
-        return outputs
+        return [row[valid_mask[i]] for i, row in enumerate(output_token_ids_np)]
 
     def apply_logits_processors(
         self,
diff --git a/vllm/v1/spec_decode/eagle.py b/vllm/v1/spec_decode/eagle.py
index beef5203e0394..f3b34544f8d91 100644
--- a/vllm/v1/spec_decode/eagle.py
+++ b/vllm/v1/spec_decode/eagle.py
@@ -484,7 +484,7 @@ class EagleProposer:
 
     def prepare_next_token_ids_cpu(
         self,
-        sampled_token_ids: list[list[int]],
+        sampled_token_ids: list[np.ndarray],
         requests: dict[str, CachedRequestState],
         gpu_input_batch: InputBatch,
         num_scheduled_tokens: dict[str, int],
@@ -499,7 +499,7 @@ class EagleProposer:
         req_ids = gpu_input_batch.req_ids
         next_token_ids: list[int] = []
         for i, token_ids in enumerate(sampled_token_ids):
-            if token_ids:
+            if token_ids.shape[0] > 0:
                 # Common case.
                 next_token_id = token_ids[-1]
             else:
@@ -510,10 +510,9 @@ class EagleProposer:
                 seq_len = req_state.num_computed_tokens + num_scheduled_tokens[req_id]
                 next_token_id = req_state.get_token_id(seq_len)
             next_token_ids.append(next_token_id)
-        next_token_ids = torch.tensor(
+        return torch.tensor(
             next_token_ids, dtype=torch.int32, device=self.input_ids.device
         )
-        return next_token_ids
 
     def prepare_next_token_ids_padded(
         self,
diff --git a/vllm/v1/spec_decode/ngram_proposer.py b/vllm/v1/spec_decode/ngram_proposer.py
index e2f83cb24aa90..378937dba9882 100644
--- a/vllm/v1/spec_decode/ngram_proposer.py
+++ b/vllm/v1/spec_decode/ngram_proposer.py
@@ -54,7 +54,7 @@ class NgramProposer:
         # Trigger Numba JIT compilation for N-gram proposer.
         # This usually takes less than 1 second.
         self.propose(
-            [[]] * 1024,
+            [np.array([])] * 1024,
             [""] * 1024,
             np.zeros(1024, dtype=np.int32),
             np.zeros((1024, self.max_model_len), dtype=np.int32),
@@ -131,7 +131,7 @@ class NgramProposer:
 
     def propose(
         self,
-        sampled_token_ids: list[list[int]],
+        sampled_token_ids: list[np.ndarray],
         req_ids: list[str],
         num_tokens_no_spec: np.ndarray,
         token_ids_cpu: np.ndarray,
@@ -140,7 +140,7 @@ class NgramProposer:
         # find which requests need ngram proposals
         valid_ngram_requests = []
         for i, sampled_ids in enumerate(sampled_token_ids):
-            num_sampled_ids = len(sampled_ids)
+            num_sampled_ids = sampled_ids.shape[0]
             if not num_sampled_ids:
                 # Skip speculative decoding.
                 continue
diff --git a/vllm/v1/spec_decode/suffix_decoding.py b/vllm/v1/spec_decode/suffix_decoding.py
index 049e335db3254..d76e0ffe778d4 100644
--- a/vllm/v1/spec_decode/suffix_decoding.py
+++ b/vllm/v1/spec_decode/suffix_decoding.py
@@ -1,5 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import numpy as np
+
 from vllm.config import VllmConfig
 from vllm.v1.worker.gpu_input_batch import InputBatch
 
@@ -32,16 +34,16 @@ class SuffixDecodingProposer:
     def propose(
         self,
         input_batch: InputBatch,
-        sampled_token_ids: list[list[int]],
+        sampled_token_ids: list[np.ndarray],
     ) -> list[list[int]]:
         """
         Propose speculative tokens for each request in the input batch. Suffix Decoding
         will speculate a dynamic number of tokens for each request every decoding step,
         so each entry in the returned list may have different lengths.
         """
-        draft_token_ids: list[list[int]] = []
+        draft_token_ids: list[np.ndarray] = []
         for i, sampled_ids in enumerate(sampled_token_ids):
-            if not sampled_ids:
+            if sampled_ids.shape[0] == 0:
                 # Skip speculative decoding for partial prefills.
                 draft_token_ids.append([])
                 continue
@@ -70,7 +72,7 @@ class SuffixDecodingProposer:
                 self.suffix_cache.start_request(req_id, prompt_token_ids)
 
             # Append the newly sampled ids to the suffix cache for this request.
-            self.suffix_cache.add_active_response(req_id, sampled_ids)
+            self.suffix_cache.add_active_response(req_id, sampled_ids.tolist())
 
             # Suffix decoding only uses the most recent tokens up to max_tree_depth, so
             # we extract the pattern from the end of the input.
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index 9b3e5b668aab5..d0d6164180e66 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -216,9 +216,11 @@ class AsyncGPUModelRunnerOutput(AsyncModelRunnerOutput):
         del self._logprobs_tensors
         del self._sampled_token_ids
 
-        valid_sampled_token_ids = self.sampled_token_ids_cpu.tolist()
+        valid_sampled_token_ids: list[np.ndarray] = [
+            row for row in self.sampled_token_ids_cpu.numpy()
+        ]
         for i in self._invalid_req_indices:
-            valid_sampled_token_ids[i].clear()
+            valid_sampled_token_ids[i] = np.array([])
 
         output = self._model_runner_output
         output.sampled_token_ids = valid_sampled_token_ids
@@ -2339,7 +2341,7 @@ class GPUModelRunner(
     ) -> tuple[
         dict[str, int],
         LogprobsLists | None,
-        list[list[int]],
+        list[np.ndarray],
         dict[str, LogprobsTensors | None],
         list[str],
         dict[str, int],
@@ -2365,6 +2367,7 @@ class GPUModelRunner(
         num_sampled_tokens = sampler_output.sampled_token_ids.shape[0]
         sampled_token_ids = sampler_output.sampled_token_ids
         invalid_req_indices = []
+        valid_sampled_token_ids: list[np.ndarray]
         if not self.use_async_scheduling:
             # Get the valid generated tokens.
             max_gen_len = sampled_token_ids.shape[-1]
@@ -2379,7 +2382,7 @@ class GPUModelRunner(
                 )
             # Mask out the sampled tokens that should not be sampled.
             for i in discard_sampled_tokens_req_indices:
-                valid_sampled_token_ids[int(i)].clear()
+                valid_sampled_token_ids[int(i)] = np.array([])
         else:
             valid_sampled_token_ids = []
             invalid_req_indices = discard_sampled_tokens_req_indices.tolist()
@@ -2407,19 +2410,24 @@ class GPUModelRunner(
             [0] if spec_decode_metadata and logprobs_tensors else None
         )
         for req_idx in range(num_sampled_tokens):
+            sampled_ids: np.ndarray | None
             if self.use_async_scheduling:
-                sampled_ids = [-1] if req_idx not in invalid_req_indices_set else None
+                sampled_ids = (
+                    np.array([-1]) if req_idx not in invalid_req_indices_set else None
+                )
             else:
                 sampled_ids = valid_sampled_token_ids[req_idx]
 
-            num_sampled_ids: int = len(sampled_ids) if sampled_ids else 0
+            num_sampled_ids: int = (
+                sampled_ids.shape[0] if sampled_ids is not None else 0
+            )
 
             if cu_num_accepted_tokens is not None:
                 cu_num_accepted_tokens.append(
                     cu_num_accepted_tokens[-1] + num_sampled_ids
                 )
 
-            if not sampled_ids:
+            if sampled_ids is None or num_sampled_ids == 0:
                 continue
 
             start_idx = self.input_batch.num_tokens_no_spec[req_idx]
@@ -2761,7 +2769,9 @@ class GPUModelRunner(
         with record_function_or_nullcontext("gpu_model_runner: sample"):
             sampler_output = self._sample(logits, spec_decode_metadata)
 
-        def propose_draft_token_ids(sampled_token_ids):
+        def propose_draft_token_ids(
+            sampled_token_ids: torch.Tensor | list[np.ndarray],
+        ) -> None:
             assert spec_decode_common_attn_metadata is not None
             with record_function_or_nullcontext("gpu_model_runner: draft"):
                 self._draft_token_ids = self.propose_draft_token_ids(
@@ -2883,14 +2893,14 @@ class GPUModelRunner(
     def propose_draft_token_ids(
         self,
         scheduler_output: "SchedulerOutput",
-        sampled_token_ids: torch.Tensor | list[list[int]],
+        sampled_token_ids: torch.Tensor | list[np.ndarray],
         sampling_metadata: SamplingMetadata,
         hidden_states: torch.Tensor,
         sample_hidden_states: torch.Tensor,
         aux_hidden_states: list[torch.Tensor] | None,
         spec_decode_metadata: SpecDecodeMetadata | None,
         common_attn_metadata: CommonAttentionMetadata,
-    ) -> list[list[int]] | torch.Tensor:
+    ) -> torch.Tensor | list[list[int]]:
         num_scheduled_tokens = scheduler_output.total_num_scheduled_tokens
         if self.speculative_config.method == "ngram":
             assert isinstance(sampled_token_ids, list)
@@ -2922,7 +2932,7 @@ class GPUModelRunner(
                 for num_draft, tokens in zip(
                     spec_decode_metadata.num_draft_tokens, sampled_token_ids
                 ):
-                    indices.append(offset + len(tokens) - 1)
+                    indices.append(offset + tokens.shape[0] - 1)
                     offset += num_draft + 1
                 indices = torch.tensor(indices, device=self.device)
                 hidden_states = sample_hidden_states[indices]
@@ -4862,7 +4872,7 @@ class GPUModelRunner(
 
         return kv_cache_spec
 
-    def _to_list(self, sampled_token_ids: torch.Tensor) -> list[list[int]]:
+    def _to_list(self, sampled_token_ids: torch.Tensor) -> list[np.ndarray]:
         # This is a short term mitigation for issue mentioned in
         # https://github.com/vllm-project/vllm/issues/22754.
         # `tolist` would trigger a cuda wise stream sync, which
@@ -4875,4 +4885,4 @@ class GPUModelRunner(
         pinned.copy_(sampled_token_ids, non_blocking=True)
         self.transfer_event.record()
         self.transfer_event.synchronize()
-        return pinned.tolist()
+        return [row for row in pinned.numpy()]

From 9fc81ec765aa0daa6f704023c0f902a0da653b72 Mon Sep 17 00:00:00 2001
From: QiliangCui <derrhein@gmail.com>
Date: Fri, 14 Nov 2025 16:58:32 -0800
Subject: [PATCH 482/976] [TPU] Fix import error in tpu launch (#28758)

Signed-off-by: Qiliang Cui <derrhein@gmail.com>
---
 vllm/platforms/tpu.py | 11 +++++++++--
 1 file changed, 9 insertions(+), 2 deletions(-)

diff --git a/vllm/platforms/tpu.py b/vllm/platforms/tpu.py
index 4ab037fdb77ee..c1218801bc077 100644
--- a/vllm/platforms/tpu.py
+++ b/vllm/platforms/tpu.py
@@ -9,20 +9,25 @@ from tpu_info import device
 
 from vllm.inputs import ProcessorInputs, PromptType
 from vllm.logger import init_logger
-from vllm.sampling_params import SamplingParams, SamplingType
 
 from .interface import Platform, PlatformEnum
 
 if TYPE_CHECKING:
+    from typing import TypeAlias
+
     from vllm.attention.backends.registry import AttentionBackendEnum
     from vllm.config import VllmConfig
     from vllm.config.cache import BlockSize
     from vllm.pooling_params import PoolingParams
+    from vllm.sampling_params import SamplingParams
+
+    ParamsType: TypeAlias = SamplingParams | PoolingParams
 else:
     BlockSize = None
     VllmConfig = None
     PoolingParams = None
     AttentionBackendEnum = None
+    ParamsType = None
 
 logger = init_logger(__name__)
 
@@ -203,10 +208,12 @@ class TpuPlatform(Platform):
     def validate_request(
         cls,
         prompt: PromptType,
-        params: SamplingParams | PoolingParams,
+        params: ParamsType,
         processed_inputs: ProcessorInputs,
     ) -> None:
         """Raises if this request is unsupported on this platform"""
+        from vllm.sampling_params import SamplingParams, SamplingType
+
         if (
             isinstance(params, SamplingParams)
             and params.sampling_type == SamplingType.RANDOM_SEED

From f05d474c8a08659cc1610a85de7e7a7095494a52 Mon Sep 17 00:00:00 2001
From: Lukas Geiger <lukas.geiger94@gmail.com>
Date: Sat, 15 Nov 2025 03:45:11 +0000
Subject: [PATCH 483/976] [Model][Qwen3VL] Use `mm_position` to compute mrope
 positions (#28730)

Signed-off-by: Lukas Geiger <lukas.geiger94@gmail.com>
Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>
---
 vllm/model_executor/models/qwen3_vl.py | 87 +++++++++-----------------
 1 file changed, 31 insertions(+), 56 deletions(-)

diff --git a/vllm/model_executor/models/qwen3_vl.py b/vllm/model_executor/models/qwen3_vl.py
index f1c020ab5813c..fa6b71bf92682 100644
--- a/vllm/model_executor/models/qwen3_vl.py
+++ b/vllm/model_executor/models/qwen3_vl.py
@@ -24,7 +24,7 @@
 # limitations under the License.
 """Inference-only Qwen3VL model compatible with HuggingFace weights."""
 
-from collections.abc import Callable, Iterable, Mapping, Sequence
+from collections.abc import Callable, Iterable, Iterator, Mapping, Sequence
 from functools import partial
 from itertools import islice
 from typing import Any
@@ -1412,72 +1412,47 @@ class Qwen3VLForConditionalGeneration(
                 )
         return mm_input_by_modality
 
+    def iter_mm_grid_hw(
+        self, input_tokens: list[int], mm_features: list[MultiModalFeatureSpec]
+    ) -> Iterator[tuple[int, int, int]]:
+        video_token_id = self.config.video_token_id
+        spatial_merge_size = self.config.vision_config.spatial_merge_size
+        for mm_feature in sorted(mm_features, key=lambda f: f.mm_position.offset):
+            offset = mm_feature.mm_position.offset
+            if mm_feature.modality == "image":
+                t, h, w = mm_feature.data["image_grid_thw"].data.tolist()
+                assert t == 1, f"Image must have 1 frame, got {t}"
+                yield offset, h // spatial_merge_size, w // spatial_merge_size
+            elif mm_feature.modality == "video":
+                t, h, w = mm_feature.data["video_grid_thw"].data.tolist()
+                llm_grid_h = h // spatial_merge_size
+                llm_grid_w = w // spatial_merge_size
+                for _ in range(t):
+                    offset = input_tokens.index(video_token_id, offset)
+                    yield offset, llm_grid_h, llm_grid_w
+                    offset += llm_grid_h * llm_grid_w
+            else:
+                raise ValueError(f"Unsupported modality: {mm_feature.modality}")
+
     def get_mrope_input_positions(
         self,
         input_tokens: list[int],
         mm_features: list[MultiModalFeatureSpec],
     ) -> tuple[torch.Tensor, int]:
-        kwargs = MultiModalFeatureSpec.gather_kwargs(
-            mm_features,
-            {"image_grid_thw", "video_grid_thw"},
-        )
-        image_grid_thw = [item.tolist() for item in kwargs.get("image_grid_thw", [])]
-        video_grid_thw = [item.tolist() for item in kwargs.get("video_grid_thw", [])]
-
-        video_grid_thw = [[1, h, w] for t, h, w in video_grid_thw for _ in range(t)]
-
-        hf_config = self.config
-        image_token_id = hf_config.image_token_id
-        video_token_id = hf_config.video_token_id
-        vision_start_token_id = hf_config.vision_start_token_id
-        spatial_merge_size = hf_config.vision_config.spatial_merge_size
-
-        input_tokens_array = np.array(input_tokens)
-        vision_start_mask = input_tokens_array == vision_start_token_id
-        vision_tokens = input_tokens_array[vision_start_mask.nonzero()[0] + 1]
-        image_nums = np.count_nonzero(vision_tokens == image_token_id)
-        video_nums = np.count_nonzero(vision_tokens == video_token_id)
-        llm_pos_ids_list: list = []
-
+        llm_pos_ids_list = []
         st = 0
-        remain_images, remain_videos = image_nums, video_nums
-
-        image_index, video_index = 0, 0
-        for _ in range(image_nums + video_nums):
-            if image_token_id in input_tokens and remain_images > 0:
-                ed_image = input_tokens.index(image_token_id, st)
-            else:
-                ed_image = len(input_tokens) + 1
-            if video_token_id in input_tokens and remain_videos > 0:
-                ed_video = input_tokens.index(video_token_id, st)
-            else:
-                ed_video = len(input_tokens) + 1
-            if ed_image < ed_video:
-                t, h, w = image_grid_thw[image_index]
-                image_index += 1
-                remain_images -= 1
-                ed = ed_image
-            else:
-                t, h, w = video_grid_thw[video_index]
-                video_index += 1
-                remain_videos -= 1
-                ed = ed_video
-
-            llm_grid_t, llm_grid_h, llm_grid_w = (
-                t,
-                h // spatial_merge_size,
-                w // spatial_merge_size,
-            )
-            text_len = ed - st
-
+        for offset, llm_grid_h, llm_grid_w in self.iter_mm_grid_hw(
+            input_tokens, mm_features
+        ):
+            text_len = offset - st
             st_idx = llm_pos_ids_list[-1].max() + 1 if len(llm_pos_ids_list) > 0 else 0
             llm_pos_ids_list.append(
                 np.broadcast_to(np.arange(text_len), (3, text_len)) + st_idx
             )
 
-            grid_indices = np.indices((llm_grid_t, llm_grid_h, llm_grid_w))
-            llm_pos_ids_list.append(grid_indices.reshape(3, -1) + text_len + st_idx)
-            st = ed + llm_grid_t * llm_grid_h * llm_grid_w
+            grid_indices = np.indices((1, llm_grid_h, llm_grid_w)).reshape(3, -1)
+            llm_pos_ids_list.append(grid_indices + text_len + st_idx)
+            st = offset + llm_grid_h * llm_grid_w
 
         if st < len(input_tokens):
             st_idx = llm_pos_ids_list[-1].max() + 1 if len(llm_pos_ids_list) > 0 else 0

From edfe49818959b1a1a0b7e8ef7ffcdc39d9903ec6 Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Fri, 14 Nov 2025 22:51:05 -0500
Subject: [PATCH 484/976] [Bugfix] Build hadacore kernels on >SM90 (#28748)

Signed-off-by: mgoin <mgoin64@gmail.com>
---
 CMakeLists.txt | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/CMakeLists.txt b/CMakeLists.txt
index dcc44be87e557..3a37040edbf1a 100644
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -861,7 +861,7 @@ if(VLLM_GPU_LANG STREQUAL "CUDA")
   endif()
 
   # Hadacore kernels
-  cuda_archs_loose_intersection(HADACORE_ARCHS "8.0;8.9;9.0" "${CUDA_ARCHS}")
+  cuda_archs_loose_intersection(HADACORE_ARCHS "8.0+PTX;9.0+PTX" "${CUDA_ARCHS}")
   if(HADACORE_ARCHS)
     set(SRCS "csrc/quantization/hadamard/hadacore/hadamard_transform_cuda.cu")
     set_gencode_flags_for_srcs(

From ac86bff8cb53939117a6a460af1a6c3fea829a56 Mon Sep 17 00:00:00 2001
From: Nick Hill <nhill@redhat.com>
Date: Fri, 14 Nov 2025 20:24:00 -0800
Subject: [PATCH 485/976] =?UTF-8?q?Revert=20"[Core]=20Performance:=20Use?=
 =?UTF-8?q?=20list[np.ndarray]=20instead=20of=20list[list=E2=80=A6=20(#287?=
 =?UTF-8?q?73)?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 tests/v1/core/test_async_scheduler.py  |  3 +-
 tests/v1/core/test_scheduler.py        | 76 +++++++++++---------------
 tests/v1/kv_connector/unit/utils.py    |  3 +-
 tests/v1/spec_decode/test_eagle.py     |  5 +-
 tests/v1/spec_decode/test_ngram.py     | 18 +++---
 vllm/v1/core/sched/scheduler.py        |  4 +-
 vllm/v1/outputs.py                     |  2 +-
 vllm/v1/sample/rejection_sampler.py    |  8 ++-
 vllm/v1/spec_decode/eagle.py           |  7 ++-
 vllm/v1/spec_decode/ngram_proposer.py  |  6 +-
 vllm/v1/spec_decode/suffix_decoding.py | 10 ++--
 vllm/v1/worker/gpu_model_runner.py     | 36 +++++-------
 12 files changed, 76 insertions(+), 102 deletions(-)

diff --git a/tests/v1/core/test_async_scheduler.py b/tests/v1/core/test_async_scheduler.py
index 1d80ee9875913..e0645ed43015e 100644
--- a/tests/v1/core/test_async_scheduler.py
+++ b/tests/v1/core/test_async_scheduler.py
@@ -2,7 +2,6 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 from collections import deque
 
-import numpy as np
 import pytest
 
 from vllm.v1.core.sched.output import SchedulerOutput
@@ -22,7 +21,7 @@ def _make_model_runner_output(
     return ModelRunnerOutput(
         req_ids=req_ids,
         req_id_to_index={req_id: i for i, req_id in enumerate(req_ids)},
-        sampled_token_ids=[np.array([i]) for i in range(len(req_ids))],
+        sampled_token_ids=[[i] for i in range(len(req_ids))],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
diff --git a/tests/v1/core/test_scheduler.py b/tests/v1/core/test_scheduler.py
index 6d95c29ec1ab4..04e738293cd77 100644
--- a/tests/v1/core/test_scheduler.py
+++ b/tests/v1/core/test_scheduler.py
@@ -3,7 +3,6 @@
 import dataclasses
 from unittest.mock import Mock
 
-import numpy as np
 import pytest
 import torch
 
@@ -170,7 +169,7 @@ def test_schedule_partial_requests():
         req_id_to_index=req_to_index,
         # Only the first request has a sampled token id because
         # the rest requests are still being prefilled.
-        sampled_token_ids=[np.array([0]), np.array([]), np.array([])],
+        sampled_token_ids=[[0], [], []],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -217,7 +216,7 @@ def test_no_mm_input_chunking():
     model_runner_output = ModelRunnerOutput(
         req_ids=[request.request_id for request in requests],
         req_id_to_index=req_to_index,
-        sampled_token_ids=[np.array([]) for _ in range(len(requests))],
+        sampled_token_ids=[[] for _ in range(len(requests))],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -277,7 +276,7 @@ def test_schedule_concurrent_partial_requests(enable_prefix_caching: bool):
     model_runner_output = ModelRunnerOutput(
         req_ids=[request.request_id for request in requests],
         req_id_to_index=req_to_index,
-        sampled_token_ids=[np.array([]) for _ in range(len(requests))],
+        sampled_token_ids=[[] for _ in range(len(requests))],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -301,8 +300,7 @@ def test_schedule_concurrent_partial_requests(enable_prefix_caching: bool):
     model_runner_output = ModelRunnerOutput(
         req_ids=[request.request_id for request in requests],
         req_id_to_index=req_to_index,
-        sampled_token_ids=[np.array([0]), np.array([0])]
-        + [np.array([]) for _ in range(len(requests) - 2)],
+        sampled_token_ids=[[0], [0]] + [[] for _ in range(len(requests) - 2)],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -349,8 +347,8 @@ def test_stop_via_update_from_output():
         req_ids=[req.request_id for req in requests],
         req_id_to_index={req.request_id: i for i, req in enumerate(requests)},
         sampled_token_ids=[
-            np.array([EOS_TOKEN_ID]),
-            np.array([10, 11]),
+            [EOS_TOKEN_ID],
+            [10, 11],
         ],  # First request hits EOS, second continues
         logprobs=None,
         prompt_logprobs_dict={},
@@ -394,10 +392,7 @@ def test_stop_via_update_from_output():
     model_output = ModelRunnerOutput(
         req_ids=[req.request_id for req in requests],
         req_id_to_index={req.request_id: i for i, req in enumerate(requests)},
-        sampled_token_ids=[
-            np.array([10, 42, 12]),
-            np.array([13, 14]),
-        ],  # First request hits stop token
+        sampled_token_ids=[[10, 42, 12], [13, 14]],  # First request hits stop token
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -441,10 +436,7 @@ def test_stop_via_update_from_output():
     model_output = ModelRunnerOutput(
         req_ids=[req.request_id for req in requests],
         req_id_to_index={req.request_id: i for i, req in enumerate(requests)},
-        sampled_token_ids=[
-            np.array([10, 11, 12]),
-            np.array([13]),
-        ],  # First request exceeds max_tokens
+        sampled_token_ids=[[10, 11, 12], [13]],  # First request exceeds max_tokens
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -483,7 +475,7 @@ def test_stop_via_update_from_output():
     model_output = ModelRunnerOutput(
         req_ids=[requests[0].request_id],
         req_id_to_index={requests[0].request_id: 0},
-        sampled_token_ids=[np.array([EOS_TOKEN_ID, 10, 11])],
+        sampled_token_ids=[[EOS_TOKEN_ID, 10, 11]],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -624,7 +616,7 @@ def test_schedule_concurrent_batches(
     model_runner_output = ModelRunnerOutput(
         req_ids=[requests[0].request_id],
         req_id_to_index={requests[0].request_id: 0},
-        sampled_token_ids=[np.array([0])],
+        sampled_token_ids=[[0]],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -641,7 +633,7 @@ def test_schedule_concurrent_batches(
     model_runner_output = ModelRunnerOutput(
         req_ids=[requests[1].request_id],
         req_id_to_index={requests[1].request_id: 0},
-        sampled_token_ids=[np.array([0])],
+        sampled_token_ids=[[0]],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -678,7 +670,7 @@ def test_preempt_during_execution():
     model_runner_output0 = ModelRunnerOutput(
         req_ids=[requests[0].request_id],
         req_id_to_index={requests[0].request_id: 0},
-        sampled_token_ids=[np.array([0])],
+        sampled_token_ids=[[0]],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -695,7 +687,7 @@ def test_preempt_during_execution():
     model_runner_output1 = ModelRunnerOutput(
         req_ids=[requests[1].request_id],
         req_id_to_index={requests[1].request_id: 0},
-        sampled_token_ids=[np.array([42])],
+        sampled_token_ids=[[42]],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -712,18 +704,14 @@ def test_preempt_during_execution():
 @pytest.mark.parametrize(
     "spec_tokens,output_tokens,expected",
     [
-        ([[1, 2, 3]], [np.array([1, 2, 3, 4])], (1, 3, 3, [1, 1, 1])),  # perfect match
-        ([[1, 2, 3]], [np.array([1, 5])], (1, 3, 1, [1, 0, 0])),  # early mismatch
-        (
-            [[1, 2], [3]],
-            [np.array([1, 2, 5]), np.array([3, 4])],
-            (2, 3, 3, [2, 1]),
-        ),  # multiple sequences
-        ([[1]], [np.array([1, 2])], (1, 1, 1, [1])),  # single token sequence
-        ([[]], [np.array([5])], (0, 0, 0, [0])),  # empty sequence
+        ([[1, 2, 3]], [[1, 2, 3, 4]], (1, 3, 3, [1, 1, 1])),  # perfect match
+        ([[1, 2, 3]], [[1, 5]], (1, 3, 1, [1, 0, 0])),  # early mismatch
+        ([[1, 2], [3]], [[1, 2, 5], [3, 4]], (2, 3, 3, [2, 1])),  # multiple sequences
+        ([[1]], [[1, 2]], (1, 1, 1, [1])),  # single token sequence
+        ([[]], [[5]], (0, 0, 0, [0])),  # empty sequence
         (
             [[1, 2, 3], [4, 5, 6]],
-            [np.array([1, 2, 7]), np.array([4, 8])],
+            [[1, 2, 7], [4, 8]],
             (2, 6, 3, [2, 1, 0]),
         ),  # multiple mismatches
     ],
@@ -757,7 +745,7 @@ def test_schedule_spec_decoding_stats(spec_tokens, output_tokens, expected):
     model_runner_output = ModelRunnerOutput(
         req_ids=req_ids,
         req_id_to_index=req_to_index,
-        sampled_token_ids=[np.array([0]) for _ in range(len(requests))],
+        sampled_token_ids=[[0] for _ in range(len(requests))],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -984,7 +972,7 @@ def test_kv_connector_basic(is_async: bool):
     MODEL_RUNNER_OUTPUT = ModelRunnerOutput(
         req_ids=req_ids,
         req_id_to_index=req_to_index,
-        sampled_token_ids=[np.array([1000])] * len(req_ids),
+        sampled_token_ids=[[1000]] * len(req_ids),
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -1037,7 +1025,7 @@ def test_kv_connector_basic(is_async: bool):
     MODEL_RUNNER_OUTPUT = ModelRunnerOutput(
         req_ids=req_ids,
         req_id_to_index=req_to_index,
-        sampled_token_ids=[np.array([1000])] * len(req_ids),
+        sampled_token_ids=[[1000]] * len(req_ids),
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -1100,7 +1088,7 @@ def test_external_prefix_cache_metrics():
     MODEL_RUNNER_OUTPUT = ModelRunnerOutput(
         req_ids=[r.request_id for r in requests],
         req_id_to_index={r.request_id: i for i, r in enumerate(requests)},
-        sampled_token_ids=[np.array([1000])] * NUM_REQUESTS,
+        sampled_token_ids=[[1000]] * NUM_REQUESTS,
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -1166,7 +1154,7 @@ def test_kv_connector_unable_to_allocate(use_ec_connector, ec_role):
     MODEL_RUNNER_OUTPUT = ModelRunnerOutput(
         req_ids=req_ids,
         req_id_to_index=req_to_index,
-        sampled_token_ids=[np.array([1000])] * len(req_ids),
+        sampled_token_ids=[[1000]] * len(req_ids),
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -1251,7 +1239,7 @@ def test_kv_connector_handles_preemption(use_ec_connector, ec_role):
     MODEL_RUNNER_OUTPUT = ModelRunnerOutput(
         req_ids=req_ids,
         req_id_to_index=req_to_index,
-        sampled_token_ids=[np.array([1000])] * len(req_ids),
+        sampled_token_ids=[[1000]] * len(req_ids),
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -1344,7 +1332,7 @@ def make_output(scheduler: Scheduler):
     return ModelRunnerOutput(
         req_ids=[req.request_id for req in scheduler.running],
         req_id_to_index={req.request_id: i for i, req in enumerate(scheduler.running)},
-        sampled_token_ids=[np.array([1000])] * len(scheduler.running),
+        sampled_token_ids=[[1000]] * len(scheduler.running),
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -1761,7 +1749,7 @@ def test_priority_scheduling_preemption():
         req_id_to_index={
             req.request_id: i for i, req in enumerate(low_priority_requests)
         },
-        sampled_token_ids=[np.array([100]) for _ in low_priority_requests],
+        sampled_token_ids=[[100] for _ in low_priority_requests],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -1830,7 +1818,7 @@ def test_priority_scheduling_no_preemption_when_space_available():
         req_id_to_index={
             req.request_id: i for i, req in enumerate(low_priority_requests)
         },
-        sampled_token_ids=[np.array([100]) for _ in low_priority_requests],
+        sampled_token_ids=[[100] for _ in low_priority_requests],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -2076,7 +2064,7 @@ def test_priority_scheduling_heap_property():
             model_output = ModelRunnerOutput(
                 req_ids=[req.req_id],
                 req_id_to_index={req.req_id: 0},
-                sampled_token_ids=[np.array([100])],
+                sampled_token_ids=[[100]],
                 logprobs=None,
                 prompt_logprobs_dict={},
                 pooler_output=[],
@@ -2162,7 +2150,7 @@ def test_priority_scheduling_preemption_and_resumption_when_out_of_kv(
     model_output = ModelRunnerOutput(
         req_ids=[request_low.request_id],
         req_id_to_index={request_low.request_id: 0},
-        sampled_token_ids=[np.array([100])],
+        sampled_token_ids=[[100]],
         # spec_token_ids=None,
         logprobs=None,
         prompt_logprobs_dict={},
@@ -2193,7 +2181,7 @@ def test_priority_scheduling_preemption_and_resumption_when_out_of_kv(
     model_output = ModelRunnerOutput(
         req_ids=[req.request_id for req in requests],
         req_id_to_index={req.request_id: i for i, req in enumerate(requests)},
-        sampled_token_ids=[np.array([100]) for _ in requests],
+        sampled_token_ids=[[100] for _ in requests],
         # spec_token_ids=None,
         logprobs=None,
         prompt_logprobs_dict={},
@@ -2219,7 +2207,7 @@ def test_priority_scheduling_preemption_and_resumption_when_out_of_kv(
     model_output = ModelRunnerOutput(
         req_ids=[req.request_id for req in requests],
         req_id_to_index={req.request_id: i for i, req in enumerate(requests)},
-        sampled_token_ids=[np.array([]), np.array([100])],
+        sampled_token_ids=[[], [100]],
         # spec_token_ids=None,
         logprobs=None,
         prompt_logprobs_dict={},
diff --git a/tests/v1/kv_connector/unit/utils.py b/tests/v1/kv_connector/unit/utils.py
index c248104d5b5ea..f35f91bb3adf8 100644
--- a/tests/v1/kv_connector/unit/utils.py
+++ b/tests/v1/kv_connector/unit/utils.py
@@ -7,7 +7,6 @@ from dataclasses import dataclass
 from itertools import chain, count
 from typing import Any
 
-import numpy as np
 import torch
 
 from vllm import SamplingParams
@@ -229,7 +228,7 @@ def create_model_runner_output(
 
     # Make sampled tokens.
     sampled_token = EOS_TOKEN_ID if use_eos else token_id
-    sampled_token_ids = [np.array([sampled_token]) for _ in req_ids]
+    sampled_token_ids = [[sampled_token] for _ in req_ids]
 
     kv_connector_output = (
         None
diff --git a/tests/v1/spec_decode/test_eagle.py b/tests/v1/spec_decode/test_eagle.py
index 421da52415559..89d0ec769ac09 100644
--- a/tests/v1/spec_decode/test_eagle.py
+++ b/tests/v1/spec_decode/test_eagle.py
@@ -3,7 +3,6 @@
 
 from unittest import mock
 
-import numpy as np
 import pytest
 import torch
 
@@ -113,9 +112,7 @@ def test_prepare_next_token_ids():
     sampled_token_ids_tensor = torch.tensor(
         sampled_token_ids, dtype=torch.int32, device=device
     )
-    sampled_token_ids_cpu = [
-        np.array([i for i in seq if i != -1]) for seq in sampled_token_ids
-    ]
+    sampled_token_ids_cpu = [[i for i in seq if i != -1] for seq in sampled_token_ids]
 
     expected_next_token_ids_cpu = [1, 4, 30, 40]
     expected_next_token_ids_tensor = torch.tensor(
diff --git a/tests/v1/spec_decode/test_ngram.py b/tests/v1/spec_decode/test_ngram.py
index 563bc1d957f41..692c39282c372 100644
--- a/tests/v1/spec_decode/test_ngram.py
+++ b/tests/v1/spec_decode/test_ngram.py
@@ -77,7 +77,7 @@ def test_ngram_proposer():
     # No match.
     token_ids_cpu = np.array([[1, 2, 3, 4, 5]])
     result = get_ngram_proposer(min_n=2, max_n=2, k=2).propose(
-        sampled_token_ids=[np.array([0])],
+        sampled_token_ids=[[0]],
         req_ids=["0"],
         num_tokens_no_spec=np.array([len(c) for c in token_ids_cpu]),
         token_ids_cpu=token_ids_cpu,
@@ -88,7 +88,7 @@ def test_ngram_proposer():
     # No match for 4-gram.
     token_ids_cpu = np.array([[1, 2, 3, 4, 1, 2, 3]])
     result = get_ngram_proposer(min_n=4, max_n=4, k=2).propose(
-        sampled_token_ids=[np.array([0])],
+        sampled_token_ids=[[0]],
         req_ids=["0"],
         num_tokens_no_spec=np.array([len(c) for c in token_ids_cpu]),
         token_ids_cpu=token_ids_cpu,
@@ -99,7 +99,7 @@ def test_ngram_proposer():
     # No match for 4-gram but match for 3-gram.
     token_ids_cpu = np.array([[1, 2, 3, 4, 1, 2, 3]])
     result = get_ngram_proposer(min_n=3, max_n=4, k=2).propose(
-        sampled_token_ids=[np.array([0])],
+        sampled_token_ids=[[0]],
         req_ids=["0"],
         num_tokens_no_spec=np.array([len(c) for c in token_ids_cpu]),
         token_ids_cpu=token_ids_cpu,
@@ -111,7 +111,7 @@ def test_ngram_proposer():
     # In this case, the proposer should return the 4-gram match.
     token_ids_cpu = np.array([[2, 3, 4, 5, 1, 2, 3, 4, 1, 2, 3, 4]])
     result = get_ngram_proposer(min_n=3, max_n=4, k=2).propose(
-        sampled_token_ids=[np.array([0])],
+        sampled_token_ids=[[0]],
         req_ids=["0"],
         num_tokens_no_spec=np.array([len(c) for c in token_ids_cpu]),
         token_ids_cpu=token_ids_cpu,
@@ -122,7 +122,7 @@ def test_ngram_proposer():
     # Match for 2-gram and 3-gram, but not 4-gram.
     token_ids_cpu = np.array([[3, 4, 5, 2, 3, 4, 1, 2, 3, 4]])
     result = get_ngram_proposer(min_n=2, max_n=4, k=2).propose(
-        sampled_token_ids=[np.array([0])],
+        sampled_token_ids=[[0]],
         req_ids=["0"],
         num_tokens_no_spec=np.array([len(c) for c in token_ids_cpu]),
         token_ids_cpu=token_ids_cpu,
@@ -133,7 +133,7 @@ def test_ngram_proposer():
     # Multiple 3-gram matched, but always pick the first one.
     token_ids_cpu = np.array([[1, 2, 3, 100, 1, 2, 3, 200, 1, 2, 3, 300, 1, 2, 3]])
     result = get_ngram_proposer(min_n=3, max_n=3, k=2).propose(
-        sampled_token_ids=[np.array([0])],
+        sampled_token_ids=[[0]],
         req_ids=["0"],
         num_tokens_no_spec=np.array([len(c) for c in token_ids_cpu]),
         token_ids_cpu=token_ids_cpu,
@@ -144,7 +144,7 @@ def test_ngram_proposer():
     # check empty input
     token_ids_cpu = np.array([[]])
     result = get_ngram_proposer(min_n=2, max_n=2, k=2).propose(
-        sampled_token_ids=[np.array([0])],
+        sampled_token_ids=[[0]],
         req_ids=["0"],
         num_tokens_no_spec=np.array([len(c) for c in token_ids_cpu]),
         token_ids_cpu=token_ids_cpu,
@@ -157,7 +157,7 @@ def test_ngram_proposer():
     # second request has 3 tokens and no match. Padded with -1 for max len 5
     token_ids_cpu = np.array([[1, 2, 3, 1, 2], [4, 5, 6, -1, -1]])
     result = get_ngram_proposer(min_n=2, max_n=2, k=2).propose(
-        sampled_token_ids=[np.array([0]), np.array([1])],
+        sampled_token_ids=[[0], [1]],
         req_ids=["0", "1"],
         num_tokens_no_spec=np.array([5, 3]),
         token_ids_cpu=token_ids_cpu,
@@ -181,7 +181,7 @@ def test_ngram_proposer():
     input_2[:3] = [4, 5, 6]
     token_ids_cpu = np.array([input_1, input_2])
     result = ngram_proposer.propose(
-        sampled_token_ids=[np.array([0]), np.array([1])],
+        sampled_token_ids=[[0], [1]],
         req_ids=["0", "1"],
         num_tokens_no_spec=np.array([len(input_1), 3]),
         token_ids_cpu=token_ids_cpu,
diff --git a/vllm/v1/core/sched/scheduler.py b/vllm/v1/core/sched/scheduler.py
index c640c40a455d0..ba7ad0c091737 100644
--- a/vllm/v1/core/sched/scheduler.py
+++ b/vllm/v1/core/sched/scheduler.py
@@ -1010,8 +1010,8 @@ class Scheduler(SchedulerInterface):
                 continue
 
             req_index = model_runner_output.req_id_to_index[req_id]
-            generated_token_ids: list[int] = (
-                sampled_token_ids[req_index].tolist() if sampled_token_ids else []
+            generated_token_ids = (
+                sampled_token_ids[req_index] if sampled_token_ids else []
             )
 
             scheduled_spec_token_ids = (
diff --git a/vllm/v1/outputs.py b/vllm/v1/outputs.py
index 60ee9671e4977..e32d5bb608b1d 100644
--- a/vllm/v1/outputs.py
+++ b/vllm/v1/outputs.py
@@ -158,7 +158,7 @@ class ModelRunnerOutput:
     # num_generated_tokens is the number of tokens
     # generated in the current step. It can be different for
     # each request due to speculative/jump decoding.
-    sampled_token_ids: list[np.ndarray]
+    sampled_token_ids: list[list[int]]
 
     # [num_reqs, max_num_logprobs + 1]
     # [num_reqs, max_num_logprobs + 1]
diff --git a/vllm/v1/sample/rejection_sampler.py b/vllm/v1/sample/rejection_sampler.py
index f31a0cddda9ae..926305d25f56b 100644
--- a/vllm/v1/sample/rejection_sampler.py
+++ b/vllm/v1/sample/rejection_sampler.py
@@ -3,7 +3,6 @@
 
 from dataclasses import replace
 
-import numpy as np
 import torch
 import torch.nn as nn
 
@@ -205,7 +204,7 @@ class RejectionSampler(nn.Module):
     def parse_output(
         output_token_ids: torch.Tensor,
         vocab_size: int,
-    ) -> list[np.ndarray]:
+    ) -> list[list[int]]:
         """Parse the output of the rejection sampler.
         Args:
             output_token_ids: The sampled token IDs in shape
@@ -221,7 +220,10 @@ class RejectionSampler(nn.Module):
         valid_mask = (output_token_ids_np != PLACEHOLDER_TOKEN_ID) & (
             output_token_ids_np < vocab_size
         )
-        return [row[valid_mask[i]] for i, row in enumerate(output_token_ids_np)]
+        outputs = [
+            row[valid_mask[i]].tolist() for i, row in enumerate(output_token_ids_np)
+        ]
+        return outputs
 
     def apply_logits_processors(
         self,
diff --git a/vllm/v1/spec_decode/eagle.py b/vllm/v1/spec_decode/eagle.py
index f3b34544f8d91..beef5203e0394 100644
--- a/vllm/v1/spec_decode/eagle.py
+++ b/vllm/v1/spec_decode/eagle.py
@@ -484,7 +484,7 @@ class EagleProposer:
 
     def prepare_next_token_ids_cpu(
         self,
-        sampled_token_ids: list[np.ndarray],
+        sampled_token_ids: list[list[int]],
         requests: dict[str, CachedRequestState],
         gpu_input_batch: InputBatch,
         num_scheduled_tokens: dict[str, int],
@@ -499,7 +499,7 @@ class EagleProposer:
         req_ids = gpu_input_batch.req_ids
         next_token_ids: list[int] = []
         for i, token_ids in enumerate(sampled_token_ids):
-            if token_ids.shape[0] > 0:
+            if token_ids:
                 # Common case.
                 next_token_id = token_ids[-1]
             else:
@@ -510,9 +510,10 @@ class EagleProposer:
                 seq_len = req_state.num_computed_tokens + num_scheduled_tokens[req_id]
                 next_token_id = req_state.get_token_id(seq_len)
             next_token_ids.append(next_token_id)
-        return torch.tensor(
+        next_token_ids = torch.tensor(
             next_token_ids, dtype=torch.int32, device=self.input_ids.device
         )
+        return next_token_ids
 
     def prepare_next_token_ids_padded(
         self,
diff --git a/vllm/v1/spec_decode/ngram_proposer.py b/vllm/v1/spec_decode/ngram_proposer.py
index 378937dba9882..e2f83cb24aa90 100644
--- a/vllm/v1/spec_decode/ngram_proposer.py
+++ b/vllm/v1/spec_decode/ngram_proposer.py
@@ -54,7 +54,7 @@ class NgramProposer:
         # Trigger Numba JIT compilation for N-gram proposer.
         # This usually takes less than 1 second.
         self.propose(
-            [np.array([])] * 1024,
+            [[]] * 1024,
             [""] * 1024,
             np.zeros(1024, dtype=np.int32),
             np.zeros((1024, self.max_model_len), dtype=np.int32),
@@ -131,7 +131,7 @@ class NgramProposer:
 
     def propose(
         self,
-        sampled_token_ids: list[np.ndarray],
+        sampled_token_ids: list[list[int]],
         req_ids: list[str],
         num_tokens_no_spec: np.ndarray,
         token_ids_cpu: np.ndarray,
@@ -140,7 +140,7 @@ class NgramProposer:
         # find which requests need ngram proposals
         valid_ngram_requests = []
         for i, sampled_ids in enumerate(sampled_token_ids):
-            num_sampled_ids = sampled_ids.shape[0]
+            num_sampled_ids = len(sampled_ids)
             if not num_sampled_ids:
                 # Skip speculative decoding.
                 continue
diff --git a/vllm/v1/spec_decode/suffix_decoding.py b/vllm/v1/spec_decode/suffix_decoding.py
index d76e0ffe778d4..049e335db3254 100644
--- a/vllm/v1/spec_decode/suffix_decoding.py
+++ b/vllm/v1/spec_decode/suffix_decoding.py
@@ -1,7 +1,5 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
-import numpy as np
-
 from vllm.config import VllmConfig
 from vllm.v1.worker.gpu_input_batch import InputBatch
 
@@ -34,16 +32,16 @@ class SuffixDecodingProposer:
     def propose(
         self,
         input_batch: InputBatch,
-        sampled_token_ids: list[np.ndarray],
+        sampled_token_ids: list[list[int]],
     ) -> list[list[int]]:
         """
         Propose speculative tokens for each request in the input batch. Suffix Decoding
         will speculate a dynamic number of tokens for each request every decoding step,
         so each entry in the returned list may have different lengths.
         """
-        draft_token_ids: list[np.ndarray] = []
+        draft_token_ids: list[list[int]] = []
         for i, sampled_ids in enumerate(sampled_token_ids):
-            if sampled_ids.shape[0] == 0:
+            if not sampled_ids:
                 # Skip speculative decoding for partial prefills.
                 draft_token_ids.append([])
                 continue
@@ -72,7 +70,7 @@ class SuffixDecodingProposer:
                 self.suffix_cache.start_request(req_id, prompt_token_ids)
 
             # Append the newly sampled ids to the suffix cache for this request.
-            self.suffix_cache.add_active_response(req_id, sampled_ids.tolist())
+            self.suffix_cache.add_active_response(req_id, sampled_ids)
 
             # Suffix decoding only uses the most recent tokens up to max_tree_depth, so
             # we extract the pattern from the end of the input.
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index d0d6164180e66..9b3e5b668aab5 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -216,11 +216,9 @@ class AsyncGPUModelRunnerOutput(AsyncModelRunnerOutput):
         del self._logprobs_tensors
         del self._sampled_token_ids
 
-        valid_sampled_token_ids: list[np.ndarray] = [
-            row for row in self.sampled_token_ids_cpu.numpy()
-        ]
+        valid_sampled_token_ids = self.sampled_token_ids_cpu.tolist()
         for i in self._invalid_req_indices:
-            valid_sampled_token_ids[i] = np.array([])
+            valid_sampled_token_ids[i].clear()
 
         output = self._model_runner_output
         output.sampled_token_ids = valid_sampled_token_ids
@@ -2341,7 +2339,7 @@ class GPUModelRunner(
     ) -> tuple[
         dict[str, int],
         LogprobsLists | None,
-        list[np.ndarray],
+        list[list[int]],
         dict[str, LogprobsTensors | None],
         list[str],
         dict[str, int],
@@ -2367,7 +2365,6 @@ class GPUModelRunner(
         num_sampled_tokens = sampler_output.sampled_token_ids.shape[0]
         sampled_token_ids = sampler_output.sampled_token_ids
         invalid_req_indices = []
-        valid_sampled_token_ids: list[np.ndarray]
         if not self.use_async_scheduling:
             # Get the valid generated tokens.
             max_gen_len = sampled_token_ids.shape[-1]
@@ -2382,7 +2379,7 @@ class GPUModelRunner(
                 )
             # Mask out the sampled tokens that should not be sampled.
             for i in discard_sampled_tokens_req_indices:
-                valid_sampled_token_ids[int(i)] = np.array([])
+                valid_sampled_token_ids[int(i)].clear()
         else:
             valid_sampled_token_ids = []
             invalid_req_indices = discard_sampled_tokens_req_indices.tolist()
@@ -2410,24 +2407,19 @@ class GPUModelRunner(
             [0] if spec_decode_metadata and logprobs_tensors else None
         )
         for req_idx in range(num_sampled_tokens):
-            sampled_ids: np.ndarray | None
             if self.use_async_scheduling:
-                sampled_ids = (
-                    np.array([-1]) if req_idx not in invalid_req_indices_set else None
-                )
+                sampled_ids = [-1] if req_idx not in invalid_req_indices_set else None
             else:
                 sampled_ids = valid_sampled_token_ids[req_idx]
 
-            num_sampled_ids: int = (
-                sampled_ids.shape[0] if sampled_ids is not None else 0
-            )
+            num_sampled_ids: int = len(sampled_ids) if sampled_ids else 0
 
             if cu_num_accepted_tokens is not None:
                 cu_num_accepted_tokens.append(
                     cu_num_accepted_tokens[-1] + num_sampled_ids
                 )
 
-            if sampled_ids is None or num_sampled_ids == 0:
+            if not sampled_ids:
                 continue
 
             start_idx = self.input_batch.num_tokens_no_spec[req_idx]
@@ -2769,9 +2761,7 @@ class GPUModelRunner(
         with record_function_or_nullcontext("gpu_model_runner: sample"):
             sampler_output = self._sample(logits, spec_decode_metadata)
 
-        def propose_draft_token_ids(
-            sampled_token_ids: torch.Tensor | list[np.ndarray],
-        ) -> None:
+        def propose_draft_token_ids(sampled_token_ids):
             assert spec_decode_common_attn_metadata is not None
             with record_function_or_nullcontext("gpu_model_runner: draft"):
                 self._draft_token_ids = self.propose_draft_token_ids(
@@ -2893,14 +2883,14 @@ class GPUModelRunner(
     def propose_draft_token_ids(
         self,
         scheduler_output: "SchedulerOutput",
-        sampled_token_ids: torch.Tensor | list[np.ndarray],
+        sampled_token_ids: torch.Tensor | list[list[int]],
         sampling_metadata: SamplingMetadata,
         hidden_states: torch.Tensor,
         sample_hidden_states: torch.Tensor,
         aux_hidden_states: list[torch.Tensor] | None,
         spec_decode_metadata: SpecDecodeMetadata | None,
         common_attn_metadata: CommonAttentionMetadata,
-    ) -> torch.Tensor | list[list[int]]:
+    ) -> list[list[int]] | torch.Tensor:
         num_scheduled_tokens = scheduler_output.total_num_scheduled_tokens
         if self.speculative_config.method == "ngram":
             assert isinstance(sampled_token_ids, list)
@@ -2932,7 +2922,7 @@ class GPUModelRunner(
                 for num_draft, tokens in zip(
                     spec_decode_metadata.num_draft_tokens, sampled_token_ids
                 ):
-                    indices.append(offset + tokens.shape[0] - 1)
+                    indices.append(offset + len(tokens) - 1)
                     offset += num_draft + 1
                 indices = torch.tensor(indices, device=self.device)
                 hidden_states = sample_hidden_states[indices]
@@ -4872,7 +4862,7 @@ class GPUModelRunner(
 
         return kv_cache_spec
 
-    def _to_list(self, sampled_token_ids: torch.Tensor) -> list[np.ndarray]:
+    def _to_list(self, sampled_token_ids: torch.Tensor) -> list[list[int]]:
         # This is a short term mitigation for issue mentioned in
         # https://github.com/vllm-project/vllm/issues/22754.
         # `tolist` would trigger a cuda wise stream sync, which
@@ -4885,4 +4875,4 @@ class GPUModelRunner(
         pinned.copy_(sampled_token_ids, non_blocking=True)
         self.transfer_event.record()
         self.transfer_event.synchronize()
-        return [row for row in pinned.numpy()]
+        return pinned.tolist()

From 363aaeef0ff8511fd1466d41a2e027b22b28f39b Mon Sep 17 00:00:00 2001
From: Mohammad Othman <48595863+OthmanMohammad@users.noreply.github.com>
Date: Sat, 15 Nov 2025 06:31:36 +0200
Subject: [PATCH 486/976] Fix IntermediateTensors initialization and add type
 hints (#28743)

Signed-off-by: Mohammad Othman <Mo@MohammadOthman.com>
Co-authored-by: Mohammad Othman <Mo@MohammadOthman.com>
---
 vllm/sequence.py | 7 ++++++-
 1 file changed, 6 insertions(+), 1 deletion(-)

diff --git a/vllm/sequence.py b/vllm/sequence.py
index 6bcc94ad5c625..6d20ca9aac225 100644
--- a/vllm/sequence.py
+++ b/vllm/sequence.py
@@ -60,12 +60,17 @@ class IntermediateTensors:
     tensors: dict[str, torch.Tensor]
     kv_connector_output: KVConnectorOutput | None
 
-    def __init__(self, tensors):
+    def __init__(
+        self,
+        tensors: dict[str, torch.Tensor],
+        kv_connector_output: KVConnectorOutput | None = None,
+    ) -> None:
         # manually define this function, so that
         # Dynamo knows `IntermediateTensors()` comes from this file.
         # Otherwise, dataclass will generate this function by evaluating
         # a string, and we will lose the information about the source file.
         self.tensors = tensors
+        self.kv_connector_output = kv_connector_output
 
     def __getitem__(self, key: str | slice):
         if isinstance(key, str):

From c9e665852abbd42d7404a4f6dad7d47478ca95f8 Mon Sep 17 00:00:00 2001
From: "Chendi.Xue" <chendi.xue@intel.com>
Date: Fri, 14 Nov 2025 23:51:32 -0600
Subject: [PATCH 487/976] [NIXL] heterogeneous block_size support (#26759)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Signed-off-by: Chendi Xue <chendi.xue@intel.com>
Signed-off-by: Chendi.Xue <chendi.xue@intel.com>
Co-authored-by: Nicolò Lucchesi <nicolo.lucchesi@gmail.com>
---
 .../nixl_integration/run_accuracy_test.sh     |   4 +
 .../kv_connector/unit/test_nixl_connector.py  |   3 +
 .../kv_connector/v1/nixl_connector.py         | 309 ++++++++++++++----
 3 files changed, 257 insertions(+), 59 deletions(-)

diff --git a/tests/v1/kv_connector/nixl_integration/run_accuracy_test.sh b/tests/v1/kv_connector/nixl_integration/run_accuracy_test.sh
index a9817313cf022..ebc8575e5b390 100755
--- a/tests/v1/kv_connector/nixl_integration/run_accuracy_test.sh
+++ b/tests/v1/kv_connector/nixl_integration/run_accuracy_test.sh
@@ -49,6 +49,8 @@ NUM_DECODE_INSTANCES=${NUM_DECODE_INSTANCES:-1}   # Default to 1
 PREFILLER_TP_SIZE=${PREFILLER_TP_SIZE:-1}
 DECODER_TP_SIZE=${DECODER_TP_SIZE:-1}
 GPU_MEMORY_UTILIZATION=${GPU_MEMORY_UTILIZATION:-0.2}
+PREFILL_BLOCK_SIZE=${PREFILL_BLOCK_SIZE:-16}
+DECODE_BLOCK_SIZE=${DECODE_BLOCK_SIZE:-16}
 
 # Find the git repository root directory
 GIT_ROOT=$(git rev-parse --show-toplevel)
@@ -136,6 +138,7 @@ run_tests_for_model() {
     vllm serve $model_name \
     --port $PORT \
     --enforce-eager \
+    --block-size ${PREFILL_BLOCK_SIZE} \
     --gpu-memory-utilization $GPU_MEMORY_UTILIZATION \
     --tensor-parallel-size $PREFILLER_TP_SIZE \
     --kv-transfer-config '$KV_CONFIG'"
@@ -177,6 +180,7 @@ run_tests_for_model() {
     vllm serve $model_name \
     --port $PORT \
     --enforce-eager \
+    --block-size ${DECODE_BLOCK_SIZE} \
     --gpu-memory-utilization $GPU_MEMORY_UTILIZATION \
     --kv-transfer-config '$KV_CONFIG'"
   
diff --git a/tests/v1/kv_connector/unit/test_nixl_connector.py b/tests/v1/kv_connector/unit/test_nixl_connector.py
index 8e421717fea30..b7d7a10057b8b 100644
--- a/tests/v1/kv_connector/unit/test_nixl_connector.py
+++ b/tests/v1/kv_connector/unit/test_nixl_connector.py
@@ -407,6 +407,7 @@ class FakeNixlConnectorWorker(NixlConnectorWorker):
                 # `self.kv_cache_layout` is only forced to HND when vllm engine
                 # is started. We mock HND here.
                 kv_cache_layout="HND",
+                block_size=self.block_size,
             ),
             remote_tp_size=remote_tp_size,
         )
@@ -652,6 +653,7 @@ class TestNixlHandshake:
                 block_lens=worker.block_len_per_layer,
                 attn_backend_name=worker.backend_name,
                 kv_cache_layout=mismatched_layout,
+                block_size=worker.block_size,
             )
 
             with pytest.raises(RuntimeError):
@@ -706,6 +708,7 @@ class TestNixlHandshake:
                 block_lens=[i * 2 for i in worker.block_len_per_layer],
                 attn_backend_name=worker.backend_name,
                 kv_cache_layout="HND",
+                block_size=worker.block_size,
             )
 
             # We don't check layout for homogeneous TP and MLA for now, as the
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py b/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
index 3d4547c514532..a70c98b637131 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
@@ -108,6 +108,7 @@ class NixlAgentMetadata(KVConnectorHandshakeMetadata):
     block_lens: list[int]
     attn_backend_name: str
     kv_cache_layout: str
+    block_size: int
 
 
 @dataclass
@@ -709,6 +710,9 @@ class NixlConnectorWorker:
                 self.is_mla or self._use_pallas or self.is_kv_layout_blocks_first
             )
 
+        block_size: int
+        remote_block_size: dict[EngineId, int]
+
         def tp_ratio(
             self,
             remote_tp_size: int,
@@ -725,6 +729,19 @@ class NixlConnectorWorker:
             )
             return self.tp_size // remote_tp_size
 
+        def block_size_ratio(
+            self,
+            remote_block_size: int,
+        ) -> float:
+            """
+            Calculate the block size ratio between local and remote TP.
+            """
+            assert self.block_size % remote_block_size == 0, (
+                f"Local block size {self.block_size} is not divisible "
+                f"by remote block size {remote_block_size} or vice versa."
+            )
+            return self.block_size // remote_block_size
+
         def tp_ratio_from_engine_id(
             self,
             remote_engine_id: EngineId,
@@ -732,6 +749,13 @@ class NixlConnectorWorker:
             remote_tp_size = self.remote_tp_size[remote_engine_id]
             return self.tp_ratio(remote_tp_size)
 
+        def block_size_ratio_from_engine_id(
+            self,
+            remote_engine_id: EngineId,
+        ) -> float:
+            remote_block_size = self.remote_block_size[remote_engine_id]
+            return self.block_size_ratio(remote_block_size)
+
         def is_kv_replicated(self, engine_id: EngineId) -> bool:
             """
             Whether the KV cache is replicated across TP workers due to the
@@ -866,6 +890,7 @@ class NixlConnectorWorker:
 
         # nixl_prepped_dlist_handle.
         self.src_xfer_side_handle: int = 0
+        self.src_xfer_side_handles: dict[int, int] = {}
         # Map of engine_id -> nixl_prepped_dlist_handle (int)].
         self.dst_xfer_side_handles: dict[EngineId, int] = {}
 
@@ -925,6 +950,7 @@ class NixlConnectorWorker:
         logger.debug("Detected kv cache layout %s", self.kv_cache_layout)
 
         self._tp_size: dict[EngineId, int] = {self.engine_id: self.world_size}
+        self._block_size: dict[EngineId, int] = {self.engine_id: self.block_size}
         # With heterogeneous TP, P must wait for all assigned D TP workers to
         # finish reading before safely freeing the blocks.
         self.consumer_notification_counts_by_req = defaultdict[ReqId, int](int)
@@ -936,6 +962,8 @@ class NixlConnectorWorker:
             remote_tp_size=self._tp_size,  # shared state
             is_mla=self.use_mla,
             total_num_kv_heads=self.model_config.get_total_num_kv_heads(),
+            block_size=self.block_size,
+            remote_block_size=self._block_size,
             attn_backend=backend,
         )
         self._use_pallas = self.kv_topo._use_pallas
@@ -987,9 +1015,13 @@ class NixlConnectorWorker:
                 )
 
             # Register Remote agent.
+            assert metadata.block_size <= self.block_size, (
+                "nP > nD is not supported yet."
+            )
             remote_agent_name = self.add_remote_agent(
                 metadata, p_remote_rank, remote_tp_size
             )
+
             setup_agent_time = time.perf_counter()
             logger.debug(
                 "NIXL handshake: add agent took: %s",
@@ -1217,43 +1249,10 @@ class NixlConnectorWorker:
             self.num_regions *= 2
 
         # Register local/src descr for NIXL xfer.
-        blocks_data = []
-        for i, base_addr in enumerate(seen_base_addresses):
-            kv_block_len = self.get_backend_aware_kv_block_len(layer_idx=i)
-            # NOTE With heter-TP, more blocks are prepared than what are
-            # needed as self.num_blocks >= nixl_agent_meta.num_blocks. We
-            # could create fewer, but then _get_block_descs_ids needs to
-            # select agent_meta.num_blocks instead of self.num_blocks for
-            # local descr, and that makes handling regular flow less clean.
-            for block_id in range(self.num_blocks):
-                block_offset = block_id * self.block_len_per_layer[i]
-                addr = base_addr + block_offset
-                # (addr, len, device id)
-                blocks_data.append((addr, kv_block_len, self.device_id))
+        self.seen_base_addresses = seen_base_addresses
+        self.src_xfer_side_handle = self.register_local_xfer_handler(self.block_size)
 
-            if self.kv_topo.is_kv_layout_blocks_first:
-                # Separate and interleave K/V regions to maintain the same
-                # descs ordering. This is needed for selecting contiguous heads
-                # when split across TP ranks.
-                for block_id in range(self.num_blocks):
-                    block_offset = block_id * self.block_len_per_layer[i]
-                    addr = base_addr + block_offset
-                    # Register addresses for V cache (K registered first).
-                    v_addr = addr + kv_block_len
-                    blocks_data.append((v_addr, kv_block_len, self.device_id))
-        logger.debug(
-            "Created %s blocks for src engine %s and rank %s on device id %s",
-            len(blocks_data),
-            self.engine_id,
-            self.tp_rank,
-            self.device_id,
-        )
-
-        descs = self.nixl_wrapper.get_xfer_descs(blocks_data, self.nixl_memory_type)
-        # NIXL_INIT_AGENT to be used for preparations of local descs.
-        self.src_xfer_side_handle = self.nixl_wrapper.prep_xfer_dlist(
-            "NIXL_INIT_AGENT", descs
-        )
+        self.src_xfer_side_handles[self.block_size] = self.src_xfer_side_handle
 
         # TODO(mgoin): Hybrid memory allocator is currently disabled for
         # models with local attention (Llama 4). Can remove this once enabled.
@@ -1289,8 +1288,62 @@ class NixlConnectorWorker:
             kv_cache_layout=self.kv_cache_layout
             if not self.use_host_buffer
             else self.host_buffer_kv_cache_layout,
+            block_size=self.block_size,
         )
 
+    def register_local_xfer_handler(
+        self,
+        block_size: int,
+    ) -> int:
+        """
+        Function used for register local xfer handler with local block_size or
+        Remote block_size.
+
+        When local block_size is same as remote block_size, we use local block_size
+        to register local_xfer_handler during init.
+
+        When remote block size is less than local block size, we need to use
+        register another local_xfer_handler using remote block len to ensure
+        data copy correctness.
+        """
+        block_size_ratio = self.block_size // block_size
+        blocks_data = []
+        for i, base_addr in enumerate(self.seen_base_addresses):
+            # The new block_len is using prefill block_len;
+            # and num_blocks is multiple with N
+            kv_block_len = (
+                self.get_backend_aware_kv_block_len(layer_idx=i) // block_size_ratio
+            )
+            block_len_per_layer = self.block_len_per_layer[i] // block_size_ratio
+            num_blocks = self.num_blocks * block_size_ratio
+            for block_id in range(num_blocks):
+                block_offset = block_id * block_len_per_layer
+                addr = base_addr + block_offset
+                # (addr, len, device id)
+                blocks_data.append((addr, kv_block_len, self.device_id))
+
+            if self.kv_topo.is_kv_layout_blocks_first:
+                # Separate and interleave K/V regions to maintain the same
+                # descs ordering. This is needed for selecting contiguous heads
+                # when split across TP ranks.
+                for block_id in range(num_blocks):
+                    block_offset = block_id * block_len_per_layer
+                    addr = base_addr + block_offset
+                    # Register addresses for V cache (K registered first).
+                    v_addr = addr + kv_block_len
+                    blocks_data.append((v_addr, kv_block_len, self.device_id))
+        logger.debug(
+            "Created %s blocks for src engine %s and rank %s on device id %s",
+            len(blocks_data),
+            self.engine_id,
+            self.tp_rank,
+            self.device_id,
+        )
+
+        descs = self.nixl_wrapper.get_xfer_descs(blocks_data, self.nixl_memory_type)
+        # NIXL_INIT_AGENT to be used for preparations of local descs.
+        return self.nixl_wrapper.prep_xfer_dlist("NIXL_INIT_AGENT", descs)
+
     def add_remote_agent(
         self,
         nixl_agent_meta: NixlAgentMetadata,
@@ -1349,6 +1402,8 @@ class NixlConnectorWorker:
         ### Register remote agent metadata
         if engine_id not in self._tp_size:
             self._tp_size[engine_id] = remote_tp_size
+        if engine_id not in self._block_size:
+            self._block_size[engine_id] = nixl_agent_meta.block_size
 
         remote_agent_name = self.nixl_wrapper.add_remote_agent(
             nixl_agent_meta.agent_metadata
@@ -1359,6 +1414,13 @@ class NixlConnectorWorker:
 
         # Create dst descs and xfer side handles. TP workers have same #blocks
         # so we only register once per engine_id.
+        # Example:
+        # block_size_ratio > 1:
+        # remote:               | 0| 1| 2| 3| 4| 5| 6| 7| 8| 9|10|11|12|
+        # local origin:|          0|          1|          8|         12|
+        # local mapped:| 0| 1| 2| 3| 4| 5| 6| 7| 8| 9|10|11|12|13|14|15|
+        block_size_ratio = self.kv_topo.block_size_ratio_from_engine_id(engine_id)
+
         if engine_id not in self.dst_num_blocks:
             self.dst_num_blocks[engine_id] = nixl_agent_meta.num_blocks
 
@@ -1381,8 +1443,14 @@ class NixlConnectorWorker:
         # Register all remote blocks, but only the corresponding kv heads.
         for i, base_addr in enumerate(nixl_agent_meta.kv_caches_base_addr):
             kv_block_len = self.get_backend_aware_kv_block_len(layer_idx=i)
+            remote_kv_block_len = kv_block_len // block_size_ratio
+            if block_size_ratio > 1:
+                # using remote kv_block_len as transfer unit
+                kv_block_len = remote_kv_block_len
             rank_offset = (
-                self.tp_rank % tp_ratio * kv_block_len if not replicates_kv_cache else 0
+                self.tp_rank % tp_ratio * remote_kv_block_len
+                if not replicates_kv_cache
+                else 0
             )
             for block_id in range(nixl_agent_meta.num_blocks):
                 block_offset = block_id * nixl_agent_meta.block_lens[i]
@@ -1417,6 +1485,13 @@ class NixlConnectorWorker:
             remote_agent_name, descs
         )
 
+        if block_size_ratio > 1:
+            # when prefill with smaller block_size, we need to init a
+            # new handler with same block_len to match
+            self.src_xfer_side_handles[nixl_agent_meta.block_size] = (
+                self.register_local_xfer_handler(nixl_agent_meta.block_size)
+            )
+
         return remote_agent_name
 
     def _validate_remote_agent_handshake(
@@ -1433,6 +1508,9 @@ class NixlConnectorWorker:
         assert nixl_agent_meta.attn_backend_name == self.backend_name
 
         tp_ratio = self.kv_topo.tp_ratio_from_engine_id(remote_engine_id)
+        block_size_ratio = self.kv_topo.block_size_ratio_from_engine_id(
+            remote_engine_id
+        )
         assert tp_ratio > 0, "Decode TP cannot be smaller than prefill TP"
         assert not self._use_pallas or tp_ratio == 1, (
             "TPU (pallas_v1) DOES NOT support heterogeneous TP yet."
@@ -1463,33 +1541,26 @@ class NixlConnectorWorker:
         remote_block_len = nixl_agent_meta.block_lens[0]
         if self.use_mla or self.kv_topo.is_kv_replicated(remote_engine_id):
             # With replicated KV cache, only the number of blocks can differ.
-            assert self.block_len_per_layer == nixl_agent_meta.block_lens, (
-                "KV cache sizes must match between P and D when replicated"
-            )
-            remote_block_size = remote_block_len // (self.slot_size_per_layer[0])
+            for i in range(len(self.block_len_per_layer)):
+                assert (
+                    self.block_len_per_layer[i] // block_size_ratio
+                    == nixl_agent_meta.block_lens[i]
+                ), "KV cache sizes must match between P and D when replicated"
         else:
             # When MLA is not used, this is a list of the same block length
             for block_len in nixl_agent_meta.block_lens:
                 assert block_len == remote_block_len, (
                     "All remote layers must have the same block size"
                 )
-            remote_block_size = remote_block_len // (
-                self.slot_size_per_layer[0] * tp_ratio
-            )
-            if self.kv_topo.is_kv_layout_blocks_first:
-                # With flashinfer, KV are sent in the same message.
-                remote_block_size //= 2
 
-            assert remote_block_len == self.block_len_per_layer[0] * tp_ratio, (
+            assert (
+                remote_block_len
+                == (self.block_len_per_layer[0] * tp_ratio) // block_size_ratio
+            ), (
                 "Remote P worker KV layer cache must be of shape [2, N, "
                 "local_kv_heads*tp_ratio, block_size, head_dim] and same dtype."
             )
 
-        assert self.block_size == remote_block_size, (
-            "Remote P worker with different page/block size is not supported "
-            f"{self.block_size=}, {remote_block_size=}"
-        )
-
         # TP workers have same #blocks.
         assert self.dst_num_blocks[remote_engine_id] == nixl_agent_meta.num_blocks
 
@@ -1576,6 +1647,56 @@ class NixlConnectorWorker:
                 )
                 cache.index_copy_(0, indices, permuted_blocks)
 
+    def blocksize_post_process(self, block_ids_per_ratio: dict[float, list[list[int]]]):
+        def _process_local_gt_remote(blocks_to_update, block_size_ratio):
+            n_kv_heads, block_size, head_size = blocks_to_update.shape[1:]
+            remote_block_size = block_size // block_size_ratio
+            n_blocks = block_size_ratio
+            # actual permute is to convert
+            # for local blocksize > remote blocksize
+            # ex: local blocksize = 16 tokens, remote blocksize = 4 tokens
+            # local block[0] = remote block[0, 1, 2, 3]
+            # remote is |h0-b0|h1-b0|h2-b0|h3-b0|h0-b1|h1-b1|h2-b1|h3-b1|...
+            # local is  |h0-b0..................|h1-b0..................|...
+            # permute is to:
+            # 1. view => view remote as n_blocks * remote_shape(H,remoteN,D)
+            # 2. permute => (H, nblocks, remoteN, D)
+            # 3. flatten => (H, localN, D)
+            permuted_blocks = (
+                blocks_to_update.reshape(
+                    -1, n_blocks, n_kv_heads, remote_block_size, head_size
+                )
+                .permute(0, 2, 1, 3, 4)
+                .flatten(2, 3)
+            )
+            return permuted_blocks
+
+        if len(self.device_kv_caches) == 0:
+            return
+        split_k_and_v = not (
+            self.use_mla or self._use_pallas or self.kv_topo.is_kv_layout_blocks_first
+        )
+        sample_cache = list(self.device_kv_caches.values())[0][0]
+        for block_size_ratio, block_ids_list in block_ids_per_ratio.items():
+            assert block_size_ratio > 1, "Only nP < nD supported currently."
+            block_ids_list = [[item for sublist in block_ids_list for item in sublist]]
+
+            for block_ids in block_ids_list:
+                indices = torch.tensor(block_ids, device=sample_cache.device)
+
+                for _, cache_or_caches in self.device_kv_caches.items():
+                    cache_list = cache_or_caches if split_k_and_v else [cache_or_caches]
+                    for cache in cache_list:
+                        blocks_to_update = cache.index_select(0, indices)
+                        # because kv_cache is always using original layout NHD as
+                        # virtual shape while stride can be either HND / NHD at
+                        # initialization.
+                        # we need to firstly get physical view of the tensor
+                        permuted_blocks = _process_local_gt_remote(
+                            blocks_to_update.permute(0, 2, 1, 3), block_size_ratio
+                        ).permute(0, 2, 1, 3)
+                        cache.index_copy_(0, indices, permuted_blocks)
+
     def get_finished(self) -> tuple[set[str], set[str]]:
         """
         Get requests that are done sending or recving on this specific worker.
@@ -1599,6 +1720,7 @@ class NixlConnectorWorker:
             )
 
         block_ids_to_permute = []
+        block_ids_for_blocksize_post_process = defaultdict(list)
         for req_id in done_recving:
             # clean up metadata for completed requests
             meta = self._recving_metadata.pop(req_id, None)
@@ -1607,6 +1729,20 @@ class NixlConnectorWorker:
                 self.sync_recved_kv_to_device(req_id, meta)
             if self.enable_permute_local_kv:
                 block_ids_to_permute += meta.local_physical_block_ids
+
+            # post processing for heteroblocksize
+            block_size_ratio = self.kv_topo.block_size_ratio_from_engine_id(
+                meta.remote_engine_id
+            )
+            if (
+                not self.use_mla
+                and block_size_ratio > 1
+                and self.kv_cache_layout == "HND"
+            ):
+                block_ids_for_blocksize_post_process[block_size_ratio].append(
+                    meta.local_block_ids
+                )
+        self.blocksize_post_process(block_ids_for_blocksize_post_process)
         if len(block_ids_to_permute) > 0:
             self.permute_device_kv(block_ids_to_permute)
 
@@ -1781,6 +1917,24 @@ class NixlConnectorWorker:
         dst_engine_id: str,
         request_id: str,
     ):
+        block_size_ratio = self.kv_topo.block_size_ratio_from_engine_id(dst_engine_id)
+        if block_size_ratio > 1:
+            local_block_ids = self.get_mapped_blocks(
+                np.asarray(local_block_ids), block_size_ratio
+            )
+            if len(local_block_ids) > len(remote_block_ids):
+                # NOTE:
+                # get_mapped_blocks will always expand block_ids for n times.
+                # ex:
+                # prefill block_ids with block_size as 4:
+                # [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
+                # Local decode block_ids with block_size as 16: [1, 2, 3]
+                # expland ecode block_ids with get_mapped_blocks from [1, 2, 3] to
+                # [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]
+                # Then we clip local to align with prefill
+                # [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12] to
+                # [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
+                local_block_ids = local_block_ids[: len(remote_block_ids)]
         # NOTE(rob): having the staging blocks be on the READER side is
         # not going to work well (since we will have to call rearrange tensors).
         # after we detect the txn is complete (which means we cannot make the
@@ -1823,7 +1977,10 @@ class NixlConnectorWorker:
             remote_block_ids = remote_block_ids[-num_local_blocks:]
 
         # Get side handles.
-        local_xfer_side_handle = self.src_xfer_side_handle
+        remote_block_size = self.kv_topo.remote_block_size[dst_engine_id]
+        local_xfer_side_handle = self.src_xfer_side_handles.get(
+            remote_block_size, self.src_xfer_side_handle
+        )
         remote_xfer_side_handle = self.dst_xfer_side_handles[dst_engine_id]
 
         # NOTE (nicolo) With homogeneous TP, each TP worker loads KV from
@@ -1833,13 +1990,17 @@ class NixlConnectorWorker:
         # Get descs ids.
         local_block_descs_ids: np.ndarray
         remote_block_descs_ids: np.ndarray
+
         if not self.block_window_per_layer:
             # Default case: assume global attention
             remote_block_descs_ids = self._get_block_descs_ids(
-                dst_engine_id, remote_block_ids
+                dst_engine_id,
+                remote_block_ids,
             )
             local_block_descs_ids = self._get_block_descs_ids(
-                self.engine_id, local_block_ids
+                self.engine_id,
+                local_block_ids,
+                block_size_ratio=block_size_ratio,
             )
         else:
             # TODO(mgoin): remove this once we have hybrid memory allocator
@@ -1860,10 +2021,15 @@ class NixlConnectorWorker:
 
                 # Get descs ids for the layer.
                 layer_local_desc_ids = self._get_block_descs_ids(
-                    self.engine_id, layer_local_block_ids, layer_idx
+                    dst_engine_id,
+                    layer_local_block_ids,
+                    layer_idx,
                 )
                 layer_remote_desc_ids = self._get_block_descs_ids(
-                    dst_engine_id, layer_remote_block_ids, layer_idx
+                    self.engine_id,
+                    layer_remote_block_ids,
+                    layer_idx,
+                    block_size_ratio=block_size_ratio,
                 )
 
                 local_descs_list.append(layer_local_desc_ids)
@@ -1905,8 +2071,31 @@ class NixlConnectorWorker:
                 self.nixl_wrapper.release_xfer_handle(handle)
             self._failed_recv_reqs.add(request_id)
 
+    def get_mapped_blocks(self, block_ids, block_size_ratio):
+        """
+          Calculates the new set of block IDs by mapping every element
+          in the (potentially sparse) input array.
+          Example: block_ids=[0, 2], block_size_ratio=2
+        get_mapped_blocks    0     1     [2     3]     4     5
+              # remote is |h0-b0|h1-b0||h0-b1|h1-b1||h0-b1|h1-b1||
+              # local is  |h0-b0......||h1-b0......||h2-b0........
+        local_block_ids         0           [1]           2
+        """
+        if block_ids.size == 0:
+            return np.array([], dtype=np.int64)
+
+        start_ids = block_ids * block_size_ratio
+        offsets = np.arange(block_size_ratio)
+        mapped_2d = start_ids[:, None] + offsets[None, :]
+
+        return mapped_2d.flatten().astype(np.int64)
+
     def _get_block_descs_ids(
-        self, engine_id: str, block_ids: list[int], layer_idx: int | None = None
+        self,
+        engine_id: str,
+        block_ids: list[int],
+        layer_idx: int | None = None,
+        block_size_ratio: float | None = None,
     ) -> np.ndarray:
         """
         Get the descs ids for a set of block ids.
@@ -1929,6 +2118,8 @@ class NixlConnectorWorker:
                 region_ids = np.arange(layer_idx, layer_idx + 1)
 
         num_blocks = self.dst_num_blocks[engine_id]
+        if block_size_ratio is not None:
+            num_blocks = int(num_blocks * block_size_ratio)
 
         # Compute the desc ids for each block.
         region_ids = region_ids[:, None]

From 6965ef436fb398bfbbdce5b6f88dd842c5944771 Mon Sep 17 00:00:00 2001
From: Varun Sundar Rabindranath <varunsundar08@gmail.com>
Date: Sat, 15 Nov 2025 00:52:14 -0500
Subject: [PATCH 488/976] [Performance][DeepGEMM] Estimate expected_m (#28694)

Signed-off-by: Varun Sundar Rabindranath <vsundarr@redhat.com>
Co-authored-by: Varun Sundar Rabindranath <vsundarr@redhat.com>
---
 tests/kernels/moe/test_deepep_deepgemm_moe.py | 46 ++++++++++++++-----
 vllm/forward_context.py                       |  4 ++
 .../layers/fused_moe/batched_deep_gemm_moe.py | 40 ++++++++++++++--
 3 files changed, 73 insertions(+), 17 deletions(-)

diff --git a/tests/kernels/moe/test_deepep_deepgemm_moe.py b/tests/kernels/moe/test_deepep_deepgemm_moe.py
index 0faf8bc95d2ec..455ecacef5ec3 100644
--- a/tests/kernels/moe/test_deepep_deepgemm_moe.py
+++ b/tests/kernels/moe/test_deepep_deepgemm_moe.py
@@ -7,6 +7,7 @@ fp8 block-quantized case.
 """
 
 import dataclasses
+from contextlib import contextmanager
 
 import pytest
 import torch.distributed
@@ -14,6 +15,7 @@ from torch.distributed import ProcessGroup
 from typing_extensions import ParamSpec
 
 from vllm.config import VllmConfig, set_current_vllm_config
+from vllm.forward_context import set_forward_context
 from vllm.model_executor.layers.fused_moe.config import (
     FusedMoEQuantConfig,
     fp8_w8a8_moe_quant_config,
@@ -61,6 +63,23 @@ requires_deep_gemm = pytest.mark.skipif(
 P = ParamSpec("P")
 
 
+@contextmanager
+def with_dp_metadata(M: int, world_size: int):
+    num_tokens_across_dp = torch.tensor([M] * world_size, device="cpu", dtype=torch.int)
+
+    vllm_config = VllmConfig()
+    vllm_config.parallel_config.data_parallel_size = world_size
+    vllm_config.parallel_config.enable_expert_parallel = True
+
+    with set_forward_context(
+        None,
+        vllm_config,
+        num_tokens=M,
+        num_tokens_across_dp=num_tokens_across_dp,
+    ):
+        yield
+
+
 def next_power_of_2(x):
     import math
 
@@ -285,18 +304,21 @@ def deepep_deepgemm_moe_impl(
         quant_config=quant_config,
     )
 
-    out = mk.forward(
-        hidden_states=test_tensors.rank_tokens,
-        w1=w1,
-        w2=w2,
-        topk_weights=test_tensors.topk_weights,
-        topk_ids=test_tensors.topk,
-        inplace=False,
-        activation="silu",
-        global_num_experts=num_experts,
-        expert_map=build_expert_map(),
-        apply_router_weight_on_input=False,
-    )
+    with with_dp_metadata(
+        M=test_tensors.rank_tokens.size(0), world_size=pgi.world_size
+    ):
+        out = mk.forward(
+            hidden_states=test_tensors.rank_tokens,
+            w1=w1,
+            w2=w2,
+            topk_weights=test_tensors.topk_weights,
+            topk_ids=test_tensors.topk,
+            inplace=False,
+            activation="silu",
+            global_num_experts=num_experts,
+            expert_map=build_expert_map(),
+            apply_router_weight_on_input=False,
+        )
     return out
 
 
diff --git a/vllm/forward_context.py b/vllm/forward_context.py
index 44bc2a4cda311..25fb7181a8f29 100644
--- a/vllm/forward_context.py
+++ b/vllm/forward_context.py
@@ -221,6 +221,10 @@ def get_forward_context() -> ForwardContext:
     return _forward_context
 
 
+def is_forward_context_available() -> bool:
+    return _forward_context is not None
+
+
 def create_forward_context(
     attn_metadata: Any,
     vllm_config: VllmConfig,
diff --git a/vllm/model_executor/layers/fused_moe/batched_deep_gemm_moe.py b/vllm/model_executor/layers/fused_moe/batched_deep_gemm_moe.py
index 79c92eb48612d..53362277dae8a 100644
--- a/vllm/model_executor/layers/fused_moe/batched_deep_gemm_moe.py
+++ b/vllm/model_executor/layers/fused_moe/batched_deep_gemm_moe.py
@@ -5,6 +5,7 @@
 import torch
 
 import vllm.model_executor.layers.fused_moe.modular_kernel as mk
+from vllm.forward_context import get_forward_context, is_forward_context_available
 from vllm.logger import init_logger
 from vllm.model_executor.layers.fused_moe.config import FusedMoEQuantConfig
 from vllm.model_executor.layers.fused_moe.topk_weight_and_reduce import (
@@ -19,7 +20,7 @@ from vllm.utils.deep_gemm import (
     get_mk_alignment_for_contiguous_layout,
     is_deep_gemm_e8m0_used,
 )
-from vllm.utils.math_utils import cdiv
+from vllm.utils.math_utils import cdiv, round_up
 
 logger = init_logger(__name__)
 
@@ -313,6 +314,33 @@ class BatchedDeepGemmExperts(mk.FusedMoEPermuteExpertsUnpermute):
         output = (num_experts, max_num_tokens * num_dispatchers, K)
         return (workspace13, workspace2, output)
 
+    def estimate_expected_m(
+        self, global_num_experts: int, max_tokens_per_expert: int, topk: int
+    ) -> int:
+        dp_meta = (
+            get_forward_context().dp_metadata
+            if is_forward_context_available()
+            else None
+        )
+        if dp_meta is None:
+            logger.warning_once(
+                "DPMetadata unavailable. Defaulting expected_m to "
+                f"{max_tokens_per_expert}.",
+                scope="local",
+            )
+            return max_tokens_per_expert
+
+        total_num_tokens = dp_meta.num_tokens_across_dp_cpu.sum().item()
+        total_num_tokens_replicated = total_num_tokens * topk
+
+        # Assume even load balancing
+        assert global_num_experts != 0
+        estimate = round_up(int(total_num_tokens_replicated // global_num_experts), 16)
+        # clamp estimate
+        estimate = max(estimate, 16)
+        estimate = min(max_tokens_per_expert, estimate)
+        return estimate
+
     def apply(
         self,
         output: torch.Tensor,
@@ -348,10 +376,12 @@ class BatchedDeepGemmExperts(mk.FusedMoEPermuteExpertsUnpermute):
 
         workspace1 = _resize_cache(workspace13, (E, max_num_tokens, N))
 
-        # (from deepgemm docs) : A value hint (which is a value on CPU)
-        # for the M expectation of each batch, correctly setting this value
-        # may lead to better performance.
-        expected_m = max_num_tokens
+        expected_m = self.estimate_expected_m(
+            global_num_experts=global_num_experts,
+            max_tokens_per_expert=max_num_tokens,
+            topk=topk_ids.size(-1),
+        )
+
         fp8_m_grouped_gemm_nt_masked(
             (a1q, a1q_scale),
             (w1, self.w1_scale),

From 98b4d389ed27f09fd185ade889a02f640a3ff0b4 Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Sat, 15 Nov 2025 14:47:41 +0800
Subject: [PATCH 489/976] [Redo] #26368 (#28771)

Signed-off-by: Jialin Ouyang <Jialin.Ouyang@gmail.com>
Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
Co-authored-by: Jialin Ouyang <Jialin.Ouyang@gmail.com>
---
 tests/v1/core/test_async_scheduler.py         |  3 +-
 .../v1/core/test_priority_scheduler_random.py |  6 +-
 tests/v1/core/test_scheduler.py               | 88 +++++++++++--------
 .../kv_connector/unit/test_nixl_connector.py  |  7 +-
 tests/v1/kv_connector/unit/utils.py           |  3 +-
 tests/v1/spec_decode/test_eagle.py            |  5 +-
 tests/v1/spec_decode/test_ngram.py            | 18 ++--
 vllm/v1/core/sched/scheduler.py               |  4 +-
 vllm/v1/outputs.py                            |  4 +-
 vllm/v1/sample/rejection_sampler.py           |  8 +-
 vllm/v1/spec_decode/eagle.py                  |  7 +-
 vllm/v1/spec_decode/ngram_proposer.py         |  6 +-
 vllm/v1/spec_decode/suffix_decoding.py        | 10 ++-
 vllm/v1/worker/gpu_model_runner.py            | 36 +++++---
 vllm/v1/worker/tpu_model_runner.py            |  8 +-
 15 files changed, 122 insertions(+), 91 deletions(-)

diff --git a/tests/v1/core/test_async_scheduler.py b/tests/v1/core/test_async_scheduler.py
index e0645ed43015e..1d80ee9875913 100644
--- a/tests/v1/core/test_async_scheduler.py
+++ b/tests/v1/core/test_async_scheduler.py
@@ -2,6 +2,7 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 from collections import deque
 
+import numpy as np
 import pytest
 
 from vllm.v1.core.sched.output import SchedulerOutput
@@ -21,7 +22,7 @@ def _make_model_runner_output(
     return ModelRunnerOutput(
         req_ids=req_ids,
         req_id_to_index={req_id: i for i, req_id in enumerate(req_ids)},
-        sampled_token_ids=[[i] for i in range(len(req_ids))],
+        sampled_token_ids=[np.array([i]) for i in range(len(req_ids))],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
diff --git a/tests/v1/core/test_priority_scheduler_random.py b/tests/v1/core/test_priority_scheduler_random.py
index b4805be802723..ba0b703302e38 100644
--- a/tests/v1/core/test_priority_scheduler_random.py
+++ b/tests/v1/core/test_priority_scheduler_random.py
@@ -3,6 +3,7 @@
 import random
 import uuid
 
+import numpy as np
 import pytest
 
 from vllm.config import VllmConfig
@@ -99,8 +100,7 @@ def _mock_execute_model(
         random.randint(*num_output_tokens_range) for _ in range(len(request_ids))
     ]
     sampled_token_ids = [
-        [random.randint(0, 100) for _ in range(num_tokens)]
-        for num_tokens in num_output_tokens
+        np.random.randint(0, 100, size=num_tokens) for num_tokens in num_output_tokens
     ]
 
     return ModelRunnerOutput(
@@ -196,6 +196,8 @@ def test_priority_scheduling_blast(
     num_blocks: int,
 ):
     random.seed(42)
+    np.random.seed(42)
+
     seen_request_prompt_length = dict[str, int]()
     seen_request_ids = set[str]()
     seen_mm_hashes = set[str]()
diff --git a/tests/v1/core/test_scheduler.py b/tests/v1/core/test_scheduler.py
index 04e738293cd77..0570c0854c678 100644
--- a/tests/v1/core/test_scheduler.py
+++ b/tests/v1/core/test_scheduler.py
@@ -3,6 +3,7 @@
 import dataclasses
 from unittest.mock import Mock
 
+import numpy as np
 import pytest
 import torch
 
@@ -169,7 +170,7 @@ def test_schedule_partial_requests():
         req_id_to_index=req_to_index,
         # Only the first request has a sampled token id because
         # the rest requests are still being prefilled.
-        sampled_token_ids=[[0], [], []],
+        sampled_token_ids=[np.array([0]), np.array([]), np.array([])],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -216,7 +217,7 @@ def test_no_mm_input_chunking():
     model_runner_output = ModelRunnerOutput(
         req_ids=[request.request_id for request in requests],
         req_id_to_index=req_to_index,
-        sampled_token_ids=[[] for _ in range(len(requests))],
+        sampled_token_ids=[np.array([]) for _ in range(len(requests))],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -276,7 +277,7 @@ def test_schedule_concurrent_partial_requests(enable_prefix_caching: bool):
     model_runner_output = ModelRunnerOutput(
         req_ids=[request.request_id for request in requests],
         req_id_to_index=req_to_index,
-        sampled_token_ids=[[] for _ in range(len(requests))],
+        sampled_token_ids=[np.array([]) for _ in range(len(requests))],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -300,7 +301,8 @@ def test_schedule_concurrent_partial_requests(enable_prefix_caching: bool):
     model_runner_output = ModelRunnerOutput(
         req_ids=[request.request_id for request in requests],
         req_id_to_index=req_to_index,
-        sampled_token_ids=[[0], [0]] + [[] for _ in range(len(requests) - 2)],
+        sampled_token_ids=[np.array([0]), np.array([0])]
+        + [np.array([]) for _ in range(len(requests) - 2)],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -347,8 +349,8 @@ def test_stop_via_update_from_output():
         req_ids=[req.request_id for req in requests],
         req_id_to_index={req.request_id: i for i, req in enumerate(requests)},
         sampled_token_ids=[
-            [EOS_TOKEN_ID],
-            [10, 11],
+            np.array([EOS_TOKEN_ID]),
+            np.array([10, 11]),
         ],  # First request hits EOS, second continues
         logprobs=None,
         prompt_logprobs_dict={},
@@ -392,7 +394,10 @@ def test_stop_via_update_from_output():
     model_output = ModelRunnerOutput(
         req_ids=[req.request_id for req in requests],
         req_id_to_index={req.request_id: i for i, req in enumerate(requests)},
-        sampled_token_ids=[[10, 42, 12], [13, 14]],  # First request hits stop token
+        sampled_token_ids=[
+            np.array([10, 42, 12]),
+            np.array([13, 14]),
+        ],  # First request hits stop token
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -436,7 +441,10 @@ def test_stop_via_update_from_output():
     model_output = ModelRunnerOutput(
         req_ids=[req.request_id for req in requests],
         req_id_to_index={req.request_id: i for i, req in enumerate(requests)},
-        sampled_token_ids=[[10, 11, 12], [13]],  # First request exceeds max_tokens
+        sampled_token_ids=[
+            np.array([10, 11, 12]),
+            np.array([13]),
+        ],  # First request exceeds max_tokens
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -475,7 +483,7 @@ def test_stop_via_update_from_output():
     model_output = ModelRunnerOutput(
         req_ids=[requests[0].request_id],
         req_id_to_index={requests[0].request_id: 0},
-        sampled_token_ids=[[EOS_TOKEN_ID, 10, 11]],
+        sampled_token_ids=[np.array([EOS_TOKEN_ID, 10, 11])],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -616,7 +624,7 @@ def test_schedule_concurrent_batches(
     model_runner_output = ModelRunnerOutput(
         req_ids=[requests[0].request_id],
         req_id_to_index={requests[0].request_id: 0},
-        sampled_token_ids=[[0]],
+        sampled_token_ids=[np.array([0])],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -633,7 +641,7 @@ def test_schedule_concurrent_batches(
     model_runner_output = ModelRunnerOutput(
         req_ids=[requests[1].request_id],
         req_id_to_index={requests[1].request_id: 0},
-        sampled_token_ids=[[0]],
+        sampled_token_ids=[np.array([0])],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -670,7 +678,7 @@ def test_preempt_during_execution():
     model_runner_output0 = ModelRunnerOutput(
         req_ids=[requests[0].request_id],
         req_id_to_index={requests[0].request_id: 0},
-        sampled_token_ids=[[0]],
+        sampled_token_ids=[np.array([0])],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -687,7 +695,7 @@ def test_preempt_during_execution():
     model_runner_output1 = ModelRunnerOutput(
         req_ids=[requests[1].request_id],
         req_id_to_index={requests[1].request_id: 0},
-        sampled_token_ids=[[42]],
+        sampled_token_ids=[np.array([42])],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -704,14 +712,18 @@ def test_preempt_during_execution():
 @pytest.mark.parametrize(
     "spec_tokens,output_tokens,expected",
     [
-        ([[1, 2, 3]], [[1, 2, 3, 4]], (1, 3, 3, [1, 1, 1])),  # perfect match
-        ([[1, 2, 3]], [[1, 5]], (1, 3, 1, [1, 0, 0])),  # early mismatch
-        ([[1, 2], [3]], [[1, 2, 5], [3, 4]], (2, 3, 3, [2, 1])),  # multiple sequences
-        ([[1]], [[1, 2]], (1, 1, 1, [1])),  # single token sequence
-        ([[]], [[5]], (0, 0, 0, [0])),  # empty sequence
+        ([[1, 2, 3]], [np.array([1, 2, 3, 4])], (1, 3, 3, [1, 1, 1])),  # perfect match
+        ([[1, 2, 3]], [np.array([1, 5])], (1, 3, 1, [1, 0, 0])),  # early mismatch
+        (
+            [[1, 2], [3]],
+            [np.array([1, 2, 5]), np.array([3, 4])],
+            (2, 3, 3, [2, 1]),
+        ),  # multiple sequences
+        ([[1]], [np.array([1, 2])], (1, 1, 1, [1])),  # single token sequence
+        ([[]], [np.array([5])], (0, 0, 0, [0])),  # empty sequence
         (
             [[1, 2, 3], [4, 5, 6]],
-            [[1, 2, 7], [4, 8]],
+            [np.array([1, 2, 7]), np.array([4, 8])],
             (2, 6, 3, [2, 1, 0]),
         ),  # multiple mismatches
     ],
@@ -745,7 +757,7 @@ def test_schedule_spec_decoding_stats(spec_tokens, output_tokens, expected):
     model_runner_output = ModelRunnerOutput(
         req_ids=req_ids,
         req_id_to_index=req_to_index,
-        sampled_token_ids=[[0] for _ in range(len(requests))],
+        sampled_token_ids=[np.array([0]) for _ in range(len(requests))],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -972,7 +984,7 @@ def test_kv_connector_basic(is_async: bool):
     MODEL_RUNNER_OUTPUT = ModelRunnerOutput(
         req_ids=req_ids,
         req_id_to_index=req_to_index,
-        sampled_token_ids=[[1000]] * len(req_ids),
+        sampled_token_ids=[np.array([1000])] * len(req_ids),
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -1025,7 +1037,7 @@ def test_kv_connector_basic(is_async: bool):
     MODEL_RUNNER_OUTPUT = ModelRunnerOutput(
         req_ids=req_ids,
         req_id_to_index=req_to_index,
-        sampled_token_ids=[[1000]] * len(req_ids),
+        sampled_token_ids=[np.array([1000])] * len(req_ids),
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -1088,7 +1100,7 @@ def test_external_prefix_cache_metrics():
     MODEL_RUNNER_OUTPUT = ModelRunnerOutput(
         req_ids=[r.request_id for r in requests],
         req_id_to_index={r.request_id: i for i, r in enumerate(requests)},
-        sampled_token_ids=[[1000]] * NUM_REQUESTS,
+        sampled_token_ids=[np.array([1000])] * NUM_REQUESTS,
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -1154,7 +1166,7 @@ def test_kv_connector_unable_to_allocate(use_ec_connector, ec_role):
     MODEL_RUNNER_OUTPUT = ModelRunnerOutput(
         req_ids=req_ids,
         req_id_to_index=req_to_index,
-        sampled_token_ids=[[1000]] * len(req_ids),
+        sampled_token_ids=[np.array([1000])] * len(req_ids),
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -1239,7 +1251,7 @@ def test_kv_connector_handles_preemption(use_ec_connector, ec_role):
     MODEL_RUNNER_OUTPUT = ModelRunnerOutput(
         req_ids=req_ids,
         req_id_to_index=req_to_index,
-        sampled_token_ids=[[1000]] * len(req_ids),
+        sampled_token_ids=[np.array([1000])] * len(req_ids),
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -1332,7 +1344,7 @@ def make_output(scheduler: Scheduler):
     return ModelRunnerOutput(
         req_ids=[req.request_id for req in scheduler.running],
         req_id_to_index={req.request_id: i for i, req in enumerate(scheduler.running)},
-        sampled_token_ids=[[1000]] * len(scheduler.running),
+        sampled_token_ids=[np.array([1000])] * len(scheduler.running),
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -1749,7 +1761,7 @@ def test_priority_scheduling_preemption():
         req_id_to_index={
             req.request_id: i for i, req in enumerate(low_priority_requests)
         },
-        sampled_token_ids=[[100] for _ in low_priority_requests],
+        sampled_token_ids=[np.array([100]) for _ in low_priority_requests],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -1818,7 +1830,7 @@ def test_priority_scheduling_no_preemption_when_space_available():
         req_id_to_index={
             req.request_id: i for i, req in enumerate(low_priority_requests)
         },
-        sampled_token_ids=[[100] for _ in low_priority_requests],
+        sampled_token_ids=[np.array([100]) for _ in low_priority_requests],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -2064,7 +2076,7 @@ def test_priority_scheduling_heap_property():
             model_output = ModelRunnerOutput(
                 req_ids=[req.req_id],
                 req_id_to_index={req.req_id: 0},
-                sampled_token_ids=[[100]],
+                sampled_token_ids=[np.array([100])],
                 logprobs=None,
                 prompt_logprobs_dict={},
                 pooler_output=[],
@@ -2150,7 +2162,7 @@ def test_priority_scheduling_preemption_and_resumption_when_out_of_kv(
     model_output = ModelRunnerOutput(
         req_ids=[request_low.request_id],
         req_id_to_index={request_low.request_id: 0},
-        sampled_token_ids=[[100]],
+        sampled_token_ids=[np.array([100])],
         # spec_token_ids=None,
         logprobs=None,
         prompt_logprobs_dict={},
@@ -2181,7 +2193,7 @@ def test_priority_scheduling_preemption_and_resumption_when_out_of_kv(
     model_output = ModelRunnerOutput(
         req_ids=[req.request_id for req in requests],
         req_id_to_index={req.request_id: i for i, req in enumerate(requests)},
-        sampled_token_ids=[[100] for _ in requests],
+        sampled_token_ids=[np.array([100]) for _ in requests],
         # spec_token_ids=None,
         logprobs=None,
         prompt_logprobs_dict={},
@@ -2207,7 +2219,7 @@ def test_priority_scheduling_preemption_and_resumption_when_out_of_kv(
     model_output = ModelRunnerOutput(
         req_ids=[req.request_id for req in requests],
         req_id_to_index={req.request_id: i for i, req in enumerate(requests)},
-        sampled_token_ids=[[], [100]],
+        sampled_token_ids=[np.array([]), np.array([100])],
         # spec_token_ids=None,
         logprobs=None,
         prompt_logprobs_dict={},
@@ -2624,7 +2636,7 @@ def test_ec_connector_with_partial_cache_hit_multi_round(use_kv_connector):
     model_output = ModelRunnerOutput(
         req_ids=[request1.request_id],
         req_id_to_index={request1.request_id: 0},
-        sampled_token_ids=[[100]],
+        sampled_token_ids=[np.array([100])],
         # spec_token_ids=None,
         logprobs=None,
         prompt_logprobs_dict={},
@@ -2830,7 +2842,7 @@ def test_ec_connector_unable_to_allocate(use_kv_connector):
     MODEL_RUNNER_OUTPUT = ModelRunnerOutput(
         req_ids=req_ids,
         req_id_to_index=req_to_index,
-        sampled_token_ids=[[1000]] * len(req_ids),
+        sampled_token_ids=[np.array([1000])] * len(req_ids),
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[],
@@ -2943,7 +2955,7 @@ def test_priority_scheduling_ec_connector_preemption_and_resumption(
     model_output = ModelRunnerOutput(
         req_ids=[request_low.request_id],
         req_id_to_index={request_low.request_id: 0},
-        sampled_token_ids=[[100]],
+        sampled_token_ids=[np.array([100])],
         # spec_token_ids=None,
         logprobs=None,
         prompt_logprobs_dict={},
@@ -2994,7 +3006,7 @@ def test_priority_scheduling_ec_connector_preemption_and_resumption(
     model_output = ModelRunnerOutput(
         req_ids=[req.request_id for req in requests],
         req_id_to_index={req.request_id: i for i, req in enumerate(requests)},
-        sampled_token_ids=[[100] for _ in requests],
+        sampled_token_ids=[np.array([100]) for _ in requests],
         # spec_token_ids=None,
         logprobs=None,
         prompt_logprobs_dict={},
@@ -3029,7 +3041,7 @@ def test_priority_scheduling_ec_connector_preemption_and_resumption(
     model_output = ModelRunnerOutput(
         req_ids=[req.request_id for req in requests],
         req_id_to_index={req.request_id: i for i, req in enumerate(requests)},
-        sampled_token_ids=[[100], [100, 200]],
+        sampled_token_ids=[np.array([100]), np.array([100, 200])],
         # spec_token_ids=None,
         logprobs=None,
         prompt_logprobs_dict={},
@@ -3215,7 +3227,7 @@ def test_ec_connector_allocate_encoder_tokens_with_external_load(use_kv_connecto
     model_output = ModelRunnerOutput(
         req_ids=[request1.request_id, request2.request_id],
         req_id_to_index={request1.request_id: 0, request2.request_id: 1},
-        sampled_token_ids=[[100], [121]],
+        sampled_token_ids=[np.array([100]), np.array([121])],
         # spec_token_ids=None,
         logprobs=None,
         prompt_logprobs_dict={},
diff --git a/tests/v1/kv_connector/unit/test_nixl_connector.py b/tests/v1/kv_connector/unit/test_nixl_connector.py
index b7d7a10057b8b..b264e5108c16d 100644
--- a/tests/v1/kv_connector/unit/test_nixl_connector.py
+++ b/tests/v1/kv_connector/unit/test_nixl_connector.py
@@ -11,6 +11,7 @@ import uuid
 from collections import defaultdict
 from unittest.mock import patch
 
+import numpy as np
 import pytest
 import ray
 import torch
@@ -826,7 +827,7 @@ def test_kv_connector_stats_aggregation():
         output = ModelRunnerOutput(
             req_ids=[f"req_{i}"],
             req_id_to_index={f"req_{i}": 0},
-            sampled_token_ids=[[123]],  # dummy token
+            sampled_token_ids=[np.array([123])],  # dummy token
             logprobs=None,
             prompt_logprobs_dict={},
             pooler_output=[None],
@@ -907,7 +908,7 @@ def test_multi_kv_connector_stats_aggregation():
         output = ModelRunnerOutput(
             req_ids=[f"req_{i}"],
             req_id_to_index={f"req_{i}": 0},
-            sampled_token_ids=[[123]],
+            sampled_token_ids=[np.array([123])],
             logprobs=None,
             prompt_logprobs_dict={},
             pooler_output=[None],
@@ -965,7 +966,7 @@ def test_scheduler_kv_connector_stats_aggregation():
     model_output = ModelRunnerOutput(
         req_ids=["req_0"],
         req_id_to_index={"req_0": 0},
-        sampled_token_ids=[[123]],
+        sampled_token_ids=[np.array([123])],
         logprobs=None,
         prompt_logprobs_dict={},
         pooler_output=[None],
diff --git a/tests/v1/kv_connector/unit/utils.py b/tests/v1/kv_connector/unit/utils.py
index f35f91bb3adf8..c248104d5b5ea 100644
--- a/tests/v1/kv_connector/unit/utils.py
+++ b/tests/v1/kv_connector/unit/utils.py
@@ -7,6 +7,7 @@ from dataclasses import dataclass
 from itertools import chain, count
 from typing import Any
 
+import numpy as np
 import torch
 
 from vllm import SamplingParams
@@ -228,7 +229,7 @@ def create_model_runner_output(
 
     # Make sampled tokens.
     sampled_token = EOS_TOKEN_ID if use_eos else token_id
-    sampled_token_ids = [[sampled_token] for _ in req_ids]
+    sampled_token_ids = [np.array([sampled_token]) for _ in req_ids]
 
     kv_connector_output = (
         None
diff --git a/tests/v1/spec_decode/test_eagle.py b/tests/v1/spec_decode/test_eagle.py
index 89d0ec769ac09..421da52415559 100644
--- a/tests/v1/spec_decode/test_eagle.py
+++ b/tests/v1/spec_decode/test_eagle.py
@@ -3,6 +3,7 @@
 
 from unittest import mock
 
+import numpy as np
 import pytest
 import torch
 
@@ -112,7 +113,9 @@ def test_prepare_next_token_ids():
     sampled_token_ids_tensor = torch.tensor(
         sampled_token_ids, dtype=torch.int32, device=device
     )
-    sampled_token_ids_cpu = [[i for i in seq if i != -1] for seq in sampled_token_ids]
+    sampled_token_ids_cpu = [
+        np.array([i for i in seq if i != -1]) for seq in sampled_token_ids
+    ]
 
     expected_next_token_ids_cpu = [1, 4, 30, 40]
     expected_next_token_ids_tensor = torch.tensor(
diff --git a/tests/v1/spec_decode/test_ngram.py b/tests/v1/spec_decode/test_ngram.py
index 692c39282c372..563bc1d957f41 100644
--- a/tests/v1/spec_decode/test_ngram.py
+++ b/tests/v1/spec_decode/test_ngram.py
@@ -77,7 +77,7 @@ def test_ngram_proposer():
     # No match.
     token_ids_cpu = np.array([[1, 2, 3, 4, 5]])
     result = get_ngram_proposer(min_n=2, max_n=2, k=2).propose(
-        sampled_token_ids=[[0]],
+        sampled_token_ids=[np.array([0])],
         req_ids=["0"],
         num_tokens_no_spec=np.array([len(c) for c in token_ids_cpu]),
         token_ids_cpu=token_ids_cpu,
@@ -88,7 +88,7 @@ def test_ngram_proposer():
     # No match for 4-gram.
     token_ids_cpu = np.array([[1, 2, 3, 4, 1, 2, 3]])
     result = get_ngram_proposer(min_n=4, max_n=4, k=2).propose(
-        sampled_token_ids=[[0]],
+        sampled_token_ids=[np.array([0])],
         req_ids=["0"],
         num_tokens_no_spec=np.array([len(c) for c in token_ids_cpu]),
         token_ids_cpu=token_ids_cpu,
@@ -99,7 +99,7 @@ def test_ngram_proposer():
     # No match for 4-gram but match for 3-gram.
     token_ids_cpu = np.array([[1, 2, 3, 4, 1, 2, 3]])
     result = get_ngram_proposer(min_n=3, max_n=4, k=2).propose(
-        sampled_token_ids=[[0]],
+        sampled_token_ids=[np.array([0])],
         req_ids=["0"],
         num_tokens_no_spec=np.array([len(c) for c in token_ids_cpu]),
         token_ids_cpu=token_ids_cpu,
@@ -111,7 +111,7 @@ def test_ngram_proposer():
     # In this case, the proposer should return the 4-gram match.
     token_ids_cpu = np.array([[2, 3, 4, 5, 1, 2, 3, 4, 1, 2, 3, 4]])
     result = get_ngram_proposer(min_n=3, max_n=4, k=2).propose(
-        sampled_token_ids=[[0]],
+        sampled_token_ids=[np.array([0])],
         req_ids=["0"],
         num_tokens_no_spec=np.array([len(c) for c in token_ids_cpu]),
         token_ids_cpu=token_ids_cpu,
@@ -122,7 +122,7 @@ def test_ngram_proposer():
     # Match for 2-gram and 3-gram, but not 4-gram.
     token_ids_cpu = np.array([[3, 4, 5, 2, 3, 4, 1, 2, 3, 4]])
     result = get_ngram_proposer(min_n=2, max_n=4, k=2).propose(
-        sampled_token_ids=[[0]],
+        sampled_token_ids=[np.array([0])],
         req_ids=["0"],
         num_tokens_no_spec=np.array([len(c) for c in token_ids_cpu]),
         token_ids_cpu=token_ids_cpu,
@@ -133,7 +133,7 @@ def test_ngram_proposer():
     # Multiple 3-gram matched, but always pick the first one.
     token_ids_cpu = np.array([[1, 2, 3, 100, 1, 2, 3, 200, 1, 2, 3, 300, 1, 2, 3]])
     result = get_ngram_proposer(min_n=3, max_n=3, k=2).propose(
-        sampled_token_ids=[[0]],
+        sampled_token_ids=[np.array([0])],
         req_ids=["0"],
         num_tokens_no_spec=np.array([len(c) for c in token_ids_cpu]),
         token_ids_cpu=token_ids_cpu,
@@ -144,7 +144,7 @@ def test_ngram_proposer():
     # check empty input
     token_ids_cpu = np.array([[]])
     result = get_ngram_proposer(min_n=2, max_n=2, k=2).propose(
-        sampled_token_ids=[[0]],
+        sampled_token_ids=[np.array([0])],
         req_ids=["0"],
         num_tokens_no_spec=np.array([len(c) for c in token_ids_cpu]),
         token_ids_cpu=token_ids_cpu,
@@ -157,7 +157,7 @@ def test_ngram_proposer():
     # second request has 3 tokens and no match. Padded with -1 for max len 5
     token_ids_cpu = np.array([[1, 2, 3, 1, 2], [4, 5, 6, -1, -1]])
     result = get_ngram_proposer(min_n=2, max_n=2, k=2).propose(
-        sampled_token_ids=[[0], [1]],
+        sampled_token_ids=[np.array([0]), np.array([1])],
         req_ids=["0", "1"],
         num_tokens_no_spec=np.array([5, 3]),
         token_ids_cpu=token_ids_cpu,
@@ -181,7 +181,7 @@ def test_ngram_proposer():
     input_2[:3] = [4, 5, 6]
     token_ids_cpu = np.array([input_1, input_2])
     result = ngram_proposer.propose(
-        sampled_token_ids=[[0], [1]],
+        sampled_token_ids=[np.array([0]), np.array([1])],
         req_ids=["0", "1"],
         num_tokens_no_spec=np.array([len(input_1), 3]),
         token_ids_cpu=token_ids_cpu,
diff --git a/vllm/v1/core/sched/scheduler.py b/vllm/v1/core/sched/scheduler.py
index ba7ad0c091737..c640c40a455d0 100644
--- a/vllm/v1/core/sched/scheduler.py
+++ b/vllm/v1/core/sched/scheduler.py
@@ -1010,8 +1010,8 @@ class Scheduler(SchedulerInterface):
                 continue
 
             req_index = model_runner_output.req_id_to_index[req_id]
-            generated_token_ids = (
-                sampled_token_ids[req_index] if sampled_token_ids else []
+            generated_token_ids: list[int] = (
+                sampled_token_ids[req_index].tolist() if sampled_token_ids else []
             )
 
             scheduled_spec_token_ids = (
diff --git a/vllm/v1/outputs.py b/vllm/v1/outputs.py
index e32d5bb608b1d..c0b2835c3124c 100644
--- a/vllm/v1/outputs.py
+++ b/vllm/v1/outputs.py
@@ -158,7 +158,7 @@ class ModelRunnerOutput:
     # num_generated_tokens is the number of tokens
     # generated in the current step. It can be different for
     # each request due to speculative/jump decoding.
-    sampled_token_ids: list[list[int]]
+    sampled_token_ids: list[np.ndarray]
 
     # [num_reqs, max_num_logprobs + 1]
     # [num_reqs, max_num_logprobs + 1]
@@ -220,7 +220,7 @@ def make_empty_encoder_model_runner_output(
     req_id_to_index: dict[str, int] = {rid: idx for idx, rid in enumerate(req_ids)}
 
     # No tokens generated yet ⇒ one empty list per request
-    sampled_token_ids: list[list[int]] = [[0] for _ in req_ids]
+    sampled_token_ids: list[list[int]] = [np.array([0]) for _ in req_ids]
 
     # Pooler outputs are not available yet ⇒ use None placeholders
     pooler_output: list[torch.Tensor | None] = [None for _ in req_ids]
diff --git a/vllm/v1/sample/rejection_sampler.py b/vllm/v1/sample/rejection_sampler.py
index 926305d25f56b..f31a0cddda9ae 100644
--- a/vllm/v1/sample/rejection_sampler.py
+++ b/vllm/v1/sample/rejection_sampler.py
@@ -3,6 +3,7 @@
 
 from dataclasses import replace
 
+import numpy as np
 import torch
 import torch.nn as nn
 
@@ -204,7 +205,7 @@ class RejectionSampler(nn.Module):
     def parse_output(
         output_token_ids: torch.Tensor,
         vocab_size: int,
-    ) -> list[list[int]]:
+    ) -> list[np.ndarray]:
         """Parse the output of the rejection sampler.
         Args:
             output_token_ids: The sampled token IDs in shape
@@ -220,10 +221,7 @@ class RejectionSampler(nn.Module):
         valid_mask = (output_token_ids_np != PLACEHOLDER_TOKEN_ID) & (
             output_token_ids_np < vocab_size
         )
-        outputs = [
-            row[valid_mask[i]].tolist() for i, row in enumerate(output_token_ids_np)
-        ]
-        return outputs
+        return [row[valid_mask[i]] for i, row in enumerate(output_token_ids_np)]
 
     def apply_logits_processors(
         self,
diff --git a/vllm/v1/spec_decode/eagle.py b/vllm/v1/spec_decode/eagle.py
index beef5203e0394..f3b34544f8d91 100644
--- a/vllm/v1/spec_decode/eagle.py
+++ b/vllm/v1/spec_decode/eagle.py
@@ -484,7 +484,7 @@ class EagleProposer:
 
     def prepare_next_token_ids_cpu(
         self,
-        sampled_token_ids: list[list[int]],
+        sampled_token_ids: list[np.ndarray],
         requests: dict[str, CachedRequestState],
         gpu_input_batch: InputBatch,
         num_scheduled_tokens: dict[str, int],
@@ -499,7 +499,7 @@ class EagleProposer:
         req_ids = gpu_input_batch.req_ids
         next_token_ids: list[int] = []
         for i, token_ids in enumerate(sampled_token_ids):
-            if token_ids:
+            if token_ids.shape[0] > 0:
                 # Common case.
                 next_token_id = token_ids[-1]
             else:
@@ -510,10 +510,9 @@ class EagleProposer:
                 seq_len = req_state.num_computed_tokens + num_scheduled_tokens[req_id]
                 next_token_id = req_state.get_token_id(seq_len)
             next_token_ids.append(next_token_id)
-        next_token_ids = torch.tensor(
+        return torch.tensor(
             next_token_ids, dtype=torch.int32, device=self.input_ids.device
         )
-        return next_token_ids
 
     def prepare_next_token_ids_padded(
         self,
diff --git a/vllm/v1/spec_decode/ngram_proposer.py b/vllm/v1/spec_decode/ngram_proposer.py
index e2f83cb24aa90..378937dba9882 100644
--- a/vllm/v1/spec_decode/ngram_proposer.py
+++ b/vllm/v1/spec_decode/ngram_proposer.py
@@ -54,7 +54,7 @@ class NgramProposer:
         # Trigger Numba JIT compilation for N-gram proposer.
         # This usually takes less than 1 second.
         self.propose(
-            [[]] * 1024,
+            [np.array([])] * 1024,
             [""] * 1024,
             np.zeros(1024, dtype=np.int32),
             np.zeros((1024, self.max_model_len), dtype=np.int32),
@@ -131,7 +131,7 @@ class NgramProposer:
 
     def propose(
         self,
-        sampled_token_ids: list[list[int]],
+        sampled_token_ids: list[np.ndarray],
         req_ids: list[str],
         num_tokens_no_spec: np.ndarray,
         token_ids_cpu: np.ndarray,
@@ -140,7 +140,7 @@ class NgramProposer:
         # find which requests need ngram proposals
         valid_ngram_requests = []
         for i, sampled_ids in enumerate(sampled_token_ids):
-            num_sampled_ids = len(sampled_ids)
+            num_sampled_ids = sampled_ids.shape[0]
             if not num_sampled_ids:
                 # Skip speculative decoding.
                 continue
diff --git a/vllm/v1/spec_decode/suffix_decoding.py b/vllm/v1/spec_decode/suffix_decoding.py
index 049e335db3254..d76e0ffe778d4 100644
--- a/vllm/v1/spec_decode/suffix_decoding.py
+++ b/vllm/v1/spec_decode/suffix_decoding.py
@@ -1,5 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import numpy as np
+
 from vllm.config import VllmConfig
 from vllm.v1.worker.gpu_input_batch import InputBatch
 
@@ -32,16 +34,16 @@ class SuffixDecodingProposer:
     def propose(
         self,
         input_batch: InputBatch,
-        sampled_token_ids: list[list[int]],
+        sampled_token_ids: list[np.ndarray],
     ) -> list[list[int]]:
         """
         Propose speculative tokens for each request in the input batch. Suffix Decoding
         will speculate a dynamic number of tokens for each request every decoding step,
         so each entry in the returned list may have different lengths.
         """
-        draft_token_ids: list[list[int]] = []
+        draft_token_ids: list[np.ndarray] = []
         for i, sampled_ids in enumerate(sampled_token_ids):
-            if not sampled_ids:
+            if sampled_ids.shape[0] == 0:
                 # Skip speculative decoding for partial prefills.
                 draft_token_ids.append([])
                 continue
@@ -70,7 +72,7 @@ class SuffixDecodingProposer:
                 self.suffix_cache.start_request(req_id, prompt_token_ids)
 
             # Append the newly sampled ids to the suffix cache for this request.
-            self.suffix_cache.add_active_response(req_id, sampled_ids)
+            self.suffix_cache.add_active_response(req_id, sampled_ids.tolist())
 
             # Suffix decoding only uses the most recent tokens up to max_tree_depth, so
             # we extract the pattern from the end of the input.
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index 9b3e5b668aab5..d0d6164180e66 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -216,9 +216,11 @@ class AsyncGPUModelRunnerOutput(AsyncModelRunnerOutput):
         del self._logprobs_tensors
         del self._sampled_token_ids
 
-        valid_sampled_token_ids = self.sampled_token_ids_cpu.tolist()
+        valid_sampled_token_ids: list[np.ndarray] = [
+            row for row in self.sampled_token_ids_cpu.numpy()
+        ]
         for i in self._invalid_req_indices:
-            valid_sampled_token_ids[i].clear()
+            valid_sampled_token_ids[i] = np.array([])
 
         output = self._model_runner_output
         output.sampled_token_ids = valid_sampled_token_ids
@@ -2339,7 +2341,7 @@ class GPUModelRunner(
     ) -> tuple[
         dict[str, int],
         LogprobsLists | None,
-        list[list[int]],
+        list[np.ndarray],
         dict[str, LogprobsTensors | None],
         list[str],
         dict[str, int],
@@ -2365,6 +2367,7 @@ class GPUModelRunner(
         num_sampled_tokens = sampler_output.sampled_token_ids.shape[0]
         sampled_token_ids = sampler_output.sampled_token_ids
         invalid_req_indices = []
+        valid_sampled_token_ids: list[np.ndarray]
         if not self.use_async_scheduling:
             # Get the valid generated tokens.
             max_gen_len = sampled_token_ids.shape[-1]
@@ -2379,7 +2382,7 @@ class GPUModelRunner(
                 )
             # Mask out the sampled tokens that should not be sampled.
             for i in discard_sampled_tokens_req_indices:
-                valid_sampled_token_ids[int(i)].clear()
+                valid_sampled_token_ids[int(i)] = np.array([])
         else:
             valid_sampled_token_ids = []
             invalid_req_indices = discard_sampled_tokens_req_indices.tolist()
@@ -2407,19 +2410,24 @@ class GPUModelRunner(
             [0] if spec_decode_metadata and logprobs_tensors else None
         )
         for req_idx in range(num_sampled_tokens):
+            sampled_ids: np.ndarray | None
             if self.use_async_scheduling:
-                sampled_ids = [-1] if req_idx not in invalid_req_indices_set else None
+                sampled_ids = (
+                    np.array([-1]) if req_idx not in invalid_req_indices_set else None
+                )
             else:
                 sampled_ids = valid_sampled_token_ids[req_idx]
 
-            num_sampled_ids: int = len(sampled_ids) if sampled_ids else 0
+            num_sampled_ids: int = (
+                sampled_ids.shape[0] if sampled_ids is not None else 0
+            )
 
             if cu_num_accepted_tokens is not None:
                 cu_num_accepted_tokens.append(
                     cu_num_accepted_tokens[-1] + num_sampled_ids
                 )
 
-            if not sampled_ids:
+            if sampled_ids is None or num_sampled_ids == 0:
                 continue
 
             start_idx = self.input_batch.num_tokens_no_spec[req_idx]
@@ -2761,7 +2769,9 @@ class GPUModelRunner(
         with record_function_or_nullcontext("gpu_model_runner: sample"):
             sampler_output = self._sample(logits, spec_decode_metadata)
 
-        def propose_draft_token_ids(sampled_token_ids):
+        def propose_draft_token_ids(
+            sampled_token_ids: torch.Tensor | list[np.ndarray],
+        ) -> None:
             assert spec_decode_common_attn_metadata is not None
             with record_function_or_nullcontext("gpu_model_runner: draft"):
                 self._draft_token_ids = self.propose_draft_token_ids(
@@ -2883,14 +2893,14 @@ class GPUModelRunner(
     def propose_draft_token_ids(
         self,
         scheduler_output: "SchedulerOutput",
-        sampled_token_ids: torch.Tensor | list[list[int]],
+        sampled_token_ids: torch.Tensor | list[np.ndarray],
         sampling_metadata: SamplingMetadata,
         hidden_states: torch.Tensor,
         sample_hidden_states: torch.Tensor,
         aux_hidden_states: list[torch.Tensor] | None,
         spec_decode_metadata: SpecDecodeMetadata | None,
         common_attn_metadata: CommonAttentionMetadata,
-    ) -> list[list[int]] | torch.Tensor:
+    ) -> torch.Tensor | list[list[int]]:
         num_scheduled_tokens = scheduler_output.total_num_scheduled_tokens
         if self.speculative_config.method == "ngram":
             assert isinstance(sampled_token_ids, list)
@@ -2922,7 +2932,7 @@ class GPUModelRunner(
                 for num_draft, tokens in zip(
                     spec_decode_metadata.num_draft_tokens, sampled_token_ids
                 ):
-                    indices.append(offset + len(tokens) - 1)
+                    indices.append(offset + tokens.shape[0] - 1)
                     offset += num_draft + 1
                 indices = torch.tensor(indices, device=self.device)
                 hidden_states = sample_hidden_states[indices]
@@ -4862,7 +4872,7 @@ class GPUModelRunner(
 
         return kv_cache_spec
 
-    def _to_list(self, sampled_token_ids: torch.Tensor) -> list[list[int]]:
+    def _to_list(self, sampled_token_ids: torch.Tensor) -> list[np.ndarray]:
         # This is a short term mitigation for issue mentioned in
         # https://github.com/vllm-project/vllm/issues/22754.
         # `tolist` would trigger a cuda wise stream sync, which
@@ -4875,4 +4885,4 @@ class GPUModelRunner(
         pinned.copy_(sampled_token_ids, non_blocking=True)
         self.transfer_event.record()
         self.transfer_event.synchronize()
-        return pinned.tolist()
+        return [row for row in pinned.numpy()]
diff --git a/vllm/v1/worker/tpu_model_runner.py b/vllm/v1/worker/tpu_model_runner.py
index 01490e0dfac9c..e9eb7cad38f88 100644
--- a/vllm/v1/worker/tpu_model_runner.py
+++ b/vllm/v1/worker/tpu_model_runner.py
@@ -1254,13 +1254,15 @@ class TPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
 
         max_gen_len = selected_token_ids.shape[-1]
         if max_gen_len == 1:
-            valid_sampled_token_ids = selected_token_ids.tolist()
+            valid_sampled_token_ids: list[np.ndarray] = [
+                row for row in selected_token_ids.numpy()
+            ]
 
             # Mask out the sampled tokens that should not be sampled.
             # TODO: Keep in sync with gpu_model_runner.py, in particular
             #       the "else" case here
             for i in discard_sampled_tokens_req_indices:
-                valid_sampled_token_ids[i].clear()
+                valid_sampled_token_ids[i] = np.array([])
 
             # Append sampled tokens
             for i, req_state, seq_len in request_seq_lens:
@@ -1273,7 +1275,7 @@ class TPUModelRunner(LoRAModelRunnerMixin, KVConnectorModelRunnerMixin):
             valid_mask = selected_token_ids != INVALID_TOKEN_ID
             gen_lens = valid_mask.sum(dim=1).tolist()
             valid_sampled_token_ids = [
-                seq.tolist() for seq in selected_token_ids[valid_mask].split(gen_lens)
+                seq.numpy() for seq in selected_token_ids[valid_mask].split(gen_lens)
             ]
             self.input_batch.num_tokens[:num_reqs] += gen_lens
             for i, req_state, seq_len in request_seq_lens:

From dd6ac1c2bb3d29f8ba612a2f66f350a2c55c7e8b Mon Sep 17 00:00:00 2001
From: Zhuohan Li <zhuohan123@gmail.com>
Date: Fri, 14 Nov 2025 23:59:42 -0800
Subject: [PATCH 490/976] [RL] [V1] Remove unused device argument from
 reset_kv_cache (#28766)

Signed-off-by: Zhuohan Li <zhuohan123@gmail.com>
---
 vllm/engine/protocol.py               |  2 +-
 vllm/entrypoints/llm.py               |  5 ++---
 vllm/entrypoints/openai/api_server.py | 10 +++-------
 vllm/v1/engine/async_llm.py           |  6 ++----
 vllm/v1/engine/llm_engine.py          |  3 +--
 5 files changed, 9 insertions(+), 17 deletions(-)

diff --git a/vllm/engine/protocol.py b/vllm/engine/protocol.py
index 24fcd9fe1cab9..462d2c4e50e73 100644
--- a/vllm/engine/protocol.py
+++ b/vllm/engine/protocol.py
@@ -125,7 +125,7 @@ class EngineClient(ABC):
         ...
 
     @abstractmethod
-    async def reset_prefix_cache(self, device: Device | None = None) -> None:
+    async def reset_prefix_cache(self) -> None:
         """Reset the prefix cache"""
         ...
 
diff --git a/vllm/entrypoints/llm.py b/vllm/entrypoints/llm.py
index 62717a7eacdf0..b0786bd355aa6 100644
--- a/vllm/entrypoints/llm.py
+++ b/vllm/entrypoints/llm.py
@@ -32,7 +32,6 @@ from vllm.config.model import (
     TokenizerMode,
 )
 from vllm.engine.arg_utils import EngineArgs
-from vllm.engine.protocol import Device
 from vllm.entrypoints.chat_utils import (
     ChatCompletionMessageParam,
     ChatTemplateContentFormatOption,
@@ -1499,8 +1498,8 @@ class LLM:
     def stop_profile(self) -> None:
         self.llm_engine.stop_profile()
 
-    def reset_prefix_cache(self, device: Device | None = None) -> None:
-        self.llm_engine.reset_prefix_cache(device)
+    def reset_prefix_cache(self) -> None:
+        self.llm_engine.reset_prefix_cache()
 
     def sleep(self, level: int = 1):
         """
diff --git a/vllm/entrypoints/openai/api_server.py b/vllm/entrypoints/openai/api_server.py
index 3e59af717d95c..3cf66fcd27e2a 100644
--- a/vllm/entrypoints/openai/api_server.py
+++ b/vllm/entrypoints/openai/api_server.py
@@ -39,7 +39,7 @@ from typing_extensions import assert_never
 import vllm.envs as envs
 from vllm.config import VllmConfig
 from vllm.engine.arg_utils import AsyncEngineArgs
-from vllm.engine.protocol import Device, EngineClient
+from vllm.engine.protocol import EngineClient
 from vllm.entrypoints.anthropic.protocol import (
     AnthropicError,
     AnthropicErrorResponse,
@@ -1069,12 +1069,8 @@ if envs.VLLM_SERVER_DEV_MODE:
         Reset the prefix cache. Note that we currently do not check if the
         prefix cache is successfully reset in the API server.
         """
-        device = None
-        device_str = raw_request.query_params.get("device")
-        if device_str is not None:
-            device = Device[device_str.upper()]
-        logger.info("Resetting prefix cache with specific %s...", str(device))
-        await engine_client(raw_request).reset_prefix_cache(device)
+        logger.info("Resetting prefix cache...")
+        await engine_client(raw_request).reset_prefix_cache()
         return Response(status_code=200)
 
     @router.post("/reset_mm_cache")
diff --git a/vllm/v1/engine/async_llm.py b/vllm/v1/engine/async_llm.py
index 48ea6ef8515c9..c160c7cbcab4a 100644
--- a/vllm/v1/engine/async_llm.py
+++ b/vllm/v1/engine/async_llm.py
@@ -14,7 +14,7 @@ import torch
 import vllm.envs as envs
 from vllm.config import VllmConfig
 from vllm.engine.arg_utils import AsyncEngineArgs
-from vllm.engine.protocol import Device, EngineClient
+from vllm.engine.protocol import EngineClient
 from vllm.entrypoints.utils import _validate_truncation_size
 from vllm.inputs import PromptType
 from vllm.logger import init_logger
@@ -672,9 +672,7 @@ class AsyncLLM(EngineClient):
         self.processor.clear_mm_cache()
         await self.engine_core.reset_mm_cache_async()
 
-    async def reset_prefix_cache(self, device: Device | None = None) -> None:
-        if device == Device.CPU:
-            raise ValueError("Not supported on CPU.")
+    async def reset_prefix_cache(self) -> None:
         await self.engine_core.reset_prefix_cache_async()
 
     async def sleep(self, level: int = 1) -> None:
diff --git a/vllm/v1/engine/llm_engine.py b/vllm/v1/engine/llm_engine.py
index 1db83446ba0b5..e403cea87788b 100644
--- a/vllm/v1/engine/llm_engine.py
+++ b/vllm/v1/engine/llm_engine.py
@@ -14,7 +14,6 @@ from vllm.config import ParallelConfig, VllmConfig
 from vllm.distributed import stateless_destroy_torch_distributed_process_group
 from vllm.distributed.parallel_state import get_dp_group
 from vllm.engine.arg_utils import EngineArgs
-from vllm.engine.protocol import Device
 from vllm.inputs import PromptType
 from vllm.logger import init_logger
 from vllm.lora.request import LoRARequest
@@ -321,7 +320,7 @@ class LLMEngine:
         self.processor.clear_mm_cache()
         self.engine_core.reset_mm_cache()
 
-    def reset_prefix_cache(self, device: Device | None = None):
+    def reset_prefix_cache(self):
         self.engine_core.reset_prefix_cache()
 
     def sleep(self, level: int = 1):

From 74b5267d3a2d49be548e488650d1504be0b3e3fe Mon Sep 17 00:00:00 2001
From: "Jane (Yuan) Xu" <31798555+janeyx99@users.noreply.github.com>
Date: Sat, 15 Nov 2025 04:10:15 -0500
Subject: [PATCH 491/976] Use narrow over indexing in `hadacore_transform` to
 prep for ABI stable (#28756)

Signed-off-by: Jane Xu <janeyx@meta.com>
---
 csrc/quantization/hadamard/hadacore/hadamard_transform_cuda.cu | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/quantization/hadamard/hadacore/hadamard_transform_cuda.cu b/csrc/quantization/hadamard/hadacore/hadamard_transform_cuda.cu
index 5369d409f9b21..aff11326d78e9 100644
--- a/csrc/quantization/hadamard/hadacore/hadamard_transform_cuda.cu
+++ b/csrc/quantization/hadamard/hadacore/hadamard_transform_cuda.cu
@@ -802,7 +802,7 @@ torch::Tensor hadacore_transform(torch::Tensor& x, bool inplace) {
     });
 
     if (numel % 256 != 0) {
-        out = out.index({torch::indexing::Slice(0, numel / had_size)});
+        out = out.narrow(0, 0, numel / had_size);
     }
 
     if (inplace && out.data_ptr() != x.data_ptr()) {

From 1ec978c209391286d4cee968426900e9a4d256a5 Mon Sep 17 00:00:00 2001
From: Zhewen Li <zhewenli@meta.com>
Date: Sat, 15 Nov 2025 01:10:48 -0800
Subject: [PATCH 492/976] [Kernel][Moe Configs] llama4 maverick fp8 moe config
 tp8 on mi325 (#28709)

Signed-off-by: Zhewen Li <zhewenli@meta.com>
---
 ...me=AMD_Instinct_MI325X,dtype=fp8_w8a8.json | 164 ++++++++++++++++++
 1 file changed, 164 insertions(+)
 create mode 100644 vllm/model_executor/layers/fused_moe/configs/E=128,N=1024,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json

diff --git a/vllm/model_executor/layers/fused_moe/configs/E=128,N=1024,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json b/vllm/model_executor/layers/fused_moe/configs/E=128,N=1024,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json
new file mode 100644
index 0000000000000..555d173644522
--- /dev/null
+++ b/vllm/model_executor/layers/fused_moe/configs/E=128,N=1024,device_name=AMD_Instinct_MI325X,dtype=fp8_w8a8.json
@@ -0,0 +1,164 @@
+{
+    "1": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "8": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 16,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "64": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "96": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "256": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "512": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 4,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1024": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "1536": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 2,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "2048": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 256,
+        "GROUP_SIZE_M": 4,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "3072": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    },
+    "4096": {
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 256,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 1,
+        "num_warps": 8,
+        "num_stages": 2,
+        "waves_per_eu": 0
+    }
+}

From 638e4196d15f14a5fe68a64000801abda6c2ef8f Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Sat, 15 Nov 2025 17:59:31 +0800
Subject: [PATCH 493/976] [Misc] Make `SchedulerConfig.max_model_len` init-only
 (#28733)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 tests/kernels/moe/test_batched_moe.py         |  2 --
 tests/kernels/moe/test_block_fp8.py           |  2 --
 tests/kernels/moe/test_block_int8.py          |  2 --
 tests/kernels/moe/test_cutlass_moe.py         |  2 --
 tests/kernels/moe/test_flashinfer.py          |  2 --
 tests/kernels/moe/test_moe.py                 |  2 --
 tests/kernels/moe/test_pplx_cutlass_moe.py    |  2 --
 tests/kernels/moe/test_pplx_moe.py            |  2 --
 tests/kernels/moe/test_triton_moe_ptpc_fp8.py |  2 --
 tests/kernels/quantization/test_block_fp8.py  |  2 --
 tests/kernels/quantization/test_block_int8.py |  2 --
 vllm/config/scheduler.py                      | 36 +++++++++----------
 vllm/config/vllm.py                           |  1 -
 vllm/platforms/cpu.py                         |  2 +-
 vllm/platforms/tpu.py                         |  2 +-
 vllm/platforms/xpu.py                         |  2 +-
 vllm/v1/core/sched/scheduler.py               |  2 +-
 17 files changed, 22 insertions(+), 45 deletions(-)

diff --git a/tests/kernels/moe/test_batched_moe.py b/tests/kernels/moe/test_batched_moe.py
index 62704bbcbbc79..2285709fa7d60 100644
--- a/tests/kernels/moe/test_batched_moe.py
+++ b/tests/kernels/moe/test_batched_moe.py
@@ -40,8 +40,6 @@ NUM_EXPERTS = [8, 64]
 TOP_KS = [1, 2, 6]
 
 vllm_config = VllmConfig()
-vllm_config.scheduler_config.max_num_seqs = 128
-vllm_config.scheduler_config.max_model_len = 8192
 
 
 @dataclass
diff --git a/tests/kernels/moe/test_block_fp8.py b/tests/kernels/moe/test_block_fp8.py
index cd34617ee0fc4..88db4b3e537c2 100644
--- a/tests/kernels/moe/test_block_fp8.py
+++ b/tests/kernels/moe/test_block_fp8.py
@@ -33,8 +33,6 @@ if current_platform.get_device_capability() < (9, 0):
     pytest.skip("FP8 Triton requires CUDA 9.0 or higher", allow_module_level=True)
 
 vllm_config = VllmConfig()
-vllm_config.scheduler_config.max_num_seqs = 128
-vllm_config.scheduler_config.max_model_len = 8192
 
 # Test configurations
 DTYPES = [torch.bfloat16]  # [torch.half, torch.bfloat16, torch.float32]
diff --git a/tests/kernels/moe/test_block_int8.py b/tests/kernels/moe/test_block_int8.py
index 3799e60f1294a..e35ca4caa9dbc 100644
--- a/tests/kernels/moe/test_block_int8.py
+++ b/tests/kernels/moe/test_block_int8.py
@@ -18,8 +18,6 @@ if current_platform.get_device_capability() < (7, 0):
     pytest.skip("INT8 Triton requires CUDA 7.0 or higher", allow_module_level=True)
 
 vllm_config = VllmConfig()
-vllm_config.scheduler_config.max_num_seqs = 128
-vllm_config.scheduler_config.max_model_len = 8192
 
 DTYPES = [torch.bfloat16]
 
diff --git a/tests/kernels/moe/test_cutlass_moe.py b/tests/kernels/moe/test_cutlass_moe.py
index 5512ccce47b05..c15837f145705 100644
--- a/tests/kernels/moe/test_cutlass_moe.py
+++ b/tests/kernels/moe/test_cutlass_moe.py
@@ -42,8 +42,6 @@ MNK_FACTORS = [
 ]
 
 vllm_config = VllmConfig(parallel_config=ParallelConfig(pipeline_parallel_size=1))
-vllm_config.scheduler_config.max_num_seqs = 128
-vllm_config.scheduler_config.max_model_len = 8192
 
 
 @dataclasses.dataclass
diff --git a/tests/kernels/moe/test_flashinfer.py b/tests/kernels/moe/test_flashinfer.py
index 707068b2bbdc2..3a681d4603f8e 100644
--- a/tests/kernels/moe/test_flashinfer.py
+++ b/tests/kernels/moe/test_flashinfer.py
@@ -45,8 +45,6 @@ MNK_FACTORS = [
 ]
 
 vllm_config = VllmConfig(parallel_config=ParallelConfig(pipeline_parallel_size=1))
-vllm_config.scheduler_config.max_num_seqs = 128
-vllm_config.scheduler_config.max_model_len = 8192
 
 
 def quant_fp8_per_tensor_batches(a):
diff --git a/tests/kernels/moe/test_moe.py b/tests/kernels/moe/test_moe.py
index c27cf2468ede5..0550c2d9e2125 100644
--- a/tests/kernels/moe/test_moe.py
+++ b/tests/kernels/moe/test_moe.py
@@ -81,8 +81,6 @@ FUSED_MOE_WN16_MNK_FACTORS = [
 ]
 
 vllm_config = VllmConfig()
-vllm_config.scheduler_config.max_num_seqs = 128
-vllm_config.scheduler_config.max_model_len = 8192
 
 
 def run_moe_test(
diff --git a/tests/kernels/moe/test_pplx_cutlass_moe.py b/tests/kernels/moe/test_pplx_cutlass_moe.py
index a2de64974b353..dd4eb4da913bd 100644
--- a/tests/kernels/moe/test_pplx_cutlass_moe.py
+++ b/tests/kernels/moe/test_pplx_cutlass_moe.py
@@ -192,8 +192,6 @@ def pplx_cutlass_moe(
 
 
 vllm_config = VllmConfig()
-vllm_config.scheduler_config.max_num_seqs = 128
-vllm_config.scheduler_config.max_model_len = 8192
 
 
 def _pplx_moe(
diff --git a/tests/kernels/moe/test_pplx_moe.py b/tests/kernels/moe/test_pplx_moe.py
index 0f0ed3326d159..f671b23d300ce 100644
--- a/tests/kernels/moe/test_pplx_moe.py
+++ b/tests/kernels/moe/test_pplx_moe.py
@@ -81,8 +81,6 @@ TOP_KS = [1, 2, 6]
 DTYPES = [torch.float8_e4m3fn, torch.bfloat16]
 
 vllm_config = VllmConfig()
-vllm_config.scheduler_config.max_num_seqs = 128
-vllm_config.scheduler_config.max_model_len = 8192
 
 
 def torch_prepare(
diff --git a/tests/kernels/moe/test_triton_moe_ptpc_fp8.py b/tests/kernels/moe/test_triton_moe_ptpc_fp8.py
index 933cd9dbdeaa0..7a467e160b784 100644
--- a/tests/kernels/moe/test_triton_moe_ptpc_fp8.py
+++ b/tests/kernels/moe/test_triton_moe_ptpc_fp8.py
@@ -18,8 +18,6 @@ if current_platform.get_device_capability() < (9, 0):
     pytest.skip("FP8 Triton requires CUDA 9.0 or higher", allow_module_level=True)
 
 vllm_config = VllmConfig()
-vllm_config.scheduler_config.max_num_seqs = 128
-vllm_config.scheduler_config.max_model_len = 8192
 
 
 def native_w8a8_per_token_matmul(A, B, As, Bs, output_dtype=torch.float16):
diff --git a/tests/kernels/quantization/test_block_fp8.py b/tests/kernels/quantization/test_block_fp8.py
index 55f092e7ea694..e9973c1fcc15e 100644
--- a/tests/kernels/quantization/test_block_fp8.py
+++ b/tests/kernels/quantization/test_block_fp8.py
@@ -29,8 +29,6 @@ if current_platform.get_device_capability() < (9, 0):
     pytest.skip("FP8 Triton requires CUDA 9.0 or higher", allow_module_level=True)
 
 vllm_config = VllmConfig()
-vllm_config.scheduler_config.max_num_seqs = 128
-vllm_config.scheduler_config.max_model_len = 8192
 
 # Test configurations
 DTYPES = [torch.bfloat16]  # [torch.half, torch.bfloat16, torch.float32]
diff --git a/tests/kernels/quantization/test_block_int8.py b/tests/kernels/quantization/test_block_int8.py
index dabc10a122f7a..310091b6a554d 100644
--- a/tests/kernels/quantization/test_block_int8.py
+++ b/tests/kernels/quantization/test_block_int8.py
@@ -18,8 +18,6 @@ if current_platform.get_device_capability() < (7, 0):
     pytest.skip("INT8 Triton requires CUDA 7.0 or higher", allow_module_level=True)
 
 vllm_config = VllmConfig()
-vllm_config.scheduler_config.max_num_seqs = 128
-vllm_config.scheduler_config.max_model_len = 8192
 
 DTYPES = [torch.half, torch.bfloat16]
 M = [1, 33, 64, 222]
diff --git a/vllm/config/scheduler.py b/vllm/config/scheduler.py
index 444568994a95b..8194295ffedb6 100644
--- a/vllm/config/scheduler.py
+++ b/vllm/config/scheduler.py
@@ -6,7 +6,7 @@ from collections.abc import Callable
 from dataclasses import InitVar
 from typing import TYPE_CHECKING, Any, ClassVar, Literal, cast
 
-from pydantic import Field, field_validator, model_validator
+from pydantic import Field, field_validator
 from pydantic.dataclasses import dataclass
 from typing_extensions import Self, deprecated
 
@@ -48,13 +48,6 @@ class SchedulerConfig:
     In real usage, this should be set in `EngineArgs.create_engine_config`.
     """
 
-    max_model_len: int = Field(default=8192, ge=1)
-    """Maximum length of a sequence (including prompt and generated text).
-
-    The default value here is mainly for convenience when testing.
-    In real usage, this should duplicate `ModelConfig.max_model_len` via
-    `EngineArgs`."""
-
     max_num_partial_prefills: int = Field(default=1, ge=1)
     """For chunked prefill, the maximum number of sequences that can be
     partially prefilled concurrently."""
@@ -89,6 +82,12 @@ class SchedulerConfig:
     is_multimodal_model: bool = False
     """True if the model is multimodal."""
 
+    max_model_len: InitVar[int] = 8192
+    """Maximum length of a sequence (including prompt and generated text).
+
+    Note: This is stored in the ModelConfig, and is used only here to
+    provide fallbacks and validate other attributes."""
+
     is_encoder_decoder: InitVar[bool] = False
     """True if the model is an encoder-decoder model.
 
@@ -199,7 +198,7 @@ class SchedulerConfig:
             return value
         return handler(value)
 
-    def __post_init__(self, is_encoder_decoder: bool) -> None:
+    def __post_init__(self, max_model_len: int, is_encoder_decoder: bool) -> None:
         if is_encoder_decoder:
             # Chunked prefill should be disabled for encoder-decoder models.
             self.disable_chunked_mm_input = True
@@ -221,7 +220,7 @@ class SchedulerConfig:
 
         if self.max_num_partial_prefills > 1:
             if self.long_prefill_token_threshold == 0:
-                self.long_prefill_token_threshold = int(self.max_model_len * 0.04)
+                self.long_prefill_token_threshold = int(max_model_len * 0.04)
 
             logger.info(
                 "Concurrent partial prefills enabled with "
@@ -232,6 +231,8 @@ class SchedulerConfig:
                 self.long_prefill_token_threshold,
             )
 
+        self.verify_max_model_len(max_model_len)
+
     @property
     @deprecated(
         "`SchedulerConfig.chunked_prefill_enabled` has been renamed to "
@@ -245,15 +246,14 @@ class SchedulerConfig:
     def chunked_prefill_enabled(self, value: bool):
         self.enable_chunked_prefill = value
 
-    @model_validator(mode="after")
-    def _verify_args(self) -> Self:
+    def verify_max_model_len(self, max_model_len: int) -> Self:
         if (
-            self.max_num_batched_tokens < self.max_model_len
+            self.max_num_batched_tokens < max_model_len
             and not self.enable_chunked_prefill
         ):
             raise ValueError(
                 f"max_num_batched_tokens ({self.max_num_batched_tokens}) is "
-                f"smaller than max_model_len ({self.max_model_len}). "
+                f"smaller than max_model_len ({max_model_len}). "
                 "This effectively limits the maximum sequence length to "
                 "max_num_batched_tokens and makes vLLM reject longer "
                 "sequences. Please increase max_num_batched_tokens or "
@@ -267,12 +267,12 @@ class SchedulerConfig:
                 f"({self.max_num_seqs})."
             )
 
-        if self.max_num_batched_tokens > self.max_num_seqs * self.max_model_len:
+        if self.max_num_batched_tokens > self.max_num_seqs * max_model_len:
             logger.warning(
                 "max_num_batched_tokens (%d) exceeds max_num_seqs "
                 "* max_model_len (%d). This may lead to unexpected behavior.",
                 self.max_num_batched_tokens,
-                self.max_num_seqs * self.max_model_len,
+                self.max_num_seqs * max_model_len,
             )
 
         if self.max_num_partial_prefills > 1:
@@ -282,11 +282,11 @@ class SchedulerConfig:
                     "max_num_partial_prefills > 1."
                 )
 
-            if self.long_prefill_token_threshold > self.max_model_len:
+            if self.long_prefill_token_threshold > max_model_len:
                 raise ValueError(
                     "long_prefill_token_threshold "
                     f"({self.long_prefill_token_threshold}) cannot be greater "
-                    f"than the max_model_len ({self.max_model_len})."
+                    f"than the max_model_len ({max_model_len})."
                 )
 
         if self.max_long_partial_prefills > self.max_num_partial_prefills:
diff --git a/vllm/config/vllm.py b/vllm/config/vllm.py
index 1e6e455210c88..bf9bcd0e8a11f 100644
--- a/vllm/config/vllm.py
+++ b/vllm/config/vllm.py
@@ -929,7 +929,6 @@ class VllmConfig:
         model_config = self.model_config
         max_model_len = model_config.get_and_verify_max_len(max_model_len)
         self.model_config.max_model_len = max_model_len
-        self.scheduler_config.max_model_len = max_model_len
 
     def try_verify_and_update_config(self):
         if self.model_config is None:
diff --git a/vllm/platforms/cpu.py b/vllm/platforms/cpu.py
index 1da34629472c7..ed655912d3964 100644
--- a/vllm/platforms/cpu.py
+++ b/vllm/platforms/cpu.py
@@ -339,7 +339,7 @@ class CpuPlatform(Platform):
             )
             vllm_config.scheduler_config.enable_chunked_prefill = False
             vllm_config.scheduler_config.max_num_batched_tokens = max(
-                vllm_config.scheduler_config.max_model_len,
+                vllm_config.model_config.max_model_len,
                 vllm_config.scheduler_config.DEFAULT_MAX_NUM_BATCHED_TOKENS,
             )
 
diff --git a/vllm/platforms/tpu.py b/vllm/platforms/tpu.py
index c1218801bc077..944344a229578 100644
--- a/vllm/platforms/tpu.py
+++ b/vllm/platforms/tpu.py
@@ -191,7 +191,7 @@ class TpuPlatform(Platform):
             )
             vllm_config.scheduler_config.enable_chunked_prefill = False
             vllm_config.scheduler_config.max_num_batched_tokens = max(
-                vllm_config.scheduler_config.max_model_len,
+                vllm_config.model_config.max_model_len,
                 vllm_config.scheduler_config.DEFAULT_MAX_NUM_BATCHED_TOKENS,
             )
 
diff --git a/vllm/platforms/xpu.py b/vllm/platforms/xpu.py
index ad4beb28bdae0..65516827a16da 100644
--- a/vllm/platforms/xpu.py
+++ b/vllm/platforms/xpu.py
@@ -185,7 +185,7 @@ class XPUPlatform(Platform):
             )
             vllm_config.scheduler_config.enable_chunked_prefill = False
             vllm_config.scheduler_config.max_num_batched_tokens = max(
-                vllm_config.scheduler_config.max_model_len,
+                vllm_config.model_config.max_model_len,
                 vllm_config.scheduler_config.DEFAULT_MAX_NUM_BATCHED_TOKENS,
             )
 
diff --git a/vllm/v1/core/sched/scheduler.py b/vllm/v1/core/sched/scheduler.py
index c640c40a455d0..bc15979dea621 100644
--- a/vllm/v1/core/sched/scheduler.py
+++ b/vllm/v1/core/sched/scheduler.py
@@ -83,7 +83,7 @@ class Scheduler(SchedulerInterface):
         # Scheduling constraints.
         self.max_num_running_reqs = self.scheduler_config.max_num_seqs
         self.max_num_scheduled_tokens = self.scheduler_config.max_num_batched_tokens
-        self.max_model_len = self.scheduler_config.max_model_len
+        self.max_model_len = vllm_config.model_config.max_model_len
         self.enable_kv_cache_events = (
             self.kv_events_config is not None
             and self.kv_events_config.enable_kv_cache_events

From 173b356abff3e2e547fc44c60361f3b0adc41aaf Mon Sep 17 00:00:00 2001
From: Vadim Gimpelson <156319763+vadiklyutiy@users.noreply.github.com>
Date: Sat, 15 Nov 2025 14:13:41 +0400
Subject: [PATCH 494/976] [PERF] Remove TRTLLM Gen attn kernel limitation
 `max_seq_len <=131072` (#28755)

Signed-off-by: Vadim Gimpelson <vadim.gimpelson@gmail.com>
---
 vllm/config/vllm.py      | 15 ---------------
 vllm/utils/flashinfer.py |  6 ++----
 2 files changed, 2 insertions(+), 19 deletions(-)

diff --git a/vllm/config/vllm.py b/vllm/config/vllm.py
index bf9bcd0e8a11f..87f6b6eed851b 100644
--- a/vllm/config/vllm.py
+++ b/vllm/config/vllm.py
@@ -483,21 +483,6 @@ class VllmConfig:
                             "Overriding cudagraph_mode to PIECEWISE."
                         )
                         self.compilation_config.cudagraph_mode = CUDAGraphMode.PIECEWISE
-                    elif (
-                        current_platform.is_cuda()
-                        and current_platform.is_device_capability(100)
-                        and self.model_config.max_model_len > 131072
-                        and not self.model_config.use_mla
-                    ):
-                        # Refer to vllm/utils/flashinfer.py::use_trtllm_attention()
-                        logger.warning_once(
-                            "NVIDIA Blackwell TRTLLM attention cannot support "
-                            "max_model_len >= 131072 (found "
-                            f"{self.model_config.max_model_len}), causing dynamic "
-                            "dispatching that breaks full cudagraphs. "
-                            "Overriding cudagraph_mode to PIECEWISE."
-                        )
-                        self.compilation_config.cudagraph_mode = CUDAGraphMode.PIECEWISE
 
             # disable cudagraph when enforce eager execution
             if self.model_config is not None and self.model_config.enforce_eager:
diff --git a/vllm/utils/flashinfer.py b/vllm/utils/flashinfer.py
index 79e5a4c302594..1209d64901bf5 100644
--- a/vllm/utils/flashinfer.py
+++ b/vllm/utils/flashinfer.py
@@ -319,14 +319,12 @@ def use_trtllm_attention(
         # Environment variable not set - use auto-detection
         if is_prefill:
             # Prefill auto-detection
-            use_trtllm = max_seq_len <= 131072 and kv_cache_dtype == "auto"
+            use_trtllm = kv_cache_dtype == "auto"
             if use_trtllm:
                 logger.warning_once("Using TRTLLM prefill attention (auto-detected).")
         else:
             # Decode auto-detection
-            use_trtllm = (
-                num_tokens <= 256 and max_seq_len <= 131072 and kv_cache_dtype == "auto"
-            )
+            use_trtllm = num_tokens <= 256 and kv_cache_dtype == "auto"
             if use_trtllm:
                 logger.warning_once("Using TRTLLM decode attention (auto-detected).")
         return use_trtllm

From f36292dbee27a5ebe0e7115c061b82f6f5372dcf Mon Sep 17 00:00:00 2001
From: Angela Yi <yiangela7@gmail.com>
Date: Sat, 15 Nov 2025 03:46:12 -0800
Subject: [PATCH 495/976] [compile] Enable sequence parallelism matching w/o
 custom ops enabled  (#27126)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Signed-off-by: angelayi <yiangela7@gmail.com>
Signed-off-by: Luka Govedič <ProExpertProg@users.noreply.github.com>
Signed-off-by: ProExpertProg <lgovedic@redhat.com>
Co-authored-by: Luka Govedič <lgovedic@redhat.com>
Co-authored-by: Luka Govedič <ProExpertProg@users.noreply.github.com>
Co-authored-by: Luka Govedič <luka.govedic@gmail.com>
---
 .buildkite/test-pipeline.yaml               |  14 +-
 tests/compile/test_fusions_e2e.py           | 228 ++++++++++--
 tests/compile/test_sequence_parallelism.py  | 262 +++++++-------
 tests/distributed/test_sequence_parallel.py |  15 +-
 vllm/compilation/sequence_parallelism.py    | 369 ++++++--------------
 vllm/config/vllm.py                         |  28 +-
 6 files changed, 472 insertions(+), 444 deletions(-)

diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index 52539728215bb..723f311a26464 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -478,10 +478,11 @@ steps:
   - vllm/
   - tests/compile
   commands:
+    # fp8 kv scales not supported on sm89, tested on Blackwell instead
   - pytest -v -s compile/test_full_graph.py -k 'not test_fp8_kv_scale_compile'
     # Limit to no custom ops to reduce running time
     # Wrap with quotes to escape yaml and avoid starting -k string with a -
-  - "pytest -v -s compile/test_fusions_e2e.py -k 'TRITON and -quant_fp8'"
+  - "pytest -v -s compile/test_fusions_e2e.py -k 'TRITON and not +quant_fp8 and not Llama-4'"
 
 - label: Cudagraph test
   timeout_in_minutes: 20
@@ -925,7 +926,7 @@ steps:
     - pytest -v -s tests/kernels/moe/test_ocp_mx_moe.py
     - pytest -v -s tests/kernels/moe/test_flashinfer.py
 
-- label: Blackwell Fusion Tests # 30 min
+- label: Blackwell Fusion & Compile Tests # 30 min
   timeout_in_minutes: 40
   working_dir: "/vllm-workspace/"
   gpu: b200
@@ -946,7 +947,9 @@ steps:
     - pytest -v -s tests/compile/test_fusion_all_reduce.py
     # Limit to Inductor partition, no custom ops, and allreduce & attn fusion to reduce running time
     # Wrap with quotes to escape yaml
-    - "pytest -v -s tests/compile/test_fusions_e2e.py::test_tp2_attn_quant_allreduce_rmsnorm -k 'True and Llama-3.1 and -quant_fp8 and -rms_norm'"
+    - "pytest -v -s tests/compile/test_fusions_e2e.py::test_tp2_attn_quant_allreduce_rmsnorm -k 'True and not +quant_fp8 and not +rms_norm'"
+    # test_fp8_kv_scale_compile requires FlashAttention (not supported on default L4/L40)
+    - pytest -v -s tests/compile/test_full_graph.py::test_fp8_kv_scale_compile
 
 - label: Blackwell Fusion E2E Tests # 30 min
   timeout_in_minutes: 40
@@ -969,8 +972,6 @@ steps:
     - nvidia-smi
     # Run all e2e fusion tests
     - pytest -v -s tests/compile/test_fusions_e2e.py
-    # test_fp8_kv_scale_compile requires FlashAttention (not supported on default L4/L40)
-    - pytest -v -s tests/compile/test_full_graph.py::test_fp8_kv_scale_compile
 
 - label: Blackwell GPT-OSS Eval
   timeout_in_minutes: 60
@@ -1266,7 +1267,8 @@ steps:
     - pytest -v -s tests/compile/test_async_tp.py
     - pytest -v -s tests/compile/test_sequence_parallelism.py
     - pytest -v -s tests/compile/test_fusion_all_reduce.py
-    - pytest -v -s tests/compile/test_fusions_e2e.py::test_tp2_attn_quant_allreduce_rmsnorm
+    - "pytest -v -s tests/compile/test_fusions_e2e.py -k 'not Llama-4'"
+    - pytest -v -s tests/distributed/test_sequence_parallel.py
     - pytest -v -s tests/distributed/test_context_parallel.py
     - CUDA_VISIBLE_DEVICES=1,2 VLLM_ALL2ALL_BACKEND=deepep_high_throughput VLLM_USE_DEEP_GEMM=1 VLLM_LOGGING_LEVEL=DEBUG python3 examples/offline_inference/data_parallel.py --model Qwen/Qwen1.5-MoE-A2.7B --tp-size=1  --dp-size=2 --max-model-len 2048
     - pytest -v -s tests/v1/distributed/test_dbo.py
diff --git a/tests/compile/test_fusions_e2e.py b/tests/compile/test_fusions_e2e.py
index e1560efb3f247..f22d60ef000b2 100644
--- a/tests/compile/test_fusions_e2e.py
+++ b/tests/compile/test_fusions_e2e.py
@@ -20,13 +20,22 @@ from vllm.utils.torch_utils import is_torch_equal_or_newer
 
 from ..utils import flat_product, multi_gpu_test
 
+is_blackwell = lambda: current_platform.is_device_capability(100)
+"""Are we running on Blackwell, a lot of tests depend on it"""
+
+
+class Matches(NamedTuple):
+    attention_fusion: int = 0
+    allreduce_fusion: int = 0
+    sequence_parallel: int = 0
+    async_tp: int = 0
+
 
 class ModelBackendTestCase(NamedTuple):
     model_name: str
     model_kwargs: dict[str, Any]
     backend: AttentionBackendEnum
-    attention_fusions: int
-    allreduce_fusions: int | None = None
+    matches: Matches
 
 
 MODELS_FP8: list[ModelBackendTestCase] = []
@@ -38,17 +47,33 @@ if current_platform.is_cuda():
         ModelBackendTestCase(
             # Use smaller model for L40s in CI
             model_name="RedHatAI/Meta-Llama-3.1-8B-Instruct-FP8",
-            model_kwargs=dict(max_model_len=1024),
-            backend=AttentionBackendEnum.TRITON_ATTN,
-            attention_fusions=32,
-            allreduce_fusions=65,
+            # TODO while llama4 is broken, use FLASHINFER for llama3 on Blackwell
+            #  so FI attention+fp8_quant is at least tested once
+            model_kwargs=dict(max_model_len=1024, kv_cache_dtype="fp8"),
+            backend=AttentionBackendEnum.FLASHINFER
+            if is_blackwell()
+            else AttentionBackendEnum.TRITON_ATTN,
+            matches=Matches(
+                attention_fusion=32,
+                allreduce_fusion=65,
+                sequence_parallel=65,
+                async_tp=128,
+            ),
         ),
         ModelBackendTestCase(
             model_name="nvidia/Llama-4-Scout-17B-16E-Instruct-FP8",
             model_kwargs=dict(max_model_len=1024, kv_cache_dtype="fp8"),
-            backend=AttentionBackendEnum.FLASHINFER,
-            attention_fusions=48,
-            allreduce_fusions=96,
+            # TODO FlashInfer attn broken on Hopper with kvcache=fp8:
+            # https://github.com/vllm-project/vllm/issues/28568
+            # TODO FlashInfer attn broken on Blackwell for llama4:
+            # https://github.com/vllm-project/vllm/issues/28604
+            backend=AttentionBackendEnum.TRITON_ATTN,
+            matches=Matches(
+                attention_fusion=48,
+                allreduce_fusion=96,
+                sequence_parallel=96,
+                async_tp=95,  # mlp is moe, no fusion there
+            ),
         ),
     ]
 
@@ -57,8 +82,12 @@ if current_platform.is_cuda():
             model_name="nvidia/Llama-3.1-8B-Instruct-FP4",
             model_kwargs=dict(max_model_len=1024, kv_cache_dtype="fp8"),
             backend=AttentionBackendEnum.FLASHINFER,
-            attention_fusions=32,
-            allreduce_fusions=65,
+            matches=Matches(
+                attention_fusion=32,
+                allreduce_fusion=65,
+                sequence_parallel=65,
+                async_tp=128,
+            ),
         ),
     ]
 
@@ -68,15 +97,23 @@ if current_platform.is_cuda():
             model_name="meta-llama/Llama-3.1-8B-Instruct",
             model_kwargs=dict(max_model_len=1024),
             backend=AttentionBackendEnum.TRITON_ATTN,
-            attention_fusions=0,
-            allreduce_fusions=65,
+            matches=Matches(
+                attention_fusion=0,
+                allreduce_fusion=65,
+                sequence_parallel=65,
+                async_tp=128,
+            ),
         ),
         ModelBackendTestCase(
             model_name="Qwen/Qwen3-30B-A3B",
             model_kwargs=dict(max_model_len=1024),
             backend=AttentionBackendEnum.TRITON_ATTN,
-            attention_fusions=0,
-            allreduce_fusions=97,
+            matches=Matches(
+                attention_fusion=0,
+                allreduce_fusion=97,
+                sequence_parallel=97,
+                async_tp=96,  # MLP is MoE, half the fusions of dense
+            ),
         ),
     ]
 
@@ -86,19 +123,19 @@ elif current_platform.is_rocm():
             model_name="amd/Llama-3.1-8B-Instruct-FP8-KV",
             model_kwargs=dict(max_model_len=1024),
             backend=AttentionBackendEnum.TRITON_ATTN,
-            attention_fusions=32,
+            matches=Matches(attention_fusion=32),
         ),
         ModelBackendTestCase(
             model_name="amd/Llama-3.1-8B-Instruct-FP8-KV",
             model_kwargs=dict(max_model_len=1024),
             backend=AttentionBackendEnum.ROCM_ATTN,
-            attention_fusions=32,
+            matches=Matches(attention_fusion=32),
         ),
         ModelBackendTestCase(
             model_name="amd/Llama-3.1-8B-Instruct-FP8-KV",
             model_kwargs=dict(max_model_len=1024),
             backend=AttentionBackendEnum.ROCM_AITER_UNIFIED_ATTN,
-            attention_fusions=32,
+            matches=Matches(attention_fusion=32),
         ),
     ]
 
@@ -106,8 +143,7 @@ CUSTOM_OPS_FP8 = ["-quant_fp8", "+quant_fp8"]
 
 
 @pytest.mark.parametrize(
-    "model_name, model_kwargs, backend, "
-    "attention_fusions, allreduce_fusions, custom_ops",
+    "model_name, model_kwargs, backend, matches, custom_ops",
     # Test attention+quant_fp8 fusion with custom and torch impls of QuantFP8
     list(flat_product(MODELS_FP8, CUSTOM_OPS_FP8))
     # quant_fp4 only has the custom impl
@@ -118,15 +154,14 @@ def test_attn_quant(
     model_name: str,
     model_kwargs: dict[str, Any],
     backend: AttentionBackendEnum,
-    attention_fusions: int,
-    allreduce_fusions: int,
+    matches: Matches,
     custom_ops: str,
     inductor_graph_partition: bool,
     caplog_mp_spawn,
     monkeypatch,
 ):
     if backend == AttentionBackendEnum.FLASHINFER and (
-        not current_platform.is_device_capability((10, 0)) or not has_flashinfer()
+        not is_blackwell() or not has_flashinfer()
     ):
         pytest.skip("FlashInfer attn fusion requires Blackwell and flashinfer")
     if inductor_graph_partition and not is_torch_equal_or_newer("2.9.0.dev"):
@@ -169,12 +204,12 @@ def test_attn_quant(
     with caplog_mp_spawn(logging.DEBUG) as log_holder:
         run_model(compilation_config, model_name, **model_kwargs)
 
-    matches = re.findall(
+    log_matches = re.findall(
         r"fusion_attn.py:\d+] Fused quant onto (\d+) attention nodes",
         log_holder.text,
     )
-    assert len(matches) == 1, log_holder.text
-    assert int(matches[0]) == attention_fusions
+    assert len(log_matches) == 1, log_holder.text
+    assert int(log_matches[0]) == matches.attention_fusion
 
 
 CUSTOM_OPS_RMS_NORM = ["-rms_norm", "+rms_norm"]
@@ -187,8 +222,7 @@ def custom_ops_product(*custom_ops_lists: list[str]) -> Iterable[str]:
 
 @multi_gpu_test(num_gpus=2)
 @pytest.mark.parametrize(
-    "model_name, model_kwargs, backend, "
-    "attention_fusions, allreduce_fusions, custom_ops",
+    "model_name, model_kwargs, backend, matches, custom_ops",
     # Toggle RMSNorm and QuantFP8 for FP8 models
     list(
         flat_product(
@@ -209,8 +243,7 @@ def test_tp2_attn_quant_allreduce_rmsnorm(
     model_name: str,
     model_kwargs: dict,
     backend: AttentionBackendEnum,
-    attention_fusions: int,
-    allreduce_fusions: int,
+    matches: Matches,
     custom_ops: str,
     inductor_graph_partition: bool,
     caplog_mp_spawn,
@@ -219,6 +252,13 @@ def test_tp2_attn_quant_allreduce_rmsnorm(
     if inductor_graph_partition and not is_torch_equal_or_newer("2.9.0.dev"):
         pytest.skip("Inductor graph partition requires torch>=2.9")
 
+    if "fp4" in model_name.lower() and not is_blackwell():
+        pytest.skip("NVFP4 quant requires Blackwell")
+
+    if backend == AttentionBackendEnum.FLASHINFER and not is_blackwell():
+        # FlashInfer attn fusion requires Blackwell
+        matches = matches._replace(attention_fusion=0)
+
     custom_ops_list = custom_ops.split(",") if custom_ops else []
 
     if inductor_graph_partition:
@@ -258,23 +298,135 @@ def test_tp2_attn_quant_allreduce_rmsnorm(
         run_model(
             compilation_config, model_name, tensor_parallel_size=2, **model_kwargs
         )
-    matches = re.findall(
+    log_matches = re.findall(
         r"fusion_attn.py:\d+] Fused quant onto (\d+) attention nodes",
         log_holder.text,
     )
-    assert len(matches) == 2, log_holder.text
+    assert len(log_matches) == 2, log_holder.text
 
-    assert int(matches[0]) == attention_fusions
-    assert int(matches[1]) == attention_fusions
+    assert int(log_matches[0]) == matches.attention_fusion
+    assert int(log_matches[1]) == matches.attention_fusion
 
-    matches = re.findall(
+    log_matches = re.findall(
         r"collective_fusion.py:\d+] Replaced (\d+) patterns",
         log_holder.text,
     )
-    assert len(matches) == 2, log_holder.text
+    assert len(log_matches) == 2, log_holder.text
 
-    assert int(matches[0]) == allreduce_fusions
-    assert int(matches[1]) == allreduce_fusions
+    assert int(log_matches[0]) == matches.allreduce_fusion
+    assert int(log_matches[1]) == matches.allreduce_fusion
+
+
+@multi_gpu_test(num_gpus=2)
+@pytest.mark.parametrize(
+    "model_name, model_kwargs, backend, matches, custom_ops",
+    # Toggle RMSNorm and QuantFP8 for FP8 models
+    list(
+        flat_product(
+            MODELS_FP8, custom_ops_product(CUSTOM_OPS_FP8, CUSTOM_OPS_RMS_NORM)
+        )
+    )
+    # Toggle RMSNorm for FP4 models and unquant models
+    + list(flat_product(MODELS_FP4 + MODELS, CUSTOM_OPS_RMS_NORM)),
+)
+@pytest.mark.parametrize("inductor_graph_partition", [True, False])
+@pytest.mark.skipif(
+    not current_platform.is_cuda(),
+    reason="sequence parallel only tested on CUDA",
+)
+def test_tp2_attn_quant_async_tp(
+    model_name: str,
+    model_kwargs: dict,
+    backend: AttentionBackendEnum,
+    matches: Matches,
+    custom_ops: str,
+    inductor_graph_partition: bool,
+    caplog_mp_spawn,
+    monkeypatch,
+):
+    if is_blackwell():
+        # TODO: https://github.com/vllm-project/vllm/issues/27893
+        pytest.skip("Blackwell is not supported for AsyncTP pass")
+
+    if inductor_graph_partition and not is_torch_equal_or_newer("2.9.0.dev"):
+        pytest.skip("Inductor graph partition requires torch>=2.9")
+
+    if "fp4" in model_name.lower() and not is_blackwell():
+        pytest.skip("NVFP4 quant requires Blackwell")
+
+    if backend == AttentionBackendEnum.FLASHINFER:
+        if not has_flashinfer():
+            pytest.skip("FlashInfer backend requires flashinfer installed")
+        if not is_blackwell():
+            # FlashInfer attn fusion requires Blackwell
+            matches = matches._replace(attention_fusion=0)
+
+    custom_ops_list = custom_ops.split(",") if custom_ops else []
+
+    if inductor_graph_partition:
+        mode = CUDAGraphMode.FULL_AND_PIECEWISE
+        splitting_ops: list[str] | None = None
+    else:
+        mode = CUDAGraphMode.FULL_DECODE_ONLY
+        splitting_ops = []
+
+    # Disable, compile cache to make sure custom passes run.
+    # Otherwise, we can't verify fusion happened through the logs.
+    monkeypatch.setenv("VLLM_DISABLE_COMPILE_CACHE", "1")
+
+    # To capture subprocess logs, we need to know whether spawn or fork is used.
+    # Force spawn as it is more general.
+    monkeypatch.setenv("VLLM_WORKER_MULTIPROC_METHOD", "spawn")
+    monkeypatch.setenv("VLLM_ATTENTION_BACKEND", backend.name)
+
+    compilation_config = CompilationConfig(
+        # Testing properties
+        use_inductor_graph_partition=inductor_graph_partition,
+        cudagraph_mode=mode,
+        custom_ops=custom_ops_list,
+        splitting_ops=splitting_ops,
+        # Common
+        level=CompilationMode.VLLM_COMPILE,
+        pass_config=PassConfig(
+            enable_attn_fusion=True,
+            enable_noop=True,
+            enable_sequence_parallelism=True,
+            enable_async_tp=True,
+        ),
+        # Inductor caches custom passes by default as well via uuid
+        inductor_compile_config={"force_disable_caches": True},
+    )
+
+    with caplog_mp_spawn(logging.DEBUG) as log_holder:
+        run_model(
+            compilation_config, model_name, tensor_parallel_size=2, **model_kwargs
+        )
+    log_matches = re.findall(
+        r"fusion_attn.py:\d+] Fused quant onto (\d+) attention nodes",
+        log_holder.text,
+    )
+    assert len(log_matches) == 2, log_holder.text
+
+    assert int(log_matches[0]) == matches.attention_fusion
+    assert int(log_matches[1]) == matches.attention_fusion
+
+    log_matches = re.findall(
+        r"sequence_parallelism.py:\d+] Replaced (\d+) patterns",
+        log_holder.text,
+    )
+    assert len(log_matches) == 2, log_holder.text
+
+    assert int(log_matches[0]) == matches.sequence_parallel
+    assert int(log_matches[1]) == matches.sequence_parallel
+
+    log_matches = re.findall(
+        r"collective_fusion.py:\d+] Replaced (\d+) patterns",
+        log_holder.text,
+    )
+    assert len(log_matches) == 2, log_holder.text
+
+    assert int(log_matches[0]) == matches.async_tp
+    assert int(log_matches[1]) == matches.async_tp
 
 
 def run_model(compile_config: int | CompilationConfig, model: str, **model_kwargs):
diff --git a/tests/compile/test_sequence_parallelism.py b/tests/compile/test_sequence_parallelism.py
index e909cf7393ad3..9cd7f64b04af5 100644
--- a/tests/compile/test_sequence_parallelism.py
+++ b/tests/compile/test_sequence_parallelism.py
@@ -5,15 +5,15 @@ import pytest
 import torch
 
 import vllm.envs as envs
-from vllm.compilation.fix_functionalization import FixFunctionalizationPass
 from vllm.compilation.fusion import RMSNormQuantFusionPass
-from vllm.compilation.fx_utils import find_auto_fn, find_auto_fn_maybe, is_func
+from vllm.compilation.fx_utils import find_auto_fn
 from vllm.compilation.noop_elimination import NoOpEliminationPass
 from vllm.compilation.post_cleanup import PostCleanupPass
 from vllm.compilation.sequence_parallelism import SequenceParallelismPass
 from vllm.compilation.vllm_inductor_pass import VllmInductorPass
 from vllm.config import (
     CompilationConfig,
+    CUDAGraphMode,
     DeviceConfig,
     ModelConfig,
     PassConfig,
@@ -27,6 +27,7 @@ from vllm.distributed.parallel_state import (
     initialize_model_parallel,
 )
 from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.quantization.utils.quant_utils import GroupShape
 from vllm.model_executor.layers.quantization.utils.w8a8_utils import Fp8LinearOp
 from vllm.platforms import current_platform
 from vllm.utils.system_utils import update_environment_variables
@@ -43,172 +44,157 @@ prompts = [
 ]
 
 
-class TestModel(torch.nn.Module):
-    def __init__(self, hidden_size=16, intermediate_size=32):
+class TestAllReduceRMSNormModel(torch.nn.Module):
+    def __init__(self, hidden_size=16, eps=1e-6):
         super().__init__()
         self.hidden_size = hidden_size
-        self.intermediate_size = intermediate_size
-        self.gate_proj = torch.nn.Parameter(
-            torch.empty((intermediate_size, hidden_size))
-        )
-        self.norm = RMSNorm(intermediate_size, 1e-05)
-        # Initialize weights
-        torch.nn.init.normal_(self.gate_proj, std=0.02)
+        self.eps = eps
+        self.norm = [RMSNorm(hidden_size, eps) for i in range(4)]
+        self.w = [torch.rand(hidden_size, hidden_size) for _ in range(3)]
 
-    def forward(self, hidden_states, residual):
-        """
-        Forward pass implementing the operations in the FX graph
+    def forward(self, x):
+        z = torch.relu(x)
+        x = resid = tensor_model_parallel_all_reduce(z)
+        y = self.norm[0](x)
 
-        Args:
-            hidden_states: Input tensor
-            residual: Residual tensor from previous layer
+        z2 = torch.mm(y, self.w[0])
+        x2 = tensor_model_parallel_all_reduce(z2)
 
-        Returns:
-            Tuple containing the output tensor
-        """
-        # Reshape input
-        view = hidden_states.reshape(-1, self.hidden_size)
+        y2, resid = self.norm[1](x2, resid)
 
-        # matrix multiplication
-        permute = self.gate_proj.permute(1, 0)
-        mm = torch.mm(view, permute)
+        z3 = torch.mm(y2, self.w[1])
+        x3 = tensor_model_parallel_all_reduce(z3)
 
-        # Tensor parallel all-reduce
-        all_reduce = tensor_model_parallel_all_reduce(mm)
+        y3, resid = self.norm[2](x3, resid)
 
-        # layer normalization
-        norm_output, residual_output = self.norm(all_reduce, residual)
+        z4 = torch.mm(y3, self.w[2])
+        x4 = tensor_model_parallel_all_reduce(z4)
 
-        return norm_output, residual_output
+        y4, resid = self.norm[3](x4, resid)
+        return y4
 
     def ops_in_model_before(self):
         return [torch.ops.vllm.all_reduce.default]
 
     def ops_in_model_after(self):
         return [
-            torch.ops.vllm.reduce_scatter.default,
             torch.ops.vllm.all_gather.default,
+            torch.ops.vllm.reduce_scatter.default,
         ]
 
     def ops_in_model(self):
-        return [torch.ops._C.fused_add_rms_norm.default]
+        if RMSNorm.enabled():
+            return [
+                torch.ops._C.rms_norm.default,
+                torch.ops._C.fused_add_rms_norm.default,
+            ]
+        else:
+            return []
 
 
-class TestQuantModel(torch.nn.Module):
-    def __init__(self, hidden_size=16, intermediate_size=32):
+class TestAllReduceRMSNormStaticQuantFP8Model(torch.nn.Module):
+    def __init__(self, hidden_size=16, eps=1e-6):
         super().__init__()
-        self.hidden_size = hidden_size
-        self.intermediate_size = intermediate_size
         self.vllm_config = get_current_vllm_config()
-        self.gate_proj = torch.nn.Parameter(
-            torch.empty((intermediate_size, hidden_size)), requires_grad=False
-        )
-        self.norm = RMSNorm(intermediate_size, 1e-05)
-        # Initialize weights
-        torch.nn.init.normal_(self.gate_proj, std=0.02)
+        self.hidden_size = hidden_size
+        self.eps = eps
+        self.norm = [RMSNorm(hidden_size, eps) for i in range(4)]
+        self.wscale = [torch.rand(1, dtype=torch.float32) for _ in range(3)]
+        self.w = [
+            torch.rand(hidden_size, hidden_size)
+            .to(dtype=current_platform.fp8_dtype())
+            .t()
+            for _ in range(3)
+        ]
 
-        self.fp8_linear = Fp8LinearOp(act_quant_static=True)
-
-        self.scale = torch.rand(1, dtype=torch.float32)
-        # Create a weight that is compatible with torch._scaled_mm,
-        # which expects a column-major layout.
-        self.w = torch.rand(hidden_size, intermediate_size).to(dtype=FP8_DTYPE).t()
-        self.wscale = torch.rand(1, dtype=torch.float32)
-
-    def forward(self, hidden_states, residual):
-        """
-        Forward pass implementing the operations in the FX graph
-
-        Args:
-            hidden_states: Input tensor
-            residual: Residual tensor from previous layer
-
-        Returns:
-            Tuple containing the output tensor
-        """
-        # Reshape input
-        view = hidden_states.reshape(-1, self.hidden_size)
-
-        # matrix multiplication
-        permute = self.gate_proj.permute(1, 0)
-        mm = torch.mm(view, permute)
-
-        # Tensor parallel all-reduce
-        all_reduce = tensor_model_parallel_all_reduce(mm)
-
-        # layer normalization
-        norm_output, residual_output = self.norm(all_reduce, residual)
-
-        # scaled_mm with static input quantization
-        fp8_linear_result = self.fp8_linear.apply(
-            norm_output,
-            self.w,
-            self.wscale,
-            input_scale=self.scale.to(norm_output.device),
+        self.fp8_linear = Fp8LinearOp(
+            act_quant_static=True,
+            act_quant_group_shape=GroupShape.PER_TENSOR,
         )
 
-        return fp8_linear_result, residual_output
+        self.scale = [torch.rand(1, dtype=torch.float32) for _ in range(3)]
 
-    def ops_in_model_before(self):
-        ops_to_remove = [torch.ops.vllm.all_reduce.default]  # Always removed by SP
-        # The following are only removed if fusion happens
-        if (
-            self.vllm_config
-            and self.vllm_config.compilation_config.pass_config.enable_fusion
-        ):
-            ops_to_remove.extend(
-                [
-                    torch.ops._C.fused_add_rms_norm.default,
-                    torch.ops._C.static_scaled_fp8_quant.default,
-                ]
-            )
-        return ops_to_remove
+    def forward(self, hidden_states):
+        # avoid having graph input be an arg to a pattern directly
+        z = torch.relu(hidden_states)
+        x = resid = tensor_model_parallel_all_reduce(z)
+        y = self.norm[0](x)
+
+        z2 = self.fp8_linear.apply(
+            y, self.w[0], self.wscale[0], input_scale=self.scale[0]
+        )
+
+        x2 = tensor_model_parallel_all_reduce(z2)
+        y2, resid = self.norm[1](x2, resid)
+
+        z3 = self.fp8_linear.apply(
+            y2, self.w[1], self.wscale[1], input_scale=self.scale[1]
+        )
+
+        x3 = tensor_model_parallel_all_reduce(z3)
+        y3, resid = self.norm[2](x3, resid)  # use resid here
+
+        z4 = self.fp8_linear.apply(
+            y3, self.w[2], self.wscale[2], input_scale=self.scale[2]
+        )
+        x4 = tensor_model_parallel_all_reduce(z4)
+        y4, resid = self.norm[3](x4, resid)  # use resid here
+        return y4
 
     def ops_in_model_after(self):
-        ops_to_add = [
-            torch.ops.vllm.reduce_scatter.default,
+        return [
             torch.ops.vllm.all_gather.default,
+            torch.ops.vllm.reduce_scatter.default,
+        ]
+
+    def ops_in_model_before(self):
+        return [
+            torch.ops.vllm.all_reduce.default,
         ]
-        # The following is only added if fusion happens
-        if (
-            self.vllm_config
-            and self.vllm_config.compilation_config.pass_config.enable_fusion
-        ):
-            ops_to_add.append(torch.ops._C.fused_add_rms_norm_static_fp8_quant.default)
-        return ops_to_add
 
     def ops_in_model(self):
-        if (
-            self.vllm_config
-            and self.vllm_config.compilation_config.pass_config.enable_fusion
-        ):
-            # If fusion happens, the fused op is the one
-            # we check for (de)functionalization
+        if self.vllm_config.compilation_config.pass_config.enable_fusion:
             return [torch.ops._C.fused_add_rms_norm_static_fp8_quant.default]
-        else:
-            # If no fusion, the original ops are checked
+        elif RMSNorm.enabled():
             return [
                 torch.ops._C.fused_add_rms_norm.default,
-                # TODO  functionalization pass does not handle this yet
-                # torch.ops._C.static_scaled_fp8_quant.default,
             ]
+        elif self.fp8_linear.quant_fp8.enabled():
+            return [
+                torch.ops._C.static_scaled_fp8_quant.default,
+            ]
+        else:
+            return []
 
 
 @multi_gpu_test(num_gpus=2)
-@pytest.mark.parametrize("test_model_cls", [TestModel, TestQuantModel])
+@pytest.mark.parametrize(
+    "test_model_cls, custom_ops",
+    [
+        (TestAllReduceRMSNormModel, "+rms_norm"),
+        (TestAllReduceRMSNormModel, "-rms_norm"),
+        (TestAllReduceRMSNormStaticQuantFP8Model, "+rms_norm,+quant_fp8"),
+        (TestAllReduceRMSNormStaticQuantFP8Model, "+rms_norm,-quant_fp8"),
+        (TestAllReduceRMSNormStaticQuantFP8Model, "-rms_norm,+quant_fp8"),
+        (TestAllReduceRMSNormStaticQuantFP8Model, "-rms_norm,-quant_fp8"),
+    ],
+)
 @pytest.mark.parametrize("batch_size", [8])
 @pytest.mark.parametrize("seq_len", [16])
 @pytest.mark.parametrize("hidden_size", [16])
 @pytest.mark.parametrize("dtype", [torch.float16, torch.bfloat16])
 @pytest.mark.parametrize("enable_fusion", [True, False])
+@pytest.mark.parametrize("dynamic", [False, True])
 @pytest.mark.skipif(envs.VLLM_TARGET_DEVICE not in ["cuda"], reason="Only test on CUDA")
 def test_sequence_parallelism_pass(
     test_model_cls: type[torch.nn.Module],
+    custom_ops: str,
     batch_size: int,
     seq_len: int,
     hidden_size: int,
     dtype: torch.dtype,
     enable_fusion: bool,
+    dynamic: bool,
 ):
     num_processes = 2
 
@@ -220,11 +206,13 @@ def test_sequence_parallelism_pass(
             args=(
                 num_processes,
                 test_model_cls,
+                custom_ops,
                 batch_size,
                 seq_len,
                 hidden_size,
                 dtype,
                 enable_fusion,
+                dynamic,
             ),
             nprocs=nprocs,
         )
@@ -236,11 +224,13 @@ def sequence_parallelism_pass_on_test_model(
     local_rank: int,
     world_size: int,
     test_model_cls: type[torch.nn.Module],
+    custom_ops: str,
     batch_size: int,
     seq_len: int,
     hidden_size: int,
     dtype: torch.dtype,
     enable_fusion: bool,
+    dynamic: bool,
 ):
     current_platform.seed_everything(0)
 
@@ -264,12 +254,16 @@ def sequence_parallelism_pass_on_test_model(
     initialize_model_parallel(tensor_model_parallel_size=world_size)
 
     # configure vllm config for SequenceParallelismPass
+    custom_ops_list = custom_ops.split(",") if custom_ops else []
     compilation_config = CompilationConfig(
+        splitting_ops=[],  # avoid automatic rms_norm enablement
+        cudagraph_mode=CUDAGraphMode.NONE,  # avoid piecewise warnings
+        custom_ops=custom_ops_list,
         pass_config=PassConfig(
             enable_sequence_parallelism=True,
             enable_fusion=enable_fusion,
             enable_noop=True,
-        )
+        ),
     )  # NoOp needed for fusion
     device_config = DeviceConfig(device=torch.device("cuda"))
 
@@ -289,7 +283,6 @@ def sequence_parallelism_pass_on_test_model(
     with set_current_vllm_config(vllm_config):
         noop_pass = NoOpEliminationPass(vllm_config)
         sequence_parallelism_pass = SequenceParallelismPass(vllm_config)
-        func_pass = FixFunctionalizationPass(vllm_config)
         cleanup_pass = PostCleanupPass(vllm_config)
         assert (
             sequence_parallelism_pass.compilation_config.splitting_ops
@@ -310,38 +303,29 @@ def sequence_parallelism_pass_on_test_model(
 
         passes_for_backend.append(cleanup_pass)
 
-        backend_no_func = TestBackend(*passes_for_backend)
-        backend_func = TestBackend(*passes_for_backend, func_pass)
+        backend = TestBackend(*passes_for_backend)
 
-        model = test_model_cls(hidden_size, hidden_size * 2)
+        model = test_model_cls(hidden_size)
 
         hidden_states = torch.randn((batch_size * seq_len, hidden_size), dtype=dtype)
-        residual = torch.randn((batch_size * seq_len, hidden_size), dtype=dtype)
 
-        compiled_model_no_func = torch.compile(model, backend=backend_no_func)
-        compiled_model_no_func(hidden_states, residual)
-        compiled_model_func = torch.compile(model, backend=backend_func)
-        compiled_model_func(hidden_states, residual)
+        if dynamic:
+            torch._dynamo.mark_dynamic(hidden_states, 0)
 
-        assert sequence_parallelism_pass.matched_count == 1
+        compiled_model = torch.compile(model, backend=backend)
+        compiled_model(hidden_states)
+
+        assert sequence_parallelism_pass.matched_count == 4
 
         # In pre-nodes, all reduce should be there,
         # reduce scatter and all gather should not
-        backend_no_func.check_before_ops(model.ops_in_model_before())
+        for op in model.ops_in_model_before():
+            assert backend.op_count(op, before=True) == 4
 
         # In post-nodes, reduce scatter and all gather should be there,
         # all reduce should not
-        backend_no_func.check_after_ops(model.ops_in_model_after())
+        for op in model.ops_in_model_after():
+            assert backend.op_count(op, before=False) == 4
 
-        # check if the functionalization pass is applied
         for op in model.ops_in_model():
-            find_auto_fn(backend_no_func.graph_post_pass.nodes, op)
-            assert find_auto_fn_maybe(backend_func.graph_post_pass.nodes, op) is None
-
-        # make sure the ops were all de-functionalized
-        found = dict()
-        for node in backend_func.graph_post_pass.nodes:
-            for op in model.ops_in_model():
-                if is_func(node, op):
-                    found[op] = True
-        assert all(found[op] for op in model.ops_in_model())
+            find_auto_fn(backend.graph_post_pass.nodes, op)
diff --git a/tests/distributed/test_sequence_parallel.py b/tests/distributed/test_sequence_parallel.py
index 94b2b51211a64..f38c509775ed5 100644
--- a/tests/distributed/test_sequence_parallel.py
+++ b/tests/distributed/test_sequence_parallel.py
@@ -18,6 +18,7 @@ import pytest
 from vllm.config.compilation import CompilationMode
 from vllm.config.model import RunnerOption
 from vllm.logger import init_logger
+from vllm.platforms import current_platform
 from vllm.utils.torch_utils import is_torch_equal_or_newer
 
 from ..models.registry import HF_EXAMPLE_MODELS
@@ -161,6 +162,7 @@ def _compare_sp(
     test_options: SPTestOptions,
     num_gpus_available: int,
     use_inductor_graph_partition: bool,
+    enable_async_tp: bool,
     *,
     method: Literal["generate", "encode"],
     is_multimodal: bool,
@@ -244,10 +246,10 @@ def _compare_sp(
 
     compilation_config = {
         "mode": CompilationMode.VLLM_COMPILE,
-        "custom_ops": ["+rms_norm"],
         "compile_sizes": [4, 8],
         "pass_config": {
             "enable_sequence_parallelism": True,
+            "enable_async_tp": enable_async_tp,
             "enable_fusion": enable_fusion,
             "enable_noop": True,
         },
@@ -307,6 +309,7 @@ SP_TEST_MODELS = [
     ],
 )
 @pytest.mark.parametrize("use_inductor_graph_partition", [True, False])
+@pytest.mark.parametrize("enable_async_tp", [False])  # TODO: enable async TP
 @create_new_process_for_each_test()
 def test_tp_sp_generation(
     model_id: str,
@@ -316,10 +319,19 @@ def test_tp_sp_generation(
     test_options: SPTestOptions,
     num_gpus_available,
     use_inductor_graph_partition: bool,
+    enable_async_tp: bool,
 ):
     if use_inductor_graph_partition and not is_torch_equal_or_newer("2.9.0.dev"):
         pytest.skip("inductor graph partition is only available in PyTorch 2.9+")
 
+    # Skip FP8 SP-only test on sm89 (compute capability 8.9)
+    if (
+        "fp8" in model_id.lower()
+        and current_platform.get_device_capability() < (9, 0)
+        and (not enable_async_tp)
+    ):
+        pytest.skip("FP8 reduction support begins with sm90 capable devices.")
+
     _compare_sp(
         model_id,
         parallel_setup,
@@ -328,6 +340,7 @@ def test_tp_sp_generation(
         test_options,
         num_gpus_available,
         use_inductor_graph_partition,
+        enable_async_tp=enable_async_tp,
         method="generate",
         is_multimodal=False,
     )
diff --git a/vllm/compilation/sequence_parallelism.py b/vllm/compilation/sequence_parallelism.py
index 31624a8fdcc0f..bb4dcf12d865d 100644
--- a/vllm/compilation/sequence_parallelism.py
+++ b/vllm/compilation/sequence_parallelism.py
@@ -1,6 +1,8 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
+import functools
+
 import torch
 import torch._inductor.pattern_matcher as pm
 import torch.fx as fx
@@ -10,98 +12,28 @@ from vllm.config import VllmConfig
 from vllm.distributed import get_tp_group, tensor_model_parallel_all_reduce
 from vllm.distributed.parallel_state import get_tensor_model_parallel_world_size
 from vllm.logger import init_logger
+from vllm.model_executor.layers.quantization.utils.quant_utils import (
+    kFp8StaticTensorSym,
+)
 from vllm.platforms import current_platform
 
 from .inductor_pass import enable_fake_mode
+from .matcher_utils import MatcherFusedAddRMSNorm, MatcherQuantFP8, MatcherRMSNorm
+from .noop_elimination import NoOpEliminationPass
 from .vllm_inductor_pass import VllmInductorPass, VllmPatternMatcherPass
 
 logger = init_logger(__name__)
 
 
-class _RMSNormAndQuantOpHelper:
-    """Base helper for RMSNorm and RMSNorm + Quantization functionalization."""
+def get_first_out_wrapper(fn):
+    @functools.wraps(fn)
+    def wrapper(*args):
+        return fn(*args)[0]
 
-    def __init__(
-        self,
-        epsilon: float,
-        dtype: torch.dtype,
-        device: str,
-        quant_op: torch._ops.OpOverload | None = None,
-        **kwargs,
-    ):
-        self.epsilon = epsilon
-        self.dtype = dtype
-        self.device = device
-        self.quant_op = quant_op
-
-    def _functional_rmsnorm(self, result_buffer, input_tensor, weight_tensor):
-        return torch.ops.higher_order.auto_functionalized(
-            torch.ops._C.rms_norm.default,
-            result=result_buffer,
-            input=input_tensor,
-            weight=weight_tensor,
-            epsilon=self.epsilon,
-        )
-
-    def _functional_fused_add_rmsnorm(
-        self, input_tensor, residual_tensor, weight_tensor
-    ):
-        return torch.ops.higher_order.auto_functionalized(
-            torch.ops._C.fused_add_rms_norm.default,
-            input=input_tensor,
-            residual=residual_tensor,
-            weight=weight_tensor,
-            epsilon=self.epsilon,
-        )
-
-    def _functional_rmsnorm_then_quant(
-        self,
-        rmsnorm_result_buffer,
-        quant_result_buffer,
-        input_tensor,
-        weight_tensor,
-        scale_tensor,
-    ):
-        if self.quant_op is None:
-            raise RuntimeError(
-                "_RMSNormAndQuantOpHelper was not initialized with a quant_op."
-            )
-        rmsnorm_out_tuple = self._functional_rmsnorm(
-            rmsnorm_result_buffer, input_tensor, weight_tensor
-        )
-        quant_out_tuple = torch.ops.higher_order.auto_functionalized(
-            self.quant_op,
-            result=quant_result_buffer,
-            input=rmsnorm_out_tuple[1],
-            scale=scale_tensor,
-        )
-        return quant_out_tuple
-
-    def _functional_fused_add_rmsnorm_then_quant(
-        self,
-        quant_result_buffer,
-        input_tensor,
-        residual_tensor,
-        weight_tensor,
-        scale_tensor,
-    ):
-        if self.quant_op is None:
-            raise RuntimeError(
-                "_RMSNormAndQuantOpHelper was not initialized with a quant_op."
-            )
-        fused_add_rmsnorm_out_tuple = self._functional_fused_add_rmsnorm(
-            input_tensor, residual_tensor, weight_tensor
-        )
-        quant_out_tuple = torch.ops.higher_order.auto_functionalized(
-            self.quant_op,
-            result=quant_result_buffer,
-            input=fused_add_rmsnorm_out_tuple[1],
-            scale=scale_tensor,
-        )
-        return quant_out_tuple, fused_add_rmsnorm_out_tuple[2]
+    return wrapper
 
 
-class _SequenceParallelPatternHelper(_RMSNormAndQuantOpHelper):
+class _SequenceParallelPatternHelper:
     """Helper for sequence parallelism patterns."""
 
     def __init__(
@@ -109,10 +41,10 @@ class _SequenceParallelPatternHelper(_RMSNormAndQuantOpHelper):
         epsilon: float,
         dtype: torch.dtype,
         device: str,
-        quant_op: torch._ops.OpOverload | None = None,
-        **kwargs,
     ):
-        super().__init__(epsilon, dtype, device, quant_op=quant_op, **kwargs)
+        self.epsilon = epsilon
+        self.dtype = dtype
+        self.device = device
         self.tp_group = get_tp_group()
         self.tp_size = get_tensor_model_parallel_world_size()
 
@@ -131,36 +63,34 @@ class _SequenceParallelPatternHelper(_RMSNormAndQuantOpHelper):
 
 
 class FirstAllReduceRMSNormPattern(_SequenceParallelPatternHelper):
+    def __init__(self, epsilon: float, dtype: torch.dtype, device: str):
+        super().__init__(epsilon, dtype, device)
+        self.rmsnorm_matcher = MatcherRMSNorm(epsilon)
+
     def get_inputs(self):
         input = torch.empty([1, 8, 4], device=self.device, dtype=self.dtype)
-        permute = torch.empty([1, 8, 4], device=self.device, dtype=self.dtype)
         arg3_1 = torch.empty([4], device=self.device, dtype=self.dtype)
 
-        return [input, permute, arg3_1]
+        return [input, arg3_1]
 
     def register(self, pm_pass: PatternMatcherPass):
         def pattern(
             input: torch.Tensor,
-            permute: torch.Tensor,
             arg3_1: torch.Tensor,
         ):
             all_reduce = self._all_reduce(input)
-            rmsnorm = self._functional_rmsnorm(permute, all_reduce, arg3_1)
+            rmsnorm = self.rmsnorm_matcher(all_reduce, arg3_1)
 
-            return rmsnorm[1], all_reduce
+            return rmsnorm, all_reduce
 
         def replacement(
             input: torch.Tensor,
-            permute: torch.Tensor,
             arg3_1: torch.Tensor,
         ):
             reduce_scatter = self._reduce_scatter(input)
 
-            rmsnorm_result = torch.empty_like(reduce_scatter)
-            rmsnorm = self._functional_rmsnorm(rmsnorm_result, reduce_scatter, arg3_1)
-
-            all_gather = self._all_gather(rmsnorm[1])
-
+            rmsnorm = self.rmsnorm_matcher(reduce_scatter, arg3_1)
+            all_gather = self._all_gather(rmsnorm)
             return all_gather, reduce_scatter
 
         pm.register_replacement(
@@ -169,6 +99,10 @@ class FirstAllReduceRMSNormPattern(_SequenceParallelPatternHelper):
 
 
 class MiddleAllReduceRMSNormPattern(_SequenceParallelPatternHelper):
+    def __init__(self, epsilon: float, dtype: torch.dtype, device: str):
+        super().__init__(epsilon, dtype, device)
+        self.rmsnorm_matcher = MatcherFusedAddRMSNorm(epsilon)
+
     def get_inputs(self):
         mm_1 = torch.empty([4, 4], device=self.device, dtype=self.dtype)
 
@@ -188,67 +122,34 @@ class MiddleAllReduceRMSNormPattern(_SequenceParallelPatternHelper):
             rms_norm_weights: torch.Tensor,
         ) -> tuple[torch.Tensor, torch.Tensor]:
             all_reduce = self._all_reduce(mm_1)
-            rmsnorm = self._functional_fused_add_rmsnorm(
-                all_reduce, residual, rms_norm_weights
-            )
-            return rmsnorm[1], rmsnorm[2]
+            rmsnorm = self.rmsnorm_matcher(all_reduce, rms_norm_weights, residual)
+            return rmsnorm[0], rmsnorm[1]
 
         def replacement(
             residual: torch.Tensor,
             mm_1: torch.Tensor,
             rms_norm_weights: torch.Tensor,
         ) -> tuple[torch.Tensor, torch.Tensor]:
+            # pattern matcher replaces from top-to-bottom,
+            # so residual is still the full size here.
+            # once the seqpar pattern with the previous rmsnorm is replaced
             reduce_scatter = self._reduce_scatter(mm_1)
-            rmsnorm = self._functional_fused_add_rmsnorm(
-                reduce_scatter, residual, rms_norm_weights
-            )
-            all_gather = self._all_gather(rmsnorm[1])
-            return all_gather, rmsnorm[2]
+            residual = residual[0 : reduce_scatter.size(0), ...]
+            rmsnorm = self.rmsnorm_matcher(reduce_scatter, rms_norm_weights, residual)
+            all_gather = self._all_gather(rmsnorm[0])
+            # shape of residual changes but that's fine,
+            # next node is already slicing it, now becomes a noop
+            return all_gather, rmsnorm[1]
 
         pm.register_replacement(
             pattern, replacement, self.get_inputs(), pm.fwd_only, pm_pass
         )
-
-
-class LastAllReduceRMSNormPattern(_SequenceParallelPatternHelper):
-    def get_inputs(self):
-        mm_1 = torch.empty([4, 4], device=self.device, dtype=self.dtype)
-
-        residual = torch.empty([4, 4], device=self.device, dtype=self.dtype)
-        rms_norm_weights = torch.empty([4, 4], device=self.device, dtype=self.dtype)
-
-        return [
-            residual,
-            mm_1,
-            rms_norm_weights,
-        ]
-
-    def register(self, pm_pass: PatternMatcherPass):
-        def pattern(
-            residual: torch.Tensor,
-            mm_1: torch.Tensor,
-            rms_norm_weights: torch.Tensor,
-        ) -> tuple[torch.Tensor, torch.Tensor]:
-            all_reduce = self._all_reduce(mm_1)
-            rmsnorm = self._functional_fused_add_rmsnorm(
-                all_reduce, residual, rms_norm_weights
-            )
-            return rmsnorm[1]
-
-        def replacement(
-            residual: torch.Tensor,
-            mm_1: torch.Tensor,
-            rms_norm_weights: torch.Tensor,
-        ) -> tuple[torch.Tensor, torch.Tensor]:
-            reduce_scatter = self._reduce_scatter(mm_1)
-            rmsnorm = self._functional_fused_add_rmsnorm(
-                reduce_scatter, residual, rms_norm_weights
-            )
-            normalized = self._all_gather(rmsnorm[1])
-            return normalized
-
         pm.register_replacement(
-            pattern, replacement, self.get_inputs(), pm.fwd_only, pm_pass
+            get_first_out_wrapper(pattern),
+            get_first_out_wrapper(replacement),
+            self.get_inputs(),
+            pm.fwd_only,
+            pm_pass,
         )
 
 
@@ -257,52 +158,41 @@ FP8_DTYPE = current_platform.fp8_dtype()
 
 class FirstAllReduceRMSNormStaticFP8Pattern(_SequenceParallelPatternHelper):
     def __init__(
-        self, epsilon: float, dtype: torch.dtype, device: str, op: torch._ops.OpOverload
+        self,
+        epsilon: float,
+        dtype: torch.dtype,
+        device: str,
     ):
-        super().__init__(epsilon, dtype, device, quant_op=op)
+        super().__init__(epsilon, dtype, device)
+        self.rmsnorm_matcher = MatcherRMSNorm(epsilon)
+        self.quant_matcher = MatcherQuantFP8(kFp8StaticTensorSym)
 
     def get_inputs(self):
         input = torch.zeros([1, 8, 4], device=self.device, dtype=self.dtype)
-        rmsnorm_result = torch.empty([1, 8, 4], device=self.device, dtype=self.dtype)
-        quant_result = torch.empty([1, 8, 4], device=self.device, dtype=FP8_DTYPE)
         weight = torch.empty([4], device=self.device, dtype=self.dtype)
         scale = torch.tensor(1.0, device=self.device, dtype=torch.float32)
-        return [input, rmsnorm_result, quant_result, weight, scale]
+        return [input, weight, scale]
 
     def register(self, pm_pass: PatternMatcherPass):
         def pattern(
             input: torch.Tensor,
-            rmsnorm_result: torch.Tensor,
-            quant_result: torch.Tensor,
             weight: torch.Tensor,
             scale: torch.Tensor,
         ):
             all_reduce = self._all_reduce(input)
-            static_fp8 = self._functional_rmsnorm_then_quant(
-                rmsnorm_result, quant_result, all_reduce, weight, scale
-            )
-            return static_fp8[1], all_reduce
+            rms = self.rmsnorm_matcher(all_reduce, weight)
+            quant, _ = self.quant_matcher(rms, scale)
+            return quant, all_reduce
 
         def replacement(
             input: torch.Tensor,
-            rmsnorm_result: torch.Tensor,
-            quant_result: torch.Tensor,
             weight: torch.Tensor,
             scale: torch.Tensor,
         ):
             reduce_scatter = self._reduce_scatter(input)
-
-            rmsnorm_result = torch.empty_like(
-                reduce_scatter, dtype=rmsnorm_result.dtype
-            )
-            quant_result = torch.empty_like(
-                rmsnorm_result,  # Output of RMSNorm
-                dtype=quant_result.dtype,
-            )
-            static_fp8 = self._functional_rmsnorm_then_quant(
-                rmsnorm_result, quant_result, reduce_scatter, weight, scale
-            )
-            all_gather = self._all_gather(static_fp8[1])
+            rms = self.rmsnorm_matcher(reduce_scatter, weight)
+            quant, _ = self.quant_matcher(rms, scale)
+            all_gather = self._all_gather(quant)
 
             return all_gather, reduce_scatter
 
@@ -312,118 +202,64 @@ class FirstAllReduceRMSNormStaticFP8Pattern(_SequenceParallelPatternHelper):
 
 
 class MiddleAllReduceRMSNormStaticFP8Pattern(_SequenceParallelPatternHelper):
-    def __init__(
-        self, epsilon: float, dtype: torch.dtype, device: str, op: torch._ops.OpOverload
-    ):
-        super().__init__(epsilon, dtype, device, quant_op=op)
+    def __init__(self, epsilon: float, dtype: torch.dtype, device: str):
+        super().__init__(epsilon, dtype, device)
+        self.rmsnorm_matcher = MatcherFusedAddRMSNorm(epsilon)
+        self.quant_matcher = MatcherQuantFP8(kFp8StaticTensorSym)
 
     def get_inputs(self):
         mm_1 = torch.empty([4, 4], device=self.device, dtype=self.dtype)
-
         residual = torch.empty([4, 4], device=self.device, dtype=self.dtype)
         rms_norm_weights = torch.empty([4, 4], device=self.device, dtype=self.dtype)
-        result = torch.empty([4, 4], device=self.device, dtype=FP8_DTYPE)
         scale = torch.empty([1, 1], device=self.device, dtype=torch.float32)
 
-        return [
-            result,
-            residual,
-            mm_1,
-            rms_norm_weights,
-            scale,
-        ]
+        return [residual, mm_1, rms_norm_weights, scale]
 
     def register(self, pm_pass: PatternMatcherPass):
         def pattern(
-            result: torch.Tensor,
             residual: torch.Tensor,
             mm_1: torch.Tensor,
             rms_norm_weights: torch.Tensor,
             scale: torch.Tensor,
         ) -> tuple[torch.Tensor, torch.Tensor]:
             all_reduce = self._all_reduce(mm_1)
-            static_fp8, rmsnorm_residual_out = (
-                self._functional_fused_add_rmsnorm_then_quant(  # noqa: E501
-                    result, all_reduce, residual, rms_norm_weights, scale
-                )
+            rms, residual_out = self.rmsnorm_matcher(
+                all_reduce, rms_norm_weights, residual
             )
-            return static_fp8[1], rmsnorm_residual_out
+            quant, _ = self.quant_matcher(rms, scale)
+            return quant, residual_out
 
         def replacement(
-            result: torch.Tensor,
             residual: torch.Tensor,
             mm_1: torch.Tensor,
             rms_norm_weights: torch.Tensor,
             scale: torch.Tensor,
         ) -> tuple[torch.Tensor, torch.Tensor]:
+            # pattern matcher replaces from top-to-bottom,
+            # so residual is still the full size here.
+            # add a temporary slice which will become a noop
+            # once the seqpar pattern with the previous rmsnorm is replaced
             reduce_scatter = self._reduce_scatter(mm_1)
-            quant_result_buf = torch.empty_like(reduce_scatter, dtype=result.dtype)
-            static_fp8, rmsnorm_residual_out = (
-                self._functional_fused_add_rmsnorm_then_quant(  # noqa: E501
-                    quant_result_buf, reduce_scatter, residual, rms_norm_weights, scale
-                )
+            residual = residual[0 : reduce_scatter.size(0), ...]
+            rms, residual_out = self.rmsnorm_matcher(
+                reduce_scatter, rms_norm_weights, residual
             )
-            all_gather = self._all_gather(static_fp8[1])
-            return all_gather, rmsnorm_residual_out
+            quant, _ = self.quant_matcher(rms, scale)
+            all_gather = self._all_gather(quant)
+            # shape of residual changes but that's fine,
+            # next node is already slicing it, now becomes a noop
+            return all_gather, residual_out
 
         pm.register_replacement(
             pattern, replacement, self.get_inputs(), pm.fwd_only, pm_pass
         )
 
-
-class LastAllReduceRMSNormStaticFP8Pattern(_SequenceParallelPatternHelper):
-    def __init__(
-        self, epsilon: float, dtype: torch.dtype, device: str, op: torch._ops.OpOverload
-    ):
-        super().__init__(epsilon, dtype, device, quant_op=op)
-
-    def get_inputs(self):
-        mm_1 = torch.empty([4, 4], device=self.device, dtype=self.dtype)
-
-        residual = torch.empty([4, 4], device=self.device, dtype=self.dtype)
-        rms_norm_weights = torch.empty([4, 4], device=self.device, dtype=self.dtype)
-        result = torch.empty([4, 4], device=self.device, dtype=FP8_DTYPE)
-        scale = torch.empty([1, 1], device=self.device, dtype=torch.float32)
-
-        return [
-            result,
-            residual,
-            mm_1,
-            rms_norm_weights,
-            scale,
-        ]
-
-    def register(self, pm_pass: PatternMatcherPass):
-        def pattern(
-            result: torch.Tensor,
-            residual: torch.Tensor,
-            mm_1: torch.Tensor,
-            rms_norm_weights: torch.Tensor,
-            scale: torch.Tensor,
-        ) -> tuple[torch.Tensor, torch.Tensor]:
-            all_reduce = self._all_reduce(mm_1)
-            static_fp8, _ = self._functional_fused_add_rmsnorm_then_quant(
-                result, all_reduce, residual, rms_norm_weights, scale
-            )
-            return static_fp8[1]
-
-        def replacement(
-            result: torch.Tensor,
-            residual: torch.Tensor,
-            mm_1: torch.Tensor,
-            rms_norm_weights: torch.Tensor,
-            scale: torch.Tensor,
-        ) -> tuple[torch.Tensor, torch.Tensor]:
-            reduce_scatter = self._reduce_scatter(mm_1)
-            quant_result_buf = torch.empty_like(reduce_scatter, dtype=result.dtype)
-            static_fp8, _ = self._functional_fused_add_rmsnorm_then_quant(
-                quant_result_buf, reduce_scatter, residual, rms_norm_weights, scale
-            )
-            normalized = self._all_gather(static_fp8[1])
-            return normalized
-
         pm.register_replacement(
-            pattern, replacement, self.get_inputs(), pm.fwd_only, pm_pass
+            get_first_out_wrapper(pattern),
+            get_first_out_wrapper(replacement),
+            self.get_inputs(),
+            pm.fwd_only,
+            pm_pass,
         )
 
 
@@ -445,27 +281,45 @@ class SequenceParallelismPass(VllmPatternMatcherPass):
     GEMM + ReduceScatter and AllGather + GEMM fusions. These fusions can
     significantly reduce communication overhead and improve overall model
     performance.
+
+
+    This pass splits up the residual tensor across TP ranks and hence divides its size.
+    Because the pattern matcher starts at the end of the graph, the replacement
+    contains a slice that temporarily conforms the input residual to the correct size.
+    After all patterns have been matched, we use a NoOpEliminationPass to clean up
+    what have now become no-op slices.
+
+    Note that an older version of the pass did not need this as it operated only on
+    custom rms_norm and fused_rms_norm_add custom ops which did not complain about
+    mismatched shapes during replacement. So this approach has the same assumption that
+    correctness is only maintained if all rms_norm operations are split across ranks.
+
+    Correctness-wise, this is approach strictly better than before - before,
+    the graph was incorrect semantically and shape-wise during the pass.
+    With this approach there's only semantic incorrectness during the pass.
+    Both approaches restore a correct graph once all patterns are matched.
     """
 
     @enable_fake_mode
     def __init__(self, config: VllmConfig):
         super().__init__(config)
 
+        # Used to cleanup redundant views created temporarily
+        # to circumvent residual shape change issues
+        self.noop_cleanup = NoOpEliminationPass(config)
+        self.noop_cleanup.pass_name = f"{self.pass_name}.{self.noop_cleanup.pass_name}"
+
         self.patterns: PatternMatcherPass = PatternMatcherPass(
             pass_name="sequence_parallelism_pass"
         )
 
         for epsilon in [1e-5, 1e-6]:
             # RMSNorm + Static FP8 quantization patterns
-            fp8_quant_op = torch.ops._C.static_scaled_fp8_quant.default
             FirstAllReduceRMSNormStaticFP8Pattern(
-                epsilon, self.model_dtype, self.device, fp8_quant_op
+                epsilon, self.model_dtype, self.device
             ).register(self.patterns)
             MiddleAllReduceRMSNormStaticFP8Pattern(
-                epsilon, self.model_dtype, self.device, fp8_quant_op
-            ).register(self.patterns)
-            LastAllReduceRMSNormStaticFP8Pattern(
-                epsilon, self.model_dtype, self.device, fp8_quant_op
+                epsilon, self.model_dtype, self.device
             ).register(self.patterns)
 
             # Normal RMSNorm patterns
@@ -477,9 +331,6 @@ class SequenceParallelismPass(VllmPatternMatcherPass):
                 epsilon, self.model_dtype, self.device
             ).register(self.patterns)
 
-            LastAllReduceRMSNormPattern(
-                epsilon, self.model_dtype, self.device
-            ).register(self.patterns)
         self.dump_patterns(config, self.patterns)
 
     def is_applicable(self, shape: int | None) -> bool:
@@ -508,3 +359,5 @@ class SequenceParallelismPass(VllmPatternMatcherPass):
     def __call__(self, graph: fx.Graph):
         self.matched_count = self.patterns.apply(graph)
         logger.debug("Replaced %s patterns", self.matched_count)
+        # Clean up reshape nodes
+        self.noop_cleanup(graph)
diff --git a/vllm/config/vllm.py b/vllm/config/vllm.py
index 87f6b6eed851b..bd98be48588f8 100644
--- a/vllm/config/vllm.py
+++ b/vllm/config/vllm.py
@@ -445,8 +445,6 @@ class VllmConfig:
         # and requires it to be enabled.
         if self.compilation_config.pass_config.enable_async_tp:
             self.compilation_config.pass_config.enable_sequence_parallelism = True
-        if self.compilation_config.pass_config.enable_sequence_parallelism:
-            self.compilation_config.custom_ops.append("+rms_norm")
 
         if current_platform.support_static_graph_mode():
             # if cudagraph_mode is not explicitly set by users, set default
@@ -620,6 +618,32 @@ class VllmConfig:
         if self.compilation_config.mode == CompilationMode.VLLM_COMPILE:
             self.compilation_config.set_splitting_ops_for_v1()
 
+        if self.compilation_config.pass_config.enable_sequence_parallelism:
+            # With pipeline parallelism or dynamo partitioning,
+            # native rms norm tracing errors due to incorrect residual shape.
+            # Use custom rms norm to unblock. In the future,
+            # the pass will operate on higher-level IR to avoid the issue.
+            # TODO: https://github.com/vllm-project/vllm/issues/27894
+            is_fullgraph = (
+                self.compilation_config.use_inductor_graph_partition
+                or len(self.compilation_config.splitting_ops) == 0
+            )
+            if self.parallel_config.pipeline_parallel_size > 1 or not is_fullgraph:
+                if "-rms_norm" not in self.compilation_config.custom_ops:
+                    self.compilation_config.custom_ops.append("+rms_norm")
+                else:
+                    regime = (
+                        "Dynamo partition"
+                        if not is_fullgraph
+                        else "pipeline parallelism"
+                    )
+                    logger.warning_once(
+                        "Sequence parallelism not supported with"
+                        "native rms_norm when using %s, "
+                        "this will likely lead to an error.",
+                        regime,
+                    )
+
         # final check of cudagraph mode after all possible updates
         if current_platform.is_cuda_alike():
             if (

From cb15ee28db037cff93a32aa237c862fc949824ce Mon Sep 17 00:00:00 2001
From: tingtinggithub <streamttt@gmail.com>
Date: Sat, 15 Nov 2025 04:18:08 -0800
Subject: [PATCH 496/976] Allow Gemma3 to take image embeddings (#28483)

Signed-off-by: tingtinggithub <streamttt@gmail.com>
---
 docs/models/supported_models.md         |  2 +-
 vllm/model_executor/models/gemma3_mm.py | 77 ++++++++++++++++++-------
 vllm/multimodal/parse.py                | 11 ++--
 vllm/v1/engine/processor.py             |  8 ++-
 4 files changed, 69 insertions(+), 29 deletions(-)

diff --git a/docs/models/supported_models.md b/docs/models/supported_models.md
index 9cdf644c3cc52..6eb0947fe5681 100644
--- a/docs/models/supported_models.md
+++ b/docs/models/supported_models.md
@@ -669,7 +669,7 @@ These models primarily accept the [`LLM.generate`](./generative_models.md#llmgen
 | `DeepseekOCRForCausalLM` | DeepSeek-OCR | T + I<sup>+</sup> | `deepseek-ai/DeepSeek-OCR`, etc. | | ✅︎ |
 | `Ernie4_5_VLMoeForConditionalGeneration` | Ernie4.5-VL | T + I<sup>+</sup>/ V<sup>+</sup> | `baidu/ERNIE-4.5-VL-28B-A3B-PT`, `baidu/ERNIE-4.5-VL-424B-A47B-PT` | | ✅︎ |
 | `FuyuForCausalLM` | Fuyu | T + I | `adept/fuyu-8b`, etc. | | ✅︎ |
-| `Gemma3ForConditionalGeneration` | Gemma 3 | T + I<sup>+</sup> | `google/gemma-3-4b-it`, `google/gemma-3-27b-it`, etc. | ✅︎ | ✅︎ |
+| `Gemma3ForConditionalGeneration` | Gemma 3 | T + I<sup>E+</sup> | `google/gemma-3-4b-it`, `google/gemma-3-27b-it`, etc. | ✅︎ | ✅︎ |
 | `Gemma3nForConditionalGeneration` | Gemma 3n | T + I + A | `google/gemma-3n-E2B-it`, `google/gemma-3n-E4B-it`, etc. | | |
 | `GLM4VForCausalLM`<sup>^</sup> | GLM-4V | T + I | `zai-org/glm-4v-9b`, `zai-org/cogagent-9b-20241220`, etc. | ✅︎ | ✅︎ |
 | `Glm4vForConditionalGeneration` | GLM-4.1V-Thinking | T + I<sup>E+</sup> + V<sup>E+</sup> | `zai-org/GLM-4.1V-9B-Thinking`, etc. | ✅︎ | ✅︎ |
diff --git a/vllm/model_executor/models/gemma3_mm.py b/vllm/model_executor/models/gemma3_mm.py
index 02fb7ef31dc94..8e2bbe8f7990c 100644
--- a/vllm/model_executor/models/gemma3_mm.py
+++ b/vllm/model_executor/models/gemma3_mm.py
@@ -2,7 +2,7 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 import math
 from collections.abc import Iterable, Mapping, Sequence
-from typing import Annotated, Any, Literal
+from typing import Annotated, Any, Literal, TypeAlias
 
 import torch
 from torch import nn
@@ -20,7 +20,12 @@ from vllm.multimodal.inputs import (
     MultiModalFieldConfig,
     MultiModalKwargsItems,
 )
-from vllm.multimodal.parse import ImageProcessorItems, ImageSize, MultiModalDataItems
+from vllm.multimodal.parse import (
+    ImageEmbeddingItems,
+    ImageProcessorItems,
+    ImageSize,
+    MultiModalDataItems,
+)
 from vllm.multimodal.processing import (
     BaseMultiModalProcessor,
     BaseProcessingInfo,
@@ -71,7 +76,15 @@ class Gemma3ImagePixelInputs(TensorSchema):
     num_patches: Annotated[torch.Tensor, TensorShape("bn")]
 
 
-Gemma3ImageInputs = Gemma3ImagePixelInputs
+class Gemma3ImageEmbeddingInputs(TensorSchema):
+    type: Literal["image_embeds"] = "image_embeds"
+    image_embeds: Annotated[
+        torch.Tensor,
+        TensorShape("ni", "nf", "hs"),
+    ]
+
+
+Gemma3ImageInputs: TypeAlias = Gemma3ImagePixelInputs | Gemma3ImageEmbeddingInputs
 
 
 class Gemma3ProcessingInfo(BaseProcessingInfo):
@@ -178,8 +191,9 @@ class Gemma3ProcessingInfo(BaseProcessingInfo):
     def get_image_repl(
         self,
         *,
-        image_width: int,
-        image_height: int,
+        image_width: int | None,
+        image_height: int | None,
+        num_crops: int | None = None,
         processor: Gemma3Processor | None,
     ) -> PromptUpdateDetails[str]:
         if processor is None:
@@ -187,11 +201,13 @@ class Gemma3ProcessingInfo(BaseProcessingInfo):
 
         boi_token = processor.boi_token
 
-        num_crops = self.get_num_crops(
-            image_width=image_width,
-            image_height=image_height,
-            processor=processor,
-        )
+        if num_crops is None:
+            assert image_width is not None and image_height is not None
+            num_crops = self.get_num_crops(
+                image_width=image_width,
+                image_height=image_height,
+                processor=processor,
+            )
 
         if num_crops == 0:
             image_text = boi_token
@@ -321,6 +337,7 @@ class Gemma3MultiModalProcessor(BaseMultiModalProcessor[Gemma3ProcessingInfo]):
         return dict(
             pixel_values=MultiModalFieldConfig.flat_from_sizes("image", num_patches),
             num_patches=MultiModalFieldConfig.batched("image"),
+            image_embeds=MultiModalFieldConfig.batched("image"),
         )
 
     def _get_prompt_updates(
@@ -333,7 +350,19 @@ class Gemma3MultiModalProcessor(BaseMultiModalProcessor[Gemma3ProcessingInfo]):
         image_token = hf_processor.boi_token
 
         def get_replacement_gemma3(item_idx: int):
-            images = mm_items.get_items("image", ImageProcessorItems)
+            images = mm_items.get_items(
+                "image", (ImageEmbeddingItems, ImageProcessorItems)
+            )
+
+            if isinstance(images, ImageEmbeddingItems):
+                # For image embedding inputs, only support no crops cases
+                # since it's not supported in hf processor anyway
+                return self.info.get_image_repl(
+                    image_width=None,
+                    image_height=None,
+                    num_crops=0,
+                    processor=hf_processor,
+                )
 
             image_size = images.get_image_size(item_idx)
             return self.info.get_image_repl(
@@ -557,17 +586,19 @@ class Gemma3ForConditionalGeneration(
         pixel_values = kwargs.pop("pixel_values", None)
         num_patches = kwargs.pop("num_patches", None)
         image_embeds = kwargs.pop("image_embeds", None)
-        assert image_embeds is None, "Gemma3 does not support image_embeds."
-        if pixel_values is None:
-            return None
 
-        image_size = self.config.vision_config.image_size
-
-        return Gemma3ImagePixelInputs(
-            pixel_values=pixel_values,
-            num_patches=num_patches,
-            resolve_bindings={"h": image_size, "w": image_size},
-        )
+        if pixel_values is not None:
+            image_size = self.config.vision_config.image_size
+            return Gemma3ImagePixelInputs(
+                pixel_values=pixel_values,
+                num_patches=num_patches,
+                resolve_bindings={"h": image_size, "w": image_size},
+            )
+        elif image_embeds is not None:
+            return Gemma3ImageEmbeddingInputs(
+                image_embeds=image_embeds,
+                type="image_embeds",
+            )
 
     def _image_pixels_to_features(
         self,
@@ -579,7 +610,9 @@ class Gemma3ForConditionalGeneration(
     def _process_image_input(
         self,
         image_input: Gemma3ImageInputs,
-    ) -> list[torch.Tensor]:
+    ) -> torch.Tensor | list[torch.Tensor]:
+        if image_input["type"] == "image_embeds":
+            return image_input["image_embeds"]
         assert self.vision_tower is not None
 
         pixel_values = image_input["pixel_values"]
diff --git a/vllm/multimodal/parse.py b/vllm/multimodal/parse.py
index 2fa3f6ebcc114..810f29072a0fe 100644
--- a/vllm/multimodal/parse.py
+++ b/vllm/multimodal/parse.py
@@ -359,8 +359,9 @@ class MultiModalDataParser:
         )
         self.video_needs_metadata = video_needs_metadata
 
-    def _is_embeddings(
-        self, data: object
+    @classmethod
+    def is_embeddings(
+        cls, data: object
     ) -> TypeGuard[torch.Tensor | list[torch.Tensor]]:
         if isinstance(data, torch.Tensor):
             return data.ndim == 3
@@ -420,7 +421,7 @@ class MultiModalDataParser:
         ):
             return None
 
-        if self._is_embeddings(data):
+        if self.is_embeddings(data):
             return AudioEmbeddingItems(data)
 
         data_items: list[AudioItem]
@@ -458,7 +459,7 @@ class MultiModalDataParser:
         if self._is_empty(data):
             return None
 
-        if self._is_embeddings(data):
+        if self.is_embeddings(data):
             return ImageEmbeddingItems(data)
 
         if (
@@ -484,7 +485,7 @@ class MultiModalDataParser:
         if self._is_empty(data):
             return None
 
-        if self._is_embeddings(data):
+        if self.is_embeddings(data):
             return VideoEmbeddingItems(data)
 
         data_items: list[VideoItem]
diff --git a/vllm/v1/engine/processor.py b/vllm/v1/engine/processor.py
index 0404f6ff2771c..fffd075a51654 100644
--- a/vllm/v1/engine/processor.py
+++ b/vllm/v1/engine/processor.py
@@ -14,6 +14,7 @@ from vllm.lora.request import LoRARequest
 from vllm.multimodal import MULTIMODAL_REGISTRY, MultiModalRegistry
 from vllm.multimodal.cache import processor_cache_from_config
 from vllm.multimodal.inputs import MultiModalFeatureSpec, MultiModalUUIDDict
+from vllm.multimodal.parse import MultiModalDataParser
 from vllm.multimodal.processing import EncDecMultiModalProcessor
 from vllm.multimodal.utils import argsort_mm_positions
 from vllm.pooling_params import PoolingParams
@@ -340,7 +341,12 @@ class Processor:
 
         mm_uuids: dict[str, list[str | None] | str] = {}
         for modality, data in mm_data.items():
-            n = len(data) if isinstance(data, list) else 1
+            # Hash each item for embedding inputs.
+            n = (
+                len(data)
+                if isinstance(data, list) or MultiModalDataParser.is_embeddings(data)
+                else 1
+            )
             mm_uuids[modality] = [f"{request_id}-{modality}-{i}" for i in range(n)]
         return mm_uuids
 

From 89d3679221023fc18fd47df8fc426347fa9694e1 Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Sat, 15 Nov 2025 21:33:27 +0800
Subject: [PATCH 497/976] [Doc] Fix failing doc build (#28772)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 docs/README.md                         |  4 +-
 docs/cli/bench/latency.md              |  4 +-
 docs/cli/bench/serve.md                |  4 +-
 docs/cli/bench/sweep/plot.md           |  4 +-
 docs/cli/bench/sweep/serve.md          |  4 +-
 docs/cli/bench/sweep/serve_sla.md      |  4 +-
 docs/cli/bench/throughput.md           |  4 +-
 docs/cli/chat.md                       |  4 +-
 docs/cli/complete.md                   |  4 +-
 docs/cli/run-batch.md                  |  4 +-
 docs/cli/serve.md                      |  4 +-
 docs/configuration/serve_args.md       |  2 +-
 docs/mkdocs/hooks/generate_argparse.py | 77 ++++++++++++++++----------
 docs/usage/README.md                   |  2 +-
 14 files changed, 72 insertions(+), 53 deletions(-)

diff --git a/docs/README.md b/docs/README.md
index 0608794e7e650..0c279c19f96ca 100644
--- a/docs/README.md
+++ b/docs/README.md
@@ -30,8 +30,8 @@ Originally developed in the [Sky Computing Lab](https://sky.cs.berkeley.edu) at
 Where to get started with vLLM depends on the type of user. If you are looking to:
 
 - Run open-source models on vLLM, we recommend starting with the [Quickstart Guide](./getting_started/quickstart.md)
-- Build applications with vLLM, we recommend starting with the [User Guide](./usage)
-- Build vLLM, we recommend starting with [Developer Guide](./contributing)
+- Build applications with vLLM, we recommend starting with the [User Guide](./usage/README.md)
+- Build vLLM, we recommend starting with [Developer Guide](./contributing/README.md)
 
 For information about the development of vLLM, see:
 
diff --git a/docs/cli/bench/latency.md b/docs/cli/bench/latency.md
index 21ab13e63781a..ea7ea7321ffcd 100644
--- a/docs/cli/bench/latency.md
+++ b/docs/cli/bench/latency.md
@@ -4,6 +4,6 @@
 
 --8<-- "docs/cli/json_tip.inc.md"
 
-## Options
+## Arguments
 
---8<-- "docs/argparse/bench_latency.md"
+--8<-- "docs/argparse/bench_latency.inc.md"
diff --git a/docs/cli/bench/serve.md b/docs/cli/bench/serve.md
index f7c415c6becb5..f7dc8036cc262 100644
--- a/docs/cli/bench/serve.md
+++ b/docs/cli/bench/serve.md
@@ -4,6 +4,6 @@
 
 --8<-- "docs/cli/json_tip.inc.md"
 
-## Options
+## Arguments
 
---8<-- "docs/argparse/bench_serve.md"
+--8<-- "docs/argparse/bench_serve.inc.md"
diff --git a/docs/cli/bench/sweep/plot.md b/docs/cli/bench/sweep/plot.md
index f29bffb64655c..a101330e093cc 100644
--- a/docs/cli/bench/sweep/plot.md
+++ b/docs/cli/bench/sweep/plot.md
@@ -4,6 +4,6 @@
 
 --8<-- "docs/cli/json_tip.inc.md"
 
-## Options
+## Arguments
 
---8<-- "docs/argparse/bench_sweep_plot.md"
+--8<-- "docs/argparse/bench_sweep_plot.inc.md"
diff --git a/docs/cli/bench/sweep/serve.md b/docs/cli/bench/sweep/serve.md
index 5b5f91a951ed0..f0468f06fc287 100644
--- a/docs/cli/bench/sweep/serve.md
+++ b/docs/cli/bench/sweep/serve.md
@@ -4,6 +4,6 @@
 
 --8<-- "docs/cli/json_tip.inc.md"
 
-## Options
+## Arguments
 
---8<-- "docs/argparse/bench_sweep_serve.md"
+--8<-- "docs/argparse/bench_sweep_serve.inc.md"
diff --git a/docs/cli/bench/sweep/serve_sla.md b/docs/cli/bench/sweep/serve_sla.md
index 5f8ab6005e50b..5642ec67eb007 100644
--- a/docs/cli/bench/sweep/serve_sla.md
+++ b/docs/cli/bench/sweep/serve_sla.md
@@ -4,6 +4,6 @@
 
 --8<-- "docs/cli/json_tip.inc.md"
 
-## Options
+## Arguments
 
---8<-- "docs/argparse/bench_sweep_serve_sla.md"
+--8<-- "docs/argparse/bench_sweep_serve_sla.inc.md"
diff --git a/docs/cli/bench/throughput.md b/docs/cli/bench/throughput.md
index e4ff5ce43c9ce..e7f618fb4d147 100644
--- a/docs/cli/bench/throughput.md
+++ b/docs/cli/bench/throughput.md
@@ -4,6 +4,6 @@
 
 --8<-- "docs/cli/json_tip.inc.md"
 
-## Options
+## Arguments
 
---8<-- "docs/argparse/bench_throughput.md"
+--8<-- "docs/argparse/bench_throughput.inc.md"
diff --git a/docs/cli/chat.md b/docs/cli/chat.md
index b006cb8de60d0..0246bd431b101 100644
--- a/docs/cli/chat.md
+++ b/docs/cli/chat.md
@@ -1,5 +1,5 @@
 # vllm chat
 
-## Options
+## Arguments
 
---8<-- "docs/argparse/chat.md"
+--8<-- "docs/argparse/chat.inc.md"
diff --git a/docs/cli/complete.md b/docs/cli/complete.md
index 400359acf4fb8..eb2ffdaabac25 100644
--- a/docs/cli/complete.md
+++ b/docs/cli/complete.md
@@ -1,5 +1,5 @@
 # vllm complete
 
-## Options
+## Arguments
 
---8<-- "docs/argparse/complete.md"
+--8<-- "docs/argparse/complete.inc.md"
diff --git a/docs/cli/run-batch.md b/docs/cli/run-batch.md
index f7d401b8dad2b..758fbda283978 100644
--- a/docs/cli/run-batch.md
+++ b/docs/cli/run-batch.md
@@ -4,6 +4,6 @@
 
 --8<-- "docs/cli/json_tip.inc.md"
 
-## Options
+## Arguments
 
---8<-- "docs/argparse/run-batch.md"
+--8<-- "docs/argparse/run-batch.inc.md"
diff --git a/docs/cli/serve.md b/docs/cli/serve.md
index 2c8f9d320f5df..35652fec587b3 100644
--- a/docs/cli/serve.md
+++ b/docs/cli/serve.md
@@ -4,6 +4,6 @@
 
 --8<-- "docs/cli/json_tip.inc.md"
 
-## Options
+## Arguments
 
---8<-- "docs/argparse/serve.md"
+--8<-- "docs/argparse/serve.inc.md"
diff --git a/docs/configuration/serve_args.md b/docs/configuration/serve_args.md
index c1cc5577bc7ab..baaf21f01f066 100644
--- a/docs/configuration/serve_args.md
+++ b/docs/configuration/serve_args.md
@@ -5,7 +5,7 @@ The `vllm serve` command is used to launch the OpenAI-compatible server.
 ## CLI Arguments
 
 The `vllm serve` command is used to launch the OpenAI-compatible server.
-To see the available options, take a look at the [CLI Reference](../cli/README.md#options)!
+To see the available options, take a look at the [CLI Reference](../cli/README.md)!
 
 ## Configuration file
 
diff --git a/docs/mkdocs/hooks/generate_argparse.py b/docs/mkdocs/hooks/generate_argparse.py
index ce1c5c53cf35a..735074c08b8c8 100644
--- a/docs/mkdocs/hooks/generate_argparse.py
+++ b/docs/mkdocs/hooks/generate_argparse.py
@@ -1,12 +1,15 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
-import importlib
+import importlib.metadata
+import importlib.util
 import logging
 import sys
 import traceback
-from argparse import SUPPRESS, HelpFormatter
+from argparse import SUPPRESS, Action, HelpFormatter
+from collections.abc import Iterable
+from importlib.machinery import ModuleSpec
 from pathlib import Path
-from typing import Literal
+from typing import TYPE_CHECKING, Literal
 from unittest.mock import MagicMock, patch
 
 from pydantic_core import core_schema
@@ -19,6 +22,11 @@ ARGPARSE_DOC_DIR = ROOT_DIR / "docs/argparse"
 sys.path.insert(0, str(ROOT_DIR))
 
 
+def mock_if_no_torch(mock_module: str, mock: MagicMock):
+    if not importlib.util.find_spec("torch"):
+        sys.modules[mock_module] = mock
+
+
 # Mock custom op code
 class MockCustomOp:
     @staticmethod
@@ -29,18 +37,21 @@ class MockCustomOp:
         return decorator
 
 
-noop = lambda *a, **k: None
-sys.modules["vllm._C"] = MagicMock()
-sys.modules["vllm.model_executor.custom_op"] = MagicMock(CustomOp=MockCustomOp)
-sys.modules["vllm.utils.torch_utils"] = MagicMock(direct_register_custom_op=noop)
+mock_if_no_torch("vllm._C", MagicMock())
+mock_if_no_torch("vllm.model_executor.custom_op", MagicMock(CustomOp=MockCustomOp))
+mock_if_no_torch(
+    "vllm.utils.torch_utils", MagicMock(direct_register_custom_op=lambda *a, **k: None)
+)
+
 
 # Mock any version checks by reading from compiled CI requirements
 with open(ROOT_DIR / "requirements/test.txt") as f:
     VERSIONS = dict(line.strip().split("==") for line in f if "==" in line)
 importlib.metadata.version = lambda name: VERSIONS.get(name) or "0.0.0"
 
+
 # Make torch.nn.Parameter safe to inherit from
-sys.modules["torch.nn"] = MagicMock(Parameter=object)
+mock_if_no_torch("torch.nn", MagicMock(Parameter=object))
 
 
 class PydanticMagicMock(MagicMock):
@@ -49,31 +60,34 @@ class PydanticMagicMock(MagicMock):
     def __init__(self, *args, **kwargs):
         name = kwargs.pop("name", None)
         super().__init__(*args, **kwargs)
-        self.__spec__ = importlib.machinery.ModuleSpec(name, None)
+        self.__spec__ = ModuleSpec(name, None)
 
     def __get_pydantic_core_schema__(self, source_type, handler):
         return core_schema.any_schema()
 
 
-def auto_mock(module, attr, max_mocks=100):
+def auto_mock(module_name: str, attr: str, max_mocks: int = 100):
     """Function that automatically mocks missing modules during imports."""
-    logger.info("Importing %s from %s", attr, module)
+    logger.info("Importing %s from %s", attr, module_name)
+
     for _ in range(max_mocks):
         try:
+            module = importlib.import_module(module_name)
+
             # First treat attr as an attr, then as a submodule
-            return getattr(
-                importlib.import_module(module),
-                attr,
-                importlib.import_module(f"{module}.{attr}"),
-            )
+            if hasattr(module, attr):
+                return getattr(module, attr)
+
+            return importlib.import_module(f"{module_name}.{attr}")
         except ModuleNotFoundError as e:
+            assert e.name is not None
             logger.info("Mocking %s for argparse doc generation", e.name)
             sys.modules[e.name] = PydanticMagicMock(name=e.name)
-        except Exception as e:
-            logger.warning("Failed to import %s.%s: %s", module, attr, e)
+        except Exception:
+            logger.exception("Failed to import %s.%s: %s", module_name, attr)
 
     raise ImportError(
-        f"Failed to import {module}.{attr} after mocking {max_mocks} imports"
+        f"Failed to import {module_name}.{attr} after mocking {max_mocks} imports"
     )
 
 
@@ -91,21 +105,26 @@ ChatCommand = auto_mock("vllm.entrypoints.cli.openai", "ChatCommand")
 CompleteCommand = auto_mock("vllm.entrypoints.cli.openai", "CompleteCommand")
 openai_cli_args = auto_mock("vllm.entrypoints.openai", "cli_args")
 openai_run_batch = auto_mock("vllm.entrypoints.openai", "run_batch")
-FlexibleArgumentParser = auto_mock(
-    "vllm.utils.argparse_utils", "FlexibleArgumentParser"
-)
+
+if TYPE_CHECKING:
+    from vllm.utils.argparse_utils import FlexibleArgumentParser
+else:
+    FlexibleArgumentParser = auto_mock(
+        "vllm.utils.argparse_utils", "FlexibleArgumentParser"
+    )
 
 
 class MarkdownFormatter(HelpFormatter):
     """Custom formatter that generates markdown for argument groups."""
 
-    def __init__(self, prog, starting_heading_level=3):
-        super().__init__(prog, max_help_position=float("inf"), width=float("inf"))
+    def __init__(self, prog: str, starting_heading_level: int = 3):
+        super().__init__(prog, max_help_position=sys.maxsize, width=sys.maxsize)
+
         self._section_heading_prefix = "#" * starting_heading_level
         self._argument_heading_prefix = "#" * (starting_heading_level + 1)
         self._markdown_output = []
 
-    def start_section(self, heading):
+    def start_section(self, heading: str):
         if heading not in {"positional arguments", "options"}:
             heading_md = f"\n{self._section_heading_prefix} {heading}\n\n"
             self._markdown_output.append(heading_md)
@@ -113,14 +132,14 @@ class MarkdownFormatter(HelpFormatter):
     def end_section(self):
         pass
 
-    def add_text(self, text):
+    def add_text(self, text: str):
         if text:
             self._markdown_output.append(f"{text.strip()}\n\n")
 
     def add_usage(self, usage, actions, groups, prefix=None):
         pass
 
-    def add_arguments(self, actions):
+    def add_arguments(self, actions: Iterable[Action]):
         for action in actions:
             if len(action.option_strings) == 0 or "--help" in action.option_strings:
                 continue
@@ -169,7 +188,7 @@ def create_parser(add_cli_args, **kwargs) -> FlexibleArgumentParser:
         # Auto-mock runtime imports
         if tb_list := traceback.extract_tb(e.__traceback__):
             path = Path(tb_list[-1].filename).relative_to(ROOT_DIR)
-            auto_mock(module=".".join(path.parent.parts), attr=path.stem)
+            auto_mock(module_name=".".join(path.parent.parts), attr=path.stem)
             return create_parser(add_cli_args, **kwargs)
         else:
             raise e
@@ -209,7 +228,7 @@ def on_startup(command: Literal["build", "gh-deploy", "serve"], dirty: bool):
 
     # Generate documentation for each parser
     for stem, parser in parsers.items():
-        doc_path = ARGPARSE_DOC_DIR / f"{stem}.md"
+        doc_path = ARGPARSE_DOC_DIR / f"{stem}.inc.md"
         # Specify encoding for building on Windows
         with open(doc_path, "w", encoding="utf-8") as f:
             f.write(super(type(parser), parser).format_help())
diff --git a/docs/usage/README.md b/docs/usage/README.md
index 0c63d01f0f99f..4e8ece2c06052 100644
--- a/docs/usage/README.md
+++ b/docs/usage/README.md
@@ -1,6 +1,6 @@
 # Using vLLM
 
-First, vLLM must be [installed](../getting_started/installation/) for your chosen device in either a Python or Docker environment.
+First, vLLM must be [installed](../getting_started/installation/README.md) for your chosen device in either a Python or Docker environment.
 
 Then, vLLM supports the following usage patterns:
 

From 085a5253321a66d7aac0f990d82417ad85ec0eb0 Mon Sep 17 00:00:00 2001
From: hwhaokun <haokun0405@163.com>
Date: Sat, 15 Nov 2025 21:44:12 +0800
Subject: [PATCH 498/976] [Model] Fix lmhead init bug of bailing_moe (#28777)

Signed-off-by: hwhaokun <haokun0405@163.com>
Co-authored-by: zhaozx-cn <zhaozx2116@163.com>
Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>
---
 vllm/model_executor/models/bailing_moe.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/model_executor/models/bailing_moe.py b/vllm/model_executor/models/bailing_moe.py
index 6e1e5b1ddc509..024425bb24406 100644
--- a/vllm/model_executor/models/bailing_moe.py
+++ b/vllm/model_executor/models/bailing_moe.py
@@ -599,7 +599,7 @@ class BailingMoeForCausalLM(nn.Module, SupportsPP, SupportsLoRA):
                     config.vocab_size,
                     config.hidden_size,
                     quant_config=quant_config,
-                    prefix=f"{prefix}.lm_head",
+                    prefix=maybe_prefix(prefix, "lm_head"),
                 )
             self.logits_processor = LogitsProcessor(config.vocab_size)
         else:

From e439c784fa318dbc23c04b0730bee0fccf46481d Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Eldar=20Kurti=C4=87?=
 <8884008+eldarkurtic@users.noreply.github.com>
Date: Sat, 15 Nov 2025 15:12:02 +0100
Subject: [PATCH 499/976] Add support for Eagle with separate lm-head and
 embed_tokens layers (#28549)

Signed-off-by: Eldar Kurtic <8884008+eldarkurtic@users.noreply.github.com>
---
 tests/v1/spec_decode/test_eagle.py           |  33 +++---
 tests/v1/spec_decode/test_mtp.py             |   4 +
 vllm/model_executor/models/deepseek_eagle.py |   3 +-
 vllm/model_executor/models/deepseek_v2.py    |   4 +-
 vllm/model_executor/models/interfaces.py     |  70 ++++++++++++-
 vllm/model_executor/models/llama.py          |   6 +-
 vllm/model_executor/models/llama4_eagle.py   |   3 +-
 vllm/model_executor/models/llama_eagle.py    |   3 +-
 vllm/model_executor/models/llama_eagle3.py   |   3 +-
 vllm/model_executor/models/minicpm_eagle.py  |  12 ++-
 vllm/model_executor/models/utils.py          |  23 ++++
 vllm/v1/spec_decode/eagle.py                 | 105 +++++++++++++------
 12 files changed, 205 insertions(+), 64 deletions(-)

diff --git a/tests/v1/spec_decode/test_eagle.py b/tests/v1/spec_decode/test_eagle.py
index 421da52415559..805b8c86b0804 100644
--- a/tests/v1/spec_decode/test_eagle.py
+++ b/tests/v1/spec_decode/test_eagle.py
@@ -324,6 +324,7 @@ def test_prepare_inputs_padded():
 @pytest.mark.parametrize("attn_backend", get_attn_backend_list_based_on_platform())
 @pytest.mark.parametrize("pp_size", [1, 2])
 @pytest.mark.parametrize("use_distinct_embed_tokens", [True, False])
+@pytest.mark.parametrize("use_distinct_lm_head", [True, False])
 @mock.patch("vllm.v1.spec_decode.eagle.get_pp_group")
 @mock.patch("vllm.v1.spec_decode.eagle.get_layers_from_vllm_config")
 @mock.patch("vllm.v1.spec_decode.eagle.get_model")
@@ -335,6 +336,7 @@ def test_load_model(
     attn_backend,
     pp_size,
     use_distinct_embed_tokens,
+    use_distinct_lm_head,
     monkeypatch,
 ):
     monkeypatch.setenv("VLLM_ATTENTION_BACKEND", attn_backend)
@@ -350,12 +352,13 @@ def test_load_model(
 
     # Setup draft model mock
     mock_model = mock.MagicMock()
+    mock_model.model = mock.MagicMock()
+    mock_model.has_own_embed_tokens = use_distinct_embed_tokens
     if use_distinct_embed_tokens:
-        # Some models can have a different hidden size than the target model,
-        # so we test that their embed_tokens doesn't get overwritten
-        mock_model.model.embed_tokens.weight.shape = (131072, 2048)
-    else:
-        mock_model.model.embed_tokens.weight.shape = (131072, 4096)
+        mock_model.model.embed_tokens = mock.MagicMock()
+    mock_model.has_own_lm_head = use_distinct_lm_head
+    if use_distinct_lm_head:
+        mock_model.lm_head = mock.MagicMock()
 
     mock_get_model.return_value = mock_model
 
@@ -391,15 +394,13 @@ def test_load_model(
 
     target_model = mock.create_autospec(_TargetModelStub, instance=True)
     target_model.model = mock.MagicMock()
-    target_model.model.embed_tokens.weight.shape = (131072, 4096)
+    target_model.lm_head = mock.MagicMock()
+    target_model.model.embed_tokens = mock.MagicMock()
 
     from vllm.model_executor.models import SupportsMultiModal
 
     assert not isinstance(target_model, SupportsMultiModal)
 
-    if method == "eagle":
-        target_model.lm_head = mock.MagicMock()
-
     # Create proposer using the helper function
     proposer = _create_proposer(method, num_speculative_tokens=8)
 
@@ -409,18 +410,18 @@ def test_load_model(
     # Verify common interactions
     mock_get_model.assert_called_once()
 
-    # Verify that EAGLE models gain the lm head from the target model
-    if method == "eagle":
-        assert proposer.model.lm_head == target_model.lm_head
+    # Verify that the lm head is set correctly
+    if use_distinct_lm_head:
+        assert proposer.model.lm_head is not target_model.lm_head
+    else:
+        assert proposer.model.lm_head is target_model.lm_head
 
     # Verify that the embed tokens are set correctly
     # If pp_size is > 1, the embed tokens should be distinct
     if pp_size > 1 or use_distinct_embed_tokens:
-        assert proposer.model.model.embed_tokens != target_model.model.embed_tokens
+        assert proposer.model.model.embed_tokens is not target_model.model.embed_tokens
     else:
-        # When pp_size is 1 and the draft and target models have
-        # embed_tokens of the same shape, they should be shared.
-        assert proposer.model.model.embed_tokens == target_model.model.embed_tokens
+        assert proposer.model.model.embed_tokens is target_model.model.embed_tokens
 
 
 @pytest.mark.parametrize("method", ["eagle", "eagle3"])
diff --git a/tests/v1/spec_decode/test_mtp.py b/tests/v1/spec_decode/test_mtp.py
index 6d59b58e739eb..c5c0491abaf7c 100644
--- a/tests/v1/spec_decode/test_mtp.py
+++ b/tests/v1/spec_decode/test_mtp.py
@@ -67,6 +67,10 @@ def test_mtp_load_model_unified(mock_get_model, mock_get_layers, mock_get_pp_gro
     mock_model = mock.MagicMock()
     mock_model.model.embed_tokens.weight.shape = (131072, 4096)
     mock_get_model.return_value = mock_model
+    # MTP does not have its own embed_tokens or lm_head
+    # so it should share them with the target model
+    mock_model.has_own_embed_tokens = False
+    mock_model.has_own_lm_head = False
 
     target_attn_layers = {"target_attn_1": mock.MagicMock()}
     all_attn_layers = {**target_attn_layers, "draft_attn_1": mock.MagicMock()}
diff --git a/vllm/model_executor/models/deepseek_eagle.py b/vllm/model_executor/models/deepseek_eagle.py
index 9e834a73f8e5e..3fb04c3b70dd1 100644
--- a/vllm/model_executor/models/deepseek_eagle.py
+++ b/vllm/model_executor/models/deepseek_eagle.py
@@ -26,7 +26,7 @@ from vllm.model_executor.models.deepseek_v2 import (
 )
 from vllm.utils import init_logger
 
-from .utils import AutoWeightsLoader, maybe_prefix
+from .utils import AutoWeightsLoader, maybe_prefix, process_eagle_weight
 
 logger = init_logger(__name__)
 
@@ -250,6 +250,7 @@ class EagleDeepseekV3ForCausalLM(DeepseekV3ForCausalLM):
             name, loaded_weight = inputs
             if "lm_head" not in name:
                 name = "model." + name
+            process_eagle_weight(self, name)
             return name, loaded_weight
 
         loader = AutoWeightsLoader(
diff --git a/vllm/model_executor/models/deepseek_v2.py b/vllm/model_executor/models/deepseek_v2.py
index 115818d903a6d..e8ee9951d6119 100644
--- a/vllm/model_executor/models/deepseek_v2.py
+++ b/vllm/model_executor/models/deepseek_v2.py
@@ -85,7 +85,7 @@ from vllm.v1.attention.backends.mla.indexer import (
 )
 from vllm.v1.kv_cache_interface import KVCacheSpec, MLAAttentionSpec
 
-from .interfaces import MixtureOfExperts, SupportsLoRA, SupportsPP
+from .interfaces import MixtureOfExperts, SupportsEagle, SupportsLoRA, SupportsPP
 from .utils import (
     PPMissingLayer,
     is_pp_missing_parameter,
@@ -1311,7 +1311,7 @@ class DeepseekV2MixtureOfExperts(MixtureOfExperts):
 
 
 class DeepseekV2ForCausalLM(
-    nn.Module, SupportsPP, DeepseekV2MixtureOfExperts, SupportsLoRA
+    nn.Module, SupportsPP, DeepseekV2MixtureOfExperts, SupportsLoRA, SupportsEagle
 ):
     packed_modules_mapping = {
         "gate_up_proj": ["gate_proj", "up_proj"],
diff --git a/vllm/model_executor/models/interfaces.py b/vllm/model_executor/models/interfaces.py
index 929bfaaee5cbb..dc4caf2f02f9d 100644
--- a/vllm/model_executor/models/interfaces.py
+++ b/vllm/model_executor/models/interfaces.py
@@ -932,13 +932,73 @@ def supports_transcription(
 
 
 @runtime_checkable
-class SupportsEagle3(Protocol):
+class SupportsEagleBase(Protocol):
+    """Base interface for models that support EAGLE-based speculative decoding."""
+
+    has_own_lm_head: bool = False
+    """
+    A flag that indicates this model has trained its own lm_head.
+    """
+
+    has_own_embed_tokens: bool = False
+    """
+    A flag that indicates this model has trained its own input embeddings.
+    """
+
+
+@overload
+def supports_any_eagle(model: type[object]) -> TypeIs[type[SupportsEagleBase]]: ...
+
+
+@overload
+def supports_any_eagle(model: object) -> TypeIs[SupportsEagleBase]: ...
+
+
+def supports_any_eagle(
+    model: type[object] | object,
+) -> TypeIs[type[SupportsEagleBase]] | TypeIs[SupportsEagleBase]:
+    """Check if model supports any EAGLE variant (1, 2, or 3)."""
+    return supports_eagle(model) or supports_eagle3(model)
+
+
+@runtime_checkable
+class SupportsEagle(SupportsEagleBase, Protocol):
     """The interface required for models that support
-    EAGLE3 speculative decoding."""
+    EAGLE-1 and EAGLE-2 speculative decoding."""
+
+    supports_eagle: ClassVar[Literal[True]] = True
+    """
+    A flag that indicates this model supports EAGLE-1 and EAGLE-2 
+    speculative decoding.
+
+    Note:
+        There is no need to redefine this flag if this class is in the
+        MRO of your model class.
+    """
+
+
+@overload
+def supports_eagle(model: type[object]) -> TypeIs[type[SupportsEagle]]: ...
+
+
+@overload
+def supports_eagle(model: object) -> TypeIs[SupportsEagle]: ...
+
+
+def supports_eagle(
+    model: type[object] | object,
+) -> TypeIs[type[SupportsEagle]] | TypeIs[SupportsEagle]:
+    return isinstance(model, SupportsEagle)
+
+
+@runtime_checkable
+class SupportsEagle3(SupportsEagleBase, Protocol):
+    """The interface required for models that support
+    EAGLE-3 speculative decoding."""
 
     supports_eagle3: ClassVar[Literal[True]] = True
     """
-    A flag that indicates this model supports EAGLE3 
+    A flag that indicates this model supports EAGLE-3 
     speculative decoding.
 
     Note:
@@ -949,7 +1009,7 @@ class SupportsEagle3(Protocol):
     def set_aux_hidden_state_layers(self, layers: tuple[int, ...]) -> None:
         """
         Set which layers should output auxiliary
-        hidden states for EAGLE3.
+        hidden states for EAGLE-3.
 
         Args:
             layers: Tuple of layer indices that should output auxiliary
@@ -960,7 +1020,7 @@ class SupportsEagle3(Protocol):
     def get_eagle3_aux_hidden_state_layers(self) -> tuple[int, ...]:
         """
         Get the layer indices that should output auxiliary hidden states
-        for EAGLE3.
+        for EAGLE-3.
 
         Returns:
             Tuple of layer indices for auxiliary hidden state outputs.
diff --git a/vllm/model_executor/models/llama.py b/vllm/model_executor/models/llama.py
index c49a1ea817f91..0a3f37c30ab5f 100644
--- a/vllm/model_executor/models/llama.py
+++ b/vllm/model_executor/models/llama.py
@@ -58,7 +58,7 @@ from vllm.model_executor.model_loader.weight_utils import (
 )
 from vllm.sequence import IntermediateTensors
 
-from .interfaces import SupportsEagle3, SupportsLoRA, SupportsPP
+from .interfaces import SupportsEagle, SupportsEagle3, SupportsLoRA, SupportsPP
 from .utils import (
     AutoWeightsLoader,
     PPMissingLayer,
@@ -529,7 +529,9 @@ class LlamaModel(nn.Module):
         return loaded_params
 
 
-class LlamaForCausalLM(nn.Module, SupportsLoRA, SupportsPP, SupportsEagle3):
+class LlamaForCausalLM(
+    nn.Module, SupportsLoRA, SupportsPP, SupportsEagle, SupportsEagle3
+):
     packed_modules_mapping = {
         "qkv_proj": ["q_proj", "k_proj", "v_proj"],
         "gate_up_proj": ["gate_proj", "up_proj"],
diff --git a/vllm/model_executor/models/llama4_eagle.py b/vllm/model_executor/models/llama4_eagle.py
index e8716d652415e..660c8f1bb5226 100644
--- a/vllm/model_executor/models/llama4_eagle.py
+++ b/vllm/model_executor/models/llama4_eagle.py
@@ -35,7 +35,7 @@ from vllm.model_executor.models.llama4 import Llama4DecoderLayer, Llama4ForCausa
 from vllm.model_executor.models.utils import extract_layer_index
 
 from .interfaces import SupportsMultiModal
-from .utils import AutoWeightsLoader, maybe_prefix
+from .utils import AutoWeightsLoader, maybe_prefix, process_eagle_weight
 
 logger = init_logger(__name__)
 
@@ -212,6 +212,7 @@ class EagleLlama4ForCausalLM(Llama4ForCausalLM):
             name, weight = self.permute_qk_weight_for_rotary(name, loaded_weight)
             if "lm_head" not in name:
                 name = "model." + name
+            process_eagle_weight(self, name)
             return name, weight
 
         loader = AutoWeightsLoader(
diff --git a/vllm/model_executor/models/llama_eagle.py b/vllm/model_executor/models/llama_eagle.py
index ab2a9f6f06dbe..0287132c56375 100644
--- a/vllm/model_executor/models/llama_eagle.py
+++ b/vllm/model_executor/models/llama_eagle.py
@@ -17,7 +17,7 @@ from vllm.model_executor.layers.vocab_parallel_embedding import VocabParallelEmb
 from vllm.model_executor.model_loader.weight_utils import default_weight_loader
 from vllm.model_executor.models.llama import LlamaDecoderLayer, LlamaForCausalLM
 
-from .utils import AutoWeightsLoader, maybe_prefix
+from .utils import AutoWeightsLoader, maybe_prefix, process_eagle_weight
 
 logger = init_logger(__name__)
 
@@ -179,6 +179,7 @@ class EagleLlamaForCausalLM(LlamaForCausalLM):
             name, loaded_weight = inputs
             if "lm_head" not in name:
                 name = "model." + name
+            process_eagle_weight(self, name)
             return name, loaded_weight
 
         loader = AutoWeightsLoader(
diff --git a/vllm/model_executor/models/llama_eagle3.py b/vllm/model_executor/models/llama_eagle3.py
index 6edc9519dfbbf..a3bcc5eeb32b9 100644
--- a/vllm/model_executor/models/llama_eagle3.py
+++ b/vllm/model_executor/models/llama_eagle3.py
@@ -23,7 +23,7 @@ from vllm.model_executor.models.llama import LlamaDecoderLayer, LlamaForCausalLM
 from vllm.multimodal import MULTIMODAL_REGISTRY
 from vllm.multimodal.inputs import NestedTensors
 
-from .utils import AutoWeightsLoader, maybe_prefix
+from .utils import AutoWeightsLoader, maybe_prefix, process_eagle_weight
 
 logger = init_logger(__name__)
 
@@ -324,6 +324,7 @@ class Eagle3LlamaForCausalLM(LlamaForCausalLM):
             if "embed_tokens" in name:
                 includes_embed_tokens = True
             model_weights[name] = loaded_weight
+            process_eagle_weight(self, name)
 
         skip_substrs = []
         if not includes_draft_id_mapping:
diff --git a/vllm/model_executor/models/minicpm_eagle.py b/vllm/model_executor/models/minicpm_eagle.py
index 0ca31913485db..d0cdb70aa8574 100644
--- a/vllm/model_executor/models/minicpm_eagle.py
+++ b/vllm/model_executor/models/minicpm_eagle.py
@@ -43,7 +43,7 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
 from vllm.model_executor.model_loader.weight_utils import default_weight_loader
 from vllm.sequence import IntermediateTensors
 
-from .interfaces import SupportsLoRA, SupportsPP
+from .interfaces import SupportsEagle, SupportsLoRA, SupportsPP
 from .minicpm import MiniCPMAttention as EagleMiniCPMAttention
 from .minicpm import MiniCPMMLP as EagleMiniCPMMLP
 from .minicpm import MiniCPMMoE as EagleMiniCPMMoE
@@ -52,6 +52,7 @@ from .utils import (
     is_pp_missing_parameter,
     make_empty_intermediate_tensors_factory,
     maybe_prefix,
+    process_eagle_weight,
 )
 
 
@@ -289,7 +290,7 @@ class EagleMiniCPMModel(nn.Module):
         return loaded_params
 
 
-class EagleMiniCPMForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
+class EagleMiniCPMForCausalLM(nn.Module, SupportsLoRA, SupportsPP, SupportsEagle):
     packed_modules_mapping = {
         "qkv_proj": [
             "q_proj",
@@ -376,8 +377,13 @@ class EagleMiniCPMForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
         return logits
 
     def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        def transform(inputs):
+            name, loaded_weight = inputs
+            process_eagle_weight(self, name)
+            return name, loaded_weight
+
         loader = AutoWeightsLoader(
             self,
             skip_prefixes=(["lm_head."] if self.config.tie_word_embeddings else None),
         )
-        return loader.load_weights(weights)
+        return loader.load_weights(map(transform, weights))
diff --git a/vllm/model_executor/models/utils.py b/vllm/model_executor/models/utils.py
index e5663c8a057ac..0d811fbc7585d 100644
--- a/vllm/model_executor/models/utils.py
+++ b/vllm/model_executor/models/utils.py
@@ -19,6 +19,7 @@ from vllm.distributed import (
 )
 from vllm.logger import init_logger
 from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.models.interfaces import supports_any_eagle
 from vllm.multimodal import NestedTensors
 from vllm.sequence import IntermediateTensors
 from vllm.utils.math_utils import cdiv
@@ -825,3 +826,25 @@ direct_register_custom_op(
     fake_impl=sequence_parallel_chunk_impl_fake,
     tags=(torch.Tag.needs_fixed_stride_order,),
 )
+
+
+def process_eagle_weight(
+    model: nn.Module,
+    name: str,
+) -> None:
+    """
+    Update EAGLE model flags based on loaded weight name.
+    This should be called during weight loading to detect if a model
+    has its own lm_head or embed_tokens weight.
+    Args:
+        model: The model instance (must support EAGLE)
+        name: The name of the weight to process
+    """
+    if not supports_any_eagle(model):
+        return
+
+    # To prevent overriding with target model's layers
+    if "lm_head" in name:
+        model.has_own_lm_head = True
+    if "embed_tokens" in name:
+        model.has_own_embed_tokens = True
diff --git a/vllm/v1/spec_decode/eagle.py b/vllm/v1/spec_decode/eagle.py
index f3b34544f8d91..ed602f39d0f9f 100644
--- a/vllm/v1/spec_decode/eagle.py
+++ b/vllm/v1/spec_decode/eagle.py
@@ -991,6 +991,7 @@ class EagleProposer:
             target_language_model = target_model.get_language_model()
         else:
             target_language_model = target_model
+
         # share embed_tokens with the target model if needed
         if get_pp_group().world_size == 1:
             if hasattr(target_language_model.model, "embed_tokens"):
@@ -1002,52 +1003,92 @@ class EagleProposer:
                     "Target model does not have 'embed_tokens' or 'embedding' attribute"
                 )
 
-            # Check if shapes match and we found the embedding
-            eagle_shape = self.model.model.embed_tokens.weight.shape
-            target_shape = target_embed_tokens.weight.shape
-            if eagle_shape == target_shape:
-                logger.info(
-                    "Assuming the EAGLE head shares the same vocab embedding"
-                    " with the target model."
-                )
-                del self.model.model.embed_tokens
-                self.model.model.embed_tokens = target_embed_tokens
+            share_embeddings = False
+            if hasattr(self.model, "has_own_embed_tokens"):
+                # EAGLE model
+                if not self.model.has_own_embed_tokens:
+                    share_embeddings = True
+                    logger.info(
+                        "Detected EAGLE model without its own embed_tokens in the"
+                        " checkpoint. Sharing target model embedding weights with the"
+                        " draft model."
+                    )
+                elif (
+                    isinstance(target_embed_tokens.weight, torch.Tensor)
+                    and isinstance(self.model.model.embed_tokens.weight, torch.Tensor)
+                    and torch.equal(
+                        target_embed_tokens.weight, self.model.model.embed_tokens.weight
+                    )
+                ):
+                    share_embeddings = True
+                    logger.info(
+                        "Detected EAGLE model with embed_tokens identical to the target"
+                        " model. Sharing target model embedding weights with the draft"
+                        " model."
+                    )
+                else:
+                    logger.info(
+                        "Detected EAGLE model with distinct embed_tokens weights. "
+                        "Keeping separate embedding weights from the target model."
+                    )
             else:
+                # MTP model
+                share_embeddings = True
                 logger.info(
-                    "The EAGLE head's vocab embedding will be loaded separately"
-                    " from the target model."
+                    "Detected MTP model. "
+                    "Sharing target model embedding weights with the draft model."
                 )
+
+            if share_embeddings:
+                if hasattr(self.model.model, "embed_tokens"):
+                    del self.model.model.embed_tokens
+                self.model.model.embed_tokens = target_embed_tokens
         else:
             logger.info(
-                "The EAGLE head's vocab embedding will be loaded separately"
+                "The draft model's vocab embedding will be loaded separately"
                 " from the target model."
             )
 
         # share lm_head with the target model if needed
-        # some model definition do not define lm_head explicitly
-        # and reuse embed_tokens for lm_head, e.g., CohereForCausalLM
-        if self.vllm_config.speculative_config.method != "eagle3":
-            if hasattr(target_language_model, "lm_head"):
-                logger.info("Loading EAGLE LM head weights from the target model.")
-                self.model.lm_head = target_language_model.lm_head
-        else:
-            if (
-                hasattr(self.model, "lm_head")
-                and hasattr(target_language_model, "lm_head")
-                and self.model.lm_head.weight.shape
-                == target_language_model.lm_head.weight.shape
-            ):
+        share_lm_head = False
+        if hasattr(self.model, "has_own_lm_head"):
+            # EAGLE model
+            if not self.model.has_own_lm_head:
+                share_lm_head = True
                 logger.info(
-                    "Assuming the EAGLE head shares the same lm_head"
-                    " with the target model."
+                    "Detected EAGLE model without its own lm_head in the checkpoint. "
+                    "Sharing target model lm_head weights with the draft model."
+                )
+            elif (
+                hasattr(target_language_model, "lm_head")
+                and isinstance(target_language_model.lm_head.weight, torch.Tensor)
+                and isinstance(self.model.lm_head.weight, torch.Tensor)
+                and torch.equal(
+                    target_language_model.lm_head.weight, self.model.lm_head.weight
+                )
+            ):
+                share_lm_head = True
+                logger.info(
+                    "Detected EAGLE model with lm_head identical to the target model. "
+                    "Sharing target model lm_head weights with the draft model."
                 )
-                del self.model.lm_head
-                self.model.lm_head = target_language_model.lm_head
             else:
                 logger.info(
-                    "The EAGLE head's lm_head will be loaded separately"
-                    " from the target model."
+                    "Detected EAGLE model with distinct lm_head weights. "
+                    "Keeping separate lm_head weights from the target model."
                 )
+        else:
+            # MTP model
+            share_lm_head = True
+            logger.info(
+                "Detected MTP model. "
+                "Sharing target model lm_head weights with the draft model."
+            )
+
+        if share_lm_head and hasattr(target_language_model, "lm_head"):
+            if hasattr(self.model, "lm_head"):
+                del self.model.lm_head
+            self.model.lm_head = target_language_model.lm_head
 
     @torch.inference_mode()
     def dummy_run(

From 637f292196237982558936166540ed8d153a75eb Mon Sep 17 00:00:00 2001
From: Nick Hill <nhill@redhat.com>
Date: Sat, 15 Nov 2025 08:44:14 -0800
Subject: [PATCH 500/976] [CI] Fix broken pipeline (#28781)

Signed-off-by: Nick Hill <nhill@redhat.com>
---
 .buildkite/test-pipeline.yaml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index 723f311a26464..4ac76aba67b9c 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -926,7 +926,7 @@ steps:
     - pytest -v -s tests/kernels/moe/test_ocp_mx_moe.py
     - pytest -v -s tests/kernels/moe/test_flashinfer.py
 
-- label: Blackwell Fusion & Compile Tests # 30 min
+- label: Blackwell Fusion and Compile Tests # 30 min
   timeout_in_minutes: 40
   working_dir: "/vllm-workspace/"
   gpu: b200

From 07cadab27a23bf1fbc1090f77fcc650eeb1612e8 Mon Sep 17 00:00:00 2001
From: Lukas Geiger <lukas.geiger94@gmail.com>
Date: Sat, 15 Nov 2025 19:03:09 +0000
Subject: [PATCH 501/976] [Model][Qwen3VL] Cache positional embedding indices 
 (#28475)

Signed-off-by: Lukas Geiger <lukas.geiger94@gmail.com>
Co-authored-by: Roger Wang <hey@rogerw.io>
---
 vllm/model_executor/models/qwen3_vl.py | 59 +++++++++++++++-----------
 1 file changed, 35 insertions(+), 24 deletions(-)

diff --git a/vllm/model_executor/models/qwen3_vl.py b/vllm/model_executor/models/qwen3_vl.py
index fa6b71bf92682..7f0c9372991d1 100644
--- a/vllm/model_executor/models/qwen3_vl.py
+++ b/vllm/model_executor/models/qwen3_vl.py
@@ -25,7 +25,7 @@
 """Inference-only Qwen3VL model compatible with HuggingFace weights."""
 
 from collections.abc import Callable, Iterable, Iterator, Mapping, Sequence
-from functools import partial
+from functools import lru_cache, partial
 from itertools import islice
 from typing import Any
 
@@ -416,30 +416,41 @@ class Qwen3_VisionTransformer(nn.Module):
     def device(self) -> torch.device:
         return self.patch_embed.proj.weight.device
 
-    def rot_pos_emb(self, grid_thw: list[list[int]]):
-        pos_ids = []
-        max_grid_size = max(max(h, w) for _, h, w in grid_thw)
-        for t, h, w in grid_thw:
-            hpos_ids = torch.arange(h).unsqueeze(1).expand(-1, w)
-            hpos_ids = hpos_ids.reshape(
-                h // self.spatial_merge_size,
-                self.spatial_merge_size,
-                w // self.spatial_merge_size,
-                self.spatial_merge_size,
-            )
-            hpos_ids = hpos_ids.permute(0, 2, 1, 3)
-            hpos_ids = hpos_ids.flatten()
+    @staticmethod
+    @lru_cache(maxsize=1024)
+    def rot_pos_ids(h: int, w: int, spatial_merge_size: int) -> torch.Tensor:
+        hpos_ids = np.broadcast_to(np.arange(h).reshape(h, 1), (h, w))
+        h_div = h // spatial_merge_size
+        w_div = w // spatial_merge_size
+        hpos_ids = hpos_ids.reshape(
+            h_div,
+            spatial_merge_size,
+            w_div,
+            spatial_merge_size,
+        )
+        hpos_ids = hpos_ids.transpose(0, 2, 1, 3)
+        hpos_ids = hpos_ids.flatten()
 
-            wpos_ids = torch.arange(w).unsqueeze(0).expand(h, -1)
-            wpos_ids = wpos_ids.reshape(
-                h // self.spatial_merge_size,
-                self.spatial_merge_size,
-                w // self.spatial_merge_size,
-                self.spatial_merge_size,
-            )
-            wpos_ids = wpos_ids.permute(0, 2, 1, 3)
-            wpos_ids = wpos_ids.flatten()
-            pos_ids.append(torch.stack([hpos_ids, wpos_ids], dim=-1).repeat(t, 1))
+        wpos_ids = np.broadcast_to(np.arange(w).reshape(1, w), (h, w))
+        wpos_ids = wpos_ids.reshape(
+            h_div,
+            spatial_merge_size,
+            w_div,
+            spatial_merge_size,
+        )
+        wpos_ids = wpos_ids.transpose(0, 2, 1, 3)
+        wpos_ids = wpos_ids.flatten()
+
+        return torch.from_numpy(np.stack([hpos_ids, wpos_ids], axis=-1))
+
+    def rot_pos_emb(self, grid_thw: list[list[int]]):
+        max_grid_size = max(max(h, w) for _, h, w in grid_thw)
+        pos_ids = [
+            self.rot_pos_ids(h, w, self.spatial_merge_size)
+            if t == 1
+            else self.rot_pos_ids(h, w, self.spatial_merge_size).repeat(t, 1)
+            for t, h, w in grid_thw
+        ]
         pos_ids = torch.cat(pos_ids, dim=0)
         rotary_pos_emb_full = self.rotary_pos_emb(max_grid_size)
         rotary_pos_emb = rotary_pos_emb_full[pos_ids].flatten(1)

From 2bb4435cb7e2e2317b0f20803347690fb38fe6b4 Mon Sep 17 00:00:00 2001
From: Didier Durand <2927957+didier-durand@users.noreply.github.com>
Date: Sat, 15 Nov 2025 20:27:50 +0100
Subject: [PATCH 502/976] [Doc]: fix typos in various files (#28567)

Signed-off-by: Didier Durand <durand.didier@gmail.com>
---
 docs/design/moe_kernel_features.md     | 2 +-
 docs/features/quantization/quark.md    | 2 +-
 vllm/compilation/compiler_interface.py | 2 +-
 vllm/compilation/decorators.py         | 4 ++--
 vllm/v1/worker/gpu_model_runner.py     | 2 +-
 5 files changed, 6 insertions(+), 6 deletions(-)

diff --git a/docs/design/moe_kernel_features.md b/docs/design/moe_kernel_features.md
index ee224e6922fbd..7663b82266f0b 100644
--- a/docs/design/moe_kernel_features.md
+++ b/docs/design/moe_kernel_features.md
@@ -68,7 +68,7 @@ Modular kernels are supported by the following `FusedMoEMethodBase` classes.
 
 ## Fused MoE Experts Kernels
 
-The are a number of MoE experts kernel implementations for different quantization types and architectures. Most follow the general API of the base Triton [`fused_experts`][vllm.model_executor.layers.fused_moe.fused_moe.fused_experts] function. Many have modular kernel adatpers so they can be used with compatible all2all backends. This table lists each experts kernel and its particular properties.
+The are a number of MoE experts kernel implementations for different quantization types and architectures. Most follow the general API of the base Triton [`fused_experts`][vllm.model_executor.layers.fused_moe.fused_moe.fused_experts] function. Many have modular kernel adapters so they can be used with compatible all2all backends. This table lists each experts kernel and its particular properties.
 
 Each kernel must be provided with one of the supported input activation formats.  Some flavors of kernels support both standard and batched formats through different entry points, e.g. `TritonExperts` and `BatchedTritonExperts`. Batched format kernels are currently only needed for matching with certain all2all backends, e.g. `pplx`, `DeepEPLLPrepareAndFinalize`.
 
diff --git a/docs/features/quantization/quark.md b/docs/features/quantization/quark.md
index be0702f4c9e16..bd7bc186e13aa 100644
--- a/docs/features/quantization/quark.md
+++ b/docs/features/quantization/quark.md
@@ -298,7 +298,7 @@ There are two steps to generate and deploy a mixed precision model quantized wit
 
 Firstly, the layerwise mixed-precision configuration for a given LLM model is searched and then quantized using AMD Quark. We will provide a detailed tutorial with Quark APIs later.
 
-As examples, we provide some ready-to-use quantized mixed precision model to show the usage in vLLM and the accuracy benifits. They are:
+As examples, we provide some ready-to-use quantized mixed precision model to show the usage in vLLM and the accuracy benefits. They are:
 
 - amd/Llama-2-70b-chat-hf-WMXFP4FP8-AMXFP4FP8-AMP-KVFP8
 - amd/Mixtral-8x7B-Instruct-v0.1-WMXFP4FP8-AMXFP4FP8-AMP-KVFP8
diff --git a/vllm/compilation/compiler_interface.py b/vllm/compilation/compiler_interface.py
index b0cdb08884a3b..11cf0f85c1787 100644
--- a/vllm/compilation/compiler_interface.py
+++ b/vllm/compilation/compiler_interface.py
@@ -299,7 +299,7 @@ class InductorAdaptor(CompilerInterface):
         self.base_cache_dir = cache_dir[: -len(prefix)] if prefix else cache_dir
         if disable_cache:
             return
-        # redirect the cache directory to a sub-directory
+        # redirect the cache directory to a subdirectory
         # set flags so that Inductor and Triton store their cache
         # in the cache_dir, then users only need to copy the cache_dir
         # to another machine to reuse the cache.
diff --git a/vllm/compilation/decorators.py b/vllm/compilation/decorators.py
index e325bca73abb0..11a18c0e6bb78 100644
--- a/vllm/compilation/decorators.py
+++ b/vllm/compilation/decorators.py
@@ -159,7 +159,7 @@ def support_torch_compile(
 
     `mark_unbacked_dims` is a dictionary that maps argument names with a dynamic
     dim to be decorated with `mark_unbacked`.  This is useful if we would like to
-    enforce that dynamo do not specialize on 0/1 values in the case of dummy input
+    enforce that dynamo does not specialize on 0/1 values in the case of dummy input
     such as for vision model compilation
     """
 
@@ -483,7 +483,7 @@ def maybe_use_cudagraph_partition_wrapper(vllm_config: VllmConfig):
     Context manager to set/unset customized cudagraph partition wrappers.
 
     If we're using Inductor-based graph partitioning, we currently have the
-    whole `fx.Graph` before Inductor lowering and and the piecewise
+    whole `fx.Graph` before Inductor lowering and the piecewise
     splitting happens after all graph passes and fusions. Here, we add
     a custom hook for Inductor to wrap each partition with our static
     graph wrapper class to maintain more control over static graph
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index d0d6164180e66..6590ca54af682 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -2871,7 +2871,7 @@ class GPUModelRunner(
             "gpu_model_runner: set_async_sampled_token_ids"
         ):
             # Save ref of sampled_token_ids CPU tensor if the batch contains
-            # any requests with sampling params that that require output ids.
+            # any requests with sampling params that require output ids.
             self.input_batch.set_async_sampled_token_ids(
                 async_output.sampled_token_ids_cpu,
                 async_output.async_copy_ready_event,

From be263f76451ad8a32baf0b935d3f0432d05300e6 Mon Sep 17 00:00:00 2001
From: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com>
Date: Sat, 15 Nov 2025 17:35:06 -0500
Subject: [PATCH 503/976] [BugFix] Fix `AssertionError: DCP not support
 reorder_batch_threshold > 1 now.`  (#28751)

Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com>
---
 vllm/v1/worker/gpu_model_runner.py | 10 ----------
 1 file changed, 10 deletions(-)

diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index 6590ca54af682..ffbac5fe12f76 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -630,16 +630,6 @@ class GPUModelRunner(
             return
 
         if self.reorder_batch_threshold is not None:
-            # NOTE(lucas): currently no backend supports the custom masking
-            #  required for DCP with q_len > 1, so we assert here. Remove this
-            #  assert once the custom mask is support is added to FA3.
-            if (
-                self.dcp_world_size > 1
-                and envs.VLLM_ATTENTION_BACKEND != "FLASH_ATTN_MLA"
-            ):
-                assert self.reorder_batch_threshold == 1, (
-                    "DCP not support reorder_batch_threshold > 1 now."
-                )
             reorder_batch_to_split_decodes_and_prefills(
                 self.input_batch,
                 scheduler_output,

From f849ee739cdb3d82fce1660a6fd91806e8ae9bff Mon Sep 17 00:00:00 2001
From: Bram Wasti <bwasti@fb.com>
Date: Sun, 16 Nov 2025 00:22:17 -0500
Subject: [PATCH 504/976] Adding a benchmark for batch invariance (#28161)

Signed-off-by: Bram Wasti <bwasti@meta.com>
Signed-off-by: Bram Wasti <bwasti@fb.com>
Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
---
 benchmarks/benchmark_batch_invariance.py | 380 +++++++++++++++++++++++
 1 file changed, 380 insertions(+)
 create mode 100755 benchmarks/benchmark_batch_invariance.py

diff --git a/benchmarks/benchmark_batch_invariance.py b/benchmarks/benchmark_batch_invariance.py
new file mode 100755
index 0000000000000..b5c16c42de467
--- /dev/null
+++ b/benchmarks/benchmark_batch_invariance.py
@@ -0,0 +1,380 @@
+#!/usr/bin/env python3
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+Benchmark to measure the performance overhead of VLLM_BATCH_INVARIANT mode.
+
+This benchmark runs the same workload twice:
+1. With VLLM_BATCH_INVARIANT=0 (baseline)
+2. With VLLM_BATCH_INVARIANT=1 (batch invariant mode)
+
+And reports the timing and throughput metrics for comparison.
+
+Environment variables:
+    VLLM_BENCH_MODEL: Model to benchmark (default: "Qwen/Qwen3-1.7B")
+    VLLM_BENCH_TP_SIZE: Tensor parallel size (default: 1, use 8 for deepseek)
+    VLLM_BENCH_BATCH_SIZE: Max batch size (default: 128)
+    VLLM_BENCH_NUM_TRIALS: Number of trials to run (default: 5)
+    VLLM_BENCH_MIN_PROMPT: Min prompt length in words (default: 1024)
+    VLLM_BENCH_MAX_PROMPT: Max prompt length in words (default: 2048)
+    VLLM_BENCH_MAX_TOKENS: Max tokens to generate (default: 128)
+    VLLM_BENCH_TEMPERATURE: Temperature for sampling (default: 0.0)
+    VLLM_BENCH_GPU_MEMORY_UTILIZATION: GPU memory utilization (default: 0.4)
+    VLLM_BENCH_MAX_MODEL_LEN: Max model length (default: 5120)
+    VLLM_BENCH_BACKEND: Attention backend (default: FLASH_ATTN)
+
+Example usage:
+    # Benchmark qwen3 (default)
+    python benchmarks/benchmark_batch_invariance.py
+
+    # Benchmark deepseek with 8 GPUs
+    VLLM_BENCH_MODEL="deepseek-ai/DeepSeek-V3" VLLM_BENCH_TP_SIZE=8 \\
+        python benchmarks/benchmark_batch_invariance.py
+
+    # Quick test with fewer trials
+    VLLM_BENCH_NUM_TRIALS=2 VLLM_BENCH_BATCH_SIZE=32 \\
+        python benchmarks/benchmark_batch_invariance.py
+"""
+
+import contextlib
+import os
+import random
+import time
+
+from vllm import LLM, SamplingParams
+from vllm.platforms import current_platform
+
+
+def _random_prompt(min_words: int = 1024, max_words: int = 1024 * 2) -> str:
+    """Generate a random prompt for benchmarking."""
+    prompt_templates = [
+        "Question: What is the capital of France?\nAnswer: The capital of France is",
+        "Q: How does photosynthesis work?\nA: Photosynthesis is the process by which",
+        "User: Can you explain quantum mechanics?\nAssistant: Quantum mechanics is",
+        "Once upon a time in a distant galaxy, there lived",
+        "The old man walked slowly down the street, remembering",
+        "In the year 2157, humanity finally discovered",
+        "To implement a binary search tree in Python, first we need to",
+        "The algorithm works by iterating through the array and",
+        "Here's how to optimize database queries using indexing:",
+        "The Renaissance was a period in European history that",
+        "Climate change is caused by several factors including",
+        "The human brain contains approximately 86 billion neurons which",
+        "I've been thinking about getting a new laptop because",
+        "Yesterday I went to the store and bought",
+        "My favorite thing about summer is definitely",
+    ]
+
+    base_prompt = random.choice(prompt_templates)
+
+    if max_words < min_words:
+        max_words = min_words
+    target_words = random.randint(min_words, max_words)
+
+    if target_words > 50:
+        padding_text = (
+            " This is an interesting topic that deserves more explanation. "
+            * (target_words // 50)
+        )
+        base_prompt = base_prompt + padding_text
+
+    return base_prompt
+
+
+def run_benchmark_with_batch_invariant(
+    model: str,
+    tp_size: int,
+    max_batch_size: int,
+    num_trials: int,
+    min_prompt: int,
+    max_prompt: int,
+    max_tokens: int,
+    temperature: float,
+    gpu_mem_util: float,
+    max_model_len: int,
+    backend: str,
+    batch_invariant: bool,
+    seed: int = 12345,
+) -> dict:
+    """
+    Run the benchmark with the specified configuration.
+
+    Returns a dict with timing and throughput metrics.
+    """
+    random.seed(seed)
+
+    # Set environment variables
+    os.environ["VLLM_ATTENTION_BACKEND"] = backend
+    if batch_invariant:
+        os.environ["VLLM_BATCH_INVARIANT"] = "1"
+    else:
+        os.environ["VLLM_BATCH_INVARIANT"] = "0"
+
+    print(f"\n{'=' * 80}")
+    print(f"BENCHMARK: VLLM_BATCH_INVARIANT={int(batch_invariant)}")
+    print(f"  Model: {model}")
+    print(f"  TP Size: {tp_size}")
+    print(f"  Backend: {backend}")
+    print(f"  Max Batch Size: {max_batch_size}")
+    print(f"  Trials: {num_trials}")
+    print(f"  Max Tokens: {max_tokens}")
+    print(f"{'=' * 80}\n")
+
+    sampling = SamplingParams(
+        temperature=temperature,
+        top_p=0.95,
+        max_tokens=max_tokens,
+        seed=20240919,
+    )
+
+    needle_prompt = "There once was a "
+
+    llm = None
+    try:
+        # Create LLM engine
+        start_init = time.perf_counter()
+        llm = LLM(
+            model=model,
+            max_num_seqs=max_batch_size,
+            gpu_memory_utilization=gpu_mem_util,
+            max_model_len=max_model_len,
+            dtype="bfloat16",
+            tensor_parallel_size=tp_size,
+            enable_prefix_caching=False,
+        )
+        init_time = time.perf_counter() - start_init
+        print(f"Engine initialization time: {init_time:.2f}s\n")
+
+        # Generate baseline
+        print("Generating baseline (warmup)...")
+        baseline_out = llm.generate([needle_prompt], sampling)
+        assert len(baseline_out) == 1
+        baseline_text = baseline_out[0].outputs[0].text
+        print(f"Baseline output: '{baseline_text[:50]}...'\n")
+
+        # Run trials and measure timing
+        trial_times: list[float] = []
+        total_tokens = 0
+        total_prompts = 0
+
+        for trial in range(num_trials):
+            # Create a batch
+            prompts: list[str] = []
+            batch_size = random.randint(max_batch_size // 2, max_batch_size)
+            needle_pos = random.randint(0, batch_size - 1)
+            for i in range(batch_size):
+                if i == needle_pos:
+                    prompts.append(needle_prompt)
+                else:
+                    prompts.append(_random_prompt(min_prompt, max_prompt))
+
+            # Measure time for this trial
+            start_time = time.perf_counter()
+            outputs = llm.generate(prompts, sampling)
+            trial_time = time.perf_counter() - start_time
+
+            trial_times.append(trial_time)
+            total_prompts += len(prompts)
+
+            # Count tokens
+            for output in outputs:
+                if output.outputs:
+                    total_tokens += len(output.outputs[0].token_ids)
+
+            print(
+                f"Trial {trial + 1}/{num_trials}: "
+                f"batch_size={batch_size}, "
+                f"time={trial_time:.2f}s"
+            )
+
+            # Verify needle output still matches
+            needle_output = outputs[needle_pos]
+            assert needle_output.prompt == needle_prompt
+
+        # Compute statistics
+        avg_time = sum(trial_times) / len(trial_times)
+        min_time = min(trial_times)
+        max_time = max(trial_times)
+        throughput = total_tokens / sum(trial_times)
+        prompts_per_sec = total_prompts / sum(trial_times)
+
+        print(f"\n{'=' * 80}")
+        print("RESULTS:")
+        print(f"  Average time per trial: {avg_time:.2f}s")
+        print(f"  Min time: {min_time:.2f}s")
+        print(f"  Max time: {max_time:.2f}s")
+        print(f"  Total tokens generated: {total_tokens}")
+        print(f"  Total prompts processed: {total_prompts}")
+        print(f"  Throughput: {throughput:.2f} tokens/s")
+        print(f"  Prompts/s: {prompts_per_sec:.2f}")
+        print(f"{'=' * 80}\n")
+
+        return {
+            "init_time": init_time,
+            "avg_time": avg_time,
+            "min_time": min_time,
+            "max_time": max_time,
+            "total_tokens": total_tokens,
+            "total_prompts": total_prompts,
+            "throughput": throughput,
+            "prompts_per_sec": prompts_per_sec,
+            "trial_times": trial_times,
+        }
+
+    finally:
+        # Cleanup
+        if llm is not None:
+            with contextlib.suppress(Exception):
+                llm.shutdown()
+
+
+def main():
+    # Check platform support
+    if not (current_platform.is_cuda() and current_platform.has_device_capability(90)):
+        print("ERROR: Requires CUDA and >= Hopper (SM90)")
+        print(f"Current platform: {current_platform.device_type}")
+        if current_platform.is_cuda():
+            print(f"Device capability: {current_platform.get_device_capability()}")
+        return 1
+
+    # Read configuration from environment
+    model = os.getenv("VLLM_BENCH_MODEL", "Qwen/Qwen3-1.7B")
+    tp_size = int(os.getenv("VLLM_BENCH_TP_SIZE", "1"))
+    max_batch_size = int(os.getenv("VLLM_BENCH_BATCH_SIZE", "128"))
+    num_trials = int(os.getenv("VLLM_BENCH_NUM_TRIALS", "5"))
+    min_prompt = int(os.getenv("VLLM_BENCH_MIN_PROMPT", "1024"))
+    max_prompt = int(os.getenv("VLLM_BENCH_MAX_PROMPT", "2048"))
+    max_tokens = int(os.getenv("VLLM_BENCH_MAX_TOKENS", "128"))
+    temperature = float(os.getenv("VLLM_BENCH_TEMPERATURE", "0.0"))
+    gpu_mem_util = float(os.getenv("VLLM_BENCH_GPU_MEMORY_UTILIZATION", "0.4"))
+    max_model_len = int(os.getenv("VLLM_BENCH_MAX_MODEL_LEN", "5120"))
+    backend = os.getenv("VLLM_BENCH_BACKEND", "FLASH_ATTN")
+
+    print("\n" + "=" * 80)
+    print("VLLM BATCH INVARIANCE BENCHMARK")
+    print("=" * 80)
+    print("\nConfiguration:")
+    print(f"  Model: {model}")
+    print(f"  Tensor Parallel Size: {tp_size}")
+    print(f"  Attention Backend: {backend}")
+    print(f"  Max Batch Size: {max_batch_size}")
+    print(f"  Number of Trials: {num_trials}")
+    print(f"  Prompt Length Range: {min_prompt}-{max_prompt} words")
+    print(f"  Max Tokens to Generate: {max_tokens}")
+    print(f"  Temperature: {temperature}")
+    print(f"  GPU Memory Utilization: {gpu_mem_util}")
+    print(f"  Max Model Length: {max_model_len}")
+    print("=" * 80)
+
+    # Run benchmark WITHOUT batch invariance (baseline)
+    print("\n" + "=" * 80)
+    print("PHASE 1: Running WITHOUT batch invariance (baseline)")
+    print("=" * 80)
+    baseline_results = run_benchmark_with_batch_invariant(
+        model=model,
+        tp_size=tp_size,
+        max_batch_size=max_batch_size,
+        num_trials=num_trials,
+        min_prompt=min_prompt,
+        max_prompt=max_prompt,
+        max_tokens=max_tokens,
+        temperature=temperature,
+        gpu_mem_util=gpu_mem_util,
+        max_model_len=max_model_len,
+        backend=backend,
+        batch_invariant=False,
+    )
+
+    # Run benchmark WITH batch invariance
+    print("\n" + "=" * 80)
+    print("PHASE 2: Running WITH batch invariance")
+    print("=" * 80)
+    batch_inv_results = run_benchmark_with_batch_invariant(
+        model=model,
+        tp_size=tp_size,
+        max_batch_size=max_batch_size,
+        num_trials=num_trials,
+        min_prompt=min_prompt,
+        max_prompt=max_prompt,
+        max_tokens=max_tokens,
+        temperature=temperature,
+        gpu_mem_util=gpu_mem_util,
+        max_model_len=max_model_len,
+        backend=backend,
+        batch_invariant=True,
+    )
+
+    # Compare results
+    print("\n" + "=" * 80)
+    print("COMPARISON: Batch Invariance vs Baseline")
+    print("=" * 80)
+
+    init_overhead_pct = (
+        (batch_inv_results["init_time"] - baseline_results["init_time"])
+        / baseline_results["init_time"]
+        * 100
+    )
+    time_overhead_pct = (
+        (batch_inv_results["avg_time"] - baseline_results["avg_time"])
+        / baseline_results["avg_time"]
+        * 100
+    )
+    throughput_change_pct = (
+        (batch_inv_results["throughput"] - baseline_results["throughput"])
+        / baseline_results["throughput"]
+        * 100
+    )
+
+    print("\nInitialization Time:")
+    print(f"  Baseline:         {baseline_results['init_time']:.2f}s")
+    print(f"  Batch Invariant:  {batch_inv_results['init_time']:.2f}s")
+    print(f"  Overhead:         {init_overhead_pct:+.2f}%")
+
+    print("\nAverage Trial Time:")
+    print(f"  Baseline:         {baseline_results['avg_time']:.2f}s")
+    print(f"  Batch Invariant:  {batch_inv_results['avg_time']:.2f}s")
+    print(f"  Overhead:         {time_overhead_pct:+.2f}%")
+
+    print("\nThroughput (tokens/s):")
+    print(f"  Baseline:         {baseline_results['throughput']:.2f}")
+    print(f"  Batch Invariant:  {batch_inv_results['throughput']:.2f}")
+    print(f"  Change:           {throughput_change_pct:+.2f}%")
+
+    print("\nPrompts/s:")
+    print(f"  Baseline:         {baseline_results['prompts_per_sec']:.2f}")
+    print(f"  Batch Invariant:  {batch_inv_results['prompts_per_sec']:.2f}")
+
+    print("\n" + "=" * 80)
+    print("SUMMARY")
+    print("=" * 80)
+    if time_overhead_pct > 0:
+        print(
+            f"Batch invariance mode adds approximately {time_overhead_pct:.1f}% "
+            "overhead"
+        )
+    else:
+        print(
+            f"Batch invariance mode is approximately {-time_overhead_pct:.1f}% "
+            "faster (unexpected!)"
+        )
+
+    if abs(throughput_change_pct) < 1.0:
+        print("Throughput difference is negligible (< 1%)")
+    elif throughput_change_pct < 0:
+        print(
+            f"Throughput decreased by {-throughput_change_pct:.1f}% "
+            "with batch invariance"
+        )
+    else:
+        print(
+            f"Throughput increased by {throughput_change_pct:.1f}% "
+            "with batch invariance (unexpected!)"
+        )
+
+    print("=" * 80 + "\n")
+
+    return 0
+
+
+if __name__ == "__main__":
+    exit(main())

From d231876ce31d8738a6e13a13591ae7d90d8b93f7 Mon Sep 17 00:00:00 2001
From: ai-jz <156989844+ai-jz@users.noreply.github.com>
Date: Sat, 15 Nov 2025 23:04:32 -0800
Subject: [PATCH 505/976] [Benchmark] Fix client seed synchronization in
 multi-turn benchmark (#28512)

Signed-off-by: ai-jz <aijz.xplr@gmail.com>
---
 benchmarks/multi_turn/benchmark_serving_multi_turn.py | 8 ++++++--
 1 file changed, 6 insertions(+), 2 deletions(-)

diff --git a/benchmarks/multi_turn/benchmark_serving_multi_turn.py b/benchmarks/multi_turn/benchmark_serving_multi_turn.py
index ae9e9753441aa..772d685ad90ff 100644
--- a/benchmarks/multi_turn/benchmark_serving_multi_turn.py
+++ b/benchmarks/multi_turn/benchmark_serving_multi_turn.py
@@ -561,8 +561,11 @@ async def client_main(
         f"{Color.CYAN}Started client {client_id}: max_num_requests={args.max_num_requests}, max_active_conversations={args.max_active_conversations}{Color.RESET}"  # noqa: E501
     )
 
-    random.seed(args.seed)
-    np.random.seed(args.seed)
+    # Set unique seed per client (each client runs in its own process)
+    # Add 1 to ensure no client uses the same seed as the main process
+    client_seed = args.seed + client_id + 1
+    random.seed(client_seed)
+    np.random.seed(client_seed)
 
     # Active conversations
     active_convs: ConversationsMap = {}
@@ -1490,6 +1493,7 @@ async def main() -> None:
             f"Invalid --warmup-percentage={args.warmup_percentage}"
         ) from None
 
+    # Set global seeds for main process
     random.seed(args.seed)
     np.random.seed(args.seed)
 

From a55b64635c272ff1f34d20593140faa1fcbe4580 Mon Sep 17 00:00:00 2001
From: "wang.yuqi" <yuqi.wang@daocloud.io>
Date: Sun, 16 Nov 2025 16:04:50 +0800
Subject: [PATCH 506/976] [Model] Allow users to control skip reading cache per
 request. (#28194)

Signed-off-by: wang.yuqi <yuqi.wang@daocloud.io>
Signed-off-by: wang.yuqi <noooop@126.com>
---
 .../pooling/test_extract_hidden_states.py     | 29 +++++++++++++++++--
 vllm/pooling_params.py                        | 12 ++++++++
 vllm/sampling_params.py                       |  8 +++++
 vllm/v1/core/kv_cache_manager.py              | 11 ++++---
 vllm/v1/request.py                            | 15 ++++++++++
 5 files changed, 67 insertions(+), 8 deletions(-)

diff --git a/tests/models/language/pooling/test_extract_hidden_states.py b/tests/models/language/pooling/test_extract_hidden_states.py
index f8e3fa7d1560f..0d41b93233d5a 100644
--- a/tests/models/language/pooling/test_extract_hidden_states.py
+++ b/tests/models/language/pooling/test_extract_hidden_states.py
@@ -11,7 +11,7 @@ from vllm import TokensPrompt
     ["Qwen/Qwen3-0.6B"],
 )
 @torch.inference_mode
-def test_embed_models(hf_runner, vllm_runner, model: str):
+def test_extract_hidden_states(hf_runner, vllm_runner, model: str):
     n_prompt_tokens = [55, 56, 57]
     token_prompts = [[1024 + i for i in range(n)] for n in n_prompt_tokens]
 
@@ -21,7 +21,7 @@ def test_embed_models(hf_runner, vllm_runner, model: str):
         enforce_eager=True,
         runner="pooling",
         enable_chunked_prefill=False,
-        enable_prefix_caching=False,
+        enable_prefix_caching=True,
     ) as vllm_model:
         pooling_outputs = vllm_model.llm.encode(
             [TokensPrompt(prompt_token_ids=t) for t in token_prompts],
@@ -30,4 +30,29 @@ def test_embed_models(hf_runner, vllm_runner, model: str):
 
         for n, output in zip(n_prompt_tokens, pooling_outputs):
             assert len(output.prompt_token_ids) == n
+            assert len(output.outputs.data) == n
             assert output.num_cached_tokens == 0
+
+        # test enable_prefix_caching plus all pooling
+        # we need to skip reading cache at this request by
+        # request.skip_reading_prefix_cache
+        pooling_outputs = vllm_model.llm.encode(
+            [TokensPrompt(prompt_token_ids=t) for t in token_prompts],
+            pooling_task="token_embed",
+        )
+
+        for n, output in zip(n_prompt_tokens, pooling_outputs):
+            assert len(output.prompt_token_ids) == n
+            assert len(output.outputs.data) == n
+            assert output.num_cached_tokens == 0
+
+        # skip_reading_prefix_cache can still write to cache
+        # to accelerate following requests
+        pooling_outputs = vllm_model.llm.encode(
+            [TokensPrompt(prompt_token_ids=t) for t in token_prompts],
+            pooling_task="embed",
+        )
+
+        for n, output in zip(n_prompt_tokens, pooling_outputs):
+            assert len(output.prompt_token_ids) == n
+            assert output.num_cached_tokens > 0
diff --git a/vllm/pooling_params.py b/vllm/pooling_params.py
index 72a8320cc1bf8..5c3dfa8ac9cbc 100644
--- a/vllm/pooling_params.py
+++ b/vllm/pooling_params.py
@@ -57,6 +57,7 @@ class PoolingParams(
     ## Internal use only
     task: PoolingTask | None = None
     requires_token_ids: bool = False
+    skip_reading_prefix_cache: bool = None
     extra_kwargs: dict[str, Any] | None = None
     output_kind: RequestOutputKind = RequestOutputKind.FINAL_ONLY
 
@@ -93,6 +94,8 @@ class PoolingParams(
         # plugin task uses io_processor.parse_request to verify inputs,
         # skipping PoolingParams verify
         if self.task == "plugin":
+            if self.skip_reading_prefix_cache is None:
+                self.skip_reading_prefix_cache = True
             return
 
         # NOTE: Task validation needs to done against the model instance,
@@ -122,6 +125,15 @@ class PoolingParams(
             if getattr(self, k, None) is None:
                 setattr(self, k, getattr(pooler_config, k))
 
+        if self.skip_reading_prefix_cache is None:
+            # If prefix caching is enabled,
+            # the output of all pooling may less than n_prompt_tokens,
+            # we need to skip reading cache at this request.
+            if self.task in ["token_embed", "token_classify"]:
+                self.skip_reading_prefix_cache = True
+            else:
+                self.skip_reading_prefix_cache = False
+
         self._verify_step_pooling(pooler_config, valid_parameters)
 
     def _verify_step_pooling(
diff --git a/vllm/sampling_params.py b/vllm/sampling_params.py
index dd820840410ed..901d661634527 100644
--- a/vllm/sampling_params.py
+++ b/vllm/sampling_params.py
@@ -254,6 +254,8 @@ class SamplingParams(
     generated token can complete the sequence."""
     _bad_words_token_ids: list[list[int]] | None = None
 
+    skip_reading_prefix_cache: bool = None
+
     @staticmethod
     def from_optional(
         n: int | None = 1,
@@ -414,6 +416,12 @@ class SamplingParams(
             self.structured_outputs = self.guided_decoding
             self.guided_decoding = None
 
+        if self.skip_reading_prefix_cache is None:
+            # If prefix caching is enabled,
+            # the output of prompt logprobs may less than n_prompt_tokens,
+            # we need to skip reading cache at this request.
+            self.skip_reading_prefix_cache = self.prompt_logprobs is not None
+
     def _verify_args(self) -> None:
         if not isinstance(self.n, int):
             raise ValueError(f"n must be an int, but is of type {type(self.n)}")
diff --git a/vllm/v1/core/kv_cache_manager.py b/vllm/v1/core/kv_cache_manager.py
index 63a1ff06e4049..7f405fc248ac2 100644
--- a/vllm/v1/core/kv_cache_manager.py
+++ b/vllm/v1/core/kv_cache_manager.py
@@ -185,12 +185,11 @@ class KVCacheManager:
                 - A list of blocks that are computed for the request.
                 - The number of computed tokens.
         """
-        # Prefix caching is disabled or
-        # When the request requires prompt logprobs, we skip prefix caching.
-        if not self.enable_caching or (
-            request.sampling_params is not None
-            and request.sampling_params.prompt_logprobs is not None
-        ):
+        # We skip finding the prefix cache hit when prefix caching is
+        # disabled or the request is marked as skipping kv cache read
+        # (which happens when the request requires prompt logprobs
+        # or calls a pooling model with all pooling).
+        if not self.enable_caching or request.skip_reading_prefix_cache:
             return self.empty_kv_cache_blocks, 0
 
         # NOTE: When all tokens hit the cache, we must recompute the last token
diff --git a/vllm/v1/request.py b/vllm/v1/request.py
index 7a5f1183ed48e..3d92906fbf4b1 100644
--- a/vllm/v1/request.py
+++ b/vllm/v1/request.py
@@ -127,6 +127,8 @@ class Request:
             self.get_hash_new_full_blocks = partial(block_hasher, self)
             self.block_hashes = self.get_hash_new_full_blocks()
 
+        self.skip_reading_prefix_cache = self.get_skip_reading_prefix_cache()
+
     @classmethod
     def from_engine_core_request(
         cls,
@@ -180,6 +182,19 @@ class Request:
     def num_output_tokens(self) -> int:
         return len(self._output_token_ids)
 
+    def get_skip_reading_prefix_cache(self) -> bool:
+        if (
+            self.sampling_params is not None
+            and self.sampling_params.skip_reading_prefix_cache is not None
+        ):
+            return self.sampling_params.skip_reading_prefix_cache
+        elif (
+            self.pooling_params is not None
+            and self.pooling_params.skip_reading_prefix_cache is not None
+        ):
+            return self.pooling_params.skip_reading_prefix_cache
+        return False
+
     def is_finished(self) -> bool:
         return RequestStatus.is_finished(self.status)
 

From b316ac658985f542618316b4285bd213dfdde046 Mon Sep 17 00:00:00 2001
From: Lucia Fang <116399278+luccafong@users.noreply.github.com>
Date: Sun, 16 Nov 2025 01:01:21 -0800
Subject: [PATCH 507/976] [V1] Support MP Executor for multi node distributed
 inference (#23691)

Signed-off-by: Lu Fang <fanglu@fb.com>
Signed-off-by: github-actions[bot] <github-actions[bot]@users.noreply.github.com>
Signed-off-by: Lucia Fang <fanglu@fb.com>
Signed-off-by: Lucia Fang <116399278+luccafong@users.noreply.github.com>
Signed-off-by: Nick Hill <nhill@redhat.com>
Co-authored-by: Nick Hill <nhill@redhat.com>
---
 tests/distributed/test_multiproc_executor.py  | 437 ++++++++++++++++++
 vllm/config/parallel.py                       |  40 ++
 .../device_communicators/shm_broadcast.py     | 110 ++++-
 vllm/distributed/parallel_state.py            |  77 ++-
 vllm/engine/arg_utils.py                      |  91 +++-
 vllm/entrypoints/cli/serve.py                 |  31 +-
 vllm/v1/engine/utils.py                       |  15 +-
 vllm/v1/executor/multiproc_executor.py        | 197 ++++++--
 vllm/v1/worker/gpu_worker.py                  |  10 +-
 vllm/v1/worker/worker_base.py                 |   4 +-
 10 files changed, 930 insertions(+), 82 deletions(-)
 create mode 100644 tests/distributed/test_multiproc_executor.py

diff --git a/tests/distributed/test_multiproc_executor.py b/tests/distributed/test_multiproc_executor.py
new file mode 100644
index 0000000000000..e741a79bc4ed9
--- /dev/null
+++ b/tests/distributed/test_multiproc_executor.py
@@ -0,0 +1,437 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+"""
+Integration tests for MultiprocExecutor at the executor level.
+This test directly tests the executor without going through the LLM interface,
+focusing on executor initialization, RPC calls, and distributed execution.
+"""
+
+import multiprocessing
+import os
+
+from tests.utils import multi_gpu_test
+from vllm.config import VllmConfig
+from vllm.engine.arg_utils import EngineArgs
+from vllm.utils import get_open_port
+from vllm.v1.core.sched.output import SchedulerOutput
+from vllm.v1.executor.multiproc_executor import MultiprocExecutor
+
+MODEL = "facebook/opt-125m"
+
+
+def create_vllm_config(
+    tensor_parallel_size: int = 1,
+    pipeline_parallel_size: int = 1,
+    max_model_len: int = 256,
+    gpu_memory_utilization: float = 0.3,
+    distributed_executor_backend: str = "mp",
+    nnodes: int = 1,
+    node_rank: int = 0,
+    master_port: int = 0,
+) -> VllmConfig:
+    """Create a VllmConfig for testing using EngineArgs."""
+    engine_args = EngineArgs(
+        model=MODEL,
+        tensor_parallel_size=tensor_parallel_size,
+        pipeline_parallel_size=pipeline_parallel_size,
+        max_model_len=max_model_len,
+        gpu_memory_utilization=gpu_memory_utilization,
+        distributed_executor_backend=distributed_executor_backend,
+        enforce_eager=True,
+    )
+    vllm_config = engine_args.create_engine_config()
+
+    # Override distributed node settings if needed
+    if nnodes > 1 or node_rank > 0:
+        vllm_config.parallel_config.nnodes = nnodes
+        vllm_config.parallel_config.node_rank = node_rank
+        vllm_config.parallel_config.master_port = master_port
+    if nnodes > 1:
+        vllm_config.parallel_config.disable_custom_all_reduce = True
+
+    return vllm_config
+
+
+def create_test_scheduler_output(num_requests: int = 1) -> SchedulerOutput:
+    """Create a minimal SchedulerOutput for testing."""
+    # This is a simplified version - in practice you'd need proper
+    # SchedulerOutput construction based on the actual vLLM v1 API
+    return SchedulerOutput(
+        scheduled_new_reqs=[],
+        scheduled_resumed_reqs=[],
+        scheduled_running_reqs=[],
+        num_scheduled_tokens={},
+        total_num_scheduled_tokens=0,
+    )
+
+
+def test_multiproc_executor_initialization():
+    """Test that MultiprocExecutor can be initialized with proper config."""
+    vllm_config = create_vllm_config(
+        tensor_parallel_size=1,
+        pipeline_parallel_size=1,
+    )
+
+    # Create executor - this should initialize workers
+    executor = MultiprocExecutor(vllm_config=vllm_config)
+
+    # Verify executor properties
+    assert executor.world_size == 1, "World size should be 1 for single GPU"
+    assert executor.local_world_size == 1, "Local world size should be 1"
+    assert hasattr(executor, "workers"), "Executor should have workers"
+    assert len(executor.workers) == 1, "Should have 1 worker for single GPU"
+
+    # Clean up
+    executor.shutdown()
+
+
+@multi_gpu_test(num_gpus=2)
+def test_multiproc_executor_initialization_tensor_parallel():
+    """Test MultiprocExecutor initialization with tensor parallelism."""
+    vllm_config = create_vllm_config(
+        tensor_parallel_size=2,
+        pipeline_parallel_size=1,
+    )
+
+    # Create executor
+    executor = MultiprocExecutor(vllm_config=vllm_config)
+
+    # Verify executor properties
+    assert executor.world_size == 2, "World size should be 2 for TP=2"
+    assert executor.local_world_size == 2, "Local world size should be 2"
+    assert len(executor.workers) == 2, "Should have 2 workers for TP=2"
+
+    # Verify output rank calculation
+    output_rank = executor._get_output_rank()
+    assert output_rank == 0, "Output rank should be 0 for TP=2, PP=1"
+
+    # Clean up
+    executor.shutdown()
+
+
+@multi_gpu_test(num_gpus=2)
+def test_multiproc_executor_collective_rpc():
+    """Test collective RPC calls to all workers."""
+    vllm_config = create_vllm_config(
+        tensor_parallel_size=2,
+        pipeline_parallel_size=1,
+    )
+
+    # Create executor
+    executor = MultiprocExecutor(vllm_config=vllm_config)
+
+    try:
+        # Test check_health RPC - should work without errors
+        executor.check_health()
+
+        # Test that RPC works correctly
+        # Note: We're just testing that the RPC mechanism works,
+        # not testing actual model execution here
+        assert not executor.is_failed, "Executor should not be in failed state"
+
+    finally:
+        # Clean up
+        executor.shutdown()
+
+
+def test_multiproc_executor_failure_callback():
+    """Test failure callback registration and invocation."""
+    vllm_config = create_vllm_config(
+        tensor_parallel_size=1,
+        pipeline_parallel_size=1,
+    )
+
+    executor = MultiprocExecutor(vllm_config=vllm_config)
+
+    try:
+        # Test callback registration
+        callback_invoked = []
+
+        def test_callback():
+            callback_invoked.append(True)
+
+        # Register callback
+        executor.register_failure_callback(test_callback)
+
+        # Callback should not be invoked yet
+        assert len(callback_invoked) == 0, "Callback should not be invoked immediately"
+
+        # Simulate failure
+        executor.is_failed = True
+
+        # Register another callback - should be invoked immediately
+        executor.register_failure_callback(test_callback)
+        assert len(callback_invoked) == 1, (
+            "Callback should be invoked when executor is failed"
+        )
+
+    finally:
+        # Clean up
+        executor.shutdown()
+
+
+@multi_gpu_test(num_gpus=2)
+def test_multiproc_executor_worker_monitor():
+    """Test that worker monitor is set up correctly."""
+    vllm_config = create_vllm_config(
+        tensor_parallel_size=2,
+        pipeline_parallel_size=1,
+    )
+
+    executor = MultiprocExecutor(vllm_config=vllm_config)
+
+    try:
+        # Verify all worker processes are alive
+        for worker in executor.workers:
+            assert worker.proc.is_alive(), f"Worker rank {worker.rank} should be alive"
+
+        # Verify executor is not in failed state
+        assert not executor.is_failed, "Executor should not be in failed state"
+
+    finally:
+        # Clean up
+        executor.shutdown()
+
+        # After shutdown, workers should be terminated
+        import time
+
+        time.sleep(0.5)  # Give processes time to terminate
+        for worker in executor.workers:
+            assert not worker.proc.is_alive(), (
+                f"Worker rank {worker.rank} should terminate after shutdown"
+            )
+
+
+@multi_gpu_test(num_gpus=2)
+def test_multiproc_executor_get_response_message_queues():
+    """Test message queue retrieval for different ranks."""
+    vllm_config = create_vllm_config(
+        tensor_parallel_size=2,
+        pipeline_parallel_size=1,
+    )
+
+    executor = MultiprocExecutor(vllm_config=vllm_config)
+
+    try:
+        # Get all message queues
+        all_queues = executor.get_response_mqs()
+        assert len(all_queues) == 2, "Should have 2 message queues for 2 workers"
+
+        # Get message queue for specific rank
+        rank0_queue = executor.get_response_mqs(unique_reply_rank=0)
+        assert len(rank0_queue) == 1, "Should have 1 message queue for rank 0"
+
+        rank1_queue = executor.get_response_mqs(unique_reply_rank=1)
+        assert len(rank1_queue) == 1, "Should have 1 message queue for rank 1"
+
+    finally:
+        # Clean up
+        executor.shutdown()
+
+
+def test_multiproc_executor_shutdown_cleanup():
+    """Test that shutdown properly cleans up resources."""
+    vllm_config = create_vllm_config(
+        tensor_parallel_size=1,
+        pipeline_parallel_size=1,
+    )
+
+    executor = MultiprocExecutor(vllm_config=vllm_config)
+
+    # Verify executor is set up
+    assert hasattr(executor, "workers"), "Executor should have workers"
+    assert len(executor.workers) > 0, "Should have at least one worker"
+
+    # Shutdown
+    executor.shutdown()
+
+    # Verify cleanup
+    import time
+
+    time.sleep(0.5)  # Give processes time to terminate
+
+    for worker in executor.workers:
+        assert not worker.proc.is_alive(), "Worker processes should be terminated"
+
+    # Verify shutdown event is set
+    assert executor.shutdown_event.is_set(), "Shutdown event should be set"
+
+    # Multiple shutdowns should be safe (idempotent)
+    executor.shutdown()
+    executor.shutdown()
+
+
+@multi_gpu_test(num_gpus=4)
+def test_multiproc_executor_pipeline_parallel():
+    """Test MultiprocExecutor with pipeline parallelism."""
+    vllm_config = create_vllm_config(
+        tensor_parallel_size=2,
+        pipeline_parallel_size=2,
+    )
+
+    executor = MultiprocExecutor(vllm_config=vllm_config)
+
+    try:
+        # Verify executor properties
+        assert executor.world_size == 4, "World size should be 4 for TP=2, PP=2"
+        assert len(executor.workers) == 4, "Should have 4 workers"
+
+        # Verify output rank calculation
+        # For TP=2, PP=2: output should be from the last PP stage (ranks 2-3)
+        # Specifically rank 2 (first rank of last PP stage)
+        output_rank = executor._get_output_rank()
+        assert output_rank == 2, "Output rank should be 2 (first rank of last PP stage)"
+
+        # Verify max_concurrent_batches for pipeline parallel
+        assert executor.max_concurrent_batches == 2, (
+            "Max concurrent batches should equal PP size"
+        )
+
+    finally:
+        # Clean up
+        executor.shutdown()
+
+
+def test_multiproc_executor_properties():
+    """Test various executor properties and configurations."""
+    vllm_config = create_vllm_config(
+        tensor_parallel_size=1,
+        pipeline_parallel_size=1,
+    )
+
+    executor = MultiprocExecutor(vllm_config=vllm_config)
+
+    try:
+        # Test supports_pp property
+        assert MultiprocExecutor.supports_pp is True, (
+            "MultiprocExecutor should support pipeline parallelism"
+        )
+
+        # Test world_size calculation
+        assert executor.world_size == (
+            executor.parallel_config.tensor_parallel_size
+            * executor.parallel_config.pipeline_parallel_size
+        ), "World size should equal TP * PP"
+
+        # Test local_world_size calculation
+        assert executor.local_world_size == (
+            executor.parallel_config.world_size // executor.parallel_config.nnodes
+        ), "Local world size should be world_size / nnodes"
+
+    finally:
+        # Clean up
+        executor.shutdown()
+
+
+@multi_gpu_test(num_gpus=4)
+def test_multiproc_executor_multi_node():
+    """
+    Test MultiprocExecutor with multi-node configuration.
+    This simulates 2 nodes with TP=4:
+    - Node 0 (rank 0): Uses GPUs 0,1 (CUDA_VISIBLE_DEVICES=0,1) with TP=2
+    - Node 1 (rank 1): Uses GPUs 2,3 (CUDA_VISIBLE_DEVICES=2,3) with TP=2
+    Total world_size = 4, nnodes = 2
+    """
+    port = get_open_port()
+    # symm_mem does not work for simulating multi instance in single node
+    os.environ["VLLM_ALLREDUCE_USE_SYMM_MEM"] = "0"
+
+    def run_node(node_rank: int, result_queue: multiprocessing.Queue, port: int):
+        """Run a single node's executor."""
+        executor = None
+        try:
+            # Set CUDA_VISIBLE_DEVICES for this node
+            if node_rank == 0:
+                os.environ["CUDA_VISIBLE_DEVICES"] = "0,1"
+            else:
+                os.environ["CUDA_VISIBLE_DEVICES"] = "2,3"
+
+            # Create config for this node
+            vllm_config = create_vllm_config(
+                tensor_parallel_size=4,  # Total TP across all nodes
+                pipeline_parallel_size=1,
+                nnodes=2,  # 2 nodes
+                node_rank=node_rank,
+                master_port=port,  # same port
+            )
+
+            # Create executor for this node
+            executor = MultiprocExecutor(vllm_config=vllm_config)
+
+            # Verify node-specific properties
+            assert executor.world_size == 4, (
+                f"World size should be 4 on node {node_rank}"
+            )
+            assert executor.local_world_size == 2, (
+                f"Local world size should be 2 on node {node_rank}"
+            )
+            assert len(executor.workers) == 2, (
+                f"Should have 2 local workers on node {node_rank}"
+            )
+
+            # Verify worker ranks are correct for this node
+            expected_ranks = [node_rank * 2, node_rank * 2 + 1]
+            actual_ranks = sorted([w.rank for w in executor.workers])
+            assert actual_ranks == expected_ranks, (
+                f"Node {node_rank} should have workers "
+                f"with ranks {expected_ranks}, got {actual_ranks}"
+            )
+            # Verify all workers are alive
+            for worker in executor.workers:
+                assert worker.proc.is_alive(), (
+                    f"Worker rank {worker.rank} should be alive on node {node_rank}"
+                )
+            # executor.gen
+            # Put success result in queue BEFORE shutdown to avoid hanging
+            result_queue.put({"node": node_rank, "success": True})
+            import time
+
+            time.sleep(2)
+            executor.shutdown()
+        except Exception as e:
+            # Put failure result in queue
+            result_queue.put({"node": node_rank, "success": False, "error": str(e)})
+            raise e
+        finally:
+            if executor is not None:
+                executor.shutdown()
+
+    # Create a queue to collect results from both processes
+    result_queue: multiprocessing.Queue[dict[str, int | bool]] = multiprocessing.Queue()
+
+    # Start both node processes
+    processes = []
+    for node_rank in range(2):
+        p = multiprocessing.Process(
+            target=run_node,
+            args=(node_rank, result_queue, port),
+            name=f"Node{node_rank}",
+        )
+        p.start()
+        processes.append(p)
+
+    # Wait for both processes to complete
+    all_completed = True
+    for p in processes:
+        p.join(timeout=60)
+        if p.is_alive():
+            p.terminate()
+            p.join(timeout=20)
+            if p.is_alive():
+                p.kill()
+                p.join()
+            all_completed = False
+
+    # Check results from both nodes
+    results: list[dict[str, int | bool]] = []
+    while len(results) < 2:
+        try:
+            result = result_queue.get(timeout=1)
+            results.append(result)
+        except Exception:
+            pass
+    assert all_completed, "Not all processes completed successfully"
+    assert len(results) == 2, f"Expected 2 results, got {len(results)}"
+    assert results[0]["success"], f"Node 0 failed: {results[0]}"
+    assert results[1]["success"], f"Node 1 failed: {results[1]}"
diff --git a/vllm/config/parallel.py b/vllm/config/parallel.py
index 61bcd15e06a84..9a6326d62e82e 100644
--- a/vllm/config/parallel.py
+++ b/vllm/config/parallel.py
@@ -210,6 +210,18 @@ class ParallelConfig:
     class is dynamically inherited by the worker class. This is used to inject
     new attributes and methods to the worker class for use in collective_rpc
     calls."""
+    master_addr: str = "127.0.0.1"
+    """distributed master address for multi-node distributed 
+    inference when distributed_executor_backend is mp."""
+    master_port: int = 29501
+    """distributed master port for multi-node distributed 
+    inference when distributed_executor_backend is mp."""
+    node_rank: int = 0
+    """distributed node rank for multi-node distributed 
+    inference when distributed_executor_backend is mp."""
+    nnodes: int = 1
+    """num of nodes for multi-node distributed 
+    inference when distributed_executor_backend is mp."""
 
     world_size: int = Field(init=False)
     """world_size is TPxPP, it affects the number of workers we create."""
@@ -387,6 +399,23 @@ class ParallelConfig:
             and self.data_parallel_size > 1
         )
 
+    @property
+    def node_rank_within_dp(self) -> int:
+        return self.node_rank % self.nnodes_within_dp
+
+    @property
+    def nnodes_within_dp(self) -> int:
+        if self.nnodes == 1:
+            return 1
+        data_parallel_node_size = (
+            self.data_parallel_size // self.data_parallel_size_local
+        )
+        return self.nnodes // data_parallel_node_size
+
+    @property
+    def local_world_size(self) -> int:
+        return self.world_size // self.nnodes_within_dp
+
     @staticmethod
     def has_unfinished_dp(dp_group: ProcessGroup, has_unfinished: bool) -> bool:
         tensor = torch.tensor([has_unfinished], dtype=torch.int32, device="cpu")
@@ -528,6 +557,8 @@ class ParallelConfig:
             ray_found = ray_utils.ray_is_available()
             if current_platform.is_tpu() and envs.VLLM_XLA_USE_SPMD:
                 backend = "uni"
+            elif current_platform.is_cuda() and self.nnodes > 1:
+                backend = "mp"
             elif (
                 current_platform.is_cuda()
                 and cuda_device_count_stateless() < self.world_size
@@ -565,6 +596,10 @@ class ParallelConfig:
                 "max_parallel_loading_workers is currently "
                 "not supported and will be ignored."
             )
+        if self.distributed_executor_backend != "mp" and self.nnodes > 1:
+            raise ValueError(
+                "nnodes > 1 can only be set when distributed exectuor backend is mp."
+            )
 
     @property
     def use_ray(self) -> bool:
@@ -607,6 +642,11 @@ class ParallelConfig:
                 "Disabled the custom all-reduce kernel because it is not "
                 "supported on current platform."
             )
+        if self.nnodes > 1:
+            self.disable_custom_all_reduce = True
+            logger.debug(
+                "Disabled the custom all-reduce since we are running on multi-node."
+            )
         if self.ray_workers_use_nsight and not self.use_ray:
             raise ValueError(
                 "Unable to use nsight profiling unless workers run with Ray."
diff --git a/vllm/distributed/device_communicators/shm_broadcast.py b/vllm/distributed/device_communicators/shm_broadcast.py
index 5046cac2e90a7..052df19e34d72 100644
--- a/vllm/distributed/device_communicators/shm_broadcast.py
+++ b/vllm/distributed/device_communicators/shm_broadcast.py
@@ -8,7 +8,7 @@ from dataclasses import dataclass, field
 from multiprocessing import shared_memory
 from pickle import PickleBuffer
 from threading import Event
-from typing import TYPE_CHECKING, Any
+from typing import TYPE_CHECKING, Any, cast
 from unittest.mock import patch
 
 import torch
@@ -602,13 +602,87 @@ class MessageQueue:
             return obj
         return self.dequeue()
 
+    @staticmethod
+    def create_from_process_group_single_reader(
+        pg: ProcessGroup,
+        max_chunk_bytes,
+        max_chunks,
+        reader_rank: int = 0,
+        blocking: bool = False,
+    ) -> tuple["MessageQueue", list[Handle]]:
+        """
+        Creates a MessageQueue for a process group with a single reader.
+
+        This method is designed for scenarios where only one process (the reader)
+        will consume messages, and all other processes are writers. It sets up
+        the shared memory buffer and communication handles accordingly, and
+        gathers the handles from all processes to the reader.
+
+        Args:
+            pg (ProcessGroup): The torch distributed process group.
+            max_chunk_bytes (int): Maximum size in bytes for each chunk in the buffer.
+            max_chunks (int): Maximum number of chunks in the buffer.
+            reader_rank (int, optional): The global rank that will act as the reader.
+                Defaults to 0.
+            blocking (bool, optional): If True, blocks until all processes are ready.
+                Defaults to False.
+
+        Returns:
+            tuple[MessageQueue, list[Handle]]:
+            The MessageQueue instance for the calling process,
+            and a list of handles (only non-empty for the reader process).
+        """
+        local_size = torch.cuda.device_count()
+        rank = dist.get_rank()
+        same_node = rank // local_size == reader_rank // local_size
+        buffer_io = MessageQueue(
+            n_reader=1,
+            n_local_reader=1 if same_node else 0,
+            max_chunk_bytes=max_chunk_bytes,
+            max_chunks=max_chunks,
+        )
+        handle = buffer_io.export_handle()
+        handles = [None] * dist.get_world_size(pg) if rank == reader_rank else None
+        dist.gather_object(handle, handles, dst=reader_rank, group=pg)
+        if blocking:
+            buffer_io.wait_until_ready()
+        return buffer_io, cast(list[Handle], handles or [])
+
     @staticmethod
     def create_from_process_group(
         pg: ProcessGroup | StatelessProcessGroup,
         max_chunk_bytes,
         max_chunks,
-        writer_rank=0,
+        writer_rank: int = 0,
+        external_writer_handle=None,
+        blocking: bool = True,
     ) -> "MessageQueue":
+        """
+        Creates a MessageQueue for a distributed process group with one writer and
+        multiple readers.
+
+        This method is designed for scenarios where one process (the writer) sends
+        messages, and all other processes (the readers) receive messages. It sets up
+        the shared memory buffer and socket communication handles accordingly, and
+        broadcasts the handle from the writer to all readers.
+
+        Args:
+            pg (ProcessGroup | StatelessProcessGroup): The torch distributed process
+                group.
+            max_chunk_bytes (int): Maximum size in bytes for each chunk in the buffer.
+            max_chunks (int): Maximum number of chunks in the buffer.
+            writer_rank (int, optional): The global rank that will act as the writer.
+                Defaults to 0.
+            external_writer_handle (Handle, optional): Used when there is a handle
+                from an external Message Queue. If provided, use this handle to init
+                PG writer message queue instead of creating a new one. Defaults to None.
+            blocking (bool, optional): If True, blocks until all processes are ready.
+                Defaults to True.
+
+        Returns:
+            MessageQueue: The MessageQueue instance for the calling process.
+
+        """
         if isinstance(pg, ProcessGroup):
             group_rank = dist.get_rank(pg)
             group_world_size = dist.get_world_size(pg)
@@ -617,23 +691,26 @@ class MessageQueue:
             group_rank = pg.rank
             group_world_size = pg.world_size
             global_ranks = list(range(pg.world_size))
-
         from vllm.distributed.parallel_state import in_the_same_node_as
 
         status = in_the_same_node_as(pg, source_rank=writer_rank)
-        same_node_ranks = [i for i, s in enumerate(status) if s]
-        n_reader = group_world_size - 1
-        n_local_reader = len(same_node_ranks) - 1
-        local_reader_ranks = [i for i in same_node_ranks if i != writer_rank]
-        buffer_io: MessageQueue
         if group_rank == writer_rank:
-            buffer_io = MessageQueue(
-                n_reader=n_reader,
-                n_local_reader=n_local_reader,
-                local_reader_ranks=local_reader_ranks,
-                max_chunk_bytes=max_chunk_bytes,
-                max_chunks=max_chunks,
-            )
+            if external_writer_handle is not None:
+                buffer_io = MessageQueue.create_from_handle(
+                    external_writer_handle, group_rank
+                )
+            else:
+                same_node_ranks = [i for i, s in enumerate(status) if s]
+                n_reader = group_world_size - 1
+                n_local_reader = len(same_node_ranks) - 1
+                local_reader_ranks = [i for i in same_node_ranks if i != writer_rank]
+                buffer_io = MessageQueue(
+                    n_reader=n_reader,
+                    n_local_reader=n_local_reader,
+                    local_reader_ranks=local_reader_ranks,
+                    max_chunk_bytes=max_chunk_bytes,
+                    max_chunks=max_chunks,
+                )
             handle = buffer_io.export_handle()
             if isinstance(pg, ProcessGroup):
                 dist.broadcast_object_list(
@@ -651,5 +728,6 @@ class MessageQueue:
             else:
                 handle = pg.broadcast_obj(None, writer_rank)
             buffer_io = MessageQueue.create_from_handle(handle, group_rank)
-        buffer_io.wait_until_ready()
+        if blocking:
+            buffer_io.wait_until_ready()
         return buffer_io
diff --git a/vllm/distributed/parallel_state.py b/vllm/distributed/parallel_state.py
index c78e6a32733c1..852c4c644433f 100644
--- a/vllm/distributed/parallel_state.py
+++ b/vllm/distributed/parallel_state.py
@@ -385,6 +385,33 @@ class GroupCoordinator:
             torch.ops._C, "init_shm_manager"
         )
 
+    def create_mq_broadcaster(
+        self, writer_rank=0, external_writer_handle=None, blocking=True
+    ):
+        from vllm.distributed.device_communicators.shm_broadcast import MessageQueue
+
+        return MessageQueue.create_from_process_group(
+            self.cpu_group,
+            1 << 22,
+            6,
+            writer_rank=writer_rank,
+            external_writer_handle=external_writer_handle,
+            blocking=blocking,
+        )
+
+    def create_single_reader_mq_broadcasters(
+        self, reader_rank_in_group=0, blocking=False
+    ):
+        from vllm.distributed.device_communicators.shm_broadcast import MessageQueue
+
+        return MessageQueue.create_from_process_group_single_reader(
+            self.cpu_group,
+            1 << 22,
+            6,
+            reader_rank=self.ranks[reader_rank_in_group],
+            blocking=blocking,
+        )
+
     @property
     def first_rank(self):
         """Return the global rank of the first process in the group"""
@@ -997,6 +1024,7 @@ class GroupCoordinator:
 
 
 _WORLD: GroupCoordinator | None = None
+_INNER_DP_WORLD: GroupCoordinator | None = None
 _NODE_COUNT: int | None = None
 
 
@@ -1005,6 +1033,11 @@ def get_world_group() -> GroupCoordinator:
     return _WORLD
 
 
+def get_inner_dp_world_group() -> GroupCoordinator:
+    assert _INNER_DP_WORLD is not None, "inner dp world group is not initialized"
+    return _INNER_DP_WORLD
+
+
 def init_world_group(
     ranks: list[int], local_rank: int, backend: str
 ) -> GroupCoordinator:
@@ -1023,12 +1056,13 @@ def init_model_parallel_group(
     backend: str,
     use_message_queue_broadcaster: bool = False,
     group_name: str | None = None,
+    use_device_communicator: bool = True,
 ) -> GroupCoordinator:
     return GroupCoordinator(
         group_ranks=group_ranks,
         local_rank=local_rank,
         torch_distributed_backend=backend,
-        use_device_communicator=True,
+        use_device_communicator=use_device_communicator,
         use_message_queue_broadcaster=use_message_queue_broadcaster,
         group_name=group_name,
     )
@@ -1143,7 +1177,14 @@ def init_distributed_environment(
     from vllm.config import get_current_vllm_config
 
     config = get_current_vllm_config()
-    if (
+    if config is not None and config.parallel_config.nnodes > 1:
+        parallel_config = config.parallel_config
+        ip = parallel_config.master_addr
+        rank = parallel_config.data_parallel_rank * world_size + rank
+        world_size = parallel_config.world_size_across_dp
+        port = parallel_config.master_port
+        distributed_init_method = get_distributed_init_method(ip, port)
+    elif (
         config is not None
         and config.parallel_config.data_parallel_size > 1
         and config.parallel_config.distributed_executor_backend != "external_launcher"
@@ -1164,6 +1205,14 @@ def init_distributed_environment(
             distributed_init_method,
         )
     if not torch.distributed.is_initialized():
+        logger.info(
+            "world_size=%d rank=%d local_rank=%d distributed_init_method=%s backend=%s",
+            world_size,
+            rank,
+            local_rank,
+            distributed_init_method,
+            backend,
+        )
         assert distributed_init_method is not None, (
             "distributed_init_method must be provided when initializing "
             "distributed environment"
@@ -1192,16 +1241,36 @@ def init_distributed_environment(
         # local rank not set, this usually happens in single-node
         # setting, where we can use rank as local rank
         local_rank = envs.LOCAL_RANK if distributed_init_method == "env://" else rank
-    global _WORLD, _NODE_COUNT
+    global _WORLD, _NODE_COUNT, _INNER_DP_WORLD
     if _WORLD is None:
         ranks = list(range(torch.distributed.get_world_size()))
         _WORLD = init_world_group(ranks, local_rank, backend)
-        _NODE_COUNT = _node_count(_WORLD.cpu_group)
+        if config.parallel_config.nnodes > 1:
+            _NODE_COUNT = config.parallel_config.nnodes
+        else:
+            _NODE_COUNT = _node_count(_WORLD.cpu_group)
         logger.debug("Detected %d nodes in the distributed environment", _NODE_COUNT)
     else:
         assert _WORLD.world_size == torch.distributed.get_world_size(), (
             "world group already initialized with a different world size"
         )
+    if config.parallel_config.nnodes_within_dp > 1:
+        if parallel_config.data_parallel_size > 1:
+            world_size_inner_dp = parallel_config.world_size
+            group_ranks = [
+                [dp_rank * world_size_inner_dp + i for i in range(world_size_inner_dp)]
+                for dp_rank in range(parallel_config.data_parallel_size)
+            ]
+            _INNER_DP_WORLD = init_model_parallel_group(
+                group_ranks,
+                get_world_group().local_rank,
+                backend,
+                use_message_queue_broadcaster=True,
+                group_name="inner_dp_world",
+                use_device_communicator=False,
+            )
+        else:
+            _INNER_DP_WORLD = _WORLD
 
 
 def initialize_model_parallel(
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index 999ed780c20bf..d011dfdbfbb2e 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -384,6 +384,10 @@ class EngineArgs:
     ) = ParallelConfig.distributed_executor_backend
     # number of P/D disaggregation (or other disaggregation) workers
     pipeline_parallel_size: int = ParallelConfig.pipeline_parallel_size
+    master_addr: str = ParallelConfig.master_addr
+    master_port: int = ParallelConfig.master_port
+    nnodes: int = ParallelConfig.nnodes
+    node_rank: int = ParallelConfig.node_rank
     tensor_parallel_size: int = ParallelConfig.tensor_parallel_size
     decode_context_parallel_size: int = ParallelConfig.decode_context_parallel_size
     dcp_kv_cache_interleave_size: int = ParallelConfig.dcp_kv_cache_interleave_size
@@ -394,6 +398,7 @@ class EngineArgs:
     data_parallel_address: str | None = None
     data_parallel_rpc_port: int | None = None
     data_parallel_hybrid_lb: bool = False
+    data_parallel_external_lb: bool = False
     data_parallel_backend: str = ParallelConfig.data_parallel_backend
     enable_expert_parallel: bool = ParallelConfig.enable_expert_parallel
     all2all_backend: str | None = ParallelConfig.all2all_backend
@@ -749,6 +754,10 @@ class EngineArgs:
             "-pp",
             **parallel_kwargs["pipeline_parallel_size"],
         )
+        parallel_group.add_argument("--master-addr", **parallel_kwargs["master_addr"])
+        parallel_group.add_argument("--master-port", **parallel_kwargs["master_port"])
+        parallel_group.add_argument("--nnodes", "-n", **parallel_kwargs["nnodes"])
+        parallel_group.add_argument("--node-rank", "-r", **parallel_kwargs["node_rank"])
         parallel_group.add_argument(
             "--tensor-parallel-size", "-tp", **parallel_kwargs["tensor_parallel_size"]
         )
@@ -803,7 +812,14 @@ class EngineArgs:
             help='Backend for data parallel, either "mp" or "ray".',
         )
         parallel_group.add_argument(
-            "--data-parallel-hybrid-lb", **parallel_kwargs["data_parallel_hybrid_lb"]
+            "--data-parallel-hybrid-lb",
+            "-dph",
+            **parallel_kwargs["data_parallel_hybrid_lb"],
+        )
+        parallel_group.add_argument(
+            "--data-parallel-external-lb",
+            "-dpe",
+            **parallel_kwargs["data_parallel_external_lb"],
         )
         parallel_group.add_argument(
             "--enable-expert-parallel", **parallel_kwargs["enable_expert_parallel"]
@@ -1428,12 +1444,56 @@ class EngineArgs:
         assert not headless or not self.data_parallel_hybrid_lb, (
             "data_parallel_hybrid_lb is not applicable in headless mode"
         )
-
-        data_parallel_external_lb = self.data_parallel_rank is not None
+        assert not (self.data_parallel_hybrid_lb and self.data_parallel_external_lb), (
+            "data_parallel_hybrid_lb and data_parallel_external_lb cannot both be True."
+        )
+        assert self.data_parallel_backend == "mp" or self.nnodes == 1, (
+            "nnodes > 1 is only supported with data_parallel_backend=mp"
+        )
+        inferred_data_parallel_rank = 0
+        if self.nnodes > 1:
+            world_size = (
+                self.data_parallel_size
+                * self.pipeline_parallel_size
+                * self.tensor_parallel_size
+            )
+            world_size_within_dp = (
+                self.pipeline_parallel_size * self.tensor_parallel_size
+            )
+            local_world_size = world_size // self.nnodes
+            assert world_size % self.nnodes == 0, (
+                f"world_size={world_size} must be divisible by nnodes={self.nnodes}."
+            )
+            assert self.node_rank < self.nnodes, (
+                f"node_rank={self.node_rank} must be less than nnodes={self.nnodes}."
+            )
+            inferred_data_parallel_rank = (
+                self.node_rank * local_world_size
+            ) // world_size_within_dp
+            if self.data_parallel_size > 1 and self.data_parallel_external_lb:
+                self.data_parallel_rank = inferred_data_parallel_rank
+                logger.info(
+                    "Inferred data_parallel_rank %d from node_rank %d for external lb",
+                    self.data_parallel_rank,
+                    self.node_rank,
+                )
+            elif self.data_parallel_size_local is None:
+                # Infer data parallel size local for internal dplb:
+                self.data_parallel_size_local = max(
+                    local_world_size // world_size_within_dp, 1
+                )
+        data_parallel_external_lb = (
+            self.data_parallel_external_lb or self.data_parallel_rank is not None
+        )
         # Local DP rank = 1, use pure-external LB.
         if data_parallel_external_lb:
+            assert self.data_parallel_rank is not None, (
+                "data_parallel_rank or node_rank must be spefified if "
+                "data_parallel_external_lb is enable."
+            )
             assert self.data_parallel_size_local in (1, None), (
-                "data_parallel_size_local must be 1 when data_parallel_rank is set"
+                "data_parallel_size_local must be 1 or None when data_parallel_rank "
+                "is set"
             )
             data_parallel_size_local = 1
             # Use full external lb if we have local_size of 1.
@@ -1447,6 +1507,11 @@ class EngineArgs:
 
             if self.data_parallel_hybrid_lb and data_parallel_size_local == 1:
                 # Use full external lb if we have local_size of 1.
+                logger.warning(
+                    "data_parallel_hybrid_lb is not eligible when "
+                    "data_parallel_size_local = 1, autoswitch to "
+                    "data_parallel_external_lb."
+                )
                 data_parallel_external_lb = True
                 self.data_parallel_hybrid_lb = False
 
@@ -1454,7 +1519,15 @@ class EngineArgs:
                 # Disable hybrid LB mode if set for a single node
                 self.data_parallel_hybrid_lb = False
 
-            self.data_parallel_rank = self.data_parallel_start_rank or 0
+            self.data_parallel_rank = (
+                self.data_parallel_start_rank or inferred_data_parallel_rank
+            )
+            if self.nnodes > 1:
+                logger.info(
+                    "Inferred data_parallel_rank %d from node_rank %d",
+                    self.data_parallel_rank,
+                    self.node_rank,
+                )
         else:
             assert not self.data_parallel_hybrid_lb, (
                 "data_parallel_size_local must be set to use data_parallel_hybrid_lb."
@@ -1484,7 +1557,9 @@ class EngineArgs:
                     "data_parallel_backend can only be ray or mp, got %s",
                     self.data_parallel_backend,
                 )
-                data_parallel_address = ParallelConfig.data_parallel_master_ip
+                data_parallel_address = (
+                    self.master_addr or ParallelConfig.data_parallel_master_ip
+                )
         else:
             data_parallel_address = self.data_parallel_address
 
@@ -1517,6 +1592,10 @@ class EngineArgs:
             data_parallel_rank=self.data_parallel_rank or 0,
             data_parallel_external_lb=data_parallel_external_lb,
             data_parallel_size_local=data_parallel_size_local,
+            master_addr=self.master_addr,
+            master_port=self.master_port,
+            nnodes=self.nnodes,
+            node_rank=self.node_rank,
             data_parallel_master_ip=data_parallel_address,
             data_parallel_rpc_port=data_parallel_rpc_port,
             data_parallel_backend=self.data_parallel_backend,
diff --git a/vllm/entrypoints/cli/serve.py b/vllm/entrypoints/cli/serve.py
index 2678658dd1262..96608f360e17b 100644
--- a/vllm/entrypoints/cli/serve.py
+++ b/vllm/entrypoints/cli/serve.py
@@ -24,6 +24,7 @@ from vllm.utils.system_utils import decorate_logs, set_process_title
 from vllm.v1.engine.core import EngineCoreProc
 from vllm.v1.engine.utils import CoreEngineProcManager, launch_core_engines
 from vllm.v1.executor import Executor
+from vllm.v1.executor.multiproc_executor import MultiprocExecutor
 from vllm.v1.metrics.prometheus import setup_multiprocess_prometheus
 from vllm.v1.utils import APIServerProcessManager, wait_for_completion_or_failure
 
@@ -97,18 +98,40 @@ def run_headless(args: argparse.Namespace):
     if local_engine_count <= 0:
         raise ValueError("data_parallel_size_local must be > 0 in headless mode")
 
-    host = parallel_config.data_parallel_master_ip
-    port = engine_args.data_parallel_rpc_port  # add to config too
-    handshake_address = get_tcp_uri(host, port)
+    shutdown_requested = False
 
     # Catch SIGTERM and SIGINT to allow graceful shutdown.
     def signal_handler(signum, frame):
+        nonlocal shutdown_requested
         logger.debug("Received %d signal.", signum)
-        raise SystemExit
+        if not shutdown_requested:
+            shutdown_requested = True
+            raise SystemExit
 
     signal.signal(signal.SIGTERM, signal_handler)
     signal.signal(signal.SIGINT, signal_handler)
 
+    if parallel_config.node_rank_within_dp > 0:
+        from vllm.version import __version__ as VLLM_VERSION
+
+        # Run headless workers (for multi-node PP/TP).
+        host = parallel_config.master_addr
+        head_node_address = f"{host}:{parallel_config.master_port}"
+        logger.info(
+            "Launching vLLM (v%s) headless multiproc executor, "
+            "with head node address %s for torch.distributed process group.",
+            VLLM_VERSION,
+            head_node_address,
+        )
+
+        executor = MultiprocExecutor(vllm_config, monitor_workers=False)
+        executor.start_worker_monitor(inline=True)
+        return
+
+    host = parallel_config.data_parallel_master_ip
+    port = parallel_config.data_parallel_rpc_port
+    handshake_address = get_tcp_uri(host, port)
+
     logger.info(
         "Launching %d data parallel engine(s) in headless mode, "
         "with head node address %s.",
diff --git a/vllm/v1/engine/utils.py b/vllm/v1/engine/utils.py
index e74519b21aa6e..d65cad7af03d6 100644
--- a/vllm/v1/engine/utils.py
+++ b/vllm/v1/engine/utils.py
@@ -183,15 +183,19 @@ def set_device_control_env_var(
     for engine subprocess.
     """
     world_size = vllm_config.parallel_config.world_size
+    local_world_size = vllm_config.parallel_config.local_world_size
     evar = current_platform.device_control_env_var
 
-    value = get_device_indices(evar, local_dp_rank, world_size)
+    value = get_device_indices(evar, local_dp_rank, world_size, local_world_size)
     with patch.dict(os.environ, values=((evar, value),)):
         yield
 
 
 def get_device_indices(
-    device_control_env_var: str, local_dp_rank: int, world_size: int
+    device_control_env_var: str,
+    local_dp_rank: int,
+    world_size: int,
+    local_world_size: int | None = None,
 ):
     """
     Returns a comma-separated string of device indices for the specified
@@ -200,10 +204,15 @@ def get_device_indices(
     For example, if world_size=2 and local_dp_rank=1, and there are 4 devices,
     this will select devices 2 and 3 for local_dp_rank=1.
     """
+    if local_world_size is None:
+        local_world_size = world_size
     try:
         value = ",".join(
             str(current_platform.device_id_to_physical_device_id(i))
-            for i in range(local_dp_rank * world_size, (local_dp_rank + 1) * world_size)
+            for i in range(
+                local_dp_rank * world_size,
+                local_dp_rank * world_size + local_world_size,
+            )
         )
     except IndexError as e:
         raise Exception(
diff --git a/vllm/v1/executor/multiproc_executor.py b/vllm/v1/executor/multiproc_executor.py
index 881e6ef40aaf0..ad2ece50f9815 100644
--- a/vllm/v1/executor/multiproc_executor.py
+++ b/vllm/v1/executor/multiproc_executor.py
@@ -10,7 +10,7 @@ import time
 import traceback
 import weakref
 from collections import deque
-from collections.abc import Callable
+from collections.abc import Callable, Sequence
 from concurrent.futures import Future, InvalidStateError
 from contextlib import suppress
 from dataclasses import dataclass
@@ -34,6 +34,7 @@ from vllm.distributed.parallel_state import (
     get_dcp_group,
     get_dp_group,
     get_ep_group,
+    get_inner_dp_world_group,
     get_pp_group,
     get_tp_group,
 )
@@ -90,6 +91,10 @@ class FutureWrapper(Future):
 class MultiprocExecutor(Executor):
     supports_pp: bool = True
 
+    def __init__(self, vllm_config: VllmConfig, monitor_workers: bool = True):
+        self.monitor_workers = monitor_workers
+        super().__init__(vllm_config)
+
     def _init_executor(self) -> None:
         # Call self.shutdown at exit to clean up
         # and ensure workers will be terminated.
@@ -99,6 +104,12 @@ class MultiprocExecutor(Executor):
         self.failure_callback: FailureCallback | None = None
 
         self.world_size = self.parallel_config.world_size
+        assert self.world_size % self.parallel_config.nnodes_within_dp == 0, (
+            f"global world_size ({self.parallel_config.world_size}) must be "
+            f"divisible by nnodes_within_dp "
+            f"({self.parallel_config.nnodes_within_dp}). "
+        )
+        self.local_world_size = self.parallel_config.local_world_size
         tensor_parallel_size = self.parallel_config.tensor_parallel_size
         pp_parallel_size = self.parallel_config.pipeline_parallel_size
         assert self.world_size == tensor_parallel_size * pp_parallel_size, (
@@ -116,27 +127,37 @@ class MultiprocExecutor(Executor):
         distributed_init_method = get_distributed_init_method(
             get_loopback_ip(), get_open_port()
         )
-
+        self.rpc_broadcast_mq: MessageQueue | None = None
+        scheduler_output_handle: Handle | None = None
         # Initialize worker and set up message queues for SchedulerOutputs
         # and ModelRunnerOutputs
-        max_chunk_bytes = envs.VLLM_MQ_MAX_CHUNK_BYTES_MB * 1024 * 1024
-        self.rpc_broadcast_mq = MessageQueue(
-            self.world_size, self.world_size, max_chunk_bytes=max_chunk_bytes
-        )
-        scheduler_output_handle = self.rpc_broadcast_mq.export_handle()
-
+        if self.parallel_config.node_rank_within_dp == 0:
+            # For leader node within each dp rank,
+            # each dp will have its own leader multiproc executor.
+            max_chunk_bytes = envs.VLLM_MQ_MAX_CHUNK_BYTES_MB * 1024 * 1024
+            self.rpc_broadcast_mq = MessageQueue(
+                self.world_size,
+                self.local_world_size,
+                max_chunk_bytes=max_chunk_bytes,
+                connect_ip=self.parallel_config.master_addr,
+            )
+            scheduler_output_handle = self.rpc_broadcast_mq.export_handle()
         # Create workers
         context = get_mp_context()
         shared_worker_lock = context.Lock()
         unready_workers: list[UnreadyWorkerProcHandle] = []
         success = False
         try:
-            for rank in range(self.world_size):
+            global_start_rank = (
+                self.local_world_size * self.parallel_config.node_rank_within_dp
+            )
+            for local_rank in range(self.local_world_size):
+                global_rank = global_start_rank + local_rank
                 unready_workers.append(
                     WorkerProc.make_worker_process(
                         vllm_config=self.vllm_config,
-                        local_rank=rank,
-                        rank=rank,
+                        local_rank=local_rank,
+                        rank=global_rank,
                         distributed_init_method=distributed_init_method,
                         input_shm_handle=scheduler_output_handle,
                         shared_worker_lock=shared_worker_lock,
@@ -145,15 +166,38 @@ class MultiprocExecutor(Executor):
 
             # Workers must be created before wait_for_ready to avoid
             # deadlock, since worker.init_device() does a device sync.
+
+            # Wait for all local workers to be ready.
             self.workers = WorkerProc.wait_for_ready(unready_workers)
 
+            # Start background thread to monitor worker health if not in headless mode.
+            if self.monitor_workers:
+                self.start_worker_monitor()
+
+            self.response_mqs = []
+            # Only leader node have remote response mqs
+            if self.parallel_config.node_rank_within_dp == 0:
+                for rank in range(self.world_size):
+                    if rank < self.local_world_size:
+                        local_message_queue = self.workers[rank].worker_response_mq
+                        assert local_message_queue is not None
+                        self.response_mqs.append(local_message_queue)
+                    else:
+                        remote_message_queue = self.workers[0].peer_worker_response_mqs[
+                            rank
+                        ]
+                        assert remote_message_queue is not None
+                        self.response_mqs.append(remote_message_queue)
+
             # Ensure message queues are ready. Will deadlock if re-ordered
             # Must be kept consistent with the WorkerProc.
-            self.rpc_broadcast_mq.wait_until_ready()
-            for w in self.workers:
-                w.worker_response_mq.wait_until_ready()
 
-            self.start_worker_monitor()
+            # Wait for all input mqs to be ready.
+            if self.rpc_broadcast_mq is not None:
+                self.rpc_broadcast_mq.wait_until_ready()
+            # Wait for all remote response mqs to be ready.
+            for response_mq in self.response_mqs:
+                response_mq.wait_until_ready()
             success = True
         finally:
             if not success:
@@ -168,7 +212,7 @@ class MultiprocExecutor(Executor):
 
         self.output_rank = self._get_output_rank()
 
-    def start_worker_monitor(self):
+    def start_worker_monitor(self, inline=False) -> None:
         workers = self.workers
         self_ref = weakref.ref(self)
 
@@ -192,9 +236,13 @@ class MultiprocExecutor(Executor):
                 _self.failure_callback = None
                 callback()
 
-        Thread(
-            target=monitor_workers, daemon=True, name="MultiprocWorkerMonitor"
-        ).start()
+        if not inline:
+            Thread(
+                target=monitor_workers, daemon=True, name="MultiprocWorkerMonitor"
+            ).start()
+            return
+
+        monitor_workers()
 
     def register_failure_callback(self, callback: FailureCallback):
         if self.is_failed:
@@ -247,7 +295,9 @@ class MultiprocExecutor(Executor):
     ) -> Any | list[Any] | Future[Any | list[Any]]:
         """Returns single result if unique_reply_rank and/or kv_output_aggregator
         is provided, otherwise list."""
-
+        assert self.rpc_broadcast_mq is not None, (
+            "collective_rpc should not be called on follower node"
+        )
         if self.is_failed:
             raise RuntimeError("Executor failed.")
 
@@ -269,20 +319,20 @@ class MultiprocExecutor(Executor):
             send_method = cloudpickle.dumps(method, protocol=pickle.HIGHEST_PROTOCOL)
         self.rpc_broadcast_mq.enqueue((send_method, args, kwargs, output_rank))
 
-        workers = (
-            (self.workers[output_rank],) if output_rank is not None else self.workers
-        )
+        response_mqs: Sequence[MessageQueue] = self.response_mqs
+        if output_rank is not None:
+            response_mqs = (response_mqs[output_rank],)
 
         shutdown_event = self.shutdown_event
 
         def get_response():
             responses = []
-            for w in workers:
+            for mq in response_mqs:
                 dequeue_timeout = (
                     None if deadline is None else (deadline - time.monotonic())
                 )
                 try:
-                    status, result = w.worker_response_mq.dequeue(
+                    status, result = mq.dequeue(
                         timeout=dequeue_timeout, cancel=shutdown_event
                     )
                 except TimeoutError as e:
@@ -391,17 +441,26 @@ class UnreadyWorkerProcHandle:
 class WorkerProcHandle:
     proc: BaseProcess
     rank: int
-    worker_response_mq: MessageQueue  # The worker process writes to this MQ
+    # The worker process writes to this MQ in single-node mode
+    worker_response_mq: MessageQueue | None
+    # This is only non empty on driver node,
+    # the peer worker process i writes to MQ
+    # `peer_worker_response_mqs[i]`
+    peer_worker_response_mqs: list[MessageQueue | None]
     death_writer: Connection | None = None
 
     @classmethod
     def from_unready_handle(
-        cls, unready_handle: UnreadyWorkerProcHandle, worker_response_mq: MessageQueue
+        cls,
+        unready_handle: UnreadyWorkerProcHandle,
+        worker_response_mq: MessageQueue | None,
+        peer_worker_response_mqs: list[MessageQueue | None],
     ) -> "WorkerProcHandle":
         return cls(
             proc=unready_handle.proc,
             rank=unready_handle.rank,
             worker_response_mq=worker_response_mq,
+            peer_worker_response_mqs=peer_worker_response_mqs,
             death_writer=unready_handle.death_writer,
         )
 
@@ -411,6 +470,38 @@ class WorkerProc:
 
     READY_STR = "READY"
 
+    def _init_message_queues(
+        self, input_shm_handle: Handle, vllm_config: VllmConfig
+    ) -> None:
+        if vllm_config.parallel_config.nnodes_within_dp == 1:
+            # Initialize MessageQueue for receiving SchedulerOutput
+            self.rpc_broadcast_mq = MessageQueue.create_from_handle(
+                input_shm_handle, self.worker.rank
+            )
+
+            # Initializes a message queue for sending the model output
+            self.worker_response_mq: MessageQueue = MessageQueue(1, 1)
+            self.peer_response_handles = []
+        else:
+            # Initialize remote MessageQueue for receiving SchedulerOutput across nodes
+            self.rpc_broadcast_mq = get_inner_dp_world_group().create_mq_broadcaster(
+                external_writer_handle=input_shm_handle,
+                # Since there is external_writer_handle from executor proc,
+                # where the ready signal from actual writer is sent out of the
+                # create_mq_broadcaster method and after this setup, we make it
+                # non blocking. The handshake will be triggered when
+                # worker.rpc_broadcast_mq.wait_until_ready() is called
+                blocking=False,
+            )
+            # Initializes remote message queue for sending the model output to the
+            # driver worker, exposing peer_response_handles for driver worker
+            # that include handles for all ranks
+            self.worker_response_mq, self.peer_response_handles = (
+                get_inner_dp_world_group().create_single_reader_mq_broadcasters(
+                    reader_rank_in_group=0
+                )
+            )
+
     def __init__(
         self,
         vllm_config: VllmConfig,
@@ -421,13 +512,15 @@ class WorkerProc:
         shared_worker_lock: LockType,
     ):
         self.rank = rank
-        wrapper = WorkerWrapperBase(vllm_config=vllm_config, rpc_rank=rank)
+        wrapper = WorkerWrapperBase(
+            vllm_config=vllm_config, rpc_rank=local_rank, global_rank=rank
+        )
         # TODO: move `init_worker` to executor level as a collective rpc call
         all_kwargs: list[dict] = [
             {} for _ in range(vllm_config.parallel_config.world_size)
         ]
         is_driver_worker = rank % vllm_config.parallel_config.tensor_parallel_size == 0
-        all_kwargs[rank] = {
+        all_kwargs[local_rank] = {
             "vllm_config": vllm_config,
             "local_rank": local_rank,
             "rank": rank,
@@ -438,14 +531,6 @@ class WorkerProc:
         wrapper.init_worker(all_kwargs)
         self.worker = wrapper
 
-        # Initialize MessageQueue for receiving SchedulerOutput
-        self.rpc_broadcast_mq = MessageQueue.create_from_handle(
-            input_shm_handle, self.worker.rank
-        )
-
-        # Initializes a message queue for sending the model output
-        self.worker_response_mq = MessageQueue(1, 1)
-
         scheduler_config = vllm_config.scheduler_config
         self.use_async_scheduling = scheduler_config.async_scheduling
         if self.use_async_scheduling:
@@ -466,6 +551,7 @@ class WorkerProc:
         )
 
         # Load model
+        self._init_message_queues(input_shm_handle, vllm_config)
         self.worker.load_model()
 
         # Enable environment variable cache (e.g. assume no more
@@ -512,6 +598,27 @@ class WorkerProc:
         # death_reader in child will get EOFError
         return UnreadyWorkerProcHandle(proc, rank, reader, death_writer)
 
+    @staticmethod
+    def wait_for_response_handle_ready(
+        handles: dict[str, Any], proc_handle: UnreadyWorkerProcHandle
+    ) -> WorkerProcHandle:
+        response_handle = handles["handle"]
+        worker_response_mq: MessageQueue | None = None
+        if len(response_handle.local_reader_ranks) > 0:
+            worker_response_mq = MessageQueue.create_from_handle(response_handle, 0)
+        peer_response_handles = handles["peer_response_handles"]
+        peer_worker_response_mqs = [
+            MessageQueue.create_from_handle(handle, -1)
+            if handle.remote_subscribe_addr is not None
+            else None
+            for handle in peer_response_handles
+        ]
+        return WorkerProcHandle.from_unready_handle(
+            proc_handle,
+            worker_response_mq,
+            peer_worker_response_mqs=peer_worker_response_mqs,
+        )
+
     @staticmethod
     def wait_for_ready(
         unready_proc_handles: list[UnreadyWorkerProcHandle],
@@ -537,16 +644,10 @@ class WorkerProc:
                     if response["status"] != "READY":
                         raise e
 
-                    # Extract the message queue handle.
-                    worker_response_mq = MessageQueue.create_from_handle(
-                        response["handle"], 0
+                    idx = unready_proc_handle.rank % len(ready_proc_handles)
+                    ready_proc_handles[idx] = WorkerProc.wait_for_response_handle_ready(
+                        response, unready_proc_handle
                     )
-                    ready_proc_handles[unready_proc_handle.rank] = (
-                        WorkerProcHandle.from_unready_handle(
-                            unready_proc_handle, worker_response_mq
-                        )
-                    )
-
                 except EOFError:
                     e.__suppress_context__ = True
                     raise e from None
@@ -618,12 +719,14 @@ class WorkerProc:
                 {
                     "status": WorkerProc.READY_STR,
                     "handle": worker.worker_response_mq.export_handle(),
+                    "peer_response_handles": worker.peer_response_handles,
                 }
             )
 
             # Ensure message queues are ready. Will deadlock if re-ordered.
             # Must be kept consistent with the Executor
-            worker.rpc_broadcast_mq.wait_until_ready()
+            if worker.rpc_broadcast_mq is not None:
+                worker.rpc_broadcast_mq.wait_until_ready()
             worker.worker_response_mq.wait_until_ready()
             ready_writer.close()
             ready_writer = None
diff --git a/vllm/v1/worker/gpu_worker.py b/vllm/v1/worker/gpu_worker.py
index 283e3744bcf6f..42a844d96558c 100644
--- a/vllm/v1/worker/gpu_worker.py
+++ b/vllm/v1/worker/gpu_worker.py
@@ -189,6 +189,7 @@ class Worker(WorkerBase):
                 and self.parallel_config.distributed_executor_backend
                 not in ["ray", "external_launcher"]
                 and self.vllm_config.parallel_config.data_parallel_backend != "ray"
+                and self.vllm_config.parallel_config.nnodes_within_dp == 1
             ):
                 # Use local DP rank if available, otherwise use global DP rank.
                 dp_local_rank = self.parallel_config.data_parallel_rank_local
@@ -205,7 +206,14 @@ class Worker(WorkerBase):
                 assert self.local_rank < torch.cuda.device_count(), (
                     f"DP adjusted local rank {self.local_rank} is out of bounds. "
                 )
-
+            visible_device_count = (
+                torch.cuda.device_count() if torch.cuda.is_available() else 0
+            )
+            assert self.parallel_config.local_world_size <= visible_device_count, (
+                f"local_world_size ({self.parallel_config.local_world_size}) must be "
+                f"less than or equal to the number of visible devices "
+                f"({visible_device_count})."
+            )
             self.device = torch.device(f"cuda:{self.local_rank}")
             current_platform.set_device(self.device)
 
diff --git a/vllm/v1/worker/worker_base.py b/vllm/v1/worker/worker_base.py
index 3991c16eefba9..16f321c080779 100644
--- a/vllm/v1/worker/worker_base.py
+++ b/vllm/v1/worker/worker_base.py
@@ -180,6 +180,7 @@ class WorkerWrapperBase:
         self,
         vllm_config: VllmConfig,
         rpc_rank: int = 0,
+        global_rank: int | None = None,
     ) -> None:
         """
         Initialize the worker wrapper with the given vllm_config and rpc_rank.
@@ -192,6 +193,7 @@ class WorkerWrapperBase:
         group.
         """
         self.rpc_rank = rpc_rank
+        self.global_rank = self.rpc_rank if global_rank is None else global_rank
         self.worker: WorkerBase | None = None
 
         # do not store this `vllm_config`, `init_worker` will set the final
@@ -312,7 +314,7 @@ class WorkerWrapperBase:
             assert self.worker is not None
 
     def initialize_from_config(self, kv_cache_configs: list[Any]) -> None:
-        kv_cache_config = kv_cache_configs[self.rpc_rank]
+        kv_cache_config = kv_cache_configs[self.global_rank]
         with set_current_vllm_config(self.vllm_config):
             self.worker.initialize_from_config(kv_cache_config)  # type: ignore
 

From af02c409702f2f41eb13471ce3224e3315e19d89 Mon Sep 17 00:00:00 2001
From: Dezhan <dezhantu@gmail.com>
Date: Sun, 16 Nov 2025 01:46:29 -0800
Subject: [PATCH 508/976] Fixed gpt-oss _load_weights_other() parameter
 position bug (#28715)

Co-authored-by: Dezhan Tu <dztu@meta.com>
---
 vllm/model_executor/models/gpt_oss.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/model_executor/models/gpt_oss.py b/vllm/model_executor/models/gpt_oss.py
index 692ef605fe175..328c8c0ac4b76 100644
--- a/vllm/model_executor/models/gpt_oss.py
+++ b/vllm/model_executor/models/gpt_oss.py
@@ -641,8 +641,8 @@ class GptOssModel(nn.Module):
             )
         else:
             return self._load_weights_other(
-                ep_rank_end,
                 ep_rank_start,
+                ep_rank_end,
                 heads_per_rank,
                 head_start,
                 weights,

From 3bc11757984ce256905d1b8517d50b514af8b175 Mon Sep 17 00:00:00 2001
From: scottzh8 <scottzh@meta.com>
Date: Sun, 16 Nov 2025 02:20:57 -0800
Subject: [PATCH 509/976] [Bugfix] Fix host and port join for ipv6 in bench
 serve (#28679)

Signed-off-by: Scott Zhang <scottzh@fb.com>
Co-authored-by: Scott Zhang <scottzh@fb.com>
---
 vllm/benchmarks/serve.py | 6 ++++--
 1 file changed, 4 insertions(+), 2 deletions(-)

diff --git a/vllm/benchmarks/serve.py b/vllm/benchmarks/serve.py
index 0e9b0fbe2c028..dddb050ec180e 100644
--- a/vllm/benchmarks/serve.py
+++ b/vllm/benchmarks/serve.py
@@ -49,6 +49,7 @@ from vllm.benchmarks.lib.ready_checker import wait_for_endpoint
 from vllm.benchmarks.lib.utils import convert_to_pytorch_benchmark_format, write_to_json
 from vllm.transformers_utils.tokenizer import get_tokenizer
 from vllm.utils.gc_utils import freeze_gc_heap
+from vllm.utils.network_utils import join_host_port
 
 MILLISECONDS_TO_SECONDS_CONVERSION = 1000
 
@@ -1333,8 +1334,9 @@ async def main_async(args: argparse.Namespace) -> dict[str, Any]:
         api_url = f"{args.base_url}{args.endpoint}"
         base_url = f"{args.base_url}"
     else:
-        api_url = f"http://{args.host}:{args.port}{args.endpoint}"
-        base_url = f"http://{args.host}:{args.port}"
+        host_port = join_host_port(args.host, args.port)
+        api_url = f"http://{host_port}{args.endpoint}"
+        base_url = f"http://{host_port}"
 
     # Headers
     headers = None

From 8d259fad6cd5a93bef04d00640e132e84c0c9b20 Mon Sep 17 00:00:00 2001
From: Anna Shors <ashors@nvidia.com>
Date: Sun, 16 Nov 2025 05:12:45 -0800
Subject: [PATCH 510/976] Fix gpt oss weight loading with EP + bf16 (#28765)

Signed-off-by: ashors1 <ashors@nvidia.com>
---
 vllm/model_executor/models/gpt_oss.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/model_executor/models/gpt_oss.py b/vllm/model_executor/models/gpt_oss.py
index 328c8c0ac4b76..7df3b087ccb88 100644
--- a/vllm/model_executor/models/gpt_oss.py
+++ b/vllm/model_executor/models/gpt_oss.py
@@ -494,8 +494,8 @@ class GptOssModel(nn.Module):
 
     def _load_weights_other(
         self,
-        ep_rank_start: int,
         ep_rank_end: int,
+        ep_rank_start: int,
         heads_per_rank: int,
         head_start: int,
         weights: Iterable[tuple[str, torch.Tensor]],

From 63fed5550609b96b578d2512aefced09efe76e1e Mon Sep 17 00:00:00 2001
From: Didier Durand <2927957+didier-durand@users.noreply.github.com>
Date: Sun, 16 Nov 2025 15:30:06 +0100
Subject: [PATCH 511/976] [Doc]: fix typos in various files (#28811)

Signed-off-by: Didier Durand <durand.didier@gmail.com>
---
 docs/contributing/benchmarks.md                    | 2 +-
 docs/design/cuda_graphs.md                         | 2 +-
 docs/features/custom_arguments.md                  | 2 +-
 docs/features/custom_logitsprocs.md                | 8 ++++----
 docs/getting_started/installation/cpu.md           | 2 +-
 docs/getting_started/installation/cpu.s390x.inc.md | 2 +-
 docs/getting_started/installation/cpu.x86.inc.md   | 2 +-
 7 files changed, 10 insertions(+), 10 deletions(-)

diff --git a/docs/contributing/benchmarks.md b/docs/contributing/benchmarks.md
index ec0dfc4199d17..c9bc9cfe28a35 100644
--- a/docs/contributing/benchmarks.md
+++ b/docs/contributing/benchmarks.md
@@ -983,7 +983,7 @@ each document has close to 512 tokens.
 
 Please note that the `/v1/rerank` is also supported by embedding models. So if you're running
 with an embedding model, also set `--no_reranker`. Because in this case the query is
-treated as a individual prompt by the server, here we send `random_batch_size - 1` documents
+treated as an individual prompt by the server, here we send `random_batch_size - 1` documents
 to account for the extra prompt which is the query. The token accounting to report the
 throughput numbers correctly is also adjusted.
 
diff --git a/docs/design/cuda_graphs.md b/docs/design/cuda_graphs.md
index aac7b76eea265..66bf3b27d1f52 100644
--- a/docs/design/cuda_graphs.md
+++ b/docs/design/cuda_graphs.md
@@ -128,7 +128,7 @@ A [CUDAGraphWrapper][vllm.compilation.cuda_graph.CUDAGraphWrapper] instance wrap
 3. Otherwise, i.e., the runtime_mode matches the mode of the wrapper, the wrapper will perform CUDA Graphs capture (if key does not exist, create
 a new entry and cache it) or replay (if key exists in the cache).
 
-The above steps are based on the assumption that the CUDA Graphs wrapper would directly trust what’s in the forward context (controlled by the dispatcher). This lets us simplify and cenralize the logic, reducing the complexity as well as the risk of mismatched state between the wrappers and the dispatcher. It also allows reusing the wrapper class for both `FULL` and `PIECEWISE` runtime modes. See the implementation [here](https://github.com/vllm-project/vllm/blob/f751e50b7a2aae3110d83ed0d88202fc91b3e78a/vllm/compilation/cuda_graph.py#L106).
+The above steps are based on the assumption that the CUDA Graphs wrapper would directly trust what’s in the forward context (controlled by the dispatcher). This lets us simplify and centralize the logic, reducing the complexity as well as the risk of mismatched state between the wrappers and the dispatcher. It also allows reusing the wrapper class for both `FULL` and `PIECEWISE` runtime modes. See the implementation [here](https://github.com/vllm-project/vllm/blob/f751e50b7a2aae3110d83ed0d88202fc91b3e78a/vllm/compilation/cuda_graph.py#L106).
 
 #### Nested Wrapper design
 
diff --git a/docs/features/custom_arguments.md b/docs/features/custom_arguments.md
index 7a650d0e79c23..728a2c89901de 100644
--- a/docs/features/custom_arguments.md
+++ b/docs/features/custom_arguments.md
@@ -5,7 +5,7 @@ You can use vLLM *custom arguments* to pass in arguments which are not part of t
 Custom arguments can be useful if, for example, you want to use a [custom logits processor](./custom_logitsprocs.md) without modifying the vLLM source code.
 
 !!! note
-    Make sure your custom logits processor have implemented `validate_params` for custom arguments. Otherwise invalid custom arguments can cause unexpected behaviour.
+    Make sure your custom logits processor have implemented `validate_params` for custom arguments. Otherwise, invalid custom arguments can cause unexpected behaviour.
 
 ## Offline Custom Arguments
 
diff --git a/docs/features/custom_logitsprocs.md b/docs/features/custom_logitsprocs.md
index 52fcc44efacc5..5ddef9db1611b 100644
--- a/docs/features/custom_logitsprocs.md
+++ b/docs/features/custom_logitsprocs.md
@@ -71,7 +71,7 @@ Logits processor `update_state()` implementations should assume the following mo
 
         * **"Condense" the batch to be contiguous:** starting with the lowest-index empty slot (which was caused by a Remove), apply a Unidirectional Move from the current highest non-empty slot in the batch to fill the empty slot. Proceed with additional Unidirectional Move operations in order of increasing empty slot destination index and decreasing non-empty slot source index until the batch is contiguous
 
-        * **Shrink the batch:** a side-effect of condensing the batch is that empty slots resulting from Remove operations are grouped in a contiguous block at the end of the batch array. Thus, after condensing, update `BatchUpdate.batch_size` to reflect the number of non-empty slots
+        * **Shrink the batch:** a side effect of condensing the batch is that empty slots resulting from Remove operations are grouped in a contiguous block at the end of the batch array. Thus, after condensing, update `BatchUpdate.batch_size` to reflect the number of non-empty slots
 
 5. Reorder the batch for improved efficiency. Depending on the attention backend implementation and the current characteristics of the batch, zero or more Swap Move operations may be applied to reorder the batch
 
@@ -286,7 +286,7 @@ Once you have created a custom subclass (like `WrappedPerReqLogitsProcessor`) wh
 
 ## Ways to Load Your Custom Logits Processor in vLLM
 
-Logits processors are loaded at initialization. Critically, the set of loaded logits processors cannot be modified after the vLLM engine finishes loading, and new logits logits processors cannot be loaded on-demand for individual requests.
+Logits processors are loaded at initialization. Critically, the set of loaded logits processors cannot be modified after the vLLM engine finishes loading, and new logits processors cannot be loaded on-demand for individual requests.
 
 This section details different ways of making your logits processor visible to vLLM and triggering vLLM to load your logits processor.
 
@@ -438,7 +438,7 @@ The examples below show how a user would pass a custom argument (`target_token`)
 
 ## Best Practices for Writing Custom Logits Processors
 
-Once vLLM loads a logits processor during initialization, then vLLM will invoke `update_state()` and `apply()` against that logits processor in every engine step. Both methods operate on all requests which currently reside in the vLLM persistent batch. Thus it is important to implement these methods efficiently.
+Once vLLM loads a logits processor during initialization, then vLLM will invoke `update_state()` and `apply()` against that logits processor in every engine step. Both methods operate on all requests which currently reside in the vLLM persistent batch. Thus, it is important to implement these methods efficiently.
 
 * Write efficient `apply()` and `update_state()` implementations in light of the fact that logits processors operate at batch granularity
     * For example, you may be able to use efficient vectorized operations to implement `apply()` or update internal state vectors in `update_state()`
@@ -465,4 +465,4 @@ Once vLLM loads a logits processor during initialization, then vLLM will invoke
 
     * **Note:** for wrapped per-request logits processors, the `AdapterLogitsProcessor` base-class handles this by default
 
-* `is_argmax_invariant()` can be hard-coded to `True` or `False` if the logits processor has consistent behavior. However the argmax invariance may also be determined programmatically (i.e. if your logits processor is user-customizable in some way that impacts whether the logits processor is argmax invariant). For this reason, `is_argmax_invariant()` is not a class method
+* `is_argmax_invariant()` can be hard-coded to `True` or `False` if the logits processor has consistent behavior. However, the argmax invariance may also be determined programmatically (i.e. if your logits processor is user-customizable in some way that impacts whether the logits processor is argmax invariant). For this reason, `is_argmax_invariant()` is not a class method
diff --git a/docs/getting_started/installation/cpu.md b/docs/getting_started/installation/cpu.md
index e8bfca0e5e88f..be99cef3723e6 100644
--- a/docs/getting_started/installation/cpu.md
+++ b/docs/getting_started/installation/cpu.md
@@ -104,7 +104,7 @@ Currently, there are no pre-built CPU wheels.
 
 ### Which `dtype` should be used?
 
-- Currently vLLM CPU uses model default settings as `dtype`. However, due to unstable float16 support in torch CPU, it is recommended to explicitly set `dtype=bfloat16` if there are any performance or accuracy problem.  
+- Currently, vLLM CPU uses model default settings as `dtype`. However, due to unstable float16 support in torch CPU, it is recommended to explicitly set `dtype=bfloat16` if there are any performance or accuracy problem.  
 
 ### How to launch a vLLM service on CPU?
 
diff --git a/docs/getting_started/installation/cpu.s390x.inc.md b/docs/getting_started/installation/cpu.s390x.inc.md
index 442c2b4ec64e8..c2163139a7c5d 100644
--- a/docs/getting_started/installation/cpu.s390x.inc.md
+++ b/docs/getting_started/installation/cpu.s390x.inc.md
@@ -2,7 +2,7 @@
 
 vLLM has experimental support for s390x architecture on IBM Z platform. For now, users must build from source to natively run on IBM Z platform.
 
-Currently the CPU implementation for s390x architecture supports FP32 datatype only.
+Currently, the CPU implementation for s390x architecture supports FP32 datatype only.
 
 !!! warning
     There are no pre-built wheels or images for this device, so you must build vLLM from source.
diff --git a/docs/getting_started/installation/cpu.x86.inc.md b/docs/getting_started/installation/cpu.x86.inc.md
index 00f3b726b1a0e..310f179cb89ca 100644
--- a/docs/getting_started/installation/cpu.x86.inc.md
+++ b/docs/getting_started/installation/cpu.x86.inc.md
@@ -83,7 +83,7 @@ uv pip install dist/*.whl
 !!! example "Troubleshooting"
     - **NumPy ≥2.0 error**: Downgrade using `pip install "numpy<2.0"`.
     - **CMake picks up CUDA**: Add `CMAKE_DISABLE_FIND_PACKAGE_CUDA=ON` to prevent CUDA detection during CPU builds, even if CUDA is installed.
-    - `AMD` requies at least 4th gen processors (Zen 4/Genoa) or higher to support [AVX512](https://www.phoronix.com/review/amd-zen4-avx512) to run vLLM on CPU.
+    - `AMD` requires at least 4th gen processors (Zen 4/Genoa) or higher to support [AVX512](https://www.phoronix.com/review/amd-zen4-avx512) to run vLLM on CPU.
     - If you receive an error such as: `Could not find a version that satisfies the requirement torch==X.Y.Z+cpu+cpu`, consider updating [pyproject.toml](https://github.com/vllm-project/vllm/blob/main/pyproject.toml) to help pip resolve the dependency.
     ```toml title="pyproject.toml"
     [build-system]

From ac1daf32337d312e7a575901da2e19857f4c0be1 Mon Sep 17 00:00:00 2001
From: Ning Xie <andy.xning@gmail.com>
Date: Mon, 17 Nov 2025 01:03:21 +0800
Subject: [PATCH 512/976] fix comment typo (#28802)

Signed-off-by: Andy Xie <andy.xning@gmail.com>
---
 vllm/envs.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/envs.py b/vllm/envs.py
index 7987e5fb83fdf..6bf05803e14ef 100755
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -423,7 +423,7 @@ def get_vllm_port() -> int | None:
         raise ValueError(f"VLLM_PORT '{port}' must be a valid integer") from err
 
 
-# The begin-* and end* here are used by the documentation generator
+# The start-* and end* here are used by the documentation generator
 # to extract the used env vars.
 
 # --8<-- [start:env-vars-definition]

From 5a87076d6ee60a2cf681dada9e971b4ee3e6063e Mon Sep 17 00:00:00 2001
From: Lukas Geiger <lukas.geiger94@gmail.com>
Date: Sun, 16 Nov 2025 17:37:15 +0000
Subject: [PATCH 513/976] [Model][QwenVL] Optimize `Qwen2_5_VisionAttention`
 q,k preparation (#28769)

Signed-off-by: Lukas Geiger <lukas.geiger94@gmail.com>
Co-authored-by: Isotr0py <mozf@mail2.sysu.edu.cn>
---
 vllm/model_executor/models/dots_ocr.py   |  4 +-
 vllm/model_executor/models/qwen2_5_vl.py | 48 ++++++++++++------------
 2 files changed, 25 insertions(+), 27 deletions(-)

diff --git a/vllm/model_executor/models/dots_ocr.py b/vllm/model_executor/models/dots_ocr.py
index 405af8f8be426..f46caaa095c6a 100644
--- a/vllm/model_executor/models/dots_ocr.py
+++ b/vllm/model_executor/models/dots_ocr.py
@@ -39,8 +39,8 @@ from vllm.model_executor.models.interfaces import (
 )
 from vllm.model_executor.models.module_mapping import MultiModelKeys
 from vllm.model_executor.models.qwen2 import Qwen2ForCausalLM
-from vllm.model_executor.models.qwen2_5_vl import Qwen2_5_VisionAttention
 from vllm.model_executor.models.qwen2_vl import (
+    Qwen2VisionAttention,
     Qwen2VLDummyInputsBuilder,
     Qwen2VLMultiModalProcessor,
     Qwen2VLProcessingInfo,
@@ -328,7 +328,7 @@ class DotsVisionAttention(nn.Module):
         # [S, C] -> [S, B=1, C]
         x = hidden_states.unsqueeze(1)
         x, _ = self.qkv(x)
-        q, k, v = Qwen2_5_VisionAttention.split_qkv(self, x)
+        q, k, v = Qwen2VisionAttention.split_qkv(self, x)
         bs = q.shape[1]
         # [S,B,H,D] -> [B,S,H,D]
         q = q.permute(1, 0, 2, 3).contiguous()
diff --git a/vllm/model_executor/models/qwen2_5_vl.py b/vllm/model_executor/models/qwen2_5_vl.py
index 7617929e93ac4..897dd7ef29f12 100644
--- a/vllm/model_executor/models/qwen2_5_vl.py
+++ b/vllm/model_executor/models/qwen2_5_vl.py
@@ -359,23 +359,6 @@ class Qwen2_5_VisionAttention(nn.Module):
             AttentionBackendEnum.ROCM_AITER_FA,
         }
 
-    def split_qkv(self, qkv: torch.Tensor) -> tuple[torch.Tensor, ...]:
-        # [s, b, 3 * head * head_dim]
-        seq_len, bs, _ = qkv.shape
-
-        # [s, b, 3 * head * head_dim] -> 3 * [s, b, head * head_dim]
-        q, k, v = qkv.chunk(3, dim=2)
-
-        # 3 * [s, b, head * head_dim] -> 3 * [s, b, head, head_dim]
-        new_shape = (
-            seq_len,
-            bs,
-            self.num_attention_heads_per_partition,
-            self.hidden_size_per_attention_head,
-        )
-        q, k, v = (x.view(*new_shape) for x in (q, k, v))
-        return q, k, v
-
     def forward(
         self,
         x: torch.Tensor,
@@ -386,17 +369,32 @@ class Qwen2_5_VisionAttention(nn.Module):
     ) -> torch.Tensor:
         # [s, b, c] --> [s, b, head * 3 * head_dim]
         x, _ = self.qkv(x)
+        seq_len, batch_size, _ = x.shape
 
-        # [s, b, 3 * head * head_dim] -> 3 * [s, b, head, head_dim]
-        q, k, v = self.split_qkv(x)
-        batch_size = q.shape[1]
+        qkv = einops.rearrange(
+            x,
+            "s b (three head head_dim) -> b s three head head_dim",
+            three=3,
+            head=self.num_attention_heads_per_partition,
+        )
 
-        q, k, v = (einops.rearrange(x, "s b ... -> b s ...") for x in (q, k, v))
         if rotary_pos_emb is not None:
-            # [2 * b, s, heads, head_dim]
-            qk_concat = torch.cat([q, k], dim=0)
-            qk_rotated = apply_rotary_pos_emb_vision(qk_concat, rotary_pos_emb)
-            q, k = torch.chunk(qk_rotated, 2, dim=0)
+            qk, v = qkv[:, :, :2], qkv[:, :, 2]
+
+            qk_reshaped = einops.rearrange(
+                qk, "b s two head head_dim -> (two b) s head head_dim", two=2
+            )
+            qk_rotated = apply_rotary_pos_emb_vision(qk_reshaped, rotary_pos_emb)
+            qk_rotated = qk_rotated.view(
+                2,
+                batch_size,
+                seq_len,
+                self.num_attention_heads_per_partition,
+                self.hidden_size_per_attention_head,
+            )
+            q, k = qk_rotated.unbind(dim=0)
+        else:
+            q, k, v = qkv.unbind(dim=2)
 
         if self.is_flash_attn_backend:
             context_layer = vit_flash_attn_wrapper(

From 03ee48111de7372a1231872f26262e7c46ab1c83 Mon Sep 17 00:00:00 2001
From: amirkl94 <203507526+amirkl94@users.noreply.github.com>
Date: Sun, 16 Nov 2025 20:39:44 +0200
Subject: [PATCH 514/976] Feature: Support Relu2 in FusedMoE fp8 cutlass path
 (#27261)

---
 tests/kernels/moe/test_flashinfer.py          | 18 +++++++---
 .../fused_moe/flashinfer_cutlass_moe.py       | 11 +++++--
 .../layers/quantization/modelopt.py           | 33 +++++++++++--------
 3 files changed, 42 insertions(+), 20 deletions(-)

diff --git a/tests/kernels/moe/test_flashinfer.py b/tests/kernels/moe/test_flashinfer.py
index 3a681d4603f8e..218df4a2632c3 100644
--- a/tests/kernels/moe/test_flashinfer.py
+++ b/tests/kernels/moe/test_flashinfer.py
@@ -77,10 +77,14 @@ class TestData:
 
     @staticmethod
     def make_moe_tensors_8bit(
-        m: int, k: int, n: int, e: int, reorder: bool
+        m: int, k: int, n: int, e: int, reorder: bool, activation: str = "silu"
     ) -> "TestData":
+        is_gated = activation != "relu2_no_mul"
+
         hidden_states = torch.randn((m, k), device="cuda", dtype=torch.bfloat16) / 10
-        w13 = torch.randn((e, 2 * n, k), device="cuda", dtype=torch.bfloat16)
+        w13 = torch.randn(
+            (e, (2 * n) if is_gated else n, k), device="cuda", dtype=torch.bfloat16
+        )
         w2 = torch.randn((e, k, n), device="cuda", dtype=torch.bfloat16)
 
         # Scale to fp8
@@ -190,18 +194,22 @@ def test_flashinfer_per_tensor_moe_fp8_no_graph(
 @pytest.mark.parametrize("m,n,k", MNK_FACTORS)
 @pytest.mark.parametrize("e", NUM_EXPERTS)
 @pytest.mark.parametrize("topk", TOP_KS)
+@pytest.mark.parametrize("activation", ["silu", "relu2_no_mul"])
 def test_flashinfer_cutlass_moe_fp8_no_graph(
     m: int,
     n: int,
     k: int,
     e: int,
     topk: int,
+    activation: str,
     monkeypatch,
 ):
     current_platform.seed_everything(7)
     monkeypatch.setenv("VLLM_FUSED_MOE_CHUNK_SIZE", "8192")
     with set_current_vllm_config(vllm_config):
-        td = TestData.make_moe_tensors_8bit(m, k, n, e, reorder=False)
+        td = TestData.make_moe_tensors_8bit(
+            m, k, n, e, reorder=False, activation=activation
+        )
 
         score = torch.randn((m, e), device="cuda", dtype=torch.bfloat16)
         topk_weights, topk_ids, _ = FusedMoE.select_experts(
@@ -233,7 +241,7 @@ def test_flashinfer_cutlass_moe_fp8_no_graph(
             topk_weights=topk_weights,
             topk_ids=topk_ids,
             inplace=False,
-            activation="silu",
+            activation=activation,
             global_num_experts=e,
             expert_map=None,
             apply_router_weight_on_input=True,
@@ -253,7 +261,7 @@ def test_flashinfer_cutlass_moe_fp8_no_graph(
             td.layer,
             topk_weights,
             topk_ids,
-            activation="silu",
+            activation=activation,
             global_num_experts=e,
             expert_map=None,
             apply_router_weight_on_input=True,
diff --git a/vllm/model_executor/layers/fused_moe/flashinfer_cutlass_moe.py b/vllm/model_executor/layers/fused_moe/flashinfer_cutlass_moe.py
index 943695f921ad3..f864634c66176 100644
--- a/vllm/model_executor/layers/fused_moe/flashinfer_cutlass_moe.py
+++ b/vllm/model_executor/layers/fused_moe/flashinfer_cutlass_moe.py
@@ -148,8 +148,14 @@ class FlashInferExperts(mk.FusedMoEPermuteExpertsUnpermute):
         expert_tokens_meta: mk.ExpertTokensMetadata | None,
         apply_router_weight_on_input: bool | None,
     ):
-        assert activation == "silu", (
-            "Only activation silu is supported in FlashInferExperts"
+        from flashinfer.fused_moe.core import ActivationType
+
+        activation_str_to_value_map = {
+            "silu": ActivationType.Swiglu,  # This is the default
+            "relu2_no_mul": ActivationType.Relu2,
+        }
+        assert activation in activation_str_to_value_map, (
+            f"{activation=} missing from {activation_str_to_value_map.keys()=}"
         )
 
         # Select quantization metadata based on FP8 format/path
@@ -215,6 +221,7 @@ class FlashInferExperts(mk.FusedMoEPermuteExpertsUnpermute):
             ep_size=self.ep_size,
             ep_rank=self.ep_rank,
             output=output,
+            activation_type=activation_str_to_value_map[activation],
             # Informs FlashInfer to use the block-scale decoding path when True
             use_deepseek_fp8_block_scale=self.use_deepseek_fp8_block_scale,
         )
diff --git a/vllm/model_executor/layers/quantization/modelopt.py b/vllm/model_executor/layers/quantization/modelopt.py
index e14753c60c485..cf6325eb85dfd 100644
--- a/vllm/model_executor/layers/quantization/modelopt.py
+++ b/vllm/model_executor/layers/quantization/modelopt.py
@@ -354,12 +354,18 @@ class ModelOptFp8MoEMethod(FusedMoEMethodBase):
 
         self.cutlass_fp8_supported = cutlass_fp8_supported()
         self.flashinfer_moe_backend: FlashinferMoeBackend | None = None
-        if (
-            envs.VLLM_USE_FLASHINFER_MOE_FP8
-            and has_flashinfer_moe()
-            and self.moe.is_act_and_mul
-        ):
+        if envs.VLLM_USE_FLASHINFER_MOE_FP8 and has_flashinfer_moe():
             self.flashinfer_moe_backend = get_flashinfer_moe_backend()
+            if (
+                self.flashinfer_moe_backend == FlashinferMoeBackend.TENSORRT_LLM
+                and not self.moe.is_act_and_mul
+            ):
+                logger.info_once(
+                    "Non-gated MoE is not supported for min-latency mode,"
+                    "falling back to high-throughput mode"
+                )
+                self.flashinfer_moe_backend = FlashinferMoeBackend.CUTLASS
+
             logger.info_once(
                 f"Using FlashInfer {self.flashinfer_moe_backend.value} kernels"
             )
@@ -557,10 +563,11 @@ class ModelOptFp8MoEMethod(FusedMoEMethodBase):
             )
 
         if self.flashinfer_moe_backend is not None:
-            layer.w13_weight.data = swap_w13_to_w31(layer.w13_weight.data)
-            register_moe_scaling_factors(layer)
+            if self.moe.is_act_and_mul:
+                layer.w13_weight.data = swap_w13_to_w31(layer.w13_weight.data)
             if self.flashinfer_moe_backend == FlashinferMoeBackend.TENSORRT_LLM:
                 rotate_flashinfer_fp8_moe_weights(layer.w13_weight, layer.w2_weight)
+        register_moe_scaling_factors(layer)
 
     def get_fused_moe_quant_config(
         self, layer: torch.nn.Module
@@ -570,13 +577,13 @@ class ModelOptFp8MoEMethod(FusedMoEMethodBase):
 
         return fp8_w8a8_moe_quant_config(
             w1_scale=layer.w13_weight_scale,
-            g1_alphas=(layer.w13_weight_scale * layer.w13_input_scale).squeeze(),
+            g1_alphas=layer.output1_scales_gate_scalar.squeeze(),
             w2_scale=layer.w2_weight_scale,
-            g2_alphas=(layer.w2_weight_scale * layer.w2_input_scale).squeeze(),
+            g2_alphas=layer.output2_scales_scalar.squeeze(),
             a1_scale=layer.w13_input_scale,
             a1_gscale=layer.w13_input_scale,
             a2_scale=layer.w2_input_scale,
-            a2_gscale=1.0 / layer.w2_input_scale,
+            a2_gscale=layer.w2_input_scale_inv,
             per_act_token_quant=False,
         )
 
@@ -642,9 +649,9 @@ class ModelOptFp8MoEMethod(FusedMoEMethodBase):
         )
 
         if self.flashinfer_moe_backend == FlashinferMoeBackend.CUTLASS:
-            assert not renormalize
-            assert activation == "silu", (
-                f"Expected 'silu' activation but got {activation}"
+            assert activation in ("silu", "relu2_no_mul"), (
+                "Expected activation to be in ('silu', 'relu2_no_mul'),"
+                f"but got {activation}"
             )
             return flashinfer_cutlass_moe_fp8(
                 x,

From 80b6080ddcad0653daa6b776eb71a5a7029b70d8 Mon Sep 17 00:00:00 2001
From: Nick Hill <nhill@redhat.com>
Date: Sun, 16 Nov 2025 14:46:46 -0800
Subject: [PATCH 515/976] [BugFix] Fix async scheduling + chunked prefill +
 preemption (#28787)

Signed-off-by: Nick Hill <nhill@redhat.com>
---
 tests/v1/e2e/test_async_scheduling.py | 10 ++++------
 vllm/v1/core/sched/scheduler.py       |  4 +---
 vllm/v1/utils.py                      |  3 +++
 3 files changed, 8 insertions(+), 9 deletions(-)

diff --git a/tests/v1/e2e/test_async_scheduling.py b/tests/v1/e2e/test_async_scheduling.py
index dbe403ece0514..c4aca82416cde 100644
--- a/tests/v1/e2e/test_async_scheduling.py
+++ b/tests/v1/e2e/test_async_scheduling.py
@@ -65,9 +65,8 @@ def test_without_spec_decoding(
         (True, "mp", True, None, False),
         (True, "uni", True, None, False),
         (False, "mp", True, None, True),
-        # Async scheduling + preemption + chunked prefill needs to be fixed (WIP)
-        # (True, "mp", True, None, True),
-        # (True, "uni", True, None, True),
+        (True, "mp", True, None, True),
+        (True, "uni", True, None, True),
     ]
 
     run_tests(
@@ -103,9 +102,8 @@ def test_with_spec_decoding(monkeypatch: pytest.MonkeyPatch):
         (False, "mp", True, spec_config_short, True),
         (True, "uni", True, spec_config, False),
         (True, "uni", True, spec_config_short, False),
-        # Async scheduling + preemption + chunked prefill needs to be fixed (WIP)
-        #  (True, "mp", True, spec_config, True),
-        #  (True, "uni", True, spec_config_short, True),
+        (True, "mp", True, spec_config, True),
+        (True, "uni", True, spec_config_short, True),
     ]
 
     run_tests(
diff --git a/vllm/v1/core/sched/scheduler.py b/vllm/v1/core/sched/scheduler.py
index bc15979dea621..8e62542337a71 100644
--- a/vllm/v1/core/sched/scheduler.py
+++ b/vllm/v1/core/sched/scheduler.py
@@ -778,9 +778,7 @@ class Scheduler(SchedulerInterface):
                 assert not scheduled_in_prev_step
                 resumed_req_ids.add(req_id)
             if not scheduled_in_prev_step:
-                all_token_ids[req_id] = req.all_token_ids[
-                    : req.num_computed_tokens + num_tokens
-                ]
+                all_token_ids[req_id] = req.all_token_ids.copy()
             new_block_ids.append(
                 req_to_new_blocks[req_id].get_block_ids(allow_none=True)
             )
diff --git a/vllm/v1/utils.py b/vllm/v1/utils.py
index a401f6d74cdd5..29099d1e9b17e 100644
--- a/vllm/v1/utils.py
+++ b/vllm/v1/utils.py
@@ -97,6 +97,9 @@ class ConstantList(Generic[T], Sequence):
     def __repr__(self):
         return f"ConstantList({self._x})"
 
+    def copy(self) -> list[T]:
+        return self._x.copy()
+
 
 class CpuGpuBuffer:
     """Buffer to easily copy tensors between CPU and GPU."""

From 561253b37faadaafe68168ea32d8d8157621a6b4 Mon Sep 17 00:00:00 2001
From: jiahanc <173873397+jiahanc@users.noreply.github.com>
Date: Sun, 16 Nov 2025 18:02:42 -0800
Subject: [PATCH 516/976] [Performance][Fix] update nvfp4 code to support
 renorm routing (#28569)

Signed-off-by: jiahanc <173873397+jiahanc@users.noreply.github.com>
Co-authored-by: Michael Goin <mgoin64@gmail.com>
---
 .../layers/quantization/modelopt.py            | 18 +++++++++++-------
 .../quantization/utils/flashinfer_utils.py     |  5 ++++-
 2 files changed, 15 insertions(+), 8 deletions(-)

diff --git a/vllm/model_executor/layers/quantization/modelopt.py b/vllm/model_executor/layers/quantization/modelopt.py
index cf6325eb85dfd..476521813f464 100644
--- a/vllm/model_executor/layers/quantization/modelopt.py
+++ b/vllm/model_executor/layers/quantization/modelopt.py
@@ -15,6 +15,7 @@ from vllm.logger import init_logger
 from vllm.model_executor.layers.fused_moe.config import (
     FusedMoEConfig,
     FusedMoEQuantConfig,
+    RoutingMethodType,
     fp8_w8a8_moe_quant_config,
     nvfp4_moe_quant_config,
 )
@@ -1657,16 +1658,19 @@ class ModelOptNvFp4FusedMoE(FusedMoEMethodBase):
             use_llama4_routing = (
                 custom_routing_function is Llama4MoE.custom_routing_function
             )
-            routing_method_type = flashinfer.RoutingMethodType.DeepSeekV3
+            routing_method_type = layer.routing_method_type
             if use_llama4_routing:
-                routing_method_type = flashinfer.RoutingMethodType.Llama4
+                routing_method_type = RoutingMethodType.Llama4
+            router_logits = (
+                router_logits.to(torch.float32)
+                if routing_method_type == RoutingMethodType.DeepSeekV3
+                else router_logits
+            )
             routing_bias = e_score_correction_bias
             if routing_bias is not None:
                 routing_bias = routing_bias.to(torch.bfloat16)
             out = flashinfer.fused_moe.trtllm_fp4_block_scale_moe(
-                routing_logits=router_logits
-                if use_llama4_routing
-                else router_logits.to(torch.float32),
+                routing_logits=router_logits,
                 routing_bias=routing_bias,
                 hidden_states=hidden_states_fp4,
                 hidden_states_scale=hidden_states_scale_linear_fp4.view(
@@ -1690,8 +1694,8 @@ class ModelOptNvFp4FusedMoE(FusedMoEMethodBase):
                 output2_scale_scalar=layer.g2_alphas.data,
                 num_experts=global_num_experts,
                 top_k=top_k,
-                n_group=num_expert_group if num_expert_group is not None else 0,
-                topk_group=topk_group if topk_group is not None else 0,
+                n_group=num_expert_group,
+                topk_group=topk_group,
                 intermediate_size=layer.intermediate_size_per_partition,
                 local_expert_offset=layer.ep_rank * layer.local_num_experts,
                 local_num_experts=layer.local_num_experts,
diff --git a/vllm/model_executor/layers/quantization/utils/flashinfer_utils.py b/vllm/model_executor/layers/quantization/utils/flashinfer_utils.py
index d9e9b42402712..f22e17945d1f6 100644
--- a/vllm/model_executor/layers/quantization/utils/flashinfer_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/flashinfer_utils.py
@@ -291,5 +291,8 @@ def get_flashinfer_moe_backend() -> FlashinferMoeBackend:
 
 def is_flashinfer_supporting_global_sf(backend: FlashinferMoeBackend | None) -> bool:
     # TODO(shuw@nvidia): Update when new backends are added.
-    backends_supporting_global_sf = (FlashinferMoeBackend.CUTLASS,)
+    backends_supporting_global_sf = (
+        FlashinferMoeBackend.CUTLASS,
+        FlashinferMoeBackend.TENSORRT_LLM,
+    )
     return backend in backends_supporting_global_sf

From d64429bb369d4087f9f91609e7275c4901d65aea Mon Sep 17 00:00:00 2001
From: liuzhenwei <zhenwei.liu@intel.com>
Date: Mon, 17 Nov 2025 11:01:33 +0800
Subject: [PATCH 517/976] [NIXL][XPU] update install script of NIXL (#28778)

Signed-off-by: zhenwei-intel <zhenwei.liu@intel.com>
---
 docker/Dockerfile.xpu                    | 3 ++-
 tools/install_nixl_from_source_ubuntu.py | 1 +
 2 files changed, 3 insertions(+), 1 deletion(-)

diff --git a/docker/Dockerfile.xpu b/docker/Dockerfile.xpu
index 4e6ef8f5ca13c..5d5b82c4fa5af 100644
--- a/docker/Dockerfile.xpu
+++ b/docker/Dockerfile.xpu
@@ -14,6 +14,7 @@ RUN apt clean && apt-get update -y && \
     libxext6 \
     libgl1 \
     lsb-release \
+    libaio-dev \
     numactl \
     wget \
     vim \
@@ -68,8 +69,8 @@ RUN --mount=type=cache,target=/root/.cache/pip \
 RUN python3 -m pip install -e tests/vllm_test_utils
 
 # install nixl from source code
+ENV NIXL_VERSION=0.7.0
 RUN python3 /workspace/vllm/tools/install_nixl_from_source_ubuntu.py
-ENV LD_LIBRARY_PATH="$LD_LIBRARY_PATH:/usr/local/lib/python3.12/dist-packages/.nixl.mesonpy.libs/plugins/"
 
 RUN --mount=type=cache,target=/root/.cache/pip \
     pip uninstall oneccl oneccl-devel -y
diff --git a/tools/install_nixl_from_source_ubuntu.py b/tools/install_nixl_from_source_ubuntu.py
index 4a20b6b7bb8fb..a786abba95ad9 100644
--- a/tools/install_nixl_from_source_ubuntu.py
+++ b/tools/install_nixl_from_source_ubuntu.py
@@ -175,6 +175,7 @@ def build_and_install_prerequisites(args):
     build_env["LD_LIBRARY_PATH"] = (
         f"{ucx_lib_path}:{ucx_plugin_path}:{existing_ld_path}".strip(":")
     )
+    build_env["LDFLAGS"] = "-Wl,-rpath,$ORIGIN"
     print(f"--> Using LD_LIBRARY_PATH: {build_env['LD_LIBRARY_PATH']}", flush=True)
 
     temp_wheel_dir = os.path.join(ROOT_DIR, "temp_wheelhouse")

From 60e089f0b90b1fe9b65224b069c953927d1f3b44 Mon Sep 17 00:00:00 2001
From: Xiake Sun <xiake.sun@amd.com>
Date: Mon, 17 Nov 2025 12:52:11 +0800
Subject: [PATCH 518/976] [ROCm][Qwen3-32B] Fix AITER MHA accuracy issue cause
 by #25763 (#28670)

Signed-off-by: Xiake Sun <xiake.sun@amd.com>
---
 vllm/v1/attention/backends/rocm_aiter_fa.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/vllm/v1/attention/backends/rocm_aiter_fa.py b/vllm/v1/attention/backends/rocm_aiter_fa.py
index ad454daa582eb..ea611848b0e81 100644
--- a/vllm/v1/attention/backends/rocm_aiter_fa.py
+++ b/vllm/v1/attention/backends/rocm_aiter_fa.py
@@ -729,7 +729,7 @@ class AiterFlashAttentionImpl(AttentionImpl):
                     cu_seqlens_k=attn_metadata.prefill_metadata.query_start_loc,
                     max_seqlen_q=attn_metadata.prefill_metadata.max_query_len,
                     max_seqlen_k=attn_metadata.prefill_metadata.max_seq_len,
-                    min_seqlen_q=attn_metadata.prefill_metadata.min_query_len,
+                    min_seqlen_q=1,
                     dropout_p=0.0,
                     softmax_scale=self.scale,
                     causal=True,
@@ -759,7 +759,7 @@ class AiterFlashAttentionImpl(AttentionImpl):
                     cu_seqlens_q=attn_metadata.extend_metadata.query_start_loc,
                     max_seqlen_q=attn_metadata.extend_metadata.max_query_len,
                     max_seqlen_k=attn_metadata.extend_metadata.max_seq_len,
-                    min_seqlen_q=attn_metadata.extend_metadata.min_query_len,
+                    min_seqlen_q=1,
                     block_table=attn_metadata.block_table[
                         num_decodes : num_decodes + num_extends
                     ],

From 6f374192442381b37a6a6ba29045c74a8ee2486d Mon Sep 17 00:00:00 2001
From: Jay Caldwell <111952840+jscaldwell55@users.noreply.github.com>
Date: Sun, 16 Nov 2025 23:54:46 -0600
Subject: [PATCH 519/976] [Bugfix][Model] Prevent special token leakage in
 KimiK2ToolParser streaming mode (#28543)

Signed-off-by: Jscaldwell55 <jay.s.caldwell@gmail.com>
---
 tests/tool_use/test_kimi_k2_tool_parser.py    | 593 ++++++++++++++++++
 .../tool_parsers/kimi_k2_tool_parser.py       | 204 +++++-
 2 files changed, 791 insertions(+), 6 deletions(-)

diff --git a/tests/tool_use/test_kimi_k2_tool_parser.py b/tests/tool_use/test_kimi_k2_tool_parser.py
index c358589dbc292..33dabbc7e7b91 100644
--- a/tests/tool_use/test_kimi_k2_tool_parser.py
+++ b/tests/tool_use/test_kimi_k2_tool_parser.py
@@ -209,3 +209,596 @@ def test_streaming_no_tool_calls(kimi_k2_tool_parser):
     assert result is not None
     assert hasattr(result, "content")
     assert result.content == " without any tool calls."
+
+
+def test_token_leak_between_section_and_tool_begin(kimi_k2_tool_parser):
+    """
+    Test that text between <|tool_calls_section_begin|> and <|tool_call_begin|>
+    is suppressed and does not leak into reasoning_delta.
+    This is the main vulnerability being fixed.
+    """
+    kimi_k2_tool_parser.reset_streaming_state()
+
+    # Get token IDs for the markers
+    section_begin_token_id = kimi_k2_tool_parser.vocab.get(
+        "<|tool_calls_section_begin|>"
+    )
+    tool_call_begin_token_id = kimi_k2_tool_parser.vocab.get("<|tool_call_begin|>")
+
+    # Simulate streaming sequence:
+    # Delta 1: "I'll help you with that. "
+    result1 = kimi_k2_tool_parser.extract_tool_calls_streaming(
+        previous_text="",
+        current_text="I'll help you with that. ",
+        delta_text="I'll help you with that. ",
+        previous_token_ids=[],
+        current_token_ids=[1, 2, 3],  # Regular tokens
+        delta_token_ids=[1, 2, 3],
+        request=None,
+    )
+    assert result1 is not None
+    assert result1.content == "I'll help you with that. "
+
+    # Delta 2: "<|tool_calls_section_begin|>"
+    prev_ids = [1, 2, 3]
+    curr_ids = prev_ids + [section_begin_token_id]
+    result2 = kimi_k2_tool_parser.extract_tool_calls_streaming(
+        previous_text="I'll help you with that. ",
+        current_text="I'll help you with that. <|tool_calls_section_begin|>",
+        delta_text="<|tool_calls_section_begin|>",
+        previous_token_ids=prev_ids,
+        current_token_ids=curr_ids,
+        delta_token_ids=[section_begin_token_id],
+        request=None,
+    )
+    # Section marker should be stripped and suppressed
+    assert result2 is None or (result2.content is None or result2.content == "")
+
+    # Delta 3: " spurious text or tokens " (THE LEAK SCENARIO)
+    prev_ids = curr_ids
+    curr_ids = curr_ids + [4, 5]
+    result3 = kimi_k2_tool_parser.extract_tool_calls_streaming(
+        previous_text="I'll help you with that. <|tool_calls_section_begin|>",
+        current_text="I'll help you with that. <|tool_calls_section_begin|> spurious text ",
+        delta_text=" spurious text ",
+        previous_token_ids=prev_ids,
+        current_token_ids=curr_ids,
+        delta_token_ids=[4, 5],
+        request=None,
+    )
+    # CRITICAL: This text should be suppressed, NOT returned as reasoning_delta
+    assert result3 is None or (result3.content is None or result3.content == "")
+
+    # Delta 4: "<|tool_call_begin|>..."
+    prev_ids = curr_ids
+    curr_ids = curr_ids + [tool_call_begin_token_id]
+    _result4 = kimi_k2_tool_parser.extract_tool_calls_streaming(
+        previous_text="I'll help you with that. <|tool_calls_section_begin|> spurious text ",
+        current_text="I'll help you with that. <|tool_calls_section_begin|> spurious text <|tool_call_begin|>",
+        delta_text="<|tool_call_begin|>",
+        previous_token_ids=prev_ids,
+        current_token_ids=curr_ids,
+        delta_token_ids=[tool_call_begin_token_id],
+        request=None,
+    )
+    # Now we're in tool call mode, result depends on internal state
+    # The key is that the spurious text from Delta 3 was not leaked
+
+
+def test_split_markers_across_deltas(kimi_k2_tool_parser):
+    """
+    Test that markers split across delta chunks are correctly detected
+    via the rolling buffer mechanism.
+    """
+    kimi_k2_tool_parser.reset_streaming_state()
+
+    section_begin_token_id = kimi_k2_tool_parser.vocab.get(
+        "<|tool_calls_section_begin|>"
+    )
+
+    # Delta 1: "...reasoning<|tool_calls_sec"
+    _result1 = kimi_k2_tool_parser.extract_tool_calls_streaming(
+        previous_text="Some reasoning",
+        current_text="Some reasoning<|tool_calls_sec",
+        delta_text="<|tool_calls_sec",
+        previous_token_ids=[1, 2],
+        current_token_ids=[1, 2, 3],  # Partial token
+        delta_token_ids=[3],
+        request=None,
+    )
+    # Partial token not recognized yet, might be buffered
+    # Should return as content or None (depends on implementation)
+
+    # Delta 2: "tion_begin|> "  (completes the marker)
+    _result2 = kimi_k2_tool_parser.extract_tool_calls_streaming(
+        previous_text="Some reasoning<|tool_calls_sec",
+        current_text="Some reasoning<|tool_calls_section_begin|> ",
+        delta_text="tion_begin|> ",
+        previous_token_ids=[1, 2, 3],
+        current_token_ids=[1, 2, section_begin_token_id, 4],
+        delta_token_ids=[section_begin_token_id, 4],
+        request=None,
+    )
+    # Now the complete marker should be detected via buffer
+    # The parser should enter tool section mode
+    assert kimi_k2_tool_parser.in_tool_section is True
+
+
+def test_marker_variants(kimi_k2_tool_parser):
+    """Test that both singular and plural marker variants are recognized."""
+    kimi_k2_tool_parser.reset_streaming_state()
+
+    # Test singular variant: <|tool_call_section_begin|> (note: singular "call")
+    singular_token_id = kimi_k2_tool_parser.vocab.get("<|tool_call_section_begin|>")
+
+    if singular_token_id is not None:  # Only test if tokenizer supports it
+        _result = kimi_k2_tool_parser.extract_tool_calls_streaming(
+            previous_text="Reasoning ",
+            current_text="Reasoning <|tool_call_section_begin|>",
+            delta_text="<|tool_call_section_begin|>",
+            previous_token_ids=[1, 2],
+            current_token_ids=[1, 2, singular_token_id],
+            delta_token_ids=[singular_token_id],
+            request=None,
+        )
+        # Should enter tool section mode with singular variant too
+        assert kimi_k2_tool_parser.in_tool_section is True
+
+
+def test_reentry_to_reasoning_after_tool_section(kimi_k2_tool_parser):
+    """
+    Test that after exiting a tool section with <|tool_calls_section_end|>,
+    subsequent text is correctly returned as reasoning content.
+    """
+    kimi_k2_tool_parser.reset_streaming_state()
+
+    section_begin_id = kimi_k2_tool_parser.vocab.get("<|tool_calls_section_begin|>")
+    section_end_id = kimi_k2_tool_parser.vocab.get("<|tool_calls_section_end|>")
+
+    # Enter tool section
+    _result1 = kimi_k2_tool_parser.extract_tool_calls_streaming(
+        previous_text="",
+        current_text="<|tool_calls_section_begin|>",
+        delta_text="<|tool_calls_section_begin|>",
+        previous_token_ids=[],
+        current_token_ids=[section_begin_id],
+        delta_token_ids=[section_begin_id],
+        request=None,
+    )
+    assert kimi_k2_tool_parser.in_tool_section is True
+
+    # Exit tool section
+    _result2 = kimi_k2_tool_parser.extract_tool_calls_streaming(
+        previous_text="<|tool_calls_section_begin|>",
+        current_text="<|tool_calls_section_begin|><|tool_calls_section_end|>",
+        delta_text="<|tool_calls_section_end|>",
+        previous_token_ids=[section_begin_id],
+        current_token_ids=[section_begin_id, section_end_id],
+        delta_token_ids=[section_end_id],
+        request=None,
+    )
+    assert kimi_k2_tool_parser.in_tool_section is False
+
+    # Subsequent reasoning text should be returned normally
+    result3 = kimi_k2_tool_parser.extract_tool_calls_streaming(
+        previous_text="<|tool_calls_section_begin|><|tool_calls_section_end|>",
+        current_text="<|tool_calls_section_begin|><|tool_calls_section_end|> More reasoning",
+        delta_text=" More reasoning",
+        previous_token_ids=[section_begin_id, section_end_id],
+        current_token_ids=[section_begin_id, section_end_id, 10, 11],
+        delta_token_ids=[10, 11],
+        request=None,
+    )
+    assert result3 is not None
+    assert result3.content == " More reasoning"
+
+
+def test_empty_tool_section(kimi_k2_tool_parser):
+    """Test an empty tool section (begin immediately followed by end)."""
+    kimi_k2_tool_parser.reset_streaming_state()
+
+    section_begin_id = kimi_k2_tool_parser.vocab.get("<|tool_calls_section_begin|>")
+    section_end_id = kimi_k2_tool_parser.vocab.get("<|tool_calls_section_end|>")
+
+    # Section begin
+    _result1 = kimi_k2_tool_parser.extract_tool_calls_streaming(
+        previous_text="Reasoning ",
+        current_text="Reasoning <|tool_calls_section_begin|>",
+        delta_text="<|tool_calls_section_begin|>",
+        previous_token_ids=[1],
+        current_token_ids=[1, section_begin_id],
+        delta_token_ids=[section_begin_id],
+        request=None,
+    )
+
+    # Immediate section end
+    _result2 = kimi_k2_tool_parser.extract_tool_calls_streaming(
+        previous_text="Reasoning <|tool_calls_section_begin|>",
+        current_text="Reasoning <|tool_calls_section_begin|><|tool_calls_section_end|>",
+        delta_text="<|tool_calls_section_end|>",
+        previous_token_ids=[1, section_begin_id],
+        current_token_ids=[1, section_begin_id, section_end_id],
+        delta_token_ids=[section_end_id],
+        request=None,
+    )
+    # Should exit cleanly without errors
+    assert kimi_k2_tool_parser.in_tool_section is False
+
+
+def test_malformed_tool_section_recovery(kimi_k2_tool_parser):
+    """
+    Test that the parser recovers from a malformed tool section
+    that never closes properly.
+    """
+    kimi_k2_tool_parser.reset_streaming_state()
+
+    section_begin_id = kimi_k2_tool_parser.vocab.get("<|tool_calls_section_begin|>")
+
+    # Enter tool section
+    _result1 = kimi_k2_tool_parser.extract_tool_calls_streaming(
+        previous_text="",
+        current_text="<|tool_calls_section_begin|>",
+        delta_text="<|tool_calls_section_begin|>",
+        previous_token_ids=[],
+        current_token_ids=[section_begin_id],
+        delta_token_ids=[section_begin_id],
+        request=None,
+    )
+    assert kimi_k2_tool_parser.in_tool_section is True
+
+    # Simulate a lot of text without proper tool calls or section end
+    # This should trigger the error recovery mechanism
+    large_text = "x" * 10000  # Exceeds max_section_chars
+
+    result2 = kimi_k2_tool_parser.extract_tool_calls_streaming(
+        previous_text="<|tool_calls_section_begin|>",
+        current_text="<|tool_calls_section_begin|>" + large_text,
+        delta_text=large_text,
+        previous_token_ids=[section_begin_id],
+        current_token_ids=[section_begin_id] + list(range(100, 100 + len(large_text))),
+        delta_token_ids=list(range(100, 100 + len(large_text))),
+        request=None,
+    )
+
+    # Parser should have force-exited the tool section
+    assert kimi_k2_tool_parser.in_tool_section is False
+    # And returned the content as reasoning
+    assert result2 is not None
+    assert result2.content == large_text
+
+
+def test_state_reset(kimi_k2_tool_parser):
+    """Test that reset_streaming_state() properly clears all state."""
+    # Put parser in a complex state
+    kimi_k2_tool_parser.in_tool_section = True
+    kimi_k2_tool_parser.token_buffer = "some buffer"
+    kimi_k2_tool_parser.current_tool_id = 5
+    kimi_k2_tool_parser.prev_tool_call_arr = [{"id": "test"}]
+    kimi_k2_tool_parser.section_char_count = 1000
+
+    # Reset
+    kimi_k2_tool_parser.reset_streaming_state()
+
+    # Verify all state is cleared
+    assert kimi_k2_tool_parser.in_tool_section is False
+    assert kimi_k2_tool_parser.token_buffer == ""
+    assert kimi_k2_tool_parser.current_tool_id == -1
+    assert kimi_k2_tool_parser.prev_tool_call_arr == []
+    assert kimi_k2_tool_parser.section_char_count == 0
+    assert kimi_k2_tool_parser.current_tool_name_sent is False
+    assert kimi_k2_tool_parser.streamed_args_for_tool == []
+
+
+def test_section_begin_noise_tool_begin_same_chunk(kimi_k2_tool_parser):
+    """
+    Test that begin→noise→tool_begin within the SAME chunk suppresses
+    the noise text correctly (not just across chunks).
+    """
+    kimi_k2_tool_parser.reset_streaming_state()
+
+    section_begin_id = kimi_k2_tool_parser.vocab.get("<|tool_calls_section_begin|>")
+    tool_call_begin_id = kimi_k2_tool_parser.vocab.get("<|tool_call_begin|>")
+
+    # Single delta containing: section_begin + spurious text + tool_call_begin
+    combined_text = "<|tool_calls_section_begin|> noise text <|tool_call_begin|>"
+
+    result = kimi_k2_tool_parser.extract_tool_calls_streaming(
+        previous_text="Reasoning ",
+        current_text="Reasoning " + combined_text,
+        delta_text=combined_text,
+        previous_token_ids=[1, 2],
+        current_token_ids=[1, 2, section_begin_id, 3, 4, tool_call_begin_id],
+        delta_token_ids=[section_begin_id, 3, 4, tool_call_begin_id],
+        request=None,
+    )
+
+    # The noise text should NOT leak into content
+    # Result should either be None/empty or start tool call parsing
+    if result is not None and result.content is not None:
+        # If content is returned, it should not contain the noise
+        assert "noise text" not in result.content
+        assert result.content == "" or result.content.strip() == ""
+
+
+def test_stream_ends_without_section_end_marker(kimi_k2_tool_parser):
+    """
+    Test that if the stream ends (EOF) without a proper section end marker,
+    the parser doesn't leak text, doesn't crash, and resets state cleanly.
+    """
+    kimi_k2_tool_parser.reset_streaming_state()
+
+    section_begin_id = kimi_k2_tool_parser.vocab.get("<|tool_calls_section_begin|>")
+
+    # Enter tool section
+    _result1 = kimi_k2_tool_parser.extract_tool_calls_streaming(
+        previous_text="",
+        current_text="<|tool_calls_section_begin|>",
+        delta_text="<|tool_calls_section_begin|>",
+        previous_token_ids=[],
+        current_token_ids=[section_begin_id],
+        delta_token_ids=[section_begin_id],
+        request=None,
+    )
+    assert kimi_k2_tool_parser.in_tool_section is True
+
+    # Some content in tool section
+    result2 = kimi_k2_tool_parser.extract_tool_calls_streaming(
+        previous_text="<|tool_calls_section_begin|>",
+        current_text="<|tool_calls_section_begin|> partial content",
+        delta_text=" partial content",
+        previous_token_ids=[section_begin_id],
+        current_token_ids=[section_begin_id, 10, 11],
+        delta_token_ids=[10, 11],
+        request=None,
+    )
+    # Content should be suppressed
+    assert result2.content == "" or result2.content is None
+
+    # Stream ends (EOF) - no more deltas, no section_end marker
+    # Simulate this by manually checking state and resetting
+    # (In real usage, the request handler would call reset_streaming_state)
+    assert kimi_k2_tool_parser.in_tool_section is True  # Still in section
+
+    # Reset state (as would happen between requests)
+    kimi_k2_tool_parser.reset_streaming_state()
+
+    # Verify clean slate
+    assert kimi_k2_tool_parser.in_tool_section is False
+    assert kimi_k2_tool_parser.token_buffer == ""
+
+    # Next request should work normally
+    result3 = kimi_k2_tool_parser.extract_tool_calls_streaming(
+        previous_text="",
+        current_text="New reasoning",
+        delta_text="New reasoning",
+        previous_token_ids=[],
+        current_token_ids=[20, 21],
+        delta_token_ids=[20, 21],
+        request=None,
+    )
+    assert result3 is not None
+    assert result3.content == "New reasoning"
+
+
+def test_same_chunk_begin_and_end_markers(kimi_k2_tool_parser):
+    """
+    CRITICAL TEST: Verify that when both section_begin and section_end
+    markers appear in the SAME chunk, the parser correctly:
+    1. Enters the tool section
+    2. Immediately exits the tool section
+    3. Does NOT get stuck in in_tool_section=True state
+
+    This tests the bug fix where elif was changed to if to handle
+    both state transitions in a single delta.
+    """
+    kimi_k2_tool_parser.reset_streaming_state()
+
+    section_begin_id = kimi_k2_tool_parser.vocab.get("<|tool_calls_section_begin|>")
+    section_end_id = kimi_k2_tool_parser.vocab.get("<|tool_calls_section_end|>")
+
+    # Single chunk with both markers (e.g., empty tool section)
+    combined_delta = "<|tool_calls_section_begin|><|tool_calls_section_end|>"
+
+    result = kimi_k2_tool_parser.extract_tool_calls_streaming(
+        previous_text="Some reasoning ",
+        current_text="Some reasoning " + combined_delta,
+        delta_text=combined_delta,
+        previous_token_ids=[1, 2],
+        current_token_ids=[1, 2, section_begin_id, section_end_id],
+        delta_token_ids=[section_begin_id, section_end_id],
+        request=None,
+    )
+
+    # CRITICAL: Parser should NOT be stuck in tool section
+    assert kimi_k2_tool_parser.in_tool_section is False, (
+        "Parser stuck in tool section after processing both begin/end in same chunk. "
+        "This indicates the elif bug was not fixed."
+    )
+
+    # Result should be empty or contain only stripped content
+    assert result is not None
+    assert result.content == "" or result.content is None
+
+    # Verify subsequent content streams correctly (not suppressed)
+    result2 = kimi_k2_tool_parser.extract_tool_calls_streaming(
+        previous_text="Some reasoning " + combined_delta,
+        current_text="Some reasoning " + combined_delta + " More reasoning",
+        delta_text=" More reasoning",
+        previous_token_ids=[1, 2, section_begin_id, section_end_id],
+        current_token_ids=[1, 2, section_begin_id, section_end_id, 10, 11],
+        delta_token_ids=[10, 11],
+        request=None,
+    )
+
+    # This content should NOT be suppressed (we're out of tool section)
+    assert result2 is not None
+    assert result2.content == " More reasoning"
+
+
+def test_same_chunk_begin_content_end_markers(kimi_k2_tool_parser):
+    """
+    Test the same-chunk scenario with actual content between markers.
+    Example: <|tool_calls_section_begin|> text <|tool_calls_section_end|>
+    all arriving in one delta. The key is that the state machine correctly
+    transitions in and out within the same chunk.
+    """
+    kimi_k2_tool_parser.reset_streaming_state()
+
+    section_begin_id = kimi_k2_tool_parser.vocab.get("<|tool_calls_section_begin|>")
+    section_end_id = kimi_k2_tool_parser.vocab.get("<|tool_calls_section_end|>")
+
+    # Chunk with begin, some whitespace/noise, and end all together
+    # This simulates a tool section that opens and closes in the same chunk
+    combined_delta = "<|tool_calls_section_begin|>   <|tool_calls_section_end|>"
+
+    _result = kimi_k2_tool_parser.extract_tool_calls_streaming(
+        previous_text="Reasoning ",
+        current_text="Reasoning " + combined_delta,
+        delta_text=combined_delta,
+        previous_token_ids=[1],
+        current_token_ids=[1, section_begin_id, 100, section_end_id],
+        delta_token_ids=[section_begin_id, 100, section_end_id],
+        request=None,
+    )
+
+    # Parser should exit cleanly (not stuck in tool section)
+    assert kimi_k2_tool_parser.in_tool_section is False
+
+    # Verify the fix: next content should stream normally, not be suppressed
+    result2 = kimi_k2_tool_parser.extract_tool_calls_streaming(
+        previous_text="Reasoning " + combined_delta,
+        current_text="Reasoning " + combined_delta + " Done",
+        delta_text=" Done",
+        previous_token_ids=[1, section_begin_id, 100, section_end_id],
+        current_token_ids=[1, section_begin_id, 100, section_end_id, 200],
+        delta_token_ids=[200],
+        request=None,
+    )
+
+    # Content after section should be returned (not suppressed)
+    assert result2 is not None
+    assert result2.content == " Done"
+
+
+def test_tool_call_end_and_section_end_same_chunk(kimi_k2_tool_parser):
+    """
+    CRITICAL TEST (P1): Verify that when both <|tool_call_end|> and
+    <|tool_calls_section_end|> appear in the SAME chunk, the parser:
+    1. Processes the tool_call_end first (emits final arguments)
+    2. THEN exits the section
+    3. Does NOT drop the final tool call update
+    4. Does NOT leak special tokens into reasoning
+
+    This tests the deferred section exit fix.
+    """
+    kimi_k2_tool_parser.reset_streaming_state()
+
+    section_begin_id = kimi_k2_tool_parser.vocab.get("<|tool_calls_section_begin|>")
+    section_end_id = kimi_k2_tool_parser.vocab.get("<|tool_calls_section_end|>")
+    tool_begin_id = kimi_k2_tool_parser.vocab.get("<|tool_call_begin|>")
+    tool_end_id = kimi_k2_tool_parser.vocab.get("<|tool_call_end|>")
+
+    # Simulate a streaming sequence for a SHORT tool call (all in one chunk):
+    # 1. Reasoning text
+    result1 = kimi_k2_tool_parser.extract_tool_calls_streaming(
+        previous_text="",
+        current_text="Let me help. ",
+        delta_text="Let me help. ",
+        previous_token_ids=[],
+        current_token_ids=[1, 2],
+        delta_token_ids=[1, 2],
+        request=None,
+    )
+    assert result1 is not None
+    assert result1.content == "Let me help. "
+
+    # 2. Section begin
+    _result2 = kimi_k2_tool_parser.extract_tool_calls_streaming(
+        previous_text="Let me help. ",
+        current_text="Let me help. <|tool_calls_section_begin|>",
+        delta_text="<|tool_calls_section_begin|>",
+        previous_token_ids=[1, 2],
+        current_token_ids=[1, 2, section_begin_id],
+        delta_token_ids=[section_begin_id],
+        request=None,
+    )
+    assert kimi_k2_tool_parser.in_tool_section is True
+
+    # 3. Tool call begin + full content + tool_end + section_end ALL IN ONE CHUNK
+    # This is the critical scenario for short tool calls
+    combined = (
+        '<|tool_call_begin|>get_weather:0 <|tool_call_argument_begin|> {"city": "Paris"} '
+        "<|tool_call_end|><|tool_calls_section_end|>"
+    )
+
+    # Build up the previous text gradually to simulate realistic streaming
+    prev_text = "Let me help. <|tool_calls_section_begin|>"
+    curr_text = prev_text + combined
+
+    result3 = kimi_k2_tool_parser.extract_tool_calls_streaming(
+        previous_text=prev_text,
+        current_text=curr_text,
+        delta_text=combined,
+        previous_token_ids=[1, 2, section_begin_id],
+        current_token_ids=[
+            1,
+            2,
+            section_begin_id,
+            tool_begin_id,
+            10,
+            11,
+            12,
+            tool_end_id,
+            section_end_id,
+        ],
+        delta_token_ids=[tool_begin_id, 10, 11, 12, tool_end_id, section_end_id],
+        request=None,
+    )
+
+    # CRITICAL: Parser should have exited section AFTER processing tool
+    assert kimi_k2_tool_parser.in_tool_section is False
+
+    # Tool call should have been emitted (not dropped)
+    # The result might be the tool name or None depending on state, but
+    # importantly, it shouldn't be returning the literal tokens as content
+
+    if result3 is not None and result3.content is not None:
+        # Verify no special tokens leaked into content
+        assert "<|tool_call_end|>" not in result3.content
+        assert "<|tool_calls_section_end|>" not in result3.content
+
+    # 4. Verify subsequent content streams normally
+    result4 = kimi_k2_tool_parser.extract_tool_calls_streaming(
+        previous_text=curr_text,
+        current_text=curr_text + " Done",
+        delta_text=" Done",
+        previous_token_ids=[
+            1,
+            2,
+            section_begin_id,
+            tool_begin_id,
+            10,
+            11,
+            12,
+            tool_end_id,
+            section_end_id,
+        ],
+        current_token_ids=[
+            1,
+            2,
+            section_begin_id,
+            tool_begin_id,
+            10,
+            11,
+            12,
+            tool_end_id,
+            section_end_id,
+            20,
+        ],
+        delta_token_ids=[20],
+        request=None,
+    )
+
+    # Content after tool section should stream normally
+    assert result4 is not None
+    assert result4.content == " Done"
diff --git a/vllm/entrypoints/openai/tool_parsers/kimi_k2_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/kimi_k2_tool_parser.py
index 0453db58361a9..a84c9e4547168 100644
--- a/vllm/entrypoints/openai/tool_parsers/kimi_k2_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/kimi_k2_tool_parser.py
@@ -34,8 +34,27 @@ class KimiK2ToolParser(ToolParser):
             str
         ] = []  # map what has been streamed for each tool so far to a list
 
+        # Section-level state management to prevent token leakage
+        self.in_tool_section: bool = False
+        self.token_buffer: str = ""
+        # Buffer size: empirical worst-case for longest marker (~30 chars) * 2
+        # + safety margin for unicode + partial overlap. Prevents unbounded growth.
+        self.buffer_max_size: int = 1024
+        self.section_char_count: int = 0  # Track characters processed in tool section
+        self.max_section_chars: int = 8192  # Force exit if section exceeds this
+        self._buffer_overflow_logged: bool = False  # Log overflow once per session
+
+        # Support both singular and plural variants
         self.tool_calls_start_token: str = "<|tool_calls_section_begin|>"
         self.tool_calls_end_token: str = "<|tool_calls_section_end|>"
+        self.tool_calls_start_token_variants: list[str] = [
+            "<|tool_calls_section_begin|>",
+            "<|tool_call_section_begin|>",  # singular variant
+        ]
+        self.tool_calls_end_token_variants: list[str] = [
+            "<|tool_calls_section_end|>",
+            "<|tool_call_section_end|>",  # singular variant
+        ]
 
         self.tool_call_start_token: str = "<|tool_call_begin|>"
         self.tool_call_end_token: str = "<|tool_call_end|>"
@@ -58,6 +77,18 @@ class KimiK2ToolParser(ToolParser):
         self.tool_calls_start_token_id = self.vocab.get(self.tool_calls_start_token)
         self.tool_calls_end_token_id = self.vocab.get(self.tool_calls_end_token)
 
+        # Get token IDs for all variants
+        self.tool_calls_start_token_ids: list[int] = [
+            tid
+            for variant in self.tool_calls_start_token_variants
+            if (tid := self.vocab.get(variant)) is not None
+        ]
+        self.tool_calls_end_token_ids: list[int] = [
+            tid
+            for variant in self.tool_calls_end_token_variants
+            if (tid := self.vocab.get(variant)) is not None
+        ]
+
         self.tool_call_start_token_id = self.vocab.get(self.tool_call_start_token)
         self.tool_call_end_token_id = self.vocab.get(self.tool_call_end_token)
 
@@ -70,6 +101,51 @@ class KimiK2ToolParser(ToolParser):
                 "tokens in the tokenizer!"
             )
 
+    def _check_and_strip_markers(self, text: str) -> tuple[str, bool, bool]:
+        """
+        Check for section begin/end markers in text and strip them.
+        Returns: (cleaned_text, found_section_begin, found_section_end)
+        """
+        found_begin = False
+        found_end = False
+        cleaned = text
+
+        # Check for section begin markers (any variant)
+        for variant in self.tool_calls_start_token_variants:
+            if variant in cleaned:
+                cleaned = cleaned.replace(variant, "")
+                found_begin = True
+
+        # Check for section end markers (any variant)
+        for variant in self.tool_calls_end_token_variants:
+            if variant in cleaned:
+                cleaned = cleaned.replace(variant, "")
+                found_end = True
+
+        return cleaned, found_begin, found_end
+
+    def _reset_section_state(self) -> None:
+        """Reset state when exiting tool section."""
+        self.in_tool_section = False
+        self.token_buffer = ""
+        self.section_char_count = 0
+
+    def reset_streaming_state(self) -> None:
+        """
+        Reset all streaming state. Call this between requests to prevent
+        state leakage when parser instance is reused.
+        """
+        # Reset section state
+        self._reset_section_state()
+
+        # Reset parent class state
+        self.current_tool_name_sent = False
+        self.prev_tool_call_arr = []
+        self.current_tool_id = -1
+        self.streamed_args_for_tool = []
+
+        logger.debug("Streaming state reset")
+
     def extract_tool_calls(
         self,
         model_output: str,
@@ -131,13 +207,94 @@ class KimiK2ToolParser(ToolParser):
     ) -> DeltaMessage | None:
         logger.debug("delta_text: %s", delta_text)
         logger.debug("delta_token_ids: %s", delta_token_ids)
-        # check to see if we should be streaming a tool call - is there a
-        if self.tool_calls_start_token_id not in current_token_ids:
-            logger.debug("No tool call tokens found!")
-            return DeltaMessage(content=delta_text)
-        delta_text = delta_text.replace(self.tool_calls_start_token, "").replace(
-            self.tool_calls_end_token, ""
+
+        # Flag to defer section exit until after tool parsing completes
+        deferred_section_exit = False
+
+        # Add delta to buffer for split marker detection
+        self.token_buffer += delta_text
+
+        # Enforce buffer size limit to prevent memory issues
+        if len(self.token_buffer) > self.buffer_max_size:
+            if not self._buffer_overflow_logged:
+                logger.warning(
+                    "Token buffer exceeded max size (%d bytes), flushing excess. "
+                    "This may indicate very long markers or unusual tokenization.",
+                    self.buffer_max_size,
+                )
+                self._buffer_overflow_logged = True
+            # Keep only the most recent content that might contain partial markers
+            self.token_buffer = self.token_buffer[-self.buffer_max_size // 2 :]
+
+        # Check buffer for section markers (handles split tokens)
+        buffered_text, found_section_begin, found_section_end = (
+            self._check_and_strip_markers(self.token_buffer)
         )
+
+        # Track section state transitions
+        if found_section_begin and not self.in_tool_section:
+            logger.debug("Entering tool section")
+            self.in_tool_section = True
+            self.token_buffer = buffered_text  # Use cleaned buffer
+            self.section_char_count = 0  # Reset counter for new section
+        if found_section_end and self.in_tool_section:
+            logger.debug("Detected section end marker")
+            # CRITICAL: Don't exit early if tool_call_end is in this chunk.
+            # Tool parser must emit final arguments/close first to avoid dropping
+            # the final tool update and leaking tokens into reasoning channel.
+            has_tool_end = self.tool_call_end_token_id in delta_token_ids
+            if has_tool_end:
+                # Defer exit until after tool parsing completes
+                deferred_section_exit = True
+                logger.debug("Deferring section exit: tool_call_end in same chunk")
+                self.token_buffer = buffered_text
+            else:
+                # No tool call ending, safe to exit immediately
+                logger.debug("Exiting tool section")
+                remaining = buffered_text
+                self._reset_section_state()
+                # Return remaining text as reasoning content if non-empty
+                if remaining.strip():
+                    return DeltaMessage(content=remaining)
+                # Return empty delta to maintain function contract
+                # (always returns DeltaMessage)
+                return DeltaMessage(content="")
+        else:
+            self.token_buffer = buffered_text
+
+        # Check if any variant of section start token is in current_token_ids
+        has_section_token = any(
+            tid in current_token_ids for tid in self.tool_calls_start_token_ids
+        )
+
+        # Early return: if no section token detected yet, return as reasoning content
+        if not has_section_token and not self.in_tool_section:
+            logger.debug("No tool call tokens found!")
+            # Don't clear buffer - it needs to accumulate partial markers across deltas
+            # Buffer overflow is already protected by lines 215-224
+            return DeltaMessage(content=delta_text)
+
+        # Strip section markers from delta_text for subsequent processing
+        # NOTE: This preprocessing happens BEFORE the regex-based tool call
+        # parsing (from PR #24847) to ensure markers are removed cleanly
+        # before pattern matching. No double-stripping occurs because
+        # section markers and tool call markers are distinct.
+        delta_text, _, _ = self._check_and_strip_markers(delta_text)
+
+        # Error recovery: If in tool section for too long, force exit
+        if self.in_tool_section:
+            self.section_char_count += len(delta_text)
+            if self.section_char_count > self.max_section_chars:
+                logger.warning(
+                    "Tool section exceeded max length (%d chars), forcing exit. "
+                    "This may indicate malformed model output.",
+                    self.max_section_chars,
+                )
+                self._reset_section_state()
+                # Deferred exit already handled by forced exit above
+                # Return remaining content as reasoning (or empty delta if no content)
+                return DeltaMessage(content=delta_text if delta_text.strip() else "")
+
         try:
             # figure out where we are in the parsing by counting tool call
             # start & end tags
@@ -158,6 +315,16 @@ class KimiK2ToolParser(ToolParser):
                 and prev_tool_end_count == cur_tool_end_count
                 and self.tool_call_end_token not in delta_text
             ):
+                # CRITICAL FIX: Suppress content if in tool section but
+                # no tool calls started
+                if self.in_tool_section and cur_tool_start_count == 0:
+                    logger.debug(
+                        "In tool section but no tool calls started yet. "
+                        "Suppressing: %s",
+                        delta_text,
+                    )
+                    # Return empty delta to maintain iterator contract
+                    return DeltaMessage(content="")
                 logger.debug("Generating text content! skipping tool parsing.")
                 return DeltaMessage(content=delta_text)
 
@@ -209,6 +376,9 @@ class KimiK2ToolParser(ToolParser):
             ):
                 if self.prev_tool_call_arr is None or len(self.prev_tool_call_arr) == 0:
                     logger.debug("attempting to close tool call, but no tool call")
+                    # Handle deferred section exit before returning
+                    if deferred_section_exit and self.in_tool_section:
+                        self._reset_section_state()
                     return None
                 diff = self.prev_tool_call_arr[self.current_tool_id].get("arguments")
                 if diff:
@@ -218,6 +388,9 @@ class KimiK2ToolParser(ToolParser):
                         else diff
                     )
                     if '"}' not in delta_text:
+                        # Handle deferred section exit before returning
+                        if deferred_section_exit and self.in_tool_section:
+                            self._reset_section_state()
                         return None
                     end_loc = delta_text.rindex('"}')
                     diff = delta_text[:end_loc] + '"}'
@@ -227,6 +400,10 @@ class KimiK2ToolParser(ToolParser):
                         diff,
                     )
                     self.streamed_args_for_tool[self.current_tool_id] += diff
+                    # Handle deferred section exit before returning
+                    if deferred_section_exit and self.in_tool_section:
+                        logger.debug("Completing deferred section exit")
+                        self._reset_section_state()
                     return DeltaMessage(
                         tool_calls=[
                             DeltaToolCall(
@@ -240,9 +417,19 @@ class KimiK2ToolParser(ToolParser):
 
             # case -- otherwise we're just generating text
             else:
+                # Check if we're in tool section - if so, suppress
+                if self.in_tool_section:
+                    logger.debug("In tool section, suppressing text generation")
+                    # Handle deferred section exit before returning
+                    if deferred_section_exit:
+                        self._reset_section_state()
+                    return DeltaMessage(content="")
                 text = delta_text.replace(self.tool_call_start_token, "")
                 text = text.replace(self.tool_call_end_token, "")
                 delta = DeltaMessage(tool_calls=[], content=text)
+                # Handle deferred section exit before returning
+                if deferred_section_exit and self.in_tool_section:
+                    self._reset_section_state()
                 return delta
 
             current_tool_call = dict()
@@ -390,6 +577,11 @@ class KimiK2ToolParser(ToolParser):
             else:
                 self.prev_tool_call_arr.append(current_tool_call)
 
+            # Handle deferred section exit after tool parsing completes
+            if deferred_section_exit and self.in_tool_section:
+                logger.debug("Completing deferred section exit")
+                self._reset_section_state()
+
             return delta
 
         except Exception:

From 3380ed5e115613bb0029164754ffea99f328e065 Mon Sep 17 00:00:00 2001
From: Jee Jee Li <pandaleefree@gmail.com>
Date: Mon, 17 Nov 2025 14:08:48 +0800
Subject: [PATCH 520/976] [Doc] Add llama4 LoRA tag (#28825)

Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>
---
 docs/models/supported_models.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/docs/models/supported_models.md b/docs/models/supported_models.md
index 6eb0947fe5681..d47aeaab511b9 100644
--- a/docs/models/supported_models.md
+++ b/docs/models/supported_models.md
@@ -684,7 +684,7 @@ These models primarily accept the [`LLM.generate`](./generative_models.md#llmgen
 | `KeyeVL1_5ForConditionalGeneration` | Keye-VL-1_5-8B | T + I<sup>E+</sup> + V<sup>E+</sup> | `Kwai-Keye/Keye-VL-1_5-8B` | ✅︎ | ✅︎ |
 | `KimiVLForConditionalGeneration` | Kimi-VL-A3B-Instruct, Kimi-VL-A3B-Thinking | T + I<sup>+</sup> | `moonshotai/Kimi-VL-A3B-Instruct`, `moonshotai/Kimi-VL-A3B-Thinking` | | ✅︎ |
 | `LightOnOCRForConditionalGeneration`  | LightOnOCR-1B  | T + I<sup>+</sup> | `lightonai/LightOnOCR-1B`, etc | ✅︎ | ✅︎ |
-| `Llama4ForConditionalGeneration` | Llama 4 | T + I<sup>+</sup> | `meta-llama/Llama-4-Scout-17B-16E-Instruct`, `meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8`, `meta-llama/Llama-4-Maverick-17B-128E-Instruct`, etc. | | ✅︎ |
+| `Llama4ForConditionalGeneration` | Llama 4 | T + I<sup>+</sup> | `meta-llama/Llama-4-Scout-17B-16E-Instruct`, `meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8`, `meta-llama/Llama-4-Maverick-17B-128E-Instruct`, etc. | ✅︎ | ✅︎ |
 | `Llama_Nemotron_Nano_VL` | Llama Nemotron Nano VL | T + I<sup>E+</sup> | `nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1` | ✅︎ | ✅︎ |
 | `LlavaForConditionalGeneration` | LLaVA-1.5, Pixtral (HF Transformers) | T + I<sup>E+</sup> | `llava-hf/llava-1.5-7b-hf`, `TIGER-Lab/Mantis-8B-siglip-llama3` (see note), `mistral-community/pixtral-12b`, etc. | | ✅︎ |
 | `LlavaNextForConditionalGeneration` | LLaVA-NeXT | T + I<sup>E+</sup> | `llava-hf/llava-v1.6-mistral-7b-hf`, `llava-hf/llava-v1.6-vicuna-7b-hf`, etc. | | ✅︎ |

From 577bb34fffc83598d3e4940f8492c122d9e3318d Mon Sep 17 00:00:00 2001
From: "Li, Jiang" <jiang1.li@intel.com>
Date: Mon, 17 Nov 2025 15:47:24 +0800
Subject: [PATCH 521/976] [CPU][Bugfix] Fix _to_list in CPU model runner
 (#28824)

Signed-off-by: jiang1.li <jiang1.li@intel.com>
---
 csrc/cpu/torch_bindings.cpp        | 8 ++++++++
 vllm/v1/worker/cpu_model_runner.py | 3 ---
 2 files changed, 8 insertions(+), 3 deletions(-)

diff --git a/csrc/cpu/torch_bindings.cpp b/csrc/cpu/torch_bindings.cpp
index 5e2aa70692566..9fefd88cd9b08 100644
--- a/csrc/cpu/torch_bindings.cpp
+++ b/csrc/cpu/torch_bindings.cpp
@@ -100,6 +100,9 @@ void cpu_attention_with_kv_cache(
     const torch::Tensor& scheduler_metadata,
     const std::optional<torch::Tensor>& s_aux);
 
+// Note: just for avoiding importing errors
+void placeholder_op() { TORCH_CHECK(false, "Unimplemented"); }
+
 TORCH_LIBRARY_EXPAND(TORCH_EXTENSION_NAME, ops) {
   // vLLM custom ops
 
@@ -275,6 +278,11 @@ TORCH_LIBRARY_EXPAND(TORCH_EXTENSION_NAME, ops) {
       "sliding_window_left, SymInt sliding_window_right, Tensor block_table, "
       "float softcap, Tensor sheduler_metadata, Tensor? s_aux) -> ()",
       &cpu_attention_with_kv_cache);
+
+  // placeholders
+  ops.def("static_scaled_fp8_quant() -> ()", placeholder_op);
+  ops.def("dynamic_scaled_fp8_quant() -> ()", placeholder_op);
+  ops.def("dynamic_per_token_scaled_fp8_quant() -> ()", placeholder_op);
 }
 
 TORCH_LIBRARY_EXPAND(CONCAT(TORCH_EXTENSION_NAME, _utils), utils) {
diff --git a/vllm/v1/worker/cpu_model_runner.py b/vllm/v1/worker/cpu_model_runner.py
index ceb1cf64b5889..40f011fed1ada 100644
--- a/vllm/v1/worker/cpu_model_runner.py
+++ b/vllm/v1/worker/cpu_model_runner.py
@@ -80,9 +80,6 @@ class CPUModelRunner(GPUModelRunner):
     def _sync_device(self) -> None:
         pass
 
-    def _to_list(self, sampled_token_ids: torch.Tensor) -> list[list[int]]:
-        return sampled_token_ids.tolist()
-
     def get_dp_padding(self, num_tokens: int) -> tuple[int, torch.Tensor | None]:
         # Note: For CPU backend, dp padding is not required for now.
         return 0, None

From ab01cd14e5e2ef65549b459d0a2bf3a2540c9f3f Mon Sep 17 00:00:00 2001
From: wuyaoxuehun <798143193@qq.com>
Date: Mon, 17 Nov 2025 16:13:11 +0700
Subject: [PATCH 522/976] [BugFix] Fix glm4_moe_mtp load weights bug (#28805)

Signed-off-by: wuyaoxuehun <798143193@qq.com>
---
 vllm/model_executor/models/glm4_moe_mtp.py | 7 +++----
 1 file changed, 3 insertions(+), 4 deletions(-)

diff --git a/vllm/model_executor/models/glm4_moe_mtp.py b/vllm/model_executor/models/glm4_moe_mtp.py
index 110ed0a646334..e34ae6c85a4f8 100644
--- a/vllm/model_executor/models/glm4_moe_mtp.py
+++ b/vllm/model_executor/models/glm4_moe_mtp.py
@@ -256,13 +256,12 @@ class Glm4MoeMTP(nn.Module, SupportsPP, Glm4MixtureOfExperts):
 
         params_dict = dict(self.named_parameters())
         loaded_params: set[str] = set()
-        spec_layer = self.model.mtp_start_layer_idx
         for name, loaded_weight in weights:
             if name == "lm_head.weight":
-                name = f"model.layers.{spec_layer}.shard_head.head.weight"
+                spec_layer = self.model.mtp_start_layer_idx
+                name = f"model.layers.{spec_layer}.shared_head.head.weight"
             elif name == "model.embed_tokens.weight":
-                # This name is same with local model, rewriting is not needed.
-                pass
+                spec_layer = self.model.mtp_start_layer_idx
             else:
                 spec_layer = get_spec_layer_idx_from_weight_name(self.config, name)
                 if spec_layer is None:

From d4acf518d09515560e1082a80b8a4d6550e20d9b Mon Sep 17 00:00:00 2001
From: Jae-Won Chung <jwnchung@umich.edu>
Date: Mon, 17 Nov 2025 04:54:15 -0500
Subject: [PATCH 523/976] [Metrics] Fix KV cache usage percent metric multiproc
 (#28792)

The `vllm:kv_cache_usage_perc` Gauge metric is missing `multiprocess_mode="mostrecent"` and ends up returning

```
vllm:kv_cache_usage_perc{engine="0",model_name="Qwen/Qwen3-VL-8B-Instruct",pid="277"} 0.0
vllm:kv_cache_usage_perc{engine="0",model_name="Qwen/Qwen3-VL-8B-Instruct",pid="275"} 0.0
vllm:kv_cache_usage_perc{engine="0",model_name="Qwen/Qwen3-VL-8B-Instruct",pid="273"} 0.6530455880475035
...
```

The deprecated `vllm:gpu_cache_usage_perc` Gauge metric has `multiprocess_mode="mostrecent"`.

Signed-off-by: Jae-Won Chung <jwnchung@umich.edu>
---
 vllm/v1/metrics/loggers.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/vllm/v1/metrics/loggers.py b/vllm/v1/metrics/loggers.py
index 21280b9c84cf2..cb36e7973650e 100644
--- a/vllm/v1/metrics/loggers.py
+++ b/vllm/v1/metrics/loggers.py
@@ -494,6 +494,7 @@ class PrometheusStatLogger(AggregateStatLoggerBase):
         gauge_kv_cache_usage = self._gauge_cls(
             name="vllm:kv_cache_usage_perc",
             documentation="KV-cache usage. 1 means 100 percent usage.",
+            multiprocess_mode="mostrecent",
             labelnames=labelnames,
         )
         self.gauge_kv_cache_usage = make_per_engine(

From 1b82fb0ad3cea2e1a31da4fa20dd736a8a181089 Mon Sep 17 00:00:00 2001
From: Kunshang Ji <kunshang.ji@intel.com>
Date: Mon, 17 Nov 2025 21:16:44 +0800
Subject: [PATCH 524/976] [XPU] work around for sp, avoid custom op import
 error (#28822)

Signed-off-by: Kunshang Ji <kunshang.ji@intel.com>
---
 vllm/compilation/pass_manager.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/vllm/compilation/pass_manager.py b/vllm/compilation/pass_manager.py
index 0c2210d72ce07..0e8bb2fc97351 100644
--- a/vllm/compilation/pass_manager.py
+++ b/vllm/compilation/pass_manager.py
@@ -18,6 +18,7 @@ if current_platform.is_cuda_alike():
     from .fusion import RMSNormQuantFusionPass
     from .fusion_attn import AttnFusionPass
     from .qk_norm_rope_fusion import QKNormRoPEFusionPass
+    from .sequence_parallelism import SequenceParallelismPass
 
 if current_platform.is_cuda():
     from .collective_fusion import AllReduceFusionPass, AsyncTPPass
@@ -25,7 +26,6 @@ if current_platform.is_cuda():
 from .fix_functionalization import FixFunctionalizationPass
 from .inductor_pass import CustomGraphPass, InductorPass, get_pass_context
 from .noop_elimination import NoOpEliminationPass
-from .sequence_parallelism import SequenceParallelismPass
 
 logger = init_logger(__name__)
 

From 64e39d667cb5b550e6ce148acd3d4dcd1654eace Mon Sep 17 00:00:00 2001
From: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com>
Date: Mon, 17 Nov 2025 09:41:22 -0500
Subject: [PATCH 525/976] [BugFix] Temporary fix for IMA with MTP = 2 and
 full-cg (#28315)

Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com>
---
 vllm/config/compilation.py         | 77 +++++++++++++++++++++++++-----
 vllm/v1/worker/gpu_model_runner.py | 16 +++++++
 2 files changed, 80 insertions(+), 13 deletions(-)

diff --git a/vllm/config/compilation.py b/vllm/config/compilation.py
index 10673041aa685..088d0b1af757a 100644
--- a/vllm/config/compilation.py
+++ b/vllm/config/compilation.py
@@ -18,6 +18,7 @@ from vllm.config.utils import config
 from vllm.logger import init_logger
 from vllm.platforms import current_platform
 from vllm.utils.import_utils import resolve_obj_by_qualname
+from vllm.utils.math_utils import round_up
 from vllm.utils.torch_utils import is_torch_equal_or_newer
 
 if TYPE_CHECKING:
@@ -773,19 +774,8 @@ class CompilationConfig:
         if self.cudagraph_capture_sizes:
             assert self.cudagraph_capture_sizes[-1] == self.max_cudagraph_capture_size
 
-        # pre-compute the mapping from batch size to padded graph size
-        self.bs_to_padded_graph_size = [
-            0 for i in range(self.max_cudagraph_capture_size + 1)
-        ]
-        for end, start in zip(
-            self.cudagraph_capture_sizes + [self.max_cudagraph_capture_size + 1],
-            [0] + self.cudagraph_capture_sizes,
-        ):
-            for bs in range(start, end):
-                if bs == start:
-                    self.bs_to_padded_graph_size[bs] = start
-                else:
-                    self.bs_to_padded_graph_size[bs] = end
+        # May get recomputed in the model runner if adjustment is needed for spec-decode
+        self.compute_bs_to_padded_graph_size()
 
     def set_splitting_ops_for_v1(self):
         # NOTE: this function needs to be called only when mode is
@@ -922,3 +912,64 @@ class CompilationConfig:
                     enable_str,
                     op,
                 )
+
+    def adjust_cudagraph_sizes_for_spec_decode(
+        self, uniform_decode_query_len: int, tensor_parallel_size: int
+    ):
+        multiple_of = uniform_decode_query_len
+        if tensor_parallel_size > 1:
+            multiple_of = max(uniform_decode_query_len, tensor_parallel_size)
+            if (
+                multiple_of % uniform_decode_query_len != 0
+                or multiple_of % tensor_parallel_size != 0
+            ):
+                raise ValueError(
+                    f"Can't determine cudagraph shapes that are both a "
+                    f"multiple of {uniform_decode_query_len} "
+                    f"(num_speculative_tokens + 1) required by spec-decode "
+                    f"and {tensor_parallel_size} (tensor_parallel_size) "
+                    f"required by sequence parallelism please adjust "
+                    f"num_speculative_tokens or disable sequence parallelism"
+                )
+
+        if not self.cudagraph_capture_sizes or multiple_of <= 1:
+            return
+
+        assert self.max_cudagraph_capture_size is not None
+        rounded_sizes = sorted(
+            set(
+                round_up(size, multiple_of)
+                for size in self.cudagraph_capture_sizes
+                if round_up(size, multiple_of) <= self.max_cudagraph_capture_size
+            )
+        )
+
+        if len(rounded_sizes) == 0:
+            logger.warning(
+                "No valid cudagraph sizes after rounding to multiple of "
+                " num_speculative_tokens + 1 (%d); please adjust num_speculative_tokens"
+                " or max_cudagraph_capture_size (or cudagraph_capture_sizes)",
+                multiple_of,
+            )
+            return
+
+        self.max_cudagraph_capture_size = rounded_sizes[-1]
+        self.cudagraph_capture_sizes = rounded_sizes
+
+        # Recompute after adjusting the cudagraph sizes
+        self.compute_bs_to_padded_graph_size()
+
+    def compute_bs_to_padded_graph_size(self):
+        # pre-compute the mapping from batch size to padded graph size
+        self.bs_to_padded_graph_size = [
+            0 for i in range(self.max_cudagraph_capture_size + 1)
+        ]
+        for end, start in zip(
+            self.cudagraph_capture_sizes + [self.max_cudagraph_capture_size + 1],
+            [0] + self.cudagraph_capture_sizes,
+        ):
+            for bs in range(start, end):
+                if bs == start:
+                    self.bs_to_padded_graph_size[bs] = start
+                else:
+                    self.bs_to_padded_graph_size[bs] = end
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index ffbac5fe12f76..4fe1b6487d589 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -4332,6 +4332,22 @@ class GPUModelRunner(
                 "and make sure compilation mode is VLLM_COMPILE"
             )
 
+        # if we have dedicated decode cudagraphs, and spec-decode is enabled,
+        # we need to adjust the cudagraph sizes to be a multiple of the uniform
+        # decode query length to avoid: https://github.com/vllm-project/vllm/issues/28207
+        # temp-fix: https://github.com/vllm-project/vllm/issues/28207#issuecomment-3504004536
+        # Will be removed in the near future when we have seperate cudagraph capture
+        # sizes for decode and mixed prefill-decode.
+        if (
+            cudagraph_mode.decode_mode() == CUDAGraphMode.FULL
+            and cudagraph_mode.separate_routine()
+            and self.uniform_decode_query_len > 1
+        ):
+            self.compilation_config.adjust_cudagraph_sizes_for_spec_decode(
+                self.uniform_decode_query_len, self.parallel_config.tensor_parallel_size
+            )
+            self.cudagraph_batch_sizes = self.compilation_config.cudagraph_capture_sizes
+
         # Trigger cudagraph dispatching keys initialization after
         # resolved cudagraph mode.
         self.cudagraph_dispatcher.initialize_cudagraph_keys(

From 7f064491f80ba20e782f33f4da566ec7da5118d7 Mon Sep 17 00:00:00 2001
From: Roger Wang <hey@rogerw.io>
Date: Mon, 17 Nov 2025 06:49:25 -0800
Subject: [PATCH 526/976] [Bugfix][Perf] Revert applying HF processor on
 text-only inputs for multimodal models  (#28858)

Signed-off-by: Roger Wang <hey@rogerw.io>
---
 tests/test_inputs.py      | 35 +++++++----------------------------
 vllm/inputs/preprocess.py | 14 ++++----------
 2 files changed, 11 insertions(+), 38 deletions(-)

diff --git a/tests/test_inputs.py b/tests/test_inputs.py
index 50a273016ab80..b1fb4e06a6906 100644
--- a/tests/test_inputs.py
+++ b/tests/test_inputs.py
@@ -86,34 +86,6 @@ def test_zip_enc_dec_prompts(mm_processor_kwargs, expected_mm_kwargs):
         assert zipped["mm_processor_kwargs"] == exp_kwargs
 
 
-@pytest.mark.parametrize(
-    "model_id",
-    [
-        "facebook/opt-125m",
-    ],
-)
-@pytest.mark.parametrize(
-    "prompt",
-    [
-        {
-            "prompt": "",
-            "multi_modal_data": {"dummy": []},
-        },
-        {
-            "prompt_token_ids": [],
-            "multi_modal_data": {"dummy": []},
-        },
-    ],
-)
-def test_preprocessor_text_no_mm_inputs(model_id, prompt):
-    model_config = ModelConfig(model=model_id)
-    tokenizer = init_tokenizer_from_configs(model_config)
-    input_preprocessor = InputPreprocessor(model_config, tokenizer)
-
-    with pytest.raises(ValueError, match="does not support multimodal inputs"):
-        input_preprocessor.preprocess(prompt)
-
-
 @pytest.mark.parametrize(
     "model_id",
     [
@@ -127,6 +99,13 @@ def test_preprocessor_text_no_mm_inputs(model_id, prompt):
         {"prompt_token_ids": []},
     ],
 )
+@pytest.mark.skip(
+    reason=(
+        "Applying huggingface processor on text inputs results in "
+        "significant performance regression for multimodal models. "
+        "See https://github.com/vllm-project/vllm/issues/26320"
+    )
+)
 def test_preprocessor_always_mm_code_path(model_id, prompt):
     model_config = ModelConfig(model=model_id)
     tokenizer = init_tokenizer_from_configs(model_config)
diff --git a/vllm/inputs/preprocess.py b/vllm/inputs/preprocess.py
index 80d5322a34c3a..839c13868a16c 100644
--- a/vllm/inputs/preprocess.py
+++ b/vllm/inputs/preprocess.py
@@ -348,18 +348,15 @@ class InputPreprocessor:
         )
 
         inputs: TokenInputs | MultiModalInputs
-        if self.model_config.is_multimodal_model:
+        if multi_modal_data := parsed_content.get("multi_modal_data"):
             inputs = self._process_multimodal(
                 prompt_token_ids,
-                parsed_content.get("multi_modal_data") or {},
+                multi_modal_data,
                 parsed_content.get("mm_processor_kwargs") or {},
                 tokenization_kwargs=tokenization_kwargs,
                 mm_uuids=mm_uuids,
             )
         else:
-            if parsed_content.get("multi_modal_data"):
-                raise ValueError("This model does not support multimodal inputs")
-
             inputs = token_inputs(prompt_token_ids)
 
         if cache_salt := parsed_content.get("cache_salt"):
@@ -377,18 +374,15 @@ class InputPreprocessor:
         prompt_text = parsed_content["prompt"]
 
         inputs: TokenInputs | MultiModalInputs
-        if self.model_config.is_multimodal_model:
+        if multi_modal_data := parsed_content.get("multi_modal_data"):
             inputs = self._process_multimodal(
                 prompt_text,
-                parsed_content.get("multi_modal_data") or {},
+                multi_modal_data,
                 parsed_content.get("mm_processor_kwargs") or {},
                 tokenization_kwargs=tokenization_kwargs,
                 mm_uuids=mm_uuids,
             )
         else:
-            if parsed_content.get("multi_modal_data"):
-                raise ValueError("This model does not support multimodal inputs")
-
             prompt_token_ids = self._tokenize_prompt(
                 prompt_text,
                 tokenization_kwargs=tokenization_kwargs,

From e42bd8c2e3bfecdaf9c5a7ad99d7c7d7cb75a7b5 Mon Sep 17 00:00:00 2001
From: tiehexue <tiehexue@hotmail.com>
Date: Tue, 18 Nov 2025 00:02:32 +0800
Subject: [PATCH 527/976] Cast return value to int64_t for cache size (#28814)

Signed-off-by: tiehexue <tiehexue@hotmail.com>
---
 csrc/cpu/cpu_attn_impl.hpp | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/csrc/cpu/cpu_attn_impl.hpp b/csrc/cpu/cpu_attn_impl.hpp
index 5de8a114b2b55..344296528b652 100644
--- a/csrc/cpu/cpu_attn_impl.hpp
+++ b/csrc/cpu/cpu_attn_impl.hpp
@@ -754,7 +754,7 @@ class AttentionScheduler {
         return l2_cache_size >> 1;  // use 50% of L2 cache
       }
       // Fallback if sysctlbyname fails
-      return 128 * 1024 >> 1;  // use 50% of 128KB
+      return 128LL * 1024 >> 1;  // use 50% of 128KB
 #else
       long l2_cache_size = sysconf(_SC_LEVEL2_CACHE_SIZE);
       TORCH_CHECK_NE(l2_cache_size, -1);

From f8b19c0ffd65f7f6f01a0da4a39b6890f5db40cb Mon Sep 17 00:00:00 2001
From: Zhewen Li <zhewenli@meta.com>
Date: Mon, 17 Nov 2025 10:15:26 -0800
Subject: [PATCH 528/976] [Bugfix] Fix GPT-OSS on AMD after #28603 (#28816)

Signed-off-by: zhewenli <zhewenli@meta.com>
---
 .buildkite/test-amd.yaml                         | 9 +++++----
 vllm/model_executor/layers/quantization/mxfp4.py | 4 ++--
 2 files changed, 7 insertions(+), 6 deletions(-)

diff --git a/.buildkite/test-amd.yaml b/.buildkite/test-amd.yaml
index e232000511c31..2471b509a9fff 100644
--- a/.buildkite/test-amd.yaml
+++ b/.buildkite/test-amd.yaml
@@ -1068,7 +1068,7 @@ steps:
     # this runner has 2 GPUs available even though num_gpus=2 is not set
     - pytest -v -s tests/compile/test_fusion_all_reduce.py
     # Limit to Inductor partition, no custom ops, and allreduce & attn fusion to reduce running time
-    # Wrap with quotes to escape yaml 
+    # Wrap with quotes to escape yaml
     - "pytest -v -s tests/compile/test_fusions_e2e.py::test_tp2_attn_quant_allreduce_rmsnorm -k 'True and Llama-3.1 and -quant_fp8 and -rms_norm'"
 
 - label: Blackwell Fusion E2E Tests # 30 min
@@ -1095,10 +1095,11 @@ steps:
     # test_fp8_kv_scale_compile requires FlashAttention (not supported on default L4/L40)
     - pytest -v -s tests/compile/test_full_graph.py::test_fp8_kv_scale_compile
 
-- label: Blackwell GPT-OSS Eval
+- label: ROCm GPT-OSS Eval
   timeout_in_minutes: 60
   working_dir: "/vllm-workspace/"
-  gpu: b200
+  agent_pool: mi325_1
+  mirror_hardwares: [amdproduction]
   optional: true # run on nightlies
   source_file_dependencies:
   - tests/evals/gpt_oss
@@ -1107,7 +1108,7 @@ steps:
   - vllm/v1/attention/backends/flashinfer.py
   commands:
     - uv pip install --system 'gpt-oss[eval]==0.0.5'
-    - pytest -s -v tests/evals/gpt_oss/test_gpqa_correctness.py --model openai/gpt-oss-20b --metric 0.58
+    - VLLM_ROCM_USE_AITER_MHA=0 VLLM_ROCM_USE_AITER=1 VLLM_USE_AITER_UNIFIED_ATTENTION=1 pytest -s -v tests/evals/gpt_oss/test_gpqa_correctness.py --model openai/gpt-oss-20b --metric 0.58
 
 - label: Blackwell Quantized MoE Test
   timeout_in_minutes: 60
diff --git a/vllm/model_executor/layers/quantization/mxfp4.py b/vllm/model_executor/layers/quantization/mxfp4.py
index 5552c1ae5edf8..b95d1a6b3a1f5 100644
--- a/vllm/model_executor/layers/quantization/mxfp4.py
+++ b/vllm/model_executor/layers/quantization/mxfp4.py
@@ -755,8 +755,8 @@ class Mxfp4MoEMethod(FusedMoEMethodBase):
 
             self.w13_weight = w13_weight
             self.w2_weight = w2_weight
-            layer.w13_weight = Parameter(w13_weight.data, requires_grad=False)
-            layer.w2_weight = Parameter(w2_weight.data, requires_grad=False)
+            layer.w13_weight = Parameter(w13_weight.storage.data, requires_grad=False)
+            layer.w2_weight = Parameter(w2_weight.storage.data, requires_grad=False)
         else:
             raise ValueError(f"Unsupported backend: {self.mxfp4_backend}")
 

From d8874c61a55e40db4ada047f1736c38c86439fff Mon Sep 17 00:00:00 2001
From: Ronald <ronaldautomobile@163.com>
Date: Tue, 18 Nov 2025 04:16:20 +0800
Subject: [PATCH 529/976] [Core] Async Scheduling X Spec Decoding Compatibility
 (#24799)

Signed-off-by: Ronald1995 <ronaldautomobile@163.com>
Signed-off-by: Nick Hill <nhill@redhat.com>
Signed-off-by: Benjamin Chislett <chislett.ben@gmail.com>
Co-authored-by: Nick Hill <nhill@redhat.com>
Co-authored-by: Benjamin Chislett <chislett.ben@gmail.com>
---
 tests/v1/e2e/test_async_scheduling.py       |  38 +--
 vllm/config/speculative.py                  |  38 ++-
 vllm/config/vllm.py                         |  21 +-
 vllm/v1/core/sched/async_scheduler.py       |  15 +-
 vllm/v1/core/sched/scheduler.py             |  12 +-
 vllm/v1/engine/core.py                      |   6 +-
 vllm/v1/engine/processor.py                 |  17 ++
 vllm/v1/sample/logits_processor/__init__.py |   2 +-
 vllm/v1/spec_decode/eagle.py                |   7 +-
 vllm/v1/worker/gpu_input_batch.py           |   3 +
 vllm/v1/worker/gpu_model_runner.py          | 253 +++++++++++++++++---
 11 files changed, 314 insertions(+), 98 deletions(-)

diff --git a/tests/v1/e2e/test_async_scheduling.py b/tests/v1/e2e/test_async_scheduling.py
index c4aca82416cde..f732b05f09f9d 100644
--- a/tests/v1/e2e/test_async_scheduling.py
+++ b/tests/v1/e2e/test_async_scheduling.py
@@ -15,7 +15,7 @@ from ...conftest import VllmRunner
 from ...models.utils import check_outputs_equal
 
 MODEL = "Qwen/Qwen3-0.6B"
-MTP_MODEL = "XiaomiMiMo/MiMo-7B-Base"
+MTP_MODEL = "meta-llama/Llama-3.2-1B-Instruct"
 
 
 first_prompt = (
@@ -29,7 +29,8 @@ example_prompts = [first_prompt, "In one word, the capital of France is "] + [
 
 default_params = dict(
     temperature=0.0,  # greedy
-    max_tokens=20,
+    max_tokens=23,
+    min_tokens=18,
 )
 
 
@@ -69,15 +70,9 @@ def test_without_spec_decoding(
         (True, "uni", True, None, True),
     ]
 
-    run_tests(
-        monkeypatch,
-        MODEL,
-        test_configs,
-        test_sampling_params,
-    )
+    run_tests(monkeypatch, MODEL, test_configs, test_sampling_params)
 
 
-@pytest.mark.skip("MTP model too big to run in fp32 in CI")
 def test_with_spec_decoding(monkeypatch: pytest.MonkeyPatch):
     """Test consistency and acceptance rates with some different combos of
     preemption, executor, async scheduling, prefill chunking,
@@ -85,8 +80,9 @@ def test_with_spec_decoding(monkeypatch: pytest.MonkeyPatch):
     """
 
     spec_config = {
-        "method": "mtp",
+        "method": "eagle3",
         "num_speculative_tokens": 2,
+        "model": "nm-testing/Llama3_2_1B_speculator.eagle3",
     }
     spec_config_short = spec_config | {"max_model_len": 50}
 
@@ -106,12 +102,7 @@ def test_with_spec_decoding(monkeypatch: pytest.MonkeyPatch):
         (True, "uni", True, spec_config_short, True),
     ]
 
-    run_tests(
-        monkeypatch,
-        MTP_MODEL,
-        test_configs,
-        [{}],
-    )
+    run_tests(monkeypatch, MTP_MODEL, test_configs, [{}])
 
 
 @dynamo_config.patch(cache_size_limit=16)
@@ -182,15 +173,13 @@ def run_tests(
                     and test_acceptance_rate is not None
                 ):
                     if "spec_mml=None" in test_config:
-                        # because the acceptance rate can vary, we use a looser
-                        # tolerance here.
                         assert (
                             pytest.approx(test_acceptance_rate, rel=5e-2)
                             == base_acceptance_rate
                         )
                     else:
                         # Currently the reported acceptance rate is expected to be
-                        # lower when we skip drafting altogether.
+                        # lower when we sometimes skip drafting altogether.
                         assert test_acceptance_rate > 0.05
                 print(
                     f"PASSED: config=[{test_config}], params={params}"
@@ -220,6 +209,7 @@ def run_test(
 ):
     spec_decoding = spec_config is not None
     cache_arg: dict[str, Any] = (
+        # Force preemptions
         dict(num_gpu_blocks_override=32)
         if test_preemption
         else dict(gpu_memory_utilization=0.9)
@@ -238,6 +228,7 @@ def run_test(
         model,
         max_model_len=512,
         enable_chunked_prefill=test_prefill_chunking,
+        # Force prefill chunking
         max_num_batched_tokens=48 if test_prefill_chunking else None,
         # enforce_eager=True,
         async_scheduling=async_scheduling,
@@ -255,10 +246,7 @@ def run_test(
             results.append(
                 vllm_model.generate(
                     example_prompts,
-                    sampling_params=SamplingParams(
-                        **default_params,
-                        **override_params,
-                    ),
+                    sampling_params=SamplingParams(**default_params, **override_params),
                     return_logprobs=True,
                 )
             )
@@ -270,9 +258,7 @@ def run_test(
 
             if test_preemption:
                 preemptions = _get_count(
-                    metrics_before,
-                    metrics_after,
-                    "vllm:num_preemptions",
+                    metrics_before, metrics_after, "vllm:num_preemptions"
                 )
                 assert preemptions > 0, "preemption test had no preemptions"
 
diff --git a/vllm/config/speculative.py b/vllm/config/speculative.py
index 31cdeabe501d2..13a8632413d91 100644
--- a/vllm/config/speculative.py
+++ b/vllm/config/speculative.py
@@ -3,7 +3,7 @@
 
 import ast
 import hashlib
-from typing import TYPE_CHECKING, Any, Literal
+from typing import TYPE_CHECKING, Any, Literal, get_args
 
 from pydantic import Field, SkipValidation, model_validator
 from pydantic.dataclasses import dataclass
@@ -29,31 +29,25 @@ else:
 
 logger = init_logger(__name__)
 
-SpeculativeMethod = Literal[
-    "ngram",
-    "eagle",
-    "eagle3",
-    "medusa",
-    "mlp_speculator",
-    "draft_model",
-    "deepseek_mtp",
-    "ernie_mtp",
-    "qwen3_next_mtp",
-    "mimo_mtp",
-    "longcat_flash_mtp",
-    "pangu_ultra_moe_mtp",
-    "mtp",
-    "suffix",
-]
-MTP_MODEL_TYPES = (
+MTPModelTypes = Literal[
     "deepseek_mtp",
     "mimo_mtp",
     "glm4_moe_mtp",
     "ernie_mtp",
     "qwen3_next_mtp",
     "longcat_flash_mtp",
+    "mtp",
     "pangu_ultra_moe_mtp",
-)
+]
+EagleModelTypes = Literal["eagle", "eagle3", MTPModelTypes]
+SpeculativeMethod = Literal[
+    "ngram",
+    "medusa",
+    "mlp_speculator",
+    "draft_model",
+    "suffix",
+    EagleModelTypes,
+]
 
 
 @config
@@ -244,7 +238,7 @@ class SpeculativeConfig:
         # can not be detected, it will be considered as the "draft_model" by
         # default.
 
-        if self.method in MTP_MODEL_TYPES:
+        if self.method in get_args(MTPModelTypes) and self.method != "mtp":
             logger.warning(
                 "method `%s` is deprecated and replaced with mtp.", self.method
             )
@@ -361,7 +355,9 @@ class SpeculativeConfig:
                     self.method = "medusa"
                 elif self.draft_model_config.hf_config.model_type == "mlp_speculator":
                     self.method = "mlp_speculator"
-                elif self.draft_model_config.hf_config.model_type in MTP_MODEL_TYPES:
+                elif self.draft_model_config.hf_config.model_type in get_args(
+                    MTPModelTypes
+                ):
                     self.method = "mtp"
                     if self.num_speculative_tokens > 1:
                         logger.warning(
diff --git a/vllm/config/vllm.py b/vllm/config/vllm.py
index bd98be48588f8..672b004c4aa56 100644
--- a/vllm/config/vllm.py
+++ b/vllm/config/vllm.py
@@ -14,13 +14,14 @@ from dataclasses import replace
 from datetime import datetime
 from functools import lru_cache
 from pathlib import Path
-from typing import TYPE_CHECKING, Any, TypeVar
+from typing import TYPE_CHECKING, Any, TypeVar, get_args
 
 import torch
 from pydantic import ConfigDict, Field, model_validator
 from pydantic.dataclasses import dataclass
 
 import vllm.envs as envs
+from vllm.config.speculative import EagleModelTypes
 from vllm.logger import enable_trace_function_call, init_logger
 from vllm.transformers_utils.runai_utils import is_runai_obj_uri
 from vllm.utils import random_uuid
@@ -374,10 +375,22 @@ class VllmConfig:
                     "Async scheduling is not yet compatible with "
                     "pipeline_parallel_size > 1."
                 )
+            # Currently, async scheduling only support eagle speculative
+            # decoding.
             if self.speculative_config is not None:
-                raise ValueError(
-                    "Async scheduling is not yet compatible with speculative decoding."
-                )
+                if self.speculative_config.method not in get_args(EagleModelTypes):
+                    raise ValueError(
+                        "Currently, async scheduling is only supported "
+                        "with EAGLE/MTP kind of speculative decoding"
+                    )
+                if self.speculative_config.disable_padded_drafter_batch:
+                    raise ValueError(
+                        "async scheduling for EAGLE/MTP kind of speculative "
+                        "decoding is enabled, but disable_padded_drafter_batch=True "
+                        "disable_padded_drafter_batch=True is not supported for "
+                        "this situation now. please set "
+                        "disable_padded_drafter_batch=Fasle"
+                    )
             if not executor_supports_async_sched:
                 raise ValueError(
                     "Currently, async scheduling only supports `mp`, `uni`, or "
diff --git a/vllm/v1/core/sched/async_scheduler.py b/vllm/v1/core/sched/async_scheduler.py
index 0ad994c360b01..3214f65a09728 100644
--- a/vllm/v1/core/sched/async_scheduler.py
+++ b/vllm/v1/core/sched/async_scheduler.py
@@ -16,18 +16,25 @@ class AsyncScheduler(Scheduler):
     ) -> None:
         super()._update_after_schedule(scheduler_output)
         pending_structured_output_tokens = False
+        spec_decode_tokens = scheduler_output.scheduled_spec_decode_tokens
         for req_id in scheduler_output.num_scheduled_tokens:
             request = self.requests[req_id]
             pending_structured_output_tokens |= (
                 request.use_structured_output and request.num_output_placeholders > 0
             )
+            cur_num_spec_tokens = len(spec_decode_tokens.get(req_id, ()))
             if (
                 request.num_computed_tokens
-                == request.num_tokens + request.num_output_placeholders
+                == request.num_tokens
+                + request.num_output_placeholders
+                + cur_num_spec_tokens
             ):
-                # The request will generate a new token in this scheduling step.
-                # TODO(woosuk): Support speculative decoding.
-                request.num_output_placeholders += 1
+                # The request will generate a new token plus num_spec_tokens
+                # in this scheduling step.
+                request.num_output_placeholders += 1 + cur_num_spec_tokens
+                # Add placeholders for the new tokens in spec_token_ids.
+                # Wwe will update the actual spec token ids in the worker process.
+                request.spec_token_ids = [-1] * self.num_spec_tokens
 
         scheduler_output.pending_structured_output_tokens = (
             pending_structured_output_tokens
diff --git a/vllm/v1/core/sched/scheduler.py b/vllm/v1/core/sched/scheduler.py
index 8e62542337a71..61640e856ac1c 100644
--- a/vllm/v1/core/sched/scheduler.py
+++ b/vllm/v1/core/sched/scheduler.py
@@ -348,7 +348,10 @@ class Scheduler(SchedulerInterface):
             # Speculative decode related.
             if request.spec_token_ids:
                 num_scheduled_spec_tokens = (
-                    num_new_tokens + request.num_computed_tokens - request.num_tokens
+                    num_new_tokens
+                    + request.num_computed_tokens
+                    - request.num_tokens
+                    - request.num_output_placeholders
                 )
                 if num_scheduled_spec_tokens > 0:
                     # Trim spec_token_ids list to num_scheduled_spec_tokens.
@@ -1024,7 +1027,12 @@ class Scheduler(SchedulerInterface):
                 # tokens and rejections. If some tokens are rejected,
                 # num_computed_tokens is decreased by the number of rejected
                 # tokens.
-                request.num_computed_tokens -= num_rejected
+                if request.num_computed_tokens > 0:
+                    request.num_computed_tokens -= num_rejected
+                # If async scheduling, num_output_placeholders also includes
+                # the scheduled spec tokens count and so is similarly adjusted.
+                if request.num_output_placeholders > 0:
+                    request.num_output_placeholders -= num_rejected
                 spec_decoding_stats = self.make_spec_decoding_stats(
                     spec_decoding_stats,
                     num_draft_tokens=num_draft_tokens,
diff --git a/vllm/v1/engine/core.py b/vllm/v1/engine/core.py
index a6965182fc2ce..508669cf527d0 100644
--- a/vllm/v1/engine/core.py
+++ b/vllm/v1/engine/core.py
@@ -198,6 +198,7 @@ class EngineCore:
         self.step_fn = (
             self.step if self.batch_queue is None else self.step_with_batch_queue
         )
+        self.async_scheduling = vllm_config.scheduler_config.async_scheduling
 
         # Mark the startup heap as static so that it's ignored by GC.
         # Reduces pause times of oldest generation collections.
@@ -341,7 +342,10 @@ class EngineCore:
         return engine_core_outputs, scheduler_output.total_num_scheduled_tokens > 0
 
     def post_step(self, model_executed: bool) -> None:
-        if self.use_spec_decode and model_executed:
+        # When using async scheduling we can't get draft token ids in advance,
+        # so we update draft token ids in the worker process and don't
+        # need to update draft token ids here.
+        if not self.async_scheduling and self.use_spec_decode and model_executed:
             # Take the draft token ids.
             draft_token_ids = self.model_executor.take_draft_token_ids()
             if draft_token_ids is not None:
diff --git a/vllm/v1/engine/processor.py b/vllm/v1/engine/processor.py
index fffd075a51654..4cb911d8e22b7 100644
--- a/vllm/v1/engine/processor.py
+++ b/vllm/v1/engine/processor.py
@@ -150,6 +150,23 @@ class Processor:
             raise ValueError(
                 "vLLM V1 does not support per request user provided logits processors."
             )
+        # Async scheduling + spec decode currently incompatible with some
+        # sampling parameters.
+        if (
+            self.vllm_config.speculative_config is not None
+            and self.vllm_config.scheduler_config.async_scheduling
+            and (
+                params.frequency_penalty != 0.0
+                or params.presence_penalty != 0.0
+                or params.repetition_penalty != 1.0
+                or params.bad_words_token_ids
+                or params.structured_outputs
+            )
+        ):
+            raise ValueError(
+                "async scheduling with spec decoding doesn't yet support "
+                "penalties, bad words or structured outputs in sampling parameters."
+            )
 
     def _validate_params(
         self,
diff --git a/vllm/v1/sample/logits_processor/__init__.py b/vllm/v1/sample/logits_processor/__init__.py
index 5992c4066c9cb..8b174af4c7794 100644
--- a/vllm/v1/sample/logits_processor/__init__.py
+++ b/vllm/v1/sample/logits_processor/__init__.py
@@ -41,7 +41,7 @@ STR_POOLING_REJECTS_LOGITSPROCS = (
 # Error message when the user tries to initialize vLLM with a speculative
 # decoding enabled and custom logitsproces
 STR_SPEC_DEC_REJECTS_LOGITSPROCS = (
-    "Custom logits processors are not supportedwhen speculative decoding is enabled."
+    "Custom logits processors are not supported when speculative decoding is enabled."
 )
 
 LOGITSPROCS_GROUP = "vllm.logits_processors"
diff --git a/vllm/v1/spec_decode/eagle.py b/vllm/v1/spec_decode/eagle.py
index ed602f39d0f9f..5bf2503c3027d 100644
--- a/vllm/v1/spec_decode/eagle.py
+++ b/vllm/v1/spec_decode/eagle.py
@@ -397,10 +397,13 @@ class EagleProposer:
                 positions += 1
                 exceeds_max_model_len = positions >= self.max_model_len
                 clamped_positions = torch.where(exceeds_max_model_len, 0, positions)
-
+            # For data integrity when async scheduling, we shouldn't use in place
+            # operations in case they are modified in next step's `prepare_input`
+            # of main model.
             # Increment the sequence lengths.
             common_attn_metadata.seq_lens += 1
-            common_attn_metadata.seq_lens_cpu += 1
+            # This is an out-of-place operation to avoid modifying the original tensor.
+            common_attn_metadata.seq_lens_cpu = common_attn_metadata.seq_lens_cpu + 1
             # For the requests that exceed the max model length, we set the
             # sequence length to 1 to minimize their overheads in attention.
 
diff --git a/vllm/v1/worker/gpu_input_batch.py b/vllm/v1/worker/gpu_input_batch.py
index 393181f543d2e..7cf6afa3fc371 100644
--- a/vllm/v1/worker/gpu_input_batch.py
+++ b/vllm/v1/worker/gpu_input_batch.py
@@ -46,6 +46,9 @@ class CachedRequestState:
     lora_request: LoRARequest | None = None
     prompt_embeds: torch.Tensor | None = None
 
+    # Used when both async_scheduling and spec_decode are enabled.
+    prev_num_draft_len: int = 0
+
     def __post_init__(self):
         self.num_prompt_tokens = length_from_prompt_token_ids_or_embeds(
             self.prompt_token_ids, self.prompt_embeds
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index 4fe1b6487d589..758e3e1b3a82d 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -179,6 +179,7 @@ class AsyncGPUModelRunnerOutput(AsyncModelRunnerOutput):
         logprobs_tensors: torch.Tensor | None,
         invalid_req_indices: list[int],
         async_output_copy_stream: torch.cuda.Stream,
+        vocab_size: int,
     ):
         self._model_runner_output = model_runner_output
         self._invalid_req_indices = invalid_req_indices
@@ -189,6 +190,7 @@ class AsyncGPUModelRunnerOutput(AsyncModelRunnerOutput):
         # Keep a reference to the device tensor to avoid it being
         # deallocated until we finish copying it to the host.
         self._sampled_token_ids = sampled_token_ids
+        self.vocab_size = vocab_size
         self._logprobs_tensors = logprobs_tensors
 
         # Initiate the copy on a separate stream, but do not synchronize it.
@@ -215,10 +217,16 @@ class AsyncGPUModelRunnerOutput(AsyncModelRunnerOutput):
         # Release the device tensors once the copy has completed.
         del self._logprobs_tensors
         del self._sampled_token_ids
-
-        valid_sampled_token_ids: list[np.ndarray] = [
-            row for row in self.sampled_token_ids_cpu.numpy()
-        ]
+        max_gen_len = self.sampled_token_ids_cpu.shape[-1]
+        if max_gen_len == 1:
+            valid_sampled_token_ids: list[np.ndarray] = [
+                row for row in self.sampled_token_ids_cpu.numpy()
+            ]
+        else:
+            valid_sampled_token_ids = RejectionSampler.parse_output(
+                self.sampled_token_ids_cpu,
+                self.vocab_size,
+            )
         for i in self._invalid_req_indices:
             valid_sampled_token_ids[i] = np.array([])
 
@@ -377,6 +385,10 @@ class GPUModelRunner(
                 )
             self.rejection_sampler = RejectionSampler(self.sampler)
 
+        self.num_spec_tokens = 0
+        if self.speculative_config:
+            self.num_spec_tokens = self.speculative_config.num_speculative_tokens
+
         # Request states.
         self.requests: dict[str, CachedRequestState] = {}
         self.comm_stream = torch.cuda.Stream()
@@ -513,11 +525,7 @@ class GPUModelRunner(
                 self.max_num_tokens, dtype=torch.int32, device=self.device
             )
 
-        self.uniform_decode_query_len = (
-            1
-            if not self.speculative_config
-            else 1 + self.speculative_config.num_speculative_tokens
-        )
+        self.uniform_decode_query_len = 1 + self.num_spec_tokens
 
         # Cudagraph dispatcher for runtime cudagraph dispatching.
         self.cudagraph_dispatcher = CudagraphDispatcher(self.vllm_config)
@@ -549,6 +557,20 @@ class GPUModelRunner(
             pin_memory=self.pin_memory,
         )
 
+        # Pre-allocated tensor for copying valid sampled token counts to CPU,
+        # with dedicated stream for overlapping and event for coordination.
+        self.valid_sampled_token_count_event: torch.cuda.Event | None = None
+        self.valid_sampled_token_count_copy_stream: torch.cuda.Stream | None = None
+        if self.use_async_scheduling and self.num_spec_tokens:
+            self.valid_sampled_token_count_event = torch.cuda.Event()
+            self.valid_sampled_token_count_copy_stream = torch.cuda.Stream()
+        self.valid_sampled_token_count_cpu = torch.empty(
+            self.max_num_reqs,
+            dtype=torch.int64,
+            device="cpu",
+            pin_memory=self.pin_memory,
+        )
+
         # Ephemeral state transferred between execute_model() and sample_tokens().
         self.execute_model_state: ExecuteModelState | None = None
 
@@ -736,17 +758,45 @@ class GPUModelRunner(
         # Update the states of the running/resumed requests.
         is_last_rank = get_pp_group().is_last_rank
         req_data = scheduler_output.scheduled_cached_reqs
+
+        # Wait until valid_sampled_tokens_count is copied to cpu,
+        # then use it to update actual num_computed_tokens of each request.
+        valid_sampled_token_count = self._get_valid_sampled_token_count()
+
         for i, req_id in enumerate(req_data.req_ids):
             req_state = self.requests[req_id]
             num_computed_tokens = req_data.num_computed_tokens[i]
             new_block_ids = req_data.new_block_ids[i]
             resumed_from_preemption = req_id in req_data.resumed_req_ids
             num_output_tokens = req_data.num_output_tokens[i]
+            req_index = self.input_batch.req_id_to_index.get(req_id)
+
+            # prev_num_draft_len is used in async scheduling mode with
+            # spec decode. it indicates if need to update num_computed_tokens
+            # of the request. for example:
+            # fist step: num_computed_tokens = 0, spec_tokens = [],
+            # prev_num_draft_len = 0.
+            # second step: num_computed_tokens = 100(prompt lenth),
+            # spec_tokens = [a,b], prev_num_draft_len = 0.
+            # third step: num_computed_tokens = 100 + 2, spec_tokens = [c,d],
+            # prev_num_draft_len = 2.
+            # num_computed_tokens in first step and second step does't contain
+            # the spec tokens length, but in third step it contains the
+            # spec tokens length. we only need to update num_computed_tokens
+            # when prev_num_draft_len > 0.
+            if req_state.prev_num_draft_len:
+                if req_index is None:
+                    req_state.prev_num_draft_len = 0
+                else:
+                    assert self.input_batch.prev_req_id_to_index is not None
+                    prev_req_index = self.input_batch.prev_req_id_to_index[req_id]
+                    num_accepted = valid_sampled_token_count[prev_req_index] - 1
+                    num_rejected = req_state.prev_num_draft_len - num_accepted
+                    num_computed_tokens -= num_rejected
+                    req_state.output_token_ids.extend([-1] * num_accepted)
 
             # Update the cached states.
-
             req_state.num_computed_tokens = num_computed_tokens
-            req_index = self.input_batch.req_id_to_index.get(req_id)
 
             if not is_last_rank:
                 # When using PP, the scheduler sends the sampled tokens back,
@@ -823,8 +873,11 @@ class GPUModelRunner(
             spec_token_ids = scheduler_output.scheduled_spec_decode_tokens.get(
                 req_id, []
             )
-            if spec_token_ids:
-                num_spec_tokens = len(spec_token_ids)
+            num_spec_tokens = len(spec_token_ids)
+            # For async scheduling, token_ids_cpu assigned from
+            # spec_token_ids are placeholders and will be overwritten in
+            # _prepare_input_ids.
+            if num_spec_tokens:
                 start_index = self.input_batch.num_tokens_no_spec[req_index]
                 end_token_index = start_index + num_spec_tokens
                 self.input_batch.token_ids_cpu[
@@ -840,6 +893,15 @@ class GPUModelRunner(
             # even when speculative decoding is enabled.
             self.input_batch.spec_token_ids[req_index] = spec_token_ids
 
+            # there are no draft tokens with async scheduling,
+            # we clear the spec_decoding info in scheduler_output and
+            # use normal sampling but rejection_sampling.
+            if self.use_async_scheduling:
+                req_state.prev_num_draft_len = num_spec_tokens
+                if num_spec_tokens and self._draft_token_ids is None:
+                    scheduler_output.total_num_scheduled_tokens -= num_spec_tokens
+                    scheduler_output.num_scheduled_tokens[req_id] -= num_spec_tokens
+                    scheduler_output.scheduled_spec_decode_tokens.pop(req_id, None)
         # Add the new or resumed requests to the persistent batch.
         # The smaller empty indices are filled first.
         for request in reqs_to_add:
@@ -959,7 +1021,10 @@ class GPUModelRunner(
         return cu_num_tokens, arange
 
     def _prepare_input_ids(
-        self, total_num_scheduled_tokens: int, cu_num_tokens: np.ndarray
+        self,
+        scheduler_output: "SchedulerOutput",
+        total_num_scheduled_tokens: int,
+        cu_num_tokens: np.ndarray,
     ) -> None:
         """Prepare the input IDs for the current batch.
 
@@ -980,21 +1045,43 @@ class GPUModelRunner(
         # on the GPU from prev_sampled_token_ids.
         prev_req_id_to_index = self.input_batch.prev_req_id_to_index
         assert prev_req_id_to_index is not None
-        flattened_indices = []
-        prev_common_req_indices = []
+        sample_flattened_indices: list[int] = []
+        spec_flattened_indices: list[int] = []
+        prev_common_req_indices: list[int] = []
+        prev_draft_token_indices: list[int] = []
         indices_match = True
         max_flattened_index = -1
+        total_num_spec_tokens = 0
+        scheduled_spec_tokens = scheduler_output.scheduled_spec_decode_tokens
+
         for req_id, cur_index in self.input_batch.req_id_to_index.items():
             if (prev_index := prev_req_id_to_index.get(req_id)) is not None:
                 prev_common_req_indices.append(prev_index)
                 # We need to compute the flattened input_ids index of the
                 # last token in each common request.
+                draft_len = len(scheduled_spec_tokens.get(req_id, ()))
+                total_num_spec_tokens += draft_len
                 flattened_index = cu_num_tokens[cur_index].item() - 1
-                flattened_indices.append(flattened_index)
+                # example: cu_num_tokens = [2, 5, 8], draft_tokens = [1, 2, 2]
+                # sample_flattened_indices = [0, 2, 5]
+                # spec_flattened_indices = [1,   3, 4,    6, 7]
+                sample_flattened_indices.append(flattened_index - draft_len)
+                spec_flattened_indices.extend(
+                    range(flattened_index - draft_len + 1, flattened_index + 1)
+                )
+                start = prev_index * self.num_spec_tokens
+                # prev_draft_token_indices is used to find which draft_tokens_id
+                # should be copied to input_ids
+                # example: prev draft_tokens_id [[1,2], [3,4], [5, 6]]
+                # flatten draft_tokens_id [1,2,3,4,5,6]
+                # draft_len of each request [1, 2, 1]
+                # then prev_draft_token_indices is [0,   2, 3,   4]
+                prev_draft_token_indices.extend(range(start, start + draft_len))
                 indices_match &= prev_index == flattened_index
                 max_flattened_index = max(max_flattened_index, flattened_index)
-        num_commmon_tokens = len(flattened_indices)
-        if num_commmon_tokens < total_num_scheduled_tokens:
+        num_commmon_tokens = len(sample_flattened_indices)
+        total_without_spec = total_num_scheduled_tokens - total_num_spec_tokens
+        if num_commmon_tokens < total_without_spec:
             # If not all requests are decodes from the last iteration,
             # We need to copy the input_ids_cpu to the GPU first.
             self.input_ids.copy_to_gpu(total_num_scheduled_tokens)
@@ -1018,20 +1105,43 @@ class GPUModelRunner(
                 self.is_token_ids.gpu[:num_commmon_tokens] = True
             return
         # Upload the index tensors asynchronously so the scatter can be non-blocking.
-        input_ids_index_tensor = torch.tensor(
-            flattened_indices, dtype=torch.int64, pin_memory=self.pin_memory
+        sampled_tokens_index_tensor = torch.tensor(
+            sample_flattened_indices, dtype=torch.int64, pin_memory=self.pin_memory
         ).to(self.device, non_blocking=True)
         prev_common_req_indices_tensor = torch.tensor(
             prev_common_req_indices, dtype=torch.int64, pin_memory=self.pin_memory
         ).to(self.device, non_blocking=True)
         self.input_ids.gpu.scatter_(
             dim=0,
-            index=input_ids_index_tensor,
+            index=sampled_tokens_index_tensor,
             src=self.input_batch.prev_sampled_token_ids[
                 prev_common_req_indices_tensor, 0
             ],
         )
 
+        # Scatter the draft tokens after the sampled tokens are scattered.
+        if self._draft_token_ids is None or not spec_flattened_indices:
+            return
+
+        assert isinstance(self._draft_token_ids, torch.Tensor)
+        draft_tokens_index_tensor = torch.tensor(
+            spec_flattened_indices, dtype=torch.int64, pin_memory=self.pin_memory
+        ).to(self.device, non_blocking=True)
+        prev_draft_token_indices_tensor = torch.tensor(
+            prev_draft_token_indices, dtype=torch.int64, pin_memory=self.pin_memory
+        ).to(self.device, non_blocking=True)
+
+        # because input_ids dtype is torch.int32,
+        # so convert draft_token_ids to torch.int32 here.
+        draft_token_ids = self._draft_token_ids.to(dtype=torch.int32)
+        self._draft_token_ids = None
+
+        self.input_ids.gpu.scatter_(
+            dim=0,
+            index=draft_tokens_index_tensor,
+            src=draft_token_ids.flatten()[prev_draft_token_indices_tensor],
+        )
+
     def _get_encoder_seq_lens(
         self,
         scheduled_encoder_inputs: dict[str, list[int]],
@@ -1218,7 +1328,11 @@ class GPUModelRunner(
         self.discard_request_indices.copy_to_gpu(self.num_discarded_requests)
 
         # Copy the tensors to the GPU.
-        self._prepare_input_ids(total_num_scheduled_tokens, cu_num_tokens)
+        self._prepare_input_ids(
+            scheduler_output,
+            total_num_scheduled_tokens,
+            cu_num_tokens,
+        )
 
         if self.uses_mrope:
             # Only relevant for models using M-RoPE (e.g, Qwen2-VL)
@@ -2377,12 +2491,14 @@ class GPUModelRunner(
             valid_sampled_token_ids = []
             invalid_req_indices = discard_sampled_tokens_req_indices.tolist()
             invalid_req_indices_set = set(invalid_req_indices)
-            assert sampled_token_ids.shape[-1] == 1
 
             # Cache the sampled tokens on the GPU and avoid CPU sync.
             # These will be copied into input_ids in the next step
             # when preparing inputs.
-            self.input_batch.prev_sampled_token_ids = sampled_token_ids
+            # With spec decoding, this is done in propose_draft_token_ids().
+            if self.input_batch.prev_sampled_token_ids is None:
+                assert sampled_token_ids.shape[-1] == 1
+                self.input_batch.prev_sampled_token_ids = sampled_token_ids
             self.input_batch.prev_req_id_to_index = {
                 req_id: i
                 for i, req_id in enumerate(self.input_batch.req_ids)
@@ -2517,6 +2633,21 @@ class GPUModelRunner(
                 "State error: sample_tokens() must be called "
                 "after execute_model() returns None."
             )
+
+        # self._draft_token_ids is None when `input_fits_in_drafter=False`
+        # and there is no draft tokens scheduled. so it need to update the
+        # spec_decoding info in scheduler_output with async_scheduling.
+        # use deepcopy to avoid the modification has influence on the
+        # scheduler_output in engine core process.
+        # TODO(Ronald1995): deepcopy is expensive when there is a large
+        # number of requests, optimize it later.
+        if (
+            self.use_async_scheduling
+            and self.num_spec_tokens
+            and self._draft_token_ids is None
+        ):
+            scheduler_output = deepcopy(scheduler_output)
+
         num_scheduled_tokens = scheduler_output.total_num_scheduled_tokens
         with record_function_or_nullcontext("gpu_model_runner: preprocess"):
             with self.synchronize_input_prep():
@@ -2759,6 +2890,8 @@ class GPUModelRunner(
         with record_function_or_nullcontext("gpu_model_runner: sample"):
             sampler_output = self._sample(logits, spec_decode_metadata)
 
+        self.input_batch.prev_sampled_token_ids = None
+
         def propose_draft_token_ids(
             sampled_token_ids: torch.Tensor | list[np.ndarray],
         ) -> None:
@@ -2792,14 +2925,29 @@ class GPUModelRunner(
                 self.speculative_config.draft_model_config.max_model_len
             )
         input_fits_in_drafter = spec_decode_common_attn_metadata and (
-            spec_decode_common_attn_metadata.max_seq_len
-            + self.speculative_config.num_speculative_tokens
+            spec_decode_common_attn_metadata.max_seq_len + self.num_spec_tokens
             <= effective_drafter_max_model_len
         )
-        if use_padded_batch_for_eagle and input_fits_in_drafter:
-            # EAGLE speculative decoding can use the GPU sampled tokens
-            # as inputs, and does not need to wait for bookkeeping to finish.
-            propose_draft_token_ids(sampler_output.sampled_token_ids)
+        if use_padded_batch_for_eagle:
+            sampled_token_ids = sampler_output.sampled_token_ids
+            if input_fits_in_drafter:
+                # EAGLE speculative decoding can use the GPU sampled tokens
+                # as inputs, and does not need to wait for bookkeeping to finish.
+                propose_draft_token_ids(sampled_token_ids)
+            elif self.valid_sampled_token_count_event is not None:
+                next_token_ids, valid_sampled_tokens_count = (
+                    self.drafter.prepare_next_token_ids_padded(
+                        spec_decode_common_attn_metadata,
+                        sampled_token_ids,
+                        self.requests,
+                        self.input_batch,
+                        self.discard_request_indices.gpu,
+                        self.num_discarded_requests,
+                    )
+                )
+                self._copy_valid_sampled_token_count(
+                    next_token_ids, valid_sampled_tokens_count
+                )
 
         with record_function_or_nullcontext("gpu_model_runner: bookkeep"):
             (
@@ -2856,6 +3004,7 @@ class GPUModelRunner(
                 logprobs_tensors=sampler_output.logprobs_tensors,
                 invalid_req_indices=invalid_req_indices,
                 async_output_copy_stream=self.async_output_copy_stream,
+                vocab_size=self.input_batch.vocab_size,
             )
         with record_function_or_nullcontext(
             "gpu_model_runner: set_async_sampled_token_ids"
@@ -2880,6 +3029,37 @@ class GPUModelRunner(
         self._draft_token_ids = None
         return DraftTokenIds(req_ids, draft_token_ids)
 
+    def _copy_valid_sampled_token_count(
+        self, next_token_ids: torch.Tensor, valid_sampled_tokens_count: torch.Tensor
+    ) -> None:
+        if self.valid_sampled_token_count_event is None:
+            return
+
+        default_stream = torch.cuda.current_stream()
+        # Initialize a new stream to overlap the copy operation with
+        # prepare_input of draft model.
+        with torch.cuda.stream(self.valid_sampled_token_count_copy_stream):
+            self.valid_sampled_token_count_copy_stream.wait_stream(default_stream)  # type: ignore
+            counts = valid_sampled_tokens_count
+            counts_cpu = self.valid_sampled_token_count_cpu
+            counts_cpu[: counts.shape[0]].copy_(counts, non_blocking=True)
+            self.valid_sampled_token_count_event.record()
+
+        self.input_batch.prev_sampled_token_ids = next_token_ids.unsqueeze(1)
+
+    def _get_valid_sampled_token_count(self) -> list[int]:
+        # Wait until valid_sampled_tokens_count is copied to cpu,
+        prev_sampled_token_ids = self.input_batch.prev_sampled_token_ids
+        if (
+            self.valid_sampled_token_count_event is None
+            or prev_sampled_token_ids is None
+        ):
+            return []
+
+        counts_cpu = self.valid_sampled_token_count_cpu
+        self.valid_sampled_token_count_event.synchronize()
+        return counts_cpu[: prev_sampled_token_ids.shape[0]].tolist()
+
     def propose_draft_token_ids(
         self,
         scheduler_output: "SchedulerOutput",
@@ -2967,6 +3147,9 @@ class GPUModelRunner(
                         self.num_discarded_requests,
                     )
                 )
+                self._copy_valid_sampled_token_count(
+                    next_token_ids, valid_sampled_tokens_count
+                )
 
             if spec_decode_metadata is None:
                 token_indices_to_sample = None
@@ -3532,7 +3715,7 @@ class GPUModelRunner(
                 # TODO(luka) better system for describing dummy batches
                 seq_lens = [1] * num_decode_tokens + [num_prefill_tokens + 1]
             else:
-                seq_lens = max_query_len
+                seq_lens = max_query_len  # type: ignore[assignment]
             self.seq_lens.np[:num_reqs] = seq_lens
             self.seq_lens.np[num_reqs:] = 0
             self.seq_lens.copy_to_gpu()
@@ -4485,11 +4668,7 @@ class GPUModelRunner(
                 logitsprocs=self.input_batch.logitsprocs,
                 logitsprocs_need_output_token_ids=self.input_batch.logitsprocs_need_output_token_ids,
                 is_pooling_model=self.is_pooling_model,
-                num_speculative_tokens=(
-                    self.vllm_config.speculative_config.num_speculative_tokens
-                    if self.vllm_config.speculative_config
-                    else 0
-                ),
+                num_speculative_tokens=self.num_spec_tokens,
             )
 
     def _allocate_kv_cache_tensors(

From 7765e5ba75c0b5caa8f372bfa20ab3de2c6b3aac Mon Sep 17 00:00:00 2001
From: Nick Hill <nhill@redhat.com>
Date: Mon, 17 Nov 2025 14:08:50 -0800
Subject: [PATCH 530/976] [BugFix] Fix PP performance and PP kv connector
 output regression  (#28768)

Signed-off-by: Nick Hill <nhill@redhat.com>
---
 vllm/v1/engine/core.py             | 148 +++++++++++++----------------
 vllm/v1/executor/ray_executor.py   |  21 +++-
 vllm/v1/worker/gpu_model_runner.py |  23 ++++-
 vllm/v1/worker/gpu_worker.py       |  15 +--
 4 files changed, 104 insertions(+), 103 deletions(-)

diff --git a/vllm/v1/engine/core.py b/vllm/v1/engine/core.py
index 508669cf527d0..97286c6e2e5e4 100644
--- a/vllm/v1/engine/core.py
+++ b/vllm/v1/engine/core.py
@@ -63,7 +63,6 @@ from vllm.v1.outputs import ModelRunnerOutput
 from vllm.v1.request import Request, RequestStatus
 from vllm.v1.serial_utils import MsgpackDecoder, MsgpackEncoder
 from vllm.v1.structured_output import StructuredOutputManager
-from vllm.v1.utils import record_function_or_nullcontext
 from vllm.version import __version__ as VLLM_VERSION
 
 logger = init_logger(__name__)
@@ -181,11 +180,13 @@ class EngineCore:
             logger.info("Batch queue is enabled with size %d", self.batch_queue_size)
             self.batch_queue = deque(maxlen=self.batch_queue_size)
 
+        self.ec_producer = (
+            vllm_config.ec_transfer_config is not None
+            and vllm_config.ec_transfer_config.is_ec_producer
+        )
+
         self.request_block_hasher: Callable[[Request], list[BlockHash]] | None = None
-        if (
-            self.vllm_config.cache_config.enable_prefix_caching
-            or kv_connector is not None
-        ):
+        if vllm_config.cache_config.enable_prefix_caching or kv_connector is not None:
             caching_hash_fn = get_hash_fn_by_name(
                 vllm_config.cache_config.prefix_caching_hash_algo
             )
@@ -246,7 +247,7 @@ class EngineCore:
 
         elapsed = time.time() - start
         logger.info_once(
-            ("init engine (profile, create kv cache, warmup model) took %.2f seconds"),
+            "init engine (profile, create kv cache, warmup model) took %.2f seconds",
             elapsed,
             scope="local",
         )
@@ -312,6 +313,16 @@ class EngineCore:
             )
             raise err
 
+    def _log_err_callback(self, scheduler_output: SchedulerOutput):
+        """Log error details of a future that's not expected to return a result."""
+
+        def callback(f, sched_output=scheduler_output):
+            with self.log_error_detail(sched_output):
+                result = f.result()
+                assert result is None
+
+        return callback
+
     def step(self) -> tuple[dict[int, EngineCoreOutputs], bool]:
         """Schedule, execute, and make output.
 
@@ -323,21 +334,17 @@ class EngineCore:
         # or finished and not yet removed from the batch.
         if not self.scheduler.has_requests():
             return {}, False
-        with record_function_or_nullcontext("core step: schedule"):
-            scheduler_output = self.scheduler.schedule()
+        scheduler_output = self.scheduler.schedule()
+        future = self.model_executor.execute_model(scheduler_output, non_block=True)
+        grammar_output = self.scheduler.get_grammar_bitmask(scheduler_output)
+        with self.log_error_detail(scheduler_output):
+            model_output = future.result()
+            if model_output is None:
+                model_output = self.model_executor.sample_tokens(grammar_output)
 
-        with record_function_or_nullcontext("core step: execute_model"):
-            future = self.model_executor.execute_model(scheduler_output, non_block=True)
-            grammar_output = self.scheduler.get_grammar_bitmask(scheduler_output)
-            with self.log_error_detail(scheduler_output):
-                model_output = future.result()
-                if model_output is None:
-                    model_output = self.model_executor.sample_tokens(grammar_output)
-
-        with record_function_or_nullcontext("core step: update_from_output"):
-            engine_core_outputs = self.scheduler.update_from_output(
-                scheduler_output, model_output
-            )
+        engine_core_outputs = self.scheduler.update_from_output(
+            scheduler_output, model_output
+        )
 
         return engine_core_outputs, scheduler_output.total_num_scheduled_tokens > 0
 
@@ -378,52 +385,34 @@ class EngineCore:
         model_executed = False
         deferred_scheduler_output = None
         if self.scheduler.has_requests():
-            with record_function_or_nullcontext("core step_with_batch_queue: schedule"):
-                scheduler_output = self.scheduler.schedule()
-            with record_function_or_nullcontext(
-                "core step_with_batch_queue: execute_model"
-            ):
-                exec_future = self.model_executor.execute_model(
-                    scheduler_output, non_block=True
-                )
-            model_executed = scheduler_output.total_num_scheduled_tokens > 0
+            scheduler_output = self.scheduler.schedule()
+            exec_future = self.model_executor.execute_model(
+                scheduler_output, non_block=True
+            )
+            if not self.ec_producer:
+                model_executed = scheduler_output.total_num_scheduled_tokens > 0
 
-            if scheduler_output.pending_structured_output_tokens:
-                with record_function_or_nullcontext(
-                    "core step_with_batch_queue: pending_structured_output_tokens"
-                ):
-                    # We need to defer sampling until we have processed the model output
-                    # from the prior step.
-                    deferred_scheduler_output = scheduler_output
-                    # Block-wait for execute to return
-                    # (continues running async on the GPU).
-                    with self.log_error_detail(scheduler_output):
-                        exec_result = exec_future.result()
-                        assert exec_result is None
+            if not model_executed:
+                # No sampling required (no requests scheduled).
+                future = cast(Future[ModelRunnerOutput], exec_future)
             else:
-                with record_function_or_nullcontext(
-                    "core step_with_batch_queue: get_grammar_bitmask"
-                ):
-                    # We aren't waiting for any tokens, get any grammar
-                    # output immediately.
+                exec_future.add_done_callback(self._log_err_callback(scheduler_output))
+
+                if not scheduler_output.pending_structured_output_tokens:
+                    # We aren't waiting for any tokens, get any grammar output
+                    # and sample immediately.
                     grammar_output = self.scheduler.get_grammar_bitmask(
                         scheduler_output
                     )
-                # Block-wait for execute to return (continues running async on the GPU).
-                with self.log_error_detail(scheduler_output):
-                    exec_result = exec_future.result()
-
-                if exec_result is None:
-                    with record_function_or_nullcontext(
-                        "core step_with_batch_queue: sample_tokens"
-                    ):
-                        # Call sample tokens.
-                        future = self.model_executor.sample_tokens(
-                            grammar_output, non_block=True
-                        )
+                    future = self.model_executor.sample_tokens(
+                        grammar_output, non_block=True
+                    )
                 else:
-                    # No sampling required (e.g. all requests finished).
-                    future = cast(Future[ModelRunnerOutput], exec_future)
+                    # We need to defer sampling until we have processed the model output
+                    # from the prior step.
+                    deferred_scheduler_output = scheduler_output
+
+            if not deferred_scheduler_output:
                 # Add this step's future to the queue.
                 batch_queue.appendleft((future, scheduler_output))
                 if (
@@ -440,34 +429,27 @@ class EngineCore:
             # only be called when the scheduler contains requests or the queue
             # is non-empty.
             return None, False
-        with record_function_or_nullcontext("core step_with_batch_queue: model_output"):
-            # Block until the next result is available.
-            future, scheduler_output = batch_queue.pop()
-            with self.log_error_detail(scheduler_output):
-                model_output = future.result()
-        with record_function_or_nullcontext(
-            "core step_with_batch_queue: update_from_output"
-        ):
-            engine_core_outputs = self.scheduler.update_from_output(
-                scheduler_output, model_output
-            )
+
+        # Block until the next result is available.
+        future, scheduler_output = batch_queue.pop()
+        with self.log_error_detail(scheduler_output):
+            model_output = future.result()
+
+        engine_core_outputs = self.scheduler.update_from_output(
+            scheduler_output, model_output
+        )
 
         # NOTE(nick): We can either handle the deferred tasks here or save
         # in a field and do it immediately once step_with_batch_queue is
         # re-called. The latter slightly favors TTFT over TPOT/throughput.
         if deferred_scheduler_output:
-            with record_function_or_nullcontext(
-                "core step_with_batch_queue: deferred_scheduler_output"
-            ):
-                # We now have the tokens needed to compute the bitmask for the
-                # deferred request. Get the bitmask and call sample tokens.
-                grammar_output = self.scheduler.get_grammar_bitmask(
-                    deferred_scheduler_output
-                )
-                future = self.model_executor.sample_tokens(
-                    grammar_output, non_block=True
-                )
-                batch_queue.appendleft((future, deferred_scheduler_output))
+            # We now have the tokens needed to compute the bitmask for the
+            # deferred request. Get the bitmask and call sample tokens.
+            grammar_output = self.scheduler.get_grammar_bitmask(
+                deferred_scheduler_output
+            )
+            future = self.model_executor.sample_tokens(grammar_output, non_block=True)
+            batch_queue.appendleft((future, deferred_scheduler_output))
 
         return engine_core_outputs, model_executed
 
diff --git a/vllm/v1/executor/ray_executor.py b/vllm/v1/executor/ray_executor.py
index 119e4c0818316..55db7445c9c74 100644
--- a/vllm/v1/executor/ray_executor.py
+++ b/vllm/v1/executor/ray_executor.py
@@ -99,6 +99,11 @@ class RayDistributedExecutor(Executor):
         # KV connector setup
         self.has_connector = self.vllm_config.kv_transfer_config is not None
 
+        self.ec_producer = (
+            self.vllm_config.ec_transfer_config is not None
+            and self.vllm_config.ec_transfer_config.is_ec_producer
+        )
+
         self.scheduler_output: SchedulerOutput | None = None
 
     @property
@@ -395,6 +400,12 @@ class RayDistributedExecutor(Executor):
                 "State error: sample_tokens() must be called "
                 "after execute_model() returns None."
             )
+
+        if self.ec_producer or not scheduler_output.total_num_scheduled_tokens:
+            # Model will not execute, call model runner immediately.
+            return self._execute_dag(scheduler_output, None, non_block)
+
+        # Model will execute, defer to sample_tokens() call.
         self.scheduler_output = scheduler_output
         return COMPLETED_NONE_FUTURE if non_block else None
 
@@ -417,10 +428,18 @@ class RayDistributedExecutor(Executor):
         """
         scheduler_output = self.scheduler_output
         if scheduler_output is None:
-            return None  # noqa
+            return COMPLETED_NONE_FUTURE if non_block else None  # noqa
 
         self.scheduler_output = None
 
+        return self._execute_dag(scheduler_output, grammar_output, non_block)
+
+    def _execute_dag(
+        self,
+        scheduler_output: SchedulerOutput,
+        grammar_output: "GrammarOutput | None",
+        non_block: bool = False,
+    ) -> ModelRunnerOutput | Future[ModelRunnerOutput]:
         # Build the compiled DAG for the first time.
         if self.forward_dag is None:  # type: ignore
             self.forward_dag = self._compiled_ray_dag(enable_asyncio=False)
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index 758e3e1b3a82d..2a8ff746f1125 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -7,7 +7,7 @@ import time
 from collections import defaultdict
 from collections.abc import Iterator
 from contextlib import contextmanager
-from copy import deepcopy
+from copy import copy, deepcopy
 from functools import reduce
 from itertools import product
 from typing import TYPE_CHECKING, Any, NamedTuple, TypeAlias, cast
@@ -250,7 +250,6 @@ class ExecuteModelState(NamedTuple):
     hidden_states: torch.Tensor
     sample_hidden_states: torch.Tensor
     aux_hidden_states: list[torch.Tensor] | None
-    kv_connector_output: KVConnectorOutput | None
     ec_connector_output: ECConnectorOutput | None
 
 
@@ -573,6 +572,7 @@ class GPUModelRunner(
 
         # Ephemeral state transferred between execute_model() and sample_tokens().
         self.execute_model_state: ExecuteModelState | None = None
+        self.kv_connector_output: KVConnectorOutput | None = None
 
     def reset_mm_cache(self) -> None:
         if self.mm_budget:
@@ -2803,6 +2803,7 @@ class GPUModelRunner(
                     # Return the intermediate tensors.
                     assert isinstance(hidden_states, IntermediateTensors)
                     hidden_states.kv_connector_output = kv_connector_output
+                    self.kv_connector_output = kv_connector_output
                     return hidden_states
 
                 if self.is_pooling_model:
@@ -2853,18 +2854,31 @@ class GPUModelRunner(
             hidden_states,
             sample_hidden_states,
             aux_hidden_states,
-            kv_connector_output,
             ec_connector_output,
         )
+        self.kv_connector_output = kv_connector_output
         return None
 
     @torch.inference_mode
     def sample_tokens(
         self, grammar_output: "GrammarOutput | None"
     ) -> ModelRunnerOutput | AsyncModelRunnerOutput | IntermediateTensors:
+        kv_connector_output = self.kv_connector_output
+        self.kv_connector_output = None
+
         if self.execute_model_state is None:
             # Nothing to do (PP non-final rank case), output isn't used.
-            return None  # noqa
+            if not kv_connector_output:
+                return None  # noqa
+
+            # In case of PP with kv transfer, we need to pass through the
+            # kv_connector_output
+            if kv_connector_output.is_empty():
+                return EMPTY_MODEL_RUNNER_OUTPUT
+
+            output = copy(EMPTY_MODEL_RUNNER_OUTPUT)
+            output.kv_connector_output = kv_connector_output
+            return output
 
         # Unpack ephemeral state.
         (
@@ -2875,7 +2889,6 @@ class GPUModelRunner(
             hidden_states,
             sample_hidden_states,
             aux_hidden_states,
-            kv_connector_output,
             ec_connector_output,
         ) = self.execute_model_state
         # Clear ephemeral state.
diff --git a/vllm/v1/worker/gpu_worker.py b/vllm/v1/worker/gpu_worker.py
index 42a844d96558c..315f01b68499a 100644
--- a/vllm/v1/worker/gpu_worker.py
+++ b/vllm/v1/worker/gpu_worker.py
@@ -2,7 +2,6 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 """A GPU worker class."""
 
-import copy
 import gc
 import os
 from contextlib import AbstractContextManager, nullcontext
@@ -45,7 +44,6 @@ from vllm.v1.core.sched.output import GrammarOutput
 from vllm.v1.engine import ReconfigureDistributedRequest, ReconfigureRankType
 from vllm.v1.kv_cache_interface import KVCacheConfig, KVCacheSpec
 from vllm.v1.outputs import (
-    EMPTY_MODEL_RUNNER_OUTPUT,
     AsyncModelRunnerOutput,
     DraftTokenIds,
     ModelRunnerOutput,
@@ -581,18 +579,7 @@ class Worker(WorkerBase):
             all_gather_tensors=all_gather_tensors,
         )
 
-        kv_connector_output = output.kv_connector_output
-        if not kv_connector_output:
-            return None
-
-        # In case of PP with kv transfer, we need to pass through the
-        # kv_connector_output
-        if kv_connector_output.is_empty():
-            return EMPTY_MODEL_RUNNER_OUTPUT
-
-        output = copy.copy(EMPTY_MODEL_RUNNER_OUTPUT)
-        output.kv_connector_output = kv_connector_output
-        return output
+        return None
 
     def take_draft_token_ids(self) -> DraftTokenIds | None:
         return self.model_runner.take_draft_token_ids()

From 95ae50b7d1bf3b5b66ac39b19d3169bad5443f2e Mon Sep 17 00:00:00 2001
From: Shreyas Kulkarni <shreyas.gp269@gmail.com>
Date: Mon, 17 Nov 2025 18:01:34 -0500
Subject: [PATCH 531/976] [Quantization] [Eagle] Add complete quantization
 support to the draft model in Eagle (#28435)

Signed-off-by: Shreyas Kulkarni <shreyas.gp269@gmail.com>
---
 .../model_executor/test_eagle_quantization.py | 169 ++++++++++++++++++
 vllm/model_executor/models/llama_eagle.py     |  53 ++++--
 vllm/model_executor/models/llama_eagle3.py    |  62 +++++--
 vllm/model_executor/models/utils.py           |  27 +++
 4 files changed, 282 insertions(+), 29 deletions(-)
 create mode 100644 tests/model_executor/test_eagle_quantization.py

diff --git a/tests/model_executor/test_eagle_quantization.py b/tests/model_executor/test_eagle_quantization.py
new file mode 100644
index 0000000000000..1ab75933ee31e
--- /dev/null
+++ b/tests/model_executor/test_eagle_quantization.py
@@ -0,0 +1,169 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from unittest.mock import Mock, patch
+
+import pytest
+import torch
+
+from vllm.config import LoadConfig, ModelConfig, SpeculativeConfig, VllmConfig
+from vllm.model_executor.models.utils import get_draft_quant_config
+from vllm.platforms import current_platform
+
+DEVICES = (
+    [f"cuda:{i}" for i in range(1 if torch.cuda.device_count() == 1 else 2)]
+    if current_platform.is_cuda_alike()
+    else ["cpu"]
+)
+
+
+def test_get_draft_quant_config_with_draft_model():
+    mock_draft_model_config = Mock(spec=ModelConfig)
+    mock_load_config = Mock(spec=LoadConfig)
+    mock_speculative_config = Mock(spec=SpeculativeConfig)
+    mock_speculative_config.draft_model_config = mock_draft_model_config
+
+    mock_vllm_config = Mock(spec=VllmConfig)
+    mock_vllm_config.speculative_config = mock_speculative_config
+    mock_vllm_config.load_config = mock_load_config
+
+    mock_quant_config = Mock()
+    with patch.object(
+        VllmConfig, "get_quantization_config", return_value=mock_quant_config
+    ):
+        result = get_draft_quant_config(mock_vllm_config)
+
+        # Verify the function calls get_quantization_config with draft model config
+        VllmConfig.get_quantization_config.assert_called_once_with(
+            mock_draft_model_config, mock_load_config
+        )
+        assert result == mock_quant_config
+
+
+def test_get_draft_quant_config_without_draft_model():
+    mock_speculative_config = Mock(spec=SpeculativeConfig)
+    mock_speculative_config.draft_model_config = None
+
+    mock_vllm_config = Mock(spec=VllmConfig)
+    mock_vllm_config.speculative_config = mock_speculative_config
+    mock_vllm_config.load_config = Mock(spec=LoadConfig)
+
+    result = get_draft_quant_config(mock_vllm_config)
+
+    assert result is None
+
+
+@torch.inference_mode()
+@pytest.mark.parametrize("device", DEVICES)
+def test_fc_layer_quant_config_usage(dist_init, device) -> None:
+    import torch
+
+    from vllm.model_executor.layers.linear import ReplicatedLinear
+
+    if current_platform.is_cuda_alike():
+        torch.cuda.set_device(device)
+
+    torch.set_default_device(device)
+
+    input_size = 256
+    output_size = 128
+
+    fc_no_quant = ReplicatedLinear(
+        input_size=input_size,
+        output_size=output_size,
+        bias=False,
+        params_dtype=torch.float16,
+        quant_config=None,
+        prefix="fc",
+    )
+
+    assert fc_no_quant.quant_config is None
+    assert fc_no_quant.input_size == input_size
+    assert fc_no_quant.output_size == output_size
+
+    mock_quant_config = Mock()
+    fc_with_quant = ReplicatedLinear(
+        input_size=input_size,
+        output_size=output_size,
+        bias=False,
+        params_dtype=torch.float16,
+        quant_config=mock_quant_config,
+        prefix="fc",
+    )
+
+    assert fc_with_quant.quant_config == mock_quant_config
+
+    # Check forward pass
+    x = torch.randn(2, input_size, dtype=torch.float16)
+    output, _ = fc_no_quant(x)
+    assert output.shape == (2, output_size)
+
+
+def test_kv_cache_scale_name_handling():
+    # Mock a quant config that supports cache scales
+    mock_quant_config = Mock()
+    mock_quant_config.get_cache_scale = Mock(return_value="layers.0.self_attn.kv_scale")
+
+    # Condition check in load_weights
+    name = "layers.0.self_attn.k_proj.weight"
+    scale_name = mock_quant_config.get_cache_scale(name)
+
+    # Check if get_cache_scale is called and returns expected value
+    mock_quant_config.get_cache_scale.assert_called_once_with(name)
+    assert scale_name == "layers.0.self_attn.kv_scale"
+
+
+def test_kv_cache_scale_name_no_scale():
+    # Mock a quant config that returns None for get_cache_scale
+    mock_quant_config = Mock()
+    mock_quant_config.get_cache_scale = Mock(return_value=None)
+
+    name = "layers.0.mlp.gate_proj.weight"
+    scale_name = mock_quant_config.get_cache_scale(name)
+
+    # Should return None for weights that don't have cache scales
+    assert scale_name is None
+
+
+def test_maybe_remap_kv_scale_name():
+    from vllm.model_executor.model_loader.weight_utils import maybe_remap_kv_scale_name
+
+    params_dict = {
+        "layers.0.self_attn.kv_scale": Mock(),
+        "layers.1.self_attn.kv_scale": Mock(),
+    }
+
+    name = "layers.0.self_attn.some_scale"
+    remapped = maybe_remap_kv_scale_name(name, params_dict)
+
+    assert remapped in params_dict or remapped == name or remapped is None
+
+
+def test_load_weights_kv_scale_handling():
+    kv_scale_param = Mock()
+    kv_scale_param.weight_loader = Mock()
+
+    params_dict = {
+        "layers.0.self_attn.kv_scale": kv_scale_param,
+    }
+
+    mock_quant_config = Mock()
+    mock_quant_config.get_cache_scale = Mock(return_value="layers.0.self_attn.kv_scale")
+
+    # Load_weights logic for KV cache scales
+    name = "layers.0.self_attn.k_proj.weight"
+    loaded_weight_tensor = torch.tensor([1.0, 2.0])
+
+    if mock_quant_config is not None:
+        scale_name = mock_quant_config.get_cache_scale(name)
+        if scale_name:
+            param = params_dict[scale_name]
+            assert param is kv_scale_param
+            weight_to_load = (
+                loaded_weight_tensor
+                if loaded_weight_tensor.dim() == 0
+                else loaded_weight_tensor[0]
+            )
+
+            assert scale_name == "layers.0.self_attn.kv_scale"
+            assert weight_to_load == loaded_weight_tensor[0]
diff --git a/vllm/model_executor/models/llama_eagle.py b/vllm/model_executor/models/llama_eagle.py
index 0287132c56375..90ab5c50361b6 100644
--- a/vllm/model_executor/models/llama_eagle.py
+++ b/vllm/model_executor/models/llama_eagle.py
@@ -11,13 +11,22 @@ from vllm.compilation.decorators import support_torch_compile
 from vllm.config import VllmConfig
 from vllm.distributed.parallel_state import get_pp_group
 from vllm.logger import init_logger
+from vllm.model_executor.layers.linear import ReplicatedLinear
 from vllm.model_executor.layers.logits_processor import LogitsProcessor
 from vllm.model_executor.layers.quantization.base_config import QuantizationConfig
 from vllm.model_executor.layers.vocab_parallel_embedding import VocabParallelEmbedding
-from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
 from vllm.model_executor.models.llama import LlamaDecoderLayer, LlamaForCausalLM
 
-from .utils import AutoWeightsLoader, maybe_prefix, process_eagle_weight
+from .utils import (
+    AutoWeightsLoader,
+    get_draft_quant_config,
+    maybe_prefix,
+    process_eagle_weight,
+)
 
 logger = init_logger(__name__)
 
@@ -40,14 +49,7 @@ class LlamaDecoderLayer(LlamaDecoderLayer):
 
     def get_quant_config(self, vllm_config: VllmConfig) -> QuantizationConfig | None:
         """Use drafter's quantization config instead of verifier's."""
-        draft_model_config = vllm_config.speculative_config.draft_model_config
-        draft_load_config = vllm_config.load_config
-
-        return (
-            VllmConfig.get_quantization_config(draft_model_config, draft_load_config)
-            if draft_model_config
-            else None
-        )
+        return get_draft_quant_config(vllm_config)
 
 
 @support_torch_compile
@@ -63,6 +65,9 @@ class LlamaModel(nn.Module):
         self.config = vllm_config.speculative_config.draft_model_config.hf_config
         self.vocab_size = self.config.vocab_size
 
+        # Get drafter's quantization config
+        self.quant_config = get_draft_quant_config(vllm_config)
+
         self.embed_tokens = VocabParallelEmbedding(
             self.config.vocab_size,
             self.config.hidden_size,
@@ -80,8 +85,14 @@ class LlamaModel(nn.Module):
                 for i in range(self.config.num_hidden_layers)
             ]
         )
-        self.fc = torch.nn.Linear(
-            self.config.hidden_size * 2, self.config.hidden_size, bias=False
+        self.fc = ReplicatedLinear(
+            input_size=self.config.hidden_size * 2,
+            output_size=self.config.hidden_size,
+            bias=False,
+            params_dtype=vllm_config.model_config.dtype,
+            quant_config=self.quant_config,
+            prefix=maybe_prefix(prefix, "fc"),
+            return_bias=False,
         )
 
     def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
@@ -117,6 +128,24 @@ class LlamaModel(nn.Module):
         params_dict = dict(self.named_parameters())
         loaded_params: set[str] = set()
         for name, loaded_weight in weights:
+            # Handle kv cache quantization scales
+            if self.quant_config is not None and (
+                scale_name := self.quant_config.get_cache_scale(name)
+            ):
+                # Loading kv cache quantization scales
+                param = params_dict[scale_name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                loaded_weight = (
+                    loaded_weight if loaded_weight.dim() == 0 else loaded_weight[0]
+                )
+                weight_loader(param, loaded_weight)
+                loaded_params.add(scale_name)
+                continue
+            # Remapping the name FP8 kv-scale
+            if "scale" in name:
+                name = maybe_remap_kv_scale_name(name, params_dict)
+                if name is None:
+                    continue
             for param_name, weight_name, shard_id in stacked_params_mapping:
                 if weight_name not in name:
                     continue
diff --git a/vllm/model_executor/models/llama_eagle3.py b/vllm/model_executor/models/llama_eagle3.py
index a3bcc5eeb32b9..75c671311b491 100644
--- a/vllm/model_executor/models/llama_eagle3.py
+++ b/vllm/model_executor/models/llama_eagle3.py
@@ -11,19 +11,27 @@ from vllm.compilation.decorators import support_torch_compile
 from vllm.config import VllmConfig, get_current_vllm_config
 from vllm.logger import init_logger
 from vllm.model_executor.layers.layernorm import RMSNorm
-from vllm.model_executor.layers.linear import QKVParallelLinear
+from vllm.model_executor.layers.linear import QKVParallelLinear, ReplicatedLinear
 from vllm.model_executor.layers.logits_processor import LogitsProcessor
 from vllm.model_executor.layers.quantization.base_config import QuantizationConfig
 from vllm.model_executor.layers.vocab_parallel_embedding import (
     ParallelLMHead,
     VocabParallelEmbedding,
 )
-from vllm.model_executor.model_loader.weight_utils import default_weight_loader
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
 from vllm.model_executor.models.llama import LlamaDecoderLayer, LlamaForCausalLM
 from vllm.multimodal import MULTIMODAL_REGISTRY
 from vllm.multimodal.inputs import NestedTensors
 
-from .utils import AutoWeightsLoader, maybe_prefix, process_eagle_weight
+from .utils import (
+    AutoWeightsLoader,
+    get_draft_quant_config,
+    maybe_prefix,
+    process_eagle_weight,
+)
 
 logger = init_logger(__name__)
 
@@ -66,14 +74,7 @@ class LlamaDecoderLayer(LlamaDecoderLayer):
 
     def get_quant_config(self, vllm_config: VllmConfig) -> QuantizationConfig | None:
         """Use drafter's quantization config instead of verifier's."""
-        draft_model_config = vllm_config.speculative_config.draft_model_config
-        draft_load_config = vllm_config.load_config
-
-        return (
-            VllmConfig.get_quantization_config(draft_model_config, draft_load_config)
-            if draft_model_config
-            else None
-        )
+        return get_draft_quant_config(vllm_config)
 
     def _norm_before_residual(
         self, hidden_states: torch.Tensor
@@ -140,6 +141,9 @@ class LlamaModel(nn.Module):
         self.config = vllm_config.speculative_config.draft_model_config.hf_config
         self.vocab_size = self.config.vocab_size
 
+        # Get drafter's quantization config
+        self.quant_config = get_draft_quant_config(vllm_config)
+
         current_vllm_config = get_current_vllm_config()
 
         self.embed_tokens = VocabParallelEmbedding(
@@ -160,13 +164,19 @@ class LlamaModel(nn.Module):
             ]
         )
         if hasattr(self.config, "target_hidden_size"):
-            self.fc = torch.nn.Linear(
-                self.config.target_hidden_size * 3, self.config.hidden_size, bias=False
-            )
+            fc_input_size = self.config.target_hidden_size * 3
         else:
-            self.fc = torch.nn.Linear(
-                self.config.hidden_size * 3, self.config.hidden_size, bias=False
-            )
+            fc_input_size = self.config.hidden_size * 3
+        self.fc = ReplicatedLinear(
+            input_size=fc_input_size,
+            output_size=self.config.hidden_size,
+            bias=False,
+            params_dtype=vllm_config.model_config.dtype,
+            quant_config=self.quant_config,
+            prefix=maybe_prefix(prefix, "fc"),
+            return_bias=False,
+        )
+
         self.norm = RMSNorm(
             self.config.hidden_size,
             eps=self.config.rms_norm_eps,
@@ -211,6 +221,24 @@ class LlamaModel(nn.Module):
         for name, loaded_weight in weights:
             if "midlayer." in name:
                 name = name.replace("midlayer.", "layers.0.")
+            # Handle kv cache quantization scales
+            if self.quant_config is not None and (
+                scale_name := self.quant_config.get_cache_scale(name)
+            ):
+                # Loading kv cache quantization scales
+                param = params_dict[scale_name]
+                weight_loader = getattr(param, "weight_loader", default_weight_loader)
+                loaded_weight = (
+                    loaded_weight if loaded_weight.dim() == 0 else loaded_weight[0]
+                )
+                weight_loader(param, loaded_weight)
+                loaded_params.add(scale_name)
+                continue
+            # Remapping the name FP8 kv-scale
+            if "scale" in name:
+                name = maybe_remap_kv_scale_name(name, params_dict)
+                if name is None:
+                    continue
             for param_name, weight_name, shard_id in stacked_params_mapping:
                 if weight_name not in name:
                     continue
diff --git a/vllm/model_executor/models/utils.py b/vllm/model_executor/models/utils.py
index 0d811fbc7585d..ca5af358e2eed 100644
--- a/vllm/model_executor/models/utils.py
+++ b/vllm/model_executor/models/utils.py
@@ -18,6 +18,9 @@ from vllm.distributed import (
     get_tensor_model_parallel_world_size,
 )
 from vllm.logger import init_logger
+from vllm.model_executor.layers.quantization.base_config import (
+    QuantizationConfig,
+)
 from vllm.model_executor.model_loader.weight_utils import default_weight_loader
 from vllm.model_executor.models.interfaces import supports_any_eagle
 from vllm.multimodal import NestedTensors
@@ -715,6 +718,30 @@ def maybe_prefix(prefix: str, name: str) -> str:
     return name if not prefix else f"{prefix}.{name}"
 
 
+def get_draft_quant_config(
+    vllm_config: VllmConfig,
+) -> QuantizationConfig | None:
+    """Get quantization config for Draft models.
+
+    Draft models should use their own quantization config instead of the verifier/target
+    model's config. This helper retrieves the draft model's quantization config.
+
+    Args:
+        vllm_config: The vLLM configuration object.
+
+    Returns:
+        The draft model's config if available, None otherwise.
+    """
+    draft_model_config = vllm_config.speculative_config.draft_model_config
+    draft_load_config = vllm_config.load_config
+
+    return (
+        VllmConfig.get_quantization_config(draft_model_config, draft_load_config)
+        if draft_model_config
+        else None
+    )
+
+
 def extract_layer_index(layer_name: str, num_attn_module: int = 1) -> int:
     """
     Extract the layer index from the module name.

From a289cc1dde4a1aeee05492bbe4cc39a18f070135 Mon Sep 17 00:00:00 2001
From: Wentao Ye <44945378+yewentao256@users.noreply.github.com>
Date: Mon, 17 Nov 2025 18:09:47 -0500
Subject: [PATCH 532/976] [Test] Batch Invariant: Rename and organize tests
 (#27421)

Signed-off-by: yewentao256 <zhyanwentao@126.com>
---
 tests/v1/determinism/conftest.py              |  11 ++
 .../test_batch_invariance.py                  |  75 +-------
 .../test_online_batch_invariance.py           | 161 ++++++++++++++++++
 .../test_rms_norm_batch_invariant.py          |   7 +-
 tests/v1/determinism/utils.py                 |  74 ++++++++
 5 files changed, 248 insertions(+), 80 deletions(-)
 create mode 100644 tests/v1/determinism/conftest.py
 rename tests/v1/{generation => determinism}/test_batch_invariance.py (92%)
 create mode 100644 tests/v1/determinism/test_online_batch_invariance.py
 rename tests/v1/{generation => determinism}/test_rms_norm_batch_invariant.py (97%)
 create mode 100644 tests/v1/determinism/utils.py

diff --git a/tests/v1/determinism/conftest.py b/tests/v1/determinism/conftest.py
new file mode 100644
index 0000000000000..3c2136e005849
--- /dev/null
+++ b/tests/v1/determinism/conftest.py
@@ -0,0 +1,11 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import pytest
+
+
+@pytest.fixture(autouse=True)
+def enable_batch_invariant_mode(monkeypatch: pytest.MonkeyPatch):
+    """Automatically enable batch invariant kernel overrides for all tests."""
+    monkeypatch.setenv("VLLM_BATCH_INVARIANT", "1")
+    yield
diff --git a/tests/v1/generation/test_batch_invariance.py b/tests/v1/determinism/test_batch_invariance.py
similarity index 92%
rename from tests/v1/generation/test_batch_invariance.py
rename to tests/v1/determinism/test_batch_invariance.py
index 8fd038bca5d0f..f018ee551dbfe 100644
--- a/tests/v1/generation/test_batch_invariance.py
+++ b/tests/v1/determinism/test_batch_invariance.py
@@ -6,66 +6,9 @@ import random
 
 import pytest
 import torch
+from utils import _extract_step_logprobs, _random_prompt, skip_unsupported
 
 from vllm import LLM, SamplingParams
-from vllm.platforms import current_platform
-
-skip_unsupported = pytest.mark.skipif(
-    not (current_platform.is_cuda() and current_platform.has_device_capability(90)),
-    reason="Requires CUDA and >= Hopper (SM90)",
-)
-
-
-@pytest.fixture(autouse=True)
-def enable_batch_invariant_mode(monkeypatch: pytest.MonkeyPatch):
-    """Automatically enable batch invariant kernel overrides for all tests."""
-    monkeypatch.setenv("VLLM_BATCH_INVARIANT", "1")
-    yield
-
-
-def _random_prompt(min_words: int = 1024, max_words: int = 1024 * 2) -> str:
-    # Generate more realistic prompts that will actually produce varied tokens
-    # Use a mix of common English text patterns
-
-    prompt_templates = [
-        # Question-answer style
-        "Question: What is the capital of France?\nAnswer: The capital of France is",
-        "Q: How does photosynthesis work?\nA: Photosynthesis is the process by which",
-        "User: Can you explain quantum mechanics?\nAssistant: Quantum mechanics is",
-        # Story/narrative style
-        "Once upon a time in a distant galaxy, there lived",
-        "The old man walked slowly down the street, remembering",
-        "In the year 2157, humanity finally discovered",
-        # Technical/code style
-        "To implement a binary search tree in Python, first we need to",
-        "The algorithm works by iterating through the array and",
-        "Here's how to optimize database queries using indexing:",
-        # Factual/informative style
-        "The Renaissance was a period in European history that",
-        "Climate change is caused by several factors including",
-        "The human brain contains approximately 86 billion neurons which",
-        # Conversational style
-        "I've been thinking about getting a new laptop because",
-        "Yesterday I went to the store and bought",
-        "My favorite thing about summer is definitely",
-    ]
-
-    # Pick a random template
-    base_prompt = random.choice(prompt_templates)
-
-    if max_words < min_words:
-        max_words = min_words
-    target_words = random.randint(min_words, max_words)
-
-    if target_words > 50:
-        # For longer prompts, repeat context
-        padding_text = (
-            " This is an interesting topic that deserves more explanation. "
-            * (target_words // 50)
-        )
-        base_prompt = base_prompt + padding_text
-
-    return base_prompt
 
 
 @skip_unsupported
@@ -204,22 +147,6 @@ def test_v1_generation_is_deterministic_across_batch_sizes_with_needle(
                 llm_bsN.shutdown()
 
 
-def _extract_step_logprobs(request_output):
-    if getattr(request_output, "outputs", None):
-        inner = request_output.outputs[0]
-        if hasattr(inner, "logprobs") and inner.logprobs is not None:
-            t = torch.tensor(
-                [
-                    inner.logprobs[i][tid].logprob
-                    for i, tid in enumerate(inner.token_ids)
-                ],
-                dtype=torch.float32,
-            )
-            return t, inner.token_ids
-
-    return None, None
-
-
 @skip_unsupported
 @pytest.mark.parametrize(
     "backend",
diff --git a/tests/v1/determinism/test_online_batch_invariance.py b/tests/v1/determinism/test_online_batch_invariance.py
new file mode 100644
index 0000000000000..23f47863dd23f
--- /dev/null
+++ b/tests/v1/determinism/test_online_batch_invariance.py
@@ -0,0 +1,161 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+HTTP-based batch invariance test: send requests to a running
+vLLM server and compare BS=1 vs BS=N results (tokens and per-step logprobs).
+
+Environment variables:
+  - VLLM_TEST_MODEL: served model name (e.g., Qwen/Qwen3-1.7B / DeepSeek-R1)
+  - VLLM_TP_SIZE: tensor parallelism size (e.g., 4)
+
+"""
+
+import os
+import random
+import sys
+from typing import Any
+
+import openai
+from utils import _random_prompt, skip_unsupported
+
+from tests.utils import RemoteOpenAIServer
+
+
+def _request_completion(
+    client: openai.OpenAI,
+    model: str,
+    prompt: Any,
+    sp: dict[str, Any],
+    max_retries: int = 3,
+    retry_backoff: float = 0.5,
+) -> dict[str, Any] | None:
+    payload: dict[str, Any] = {"model": model, "prompt": prompt}
+    payload.update(sp)
+
+    for attempt in range(max_retries + 1):
+        try:
+            completion = client.completions.create(**payload)
+            # Convert to plain dict so downstream logic can keep using
+            # dict-style access just like with raw HTTP JSON.
+            return completion.model_dump()
+        except Exception as e:  # pragma: no cover
+            if attempt < max_retries:
+                import time as _t
+
+                _t.sleep(retry_backoff * (2**attempt))
+                continue
+            sys.stderr.write(f"Error: {e}\n")
+            return None
+    return None
+
+
+def _extract_tokens_and_logprobs(
+    choice: dict[str, Any],
+) -> tuple[list[Any], list[float] | None]:
+    tokens: list[Any] = []
+    token_logprobs: list[float] | None = None
+    lp = choice.get("logprobs")
+    if lp and isinstance(lp, dict):
+        tokens = lp.get("token_ids") or lp.get("tokens") or []
+        token_logprobs = lp.get("token_logprobs", None)
+    return tokens, token_logprobs
+
+
+def _compare_bs1_vs_bsn_single_process(
+    prompts: list[str],
+    sp_kwargs: dict[str, Any],
+    client: openai.OpenAI,
+    model_name: str,
+) -> None:
+    # BS=1
+    bs1_tokens_per_prompt: list[list[Any]] = []
+    bs1_logprobs_per_prompt: list[list[float] | None] = []
+    for p in prompts:
+        resp = _request_completion(client, model_name, p, sp_kwargs)
+        if resp is None or not resp.get("choices"):
+            raise AssertionError("BS=1 empty/failed response")
+        choice = resp["choices"][0]
+        toks, lps = _extract_tokens_and_logprobs(choice)
+        if lps is None:
+            raise AssertionError(
+                "logprobs not returned; ensure server supports 'logprobs'"
+            )
+        bs1_tokens_per_prompt.append(list(toks))
+        bs1_logprobs_per_prompt.append(list(lps))
+
+    # BS=N
+    bsN_tokens_per_prompt: list[list[Any]] = [None] * len(prompts)  # type: ignore[list-item]
+    bsN_logprobs_per_prompt: list[list[float] | None] = [None] * len(prompts)
+    resp = _request_completion(client, model_name, prompts, sp_kwargs)
+    if resp is None or not resp.get("choices"):
+        raise AssertionError("BS=N empty/failed batched response")
+    choices = resp.get("choices", [])
+    if len(choices) != len(prompts):
+        raise AssertionError(
+            f"BS=N choices length {len(choices)} != num prompts {len(prompts)}"
+        )
+    for idx, choice in enumerate(choices):
+        toks, lps = _extract_tokens_and_logprobs(choice)
+        if lps is None:
+            raise AssertionError(f"BS=N missing logprobs for prompt {idx}")
+        bsN_tokens_per_prompt[idx] = list(toks)
+        bsN_logprobs_per_prompt[idx] = list(lps)
+
+    # compare
+    for i, (tokens_bs1, tokens_bsN, logprobs_bs1, logprobs_bsN) in enumerate(
+        zip(
+            bs1_tokens_per_prompt,
+            bsN_tokens_per_prompt,
+            bs1_logprobs_per_prompt,
+            bsN_logprobs_per_prompt,
+        )
+    ):
+        if tokens_bs1 != tokens_bsN:
+            raise AssertionError(
+                f"Prompt {i} (sampling): Different tokens sampled. "
+                f"BS=1 tokens: {tokens_bs1} BS=N tokens: {tokens_bsN}"
+            )
+        if logprobs_bs1 is None or logprobs_bsN is None:
+            raise AssertionError(f"Prompt {i}: Missing logprobs in one of the runs")
+        if len(logprobs_bs1) != len(logprobs_bsN):
+            raise AssertionError(
+                f"Prompt {i}: Different number of steps: "
+                f"{len(logprobs_bs1)} (BS=1) vs {len(logprobs_bsN)} (BS=N)."
+            )
+        for t, (a, b) in enumerate(zip(logprobs_bs1, logprobs_bsN)):
+            if a != b:
+                diff = abs(a - b)
+                raise AssertionError(
+                    f"Prompt {i} Step {t}: Bitwise mismatch "
+                    f"(abs diff={diff:.6e}). "
+                    f"BS=1 tokens: {tokens_bs1} BS=N tokens: {tokens_bsN}"
+                )
+
+
+@skip_unsupported
+def test_logprobs_bitwise_batch_invariance_bs1_vs_bsN():
+    random.seed(int(os.getenv("VLLM_TEST_SEED", "12345")))
+    model_name = os.getenv("VLLM_TEST_MODEL", "Qwen/Qwen3-1.7B")
+    prompts_all = [_random_prompt(10, 50) for _ in range(32)]
+
+    sp_kwargs: dict[str, Any] = {
+        "temperature": 0.6,
+        "top_p": 1.0,
+        "max_tokens": 8,
+        "seed": 42,
+        "logprobs": 5,
+    }
+
+    tp_size = os.getenv("VLLM_TP_SIZE", "1")
+    server_args: list[str] = []
+    if tp_size:
+        server_args += ["-tp", tp_size]
+
+    with RemoteOpenAIServer(model_name, server_args) as server:
+        client = server.get_client()
+        _compare_bs1_vs_bsn_single_process(
+            prompts=prompts_all,
+            sp_kwargs=sp_kwargs,
+            client=client,
+            model_name=model_name,
+        )
diff --git a/tests/v1/generation/test_rms_norm_batch_invariant.py b/tests/v1/determinism/test_rms_norm_batch_invariant.py
similarity index 97%
rename from tests/v1/generation/test_rms_norm_batch_invariant.py
rename to tests/v1/determinism/test_rms_norm_batch_invariant.py
index f79eba58d6ef2..390872519528c 100644
--- a/tests/v1/generation/test_rms_norm_batch_invariant.py
+++ b/tests/v1/determinism/test_rms_norm_batch_invariant.py
@@ -9,15 +9,10 @@ with the standard CUDA-based implementation to ensure numerical accuracy.
 
 import pytest
 import torch
+from utils import skip_unsupported
 
 from vllm.model_executor.layers.batch_invariant import rms_norm as triton_rms_norm
 from vllm.model_executor.layers.layernorm import RMSNorm
-from vllm.platforms import current_platform
-
-skip_unsupported = pytest.mark.skipif(
-    not (current_platform.is_cuda() and current_platform.has_device_capability(90)),
-    reason="Requires CUDA and >= Hopper (SM90)",
-)
 
 
 @skip_unsupported
diff --git a/tests/v1/determinism/utils.py b/tests/v1/determinism/utils.py
new file mode 100644
index 0000000000000..5141837faea04
--- /dev/null
+++ b/tests/v1/determinism/utils.py
@@ -0,0 +1,74 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import random
+
+import pytest
+import torch
+
+from vllm.platforms import current_platform
+
+skip_unsupported = pytest.mark.skipif(
+    not (current_platform.is_cuda() and current_platform.has_device_capability(90)),
+    reason="Requires CUDA and >= Hopper (SM90)",
+)
+
+
+def _random_prompt(min_words: int = 1024, max_words: int = 1024 * 2) -> str:
+    # Generate more realistic prompts that will actually produce varied tokens
+    # Use a mix of common English text patterns
+
+    prompt_templates = [
+        # Question-answer style
+        "Question: What is the capital of France?\nAnswer: The capital of France is",
+        "Q: How does photosynthesis work?\nA: Photosynthesis is the process by which",
+        "User: Can you explain quantum mechanics?\nAssistant: Quantum mechanics is",
+        # Story/narrative style
+        "Once upon a time in a distant galaxy, there lived",
+        "The old man walked slowly down the street, remembering",
+        "In the year 2157, humanity finally discovered",
+        # Technical/code style
+        "To implement a binary search tree in Python, first we need to",
+        "The algorithm works by iterating through the array and",
+        "Here's how to optimize database queries using indexing:",
+        # Factual/informative style
+        "The Renaissance was a period in European history that",
+        "Climate change is caused by several factors including",
+        "The human brain contains approximately 86 billion neurons which",
+        # Conversational style
+        "I've been thinking about getting a new laptop because",
+        "Yesterday I went to the store and bought",
+        "My favorite thing about summer is definitely",
+    ]
+
+    # Pick a random template
+    base_prompt = random.choice(prompt_templates)
+
+    if max_words < min_words:
+        max_words = min_words
+    target_words = random.randint(min_words, max_words)
+
+    if target_words > 50:
+        # For longer prompts, repeat context
+        padding_text = (
+            " This is an interesting topic that deserves more explanation. "
+            * (target_words // 50)
+        )
+        base_prompt = base_prompt + padding_text
+
+    return base_prompt
+
+
+def _extract_step_logprobs(request_output):
+    if getattr(request_output, "outputs", None):
+        inner = request_output.outputs[0]
+        if hasattr(inner, "logprobs") and inner.logprobs is not None:
+            t = torch.tensor(
+                [
+                    inner.logprobs[i][tid].logprob
+                    for i, tid in enumerate(inner.token_ids)
+                ],
+                dtype=torch.float32,
+            )
+            return t, inner.token_ids
+
+    return None, None

From f77bce001a6261da0661f0192c8cddd1ca453750 Mon Sep 17 00:00:00 2001
From: Pranav <56645758+pranav4501@users.noreply.github.com>
Date: Mon, 17 Nov 2025 15:11:20 -0800
Subject: [PATCH 533/976] [Model] Add Afmoe architecture implementation
 (#28332)

Signed-off-by: Maziyar Panahi <maziyar.panahi@iscpif.fr>
Signed-off-by: Pranav <veldurthipranav@gmail.com>
Co-authored-by: Maziyar Panahi <maziyar.panahi@iscpif.fr>
---
 docs/models/supported_models.md             |   1 +
 tests/models/registry.py                    |   4 +
 vllm/model_executor/models/afmoe.py         | 711 ++++++++++++++++++++
 vllm/model_executor/models/registry.py      |   1 +
 vllm/transformers_utils/config.py           |   1 +
 vllm/transformers_utils/configs/__init__.py |   2 +
 vllm/transformers_utils/configs/afmoe.py    |  84 +++
 7 files changed, 804 insertions(+)
 create mode 100644 vllm/model_executor/models/afmoe.py
 create mode 100644 vllm/transformers_utils/configs/afmoe.py

diff --git a/docs/models/supported_models.md b/docs/models/supported_models.md
index d47aeaab511b9..bd14bbb9ab662 100644
--- a/docs/models/supported_models.md
+++ b/docs/models/supported_models.md
@@ -351,6 +351,7 @@ th {
 
 | Architecture | Models | Example HF Models | [LoRA](../features/lora.md) | [PP](../serving/parallelism_scaling.md) |
 |--------------|--------|-------------------|----------------------|---------------------------|
+| `AfmoeForCausalLM` | Afmoe | TBA | ✅︎ | ✅︎ |
 | `ApertusForCausalLM` | Apertus | `swiss-ai/Apertus-8B-2509`, `swiss-ai/Apertus-70B-Instruct-2509`, etc. | ✅︎ | ✅︎ |
 | `AquilaForCausalLM` | Aquila, Aquila2 | `BAAI/Aquila-7B`, `BAAI/AquilaChat-7B`, etc. | ✅︎ | ✅︎ |
 | `ArceeForCausalLM` | Arcee (AFM) | `arcee-ai/AFM-4.5B-Base`, etc. | ✅︎ | ✅︎ |
diff --git a/tests/models/registry.py b/tests/models/registry.py
index 644d0619215fb..094f921e4305f 100644
--- a/tests/models/registry.py
+++ b/tests/models/registry.py
@@ -173,6 +173,10 @@ class _HfExamplesInfo:
 
 _TEXT_GENERATION_EXAMPLE_MODELS = {
     # [Decoder-only]
+    "AfmoeForCausalLM": _HfExamplesInfo(
+        "arcee-ai/Trinity-Nano",
+        is_available_online=False,
+    ),
     "ApertusForCausalLM": _HfExamplesInfo("swiss-ai/Apertus-8B-Instruct-2509"),
     "AquilaModel": _HfExamplesInfo("BAAI/AquilaChat-7B", trust_remote_code=True),
     "AquilaForCausalLM": _HfExamplesInfo("BAAI/AquilaChat2-7B", trust_remote_code=True),
diff --git a/vllm/model_executor/models/afmoe.py b/vllm/model_executor/models/afmoe.py
new file mode 100644
index 0000000000000..6f654f47495f7
--- /dev/null
+++ b/vllm/model_executor/models/afmoe.py
@@ -0,0 +1,711 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Inference-only AfMoE model compatible with HuggingFace weights."""
+
+import typing
+from collections.abc import Callable, Iterable
+from itertools import islice
+from typing import Any
+
+import torch
+from torch import nn
+
+from vllm.attention import Attention, AttentionType
+from vllm.compilation.decorators import support_torch_compile
+from vllm.config import CacheConfig, VllmConfig, get_current_vllm_config
+from vllm.distributed import (
+    get_ep_group,
+    get_pp_group,
+    get_tensor_model_parallel_world_size,
+)
+from vllm.logger import init_logger
+from vllm.model_executor.layers.fused_moe.shared_fused_moe import SharedFusedMoE
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.model_loader.weight_utils import (
+    default_weight_loader,
+    maybe_remap_kv_scale_name,
+)
+from vllm.model_executor.models.interfaces import SupportsLoRA, SupportsPP
+from vllm.model_executor.models.llama import LlamaMLP as AfmoeMLP
+from vllm.model_executor.models.utils import (
+    AutoWeightsLoader,
+    PPMissingLayer,
+    WeightsMapper,
+    extract_layer_index,
+    is_pp_missing_parameter,
+    make_empty_intermediate_tensors_factory,
+    make_layers,
+    maybe_prefix,
+)
+from vllm.sequence import IntermediateTensors
+
+logger = init_logger(__name__)
+
+
+class AfmoeMoE(nn.Module):
+    def __init__(
+        self,
+        config,  # AfmoeConfig
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        enable_eplb: bool = False,
+    ):
+        super().__init__()
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.route_scale = config.route_scale
+        self.score_func = config.score_func
+        self.route_norm = config.route_norm
+
+        self.ep_group = get_ep_group().device_group
+        self.ep_rank = self.ep_group.rank()
+        self.ep_size = self.ep_group.size()
+        self.n_routed_experts: int = config.num_experts
+        self.n_shared_experts: int = config.num_shared_experts
+
+        if config.hidden_act != "silu":
+            raise ValueError(
+                f"Unsupported activation: {config.hidden_act}. "
+                "Only silu is supported for now."
+            )
+
+        # Router gate
+        self.gate = nn.Linear(
+            config.hidden_size,
+            config.num_experts,
+            bias=False,
+            dtype=torch.float32,
+        )
+        self.expert_bias = nn.Parameter(
+            torch.empty(config.num_experts, dtype=torch.float32)
+        )
+
+        # Load balancing settings
+        vllm_config = get_current_vllm_config()
+        eplb_config = vllm_config.parallel_config.eplb_config
+        self.enable_eplb = enable_eplb
+
+        self.n_redundant_experts = eplb_config.num_redundant_experts
+        self.n_logical_experts = self.n_routed_experts
+        self.n_physical_experts = self.n_logical_experts + self.n_redundant_experts
+        self.n_local_physical_experts = self.n_physical_experts // self.ep_size
+
+        self.physical_expert_start = self.ep_rank * self.n_local_physical_experts
+        self.physical_expert_end = (
+            self.physical_expert_start + self.n_local_physical_experts
+        )
+
+        self.shared_experts = None
+        # Shared experts
+        if config.num_shared_experts > 0:
+            intermediate_size = config.moe_intermediate_size * config.num_shared_experts
+            self.shared_experts = AfmoeMLP(
+                hidden_size=config.hidden_size,
+                intermediate_size=intermediate_size,
+                hidden_act=config.hidden_act,
+                quant_config=quant_config,
+                reduce_results=False,
+                prefix=f"{prefix}.shared_experts",
+            )
+
+        # Routed experts using SharedFusedMoE
+        self.experts = SharedFusedMoE(
+            shared_experts=self.shared_experts,
+            num_experts=config.num_experts,
+            top_k=config.num_experts_per_tok,
+            hidden_size=config.hidden_size,
+            intermediate_size=config.moe_intermediate_size,
+            reduce_results=False,
+            renormalize=self.route_norm if self.score_func == "sigmoid" else False,
+            quant_config=quant_config,
+            use_grouped_topk=True,
+            num_expert_group=config.n_group,
+            topk_group=config.topk_group,
+            prefix=f"{prefix}.experts",
+            scoring_func=self.score_func,
+            routed_scaling_factor=self.route_scale,
+            e_score_correction_bias=self.expert_bias,
+            enable_eplb=self.enable_eplb,
+            num_redundant_experts=self.n_redundant_experts,
+        )
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        num_tokens, hidden_dim = hidden_states.shape
+        hidden_states = hidden_states.view(-1, hidden_dim)
+
+        router_logits = self.gate(hidden_states.to(dtype=torch.float32))
+
+        fused_moe_out = self.experts(
+            hidden_states=hidden_states, router_logits=router_logits
+        )
+
+        if self.shared_experts is not None:
+            shared_output, final_hidden_states = fused_moe_out
+            final_hidden_states = final_hidden_states + shared_output
+        else:
+            final_hidden_states = fused_moe_out
+        if self.tp_size > 1:
+            final_hidden_states = self.experts.maybe_all_reduce_tensor_model_parallel(
+                final_hidden_states
+            )
+
+        return final_hidden_states.view(num_tokens, hidden_dim)
+
+
+class AfmoeAttention(nn.Module):
+    def __init__(
+        self,
+        config,  # AfmoeConfig
+        layer_idx: int,
+        hidden_size: int,
+        num_heads: int,
+        num_kv_heads: int,
+        rope_theta: float = 10000,
+        rope_scaling: dict[str, Any] | None = None,
+        max_position_embeddings: int = 131072,
+        head_dim: int | None = None,
+        rms_norm_eps: float = 1e-05,
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        attn_type: str = AttentionType.DECODER,
+    ) -> None:
+        super().__init__()
+        self.layer_idx = layer_idx
+        self.hidden_size = hidden_size
+        tp_size = get_tensor_model_parallel_world_size()
+        self.total_num_heads = num_heads
+        assert self.total_num_heads % tp_size == 0
+        self.num_heads = self.total_num_heads // tp_size
+        self.total_num_kv_heads = num_kv_heads
+        if self.total_num_kv_heads >= tp_size:
+            # Number of KV heads is greater than TP size, so we partition
+            # the KV heads across multiple tensor parallel GPUs.
+            assert self.total_num_kv_heads % tp_size == 0
+        else:
+            # Number of KV heads is less than TP size, so we replicate
+            # the KV heads across multiple tensor parallel GPUs.
+            assert tp_size % self.total_num_kv_heads == 0
+        self.num_kv_heads = max(1, self.total_num_kv_heads // tp_size)
+        self.head_dim = head_dim or (hidden_size // self.total_num_heads)
+        self.q_size = self.num_heads * self.head_dim
+        self.kv_size = self.num_kv_heads * self.head_dim
+        self.scaling = self.head_dim**-0.5
+        self.rope_theta = rope_theta
+        self.max_position_embeddings = max_position_embeddings
+
+        # Check if this is a local attention layer
+        self.is_local_attention = config.layer_types[layer_idx] == "sliding_attention"
+        self.sliding_window = config.sliding_window if self.is_local_attention else None
+
+        self.qkv_proj = QKVParallelLinear(
+            self.hidden_size,
+            self.head_dim,
+            self.total_num_heads,
+            self.total_num_kv_heads,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.qkv_proj",
+        )
+
+        self.o_proj = RowParallelLinear(
+            self.total_num_heads * self.head_dim,
+            self.hidden_size,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.o_proj",
+        )
+
+        # Gating projection
+        self.gate_proj = ColumnParallelLinear(
+            hidden_size,
+            self.total_num_heads * self.head_dim,
+            bias=False,
+            quant_config=quant_config,
+            prefix=f"{prefix}.gate_proj",
+        )
+
+        # Q/K normalization
+        self.q_norm = RMSNorm(self.head_dim, eps=config.rms_norm_eps)
+        self.k_norm = RMSNorm(self.head_dim, eps=config.rms_norm_eps)
+
+        # Only create rotary embeddings for local attention
+        if self.is_local_attention:
+            self.rotary_emb = get_rope(
+                self.head_dim,
+                rotary_dim=self.head_dim,
+                max_position=max_position_embeddings,
+                base=rope_theta,
+                rope_scaling=rope_scaling,
+                is_neox_style=True,
+            )
+        else:
+            self.rotary_emb = None
+
+        self.attn = Attention(
+            self.num_heads,
+            self.head_dim,
+            self.scaling,
+            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            per_layer_sliding_window=self.sliding_window,
+            prefix=f"{prefix}.attn",
+            attn_type=attn_type,
+        )
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+    ) -> torch.Tensor:
+        qkv, _ = self.qkv_proj(hidden_states)
+        gate, _ = self.gate_proj(hidden_states)
+        q, k, v = qkv.split([self.q_size, self.kv_size, self.kv_size], dim=-1)
+
+        # Apply Q/K normalization
+        q = self.q_norm(q.reshape(-1, self.num_heads, self.head_dim)).reshape(q.shape)
+        k = self.k_norm(k.reshape(-1, self.num_kv_heads, self.head_dim)).reshape(
+            k.shape
+        )
+
+        # Apply rotary embeddings only for local attention
+        if self.is_local_attention and self.rotary_emb is not None:
+            q, k = self.rotary_emb(positions, q, k)
+
+        attn_output = self.attn(q, k, v)
+
+        # Apply gating
+        attn_output = attn_output * torch.sigmoid(gate)
+        output, _ = self.o_proj(attn_output)
+        return output
+
+
+class AfmoeDecoderLayer(nn.Module):
+    def __init__(
+        self,
+        config,  # AfmoeConfig
+        cache_config: CacheConfig | None = None,
+        quant_config: QuantizationConfig | None = None,
+        prefix: str = "",
+        enable_eplb: bool = False,
+    ) -> None:
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        rope_theta = getattr(config, "rope_theta", 10000)
+        rope_scaling = getattr(config, "rope_scaling", None)
+        if rope_scaling is not None and getattr(
+            config, "original_max_position_embeddings", None
+        ):
+            rope_scaling["original_max_position_embeddings"] = (
+                config.original_max_position_embeddings
+            )
+        max_position_embeddings = getattr(config, "max_position_embeddings", 131072)
+
+        # DecoderLayers are created with `make_layers` which passes the prefix
+        # with the layer's index.
+        self.layer_idx = extract_layer_index(prefix)
+
+        self.self_attn = AfmoeAttention(
+            config=config,
+            layer_idx=self.layer_idx,
+            hidden_size=self.hidden_size,
+            num_heads=config.num_attention_heads,
+            num_kv_heads=config.num_key_value_heads,
+            rope_theta=rope_theta,
+            rope_scaling=rope_scaling,
+            max_position_embeddings=max_position_embeddings,
+            head_dim=config.head_dim,
+            rms_norm_eps=config.rms_norm_eps,
+            cache_config=cache_config,
+            quant_config=quant_config,
+            prefix=f"{prefix}.self_attn",
+        )
+
+        # MoE or dense FFN
+        self.moe_enabled = self.layer_idx >= config.num_dense_layers
+        if self.moe_enabled:
+            self.mlp = AfmoeMoE(
+                config=config,
+                quant_config=quant_config,
+                prefix=f"{prefix}.mlp",
+                enable_eplb=enable_eplb,
+            )
+        else:
+            self.mlp = AfmoeMLP(
+                hidden_size=config.hidden_size,
+                intermediate_size=config.intermediate_size,
+                hidden_act=config.hidden_act,
+                quant_config=quant_config,
+                prefix=f"{prefix}.mlp",
+            )
+
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(
+            config.hidden_size, eps=config.rms_norm_eps
+        )
+        self.pre_mlp_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_mlp_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+    def forward(
+        self,
+        positions: torch.Tensor,
+        hidden_states: torch.Tensor,
+        residual: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        if residual is None:
+            residual = hidden_states
+            hidden_states = self.input_layernorm(hidden_states)
+        else:
+            hidden_states, residual = self.input_layernorm(hidden_states, residual)
+
+        hidden_states = self.self_attn(
+            positions=positions,
+            hidden_states=hidden_states,
+        )
+        hidden_states = self.post_attention_layernorm(hidden_states)  # attn norm b
+
+        # Fully Connected
+        hidden_states, residual = self.pre_mlp_layernorm(  # ffn norm a
+            hidden_states, residual
+        )
+        hidden_states = self.mlp(hidden_states)
+        hidden_states = self.post_mlp_layernorm(hidden_states)  # ffn norm b
+
+        return hidden_states, residual
+
+
+@support_torch_compile(
+    dynamic_arg_dims={
+        "input_ids": 0,
+        "positions": -1,
+        "intermediate_tensors": 0,
+        "inputs_embeds": 0,
+    }
+)
+class AfmoeModel(nn.Module):
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+
+        config = vllm_config.model_config.hf_config
+        cache_config = vllm_config.cache_config
+        quant_config = vllm_config.quant_config
+        enable_eplb = vllm_config.parallel_config.enable_eplb
+        self.config = config
+
+        self.vocab_size = config.vocab_size
+        self.mup_enabled = config.mup_enabled
+
+        if get_pp_group().is_first_rank:
+            self.embed_tokens = VocabParallelEmbedding(
+                config.vocab_size, config.hidden_size, prefix=f"{prefix}.embed_tokens"
+            )
+        else:
+            self.embed_tokens = PPMissingLayer()
+
+        self.start_layer, self.end_layer, self.layers = make_layers(
+            config.num_hidden_layers,
+            lambda prefix: AfmoeDecoderLayer(
+                config=config,
+                cache_config=cache_config,
+                quant_config=quant_config,
+                prefix=prefix,
+                enable_eplb=enable_eplb,
+            ),
+            prefix=f"{prefix}.layers",
+        )
+
+        if get_pp_group().is_last_rank:
+            self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        else:
+            self.norm = PPMissingLayer()
+
+        self.make_empty_intermediate_tensors = make_empty_intermediate_tensors_factory(
+            ["hidden_states", "residual"], config.hidden_size
+        )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.embed_tokens(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        if get_pp_group().is_first_rank:
+            if inputs_embeds is not None:
+                hidden_states = inputs_embeds
+            else:
+                hidden_states = self.embed_input_ids(input_ids)
+
+            # Apply muP input scaling if enabled
+            if self.mup_enabled:
+                hidden_states = hidden_states * (self.config.hidden_size**0.5)
+
+            residual = None
+        else:
+            assert intermediate_tensors is not None
+            hidden_states = intermediate_tensors["hidden_states"]
+            residual = intermediate_tensors["residual"]
+
+        for layer in islice(self.layers, self.start_layer, self.end_layer):
+            hidden_states, residual = layer(positions, hidden_states, residual)
+
+        if not get_pp_group().is_last_rank:
+            return IntermediateTensors(
+                {"hidden_states": hidden_states, "residual": residual}
+            )
+
+        hidden_states, _ = self.norm(hidden_states, residual)
+        return hidden_states
+
+    def make_empty_intermediate_tensors(
+        self, batch_size: int, dtype: torch.dtype, device: torch.device
+    ) -> IntermediateTensors:
+        return IntermediateTensors(
+            {
+                "hidden_states": torch.zeros(
+                    (batch_size, self.config.hidden_size), dtype=dtype, device=device
+                ),
+                "residual": torch.zeros(
+                    (batch_size, self.config.hidden_size), dtype=dtype, device=device
+                ),
+            }
+        )
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        # Params for weights, fp8 weight scales, fp8 activation scales
+        # (param_name, weight_name, expert_id, shard_id)
+        return SharedFusedMoE.make_expert_params_mapping(
+            ckpt_gate_proj_name="gate_proj",
+            ckpt_down_proj_name="down_proj",
+            ckpt_up_proj_name="up_proj",
+            num_experts=self.config.num_experts,
+        )
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        stacked_params_mapping = [
+            # (param_name, shard_name, shard_id)
+            ("qkv_proj", "q_proj", "q"),
+            ("qkv_proj", "k_proj", "k"),
+            ("qkv_proj", "v_proj", "v"),
+            ("gate_up_proj", "gate_proj", 0),
+            ("gate_up_proj", "up_proj", 1),
+        ]
+
+        params_dict = dict(self.named_parameters())
+        loaded_params: set[str] = set()
+        expert_params_mapping = self.get_expert_mapping()
+
+        for name, loaded_weight in weights:
+            for param_name, weight_name, shard_id in stacked_params_mapping:
+                # Skip non-stacked layers and experts (experts handled below).
+                if (weight_name not in name) or ("self_attn.gate_proj" in name):
+                    continue
+                # We have mlp.experts[0].gate_proj in the checkpoint.
+                # Since we handle the experts below in expert_params_mapping,
+                # we need to skip here BEFORE we update the name, otherwise
+                # name will be updated to mlp.experts[0].gate_up_proj, which
+                # will then be updated below in expert_params_mapping
+                # for mlp.experts[0].gate_gate_up_proj, which breaks load.
+                if ("mlp.experts." in name) and name not in params_dict:
+                    continue
+
+                name = name.replace(weight_name, param_name)
+                # Skip loading extra bias for GPTQ models.
+                if name.endswith(".bias") and name not in params_dict:
+                    continue
+                if is_pp_missing_parameter(name, self):
+                    continue
+
+                param = params_dict[name]
+                weight_loader = param.weight_loader
+                weight_loader(param, loaded_weight, shard_id)
+                break
+            else:
+                is_expert_weight = False
+                for mapping in expert_params_mapping:
+                    param_name, weight_name, expert_id, shard_id = mapping
+                    if weight_name not in name:
+                        continue
+
+                    # Anyway, this is an expert weight and should not be
+                    # attempted to load as other weights later
+                    is_expert_weight = True
+
+                    # Do not modify `name` since the loop may continue here
+                    # Instead, create a new variable
+                    name_mapped = name.replace(weight_name, param_name)
+
+                    if is_pp_missing_parameter(name_mapped, self):
+                        continue
+
+                    param = params_dict[name_mapped]
+                    # We should ask the weight loader to return success or not
+                    # here since otherwise we may skip experts with other
+                    # available replicas.
+                    weight_loader = typing.cast(
+                        Callable[..., bool], param.weight_loader
+                    )
+                    success = weight_loader(
+                        param,
+                        loaded_weight,
+                        name_mapped,
+                        shard_id=shard_id,
+                        expert_id=expert_id,
+                        return_success=True,
+                    )
+                    if success:
+                        name = name_mapped
+                        break
+                else:
+                    if is_expert_weight:
+                        # We've checked that this is an expert weight
+                        # However it's not mapped locally to this rank
+                        # So we simply skip it
+                        continue
+
+                    # Skip loading extra bias for GPTQ models.
+                    if name.endswith(".bias") and name not in params_dict:
+                        continue
+
+                    # Remapping the name of FP8 kv-scale.
+                    name = maybe_remap_kv_scale_name(name, params_dict)
+                    if name is None:
+                        continue
+
+                    if is_pp_missing_parameter(name, self):
+                        continue
+
+                    param = params_dict[name]
+                    weight_loader = getattr(
+                        param, "weight_loader", default_weight_loader
+                    )
+                    weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+
+        return loaded_params
+
+
+class AfmoeForCausalLM(nn.Module, SupportsPP, SupportsLoRA):
+    packed_modules_mapping = {
+        "qkv_proj": [
+            "q_proj",
+            "k_proj",
+            "v_proj",
+        ],
+        "gate_up_proj": [
+            "gate_proj",
+            "up_proj",
+        ],
+    }
+
+    hf_to_vllm_mapper = WeightsMapper(
+        orig_to_new_suffix={
+            ".router.gate.weight": ".gate.weight",
+        },
+    )
+
+    fall_back_to_pt_during_load = False
+
+    def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
+        super().__init__()
+        config = vllm_config.model_config.hf_config
+        quant_config = vllm_config.quant_config
+        self.config = config
+        self.quant_config = quant_config
+        self.model = AfmoeModel(
+            vllm_config=vllm_config, prefix=maybe_prefix(prefix, "model")
+        )
+        if get_pp_group().is_last_rank:
+            self.lm_head = ParallelLMHead(
+                config.vocab_size, config.hidden_size, quant_config=quant_config
+            )
+        else:
+            self.lm_head = PPMissingLayer()
+        self.logits_processor = LogitsProcessor(config.vocab_size)
+        self.make_empty_intermediate_tensors = (
+            self.model.make_empty_intermediate_tensors
+        )
+        self.expert_weights = []
+
+        # Set MoE hyperparameters
+        self.num_moe_layers = config.num_hidden_layers - config.num_dense_layers
+        self.num_expert_groups = config.n_group
+
+        self.moe_layers: list[SharedFusedMoE] = []
+        example_moe = None
+        for layer in self.model.layers:
+            if isinstance(layer, PPMissingLayer):
+                continue
+
+            assert isinstance(layer, AfmoeDecoderLayer)
+            if layer.moe_enabled:
+                example_moe = layer.mlp
+                self.moe_layers.append(layer.mlp.experts)
+
+        if example_moe is None and self.num_moe_layers > 0:
+            raise RuntimeError("No AfmoeMoE layer found in model.layers.")
+
+        if example_moe is not None:
+            self.num_logical_experts = example_moe.n_logical_experts
+            self.num_physical_experts = example_moe.n_physical_experts
+            self.num_local_physical_experts = example_moe.n_local_physical_experts
+            self.num_routed_experts = example_moe.n_routed_experts
+            self.num_shared_experts = example_moe.n_shared_experts
+            self.num_redundant_experts = example_moe.n_redundant_experts
+
+    def set_eplb_state(
+        self,
+        expert_load_view: torch.Tensor,
+        logical_to_physical_map: torch.Tensor,
+        logical_replica_count: torch.Tensor,
+    ) -> None:
+        for layer_idx, layer in enumerate(self.moe_layers):
+            # Register the expert weights.
+            self.expert_weights.append(layer.get_expert_weights())
+            layer.set_eplb_state(
+                moe_layer_idx=layer_idx,
+                expert_load_view=expert_load_view,
+                logical_to_physical_map=logical_to_physical_map,
+                logical_replica_count=logical_replica_count,
+            )
+
+    def embed_input_ids(self, input_ids: torch.Tensor) -> torch.Tensor:
+        return self.model.embed_input_ids(input_ids)
+
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        intermediate_tensors: IntermediateTensors | None = None,
+        inputs_embeds: torch.Tensor | None = None,
+    ) -> torch.Tensor | IntermediateTensors:
+        hidden_states = self.model(
+            input_ids, positions, intermediate_tensors, inputs_embeds
+        )
+        return hidden_states
+
+    def compute_logits(self, hidden_states: torch.Tensor) -> torch.Tensor | None:
+        logits = self.logits_processor(self.lm_head, hidden_states)
+        return logits
+
+    def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
+        loader = AutoWeightsLoader(self)
+        return loader.load_weights(weights, mapper=self.hf_to_vllm_mapper)
+
+    def get_expert_mapping(self) -> list[tuple[str, str, int, str]]:
+        return self.model.get_expert_mapping()
diff --git a/vllm/model_executor/models/registry.py b/vllm/model_executor/models/registry.py
index 4af8fa01f562b..6e9790de49bfa 100644
--- a/vllm/model_executor/models/registry.py
+++ b/vllm/model_executor/models/registry.py
@@ -56,6 +56,7 @@ logger = init_logger(__name__)
 
 _TEXT_GENERATION_MODELS = {
     # [Decoder-only]
+    "AfmoeForCausalLM": ("afmoe", "AfmoeForCausalLM"),
     "ApertusForCausalLM": ("apertus", "ApertusForCausalLM"),
     "AquilaModel": ("llama", "LlamaForCausalLM"),
     "AquilaForCausalLM": ("llama", "LlamaForCausalLM"),  # AquilaChat2
diff --git a/vllm/transformers_utils/config.py b/vllm/transformers_utils/config.py
index b7418cfb7cc75..49250e071eab2 100644
--- a/vllm/transformers_utils/config.py
+++ b/vllm/transformers_utils/config.py
@@ -77,6 +77,7 @@ class LazyConfigDict(dict):
 
 
 _CONFIG_REGISTRY: dict[str, type[PretrainedConfig]] = LazyConfigDict(
+    afmoe="AfmoeConfig",
     chatglm="ChatGLMConfig",
     deepseek_vl_v2="DeepseekVLV2Config",
     deepseek_v32=DeepseekV3Config,
diff --git a/vllm/transformers_utils/configs/__init__.py b/vllm/transformers_utils/configs/__init__.py
index ac612b255143c..dcae05a15fec3 100644
--- a/vllm/transformers_utils/configs/__init__.py
+++ b/vllm/transformers_utils/configs/__init__.py
@@ -7,6 +7,7 @@ Model configs may be defined in this directory for the following reasons:
 - There is a need to override the existing config to support vLLM.
 """
 
+from vllm.transformers_utils.configs.afmoe import AfmoeConfig
 from vllm.transformers_utils.configs.chatglm import ChatGLMConfig
 from vllm.transformers_utils.configs.deepseek_vl2 import DeepseekVLV2Config
 from vllm.transformers_utils.configs.dotsocr import DotsOCRConfig
@@ -40,6 +41,7 @@ from vllm.transformers_utils.configs.step3_vl import (
 from vllm.transformers_utils.configs.ultravox import UltravoxConfig
 
 __all__ = [
+    "AfmoeConfig",
     "ChatGLMConfig",
     "DeepseekVLV2Config",
     "DotsOCRConfig",
diff --git a/vllm/transformers_utils/configs/afmoe.py b/vllm/transformers_utils/configs/afmoe.py
new file mode 100644
index 0000000000000..9b634fd037a33
--- /dev/null
+++ b/vllm/transformers_utils/configs/afmoe.py
@@ -0,0 +1,84 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from transformers.configuration_utils import PretrainedConfig
+
+
+class AfmoeConfig(PretrainedConfig):
+    model_type = "afmoe"
+
+    def __init__(
+        self,
+        vocab_size: int = 200_192,
+        hidden_size: int = 2048,
+        intermediate_size: int = 6144,
+        moe_intermediate_size: int = 1408,
+        num_hidden_layers: int = 32,
+        num_dense_layers: int = 1,
+        num_attention_heads: int = 16,
+        num_key_value_heads: int | None = None,
+        head_dim: int = 128,
+        hidden_act: str = "silu",
+        max_position_embeddings: int = 131072,
+        initializer_range: float = 0.02,
+        rms_norm_eps: float = 1e-5,
+        use_cache: bool = True,
+        tie_word_embeddings: bool = False,
+        rope_theta: float = 10000.0,
+        rope_scaling: dict | None = None,
+        num_experts: int = 64,
+        num_experts_per_tok: int = 6,
+        num_shared_experts: int = 2,
+        num_expert_groups: int = 1,
+        num_limited_groups: int = 1,
+        score_func: str = "sigmoid",
+        route_norm: bool = True,
+        route_scale: float = 1.0,
+        global_attn_every_n_layers: int = 4,
+        sliding_window: int = 2048,
+        layer_types: list[str] | None = None,
+        attention_dropout: float = 0.0,
+        mup_enabled: bool = False,
+        n_group: int = 1,
+        topk_group: int = 1,
+        **kwargs,
+    ):
+        self.vocab_size = vocab_size
+        self.hidden_size = hidden_size
+        self.intermediate_size = intermediate_size
+        self.num_hidden_layers = num_hidden_layers
+        self.num_dense_layers = num_dense_layers
+        self.num_attention_heads = num_attention_heads
+        self.num_key_value_heads = num_key_value_heads or num_attention_heads
+        self.head_dim = head_dim
+        self.hidden_act = hidden_act
+        self.max_position_embeddings = max_position_embeddings
+        self.initializer_range = initializer_range
+        self.rms_norm_eps = rms_norm_eps
+        self.use_cache = use_cache
+        self.rope_theta = rope_theta
+        self.rope_scaling = rope_scaling
+
+        self.moe_intermediate_size = moe_intermediate_size
+        self.num_experts = num_experts
+        self.num_experts_per_tok = num_experts_per_tok
+        self.num_shared_experts = num_shared_experts
+        self.num_expert_groups = num_expert_groups
+        self.num_limited_groups = num_limited_groups
+        self.score_func = score_func
+        self.route_norm = route_norm
+        self.route_scale = route_scale
+
+        self.global_attn_every_n_layers = global_attn_every_n_layers
+        self.sliding_window = sliding_window
+        self.layer_types = layer_types
+        self.attention_dropout = attention_dropout
+
+        self.mup_enabled = mup_enabled
+        self.n_group = n_group
+        self.topk_group = topk_group
+
+        super().__init__(tie_word_embeddings=tie_word_embeddings, **kwargs)
+
+
+__all__ = ["AfmoeConfig"]

From 61485844fc5190721b1edf6bed9aa4d5567b70e0 Mon Sep 17 00:00:00 2001
From: Bangsheng Tang <5318912+bangshengtang@users.noreply.github.com>
Date: Mon, 17 Nov 2025 15:22:11 -0800
Subject: [PATCH 534/976] [BugFix] Corner case that could cause out-of-sync
 with external launcher mode and dp >1 (#28774)

---
 vllm/v1/worker/gpu_model_runner.py | 12 ++++++++++++
 1 file changed, 12 insertions(+)

diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index 2a8ff746f1125..0102ca4739ad5 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -2663,6 +2663,18 @@ class GPUModelRunner(
                         return make_empty_encoder_model_runner_output(scheduler_output)
 
                 if not num_scheduled_tokens:
+                    if (
+                        self.parallel_config.distributed_executor_backend
+                        == "external_launcher"
+                        and self.parallel_config.data_parallel_size > 1
+                    ):
+                        # this is a corner case when both external launcher
+                        # and DP are enabled, num_scheduled_tokens could be
+                        # 0, and has_unfinished_requests in the outer loop
+                        # returns True. before returning early here we call
+                        # dummy run to ensure coordinate_batch_across_dp
+                        # is called into to avoid out of sync issues.
+                        self._dummy_run(1)
                     if not has_kv_transfer_group():
                         # Return empty ModelRunnerOutput if no work to do.
                         return EMPTY_MODEL_RUNNER_OUTPUT

From 552cac95b5da283844a9994b94d4b1308a0a0565 Mon Sep 17 00:00:00 2001
From: Zhuohan Li <zhuohan123@gmail.com>
Date: Mon, 17 Nov 2025 15:32:22 -0800
Subject: [PATCH 535/976] [Misc] Fix wrong comment in scheduler (#28880)

Signed-off-by: Zhuohan Li <zhuohan123@gmail.com>
---
 vllm/v1/core/sched/scheduler.py | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/vllm/v1/core/sched/scheduler.py b/vllm/v1/core/sched/scheduler.py
index 61640e856ac1c..4323141c435b7 100644
--- a/vllm/v1/core/sched/scheduler.py
+++ b/vllm/v1/core/sched/scheduler.py
@@ -472,9 +472,9 @@ class Scheduler(SchedulerInterface):
                     num_computed_tokens = (
                         num_new_local_computed_tokens + num_external_computed_tokens
                     )
-                # KVTransfer: WAITING reqs have num_computed_tokens > 0
-                # after async KV recvs are completed.
                 else:
+                    # KVTransfer: WAITING reqs have num_computed_tokens > 0
+                    # after async KV recvs are completed.
                     new_computed_blocks = self.kv_cache_manager.empty_kv_cache_blocks
                     num_new_local_computed_tokens = 0
                     num_computed_tokens = request.num_computed_tokens
@@ -483,12 +483,12 @@ class Scheduler(SchedulerInterface):
                 external_load_encoder_input = []
                 new_encoder_compute_budget = encoder_compute_budget
 
-                # KVTransfer: loading remote KV, do not allocate for new work.
                 if load_kv_async:
+                    # KVTransfer: loading remote KV, do not allocate for new work.
                     assert num_external_computed_tokens > 0
                     num_new_tokens = 0
-                # Number of tokens to be scheduled.
                 else:
+                    # Number of tokens to be scheduled.
                     # We use `request.num_tokens` instead of
                     # `request.num_prompt_tokens` to consider the resumed
                     # requests, which have output tokens.

From b6e04390d3ea5ebc79ac70d1b76d638c56fa8ce2 Mon Sep 17 00:00:00 2001
From: Benjamin Bartels <benjamin@bartels.dev>
Date: Tue, 18 Nov 2025 03:13:25 +0000
Subject: [PATCH 536/976] [Bugfix] Fix Kimi-K2 tool parser concatenated tool
 calls parsing (#28831)

Signed-off-by: Thomas Mao <yiyeguhu@gmail.com>
Signed-off-by: bbartels <benjamin@bartels.dev>
Co-authored-by: Thomas Mao <yiyeguhu@gmail.com>
Co-authored-by: Chauncey <chaunceyjiang@gmail.com>
---
 tests/tool_use/test_kimi_k2_tool_parser.py    | 122 ++++++++++++++++++
 .../tool_parsers/kimi_k2_tool_parser.py       |   3 +-
 2 files changed, 124 insertions(+), 1 deletion(-)

diff --git a/tests/tool_use/test_kimi_k2_tool_parser.py b/tests/tool_use/test_kimi_k2_tool_parser.py
index 33dabbc7e7b91..3a48b5206141d 100644
--- a/tests/tool_use/test_kimi_k2_tool_parser.py
+++ b/tests/tool_use/test_kimi_k2_tool_parser.py
@@ -60,6 +60,11 @@ def test_extract_tool_calls_no_tools(kimi_k2_tool_parser):
     ids=[
         "tool_call_with_content_before",
         "multi_tool_call_with_content_before",
+        "concatenated_tool_calls_bug_fix",
+        "three_concatenated_tool_calls",
+        "mixed_spacing_tool_calls",
+        "angle_brackets_in_json",
+        "newlines_in_json",
     ],
     argnames=["model_output", "expected_tool_calls", "expected_content"],
     argvalues=[
@@ -114,6 +119,123 @@ functions.get_weather:1 <|tool_call_argument_begin|> {"city": "Shanghai"} <|tool
             ],
             "I'll help you check the weather. ",
         ),
+        (
+            """I'll get the weather and news for LA today. First, let me get the weather using Los Angeles coordinates, and then get the latest news. <|tool_calls_section_begin|><|tool_call_begin|>functions.get_weather:0<|tool_call_argument_begin|>{"latitude": 34.0522, "longitude": -118.2437}<|tool_call_end|><|tool_call_begin|>functions.get_news:1<|tool_call_argument_begin|>{"content": "Los Angeles today"}<|tool_call_end|><|tool_calls_section_end|>""",
+            [
+                ToolCall(
+                    id="functions.get_weather:0",
+                    function=FunctionCall(
+                        name="get_weather",
+                        arguments=json.dumps(
+                            {"latitude": 34.0522, "longitude": -118.2437}
+                        ),
+                    ),
+                    type="function",
+                ),
+                ToolCall(
+                    id="functions.get_news:1",
+                    function=FunctionCall(
+                        name="get_news",
+                        arguments=json.dumps({"content": "Los Angeles today"}),
+                    ),
+                    type="function",
+                ),
+            ],
+            "I'll get the weather and news for LA today. First, let me get the weather using Los Angeles coordinates, and then get the latest news. ",
+        ),
+        (
+            """I'll help you with multiple tasks. <|tool_calls_section_begin|><|tool_call_begin|>functions.get_weather:0<|tool_call_argument_begin|>{"city": "New York"}<|tool_call_end|><|tool_call_begin|>functions.get_news:1<|tool_call_argument_begin|>{"topic": "technology"}<|tool_call_end|><|tool_call_begin|>functions.send_email:2<|tool_call_argument_begin|>{"to": "user@example.com", "subject": "Daily Update"}<|tool_call_end|><|tool_calls_section_end|>""",
+            [
+                ToolCall(
+                    id="functions.get_weather:0",
+                    function=FunctionCall(
+                        name="get_weather",
+                        arguments=json.dumps({"city": "New York"}),
+                    ),
+                    type="function",
+                ),
+                ToolCall(
+                    id="functions.get_news:1",
+                    function=FunctionCall(
+                        name="get_news",
+                        arguments=json.dumps({"topic": "technology"}),
+                    ),
+                    type="function",
+                ),
+                ToolCall(
+                    id="functions.send_email:2",
+                    function=FunctionCall(
+                        name="send_email",
+                        arguments=json.dumps(
+                            {"to": "user@example.com", "subject": "Daily Update"}
+                        ),
+                    ),
+                    type="function",
+                ),
+            ],
+            "I'll help you with multiple tasks. ",
+        ),
+        (
+            """Mixed spacing test. <|tool_calls_section_begin|> <|tool_call_begin|> functions.test:0 <|tool_call_argument_begin|> {} <|tool_call_end|><|tool_call_begin|>functions.test2:1<|tool_call_argument_begin|>{}<|tool_call_end|> <|tool_calls_section_end|>""",
+            [
+                ToolCall(
+                    id="functions.test:0",
+                    function=FunctionCall(
+                        name="test",
+                        arguments=json.dumps({}),
+                    ),
+                    type="function",
+                ),
+                ToolCall(
+                    id="functions.test2:1",
+                    function=FunctionCall(
+                        name="test2",
+                        arguments=json.dumps({}),
+                    ),
+                    type="function",
+                ),
+            ],
+            "Mixed spacing test. ",
+        ),
+        (
+            """I need to process HTML content. <|tool_calls_section_begin|><|tool_call_begin|>functions.process_html:0<|tool_call_argument_begin|>{"html": "<div>content</div>", "text": "normal text"}<|tool_call_end|><|tool_calls_section_end|>""",
+            [
+                ToolCall(
+                    id="functions.process_html:0",
+                    function=FunctionCall(
+                        name="process_html",
+                        arguments=json.dumps(
+                            {"html": "<div>content</div>", "text": "normal text"}
+                        ),
+                    ),
+                    type="function",
+                )
+            ],
+            "I need to process HTML content. ",
+        ),
+        (
+            """I need to process formatted JSON. <|tool_calls_section_begin|><|tool_call_begin|>functions.process_data:0<|tool_call_argument_begin|>{
+  "name": "test",
+  "value": 123,
+  "nested": {
+    "key": "value"
+  }
+}<|tool_call_end|><|tool_calls_section_end|>""",
+            [
+                ToolCall(
+                    id="functions.process_data:0",
+                    function=FunctionCall(
+                        name="process_data",
+                        arguments=json.dumps(
+                            {"name": "test", "value": 123, "nested": {"key": "value"}},
+                            indent=2,
+                        ),
+                    ),
+                    type="function",
+                )
+            ],
+            "I need to process formatted JSON. ",
+        ),
     ],
 )
 def test_extract_tool_calls(
diff --git a/vllm/entrypoints/openai/tool_parsers/kimi_k2_tool_parser.py b/vllm/entrypoints/openai/tool_parsers/kimi_k2_tool_parser.py
index a84c9e4547168..2b84c60a3b841 100644
--- a/vllm/entrypoints/openai/tool_parsers/kimi_k2_tool_parser.py
+++ b/vllm/entrypoints/openai/tool_parsers/kimi_k2_tool_parser.py
@@ -60,7 +60,8 @@ class KimiK2ToolParser(ToolParser):
         self.tool_call_end_token: str = "<|tool_call_end|>"
 
         self.tool_call_regex = re.compile(
-            r"<\|tool_call_begin\|>\s*(?P<tool_call_id>.+:\d+)\s*<\|tool_call_argument_begin\|>\s*(?P<function_arguments>.*?)\s*<\|tool_call_end\|>"
+            r"<\|tool_call_begin\|>\s*(?P<tool_call_id>[^<]+:\d+)\s*<\|tool_call_argument_begin\|>\s*(?P<function_arguments>(?:(?!<\|tool_call_begin\|>).)*?)\s*<\|tool_call_end\|>",
+            re.DOTALL,
         )
 
         self.stream_tool_call_portion_regex = re.compile(

From 88ab591f0b20c28cb167fd65d10ccade99d873ae Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Mon, 17 Nov 2025 22:16:03 -0500
Subject: [PATCH 537/976] Run macos smoke test workflow on main commit (#28752)

Signed-off-by: Michael Goin <mgoin64@gmail.com>
Signed-off-by: mgoin <mgoin64@gmail.com>
---
 .github/workflows/macos-smoke-test.yml | 15 ++++++++++-----
 requirements/cpu-build.txt             |  5 +++--
 2 files changed, 13 insertions(+), 7 deletions(-)

diff --git a/.github/workflows/macos-smoke-test.yml b/.github/workflows/macos-smoke-test.yml
index 8d40aa587bf00..42b05ecd5ac06 100644
--- a/.github/workflows/macos-smoke-test.yml
+++ b/.github/workflows/macos-smoke-test.yml
@@ -1,6 +1,9 @@
 name: macOS Apple Silicon Smoke Test
 
 on:
+  push:
+    branches:
+      - main
   workflow_dispatch:  # Manual trigger
 
 jobs:
@@ -19,13 +22,15 @@ jobs:
             pyproject.toml
           python-version: '3.12'
 
-      - name: Install dependencies
+      - name: Create virtual environment
         run: |
-          uv pip install -r requirements/cpu-build.txt
-          uv pip install -r requirements/cpu.txt
+          uv venv
+          echo "$GITHUB_WORKSPACE/.venv/bin" >> "$GITHUB_PATH"
 
-      - name: Build vLLM
-        run: uv pip install -v -e .
+      - name: Install dependencies and build vLLM
+        run: |
+          uv pip install -r requirements/cpu.txt --index-strategy unsafe-best-match
+          uv pip install -e .
         env:
           CMAKE_BUILD_PARALLEL_LEVEL: 4
 
diff --git a/requirements/cpu-build.txt b/requirements/cpu-build.txt
index 331d02be6621e..81d429a5e5f8d 100644
--- a/requirements/cpu-build.txt
+++ b/requirements/cpu-build.txt
@@ -4,8 +4,9 @@ packaging>=24.2
 setuptools>=77.0.3,<81.0.0
 setuptools-scm>=8
 --extra-index-url https://download.pytorch.org/whl/cpu
-torch==2.8.0+cpu; platform_machine == "x86_64"
-torch==2.8.0; platform_machine == "ppc64le" or platform_machine == "aarch64" or platform_system == "Darwin"
+torch==2.8.0+cpu; platform_machine == "x86_64" or platform_machine == "s390x"
+torch==2.9.0; platform_system == "Darwin"
+torch==2.8.0; platform_machine == "ppc64le" or platform_machine == "aarch64"
 scons; platform_machine == "aarch64"    # needed to build Arm Compute Library (ACL)
 wheel
 jinja2>=3.1.6

From d0a73620cc85a840323d25b28772efac04c006e2 Mon Sep 17 00:00:00 2001
From: xuebwang-amd <xuebwang@amd.com>
Date: Tue, 18 Nov 2025 11:16:45 +0800
Subject: [PATCH 538/976] [ROCm][Quantization] add apply_vllm_mapper in quark
 config for models like gpt-oss (#28638)

Signed-off-by: xuebwang-amd <xuebwang@amd.com>
Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
---
 .../layers/quantization/quark/quark.py        | 35 ++++++++++++++++---
 1 file changed, 30 insertions(+), 5 deletions(-)

diff --git a/vllm/model_executor/layers/quantization/quark/quark.py b/vllm/model_executor/layers/quantization/quark/quark.py
index 1bb698faf46df..f59e5e2a0af7a 100644
--- a/vllm/model_executor/layers/quantization/quark/quark.py
+++ b/vllm/model_executor/layers/quantization/quark/quark.py
@@ -32,6 +32,7 @@ from vllm.model_executor.layers.quantization.quark.utils import (
     deep_compare,
     should_ignore_layer,
 )
+from vllm.model_executor.models.utils import WeightsMapper
 from vllm.platforms import current_platform
 
 if TYPE_CHECKING:
@@ -57,7 +58,6 @@ class QuarkConfig(QuantizationConfig):
         self.kv_cache_group = kv_cache_group
         self.kv_cache_config = kv_cache_config
         self.pack_method = pack_method
-        self.ignore: list[str] = cast(list[str], self.quant_config.get("exclude", []))
 
     def get_linear_method(self) -> "QuarkLinearMethod":
         return QuarkLinearMethod(self)
@@ -72,14 +72,42 @@ class QuarkConfig(QuantizationConfig):
     def get_name(self) -> QuantizationMethods:
         return "quark"
 
+    def apply_vllm_mapper(  # noqa: B027
+        self, hf_to_vllm_mapper: "WeightsMapper"
+    ):
+        """
+        Interface for models to update module names referenced in
+        quantization configs in order to reflect the vllm model structure
+
+        :param hf_to_vllm_mapper: maps from hf model structure (the assumed
+            structure of the qconfig) to vllm model structure
+        """
+        quant_config_with_hf_to_vllm_mapper = {}
+
+        for k, v in self.quant_config.items():
+            if isinstance(v, list):
+                quant_config_with_hf_to_vllm_mapper[k] = hf_to_vllm_mapper.apply_list(v)
+            elif isinstance(v, dict):
+                quant_config_with_hf_to_vllm_mapper[k] = hf_to_vllm_mapper.apply_dict(v)
+            else:
+                if isinstance(v, str):
+                    mapped_v_list = hf_to_vllm_mapper.apply_list([v])
+                    if mapped_v_list:
+                        quant_config_with_hf_to_vllm_mapper[k] = mapped_v_list[0]
+                else:
+                    quant_config_with_hf_to_vllm_mapper[k] = v
+
+        self.quant_config = quant_config_with_hf_to_vllm_mapper
+
     def get_quant_method(
         self, layer: torch.nn.Module, prefix: str
     ) -> Optional["QuantizeMethodBase"]:
         from vllm.attention.layer import Attention  # Avoid circular import
 
         # Check if the layer is skipped for quantization.
+        exclude_layers = cast(list[str], self.quant_config.get("exclude"))
         if should_ignore_layer(
-            prefix, ignore=self.ignore, fused_mapping=self.packed_modules_mapping
+            prefix, ignore=exclude_layers, fused_mapping=self.packed_modules_mapping
         ):
             return UnquantizedLinearMethod()
         if isinstance(layer, LinearBase):
@@ -93,9 +121,6 @@ class QuarkConfig(QuantizationConfig):
             return QuarkMoEMethod.get_moe_method(self, module=layer, layer_name=prefix)
         return None
 
-    def apply_vllm_mapper(self, hf_to_vllm_mapper: "WeightsMapper"):
-        self.ignore = hf_to_vllm_mapper.apply_list(self.ignore)
-
     @classmethod
     def from_config(cls, config: dict[str, Any]) -> "QuarkConfig":
         export_config = config.get("export")

From 3ddcf4601171797b6e63eda6b5956136441b3408 Mon Sep 17 00:00:00 2001
From: Wentao Ye <44945378+yewentao256@users.noreply.github.com>
Date: Mon, 17 Nov 2025 23:29:29 -0500
Subject: [PATCH 539/976] [Refactor] Remove Unused Func in Batch Invariant
 (#28881)

Signed-off-by: yewentao256 <zhyanwentao@126.com>
---
 vllm/model_executor/layers/batch_invariant.py | 73 -------------------
 1 file changed, 73 deletions(-)

diff --git a/vllm/model_executor/layers/batch_invariant.py b/vllm/model_executor/layers/batch_invariant.py
index 746a543ab827d..7920d117de5e0 100644
--- a/vllm/model_executor/layers/batch_invariant.py
+++ b/vllm/model_executor/layers/batch_invariant.py
@@ -1,8 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
-import contextlib
 import os
-from collections import namedtuple
 from collections.abc import Callable
 from functools import cache
 from typing import Any
@@ -725,10 +723,6 @@ _original_cublas_workspace_cfg = None
 _original_cublaslt_workspace_size = None
 
 
-def is_batch_invariant_mode_enabled():
-    return _batch_invariant_MODE
-
-
 def enable_batch_invariant_mode():
     global _batch_invariant_MODE, _batch_invariant_LIB, _original_torch_bmm
     global _original_fp16_reduction_precision, _original_bf16_reduction_precision
@@ -791,73 +785,6 @@ def enable_batch_invariant_mode():
     torch.backends.cuda.preferred_blas_library(backend="cublaslt")
 
 
-def disable_batch_invariant_mode():
-    global _batch_invariant_MODE, _batch_invariant_LIB, _original_torch_bmm
-    global _original_fp16_reduction_precision, _original_bf16_reduction_precision
-    global _original_cublas_workspace_cfg, _original_cublaslt_workspace_size
-    if not _batch_invariant_MODE:
-        return
-
-    if _batch_invariant_LIB is not None:
-        _batch_invariant_LIB._destroy()
-    if _original_torch_bmm is not None:
-        torch.bmm = _original_torch_bmm
-        _original_torch_bmm = None
-
-    if _original_bf16_reduction_precision is not None:
-        torch.backends.cuda.matmul.allow_bf16_reduced_precision_reduction = (
-            _original_bf16_reduction_precision
-        )
-        _original_bf16_reduction_precision = None
-    if _original_fp16_reduction_precision is not None:
-        torch.backends.cuda.matmul.allow_fp16_reduced_precision_reduction = (
-            _original_fp16_reduction_precision
-        )
-        _original_fp16_reduction_precision = None
-
-    torch.backends.cuda.preferred_blas_library(backend="default")
-
-    if not is_torch_equal_or_newer("2.10.0.dev"):
-        # Set cublas env vars to previous results. If previous results are None,
-        # that means the env vars were not set, so we should remove them.
-        if _original_cublas_workspace_cfg:
-            os.environ["CUBLAS_WORKSPACE_CONFIG"] = _original_cublas_workspace_cfg
-        elif "CUBLAS_WORKSPACE_CONFIG" in os.environ:
-            del os.environ["CUBLAS_WORKSPACE_CONFIG"]
-
-        if _original_cublaslt_workspace_size:
-            os.environ["CUBLASLT_WORKSPACE_SIZE"] = _original_cublaslt_workspace_size
-        elif "CUBLASLT_WORKSPACE_SIZE" in os.environ:
-            del os.environ["CUBLASLT_WORKSPACE_SIZE"]
-
-    _original_cublas_workspace_cfg = None
-    _original_cublaslt_workspace_size = None
-
-    _batch_invariant_MODE = False
-    _batch_invariant_LIB = None
-
-
-@contextlib.contextmanager
-def set_batch_invariant_mode(enabled: bool = True):
-    global _batch_invariant_MODE, _batch_invariant_LIB
-    old_data = (_batch_invariant_MODE, _batch_invariant_LIB)
-    if enabled:
-        enable_batch_invariant_mode()
-    else:
-        disable_batch_invariant_mode()
-    yield
-    if _batch_invariant_LIB is not None:
-        _batch_invariant_LIB._destroy()
-    _batch_invariant_MODE, _batch_invariant_LIB = old_data
-
-
-AttentionBlockSize = namedtuple("AttentionBlockSize", ["block_m", "block_n"])
-
-
-def get_batch_invariant_attention_block_size() -> AttentionBlockSize:
-    return AttentionBlockSize(block_m=16, block_n=16)
-
-
 @cache
 def vllm_is_batch_invariant():
     env_key = "VLLM_BATCH_INVARIANT"

From bf9e1e8767fb4d1143b7e042ed940b84ef031c66 Mon Sep 17 00:00:00 2001
From: Cyrus Leung <tlleungac@connect.ust.hk>
Date: Tue, 18 Nov 2025 12:30:29 +0800
Subject: [PATCH 540/976] [Bugfix] Fix wrong CLI defaults for dynamic
 `SchedulerConfig` fields (#28872)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 .../openai/test_enable_force_include_usage.py  |  4 ++--
 vllm/engine/arg_utils.py                       | 18 +++++++++++++++---
 2 files changed, 17 insertions(+), 5 deletions(-)

diff --git a/tests/entrypoints/openai/test_enable_force_include_usage.py b/tests/entrypoints/openai/test_enable_force_include_usage.py
index 3ddf2308eb1d5..9d527c45c1fae 100644
--- a/tests/entrypoints/openai/test_enable_force_include_usage.py
+++ b/tests/entrypoints/openai/test_enable_force_include_usage.py
@@ -17,7 +17,7 @@ def chat_server_with_force_include_usage(request):  # noqa: F811
         "128",
         "--enforce-eager",
         "--max-num-seqs",
-        "1",
+        "4",
         "--enable-force-include-usage",
         "--port",
         "55857",
@@ -78,7 +78,7 @@ def transcription_server_with_force_include_usage():
         "--dtype",
         "bfloat16",
         "--max-num-seqs",
-        "1",
+        "4",
         "--enforce-eager",
         "--enable-force-include-usage",
         "--gpu-memory-utilization",
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index d011dfdbfbb2e..ab6e5e594c239 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -1046,10 +1046,18 @@ class EngineArgs:
             description=SchedulerConfig.__doc__,
         )
         scheduler_group.add_argument(
-            "--max-num-batched-tokens", **scheduler_kwargs["max_num_batched_tokens"]
+            "--max-num-batched-tokens",
+            **{
+                **scheduler_kwargs["max_num_batched_tokens"],
+                "default": None,
+            },
         )
         scheduler_group.add_argument(
-            "--max-num-seqs", **scheduler_kwargs["max_num_seqs"]
+            "--max-num-seqs",
+            **{
+                **scheduler_kwargs["max_num_seqs"],
+                "default": None,
+            },
         )
         scheduler_group.add_argument(
             "--max-num-partial-prefills", **scheduler_kwargs["max_num_partial_prefills"]
@@ -1071,7 +1079,11 @@ class EngineArgs:
             "--scheduling-policy", **scheduler_kwargs["policy"]
         )
         scheduler_group.add_argument(
-            "--enable-chunked-prefill", **scheduler_kwargs["enable_chunked_prefill"]
+            "--enable-chunked-prefill",
+            **{
+                **scheduler_kwargs["enable_chunked_prefill"],
+                "default": None,
+            },
         )
         scheduler_group.add_argument(
             "--disable-chunked-mm-input", **scheduler_kwargs["disable_chunked_mm_input"]

From 083cf326dc9ce92aae6b85fcef678a28e867afe9 Mon Sep 17 00:00:00 2001
From: Didier Durand <2927957+didier-durand@users.noreply.github.com>
Date: Tue, 18 Nov 2025 05:32:14 +0100
Subject: [PATCH 541/976] [Doc]: fix typos in various files (#28863)

Signed-off-by: Didier Durand <durand.didier@gmail.com>
---
 docs/contributing/profiling.md                | 2 +-
 docs/design/io_processor_plugins.md           | 2 +-
 docs/design/logits_processors.md              | 4 ++--
 docs/features/disagg_prefill.md               | 2 +-
 docs/features/lora.md                         | 2 +-
 vllm/lora/ops/triton_ops/fused_moe_lora_op.py | 2 +-
 6 files changed, 7 insertions(+), 7 deletions(-)

diff --git a/docs/contributing/profiling.md b/docs/contributing/profiling.md
index 7941b1f49ee8b..7634cc0859edf 100644
--- a/docs/contributing/profiling.md
+++ b/docs/contributing/profiling.md
@@ -224,6 +224,6 @@ snakeviz expensive_function.prof
 
 Leverage VLLM_GC_DEBUG environment variable to debug GC costs.
 
-- VLLM_GC_DEBUG=1: enable GC debugger with gc.collect elpased times
+- VLLM_GC_DEBUG=1: enable GC debugger with gc.collect elapsed times
 - VLLM_GC_DEBUG='{"top_objects":5}': enable GC debugger to log top 5
   collected objects for each gc.collect
diff --git a/docs/design/io_processor_plugins.md b/docs/design/io_processor_plugins.md
index 2f4b17f191a5d..91ab4deae71df 100644
--- a/docs/design/io_processor_plugins.md
+++ b/docs/design/io_processor_plugins.md
@@ -1,6 +1,6 @@
 # IO Processor Plugins
 
-IO Processor plugins are a feature that allows pre and post processing of the model input and output for pooling models. The idea is that users are allowed to pass a custom input to vLLM that is converted into one or more model prompts and fed to the model `encode` method. One potential use-case of such plugins is that of using vLLM for generating multi-modal data. Say users feed an image to vLLM and get an image in output.
+IO Processor plugins are a feature that allows pre- and post-processing of the model input and output for pooling models. The idea is that users are allowed to pass a custom input to vLLM that is converted into one or more model prompts and fed to the model `encode` method. One potential use-case of such plugins is that of using vLLM for generating multi-modal data. Say users feed an image to vLLM and get an image in output.
 
 When performing an inference with IO Processor plugins, the prompt type is defined by the plugin and the same is valid for the final request output. vLLM does not perform any validation of input/output data, and it is up to the plugin to ensure the correct data is being fed to the model and returned to the user. As of now these plugins support only pooling models and can be triggered via the `encode` method in `LLM` and `AsyncLLM`, or in online serving mode via the `/pooling` endpoint.
 
diff --git a/docs/design/logits_processors.md b/docs/design/logits_processors.md
index acf7fc245462c..8eadeb386fcf2 100644
--- a/docs/design/logits_processors.md
+++ b/docs/design/logits_processors.md
@@ -411,7 +411,7 @@ Logits processor `update_state()` implementations should assume the following mo
 
         * **"Condense" the batch to be contiguous:** starting with the lowest-index empty slot (which was caused by a Remove), apply a Unidirectional Move from the current highest non-empty slot in the batch to fill the empty slot. Proceed with additional Unidirectional Move operations in order of increasing empty slot destination index and decreasing non-empty slot source index until the batch is contiguous
 
-        * **Shrink the batch:** a side-effect of condensing the batch is that empty slots resulting from Remove operations are grouped in a contiguous block at the end of the batch array. Thus, after condensing, update `BatchUpdate.batch_size` to reflect the number of non-empty slots
+        * **Shrink the batch:** a side effect of condensing the batch is that empty slots resulting from Remove operations are grouped in a contiguous block at the end of the batch array. Thus, after condensing, update `BatchUpdate.batch_size` to reflect the number of non-empty slots
 
 5. Reorder the batch for improved efficiency. Depending on the attention backend implementation and the current characteristics of the batch, zero or more Swap Move operations may be applied to reorder the batch
 
@@ -548,7 +548,7 @@ Built-in logits processors are always loaded when the vLLM engine starts. See th
 
 Review these logits processor implementations for guidance on writing built-in logits processors.
 
-Additionally, the following logits-processor-like functionalities are hard-coded into the sampler and do not yet utilize the programming model described above. Most of them will be refactored to use the aforemented logits processor programming model.
+Additionally, the following logits-processor-like functionalities are hard-coded into the sampler and do not yet utilize the programming model described above. Most of them will be refactored to use the aforementioned logits processor programming model.
 
 * Allowed token IDs
 
diff --git a/docs/features/disagg_prefill.md b/docs/features/disagg_prefill.md
index 3e8cb87e37d33..fd4f249f2ec6c 100644
--- a/docs/features/disagg_prefill.md
+++ b/docs/features/disagg_prefill.md
@@ -91,6 +91,6 @@ Disaggregated prefilling is highly related to infrastructure, so vLLM relies on
 
 We recommend three ways of implementations:
 
-- **Fully-customized connector**: Implement your own `Connector`, and call third-party libraries to send and receive KV caches, and many many more (like editing vLLM's model input to perform customized prefilling, etc). This approach gives you the most control, but at the risk of being incompatible with future vLLM versions.
+- **Fully-customized connector**: Implement your own `Connector`, and call third-party libraries to send and receive KV caches, and many many more (like editing vLLM's model input to perform customized prefilling, etc.). This approach gives you the most control, but at the risk of being incompatible with future vLLM versions.
 - **Database-like connector**: Implement your own `LookupBuffer` and support the `insert` and `drop_select` APIs just like SQL.
 - **Distributed P2P connector**: Implement your own `Pipe` and support the `send_tensor` and `recv_tensor` APIs, just like `torch.distributed`.
diff --git a/docs/features/lora.md b/docs/features/lora.md
index 3a85b52d89b68..d42a3cef76bde 100644
--- a/docs/features/lora.md
+++ b/docs/features/lora.md
@@ -4,7 +4,7 @@ This document shows you how to use [LoRA adapters](https://arxiv.org/abs/2106.09
 
 LoRA adapters can be used with any vLLM model that implements [SupportsLoRA][vllm.model_executor.models.interfaces.SupportsLoRA].
 
-Adapters can be efficiently served on a per request basis with minimal overhead. First we download the adapter(s) and save
+Adapters can be efficiently served on a per-request basis with minimal overhead. First we download the adapter(s) and save
 them locally with
 
 ```python
diff --git a/vllm/lora/ops/triton_ops/fused_moe_lora_op.py b/vllm/lora/ops/triton_ops/fused_moe_lora_op.py
index 893972144e99a..e2dd47dbb4e64 100644
--- a/vllm/lora/ops/triton_ops/fused_moe_lora_op.py
+++ b/vllm/lora/ops/triton_ops/fused_moe_lora_op.py
@@ -154,7 +154,7 @@ def _fused_moe_lora_kernel(
         k_remaining = K - k * (BLOCK_SIZE_K * SPLIT_K)
         # pre-fetch lora weight
         b = tl.load(b_ptrs, mask=offs_k[:, None] < k_remaining, other=0.0)
-        # GDC wait waits for ALL programs in the the prior kernel to complete
+        # GDC wait waits for ALL programs in the prior kernel to complete
         # before continuing.
         if USE_GDC and not IS_PRIMARY:
             tl.extra.cuda.gdc_wait()

From 0168f69e50898fd5f09ac64a0d735039e57e7806 Mon Sep 17 00:00:00 2001
From: Ning Xie <andy.xning@gmail.com>
Date: Tue, 18 Nov 2025 12:33:46 +0800
Subject: [PATCH 542/976] [Misc] Remove unnecessary parentheses from log
 statements (#28897)

Signed-off-by: Andy Xie <andy.xning@gmail.com>
---
 vllm/model_executor/models/registry.py | 10 +++++-----
 1 file changed, 5 insertions(+), 5 deletions(-)

diff --git a/vllm/model_executor/models/registry.py b/vllm/model_executor/models/registry.py
index 6e9790de49bfa..a2de597c87d88 100644
--- a/vllm/model_executor/models/registry.py
+++ b/vllm/model_executor/models/registry.py
@@ -597,7 +597,7 @@ class _LazyRegisteredModel(_BaseRegisteredModel):
                     mi_dict = json.load(file)
             except FileNotFoundError:
                 logger.debug(
-                    ("Cached model info file for class %s.%s not found"),
+                    "Cached model info file for class %s.%s not found",
                     self.module_name,
                     self.class_name,
                 )
@@ -605,7 +605,7 @@ class _LazyRegisteredModel(_BaseRegisteredModel):
 
             if mi_dict["hash"] != module_hash:
                 logger.debug(
-                    ("Cached model info file for class %s.%s is stale"),
+                    "Cached model info file for class %s.%s is stale",
                     self.module_name,
                     self.class_name,
                 )
@@ -615,7 +615,7 @@ class _LazyRegisteredModel(_BaseRegisteredModel):
             return _ModelInfo(**mi_dict["modelinfo"])
         except Exception:
             logger.debug(
-                ("Cached model info for class %s.%s error. "),
+                "Cached model info for class %s.%s error. ",
                 self.module_name,
                 self.class_name,
             )
@@ -650,14 +650,14 @@ class _LazyRegisteredModel(_BaseRegisteredModel):
             mi = self._load_modelinfo_from_cache(module_hash)
             if mi is not None:
                 logger.debug(
-                    ("Loaded model info for class %s.%s from cache"),
+                    "Loaded model info for class %s.%s from cache",
                     self.module_name,
                     self.class_name,
                 )
                 return mi
             else:
                 logger.debug(
-                    ("Cache model info for class %s.%s miss. Loading model instead."),
+                    "Cache model info for class %s.%s miss. Loading model instead.",
                     self.module_name,
                     self.class_name,
                 )

From 5bdd15527770ef39cc4c3cdca008fb4f9cf8a15f Mon Sep 17 00:00:00 2001
From: Nick Hill <nhill@redhat.com>
Date: Mon, 17 Nov 2025 21:26:32 -0800
Subject: [PATCH 543/976] [CI] Fix async scheduling + spec decoding test flake
 (#28902)

Signed-off-by: Nick Hill <nhill@redhat.com>
---
 tests/v1/e2e/test_async_scheduling.py | 8 +++++---
 1 file changed, 5 insertions(+), 3 deletions(-)

diff --git a/tests/v1/e2e/test_async_scheduling.py b/tests/v1/e2e/test_async_scheduling.py
index f732b05f09f9d..00d93e1ba0b53 100644
--- a/tests/v1/e2e/test_async_scheduling.py
+++ b/tests/v1/e2e/test_async_scheduling.py
@@ -84,6 +84,7 @@ def test_with_spec_decoding(monkeypatch: pytest.MonkeyPatch):
         "num_speculative_tokens": 2,
         "model": "nm-testing/Llama3_2_1B_speculator.eagle3",
     }
+    # Set small draft model len to force doesn't-fit-in-drafter case.
     spec_config_short = spec_config | {"max_model_len": 50}
 
     # test_preemption, executor, async_scheduling,
@@ -174,13 +175,14 @@ def run_tests(
                 ):
                     if "spec_mml=None" in test_config:
                         assert (
-                            pytest.approx(test_acceptance_rate, rel=5e-2)
-                            == base_acceptance_rate
+                            test_acceptance_rate > base_acceptance_rate
+                            or test_acceptance_rate
+                            == pytest.approx(base_acceptance_rate, rel=5e-2)
                         )
                     else:
                         # Currently the reported acceptance rate is expected to be
                         # lower when we sometimes skip drafting altogether.
-                        assert test_acceptance_rate > 0.05
+                        assert test_acceptance_rate > 0.1
                 print(
                     f"PASSED: config=[{test_config}], params={params}"
                     f" accept_rate={test_acceptance_rate}"

From 5bb1da5190b54aefb08478c6b1170f97722b8bdb Mon Sep 17 00:00:00 2001
From: Kuntai Du <kuntai@uchicago.edu>
Date: Tue, 18 Nov 2025 13:28:31 +0800
Subject: [PATCH 544/976] [MISC] Remove format.sh (#28906)

Signed-off-by: Kuntai Du <kuntai@uchicago.edu>
---
 format.sh | 6 ------
 1 file changed, 6 deletions(-)
 delete mode 100755 format.sh

diff --git a/format.sh b/format.sh
deleted file mode 100755
index 6ba93e0a19ba8..0000000000000
--- a/format.sh
+++ /dev/null
@@ -1,6 +0,0 @@
-#!/bin/bash
-
-echo "vLLM linting system has been moved from format.sh to pre-commit hooks."
-echo "Please run 'pip install -r requirements/lint.txt', followed by"
-echo "'pre-commit install' to install the pre-commit hooks."
-echo "Then linters will run automatically before each commit."
\ No newline at end of file

From 896e41ae04d18b0f984eefbb41b920aa7505f5d1 Mon Sep 17 00:00:00 2001
From: Isotr0py <mozf@mail2.sysu.edu.cn>
Date: Tue, 18 Nov 2025 16:10:55 +0800
Subject: [PATCH 545/976] [CI/Build] Replace wikipedia url with local server
 ones (#28908)

Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>
---
 tests/entrypoints/openai/test_metrics.py | 13 +++++++++++--
 1 file changed, 11 insertions(+), 2 deletions(-)

diff --git a/tests/entrypoints/openai/test_metrics.py b/tests/entrypoints/openai/test_metrics.py
index dbcec9d31fc9b..4e7b765d7713f 100644
--- a/tests/entrypoints/openai/test_metrics.py
+++ b/tests/entrypoints/openai/test_metrics.py
@@ -16,6 +16,7 @@ from transformers import AutoTokenizer
 
 from vllm import version
 
+from ...conftest import LocalAssetServer
 from ...utils import RemoteOpenAIServer
 
 MODELS = {
@@ -69,7 +70,6 @@ async def client(server):
 
 
 _PROMPT = "Hello my name is Robert and I love magic"
-_IMAGE_URL = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
 
 
 def _get_expected_values(num_requests: int, prompt_ids: list[int], max_tokens: int):
@@ -250,6 +250,7 @@ HIDDEN_DEPRECATED_METRICS: list[str] = [
 
 @pytest.mark.asyncio
 async def test_metrics_exist(
+    local_asset_server: LocalAssetServer,
     server: RemoteOpenAIServer,
     client: openai.AsyncClient,
     model_key: str,
@@ -265,13 +266,21 @@ async def test_metrics_exist(
             temperature=0.0,
         )
     else:
+        # https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg
         await client.chat.completions.create(
             model=model_name,
             messages=[
                 {
                     "role": "user",
                     "content": [
-                        {"type": "image_url", "image_url": {"url": _IMAGE_URL}},
+                        {
+                            "type": "image_url",
+                            "image_url": {
+                                "url": local_asset_server.url_for(
+                                    "2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
+                                ),
+                            },
+                        },
                         {"type": "text", "text": "What's in this image?"},
                     ],
                 }

From 439368496db48d8f992ba8c606a0c0b1eebbfa69 Mon Sep 17 00:00:00 2001
From: Nick Hill <nhill@redhat.com>
Date: Tue, 18 Nov 2025 00:20:45 -0800
Subject: [PATCH 546/976] [BugFix] Fix PP/async scheduling with pooling models
 (#28899)

Signed-off-by: Nick Hill <nhill@redhat.com>
Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>
---
 vllm/v1/engine/core.py           | 3 ++-
 vllm/v1/executor/ray_executor.py | 8 ++++----
 2 files changed, 6 insertions(+), 5 deletions(-)

diff --git a/vllm/v1/engine/core.py b/vllm/v1/engine/core.py
index 97286c6e2e5e4..d49eb752d56a5 100644
--- a/vllm/v1/engine/core.py
+++ b/vllm/v1/engine/core.py
@@ -184,6 +184,7 @@ class EngineCore:
             vllm_config.ec_transfer_config is not None
             and vllm_config.ec_transfer_config.is_ec_producer
         )
+        self.is_pooling_model = vllm_config.model_config.runner_type == "pooling"
 
         self.request_block_hasher: Callable[[Request], list[BlockHash]] | None = None
         if vllm_config.cache_config.enable_prefix_caching or kv_connector is not None:
@@ -392,7 +393,7 @@ class EngineCore:
             if not self.ec_producer:
                 model_executed = scheduler_output.total_num_scheduled_tokens > 0
 
-            if not model_executed:
+            if self.is_pooling_model or not model_executed:
                 # No sampling required (no requests scheduled).
                 future = cast(Future[ModelRunnerOutput], exec_future)
             else:
diff --git a/vllm/v1/executor/ray_executor.py b/vllm/v1/executor/ray_executor.py
index 55db7445c9c74..406eafcd339b0 100644
--- a/vllm/v1/executor/ray_executor.py
+++ b/vllm/v1/executor/ray_executor.py
@@ -99,9 +99,9 @@ class RayDistributedExecutor(Executor):
         # KV connector setup
         self.has_connector = self.vllm_config.kv_transfer_config is not None
 
-        self.ec_producer = (
-            self.vllm_config.ec_transfer_config is not None
-            and self.vllm_config.ec_transfer_config.is_ec_producer
+        self.uses_sampler = self.vllm_config.model_config.runner_type != "pooling" and (
+            self.vllm_config.ec_transfer_config is None
+            or not self.vllm_config.ec_transfer_config.is_ec_producer
         )
 
         self.scheduler_output: SchedulerOutput | None = None
@@ -401,7 +401,7 @@ class RayDistributedExecutor(Executor):
                 "after execute_model() returns None."
             )
 
-        if self.ec_producer or not scheduler_output.total_num_scheduled_tokens:
+        if not self.uses_sampler or not scheduler_output.total_num_scheduled_tokens:
             # Model will not execute, call model runner immediately.
             return self._execute_dag(scheduler_output, None, non_block)
 

From 285eaa42857ba2a8f377fdd0dcd84120260d8f65 Mon Sep 17 00:00:00 2001
From: Song Zhixin <szxfml@gmail.com>
Date: Tue, 18 Nov 2025 18:53:44 +0800
Subject: [PATCH 547/976] [Bugfix] Safeguard against missing backend in
 AttentionBackendEnum (#28846)

Signed-off-by: jesse <szxfml@gmail.com>
Signed-off-by: Song Zhixin <szxfml@gmail.com>
Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
---
 vllm/attention/layer.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/vllm/attention/layer.py b/vllm/attention/layer.py
index 37f9a4b383ce9..a8e796a1eab63 100644
--- a/vllm/attention/layer.py
+++ b/vllm/attention/layer.py
@@ -310,7 +310,8 @@ class Attention(nn.Module, AttentionLayerBase):
             kv_sharing_target_layer_name,
             **extra_impl_args,
         )
-        self.backend = AttentionBackendEnum[self.attn_backend.get_name()]
+        backend_name = self.attn_backend.get_name()
+        self.backend = AttentionBackendEnum.__members__.get(backend_name)
         self.dtype = dtype
 
         # For cuda-alike (CUDA and ROCM) and cpu platforms, we control how

From b9489f51e1c61c96378e12c9523f9de7043ca294 Mon Sep 17 00:00:00 2001
From: Canlin Guo <canlinguosdu@gmail.com>
Date: Tue, 18 Nov 2025 19:51:54 +0800
Subject: [PATCH 548/976] [Model][Perf] Use cos and sin cache in QwenVL
 (#28798)

Signed-off-by: gcanlin <canlinguosdu@gmail.com>
---
 .../layers/rotary_embedding/base.py           |   5 +
 vllm/model_executor/models/glm4_1v.py         |  88 +++++-------
 vllm/model_executor/models/qwen2_5_vl.py      | 123 ++++++++--------
 vllm/model_executor/models/qwen2_vl.py        | 135 ++++++------------
 .../models/qwen3_omni_moe_thinker.py          |  40 ++++--
 vllm/model_executor/models/qwen3_vl.py        |  44 ++++--
 6 files changed, 218 insertions(+), 217 deletions(-)

diff --git a/vllm/model_executor/layers/rotary_embedding/base.py b/vllm/model_executor/layers/rotary_embedding/base.py
index ce4f40680b0a3..4114b21168cc8 100644
--- a/vllm/model_executor/layers/rotary_embedding/base.py
+++ b/vllm/model_executor/layers/rotary_embedding/base.py
@@ -83,6 +83,11 @@ class RotaryEmbeddingBase(CustomOp):
         ):
             self.cos_sin_cache = self.cos_sin_cache.to(query.device, dtype=query.dtype)
 
+    def get_cos_sin(self, seqlen: int) -> tuple[torch.Tensor, torch.Tensor]:
+        cos_sin = self.cos_sin_cache[:seqlen]
+        cos, sin = cos_sin.chunk(2, dim=-1)
+        return cos, sin
+
 
 class RotaryEmbedding(RotaryEmbeddingBase):
     def __init__(
diff --git a/vllm/model_executor/models/glm4_1v.py b/vllm/model_executor/models/glm4_1v.py
index 6953b805653b4..65c3fc2d9e975 100644
--- a/vllm/model_executor/models/glm4_1v.py
+++ b/vllm/model_executor/models/glm4_1v.py
@@ -65,6 +65,7 @@ from vllm.model_executor.layers.linear import (
     RowParallelLinear,
 )
 from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
 from vllm.model_executor.model_loader.weight_utils import default_weight_loader
 from vllm.model_executor.models.module_mapping import MultiModelKeys
 from vllm.multimodal import MULTIMODAL_REGISTRY
@@ -341,7 +342,8 @@ class Glm4vVisionAttention(nn.Module):
         self,
         x: torch.Tensor,
         cu_seqlens: torch.Tensor,
-        rotary_pos_emb: torch.Tensor,
+        rotary_pos_emb_cos: torch.Tensor,
+        rotary_pos_emb_sin: torch.Tensor,
         max_seqlen: int | None = None,  # Only used for Flash Attention
         seqlens: list[int] | None = None,  # Only used for xFormers
     ) -> torch.Tensor:
@@ -353,10 +355,12 @@ class Glm4vVisionAttention(nn.Module):
         batch_size = q.shape[1]
 
         q, k, v = (rearrange(x, "s b ... -> b s ...").contiguous() for x in (q, k, v))
-        if rotary_pos_emb is not None:
+        if rotary_pos_emb_cos is not None and rotary_pos_emb_sin is not None:
             # [2 * b, s, heads, head_dim]
             qk_concat = torch.cat([q, k], dim=0)
-            qk_rotated = apply_rotary_pos_emb_vision(qk_concat, rotary_pos_emb)
+            qk_rotated = apply_rotary_pos_emb_vision(
+                qk_concat, rotary_pos_emb_cos, rotary_pos_emb_sin
+            )
             q, k = torch.chunk(qk_rotated, 2, dim=0)
 
         if self.is_flash_attn_backend:
@@ -454,14 +458,16 @@ class Glm4vVisionBlock(nn.Module):
         self,
         x: torch.Tensor,
         cu_seqlens: torch.Tensor,
-        rotary_pos_emb: torch.Tensor,
+        rotary_pos_emb_cos: torch.Tensor,
+        rotary_pos_emb_sin: torch.Tensor,
         max_seqlen: int | None = None,  # Only used for Flash Attention
         seqlens: list[int] | None = None,  # Only used for xFormers
     ) -> torch.Tensor:
         x_attn = self.attn(
             self.norm1(x),
             cu_seqlens=cu_seqlens,
-            rotary_pos_emb=rotary_pos_emb,
+            rotary_pos_emb_cos=rotary_pos_emb_cos,
+            rotary_pos_emb_sin=rotary_pos_emb_sin,
             max_seqlen=max_seqlen,
             seqlens=seqlens,
         )
@@ -660,44 +666,6 @@ class Glm4vVisionEmbeddings(nn.Module):
         return embeddings
 
 
-class Glm4vVisionRotaryEmbedding(nn.Module):
-    def __init__(self, dim: int, theta: float = 10000.0) -> None:
-        super().__init__()
-        self.dim = dim
-        self.theta = theta
-        inv_freq = 1.0 / (theta ** (torch.arange(0, dim, 2, dtype=torch.float) / dim))
-        self.register_buffer("inv_freq", inv_freq, persistent=False)
-        self._seq_len_cached = 0
-        self._freqs_cached = None
-
-    def update_freqs_cache(self, seqlen: int) -> None:
-        if seqlen > self._seq_len_cached:
-            seqlen *= 2
-            self._seq_len_cached = seqlen
-            self.inv_freq = 1.0 / (
-                self.theta
-                ** (
-                    torch.arange(
-                        0,
-                        self.dim,
-                        2,
-                        dtype=torch.float,
-                        device=self.inv_freq.device,
-                    )
-                    / self.dim
-                )
-            )
-            seq = torch.arange(
-                seqlen, device=self.inv_freq.device, dtype=self.inv_freq.dtype
-            )
-            freqs = torch.outer(seq, self.inv_freq)
-            self._freqs_cached = freqs
-
-    def forward(self, seqlen: int) -> torch.Tensor:
-        self.update_freqs_cache(seqlen)
-        return self._freqs_cached[:seqlen]
-
-
 class Glm4vVisionTransformer(nn.Module):
     def __init__(
         self,
@@ -731,7 +699,13 @@ class Glm4vVisionTransformer(nn.Module):
 
         norm_layer = partial(RMSNorm, eps=norm_eps)
         head_dim = self.hidden_size // self.num_heads
-        self.rotary_pos_emb = Glm4vVisionRotaryEmbedding(head_dim // 2)
+        self.rotary_pos_emb = get_rope(
+            head_size=head_dim,
+            rotary_dim=head_dim // 2,
+            max_position=8192,
+            base=10000.0,
+            is_neox_style=True,
+        )
         self.blocks = nn.ModuleList(
             [
                 Glm4vVisionBlock(
@@ -789,7 +763,9 @@ class Glm4vVisionTransformer(nn.Module):
     def device(self) -> torch.device:
         return self.patch_embed.proj.weight.device
 
-    def rot_pos_emb(self, grid_thw: torch.Tensor) -> torch.Tensor:
+    def rot_pos_emb(
+        self, grid_thw: torch.Tensor
+    ) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
         pos_ids = []
         for t, h, w in grid_thw:
             hpos_ids = torch.arange(h).unsqueeze(1).expand(-1, w)
@@ -817,9 +793,18 @@ class Glm4vVisionTransformer(nn.Module):
             pos_ids.append(torch.stack([hpos_ids, wpos_ids], dim=-1).repeat(t, 1))
         pos_ids = torch.cat(pos_ids, dim=0)
         max_grid_size = grid_thw[:, 1:].max()
-        rotary_pos_emb_full = self.rotary_pos_emb(max_grid_size)
-        rotary_pos_emb = rotary_pos_emb_full[pos_ids].flatten(1)
-        return rotary_pos_emb, pos_ids
+
+        # Use pre-computed cos_sin_cache from RotaryEmbedding
+        cos, sin = self.rotary_pos_emb.get_cos_sin(max_grid_size)
+
+        cos_h = cos[pos_ids[:, 0]]  # (num_tokens, rotary_dim // 2)
+        cos_w = cos[pos_ids[:, 1]]
+        sin_h = sin[pos_ids[:, 0]]
+        sin_w = sin[pos_ids[:, 1]]
+
+        cos_combined = torch.cat([cos_h, cos_w], dim=-1)
+        sin_combined = torch.cat([sin_h, sin_w], dim=-1)
+        return cos_combined, sin_combined, pos_ids
 
     def compute_attn_mask_seqlen(
         self,
@@ -848,7 +833,9 @@ class Glm4vVisionTransformer(nn.Module):
         x = self.post_conv_layernorm(x)
 
         # compute position embedding
-        rotary_pos_emb, image_type_ids = self.rot_pos_emb(grid_thw)
+        rotary_pos_emb_cos, rotary_pos_emb_sin, image_type_ids = self.rot_pos_emb(
+            grid_thw
+        )
         # compute cu_seqlens
         cu_seqlens = torch.repeat_interleave(
             grid_thw[:, 1] * grid_thw[:, 2], grid_thw[:, 0]
@@ -867,7 +854,8 @@ class Glm4vVisionTransformer(nn.Module):
             x = blk(
                 x,
                 cu_seqlens=cu_seqlens,
-                rotary_pos_emb=rotary_pos_emb,
+                rotary_pos_emb_cos=rotary_pos_emb_cos,
+                rotary_pos_emb_sin=rotary_pos_emb_sin,
                 max_seqlen=max_seqlen,
                 seqlens=seqlens,
             )
diff --git a/vllm/model_executor/models/qwen2_5_vl.py b/vllm/model_executor/models/qwen2_5_vl.py
index 897dd7ef29f12..2e4fd9645d88f 100644
--- a/vllm/model_executor/models/qwen2_5_vl.py
+++ b/vllm/model_executor/models/qwen2_5_vl.py
@@ -64,6 +64,7 @@ from vllm.model_executor.layers.linear import (
     RowParallelLinear,
 )
 from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
 from vllm.model_executor.model_loader.weight_utils import default_weight_loader
 from vllm.model_executor.models.module_mapping import MultiModelKeys
 from vllm.model_executor.models.vision import should_torch_compile_mm_vit
@@ -363,7 +364,8 @@ class Qwen2_5_VisionAttention(nn.Module):
         self,
         x: torch.Tensor,
         cu_seqlens: torch.Tensor,
-        rotary_pos_emb: torch.Tensor,
+        rotary_pos_emb_cos: torch.Tensor,
+        rotary_pos_emb_sin: torch.Tensor,
         max_seqlen: torch.Tensor,  # Only used for Flash Attention
         seqlens: torch.Tensor,  # Only used for xFormers
     ) -> torch.Tensor:
@@ -378,13 +380,15 @@ class Qwen2_5_VisionAttention(nn.Module):
             head=self.num_attention_heads_per_partition,
         )
 
-        if rotary_pos_emb is not None:
+        if rotary_pos_emb_cos is not None and rotary_pos_emb_sin is not None:
             qk, v = qkv[:, :, :2], qkv[:, :, 2]
 
             qk_reshaped = einops.rearrange(
                 qk, "b s two head head_dim -> (two b) s head head_dim", two=2
             )
-            qk_rotated = apply_rotary_pos_emb_vision(qk_reshaped, rotary_pos_emb)
+            qk_rotated = apply_rotary_pos_emb_vision(
+                qk_reshaped, cos=rotary_pos_emb_cos, sin=rotary_pos_emb_sin
+            )
             qk_rotated = qk_rotated.view(
                 2,
                 batch_size,
@@ -434,7 +438,8 @@ class Qwen2_5_VisionAttention(nn.Module):
     dynamic_arg_dims={
         "x": 0,
         "cu_seqlens": 0,
-        "rotary_pos_emb": 0,
+        "rotary_pos_emb_cos": 0,
+        "rotary_pos_emb_sin": 0,
         "seqlens": 0,
     },
     mark_unbacked_dims={"seqlens": 0},
@@ -485,14 +490,16 @@ class Qwen2_5_VisionBlock(nn.Module):
         self,
         x: torch.Tensor,
         cu_seqlens: torch.Tensor,
-        rotary_pos_emb: torch.Tensor,
+        rotary_pos_emb_cos: torch.Tensor,
+        rotary_pos_emb_sin: torch.Tensor,
         max_seqlen: torch.Tensor,  # Only used for Flash Attention
         seqlens: torch.Tensor,  # Only used for xFormers
     ) -> torch.Tensor:
         x_attn = self.attn(
             self.norm1(x),
             cu_seqlens=cu_seqlens,
-            rotary_pos_emb=rotary_pos_emb,
+            rotary_pos_emb_cos=rotary_pos_emb_cos,
+            rotary_pos_emb_sin=rotary_pos_emb_sin,
             max_seqlen=max_seqlen,
             seqlens=seqlens,
         )
@@ -588,42 +595,6 @@ class Qwen2_5_VisionPatchMerger(nn.Module):
         return out
 
 
-class Qwen2_5_VisionRotaryEmbedding(nn.Module):
-    def __init__(self, dim: int, theta: float = 10000.0) -> None:
-        super().__init__()
-        self.dim = dim
-        self.theta = theta
-        inv_freq = 1.0 / (
-            theta ** (torch.arange(0, dim, 2, dtype=torch.float, device="cpu") / dim)
-        )
-        self.register_buffer("inv_freq", inv_freq, persistent=False)
-        self._seq_len_cached = 0
-        self._freqs_cached = None
-
-    def update_freqs_cache(self, seqlen: int) -> None:
-        if seqlen > self._seq_len_cached:
-            seqlen *= 2
-            self._seq_len_cached = seqlen
-            self.inv_freq = 1.0 / (
-                self.theta
-                ** (
-                    torch.arange(
-                        0, self.dim, 2, dtype=torch.float, device=self.inv_freq.device
-                    )
-                    / self.dim
-                )
-            )
-            seq = torch.arange(
-                seqlen, device=self.inv_freq.device, dtype=self.inv_freq.dtype
-            )
-            freqs = torch.outer(seq, self.inv_freq)
-            self._freqs_cached = freqs
-
-    def forward(self, seqlen: int) -> torch.Tensor:
-        self.update_freqs_cache(seqlen)
-        return self._freqs_cached[:seqlen]
-
-
 class Qwen2_5_VisionTransformer(nn.Module):
     def __init__(
         self,
@@ -666,7 +637,13 @@ class Qwen2_5_VisionTransformer(nn.Module):
 
         norm_layer = partial(RMSNorm, eps=norm_eps)
         head_dim = self.hidden_size // self.num_heads
-        self.rotary_pos_emb = Qwen2_5_VisionRotaryEmbedding(head_dim // 2)
+        self.rotary_pos_emb = get_rope(
+            head_size=head_dim,
+            rotary_dim=head_dim // 2,
+            max_position=8192,
+            base=10000.0,
+            is_neox_style=True,
+        )
 
         use_upstream_fa = False
         self.attn_backend = get_vit_attn_backend(
@@ -757,15 +734,30 @@ class Qwen2_5_VisionTransformer(nn.Module):
         )
         pos_ids = torch.stack([hpos_ids, wpos_ids], dim=-1).repeat(t, 1)
         max_size = max(h, w)
-        rotary_pos_emb_full = self.rotary_pos_emb(max_size)
-        rotary_pos_emb = rotary_pos_emb_full[pos_ids].flatten(1)
-        rotary_pos_emb = rotary_pos_emb.reshape(
-            rotary_pos_emb.shape[0] // self.spatial_merge_unit,
+
+        # Use pre-computed cos_sin_cache from RotaryEmbedding
+        cos, sin = self.rotary_pos_emb.get_cos_sin(max_size)
+
+        cos_h = cos[pos_ids[:, 0]]  # (num_tokens, rotary_dim // 2)
+        cos_w = cos[pos_ids[:, 1]]
+        sin_h = sin[pos_ids[:, 0]]
+        sin_w = sin[pos_ids[:, 1]]
+
+        cos_combined = torch.cat([cos_h, cos_w], dim=-1)
+        sin_combined = torch.cat([sin_h, sin_w], dim=-1)
+
+        cos_combined = cos_combined.reshape(
+            cos_combined.shape[0] // self.spatial_merge_unit,
+            self.spatial_merge_unit,
+            -1,
+        )
+        sin_combined = sin_combined.reshape(
+            sin_combined.shape[0] // self.spatial_merge_unit,
             self.spatial_merge_unit,
             -1,
         )
 
-        return rotary_pos_emb
+        return cos_combined, sin_combined
 
     def get_window_index_thw(self, grid_t, grid_h, grid_w):
         vit_merger_window_size = (
@@ -807,14 +799,19 @@ class Qwen2_5_VisionTransformer(nn.Module):
     @lru_cache(maxsize=1024)  # noqa: B019
     def get_rope_by_thw(self, t, h, w):
         window_index_thw, cu_seqlens_window_thw = self.get_window_index_thw(t, h, w)
-        rotary_pos_emb_thw = self.rotary_pos_emb_thw(t, h, w)
-        rotary_pos_emb_thw = rotary_pos_emb_thw[window_index_thw, :, :]
-        rotary_pos_emb_thw = rotary_pos_emb_thw.flatten(start_dim=0, end_dim=1)
+        cos_thw, sin_thw = self.rotary_pos_emb_thw(t, h, w)
+
+        cos_thw = cos_thw[window_index_thw, :, :]
+        cos_thw = cos_thw.flatten(start_dim=0, end_dim=1)
+        sin_thw = sin_thw[window_index_thw, :, :]
+        sin_thw = sin_thw.flatten(start_dim=0, end_dim=1)
+
         cu_seqlens_thw = torch.repeat_interleave(
             torch.tensor([h * w], dtype=torch.int32), t
         )
         return (
-            rotary_pos_emb_thw,
+            cos_thw,
+            sin_thw,
             window_index_thw,
             cu_seqlens_window_thw,
             cu_seqlens_thw,
@@ -849,7 +846,8 @@ class Qwen2_5_VisionTransformer(nn.Module):
     ) -> torch.Tensor:
         # patchify
         seq_len, _ = x.size()
-        rotary_pos_emb = []
+        rotary_pos_emb_cos = []
+        rotary_pos_emb_sin = []
         window_index: list = []
         cu_window_seqlens: list = [torch.tensor([0], dtype=torch.int32)]
         cu_seqlens: list = []
@@ -865,7 +863,8 @@ class Qwen2_5_VisionTransformer(nn.Module):
             llm_w = w // self.spatial_merge_size
 
             (
-                rotary_pos_emb_thw,
+                cos_thw,
+                sin_thw,
                 window_index_thw,
                 cu_seqlens_window_thw,
                 cu_seqlens_thw,
@@ -878,11 +877,13 @@ class Qwen2_5_VisionTransformer(nn.Module):
             cu_window_seqlens_last = cu_seqlens_window_thw[-1]
             cu_window_seqlens.append(cu_seqlens_window_thw)
 
-            rotary_pos_emb.append(rotary_pos_emb_thw)
+            rotary_pos_emb_cos.append(cos_thw)
+            rotary_pos_emb_sin.append(sin_thw)
 
             cu_seqlens.append(cu_seqlens_thw)
 
-        rotary_pos_emb = torch.cat(rotary_pos_emb)
+        rotary_pos_emb_cos = torch.cat(rotary_pos_emb_cos)
+        rotary_pos_emb_sin = torch.cat(rotary_pos_emb_sin)
         window_index = torch.cat(window_index)
         # compute reverse indices
         reverse_indices = self.invert_permutation(window_index)
@@ -901,7 +902,12 @@ class Qwen2_5_VisionTransformer(nn.Module):
 
         cu_seqlens = cu_seqlens.to(device=self.device, non_blocking=True)
         cu_window_seqlens = cu_window_seqlens.to(device=self.device, non_blocking=True)
-        rotary_pos_emb = rotary_pos_emb.to(device=self.device, non_blocking=True)
+        rotary_pos_emb_cos = rotary_pos_emb_cos.to(
+            device=self.device, non_blocking=True
+        )
+        rotary_pos_emb_sin = rotary_pos_emb_sin.to(
+            device=self.device, non_blocking=True
+        )
         window_index = window_index.to(device=hidden_states.device, non_blocking=True)
         reverse_indices = reverse_indices.to(
             device=hidden_states.device, non_blocking=True
@@ -928,7 +934,8 @@ class Qwen2_5_VisionTransformer(nn.Module):
             hidden_states = blk(
                 hidden_states,
                 cu_seqlens=cu_seqlens_now,
-                rotary_pos_emb=rotary_pos_emb,
+                rotary_pos_emb_cos=rotary_pos_emb_cos,
+                rotary_pos_emb_sin=rotary_pos_emb_sin,
                 max_seqlen=max_seqlen_now,
                 seqlens=seqlens_now,
             )
diff --git a/vllm/model_executor/models/qwen2_vl.py b/vllm/model_executor/models/qwen2_vl.py
index 5d21e249fc4cc..53df5972a8fe1 100644
--- a/vllm/model_executor/models/qwen2_vl.py
+++ b/vllm/model_executor/models/qwen2_vl.py
@@ -32,7 +32,7 @@ from typing import Annotated, Any, Literal, TypeAlias
 import torch
 import torch.nn as nn
 import torch.nn.functional as F
-from einops import rearrange, repeat
+from einops import rearrange
 from transformers import BatchFeature
 from transformers.models.qwen2_vl import Qwen2VLImageProcessor, Qwen2VLProcessor
 from transformers.models.qwen2_vl.configuration_qwen2_vl import (
@@ -59,7 +59,9 @@ from vllm.model_executor.layers.linear import (
     RowParallelLinear,
 )
 from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
 from vllm.model_executor.layers.rotary_embedding.common import (
+    apply_rotary_emb_torch,
     dispatch_rotary_emb_function,
 )
 from vllm.model_executor.model_loader.weight_utils import default_weight_loader
@@ -275,47 +277,13 @@ class Qwen2VisionMLP(nn.Module):
         return x
 
 
-def rotate_half(x: torch.Tensor, interleaved: bool = False) -> torch.Tensor:
-    if not interleaved:
-        x1, x2 = x.chunk(2, dim=-1)
-        return torch.cat((-x2, x1), dim=-1)
-    else:
-        x1, x2 = x[..., ::2], x[..., 1::2]
-        return rearrange(
-            torch.stack((-x2, x1), dim=-1), "... d two -> ... (d two)", two=2
-        )
-
-
-def apply_rotary_emb_torch(
-    x: torch.Tensor, cos: torch.Tensor, sin: torch.Tensor, interleaved: bool = False
+def apply_rotary_pos_emb_vision(
+    t: torch.Tensor, cos: torch.Tensor, sin: torch.Tensor
 ) -> torch.Tensor:
-    """
-    x: (batch_size, seqlen, nheads, headdim)
-    cos, sin: (seqlen, rotary_dim / 2) or (batch_size, seqlen, rotary_dim / 2)
-    """
-    ro_dim = cos.shape[-1] * 2
-    assert ro_dim <= x.shape[-1]
-    cos = repeat(
-        cos, "... d -> ... 1 (2 d)" if not interleaved else "... d -> ... 1 (d 2)"
+    rotary_emb_function = dispatch_rotary_emb_function(
+        default=partial(apply_rotary_emb_torch, is_neox_style=True)
     )
-    sin = repeat(
-        sin, "... d -> ... 1 (2 d)" if not interleaved else "... d -> ... 1 (d 2)"
-    )
-    return torch.cat(
-        [
-            x[..., :ro_dim] * cos + rotate_half(x[..., :ro_dim], interleaved) * sin,
-            x[..., ro_dim:],
-        ],
-        dim=-1,
-    )
-
-
-def apply_rotary_pos_emb_vision(t: torch.Tensor, freqs: torch.Tensor) -> torch.Tensor:
-    rotary_emb_function = dispatch_rotary_emb_function(default=apply_rotary_emb_torch)
-    t_ = t.float()
-    cos = freqs.cos()
-    sin = freqs.sin()
-    output = rotary_emb_function(t_, cos, sin).type_as(t)
+    output = rotary_emb_function(t, cos, sin).type_as(t)
     return output
 
 
@@ -412,7 +380,8 @@ class Qwen2VisionAttention(nn.Module):
         self,
         x: torch.Tensor,
         cu_seqlens: torch.Tensor,
-        rotary_pos_emb: torch.Tensor,
+        rotary_pos_emb_cos: torch.Tensor,
+        rotary_pos_emb_sin: torch.Tensor,
         max_seqlen: int | None = None,  # Only used for Flash Attention
         seqlens: list[int] | None = None,  # Only used for xFormers
     ) -> torch.Tensor:
@@ -424,11 +393,13 @@ class Qwen2VisionAttention(nn.Module):
         batch_size = q.shape[1]
 
         q, k, v = (rearrange(x, "s b ... -> b s ...") for x in (q, k, v))
-        if rotary_pos_emb is not None:
-            # [2 * b, s, heads, head_dim]
-            qk_concat = torch.cat([q, k], dim=0)
-            qk_rotated = apply_rotary_pos_emb_vision(qk_concat, rotary_pos_emb)
-            q, k = torch.chunk(qk_rotated, 2, dim=0)
+
+        # [2 * b, s, heads, head_dim]
+        qk_concat = torch.cat([q, k], dim=0)
+        qk_rotated = apply_rotary_pos_emb_vision(
+            qk_concat, rotary_pos_emb_cos, rotary_pos_emb_sin
+        )
+        q, k = torch.chunk(qk_rotated, 2, dim=0)
 
         if self.is_flash_attn_backend:
             q, k, v = (rearrange(x, "b s ... -> (b s) ...") for x in [q, k, v])
@@ -534,14 +505,16 @@ class Qwen2VisionBlock(nn.Module):
         self,
         x: torch.Tensor,
         cu_seqlens: torch.Tensor,
-        rotary_pos_emb: torch.Tensor,
+        rotary_pos_emb_cos: torch.Tensor,
+        rotary_pos_emb_sin: torch.Tensor,
         max_seqlen: int | None = None,  # Only used for Flash Attention
         seqlens: list[int] | None = None,  # Only used for xFormers
     ) -> torch.Tensor:
         x = x + self.attn(
             self.norm1(x),
             cu_seqlens=cu_seqlens,
-            rotary_pos_emb=rotary_pos_emb,
+            rotary_pos_emb_cos=rotary_pos_emb_cos,
+            rotary_pos_emb_sin=rotary_pos_emb_sin,
             max_seqlen=max_seqlen,
             seqlens=seqlens,
         )
@@ -628,40 +601,6 @@ class Qwen2VisionPatchMerger(nn.Module):
         return out
 
 
-class Qwen2VisionRotaryEmbedding(nn.Module):
-    def __init__(self, dim: int, theta: float = 10000.0) -> None:
-        super().__init__()
-        self.dim = dim
-        self.theta = theta
-        inv_freq = 1.0 / (theta ** (torch.arange(0, dim, 2, dtype=torch.float) / dim))
-        self.register_buffer("inv_freq", inv_freq, persistent=False)
-        self._seq_len_cached = 0
-        self._freqs_cached = None
-
-    def update_freqs_cache(self, seqlen: int) -> None:
-        if seqlen > self._seq_len_cached:
-            seqlen *= 2
-            self._seq_len_cached = seqlen
-            self.inv_freq = 1.0 / (
-                self.theta
-                ** (
-                    torch.arange(
-                        0, self.dim, 2, dtype=torch.float, device=self.inv_freq.device
-                    )
-                    / self.dim
-                )
-            )
-            seq = torch.arange(
-                seqlen, device=self.inv_freq.device, dtype=self.inv_freq.dtype
-            )
-            freqs = torch.outer(seq, self.inv_freq)
-            self._freqs_cached = freqs
-
-    def forward(self, seqlen: int) -> torch.Tensor:
-        self.update_freqs_cache(seqlen)
-        return self._freqs_cached[:seqlen]
-
-
 class Qwen2VisionTransformer(nn.Module):
     def __init__(
         self,
@@ -700,7 +639,13 @@ class Qwen2VisionTransformer(nn.Module):
 
         norm_layer = partial(nn.LayerNorm, eps=norm_eps)
         head_dim = embed_dim // num_heads
-        self.rotary_pos_emb = Qwen2VisionRotaryEmbedding(head_dim // 2)
+        self.rotary_pos_emb = get_rope(
+            head_size=head_dim,
+            rotary_dim=head_dim // 2,
+            max_position=8192,
+            base=10000.0,
+            is_neox_style=True,
+        )
 
         self.blocks = nn.ModuleList(
             [
@@ -744,7 +689,9 @@ class Qwen2VisionTransformer(nn.Module):
     def device(self) -> torch.device:
         return self.patch_embed.proj.weight.device
 
-    def rot_pos_emb(self, grid_thw: list[list[int]]) -> torch.Tensor:
+    def rot_pos_emb(
+        self, grid_thw: list[list[int]]
+    ) -> tuple[torch.Tensor, torch.Tensor]:
         pos_ids = []
         max_grid_size = 0
         for t, h, w in grid_thw:
@@ -773,9 +720,18 @@ class Qwen2VisionTransformer(nn.Module):
             pos_ids.append(torch.stack([hpos_ids, wpos_ids], dim=-1).repeat(t, 1))
             max_grid_size = max(max_grid_size, h, w)
         pos_ids = torch.cat(pos_ids, dim=0)
-        rotary_pos_emb_full = self.rotary_pos_emb(max_grid_size)
-        rotary_pos_emb = rotary_pos_emb_full[pos_ids].flatten(1)
-        return rotary_pos_emb
+
+        # Use pre-computed cos_sin_cache from RotaryEmbedding
+        cos, sin = self.rotary_pos_emb.get_cos_sin(max_grid_size)
+
+        cos_h = cos[pos_ids[:, 0]]  # (num_tokens, rotary_dim // 2)
+        cos_w = cos[pos_ids[:, 1]]
+        sin_h = sin[pos_ids[:, 0]]
+        sin_w = sin[pos_ids[:, 1]]
+
+        cos_combined = torch.cat([cos_h, cos_w], dim=-1)
+        sin_combined = torch.cat([sin_h, sin_w], dim=-1)
+        return cos_combined, sin_combined
 
     def compute_attn_mask_seqlen(
         self, cu_seqlens: torch.Tensor
@@ -806,7 +762,7 @@ class Qwen2VisionTransformer(nn.Module):
             grid_thw_list = grid_thw.tolist()
 
         # compute position embedding
-        rotary_pos_emb = self.rot_pos_emb(grid_thw_list)
+        rotary_pos_emb_cos, rotary_pos_emb_sin = self.rot_pos_emb(grid_thw_list)
 
         # compute cu_seqlens
         cu_seqlens = torch.repeat_interleave(
@@ -824,7 +780,8 @@ class Qwen2VisionTransformer(nn.Module):
             x = blk(
                 x,
                 cu_seqlens=cu_seqlens,
-                rotary_pos_emb=rotary_pos_emb,
+                rotary_pos_emb_cos=rotary_pos_emb_cos,
+                rotary_pos_emb_sin=rotary_pos_emb_sin,
                 max_seqlen=max_seqlen,
                 seqlens=seqlens,
             )
diff --git a/vllm/model_executor/models/qwen3_omni_moe_thinker.py b/vllm/model_executor/models/qwen3_omni_moe_thinker.py
index 40b80ce2387c8..8274b92138f78 100755
--- a/vllm/model_executor/models/qwen3_omni_moe_thinker.py
+++ b/vllm/model_executor/models/qwen3_omni_moe_thinker.py
@@ -60,6 +60,7 @@ from vllm.model_executor.layers.linear import (
 )
 from vllm.model_executor.layers.logits_processor import LogitsProcessor
 from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
 from vllm.model_executor.layers.vocab_parallel_embedding import ParallelLMHead
 from vllm.model_executor.model_loader.weight_utils import default_weight_loader
 from vllm.model_executor.models.qwen2_audio import Qwen2AudioProcessingInfo
@@ -90,7 +91,6 @@ from .qwen2_5_omni_thinker import (
 )
 from .qwen2_5_vl import (
     Qwen2_5_VisionAttention,
-    Qwen2_5_VisionRotaryEmbedding,
     Qwen2_5_VLProcessingInfo,
 )
 from .qwen3_moe import Qwen3MoeForCausalLM, Qwen3MoeModel
@@ -221,14 +221,16 @@ class Qwen3_VisionBlock(nn.Module):
         self,
         x: torch.Tensor,
         cu_seqlens: torch.Tensor,
-        rotary_pos_emb: torch.Tensor,
+        rotary_pos_emb_cos: torch.Tensor,
+        rotary_pos_emb_sin: torch.Tensor,
         max_seqlen: torch.Tensor,  # Only used for Flash Attention
         seqlens: torch.Tensor,  # Only used for xFormers
     ) -> torch.Tensor:
         x = x + self.attn(
             self.norm1(x),
             cu_seqlens=cu_seqlens,
-            rotary_pos_emb=rotary_pos_emb,
+            rotary_pos_emb_cos=rotary_pos_emb_cos,
+            rotary_pos_emb_sin=rotary_pos_emb_sin,
             max_seqlen=max_seqlen,
             seqlens=seqlens,
         )
@@ -332,7 +334,13 @@ class Qwen3Omni_VisionTransformer(nn.Module):
 
         norm_layer = partial(nn.LayerNorm, eps=norm_eps)
         head_dim = self.hidden_size // self.num_heads
-        self.rotary_pos_emb = Qwen2_5_VisionRotaryEmbedding(head_dim // 2)
+        self.rotary_pos_emb = get_rope(
+            head_size=head_dim,
+            rotary_dim=head_dim // 2,
+            max_position=8192,
+            base=10000.0,
+            is_neox_style=True,
+        )
 
         self.blocks = nn.ModuleList(
             [
@@ -416,9 +424,19 @@ class Qwen3Omni_VisionTransformer(nn.Module):
             pos_ids.append(torch.stack([hpos_ids, wpos_ids], dim=-1).repeat(t, 1))
         pos_ids = torch.cat(pos_ids, dim=0)
         max_grid_size = grid_thw[:, 1:].max()
-        rotary_pos_emb_full = self.rotary_pos_emb(max_grid_size)
-        rotary_pos_emb = rotary_pos_emb_full[pos_ids].flatten(1)
-        return rotary_pos_emb
+
+        # Use pre-computed cos_sin_cache from RotaryEmbedding
+        cos, sin = self.rotary_pos_emb.get_cos_sin(max_grid_size)
+
+        cos_h = cos[pos_ids[:, 0]]  # (num_tokens, rotary_dim // 2)
+        cos_w = cos[pos_ids[:, 1]]
+        sin_h = sin[pos_ids[:, 0]]
+        sin_w = sin[pos_ids[:, 1]]
+
+        cos_combined = torch.cat([cos_h, cos_w], dim=-1)
+        sin_combined = torch.cat([sin_h, sin_w], dim=-1)
+
+        return cos_combined, sin_combined
 
     def fast_pos_embed_interpolate(self, grid_thw: list[list[int]]) -> torch.Tensor:
         num_grid_per_side = self.num_grid_per_side
@@ -508,7 +526,7 @@ class Qwen3Omni_VisionTransformer(nn.Module):
         if self.apply_vit_abs_pos_embed:
             pos_embeds = self.fast_pos_embed_interpolate(grid_thw)
             hidden_states = hidden_states + pos_embeds
-        rotary_pos_emb = self.rot_pos_emb(grid_thw)
+        rotary_pos_emb_cos, rotary_pos_emb_sin = self.rot_pos_emb(grid_thw)
 
         cu_seqlens = torch.repeat_interleave(
             grid_thw[:, 1] * grid_thw[:, 2], grid_thw[:, 0]
@@ -519,7 +537,8 @@ class Qwen3Omni_VisionTransformer(nn.Module):
         cu_seqlens = F.pad(cu_seqlens, (1, 0), value=0)
 
         hidden_states = hidden_states.unsqueeze(1)
-        rotary_pos_emb = rotary_pos_emb.to(hidden_states.device)
+        rotary_pos_emb_cos = rotary_pos_emb_cos.to(hidden_states.device)
+        rotary_pos_emb_sin = rotary_pos_emb_sin.to(hidden_states.device)
         max_seqlen, seqlens = self.compute_attn_mask_seqlen(cu_seqlens)
 
         hidden_states_list = []
@@ -529,7 +548,8 @@ class Qwen3Omni_VisionTransformer(nn.Module):
             hidden_states = blk(
                 hidden_states,
                 cu_seqlens=cu_seqlens,
-                rotary_pos_emb=rotary_pos_emb,
+                rotary_pos_emb_cos=rotary_pos_emb_cos,
+                rotary_pos_emb_sin=rotary_pos_emb_sin,
                 max_seqlen=max_seqlen,
                 seqlens=seqlens,
             )
diff --git a/vllm/model_executor/models/qwen3_vl.py b/vllm/model_executor/models/qwen3_vl.py
index 7f0c9372991d1..99a4007ef7f23 100644
--- a/vllm/model_executor/models/qwen3_vl.py
+++ b/vllm/model_executor/models/qwen3_vl.py
@@ -63,6 +63,7 @@ from vllm.model_executor.layers.linear import (
 )
 from vllm.model_executor.layers.logits_processor import LogitsProcessor
 from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.model_executor.layers.rotary_embedding import get_rope
 from vllm.model_executor.layers.vocab_parallel_embedding import ParallelLMHead
 from vllm.model_executor.model_loader.weight_utils import default_weight_loader
 from vllm.model_executor.models.module_mapping import MultiModelKeys
@@ -95,7 +96,6 @@ from .interfaces import (
 )
 from .qwen2_5_vl import (
     Qwen2_5_VisionAttention,
-    Qwen2_5_VisionRotaryEmbedding,
     Qwen2_5_VLImageEmbeddingInputs,
     Qwen2_5_VLImageInputs,
     Qwen2_5_VLImagePixelInputs,
@@ -232,14 +232,16 @@ class Qwen3_VisionBlock(nn.Module):
         self,
         x: torch.Tensor,
         cu_seqlens: torch.Tensor,
-        rotary_pos_emb: torch.Tensor,
+        rotary_pos_emb_cos: torch.Tensor,
+        rotary_pos_emb_sin: torch.Tensor,
         max_seqlen: torch.Tensor,  # Only used for Flash Attention
         seqlens: torch.Tensor,  # Only used for xFormers
     ) -> torch.Tensor:
         x = x + self.attn(
             self.norm1(x),
             cu_seqlens=cu_seqlens,
-            rotary_pos_emb=rotary_pos_emb,
+            rotary_pos_emb_cos=rotary_pos_emb_cos,
+            rotary_pos_emb_sin=rotary_pos_emb_sin,
             max_seqlen=max_seqlen,
             seqlens=seqlens,
         )
@@ -339,7 +341,13 @@ class Qwen3_VisionTransformer(nn.Module):
 
         norm_layer = partial(nn.LayerNorm, eps=norm_eps)
         head_dim = self.hidden_size // self.num_heads
-        self.rotary_pos_emb = Qwen2_5_VisionRotaryEmbedding(head_dim // 2)
+        self.rotary_pos_emb = get_rope(
+            head_size=head_dim,
+            rotary_dim=head_dim // 2,
+            max_position=8192,
+            base=10000.0,
+            is_neox_style=True,
+        )
 
         self.merger = Qwen3_VisionPatchMerger(
             d_model=vision_config.out_hidden_size,
@@ -452,9 +460,19 @@ class Qwen3_VisionTransformer(nn.Module):
             for t, h, w in grid_thw
         ]
         pos_ids = torch.cat(pos_ids, dim=0)
-        rotary_pos_emb_full = self.rotary_pos_emb(max_grid_size)
-        rotary_pos_emb = rotary_pos_emb_full[pos_ids].flatten(1)
-        return rotary_pos_emb
+
+        # Use pre-computed cos_sin_cache from RotaryEmbedding
+        cos, sin = self.rotary_pos_emb.get_cos_sin(max_grid_size)
+
+        cos_h = cos[pos_ids[:, 0]]  # (num_tokens, rotary_dim // 2)
+        cos_w = cos[pos_ids[:, 1]]
+        sin_h = sin[pos_ids[:, 0]]
+        sin_w = sin[pos_ids[:, 1]]
+
+        cos_combined = torch.cat([cos_h, cos_w], dim=-1)
+        sin_combined = torch.cat([sin_h, sin_w], dim=-1)
+
+        return cos_combined, sin_combined
 
     def fast_pos_embed_interpolate(self, grid_thw: list[list[int]]) -> torch.Tensor:
         num_grid_per_side = self.num_grid_per_side
@@ -547,8 +565,13 @@ class Qwen3_VisionTransformer(nn.Module):
 
         pos_embeds = self.fast_pos_embed_interpolate(grid_thw_list)
         hidden_states = hidden_states + pos_embeds
-        rotary_pos_emb = self.rot_pos_emb(grid_thw_list)
-        rotary_pos_emb = rotary_pos_emb.to(hidden_states.device, non_blocking=True)
+        rotary_pos_emb_cos, rotary_pos_emb_sin = self.rot_pos_emb(grid_thw_list)
+        rotary_pos_emb_cos = rotary_pos_emb_cos.to(
+            hidden_states.device, non_blocking=True
+        )
+        rotary_pos_emb_sin = rotary_pos_emb_sin.to(
+            hidden_states.device, non_blocking=True
+        )
 
         cu_seqlens = torch.repeat_interleave(
             grid_thw[:, 1] * grid_thw[:, 2], grid_thw[:, 0]
@@ -564,7 +587,8 @@ class Qwen3_VisionTransformer(nn.Module):
             hidden_states = blk(
                 hidden_states,
                 cu_seqlens=cu_seqlens,
-                rotary_pos_emb=rotary_pos_emb,
+                rotary_pos_emb_cos=rotary_pos_emb_cos,
+                rotary_pos_emb_sin=rotary_pos_emb_sin,
                 max_seqlen=max_seqlen,
                 seqlens=seqlens,
             )

From 184b12fdc6dce87485e3bd793e13e90421f93924 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Nicol=C3=B2=20Lucchesi?= <nlucches@redhat.com>
Date: Tue, 18 Nov 2025 15:07:50 +0100
Subject: [PATCH 549/976] [Bugfix][NIXL] Fix `block_size_ratio` when logical
 !=physical blocks   (#28925)

Signed-off-by: NickLucche <nlucches@redhat.com>
Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>
---
 .../kv_connector/v1/nixl_connector.py          | 18 ++++++++++++------
 1 file changed, 12 insertions(+), 6 deletions(-)

diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py b/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
index a70c98b637131..5ff95876ef34d 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
@@ -677,12 +677,13 @@ class NixlConnectorWorker:
         mapping between local and remote TP workers.
         """
 
-        tp_size: int
         tp_rank: int
         remote_tp_size: dict[EngineId, int]
         is_mla: bool
         total_num_kv_heads: int
         attn_backend: type[AttentionBackend]
+        engine_id: EngineId
+        remote_block_size: dict[EngineId, int]
 
         def __post_init__(self):
             # Figure out whether the first dimension of the cache is K/V
@@ -710,8 +711,13 @@ class NixlConnectorWorker:
                 self.is_mla or self._use_pallas or self.is_kv_layout_blocks_first
             )
 
-        block_size: int
-        remote_block_size: dict[EngineId, int]
+        @property
+        def tp_size(self) -> int:
+            return self.remote_tp_size[self.engine_id]
+
+        @property
+        def block_size(self) -> int:
+            return self.remote_block_size[self.engine_id]
 
         def tp_ratio(
             self,
@@ -957,13 +963,12 @@ class NixlConnectorWorker:
         self.xfer_stats = NixlKVConnectorStats()
 
         self.kv_topo = self.TpKVTopology(
-            tp_size=self.world_size,
             tp_rank=self.tp_rank,
+            engine_id=self.engine_id,
             remote_tp_size=self._tp_size,  # shared state
+            remote_block_size=self._block_size,  # shared state
             is_mla=self.use_mla,
             total_num_kv_heads=self.model_config.get_total_num_kv_heads(),
-            block_size=self.block_size,
-            remote_block_size=self._block_size,
             attn_backend=backend,
         )
         self._use_pallas = self.kv_topo._use_pallas
@@ -1185,6 +1190,7 @@ class NixlConnectorWorker:
                         self.block_size // kernel_block_size
                     )
                     self.block_size = kernel_block_size
+                    self._block_size[self.engine_id] = kernel_block_size
 
                 seen_base_addresses.append(base_addr)
                 curr_tensor_size_bytes = cache.numel() * cache.element_size()

From f6aa122698790fb1a544e8d80ba97c49f02be945 Mon Sep 17 00:00:00 2001
From: Alex <30671301+killershrimp@users.noreply.github.com>
Date: Tue, 18 Nov 2025 08:21:48 -0600
Subject: [PATCH 550/976] [CI Sprint] Quantization CI Cleanup (#24130)

Signed-off-by: Alex Yun <alexyun04@gmail.com>
---
 tests/quantization/test_compressed_tensors.py    |  4 ++--
 tests/quantization/test_cpu_offload.py           | 16 ++++++++--------
 tests/quantization/test_experts_int8.py          |  6 ++++--
 tests/quantization/test_fp8.py                   | 13 ++++++++-----
 tests/quantization/test_ipex_quant.py            |  4 ++--
 tests/quantization/test_lm_head.py               |  2 +-
 tests/quantization/test_modelopt.py              |  2 +-
 tests/quantization/test_ptpc_fp8.py              |  3 ++-
 .../test_register_quantization_config.py         |  6 +++---
 tests/quantization/test_torchao.py               |  2 +-
 10 files changed, 32 insertions(+), 26 deletions(-)

diff --git a/tests/quantization/test_compressed_tensors.py b/tests/quantization/test_compressed_tensors.py
index e7d902ed26aaa..31b65189b5ec3 100644
--- a/tests/quantization/test_compressed_tensors.py
+++ b/tests/quantization/test_compressed_tensors.py
@@ -141,7 +141,7 @@ def test_compressed_tensors_w8a8_static_setup(vllm_runner, model_args):
         "neuralmagic/Llama-3.2-1B-quantized.w8a8",
     ],
 )
-@pytest.mark.parametrize("max_tokens", [8])
+@pytest.mark.parametrize("max_tokens", [4])
 @pytest.mark.parametrize("num_logprobs", [10])
 @pytest.mark.parametrize(
     "use_aiter", [True, False] if current_platform.is_rocm() else [False]
@@ -182,7 +182,7 @@ def test_compressed_tensors_w8a8_logprobs(
             example_prompts, max_tokens, num_logprobs
         )
 
-    with vllm_runner(model_path, dtype=dtype) as vllm_model:
+    with vllm_runner(model_path, dtype=dtype, enforce_eager=True) as vllm_model:
         vllm_outputs = vllm_model.generate_greedy_logprobs(
             example_prompts, max_tokens, num_logprobs
         )
diff --git a/tests/quantization/test_cpu_offload.py b/tests/quantization/test_cpu_offload.py
index a3fb4a6953474..1591ce1c4f5ad 100644
--- a/tests/quantization/test_cpu_offload.py
+++ b/tests/quantization/test_cpu_offload.py
@@ -19,8 +19,8 @@ def test_cpu_offload_fp8():
     # Test loading a quantized checkpoint
     compare_two_settings(
         "neuralmagic/Qwen2-1.5B-Instruct-FP8",
-        [],
-        ["--cpu-offload-gb", "1"],
+        ["--enforce_eager"],
+        ["--enforce_eager", "--cpu-offload-gb", "1"],
         max_wait_seconds=480,
     )
 
@@ -35,8 +35,8 @@ def test_cpu_offload_gptq(monkeypatch):
     # Test GPTQ Marlin
     compare_two_settings(
         "Qwen/Qwen2-1.5B-Instruct-GPTQ-Int4",
-        [],
-        ["--cpu-offload-gb", "1"],
+        ["--enforce_eager"],
+        ["--enforce_eager", "--cpu-offload-gb", "1"],
         max_wait_seconds=480,
     )
 
@@ -51,8 +51,8 @@ def test_cpu_offload_awq(monkeypatch):
     # Test AWQ Marlin
     compare_two_settings(
         "Qwen/Qwen2-1.5B-Instruct-AWQ",
-        [],
-        ["--cpu-offload-gb", "1"],
+        ["--enforce_eager"],
+        ["--enforce_eager", "--cpu-offload-gb", "1"],
         max_wait_seconds=480,
     )
 
@@ -67,7 +67,7 @@ def test_cpu_offload_compressed_tensors(monkeypatch):
     # Test wNa16
     compare_two_settings(
         "nm-testing/tinyllama-oneshot-w4a16-channel-v2",
-        [],
-        ["--cpu-offload-gb", "1"],
+        ["--enforce_eager"],
+        ["--enforce_eager", "--cpu-offload-gb", "1"],
         max_wait_seconds=480,
     )
diff --git a/tests/quantization/test_experts_int8.py b/tests/quantization/test_experts_int8.py
index 2a72f734e431b..b992e976ac308 100644
--- a/tests/quantization/test_experts_int8.py
+++ b/tests/quantization/test_experts_int8.py
@@ -21,7 +21,7 @@ MODELS = ["ai21labs/Jamba-tiny-random", "pfnet/plamo-2-1b"]
 )
 @pytest.mark.parametrize("model", MODELS)
 @pytest.mark.parametrize("dtype", ["bfloat16"])
-@pytest.mark.parametrize("max_tokens", [10])
+@pytest.mark.parametrize("max_tokens", [4])
 def test_model_experts_int8_startup(
     hf_runner,
     vllm_runner,
@@ -33,5 +33,7 @@ def test_model_experts_int8_startup(
     model_info = HF_EXAMPLE_MODELS.find_hf_info(model)
     model_info.check_transformers_version(on_fail="skip")
 
-    with vllm_runner(model, dtype=dtype, quantization="experts_int8") as vllm_model:
+    with vllm_runner(
+        model, dtype=dtype, enforce_eager=True, quantization="experts_int8"
+    ) as vllm_model:
         vllm_model.generate_greedy(example_prompts, max_tokens)
diff --git a/tests/quantization/test_fp8.py b/tests/quantization/test_fp8.py
index f02da2996ffea..7bcac9ad768e7 100644
--- a/tests/quantization/test_fp8.py
+++ b/tests/quantization/test_fp8.py
@@ -45,10 +45,10 @@ def test_model_load_and_run(
     if force_marlin:
         monkeypatch.setenv("VLLM_TEST_FORCE_FP8_MARLIN", "1")
 
-    with vllm_runner(model_id) as llm:
+    with vllm_runner(model_id, enforce_eager=True) as llm:
         # note: this does not test accuracy, just that we can run through
         # see lm-eval tests for accuracy
-        outputs = llm.generate_greedy(["Hello my name is"], max_tokens=10)
+        outputs = llm.generate_greedy(["Hello my name is"], max_tokens=4)
         print(outputs[0][1])
 
 
@@ -85,7 +85,7 @@ def test_kv_cache_model_load_and_run(
 
     # `LLM.apply_model` requires pickling a function.
     monkeypatch.setenv("VLLM_ALLOW_INSECURE_SERIALIZATION", "1")
-    with vllm_runner(model_id, kv_cache_dtype="fp8") as llm:
+    with vllm_runner(model_id, kv_cache_dtype="fp8", enforce_eager=True) as llm:
 
         def check_model(model):
             attn = model.model.layers[0].self_attn.attn
@@ -112,7 +112,7 @@ def test_kv_cache_model_load_and_run(
 
         # note: this does not test accuracy, just that we can run through
         # see lm-eval tests for accuracy
-        outputs = llm.generate_greedy(["Hello my name is"], max_tokens=10)
+        outputs = llm.generate_greedy(["Hello my name is"], max_tokens=4)
         print(outputs[0][1])
 
 
@@ -142,7 +142,10 @@ def test_load_fp16_model(
         monkeypatch.setenv("VLLM_TEST_FORCE_FP8_MARLIN", "1")
 
     with vllm_runner(
-        "facebook/opt-125m", quantization="fp8", kv_cache_dtype=kv_cache_dtype
+        "facebook/opt-125m",
+        quantization="fp8",
+        enforce_eager=True,
+        kv_cache_dtype=kv_cache_dtype,
     ) as llm:
 
         def check_model(model):
diff --git a/tests/quantization/test_ipex_quant.py b/tests/quantization/test_ipex_quant.py
index ae9b1df3377dc..4f3c52df6c283 100644
--- a/tests/quantization/test_ipex_quant.py
+++ b/tests/quantization/test_ipex_quant.py
@@ -26,7 +26,7 @@ DTYPE = ["bfloat16"]
 @pytest.mark.parametrize("model", MODELS)
 @pytest.mark.parametrize("dtype", DTYPE)
 def test_ipex_quant(vllm_runner, model, dtype):
-    with vllm_runner(model, dtype=dtype) as llm:
-        output = llm.generate_greedy(["The capital of France is"], max_tokens=32)
+    with vllm_runner(model, dtype=dtype, enforce_eager=True) as llm:
+        output = llm.generate_greedy(["The capital of France is"], max_tokens=4)
     assert output
     print(output)
diff --git a/tests/quantization/test_lm_head.py b/tests/quantization/test_lm_head.py
index f009a4cfb870d..d92dfaa2cc7b5 100644
--- a/tests/quantization/test_lm_head.py
+++ b/tests/quantization/test_lm_head.py
@@ -49,4 +49,4 @@ def test_lm_head(
 
         vllm_model.apply_model(check_model)
 
-        print(vllm_model.generate_greedy(["Hello my name is"], max_tokens=10)[0][1])
+        print(vllm_model.generate_greedy(["Hello my name is"], max_tokens=4)[0][1])
diff --git a/tests/quantization/test_modelopt.py b/tests/quantization/test_modelopt.py
index 8abf65d29784d..0298994c396f6 100644
--- a/tests/quantization/test_modelopt.py
+++ b/tests/quantization/test_modelopt.py
@@ -88,6 +88,6 @@ def test_modelopt_fp8_checkpoint_setup(vllm_runner):
         llm.apply_model(check_model)
 
         # Run a simple generation test to ensure the model works
-        output = llm.generate_greedy(["Hello my name is"], max_tokens=20)
+        output = llm.generate_greedy(["Hello my name is"], max_tokens=4)
         assert output
         print(f"ModelOpt FP8 output: {output}")
diff --git a/tests/quantization/test_ptpc_fp8.py b/tests/quantization/test_ptpc_fp8.py
index e8ea4148585bf..61efd2ce66c71 100644
--- a/tests/quantization/test_ptpc_fp8.py
+++ b/tests/quantization/test_ptpc_fp8.py
@@ -38,6 +38,7 @@ def test_ptpc_fp8_rocm(vllm_runner, dtype: str, kv_cache_dtype: str) -> None:
             "facebook/opt-125m",
             dtype=dtype,
             quantization="ptpc_fp8",
+            enforce_eager=True,
             kv_cache_dtype=kv_cache_dtype,
         )
     except AssertionError as e:
@@ -65,5 +66,5 @@ def test_ptpc_fp8_rocm(vllm_runner, dtype: str, kv_cache_dtype: str) -> None:
 
         llm.apply_model(check_model)
 
-        output = llm.generate_greedy("Hello my name is", max_tokens=20)
+        output = llm.generate_greedy("Hello my name is", max_tokens=4)
         assert output
diff --git a/tests/quantization/test_register_quantization_config.py b/tests/quantization/test_register_quantization_config.py
index 8da048703df93..a09856c78559a 100644
--- a/tests/quantization/test_register_quantization_config.py
+++ b/tests/quantization/test_register_quantization_config.py
@@ -23,8 +23,8 @@ from vllm.model_executor.layers.quantization import (
     get_quantization_config,
     register_quantization_config,
 )
-from vllm.model_executor.layers.quantization.base_config import (  # noqa: E501
-    QuantizationConfig,
+from vllm.model_executor.layers.quantization.base_config import (
+    QuantizationConfig,  # noqa: E501
 )
 
 
@@ -142,5 +142,5 @@ def test_custom_quant(vllm_runner, model, monkeypatch):
 
         llm.apply_model(check_model)
 
-        output = llm.generate_greedy("Hello my name is", max_tokens=20)
+        output = llm.generate_greedy("Hello my name is", max_tokens=1)
         assert output
diff --git a/tests/quantization/test_torchao.py b/tests/quantization/test_torchao.py
index 82413f36e997f..fb8d6130c3779 100644
--- a/tests/quantization/test_torchao.py
+++ b/tests/quantization/test_torchao.py
@@ -392,7 +392,7 @@ def test_opt_125m_int4wo_model_running_preshuffled_kernel_online_quant(
             assert not has_int4_preshuffled_tensor
 
         assert weight_attrs == [False, 1, 0, True]
-        output = llm.generate_greedy(["The capital of France is"], max_tokens=32)
+        output = llm.generate_greedy(["The capital of France is"], max_tokens=4)
 
         assert output
 

From 49a986ecd445db2220e750b61ba653658ea3db9b Mon Sep 17 00:00:00 2001
From: Ido Segev <idos@pliops.com>
Date: Tue, 18 Nov 2025 18:38:22 +0200
Subject: [PATCH 551/976] [Benchmark] multi_turn: Report warmup-inclusive
 runtime (#28937)

Signed-off-by: Ido Segev <idos@pliops.com>
---
 benchmarks/multi_turn/README.md               |  4 ++
 .../benchmark_serving_multi_turn.py           | 59 +++++++++++++++----
 2 files changed, 53 insertions(+), 10 deletions(-)

diff --git a/benchmarks/multi_turn/README.md b/benchmarks/multi_turn/README.md
index f5b5c6c97d484..b0be1e3a69a66 100644
--- a/benchmarks/multi_turn/README.md
+++ b/benchmarks/multi_turn/README.md
@@ -55,6 +55,10 @@ output_num_chunks  166.0    99.01   11.80    79.00    90.00    98.00   108.75
 ----------------------------------------------------------------------------------------------------
 ```
 
+If you run with `--warmup-step`, the summary will also include `warmup_runtime_sec`
+and `total_runtime_incl_warmup_sec` (while `runtime_sec` continues to reflect the
+benchmark-only runtime so the reported throughput stays comparable).
+
 ### JSON configuration file for synthetic conversations generation
 
 The input flag `--input-file` is used to determine the input conversations for the benchmark.<br/>
diff --git a/benchmarks/multi_turn/benchmark_serving_multi_turn.py b/benchmarks/multi_turn/benchmark_serving_multi_turn.py
index 772d685ad90ff..e23f6b923f1b9 100644
--- a/benchmarks/multi_turn/benchmark_serving_multi_turn.py
+++ b/benchmarks/multi_turn/benchmark_serving_multi_turn.py
@@ -1076,6 +1076,7 @@ def process_statistics(
     verbose: bool,
     gen_conv_args: GenConvArgs | None = None,
     excel_output: bool = False,
+    warmup_runtime_sec: float | None = None,
 ) -> None:
     if len(client_metrics) == 0:
         logger.info("No samples to process")
@@ -1169,8 +1170,13 @@ def process_statistics(
         # Convert milliseconds to seconds
         runtime_sec = runtime_sec / 1000.0
         requests_per_sec = float(len(df)) / runtime_sec
-
-        params = {"runtime_sec": runtime_sec, "requests_per_sec": requests_per_sec}
+        params = {
+            "runtime_sec": runtime_sec,
+            "requests_per_sec": requests_per_sec,
+        }
+        if warmup_runtime_sec is not None:
+            params["warmup_runtime_sec"] = warmup_runtime_sec
+            params["total_runtime_incl_warmup_sec"] = runtime_sec + warmup_runtime_sec
 
         # Generate a summary of relevant metrics (and drop irrelevant data)
         df = df.drop(columns=exclude).describe(percentiles=percentiles).transpose()
@@ -1552,6 +1558,8 @@ async def main() -> None:
         url=args.url, num_clients=args.num_clients, early_stop=not args.no_early_stop
     )
 
+    warmup_runtime_sec: float | None = None
+
     # Warm-up step
     if args.warmup_step:
         # Only send a single user prompt from every conversation.
@@ -1566,26 +1574,56 @@ async def main() -> None:
         # all clients should finish their work before exiting
         warmup_bench_args = bench_args._replace(early_stop=False)
 
-        logger.info(f"{Color.PURPLE}Warmup start{Color.RESET}")
+        logger.info("%sWarmup start%s", Color.PURPLE, Color.RESET)
+        warmup_start_ns = time.perf_counter_ns()
         conversations, _ = await main_mp(
             warmup_client_args, req_args, warmup_bench_args, tokenizer, conversations
         )
-        logger.info(f"{Color.PURPLE}Warmup done{Color.RESET}")
+        warmup_runtime_sec = nanosec_to_sec(time.perf_counter_ns() - warmup_start_ns)
+        logger.info(
+            "%sWarmup runtime: %.3f sec (%.3f ms)%s",
+            Color.PURPLE,
+            warmup_runtime_sec,
+            warmup_runtime_sec * 1000,
+            Color.RESET,
+        )
+        logger.info("%sWarmup done%s", Color.PURPLE, Color.RESET)
 
     # Run the benchmark
-    start_time = time.perf_counter_ns()
+    benchmark_start_ns = time.perf_counter_ns()
     client_convs, client_metrics = await main_mp(
         client_args, req_args, bench_args, tokenizer, conversations
     )
-    total_runtime_ms = nanosec_to_millisec(time.perf_counter_ns() - start_time)
+    benchmark_runtime_sec = nanosec_to_sec(time.perf_counter_ns() - benchmark_start_ns)
 
     # Calculate requests per second
-    total_runtime_sec = total_runtime_ms / 1000.0
-    rps = len(client_metrics) / total_runtime_sec
+    requests_per_sec = len(client_metrics) / benchmark_runtime_sec
+    benchmark_runtime_ms = benchmark_runtime_sec * 1000.0
     logger.info(
-        f"{Color.GREEN}All clients finished, total runtime: {total_runtime_sec:.3f} sec"
-        f" ({total_runtime_ms:.3f} ms), requests per second: {rps:.3f}{Color.RESET}"
+        "%sAll clients finished, benchmark runtime: %.3f sec (%.3f ms), "
+        "requests per second: %.3f%s",
+        Color.GREEN,
+        benchmark_runtime_sec,
+        benchmark_runtime_ms,
+        requests_per_sec,
+        Color.RESET,
     )
+    if warmup_runtime_sec is not None:
+        total_runtime_sec = benchmark_runtime_sec + warmup_runtime_sec
+        logger.info(
+            "%sWarmup runtime: %.3f sec (%.3f ms)%s",
+            Color.GREEN,
+            warmup_runtime_sec,
+            warmup_runtime_sec * 1000,
+            Color.RESET,
+        )
+        logger.info(
+            "%sTotal runtime (including warmup): %.3f sec (%.3f ms)%s",
+            Color.GREEN,
+            total_runtime_sec,
+            total_runtime_sec * 1000,
+            Color.RESET,
+        )
 
     # Benchmark parameters
     params = {
@@ -1610,6 +1648,7 @@ async def main() -> None:
         verbose=args.verbose,
         gen_conv_args=gen_conv_args,
         excel_output=args.excel_output,
+        warmup_runtime_sec=warmup_runtime_sec,
     )
 
     if args.output_file is not None:

From c2612371ad76a966cbbc443da3f3f91a4f4a3138 Mon Sep 17 00:00:00 2001
From: Luciano Martins <lucianomartins@google.com>
Date: Tue, 18 Nov 2025 13:56:29 -0300
Subject: [PATCH 552/976] [Model] Add Gemma3 GGUF multimodal support (#27772)

Signed-off-by: Luciano Martins <lucianommartins@users.noreply.github.com>
Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>
Co-authored-by: Luciano Martins <lucianommartins@users.noreply.github.com>
Co-authored-by: Isotr0py <mozf@mail2.sysu.edu.cn>
---
 requirements/common.txt                       |   2 +-
 .../generation/test_multimodal_gguf.py        | 115 +++++++++++
 tests/models/quantization/test_gguf.py        |   9 +-
 vllm/config/model.py                          |  20 +-
 .../layers/quantization/gguf.py               |  67 ++++++-
 .../model_loader/gguf_loader.py               | 188 ++++++++++++++++--
 .../model_loader/weight_utils.py              |  10 +-
 vllm/model_executor/models/gemma3_mm.py       | 172 ++++++++++------
 vllm/model_executor/models/siglip.py          |  27 +++
 vllm/transformers_utils/config.py             |  11 +
 vllm/transformers_utils/gguf_utils.py         | 166 ++++++++++++++++
 vllm/transformers_utils/processor.py          |  31 ++-
 vllm/transformers_utils/utils.py              |   1 +
 vllm/v1/worker/gpu_model_runner.py            |  19 ++
 14 files changed, 752 insertions(+), 86 deletions(-)
 create mode 100644 tests/models/multimodal/generation/test_multimodal_gguf.py
 create mode 100644 vllm/transformers_utils/gguf_utils.py

diff --git a/requirements/common.txt b/requirements/common.txt
index ad92ba3ad8278..1058ab91a02a5 100644
--- a/requirements/common.txt
+++ b/requirements/common.txt
@@ -30,7 +30,7 @@ filelock >= 3.16.1 # need to contain https://github.com/tox-dev/filelock/pull/31
 partial-json-parser # used for parsing partial JSON outputs
 pyzmq >= 25.0.0
 msgspec
-gguf >= 0.13.0
+gguf >= 0.17.0
 mistral_common[image] >= 1.8.5
 opencv-python-headless >= 4.11.0    # required for video IO
 pyyaml
diff --git a/tests/models/multimodal/generation/test_multimodal_gguf.py b/tests/models/multimodal/generation/test_multimodal_gguf.py
new file mode 100644
index 0000000000000..e596b20c6302b
--- /dev/null
+++ b/tests/models/multimodal/generation/test_multimodal_gguf.py
@@ -0,0 +1,115 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from typing import Literal, NamedTuple
+
+import pytest
+from huggingface_hub import hf_hub_download
+from pytest import MarkDecorator
+
+from tests.quantization.utils import is_quant_method_supported
+from vllm.assets.image import ImageAsset
+from vllm.utils.torch_utils import set_default_torch_num_threads
+
+from ....conftest import PromptImageInput, VllmRunner
+from ...utils import check_logprobs_close
+
+
+class GGUFMMTestConfig(NamedTuple):
+    original_model: str
+    gguf_repo: str
+    gguf_backbone: str
+    gguf_mmproj: str
+    prompt: list[str]
+    mm_data: dict[Literal["images"], PromptImageInput]
+    max_model_len: int = 4096
+    marks: list[MarkDecorator] = []
+
+    @property
+    def gguf_model(self):
+        hf_hub_download(self.gguf_repo, filename=self.gguf_mmproj)
+        return hf_hub_download(self.gguf_repo, filename=self.gguf_backbone)
+
+
+GEMMA3_CONFIG = GGUFMMTestConfig(
+    original_model="google/gemma-3-4b-it",
+    gguf_repo="google/gemma-3-4b-it-qat-q4_0-gguf",
+    gguf_backbone="gemma-3-4b-it-q4_0.gguf",
+    gguf_mmproj="mmproj-model-f16-4B.gguf",
+    prompt=["<start_of_image>Describe this image in detail:"],
+    mm_data={"images": [ImageAsset("stop_sign").pil_image]},
+    marks=[pytest.mark.core_model],
+)
+
+MODELS_TO_TEST = [GEMMA3_CONFIG]
+
+
+def run_multimodal_gguf_test(
+    vllm_runner: type[VllmRunner],
+    model: GGUFMMTestConfig,
+    dtype: str,
+    max_tokens: int,
+    num_logprobs: int,
+):
+    # Run gguf model.
+    with (
+        set_default_torch_num_threads(1),
+        vllm_runner(
+            model_name=model.gguf_model,
+            enforce_eager=True,
+            tokenizer_name=model.original_model,
+            dtype=dtype,
+            max_model_len=model.max_model_len,
+        ) as gguf_model,
+    ):
+        gguf_outputs = gguf_model.generate_greedy_logprobs(
+            prompts=model.prompt,
+            max_tokens=max_tokens,
+            num_logprobs=num_logprobs,
+            **model.mm_data,
+        )
+
+    # Run unquantized model.
+    with vllm_runner(
+        model_name=model.original_model,
+        enforce_eager=True,  # faster tests
+        dtype=dtype,
+        max_model_len=model.max_model_len,
+    ) as original_model:
+        original_outputs = original_model.generate_greedy_logprobs(
+            prompts=model.prompt,
+            max_tokens=max_tokens,
+            num_logprobs=num_logprobs,
+            **model.mm_data,
+        )
+
+    check_logprobs_close(
+        outputs_0_lst=original_outputs,
+        outputs_1_lst=gguf_outputs,
+        name_0="original",
+        name_1="gguf",
+    )
+
+
+@pytest.mark.skipif(
+    not is_quant_method_supported("gguf"),
+    reason="gguf is not supported on this GPU type.",
+)
+@pytest.mark.parametrize(
+    "model",
+    [
+        pytest.param(test_config, marks=test_config.marks)
+        for test_config in MODELS_TO_TEST
+    ],
+)
+@pytest.mark.parametrize("dtype", ["bfloat16"])
+@pytest.mark.parametrize("max_tokens", [32])
+@pytest.mark.parametrize("num_logprobs", [10])
+def test_models(
+    vllm_runner: type[VllmRunner],
+    model: GGUFMMTestConfig,
+    dtype: str,
+    max_tokens: int,
+    num_logprobs: int,
+) -> None:
+    run_multimodal_gguf_test(vllm_runner, model, dtype, max_tokens, num_logprobs)
diff --git a/tests/models/quantization/test_gguf.py b/tests/models/quantization/test_gguf.py
index 5e2438857aeef..3b9597507ac1b 100644
--- a/tests/models/quantization/test_gguf.py
+++ b/tests/models/quantization/test_gguf.py
@@ -78,6 +78,12 @@ DOLPHIN_CONFIG = GGUFTestConfig(
     gguf_filename="tinydolphin-2.8-1.1b.Q6_K.gguf",
 )
 
+GEMMA3_CONFIG = GGUFTestConfig(
+    original_model="google/gemma-3-270m-it",
+    gguf_repo="ggml-org/gemma-3-270m-it-qat-GGUF",
+    gguf_filename="gemma-3-270m-it-qat-Q4_0.gguf",
+)
+
 MODELS = [
     # LLAMA_CONFIG, # broken: https://github.com/vllm-project/vllm/issues/19458
     QWEN2_CONFIG,
@@ -85,6 +91,7 @@ MODELS = [
     GPT2_CONFIG,
     STABLELM_CONFIG,
     DOLPHIN_CONFIG,
+    GEMMA3_CONFIG,
     # STARCODER_CONFIG, # broken
 ]
 
@@ -148,7 +155,7 @@ def check_model_outputs(
     "model",
     [pytest.param(test_config, marks=test_config.marks) for test_config in MODELS],
 )
-@pytest.mark.parametrize("dtype", ["half"])
+@pytest.mark.parametrize("dtype", ["bfloat16"])
 @pytest.mark.parametrize("max_tokens", [32])
 @pytest.mark.parametrize("num_logprobs", [5])
 @pytest.mark.parametrize("tp_size", [1])
diff --git a/vllm/config/model.py b/vllm/config/model.py
index b3a28af6de389..49fe0bcd9a2ab 100644
--- a/vllm/config/model.py
+++ b/vllm/config/model.py
@@ -33,10 +33,14 @@ from vllm.transformers_utils.config import (
     try_get_generation_config,
     try_get_safetensors_metadata,
     try_get_tokenizer_config,
+    uses_custom_attention_masks,
     uses_mrope,
 )
+from vllm.transformers_utils.gguf_utils import (
+    maybe_patch_hf_config_from_gguf,
+)
 from vllm.transformers_utils.runai_utils import ObjectStorageModel, is_runai_obj_uri
-from vllm.transformers_utils.utils import maybe_model_redirect
+from vllm.transformers_utils.utils import check_gguf_file, maybe_model_redirect
 from vllm.utils.import_utils import LazyLoader
 from vllm.utils.torch_utils import common_broadcastable_dtype
 
@@ -450,6 +454,12 @@ class ModelConfig:
         self.model = maybe_model_redirect(self.model)
         # The tokenizer is consistent with the model by default.
         if self.tokenizer is None:
+            if check_gguf_file(self.model):
+                raise ValueError(
+                    "Using a tokenizer is mandatory when loading a GGUF model. "
+                    "Please specify the tokenizer path or name using the "
+                    "--tokenizer argument."
+                )
             self.tokenizer = self.model
         if self.tokenizer_revision is None:
             self.tokenizer_revision = self.revision
@@ -508,6 +518,10 @@ class ModelConfig:
             hf_overrides_kw=hf_overrides_kw,
             hf_overrides_fn=hf_overrides_fn,
         )
+        hf_config = maybe_patch_hf_config_from_gguf(
+            self.model,
+            hf_config,
+        )
 
         self.hf_config = hf_config
         if dict_overrides:
@@ -1605,6 +1619,10 @@ class ModelConfig:
     def uses_mrope(self) -> bool:
         return uses_mrope(self.hf_config)
 
+    @property
+    def uses_custom_attention_masks(self) -> bool:
+        return uses_custom_attention_masks(self.hf_config)
+
     @property
     def is_multimodal_model(self) -> bool:
         return self.multimodal_config is not None
diff --git a/vllm/model_executor/layers/quantization/gguf.py b/vllm/model_executor/layers/quantization/gguf.py
index caabcd0ca0ee5..42d7a67371ae8 100644
--- a/vllm/model_executor/layers/quantization/gguf.py
+++ b/vllm/model_executor/layers/quantization/gguf.py
@@ -1,7 +1,8 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
-from collections.abc import Callable
+from collections.abc import Callable, Mapping
+from types import MappingProxyType
 from typing import Any, Optional
 
 import gguf
@@ -26,7 +27,11 @@ from vllm.model_executor.layers.quantization.base_config import (
     QuantizationConfig,
     QuantizeMethodBase,
 )
-from vllm.model_executor.layers.vocab_parallel_embedding import VocabParallelEmbedding
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    UnquantizedEmbeddingMethod,
+    VocabParallelEmbedding,
+)
+from vllm.model_executor.models.utils import WeightsMapper
 from vllm.model_executor.utils import set_weight_attrs
 from vllm.utils.torch_utils import direct_register_custom_op
 
@@ -65,18 +70,70 @@ class GGUFConfig(QuantizationConfig):
         self, layer: torch.nn.Module, prefix: str
     ) -> Optional["QuantizeMethodBase"]:
         if isinstance(layer, LinearBase):
-            if is_layer_skipped_gguf(prefix, self.unquantized_modules):
+            if is_layer_skipped_gguf(
+                prefix, self.unquantized_modules, self.packed_modules_mapping
+            ):
                 return UnquantizedLinearMethod()
             return GGUFLinearMethod(self)
         elif isinstance(layer, VocabParallelEmbedding):
+            if is_layer_skipped_gguf(
+                prefix, self.unquantized_modules, self.packed_modules_mapping
+            ):
+                return UnquantizedEmbeddingMethod()
             return GGUFEmbeddingMethod(self)
         elif isinstance(layer, FusedMoE):
             return GGUFMoEMethod(self, layer.moe_config)
         return None
 
+    def apply_vllm_mapper(self, hf_to_vllm_mapper: "WeightsMapper"):
+        """
+        Interface for models to update module names referenced in
+        quantization configs in order to reflect the vllm model structure
 
-def is_layer_skipped_gguf(prefix: str, unquantized_modules: list[str]):
-    return any(module_name in prefix for module_name in unquantized_modules)
+        :param hf_to_vllm_mapper: maps from hf model structure (the assumed
+            structure of the qconfig) to vllm model structure
+        """
+        if self.unquantized_modules is not None:
+            self.unquantized_modules = hf_to_vllm_mapper.apply_list(
+                self.unquantized_modules
+            )
+
+
+def is_layer_skipped_gguf(
+    prefix: str,
+    unquantized_modules: list[str],
+    fused_mapping: Mapping[str, list[str]] = MappingProxyType({}),
+):
+    # Fused layers like gate_up_proj or qkv_proj will not be fused
+    # in the safetensors checkpoint. So, we convert the name
+    # from the fused version to unfused + check to make sure that
+    # each shard of the fused layer has the same scheme.
+    proj_name = prefix.split(".")[-1]
+    if proj_name in fused_mapping:
+        shard_prefixes = [
+            prefix.replace(proj_name, shard_proj_name)
+            for shard_proj_name in fused_mapping[proj_name]
+        ]
+
+        is_skipped = None
+        for shard_prefix in shard_prefixes:
+            is_shard_skipped = any(
+                shard_prefix in module_name for module_name in unquantized_modules
+            )
+
+            if is_skipped is None:
+                is_skipped = is_shard_skipped
+            elif is_shard_skipped != is_skipped:
+                raise ValueError(
+                    f"Detected some but not all shards of {prefix} "
+                    "are quantized. All shards of fused layers "
+                    "to have the same precision."
+                )
+    else:
+        is_skipped = any(module_name in prefix for module_name in unquantized_modules)
+
+    assert is_skipped is not None
+    return is_skipped
 
 
 UNQUANTIZED_TYPES = {WeightType.F32, WeightType.F16, WeightType.BF16}
diff --git a/vllm/model_executor/model_loader/gguf_loader.py b/vllm/model_executor/model_loader/gguf_loader.py
index 7db1fc167c4fa..2416836be03c4 100644
--- a/vllm/model_executor/model_loader/gguf_loader.py
+++ b/vllm/model_executor/model_loader/gguf_loader.py
@@ -7,10 +7,11 @@ import gguf
 import torch
 import torch.nn as nn
 from huggingface_hub import hf_hub_download
-from transformers import AutoModelForCausalLM
+from transformers import AutoModelForCausalLM, AutoModelForImageTextToText
 
 from vllm.config import ModelConfig, VllmConfig
 from vllm.config.load import LoadConfig
+from vllm.logger import init_logger
 from vllm.model_executor.model_loader.base_loader import BaseModelLoader
 from vllm.model_executor.model_loader.utils import (
     initialize_model,
@@ -21,8 +22,11 @@ from vllm.model_executor.model_loader.weight_utils import (
     get_gguf_weight_type_map,
     gguf_quant_weights_iterator,
 )
+from vllm.transformers_utils.gguf_utils import detect_gguf_multimodal
 from vllm.utils.torch_utils import set_default_torch_dtype
 
+logger = init_logger(__name__)
+
 
 class GGUFModelLoader(BaseModelLoader):
     """
@@ -67,7 +71,15 @@ class GGUFModelLoader(BaseModelLoader):
         https://github.com/ggerganov/ggml/blob/master/docs/gguf.md for details.
         """
         config = model_config.hf_config
+        # Get text config to handle both nested (multimodal) and flat
+        # (text-only) config structures. For multimodal models like
+        # Gemma3Config, this returns config.text_config. For text-only
+        # models, this returns config itself.
+        text_config = config.get_text_config()
         model_type = config.model_type
+        is_multimodal = (
+            hasattr(config, "vision_config") and config.vision_config is not None
+        )
         gguf_to_hf_name_map = {}
         # hack: ggufs have a different name than transformers
         if model_type == "cohere":
@@ -115,24 +127,167 @@ class GGUFModelLoader(BaseModelLoader):
                 break
         if arch is None:
             raise RuntimeError(f"Unknown gguf model_type: {model_type}")
-        num_layers = config.num_hidden_layers
-        name_map = gguf.get_tensor_name_map(arch, num_layers)
+        text_num_layers = text_config.num_hidden_layers
+        text_name_map = gguf.get_tensor_name_map(arch, text_num_layers)
+
+        if is_multimodal:
+            mm_proj_arch = gguf.MODEL_ARCH.MMPROJ
+            vision_num_layers = config.vision_config.num_hidden_layers
+            vision_name_map = gguf.get_tensor_name_map(mm_proj_arch, vision_num_layers)
+        else:
+            vision_name_map = None
+
+        # Create dummy model to extract parameter names
+        # For multimodal: use AutoModelForImageTextToText to get
+        # language + vision + projector params
+        # For text-only: use AutoModelForCausalLM to get language model params
+        auto_cls = (
+            AutoModelForImageTextToText if is_multimodal else AutoModelForCausalLM
+        )
         with torch.device("meta"):
-            dummy_model = AutoModelForCausalLM.from_config(
+            dummy_model = auto_cls.from_config(
                 config, trust_remote_code=model_config.trust_remote_code
             )
-        state_dict = dummy_model.state_dict()
 
+        state_dict = dummy_model.state_dict()
+        if hf_checkpoint_map := getattr(
+            dummy_model, "_checkpoint_conversion_mapping", None
+        ):
+
+            def revert_hf_rename(name: str) -> str:
+                for original_name, hf_name in hf_checkpoint_map.items():
+                    if hf_name in name:
+                        name = name.replace(hf_name, original_name).lstrip("^")
+                return name
+
+            state_dict = {
+                revert_hf_rename(name): tensor for name, tensor in state_dict.items()
+            }
+
+        def find_hf_name_in_tensor_map(hf_name: str) -> str | None:
+            """
+            Map HuggingFace parameter name to GGUF tensor name.
+
+            This function handles the mismatch between HF parameter naming
+            conventions and gguf-py's expected format:
+            1. Strips 'model.' prefix (common in multimodal models)
+            2. Converts '_weight' suffix to '.weight' (Gemma3 compatibility)
+            3. Searches vision_name_map for multimodal parameters
+            4. Falls back to text_name_map for language model parameters
+
+            Args:
+                hf_name: Full HuggingFace parameter name (e.g.,
+                        'model.multi_modal_projector.mm_soft_emb_norm.weight')
+
+            Returns:
+                GGUF tensor name with suffix (e.g., 'mm.soft_emb_norm.weight')
+                or None if no mapping found
+            """
+            # Strip 'language_model.' prefix for multimodal models - gguf-py
+            # tensor mappings expect parameter names without this prefix.
+            # Note: 'model.' prefix should be KEPT for text-only models as
+            # gguf-py expects it.
+            if hf_name.startswith("language_model."):
+                hf_name = hf_name[15:]  # Remove 'language_model.'
+
+            # Parse parameter name and suffix
+            if hf_name.endswith((".weight", ".bias")):
+                base_name, suffix = hf_name.rsplit(".", 1)
+            else:
+                base_name, suffix = hf_name, ""
+                # Handle '_weight' suffix (Gemma3 naming: parameter ends with
+                # '_weight' instead of '.weight')
+                if base_name.endswith("_weight"):
+                    base_name = base_name[:-7]  # Remove '_weight'
+                    suffix = "weight"
+
+            gguf_name = None
+            # Priority 1: Search vision/projector parameters for multimodal models
+            if vision_name_map is not None:
+                gguf_name = vision_name_map.get_name(base_name)
+
+            # Priority 2: Search text backbone parameters
+            if gguf_name is None:
+                gguf_name = text_name_map.get_name(base_name)
+
+            if gguf_name is None:
+                return None
+
+            return gguf_name + "." + suffix
+
+        # Build mapping and track unmapped parameters
+        unmapped_params = []
         for hf_name in state_dict:
-            name, suffix = hf_name.rsplit(".", 1)
-            gguf_name = name_map.get_name(name)
-            gguf_to_hf_name_map[f"{gguf_name}.{suffix}"] = hf_name
+            gguf_name_with_suffix = find_hf_name_in_tensor_map(hf_name)
+
+            # Track mapping success
+            if gguf_name_with_suffix is not None:
+                gguf_to_hf_name_map[gguf_name_with_suffix] = hf_name
+                logger.debug("Mapped GGUF %s → HF %s", gguf_name_with_suffix, hf_name)
+            elif hf_name not in gguf_to_hf_name_map.values():
+                # Parameter not in manual overrides either
+                unmapped_params.append(hf_name)
+
+        # All parameters must be mapped: both vision/projector and backbone
+        if unmapped_params:
+            raise RuntimeError(
+                f"Failed to map GGUF parameters "
+                f"({len(unmapped_params)}): "
+                f"{unmapped_params}"
+            )
         return gguf_to_hf_name_map
 
+    def _get_gguf_weight_type(
+        self,
+        model_config: ModelConfig,
+        model_name_or_path: str,
+        gguf_to_hf_name_map: dict[str, str],
+    ) -> dict[str, str]:
+        weight_type_map = get_gguf_weight_type_map(
+            model_config.model, gguf_to_hf_name_map
+        )
+        is_multimodal = hasattr(model_config.hf_config, "vision_config")
+        if is_multimodal:
+            mmproj_file = detect_gguf_multimodal(model_name_or_path)
+            assert mmproj_file is not None, (
+                "Could not find mm_proj file for multimodal GGUF model"
+            )
+            logger.info("Loading extra mm_proj weights from %s...", mmproj_file)
+            mm_proj_weight_type_map = get_gguf_weight_type_map(
+                mmproj_file, gguf_to_hf_name_map
+            )
+            weight_type_map.update(mm_proj_weight_type_map)
+        return weight_type_map
+
     def _get_weights_iterator(
-        self, model_name_or_path: str, gguf_to_hf_name_map: dict[str, str]
+        self,
+        model_config: ModelConfig,
+        model_name_or_path: str,
+        gguf_to_hf_name_map: dict[str, str],
     ) -> Generator[tuple[str, torch.Tensor], None, None]:
-        return gguf_quant_weights_iterator(model_name_or_path, gguf_to_hf_name_map)
+        """
+        Iterate over GGUF model weights, loading from both main model file and
+        mmproj.gguf for multimodal Gemma3 models.
+
+        For Gemma3 multimodal GGUF models:
+        - Main file (gemma-3-*.gguf): Language model weights (model.*)
+        - mmproj file (mmproj*.gguf): Vision tower + projector weights (v.*, mm.*)
+
+        Yields:
+            Tuples of (parameter_name, tensor) for all model weights
+        """
+        hf_config = model_config.hf_config
+        is_multimodal = hasattr(hf_config, "vision_config")
+
+        if is_multimodal:
+            # Load mm_proj (mm_encoder + projector) for multimodal weights
+            mmproj_file = detect_gguf_multimodal(model_name_or_path)
+            assert mmproj_file is not None, (
+                "Could not find mm_proj file for multimodal GGUF model"
+            )
+            yield from gguf_quant_weights_iterator(mmproj_file, gguf_to_hf_name_map)
+
+        yield from gguf_quant_weights_iterator(model_name_or_path, gguf_to_hf_name_map)
 
     def download_model(self, model_config: ModelConfig) -> None:
         self._prepare_weights(model_config.model)
@@ -141,7 +296,7 @@ class GGUFModelLoader(BaseModelLoader):
         local_model_path = self._prepare_weights(model_config.model)
         gguf_weights_map = self._get_gguf_weights_map(model_config)
         model.load_weights(
-            self._get_weights_iterator(local_model_path, gguf_weights_map)
+            self._get_weights_iterator(model_config, local_model_path, gguf_weights_map)
         )
 
     def load_model(
@@ -156,14 +311,19 @@ class GGUFModelLoader(BaseModelLoader):
         ):
             model_config.hf_config.update({"tie_word_embeddings": True})
 
-        weight_type_map = get_gguf_weight_type_map(model_config.model, gguf_weights_map)
-
+        weight_type_map = self._get_gguf_weight_type(
+            model_config, local_model_path, gguf_weights_map
+        )
         # filter out unquantized modules to skip
         unquant_names = [
             name.removesuffix(".weight")
             for name, weight_type in weight_type_map.items()
-            if weight_type == "F32" and name.endswith(".weight")
+            if weight_type in ("F32", "F16", "BF16") and name.endswith(".weight")
         ]
+        logger.debug(
+            "GGUF unquantized modules: %s",
+            unquant_names,
+        )
         vllm_config.quant_config.unquantized_modules.extend(unquant_names)
 
         target_device = torch.device(device_config.device)
diff --git a/vllm/model_executor/model_loader/weight_utils.py b/vllm/model_executor/model_loader/weight_utils.py
index 93986e5f2fc0a..89634cbf41241 100644
--- a/vllm/model_executor/model_loader/weight_utils.py
+++ b/vllm/model_executor/model_loader/weight_utils.py
@@ -836,7 +836,11 @@ def gguf_quant_weights_iterator(
 ) -> Generator[tuple[str, torch.Tensor], None, None]:
     """
     Iterate over the quant weights in the model gguf files and convert
-    them to torch tensors
+    them to torch tensors.
+    Be careful of the order of yielding weight types and weights data,
+    we have to yield all weight types first before yielding any weights.
+    Otherwise it would cause issue when loading weights with for packed
+    layer with different quant types.
     """
 
     reader = gguf.GGUFReader(gguf_file)
@@ -846,7 +850,7 @@ def gguf_quant_weights_iterator(
             weight_type = tensor.tensor_type
             name = gguf_to_hf_name_map[tensor.name]
 
-            if weight_type.name != "F32":
+            if weight_type.name not in ("F32", "BF16", "F16"):
                 weight_type_name = name.replace("weight", "qweight_type")
                 weight_type = torch.tensor(weight_type)
                 yield weight_type_name, weight_type
@@ -856,7 +860,7 @@ def gguf_quant_weights_iterator(
             weight = tensor.data
             weight_type = tensor.tensor_type
             name = gguf_to_hf_name_map[tensor.name]
-            if weight_type.name != "F32":
+            if weight_type.name not in ("F32", "BF16", "F16"):
                 name = name.replace("weight", "qweight")
             param = torch.tensor(weight)
             yield name, param
diff --git a/vllm/model_executor/models/gemma3_mm.py b/vllm/model_executor/models/gemma3_mm.py
index 8e2bbe8f7990c..fe83c8b63b018 100644
--- a/vllm/model_executor/models/gemma3_mm.py
+++ b/vllm/model_executor/models/gemma3_mm.py
@@ -2,7 +2,7 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 import math
 from collections.abc import Iterable, Mapping, Sequence
-from typing import Annotated, Any, Literal, TypeAlias
+from typing import Annotated, Any, Literal
 
 import torch
 from torch import nn
@@ -20,12 +20,7 @@ from vllm.multimodal.inputs import (
     MultiModalFieldConfig,
     MultiModalKwargsItems,
 )
-from vllm.multimodal.parse import (
-    ImageEmbeddingItems,
-    ImageProcessorItems,
-    ImageSize,
-    MultiModalDataItems,
-)
+from vllm.multimodal.parse import ImageProcessorItems, ImageSize, MultiModalDataItems
 from vllm.multimodal.processing import (
     BaseMultiModalProcessor,
     BaseProcessingInfo,
@@ -76,15 +71,7 @@ class Gemma3ImagePixelInputs(TensorSchema):
     num_patches: Annotated[torch.Tensor, TensorShape("bn")]
 
 
-class Gemma3ImageEmbeddingInputs(TensorSchema):
-    type: Literal["image_embeds"] = "image_embeds"
-    image_embeds: Annotated[
-        torch.Tensor,
-        TensorShape("ni", "nf", "hs"),
-    ]
-
-
-Gemma3ImageInputs: TypeAlias = Gemma3ImagePixelInputs | Gemma3ImageEmbeddingInputs
+Gemma3ImageInputs = Gemma3ImagePixelInputs
 
 
 class Gemma3ProcessingInfo(BaseProcessingInfo):
@@ -191,9 +178,8 @@ class Gemma3ProcessingInfo(BaseProcessingInfo):
     def get_image_repl(
         self,
         *,
-        image_width: int | None,
-        image_height: int | None,
-        num_crops: int | None = None,
+        image_width: int,
+        image_height: int,
         processor: Gemma3Processor | None,
     ) -> PromptUpdateDetails[str]:
         if processor is None:
@@ -201,13 +187,11 @@ class Gemma3ProcessingInfo(BaseProcessingInfo):
 
         boi_token = processor.boi_token
 
-        if num_crops is None:
-            assert image_width is not None and image_height is not None
-            num_crops = self.get_num_crops(
-                image_width=image_width,
-                image_height=image_height,
-                processor=processor,
-            )
+        num_crops = self.get_num_crops(
+            image_width=image_width,
+            image_height=image_height,
+            processor=processor,
+        )
 
         if num_crops == 0:
             image_text = boi_token
@@ -337,7 +321,6 @@ class Gemma3MultiModalProcessor(BaseMultiModalProcessor[Gemma3ProcessingInfo]):
         return dict(
             pixel_values=MultiModalFieldConfig.flat_from_sizes("image", num_patches),
             num_patches=MultiModalFieldConfig.batched("image"),
-            image_embeds=MultiModalFieldConfig.batched("image"),
         )
 
     def _get_prompt_updates(
@@ -350,19 +333,7 @@ class Gemma3MultiModalProcessor(BaseMultiModalProcessor[Gemma3ProcessingInfo]):
         image_token = hf_processor.boi_token
 
         def get_replacement_gemma3(item_idx: int):
-            images = mm_items.get_items(
-                "image", (ImageEmbeddingItems, ImageProcessorItems)
-            )
-
-            if isinstance(images, ImageEmbeddingItems):
-                # For image embedding inputs, only support no crops cases
-                # since it's not supported in hf processor anyway
-                return self.info.get_image_repl(
-                    image_width=None,
-                    image_height=None,
-                    num_crops=0,
-                    processor=hf_processor,
-                )
+            images = mm_items.get_items("image", ImageProcessorItems)
 
             image_size = images.get_image_size(item_idx)
             return self.info.get_image_repl(
@@ -586,19 +557,17 @@ class Gemma3ForConditionalGeneration(
         pixel_values = kwargs.pop("pixel_values", None)
         num_patches = kwargs.pop("num_patches", None)
         image_embeds = kwargs.pop("image_embeds", None)
+        assert image_embeds is None, "Gemma3 does not support image_embeds."
+        if pixel_values is None:
+            return None
 
-        if pixel_values is not None:
-            image_size = self.config.vision_config.image_size
-            return Gemma3ImagePixelInputs(
-                pixel_values=pixel_values,
-                num_patches=num_patches,
-                resolve_bindings={"h": image_size, "w": image_size},
-            )
-        elif image_embeds is not None:
-            return Gemma3ImageEmbeddingInputs(
-                image_embeds=image_embeds,
-                type="image_embeds",
-            )
+        image_size = self.config.vision_config.image_size
+
+        return Gemma3ImagePixelInputs(
+            pixel_values=pixel_values,
+            num_patches=num_patches,
+            resolve_bindings={"h": image_size, "w": image_size},
+        )
 
     def _image_pixels_to_features(
         self,
@@ -610,9 +579,7 @@ class Gemma3ForConditionalGeneration(
     def _process_image_input(
         self,
         image_input: Gemma3ImageInputs,
-    ) -> torch.Tensor | list[torch.Tensor]:
-        if image_input["type"] == "image_embeds":
-            return image_input["image_embeds"]
+    ) -> list[torch.Tensor]:
         assert self.vision_tower is not None
 
         pixel_values = image_input["pixel_values"]
@@ -629,13 +596,33 @@ class Gemma3ForConditionalGeneration(
     def get_language_model(self) -> torch.nn.Module:
         return self.language_model
 
-    def embed_multimodal(self, **kwargs: object) -> MultiModalEmbeddings:
+    def get_multimodal_embeddings(self, **kwargs: object) -> MultiModalEmbeddings:
         image_input = self._parse_and_validate_image_input(**kwargs)
         if image_input is None:
             return []
 
         return self._process_image_input(image_input)
 
+    def embed_input_ids(
+        self,
+        input_ids: torch.Tensor,
+        multimodal_embeddings: MultiModalEmbeddings | None = None,
+        *,
+        is_multimodal: torch.Tensor | None = None,
+        handle_oov_mm_token: bool = True,
+    ) -> torch.Tensor:
+        # Early return for text-only inference (no multimodal data)
+        if multimodal_embeddings is None or is_multimodal is None:
+            return super().embed_input_ids(input_ids)
+
+        # Use interface default with OOV handling enabled
+        return super().embed_input_ids(
+            input_ids,
+            multimodal_embeddings=multimodal_embeddings,
+            is_multimodal=is_multimodal,
+            handle_oov_mm_token=handle_oov_mm_token,
+        )
+
     def forward(
         self,
         input_ids: torch.Tensor,
@@ -657,6 +644,79 @@ class Gemma3ForConditionalGeneration(
 
         return hidden_states
 
+    def generate_attention_masks(
+        self,
+        input_ids: torch.Tensor,
+        positions: torch.Tensor,
+        mask_dtype: torch.dtype,
+    ) -> dict[str, Any]:
+        """Generate custom attention masks for Gemma3 multimodal inputs.
+
+        This is called by V1 engine's gpu_model_runner during preprocessing
+        to generate attention masks that allow bidirectional attention between
+        image tokens while maintaining causal attention for text.
+        """
+        # NOTE(woosuk): Here, we distinguish the sequences by the position id 0.
+        # This is a HACK. Fix this.
+        start_indices = (positions == 0).cpu().nonzero()
+        num_seqs = len(start_indices)
+        seq_lens = []
+        for i in range(num_seqs):
+            start_idx = start_indices[i]
+            end_idx = start_indices[i + 1] if i < num_seqs - 1 else len(input_ids)
+            seq_lens.append(end_idx - start_idx)
+
+        global_attn_masks = []
+        local_attn_masks = []
+        start_idx = 0
+        for seq_idx, seq_len in enumerate(seq_lens):
+            end_idx = start_idx + seq_len
+            input_token_ids = input_ids[start_idx:end_idx]
+
+            # Find image token positions
+            img_pos = input_token_ids == self.config.image_token_index
+
+            start_idx = end_idx
+
+            # Create a global causal mask
+            global_attn_mask = torch.empty(
+                1,
+                1,
+                seq_len,
+                seq_len,
+                dtype=mask_dtype,
+                device=input_ids.device,
+            )
+            global_attn_mask.fill_(float("-inf"))
+            # Fill the lower triangle with 0 (causal attention)
+            global_attn_mask = global_attn_mask.triu(diagonal=1)
+
+            # Enable bidirectional attention between image tokens
+            img_mask = torch.zeros_like(global_attn_mask)
+            img_mask[:, :, :, img_pos] += 1
+            img_mask[:, :, img_pos, :] += 1
+            global_attn_mask = torch.where(img_mask == 2, 0, global_attn_mask)
+            global_attn_masks.append(global_attn_mask)
+
+            # GGUF compatibility: config might be Gemma3TextConfig directly
+            text_config = getattr(self.config, "text_config", self.config)
+            sliding_window = text_config.sliding_window
+            if sliding_window is not None:
+                # Create a local causal mask with sliding window (1024)
+                local_attn_mask = torch.ones_like(global_attn_mask)
+                local_attn_mask = torch.tril(local_attn_mask, diagonal=-sliding_window)
+                local_attn_mask = torch.where(
+                    local_attn_mask == 0, global_attn_mask, float("-inf")
+                )
+                local_attn_masks.append(local_attn_mask)
+
+        return {
+            "has_images": True,
+            "seq_lens": seq_lens,
+            "global_attn_masks": global_attn_masks,
+            "local_attn_masks": local_attn_masks,
+        }
+
     def prepare_attn_masks(
         self,
         input_ids: torch.Tensor,
diff --git a/vllm/model_executor/models/siglip.py b/vllm/model_executor/models/siglip.py
index b175dd60cf650..42d906d089f90 100644
--- a/vllm/model_executor/models/siglip.py
+++ b/vllm/model_executor/models/siglip.py
@@ -827,6 +827,7 @@ class SiglipVisionModel(nn.Module):
     ) -> None:
         super().__init__()
 
+        self.quant_config = quant_config
         self.vision_model = SiglipVisionTransformer(
             config,
             quant_config,
@@ -911,12 +912,38 @@ class SiglipVisionModel(nn.Module):
                 break
             else:
                 param = params_dict[name]
+                param = maybe_swap_ffn_param(
+                    name, param, loaded_weight, params_dict, self.quant_config
+                )
                 weight_loader = getattr(param, "weight_loader", default_weight_loader)
                 weight_loader(param, loaded_weight)
             loaded_params.add(name)
         return loaded_params
 
 
+def maybe_swap_ffn_param(
+    name: str,
+    param: torch.Tensor,
+    loaded_weight: torch.Tensor,
+    params_dict: dict[str, torch.Tensor],
+    quant_config: QuantizationConfig,
+) -> torch.Tensor:
+    if not (quant_config and quant_config.get_name() == "gguf") or ".fc" not in name:
+        return param
+    # Some GGUF models have fc1 and fc2 weights swapped
+    tp_size = get_tensor_model_parallel_world_size()
+    output_dim = getattr(param, "output_dim", 0)
+    output_size = param.size(output_dim) * tp_size
+    weight_out_size = loaded_weight.size(output_dim)
+    if ".fc1." in name and output_size != weight_out_size:
+        new_name = name.replace(".fc1.", ".fc2.")
+        param = params_dict[new_name]
+    elif ".fc2." in name and output_size != weight_out_size:
+        new_name = name.replace(".fc2.", ".fc1.")
+        param = params_dict[new_name]
+    return param
+
+
 # Adapted from: https://github.com/huggingface/transformers/blob/v4.54.1/src/transformers/models/siglip/modeling_siglip.py#L200
 class SiglipTextEmbeddings(nn.Module):
     def __init__(self, config: SiglipTextConfig):
diff --git a/vllm/transformers_utils/config.py b/vllm/transformers_utils/config.py
index 49250e071eab2..ac4a71648cec8 100644
--- a/vllm/transformers_utils/config.py
+++ b/vllm/transformers_utils/config.py
@@ -477,6 +477,17 @@ def is_interleaved(config: PretrainedConfig) -> bool:
     return False
 
 
+def uses_custom_attention_masks(config: PretrainedConfig) -> bool:
+    """Detect if model uses custom attention mask generation for multimodal.
+
+    Some multimodal models require custom attention masks that enable
+    bidirectional attention between image tokens while maintaining causal
+    attention for text tokens. Currently applies to Gemma3 multimodal models.
+    """
+    architectures = getattr(config, "architectures", [])
+    return "Gemma3ForConditionalGeneration" in architectures
+
+
 def _maybe_update_auto_config_kwargs(kwargs: dict[str, Any], model_type: str):
     """
     Update kwargs for AutoConfig initialization based on model_type
diff --git a/vllm/transformers_utils/gguf_utils.py b/vllm/transformers_utils/gguf_utils.py
new file mode 100644
index 0000000000000..2bf59c91a3bb1
--- /dev/null
+++ b/vllm/transformers_utils/gguf_utils.py
@@ -0,0 +1,166 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""GGUF utility functions."""
+
+from pathlib import Path
+
+import gguf
+from gguf.constants import Keys, VisionProjectorType
+from transformers import Gemma3Config, PretrainedConfig, SiglipVisionConfig
+
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+def detect_gguf_multimodal(model: str) -> Path | None:
+    """Check if GGUF model has multimodal projector file.
+
+    Args:
+        model: Model path string
+
+    Returns:
+        Path to mmproj file if found, None otherwise
+    """
+    if not model.endswith(".gguf"):
+        return None
+
+    try:
+        model_path = Path(model)
+        if not model_path.is_file():
+            return None
+
+        model_dir = model_path.parent
+        mmproj_patterns = ["mmproj.gguf", "mmproj-*.gguf", "*mmproj*.gguf"]
+        for pattern in mmproj_patterns:
+            mmproj_files = list(model_dir.glob(pattern))
+            if mmproj_files:
+                return mmproj_files[0]
+        return None
+    except Exception:
+        return None
+
+
+def extract_vision_config_from_gguf(mmproj_path: str) -> "SiglipVisionConfig | None":
+    """Extract vision config parameters from mmproj.gguf metadata.
+
+    Reads vision encoder configuration from GGUF metadata fields using
+    standardized GGUF constants. Automatically detects the projector type
+    (e.g., gemma3, llama4) and applies model-specific parameters accordingly.
+
+    The function extracts standard CLIP vision parameters from GGUF metadata
+    and applies projector-type-specific customizations. For unknown projector
+    types, it uses safe defaults from SiglipVisionConfig.
+
+    Args:
+        mmproj_path: Path to mmproj.gguf file (str or Path)
+
+    Returns:
+        SiglipVisionConfig if extraction succeeds, None if any required
+        field is missing from the GGUF metadata
+
+    Raises:
+        Exception: Exceptions from GGUF reading (file not found, corrupted
+            file, etc.) propagate directly from gguf.GGUFReader
+    """
+    reader = gguf.GGUFReader(str(mmproj_path))
+
+    # Detect projector type to apply model-specific parameters
+    projector_type = None
+    projector_type_field = reader.get_field(Keys.Clip.PROJECTOR_TYPE)
+    if projector_type_field:
+        try:
+            projector_type = bytes(projector_type_field.parts[-1]).decode("utf-8")
+        except (AttributeError, UnicodeDecodeError) as e:
+            logger.warning("Failed to decode projector type from GGUF: %s", e)
+
+    # Map GGUF field constants to SiglipVisionConfig parameters.
+    # Uses official GGUF constants from gguf-py for standardization.
+    # Format: {gguf_constant: (param_name, dtype)}
+    VISION_CONFIG_FIELDS = {
+        Keys.ClipVision.EMBEDDING_LENGTH: ("hidden_size", int),
+        Keys.ClipVision.FEED_FORWARD_LENGTH: ("intermediate_size", int),
+        Keys.ClipVision.BLOCK_COUNT: ("num_hidden_layers", int),
+        Keys.ClipVision.Attention.HEAD_COUNT: ("num_attention_heads", int),
+        Keys.ClipVision.IMAGE_SIZE: ("image_size", int),
+        Keys.ClipVision.PATCH_SIZE: ("patch_size", int),
+        Keys.ClipVision.Attention.LAYERNORM_EPS: ("layer_norm_eps", float),
+    }
+
+    # Extract and validate all required fields
+    config_params = {}
+    for gguf_key, (param_name, dtype) in VISION_CONFIG_FIELDS.items():
+        field = reader.get_field(gguf_key)
+        if field is None:
+            logger.warning(
+                "Missing required vision config field '%s' in mmproj.gguf",
+                gguf_key,
+            )
+            return None
+        # Extract scalar value from GGUF field and convert to target type
+        config_params[param_name] = dtype(field.parts[-1])
+
+    # Apply model-specific parameters based on projector type
+    if projector_type == VisionProjectorType.GEMMA3:
+        # Gemma3 doesn't use the vision pooling head (multihead attention)
+        # This is a vLLM-specific parameter used in SiglipVisionTransformer
+        config_params["vision_use_head"] = False
+        logger.info("Detected Gemma3 projector, disabling vision pooling head")
+    # Add other projector-type-specific customizations here as needed
+    # elif projector_type == VisionProjectorType.LLAMA4:
+    #     config_params["vision_use_head"] = ...
+
+    # Create config with extracted parameters
+    # Note: num_channels and attention_dropout use SiglipVisionConfig defaults
+    # (3 and 0.0 respectively) which are correct for all models
+    config = SiglipVisionConfig(**config_params)
+
+    if projector_type:
+        logger.info(
+            "Extracted vision config from mmproj.gguf (projector_type: %s)",
+            projector_type,
+        )
+    else:
+        logger.info("Extracted vision config from mmproj.gguf metadata")
+
+    return config
+
+
+def maybe_patch_hf_config_from_gguf(
+    model: str,
+    hf_config: PretrainedConfig,
+) -> PretrainedConfig:
+    """Patch HF config for GGUF models.
+
+    Applies GGUF-specific patches to HuggingFace config:
+    1. For multimodal models: patches architecture and vision config
+    2. For all GGUF models: overrides vocab_size from embedding tensor
+
+    This ensures compatibility with GGUF models that have extended
+    vocabularies (e.g., Unsloth) where the GGUF file contains more
+    tokens than the HuggingFace tokenizer config specifies.
+
+    Args:
+        model: Model path string
+        hf_config: HuggingFace config to patch in-place
+
+    Returns:
+        Updated HuggingFace config
+    """
+    # Patch multimodal config if mmproj.gguf exists
+    mmproj_path = detect_gguf_multimodal(model)
+    if mmproj_path is not None:
+        vision_config = extract_vision_config_from_gguf(str(mmproj_path))
+
+        # Create HF config for Gemma3 multimodal
+        text_config = hf_config.get_text_config()
+        is_gemma3 = hf_config.model_type in ("gemma3", "gemma3_text")
+        if vision_config is not None and is_gemma3:
+            new_hf_config = Gemma3Config.from_text_vision_configs(
+                text_config=text_config,
+                vision_config=vision_config,
+                architectures=["Gemma3ForConditionalGeneration"],
+            )
+            hf_config = new_hf_config
+
+    return hf_config
diff --git a/vllm/transformers_utils/processor.py b/vllm/transformers_utils/processor.py
index b3469c1b18f2d..8deacb5b07913 100644
--- a/vllm/transformers_utils/processor.py
+++ b/vllm/transformers_utils/processor.py
@@ -18,7 +18,7 @@ from transformers.processing_utils import ProcessorMixin
 from transformers.video_processing_utils import BaseVideoProcessor
 from typing_extensions import TypeVar
 
-from vllm.transformers_utils.utils import convert_model_repo_to_path
+from vllm.transformers_utils.utils import check_gguf_file, convert_model_repo_to_path
 from vllm.utils.func_utils import get_allowed_kwarg_only_overrides
 
 if TYPE_CHECKING:
@@ -236,9 +236,20 @@ def cached_processor_from_config(
     processor_cls: type[_P] | tuple[type[_P], ...] = ProcessorMixin,
     **kwargs: Any,
 ) -> _P:
+    if check_gguf_file(model_config.model):
+        assert not check_gguf_file(model_config.tokenizer), (
+            "For multimodal GGUF models, the original tokenizer "
+            "should be used to correctly load processor."
+        )
+        model = model_config.tokenizer
+        revision = model_config.tokenizer_revision
+    else:
+        model = model_config.model
+        revision = model_config.revision
+
     return cached_get_processor_without_dynamic_kwargs(
-        model_config.model,
-        revision=model_config.revision,
+        model,
+        revision=revision,
         trust_remote_code=model_config.trust_remote_code,
         processor_cls=processor_cls,  # type: ignore[arg-type]
         **_merge_mm_kwargs(model_config, processor_cls, **kwargs),
@@ -339,9 +350,19 @@ def cached_image_processor_from_config(
     model_config: "ModelConfig",
     **kwargs: Any,
 ):
+    if check_gguf_file(model_config.model):
+        assert not check_gguf_file(model_config.tokenizer), (
+            "For multimodal GGUF models, the original tokenizer "
+            "should be used to correctly load image processor."
+        )
+        model = model_config.tokenizer
+        revision = model_config.tokenizer_revision
+    else:
+        model = model_config.model
+        revision = model_config.revision
     return cached_get_image_processor(
-        model_config.model,
-        revision=model_config.revision,
+        model,
+        revision=revision,
         trust_remote_code=model_config.trust_remote_code,
         **_merge_mm_kwargs(model_config, AutoImageProcessor, **kwargs),
     )
diff --git a/vllm/transformers_utils/utils.py b/vllm/transformers_utils/utils.py
index 1ae42ba622dc4..901a64d9d2633 100644
--- a/vllm/transformers_utils/utils.py
+++ b/vllm/transformers_utils/utils.py
@@ -27,6 +27,7 @@ def is_cloud_storage(model_or_path: str) -> bool:
     return is_s3(model_or_path) or is_gcs(model_or_path)
 
 
+@cache
 def check_gguf_file(model: str | PathLike) -> bool:
     """Check if the file is a GGUF model."""
     model = Path(model)
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index 0102ca4739ad5..67f575f92cc6b 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -324,6 +324,7 @@ class GPUModelRunner(
         # Multi-modal data support
         self.mm_registry = MULTIMODAL_REGISTRY
         self.uses_mrope = model_config.uses_mrope
+        self.uses_custom_attention_masks = model_config.uses_custom_attention_masks
         self.supports_mm_inputs = self.mm_registry.supports_multimodal_inputs(
             model_config
         )
@@ -2346,6 +2347,24 @@ class GPUModelRunner(
                 **self._init_model_kwargs(num_scheduled_tokens),
                 **self._extract_mm_kwargs(scheduler_output),
             }
+
+            # Generate custom attention masks for models that require them.
+            # V1 pre-generates embeddings, so forward() skips prepare_attn_masks().
+            # Check mm_features (mm_embeds is empty during decode).
+            has_mm_features = any(
+                req_state.mm_features for req_state in self.requests.values()
+            )
+            if (
+                self.uses_custom_attention_masks
+                and has_mm_features
+                and hasattr(self.model, "generate_attention_masks")
+            ):
+                mask_kwargs = self.model.generate_attention_masks(
+                    self.input_ids.gpu[:num_scheduled_tokens],
+                    self.positions.gpu[:num_scheduled_tokens],
+                    mask_dtype=self.model.dtype,
+                )
+                model_kwargs.update(mask_kwargs)
         elif self.enable_prompt_embeds and is_first_rank:
             # Get the input embeddings for the tokens that are not input embeds,
             # then put them into the appropriate positions.

From f226a3f0c11aed72f585ebd2942d4a6832adbfb9 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Nicol=C3=B2=20Lucchesi?= <nlucches@redhat.com>
Date: Tue, 18 Nov 2025 18:22:30 +0100
Subject: [PATCH 553/976] [CI][NIXL] Change default `block_size` for tests
 (#28927)

Signed-off-by: NickLucche <nlucches@redhat.com>
---
 tests/v1/kv_connector/nixl_integration/run_accuracy_test.sh | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/tests/v1/kv_connector/nixl_integration/run_accuracy_test.sh b/tests/v1/kv_connector/nixl_integration/run_accuracy_test.sh
index ebc8575e5b390..87c9a105e9363 100755
--- a/tests/v1/kv_connector/nixl_integration/run_accuracy_test.sh
+++ b/tests/v1/kv_connector/nixl_integration/run_accuracy_test.sh
@@ -49,8 +49,8 @@ NUM_DECODE_INSTANCES=${NUM_DECODE_INSTANCES:-1}   # Default to 1
 PREFILLER_TP_SIZE=${PREFILLER_TP_SIZE:-1}
 DECODER_TP_SIZE=${DECODER_TP_SIZE:-1}
 GPU_MEMORY_UTILIZATION=${GPU_MEMORY_UTILIZATION:-0.2}
-PREFILL_BLOCK_SIZE=${PREFILL_BLOCK_SIZE:-16}
-DECODE_BLOCK_SIZE=${DECODE_BLOCK_SIZE:-16}
+PREFILL_BLOCK_SIZE=${PREFILL_BLOCK_SIZE:-128}
+DECODE_BLOCK_SIZE=${DECODE_BLOCK_SIZE:-128}
 
 # Find the git repository root directory
 GIT_ROOT=$(git rev-parse --show-toplevel)

From da8dadf68b5a2af849e7c5fd35ce9b8525d8d398 Mon Sep 17 00:00:00 2001
From: Nick Hill <nhill@redhat.com>
Date: Tue, 18 Nov 2025 09:26:07 -0800
Subject: [PATCH 554/976] [Minor] Rename `ec_producer` field to
 `is_ec_producer` (#28884)

Signed-off-by: Nick Hill <nhill@redhat.com>
---
 vllm/v1/engine/core.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/vllm/v1/engine/core.py b/vllm/v1/engine/core.py
index d49eb752d56a5..3a25827cec385 100644
--- a/vllm/v1/engine/core.py
+++ b/vllm/v1/engine/core.py
@@ -180,7 +180,7 @@ class EngineCore:
             logger.info("Batch queue is enabled with size %d", self.batch_queue_size)
             self.batch_queue = deque(maxlen=self.batch_queue_size)
 
-        self.ec_producer = (
+        self.is_ec_producer = (
             vllm_config.ec_transfer_config is not None
             and vllm_config.ec_transfer_config.is_ec_producer
         )
@@ -390,7 +390,7 @@ class EngineCore:
             exec_future = self.model_executor.execute_model(
                 scheduler_output, non_block=True
             )
-            if not self.ec_producer:
+            if not self.is_ec_producer:
                 model_executed = scheduler_output.total_num_scheduled_tokens > 0
 
             if self.is_pooling_model or not model_executed:

From 0af3d4f0df360decc2115f43f5e4bc732342e7e4 Mon Sep 17 00:00:00 2001
From: vllmellm <vllm.ellm@embeddedllm.com>
Date: Wed, 19 Nov 2025 01:28:34 +0800
Subject: [PATCH 555/976] =?UTF-8?q?[FEAT]=20[AITER]=20[ROCm]=20integrate?=
 =?UTF-8?q?=20aiter=C2=A0sampling=C2=A0ops=20(#26084)?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Signed-off-by: vllmellm <vllm.ellm@embeddedllm.com>
---
 vllm/v1/sample/ops/topk_topp_sampler.py | 77 +++++++++++++++++++++++++
 1 file changed, 77 insertions(+)

diff --git a/vllm/v1/sample/ops/topk_topp_sampler.py b/vllm/v1/sample/ops/topk_topp_sampler.py
index 02ea658b7f20e..c6c7e924175f7 100644
--- a/vllm/v1/sample/ops/topk_topp_sampler.py
+++ b/vllm/v1/sample/ops/topk_topp_sampler.py
@@ -7,6 +7,7 @@ import torch.nn as nn
 from packaging import version
 
 from vllm import envs
+from vllm._aiter_ops import rocm_aiter_ops
 from vllm.config.model import LogprobsMode
 from vllm.logger import init_logger
 from vllm.platforms import CpuArchEnum, current_platform
@@ -55,6 +56,17 @@ class TopKTopPSampler(nn.Module):
                 self.forward = self.forward_native
             else:
                 self.forward = self.forward_cpu
+        elif (
+            logprobs_mode not in ("processed_logits", "processed_logprobs")
+            and rocm_aiter_ops.is_enabled()
+        ):
+            import aiter.ops.sampling  # noqa: F401
+
+            self.aiter_ops = torch.ops.aiter
+            logger.info_once(
+                "Using aiter sampler on ROCm (lazy import, sampling-only)."
+            )
+            self.forward = self.forward_hip
         else:
             self.forward = self.forward_native
 
@@ -138,6 +150,64 @@ class TopKTopPSampler(nn.Module):
 
             return probs.div_(q).argmax(dim=-1).view(-1), logits_to_return
 
+    def forward_hip(
+        self,
+        logits: torch.Tensor,
+        generators: dict[int, torch.Generator],
+        k: torch.Tensor | None,
+        p: torch.Tensor | None,
+    ) -> tuple[torch.Tensor, torch.Tensor | None]:
+        """Optimized ROCm/aiter path (same structure as forward_cuda)."""
+        if (k is None and p is None) or generators:
+            if generators:
+                logger.warning_once(
+                    "aiter sampler does not support per-request generators; "
+                    "falling back to PyTorch-native."
+                )
+            return self.forward_native(logits, generators, k, p)
+        assert self.logprobs_mode not in (
+            "processed_logits",
+            "processed_logprobs",
+        ), "aiter sampler does not support returning logits/logprobs."
+        return self.aiter_sample(logits, k, p, generators), None
+
+    def aiter_sample(
+        self,
+        logits: torch.Tensor,
+        k: torch.Tensor | None,
+        p: torch.Tensor | None,
+        generators: dict[int, torch.Generator],
+    ) -> torch.Tensor:
+        """Sample from logits using aiter ops."""
+        use_top_k = k is not None
+        use_top_p = p is not None
+        # Joint k+p path
+        if use_top_p and use_top_k:
+            probs = logits.softmax(dim=-1, dtype=torch.float32).contiguous()
+            next_token_ids = self.aiter_ops.top_k_top_p_sampling_from_probs(
+                probs,
+                None,
+                *_to_tensor_scalar_tuple(k),
+                *_to_tensor_scalar_tuple(p),
+                deterministic=True,
+            )
+            return next_token_ids.view(-1)
+        # Top-p only path
+        elif use_top_p:
+            probs = logits.softmax(dim=-1, dtype=torch.float32).contiguous()
+            next_token_ids = self.aiter_ops.top_p_sampling_from_probs(
+                probs, None, *_to_tensor_scalar_tuple(p), deterministic=True
+            )
+            return next_token_ids.view(-1)
+        # Top-k only path
+        elif use_top_k:
+            probs = logits.softmax(dim=-1, dtype=torch.float32).contiguous()
+            renorm_probs = self.aiter_ops.top_k_renorm_probs(
+                probs, *_to_tensor_scalar_tuple(k)
+            )
+            return torch.multinomial(renorm_probs, num_samples=1).view(-1)
+        raise RuntimeError("aiter_sample was called with no active top-k or top-p.")
+
 
 # Note: this is a workaround for
 # https://github.com/pytorch/pytorch/pull/151218
@@ -288,3 +358,10 @@ def flashinfer_sample(
         )
 
     return next_token_ids.view(-1)
+
+
+def _to_tensor_scalar_tuple(x):
+    if isinstance(x, torch.Tensor):
+        return (x, 0)
+    else:
+        return (None, x)

From c64c0b78de4716ef019666663c56b6ceaa019463 Mon Sep 17 00:00:00 2001
From: "Kevin H. Luu" <khluu000@gmail.com>
Date: Tue, 18 Nov 2025 09:44:18 -0800
Subject: [PATCH 556/976] [chore] Move the rest of wikimedia url to S3 (#28921)

Signed-off-by: Kevin H. Luu <khluu000@gmail.com>
Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
---
 docs/features/multimodal_inputs.md                        | 2 +-
 docs/serving/openai_compatible_server.md                  | 2 +-
 examples/offline_inference/vision_language_pooling.py     | 4 ++--
 .../openai_chat_completion_client_for_multimodal.py       | 2 +-
 .../openai_chat_embedding_client_for_multimodal.py        | 2 +-
 tests/entrypoints/openai/test_vision.py                   | 8 ++++----
 tests/entrypoints/pooling/openai/test_vision_embedding.py | 8 ++++----
 .../language/pooling/test_mm_classifier_conversion.py     | 2 +-
 tests/multimodal/test_utils.py                            | 8 ++++----
 tests/utils.py                                            | 2 +-
 .../v1/entrypoints/openai/serving_responses/test_image.py | 8 ++++----
 11 files changed, 24 insertions(+), 24 deletions(-)

diff --git a/docs/features/multimodal_inputs.md b/docs/features/multimodal_inputs.md
index cde2ec165712b..5f684604e6031 100644
--- a/docs/features/multimodal_inputs.md
+++ b/docs/features/multimodal_inputs.md
@@ -483,7 +483,7 @@ Then, you can use the OpenAI client as follows:
     )
 
     # Single-image input inference
-    image_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
+    image_url = "https://vllm-public-assets.s3.us-west-2.amazonaws.com/vision_model_images/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
 
     chat_response = client.chat.completions.create(
         model="microsoft/Phi-3.5-vision-instruct",
diff --git a/docs/serving/openai_compatible_server.md b/docs/serving/openai_compatible_server.md
index 821628e6e3174..23df3963823aa 100644
--- a/docs/serving/openai_compatible_server.md
+++ b/docs/serving/openai_compatible_server.md
@@ -293,7 +293,7 @@ and passing a list of `messages` in the request. Refer to the examples below for
             base_url="http://localhost:8000/v1",
             api_key="EMPTY",
         )
-        image_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
+        image_url = "https://vllm-public-assets.s3.us-west-2.amazonaws.com/vision_model_images/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
 
         response = create_chat_embeddings(
             client,
diff --git a/examples/offline_inference/vision_language_pooling.py b/examples/offline_inference/vision_language_pooling.py
index 63d85d5d9eef5..530aad4bc031c 100644
--- a/examples/offline_inference/vision_language_pooling.py
+++ b/examples/offline_inference/vision_language_pooling.py
@@ -266,7 +266,7 @@ def get_query(modality: QueryModality):
         return ImageQuery(
             modality="image",
             image=fetch_image(
-                "https://upload.wikimedia.org/wikipedia/commons/thumb/4/47/American_Eskimo_Dog.jpg/360px-American_Eskimo_Dog.jpg"  # noqa: E501
+                "https://vllm-public-assets.s3.us-west-2.amazonaws.com/multimodal_asset/eskimo.jpg"  # noqa: E501
             ),
         )
 
@@ -275,7 +275,7 @@ def get_query(modality: QueryModality):
             modality="text+image",
             text="A cat standing in the snow.",
             image=fetch_image(
-                "https://upload.wikimedia.org/wikipedia/commons/thumb/b/b6/Felis_catus-cat_on_snow.jpg/179px-Felis_catus-cat_on_snow.jpg"  # noqa: E501
+                "https://vllm-public-assets.s3.us-west-2.amazonaws.com/multimodal_asset/cat_snow.jpg"  # noqa: E501
             ),
         )
 
diff --git a/examples/online_serving/openai_chat_completion_client_for_multimodal.py b/examples/online_serving/openai_chat_completion_client_for_multimodal.py
index 520cbca003aa5..3d1259276998d 100644
--- a/examples/online_serving/openai_chat_completion_client_for_multimodal.py
+++ b/examples/online_serving/openai_chat_completion_client_for_multimodal.py
@@ -66,7 +66,7 @@ def run_text_only(model: str, max_completion_tokens: int) -> None:
 # Single-image input inference
 def run_single_image(model: str, max_completion_tokens: int) -> None:
     ## Use image url in the payload
-    image_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
+    image_url = "https://vllm-public-assets.s3.us-west-2.amazonaws.com/vision_model_images/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
     chat_completion_from_url = client.chat.completions.create(
         messages=[
             {
diff --git a/examples/online_serving/pooling/openai_chat_embedding_client_for_multimodal.py b/examples/online_serving/pooling/openai_chat_embedding_client_for_multimodal.py
index 261b810ce5d03..47c2c5030078c 100644
--- a/examples/online_serving/pooling/openai_chat_embedding_client_for_multimodal.py
+++ b/examples/online_serving/pooling/openai_chat_embedding_client_for_multimodal.py
@@ -21,7 +21,7 @@ from PIL import Image
 openai_api_key = "EMPTY"
 openai_api_base = "http://localhost:8000/v1"
 
-image_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
+image_url = "https://vllm-public-assets.s3.us-west-2.amazonaws.com/vision_model_images/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
 
 
 def create_chat_embeddings(
diff --git a/tests/entrypoints/openai/test_vision.py b/tests/entrypoints/openai/test_vision.py
index 2a7df08ea3b0e..d83c6726e72da 100644
--- a/tests/entrypoints/openai/test_vision.py
+++ b/tests/entrypoints/openai/test_vision.py
@@ -17,10 +17,10 @@ MAXIMUM_IMAGES = 2
 
 # Test different image extensions (JPG/PNG) and formats (gray/RGB/RGBA)
 TEST_IMAGE_ASSETS = [
-    "2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",  # "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
-    "Grayscale_8bits_palette_sample_image.png",  # "https://upload.wikimedia.org/wikipedia/commons/f/fa/Grayscale_8bits_palette_sample_image.png",
-    "1280px-Venn_diagram_rgb.svg.png",  # "https://upload.wikimedia.org/wikipedia/commons/thumb/9/91/Venn_diagram_rgb.svg/1280px-Venn_diagram_rgb.svg.png",
-    "RGBA_comp.png",  # "https://upload.wikimedia.org/wikipedia/commons/0/0b/RGBA_comp.png",
+    "2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",  # "https://vllm-public-assets.s3.us-west-2.amazonaws.com/vision_model_images/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
+    "Grayscale_8bits_palette_sample_image.png",  # "https://vllm-public-assets.s3.us-west-2.amazonaws.com/vision_model_images/Grayscale_8bits_palette_sample_image.png",
+    "1280px-Venn_diagram_rgb.svg.png",  # "https://vllm-public-assets.s3.us-west-2.amazonaws.com/vision_model_images/1280px-Venn_diagram_rgb.svg.png",
+    "RGBA_comp.png",  # "https://vllm-public-assets.s3.us-west-2.amazonaws.com/vision_model_images/RGBA_comp.png",
 ]
 
 EXPECTED_MM_BEAM_SEARCH_RES = [
diff --git a/tests/entrypoints/pooling/openai/test_vision_embedding.py b/tests/entrypoints/pooling/openai/test_vision_embedding.py
index 944392d66fa5f..1befb5a3cf7a8 100644
--- a/tests/entrypoints/pooling/openai/test_vision_embedding.py
+++ b/tests/entrypoints/pooling/openai/test_vision_embedding.py
@@ -19,10 +19,10 @@ assert vlm2vec_jinja_path.exists()
 
 # Test different image extensions (JPG/PNG) and formats (gray/RGB/RGBA)
 TEST_IMAGE_ASSETS = [
-    "2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",  # "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
-    "Grayscale_8bits_palette_sample_image.png",  # "https://upload.wikimedia.org/wikipedia/commons/f/fa/Grayscale_8bits_palette_sample_image.png",
-    "1280px-Venn_diagram_rgb.svg.png",  # "https://upload.wikimedia.org/wikipedia/commons/thumb/9/91/Venn_diagram_rgb.svg/1280px-Venn_diagram_rgb.svg.png",
-    "RGBA_comp.png",  # "https://upload.wikimedia.org/wikipedia/commons/0/0b/RGBA_comp.png",
+    "2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",  # "https://vllm-public-assets.s3.us-west-2.amazonaws.com/vision_model_images/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
+    "Grayscale_8bits_palette_sample_image.png",  # "https://vllm-public-assets.s3.us-west-2.amazonaws.com/vision_model_images/Grayscale_8bits_palette_sample_image.png",
+    "1280px-Venn_diagram_rgb.svg.png",  # "https://vllm-public-assets.s3.us-west-2.amazonaws.com/vision_model_images/1280px-Venn_diagram_rgb.svg.png",
+    "RGBA_comp.png",  # "https://vllm-public-assets.s3.us-west-2.amazonaws.com/vision_model_images/RGBA_comp.png",
 ]
 
 
diff --git a/tests/models/language/pooling/test_mm_classifier_conversion.py b/tests/models/language/pooling/test_mm_classifier_conversion.py
index 2482452645ef1..a31a771238e26 100644
--- a/tests/models/language/pooling/test_mm_classifier_conversion.py
+++ b/tests/models/language/pooling/test_mm_classifier_conversion.py
@@ -75,7 +75,7 @@ def test_gemma_multimodal(
                 {
                     "type": "image_url",
                     "image_url": {
-                        "url": "https://upload.wikimedia.org/wikipedia/commons/c/c6/Set_of_fourteen_side_chairs_MET_DP110780.jpg"
+                        "url": "https://vllm-public-assets.s3.us-west-2.amazonaws.com/multimodal_asset/red_chair.jpg"
                     },
                 },
                 {"type": "text", "text": "A fine 19th century piece of furniture."},
diff --git a/tests/multimodal/test_utils.py b/tests/multimodal/test_utils.py
index ea795fcbbde55..639e290406fe2 100644
--- a/tests/multimodal/test_utils.py
+++ b/tests/multimodal/test_utils.py
@@ -16,10 +16,10 @@ from vllm.multimodal.utils import MediaConnector, argsort_mm_positions
 
 # Test different image extensions (JPG/PNG) and formats (gray/RGB/RGBA)
 TEST_IMAGE_ASSETS = [
-    "2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",  # "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
-    "Grayscale_8bits_palette_sample_image.png",  # "https://upload.wikimedia.org/wikipedia/commons/f/fa/Grayscale_8bits_palette_sample_image.png",
-    "1280px-Venn_diagram_rgb.svg.png",  # "https://upload.wikimedia.org/wikipedia/commons/thumb/9/91/Venn_diagram_rgb.svg/1280px-Venn_diagram_rgb.svg.png",
-    "RGBA_comp.png",  # "https://upload.wikimedia.org/wikipedia/commons/0/0b/RGBA_comp.png",
+    "2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",  # "https://vllm-public-assets.s3.us-west-2.amazonaws.com/vision_model_images/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
+    "Grayscale_8bits_palette_sample_image.png",  # "https://vllm-public-assets.s3.us-west-2.amazonaws.com/vision_model_images/Grayscale_8bits_palette_sample_image.png",
+    "1280px-Venn_diagram_rgb.svg.png",  # "https://vllm-public-assets.s3.us-west-2.amazonaws.com/vision_model_images/1280px-Venn_diagram_rgb.svg.png",
+    "RGBA_comp.png",  # "https://vllm-public-assets.s3.us-west-2.amazonaws.com/vision_model_images/RGBA_comp.png",
 ]
 
 TEST_VIDEO_URLS = [
diff --git a/tests/utils.py b/tests/utils.py
index c8f18384c5114..c31a2aeeb9c80 100644
--- a/tests/utils.py
+++ b/tests/utils.py
@@ -676,7 +676,7 @@ def compare_all_settings(
                 results += _test_image_text(
                     client,
                     model,
-                    "https://upload.wikimedia.org/wikipedia/commons/0/0b/RGBA_comp.png",
+                    "https://vllm-public-assets.s3.us-west-2.amazonaws.com/vision_model_images/RGBA_comp.png",
                 )
             elif method == "encode":
                 results += _test_embeddings(client, model, prompt)
diff --git a/tests/v1/entrypoints/openai/serving_responses/test_image.py b/tests/v1/entrypoints/openai/serving_responses/test_image.py
index 980d83b787e7a..be5693bbf2736 100644
--- a/tests/v1/entrypoints/openai/serving_responses/test_image.py
+++ b/tests/v1/entrypoints/openai/serving_responses/test_image.py
@@ -15,10 +15,10 @@ MODEL_NAME = "Qwen/Qwen2.5-VL-3B-Instruct"
 MAXIMUM_IMAGES = 2
 # Test different image extensions (JPG/PNG) and formats (gray/RGB/RGBA)
 TEST_IMAGE_ASSETS = [
-    "2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",  # "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
-    "Grayscale_8bits_palette_sample_image.png",  # "https://upload.wikimedia.org/wikipedia/commons/f/fa/Grayscale_8bits_palette_sample_image.png",
-    "1280px-Venn_diagram_rgb.svg.png",  # "https://upload.wikimedia.org/wikipedia/commons/thumb/9/91/Venn_diagram_rgb.svg/1280px-Venn_diagram_rgb.svg.png",
-    "RGBA_comp.png",  # "https://upload.wikimedia.org/wikipedia/commons/0/0b/RGBA_comp.png",
+    "2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",  # "https://vllm-public-assets.s3.us-west-2.amazonaws.com/vision_model_images/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
+    "Grayscale_8bits_palette_sample_image.png",  # "https://vllm-public-assets.s3.us-west-2.amazonaws.com/vision_model_images/Grayscale_8bits_palette_sample_image.png",
+    "1280px-Venn_diagram_rgb.svg.png",  # "https://vllm-public-assets.s3.us-west-2.amazonaws.com/vision_model_images/1280px-Venn_diagram_rgb.svg.png",
+    "RGBA_comp.png",  # "https://vllm-public-assets.s3.us-west-2.amazonaws.com/vision_model_images/RGBA_comp.png",
 ]
 
 
From e4bb2684bcea12f72a36a6c48292f79534af849a Mon Sep 17 00:00:00 2001
From: Isotr0py <mozf@mail2.sysu.edu.cn>
Date: Wed, 19 Nov 2025 02:56:04 +0800
Subject: [PATCH 557/976] [Models] Replace all `nn.Conv2d` with vLLM's
 Conv2dLayer (#28842)

Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>
---
 vllm/model_executor/layers/conv.py            | 24 +++++++++++++--
 vllm/model_executor/models/aimv2.py           |  3 +-
 vllm/model_executor/models/blip.py            |  3 +-
 vllm/model_executor/models/chameleon.py       | 29 +++++++++----------
 vllm/model_executor/models/deepencoder.py     | 13 +++++----
 vllm/model_executor/models/dots_ocr.py        |  3 +-
 vllm/model_executor/models/glm4_1v.py         |  4 +--
 vllm/model_executor/models/glm4v.py           |  5 ++--
 .../models/idefics2_vision_model.py           |  3 +-
 vllm/model_executor/models/intern_vit.py      |  3 +-
 vllm/model_executor/models/interns1_vit.py    |  3 +-
 vllm/model_executor/models/keye.py            |  3 +-
 vllm/model_executor/models/midashenglm.py     |  3 +-
 vllm/model_executor/models/moonvit.py         |  3 +-
 vllm/model_executor/models/paddleocr_vl.py    |  3 +-
 vllm/model_executor/models/pixtral.py         |  5 ++--
 vllm/model_executor/models/qwen_vl.py         |  3 +-
 vllm/model_executor/models/siglip.py          |  3 +-
 vllm/model_executor/models/siglip2navit.py    |  5 ++--
 vllm/model_executor/models/step3_vl.py        |  7 +++--
 20 files changed, 83 insertions(+), 45 deletions(-)

diff --git a/vllm/model_executor/layers/conv.py b/vllm/model_executor/layers/conv.py
index e6f2d2990c241..8d51e5bd9920a 100644
--- a/vllm/model_executor/layers/conv.py
+++ b/vllm/model_executor/layers/conv.py
@@ -3,6 +3,7 @@
 """Conv Layer Class."""
 
 import math
+from typing import Literal
 
 import torch
 import torch.nn as nn
@@ -23,11 +24,11 @@ class ConvLayerBase(CustomOp):
         out_channels: int,
         kernel_size: int | tuple[int, ...],
         stride: int | tuple[int, ...] = 1,
-        padding: int | tuple[int, ...] = 0,
+        padding: int | tuple[int, ...] | Literal["same", "valid"] = 0,
         dilation: int | tuple[int, ...] = 1,
         groups: int = 1,
         bias: bool = True,
-        padding_mode: str = "zeros",
+        padding_mode: Literal["zeros", "reflect", "replicate", "circular"] = "zeros",
         *,
         params_dtype: torch.dtype | None = None,
     ) -> None:
@@ -36,6 +37,22 @@ class ConvLayerBase(CustomOp):
         if params_dtype is None:
             params_dtype = torch.get_default_dtype()
 
+        valid_padding_strings = {"same", "valid"}
+        if isinstance(padding, str) and padding not in valid_padding_strings:
+            raise ValueError(
+                f"Invalid padding string '{padding}'. "
+                f"Expected one of {valid_padding_strings}."
+            )
+
+        if padding == "same":
+            padding = (
+                kernel_size // 2
+                if isinstance(kernel_size, int)
+                else tuple(k // 2 for k in kernel_size)
+            )
+        elif padding == "valid":
+            padding = 0
+
         kernel_size = (
             (kernel_size,) * self.num_dim
             if isinstance(kernel_size, int)
@@ -45,6 +62,9 @@ class ConvLayerBase(CustomOp):
         padding = (padding,) * self.num_dim if isinstance(padding, int) else padding
         dilation = (dilation,) * self.num_dim if isinstance(dilation, int) else dilation
 
+        if padding == "same" and any(s != 1 for s in stride):
+            raise ValueError("padding='same' is not supported for strided convolutions")
+
         self.in_channels = in_channels
         self.out_channels = out_channels
         self.kernel_size = kernel_size
diff --git a/vllm/model_executor/models/aimv2.py b/vllm/model_executor/models/aimv2.py
index 5872e8196eada..3d000f3ac3ab5 100644
--- a/vllm/model_executor/models/aimv2.py
+++ b/vllm/model_executor/models/aimv2.py
@@ -12,6 +12,7 @@ from vllm.attention.layer import MultiHeadAttention
 from vllm.distributed import get_tensor_model_parallel_world_size
 from vllm.distributed.utils import divide
 from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.conv import Conv2dLayer
 from vllm.model_executor.layers.layernorm import RMSNorm
 from vllm.model_executor.layers.linear import (
     MergedColumnParallelLinear,
@@ -58,7 +59,7 @@ class AIMv2SwiGLUFFN(nn.Module):
 class AIMv2PatchEmbed(nn.Module):
     def __init__(self, config: AIMv2Config):
         super().__init__()
-        self.proj = nn.Conv2d(
+        self.proj = Conv2dLayer(
             config.num_channels,
             config.hidden_size,
             kernel_size=(config.patch_size, config.patch_size),
diff --git a/vllm/model_executor/models/blip.py b/vllm/model_executor/models/blip.py
index 2e4f73312efa3..f31f99c0592b2 100644
--- a/vllm/model_executor/models/blip.py
+++ b/vllm/model_executor/models/blip.py
@@ -12,6 +12,7 @@ from transformers import Blip2VisionConfig, BlipVisionConfig
 from vllm.attention.layer import MultiHeadAttention
 from vllm.distributed import divide, get_tensor_model_parallel_world_size
 from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.conv import Conv2dLayer
 from vllm.model_executor.layers.linear import (
     ColumnParallelLinear,
     QKVParallelLinear,
@@ -47,7 +48,7 @@ class BlipVisionEmbeddings(nn.Module):
 
         self.class_embedding = nn.Parameter(torch.randn(1, 1, self.embed_dim))
 
-        self.patch_embedding = nn.Conv2d(
+        self.patch_embedding = Conv2dLayer(
             in_channels=3,
             out_channels=self.embed_dim,
             kernel_size=self.patch_size,
diff --git a/vllm/model_executor/models/chameleon.py b/vllm/model_executor/models/chameleon.py
index fb7476c45fcdb..3c87bbfefab3d 100644
--- a/vllm/model_executor/models/chameleon.py
+++ b/vllm/model_executor/models/chameleon.py
@@ -22,6 +22,7 @@ from vllm.config.multimodal import BaseDummyOptions
 from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
 from vllm.logger import init_logger
 from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.conv import Conv2dLayer
 from vllm.model_executor.layers.layernorm import RMSNorm
 from vllm.model_executor.layers.linear import (
     MergedColumnParallelLinear,
@@ -549,7 +550,7 @@ class ChameleonVQVAEVectorQuantizer(nn.Module):
 class ChameleonVQVAEEncoderConvDownsample(nn.Module):
     def __init__(self, in_channels: int):
         super().__init__()
-        self.conv = nn.Conv2d(
+        self.conv = Conv2dLayer(
             in_channels, in_channels, kernel_size=3, stride=2, padding=0
         )
 
@@ -577,23 +578,23 @@ class ChameleonVQVAEEncoderResnetBlock(nn.Module):
         self.norm1 = torch.nn.GroupNorm(
             num_groups=32, num_channels=in_channels, eps=1e-6, affine=True
         )
-        self.conv1 = torch.nn.Conv2d(
+        self.conv1 = Conv2dLayer(
             in_channels, out_channels, kernel_size=3, stride=1, padding=1
         )
         self.norm2 = torch.nn.GroupNorm(
             num_groups=32, num_channels=out_channels, eps=1e-6, affine=True
         )
         self.dropout = torch.nn.Dropout(config.dropout)
-        self.conv2 = torch.nn.Conv2d(
+        self.conv2 = Conv2dLayer(
             out_channels, out_channels, kernel_size=3, stride=1, padding=1
         )
         if self.in_channels != self.out_channels:
             if self.use_conv_shortcut:
-                self.conv_shortcut = torch.nn.Conv2d(
+                self.conv_shortcut = Conv2dLayer(
                     in_channels, out_channels, kernel_size=3, stride=1, padding=1
                 )
             else:
-                self.nin_shortcut = torch.nn.Conv2d(
+                self.nin_shortcut = Conv2dLayer(
                     in_channels, out_channels, kernel_size=1, stride=1, padding=0
                 )
 
@@ -626,16 +627,16 @@ class ChameleonVQVAEEncoderAttnBlock(nn.Module):
         self.norm = torch.nn.GroupNorm(
             num_groups=32, num_channels=in_channels, eps=1e-6, affine=True
         )
-        self.q = torch.nn.Conv2d(
+        self.q = Conv2dLayer(
             in_channels, in_channels, kernel_size=1, stride=1, padding=0
         )
-        self.k = torch.nn.Conv2d(
+        self.k = Conv2dLayer(
             in_channels, in_channels, kernel_size=1, stride=1, padding=0
         )
-        self.v = torch.nn.Conv2d(
+        self.v = Conv2dLayer(
             in_channels, in_channels, kernel_size=1, stride=1, padding=0
         )
-        self.proj_out = torch.nn.Conv2d(
+        self.proj_out = Conv2dLayer(
             in_channels, in_channels, kernel_size=1, stride=1, padding=0
         )
 
@@ -681,7 +682,7 @@ class ChameleonVQVAEEncoder(nn.Module):
         latent_channels = config.latent_channels
         channel_multiplier = config.channel_multiplier
 
-        self.conv_in = torch.nn.Conv2d(
+        self.conv_in = Conv2dLayer(
             in_channels, base_channels, kernel_size=3, stride=1, padding=1
         )
 
@@ -738,7 +739,7 @@ class ChameleonVQVAEEncoder(nn.Module):
         self.norm_out = torch.nn.GroupNorm(
             num_groups=32, num_channels=block_in, eps=1e-6, affine=True
         )
-        self.conv_out = torch.nn.Conv2d(
+        self.conv_out = Conv2dLayer(
             block_in,
             2 * latent_channels if double_latent else latent_channels,
             kernel_size=3,
@@ -779,10 +780,8 @@ class ChameleonVQVAE(nn.Module):
         super().__init__()
         self.encoder = ChameleonVQVAEEncoder(config)
         self.quantize = ChameleonVQVAEVectorQuantizer(config)
-        self.quant_conv = torch.nn.Conv2d(config.latent_channels, config.embed_dim, 1)
-        self.post_quant_conv = torch.nn.Conv2d(
-            config.embed_dim, config.latent_channels, 1
-        )
+        self.quant_conv = Conv2dLayer(config.latent_channels, config.embed_dim, 1)
+        self.post_quant_conv = Conv2dLayer(config.embed_dim, config.latent_channels, 1)
         self.eval()  # Chameleon's VQ model is frozen
 
     def encode(
diff --git a/vllm/model_executor/models/deepencoder.py b/vllm/model_executor/models/deepencoder.py
index e62a57eccc953..8f1660891fcbf 100644
--- a/vllm/model_executor/models/deepencoder.py
+++ b/vllm/model_executor/models/deepencoder.py
@@ -19,6 +19,7 @@ import torch.nn.functional as F
 from transformers import CLIPVisionConfig
 
 from vllm.attention.layer import MultiHeadAttention
+from vllm.model_executor.layers.conv import Conv2dLayer
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.model_loader.weight_utils import default_weight_loader
 
@@ -133,14 +134,14 @@ class ImageEncoderViT(nn.Module):
             self.blocks.append(block)
 
         self.neck = nn.Sequential(
-            nn.Conv2d(
+            Conv2dLayer(
                 embed_dim,
                 out_chans,
                 kernel_size=1,
                 bias=False,
             ),
             LayerNorm2d(out_chans),
-            nn.Conv2d(
+            Conv2dLayer(
                 out_chans,
                 out_chans,
                 kernel_size=3,
@@ -150,8 +151,10 @@ class ImageEncoderViT(nn.Module):
             LayerNorm2d(out_chans),
         )
 
-        self.net_2 = nn.Conv2d(256, 512, kernel_size=3, stride=2, padding=1, bias=False)
-        self.net_3 = nn.Conv2d(
+        self.net_2 = Conv2dLayer(
+            256, 512, kernel_size=3, stride=2, padding=1, bias=False
+        )
+        self.net_3 = Conv2dLayer(
             512, 1024, kernel_size=3, stride=2, padding=1, bias=False
         )
 
@@ -500,7 +503,7 @@ class PatchEmbed(nn.Module):
         """
         super().__init__()
 
-        self.proj = nn.Conv2d(
+        self.proj = Conv2dLayer(
             in_chans, embed_dim, kernel_size=kernel_size, stride=stride, padding=padding
         )
 
diff --git a/vllm/model_executor/models/dots_ocr.py b/vllm/model_executor/models/dots_ocr.py
index f46caaa095c6a..2d2251e83b5b1 100644
--- a/vllm/model_executor/models/dots_ocr.py
+++ b/vllm/model_executor/models/dots_ocr.py
@@ -22,6 +22,7 @@ from vllm.distributed.parallel_state import (
     get_tensor_model_parallel_world_size,
 )
 from vllm.model_executor.layers.activation import SiluAndMul
+from vllm.model_executor.layers.conv import Conv2dLayer
 from vllm.model_executor.layers.layernorm import RMSNorm
 from vllm.model_executor.layers.linear import (
     ColumnParallelLinear,
@@ -471,7 +472,7 @@ class DotsPatchEmbed(nn.Module):
         self.temporal_patch_size = config.temporal_patch_size
         self.embed_dim = config.embed_dim
         self.config = config
-        self.proj = nn.Conv2d(
+        self.proj = Conv2dLayer(
             config.num_channels,
             config.embed_dim,
             kernel_size=(config.patch_size, config.patch_size),
diff --git a/vllm/model_executor/models/glm4_1v.py b/vllm/model_executor/models/glm4_1v.py
index 65c3fc2d9e975..2c2f45c2453ee 100644
--- a/vllm/model_executor/models/glm4_1v.py
+++ b/vllm/model_executor/models/glm4_1v.py
@@ -56,7 +56,7 @@ from vllm.config.multimodal import BaseDummyOptions, VideoDummyOptions
 from vllm.distributed import get_tensor_model_parallel_world_size, parallel_state
 from vllm.distributed import utils as dist_utils
 from vllm.logger import init_logger
-from vllm.model_executor.layers.conv import Conv3dLayer
+from vllm.model_executor.layers.conv import Conv2dLayer, Conv3dLayer
 from vllm.model_executor.layers.layernorm import RMSNorm
 from vllm.model_executor.layers.linear import (
     ColumnParallelLinear,
@@ -734,7 +734,7 @@ class Glm4vVisionTransformer(nn.Module):
         self.post_conv_layernorm = RMSNorm(
             vision_config.hidden_size, eps=vision_config.rms_norm_eps
         )
-        self.downsample = nn.Conv2d(
+        self.downsample = Conv2dLayer(
             in_channels=vision_config.hidden_size,
             out_channels=vision_config.out_hidden_size,
             kernel_size=vision_config.spatial_merge_size,
diff --git a/vllm/model_executor/models/glm4v.py b/vllm/model_executor/models/glm4v.py
index 1c18ea0745f2b..514082cf60ce2 100644
--- a/vllm/model_executor/models/glm4v.py
+++ b/vllm/model_executor/models/glm4v.py
@@ -24,6 +24,7 @@ from vllm.config import VllmConfig
 from vllm.config.multimodal import BaseDummyOptions
 from vllm.distributed import get_tensor_model_parallel_world_size
 from vllm.model_executor.layers.activation import SiluAndMul, get_act_fn
+from vllm.model_executor.layers.conv import Conv2dLayer
 from vllm.model_executor.layers.linear import (
     ColumnParallelLinear,
     MergedColumnParallelLinear,
@@ -78,7 +79,7 @@ class GLMVImagePixelInputs(TensorSchema):
 class EVA2CLIPPatchEmbedding(nn.Module):
     def __init__(self, config):
         super().__init__()
-        self.proj = nn.Conv2d(
+        self.proj = Conv2dLayer(
             config.in_channels,
             config.hidden_size,
             kernel_size=config.patch_size,
@@ -333,7 +334,7 @@ class EVA2CLIPModel(nn.Module):
             quant_config=quant_config,
             prefix=f"{prefix}.linear_proj",
         )
-        self.conv = nn.Conv2d(
+        self.conv = Conv2dLayer(
             in_channels=vision_config.hidden_size,
             out_channels=config.hidden_size,
             kernel_size=2,
diff --git a/vllm/model_executor/models/idefics2_vision_model.py b/vllm/model_executor/models/idefics2_vision_model.py
index 727c8ec0397ca..06b8468e18db9 100644
--- a/vllm/model_executor/models/idefics2_vision_model.py
+++ b/vllm/model_executor/models/idefics2_vision_model.py
@@ -30,6 +30,7 @@ from transformers.models.idefics2.configuration_idefics2 import (
 from vllm.attention.layer import MultiHeadAttention
 from vllm.distributed import get_tensor_model_parallel_world_size
 from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.conv import Conv2dLayer
 from vllm.model_executor.layers.linear import (
     ColumnParallelLinear,
     QKVParallelLinear,
@@ -60,7 +61,7 @@ class Idefics2VisionEmbeddings(nn.Module):
         self.embed_dim = config.hidden_size
         self.image_size = config.image_size
         self.patch_size = config.patch_size
-        self.patch_embedding = nn.Conv2d(
+        self.patch_embedding = Conv2dLayer(
             in_channels=config.num_channels,
             out_channels=self.embed_dim,
             kernel_size=self.patch_size,
diff --git a/vllm/model_executor/models/intern_vit.py b/vllm/model_executor/models/intern_vit.py
index 03918127c6ae1..61aeafc2ab436 100644
--- a/vllm/model_executor/models/intern_vit.py
+++ b/vllm/model_executor/models/intern_vit.py
@@ -24,6 +24,7 @@ from vllm.distributed import (
     tensor_model_parallel_all_gather,
 )
 from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.conv import Conv2dLayer
 from vllm.model_executor.layers.layernorm import RMSNorm
 from vllm.model_executor.layers.linear import (
     ColumnParallelLinear,
@@ -51,7 +52,7 @@ class InternVisionEmbeddings(nn.Module):
 
         self.class_embedding = nn.Parameter(torch.randn(1, 1, self.embed_dim))
 
-        self.patch_embedding = nn.Conv2d(
+        self.patch_embedding = Conv2dLayer(
             in_channels=3,
             out_channels=self.embed_dim,
             kernel_size=self.patch_size,
diff --git a/vllm/model_executor/models/interns1_vit.py b/vllm/model_executor/models/interns1_vit.py
index 507503d75046d..cb0414bbc95a8 100644
--- a/vllm/model_executor/models/interns1_vit.py
+++ b/vllm/model_executor/models/interns1_vit.py
@@ -16,6 +16,7 @@ from transformers.utils import torch_int
 
 from vllm.attention.layer import MultiHeadAttention
 from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.conv import Conv2dLayer
 from vllm.model_executor.layers.layernorm import RMSNorm
 from vllm.model_executor.layers.linear import ColumnParallelLinear, RowParallelLinear
 from vllm.model_executor.layers.quantization import QuantizationConfig
@@ -43,7 +44,7 @@ class InternS1VisionPatchEmbeddings(nn.Module):
         self.num_patches = num_patches
         self.patch_shape = patch_shape
 
-        self.projection = nn.Conv2d(
+        self.projection = Conv2dLayer(
             num_channels, hidden_size, kernel_size=patch_size, stride=patch_size
         )
 
diff --git a/vllm/model_executor/models/keye.py b/vllm/model_executor/models/keye.py
index 1eb0eccc0411c..8fc3db296aa79 100644
--- a/vllm/model_executor/models/keye.py
+++ b/vllm/model_executor/models/keye.py
@@ -24,6 +24,7 @@ from vllm.config import VllmConfig
 from vllm.config.multimodal import BaseDummyOptions
 from vllm.distributed import get_tensor_model_parallel_world_size
 from vllm.logger import init_logger
+from vllm.model_executor.layers.conv import Conv2dLayer
 from vllm.model_executor.layers.linear import (
     ColumnParallelLinear,
     QKVParallelLinear,
@@ -204,7 +205,7 @@ class KeyeVisionEmbeddings(nn.Module):
         self.image_size = config.image_size
         self.patch_size = config.patch_size
 
-        self.patch_embedding = nn.Conv2d(
+        self.patch_embedding = Conv2dLayer(
             in_channels=config.num_channels,
             out_channels=self.embed_dim,
             kernel_size=self.patch_size,
diff --git a/vllm/model_executor/models/midashenglm.py b/vllm/model_executor/models/midashenglm.py
index a84c99059cd9c..d9b23811730d4 100644
--- a/vllm/model_executor/models/midashenglm.py
+++ b/vllm/model_executor/models/midashenglm.py
@@ -39,6 +39,7 @@ from vllm.config import VllmConfig
 from vllm.config.multimodal import BaseDummyOptions
 from vllm.distributed import get_tensor_model_parallel_world_size
 from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.conv import Conv2dLayer
 from vllm.model_executor.layers.linear import (
     ColumnParallelLinear,
     QKVParallelLinear,
@@ -120,7 +121,7 @@ class AudioPatchEmbed(nn.Module):
         self.num_patches = self.grid_size[0] * self.grid_size[1]
         self.flatten = flatten
 
-        self.proj = nn.Conv2d(
+        self.proj = Conv2dLayer(
             in_chans,
             embed_dim,
             kernel_size=self.patch_size,
diff --git a/vllm/model_executor/models/moonvit.py b/vllm/model_executor/models/moonvit.py
index 8017c947bf9ad..2e3e6dc166ad8 100644
--- a/vllm/model_executor/models/moonvit.py
+++ b/vllm/model_executor/models/moonvit.py
@@ -53,6 +53,7 @@ from transformers.activations import ACT2FN
 from transformers.modeling_utils import PreTrainedModel
 from transformers.utils import is_flash_attn_2_available
 
+from vllm.model_executor.layers.conv import Conv2dLayer
 from vllm.model_executor.layers.linear import ReplicatedLinear
 from vllm.model_executor.models.utils import maybe_prefix
 from vllm.transformers_utils.configs.moonvit import MoonViTConfig
@@ -244,7 +245,7 @@ class MoonVisionPatchEmbed(nn.Module):
         )
         self.patch_size = patch_size
 
-        self.proj = nn.Conv2d(
+        self.proj = Conv2dLayer(
             in_dim, out_dim, kernel_size=patch_size, stride=patch_size
         )
 
diff --git a/vllm/model_executor/models/paddleocr_vl.py b/vllm/model_executor/models/paddleocr_vl.py
index 3ef6470070d18..dee0c16ab0f63 100644
--- a/vllm/model_executor/models/paddleocr_vl.py
+++ b/vllm/model_executor/models/paddleocr_vl.py
@@ -45,6 +45,7 @@ from vllm.config.multimodal import BaseDummyOptions
 from vllm.distributed import parallel_state
 from vllm.distributed import utils as dist_utils
 from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.conv import Conv2dLayer
 from vllm.model_executor.layers.linear import (
     ColumnParallelLinear,
     QKVParallelLinear,
@@ -419,7 +420,7 @@ class SiglipVisionEmbeddings(nn.Module):
         self.image_size = config.image_size
         self.patch_size = config.patch_size
 
-        self.patch_embedding = nn.Conv2d(
+        self.patch_embedding = Conv2dLayer(
             in_channels=config.num_channels,
             out_channels=self.embed_dim,
             kernel_size=self.patch_size,
diff --git a/vllm/model_executor/models/pixtral.py b/vllm/model_executor/models/pixtral.py
index 8cb7d6a889da4..8a034fd72b02a 100644
--- a/vllm/model_executor/models/pixtral.py
+++ b/vllm/model_executor/models/pixtral.py
@@ -31,6 +31,7 @@ from vllm.config import VllmConfig
 from vllm.config.multimodal import BaseDummyOptions
 from vllm.distributed import divide, get_tensor_model_parallel_world_size
 from vllm.model_executor.layers.activation import get_act_and_mul_fn
+from vllm.model_executor.layers.conv import Conv2dLayer
 from vllm.model_executor.layers.layernorm import RMSNorm
 from vllm.model_executor.layers.linear import (
     MergedColumnParallelLinear,
@@ -747,7 +748,7 @@ class VisionTransformer(nn.Module):
     def __init__(self, args: VisionEncoderArgs):
         super().__init__()
         self.args = args
-        self.patch_conv = nn.Conv2d(
+        self.patch_conv = Conv2dLayer(
             in_channels=args.num_channels,
             out_channels=args.hidden_size,
             kernel_size=args.patch_size,
@@ -1212,7 +1213,7 @@ class PixtralHFVisionModel(nn.Module):
 
         self.config = config
 
-        self.patch_conv = nn.Conv2d(
+        self.patch_conv = Conv2dLayer(
             in_channels=config.num_channels,
             out_channels=config.hidden_size,
             kernel_size=config.patch_size,
diff --git a/vllm/model_executor/models/qwen_vl.py b/vllm/model_executor/models/qwen_vl.py
index 6a259cade9cf1..4906cf441f6fb 100644
--- a/vllm/model_executor/models/qwen_vl.py
+++ b/vllm/model_executor/models/qwen_vl.py
@@ -25,6 +25,7 @@ from transformers.tokenization_utils_base import TextInput
 from vllm.config import VllmConfig
 from vllm.config.multimodal import BaseDummyOptions
 from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.conv import Conv2dLayer
 from vllm.model_executor.layers.linear import (
     ColumnParallelLinear,
     ReplicatedLinear,
@@ -333,7 +334,7 @@ class VisionTransformer(nn.Module):
         patch_height, patch_width = self.patch_size = (patch_size, patch_size)
         self.grid_size = (image_height // patch_height, image_width // patch_width)
         self.output_dim = output_dim
-        self.conv1 = nn.Conv2d(
+        self.conv1 = Conv2dLayer(
             in_channels=3,
             out_channels=width,
             kernel_size=patch_size,
diff --git a/vllm/model_executor/models/siglip.py b/vllm/model_executor/models/siglip.py
index 42d906d089f90..ce5847bf79a5e 100644
--- a/vllm/model_executor/models/siglip.py
+++ b/vllm/model_executor/models/siglip.py
@@ -24,6 +24,7 @@ from vllm.config import VllmConfig
 from vllm.config.multimodal import BaseDummyOptions
 from vllm.distributed import divide, get_tensor_model_parallel_world_size
 from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.conv import Conv2dLayer
 from vllm.model_executor.layers.linear import (
     ColumnParallelLinear,
     QKVParallelLinear,
@@ -286,7 +287,7 @@ class SiglipVisionEmbeddings(nn.Module):
         self.image_size = config.image_size
         self.patch_size = config.patch_size
 
-        self.patch_embedding = nn.Conv2d(
+        self.patch_embedding = Conv2dLayer(
             in_channels=config.num_channels,
             out_channels=self.embed_dim,
             kernel_size=self.patch_size,
diff --git a/vllm/model_executor/models/siglip2navit.py b/vllm/model_executor/models/siglip2navit.py
index 29dd164ad37fd..46f5e67d659ef 100644
--- a/vllm/model_executor/models/siglip2navit.py
+++ b/vllm/model_executor/models/siglip2navit.py
@@ -16,6 +16,7 @@ from vllm.attention.backends.registry import AttentionBackendEnum
 from vllm.attention.layer import maybe_get_vit_flash_attn_backend
 from vllm.distributed import divide, get_tensor_model_parallel_world_size
 from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.conv import Conv2dLayer
 from vllm.model_executor.layers.linear import (
     ColumnParallelLinear,
     LinearBase,
@@ -67,7 +68,7 @@ class Siglip2VisionEmbeddings(nn.Module):
                 self.position_embedding = nn.Embedding(self.num_patches, self.embed_dim)
 
         else:
-            self.patch_embedding = nn.Conv2d(
+            self.patch_embedding = Conv2dLayer(
                 in_channels=config.num_channels,
                 out_channels=self.embed_dim,
                 kernel_size=self.patch_size,
@@ -99,7 +100,7 @@ class Siglip2VisionEmbeddings(nn.Module):
         target_dtype = self.patch_embedding.weight.dtype
         if isinstance(self.patch_embedding, LinearBase):
             patch_embeds = self.patch_embedding(pixel_values.to(dtype=target_dtype))
-        elif isinstance(self.patch_embedding, nn.Conv2d):
+        elif isinstance(self.patch_embedding, Conv2dLayer):
             pixel_values = pixel_values.view(
                 -1,
                 self.config.num_channels * self.config.temporal_patch_size,
diff --git a/vllm/model_executor/models/step3_vl.py b/vllm/model_executor/models/step3_vl.py
index 5d16be1eb3128..1c60cb4148121 100644
--- a/vllm/model_executor/models/step3_vl.py
+++ b/vllm/model_executor/models/step3_vl.py
@@ -20,6 +20,7 @@ from vllm.config import VllmConfig
 from vllm.config.multimodal import BaseDummyOptions
 from vllm.distributed import get_tensor_model_parallel_world_size
 from vllm.model_executor.layers.activation import get_act_fn
+from vllm.model_executor.layers.conv import Conv2dLayer
 from vllm.model_executor.layers.linear import (
     ColumnParallelLinear,
     QKVParallelLinear,
@@ -667,7 +668,7 @@ class Step3VisionEmbeddings(nn.Module):
 
         self.class_embedding = nn.Parameter(torch.randn(1, self.embed_dim))
 
-        self.patch_embedding = nn.Conv2d(
+        self.patch_embedding = Conv2dLayer(
             in_channels=config.num_channels,
             out_channels=self.embed_dim,
             kernel_size=self.patch_size,
@@ -950,13 +951,13 @@ class Step3VLForConditionalGeneration(nn.Module, SupportsMultiModal, SupportsPP)
                 prefix=maybe_prefix(prefix, "vision_model"),
                 use_data_parallel=self.use_data_parallel,
             )
-            self.vit_downsampler = nn.Conv2d(
+            self.vit_downsampler = Conv2dLayer(
                 config.vision_config.hidden_size,
                 config.vision_config.output_hidden_size,
                 kernel_size=2,
                 stride=config.understand_projector_stride,
             )
-            self.vit_downsampler2 = nn.Conv2d(
+            self.vit_downsampler2 = Conv2dLayer(
                 config.vision_config.output_hidden_size,
                 config.vision_config.output_hidden_size * 2,
                 kernel_size=3,

From c3e29786209d91d3842e839b62f4d1d815902262 Mon Sep 17 00:00:00 2001
From: "Chendi.Xue" <chendi.xue@intel.com>
Date: Tue, 18 Nov 2025 13:03:23 -0600
Subject: [PATCH 558/976] [NIXL] fix cpu PD after physical <> logical
 block_size PR (#28904)

Signed-off-by: Chendi Xue <chendi.xue@intel.com>
---
 .../nixl_integration/run_accuracy_test.sh            |  9 +++++++--
 tools/install_nixl_from_source_ubuntu.py             |  1 +
 .../kv_transfer/kv_connector/v1/nixl_connector.py    | 12 +++++++++---
 3 files changed, 17 insertions(+), 5 deletions(-)

diff --git a/tests/v1/kv_connector/nixl_integration/run_accuracy_test.sh b/tests/v1/kv_connector/nixl_integration/run_accuracy_test.sh
index 87c9a105e9363..453ccc81eb14a 100755
--- a/tests/v1/kv_connector/nixl_integration/run_accuracy_test.sh
+++ b/tests/v1/kv_connector/nixl_integration/run_accuracy_test.sh
@@ -55,7 +55,7 @@ DECODE_BLOCK_SIZE=${DECODE_BLOCK_SIZE:-128}
 # Find the git repository root directory
 GIT_ROOT=$(git rev-parse --show-toplevel)
 
-SMI_BIN=$(which nvidia-smi || which rocm-smi)
+SMI_BIN=$(which nvidia-smi || which rocm-smi || echo "")
 
 # Trap the SIGINT signal (triggered by Ctrl+C)
 trap 'kill $(jobs -pr)' SIGINT SIGTERM EXIT
@@ -91,8 +91,13 @@ get_model_args() {
 get_num_gpus() {
   if [[ "$SMI_BIN" == *"nvidia"* ]]; then
     echo "$($SMI_BIN --query-gpu=name --format=csv,noheader | wc -l)"
-  else
+  elif [[ "$SMI_BIN" == *"rocm"* ]]; then
     echo "$($SMI_BIN -l | grep GPU | wc -l)"
+  else
+    # works for non-cuda platforms,
+    # assuming at least 1 device and
+    # let system to decide which card to use
+    echo "1"
   fi
 }
 
diff --git a/tools/install_nixl_from_source_ubuntu.py b/tools/install_nixl_from_source_ubuntu.py
index a786abba95ad9..b8a55c615426e 100644
--- a/tools/install_nixl_from_source_ubuntu.py
+++ b/tools/install_nixl_from_source_ubuntu.py
@@ -95,6 +95,7 @@ def install_system_dependencies():
         "meson",
         "libtool",
         "libtool-bin",
+        "pkg-config",
     ]
     run_command(["apt-get", "update"])
     run_command(["apt-get", "install", "-y"] + apt_packages)
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py b/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
index 5ff95876ef34d..1626f819af8b5 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/nixl_connector.py
@@ -1161,6 +1161,14 @@ class NixlConnectorWorker:
         # to better exploit the memory layout (ie num_blocks is the first dim).
         split_k_and_v = self.kv_topo.split_k_and_v
         tensor_size_bytes = None
+
+        # TODO (NickLucche): Get kernel_block_size in a cleaner way
+        # NHD default "view" for non-MLA cache
+        if self.device_type == "cpu":
+            block_size_position = -2
+        else:
+            block_size_position = -2 if self.use_mla else -3
+
         # Enable different block lengths for different layers when MLA is used.
         self.block_len_per_layer = list[int]()
         self.slot_size_per_layer = list[int]()  # HD bytes in kv terms
@@ -1175,9 +1183,7 @@ class NixlConnectorWorker:
                 if base_addr in seen_base_addresses:
                     continue
 
-                # TODO (NickLucche): Get kernel_block_size in a cleaner way
-                # NHD default "view" for non-MLA cache
-                kernel_block_size = cache.shape[-2] if self.use_mla else cache.shape[-3]
+                kernel_block_size = cache.shape[block_size_position]
 
                 if self.block_size != kernel_block_size:
                     logger.info_once(

From 2a2d5d2780bf25035438263605c7784f12afb718 Mon Sep 17 00:00:00 2001
From: Kunshang Ji <kunshang.ji@intel.com>
Date: Wed, 19 Nov 2025 03:34:36 +0800
Subject: [PATCH 559/976] Replace `torch.cuda.Event` with `torch.Event` for
 better hardware compatibility (#26985)

Signed-off-by: Kunshang Ji <kunshang.ji@intel.com>
---
 benchmarks/kernels/benchmark_cutlass_moe_fp8.py      |  4 ++--
 benchmarks/kernels/benchmark_moe.py                  |  4 ++--
 .../kernels/benchmark_moe_permute_unpermute.py       |  8 ++++----
 .../kernels/benchmark_per_token_group_quant.py       |  4 ++--
 benchmarks/kernels/benchmark_silu_mul_fp8_quant.py   |  4 ++--
 .../kernels/benchmark_trtllm_decode_attention.py     |  4 ++--
 .../kernels/benchmark_trtllm_prefill_attention.py    |  4 ++--
 benchmarks/kernels/benchmark_w8a8_block_fp8.py       |  4 ++--
 tests/kernels/attention/test_merge_attn_states.py    |  8 ++++----
 vllm/v1/kv_offload/worker/cpu_gpu.py                 |  6 +++---
 vllm/v1/worker/cpu_model_runner.py                   |  6 +++---
 vllm/v1/worker/gpu_input_batch.py                    |  4 ++--
 vllm/v1/worker/gpu_model_runner.py                   | 12 ++++++------
 vllm/v1/worker/ubatching.py                          |  8 ++++----
 vllm/v1/worker/xpu_model_runner.py                   |  9 +--------
 15 files changed, 41 insertions(+), 48 deletions(-)

diff --git a/benchmarks/kernels/benchmark_cutlass_moe_fp8.py b/benchmarks/kernels/benchmark_cutlass_moe_fp8.py
index 027f67ad4db69..e07d6c776bc00 100644
--- a/benchmarks/kernels/benchmark_cutlass_moe_fp8.py
+++ b/benchmarks/kernels/benchmark_cutlass_moe_fp8.py
@@ -255,8 +255,8 @@ def bench_run(
         torch.cuda.synchronize()
 
         # Timing
-        start_event = torch.cuda.Event(enable_timing=True)
-        end_event = torch.cuda.Event(enable_timing=True)
+        start_event = torch.Event(enable_timing=True)
+        end_event = torch.Event(enable_timing=True)
 
         latencies = []
         for _ in range(num_iters):
diff --git a/benchmarks/kernels/benchmark_moe.py b/benchmarks/kernels/benchmark_moe.py
index c99951aa27826..a1af0b8aec3d0 100644
--- a/benchmarks/kernels/benchmark_moe.py
+++ b/benchmarks/kernels/benchmark_moe.py
@@ -185,8 +185,8 @@ def benchmark_config(
         graph.replay()
     torch.cuda.synchronize()
 
-    start_event = torch.cuda.Event(enable_timing=True)
-    end_event = torch.cuda.Event(enable_timing=True)
+    start_event = torch.Event(enable_timing=True)
+    end_event = torch.Event(enable_timing=True)
 
     latencies: list[float] = []
     for i in range(num_iters):
diff --git a/benchmarks/kernels/benchmark_moe_permute_unpermute.py b/benchmarks/kernels/benchmark_moe_permute_unpermute.py
index efa5a7386027e..b8913a217c608 100644
--- a/benchmarks/kernels/benchmark_moe_permute_unpermute.py
+++ b/benchmarks/kernels/benchmark_moe_permute_unpermute.py
@@ -105,8 +105,8 @@ def benchmark_permute(
         graph.replay()
     torch.cuda.synchronize()
 
-    start_event = torch.cuda.Event(enable_timing=True)
-    end_event = torch.cuda.Event(enable_timing=True)
+    start_event = torch.Event(enable_timing=True)
+    end_event = torch.Event(enable_timing=True)
 
     latencies: list[float] = []
     for i in range(num_iters):
@@ -241,8 +241,8 @@ def benchmark_unpermute(
         graph.replay()
     torch.cuda.synchronize()
 
-    start_event = torch.cuda.Event(enable_timing=True)
-    end_event = torch.cuda.Event(enable_timing=True)
+    start_event = torch.Event(enable_timing=True)
+    end_event = torch.Event(enable_timing=True)
 
     latencies: list[float] = []
     for i in range(num_iters):
diff --git a/benchmarks/kernels/benchmark_per_token_group_quant.py b/benchmarks/kernels/benchmark_per_token_group_quant.py
index bdc1eb733084e..eba4d510258b6 100644
--- a/benchmarks/kernels/benchmark_per_token_group_quant.py
+++ b/benchmarks/kernels/benchmark_per_token_group_quant.py
@@ -30,8 +30,8 @@ def _time_cuda(
         fn()
     torch.cuda.synchronize()
 
-    start = torch.cuda.Event(enable_timing=True)
-    end = torch.cuda.Event(enable_timing=True)
+    start = torch.Event(enable_timing=True)
+    end = torch.Event(enable_timing=True)
 
     start.record()
     for _ in range(bench_iters):
diff --git a/benchmarks/kernels/benchmark_silu_mul_fp8_quant.py b/benchmarks/kernels/benchmark_silu_mul_fp8_quant.py
index a5887aafd30d6..de01ff197eab7 100644
--- a/benchmarks/kernels/benchmark_silu_mul_fp8_quant.py
+++ b/benchmarks/kernels/benchmark_silu_mul_fp8_quant.py
@@ -253,8 +253,8 @@ def benchmark(
         )
     torch.cuda.synchronize()
 
-    start_event = torch.cuda.Event(enable_timing=True)
-    end_event = torch.cuda.Event(enable_timing=True)
+    start_event = torch.Event(enable_timing=True)
+    end_event = torch.Event(enable_timing=True)
 
     # Benchmark
     latencies: list[float] = []
diff --git a/benchmarks/kernels/benchmark_trtllm_decode_attention.py b/benchmarks/kernels/benchmark_trtllm_decode_attention.py
index 29ce18234dfa0..1d0d6fbb9a470 100644
--- a/benchmarks/kernels/benchmark_trtllm_decode_attention.py
+++ b/benchmarks/kernels/benchmark_trtllm_decode_attention.py
@@ -127,8 +127,8 @@ def benchmark_decode(
 
     def time_fn(fn, warmup=10, trials=20):
         torch.cuda.synchronize()
-        start = torch.cuda.Event(enable_timing=True)
-        end = torch.cuda.Event(enable_timing=True)
+        start = torch.Event(enable_timing=True)
+        end = torch.Event(enable_timing=True)
         times = []
         for i in range(warmup):
             fn()
diff --git a/benchmarks/kernels/benchmark_trtllm_prefill_attention.py b/benchmarks/kernels/benchmark_trtllm_prefill_attention.py
index 2a25d03748112..84bde723abf7f 100644
--- a/benchmarks/kernels/benchmark_trtllm_prefill_attention.py
+++ b/benchmarks/kernels/benchmark_trtllm_prefill_attention.py
@@ -139,8 +139,8 @@ def benchmark_prefill(
 
     def time_fn(fn, warmup=10, trials=20):
         torch.cuda.synchronize()
-        start = torch.cuda.Event(enable_timing=True)
-        end = torch.cuda.Event(enable_timing=True)
+        start = torch.Event(enable_timing=True)
+        end = torch.Event(enable_timing=True)
         times = []
         for i in range(warmup):
             fn()
diff --git a/benchmarks/kernels/benchmark_w8a8_block_fp8.py b/benchmarks/kernels/benchmark_w8a8_block_fp8.py
index ab54f81985bc2..b52500c8c5217 100644
--- a/benchmarks/kernels/benchmark_w8a8_block_fp8.py
+++ b/benchmarks/kernels/benchmark_w8a8_block_fp8.py
@@ -183,8 +183,8 @@ def benchmark_config(
         run()
     torch.cuda.synchronize()
 
-    start_event = torch.cuda.Event(enable_timing=True)
-    end_event = torch.cuda.Event(enable_timing=True)
+    start_event = torch.Event(enable_timing=True)
+    end_event = torch.Event(enable_timing=True)
 
     latencies: list[float] = []
     for i in range(num_iters):
diff --git a/tests/kernels/attention/test_merge_attn_states.py b/tests/kernels/attention/test_merge_attn_states.py
index 9b084f2f660b2..c7662223e1ca5 100644
--- a/tests/kernels/attention/test_merge_attn_states.py
+++ b/tests/kernels/attention/test_merge_attn_states.py
@@ -150,8 +150,8 @@ def test_merge_attn_states(
     output_torch = output.clone()
     output_lse_torch = output_lse.clone()
     total_time_torch_kernel = 0
-    start = torch.cuda.Event(enable_timing=True)
-    end = torch.cuda.Event(enable_timing=True)
+    start = torch.Event(enable_timing=True)
+    end = torch.Event(enable_timing=True)
 
     # 0. Run the Torch kernel
     prefix_lse_torch = prefix_lse.clone()
@@ -188,8 +188,8 @@ def test_merge_attn_states(
     output_lse_ref_triton = output_lse.clone()
 
     total_time_triton_kernel = 0
-    start = torch.cuda.Event(enable_timing=True)
-    end = torch.cuda.Event(enable_timing=True)
+    start = torch.Event(enable_timing=True)
+    end = torch.Event(enable_timing=True)
 
     for _ in range(warmup_times):
         merge_attn_states_triton(
diff --git a/vllm/v1/kv_offload/worker/cpu_gpu.py b/vllm/v1/kv_offload/worker/cpu_gpu.py
index 646f9d0d75423..0f2ec4a1b41f3 100644
--- a/vllm/v1/kv_offload/worker/cpu_gpu.py
+++ b/vllm/v1/kv_offload/worker/cpu_gpu.py
@@ -68,9 +68,9 @@ class CpuGpuOffloadingHandler(OffloadingHandler):
         self.h2d_stream = torch.cuda.Stream()
 
         # job_id -> transfer cuda event
-        self.transfer_events: dict[int, torch.cuda.Event] = {}
+        self.transfer_events: dict[int, torch.Event] = {}
         # list of cuda events available for re-use
-        self.events_pool: list[torch.cuda.Event] = []
+        self.events_pool: list[torch.Event] = []
 
         pin_memory = is_pin_memory_available()
 
@@ -153,7 +153,7 @@ class CpuGpuOffloadingHandler(OffloadingHandler):
         )
         src_to_dst_tensor = torch.from_numpy(src_to_dst)
 
-        event = self.events_pool.pop() if self.events_pool else torch.cuda.Event()
+        event = self.events_pool.pop() if self.events_pool else torch.Event()
         with torch.cuda.stream(stream):
             for src_tensor, dst_tensor, kv_dim in zip(
                 src_tensors, dst_tensors, self.kv_dim_before_num_blocks
diff --git a/vllm/v1/worker/cpu_model_runner.py b/vllm/v1/worker/cpu_model_runner.py
index 40f011fed1ada..6bfbc32d598fa 100644
--- a/vllm/v1/worker/cpu_model_runner.py
+++ b/vllm/v1/worker/cpu_model_runner.py
@@ -96,14 +96,14 @@ def _torch_cuda_wrapper():
         def __init__(self, *args, **kwargs) -> None:
             pass
 
-    cuda_event = torch.cuda.Event
+    cuda_event = torch.Event
     cuda_stream = torch.cuda.Stream
     try:
-        torch.cuda.Event = _EventPlaceholder
+        torch.Event = _EventPlaceholder
         torch.cuda.Stream = _StreamPlaceholder
         yield
     finally:
-        torch.cuda.Event = cuda_event
+        torch.Event = cuda_event
         torch.cuda.Stream = cuda_stream
 
 
diff --git a/vllm/v1/worker/gpu_input_batch.py b/vllm/v1/worker/gpu_input_batch.py
index 7cf6afa3fc371..023b5edb2c340 100644
--- a/vllm/v1/worker/gpu_input_batch.py
+++ b/vllm/v1/worker/gpu_input_batch.py
@@ -265,7 +265,7 @@ class InputBatch:
         # ids from prior step, if required by current sampling params
         # (e.g. penalties).
         self.sampled_token_ids_cpu: torch.Tensor | None = None
-        self.async_copy_ready_event: torch.cuda.Event | None = None
+        self.async_copy_ready_event: torch.Event | None = None
 
     @property
     def req_ids(self) -> list[str]:
@@ -891,7 +891,7 @@ class InputBatch:
     def set_async_sampled_token_ids(
         self,
         sampled_token_ids_cpu: torch.Tensor,
-        async_copy_ready_event: torch.cuda.Event,
+        async_copy_ready_event: torch.Event,
     ) -> None:
         """
         In async scheduling case, store ref to sampled_token_ids_cpu
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index 67f575f92cc6b..506118d2d762b 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -185,7 +185,7 @@ class AsyncGPUModelRunnerOutput(AsyncModelRunnerOutput):
         self._invalid_req_indices = invalid_req_indices
 
         # Event on the copy stream so we can synchronize the non-blocking copy.
-        self.async_copy_ready_event = torch.cuda.Event()
+        self.async_copy_ready_event = torch.Event()
 
         # Keep a reference to the device tensor to avoid it being
         # deallocated until we finish copying it to the host.
@@ -435,10 +435,10 @@ class GPUModelRunner(
         self.async_output_copy_stream: torch.cuda.Stream | None = None
         # cuda event to synchronize use of reused CPU tensors between steps
         # when async scheduling is enabled.
-        self.prepare_inputs_event: torch.cuda.Event | None = None
+        self.prepare_inputs_event: torch.Event | None = None
         if self.use_async_scheduling:
             self.async_output_copy_stream = torch.cuda.Stream()
-            self.prepare_inputs_event = torch.cuda.Event()
+            self.prepare_inputs_event = torch.Event()
 
         # self.cudagraph_batch_sizes sorts in ascending order.
         if (
@@ -549,7 +549,7 @@ class GPUModelRunner(
 
         # Cached outputs.
         self._draft_token_ids: list[list[int]] | torch.Tensor | None = None
-        self.transfer_event = torch.cuda.Event()
+        self.transfer_event = torch.Event()
         self.sampled_token_ids_pinned_cpu = torch.empty(
             (self.max_num_reqs, 1),
             dtype=torch.int64,
@@ -559,10 +559,10 @@ class GPUModelRunner(
 
         # Pre-allocated tensor for copying valid sampled token counts to CPU,
         # with dedicated stream for overlapping and event for coordination.
-        self.valid_sampled_token_count_event: torch.cuda.Event | None = None
+        self.valid_sampled_token_count_event: torch.Event | None = None
         self.valid_sampled_token_count_copy_stream: torch.cuda.Stream | None = None
         if self.use_async_scheduling and self.num_spec_tokens:
-            self.valid_sampled_token_count_event = torch.cuda.Event()
+            self.valid_sampled_token_count_event = torch.Event()
             self.valid_sampled_token_count_copy_stream = torch.cuda.Stream()
         self.valid_sampled_token_count_cpu = torch.empty(
             self.max_num_reqs,
diff --git a/vllm/v1/worker/ubatching.py b/vllm/v1/worker/ubatching.py
index 9f16b1e6d03ee..be8326e2fdbc1 100644
--- a/vllm/v1/worker/ubatching.py
+++ b/vllm/v1/worker/ubatching.py
@@ -27,8 +27,8 @@ class UBatchContext:
         ready_barrier: threading.Barrier,
         cpu_wait_event: threading.Event,
         cpu_signal_event: threading.Event,
-        gpu_comm_done_event: torch.cuda.Event,
-        gpu_compute_done_event: torch.cuda.Event,
+        gpu_comm_done_event: torch.Event,
+        gpu_compute_done_event: torch.Event,
         schedule: str = "default",
     ):
         self.id = id
@@ -207,8 +207,8 @@ def make_ubatch_contexts(
     Create a context manager for micro-batching synchronization.
     """
     cpu_events = [threading.Event() for _ in range(num_micro_batches)]
-    gpu_comm_done_events = [torch.cuda.Event() for _ in range(num_micro_batches)]
-    gpu_compute_done_events = [torch.cuda.Event() for _ in range(num_micro_batches)]
+    gpu_comm_done_events = [torch.Event() for _ in range(num_micro_batches)]
+    gpu_compute_done_events = [torch.Event() for _ in range(num_micro_batches)]
 
     assert len(forward_contexts) == 2
 
diff --git a/vllm/v1/worker/xpu_model_runner.py b/vllm/v1/worker/xpu_model_runner.py
index 4f82c18da73aa..30563305853a5 100644
--- a/vllm/v1/worker/xpu_model_runner.py
+++ b/vllm/v1/worker/xpu_model_runner.py
@@ -37,19 +37,12 @@ class XPUModelRunner(GPUModelRunner):
 
 @contextmanager
 def _torch_cuda_wrapper():
-    class _EventPlaceholder:
-        def __init__(self, *args, **kwargs) -> None:
-            self.record = lambda: None
-            self.synchronize = lambda: None
-
     try:
         # replace cuda APIs with xpu APIs, this should work by default
-        torch.cuda.Event = torch.xpu.Event
         torch.cuda.Stream = torch.xpu.Stream
         torch.cuda.default_stream = torch.xpu.current_stream
         torch.cuda.current_stream = torch.xpu.current_stream
         torch.cuda.stream = torch.xpu.stream
         yield
     finally:
-        # if anything goes wrong, just patch it with a placeholder
-        torch.cuda.Event = _EventPlaceholder
+        pass

From 67745d189fd981ee824bde35666a3737a962c031 Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Tue, 18 Nov 2025 15:29:06 -0500
Subject: [PATCH 560/976] Supress verbose logs from
 model_hosting_container_standards (#28949)

Signed-off-by: mgoin <mgoin64@gmail.com>
---
 vllm/entrypoints/openai/api_server.py | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/vllm/entrypoints/openai/api_server.py b/vllm/entrypoints/openai/api_server.py
index 3cf66fcd27e2a..3974f45a7135c 100644
--- a/vllm/entrypoints/openai/api_server.py
+++ b/vllm/entrypoints/openai/api_server.py
@@ -5,6 +5,7 @@ import hashlib
 import importlib
 import inspect
 import json
+import logging
 import multiprocessing
 import multiprocessing.forkserver as forkserver
 import os
@@ -2020,6 +2021,9 @@ async def run_server(args, **uvicorn_kwargs) -> None:
     # Add process-specific prefix to stdout and stderr.
     decorate_logs("APIServer")
 
+    # Suppress verbose logs from model_hosting_container_standards
+    logging.getLogger("model_hosting_container_standards").setLevel(logging.ERROR)
+
     listen_address, sock = setup_server(args)
     await run_server_worker(listen_address, sock, args, **uvicorn_kwargs)
 

From 49ef847aa82c93615d5d86fac81e4716e9cd27cd Mon Sep 17 00:00:00 2001
From: Johnny <johnnync13@gmail.com>
Date: Wed, 19 Nov 2025 01:44:27 +0100
Subject: [PATCH 561/976] [NVIDIA] Guard SM100 CUTLASS MoE macro to SM100
 builds v2 (#28938)

Signed-off-by: johnnynunez <johnnynuca14@gmail.com>
Signed-off-by: Johnny <johnnynuca14@gmail.com>
---
 CMakeLists.txt | 14 +++++++-------
 1 file changed, 7 insertions(+), 7 deletions(-)

diff --git a/CMakeLists.txt b/CMakeLists.txt
index 3a37040edbf1a..c1c7478b9f3ea 100644
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -512,9 +512,9 @@ if(VLLM_GPU_LANG STREQUAL "CUDA")
   # The cutlass_scaled_mm kernels for Blackwell SM100 (c3x, i.e. CUTLASS 3.x)
   # require CUDA 12.8 or later
   if(${CMAKE_CUDA_COMPILER_VERSION} VERSION_GREATER_EQUAL 13.0)
-    cuda_archs_loose_intersection(SCALED_MM_ARCHS "10.0f;11.0f;12.0f" "${CUDA_ARCHS}")
+    cuda_archs_loose_intersection(SCALED_MM_ARCHS "10.0f;11.0f" "${CUDA_ARCHS}")
   else()
-    cuda_archs_loose_intersection(SCALED_MM_ARCHS "10.0a;10.1a;10.3a;12.0a;12.1a" "${CUDA_ARCHS}")
+    cuda_archs_loose_intersection(SCALED_MM_ARCHS "10.0a;10.1a;10.3a" "${CUDA_ARCHS}")
   endif()
   if(${CMAKE_CUDA_COMPILER_VERSION} VERSION_GREATER_EQUAL 12.8 AND SCALED_MM_ARCHS)
     set(SRCS
@@ -619,9 +619,9 @@ if(VLLM_GPU_LANG STREQUAL "CUDA")
 
   # FP4 Archs and flags
   if(${CMAKE_CUDA_COMPILER_VERSION} VERSION_GREATER_EQUAL 13.0)
-    cuda_archs_loose_intersection(FP4_ARCHS "10.0f;11.0f;12.0f" "${CUDA_ARCHS}")
+    cuda_archs_loose_intersection(FP4_ARCHS "10.0f;11.0f" "${CUDA_ARCHS}")
   else()
-    cuda_archs_loose_intersection(FP4_ARCHS "10.0a;10.1a;12.0a;12.1a" "${CUDA_ARCHS}")
+    cuda_archs_loose_intersection(FP4_ARCHS "10.0a;10.1a;10.3a" "${CUDA_ARCHS}")
   endif()
   if(${CMAKE_CUDA_COMPILER_VERSION} VERSION_GREATER_EQUAL 12.8 AND FP4_ARCHS)
     set(SRCS
@@ -695,7 +695,7 @@ if(VLLM_GPU_LANG STREQUAL "CUDA")
   if(${CMAKE_CUDA_COMPILER_VERSION} VERSION_GREATER_EQUAL 13.0)
     cuda_archs_loose_intersection(SCALED_MM_ARCHS "10.0f;11.0f" "${CUDA_ARCHS}")
   else()
-    cuda_archs_loose_intersection(SCALED_MM_ARCHS "10.0a" "${CUDA_ARCHS}")
+    cuda_archs_loose_intersection(SCALED_MM_ARCHS "10.0a;10.1a;10.3a" "${CUDA_ARCHS}")
   endif()
   if(${CMAKE_CUDA_COMPILER_VERSION} VERSION_GREATER_EQUAL 12.8 AND SCALED_MM_ARCHS)
     set(SRCS "csrc/quantization/w8a8/cutlass/moe/grouped_mm_c3x_sm100.cu")
@@ -741,9 +741,9 @@ if(VLLM_GPU_LANG STREQUAL "CUDA")
   endif()
 
   if(${CMAKE_CUDA_COMPILER_VERSION} VERSION_GREATER_EQUAL 13.0)
-    cuda_archs_loose_intersection(SCALED_MM_ARCHS "10.0f;11.0f;12.0f" "${CUDA_ARCHS}")
+    cuda_archs_loose_intersection(SCALED_MM_ARCHS "10.0f;11.0f" "${CUDA_ARCHS}")
   else()
-    cuda_archs_loose_intersection(SCALED_MM_ARCHS "10.0a;10.1a;10.3a;12.0a;12.1a" "${CUDA_ARCHS}")
+    cuda_archs_loose_intersection(SCALED_MM_ARCHS "10.0a;10.1a;10.3a" "${CUDA_ARCHS}")
   endif()
   if(${CMAKE_CUDA_COMPILER_VERSION} VERSION_GREATER_EQUAL 12.8 AND SCALED_MM_ARCHS)
     set(SRCS "csrc/quantization/w8a8/cutlass/moe/blockwise_scaled_group_mm_sm100.cu")

From 9912b8ccb861593d76216afa583ac593faf5a309 Mon Sep 17 00:00:00 2001
From: Varun Sundar Rabindranath <varunsundar08@gmail.com>
Date: Tue, 18 Nov 2025 19:45:20 -0500
Subject: [PATCH 562/976] [Build] Add OpenAI triton_kernels (#28788)

Signed-off-by: Varun Sundar Rabindranath <vsundarr@redhat.com>
Co-authored-by: Varun Sundar Rabindranath <vsundarr@redhat.com>
---
 .gitignore                                    |  3 ++
 CMakeLists.txt                                |  5 ++
 cmake/external_projects/triton_kernels.cmake  | 53 +++++++++++++++++++
 setup.py                                      | 17 ++++++
 .../layers/quantization/utils/mxfp4_utils.py  |  2 +
 vllm/utils/import_utils.py                    | 40 +++++++++++++-
 6 files changed, 119 insertions(+), 1 deletion(-)
 create mode 100644 cmake/external_projects/triton_kernels.cmake

diff --git a/.gitignore b/.gitignore
index 50070d7898fe6..7cda86478664f 100644
--- a/.gitignore
+++ b/.gitignore
@@ -4,6 +4,9 @@
 # vllm-flash-attn built from source
 vllm/vllm_flash_attn/*
 
+# OpenAI triton kernels copied from source
+vllm/third_party/triton_kernels/*
+
 # triton jit
 .triton
 
diff --git a/CMakeLists.txt b/CMakeLists.txt
index c1c7478b9f3ea..ae8e6175443f3 100644
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -1030,6 +1030,11 @@ if(VLLM_GPU_LANG STREQUAL "HIP")
     WITH_SOABI)
 endif()
 
+# For CUDA and HIP builds also build the triton_kernels external package.
+if(VLLM_GPU_LANG STREQUAL "CUDA" OR VLLM_GPU_LANG STREQUAL "HIP")
+    include(cmake/external_projects/triton_kernels.cmake)
+endif()
+
 # For CUDA we also build and ship some external projects.
 if (VLLM_GPU_LANG STREQUAL "CUDA")
     include(cmake/external_projects/flashmla.cmake)
diff --git a/cmake/external_projects/triton_kernels.cmake b/cmake/external_projects/triton_kernels.cmake
new file mode 100644
index 0000000000000..d35ad123dd9de
--- /dev/null
+++ b/cmake/external_projects/triton_kernels.cmake
@@ -0,0 +1,53 @@
+# Install OpenAI triton_kernels from https://github.com/triton-lang/triton/tree/main/python/triton_kernels
+
+set(DEFAULT_TRITON_KERNELS_TAG "v3.5.0")
+
+# Set TRITON_KERNELS_SRC_DIR for use with local development with vLLM. We expect TRITON_KERNELS_SRC_DIR to
+# be directly set to the triton_kernels python directory. 
+if (DEFINED ENV{TRITON_KERNELS_SRC_DIR})
+  message(STATUS "[triton_kernels] Fetch from $ENV{TRITON_KERNELS_SRC_DIR}")
+  FetchContent_Declare(
+          triton_kernels
+          SOURCE_DIR $ENV{TRITON_KERNELS_SRC_DIR}
+  )
+
+else()
+  set(TRITON_GIT "https://github.com/triton-lang/triton.git")
+  message (STATUS "[triton_kernels] Fetch from ${TRITON_GIT}:${DEFAULT_TRITON_KERNELS_TAG}")
+  FetchContent_Declare(
+          triton_kernels
+          # TODO (varun) : Fetch just the triton_kernels directory from Triton
+          GIT_REPOSITORY https://github.com/triton-lang/triton.git
+          GIT_TAG ${DEFAULT_TRITON_KERNELS_TAG}
+          GIT_PROGRESS TRUE
+          SOURCE_SUBDIR python/triton_kernels/triton_kernels
+  )
+endif()
+
+# Fetch content 
+FetchContent_MakeAvailable(triton_kernels)
+
+if (NOT triton_kernels_SOURCE_DIR)
+  message (FATAL_ERROR "[triton_kernels] Cannot resolve triton_kernels_SOURCE_DIR")
+endif()
+
+if (DEFINED ENV{TRITON_KERNELS_SRC_DIR})
+  set(TRITON_KERNELS_PYTHON_DIR "${triton_kernels_SOURCE_DIR}/")
+else()
+  set(TRITON_KERNELS_PYTHON_DIR "${triton_kernels_SOURCE_DIR}/python/triton_kernels/triton_kernels/")
+endif()
+
+message (STATUS "[triton_kernels] triton_kernels is available at ${TRITON_KERNELS_PYTHON_DIR}")
+
+add_custom_target(triton_kernels)
+
+# Ensure the vllm/third_party directory exists before installation
+install(CODE "file(MAKE_DIRECTORY \"\${CMAKE_INSTALL_PREFIX}/vllm/third_party/triton_kernels\")")
+
+## Copy .py files to install directory.
+install(DIRECTORY
+        ${TRITON_KERNELS_PYTHON_DIR}
+        DESTINATION 
+        vllm/third_party/triton_kernels/
+        COMPONENT triton_kernels
+        FILES_MATCHING PATTERN "*.py")
diff --git a/setup.py b/setup.py
index e9b36e2a2e037..5591bcb132447 100644
--- a/setup.py
+++ b/setup.py
@@ -299,6 +299,20 @@ class cmake_build_ext(build_ext):
             os.makedirs(os.path.dirname(dst_file), exist_ok=True)
             self.copy_file(file, dst_file)
 
+        if _is_cuda() or _is_hip():
+            # copy vllm/third_party/triton_kernels/**/*.py from self.build_lib
+            # to current directory so that they can be included in the editable
+            # build
+            print(
+                f"Copying {self.build_lib}/vllm/third_party/triton_kernels "
+                "to vllm/third_party/triton_kernels"
+            )
+            shutil.copytree(
+                f"{self.build_lib}/vllm/third_party/triton_kernels",
+                "vllm/third_party/triton_kernels",
+                dirs_exist_ok=True,
+            )
+
 
 class precompiled_build_ext(build_ext):
     """Disables extension building when using precompiled binaries."""
@@ -633,6 +647,9 @@ ext_modules = []
 if _is_cuda() or _is_hip():
     ext_modules.append(CMakeExtension(name="vllm._moe_C"))
     ext_modules.append(CMakeExtension(name="vllm.cumem_allocator"))
+    # Optional since this doesn't get built (produce an .so file). This is just
+    # copying the relevant .py files from the source repository.
+    ext_modules.append(CMakeExtension(name="vllm.triton_kernels", optional=True))
 
 if _is_hip():
     ext_modules.append(CMakeExtension(name="vllm._rocm_C"))
diff --git a/vllm/model_executor/layers/quantization/utils/mxfp4_utils.py b/vllm/model_executor/layers/quantization/utils/mxfp4_utils.py
index 34a31bcf6a747..cbc46810a26a6 100644
--- a/vllm/model_executor/layers/quantization/utils/mxfp4_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/mxfp4_utils.py
@@ -8,6 +8,7 @@ import torch
 from vllm.logger import init_logger
 from vllm.platforms import current_platform
 from vllm.triton_utils import triton
+from vllm.utils.import_utils import has_triton_kernels
 from vllm.utils.torch_utils import direct_register_custom_op, is_torch_equal_or_newer
 
 logger = init_logger(__name__)
@@ -15,6 +16,7 @@ logger = init_logger(__name__)
 
 def _swizzle_mxfp4(quant_tensor, scale, num_warps):
     """weight swizzle for mxfp4 moe, used for OAI mxfp4 kernel"""
+    assert has_triton_kernels()
     import triton_kernels.matmul_ogs_details.opt_flags as opt_flags
     from triton_kernels.numerics import InFlexData
     from triton_kernels.tensor import FP4, convert_layout, wrap_torch_tensor
diff --git a/vllm/utils/import_utils.py b/vllm/utils/import_utils.py
index f01d2c7a6a33d..ff0f0350fd941 100644
--- a/vllm/utils/import_utils.py
+++ b/vllm/utils/import_utils.py
@@ -18,6 +18,10 @@ from typing import Any
 import regex as re
 from typing_extensions import Never
 
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
 
 # TODO: This function can be removed if transformer_modules classes are
 # serialized by value when communicating between processes
@@ -62,6 +66,35 @@ def import_pynvml():
     return pynvml
 
 
+@cache
+def import_triton_kernels():
+    """
+    For convenience, prioritize triton_kernels that is available in
+    `site-packages`. Use `vllm.third_party.triton_kernels` as a fall-back.
+    """
+    if _has_module("triton_kernels"):
+        import triton_kernels
+
+        logger.debug_once(
+            f"Loading module triton_kernels from {triton_kernels.__file__}.",
+            scope="local",
+        )
+    elif _has_module("vllm.third_party.triton_kernels"):
+        import vllm.third_party.triton_kernels as triton_kernels
+
+        logger.debug_once(
+            f"Loading module triton_kernels from {triton_kernels.__file__}.",
+            scope="local",
+        )
+        sys.modules["triton_kernels"] = triton_kernels
+    else:
+        logger.info_once(
+            "triton_kernels unavailable in this build. "
+            "Please consider installing triton_kernels from "
+            "https://github.com/triton-lang/triton/tree/main/python/triton_kernels"
+        )
+
+
 def import_from_path(module_name: str, file_path: str | os.PathLike):
     """
     Import a Python file according to its file path.
@@ -397,7 +430,12 @@ def has_deep_gemm() -> bool:
 
 def has_triton_kernels() -> bool:
     """Whether the optional `triton_kernels` package is available."""
-    return _has_module("triton_kernels")
+    is_available = _has_module("triton_kernels") or _has_module(
+        "vllm.third_party.triton_kernels"
+    )
+    if is_available:
+        import_triton_kernels()
+    return is_available
 
 
 def has_tilelang() -> bool:

From 1395461f5fb76145433c1dc8a3b7262ee3799bf8 Mon Sep 17 00:00:00 2001
From: tomeras91 <57313761+tomeras91@users.noreply.github.com>
Date: Wed, 19 Nov 2025 02:49:36 +0200
Subject: [PATCH 563/976] [Hybrid][torch.compile] Refactor mamba2 forward to
 avoid obscuring linear projections under custom op (#28587)

Signed-off-by: Tomer Asida <57313761+tomeras91@users.noreply.github.com>
---
 .../layers/mamba/mamba_mixer2.py              | 160 ++++++++++--------
 vllm/model_executor/models/bamba.py           |   3 +-
 vllm/model_executor/models/falcon_h1.py       |   4 +-
 .../model_executor/models/granitemoehybrid.py |   3 +-
 vllm/model_executor/models/mamba2.py          |   3 +-
 vllm/model_executor/models/nemotron_h.py      |   3 +-
 vllm/model_executor/models/zamba2.py          |   6 +-
 7 files changed, 92 insertions(+), 90 deletions(-)

diff --git a/vllm/model_executor/layers/mamba/mamba_mixer2.py b/vllm/model_executor/layers/mamba/mamba_mixer2.py
index fb45afa33dad6..57313990b8206 100644
--- a/vllm/model_executor/layers/mamba/mamba_mixer2.py
+++ b/vllm/model_executor/layers/mamba/mamba_mixer2.py
@@ -426,6 +426,10 @@ class MambaMixer2(MambaBase, CustomOp):
         # `ColumnParallelLinear` and `MergedColumnParallelLinear`,
         # and `set_weight_attrs` doesn't allow to override it
         self.conv1d.weight.data = self.conv1d.weight.data.unsqueeze(1)
+        conv_weights = self.conv1d.weight.view(
+            self.conv1d.weight.size(0), self.conv1d.weight.size(2)
+        )
+        self.register_buffer("conv_weights", conv_weights, persistent=False)
 
         # - these are TPed by heads to reduce the size of the
         #   temporal shape
@@ -459,6 +463,17 @@ class MambaMixer2(MambaBase, CustomOp):
             intermediate_size, n_groups, self.use_rms_norm, eps=rms_norm_eps
         )
 
+        # - get hidden_states, B and C after depthwise convolution.
+        self.split_hidden_states_B_C_fn = lambda hidden_states_B_C: torch.split(
+            hidden_states_B_C,
+            [
+                self.intermediate_size // self.tp_size,
+                self.groups_ssm_state_size // self.tp_size,
+                self.groups_ssm_state_size // self.tp_size,
+            ],
+            dim=-1,
+        )
+
         compilation_config = get_current_vllm_config().compilation_config
         if prefix in compilation_config.static_forward_context:
             raise ValueError(f"Duplicate layer name: {prefix}")
@@ -470,10 +485,24 @@ class MambaMixer2(MambaBase, CustomOp):
         self.cache_config = cache_config
         self.prefix = prefix
 
+        # Pre-compute sizes for forward pass
+        self.tped_intermediate_size = self.intermediate_size // self.tp_size
+        self.tped_conv_size = self.conv_dim // self.tp_size
+        self.tped_dt_size = self.num_heads // self.tp_size
+
+        self.split_hidden_states_B_C_fn = lambda hidden_states_B_C: torch.split(
+            hidden_states_B_C,
+            [
+                self.tped_intermediate_size,
+                self.groups_ssm_state_size // self.tp_size,
+                self.groups_ssm_state_size // self.tp_size,
+            ],
+            dim=-1,
+        )
+
     def forward_native(
         self,
         hidden_states: torch.Tensor,
-        output: torch.Tensor,
         mup_vector: torch.Tensor | None = None,
     ):
         pass
@@ -481,22 +510,55 @@ class MambaMixer2(MambaBase, CustomOp):
     def forward(
         self,
         hidden_states: torch.Tensor,
-        output: torch.Tensor,
         mup_vector: torch.Tensor | None = None,
     ):
-        torch.ops.vllm.mamba_mixer2(
-            hidden_states,
-            output,
-            self.prefix,
-            mup_vector,
+        # 1. Gated MLP's linear projection
+        projected_states, _ = self.in_proj(hidden_states)
+        if mup_vector is not None:
+            projected_states = projected_states * mup_vector
+
+        # 2. Prepare inputs for conv + SSM
+        ssm_output = torch.empty(
+            [
+                hidden_states.shape[0],
+                (self.num_heads // self.tp_size) * self.head_dim,
+            ],
+            dtype=hidden_states.dtype,
+            device=hidden_states.device,
         )
 
-    def forward_cuda(
+        # 3. conv + SSM
+        # (split `projected_states` into hidden_states_B_C, dt in the custom op to
+        # ensure it is not treated as an intermediate tensor by torch compile)
+        torch.ops.vllm.mamba_mixer2(
+            projected_states,
+            ssm_output,
+            self.prefix,
+        )
+
+        # 4. gated MLP
+        # GatedRMSNorm internally applying SiLU to the gate
+        # SiLU is applied internally before normalization, unlike standard
+        # norm usage
+        gate = projected_states[..., : self.tped_intermediate_size]
+        hidden_states = self.norm(ssm_output, gate)
+
+        # 5. Final linear projection
+        output, _ = self.out_proj(hidden_states)
+
+        return output
+
+    def conv_ssm_forward(
         self,
-        hidden_states: torch.Tensor,
+        projected_states: torch.Tensor,
         output: torch.Tensor,
-        mup_vector: torch.Tensor | None = None,
     ):
+        hidden_states_B_C, dt = torch.split(
+            projected_states[..., self.tped_intermediate_size :],
+            [self.tped_conv_size, self.tped_dt_size],
+            dim=-1,
+        )
+
         forward_context = get_forward_context()
         # attn_metadata contains metadata necessary for the mamba2 triton
         # kernels to operate in continuous batching and in chunked prefill
@@ -524,46 +586,13 @@ class MambaMixer2(MambaBase, CustomOp):
             cu_chunk_seqlen_p = attn_metadata.cu_chunk_seqlen_p
             last_chunk_indices_p = attn_metadata.last_chunk_indices_p
 
-        # 1. Gated MLP's linear projection
-        projected_states, _ = self.in_proj(hidden_states)
-
-        if mup_vector is not None:
-            projected_states = projected_states * mup_vector
-
-        gate, hidden_states_B_C, dt = torch.split(
-            projected_states,
-            [
-                self.intermediate_size // self.tp_size,
-                self.conv_dim // self.tp_size,
-                self.num_heads // self.tp_size,
-            ],
-            dim=-1,
-        )
-
-        conv_weights = self.conv1d.weight.view(
-            self.conv1d.weight.size(0), self.conv1d.weight.size(2)
-        )
-
-        # - get hidden_states, B and C after depthwise convolution.
-        split_hidden_states_B_C_fn = lambda hidden_states_B_C: torch.split(
-            hidden_states_B_C,
-            [
-                self.intermediate_size // self.tp_size,
-                self.groups_ssm_state_size // self.tp_size,
-                self.groups_ssm_state_size // self.tp_size,
-            ],
-            dim=-1,
-        )
-
         if attn_metadata is None:
             # profile run
             hidden_states_B_C = (
                 hidden_states_B_C.transpose(0, 1).clone().transpose(0, 1)
             ).contiguous()
-            hidden_states, _B, _C = split_hidden_states_B_C_fn(hidden_states_B_C)
-            hidden_states = self.norm(hidden_states, gate)
-            out, _ = self.out_proj(hidden_states)
-            return out
+            hidden_states, _B, _C = self.split_hidden_states_B_C_fn(hidden_states_B_C)
+            return hidden_states
 
         # NOTE: V0 put prefill before decode, v1 puts decode before prefill
         num_prefills = attn_metadata.num_prefills  # request count
@@ -622,18 +651,8 @@ class MambaMixer2(MambaBase, CustomOp):
             block_idx_first_scheduled_token_p = None
             num_computed_tokens_p = None
 
-        # Preallocate output tensor to avoid memcpy cost for merging prefill
-        # and decode outputs
-        preallocated_ssm_out = torch.empty(
-            [
-                num_prefill_tokens + num_decodes,
-                (self.num_heads // self.tp_size) * self.head_dim,
-            ],
-            dtype=hidden_states.dtype,
-            device=hidden_states.device,
-        )
         preallocated_ssm_out_d, preallocated_ssm_out_p = torch.split(
-            preallocated_ssm_out,
+            output[:num_actual_tokens],
             [num_decodes, num_prefill_tokens],
             dim=0,
         )
@@ -658,7 +677,7 @@ class MambaMixer2(MambaBase, CustomOp):
             )  # this is the form that causal-conv see
             hidden_states_B_C_p = causal_conv1d_fn(
                 x,
-                conv_weights,
+                self.conv_weights,
                 self.conv1d.bias,
                 activation=self.activation,
                 conv_states=conv_state,
@@ -673,7 +692,9 @@ class MambaMixer2(MambaBase, CustomOp):
                 query_start_loc=query_start_loc_p,
             ).transpose(0, 1)[:num_prefill_tokens]
 
-            hidden_states_p, B_p, C_p = split_hidden_states_B_C_fn(hidden_states_B_C_p)
+            hidden_states_p, B_p, C_p = self.split_hidden_states_B_C_fn(
+                hidden_states_B_C_p
+            )
 
             # 3. State Space Model sequence transformation
             initial_states = None
@@ -815,7 +836,7 @@ class MambaMixer2(MambaBase, CustomOp):
             hidden_states_B_C_d = causal_conv1d_update(
                 hidden_states_B_C_d,
                 conv_state,
-                conv_weights,
+                self.conv_weights,
                 self.conv1d.bias,
                 self.activation,
                 conv_state_indices=state_indices_tensor_d,
@@ -823,7 +844,9 @@ class MambaMixer2(MambaBase, CustomOp):
                 initial_state_idx=block_idx_last_computed_token_d,
             )
 
-            hidden_states_d, B_d, C_d = split_hidden_states_B_C_fn(hidden_states_B_C_d)
+            hidden_states_d, B_d, C_d = self.split_hidden_states_B_C_fn(
+                hidden_states_B_C_d
+            )
 
             # 3. State Space Model sequence transformation
             n_groups = self.n_groups // self.tp_size
@@ -861,15 +884,6 @@ class MambaMixer2(MambaBase, CustomOp):
                 out=preallocated_ssm_out_d.view(num_decodes, -1, self.head_dim),
             )
 
-        # 4. gated MLP
-        # GatedRMSNorm internally applying SiLU to the gate
-        # SiLU is applied internally before normalization, unlike standard
-        # norm usage
-        hidden_states = self.norm(preallocated_ssm_out, gate[:num_actual_tokens])
-
-        # 5. Final linear projection
-        output[:num_actual_tokens], _ = self.out_proj(hidden_states)
-
     def get_state_dtype(self) -> tuple[torch.dtype, torch.dtype]:
         assert self.model_config is not None
         assert self.cache_config is not None
@@ -901,21 +915,19 @@ class MambaMixer2(MambaBase, CustomOp):
 
 
 def mamba_mixer2(
-    hidden_states: torch.Tensor,
+    projected_states: torch.Tensor,
     output: torch.Tensor,
     layer_name: str,
-    mup_vector: torch.Tensor | None = None,
 ) -> None:
     forward_context: ForwardContext = get_forward_context()
     self = forward_context.no_compile_layers[layer_name]
-    self.forward_cuda(hidden_states=hidden_states, output=output, mup_vector=mup_vector)
+    self.conv_ssm_forward(projected_states=projected_states, output=output)
 
 
 def mamba_mixer2_fake(
-    hidden_states: torch.Tensor,
+    projected_states: torch.Tensor,
     output: torch.Tensor,
     layer_name: str,
-    mup_vector: torch.Tensor | None = None,
 ) -> None:
     return
 
diff --git a/vllm/model_executor/models/bamba.py b/vllm/model_executor/models/bamba.py
index e0a2defd5127e..c6cc83487fec2 100644
--- a/vllm/model_executor/models/bamba.py
+++ b/vllm/model_executor/models/bamba.py
@@ -138,8 +138,7 @@ class BambaMixerDecoderLayer(nn.Module):
         else:
             hidden_states, residual = self.input_layernorm(hidden_states, residual)
 
-        output = torch.empty_like(hidden_states)
-        self.mamba(hidden_states, output)
+        output = self.mamba(hidden_states)
         # Fully Connected
         hidden_states, residual = self.pre_ff_layernorm(output, residual)
         hidden_states = self.feed_forward(hidden_states)
diff --git a/vllm/model_executor/models/falcon_h1.py b/vllm/model_executor/models/falcon_h1.py
index 3653425b8e1ca..b985847af5daf 100644
--- a/vllm/model_executor/models/falcon_h1.py
+++ b/vllm/model_executor/models/falcon_h1.py
@@ -198,10 +198,8 @@ class FalconH1SSMDecoderLayer(nn.Module):
         residual: torch.Tensor | None,
         **kwargs,
     ):
-        output = torch.empty_like(hidden_states)
-        self.mamba(
+        output = self.mamba(
             hidden_states,
-            output,
             mup_vector=self.mup_vector,
         )
         return output, residual
diff --git a/vllm/model_executor/models/granitemoehybrid.py b/vllm/model_executor/models/granitemoehybrid.py
index 05177f1d1ac2c..a340112ec62ae 100644
--- a/vllm/model_executor/models/granitemoehybrid.py
+++ b/vllm/model_executor/models/granitemoehybrid.py
@@ -115,8 +115,7 @@ class GraniteMoeHybridMambaDecoderLayer(nn.Module):
     ):
         residual = hidden_states
         hidden_states = self.input_layernorm(hidden_states)
-        output = torch.empty_like(hidden_states)
-        self.mamba(hidden_states, output)
+        output = self.mamba(hidden_states)
         hidden_states = residual + output * self.residual_multiplier
 
         residual = hidden_states
diff --git a/vllm/model_executor/models/mamba2.py b/vllm/model_executor/models/mamba2.py
index fc17f98be1986..5fcfa94312303 100644
--- a/vllm/model_executor/models/mamba2.py
+++ b/vllm/model_executor/models/mamba2.py
@@ -87,8 +87,7 @@ class Mamba2DecoderLayer(nn.Module):
         else:
             hidden_states, residual = self.norm(hidden_states, residual)
 
-        output = torch.empty_like(hidden_states)
-        self.mixer(hidden_states, output)
+        output = self.mixer(hidden_states)
         return output, residual
 
 
diff --git a/vllm/model_executor/models/nemotron_h.py b/vllm/model_executor/models/nemotron_h.py
index f7e0caf410e10..8675eff592224 100644
--- a/vllm/model_executor/models/nemotron_h.py
+++ b/vllm/model_executor/models/nemotron_h.py
@@ -376,8 +376,7 @@ class NemotronHMambaDecoderLayer(nn.Module):
         else:
             hidden_states, residual = self.norm(hidden_states, residual)
 
-        output = torch.empty_like(hidden_states)
-        self.mixer(hidden_states, output)
+        output = self.mixer(hidden_states)
         return output, residual
 
 
diff --git a/vllm/model_executor/models/zamba2.py b/vllm/model_executor/models/zamba2.py
index 64e6979c8fcfb..729a9655d0879 100644
--- a/vllm/model_executor/models/zamba2.py
+++ b/vllm/model_executor/models/zamba2.py
@@ -567,11 +567,7 @@ class Zamba2MambaDecoderLayer(nn.Module):
         hidden_states = self.input_layernorm(hidden_states)
 
         # Process through Mamba mixer
-        output = torch.empty_like(hidden_states)
-        self.mamba(
-            hidden_states,
-            output,
-        )
+        output = self.mamba(hidden_states)
 
         # residual connection after mamba
         hidden_states = residual + output

From da94c7c0eb8dabea9c500dbd70fa042497497689 Mon Sep 17 00:00:00 2001
From: Jerry Zhang <jerryzh168@gmail.com>
Date: Tue, 18 Nov 2025 16:52:41 -0800
Subject: [PATCH 564/976] Move online quantization to `model.load_weights`
 (#26327)

Signed-off-by: Jerry Zhang <jerryzh168@gmail.com>
---
 examples/offline_inference/rlhf.py            |   2 +-
 .../offline_inference/rlhf_online_quant.py    | 162 +++++++++++++++
 .../model_loader/default_loader.py            |  46 +----
 .../model_loader/online_quantization.py       | 195 +++++++++++-------
 vllm/model_executor/model_loader/utils.py     |   8 +
 vllm/model_executor/models/utils.py           |   4 +
 6 files changed, 309 insertions(+), 108 deletions(-)
 create mode 100644 examples/offline_inference/rlhf_online_quant.py

diff --git a/examples/offline_inference/rlhf.py b/examples/offline_inference/rlhf.py
index 0c09e603271de..6f05968ce065e 100644
--- a/examples/offline_inference/rlhf.py
+++ b/examples/offline_inference/rlhf.py
@@ -62,7 +62,7 @@ ray.init()
 
 # Create a placement group that reserves GPU 1–2 for the vLLM inference engine.
 # Learn more about Ray placement groups:
-# https://docs.ray.io/en/latest/placement-groups.html
+# https://docs.ray.io/en/latest/ray-core/scheduling/placement-group.html
 pg_inference = placement_group([{"GPU": 1, "CPU": 0}] * 2)
 ray.get(pg_inference.ready())
 scheduling_inference = PlacementGroupSchedulingStrategy(
diff --git a/examples/offline_inference/rlhf_online_quant.py b/examples/offline_inference/rlhf_online_quant.py
new file mode 100644
index 0000000000000..2d98ad22c589e
--- /dev/null
+++ b/examples/offline_inference/rlhf_online_quant.py
@@ -0,0 +1,162 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""
+Demonstrates reinforcement learning from human feedback (RLHF) using vLLM and Ray.
+
+The script separates training and inference workloads onto distinct GPUs
+so that Ray can manage process placement and inter-process communication.
+A Hugging Face Transformer model occupies GPU 0 for training, whereas a
+tensor-parallel vLLM inference engine occupies GPU 1–2.
+
+The example performs the following steps:
+
+* Load the training model on GPU 0.
+* Split the inference model across GPUs 1–2 using vLLM's tensor parallelism
+  and Ray placement groups.
+* Generate text from a list of prompts using the inference engine.
+* Update the weights of the training model and broadcast the updated weights
+  to the inference engine by using a Ray collective RPC group. Note that
+  for demonstration purposes we simply zero out the weights.
+
+For a production-ready implementation that supports multiple training and
+inference replicas, see the OpenRLHF framework:
+https://github.com/OpenRLHF/OpenRLHF
+
+This example assumes a single-node cluster with three GPUs, but Ray
+supports multi-node clusters. vLLM expects the GPUs are only used for vLLM
+workloads. Residual GPU activity interferes with vLLM memory profiling and
+causes unexpected behavior.
+"""
+
+import json
+import os
+
+import ray
+import torch
+from ray.util.placement_group import placement_group
+from ray.util.scheduling_strategies import PlacementGroupSchedulingStrategy
+from rlhf_utils import stateless_init_process_group
+from torchao.core.config import config_to_dict
+from torchao.quantization import (
+    Float8DynamicActivationFloat8WeightConfig,
+    PerRow,
+)
+from transformers import AutoModelForCausalLM
+
+from vllm import LLM, SamplingParams
+from vllm.utils.network_utils import get_ip, get_open_port
+
+
+class MyLLM(LLM):
+    """Configure the vLLM worker for Ray placement group execution."""
+
+    def __init__(self, *args, **kwargs):
+        # Remove the top-level CUDA_VISIBLE_DEVICES variable set by Ray
+        # so that vLLM can manage its own device placement within the worker.
+        os.environ.pop("CUDA_VISIBLE_DEVICES", None)
+        super().__init__(*args, **kwargs)
+
+
+# Load the OPT-125M model onto GPU 0 for the training workload.
+train_model = AutoModelForCausalLM.from_pretrained("facebook/opt-125m")
+train_model.to("cuda:0")
+
+# Initialize Ray and set the visible devices. The vLLM engine will
+# be placed on GPUs 1 and 2.
+os.environ["CUDA_VISIBLE_DEVICES"] = "1,2"
+ray.init()
+
+# Create a placement group that reserves GPU 1–2 for the vLLM inference engine.
+# Learn more about Ray placement groups:
+# https://docs.ray.io/en/latest/ray-core/scheduling/placement-group.html
+pg_inference = placement_group([{"GPU": 1, "CPU": 0}] * 2)
+ray.get(pg_inference.ready())
+scheduling_inference = PlacementGroupSchedulingStrategy(
+    placement_group=pg_inference,
+    placement_group_capture_child_tasks=True,
+    placement_group_bundle_index=0,
+)
+
+# Launch the vLLM inference engine. The `enforce_eager` flag reduces
+# start-up latency.
+
+# generate torchao quantization config for RL rollout
+# see https://github.com/vllm-project/vllm/pull/23014 for instructions to
+# use serialized config files instead of passing around json string
+config = Float8DynamicActivationFloat8WeightConfig(granularity=PerRow())
+
+json_str = json.dumps(config_to_dict(config))
+
+llm = ray.remote(
+    num_cpus=0,
+    num_gpus=0,
+    scheduling_strategy=scheduling_inference,
+)(MyLLM).remote(
+    model="facebook/opt-125m",
+    hf_overrides={"quantization_config_dict_json": json_str},
+    enforce_eager=True,
+    worker_extension_cls="rlhf_utils.WorkerExtension",
+    tensor_parallel_size=2,
+    distributed_executor_backend="ray",
+)
+
+# Generate text from the prompts.
+prompts = [
+    "Hello, my name is",
+    "The president of the United States is",
+    "The capital of France is",
+    "The future of AI is",
+]
+
+sampling_params = SamplingParams(temperature=0)
+
+outputs = ray.get(llm.generate.remote(prompts, sampling_params))
+
+print("-" * 50)
+for output in outputs:
+    prompt = output.prompt
+    generated_text = output.outputs[0].text
+    print(f"Prompt: {prompt!r}\nGenerated text: {generated_text!r}")
+    print("-" * 50)
+
+# Set up the communication channel between the training process and the
+# inference engine.
+master_address = get_ip()
+master_port = get_open_port()
+
+handle = llm.collective_rpc.remote(
+    "init_weight_update_group", args=(master_address, master_port, 1, 3)
+)
+
+model_update_group = stateless_init_process_group(
+    master_address, master_port, 0, 3, torch.device("cuda:0")
+)
+ray.get(handle)
+
+# Simulate a training step by zeroing out all model weights.
+# In a real RLHF training loop the weights would be updated using the gradient
+# from an RL objective such as PPO on a reward model.
+for name, p in train_model.named_parameters():
+    p.data.zero_()
+
+# Synchronize the updated weights to the inference engine.
+for name, p in train_model.named_parameters():
+    dtype_name = str(p.dtype).split(".")[-1]
+    handle = llm.collective_rpc.remote(
+        "update_weight", args=(name, dtype_name, p.shape)
+    )
+    model_update_group.broadcast(p, src=0, stream=torch.cuda.current_stream())
+    ray.get(handle)
+
+# Verify that the inference weights have been updated.
+assert all(ray.get(llm.collective_rpc.remote("check_weights_changed")))
+
+# Generate text with the updated model. The output is expected to be nonsense
+# because the weights are zero.
+outputs_updated = ray.get(llm.generate.remote(prompts, sampling_params))
+print("-" * 50)
+for output in outputs_updated:
+    prompt = output.prompt
+    generated_text = output.outputs[0].text
+    print(f"Prompt: {prompt!r}\nGenerated text: {generated_text!r}")
+    print("-" * 50)
diff --git a/vllm/model_executor/model_loader/default_loader.py b/vllm/model_executor/model_loader/default_loader.py
index c06ac550a94ae..b80026741781f 100644
--- a/vllm/model_executor/model_loader/default_loader.py
+++ b/vllm/model_executor/model_loader/default_loader.py
@@ -22,6 +22,7 @@ from vllm.model_executor.model_loader.weight_utils import (
     fastsafetensors_weights_iterator,
     filter_duplicate_safetensors_files,
     filter_files_not_needed_for_inference,
+    get_quant_config,
     maybe_download_from_modelscope,
     multi_thread_pt_weights_iterator,
     multi_thread_safetensors_weights_iterator,
@@ -273,42 +274,17 @@ class DefaultModelLoader(BaseModelLoader):
         )
 
     def load_weights(self, model: nn.Module, model_config: ModelConfig) -> None:
-        if model_config.quantization == "torchao" and torchao_version_at_least(
-            "0.14.0"
-        ):
-            self.load_config.safetensors_load_strategy = "torchao"
+        if model_config.quantization == "torchao":
+            quant_config = get_quant_config(model_config, self.load_config)
+            if (
+                hasattr(quant_config, "is_checkpoint_torchao_serialized")
+                and quant_config.is_checkpoint_torchao_serialized
+                and torchao_version_at_least("0.14.0")
+            ):
+                self.load_config.safetensors_load_strategy = "torchao"
+
         weights_to_load = {name for name, _ in model.named_parameters()}
-
-        # if we don't have `model.weight_metadata_and_attr_saved` defined and
-        # set to True, it means that this is either offline quantization case
-        # or the first run of online quantization
-        # see online_quantization.py for detailed notes
-        offline_quantization_or_first_run_of_online_quantization = not getattr(
-            model, "weight_metadata_and_attr_saved", False
-        )
-
-        if model_config.quantization is None:
-            # model is not quantized
-            loaded_weights = model.load_weights(
-                self.get_all_weights(model_config, model)
-            )
-        elif offline_quantization_or_first_run_of_online_quantization:
-            # case 1: offline quantized checkpoint
-            # case 2: Step I1 first run of weight loading with
-            # online quantization
-            # see online_quantization.py for detailed notes
-            loaded_weights = model.load_weights(
-                self.get_all_weights(model_config, model)
-            )
-        else:
-            # to avoid circular dependency
-            from vllm.model_executor.model_loader.online_quantization import (
-                load_weights_and_online_quantize,
-            )
-
-            # subsequent runs of weight loading with online
-            # quantization
-            loaded_weights = load_weights_and_online_quantize(self, model, model_config)
+        loaded_weights = model.load_weights(self.get_all_weights(model_config, model))
 
         self.counter_after_loading_weights = time.perf_counter()
         logger.info_once(
diff --git a/vllm/model_executor/model_loader/online_quantization.py b/vllm/model_executor/model_loader/online_quantization.py
index 890dd7231a0e1..f330af85bbe8b 100644
--- a/vllm/model_executor/model_loader/online_quantization.py
+++ b/vllm/model_executor/model_loader/online_quantization.py
@@ -2,13 +2,13 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
 import types
+from collections.abc import Iterable
 
 import torch
 from torch import nn
 
 from vllm.config import ModelConfig
 from vllm.logger import init_logger
-from vllm.model_executor.model_loader.default_loader import DefaultModelLoader
 from vllm.model_executor.model_loader.utils import process_weights_after_loading
 
 logger = init_logger(__name__)
@@ -56,6 +56,9 @@ logger = init_logger(__name__)
 #    R4. quantize weights (by calling process_weights_after_loading),
 #    also set `process_weights_after_loading_already_called` to
 #    True to stop it from running again
+#    R5. (workaround for cudagraph), we restore the weight params to original quantized
+#    weights params, and use original_weight_param.copy_(updated_weight_param) so that
+#    the weight update work well with cudagraph
 #  process_weights_after_loading (if called):
 #    this will be skipped since it's already ran in
 #    load_weights
@@ -69,14 +72,6 @@ def maybe_save_metadata_and_attributes_for_weight_reloading(
     if model_config.quantization != "torchao":
         return
 
-    if getattr(model, "process_weights_after_loading_already_called", False):
-        # In case `process_weights_after_loading` is called multiple times
-        # we'll skip it at later times
-        logger.warning(
-            "process_weights_after_loading already called for model %s", model
-        )
-        return
-
     from vllm.model_executor.model_loader.weight_utils import get_quant_config
 
     quant_config = get_quant_config(model_config, None)
@@ -137,6 +132,7 @@ def maybe_save_metadata_and_attributes_for_weight_reloading(
                 else:
                     model.recorded_weight_attr[name][key] = attr
     # mark the metadata and attributes saved so we don't run it again
+    model._model_config = model_config
     model.weight_metadata_and_attr_saved = True
 
 
@@ -148,77 +144,132 @@ def _bond_method_to_cls(func, obj):
         return types.MethodType(func, obj)
 
 
-def load_weights_and_online_quantize(
-    model_loader: DefaultModelLoader, model: nn.Module, model_config: ModelConfig
-) -> set[str]:
+def support_quantized_model_reload_from_hp_weights(original_load_weights):
+    """Decorator for `load_weights` method for AutoWeightsLoader.load_weights to support
+    reloading high precision (bfloat16/float16/float32) weight for an already quantized
+    model, this involves restoring the weights to a high precision weights and
+    then online quantize the weights
+    """
     # online quantization, right now only enabled for
     # torchao
-    # R1, R2, R3, R4 in the Notes
+    # R1, R2, R3, R4, R5 in the Notes
 
-    # TODO: Add fp8 support
-    assert model_config.quantization == "torchao", (
-        "online quantization is only enabled for torchao currently"
-    )
-    # TODO: use create_weights to restore the weights to original state
+    def patched_model_load_weights(
+        auto_weight_loader, weights: Iterable[tuple[str, torch.Tensor]], *, mapper=None
+    ) -> set[str]:
+        model = auto_weight_loader.module
+        offline_quantization_or_first_run_of_online_quantization = not getattr(
+            model, "weight_metadata_and_attr_saved", False
+        )
 
-    # Step R1: First restore the quantized weights to original bfloat16
-    # weights, with original metadata (shape, dtype, device)
-    # and attributes, so that bfloat16 weights can be loaded properly
-    existing_param_names = dict(model.named_parameters(remove_duplicate=False)).keys()
-    named_modules = dict(model.named_modules(remove_duplicate=False))
-    model_device = None
+        # if we don't have `model.weight_metadata_and_attr_saved` defined and
+        # set to True, it means that this is either offline quantization case
+        # or the first run of online quantization
+        # see Notes in this file for more details
+        if offline_quantization_or_first_run_of_online_quantization:
+            # case 1: offline quantized checkpoint
+            # case 2: Step I1 first run of weight loading with
+            # online quantization
+            return original_load_weights(auto_weight_loader, weights, mapper=mapper)
 
-    # Step R2: recover the parameter to the state before first loading
-    for name, d in model.original_weights_rebuild_keys.items():
-        _shape = d["shape"]
-        _dtype = d["dtype"]
-        _device = d["device"]
+        model_config = model._model_config
+
+        # TODO: Add fp8 support
+        assert model_config.quantization == "torchao", (
+            "online quantization is only enabled for torchao currently"
+        )
+        # TODO: use create_weights to restore the weights to original state
+
+        # Step R1: First restore the quantized weights to original bfloat16
+        # weights, with original metadata (shape, dtype, device)
+        # and attributes, so that bfloat16 weights can be loaded properly
+        # TODO: maybe set remove_duplicate to True?
+        original_quantized_weight_dict = dict(
+            model.named_parameters(remove_duplicate=False)
+        )
+        named_modules = dict(model.named_modules(remove_duplicate=False))
+        model_device = None
+
+        for name, d in model.original_weights_rebuild_keys.items():
+            _shape = d["shape"]
+            _dtype = d["dtype"]
+            _device = d["device"]
+            if model_device is not None:
+                assert model_device == _device, (
+                    "Expecting all weights "
+                    "to be in the same device for now, got both: "
+                    f"{model_device} and {_device}"
+                )
+            else:
+                model_device = _device
+
+            if name in original_quantized_weight_dict:
+                module_name, weight_name = name.rsplit(".", 1)
+                module = named_modules[module_name]
+                setattr(
+                    module,
+                    weight_name,
+                    torch.nn.Parameter(
+                        torch.empty(_shape, dtype=_dtype, device=_device),
+                        requires_grad=False,
+                    ),
+                )
+
+        # Step R2: recover the weight attributes to the state before first loading
+        # recorded_weight_attr is
+        # {"weight_name": {"weight_attr_key": attr}}
+        # e.g.
+        # {
+        #   {
+        #     "layer.0.weight": {
+        #       "weight_loader": weight_loader_function_object,
+        #       "input_dim": 0, ...
+        #     },
+        #     "layer.1.weight": ...,
+        #    }
+        # }
+        for full_weight_name, weight_attr_dict in model.recorded_weight_attr.items():
+            for attr_name, attr in weight_attr_dict.items():
+                module_name, weight_name = full_weight_name.rsplit(".", 1)
+                module = named_modules[module_name]
+                weight = getattr(module, weight_name)
+                if not hasattr(weight, attr_name):
+                    setattr(weight, attr_name, _bond_method_to_cls(attr, weight))
+
+        # Step R3: reload bfloat16 / high precision weights
+        updated_params = original_load_weights(
+            auto_weight_loader, weights, mapper=mapper
+        )
+
+        # Step R4: online quantize the weights
+        # manually process weights after loading
+        model.process_weights_after_loading_already_called = False
         if model_device is not None:
-            assert model_device == _device, (
-                "Expecting all weights "
-                "to be in the same device for now, got both: "
-                f"{model_device} and {_device}"
-            )
+            process_weights_after_loading(model, model_config, model_device)
         else:
-            model_device = _device
-
-        if name in existing_param_names:
-            module_name, weight_name = name.rsplit(".", 1)
-            module = named_modules[module_name]
-            setattr(
-                module,
-                weight_name,
-                torch.nn.Parameter(torch.empty(_shape, dtype=_dtype, device=_device)),
+            logger.warning_once(
+                "model_device is None, skip calling process_weights_after_loading"
             )
 
-    # recorded_weight_attr is
-    # {"weight_name": {"weight_attr_key": attr}}
-    # e.g.
-    # {
-    #   {
-    #     "layer.0.weight": {
-    #       "weight_loader": weight_loader_function_object,
-    #       "input_dim": 0, ...
-    #     },
-    #     "layer.1.weight": ...,
-    #    }
-    # }
-    for full_weight_name, weight_attr_dict in model.recorded_weight_attr.items():
-        for attr_name, attr in weight_attr_dict.items():
-            module_name, weight_name = full_weight_name.rsplit(".", 1)
-            module = named_modules[module_name]
-            weight = getattr(module, weight_name)
-            if not hasattr(weight, attr_name):
-                setattr(weight, attr_name, _bond_method_to_cls(attr, weight))
+        # Step R5 (workaround for cudagraph): restore the original quantized weights
+        # and do a copy_ of the currents weights to the original weights
+        updated_quantized_weights = dict(model.named_parameters(remove_duplicate=False))
+        for name in model.original_weights_rebuild_keys:
+            if name in original_quantized_weight_dict:
+                original_quantized_weight = original_quantized_weight_dict[name]
+                updated_quantized_weight = updated_quantized_weights[name]
 
-    # Step I1: reload bfloat16 / high precision weights
-    loaded_weights = model.load_weights(
-        model_loader.get_all_weights(model_config, model)
-    )
+                module_name, weight_name = name.rsplit(".", 1)
+                module = named_modules[module_name]
+                setattr(module, weight_name, original_quantized_weight)
+                with torch.no_grad():
+                    original_quantized_weight.copy_(updated_quantized_weight)
 
-    # Step I2: online quantize the weights
-    # manually process weights after loading
-    model.process_weights_after_loading_already_called = False
-    process_weights_after_loading(model, model_config, model_device)
-    model.process_weights_after_loading_already_called = True
-    return loaded_weights
+        del original_quantized_weight_dict
+        del named_modules
+        del updated_quantized_weight
+
+        model.process_weights_after_loading_already_called = True
+        return updated_params
+
+    return patched_model_load_weights
diff --git a/vllm/model_executor/model_loader/utils.py b/vllm/model_executor/model_loader/utils.py
index ba708a098c0da..e74434e9d12cb 100644
--- a/vllm/model_executor/model_loader/utils.py
+++ b/vllm/model_executor/model_loader/utils.py
@@ -88,6 +88,14 @@ def initialize_model(
 def process_weights_after_loading(
     model: nn.Module, model_config: ModelConfig, target_device: torch.device
 ) -> None:
+    if getattr(model, "process_weights_after_loading_already_called", False):
+        # In case `process_weights_after_loading` is called multiple times
+        # we'll skip it at later times
+        logger.debug_once(
+            "process_weights_after_loading already called for model %s", model
+        )
+        return
+
     # to avoid circular dependency
     from vllm.model_executor.model_loader.online_quantization import (
         maybe_save_metadata_and_attributes_for_weight_reloading,
diff --git a/vllm/model_executor/models/utils.py b/vllm/model_executor/models/utils.py
index ca5af358e2eed..ccefd7e66697f 100644
--- a/vllm/model_executor/models/utils.py
+++ b/vllm/model_executor/models/utils.py
@@ -21,6 +21,9 @@ from vllm.logger import init_logger
 from vllm.model_executor.layers.quantization.base_config import (
     QuantizationConfig,
 )
+from vllm.model_executor.model_loader.online_quantization import (
+    support_quantized_model_reload_from_hp_weights,
+)
 from vllm.model_executor.model_loader.weight_utils import default_weight_loader
 from vllm.model_executor.models.interfaces import supports_any_eagle
 from vllm.multimodal import NestedTensors
@@ -316,6 +319,7 @@ class AutoWeightsLoader:
                 )
                 raise ValueError(msg)
 
+    @support_quantized_model_reload_from_hp_weights
     def load_weights(
         self,
         weights: Iterable[tuple[str, torch.Tensor]],

From 40b6b38f2c8f8df1dbc145b48df99575f191014f Mon Sep 17 00:00:00 2001
From: Jialin Ouyang <Jialin.Ouyang@gmail.com>
Date: Tue, 18 Nov 2025 18:10:02 -0800
Subject: [PATCH 565/976] [Core] Switch Flat logprob control from environment
 variable to SamplingParams (#28914)

Signed-off-by: Jialin Ouyang <Jialin.Ouyang@gmail.com>
Co-authored-by: 22quinn <33176974+22quinn@users.noreply.github.com>
---
 tests/samplers/test_logprobs.py |  3 +--
 tests/test_logprobs.py          | 32 ++++++++++----------------------
 vllm/envs.py                    |  6 ------
 vllm/logprobs.py                | 10 ++++------
 vllm/sampling_params.py         |  6 ++++++
 vllm/v1/engine/logprobs.py      | 17 ++++++++++++-----
 6 files changed, 33 insertions(+), 41 deletions(-)

diff --git a/tests/samplers/test_logprobs.py b/tests/samplers/test_logprobs.py
index c9d227599cde5..ea40c48027205 100644
--- a/tests/samplers/test_logprobs.py
+++ b/tests/samplers/test_logprobs.py
@@ -24,9 +24,7 @@ def test_ranks(
     greedy,
     flat_logprobs,
     example_prompts,
-    monkeypatch: pytest.MonkeyPatch,
 ):
-    monkeypatch.setenv("VLLM_FLAT_LOGPROBS", "1" if flat_logprobs else "0")
     with vllm_runner(model, dtype=dtype, max_logprobs=MAX_LOGPROBS) as vllm_model:
         tokenizer = vllm_model.llm.get_tokenizer()
         example_prompt_tokens = [tokenizer.encode(prompt) for prompt in example_prompts]
@@ -36,6 +34,7 @@ def test_ranks(
             max_tokens=MAX_TOKENS,
             logprobs=NUM_TOP_LOGPROBS,
             prompt_logprobs=NUM_PROMPT_LOGPROBS,
+            flat_logprobs=flat_logprobs,
         )
         results = vllm_model.generate_w_logprobs(example_prompts, sampling_params)
 
diff --git a/tests/test_logprobs.py b/tests/test_logprobs.py
index d26a460d2bcab..75e9d337aa24e 100644
--- a/tests/test_logprobs.py
+++ b/tests/test_logprobs.py
@@ -2,8 +2,6 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
 
-import pytest
-
 from vllm.logprobs import (
     FlatLogprobs,
     Logprob,
@@ -14,24 +12,20 @@ from vllm.logprobs import (
 )
 
 
-def test_create_logprobs_non_flat(monkeypatch: pytest.MonkeyPatch) -> None:
-    monkeypatch.setenv("VLLM_FLAT_LOGPROBS", "0")
-
-    prompt_logprobs = create_prompt_logprobs()
+def test_create_logprobs_non_flat() -> None:
+    prompt_logprobs = create_prompt_logprobs(flat_logprobs=False)
     assert isinstance(prompt_logprobs, list)
     # Ensure first prompt position logprobs is None
     assert len(prompt_logprobs) == 1
     assert prompt_logprobs[0] is None
 
-    sample_logprobs = create_sample_logprobs()
+    sample_logprobs = create_sample_logprobs(flat_logprobs=False)
     assert isinstance(sample_logprobs, list)
     assert len(sample_logprobs) == 0
 
 
-def test_create_logprobs_flat(monkeypatch: pytest.MonkeyPatch) -> None:
-    monkeypatch.setenv("VLLM_FLAT_LOGPROBS", "1")
-
-    prompt_logprobs = create_prompt_logprobs()
+def test_create_logprobs_flat() -> None:
+    prompt_logprobs = create_prompt_logprobs(flat_logprobs=True)
     assert isinstance(prompt_logprobs, FlatLogprobs)
     assert prompt_logprobs.start_indices == [0]
     assert prompt_logprobs.end_indices == [0]
@@ -43,7 +37,7 @@ def test_create_logprobs_flat(monkeypatch: pytest.MonkeyPatch) -> None:
     assert len(prompt_logprobs) == 1
     assert prompt_logprobs[0] == dict()
 
-    sample_logprobs = create_sample_logprobs()
+    sample_logprobs = create_sample_logprobs(flat_logprobs=True)
     assert isinstance(sample_logprobs, FlatLogprobs)
     assert len(sample_logprobs.start_indices) == 0
     assert len(sample_logprobs.end_indices) == 0
@@ -54,11 +48,8 @@ def test_create_logprobs_flat(monkeypatch: pytest.MonkeyPatch) -> None:
     assert len(sample_logprobs) == 0
 
 
-def test_append_logprobs_for_next_position_none_flat(
-    monkeypatch: pytest.MonkeyPatch,
-) -> None:
-    monkeypatch.setenv("VLLM_FLAT_LOGPROBS", "0")
-    logprobs = create_sample_logprobs()
+def test_append_logprobs_for_next_position_none_flat() -> None:
+    logprobs = create_sample_logprobs(flat_logprobs=False)
     append_logprobs_for_next_position(
         logprobs,
         token_ids=[1],
@@ -85,11 +76,8 @@ def test_append_logprobs_for_next_position_none_flat(
     ]
 
 
-def test_append_logprobs_for_next_position_flat(
-    monkeypatch: pytest.MonkeyPatch,
-) -> None:
-    monkeypatch.setenv("VLLM_FLAT_LOGPROBS", "1")
-    logprobs = create_sample_logprobs()
+def test_append_logprobs_for_next_position_flat() -> None:
+    logprobs = create_sample_logprobs(flat_logprobs=True)
     append_logprobs_for_next_position(
         logprobs,
         token_ids=[1],
diff --git a/vllm/envs.py b/vllm/envs.py
index 6bf05803e14ef..62b3344ccd850 100755
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -225,7 +225,6 @@ if TYPE_CHECKING:
     VLLM_DISABLE_SHARED_EXPERTS_STREAM: bool = False
     VLLM_SHARED_EXPERTS_STREAM_TOKEN_THRESHOLD: int = 256
     VLLM_COMPILE_CACHE_SAVE_FORMAT: Literal["binary", "unpacked"] = "binary"
-    VLLM_FLAT_LOGPROBS: bool = False
 
 
 def get_default_cache_root():
@@ -1499,11 +1498,6 @@ environment_variables: dict[str, Callable[[], Any]] = {
     "VLLM_COMPILE_CACHE_SAVE_FORMAT": env_with_choices(
         "VLLM_COMPILE_CACHE_SAVE_FORMAT", "binary", ["binary", "unpacked"]
     ),
-    # Flag to enable FlatLogprobs whose GC overhead is significantly smaller than
-    # the original list[dict[int, Logprob]] approach.
-    # After enabled, PromptLogprobs and SampleLogprobs would populated as
-    # FlatLogprobs.
-    "VLLM_FLAT_LOGPROBS": lambda: bool(int(os.getenv("VLLM_FLAT_LOGPROBS", "0"))),
 }
 
 # --8<-- [end:env-vars-definition]
diff --git a/vllm/logprobs.py b/vllm/logprobs.py
index a34398db2c960..6a820308f523f 100644
--- a/vllm/logprobs.py
+++ b/vllm/logprobs.py
@@ -5,8 +5,6 @@ from collections.abc import Iterable, Iterator, MutableSequence
 from dataclasses import dataclass, field
 from typing import overload
 
-import vllm.envs as envs
-
 
 # We use dataclass for now because it is used for
 # openai server output, and msgspec is not serializable.
@@ -161,17 +159,17 @@ PromptLogprobs = FlatLogprobs | list[LogprobsOnePosition | None]
 SampleLogprobs = FlatLogprobs | list[LogprobsOnePosition]
 
 
-def create_prompt_logprobs() -> PromptLogprobs:
+def create_prompt_logprobs(flat_logprobs: bool) -> PromptLogprobs:
     """Creates a container to store prompt logprobs for a request"""
-    logprobs = FlatLogprobs() if envs.VLLM_FLAT_LOGPROBS else []
+    logprobs = FlatLogprobs() if flat_logprobs else []
     # NOTE: logprob of first prompt token is None.
     logprobs.append(None)
     return logprobs
 
 
-def create_sample_logprobs() -> SampleLogprobs:
+def create_sample_logprobs(flat_logprobs: bool) -> SampleLogprobs:
     """Creates a container to store decode logprobs for a request"""
-    return FlatLogprobs() if envs.VLLM_FLAT_LOGPROBS else []
+    return FlatLogprobs() if flat_logprobs else []
 
 
 def append_logprobs_for_next_position(
diff --git a/vllm/sampling_params.py b/vllm/sampling_params.py
index 901d661634527..0fb1d67687c82 100644
--- a/vllm/sampling_params.py
+++ b/vllm/sampling_params.py
@@ -204,6 +204,12 @@ class SamplingParams(
     prompt_logprobs: int | None = None
     """Number of log probabilities to return per prompt token.
     When set to -1, return all `vocab_size` log probabilities."""
+    flat_logprobs: bool = False
+    """Whether to return logprobs in flatten format (i.e. FlatLogprob)
+    for better performance.
+    NOTE: GC costs of FlatLogprobs is significantly smaller than
+    list[dict[int, Logprob]]. After enabled, PromptLogprobs and
+    SampleLogprobs would populated as FlatLogprobs."""
     # NOTE: This parameter is only exposed at the engine level for now.
     # It is not exposed in the OpenAI API server, as the OpenAI API does
     # not support returning only a list of token IDs.
diff --git a/vllm/v1/engine/logprobs.py b/vllm/v1/engine/logprobs.py
index b618d23472651..63064a2c65d67 100644
--- a/vllm/v1/engine/logprobs.py
+++ b/vllm/v1/engine/logprobs.py
@@ -43,15 +43,22 @@ class LogprobsProcessor:
         tokenizer: AnyTokenizer | None,
         request: EngineCoreRequest,
     ) -> "LogprobsProcessor":
-        assert request.sampling_params is not None
-        num_logprobs = request.sampling_params.logprobs
-        num_prompt_logprobs = request.sampling_params.prompt_logprobs
+        sampling_params = request.sampling_params
+        assert sampling_params is not None
+        num_logprobs = sampling_params.logprobs
+        num_prompt_logprobs = sampling_params.prompt_logprobs
         return cls(
             tokenizer=tokenizer,
             cumulative_logprob=(None if num_logprobs is None else 0.0),
-            logprobs=(None if num_logprobs is None else create_sample_logprobs()),
+            logprobs=(
+                None
+                if num_logprobs is None
+                else create_sample_logprobs(sampling_params.flat_logprobs)
+            ),
             prompt_logprobs=(
-                None if num_prompt_logprobs is None else create_prompt_logprobs()
+                None
+                if num_prompt_logprobs is None
+                else create_prompt_logprobs(sampling_params.flat_logprobs)
             ),
             num_prompt_logprobs=num_prompt_logprobs,
             num_logprobs=num_logprobs,

From 20852c8f4c10d80204c47e0cb85f5b252ff51c86 Mon Sep 17 00:00:00 2001
From: "Li, Jiang" <jiang1.li@intel.com>
Date: Wed, 19 Nov 2025 10:32:00 +0800
Subject: [PATCH 566/976] [CPU] Refactor CPU WNA16  (#28826)

Signed-off-by: jiang1.li <jiang1.li@intel.com>
---
 .../scripts/hardware_ci/run-cpu-test.sh       |  11 +-
 cmake/cpu_extension.cmake                     |   1 +
 csrc/cpu/cpu_attn_impl.hpp                    |   2 +-
 csrc/cpu/cpu_types_x86.hpp                    |  47 +-
 csrc/cpu/cpu_wna16.cpp                        | 402 +++++++++++
 csrc/cpu/dnnl_helper.cpp                      |   6 +-
 csrc/cpu/micro_gemm/cpu_micro_gemm_amx.hpp    | 245 +++++++
 csrc/cpu/micro_gemm/cpu_micro_gemm_impl.hpp   |  91 +++
 csrc/cpu/micro_gemm/cpu_micro_gemm_vec.hpp    | 115 ++++
 csrc/cpu/torch_bindings.cpp                   |  16 +
 csrc/cpu/utils.hpp                            |  55 ++
 docs/getting_started/installation/cpu.md      |   4 +-
 requirements/cpu.txt                          |   1 -
 tests/quantization/test_cpu_wna16.py          |  23 +
 vllm/_custom_ops.py                           |  25 +
 vllm/config/model.py                          |   2 +
 vllm/envs.py                                  |   5 -
 .../layers/fused_moe/cpu_fused_moe.py         |  49 --
 .../fused_moe/unquantized_fused_moe_method.py |   2 +-
 .../layers/quantization/__init__.py           |   5 +
 .../layers/quantization/cpu_wna16.py          | 625 ++++++++++++++++++
 .../layers/quantization/ipex_quant.py         |   2 +-
 22 files changed, 1656 insertions(+), 78 deletions(-)
 create mode 100644 csrc/cpu/cpu_wna16.cpp
 create mode 100644 csrc/cpu/micro_gemm/cpu_micro_gemm_amx.hpp
 create mode 100644 csrc/cpu/micro_gemm/cpu_micro_gemm_impl.hpp
 create mode 100644 csrc/cpu/micro_gemm/cpu_micro_gemm_vec.hpp
 create mode 100644 csrc/cpu/utils.hpp
 create mode 100644 tests/quantization/test_cpu_wna16.py
 create mode 100644 vllm/model_executor/layers/quantization/cpu_wna16.py

diff --git a/.buildkite/scripts/hardware_ci/run-cpu-test.sh b/.buildkite/scripts/hardware_ci/run-cpu-test.sh
index 7479c43977d78..2267718f75ca5 100644
--- a/.buildkite/scripts/hardware_ci/run-cpu-test.sh
+++ b/.buildkite/scripts/hardware_ci/run-cpu-test.sh
@@ -73,12 +73,11 @@ function cpu_tests() {
     pytest -x -s -v \
     tests/quantization/test_compressed_tensors.py::test_compressed_tensors_w8a8_logprobs"
 
-  # Note: disable it until supports V1
-  # Run AWQ test
-  # docker exec cpu-test-"$NUMA_NODE" bash -c "
-  #   set -e
-  #   pytest -x -s -v \
-  #   tests/quantization/test_ipex_quant.py"
+  # Run AWQ/GPTQ test
+  docker exec cpu-test-"$NUMA_NODE" bash -c "
+    set -e
+    pytest -x -s -v \
+    tests/quantization/test_cpu_wna16.py"
 
   # Run multi-lora tests
   docker exec cpu-test-"$NUMA_NODE" bash -c "
diff --git a/cmake/cpu_extension.cmake b/cmake/cpu_extension.cmake
index aa84125818d10..fbbb03c5ed465 100644
--- a/cmake/cpu_extension.cmake
+++ b/cmake/cpu_extension.cmake
@@ -375,6 +375,7 @@ set(VLLM_EXT_SRC
 if (AVX512_FOUND AND NOT AVX512_DISABLED)
     set(VLLM_EXT_SRC
         "csrc/cpu/shm.cpp"
+        "csrc/cpu/cpu_wna16.cpp"
         ${VLLM_EXT_SRC})
     if (ENABLE_AVX512BF16 AND ENABLE_AVX512VNNI)
         set(VLLM_EXT_SRC
diff --git a/csrc/cpu/cpu_attn_impl.hpp b/csrc/cpu/cpu_attn_impl.hpp
index 344296528b652..294b4f714a769 100644
--- a/csrc/cpu/cpu_attn_impl.hpp
+++ b/csrc/cpu/cpu_attn_impl.hpp
@@ -1,7 +1,6 @@
 #ifndef CPU_ATTN_HPP
 #define CPU_ATTN_HPP
 
-#include <unistd.h>
 #include <type_traits>
 #include <cstddef>
 
@@ -12,6 +11,7 @@
 #include "cpu_types.hpp"
 #include "scratchpad_manager.h"
 #include "cpu_attn_macros.h"
+#include "utils.hpp"
 
 namespace cpu_attention {
 enum class ISA { AMX, VEC, VEC16 };
diff --git a/csrc/cpu/cpu_types_x86.hpp b/csrc/cpu/cpu_types_x86.hpp
index 7ddf028e6e131..6f51277f78440 100644
--- a/csrc/cpu/cpu_types_x86.hpp
+++ b/csrc/cpu/cpu_types_x86.hpp
@@ -104,6 +104,8 @@ struct FP16Vec16 : public Vec<FP16Vec16> {
   explicit FP16Vec16(bool, void* ptr)
       : reg(_mm256_stream_load_si256((__m256i*)ptr)) {}
 
+  explicit FP16Vec16(const c10::Half v) : reg(_mm256_set1_epi16(v.x)) {}
+
   explicit FP16Vec16(const FP32Vec16&);
 
   void save(void* ptr) const { _mm256_storeu_si256((__m256i*)ptr, reg); }
@@ -141,6 +143,8 @@ struct BF16Vec16 : public Vec<BF16Vec16> {
   explicit BF16Vec16(bool, void* ptr)
       : reg(_mm256_stream_load_si256((__m256i*)ptr)) {}
 
+  explicit BF16Vec16(const c10::BFloat16 v) : reg(_mm256_set1_epi16(v.x)) {}
+
   explicit BF16Vec16(const FP32Vec16&);
 
   void save(void* ptr) const { _mm256_storeu_si256((__m256i*)ptr, reg); }
@@ -350,6 +354,22 @@ struct FP32Vec16 : public Vec<FP32Vec16> {
 
   explicit FP32Vec16(__m512 data) : reg(data) {}
 
+  // de-pack 4 bit values
+  explicit FP32Vec16(int64_t value, const FP32Vec16& lut) {
+    int64_t mask_0 = 0x0F0F0F0F0F0F0F0F;
+    int64_t mask_1 = 0xF0F0F0F0F0F0F0F0;
+    int64_t value_0 = value & mask_0;
+    int64_t value_1 = value & mask_1;
+    __m128i vec_0 = _mm_movpi64_epi64((__m64)value_0);
+    __m128i vec_1 = _mm_movpi64_epi64((__m64)value_1);
+    vec_0 = _mm_cvtepu8_epi16(vec_0);
+    vec_1 = _mm_cvtepu8_epi16(vec_1);
+    vec_1 = _mm_slli_epi16(vec_1, 4);
+    __m128i vec = _mm_or_si128(vec_0, vec_1);
+    __m512i vec_i32 = _mm512_cvtepu8_epi32(vec);
+    reg = _mm512_permutexvar_ps(vec_i32, lut.reg);
+  }
+
   explicit FP32Vec16(const FP32Vec4& data)
       : reg((__m512)_mm512_inserti32x4(
             _mm512_inserti32x4(
@@ -426,14 +446,6 @@ struct FP32Vec16 : public Vec<FP32Vec16> {
 
   float get_last_elem() const { return _mm512_cvtss_f32(reg); }
 
-  template <int group_size>
-  float reduce_sub_sum(int idx) {
-    static_assert(VEC_ELEM_NUM % group_size == 0);
-    constexpr uint32_t base_mask = (0xFFFF >> (16 - group_size));
-    __mmask16 mask = _cvtu32_mask16(base_mask << (idx * group_size));
-    return _mm512_mask_reduce_add_ps(mask, reg);
-  }
-
   void save(float* ptr) const { _mm512_storeu_ps(ptr, reg); }
 
   void save(float* ptr, const int elem_num) const {
@@ -755,6 +767,25 @@ inline void non_temporal_save(BF16Vec16& vec, void* ptr) {
 inline void non_temporal_save(FP32Vec16& vec, void* ptr) {
   _mm512_stream_ps((float*)ptr, vec.reg);
 }
+
+static void interleave_save(const BF16Vec16& vec0, const BF16Vec16& vec1,
+                            void* ptr) {
+  __m512i vec_0 = _mm512_cvtepu16_epi32(vec0.reg);
+  __m512i vec_1 = _mm512_cvtepu16_epi32(vec1.reg);
+  vec_1 = _mm512_slli_epi32(vec_1, 16);
+  vec_0 = _mm512_or_si512(vec_0, vec_1);
+  _mm512_storeu_epi32(ptr, vec_0);
+}
+
+static void interleave_save(const FP16Vec16& vec0, const FP16Vec16& vec1,
+                            void* ptr) {
+  __m512i vec_0 = _mm512_cvtepu16_epi32(vec0.reg);
+  __m512i vec_1 = _mm512_cvtepu16_epi32(vec1.reg);
+  vec_1 = _mm512_slli_epi32(vec_1, 16);
+  vec_0 = _mm512_or_si512(vec_0, vec_1);
+  _mm512_storeu_epi32(ptr, vec_0);
+}
+
 #endif
 
 inline void mem_barrier() { _mm_mfence(); }
diff --git a/csrc/cpu/cpu_wna16.cpp b/csrc/cpu/cpu_wna16.cpp
new file mode 100644
index 0000000000000..816d195506e52
--- /dev/null
+++ b/csrc/cpu/cpu_wna16.cpp
@@ -0,0 +1,402 @@
+#include "cpu_types.hpp"
+#include "scratchpad_manager.h"
+#include "utils.hpp"
+
+#ifdef CPU_CAPABILITY_AMXBF16
+  #include "cpu/micro_gemm/cpu_micro_gemm_amx.hpp"
+#endif
+#include "cpu/micro_gemm/cpu_micro_gemm_vec.hpp"
+
+#define VLLM_DISPATCH_CASE_16B_TYPES(...)                 \
+  AT_DISPATCH_CASE(at::ScalarType::BFloat16, __VA_ARGS__) \
+  AT_DISPATCH_CASE(at::ScalarType::Half, __VA_ARGS__)
+
+#define VLLM_DISPATCH_16B_TYPES(TYPE, NAME, ...) \
+  AT_DISPATCH_SWITCH(TYPE, NAME, VLLM_DISPATCH_CASE_16B_TYPES(__VA_ARGS__))
+
+template <typename T>
+void print_logits(const char* name, T* ptr, int32_t row, int32_t col,
+                  int32_t stride) {
+  std::stringstream ss;
+  ss << std::fixed << std::setprecision(5) << name << ": [\n";
+  auto* curr_logits_buffer = ptr;
+  for (int32_t m = 0; m < row; ++m) {
+    for (int32_t n = 0; n < col; ++n) {
+      ss << curr_logits_buffer[n] << ", ";
+    }
+    ss << "\n";
+    curr_logits_buffer += stride;
+  }
+  ss << "]\n";
+  std::printf("%s", ss.str().c_str());
+}
+
+namespace {
+using cpu_utils::ISA;
+using cpu_utils::VecTypeTrait;
+
+template <typename scalar_t, ISA isa, bool has_zp, bool use_desc_act>
+class Dequantizer4b {
+ public:
+  constexpr static int32_t pack_num = 32 / 4;
+  using scalar_vec_t = typename VecTypeTrait<scalar_t>::vec_t;
+
+ public:
+  static void dequant(int32_t* __restrict__ q_weight,
+                      scalar_t* __restrict__ weight,
+                      scalar_t* __restrict__ scales,
+                      int32_t* __restrict__ zeros, int32_t* __restrict__ g_idx,
+                      const int64_t scales_stride, const int64_t zeros_stride,
+                      const int32_t k_size, const int32_t group_size) {
+    vec_op::FP32Vec16 lut;
+    if constexpr (has_zp) {
+      // AWQ
+      alignas(64) static const float LUT[16] = {
+          0.0f, 1.0f, 2.0f,  3.0f,  4.0f,  5.0f,  6.0f,  7.0f,
+          8.0f, 9.0f, 10.0f, 11.0f, 12.0f, 13.0f, 14.0f, 15.0f};
+      lut = vec_op::FP32Vec16(LUT);
+    } else {
+      // GPTQ
+      alignas(64) static const float LUT[16] = {
+          -8.0f, -7.0f, -6.0f, -5.0f, -4.0f, -3.0f, -2.0f, -1.0f,
+          0.0f,  1.0f,  2.0f,  3.0f,  4.0f,  5.0f,  6.0f,  7.0f};
+      lut = vec_op::FP32Vec16(LUT);
+    }
+
+    // per 64-bits elem contains 16 output channels
+    int64_t* __restrict__ curr_q_weight = reinterpret_cast<int64_t*>(q_weight);
+    int64_t* __restrict__ curr_zeros = reinterpret_cast<int64_t*>(zeros);
+    scalar_t* __restrict__ curr_weight = weight;
+    scalar_t* __restrict__ curr_scale = scales;
+    vec_op::FP32Vec16 scale_0;
+    vec_op::FP32Vec16 scale_1;
+    vec_op::FP32Vec16 zero_0;
+    vec_op::FP32Vec16 zero_1;
+    int32_t group_counter = 0;
+    for (int32_t k_idx = 0; k_idx < k_size; k_idx += 2) {
+      int64_t qwb_0 = *curr_q_weight;
+      int64_t qwb_1 = *(curr_q_weight + 1);
+      vec_op::FP32Vec16 wb_0(qwb_0, lut);
+      vec_op::FP32Vec16 wb_1(qwb_1, lut);
+
+      if constexpr (!use_desc_act) {
+        if (group_counter == 0) {
+          scale_0 = vec_op::FP32Vec16(scalar_vec_t(curr_scale));
+          scale_1 = vec_op::FP32Vec16(scale_0);
+          curr_scale += scales_stride;
+
+          if constexpr (has_zp) {
+            zero_0 = vec_op::FP32Vec16(*curr_zeros, lut);
+            zero_1 = vec_op::FP32Vec16(zero_0);
+            curr_zeros += zeros_stride / 2;
+          }
+        }
+      } else {
+        int32_t g_idx_0 = g_idx[k_idx];
+        int32_t g_idx_1 = g_idx[k_idx + 1];
+        scale_0 = vec_op::FP32Vec16(
+            scalar_vec_t(curr_scale + g_idx_0 * scales_stride));
+        scale_1 = vec_op::FP32Vec16(
+            scalar_vec_t(curr_scale + g_idx_1 * scales_stride));
+        if constexpr (has_zp) {
+          zero_0 = vec_op::FP32Vec16(*(curr_zeros + g_idx_0 * zeros_stride / 2),
+                                     lut);
+          zero_1 = vec_op::FP32Vec16(*(curr_zeros + g_idx_1 * zeros_stride / 2),
+                                     lut);
+        }
+      }
+
+      if constexpr (has_zp) {
+        wb_0 = wb_0 - zero_0;
+        wb_1 = wb_1 - zero_1;
+      }
+
+      wb_0 = wb_0 * scale_0;
+      wb_1 = wb_1 * scale_1;
+
+      scalar_vec_t output_vec_0(wb_0);
+      scalar_vec_t output_vec_1(wb_1);
+
+      // AMX needs to interlave K elements to pack as 32 bits
+      if constexpr (isa == ISA::AMX) {
+        vec_op::interleave_save(output_vec_0, output_vec_1, curr_weight);
+      } else {
+        output_vec_0.save(curr_weight);
+        output_vec_1.save(curr_weight + 16);
+      }
+
+      // update
+      curr_q_weight += 2;
+      curr_weight += 32;
+      if constexpr (!use_desc_act) {
+        group_counter += 2;
+        if (group_counter == group_size) {
+          group_counter = 0;
+        }
+      }
+    }
+  }
+};
+};  // namespace
+
+template <typename scalar_t, typename dequantizer_t, typename gemm_t>
+void cpu_gemm_wna16_impl(
+    scalar_t* __restrict__ input, int32_t* __restrict__ q_weight,
+    scalar_t* __restrict__ output, scalar_t* __restrict__ scales,
+    int32_t* __restrict__ zeros, int32_t* __restrict__ g_idx,
+    scalar_t* __restrict__ bias, const int32_t m_size, const int32_t n_size,
+    const int32_t k_size, const int64_t input_stride,
+    const int64_t output_stride, const int64_t scales_group_stride,
+    const int64_t zeros_group_stride, const int32_t group_num,
+    const int32_t group_size, const int64_t pack_factor) {
+  constexpr int32_t gemm_n_tile_size = gemm_t::NSize;
+  constexpr int32_t gemm_m_tile_size = gemm_t::MaxMSize;
+  constexpr int32_t n_block_size = 16;
+  static_assert(gemm_n_tile_size % n_block_size == 0);
+  const int32_t thread_num = omp_get_max_threads();
+
+  // a simple schedule policy, just to hold more B tiles in L2 and make sure
+  // each thread has tasks
+  const int32_t n_partition_size = [&]() {
+    const int64_t cache_size = cpu_utils::get_l2_size();
+    int64_t ps_cache_limit = cache_size / (k_size * sizeof(scalar_t));
+    int64_t ps_thread_limit = n_size / thread_num;
+    ps_cache_limit =
+        std::max((ps_cache_limit / gemm_n_tile_size) * gemm_n_tile_size,
+                 (int64_t)gemm_n_tile_size);
+    ps_thread_limit =
+        std::max((ps_thread_limit / gemm_n_tile_size) * gemm_n_tile_size,
+                 (int64_t)gemm_n_tile_size);
+    return std::min(ps_cache_limit, ps_thread_limit);
+  }();
+  const int32_t task_num = (n_size + n_partition_size - 1) / n_partition_size;
+
+  // get buffer size
+  const int64_t b_buffer_size =
+      (((n_partition_size * k_size * sizeof(scalar_t) + 63) / 64) * 64);
+  const int64_t c_buffer_size =
+      (((gemm_m_tile_size * gemm_n_tile_size * sizeof(float) + 63) / 64) * 64);
+  const int64_t b_buffer_offset = 0;
+  const int64_t c_buffer_offset = b_buffer_size;
+  const int64_t buffer_size = b_buffer_size + c_buffer_size;
+  DNNLScratchPadManager::get_dnnl_scratchpad_manager()->realloc(buffer_size *
+                                                                thread_num);
+
+  alignas(64) cpu_utils::Counter counter;
+  cpu_utils::Counter* counter_ptr = &counter;
+
+#pragma omp parallel for schedule(static, 1)
+  for (int32_t thread_id = 0; thread_id < thread_num; ++thread_id) {
+    scalar_t* __restrict__ b_buffer = nullptr;
+    float* __restrict__ c_buffer = nullptr;
+    {
+      uint8_t* buffer_ptr = DNNLScratchPadManager::get_dnnl_scratchpad_manager()
+                                ->get_data<uint8_t>() +
+                            thread_id * buffer_size;
+      b_buffer = reinterpret_cast<scalar_t*>(buffer_ptr + b_buffer_offset);
+      c_buffer = reinterpret_cast<float*>(buffer_ptr + c_buffer_offset);
+    }
+
+    const int64_t q_weight_block_stride = n_block_size / pack_factor * k_size;
+    const int64_t b_buffer_block_stride = n_block_size * k_size;
+    const int32_t zeros_block_stride = n_block_size / pack_factor;
+
+    gemm_t gemm;
+
+    for (;;) {
+      int32_t task_id = counter_ptr->acquire_counter();
+
+      if (task_id >= task_num) {
+        break;
+      }
+
+      const int32_t n_start_idx = task_id * n_partition_size;
+      const int32_t n_block_start_idx = n_start_idx / n_block_size;
+      const int32_t n_num = std::min(n_partition_size, n_size - n_start_idx);
+      const int32_t n_block_num = n_num / n_block_size;
+      // std::printf("thread_id: %d, task_id: %d, n_start_idx: %d, n_num: %d\n",
+      // thread_id, task_id, n_start_idx, n_num);
+
+      // dequant weight
+      {
+        int32_t* __restrict__ curr_q_weight =
+            q_weight + n_block_start_idx * q_weight_block_stride;
+        scalar_t* __restrict__ curr_b_buffer = b_buffer;
+        scalar_t* __restrict__ curr_scales = scales + n_start_idx;
+        int32_t* __restrict__ curr_zeros = zeros + n_start_idx / pack_factor;
+        for (int32_t block_idx = 0; block_idx < n_block_num; ++block_idx) {
+          dequantizer_t::dequant(curr_q_weight, curr_b_buffer, curr_scales,
+                                 curr_zeros, g_idx, scales_group_stride,
+                                 zeros_group_stride, k_size, group_size);
+
+          // if (block_idx == 0 && n_start_idx == 0) {
+          //     print_logits("depacked weight", curr_b_buffer, k_size,
+          //     n_block_size, n_block_size);
+          // }
+
+          // update
+          curr_q_weight += q_weight_block_stride;
+          curr_b_buffer += b_buffer_block_stride;
+          curr_scales += n_block_size;
+          curr_zeros += zeros_block_stride;
+        }
+      }
+
+      // compute loop
+      {
+        const int32_t n_tile_num = n_num / gemm_n_tile_size;
+        scalar_t* __restrict__ curr_input = input;
+        scalar_t* __restrict__ init_bias = bias;
+        if (bias != nullptr) {
+          init_bias += n_start_idx;
+        }
+        scalar_t* __restrict__ init_output = output + n_start_idx;
+        for (int32_t m_idx = 0; m_idx < m_size; m_idx += gemm_m_tile_size) {
+          const int32_t curr_m_size =
+              std::min(gemm_m_tile_size, m_size - m_idx);
+          scalar_t* __restrict__ curr_b_buffer = b_buffer;
+          scalar_t* __restrict__ curr_bias = init_bias;
+          scalar_t* __restrict__ curr_output = init_output;
+          for (int32_t n_tile_idx = 0; n_tile_idx < n_tile_num; ++n_tile_idx) {
+            gemm.gemm(curr_input, curr_b_buffer, c_buffer, curr_m_size, k_size,
+                      input_stride, b_buffer_block_stride, gemm_n_tile_size,
+                      false);
+
+            if (bias != nullptr) {
+              cpu_micro_gemm::bias_epilogue<gemm_n_tile_size>(
+                  c_buffer, curr_output, curr_bias, curr_m_size,
+                  gemm_n_tile_size, output_stride);
+              curr_bias += gemm_n_tile_size;
+            } else {
+              cpu_micro_gemm::default_epilogue<gemm_n_tile_size>(
+                  c_buffer, curr_output, curr_m_size, gemm_n_tile_size,
+                  output_stride);
+            }
+
+            curr_b_buffer +=
+                b_buffer_block_stride * (gemm_n_tile_size / n_block_size);
+            curr_output += gemm_n_tile_size;
+          }
+          curr_input += gemm_m_tile_size * input_stride;
+          init_output += gemm_m_tile_size * output_stride;
+        }
+      }
+    }
+  }
+}
+
+void cpu_gemm_wna16(
+    const torch::Tensor& input,  // [M, K]
+    const torch::Tensor&
+        q_weight,           // [N / 16, K * 16 / pack_factor], packed as int32
+    torch::Tensor& output,  // [M, N]
+    const torch::Tensor& scales,  // [group_num, N]
+    const std::optional<torch::Tensor>&
+        zeros,  // [group_num, N / pack_factor], packed as int32
+    const std::optional<torch::Tensor>& g_idx,  // [K]
+    const std::optional<torch::Tensor>& bias,   // [N]
+    const int64_t pack_factor, const std::string& isa_hint) {
+  using cpu_utils::ISA;
+  TORCH_CHECK_EQ(pack_factor, 8);  // only supports 4bits
+  const int32_t a_m_size = input.size(0);
+  const int32_t a_k_size = input.size(1);
+  const int64_t a_m_stride = input.stride(0);
+  const int32_t b_n_size = q_weight.size(0) * 16;
+  TORCH_CHECK_EQ(a_k_size % 32, 0);
+  TORCH_CHECK_EQ(b_n_size % 32, 0);
+  const int32_t group_num = scales.size(0);
+  const int32_t group_size = a_k_size / group_num;
+  TORCH_CHECK_EQ(group_size % 2, 0);
+  const int64_t scales_group_stride = scales.stride(0);
+  const int64_t output_m_stride = output.stride(0);
+
+  bool has_zp = zeros.has_value();
+  bool use_desc_act = g_idx.has_value();
+  TORCH_CHECK(!(has_zp && use_desc_act));
+
+  ISA isa = [&]() {
+    if (isa_hint == "amx") {
+      return ISA::AMX;
+    } else if (isa_hint == "vec") {
+      return ISA::VEC;
+    } else {
+      TORCH_CHECK(false, "unsupported isa hint: " + isa_hint);
+    }
+  }();
+
+  int32_t* zeros_ptr = has_zp ? zeros->data_ptr<int32_t>() : nullptr;
+  const int64_t zeros_group_stride = has_zp ? zeros->stride(0) : 0;
+  int32_t* g_idx_ptr = use_desc_act ? g_idx->data_ptr<int32_t>() : nullptr;
+
+  VLLM_DISPATCH_16B_TYPES(input.scalar_type(), "cpu_gemm_wna16", [&]() {
+    if (isa == ISA::AMX) {
+      using gemm_t = cpu_micro_gemm::MicroGemm<ISA::AMX, scalar_t>;
+      if (has_zp) {
+        using dequantizer_t = Dequantizer4b<scalar_t, ISA::AMX, true, false>;
+        cpu_gemm_wna16_impl<scalar_t, dequantizer_t, gemm_t>(
+            input.data_ptr<scalar_t>(), q_weight.data_ptr<int32_t>(),
+            output.data_ptr<scalar_t>(), scales.data_ptr<scalar_t>(), zeros_ptr,
+            g_idx_ptr, bias.has_value() ? bias->data_ptr<scalar_t>() : nullptr,
+            a_m_size, b_n_size, a_k_size, a_m_stride, output_m_stride,
+            scales_group_stride, zeros_group_stride, group_num, group_size,
+            pack_factor);
+        return;
+      }
+      if (use_desc_act) {
+        using dequantizer_t = Dequantizer4b<scalar_t, ISA::AMX, false, true>;
+        cpu_gemm_wna16_impl<scalar_t, dequantizer_t, gemm_t>(
+            input.data_ptr<scalar_t>(), q_weight.data_ptr<int32_t>(),
+            output.data_ptr<scalar_t>(), scales.data_ptr<scalar_t>(), zeros_ptr,
+            g_idx_ptr, bias.has_value() ? bias->data_ptr<scalar_t>() : nullptr,
+            a_m_size, b_n_size, a_k_size, a_m_stride, output_m_stride,
+            scales_group_stride, zeros_group_stride, group_num, group_size,
+            pack_factor);
+        return;
+      } else {
+        using dequantizer_t = Dequantizer4b<scalar_t, ISA::AMX, false, false>;
+        cpu_gemm_wna16_impl<scalar_t, dequantizer_t, gemm_t>(
+            input.data_ptr<scalar_t>(), q_weight.data_ptr<int32_t>(),
+            output.data_ptr<scalar_t>(), scales.data_ptr<scalar_t>(), zeros_ptr,
+            g_idx_ptr, bias.has_value() ? bias->data_ptr<scalar_t>() : nullptr,
+            a_m_size, b_n_size, a_k_size, a_m_stride, output_m_stride,
+            scales_group_stride, zeros_group_stride, group_num, group_size,
+            pack_factor);
+        return;
+      }
+    } else if (isa == ISA::VEC) {
+      using gemm_t = cpu_micro_gemm::MicroGemm<ISA::VEC, scalar_t>;
+      if (has_zp) {
+        using dequantizer_t = Dequantizer4b<scalar_t, ISA::VEC, true, false>;
+        cpu_gemm_wna16_impl<scalar_t, dequantizer_t, gemm_t>(
+            input.data_ptr<scalar_t>(), q_weight.data_ptr<int32_t>(),
+            output.data_ptr<scalar_t>(), scales.data_ptr<scalar_t>(), zeros_ptr,
+            g_idx_ptr, bias.has_value() ? bias->data_ptr<scalar_t>() : nullptr,
+            a_m_size, b_n_size, a_k_size, a_m_stride, output_m_stride,
+            scales_group_stride, zeros_group_stride, group_num, group_size,
+            pack_factor);
+        return;
+      }
+      if (use_desc_act) {
+        using dequantizer_t = Dequantizer4b<scalar_t, ISA::VEC, false, true>;
+        cpu_gemm_wna16_impl<scalar_t, dequantizer_t, gemm_t>(
+            input.data_ptr<scalar_t>(), q_weight.data_ptr<int32_t>(),
+            output.data_ptr<scalar_t>(), scales.data_ptr<scalar_t>(), zeros_ptr,
+            g_idx_ptr, bias.has_value() ? bias->data_ptr<scalar_t>() : nullptr,
+            a_m_size, b_n_size, a_k_size, a_m_stride, output_m_stride,
+            scales_group_stride, zeros_group_stride, group_num, group_size,
+            pack_factor);
+        return;
+      } else {
+        using dequantizer_t = Dequantizer4b<scalar_t, ISA::VEC, false, false>;
+        cpu_gemm_wna16_impl<scalar_t, dequantizer_t, gemm_t>(
+            input.data_ptr<scalar_t>(), q_weight.data_ptr<int32_t>(),
+            output.data_ptr<scalar_t>(), scales.data_ptr<scalar_t>(), zeros_ptr,
+            g_idx_ptr, bias.has_value() ? bias->data_ptr<scalar_t>() : nullptr,
+            a_m_size, b_n_size, a_k_size, a_m_stride, output_m_stride,
+            scales_group_stride, zeros_group_stride, group_num, group_size,
+            pack_factor);
+        return;
+      }
+    }
+  });
+}
diff --git a/csrc/cpu/dnnl_helper.cpp b/csrc/cpu/dnnl_helper.cpp
index 02a8072ccf306..cfb6e78cba9a1 100644
--- a/csrc/cpu/dnnl_helper.cpp
+++ b/csrc/cpu/dnnl_helper.cpp
@@ -396,9 +396,9 @@ MatMulPrimitiveHandler::MatMulPrimitiveHandler(const Args& args)
     : DNNLMatMulPrimitiveHandler(
           static_cast<DNNLMatMulPrimitiveHandler::Args>(args), args.ab_type),
       m_size_cache_(nullptr) {
-  assert(ab_type_ == dnnl::memory::data_type::f32 ||
-         ab_type_ == dnnl::memory::data_type::bf16 ||
-         ab_type_ == dnnl::memory::data_type::f16);
+  assert(b_type_ == dnnl::memory::data_type::f32 ||
+         b_type_ == dnnl::memory::data_type::bf16 ||
+         b_type_ == dnnl::memory::data_type::f16);
 
   dnnl::memory::desc original_b_md({b_k_size_, b_n_size_}, b_type_,
                                    {b_k_stride_, b_n_stride_});
diff --git a/csrc/cpu/micro_gemm/cpu_micro_gemm_amx.hpp b/csrc/cpu/micro_gemm/cpu_micro_gemm_amx.hpp
new file mode 100644
index 0000000000000..87a019773a895
--- /dev/null
+++ b/csrc/cpu/micro_gemm/cpu_micro_gemm_amx.hpp
@@ -0,0 +1,245 @@
+#ifndef CPU_MICRO_GEMM_AMX_HPP
+#define CPU_MICRO_GEMM_AMX_HPP
+#include "cpu/micro_gemm/cpu_micro_gemm_impl.hpp"
+
+namespace cpu_micro_gemm {
+namespace {
+// AMX specific
+constexpr static int64_t AMX_TILE_ROW_BYTES = 64;
+constexpr static int64_t AMX_TILE_ROW_NUM = 16;
+constexpr static int64_t AMX_TILE_BYTES = AMX_TILE_ROW_BYTES * AMX_TILE_ROW_NUM;
+
+typedef struct __tile_config {
+  uint8_t palette_id = 1;
+  uint8_t start_row = 0;
+  uint8_t reserved_0[14] = {0};
+  uint16_t colsb[16] = {0};
+  uint8_t rows[16] = {0};
+} __tilecfg;
+
+// 2-2-4 pattern, for 16 < m <= 32
+// TILE 0, 1: load A matrix, row num should be 16, m - 16
+// TILE 2, 3: load B matrix, row num should be 16
+// TILE 4, 5, 6, 7: store results C matrix, row num should be 16, 16, m - 16, m
+// - 16
+template <typename scalar_t>
+class TileGemm224 {
+ public:
+  FORCE_INLINE static void gemm(DEFINE_CPU_MICRO_GEMM_PARAMS) {
+    TORCH_CHECK(false, "Unsupported data type for TileGemm224");
+  }
+
+  FORCE_INLINE static void init_tile_config(int32_t m, __tilecfg& config) {
+    TORCH_CHECK(false, "Unsupported data type for TileGemm224");
+  }
+};
+
+template <>
+class TileGemm224<c10::BFloat16> {
+ public:
+  using scalar_t = c10::BFloat16;
+  FORCE_INLINE static void gemm(DEFINE_CPU_MICRO_GEMM_PARAMS) {
+    const int32_t k_times = k / (AMX_TILE_ROW_NUM * 4 / sizeof(c10::BFloat16));
+    c10::BFloat16* __restrict__ a_tile_0 = a_ptr;
+    c10::BFloat16* __restrict__ a_tile_1 = a_ptr + lda * AMX_TILE_ROW_NUM;
+    const int64_t a_tile_stride = lda * sizeof(c10::BFloat16);
+
+    // B is always packed as 16 output channels block
+    c10::BFloat16* __restrict__ b_tile_2 = b_ptr;
+    c10::BFloat16* __restrict__ b_tile_3 = b_ptr + b_n_group_stride;
+    const int32_t b_tile_stride = AMX_TILE_ROW_BYTES;
+
+    float* __restrict__ c_tile_4 = c_ptr;
+    float* __restrict__ c_tile_5 =
+        c_tile_4 + AMX_TILE_ROW_BYTES / sizeof(float);
+    float* __restrict__ c_tile_6 = c_ptr + AMX_TILE_ROW_NUM * ldc;
+    float* __restrict__ c_tile_7 =
+        c_tile_6 + AMX_TILE_ROW_BYTES / sizeof(float);
+    const int32_t c_tile_stride = ldc * sizeof(float);
+
+    if (accum_c) {
+      _tile_loadd(4, c_tile_4, c_tile_stride);
+      _tile_loadd(5, c_tile_5, c_tile_stride);
+      _tile_loadd(6, c_tile_6, c_tile_stride);
+      _tile_loadd(7, c_tile_7, c_tile_stride);
+    } else {
+      _tile_zero(4);
+      _tile_zero(5);
+      _tile_zero(6);
+      _tile_zero(7);
+    }
+
+    for (int32_t k = 0; k < k_times; ++k) {
+      _tile_loadd(0, a_tile_0, a_tile_stride);
+      _tile_stream_loadd(2, b_tile_2, b_tile_stride);
+      _tile_dpbf16ps(4, 0, 2);
+      _tile_stream_loadd(3, b_tile_3, b_tile_stride);
+      _tile_dpbf16ps(5, 0, 3);
+      _tile_loadd(1, a_tile_1, a_tile_stride);
+      _tile_dpbf16ps(6, 1, 2);
+      _tile_dpbf16ps(7, 1, 3);
+
+      // update ptrs
+      a_tile_0 += AMX_TILE_ROW_BYTES / sizeof(c10::BFloat16);
+      a_tile_1 += AMX_TILE_ROW_BYTES / sizeof(c10::BFloat16);
+      b_tile_2 += AMX_TILE_BYTES / sizeof(c10::BFloat16);
+      b_tile_3 += AMX_TILE_BYTES / sizeof(c10::BFloat16);
+    }
+
+    _tile_stored(4, c_tile_4, c_tile_stride);
+    _tile_stored(5, c_tile_5, c_tile_stride);
+    _tile_stored(6, c_tile_6, c_tile_stride);
+    _tile_stored(7, c_tile_7, c_tile_stride);
+  }
+
+  FORCE_INLINE static void init_tile_config(int32_t m, __tilecfg& config) {
+    const int32_t m_0 = AMX_TILE_ROW_NUM;
+    const int32_t m_1 = m - AMX_TILE_ROW_NUM;
+    config.rows[0] = m_0;
+    config.rows[1] = m_1;
+    config.rows[2] = AMX_TILE_ROW_NUM;
+    config.rows[3] = AMX_TILE_ROW_NUM;
+    config.rows[4] = m_0;
+    config.rows[5] = m_0;
+    config.rows[6] = m_1;
+    config.rows[7] = m_1;
+    _tile_loadconfig(&config);
+  }
+};
+
+// 1-2-2 pattern, for 0 < m <= 16
+// TILE 0, (1): load A matrix, use extra 1 tile for prefetch, row num should be
+// m, m
+// TILE 2, 3, (4, 5): load B matrix, use extra 2 tiles for prefetch, row
+// num should be 16
+// TILE 6, 7, (6, 7): store results C matrix, row num should be
+// m
+template <typename scalar_t>
+class TileGemm122 {
+ public:
+  FORCE_INLINE static void gemm(DEFINE_CPU_MICRO_GEMM_PARAMS) {
+    TORCH_CHECK(false, "Unsupported data type for TileGemm122");
+  }
+
+  FORCE_INLINE static void init_tile_config(int32_t m, __tilecfg& config) {
+    TORCH_CHECK(false, "Unsupported data type for TileGemm122");
+  }
+};
+
+template <>
+class TileGemm122<c10::BFloat16> {
+ public:
+  using scalar_t = c10::BFloat16;
+  FORCE_INLINE static void gemm(DEFINE_CPU_MICRO_GEMM_PARAMS) {
+    c10::BFloat16* __restrict__ a_tile_0 = a_ptr;
+    c10::BFloat16* __restrict__ a_tile_1 =
+        a_ptr + AMX_TILE_ROW_BYTES / sizeof(c10::BFloat16);
+    const int64_t a_tile_stride = lda * sizeof(c10::BFloat16);
+
+    c10::BFloat16* __restrict__ b_tile_2 = b_ptr;
+    c10::BFloat16* __restrict__ b_tile_3 = b_ptr + b_n_group_stride;
+    c10::BFloat16* __restrict__ b_tile_4 =
+        b_tile_2 + AMX_TILE_BYTES / sizeof(c10::BFloat16);
+    c10::BFloat16* __restrict__ b_tile_5 =
+        b_tile_3 + AMX_TILE_BYTES / sizeof(c10::BFloat16);
+    int64_t b_stride = AMX_TILE_ROW_BYTES;
+
+    float* __restrict__ c_tile_6 = c_ptr;
+    float* __restrict__ c_tile_7 = c_ptr + AMX_TILE_ROW_BYTES / sizeof(float);
+    int64_t c_stride = ldc * sizeof(float);
+
+    const int32_t k_times = k / (AMX_TILE_ROW_NUM * 4 / sizeof(c10::BFloat16));
+    const int32_t k_group_times = k_times / 2;
+    const bool has_tail = (k_times % 2 == 1);
+
+    if (accum_c) {
+      _tile_loadd(6, c_tile_6, c_stride);
+      _tile_loadd(7, c_tile_7, c_stride);
+    } else {
+      _tile_zero(6);
+      _tile_zero(7);
+    }
+
+    for (int32_t k = 0; k < k_group_times; ++k) {
+      _tile_loadd(0, a_tile_0, a_tile_stride);
+      _tile_stream_loadd(2, b_tile_2, b_stride);
+      _tile_dpbf16ps(6, 0, 2);
+      _tile_stream_loadd(3, b_tile_3, b_stride);
+      _tile_dpbf16ps(7, 0, 3);
+      _tile_loadd(1, a_tile_1, a_tile_stride);
+      _tile_stream_loadd(4, b_tile_4, b_stride);
+      _tile_dpbf16ps(6, 1, 4);
+      _tile_stream_loadd(5, b_tile_5, b_stride);
+      _tile_dpbf16ps(7, 1, 5);
+
+      // update ptrs
+      a_tile_0 += 2 * AMX_TILE_ROW_BYTES / sizeof(c10::BFloat16);
+      a_tile_1 += 2 * AMX_TILE_ROW_BYTES / sizeof(c10::BFloat16);
+      b_tile_2 += 2 * AMX_TILE_BYTES / sizeof(c10::BFloat16);
+      b_tile_3 += 2 * AMX_TILE_BYTES / sizeof(c10::BFloat16);
+      b_tile_4 += 2 * AMX_TILE_BYTES / sizeof(c10::BFloat16);
+      b_tile_5 += 2 * AMX_TILE_BYTES / sizeof(c10::BFloat16);
+    }
+
+    if (has_tail) {
+      _tile_loadd(0, a_tile_0, a_tile_stride);
+      _tile_stream_loadd(2, b_tile_2, b_stride);
+      _tile_dpbf16ps(6, 0, 2);
+      _tile_stream_loadd(3, b_tile_3, b_stride);
+      _tile_dpbf16ps(7, 0, 3);
+    }
+
+    _tile_stored(6, c_tile_6, c_stride);
+    _tile_stored(7, c_tile_7, c_stride);
+  }
+
+  FORCE_INLINE static void init_tile_config(int32_t m, __tilecfg& config) {
+    config.rows[0] = m;
+    config.rows[1] = m;
+    config.rows[2] = AMX_TILE_ROW_NUM;
+    config.rows[3] = AMX_TILE_ROW_NUM;
+    config.rows[4] = AMX_TILE_ROW_NUM;
+    config.rows[5] = AMX_TILE_ROW_NUM;
+    config.rows[6] = m;
+    config.rows[7] = m;
+    _tile_loadconfig(&config);
+  }
+};
+}  // namespace
+
+// Gemm kernel uses AMX, requires B matrix to be packed
+template <typename scalar_t>
+class MicroGemm<cpu_utils::ISA::AMX, scalar_t> {
+ public:
+  static constexpr int32_t MaxMSize = 32;
+  static constexpr int32_t NSize = 32;
+
+ public:
+  MicroGemm() : curr_m_(-1) {
+    vec_op::unroll_loop<int, 8>([&](int i) { amx_tile_config_.colsb[i] = 64; });
+  }
+
+  void gemm(DEFINE_CPU_MICRO_GEMM_PARAMS) {
+    if (m > AMX_TILE_ROW_NUM) {
+      if (m != curr_m_) {
+        curr_m_ = m;
+        TileGemm224<scalar_t>::init_tile_config(m, amx_tile_config_);
+      }
+      TileGemm224<scalar_t>::gemm(CPU_MICRO_GEMM_PARAMS);
+    } else {
+      if (m != curr_m_) {
+        curr_m_ = m;
+        TileGemm122<scalar_t>::init_tile_config(m, amx_tile_config_);
+      }
+      TileGemm122<scalar_t>::gemm(CPU_MICRO_GEMM_PARAMS);
+    }
+  }
+
+ private:
+  alignas(64) __tilecfg amx_tile_config_;
+  int32_t curr_m_;
+};
+
+}  // namespace cpu_micro_gemm
+
+#endif
diff --git a/csrc/cpu/micro_gemm/cpu_micro_gemm_impl.hpp b/csrc/cpu/micro_gemm/cpu_micro_gemm_impl.hpp
new file mode 100644
index 0000000000000..784da55a420e5
--- /dev/null
+++ b/csrc/cpu/micro_gemm/cpu_micro_gemm_impl.hpp
@@ -0,0 +1,91 @@
+#ifndef CPU_MICRO_GEMM_IMPL_HPP
+#define CPU_MICRO_GEMM_IMPL_HPP
+#include "cpu/utils.hpp"
+#include "cpu/cpu_types.hpp"
+
+namespace cpu_micro_gemm {
+#define DEFINE_CPU_MICRO_GEMM_PARAMS                                        \
+  scalar_t *__restrict__ a_ptr, scalar_t *__restrict__ b_ptr,               \
+      float *__restrict__ c_ptr, const int32_t m, const int32_t k,          \
+      const int64_t lda, const int64_t b_n_group_stride, const int64_t ldc, \
+      const bool accum_c
+
+#define CPU_MICRO_GEMM_PARAMS \
+  a_ptr, b_ptr, c_ptr, m, k, lda, b_n_group_stride, ldc, accum_c
+
+template <cpu_utils::ISA isa, typename scalar_t>
+class MicroGemm {
+ public:
+  static constexpr int32_t MaxMSize = 16;
+  static constexpr int32_t NSize = 16;
+
+ public:
+  void gemm(DEFINE_CPU_MICRO_GEMM_PARAMS) {
+    TORCH_CHECK(false, "Unimplemented MicroGemm.");
+  }
+};
+
+template <int32_t n_size, typename scalar_t>
+FORCE_INLINE void default_epilogue(float* __restrict__ c_ptr,
+                                   scalar_t* __restrict__ d_ptr,
+                                   const int32_t m, const int64_t ldc,
+                                   const int64_t ldd) {
+  using scalar_vec_t = typename cpu_utils::VecTypeTrait<scalar_t>::vec_t;
+  static_assert(n_size % 16 == 0);
+
+  float* __restrict__ curr_c = c_ptr;
+  scalar_t* __restrict__ curr_d = d_ptr;
+  for (int32_t i = 0; i < m; ++i) {
+    float* __restrict__ curr_c_iter = curr_c;
+    scalar_t* __restrict__ curr_d_iter = curr_d;
+    vec_op::unroll_loop<int32_t, n_size / 16>([&](int32_t n_g_idx) {
+      vec_op::FP32Vec16 c_vec_fp32(curr_c_iter);
+      scalar_vec_t c_vec(c_vec_fp32);
+      c_vec.save(curr_d_iter);
+      curr_c_iter += 16;
+      curr_d_iter += 16;
+    });
+    curr_c += ldc;
+    curr_d += ldd;
+  }
+}
+
+template <int32_t n_size, typename scalar_t>
+FORCE_INLINE void bias_epilogue(float* __restrict__ c_ptr,
+                                scalar_t* __restrict__ d_ptr,
+                                scalar_t* __restrict__ bias_ptr,
+                                const int32_t m, const int64_t ldc,
+                                const int64_t ldd) {
+  using scalar_vec_t = typename cpu_utils::VecTypeTrait<scalar_t>::vec_t;
+  static_assert(n_size % 16 == 0);
+  constexpr int32_t n_group_num = n_size / 16;
+  static_assert(n_group_num <= 16);
+
+  vec_op::FP32Vec16 bias_vecs[n_group_num];
+  scalar_t* __restrict__ curr_bias = bias_ptr;
+  vec_op::unroll_loop<int32_t, n_group_num>([&](int32_t i) {
+    scalar_vec_t vec(curr_bias);
+    bias_vecs[i] = vec_op::FP32Vec16(vec);
+    curr_bias += 16;
+  });
+
+  float* __restrict__ curr_c = c_ptr;
+  scalar_t* __restrict__ curr_d = d_ptr;
+  for (int32_t i = 0; i < m; ++i) {
+    float* __restrict__ curr_c_iter = curr_c;
+    scalar_t* __restrict__ curr_d_iter = curr_d;
+    vec_op::unroll_loop<int32_t, n_group_num>([&](int32_t n_g_idx) {
+      vec_op::FP32Vec16 c_vec_fp32(curr_c_iter);
+      c_vec_fp32 = c_vec_fp32 + bias_vecs[n_g_idx];
+      scalar_vec_t c_vec(c_vec_fp32);
+      c_vec.save(curr_d_iter);
+      curr_c_iter += 16;
+      curr_d_iter += 16;
+    });
+    curr_c += ldc;
+    curr_d += ldd;
+  }
+}
+}  // namespace cpu_micro_gemm
+
+#endif
diff --git a/csrc/cpu/micro_gemm/cpu_micro_gemm_vec.hpp b/csrc/cpu/micro_gemm/cpu_micro_gemm_vec.hpp
new file mode 100644
index 0000000000000..3985c2f2e5fe4
--- /dev/null
+++ b/csrc/cpu/micro_gemm/cpu_micro_gemm_vec.hpp
@@ -0,0 +1,115 @@
+#ifndef CPU_MICRO_GEMM_VEC_HPP
+#define CPU_MICRO_GEMM_VEC_HPP
+#include "cpu/micro_gemm/cpu_micro_gemm_impl.hpp"
+
+namespace cpu_micro_gemm {
+namespace {
+// 8-2-16 pattern, 8 regs for A, 2 regs for B, 16 regs for C, [8, K] @ [k, 32]
+template <typename scalar_t>
+class TileGemm82 {
+ public:
+  FORCE_INLINE static void gemm(DEFINE_CPU_MICRO_GEMM_PARAMS) {
+    switch (m) {
+      case 1:
+        gemm_micro<1>(CPU_MICRO_GEMM_PARAMS);
+        break;
+      case 2:
+        gemm_micro<2>(CPU_MICRO_GEMM_PARAMS);
+        break;
+      case 3:
+        gemm_micro<3>(CPU_MICRO_GEMM_PARAMS);
+        break;
+      case 4:
+        gemm_micro<4>(CPU_MICRO_GEMM_PARAMS);
+        break;
+      case 5:
+        gemm_micro<5>(CPU_MICRO_GEMM_PARAMS);
+        break;
+      case 6:
+        gemm_micro<6>(CPU_MICRO_GEMM_PARAMS);
+        break;
+      case 7:
+        gemm_micro<7>(CPU_MICRO_GEMM_PARAMS);
+        break;
+      case 8:
+        gemm_micro<8>(CPU_MICRO_GEMM_PARAMS);
+        break;
+    }
+  }
+
+  template <int32_t M>
+  static void gemm_micro(DEFINE_CPU_MICRO_GEMM_PARAMS) {
+    static_assert(0 < M <= 8);
+    using load_vec_t = typename cpu_utils::VecTypeTrait<scalar_t>::vec_t;
+
+    scalar_t* __restrict__ curr_b_0 = b_ptr;
+    scalar_t* __restrict__ curr_b_1 = b_ptr + b_n_group_stride;
+    float* __restrict__ curr_c_0 = c_ptr;
+    float* __restrict__ curr_c_1 = c_ptr + 16;
+
+    vec_op::FP32Vec16 c_regs[M * 2];
+    if (accum_c) {
+      float* __restrict__ curr_m_c_0 = curr_c_0;
+      float* __restrict__ curr_m_c_1 = curr_c_1;
+      vec_op::unroll_loop<int32_t, M>([&](int32_t i) {
+        c_regs[i * 2] = vec_op::FP32Vec16(curr_m_c_0);
+        c_regs[i * 2 + 1] = vec_op::FP32Vec16(curr_m_c_1);
+
+        // update
+        curr_m_c_0 += ldc;
+        curr_m_c_1 += ldc;
+      });
+    }
+
+    scalar_t* __restrict__ curr_a = a_ptr;
+    for (int32_t k_idx = 0; k_idx < k; ++k_idx) {
+      load_vec_t b_0_reg(curr_b_0);
+      vec_op::FP32Vec16 fp32_b_0_reg(b_0_reg);
+      load_vec_t b_1_reg(curr_b_1);
+      vec_op::FP32Vec16 fp32_b_1_reg(b_1_reg);
+
+      scalar_t* __restrict__ curr_m_a = curr_a;
+      vec_op::unroll_loop<int32_t, M>([&](int32_t i) {
+        scalar_t v = *curr_m_a;
+        load_vec_t a_reg_original(v);
+        vec_op::FP32Vec16 a_reg(a_reg_original);
+        c_regs[i * 2] = c_regs[i * 2] + a_reg * fp32_b_0_reg;
+        c_regs[i * 2 + 1] = c_regs[i * 2 + 1] + a_reg * fp32_b_1_reg;
+
+        // update
+        curr_m_a += lda;
+      });
+
+      // update
+      curr_a += 1;
+      curr_b_0 += 16;
+      curr_b_1 += 16;
+    }
+
+    vec_op::unroll_loop<int32_t, M>([&](int32_t i) {
+      c_regs[i * 2].save(curr_c_0);
+      c_regs[i * 2 + 1].save(curr_c_1);
+
+      // update
+      curr_c_0 += ldc;
+      curr_c_1 += ldc;
+    });
+  }
+};
+}  // namespace
+
+// Gemm kernel uses vector instructions, requires B matrix to be packed
+template <typename scalar_t>
+class MicroGemm<cpu_utils::ISA::VEC, scalar_t> {
+ public:
+  static constexpr int32_t MaxMSize = 8;
+  static constexpr int32_t NSize = 32;
+
+ public:
+  void gemm(DEFINE_CPU_MICRO_GEMM_PARAMS) {
+    TileGemm82<scalar_t>::gemm(CPU_MICRO_GEMM_PARAMS);
+  }
+};
+}  // namespace cpu_micro_gemm
+
+#endif
diff --git a/csrc/cpu/torch_bindings.cpp b/csrc/cpu/torch_bindings.cpp
index 9fefd88cd9b08..b07d20bab7dd9 100644
--- a/csrc/cpu/torch_bindings.cpp
+++ b/csrc/cpu/torch_bindings.cpp
@@ -103,6 +103,13 @@ void cpu_attention_with_kv_cache(
 // Note: just for avoiding importing errors
 void placeholder_op() { TORCH_CHECK(false, "Unimplemented"); }
 
+void cpu_gemm_wna16(const torch::Tensor& input, const torch::Tensor& q_weight,
+                    torch::Tensor& output, const torch::Tensor& scales,
+                    const std::optional<torch::Tensor>& zeros,
+                    const std::optional<torch::Tensor>& g_idx,
+                    const std::optional<torch::Tensor>& bias,
+                    const int64_t pack_factor, const std::string& isa_hint);
+
 TORCH_LIBRARY_EXPAND(TORCH_EXTENSION_NAME, ops) {
   // vLLM custom ops
 
@@ -283,6 +290,15 @@ TORCH_LIBRARY_EXPAND(TORCH_EXTENSION_NAME, ops) {
   ops.def("static_scaled_fp8_quant() -> ()", placeholder_op);
   ops.def("dynamic_scaled_fp8_quant() -> ()", placeholder_op);
   ops.def("dynamic_per_token_scaled_fp8_quant() -> ()", placeholder_op);
+
+  // WNA16
+#if defined(__AVX512F__)
+  ops.def(
+      "cpu_gemm_wna16(Tensor input, Tensor q_weight, Tensor(a2!) output, "
+      "Tensor scales, Tensor? zeros, Tensor? g_idx, Tensor? bias, SymInt "
+      "pack_factor, str isa_hint) -> ()");
+  ops.impl("cpu_gemm_wna16", torch::kCPU, &cpu_gemm_wna16);
+#endif
 }
 
 TORCH_LIBRARY_EXPAND(CONCAT(TORCH_EXTENSION_NAME, _utils), utils) {
diff --git a/csrc/cpu/utils.hpp b/csrc/cpu/utils.hpp
new file mode 100644
index 0000000000000..d8399c56f6af8
--- /dev/null
+++ b/csrc/cpu/utils.hpp
@@ -0,0 +1,55 @@
+#ifndef UTILS_HPP
+#define UTILS_HPP
+
+#include <atomic>
+#include <cassert>
+#include <cstdint>
+#include <unistd.h>
+
+#include "cpu_types.hpp"
+
+namespace cpu_utils {
+enum class ISA { AMX, VEC };
+
+template <typename T>
+struct VecTypeTrait {
+  using vec_t = void;
+};
+
+template <>
+struct VecTypeTrait<float> {
+  using vec_t = vec_op::FP32Vec16;
+};
+
+template <>
+struct VecTypeTrait<c10::BFloat16> {
+  using vec_t = vec_op::BF16Vec16;
+};
+
+template <>
+struct VecTypeTrait<c10::Half> {
+  using vec_t = vec_op::FP16Vec16;
+};
+
+struct Counter {
+  std::atomic<int64_t> counter;
+  char _padding[56];
+
+  Counter() : counter(0) {}
+
+  void reset_counter() { counter.store(0); }
+
+  int64_t acquire_counter() { return counter++; }
+};
+
+inline int64_t get_l2_size() {
+  static int64_t size = []() {
+    long l2_cache_size = sysconf(_SC_LEVEL2_CACHE_SIZE);
+    assert(l2_cache_size != -1);
+    return l2_cache_size >> 1;  // use 50% of L2 cache
+  }();
+  return size;
+}
+}  // namespace cpu_utils
+
+#endif
diff --git a/docs/getting_started/installation/cpu.md b/docs/getting_started/installation/cpu.md
index be99cef3723e6..d1beab7855b18 100644
--- a/docs/getting_started/installation/cpu.md
+++ b/docs/getting_started/installation/cpu.md
@@ -97,7 +97,6 @@ Currently, there are no pre-built CPU wheels.
 - `VLLM_CPU_OMP_THREADS_BIND`: specify the CPU cores dedicated to the OpenMP threads, can be set as CPU id lists, `auto` (by default), or `nobind` (to disable binding to individual CPU cores and to inherit user-defined OpenMP variables). For example, `VLLM_CPU_OMP_THREADS_BIND=0-31` means there will be 32 OpenMP threads bound on 0-31 CPU cores. `VLLM_CPU_OMP_THREADS_BIND=0-31|32-63` means there will be 2 tensor parallel processes, 32 OpenMP threads of rank0 are bound on 0-31 CPU cores, and the OpenMP threads of rank1 are bound on 32-63 CPU cores. By setting to `auto`, the OpenMP threads of each rank are bound to the CPU cores in each NUMA node respectively. If set to `nobind`, the number of OpenMP threads is determined by the standard `OMP_NUM_THREADS` environment variable.
 - `VLLM_CPU_NUM_OF_RESERVED_CPU`: specify the number of CPU cores which are not dedicated to the OpenMP threads for each rank. The variable only takes effect when VLLM_CPU_OMP_THREADS_BIND is set to `auto`. Default value is `None`. If the value is not set and use `auto` thread binding, no CPU will be reserved for `world_size == 1`, 1 CPU per rank will be reserved for `world_size > 1`.
 - `CPU_VISIBLE_MEMORY_NODES`: specify visible NUMA memory nodes for vLLM CPU workers, similar to ```CUDA_VISIBLE_DEVICES```. The variable only takes effect when VLLM_CPU_OMP_THREADS_BIND is set to `auto`. The variable provides more control for the auto thread-binding feature, such as masking nodes and changing nodes binding sequence.
-- `VLLM_CPU_MOE_PREPACK` (x86 only): whether to use prepack for MoE layer. This will be passed to `ipex.llm.modules.GatedMLPMOE`. Default is `1` (True). On unsupported CPUs, you might need to set this to `0` (False).
 - `VLLM_CPU_SGL_KERNEL` (x86 only, Experimental): whether to use small-batch optimized kernels for linear layer and MoE layer, especially for low-latency requirements like online serving. The kernels require AMX instruction set, BFloat16 weight type and weight shapes divisible by 32. Default is `0` (False).
 
 ## FAQ
@@ -191,10 +190,9 @@ vLLM CPU supports data parallel (DP), tensor parallel (TP) and pipeline parallel
     - GPTQ (x86 only)
     - compressed-tensor INT8 W8A8 (x86, s390x)
 
-### (x86 only) What is the purpose of `VLLM_CPU_MOE_PREPACK` and `VLLM_CPU_SGL_KERNEL`?
+### (x86 only) What is the purpose of `VLLM_CPU_SGL_KERNEL`?
 
 - Both of them require `amx` CPU flag.
-    - `VLLM_CPU_MOE_PREPACK` can provide better performance for MoE models
     - `VLLM_CPU_SGL_KERNEL` can provide better performance for MoE models and small-batch scenarios.
 
 ### Why do I see `get_mempolicy: Operation not permitted` when running in Docker?
diff --git a/requirements/cpu.txt b/requirements/cpu.txt
index d11787df4d92b..e23d3286f3f78 100644
--- a/requirements/cpu.txt
+++ b/requirements/cpu.txt
@@ -22,7 +22,6 @@ datasets # for benchmark scripts
 
 # Intel Extension for PyTorch, only for x86_64 CPUs
 intel-openmp==2024.2.1; platform_machine == "x86_64"
-intel_extension_for_pytorch==2.8.0; platform_machine == "x86_64"
 triton==3.2.0; platform_machine == "x86_64" # Triton is required for torch 2.6+cpu, as it is imported in torch.compile.
 
 # Use this to gather CPU info and optimize based on ARM Neoverse cores
diff --git a/tests/quantization/test_cpu_wna16.py b/tests/quantization/test_cpu_wna16.py
new file mode 100644
index 0000000000000..077b802e559dc
--- /dev/null
+++ b/tests/quantization/test_cpu_wna16.py
@@ -0,0 +1,23 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import pytest
+
+from vllm.platforms import current_platform
+
+if not current_platform.is_cpu():
+    pytest.skip("skipping CPU-only tests", allow_module_level=True)
+
+MODELS = [
+    "TheBloke/TinyLlama-1.1B-Chat-v1.0-AWQ",
+    "TheBloke/TinyLlama-1.1B-Chat-v1.0-GPTQ",  # with g_idx
+]
+DTYPE = ["bfloat16"]
+
+
+@pytest.mark.parametrize("model", MODELS)
+@pytest.mark.parametrize("dtype", DTYPE)
+def test_ipex_quant(vllm_runner, model, dtype):
+    with vllm_runner(model, dtype=dtype) as llm:
+        output = llm.generate_greedy(["The capital of France is"], max_tokens=32)
+    assert output
+    print(output)
diff --git a/vllm/_custom_ops.py b/vllm/_custom_ops.py
index 096266c9764e8..66cf6472eee40 100644
--- a/vllm/_custom_ops.py
+++ b/vllm/_custom_ops.py
@@ -2702,6 +2702,31 @@ def cpu_attention_with_kv_cache(
     )
 
 
+def cpu_gemm_wna16(
+    input: torch.Tensor,
+    q_weight: torch.Tensor,
+    scales: torch.Tensor,
+    zeros: torch.Tensor | None,
+    g_idx: torch.Tensor | None,
+    bias: torch.Tensor | None,
+    pack_factor: int,
+    isa_hint: str,
+) -> torch.Tensor:
+    output = torch.empty((input.size(0), scales.size(1)), dtype=input.dtype)
+    torch.ops._C.cpu_gemm_wna16(
+        input,
+        q_weight,
+        output,
+        scales,
+        zeros,
+        g_idx,
+        bias,
+        pack_factor,
+        isa_hint,
+    )
+    return output
+
+
 if hasattr(torch.ops._qutlass_C, "matmul_mxf4_bf16_tn"):
 
     @register_fake("_qutlass_C::matmul_mxf4_bf16_tn")
diff --git a/vllm/config/model.py b/vllm/config/model.py
index 49fe0bcd9a2ab..3e8790a26e0e3 100644
--- a/vllm/config/model.py
+++ b/vllm/config/model.py
@@ -1020,6 +1020,8 @@ class ModelConfig:
                 # Ensure heavy backends are probed last to avoid unnecessary
                 # imports during override detection (e.g., MXFP4 imports Triton)
                 "mxfp4",
+                "cpu_gptq",
+                "cpu_awq",
             ]
             quantization_methods = [
                 q for q in supported_quantization if q not in overrides
diff --git a/vllm/envs.py b/vllm/envs.py
index 62b3344ccd850..6d92d5afee501 100755
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -50,7 +50,6 @@ if TYPE_CHECKING:
     VLLM_CPU_KVCACHE_SPACE: int | None = 0
     VLLM_CPU_OMP_THREADS_BIND: str = ""
     VLLM_CPU_NUM_OF_RESERVED_CPU: int | None = None
-    VLLM_CPU_MOE_PREPACK: bool = True
     VLLM_CPU_SGL_KERNEL: bool = False
     VLLM_XLA_CACHE_PATH: str = os.path.join(VLLM_CACHE_ROOT, "xla_cache")
     VLLM_XLA_CHECK_RECOMPILATION: bool = False
@@ -665,10 +664,6 @@ environment_variables: dict[str, Callable[[], Any]] = {
     )
     if "VLLM_CPU_NUM_OF_RESERVED_CPU" in os.environ
     else None,
-    # (CPU backend only) whether to use prepack for MoE layer. This will be
-    # passed to ipex.llm.modules.GatedMLPMOE. On unsupported CPUs, you might
-    # need to set this to "0" (False).
-    "VLLM_CPU_MOE_PREPACK": lambda: bool(int(os.getenv("VLLM_CPU_MOE_PREPACK", "1"))),
     # (CPU backend only) whether to use SGL kernels, optimized for small batch.
     "VLLM_CPU_SGL_KERNEL": lambda: bool(int(os.getenv("VLLM_CPU_SGL_KERNEL", "0"))),
     # If the env var is set, Ray Compiled Graph uses the specified
diff --git a/vllm/model_executor/layers/fused_moe/cpu_fused_moe.py b/vllm/model_executor/layers/fused_moe/cpu_fused_moe.py
index 23ace3408562a..572307052b489 100644
--- a/vllm/model_executor/layers/fused_moe/cpu_fused_moe.py
+++ b/vllm/model_executor/layers/fused_moe/cpu_fused_moe.py
@@ -6,7 +6,6 @@ import torch
 from torch.nn import functional as F
 
 from vllm import _custom_ops as ops
-from vllm import envs
 
 
 def silu_and_mul(x: torch.Tensor) -> torch.Tensor:
@@ -130,54 +129,6 @@ def select_experts(
         )
 
 
-class IPEXFusedMOE:
-    def __init__(self, layer: torch.nn.Module) -> None:
-        import intel_extension_for_pytorch as ipex
-
-        layer.ipex_fusion = ipex.llm.modules.GatedMLPMOE(
-            layer.w13_weight,
-            layer.w2_weight,
-            use_prepack=envs.VLLM_CPU_MOE_PREPACK,
-        )
-
-    def __call__(
-        self,
-        layer: torch.nn.Module,
-        x: torch.Tensor,
-        use_grouped_topk: bool,
-        top_k: int,
-        router_logits: torch.Tensor,
-        renormalize: bool,
-        topk_group: int | None = None,
-        num_expert_group: int | None = None,
-        global_num_experts: int = -1,
-        expert_map: torch.Tensor | None = None,
-        custom_routing_function: Callable | None = None,
-        scoring_func: str = "softmax",
-        routed_scaling_factor: float = 1.0,
-        e_score_correction_bias: torch.Tensor | None = None,
-        apply_router_weight_on_input: bool = False,
-        activation: str = "silu",
-    ) -> torch.Tensor:
-        assert activation == "silu", f"{activation} is not supported."
-        assert not apply_router_weight_on_input
-        assert routed_scaling_factor == 1.0, (
-            f"routed_scaling_factor {routed_scaling_factor} is not supported."
-        )
-        return layer.ipex_fusion(
-            x,
-            use_grouped_topk,
-            top_k,
-            router_logits,
-            renormalize,
-            topk_group,
-            num_expert_group,
-            custom_routing_function,
-            scoring_func,
-            e_score_correction_bias,
-        )
-
-
 class SGLFusedMOE:
     def __init__(self, layer: torch.nn.Module) -> None:
         pass
diff --git a/vllm/model_executor/layers/fused_moe/unquantized_fused_moe_method.py b/vllm/model_executor/layers/fused_moe/unquantized_fused_moe_method.py
index ce56887f1c26d..2e0376553b913 100644
--- a/vllm/model_executor/layers/fused_moe/unquantized_fused_moe_method.py
+++ b/vllm/model_executor/layers/fused_moe/unquantized_fused_moe_method.py
@@ -260,7 +260,7 @@ class UnquantizedFusedMoEMethod(FusedMoEMethodBase, CustomOp):
                     layer.w2_weight.copy_(packed_w2_weight)
                     layer.cpu_fused_moe = cpu_fused_moe.SGLFusedMOE(layer)
                 else:
-                    layer.cpu_fused_moe = cpu_fused_moe.IPEXFusedMOE(layer)
+                    layer.cpu_fused_moe = cpu_fused_moe.CPUFusedMOE(layer)
             else:
                 layer.cpu_fused_moe = cpu_fused_moe.CPUFusedMOE(layer)
 
diff --git a/vllm/model_executor/layers/quantization/__init__.py b/vllm/model_executor/layers/quantization/__init__.py
index bb42b10f87186..18aaae394f935 100644
--- a/vllm/model_executor/layers/quantization/__init__.py
+++ b/vllm/model_executor/layers/quantization/__init__.py
@@ -38,6 +38,8 @@ QuantizationMethods = Literal[
     "inc",
     "mxfp4",
     "petit_nvfp4",
+    "cpu_gptq",
+    "cpu_awq",
 ]
 QUANTIZATION_METHODS: list[str] = list(get_args(QuantizationMethods))
 
@@ -107,6 +109,7 @@ def get_quantization_config(quantization: str) -> type[QuantizationConfig]:
     from .compressed_tensors.compressed_tensors import (
         CompressedTensorsConfig,
     )
+    from .cpu_wna16 import CPUAWQConfig, CPUGPTQConfig
     from .deepspeedfp import DeepSpeedFPConfig
     from .experts_int8 import ExpertsInt8Config
     from .fbgemm_fp8 import FBGEMMFp8Config
@@ -159,6 +162,8 @@ def get_quantization_config(quantization: str) -> type[QuantizationConfig]:
         "inc": INCConfig,
         "mxfp4": Mxfp4Config,
         "petit_nvfp4": PetitNvFp4Config,
+        "cpu_gptq": CPUGPTQConfig,
+        "cpu_awq": CPUAWQConfig,
     }
     # Update the `method_to_config` with customized quantization methods.
     method_to_config.update(_CUSTOMIZED_METHOD_TO_QUANT_CONFIG)
diff --git a/vllm/model_executor/layers/quantization/cpu_wna16.py b/vllm/model_executor/layers/quantization/cpu_wna16.py
new file mode 100644
index 0000000000000..bf643f55f1b9a
--- /dev/null
+++ b/vllm/model_executor/layers/quantization/cpu_wna16.py
@@ -0,0 +1,625 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from typing import Any, Optional
+
+import torch
+from safetensors.torch import _TYPES as _SAFETENSORS_TO_TORCH_DTYPE
+
+from vllm._custom_ops import (
+    cpu_gemm_wna16,
+)
+from vllm.logger import init_logger
+from vllm.model_executor.layers.linear import (
+    LinearBase,
+    LinearMethodBase,
+    UnquantizedLinearMethod,
+)
+from vllm.model_executor.layers.quantization import QuantizationMethods
+from vllm.model_executor.layers.quantization.base_config import (
+    QuantizationConfig,
+    QuantizeMethodBase,
+)
+from vllm.model_executor.layers.quantization.utils.gptq_utils import (
+    get_linear_quant_method,
+)
+from vllm.model_executor.layers.quantization.utils.marlin_utils import (
+    marlin_repeat_scales_on_all_ranks,
+)
+from vllm.model_executor.layers.quantization.utils.quant_utils import (
+    is_layer_skipped,
+    pack_cols,
+    unpack_cols,
+)
+from vllm.model_executor.layers.vocab_parallel_embedding import ParallelLMHead
+from vllm.model_executor.models.utils import WeightsMapper
+from vllm.model_executor.parameter import (
+    ChannelQuantScaleParameter,
+    GroupQuantScaleParameter,
+    PackedColumnParameter,
+    PackedvLLMParameter,
+    RowvLLMParameter,
+)
+from vllm.model_executor.utils import set_weight_attrs
+from vllm.platforms import current_platform
+from vllm.transformers_utils.config import get_safetensors_params_metadata
+from vllm.utils.collection_utils import is_list_of
+
+logger = init_logger(__name__)
+
+
+class CPUGPTQConfig(QuantizationConfig):
+    """Config class for CPU GPTQ quant"""
+
+    def __init__(
+        self,
+        weight_bits: int,
+        group_size: int,
+        desc_act: bool,
+        is_sym: bool,
+        lm_head_quantized: bool,
+        dynamic: dict[str, dict[str, int | bool]],
+        full_config: dict[str, Any],
+        modules_in_block_to_quantize: list[str] | None = None,
+    ) -> None:
+        super().__init__()
+        if desc_act and group_size == -1:
+            # In this case, act_order == True is the same as act_order == False
+            # (since we have only one group per output channel)
+            desc_act = False
+
+        # GPTQModel use `dynamic` config property to allow per module
+        # quantization config so each module can be individually optimized.
+        # Format is dict[str, dict] where key is a regex string that can
+        # perform both positive ("+:" prefixed) or negative ("-:" prefixed)
+        # matching of a module.
+        # Default to positive match, override base quant config mode, if no
+        # prefix is used. Value is in dict format of field key and override
+        # value.
+        # Negative matching will skip quantization init for this module
+        # entirely:
+        # non-quantized inference. More details and quantization examples can be
+        # found at: https://github.com/ModelCloud/GPTQModel
+        # Example:
+        #  # last 1/2 of the layers 10-21 has 8bit vs 4bit for 0-9
+        #  # last 1/4 of the layers 16-21 has 8bit and group_size 64
+        # dynamic = {
+        #  #`.*\.` matches the layers_node prefix
+        #  # positive match layer 10-15
+        #  r"+:.*\.(?:1[0-5])\..*": {"bits": 8,},
+        #  # positive match layer 16-21
+        #  r"+:.*\.(?:1[6-9]|20|21)\..*": {"bits": 8, "group_size": 64,},
+        #  r"-:.*\.moe\..*": {}, # negative match (skip) all `moe` layers
+        # }
+        assert weight_bits == 4
+        self.dynamic = dynamic
+        self.weight_bits = weight_bits
+        self.is_sym = is_sym
+        self.pack_factor = 32 // weight_bits  # packed into int32
+        self.group_size = group_size
+        self.desc_act = desc_act
+        self.lm_head_quantized = lm_head_quantized
+        self.full_config = full_config
+        self.modules_in_block_to_quantize = modules_in_block_to_quantize or []
+
+    def __repr__(self) -> str:
+        return (
+            f"CPUWNA16Config("
+            f"group_size={self.group_size}, "
+            f"desc_act={self.desc_act}, "
+            f"lm_head_quantized={self.lm_head_quantized}, "
+            f"dynamic={self.dynamic}, "
+            f"modules_in_block_to_quantize={self.modules_in_block_to_quantize})"
+        )
+
+    @classmethod
+    def get_name(cls) -> QuantizationMethods:
+        return "cpu_gptq"
+
+    @classmethod
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
+        return [torch.half, torch.bfloat16]
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return -1
+
+    @classmethod
+    def get_config_filenames(cls) -> list[str]:
+        return ["quantize_config.json"]
+
+    @classmethod
+    def from_config(cls, config: dict[str, Any]) -> "CPUGPTQConfig":
+        weight_bits = cls.get_from_keys(config, ["bits"])
+        desc_act = cls.get_from_keys_or(config, ["desc_act"], default=False)
+        dynamic = cls.get_from_keys_or(config, ["dynamic"], default={})
+        group_size = cls.get_from_keys(config, ["group_size"])
+        is_sym = cls.get_from_keys(config, ["sym"])
+        lm_head_quantized = cls.get_from_keys_or(config, ["lm_head"], default=False)
+        modules_in_block_to_quantize = cls.get_from_keys_or(
+            config, ["modules_in_block_to_quantize"], default=None
+        )
+        return cls(
+            weight_bits,
+            group_size,
+            desc_act,
+            is_sym,
+            lm_head_quantized,
+            dynamic,
+            config,
+            modules_in_block_to_quantize,
+        )
+
+    @classmethod
+    def override_quantization_method(
+        cls, hf_quant_cfg, user_quant
+    ) -> QuantizationMethods | None:
+        quant_method = hf_quant_cfg.get("quant_method", "").lower()
+        if current_platform.is_cpu() and (quant_method == "gptq"):
+            return cls.get_name()
+        return None
+
+    def get_quant_method(
+        self, layer: torch.nn.Module, prefix: str
+    ) -> Optional["QuantizeMethodBase"]:
+        return get_linear_quant_method(self, layer, prefix, CPUGPTQLinearMethod)  # type: ignore
+
+    def apply_vllm_mapper(self, hf_to_vllm_mapper):
+        if self.modules_in_block_to_quantize is not None:
+            self.modules_in_block_to_quantize = hf_to_vllm_mapper.apply_list(
+                self.modules_in_block_to_quantize
+            )
+
+    def maybe_update_config(self, model_name: str, revision: str | None = None):
+        if self.modules_in_block_to_quantize:
+            if is_list_of(self.modules_in_block_to_quantize, list):
+                # original modules_in_block_to_quantize: list[list[str]]
+                # flatten original modules_in_block_to_quantize
+                self.modules_in_block_to_quantize = [
+                    item
+                    for sublist in self.modules_in_block_to_quantize
+                    for item in sublist
+                ]
+            return
+
+        unquant_dtypes = [torch.float16, torch.bfloat16, torch.float32]
+        metadata = get_safetensors_params_metadata(model_name, revision=revision)
+        quant_layers: set[str] = {
+            param_name.rsplit(".", 1)[0]
+            for param_name, info in metadata.items()
+            if (dtype := info.get("dtype", None))
+            and _SAFETENSORS_TO_TORCH_DTYPE[dtype] not in unquant_dtypes
+        }
+        self.modules_in_block_to_quantize = list(quant_layers)
+
+
+class CPUGPTQLinearMethod(LinearMethodBase):
+    """Linear method for GPTQ on CPU.
+
+    Args:
+        quant_config: The CPUWNA16 quantization config.
+    """
+
+    def __init__(self, quant_config: CPUGPTQConfig) -> None:
+        self.quant_config = quant_config
+        assert self.quant_config.is_sym, "GPTQ asym quant is not supported on CPU"
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: list[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ) -> None:
+        output_size_per_partition = sum(output_partition_sizes)
+        assert output_size_per_partition * self.quant_config.weight_bits % 32 == 0
+        assert output_size_per_partition % 32 == 0
+        assert input_size_per_partition % 32 == 0
+
+        is_row_parallel = input_size != input_size_per_partition
+        weight_loader = extra_weight_attrs.get("weight_loader")
+
+        # Normalize group_size
+        if self.quant_config.group_size != -1:
+            group_size = self.quant_config.group_size
+        else:
+            group_size = input_size
+
+        # Determine sharding
+        if marlin_repeat_scales_on_all_ranks(
+            self.quant_config.desc_act, self.quant_config.group_size, is_row_parallel
+        ):
+            # By setting scale_dim == None, weight_loader will
+            # repeat the scales on each rank in TP>1 case.
+            scales_and_zp_input_dim = None
+            scales_and_zp_size = input_size // group_size
+        else:
+            # By setting scale_dim == 0, weight_loader will
+            # shard the scales in TP>1 case.
+            scales_and_zp_input_dim = 0
+            scales_and_zp_size = input_size_per_partition // group_size
+
+        # Quantized weights
+        qweight = PackedvLLMParameter(
+            data=torch.empty(
+                input_size_per_partition // self.quant_config.pack_factor,
+                output_size_per_partition,
+                dtype=torch.int32,
+            ),
+            input_dim=0,
+            output_dim=1,
+            packed_dim=0,
+            packed_factor=self.quant_config.pack_factor,
+            weight_loader=weight_loader,
+        )
+
+        # Activation order
+        g_idx = RowvLLMParameter(
+            data=torch.empty(
+                input_size_per_partition,
+                dtype=torch.int32,
+            ),
+            input_dim=0,
+            weight_loader=weight_loader,
+        )
+        set_weight_attrs(
+            g_idx,
+            {"ignore_warning": True},
+        )
+
+        qzeros_args = {
+            "data": torch.empty(
+                scales_and_zp_size,
+                output_size_per_partition // self.quant_config.pack_factor,
+                dtype=torch.int32,
+            ),
+            "weight_loader": weight_loader,
+        }
+        weight_scale_args = {
+            "data": torch.empty(
+                scales_and_zp_size,
+                output_size_per_partition,
+                dtype=params_dtype,
+            ),
+            "weight_loader": weight_loader,
+        }
+
+        if scales_and_zp_input_dim is None:
+            scales = ChannelQuantScaleParameter(output_dim=1, **weight_scale_args)
+            qzeros = PackedColumnParameter(
+                output_dim=1,
+                packed_dim=1,
+                packed_factor=self.quant_config.pack_factor,
+                **qzeros_args,
+            )
+
+        else:
+            scales = GroupQuantScaleParameter(
+                output_dim=1, input_dim=0, **weight_scale_args
+            )
+            qzeros = PackedvLLMParameter(
+                input_dim=0,
+                output_dim=1,
+                packed_dim=1,
+                packed_factor=self.quant_config.pack_factor,
+                **qzeros_args,
+            )
+
+        layer.register_parameter("qweight", qweight)
+        layer.register_parameter("g_idx", g_idx)
+        layer.register_parameter("scales", scales)
+        layer.register_parameter("qzeros", qzeros)
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        torch.set_printoptions(profile="full", linewidth=5000, sci_mode=False)
+        packed_weight = layer.qweight.data
+        bits = self.quant_config.weight_bits
+        pack_factor = int(self.quant_config.pack_factor)
+        p_w_k, p_w_n = packed_weight.size()
+        input_size = p_w_k * pack_factor
+        output_size = p_w_n
+        isa_hint = _get_isa_hint(layer.scales.dtype)
+        layer.isa_hint = isa_hint
+
+        layer.qzeros = None
+        if not self.quant_config.desc_act:
+            layer.g_idx = None
+
+        # convert input dim packed to output dim packed
+        weight = unpack_cols(packed_weight, bits, p_w_k, p_w_n * pack_factor).view(
+            p_w_k, p_w_n, pack_factor
+        )
+        weight = weight.permute(0, 2, 1).reshape(input_size, output_size).contiguous()
+        weight = pack_cols(weight, bits, input_size, output_size)
+        # make 16 output channel as a block and transpose to the make
+        # the block contigous
+        weight = (
+            weight.view(input_size, -1, 16 // pack_factor)
+            .permute(1, 0, 2)
+            .reshape(-1, input_size * 16 // pack_factor)
+            .contiguous()
+        )
+        layer.qweight.data = weight
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        x = cpu_gemm_wna16(
+            input=x,
+            q_weight=layer.qweight,
+            scales=layer.scales,
+            zeros=layer.qzeros,
+            g_idx=layer.g_idx,
+            bias=bias,
+            pack_factor=8,
+            isa_hint=layer.isa_hint,
+        )
+        return x
+
+
+class CPUAWQConfig(QuantizationConfig):
+    """Config class for CPU AWQ"""
+
+    def __init__(
+        self,
+        weight_bits: int,
+        group_size: int,
+        zero_point: bool,
+        lm_head_quantized: bool,
+        modules_to_not_convert: list[str] | None,
+        full_config: dict[str, Any],
+    ) -> None:
+        super().__init__()
+        assert weight_bits == 4
+        self.pack_factor = 32 // weight_bits  # packed into int32
+        self.group_size = group_size
+        self.zero_point = zero_point
+        self.lm_head_quantized = lm_head_quantized
+        self.weight_bits = weight_bits
+        self.modules_to_not_convert = modules_to_not_convert or []
+        self.full_config = full_config
+
+    def __repr__(self) -> str:
+        return (
+            f"AWQMarlinConfig("
+            f"group_size={self.group_size}, "
+            f"zero_point={self.zero_point}, "
+            f"lm_head_quantized={self.lm_head_quantized}, "
+            f"modules_to_not_convert={self.modules_to_not_convert})"
+        )
+
+    @classmethod
+    def get_name(cls) -> "QuantizationMethods":
+        return "cpu_awq"
+
+    @classmethod
+    def get_supported_act_dtypes(cls) -> list[torch.dtype]:
+        return [torch.half, torch.bfloat16]
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return -1
+
+    @classmethod
+    def get_config_filenames(cls) -> list[str]:
+        return ["quantize_config.json"]
+
+    @classmethod
+    def from_config(cls, config: dict[str, Any]) -> "CPUAWQConfig":
+        weight_bits = cls.get_from_keys(config, ["bits"])
+        group_size = cls.get_from_keys(config, ["group_size"])
+        zero_point = cls.get_from_keys(config, ["zero_point"])
+        lm_head_quantized = cls.get_from_keys_or(config, ["lm_head"], default=False)
+        modules_to_not_convert = cls.get_from_keys_or(
+            config, ["modules_to_not_convert"], None
+        )
+        return cls(
+            weight_bits,
+            group_size,
+            zero_point,
+            lm_head_quantized,
+            modules_to_not_convert,
+            config,
+        )
+
+    @classmethod
+    def override_quantization_method(
+        cls, hf_quant_cfg, user_quant
+    ) -> Optional["QuantizationMethods"]:
+        quant_method = hf_quant_cfg.get("quant_method", "").lower()
+        if current_platform.is_cpu() and (quant_method == "awq"):
+            return cls.get_name()
+        return None
+
+    def get_quant_method(
+        self, layer: torch.nn.Module, prefix: str
+    ) -> Optional["QuantizeMethodBase"]:
+        if isinstance(layer, LinearBase) or (
+            isinstance(layer, ParallelLMHead) and self.lm_head_quantized
+        ):
+            if is_layer_skipped(
+                prefix,
+                self.modules_to_not_convert,
+                self.packed_modules_mapping,
+                skip_with_substr=True,
+            ):
+                return UnquantizedLinearMethod()
+            return CPUAWQLinearMethod(self)
+        return None
+
+    def apply_vllm_mapper(self, hf_to_vllm_mapper: "WeightsMapper"):
+        if self.modules_to_not_convert:
+            self.modules_to_not_convert = hf_to_vllm_mapper.apply_list(
+                self.modules_to_not_convert
+            )
+
+    def maybe_update_config(self, model_name: str, revision: str | None = None):
+        if self.modules_to_not_convert:
+            return
+
+        unquant_dtypes = [torch.float16, torch.bfloat16, torch.float32]
+        metadata = get_safetensors_params_metadata(model_name, revision=revision)
+        layers = {param_name.rsplit(".", 1)[0] for param_name in metadata}
+        quant_layers: set[str] = {
+            param_name.rsplit(".", 1)[0]
+            for param_name, info in metadata.items()
+            if (dtype := info.get("dtype", None))
+            and _SAFETENSORS_TO_TORCH_DTYPE[dtype] not in unquant_dtypes
+        }
+        self.modules_to_not_convert = list(layers - quant_layers)
+
+
+class CPUAWQLinearMethod(LinearMethodBase):
+    """Linear method for CPU AWQ.
+
+    Args:
+        quant_config: The CPU AWQ quantization config.
+    """
+
+    def __init__(self, quant_config: CPUAWQConfig) -> None:
+        self.quant_config = quant_config
+        assert self.quant_config.zero_point
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: list[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ) -> None:
+        del output_size
+        output_size_per_partition = sum(output_partition_sizes)
+        weight_loader = extra_weight_attrs.get("weight_loader")
+
+        # Normalize group_size
+        if self.quant_config.group_size != -1:
+            group_size = self.quant_config.group_size
+        else:
+            group_size = input_size
+
+        qweight = PackedvLLMParameter(
+            data=torch.empty(
+                input_size_per_partition,
+                output_size_per_partition // self.quant_config.pack_factor,
+                dtype=torch.int32,
+            ),
+            input_dim=0,
+            output_dim=1,
+            packed_dim=1,
+            packed_factor=self.quant_config.pack_factor,
+            weight_loader=weight_loader,
+        )
+
+        num_groups = input_size_per_partition // group_size
+
+        qzeros = PackedvLLMParameter(
+            data=torch.empty(
+                num_groups,
+                output_size_per_partition // self.quant_config.pack_factor,
+                dtype=torch.int32,
+            ),
+            input_dim=0,
+            output_dim=1,
+            packed_dim=1,
+            packed_factor=self.quant_config.pack_factor,
+            weight_loader=weight_loader,
+        )
+
+        scales = GroupQuantScaleParameter(
+            data=torch.empty(
+                num_groups,
+                output_size_per_partition,
+                dtype=params_dtype,
+            ),
+            input_dim=0,
+            output_dim=1,
+            weight_loader=weight_loader,
+        )
+
+        layer.register_parameter("qweight", qweight)
+        layer.register_parameter("qzeros", qzeros)
+        layer.register_parameter("scales", scales)
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        torch.set_printoptions(profile="full", linewidth=5000, sci_mode=False)
+        packed_weight = layer.qweight.data
+        packed_zeros = layer.qzeros.data
+        group_num = packed_zeros.size(0)
+        bits = self.quant_config.weight_bits
+        pack_factor = int(self.quant_config.pack_factor)
+        input_size, packed_output_size = packed_weight.size()
+        output_size = packed_output_size * pack_factor
+        isa_hint = _get_isa_hint(layer.scales.dtype)
+        layer.isa_hint = isa_hint
+
+        interleave_map = (0, 4, 1, 5, 2, 6, 3, 7)
+        weight = unpack_cols(
+            packed_weight,
+            bits,
+            input_size,
+            output_size,
+        )
+        zeros = unpack_cols(
+            packed_zeros,
+            bits,
+            group_num,
+            output_size,
+        )
+        weight = (
+            weight.view(input_size, -1, pack_factor)[:, :, interleave_map]
+            .reshape(input_size, output_size)
+            .contiguous()
+        )
+        zeros = (
+            zeros.view(group_num, -1, pack_factor)[:, :, interleave_map]
+            .reshape(group_num, output_size)
+            .contiguous()
+        )
+
+        zeros = pack_cols(zeros, bits, group_num, output_size).contiguous()
+        # make 16 output channel as a block and transpose to
+        # the make the block contigous
+        weight = pack_cols(weight, bits, input_size, output_size)
+        weight = (
+            weight.view(input_size, -1, 16 // pack_factor)
+            .permute(1, 0, 2)
+            .reshape(-1, input_size * 16 // pack_factor)
+            .contiguous()
+        )
+        layer.qweight.data = weight
+        layer.qzeros.data = zeros
+
+    def apply(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        x = cpu_gemm_wna16(
+            input=x,
+            q_weight=layer.qweight,
+            scales=layer.scales,
+            zeros=layer.qzeros,
+            g_idx=None,
+            bias=bias,
+            pack_factor=8,
+            isa_hint=layer.isa_hint,
+        )
+        return x
+
+
+def _get_isa_hint(dtype: torch.dtype) -> str:
+    supports_amx = torch._C._cpu._is_amx_tile_supported()
+    if supports_amx and dtype in (torch.bfloat16,):
+        return "amx"
+    else:
+        return "vec"
diff --git a/vllm/model_executor/layers/quantization/ipex_quant.py b/vllm/model_executor/layers/quantization/ipex_quant.py
index 5ca9167faec80..22c4bae041a56 100644
--- a/vllm/model_executor/layers/quantization/ipex_quant.py
+++ b/vllm/model_executor/layers/quantization/ipex_quant.py
@@ -134,7 +134,7 @@ class IPEXConfig(QuantizationConfig):
     def override_quantization_method(
         cls, hf_quant_cfg, user_quant
     ) -> QuantizationMethods | None:
-        if not current_platform.is_cpu() and not current_platform.is_xpu():
+        if not current_platform.is_xpu():
             return None
 
         quant_method = hf_quant_cfg.get("quant_method", "").lower()

From 814843e021a3618f7f8e494d4f0d4fd561cf3225 Mon Sep 17 00:00:00 2001
From: Strahinja Stamenkovic <strahinja.stamenkovic@amd.com>
Date: Wed, 19 Nov 2025 04:12:31 +0100
Subject: [PATCH 567/976] Enable bitsandbytes quantization on AMD GPUs that use
 warp size 32 (#27307)

Signed-off-by: sstamenk <strahinja.stamenkovic@amd.com>
---
 tests/models/quantization/test_bitsandbytes.py | 11 +++++++----
 vllm/platforms/rocm.py                         |  3 +++
 2 files changed, 10 insertions(+), 4 deletions(-)

diff --git a/tests/models/quantization/test_bitsandbytes.py b/tests/models/quantization/test_bitsandbytes.py
index 24220978534ca..dc4b4546e451b 100644
--- a/tests/models/quantization/test_bitsandbytes.py
+++ b/tests/models/quantization/test_bitsandbytes.py
@@ -14,10 +14,13 @@ from vllm.platforms import current_platform
 from ...utils import compare_two_settings, multi_gpu_test
 from ..utils import check_embeddings_close, check_logprobs_close
 
-pytestmark = pytest.mark.skipif(
-    current_platform.is_rocm(),
-    reason="bitsandbytes quantization not supported on ROCm (CUDA-only kernels)",
-)
+if current_platform.is_rocm():
+    from vllm.platforms.rocm import on_gfx9
+
+    pytestmark = pytest.mark.skipif(
+        on_gfx9(),
+        reason="bitsandbytes not supported on gfx9 (warp size 64 limitation)",
+    )
 
 models_4bit_to_test = [
     ("facebook/opt-125m", "quantize opt model inflight"),
diff --git a/vllm/platforms/rocm.py b/vllm/platforms/rocm.py
index 788f9d69c357a..bb116792fed54 100644
--- a/vllm/platforms/rocm.py
+++ b/vllm/platforms/rocm.py
@@ -185,6 +185,9 @@ class RocmPlatform(Platform):
         "petit_nvfp4",
         "torchao",
     ]
+    # bitsandbytes not supported on gfx9 (warp size 64 limitation)
+    if not on_gfx9():
+        supported_quantization += ["bitsandbytes"]
 
     @classmethod
     def get_vit_attn_backend(

From 4c23690f43e51eccf6ce5866ac47adcf39215e4d Mon Sep 17 00:00:00 2001
From: Matthew Bonanni <mbonanni@redhat.com>
Date: Tue, 18 Nov 2025 23:06:21 -0500
Subject: [PATCH 568/976] [Attention] FlashAttention ViT support, make default
 backend (#28763)

Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>
---
 cmake/external_projects/vllm_flash_attn.cmake |  2 +-
 tests/kernels/attention/test_flash_attn.py    |  4 +--
 tests/kernels/attention/test_mha_attn.py      | 30 +------------------
 vllm/platforms/cuda.py                        | 21 ++++++-------
 vllm/v1/attention/backends/flash_attn.py      |  4 +--
 5 files changed, 15 insertions(+), 46 deletions(-)

diff --git a/cmake/external_projects/vllm_flash_attn.cmake b/cmake/external_projects/vllm_flash_attn.cmake
index 567c8959f0454..6cc5cda14c525 100644
--- a/cmake/external_projects/vllm_flash_attn.cmake
+++ b/cmake/external_projects/vllm_flash_attn.cmake
@@ -38,7 +38,7 @@ else()
   FetchContent_Declare(
           vllm-flash-attn
           GIT_REPOSITORY https://github.com/vllm-project/flash-attention.git
-          GIT_TAG 58e0626a692f09241182582659e3bf8f16472659
+          GIT_TAG 71bb26f6295449be880344b93b51791cc009237d
           GIT_PROGRESS TRUE
           # Don't share the vllm-flash-attn build between build types
           BINARY_DIR ${CMAKE_BINARY_DIR}/vllm-flash-attn
diff --git a/tests/kernels/attention/test_flash_attn.py b/tests/kernels/attention/test_flash_attn.py
index 6e5468969bf25..26b8c77ab482f 100644
--- a/tests/kernels/attention/test_flash_attn.py
+++ b/tests/kernels/attention/test_flash_attn.py
@@ -13,14 +13,14 @@ from vllm.vllm_flash_attn import (
 )
 
 NUM_HEADS = [(4, 4), (8, 2)]
-HEAD_SIZES = [128, 256]
+HEAD_SIZES = [40, 72, 80, 128, 256]
 BLOCK_SIZES = [16]
 DTYPES = [torch.bfloat16]
 QDTYPES = [None, torch.float8_e4m3fn]
 # one value large enough to test overflow in index calculation.
 # one value small enough to test the schema op check
 NUM_BLOCKS = [32768, 2048]
-SOFT_CAPS = [None, 50.0]
+SOFT_CAPS = [None]
 SLIDING_WINDOWS = [None, 256]
 
 
diff --git a/tests/kernels/attention/test_mha_attn.py b/tests/kernels/attention/test_mha_attn.py
index 183bbf3bf4e03..a878ac6396ce5 100644
--- a/tests/kernels/attention/test_mha_attn.py
+++ b/tests/kernels/attention/test_mha_attn.py
@@ -62,38 +62,10 @@ def test_mha_attn_platform(device: str):
             assert attn.attn_backend == AttentionBackendEnum.FLASH_ATTN
 
         # Test CUDA with head_size=72 (not divisible by 32)
-        # - with upstream FA not available
-        # - should use xformers
+        # - should use vLLM's FlashAttention
         with (
             patch("vllm.attention.layer.current_platform", CudaPlatform()),
             patch("vllm.model_executor.models.vision.current_platform", CudaPlatform()),
-            patch(
-                "vllm.attention.layer.check_upstream_fa_availability",
-                return_value=False,
-            ),
-        ):
-            attn = MultiHeadAttention(16, 72, scale=1)
-            assert attn.attn_backend == AttentionBackendEnum.XFORMERS
-
-        # Test CUDA with head_size=72 (not divisible by 32)
-        # - with upstream FA available
-        # - should use upstream FA
-        with (
-            patch("vllm.attention.layer.current_platform", CudaPlatform()),
-            patch("vllm.model_executor.models.vision.current_platform", CudaPlatform()),
-            patch(
-                "vllm.attention.layer.check_upstream_fa_availability", return_value=True
-            ),
-            patch.dict(
-                "sys.modules",
-                {
-                    "flash_attn": type(
-                        "MockFlashAttn",
-                        (),
-                        {"flash_attn_varlen_func": lambda *args, **kwargs: None},
-                    )()
-                },
-            ),
         ):
             attn = MultiHeadAttention(16, 72, scale=1)
             assert attn.attn_backend == AttentionBackendEnum.FLASH_ATTN
diff --git a/vllm/platforms/cuda.py b/vllm/platforms/cuda.py
index 2e4dd8bb808b4..f9bf242b7194e 100644
--- a/vllm/platforms/cuda.py
+++ b/vllm/platforms/cuda.py
@@ -267,24 +267,21 @@ class CudaPlatformBase(Platform):
     ) -> "AttentionBackendEnum":
         from vllm.attention.backends.registry import AttentionBackendEnum
 
-        # For Blackwell GPUs, force TORCH_SDPA for now.
-        # See https://github.com/facebookresearch/xformers/issues/1317#issuecomment-3199392579 # noqa: E501
-        if cls.has_device_capability(100):
-            return AttentionBackendEnum.TORCH_SDPA
-
-        if dtype not in (torch.float16, torch.bfloat16):
-            return AttentionBackendEnum.XFORMERS
-
-        if cls.has_device_capability(80):
+        # Try FlashAttention first
+        try:
             backend_class = AttentionBackendEnum.FLASH_ATTN.get_class()
             if backend_class.supports_head_size(
                 head_size
             ) and backend_class.supports_dtype(dtype):
                 return AttentionBackendEnum.FLASH_ATTN
-            else:
-                return AttentionBackendEnum.XFORMERS
+        except ImportError:
+            pass
+
+        if cls.has_device_capability(100):
+            # xFormers doesn't support Blackwell, fall back to SDPA
+            # See https://github.com/facebookresearch/xformers/issues/1317#issuecomment-3199392579 # noqa: E501
+            return AttentionBackendEnum.TORCH_SDPA
         else:
-            # Fallback for Volta/Turing GPUs or FA not supported
             return AttentionBackendEnum.XFORMERS
 
     @classmethod
diff --git a/vllm/v1/attention/backends/flash_attn.py b/vllm/v1/attention/backends/flash_attn.py
index a5d4435000d4d..fdc99a0df1c8a 100755
--- a/vllm/v1/attention/backends/flash_attn.py
+++ b/vllm/v1/attention/backends/flash_attn.py
@@ -119,8 +119,8 @@ class FlashAttentionBackend(AttentionBackend):
             raise ValueError(f"Unrecognized FP8 dtype: {kv_cache_dtype}")
 
     @classmethod
-    def get_supported_head_sizes(cls) -> list[int]:
-        return [32, 64, 96, 128, 160, 192, 224, 256]
+    def supports_head_size(cls, head_size: int) -> bool:
+        return head_size % 8 == 0 and head_size <= 256
 
     @classmethod
     def supports_kv_cache_dtype(cls, kv_cache_dtype: CacheDType | None) -> bool:

From 468a8d72bac181c1499320478940cec64363e107 Mon Sep 17 00:00:00 2001
From: Xin Yang <105740670+xyang16@users.noreply.github.com>
Date: Tue, 18 Nov 2025 21:05:22 -0800
Subject: [PATCH 569/976] [Bugfix] Fix FusedMoEModularKernel for triton backend
 (#28913)

Signed-off-by: Xin Yang <xyangx@amazon.com>
---
 vllm/model_executor/layers/quantization/mxfp4.py | 10 ++++++----
 1 file changed, 6 insertions(+), 4 deletions(-)

diff --git a/vllm/model_executor/layers/quantization/mxfp4.py b/vllm/model_executor/layers/quantization/mxfp4.py
index b95d1a6b3a1f5..66ae2e94c60a5 100644
--- a/vllm/model_executor/layers/quantization/mxfp4.py
+++ b/vllm/model_executor/layers/quantization/mxfp4.py
@@ -755,8 +755,10 @@ class Mxfp4MoEMethod(FusedMoEMethodBase):
 
             self.w13_weight = w13_weight
             self.w2_weight = w2_weight
-            layer.w13_weight = Parameter(w13_weight.storage.data, requires_grad=False)
-            layer.w2_weight = Parameter(w2_weight.storage.data, requires_grad=False)
+            del layer.w13_weight
+            del layer.w2_weight
+            layer.w13_weight = w13_weight
+            layer.w2_weight = w2_weight
         else:
             raise ValueError(f"Unsupported backend: {self.mxfp4_backend}")
 
@@ -1065,8 +1067,8 @@ class Mxfp4MoEMethod(FusedMoEMethodBase):
 
             return triton_kernel_moe_forward(
                 hidden_states=x,
-                w1=self.w13_weight,
-                w2=self.w2_weight,
+                w1=layer.w13_weight,
+                w2=layer.w2_weight,
                 gating_output=router_logits,
                 topk=top_k,
                 renormalize=renormalize,

From 73ff872db0d4e3f5e133d5d2a5307248619d93a6 Mon Sep 17 00:00:00 2001
From: Gleb Kurchanov <nepherpitou@gmail.com>
Date: Wed, 19 Nov 2025 08:21:02 +0300
Subject: [PATCH 570/976] [Bugfix] Fix typo in Qwen3 Next model executor
 (#28960)

Signed-off-by: Gleb Kurchanov <nepherpitou@gmail.com>
---
 vllm/model_executor/models/qwen3_next.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/vllm/model_executor/models/qwen3_next.py b/vllm/model_executor/models/qwen3_next.py
index 86508a7c64317..0415c8e00fdfa 100644
--- a/vllm/model_executor/models/qwen3_next.py
+++ b/vllm/model_executor/models/qwen3_next.py
@@ -1154,8 +1154,8 @@ class QwenNextMixtureOfExperts(MixtureOfExperts):
                 example_moe = layer.mlp
                 self.moe_layers.append(layer.mlp.experts)
 
-            if example_moe is None:
-                raise RuntimeError("No Qwen3Next layer found in the model.layers.")
+        if example_moe is None:
+            raise RuntimeError("No Qwen3Next layer found in the model.layers.")
 
         # Set MoE hyperparameters
         self.num_moe_layers = len(self.moe_layers)

From 6a25ea5f0ea193e35b5a83cb0285c48964bc9eb1 Mon Sep 17 00:00:00 2001
From: Uranus <109661872+UranusSeven@users.noreply.github.com>
Date: Wed, 19 Nov 2025 13:30:08 +0800
Subject: [PATCH 571/976] [Docs] Update oneshot imports (#28188)

Signed-off-by: UranusSeven <109661872+UranusSeven@users.noreply.github.com>
---
 docs/features/quantization/fp8.md               | 2 +-
 docs/features/quantization/int4.md              | 2 +-
 docs/features/quantization/int8.md              | 2 +-
 docs/features/quantization/quantized_kvcache.md | 2 +-
 4 files changed, 4 insertions(+), 4 deletions(-)

diff --git a/docs/features/quantization/fp8.md b/docs/features/quantization/fp8.md
index 0c5111fb8af0d..d4a6176b236f1 100644
--- a/docs/features/quantization/fp8.md
+++ b/docs/features/quantization/fp8.md
@@ -60,7 +60,7 @@ Since simple RTN does not require data for weight quantization and the activatio
 ??? code
 
     ```python
-    from llmcompressor.transformers import oneshot
+    from llmcompressor import oneshot
     from llmcompressor.modifiers.quantization import QuantizationModifier
 
     # Configure the simple PTQ quantization
diff --git a/docs/features/quantization/int4.md b/docs/features/quantization/int4.md
index 035e7ea291f9e..9752039097d63 100644
--- a/docs/features/quantization/int4.md
+++ b/docs/features/quantization/int4.md
@@ -80,7 +80,7 @@ Now, apply the quantization algorithms:
 ??? code
 
     ```python
-    from llmcompressor.transformers import oneshot
+    from llmcompressor import oneshot
     from llmcompressor.modifiers.quantization import GPTQModifier
     from llmcompressor.modifiers.smoothquant import SmoothQuantModifier
 
diff --git a/docs/features/quantization/int8.md b/docs/features/quantization/int8.md
index ec8a77f74ffef..701ca6378cb16 100644
--- a/docs/features/quantization/int8.md
+++ b/docs/features/quantization/int8.md
@@ -87,7 +87,7 @@ Now, apply the quantization algorithms:
 ??? code
 
     ```python
-    from llmcompressor.transformers import oneshot
+    from llmcompressor import oneshot
     from llmcompressor.modifiers.quantization import GPTQModifier
     from llmcompressor.modifiers.smoothquant import SmoothQuantModifier
 
diff --git a/docs/features/quantization/quantized_kvcache.md b/docs/features/quantization/quantized_kvcache.md
index 56cf057678be6..d26a5e217f314 100644
--- a/docs/features/quantization/quantized_kvcache.md
+++ b/docs/features/quantization/quantized_kvcache.md
@@ -78,7 +78,7 @@ Here's a complete example using `meta-llama/Llama-3.1-8B-Instruct` (most models
     ```python
     from datasets import load_dataset
     from transformers import AutoModelForCausalLM, AutoTokenizer
-    from llmcompressor.transformers import oneshot
+    from llmcompressor import oneshot
 
     # Select model and load it
     MODEL_ID = "meta-llama/Llama-3.1-8B-Instruct"

From 3d4e7d34be856cc4f54033e6a019059afacb5e76 Mon Sep 17 00:00:00 2001
From: Lukas Geiger <lukas.geiger94@gmail.com>
Date: Wed, 19 Nov 2025 05:43:01 +0000
Subject: [PATCH 572/976] [Model][QwenVL] Simplify cos/sin rotary embedding
 indexing  (#28962)

Signed-off-by: Lukas Geiger <lukas.geiger94@gmail.com>
---
 vllm/model_executor/models/glm4_1v.py           |  9 ++-------
 vllm/model_executor/models/qwen2_5_vl.py        |  9 ++-------
 vllm/model_executor/models/qwen2_vl.py          |  9 ++-------
 .../models/qwen3_omni_moe_thinker.py            |  9 ++-------
 vllm/model_executor/models/qwen3_vl.py          | 17 +++--------------
 5 files changed, 11 insertions(+), 42 deletions(-)

diff --git a/vllm/model_executor/models/glm4_1v.py b/vllm/model_executor/models/glm4_1v.py
index 2c2f45c2453ee..7a4fee76ae6b3 100644
--- a/vllm/model_executor/models/glm4_1v.py
+++ b/vllm/model_executor/models/glm4_1v.py
@@ -797,13 +797,8 @@ class Glm4vVisionTransformer(nn.Module):
         # Use pre-computed cos_sin_cache from RotaryEmbedding
         cos, sin = self.rotary_pos_emb.get_cos_sin(max_grid_size)
 
-        cos_h = cos[pos_ids[:, 0]]  # (num_tokens, rotary_dim // 2)
-        cos_w = cos[pos_ids[:, 1]]
-        sin_h = sin[pos_ids[:, 0]]
-        sin_w = sin[pos_ids[:, 1]]
-
-        cos_combined = torch.cat([cos_h, cos_w], dim=-1)
-        sin_combined = torch.cat([sin_h, sin_w], dim=-1)
+        cos_combined = cos[pos_ids].flatten(1)
+        sin_combined = sin[pos_ids].flatten(1)
         return cos_combined, sin_combined, pos_ids
 
     def compute_attn_mask_seqlen(
diff --git a/vllm/model_executor/models/qwen2_5_vl.py b/vllm/model_executor/models/qwen2_5_vl.py
index 2e4fd9645d88f..5b5d50ec8935a 100644
--- a/vllm/model_executor/models/qwen2_5_vl.py
+++ b/vllm/model_executor/models/qwen2_5_vl.py
@@ -738,13 +738,8 @@ class Qwen2_5_VisionTransformer(nn.Module):
         # Use pre-computed cos_sin_cache from RotaryEmbedding
         cos, sin = self.rotary_pos_emb.get_cos_sin(max_size)
 
-        cos_h = cos[pos_ids[:, 0]]  # (num_tokens, rotary_dim // 2)
-        cos_w = cos[pos_ids[:, 1]]
-        sin_h = sin[pos_ids[:, 0]]
-        sin_w = sin[pos_ids[:, 1]]
-
-        cos_combined = torch.cat([cos_h, cos_w], dim=-1)
-        sin_combined = torch.cat([sin_h, sin_w], dim=-1)
+        cos_combined = cos[pos_ids].flatten(1)
+        sin_combined = sin[pos_ids].flatten(1)
 
         cos_combined = cos_combined.reshape(
             cos_combined.shape[0] // self.spatial_merge_unit,
diff --git a/vllm/model_executor/models/qwen2_vl.py b/vllm/model_executor/models/qwen2_vl.py
index 53df5972a8fe1..cda8eaf5377f1 100644
--- a/vllm/model_executor/models/qwen2_vl.py
+++ b/vllm/model_executor/models/qwen2_vl.py
@@ -724,13 +724,8 @@ class Qwen2VisionTransformer(nn.Module):
         # Use pre-computed cos_sin_cache from RotaryEmbedding
         cos, sin = self.rotary_pos_emb.get_cos_sin(max_grid_size)
 
-        cos_h = cos[pos_ids[:, 0]]  # (num_tokens, rotary_dim // 2)
-        cos_w = cos[pos_ids[:, 1]]
-        sin_h = sin[pos_ids[:, 0]]
-        sin_w = sin[pos_ids[:, 1]]
-
-        cos_combined = torch.cat([cos_h, cos_w], dim=-1)
-        sin_combined = torch.cat([sin_h, sin_w], dim=-1)
+        cos_combined = cos[pos_ids].flatten(1)
+        sin_combined = sin[pos_ids].flatten(1)
         return cos_combined, sin_combined
 
     def compute_attn_mask_seqlen(
diff --git a/vllm/model_executor/models/qwen3_omni_moe_thinker.py b/vllm/model_executor/models/qwen3_omni_moe_thinker.py
index 8274b92138f78..d2fd74a5e41ad 100755
--- a/vllm/model_executor/models/qwen3_omni_moe_thinker.py
+++ b/vllm/model_executor/models/qwen3_omni_moe_thinker.py
@@ -428,13 +428,8 @@ class Qwen3Omni_VisionTransformer(nn.Module):
         # Use pre-computed cos_sin_cache from RotaryEmbedding
         cos, sin = self.rotary_pos_emb.get_cos_sin(max_grid_size)
 
-        cos_h = cos[pos_ids[:, 0]]  # (num_tokens, rotary_dim // 2)
-        cos_w = cos[pos_ids[:, 1]]
-        sin_h = sin[pos_ids[:, 0]]
-        sin_w = sin[pos_ids[:, 1]]
-
-        cos_combined = torch.cat([cos_h, cos_w], dim=-1)
-        sin_combined = torch.cat([sin_h, sin_w], dim=-1)
+        cos_combined = cos[pos_ids].flatten(1)
+        sin_combined = sin[pos_ids].flatten(1)
 
         return cos_combined, sin_combined
 
diff --git a/vllm/model_executor/models/qwen3_vl.py b/vllm/model_executor/models/qwen3_vl.py
index 99a4007ef7f23..0c546309400b7 100644
--- a/vllm/model_executor/models/qwen3_vl.py
+++ b/vllm/model_executor/models/qwen3_vl.py
@@ -459,18 +459,13 @@ class Qwen3_VisionTransformer(nn.Module):
             else self.rot_pos_ids(h, w, self.spatial_merge_size).repeat(t, 1)
             for t, h, w in grid_thw
         ]
-        pos_ids = torch.cat(pos_ids, dim=0)
+        pos_ids = torch.cat(pos_ids, dim=0).to(self.device, non_blocking=True)
 
         # Use pre-computed cos_sin_cache from RotaryEmbedding
         cos, sin = self.rotary_pos_emb.get_cos_sin(max_grid_size)
 
-        cos_h = cos[pos_ids[:, 0]]  # (num_tokens, rotary_dim // 2)
-        cos_w = cos[pos_ids[:, 1]]
-        sin_h = sin[pos_ids[:, 0]]
-        sin_w = sin[pos_ids[:, 1]]
-
-        cos_combined = torch.cat([cos_h, cos_w], dim=-1)
-        sin_combined = torch.cat([sin_h, sin_w], dim=-1)
+        cos_combined = cos[pos_ids].flatten(1)
+        sin_combined = sin[pos_ids].flatten(1)
 
         return cos_combined, sin_combined
 
@@ -566,12 +561,6 @@ class Qwen3_VisionTransformer(nn.Module):
         pos_embeds = self.fast_pos_embed_interpolate(grid_thw_list)
         hidden_states = hidden_states + pos_embeds
         rotary_pos_emb_cos, rotary_pos_emb_sin = self.rot_pos_emb(grid_thw_list)
-        rotary_pos_emb_cos = rotary_pos_emb_cos.to(
-            hidden_states.device, non_blocking=True
-        )
-        rotary_pos_emb_sin = rotary_pos_emb_sin.to(
-            hidden_states.device, non_blocking=True
-        )
 
         cu_seqlens = torch.repeat_interleave(
             grid_thw[:, 1] * grid_thw[:, 2], grid_thw[:, 0]

From 71d0ae1c54543689ea7541aa20b9522982b0815e Mon Sep 17 00:00:00 2001
From: Roman Solomatin <samoed.roman@gmail.com>
Date: Wed, 19 Nov 2025 09:28:40 +0300
Subject: [PATCH 573/976] [Misc] Update embedding/cross encoder tests to use
 `mteb` v2 (#27329)

Signed-off-by: Roman Solomatin <36135455+Samoed@users.noreply.github.com>
Signed-off-by: wang.yuqi <noooop@126.com>
Signed-off-by: wang.yuqi <yuqi.wang@daocloud.io>
Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>
Co-authored-by: Isotr0py <mozf@mail2.sysu.edu.cn>
Co-authored-by: wang.yuqi <noooop@126.com>
Co-authored-by: wang.yuqi <yuqi.wang@daocloud.io>
---
 requirements/test.in                          |   2 +-
 requirements/test.txt                         |   4 +-
 .../language/pooling_mteb_test/mteb_utils.py  | 181 +++++++++++-------
 .../test_bge_reranker_v2_gemma.py             |  31 ++-
 .../pooling_mteb_test/test_mxbai_rerank.py    |   5 +-
 .../pooling_mteb_test/test_qwen3_reranker.py  |   5 +-
 6 files changed, 144 insertions(+), 84 deletions(-)

diff --git a/requirements/test.in b/requirements/test.in
index 30d97e9b9c7d0..05f6bcca5c2c4 100644
--- a/requirements/test.in
+++ b/requirements/test.in
@@ -36,7 +36,7 @@ opencv-python-headless >= 4.11.0 # required for video test
 datamodel_code_generator # required for minicpm3 test
 # TODO: Use lm-eval[api]==0.4.10 once released
 lm-eval[api] @ git+https://github.com/EleutherAI/lm-evaluation-harness.git@206b7722158f58c35b7ffcd53b035fdbdda5126d # required for model evaluation test
-mteb[bm25s]>=1.38.11, <2 # required for mteb test
+mteb[bm25s]>=2, <3 # required for mteb test
 transformers==4.57.1
 tokenizers==0.22.0
 schemathesis>=3.39.15 # Required for openai schema test.
diff --git a/requirements/test.txt b/requirements/test.txt
index 3263b74c08797..bcd511660f85e 100644
--- a/requirements/test.txt
+++ b/requirements/test.txt
@@ -201,8 +201,6 @@ email-validator==2.2.0
     # via pydantic
 encodec==0.1.1
     # via vocos
-eval-type-backport==0.2.2
-    # via mteb
 evaluate==0.4.3
     # via lm-eval
 fastapi==0.116.1
@@ -490,7 +488,7 @@ msgpack==1.1.0
     # via
     #   librosa
     #   ray
-mteb==1.38.11
+mteb==2.1.2
     # via -r requirements/test.in
 multidict==6.1.0
     # via
diff --git a/tests/models/language/pooling_mteb_test/mteb_utils.py b/tests/models/language/pooling_mteb_test/mteb_utils.py
index 0384ff82790f0..189cdbae99dcd 100644
--- a/tests/models/language/pooling_mteb_test/mteb_utils.py
+++ b/tests/models/language/pooling_mteb_test/mteb_utils.py
@@ -2,12 +2,14 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
 import tempfile
-from collections.abc import Sequence
 
 import mteb
 import numpy as np
 import requests
 import torch
+from mteb.models import ModelMeta
+from mteb.types import Array
+from torch.utils.data import DataLoader
 
 import tests.ci_envs as ci_envs
 from tests.models.utils import (
@@ -27,24 +29,47 @@ MTEB_EMBED_TOL = 1e-4
 
 # See #19344
 MTEB_RERANK_TASKS = ["NFCorpus"]
-MTEB_RERANK_LANGS = ["en"]
+MTEB_RERANK_LANGS = ["eng"]
 MTEB_RERANK_TOL = 2e-3
 
+_empty_model_meta = ModelMeta(
+    loader=None,
+    name="vllm/model",
+    revision="1",
+    release_date=None,
+    languages=None,
+    framework=[],
+    similarity_fn_name=None,
+    n_parameters=None,
+    memory_usage_mb=None,
+    max_tokens=None,
+    embed_dim=None,
+    license=None,
+    open_weights=None,
+    public_training_code=None,
+    public_training_data=None,
+    use_instructions=None,
+    training_datasets=None,
+    modalities=["text"],  # 'image' can be added to evaluate multimodal models
+)
+
+
+class VllmMtebEncoder(mteb.EncoderProtocol):
+    mteb_model_meta = _empty_model_meta
 
-class VllmMtebEncoder(mteb.Encoder):
     def __init__(self, vllm_model):
-        super().__init__()
         self.llm = vllm_model
         self.rng = np.random.default_rng(seed=42)
 
     def encode(
         self,
-        sentences: Sequence[str],
+        inputs: DataLoader[mteb.types.BatchedInput],
         *args,
         **kwargs,
     ) -> np.ndarray:
         # Hoping to discover potential scheduling
         # issues by randomizing the order.
+        sentences = [text for batch in inputs for text in batch["text"]]
         r = self.rng.permutation(len(sentences))
         sentences = [sentences[i] for i in r]
         outputs = self.llm.embed(sentences, use_tqdm=False)
@@ -52,36 +77,70 @@ class VllmMtebEncoder(mteb.Encoder):
         embeds = embeds[np.argsort(r)]
         return embeds
 
+    def similarity(
+        self,
+        embeddings1: np.ndarray,
+        embeddings2: np.ndarray,
+    ) -> np.ndarray:
+        # Cosine similarity
+        norm1 = np.linalg.norm(embeddings1, axis=1, keepdims=True)
+        norm2 = np.linalg.norm(embeddings2, axis=1, keepdims=True)
+        sim = np.dot(embeddings1, embeddings2.T) / (norm1 * norm2.T)
+        return sim
+
+    def similarity_pairwise(
+        self,
+        embeddings1: Array,
+        embeddings2: Array,
+    ) -> Array:
+        # Cosine similarity
+        norm1 = np.linalg.norm(embeddings1, axis=1, keepdims=True)
+        norm2 = np.linalg.norm(embeddings2, axis=1, keepdims=True)
+        sim = np.sum(embeddings1 * embeddings2, axis=1) / (
+            norm1.flatten() * norm2.flatten()
+        )
+        return sim
+
+
+class VllmMtebCrossEncoder(mteb.CrossEncoderProtocol):
+    mteb_model_meta = _empty_model_meta
+
+    def __init__(self, vllm_model):
+        self.llm = vllm_model
+        self.rng = np.random.default_rng(seed=42)
+
     def predict(
         self,
-        sentences: list[tuple[str, str, str | None]],  # query, corpus, prompt
+        inputs1: DataLoader[mteb.types.BatchedInput],
+        inputs2: DataLoader[mteb.types.BatchedInput],
         *args,
         **kwargs,
     ) -> np.ndarray:
-        r = self.rng.permutation(len(sentences))
-        sentences = [sentences[i] for i in r]
-
-        queries = [s[0] for s in sentences]
-        corpus = [s[1] for s in sentences]
+        queries = [text for batch in inputs1 for text in batch["text"]]
+        corpus = [text for batch in inputs2 for text in batch["text"]]
 
         outputs = self.llm.score(
             queries, corpus, truncate_prompt_tokens=-1, use_tqdm=False
         )
         scores = np.array(outputs)
-        scores = scores[np.argsort(r)]
         return scores
 
 
-class OpenAIClientMtebEncoder(mteb.Encoder):
+class OpenAIClientMtebEncoder(VllmMtebEncoder):
     def __init__(self, model_name: str, client):
-        super().__init__()
         self.model_name = model_name
         self.client = client
         self.rng = np.random.default_rng(seed=42)
 
-    def encode(self, sentences: Sequence[str], *args, **kwargs) -> np.ndarray:
+    def encode(
+        self,
+        inputs: DataLoader[mteb.types.BatchedInput],
+        *args,
+        **kwargs,
+    ) -> np.ndarray:
         # Hoping to discover potential scheduling
         # issues by randomizing the order.
+        sentences = [text for batch in inputs for text in batch["text"]]
         r = self.rng.permutation(len(sentences))
         sentences = [sentences[i] for i in r]
 
@@ -94,28 +153,29 @@ class OpenAIClientMtebEncoder(mteb.Encoder):
         return embeds
 
 
-class ScoreClientMtebEncoder(mteb.Encoder):
+class ScoreClientMtebEncoder(mteb.CrossEncoderProtocol):
+    mteb_model_meta = _empty_model_meta
+
     def __init__(self, model_name: str, url):
-        super().__init__()
         self.model_name = model_name
         self.url = url
         self.rng = np.random.default_rng(seed=42)
 
     def predict(
         self,
-        sentences: list[tuple[str, str, str | None]],  # query, corpus, prompt
+        inputs1: DataLoader[mteb.types.BatchedInput],
+        inputs2: DataLoader[mteb.types.BatchedInput],
         *args,
         **kwargs,
     ) -> np.ndarray:
-        r = self.rng.permutation(len(sentences))
-        sentences = [sentences[i] for i in r]
+        queries = [text for batch in inputs1 for text in batch["text"]]
+        full_corpus = [text for batch in inputs2 for text in batch["text"]]
 
         outputs = []
-        for query, corpus, prompt in sentences:
+        for query, corpus in zip(queries, full_corpus):
             outputs.append(self.get_score(query, corpus))
 
         scores = np.array(outputs)
-        scores = scores[np.argsort(r)]
         return scores
 
     def get_score(self, query, corpus):
@@ -145,16 +205,13 @@ class RerankClientMtebEncoder(ScoreClientMtebEncoder):
         return response["results"][0]["relevance_score"]
 
 
-def run_mteb_embed_task(encoder, tasks):
+def run_mteb_embed_task(encoder: mteb.EncoderProtocol, tasks):
     tasks = mteb.get_tasks(tasks=tasks)
-    evaluation = mteb.MTEB(tasks=tasks)
-    results = evaluation.run(
+    results = mteb.evaluate(
         encoder,
-        verbosity=0,
-        output_folder=None,
-        encode_kwargs={
-            "show_progress_bar": False,
-        },
+        tasks,
+        cache=None,
+        show_progress_bar=False,
     )
 
     main_score = results[0].scores["test"][0]["main_score"]
@@ -244,33 +301,39 @@ def mteb_test_embed_models(
     assert st_main_score - vllm_main_score < atol
 
 
-def run_mteb_rerank(cross_encoder, tasks, languages):
-    with tempfile.TemporaryDirectory() as results_folder:
+def run_mteb_rerank(cross_encoder: mteb.CrossEncoderProtocol, tasks, languages):
+    with tempfile.TemporaryDirectory() as prediction_folder:
         bm25s = mteb.get_model("bm25s")
-        tasks = mteb.get_tasks(tasks=tasks, languages=languages)
-
-        subset = "default"
         eval_splits = ["test"]
 
-        evaluation = mteb.MTEB(tasks=tasks)
-        evaluation.run(
-            bm25s,
-            verbosity=0,
-            eval_splits=eval_splits,
-            save_predictions=True,
-            output_folder=f"{results_folder}/stage1",
-            encode_kwargs={"show_progress_bar": False},
+        mteb_tasks: list[mteb.abstasks.AbsTaskRetrieval] = mteb.get_tasks(
+            tasks=tasks, languages=languages, eval_splits=eval_splits
         )
 
-        results = evaluation.run(
+        mteb.evaluate(
+            bm25s,
+            mteb_tasks,
+            prediction_folder=prediction_folder,
+            show_progress_bar=False,
+            # don't save results for test runs
+            cache=None,
+            overwrite_strategy="always",
+        )
+
+        second_stage_tasks = []
+        for task in mteb_tasks:
+            second_stage_tasks.append(
+                task.convert_to_reranking(
+                    prediction_folder,
+                    top_k=10,
+                )
+            )
+
+        results = mteb.evaluate(
             cross_encoder,
-            verbosity=0,
-            eval_splits=eval_splits,
-            top_k=10,
-            save_predictions=True,
-            output_folder=f"{results_folder}/stage2",
-            previous_results=f"{results_folder}/stage1/NFCorpus_{subset}_predictions.json",
-            encode_kwargs={"show_progress_bar": False},
+            second_stage_tasks,
+            show_progress_bar=False,
+            cache=None,
         )
         main_score = results[0].scores["test"][0]["main_score"]
     return main_score
@@ -280,20 +343,6 @@ def mteb_test_rerank_models_hf(
     hf_runner, model_name, hf_dtype="float32", hf_model_callback=None
 ):
     with hf_runner(model_name, is_cross_encoder=True, dtype=hf_dtype) as hf_model:
-        original_predict = hf_model.predict
-
-        def _predict(
-            sentences: list[tuple[str, str, str | None]],  # query, corpus, prompt
-            *args,
-            **kwargs,
-        ):
-            # vllm and st both remove the prompt, fair comparison.
-            prompts = [(s[0], s[1]) for s in sentences]
-            return original_predict(prompts, *args, **kwargs, batch_size=8)
-
-        hf_model.predict = _predict
-        hf_model.original_predict = original_predict
-
         if hf_model_callback is not None:
             hf_model_callback(hf_model)
 
@@ -310,7 +359,7 @@ def mteb_test_rerank_models(
     model_info: RerankModelInfo,
     vllm_extra_kwargs=None,
     hf_model_callback=None,
-    vllm_mteb_encoder=VllmMtebEncoder,
+    vllm_mteb_encoder=VllmMtebCrossEncoder,
     atol=MTEB_RERANK_TOL,
 ):
     vllm_extra_kwargs = get_vllm_extra_kwargs(model_info, vllm_extra_kwargs)
diff --git a/tests/models/language/pooling_mteb_test/test_bge_reranker_v2_gemma.py b/tests/models/language/pooling_mteb_test/test_bge_reranker_v2_gemma.py
index 2927a37111364..6b2e469644926 100644
--- a/tests/models/language/pooling_mteb_test/test_bge_reranker_v2_gemma.py
+++ b/tests/models/language/pooling_mteb_test/test_bge_reranker_v2_gemma.py
@@ -2,13 +2,15 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 from typing import Any
 
+import mteb
 import numpy as np
 import pytest
 import torch
+from torch.utils.data import DataLoader
 
 from tests.conftest import HfRunner
 from tests.models.language.pooling_mteb_test.mteb_utils import (
-    VllmMtebEncoder,
+    VllmMtebCrossEncoder,
     mteb_test_rerank_models,
 )
 from tests.models.utils import LASTPoolingRerankModelInfo, RerankModelInfo
@@ -103,7 +105,7 @@ class GemmaRerankerHfRunner(HfRunner):
         return torch.Tensor(scores)
 
 
-class GemmaMtebEncoder(VllmMtebEncoder):
+class GemmaMtebEncoder(VllmMtebCrossEncoder):
     def __init__(self, *args, **kwargs):
         super().__init__(*args, **kwargs)
         self.query_template = "A: {query}\n"
@@ -111,17 +113,26 @@ class GemmaMtebEncoder(VllmMtebEncoder):
 
     def predict(
         self,
-        sentences: list[tuple[str, str, str | None]],  # query, corpus, prompt
+        inputs1: DataLoader[mteb.types.BatchedInput],
+        inputs2: DataLoader[mteb.types.BatchedInput],
         *args,
         **kwargs,
     ) -> np.ndarray:
-        _sentences = []
-        for query, corpus, prompt in sentences:
-            query = self.query_template.format(query=query)
-            corpus = self.document_template.format(doc=corpus, prompt=PROMPT)
-            _sentences.append((query, corpus, prompt))
-
-        return super().predict(_sentences, *args, **kwargs)
+        queries = [
+            self.query_template.format(query=text)
+            for batch in inputs1
+            for text in batch["text"]
+        ]
+        corpus = [
+            self.document_template.format(doc=text, prompt=PROMPT)
+            for batch in inputs2
+            for text in batch["text"]
+        ]
+        outputs = self.llm.score(
+            queries, corpus, truncate_prompt_tokens=-1, use_tqdm=False
+        )
+        scores = np.array(outputs)
+        return scores
 
 
 @pytest.mark.parametrize("model_info", RERANK_MODELS)
diff --git a/tests/models/language/pooling_mteb_test/test_mxbai_rerank.py b/tests/models/language/pooling_mteb_test/test_mxbai_rerank.py
index fd04dc1990238..a6f2a89b268f1 100644
--- a/tests/models/language/pooling_mteb_test/test_mxbai_rerank.py
+++ b/tests/models/language/pooling_mteb_test/test_mxbai_rerank.py
@@ -70,8 +70,9 @@ class MxbaiRerankerHfRunner(HfRunner):
             return scores
 
         scores = []
-        for prompt in prompts:
-            inputs = process_inputs([prompt])
+        for query, doc, *_ in prompts:
+            pairs = [(query, doc)]
+            inputs = process_inputs(pairs)
             score = compute_logits(inputs)
             scores.append(score[0].item())
         return torch.Tensor(scores)
diff --git a/tests/models/language/pooling_mteb_test/test_qwen3_reranker.py b/tests/models/language/pooling_mteb_test/test_qwen3_reranker.py
index 00e99f44cfdb1..9a1be6c0be1d6 100644
--- a/tests/models/language/pooling_mteb_test/test_qwen3_reranker.py
+++ b/tests/models/language/pooling_mteb_test/test_qwen3_reranker.py
@@ -72,8 +72,9 @@ class Qwen3RerankerHfRunner(HfRunner):
             return scores
 
         scores = []
-        for prompt in prompts:
-            inputs = process_inputs([prompt])
+        for query, doc, *_ in prompts:
+            pairs = [(query, doc)]
+            inputs = process_inputs(pairs)
             score = compute_logits(inputs)
             scores.append(score[0].item())
         return torch.Tensor(scores)

From a4511e38db375a85b4dd784c2c38528747288f46 Mon Sep 17 00:00:00 2001
From: Michael Goin <mgoin64@gmail.com>
Date: Wed, 19 Nov 2025 01:46:32 -0500
Subject: [PATCH 574/976] Speed up macOS smoke test (#28954)

Signed-off-by: Michael Goin <mgoin64@gmail.com>
Signed-off-by: mgoin <mgoin64@gmail.com>
---
 .github/workflows/macos-smoke-test.yml | 7 +++----
 1 file changed, 3 insertions(+), 4 deletions(-)

diff --git a/.github/workflows/macos-smoke-test.yml b/.github/workflows/macos-smoke-test.yml
index 42b05ecd5ac06..a183033c9adde 100644
--- a/.github/workflows/macos-smoke-test.yml
+++ b/.github/workflows/macos-smoke-test.yml
@@ -9,7 +9,7 @@ on:
 jobs:
   macos-m1-smoke-test:
     runs-on: macos-latest
-    timeout-minutes: 20
+    timeout-minutes: 30
 
     steps:
       - uses: actions/checkout@v4
@@ -37,15 +37,14 @@ jobs:
       - name: Verify installation
         run: |
           python -c "import vllm; print(f'vLLM version: {vllm.__version__}')"
-          python -c "import torch; print(f'PyTorch: {torch.__version__}')"
 
       - name: Smoke test vllm serve
-        timeout-minutes: 10
         run: |
           # Start server in background
           vllm serve Qwen/Qwen3-0.6B \
-            --max-model-len=2048 \
+            --max-model-len=2K \
             --load-format=dummy \
+            --hf-overrides '{"num_hidden_layers": 2}' \
             --enforce-eager \
             --port 8000 &
 

From 7ed27f3cb55e3f64614300ec7acde1b382a48541 Mon Sep 17 00:00:00 2001
From: Didier Durand <2927957+didier-durand@users.noreply.github.com>
Date: Wed, 19 Nov 2025 07:52:30 +0100
Subject: [PATCH 575/976] [Doc]: fix typos in various files (#28945)

Signed-off-by: Didier Durand <durand.didier@gmail.com>
---
 docs/design/moe_kernel_features.md                   | 4 ++--
 docs/design/plugin_system.md                         | 2 +-
 docs/features/quantization/quark.md                  | 2 +-
 examples/online_serving/prometheus_grafana/README.md | 2 +-
 vllm/engine/arg_utils.py                             | 2 +-
 vllm/envs.py                                         | 2 +-
 6 files changed, 7 insertions(+), 7 deletions(-)

diff --git a/docs/design/moe_kernel_features.md b/docs/design/moe_kernel_features.md
index 7663b82266f0b..36ae9506b65fb 100644
--- a/docs/design/moe_kernel_features.md
+++ b/docs/design/moe_kernel_features.md
@@ -4,7 +4,7 @@ The purpose of this document is to provide an overview of the various MoE kernel
 
 ## Fused MoE Modular All2All backends
 
-There are a number of all2all communication backends that are used to implement expert parallelism (EP) for the `FusedMoE` layer. The different `FusedMoEPrepareAndFinalize` sub-classes provide an interface for each all2all backend.
+There are a number of all2all communication backends that are used to implement expert parallelism (EP) for the `FusedMoE` layer. The different `FusedMoEPrepareAndFinalize` subclasses provide an interface for each all2all backend.
 
 The following table describes the relevant features of each backend, i.e. activation format, supported quantization schemes and async support.
 
@@ -68,7 +68,7 @@ Modular kernels are supported by the following `FusedMoEMethodBase` classes.
 
 ## Fused MoE Experts Kernels
 
-The are a number of MoE experts kernel implementations for different quantization types and architectures. Most follow the general API of the base Triton [`fused_experts`][vllm.model_executor.layers.fused_moe.fused_moe.fused_experts] function. Many have modular kernel adapters so they can be used with compatible all2all backends. This table lists each experts kernel and its particular properties.
+There are a number of MoE experts kernel implementations for different quantization types and architectures. Most follow the general API of the base Triton [`fused_experts`][vllm.model_executor.layers.fused_moe.fused_moe.fused_experts] function. Many have modular kernel adapters so they can be used with compatible all2all backends. This table lists each experts kernel and its particular properties.
 
 Each kernel must be provided with one of the supported input activation formats.  Some flavors of kernels support both standard and batched formats through different entry points, e.g. `TritonExperts` and `BatchedTritonExperts`. Batched format kernels are currently only needed for matching with certain all2all backends, e.g. `pplx`, `DeepEPLLPrepareAndFinalize`.
 
diff --git a/docs/design/plugin_system.md b/docs/design/plugin_system.md
index dc2f7c4aed3c3..e8db8047ca4e6 100644
--- a/docs/design/plugin_system.md
+++ b/docs/design/plugin_system.md
@@ -49,7 +49,7 @@ Every plugin has three parts:
 
 - **Platform plugins** (with group name `vllm.platform_plugins`): The primary use case for these plugins is to register custom, out-of-the-tree platforms into vLLM. The plugin function should return `None` when the platform is not supported in the current environment, or the platform class's fully qualified name when the platform is supported.
 
-- **IO Processor plugins** (with group name `vllm.io_processor_plugins`): The primary use case for these plugins is to register custom pre/post processing of the model prompt and model output for pooling models. The plugin function returns the IOProcessor's class fully qualified name.
+- **IO Processor plugins** (with group name `vllm.io_processor_plugins`): The primary use case for these plugins is to register custom pre-/post-processing of the model prompt and model output for pooling models. The plugin function returns the IOProcessor's class fully qualified name.
 
 - **Stat logger plugins** (with group name `vllm.stat_logger_plugins`): The primary use case for these plugins is to register custom, out-of-the-tree loggers into vLLM. The entry point should be a class that subclasses StatLoggerBase.
 
diff --git a/docs/features/quantization/quark.md b/docs/features/quantization/quark.md
index bd7bc186e13aa..c54d7d2251999 100644
--- a/docs/features/quantization/quark.md
+++ b/docs/features/quantization/quark.md
@@ -306,7 +306,7 @@ As examples, we provide some ready-to-use quantized mixed precision model to sho
 
 ### 2. inference the quantized mixed precision model in vLLM
 
-Models quantized with AMD Quark using mixed precision can natively be reload in vLLM, and e.g. evaluated using lm-evaluation-harness as follow:
+Models quantized with AMD Quark using mixed precision can natively be reload in vLLM, and e.g. evaluated using lm-evaluation-harness as follows:
 
 ```bash
 lm_eval --model vllm \
diff --git a/examples/online_serving/prometheus_grafana/README.md b/examples/online_serving/prometheus_grafana/README.md
index 5cd4dab5a8fa7..9615210a2ad80 100644
--- a/examples/online_serving/prometheus_grafana/README.md
+++ b/examples/online_serving/prometheus_grafana/README.md
@@ -46,7 +46,7 @@ Navigate to [`http://localhost:3000`](http://localhost:3000). Log in with the de
 
 Navigate to [`http://localhost:3000/connections/datasources/new`](http://localhost:3000/connections/datasources/new) and select Prometheus.
 
-On Prometheus configuration page, we need to add the `Prometheus Server URL` in `Connection`. For this setup, Grafana and Prometheus are running in separate containers, but Docker creates DNS name for each containers. You can just use `http://prometheus:9090`.
+On Prometheus configuration page, we need to add the `Prometheus Server URL` in `Connection`. For this setup, Grafana and Prometheus are running in separate containers, but Docker creates DNS name for each container. You can just use `http://prometheus:9090`.
 
 Click `Save & Test`. You should get a green check saying "Successfully queried the Prometheus API.".
 
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index ab6e5e594c239..e2f7326448b3a 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -1500,7 +1500,7 @@ class EngineArgs:
         # Local DP rank = 1, use pure-external LB.
         if data_parallel_external_lb:
             assert self.data_parallel_rank is not None, (
-                "data_parallel_rank or node_rank must be spefified if "
+                "data_parallel_rank or node_rank must be specified if "
                 "data_parallel_external_lb is enable."
             )
             assert self.data_parallel_size_local in (1, None), (
diff --git a/vllm/envs.py b/vllm/envs.py
index 6d92d5afee501..e61fb114325c6 100755
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -1261,7 +1261,7 @@ environment_variables: dict[str, Callable[[], Any]] = {
     # MoE routing strategy selector.
     # See `RoutingSimulator.get_available_strategies()` # for available
     # strategies.
-    # Cutstom routing strategies can be registered by
+    # Custom routing strategies can be registered by
     # RoutingSimulator.register_strategy()
     # Note: custom strategies may not produce correct model outputs
     "VLLM_MOE_ROUTING_SIMULATION_STRATEGY": lambda: os.environ.get(

From ae4821a1086325decbc801d3292dee42e42549bb Mon Sep 17 00:00:00 2001
From: Louie Tsai <louie.tsai@intel.com>
Date: Tue, 18 Nov 2025 23:47:57 -0800
Subject: [PATCH 576/976] Add CPU support model (#28697)

Signed-off-by: Tsai, Louie <louie.tsai@intel.com>
---
 docs/models/hardware_supported_models/cpu.md | 26 ++++++++++++++++++++
 1 file changed, 26 insertions(+)
 create mode 100644 docs/models/hardware_supported_models/cpu.md

diff --git a/docs/models/hardware_supported_models/cpu.md b/docs/models/hardware_supported_models/cpu.md
new file mode 100644
index 0000000000000..0832755f8fbe2
--- /dev/null
+++ b/docs/models/hardware_supported_models/cpu.md
@@ -0,0 +1,26 @@
+# CPU - Intel® Xeon®
+
+## Supported Models
+
+### Text-only Language Models
+
+| Model                                | Architecture                             | Supported |
+|--------------------------------------|-------------------------------------------|-----------|
+| meta-llama/Llama-3.1 / 3.3           | LlamaForCausalLM                          | ✅        |
+| meta-llama/Llama-4-Scout             | Llama4ForConditionalGeneration            | ✅        |
+| meta-llama/Llama-4-Maverick          | Llama4ForConditionalGeneration            | ✅        |
+| ibm-granite/granite (Granite-MOE)    | GraniteMoeForCausalLM                     | ✅        |
+| Qwen/Qwen3                           | Qwen3ForCausalLM                          | ✅        |
+| zai-org/GLM-4.5                      | GLMForCausalLM                            | ✅        |
+| google/gemma                         | GemmaForCausalLM                          | ✅        |
+
+### Multimodal Language Models
+
+| Model                                | Architecture                             | Supported |
+|--------------------------------------|-------------------------------------------|-----------|
+| Qwen/Qwen2.5-VL                      | Qwen2VLForConditionalGeneration           | ✅        |
+| openai/whisper                       | WhisperForConditionalGeneration           | ✅        |
+
+✅ Runs and optimized.  
+🟨 Runs and correct but not optimized to green yet.  
+❌ Does not pass accuracy test or does not run.  

From d69062c67af46a2e624be92162e9db585eef329b Mon Sep 17 00:00:00 2001
From: gnovack <gnovack@amazon.com>
Date: Wed, 19 Nov 2025 00:32:00 -0800
Subject: [PATCH 577/976] add support for --fully-sharded-loras in fused_moe
 (#28761)

Signed-off-by: gnovack <gnovack@amazon.com>
Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>
---
 tests/lora/test_fused_moe_lora_kernel.py      | 208 +++++++++++++++++-
 tests/lora/test_olmoe_tp.py                   |  10 +-
 vllm/lora/layers/fused_moe.py                 |  36 ++-
 vllm/lora/ops/triton_ops/fused_moe_lora_op.py |  24 +-
 vllm/lora/punica_wrapper/punica_base.py       |   2 +
 vllm/lora/punica_wrapper/punica_gpu.py        |   4 +
 6 files changed, 274 insertions(+), 10 deletions(-)

diff --git a/tests/lora/test_fused_moe_lora_kernel.py b/tests/lora/test_fused_moe_lora_kernel.py
index 91ab4a87c65f8..91c8b861c3c5c 100644
--- a/tests/lora/test_fused_moe_lora_kernel.py
+++ b/tests/lora/test_fused_moe_lora_kernel.py
@@ -1,13 +1,25 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import os
 import random
 
 import pytest
 import torch
 
+from tests.utils import multi_gpu_test
 from vllm import _custom_ops as ops
+from vllm.distributed import (
+    init_distributed_environment,
+    initialize_model_parallel,
+    tensor_model_parallel_all_gather,
+    tensor_model_parallel_all_reduce,
+)
+from vllm.distributed.parallel_state import (
+    get_tensor_model_parallel_world_size,
+)
 from vllm.lora.ops.triton_ops import fused_moe_lora
 from vllm.platforms import current_platform
+from vllm.utils.network_utils import get_open_port
 
 
 @pytest.fixture(autouse=True)
@@ -122,6 +134,8 @@ def use_fused_moe_lora_kernel(
     max_loras,
     num_experts,
     block_size,
+    fully_sharded=False,
+    offset=0,
 ):
     max_num_tokens_padded = topk_ids.numel() + num_experts * (block_size - 1)
     max_num_tokens_padded = round_up(max_num_tokens_padded, block_size)
@@ -195,10 +209,10 @@ def use_fused_moe_lora_kernel(
         config["NUM_STAGES"],
         config["SPLIT_K"],
         mul_routed_weight,
+        fully_sharded=fully_sharded,
+        offset=offset,
     )
 
-    return output
-
 
 def use_torch(
     hidden_states,
@@ -317,3 +331,193 @@ def test_fused_moe_lora_kernel(
     )
 
     torch.testing.assert_close(output, output2, atol=1e-1, rtol=1e-1)
+
+
+@multi_gpu_test(num_gpus=2)
+@pytest.mark.parametrize("num_tokens", [100])
+@pytest.mark.parametrize("top_k_num", [6])
+@pytest.mark.parametrize("num_experts", [64])
+@pytest.mark.parametrize("max_loras", [4])
+@pytest.mark.parametrize("N", [1408])
+@pytest.mark.parametrize("K", [2048])
+@pytest.mark.parametrize("max_lora_rank", [16, 32, 64])
+@pytest.mark.parametrize("block_size", [16])
+@pytest.mark.parametrize("dtype", DTYPES)
+@pytest.mark.parametrize("seed", SEED)
+@pytest.mark.parametrize("column_parallel", [True, False])
+def test_fused_moe_lora_kernel_fully_sharded(
+    num_tokens,
+    top_k_num,
+    num_experts,
+    max_loras,
+    N,
+    K,
+    max_lora_rank,
+    block_size,
+    dtype,
+    seed,
+    column_parallel,
+):
+    current_platform.seed_everything(seed)
+    # the number of randomly generated sentences.
+    num_sequences = 10
+    # generate data
+    topk_ids, topk_weights, token_lora_mapping = sample_data(
+        num_tokens, num_sequences, max_loras, num_experts, top_k_num
+    )
+
+    def run_torch_spawn(fn, nprocs):
+        torch.multiprocessing.spawn(
+            fn,
+            args=(
+                nprocs,
+                f"tcp://{os.getenv('LOCALHOST', 'localhost')}:{get_open_port()}",
+                dtype,
+                seed,
+                N,
+                K,
+                num_tokens,
+                topk_ids,
+                topk_weights,
+                token_lora_mapping,
+                max_lora_rank,
+                top_k_num,
+                max_loras,
+                num_experts,
+                block_size,
+                column_parallel,
+            ),
+            nprocs=nprocs,
+        )
+
+    run_torch_spawn(use_fused_moe_lora_kernel_tensor_parallel, nprocs=2)
+
+
+def use_fused_moe_lora_kernel_tensor_parallel(
+    local_rank,
+    world_size,
+    init_method,
+    dtype,
+    seed,
+    N,
+    K,
+    num_tokens,
+    topk_ids,
+    topk_weights,
+    token_lora_mapping,
+    max_lora_rank,
+    top_k_num,
+    max_loras,
+    num_experts,
+    block_size,
+    column_parallel,
+):
+    def _get_shard_slice(shard_size):
+        return slice(local_rank * shard_size, (local_rank + 1) * shard_size)
+
+    current_platform.seed_everything(seed)
+
+    device = torch.device(f"cuda:{local_rank}")
+    torch.cuda.set_device(device)
+    torch.set_default_device(device)
+    torch.set_default_dtype(dtype)
+
+    init_distributed_environment(
+        world_size=world_size,
+        rank=local_rank,
+        local_rank=local_rank,
+        distributed_init_method=init_method,
+    )
+    initialize_model_parallel(world_size, 1)
+    tp_size = get_tensor_model_parallel_world_size()
+
+    input_dim = K if column_parallel else N
+    output_dim = N if column_parallel else K
+
+    # init lora weights
+    lora_a = torch.rand(
+        (
+            max_loras,
+            num_experts,
+            max_lora_rank,
+            input_dim,
+        ),
+        dtype=dtype,
+    )
+    lora_b = torch.rand(
+        (
+            max_loras,
+            num_experts,
+            output_dim,
+            max_lora_rank,
+        ),
+        dtype=dtype,
+    )
+
+    hidden_states = torch.rand(
+        (
+            num_tokens,
+            input_dim,
+        ),
+        dtype=dtype,
+    )
+
+    output = torch.zeros((num_tokens, top_k_num, output_dim), dtype=dtype)
+    topk_ids = topk_ids.to(device)
+    topk_weights = topk_weights.to(device)
+    token_lora_mapping = token_lora_mapping.to(device)
+
+    ref_output = use_torch(
+        hidden_states,
+        token_lora_mapping,
+        topk_ids,
+        [lora_a],
+        [lora_b],
+        top_k_num,
+    )
+
+    if column_parallel:
+        # Column parallel (e.g. gate_up_proj): LoRA A is sliced along the rank dim,
+        # and Lora B is sliced along the output dim
+        lora_a_shard_size = max_lora_rank // tp_size
+        lora_a = lora_a[:, :, _get_shard_slice(lora_a_shard_size), :]
+        max_lora_rank = lora_a_shard_size
+        offset = 0
+
+        lora_b_shard_size = output_dim // tp_size
+        lora_b = lora_b[:, :, _get_shard_slice(lora_b_shard_size), :]
+        output = output[:, :, _get_shard_slice(lora_b_shard_size)].contiguous()
+    else:
+        # Row parallel (e.g. down proj): LoRA A is sliced along the input dim,
+        # and LoRA B is sliced along the output dim
+        lora_a_shard_size = input_dim // tp_size
+        lora_a = lora_a[:, :, :, _get_shard_slice(lora_a_shard_size)]
+        hidden_states = hidden_states[:, _get_shard_slice(lora_a_shard_size)]
+
+        lora_b_shard_size = output_dim // tp_size
+        lora_b = lora_b[:, :, _get_shard_slice(lora_b_shard_size), :]
+        offset = lora_b_shard_size * local_rank
+
+    use_fused_moe_lora_kernel(
+        topk_ids,
+        topk_weights,
+        token_lora_mapping,
+        max_lora_rank,
+        top_k_num,
+        [lora_a],
+        [lora_b],
+        hidden_states,
+        output,
+        max_loras,
+        num_experts,
+        block_size,
+        fully_sharded=True,
+        offset=offset,
+    )
+
+    if column_parallel:
+        output = tensor_model_parallel_all_gather(output)
+    else:
+        output = tensor_model_parallel_all_reduce(output)
+
+    torch.testing.assert_close(output, ref_output, atol=1e-1, rtol=1e-1)
diff --git a/tests/lora/test_olmoe_tp.py b/tests/lora/test_olmoe_tp.py
index e659c1e1a9a07..e3c9816625ba7 100644
--- a/tests/lora/test_olmoe_tp.py
+++ b/tests/lora/test_olmoe_tp.py
@@ -2,6 +2,8 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
 
+import pytest
+
 import vllm
 from vllm.lora.request import LoRARequest
 
@@ -111,8 +113,9 @@ def test_olmoe_lora_mixed(olmoe_lora_files):
     generate_and_test(llm, olmoe_lora_files, lora_id=[1, None, 3, None])
 
 
+@pytest.mark.parametrize("fully_sharded_loras", [False, True])
 @multi_gpu_test(num_gpus=2)
-def test_olmoe_lora_tp2(olmoe_lora_files):
+def test_olmoe_lora_tp2(olmoe_lora_files, fully_sharded_loras):
     llm = vllm.LLM(
         MODEL_PATH,
         max_model_len=1024,
@@ -122,14 +125,16 @@ def test_olmoe_lora_tp2(olmoe_lora_files):
         trust_remote_code=True,
         enable_chunked_prefill=True,
         tensor_parallel_size=2,
+        fully_sharded_loras=fully_sharded_loras,
     )
 
     generate_and_test(llm, olmoe_lora_files, lora_id=1)
     generate_and_test(llm, olmoe_lora_files, lora_id=2)
 
 
+@pytest.mark.parametrize("fully_sharded_loras", [False, True])
 @multi_gpu_test(num_gpus=4)
-def test_olmoe_lora_tp4(olmoe_lora_files):
+def test_olmoe_lora_tp4(olmoe_lora_files, fully_sharded_loras):
     llm = vllm.LLM(
         MODEL_PATH,
         max_model_len=1024,
@@ -139,6 +144,7 @@ def test_olmoe_lora_tp4(olmoe_lora_files):
         trust_remote_code=True,
         enable_chunked_prefill=True,
         tensor_parallel_size=4,
+        fully_sharded_loras=fully_sharded_loras,
     )
 
     generate_and_test(llm, olmoe_lora_files, lora_id=1)
diff --git a/vllm/lora/layers/fused_moe.py b/vllm/lora/layers/fused_moe.py
index 8fb3efa220f6d..3291c41fcda1e 100644
--- a/vllm/lora/layers/fused_moe.py
+++ b/vllm/lora/layers/fused_moe.py
@@ -12,6 +12,7 @@ from vllm.distributed.parallel_state import (
     get_tensor_model_parallel_rank,
     get_tensor_model_parallel_world_size,
 )
+from vllm.distributed.utils import divide
 from vllm.lora.layers.base import BaseLayerWithLoRA
 from vllm.lora.ops.triton_ops.utils import get_lora_op_configs
 from vllm.model_executor.layers.fused_moe import FusedMoE
@@ -205,6 +206,7 @@ class FusedMoEWithLoRA(BaseLayerWithLoRA):
                     shrink_config,  ## pass the shrink config
                     expand_config,  ## pass the expand config
                     self.adapter_enabled,
+                    fully_sharded=self.fully_sharded,
                 )
 
                 result = func(*args, **kwargs)
@@ -250,7 +252,10 @@ class FusedMoEWithLoRA(BaseLayerWithLoRA):
                 sorted_token_ids_lora = sorted_token_ids_lora.view(max_loras, -1)
                 intermediate_cache2 = moe_state_dict["intermediate_cache2"]
                 intermediate_cache3 = args[0]
-                max_lora_rank = self.w1_lora_a_stacked.shape[-2]
+                max_lora_rank = self.w2_lora_a_stacked.shape[-2]
+
+                shard_size_w2 = divide(self.base_layer.hidden_size, self.tp_size)
+
                 self.punica_wrapper.add_lora_fused_moe(
                     intermediate_cache3,
                     intermediate_cache2,
@@ -266,6 +271,8 @@ class FusedMoEWithLoRA(BaseLayerWithLoRA):
                     expand_config,  ## pass the expand config
                     self.adapter_enabled,
                     True,
+                    fully_sharded=self.fully_sharded,
+                    offset=shard_size_w2 * self.tp_rank if self.fully_sharded else 0,
                 )
 
                 result = func(*args, **kwargs)
@@ -294,6 +301,7 @@ class FusedMoEWithLoRA(BaseLayerWithLoRA):
         model_config: PretrainedConfig | None = None,
     ) -> None:
         """Initializes lora matrices."""
+        self.fully_sharded = lora_config.fully_sharded_loras
 
         self.adapter_enabled = torch.tensor(
             [0] * (max_loras + 1), dtype=torch.int, device=self.device
@@ -303,7 +311,9 @@ class FusedMoEWithLoRA(BaseLayerWithLoRA):
             (
                 max_loras,
                 self.base_layer.local_num_experts,
-                lora_config.max_lora_rank,
+                lora_config.max_lora_rank
+                if not self.fully_sharded
+                else divide(lora_config.max_lora_rank, self.tp_size),
                 self.base_layer.hidden_size,
             ),
             dtype=lora_config.lora_dtype,
@@ -334,7 +344,9 @@ class FusedMoEWithLoRA(BaseLayerWithLoRA):
             (
                 max_loras,
                 self.base_layer.local_num_experts,
-                self.base_layer.hidden_size,
+                self.base_layer.hidden_size
+                if not self.fully_sharded
+                else divide(self.base_layer.hidden_size, self.tp_size),
                 lora_config.max_lora_rank,
             ),
             dtype=lora_config.lora_dtype,
@@ -345,7 +357,9 @@ class FusedMoEWithLoRA(BaseLayerWithLoRA):
             (
                 max_loras,
                 self.base_layer.local_num_experts,
-                lora_config.max_lora_rank,
+                lora_config.max_lora_rank
+                if not self.fully_sharded
+                else divide(lora_config.max_lora_rank, self.tp_size),
                 self.base_layer.hidden_size,
             ),
             dtype=lora_config.lora_dtype,
@@ -419,6 +433,20 @@ class FusedMoEWithLoRA(BaseLayerWithLoRA):
                 w3_lora_b = w3_lora_b[start_idx:end_idx, :]
                 w2_lora_a = w2_lora_a[:, start_idx:end_idx]
 
+                if self.fully_sharded:
+                    # Based on S-LoRA, we slice W1 and W3 A along the rank dim,
+                    # and W2 B along the hidden_size dim.
+                    w13_shard_size = self.w1_lora_a_stacked[index, eid].shape[0]
+                    w13_start_idx = self.tp_rank * w13_shard_size
+                    w13_end_idx = (self.tp_rank + 1) * w13_shard_size
+                    w1_lora_a = w1_lora_a[w13_start_idx:w13_end_idx, :]
+                    w3_lora_a = w3_lora_a[w13_start_idx:w13_end_idx, :]
+
+                    w2_shard_size = self.w2_lora_b_stacked[index, eid].shape[0]
+                    w2_start_idx = self.tp_rank * w2_shard_size
+                    w2_end_idx = (self.tp_rank + 1) * w2_shard_size
+                    w2_lora_b = w2_lora_b[w2_start_idx:w2_end_idx, :]
+
             self.w1_lora_a_stacked[
                 index, eid, : w1_lora_a.shape[0], : w1_lora_a.shape[1]
             ].copy_(w1_lora_a, non_blocking=True)
diff --git a/vllm/lora/ops/triton_ops/fused_moe_lora_op.py b/vllm/lora/ops/triton_ops/fused_moe_lora_op.py
index e2dd47dbb4e64..413ee8ecbbf96 100644
--- a/vllm/lora/ops/triton_ops/fused_moe_lora_op.py
+++ b/vllm/lora/ops/triton_ops/fused_moe_lora_op.py
@@ -3,6 +3,10 @@
 
 import torch
 
+from vllm.distributed import (
+    tensor_model_parallel_all_gather,
+    tensor_model_parallel_all_reduce,
+)
 from vllm.triton_utils import tl, triton
 from vllm.utils.torch_utils import direct_register_custom_op
 
@@ -311,6 +315,7 @@ def _fused_moe_lora_expand(
     num_stages: int,
     split_k: int,
     mul_routed_weight: bool = False,
+    offset: int = 0,
 ) -> None:
     b_ptr = _get_ptr(lora_b_stacked, device)
     K = max_lora_rank
@@ -380,7 +385,7 @@ def _fused_moe_lora_expand(
         **expand_config,
     )
     for i in range(num_slices):
-        output[:, :, i * N : (i + 1) * N] += b_intermediate_cache1[i]
+        output[:, :, i * N + offset : (i + 1) * N + offset] += b_intermediate_cache1[i]
 
 
 @torch.inference_mode()
@@ -416,6 +421,8 @@ def _fused_moe_lora(
     expand_num_stages: int,
     expand_split_k: int,
     mul_routed_weight: bool = False,
+    fully_sharded: bool = False,
+    offset: int = 0,
 ) -> None:
     assert len(lora_a_stacked) == len(lora_b_stacked) > 0
     assert (
@@ -430,7 +437,6 @@ def _fused_moe_lora(
         == expert_ids.shape[0]
         == num_tokens_post_padded.shape[0]
     )
-    assert len(lora_b_stacked) * lora_b_stacked[0].shape[-2] == output.shape[-1]
     assert output.shape[0] == topk_weights.shape[0]
     assert top_k_num == topk_weights.shape[1]
     device = qcurr_hidden_states.device
@@ -480,6 +486,19 @@ def _fused_moe_lora(
         mul_routed_weight,
     )
 
+    if fully_sharded:
+        if max_lora_rank == w1_lora_b_stacked.shape[-1]:
+            a_intermediate_cache1 = tensor_model_parallel_all_reduce(
+                a_intermediate_cache1
+            )
+        else:
+            a_intermediate_cache1 = tensor_model_parallel_all_gather(
+                a_intermediate_cache1
+            )
+
+            # reset max_lora_rank to the full rank after allgather
+            max_lora_rank = a_intermediate_cache1.shape[-1]
+
     _fused_moe_lora_expand(
         output,
         a_intermediate_cache1,
@@ -510,6 +529,7 @@ def _fused_moe_lora(
         expand_num_stages,
         expand_split_k,
         mul_routed_weight,
+        offset,
     )
 
 
diff --git a/vllm/lora/punica_wrapper/punica_base.py b/vllm/lora/punica_wrapper/punica_base.py
index b6186e8561529..a6ffbb7b71ce4 100644
--- a/vllm/lora/punica_wrapper/punica_base.py
+++ b/vllm/lora/punica_wrapper/punica_base.py
@@ -483,6 +483,8 @@ class PunicaWrapperBase(PunicaWrapperABC):
         expand_config,
         adapter_enabled: torch.Tensor,
         mul_routed_weight=False,
+        fully_sharded: bool = False,
+        offset: int = 0,
     ):
         """
         Performs a fused forward computation for LoRA of
diff --git a/vllm/lora/punica_wrapper/punica_gpu.py b/vllm/lora/punica_wrapper/punica_gpu.py
index ede50a48af985..d863a5884d3c5 100644
--- a/vllm/lora/punica_wrapper/punica_gpu.py
+++ b/vllm/lora/punica_wrapper/punica_gpu.py
@@ -375,6 +375,8 @@ class PunicaWrapperGPU(PunicaWrapperBase):
         expand_config,
         adapter_enabled: torch.Tensor,
         mul_routed_weight=False,
+        fully_sharded: bool = False,
+        offset: int = 0,
     ):
         """
         Performs a fused forward computation for LoRA of Mixture-of-Experts (MoE) layer.
@@ -408,4 +410,6 @@ class PunicaWrapperGPU(PunicaWrapperBase):
             expand_config.get("NUM_STAGES", 3),
             expand_config.get("SPLIT_K", 1),
             mul_routed_weight,
+            fully_sharded,
+            offset,
         )

From fdf93486d6c4f36be2f410a846bf68654041dc51 Mon Sep 17 00:00:00 2001
From: Michael Yao <haifeng.yao@daocloud.io>
Date: Wed, 19 Nov 2025 18:35:29 +0800
Subject: [PATCH 578/976] [Docs] Clean up moe_kernel_features.md (#28530)

Signed-off-by: windsonsea <haifeng.yao@daocloud.io>
---
 docs/design/moe_kernel_features.md | 90 +++++++++++++++---------------
 1 file changed, 44 insertions(+), 46 deletions(-)

diff --git a/docs/design/moe_kernel_features.md b/docs/design/moe_kernel_features.md
index 36ae9506b65fb..f0d5a3e934f39 100644
--- a/docs/design/moe_kernel_features.md
+++ b/docs/design/moe_kernel_features.md
@@ -1,4 +1,4 @@
-# Fused MoE Kernel features
+# Fused MoE Kernel Features
 
 The purpose of this document is to provide an overview of the various MoE kernels (both modular and non-modular) so it will be easier to select an appropriate set of kernels for any particular situation. This includes information about the all2all backends used by modular kernels.
 
@@ -8,15 +8,15 @@ There are a number of all2all communication backends that are used to implement
 
 The following table describes the relevant features of each backend, i.e. activation format, supported quantization schemes and async support.
 
-The output activation format (standard or batched) corresponds to the output of the prepare step of the `FusedMoEPrepareAndFinalize` subclass, the finalize step requires the same format. All the backend `prepare` methods expect activations in standard format and all the `finalize methods return activations in standard format. More details on the formats can be found in the [Fused MoE Modular Kernel](./fused_moe_modular_kernel.md) document.
+The output activation format (standard or batched) corresponds to the output of the prepare step of the `FusedMoEPrepareAndFinalize` subclass, and the finalize step requires the same format. All the backend `prepare` methods expect activations in the standard format and all the `finalize` methods return activations in standard format. More details on the formats can be found in the [Fused MoE Modular Kernel](./fused_moe_modular_kernel.md) document.
 
-The quantization types and formats enumerate which quantization schemes are supported by each `FusedMoEPrepareAndFinalize` class. The quantization can happen before or after the dispatch based on the format the all2all backend supports. e.g. deepep_high_throughput supports only block-quantized fp8 format, any other format will result in dispatching in higher precision and quantizing afterwards. The output of the prepare step for each backend is the quantized type.  The finalize step generally requires the same input type as the original activations, e.g. if the original input is bfloat16 and the quantization scheme is fp8 w/per-tensor scales, `prepare` will return fp8/per-tensor scale activations and `finalize` will take bfloat16 activations. See the diagrams in [Fused MoE Modular Kernel](./fused_moe_modular_kernel.md) for more details on the types and formats of activations at each step of the MoE process.  If no quantization type is specified, the kernel operates on float16 and/or bfloat16.
+The quantization types and formats enumerate which quantization schemes are supported by each `FusedMoEPrepareAndFinalize` class. The quantization can happen before or after the dispatch based on the format the all2all backend supports, e.g. deepep_high_throughput supports only block-quantized fp8 format. Any other format will result in dispatching in higher precision and quantizing afterwards. The output of the prepare step for each backend is the quantized type. The finalize step generally requires the same input type as the original activations, e.g. if the original input is bfloat16 and the quantization scheme is fp8 with per-tensor scales, `prepare` will return fp8/per-tensor scale activations and `finalize` will take bfloat16 activations. See the diagrams in [Fused MoE Modular Kernel](./fused_moe_modular_kernel.md) for more details on the types and formats of activations at each step of the MoE process. If no quantization type is specified, the kernel operates on float16 and/or bfloat16.
 
 Async backends support the use of DBO (Dual Batch Overlap) and shared expert overlap (where shared experts are computed during the combine step).
 
-Certain models require the topk weights to be applied to the input activations rather than the output activations when topk==1, e.g. llama. For modular kernels, this feature is supported by the `FusedMoEPrepareAndFinalize` subclass, for non-modular kernels, it is up to the experts function to deal with this flag.
+Certain models require the topk weights to be applied to the input activations rather than the output activations when topk==1, e.g. Llama. For modular kernels, this feature is supported by the `FusedMoEPrepareAndFinalize` subclass. For non-modular kernels, it is up to the experts function to deal with this flag.
 
-unless otherwise specified, backends are controlled via `VLLM_ALL2ALL_BACKEND`.  All backends except `flashinfer` only work with EP+DP or EP+TP. `Flashinfer` can work with EP or DP w/o EP.
+Unless otherwise specified, backends are controlled via `VLLM_ALL2ALL_BACKEND`. All backends except `flashinfer` only work with EP+DP or EP+TP. `Flashinfer` can work with EP or DP without EP.
 
 <style>
 td {
@@ -30,24 +30,23 @@ th {
 }
 </style>
 
-| Backend                               | Output act. format | Quant. types    | Quant. format          | Async | Apply Weight On Input | Sub-class                                                                                                                                                     |
-|---------------------------------------|--------------------|-----------------|------------------------|-------|-----------------------|---------------------------------------------------------------------------------------------------------------------------------------------------------------|
-| naive                                 | standard           | all<sup>1</sup> | G,A,T                  | N     | <sup>6</sup>          | [layer.py][vllm.model_executor.layers.fused_moe.layer.FusedMoE.forward_impl]                                                                                  |
-| pplx                                  | batched            | fp8,int8        | G,A,T                  | Y     | Y                     | [`PplxPrepareAndFinalize`][vllm.model_executor.layers.fused_moe.pplx_prepare_finalize.PplxPrepareAndFinalize]                                                 |
-| deepep_high_throughput                | standard           | fp8             | G(128),A,T<sup>2</sup> | Y     | Y                     | [`DeepEPLLPrepareAndFinalize`][vllm.model_executor.layers.fused_moe.deepep_ll_prepare_finalize.DeepEPLLPrepareAndFinalize]                                    |
-| deepep_low_latency                    | batched            | fp8             | G(128),A,T<sup>3</sup> | Y     | Y                     | [`DeepEPHTPrepareAndFinalize`][vllm.model_executor.layers.fused_moe.deepep_ht_prepare_finalize.DeepEPHTPrepareAndFinalize]                                    |
-| flashinfer_all2allv                   | standard           | nvfp4,fp8       | G,A,T                  | N     | N                     | [`FlashInferAllToAllMoEPrepareAndFinalize`][vllm.model_executor.layers.fused_moe.flashinfer_cutlass_prepare_finalize.FlashInferAllToAllMoEPrepareAndFinalize] |
-| flashinfer<sup>4</sup>                | standard           | nvfp4,fp8       | G,A,T                  | N     | N                     | [`FlashInferCutlassMoEPrepareAndFinalize`][vllm.model_executor.layers.fused_moe.flashinfer_cutlass_prepare_finalize.FlashInferCutlassMoEPrepareAndFinalize]   |
-| flashinfer<sup>4</sup>                | standard           | nvfp4,fp8       | G,A,T                  | N     | N                     | [`FlashInferCutlassMoEPrepareAndFinalize`][vllm.model_executor.layers.fused_moe.flashinfer_cutlass_prepare_finalize.FlashInferCutlassMoEPrepareAndFinalize]   |
-| MoEPrepareAndFinalizeNoEP<sup>5</sup> | standard           | fp8,int8        | G,A,T                  | N     | Y                     | [`MoEPrepareAndFinalizeNoEP`][vllm.model_executor.layers.fused_moe.prepare_finalize.MoEPrepareAndFinalizeNoEP]                                                |
-| BatchedPrepareAndFinalize<sup>5</sup> | batched            | fp8,int8        | G,A,T                  | N     | Y                     | [`BatchedPrepareAndFinalize`][vllm.model_executor.layers.fused_moe.fused_batched_moe.BatchedPrepareAndFinalize]                                               |
+| Backend | Output act. format | Quant. types | Quant. format | Async | Apply Weight On Input | Subclass |
+|---------|--------------------|--------------|---------------|-------|-----------------------|-----------|
+| naive | standard | all<sup>1</sup> | G,A,T | N | <sup>6</sup> | [layer.py][vllm.model_executor.layers.fused_moe.layer.FusedMoE.forward_impl] |
+| pplx | batched | fp8,int8 | G,A,T | Y | Y | [`PplxPrepareAndFinalize`][vllm.model_executor.layers.fused_moe.pplx_prepare_finalize.PplxPrepareAndFinalize] |
+| deepep_high_throughput | standard | fp8 | G(128),A,T<sup>2</sup> | Y | Y | [`DeepEPLLPrepareAndFinalize`][vllm.model_executor.layers.fused_moe.deepep_ll_prepare_finalize.DeepEPLLPrepareAndFinalize] |
+| deepep_low_latency | batched | fp8 | G(128),A,T<sup>3</sup> | Y | Y | [`DeepEPHTPrepareAndFinalize`][vllm.model_executor.layers.fused_moe.deepep_ht_prepare_finalize.DeepEPHTPrepareAndFinalize] |
+| flashinfer_all2allv | standard | nvfp4,fp8 | G,A,T | N | N | [`FlashInferAllToAllMoEPrepareAndFinalize`][vllm.model_executor.layers.fused_moe.flashinfer_cutlass_prepare_finalize.FlashInferAllToAllMoEPrepareAndFinalize] |
+| flashinfer<sup>4</sup> | standard | nvfp4,fp8 | G,A,T | N | N | [`FlashInferCutlassMoEPrepareAndFinalize`][vllm.model_executor.layers.fused_moe.flashinfer_cutlass_prepare_finalize.FlashInferCutlassMoEPrepareAndFinalize] |
+| MoEPrepareAndFinalizeNoEP<sup>5</sup> | standard | fp8,int8 | G,A,T | N | Y | [`MoEPrepareAndFinalizeNoEP`][vllm.model_executor.layers.fused_moe.prepare_finalize.MoEPrepareAndFinalizeNoEP] |
+| BatchedPrepareAndFinalize<sup>5</sup> | batched | fp8,int8 | G,A,T | N | Y | [`BatchedPrepareAndFinalize`][vllm.model_executor.layers.fused_moe.fused_batched_moe.BatchedPrepareAndFinalize] |
 
 !!! info "Table key"
     1. All types: mxfp4, nvfp4, int4, int8, fp8
     2. A,T quantization occurs after dispatch.
     3. All quantization happens after dispatch.
     4. Controlled by different env vars (`VLLM_FLASHINFER_MOE_BACKEND` "throughput" or "latency")
-    5. This is a no-op dispatcher that can be used to pair with any modular experts to produce a modular kernel that runs w/o dispatch or combine.  These cannot be selected via environment variable.  These are generally use for testing or adapting an expert subclass to the `fused_experts` API.
+    5. This is a no-op dispatcher that can be used to pair with any modular experts to produce a modular kernel that runs without dispatch or combine. These cannot be selected via environment variable. These are generally use for testing or adapting an expert subclass to the `fused_experts` API.
     6. This depends on the experts implementation.
 
     ---
@@ -66,44 +65,43 @@ Modular kernels are supported by the following `FusedMoEMethodBase` classes.
 - [`Mxfp4MoEMethod`][vllm.model_executor.layers.quantization.mxfp4.Mxfp4MoEMethod]
 - [`UnquantizedFusedMoEMethod`][vllm.model_executor.layers.fused_moe.layer.UnquantizedFusedMoEMethod]
 
-## Fused MoE Experts Kernels
+## Fused Experts Kernels
 
-There are a number of MoE experts kernel implementations for different quantization types and architectures. Most follow the general API of the base Triton [`fused_experts`][vllm.model_executor.layers.fused_moe.fused_moe.fused_experts] function. Many have modular kernel adapters so they can be used with compatible all2all backends. This table lists each experts kernel and its particular properties.
+There are a number of MoE experts kernel implementations for different quantization types and architectures. Most follow the general API of the base Triton [`fused_experts`][vllm.model_executor.layers.fused_moe.fused_moe.fused_experts] function. Many have modular kernel adapters, so they can be used with compatible all2all backends. This table lists each experts kernel and its particular properties.
 
-Each kernel must be provided with one of the supported input activation formats.  Some flavors of kernels support both standard and batched formats through different entry points, e.g. `TritonExperts` and `BatchedTritonExperts`. Batched format kernels are currently only needed for matching with certain all2all backends, e.g. `pplx`, `DeepEPLLPrepareAndFinalize`.
+Each kernel must be provided with one of the supported input activation formats. Some flavors of kernels support both standard and batched formats through different entry points, e.g. `TritonExperts` and `BatchedTritonExperts`. Batched format kernels are currently only needed for matching with certain all2all backends, e.g. `pplx` and `DeepEPLLPrepareAndFinalize`.
 
 Similar to the backend kernels, each experts kernel only supports certain quantization formats. For non-modular experts, the activations will be in the original type and quantized internally by the kernel. Modular experts will expect the activations to already be in the quantized format. Both types of experts will yield outputs in the original activation type.
 
-Each experts kernel supports one or more activation functions, e.g. silu, gelu that are applied to the intermediate results.
+Each experts kernel supports one or more activation functions, e.g. silu or gelu, which are applied to the intermediate results.
 
 As with the backends, some experts support applying topk weights on the input activations. The entries in the column in this table only apply to the non-modular experts.
 
 Most experts flavors include an equivalent modular interface which will be a subclass of `FusedMoEPermuteExpertsUnpermute`.
 
-To be used with a particular `FusedMoEPrepareAndFinalize` sub-class, MoE kernels must have compatible activation formats, quantization types and quantization formats.
+To be used with a particular `FusedMoEPrepareAndFinalize` subclass, MoE kernels must have compatible activation formats, quantization types and quantization formats.
 
-| Kernel                       | Input act. format     | Quant. types     | Quant. format | Activation function                                         | Apply Weight On Input | Modular | Source                                                                                                                                                                                                                                                                                                      |
-|------------------------------|-----------------------|------------------|---------------|-------------------------------------------------------------|-----------------------|---------|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
-| triton                       | standard              | all<sup>1</sup>  | G,A,T         | silu, gelu,</br>swigluoai,</br>silu_no_mul,</br>gelu_no_mul | Y                     | Y       | [`fused_experts`][vllm.model_executor.layers.fused_moe.fused_moe.fused_experts],</br>[`TritonExperts`][vllm.model_executor.layers.fused_moe.fused_moe.TritonExperts]                                                                                                                                        |
-| triton (batched)             | batched               | all<sup>1</sup>  | G,A,T         | silu, gelu                                                  | <sup>6</sup>          | Y       | [`BatchedTritonExperts`][vllm.model_executor.layers.fused_moe.fused_batched_moe.BatchedTritonExperts]                                                                                                                                                                                                       |
-| deep gemm                    | standard,</br>batched | fp8              | G(128),A,T    | silu, gelu                                                  | <sup>6</sup>          | Y       | [`deep_gemm_moe_fp8`][vllm.model_executor.layers.fused_moe.deep_gemm_moe.deep_gemm_moe_fp8],</br>[`DeepGemmExperts`][vllm.model_executor.layers.fused_moe.deep_gemm_moe.DeepGemmExperts],</br>[`BatchedDeepGemmExperts`][vllm.model_executor.layers.fused_moe.batched_deep_gemm_moe.BatchedDeepGemmExperts] |
-| cutlass_fp4                  | standard,</br>batched | nvfp4            | A,T           | silu                                                        | Y                     | Y       | [`cutlass_moe_fp4`][vllm.model_executor.layers.fused_moe.cutlass_moe.cutlass_moe_fp4],</br>[`CutlassExpertsFp4`][vllm.model_executor.layers.fused_moe.cutlass_moe.CutlassExpertsFp4]                                                                                                                        |
-| cutlass_fp8                  | standard,</br>batched | fp8              | A,T           | silu, gelu                                                  | Y                     | Y       | [`cutlass_moe_fp8`][vllm.model_executor.layers.fused_moe.cutlass_moe.cutlass_moe_fp8],</br>[`CutlassExpertsFp8`][vllm.model_executor.layers.fused_moe.cutlass_moe.CutlassExpertsFp8],</br>[`CutlasBatchedExpertsFp8`][vllm.model_executor.layers.fused_moe.cutlass_moe.CutlassBatchedExpertsFp8]            |
-| flashinfer                   | standard              | nvfp4,</br>fp8   | T             | <sup>5</sup>                                                | N                     | Y       | [`flashinfer_cutlass_moe_fp4`][vllm.model_executor.layers.fused_moe.flashinfer_cutlass_moe.flashinfer_cutlass_moe_fp4],</br>[`FlashInferExperts`][vllm.model_executor.layers.fused_moe.flashinfer_cutlass_moe.FlashInferExperts]                                                                            |
-| gpt oss triton               | standard              | N/A              | N/A           | <sup>5</sup>                                                | Y                     | Y       | [`triton_kernel_fused_experts`][vllm.model_executor.layers.fused_moe.gpt_oss_triton_kernels_moe.triton_kernel_fused_experts],</br>[`OAITritonExperts`][vllm.model_executor.layers.fused_moe.gpt_oss_triton_kernels_moe.OAITritonExperts]                                                                    |
-| deep gemm+triton<sup>2</sup> | standard,</br>batched | all<sup>1</sup>  | G(128),A,T    | silu, gelu                                                  | <sup>6</sup>          | Y       | [`TritonOrDeepGemmExperts`][vllm.model_executor.layers.fused_moe.triton_deep_gemm_moe.TritonOrDeepGemmExperts],</br>[`BatchedTritonOrDeepGemmExperts`][vllm.model_executor.layers.fused_moe.batched_triton_or_deep_gemm_moe.BatchedTritonOrDeepGemmExperts]                                                 |
-| marlin                       | standard              | <sup>3</sup>     | <sup>3</sup>  | silu,</br>swigluoai                                         | Y                     | Y       | [`fused_marlin_moe`][vllm.model_executor.layers.fused_moe.fused_marlin_moe.fused_marlin_moe],</br>[`MarlinExperts`][vllm.model_executor.layers.fused_moe.fused_marlin_moe.MarlinExperts],</br>[`BatchedMarlinExperts`][vllm.model_executor.layers.fused_moe.fused_marlin_moe.BatchedMarlinExperts]          |
-| marlin experts               | standard,</br>batched | N/A              | N/A           | silu,</br>swigluoai                                         | Y                     | Y       | [`MarlinExperts`][vllm.model_executor.layers.fused_moe.fused_marlin_moe.MarlinExperts],</br>[`BatchedMarlinExperts`][vllm.model_executor.layers.fused_moe.fused_marlin_moe.BatchedMarlinExperts]                                                                                                            |
-| trtllm                       | standard              | mxfp4,</br>nvfp4 | G(16),G(32)   | <sup>5</sup>                                                | N                     | Y       | [`TrtLlmGenExperts`][vllm.model_executor.layers.fused_moe.trtllm_moe.TrtLlmGenExperts]                                                                                                                                                                                                                      |
-| pallas                       | standard              | N/A              | N/A           | silu                                                        | N                     | N       | [`fused_moe`][vllm.model_executor.layers.fused_moe.moe_pallas.fused_moe]                                                                                                                                                                                                                                    |
-| iterative                    | standard              | N/A              | N/A           | silu                                                        | N                     | N       | [`fused_moe`][vllm.model_executor.layers.fused_moe.moe_torch_iterative.fused_moe]                                                                                                                                                                                                                           |
-| rocm aiter moe               | standard              | fp8              | G(128),A,T    | silu, gelu                                                  | Y                     | N       | [`rocm_aiter_fused_experts`][vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe.rocm_aiter_fused_experts]                                                                                                                                                                                           |
-| cpu_fused_moe                | standard              | N/A              | N/A           | silu                                                        | N                     | N       | [`CPUFusedMOE`][vllm.model_executor.layers.fused_moe.cpu_fused_moe.CPUFusedMOE]                                                                                                                                                                                                                             |
-| naive batched<sup>4</sup>    | batched               | int8,</br>fp8    | G,A,T         | silu, gelu                                                  | <sup>6</sup>          | Y       | [`NaiveBatchedExperts`][vllm.model_executor.layers.fused_moe.fused_batched_moe.NaiveBatchedExperts]                                                                                                                                                                                                         |
+| Kernel | Input act. format | Quant. types | Quant. format | Activation function | Apply Weight On Input | Modular | Source |
+|--------|-------------------|--------------|---------------|---------------------|-----------------------|---------|--------|
+| triton | standard | all<sup>1</sup> | G,A,T | silu, gelu,</br>swigluoai,</br>silu_no_mul,</br>gelu_no_mul | Y | Y | [`fused_experts`][vllm.model_executor.layers.fused_moe.fused_moe.fused_experts],</br>[`TritonExperts`][vllm.model_executor.layers.fused_moe.fused_moe.TritonExperts] |
+| triton (batched) | batched | all<sup>1</sup> | G,A,T | silu, gelu | <sup>6</sup> | Y | [`BatchedTritonExperts`][vllm.model_executor.layers.fused_moe.fused_batched_moe.BatchedTritonExperts] |
+| deep gemm | standard,</br>batched | fp8 | G(128),A,T | silu, gelu | <sup>6</sup> | Y | [`deep_gemm_moe_fp8`][vllm.model_executor.layers.fused_moe.deep_gemm_moe.deep_gemm_moe_fp8],</br>[`DeepGemmExperts`][vllm.model_executor.layers.fused_moe.deep_gemm_moe.DeepGemmExperts],</br>[`BatchedDeepGemmExperts`][vllm.model_executor.layers.fused_moe.batched_deep_gemm_moe.BatchedDeepGemmExperts] |
+| cutlass_fp4 | standard,</br>batched | nvfp4 | A,T | silu | Y | Y | [`cutlass_moe_fp4`][vllm.model_executor.layers.fused_moe.cutlass_moe.cutlass_moe_fp4],</br>[`CutlassExpertsFp4`][vllm.model_executor.layers.fused_moe.cutlass_moe.CutlassExpertsFp4] |
+| cutlass_fp8 | standard,</br>batched | fp8 | A,T | silu, gelu | Y | Y | [`cutlass_moe_fp8`][vllm.model_executor.layers.fused_moe.cutlass_moe.cutlass_moe_fp8],</br>[`CutlassExpertsFp8`][vllm.model_executor.layers.fused_moe.cutlass_moe.CutlassExpertsFp8],</br>[`CutlasBatchedExpertsFp8`][vllm.model_executor.layers.fused_moe.cutlass_moe.CutlassBatchedExpertsFp8] |
+| flashinfer | standard | nvfp4,</br>fp8 | T | <sup>5</sup> | N | Y | [`flashinfer_cutlass_moe_fp4`][vllm.model_executor.layers.fused_moe.flashinfer_cutlass_moe.flashinfer_cutlass_moe_fp4],</br>[`FlashInferExperts`][vllm.model_executor.layers.fused_moe.flashinfer_cutlass_moe.FlashInferExperts] |
+| gpt oss triton | standard | N/A | N/A | <sup>5</sup> | Y | Y | [`triton_kernel_fused_experts`][vllm.model_executor.layers.fused_moe.gpt_oss_triton_kernels_moe.triton_kernel_fused_experts],</br>[`OAITritonExperts`][vllm.model_executor.layers.fused_moe.gpt_oss_triton_kernels_moe.OAITritonExperts] |
+| deep gemm+triton<sup>2</sup> | standard,</br>batched | all<sup>1</sup> | G(128),A,T | silu, gelu | <sup>6</sup> | Y | [`TritonOrDeepGemmExperts`][vllm.model_executor.layers.fused_moe.triton_deep_gemm_moe.TritonOrDeepGemmExperts],</br>[`BatchedTritonOrDeepGemmExperts`][vllm.model_executor.layers.fused_moe.batched_triton_or_deep_gemm_moe.BatchedTritonOrDeepGemmExperts] |
+| marlin | standard,</br>batched | <sup>3</sup> / N/A | <sup>3</sup> / N/A | silu,</br>swigluoai | Y | Y | [`fused_marlin_moe`][vllm.model_executor.layers.fused_moe.fused_marlin_moe.fused_marlin_moe],</br>[`MarlinExperts`][vllm.model_executor.layers.fused_moe.fused_marlin_moe.MarlinExperts],</br>[`BatchedMarlinExperts`][vllm.model_executor.layers.fused_moe.fused_marlin_moe.BatchedMarlinExperts] |
+| trtllm | standard | mxfp4,</br>nvfp4 | G(16),G(32) | <sup>5</sup> | N | Y | [`TrtLlmGenExperts`][vllm.model_executor.layers.fused_moe.trtllm_moe.TrtLlmGenExperts] |
+| pallas | standard | N/A | N/A | silu | N | N | [`fused_moe`][vllm.model_executor.layers.fused_moe.moe_pallas.fused_moe] |
+| iterative | standard | N/A | N/A | silu | N | N | [`fused_moe`][vllm.model_executor.layers.fused_moe.moe_torch_iterative.fused_moe] |
+| rocm aiter moe | standard | fp8 | G(128),A,T | silu, gelu | Y | N | [`rocm_aiter_fused_experts`][vllm.model_executor.layers.fused_moe.rocm_aiter_fused_moe.rocm_aiter_fused_experts] |
+| cpu_fused_moe | standard | N/A | N/A | silu | N | N | [`CPUFusedMOE`][vllm.model_executor.layers.fused_moe.cpu_fused_moe.CPUFusedMOE] |
+| naive batched<sup>4</sup> | batched | int8,</br>fp8 | G,A,T | silu, gelu | <sup>6</sup> | Y | [`NaiveBatchedExperts`][vllm.model_executor.layers.fused_moe.fused_batched_moe.NaiveBatchedExperts] |
 
 !!! info "Table key"
     1. All types: mxfp4, nvfp4, int4, int8, fp8
-    2. A dispatcher wrapper around triton and deep gemm experts.  Will select based on type + shape + quantization params
+    2. A dispatcher wrapper around triton and deep gemm experts. Will select based on type + shape + quantization params
     3. uint4, uint8, fp8, fp4
     4. This is a naive implementation of experts that supports batched format. Mainly used for testing.
     5. The `activation` parameter is ignored and SwiGlu is used by default instead.
@@ -113,8 +111,8 @@ To be used with a particular `FusedMoEPrepareAndFinalize` sub-class, MoE kernels
 
 The following table shows "families" of modular kernels that are intended to work together. There are some combinations which may work but have not yet been tested, e.g. flashinfer with other fp8 experts. Note that the "naive" backend will work with any non-modular experts.
 
-| backend                          | `FusedMoEPrepareAndFinalize` subclasses                    | `FusedMoEPermuteExpertsUnpermute` subclasses                                                                               |
-|----------------------------------|------------------------------------------------------------|----------------------------------------------------------------------------------------------------------------------------|
-| deepep_high_throughput           | `DeepEPHTPrepareAndFinalize`                               |  `DeepGemmExperts`,</br>`TritonExperts`,</br>`TritonOrDeepGemmExperts`,</br>`CutlassExpertsFp8`, </br>`MarlinExperts`                                  |
-| deepep_low_latency,</br>pplx     | `DeepEPLLPrepareAndFinalize`,</br>`PplxPrepareAndFinalize` |  `BatchedDeepGemmExperts`,</br>`BatchedTritonExperts`,</br>`BatchedTritonOrDeepGemmExperts`,</br>`CutlassBatchedExpertsFp8`,</br>`BatchedMarlinExperts`|
-| flashinfer                       | `FlashInferCutlassMoEPrepareAndFinalize`                   | `FlashInferExperts`                                                                                                                                    |
+| backend | `FusedMoEPrepareAndFinalize` subclasses | `FusedMoEPermuteExpertsUnpermute` subclasses |
+|---------|-----------------------------------------|----------------------------------------------|
+| deepep_high_throughput | `DeepEPHTPrepareAndFinalize` |  `DeepGemmExperts`,</br>`TritonExperts`,</br>`TritonOrDeepGemmExperts`,</br>`CutlassExpertsFp8`, </br>`MarlinExperts` |
+| deepep_low_latency,</br>pplx | `DeepEPLLPrepareAndFinalize`,</br>`PplxPrepareAndFinalize` |  `BatchedDeepGemmExperts`,</br>`BatchedTritonExperts`,</br>`BatchedTritonOrDeepGemmExperts`,</br>`CutlassBatchedExpertsFp8`,</br>`BatchedMarlinExperts` |
+| flashinfer | `FlashInferCutlassMoEPrepareAndFinalize` | `FlashInferExperts` |

From 815160958327d601933139b9e76a01eb6d2bc5cf Mon Sep 17 00:00:00 2001
From: ihb2032 <40718643+ihb2032@users.noreply.github.com>
Date: Wed, 19 Nov 2025 19:05:44 +0800
Subject: [PATCH 579/976] refactor(cpu_types_scalar.hpp): Unify scalar loop
 implementations using unroll_loop (#28847)

Signed-off-by: ihb2032 <1355790728@qq.com>
Co-authored-by: lyd1992 <liuyudong@iscas.ac.cn>
---
 csrc/cpu/cpu_types_scalar.hpp | 222 +++++++++++++---------------------
 1 file changed, 87 insertions(+), 135 deletions(-)

diff --git a/csrc/cpu/cpu_types_scalar.hpp b/csrc/cpu/cpu_types_scalar.hpp
index 1a9278bc662e5..f9da78283da5e 100644
--- a/csrc/cpu/cpu_types_scalar.hpp
+++ b/csrc/cpu/cpu_types_scalar.hpp
@@ -26,10 +26,6 @@ namespace vec_op {
 
 #define FORCE_INLINE __attribute__((always_inline)) inline
 
-#define __max(a, b) ((a) > (b) ? (a) : (b))
-#define __min(a, b) ((a) < (b) ? (a) : (b))
-#define __abs(a) ((a) < (0) ? (0 - a) : (a))
-
 typedef struct f16x8_t {
   uint16_t val[8];
 } f16x8_t;
@@ -99,7 +95,7 @@ struct FP16Vec16 : public Vec<FP16Vec16> {
   void save(void* ptr) const { *reinterpret_cast<f16x16_t*>(ptr) = reg; }
 
   void save(void* ptr, const int elem_num) const {
-    int num = __min(elem_num, VEC_ELEM_NUM);
+    int num = std::min(elem_num, VEC_ELEM_NUM);
     std::memcpy(ptr, &(reg.val[0]), num * sizeof(uint16_t));
   }
 };
@@ -128,7 +124,7 @@ struct BF16Vec16 : public Vec<BF16Vec16> {
   void save(void* ptr) const { *reinterpret_cast<f16x16_t*>(ptr) = reg; }
 
   void save(void* ptr, const int elem_num) const {
-    int num = __min(elem_num, VEC_ELEM_NUM);
+    int num = std::min(elem_num, VEC_ELEM_NUM);
     std::memcpy(ptr, &(reg.val[0]), num * sizeof(uint16_t));
   }
 };
@@ -143,9 +139,9 @@ struct BF16Vec32 : public Vec<BF16Vec32> {
   explicit BF16Vec32(f16x32_t data) : reg(data) {};
 
   explicit BF16Vec32(BF16Vec8& vec8_data) {
-    for (int i = 0; i < VEC_ELEM_NUM; ++i) {
+    unroll_loop<int, VEC_ELEM_NUM>([&vec8_data, this](int i) {
       reg.val[i] = vec8_data.reg.val[i % BF16Vec8::VEC_ELEM_NUM];
-    }
+    });
   }
 
   void save(void* ptr) const { *reinterpret_cast<f16x32_t*>(ptr) = reg; }
@@ -157,15 +153,11 @@ struct FP32Vec4 : public Vec<FP32Vec4> {
   f32x4_t reg;
 
   explicit FP32Vec4(float v) {
-    for (int i = 0; i < VEC_ELEM_NUM; ++i) {
-      reg.val[i] = v;
-    }
+    unroll_loop<int, VEC_ELEM_NUM>([&v, this](int i) { reg.val[i] = v; });
   }
 
   explicit FP32Vec4() {
-    for (int i = 0; i < VEC_ELEM_NUM; ++i) {
-      reg.val[i] = 0.0f;
-    }
+    unroll_loop<int, VEC_ELEM_NUM>([this](int i) { reg.val[i] = 0.0f; });
   }
 
   explicit FP32Vec4(const float* ptr)
@@ -182,15 +174,11 @@ struct FP32Vec8 : public Vec<FP32Vec8> {
   f32x8_t reg;
 
   explicit FP32Vec8(float v) {
-    for (int i = 0; i < VEC_ELEM_NUM; ++i) {
-      reg.val[i] = v;
-    }
+    unroll_loop<int, VEC_ELEM_NUM>([&v, this](int i) { reg.val[i] = v; });
   }
 
   explicit FP32Vec8() {
-    for (int i = 0; i < VEC_ELEM_NUM; ++i) {
-      reg.val[i] = 0.0f;
-    }
+    unroll_loop<int, VEC_ELEM_NUM>([this](int i) { reg.val[i] = 0.0f; });
   }
 
   explicit FP32Vec8(const float* ptr)
@@ -201,78 +189,68 @@ struct FP32Vec8 : public Vec<FP32Vec8> {
   explicit FP32Vec8(const FP32Vec8& data) : reg(data.reg) {};
 
   explicit FP32Vec8(const FP16Vec8& v) {
-    for (int i = 0; i < VEC_ELEM_NUM; ++i) {
-      reg.val[i] = fp16_to_float(v.reg.val[i]);
-    }
+    unroll_loop<int, VEC_ELEM_NUM>(
+        [&v, this](int i) { reg.val[i] = fp16_to_float(v.reg.val[i]); });
   }
 
   FP32Vec8(const BF16Vec8& v) {
-    for (int i = 0; i < VEC_ELEM_NUM; ++i) {
-      reg.val[i] = bf16_to_float(v.reg.val[i]);
-    }
+    unroll_loop<int, VEC_ELEM_NUM>(
+        [&v, this](int i) { reg.val[i] = bf16_to_float(v.reg.val[i]); });
   }
 
   float reduce_sum() const {
     float result = 0;
-    for (int i = 0; i < VEC_ELEM_NUM; ++i) {
-      result += reg.val[i];
-    }
+    unroll_loop<int, VEC_ELEM_NUM>(
+        [&result, this](int i) { result += reg.val[i]; });
     return result;
   }
 
   FP32Vec8 exp() const {
     f32x8_t ret;
-    for (int i = 0; i < VEC_ELEM_NUM; ++i) {
-      ret.val[i] = expf(reg.val[i]);
-    }
+    unroll_loop<int, VEC_ELEM_NUM>(
+        [&ret, this](int i) { ret.val[i] = expf(reg.val[i]); });
     return FP32Vec8(ret);
   }
 
   FP32Vec8 tanh() const {
     f32x8_t ret;
-    for (int i = 0; i < VEC_ELEM_NUM; ++i) {
-      ret.val[i] = tanhf(reg.val[i]);
-    }
+    unroll_loop<int, VEC_ELEM_NUM>(
+        [&ret, this](int i) { ret.val[i] = tanhf(reg.val[i]); });
     return FP32Vec8(ret);
   }
 
   FP32Vec8 er() const {
     f32x8_t ret;
-    for (int i = 0; i < VEC_ELEM_NUM; ++i) {
-      ret.val[i] = erf(reg.val[i]);
-    }
+    unroll_loop<int, VEC_ELEM_NUM>(
+        [&ret, this](int i) { ret.val[i] = erf(reg.val[i]); });
     return FP32Vec8(ret);
   }
 
   FP32Vec8 operator*(const FP32Vec8& b) const {
     f32x8_t ret;
-    for (int i = 0; i < VEC_ELEM_NUM; ++i) {
-      ret.val[i] = reg.val[i] * b.reg.val[i];
-    }
+    unroll_loop<int, VEC_ELEM_NUM>(
+        [&ret, &b, this](int i) { ret.val[i] = reg.val[i] * b.reg.val[i]; });
     return FP32Vec8(ret);
   }
 
   FP32Vec8 operator+(const FP32Vec8& b) const {
     f32x8_t ret;
-    for (int i = 0; i < VEC_ELEM_NUM; ++i) {
-      ret.val[i] = reg.val[i] + b.reg.val[i];
-    }
+    unroll_loop<int, VEC_ELEM_NUM>(
+        [&ret, &b, this](int i) { ret.val[i] = reg.val[i] + b.reg.val[i]; });
     return FP32Vec8(ret);
   }
 
   FP32Vec8 operator-(const FP32Vec8& b) const {
     f32x8_t ret;
-    for (int i = 0; i < VEC_ELEM_NUM; ++i) {
-      ret.val[i] = reg.val[i] - b.reg.val[i];
-    }
+    unroll_loop<int, VEC_ELEM_NUM>(
+        [&ret, &b, this](int i) { ret.val[i] = reg.val[i] - b.reg.val[i]; });
     return FP32Vec8(ret);
   }
 
   FP32Vec8 operator/(const FP32Vec8& b) const {
     f32x8_t ret;
-    for (int i = 0; i < VEC_ELEM_NUM; ++i) {
-      ret.val[i] = reg.val[i] / b.reg.val[i];
-    }
+    unroll_loop<int, VEC_ELEM_NUM>(
+        [&ret, &b, this](int i) { ret.val[i] = reg.val[i] / b.reg.val[i]; });
     return FP32Vec8(ret);
   }
 
@@ -284,15 +262,11 @@ struct FP32Vec16 : public Vec<FP32Vec16> {
   f32x16_t reg;
 
   explicit FP32Vec16(float v) {
-    for (int i = 0; i < VEC_ELEM_NUM; ++i) {
-      reg.val[i] = v;
-    }
+    unroll_loop<int, VEC_ELEM_NUM>([&v, this](int i) { reg.val[i] = v; });
   }
 
   explicit FP32Vec16() {
-    for (int i = 0; i < VEC_ELEM_NUM; ++i) {
-      reg.val[i] = 0.0f;
-    }
+    unroll_loop<int, VEC_ELEM_NUM>([this](int i) { reg.val[i] = 0.0f; });
   }
 
   explicit FP32Vec16(const float* ptr)
@@ -301,29 +275,27 @@ struct FP32Vec16 : public Vec<FP32Vec16> {
   explicit FP32Vec16(f32x16_t data) : reg(data) {};
 
   FP32Vec16(const FP32Vec4& data) {
-    for (int i = 0; i < VEC_ELEM_NUM; ++i) {
+    unroll_loop<int, VEC_ELEM_NUM>([&data, this](int i) {
       reg.val[i] = data.reg.val[i % FP32Vec4::VEC_ELEM_NUM];
-    }
+    });
   }
 
   FP32Vec16(const FP32Vec8& data) {
-    for (int i = 0; i < VEC_ELEM_NUM; ++i) {
+    unroll_loop<int, VEC_ELEM_NUM>([&data, this](int i) {
       reg.val[i] = data.reg.val[i % FP32Vec8::VEC_ELEM_NUM];
-    }
+    });
   }
 
   FP32Vec16(const FP32Vec16& data) : reg(data.reg) {};
 
   explicit FP32Vec16(const FP16Vec16& v) {
-    for (int i = 0; i < VEC_ELEM_NUM; ++i) {
-      reg.val[i] = fp16_to_float(v.reg.val[i]);
-    }
+    unroll_loop<int, VEC_ELEM_NUM>(
+        [&v, this](int i) { reg.val[i] = fp16_to_float(v.reg.val[i]); });
   }
 
   explicit FP32Vec16(const BF16Vec16& v) {
-    for (int i = 0; i < VEC_ELEM_NUM; ++i) {
-      reg.val[i] = bf16_to_float(v.reg.val[i]);
-    }
+    unroll_loop<int, VEC_ELEM_NUM>(
+        [&v, this](int i) { reg.val[i] = bf16_to_float(v.reg.val[i]); });
   }
 
   explicit FP32Vec16(const FP16Vec8& v) : FP32Vec16(FP32Vec8(v)) {};
@@ -331,82 +303,74 @@ struct FP32Vec16 : public Vec<FP32Vec16> {
   FP32Vec16(const BF16Vec8& v) : FP32Vec16(FP32Vec8(v)) {};
 
   FP32Vec16 operator*(const FP32Vec16& b) const {
-    FP32Vec16 result(0.0f);
-    for (int i = 0; i < VEC_ELEM_NUM; ++i) {
-      result.reg.val[i] = reg.val[i] * b.reg.val[i];
-    }
-    return result;
+    f32x16_t ret;
+    unroll_loop<int, VEC_ELEM_NUM>(
+        [&ret, &b, this](int i) { ret.val[i] = reg.val[i] * b.reg.val[i]; });
+    return FP32Vec16(ret);
   }
 
   FP32Vec16 operator+(const FP32Vec16& b) const {
-    FP32Vec16 result(0.0f);
-    for (int i = 0; i < VEC_ELEM_NUM; ++i) {
-      result.reg.val[i] = reg.val[i] + b.reg.val[i];
-    }
-    return result;
+    f32x16_t ret;
+    unroll_loop<int, VEC_ELEM_NUM>(
+        [&ret, &b, this](int i) { ret.val[i] = reg.val[i] + b.reg.val[i]; });
+    return FP32Vec16(ret);
   }
 
   FP32Vec16 operator-(const FP32Vec16& b) const {
-    FP32Vec16 result(0.0f);
-    for (int i = 0; i < VEC_ELEM_NUM; ++i) {
-      result.reg.val[i] = reg.val[i] - b.reg.val[i];
-    }
-    return result;
+    f32x16_t ret;
+    unroll_loop<int, VEC_ELEM_NUM>(
+        [&ret, &b, this](int i) { ret.val[i] = reg.val[i] - b.reg.val[i]; });
+    return FP32Vec16(ret);
   }
 
   FP32Vec16 operator/(const FP32Vec16& b) const {
-    FP32Vec16 result(0.0f);
-    for (int i = 0; i < VEC_ELEM_NUM; ++i) {
-      result.reg.val[i] = reg.val[i] / b.reg.val[i];
-    }
-    return result;
+    f32x16_t ret;
+    unroll_loop<int, VEC_ELEM_NUM>(
+        [&ret, &b, this](int i) { ret.val[i] = reg.val[i] / b.reg.val[i]; });
+    return FP32Vec16(ret);
   }
 
   FP32Vec16 max(const FP32Vec16& b) const {
-    FP32Vec16 result(0.0f);
-    for (int i = 0; i < VEC_ELEM_NUM; ++i) {
-      result.reg.val[i] = __max(reg.val[i], b.reg.val[i]);
-    }
-    return result;
+    f32x16_t ret;
+    unroll_loop<int, VEC_ELEM_NUM>([&ret, &b, this](int i) {
+      ret.val[i] = std::max(reg.val[i], b.reg.val[i]);
+    });
+    return FP32Vec16(ret);
   }
 
   FP32Vec16 min(const FP32Vec16& b) const {
-    FP32Vec16 result(0.0f);
-    for (int i = 0; i < VEC_ELEM_NUM; ++i) {
-      result.reg.val[i] = __min(reg.val[i], b.reg.val[i]);
-    }
-    return result;
+    f32x16_t ret;
+    unroll_loop<int, VEC_ELEM_NUM>([&ret, &b, this](int i) {
+      ret.val[i] = std::min(reg.val[i], b.reg.val[i]);
+    });
+    return FP32Vec16(ret);
   }
 
   FP32Vec16 abs() const {
-    FP32Vec16 result(0.0f);
-    for (int i = 0; i < VEC_ELEM_NUM; ++i) {
-      result.reg.val[i] = __abs(reg.val[i]);
-    }
-    return result;
+    f32x16_t ret;
+    unroll_loop<int, VEC_ELEM_NUM>(
+        [&ret, this](int i) { ret.val[i] = std::abs(reg.val[i]); });
+    return FP32Vec16(ret);
   }
 
   float reduce_sum() const {
     float result = 0.0f;
-    for (int i = 0; i < VEC_ELEM_NUM; ++i) {
-      result += reg.val[i];
-    }
+    unroll_loop<int, VEC_ELEM_NUM>(
+        [&result, this](int i) { result += reg.val[i]; });
     return result;
   }
 
   float reduce_max() const {
-    float result = reg.val[0];
-    for (int i = 0; i < VEC_ELEM_NUM; ++i) {
-      result = __max(reg.val[i], result);
-    }
+    float result = std::numeric_limits<float>::lowest();
+    unroll_loop<int, VEC_ELEM_NUM>(
+        [&result, this](int i) { result = std::max(reg.val[i], result); });
     return result;
   }
 
   float reduce_min() const {
-    float result = reg.val[0];
-    for (int i = 0; i < VEC_ELEM_NUM; ++i) {
-      result = __min(reg.val[i], result);
-    }
+    float result = std::numeric_limits<float>::max();
+    unroll_loop<int, VEC_ELEM_NUM>(
+        [&result, this](int i) { result = std::min(reg.val[i], result); });
     return result;
   }
 
@@ -414,13 +378,9 @@ struct FP32Vec16 : public Vec<FP32Vec16> {
   float reduce_sub_sum(int idx) {
     static_assert(VEC_ELEM_NUM % group_size == 0);
     float sum = 0.0;
-    int start = idx * group_size;
-    int end = (idx + 1) * group_size;
-
-    for (; (start < VEC_ELEM_NUM) && (start < end); ++start) {
-      sum += reg.val[start];
-    }
-
+    const int start = idx * group_size;
+    unroll_loop<int, group_size>(
+        [&sum, &start, this](int i) { sum += reg.val[start + i]; });
     return sum;
   }
 
@@ -477,17 +437,13 @@ inline void storeFP32<c10::BFloat16>(float v, c10::BFloat16* ptr) {
 }
 
 inline FP16Vec16::FP16Vec16(const FP32Vec16& v) {
-  int i = 0;
-  for (i = 0; i < FP16Vec16::VEC_ELEM_NUM; ++i) {
-    reg.val[i] = float_to_fp16(v.reg.val[i]);
-  }
+  unroll_loop<int, FP16Vec16::VEC_ELEM_NUM>(
+      [&v, this](int i) { reg.val[i] = float_to_fp16(v.reg.val[i]); });
 }
 
 inline FP16Vec8 ::FP16Vec8(const FP32Vec8& v) {
-  int i = 0;
-  for (i = 0; i < FP16Vec8::VEC_ELEM_NUM; ++i) {
-    reg.val[i] = float_to_fp16(v.reg.val[i]);
-  }
+  unroll_loop<int, FP16Vec8::VEC_ELEM_NUM>(
+      [&v, this](int i) { reg.val[i] = float_to_fp16(v.reg.val[i]); });
 }
 
 inline void fma(FP32Vec16& acc, FP32Vec16& a, FP32Vec16& b) {
@@ -495,17 +451,13 @@ inline void fma(FP32Vec16& acc, FP32Vec16& a, FP32Vec16& b) {
 }
 
 inline BF16Vec8::BF16Vec8(const FP32Vec8& v) {
-  int i = 0;
-  for (i = 0; i < BF16Vec8::VEC_ELEM_NUM; ++i) {
-    reg.val[i] = float_to_bf16(v.reg.val[i]);
-  }
+  unroll_loop<int, BF16Vec8::VEC_ELEM_NUM>(
+      [&v, this](int i) { reg.val[i] = float_to_bf16(v.reg.val[i]); });
 }
 
 inline BF16Vec16::BF16Vec16(const FP32Vec16& v) {
-  int i = 0;
-  for (i = 0; i < BF16Vec16::VEC_ELEM_NUM; ++i) {
-    reg.val[i] = float_to_bf16(v.reg.val[i]);
-  }
+  unroll_loop<int, BF16Vec16::VEC_ELEM_NUM>(
+      [&v, this](int i) { reg.val[i] = float_to_bf16(v.reg.val[i]); });
 }
 
 inline void prefetch(const void* addr) { __builtin_prefetch(addr, 0, 3); }

From bbc6c2f1e5bc856a9265dfa2b379ed1d242adc33 Mon Sep 17 00:00:00 2001
From: j20120307 <j20120307@gmail.com>
Date: Wed, 19 Nov 2025 03:07:22 -0800
Subject: [PATCH 580/976] [CI/Build] Fix broken build on Apple M1 (#28999)

Signed-off-by: Kan Zhu <j20120307@gmail.com>
---
 csrc/cpu/utils.hpp | 18 ++++++++++++++++++
 1 file changed, 18 insertions(+)

diff --git a/csrc/cpu/utils.hpp b/csrc/cpu/utils.hpp
index d8399c56f6af8..d3def306b8069 100644
--- a/csrc/cpu/utils.hpp
+++ b/csrc/cpu/utils.hpp
@@ -6,6 +6,10 @@
 #include <cstdint>
 #include <unistd.h>
 
+#if defined(__APPLE__)
+  #include <sys/sysctl.h>
+#endif
+
 #include "cpu_types.hpp"
 
 namespace cpu_utils {
@@ -21,10 +25,12 @@ struct VecTypeTrait<float> {
   using vec_t = vec_op::FP32Vec16;
 };
 
+#if !defined(__aarch64__) || defined(ARM_BF16_SUPPORT)
 template <>
 struct VecTypeTrait<c10::BFloat16> {
   using vec_t = vec_op::BF16Vec16;
 };
+#endif
 
 template <>
 struct VecTypeTrait<c10::Half> {
@@ -44,9 +50,21 @@ struct Counter {
 
 inline int64_t get_l2_size() {
   static int64_t size = []() {
+#if defined(__APPLE__)
+    // macOS doesn't have _SC_LEVEL2_CACHE_SIZE. Use sysctlbyname.
+    int64_t l2_cache_size = 0;
+    size_t len = sizeof(l2_cache_size);
+    if (sysctlbyname("hw.l2cachesize", &l2_cache_size, &len, NULL, 0) == 0 &&
+        l2_cache_size > 0) {
+      return l2_cache_size >> 1;  // use 50% of L2 cache
+    }
+    // Fallback if sysctlbyname fails
+    return 128LL * 1024 >> 1;  // use 50% of 128KB
+#else
     long l2_cache_size = sysconf(_SC_LEVEL2_CACHE_SIZE);
     assert(l2_cache_size != -1);
     return l2_cache_size >> 1;  // use 50% of L2 cache
+#endif
   }();
   return size;
 }

From 97cfa99d59375de6d5e4c17dc6aea955ae75b493 Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Wed, 19 Nov 2025 12:32:04 +0100
Subject: [PATCH 581/976] [Docs] Take env var definition out of folded
 admonition (#29005)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 docs/configuration/env_vars.md | 8 +++-----
 1 file changed, 3 insertions(+), 5 deletions(-)

diff --git a/docs/configuration/env_vars.md b/docs/configuration/env_vars.md
index 2c0a898754fa0..f6d548a19d91f 100644
--- a/docs/configuration/env_vars.md
+++ b/docs/configuration/env_vars.md
@@ -7,8 +7,6 @@ vLLM uses the following environment variables to configure the system:
 
     All environment variables used by vLLM are prefixed with `VLLM_`. **Special care should be taken for Kubernetes users**: please do not name the service as `vllm`, otherwise environment variables set by Kubernetes might conflict with vLLM's environment variables, because [Kubernetes sets environment variables for each service with the capitalized service name as the prefix](https://kubernetes.io/docs/concepts/services-networking/service/#environment-variables).
 
-??? code
-
-    ```python
-    --8<-- "vllm/envs.py:env-vars-definition"
-    ```
+```python
+--8<-- "vllm/envs.py:env-vars-definition"
+```

From ba558c029ad65ab4f040c8320607ebd87612cf08 Mon Sep 17 00:00:00 2001
From: Tova Movshovitz <tovam@pliops.com>
Date: Wed, 19 Nov 2025 13:37:11 +0200
Subject: [PATCH 582/976] [config] Expose `get_total_num_hidden_layers()` in
 ModelConfig (#28961)

Signed-off-by: tovam <tovam@pliops.com>
Co-authored-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com>
Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>
---
 vllm/config/model.py | 15 ++++++++++-----
 1 file changed, 10 insertions(+), 5 deletions(-)

diff --git a/vllm/config/model.py b/vllm/config/model.py
index 3e8790a26e0e3..f61dbb6a695a2 100644
--- a/vllm/config/model.py
+++ b/vllm/config/model.py
@@ -1369,11 +1369,7 @@ class ModelConfig:
         # Coerce to 0 if explicitly set to None
         return num_experts or 0
 
-    def get_layers_start_end_indices(
-        self, parallel_config: ParallelConfig
-    ) -> tuple[int, int]:
-        from vllm.distributed.utils import get_pp_indices
-
+    def get_total_num_hidden_layers(self) -> int:
         if (
             self.hf_text_config.model_type == "deepseek_mtp"
             or self.hf_config.model_type == "mimo_mtp"
@@ -1393,6 +1389,15 @@ class ModelConfig:
             total_num_hidden_layers = getattr(
                 self.hf_text_config, "num_hidden_layers", 0
             )
+        return total_num_hidden_layers
+
+    def get_layers_start_end_indices(
+        self, parallel_config: ParallelConfig
+    ) -> tuple[int, int]:
+        from vllm.distributed.utils import get_pp_indices
+
+        total_num_hidden_layers = self.get_total_num_hidden_layers()
+
         # the layout order is: DP x PP x TP
         pp_rank = (
             parallel_config.rank // parallel_config.tensor_parallel_size

From da2f6800e0d6ac768c6f63b95f7c0755407f4263 Mon Sep 17 00:00:00 2001
From: Chen Bruce <bruceszchen@tencent.com>
Date: Wed, 19 Nov 2025 20:46:24 +0800
Subject: [PATCH 583/976] [Feat][Perf] Enable deepep-low-latency with
 round-robin expert placement. (#28449)

Signed-off-by: bruceszchen <bruceszchen@tencent.com>
Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 .../layers/fused_moe/all2all_utils.py         |  11 ++
 .../fused_moe/deepep_ll_prepare_finalize.py   |  30 +++-
 .../layers/fused_moe/fused_moe_method_base.py |   9 +-
 vllm/model_executor/layers/fused_moe/layer.py | 157 +++++++++++++++---
 .../fused_moe/unquantized_fused_moe_method.py |   7 +-
 .../compressed_tensors_moe.py                 |  14 +-
 .../model_executor/layers/quantization/fp8.py |   7 +-
 .../layers/quantization/modelopt.py           |  10 +-
 8 files changed, 208 insertions(+), 37 deletions(-)

diff --git a/vllm/model_executor/layers/fused_moe/all2all_utils.py b/vllm/model_executor/layers/fused_moe/all2all_utils.py
index 2dd625054339c..86c50f39f0076 100644
--- a/vllm/model_executor/layers/fused_moe/all2all_utils.py
+++ b/vllm/model_executor/layers/fused_moe/all2all_utils.py
@@ -67,6 +67,7 @@ def maybe_roundup_layer_hidden_size(
 def maybe_make_prepare_finalize(
     moe: FusedMoEConfig,
     quant_config: FusedMoEQuantConfig | None,
+    routing_tables: tuple[torch.Tensor, torch.Tensor, torch.Tensor] | None = None,
 ) -> FusedMoEPrepareAndFinalize | None:
     if not moe.moe_parallel_config.use_all2all_kernels:
         return None
@@ -134,6 +135,13 @@ def maybe_make_prepare_finalize(
 
     elif moe.use_deepep_ll_kernels:
         assert quant_config is not None
+        global_to_physical = physical_to_global = local_expert_global_ids = None
+        if routing_tables is not None:
+            (
+                global_to_physical,
+                physical_to_global,
+                local_expert_global_ids,
+            ) = routing_tables
         all_to_all_args = dict(
             max_num_tokens_per_dp_rank=moe.max_num_tokens,
             token_hidden_size=moe.hidden_dim,
@@ -155,6 +163,9 @@ def maybe_make_prepare_finalize(
             max_tokens_per_rank=moe.max_num_tokens,
             num_dispatchers=all2all_manager.world_size,
             use_fp8_dispatch=use_fp8_dispatch,
+            global_to_physical=global_to_physical,
+            physical_to_global=physical_to_global,
+            local_expert_global_ids=local_expert_global_ids,
         )
 
     return prepare_finalize
diff --git a/vllm/model_executor/layers/fused_moe/deepep_ll_prepare_finalize.py b/vllm/model_executor/layers/fused_moe/deepep_ll_prepare_finalize.py
index 06c9df317f7c7..e0db248958b47 100644
--- a/vllm/model_executor/layers/fused_moe/deepep_ll_prepare_finalize.py
+++ b/vllm/model_executor/layers/fused_moe/deepep_ll_prepare_finalize.py
@@ -85,6 +85,9 @@ class DeepEPLLPrepareAndFinalize(mk.FusedMoEPrepareAndFinalize):
         max_tokens_per_rank: int,
         num_dispatchers: int,
         use_fp8_dispatch: bool = False,
+        global_to_physical: torch.Tensor | None = None,
+        physical_to_global: torch.Tensor | None = None,
+        local_expert_global_ids: torch.Tensor | None = None,
     ):
         super().__init__()
 
@@ -97,6 +100,17 @@ class DeepEPLLPrepareAndFinalize(mk.FusedMoEPrepareAndFinalize):
         self.handles: list[tuple | None] = [None, None]
         self.num_dispatchers_ = num_dispatchers
 
+        topk_indices_dtype = self.topk_indices_dtype()
+
+        def _maybe_cast(tensor: torch.Tensor | None) -> torch.Tensor | None:
+            if tensor is None or topk_indices_dtype is None:
+                return tensor
+            return tensor.to(dtype=topk_indices_dtype)
+
+        self.global_to_physical = _maybe_cast(global_to_physical)
+        self.physical_to_global = _maybe_cast(physical_to_global)
+        self.local_expert_global_ids = _maybe_cast(local_expert_global_ids)
+
         # We don't have enough information to determine if we should dispatch
         # activation scales in a packed ue8m0 format during object construction
         # time. This setting is handled by post_init_setup.
@@ -136,6 +150,16 @@ class DeepEPLLPrepareAndFinalize(mk.FusedMoEPrepareAndFinalize):
     def topk_indices_dtype(self) -> torch.dtype | None:
         return torch.int64
 
+    def _map_global_to_physical_ids(self, topk_ids: torch.Tensor) -> torch.Tensor:
+        if self.global_to_physical is None:
+            return topk_ids
+        return self.global_to_physical[topk_ids]
+
+    def _map_local_to_global_ids(self, expert_topk_ids: torch.Tensor) -> torch.Tensor:
+        if self.local_expert_global_ids is None:
+            return expert_topk_ids
+        return self.local_expert_global_ids[expert_topk_ids]
+
     def _do_quant(
         self,
         x: torch.Tensor | tuple[torch.Tensor, torch.Tensor],
@@ -226,9 +250,10 @@ class DeepEPLLPrepareAndFinalize(mk.FusedMoEPrepareAndFinalize):
             a1 = a1 * topk_weights.to(a1.dtype)
 
         # Dispatch
+        dispatch_topk_ids = self._map_global_to_physical_ids(topk_ids)
         expert_x, expert_num_tokens, handle, _, hook = self.buffer.low_latency_dispatch(
             a1,
-            topk_ids,
+            dispatch_topk_ids,
             self.max_tokens_per_rank,
             num_experts,
             use_fp8=self.use_fp8_dispatch,
@@ -313,11 +338,12 @@ class DeepEPLLPrepareAndFinalize(mk.FusedMoEPrepareAndFinalize):
             # weights have already been applied.
             combine_topk_weights = torch.ones_like(topk_weights)
 
+        combine_topk_ids = self._map_global_to_physical_ids(topk_ids)
         # TODO (varun) : Enable zero copy mode
         dbo_maybe_run_recv_hook()
         _, _, recv_hook = self.buffer.low_latency_combine(
             fused_expert_output,
-            topk_ids,
+            combine_topk_ids,
             combine_topk_weights,
             handle,
             async_finish=False,
diff --git a/vllm/model_executor/layers/fused_moe/fused_moe_method_base.py b/vllm/model_executor/layers/fused_moe/fused_moe_method_base.py
index 87f8c8d75a9b5..073e90a4e6808 100644
--- a/vllm/model_executor/layers/fused_moe/fused_moe_method_base.py
+++ b/vllm/model_executor/layers/fused_moe/fused_moe_method_base.py
@@ -50,10 +50,15 @@ class FusedMoEMethodBase(QuantizeMethodBase):
         """
         return False
 
-    def maybe_make_prepare_finalize(self) -> FusedMoEPrepareAndFinalize | None:
+    def maybe_make_prepare_finalize(
+        self,
+        routing_tables: tuple[torch.Tensor, torch.Tensor, torch.Tensor] | None = None,
+    ) -> FusedMoEPrepareAndFinalize | None:
         from .all2all_utils import maybe_make_prepare_finalize
 
-        return maybe_make_prepare_finalize(self.moe, self.moe_quant_config)
+        return maybe_make_prepare_finalize(
+            self.moe, self.moe_quant_config, routing_tables
+        )
 
     def select_gemm_impl(
         self,
diff --git a/vllm/model_executor/layers/fused_moe/layer.py b/vllm/model_executor/layers/fused_moe/layer.py
index 023132acfed3f..c41995e4a9136 100644
--- a/vllm/model_executor/layers/fused_moe/layer.py
+++ b/vllm/model_executor/layers/fused_moe/layer.py
@@ -5,7 +5,7 @@ from collections.abc import Callable, Iterable
 from contextlib import nullcontext
 from enum import Enum
 from functools import partial
-from typing import Literal, get_args, overload
+from typing import Literal, cast, get_args, overload
 
 import torch
 import torch.nn.functional as F
@@ -192,6 +192,42 @@ def determine_expert_map(
     return (local_num_experts, expert_map, expert_mask)
 
 
+def determine_expert_placement_strategy(
+    expert_placement_strategy: ExpertPlacementStrategy,
+    moe_parallel_config: FusedMoEParallelConfig,
+    num_expert_group: int | None,
+    num_redundant_experts: int,
+    enable_eplb: bool,
+) -> ExpertPlacementStrategy:
+    if expert_placement_strategy == "round_robin":
+        round_robin_supported = (
+            (num_expert_group is not None and num_expert_group > 1)
+            and num_redundant_experts == 0
+            and not enable_eplb
+        )
+
+        if not round_robin_supported:
+            logger.warning(
+                "Round-robin expert placement is only supported for "
+                "models with multiple expert groups and no redundant "
+                "experts. Falling back to linear expert placement."
+            )
+            return "linear"
+        if (
+            moe_parallel_config.use_all2all_kernels
+            and not moe_parallel_config.use_deepep_ll_kernels
+        ):
+            logger.warning(
+                "Round-robin expert placement currently only supports "
+                "the DeepEP low-latency backend, but '%s' was configured. "
+                "Falling back to linear expert placement.",
+                moe_parallel_config.all2all_backend,
+            )
+            return "linear"
+
+    return expert_placement_strategy
+
+
 def get_compressed_expert_map(expert_map: torch.Tensor) -> str:
     """
     Compresses the expert map by removing any -1 entries.
@@ -400,6 +436,9 @@ class FusedMoE(CustomOp):
         self.expert_load_view: torch.Tensor | None = None
         self.logical_to_physical_map: torch.Tensor | None = None
         self.logical_replica_count: torch.Tensor | None = None
+        self.expert_placement_strategy: ExpertPlacementStrategy = (
+            vllm_config.parallel_config.expert_placement_strategy
+        )
 
         # ROCm aiter shared experts fusion
         self.rocm_aiter_fmoe_enabled = rocm_aiter_ops.is_fused_moe_enabled()
@@ -433,38 +472,27 @@ class FusedMoE(CustomOp):
                     "Redundant experts are only supported with EPLB."
                 )
 
-            expert_placement_strategy = (
-                vllm_config.parallel_config.expert_placement_strategy
+            self.expert_placement_strategy = determine_expert_placement_strategy(
+                expert_placement_strategy=self.expert_placement_strategy,
+                moe_parallel_config=self.moe_parallel_config,
+                num_expert_group=num_expert_group,
+                num_redundant_experts=num_redundant_experts,
+                enable_eplb=self.enable_eplb,
             )
-            if expert_placement_strategy == "round_robin":
-                # TODO(Bruce): will support round robin expert placement with
-                # EPLB enabled in the future.
-                round_robin_supported = (
-                    (num_expert_group is not None and num_expert_group > 1)
-                    and num_redundant_experts == 0
-                    and not self.enable_eplb
-                )
-
-                if not round_robin_supported:
-                    logger.warning(
-                        "Round-robin expert placement is only supported for "
-                        "models with multiple expert groups and no redundant "
-                        "experts. Falling back to linear expert placement."
-                    )
-                    expert_placement_strategy = "linear"
 
             self.expert_map: torch.Tensor | None
             local_num_experts, expert_map, expert_mask = determine_expert_map(
                 ep_size=self.ep_size,
                 ep_rank=self.ep_rank,
                 global_num_experts=self.global_num_experts,
-                expert_placement_strategy=expert_placement_strategy,
+                expert_placement_strategy=self.expert_placement_strategy,
                 num_fused_shared_experts=self.num_fused_shared_experts,
                 return_expert_mask=self.rocm_aiter_fmoe_enabled,
             )
             self.local_num_experts = local_num_experts
             self.register_buffer("expert_map", expert_map)
             self.register_buffer("expert_mask", expert_mask)
+            self._maybe_init_expert_routing_tables()
             logger.info_once(
                 "[EP Rank %s/%s] Expert parallelism is enabled. Expert "
                 "placement strategy: %s. Local/global"
@@ -472,7 +500,7 @@ class FusedMoE(CustomOp):
                 " %s.",
                 self.ep_rank,
                 self.ep_size,
-                expert_placement_strategy,
+                self.expert_placement_strategy,
                 self.local_num_experts,
                 self.global_num_experts,
                 get_compressed_expert_map(self.expert_map),
@@ -621,7 +649,12 @@ class FusedMoE(CustomOp):
     # should be safe to swap out the quant_method.
     def maybe_init_modular_kernel(self) -> None:
         self.ensure_moe_quant_config_init()
-        prepare_finalize = self.quant_method.maybe_make_prepare_finalize()
+        # routing_tables only needed for round-robin expert placement with
+        # DeepEP all2all backend.
+        routing_tables = self._maybe_init_expert_routing_tables()
+        prepare_finalize = self.quant_method.maybe_make_prepare_finalize(
+            routing_tables=routing_tables
+        )
         if prepare_finalize is not None:
             logger.debug(
                 "%s for %s(%s)", prepare_finalize.__class__.__name__, self, id(self)
@@ -703,6 +736,84 @@ class FusedMoE(CustomOp):
         # By default, router/gate is called before FusedMoE forward pass
         return False
 
+    def _maybe_init_expert_routing_tables(
+        self,
+    ) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor] | None:
+        # Currently routing_tables only needed for round-robin expert placement
+        # with DeepEP-ll all2all backend.
+        if (
+            self.expert_placement_strategy != "round_robin"
+            or not self.use_deepep_ll_kernels
+        ):
+            return None
+
+        if hasattr(self, "expert_global_to_physical"):
+            return cast(
+                tuple[torch.Tensor, torch.Tensor, torch.Tensor],
+                (
+                    self.expert_global_to_physical,
+                    self.expert_physical_to_global,
+                    self.expert_local_to_global,
+                ),
+            )
+
+        if self.expert_map is None:
+            return None
+
+        routing_tables = self.ensure_round_robin_expert_routing_tables(
+            global_num_experts=self.global_num_experts,
+            ep_size=self.ep_size,
+            ep_rank=self.ep_rank,
+            local_num_experts=self.local_num_experts,
+            device=self.expert_map.device,
+        )
+
+        global_to_physical, physical_to_global, local_global = routing_tables
+        self.register_buffer("expert_global_to_physical", global_to_physical)
+        self.register_buffer("expert_physical_to_global", physical_to_global)
+        self.register_buffer("expert_local_to_global", local_global)
+
+        return routing_tables
+
+    @staticmethod
+    def ensure_round_robin_expert_routing_tables(
+        global_num_experts: int,
+        ep_size: int,
+        ep_rank: int,
+        local_num_experts: int,
+        device: torch.device | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+        device_kwargs = {"device": device} if device is not None else {}
+        global_indices = torch.arange(
+            global_num_experts, dtype=torch.long, **device_kwargs
+        )
+        owner = torch.remainder(global_indices, ep_size)
+        local_index = torch.div(global_indices, ep_size, rounding_mode="floor")
+        base = global_num_experts // ep_size
+        remainder = global_num_experts % ep_size
+        physical_offset = owner * base
+        if remainder > 0:
+            remainder_tensor = torch.tensor(
+                remainder, dtype=torch.long, **device_kwargs
+            )
+            physical_offset = physical_offset + torch.minimum(owner, remainder_tensor)
+
+        global_to_physical = physical_offset + local_index
+        physical_to_global = torch.empty_like(global_to_physical)
+        physical_to_global[global_to_physical] = global_indices
+
+        local_global = torch.arange(
+            ep_rank,
+            global_num_experts,
+            ep_size,
+            dtype=torch.long,
+            **device_kwargs,
+        )
+        if local_global.numel() != local_num_experts:
+            local_global = local_global[:local_num_experts]
+
+        return (global_to_physical, physical_to_global, local_global)
+
     def update_expert_map(self):
         # ep_size and ep_rank should already be updated
         assert self.expert_map is not None
@@ -711,12 +822,14 @@ class FusedMoE(CustomOp):
                 ep_size=self.ep_size,
                 ep_rank=self.ep_rank,
                 global_num_experts=self.global_num_experts,
+                expert_placement_strategy=self.expert_placement_strategy,
                 num_fused_shared_experts=self.num_fused_shared_experts,
                 return_expert_mask=self.rocm_aiter_fmoe_enabled,
             )
             self.local_num_experts = local_num_experts
             self.register_buffer("expert_map", expert_map)
             self.register_buffer("expert_mask", expert_mask)
+            self._maybe_init_expert_routing_tables()
             if self.aiter_fmoe_shared_expert_enabled:
                 self._init_aiter_shared_experts_topK_buffer(
                     vllm_config=get_current_vllm_config(),
diff --git a/vllm/model_executor/layers/fused_moe/unquantized_fused_moe_method.py b/vllm/model_executor/layers/fused_moe/unquantized_fused_moe_method.py
index 2e0376553b913..63b0e6f573d65 100644
--- a/vllm/model_executor/layers/fused_moe/unquantized_fused_moe_method.py
+++ b/vllm/model_executor/layers/fused_moe/unquantized_fused_moe_method.py
@@ -108,11 +108,14 @@ class UnquantizedFusedMoEMethod(FusedMoEMethodBase, CustomOp):
     def allow_inplace(self) -> bool:
         return True
 
-    def maybe_make_prepare_finalize(self) -> FusedMoEPrepareAndFinalize | None:
+    def maybe_make_prepare_finalize(
+        self,
+        routing_tables: tuple[torch.Tensor, torch.Tensor, torch.Tensor] | None = None,
+    ) -> FusedMoEPrepareAndFinalize | None:
         if self.rocm_aiter_moe_enabled:
             return None
         else:
-            return super().maybe_make_prepare_finalize()
+            return super().maybe_make_prepare_finalize(routing_tables)
 
     def select_gemm_impl(
         self,
diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
index 06ee96d55419c..22b3c477f420f 100644
--- a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
@@ -380,11 +380,14 @@ class CompressedTensorsW4A4MoeMethod(CompressedTensorsMoEMethod):
             (layer.w2_input_global_scale), requires_grad=False
         )
 
-    def maybe_make_prepare_finalize(self) -> mk.FusedMoEPrepareAndFinalize | None:
+    def maybe_make_prepare_finalize(
+        self,
+        routing_tables: tuple[torch.Tensor, torch.Tensor, torch.Tensor] | None = None,
+    ) -> mk.FusedMoEPrepareAndFinalize | None:
         if self.use_marlin:
             return None
         elif not self.allow_flashinfer:
-            return super().maybe_make_prepare_finalize()
+            return super().maybe_make_prepare_finalize(routing_tables)
 
         prepare_finalize = build_flashinfer_fp4_cutlass_moe_prepare_finalize(self.moe)
         logger.debug_once("%s", prepare_finalize.__class__.__name__)
@@ -890,11 +893,14 @@ class CompressedTensorsW8A8Fp8MoEMethod(CompressedTensorsMoEMethod):
                     layer.w2_weight_scale
                 )
 
-    def maybe_make_prepare_finalize(self) -> mk.FusedMoEPrepareAndFinalize | None:
+    def maybe_make_prepare_finalize(
+        self,
+        routing_tables: tuple[torch.Tensor, torch.Tensor, torch.Tensor] | None = None,
+    ) -> mk.FusedMoEPrepareAndFinalize | None:
         if self.use_marlin or self.rocm_aiter_moe_enabled:
             return None
         else:
-            return super().maybe_make_prepare_finalize()
+            return super().maybe_make_prepare_finalize(routing_tables)
 
     def select_gemm_impl(
         self,
diff --git a/vllm/model_executor/layers/quantization/fp8.py b/vllm/model_executor/layers/quantization/fp8.py
index 0479bec338408..92fbdd7093483 100644
--- a/vllm/model_executor/layers/quantization/fp8.py
+++ b/vllm/model_executor/layers/quantization/fp8.py
@@ -1018,7 +1018,10 @@ class Fp8MoEMethod(FusedMoEMethodBase):
             del layer.w13_input_scale
             del layer.w2_input_scale
 
-    def maybe_make_prepare_finalize(self) -> mk.FusedMoEPrepareAndFinalize | None:
+    def maybe_make_prepare_finalize(
+        self,
+        routing_tables: tuple[torch.Tensor, torch.Tensor, torch.Tensor] | None = None,
+    ) -> mk.FusedMoEPrepareAndFinalize | None:
         if (
             self.rocm_aiter_moe_enabled
             or self.use_marlin
@@ -1039,7 +1042,7 @@ class Fp8MoEMethod(FusedMoEMethodBase):
             logger.debug_once("%s", prepare_finalize.__class__.__name__)
             return prepare_finalize
         else:
-            return super().maybe_make_prepare_finalize()
+            return super().maybe_make_prepare_finalize(routing_tables)
 
     def select_gemm_impl(
         self,
diff --git a/vllm/model_executor/layers/quantization/modelopt.py b/vllm/model_executor/layers/quantization/modelopt.py
index 476521813f464..38ab7cd4f115c 100644
--- a/vllm/model_executor/layers/quantization/modelopt.py
+++ b/vllm/model_executor/layers/quantization/modelopt.py
@@ -373,6 +373,7 @@ class ModelOptFp8MoEMethod(FusedMoEMethodBase):
 
     def maybe_make_prepare_finalize(
         self,
+        routing_tables: tuple[torch.Tensor, torch.Tensor, torch.Tensor] | None = None,
     ) -> mk.FusedMoEPrepareAndFinalize | None:
         # TRT LLM not supported with all2all yet.
         if self.flashinfer_moe_backend == FlashinferMoeBackend.TENSORRT_LLM:
@@ -384,7 +385,7 @@ class ModelOptFp8MoEMethod(FusedMoEMethodBase):
             logger.debug_once("%s", prepare_finalize.__class__.__name__)
             return prepare_finalize
         else:
-            return super().maybe_make_prepare_finalize()
+            return super().maybe_make_prepare_finalize(routing_tables)
 
     def select_gemm_impl(
         self,
@@ -1179,7 +1180,10 @@ class ModelOptNvFp4FusedMoE(FusedMoEMethodBase):
                 " for ModelOptNvFp4FusedMoE."
             )
 
-    def maybe_make_prepare_finalize(self) -> mk.FusedMoEPrepareAndFinalize | None:
+    def maybe_make_prepare_finalize(
+        self,
+        routing_tables: tuple[torch.Tensor, torch.Tensor, torch.Tensor] | None = None,
+    ) -> mk.FusedMoEPrepareAndFinalize | None:
         if self.use_marlin or (
             self.allow_flashinfer
             and self.flashinfer_moe_backend == FlashinferMoeBackend.TENSORRT_LLM
@@ -1196,7 +1200,7 @@ class ModelOptNvFp4FusedMoE(FusedMoEMethodBase):
             logger.debug_once("%s", prepare_finalize.__class__.__name__)
             return prepare_finalize
         else:
-            return super().maybe_make_prepare_finalize()
+            return super().maybe_make_prepare_finalize(routing_tables)
 
     def select_gemm_impl(
         self,

From 09540cd918a5f7d776d7f7e0abec78fbc03938ad Mon Sep 17 00:00:00 2001
From: Didier Durand <2927957+didier-durand@users.noreply.github.com>
Date: Wed, 19 Nov 2025 13:56:21 +0100
Subject: [PATCH 584/976] [Doc]: fix typos in various files (#29010)

Signed-off-by: Didier Durand <durand.didier@gmail.com>
---
 docs/deployment/frameworks/skypilot.md      | 2 +-
 docs/design/prefix_caching.md               | 2 +-
 docs/features/nixl_connector_usage.md       | 2 +-
 docs/getting_started/quickstart.md          | 2 +-
 tests/v1/ec_connector/integration/README.md | 2 +-
 vllm/multimodal/evs.py                      | 2 +-
 6 files changed, 6 insertions(+), 6 deletions(-)

diff --git a/docs/deployment/frameworks/skypilot.md b/docs/deployment/frameworks/skypilot.md
index f4a984a6433e2..e9b0d5f0671c3 100644
--- a/docs/deployment/frameworks/skypilot.md
+++ b/docs/deployment/frameworks/skypilot.md
@@ -4,7 +4,7 @@
   <img src="https://imgur.com/yxtzPEu.png" alt="vLLM"/>
 </p>
 
-vLLM can be **run and scaled to multiple service replicas on clouds and Kubernetes** with [SkyPilot](https://github.com/skypilot-org/skypilot), an open-source framework for running LLMs on any cloud. More examples for various open models, such as Llama-3, Mixtral, etc, can be found in [SkyPilot AI gallery](https://skypilot.readthedocs.io/en/latest/gallery/index.html).
+vLLM can be **run and scaled to multiple service replicas on clouds and Kubernetes** with [SkyPilot](https://github.com/skypilot-org/skypilot), an open-source framework for running LLMs on any cloud. More examples for various open models, such as Llama-3, Mixtral, etc., can be found in [SkyPilot AI gallery](https://skypilot.readthedocs.io/en/latest/gallery/index.html).
 
 ## Prerequisites
 
diff --git a/docs/design/prefix_caching.md b/docs/design/prefix_caching.md
index bd4070f381d81..48536a877bd3f 100644
--- a/docs/design/prefix_caching.md
+++ b/docs/design/prefix_caching.md
@@ -1,6 +1,6 @@
 # Automatic Prefix Caching
 
-Prefix caching kv-cache blocks is a popular optimization in LLM inference to avoid redundant prompt computations. The core idea is simple – we cache the kv-cache blocks of processed requests, and reuse these blocks when a new request comes in with the same prefix as previous requests. Since prefix caching is almost a free lunch and won’t change model outputs, it has been widely used by many public endpoints (e.g., OpenAI, Anthropic, etc) and most open source LLM inference frameworks (e.g., SGLang).
+Prefix caching kv-cache blocks is a popular optimization in LLM inference to avoid redundant prompt computations. The core idea is simple – we cache the kv-cache blocks of processed requests, and reuse these blocks when a new request comes in with the same prefix as previous requests. Since prefix caching is almost a free lunch and won’t change model outputs, it has been widely used by many public endpoints (e.g., OpenAI, Anthropic, etc.) and most open source LLM inference frameworks (e.g., SGLang).
 
 While there are many ways to implement prefix caching, vLLM chooses a hash-based approach. Specifically, we hash each kv-cache block by the tokens in the block and the tokens in the prefix before the block:
 
diff --git a/docs/features/nixl_connector_usage.md b/docs/features/nixl_connector_usage.md
index 1ce038f4d6525..f0e25e31aa0b3 100644
--- a/docs/features/nixl_connector_usage.md
+++ b/docs/features/nixl_connector_usage.md
@@ -158,7 +158,7 @@ python tests/v1/kv_connector/nixl_integration/toy_proxy_server.py \
 
 ## Experimental Feature
 
-### Heterogenuous KV Layout support
+### Heterogeneous KV Layout support
 
 Support use case: Prefill with 'HND' and decode with 'NHD' with experimental configuration
 
diff --git a/docs/getting_started/quickstart.md b/docs/getting_started/quickstart.md
index cfc8b4d9838a7..9e86f785b10c7 100644
--- a/docs/getting_started/quickstart.md
+++ b/docs/getting_started/quickstart.md
@@ -286,7 +286,7 @@ If desired, you can also manually set the backend of your choice by configuring
 - On NVIDIA CUDA: `FLASH_ATTN`, `FLASHINFER` or `XFORMERS`.
 - On AMD ROCm: `TRITON_ATTN`, `ROCM_ATTN`, `ROCM_AITER_FA` or `ROCM_AITER_UNIFIED_ATTN`.
 
-For AMD ROCm, you can futher control the specific Attention implementation using the following variables:
+For AMD ROCm, you can further control the specific Attention implementation using the following variables:
 
 - Triton Unified Attention: `VLLM_ROCM_USE_AITER=0 VLLM_V1_USE_PREFILL_DECODE_ATTENTION=0 VLLM_ROCM_USE_AITER_MHA=0`
 - AITER Unified Attention: `VLLM_ROCM_USE_AITER=1 VLLM_USE_AITER_UNIFIED_ATTENTION=1 VLLM_V1_USE_PREFILL_DECODE_ATTENTION=0 VLLM_ROCM_USE_AITER_MHA=0`
diff --git a/tests/v1/ec_connector/integration/README.md b/tests/v1/ec_connector/integration/README.md
index 30426e055ade8..2dbcb307fda32 100644
--- a/tests/v1/ec_connector/integration/README.md
+++ b/tests/v1/ec_connector/integration/README.md
@@ -113,7 +113,7 @@ Quick sanity check:
 
 - Outputs differ between baseline and disagg
 - Server startup fails
-- Encoder cache not found (should fallback to local execution)
+- Encoder cache not found (should fall back to local execution)
 - Proxy routing errors
 
 ## Notes
diff --git a/vllm/multimodal/evs.py b/vllm/multimodal/evs.py
index 4a288d2d238c2..8a36ea415da4d 100644
--- a/vllm/multimodal/evs.py
+++ b/vllm/multimodal/evs.py
@@ -185,7 +185,7 @@ def recompute_mrope_positions(
 
     Args:
         input_ids: (N,) All input tokens of the prompt (entire sequence).
-        multimodal_positions: List of mrope positsions for each media.
+        multimodal_positions: List of mrope positions for each media.
         mrope_positions: Existing mrope positions (4, N) for entire sequence.
         num_computed_tokens: A number of computed tokens so far.
         vision_start_token_id: Token indicating start of vision media.

From 4f5299f7174ffb10bdc640b47d3494083fc39c48 Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Wed, 19 Nov 2025 14:50:30 +0100
Subject: [PATCH 585/976] Relax Transformers modeling backend MoE experts check
 (#28952)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 docs/models/supported_models.md                | 4 +++-
 vllm/model_executor/models/transformers/moe.py | 9 ++++++++-
 2 files changed, 11 insertions(+), 2 deletions(-)

diff --git a/docs/models/supported_models.md b/docs/models/supported_models.md
index bd14bbb9ab662..80fe143269a76 100644
--- a/docs/models/supported_models.md
+++ b/docs/models/supported_models.md
@@ -79,7 +79,9 @@ To make your model compatible with the Transformers modeling backend, it needs:
         1. Add `is_causal = False` to `MyAttention`.
     - If your model is mixture-of-experts (MoE):
         1. Your sparse MoE block must have an attribute called `experts`.
-        2. The class of `experts` (`MyExperts`) must inherit from `nn.ModuleList`.
+        2. The class of `experts` (`MyExperts`) must either:
+            - Inherit from `nn.ModuleList` (naive).
+            - Or contain all 3D `nn.Parameters` (packed).
         3. `MyExperts.forward` must accept `hidden_states`, `top_k_index`, `top_k_weights`.
 2. `MyAttention` must use `ALL_ATTENTION_FUNCTIONS` to call attention.
 3. `MyModel` must contain `_supports_attention_backend = True`.
diff --git a/vllm/model_executor/models/transformers/moe.py b/vllm/model_executor/models/transformers/moe.py
index 4973014c3d4ed..31db9d682bd40 100644
--- a/vllm/model_executor/models/transformers/moe.py
+++ b/vllm/model_executor/models/transformers/moe.py
@@ -256,7 +256,14 @@ class MoEMixin(MixtureOfExperts):
         def _recursive_replace(module: nn.Module, prefix: str):
             for child_name, child_module in module.named_children():
                 qual_name = maybe_prefix(prefix, child_name)
-                if child_name == "experts" and isinstance(child_module, nn.ModuleList):
+                # Naive implementations will have experts as ModuleList
+                is_modulelist = isinstance(child_module, nn.ModuleList)
+                # Packed implementations will have experts as 3D tensors of shapes like:
+                # gate_up_proj = (num_experts, 2 * intermediate_size, hidden_size)
+                # down_proj = (num_experts, intermediate_size, hidden_size)
+                params = list(child_module.parameters())
+                is_3d = len(params) > 0 and all(p.ndim == 3 for p in params)
+                if child_name == "experts" and (is_modulelist or is_3d):
                     # Alias for readability
                     mlp = module
                     experts = child_module

From 2c8b9182b5ced00d83bed15ef8bc0ac6e079b6ee Mon Sep 17 00:00:00 2001
From: Yanan Cao <gmagogsfm@users.noreply.github.com>
Date: Wed, 19 Nov 2025 06:13:50 -0800
Subject: [PATCH 586/976] [CI] Reorganize compile tests so new tests are
 automatically included in CI (#28625)

Signed-off-by: Yanan Cao <gmagogsfm@gmail.com>
---
 .buildkite/test-amd.yaml                      | 57 ++++++++---------
 .buildkite/test-pipeline.yaml                 | 62 +++++++++----------
 tests/compile/README.md                       |  5 ++
 .../{piecewise => distributed}/__init__.py    |  0
 .../{ => distributed}/test_async_tp.py        |  6 +-
 .../test_fusion_all_reduce.py                 |  4 +-
 .../{ => distributed}/test_fusions_e2e.py     |  2 +-
 .../test_sequence_parallelism.py              |  4 +-
 tests/compile/fullgraph/__init__.py           |  0
 .../{ => fullgraph}/test_basic_correctness.py |  2 +-
 .../test_full_cudagraph.py                    |  0
 .../{ => fullgraph}/test_full_graph.py        |  2 +-
 .../test_multimodal_compile.py                |  0
 .../test_multiple_graphs.py                   |  0
 .../{piecewise => fullgraph}/test_simple.py   |  0
 .../test_toy_llama.py                         |  0
 vllm/env_override.py                          |  2 +-
 17 files changed, 74 insertions(+), 72 deletions(-)
 create mode 100644 tests/compile/README.md
 rename tests/compile/{piecewise => distributed}/__init__.py (100%)
 rename tests/compile/{ => distributed}/test_async_tp.py (99%)
 rename tests/compile/{ => distributed}/test_fusion_all_reduce.py (99%)
 rename tests/compile/{ => distributed}/test_fusions_e2e.py (99%)
 rename tests/compile/{ => distributed}/test_sequence_parallelism.py (99%)
 create mode 100644 tests/compile/fullgraph/__init__.py
 rename tests/compile/{ => fullgraph}/test_basic_correctness.py (99%)
 rename tests/compile/{piecewise => fullgraph}/test_full_cudagraph.py (100%)
 rename tests/compile/{ => fullgraph}/test_full_graph.py (99%)
 rename tests/compile/{ => fullgraph}/test_multimodal_compile.py (100%)
 rename tests/compile/{piecewise => fullgraph}/test_multiple_graphs.py (100%)
 rename tests/compile/{piecewise => fullgraph}/test_simple.py (100%)
 rename tests/compile/{piecewise => fullgraph}/test_toy_llama.py (100%)

diff --git a/.buildkite/test-amd.yaml b/.buildkite/test-amd.yaml
index 2471b509a9fff..0049f35403409 100644
--- a/.buildkite/test-amd.yaml
+++ b/.buildkite/test-amd.yaml
@@ -187,7 +187,7 @@ steps:
   - tests/distributed/test_utils
   - tests/distributed/test_pynccl
   - tests/distributed/test_events
-  - tests/compile/test_basic_correctness
+  - tests/compile/fullgraph/test_basic_correctness.py
   - examples/offline_inference/rlhf.py
   - examples/offline_inference/rlhf_colocate.py
   - tests/examples/offline_inference/data_parallel.py
@@ -215,7 +215,7 @@ steps:
   - TP_SIZE=1 DP_SIZE=4 pytest -v -s v1/distributed/test_hybrid_lb_dp.py
   - pytest -v -s v1/engine/test_engine_core_client.py::test_kv_cache_events_dp
   - pytest -v -s distributed/test_utils.py
-  - pytest -v -s compile/test_basic_correctness.py
+  - pytest -v -s compile/fullgraph/test_basic_correctness.py
   - pytest -v -s distributed/test_pynccl.py
   - pytest -v -s distributed/test_events.py
   - pytest -v -s distributed/test_symm_mem_allreduce.py
@@ -493,17 +493,12 @@ steps:
     - vllm/
     - tests/compile
   commands:
-    - pytest -v -s compile/test_pass_manager.py
-    - pytest -v -s compile/test_fusion.py
-    - pytest -v -s compile/test_fusion_attn.py
-    - pytest -v -s compile/test_functionalization.py
-    - pytest -v -s compile/test_silu_mul_quant_fusion.py
-  #  - pytest -v -s compile/test_sequence_parallelism.py
-  #  - pytest -v -s compile/test_async_tp.py
-    - pytest -v -s compile/test_fusion_all_reduce.py
-    - pytest -v -s compile/test_decorator.py
-    - pytest -v -s compile/test_noop_elimination.py
-    - pytest -v -s compile/test_aot_compile.py
+  # Run unit tests defined directly under compile/,
+  # not including subdirectories, which are usually heavier
+  # tests covered elsewhere.
+  # Use `find` to launch multiple instances of pytest so that
+  # they do not suffer from https://github.com/vllm-project/vllm/issues/28965
+  - "find compile/ -maxdepth 1 -name 'test_*.py' -exec pytest -s -v {} \\\\;"
 
 - label: PyTorch Fullgraph Smoke Test # 15min
   timeout_in_minutes: 30
@@ -515,9 +510,11 @@ steps:
   - vllm/
   - tests/compile
   commands:
-  - pytest -v -s compile/test_basic_correctness.py
-  - pytest -v -s compile/test_multimodal_compile.py
-  - pytest -v -s compile/piecewise/
+  # Run smoke tests under fullgraph directory, except test_full_graph.py
+  # as it is a heavy test that is covered in other steps.
+  # Use `find` to launch multiple instances of pytest so that
+  # they do not suffer from https://github.com/vllm-project/vllm/issues/28965
+  - "find compile/fullgraph/ -name 'test_*.py' -not -name 'test_full_graph.py' -exec pytest -s -v {} \\\\;"
 
 - label: PyTorch Fullgraph Test # 27min
   timeout_in_minutes: 40
@@ -529,10 +526,10 @@ steps:
   - vllm/
   - tests/compile
   commands:
-  - pytest -v -s compile/test_full_graph.py -k 'not test_fp8_kv_scale_compile'
+  - pytest -v -s compile/fullgraph/test_full_graph.py -k 'not test_fp8_kv_scale_compile'
     # Limit to no custom ops to reduce running time
     # Wrap with quotes to escape yaml and avoid starting -k string with a -
-  - "pytest -v -s compile/test_fusions_e2e.py -k 'TRITON and -quant_fp8'"
+  - "pytest -v -s compile/distributed/test_fusions_e2e.py -k 'TRITON and -quant_fp8'"
 
 - label: Cudagraph test
   timeout_in_minutes: 20
@@ -1066,10 +1063,10 @@ steps:
     - pytest -v -s tests/compile/test_fusion_attn.py
     - pytest -v -s tests/compile/test_silu_mul_quant_fusion.py
     # this runner has 2 GPUs available even though num_gpus=2 is not set
-    - pytest -v -s tests/compile/test_fusion_all_reduce.py
+    - pytest -v -s tests/compile/distributed/test_fusion_all_reduce.py
     # Limit to Inductor partition, no custom ops, and allreduce & attn fusion to reduce running time
     # Wrap with quotes to escape yaml
-    - "pytest -v -s tests/compile/test_fusions_e2e.py::test_tp2_attn_quant_allreduce_rmsnorm -k 'True and Llama-3.1 and -quant_fp8 and -rms_norm'"
+    - "pytest -v -s tests/compile/distributed/test_fusions_e2e.py::test_tp2_attn_quant_allreduce_rmsnorm -k 'True and Llama-3.1 and -quant_fp8 and -rms_norm'"
 
 - label: Blackwell Fusion E2E Tests # 30 min
   timeout_in_minutes: 40
@@ -1086,14 +1083,14 @@ steps:
   - vllm/model_executor/layers/layernorm.py
   - vllm/model_executor/layers/activation.py
   - vllm/model_executor/layers/quantization/input_quant_fp8.py
-  - tests/compile/test_fusions_e2e.py
-  - tests/compile/test_full_graph.py
+  - tests/compile/distributed/test_fusions_e2e.py
+  - tests/compile/fullgraph/test_full_graph.py
   commands:
     - nvidia-smi
     # Run all e2e fusion tests
-    - pytest -v -s tests/compile/test_fusions_e2e.py
+    - pytest -v -s tests/compile/distributed/test_fusions_e2e.py
     # test_fp8_kv_scale_compile requires FlashAttention (not supported on default L4/L40)
-    - pytest -v -s tests/compile/test_full_graph.py::test_fp8_kv_scale_compile
+    - pytest -v -s tests/compile/fullgraph/test_full_graph.py::test_fp8_kv_scale_compile
 
 - label: ROCm GPT-OSS Eval
   timeout_in_minutes: 60
@@ -1198,7 +1195,7 @@ steps:
   - vllm/worker/worker_base.py
   - vllm/v1/engine/
   - vllm/v1/worker/
-  - tests/compile/test_basic_correctness.py
+  - tests/compile/fullgraph/test_basic_correctness.py
   - tests/compile/test_wrapper.py
   - tests/distributed/
   - tests/entrypoints/llm/test_collective_rpc.py
@@ -1211,7 +1208,7 @@ steps:
   - TP_SIZE=1 DP_SIZE=2 pytest -v -s v1/distributed/test_external_lb_dp.py
   - DP_SIZE=2 pytest -v -s v1/entrypoints/openai/test_multi_api_servers.py
   - pytest -v -s entrypoints/llm/test_collective_rpc.py
-  - pytest -v -s ./compile/test_basic_correctness.py
+  - pytest -v -s ./compile/fullgraph/test_basic_correctness.py
   - pytest -v -s ./compile/test_wrapper.py
   - VLLM_TEST_SAME_HOST=1 torchrun --nproc-per-node=4 distributed/test_same_node.py | grep 'Same node test passed'
   - VLLM_TEST_SAME_HOST=1 VLLM_TEST_WITH_DEFAULT_DEVICE_SET=1 torchrun --nproc-per-node=4 distributed/test_same_node.py | grep 'Same node test passed'
@@ -1417,10 +1414,10 @@ steps:
   working_dir: "/vllm-workspace/"
   num_gpus: 2
   commands:
-    - pytest -v -s tests/compile/test_async_tp.py
-    - pytest -v -s tests/compile/test_sequence_parallelism.py
-    - pytest -v -s tests/compile/test_fusion_all_reduce.py
-    - pytest -v -s tests/compile/test_fusions_e2e.py::test_tp2_attn_quant_allreduce_rmsnorm
+    - pytest -v -s tests/compile/distributed/test_async_tp.py
+    - pytest -v -s tests/compile/distributed/test_sequence_parallelism.py
+    - pytest -v -s tests/compile/distributed/test_fusion_all_reduce.py
+    - pytest -v -s tests/compile/distributed/test_fusions_e2e.py::test_tp2_attn_quant_allreduce_rmsnorm
     - pytest -v -s tests/distributed/test_context_parallel.py
     - CUDA_VISIBLE_DEVICES=1,2 VLLM_ALL2ALL_BACKEND=deepep_high_throughput VLLM_USE_DEEP_GEMM=1 VLLM_LOGGING_LEVEL=DEBUG python3 examples/offline_inference/data_parallel.py --model Qwen/Qwen1.5-MoE-A2.7B --tp-size=1  --dp-size=2 --max-model-len 2048
     - pytest -v -s tests/v1/distributed/test_dbo.py
diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index 4ac76aba67b9c..e62cd60efaec0 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -167,7 +167,7 @@ steps:
   - tests/distributed/test_utils
   - tests/distributed/test_pynccl
   - tests/distributed/test_events
-  - tests/compile/test_basic_correctness
+  - tests/compile/fullgraph/test_basic_correctness.py
   - examples/offline_inference/rlhf.py
   - examples/offline_inference/rlhf_colocate.py
   - tests/examples/offline_inference/data_parallel.py
@@ -197,7 +197,7 @@ steps:
   - TP_SIZE=1 DP_SIZE=4 pytest -v -s v1/distributed/test_hybrid_lb_dp.py
   - pytest -v -s v1/engine/test_engine_core_client.py::test_kv_cache_events_dp
   - pytest -v -s distributed/test_utils.py
-  - pytest -v -s compile/test_basic_correctness.py
+  - pytest -v -s compile/fullgraph/test_basic_correctness.py
   - pytest -v -s distributed/test_pynccl.py
   - pytest -v -s distributed/test_events.py
   - pytest -v -s distributed/test_symm_mem_allreduce.py
@@ -445,18 +445,12 @@ steps:
     - vllm/
     - tests/compile
   commands:
-    - pytest -v -s compile/test_graph_partition.py
-    - pytest -v -s compile/test_config.py
-    - pytest -v -s compile/test_pass_manager.py
-    - pytest -v -s compile/test_fusion.py
-    - pytest -v -s compile/test_fusion_attn.py
-    - pytest -v -s compile/test_functionalization.py
-    - pytest -v -s compile/test_silu_mul_quant_fusion.py
-    - pytest -v -s compile/test_fusion_all_reduce.py
-    - pytest -v -s compile/test_decorator.py
-    - pytest -v -s compile/test_noop_elimination.py
-    - pytest -v -s compile/test_aot_compile.py
-    - pytest -v -s compile/test_qk_norm_rope_fusion.py
+  # Run unit tests defined directly under compile/,
+  # not including subdirectories, which are usually heavier
+  # tests covered elsewhere.
+  # Use `find` to launch multiple instances of pytest so that
+  # they do not suffer from https://github.com/vllm-project/vllm/issues/28965
+  - "find compile/ -maxdepth 1 -name 'test_*.py' -exec pytest -s -v {} \\\\;"
 
 - label: PyTorch Fullgraph Smoke Test # 15min
   timeout_in_minutes: 30
@@ -466,9 +460,11 @@ steps:
   - vllm/
   - tests/compile
   commands:
-  - pytest -v -s compile/test_basic_correctness.py
-  - pytest -v -s compile/test_multimodal_compile.py
-  - pytest -v -s compile/piecewise/
+  # Run smoke tests under fullgraph directory, except test_full_graph.py
+  # as it is a heavy test that is covered in other steps.
+  # Use `find` to launch multiple instances of pytest so that
+  # they do not suffer from https://github.com/vllm-project/vllm/issues/28965
+  - "find compile/fullgraph/ -name 'test_*.py' -not -name 'test_full_graph.py' -exec pytest -s -v {} \\\\;"
 
 - label: PyTorch Fullgraph Test # 27min
   timeout_in_minutes: 40
@@ -479,10 +475,10 @@ steps:
   - tests/compile
   commands:
     # fp8 kv scales not supported on sm89, tested on Blackwell instead
-  - pytest -v -s compile/test_full_graph.py -k 'not test_fp8_kv_scale_compile'
+  - pytest -v -s compile/fullgraph/test_full_graph.py -k 'not test_fp8_kv_scale_compile'
     # Limit to no custom ops to reduce running time
     # Wrap with quotes to escape yaml and avoid starting -k string with a -
-  - "pytest -v -s compile/test_fusions_e2e.py -k 'TRITON and not +quant_fp8 and not Llama-4'"
+  - "pytest -v -s compile/distributed/test_fusions_e2e.py -k 'TRITON and not +quant_fp8 and not Llama-4'"
 
 - label: Cudagraph test
   timeout_in_minutes: 20
@@ -939,17 +935,22 @@ steps:
   - vllm/model_executor/layers/layernorm.py
   - vllm/model_executor/layers/activation.py
   - vllm/model_executor/layers/quantization/input_quant_fp8.py
+  - tests/compile/test_fusion_attn.py
+  - tests/compile/test_silu_mul_quant_fusion.py
+  - tests/compile/distributed/test_fusion_all_reduce.py
+  - tests/compile/distributed/test_fusions_e2e.py
+  - tests/compile/fullgraph/test_full_graph.py
   commands:
     - nvidia-smi
     - pytest -v -s tests/compile/test_fusion_attn.py
     - pytest -v -s tests/compile/test_silu_mul_quant_fusion.py
     # this runner has 2 GPUs available even though num_gpus=2 is not set
-    - pytest -v -s tests/compile/test_fusion_all_reduce.py
+    - pytest -v -s tests/compile/distributed/test_fusion_all_reduce.py
     # Limit to Inductor partition, no custom ops, and allreduce & attn fusion to reduce running time
     # Wrap with quotes to escape yaml
-    - "pytest -v -s tests/compile/test_fusions_e2e.py::test_tp2_attn_quant_allreduce_rmsnorm -k 'True and not +quant_fp8 and not +rms_norm'"
+    - "pytest -v -s tests/compile/distributed/test_fusions_e2e.py::test_tp2_attn_quant_allreduce_rmsnorm -k 'True and not +quant_fp8 and not +rms_norm'"
     # test_fp8_kv_scale_compile requires FlashAttention (not supported on default L4/L40)
-    - pytest -v -s tests/compile/test_full_graph.py::test_fp8_kv_scale_compile
+    - pytest -v -s tests/compile/fullgraph/test_full_graph.py::test_fp8_kv_scale_compile
 
 - label: Blackwell Fusion E2E Tests # 30 min
   timeout_in_minutes: 40
@@ -966,12 +967,11 @@ steps:
   - vllm/model_executor/layers/layernorm.py
   - vllm/model_executor/layers/activation.py
   - vllm/model_executor/layers/quantization/input_quant_fp8.py
-  - tests/compile/test_fusions_e2e.py
-  - tests/compile/test_full_graph.py
+  - tests/compile/distributed/test_fusions_e2e.py
   commands:
     - nvidia-smi
     # Run all e2e fusion tests
-    - pytest -v -s tests/compile/test_fusions_e2e.py
+    - pytest -v -s tests/compile/distributed/test_fusions_e2e.py
 
 - label: Blackwell GPT-OSS Eval
   timeout_in_minutes: 60
@@ -1069,7 +1069,7 @@ steps:
   - vllm/worker/worker_base.py
   - vllm/v1/engine/
   - vllm/v1/worker/
-  - tests/compile/test_basic_correctness.py
+  - tests/compile/fullgraph/test_basic_correctness.py
   - tests/compile/test_wrapper.py
   - tests/distributed/
   - tests/entrypoints/llm/test_collective_rpc.py
@@ -1084,7 +1084,7 @@ steps:
   - TP_SIZE=1 DP_SIZE=2 pytest -v -s v1/distributed/test_external_lb_dp.py
   - DP_SIZE=2 pytest -v -s v1/entrypoints/openai/test_multi_api_servers.py
   - pytest -v -s entrypoints/llm/test_collective_rpc.py
-  - pytest -v -s ./compile/test_basic_correctness.py
+  - pytest -v -s ./compile/fullgraph/test_basic_correctness.py
   - pytest -v -s ./compile/test_wrapper.py
   - VLLM_TEST_SAME_HOST=1 torchrun --nproc-per-node=4 distributed/test_same_node.py | grep 'Same node test passed'
   - VLLM_TEST_SAME_HOST=1 VLLM_TEST_WITH_DEFAULT_DEVICE_SET=1 torchrun --nproc-per-node=4 distributed/test_same_node.py | grep 'Same node test passed'
@@ -1264,10 +1264,10 @@ steps:
   working_dir: "/vllm-workspace/"
   num_gpus: 2
   commands:
-    - pytest -v -s tests/compile/test_async_tp.py
-    - pytest -v -s tests/compile/test_sequence_parallelism.py
-    - pytest -v -s tests/compile/test_fusion_all_reduce.py
-    - "pytest -v -s tests/compile/test_fusions_e2e.py -k 'not Llama-4'"
+    - pytest -v -s tests/compile/distributed/test_async_tp.py
+    - pytest -v -s tests/compile/distributed/test_sequence_parallelism.py
+    - pytest -v -s tests/compile/distributed/test_fusion_all_reduce.py
+    - "pytest -v -s tests/compile/distributed/test_fusions_e2e.py -k 'not Llama-4'"
     - pytest -v -s tests/distributed/test_sequence_parallel.py
     - pytest -v -s tests/distributed/test_context_parallel.py
     - CUDA_VISIBLE_DEVICES=1,2 VLLM_ALL2ALL_BACKEND=deepep_high_throughput VLLM_USE_DEEP_GEMM=1 VLLM_LOGGING_LEVEL=DEBUG python3 examples/offline_inference/data_parallel.py --model Qwen/Qwen1.5-MoE-A2.7B --tp-size=1  --dp-size=2 --max-model-len 2048
diff --git a/tests/compile/README.md b/tests/compile/README.md
new file mode 100644
index 0000000000000..300a956860005
--- /dev/null
+++ b/tests/compile/README.md
@@ -0,0 +1,5 @@
+# compile test folder structure
+
+- `compile/test_*.py` : various unit tests meant for testing particular code path/features. Future tests are most likely added here. New test files added here will be included in CI automatically
+- `compile/fullgraph/` : full model tests, including all tests previously in compile/piecewise. These tests do not target particular features. New test files added here will be included in CI automatically
+- `compile/distributed/` : tests that require multiple GPUs. New test files added here will **NOT** be included in CI automatically as these tests generally need to be manually configured to run in runners with particular number/type of GPUs.
diff --git a/tests/compile/piecewise/__init__.py b/tests/compile/distributed/__init__.py
similarity index 100%
rename from tests/compile/piecewise/__init__.py
rename to tests/compile/distributed/__init__.py
diff --git a/tests/compile/test_async_tp.py b/tests/compile/distributed/test_async_tp.py
similarity index 99%
rename from tests/compile/test_async_tp.py
rename to tests/compile/distributed/test_async_tp.py
index 71ee228781438..86d409f1eadb0 100644
--- a/tests/compile/test_async_tp.py
+++ b/tests/compile/distributed/test_async_tp.py
@@ -27,13 +27,13 @@ from vllm.distributed.parallel_state import (
 from vllm.platforms import current_platform
 from vllm.utils.system_utils import update_environment_variables
 
-from ..models.registry import HF_EXAMPLE_MODELS
-from ..utils import (
+from ...models.registry import HF_EXAMPLE_MODELS
+from ...utils import (
     compare_two_settings,
     create_new_process_for_each_test,
     multi_gpu_test,
 )
-from .backend import TestBackend
+from ..backend import TestBackend
 
 FP8_DTYPE = current_platform.fp8_dtype()
 
diff --git a/tests/compile/test_fusion_all_reduce.py b/tests/compile/distributed/test_fusion_all_reduce.py
similarity index 99%
rename from tests/compile/test_fusion_all_reduce.py
rename to tests/compile/distributed/test_fusion_all_reduce.py
index 6d0a0ed7d89d2..d401d57032752 100644
--- a/tests/compile/test_fusion_all_reduce.py
+++ b/tests/compile/distributed/test_fusion_all_reduce.py
@@ -33,8 +33,8 @@ from vllm.model_executor.layers.quantization.utils.w8a8_utils import (
 from vllm.platforms import current_platform
 from vllm.utils.system_utils import update_environment_variables
 
-from ..utils import has_module_attribute, multi_gpu_test
-from .backend import TestBackend
+from ...utils import has_module_attribute, multi_gpu_test
+from ..backend import TestBackend
 
 
 class TestAllReduceRMSNormModel(torch.nn.Module):
diff --git a/tests/compile/test_fusions_e2e.py b/tests/compile/distributed/test_fusions_e2e.py
similarity index 99%
rename from tests/compile/test_fusions_e2e.py
rename to tests/compile/distributed/test_fusions_e2e.py
index f22d60ef000b2..2e1b595a43895 100644
--- a/tests/compile/test_fusions_e2e.py
+++ b/tests/compile/distributed/test_fusions_e2e.py
@@ -18,7 +18,7 @@ from vllm.platforms import current_platform
 from vllm.utils.flashinfer import has_flashinfer
 from vllm.utils.torch_utils import is_torch_equal_or_newer
 
-from ..utils import flat_product, multi_gpu_test
+from ...utils import flat_product, multi_gpu_test
 
 is_blackwell = lambda: current_platform.is_device_capability(100)
 """Are we running on Blackwell, a lot of tests depend on it"""
diff --git a/tests/compile/test_sequence_parallelism.py b/tests/compile/distributed/test_sequence_parallelism.py
similarity index 99%
rename from tests/compile/test_sequence_parallelism.py
rename to tests/compile/distributed/test_sequence_parallelism.py
index 9cd7f64b04af5..30084dfd5a950 100644
--- a/tests/compile/test_sequence_parallelism.py
+++ b/tests/compile/distributed/test_sequence_parallelism.py
@@ -32,8 +32,8 @@ from vllm.model_executor.layers.quantization.utils.w8a8_utils import Fp8LinearOp
 from vllm.platforms import current_platform
 from vllm.utils.system_utils import update_environment_variables
 
-from ..utils import multi_gpu_test
-from .backend import TestBackend
+from ...utils import multi_gpu_test
+from ..backend import TestBackend
 
 FP8_DTYPE = current_platform.fp8_dtype()
 prompts = [
diff --git a/tests/compile/fullgraph/__init__.py b/tests/compile/fullgraph/__init__.py
new file mode 100644
index 0000000000000..e69de29bb2d1d
diff --git a/tests/compile/test_basic_correctness.py b/tests/compile/fullgraph/test_basic_correctness.py
similarity index 99%
rename from tests/compile/test_basic_correctness.py
rename to tests/compile/fullgraph/test_basic_correctness.py
index 3f6898607f6b9..965938c4433dd 100644
--- a/tests/compile/test_basic_correctness.py
+++ b/tests/compile/fullgraph/test_basic_correctness.py
@@ -7,7 +7,7 @@ import pytest
 from vllm.config import CompilationMode
 from vllm.utils.torch_utils import cuda_device_count_stateless
 
-from ..utils import compare_all_settings
+from ...utils import compare_all_settings
 
 
 @dataclasses.dataclass
diff --git a/tests/compile/piecewise/test_full_cudagraph.py b/tests/compile/fullgraph/test_full_cudagraph.py
similarity index 100%
rename from tests/compile/piecewise/test_full_cudagraph.py
rename to tests/compile/fullgraph/test_full_cudagraph.py
diff --git a/tests/compile/test_full_graph.py b/tests/compile/fullgraph/test_full_graph.py
similarity index 99%
rename from tests/compile/test_full_graph.py
rename to tests/compile/fullgraph/test_full_graph.py
index b4e5e56ac9fe6..2c11ecef7f029 100644
--- a/tests/compile/test_full_graph.py
+++ b/tests/compile/fullgraph/test_full_graph.py
@@ -15,7 +15,7 @@ from vllm.config import CompilationConfig, CompilationMode, CUDAGraphMode, PassC
 from vllm.platforms import current_platform
 from vllm.utils.torch_utils import is_torch_equal_or_newer
 
-from ..utils import create_new_process_for_each_test
+from ...utils import create_new_process_for_each_test
 
 
 def models_list(*, all: bool = True, keywords: list[str] | None = None):
diff --git a/tests/compile/test_multimodal_compile.py b/tests/compile/fullgraph/test_multimodal_compile.py
similarity index 100%
rename from tests/compile/test_multimodal_compile.py
rename to tests/compile/fullgraph/test_multimodal_compile.py
diff --git a/tests/compile/piecewise/test_multiple_graphs.py b/tests/compile/fullgraph/test_multiple_graphs.py
similarity index 100%
rename from tests/compile/piecewise/test_multiple_graphs.py
rename to tests/compile/fullgraph/test_multiple_graphs.py
diff --git a/tests/compile/piecewise/test_simple.py b/tests/compile/fullgraph/test_simple.py
similarity index 100%
rename from tests/compile/piecewise/test_simple.py
rename to tests/compile/fullgraph/test_simple.py
diff --git a/tests/compile/piecewise/test_toy_llama.py b/tests/compile/fullgraph/test_toy_llama.py
similarity index 100%
rename from tests/compile/piecewise/test_toy_llama.py
rename to tests/compile/fullgraph/test_toy_llama.py
diff --git a/vllm/env_override.py b/vllm/env_override.py
index 14dae2850c354..9ae1af3af46cf 100644
--- a/vllm/env_override.py
+++ b/vllm/env_override.py
@@ -95,7 +95,7 @@ def memory_plan_reuse_patched(self):
 # ===================================================
 # This change monkeypatches get_graph_partition_signature in pytorch 2.9.0 to
 # fix inductor partition + attention-nvfp4 quant fusion, tested in
-# `tests/compile/test_fusions_e2e.py::test_attn_quant`.
+# `tests/compile/distributed/test_fusions_e2e.py::test_attn_quant`.
 # For more context, see https://github.com/pytorch/pytorch/pull/165815.
 
 
From 1ffe934c8ae978e5ed82559a1eaeca05e37f9b35 Mon Sep 17 00:00:00 2001
From: vnadathur <glvikramn@gmail.com>
Date: Wed, 19 Nov 2025 06:13:54 -0800
Subject: [PATCH 587/976] [torch.compile] caching of config fields should be
 opt-out by default (#26468)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Signed-off-by: vnadathur <glvikramn@gmail.com>
Signed-off-by: WorldExplored <srreyansh.sethi@gmail.com>
Signed-off-by: Srreyansh Sethi <srreyansh.sethi@gmail.com>
Signed-off-by: Srreyansh Sethi <107075589+WorldExplored@users.noreply.github.com>
Co-authored-by: WorldExplored <srreyansh.sethi@gmail.com>
Co-authored-by: Srreyansh Sethi <107075589+worldexplored@users.noreply.github.com>
Co-authored-by: vnadathur <236933696+vnadathur@users.noreply.github.com>
Co-authored-by: Luka Govedič <ProExpertProg@users.noreply.github.com>
---
 tests/config/test_config_utils.py | 166 +++++++++++++++++++++++++++++
 vllm/compilation/backends.py      | 105 +++++++++++++++----
 vllm/compilation/pass_manager.py  |   2 +-
 vllm/config/cache.py              |  31 ++++--
 vllm/config/compilation.py        |  40 +++----
 vllm/config/model.py              |  88 ++++++++--------
 vllm/config/parallel.py           |  49 ++++++---
 vllm/config/utils.py              | 119 ++++++++++++++++++++-
 vllm/envs.py                      | 167 +++++++++++++++---------------
 vllm/logging_utils/__init__.py    |   2 +
 vllm/logging_utils/lazy.py        |  20 ++++
 11 files changed, 599 insertions(+), 190 deletions(-)
 create mode 100644 tests/config/test_config_utils.py
 create mode 100644 vllm/logging_utils/lazy.py

diff --git a/tests/config/test_config_utils.py b/tests/config/test_config_utils.py
new file mode 100644
index 0000000000000..1277c7e64eb21
--- /dev/null
+++ b/tests/config/test_config_utils.py
@@ -0,0 +1,166 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from dataclasses import dataclass
+from enum import Enum
+
+import pytest
+
+from vllm.config.utils import get_hash_factors, hash_factors, normalize_value
+
+# Helpers
+
+
+def endswith_fqname(obj, suffix: str) -> bool:
+    # normalize_value(type) returns fully-qualified name
+    # Compare suffix to avoid brittle import paths.
+    out = normalize_value(obj)
+    return isinstance(out, str) and out.endswith(suffix)
+
+
+def expected_path(p_str: str = ".") -> str:
+    import pathlib
+
+    p = pathlib.Path(p_str)
+    return p.expanduser().resolve().as_posix()
+
+
+# Minimal dataclass to test get_hash_factors.
+# Avoid importing heavy vLLM configs.
+@dataclass
+class SimpleConfig:
+    a: object
+    b: object | None = None
+
+
+class DummyLogprobsMode(Enum):
+    RAW_LOGITS = "raw_logits"
+
+
+def test_hash_factors_deterministic():
+    """Test that hash_factors produces consistent SHA-256 hashes"""
+    factors = {"a": 1, "b": "test"}
+    hash1 = hash_factors(factors)
+    hash2 = hash_factors(factors)
+
+    assert hash1 == hash2
+    # Dict key insertion order should not affect the hash.
+    factors_reordered = {"b": "test", "a": 1}
+    assert hash_factors(factors_reordered) == hash1
+    assert len(hash1) == 64
+    assert all(c in "0123456789abcdef" for c in hash1)
+
+
+@pytest.mark.parametrize(
+    "inp, expected",
+    [
+        (None, None),
+        (True, True),
+        (1, 1),
+        (1.0, 1.0),
+        ("x", "x"),
+        (b"ab", "6162"),
+        (bytearray(b"ab"), "6162"),
+        ([1, 2], (1, 2)),
+        ({"b": 2, "a": 1}, (("a", 1), ("b", 2))),
+    ],
+)
+def test_normalize_value_matrix(inp, expected):
+    """Parametric input→expected normalization table."""
+    assert normalize_value(inp) == expected
+
+
+def test_normalize_value_enum():
+    # Enums normalize to (module.QualName, value).
+    # DummyLogprobsMode uses a string payload.
+    out = normalize_value(DummyLogprobsMode.RAW_LOGITS)
+    assert isinstance(out, tuple)
+    assert out[0].endswith("DummyLogprobsMode")
+    # Expect string payload 'raw_logits'.
+    assert out[1] == "raw_logits"
+
+
+def test_normalize_value_set_order_insensitive():
+    # Sets are unordered; normalize_value sorts elements for determinism.
+    assert normalize_value({3, 1, 2}) == normalize_value({1, 2, 3})
+
+
+def test_normalize_value_path_normalization():
+    from pathlib import Path  # local import to avoid global dependency
+
+    # Paths expand/resolve to absolute strings.
+    # Stabilizes hashing across working dirs.
+    assert normalize_value(Path(".")) == expected_path(".")
+
+
+def test_normalize_value_uuid_and_to_json():
+    # Objects may normalize via uuid() or to_json_string().
+    class HasUUID:
+        def uuid(self):
+            return "test-uuid"
+
+    class ToJson:
+        def to_json_string(self):
+            return '{"x":1}'
+
+    assert normalize_value(HasUUID()) == "test-uuid"
+    assert normalize_value(ToJson()) == '{"x":1}'
+
+
+@pytest.mark.parametrize(
+    "bad",
+    [
+        (lambda x: x),
+        (type("CallableInstance", (), {"__call__": lambda self: 0}))(),
+        (lambda: (lambda: 0))(),  # nested function instance
+    ],
+)
+def test_error_cases(bad):
+    """Inputs expected to raise TypeError."""
+    # Reject functions/lambdas/callable instances
+    # to avoid under-hashing.
+    with pytest.raises(TypeError):
+        normalize_value(bad)
+
+
+def test_enum_vs_int_disambiguation():
+    # int stays primitive
+    nf_int = normalize_value(1)
+    assert nf_int == 1
+
+    # enum becomes ("module.QualName", value)
+    nf_enum = normalize_value(DummyLogprobsMode.RAW_LOGITS)
+    assert isinstance(nf_enum, tuple) and len(nf_enum) == 2
+    enum_type, enum_val = nf_enum
+    assert enum_type.endswith(".DummyLogprobsMode")
+    assert enum_val == "raw_logits"
+
+    # Build factor dicts from configs with int vs enum
+    f_int = get_hash_factors(SimpleConfig(1), set())
+    f_enum = get_hash_factors(SimpleConfig(DummyLogprobsMode.RAW_LOGITS), set())
+    # The int case remains a primitive value
+    assert f_int["a"] == 1
+    # The enum case becomes a tagged tuple ("module.QualName", "raw_logits")
+    assert isinstance(f_enum["a"], tuple) and f_enum["a"][1] == "raw_logits"
+    # Factor dicts must differ so we don't collide primitives with Enums.
+    assert f_int != f_enum
+    # Hash digests must differ correspondingly
+    assert hash_factors(f_int) != hash_factors(f_enum)
+
+    # Hash functions produce stable hex strings
+    h_int = hash_factors(f_int)
+    h_enum = hash_factors(f_enum)
+    assert isinstance(h_int, str) and len(h_int) == 64
+    assert isinstance(h_enum, str) and len(h_enum) == 64
+
+
+def test_classes_are_types():
+    """Types normalize to FQNs; include real vLLM types."""
+    # Only classes allowed; functions/lambdas are rejected.
+    # Canonical form is the fully-qualified name.
+    assert isinstance(normalize_value(str), str)
+
+    class LocalDummy:
+        pass
+
+    assert endswith_fqname(LocalDummy, ".LocalDummy")
diff --git a/vllm/compilation/backends.py b/vllm/compilation/backends.py
index 60ef6eef21663..1e66f21ff6388 100644
--- a/vllm/compilation/backends.py
+++ b/vllm/compilation/backends.py
@@ -4,12 +4,14 @@
 import ast
 import dataclasses
 import hashlib
+import json
 import operator
 import os
 import pprint
 import time
 from collections.abc import Callable, Sequence
 from contextlib import contextmanager
+from functools import partial
 from typing import Any
 
 import torch
@@ -23,7 +25,9 @@ from vllm.compilation.partition_rules import (
     should_split,
 )
 from vllm.config import CompilationConfig, CUDAGraphMode, VllmConfig
+from vllm.config.utils import hash_factors
 from vllm.logger import init_logger
+from vllm.logging_utils import lazy
 from vllm.platforms import current_platform
 from vllm.utils.import_utils import resolve_obj_by_qualname
 from vllm.utils.torch_utils import is_torch_equal_or_newer
@@ -580,35 +584,47 @@ class VllmBackend:
     def __call__(
         self, graph: fx.GraphModule, example_inputs
     ) -> VllmSerializableFunction:
-        from .caching import _compute_code_hash, compilation_config_hash_factors
-
         vllm_config = self.vllm_config
+        # Minimal hashing here with existing utilities, reused below.
+
+        env_factors = envs.compile_factors()
+        env_hash = hash_factors(env_factors)
+        # Compute config/compiler/code hashes once and reuse
+        config_hash = vllm_config.compute_hash()
+        compiler_hash = self.compiler_manager.compute_hash(vllm_config)
+        forward_code_files = list(sorted(self.compilation_config.traced_files))
+
+        logger.debug(
+            "Traced files (to be considered for compilation cache):\n%s",
+            lazy(lambda: "\n".join(forward_code_files)),
+        )
+        hash_content = []
+        for filepath in forward_code_files:
+            hash_content.append(filepath)
+            if filepath == "<string>":
+                # This means the function was dynamically generated, with
+                # e.g. exec(). We can't actually check these.
+                continue
+            try:
+                with open(filepath) as f:
+                    hash_content.append(f.read())
+            except Exception:
+                logger.warning("Failed to read file %s", filepath)
+                continue
+        code_hash = hashlib.sha256("\n".join(hash_content).encode()).hexdigest()
+        # Clear after consumption
+        self.compilation_config.traced_files.clear()
         if not self.compilation_config.cache_dir:
             # no provided cache dir, generate one based on the known factors
             # that affects the compilation. if none of the factors change,
             # the cache dir will be the same so that we can reuse the compiled
             # graph.
-
-            factors = compilation_config_hash_factors(vllm_config)
-            # 2. factors come from the code files that are traced by Dynamo (
-            #    it mainly summarizes how the model is used in forward pass)
-            code_hash = _compute_code_hash(self.compilation_config.traced_files)
-            self.compilation_config.traced_files.clear()
-            factors.append(code_hash)
-
-            # 3. compiler hash
-            compiler_hash = self.compiler_manager.compute_hash(vllm_config)
-            factors.append(compiler_hash)
-
-            # combine all factors to generate the cache dir
-            hash_key = hashlib.md5(
-                str(factors).encode(), usedforsecurity=False
-            ).hexdigest()[:10]
-
+            factors = [env_hash, config_hash, code_hash, compiler_hash]
+            # Use SHA-256 for cache key hashing to be consistent across
+            # compute_hash functions. Truncate for a short cache dir name.
+            hash_key = hashlib.sha256(str(factors).encode()).hexdigest()[:10]
             cache_dir = os.path.join(
-                envs.VLLM_CACHE_ROOT,
-                "torch_compile_cache",
-                hash_key,
+                envs.VLLM_CACHE_ROOT, "torch_compile_cache", hash_key
             )
             self.compilation_config.cache_dir = cache_dir
 
@@ -621,6 +637,7 @@ class VllmBackend:
         os.makedirs(local_cache_dir, exist_ok=True)
         self.compilation_config.local_cache_dir = local_cache_dir
 
+        # Honors opt-outs such as CompilationMode.NONE or VLLM_DISABLE_COMPILE_CACHE.
         disable_cache = not is_compile_cache_enabled(
             self.compilation_config.inductor_compile_config
         )
@@ -638,6 +655,50 @@ class VllmBackend:
             local_cache_dir, disable_cache, self.prefix
         )
 
+        # Reuses existing cache key
+
+        logger.debug(
+            "torch.compile cache factors: env=%s cfg=%s comp=%s code=%s dir=%s",
+            env_hash,
+            config_hash,
+            compiler_hash,
+            code_hash,
+            local_cache_dir,
+        )
+
+        # Persist and log only hash-relevant factors together.
+        try:
+            logger.debug(
+                "Compile env factors (raw):\n%s\nVllm config hash: %s",
+                lazy(partial(pprint.pformat, env_factors, width=120)),
+                config_hash,
+            )
+            meta_path = os.path.join(local_cache_dir, "cache_key_factors.json")
+            if not os.path.exists(meta_path):
+                with open(meta_path, "w") as f:
+                    json.dump(
+                        {
+                            "env": env_factors,  # raw factors used for env_hash
+                            "config_hash": config_hash,
+                            "code_hash": code_hash,
+                            "compiler_hash": compiler_hash,
+                        },
+                        f,
+                        indent=2,
+                        sort_keys=True,
+                    )
+        except Exception:
+            # Best-effort only; metadata write failures are non-fatal.
+            logger.warning(
+                (
+                    "Could not write compile cache metadata at %s; continuing without "
+                    "metadata. Compiled cache remains valid; diagnostics may be "
+                    "limited."
+                ),
+                local_cache_dir,
+                exc_info=True,
+            )
+
         # when dynamo calls the backend, it means the bytecode
         # transform and analysis are done
         compilation_counter.num_graphs_seen += 1
diff --git a/vllm/compilation/pass_manager.py b/vllm/compilation/pass_manager.py
index 0e8bb2fc97351..fe2547d7fecaf 100644
--- a/vllm/compilation/pass_manager.py
+++ b/vllm/compilation/pass_manager.py
@@ -127,7 +127,7 @@ class PostGradPassManager(CustomGraphPass):
         affects compilation caching. Its uuid depends on the UUIDs of all
         dependent passes and the pass config. See InductorPass for more info.
         """
-        state = {"pass_config": self.pass_config.uuid(), "passes": []}
+        state = {"pass_config": self.pass_config.compute_hash(), "passes": []}
         for pass_ in self.passes:
             state["passes"].append(pass_.uuid())
         state["passes"].append(self.fix_functionalization.uuid())
diff --git a/vllm/config/cache.py b/vllm/config/cache.py
index 864cf1be81b20..2652c7c06ad0f 100644
--- a/vllm/config/cache.py
+++ b/vllm/config/cache.py
@@ -1,7 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
-import hashlib
 from dataclasses import field
 from typing import TYPE_CHECKING, Any, Literal
 
@@ -160,13 +159,29 @@ class CacheConfig:
         excluding anything before input ids/embeddings and after
         the final hidden states.
         """
-        factors: list[Any] = []
-        factors.append(self.cache_dtype)
-        factors.append(self.mamba_cache_dtype)
-        factors.append(self.mamba_ssm_cache_dtype)
-        # `cpu_offload_gb` does not use `torch.compile` yet.
-        hash_str = hashlib.md5(str(factors).encode(), usedforsecurity=False).hexdigest()
-        return hash_str
+        ignored_factors = {
+            # Runtime/derived knobs that don't affect compiled graph shape
+            "gpu_memory_utilization",
+            "swap_space",
+            "is_attention_free",
+            "num_gpu_blocks_override",
+            "enable_prefix_caching",
+            "prefix_caching_hash_algo",
+            # `cpu_offload_gb` does not use `torch.compile` yet.
+            "cpu_offload_gb",
+            "cpu_kvcache_space_bytes",
+            "mamba_page_size_padded",
+            # Post-init/derived counters
+            "num_gpu_blocks",
+            "num_cpu_blocks",
+            # WIP feature toggle not impacting compiled graph shape
+            "kv_sharing_fast_prefill",
+        }
+
+        from vllm.config.utils import get_hash_factors, hash_factors
+
+        factors = get_hash_factors(self, ignored_factors)
+        return hash_factors(factors)
 
     def metrics_info(self):
         # convert cache_config to dict(key: str, value: str) for prometheus
diff --git a/vllm/config/compilation.py b/vllm/config/compilation.py
index 088d0b1af757a..ca01cb3fb55d5 100644
--- a/vllm/config/compilation.py
+++ b/vllm/config/compilation.py
@@ -2,7 +2,6 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
 import enum
-import hashlib
 from collections import Counter
 from collections.abc import Callable
 from dataclasses import asdict, field
@@ -160,7 +159,7 @@ class PassConfig:
             current_platform.get_device_capability().to_int(), {}
         )
 
-    def uuid(self):
+    def compute_hash(self) -> str:
         """
         Produces a hash unique to the pass configuration.
         Any new fields that affect compilation should be added to the hash.
@@ -506,28 +505,33 @@ class CompilationConfig:
 
     def compute_hash(self) -> str:
         """
-        WARNING: Whenever a new field is added to this config,
-        ensure that it is included in the factors list if
-        it affects the computation graph.
-
         Provide a hash that uniquely identifies all the configs
         that affect the structure of the computation
         graph from input ids/embeddings to the final hidden states,
         excluding anything before input ids/embeddings and after
         the final hidden states.
         """
-        factors: list[Any] = []
-        factors.append(self.mode)
-        factors.append(self.backend)
-        factors.append(self.custom_ops)
-        factors.append(self.splitting_ops)
-        factors.append(self.use_inductor)
-        factors.append(self.use_inductor_graph_partition)
-        factors.append(self.inductor_compile_config)
-        factors.append(self.inductor_passes)
-        factors.append(self.pass_config.uuid())
-        factors.append(self.compile_cache_save_format)
-        return hashlib.sha256(str(factors).encode()).hexdigest()
+        # Opt-out: default-include declared fields; keep a tiny exclude set;
+        # normalize types; keep SHA-256. For nested opaque configs, include a
+        # stable identifier (e.g., pass_config.compute_hash()) instead of object id.
+
+        ignored_factors = {
+            # Paths/dirs and runtime/metrics that don’t affect compiled graph
+            "debug_dump_path",
+            "cache_dir",
+            "local_cache_dir",
+            "bs_to_padded_graph_size",
+            "traced_files",
+            "compilation_time",
+            "static_forward_context",
+            "pass_config",  # handled separately below
+        }
+
+        from vllm.config.utils import get_hash_factors, hash_factors
+
+        factors = get_hash_factors(self, ignored_factors)
+        factors["pass_config"] = self.pass_config.compute_hash()
+        return hash_factors(factors)
 
     def __repr__(self) -> str:
         exclude = {
diff --git a/vllm/config/model.py b/vllm/config/model.py
index f61dbb6a695a2..b563a40eb8fc9 100644
--- a/vllm/config/model.py
+++ b/vllm/config/model.py
@@ -1,8 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
-import hashlib
-import json
 import warnings
 from collections.abc import Callable
 from dataclasses import InitVar, field
@@ -18,7 +16,7 @@ import vllm.envs as envs
 from vllm.config.multimodal import MMCacheType, MMEncoderTPMode, MultiModalConfig
 from vllm.config.pooler import PoolerConfig
 from vllm.config.scheduler import RunnerType
-from vllm.config.utils import assert_hashable, config, getattr_iter
+from vllm.config.utils import config, getattr_iter
 from vllm.logger import init_logger
 from vllm.platforms import current_platform
 from vllm.transformers_utils.config import (
@@ -324,50 +322,50 @@ class ModelConfig:
         excluding anything before input ids/embeddings and after
         the final hidden states.
         """
-        factors: list[Any] = []
-        factors.append(self.model)
-        factors.append(self.dtype)
-        factors.append(self.quantization)
-        factors.append(self.revision)
-        factors.append(self.code_revision)
-        factors.append(self.max_model_len)
-        factors.append(self.max_logprobs)
-        factors.append(self.disable_sliding_window)
-        factors.append(self.trust_remote_code)
-        factors.append(self.generation_config)
-        factors.append(self.model_impl)
-        factors.append(self.override_generation_config)
-        factors.append(self.video_pruning_rate)
-        factors.append(self.enable_prompt_embeds)
+        ignored_factors = {
+            "runner",
+            "convert",
+            "task",
+            "tokenizer",
+            "tokenizer_mode",
+            "seed",
+            "hf_config_path",
+            "allowed_local_media_path",
+            "allowed_media_domains",
+            "tokenizer_revision",
+            "spec_target_max_model_len",
+            "enforce_eager",
+            "logprobs_mode",
+            "disable_cascade_attn",
+            "skip_tokenizer_init",
+            "enable_prompt_embeds",
+            "served_model_name",
+            "config_format",
+            "hf_token",
+            "hf_overrides",
+            "logits_processor_pattern",
+            "enable_sleep_mode",
+            "override_attention_dtype",
+            "logits_processors",
+            "io_processor_plugin",
+            "pooler_config",
+            "override_pooler_config",
+            "multimodal_config",
+            "limit_mm_per_prompt",
+            "media_io_kwargs",
+            "mm_processor_kwargs",
+            "mm_processor_cache_gb",
+            "mm_processor_cache_type",
+            "mm_shm_cache_max_object_size_mb",
+            "mm_encoder_tp_mode",
+            "interleave_mm_strings",
+            "skip_mm_profiling",
+        }
 
-        # hf_config can control how the model looks!
-        try:
-            hf_config_json = self.hf_config.to_json_string(use_diff=False)
-        except TypeError:
-            from transformers import PretrainedConfig
+        from vllm.config.utils import get_hash_factors, hash_factors
 
-            from vllm.utils.jsontree import json_map_leaves
-
-            # Handle nested HF configs with unserializable values gracefully
-            hf_config_json = (
-                json.dumps(
-                    json_map_leaves(
-                        lambda v: v.to_dict()
-                        if isinstance(v, PretrainedConfig)
-                        else str(v),
-                        self.hf_config.to_dict(),
-                    ),
-                    indent=2,
-                    sort_keys=True,
-                )
-                + "\n"
-            )
-
-        factors.append(hf_config_json)
-
-        str_factors = str(factors)
-        assert_hashable(str_factors)
-        return hashlib.sha256(str(factors).encode()).hexdigest()
+        factors = get_hash_factors(self, ignored_factors)
+        return hash_factors(factors)
 
     def _update_nested(
         self,
diff --git a/vllm/config/parallel.py b/vllm/config/parallel.py
index 9a6326d62e82e..0f107a7a3ef83 100644
--- a/vllm/config/parallel.py
+++ b/vllm/config/parallel.py
@@ -1,7 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
-import hashlib
 import os
 from typing import TYPE_CHECKING, Any, Literal
 
@@ -448,19 +447,41 @@ class ParallelConfig:
         This hash is also used for DP worker configuration validation
         to prevent hangs from mismatched collective communication patterns.
         """
-        factors: list[Any] = []
-        factors.append(self.pipeline_parallel_size)
-        factors.append(self.tensor_parallel_size)
-        factors.append(self.enable_expert_parallel)
-        factors.append(self.data_parallel_size)
-        factors.append(self.all2all_backend)
-        factors.append(self.enable_eplb)
-        if self.enable_eplb:
-            factors.append(self.eplb_config.log_balancedness)
-            factors.append(self.eplb_config.window_size)
-            factors.append(self.eplb_config.step_interval)
-            factors.append(self.eplb_config.num_redundant_experts)
-        return hashlib.sha256(str(factors).encode()).hexdigest()
+        ignored_factors = {
+            # Derived/runtime topology, networking, or launch details
+            "data_parallel_rank",
+            "data_parallel_rank_local",
+            "data_parallel_backend",
+            "data_parallel_external_lb",
+            "data_parallel_hybrid_lb",
+            "data_parallel_master_ip",
+            "data_parallel_master_port",
+            "_data_parallel_master_port_list",
+            "data_parallel_rpc_port",
+            "rank",
+            "master_addr",
+            "master_port",
+            "node_rank",
+            "nnodes",
+            "max_parallel_loading_workers",
+            "disable_custom_all_reduce",
+            "ray_workers_use_nsight",
+            "ray_runtime_env",
+            "placement_group",
+            "distributed_executor_backend",
+            "worker_cls",
+            "sd_worker_cls",
+            "worker_extension_cls",
+            "_api_process_count",
+            "_api_process_rank",
+        }
+
+        from vllm.config.utils import get_hash_factors, hash_factors
+
+        factors = get_hash_factors(self, ignored_factors)
+        # Explicitly include backend affecting env factor as before
+        factors["VLLM_ALL2ALL_BACKEND"] = str(envs.VLLM_ALL2ALL_BACKEND)
+        return hash_factors(factors)
 
     def __post_init__(self) -> None:
         # Set all2all_backend from env var if not specified, with deprecation warning
diff --git a/vllm/config/utils.py b/vllm/config/utils.py
index 7e0878d96bbd6..02f2b75f608f1 100644
--- a/vllm/config/utils.py
+++ b/vllm/config/utils.py
@@ -3,14 +3,19 @@
 """Utility functions for vLLM config dataclasses."""
 
 import ast
+import enum
+import hashlib
 import inspect
+import json
+import pathlib
 import textwrap
-from collections.abc import Iterable
+from collections.abc import Iterable, Mapping, Sequence, Set
 from dataclasses import MISSING, Field, field, fields, is_dataclass, replace
 from itertools import pairwise
 from typing import TYPE_CHECKING, Any, Protocol, TypeVar
 
 import regex as re
+import torch
 from pydantic.fields import FieldInfo
 from typing_extensions import runtime_checkable
 
@@ -176,3 +181,115 @@ def update_config(config: ConfigT, overrides: dict[str, Any]) -> ConfigT:
             )
         processed_overrides[field_name] = value
     return replace(config, **processed_overrides)
+
+
+def normalize_value(x):
+    """Return a stable, JSON-serializable canonical form for hashing.
+    Order: primitives, special types (Enum, callable, torch.dtype, Path), then
+    generic containers (Mapping/Set/Sequence) with recursion.
+    """
+    # Fast path
+    if x is None or isinstance(x, (bool, int, float, str)):
+        return x
+
+    # Enums: tag with FQN to avoid primitive collisions.
+    # Ex: Enum(1) vs int(1) -> ("module.QualName", value).
+    if isinstance(x, enum.Enum):
+        enum_type = f"{x.__class__.__module__}.{x.__class__.__qualname__}"
+        return (enum_type, normalize_value(x.value))
+
+    # Classes (types) are accepted and canonicalized by their fully-qualified
+    # name (module.qualname) for a stable identifier.
+    # Instances are only accepted if they expose uuid(); otherwise they are
+    # rejected to avoid under-hashing object state.
+
+    # Callables: accept classes only; reject funcs/lambdas/methods.
+    # Used by LogitsProcessor types and ModelConfig.hf_overrides.
+    if isinstance(x, type):
+        module = getattr(x, "__module__", "")
+        qual = getattr(x, "__qualname__", getattr(x, "__name__", ""))
+        return ".".join([p for p in (module, qual) if p]) or repr(x)
+
+    # Prefer stable uuid identifiers for objects that provide them, even if
+    # they are callable instances (e.g., InductorPass wrappers).
+    if hasattr(x, "uuid") and callable(getattr(x, "uuid", None)):
+        return x.uuid()
+
+    if callable(x):
+        raise TypeError("normalize_value: function or callable instance unsupported")
+
+    # Torch dtype: stringify (torch.float64 -> "torch.float64").
+    # We rely on the string form here; dtype-bearing fields that need additional
+    # disambiguation should encode that at the config layer.
+    if isinstance(x, torch.dtype):
+        return str(x)
+
+    # Bytes
+    if isinstance(x, (bytes, bytearray)):
+        return x.hex()
+
+    # Paths (canonicalize)
+    if isinstance(x, pathlib.Path):
+        try:
+            return str(x.expanduser().resolve())
+        except Exception:
+            return str(x)
+
+    # Dataclasses: represent as (FQN, sorted(field,value) tuple) for stability.
+    if is_dataclass(x):
+        type_fqn = f"{x.__class__.__module__}.{x.__class__.__qualname__}"
+        items = tuple(
+            (f.name, normalize_value(getattr(x, f.name)))
+            for f in sorted(fields(x), key=lambda f: f.name)
+        )
+        return (type_fqn, items)
+
+    # Containers (generic)
+    if isinstance(x, Mapping):
+        return tuple(sorted((str(k), normalize_value(v)) for k, v in x.items()))
+    if isinstance(x, Set):
+        return tuple(sorted(repr(normalize_value(v)) for v in x))
+    if isinstance(x, Sequence) and not isinstance(x, (str, bytes, bytearray)):
+        return tuple(normalize_value(v) for v in x)
+
+    # PretrainedConfig
+    if hasattr(x, "to_json_string") and callable(x.to_json_string):
+        return x.to_json_string()
+
+    # Unsupported type: e.g., modules, generators, open files, or objects
+    # without a stable JSON/UUID representation. Hard-error to avoid
+    # under-hashing.
+    # If you hit this, either reshape your config to use supported primitives
+    # and containers, or extend normalize_value to provide a stable encoding
+    # (e.g., via uuid() or to_json_string()) for this type.
+    raise TypeError(
+        f"normalize_value: unsupported type '{type(x).__name__}'. "
+        "Ensure config values use supported primitives/containers or add a "
+        "stable representation for this type."
+    )
+
+
+def get_hash_factors(config: ConfigT, ignored_factors: set[str]) -> dict[str, object]:
+    """Gets the factors used for hashing a config class.
+    - Includes all dataclass fields not in `ignored_factors`.
+    - Errors on non-normalizable values.
+    """
+    factors: dict[str, object] = {}
+    for dc_field in fields(config):
+        factor = dc_field.name
+        if factor in ignored_factors:
+            continue
+        value = getattr(config, factor, None)
+        try:
+            factors[factor] = normalize_value(value)
+        except TypeError as e:
+            raise TypeError(
+                f"get_hash_factors: unsupported type for key '{factor}' "
+                f"({type(value).__name__})"
+            ) from e
+    return factors
+
+
+def hash_factors(items: dict[str, object]) -> str:
+    """Return a SHA-256 hex digest of the canonical items structure."""
+    return hashlib.sha256(json.dumps(items, sort_keys=True).encode()).hexdigest()
diff --git a/vllm/envs.py b/vllm/envs.py
index e61fb114325c6..212d68114e46e 100755
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -2,8 +2,8 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
 import functools
-import hashlib
 import json
+import logging
 import os
 import sys
 import tempfile
@@ -426,6 +426,8 @@ def get_vllm_port() -> int | None:
 
 # --8<-- [start:env-vars-definition]
 
+logger = logging.getLogger(__name__)
+
 environment_variables: dict[str, Callable[[], Any]] = {
     # ================== Installation Time Env Vars ==================
     # Target device of vLLM, supporting [cuda (by default),
@@ -1540,85 +1542,88 @@ def is_set(name: str):
     raise AttributeError(f"module {__name__!r} has no attribute {name!r}")
 
 
-def compute_hash() -> str:
-    """
-    WARNING: Whenever a new key is added to this environment
-    variables, ensure that it is included in the factors list if
-    it affects the computation graph. For example, different values
-    of VLLM_PP_LAYER_PARTITION will generate different computation
-    graphs, so it is included in the factors list. The env vars that
-    affect the choice of different kernels or attention backends should
-    also be included in the factors list.
-    """
+def compile_factors() -> dict[str, object]:
+    """Return env vars used for torch.compile cache keys.
 
-    # The values of envs may affects the computation graph.
-    # TODO(DefTruth): hash all environment variables?
-    # for key in environment_variables:
-    #     factorize(key)
-    environment_variables_to_hash = [
-        "VLLM_PP_LAYER_PARTITION",
-        "VLLM_MLA_DISABLE",
-        "VLLM_FLASH_ATTN_MAX_NUM_SPLITS_FOR_CUDA_GRAPH",
-        "VLLM_USE_TRITON_AWQ",
-        "VLLM_DP_RANK",
-        "VLLM_DP_SIZE",
-        "VLLM_USE_STANDALONE_COMPILE",
-        "VLLM_FUSED_MOE_CHUNK_SIZE",
-        "VLLM_FLASHINFER_MOE_BACKEND",
-        "VLLM_V1_USE_PREFILL_DECODE_ATTENTION",
-        "VLLM_ATTENTION_BACKEND",
-        "VLLM_USE_FLASHINFER_SAMPLER",
-        "VLLM_DISABLED_KERNELS",
-        "VLLM_USE_DEEP_GEMM",
-        "VLLM_MOE_USE_DEEP_GEMM",
-        "VLLM_USE_DEEP_GEMM_E8M0",
-        "VLLM_USE_FUSED_MOE_GROUPED_TOPK",
-        "VLLM_USE_FLASHINFER_MOE_FP16",
-        "VLLM_USE_FLASHINFER_MOE_FP8",
-        "VLLM_USE_FLASHINFER_MOE_FP4",
-        "VLLM_USE_FLASHINFER_MOE_MXFP4_MXFP8",
-        "VLLM_USE_FLASHINFER_MOE_MXFP4_MXFP8_CUTLASS",
-        "VLLM_USE_FLASHINFER_MOE_MXFP4_BF16",
-        "VLLM_FLASHINFER_WORKSPACE_BUFFER_SIZE",
-        "VLLM_USE_CUDNN_PREFILL",
-        "VLLM_USE_TRTLLM_RAGGED_DEEPSEEK_PREFILL",
-        "VLLM_USE_TRTLLM_ATTENTION",
-        "VLLM_FLASHINFER_DISABLE_Q_QUANTIZATION",
-        "VLLM_ROCM_USE_AITER",
-        "VLLM_ROCM_USE_AITER_PAGED_ATTN",
-        "VLLM_ROCM_USE_AITER_LINEAR",
-        "VLLM_ROCM_USE_AITER_MOE",
-        "VLLM_ROCM_USE_AITER_RMSNORM",
-        "VLLM_ROCM_USE_AITER_MLA",
-        "VLLM_ROCM_USE_AITER_MHA",
-        "VLLM_ROCM_USE_AITER_FP4_ASM_GEMM",
-        "VLLM_ROCM_USE_AITER_TRITON_ROPE",
-        "VLLM_ROCM_USE_AITER_FP8BMM",
-        "VLLM_ROCM_USE_AITER_UNIFIED_ATTENTION",
-        "VLLM_ROCM_USE_AITER_TRITON_GEMM",
-        "VLLM_ROCM_USE_SKINNY_GEMM",
-        "VLLM_ROCM_FP8_PADDING",
-        "VLLM_ROCM_MOE_PADDING",
-        "VLLM_ROCM_CUSTOM_PAGED_ATTN",
-        "VLLM_ROCM_QUICK_REDUCE_QUANTIZATION",
-        "VLLM_ROCM_QUICK_REDUCE_CAST_BF16_TO_FP16",
-        "VLLM_ROCM_QUICK_REDUCE_MAX_SIZE_BYTES_MB",
-        "VLLM_ROCM_FP8_MFMA_PAGE_ATTN",
-        "VLLM_ENABLE_INDUCTOR_MAX_AUTOTUNE",
-        "VLLM_ENABLE_INDUCTOR_COORDINATE_DESCENT_TUNING",
-        "VLLM_NVFP4_GEMM_BACKEND",
-        "VLLM_USE_FBGEMM",
-        "VLLM_DEEPEP_HIGH_THROUGHPUT_FORCE_INTRA_NODE",
-        "VLLM_DEEPEP_LOW_LATENCY_USE_MNNVL",
-    ]
-    for key in environment_variables_to_hash:
-        # if this goes out of sync with environment_variables,
-        # it's not a user error, it's a bug
-        assert key in environment_variables, (
-            "Please update environment_variables_to_hash in envs.py"
-        )
+    Start with every known vLLM env var; drop entries in `ignored_factors`;
+    hash everything else. This keeps the cache key aligned across workers."""
 
-    factors = [environment_variables[key]() for key in environment_variables_to_hash]
+    ignored_factors: set[str] = {
+        "MAX_JOBS",
+        "VLLM_RPC_BASE_PATH",
+        "VLLM_USE_MODELSCOPE",
+        "VLLM_RINGBUFFER_WARNING_INTERVAL",
+        "VLLM_DEBUG_DUMP_PATH",
+        "VLLM_PORT",
+        "VLLM_CACHE_ROOT",
+        "LD_LIBRARY_PATH",
+        "VLLM_SERVER_DEV_MODE",
+        "VLLM_DP_MASTER_IP",
+        "VLLM_DP_MASTER_PORT",
+        "VLLM_RANDOMIZE_DP_DUMMY_INPUTS",
+        "VLLM_CI_USE_S3",
+        "VLLM_MODEL_REDIRECT_PATH",
+        "VLLM_HOST_IP",
+        "S3_ACCESS_KEY_ID",
+        "S3_SECRET_ACCESS_KEY",
+        "S3_ENDPOINT_URL",
+        "VLLM_USAGE_STATS_SERVER",
+        "VLLM_NO_USAGE_STATS",
+        "VLLM_DO_NOT_TRACK",
+        "VLLM_LOGGING_LEVEL",
+        "VLLM_LOGGING_PREFIX",
+        "VLLM_LOGGING_STREAM",
+        "VLLM_LOGGING_CONFIG_PATH",
+        "VLLM_LOG_STATS_INTERVAL",
+        "VLLM_DEBUG_LOG_API_SERVER_RESPONSE",
+        "VLLM_TUNED_CONFIG_FOLDER",
+        "VLLM_ENGINE_ITERATION_TIMEOUT_S",
+        "VLLM_HTTP_TIMEOUT_KEEP_ALIVE",
+        "VLLM_EXECUTE_MODEL_TIMEOUT_SECONDS",
+        "VLLM_KEEP_ALIVE_ON_ENGINE_DEATH",
+        "VLLM_SLEEP_WHEN_IDLE",
+        "VLLM_IMAGE_FETCH_TIMEOUT",
+        "VLLM_VIDEO_FETCH_TIMEOUT",
+        "VLLM_AUDIO_FETCH_TIMEOUT",
+        "VLLM_MEDIA_URL_ALLOW_REDIRECTS",
+        "VLLM_MEDIA_LOADING_THREAD_COUNT",
+        "VLLM_MAX_AUDIO_CLIP_FILESIZE_MB",
+        "VLLM_VIDEO_LOADER_BACKEND",
+        "VLLM_MEDIA_CONNECTOR",
+        "VLLM_ASSETS_CACHE",
+        "VLLM_ASSETS_CACHE_MODEL_CLEAN",
+        "VLLM_MM_INPUT_CACHE_GIB",
+        "VLLM_WORKER_MULTIPROC_METHOD",
+        "VLLM_ENABLE_V1_MULTIPROCESSING",
+        "VLLM_V1_OUTPUT_PROC_CHUNK_SIZE",
+        "VLLM_CPU_KVCACHE_SPACE",
+        "VLLM_CPU_OMP_THREADS_BIND",
+        "VLLM_CPU_NUM_OF_RESERVED_CPU",
+        "VLLM_CPU_MOE_PREPACK",
+        "VLLM_CPU_SGL_KERNEL",
+        "VLLM_TEST_FORCE_LOAD_FORMAT",
+        "LOCAL_RANK",
+        "CUDA_VISIBLE_DEVICES",
+    }
+
+    from vllm.config.utils import normalize_value
+
+    factors: dict[str, object] = {}
+    for factor, getter in environment_variables.items():
+        if factor in ignored_factors:
+            continue
+
+        try:
+            raw = getter()
+        except Exception as exc:  # pragma: no cover - defensive logging
+            logger.warning(
+                "Skipping environment variable %s while hashing compile factors: %s",
+                factor,
+                exc,
+            )
+            continue
+
+        factors[factor] = normalize_value(raw)
 
     ray_noset_env_vars = [
         # Refer to
@@ -1641,8 +1646,8 @@ def compute_hash() -> str:
         "RAY_EXPERIMENTAL_NOSET_ONEAPI_DEVICE_SELECTOR",
         "RAY_EXPERIMENTAL_NOSET_RBLN_RT_VISIBLE_DEVICES",
     ]
-    factors.extend([os.getenv(var) for var in ray_noset_env_vars])
 
-    hash_str = hashlib.md5(str(factors).encode(), usedforsecurity=False).hexdigest()
+    for var in ray_noset_env_vars:
+        factors[var] = normalize_value(os.getenv(var))
 
-    return hash_str
+    return factors
diff --git a/vllm/logging_utils/__init__.py b/vllm/logging_utils/__init__.py
index 7202259ca21aa..44b40ead973ba 100644
--- a/vllm/logging_utils/__init__.py
+++ b/vllm/logging_utils/__init__.py
@@ -2,9 +2,11 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
 from vllm.logging_utils.formatter import NewLineFormatter
+from vllm.logging_utils.lazy import lazy
 from vllm.logging_utils.log_time import logtime
 
 __all__ = [
     "NewLineFormatter",
+    "lazy",
     "logtime",
 ]
diff --git a/vllm/logging_utils/lazy.py b/vllm/logging_utils/lazy.py
new file mode 100644
index 0000000000000..3ade798962857
--- /dev/null
+++ b/vllm/logging_utils/lazy.py
@@ -0,0 +1,20 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from collections.abc import Callable
+from typing import Any
+
+
+class lazy:
+    """Wrap a zero-argument callable evaluated only during log formatting."""
+
+    __slots__ = ("_factory",)
+
+    def __init__(self, factory: Callable[[], Any]) -> None:
+        self._factory = factory
+
+    def __str__(self) -> str:
+        return str(self._factory())
+
+    def __repr__(self) -> str:
+        return str(self)

From 48fc8b1e595766af9c91edfc1de43f3a352575eb Mon Sep 17 00:00:00 2001
From: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com>
Date: Wed, 19 Nov 2025 10:04:07 -0500
Subject: [PATCH 588/976] [BugFix] Fix async-scheduling + FlashAttn MLA
 (#28990)

Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com>
---
 vllm/v1/attention/backends/mla/common.py        | 15 +++++++++------
 vllm/v1/attention/backends/mla/flashattn_mla.py |  2 +-
 vllm/v1/attention/backends/utils.py             |  1 +
 vllm/v1/worker/gpu_model_runner.py              | 10 +++++++---
 4 files changed, 18 insertions(+), 10 deletions(-)

diff --git a/vllm/v1/attention/backends/mla/common.py b/vllm/v1/attention/backends/mla/common.py
index 2ccdd1f143ce8..e328049b53c7e 100755
--- a/vllm/v1/attention/backends/mla/common.py
+++ b/vllm/v1/attention/backends/mla/common.py
@@ -755,6 +755,7 @@ class MLACommonMetadataBuilder(AttentionMetadataBuilder[M]):
         seq_lens = common_attn_metadata.seq_lens
         seq_lens_cpu = common_attn_metadata.seq_lens_cpu
         dcp_local_seq_lens = common_attn_metadata.dcp_local_seq_lens
+        dcp_local_seq_lens_cpu = common_attn_metadata.dcp_local_seq_lens_cpu
 
         query_seq_lens_cpu = query_start_loc_cpu[1:] - query_start_loc_cpu[:-1]
 
@@ -944,18 +945,20 @@ class MLACommonMetadataBuilder(AttentionMetadataBuilder[M]):
 
         decode_metadata = None
         if num_decodes > 0:
+            dcp_tot_seq_lens_device = None
+            if self.dcp_world_size > 1:
+                dcp_tot_seq_lens_device = seq_lens[:num_decodes]
+                seq_lens_cpu = dcp_local_seq_lens_cpu
+                seq_lens = dcp_local_seq_lens
+
             decode_metadata = self._build_decode(
                 block_table_tensor=block_table_tensor[:num_decodes, ...],
                 seq_lens_cpu=seq_lens_cpu[:num_decodes],
-                seq_lens_device=dcp_local_seq_lens[:num_decodes]
-                if self.dcp_world_size > 1 and dcp_local_seq_lens is not None
-                else seq_lens[:num_decodes],
+                seq_lens_device=seq_lens[:num_decodes],
                 query_start_loc_cpu=query_start_loc_cpu[: num_decodes + 1],
                 query_start_loc_device=query_start_loc[: num_decodes + 1],
                 num_decode_tokens=num_decode_tokens,
-                dcp_tot_seq_lens_device=seq_lens[:num_decodes]
-                if self.dcp_world_size > 1
-                else None,
+                dcp_tot_seq_lens_device=dcp_tot_seq_lens_device,
             )
 
         attn_metadata = self.metadata_cls(
diff --git a/vllm/v1/attention/backends/mla/flashattn_mla.py b/vllm/v1/attention/backends/mla/flashattn_mla.py
index 7794e89cc0a94..12639edc8b9a1 100644
--- a/vllm/v1/attention/backends/mla/flashattn_mla.py
+++ b/vllm/v1/attention/backends/mla/flashattn_mla.py
@@ -173,7 +173,7 @@ class FlashAttnMLAMetadataBuilder(MLACommonMetadataBuilder[FlashAttnMLAMetadata]
     ) -> FlashAttnMLADecodeMetadata:
         query_lens_cpu = query_start_loc_cpu[1:] - query_start_loc_cpu[:-1]
         max_query_len = query_lens_cpu.max().item()
-        max_seq_len = seq_lens_device.max().item()
+        max_seq_len = seq_lens_cpu.max().item()
 
         # For Flash Attention MLA + full cudagraph
         max_num_splits = 0
diff --git a/vllm/v1/attention/backends/utils.py b/vllm/v1/attention/backends/utils.py
index 578153cda7863..0dd1896331291 100644
--- a/vllm/v1/attention/backends/utils.py
+++ b/vllm/v1/attention/backends/utils.py
@@ -92,6 +92,7 @@ class CommonAttentionMetadata:
     encoder_seq_lens: np.ndarray | None = None
 
     dcp_local_seq_lens: torch.Tensor | None = None
+    dcp_local_seq_lens_cpu: torch.Tensor | None = None
     """Sequence lengths of the local rank in decode context parallelism world"""
 
 
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index 506118d2d762b..3b00085b6bb99 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -1451,9 +1451,12 @@ class GPUModelRunner(
         num_computed_tokens_cpu = self.input_batch.num_computed_tokens_cpu_tensor[
             :num_reqs
         ]
-        dcp_local_seq_lens = (
-            self.dcp_local_seq_lens.gpu[:num_reqs] if self.dcp_world_size > 1 else None
-        )
+
+        dcp_local_seq_lens, dcp_local_seq_lens_cpu = None, None
+        if self.dcp_world_size > 1:
+            dcp_local_seq_lens = self.dcp_local_seq_lens.gpu[:num_reqs]
+            dcp_local_seq_lens_cpu = self.dcp_local_seq_lens.cpu[:num_reqs]
+
         spec_decode_common_attn_metadata = None
 
         if for_cudagraph_capture:
@@ -1521,6 +1524,7 @@ class GPUModelRunner(
                 causal=True,
                 encoder_seq_lens=encoder_seq_lens,
                 dcp_local_seq_lens=dcp_local_seq_lens,
+                dcp_local_seq_lens_cpu=dcp_local_seq_lens_cpu,
             )
 
             if self.speculative_config and spec_decode_common_attn_metadata is None:

From d44e9df7d49a9bb3400b002c38c06fae2dd7d1e8 Mon Sep 17 00:00:00 2001
From: Shanshan Shen <467638484@qq.com>
Date: Thu, 20 Nov 2025 00:24:55 +0800
Subject: [PATCH 589/976] [Model][Mamba] Add selector for mamba attention
 backend and make it pluggable for other device (#26487)

Signed-off-by: shen-shanshan <467638484@qq.com>
---
 docs/contributing/model/basic.md              |   1 +
 vllm/attention/__init__.py                    |   3 +-
 vllm/attention/backends/registry.py           | 114 +++++++++++++++---
 vllm/attention/selector.py                    |  33 ++++-
 vllm/model_executor/layers/kda.py             |   8 +-
 vllm/model_executor/layers/mamba/abstract.py  |  10 +-
 .../layers/mamba/linear_attn.py               |  14 ---
 .../layers/mamba/mamba_mixer.py               |  10 +-
 .../layers/mamba/mamba_mixer2.py              |   9 --
 .../model_executor/layers/mamba/short_conv.py |   9 --
 vllm/model_executor/models/plamo2.py          |   9 --
 vllm/model_executor/models/qwen3_next.py      |   9 +-
 12 files changed, 144 insertions(+), 85 deletions(-)

diff --git a/docs/contributing/model/basic.md b/docs/contributing/model/basic.md
index a7b54f015c2da..d7f5d2f311a37 100644
--- a/docs/contributing/model/basic.md
+++ b/docs/contributing/model/basic.md
@@ -146,6 +146,7 @@ We use "mamba-like" to refer to layers that posses a state that is updated in-pl
 For implementing new custom mamba-like layers, one should inherit from `MambaBase` and implement the methods `get_state_dtype`, `get_state_shape` to calculate the data types and state shapes at runtime, as well as `mamba_type` and `get_attn_backend`.
 It is also necessary to implement the "attention meta-data" class which handles the meta-data that is common across all layers.
 Please see [`LinearAttentionMetadata`](../../../vllm/v1/attention/backends/linear_attn.py) or [`ShortConvAttentionMetadata`](../../../vllm/v1/attention/backends/short_conv_attn.py) for examples of this.
+It is also worth noting that we should update `MAMBA_TYPE_TO_BACKEND_MAP` and `MambaAttentionBackendEnum` in [`registry.py`](../../../vllm/attention/backends/registry.py) when adding a new mamba backend.
 Finally, if one wants to support torch compile and CUDA graphs, it necessary to wrap the call to the mamba-like layer inside a custom op and register it.
 Please see the calls to `direct_register_custom_op` in [vllm/model_executor/models/minimax_text_01.py](../../../vllm/model_executor/models/minimax_text_01.py) or [vllm/model_executor/layers/mamba/short_conv.py](../../../vllm/model_executor/layers/mamba/short_conv.py) for examples of this.
 The new custom op should then be added to the list `_attention_ops` in [vllm/config/compilation.py](../../../vllm/config/compilation.py) to ensure that piecewise CUDA graphs works as intended.
diff --git a/vllm/attention/__init__.py b/vllm/attention/__init__.py
index dd35165d5415e..8b4dc4013362e 100644
--- a/vllm/attention/__init__.py
+++ b/vllm/attention/__init__.py
@@ -7,7 +7,7 @@ from vllm.attention.backends.abstract import (
     AttentionType,
 )
 from vllm.attention.layer import Attention
-from vllm.attention.selector import get_attn_backend
+from vllm.attention.selector import get_attn_backend, get_mamba_attn_backend
 
 __all__ = [
     "Attention",
@@ -15,4 +15,5 @@ __all__ = [
     "AttentionMetadata",
     "AttentionType",
     "get_attn_backend",
+    "get_mamba_attn_backend",
 ]
diff --git a/vllm/attention/backends/registry.py b/vllm/attention/backends/registry.py
index f07a6059be377..51899b0235915 100644
--- a/vllm/attention/backends/registry.py
+++ b/vllm/attention/backends/registry.py
@@ -2,8 +2,8 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 """Attention backend registry"""
 
-import enum
 from collections.abc import Callable
+from enum import Enum, EnumMeta
 from typing import TYPE_CHECKING, cast
 
 from vllm.logger import init_logger
@@ -15,7 +15,7 @@ if TYPE_CHECKING:
 logger = init_logger(__name__)
 
 
-class _AttentionBackendEnumMeta(enum.EnumMeta):
+class _AttentionBackendEnumMeta(EnumMeta):
     """Metaclass for AttentionBackendEnum to provide better error messages."""
 
     def __getitem__(cls, name: str):
@@ -23,15 +23,15 @@ class _AttentionBackendEnumMeta(enum.EnumMeta):
         try:
             return super().__getitem__(name)
         except KeyError:
-            members = cast("dict[str, AttentionBackendEnum]", cls.__members__).values()
-            valid_backends = ", ".join(m.name for m in members)
+            members = cast("dict[str, Enum]", cls.__members__).keys()
+            valid_backends = ", ".join(members)
             raise ValueError(
                 f"Unknown attention backend: '{name}'. "
                 f"Valid options are: {valid_backends}"
             ) from None
 
 
-class AttentionBackendEnum(enum.Enum, metaclass=_AttentionBackendEnumMeta):
+class AttentionBackendEnum(Enum, metaclass=_AttentionBackendEnumMeta):
     """Enumeration of all supported attention backends.
 
     The enum value is the default class path, but this can be overridden
@@ -83,7 +83,7 @@ class AttentionBackendEnum(enum.Enum, metaclass=_AttentionBackendEnumMeta):
         Raises:
             ValueError: If Backend.CUSTOM is used without being registered
         """
-        path = _OVERRIDES.get(self, self.value)
+        path = _ATTN_OVERRIDES.get(self, self.value)
         if not path:
             raise ValueError(
                 f"Backend {self.name} must be registered before use. "
@@ -111,18 +111,93 @@ class AttentionBackendEnum(enum.Enum, metaclass=_AttentionBackendEnumMeta):
         Returns:
             True if the backend has a registered override
         """
-        return self in _OVERRIDES
+        return self in _ATTN_OVERRIDES
 
     def clear_override(self) -> None:
         """Clear any override for this backend, reverting to the default."""
-        _OVERRIDES.pop(self, None)
+        _ATTN_OVERRIDES.pop(self, None)
 
 
-_OVERRIDES: dict[AttentionBackendEnum, str] = {}
+class MambaAttentionBackendEnum(Enum, metaclass=_AttentionBackendEnumMeta):
+    """Enumeration of all supported mamba attention backends.
+
+    The enum value is the default class path, but this can be overridden
+    at runtime using register_backend().
+
+    To get the actual backend class (respecting overrides), use:
+        backend.get_class()
+    """
+
+    MAMBA1 = "vllm.v1.attention.backends.mamba1_attn.Mamba1AttentionBackend"
+    MAMBA2 = "vllm.v1.attention.backends.mamba2_attn.Mamba2AttentionBackend"
+    SHORT_CONV = "vllm.v1.attention.backends.short_conv_attn.ShortConvAttentionBackend"
+    LINEAR = "vllm.v1.attention.backends.linear_attn.LinearAttentionBackend"
+    GDN_ATTN = "vllm.v1.attention.backends.gdn_attn.GDNAttentionBackend"
+    # Placeholder for third-party/custom backends - must be registered before use
+    CUSTOM = ""
+
+    def get_path(self, include_classname: bool = True) -> str:
+        """Get the class path for this backend (respects overrides).
+
+        Returns:
+            The fully qualified class path string
+
+        Raises:
+            ValueError: If Backend.CUSTOM is used without being registered
+        """
+        path = _MAMBA_ATTN_OVERRIDES.get(self, self.value)
+        if not path:
+            raise ValueError(
+                f"Backend {self.name} must be registered before use. "
+                f"Use register_backend(Backend.{self.name}, 'your.module.YourClass')"
+            )
+        if not include_classname:
+            path = path.rsplit(".", 1)[0]
+        return path
+
+    def get_class(self) -> "type[AttentionBackend]":
+        """Get the backend class (respects overrides).
+
+        Returns:
+            The backend class
+
+        Raises:
+            ImportError: If the backend class cannot be imported
+            ValueError: If Backend.CUSTOM is used without being registered
+        """
+        return resolve_obj_by_qualname(self.get_path())
+
+    def is_overridden(self) -> bool:
+        """Check if this backend has been overridden.
+
+        Returns:
+            True if the backend has a registered override
+        """
+        return self in _MAMBA_ATTN_OVERRIDES
+
+    def clear_override(self) -> None:
+        """Clear any override for this backend, reverting to the default."""
+        _MAMBA_ATTN_OVERRIDES.pop(self, None)
+
+
+MAMBA_TYPE_TO_BACKEND_MAP = {
+    "mamba1": MambaAttentionBackendEnum.MAMBA1.name,
+    "mamba2": MambaAttentionBackendEnum.MAMBA2.name,
+    "short_conv": MambaAttentionBackendEnum.SHORT_CONV.name,
+    "linear_attention": MambaAttentionBackendEnum.LINEAR.name,
+    "gdn_attention": MambaAttentionBackendEnum.GDN_ATTN.name,
+    "custom": MambaAttentionBackendEnum.CUSTOM.name,
+}
+
+
+_ATTN_OVERRIDES: dict[AttentionBackendEnum, str] = {}
+_MAMBA_ATTN_OVERRIDES: dict[MambaAttentionBackendEnum, str] = {}
 
 
 def register_backend(
-    backend: AttentionBackendEnum, class_path: str | None = None
+    backend: AttentionBackendEnum | MambaAttentionBackendEnum,
+    is_mamba: bool = False,
+    class_path: str | None = None,
 ) -> Callable[[type], type]:
     """Register or override a backend implementation.
 
@@ -135,12 +210,17 @@ def register_backend(
         Decorator function if class_path is None, otherwise a no-op
 
     Examples:
-        # Override an existing backend
+        # Override an existing attention backend
         @register_backend(AttentionBackendEnum.FLASH_ATTN)
         class MyCustomFlashAttn:
             ...
 
-        # Register a custom third-party backend
+        # Override an existing mamba attention backend
+        @register_backend(MambaAttentionBackendEnum.LINEAR, is_mamba=True)
+        class MyCustomMambaAttn:
+            ...
+
+        # Register a custom third-party attention backend
         @register_backend(AttentionBackendEnum.CUSTOM)
         class MyCustomBackend:
             ...
@@ -153,11 +233,17 @@ def register_backend(
     """
 
     def decorator(cls: type) -> type:
-        _OVERRIDES[backend] = f"{cls.__module__}.{cls.__qualname__}"
+        if is_mamba:
+            _MAMBA_ATTN_OVERRIDES[backend] = f"{cls.__module__}.{cls.__qualname__}"  # type: ignore[index]
+        else:
+            _ATTN_OVERRIDES[backend] = f"{cls.__module__}.{cls.__qualname__}"  # type: ignore[index]
         return cls
 
     if class_path is not None:
-        _OVERRIDES[backend] = class_path
+        if is_mamba:
+            _MAMBA_ATTN_OVERRIDES[backend] = class_path  # type: ignore[index]
+        else:
+            _ATTN_OVERRIDES[backend] = class_path  # type: ignore[index]
         return lambda x: x
 
     return decorator
diff --git a/vllm/attention/selector.py b/vllm/attention/selector.py
index 1a092db9ce378..e9af08b2316d2 100644
--- a/vllm/attention/selector.py
+++ b/vllm/attention/selector.py
@@ -12,7 +12,11 @@ import torch
 
 import vllm.envs as envs
 from vllm.attention.backends.abstract import AttentionBackend
-from vllm.attention.backends.registry import AttentionBackendEnum
+from vllm.attention.backends.registry import (
+    MAMBA_TYPE_TO_BACKEND_MAP,
+    AttentionBackendEnum,
+    MambaAttentionBackendEnum,
+)
 from vllm.config.cache import CacheDType
 from vllm.logger import init_logger
 from vllm.utils import STR_BACKEND_ENV_VAR
@@ -197,6 +201,33 @@ def _cached_get_attn_backend(
     return backend
 
 
+def get_mamba_attn_backend(
+    mamba_type: str,
+) -> type[AttentionBackend]:
+    """Select which mamba attention backend to use and lazily import it."""
+    return _cached_get_mamba_attn_backend(mamba_type)
+
+
+@cache
+def _cached_get_mamba_attn_backend(
+    mamba_type: str,
+) -> type[AttentionBackend]:
+    assert mamba_type and isinstance(mamba_type, str)
+
+    selected_backend = None
+    try:
+        backend_name = MAMBA_TYPE_TO_BACKEND_MAP[mamba_type]
+        selected_backend = MambaAttentionBackendEnum[backend_name]
+    except KeyError as e:
+        raise ValueError(
+            f"Invalid mamba attention backend type: '{backend_name}'. Valid "
+            f"backends are: {list(MambaAttentionBackendEnum.__members__.keys())}"
+        ) from e
+
+    mamba_attn_backend = selected_backend.get_class()
+    return mamba_attn_backend
+
+
 @contextmanager
 def global_force_attn_backend_context_manager(
     attn_backend: AttentionBackendEnum,
diff --git a/vllm/model_executor/layers/kda.py b/vllm/model_executor/layers/kda.py
index 2e7500bac7188..27cc3884517f9 100644
--- a/vllm/model_executor/layers/kda.py
+++ b/vllm/model_executor/layers/kda.py
@@ -5,7 +5,6 @@ import torch
 from einops import rearrange
 from torch import nn
 
-from vllm.attention import AttentionBackend
 from vllm.attention.backends.abstract import AttentionMetadata
 from vllm.config import CacheConfig, ModelConfig, get_current_vllm_config
 from vllm.distributed import (
@@ -83,12 +82,7 @@ direct_register_custom_op(
 class KimiDeltaAttention(nn.Module, MambaBase):
     @property
     def mamba_type(self) -> str:
-        return "linear_attention"
-
-    def get_attn_backend(self) -> type["AttentionBackend"]:
-        from vllm.v1.attention.backends.gdn_attn import GDNAttentionBackend
-
-        return GDNAttentionBackend
+        return "gdn_attention"
 
     def get_state_dtype(
         self,
diff --git a/vllm/model_executor/layers/mamba/abstract.py b/vllm/model_executor/layers/mamba/abstract.py
index e68b09b4d81f5..aa919d6fdc35c 100644
--- a/vllm/model_executor/layers/mamba/abstract.py
+++ b/vllm/model_executor/layers/mamba/abstract.py
@@ -6,6 +6,7 @@ from typing import TYPE_CHECKING
 
 import torch
 
+from vllm.attention.selector import get_mamba_attn_backend
 from vllm.config import VllmConfig
 from vllm.model_executor.layers.attention_layer_base import AttentionLayerBase
 from vllm.v1.kv_cache_interface import KVCacheSpec, MambaSpec
@@ -38,11 +39,6 @@ class MambaBase(AttentionLayerBase):
     def mamba_type(self) -> str:
         pass
 
-    @abstractmethod
-    def get_attn_backend(self) -> type["AttentionBackend"]:
-        """Get the attention backend class for this Mamba layer."""
-        pass
-
     @abstractmethod
     def get_state_dtype(self) -> tuple[torch.dtype, ...]:
         pass
@@ -69,3 +65,7 @@ class MambaBase(AttentionLayerBase):
                 else 0
             ),
         )
+
+    def get_attn_backend(self) -> type["AttentionBackend"]:
+        """Get the attention backend class for this Mamba layer."""
+        return get_mamba_attn_backend(self.mamba_type)
diff --git a/vllm/model_executor/layers/mamba/linear_attn.py b/vllm/model_executor/layers/mamba/linear_attn.py
index 0a2742ff49a44..d85b3e61c5d61 100644
--- a/vllm/model_executor/layers/mamba/linear_attn.py
+++ b/vllm/model_executor/layers/mamba/linear_attn.py
@@ -2,12 +2,6 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
 import math
-from typing import TYPE_CHECKING
-
-if TYPE_CHECKING:
-    from vllm.attention.backends.abstract import AttentionBackend
-
-from typing import TYPE_CHECKING
 
 import torch
 import torch.nn.functional as F
@@ -37,9 +31,6 @@ from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.utils.torch_utils import direct_register_custom_op
 from vllm.v1.attention.backends.linear_attn import LinearAttentionMetadata
 
-if TYPE_CHECKING:
-    from vllm.attention.backends.abstract import AttentionBackend
-
 
 class MiniMaxText01RMSNormTP(CustomOp):
     name = "MiniMaxText01RMSNormTP"
@@ -123,11 +114,6 @@ class MiniMaxText01LinearAttention(nn.Module, MambaBase):
     def mamba_type(self) -> str:
         return "linear_attention"
 
-    def get_attn_backend(self) -> type["AttentionBackend"]:
-        from vllm.v1.attention.backends.linear_attn import LinearAttentionBackend
-
-        return LinearAttentionBackend
-
     def get_state_dtype(self) -> tuple[torch.dtype]:
         assert self.model_config is not None
         assert self.cache_config is not None
diff --git a/vllm/model_executor/layers/mamba/mamba_mixer.py b/vllm/model_executor/layers/mamba/mamba_mixer.py
index b6345b8af7f0a..90e520e244416 100644
--- a/vllm/model_executor/layers/mamba/mamba_mixer.py
+++ b/vllm/model_executor/layers/mamba/mamba_mixer.py
@@ -1,10 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
-from typing import TYPE_CHECKING, NamedTuple
-
-if TYPE_CHECKING:
-    from vllm.attention.backends.abstract import AttentionBackend
+from typing import NamedTuple
 
 import torch
 from torch import nn
@@ -452,11 +449,6 @@ class MambaMixer(MambaBase, CustomOp):
     def mamba_type(self) -> str:
         return "mamba1"
 
-    def get_attn_backend(self) -> type["AttentionBackend"]:
-        from vllm.v1.attention.backends.mamba1_attn import Mamba1AttentionBackend
-
-        return Mamba1AttentionBackend
-
     def _time_proj_bias(self) -> torch.Tensor | None:
         if hasattr(self.dt_proj, "bias") and self.dt_proj.bias is not None:
             return self.dt_proj.bias.float()
diff --git a/vllm/model_executor/layers/mamba/mamba_mixer2.py b/vllm/model_executor/layers/mamba/mamba_mixer2.py
index 57313990b8206..900701c46348b 100644
--- a/vllm/model_executor/layers/mamba/mamba_mixer2.py
+++ b/vllm/model_executor/layers/mamba/mamba_mixer2.py
@@ -1,10 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
-from typing import TYPE_CHECKING
-
-if TYPE_CHECKING:
-    from vllm.attention.backends.abstract import AttentionBackend
 
 import torch
 from torch import nn
@@ -908,11 +904,6 @@ class MambaMixer2(MambaBase, CustomOp):
     def mamba_type(self) -> str:
         return "mamba2"
 
-    def get_attn_backend(self) -> type["AttentionBackend"]:
-        from vllm.v1.attention.backends.mamba2_attn import Mamba2AttentionBackend
-
-        return Mamba2AttentionBackend
-
 
 def mamba_mixer2(
     projected_states: torch.Tensor,
diff --git a/vllm/model_executor/layers/mamba/short_conv.py b/vllm/model_executor/layers/mamba/short_conv.py
index 04efa8a8b3734..0bbad17d7ebc7 100644
--- a/vllm/model_executor/layers/mamba/short_conv.py
+++ b/vllm/model_executor/layers/mamba/short_conv.py
@@ -1,10 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
-from typing import TYPE_CHECKING
-
-if TYPE_CHECKING:
-    from vllm.attention.backends.abstract import AttentionBackend
 
 import torch
 
@@ -232,11 +228,6 @@ class ShortConv(MambaBase, CustomOp):
     def mamba_type(self) -> str:
         return "short_conv"
 
-    def get_attn_backend(self) -> type["AttentionBackend"]:
-        from vllm.v1.attention.backends.short_conv_attn import ShortConvAttentionBackend
-
-        return ShortConvAttentionBackend
-
 
 def short_conv(
     hidden_states: torch.Tensor,
diff --git a/vllm/model_executor/models/plamo2.py b/vllm/model_executor/models/plamo2.py
index 0c87f5000ff45..52c9755e0e0ea 100644
--- a/vllm/model_executor/models/plamo2.py
+++ b/vllm/model_executor/models/plamo2.py
@@ -4,10 +4,6 @@
 
 from collections.abc import Iterable
 from itertools import islice
-from typing import TYPE_CHECKING
-
-if TYPE_CHECKING:
-    from vllm.attention.backends.abstract import AttentionBackend
 
 import torch
 from torch import nn
@@ -467,11 +463,6 @@ class Plamo2MambaMixer(MambaBase, CustomOp):
     def mamba_type(self) -> str:
         return "mamba2"
 
-    def get_attn_backend(self) -> type["AttentionBackend"]:
-        from vllm.v1.attention.backends.mamba2_attn import Mamba2AttentionBackend
-
-        return Mamba2AttentionBackend
-
 
 def plamo2_mamba_mixer(
     hidden_states: torch.Tensor,
diff --git a/vllm/model_executor/models/qwen3_next.py b/vllm/model_executor/models/qwen3_next.py
index 0415c8e00fdfa..ad631f61e4b93 100644
--- a/vllm/model_executor/models/qwen3_next.py
+++ b/vllm/model_executor/models/qwen3_next.py
@@ -10,7 +10,7 @@ from einops import rearrange
 from torch import nn
 from transformers.activations import ACT2FN
 
-from vllm.attention import Attention, AttentionBackend, AttentionMetadata
+from vllm.attention import Attention, AttentionMetadata
 from vllm.compilation.decorators import support_torch_compile
 from vllm.config import (
     CacheConfig,
@@ -216,12 +216,7 @@ class Qwen3NextSparseMoeBlock(nn.Module):
 class Qwen3NextGatedDeltaNet(nn.Module, MambaBase):
     @property
     def mamba_type(self) -> str:
-        return "linear_attention"
-
-    def get_attn_backend(self) -> type["AttentionBackend"]:
-        from vllm.v1.attention.backends.gdn_attn import GDNAttentionBackend
-
-        return GDNAttentionBackend
+        return "gdn_attention"
 
     def get_state_dtype(self) -> tuple[torch.dtype, torch.dtype]:
         return MambaStateDtypeCalculator.gated_delta_net_state_dtype(

From a8b70304d68497ac1c432a2ff343e9bfb516c227 Mon Sep 17 00:00:00 2001
From: Harry Mellor <19981378+hmellor@users.noreply.github.com>
Date: Wed, 19 Nov 2025 18:06:36 +0100
Subject: [PATCH 590/976] Update `rope_scaling` to `rope_parameters` in
 preparation for Transformers v5 (#28542)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
---
 .buildkite/test-pipeline.yaml                 |   6 +-
 benchmarks/kernels/benchmark_mrope.py         |  19 ++--
 .../offline_inference/context_extension.py    |   6 +-
 tests/compile/test_functionalization.py       |   4 +-
 tests/kernels/core/test_mrope.py              |  16 +--
 tests/kernels/core/test_pos_encoding.py       |  39 +++----
 .../moe/test_gpt_oss_triton_kernels.py        |   2 +-
 .../pooling/test_nomic_max_model_len.py       |  16 +--
 tests/test_config.py                          |  37 ++++---
 vllm/config/model.py                          |  59 +++++------
 .../layers/rotary_embedding/__init__.py       |  76 ++++++-------
 vllm/model_executor/models/afmoe.py           |  17 +--
 vllm/model_executor/models/apertus.py         |  22 +---
 vllm/model_executor/models/arcee.py           |  11 --
 vllm/model_executor/models/arctic.py          |   3 +-
 vllm/model_executor/models/baichuan.py        |   8 +-
 vllm/model_executor/models/bailing_moe.py     |   3 +-
 vllm/model_executor/models/bamba.py           |   6 +-
 vllm/model_executor/models/chameleon.py       |  29 +----
 vllm/model_executor/models/chatglm.py         |   3 +-
 vllm/model_executor/models/commandr.py        |   5 +-
 vllm/model_executor/models/config.py          |  22 ++--
 vllm/model_executor/models/dbrx.py            |   7 +-
 vllm/model_executor/models/deepseek_v2.py     |  43 +++-----
 vllm/model_executor/models/dots1.py           |  11 +-
 vllm/model_executor/models/ernie45_moe.py     |  14 +--
 vllm/model_executor/models/ernie45_vl_moe.py  |  13 +--
 vllm/model_executor/models/exaone.py          |  21 +---
 vllm/model_executor/models/exaone4.py         |  19 +---
 vllm/model_executor/models/falcon.py          |   3 +-
 vllm/model_executor/models/falcon_h1.py       |   8 +-
 vllm/model_executor/models/gemma.py           |   8 +-
 vllm/model_executor/models/gemma2.py          |   5 +-
 vllm/model_executor/models/gemma3.py          |  21 ++--
 vllm/model_executor/models/gemma3n.py         |  20 ++--
 vllm/model_executor/models/glm4.py            |  10 +-
 vllm/model_executor/models/glm4_1v.py         |   1 -
 vllm/model_executor/models/glm4_moe.py        |  11 +-
 vllm/model_executor/models/gpt_j.py           |   3 +-
 vllm/model_executor/models/gpt_neox.py        |   3 +-
 vllm/model_executor/models/gpt_oss.py         |  13 ++-
 vllm/model_executor/models/granite.py         |  17 +--
 vllm/model_executor/models/granitemoe.py      |  13 +--
 .../model_executor/models/granitemoehybrid.py |   5 +-
 .../model_executor/models/granitemoeshared.py |   6 +-
 vllm/model_executor/models/grok1.py           |  11 +-
 vllm/model_executor/models/hunyuan_v1.py      |  25 +----
 vllm/model_executor/models/internlm2.py       |  12 +--
 vllm/model_executor/models/internlm2_ve.py    |   5 +-
 vllm/model_executor/models/kimi_linear.py     |   5 -
 vllm/model_executor/models/lfm2.py            |  17 +--
 vllm/model_executor/models/lfm2_moe.py        |  17 +--
 vllm/model_executor/models/llama.py           |  22 +---
 vllm/model_executor/models/llama4.py          |  11 +-
 vllm/model_executor/models/longcat_flash.py   |  22 ++--
 vllm/model_executor/models/minicpm.py         |  12 +--
 vllm/model_executor/models/minicpm3.py        |  10 +-
 vllm/model_executor/models/minicpm_eagle.py   |   5 +-
 vllm/model_executor/models/minimax_m2.py      |  12 +--
 vllm/model_executor/models/minimax_text_01.py |   9 +-
 vllm/model_executor/models/mixtral.py         |   7 +-
 vllm/model_executor/models/mllama4.py         |   8 +-
 vllm/model_executor/models/molmo.py           |   3 +-
 vllm/model_executor/models/nemotron.py        |  17 +--
 vllm/model_executor/models/nemotron_nas.py    |  19 +---
 vllm/model_executor/models/olmo.py            |   3 +-
 vllm/model_executor/models/olmo2.py           |  13 +--
 vllm/model_executor/models/olmoe.py           |   6 +-
 vllm/model_executor/models/openpangu.py       |  26 ++---
 vllm/model_executor/models/orion.py           |  12 +--
 vllm/model_executor/models/ouro.py            |  11 +-
 vllm/model_executor/models/persimmon.py       |   3 +-
 vllm/model_executor/models/phi.py             |   6 +-
 vllm/model_executor/models/phimoe.py          |  18 ++--
 vllm/model_executor/models/plamo2.py          |   7 +-
 vllm/model_executor/models/qwen.py            |  11 +-
 vllm/model_executor/models/qwen2.py           |  16 +--
 vllm/model_executor/models/qwen2_5_vl.py      |   1 -
 vllm/model_executor/models/qwen2_moe.py       |  12 +--
 vllm/model_executor/models/qwen2_vl.py        |   1 -
 vllm/model_executor/models/qwen3.py           |  15 +--
 vllm/model_executor/models/qwen3_moe.py       |  12 +--
 vllm/model_executor/models/qwen3_next.py      |   3 +-
 .../models/qwen3_omni_moe_thinker.py          |   1 -
 vllm/model_executor/models/qwen3_vl.py        |   1 -
 vllm/model_executor/models/seed_oss.py        |  15 +--
 vllm/model_executor/models/solar.py           |  18 +---
 vllm/model_executor/models/stablelm.py        |   2 +-
 vllm/model_executor/models/starcoder2.py      |   3 +-
 vllm/model_executor/models/step3_text.py      |  16 ++-
 .../models/transformers/utils.py              |  10 +-
 vllm/model_executor/models/zamba2.py          |   4 +-
 vllm/transformers_utils/config.py             | 100 +++++++++++++-----
 vllm/transformers_utils/configs/afmoe.py      |   7 +-
 vllm/transformers_utils/configs/arctic.py     |  18 +++-
 vllm/transformers_utils/configs/flex_olmo.py  |  17 +--
 .../transformers_utils/configs/kimi_linear.py |  12 ++-
 vllm/transformers_utils/configs/lfm2_moe.py   |  12 ++-
 .../transformers_utils/configs/midashenglm.py |   2 +-
 vllm/transformers_utils/configs/mistral.py    |   4 +-
 vllm/transformers_utils/configs/nemotron.py   |  60 ++++++-----
 vllm/transformers_utils/configs/olmo3.py      |  12 ++-
 vllm/transformers_utils/configs/qwen3_next.py |  17 +--
 vllm/transformers_utils/configs/step3_vl.py   |  12 ++-
 104 files changed, 542 insertions(+), 910 deletions(-)

diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index e62cd60efaec0..d4b6f4077ab32 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -872,12 +872,12 @@ steps:
   optional: true
   commands:
     - pip install --upgrade git+https://github.com/huggingface/transformers
-    - pytest -v -s tests/models/test_initialization.py -k 'not (Gemma3 or ModernBert or Qwen2_5_VL or Qwen2_5vl or Qwen2VL or TransformersMultiModalEmbeddingModel or TransformersMultiModalForSequenceClassification or Ultravox or Phi4Multimodal or LlavaNextVideo or MiniCPMO or Lfm2Moe or PaliGemma or RobertaForSequenceClassification or Ovis2_5 or Fuyu or DeepseekOCR or KimiVL)'
+    - pytest -v -s tests/models/test_initialization.py -k 'not (Ultravox or Phi4Multimodal or MiniCPMO or Lfm2Moe or RobertaForSequenceClassification or Ovis2_5 or DeepseekOCR or KimiVL)'
     - pytest -v -s tests/models/test_transformers.py
     # - pytest -v -s tests/models/multimodal/processing/
-    - pytest -v -s tests/models/multimodal/test_mapping.py -k 'not (Gemma3 or Qwen2VL or Qwen2_5_VL)'
+    - pytest -v -s tests/models/multimodal/test_mapping.py
     - python3 examples/offline_inference/basic/chat.py
-    # - python3 examples/offline_inference/vision_language.py --model-type qwen2_5_vl
+    - python3 examples/offline_inference/vision_language.py --model-type qwen2_5_vl
     # Whisper needs spawn method to avoid deadlock
     - VLLM_WORKER_MULTIPROC_METHOD=spawn python3 examples/offline_inference/audio_language.py --model-type whisper
 
diff --git a/benchmarks/kernels/benchmark_mrope.py b/benchmarks/kernels/benchmark_mrope.py
index cb848d2bf579e..83bd91917508f 100644
--- a/benchmarks/kernels/benchmark_mrope.py
+++ b/benchmarks/kernels/benchmark_mrope.py
@@ -6,7 +6,7 @@
 #
 # The CSV file (named with current date/time) contains these columns:
 # model_name, tp_size, num_tokens, num_heads, num_kv_heads, head_dim, max_position,
-# rope_theta, is_neox_style, rope_scaling, dtype, torch_mean, torch_median, torch_p99,
+# is_neox_style, rope_parameters, dtype, torch_mean, torch_median, torch_p99,
 # torch_min, torch_max, triton_mean, triton_median, triton_p99, triton_min, triton_max,
 # speedup
 #
@@ -86,9 +86,8 @@ def benchmark_mrope(
     num_heads: int,
     num_kv_heads: int,
     max_position: int = 8192,
-    rope_theta: float = 10000,
     is_neox_style: bool = True,
-    rope_scaling: dict[str, Any] = None,
+    rope_parameters: dict[str, Any] | None = None,
     dtype: torch.dtype = torch.bfloat16,
     seed: int = 0,
     warmup_iter: int = 10,
@@ -102,9 +101,8 @@ def benchmark_mrope(
         head_size=head_dim,
         rotary_dim=head_dim,
         max_position=max_position,
-        base=rope_theta,
         is_neox_style=is_neox_style,
-        rope_scaling=rope_scaling,
+        rope_parameters=rope_parameters,
         dtype=dtype,
     ).to(device=device)
 
@@ -203,9 +201,8 @@ def benchmark_mrope(
             num_kv_heads,
             head_dim,
             max_position,
-            rope_theta,
             is_neox_style,
-            str(rope_scaling),
+            str(rope_parameters),
             str(dtype).split(".")[-1],
             torch_stats["mean"],
             torch_stats["median"],
@@ -255,9 +252,8 @@ if __name__ == "__main__":
             "num_kv_heads",
             "head_dim",
             "max_position",
-            "rope_theta",
             "is_neox_style",
-            "rope_scaling",
+            "rope_parameters",
             "dtype",
             "torch_mean",
             "torch_median",
@@ -303,7 +299,7 @@ if __name__ == "__main__":
                 q_size = num_heads * head_dim
                 kv_size = num_kv_heads * head_dim
                 is_neox_style = True
-                rope_theta = config.rope_theta
+                rope_parameters = config.rope_parameters
                 max_position = config.max_position_embeddings
 
                 for num_tokens in num_tokens_list:
@@ -315,9 +311,8 @@ if __name__ == "__main__":
                         num_heads=num_heads,
                         num_kv_heads=num_kv_heads,
                         max_position=max_position,
-                        rope_theta=rope_theta,
                         is_neox_style=is_neox_style,
-                        rope_scaling=config.rope_scaling,
+                        rope_parameters=rope_parameters,
                         dtype=getattr(torch, args.dtype),
                         seed=args.seed,
                         warmup_iter=args.warmup_iter,
diff --git a/examples/offline_inference/context_extension.py b/examples/offline_inference/context_extension.py
index df39e4c25d5c8..67d33e1881ee9 100644
--- a/examples/offline_inference/context_extension.py
+++ b/examples/offline_inference/context_extension.py
@@ -2,7 +2,7 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 """
 This script demonstrates how to extend the context length
-of a Qwen model using the YARN method (rope_scaling)
+of a Qwen model using the YARN method (rope_parameters)
 and run a simple chat example.
 
 Usage:
@@ -19,8 +19,8 @@ def create_llm():
 
     # Use yarn to extend context
     hf_overrides = {
-        "rope_theta": rope_theta,
-        "rope_scaling": {
+        "rope_parameters": {
+            "rope_theta": rope_theta,
             "rope_type": "yarn",
             "factor": factor,
             "original_max_position_embeddings": original_max_position_embeddings,
diff --git a/tests/compile/test_functionalization.py b/tests/compile/test_functionalization.py
index 11ae96e930da7..515e0a93ac2a8 100644
--- a/tests/compile/test_functionalization.py
+++ b/tests/compile/test_functionalization.py
@@ -137,7 +137,7 @@ class TestRotaryEmbedding(torch.nn.Module):
             self.head_dim,
             rotary_dim=self.rotary_dim,
             max_position=max_position,
-            base=base,
+            rope_parameters={"rope_type": "default", "rope_theta": base},
         )
 
     def forward(self, positions, q, k):
@@ -172,7 +172,7 @@ class TestRotaryEmbeddingSliceScatter(torch.nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=max_position,
-            base=base,
+            rope_parameters={"rope_type": "default", "rope_theta": base},
         )
 
     def forward(self, positions, hidden_states):
diff --git a/tests/kernels/core/test_mrope.py b/tests/kernels/core/test_mrope.py
index 02b795721f46e..43b242ab2d586 100644
--- a/tests/kernels/core/test_mrope.py
+++ b/tests/kernels/core/test_mrope.py
@@ -5,11 +5,11 @@ from typing import NamedTuple
 import pytest
 import torch
 from packaging.version import Version
-from transformers import AutoConfig
 from transformers import __version__ as TRANSFORMERS_VERSION
 
 from vllm.model_executor.layers.rotary_embedding import get_rope
 from vllm.platforms import current_platform
+from vllm.transformers_utils.config import get_config
 
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 
@@ -98,8 +98,7 @@ def test_mrope(
     atol = model_info.atol
     rtol = model_info.rtol
 
-    config = AutoConfig.from_pretrained(model_name)
-    config = config.get_text_config()
+    config = get_config(model_name, False).get_text_config()
 
     # get the model config
     total_num_kv_heads = config.num_key_value_heads
@@ -113,7 +112,6 @@ def test_mrope(
     )
     is_neox_style = True
 
-    rope_theta = config.rope_theta
     max_position = config.max_position_embeddings
     partial_rotary_factor = getattr(config, "partial_rotary_factor", 1.0)
     rotary_dim = int(head_dim * partial_rotary_factor)
@@ -122,9 +120,8 @@ def test_mrope(
         head_size=head_dim,
         rotary_dim=rotary_dim,
         max_position=max_position,
-        base=rope_theta,
         is_neox_style=is_neox_style,
-        rope_scaling=config.rope_scaling,
+        rope_parameters=config.rope_parameters,
         dtype=dtype,
     ).to(device=device)
 
@@ -173,8 +170,7 @@ def test_mrope_torch_compile_tracing(
     atol = model_info.atol
     rtol = model_info.rtol
 
-    config = AutoConfig.from_pretrained(model_name)
-    config = config.get_text_config()
+    config = get_config(model_name, False).get_text_config()
 
     # get the model config
     total_num_kv_heads = config.num_key_value_heads
@@ -187,7 +183,6 @@ def test_mrope_torch_compile_tracing(
         else config.hidden_size // total_num_heads
     )
     is_neox_style = True
-    rope_theta = config.rope_theta
     max_position = config.max_position_embeddings
     partial_rotary_factor = getattr(config, "partial_rotary_factor", 1.0)
     rotary_dim = int(head_dim * partial_rotary_factor)
@@ -196,9 +191,8 @@ def test_mrope_torch_compile_tracing(
         head_size=head_dim,
         rotary_dim=rotary_dim,
         max_position=max_position,
-        base=rope_theta,
         is_neox_style=is_neox_style,
-        rope_scaling=config.rope_scaling,
+        rope_parameters=config.rope_parameters,
         dtype=dtype,
     ).to(device=device)
 
diff --git a/tests/kernels/core/test_pos_encoding.py b/tests/kernels/core/test_pos_encoding.py
index c35ee5016ba05..a8ed3825689d3 100644
--- a/tests/kernels/core/test_pos_encoding.py
+++ b/tests/kernels/core/test_pos_encoding.py
@@ -74,7 +74,7 @@ def test_rotary_embedding(
     device: str,
     use_key: bool,
     max_position: int = 8192,
-    base: float = 10000,
+    rope_theta: float = 10000,
 ) -> None:
     if rotary_dim is None:
         rotary_dim = head_size
@@ -83,7 +83,8 @@ def test_rotary_embedding(
     torch.set_default_device(device)
     if rotary_dim is None:
         rotary_dim = head_size
-    rope = get_rope(head_size, rotary_dim, max_position, base, is_neox_style)
+    rope_parameters = {"rope_type": "default", "rope_theta": rope_theta}
+    rope = get_rope(head_size, rotary_dim, max_position, is_neox_style, rope_parameters)
     rope = rope.to(dtype=dtype, device=torch.get_default_device())
 
     positions = torch.randint(0, max_position, (batch_size, seq_len))
@@ -120,9 +121,9 @@ def test_rotary_embedding(
 @torch.inference_mode()
 def test_rope_module_cache():
     MAX_POSITIONS = [123, 1234]
-    BASES = [10000, 1000000]
-    ROPE_SCALINGS = (
-        None,
+    ROPE_THETAS = [10000, 1000000]
+    ROPE_PARAMETERS = (
+        {"rope_type": "default"},
         {"rope_type": "linear", "factor": (1,)},
         {"rope_type": "dynamic", "factor": 1},
     )
@@ -130,9 +131,9 @@ def test_rope_module_cache():
         HEAD_SIZES,
         ROTARY_DIMS,
         MAX_POSITIONS,
-        BASES,
+        ROPE_THETAS,
         IS_NEOX_STYLE,
-        ROPE_SCALINGS,
+        ROPE_PARAMETERS,
         DTYPES,
     )
     rope_setting_id_map: dict[str, int] = {}
@@ -141,20 +142,20 @@ def test_rope_module_cache():
             head_size,
             rotary_dim,
             max_position,
-            base,
-            is_neox_stype,
-            rope_scaling,
+            rope_theta,
+            is_neox_style,
+            rope_parameters,
             dtype,
         ) = setting
         if rotary_dim is None:
             rotary_dim = head_size
+        rope_parameters["rope_theta"] = rope_theta
         rope = get_rope(
             head_size,
             rotary_dim,
             max_position,
-            base,
-            is_neox_stype,
-            rope_scaling,
+            is_neox_style,
+            rope_parameters,
             dtype,
         )
         # different settings cannot share the same rope module
@@ -168,20 +169,20 @@ def test_rope_module_cache():
             head_size,
             rotary_dim,
             max_position,
-            base,
-            is_neox_stype,
-            rope_scaling,
+            rope_theta,
+            is_neox_style,
+            rope_parameters,
             dtype,
         ) = setting
         if rotary_dim is None:
             rotary_dim = head_size
+        rope_parameters["rope_theta"] = rope_theta
         rope = get_rope(
             head_size,
             rotary_dim,
             max_position,
-            base,
-            is_neox_stype,
-            rope_scaling,
+            is_neox_style,
+            rope_parameters,
             dtype,
         )
         # check if cache take effect
diff --git a/tests/kernels/moe/test_gpt_oss_triton_kernels.py b/tests/kernels/moe/test_gpt_oss_triton_kernels.py
index dfd317bcf72f1..af33fd4e3fc3b 100644
--- a/tests/kernels/moe/test_gpt_oss_triton_kernels.py
+++ b/tests/kernels/moe/test_gpt_oss_triton_kernels.py
@@ -201,7 +201,7 @@ class ModelConfig:
     sliding_window: int = 128
     initial_context_length: int = 4096
     rope_theta: float = 150000.0
-    rope_scaling_factor: float = 32.0
+    rope_parameters_factor: float = 32.0
     rope_ntk_alpha: float = 1.0
     rope_ntk_beta: float = 32.0
 
diff --git a/tests/models/language/pooling/test_nomic_max_model_len.py b/tests/models/language/pooling/test_nomic_max_model_len.py
index 88f088c603276..d6216a87a229e 100644
--- a/tests/models/language/pooling/test_nomic_max_model_len.py
+++ b/tests/models/language/pooling/test_nomic_max_model_len.py
@@ -1,6 +1,8 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 # ruff: noqa: SIM117
+from typing import Any
+
 import pytest
 
 from ...utils import EmbedModelInfo
@@ -79,8 +81,8 @@ def test_set_max_model_len_illegal(model_info, vllm_runner):
 @pytest.mark.parametrize("model_info", MODELS)
 def test_use_rope_scaling_legal(model_info, vllm_runner):
     hf_overrides = {
-        "rope_theta": rope_theta,
-        "rope_scaling": {
+        "rope_parameters": {
+            "rope_theta": rope_theta,
             "rope_type": "yarn",
             "factor": factor,
             "original_max_position_embeddings": original_max_position_embeddings,
@@ -96,9 +98,9 @@ def test_use_rope_scaling_legal(model_info, vllm_runner):
 
 @pytest.mark.parametrize("model_info", MODELS)
 def test_use_rope_scaling_illegal(model_info, vllm_runner):
-    hf_overrides = {
-        "rope_theta": rope_theta,
-        "rope_scaling": {
+    hf_overrides: dict[str, Any] = {
+        "rope_parameters": {
+            "rope_theta": rope_theta,
             "rope_type": "yarn",
             "factor": factor,
             "original_max_position_embeddings": original_max_position_embeddings,
@@ -115,8 +117,8 @@ def test_use_rope_scaling_illegal(model_info, vllm_runner):
             pass
 
     hf_overrides = {
-        "rope_theta": rope_theta,
-        "rope_scaling": {
+        "rope_parameters": {
+            "rope_theta": rope_theta,
             "rope_type": "yarn",
             "factor": factor,
             "original_max_position_embeddings": original_max_position_embeddings,
diff --git a/tests/test_config.py b/tests/test_config.py
index bba2fbec3db29..16f68d18fc68b 100644
--- a/tests/test_config.py
+++ b/tests/test_config.py
@@ -249,45 +249,48 @@ def test_get_bert_tokenization_sentence_transformer_config():
 
 
 def test_rope_customization():
-    TEST_ROPE_SCALING = {"rope_type": "dynamic", "factor": 2.0}
-    TEST_ROPE_THETA = 16_000_000.0
-    LONGCHAT_ROPE_SCALING = {"rope_type": "linear", "factor": 8.0}
+    TEST_ROPE_PARAMETERS = {
+        "rope_theta": 16_000_000.0,
+        "rope_type": "dynamic",
+        "factor": 2.0,
+    }
+    LLAMA_ROPE_PARAMETERS = {"rope_theta": 500000.0, "rope_type": "default"}
+    LONGCHAT_ROPE_PARAMETERS = {"rope_type": "linear", "factor": 8.0}
 
     llama_model_config = ModelConfig("meta-llama/Meta-Llama-3-8B-Instruct")
-    assert getattr(llama_model_config.hf_config, "rope_scaling", None) is None
-    assert getattr(llama_model_config.hf_config, "rope_theta", None) == 500_000
+    assert (
+        getattr(llama_model_config.hf_config, "rope_parameters", None)
+        == LLAMA_ROPE_PARAMETERS
+    )
     assert llama_model_config.max_model_len == 8192
 
     llama_model_config = ModelConfig(
         "meta-llama/Meta-Llama-3-8B-Instruct",
-        hf_overrides={
-            "rope_scaling": TEST_ROPE_SCALING,
-            "rope_theta": TEST_ROPE_THETA,
-        },
+        hf_overrides={"rope_parameters": TEST_ROPE_PARAMETERS},
     )
     assert (
-        getattr(llama_model_config.hf_config, "rope_scaling", None) == TEST_ROPE_SCALING
+        getattr(llama_model_config.hf_config, "rope_parameters", None)
+        == TEST_ROPE_PARAMETERS
     )
-    assert getattr(llama_model_config.hf_config, "rope_theta", None) == TEST_ROPE_THETA
     assert llama_model_config.max_model_len == 16384
 
     longchat_model_config = ModelConfig("lmsys/longchat-13b-16k")
-    # Check if LONGCHAT_ROPE_SCALING entries are in longchat_model_config
+    # Check if LONGCHAT_ROPE_PARAMETERS entries are in longchat_model_config
     assert all(
-        longchat_model_config.hf_config.rope_scaling.get(key) == value
-        for key, value in LONGCHAT_ROPE_SCALING.items()
+        longchat_model_config.hf_config.rope_parameters.get(key) == value
+        for key, value in LONGCHAT_ROPE_PARAMETERS.items()
     )
     assert longchat_model_config.max_model_len == 16384
 
     longchat_model_config = ModelConfig(
         "lmsys/longchat-13b-16k",
         hf_overrides={
-            "rope_scaling": TEST_ROPE_SCALING,
+            "rope_parameters": TEST_ROPE_PARAMETERS,
         },
     )
     assert (
-        getattr(longchat_model_config.hf_config, "rope_scaling", None)
-        == TEST_ROPE_SCALING
+        getattr(longchat_model_config.hf_config, "rope_parameters", None)
+        == TEST_ROPE_PARAMETERS
     )
     assert longchat_model_config.max_model_len == 4096
 
diff --git a/vllm/config/model.py b/vllm/config/model.py
index b563a40eb8fc9..d1e56a72a318b 100644
--- a/vllm/config/model.py
+++ b/vllm/config/model.py
@@ -11,6 +11,7 @@ import torch
 from pydantic import ConfigDict, SkipValidation, field_validator, model_validator
 from pydantic.dataclasses import dataclass
 from safetensors.torch import _TYPES as _SAFETENSORS_TO_TORCH_DTYPE
+from transformers.configuration_utils import ALLOWED_LAYER_TYPES
 
 import vllm.envs as envs
 from vllm.config.multimodal import MMCacheType, MMEncoderTPMode, MultiModalConfig
@@ -2100,31 +2101,32 @@ def _get_and_verify_max_len(
         )
         derived_max_model_len = default_max_len
 
-    rope_scaling = getattr(hf_config, "rope_scaling", None)
+    # In Transformers v5 rope_parameters could be TypedDict or dict[str, TypedDict].
+    # To simplify the verification, we convert it to dict[str, TypedDict].
+    rope_parameters = getattr(hf_config, "rope_parameters", None)
+    if rope_parameters and not set(rope_parameters.keys()).issubset(
+        ALLOWED_LAYER_TYPES
+    ):
+        rope_parameters = {"": rope_parameters}
+
     # NOTE(woosuk): Gemma3's max_model_len (128K) is already scaled by RoPE
     # scaling, so we skip applying the scaling factor again.
-    if rope_scaling is not None and "gemma3" not in hf_config.model_type:
-        # No need to consider "type" key because of patch_rope_scaling when
-        # loading HF config
-        rope_type = rope_scaling["rope_type"]
+    if rope_parameters is not None and "gemma3" not in hf_config.model_type:
+        scaling_factor = 1.0
+        for rp in rope_parameters.values():
+            # No need to consider "type" key because of patch_rope_parameters when
+            # loading HF config
+            rope_type = rp["rope_type"]
 
-        if rope_type not in ("su", "longrope", "llama3"):
-            if disable_sliding_window:
-                # TODO(robertgshaw): Find a model that supports rope_scaling
-                # with sliding window to see if this case should be allowed.
-                raise NotImplementedError(
-                    "Disabling sliding window is not supported for models "
-                    "with rope_scaling. Please raise an issue so we can "
-                    "investigate."
-                )
+            if rope_type not in ("su", "longrope", "llama3"):
+                # NOTE: rope_type == "default" does not define factor https://github.com/huggingface/transformers/blob/v4.45.2/src/transformers/modeling_rope_utils.py
+                # NOTE: This assumes all layer types have the same scaling factor.
+                scaling_factor = rp.get("factor", scaling_factor)
 
-            # NOTE: rope_type == "default" does not define factor
-            # https://github.com/huggingface/transformers/blob/v4.45.2/src/transformers/modeling_rope_utils.py
-            scaling_factor = rope_scaling.get("factor", 1.0)
-
-            if rope_type == "yarn":
-                derived_max_model_len = rope_scaling["original_max_position_embeddings"]
-            derived_max_model_len *= scaling_factor
+                if rope_type == "yarn":
+                    derived_max_model_len = rp["original_max_position_embeddings"]
+        # Do this outside loop since all layer types should have the same scaling
+        derived_max_model_len *= scaling_factor
 
     if encoder_config and "max_seq_length" in encoder_config:
         derived_max_model_len = encoder_config["max_seq_length"]
@@ -2134,7 +2136,9 @@ def _get_and_verify_max_len(
     if max_model_len is None:
         # For LongRoPE, default to original_max_position_embeddings to avoid
         # performance degradation for shorter sequences
-        if rope_scaling is not None and rope_scaling["rope_type"] == "longrope":
+        if rope_parameters is not None and any(
+            rp["rope_type"] == "longrope" for rp in rope_parameters.values()
+        ):
             max_model_len = int(
                 getattr(
                     hf_config, "original_max_position_embeddings", derived_max_model_len
@@ -2151,16 +2155,7 @@ def _get_and_verify_max_len(
         # that will be bigger than derived_max_model_len. We compare user input
         # with model_max_length and allow this override when it's smaller.
         model_max_length = getattr(hf_config, "model_max_length", None)
-        if model_max_length is not None and max_model_len <= model_max_length:
-            if disable_sliding_window:
-                # TODO(robertgshaw): Find a model that has model_max_length
-                # with sliding window to see if this case should be allowed.
-                raise NotImplementedError(
-                    "Disabling sliding window is not supported for models "
-                    "model_max_length in the config. Please raise an issue "
-                    "so we can investigate."
-                )
-        else:
+        if model_max_length is None or max_model_len > model_max_length:
             msg = (
                 f"User-specified max_model_len ({max_model_len}) is greater "
                 f"than the derived max_model_len ({max_len_key}="
diff --git a/vllm/model_executor/layers/rotary_embedding/__init__.py b/vllm/model_executor/layers/rotary_embedding/__init__.py
index 56c165f9c041a..ae8a7d93b50e4 100644
--- a/vllm/model_executor/layers/rotary_embedding/__init__.py
+++ b/vllm/model_executor/layers/rotary_embedding/__init__.py
@@ -26,23 +26,23 @@ def get_rope(
     head_size: int,
     rotary_dim: int,
     max_position: int,
-    base: float,
     is_neox_style: bool = True,
-    rope_scaling: dict[str, Any] | None = None,
+    rope_parameters: dict[str, Any] | None = None,
     dtype: torch.dtype | None = None,
     partial_rotary_factor: float = 1.0,
     dual_chunk_attention_config: dict[str, Any] | None = None,
 ) -> RotaryEmbedding:
     if dtype is None:
         dtype = torch.get_default_dtype()
-    if rope_scaling is not None:
+    if rope_parameters is not None:
         # Transforms every value that is a list into a tuple for caching calls
-        rope_scaling_tuple = {
-            k: tuple(v) if isinstance(v, list) else v for k, v in rope_scaling.items()
+        rope_parameters_tuple = {
+            k: tuple(v) if isinstance(v, list) else v
+            for k, v in rope_parameters.items()
         }
-        rope_scaling_args = tuple(rope_scaling_tuple.items())
+        rope_parameters_args = tuple(rope_parameters_tuple.items())
     else:
-        rope_scaling_args = None
+        rope_parameters_args = None
 
     if dual_chunk_attention_config is not None:
         dual_chunk_attention_tuple = {
@@ -60,15 +60,15 @@ def get_rope(
         head_size,
         rotary_dim,
         max_position,
-        base,
         is_neox_style,
-        rope_scaling_args,
+        rope_parameters_args,
         dual_chunk_attention_args,
         dtype,
     )
     if key in _ROPE_DICT:
         return _ROPE_DICT[key]
 
+    base = rope_parameters["rope_theta"] if rope_parameters else 10000
     if dual_chunk_attention_config is not None:
         extra_kwargs = {
             k: v
@@ -84,18 +84,18 @@ def get_rope(
             dtype,
             **extra_kwargs,
         )
-    elif not rope_scaling:
+    elif not rope_parameters:
         rotary_emb = RotaryEmbedding(
             head_size, rotary_dim, max_position, base, is_neox_style, dtype
         )
     else:
-        scaling_type = rope_scaling["rope_type"]
+        scaling_type = rope_parameters["rope_type"]
 
         if scaling_type == "llama3":
-            scaling_factor = rope_scaling["factor"]
-            low_freq_factor = rope_scaling["low_freq_factor"]
-            high_freq_factor = rope_scaling["high_freq_factor"]
-            original_max_position = rope_scaling["original_max_position_embeddings"]
+            scaling_factor = rope_parameters["factor"]
+            low_freq_factor = rope_parameters["low_freq_factor"]
+            high_freq_factor = rope_parameters["high_freq_factor"]
+            original_max_position = rope_parameters["original_max_position_embeddings"]
             rotary_emb = Llama3RotaryEmbedding(
                 head_size,
                 rotary_dim,
@@ -113,7 +113,7 @@ def get_rope(
                 head_size, rotary_dim, max_position, base, is_neox_style, dtype
             )
         elif scaling_type == "default":
-            if "mrope_section" in rope_scaling:
+            if "mrope_section" in rope_parameters:
                 rotary_emb = MRotaryEmbedding(
                     head_size,
                     rotary_dim,
@@ -121,8 +121,8 @@ def get_rope(
                     base,
                     is_neox_style,
                     dtype,
-                    mrope_section=rope_scaling["mrope_section"],
-                    mrope_interleaved=rope_scaling.get("mrope_interleaved", False),
+                    mrope_section=rope_parameters["mrope_section"],
+                    mrope_interleaved=rope_parameters.get("mrope_interleaved", False),
                 )
             else:
                 rotary_emb = RotaryEmbedding(
@@ -134,7 +134,7 @@ def get_rope(
                     dtype,
                 )
         elif scaling_type == "linear":
-            scaling_factor = rope_scaling["factor"]
+            scaling_factor = rope_parameters["factor"]
             rotary_emb = LinearScalingRotaryEmbedding(
                 head_size,
                 rotary_dim,
@@ -145,8 +145,8 @@ def get_rope(
                 dtype,
             )
         elif scaling_type == "ntk":
-            scaling_factor = rope_scaling["factor"]
-            mixed_b = rope_scaling.get("mixed_b", None)
+            scaling_factor = rope_parameters["factor"]
+            mixed_b = rope_parameters.get("mixed_b")
             rotary_emb = NTKScalingRotaryEmbedding(
                 head_size,
                 rotary_dim,
@@ -158,8 +158,8 @@ def get_rope(
                 mixed_b,
             )
         elif scaling_type == "dynamic":
-            if "alpha" in rope_scaling:
-                scaling_alpha = rope_scaling["alpha"]
+            if "alpha" in rope_parameters:
+                scaling_alpha = rope_parameters["alpha"]
                 rotary_emb = DynamicNTKAlphaRotaryEmbedding(
                     head_size,
                     rotary_dim,
@@ -169,8 +169,8 @@ def get_rope(
                     scaling_alpha,
                     dtype,
                 )
-            elif "factor" in rope_scaling:
-                scaling_factor = rope_scaling["factor"]
+            elif "factor" in rope_parameters:
+                scaling_factor = rope_parameters["factor"]
                 rotary_emb = DynamicNTKScalingRotaryEmbedding(
                     head_size,
                     rotary_dim,
@@ -185,11 +185,11 @@ def get_rope(
                     "Dynamic rope scaling must contain either 'alpha' or 'factor' field"
                 )
         elif scaling_type == "yarn":
-            scaling_factor = rope_scaling["factor"]
-            original_max_position = rope_scaling["original_max_position_embeddings"]
+            scaling_factor = rope_parameters["factor"]
+            original_max_position = rope_parameters["original_max_position_embeddings"]
             extra_kwargs = {
                 k: v
-                for k, v in rope_scaling.items()
+                for k, v in rope_parameters.items()
                 if k
                 in (
                     "extrapolation_factor",
@@ -199,7 +199,7 @@ def get_rope(
                     "apply_yarn_scaling",
                 )
             }
-            if "mrope_section" in rope_scaling:
+            if "mrope_section" in rope_parameters:
                 extra_kwargs.pop("apply_yarn_scaling", None)
                 rotary_emb = MRotaryEmbedding(
                     head_size,
@@ -208,8 +208,8 @@ def get_rope(
                     base,
                     is_neox_style,
                     dtype,
-                    mrope_section=rope_scaling["mrope_section"],
-                    mrope_interleaved=rope_scaling.get("mrope_interleaved", False),
+                    mrope_section=rope_parameters["mrope_section"],
+                    mrope_interleaved=rope_parameters.get("mrope_interleaved", False),
                     scaling_factor=scaling_factor,
                     **extra_kwargs,
                 )
@@ -225,12 +225,12 @@ def get_rope(
                     **extra_kwargs,
                 )
         elif scaling_type == "deepseek_yarn":
-            scaling_factor = rope_scaling["factor"]
-            original_max_position = rope_scaling["original_max_position_embeddings"]
+            scaling_factor = rope_parameters["factor"]
+            original_max_position = rope_parameters["original_max_position_embeddings"]
             # assert max_position == original_max_position * scaling_factor
             extra_kwargs = {
                 k: v
-                for k, v in rope_scaling.items()
+                for k, v in rope_parameters.items()
                 if k
                 in (
                     "extrapolation_factor",
@@ -252,12 +252,12 @@ def get_rope(
                 **extra_kwargs,
             )
         elif scaling_type == "longrope":
-            short_factor = rope_scaling["short_factor"]
-            long_factor = rope_scaling["long_factor"]
-            original_max_position = rope_scaling["original_max_position_embeddings"]
+            short_factor = rope_parameters["short_factor"]
+            long_factor = rope_parameters["long_factor"]
+            original_max_position = rope_parameters["original_max_position_embeddings"]
             extra_kwargs = {
                 k: v
-                for k, v in rope_scaling.items()
+                for k, v in rope_parameters.items()
                 if k in ("short_mscale", "long_mscale")
             }
             rotary_emb = Phi3LongRoPEScaledRotaryEmbedding(
diff --git a/vllm/model_executor/models/afmoe.py b/vllm/model_executor/models/afmoe.py
index 6f654f47495f7..4eb5665a71fc8 100644
--- a/vllm/model_executor/models/afmoe.py
+++ b/vllm/model_executor/models/afmoe.py
@@ -5,7 +5,6 @@
 import typing
 from collections.abc import Callable, Iterable
 from itertools import islice
-from typing import Any
 
 import torch
 from torch import nn
@@ -171,8 +170,6 @@ class AfmoeAttention(nn.Module):
         hidden_size: int,
         num_heads: int,
         num_kv_heads: int,
-        rope_theta: float = 10000,
-        rope_scaling: dict[str, Any] | None = None,
         max_position_embeddings: int = 131072,
         head_dim: int | None = None,
         rms_norm_eps: float = 1e-05,
@@ -202,7 +199,6 @@ class AfmoeAttention(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = self.head_dim**-0.5
-        self.rope_theta = rope_theta
         self.max_position_embeddings = max_position_embeddings
 
         # Check if this is a local attention layer
@@ -246,8 +242,7 @@ class AfmoeAttention(nn.Module):
                 self.head_dim,
                 rotary_dim=self.head_dim,
                 max_position=max_position_embeddings,
-                base=rope_theta,
-                rope_scaling=rope_scaling,
+                rope_parameters=config["rope_parameters"],
                 is_neox_style=True,
             )
         else:
@@ -303,14 +298,6 @@ class AfmoeDecoderLayer(nn.Module):
     ) -> None:
         super().__init__()
         self.hidden_size = config.hidden_size
-        rope_theta = getattr(config, "rope_theta", 10000)
-        rope_scaling = getattr(config, "rope_scaling", None)
-        if rope_scaling is not None and getattr(
-            config, "original_max_position_embeddings", None
-        ):
-            rope_scaling["original_max_position_embeddings"] = (
-                config.original_max_position_embeddings
-            )
         max_position_embeddings = getattr(config, "max_position_embeddings", 131072)
 
         # DecoderLayers are created with `make_layers` which passes the prefix
@@ -323,8 +310,6 @@ class AfmoeDecoderLayer(nn.Module):
             hidden_size=self.hidden_size,
             num_heads=config.num_attention_heads,
             num_kv_heads=config.num_key_value_heads,
-            rope_theta=rope_theta,
-            rope_scaling=rope_scaling,
             max_position_embeddings=max_position_embeddings,
             head_dim=config.head_dim,
             rms_norm_eps=config.rms_norm_eps,
diff --git a/vllm/model_executor/models/apertus.py b/vllm/model_executor/models/apertus.py
index 0a8f21abb0a35..b75e91319bbad 100644
--- a/vllm/model_executor/models/apertus.py
+++ b/vllm/model_executor/models/apertus.py
@@ -27,7 +27,6 @@
 
 from collections.abc import Iterable
 from itertools import islice
-from typing import Any
 
 import torch
 from torch import nn
@@ -118,8 +117,6 @@ class ApertusAttention(nn.Module):
         hidden_size: int,
         num_heads: int,
         num_kv_heads: int,
-        rope_theta: float = 10000,
-        rope_scaling: dict[str, Any] | None = None,
         max_position_embeddings: int = 8192,
         quant_config: QuantizationConfig | None = None,
         bias: bool = False,
@@ -155,7 +152,6 @@ class ApertusAttention(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = self.head_dim**-0.5
-        self.rope_theta = rope_theta
         self.max_position_embeddings = max_position_embeddings
 
         self.qkv_proj = QKVParallelLinear(
@@ -176,9 +172,7 @@ class ApertusAttention(nn.Module):
             prefix=f"{prefix}.o_proj",
         )
 
-        self._init_rotary_emb(
-            config, rope_scaling=rope_scaling, quant_config=quant_config
-        )
+        self._init_rotary_emb(config, quant_config=quant_config)
 
         sliding_window = None
         if layer_types := getattr(config, "layer_types", None):
@@ -224,7 +218,6 @@ class ApertusAttention(nn.Module):
     def _init_rotary_emb(
         self,
         config: ApertusConfig,
-        rope_scaling: dict[str, Any] | None,
         quant_config: QuantizationConfig | None,
     ) -> None:
         is_neox_style = True
@@ -236,8 +229,7 @@ class ApertusAttention(nn.Module):
             self.head_dim,
             rotary_dim=int(self.partial_rotary_factor * self.head_dim),
             max_position=self.max_position_embeddings,
-            base=self.rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=config.rope_parameters,
             is_neox_style=is_neox_style,
             partial_rotary_factor=self.partial_rotary_factor,
         )
@@ -253,14 +245,6 @@ class ApertusDecoderLayer(nn.Module):
     ) -> None:
         super().__init__()
         self.hidden_size = config.hidden_size
-        rope_theta = getattr(config, "rope_theta", 10000)
-        rope_scaling = getattr(config, "rope_scaling", None)
-        if rope_scaling is not None and getattr(
-            config, "original_max_position_embeddings", None
-        ):
-            rope_scaling["original_max_position_embeddings"] = (
-                config.original_max_position_embeddings
-            )
         max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
         # Support abacusai/Smaug-72B-v0.1 with attention_bias
         # Support internlm/internlm-7b with bias
@@ -288,8 +272,6 @@ class ApertusDecoderLayer(nn.Module):
             num_kv_heads=getattr(
                 config, "num_key_value_heads", config.num_attention_heads
             ),
-            rope_theta=rope_theta,
-            rope_scaling=rope_scaling,
             max_position_embeddings=max_position_embeddings,
             quant_config=quant_config,
             bias=attention_bias,
diff --git a/vllm/model_executor/models/arcee.py b/vllm/model_executor/models/arcee.py
index 20c3ff0754506..b3887b16f4d74 100644
--- a/vllm/model_executor/models/arcee.py
+++ b/vllm/model_executor/models/arcee.py
@@ -103,15 +103,6 @@ class ArceeDecoderLayer(nn.Module):
     ) -> None:
         super().__init__()
         self.hidden_size = config.hidden_size
-        # Rotary embedding parameters (reuse LLaMA defaults)
-        rope_theta = getattr(config, "rope_theta", 10000)
-        rope_scaling = getattr(config, "rope_scaling", None)
-        if rope_scaling is not None and getattr(
-            config, "original_max_position_embeddings", None
-        ):
-            rope_scaling["original_max_position_embeddings"] = (
-                config.original_max_position_embeddings
-            )
         max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
         # Determine if attention bias is needed (some variants use bias terms)
         attention_bias = getattr(config, "attention_bias", False) or getattr(
@@ -133,8 +124,6 @@ class ArceeDecoderLayer(nn.Module):
             num_kv_heads=getattr(
                 config, "num_key_value_heads", config.num_attention_heads
             ),
-            rope_theta=rope_theta,
-            rope_scaling=rope_scaling,
             max_position_embeddings=max_position_embeddings,
             quant_config=quant_config,
             bias=attention_bias,
diff --git a/vllm/model_executor/models/arctic.py b/vllm/model_executor/models/arctic.py
index b5cc07a56535d..b75a254761d4e 100644
--- a/vllm/model_executor/models/arctic.py
+++ b/vllm/model_executor/models/arctic.py
@@ -292,7 +292,6 @@ class ArcticAttention(nn.Module):
         self.kv_size = self.num_kv_heads * self.head_dim
 
         self.max_position_embeddings = config.max_position_embeddings
-        self.rope_theta = config.rope_theta
         self.scaling = self.head_dim**-0.5
 
         self.qkv_proj = QKVParallelLinear(
@@ -317,7 +316,7 @@ class ArcticAttention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=self.max_position_embeddings,
-            base=int(self.rope_theta),
+            rope_parameters=config.rope_parameters,
             is_neox_style=True,
         )
 
diff --git a/vllm/model_executor/models/baichuan.py b/vllm/model_executor/models/baichuan.py
index 8991ef4c606b6..edf47270e5277 100644
--- a/vllm/model_executor/models/baichuan.py
+++ b/vllm/model_executor/models/baichuan.py
@@ -136,7 +136,7 @@ class BaiChuanAttention(nn.Module):
         hidden_size: int,
         num_heads: int,
         position_embedding: str,
-        rope_theta: float = 10000,
+        rope_parameters: dict,
         max_position_embeddings: int = 8192,
         cache_config: CacheConfig | None = None,
         quant_config: QuantizationConfig | None = None,
@@ -150,7 +150,6 @@ class BaiChuanAttention(nn.Module):
         self.num_heads = self.total_num_heads // tensor_model_parallel_world_size
         self.head_dim = hidden_size // self.total_num_heads
         self.position_embedding = position_embedding
-        self.rope_theta = rope_theta
         self.max_position_embeddings = max_position_embeddings
 
         # pylint: disable=invalid-name
@@ -192,7 +191,7 @@ class BaiChuanAttention(nn.Module):
                 self.head_dim,
                 rotary_dim=self.head_dim,
                 max_position=self.max_position_embeddings,
-                base=self.rope_theta,
+                rope_parameters=rope_parameters,
             )
             self.scaling = self.head_dim**-0.5
             self.attn = Attention(
@@ -229,13 +228,12 @@ class BaiChuanDecoderLayer(nn.Module):
     ):
         super().__init__()
         self.hidden_size = config.hidden_size
-        rope_theta = getattr(config, "rope_theta", 10000)
         max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
         self.self_attn = BaiChuanAttention(
             hidden_size=self.hidden_size,
             num_heads=config.num_attention_heads,
             position_embedding=position_embedding,
-            rope_theta=rope_theta,
+            rope_parameters=config.rope_parameters,
             max_position_embeddings=max_position_embeddings,
             cache_config=cache_config,
             quant_config=quant_config,
diff --git a/vllm/model_executor/models/bailing_moe.py b/vllm/model_executor/models/bailing_moe.py
index 024425bb24406..cc10e936a2d3d 100644
--- a/vllm/model_executor/models/bailing_moe.py
+++ b/vllm/model_executor/models/bailing_moe.py
@@ -135,9 +135,8 @@ class BailingAttention(nn.Module):
             self.head_dim,
             rotary_dim=self.rotary_dim,
             max_position=config.max_position_embeddings,
-            base=config.rope_theta,
+            rope_parameters=config.rope_parameters,
             is_neox_style=True,
-            rope_scaling=config.rope_scaling,
             partial_rotary_factor=self.partial_rotary_factor,
         )
 
diff --git a/vllm/model_executor/models/bamba.py b/vllm/model_executor/models/bamba.py
index c6cc83487fec2..4422bb5da98f4 100644
--- a/vllm/model_executor/models/bamba.py
+++ b/vllm/model_executor/models/bamba.py
@@ -156,8 +156,6 @@ class BambaAttentionDecoderLayer(nn.Module):
         prefix: str = "",
     ) -> None:
         super().__init__()
-        rope_theta = getattr(config, "rope_theta", 10000)
-        rope_scaling = getattr(config, "rope_scaling", None)
         max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
         self.hidden_size = config.hidden_size
         tp_size = get_tensor_model_parallel_world_size()
@@ -178,7 +176,6 @@ class BambaAttentionDecoderLayer(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = self.head_dim**-0.5
-        self.rope_theta = rope_theta
         self.max_position_embeddings = max_position_embeddings
 
         if hasattr(config, "partial_rotary_factor"):
@@ -192,8 +189,7 @@ class BambaAttentionDecoderLayer(nn.Module):
             head_size=self.head_dim,
             rotary_dim=rotary_dim,
             max_position=max_position_embeddings,
-            rope_scaling=rope_scaling,
-            base=rope_theta,
+            rope_parameters=config.rope_parameters,
             is_neox_style=True,
             dtype=torch.get_default_dtype(),  # see impl of get_rope
         )
diff --git a/vllm/model_executor/models/chameleon.py b/vllm/model_executor/models/chameleon.py
index 3c87bbfefab3d..b5a6d00dc309f 100644
--- a/vllm/model_executor/models/chameleon.py
+++ b/vllm/model_executor/models/chameleon.py
@@ -265,8 +265,7 @@ class ChameleonAttention(nn.Module):
         hidden_size: int,
         num_heads: int,
         num_kv_heads: int,
-        rope_theta: float = 10000,
-        rope_scaling: dict[str, Any] | None = None,
+        rope_parameters: dict[str, Any],
         max_position_embeddings: int = 4096,
         quant_config: QuantizationConfig | None = None,
         bias: bool = False,
@@ -293,7 +292,6 @@ class ChameleonAttention(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = self.head_dim**-0.5
-        self.rope_theta = rope_theta
         self.max_position_embeddings = max_position_embeddings
 
         self.qkv_proj = QKVParallelLinear(
@@ -318,8 +316,7 @@ class ChameleonAttention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=max_position_embeddings,
-            base=rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=rope_parameters,
         )
 
         self.attn = Attention(
@@ -369,14 +366,6 @@ class ChameleonDecoderLayer(nn.Module):
     ) -> None:
         super().__init__()
         self.hidden_size = config.hidden_size
-        rope_theta = getattr(config, "rope_theta", 10000)
-        rope_scaling = getattr(config, "rope_scaling", None)
-        if rope_scaling is not None and getattr(
-            config, "original_max_position_embeddings", None
-        ):
-            rope_scaling["original_max_position_embeddings"] = (
-                config.original_max_position_embeddings
-            )
         max_position_embeddings = getattr(config, "max_position_embeddings", 4096)
 
         self.self_attn = ChameleonAttention(
@@ -385,8 +374,7 @@ class ChameleonDecoderLayer(nn.Module):
             num_kv_heads=getattr(
                 config, "num_key_value_heads", config.num_attention_heads
             ),
-            rope_theta=rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=config.rope_parameters,
             max_position_embeddings=max_position_embeddings,
             quant_config=quant_config,
             bias=False,
@@ -439,14 +427,6 @@ class ChameleonSwinDecoderLayer(nn.Module):
     ) -> None:
         super().__init__()
         self.hidden_size = config.hidden_size
-        rope_theta = getattr(config, "rope_theta", 10000)
-        rope_scaling = getattr(config, "rope_scaling", None)
-        if rope_scaling is not None and getattr(
-            config, "original_max_position_embeddings", None
-        ):
-            rope_scaling["original_max_position_embeddings"] = (
-                config.original_max_position_embeddings
-            )
         max_position_embeddings = getattr(config, "max_position_embeddings", 4096)
 
         self.self_attn = ChameleonAttention(
@@ -455,8 +435,7 @@ class ChameleonSwinDecoderLayer(nn.Module):
             num_kv_heads=getattr(
                 config, "num_key_value_heads", config.num_attention_heads
             ),
-            rope_theta=rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=config.rope_parameters,
             max_position_embeddings=max_position_embeddings,
             quant_config=quant_config,
             bias=False,
diff --git a/vllm/model_executor/models/chatglm.py b/vllm/model_executor/models/chatglm.py
index 5d6f5e9125a28..dbfcd62d0bcab 100644
--- a/vllm/model_executor/models/chatglm.py
+++ b/vllm/model_executor/models/chatglm.py
@@ -99,6 +99,7 @@ class GLMAttention(nn.Module):
         # https://huggingface.co/zai-org/chatglm3-6b-32k/blob/e210410255278dd9d74463cf396ba559c0ef801c/modeling_chatglm.py#L141
         rope_ratio = getattr(config, "rope_ratio", 1.0)
         max_positions = getattr(config, "seq_length", 8192)
+        rope_parameters = {"rope_type": "default", "rope_theta": 10000 * rope_ratio}
         # NOTE: zai-org/cogagent-9b-20241220 uses original_rope=False,
         # which is equivalent to is_neox_style=True
         is_neox_style = not config.original_rope
@@ -106,7 +107,7 @@ class GLMAttention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim // 2,
             max_position=max_positions,
-            base=10000 * rope_ratio,
+            rope_parameters=rope_parameters,
             is_neox_style=is_neox_style,
         )
         self.attn = Attention(
diff --git a/vllm/model_executor/models/commandr.py b/vllm/model_executor/models/commandr.py
index 77bb178519813..5ed920927c772 100644
--- a/vllm/model_executor/models/commandr.py
+++ b/vllm/model_executor/models/commandr.py
@@ -156,8 +156,6 @@ class CohereAttention(nn.Module):
         self.max_position_embeddings = getattr(
             config, "model_max_length", None
         ) or getattr(config, "max_position_embeddings", 8192)
-        self.rope_theta = config.rope_theta
-        self.rope_scaling = getattr(config, "rope_scaling", None)
         self.use_qk_norm = getattr(config, "use_qk_norm", False)
         self.qkv_proj = QKVParallelLinear(
             self.hidden_size,
@@ -179,8 +177,7 @@ class CohereAttention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=self.max_position_embeddings,
-            base=self.rope_theta,
-            rope_scaling=self.rope_scaling,
+            rope_parameters=config.rope_parameters,
             is_neox_style=False,
         )
 
diff --git a/vllm/model_executor/models/config.py b/vllm/model_executor/models/config.py
index 66b246878b0aa..3cf4bf991e667 100644
--- a/vllm/model_executor/models/config.py
+++ b/vllm/model_executor/models/config.py
@@ -8,6 +8,7 @@ import vllm.envs as envs
 from vllm.logger import init_logger
 from vllm.model_executor.models import ModelRegistry
 from vllm.platforms import current_platform
+from vllm.transformers_utils.config import set_default_rope_theta
 from vllm.utils.math_utils import cdiv, round_up
 from vllm.utils.torch_utils import STR_DTYPE_TO_TORCH_DTYPE
 from vllm.v1.kv_cache_interface import FullAttentionSpec, MambaSpec, MLAAttentionSpec
@@ -46,8 +47,7 @@ class GteNewModelConfig(VerifyAndUpdateConfig):
             "head_size": head_dim,
             "rotary_dim": getattr(config, "rotary_emb_dim", head_dim),
             "max_position": config.max_position_embeddings,
-            "base": config.rope_theta,
-            "rope_scaling": getattr(config, "rope_scaling", None),
+            "rope_parameters": config.rope_parameters,
         }
 
 
@@ -78,12 +78,13 @@ class JinaRobertaModelConfig(VerifyAndUpdateConfig):
             if not model_config.enforce_eager:
                 max_position = round_up(max_position, 8)
 
+            set_default_rope_theta(config, default_theta=config.rotary_emb_base)
+
             config.rotary_kwargs = {
                 "head_size": head_dim,
                 "rotary_dim": getattr(config, "rotary_emb_dim", head_dim),
                 "max_position": max_position,
-                "base": getattr(config, "rope_theta", config.rotary_emb_base),
-                "rope_scaling": getattr(config, "rope_scaling", None),
+                "rope_parameters": config.rope_parameters,
             }
 
 
@@ -117,18 +118,20 @@ class NomicBertModelConfig(VerifyAndUpdateConfig):
         head_dim = config.hidden_size // config.num_attention_heads
         rotary_emb_dim = int(head_dim * config.rotary_emb_fraction)
         max_trained_positions = getattr(config, "max_trained_positions", 2048)
+
+        set_default_rope_theta(config, default_theta=config.rotary_emb_base)
+
         config.rotary_kwargs = {
             "head_size": head_dim,
             "rotary_dim": rotary_emb_dim,
             "max_position": max_trained_positions,
-            "base": getattr(config, "rope_theta", config.rotary_emb_base),
-            "rope_scaling": getattr(config, "rope_scaling", None),
+            "rope_parameters": config.rope_parameters,
         }
 
         # we ignore config.rotary_scaling_factor so that for datasets shorter
         # than max_trained_positions 2048, the results are consistent
         # with SentenceTransformer.
-        # The context extension uses vllm style rope_theta and rope_scaling.
+        # The context extension uses vllm style rope_theta and rope_parameters.
         # See #17785 #18755
         if (
             not vllm_config.model_config.hf_overrides
@@ -172,7 +175,7 @@ class NomicBertModelConfig(VerifyAndUpdateConfig):
             if hasattr(hf_text_config, "max_model_len"):
                 delattr(hf_text_config, "max_model_len")
             hf_text_config.max_position_embeddings = max_trained_positions
-            hf_text_config.rope_scaling = config.rotary_kwargs["rope_scaling"]
+            hf_text_config.rope_parameters = config.rotary_kwargs["rope_parameters"]
 
             # The priority of sentence_bert_config.json is higher
             # than max_position_embeddings
@@ -246,8 +249,7 @@ class SnowflakeGteNewModelConfig(VerifyAndUpdateConfig):
             "head_size": head_dim,
             "rotary_dim": getattr(config, "rotary_emb_dim", head_dim),
             "max_position": config.max_position_embeddings,
-            "base": config.rope_theta,
-            "rope_scaling": getattr(config, "rope_scaling", None),
+            "rope_parameters": config.rope_parameters,
         }
 
 
diff --git a/vllm/model_executor/models/dbrx.py b/vllm/model_executor/models/dbrx.py
index 528ef4f76742d..2c729019081a4 100644
--- a/vllm/model_executor/models/dbrx.py
+++ b/vllm/model_executor/models/dbrx.py
@@ -197,7 +197,10 @@ class DbrxAttention(nn.Module):
         self.head_dim = self.d_model // self.total_num_heads
         self.total_num_kv_heads = config.attn_config.kv_n_heads
         self.clip_qkv = config.attn_config.clip_qkv
-        self.rope_theta = config.attn_config.rope_theta
+        rope_parameters = {
+            "rope_type": "default",
+            "rope_theta": int(config.attn_config.rope_theta),
+        }
         self.max_position = config.max_seq_len
 
         # pylint: disable=invalid-name
@@ -221,7 +224,7 @@ class DbrxAttention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=self.max_position,
-            base=int(self.rope_theta),
+            rope_parameters=rope_parameters,
             is_neox_style=True,
         )
 
diff --git a/vllm/model_executor/models/deepseek_v2.py b/vllm/model_executor/models/deepseek_v2.py
index e8ee9951d6119..6675b2133f386 100644
--- a/vllm/model_executor/models/deepseek_v2.py
+++ b/vllm/model_executor/models/deepseek_v2.py
@@ -27,7 +27,6 @@
 import typing
 from collections.abc import Callable, Iterable
 from itertools import islice
-from typing import Any
 
 import torch
 from torch import nn
@@ -111,8 +110,6 @@ class DeepseekAttention(nn.Module):
         config: DeepseekV2Config | DeepseekV3Config,
         hidden_size: int,
         num_heads: int,
-        rope_theta: float = 10000,
-        rope_scaling: dict[str, Any] | None = None,
         max_position_embeddings: int = 8192,
         cache_config: CacheConfig | None = None,
         quant_config: QuantizationConfig | None = None,
@@ -139,7 +136,6 @@ class DeepseekAttention(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = self.head_dim**-0.5
-        self.rope_theta = rope_theta
         self.max_position_embeddings = max_position_embeddings
 
         self.qkv_proj = QKVParallelLinear(
@@ -162,8 +158,7 @@ class DeepseekAttention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=max_position_embeddings,
-            base=rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=config.rope_parameters,
         )
         self.attn = Attention(
             self.num_heads,
@@ -409,8 +404,6 @@ class DeepseekV2Attention(nn.Module):
         v_head_dim: int,
         q_lora_rank: int,
         kv_lora_rank: int,
-        rope_theta: float = 10000,
-        rope_scaling: dict[str, Any] | None = None,
         max_position_embeddings: int = 8192,
         cache_config: CacheConfig | None = None,
         quant_config: QuantizationConfig | None = None,
@@ -430,7 +423,6 @@ class DeepseekV2Attention(nn.Module):
         assert num_heads % tp_size == 0
         self.num_local_heads = num_heads // tp_size
         self.scaling = self.qk_head_dim**-0.5
-        self.rope_theta = rope_theta
         self.max_position_embeddings = max_position_embeddings
         assert topk_indices_buffer is None, (
             "topk_indices_buffer is not \
@@ -485,21 +477,20 @@ class DeepseekV2Attention(nn.Module):
             quant_config=quant_config,
             prefix=f"{prefix}.o_proj",
         )
-        if rope_scaling:
-            rope_scaling["rope_type"] = "deepseek_yarn"
+        if config.rope_parameters["rope_type"] != "default":
+            config.rope_parameters["rope_type"] = "deepseek_yarn"
 
         self.rotary_emb = get_rope(
             qk_rope_head_dim,
             rotary_dim=qk_rope_head_dim,
             max_position=max_position_embeddings,
-            base=rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=config.rope_parameters,
             is_neox_style=False,
         )
 
-        if rope_scaling:
-            mscale_all_dim = rope_scaling.get("mscale_all_dim", False)
-            scaling_factor = rope_scaling["factor"]
+        if config.rope_parameters["rope_type"] != "default":
+            mscale_all_dim = config.rope_parameters.get("mscale_all_dim", False)
+            scaling_factor = config.rope_parameters["factor"]
             mscale = yarn_get_mscale(scaling_factor, float(mscale_all_dim))
             self.scaling = self.scaling * mscale * mscale
 
@@ -903,8 +894,6 @@ class DeepseekV2MLAAttention(nn.Module):
         v_head_dim: int,
         q_lora_rank: int | None,
         kv_lora_rank: int,
-        rope_theta: float = 10000,
-        rope_scaling: dict[str, Any] | None = None,
         max_position_embeddings: int = 8192,
         cache_config: CacheConfig | None = None,
         quant_config: QuantizationConfig | None = None,
@@ -927,7 +916,6 @@ class DeepseekV2MLAAttention(nn.Module):
         self.num_local_heads = num_heads // tp_size
 
         self.scaling = self.qk_head_dim**-0.5
-        self.rope_theta = rope_theta
         self.max_position_embeddings = max_position_embeddings
 
         if self.q_lora_rank is not None:
@@ -981,19 +969,18 @@ class DeepseekV2MLAAttention(nn.Module):
             prefix=f"{prefix}.o_proj",
         )
 
-        if rope_scaling:
-            rope_scaling["rope_type"] = "deepseek_yarn"
+        if config.rope_parameters["rope_type"] != "default":
+            config.rope_parameters["rope_type"] = "deepseek_yarn"
         self.rotary_emb = get_rope(
             qk_rope_head_dim,
             rotary_dim=qk_rope_head_dim,
             max_position=max_position_embeddings,
-            base=rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=config.rope_parameters,
             is_neox_style=False,
         )
-        if rope_scaling:
-            mscale_all_dim = rope_scaling.get("mscale_all_dim", False)
-            scaling_factor = rope_scaling["factor"]
+        if config.rope_parameters["rope_type"] != "default":
+            mscale_all_dim = config.rope_parameters.get("mscale_all_dim", False)
+            scaling_factor = config.rope_parameters["factor"]
             mscale = yarn_get_mscale(scaling_factor, float(mscale_all_dim))
             self.scaling = self.scaling * mscale * mscale
 
@@ -1073,8 +1060,6 @@ class DeepseekV2DecoderLayer(nn.Module):
         parallel_config = vllm_config.parallel_config
 
         self.hidden_size = config.hidden_size
-        rope_theta = getattr(config, "rope_theta", 10000)
-        rope_scaling = getattr(config, "rope_scaling", None)
         max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
         moe_layer_freq = getattr(config, "moe_layer_freq", 1)
         # DecoderLayers are created with `make_layers` which passes the prefix
@@ -1107,8 +1092,6 @@ class DeepseekV2DecoderLayer(nn.Module):
             v_head_dim=v_head_dim,
             q_lora_rank=config.q_lora_rank if hasattr(config, "q_lora_rank") else None,
             kv_lora_rank=kv_lora_rank,
-            rope_theta=rope_theta,
-            rope_scaling=rope_scaling,
             max_position_embeddings=max_position_embeddings,
             cache_config=cache_config,
             quant_config=quant_config,
diff --git a/vllm/model_executor/models/dots1.py b/vllm/model_executor/models/dots1.py
index d24da0c42a254..e65c275106a4e 100644
--- a/vllm/model_executor/models/dots1.py
+++ b/vllm/model_executor/models/dots1.py
@@ -27,7 +27,6 @@
 
 from collections.abc import Iterable
 from itertools import islice
-from typing import Any
 
 import torch
 from torch import nn
@@ -202,8 +201,6 @@ class Dots1Attention(nn.Module):
         num_heads: int,
         num_kv_heads: int,
         config: Dots1Config,
-        rope_theta: float = 10000,
-        rope_scaling: dict[str, Any] | None = None,
         max_position_embeddings: int = 8192,
         cache_config: CacheConfig | None = None,
         quant_config: QuantizationConfig | None = None,
@@ -229,7 +226,6 @@ class Dots1Attention(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = self.head_dim**-0.5
-        self.rope_theta = rope_theta
         self.max_position_embeddings = max_position_embeddings
         attention_bias = config.attention_bias
 
@@ -255,8 +251,7 @@ class Dots1Attention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=max_position_embeddings,
-            base=rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=config.rope_parameters,
         )
         self.attn = Attention(
             self.num_heads,
@@ -296,8 +291,6 @@ class Dots1DecoderLayer(nn.Module):
     ) -> None:
         super().__init__()
         self.hidden_size = config.hidden_size
-        rope_theta = getattr(config, "rope_theta", 10000)
-        rope_scaling = getattr(config, "rope_scaling", None)
         max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
         layer_idx = int(prefix.split(sep=".")[-1])
         self.layer_idx = layer_idx
@@ -307,8 +300,6 @@ class Dots1DecoderLayer(nn.Module):
             num_heads=config.num_attention_heads,
             num_kv_heads=config.num_key_value_heads,
             config=config,
-            rope_theta=rope_theta,
-            rope_scaling=rope_scaling,
             max_position_embeddings=max_position_embeddings,
             cache_config=cache_config,
             quant_config=quant_config,
diff --git a/vllm/model_executor/models/ernie45_moe.py b/vllm/model_executor/models/ernie45_moe.py
index f2999968669f6..a7df3509e3ecd 100644
--- a/vllm/model_executor/models/ernie45_moe.py
+++ b/vllm/model_executor/models/ernie45_moe.py
@@ -62,6 +62,7 @@ from vllm.model_executor.model_loader.weight_utils import (
     maybe_remap_kv_scale_name,
 )
 from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.config import set_default_rope_theta
 
 from .interfaces import MixtureOfExperts, SupportsLoRA, SupportsPP
 from .utils import (
@@ -232,9 +233,8 @@ class Ernie4_5_MoeAttention(nn.Module):
         hidden_size: int,
         num_heads: int,
         num_kv_heads: int,
+        rope_parameters: dict[str, Any],
         head_dim: int | None = None,
-        rope_theta: float = 500000,
-        rope_scaling: dict[str, Any] | None = None,
         max_position_embeddings: int = 131072,
         rms_norm_eps: float = 1e-05,
         qkv_bias: bool = False,
@@ -266,7 +266,6 @@ class Ernie4_5_MoeAttention(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = self.head_dim**-0.5
-        self.rope_theta = rope_theta
         self.max_position_embeddings = max_position_embeddings
 
         self.qkv_proj = QKVParallelLinear(
@@ -291,9 +290,8 @@ class Ernie4_5_MoeAttention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=max_position_embeddings,
-            base=rope_theta,
+            rope_parameters=rope_parameters,
             is_neox_style=False,
-            rope_scaling=rope_scaling,
         )
         self.attn = Attention(
             self.num_heads,
@@ -333,16 +331,14 @@ class Ernie4_5_MoeDecoderLayer(nn.Module):
     ) -> None:
         super().__init__()
         self.hidden_size = config.hidden_size
-        rope_theta = getattr(config, "rope_theta", 500000)
-        rope_scaling = getattr(config, "rope_scaling", None)
+        set_default_rope_theta(config, default_theta=500000)
         max_position_embeddings = getattr(config, "max_position_embeddings", 131072)
         self.self_attn = Ernie4_5_MoeAttention(
             hidden_size=self.hidden_size,
             num_heads=config.num_attention_heads,
             num_kv_heads=config.num_key_value_heads,
             head_dim=getattr(config, "head_dim", None),
-            rope_theta=rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=config.rope_parameters,
             max_position_embeddings=max_position_embeddings,
             rms_norm_eps=config.rms_norm_eps,
             qkv_bias=getattr(config, "use_bias", False),
diff --git a/vllm/model_executor/models/ernie45_vl_moe.py b/vllm/model_executor/models/ernie45_vl_moe.py
index e8ef86f9b7f01..50e033d77606d 100644
--- a/vllm/model_executor/models/ernie45_vl_moe.py
+++ b/vllm/model_executor/models/ernie45_vl_moe.py
@@ -58,6 +58,7 @@ from vllm.model_executor.model_loader.weight_utils import (
     maybe_remap_kv_scale_name,
 )
 from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.config import set_default_rope_theta
 
 from .ernie45_moe import Ernie4_5_MoeMLP
 from .interfaces import SupportsPP
@@ -91,9 +92,8 @@ class Ernie4_5_VLMoeAttention(nn.Module):
         hidden_size: int,
         num_heads: int,
         num_kv_heads: int,
+        rope_parameters: dict[str, Any],
         head_dim: int | None = None,
-        rope_theta: float = 500000,
-        rope_scaling: dict[str, Any] | None = None,
         freq_allocation: int = 20,
         max_position_embeddings: int = 131072,
         rms_norm_eps: float = 1e-05,
@@ -126,7 +126,6 @@ class Ernie4_5_VLMoeAttention(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = self.head_dim**-0.5
-        self.rope_theta = rope_theta
         self.max_position_embeddings = max_position_embeddings
 
         self.qkv_proj = QKVParallelLinear(
@@ -155,7 +154,7 @@ class Ernie4_5_VLMoeAttention(nn.Module):
             head_size=self.head_dim,
             rotary_dim=self.head_dim,
             max_position_embeddings=max_position_embeddings,
-            base=rope_theta,
+            base=rope_parameters["rope_theta"],
             is_neox_style=False,
             dtype=torch.get_default_dtype(),
             mrope_section=[h_rope, w_rope, t_rope],
@@ -413,8 +412,7 @@ class Ernie4_5_VLMoeDecoderLayer(nn.Module):
     ) -> None:
         super().__init__()
         self.hidden_size = config.hidden_size
-        rope_theta = getattr(config, "rope_theta", 500000)
-        rope_scaling = getattr(config, "rope_scaling", None)
+        set_default_rope_theta(config, default_theta=500000)
         freq_allocation = getattr(config, "freq_allocation", 20)
         max_position_embeddings = getattr(config, "max_position_embeddings", 131072)
 
@@ -423,8 +421,7 @@ class Ernie4_5_VLMoeDecoderLayer(nn.Module):
             num_heads=config.num_attention_heads,
             num_kv_heads=config.num_key_value_heads,
             head_dim=getattr(config, "head_dim", None),
-            rope_theta=rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=config.rope_parameters,
             freq_allocation=freq_allocation,
             max_position_embeddings=max_position_embeddings,
             rms_norm_eps=config.rms_norm_eps,
diff --git a/vllm/model_executor/models/exaone.py b/vllm/model_executor/models/exaone.py
index 6c56bfc433c7a..d13275488fe99 100644
--- a/vllm/model_executor/models/exaone.py
+++ b/vllm/model_executor/models/exaone.py
@@ -27,7 +27,6 @@
 
 from collections.abc import Iterable
 from itertools import islice
-from typing import Any
 
 import torch
 from torch import nn
@@ -113,8 +112,6 @@ class ExaoneAttention(nn.Module):
         hidden_size: int,
         num_heads: int,
         num_kv_heads: int,
-        rope_theta: float = 10000,
-        rope_scaling: dict[str, Any] | None = None,
         max_position_embeddings: int = 8192,
         quant_config: QuantizationConfig | None = None,
         bias: bool = False,
@@ -144,7 +141,6 @@ class ExaoneAttention(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = self.head_dim**-0.5
-        self.rope_theta = rope_theta
         self.max_position_embeddings = max_position_embeddings
 
         self.qkv_proj = QKVParallelLinear(
@@ -173,8 +169,7 @@ class ExaoneAttention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=max_position_embeddings,
-            base=rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=config.rope_parameters,
             is_neox_style=is_neox_style,
         )
         self.attn = Attention(
@@ -207,8 +202,6 @@ class ExaoneBlockAttention(nn.Module):
         hidden_size: int,
         num_heads: int,
         num_kv_heads: int,
-        rope_theta: float = 10000,
-        rope_scaling: dict[str, Any] | None = None,
         max_position_embeddings: int = 8192,
         quant_config: QuantizationConfig | None = None,
         bias: bool = False,
@@ -221,8 +214,6 @@ class ExaoneBlockAttention(nn.Module):
             hidden_size=hidden_size,
             num_heads=num_heads,
             num_kv_heads=num_kv_heads,
-            rope_theta=rope_theta,
-            rope_scaling=rope_scaling,
             max_position_embeddings=max_position_embeddings,
             quant_config=quant_config,
             bias=bias,
@@ -251,14 +242,6 @@ class ExaoneDecoderLayer(nn.Module):
     ) -> None:
         super().__init__()
         self.hidden_size = config.hidden_size
-        rope_theta = getattr(config, "rope_theta", 10000)
-        rope_scaling = getattr(config, "rope_scaling", None)
-        if rope_scaling is not None and getattr(
-            config, "original_max_position_embeddings", None
-        ):
-            rope_scaling["original_max_position_embeddings"] = (
-                config.original_max_position_embeddings
-            )
         max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
         # Support abacusai/Smaug-72B-v0.1 with attention_bias
         # Support internlm/internlm-7b with bias
@@ -272,8 +255,6 @@ class ExaoneDecoderLayer(nn.Module):
             num_kv_heads=getattr(
                 config, "num_key_value_heads", config.num_attention_heads
             ),
-            rope_theta=rope_theta,
-            rope_scaling=rope_scaling,
             max_position_embeddings=max_position_embeddings,
             quant_config=quant_config,
             bias=attention_bias,
diff --git a/vllm/model_executor/models/exaone4.py b/vllm/model_executor/models/exaone4.py
index b89e168ada20e..70f3cce2b7c56 100644
--- a/vllm/model_executor/models/exaone4.py
+++ b/vllm/model_executor/models/exaone4.py
@@ -23,7 +23,6 @@
 
 from collections.abc import Iterable
 from itertools import islice
-from typing import Any
 
 import torch
 from torch import nn
@@ -52,6 +51,7 @@ from vllm.model_executor.model_loader.weight_utils import (
     maybe_remap_kv_scale_name,
 )
 from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.config import set_default_rope_theta
 
 from .interfaces import SupportsLoRA, SupportsPP
 from .utils import (
@@ -110,8 +110,6 @@ class Exaone4Attention(nn.Module):
         hidden_size: int,
         num_heads: int,
         num_kv_heads: int,
-        rope_theta: float = 1000000,
-        rope_scaling: dict[str, Any] | None = None,
         max_position_embeddings: int = 8192,
         quant_config: QuantizationConfig | None = None,
         bias: bool = False,
@@ -141,7 +139,6 @@ class Exaone4Attention(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = self.head_dim**-0.5
-        self.rope_theta = rope_theta
         self.max_position_embeddings = max_position_embeddings
 
         self.qkv_proj = QKVParallelLinear(
@@ -176,12 +173,12 @@ class Exaone4Attention(nn.Module):
         # apply rotary embeddings to every layer in full attention models
         self.apply_rope_all_layers = "sliding_attention" not in config.layer_types
 
+        set_default_rope_theta(config, default_theta=1000000)
         self.rotary_emb = get_rope(
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=max_position_embeddings,
-            base=rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=config.rope_parameters,
             is_neox_style=is_neox_style,
         )
         self.attn = Attention(
@@ -227,14 +224,6 @@ class Exaone4DecoderLayer(nn.Module):
     ) -> None:
         super().__init__()
         self.hidden_size = config.hidden_size
-        rope_theta = getattr(config, "rope_theta", 1000000)
-        rope_scaling = getattr(config, "rope_scaling", None)
-        if rope_scaling is not None and getattr(
-            config, "original_max_position_embeddings", None
-        ):
-            rope_scaling["original_max_position_embeddings"] = (
-                config.original_max_position_embeddings
-            )
         max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
         # Support abacusai/Smaug-72B-v0.1 with attention_bias
         # Support internlm/internlm-7b with bias
@@ -249,8 +238,6 @@ class Exaone4DecoderLayer(nn.Module):
             num_kv_heads=getattr(
                 config, "num_key_value_heads", config.num_attention_heads
             ),
-            rope_theta=rope_theta,
-            rope_scaling=rope_scaling,
             max_position_embeddings=max_position_embeddings,
             quant_config=quant_config,
             bias=attention_bias,
diff --git a/vllm/model_executor/models/falcon.py b/vllm/model_executor/models/falcon.py
index 85acdff3d96b4..dc2d51f340c8c 100644
--- a/vllm/model_executor/models/falcon.py
+++ b/vllm/model_executor/models/falcon.py
@@ -164,13 +164,12 @@ class FalconAttention(nn.Module):
         )
 
         if self.use_rotary:
-            rope_theta = getattr(config, "rope_theta", 10000)
             max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
             self.rotary_emb = get_rope(
                 self.head_dim,
                 rotary_dim=self.head_dim,
                 max_position=max_position_embeddings,
-                base=rope_theta,
+                rope_parameters=config.rope_parameters,
             )
             self.attn = Attention(
                 self.num_heads,
diff --git a/vllm/model_executor/models/falcon_h1.py b/vllm/model_executor/models/falcon_h1.py
index b985847af5daf..9433f0d1b4a49 100644
--- a/vllm/model_executor/models/falcon_h1.py
+++ b/vllm/model_executor/models/falcon_h1.py
@@ -35,6 +35,7 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
 )
 from vllm.model_executor.model_loader.weight_utils import default_weight_loader
 from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.config import set_default_rope_theta
 
 from .interfaces import (
     HasInnerState,
@@ -214,8 +215,7 @@ class FalconH1AttentionDecoderLayer(nn.Module):
         prefix: str = "",
     ) -> None:
         super().__init__()
-        rope_theta = getattr(config, "rope_theta", 1e11)
-        rope_scaling = getattr(config, "rope_scaling", None)
+        set_default_rope_theta(config, default_theta=1e11)
         max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
         self.hidden_size = config.hidden_size
         tp_size = get_tensor_model_parallel_world_size()
@@ -240,7 +240,6 @@ class FalconH1AttentionDecoderLayer(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = self.head_dim**-0.5
-        self.rope_theta = rope_theta
         self.max_position_embeddings = max_position_embeddings
 
         if hasattr(config, "partial_rotary_factor"):
@@ -254,8 +253,7 @@ class FalconH1AttentionDecoderLayer(nn.Module):
             head_size=self.head_dim,
             rotary_dim=rotary_dim,
             max_position=max_position_embeddings,
-            rope_scaling=rope_scaling,
-            base=rope_theta,
+            rope_parameters=config.rope_parameters,
             is_neox_style=True,
             dtype=None,  # see impl of get_rope
         )
diff --git a/vllm/model_executor/models/gemma.py b/vllm/model_executor/models/gemma.py
index 7aaae7c503b58..00c7f59a08094 100644
--- a/vllm/model_executor/models/gemma.py
+++ b/vllm/model_executor/models/gemma.py
@@ -20,6 +20,7 @@
 from collections.abc import Iterable
 from functools import cache
 from itertools import islice
+from typing import Any
 
 import torch
 from torch import nn
@@ -127,8 +128,8 @@ class GemmaAttention(nn.Module):
         num_heads: int,
         num_kv_heads: int,
         head_dim: int,
+        rope_parameters: dict[str, Any],
         max_position_embeddings: int = 8192,
-        rope_theta: float = 10000,
         cache_config: CacheConfig | None = None,
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
@@ -153,7 +154,6 @@ class GemmaAttention(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = self.head_dim**-0.5
-        self.rope_theta = rope_theta
 
         self.qkv_proj = QKVParallelLinear(
             hidden_size,
@@ -176,7 +176,7 @@ class GemmaAttention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=max_position_embeddings,
-            base=self.rope_theta,
+            rope_parameters=rope_parameters,
             is_neox_style=True,
         )
         self.attn = Attention(
@@ -218,7 +218,7 @@ class GemmaDecoderLayer(nn.Module):
             num_kv_heads=config.num_key_value_heads,
             head_dim=config.head_dim,
             max_position_embeddings=config.max_position_embeddings,
-            rope_theta=config.rope_theta,
+            rope_parameters=config.rope_parameters,
             cache_config=cache_config,
             quant_config=quant_config,
             prefix=f"{prefix}.self_attn",
diff --git a/vllm/model_executor/models/gemma2.py b/vllm/model_executor/models/gemma2.py
index 4d5d6cbb37c62..9b6cfe6932300 100644
--- a/vllm/model_executor/models/gemma2.py
+++ b/vllm/model_executor/models/gemma2.py
@@ -107,7 +107,6 @@ class Gemma2Attention(nn.Module):
         num_kv_heads: int,
         head_dim: int,
         max_position_embeddings: int,
-        rope_theta: float,
         cache_config: CacheConfig | None = None,
         quant_config: QuantizationConfig | None = None,
         attn_logits_soft_cap: float | None = None,
@@ -134,7 +133,6 @@ class Gemma2Attention(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = config.query_pre_attn_scalar**-0.5
-        self.rope_theta = rope_theta
 
         self.qkv_proj = QKVParallelLinear(
             hidden_size,
@@ -156,7 +154,7 @@ class Gemma2Attention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=max_position_embeddings,
-            base=self.rope_theta,
+            rope_parameters=config.rope_parameters,
             is_neox_style=True,
         )
 
@@ -206,7 +204,6 @@ class Gemma2DecoderLayer(nn.Module):
             num_kv_heads=config.num_key_value_heads,
             head_dim=config.head_dim,
             max_position_embeddings=config.max_position_embeddings,
-            rope_theta=config.rope_theta,
             cache_config=cache_config,
             quant_config=quant_config,
             attn_logits_soft_cap=config.attn_logit_softcapping,
diff --git a/vllm/model_executor/models/gemma3.py b/vllm/model_executor/models/gemma3.py
index 357e61a4e78bf..565719ae7faeb 100644
--- a/vllm/model_executor/models/gemma3.py
+++ b/vllm/model_executor/models/gemma3.py
@@ -155,25 +155,28 @@ class Gemma3Attention(nn.Module):
         self.k_norm = GemmaRMSNorm(self.head_dim, eps=config.rms_norm_eps)
 
         layer_idx = extract_layer_index(prefix)
-        self.is_sliding = config.layer_types[layer_idx] == "sliding_attention"
+        layer_type = config.layer_types[layer_idx]
+        self.is_sliding = layer_type == "sliding_attention"
         sliding_window = config.sliding_window if self.is_sliding else None
 
         # Initialize the rotary embedding.
-        if self.is_sliding:
-            # Local attention. Override the values in config.json.
-            self.rope_theta = config.rope_local_base_freq
-            self.rope_scaling = {"rope_type": "default"}
+        if layer_type in config.rope_parameters:
+            # Transformers v5 rope config.
+            rope_parameters = config.rope_parameters[layer_type]
         else:
+            # Transformers v4 rope config.
             # Global attention. Use the values in config.json.
-            self.rope_theta = config.rope_theta
-            self.rope_scaling = config.rope_scaling
+            rope_parameters = config.rope_parameters.copy()
+            # Local attention. Override the values in config.json.
+            if self.is_sliding:
+                rope_parameters["rope_theta"] = config.rope_local_base_freq
+
         self.rotary_emb = get_rope(
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=max_position_embeddings,
-            base=self.rope_theta,
+            rope_parameters=rope_parameters,
             is_neox_style=True,
-            rope_scaling=self.rope_scaling,
         )
 
         if getattr(config, "is_causal", True):
diff --git a/vllm/model_executor/models/gemma3n.py b/vllm/model_executor/models/gemma3n.py
index 64443190f53ed..8f1447ba34a81 100644
--- a/vllm/model_executor/models/gemma3n.py
+++ b/vllm/model_executor/models/gemma3n.py
@@ -332,18 +332,21 @@ class Gemma3nAttention(nn.Module):
         )
 
         layer_idx = extract_layer_index(prefix)
-        is_sliding = config.layer_types[layer_idx] == "sliding_attention"
+        layer_type = config.layer_types[layer_idx]
+        is_sliding = layer_type == "sliding_attention"
         self.sliding_window = config.sliding_window if is_sliding else None
 
         # Initialize the rotary embedding.
-        if is_sliding:
-            # Local attention. Override the values in config.json.
-            rope_theta = config.rope_local_base_freq
-            rope_scaling = {"rope_type": "default"}
+        if layer_type in config.rope_parameters:
+            # Transformers v5 rope config.
+            rope_parameters = config.rope_parameters[layer_type]
         else:
+            # Transformers v4 rope config.
             # Global attention. Use the values in config.json.
-            rope_theta = config.rope_theta
-            rope_scaling = config.rope_scaling
+            rope_parameters = config.rope_parameters.copy()
+            # Local attention. Override the values in config.json.
+            if is_sliding:
+                rope_parameters["rope_theta"] = config.rope_local_base_freq
 
         first_kv_shared_layer_idx = (
             config.num_hidden_layers - config.num_kv_shared_layers
@@ -383,9 +386,8 @@ class Gemma3nAttention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=max_position_embeddings,
-            base=rope_theta,
+            rope_parameters=rope_parameters,
             is_neox_style=True,
-            rope_scaling=rope_scaling,
         )
 
         self.attn = Attention(
diff --git a/vllm/model_executor/models/glm4.py b/vllm/model_executor/models/glm4.py
index faa0674a2e43d..f8ef3b0385fb1 100644
--- a/vllm/model_executor/models/glm4.py
+++ b/vllm/model_executor/models/glm4.py
@@ -57,10 +57,8 @@ class Glm4Attention(nn.Module):
         max_position: int = 4096 * 32,
         head_dim: int | None = None,
         qkv_bias: bool = False,
-        rope_theta: float = 10000,
         cache_config: CacheConfig | None = None,
         quant_config: QuantizationConfig | None = None,
-        rope_scaling: tuple | None = None,
         prefix: str = "",
         attn_type: str = AttentionType.DECODER,
     ) -> None:
@@ -86,7 +84,6 @@ class Glm4Attention(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = self.head_dim**-0.5
-        self.rope_theta = rope_theta
         self.qkv_proj = QKVParallelLinear(
             hidden_size,
             self.head_dim,
@@ -107,8 +104,7 @@ class Glm4Attention(nn.Module):
             self.head_dim,
             rotary_dim=self.rotary_dim,
             max_position=max_position,
-            base=self.rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=config.rope_parameters,
             partial_rotary_factor=partial_rotary_factor,
             is_neox_style=False,
         )
@@ -150,8 +146,6 @@ class Glm4DecoderLayer(nn.Module):
         quant_config = vllm_config.quant_config
 
         self.hidden_size = config.hidden_size
-        rope_theta = getattr(config, "rope_theta", 1000000)
-        rope_scaling = getattr(config, "rope_scaling", None)
 
         self.self_attn = Glm4Attention(
             config=config,
@@ -159,12 +153,10 @@ class Glm4DecoderLayer(nn.Module):
             num_heads=config.num_attention_heads,
             max_position=config.max_position_embeddings,
             num_kv_heads=config.num_key_value_heads,
-            rope_theta=rope_theta,
             qkv_bias=getattr(config, "attention_bias", False),
             head_dim=getattr(config, "head_dim", None),
             cache_config=cache_config,
             quant_config=quant_config,
-            rope_scaling=rope_scaling,
             prefix=f"{prefix}.self_attn",
             attn_type=AttentionType.DECODER,
         )
diff --git a/vllm/model_executor/models/glm4_1v.py b/vllm/model_executor/models/glm4_1v.py
index 7a4fee76ae6b3..6581bbda6d609 100644
--- a/vllm/model_executor/models/glm4_1v.py
+++ b/vllm/model_executor/models/glm4_1v.py
@@ -703,7 +703,6 @@ class Glm4vVisionTransformer(nn.Module):
             head_size=head_dim,
             rotary_dim=head_dim // 2,
             max_position=8192,
-            base=10000.0,
             is_neox_style=True,
         )
         self.blocks = nn.ModuleList(
diff --git a/vllm/model_executor/models/glm4_moe.py b/vllm/model_executor/models/glm4_moe.py
index 1422dbe9b3cd0..5aa51af54a00b 100644
--- a/vllm/model_executor/models/glm4_moe.py
+++ b/vllm/model_executor/models/glm4_moe.py
@@ -26,7 +26,6 @@
 import typing
 from collections.abc import Callable, Iterable
 from itertools import islice
-from typing import Any
 
 import torch
 from torch import nn
@@ -233,8 +232,6 @@ class Glm4MoeAttention(nn.Module):
         hidden_size: int,
         num_heads: int,
         num_kv_heads: int,
-        rope_theta: float = 10000,
-        rope_scaling: dict[str, Any] | None = None,
         max_position_embeddings: int = 131072,
         head_dim: int | None = None,
         rms_norm_eps: float = 1e-05,
@@ -264,7 +261,6 @@ class Glm4MoeAttention(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = self.head_dim**-0.5
-        self.rope_theta = rope_theta
         self.max_position_embeddings = max_position_embeddings
         self.use_qk_norm = use_qk_norm
 
@@ -291,8 +287,7 @@ class Glm4MoeAttention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=max_position_embeddings,
-            base=rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=config.rope_parameters,
             partial_rotary_factor=partial_rotary_factor,
         )
         self.attn = Attention(
@@ -341,8 +336,6 @@ class Glm4MoeDecoderLayer(nn.Module):
     ) -> None:
         super().__init__()
         self.hidden_size = config.hidden_size
-        rope_theta = getattr(config, "rope_theta", 10000)
-        rope_scaling = getattr(config, "rope_scaling", None)
         max_position_embeddings = getattr(config, "max_position_embeddings", 131072)
         # DecoderLayers are created with `make_layers` which passes the prefix
         # with the layer's index.
@@ -354,8 +347,6 @@ class Glm4MoeDecoderLayer(nn.Module):
             hidden_size=self.hidden_size,
             num_heads=config.num_attention_heads,
             num_kv_heads=config.num_key_value_heads,
-            rope_theta=rope_theta,
-            rope_scaling=rope_scaling,
             max_position_embeddings=max_position_embeddings,
             head_dim=config.head_dim,
             rms_norm_eps=config.rms_norm_eps,
diff --git a/vllm/model_executor/models/gpt_j.py b/vllm/model_executor/models/gpt_j.py
index e416ecde0c1e0..e94de8952fa63 100644
--- a/vllm/model_executor/models/gpt_j.py
+++ b/vllm/model_executor/models/gpt_j.py
@@ -95,13 +95,12 @@ class GPTJAttention(nn.Module):
         scaling = self.head_size**-0.5
         assert getattr(config, "rotary", True)
         assert config.rotary_dim % 2 == 0
-        rope_theta = getattr(config, "rope_theta", 10000)
         max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
         self.rotary_emb = get_rope(
             self.head_size,
             rotary_dim=config.rotary_dim,
             max_position=max_position_embeddings,
-            base=rope_theta,
+            rope_parameters=config.rope_parameters,
             is_neox_style=False,
         )
         self.attn = Attention(
diff --git a/vllm/model_executor/models/gpt_neox.py b/vllm/model_executor/models/gpt_neox.py
index af0c9209231cb..815c2fba4d9fe 100644
--- a/vllm/model_executor/models/gpt_neox.py
+++ b/vllm/model_executor/models/gpt_neox.py
@@ -92,13 +92,12 @@ class GPTNeoXAttention(nn.Module):
         scaling = self.head_size**-0.5
         rotary_dim = int(self.head_size * config.rotary_pct)
         assert rotary_dim % 2 == 0
-        rope_theta = getattr(config, "rope_theta", 10000)
         max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
         self.rotary_emb = get_rope(
             self.head_size,
             rotary_dim=rotary_dim,
             max_position=max_position_embeddings,
-            base=rope_theta,
+            rope_parameters=config.rope_parameters,
         )
         self.attn = Attention(
             self.num_heads,
diff --git a/vllm/model_executor/models/gpt_oss.py b/vllm/model_executor/models/gpt_oss.py
index 7df3b087ccb88..f310f71af92d9 100644
--- a/vllm/model_executor/models/gpt_oss.py
+++ b/vllm/model_executor/models/gpt_oss.py
@@ -67,16 +67,16 @@ class OAIAttention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=config.max_position_embeddings,
-            base=config.rope_theta,
             dtype=torch.float32,
-            rope_scaling={
+            rope_parameters={
+                "rope_theta": config.rope_parameters["rope_theta"],
                 "rope_type": "yarn",
-                "factor": config.rope_scaling["factor"],
-                "original_max_position_embeddings": config.rope_scaling[
+                "factor": config.rope_parameters["factor"],
+                "original_max_position_embeddings": config.rope_parameters[
                     "original_max_position_embeddings"
                 ],
-                "beta_fast": config.rope_scaling["beta_fast"],
-                "beta_slow": config.rope_scaling["beta_slow"],
+                "beta_fast": config.rope_parameters["beta_fast"],
+                "beta_slow": config.rope_parameters["beta_slow"],
             },
             is_neox_style=True,
         )
@@ -90,7 +90,6 @@ class OAIAttention(nn.Module):
         self.q_size = self.num_attention_heads * self.head_dim // tp_size
         self.kv_size = self.num_key_value_heads * self.head_dim // tp_size
         self.scaling = self.head_dim**-0.5
-        self.rope_theta = config.rope_theta
 
         self.qkv_proj = QKVParallelLinear(
             hidden_size=self.hidden_size,
diff --git a/vllm/model_executor/models/granite.py b/vllm/model_executor/models/granite.py
index c44b4021471ef..1dc205b47753d 100644
--- a/vllm/model_executor/models/granite.py
+++ b/vllm/model_executor/models/granite.py
@@ -26,7 +26,6 @@
 
 from collections.abc import Iterable
 from itertools import islice
-from typing import Any
 
 import torch
 from torch import nn
@@ -112,8 +111,6 @@ class GraniteAttention(nn.Module):
         hidden_size: int,
         num_heads: int,
         num_kv_heads: int,
-        rope_theta: float = 10000,
-        rope_scaling: dict[str, Any] | None = None,
         max_position_embeddings: int = 8192,
         quant_config: QuantizationConfig | None = None,
         bias: bool = False,
@@ -143,7 +140,6 @@ class GraniteAttention(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = config.attention_multiplier
-        self.rope_theta = rope_theta
         self.max_position_embeddings = max_position_embeddings
 
         self.qkv_proj = QKVParallelLinear(
@@ -167,8 +163,7 @@ class GraniteAttention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=max_position_embeddings,
-            base=rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=config.rope_parameters,
         )
         self.attn = Attention(
             self.num_heads,
@@ -204,14 +199,6 @@ class GraniteDecoderLayer(nn.Module):
         super().__init__()
         self.hidden_size = config.hidden_size
         self.residual_multiplier = config.residual_multiplier
-        rope_theta = getattr(config, "rope_theta", 10000)
-        rope_scaling = getattr(config, "rope_scaling", None)
-        if rope_scaling is not None and getattr(
-            config, "original_max_position_embeddings", None
-        ):
-            rope_scaling["original_max_position_embeddings"] = (
-                config.original_max_position_embeddings
-            )
         max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
         # Support abacusai/Smaug-72B-v0.1 with attention_bias
         # Support internlm/internlm-7b with bias
@@ -225,8 +212,6 @@ class GraniteDecoderLayer(nn.Module):
             num_kv_heads=getattr(
                 config, "num_key_value_heads", config.num_attention_heads
             ),
-            rope_theta=rope_theta,
-            rope_scaling=rope_scaling,
             max_position_embeddings=max_position_embeddings,
             quant_config=quant_config,
             bias=attention_bias,
diff --git a/vllm/model_executor/models/granitemoe.py b/vllm/model_executor/models/granitemoe.py
index 5c6759ded0669..8f4139d63c3f6 100644
--- a/vllm/model_executor/models/granitemoe.py
+++ b/vllm/model_executor/models/granitemoe.py
@@ -141,8 +141,7 @@ class GraniteMoeAttention(nn.Module):
         num_heads: int,
         num_kv_heads: int,
         max_position: int = 4096 * 32,
-        rope_theta: float = 10000,
-        rope_scaling: dict[str, Any] | None = None,
+        rope_parameters: dict[str, Any] | None = None,
         cache_config: CacheConfig | None = None,
         quant_config: QuantizationConfig | None = None,
         attention_multiplier: float | None = None,
@@ -172,7 +171,6 @@ class GraniteMoeAttention(nn.Module):
             if attention_multiplier is not None
             else self.head_dim**-1
         )
-        self.rope_theta = rope_theta
 
         self.qkv_proj = QKVParallelLinear(
             hidden_size,
@@ -194,9 +192,8 @@ class GraniteMoeAttention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=max_position,
-            base=int(self.rope_theta),
+            rope_parameters=rope_parameters,
             is_neox_style=True,
-            rope_scaling=rope_scaling,
         )
         self.attn = Attention(
             self.num_heads,
@@ -235,16 +232,12 @@ class GraniteMoeDecoderLayer(nn.Module):
         parallel_config = vllm_config.parallel_config
 
         self.hidden_size = config.hidden_size
-        # Requires transformers > 4.32.0
-        rope_theta = getattr(config, "rope_theta", 10000)
-        rope_scaling = getattr(config, "rope_scaling", None)
         self.self_attn = GraniteMoeAttention(
             hidden_size=self.hidden_size,
             num_heads=config.num_attention_heads,
             max_position=config.max_position_embeddings,
             num_kv_heads=config.num_key_value_heads,
-            rope_theta=rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=config.rope_parameters,
             cache_config=cache_config,
             quant_config=quant_config,
             prefix=f"{prefix}.self_attn",
diff --git a/vllm/model_executor/models/granitemoehybrid.py b/vllm/model_executor/models/granitemoehybrid.py
index a340112ec62ae..9d5eeef198a61 100644
--- a/vllm/model_executor/models/granitemoehybrid.py
+++ b/vllm/model_executor/models/granitemoehybrid.py
@@ -273,10 +273,7 @@ class GraniteMoeHybridAttention(nn.Module):
                 self.head_dim,
                 rotary_dim=self.head_dim,
                 max_position=config.max_position_embeddings,
-                base=int(config.rope_theta),
-                rope_scaling=config.rope_scaling
-                if hasattr(config, "rope_scaling") and config.rope_scaling is not None
-                else None,
+                rope_parameters=config.rope_parameters,
                 is_neox_style=True,
             )
         else:
diff --git a/vllm/model_executor/models/granitemoeshared.py b/vllm/model_executor/models/granitemoeshared.py
index 926c539af33be..fd346db7e35aa 100644
--- a/vllm/model_executor/models/granitemoeshared.py
+++ b/vllm/model_executor/models/granitemoeshared.py
@@ -84,16 +84,12 @@ class GraniteMoeSharedDecoderLayer(nn.Module):
     ) -> None:
         super().__init__()
         self.hidden_size = config.hidden_size
-        # Requires transformers > 4.32.0
-        rope_theta = getattr(config, "rope_theta", 10000)
-        rope_scaling = getattr(config, "rope_scaling", None)
         self.self_attn = GraniteMoeAttention(
             hidden_size=self.hidden_size,
             num_heads=config.num_attention_heads,
             max_position=config.max_position_embeddings,
             num_kv_heads=config.num_key_value_heads,
-            rope_theta=rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=config.rope_parameters,
             cache_config=cache_config,
             quant_config=quant_config,
             prefix=f"{prefix}.self_attn",
diff --git a/vllm/model_executor/models/grok1.py b/vllm/model_executor/models/grok1.py
index 9dc231863f74f..4bf23cd6fd19a 100644
--- a/vllm/model_executor/models/grok1.py
+++ b/vllm/model_executor/models/grok1.py
@@ -25,6 +25,7 @@
 
 from collections.abc import Iterable
 from itertools import islice
+from typing import Any
 
 import torch
 import torch.nn.functional as F
@@ -134,7 +135,7 @@ class Grok1Attention(nn.Module):
         num_heads: int,
         num_kv_heads: int,
         max_position: int = 4096 * 32,
-        rope_theta: float = 10000,
+        rope_parameters: dict[str, Any] | None = None,
         cache_config: CacheConfig | None = None,
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
@@ -161,7 +162,6 @@ class Grok1Attention(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = self.head_dim**-0.5
-        self.rope_theta = rope_theta
 
         self.qkv_proj = QKVParallelLinear(
             hidden_size,
@@ -183,7 +183,7 @@ class Grok1Attention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=max_position,
-            base=int(self.rope_theta),
+            rope_parameters=rope_parameters,
             is_neox_style=True,
         )
 
@@ -234,15 +234,12 @@ class Grok1DecoderLayer(nn.Module):
             if not self.use_fp8 and hasattr(quant_config, "is_fp8"):
                 self.use_fp8 = quant_config.is_fp8
 
-        # Requires transformers > 4.32.0
-        # Default rope_theta value if not in config
-        rope_theta = 10000
         self.attn = Grok1Attention(
             hidden_size=self.hidden_size,
             num_heads=config.num_attention_heads,
             max_position=config.max_position_embeddings,
             num_kv_heads=config.num_key_value_heads,
-            rope_theta=rope_theta,
+            rope_parameters=config.rope_parameters,
             cache_config=cache_config,
             quant_config=quant_config,
             prefix=f"{prefix}.attn",
diff --git a/vllm/model_executor/models/hunyuan_v1.py b/vllm/model_executor/models/hunyuan_v1.py
index 1eadcbe67ade3..9fa5e2bd33f21 100644
--- a/vllm/model_executor/models/hunyuan_v1.py
+++ b/vllm/model_executor/models/hunyuan_v1.py
@@ -27,7 +27,6 @@
 import typing
 from collections.abc import Callable, Iterable
 from itertools import islice
-from typing import Any
 
 import regex as re
 import torch
@@ -142,8 +141,6 @@ class HunYuanAttention(nn.Module):
         hidden_size: int,
         num_heads: int,
         num_kv_heads: int,
-        rope_theta: float = 10000,
-        rope_scaling: dict[str, Any] | None = None,
         max_position_embeddings: int = 8192,
         quant_config: QuantizationConfig | None = None,
         bias: bool = False,
@@ -177,7 +174,6 @@ class HunYuanAttention(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = self.head_dim**-0.5
-        self.rope_theta = rope_theta
         self.max_position_embeddings = max_position_embeddings
         self.use_qk_norm = getattr(config, "use_qk_norm", False)
         self.layer_id = layer_id
@@ -204,8 +200,7 @@ class HunYuanAttention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=max_position_embeddings,
-            base=rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=config.rope_parameters,
             is_neox_style=True,
         )
         self.attn = Attention(
@@ -254,8 +249,6 @@ class HunYuanCrossAttention(nn.Module):
         hidden_size: int,
         num_heads: int,
         num_kv_heads: int,
-        rope_theta: float = 10000,
-        rope_scaling: dict[str, Any] | None = None,
         max_position_embeddings: int = 8192,
         quant_config: QuantizationConfig | None = None,
         bias: bool = False,
@@ -289,7 +282,6 @@ class HunYuanCrossAttention(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = self.head_dim**-0.5
-        self.rope_theta = rope_theta
         self.max_position_embeddings = max_position_embeddings
         self.use_qk_norm = getattr(config, "use_qk_norm", False)
         self.layer_id = layer_id
@@ -314,8 +306,7 @@ class HunYuanCrossAttention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=max_position_embeddings,
-            base=rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=config.rope_parameters,
             is_neox_style=True,
         )
         self.attn = Attention(
@@ -494,14 +485,6 @@ class HunYuanDecoderLayer(nn.Module):
             if isinstance(config.intermediate_size, int)
             else config.intermediate_size[layer_id]
         )
-        rope_theta = getattr(config, "rope_theta", 10000)
-        rope_scaling = getattr(config, "rope_scaling", None)
-        if rope_scaling is not None and getattr(
-            config, "original_max_position_embeddings", None
-        ):
-            rope_scaling["original_max_position_embeddings"] = (
-                config.original_max_position_embeddings
-            )
         max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
         attention_bias = getattr(config, "attention_bias", False) or getattr(
             config, "bias", False
@@ -520,8 +503,6 @@ class HunYuanDecoderLayer(nn.Module):
                 num_kv_heads=getattr(
                     config, "num_key_value_heads", config.num_attention_heads
                 ),
-                rope_theta=rope_theta,
-                rope_scaling=rope_scaling,
                 max_position_embeddings=max_position_embeddings,
                 quant_config=quant_config,
                 bias=attention_bias,
@@ -537,8 +518,6 @@ class HunYuanDecoderLayer(nn.Module):
                 num_kv_heads=getattr(
                     config, "num_key_value_heads", config.num_attention_heads
                 ),
-                rope_theta=rope_theta,
-                rope_scaling=rope_scaling,
                 max_position_embeddings=max_position_embeddings,
                 quant_config=quant_config,
                 bias=attention_bias,
diff --git a/vllm/model_executor/models/internlm2.py b/vllm/model_executor/models/internlm2.py
index 60fbeb842dd4b..dc8f821bd134f 100644
--- a/vllm/model_executor/models/internlm2.py
+++ b/vllm/model_executor/models/internlm2.py
@@ -91,8 +91,7 @@ class InternLM2Attention(nn.Module):
         hidden_size: int,
         num_heads: int,
         num_kv_heads: int,
-        rope_theta: float = 10000,
-        rope_scaling: dict[str, Any] | None = None,
+        rope_parameters: dict[str, Any] | None = None,
         max_position_embeddings: int = 8192,
         cache_config: CacheConfig | None = None,
         quant_config: QuantizationConfig | None = None,
@@ -120,7 +119,6 @@ class InternLM2Attention(nn.Module):
         self.kv_size = self.num_kv_heads * self.head_dim
         self.key_value_groups = int(self.num_heads / self.num_kv_heads)
         self.scaling = self.head_dim**-0.5
-        self.rope_theta = rope_theta
         self.max_position_embeddings = max_position_embeddings
 
         self.wqkv = QKVParallelLinear(
@@ -144,8 +142,7 @@ class InternLM2Attention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=max_position_embeddings,
-            base=rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=rope_parameters,
         )
         self.attn = Attention(
             self.num_heads,
@@ -204,15 +201,12 @@ class InternLMDecoderLayer(nn.Module):
     ) -> None:
         super().__init__()
         self.hidden_size = config.hidden_size
-        rope_theta = getattr(config, "rope_theta", 10000)
-        rope_scaling = getattr(config, "rope_scaling", None)
         max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
         self.attention = InternLM2Attention(
             hidden_size=self.hidden_size,
             num_heads=config.num_attention_heads,
             num_kv_heads=config.num_key_value_heads,
-            rope_theta=rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=config.rope_parameters,
             max_position_embeddings=max_position_embeddings,
             cache_config=cache_config,
             quant_config=quant_config,
diff --git a/vllm/model_executor/models/internlm2_ve.py b/vllm/model_executor/models/internlm2_ve.py
index 6dc081e34157b..a57db82242af9 100644
--- a/vllm/model_executor/models/internlm2_ve.py
+++ b/vllm/model_executor/models/internlm2_ve.py
@@ -30,15 +30,12 @@ class InternLM2VEDecoderLayer(nn.Module):
     ) -> None:
         super().__init__()
         self.hidden_size = config.hidden_size
-        rope_theta = getattr(config, "rope_theta", 10000)
-        rope_scaling = getattr(config, "rope_scaling", None)
         max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
         self.attention = InternLM2Attention(
             hidden_size=self.hidden_size,
             num_heads=config.num_attention_heads,
             num_kv_heads=config.num_key_value_heads,
-            rope_theta=rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=config.rope_parameters,
             max_position_embeddings=max_position_embeddings,
             cache_config=cache_config,
             quant_config=quant_config,
diff --git a/vllm/model_executor/models/kimi_linear.py b/vllm/model_executor/models/kimi_linear.py
index f3675075a48f4..4562b2202c5ec 100644
--- a/vllm/model_executor/models/kimi_linear.py
+++ b/vllm/model_executor/models/kimi_linear.py
@@ -2,7 +2,6 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
 from collections.abc import Iterable
-from typing import Any
 
 import torch
 from torch import nn
@@ -190,9 +189,7 @@ class KimiMLAAttention(nn.Module):
         v_head_dim: int,
         q_lora_rank: int | None,
         kv_lora_rank: int,
-        rope_theta: float = 10000,
         use_nope: bool = False,
-        rope_scaling: dict[str, Any] | None = None,
         cache_config: CacheConfig | None = None,
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
@@ -210,11 +207,9 @@ class KimiMLAAttention(nn.Module):
         tp_size = get_tensor_model_parallel_world_size()
         self.num_local_heads = num_heads // tp_size
         self.scaling = self.qk_head_dim**-0.5
-        self.rope_theta = rope_theta
         self.use_nope = use_nope
         assert self.use_nope is True
         assert self.q_lora_rank is None
-        assert rope_scaling is None
         assert num_heads % tp_size == 0
         self.kv_a_proj_with_mqa = ReplicatedLinear(
             self.hidden_size,
diff --git a/vllm/model_executor/models/lfm2.py b/vllm/model_executor/models/lfm2.py
index aeb25602f11a4..74bdde27ece5c 100644
--- a/vllm/model_executor/models/lfm2.py
+++ b/vllm/model_executor/models/lfm2.py
@@ -2,7 +2,6 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 from collections.abc import Iterable
 from itertools import islice
-from typing import Any
 
 import torch
 import torch.nn as nn
@@ -96,8 +95,6 @@ class Lfm2Attention(nn.Module):
         hidden_size: int,
         num_heads: int,
         num_kv_heads: int,
-        rope_theta: float = 10000,
-        rope_scaling: dict[str, Any] | None = None,
         max_position_embeddings: int = 8192,
         cache_config: CacheConfig | None = None,
         quant_config: QuantizationConfig | None = None,
@@ -126,7 +123,6 @@ class Lfm2Attention(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = self.head_dim**-0.5
-        self.rope_theta = rope_theta
         self.max_position_embeddings = max_position_embeddings
 
         self.qkv_proj = QKVParallelLinear(
@@ -149,8 +145,7 @@ class Lfm2Attention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=self.max_position_embeddings,
-            base=self.rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=config.rope_parameters,
             is_neox_style=True,
         )
         self.attn = Attention(
@@ -199,14 +194,6 @@ class Lfm2AttentionDecoderLayer(nn.Module):
         self.config = config
         self.layer_idx = layer_idx
 
-        rope_theta = getattr(config, "rope_theta", 10000)
-        rope_scaling = getattr(config, "rope_scaling", None)
-        if rope_scaling is not None and getattr(
-            config, "original_max_position_embeddings", None
-        ):
-            rope_scaling["original_max_position_embeddings"] = (
-                config.original_max_position_embeddings
-            )
         max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
 
         self.self_attn = Lfm2Attention(
@@ -215,8 +202,6 @@ class Lfm2AttentionDecoderLayer(nn.Module):
             hidden_size=config.hidden_size,
             num_heads=config.num_attention_heads,
             num_kv_heads=config.num_key_value_heads,
-            rope_theta=rope_theta,
-            rope_scaling=rope_scaling,
             max_position_embeddings=max_position_embeddings,
             cache_config=cache_config,
             quant_config=quant_config,
diff --git a/vllm/model_executor/models/lfm2_moe.py b/vllm/model_executor/models/lfm2_moe.py
index 6b7b5564ee989..c088a08211527 100644
--- a/vllm/model_executor/models/lfm2_moe.py
+++ b/vllm/model_executor/models/lfm2_moe.py
@@ -2,7 +2,6 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 from collections.abc import Iterable
 from itertools import islice
-from typing import Any
 
 import torch
 import torch.nn as nn
@@ -189,8 +188,6 @@ class Lfm2MoeAttention(nn.Module):
         hidden_size: int,
         num_heads: int,
         num_kv_heads: int,
-        rope_theta: float = 10000,
-        rope_scaling: dict[str, Any] | None = None,
         max_position_embeddings: int = 8192,
         cache_config: CacheConfig | None = None,
         quant_config: QuantizationConfig | None = None,
@@ -219,7 +216,6 @@ class Lfm2MoeAttention(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = self.head_dim**-0.5
-        self.rope_theta = rope_theta
         self.max_position_embeddings = max_position_embeddings
 
         self.qkv_proj = QKVParallelLinear(
@@ -242,8 +238,7 @@ class Lfm2MoeAttention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=self.max_position_embeddings,
-            base=self.rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=config.rope_parameters,
             is_neox_style=True,
         )
         self.attn = Attention(
@@ -293,14 +288,6 @@ class Lfm2MoeAttentionDecoderLayer(nn.Module):
         self.config = config
         self.layer_idx = layer_idx
 
-        rope_theta = getattr(config, "rope_theta", 10000)
-        rope_scaling = getattr(config, "rope_scaling", None)
-        if rope_scaling is not None and getattr(
-            config, "original_max_position_embeddings", None
-        ):
-            rope_scaling["original_max_position_embeddings"] = (
-                config.original_max_position_embeddings
-            )
         max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
 
         self.self_attn = Lfm2MoeAttention(
@@ -309,8 +296,6 @@ class Lfm2MoeAttentionDecoderLayer(nn.Module):
             hidden_size=config.hidden_size,
             num_heads=config.num_attention_heads,
             num_kv_heads=config.num_key_value_heads,
-            rope_theta=rope_theta,
-            rope_scaling=rope_scaling,
             max_position_embeddings=max_position_embeddings,
             cache_config=cache_config,
             quant_config=quant_config,
diff --git a/vllm/model_executor/models/llama.py b/vllm/model_executor/models/llama.py
index 0a3f37c30ab5f..d5b49d2fb4c26 100644
--- a/vllm/model_executor/models/llama.py
+++ b/vllm/model_executor/models/llama.py
@@ -26,7 +26,6 @@
 
 from collections.abc import Iterable
 from itertools import islice
-from typing import Any
 
 import torch
 from torch import nn
@@ -120,8 +119,6 @@ class LlamaAttention(nn.Module):
         hidden_size: int,
         num_heads: int,
         num_kv_heads: int,
-        rope_theta: float = 10000,
-        rope_scaling: dict[str, Any] | None = None,
         max_position_embeddings: int = 8192,
         quant_config: QuantizationConfig | None = None,
         bias: bool = False,
@@ -157,7 +154,6 @@ class LlamaAttention(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = self.head_dim**-0.5
-        self.rope_theta = rope_theta
         self.max_position_embeddings = max_position_embeddings
 
         llama_4_scaling_config = getattr(config, "llama_4_scaling", None)
@@ -186,9 +182,7 @@ class LlamaAttention(nn.Module):
             prefix=f"{prefix}.o_proj",
         )
 
-        self._init_rotary_emb(
-            config, rope_scaling=rope_scaling, quant_config=quant_config
-        )
+        self._init_rotary_emb(config, quant_config=quant_config)
 
         sliding_window = None
         if layer_types := getattr(config, "layer_types", None):
@@ -258,7 +252,6 @@ class LlamaAttention(nn.Module):
     def _init_rotary_emb(
         self,
         config: LlamaConfig,
-        rope_scaling: dict[str, Any] | None,
         quant_config: QuantizationConfig | None,
     ) -> None:
         is_neox_style = True
@@ -270,8 +263,7 @@ class LlamaAttention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=self.max_position_embeddings,
-            base=self.rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=config.rope_parameters,
             is_neox_style=is_neox_style,
             partial_rotary_factor=self.partial_rotary_factor,
         )
@@ -291,14 +283,6 @@ class LlamaDecoderLayer(nn.Module):
         quant_config = self.get_quant_config(vllm_config)
 
         self.hidden_size = config.hidden_size
-        rope_theta = getattr(config, "rope_theta", 10000)
-        rope_scaling = getattr(config, "rope_scaling", None)
-        if rope_scaling is not None and getattr(
-            config, "original_max_position_embeddings", None
-        ):
-            rope_scaling["original_max_position_embeddings"] = (
-                config.original_max_position_embeddings
-            )
         max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
         # Support abacusai/Smaug-72B-v0.1 with attention_bias
         # Support internlm/internlm-7b with bias
@@ -326,8 +310,6 @@ class LlamaDecoderLayer(nn.Module):
             num_kv_heads=getattr(
                 config, "num_key_value_heads", config.num_attention_heads
             ),
-            rope_theta=rope_theta,
-            rope_scaling=rope_scaling,
             max_position_embeddings=max_position_embeddings,
             quant_config=quant_config,
             bias=attention_bias,
diff --git a/vllm/model_executor/models/llama4.py b/vllm/model_executor/models/llama4.py
index a7e0732ec71e2..4c6d1d4244755 100644
--- a/vllm/model_executor/models/llama4.py
+++ b/vllm/model_executor/models/llama4.py
@@ -19,7 +19,6 @@
 """Inference-only LLaMA model compatible with HuggingFace weights."""
 
 from collections.abc import Iterable
-from typing import Any
 
 import torch
 from torch import nn
@@ -171,8 +170,6 @@ class Llama4Attention(nn.Module):
         hidden_size: int,
         num_heads: int,
         num_kv_heads: int,
-        rope_theta: float = 10000,
-        rope_scaling: dict[str, Any] | None = None,
         max_position_embeddings: int = 8192,
         quant_config: QuantizationConfig | None = None,
         bias: bool = False,
@@ -208,7 +205,6 @@ class Llama4Attention(nn.Module):
 
         self.floor_scale = getattr(config, "floor_scale", 8192.0)
         self.attn_scale = getattr(config, "attn_scale", 0.1)
-        self.rope_theta = rope_theta
         self.max_position_embeddings = max_position_embeddings
         self.n_rep = self.num_heads // self.num_kv_heads
         self.qk_norm = (
@@ -248,8 +244,7 @@ class Llama4Attention(nn.Module):
                 self.head_dim,
                 rotary_dim=self.head_dim,
                 max_position=max_position_embeddings,
-                base=int(rope_theta),
-                rope_scaling=rope_scaling if rope_scaling != "default" else None,
+                rope_parameters=config.rope_parameters,
                 is_neox_style=is_neox_style,
             )
             if not self.nope
@@ -331,8 +326,6 @@ class Llama4DecoderLayer(nn.Module):
         self.layer_idx = extract_layer_index(prefix)
         self.global_layer = config.no_rope_layers[self.layer_idx] == 0
         self.hidden_size = config.hidden_size
-        rope_theta = config.rope_theta
-        rope_scaling = config.rope_scaling
         max_position_embeddings = config.max_position_embeddings
 
         self.self_attn = Llama4Attention(
@@ -340,8 +333,6 @@ class Llama4DecoderLayer(nn.Module):
             hidden_size=self.hidden_size,
             num_heads=config.num_attention_heads,
             num_kv_heads=config.num_key_value_heads,
-            rope_theta=rope_theta,
-            rope_scaling=rope_scaling,
             max_position_embeddings=max_position_embeddings,
             quant_config=quant_config,
             bias=False,
diff --git a/vllm/model_executor/models/longcat_flash.py b/vllm/model_executor/models/longcat_flash.py
index 5de10e7086830..fafe97cd2be7e 100644
--- a/vllm/model_executor/models/longcat_flash.py
+++ b/vllm/model_executor/models/longcat_flash.py
@@ -108,8 +108,7 @@ class FlashConfig(PretrainedConfig):
         eos_token_id=100001,
         pretraining_tp=1,
         tie_word_embeddings=False,
-        rope_theta=1000000.0,
-        rope_scaling=None,
+        rope_parameters=None,
         attention_bias=False,
         attention_dropout=0.0,
         mla_scale_q_lora=False,
@@ -162,8 +161,13 @@ class FlashConfig(PretrainedConfig):
         self.rms_norm_eps = rms_norm_eps
         self.pretraining_tp = pretraining_tp
         self.use_cache = use_cache
-        self.rope_theta = rope_theta
-        self.rope_scaling = rope_scaling
+        # Try to set `rope_scaling` if available, otherwise use `rope_parameters`
+        rope_scaling = kwargs.pop("rope_scaling", None)
+        rope_parameters = rope_scaling or rope_parameters or {"rope_type": "default"}
+        rope_theta = kwargs.pop("rope_theta", 1000000.0)
+        if "rope_theta" not in rope_parameters:
+            rope_parameters["rope_theta"] = rope_theta
+        self.rope_parameters = rope_parameters
         self.attention_bias = attention_bias
         self.attention_dropout = attention_dropout
         self.mla_scale_q_lora = mla_scale_q_lora
@@ -336,15 +340,7 @@ class FlashDecoderLayer(nn.Module):
         super().__init__()
         self.layer_idx = int(prefix.split(sep=".")[-1])
         self.hidden_size = config.hidden_size
-        rope_theta = getattr(config, "rope_theta", 10000)
-        rope_scaling = getattr(config, "rope_scaling", None)
         max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
-        if rope_scaling is not None and getattr(
-            config, "original_max_position_embeddings", None
-        ):
-            rope_scaling["original_max_position_embeddings"] = (
-                config.original_max_position_embeddings
-            )
 
         # Dual attention structure
         self.self_attn = nn.ModuleList(
@@ -361,8 +357,6 @@ class FlashDecoderLayer(nn.Module):
                         config.q_lora_rank if hasattr(config, "q_lora_rank") else None
                     ),
                     kv_lora_rank=config.kv_lora_rank,
-                    rope_theta=rope_theta,
-                    rope_scaling=rope_scaling,
                     max_position_embeddings=max_position_embeddings,
                     cache_config=cache_config,
                     quant_config=None
diff --git a/vllm/model_executor/models/minicpm.py b/vllm/model_executor/models/minicpm.py
index 914b097fe199e..04923833065f3 100644
--- a/vllm/model_executor/models/minicpm.py
+++ b/vllm/model_executor/models/minicpm.py
@@ -230,8 +230,7 @@ class MiniCPMAttention(nn.Module):
         hidden_size: int,
         num_heads: int,
         num_kv_heads: int,
-        rope_theta: float = 10000,
-        rope_scaling: dict[str, Any] | None = None,
+        rope_parameters: dict[str, Any] | None = None,
         max_position_embeddings: int = 8192,
         cache_config: CacheConfig | None = None,
         quant_config: QuantizationConfig | None = None,
@@ -257,7 +256,6 @@ class MiniCPMAttention(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = self.head_dim**-0.5
-        self.rope_theta = rope_theta
         self.max_position_embeddings = max_position_embeddings
 
         self.qkv_proj = QKVParallelLinear(
@@ -281,8 +279,7 @@ class MiniCPMAttention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=max_position_embeddings,
-            base=rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=rope_parameters,
         )
 
         self.attn = Attention(
@@ -324,8 +321,6 @@ class MiniCPMDecoderLayer(nn.Module):
         self.cache_config = cache_config
         self.quant_config = quant_config
         self.hidden_size = config.hidden_size
-        self.rope_theta = getattr(config, "rope_theta", 10000)
-        self.rope_scaling = getattr(config, "rope_scaling", None)
         self.max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
         self.prefix = prefix
         self._init_attn_block()
@@ -339,8 +334,7 @@ class MiniCPMDecoderLayer(nn.Module):
             hidden_size=self.hidden_size,
             num_heads=self.config.num_attention_heads,
             num_kv_heads=self.config.num_key_value_heads,
-            rope_theta=self.rope_theta,
-            rope_scaling=self.rope_scaling,
+            rope_parameters=self.config.rope_parameters,
             max_position_embeddings=self.max_position_embeddings,
             cache_config=self.cache_config,
             quant_config=self.quant_config,
diff --git a/vllm/model_executor/models/minicpm3.py b/vllm/model_executor/models/minicpm3.py
index d3b6966ee3a7f..2d775219fc972 100644
--- a/vllm/model_executor/models/minicpm3.py
+++ b/vllm/model_executor/models/minicpm3.py
@@ -25,8 +25,6 @@
 # limitations under the License.
 """Inference-only MiniCPM3 model compatible with HuggingFace weights."""
 
-from typing import Any
-
 import torch
 from torch import nn
 from transformers import PretrainedConfig
@@ -62,8 +60,6 @@ class MiniCPM3Attention(nn.Module):
         v_head_dim: int,
         q_lora_rank: int,
         kv_lora_rank: int,
-        rope_theta: float = 10000,
-        rope_scaling: dict[str, Any] | None = None,
         max_position_embeddings: int = 8192,
         cache_config: CacheConfig | None = None,
         quant_config: QuantizationConfig | None = None,
@@ -84,7 +80,6 @@ class MiniCPM3Attention(nn.Module):
         self.num_local_heads = num_heads // tp_size
 
         self.scaling = self.qk_head_dim**-0.5
-        self.rope_theta = rope_theta
         self.max_position_embeddings = max_position_embeddings
 
         self.q_a_proj = ReplicatedLinear(
@@ -127,8 +122,7 @@ class MiniCPM3Attention(nn.Module):
             self.qk_rope_head_dim,
             rotary_dim=self.qk_rope_head_dim,
             max_position=max_position_embeddings,
-            base=rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=config.rope_parameters,
         )
         self.attn = Attention(
             self.num_local_heads,
@@ -204,8 +198,6 @@ class MiniCPM3DecoderLayer(MiniCPMDecoderLayer):
             v_head_dim=self.config.v_head_dim,
             q_lora_rank=self.config.q_lora_rank,
             kv_lora_rank=self.config.kv_lora_rank,
-            rope_theta=self.rope_theta,
-            rope_scaling=self.rope_scaling,
             max_position_embeddings=self.max_position_embeddings,
             cache_config=self.cache_config,
             quant_config=self.quant_config,
diff --git a/vllm/model_executor/models/minicpm_eagle.py b/vllm/model_executor/models/minicpm_eagle.py
index d0cdb70aa8574..e6bccfcac4f1a 100644
--- a/vllm/model_executor/models/minicpm_eagle.py
+++ b/vllm/model_executor/models/minicpm_eagle.py
@@ -69,8 +69,6 @@ class EagleMiniCPMDecoderLayer(nn.Module):
         self.cache_config = cache_config
         self.quant_config = quant_config
         self.hidden_size = config.hidden_size
-        self.rope_theta = getattr(config, "rope_theta", 10000)
-        self.rope_scaling = getattr(config, "rope_scaling", None)
         self.max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
         self.prefix = prefix
         self._init_attn_block()
@@ -84,8 +82,7 @@ class EagleMiniCPMDecoderLayer(nn.Module):
             hidden_size=self.hidden_size,
             num_heads=self.config.num_attention_heads,
             num_kv_heads=self.config.num_key_value_heads,
-            rope_theta=self.rope_theta,
-            rope_scaling=self.rope_scaling,
+            rope_parameters=self.config.rope_parameters,
             max_position_embeddings=self.max_position_embeddings,
             cache_config=self.cache_config,
             quant_config=self.quant_config,
diff --git a/vllm/model_executor/models/minimax_m2.py b/vllm/model_executor/models/minimax_m2.py
index 49d2f2d261969..4955c68c0cda8 100644
--- a/vllm/model_executor/models/minimax_m2.py
+++ b/vllm/model_executor/models/minimax_m2.py
@@ -149,8 +149,7 @@ class MiniMaxM2Attention(nn.Module):
         num_heads: int,
         num_kv_heads: int,
         rotary_dim: int,
-        rope_theta: float = 10000,
-        rope_scaling: dict[str, Any] | None = None,
+        rope_parameters: dict[str, Any] | None = None,
         attn_window_size: int | None = None,
         max_position_embeddings: int = 8192,
         head_dim: int | None = None,
@@ -180,7 +179,6 @@ class MiniMaxM2Attention(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = self.head_dim**-0.5
-        self.rope_theta = rope_theta
         self.max_position_embeddings = max_position_embeddings
 
         self.qkv_proj = QKVParallelLinear(
@@ -205,8 +203,7 @@ class MiniMaxM2Attention(nn.Module):
             self.head_dim,
             rotary_dim=rotary_dim,
             max_position=max_position_embeddings,
-            base=rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=rope_parameters,
         )
         self.attn = Attention(
             self.num_heads,
@@ -252,8 +249,6 @@ class MiniMaxM2DecoderLayer(nn.Module):
     ) -> None:
         super().__init__()
         self.hidden_size = config.hidden_size
-        rope_theta = getattr(config, "rope_theta", 10000)
-        rope_scaling = getattr(config, "rope_scaling", None)
         max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
         if hasattr(config, "max_model_len") and isinstance(config.max_model_len, int):
             max_position_embeddings = max(
@@ -269,8 +264,7 @@ class MiniMaxM2DecoderLayer(nn.Module):
             num_heads=config.num_attention_heads,
             num_kv_heads=config.num_key_value_heads,
             rotary_dim=config.rotary_dim,
-            rope_theta=rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=config.rope_parameters,
             max_position_embeddings=max_position_embeddings,
             rms_norm_eps=config.rms_norm_eps,
             qkv_bias=getattr(config, "attention_bias", False),
diff --git a/vllm/model_executor/models/minimax_text_01.py b/vllm/model_executor/models/minimax_text_01.py
index bf1ecc822756d..50f7396e2de60 100644
--- a/vllm/model_executor/models/minimax_text_01.py
+++ b/vllm/model_executor/models/minimax_text_01.py
@@ -188,7 +188,7 @@ class MiniMaxText01Attention(nn.Module):
         num_kv_heads: int,
         rotary_dim: int,
         max_position: int = 4096 * 32,
-        rope_theta: float = 10000,
+        rope_parameters: dict | None = None,
         sliding_window: int | None = None,
         quant_config: QuantizationConfig | None = None,
         layer_idx: int = None,
@@ -214,7 +214,6 @@ class MiniMaxText01Attention(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = self.head_dim**-0.5
-        self.rope_theta = rope_theta
         self.sliding_window = sliding_window
         self.prefix = prefix
 
@@ -247,7 +246,7 @@ class MiniMaxText01Attention(nn.Module):
             head_size=self.head_dim,
             rotary_dim=rotary_dim,
             max_position=max_position,
-            base=int(rope_theta),
+            rope_parameters=rope_parameters,
             is_neox_style=True,
             dtype=torch.float32,
         )
@@ -287,8 +286,6 @@ class MiniMaxText01DecoderLayer(nn.Module):
         self.hidden_size = config.hidden_size
         self.expert_num = expert_num
 
-        rope_theta = getattr(config, "rope_theta", 10000)
-
         head_dim = getattr(config, "head_dim", None)
         if head_dim is None:
             head_dim = config.hidden_size // config.num_attention_heads
@@ -328,7 +325,7 @@ class MiniMaxText01DecoderLayer(nn.Module):
                 else head_dim,
                 num_kv_heads=config.num_key_value_heads,
                 max_position=max_position_embeddings,
-                rope_theta=rope_theta,
+                rope_parameters=config.rope_parameters,
                 sliding_window=config.sliding_window,
                 quant_config=quant_config,
                 layer_idx=self._ilayer,
diff --git a/vllm/model_executor/models/mixtral.py b/vllm/model_executor/models/mixtral.py
index d7a1cb82fb4fb..54ab8dd493e73 100644
--- a/vllm/model_executor/models/mixtral.py
+++ b/vllm/model_executor/models/mixtral.py
@@ -161,7 +161,6 @@ class MixtralAttention(nn.Module):
         num_heads: int,
         num_kv_heads: int,
         max_position: int = 4096 * 32,
-        rope_theta: float = 10000,
         cache_config: CacheConfig | None = None,
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
@@ -189,7 +188,6 @@ class MixtralAttention(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = self.head_dim**-0.5
-        self.rope_theta = rope_theta
 
         self.qkv_proj = QKVParallelLinear(
             hidden_size,
@@ -211,7 +209,7 @@ class MixtralAttention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=max_position,
-            base=int(self.rope_theta),
+            rope_parameters=config.rope_parameters,
             is_neox_style=True,
         )
         self.attn = Attention(
@@ -248,15 +246,12 @@ class MixtralDecoderLayer(nn.Module):
     ) -> None:
         super().__init__()
         self.hidden_size = config.hidden_size
-        # Requires transformers > 4.32.0
-        rope_theta = getattr(config, "rope_theta", 10000)
         self.self_attn = MixtralAttention(
             config=config,
             hidden_size=self.hidden_size,
             num_heads=config.num_attention_heads,
             max_position=config.max_position_embeddings,
             num_kv_heads=config.num_key_value_heads,
-            rope_theta=rope_theta,
             cache_config=cache_config,
             quant_config=quant_config,
             prefix=f"{prefix}.self_attn",
diff --git a/vllm/model_executor/models/mllama4.py b/vllm/model_executor/models/mllama4.py
index e25a104d822a7..286859d188d34 100644
--- a/vllm/model_executor/models/mllama4.py
+++ b/vllm/model_executor/models/mllama4.py
@@ -292,13 +292,17 @@ class Llama4VisionAttention(nn.Module):
                 prefix=f"{prefix}.o_proj",
             )
 
+        rope_parameters = {
+            "rope_type": "mllama4",
+            "rope_theta": config.rope_parameters["rope_theta"],
+        }
+
         self.rotary_emb = get_rope(
             head_size=self.head_dim,
             rotary_dim=config.hidden_size // config.num_attention_heads // 2,
             # number of image patches
             max_position=(config.image_size // config.patch_size) ** 2,
-            base=config.rope_theta,
-            rope_scaling={"rope_type": "mllama4"},
+            rope_parameters=rope_parameters,
             is_neox_style=False,
             dtype=torch.complex64,  # important
         )
diff --git a/vllm/model_executor/models/molmo.py b/vllm/model_executor/models/molmo.py
index ab83a271e30a0..dc06938d5d6e1 100644
--- a/vllm/model_executor/models/molmo.py
+++ b/vllm/model_executor/models/molmo.py
@@ -410,7 +410,6 @@ class MolmoAttention(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.max_position_embeddings = config.max_position_embeddings
-        self.rope_theta = config.rope_theta
 
         # Attention input projection. Projects x -> (q, k, v)
         self.qkv_proj = QKVParallelLinear(
@@ -437,7 +436,7 @@ class MolmoAttention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=self.max_position_embeddings,
-            base=self.rope_theta,
+            rope_parameters=config.rope_parameters,
         )
         self.scaling = self.head_dim**-0.5
         self.attn = Attention(
diff --git a/vllm/model_executor/models/nemotron.py b/vllm/model_executor/models/nemotron.py
index 92dcf5ea57008..c3337bd1ea699 100644
--- a/vllm/model_executor/models/nemotron.py
+++ b/vllm/model_executor/models/nemotron.py
@@ -26,7 +26,6 @@
 
 from collections.abc import Iterable
 from itertools import islice
-from typing import Any
 
 import torch
 from torch import nn
@@ -150,8 +149,6 @@ class NemotronAttention(nn.Module):
         hidden_size: int,
         num_heads: int,
         num_kv_heads: int,
-        rope_theta: float = 10000,
-        rope_scaling: dict[str, Any] | None = None,
         max_position_embeddings: int = 8192,
         quant_config: QuantizationConfig | None = None,
         bias: bool = False,
@@ -181,7 +178,6 @@ class NemotronAttention(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = self.head_dim**-0.5
-        self.rope_theta = rope_theta
         self.partial_rotary_factor = config.partial_rotary_factor
         self.max_position_embeddings = max_position_embeddings
 
@@ -206,8 +202,7 @@ class NemotronAttention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=max_position_embeddings,
-            base=rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=config.rope_parameters,
             partial_rotary_factor=self.partial_rotary_factor,
         )
         self.attn = Attention(
@@ -243,14 +238,6 @@ class NemotronDecoderLayer(nn.Module):
     ) -> None:
         super().__init__()
         self.hidden_size = config.hidden_size
-        rope_theta = getattr(config, "rope_theta", 10000)
-        rope_scaling = getattr(config, "rope_scaling", None)
-        if rope_scaling is not None and getattr(
-            config, "original_max_position_embeddings", None
-        ):
-            rope_scaling["original_max_position_embeddings"] = (
-                config.original_max_position_embeddings
-            )
         max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
         # Support abacusai/Smaug-72B-v0.1 with attention_bias
         # Support internlm/internlm-7b with bias
@@ -264,8 +251,6 @@ class NemotronDecoderLayer(nn.Module):
             num_kv_heads=getattr(
                 config, "num_key_value_heads", config.num_attention_heads
             ),
-            rope_theta=rope_theta,
-            rope_scaling=rope_scaling,
             max_position_embeddings=max_position_embeddings,
             quant_config=quant_config,
             bias=attention_bias,
diff --git a/vllm/model_executor/models/nemotron_nas.py b/vllm/model_executor/models/nemotron_nas.py
index b839206a3094d..2eebe38051cbd 100644
--- a/vllm/model_executor/models/nemotron_nas.py
+++ b/vllm/model_executor/models/nemotron_nas.py
@@ -26,7 +26,6 @@
 
 from collections.abc import Iterable
 from itertools import islice
-from typing import Any
 
 import torch
 from torch import nn
@@ -82,8 +81,6 @@ class DeciLMAttention(LlamaAttention):
         hidden_size: int,
         num_heads: int,
         num_kv_heads: int,
-        rope_theta: float = 10000,
-        rope_scaling: dict[str, Any] | None = None,
         max_position_embeddings: int = 8192,
         quant_config: QuantizationConfig | None = None,
         bias: bool = False,
@@ -97,8 +94,6 @@ class DeciLMAttention(LlamaAttention):
             hidden_size,
             num_heads,
             num_kv_heads,
-            rope_theta,
-            rope_scaling,
             max_position_embeddings,
             quant_config,
             bias,
@@ -111,7 +106,6 @@ class DeciLMAttention(LlamaAttention):
     def _init_rotary_emb(
         self,
         config,
-        rope_scaling: dict[str, Any] | None,
         quant_config: QuantizationConfig | None,
     ) -> None:
         # Enables YARN for Mistral and LLaMA4 derivatives.
@@ -126,8 +120,7 @@ class DeciLMAttention(LlamaAttention):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=self.max_position_embeddings,
-            base=self.rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=config.rope_parameters,
             is_neox_style=is_neox_style,
             partial_rotary_factor=self.partial_rotary_factor,
         )
@@ -148,14 +141,6 @@ class DeciLMDecoderLayer(nn.Module):
         self._is_no_op_ffn = block_config.ffn.no_op
 
         self.hidden_size = config.hidden_size
-        rope_theta = getattr(config, "rope_theta", 10000)
-        rope_scaling = getattr(config, "rope_scaling", None)
-        if rope_scaling is not None and getattr(
-            config, "original_max_position_embeddings", None
-        ):
-            rope_scaling["original_max_position_embeddings"] = (
-                config.original_max_position_embeddings
-            )
         max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
         # Support abacusai/Smaug-72B-v0.1 with attention_bias
         # Support internlm/internlm-7b with bias
@@ -176,8 +161,6 @@ class DeciLMDecoderLayer(nn.Module):
                 hidden_size=self.hidden_size,
                 num_heads=config.num_attention_heads,
                 num_kv_heads=num_kv_heads,
-                rope_theta=rope_theta,
-                rope_scaling=rope_scaling,
                 max_position_embeddings=max_position_embeddings,
                 quant_config=quant_config,
                 bias=attention_bias,
diff --git a/vllm/model_executor/models/olmo.py b/vllm/model_executor/models/olmo.py
index 487e3f671a455..bd8a8e317544f 100644
--- a/vllm/model_executor/models/olmo.py
+++ b/vllm/model_executor/models/olmo.py
@@ -87,7 +87,6 @@ class OlmoAttention(nn.Module):
         self.num_heads = self.total_num_heads // tensor_model_parallel_world_size
         self.head_dim = self.hidden_size // self.total_num_heads
         self.max_position_embeddings = config.max_position_embeddings
-        self.rope_theta = config.rope_theta
         self.clip_qkv = config.clip_qkv
 
         # Attention input projection. Projects x -> (q, k, v)
@@ -105,7 +104,7 @@ class OlmoAttention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=self.max_position_embeddings,
-            base=self.rope_theta,
+            rope_parameters=config.rope_parameters,
         )
         self.scaling = self.head_dim**-0.5
         self.attn = Attention(
diff --git a/vllm/model_executor/models/olmo2.py b/vllm/model_executor/models/olmo2.py
index 045582c889ee4..f0f6b2f6b3e6d 100644
--- a/vllm/model_executor/models/olmo2.py
+++ b/vllm/model_executor/models/olmo2.py
@@ -99,7 +99,6 @@ class Olmo2Attention(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.max_position_embeddings = self.config.max_position_embeddings
-        self.rope_theta = self.config.rope_theta
 
         # Attention input projection. Projects x -> (q, k, v)
         self.qkv_proj = QKVParallelLinear(
@@ -139,15 +138,17 @@ class Olmo2Attention(nn.Module):
             prefix=f"{prefix}.attn",
         )
 
-        # Rotary embeddings. Rope scaling is only applied on full attention
-        # layers.
-        self.rope_scaling = self.config.rope_scaling if sliding_window is None else None
+        # Rotary embeddings. Rope scaling is only applied on full attention layers.
+        if sliding_window is None:
+            rope_parameters = self.config.rope_parameters
+        else:
+            rope_theta = self.config.rope_parameters["rope_theta"]
+            rope_parameters = {"rope_type": "default", "rope_theta": rope_theta}
         self.rotary_emb = get_rope(
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=self.max_position_embeddings,
-            base=self.rope_theta,  # type: ignore
-            rope_scaling=self.rope_scaling,
+            rope_parameters=rope_parameters,
         )
 
         # Attention output projection.
diff --git a/vllm/model_executor/models/olmoe.py b/vllm/model_executor/models/olmoe.py
index 499eb05de76e4..c39e338d72e22 100644
--- a/vllm/model_executor/models/olmoe.py
+++ b/vllm/model_executor/models/olmoe.py
@@ -123,8 +123,6 @@ class OlmoeAttention(nn.Module):
         quant_config = vllm_config.quant_config
 
         self.hidden_size = config.hidden_size
-        rope_theta = getattr(config, "rope_theta", 10000)
-        rope_scaling = getattr(config, "rope_scaling", None)
         max_position_embeddings = getattr(config, "max_position_embeddings", 4096)
 
         num_heads = config.num_attention_heads
@@ -148,7 +146,6 @@ class OlmoeAttention(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = self.head_dim**-0.5
-        self.rope_theta = rope_theta
         self.max_position_embeddings = max_position_embeddings
 
         self.qkv_proj = QKVParallelLinear(
@@ -176,8 +173,7 @@ class OlmoeAttention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=max_position_embeddings,
-            base=rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=config.rope_parameters,
             is_neox_style=True,
         )
         self.attn = Attention(
diff --git a/vllm/model_executor/models/openpangu.py b/vllm/model_executor/models/openpangu.py
index d13a745beffeb..f814cdfec5a22 100644
--- a/vllm/model_executor/models/openpangu.py
+++ b/vllm/model_executor/models/openpangu.py
@@ -77,6 +77,7 @@ from vllm.model_executor.models.utils import (
     sequence_parallel_chunk,
 )
 from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.config import set_default_rope_theta
 
 
 def check_ffn_act_fn(act_fn: str):
@@ -259,7 +260,6 @@ class OpenPanguMLAAttention(nn.Module):
         v_head_dim: int,
         q_lora_rank: int | None,
         kv_lora_rank: int,
-        rope_theta: float = 10000,
         max_position_embeddings: int = 8192,
         cache_config: CacheConfig | None = None,
         quant_config: QuantizationConfig | None = None,
@@ -274,8 +274,6 @@ class OpenPanguMLAAttention(nn.Module):
         self.v_head_dim = v_head_dim
         self.q_lora_rank = q_lora_rank
         self.kv_lora_rank = kv_lora_rank
-        self.rope_theta = rope_theta
-
         self.tp_size = get_tensor_model_parallel_world_size()
         if num_heads % self.tp_size != 0:
             raise ValueError(
@@ -339,7 +337,9 @@ class OpenPanguMLAAttention(nn.Module):
         )
 
         # TODO: remove hard coding
-        rope_scaling = {
+        set_default_rope_theta(config, default_theta=10000)
+        rope_parameters = {
+            "rope_theta": config.rope_parameters["rope_theta"],
             "beta_fast": 32,
             "beta_slow": 1,
             "factor": 1,
@@ -353,8 +353,7 @@ class OpenPanguMLAAttention(nn.Module):
             qk_rope_head_dim,
             rotary_dim=qk_rope_head_dim,
             max_position=max_position_embeddings,
-            base=rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=rope_parameters,
             is_neox_style=False,
         )
 
@@ -407,8 +406,6 @@ class OpenPanguEmbeddedAttention(nn.Module):
         hidden_size: int,
         num_heads: int,
         num_kv_heads: int,
-        rope_theta: float = 10000,
-        rope_scaling: dict[str, Any] | None = None,
         max_position_embeddings: int = 8192,
         quant_config: QuantizationConfig | None = None,
         bias: bool = False,
@@ -454,7 +451,6 @@ class OpenPanguEmbeddedAttention(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = self.head_dim**-0.5
-        self.rope_theta = rope_theta
         self.max_position_embeddings = max_position_embeddings
 
         self.qkv_proj = QKVParallelLinear(
@@ -475,9 +471,7 @@ class OpenPanguEmbeddedAttention(nn.Module):
             prefix=f"{prefix}.o_proj",
         )
 
-        self._init_rotary_emb(
-            config, rope_scaling=rope_scaling, quant_config=quant_config
-        )
+        self._init_rotary_emb(config, quant_config=quant_config)
 
         if hasattr(config, "interleaved_sliding_window"):
             interleaved_sliding_window = config.interleaved_sliding_window
@@ -521,7 +515,6 @@ class OpenPanguEmbeddedAttention(nn.Module):
     def _init_rotary_emb(
         self,
         config: PretrainedConfig,
-        rope_scaling: dict[str, Any] | None,
         quant_config: QuantizationConfig | None,
     ) -> None:
         is_neox_style = True
@@ -533,8 +526,7 @@ class OpenPanguEmbeddedAttention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=self.max_position_embeddings,
-            base=self.rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=config.rope_parameters,
             is_neox_style=is_neox_style,
         )
 
@@ -555,7 +547,6 @@ class OpenPanguDecoderLayer(nn.Module):
         parallel_config = vllm_config.parallel_config
 
         self.hidden_size = config.hidden_size
-        rope_theta = getattr(config, "rope_theta", 10000)
         max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
 
         layer_idx = int(prefix.split(sep=".")[-1])
@@ -579,7 +570,6 @@ class OpenPanguDecoderLayer(nn.Module):
                     config.q_lora_rank if hasattr(config, "q_lora_rank") else None
                 ),
                 kv_lora_rank=config.kv_lora_rank,
-                rope_theta=rope_theta,
                 max_position_embeddings=max_position_embeddings,
                 cache_config=cache_config,
                 quant_config=quant_config,
@@ -607,8 +597,6 @@ class OpenPanguDecoderLayer(nn.Module):
                 num_kv_heads=getattr(
                     config, "num_key_value_heads", config.num_attention_heads
                 ),
-                rope_theta=rope_theta,
-                rope_scaling=getattr(config, "rope_scaling", None),
                 max_position_embeddings=max_position_embeddings,
                 quant_config=quant_config,
                 bias=attention_bias,
diff --git a/vllm/model_executor/models/orion.py b/vllm/model_executor/models/orion.py
index 859cd2cecf897..b30be93ca726f 100644
--- a/vllm/model_executor/models/orion.py
+++ b/vllm/model_executor/models/orion.py
@@ -88,8 +88,7 @@ class OrionAttention(nn.Module):
         hidden_size: int,
         num_heads: int,
         num_kv_heads: int,
-        rope_theta: float = 10000,
-        rope_scaling: dict[str, Any] | None = None,
+        rope_parameters: dict[str, Any] | None = None,
         max_position_embeddings: int = 8192,
         cache_config: CacheConfig | None = None,
         quant_config: QuantizationConfig | None = None,
@@ -115,7 +114,6 @@ class OrionAttention(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = self.head_dim**-0.5
-        self.rope_theta = rope_theta
         self.max_position_embeddings = max_position_embeddings
 
         self.qkv_proj = QKVParallelLinear(
@@ -139,8 +137,7 @@ class OrionAttention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=max_position_embeddings,
-            base=rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=rope_parameters,
         )
         self.attn = Attention(
             self.num_heads,
@@ -175,15 +172,12 @@ class OrionDecoderLayer(nn.Module):
     ) -> None:
         super().__init__()
         self.hidden_size = config.hidden_size
-        rope_theta = getattr(config, "rope_theta", 10000)
-        rope_scaling = getattr(config, "rope_scaling", None)
         max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
         self.self_attn = OrionAttention(
             hidden_size=self.hidden_size,
             num_heads=config.num_attention_heads,
             num_kv_heads=config.num_key_value_heads,
-            rope_theta=rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=config.rope_parameters,
             max_position_embeddings=max_position_embeddings,
             cache_config=cache_config,
             quant_config=quant_config,
diff --git a/vllm/model_executor/models/ouro.py b/vllm/model_executor/models/ouro.py
index 9db6c317c26a8..63d2fff6ec8bc 100644
--- a/vllm/model_executor/models/ouro.py
+++ b/vllm/model_executor/models/ouro.py
@@ -112,10 +112,8 @@ class OuroAttention(nn.Module):
         num_heads: int,
         num_kv_heads: int,
         max_position: int = 4096 * 32,
-        rope_theta: float = 10000,
         cache_config: CacheConfig | None = None,
         quant_config: QuantizationConfig | None = None,
-        rope_scaling: tuple | None = None,
         prefix: str = "",
         attn_type: str = AttentionType.DECODER,
         dual_chunk_attention_config: dict[str, Any] | None = None,
@@ -140,7 +138,6 @@ class OuroAttention(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = self.head_dim**-0.5
-        self.rope_theta = rope_theta
         self.dual_chunk_attention_config = dual_chunk_attention_config
 
         # Get total_ut_steps from config, default to 4 if not specified
@@ -170,8 +167,7 @@ class OuroAttention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=max_position,
-            base=self.rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=config.rope_parameters,
             dual_chunk_attention_config=dual_chunk_attention_config,
         )
         self.attn = nn.ModuleList()
@@ -226,9 +222,6 @@ class OuroDecoderLayer(nn.Module):
     ) -> None:
         super().__init__()
         self.hidden_size = config.hidden_size
-        # Requires transformers > 4.32.0
-        rope_theta = getattr(config, "rope_theta", 1000000)
-        rope_scaling = getattr(config, "rope_scaling", None)
         dual_chunk_attention_config = getattr(
             config, "dual_chunk_attention_config", None
         )
@@ -244,10 +237,8 @@ class OuroDecoderLayer(nn.Module):
             num_heads=config.num_attention_heads,
             max_position=config.max_position_embeddings,
             num_kv_heads=config.num_key_value_heads,
-            rope_theta=rope_theta,
             cache_config=cache_config,
             quant_config=quant_config,
-            rope_scaling=rope_scaling,
             prefix=f"{prefix}.self_attn",
             attn_type=attn_type,
             dual_chunk_attention_config=dual_chunk_attention_config,
diff --git a/vllm/model_executor/models/persimmon.py b/vllm/model_executor/models/persimmon.py
index 3bf6a1d9763d0..98963d52e4848 100644
--- a/vllm/model_executor/models/persimmon.py
+++ b/vllm/model_executor/models/persimmon.py
@@ -106,7 +106,6 @@ class PersimmonAttention(nn.Module):
         self.num_heads = self.total_num_heads // tensor_parallel_world_size
         self.head_dim = self.hidden_size // self.total_num_heads
         self.max_position_embeddings = config.max_position_embeddings
-        self.rope_theta = config.rope_theta
         self.partial_rotary_factor = config.partial_rotary_factor
         self.is_causal = True
 
@@ -138,7 +137,7 @@ class PersimmonAttention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=self.max_position_embeddings,
-            base=self.rope_theta,
+            rope_parameters=config.rope_parameters,
             partial_rotary_factor=self.partial_rotary_factor,
         )
         self.scaling = self.head_dim**-0.5
diff --git a/vllm/model_executor/models/phi.py b/vllm/model_executor/models/phi.py
index 8fee53c23fb4b..da476f621627b 100644
--- a/vllm/model_executor/models/phi.py
+++ b/vllm/model_executor/models/phi.py
@@ -115,16 +115,12 @@ class PhiAttention(nn.Module):
         )
         assert rotary_dim % 2 == 0
 
-        # pylint: disable=C0301
-        # Refer to:
-        # https://huggingface.co/microsoft/phi-1_5/blob/d212a789620c380ff32ca1d1ee9943a777360987/modeling_phi.py#L518
-        rope_theta = getattr(config, "rope_theta", 10000.0)
         max_position_embeddings = getattr(config, "max_position_embeddings", 2048)
         self.rotary_emb = get_rope(
             self.head_size,
             rotary_dim=rotary_dim,
             max_position=max_position_embeddings,
-            base=rope_theta,
+            rope_parameters=config.rope_parameters,
         )
         self.attn = Attention(
             self.num_heads,
diff --git a/vllm/model_executor/models/phimoe.py b/vllm/model_executor/models/phimoe.py
index 92fd858b608bc..8ffac95d93960 100644
--- a/vllm/model_executor/models/phimoe.py
+++ b/vllm/model_executor/models/phimoe.py
@@ -86,7 +86,7 @@ class PhiMoEConfig(PretrainedConfig):
         bos_token_id=1,
         eos_token_id=2,
         tie_word_embeddings=False,
-        rope_theta=1e6,
+        rope_parameters=None,
         sliding_window=None,
         attention_dropout=0.0,
         num_experts_per_tok=2,
@@ -119,7 +119,9 @@ class PhiMoEConfig(PretrainedConfig):
         self.initializer_range = initializer_range
         self.rms_norm_eps = rms_norm_eps
         self.use_cache = use_cache
-        self.rope_theta = rope_theta
+        if rope_parameters is None:
+            rope_theta = kwargs.pop("rope_theta", 1e6)
+            rope_parameters = {"rope_type": "default", "rope_theta": rope_theta}
         self.attention_dropout = attention_dropout
 
         self.num_experts_per_tok = num_experts_per_tok
@@ -302,12 +304,11 @@ class PhiMoEAttention(nn.Module):
         hidden_size: int,
         num_heads: int,
         num_kv_heads: int,
+        rope_parameters: dict,
         head_dim: int | None = None,
         max_position: int = 4096 * 32,
-        rope_theta: float = 10000,
         cache_config: CacheConfig | None = None,
         quant_config: QuantizationConfig | None = None,
-        rope_scaling: dict | None = None,
         prefix: str = "",
     ) -> None:
         super().__init__()
@@ -332,8 +333,6 @@ class PhiMoEAttention(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = self.head_dim**-0.5
-        self.rope_theta = rope_theta
-        self.rope_scaling = rope_scaling
 
         self.qkv_proj = QKVParallelLinear(
             hidden_size,
@@ -355,9 +354,8 @@ class PhiMoEAttention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=max_position,
-            base=int(self.rope_theta),
+            rope_parameters=rope_parameters,
             is_neox_style=True,
-            rope_scaling=self.rope_scaling,
         )
         self.attn = Attention(
             self.num_heads,
@@ -393,7 +391,6 @@ class PhiMoEDecoderLayer(nn.Module):
         super().__init__()
         self.hidden_size = config.hidden_size
         # Requires transformers > 4.32.0
-        rope_theta = getattr(config, "rope_theta", 10000)
         self.self_attn = PhiMoEAttention(
             hidden_size=self.hidden_size,
             num_heads=config.num_attention_heads,
@@ -402,10 +399,9 @@ class PhiMoEDecoderLayer(nn.Module):
             head_dim=getattr(
                 config, "head_dim", self.hidden_size // config.num_attention_heads
             ),
-            rope_theta=rope_theta,
             cache_config=cache_config,
             quant_config=quant_config,
-            rope_scaling=config.rope_scaling,
+            rope_parameters=config.rope_parameters,
             prefix=f"{prefix}.self_attn",
         )
         self.block_sparse_moe = PhiMoE(
diff --git a/vllm/model_executor/models/plamo2.py b/vllm/model_executor/models/plamo2.py
index 52c9755e0e0ea..22f9c87fc905b 100644
--- a/vllm/model_executor/models/plamo2.py
+++ b/vllm/model_executor/models/plamo2.py
@@ -567,10 +567,6 @@ class Plamo2AttentionMixer(nn.Module):
             prefix=f"{prefix}.o_proj",
         )
 
-        self.rope_theta = config.rope_theta if hasattr(config, "rope_theta") else 10000
-        self.rope_scaling = (
-            config.rope_scaling if hasattr(config, "rope_scaling") else None
-        )
         max_position = config.max_position_embeddings
         if hasattr(vllm_config.model_config, "max_model_len") and isinstance(
             vllm_config.model_config.max_model_len, int
@@ -581,8 +577,7 @@ class Plamo2AttentionMixer(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=max_position,
-            base=self.rope_theta,
-            rope_scaling=self.rope_scaling,
+            rope_parameters=config.rope_parameters,
         )
         self.q_norm = RMSNorm(config.hidden_size_per_head, eps=config.rms_norm_eps)
         self.q_norm.weight = torch.nn.Parameter(
diff --git a/vllm/model_executor/models/qwen.py b/vllm/model_executor/models/qwen.py
index 50a125c3f5973..c973e79170982 100644
--- a/vllm/model_executor/models/qwen.py
+++ b/vllm/model_executor/models/qwen.py
@@ -83,8 +83,7 @@ class QWenAttention(nn.Module):
         hidden_size: int,
         num_heads: int,
         max_position_embeddings: int,
-        rope_theta: float = 10000,
-        rope_scaling: dict[str, Any] | None = None,
+        rope_parameters: dict[str, Any] | None = None,
         cache_config: CacheConfig | None = None,
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
@@ -117,8 +116,7 @@ class QWenAttention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=max_position_embeddings,
-            base=rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=rope_parameters,
         )
         self.attn = Attention(
             self.num_heads,
@@ -153,14 +151,11 @@ class QWenBlock(nn.Module):
         super().__init__()
         self.ln_1 = RMSNorm(config.hidden_size, eps=config.layer_norm_epsilon)
 
-        rope_theta = getattr(config, "rope_theta", 10000)
-        rope_scaling = getattr(config, "rope_scaling", None)
         self.attn = QWenAttention(
             config.hidden_size,
             config.num_attention_heads,
             config.max_position_embeddings,
-            rope_theta=rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=config.rope_parameters,
             cache_config=cache_config,
             quant_config=quant_config,
             prefix=f"{prefix}.attn",
diff --git a/vllm/model_executor/models/qwen2.py b/vllm/model_executor/models/qwen2.py
index 1bbb969ce5aa3..32b6d6dd07b83 100644
--- a/vllm/model_executor/models/qwen2.py
+++ b/vllm/model_executor/models/qwen2.py
@@ -57,7 +57,7 @@ from vllm.model_executor.model_loader.weight_utils import (
     maybe_remap_kv_scale_name,
 )
 from vllm.sequence import IntermediateTensors
-from vllm.transformers_utils.config import is_interleaved
+from vllm.transformers_utils.config import is_interleaved, set_default_rope_theta
 
 from .interfaces import SupportsEagle3, SupportsLoRA, SupportsPP
 from .utils import (
@@ -114,11 +114,10 @@ class Qwen2Attention(nn.Module):
         hidden_size: int,
         num_heads: int,
         num_kv_heads: int,
+        rope_parameters: dict[str, Any],
         max_position: int = 4096 * 32,
-        rope_theta: float = 10000,
         cache_config: CacheConfig | None = None,
         quant_config: QuantizationConfig | None = None,
-        rope_scaling: tuple | None = None,
         prefix: str = "",
         attn_type: str = AttentionType.DECODER,
         dual_chunk_attention_config: dict[str, Any] | None = None,
@@ -143,7 +142,6 @@ class Qwen2Attention(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = self.head_dim**-0.5
-        self.rope_theta = rope_theta
         self.dual_chunk_attention_config = dual_chunk_attention_config
 
         self.qkv_proj = QKVParallelLinear(
@@ -167,8 +165,7 @@ class Qwen2Attention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=max_position,
-            base=self.rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=rope_parameters,
             dual_chunk_attention_config=dual_chunk_attention_config,
         )
         attn_cls = (
@@ -216,9 +213,7 @@ class Qwen2DecoderLayer(nn.Module):
     ) -> None:
         super().__init__()
         self.hidden_size = config.hidden_size
-        # Requires transformers > 4.32.0
-        rope_theta = getattr(config, "rope_theta", 1000000)
-        rope_scaling = getattr(config, "rope_scaling", None)
+        set_default_rope_theta(config, default_theta=1000000)
         dual_chunk_attention_config = getattr(
             config, "dual_chunk_attention_config", None
         )
@@ -237,10 +232,9 @@ class Qwen2DecoderLayer(nn.Module):
             num_heads=config.num_attention_heads,
             max_position=config.max_position_embeddings,
             num_kv_heads=config.num_key_value_heads,
-            rope_theta=rope_theta,
             cache_config=cache_config,
             quant_config=quant_config,
-            rope_scaling=rope_scaling,
+            rope_parameters=config.rope_parameters,
             prefix=f"{prefix}.self_attn",
             attn_type=attn_type,
             dual_chunk_attention_config=dual_chunk_attention_config,
diff --git a/vllm/model_executor/models/qwen2_5_vl.py b/vllm/model_executor/models/qwen2_5_vl.py
index 5b5d50ec8935a..8e3c0e84dfe51 100644
--- a/vllm/model_executor/models/qwen2_5_vl.py
+++ b/vllm/model_executor/models/qwen2_5_vl.py
@@ -641,7 +641,6 @@ class Qwen2_5_VisionTransformer(nn.Module):
             head_size=head_dim,
             rotary_dim=head_dim // 2,
             max_position=8192,
-            base=10000.0,
             is_neox_style=True,
         )
 
diff --git a/vllm/model_executor/models/qwen2_moe.py b/vllm/model_executor/models/qwen2_moe.py
index 2ff0d19df238c..6b97d0b2ca2e3 100644
--- a/vllm/model_executor/models/qwen2_moe.py
+++ b/vllm/model_executor/models/qwen2_moe.py
@@ -194,8 +194,7 @@ class Qwen2MoeAttention(nn.Module):
         hidden_size: int,
         num_heads: int,
         num_kv_heads: int,
-        rope_theta: float = 10000,
-        rope_scaling: dict[str, Any] | None = None,
+        rope_parameters: dict[str, Any] | None = None,
         max_position_embeddings: int = 8192,
         cache_config: CacheConfig | None = None,
         quant_config: QuantizationConfig | None = None,
@@ -222,7 +221,6 @@ class Qwen2MoeAttention(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = self.head_dim**-0.5
-        self.rope_theta = rope_theta
         self.max_position_embeddings = max_position_embeddings
         self.dual_chunk_attention_config = dual_chunk_attention_config
 
@@ -248,8 +246,7 @@ class Qwen2MoeAttention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=max_position_embeddings,
-            base=rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=rope_parameters,
             dual_chunk_attention_config=dual_chunk_attention_config,
         )
         self.attn = Attention(
@@ -291,8 +288,6 @@ class Qwen2MoeDecoderLayer(nn.Module):
     ) -> None:
         super().__init__()
         self.hidden_size = config.hidden_size
-        rope_theta = getattr(config, "rope_theta", 10000)
-        rope_scaling = getattr(config, "rope_scaling", None)
         dual_chunk_attention_config = getattr(
             config, "dual_chunk_attention_config", None
         )
@@ -301,8 +296,7 @@ class Qwen2MoeDecoderLayer(nn.Module):
             hidden_size=self.hidden_size,
             num_heads=config.num_attention_heads,
             num_kv_heads=config.num_key_value_heads,
-            rope_theta=rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=config.rope_parameters,
             max_position_embeddings=max_position_embeddings,
             cache_config=cache_config,
             quant_config=quant_config,
diff --git a/vllm/model_executor/models/qwen2_vl.py b/vllm/model_executor/models/qwen2_vl.py
index cda8eaf5377f1..d25ff2785bfef 100644
--- a/vllm/model_executor/models/qwen2_vl.py
+++ b/vllm/model_executor/models/qwen2_vl.py
@@ -643,7 +643,6 @@ class Qwen2VisionTransformer(nn.Module):
             head_size=head_dim,
             rotary_dim=head_dim // 2,
             max_position=8192,
-            base=10000.0,
             is_neox_style=True,
         )
 
diff --git a/vllm/model_executor/models/qwen3.py b/vllm/model_executor/models/qwen3.py
index 8d7f22a33fe6c..93a629d81e8ff 100644
--- a/vllm/model_executor/models/qwen3.py
+++ b/vllm/model_executor/models/qwen3.py
@@ -42,6 +42,7 @@ from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.layers.rotary_embedding import get_rope
 from vllm.model_executor.layers.vocab_parallel_embedding import ParallelLMHead
 from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.config import set_default_rope_theta
 
 from .interfaces import SupportsEagle3, SupportsLoRA, SupportsPP
 from .qwen2 import Qwen2MLP as Qwen3MLP
@@ -57,14 +58,13 @@ class Qwen3Attention(nn.Module):
         hidden_size: int,
         num_heads: int,
         num_kv_heads: int,
+        rope_parameters: dict,
         max_position: int = 4096 * 32,
         head_dim: int | None = None,
         rms_norm_eps: float = 1e-06,
         qkv_bias: bool = False,
-        rope_theta: float = 10000,
         cache_config: CacheConfig | None = None,
         quant_config: QuantizationConfig | None = None,
-        rope_scaling: tuple | None = None,
         prefix: str = "",
         attn_type: str = AttentionType.DECODER,
         dual_chunk_attention_config: dict[str, Any] | None = None,
@@ -89,7 +89,6 @@ class Qwen3Attention(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = self.head_dim**-0.5
-        self.rope_theta = rope_theta
         self.dual_chunk_attention_config = dual_chunk_attention_config
 
         self.qkv_proj = QKVParallelLinear(
@@ -113,8 +112,7 @@ class Qwen3Attention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=max_position,
-            base=self.rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=rope_parameters,
             dual_chunk_attention_config=dual_chunk_attention_config,
         )
         self.attn = Attention(
@@ -166,9 +164,7 @@ class Qwen3DecoderLayer(nn.Module):
     ) -> None:
         super().__init__()
         self.hidden_size = config.hidden_size
-        # Requires transformers > 4.32.0
-        rope_theta = getattr(config, "rope_theta", 1000000)
-        rope_scaling = getattr(config, "rope_scaling", None)
+        set_default_rope_theta(config, default_theta=1000000)
         dual_chunk_attention_config = getattr(
             config, "dual_chunk_attention_config", None
         )
@@ -187,13 +183,12 @@ class Qwen3DecoderLayer(nn.Module):
             num_heads=config.num_attention_heads,
             max_position=config.max_position_embeddings,
             num_kv_heads=config.num_key_value_heads,
-            rope_theta=rope_theta,
             rms_norm_eps=config.rms_norm_eps,
             qkv_bias=getattr(config, "attention_bias", False),
             head_dim=getattr(config, "head_dim", None),
             cache_config=cache_config,
             quant_config=quant_config,
-            rope_scaling=rope_scaling,
+            rope_parameters=config.rope_parameters,
             prefix=f"{prefix}.self_attn",
             attn_type=attn_type,
             dual_chunk_attention_config=dual_chunk_attention_config,
diff --git a/vllm/model_executor/models/qwen3_moe.py b/vllm/model_executor/models/qwen3_moe.py
index 96751fee800bb..8ee3dd99e11db 100644
--- a/vllm/model_executor/models/qwen3_moe.py
+++ b/vllm/model_executor/models/qwen3_moe.py
@@ -216,8 +216,7 @@ class Qwen3MoeAttention(nn.Module):
         hidden_size: int,
         num_heads: int,
         num_kv_heads: int,
-        rope_theta: float = 10000,
-        rope_scaling: dict[str, Any] | None = None,
+        rope_parameters: dict[str, Any],
         max_position_embeddings: int = 8192,
         head_dim: int | None = None,
         rms_norm_eps: float = 1e-06,
@@ -247,7 +246,6 @@ class Qwen3MoeAttention(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = self.head_dim**-0.5
-        self.rope_theta = rope_theta
         self.max_position_embeddings = max_position_embeddings
         self.dual_chunk_attention_config = dual_chunk_attention_config
 
@@ -273,8 +271,7 @@ class Qwen3MoeAttention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=max_position_embeddings,
-            base=rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=rope_parameters,
             dual_chunk_attention_config=dual_chunk_attention_config,
         )
         self.attn = Attention(
@@ -326,8 +323,6 @@ class Qwen3MoeDecoderLayer(nn.Module):
         quant_config = vllm_config.quant_config
 
         self.hidden_size = config.hidden_size
-        rope_theta = getattr(config, "rope_theta", 10000)
-        rope_scaling = getattr(config, "rope_scaling", None)
         max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
         dual_chunk_attention_config = getattr(
             config, "dual_chunk_attention_config", None
@@ -336,8 +331,7 @@ class Qwen3MoeDecoderLayer(nn.Module):
             hidden_size=self.hidden_size,
             num_heads=config.num_attention_heads,
             num_kv_heads=config.num_key_value_heads,
-            rope_theta=rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=config.rope_parameters,
             max_position_embeddings=max_position_embeddings,
             rms_norm_eps=config.rms_norm_eps,
             qkv_bias=getattr(config, "attention_bias", False),
diff --git a/vllm/model_executor/models/qwen3_next.py b/vllm/model_executor/models/qwen3_next.py
index ad631f61e4b93..bfed64728305e 100644
--- a/vllm/model_executor/models/qwen3_next.py
+++ b/vllm/model_executor/models/qwen3_next.py
@@ -748,8 +748,7 @@ class Qwen3NextAttention(nn.Module):
             head_size=self.head_dim,
             rotary_dim=self.head_dim,
             max_position=config.max_position_embeddings,
-            base=config.rope_theta,
-            rope_scaling=config.rope_scaling,
+            rope_parameters=config.rope_parameters,
             partial_rotary_factor=config.partial_rotary_factor,
             dual_chunk_attention_config=self.dual_chunk_attention_config,
         )
diff --git a/vllm/model_executor/models/qwen3_omni_moe_thinker.py b/vllm/model_executor/models/qwen3_omni_moe_thinker.py
index d2fd74a5e41ad..54ef56f83344e 100755
--- a/vllm/model_executor/models/qwen3_omni_moe_thinker.py
+++ b/vllm/model_executor/models/qwen3_omni_moe_thinker.py
@@ -338,7 +338,6 @@ class Qwen3Omni_VisionTransformer(nn.Module):
             head_size=head_dim,
             rotary_dim=head_dim // 2,
             max_position=8192,
-            base=10000.0,
             is_neox_style=True,
         )
 
diff --git a/vllm/model_executor/models/qwen3_vl.py b/vllm/model_executor/models/qwen3_vl.py
index 0c546309400b7..c10aeaec5ab83 100644
--- a/vllm/model_executor/models/qwen3_vl.py
+++ b/vllm/model_executor/models/qwen3_vl.py
@@ -345,7 +345,6 @@ class Qwen3_VisionTransformer(nn.Module):
             head_size=head_dim,
             rotary_dim=head_dim // 2,
             max_position=8192,
-            base=10000.0,
             is_neox_style=True,
         )
 
diff --git a/vllm/model_executor/models/seed_oss.py b/vllm/model_executor/models/seed_oss.py
index bf211d28f1844..4744d8e44f390 100644
--- a/vllm/model_executor/models/seed_oss.py
+++ b/vllm/model_executor/models/seed_oss.py
@@ -54,6 +54,7 @@ from vllm.model_executor.model_loader.weight_utils import (
     maybe_remap_kv_scale_name,
 )
 from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.config import set_default_rope_theta
 
 from .interfaces import SupportsLoRA, SupportsPP
 from .utils import (
@@ -112,11 +113,10 @@ class SeedOssAttention(nn.Module):
         num_heads: int,
         num_kv_heads: int,
         head_dim: int,
+        rope_parameters: dict,
         max_position: int = 4096 * 32,
-        rope_theta: float = 10000,
         cache_config: CacheConfig | None = None,
         quant_config: QuantizationConfig | None = None,
-        rope_scaling: tuple | None = None,
         prefix: str = "",
         attn_type: str = AttentionType.DECODER,
     ) -> None:
@@ -140,7 +140,6 @@ class SeedOssAttention(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = self.head_dim**-0.5
-        self.rope_theta = rope_theta
 
         self.qkv_proj = QKVParallelLinear(
             hidden_size,
@@ -163,8 +162,7 @@ class SeedOssAttention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=max_position,
-            base=self.rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=rope_parameters,
         )
         self.attn = Attention(
             self.num_heads,
@@ -200,9 +198,7 @@ class SeedOssDecoderLayer(nn.Module):
     ) -> None:
         super().__init__()
         self.hidden_size = config.hidden_size
-        # Requires transformers > 4.32.0
-        rope_theta = getattr(config, "rope_theta", 1000000)
-        rope_scaling = getattr(config, "rope_scaling", None)
+        set_default_rope_theta(config, default_theta=1000000)
 
         # By default, SeedOss uses causal attention as it is a
         # decoder-only model.
@@ -219,10 +215,9 @@ class SeedOssDecoderLayer(nn.Module):
             max_position=config.max_position_embeddings,
             num_kv_heads=config.num_key_value_heads,
             head_dim=config.head_dim,
-            rope_theta=rope_theta,
             cache_config=cache_config,
             quant_config=quant_config,
-            rope_scaling=rope_scaling,
+            rope_parameters=config.rope_parameters,
             prefix=f"{prefix}.self_attn",
             attn_type=attn_type,
         )
diff --git a/vllm/model_executor/models/solar.py b/vllm/model_executor/models/solar.py
index 4ec855f794446..7e9fc51036d2e 100644
--- a/vllm/model_executor/models/solar.py
+++ b/vllm/model_executor/models/solar.py
@@ -25,7 +25,6 @@
 """Inference-only Solar model compatible with HuggingFace weights."""
 
 from collections.abc import Iterable
-from typing import Any
 
 import torch
 from torch import nn
@@ -111,8 +110,6 @@ class SolarAttention(nn.Module):
         hidden_size: int,
         num_heads: int,
         num_kv_heads: int,
-        rope_theta: float = 10000,
-        rope_scaling: dict[str, Any] | None = None,
         max_position_embeddings: int = 8192,
         quant_config: QuantizationConfig | None = None,
         bias: bool = False,
@@ -142,7 +139,6 @@ class SolarAttention(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = self.head_dim**-0.5
-        self.rope_theta = rope_theta
         self.max_position_embeddings = max_position_embeddings
 
         self.qkv_proj = QKVParallelLinear(
@@ -166,8 +162,7 @@ class SolarAttention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=max_position_embeddings,
-            base=rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=config.rope_parameters,
         )
         self.attn = Attention(
             self.num_heads,
@@ -202,15 +197,6 @@ class SolarDecoderLayer(nn.Module):
     ) -> None:
         super().__init__()
         self.hidden_size = config.hidden_size
-        rope_theta = getattr(config, "rope_theta", 10000)
-        rope_scaling = getattr(config, "rope_scaling", None)
-
-        if rope_scaling is not None and getattr(
-            config, "original_max_position_embeddings", None
-        ):
-            rope_scaling["original_max_position_embeddings"] = (
-                config.original_max_position_embeddings
-            )
         max_position_embeddings = getattr(config, "max_position_embeddings", 8192)
         # Support abacusai/Smaug-72B-v0.1 with attention_bias
         # Support internlm/internlm-7b with bias
@@ -224,8 +210,6 @@ class SolarDecoderLayer(nn.Module):
             num_kv_heads=getattr(
                 config, "num_key_value_heads", config.num_attention_heads
             ),
-            rope_theta=rope_theta,
-            rope_scaling=rope_scaling,
             max_position_embeddings=max_position_embeddings,
             quant_config=quant_config,
             bias=attention_bias,
diff --git a/vllm/model_executor/models/stablelm.py b/vllm/model_executor/models/stablelm.py
index 06eb7201c1a89..a738fcbb4ee28 100644
--- a/vllm/model_executor/models/stablelm.py
+++ b/vllm/model_executor/models/stablelm.py
@@ -153,7 +153,7 @@ class StablelmAttention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=self.config.max_position_embeddings,
-            base=self.config.rope_theta,
+            rope_parameters=self.config.rope_parameters,
             partial_rotary_factor=self.partial_rotary_factor,
         )
         self.attn = Attention(
diff --git a/vllm/model_executor/models/starcoder2.py b/vllm/model_executor/models/starcoder2.py
index 0f2942acd5006..1118fca3cac91 100644
--- a/vllm/model_executor/models/starcoder2.py
+++ b/vllm/model_executor/models/starcoder2.py
@@ -91,7 +91,6 @@ class Starcoder2Attention(nn.Module):
         self.q_size = self.num_heads * self.head_dim
         self.kv_size = self.num_kv_heads * self.head_dim
         self.scaling = self.head_dim**-0.5
-        self.rope_theta = config.rope_theta
         self.max_position_embeddings = config.max_position_embeddings
         self.use_bias = config.use_bias
 
@@ -115,7 +114,7 @@ class Starcoder2Attention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=self.max_position_embeddings,
-            base=int(self.rope_theta),
+            rope_parameters=config.rope_parameters,
             is_neox_style=True,
         )
         self.attn = Attention(
diff --git a/vllm/model_executor/models/step3_text.py b/vllm/model_executor/models/step3_text.py
index 4fff356b29e28..3c377a2c539df 100644
--- a/vllm/model_executor/models/step3_text.py
+++ b/vllm/model_executor/models/step3_text.py
@@ -36,6 +36,7 @@ from vllm.model_executor.layers.vocab_parallel_embedding import (
 )
 from vllm.model_executor.model_loader.weight_utils import default_weight_loader
 from vllm.sequence import IntermediateTensors
+from vllm.transformers_utils.configs.step3_vl import Step3TextConfig
 
 from .interfaces import SupportsPP
 from .utils import (
@@ -144,9 +145,8 @@ class Step3TextAttention(nn.Module):
         num_heads: int,
         num_kv_heads: int,
         norm_eps: float,
-        rope_theta: int,
+        rope_parameters: dict[str, Any],
         share_q_dim: int | None = None,
-        rope_scaling: dict[str, Any] | None = None,
         max_position_embedding: int = 8192,
         head_dim: int = 256,
         cache_config: CacheConfig | None = None,
@@ -198,8 +198,7 @@ class Step3TextAttention(nn.Module):
             self.head_dim,
             rotary_dim=self.head_dim,
             max_position=max_position_embedding,
-            base=rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=rope_parameters,
         )
         scaling = self.head_dim**-0.5
         self.attn = Attention(
@@ -227,15 +226,13 @@ class Step3TextAttention(nn.Module):
 class Step3TextDecoderLayer(nn.Module):
     def __init__(
         self,
-        config: ModelConfig,
+        config: Step3TextConfig,
         cache_config: CacheConfig | None = None,
         quant_config: QuantizationConfig | None = None,
         prefix: str = "",
     ) -> None:
         super().__init__()
-        config = config.hf_config
         self.hidden_size = config.hidden_size
-        rope_scaling = getattr(config, "rope_scaling", None)
 
         self.self_attn = Step3TextAttention(
             hidden_size=self.hidden_size,
@@ -247,8 +244,7 @@ class Step3TextDecoderLayer(nn.Module):
             max_position_embedding=config.max_position_embedding,
             head_dim=config.head_dim,
             share_q_dim=config.share_q_dim,
-            rope_theta=config.rope_theta,
-            rope_scaling=rope_scaling,
+            rope_parameters=config.rope_parameters,
             prefix=f"{prefix}.self_attn",
         )
 
@@ -338,7 +334,7 @@ class Step3TextModel(nn.Module):
         self.start_layer, self.end_layer, self.layers = make_layers(
             config.num_hidden_layers,
             lambda prefix: Step3TextDecoderLayer(
-                config=vllm_config.model_config,
+                config=config,
                 cache_config=cache_config,
                 quant_config=quant_config,
                 prefix=prefix,
diff --git a/vllm/model_executor/models/transformers/utils.py b/vllm/model_executor/models/transformers/utils.py
index 517eb54d53ac6..b807f45b5d52b 100644
--- a/vllm/model_executor/models/transformers/utils.py
+++ b/vllm/model_executor/models/transformers/utils.py
@@ -22,6 +22,7 @@ from typing import TYPE_CHECKING, Literal
 
 import torch
 from torch import nn
+from transformers.configuration_utils import ALLOWED_LAYER_TYPES
 
 from vllm.config.utils import getattr_iter
 from vllm.logger import init_logger
@@ -203,5 +204,10 @@ def can_enable_torch_compile(vllm_config: "VllmConfig") -> bool:
     """
     text_config = vllm_config.model_config.hf_config.get_text_config()
     # Dynamic rope scaling is not compatible with torch.compile
-    rope_scaling: dict = getattr(text_config, "rope_scaling", None) or {}
-    return rope_scaling.get("rope_type") != "dynamic"
+    rope_parameters: dict | None = getattr(text_config, "rope_parameters", None) or {}
+    if rope_parameters:
+        # Nest rope_parameters if not nested already to simplify logic
+        if not set(rope_parameters.keys()).issubset(ALLOWED_LAYER_TYPES):
+            rope_parameters = {"": rope_parameters}
+        return all(rp["rope_type"] != "dynamic" for rp in rope_parameters.values())
+    return True
diff --git a/vllm/model_executor/models/zamba2.py b/vllm/model_executor/models/zamba2.py
index 729a9655d0879..653b5b9beef7b 100644
--- a/vllm/model_executor/models/zamba2.py
+++ b/vllm/model_executor/models/zamba2.py
@@ -128,7 +128,6 @@ class Zamba2Attention(nn.Module):
         tp_size = get_tensor_model_parallel_world_size()
         self.config = config
         self.num_hybrid_layers = num_hybrid_layers
-        self.rope_theta = config.rope_theta
 
         self.attention_hidden_size = config.attention_hidden_size
         self.total_num_attention_heads = config.num_attention_heads
@@ -233,8 +232,7 @@ class Zamba2Attention(nn.Module):
                 head_size=self.attention_head_dim,
                 rotary_dim=self.attention_head_dim,
                 max_position=config.max_position_embeddings,
-                base=self.rope_theta,
-                rope_scaling=None,
+                rope_parameters=config.rope_parameters,
                 is_neox_style=True,
             )
 
diff --git a/vllm/transformers_utils/config.py b/vllm/transformers_utils/config.py
index ac4a71648cec8..4ca155af03dca 100644
--- a/vllm/transformers_utils/config.py
+++ b/vllm/transformers_utils/config.py
@@ -7,8 +7,9 @@ import time
 from collections.abc import Callable
 from dataclasses import asdict
 from functools import cache, partial
+from importlib.metadata import version
 from pathlib import Path
-from typing import Any, Literal, TypeVar
+from typing import Any, Literal, TypeAlias, TypeVar
 
 import huggingface_hub
 from huggingface_hub import (
@@ -24,7 +25,9 @@ from huggingface_hub.utils import (
     RepositoryNotFoundError,
     RevisionNotFoundError,
 )
+from packaging.version import Version
 from transformers import DeepseekV3Config, GenerationConfig, PretrainedConfig
+from transformers.configuration_utils import ALLOWED_LAYER_TYPES
 from transformers.models.auto.image_processing_auto import get_image_processor_config
 from transformers.models.auto.modeling_auto import (
     MODEL_FOR_CAUSAL_LM_MAPPING_NAMES,
@@ -390,21 +393,61 @@ def file_or_path_exists(
     )
 
 
-def patch_rope_scaling(config: PretrainedConfig) -> None:
+def set_default_rope_theta(config: PretrainedConfig, default_theta: float) -> None:
+    """Some models may have no rope_theta in their config but still use RoPE.
+    This function sets a default rope_theta if it's missing."""
+    if getattr(config, "rope_parameters", None) is None:
+        config.rope_parameters = {"rope_type": "default"}
+    if "rope_theta" not in config.rope_parameters:
+        config.rope_parameters["rope_theta"] = default_theta
+
+
+def patch_rope_parameters(config: PretrainedConfig) -> None:
     """Provide backwards compatibility for RoPE."""
-    text_config = getattr(config, "text_config", None)
-    if text_config is not None:
-        patch_rope_scaling(text_config)
+    # Retrieve rope_parameters differently based on Transformers version
+    if Version(version("transformers")) >= Version("5.0.0.dev0"):
+        from transformers.modeling_rope_utils import RopeParameters
 
-    rope_scaling = getattr(config, "rope_scaling", None)
-    if rope_scaling is not None:
-        patch_rope_scaling_dict(rope_scaling)
+        rope_parameters: RopeParameters | dict[str, RopeParameters] | None = getattr(
+            config, "rope_parameters", None
+        )
+    elif hasattr(config, "rope_parameters"):
+        # We are in Transformers v4 and rope_parameters
+        # has already been patched for this config
+        return
+    else:
+        # Convert Transformers v4 rope_theta and rope_scaling into rope_parameters
+        rope_theta: float | None = getattr(config, "rope_theta", None)
+        rope_scaling: dict | None = getattr(config, "rope_scaling", None)
+        rope_parameters = rope_scaling
+        # Move rope_theta into rope_parameters
+        if rope_theta is not None:
+            rope_parameters = rope_parameters or {"rope_type": "default"}
+            rope_parameters["rope_theta"] = rope_theta
+        # Add original_max_position_embeddings if present
+        if rope_parameters and (
+            ompe := getattr(config, "original_max_position_embeddings", None)
+        ):
+            rope_parameters["original_max_position_embeddings"] = ompe
+        # Write back to config
+        config.rope_parameters = rope_parameters
+
+    # No RoPE parameters to patch
+    if rope_parameters is None:
+        return
+
+    # Handle nested rope_parameters in interleaved sliding attention models
+    if set(rope_parameters.keys()).issubset(ALLOWED_LAYER_TYPES):
+        for rope_parameters_layer_type in rope_parameters.values():
+            patch_rope_parameters_dict(rope_parameters_layer_type)
+    else:
+        patch_rope_parameters_dict(rope_parameters)
 
 
-def patch_rope_scaling_dict(rope_scaling: dict[str, Any]) -> None:
-    if "rope_type" in rope_scaling and "type" in rope_scaling:
-        rope_type = rope_scaling["rope_type"]
-        rope_type_legacy = rope_scaling["type"]
+def patch_rope_parameters_dict(rope_parameters: dict[str, Any]) -> None:
+    if "rope_type" in rope_parameters and "type" in rope_parameters:
+        rope_type = rope_parameters["rope_type"]
+        rope_type_legacy = rope_parameters["type"]
         if rope_type != rope_type_legacy:
             raise ValueError(
                 f"Found conflicts between 'rope_type={rope_type}' (modern "
@@ -412,28 +455,28 @@ def patch_rope_scaling_dict(rope_scaling: dict[str, Any]) -> None:
                 "You should only specify one of them."
             )
 
-    if "rope_type" not in rope_scaling and "type" in rope_scaling:
-        rope_scaling["rope_type"] = rope_scaling["type"]
+    if "rope_type" not in rope_parameters and "type" in rope_parameters:
+        rope_parameters["rope_type"] = rope_parameters["type"]
         logger.info("Replacing legacy 'type' key with 'rope_type'")
 
-    if "rope_type" not in rope_scaling:
-        raise ValueError("rope_scaling should have a 'rope_type' key")
+    if "rope_type" not in rope_parameters:
+        raise ValueError("rope_parameters should have a 'rope_type' key")
 
-    if rope_scaling["rope_type"] == "su":
-        rope_scaling["rope_type"] = "longrope"
+    if rope_parameters["rope_type"] == "su":
+        rope_parameters["rope_type"] = "longrope"
         logger.warning("Replacing legacy rope_type 'su' with 'longrope'")
-    elif rope_scaling["rope_type"] == "mrope":
-        assert "mrope_section" in rope_scaling
-        rope_scaling["rope_type"] = "default"
+    elif rope_parameters["rope_type"] == "mrope":
+        assert "mrope_section" in rope_parameters
+        rope_parameters["rope_type"] = "default"
         logger.warning("Replacing legacy rope_type 'mrope' with 'default'")
 
 
 def _uses_mrope(config: PretrainedConfig) -> bool:
-    rope_scaling = getattr(config, "rope_scaling", None)
-    if rope_scaling is None:
+    rope_parameters = getattr(config, "rope_parameters", None)
+    if rope_parameters is None:
         return False
 
-    return "mrope_section" in rope_scaling
+    return "mrope_section" in rope_parameters
 
 
 def uses_mrope(config: PretrainedConfig) -> bool:
@@ -690,7 +733,14 @@ def get_config(
         logger.debug("Overriding HF config with %s", hf_overrides_fn)
         config = hf_overrides_fn(config)
 
-    patch_rope_scaling(config)
+    # Exhaustively patch RoPE parameters everywhere they might be
+    patch_rope_parameters(config)
+    patch_rope_parameters(config.get_text_config())
+    SubConfigs: TypeAlias = dict[str, PretrainedConfig]
+    sub_configs: SubConfigs | None = getattr(config, "sub_configs", None)
+    if sub_configs:
+        for sub_config in sub_configs:
+            patch_rope_parameters(getattr(config, sub_config))
 
     if trust_remote_code:
         maybe_register_config_serialize_by_value()
diff --git a/vllm/transformers_utils/configs/afmoe.py b/vllm/transformers_utils/configs/afmoe.py
index 9b634fd037a33..47fee9882f9fc 100644
--- a/vllm/transformers_utils/configs/afmoe.py
+++ b/vllm/transformers_utils/configs/afmoe.py
@@ -24,7 +24,7 @@ class AfmoeConfig(PretrainedConfig):
         rms_norm_eps: float = 1e-5,
         use_cache: bool = True,
         tie_word_embeddings: bool = False,
-        rope_theta: float = 10000.0,
+        rope_parameters: dict | None = None,
         rope_scaling: dict | None = None,
         num_experts: int = 64,
         num_experts_per_tok: int = 6,
@@ -56,7 +56,10 @@ class AfmoeConfig(PretrainedConfig):
         self.initializer_range = initializer_range
         self.rms_norm_eps = rms_norm_eps
         self.use_cache = use_cache
-        self.rope_theta = rope_theta
+        rope_theta = kwargs.pop("rope_theta", 10000.0)
+        if rope_parameters is None:
+            rope_parameters = {"rope_type": "default", "rope_theta": rope_theta}
+        self.rope_parameters = rope_parameters
         self.rope_scaling = rope_scaling
 
         self.moe_intermediate_size = moe_intermediate_size
diff --git a/vllm/transformers_utils/configs/arctic.py b/vllm/transformers_utils/configs/arctic.py
index 1707e15285c89..ba4b1a8f701f0 100644
--- a/vllm/transformers_utils/configs/arctic.py
+++ b/vllm/transformers_utils/configs/arctic.py
@@ -85,8 +85,15 @@ class ArcticConfig(PretrainedConfig):
             The id of the "end-of-sequence" token.
         tie_word_embeddings (`bool`, *optional*, defaults to `False`):
             Whether the model's input and output word embeddings should be tied.
-        rope_theta (`float`, *optional*, defaults to 1000000.0):
-            The base period of the RoPE embeddings.
+        rope_parameters (`dict`, *optional*):
+            Dictionary containing the scaling configuration for the RoPE embeddings. NOTE: if you apply new rope type
+            and you expect the model to work on longer `max_position_embeddings`, we recommend you to update this value
+            accordingly.
+            Expected contents:
+                `rope_theta` (`float`): The base period of the RoPE embeddings.
+                `rope_type` (`str`):
+                    The sub-variant of RoPE to use. Can be one of ['default', 'linear', 'dynamic', 'yarn', 'longrope',
+                    'llama3'], with 'default' being the original RoPE implementation.
         sliding_window (`int`, *optional*):
             Sliding window attention window size. If not specified, will default to `4096`.
         attention_dropout (`float`, *optional*, defaults to 0.0):
@@ -132,7 +139,7 @@ class ArcticConfig(PretrainedConfig):
         bos_token_id=1,
         eos_token_id=2,
         tie_word_embeddings=False,
-        rope_theta=1e6,
+        rope_parameters: dict[str, Any] | None = None,
         sliding_window=None,
         attention_dropout=0.0,
         num_experts_per_tok=1,
@@ -165,7 +172,10 @@ class ArcticConfig(PretrainedConfig):
         self.initializer_range = initializer_range
         self.rms_norm_eps = rms_norm_eps
         self.use_cache = use_cache
-        self.rope_theta = rope_theta
+        rope_theta = kwargs.pop("rope_theta", 1e6)
+        if rope_parameters is None:
+            rope_parameters = {"rope_type": "default", "rope_theta": rope_theta}
+        self.rope_parameters = rope_parameters
         self.attention_dropout = attention_dropout
 
         self.num_experts_per_tok = num_experts_per_tok
diff --git a/vllm/transformers_utils/configs/flex_olmo.py b/vllm/transformers_utils/configs/flex_olmo.py
index 1f2f4d446288b..c343dc0999a87 100644
--- a/vllm/transformers_utils/configs/flex_olmo.py
+++ b/vllm/transformers_utils/configs/flex_olmo.py
@@ -1,5 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from typing import Any
 
 from transformers.configuration_utils import PretrainedConfig
 
@@ -25,8 +26,7 @@ class FlexOlmoConfig(PretrainedConfig):
         bos_token_id=None,
         eos_token_id=100257,
         tie_word_embeddings=False,
-        rope_theta=500000.0,
-        rope_scaling=None,
+        rope_parameters: dict[str, Any] | None = None,
         attention_bias=False,
         attention_dropout=0.0,
         num_experts_per_tok=5,
@@ -62,8 +62,13 @@ class FlexOlmoConfig(PretrainedConfig):
         self.initializer_range = initializer_range
         self.rms_norm_eps = rms_norm_eps
         self.use_cache = use_cache
-        self.rope_theta = rope_theta
-        self.rope_scaling = rope_scaling
+        # Try to set `rope_scaling` if available, otherwise use `rope_parameters`
+        rope_scaling = kwargs.pop("rope_scaling", None)
+        rope_parameters = rope_scaling or rope_parameters or {"rope_type": "default"}
+        rope_theta = kwargs.pop("rope_theta", 500000.0)
+        if "rope_theta" not in rope_parameters:
+            rope_parameters["rope_theta"] = rope_theta
+        self.rope_parameters = rope_parameters
         self.attention_bias = attention_bias
         self.attention_dropout = attention_dropout
         self.num_experts_per_tok = num_experts_per_tok
@@ -73,5 +78,5 @@ class FlexOlmoConfig(PretrainedConfig):
         self.norm_topk_prob = norm_topk_prob
         # Validate the correctness of rotary position embeddings parameters
         # BC: if there is a 'type' field, move it to 'rope_type'.
-        if self.rope_scaling is not None and "type" in self.rope_scaling:
-            self.rope_scaling["rope_type"] = self.rope_scaling["type"]
+        if self.rope_parameters is not None and "type" in self.rope_parameters:
+            self.rope_parameters["rope_type"] = self.rope_parameters["type"]
diff --git a/vllm/transformers_utils/configs/kimi_linear.py b/vllm/transformers_utils/configs/kimi_linear.py
index 65ddf48c5249b..14894816801d1 100644
--- a/vllm/transformers_utils/configs/kimi_linear.py
+++ b/vllm/transformers_utils/configs/kimi_linear.py
@@ -29,8 +29,7 @@ class KimiLinearConfig(PretrainedConfig):
         pad_token_id=0,
         bos_token_id=1,
         eos_token_id=2,
-        rope_theta=10000.0,
-        rope_scaling=None,
+        rope_parameters=None,
         tie_word_embeddings=False,
         moe_intermediate_size: int | None = None,
         moe_renormalize: bool = True,
@@ -73,8 +72,13 @@ class KimiLinearConfig(PretrainedConfig):
         self.initializer_range = initializer_range
         self.rms_norm_eps = rms_norm_eps
         self.use_cache = use_cache
-        self.rope_theta = rope_theta
-        self.rope_scaling = rope_scaling
+        # Try to set `rope_scaling` if available, otherwise use `rope_parameters`
+        rope_scaling = kwargs.pop("rope_scaling", None)
+        rope_parameters = rope_scaling or rope_parameters or {"rope_type": "default"}
+        rope_theta = kwargs.pop("rope_theta", 10000.0)
+        if "rope_theta" not in rope_parameters:
+            rope_parameters["rope_theta"] = rope_theta
+        self.rope_parameters = rope_parameters
 
         self.q_lora_rank = q_lora_rank
         self.kv_lora_rank = kv_lora_rank
diff --git a/vllm/transformers_utils/configs/lfm2_moe.py b/vllm/transformers_utils/configs/lfm2_moe.py
index 37c038e12db80..b399a03c030f0 100644
--- a/vllm/transformers_utils/configs/lfm2_moe.py
+++ b/vllm/transformers_utils/configs/lfm2_moe.py
@@ -1,5 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from typing import Any
 
 from transformers.configuration_utils import PretrainedConfig
 
@@ -35,8 +36,8 @@ class Lfm2MoeConfig(PretrainedConfig):
             End of stream token id.
         tie_word_embeddings (`bool`, *optional*, defaults to `True`):
             Whether to tie weight embeddings
-        rope_theta (`float`, *optional*, defaults to 1000000.0):
-            The base period of the RoPE embeddings.
+        rope_parameters (`dict`, *optional*):
+            The parameters of the RoPE embeddings.
         max_position_embeddings (`int`, *optional*, defaults to 128000):
             The maximum sequence length that this model might ever be used with.
         use_cache (`bool`, *optional*, defaults to `True`):
@@ -100,7 +101,7 @@ class Lfm2MoeConfig(PretrainedConfig):
         bos_token_id: int = 1,
         eos_token_id: int = 2,
         tie_word_embeddings: bool = True,
-        rope_theta: float = 1000000.0,
+        rope_parameters: dict[str, Any] | None = None,
         max_position_embeddings: int = 128_000,
         use_cache: bool = True,
         norm_eps: float = 0.00001,
@@ -121,7 +122,10 @@ class Lfm2MoeConfig(PretrainedConfig):
         self.hidden_size = hidden_size
         self.intermediate_size = intermediate_size
         self.num_hidden_layers = num_hidden_layers
-        self.rope_theta = rope_theta
+        rope_theta = kwargs.pop("rope_theta", 1000000.0)
+        if rope_parameters is None:
+            rope_parameters = {"rope_type": "default", "rope_theta": rope_theta}
+        self.rope_parameters = rope_parameters
         self.max_position_embeddings = max_position_embeddings
         self.use_cache = use_cache
         self.norm_eps = norm_eps
diff --git a/vllm/transformers_utils/configs/midashenglm.py b/vllm/transformers_utils/configs/midashenglm.py
index e49bd26b2b00c..f1bbd057103e4 100644
--- a/vllm/transformers_utils/configs/midashenglm.py
+++ b/vllm/transformers_utils/configs/midashenglm.py
@@ -98,6 +98,6 @@ class MiDashengLMConfig(PretrainedConfig):
             if text_config
             else Qwen2_5OmniTextConfig()
         )
-        self.text_config.rope_scaling = None  # uses_mrope is false
+        self.text_config.rope_parameters = None  # uses_mrope is false
         self.audio_token_id = audio_token_id
         super().__init__(**kwargs)
diff --git a/vllm/transformers_utils/configs/mistral.py b/vllm/transformers_utils/configs/mistral.py
index c6f04febe37e1..8f72f0b28b0de 100644
--- a/vllm/transformers_utils/configs/mistral.py
+++ b/vllm/transformers_utils/configs/mistral.py
@@ -86,13 +86,13 @@ def _remap_mistral_yarn_args(config: dict) -> dict:
         "apply_scale": "apply_yarn_scaling",
     }
     yarn_config = config.get("yarn") or {}
-    config["rope_scaling"] = {
+    config["rope_parameters"] = {
         "rope_type": "yarn",
         "mscale_all_dim": 1,
     }
     for old_name, new_name in yarn_config_map.items():
         if old_name in yarn_config:
-            config["rope_scaling"][new_name] = yarn_config.pop(old_name)
+            config["rope_parameters"][new_name] = yarn_config.pop(old_name)
 
     assert len(yarn_config) == 0, f"Unparsed yarn config: {yarn_config}"
 
diff --git a/vllm/transformers_utils/configs/nemotron.py b/vllm/transformers_utils/configs/nemotron.py
index 60eed549561fb..d112c71d7d20b 100644
--- a/vllm/transformers_utils/configs/nemotron.py
+++ b/vllm/transformers_utils/configs/nemotron.py
@@ -88,8 +88,8 @@ class NemotronConfig(PretrainedConfig):
             End of stream token id.
         tie_word_embeddings (`bool`, *optional*, defaults to `False`):
             Whether to tie weight embeddings
-        rope_theta (`float`, *optional*, defaults to 10000.0):
-            The base period of the RoPE embeddings.
+        rope_parameters (`dict`, *optional*):
+            The parameters of the RoPE embeddings.
         partial_rotary_factor (`float`, *optional*, defaults to 0.5):
             Percentage of the query and keys which will have rotary embedding.
         attention_bias (`bool`, *optional*, defaults to `False`):
@@ -132,8 +132,7 @@ class NemotronConfig(PretrainedConfig):
         bos_token_id=2,
         eos_token_id=3,
         tie_word_embeddings=False,
-        rope_theta=10000.0,
-        rope_scaling=None,
+        rope_parameters=None,
         partial_rotary_factor=0.5,
         attention_bias=False,
         attention_dropout=0.0,
@@ -160,8 +159,13 @@ class NemotronConfig(PretrainedConfig):
         self.initializer_range = initializer_range
         self.norm_eps = norm_eps
         self.use_cache = use_cache
-        self.rope_theta = rope_theta
-        self.rope_scaling = rope_scaling
+        # Try to set `rope_scaling` if available, otherwise use `rope_parameters`
+        rope_scaling = kwargs.pop("rope_scaling", None)
+        rope_parameters = rope_scaling or rope_parameters or {"rope_type": "default"}
+        rope_theta = kwargs.pop("rope_theta", 10000.0)
+        if "rope_theta" not in rope_parameters:
+            rope_parameters["rope_theta"] = rope_theta
+        self.rope_parameters = rope_parameters
         # for backward compatibility
         partial_rotary_factor = (
             kwargs.get("rope_percent")
@@ -169,7 +173,7 @@ class NemotronConfig(PretrainedConfig):
             or partial_rotary_factor
         )
         self.partial_rotary_factor = partial_rotary_factor
-        self._rope_scaling_validation()
+        self._rope_parameters_validation()
         self.attention_bias = attention_bias
         self.attention_dropout = attention_dropout
         self.mlp_bias = mlp_bias
@@ -182,31 +186,29 @@ class NemotronConfig(PretrainedConfig):
             **kwargs,
         )
 
-    def _rope_scaling_validation(self):
+    def _rope_parameters_validation(self):
         """
-        Validate the `rope_scaling` configuration.
+        Validate the `rope_parameters` configuration.
         """
-        if self.rope_scaling is None:
+        if self.rope_parameters is None:
             return
 
-        if not isinstance(self.rope_scaling, dict) or len(self.rope_scaling) != 2:
+        rope_type: str | None = self.rope_parameters.get("rope_type", None)
+        factor: float | None = self.rope_parameters.get("factor", None)
+
+        if rope_type not in {"default", "linear", "dynamic"}:
             raise ValueError(
-                "`rope_scaling` must be a dictionary with two fields, "
-                f"`type` and `factor`, got {self.rope_scaling}"
-            )
-        rope_scaling_type = self.rope_scaling.get("type", None)
-        rope_scaling_factor = self.rope_scaling.get("factor", None)
-        if rope_scaling_type is None or rope_scaling_type not in ["linear", "dynamic"]:
-            raise ValueError(
-                "`rope_scaling`'s type field must be one of ['linear', "
-                f"'dynamic'], got {rope_scaling_type}"
-            )
-        if (
-            rope_scaling_factor is None
-            or not isinstance(rope_scaling_factor, float)
-            or rope_scaling_factor <= 1.0
-        ):
-            raise ValueError(
-                "`rope_scaling`'s factor field must be a float > 1, got "
-                f"{rope_scaling_factor}"
+                "`rope_type` must be one of ['default', 'linear', 'dynamic'], "
+                f"got {rope_type}"
             )
+        if rope_type != "default":
+            if factor is None:
+                raise ValueError(
+                    "If `rope_type` is not 'default', `rope_parameters` "
+                    "must include a `factor` field. Got `None`."
+                )
+            if not isinstance(factor, float) or factor <= 1.0:
+                raise ValueError(
+                    "`rope_parameters`'s factor field must be a float > 1, got "
+                    f"{factor}"
+                )
diff --git a/vllm/transformers_utils/configs/olmo3.py b/vllm/transformers_utils/configs/olmo3.py
index f5a9a7cd36bdb..c4691b661af39 100644
--- a/vllm/transformers_utils/configs/olmo3.py
+++ b/vllm/transformers_utils/configs/olmo3.py
@@ -24,8 +24,7 @@ class Olmo3Config(PretrainedConfig):
         bos_token_id=None,
         eos_token_id=50279,
         tie_word_embeddings=False,
-        rope_theta=10000.0,
-        rope_scaling=None,
+        rope_parameters=None,
         attention_bias=False,
         attention_dropout=0.0,
         rms_norm_eps=1e-5,
@@ -63,8 +62,13 @@ class Olmo3Config(PretrainedConfig):
         self.hidden_act = hidden_act
         self.initializer_range = initializer_range
         self.use_cache = use_cache
-        self.rope_theta = rope_theta
-        self.rope_scaling = rope_scaling
+        # Try to set `rope_scaling` if available, otherwise use `rope_parameters`
+        rope_scaling = kwargs.pop("rope_scaling", None)
+        rope_parameters = rope_scaling or rope_parameters or {"rope_type": "default"}
+        rope_theta = kwargs.pop("rope_theta", 10000.0)
+        if "rope_theta" not in rope_parameters:
+            rope_parameters["rope_theta"] = rope_theta
+        self.rope_parameters = rope_parameters
         self.attention_bias = attention_bias
         self.attention_dropout = attention_dropout
 
diff --git a/vllm/transformers_utils/configs/qwen3_next.py b/vllm/transformers_utils/configs/qwen3_next.py
index 21750bde2f878..d2fe58d48da6f 100644
--- a/vllm/transformers_utils/configs/qwen3_next.py
+++ b/vllm/transformers_utils/configs/qwen3_next.py
@@ -66,13 +66,12 @@ class Qwen3NextConfig(PretrainedConfig):
             relevant if `config.is_decoder=True`.
         tie_word_embeddings (`bool`, *optional*, defaults to `False`):
             Whether the model's input and output word embeddings should be tied.
-        rope_theta (`float`, *optional*, defaults to 10000.0):
-            The base period of the RoPE embeddings.
-        rope_scaling (`Dict`, *optional*):
+        rope_parameters (`dict`, *optional*):
             Dictionary containing the scaling configuration for the RoPE embeddings. NOTE: if you apply new rope type
             and you expect the model to work on longer `max_position_embeddings`, we recommend you to update this value
             accordingly.
             Expected contents:
+                `rope_theta` (`float`): The base period of the RoPE embeddings.
                 `rope_type` (`str`):
                     The sub-variant of RoPE to use. Can be one of ['default', 'linear', 'dynamic', 'yarn', 'longrope',
                     'llama3'], with 'default' being the original RoPE implementation.
@@ -199,8 +198,7 @@ class Qwen3NextConfig(PretrainedConfig):
         rms_norm_eps=1e-6,
         use_cache=True,
         tie_word_embeddings=False,
-        rope_theta=10000.0,
-        rope_scaling=None,
+        rope_parameters=None,
         partial_rotary_factor=0.25,
         attention_bias=False,
         attention_dropout=0.0,
@@ -236,8 +234,13 @@ class Qwen3NextConfig(PretrainedConfig):
         self.initializer_range = initializer_range
         self.rms_norm_eps = rms_norm_eps
         self.use_cache = use_cache
-        self.rope_theta = rope_theta
-        self.rope_scaling = rope_scaling
+        # Try to set `rope_scaling` if available, otherwise use `rope_parameters`
+        rope_scaling = kwargs.pop("rope_scaling", None)
+        rope_parameters = rope_scaling or rope_parameters or {"rope_type": "default"}
+        rope_theta = kwargs.pop("rope_theta", 10000.0)
+        if "rope_theta" not in rope_parameters:
+            rope_parameters["rope_theta"] = rope_theta
+        self.rope_parameters = rope_parameters
         self.partial_rotary_factor = partial_rotary_factor
         self.attention_bias = attention_bias
         self.attention_dropout = attention_dropout
diff --git a/vllm/transformers_utils/configs/step3_vl.py b/vllm/transformers_utils/configs/step3_vl.py
index 637b82d88e265..0ee650a70451f 100644
--- a/vllm/transformers_utils/configs/step3_vl.py
+++ b/vllm/transformers_utils/configs/step3_vl.py
@@ -52,8 +52,7 @@ class Step3TextConfig(PretrainedConfig):
         moe_intermediate_size: int = 5120,
         moe_num_experts: int = 48,
         moe_top_k: int = 3,
-        rope_theta: float = 500000,
-        rope_scaling: dict[str, Any] | None = None,
+        rope_parameters: dict[str, Any] | None = None,
         max_position_embedding: int = 65536,
         share_expert_dim: int = 5120,
         share_q_dim: int = 2048,
@@ -130,8 +129,13 @@ class Step3TextConfig(PretrainedConfig):
         self.moe_intermediate_size = moe_intermediate_size
         self.moe_num_experts = moe_num_experts
         self.moe_top_k = moe_top_k
-        self.rope_theta = rope_theta
-        self.rope_scaling = rope_scaling
+        # Try to set `rope_scaling` if available, otherwise use `rope_parameters`
+        rope_scaling = kwargs.pop("rope_scaling", None)
+        rope_parameters = rope_scaling or rope_parameters or {"rope_type": "default"}
+        rope_theta = kwargs.pop("rope_theta", 500000.0)
+        if "rope_theta" not in rope_parameters:
+            rope_parameters["rope_theta"] = rope_theta
+        self.rope_parameters = rope_parameters
         self.max_position_embedding = max_position_embedding
         self.share_expert_dim = share_expert_dim
         self.share_q_dim = share_q_dim

From 0c80efd94fb8c17cfc7d1bcb9cdb65f154340994 Mon Sep 17 00:00:00 2001
From: Yuxuan Zhang <2448370773@qq.com>
Date: Thu, 20 Nov 2025 01:32:55 +0800
Subject: [PATCH 591/976] GLM-V video segmentation solution adjustment (#28941)

Signed-off-by: zRzRzRzRzRzRzR <2448370773@qq.com>
---
 vllm/model_executor/models/glm4_1v.py | 94 +++++++++++++++++++++++++--
 1 file changed, 90 insertions(+), 4 deletions(-)

diff --git a/vllm/model_executor/models/glm4_1v.py b/vllm/model_executor/models/glm4_1v.py
index 6581bbda6d609..d141e95498064 100644
--- a/vllm/model_executor/models/glm4_1v.py
+++ b/vllm/model_executor/models/glm4_1v.py
@@ -37,7 +37,7 @@ import torch
 import torch.nn as nn
 import torch.nn.functional as F
 from einops import rearrange
-from transformers import BatchFeature
+from transformers import BatchFeature, Glm4vProcessor
 from transformers.models.glm4v.configuration_glm4v import Glm4vVisionConfig
 from transformers.models.glm4v.image_processing_glm4v import (
     Glm4vImageProcessor,
@@ -1028,7 +1028,7 @@ class Glm4vProcessingInfo(BaseProcessingInfo):
 
         return max(max_frames_per_video, 1)
 
-    def _get_video_second_idx(
+    def _get_video_second_idx_glm4v(
         self, metadata: dict[str, Any], total_frames: int
     ) -> list[int]:
         video_processor = self.get_video_processor()
@@ -1079,6 +1079,83 @@ class Glm4vProcessingInfo(BaseProcessingInfo):
             selected_timestamps.append(timestamps_list[idx])
         return selected_timestamps
 
+    def _get_video_second_idx_glm46v(
+        self, metadata: dict[str, Any], total_frames: int
+    ) -> list[int]:
+        video_processor = self.get_video_processor()
+
+        video_fps = metadata["fps"]
+        meta_frames = metadata.get("total_num_frames", total_frames)
+        max_frame_idx = meta_frames - 1
+        duration = metadata.get("duration", round(max_frame_idx / video_fps) + 1)
+
+        do_sample_frames = metadata.get("do_sample_frames", True)
+        if not do_sample_frames:
+            frame_indices = metadata["frames_indices"]
+        else:
+            DYNAMIC_FPS_THRES = {30: 3, 300: 1, 2400: 0.5}
+            MAX_FRAME_COUNT_DYNAMIC = 640
+            MAX_DURATION = 2400
+
+            effective_duration = min(duration, MAX_DURATION)
+            if effective_duration <= 30:
+                target_fps = DYNAMIC_FPS_THRES[30]
+            elif effective_duration <= 300:
+                target_fps = DYNAMIC_FPS_THRES[300]
+            else:
+                target_fps = DYNAMIC_FPS_THRES[2400]
+
+            temporal_patch_size = getattr(video_processor, "temporal_patch_size", 1)
+            extract_t = int(effective_duration * target_fps * temporal_patch_size)
+            extract_t = min(extract_t, MAX_FRAME_COUNT_DYNAMIC)
+
+            duration_per_frame = 1 / video_fps
+            timestamps = [i * duration_per_frame for i in range(meta_frames)]
+            max_second = int(duration)
+
+            if meta_frames < extract_t:
+                frame_indices = np.linspace(
+                    0, meta_frames - 1, extract_t, dtype=int
+                ).tolist()
+            else:
+                frame_indices = []
+                current_second = 0.0
+                inv_fps = 1 / (temporal_patch_size * target_fps)
+                for frame_index in range(meta_frames):
+                    if timestamps[frame_index] >= current_second:
+                        current_second += inv_fps
+                        frame_indices.append(frame_index)
+                        if current_second >= max_second:
+                            break
+
+            if len(frame_indices) < extract_t:
+                if len(frame_indices) == 0:
+                    start, end = 0, max(meta_frames - 1, 0)
+                else:
+                    start, end = frame_indices[0], frame_indices[-1]
+                frame_indices = np.linspace(start, end, extract_t, dtype=int).tolist()
+            elif len(frame_indices) > extract_t:
+                frame_indices = np.linspace(
+                    0, meta_frames - 1, extract_t, dtype=int
+                ).tolist()
+
+        seen, uniq = set(), []
+        for idx in frame_indices:
+            if idx not in seen:
+                seen.add(idx)
+                uniq.append(idx)
+
+        if len(uniq) & 1:
+            uniq.append(uniq[-1])
+
+        frame_indices = uniq
+        full_second_idxs = [int(idx / video_fps) for idx in frame_indices]
+        timestamps_list = full_second_idxs[::2]
+        selected_timestamps = []
+        for idx in range(len(timestamps_list)):
+            selected_timestamps.append(timestamps_list[idx])
+        return selected_timestamps
+
     def _construct_video_placeholder(
         self,
         video_array: np.ndarray,
@@ -1097,9 +1174,18 @@ class Glm4vProcessingInfo(BaseProcessingInfo):
         merge_length = image_processor.merge_size**2
 
         assert isinstance(grid_thw, torch.Tensor)
-        timestamps = self._get_video_second_idx(metadata, len(video_array))
+        timestamps = (
+            self._get_video_second_idx_glm4v(metadata, len(video_array))
+            if isinstance(hf_processor, Glm4vProcessor)
+            else self._get_video_second_idx_glm46v(metadata, len(video_array))
+        )
+
+        timestamp_format = (
+            "{}" if isinstance(hf_processor, Glm4vProcessor) else "{:.1f} seconds"
+        )
         frames_idx_token = [
-            tokenizer.encode(str(i), add_special_tokens=False) for i in timestamps
+            tokenizer.encode(timestamp_format.format(i), add_special_tokens=False)
+            for i in timestamps
         ]
         T, H, W = grid_thw
         num_tokens_per_frame = int(H * W) // merge_length

From 61728cd1dfb03cbbfa03924f2a2cda311cfc13ac Mon Sep 17 00:00:00 2001
From: Copilot <198982749+Copilot@users.noreply.github.com>
Date: Wed, 19 Nov 2025 13:32:19 -0500
Subject: [PATCH 592/976] Re-enable FlashInfer for Llama4 on Blackwell in e2e
 fusion tests (#28966)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Signed-off-by: Luka Govedič <ProExpertProg@users.noreply.github.com>
Co-authored-by: copilot-swe-agent[bot] <198982749+Copilot@users.noreply.github.com>
Co-authored-by: ProExpertProg <11367180+ProExpertProg@users.noreply.github.com>
Co-authored-by: Luka Govedič <ProExpertProg@users.noreply.github.com>
---
 .buildkite/test-pipeline.yaml                 |  2 ++
 tests/compile/distributed/test_fusions_e2e.py | 12 ++++--------
 2 files changed, 6 insertions(+), 8 deletions(-)

diff --git a/.buildkite/test-pipeline.yaml b/.buildkite/test-pipeline.yaml
index d4b6f4077ab32..98daebcc06931 100644
--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -930,6 +930,8 @@ steps:
   - csrc/quantization/fp4/
   - vllm/model_executor/layers/quantization/utils/flashinfer_utils.py
   - vllm/v1/attention/backends/flashinfer.py
+  - vllm/v1/worker/
+  - vllm/v1/cudagraph_dispatcher.py
   - vllm/compilation/
   # can affect pattern matching
   - vllm/model_executor/layers/layernorm.py
diff --git a/tests/compile/distributed/test_fusions_e2e.py b/tests/compile/distributed/test_fusions_e2e.py
index 2e1b595a43895..661172e1965b5 100644
--- a/tests/compile/distributed/test_fusions_e2e.py
+++ b/tests/compile/distributed/test_fusions_e2e.py
@@ -47,12 +47,8 @@ if current_platform.is_cuda():
         ModelBackendTestCase(
             # Use smaller model for L40s in CI
             model_name="RedHatAI/Meta-Llama-3.1-8B-Instruct-FP8",
-            # TODO while llama4 is broken, use FLASHINFER for llama3 on Blackwell
-            #  so FI attention+fp8_quant is at least tested once
             model_kwargs=dict(max_model_len=1024, kv_cache_dtype="fp8"),
-            backend=AttentionBackendEnum.FLASHINFER
-            if is_blackwell()
-            else AttentionBackendEnum.TRITON_ATTN,
+            backend=AttentionBackendEnum.TRITON_ATTN,
             matches=Matches(
                 attention_fusion=32,
                 allreduce_fusion=65,
@@ -65,9 +61,9 @@ if current_platform.is_cuda():
             model_kwargs=dict(max_model_len=1024, kv_cache_dtype="fp8"),
             # TODO FlashInfer attn broken on Hopper with kvcache=fp8:
             # https://github.com/vllm-project/vllm/issues/28568
-            # TODO FlashInfer attn broken on Blackwell for llama4:
-            # https://github.com/vllm-project/vllm/issues/28604
-            backend=AttentionBackendEnum.TRITON_ATTN,
+            backend=AttentionBackendEnum.FLASHINFER
+            if is_blackwell()
+            else AttentionBackendEnum.TRITON_ATTN,
             matches=Matches(
                 attention_fusion=48,
                 allreduce_fusion=96,

From 3319a493fcc3e4733382f0dc812184234e9c3dcb Mon Sep 17 00:00:00 2001
From: Jialin Ouyang <Jialin.Ouyang@gmail.com>
Date: Wed, 19 Nov 2025 11:20:22 -0800
Subject: [PATCH 593/976] [Core] Reuse created spec tokens lists to mitigate GC
 cost (#28917)

Signed-off-by: Jialin Ouyang <Jialin.Ouyang@gmail.com>
---
 vllm/v1/worker/gpu_input_batch.py  | 18 ++++++++++++------
 vllm/v1/worker/gpu_model_runner.py |  3 ++-
 2 files changed, 14 insertions(+), 7 deletions(-)

diff --git a/vllm/v1/worker/gpu_input_batch.py b/vllm/v1/worker/gpu_input_batch.py
index 023b5edb2c340..c1bfe727d86e5 100644
--- a/vllm/v1/worker/gpu_input_batch.py
+++ b/vllm/v1/worker/gpu_input_batch.py
@@ -251,7 +251,7 @@ class InputBatch:
         self.logitsprocs_need_output_token_ids = logitsprocs_need_output_token_ids
 
         # Store last speculative tokens for sampler.
-        self.spec_token_ids: list[list[int] | None] = []
+        self.spec_token_ids: list[list[int]] = [[] for _ in range(max_num_reqs)]
 
         # This is updated each time the batch constituents change.
         self.sampling_metadata = self._make_sampling_metadata()
@@ -313,7 +313,7 @@ class InputBatch:
         else:
             self._req_ids[req_index] = req_id
             self.req_output_token_ids[req_index] = request.output_token_ids
-            self.spec_token_ids[req_index] = []
+            self.spec_token_ids[req_index].clear()
 
         self.req_id_to_index[req_id] = req_index
 
@@ -462,7 +462,7 @@ class InputBatch:
         self.batch_update_builder.removed_append(req_index)
         self._req_ids[req_index] = None
         self.req_output_token_ids[req_index] = None
-        self.spec_token_ids[req_index] = None
+        self.spec_token_ids[req_index].clear()
 
         # LoRA
         lora_id = self.request_lora_mapping[req_index]
@@ -654,9 +654,15 @@ class InputBatch:
             self.req_output_token_ids[last_req_index] = None
             self.req_id_to_index[req_id] = empty_index
 
-            spec_token_ids = self.spec_token_ids[last_req_index]
-            self.spec_token_ids[empty_index] = spec_token_ids
-            self.spec_token_ids[last_req_index] = None
+            if last_req_index != empty_index:
+                (
+                    self.spec_token_ids[last_req_index],
+                    self.spec_token_ids[empty_index],
+                ) = (
+                    self.spec_token_ids[empty_index],
+                    self.spec_token_ids[last_req_index],
+                )
+                self.spec_token_ids[last_req_index].clear()
 
             num_tokens = self.num_tokens[last_req_index]
             self.token_ids_cpu[empty_index, :num_tokens] = self.token_ids_cpu[
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
index 3b00085b6bb99..0c35f1330e9f0 100644
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -892,7 +892,8 @@ class GPUModelRunner(
             # conform to the schema. This can result in
             # scheduler_output.scheduled_spec_decode_tokens being empty,
             # even when speculative decoding is enabled.
-            self.input_batch.spec_token_ids[req_index] = spec_token_ids
+            self.input_batch.spec_token_ids[req_index].clear()
+            self.input_batch.spec_token_ids[req_index].extend(spec_token_ids)
 
             # there are no draft tokens with async scheduling,
             # we clear the spec_decoding info in scheduler_output and

From fe69f331f84d99541564dfe4852dd45220ed7875 Mon Sep 17 00:00:00 2001
From: Robert Shaw <114415538+robertgshaw2-redhat@users.noreply.github.com>
Date: Wed, 19 Nov 2025 14:23:54 -0500
Subject: [PATCH 594/976] [Kernels] Improve H200 Fused MoE Config (#28992)

Signed-off-by: Robert Shaw <114415538+robertgshaw2-redhat@users.noreply.github.com>
---
 ...,dtype=fp8_w8a8,block_shape=[128,128].json | 122 +++++++++---------
 1 file changed, 61 insertions(+), 61 deletions(-)

diff --git a/vllm/model_executor/layers/fused_moe/configs/E=256,N=256,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json b/vllm/model_executor/layers/fused_moe/configs/E=256,N=256,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
index 6fcf408755f5d..532c16e899269 100644
--- a/vllm/model_executor/layers/fused_moe/configs/E=256,N=256,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
+++ b/vllm/model_executor/layers/fused_moe/configs/E=256,N=256,device_name=NVIDIA_H200,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -1,11 +1,11 @@
 {
     "1": {
         "BLOCK_SIZE_M": 16,
-        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_N": 128,
         "BLOCK_SIZE_K": 128,
-        "GROUP_SIZE_M": 1,
+        "GROUP_SIZE_M": 16,
         "num_warps": 4,
-        "num_stages": 5
+        "num_stages": 4
     },
     "2": {
         "BLOCK_SIZE_M": 16,
@@ -13,82 +13,82 @@
         "BLOCK_SIZE_K": 128,
         "GROUP_SIZE_M": 16,
         "num_warps": 4,
-        "num_stages": 3
+        "num_stages": 4
     },
     "4": {
-        "BLOCK_SIZE_M": 64,
-        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
         "BLOCK_SIZE_K": 128,
         "GROUP_SIZE_M": 64,
         "num_warps": 4,
         "num_stages": 4
     },
     "8": {
-        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "16": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 3
+    },
+    "24": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 4
+    },
+    "32": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 16,
+        "num_warps": 4,
+        "num_stages": 5
+    },
+    "48": {
+        "BLOCK_SIZE_M": 16,
         "BLOCK_SIZE_N": 128,
         "BLOCK_SIZE_K": 128,
         "GROUP_SIZE_M": 64,
         "num_warps": 4,
         "num_stages": 3
     },
-    "16": {
-        "BLOCK_SIZE_M": 16,
-        "BLOCK_SIZE_N": 256,
-        "BLOCK_SIZE_K": 64,
-        "GROUP_SIZE_M": 32,
-        "num_warps": 4,
-        "num_stages": 3
-    },
-    "24": {
-        "BLOCK_SIZE_M": 64,
-        "BLOCK_SIZE_N": 128,
-        "BLOCK_SIZE_K": 128,
-        "GROUP_SIZE_M": 16,
-        "num_warps": 4,
-        "num_stages": 3
-    },
-    "32": {
-        "BLOCK_SIZE_M": 64,
-        "BLOCK_SIZE_N": 128,
-        "BLOCK_SIZE_K": 128,
-        "GROUP_SIZE_M": 1,
-        "num_warps": 4,
-        "num_stages": 3
-    },
-    "48": {
-        "BLOCK_SIZE_M": 64,
-        "BLOCK_SIZE_N": 128,
-        "BLOCK_SIZE_K": 128,
-        "GROUP_SIZE_M": 32,
-        "num_warps": 4,
-        "num_stages": 3
-    },
     "64": {
-        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_M": 16,
         "BLOCK_SIZE_N": 128,
         "BLOCK_SIZE_K": 128,
-        "GROUP_SIZE_M": 32,
+        "GROUP_SIZE_M": 64,
         "num_warps": 4,
         "num_stages": 3
     },
     "96": {
-        "BLOCK_SIZE_M": 64,
-        "BLOCK_SIZE_N": 128,
-        "BLOCK_SIZE_K": 128,
-        "GROUP_SIZE_M": 32,
-        "num_warps": 4,
-        "num_stages": 3
-    },
-    "128": {
-        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_M": 16,
         "BLOCK_SIZE_N": 128,
         "BLOCK_SIZE_K": 128,
         "GROUP_SIZE_M": 16,
         "num_warps": 4,
         "num_stages": 3
     },
+    "128": {
+        "BLOCK_SIZE_M": 16,
+        "BLOCK_SIZE_N": 128,
+        "BLOCK_SIZE_K": 128,
+        "GROUP_SIZE_M": 32,
+        "num_warps": 4,
+        "num_stages": 3
+    },
     "256": {
-        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_M": 16,
         "BLOCK_SIZE_N": 128,
         "BLOCK_SIZE_K": 128,
         "GROUP_SIZE_M": 32,
@@ -96,10 +96,10 @@
         "num_stages": 3
     },
     "512": {
-        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_M": 16,
         "BLOCK_SIZE_N": 128,
         "BLOCK_SIZE_K": 128,
-        "GROUP_SIZE_M": 32,
+        "GROUP_SIZE_M": 16,
         "num_warps": 4,
         "num_stages": 3
     },
@@ -109,7 +109,7 @@
         "BLOCK_SIZE_K": 128,
         "GROUP_SIZE_M": 32,
         "num_warps": 4,
-        "num_stages": 3
+        "num_stages": 4
     },
     "1536": {
         "BLOCK_SIZE_M": 64,
@@ -117,21 +117,21 @@
         "BLOCK_SIZE_K": 128,
         "GROUP_SIZE_M": 32,
         "num_warps": 4,
-        "num_stages": 3
+        "num_stages": 4
     },
     "2048": {
         "BLOCK_SIZE_M": 64,
         "BLOCK_SIZE_N": 128,
         "BLOCK_SIZE_K": 128,
-        "GROUP_SIZE_M": 64,
+        "GROUP_SIZE_M": 32,
         "num_warps": 4,
-        "num_stages": 3
+        "num_stages": 4
     },
     "3072": {
-        "BLOCK_SIZE_M": 128,
-        "BLOCK_SIZE_N": 64,
+        "BLOCK_SIZE_M": 64,
+        "BLOCK_SIZE_N": 128,
         "BLOCK_SIZE_K": 128,
-        "GROUP_SIZE_M": 16,
+        "GROUP_SIZE_M": 32,
         "num_warps": 4,
         "num_stages": 4
     },
@@ -139,7 +139,7 @@
         "BLOCK_SIZE_M": 64,
         "BLOCK_SIZE_N": 128,
         "BLOCK_SIZE_K": 128,
-        "GROUP_SIZE_M": 64,
+        "GROUP_SIZE_M": 16,
         "num_warps": 4,
         "num_stages": 3
     }

From 9d2d5612573c20f8bf00242a8525c2a5dcfe4c06 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=E6=9D=B0=E5=85=AE?=
 <38908462+zhyajie@users.noreply.github.com>
Date: Thu, 20 Nov 2025 03:30:57 +0800
Subject: [PATCH 595/976] [Bugfix]  Fix precision corruption when
 shared_experts_stream=None (#28942)

Signed-off-by: zhyajie <yajizhan@amd.com>
Co-authored-by: zhyajie <yajizhan@amd.com>
---
 vllm/model_executor/layers/fused_moe/layer.py | 11 +++++++----
 vllm/utils/torch_utils.py                     |  3 +--
 2 files changed, 8 insertions(+), 6 deletions(-)

diff --git a/vllm/model_executor/layers/fused_moe/layer.py b/vllm/model_executor/layers/fused_moe/layer.py
index c41995e4a9136..8e9bba3442873 100644
--- a/vllm/model_executor/layers/fused_moe/layer.py
+++ b/vllm/model_executor/layers/fused_moe/layer.py
@@ -371,8 +371,8 @@ class FusedMoE(CustomOp):
             logger.info_once("Disabling MoE shared_experts cuda stream")
             self.shared_experts_stream = None
         else:
-            # TODO(rob): enable shared expert overlap with non-cuda.
-            # aux_stream() returns None on non-cuda platforms.
+            # TODO(rob): enable shared expert overlap with non-cuda-alike.
+            # aux_stream() returns None on non-cuda-alike platforms.
             self.shared_experts_stream = aux_stream()
             if self.shared_experts_stream is not None:
                 logger.info_once("Enabled separate cuda stream for MoE shared_experts")
@@ -1865,6 +1865,11 @@ class FusedMoE(CustomOp):
                 hidden_states_combined, router_logits = get_ep_group().dispatch(
                     hidden_states, router_logits, self.is_sequence_parallel
                 )
+            # Run shared experts before matrix multiply.
+            # because matrix multiply maybe modify the hidden_states.
+            if has_separate_shared_experts and not use_shared_experts_stream:
+                assert self.shared_experts is not None
+                shared_output = self.shared_experts(hidden_states)
 
             # Matrix multiply.
             final_hidden_states = self.quant_method.apply(
@@ -1908,8 +1913,6 @@ class FusedMoE(CustomOp):
                         # conflict with the main stream
                         shared_output = self.shared_experts(hidden_states_clone)
                     current_stream().wait_stream(self.shared_experts_stream)
-                else:
-                    shared_output = self.shared_experts(hidden_states)
 
                 final_hidden_states = (
                     shared_output,
diff --git a/vllm/utils/torch_utils.py b/vllm/utils/torch_utils.py
index 7c094e14cff72..3661dfd09047a 100644
--- a/vllm/utils/torch_utils.py
+++ b/vllm/utils/torch_utils.py
@@ -426,8 +426,7 @@ def aux_stream() -> torch.cuda.Stream | None:
 
     from vllm.platforms import current_platform
 
-    # TODO: validate this works properly on ROCm platform.
-    if _aux_stream is None and current_platform.is_cuda():
+    if _aux_stream is None and current_platform.is_cuda_alike():
         _aux_stream = torch.cuda.Stream()
 
     return _aux_stream

From ac10fd3c6900228e3c0a8fae20d039668c132446 Mon Sep 17 00:00:00 2001
From: Aleksandr Malyshev <164964928+maleksan85@users.noreply.github.com>
Date: Wed, 19 Nov 2025 11:59:30 -0800
Subject: [PATCH 596/976] Upstreaming aiter triton attention backend as a new
 backend (#28701)

Signed-off-by: Aleksandr Malyshev <maleksan@amd.com>
Co-authored-by: Aleksandr Malyshev <maleksan@amd.com>
---
 vllm/attention/backends/registry.py           |  3 +
 vllm/platforms/rocm.py                        |  4 +-
 .../backends/mla/aiter_triton_mla.py          | 74 +++++++++++++++++++
 3 files changed, 80 insertions(+), 1 deletion(-)
 create mode 100644 vllm/v1/attention/backends/mla/aiter_triton_mla.py

diff --git a/vllm/attention/backends/registry.py b/vllm/attention/backends/registry.py
index 51899b0235915..91e1cad01f4fd 100644
--- a/vllm/attention/backends/registry.py
+++ b/vllm/attention/backends/registry.py
@@ -46,6 +46,9 @@ class AttentionBackendEnum(Enum, metaclass=_AttentionBackendEnumMeta):
     XFORMERS = "vllm.v1.attention.backends.xformers.XFormersAttentionBackend"
     ROCM_ATTN = "vllm.v1.attention.backends.rocm_attn.RocmAttentionBackend"
     ROCM_AITER_MLA = "vllm.v1.attention.backends.mla.rocm_aiter_mla.AiterMLABackend"
+    ROCM_AITER_TRITON_MLA = (
+        "vllm.v1.attention.backends.mla.aiter_triton_mla.AiterTritonMLABackend"
+    )
     ROCM_AITER_FA = (
         "vllm.v1.attention.backends.rocm_aiter_fa.AiterFlashAttentionBackend"
     )
diff --git a/vllm/platforms/rocm.py b/vllm/platforms/rocm.py
index bb116792fed54..f07f068a9249b 100644
--- a/vllm/platforms/rocm.py
+++ b/vllm/platforms/rocm.py
@@ -234,7 +234,6 @@ class RocmPlatform(Platform):
                     if rocm_aiter_ops.is_mla_enabled() or block_size == 1
                     else AttentionBackendEnum.TRITON_MLA
                 )
-
             if selected_backend == AttentionBackendEnum.TRITON_MLA:
                 if block_size != 1:
                     logger.info_once("Using Triton MLA backend.")
@@ -246,6 +245,9 @@ class RocmPlatform(Platform):
             if selected_backend == AttentionBackendEnum.ROCM_AITER_MLA:
                 logger.info("Using AITER MLA backend.")
                 return AttentionBackendEnum.ROCM_AITER_MLA.get_path()
+            if selected_backend == AttentionBackendEnum.ROCM_AITER_TRITON_MLA:
+                logger.info("Using AITER TRITON MLA backend.")
+                return AttentionBackendEnum.ROCM_AITER_TRITON_MLA.get_path()
 
             raise ValueError(
                 f" The selected backend, {selected_backend.name},"
diff --git a/vllm/v1/attention/backends/mla/aiter_triton_mla.py b/vllm/v1/attention/backends/mla/aiter_triton_mla.py
new file mode 100644
index 0000000000000..8a92152a0ca53
--- /dev/null
+++ b/vllm/v1/attention/backends/mla/aiter_triton_mla.py
@@ -0,0 +1,74 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from vllm.v1.attention.backends.mla.common import MLACommonBackend
+from vllm.v1.attention.backends.mla.rocm_aiter_mla import (
+    AiterMLAImpl,
+    AiterMLAMetadataBuilder,
+)
+
+
+class AiterTritonMLABackend(MLACommonBackend):
+    @staticmethod
+    def get_name() -> str:
+        return "AITER_TRITON_MLA"
+
+    @staticmethod
+    def get_impl_cls() -> type["AiterTritonMLAImpl"]:
+        return AiterTritonMLAImpl
+
+    @staticmethod
+    def get_builder_cls() -> type["AiterMLAMetadataBuilder"]:
+        return AiterMLAMetadataBuilder
+
+
+class AiterTritonMLAImpl(AiterMLAImpl):
+    def __init__(
+        self,
+        num_heads: int,
+        head_size: int,
+        scale: float,
+        num_kv_heads: int,
+        alibi_slopes: list[float] | None,
+        sliding_window: int | None,
+        kv_cache_dtype: str,
+        logits_soft_cap: float | None,
+        attn_type: str,
+        kv_sharing_target_layer_name: str | None,
+        # MLA Specific Arguments
+        **mla_args,
+    ) -> None:
+        super().__init__(
+            num_heads,
+            head_size,
+            scale,
+            num_kv_heads,
+            alibi_slopes,
+            sliding_window,
+            kv_cache_dtype,
+            logits_soft_cap,
+            attn_type,
+            kv_sharing_target_layer_name,
+            **mla_args,
+        )
+        from aiter.ops.triton.mha import flash_attn_varlen_func
+
+        self.flash_attn_varlen_func = flash_attn_varlen_func
+
+    def _flash_attn_varlen_diff_headdims(
+        self, q, k, v, return_softmax_lse=False, softmax_scale=None, **kwargs
+    ):
+        result = self.flash_attn_varlen_func(
+            q,
+            k,
+            v,
+            softmax_scale=softmax_scale,
+            return_lse=return_softmax_lse,
+            **kwargs,
+        )
+        # Transpose the LSE if Triton MHA is used:
+        # (q.shape[0], num_q_heads) to (num_q_heads, q.shape[0])
+        if type(result) is tuple and return_softmax_lse:
+            output, lse = result
+            lse = lse.T.contiguous()
+            return (output, lse)
+        return result

From 02f5903b84cfdf0b7cb31d46e995e3d4b9ad9e53 Mon Sep 17 00:00:00 2001
From: Izzy Putterman <carlipp176@gmail.com>
Date: Wed, 19 Nov 2025 12:01:05 -0800
Subject: [PATCH 597/976] Eagle: MM Cuda Graphs with MRope (#28896)

Signed-off-by: Izzy Putterman <iputterman@nvidia.com>
Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>
---
 vllm/model_executor/models/llama_eagle3.py | 14 ++++++--------
 vllm/v1/spec_decode/eagle.py               | 13 +++++++++++--
 2 files changed, 17 insertions(+), 10 deletions(-)

diff --git a/vllm/model_executor/models/llama_eagle3.py b/vllm/model_executor/models/llama_eagle3.py
index 75c671311b491..3eaf2d80082f1 100644
--- a/vllm/model_executor/models/llama_eagle3.py
+++ b/vllm/model_executor/models/llama_eagle3.py
@@ -23,7 +23,6 @@ from vllm.model_executor.model_loader.weight_utils import (
     maybe_remap_kv_scale_name,
 )
 from vllm.model_executor.models.llama import LlamaDecoderLayer, LlamaForCausalLM
-from vllm.multimodal import MULTIMODAL_REGISTRY
 from vllm.multimodal.inputs import NestedTensors
 
 from .utils import (
@@ -121,13 +120,12 @@ class LlamaDecoderLayer(LlamaDecoderLayer):
 
 
 @support_torch_compile(
-    # torch.compile is disabled for multimodal EAGLE3 models due to constraint
-    # violations with dynamic shapes during tensor concatenation operations.
-    # See: https://github.com/vllm-project/vllm/pull/22872/files#r2362028132
-    # Non-multimodal EAGLE3 models can still use torch.compile safely.
-    enable_if=lambda vllm_config: not MULTIMODAL_REGISTRY.supports_multimodal_inputs(
-        vllm_config.model_config
-    ),
+    dynamic_arg_dims={
+        "input_ids": 0,
+        "positions": -1,
+        "hidden_states": 0,
+        "input_embeds": 0,
+    }
 )
 class LlamaModel(nn.Module):
     def __init__(
diff --git a/vllm/v1/spec_decode/eagle.py b/vllm/v1/spec_decode/eagle.py
index 5bf2503c3027d..406bb696bd4cf 100644
--- a/vllm/v1/spec_decode/eagle.py
+++ b/vllm/v1/spec_decode/eagle.py
@@ -116,9 +116,18 @@ class EagleProposer:
         )
         self.uses_mrope = self.vllm_config.model_config.uses_mrope
         if self.uses_mrope:
-            # M-RoPE need (3, max_num_tokens)
+            # NOTE: `mrope_positions` is implemented with one additional dummy
+            # position on purpose to make it non-contiguous so that it can work
+            # with torch compile.
+            # See detailed explanation in https://github.com/vllm-project/vllm/pull/12128#discussion_r1926431923
+
+            # NOTE: When M-RoPE is enabled, position ids are 3D regardless of
+            # the modality of inputs. For text-only inputs, each dimension has
+            # identical position IDs, making M-RoPE functionally equivalent to
+            # 1D-RoPE.
+            # See page 5 of https://arxiv.org/abs/2409.12191
             self.mrope_positions = torch.zeros(
-                (3, self.max_num_tokens), dtype=torch.int64, device=device
+                (3, self.max_num_tokens + 1), dtype=torch.int64, device=device
             )
         else:
             # RoPE need (max_num_tokens,)

From 2fd893b4cec0975a2a8430077fd9b4f294eb3561 Mon Sep 17 00:00:00 2001
From: Qiu <qiuchunshuo@huawei.com>
Date: Thu, 20 Nov 2025 04:52:44 +0800
Subject: [PATCH 598/976] [Feature] Prefill Context Parallel (PCP) basic
 support (#28718)

Signed-off-by: QiuChunshuo <qiuchunshuo@huawei.com>
Signed-off-by: FENP <yuanyongjie.yyj@antgroup.com>
Signed-off-by: LookAround <lixushi@huawei.com>
Signed-off-by: Jingchun Gao <gaojingchun1@huawei.com>
Signed-off-by: zhenwenqi2024 <zhenwenqi_2022@qq.com>
Co-authored-by: FENP <yuanyongjie.yyj@antgroup.com>
Co-authored-by: LookAround <lixushi@huawei.com>
Co-authored-by: Jingchun Gao <gaojingchun1@huawei.com>
Co-authored-by: zhenwenqi2024 <zhenwenqi_2022@qq.com>
Co-authored-by: Jingchun Gao <63247409+gjc0824@users.noreply.github.com>
---
 tests/distributed/test_context_parallel.py    | 12 +--
 .../moe/modular_kernel_tools/common.py        |  7 +-
 tests/v1/worker/test_gpu_model_runner.py      |  4 +-
 vllm/attention/backends/abstract.py           | 17 +++++
 vllm/attention/ops/common.py                  | 40 +++++++++-
 vllm/config/parallel.py                       | 40 +++++++---
 vllm/config/vllm.py                           | 32 ++++++--
 vllm/distributed/parallel_state.py            | 74 +++++++++++++++----
 vllm/engine/arg_utils.py                      | 22 ++++++
 .../model_executor/layers/fused_moe/config.py | 59 ++++++++++-----
 vllm/model_executor/layers/fused_moe/layer.py | 32 ++++++++
 vllm/model_executor/models/gpt_oss.py         |  9 ++-
 vllm/v1/attention/backends/flash_attn.py      |  6 +-
 vllm/v1/attention/backends/mla/common.py      |  6 +-
 vllm/v1/attention/backends/utils.py           | 18 ++---
 vllm/v1/core/kv_cache_coordinator.py          | 17 +++++
 vllm/v1/core/kv_cache_manager.py              |  9 +--
 vllm/v1/core/kv_cache_utils.py                | 13 +++-
 vllm/v1/core/sched/scheduler.py               |  2 +
 vllm/v1/core/single_type_kv_cache_manager.py  | 19 ++++-
 vllm/v1/engine/core.py                        |  1 +
 vllm/v1/executor/multiproc_executor.py        | 23 ++++--
 vllm/v1/kv_cache_interface.py                 |  5 +-
 vllm/v1/worker/block_table.py                 | 35 +++++----
 vllm/v1/worker/gpu_input_batch.py             |  4 +-
 vllm/v1/worker/gpu_model_runner.py            |  4 +-
 vllm/v1/worker/gpu_worker.py                  |  3 +
 27 files changed, 399 insertions(+), 114 deletions(-)

diff --git a/tests/distributed/test_context_parallel.py b/tests/distributed/test_context_parallel.py
index b16fd0d06b145..7e4713b8aece0 100644
--- a/tests/distributed/test_context_parallel.py
+++ b/tests/distributed/test_context_parallel.py
@@ -31,7 +31,7 @@ class ParallelSetup(NamedTuple):
     tp_size: int
     pp_size: int
     dcp_size: int
-    dcp_kv_cache_interleave_size: int
+    cp_kv_cache_interleave_size: int
     eager_mode: bool
     chunked_prefill: bool
 
@@ -55,7 +55,7 @@ class CPTestSettings:
         tp_base: int = 4,
         pp_base: int = 1,
         dcp_base: int = 1,
-        dcp_kv_cache_interleave_size: int = 1,
+        cp_kv_cache_interleave_size: int = 1,
         multi_node_only: bool = False,
         runner: RunnerOption = "auto",
         load_format: str | None = None,
@@ -71,7 +71,7 @@ class CPTestSettings:
                                 tp_size=tp_base,
                                 pp_size=pp_multiplier * pp_base,
                                 dcp_size=int(dcp_multiplier * tp_base),
-                                dcp_kv_cache_interleave_size=dcp_kv_cache_interleave_size,
+                                cp_kv_cache_interleave_size=cp_kv_cache_interleave_size,
                                 eager_mode=eager_mode_val,
                                 chunked_prefill=chunked_prefill_val,
                             )
@@ -116,7 +116,7 @@ def _compare_cp_with_tp(
         tp_size,
         pp_size,
         dcp_size,
-        dcp_kv_cache_interleave_size,
+        cp_kv_cache_interleave_size,
         eager_mode,
         chunked_prefill,
     ) = parallel_setup
@@ -197,7 +197,7 @@ def _compare_cp_with_tp(
         "--decode-context-parallel-size",
         str(dcp_size),
         "--dcp-kv-cache-interleave-size",
-        str(dcp_kv_cache_interleave_size),
+        str(cp_kv_cache_interleave_size),
         "--distributed-executor-backend",
         distributed_backend,
     ]
@@ -227,7 +227,7 @@ CP_TEXT_GENERATION_MODELS = {
     "deepseek-ai/DeepSeek-V2-Lite-Chat": [
         CPTestSettings.detailed(),
         CPTestSettings.detailed(tp_base=2),
-        CPTestSettings.detailed(tp_base=2, dcp_kv_cache_interleave_size=64),
+        CPTestSettings.detailed(tp_base=2, cp_kv_cache_interleave_size=64),
     ],
     "bigcode/gpt_bigcode-santacoder": [
         CPTestSettings.detailed(),
diff --git a/tests/kernels/moe/modular_kernel_tools/common.py b/tests/kernels/moe/modular_kernel_tools/common.py
index 1d925dc1bea8f..d95c22fdf0a5b 100644
--- a/tests/kernels/moe/modular_kernel_tools/common.py
+++ b/tests/kernels/moe/modular_kernel_tools/common.py
@@ -15,7 +15,11 @@ from tests.kernels.quantization.nvfp4_utils import (
 )
 from tests.kernels.utils import torch_experts
 from vllm.config import VllmConfig
-from vllm.distributed import get_dp_group, get_tensor_model_parallel_world_size
+from vllm.distributed import (
+    get_dp_group,
+    get_pcp_group,
+    get_tensor_model_parallel_world_size,
+)
 from vllm.forward_context import set_forward_context
 from vllm.model_executor.layers.fused_moe.config import (
     FusedMoEConfig,
@@ -561,6 +565,7 @@ def make_modular_kernel(
     # make moe config
     moe_parallel_config: FusedMoEParallelConfig = FusedMoEParallelConfig.make(
         tp_size_=get_tensor_model_parallel_world_size(),
+        pcp_size_=get_pcp_group().world_size,
         dp_size_=get_dp_group().world_size,
         vllm_parallel_config=vllm_config.parallel_config,
     )
diff --git a/tests/v1/worker/test_gpu_model_runner.py b/tests/v1/worker/test_gpu_model_runner.py
index b95c8df3469b3..824e458978350 100644
--- a/tests/v1/worker/test_gpu_model_runner.py
+++ b/tests/v1/worker/test_gpu_model_runner.py
@@ -956,7 +956,7 @@ def test_hybrid_block_table_initialization():
     max_num_reqs = 10
     max_num_blocks_per_req = 20
     max_num_batched_tokens = 512
-    dcp_kv_cache_interleave_size = 8
+    cp_kv_cache_interleave_size = 8
 
     block_table = BlockTable(
         block_size=block_size,
@@ -966,7 +966,7 @@ def test_hybrid_block_table_initialization():
         pin_memory=False,
         device=torch.device(DEVICE),
         kernel_block_size=kernel_block_sizes[0],
-        dcp_kv_cache_interleave_size=dcp_kv_cache_interleave_size,
+        cp_kv_cache_interleave_size=cp_kv_cache_interleave_size,
     )
 
     # Verify hybrid block configuration
diff --git a/vllm/attention/backends/abstract.py b/vllm/attention/backends/abstract.py
index 9275d70fd86a4..d28bc065852db 100644
--- a/vllm/attention/backends/abstract.py
+++ b/vllm/attention/backends/abstract.py
@@ -266,6 +266,12 @@ class AttentionImpl(ABC, Generic[T]):
     dcp_world_size: int
     dcp_rank: int
 
+    pcp_world_size: int
+    pcp_rank: int
+
+    total_cp_world_size: int
+    total_cp_rank: int
+
     def __new__(cls, *args, **kwargs):
         # use __new__ so that all subclasses will call this
         self = super().__new__(cls)
@@ -278,6 +284,17 @@ class AttentionImpl(ABC, Generic[T]):
             # DCP might not be initialized in testing
             self.dcp_world_size = 1
             self.dcp_rank = 0
+        try:
+            from vllm.distributed.parallel_state import get_pcp_group
+
+            self.pcp_world_size = get_pcp_group().world_size
+            self.pcp_rank = get_pcp_group().rank_in_group
+        except AssertionError:
+            self.pcp_world_size = 1
+            self.pcp_rank = 0
+        self.total_cp_world_size = self.pcp_world_size * self.dcp_world_size
+        self.total_cp_rank = self.pcp_rank * self.dcp_world_size + self.dcp_rank
+
         self.need_to_return_lse_for_decode = (
             self.dcp_world_size > 1 and self.can_return_lse_for_decode
         )
diff --git a/vllm/attention/ops/common.py b/vllm/attention/ops/common.py
index 2cbb5c91cc3b3..67c5f7dbba9c0 100644
--- a/vllm/attention/ops/common.py
+++ b/vllm/attention/ops/common.py
@@ -169,12 +169,11 @@ def correct_attn_out(
     return out, lse
 
 
-def cp_lse_ag_out_rs(
+def _cp_lse_common(
     cp_attn_out: torch.Tensor,
     cp_attn_lse: torch.Tensor,
     cp_group: GroupCoordinator,
-    ctx: CPTritonContext = None,
-    return_lse=False,
+    ctx: CPTritonContext | None = None,
 ):
     """
     cp_attn_out: [ B, H, D ]
@@ -195,6 +194,22 @@ def cp_lse_ag_out_rs(
     cp_attn_lse = cp_attn_lse.contiguous()
     lses = cp_group.all_gather(cp_attn_lse, dim=0).view_as(lses)
     out, lse = correct_attn_out(cp_attn_out, lses, cp_group.rank_in_group, ctx)
+    assert out.is_contiguous()
+    return out, lse
+
+
+def cp_lse_ag_out_rs(
+    cp_attn_out: torch.Tensor,
+    cp_attn_lse: torch.Tensor,
+    cp_group: GroupCoordinator,
+    ctx: CPTritonContext | None = None,
+    return_lse: bool = False,
+):
+    """
+    cp_attn_out: [ B, H, D ]
+    cp_attn_lse: [ B, H ]
+    """
+    out, lse = _cp_lse_common(cp_attn_out, cp_attn_lse, cp_group, ctx=ctx)
     out = cp_group.reduce_scatter(out, dim=1)
 
     if return_lse:
@@ -205,6 +220,25 @@ def cp_lse_ag_out_rs(
     return out
 
 
+def cp_lse_ag_out_ar(
+    cp_attn_out: torch.Tensor,
+    cp_attn_lse: torch.Tensor,
+    cp_group: GroupCoordinator,
+    ctx: CPTritonContext | None = None,
+    return_lse: bool = False,
+):
+    """
+    cp_attn_out: [ B, H, D ]
+    cp_attn_lse: [ B, H ]
+    """
+    out, lse = _cp_lse_common(cp_attn_out, cp_attn_lse, cp_group, ctx=ctx)
+    out = cp_group.all_reduce(out)
+
+    if return_lse:
+        return out, lse
+    return out
+
+
 @triton.jit
 def _pack_seq_kernel(
     x_ptr,  # [N, D]
diff --git a/vllm/config/parallel.py b/vllm/config/parallel.py
index 0f107a7a3ef83..4b0236d8de3f5 100644
--- a/vllm/config/parallel.py
+++ b/vllm/config/parallel.py
@@ -71,6 +71,8 @@ class ParallelConfig:
     """Number of pipeline parallel groups."""
     tensor_parallel_size: int = 1
     """Number of tensor parallel groups."""
+    prefill_context_parallel_size: int = 1
+    """Number of prefill context parallel groups."""
     data_parallel_size: int = 1
     """Number of data parallel groups. MoE layers will be sharded according to
     the product of the tensor parallel size and data parallel size."""
@@ -239,14 +241,25 @@ class ParallelConfig:
     needs to be divisible by dcp_size."""
 
     dcp_kv_cache_interleave_size: int = 1
-    """Interleave size of kv_cache storage while using dcp or cp > 1,
-    store interleave_size tokens on (d)cp i,
-    then store next interleave_size tokens on (d)cp i+1.
-    Interleave_size=1: token-level align, token i is stored on rank i % (d)cp_size.
-    Interleave_size=block_size: block-level align, first fill the block on first rank,
-    token is stored on rank i+1 block j after rank i block j is full.
-    Block_size should be greater than or equal to dcp_kv_cache_interleave_size.
-    Block_size should be divisible by dcp_kv_cache_interleave_size.
+    """
+    Interleave size of kv_cache storage while using DCP.
+    dcp_kv_cache_interleave_size has been replaced by cp_kv_cache_interleave_size,
+    and will be deprecated when PCP is fully supported.
+
+    """
+    cp_kv_cache_interleave_size: int = 1
+    """Interleave size of kv_cache storage while using DCP or PCP.
+    For `total_cp_rank = pcp_rank * dcp_world_size + dcp_rank`,
+        and `total_cp_world_size = pcp_world_size * dcp_world_szie`.
+    store interleave_size tokens on total_cp_rank i,
+    then store next interleave_size tokens on taotal_cp_rank i+1.
+    Interleave_size=1: token-level alignment, where token `i` is stored on
+        total_cp_rank `i % total_cp_world_size`.
+    Interleave_size=block_size: block-level alignment, where tokens are
+        first populated to the preceding ranks. Tokens are then stored
+        in (rank i+1, block j) only after (rank i, block j) is fully occupied.
+    Block_size should be greater than or equal to cp_kv_cache_interleave_size.
+    Block_size should be divisible by cp_kv_cache_interleave_size.
     """
 
     _api_process_count: int = Field(default=1, gt=0)
@@ -311,6 +324,11 @@ class ParallelConfig:
                     "num_redundant_experts."
                 )
 
+        if self.prefill_context_parallel_size > 1:
+            raise ValueError(
+                "Prefill context parallelism is not fully supported. "
+                "Please set prefill_context_parallel_size to 1."
+            )
         return self
 
     @property
@@ -529,7 +547,11 @@ class ParallelConfig:
             )
 
         # Continue with the rest of the initialization
-        self.world_size = self.pipeline_parallel_size * self.tensor_parallel_size
+        self.world_size = (
+            self.pipeline_parallel_size
+            * self.tensor_parallel_size
+            * self.prefill_context_parallel_size
+        )
 
         if self.distributed_executor_backend == "external_launcher":
             logger.info("Using external launcher for distributed inference.")
diff --git a/vllm/config/vllm.py b/vllm/config/vllm.py
index 672b004c4aa56..d64e315b4fe39 100644
--- a/vllm/config/vllm.py
+++ b/vllm/config/vllm.py
@@ -481,6 +481,14 @@ class VllmConfig:
                         "Overriding cudagraph_mode to PIECEWISE."
                     )
                     self.compilation_config.cudagraph_mode = CUDAGraphMode.PIECEWISE
+                # prefill context parallel do not support full cudagraphs
+                elif self.parallel_config.prefill_context_parallel_size > 1:
+                    logger.warning_once(
+                        "Prefill context parallel (PCP) is enabled, which is "
+                        "incompatible with full CUDA graphs. "
+                        "Overriding cudagraph_mode to PIECEWISE."
+                    )
+                    self.compilation_config.cudagraph_mode = CUDAGraphMode.PIECEWISE
                 elif self.model_config is not None:
                     if self.model_config.pooler_config is not None:
                         logger.warning_once(
@@ -610,22 +618,34 @@ class VllmConfig:
 
         # If DCP, ensure the block size is right.
         if self.parallel_config.decode_context_parallel_size > 1:
+            if self.parallel_config.dcp_kv_cache_interleave_size > 1 and (
+                self.parallel_config.cp_kv_cache_interleave_size
+                != self.parallel_config.dcp_kv_cache_interleave_size
+            ):
+                self.parallel_config.cp_kv_cache_interleave_size = (
+                    self.parallel_config.dcp_kv_cache_interleave_size
+                )
+                logger.warning_once(
+                    "cp_kv_cache_interleave_size is overridden by dcp_kv_cache"
+                    "_interleave_size. And dcp-kv-cache-interleave-size will be "
+                    "deprecated when PCP is fully supported."
+                )
             assert (
-                self.parallel_config.dcp_kv_cache_interleave_size
+                self.parallel_config.cp_kv_cache_interleave_size
                 <= self.cache_config.block_size
                 and self.cache_config.block_size
-                % self.parallel_config.dcp_kv_cache_interleave_size
+                % self.parallel_config.cp_kv_cache_interleave_size
                 == 0
             ), (
                 f"Block_size({self.cache_config.block_size}) should be greater "
-                "than or equal to and divisible by dcp_kv_cache_interleave_size "
-                f"({self.parallel_config.dcp_kv_cache_interleave_size})."
+                "than or equal to and divisible by cp_kv_cache_interleave_size "
+                f"({self.parallel_config.cp_kv_cache_interleave_size})."
             )
 
         assert (
-            self.parallel_config.dcp_kv_cache_interleave_size == 1
+            self.parallel_config.cp_kv_cache_interleave_size == 1
             or self.speculative_config is None
-        ), "MTP with dcp_kv_cache_interleave_size > 1 is not supported now."
+        ), "MTP with cp_kv_cache_interleave_size > 1 is not supported now."
 
         # Do this after all the updates to compilation_config.mode
         if self.compilation_config.mode == CompilationMode.VLLM_COMPILE:
diff --git a/vllm/distributed/parallel_state.py b/vllm/distributed/parallel_state.py
index 852c4c644433f..f81612fd1f4a3 100644
--- a/vllm/distributed/parallel_state.py
+++ b/vllm/distributed/parallel_state.py
@@ -1098,6 +1098,12 @@ get_context_model_parallel_group = get_dcp_group
 
 _PP: GroupCoordinator | None = None
 
+
+def get_pp_group() -> GroupCoordinator:
+    assert _PP is not None, "pipeline model parallel group is not initialized"
+    return _PP
+
+
 _DP: GroupCoordinator | None = None
 
 
@@ -1114,9 +1120,12 @@ def get_ep_group() -> GroupCoordinator:
     return _EP
 
 
-def get_pp_group() -> GroupCoordinator:
-    assert _PP is not None, "pipeline model parallel group is not initialized"
-    return _PP
+_PCP: GroupCoordinator | None = None
+
+
+def get_pcp_group() -> GroupCoordinator:
+    assert _PCP is not None, "prefill context parallel group is not initialized"
+    return _PCP
 
 
 @deprecated(
@@ -1276,6 +1285,7 @@ def init_distributed_environment(
 def initialize_model_parallel(
     tensor_model_parallel_size: int = 1,
     pipeline_model_parallel_size: int = 1,
+    prefill_context_model_parallel_size: int = 1,
     decode_context_model_parallel_size: int | None = 1,
     backend: str | None = None,
 ) -> None:
@@ -1325,7 +1335,11 @@ def initialize_model_parallel(
     # to get group_ranks for each dimension, transpose that dimension to the
     # last dimension, then reshape to 2D, then unbind the last dimension
     all_ranks = torch.arange(world_size).reshape(
-        -1, data_parallel_size, pipeline_model_parallel_size, tensor_model_parallel_size
+        -1,
+        data_parallel_size,
+        pipeline_model_parallel_size,
+        prefill_context_model_parallel_size,
+        tensor_model_parallel_size,
     )  # noqa
 
     # Build the tensor model-parallel groups.
@@ -1360,11 +1374,23 @@ def initialize_model_parallel(
         group_name="dcp",
     )
 
+    global _PCP
+    assert _PCP is None, "prefill context parallel group is already initialized"
+    group_ranks = (
+        all_ranks.transpose(3, 4)
+        .reshape(-1, prefill_context_model_parallel_size)
+        .unbind(0)
+    )
+    group_ranks = [x.tolist() for x in group_ranks]
+    _PCP = init_model_parallel_group(
+        group_ranks, get_world_group().local_rank, backend, group_name="pcp"
+    )
+
     # Build the pipeline model-parallel groups.
     global _PP
     assert _PP is None, "pipeline model parallel group is already initialized"
     group_ranks = (
-        all_ranks.transpose(2, 3).reshape(-1, pipeline_model_parallel_size).unbind(0)
+        all_ranks.transpose(2, 4).reshape(-1, pipeline_model_parallel_size).unbind(0)
     )
     group_ranks = [x.tolist() for x in group_ranks]
     _PP = init_model_parallel_group(
@@ -1373,7 +1399,7 @@ def initialize_model_parallel(
 
     global _DP
     assert _DP is None, "data parallel group is already initialized"
-    group_ranks = all_ranks.transpose(1, 3).reshape(-1, data_parallel_size).unbind(0)
+    group_ranks = all_ranks.transpose(1, 4).reshape(-1, data_parallel_size).unbind(0)
     group_ranks = [x.tolist() for x in group_ranks]
     _DP = init_model_parallel_group(
         group_ranks, get_world_group().local_rank, backend, group_name="dp"
@@ -1383,7 +1409,12 @@ def initialize_model_parallel(
     assert _EP is None, "expert parallel group is already initialized"
     group_ranks = (
         all_ranks.transpose(1, 2)
-        .reshape(-1, data_parallel_size * tensor_model_parallel_size)
+        .reshape(
+            -1,
+            data_parallel_size
+            * prefill_context_model_parallel_size
+            * tensor_model_parallel_size,
+        )
         .unbind(0)
     )
     group_ranks = [x.tolist() for x in group_ranks]
@@ -1393,11 +1424,13 @@ def initialize_model_parallel(
 
     logger.info_once(
         "rank %s in world size %s is assigned as "
-        "DP rank %s, PP rank %s, TP rank %s, EP rank %s",
+        "DP rank %s, PP rank %s, PCP rank %s, "
+        "TP rank %s, EP rank %s",
         rank,
         world_size,
         _DP.rank_in_group,
         _PP.rank_in_group,
+        _PCP.rank_in_group,
         _TP.rank_in_group,
         _EP.rank_in_group,
     )
@@ -1406,6 +1439,7 @@ def initialize_model_parallel(
 def ensure_model_parallel_initialized(
     tensor_model_parallel_size: int,
     pipeline_model_parallel_size: int,
+    prefill_context_model_parallel_size: int = 1,
     decode_context_model_parallel_size: int | None = 1,
     backend: str | None = None,
 ) -> None:
@@ -1418,6 +1452,7 @@ def ensure_model_parallel_initialized(
         initialize_model_parallel(
             tensor_model_parallel_size,
             pipeline_model_parallel_size,
+            prefill_context_model_parallel_size,
             decode_context_model_parallel_size,
             backend,
         )
@@ -1434,6 +1469,12 @@ def ensure_model_parallel_initialized(
         f"got: {pp_world_size=} vs. "
         f"wanted: {pipeline_model_parallel_size=}"
     )
+    pcp_world_size = get_pcp_group().world_size
+    assert pcp_world_size == prefill_context_model_parallel_size, (
+        "prefill context parallel group already initialized, but of unexpected size: "
+        f"{pcp_world_size=} vs. "
+        f"{prefill_context_model_parallel_size=}"
+    )
 
 
 def prepare_communication_buffer_for_model(model: torch.nn.Module):
@@ -1445,6 +1486,8 @@ def prepare_communication_buffer_for_model(model: torch.nn.Module):
     """
     if _TP is not None:
         _TP.prepare_communication_buffer_for_model(model)
+    if _PCP is not None:
+        _PCP.prepare_communication_buffer_for_model(model)
     if _PP is not None:
         _PP.prepare_communication_buffer_for_model(model)
     if _DP is not None:
@@ -1520,16 +1563,21 @@ def destroy_model_parallel():
         _TP.destroy()
     _TP = None
 
-    global _PP
-    if _PP:
-        _PP.destroy()
-    _PP = None
-
     global _DCP
     if _DCP:
         _DCP.destroy()
     _DCP = None
 
+    global _PCP
+    if _PCP:
+        _PCP.destroy()
+    _PCP = None
+
+    global _PP
+    if _PP:
+        _PP.destroy()
+    _PP = None
+
     global _DP
     if _DP:
         _DP.destroy()
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
index e2f7326448b3a..68205b6079d78 100644
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -389,8 +389,10 @@ class EngineArgs:
     nnodes: int = ParallelConfig.nnodes
     node_rank: int = ParallelConfig.node_rank
     tensor_parallel_size: int = ParallelConfig.tensor_parallel_size
+    prefill_context_parallel_size: int = ParallelConfig.prefill_context_parallel_size
     decode_context_parallel_size: int = ParallelConfig.decode_context_parallel_size
     dcp_kv_cache_interleave_size: int = ParallelConfig.dcp_kv_cache_interleave_size
+    cp_kv_cache_interleave_size: int = ParallelConfig.cp_kv_cache_interleave_size
     data_parallel_size: int = ParallelConfig.data_parallel_size
     data_parallel_rank: int | None = None
     data_parallel_start_rank: int | None = None
@@ -770,6 +772,15 @@ class EngineArgs:
             "--dcp-kv-cache-interleave-size",
             **parallel_kwargs["dcp_kv_cache_interleave_size"],
         )
+        parallel_group.add_argument(
+            "--cp-kv-cache-interleave-size",
+            **parallel_kwargs["cp_kv_cache_interleave_size"],
+        )
+        parallel_group.add_argument(
+            "--prefill-context-parallel-size",
+            "-pcp",
+            **parallel_kwargs["prefill_context_parallel_size"],
+        )
         parallel_group.add_argument(
             "--data-parallel-size", "-dp", **parallel_kwargs["data_parallel_size"]
         )
@@ -1600,6 +1611,7 @@ class EngineArgs:
         parallel_config = ParallelConfig(
             pipeline_parallel_size=self.pipeline_parallel_size,
             tensor_parallel_size=self.tensor_parallel_size,
+            prefill_context_parallel_size=self.prefill_context_parallel_size,
             data_parallel_size=self.data_parallel_size,
             data_parallel_rank=self.data_parallel_rank or 0,
             data_parallel_external_lb=data_parallel_external_lb,
@@ -1631,6 +1643,7 @@ class EngineArgs:
             worker_extension_cls=self.worker_extension_cls,
             decode_context_parallel_size=self.decode_context_parallel_size,
             dcp_kv_cache_interleave_size=self.dcp_kv_cache_interleave_size,
+            cp_kv_cache_interleave_size=self.cp_kv_cache_interleave_size,
             _api_process_count=self._api_process_count,
             _api_process_rank=self._api_process_rank,
         )
@@ -1952,6 +1965,15 @@ class EngineArgs:
             default_prefix_caching,
         ) = self.get_chunked_prefill_prefix_caching_defaults(model_config)
 
+        if self.prefill_context_parallel_size > 1:
+            default_chunked_prefill = False
+            default_prefix_caching = False
+            logger.warning(
+                "--prefill-context-parallel-size > 1 is not compatible with "
+                "chunked prefill and prefix caching now. Chunked prefill "
+                "and prefix caching have been disabled by default."
+            )
+
         if self.enable_chunked_prefill is None:
             self.enable_chunked_prefill = default_chunked_prefill
 
diff --git a/vllm/model_executor/layers/fused_moe/config.py b/vllm/model_executor/layers/fused_moe/config.py
index a7bd64b1c65e9..21eb4d590a7d1 100644
--- a/vllm/model_executor/layers/fused_moe/config.py
+++ b/vllm/model_executor/layers/fused_moe/config.py
@@ -8,7 +8,11 @@ import torch
 
 import vllm.envs as envs
 from vllm.config import ParallelConfig
-from vllm.distributed import get_dp_group, get_tensor_model_parallel_rank
+from vllm.distributed import (
+    get_dp_group,
+    get_pcp_group,
+    get_tensor_model_parallel_rank,
+)
 from vllm.logger import init_logger
 from vllm.model_executor.layers.quantization.utils.ocp_mx_utils import (
     OCP_MX_DTYPES,
@@ -684,9 +688,11 @@ FUSED_MOE_UNQUANTIZED_CONFIG: FusedMoEQuantConfig = FusedMoEQuantConfig.make()
 @dataclass
 class FusedMoEParallelConfig:
     tp_size: int
+    pcp_size: int
     dp_size: int
     ep_size: int
     tp_rank: int
+    pcp_rank: int
     dp_rank: int
     ep_rank: int
 
@@ -713,19 +719,22 @@ class FusedMoEParallelConfig:
         return self.use_all2all_kernels and self.all2all_backend == "deepep_low_latency"
 
     @staticmethod
-    def flatten_tp_across_dp(
-        tp_size: int, dp_size: int, dp_rank: int
+    def flatten_tp_across_dp_and_pcp(
+        tp_size: int, dp_size: int, dp_rank: int, pcp_size: int, pcp_rank: int
     ) -> tuple[int, int]:
         tp_rank = 0 if tp_size == 1 else get_tensor_model_parallel_rank()
-        # There are actually dp_size * tp_size devices. Update tp_size
-        # and tp_rank so we shard across all devices.
-        flatten_tp_size = dp_size * tp_size
-        flatten_tp_rank = dp_rank * tp_size + tp_rank
+        # There are actually dp_size * pcp_size * tp_size devices.
+        # Update tp_size and tp_rank so we shard across all devices.
+        flatten_tp_size = dp_size * pcp_size * tp_size
+        flatten_tp_rank = dp_rank * pcp_size * tp_size + pcp_rank * tp_size + tp_rank
         return flatten_tp_size, flatten_tp_rank
 
     @staticmethod
     def make(
-        tp_size_: int, dp_size_: int, vllm_parallel_config: ParallelConfig
+        tp_size_: int,
+        pcp_size_: int,
+        dp_size_: int,
+        vllm_parallel_config: ParallelConfig,
     ) -> "FusedMoEParallelConfig":
         """
         Determine MoE parallel configuration. Based on the input `tp_size_`,
@@ -734,19 +743,22 @@ class FusedMoEParallelConfig:
 
         Args:
             tp_size_ (int): `tp_size` passed into the FusedMoE constructor.
+            pcp_size_ (int): `pcp_size` passed into the FusedMoE constructor.
             dp_size_ (int): `dp_size` passed into the FusedMoE constructor.
             vllm_parallel_config (ParallelConfig): vLLM's parallel config
                 object which contains the `enable_expert_parallel` flag.
 
         Examples:
             When there is no parallelism requested,
-            i.e. `tp_size_` = `dp_size_` = 1, we simply return the sizes
+            i.e. `tp_size_` = `pcp_size_` = `dp_size_` = 1, we simply return the sizes
             unaltered and the ranks set to 0.
 
-            Expert Parallelism is considered only when either `dp_size_` or
+            Expert Parallelism is considered only when either `dp_size_`, `pcp_size_` or
             `tp_size_` is non trivial.
 
-            When TP = 2, DP = 1 and EP = False, the configuration on different
+            Note that PCP serves the same function as DP here.
+
+            When TP = 2, DP(PCP) = 1 and EP = False, the configuration on different
             devices:
 
             - device 0 : TP = {2, 0} DP = {1, 0} EP = {1, 0} //
@@ -754,7 +766,7 @@ class FusedMoEParallelConfig:
             - device 1 : TP = {2, 1} DP = {1, 0} EP = {1, 0}
             - Comment : Tensors are sharded across 2 devices.
 
-            When TP = 1, DP = 2 and EP = False, the configuration on different
+            When TP = 1, DP(PCP) = 2 and EP = False, the configuration on different
                 devices:
 
             - device 0 : TP = {2, 0} DP = {2, 0} EP = {1, 0}
@@ -762,7 +774,7 @@ class FusedMoEParallelConfig:
             - Comment: There are 2 engine instances and the tensors are sharded
                 across 2 decvices.
 
-            When TP = 2, DP = 2 and EP = False, the configuration on different
+            When TP = 2, DP(PCP) = 2 and EP = False, the configuration on different
                 devices:
 
             - device 0: TP = {4, 0} DP = {2, 0} EP = {1, 0}
@@ -772,14 +784,14 @@ class FusedMoEParallelConfig:
             - Comment: There are 2 engine instances and the tensors are sharded
                 across 4 devices.
 
-            When, TP = 2, DP = 1 and EP = True, the configuration on different
+            When, TP = 2, DP(PCP) = 1 and EP = True, the configuration on different
                 devices:
 
             - device 0: TP = {1, 0} DP = {1, 0} EP = {2, 0}
             - device 1: TP = {1, 0} DP = {1, 0} EP = {2, 1}
             - Comment: The experts are split between the 2 devices.
 
-            When, TP = 1, DP = 2 and EP = True, the configuration on different
+            When, TP = 1, DP(PCP) = 2 and EP = True, the configuration on different
                 devices:
 
             - device 0: TP = {1, 0} DP = {2, 0} EP = {2, 0}
@@ -787,7 +799,7 @@ class FusedMoEParallelConfig:
             - Comment: There are 2 engine instances and the experts are split
                 between the 2 devices.
 
-            When TP = 2, DP = 2 and EP = True, the configuration on different
+            When TP = 2, DP(PCP) = 2 and EP = True, the configuration on different
                 devices:
 
             - device 0: TP = {1, 0} DP = {2, 0} EP = {4, 0}
@@ -798,18 +810,25 @@ class FusedMoEParallelConfig:
                 between the 4 devices.
         """
 
-        use_ep = dp_size_ * tp_size_ > 1 and vllm_parallel_config.enable_expert_parallel
+        use_ep = (
+            dp_size_ * pcp_size_ * tp_size_ > 1
+            and vllm_parallel_config.enable_expert_parallel
+        )
 
         dp_size = dp_size_
         dp_rank = get_dp_group().rank_in_group if dp_size > 1 else 0
-        tp_size, tp_rank = FusedMoEParallelConfig.flatten_tp_across_dp(
-            tp_size_, dp_size_, dp_rank
+        pcp_size = pcp_size_
+        pcp_rank = get_pcp_group().rank_in_group if pcp_size > 1 else 0
+        tp_size, tp_rank = FusedMoEParallelConfig.flatten_tp_across_dp_and_pcp(
+            tp_size_, dp_size_, dp_rank, pcp_size_, pcp_rank
         )
 
         if not use_ep:
             return FusedMoEParallelConfig(
                 tp_size=tp_size,
                 tp_rank=tp_rank,
+                pcp_size=pcp_size,
+                pcp_rank=pcp_rank,
                 dp_size=dp_size,
                 dp_rank=dp_rank,
                 ep_size=1,
@@ -826,6 +845,8 @@ class FusedMoEParallelConfig:
         return FusedMoEParallelConfig(
             tp_size=1,
             tp_rank=0,
+            pcp_size=pcp_size,
+            pcp_rank=pcp_rank,
             dp_size=dp_size,
             dp_rank=dp_rank,
             ep_size=ep_size,
diff --git a/vllm/model_executor/layers/fused_moe/layer.py b/vllm/model_executor/layers/fused_moe/layer.py
index 8e9bba3442873..7b15e63e9e350 100644
--- a/vllm/model_executor/layers/fused_moe/layer.py
+++ b/vllm/model_executor/layers/fused_moe/layer.py
@@ -18,6 +18,7 @@ from vllm.config.parallel import ExpertPlacementStrategy
 from vllm.distributed import (
     get_dp_group,
     get_ep_group,
+    get_pcp_group,
     get_tensor_model_parallel_world_size,
     tensor_model_parallel_all_reduce,
 )
@@ -343,6 +344,7 @@ class FusedMoE(CustomOp):
         tp_size: int | None = None,
         ep_size: int | None = None,
         dp_size: int | None = None,
+        pcp_size: int | None = None,
         prefix: str = "",
         custom_routing_function: Callable | None = None,
         scoring_func: str = "softmax",
@@ -398,12 +400,14 @@ class FusedMoE(CustomOp):
             tp_size if tp_size is not None else get_tensor_model_parallel_world_size()
         )
         dp_size_ = dp_size if dp_size is not None else get_dp_group().world_size
+        pcp_size_ = pcp_size if pcp_size is not None else get_pcp_group().world_size
 
         self.is_sequence_parallel = is_sequence_parallel
         self.sp_size = tp_size_ if is_sequence_parallel else 1
 
         self.moe_parallel_config: FusedMoEParallelConfig = FusedMoEParallelConfig.make(
             tp_size_=tp_size_,
+            pcp_size_=pcp_size_,
             dp_size_=dp_size_,
             vllm_parallel_config=vllm_config.parallel_config,
         )
@@ -679,6 +683,10 @@ class FusedMoE(CustomOp):
     def dp_size(self):
         return self.moe_parallel_config.dp_size
 
+    @property
+    def pcp_size(self):
+        return self.moe_parallel_config.pcp_size
+
     @property
     def ep_size(self):
         return self.moe_parallel_config.ep_size
@@ -691,6 +699,10 @@ class FusedMoE(CustomOp):
     def dp_rank(self):
         return self.moe_parallel_config.dp_rank
 
+    @property
+    def pcp_rank(self):
+        return self.moe_parallel_config.pcp_rank
+
     @property
     def ep_rank(self):
         return self.moe_parallel_config.ep_rank
@@ -1871,6 +1883,19 @@ class FusedMoE(CustomOp):
                 assert self.shared_experts is not None
                 shared_output = self.shared_experts(hidden_states)
 
+            # NOTE: Similar with DP, PCP also needs dispatch and combine. For
+            # simplicity, AgRsAll2All was added separately for PCP here. Maybe
+            # we should modify All2AllManager abstract to better support PCP.
+            if self.pcp_size > 1:
+                hidden_states = get_pcp_group().all_gather(
+                    hidden_states,
+                    dim=0,
+                )
+                router_logits = get_pcp_group().all_gather(
+                    router_logits,
+                    dim=0,
+                )
+
             # Matrix multiply.
             final_hidden_states = self.quant_method.apply(
                 layer=self,
@@ -1925,6 +1950,13 @@ class FusedMoE(CustomOp):
             def combine_output(states: torch.Tensor) -> torch.Tensor:
                 if do_naive_dispatch_combine:
                     states = get_ep_group().combine(states, self.is_sequence_parallel)
+
+                if self.pcp_size > 1:
+                    states = get_pcp_group().reduce_scatter(
+                        states,
+                        dim=0,
+                    )
+
                 return states
 
             if self.shared_experts is not None:
diff --git a/vllm/model_executor/models/gpt_oss.py b/vllm/model_executor/models/gpt_oss.py
index f310f71af92d9..25048330f7974 100644
--- a/vllm/model_executor/models/gpt_oss.py
+++ b/vllm/model_executor/models/gpt_oss.py
@@ -13,6 +13,7 @@ from vllm.config import CacheConfig, VllmConfig
 from vllm.distributed import (
     get_dp_group,
     get_ep_group,
+    get_pcp_group,
     get_pp_group,
     get_tensor_model_parallel_rank,
     get_tensor_model_parallel_world_size,
@@ -322,10 +323,12 @@ class GptOssModel(nn.Module):
 
         # In MoE, we need to flatten the tensor parallel size across the data
         # parallel size when EP is disabled.
-        tp_size, tp_rank = FusedMoEParallelConfig.flatten_tp_across_dp(
+        tp_size, tp_rank = FusedMoEParallelConfig.flatten_tp_across_dp_and_pcp(
             tp_size=get_tensor_model_parallel_world_size(),
             dp_size=get_dp_group().world_size,
             dp_rank=get_dp_group().rank_in_group,
+            pcp_size=get_pcp_group().world_size,
+            pcp_rank=get_pcp_group().rank_in_group,
         )
 
         intermediate_size = self.config.intermediate_size
@@ -507,10 +510,12 @@ class GptOssModel(nn.Module):
 
         # In MoE, we need to flatten the tensor parallel size across the data
         # parallel size when EP is disabled.
-        tp_size, tp_rank = FusedMoEParallelConfig.flatten_tp_across_dp(
+        tp_size, tp_rank = FusedMoEParallelConfig.flatten_tp_across_dp_and_pcp(
             tp_size=get_tensor_model_parallel_world_size(),
             dp_size=get_dp_group().world_size,
             dp_rank=get_dp_group().rank_in_group,
+            pcp_size=get_pcp_group().world_size,
+            pcp_rank=get_pcp_group().rank_in_group,
         )
 
         intermediate_size = self.config.intermediate_size
diff --git a/vllm/v1/attention/backends/flash_attn.py b/vllm/v1/attention/backends/flash_attn.py
index fdc99a0df1c8a..cf3c1d05f5b3f 100755
--- a/vllm/v1/attention/backends/flash_attn.py
+++ b/vllm/v1/attention/backends/flash_attn.py
@@ -265,8 +265,8 @@ class FlashAttentionMetadataBuilder(AttentionMetadataBuilder[FlashAttentionMetad
             self.dcp_world_size = 1
             self.dcp_rank = 0
 
-        self.dcp_kv_cache_interleave_size = (
-            self.parallel_config.dcp_kv_cache_interleave_size
+        self.cp_kv_cache_interleave_size = (
+            self.parallel_config.cp_kv_cache_interleave_size
         )
 
         self.use_full_cuda_graph = (
@@ -388,7 +388,7 @@ class FlashAttentionMetadataBuilder(AttentionMetadataBuilder[FlashAttentionMetad
                 dcp_context_kv_lens_cpu,
                 self.dcp_world_size,
                 self.dcp_rank,
-                self.dcp_kv_cache_interleave_size,
+                self.cp_kv_cache_interleave_size,
             )
             dcp_context_kv_lens = dcp_context_kv_lens_cpu.to(self.device)
             max_dcp_context_kv_len = dcp_context_kv_lens.max().item()
diff --git a/vllm/v1/attention/backends/mla/common.py b/vllm/v1/attention/backends/mla/common.py
index e328049b53c7e..32f406980f2ed 100755
--- a/vllm/v1/attention/backends/mla/common.py
+++ b/vllm/v1/attention/backends/mla/common.py
@@ -536,7 +536,7 @@ class MLACommonMetadataBuilder(AttentionMetadataBuilder[M]):
             # DCP might not be initialized in testing
             self.dcp_world_size = 1
             self.dcp_rank = 0
-        self.dcp_local_block_size = parallel_config.dcp_kv_cache_interleave_size
+        self.dcp_local_block_size = parallel_config.cp_kv_cache_interleave_size
         self.dcp_virtual_block_size = self.dcp_local_block_size * self.dcp_world_size
 
         # Don't try to access the runner on AMD
@@ -1289,8 +1289,8 @@ class MLACommonImpl(MLACommonBaseImpl[M], Generic[M]):
                 get_current_vllm_config()
             )
         )
-        self.dcp_kv_cache_interleave_size: int = (
-            get_current_vllm_config().parallel_config.dcp_kv_cache_interleave_size
+        self.cp_kv_cache_interleave_size: int = (
+            get_current_vllm_config().parallel_config.cp_kv_cache_interleave_size
         )
 
     def _flash_attn_varlen_diff_headdims(
diff --git a/vllm/v1/attention/backends/utils.py b/vllm/v1/attention/backends/utils.py
index 0dd1896331291..540a8e2b1d016 100644
--- a/vllm/v1/attention/backends/utils.py
+++ b/vllm/v1/attention/backends/utils.py
@@ -1080,9 +1080,9 @@ def compute_causal_conv1d_metadata(query_start_loc_p: torch.Tensor):
 
 def get_dcp_local_seq_lens(
     seq_lens: torch.Tensor,
-    dcp_world_size: int = 1,
+    dcp_size: int = 1,
     dcp_rank: int | None = None,
-    dcp_kv_cache_interleave_size: int = 1,
+    cp_kv_cache_interleave_size: int = 1,
 ) -> torch.Tensor:
     """While using dcp, kv_cache size stored on each rank may be different,
     use this function to calculate split decode seq_lens of each dcp rank.
@@ -1091,7 +1091,7 @@ def get_dcp_local_seq_lens(
     num_requests = seq_lens.size(0)
     if dcp_rank is None:
         rank_offsets = (
-            torch.arange(dcp_world_size, dtype=torch.int32)
+            torch.arange(dcp_size, dtype=torch.int32)
             .unsqueeze(0)
             .repeat(num_requests, 1)
         )
@@ -1102,15 +1102,15 @@ def get_dcp_local_seq_lens(
     )
     base = (
         seq_lens_tiled
-        // dcp_kv_cache_interleave_size
-        // dcp_world_size
-        * dcp_kv_cache_interleave_size
+        // cp_kv_cache_interleave_size
+        // dcp_size
+        * cp_kv_cache_interleave_size
     )
-    remainder = seq_lens_tiled - base * dcp_world_size
+    remainder = seq_lens_tiled - base * dcp_size
     remainder = torch.clip(
-        remainder - rank_offsets * dcp_kv_cache_interleave_size,
+        remainder - rank_offsets * cp_kv_cache_interleave_size,
         0,
-        dcp_kv_cache_interleave_size,
+        cp_kv_cache_interleave_size,
     )
     dcp_local_seq_lens = base + remainder
     return dcp_local_seq_lens.squeeze(1)
diff --git a/vllm/v1/core/kv_cache_coordinator.py b/vllm/v1/core/kv_cache_coordinator.py
index 137e5e0cdb6d2..1531b61f88fe2 100644
--- a/vllm/v1/core/kv_cache_coordinator.py
+++ b/vllm/v1/core/kv_cache_coordinator.py
@@ -27,6 +27,7 @@ class KVCacheCoordinator(ABC):
         enable_caching: bool,
         enable_kv_cache_events: bool,
         dcp_world_size: int,
+        pcp_world_size: int,
     ):
         self.kv_cache_config = kv_cache_config
         self.max_model_len = max_model_len
@@ -44,6 +45,7 @@ class KVCacheCoordinator(ABC):
                 block_pool=self.block_pool,
                 kv_cache_group_id=i,
                 dcp_world_size=dcp_world_size,
+                pcp_world_size=pcp_world_size,
             )
             for i, kv_cache_group in enumerate(self.kv_cache_config.kv_cache_groups)
         )
@@ -210,6 +212,7 @@ class KVCacheCoordinatorNoPrefixCache(KVCacheCoordinator):
         use_eagle: bool,
         enable_kv_cache_events: bool,
         dcp_world_size: int,
+        pcp_world_size: int,
     ):
         super().__init__(
             kv_cache_config,
@@ -218,6 +221,7 @@ class KVCacheCoordinatorNoPrefixCache(KVCacheCoordinator):
             False,
             enable_kv_cache_events,
             dcp_world_size=dcp_world_size,
+            pcp_world_size=pcp_world_size,
         )
         self.num_single_type_manager = len(self.single_type_managers)
 
@@ -250,6 +254,7 @@ class UnitaryKVCacheCoordinator(KVCacheCoordinator):
         enable_caching: bool,
         enable_kv_cache_events: bool,
         dcp_world_size: int,
+        pcp_world_size: int,
     ):
         super().__init__(
             kv_cache_config,
@@ -258,12 +263,16 @@ class UnitaryKVCacheCoordinator(KVCacheCoordinator):
             enable_caching,
             enable_kv_cache_events,
             dcp_world_size=dcp_world_size,
+            pcp_world_size=pcp_world_size,
         )
         self.kv_cache_spec = self.kv_cache_config.kv_cache_groups[0].kv_cache_spec
         self.block_size = self.kv_cache_spec.block_size
         self.dcp_world_size = dcp_world_size
+        self.pcp_world_size = pcp_world_size
         if dcp_world_size > 1:
             self.block_size *= dcp_world_size
+        if pcp_world_size > 1:
+            self.block_size *= pcp_world_size
         assert len(self.kv_cache_config.kv_cache_groups) == 1, (
             "UnitaryKVCacheCoordinator assumes only one kv cache group"
         )
@@ -281,6 +290,7 @@ class UnitaryKVCacheCoordinator(KVCacheCoordinator):
             kv_cache_spec=self.kv_cache_spec,
             use_eagle=self.use_eagle,
             dcp_world_size=self.dcp_world_size,
+            pcp_world_size=self.pcp_world_size,
         )
         return hit_blocks, len(hit_blocks[0]) * self.block_size
 
@@ -302,6 +312,7 @@ class HybridKVCacheCoordinator(KVCacheCoordinator):
         enable_caching: bool,
         enable_kv_cache_events: bool,
         dcp_world_size: int,
+        pcp_world_size: int,
     ):
         super().__init__(
             kv_cache_config,
@@ -310,8 +321,10 @@ class HybridKVCacheCoordinator(KVCacheCoordinator):
             enable_caching,
             enable_kv_cache_events,
             dcp_world_size=dcp_world_size,
+            pcp_world_size=pcp_world_size,
         )
         assert dcp_world_size == 1, "DCP not support hybrid attn now."
+        assert pcp_world_size == 1, "PCP not support hybrid attn now."
         self.verify_and_split_kv_cache_groups()
 
     def verify_and_split_kv_cache_groups(self) -> None:
@@ -452,6 +465,7 @@ def get_kv_cache_coordinator(
     enable_caching: bool,
     enable_kv_cache_events: bool,
     dcp_world_size: int,
+    pcp_world_size: int,
 ) -> KVCacheCoordinator:
     if not enable_caching:
         return KVCacheCoordinatorNoPrefixCache(
@@ -460,6 +474,7 @@ def get_kv_cache_coordinator(
             use_eagle,
             enable_kv_cache_events,
             dcp_world_size=dcp_world_size,
+            pcp_world_size=pcp_world_size,
         )
     if len(kv_cache_config.kv_cache_groups) == 1:
         return UnitaryKVCacheCoordinator(
@@ -469,6 +484,7 @@ def get_kv_cache_coordinator(
             enable_caching,
             enable_kv_cache_events,
             dcp_world_size=dcp_world_size,
+            pcp_world_size=pcp_world_size,
         )
     return HybridKVCacheCoordinator(
         kv_cache_config,
@@ -477,4 +493,5 @@ def get_kv_cache_coordinator(
         enable_caching,
         enable_kv_cache_events,
         dcp_world_size=dcp_world_size,
+        pcp_world_size=pcp_world_size,
     )
diff --git a/vllm/v1/core/kv_cache_manager.py b/vllm/v1/core/kv_cache_manager.py
index 7f405fc248ac2..2012c3fef88bc 100644
--- a/vllm/v1/core/kv_cache_manager.py
+++ b/vllm/v1/core/kv_cache_manager.py
@@ -100,6 +100,7 @@ class KVCacheManager:
         log_stats: bool = False,
         enable_kv_cache_events: bool = False,
         dcp_world_size: int = 1,
+        pcp_world_size: int = 1,
     ) -> None:
         self.max_model_len = max_model_len
 
@@ -124,12 +125,9 @@ class KVCacheManager:
                 0
             ].kv_cache_spec.block_size
 
-            if dcp_world_size > 1:
+            if dcp_world_size * pcp_world_size > 1:
                 assert len(kv_cache_config.kv_cache_groups) == 1
-                # Note(hc): need revisit. When both DCP and any future
-                # PCP are enabled, the block_size may need to be scaled
-                # by a factor of dcp_size × pcp_size?
-                self.block_size *= dcp_world_size
+                self.block_size *= dcp_world_size * pcp_world_size
 
         self.coordinator = get_kv_cache_coordinator(
             kv_cache_config=kv_cache_config,
@@ -138,6 +136,7 @@ class KVCacheManager:
             enable_caching=self.enable_caching,
             enable_kv_cache_events=enable_kv_cache_events,
             dcp_world_size=dcp_world_size,
+            pcp_world_size=pcp_world_size,
         )
         self.num_kv_cache_groups = len(kv_cache_config.kv_cache_groups)
         self.block_pool = self.coordinator.block_pool
diff --git a/vllm/v1/core/kv_cache_utils.py b/vllm/v1/core/kv_cache_utils.py
index 6e026215d4022..01ecd881115df 100644
--- a/vllm/v1/core/kv_cache_utils.py
+++ b/vllm/v1/core/kv_cache_utils.py
@@ -1219,11 +1219,16 @@ def _report_kv_cache_config(
         // len(kv_cache_config.kv_cache_groups)
         * min_block_size
     )
-    if vllm_config.parallel_config.decode_context_parallel_size > 1:
-        num_tokens *= vllm_config.parallel_config.decode_context_parallel_size
+    dcp_size = vllm_config.parallel_config.decode_context_parallel_size
+    pcp_size = vllm_config.parallel_config.prefill_context_parallel_size
+    if pcp_size * dcp_size > 1:
+        num_tokens *= pcp_size * dcp_size
         logger.info(
-            "Multiplying the GPU KV cache size by the dcp_world_size %d.",
-            vllm_config.parallel_config.decode_context_parallel_size,
+            "Multiplying the GPU KV cache size by the cp_world_size %d "
+            "(pcp_world_size %d * dcp_world_size %d).",
+            pcp_size * dcp_size,
+            pcp_size,
+            dcp_size,
         )
     num_tokens_str = f"{num_tokens:,}"
     logger.info_once("GPU KV cache size: %s tokens", num_tokens_str, scope="local")
diff --git a/vllm/v1/core/sched/scheduler.py b/vllm/v1/core/sched/scheduler.py
index 4323141c435b7..4cc4c29591cc0 100644
--- a/vllm/v1/core/sched/scheduler.py
+++ b/vllm/v1/core/sched/scheduler.py
@@ -121,6 +121,7 @@ class Scheduler(SchedulerInterface):
 
         self.block_size = block_size
         self.dcp_world_size = vllm_config.parallel_config.decode_context_parallel_size
+        self.pcp_world_size = vllm_config.parallel_config.prefill_context_parallel_size
 
         # req_id -> Request
         self.requests: dict[str, Request] = {}
@@ -183,6 +184,7 @@ class Scheduler(SchedulerInterface):
             log_stats=self.log_stats,
             enable_kv_cache_events=self.enable_kv_cache_events,
             dcp_world_size=self.dcp_world_size,
+            pcp_world_size=self.pcp_world_size,
         )
         self.use_pp = self.parallel_config.pipeline_parallel_size > 1
 
diff --git a/vllm/v1/core/single_type_kv_cache_manager.py b/vllm/v1/core/single_type_kv_cache_manager.py
index 14ac83028ee44..d90ec550f7666 100644
--- a/vllm/v1/core/single_type_kv_cache_manager.py
+++ b/vllm/v1/core/single_type_kv_cache_manager.py
@@ -32,6 +32,7 @@ class SingleTypeKVCacheManager(ABC):
         block_pool: BlockPool,
         kv_cache_group_id: int,
         dcp_world_size: int = 1,
+        pcp_world_size: int = 1,
     ) -> None:
         """
         Initializes the SingleTypeKVCacheManager.
@@ -42,8 +43,9 @@ class SingleTypeKVCacheManager(ABC):
         """
         self.block_size = kv_cache_spec.block_size
         self.dcp_world_size = dcp_world_size
-        if self.dcp_world_size > 1:
-            self.block_size *= dcp_world_size
+        self.pcp_world_size = pcp_world_size
+        if dcp_world_size * pcp_world_size > 1:
+            self.block_size *= dcp_world_size * pcp_world_size
         self.kv_cache_spec = kv_cache_spec
         self.block_pool = block_pool
 
@@ -212,6 +214,7 @@ class SingleTypeKVCacheManager(ABC):
         kv_cache_spec: KVCacheSpec,
         use_eagle: bool,
         dcp_world_size: int = 1,
+        pcp_world_size: int = 1,
     ) -> tuple[list[KVCacheBlock], ...]:
         """
         Get the longest cache hit prefix of the blocks that is not longer than
@@ -303,6 +306,7 @@ class FullAttentionManager(SingleTypeKVCacheManager):
         kv_cache_spec: KVCacheSpec,
         use_eagle: bool,
         dcp_world_size: int = 1,
+        pcp_world_size: int = 1,
     ) -> tuple[list[KVCacheBlock], ...]:
         assert isinstance(
             kv_cache_spec, (FullAttentionSpec, ChunkedLocalAttentionSpec)
@@ -314,8 +318,8 @@ class FullAttentionManager(SingleTypeKVCacheManager):
             [] for _ in range(len(kv_cache_group_ids))
         )
         block_size = kv_cache_spec.block_size
-        if dcp_world_size > 1:
-            block_size *= dcp_world_size
+        if dcp_world_size * pcp_world_size > 1:
+            block_size *= dcp_world_size * pcp_world_size
         max_num_blocks = max_length // block_size
         for block_hash in itertools.islice(block_hashes, max_num_blocks):
             # block_hashes is a chain of block hashes. If a block hash is not
@@ -362,11 +366,13 @@ class SlidingWindowManager(SingleTypeKVCacheManager):
         kv_cache_spec: KVCacheSpec,
         use_eagle: bool,
         dcp_world_size: int = 1,
+        pcp_world_size: int = 1,
     ) -> tuple[list[KVCacheBlock], ...]:
         assert isinstance(kv_cache_spec, SlidingWindowSpec), (
             "SlidingWindowManager can only be used for sliding window groups"
         )
         assert dcp_world_size == 1, "DCP not support sliding window attn now."
+        assert pcp_world_size == 1, "PCP not support sliding window attn now."
 
         # The number of contiguous blocks needed for prefix cache hit.
         # -1 since the input token itself is also included in the window
@@ -476,6 +482,7 @@ class ChunkedLocalAttentionManager(SingleTypeKVCacheManager):
         kv_cache_spec: KVCacheSpec,
         use_eagle: bool,
         dcp_world_size: int = 1,
+        pcp_world_size: int = 1,
     ) -> tuple[list[KVCacheBlock], ...]:
         """
         For chunked local attention, we need to find the longest cache hit
@@ -516,6 +523,7 @@ class ChunkedLocalAttentionManager(SingleTypeKVCacheManager):
             "Hybrid KV cache is not supported for " + "eagle + chunked local attention."
         )
         assert dcp_world_size == 1, "DCP not support chunked local attn now."
+        assert pcp_world_size == 1, "PCP not support chunked local attn now."
         max_num_blocks = max_length // kv_cache_spec.block_size
         if max_length > 0:
             local_attention_start_idx = (
@@ -611,11 +619,13 @@ class MambaManager(SingleTypeKVCacheManager):
         kv_cache_spec: KVCacheSpec,
         use_eagle: bool,
         dcp_world_size: int = 1,
+        pcp_world_size: int = 1,
     ) -> tuple[list[KVCacheBlock], ...]:
         assert isinstance(kv_cache_spec, MambaSpec), (
             "MambaManager can only be used for mamba groups"
         )
         assert dcp_world_size == 1, "DCP not support mamba now."
+        assert pcp_world_size == 1, "PCP not support mamba now."
         computed_blocks: tuple[list[KVCacheBlock], ...] = tuple(
             [] for _ in range(len(kv_cache_group_ids))
         )
@@ -705,6 +715,7 @@ class CrossAttentionManager(SingleTypeKVCacheManager):
         kv_cache_spec: KVCacheSpec,
         use_eagle: bool,
         dcp_world_size: int = 1,
+        pcp_world_size: int = 1,
     ) -> tuple[list[KVCacheBlock], ...]:
         assert isinstance(kv_cache_spec, CrossAttentionSpec), (
             "CrossAttentionManager can only be used for cross-attention groups"
diff --git a/vllm/v1/engine/core.py b/vllm/v1/engine/core.py
index 3a25827cec385..6be19894d332a 100644
--- a/vllm/v1/engine/core.py
<!DOCTYPE html>
<html lang="en-US" data-theme="gitea-auto">
<head>
	<meta name="viewport" content="width=device-width, initial-scale=1">
	<title>Internal Server Error - 丝路新云-代码仓</title>
	<link rel="icon" href="/assets/img/favicon.svg" type="image/svg+xml">
	<link rel="alternate icon" href="/assets/img/favicon.png" type="image/png">
	<link rel="stylesheet" href="/assets/css/index.css?v=1.23.1">
<link rel="stylesheet" href="/assets/css/theme-gitea-auto.css?v=1.23.1">

</head>
<body>
	<div class="full height">
		<nav class="ui secondary menu">
			<div class="ui container tw-flex">
				<div class="item tw-flex-1">
					<a href="/" aria-label="Home">
						<img width="30" height="30" src="/assets/img/logo.svg" alt="Logo" aria-hidden="true">
					</a>
				</div>
				<div class="item">
					<button class="ui icon button disabled"><svg viewBox="0 0 16 16" class="svg octicon-three-bars" aria-hidden="true" width="16" height="16"><path d="M1 2.75A.75.75 0 0 1 1.75 2h12.5a.75.75 0 0 1 0 1.5H1.75A.75.75 0 0 1 1 2.75m0 5A.75.75 0 0 1 1.75 7h12.5a.75.75 0 0 1 0 1.5H1.75A.75.75 0 0 1 1 7.75M1.75 12h12.5a.75.75 0 0 1 0 1.5H1.75a.75.75 0 0 1 0-1.5"/></svg></button>
				</div>
			</div>
		</nav>
		<div class="divider tw-my-0"></div>
		<div role="main" class="page-content status-page-500">
			<div class="ui container" >
				<style> .ui.message.flash-message { text-align: left; } </style>
				

				<div class="status-page-error">
					<div class="status-page-error-title">500 Internal Server Error</div>
					
					<div class="tw-mt-8 tw-text-center">
						<p>Gitea Version: 1.23.1</p>
						
					</div>
				</div>
			</div>
		</div>
	</div>

	
	<script type="module">
		const embedded = document.querySelector('.page-content .page-content.status-page-500');
		if (embedded) {
			
			const embeddedParent = embedded.parentNode;
			let main = document.querySelector('.page-content');
			main = main ?? document.querySelector('body');
			main.prepend(document.createElement('hr'));
			main.prepend(embedded);
			embeddedParent.remove(); 
		}
	</script>
</body>
</html>