diff --git a/tests/models/language/generation/test_common.py b/tests/models/language/generation/test_common.py
index 3fc265194e2a..b161cc7153b8 100644
--- a/tests/models/language/generation/test_common.py
+++ b/tests/models/language/generation/test_common.py
@@ -100,7 +100,7 @@ AITER_MODEL_LIST = [
             "allenai/OLMoE-1B-7B-0924-Instruct",
             marks=[pytest.mark.cpu_model],
         ),
-        pytest.param("swiss-ai/Apertus-8B-2509"),  # apertus
+        pytest.param("swiss-ai/Apertus-8B-Instruct-2509"),  # apertus
     ],
 )
 @pytest.mark.parametrize("max_tokens", [32])
diff --git a/tests/models/language/pooling/test_token_classification.py b/tests/models/language/pooling/test_token_classification.py
index f72dfb46d9fd..784d9fc31267 100644
--- a/tests/models/language/pooling/test_token_classification.py
+++ b/tests/models/language/pooling/test_token_classification.py
@@ -67,4 +67,4 @@ def test_modernbert_models(
     for hf_output, vllm_output in zip(hf_outputs, vllm_outputs):
         hf_output = torch.tensor(hf_output).cpu().float()
         vllm_output = torch.tensor(vllm_output).cpu().float()
-        assert torch.allclose(hf_output, vllm_output, 1e-2)
+        assert torch.allclose(hf_output, vllm_output, atol=1e-2)
diff --git a/tests/models/multimodal/generation/test_common.py b/tests/models/multimodal/generation/test_common.py
index 475c2ad55f73..0572898368d6 100644
--- a/tests/models/multimodal/generation/test_common.py
+++ b/tests/models/multimodal/generation/test_common.py
@@ -749,6 +749,7 @@ VLM_TEST_SETTINGS = {
         max_num_seqs=2,
         auto_cls=AutoModelForImageTextToText,
         hf_output_post_proc=model_utils.smolvlm_trunc_hf_output,
+        num_logprobs=10,
     ),
     "tarsier": VLMTestInfo(
         models=["omni-research/Tarsier-7b"],
diff --git a/tests/models/multimodal/pooling/test_clip.py b/tests/models/multimodal/pooling/test_clip.py
index b8c6c4abace9..95c678558f4f 100644
--- a/tests/models/multimodal/pooling/test_clip.py
+++ b/tests/models/multimodal/pooling/test_clip.py
@@ -45,14 +45,16 @@ def _run_test(
 
         all_outputs = []
         for inputs in all_inputs:
+            inputs = hf_model.wrap_device(inputs)
+
             if "pixel_values" in inputs:
-                inputs.pop("input_ids")
                 pooled_output = hf_model.model.get_image_features(
-                    **hf_model.wrap_device(inputs)
+                    pixel_values=inputs.pixel_values,
                 ).squeeze(0)
             else:
                 pooled_output = hf_model.model.get_text_features(
-                    **hf_model.wrap_device(inputs)
+                    input_ids=inputs.input_ids,
+                    attention_mask=inputs.attention_mask,
                 ).squeeze(0)
 
             all_outputs.append(pooled_output.tolist())
diff --git a/tests/models/registry.py b/tests/models/registry.py
index c389c9c2d81e..b581eb1851cb 100644
--- a/tests/models/registry.py
+++ b/tests/models/registry.py
@@ -172,9 +172,8 @@ class _HfExamplesInfo:
 _TEXT_GENERATION_EXAMPLE_MODELS = {
     # [Decoder-only]
     "ApertusForCausalLM": _HfExamplesInfo(
-        "swiss-ai/Apertus-8B-2509",
+        "swiss-ai/Apertus-8B-Instruct-2509",
         min_transformers_version="4.56.0",
-        trust_remote_code=True,
     ),
     "AquilaModel": _HfExamplesInfo("BAAI/AquilaChat-7B", trust_remote_code=True),
     "AquilaForCausalLM": _HfExamplesInfo("BAAI/AquilaChat2-7B", trust_remote_code=True),