Isolate ray tests to avoid GCS timeout in one pytest session

shuyixiong · shuyixiong · commit 3f5e425f50c8 · 2026-05-19T23:15:08.000-07:00
Signed-off-by: shuyixiong &lt;219646547+shuyixiong@users.noreply.github.com&gt;
diff --git a/tests/integration/test_lists/test-db/l0_dgx_b200.yml b/tests/integration/test_lists/test-db/l0_dgx_b200.yml
@@ -99,7 +99,10 @@ l0_dgx_b200:
       orchestrator: ray
   tests:
     - unittest/llmapi/test_llm_multi_gpu_pytorch.py -m "gpu4"
-    - unittest/_torch/ray_orchestrator/multi_gpu/test_llm_update_weights_multi_gpu.py
+    - unittest/_torch/ray_orchestrator/multi_gpu/test_llm_update_weights_multi_gpu.py -m "part0"
+    - unittest/_torch/ray_orchestrator/multi_gpu/test_llm_update_weights_multi_gpu.py -m "part1"
+    - unittest/_torch/ray_orchestrator/multi_gpu/test_llm_update_weights_multi_gpu.py -m "part2"
+    - unittest/_torch/ray_orchestrator/multi_gpu/test_llm_update_weights_multi_gpu.py -m "part3"
     - accuracy/test_llm_api_pytorch.py::TestLlama3_1_8BInstruct::test_fp8_4gpus[tp4-fp8kv=False-attn_backend=TRTLLM-torch_compile=False]
     - accuracy/test_llm_api_pytorch.py::TestLlama3_1_8BInstruct::test_fp8_4gpus[tp2pp2-fp8kv=False-attn_backend=TRTLLM-torch_compile=False]
     - disaggregated/test_disaggregated.py::test_disaggregated_ctxpp2_genpp2[TinyLlama-1.1B-Chat-v1.0]
diff --git a/tests/integration/test_lists/test-db/l0_dgx_h100.yml b/tests/integration/test_lists/test-db/l0_dgx_h100.yml
@@ -319,6 +319,11 @@ l0_dgx_h100:
       orchestrator: ray
   tests:
     - unittest/_torch/ray_orchestrator/multi_gpu -m "gpu2"
+    - unittest/_torch/ray_orchestrator/multi_gpu/test_ops.py -m "part0"
+    - unittest/_torch/ray_orchestrator/multi_gpu/test_ops.py -m "part1"
+    - unittest/_torch/ray_orchestrator/multi_gpu/test_ops.py -m "part2"
+    - unittest/_torch/ray_orchestrator/multi_gpu/test_ops.py -m "part3"
+    - unittest/_torch/ray_orchestrator/multi_gpu/test_ops.py -m "part4"
     - unittest/llmapi/test_llm_multi_gpu_pytorch.py -m "gpu2"
     - unittest/llmapi/test_async_llm.py -m "gpu2"
     - accuracy/test_llm_api_pytorch_ray.py::TestLlama3_1_8BInstruct::test_pp2_ray
diff --git a/tests/unittest/_torch/ray_orchestrator/multi_gpu/test_llm_update_weights_multi_gpu.py b/tests/unittest/_torch/ray_orchestrator/multi_gpu/test_llm_update_weights_multi_gpu.py
@@ -25,6 +25,7 @@
 from tensorrt_llm.llmapi import KvCacheConfig, SamplingParams
 
 
+@pytest.mark.part0
 @skip_pre_blackwell
 @pytest.mark.parametrize(
     "model_dir, fp8_model_dir",
@@ -85,6 +86,7 @@ def test_llm_update_weights_fp8(model_dir, fp8_model_dir):
     compare_logits(llm_logits, ref_logits)
 
 
+@pytest.mark.part1
 @skip_pre_blackwell
 @pytest.mark.parametrize(
     "model_dir, fp8_model_dir",
@@ -434,6 +436,7 @@ def get_weight_ipc_handles_serialized(
         return ret
 
 
+@pytest.mark.part2
 @skip_pre_blackwell
 @pytest.mark.parametrize(
     "model_dir",
@@ -496,6 +499,7 @@ def test_llm_update_weights_nvfp4(model_dir, kv_cache_dtype):
         compare_logits(llm_logits, ref_logits, threshold=0.8)
 
 
+@pytest.mark.part3
 @skip_pre_blackwell
 @pytest.mark.parametrize(
     "model_dir",
diff --git a/tests/unittest/_torch/ray_orchestrator/multi_gpu/test_ops.py b/tests/unittest/_torch/ray_orchestrator/multi_gpu/test_ops.py
@@ -86,7 +86,7 @@ def run(self, pg_op_name: str, test_tensor: torch.Tensor,
         return True
 
 
-@pytest.mark.gpu2
+@pytest.mark.part0
 @pytest.mark.parametrize("hidden_size", [128, 1024],
                          ids=lambda x: f"hidden:{x}")
 @pytest.mark.parametrize("seq_len", [16, 64], ids=lambda x: f"seqlen:{x}")
@@ -148,7 +148,7 @@ def test_allgather_pg_op(setup_ray_cluster, seq_len, hidden_size, var_len):
         assert r is True
 
 
-@pytest.mark.gpu2
+@pytest.mark.part1
 @pytest.mark.parametrize("hidden_size", [128, 1024],
                          ids=lambda x: f"hidden:{x}")
 @pytest.mark.parametrize("seq_len", [16, 64], ids=lambda x: f"seqlen:{x}")
@@ -208,7 +208,7 @@ def test_reducescatter_pg_op(setup_ray_cluster, seq_len, hidden_size, var_len):
         assert r is True
 
 
-@pytest.mark.gpu2
+@pytest.mark.part2
 @pytest.mark.parametrize("hidden_size", [128, 1024],
                          ids=lambda x: f"hidden:{x}")
 @pytest.mark.parametrize("seq_len", [16, 64], ids=lambda x: f"seqlen:{x}")
@@ -353,7 +353,7 @@ def run_tp_cp_broadcast(self, root_obj, root: int = 0):
         return result == root_obj
 
 
-@pytest.mark.gpu2
+@pytest.mark.part3
 @pytest.mark.parametrize("hidden_size", [128, 512], ids=lambda x: f"hidden:{x}")
 @pytest.mark.parametrize("seq_len", [16, 32], ids=lambda x: f"seqlen:{x}")
 def test_cp_broadcast_tensor(setup_ray_cluster, seq_len, hidden_size):
@@ -394,7 +394,7 @@ def test_cp_broadcast_tensor(setup_ray_cluster, seq_len, hidden_size):
         assert r is True, "Tensor broadcast from root=0 failed"
 
 
-@pytest.mark.gpu2
+@pytest.mark.part4
 @pytest.mark.parametrize("test_object", [
     {
         "key1": "value1",