Rename pretrain_config to pretrain_mock_config

cuichenx · claude · cuichenx · commit 920e9db930b7 · 2026-04-01T15:33:34.000-07:00
Rename all VLM pretrain recipe functions from *_pretrain_config to
*_pretrain_mock_config to clearly indicate they use mock datasets.
Updated imports in __init__.py, perf scripts, and examples.

Co-Authored-By: Claude Opus 4.6 (1M context) &lt;noreply@anthropic.com&gt;
Signed-off-by: Chen Cui &lt;chcui@nvidia.com&gt;
diff --git a/examples/decentralized_pg/pretrain_qwen3_vl_simple.py b/examples/decentralized_pg/pretrain_qwen3_vl_simple.py
@@ -32,15 +32,15 @@
 
 import torch
 
-from megatron.bridge.recipes.qwen_vl.qwen3_vl import qwen3_vl_30b_a3b_pretrain_config
+from megatron.bridge.recipes.qwen_vl.qwen3_vl import qwen3_vl_30b_a3b_pretrain_mock_config
 from megatron.bridge.training.pretrain import pretrain
 from megatron.bridge.training.vlm_step import forward_step
 
 
 def main() -> None:
     """Run Qwen3 pretraining with decentralized process groups enabled."""
     # Get the standard Qwen3 4B pretrain config with overrides
-    cfg = qwen3_vl_30b_a3b_pretrain_config(
+    cfg = qwen3_vl_30b_a3b_pretrain_mock_config(
         # Use mock data for demo
         mock=True,
         # Parallelism
diff --git a/scripts/performance/configs/qwen_vl/qwen3_vl_pretrain.py b/scripts/performance/configs/qwen_vl/qwen3_vl_pretrain.py
@@ -18,8 +18,8 @@
 from utils.precision import get_precision_config
 
 from megatron.bridge.recipes.qwen_vl.qwen3_vl import (
-    qwen3_vl_30b_a3b_pretrain_config,
-    qwen3_vl_235b_a22b_pretrain_config,
+    qwen3_vl_30b_a3b_pretrain_mock_config,
+    qwen3_vl_235b_a22b_pretrain_mock_config,
 )
 from megatron.bridge.training.comm_overlap import CommOverlapConfig
 from megatron.bridge.training.config import ConfigContainer
@@ -77,7 +77,7 @@ def set_qwen3_vl_common_configs(cfg: ConfigContainer) -> None:
     cfg.comm_overlap.overlap_grad_reduce = False
 
 
-def qwen3_vl_235b_a22b_pretrain_config_gb300(
+def qwen3_vl_235b_a22b_pretrain_mock_config_gb300(
     precision: str = "bf16", mock: bool = True, config_variant: str = "v1"
 ) -> ConfigContainer:
     """GB300, baseline config."""
@@ -90,7 +90,7 @@ def qwen3_vl_235b_a22b_pretrain_config_gb300(
             base_cfg = QWEN3_VL_235B_A22B_PRETRAIN_CONFIG_GB300_FP8_MX
         precision_config = get_precision_config(precision)
 
-    cfg = qwen3_vl_235b_a22b_pretrain_config(
+    cfg = qwen3_vl_235b_a22b_pretrain_mock_config(
         mock=mock,
         precision_config=precision_config,
         comm_overlap_config=CommOverlapConfig(tp_comm_overlap=True),
@@ -102,7 +102,7 @@ def qwen3_vl_235b_a22b_pretrain_config_gb300(
     return cfg
 
 
-def qwen3_vl_235b_a22b_pretrain_config_gb200(
+def qwen3_vl_235b_a22b_pretrain_mock_config_gb200(
     precision: str = "bf16", mock: bool = True, config_variant: str = "v1"
 ) -> ConfigContainer:
     """GB200, baseline config."""
@@ -115,7 +115,7 @@ def qwen3_vl_235b_a22b_pretrain_config_gb200(
             base_cfg = QWEN3_VL_235B_A22B_PRETRAIN_CONFIG_GB200_FP8_MX
         precision_config = get_precision_config(precision)
 
-    cfg = qwen3_vl_235b_a22b_pretrain_config(
+    cfg = qwen3_vl_235b_a22b_pretrain_mock_config(
         mock=mock,
         precision_config=precision_config,
         comm_overlap_config=CommOverlapConfig(tp_comm_overlap=True),
@@ -127,7 +127,7 @@ def qwen3_vl_235b_a22b_pretrain_config_gb200(
     return cfg
 
 
-def qwen3_vl_235b_a22b_pretrain_config_b200(
+def qwen3_vl_235b_a22b_pretrain_mock_config_b200(
     precision: str = "bf16", mock: bool = True, config_variant: str = "v1"
 ) -> ConfigContainer:
     """B200, baseline config."""
@@ -140,7 +140,7 @@ def qwen3_vl_235b_a22b_pretrain_config_b200(
             base_cfg = QWEN3_VL_235B_A22B_PRETRAIN_CONFIG_B200_FP8_MX
         precision_config = get_precision_config(precision)
 
-    cfg = qwen3_vl_235b_a22b_pretrain_config(
+    cfg = qwen3_vl_235b_a22b_pretrain_mock_config(
         mock=mock,
         precision_config=precision_config,
         comm_overlap_config=CommOverlapConfig(tp_comm_overlap=True),
@@ -157,7 +157,7 @@ def qwen3_vl_235b_a22b_pretrain_config_b200(
     return cfg
 
 
-def qwen3_vl_235b_a22b_pretrain_config_h100(
+def qwen3_vl_235b_a22b_pretrain_mock_config_h100(
     precision: str = "bf16", mock: bool = True, config_variant: str = "v1"
 ) -> ConfigContainer:
     """H100, baseline config."""
@@ -168,7 +168,7 @@ def qwen3_vl_235b_a22b_pretrain_config_h100(
         base_cfg = QWEN3_VL_235B_A22B_PRETRAIN_CONFIG_H100_FP8_CS
         precision_config = get_precision_config(precision)
 
-    cfg = qwen3_vl_235b_a22b_pretrain_config(
+    cfg = qwen3_vl_235b_a22b_pretrain_mock_config(
         mock=mock,
         precision_config=precision_config,
         comm_overlap_config=CommOverlapConfig(tp_comm_overlap=False),
@@ -180,7 +180,7 @@ def qwen3_vl_235b_a22b_pretrain_config_h100(
     return cfg
 
 
-def qwen3_vl_30b_a3b_pretrain_config_gb300(
+def qwen3_vl_30b_a3b_pretrain_mock_config_gb300(
     precision: str = "bf16", mock: bool = True, config_variant: str = "v1"
 ) -> ConfigContainer:
     """GB300, baseline config."""
@@ -193,7 +193,7 @@ def qwen3_vl_30b_a3b_pretrain_config_gb300(
             base_cfg = QWEN3_VL_30B_A3B_PRETRAIN_CONFIG_GB300_FP8_MX
         precision_config = get_precision_config(precision)
 
-    cfg = qwen3_vl_30b_a3b_pretrain_config(
+    cfg = qwen3_vl_30b_a3b_pretrain_mock_config(
         mock=mock,
         precision_config=precision_config,
         comm_overlap_config=CommOverlapConfig(tp_comm_overlap=True),
@@ -205,7 +205,7 @@ def qwen3_vl_30b_a3b_pretrain_config_gb300(
     return cfg
 
 
-def qwen3_vl_30b_a3b_pretrain_config_gb200(
+def qwen3_vl_30b_a3b_pretrain_mock_config_gb200(
     precision: str = "bf16", mock: bool = True, config_variant: str = "v1"
 ) -> ConfigContainer:
     """GB200, baseline config."""
@@ -218,7 +218,7 @@ def qwen3_vl_30b_a3b_pretrain_config_gb200(
             base_cfg = QWEN3_VL_30B_A3B_PRETRAIN_CONFIG_GB200_FP8_MX
         precision_config = get_precision_config(precision)
 
-    cfg = qwen3_vl_30b_a3b_pretrain_config(
+    cfg = qwen3_vl_30b_a3b_pretrain_mock_config(
         mock=mock,
         precision_config=precision_config,
         comm_overlap_config=CommOverlapConfig(tp_comm_overlap=True),
@@ -230,7 +230,7 @@ def qwen3_vl_30b_a3b_pretrain_config_gb200(
     return cfg
 
 
-def qwen3_vl_30b_a3b_pretrain_config_b200(
+def qwen3_vl_30b_a3b_pretrain_mock_config_b200(
     precision: str = "bf16", mock: bool = True, config_variant: str = "v1"
 ) -> ConfigContainer:
     """B200, baseline config."""
@@ -243,7 +243,7 @@ def qwen3_vl_30b_a3b_pretrain_config_b200(
             base_cfg = QWEN3_VL_30B_A3B_PRETRAIN_CONFIG_B200_FP8_MX
         precision_config = get_precision_config(precision)
 
-    cfg = qwen3_vl_30b_a3b_pretrain_config(
+    cfg = qwen3_vl_30b_a3b_pretrain_mock_config(
         mock=mock,
         precision_config=precision_config,
         comm_overlap_config=CommOverlapConfig(tp_comm_overlap=True),
@@ -255,7 +255,7 @@ def qwen3_vl_30b_a3b_pretrain_config_b200(
     return cfg
 
 
-def qwen3_vl_30b_a3b_pretrain_config_h100(
+def qwen3_vl_30b_a3b_pretrain_mock_config_h100(
     precision: str = "bf16", mock: bool = True, config_variant: str = "v1"
 ) -> ConfigContainer:
     """H100, baseline config."""
@@ -266,7 +266,7 @@ def qwen3_vl_30b_a3b_pretrain_config_h100(
         base_cfg = QWEN3_VL_30B_A3B_PRETRAIN_CONFIG_H100_FP8_CS
         precision_config = get_precision_config(precision)
 
-    cfg = qwen3_vl_30b_a3b_pretrain_config(
+    cfg = qwen3_vl_30b_a3b_pretrain_mock_config(
         mock=mock,
         precision_config=precision_config,
         comm_overlap_config=CommOverlapConfig(tp_comm_overlap=True),
diff --git a/src/megatron/bridge/recipes/qwen_vl/__init__.py b/src/megatron/bridge/recipes/qwen_vl/__init__.py
@@ -17,13 +17,13 @@
 from .qwen3_vl import (
     qwen3_vl_8b_peft_config,
     qwen3_vl_8b_peft_energon_config,
-    qwen3_vl_8b_pretrain_config,
+    qwen3_vl_8b_pretrain_mock_config,
     qwen3_vl_8b_sft_config,
     qwen3_vl_30b_a3b_peft_config,
-    qwen3_vl_30b_a3b_pretrain_config,
+    qwen3_vl_30b_a3b_pretrain_mock_config,
     qwen3_vl_30b_a3b_sft_config,
     qwen3_vl_235b_a22b_peft_config,
-    qwen3_vl_235b_a22b_pretrain_config,
+    qwen3_vl_235b_a22b_pretrain_mock_config,
     qwen3_vl_235b_a22b_sft_config,
 )
 from .qwen25_vl import (
@@ -44,19 +44,19 @@
     qwen35_vl_4b_peft_config,
     qwen35_vl_4b_sft_config,
     qwen35_vl_9b_peft_config,
-    qwen35_vl_9b_pretrain_config,
+    qwen35_vl_9b_pretrain_mock_config,
     qwen35_vl_9b_sft_config,
     qwen35_vl_27b_peft_config,
     qwen35_vl_27b_sft_config,
     qwen35_vl_35b_a3b_fsdp_sft_config,
     qwen35_vl_35b_a3b_peft_config,
-    qwen35_vl_35b_a3b_pretrain_config,
+    qwen35_vl_35b_a3b_pretrain_mock_config,
     qwen35_vl_35b_a3b_sft_config,
     qwen35_vl_122b_a10b_peft_config,
-    qwen35_vl_122b_a10b_pretrain_config,
+    qwen35_vl_122b_a10b_pretrain_mock_config,
     qwen35_vl_122b_a10b_sft_config,
     qwen35_vl_397b_a17b_peft_config,
-    qwen35_vl_397b_a17b_pretrain_config,
+    qwen35_vl_397b_a17b_pretrain_mock_config,
     qwen35_vl_397b_a17b_sft_config,
     qwen35_vl_800m_peft_config,
     qwen35_vl_800m_sft_config,
@@ -65,10 +65,10 @@
 
 __all__ = [
     # Qwen3.5-VL pretrain configs
-    "qwen35_vl_9b_pretrain_config",
-    "qwen35_vl_35b_a3b_pretrain_config",
-    "qwen35_vl_122b_a10b_pretrain_config",
-    "qwen35_vl_397b_a17b_pretrain_config",
+    "qwen35_vl_9b_pretrain_mock_config",
+    "qwen35_vl_35b_a3b_pretrain_mock_config",
+    "qwen35_vl_122b_a10b_pretrain_mock_config",
+    "qwen35_vl_397b_a17b_pretrain_mock_config",
     # Qwen3.5-VL SFT configs — dense
     "qwen35_vl_800m_sft_config",
     "qwen35_vl_2b_sft_config",
@@ -101,9 +101,9 @@
     "qwen25_vl_32b_peft_config",
     "qwen25_vl_72b_peft_config",
     # Qwen3-VL pretrain configs
-    "qwen3_vl_8b_pretrain_config",
-    "qwen3_vl_30b_a3b_pretrain_config",
-    "qwen3_vl_235b_a22b_pretrain_config",
+    "qwen3_vl_8b_pretrain_mock_config",
+    "qwen3_vl_30b_a3b_pretrain_mock_config",
+    "qwen3_vl_235b_a22b_pretrain_mock_config",
     # Qwen3-VL SFT configs
     "qwen3_vl_8b_sft_config",
     "qwen3_vl_30b_a3b_sft_config",
diff --git a/src/megatron/bridge/recipes/qwen_vl/qwen35_vl.py b/src/megatron/bridge/recipes/qwen_vl/qwen35_vl.py
@@ -193,7 +193,7 @@ def _qwen35_vl_apply_peft_scheme(cfg: ConfigContainer, peft_scheme: str | PEFT)
 # since both families share the same VLM architecture and mock-dataset pipeline.
 
 
-def qwen35_vl_9b_pretrain_config(**user_kwargs: Unpack[Qwen3VLCommonKwargs]) -> ConfigContainer:
+def qwen35_vl_9b_pretrain_mock_config(**user_kwargs: Unpack[Qwen3VLCommonKwargs]) -> ConfigContainer:
     """Return a pre-training config for Qwen3.5-VL 9B (dense).
 
     See `_qwen3_vl_common` for the full list of parameters.
@@ -211,7 +211,7 @@ def qwen35_vl_9b_pretrain_config(**user_kwargs: Unpack[Qwen3VLCommonKwargs]) ->
     return _qwen3_vl_common(**combined_kwargs)
 
 
-def qwen35_vl_35b_a3b_pretrain_config(**user_kwargs: Unpack[Qwen3VLCommonKwargs]) -> ConfigContainer:
+def qwen35_vl_35b_a3b_pretrain_mock_config(**user_kwargs: Unpack[Qwen3VLCommonKwargs]) -> ConfigContainer:
     """Return a pre-training config for Qwen3.5-VL 35B-A3B (MoE).
 
     See `_qwen3_vl_common` for the full list of parameters.
@@ -230,7 +230,7 @@ def qwen35_vl_35b_a3b_pretrain_config(**user_kwargs: Unpack[Qwen3VLCommonKwargs]
     return _qwen3_vl_common(**combined_kwargs)
 
 
-def qwen35_vl_122b_a10b_pretrain_config(**user_kwargs: Unpack[Qwen3VLCommonKwargs]) -> ConfigContainer:
+def qwen35_vl_122b_a10b_pretrain_mock_config(**user_kwargs: Unpack[Qwen3VLCommonKwargs]) -> ConfigContainer:
     """Return a pre-training config for Qwen3.5-VL 122B-A10B (MoE).
 
     See `_qwen3_vl_common` for the full list of parameters.
@@ -250,7 +250,7 @@ def qwen35_vl_122b_a10b_pretrain_config(**user_kwargs: Unpack[Qwen3VLCommonKwarg
     return _qwen3_vl_common(**combined_kwargs)
 
 
-def qwen35_vl_397b_a17b_pretrain_config(**user_kwargs: Unpack[Qwen3VLCommonKwargs]) -> ConfigContainer:
+def qwen35_vl_397b_a17b_pretrain_mock_config(**user_kwargs: Unpack[Qwen3VLCommonKwargs]) -> ConfigContainer:
     """Return a pre-training config for Qwen3.5-VL 397B-A17B (MoE).
 
     See `_qwen3_vl_common` for the full list of parameters.
diff --git a/src/megatron/bridge/recipes/qwen_vl/qwen3_vl.py b/src/megatron/bridge/recipes/qwen_vl/qwen3_vl.py
@@ -208,7 +208,7 @@ def _qwen3_vl_common(
 # =============================================================================
 
 
-def qwen3_vl_8b_pretrain_config(**user_kwargs: Unpack[Qwen3VLCommonKwargs]) -> ConfigContainer:
+def qwen3_vl_8b_pretrain_mock_config(**user_kwargs: Unpack[Qwen3VLCommonKwargs]) -> ConfigContainer:
     """Return a pre-training config for Qwen3-VL 8B Instruct.
 
     See `_qwen3_vl_common` for the full list of parameters.
@@ -226,7 +226,7 @@ def qwen3_vl_8b_pretrain_config(**user_kwargs: Unpack[Qwen3VLCommonKwargs]) -> C
     return _qwen3_vl_common(**combined_kwargs)
 
 
-def qwen3_vl_30b_a3b_pretrain_config(**user_kwargs: Unpack[Qwen3VLCommonKwargs]) -> ConfigContainer:
+def qwen3_vl_30b_a3b_pretrain_mock_config(**user_kwargs: Unpack[Qwen3VLCommonKwargs]) -> ConfigContainer:
     """Return a pre-training config for Qwen3-VL 30B-A3B (MoE).
 
     See `_qwen3_vl_common` for the full list of parameters.
@@ -245,7 +245,7 @@ def qwen3_vl_30b_a3b_pretrain_config(**user_kwargs: Unpack[Qwen3VLCommonKwargs])
     return _qwen3_vl_common(**combined_kwargs)
 
 
-def qwen3_vl_235b_a22b_pretrain_config(**user_kwargs: Unpack[Qwen3VLCommonKwargs]) -> ConfigContainer:
+def qwen3_vl_235b_a22b_pretrain_mock_config(**user_kwargs: Unpack[Qwen3VLCommonKwargs]) -> ConfigContainer:
     """Return a pre-training config for Qwen3-VL 235B-A22B (MoE).
 
     See `_qwen3_vl_common` for the full list of parameters.