[recipe] Add pretrain configs with mock dataset for Qwen3-VL and Qwen3.5-VL

cuichenx · claude · cuichenx · commit 696fd7f1c7e4 · 2026-04-01T15:24:45.000-07:00
Add pretrain recipe configs using MockVLMConversationProvider for VLM
pre-training with synthetic data. This restores previously deleted
pretrain configs and extends coverage to Qwen3.5-VL.

Qwen3-VL: 8B, 30B-A3B, 235B-A22B
Qwen3.5-VL: 9B, 35B-A3B, 122B-A10B, 397B-A17B

The configs use a shared _qwen3_vl_common helper with a Qwen3VLCommonKwargs
TypedDict for type-safe overrides. Existing perf scripts that import
qwen3_vl_30b_a3b_pretrain_config / qwen3_vl_235b_a22b_pretrain_config
continue to work without changes.

Co-Authored-By: Claude Opus 4.6 (1M context) &lt;noreply@anthropic.com&gt;
Signed-off-by: Chen Cui &lt;chcui@nvidia.com&gt;
diff --git a/src/megatron/bridge/recipes/qwen_vl/__init__.py b/src/megatron/bridge/recipes/qwen_vl/__init__.py
@@ -17,10 +17,13 @@
 from .qwen3_vl import (
     qwen3_vl_8b_peft_config,
     qwen3_vl_8b_peft_energon_config,
+    qwen3_vl_8b_pretrain_config,
     qwen3_vl_8b_sft_config,
     qwen3_vl_30b_a3b_peft_config,
+    qwen3_vl_30b_a3b_pretrain_config,
     qwen3_vl_30b_a3b_sft_config,
     qwen3_vl_235b_a22b_peft_config,
+    qwen3_vl_235b_a22b_pretrain_config,
     qwen3_vl_235b_a22b_sft_config,
 )
 from .qwen25_vl import (
@@ -41,22 +44,31 @@
     qwen35_vl_4b_peft_config,
     qwen35_vl_4b_sft_config,
     qwen35_vl_9b_peft_config,
+    qwen35_vl_9b_pretrain_config,
     qwen35_vl_9b_sft_config,
     qwen35_vl_27b_peft_config,
     qwen35_vl_27b_sft_config,
     qwen35_vl_35b_a3b_fsdp_sft_config,
     qwen35_vl_35b_a3b_peft_config,
+    qwen35_vl_35b_a3b_pretrain_config,
     qwen35_vl_35b_a3b_sft_config,
     qwen35_vl_122b_a10b_peft_config,
+    qwen35_vl_122b_a10b_pretrain_config,
     qwen35_vl_122b_a10b_sft_config,
     qwen35_vl_397b_a17b_peft_config,
+    qwen35_vl_397b_a17b_pretrain_config,
     qwen35_vl_397b_a17b_sft_config,
     qwen35_vl_800m_peft_config,
     qwen35_vl_800m_sft_config,
 )
 
 
 __all__ = [
+    # Qwen3.5-VL pretrain configs
+    "qwen35_vl_9b_pretrain_config",
+    "qwen35_vl_35b_a3b_pretrain_config",
+    "qwen35_vl_122b_a10b_pretrain_config",
+    "qwen35_vl_397b_a17b_pretrain_config",
     # Qwen3.5-VL SFT configs — dense
     "qwen35_vl_800m_sft_config",
     "qwen35_vl_2b_sft_config",
@@ -88,6 +100,10 @@
     "qwen25_vl_7b_peft_config",
     "qwen25_vl_32b_peft_config",
     "qwen25_vl_72b_peft_config",
+    # Qwen3-VL pretrain configs
+    "qwen3_vl_8b_pretrain_config",
+    "qwen3_vl_30b_a3b_pretrain_config",
+    "qwen3_vl_235b_a22b_pretrain_config",
     # Qwen3-VL SFT configs
     "qwen3_vl_8b_sft_config",
     "qwen3_vl_30b_a3b_sft_config",
diff --git a/src/megatron/bridge/recipes/qwen_vl/qwen35_vl.py b/src/megatron/bridge/recipes/qwen_vl/qwen35_vl.py
@@ -12,19 +12,23 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
-"""Qwen3.5-VL finetuning recipes.
+"""Qwen3.5-VL recipes.
 
-This module provides SFT and PEFT configurations for Qwen3.5-VL models:
+This module provides pretrain, SFT, and PEFT configurations for Qwen3.5-VL models:
 
 - **Dense**: 800M, 2B, 4B, 9B, 27B
 - **MoE**: 35B-A3B, 122B-A10B, 397B-A17B
 """
 
+from __future__ import annotations
+
 import torch
+from typing_extensions import Unpack
 
 from megatron.bridge import AutoBridge
 from megatron.bridge.peft.base import PEFT
 from megatron.bridge.recipes.common import _peft_common_vlm, _sft_common_vlm
+from megatron.bridge.recipes.qwen_vl.qwen3_vl import Qwen3VLCommonKwargs, _qwen3_vl_common
 from megatron.bridge.recipes.utils.finetune_utils import default_peft_config
 from megatron.bridge.recipes.utils.optimizer_utils import distributed_fused_adam_with_cosine_annealing
 from megatron.bridge.training.config import ConfigContainer
@@ -182,6 +186,90 @@ def _qwen35_vl_apply_peft_scheme(cfg: ConfigContainer, peft_scheme: str | PEFT)
         cfg.peft = peft_scheme
 
 
+# =============================================================================
+# Qwen3.5-VL Pretrain Configurations (mock dataset)
+# =============================================================================
+# Qwen3.5-VL reuses the Qwen3-VL _qwen3_vl_common helper for pretrain configs
+# since both families share the same VLM architecture and mock-dataset pipeline.
+
+
+def qwen35_vl_9b_pretrain_config(**user_kwargs: Unpack[Qwen3VLCommonKwargs]) -> ConfigContainer:
+    """Return a pre-training config for Qwen3.5-VL 9B (dense).
+
+    See `_qwen3_vl_common` for the full list of parameters.
+    """
+    recommended_kwargs: Qwen3VLCommonKwargs = {
+        "hf_path": "Qwen/Qwen3.5-9B",
+        "tensor_model_parallel_size": 4,
+        "pipeline_model_parallel_size": 1,
+        "expert_model_parallel_size": 1,
+        "freeze_language_model": True,
+        "freeze_vision_model": True,
+        "freeze_vision_projection": False,
+    }
+    combined_kwargs: Qwen3VLCommonKwargs = {**recommended_kwargs, **user_kwargs}
+    return _qwen3_vl_common(**combined_kwargs)
+
+
+def qwen35_vl_35b_a3b_pretrain_config(**user_kwargs: Unpack[Qwen3VLCommonKwargs]) -> ConfigContainer:
+    """Return a pre-training config for Qwen3.5-VL 35B-A3B (MoE).
+
+    See `_qwen3_vl_common` for the full list of parameters.
+    """
+    recommended_kwargs: Qwen3VLCommonKwargs = {
+        "hf_path": "Qwen/Qwen3.5-35B-A3B",
+        "tensor_model_parallel_size": 4,
+        "pipeline_model_parallel_size": 2,
+        "expert_model_parallel_size": 4,
+        "sequence_parallel": True,
+        "freeze_language_model": True,
+        "freeze_vision_model": True,
+        "freeze_vision_projection": False,
+    }
+    combined_kwargs: Qwen3VLCommonKwargs = {**recommended_kwargs, **user_kwargs}
+    return _qwen3_vl_common(**combined_kwargs)
+
+
+def qwen35_vl_122b_a10b_pretrain_config(**user_kwargs: Unpack[Qwen3VLCommonKwargs]) -> ConfigContainer:
+    """Return a pre-training config for Qwen3.5-VL 122B-A10B (MoE).
+
+    See `_qwen3_vl_common` for the full list of parameters.
+    """
+    recommended_kwargs: Qwen3VLCommonKwargs = {
+        "hf_path": "Qwen/Qwen3.5-122B-A10B",
+        "tensor_model_parallel_size": 4,
+        "pipeline_model_parallel_size": 8,
+        "expert_model_parallel_size": 8,
+        "context_parallel_size": 2,
+        "sequence_parallel": True,
+        "freeze_language_model": True,
+        "freeze_vision_model": True,
+        "freeze_vision_projection": False,
+    }
+    combined_kwargs: Qwen3VLCommonKwargs = {**recommended_kwargs, **user_kwargs}
+    return _qwen3_vl_common(**combined_kwargs)
+
+
+def qwen35_vl_397b_a17b_pretrain_config(**user_kwargs: Unpack[Qwen3VLCommonKwargs]) -> ConfigContainer:
+    """Return a pre-training config for Qwen3.5-VL 397B-A17B (MoE).
+
+    See `_qwen3_vl_common` for the full list of parameters.
+    """
+    recommended_kwargs: Qwen3VLCommonKwargs = {
+        "hf_path": "Qwen/Qwen3.5-397B-A17B",
+        "tensor_model_parallel_size": 4,
+        "pipeline_model_parallel_size": 16,
+        "expert_model_parallel_size": 16,
+        "context_parallel_size": 2,
+        "sequence_parallel": True,
+        "freeze_language_model": True,
+        "freeze_vision_model": True,
+        "freeze_vision_projection": False,
+    }
+    combined_kwargs: Qwen3VLCommonKwargs = {**recommended_kwargs, **user_kwargs}
+    return _qwen3_vl_common(**combined_kwargs)
+
+
 # =============================================================================
 # Qwen3.5-VL Dense SFT Configurations (800M, 2B, 4B, 9B, 27B)
 # =============================================================================
diff --git a/src/megatron/bridge/recipes/qwen_vl/qwen3_vl.py b/src/megatron/bridge/recipes/qwen_vl/qwen3_vl.py