[TRTLLM-8768][chore] Fuse QK down_proj with indexer K + weight_proj for FP4 ckpt (#8771)

chang-l · web-flow · commit e57d83c5dca1 · 2025-11-05T07:57:09.000-08:00
diff --git a/tensorrt_llm/_torch/attention_backend/sparse/dsa.py b/tensorrt_llm/_torch/attention_backend/sparse/dsa.py
@@ -629,6 +629,7 @@ def __init__(self,
         self.scale_fmt = "ue8m0"
         self.aux_stream = aux_stream
         self.ln_events = [torch.cuda.Event(), torch.cuda.Event()]
+        self.weight_scale_factor = self.softmax_scale * self.n_heads**-0.5
 
     @staticmethod
     def prepare_one_prefill_chunk(
@@ -1105,65 +1106,86 @@ def sparse_attn_indexer(
 
         return topk_indices_buffer
 
+    def weight_scale(self, hidden_states: torch.Tensor,
+                     indexer_weights: Optional[torch.Tensor],
+                     q_scale: torch.Tensor) -> torch.Tensor:
+        weights = indexer_weights if indexer_weights is not None else self.weights_proj(
+            hidden_states)
+        weights = weights.unsqueeze(-1) * q_scale * self.weight_scale_factor
+        # output weights is guaranteed to be float32 due to type promotion from q_scale (float32)
+        weights = weights.squeeze(-1)
+        return weights
+
     @torch.inference_mode()
     def forward(self, qr: torch.Tensor, hidden_states: torch.Tensor,
                 metadata: DSAtrtllmAttentionMetadata,
-                position_ids: torch.Tensor):
+                position_ids: torch.Tensor, indexer_k: Optional[torch.Tensor],
+                indexer_weights: Optional[torch.Tensor]):
         quant_block_size = metadata.kv_cache_manager.quant_block_size
         assert quant_block_size == 128, "Only support quant_block_size = 128 for now"
 
+        if indexer_k is not None:
+            q, k = maybe_execute_in_parallel(
+                lambda: self.wq_b(
+                    qr),  # TODO: fuse wq_b and move this outside of the indexer
+                lambda: self.k_norm(indexer_k),
+                self.ln_events[0],
+                self.ln_events[1],
+                self.aux_stream,
+            )
+        else:
+            q, k = maybe_execute_in_parallel(
+                lambda: self.wq_b(qr),
+                lambda: self.k_norm(self.wk(hidden_states)),
+                self.ln_events[0],
+                self.ln_events[1],
+                self.aux_stream,
+            )
+
+        # q/k rope + possible fast_hadamard_transform
+        q = q.view(-1, self.n_heads, self.head_dim)
+
         q, k = maybe_execute_in_parallel(
-            lambda: self.wq_b(qr),
-            lambda: self.wk(hidden_states),
+            lambda: torch.split(
+                q, [self.rope_dim, self.head_dim - self.rope_dim], dim=-1),
+            lambda: torch.split(
+                k, [self.rope_dim, self.head_dim - self.rope_dim], dim=-1),
             self.ln_events[0],
             self.ln_events[1],
             self.aux_stream,
         )
-        q = q.view(-1, self.n_heads, self.head_dim)
-        q_pe, q_nope = torch.split(
-            q, [self.rope_dim, self.head_dim - self.rope_dim], dim=-1)
-        k = self.k_norm(k)
-        k_pe, k_nope = torch.split(
-            k, [self.rope_dim, self.head_dim - self.rope_dim], dim=-1)
 
-        # k_pe needs unsqueeze to match n_heads
+        q_pe, q_nope = q
+        k_pe, k_nope = k
         q_pe, k_pe = self.rotary_emb(position_ids, [q_pe, k_pe.unsqueeze(1)])
-        q = torch.cat([q_pe, q_nope], dim=-1)
-        # Remove head dimension (size 1) for MQA k
-        k = torch.cat([k_pe[:, 0, :], k_nope], dim=-1)
 
-        q, k = maybe_execute_in_parallel(
-            lambda: rotate_activation(q),
-            lambda: rotate_activation(k),
-            self.ln_events[0],
-            self.ln_events[1],
-            self.aux_stream,
-        )
-        # we only quant q here since k quant is fused with cache insertion
-        q = q.view(-1, self.head_dim)
+        k_pe = k_pe[:, 0, :]
+
+        def _prep_q_or_k(qk_pe, qk_nope):
+            q_or_k = torch.cat([qk_pe, qk_nope], dim=-1)
+            q_or_k = rotate_activation(q_or_k)
+            q_or_k = q_or_k.view(-1, self.head_dim)
+            q_or_k = fp8_utils.fp8_quantize_1x128_sf_transpose(
+                q_or_k, use_ue8m0=self.scale_fmt == "ue8m0")
+            return q_or_k
 
         q, k = maybe_execute_in_parallel(
-            lambda: fp8_utils.fp8_quantize_1x128_sf_transpose(
-                q, use_ue8m0=self.scale_fmt == "ue8m0"),
-            lambda: fp8_utils.fp8_quantize_1x128_sf_transpose(
-                k, use_ue8m0=self.scale_fmt == "ue8m0"),
+            lambda: _prep_q_or_k(q_pe, q_nope),
+            lambda: _prep_q_or_k(k_pe, k_nope),
             self.ln_events[0],
             self.ln_events[1],
             self.aux_stream,
         )
+
         q_fp8, q_scale = q
         k_fp8, k_scale = k
         q_fp8 = q_fp8.view(-1, self.n_heads, self.head_dim)
         q_scale = q_scale.view(-1, self.n_heads, 1)
 
-        weights = self.weights_proj(hidden_states)
-        weights = weights.unsqueeze(
-            -1) * q_scale * self.softmax_scale * self.n_heads**-0.5
-        weights = weights.squeeze(-1)
-
+        weights = self.weight_scale(hidden_states, indexer_weights, q_scale)
         # Return topk indices buffer for sparse attention [num_tokens, index_topk]
         return self.sparse_attn_indexer(metadata, hidden_states, q_fp8, k_fp8,
-                                        k_scale, weights.to(torch.float32))
+                                        k_scale, weights)
 
 
 class DSATrtllmAttention(TrtllmAttention):
diff --git a/tensorrt_llm/_torch/models/modeling_deepseekv3.py b/tensorrt_llm/_torch/models/modeling_deepseekv3.py
@@ -363,8 +363,9 @@ def split_kv_b_proj(kv_b_proj: torch.Tensor,
                                 [q_a_proj_scale, fused_a_scale], dim=0)
 
                         module.weight_scale.data.copy_(fused_a_scale)
-
-                    module.weight.data.copy_(fused_a)
+                    # For DeepseekV32 with fuse_a_indexer_k_weight=True: kv_a_proj_with_mqa is oversized
+                    # to include indexer weights, which is filled in post_load_weights.
+                    module.weight.data[0:fused_a.shape[0]].copy_(fused_a)
                 elif names[-1] in params_map:
                     module_weights = []
                     for new_name in params_map[names[-1]]:
@@ -544,6 +545,79 @@ def __init__(
             use_custom_cublas_mm=True)
 
 
+class DeepseekV32Attention(MLA):
+
+    def __init__(
+        self,
+        model_config: ModelConfig[PretrainedConfig],
+        layer_idx: Optional[int] = None,
+        aux_stream: Optional[torch.cuda.Stream] = None,
+    ):
+        config = model_config.pretrained_config
+        predicted_tokens_per_seq = model_config.spec_config.max_total_draft_tokens + 1 if model_config.spec_config is not None else 1
+
+        # DSV3.2 nvfp4 ckpt has kv_a_proj_with_mqa module in bfloat16
+        # TODO: check it more directly/robustly, e.g., indexer_weight_quant == fuseA_quant == indexer_quant
+        if model_config.get_quant_config().quant_algo == QuantAlgo.NVFP4:
+            self.fuse_a_indexer_k_weight = True
+        else:
+            self.fuse_a_indexer_k_weight = False
+
+        super().__init__(hidden_size=config.hidden_size,
+                         num_attention_heads=config.num_attention_heads,
+                         num_key_value_heads=config.num_key_value_heads,
+                         qk_rope_head_dim=config.qk_rope_head_dim,
+                         qk_nope_head_dim=config.qk_nope_head_dim,
+                         q_lora_rank=config.q_lora_rank,
+                         kv_lora_rank=config.kv_lora_rank,
+                         v_head_dim=config.v_head_dim,
+                         predicted_tokens_per_seq=predicted_tokens_per_seq,
+                         max_position_embeddings=config.max_position_embeddings,
+                         bias=False,
+                         pos_embd_params=PositionalEmbeddingParams(
+                             type=PositionEmbeddingType.yarn,
+                             rope=RopeParams.from_config(config),
+                             is_neox=False,
+                         ),
+                         layer_idx=layer_idx,
+                         dtype=config.torch_dtype,
+                         config=model_config,
+                         aux_stream=aux_stream)
+
+        self.indexer = self.mqa.indexer
+
+        if self.fuse_a_indexer_k_weight:
+            # For DeepseekV32, the kv_a_proj_with_mqa includes:
+            # q_a_proj + kv_a_proj_with_mqa + indexer.wk + indexer.weights_proj
+            self.kv_a_proj_with_mqa = DeepseekV3Linear(
+                config.hidden_size,
+                self.kv_lora_rank + self.qk_rope_head_dim + self.q_lora_rank +
+                self.indexer.head_dim + self.indexer.n_heads,
+                bias=False,
+                dtype=config.torch_dtype,
+                quant_config=model_config.get_quant_config(),
+                skip_create_weights_in_init=model_config.
+                skip_create_weights_in_init,
+                use_custom_cublas_mm=True)
+
+    def post_load_weights(self):
+        if self.fuse_a_indexer_k_weight:
+            assert self.kv_a_proj_with_mqa.weight.data.dtype == self.indexer.wk.weight.data.dtype == self.indexer.weights_proj.weight.data.dtype, "all weights in kv_a_proj_with_mqa module must have matching dtype"
+            # Copy indexer weights into the fused kv_a_proj_with_mqa module
+            indexer_wk_weight = self.indexer.wk.weight.data
+            offset = self.kv_lora_rank + self.qk_rope_head_dim + self.q_lora_rank
+            self.kv_a_proj_with_mqa.weight.data[offset:offset +
+                                                self.indexer.head_dim].copy_(
+                                                    indexer_wk_weight)
+            offset += self.indexer.head_dim
+            indexer_weights_proj_weight = self.indexer.weights_proj.weight.data
+            self.kv_a_proj_with_mqa.weight.data[offset:offset +
+                                                self.indexer.n_heads].copy_(
+                                                    indexer_weights_proj_weight)
+            self.indexer.wk = None
+            self.indexer.weights_proj = None
+
+
 class Deepseekv3RoutingImpl():
 
     def __init__(
@@ -952,10 +1026,16 @@ def __init__(self,
             #KVCacheManager only support 1 layer for separate draft engine
             layer_idx_for_attention = layer_idx - model_config.pretrained_config.num_hidden_layers
 
-        self.self_attn = DeepseekV3Attention(
-            model_config,
-            layer_idx=layer_idx_for_attention,
-            aux_stream=aux_stream_dict[AuxStreamType.Attention])
+        if config.model_type == "deepseek_v32":
+            self.self_attn = DeepseekV32Attention(
+                model_config,
+                layer_idx=layer_idx_for_attention,
+                aux_stream=aux_stream_dict[AuxStreamType.Attention])
+        else:
+            self.self_attn = DeepseekV3Attention(
+                model_config,
+                layer_idx=layer_idx_for_attention,
+                aux_stream=aux_stream_dict[AuxStreamType.Attention])
         self.enable_attention_dp = mapping.enable_attention_dp
 
         self.mlp_tp_size = mapping.tp_size
diff --git a/tensorrt_llm/_torch/modules/attention.py b/tensorrt_llm/_torch/modules/attention.py
@@ -963,8 +963,6 @@ def yarn_get_mscale(scale=1, mscale=1):
         if not config.skip_create_weights_in_init:
             self.create_weights()
 
-        self.indexer = self.mqa.indexer if self.is_dsa else None
-
     def create_weights(self):
         # self.mha/mqa has no weights but has states that are related to quant_config,
         # which could be modified after __init__
@@ -1234,9 +1232,21 @@ def forward_impl_with_dsa(self, position_ids: Optional[torch.Tensor],
         if position_ids is not None:
             position_ids = position_ids[..., :num_tokens]
 
-        q, compressed_kv, k_pe = self.kv_a_proj_with_mqa(hidden_states).split(
-            [self.q_lora_rank, self.kv_lora_rank, self.qk_rope_head_dim], -1)
+        if self.fuse_a_indexer_k_weight:
+            q, compressed_kv, k_pe, indexer_k, indexer_weights = self.kv_a_proj_with_mqa(
+                hidden_states).split([
+                    self.q_lora_rank, self.kv_lora_rank, self.qk_rope_head_dim,
+                    self.indexer.head_dim, self.indexer.n_heads
+                ], -1)
+        else:
+            q, compressed_kv, k_pe = self.kv_a_proj_with_mqa(
+                hidden_states).split([
+                    self.q_lora_rank, self.kv_lora_rank, self.qk_rope_head_dim
+                ], -1)
+            indexer_k = None
+            indexer_weights = None
 
+        # TODO: possibly overlap/fuse q_a_rmsnorm + kv_a_rmsnorm + indexer.k_layernorm?
         q, compressed_kv = maybe_execute_in_parallel(
             lambda: self.q_a_layernorm(q),
             lambda: self.kv_a_layernorm(compressed_kv),
@@ -1245,23 +1255,25 @@ def forward_impl_with_dsa(self, position_ids: Optional[torch.Tensor],
             self.aux_stream,
         )
         qr = q
-        q, latent_cache = maybe_execute_in_parallel(
-            lambda: self.q_b_proj(q),
-            lambda: torch.concat([compressed_kv, k_pe], dim=-1),
-            self.ln_events[0],
-            self.ln_events[1],
-            self.aux_stream,
+        latent_cache = torch.concat([compressed_kv, k_pe], dim=-1)
+
+        # TODO: fuse wq_b + (indexer) wlq here
+        q = self.q_b_proj(q)
+        # Indexer
+        topk_indices = self.indexer(
+            qr,
+            hidden_states,
+            attn_metadata,
+            position_ids,
+            indexer_k=indexer_k,  # indexer K proj
+            indexer_weights=indexer_weights,  # indexer weights proj
         )
 
         assert q.shape[
             0] == num_tokens, f"Expect q.shape[0] to be {num_tokens}, but got {q.shape[0]}"
 
         assert output is not None, "output must be provided"
 
-        # Indexer
-        topk_indices = self.indexer(qr, hidden_states, attn_metadata,
-                                    position_ids)
-
         if num_contexts > 0:
             q_ctx = q[:num_ctx_tokens, ...]
             compressed_kv_ctx = compressed_kv[:num_ctx_tokens, ...]
diff --git a/tests/unittest/_torch/attention/sparse/test_sparse_mla_forward.py b/tests/unittest/_torch/attention/sparse/test_sparse_mla_forward.py
@@ -443,6 +443,7 @@ def yarn_get_mscale(scale=1, mscale=1):
             dtype=dtype,
             config=model_config,
         ).to(device)
+        mla.indexer = mla.mqa.indexer.to(device)
         mla_layers.append(mla)
 
     # Use the test layer
@@ -675,60 +676,20 @@ def yarn_get_mscale(scale=1, mscale=1):
         sum(batch_query_lens[:i + 1]) for i in range(len(batch_order))
     ]
     num_ctx_tokens = sum(query_lens[i] for i in ctx_indices)
-
-    def create_causal_indices(req_indices, cache_offset_start=0):
-        """Helper to create causal attention indices with padding."""
-        indices = []
-        kv_offset = cache_offset_start
-        for req_idx in req_indices:
-            for local_pos in range(query_lens[req_idx]):
-                num_attend = min(cached_lens[req_idx] + local_pos + 1,
-                                 topk_tokens)
-                attend_indices = torch.arange(
-                    num_attend, dtype=torch.int32, device=device) + kv_offset
-                if num_attend < topk_tokens:
-                    padding = torch.full((topk_tokens - num_attend, ),
-                                         -1,
-                                         dtype=torch.int32,
-                                         device=device)
-                    attend_indices = torch.cat([attend_indices, padding])
-                indices.append(attend_indices)
-            kv_offset += seq_lens[req_idx]
-        return torch.stack(indices, dim=0)
-
-    def local_to_global_indices(local_indices,
-                                req_indices,
-                                cache_offset_start=0):
-        """
-        Transform indexer's local indices to global indices.
-        """
-        global_indices = local_indices.clone()
-        kv_offset = cache_offset_start
-        token_idx = 0
-
-        for req_idx in req_indices:
-            num_tokens = query_lens[req_idx]
-            # Add offset for this request's cache position
-            for local_pos in range(num_tokens):
-                # Only transform non-padding indices (>= 0)
-                mask = global_indices[token_idx] >= 0
-                global_indices[token_idx][mask] += kv_offset
-                token_idx += 1
-            kv_offset += seq_lens[req_idx]
-        return global_indices
-
-    topk_indices_local = mla.mqa.indexer(qr, hidden_states, attn_metadata,
-                                         position_ids)
+    topk_indices_local = mla.mqa.indexer(
+        qr,
+        hidden_states,
+        attn_metadata,
+        position_ids,
+        None,  # indexer_k
+        None,  # indexer_weights
+    )
 
     # Validate indexer output against expected causal indices (since seq_len < topk=2048)
     if num_contexts > 0:
         # Transform context indices from local to global
         ctx_topk_local = topk_indices_local[:num_ctx_tokens]
 
-        # Create expected global indices (sorted) for validation (not used but can be used for validation)
-        expected_ctx_indices = create_causal_indices(ctx_indices,
-                                                     cache_offset_start=0)
-
         mla.forward_context_dsa(
             q=q[:num_ctx_tokens],
             compressed_kv=compressed_kv[:num_ctx_tokens],
@@ -747,11 +708,6 @@ def local_to_global_indices(local_indices,
         num_gen_tokens = sum(query_lens[i] for i in gen_indices)
         gen_topk_local = topk_indices_local[num_ctx_tokens:num_ctx_tokens +
                                             num_gen_tokens]
-
-        # Create expected global indices (sorted) for validation (not used but can be used for validation)
-        expected_gen_indices = create_causal_indices(gen_indices,
-                                                     cache_offset_start=0)
-
         mla.forward_generation_dsa(
             q=q[num_ctx_tokens:],
             compressed_kv=compressed_kv[num_ctx_tokens:],