NVIDIA
diff --git a/‎cpp/tensorrt_llm/common/attentionOp.cpp‎
Lines changed: 5 additions & 33 deletions b/‎cpp/tensorrt_llm/common/attentionOp.cpp‎
Lines changed: 5 additions & 33 deletions
diff --git a/‎cpp/tensorrt_llm/kernels/mlaKernels.cu‎
Lines changed: 99 additions & 0 deletions b/‎cpp/tensorrt_llm/kernels/mlaKernels.cu‎
Lines changed: 99 additions & 0 deletions
diff --git a/‎cpp/tensorrt_llm/nanobind/thop/bindings.cpp‎
Lines changed: 3 additions & 0 deletions b/‎cpp/tensorrt_llm/nanobind/thop/bindings.cpp‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎cpp/tensorrt_llm/pybind/thop/bindings.cpp‎
Lines changed: 4 additions & 1 deletion b/‎cpp/tensorrt_llm/pybind/thop/bindings.cpp‎
Lines changed: 4 additions & 1 deletion
diff --git a/‎cpp/tensorrt_llm/thop/CMakeLists.txt‎
Lines changed: 2 additions & 1 deletion b/‎cpp/tensorrt_llm/thop/CMakeLists.txt‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎cpp/tensorrt_llm/thop/attentionOp.cpp‎
Lines changed: 38 additions & 5 deletions b/‎cpp/tensorrt_llm/thop/attentionOp.cpp‎
Lines changed: 38 additions & 5 deletions
diff --git a/‎cpp/tensorrt_llm/thop/attentionOp.h‎
Lines changed: 4 additions & 1 deletion b/‎cpp/tensorrt_llm/thop/attentionOp.h‎
Lines changed: 4 additions & 1 deletion
@@ -977,33 +977,8 @@ int AttentionOp::mlaGeneration(
     // Workspace pointer shift
     int8_t* workspace_byte_ptr = reinterpret_cast<int8_t*>(params.workspace);
     size_t offset = 0;
-
-    size_t const cu_seqlens_size = sizeof(int) * (params.batch_size + 1);
-    size_t const fmha_scheduler_counter = sizeof(uint32_t);
-    size_t const mla_bmm1_scale_size = mFP8GenerationMLA ? sizeof(float) * 2 : 0;
-    size_t const mla_bmm2_scale_size = mFP8GenerationMLA ? sizeof(float) : 0;
-    size_t const quant_q_buffer_size = mFP8GenerationMLA
-        ? params.acc_q_len * size_t(mNumHeads * (mMLAParams.kv_lora_rank + mMLAParams.qk_rope_head_dim))
-        : 0;
-    int* cu_q_seqlens = reinterpret_cast<int*>(nextWorkspacePtr(workspace_byte_ptr, offset, cu_seqlens_size));
-    int* cu_kv_seqlens = reinterpret_cast<int*>(nextWorkspacePtr(workspace_byte_ptr, offset, cu_seqlens_size));
-    uint32_t* fmha_tile_counter_ptr
-        = reinterpret_cast<uint32_t*>(nextWorkspacePtr(workspace_byte_ptr, offset, fmha_scheduler_counter));
-    float* mla_bmm1_scale_ptr
-        = reinterpret_cast<float*>(nextWorkspacePtr(workspace_byte_ptr, offset, mla_bmm1_scale_size));
-    float* mla_bmm2_scale_ptr
-        = reinterpret_cast<float*>(nextWorkspacePtr(workspace_byte_ptr, offset, mla_bmm2_scale_size));
-    void* quant_q_buffer_ptr
-        = reinterpret_cast<__nv_fp8_e4m3*>(nextWorkspacePtr(workspace_byte_ptr, offset, quant_q_buffer_size));
     void* scratch_ptr = nextWorkspacePtr(workspace_byte_ptr, offset);
 
-    params.seqQOffset = cu_q_seqlens;
-    params.cu_kv_seqlens = cu_kv_seqlens;
-    params.fmha_tile_counter = fmha_tile_counter_ptr;
-    params.bmm1_scale = mla_bmm1_scale_ptr;
-    params.bmm2_scale = mla_bmm2_scale_ptr;
-    params.quant_q_buf = quant_q_buffer_ptr;
-
     params.quant_scale_o = generation_params.attention_output_orig_quant;
     params.quant_scale_q = generation_params.kv_scale_orig_quant;
     params.quant_scale_kv = generation_params.kv_scale_orig_quant;
@@ -1012,9 +987,6 @@ int AttentionOp::mlaGeneration(
     params.host_bmm1_scale
         = 1 / (mQScaling * sqrt((float) (mMLAParams.qk_nope_head_dim + mMLAParams.qk_rope_head_dim)));
 
-    invokeMLARopeGeneration<T>(params, kv_cache_buffer, stream);
-    sync_check_cuda_error(stream);
-
     if (generation_params.runtime_perf_knobs)
     {
         int64_t multi_block_mode_val = generation_params.runtime_perf_knobs[0];
@@ -1245,7 +1217,7 @@ int AttentionOp::mlaGeneration(
             XQAParams xqaParams{};
             this->template convertMMHAParamsToXQAParams<T, decltype(kv_cache_buffer)>(
                 xqaParams, generation_params, /*forConfigurePlugin=*/false);
-            xqaParams.quant_q_buffer_ptr = quant_q_buffer_ptr;
+            xqaParams.quant_q_buffer_ptr = params.quant_q_buf;
             xqaParams.q_scaling
                 = 1 / (mQScaling * sqrtf((float) (mMLAParams.qk_nope_head_dim + mMLAParams.qk_rope_head_dim)));
             if (mEnableXQA && mXqaDispatcher->shouldUse(xqaParams))
@@ -1287,11 +1259,11 @@ int AttentionOp::mlaGeneration(
 
         // fmhaParams.packedMaskPtr = params.fmha_custom_mask;
         fmhaParams.pagedKvCache = kv_cache_buffer;
-        fmhaParams.cuQSeqLenPtr = cu_q_seqlens;
+        fmhaParams.cuQSeqLenPtr = params.seqQOffset;
         fmhaParams.kvSeqLenPtr = params.cache_seq_lens;
-        fmhaParams.cuKvSeqLenPtr = cu_kv_seqlens;
+        fmhaParams.cuKvSeqLenPtr = params.cu_kv_seqlens;
         fmhaParams.cuMaskRowsPtr = nullptr; // mla not support custorm mask right now
-        fmhaParams.tileCounterPtr = fmha_tile_counter_ptr;
+        fmhaParams.tileCounterPtr = params.fmha_tile_counter;
         fmhaParams.scaleBmm1Ptr = reinterpret_cast<float const*>(params.bmm1_scale);
         fmhaParams.scaleBmm2Ptr = reinterpret_cast<float const*>(params.bmm2_scale);
         fmhaParams.stream = stream;
@@ -1608,7 +1580,7 @@ int AttentionOp::enqueueContext(EnqueueContextParams<T> const& params, cudaStrea
     // 1. only apply to self attention. If want fused multi-head cross attention, FMHCA kernels and runner is needed
     // 2. doesn't apply to MHA with relative attention bias, i.e. softmax(QK + bias) * V
     // We update mEnableContextFMHA in constructor to check these conditions
-    if (mEnableContextFMHA)
+    if (mEnableContextFMHA) // fused
     {
         // do all-to-all for params.attention_input, need to split on kv head
         // [token_num // cp_size, kv_heads, head_size] -> [token_num, kv_heads // cp_size, head_size]
 
@@ -932,6 +932,33 @@ void invokeMLARopeContext(MlaParams<T>& params, KVCacheBuffer kv_cache_buffer, c
         params.cache_type, params.quant_scale_kv);
 }
 
+__global__ void printCudaVectorInt32(int32_t const* vec, int32_t size)
+{
+    for (int i = 0; i < size; i++)
+    {
+        printf("%d, ", vec[i]);
+    }
+    printf("\n");
+}
+
+__global__ void printCudaVectorUint32(uint32_t const* vec, int32_t size)
+{
+    for (int i = 0; i < size; i++)
+    {
+        printf("%u, ", vec[i]);
+    }
+    printf("\n");
+}
+
+__global__ void printCudaVectorFloat(float const* vec, int32_t size)
+{
+    for (int i = 0; i < size; i++)
+    {
+        printf("%f, ", vec[i]);
+    }
+    printf("\n");
+}
+
 template <typename T>
 void invokeMLAContextFp8Quantize(MlaParams<T>& params, int total_kv_len, cudaStream_t stream)
 {
@@ -989,12 +1016,84 @@ void invokeMLARopeGeneration(MlaParams<T>& params, KVCacheBuffer kv_cache_buffer
     attrs[0].val.programmaticStreamSerializationAllowed = tensorrt_llm::common::getEnvEnablePDL();
     config.numAttrs = 1;
     config.attrs = attrs;
+    // printf("=================invokeMLARopeGeneration============\n");
+    // printf("head_num: %zu\n", params.head_num);
+    // printf("kv_lora_rank: %d\n", params.meta.kv_lora_rank);
+    // printf("acc_q_len: %d\n", params.acc_q_len);
+    // printf("seq_len: %d\n", seq_len);
+    // printf("q_pe_ld: %d\n", params.q_pe_ld);
+    // printf("q_pe_stride: %d\n", params.q_pe_stride);
+    // printf("cache_type: %d\n", static_cast<int>(params.cache_type));
+    // printf("host_bmm1_scale: %f\n", params.host_bmm1_scale);
+    // // 需要打印一些cuda 的vector变量
+    // printf("cache_seq_lens: ");
+    // printCudaVectorInt32<<<1, 1, 0, stream>>>(params.cache_seq_lens, params.batch_size);
+    // cudaDeviceSynchronize();
+
+    // if (params.quant_scale_o)
+    // {
+    //     printf("quant_scale_o: ");
+    //     printCudaVectorFloat<<<1, 1, 0, stream>>>(params.quant_scale_o, 1);
+    //     cudaDeviceSynchronize();
+    // }
+
+    // if (params.quant_scale_q)
+    // {
+    //     printf("quant_scale_q: ");
+    //     printCudaVectorFloat<<<1, 1, 0, stream>>>(params.quant_scale_q, 1);
+    //     cudaDeviceSynchronize();
+    // }
+    // if (params.quant_scale_kv)
+    // {
+    //     printf("quant_scale_kv: ");
+    //     printCudaVectorFloat<<<1, 1, 0, stream>>>(params.quant_scale_kv, 1);
+    //     cudaDeviceSynchronize();
+    // }
+
+    // if (params.bmm1_scale)
+    // {
+    //     printf("bmm1_scale: ");
+    //     printCudaVectorFloat<<<1, 1, 0, stream>>>(params.bmm1_scale, 2);
+    //     cudaDeviceSynchronize();
+    // }
+    // if (params.bmm2_scale)
+    // {
+    //     printf("bmm2_scale: ");
+    //     printCudaVectorFloat<<<1, 1, 0, stream>>>(params.bmm2_scale, 1);
+    //     cudaDeviceSynchronize();
+    // }
+
     cudaLaunchKernelEx(&config, kernel_instance, params.q_buf, params.q_pe, params.latent_cache, params.quant_q_buf,
         kv_cache_buffer, params.cos_sin_cache, params.head_num, params.meta.kv_lora_rank, params.acc_q_len, seq_len,
         params.seqQOffset, params.fmha_tile_counter, params.cache_seq_lens, params.cu_kv_seqlens, params.q_pe_ld,
         params.q_pe_stride, params.cache_type, params.bmm1_scale, params.bmm2_scale, params.quant_scale_o,
         params.quant_scale_q, params.quant_scale_kv, params.dequant_scale_q, params.dequant_scale_kv,
         params.host_bmm1_scale, params.helix_position_offsets);
+
+    // cudaDeviceSynchronize();
+    // printf("Output\n");
+    // printf("seqQOffset: ");
+    // printCudaVectorInt32<<<1, 1, 0, stream>>>(params.seqQOffset, params.batch_size + 1);
+    // cudaDeviceSynchronize();
+    // printf("seqKVOffsets: ");
+    // printCudaVectorInt32<<<1, 1, 0, stream>>>(params.cu_kv_seqlens, params.batch_size + 1);
+    // cudaDeviceSynchronize();
+    // printf("fmha_tile_counter: ");
+    // printCudaVectorUint32<<<1, 1, 0, stream>>>(params.fmha_tile_counter, 1);
+    // cudaDeviceSynchronize();
+    // if (params.bmm1_scale)
+    // {
+    //     printf("bmm1_scale: ");
+    //     printCudaVectorFloat<<<1, 1, 0, stream>>>(params.bmm1_scale, 2);
+    //     cudaDeviceSynchronize();
+    // }
+    // if (params.bmm2_scale)
+    // {
+    //     printf("bmm2_scale: ");
+    //     printCudaVectorFloat<<<1, 1, 0, stream>>>(params.bmm2_scale, 1);
+    //     cudaDeviceSynchronize();
+    // }
+    // printf("====================\n");
 }
 
 template <typename T, typename TCache>
 
@@ -56,6 +56,9 @@ void initBindings(nb::module_& m)
         nb::arg("mla_tensor_params"), nb::arg("attention_chunk_size") = std::nullopt,
         nb::arg("softmax_stats_tensor") = std::nullopt, nb::arg("spec_decoding_bool_params"),
         nb::arg("spec_decoding_tensor_params"), nb::arg("sparse_attention_params"), "Multi-head attention operation",
+        nb::arg("cu_q_seqlens") = std::nullopt, nb::arg("cu_kv_seqlens") = std::nullopt,
+        nb::arg("fmha_scheduler_counter") = std::nullopt, nb::arg("mla_bmm1_scale") = std::nullopt,
+        nb::arg("mla_bmm2_scale") = std::nullopt, nb::arg("quant_q_buffer") = std::nullopt,
         nb::call_guard<nb::gil_scoped_release>());
 }
 } // namespace tensorrt_llm::nanobind::thop
@@ -56,6 +56,9 @@ void initBindings(pybind11::module_& m)
         py::arg("mla_tensor_params"), py::arg("attention_chunk_size") = std::nullopt,
         py::arg("softmax_stats_tensor") = std::nullopt, py::arg("spec_decoding_bool_params"),
         py::arg("spec_decoding_tensor_params"), py::arg("sparse_attention_params"), "Multi-head attention operation",
-        py::call_guard<py::gil_scoped_release>());
+        py::arg("cu_q_seqlens") = std::nullopt, py::arg("cu_kv_seqlens") = std::nullopt,
+        py::arg("fmha_scheduler_counter") = std::nullopt, py::arg("mla_bmm1_scale") = std::nullopt,
+        py::arg("mla_bmm2_scale") = std::nullopt, py::arg("quant_q_buffer") = std::nullopt,
+        "Multi-head attention operation", py::call_guard<py::gil_scoped_release>());
 }
 } // namespace tensorrt_llm::pybind::thop
@@ -95,7 +95,8 @@ add_library(
   mtpOp.cpp
   loraOp.cpp
   finegrained_mixed_dtype_gemm_thop.cpp
-  tinygemm2.cpp)
+  tinygemm2.cpp
+  dsv3RopeOp.cpp)
 set_property(TARGET th_common PROPERTY POSITION_INDEPENDENT_CODE ON)
 target_link_libraries(
   th_common PRIVATE ${TORCH_LIBRARIES} th_utils ${Python3_LIBRARIES}
 
@@ -86,7 +86,10 @@ class RunnerBase
         c10::ArrayRef<std::optional<torch::Tensor>> spec_decoding_tensor_params,
         torch::optional<torch::Tensor> attention_sinks, torch::optional<torch::Tensor> sparse_kv_indices,
         torch::optional<torch::Tensor> sparse_kv_offsets, torch::optional<torch::Tensor> sparse_attn_indices,
-        torch::optional<torch::Tensor> sparse_attn_offsets) const
+        torch::optional<torch::Tensor> sparse_attn_offsets, std::optional<torch::Tensor> cu_q_seqlens,
+        std::optional<torch::Tensor> cu_kv_seqlens, std::optional<torch::Tensor> fmha_scheduler_counter,
+        std::optional<torch::Tensor> mla_bmm1_scale, std::optional<torch::Tensor> mla_bmm2_scale,
+        std::optional<torch::Tensor> quant_q_buffer) const
         = 0;
 };
 
@@ -143,10 +146,14 @@ class Runner : public RunnerBase
         c10::ArrayRef<std::optional<torch::Tensor>> spec_decoding_tensor_params,
         torch::optional<torch::Tensor> attention_sinks, torch::optional<torch::Tensor> sparse_kv_indices,
         torch::optional<torch::Tensor> sparse_kv_offsets, torch::optional<torch::Tensor> sparse_attn_indices,
-        torch::optional<torch::Tensor> sparse_attn_offsets) const override
+        torch::optional<torch::Tensor> sparse_attn_offsets, std::optional<torch::Tensor> cu_q_seqlens,
+        std::optional<torch::Tensor> cu_kv_seqlens, std::optional<torch::Tensor> fmha_scheduler_counter,
+        std::optional<torch::Tensor> mla_bmm1_scale, std::optional<torch::Tensor> mla_bmm2_scale,
+        std::optional<torch::Tensor> quant_q_buffer) const override
     {
         auto stream = at::cuda::getCurrentCUDAStream(qkv_or_q.get_device());
         T* attention_input = static_cast<T*>(qkv_or_q.slice(0, token_offset).data_ptr());
+
         T* k_ptr = nullptr;
         T* v_ptr = nullptr;
         AttentionOutT* context_buf = static_cast<AttentionOutT*>(output.slice(0, token_offset).data_ptr());
@@ -209,6 +216,22 @@ class Runner : public RunnerBase
                 mla_params.q_pe = static_cast<T*>(q_pe->data_ptr());
                 mla_params.q_pe_ld = q_pe->strides()[1];
                 mla_params.q_pe_stride = q_pe->strides()[0];
+
+                mla_params.seqQOffset
+                    = cu_q_seqlens.has_value() ? reinterpret_cast<int*>(cu_q_seqlens.value().data_ptr()) : nullptr;
+                mla_params.cu_kv_seqlens
+                    = cu_kv_seqlens.has_value() ? reinterpret_cast<int*>(cu_kv_seqlens.value().data_ptr()) : nullptr;
+                mla_params.fmha_tile_counter = fmha_scheduler_counter.has_value()
+                    ? reinterpret_cast<uint32_t*>(fmha_scheduler_counter.value().data_ptr())
+                    : nullptr;
+                mla_params.bmm1_scale = mla_bmm1_scale.has_value()
+                    ? reinterpret_cast<float*>(mla_bmm1_scale.value().data_ptr())
+                    : nullptr;
+                mla_params.bmm2_scale = mla_bmm2_scale.has_value()
+                    ? reinterpret_cast<float*>(mla_bmm2_scale.value().data_ptr())
+                    : nullptr;
+                mla_params.quant_q_buf
+                    = quant_q_buffer.has_value() ? reinterpret_cast<void*>(quant_q_buffer.value().data_ptr()) : nullptr;
             }
             mla_params.q_buf = attention_input;
             mla_params.context_buf = reinterpret_cast<T*>(context_buf);
@@ -541,7 +564,10 @@ void attention(torch::Tensor q, std::optional<torch::Tensor> k, std::optional<to
     std::vector<std::optional<torch::Tensor>> mla_tensor_params, std::optional<int64_t> attention_chunk_size,
     std::optional<torch::Tensor> softmax_stats_tensor, std::vector<bool> spec_decoding_bool_params,
     std::vector<std::optional<torch::Tensor>> spec_decoding_tensor_params,
-    std::vector<std::optional<torch::Tensor>> sparse_attention_params)
+    std::vector<std::optional<torch::Tensor>> sparse_attention_params, std::optional<torch::Tensor> cu_q_seqlens,
+    std::optional<torch::Tensor> cu_kv_seqlens, std::optional<torch::Tensor> fmha_scheduler_counter,
+    std::optional<torch::Tensor> mla_bmm1_scale, std::optional<torch::Tensor> mla_bmm2_scale,
+    std::optional<torch::Tensor> quant_q_buffer)
 {
     // Decompress sparse attention parameters
     TORCH_CHECK(sparse_attention_params.size() == 4, "Expected 4 sparse attention parameters");
@@ -569,6 +595,7 @@ void attention(torch::Tensor q, std::optional<torch::Tensor> k, std::optional<to
         TLLM_CHECK_WITH_INFO(v.has_value(), "The v tensor should be provided if updating KV cache with unfused K/V");
     }
 
+    // 2. 数据类型检测和Runner创建
     auto const dtype = tensorrt_llm::runtime::TorchUtils::dataType(qkv_or_q.scalar_type());
     bool const is_fp8_out = out_dtype.has_value() && out_dtype.value() == torch::kFloat8_e4m3fn;
     bool const is_fp4_out = out_dtype.has_value() && out_dtype.value() == torch::kUInt8;
@@ -624,6 +651,7 @@ void attention(torch::Tensor q, std::optional<torch::Tensor> k, std::optional<to
     int64_t const rotary_embedding_max_positions = rotary_embedding_max_position_info[0];
     int64_t const rotary_embedding_original_max_positions = rotary_embedding_max_position_info[1];
 
+    // 3. AttentionOp创建和初始化
     auto op = std::make_shared<AttentionOp>();
     op->mType = dtype;
     op->mFMHAForceFP32Acc = dtype == nvinfer1::DataType::kBF16;
@@ -709,6 +737,7 @@ void attention(torch::Tensor q, std::optional<torch::Tensor> k, std::optional<to
             = chunked_prefill_buffer_batch_size.has_value() ? chunked_prefill_buffer_batch_size.value() : 1;
     }
 
+    // 4. 缓存检查和初始化
     auto cache_key = std::make_tuple(op->data(), runner->data());
     using CacheKey = decltype(cache_key);
     static std::unordered_map<CacheKey, std::shared_ptr<AttentionOp>, hash<CacheKey>> op_cache;
@@ -726,6 +755,7 @@ void attention(torch::Tensor q, std::optional<torch::Tensor> k, std::optional<to
         op_cache[cache_key] = op;
     }
 
+    // 5. 请求类型和输入类型检测:ctx, gen: for continuous batching
     int32_t const num_seqs = host_context_lengths.size(0);
     RequestType const* request_types = static_cast<RequestType const*>(host_request_types.data_ptr());
 
@@ -758,6 +788,7 @@ void attention(torch::Tensor q, std::optional<torch::Tensor> k, std::optional<to
         TLLM_CHECK(request_types[idx] == RequestType::kGENERATION);
     }
 
+    // 6. 工作空间管理
     int32_t const max_attention_window_size
         = beam_width == 1 ? attention_window_size : cache_indirection.value().size(2);
     int32_t const max_blocks_per_sequence
@@ -805,7 +836,8 @@ void attention(torch::Tensor q, std::optional<torch::Tensor> k, std::optional<to
             host_kv_cache_pool_mapping, cache_indirection, kv_scale_orig_quant, kv_scale_quant_orig, out_scale,
             rotary_inv_freq, rotary_cos_sin, latent_cache, q_pe, block_ids_per_seq, mrope_rotary_cos_sin,
             mrope_position_deltas, mla_tensor_params, softmax_stats_tensor, spec_decoding_tensor_params,
-            attention_sinks, sparse_kv_indices, sparse_kv_offsets, sparse_attn_indices, sparse_attn_offsets);
+            attention_sinks, sparse_kv_indices, sparse_kv_offsets, sparse_attn_indices, sparse_attn_offsets,
+            cu_q_seqlens, cu_kv_seqlens, fmha_scheduler_counter, mla_bmm1_scale, mla_bmm2_scale, quant_q_buffer);
     }
 
     if ((num_generations > 0) && (attn_input_type != AttentionInputType::ContextOnly))
@@ -822,7 +854,8 @@ void attention(torch::Tensor q, std::optional<torch::Tensor> k, std::optional<to
             host_kv_cache_pool_mapping, cache_indirection, kv_scale_orig_quant, kv_scale_quant_orig, out_scale,
             rotary_inv_freq, rotary_cos_sin, latent_cache, q_pe, block_ids_per_seq, mrope_rotary_cos_sin,
             mrope_position_deltas, mla_tensor_params, softmax_stats_tensor, spec_decoding_tensor_params,
-            attention_sinks, sparse_kv_indices, sparse_kv_offsets, sparse_attn_indices, sparse_attn_offsets);
+            attention_sinks, sparse_kv_indices, sparse_kv_offsets, sparse_attn_indices, sparse_attn_offsets,
+            cu_q_seqlens, cu_kv_seqlens, fmha_scheduler_counter, mla_bmm1_scale, mla_bmm2_scale, quant_q_buffer);
     }
 
     TLLM_LOG_TRACE("Attention op stops at layer %d", layer_idx);
 
@@ -61,6 +61,9 @@ void attention(torch::Tensor q, std::optional<torch::Tensor> k, std::optional<to
     std::vector<std::optional<torch::Tensor>> mla_tensor_params, std::optional<int64_t> attention_chunk_size,
     std::optional<torch::Tensor> softmax_stats_tensor, std::vector<bool> spec_decoding_bool_params,
     std::vector<std::optional<torch::Tensor>> spec_decoding_tensor_params,
-    std::vector<std::optional<torch::Tensor>> sparse_attention_params);
+    std::vector<std::optional<torch::Tensor>> sparse_attention_params, std::optional<torch::Tensor> cu_q_seqlens,
+    std::optional<torch::Tensor> cu_kv_seqlens, std::optional<torch::Tensor> fmha_scheduler_counter,
+    std::optional<torch::Tensor> mla_bmm1_scale, std::optional<torch::Tensor> mla_bmm2_scale,
+    std::optional<torch::Tensor> quant_q_buffer);
 
 } // namespace torch_ext