图波列夫-CSDN博客

图波列夫

码龄14年

550,335

总访问量
91

原创
422

粉丝
11

关注

IP 属地：河北省

加入CSDN时间： 2012-01-23

查看详细资料

个人成就

领域专家: 人工智能技术领域
获得592次点赞
内容获得326次评论
获得1,914次收藏
代码片获得834次分享
博客总排名22,881名
原力等级

原力等级

4

原力分

920

本月获得

1

TA的专栏

TA关注的专栏 0

TA关注的收藏夹 0

TA关注的社区 0

TA参与的活动 2

兴趣领域设置

人工智能

opencv计算机视觉深度学习神经网络图像处理

创作活动更多

AI 镜像开发实战征文活动

随着人工智能技术的飞速发展，AI 镜像开发逐渐成为技术领域的热点之一。Stable Diffusion 3.5 FP8 作为强大的文生图模型，为开发者提供了更高效的图像生成解决方案。为了推动 AI 镜像开发技术的交流与创新，我们特此发起本次征文活动，诚邀广大开发者分享在 Stable Diffusion 3.5 FP8 文生图方向的实战经验和创新应用本次征文活动鼓励开发者围绕 Stable Diffusion 3.5 FP8 文生图方向，分享以下方面的内容： 1. 技术实践与优化 - Stable Diffusion 3.5 FP8 模型架构解析与优化技巧 - 文生图生成效果的提升方法与技巧 - 模型部署与加速策略，例如使用 Hugging Face、Diffusers 等工具 - 针对特定场景（例如二次元、写实风）的模型微调与定制化开发 2. 应用场景探索 - Stable Diffusion 3.5 FP8 在不同领域的应用案例分享，例如游戏设计、广告创意、艺术创作等 - 利用 Stable Diffusion 3.5 FP8 实现图像编辑、图像修复、图像增强等功能的探索 - 结合其他 AI 技术（例如 NLP、语音识别）构建更强大的应用 3. 创新应用与思考 - 基于 Stable Diffusion 3.5 FP8 的创新应用场景设计 - AI 镜像开发的未来发展方向的思考与展望 - 对 AI 镜像开发伦理、安全等问题的探讨

43人参与去参加

更多

Bicubic interpolation

双三次插值是二维图像处理中常用的高阶插值方法，通过16个邻近像素(4×4)计算插值点，比双线性插值(2×2)和最近邻插值更平滑。其数学原理是在单位正方形四个角点匹配函数值、一阶和二阶导数，构建双三次多项式曲面。通过求解16个系数的线性方程组，可获得连续且导数连续的插值结果。该方法在图像重采样中能提供更高质量的视觉效果，但计算复杂度较高，且可能引入特定插值伪影。

博文更新于 2025.10.13 ·

Ascend DrivingSDK 中的 modulated_deform_conv2d（二）

本文介绍了modulated_deformable_conv2d的反向传播实现。主要内容包括：1) 反向计算需要处理4个输入的梯度，执行效率低于前向；2) 介绍了DrivingSDK中的modulated_deformable_conv2d_backward函数实现，包括参数检查、张量初始化和两种计算路径选择；3) 详细分析了DeformableConv2dGradKernel的处理流程，包含预处理和梯度计算过程。实现中考虑了分组和不分组情况，并对不同输入通道数进行了优化处理。

博文更新于 2025.08.14 ·

MMCV 中的 ModulatedDeformConv2d

MMCV 是一个面向计算机视觉的基础库。相比 torchvision， MMCV 的功能更丰富。而且除了 CPU 和 GPU 之外，还支持昇腾、寒武纪和摩尔线程的硬件。然而 MMCV 后端接入缺乏统一标准，DIOPI 早夭更是加剧了这一局面。MMCV 中 DeformConv2d 和 ModulatedDeformConv2d 分别对应 DCNv1 和 DCNv2 的实现。DeformConv2d 对外提供参数，而 ModulatedDeformConv2d 则没有。DeformConv2d 可能已

博文更新于 2025.08.13 ·

Ascend DrivingSDK 中的 modulated_deform_conv2d（一）

Ascend DrivingSDK是为昇腾NPU平台开发的自动驾驶算子和模型加速库，其modulated_deform_conv2d算子采用两种实现：v1版本缓存卷积窗口索引并复用计算结果，v2版本优化3x3卷积性能但功能更简陋。两者均存在参数顺序不一致、功能不完善等问题，且缺乏文档说明，使用体验较差。该SDK虽开源但代码质量未达工业级标准，主要亮点在于利用NPU硬件特性（如大容量L2缓存）提升性能，但仍有较大改进空间。

博文更新于 2025.08.12 ·

MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models

MARLIN提出了一种高效的4位权重量化内核，在16-32批量下可实现接近理论4倍的加速效果。该技术通过优化量化布局、异步内存访问、任务调度流水线等创新方法，显著提升了GPU推理效率。作为通用混合精度实现方案，MARLIN已集成到vLLM框架，并开源了稠密和稀疏版本。研究显示，该方法在批量增大时仍保持显著加速优势，为LLM推理提供了重要优化手段。

博文更新于 2025.07.09 ·

cuBLAS 3.1.5. Narrow Precision Data Types Usage

cuBLAS我们这里所说的最初是作为8位浮点数据类型（FP8）随 Ada 和 Hopper GPU（计算能力8.9及以上）引入的，旨在进一步加速矩阵乘法。：除非另有说明，FP8 指的是和两种数据类型。随着 Blackwell GPU（计算能力10.0及以上）的推出，cuBLAS 增加了对4位浮点数据类型 (FP4)的支持。E2和 M1分别表示2位指数和1位尾数。更多详细信息，请参阅。为了保持精度，窄精度数据在计算前需要进行缩放或反量化，并在计算后可能需要进行量化。

博文更新于 2025.03.27 ·

DaDianNao：一种无主存储器的多核加速器

DianNao 发现内存访问而非计算是深度学习模型执行的瓶颈，并研究了一种最小化内存传输的加速器架构。后续的 DaDianNao 和 ShiDianNao 将该思路贯彻到了极致： ShiDianNao 是一种 YX 切分、输出驻留的嵌入式 CNN 加速器； DaDianNao：一种分布式驻留权值的多核加速器。DaDianNao 本意是一种多芯片AI 超算系统，类似于 Groq LPU 的 Scale Out。然而数据在多芯片间的移动会成为新的瓶颈。以现在的标准来看，DaDianNao

博文更新于 2025.02.12 ·

DianNao：一种支持 Conv、FC 和 Pooling 的单核加速器

DianNao: A Small-Footprint High-Throughput Accelerator for Ubiquitous Machine-Learning 提出了首个深度学习处理器架构，开创了深度学习处理器方向，并且获得当年的 ASPLOS 2014最佳论文奖。在此之后，CNN 模型日新月异，各类 AI 加速器层出不穷。 NVIDIA 的 NVDLA 即是采用了和 DianNao 类似的 KC 切分、权值驻留结构，而搭载了 NVDLA 的 Jetson Xavier 和 Jetson Or

博文更新于 2024.12.30 ·

CUDA C++ Programming Guide 7.28. Asynchronous Data Copies using cuda::pipeline

CUDA提供了cuda::pipeline同步对象来管理异步数据移动并将其与计算重叠。libcudacxx API 中提供了cuda::pipeline的 API 文档。流水线对象是一个具有头部和尾部的双端 N 级队列，用于按先进先出（FIFO）顺序处理工作。流水线对象有以下成员函数，用于管理流水线的各个阶段。

博文更新于 2024.10.24 ·

CUDA C++ Programming Guide 7.27. Asynchronous Data Copies

CUDA 11通过memcpy_async API 引入异步数据操作，允许设备代码显式管理数据的异步复制。memcpy_async特性使 CUDA 内核能够在数据移动的同时进行计算。

博文更新于 2024.10.24 ·

CUDA C++ Programming Guide 7.26. Asynchronous Barrier

NVIDIA C++ 标准库引入了 std::barrier 的 GPU 实现。除了std::barrier的实现之外，该库还提供了扩展功能，允许用户指定屏障对象的作用范围。屏障 API 的作用范围在 Thread Scopes 中有详细说明。计算能力为8.0或更高的设备为屏障操作提供了硬件加速，并将其与memcpy_async 功能集成。在计算能力低于8.0但不低于7.0的设备上，这些屏障可以使用但没有硬件加速。

博文更新于 2024.09.11 ·

CUTLASS 中的 47_ampere_gemm_universal_streamk 示例

前一篇文章介绍了 Stream-K: Work-centric Parallel Decomposition for Dense Matrix-Matrix Multiplication on the GPU 论文，下面对其代码实现进行分析。cutlass 的 examples/47_ampere_gemm_universal_streamk 展示了 GEMM Stream-K 算法在 Ampere 架构上的使用。对比了普通 Gemm 以及 Split-K 算法和 Stream-K 的性能

博文更新于 2024.08.22 ·

CUTLASS: Efficient GEMM in CUDA

CUTLASS 实现了 CUTLASS: Fast Linear Algebra in CUDA C++ 和 CUTLASS GTC2018 talk 中描述的分层分块结构。基本的三重嵌套循环计算矩阵乘法可以应用分块和拼贴，以匹配硬件、内存局部性和并行编程模型中的并发性。CUTLASS 中 GEMM 映射到 NVIDIA GPU 的结构如以下嵌套循环所示。

博文更新于 2024.08.09 ·

Stream-K: Work-centric Parallel Decomposition for Dense Matrix-Matrix Multiplication on the GPU

在 NVIDIA GTC22 秋季会议上，CUTLASS: Python API, Enhancements, and NVIDIA Hopper 介绍了 CUTLASS~2.11 中引入的 Stream-K 分解：在这里插入图片描述几个月后公开的 Stream-K: Work-centric Parallel Decomposition for Dense Matrix-Matrix Multiplication on the GPU 论文对其进行了更详细的介绍。CUTLASS 的 GEMM 实现由三大

博文更新于 2024.05.31 ·

Division by Invariant Integers using Multiplication

表 1.1 比较了一些处理器上乘法和除法的时间。这张表展示了乘法和除法时间差距的增长趋势。因此，中提出了使用整数乘法进行任意非零整数常数和运行时不变量之间除法的算法。文档中记录了更广泛的处理指令性能，其中 Intel IceLake 处理器的乘除法指令延迟和吞吐倒数如下表所示：可以看出，在现代 CPU 处理器上除法开销大的情况并未发生改变。NVIDIA 和 AMD GPU 均不支持整数除法指令，CUDA C++ Programming Guide。

博文更新于 2024.04.11 ·

onnxruntime 中的 Gather 算子

上一篇文章中介绍了 Division by Invariant Integers using Multiplication 的原理，很多框架均才用该算法优化除法运算。onnxruntime 是已知实现中最为简洁的，因此本文结合 onnxruntime 的 Gather 实现进行介绍。 Gather 算子是一个索引类算子，kernel 中每个线程计算偏移时使用 fast_divmod 避免除法运算。注意：ONNX 中的 Gather 功能与 numpy.take 相同

博文更新于 2024.03.27 ·

FaceNet: A Unified Embedding for Face Recognition and Clustering笔记

FaceNet 是谷歌发表在 CVPR 2015上的一篇文章。先前基于人脸识别的方法，无论是 DeepID 系列[1][2][2+][3]还是 DeepFace 均采用分类的方式进行训练。尽管精度不断提升，处理过程却越来越趋向复杂。3D人脸对齐或模型融合都不便于训练的展开。与之相反，FaceNet 则显示出纯粹的数据驱动。其借助 Triplet Loss 令网络将人脸图像映射到低维空间，网络结...

博文更新于 2024.03.25 ·

Caffe 中的 LRNLayer

Caffe 中的 LRNLayer 支持两种模式： CrossChannel：为人们所熟知的局部响应归一化，在 AlexNet 中提出，在一些早期网络中使用； WithinChannel： Caffe 中独有的实现，未见网络中应用。本文略过。ReLU 具有不需要输入归一化以防止其饱和的理想特性。但 AlexNet 论文中发现 LRN 有助于提高泛化性。LRN CrossChannel 模式公式如下：

博文更新于 2024.03.13 ·

torchvision 中的 deform_conv2d

如 DCNv1 和 DCNv2 论文所述，DeformConv 相比常规卷积的参数量和计算量增加不多，但对网络的提升很大。然而，DeformConv 的计算模式并不利于高效实现，给网络带来的开销比纸面数值大：常规卷积可以采用 Implicit GEMM 的形式，非常高效；DeformConv 需要离散访存和插值，增加了 IO 量和内存占用。在 Torchvision 以及其他框架中，DeformConv2d 采用 Explicit GEMM 的方式实现。具体步骤为：deformable_im

博文更新于 2023.12.12 ·

CUTLASS: Implicit GEMM Convolution

Implicit GEMM 是将卷积操作表述为 GEMM (广义矩阵-矩阵积)。卷积接受激活张量并对其应用滑动滤波器以产生输出张量。二维卷积可以映射到矩阵乘：组建一个包含激活张量元素的卷积矩阵，然后由滤波张量形成的矩阵乘以该矩阵。该算法的最早形式通过通常称为 im2col 的操作显式构造卷积矩阵。生成的矩阵按照滤波器大小复制每个激活元素，消耗额外的存储容量和内存带宽。隐式 GEMM 算法是 CUDA 中分块、分层 GEMM 计算的一种变体：当数据从全局内存加载到共享内存时，通过周密地更新指针和谓词，它

博文更新于 2023.12.05 ·