扫地的小何尚-CSDN博客

扫地的小何尚

码龄17年

IP 属地：北京市

加入CSDN时间： 2008-10-08

查看详细资料

个人成就

优质创作者: 人工智能技术领域
获得6,522次点赞
内容获得945次评论
获得8,171次收藏
代码片获得24,163次分享
原力等级

原力等级

9

原力分

11,280

本月获得

71

TA的专栏

TA关注的专栏 10

TA关注的收藏夹 0

TA关注的社区 40

TA参与的活动 16

TA的推广

兴趣领域设置

Python

pythondjango
编程语言

c++c语言
人工智能

opencv计算机视觉目标检测人工智能深度学习目标跟踪自动驾驶pytorch

创作活动更多

AI 镜像开发实战征文活动

随着人工智能技术的飞速发展，AI 镜像开发逐渐成为技术领域的热点之一。Stable Diffusion 3.5 FP8 作为强大的文生图模型，为开发者提供了更高效的图像生成解决方案。为了推动 AI 镜像开发技术的交流与创新，我们特此发起本次征文活动，诚邀广大开发者分享在 Stable Diffusion 3.5 FP8 文生图方向的实战经验和创新应用本次征文活动鼓励开发者围绕 Stable Diffusion 3.5 FP8 文生图方向，分享以下方面的内容： 1. 技术实践与优化 - Stable Diffusion 3.5 FP8 模型架构解析与优化技巧 - 文生图生成效果的提升方法与技巧 - 模型部署与加速策略，例如使用 Hugging Face、Diffusers 等工具 - 针对特定场景（例如二次元、写实风）的模型微调与定制化开发 2. 应用场景探索 - Stable Diffusion 3.5 FP8 在不同领域的应用案例分享，例如游戏设计、广告创意、艺术创作等 - 利用 Stable Diffusion 3.5 FP8 实现图像编辑、图像修复、图像增强等功能的探索 - 结合其他 AI 技术（例如 NLP、语音识别）构建更强大的应用 3. 创新应用与思考 - 基于 Stable Diffusion 3.5 FP8 的创新应用场景设计 - AI 镜像开发的未来发展方向的思考与展望 - 对 AI 镜像开发伦理、安全等问题的探讨

39人参与去参加

更多

NVIDIA CUDA-Q QEC权威指南：实时解码、GPU解码器与AI推理增强

摘要：NVIDIA CUDA-Q QEC 0.5.0量子纠错新功能 NVIDIA CUDA-Q QEC 0.5.0版本推出多项量子纠错关键功能：1）支持在线实时解码，实现与量子处理单元(QPU)的低延迟并行运行；2）新增GPU加速的RelayBP算法解码器，通过"记忆强度"概念改进传统BP方法；3）集成TensorRT AI解码器推理引擎，支持ONNX模型；4）引入滑动窗口解码功能，降低处理延迟。这些改进通过四步流程简化操作：DEM生成、解码器配置、初始化和实时执行，显著提升量子纠错研究

博文更新于前天 14:36 ·

深入NVIDIA Nemotron-3：高效准确的技术、工具与数据深度解析

摘要：NVIDIA Nemotron-3技术解析 NVIDIA Nemotron-3系列模型为构建专业AI智能体提供了突破性解决方案。该系列采用创新的混合Mamba-Transformer MoE架构，结合状态空间模型(Mamba)的长序列处理能力、Transformer的精确推理和MoE的高效计算，支持高达100万token的上下文处理。模型通过NeMo Gym多环境强化学习框架训练，使智能体掌握复杂任务执行能力。技术亮点包括：1)混合架构实现超长上下文推理；2)开源RL训练环境支持智能体开发；3)原生支

博文更新于前天 14:23 ·

从简单CUDA开始

本文介绍了如何将简单的C++数组相加程序逐步优化为高性能CUDA并行计算程序。首先展示CPU版本实现，然后通过添加__global__修饰符转换为CUDA内核，并使用统一内存管理。通过引入线程并行和线程块机制，性能从单线程的91.8毫秒提升到多块的47.5微秒，加速1932倍。最后使用预取优化数据传输，达到265GB/s带宽，接近GPU峰值性能。文章完整展示了从串行到并行计算的优化路径，为CUDA初学者提供了实用范例。

博文更新于 2025.12.12 ·

NVIDIA CUDA 13.1权威指南：CUDA Tile驱动下一代GPU编程，性能全面提升

NVIDIA CUDA 13.1带来重大更新，包括革命性的CUDA Tile编程模型，支持在更高抽象层编写GPU内核，自动优化线程分配。新版本还引入Green Contexts实现细粒度GPU资源管理，编译时补丁增强内存调试效率，以及确定性浮点归约选项。同时发布了全新重构的CUDA编程指南，为开发者提供更清晰的学习路径。这些改进显著提升了GPU编程的效率和性能，特别针对AI算法优化，为未来GPU架构奠定基础。

博文更新于 2025.12.12 ·

使用NVIDIA CUDA Tile Python简化GPU编程

摘要：CUDA Tile Python简化GPU编程 NVIDIA推出的CUDA Tile Python（cuTile）为GPU编程提供了革命性的tile-based编程模型。相比传统的SIMT模型，cuTile让开发者只需描述对数据块(tile)的操作，而无需处理线程索引和内存管理等底层细节。cuTile基于四个核心概念：Arrays、Tiles、Kernels和Blocks，自动处理并行化和硬件优化。通过向量加法的代码示例，展示了cuTile代码更简洁、更接近数学表达的优势。开发者可使用Nsight C

博文更新于 2025.12.11 ·

CUDA Tile指南：专注算法，让硬件细节交给框架

摘要 NVIDIA CUDA Tile是2025年发布的革命性GPU编程技术，通过引入基于tile的编程模型，将Tensor Cores等硬件细节完全抽象化。相比传统SIMT模型，Tile编程让开发者只需关注数据块的划分和计算，而无需管理线程映射等底层细节。CUDA Tile IR作为中间表示层，确保了代码的跨代可移植性。配套的cuTile Python库提供了简洁的API，支持向量加法、矩阵乘法等典型运算。该技术显著提升了开发效率，同时保持高性能，使开发者能够专注于算法本身而非硬件优化。

博文更新于 2025.12.11 ·

仅需一部智能手机，在NVIDIA Isaac Sim中重建真实场景：终极实战指南

摘要：借助智能手机和NVIDIA Isaac Sim，可实现真实场景的快速3D重建与机器人仿真。工作流分为四步：手机拍摄：确保光照均匀、稳定对焦，拍摄高重叠率照片。 COLMAP重建：生成稀疏3D点云与相机位姿，为后续密集重建提供基础。 3DGUT训练：通过MCMC优化将稀疏点云转化为高质量3D高斯溅射模型，并导出为USDZ格式。 Isaac Sim部署：导入场景，添加物理地面和阴影代理，完成机器人仿真环境搭建。该方案简化了传统3D建模流程，适用于机器人导航、虚拟测试等应用场景。

博文更新于 2025.11.04 ·

NVIDIA 中国开发者日｜三场技术分论坛科技演讲一览,活动报名持续热招中

NVIDIA中国开发者日2025将于11月14日在苏州举办，聚焦大语言模型、机器人/物理AI及开发工具三大领域。技术分论坛将带来精彩议题：大语言模型专场分享GPU优化、SGLang框架应用等；机器人专场介绍Cosmos平台、人形机器人落地实践；开发工具专场探讨GPU计算演进、CuTeDSL应用等前沿话题。大会面向全国开发者开放注册，提供与行业领袖交流、获取最新技术动态的机会。

博文更新于 2025.11.04 ·

AI创新的火花：NVIDIA DGX Spark开箱与深度解析

NVIDIA DGX Spark开箱评测：这款被称为"全球最小AI超级计算机"的设备，将1PetaFLOP的AI性能浓缩于150mm×150mm×50.5mm的紧凑机身中。搭载GB10 Grace Blackwell Superchip、128GB统一内存和200Gbps网卡，可处理200B参数的AI模型。约4000美元的定价让数据中心级算力触手可及，支持本地AI模型开发、微调和边缘计算应用，为AI创新提供了强大平台。

博文更新于 2025.10.29 ·

在NVIDIA Jetson上实现端到端机器人学习：HuggingFace LeRobot实战指南

摘要：本文详细介绍了在NVIDIA Jetson设备上运行HuggingFace LeRobot机器人学习框架的完整流程。内容包括硬件要求（推荐Jetson AGX Orin）、JetPack 6环境配置、存储优化建议，以及真实机器人（以Koch v1.1为例）的端到端工作流程：从硬件连接、音频配置、udev规则设置，到数据记录、模型训练和策略评估。特别强调了NVMe SSD存储的重要性，并提供了内存优化、容器配置等实用技巧，帮助开发者在资源受限的边缘设备上实现高效的机器人学习。

博文更新于 2025.10.24 ·

在NVIDIA Jetson上部署OpenVLA：视觉-语言-动作模型的微调与部署指南

本教程详细介绍了在NVIDIA Jetson平台上部署和优化OpenVLA视觉-语言-动作模型的完整流程。主要内容包括：1）VLA模型架构解析，说明其基于Llama-7B构建，通过动作令牌控制机器人；2）量化和性能验证，在Jetson AGX Orin上测试不同量化方式（FP16/FP8/INT4）的准确率和延迟；3）提供简洁的推理API代码示例；4）通过MimicGen生成模拟训练数据并转换为RLDS格式的工作流程。教程还包含在积木堆叠任务上达到85%准确率的实际验证结果，为具身AI的部署提供了实用参考。

博文更新于 2025.10.24 ·

启用可扩展的AI驱动分子动力学模拟

AI驱动的分子动力学模拟：构建ML-IAP-Kokkos接口本文介绍了如何构建ML-IAP-Kokkos接口，将基于PyTorch的机器学习原子间势(MLIPs)集成到LAMMPS分子动力学软件中。该接口由NVIDIA和多个国家实验室合作开发，支持GPU加速的大规模模拟。文章详细说明了构建步骤：环境准备：需要LAMMPS(Kokkos/MPI/ML-IAP支持)、Python环境和PyTorch模型实现MLIAPUnified抽象类，定义计算力的核心函数通过示例展示了LAMMPS与Python模型的

博文更新于 2025.10.23 ·

一小时内使用NVIDIA Nemotron创建你自己的Bash计算机使用智能体

摘要：本文介绍如何在一小时内使用NVIDIA Nemotron Nano v2构建自然语言Bash智能体，仅需约200行Python代码。系统由两个核心组件构成：Bash类负责命令执行和目录管理，智能体通过Nemotron模型理解用户意图并执行操作。文章详细展示了Bash工具类的实现代码，包括命令白名单、执行逻辑和JSON Schema转换方法，并介绍了如何通过系统提示定义智能体行为。最后还提到可使用LangGraph进一步简化设计。该智能体无需用户编写命令，通过自然语言交互即可完成Bash操作。

博文更新于 2025.10.23 ·

使用NVIDIA Nemotron构建日志分析多智能体自我修正RAG系统

本文介绍了如何利用NVIDIA Nemotron构建一个多智能体自我修正的RAG系统，用于解决复杂日志分析挑战。系统采用混合检索、智能重排序和相关性评分等技术，通过多智能体协同工作实现日志解析、查询修正和答案生成。文章详细阐述了系统架构、关键组件和实现方法，并提供了快速上手指南。该系统能显著提升日志分析效率，将问题诊断时间从数小时缩短至数秒，为开发运维团队提供有力支持。

博文更新于 2025.10.22 ·

https://blog.csdn.net/kunhe0512/article/details/153694308 长久以来，拥有数据中心级的AI算力似乎是少数顶尖实验室和大型企业的专属。然而，NVIDIA通过一款颠覆性的产品，彻底改变了这一格局。今天，我们怀着无比激动的心情，为大家带来NVIDIA DGX Spark的独家开箱评测。这款被称为“全球最小AI超级计算机”的设备，将一PetaFLOP的AI性能浓缩于一个精致的桌面级包装中，预示着一个AI全民化、创新遍地开花的全新时代已经到来。

发布动态 2025.10.22

AI创新的火花：NVIDIA DGX Spark开箱与深度解析

摘要 NVIDIA DGX Spark是一款颠覆性的桌面级AI超级计算机，将1 PetaFLOP算力浓缩于仅1.2公斤的机身中。其核心采用Grace Blackwell架构GB10芯片，集成20核Arm CPU和Blackwell GPU，配备128GB统一内存和4TB NVMe存储，支持200B参数模型的本地处理。凭借200Gbps网络和完整AI软件栈，DGX Spark为开发者提供从模型开发到边缘智能的一站式解决方案，以4000美元价格打破AI算力门槛，有望加速AI创新普及。

博文更新于 2025.10.22 ·

https://blog.csdn.net/kunhe0512/article/details/153593274 ⚡ 核心亮点： 🔍 技术突破 - CUDA 13.0引入共享内存寄存器溢出，将溢出从本地内存重定向到片上共享内存 📊 性能提升 - 实测显示执行时间提升7.76%，SM活跃周期提升9.03% 💻 简单易用 - 只需添加一行pragma即可启用优化 🏆 实际效果 - QUDA库测试显示5-10%的性能提升这篇文章深入解析了一个非常实用的CUDA编译器优化技术。传统的寄存器溢出会将数据存储到高延迟的本地内存中，而新技术通过智能地利用闲置的共享内存资源，显著降低了访问延迟并减轻了L2缓存压力。技术亮点包括：编译器的智能优先级策略、透明的回退机制，以及在QUDA等实际应用中验证的性能提升效果。对于GPU开发者来说，这是一个几乎零成本的性能优化机会。

发布动态 2025.10.19

如何通过共享内存和寄存器溢出优化CUDA内核性能

CUDA 13.0引入共享内存寄存器溢出优化当CUDA内核寄存器需求超过硬件限制时，传统做法会溢出到高延迟的本地内存。CUDA 13.0新增共享内存溢出功能，允许将溢出数据优先存储在片上共享内存中，显著降低访问延迟并减轻L2缓存压力。该优化通过.pragma enable_smem_spilling指令启用，编译器会优先使用共享内存存储溢出数据，不足时再回退到本地内存。测试显示，启用后原176字节的本地内存溢出完全转移至共享内存，访问延迟从全局内存级别降至共享内存级别。这项优化特别适用于寄存器密集型内

博文更新于 2025.10.19 ·

https://blog.csdn.net/kunhe0512/article/details/153591151 🚀 核心亮点： 📈 7倍性能飞跃 - 通过软件优化从发布时的5倍提升到7倍生成式AI性能 🔧 技术突破 - 量化技术(FP8/W4A16)与EAGLE-3投机解码的完美结合 🌟 Day 0支持 - 最新AI模型发布当天即可在Jetson Thor上运行 💡 开发者友好 - 完整的优化指南和每月更新的vLLM容器这篇文章展示了NVIDIA软件生态持续优化的强大能力。特别令人印象深刻的是，通过纯软件更新就能让硬件性能从5倍提升到7倍，这体现了NVIDIA在AI软件栈方面的深厚技术积累。技术亮点包括：Llama 3.3 70B从12.64提升到88.62 tokens/sec的惊人性能提升，以及通过W4A16量化技术让175B+参数模型能在单个边缘设备上运行。这对于边缘AI应用来说是革命性的突破。

发布动态 2025.10.19

解锁7倍生成式AI性能：NVIDIA Jetson AGX Thor上的更快、更智能的边缘模型

NVIDIA Jetson AGX Thor实现7倍生成式AI性能提升 NVIDIA通过持续软件优化，使Jetson AGX Thor的生成式AI性能较初始发布提升7倍。最新测试显示，Llama 3.3 70B模型的token输出速度从12.64提升至41.5 tokens/秒，DeepSeek R1 70B模型从11.5提升至40.29 tokens/秒。平台采用两大关键技术：支持FP8和W4A16等量化格式减小模型尺寸，以及通过推测解码技术实现"草稿-验证"加速机制。结合NVFP4量

博文更新于 2025.10.19 ·