扫地的小何尚
码龄17年
求更新 关注
提问 私信
  • 博客:2,427,921
    社区:62,006
    问答:4,445
    动态:1,306,446
    视频:2,168
    3,802,986
    总访问量
  • 584
    原创
  • 2,244
    排名
  • 58,857
    粉丝
  • 131
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
加入CSDN时间: 2008-10-08
博客简介:

专注于人工智能领域的小何尚

博客描述:
读万卷书, 走万里路。专注于最新最热的技术,读最好最细的文章。
查看详细资料
个人成就
  • 优质创作者: 人工智能技术领域
  • 获得6,522次点赞
  • 内容获得945次评论
  • 获得8,171次收藏
  • 代码片获得24,163次分享
  • 原力等级
    原力等级
    9
    原力分
    11,280
    本月获得
    71
创作历程
  • 114篇
    2025年
  • 113篇
    2024年
  • 156篇
    2023年
  • 225篇
    2022年
成就勋章
TA的专栏
  • NCCL
    1篇
  • Nemo
    1篇
  • CUDA编程
    38篇
  • NVIDIA NIM 开发指南
    2篇
  • CUDA Python框架--Warp
    8篇
  • Triton教程
    12篇
  • Thrust
    1篇
  • Omniverse Replicator开发文档
    6篇
  • Hackathon
    1篇
  • ISAAC_更多精彩内容请关注GTC2023
    63篇
  • cuBLAS开发指南
    43篇
  • TensorRT开发教程
    16篇
  • Deepstream开发指南
    4篇

TA关注的专栏 10

TA关注的收藏夹 0

TA关注的社区 40

TA参与的活动 16

TA的推广
兴趣领域 设置
  • Python
    pythondjango
  • 编程语言
    c++c语言
  • 人工智能
    opencv计算机视觉目标检测人工智能深度学习目标跟踪自动驾驶pytorch
创作活动更多

AI 镜像开发实战征文活动

随着人工智能技术的飞速发展,AI 镜像开发逐渐成为技术领域的热点之一。Stable Diffusion 3.5 FP8 作为强大的文生图模型,为开发者提供了更高效的图像生成解决方案。为了推动 AI 镜像开发技术的交流与创新,我们特此发起本次征文活动,诚邀广大开发者分享在 Stable Diffusion 3.5 FP8 文生图方向的实战经验和创新应用 本次征文活动鼓励开发者围绕 Stable Diffusion 3.5 FP8 文生图方向,分享以下方面的内容: 1. 技术实践与优化 - Stable Diffusion 3.5 FP8 模型架构解析与优化技巧 - 文生图生成效果的提升方法与技巧 - 模型部署与加速策略,例如使用 Hugging Face、Diffusers 等工具 - 针对特定场景(例如二次元、写实风)的模型微调与定制化开发 2. 应用场景探索 - Stable Diffusion 3.5 FP8 在不同领域的应用案例分享,例如游戏设计、广告创意、艺术创作等 - 利用 Stable Diffusion 3.5 FP8 实现图像编辑、图像修复、图像增强等功能的探索 - 结合其他 AI 技术(例如 NLP、语音识别)构建更强大的应用 3. 创新应用与思考 - 基于 Stable Diffusion 3.5 FP8 的创新应用场景设计 - AI 镜像开发的未来发展方向的思考与展望 - 对 AI 镜像开发伦理、安全等问题的探讨

39人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 代码仓
  • 资源
  • 收藏
  • 关注/订阅/互动
更多
  • 最近

  • 文章

  • 专栏

  • 代码仓

  • 资源

  • 收藏

  • 关注/订阅/互动

  • 社区

  • 帖子

  • 问答

  • 课程

  • 视频

搜索 取消

NVIDIA CUDA-Q QEC权威指南:实时解码、GPU解码器与AI推理增强

摘要:NVIDIA CUDA-Q QEC 0.5.0量子纠错新功能 NVIDIA CUDA-Q QEC 0.5.0版本推出多项量子纠错关键功能:1)支持在线实时解码,实现与量子处理单元(QPU)的低延迟并行运行;2)新增GPU加速的RelayBP算法解码器,通过"记忆强度"概念改进传统BP方法;3)集成TensorRT AI解码器推理引擎,支持ONNX模型;4)引入滑动窗口解码功能,降低处理延迟。这些改进通过四步流程简化操作:DEM生成、解码器配置、初始化和实时执行,显著提升量子纠错研究
原创
博文更新于 前天 14:36 ·
573 阅读 ·
10 点赞 ·
0 评论 ·
20 收藏

深入NVIDIA Nemotron-3:高效准确的技术、工具与数据深度解析

摘要:NVIDIA Nemotron-3技术解析 NVIDIA Nemotron-3系列模型为构建专业AI智能体提供了突破性解决方案。该系列采用创新的混合Mamba-Transformer MoE架构,结合状态空间模型(Mamba)的长序列处理能力、Transformer的精确推理和MoE的高效计算,支持高达100万token的上下文处理。模型通过NeMo Gym多环境强化学习框架训练,使智能体掌握复杂任务执行能力。技术亮点包括:1)混合架构实现超长上下文推理;2)开源RL训练环境支持智能体开发;3)原生支
原创
博文更新于 前天 14:23 ·
748 阅读 ·
24 点赞 ·
0 评论 ·
6 收藏

从简单CUDA开始

本文介绍了如何将简单的C++数组相加程序逐步优化为高性能CUDA并行计算程序。首先展示CPU版本实现,然后通过添加__global__修饰符转换为CUDA内核,并使用统一内存管理。通过引入线程并行和线程块机制,性能从单线程的91.8毫秒提升到多块的47.5微秒,加速1932倍。最后使用预取优化数据传输,达到265GB/s带宽,接近GPU峰值性能。文章完整展示了从串行到并行计算的优化路径,为CUDA初学者提供了实用范例。
原创
博文更新于 2025.12.12 ·
752 阅读 ·
25 点赞 ·
1 评论 ·
14 收藏

NVIDIA CUDA 13.1权威指南:CUDA Tile驱动下一代GPU编程,性能全面提升

NVIDIA CUDA 13.1带来重大更新,包括革命性的CUDA Tile编程模型,支持在更高抽象层编写GPU内核,自动优化线程分配。新版本还引入Green Contexts实现细粒度GPU资源管理,编译时补丁增强内存调试效率,以及确定性浮点归约选项。同时发布了全新重构的CUDA编程指南,为开发者提供更清晰的学习路径。这些改进显著提升了GPU编程的效率和性能,特别针对AI算法优化,为未来GPU架构奠定基础。
原创
博文更新于 2025.12.12 ·
853 阅读 ·
15 点赞 ·
0 评论 ·
23 收藏

使用NVIDIA CUDA Tile Python简化GPU编程

摘要:CUDA Tile Python简化GPU编程 NVIDIA推出的CUDA Tile Python(cuTile)为GPU编程提供了革命性的tile-based编程模型。相比传统的SIMT模型,cuTile让开发者只需描述对数据块(tile)的操作,而无需处理线程索引和内存管理等底层细节。cuTile基于四个核心概念:Arrays、Tiles、Kernels和Blocks,自动处理并行化和硬件优化。通过向量加法的代码示例,展示了cuTile代码更简洁、更接近数学表达的优势。开发者可使用Nsight C
原创
博文更新于 2025.12.11 ·
831 阅读 ·
18 点赞 ·
0 评论 ·
29 收藏

CUDA Tile指南:专注算法,让硬件细节交给框架

摘要 NVIDIA CUDA Tile是2025年发布的革命性GPU编程技术,通过引入基于tile的编程模型,将Tensor Cores等硬件细节完全抽象化。相比传统SIMT模型,Tile编程让开发者只需关注数据块的划分和计算,而无需管理线程映射等底层细节。CUDA Tile IR作为中间表示层,确保了代码的跨代可移植性。配套的cuTile Python库提供了简洁的API,支持向量加法、矩阵乘法等典型运算。该技术显著提升了开发效率,同时保持高性能,使开发者能够专注于算法本身而非硬件优化。
原创
博文更新于 2025.12.11 ·
1085 阅读 ·
39 点赞 ·
2 评论 ·
12 收藏

仅需一部智能手机,在NVIDIA Isaac Sim中重建真实场景:终极实战指南

摘要: 借助智能手机和NVIDIA Isaac Sim,可实现真实场景的快速3D重建与机器人仿真。工作流分为四步: 手机拍摄:确保光照均匀、稳定对焦,拍摄高重叠率照片。 COLMAP重建:生成稀疏3D点云与相机位姿,为后续密集重建提供基础。 3DGUT训练:通过MCMC优化将稀疏点云转化为高质量3D高斯溅射模型,并导出为USDZ格式。 Isaac Sim部署:导入场景,添加物理地面和阴影代理,完成机器人仿真环境搭建。 该方案简化了传统3D建模流程,适用于机器人导航、虚拟测试等应用场景。
原创
博文更新于 2025.11.04 ·
971 阅读 ·
13 点赞 ·
2 评论 ·
20 收藏

NVIDIA 中国开发者日 | 三场技术分论坛科技演讲一览,活动报名持续热招中

NVIDIA中国开发者日2025将于11月14日在苏州举办,聚焦大语言模型、机器人/物理AI及开发工具三大领域。技术分论坛将带来精彩议题:大语言模型专场分享GPU优化、SGLang框架应用等;机器人专场介绍Cosmos平台、人形机器人落地实践;开发工具专场探讨GPU计算演进、CuTeDSL应用等前沿话题。大会面向全国开发者开放注册,提供与行业领袖交流、获取最新技术动态的机会。
原创
博文更新于 2025.11.04 ·
1259 阅读 ·
29 点赞 ·
0 评论 ·
16 收藏

AI创新的火花:NVIDIA DGX Spark开箱与深度解析

NVIDIA DGX Spark开箱评测:这款被称为"全球最小AI超级计算机"的设备,将1PetaFLOP的AI性能浓缩于150mm×150mm×50.5mm的紧凑机身中。搭载GB10 Grace Blackwell Superchip、128GB统一内存和200Gbps网卡,可处理200B参数的AI模型。约4000美元的定价让数据中心级算力触手可及,支持本地AI模型开发、微调和边缘计算应用,为AI创新提供了强大平台。
原创
博文更新于 2025.10.29 ·
1627 阅读 ·
40 点赞 ·
0 评论 ·
4 收藏

在NVIDIA Jetson上实现端到端机器人学习:HuggingFace LeRobot实战指南

摘要: 本文详细介绍了在NVIDIA Jetson设备上运行HuggingFace LeRobot机器人学习框架的完整流程。内容包括硬件要求(推荐Jetson AGX Orin)、JetPack 6环境配置、存储优化建议,以及真实机器人(以Koch v1.1为例)的端到端工作流程:从硬件连接、音频配置、udev规则设置,到数据记录、模型训练和策略评估。特别强调了NVMe SSD存储的重要性,并提供了内存优化、容器配置等实用技巧,帮助开发者在资源受限的边缘设备上实现高效的机器人学习。
原创
博文更新于 2025.10.24 ·
1191 阅读 ·
22 点赞 ·
1 评论 ·
21 收藏

在NVIDIA Jetson上部署OpenVLA:视觉-语言-动作模型的微调与部署指南

本教程详细介绍了在NVIDIA Jetson平台上部署和优化OpenVLA视觉-语言-动作模型的完整流程。主要内容包括:1)VLA模型架构解析,说明其基于Llama-7B构建,通过动作令牌控制机器人;2)量化和性能验证,在Jetson AGX Orin上测试不同量化方式(FP16/FP8/INT4)的准确率和延迟;3)提供简洁的推理API代码示例;4)通过MimicGen生成模拟训练数据并转换为RLDS格式的工作流程。教程还包含在积木堆叠任务上达到85%准确率的实际验证结果,为具身AI的部署提供了实用参考。
原创
博文更新于 2025.10.24 ·
914 阅读 ·
28 点赞 ·
0 评论 ·
28 收藏

启用可扩展的AI驱动分子动力学模拟

AI驱动的分子动力学模拟:构建ML-IAP-Kokkos接口 本文介绍了如何构建ML-IAP-Kokkos接口,将基于PyTorch的机器学习原子间势(MLIPs)集成到LAMMPS分子动力学软件中。该接口由NVIDIA和多个国家实验室合作开发,支持GPU加速的大规模模拟。文章详细说明了构建步骤: 环境准备:需要LAMMPS(Kokkos/MPI/ML-IAP支持)、Python环境和PyTorch模型 实现MLIAPUnified抽象类,定义计算力的核心函数 通过示例展示了LAMMPS与Python模型的
原创
博文更新于 2025.10.23 ·
1163 阅读 ·
15 点赞 ·
0 评论 ·
9 收藏

一小时内使用NVIDIA Nemotron创建你自己的Bash计算机使用智能体

摘要:本文介绍如何在一小时内使用NVIDIA Nemotron Nano v2构建自然语言Bash智能体,仅需约200行Python代码。系统由两个核心组件构成:Bash类负责命令执行和目录管理,智能体通过Nemotron模型理解用户意图并执行操作。文章详细展示了Bash工具类的实现代码,包括命令白名单、执行逻辑和JSON Schema转换方法,并介绍了如何通过系统提示定义智能体行为。最后还提到可使用LangGraph进一步简化设计。该智能体无需用户编写命令,通过自然语言交互即可完成Bash操作。
原创
博文更新于 2025.10.23 ·
535 阅读 ·
3 点赞 ·
0 评论 ·
3 收藏

使用NVIDIA Nemotron构建日志分析多智能体自我修正RAG系统

本文介绍了如何利用NVIDIA Nemotron构建一个多智能体自我修正的RAG系统,用于解决复杂日志分析挑战。系统采用混合检索、智能重排序和相关性评分等技术,通过多智能体协同工作实现日志解析、查询修正和答案生成。文章详细阐述了系统架构、关键组件和实现方法,并提供了快速上手指南。该系统能显著提升日志分析效率,将问题诊断时间从数小时缩短至数秒,为开发运维团队提供有力支持。
原创
博文更新于 2025.10.22 ·
612 阅读 ·
8 点赞 ·
0 评论 ·
26 收藏

https://blog.csdn.net/kunhe0512/article/details/153694308 长久以来,拥有数据中心级的AI算力似乎是少数顶尖实验室和大型企业的专属。然而,NVIDIA通过一款颠覆性的产品,彻底改变了这一格局。今天,我们怀着无比激动的心情,为大家带来NVIDIA DGX Spark的独家开箱评测。这款被称为“全球最小AI超级计算机”的设备,将一PetaFLOP的AI性能浓缩于一个精致的桌面级包装中,预示着一个AI全民化、创新遍地开花的全新时代已经到来。

发布动态 2025.10.22

AI创新的火花:NVIDIA DGX Spark开箱与深度解析

摘要 NVIDIA DGX Spark是一款颠覆性的桌面级AI超级计算机,将1 PetaFLOP算力浓缩于仅1.2公斤的机身中。其核心采用Grace Blackwell架构GB10芯片,集成20核Arm CPU和Blackwell GPU,配备128GB统一内存和4TB NVMe存储,支持200B参数模型的本地处理。凭借200Gbps网络和完整AI软件栈,DGX Spark为开发者提供从模型开发到边缘智能的一站式解决方案,以4000美元价格打破AI算力门槛,有望加速AI创新普及。
原创
博文更新于 2025.10.22 ·
1071 阅读 ·
16 点赞 ·
7 评论 ·
8 收藏

https://blog.csdn.net/kunhe0512/article/details/153593274 ⚡ 核心亮点: 🔍 技术突破 - CUDA 13.0引入共享内存寄存器溢出,将溢出从本地内存重定向到片上共享内存 📊 性能提升 - 实测显示执行时间提升7.76%,SM活跃周期提升9.03% 💻 简单易用 - 只需添加一行pragma即可启用优化 🏆 实际效果 - QUDA库测试显示5-10%的性能提升 这篇文章深入解析了一个非常实用的CUDA编译器优化技术。传统的寄存器溢出会将数据存储到高延迟的本地内存中,而新技术通过智能地利用闲置的共享内存资源,显著降低了访问延迟并减轻了L2缓存压力。 技术亮点包括:编译器的智能优先级策略、透明的回退机制,以及在QUDA等实际应用中验证的性能提升效果。对于GPU开发者来说,这是一个几乎零成本的性能优化机会。

发布动态 2025.10.19

如何通过共享内存和寄存器溢出优化CUDA内核性能

CUDA 13.0引入共享内存寄存器溢出优化 当CUDA内核寄存器需求超过硬件限制时,传统做法会溢出到高延迟的本地内存。CUDA 13.0新增共享内存溢出功能,允许将溢出数据优先存储在片上共享内存中,显著降低访问延迟并减轻L2缓存压力。 该优化通过.pragma enable_smem_spilling指令启用,编译器会优先使用共享内存存储溢出数据,不足时再回退到本地内存。测试显示,启用后原176字节的本地内存溢出完全转移至共享内存,访问延迟从全局内存级别降至共享内存级别。 这项优化特别适用于寄存器密集型内
原创
博文更新于 2025.10.19 ·
370 阅读 ·
5 点赞 ·
0 评论 ·
10 收藏

https://blog.csdn.net/kunhe0512/article/details/153591151 🚀 核心亮点: 📈 7倍性能飞跃 - 通过软件优化从发布时的5倍提升到7倍生成式AI性能 🔧 技术突破 - 量化技术(FP8/W4A16)与EAGLE-3投机解码的完美结合 🌟 Day 0支持 - 最新AI模型发布当天即可在Jetson Thor上运行 💡 开发者友好 - 完整的优化指南和每月更新的vLLM容器 这篇文章展示了NVIDIA软件生态持续优化的强大能力。特别令人印象深刻的是,通过纯软件更新就能让硬件性能从5倍提升到7倍,这体现了NVIDIA在AI软件栈方面的深厚技术积累。 技术亮点包括:Llama 3.3 70B从12.64提升到88.62 tokens/sec的惊人性能提升,以及通过W4A16量化技术让175B+参数模型能在单个边缘设备上运行。这对于边缘AI应用来说是革命性的突破。

发布动态 2025.10.19

解锁7倍生成式AI性能:NVIDIA Jetson AGX Thor上的更快、更智能的边缘模型

NVIDIA Jetson AGX Thor实现7倍生成式AI性能提升 NVIDIA通过持续软件优化,使Jetson AGX Thor的生成式AI性能较初始发布提升7倍。最新测试显示,Llama 3.3 70B模型的token输出速度从12.64提升至41.5 tokens/秒,DeepSeek R1 70B模型从11.5提升至40.29 tokens/秒。平台采用两大关键技术:支持FP8和W4A16等量化格式减小模型尺寸,以及通过推测解码技术实现"草稿-验证"加速机制。结合NVFP4量
原创
博文更新于 2025.10.19 ·
1011 阅读 ·
7 点赞 ·
0 评论 ·
11 收藏
加载更多