USST_Coder
码龄11年
求更新 关注
提问 私信
  • 博客:233,416
    社区:3
    233,419
    总访问量
  • 56
    原创
  • 109
    粉丝
  • 80
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
加入CSDN时间: 2014-06-26
博客简介:

yan31415的博客

查看详细资料
个人成就
  • 获得147次点赞
  • 内容获得56次评论
  • 获得618次收藏
  • 代码片获得277次分享
  • 博客总排名1,335,967名
创作历程
  • 5篇
    2021年
  • 70篇
    2020年
成就勋章
TA的专栏
  • 性能调优汇总
    2篇
  • C++性能调优
    20篇
  • CUDA性能调优
    4篇
  • Intrinsic
    4篇
  • 性能分析工具
    6篇
  • CUDA
    14篇
  • CUDA C编程权威指南
    6篇
  • Cache
    6篇
  • 并行化
    3篇
  • C++
    2篇
  • ML
    1篇
  • 汇编
    3篇
  • Linux
    4篇

TA关注的专栏 25

TA关注的收藏夹 0

TA关注的社区 0

TA参与的活动 0

兴趣领域 设置
  • 数据结构与算法
    排序算法
  • 人工智能
    opencvtensorflowscikit-learn聚类分类回归
创作活动更多

AI 镜像开发实战征文活动

随着人工智能技术的飞速发展,AI 镜像开发逐渐成为技术领域的热点之一。Stable Diffusion 3.5 FP8 作为强大的文生图模型,为开发者提供了更高效的图像生成解决方案。为了推动 AI 镜像开发技术的交流与创新,我们特此发起本次征文活动,诚邀广大开发者分享在 Stable Diffusion 3.5 FP8 文生图方向的实战经验和创新应用 本次征文活动鼓励开发者围绕 Stable Diffusion 3.5 FP8 文生图方向,分享以下方面的内容: 1. 技术实践与优化 - Stable Diffusion 3.5 FP8 模型架构解析与优化技巧 - 文生图生成效果的提升方法与技巧 - 模型部署与加速策略,例如使用 Hugging Face、Diffusers 等工具 - 针对特定场景(例如二次元、写实风)的模型微调与定制化开发 2. 应用场景探索 - Stable Diffusion 3.5 FP8 在不同领域的应用案例分享,例如游戏设计、广告创意、艺术创作等 - 利用 Stable Diffusion 3.5 FP8 实现图像编辑、图像修复、图像增强等功能的探索 - 结合其他 AI 技术(例如 NLP、语音识别)构建更强大的应用 3. 创新应用与思考 - 基于 Stable Diffusion 3.5 FP8 的创新应用场景设计 - AI 镜像开发的未来发展方向的思考与展望 - 对 AI 镜像开发伦理、安全等问题的探讨

30人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 代码仓
  • 资源
  • 收藏
  • 关注/订阅/互动
更多
  • 最近

  • 文章

  • 专栏

  • 代码仓

  • 资源

  • 收藏

  • 关注/订阅/互动

  • 社区

  • 帖子

  • 问答

  • 课程

  • 视频

搜索 取消

设计模式 c++版

发布资源 2017.03.09 ·
pdf

王爽汇编语言思维导图.png

发布资源 2020.06.17 ·
png

C++性能优化系列——3D高斯核卷积计算题目

计划写一个优化3D高斯核卷积计算的系列博客。3D高斯核卷积计算的需求来自于公司内部举办的性能优化竞赛,这里介绍题目信息。题目题目三3D卷积(相关)操作 (20分)【场景和性能问题描述】背景:在图像处理中,卷积(滤波)是一个基本、常用的操作,很多图像处理方法都要用到,但是卷积是非常耗时的操作,尤其是在卷积核比较大、图像比较大(3D)的情况。当前XXX配准35%时间用在高斯卷积上,所以对它进行性能研究有实际价值。题目:对一个432432457的图像做3D高斯卷积,卷积核大小为313131。【要求】
原创
博文更新于 2021.06.17 ·
446 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

机器学习面试

BAT机器学习面试1000题系列整理:July、元超、立娜、德伟、贾茹、王剑、AntZ、孟莹等众人。本系列大部分题目来源于公开网络,取之分享,用之分享,且在撰写答案过程中若引用他人解析则必注明原作者及来源链接。另,不少答案得到寒小阳、管博士、张雨石、王赟、褚博士等七月在线名师审校。说明:本系列作为国内首个AI题库,首...
转载
博文更新于 2021.04.21 ·
7506 阅读 ·
1 点赞 ·
1 评论 ·
12 收藏

CUDA性能优化系列——Kmeans算法调优(一)

__global__ void k_kmeans(float* d_src, int srcsize, int dim, float* d_cluster, int clustersize, float* d_dst){ extern __shared__ float sm_cluster[]; float regData[4] = { 0.0f,0.0f, 0.0f, 0.0f };//维度不确定的情况下how to use registers???????? int tid = threadId
原创
博文更新于 2021.04.16 ·
3747 阅读 ·
2 点赞 ·
2 评论 ·
11 收藏

CUDA性能优化系列——Kmeans算法调优(三)

本篇对调度方式进行优化,实现内存拷贝和计算overlap。单流同步调用/*单流同步*/void CallKmeansSync(){ //TODO:init host memory float* h_Src/*[Coords][SrcCount]*/, * h_Clusters/*[ClusterCount][Coords]*/; int* h_MemberShip/*[kSrcCount]*/, * h_MemberCount/*[kClusterCount]*/; h_Src
原创
博文更新于 2021.04.16 ·
2009 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

CUDA性能优化系列——Kmeans算法调优(二)

本篇介绍Kmeans算法中计算新的聚类中心部分。这部分主要逻辑:根据计算出的新的分类信息,对全部数据点依次对每个类别求出所属当前类别的数据点个数与坐标和。本质上就是进行规约运算。V1 Atomic实现全局规约由于最终生成16个聚类中心,因此这里的规约操作需要针对算法进行一定的调整。V1在实现逻辑为:先在共享内存上分别通过原子操作,对16个类进行规约,再通过原子操作进行设备内存的全局规约操作。/*V1 atomic规约*/__global__ void kKmeansSumAtomic(int Src
原创
博文更新于 2021.04.16 ·
1959 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

三种基于CUDA的归约计算

归约在并行计算中很常见,并且在实现上具有一定的套路。本文分别基于三种机制(Intrinsic,共享内存,atomic),实现三个版本的归约操作,完成一个warp大小的数据的归约求和计算。Intrinsic版本基于Intrinsic函数 __shfl_down_sync 实现,使一个warp内的线程通过读取相邻线程寄存器中数据,完成归约操作。实现如下:__global__ void kIntrinsicWarpReduce(int* d_src, int* d_dst){ int val = d_
原创
博文更新于 2021.03.02 ·
2429 阅读 ·
1 点赞 ·
0 评论 ·
9 收藏

可分离卷积CUDA实现

记录代码#include "include/SepConv.cuh"#include "cuda_runtime.h"#include "device_launch_parameters.h"#include <stdio.h>#include <stdlib.h>#include <string>#include <cooperative_groups.h>#include <iostream>#include <ss
原创
博文更新于 2021.02.05 ·
823 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

CUDA 统计数组直方图

#include "cuda_runtime.h"#include "device_launch_parameters.h"#include <stdio.h>#include <stdlib.h>#include <string>#include <cooperative_groups.h>#include <iostream>#define HISTOGRAMGRID 36#define HISTOGRAMBLOCK 1.
原创
博文更新于 2021.02.01 ·
1017 阅读 ·
1 点赞 ·
0 评论 ·
8 收藏

linux cp同一路径下的多个文件

RTcp ./{startup.sh,UID_127287205483680_NoiseDecorMatrix.dat} ./1/注意,{中文件不要加空格}
原创
博文更新于 2020.06.09 ·
4483 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Nsight Compute内存访问常用Metrics含义理解

Memory L1 Transcations Global:实际全局内存加载至L1缓存的内存交换次数,粒度128bytesMemory L2 Transactions Global:实际全局内存加载至L2缓存的内存交换次数,粒度32bytes,该参数的值应该是Memory L1 Transcations Global 的4倍Memory Ideal L2 Transactions Global:理论需要从全局内存加载至L2缓存的内存交换次数,当数值比Memory L2 Transactions Glob
原创
博文更新于 2020.11.27 ·
1678 阅读 ·
2 点赞 ·
2 评论 ·
2 收藏

Nsight Compute与nvprof metrics 对照

NVIDIA 计算能力7.5及以上的GPU设备不再支持nvprof工具进行性能剖析,提示使用Nsight Compute作为替代品,如下图所示。Nsight Compute Cli(命令行)剖析的参数与nvprof不一样,当按照nvprof的参数抓取数据时,因为参数不识别,无法抓取希望得到的指标,如下图所示;同时,Nsight Compute Cli参数成千上万,虽然可以将这些参数全部专区,但是会对使用者筛选关注信息带来很大的麻烦。因此,非常有必要找到两个工具参数之间的对应关系。这里记录命令行使用N
原创
博文更新于 2020.11.24 ·
7426 阅读 ·
14 点赞 ·
1 评论 ·
38 收藏

Pinned Memory 多设备异步拷贝

void TestHostPinnedMem(){ //compare pinned and pagable memcpy const int size = 1024 * 1024 * 100; int* h1 = (int*)malloc(size * sizeof(int)); int* d1; cudaMalloc(&d1, size * sizeof(int)); cudaMemcpy(d1, h1, size * sizeof(int), cudaMemcpyHostToDe
原创
博文更新于 2020.11.23 ·
769 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

CUDA处理归约问题

归约问题由于计算操作的对称性,非常适合并行处理。本文以数组求和为例,通过CUDA先实基础版本,并基于基础版本尝试通过不同的优化手段实现几个方案,最后将所有优化手段集成到最终的实现。其中核函数执行时间是通过Nsight System工具抓取,命令参数如下nsys profile --stats true a.out 5基础版本实现核函数实现__global__ void kReduceWholeWarpSafe(int64_t* d_src, int64_t* d_sum){ int64_t*
原创
博文更新于 2020.11.20 ·
594 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

nvcc 编译时输出核函数寄存器使用情况

nvcc --ptxas-options=-v kernel.cu
原创
博文更新于 2020.11.19 ·
859 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Nsight Compute 使用

记录使用Nsight Compute 分析cuda性能的方法。1.单击菜单栏上的Connet,弹出如下界面,设置要剖析的执行程序路径等执行相关参数,选择Interactive Profile模式,可以对剖析流程进行控制,所有参数设置完成后,单击Launch开始性能分析。2.在API Stream执行到要剖析的核函数,然后单击菜单栏的 Profile Kernel对核函数进行剖析3.生成性能分析结果,可以通过切换Page选项查看关注的参数,如Source ,Detail等Detail信息:记录
原创
博文更新于 2020.11.12 ·
24957 阅读 ·
11 点赞 ·
21 评论 ·
71 收藏

vi中 wq 、wq!、x、q、q!区别

上面的命令只是在vi编辑命令中使用wq:表示保存退出wq!:表示强制保存退出x:表示保存退出wq和wq!的区别如下:有些文件设置了只读,一般不是修改文件的,但是如果你是文件的owner或者root的话,通过wq!还是能保存文件退出如果文件设置为只读了的话,用 :wq命令是不能保存并退出的,但是最高权限者可通过wq!来进行文件的保存并退出文件。已设定选项 ‘readonly’ (请加 ! 强制执行)文件所有者通过 wq! 可以保存只读文件!是强制执行如果不带!碰上只读文件,会给提示会是只读
转载
博文更新于 2020.11.11 ·
12114 阅读 ·
4 点赞 ·
0 评论 ·
18 收藏

Everything搜索网络路径

在 工具->选项->索引->文件夹->添加 中添加网络路径并保存,配置后如下:配置成功后可以在网络路径中搜索文件,如下:
原创
博文更新于 2020.11.09 ·
7110 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏

root用户 ssh远程登录 提示access denied

ssh远程登录 提示Access denied,如下图所示:需要修改SSH服务配置文件sshd_config来解决这个问题。文件路径为 /etc/ssh/sshd_config ,默认文件内容如下图:图中红框内容修改为 PermitRootLogin yes,如下图所示:修改好配置文件并保存,service ssh restart 重启SSH服务,ssh可以成功登陆,如下图:...
原创
博文更新于 2020.11.07 ·
24964 阅读 ·
9 点赞 ·
7 评论 ·
41 收藏
加载更多