深度学习
文章平均质量分 67
JoannaJuanCV
研究方向:图像处理、立体视觉、3D重建、人脸识别;传统AI、大模型、多模态等,专注于计算机视觉在无人机和机器人领域的研究和应用。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
视频动作视频-TimeSformer
TimeSformer:基于纯Transformer的视频理解开创者 TimeSformer是首个完全基于Transformer架构的视频理解模型,摒弃了传统3D卷积,通过时空注意力机制直接建模视频中的全局依赖关系。其核心创新包括:1)将视频分解为3D时空块;2)提出四种注意力策略(全局/分离/空间/时间),其中分离式时空注意力在降低计算复杂度的同时保持性能。该模型在动作识别任务中展现出优于传统卷积方法的性能,验证了纯注意力机制处理视频的可行性,但也面临计算量大、训练成本高等挑战。TimeSformer为视原创 2025-12-09 14:00:08 · 832 阅读 · 0 评论 -
opencv-Haar特征
1.什么是haar特征?特征 = 某个区域的像素点经过某种四则运算之后得到的结果。这个结果可以是一个具体的值也可以是一个向量,矩阵,多维。实际上就是矩阵运算2.如何利用特征 区分目标?阈值判决,如果大于某个阈值,认为是目标。小于某个阈值认为是非目标。3.如何得到这个判决?使用机器学习,我们可以得到这个判决门限Haar特征的计算原理这些是在opencv中使用的ha...原创 2019-05-17 13:37:26 · 1968 阅读 · 0 评论 -
开源极速人脸检测库libfacedetection升级,新增五点检测功能
来源:于仕琪@微信公众号我们的开源人脸检测算法,新增加了五点人脸检测功能。这是一个开源的CNN算法,在GitHub上已经获得8000个星。项目地址:https://github.com/ShiqiYu/libfacedetection新版本特点疫情期间,在家疯狂尝试各种想法,大部分失败了,但最后一个成功了。成功的算法体现在代码里。与之前的版本相比,主要变化有:...原创 2020-03-18 15:43:42 · 1156 阅读 · 0 评论 -
win10+VS2015+Dlib19.17 release\debug环境配置
1. 下载Dlib官网http://dlib.net/files/:Dlib下载,选择下载版本dlib-19.17.zip2. 编译(1)解压缩,进入dlib-19.17文件夹:(2)打开cmd命令:在上图目录下,按下shift按键,然后鼠键右键,出现如下,选择【在此处代开Powershell窗口(是)】;(3)编译命令:首先要保证已经安装了cmake,并添加...原创 2019-05-23 17:16:45 · 736 阅读 · 0 评论 -
python-opencv:基于SSD的人脸检测
SSD:SSD是一种基于深度学习的目标检测算法,opencv在3.3版本以后将其引入作为基于深度学习的人脸检测器;模型opencv实现的SSD人脸检测器的骨干网络是REsNet-10,当前它提供了两个训练好的模型:基于深度学习框架caffe训练的模型和基于TensorFlow训练的模型下载地址:https://github.com/opencv/opencv/blob/master/...原创 2019-06-14 18:49:51 · 7143 阅读 · 1 评论 -
Dlib与OpenCV图片格式的互转
Dlib图片格式与OpenCV还是有一定区别的,dlib是以dlib::array2d的形式存在,而oepncv是以cv::Mat的形式存在。1:dlib中读取图片:dlib::array2d<dlib::rgb_pixel> img_rgb;dlib::load_image(img_rgb, "test_image.jpg");2:dlib rgb图片转换成灰度图片...原创 2019-07-24 17:12:00 · 636 阅读 · 0 评论 -
ubuntu dlib 开发板开发 报错:"/usr/lib/libdlib.a" but this file does not exist
dlib编译与安装sudo apt-get install libdlib-dev以上命令类似与opencv 安装, 会安装到/usr/lib下,但是安装过程中出现错误,libdlib.a没有安装成功,导致代码执行时报错"/usr/lib/libdlib.a" but this file does not exist推荐使用源码安装;卸载使用sudo apt-get ...原创 2019-07-30 20:05:06 · 619 阅读 · 0 评论 -
vs2015+opencv3.3+libfacedetectcnn 人脸识别
1.Libfacedetectlibfacedetection库是深圳大学的于仕琪老师发布的开源人脸检测库,相比于OpenCV自带的CascadeClassifier人脸检测,无论在速度上还是精度上,都有巨大的优势,是目前已知开源库中最好用的一款。【于老师的技术共享:怎么把人脸检测的速度做到极致】https://mp.weixin.qq.com/s?__biz=MzA3NDU3MTc1N...原创 2019-05-22 13:58:00 · 1565 阅读 · 3 评论 -
python-opencv:基于haar的人脸检测
Haar级联分类器:opencv提供了训练好的模型,xml类型,下载地址:https://github.com/Itseez/opencv/tree/master/data/haarcascades# -*- coding: utf-8 -*-"""Created on Fri Jun 14 17:43:10 2019@author: zfjuan"""import n...原创 2019-06-14 18:12:59 · 1090 阅读 · 0 评论 -
Opencv3.3 + Haar人脸检测
利用Opencv自带的Haar特征分类器进行人脸检测。(1)Haar特征分类器Haar特征分类器就是一个XML文件,该文件中会描述人体各个部位的Haar特征值。包括人脸、眼睛、嘴唇等等。Haar特征分类器存放目录:OpenCV安装目录中的\data\ haarcascades目录下,例如:例如此次程序进行人脸识别,需要将分类器haarcascade_frontalface_al...原创 2019-05-23 13:41:35 · 536 阅读 · 0 评论 -
win10+anaconda3+python3.7+dlib人脸检测
# -*- coding: utf-8 -*-"""Created on Thu Sep 5 10:41:10 2019@author: joanna"""import cv2import dlibfrom skimage import io # 使用特征提取器get_frontal_face_detectordetector = dlib.get_frontal_fa...原创 2019-09-05 11:45:52 · 397 阅读 · 0 评论 -
人脸数据集简介及下载地址
1. Olivetti Faces人脸数据集由40个人组成,共计400张人脸; 每人的人脸图片为10张,包含正脸、侧脸以及不同的表情; 整个数据集就是一张大的人脸组合图片,下载地址:https://cs.nyu.edu/~roweis/data/olivettifaces.gif,下载得到的图片尺寸为942*1140,每一行包含人脸20个,每一列包含人脸20个,那么每一个人脸区域大小为47...原创 2019-06-13 14:45:33 · 8618 阅读 · 0 评论 -
python dlib 人脸检测
1. anaconda 安装dlib库:安装命令:https://anaconda.org/conda-forge/dlib打开Anaconda Prompt:输入conda install -c conda-forge dlib=19.9等待安装完成即可;2. 测试示例方法1:基于Hog-SVM人脸检测器方法2:基于深度卷积神经网络实现的人脸检测# -*-...原创 2019-06-17 17:44:33 · 930 阅读 · 0 评论 -
opencv3.3 CascadeClassifier类 源码注释说明
/** @example facedetect.cpp*//** @brief Cascade classifier class for object detection. */class CV_EXPORTS_W CascadeClassifier{public: CV_WRAP CascadeClassifier();//无参数构造函数,new自动调用该函数分配初始内存...原创 2019-05-23 13:35:51 · 527 阅读 · 0 评论 -
SGD、Adam 和 AdamW
本文对比了三种常用优化器:SGD、Adam和AdamW。SGD计算简单但收敛慢,适合小模型;Adam结合动量和自适应学习率,收敛快但泛化性较差;AdamW改进Adam的权重衰减机制,提高泛化能力,成为大模型训练首选。使用建议:SGD适合微调,Adam适合快速实验,AdamW适合大模型训练,后期可切换SGD微调。注意避免同时使用weight_decay和L2正则化。原创 2025-10-15 16:51:50 · 828 阅读 · 0 评论 -
视频动作识别-VideoSwin
VideoSwin = 3D Patch + 移位窗口注意力 = 高效强大的视频 Transformer。它标志着视频理解从“CNN 时代”正式进入“Transformer 时代”。原创 2025-09-06 19:26:56 · 1004 阅读 · 0 评论 -
视频动作识别模型-slowfast
SlowFast = 慢看本质 + 快看动作 + 信息融合 = 更聪明的视频理解原创 2025-09-06 11:47:36 · 1171 阅读 · 0 评论 -
MMAction2 :预处理操作 DecordDecode
DecordDecode是MMAction2视频处理流程中的关键环节,它负责根据SampleFrames生成的帧索引从已初始化的VideoReader中解码指定视频帧。该操作在DecordInit创建视频读取器后执行,将所需帧转换为numpy数组格式供后续处理。其优势包括高速随机访问、批量解码、多线程支持和内存高效利用。与DecordInit(仅初始化)和SampleFrames(生成索引)不同,DecordDecode是实际执行帧读取的核心步骤,为视频模型训练提供高效的数据加载能力。原创 2025-09-04 09:24:42 · 450 阅读 · 0 评论 -
MMAction2:预处理操作 SampleFrames和DenseSampleFrames
摘要: MMAction2中的SampleFrames和DenseSampleFrames是视频帧采样的关键组件,但设计目标不同。SampleFrames采用稀疏均匀采样,适用于训练和通用场景,支持灵活配置帧数、间隔和随机抖动。DenseSampleFrames通过密集滑动窗口采样,覆盖更多视频片段,主要用于测试阶段(如TSN/TSM模型),通过多片段预测平均提升准确率,但计算成本较高。选择策略:训练用SampleFrames,测试追求精度用DenseSampleFrames,速度优先则用SampleFra原创 2025-09-04 09:23:28 · 1292 阅读 · 0 评论 -
MMAction2:预处理操作 DecordInit
DecordInit 是 MMAction2 中用于“打开视频文件并准备高效读取”的初始化操作,是实现快速、随机抽帧的关键第一步。原创 2025-09-03 13:38:57 · 500 阅读 · 0 评论 -
基于MMDeploy 将 MMAction2 的 TSM 模型转换为 ONNX
本文介绍了使用MMDeploy将MMAction2中的TSM 模型转为ONNX原创 2025-09-03 09:43:36 · 1269 阅读 · 0 评论 -
OpenMMLab 模型部署利器:MMDeploy 详细介绍
MMDeploy 是 OpenMMLab 生态中连接“算法研发”与“工业落地”的桥梁。它让研究人员和工程师可以专注于模型设计,而无需从零开始处理复杂的部署问题。随着对边缘计算和 AI 推理需求的增长,MMDeploy 正在成为 CV 领域模型部署的事实标准之一。如果你正在使用 MMDetection、MMSegmentation 等工具训练模型,并希望将其部署到实际产品中,MMDeploy 是一个非常值得尝试的解决方案。原创 2025-09-02 10:44:53 · 915 阅读 · 0 评论 -
视频动作识别模型-I3D
I3D(Inflated 3D ConvNet)是视频理解领域的里程碑模型,通过将2D图像模型(如Inception)"膨胀"为3D视频模型,结合Kinetics大规模数据集预训练,实现了高性能动作识别。其核心创新包括:将2D卷积核扩展为3D,权重从预训练2D模型初始化;采用64帧高清输入和双流架构。相比C3D,I3D性能显著提升但计算量更大。该工作确立了视频领域的预训练范式,推动了后续模型发展,成为视频理解从"小模型"到"大模型"的转折点。原创 2025-09-02 10:11:06 · 906 阅读 · 0 评论 -
视频动作识别模型-C3D
C3D = 3D 卷积 + 端到端训练 = 第一个真正意义上的深度时空特征提取器原创 2025-09-01 16:59:41 · 1091 阅读 · 0 评论 -
视频动作识别模型-TSN
TSN(Temporal Segment Network)是一种高效的视频动作识别方法,通过将视频划分为多个时间片段并随机采样关键帧,利用共享的2D CNN提取特征后融合预测结果。该算法在轻量级计算下实现了长期时序建模,具有抗时间抖动、易训练等优点,但也存在无法建模帧间关系等局限。TSN开创了"2D CNN+时序融合"的视频理解新范式,成为后续研究的重要基础。核心思想可概括为:视频分段、随机采样、共享网络和结果融合。原创 2025-09-01 16:27:04 · 1151 阅读 · 0 评论 -
视频动作识别模型-TSM
TSM(Temporal Shift Module)是一种高效视频理解算法,通过通道维度的时间偏移操作让2D CNN具备时序建模能力。其核心思想是将特征通道分为三部分,分别向前、保持、向后偏移,使当前帧能融合前后帧信息。TSM无需额外参数,几乎不增加计算量,可无缝集成到ResNet等2D网络中,在动作识别等任务上接近3D CNN性能。虽然存在固定偏移范围、循环边界等局限,但其高效轻量特性使其成为移动端视频分析的理想选择。后续还发展出Gated-TSM、TAdaConv等改进版本。原创 2025-08-29 09:23:34 · 459 阅读 · 0 评论 -
1×1卷积的作用
1×1卷积的核心价值在于高效调整通道维度、融合跨通道信息并引入非线性,同时保持空间结构不变。它是现代CNN中实现轻量化、模块化设计的关键组件之一。原创 2025-02-07 17:39:38 · 1499 阅读 · 0 评论 -
NVIDIA DALI学习:数据加载
dali 加载数据原创 2023-09-17 14:25:29 · 809 阅读 · 0 评论 -
BiSeNetv2(pytorch)测试、训练cityscapes
bisenetv2 测试、训练原创 2023-07-16 10:52:56 · 1850 阅读 · 2 评论 -
RuntimeError: CUDA out of memory See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF
If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF原创 2023-03-26 11:16:53 · 4868 阅读 · 0 评论 -
Could not load library libcudnn_cnn_infer.so.8. Error: libcuda.so: cannot open shared object file
Could not load library libcudnn_cnn_infer.so.8. Error: libcuda.so: cannot open shared object file原创 2023-03-20 23:40:34 · 1262 阅读 · 0 评论 -
Nanodet训练自己的数据集并转为onnx和mnn
Nanodet训练自己的数据集原创 2022-09-29 18:44:17 · 1925 阅读 · 0 评论 -
conda环境测试yolox:ImportError: libGL.so.1: cannot open shared object file: No such file or directory
ImportError: libGL.so.1: cannot open shared object file: No such file or directory原创 2022-09-16 10:21:37 · 631 阅读 · 0 评论 -
GeForce RTX 309报错:RuntimeError: CUDA error: no kernel image is available for execution on the device
cuda11.7 torch安装原创 2022-09-16 14:04:44 · 869 阅读 · 0 评论 -
行人检测-Caltech Pedestrian Dataset 数据集下载及格式转换
行人检测-Caltech Pedestrian Dataset 数据集下载及格式转换原创 2022-10-24 18:44:45 · 4799 阅读 · 0 评论 -
vs2015+opencv346+yolov3 目标检测学习
文件下载:https://pjreddie.com/media/files/yolov3.weightshttps://github.com/pjreddie/darknet/blob/master/cfg/yolov3.cfghttps://github.com/pjreddie/darknet/blob/master/data/coco.names下载yolov3.weight...原创 2019-09-10 14:12:04 · 660 阅读 · 0 评论 -
ONNXRuntime部署YOLOV7目标检测
ONNXRuntime部署YOLOV7目标检测原创 2022-08-09 21:05:36 · 2266 阅读 · 0 评论 -
MNN 实现NV12转BGR格式
MNN 实现NV12转BGR原创 2022-11-01 16:57:25 · 1031 阅读 · 0 评论 -
Ghost模块
Ghost模块原创 2022-10-30 22:15:28 · 6568 阅读 · 1 评论 -
YOLOX 训练中断后接着之前的继续训练
YOLOX 训练中断后接着之前的继续训练原创 2022-10-28 10:16:32 · 1632 阅读 · 0 评论
分享