算法沐小含
码龄4年
求更新 关注
提问 私信
  • 博客:126,075
    126,075
    总访问量
  • 140
    原创
  • 186
    粉丝
  • 190
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:江苏省
加入CSDN时间: 2021-12-08
博客简介:

m0_65010824的博客

查看详细资料
个人成就
  • 获得2,733次点赞
  • 内容获得3次评论
  • 获得2,349次收藏
  • 博客总排名16,221名
  • 原力等级
    原力等级
    4
    原力分
    702
    本月获得
    181
创作历程
  • 140篇
    2025年
成就勋章
TA的专栏
  • 自动驾驶专栏
    22篇
  • 嵌入式算法部署
    1篇
  • 准备工作
  • 数据库
    1篇
  • 深度学习算法docker部署
    1篇
  • 监控设备下的行人目标检测与定位

TA关注的专栏 3

TA关注的收藏夹 0

TA关注的社区 5

TA参与的活动 0

创作活动更多

AI 镜像开发实战征文活动

随着人工智能技术的飞速发展,AI 镜像开发逐渐成为技术领域的热点之一。Stable Diffusion 3.5 FP8 作为强大的文生图模型,为开发者提供了更高效的图像生成解决方案。为了推动 AI 镜像开发技术的交流与创新,我们特此发起本次征文活动,诚邀广大开发者分享在 Stable Diffusion 3.5 FP8 文生图方向的实战经验和创新应用 本次征文活动鼓励开发者围绕 Stable Diffusion 3.5 FP8 文生图方向,分享以下方面的内容: 1. 技术实践与优化 - Stable Diffusion 3.5 FP8 模型架构解析与优化技巧 - 文生图生成效果的提升方法与技巧 - 模型部署与加速策略,例如使用 Hugging Face、Diffusers 等工具 - 针对特定场景(例如二次元、写实风)的模型微调与定制化开发 2. 应用场景探索 - Stable Diffusion 3.5 FP8 在不同领域的应用案例分享,例如游戏设计、广告创意、艺术创作等 - 利用 Stable Diffusion 3.5 FP8 实现图像编辑、图像修复、图像增强等功能的探索 - 结合其他 AI 技术(例如 NLP、语音识别)构建更强大的应用 3. 创新应用与思考 - 基于 Stable Diffusion 3.5 FP8 的创新应用场景设计 - AI 镜像开发的未来发展方向的思考与展望 - 对 AI 镜像开发伦理、安全等问题的探讨

28人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 代码仓
  • 资源
  • 收藏
  • 关注/订阅/互动
更多
  • 最近

  • 文章

  • 专栏

  • 代码仓

  • 资源

  • 收藏

  • 关注/订阅/互动

  • 社区

  • 帖子

  • 问答

  • 课程

  • 视频

搜索 取消

WeatherGen:基于 Spider Mamba Diffusion 的统一多样化天气 LiDAR 点云生成框架

本文是对论文《WeatherGen: A Unified Diverse Weather Generator for LiDAR Point Clouds via Spider Mamba Diffusion》的深度解读。在自动驾驶3D感知领域,恶劣天气下LiDAR数据稀缺且采集成本高是核心挑战。相关团队提出的WeatherGen框架,创新性地通过地图映射数据生成器、Spider Mamba 生成器及对比学习控制器,实现了统一、高保真的多样化天气LiDAR数据生成,为下游任务性能提升提供了高效解决方案。
原创
博文更新于 11 小时前 ·
411 阅读 ·
6 点赞 ·
0 评论 ·
10 收藏

3D Gaussian Splatting:实时辐射场渲染的突破性方案

本文是对论文《3D Gaussian Splatting for Real-Time Radiance Field Rendering》的深度解读。在辐射场渲染领域,如何兼顾高质量、快速训练与实时新视角合成是核心挑战。该研究创新性地提出以各向异性 3D 高斯为场景表示,结合自适应密度控制与瓦片化可微光栅化器,无需神经网络,实现了 SOTA 级渲染质量,且训练时间短、1080p 分辨率下渲染帧率≥30fps。
原创
博文更新于 13 小时前 ·
528 阅读 ·
21 点赞 ·
0 评论 ·
16 收藏

FlashLightNet:实时检测与分类静态和闪烁交通灯状态的端到端深度学习框架

本文是对论文《FlashLightNet: An End-to-End Deep Learning Framework for Real-Time Detection and Classification of Static and Flashing Traffic Light States》的深度解读。在自动驾驶导航领域,静态与闪烁交通灯的实时精准识别是关键挑战。密西西比州立大学团队提出的 FlashLightNet 框架,融合 YOLOv10n、ResNet-18 与 LSTM,实现五类交通灯状态检测。
原创
博文更新于 前天 11:02 ·
529 阅读 ·
14 点赞 ·
0 评论 ·
7 收藏

DSGN:基于深度立体几何网络的 3D 目标检测革新

本文是对论文《DSGN: Deep Stereo Geometry Network for 3D Object Detection》的深度解读。在自动驾驶 3D 感知领域,图像基与 LiDAR 基 3D 目标检测的性能差距是核心难题。香港中文大学与 SmartMore 团队提出 DSGN 网络,通过平面扫描体积与 3D 几何体积的可微转换,端到端联合估计深度与检测 3D 目标,显著超越现有立体视觉方法,部分性能比肩 LiDAR 基方法,为低成本 3D 检测提供新方案。
原创
博文更新于 前天 10:26 ·
685 阅读 ·
19 点赞 ·
0 评论 ·
20 收藏

PETR:多视图 3D 目标检测的位置嵌入变换新范式

本文是对论文《PETR: Position Embedding Transformation for Multi-View 3D Object Detection》的深度解读。在自动驾驶多视图 3D 目标检测领域,如何避免复杂 2D-to-3D 投影与特征采样是关键挑战。MEGVII 团队提出的 PETR 框架,创新性地将 3D 坐标编码为位置嵌入注入 2D 特征,生成 3D 位置感知特征,实现端到端检测,在 nuScenes 数据集取得 SOTA 性能,为该领域提供强基线。
原创
博文更新于 前天 08:46 ·
1016 阅读 ·
34 点赞 ·
0 评论 ·
11 收藏

DETR3D:基于 3D-to-2D 查询的多视图 3D 目标检测框架

本文是对论文《DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries》的深度解读。在自动驾驶视觉感知领域,基于多相机图像的 3D 目标检测面临深度估计误差与后处理冗余等挑战。研究团队提出 DETR3D 框架,以自上而下的 3D-to-2D 查询方式融合多视图信息,无需密集深度预测与 NMS 后处理,在 nuScenes 基准达成最优性能,为低成本自动驾驶 3D 检测提供了高效解决方案。
原创
博文更新于 2025.12.17 ·
728 阅读 ·
19 点赞 ·
0 评论 ·
16 收藏

UniAD:面向规划的端到端自动驾驶统一框架

本文是对论文《Planning-oriented Autonomous Driving》的深度解读。在自动驾驶领域,传统模块化或多任务框架存在误差累积、负迁移等问题,上海 AI 实验室等团队提出 UniAD 框架,以规划为核心导向,整合五大驾驶任务,通过统一查询接口实现任务协同,在 nuScenes 基准上全面超越现有方案,为端到端自动驾驶提供新范式。
原创
博文更新于 2025.12.17 ·
961 阅读 ·
13 点赞 ·
0 评论 ·
13 收藏

一文读懂 CogVLM:视觉语言模型的深度融合革命

本文是对论文《CogVLM: Visual Expert for Pretrained Language Models》的深度解读。在视觉语言模型领域,如何保留预训练语言模型 NLP 能力的同时实现视觉 - 语言深度融合,是核心挑战。清华大学与智谱 AI 团队提出 CogVLM 模型,通过在语言模型层加入可训练视觉专家模块,突破浅层对齐局限,在 17 个跨模态基准获 SOTA,并开源了权重与数据集,为多模态研究提供重要基础。
原创
博文更新于 2025.12.16 ·
1178 阅读 ·
26 点赞 ·
0 评论 ·
15 收藏

FINCON:融合概念性语言强化的 LLM 多智能体金融决策系统

本文是对论文《FINCON》的深度解读。在金融决策领域,如何应对市场波动、整合多源信息并实现风险管控,是关键挑战。NeurIPS 2024 收录的 FINCON 框架,以经理 - 分析师层级架构模拟投资机构分工,结合双级风险控制(CVaR 实时监控与 CVRF 信念更新),支持单股票交易与组合管理,在实验中显著优于 LLM 及 DRL 基线模型。
原创
博文更新于 2025.12.16 ·
949 阅读 ·
21 点赞 ·
0 评论 ·
27 收藏

MiniGPT-4:解锁 LLM 驱动的高级视觉语言能力

本文是对论文《MINIGPT-4: ENHANCING VISION-LANGUAGE UNDERSTANDING WITH ADVANCED LARGE LANGUAGE MODELS》的深度解读。在多模态模型领域,GPT-4 展现高级视觉 - 语言能力却未公开技术细节,成为研究痛点。本文团队提出 MiniGPT-4,以冻结视觉编码器(BLIP-2 组件)+ 冻结 LLM(Vicuna)+ 单投影层的极简架构,结合两阶段训练,复现 GPT-4 核心能力并新增图像创作等功能,为多模态研究提供开源基准。
原创
博文更新于 2025.12.16 ·
622 阅读 ·
25 点赞 ·
0 评论 ·
12 收藏

Latent Diffusion Models:高效高分辨率图像生成

本文是对论文《High-Resolution Image Synthesis with Latent Diffusion Models》的深度解读。在生成式 AI 领域,扩散模型虽具出色生成能力,却因像素空间高算力成本难以普及。该研究创新性提出潜扩散模型(LDMs),将扩散过程迁移至预训练自编码器的低维潜空间,兼顾效率与细节;还设计交叉注意力条件机制,支持多模态控制,为 Stable Diffusion 奠定基础,推动生成式 AI 走向规模化应用。
原创
博文更新于 2025.12.16 ·
848 阅读 ·
29 点赞 ·
0 评论 ·
9 收藏

EVA-CLIP:大规模 CLIP 训练的高效优化方案深度解析

本文是对论文《EVA-CLIP: Improved Training Techniques for CLIP at Scale》的深度解读。在视觉 - 语言预训练领域,CLIP 模型训练成本高、大规模训练不稳定是关键挑战。北京人工智能研究院等团队提出的 EVA-CLIP,整合 EVA 预训练初始化、LAMB 优化器、FLIP 掩码等技术,构建多尺度模型家族,大幅降低成本同时提升性能,为高效 CLIP 训练提供方案。
原创
博文更新于 2025.12.16 ·
718 阅读 ·
17 点赞 ·
0 评论 ·
15 收藏

Qwen2-VL:突破分辨率限制的多模态大模型技术解析

本文是对论文《Qwen2-VL》的深度解读。在多模态大模型领域,传统 LVLMs 固定分辨率输入、模态融合不足等问题制约其性能,阿里巴巴团队推出的 Qwen2-VL 系列模型,创新引入原生动态分辨率机制与 M-RoPE,实现任意分辨率适配及跨模态信息高效融合,还采用统一范式处理图像与视频,在多基准测试中表现比肩 GPT-4o 等顶尖模型,为开源 LVLM 树立新标杆。
原创
博文更新于 2025.12.16 ·
710 阅读 ·
8 点赞 ·
0 评论 ·
18 收藏

CLIP:从自然语言监督中学习可迁移的视觉模型

本文是对论文《Learning Transferable Visual Models From Natural Language Supervision》的深度解读。在计算机视觉领域,传统模型受限于固定类别监督、泛化性差的问题,OpenAI 团队提出的 CLIP 模型,创新性采用自然语言监督的对比学习范式,基于 4 亿图文对预训练图像与文本双编码器,实现跨模态嵌入对齐,无需任务特定训练即可零样本迁移至 30 + 视觉任务。
原创
博文更新于 2025.12.16 ·
745 阅读 ·
23 点赞 ·
0 评论 ·
8 收藏

CoCa:统一图像 - 文本基础模型的 contrastive 与 captioning 双范式

本文是对论文《CoCa: Contrastive Captioners are Image-Text Foundation Models》的深度解读。在计算机视觉领域,如何用一个模型统一单编码器分类、双编码器对比、编码器 - 解码器生成三大预训练范式,是关键挑战。Google Research 团队提出 CoCa 模型,以解耦式文本解码器和双损失联合训练为核心,端到端训练适配多任务,在视觉识别、跨模态对齐等任务中获 SOTA,为图像 - 文本基础模型提供了新方向。
原创
博文更新于 2025.12.16 ·
916 阅读 ·
25 点赞 ·
0 评论 ·
10 收藏

MaskVLM:跨模态表示学习的联合掩码建模新范式

本文是对论文《MASKED VISION AND LANGUAGE MODELING FOR MULTI-MODAL REPRESENTATION LEARNING》的深度解读。在视觉 - 语言跨模态表示学习领域,传统方法独立处理掩码语言 / 图像建模,存在模态偏置与额外依赖问题。AWS AI Labs 团队发表的这项研究,创新性提出 MaskVLM 联合掩码建模方法,端到端利用跨模态信息互补重建掩码信号,在大规模与有限数据场景下,均于跨模态检索、VQA 等任务取得 SOTA 性能。
原创
博文更新于 2025.12.16 ·
1078 阅读 ·
28 点赞 ·
0 评论 ·
27 收藏

LightGlue:光速局部特征匹配的技术突破与深度解析

本文是对论文《LightGlue: Local Feature Matching at Light Speed》的深度解读。在计算机视觉领域,局部特征匹配的精度与效率平衡是三维重建、视觉定位等任务的关键挑战。ETH Zurich 与微软团队提出的 LightGlue,通过优化 Transformer 架构,创新设计自适应深度 / 宽度机制与双向交叉注意力,解决了 SuperGlue 计算开销大、训练难的问题,实现精度提升与效率突破,为实时 SLAM 等 latency 敏感场景提供可靠方案。
原创
博文更新于 2025.12.16 ·
1073 阅读 ·
18 点赞 ·
0 评论 ·
24 收藏

DrawEduMath:评估视觉语言模型的教育领域新基准

本文是对论文《DrawEduMath》的深度解读。在 AI 赋能教育领域,视觉语言模型(VLMs)手写数学理解的评估缺乏真实场景基准,现有数据脱离课堂实际。该研究提出 DrawEduMath 基准,构建 2030 张 K-12 学生手写图像数据集,融入教师专业标注,设计 “教师 QA + 合成 QA” 双轨评估体系。评估揭示闭源与开源模型性能鸿沟,VLMs 在学生应答匹配、错误诊断上存瓶颈。此研究填补教育场景评估缺口,为 AI 助教研发提供关键参考。
原创
博文更新于 2025.12.16 ·
858 阅读 ·
15 点赞 ·
0 评论 ·
26 收藏

ScreenAI:UI与信息图理解的视觉语言模型突破

本文是对论文《ScreenAI: Unified Visual Language Models for UI and Infographics Understanding》的深度解读。在UI与信息图理解领域,二者结构复杂且形态多样,构建统一模型面临巨大挑战。Google DeepMind团队发表于IJCAI 2024的这项研究,创新性提出ScreenAI视觉语言模型,融合PaLI编码器-解码器与Pix2Struct灵活补丁策略,结合自动化数据生成及分层训练策略,实现多任务统一处理。
原创
博文更新于 2025.12.16 ·
786 阅读 ·
24 点赞 ·
0 评论 ·
30 收藏

Sora:视频生成的突破与启示

OpenAI发布的文本条件视频生成模型Sora凭借“生成一分钟高清视频”的惊人表现引爆AI领域。其背后的技术报告《Large-Scale Training of Text-Conditional Video Generation Models》虽未披露完整的模型实现细节,甚至没有给出完整的框架图,却为我们揭示了视频生成规模化发展的核心逻辑。本文根据现有的有限公开材料,来简要解读以下模型背景与架构。
原创
博文更新于 2025.12.16 ·
1454 阅读 ·
18 点赞 ·
0 评论 ·
27 收藏
加载更多