J_Xiong0117
码龄12年
求更新 关注
提问 私信
  • 博客:430,602
    社区:1
    430,603
    总访问量
  • 260
    原创
  • 8,979
    排名
  • 655
    粉丝
  • 63
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
加入CSDN时间: 2013-12-01

个人简介:一枚终生学习的算法工程师

博客简介:

u013010473的博客

查看详细资料
个人成就
  • 获得1,352次点赞
  • 内容获得83次评论
  • 获得2,815次收藏
  • 代码片获得3,639次分享
  • 原力等级
    原力等级
    6
    原力分
    2,148
    本月获得
    30
创作历程
  • 71篇
    2025年
  • 15篇
    2023年
  • 56篇
    2022年
  • 36篇
    2021年
  • 57篇
    2020年
  • 18篇
    2019年
  • 7篇
    2018年
成就勋章
TA的专栏
  • VLNs
    18篇
  • 前沿技术paper
    46篇
  • 日常随记
    105篇
  • NLU
    2篇
  • 代码精读
  • VLAs
    12篇
  • 多模态
    5篇
  • 工程技巧
    16篇
  • VLMs
    10篇
  • LLMs
    32篇
  • 强化学习
    3篇
  • 机器人技术
    2篇
  • 自然语言处理
    85篇
  • 模型评测
    2篇
  • python
    105篇
  • 基础理论
    28篇
  • 容器技术
    9篇
  • 应用框架
    5篇
  • NLP工具
    1篇
  • 推荐系统
    1篇
  • 知识图谱
    1篇
  • 图神经网络
    6篇
  • 知识表示学习
    7篇
  • 深度学习框架
    12篇
  • 自动调度系统
    1篇
  • 数据分析
    17篇
  • Git
    2篇
  • 统计学习
    3篇
  • leetcode
    5篇
  • 机器学习
    3篇
  • NLP迁移学习
    1篇
  • 机器翻译
    4篇
  • 算法与数据结构
    17篇
  • 语音识别
    7篇
  • 深度学习
    25篇
  • 计算机视觉
    2篇
  • CNN
    1篇

TA关注的专栏 0

TA关注的收藏夹 0

TA关注的社区 0

TA参与的活动 0

兴趣领域 设置
  • 大数据
    hadoopspark
  • 人工智能
    深度学习神经网络自然语言处理tensorflowpytorchnlp
创作活动更多

AI 镜像开发实战征文活动

随着人工智能技术的飞速发展,AI 镜像开发逐渐成为技术领域的热点之一。Stable Diffusion 3.5 FP8 作为强大的文生图模型,为开发者提供了更高效的图像生成解决方案。为了推动 AI 镜像开发技术的交流与创新,我们特此发起本次征文活动,诚邀广大开发者分享在 Stable Diffusion 3.5 FP8 文生图方向的实战经验和创新应用 本次征文活动鼓励开发者围绕 Stable Diffusion 3.5 FP8 文生图方向,分享以下方面的内容: 1. 技术实践与优化 - Stable Diffusion 3.5 FP8 模型架构解析与优化技巧 - 文生图生成效果的提升方法与技巧 - 模型部署与加速策略,例如使用 Hugging Face、Diffusers 等工具 - 针对特定场景(例如二次元、写实风)的模型微调与定制化开发 2. 应用场景探索 - Stable Diffusion 3.5 FP8 在不同领域的应用案例分享,例如游戏设计、广告创意、艺术创作等 - 利用 Stable Diffusion 3.5 FP8 实现图像编辑、图像修复、图像增强等功能的探索 - 结合其他 AI 技术(例如 NLP、语音识别)构建更强大的应用 3. 创新应用与思考 - 基于 Stable Diffusion 3.5 FP8 的创新应用场景设计 - AI 镜像开发的未来发展方向的思考与展望 - 对 AI 镜像开发伦理、安全等问题的探讨

37人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 代码仓
  • 资源
  • 收藏
  • 关注/订阅/互动
更多
  • 最近

  • 文章

  • 专栏

  • 代码仓

  • 资源

  • 收藏

  • 关注/订阅/互动

  • 社区

  • 帖子

  • 问答

  • 课程

  • 视频

搜索 取消

【VLNs篇】18:慢思考,快行动:用于泛化视觉语言导航的双系统基础模型DualVLN

本文提出了 DualVLN,一种用于视觉语言导航(VLN)的双系统基础模型,旨在解决现有端到端模型动作破碎、延迟高且难以避障的问题。DualVLN 模仿人类认知,由两个解耦系统组成:系统 2(慢系统)基于 7B 大模型进行全局规划,通过图像像素接地预测中期目标;系统 1(快系统)*是轻量级扩散策略,利用系统 2 的显式像素目标和隐式潜在查询,结合高频视觉输入生成平滑轨迹。这种设计既保留了 VLM 的强推理与泛化能力,又实现了 30Hz 的实时敏捷控制。
原创
博文更新于 前天 15:08 ·
498 阅读 ·
17 点赞 ·
0 评论 ·
14 收藏

【NLUs篇】01:JointBERT:用于联合意图分类和槽位填充的 BERT 模型

本文针对自然语言理解(NLU)任务中因标注数据匮乏而导致的泛化能力差的问题,提出了一种基于 BERT 的联合意图分类和槽位填充模型。传统的 NLU 方法(如 RNN、LSTM)在处理罕见词或小样本数据时往往表现不佳。作者利用 BERT 强大的预训练语言表示能力,通过简单的微调,在单一模型中同时完成意图识别和槽位填充任务。
原创
博文更新于 2025.12.03 ·
1052 阅读 ·
16 点赞 ·
0 评论 ·
19 收藏

【NLUs篇】02:JPIS:一种结合槽位到意图注意力机制的基于画像的意图检测与槽位填充联合模型

本文提出了一种名为JPIS的联合模型,旨在解决自然语言处理中因缺乏上下文信息而导致的意图检测与槽位填充歧义问题。传统的模型往往忽略用户画像(如个人偏好)和环境上下文(如地理位置),导致在处理如“订去河内的票”这类模糊指令时表现不佳。JPIS不仅在编码器中有效整合了这些辅助画像信息,还创新性地引入了“槽位到意图”的注意力机制,利用槽位特征辅助意图识别。在中文基准数据集ProSLU上的实验显示,JPIS在整体准确率上显著优于现有模型,结合预训练语言模型后达到了86.67%的新SOTA水平。
原创
博文更新于 2025.12.03 ·
735 阅读 ·
8 点赞 ·
0 评论 ·
10 收藏

【VLNs篇】17:NaVid:基于视频的VLM规划视觉语言导航的下一步

本文提出了 NaVid,一种基于视频的大型视觉语言模型(VLM),旨在解决视觉语言导航(VLN)中的泛化难题。不同于依赖地图、深度图或里程计的传统方法,NaVid 仅利用单目 RGB 摄像头的实时视频流和自然语言指令,通过端到端的方式直接规划机器人的低级动作(如移动距离、旋转角度)。
原创
博文更新于 2025.11.24 ·
1081 阅读 ·
28 点赞 ·
0 评论 ·
22 收藏

【VLNs篇】16:JanusVLN 训练 vs 评估中视觉观察数据使用详解

摘要: 本文分析了Qwen-VL模型的训练与评估阶段在数据处理和帧采样策略上的差异。训练阶段使用离线预收集的轨迹数据,采用基于视频长度的动态帧采样(4-8帧),并固定以第一帧作为参考帧。评估阶段则处理实时仿真环境的动态输入(1-9帧),使用增量式KV Cache处理机制。训练时批量处理所有帧,评估时采用StartRecentKVCache策略(56帧缓存)。两者在数据来源、帧采样方法、参考帧处理和KV Cache使用等方面存在显著差异,这些设计差异反映了离线训练与在线推理的不同需求。
原创
博文更新于 2025.11.17 ·
638 阅读 ·
8 点赞 ·
0 评论 ·
22 收藏

【VLNs篇】15:JanusVLN 评估指标详解

JanusVLN 评估指标详解
原创
博文更新于 2025.11.17 ·
1131 阅读 ·
27 点赞 ·
0 评论 ·
20 收藏

【VLAs篇】09:不要蒙蔽你的VLA:为OOD泛化对齐视觉表示

本文系统研究了视觉-语言-动作(VLA)模型在机器人任务微调过程中普遍存在的视觉表示退化问题。研究发现,标准的微调会导致模型“遗忘”其从预训练中继承的通用视觉知识,造成表示坍塌和注意力沉没,从而损害其在分布外(OOD)场景中的泛化能力。为解决此问题,论文提出了一种轻量级的“视觉表示对齐”方法,通过一个正则化损失,将VLA的内部视觉特征与一个固定的、强大的“视觉教师”模型的特征对齐。该方法有效保留了模型的语义基础,在不增加额外计算开销的情况下,显著提升了VLA模型在多样化、未知场景下的泛化性能。
原创
博文更新于 2025.11.11 ·
997 阅读 ·
10 点赞 ·
0 评论 ·
15 收藏

【VLAs篇】08:以实时速度运行VLA

本文展示了如何在一块消费级GPU上,实现先前被认为过于庞大而无法进行实时动态任务的视觉-语言-动作(VLA)模型的高速运行。研究团队通过一系列深度优化策略,如消除CPU开销、简化计算图和优化底层计算核心,成功将模型的推理延迟从超过100毫秒压缩至27.3毫秒。这使得模型能以30Hz的频率处理所有摄像头帧,实现了与人类相当的反应速度。在“抓取下落的笔”这一对时间要求极为苛刻的实验中,该优化策略取得了100%的成功率,证明了大型VLA模型在实时机器人控制领域的巨大潜力。
原创
博文更新于 2025.11.04 ·
966 阅读 ·
20 点赞 ·
0 评论 ·
19 收藏

【VLNs篇】14:JanusVLN 代码解读

本文档详细解读 JanusVLN 项目的代码架构、核心模块、数据流程和关键实现细节。
原创
博文更新于 2025.10.31 ·
1204 阅读 ·
22 点赞 ·
1 评论 ·
28 收藏

【VLNs篇】13:JanusVLN 数据说明

本文档详细说明 JanusVLN 项目中使用的数据集、数据格式、数据处理流程以及如何准备和配置数据。
原创
博文更新于 2025.10.31 ·
1003 阅读 ·
20 点赞 ·
0 评论 ·
13 收藏

【VLNs篇】12:JanusVLN:通过双重隐式记忆解耦语义与空间性,用于视觉语言导航

本文提出了一种名为JanusVLN的新型视觉语言导航(VLN)框架。受人脑左右半球功能分工的启发,该框架创新性地设计了“双重隐式记忆”系统,将负责理解“是什么”的语义记忆与负责感知“在哪里”的空间几何记忆进行解耦和分离。这种设计允许智能体仅通过普通RGB摄像头就能高效地理解3D空间,解决了传统方法中存在的空间信息丢失、计算冗余和内存爆炸等问题。实验证明,JanusVLN在不需要额外3D数据的情况下,性能超越了现有顶尖模型,为开发更具空间感知能力的智能机器人开辟了新路径。
原创
博文更新于 2025.10.29 ·
1303 阅读 ·
10 点赞 ·
0 评论 ·
24 收藏

【VLNs篇】11:Dynam3D: 动态分层3D令牌赋能视觉语言导航中的VLM

本文提出了一种名为Dynam3D的动态分层3D表示模型,专为视觉语言导航(VLN)任务设计。传统基于视频的大模型在真实3D导航中面临对3D几何理解不足、缺乏长期记忆和环境适应性差等挑战。Dynam3D通过将2D视觉特征投影到3D空间,构建了包含“补丁-实例-区域”三个层级的动态3D表示。该模型能够在线编码和定位3D物体实例,并根据环境变化动态更新其记忆,从而实现了更强的空间几何理解和长期记忆能力。通过大规模3D语言预训练和任务适配,Dynam3D在多个VLN基准测试中取得了当前最佳性能。
原创
博文更新于 2025.10.28 ·
1000 阅读 ·
15 点赞 ·
0 评论 ·
20 收藏

【VLMs篇】08:Qwen3-VL-30B-A3B 两版本对比评测

Qwen3-VL模型对比分析 Instruct与Thinking版本在定位、性能和适用场景上存在显著差异。Instruct版本侧重快速响应和通用任务,在创意生成和指令执行上表现优异;而Thinking版本专精深度推理,在视觉分析、数学计算和多步推理任务中优势明显。评测显示,Thinking版本在图像理解、计算能力和图片排序等复杂任务上更胜一筹,但响应速度较慢。两者在表格识别和网页复刻方面均需改进。部署资源需求相近,但推理速度差异显著。
原创
博文更新于 2025.10.11 ·
1051 阅读 ·
16 点赞 ·
0 评论 ·
20 收藏

【VLNs篇】10:InternVLA-N1: 一个带有学习式潜在规划的开放双系统视觉-语言导航基础模型

InternVLA-N1是首个开放的双系统视觉-语言导航基础模型,它将任务解耦为系统2的规划与系统1的敏捷执行。该模型通过创新的异步训练范式,利用学习式潜在规划作为中间表示,实现了强大的零样本泛化能力。为支持训练,我们构建了迄今最大的导航数据集InternData-N1,使模型在多个基准上取得顶尖性能,并能在真实世界中进行长距离、实时导航。
原创
博文更新于 2025.09.19 ·
1234 阅读 ·
17 点赞 ·
0 评论 ·
21 收藏

【VLMs篇】07:Open-Qwen2VL:在学术资源上对完全开放的多模态大语言模型进行计算高效的预训练

本文介绍了Open-Qwen2VL,一个完全开源的20亿参数多模态大语言模型。该模型旨在解决当前SOTA模型预训练成本高昂且流程不透明的问题。通过采用高效的数据过滤技术(如MLM-Filter)、创新的多模态序列打包和动态图像分辨率策略,Open-Qwen2VL仅使用220个A100 GPU小时就在2900万图文对上完成了高效预训练,计算成本极低。
原创
博文更新于 2025.09.18 ·
1153 阅读 ·
10 点赞 ·
0 评论 ·
23 收藏

【VLMs篇】08:Multimodal Sequence Packing:多模态序列打包

本文提出了一种基于贪心装箱策略的图文数据打包算法,旨在高效地将多条图文对组合成固定长度的训练序列,以减少填充浪费并提升计算效率。算法核心步骤包括:1) 计算每条数据长度(文本+视觉token);2) 按长度降序排序;3) 采用First-Fit Decreasing策略装箱;4) 对每个容器内的数据进行拼接和填充。该方案通过优先处理大样本显著减少空间碎片,相比随机打包可降低30-50%的填充率。实现时需注意视觉token处理、分隔符添加和超长样本截断等细节,适用于多模态模型的预训练和推理优化。
原创
博文更新于 2025.09.18 ·
780 阅读 ·
24 点赞 ·
0 评论 ·
26 收藏

【VLMs篇】06:Cosmos-Reason1:从物理常识到具身推理

本文介绍了NVIDIA发布的Cosmos-Reason1模型,这是一个专为理解物理世界并进行决策的 multimodal 大语言模型家族。研究人员首先为“物理AI”定义了两个核心能力:物理常识和具身推理,并为此创建了系统的知识框架(本体)。基于此,他们构建了包含数百万视频和文本对的数据集,通过监督微调(SFT)和强化学习(RL)两个阶段训练了7B和56B两种规模的模型。实验证明,Cosmos-Reason1在物理世界理解、任务规划和时空推理方面表现出色,显著优于现有模型
原创
博文更新于 2025.09.10 ·
996 阅读 ·
17 点赞 ·
0 评论 ·
26 收藏

【VLNs篇】09:NavA³—理解任意指令,导航任意地点,找到任意物体

本文提出了一种名为NavA³的机器人导航框架,旨在让机器人能理解任意高级指令(如“帮我拿杯咖啡”),在任意复杂环境中导航,并找到任意目标物体。该框架通过一个分层策略解决这一挑战:首先,“全局策略”利用强大的视觉语言模型(VLM)理解指令并规划出最可能存在目标的大致区域(如“厨房”);然后,“局部策略”在目标区域内,利用专门训练的NaviAfford模型进行精细化搜索和精准定位。实验证明,NavA³在真实世界中的长距离导航任务上表现卓越,远超现有方法,为通用型具身智能导航铺平了道路。
原创
博文更新于 2025.09.08 ·
958 阅读 ·
12 点赞 ·
0 评论 ·
8 收藏

【VLMs篇】05: MiniCPM-V 4.5 技术架构详解与代码深度解读

MiniCPM-V 4.5 是一个高效的端侧多模态大语言模型,支持图像、视频和文本输入。该模型通过创新的token压缩技术,实现了在8B参数规模下超越GPT-4o等主流模型的性能。
原创
博文更新于 2025.09.05 ·
2125 阅读 ·
14 点赞 ·
0 评论 ·
24 收藏

【VLMs篇】04:视觉token压缩技术深度解析

图片Token压缩技术不仅仅是一项优化技巧,它正在成为多模态大模型的**核心引擎**。它将模型从海量冗余数据中解放出来,使其更轻、更快、更专注。
原创
博文更新于 2025.09.04 ·
1177 阅读 ·
28 点赞 ·
0 评论 ·
23 收藏
加载更多