EEPI
码龄6年
求更新 关注
提问 私信
  • 博客:97,625
    97,625
    总访问量
  • 86
    原创
  • 191
    粉丝
  • 129
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
加入CSDN时间: 2020-05-04
博客简介:

eepii的博客

查看详细资料
个人成就
  • 获得440次点赞
  • 内容获得33次评论
  • 获得618次收藏
  • 代码片获得159次分享
  • 博客总排名19,197名
  • 原力等级
    原力等级
    4
    原力分
    820
    本月获得
    15
创作历程
  • 21篇
    2025年
  • 18篇
    2024年
  • 25篇
    2023年
  • 15篇
    2022年
  • 1篇
    2021年
  • 6篇
    2020年
成就勋章
TA的专栏
  • 自动驾驶大模型领域的论文精读笔记
    22篇
  • ROS
    2篇
  • python
    3篇
  • 仿真
    2篇
  • 自动驾驶
    4篇
  • C++
    2篇
  • Ubuntu
    2篇
  • C
    1篇
  • AMESim
    1篇
  • Matlab
    1篇

TA关注的专栏 2

TA关注的收藏夹 0

TA关注的社区 5

TA参与的活动 0

创作活动更多

AI 镜像开发实战征文活动

随着人工智能技术的飞速发展,AI 镜像开发逐渐成为技术领域的热点之一。Stable Diffusion 3.5 FP8 作为强大的文生图模型,为开发者提供了更高效的图像生成解决方案。为了推动 AI 镜像开发技术的交流与创新,我们特此发起本次征文活动,诚邀广大开发者分享在 Stable Diffusion 3.5 FP8 文生图方向的实战经验和创新应用 本次征文活动鼓励开发者围绕 Stable Diffusion 3.5 FP8 文生图方向,分享以下方面的内容: 1. 技术实践与优化 - Stable Diffusion 3.5 FP8 模型架构解析与优化技巧 - 文生图生成效果的提升方法与技巧 - 模型部署与加速策略,例如使用 Hugging Face、Diffusers 等工具 - 针对特定场景(例如二次元、写实风)的模型微调与定制化开发 2. 应用场景探索 - Stable Diffusion 3.5 FP8 在不同领域的应用案例分享,例如游戏设计、广告创意、艺术创作等 - 利用 Stable Diffusion 3.5 FP8 实现图像编辑、图像修复、图像增强等功能的探索 - 结合其他 AI 技术(例如 NLP、语音识别)构建更强大的应用 3. 创新应用与思考 - 基于 Stable Diffusion 3.5 FP8 的创新应用场景设计 - AI 镜像开发的未来发展方向的思考与展望 - 对 AI 镜像开发伦理、安全等问题的探讨

34人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 代码仓
  • 资源
  • 收藏
  • 关注/订阅/互动
更多
  • 最近

  • 文章

  • 专栏

  • 代码仓

  • 资源

  • 收藏

  • 关注/订阅/互动

  • 社区

  • 帖子

  • 问答

  • 课程

  • 视频

搜索 取消

强化学习入门

去掉Value model(Critic model),无需额外的价值函数。
原创
博文更新于 2025.12.15 ·
542 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

【论文阅读】VLA-pilot:Towards Deploying VLA without Fine-Tuning

但是由于预训练数据和特定任务的分布不一致(比如预训练中是抓蓝色杯子,但是任务是抓红色杯子),导致抓取动作的概率很低。VLA提供动作分布和置信度,外部验证器利用多模态大模型(比如GPT-4V)对开放世界的理解能力,通过自然语言推理对任务和动作进行重新评估,使得正确动作的概率更高。策略引导是指的将模型输出的多种轨迹进行评估,从而选择最佳的轨迹。好处是:不需再SFT,通过初始的采样轨迹,剔除差的,保留好的,然后基于好的再进行扩散,如此迭代,最终选择打分最高的轨迹。其实预训练的模型是具备任务能力的,只是选不出来。
原创
博文更新于 2025.12.09 ·
997 阅读 ·
30 点赞 ·
0 评论 ·
20 收藏

【论文阅读】π∗ 0.6: a VLA That Learns From Experience

人类纠正机器的操作,机器不仅学习到正确的操作,还能通过value head判断之前哪里做的不好,导致了人类干预,从而避免再次出现该问题。注意:训练被分成了2个阶段,第一阶段训练value network,下一阶段训练policy network。,机器没做好的地方,人类给出打分,但是并没有干预其action。打分通过reward,使得机器意识到哪些动作是不好的,从而进行纠正。,针对机器探索到的分布外场景,人类进行干预,得到新的数据集。pi*0.6只用了强化学习,没有使用模仿学习吗?
原创
博文更新于 2025.11.28 ·
896 阅读 ·
18 点赞 ·
0 评论 ·
19 收藏

【论文阅读】X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model

将NLP领域的Soft Prompt Learning思想借鉴到机器人中,虽然不是架构创新(比如Transformer),但是能够以高效的方式解决机器人领域最关注的。因为针对目前已经训练好的大模型,需要使其适配到不同的垂类场景中。如果采用普通微调的方式,会针对所有参数进行调整,cost很大,而且分布变了之后可能会造成。因此提出了软提示学习的方式,在部署垂类应用时,只需要在本地存储很少量的soft prompt即可。X-VLA 将这一思想迁移到具身智能体领域,把“任务类型”换成了“机器人身份”,同样奏效。
原创
博文更新于 2025.11.17 ·
301 阅读 ·
4 点赞 ·
0 评论 ·
9 收藏

【论文阅读】PhotoBot: Reference-Guided Interactive Photography via Natural Language

PhotoBot 通过“语言理解 + 参考图像推荐 + 语义对齐 + 相机控制”的闭环,实现了能听懂你想要什么、给你建议、然后帮你拍出来的智能机器人摄影师。
原创
博文更新于 2025.11.11 ·
432 阅读 ·
3 点赞 ·
0 评论 ·
6 收藏

机器人行业之我看

传统方案依赖精确的动力学模型和复杂的控制理论(如MPC),在特定环境中是成功的(如自动驾驶),但是现实世界过于复杂和不确定,导致该方法鲁棒性不足。小脑的训练数据目前相当匮乏,对于物理世界的理解仍不充分。举例:别人向我扔飞盘,大脑输出“接住它”的指令,小脑输出手脚的协同控制指令,用什么力度,在什么位置接住等。比如,特斯拉Optimus的数据量大约在百万小时级别,能够让Optimus在工厂工作。大脑:处理语言和视觉信息,理解环境和指令,给出高级决策。小脑:基于大脑的高级决策,生成具体的控制指令。
原创
博文更新于 2025.10.22 ·
994 阅读 ·
26 点赞 ·
0 评论 ·
9 收藏

【论文阅读】π0 : A Vision-Language-Action Flow Model for General Robot Control

从标准正态分布线性去噪。预训练的目标是构建一个基础模型(base model),目标是广泛的泛化性(broad capabilities and generalization)。cache的原理:cache的是经过了线性变换(k = Wk, v = Wv)后的keys and values,节约的也是线性变换的时间。高质量数据的作用是效率和鲁棒,低质量数据的作用是让模型能够从错误中恢复(recover from mistakes)。预训练模型采用PaliGemma,是一个3B的VLM模型。
原创
博文更新于 2025.10.16 ·
876 阅读 ·
14 点赞 ·
0 评论 ·
18 收藏

【论文精读】RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

已知:目前VLM在VQA,推理等方面有强大的能力,可以给出机器人的高阶指令high-level commands,需要各种controller去给出指令,无法VLM自己给出直接用于控制的低阶指令Cartesian end-effector commands。问题:想要机器人能够获得足够强大的能力,暴力的方法就是采集足够大量的数据 millions of robot interaction trials,但是从成本角度考虑并不现实。针对机器人动作数据,限制给出的词表范围,防止输出不可执行的指令。
原创
博文更新于 2025.10.15 ·
1139 阅读 ·
18 点赞 ·
0 评论 ·
15 收藏

【论文精读】GR00T N1: An open foundation model for generalist humanoid robots

由于本体的配置差异很大,比如传感器配置,硬件形态(夹爪,灵巧手),运动学模型(双足/四足),而且数据缺乏统一的标准,导致不同本体的数据难以整合和复用。:大语言模型,多模态大模型领域均有基座模型。比如大语言模型的GPT-3/4,多模态大模型的CLIP。是具备多任务能力的大模型,通常可以few-shot甚至zero-shot到未见过的任务上。是在训练阶段中,预训练的产物。一般需要进行微调才能适配下游任务。比如Bert-base,需要微调后才能用于情感分析等任务。
原创
博文更新于 2025.09.20 ·
1208 阅读 ·
18 点赞 ·
0 评论 ·
26 收藏

【调研】视觉-语言 导航 VLN

视觉-语言导航(Vision-and-Language Navigation, VLN)是具身智能(Embodied AI)领域中的一个核心且极具挑战性的研究方向。其核心任务是:开发一个能够理解自然语言指令的智能体(Agent),并利用其视觉感知能力,在复杂的、未曾见过的三维环境中导航至指定目标位置 (Result 1-1, 1-4)。
原创
博文更新于 2025.09.17 ·
981 阅读 ·
13 点赞 ·
0 评论 ·
10 收藏

【论文精读】MotionLM:Waymo新作

该文章的一个主要创新点是把每一个时刻的位移认为是vocabulary运动序列的一个运动token(motion token)。采用teacher-force的方法,每个回归出来的点都是加在上一时刻的真值上,得到这个时刻的输出,模型收敛更快。简介:采用自回归的方式做轨迹生成,能够更好地建模交互,且避免模态坍缩,在数据集达到了SOTA。给定context,模型输出13x13的分类分布,然后采样得到x和y方向的action。该模型并不是直接输出轨迹,而是输出分类结果,从而滚动重建轨迹。kmeans聚类成6条。
原创
博文更新于 2025.09.16 ·
679 阅读 ·
4 点赞 ·
0 评论 ·
5 收藏

自动驾驶感知范式迁移:从BEV/向量化到高斯建模

本质: 这个过程就像一个艺术家在用无数个可塑形的、可变色的“智能粘土球”(高斯体)来雕刻一个与现实一模一样的模型。核心思想: 不再试图填充一个完整的网格,而是使用一组可学习的、稀疏的“查询向量”(Object Queries)作为“探针”,主动去图像中寻找并“提炼”与特定物体相关的信息。本质: 这是一种更有针对性的提炼。最终得到的是一组包含了物体信息的向量,而不是一个完整的场景地图。核心思想: 不去抽象信息,而是尝试用一组带有丰富属性的、可微的、显式的3D基元(即3D高斯体)去直接模拟和重建整个三维世界。
原创
博文更新于 2025.08.29 ·
943 阅读 ·
6 点赞 ·
0 评论 ·
13 收藏

自动驾驶导航信号使用方式调研

本文调研在给定导航信号后,如何在端到端架构下,利用导航信息引导轨迹生成。目前主流的方案可以分为2种。一种是将导航作为“前置引导”深度融入轨迹生成过程(导航前置型);另一种则是将导航作为“后置评价”标准来筛选最优轨迹(导航后置型)。
原创
博文更新于 2025.08.20 ·
1110 阅读 ·
5 点赞 ·
0 评论 ·
17 收藏

【论文阅读】AMP: Adversarial Motion Priors for Stylized Physics-Based Character Control

之前的方法是在某场景下,从动作库中选出一条动作流(select the appropriate motion for the character),然后设计跟随目标函数(carefully designed objective functions),让动画人物进行跟随。在计算机动画领域(注意:该论文并非典型的具身智能领域),如何让动画人物的动作更拟人(life-like)一直是很关键的问题。RL奖励函数是什么?
原创
博文更新于 2025.07.29 ·
1056 阅读 ·
12 点赞 ·
0 评论 ·
13 收藏

【论文精读】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion

在具身智能领域,从专家示范中进行策略学习较难。
原创
博文更新于 2025.06.25 ·
1107 阅读 ·
12 点赞 ·
0 评论 ·
30 收藏

【论文精读】BeamDojo: Learning Agile Humanoid Locomotion on Sparse Footholds

传统基于优化的方法非常消耗算力 a significant computational burden for online planning。相比之下,现在有四足机器人在这方面有很多研究,但是他们将足建模为点。对于双足机器人来说,足需要建模为多边形polygon。网页链接:https://why618188.github.io/beamdojo。双足机器人在非平坦路面的行走很有挑战性,因为要求行走到安全的区域,并且保持稳定。团队:上海AI lab,上海交通大学,浙江大学等。
原创
博文更新于 2025.06.14 ·
888 阅读 ·
17 点赞 ·
0 评论 ·
17 收藏

【论文精读】Improving Behavious with RL fine-tuning for Autonomous driving

RL过程能够显著提升可靠性significantly improves the reliability of the agent behavious。目前LLM采用的范式“先大规模预训练,再强化学习微调”被借鉴到这篇文章中了。采用Waymomer框架。
原创
博文更新于 2025.04.02 ·
1316 阅读 ·
26 点赞 ·
0 评论 ·
9 收藏

深度学习基础

但是要注意:噪音背景需要和清晰的音频一样diverse,不能音频有1000条,噪音只有1条,要不然可能过拟合。为了能够使其适用于TaskB,需要对模型进行进一步训练,这个过程取决于taskB的样本数量。make similar的方法包括数据合成。比如含有噪音的音频。迁移学习是原本适用于taskA的模型同样应用在taskB。训练集和验证集的数据分布不同。模型没见过,没学习到;该方法在音频识别种效果很好。
原创
博文更新于 2025.03.17 ·
1291 阅读 ·
8 点赞 ·
0 评论 ·
7 收藏

【论文精读】Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning

这个预训练跟deepseek r1一样,都是让模型先学一些简单的专家分布,作为强化学习的冷启动,否则直接用强化学习,探索到专家分布的难度太大。但是上述误差是只有达到一定阈值时才算,没有达到阈值时就没有,所以是稀疏的。由于上述奖励过于稀疏,因此需要一些辅助奖励。模仿学习存在的问题已经越来越被广泛认识到。目前强化学习也存在问题。
原创
博文更新于 2025.03.04 ·
977 阅读 ·
22 点赞 ·
0 评论 ·
15 收藏

大语言模型入门

找到常出现的编码对,比如(125 67),就把它合成为一个新编码符号(比如301),然后再看有没有新的编码对,比如(301 786),那就再把这个合成新的。一种用于大模型的策略优化算法,通过分组比较,动态调整学习策略,使训练更高效和稳定。因为输入的是对话,所以需要对对话进行处理,增加虚拟独白部分,分别在最前和最后,而且要指明是user还是assistant。给模型输入一段没见过的东西,它会沿着继续预测下去,本质上是在概率性的前提下进行最佳预测。如果给base输入一句话,它不会回答,只会续写。
原创
博文更新于 2025.02.21 ·
1680 阅读 ·
11 点赞 ·
0 评论 ·
14 收藏
加载更多