想要成为计算机高手
码龄2年
求更新 关注
提问 私信
  • 博客:152,888
    视频:10
    152,898
    总访问量
  • 133
    原创
  • 4,168
    粉丝
  • 30
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
加入CSDN时间: 2024-03-17

个人简介:怕什么真理无穷,进一寸有一寸的欢喜

  • 毕业院校: 上海大学
博客简介:

2401_83634908的博客

查看详细资料
个人成就
  • 获得2,545次点赞
  • 内容获得26次评论
  • 获得2,558次收藏
  • 代码片获得534次分享
  • 博客总排名11,056名
  • 原力等级
    原力等级
    5
    原力分
    1,479
    本月获得
    57
创作历程
  • 116篇
    2025年
  • 17篇
    2024年
成就勋章
TA的专栏
  • Physical Intelligence(π)
    6篇
  • VLA具体模型
    22篇
  • NLP经典大模型解读
    3篇
  • VLA复现与实践
    7篇
  • Isaac sim4.2教程
    14篇
  • Lerobot
    2篇
  • VLA技术报告
    10篇
  • 通用具身策略
    4篇
  • 具身智能大概念
    1篇
  • VLA综述
    4篇
  • 具身智能、VLA、世界模型相关技术
    13篇
  • 项目中学习深度学习框架-PyTorch
    6篇
  • 深度学习必备算法
    4篇
  • C++
    17篇
  • C/数据结构C++/复习
    13篇
  • 进阶数据结构
    3篇
  • leetcode
    3篇
  • Linux-操作系统
    8篇

TA关注的专栏 4

TA关注的收藏夹 0

TA关注的社区 0

TA参与的活动 2

兴趣领域 设置
  • Python
    python
  • 编程语言
    c++
  • 数据结构与算法
    算法
  • 人工智能
    人工智能
  • 前沿技术
    机器人
创作活动更多

AI 镜像开发实战征文活动

随着人工智能技术的飞速发展,AI 镜像开发逐渐成为技术领域的热点之一。Stable Diffusion 3.5 FP8 作为强大的文生图模型,为开发者提供了更高效的图像生成解决方案。为了推动 AI 镜像开发技术的交流与创新,我们特此发起本次征文活动,诚邀广大开发者分享在 Stable Diffusion 3.5 FP8 文生图方向的实战经验和创新应用 本次征文活动鼓励开发者围绕 Stable Diffusion 3.5 FP8 文生图方向,分享以下方面的内容: 1. 技术实践与优化 - Stable Diffusion 3.5 FP8 模型架构解析与优化技巧 - 文生图生成效果的提升方法与技巧 - 模型部署与加速策略,例如使用 Hugging Face、Diffusers 等工具 - 针对特定场景(例如二次元、写实风)的模型微调与定制化开发 2. 应用场景探索 - Stable Diffusion 3.5 FP8 在不同领域的应用案例分享,例如游戏设计、广告创意、艺术创作等 - 利用 Stable Diffusion 3.5 FP8 实现图像编辑、图像修复、图像增强等功能的探索 - 结合其他 AI 技术(例如 NLP、语音识别)构建更强大的应用 3. 创新应用与思考 - 基于 Stable Diffusion 3.5 FP8 的创新应用场景设计 - AI 镜像开发的未来发展方向的思考与展望 - 对 AI 镜像开发伦理、安全等问题的探讨

39人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 代码仓
  • 资源
  • 收藏
  • 关注/订阅/互动
更多
  • 最近

  • 文章

  • 专栏

  • 代码仓

  • 资源

  • 收藏

  • 关注/订阅/互动

  • 社区

  • 帖子

  • 问答

  • 课程

  • 视频

搜索 取消

π*0.6: 从实践中学习 -- 2025.11.17 -- Physical Intelligence (π) -- 未开源

pi0 和 pi0.5 作为轰动具身智能领域的VLA引世人瞩目,2025.11.17 Physical Intelligence (π)发布了pi*0.6,一经发出,就在社区中引起了广泛关注,VLA+RL 的研究方向也越来越火热,故来拜读一下。注意π0.6∗π_{0.6}^*π0.6∗​和pi0.6不能等价。论文页项目页。
原创
博文更新于 2025.11.29 ·
1365 阅读 ·
27 点赞 ·
0 评论 ·
25 收藏

微调VLA需要的数据数量,质量,构成分析

1-2:GR-3技术报告,GR-3用的是联合训练微调,使用了机器人轨迹和VL数据,效果比 pi0综合高了10%4:Gemini robotics技术报告,打包饭盒一般超过2min,很长程的任务,平均3500条的话也得116个小时。它在持续超过 2 分钟的长流程饭盒打包任务中取得了100% 的成功率(毕竟是技术报告)。100条(1hour)成功率就能超过70%成功率。5. 末端为灵巧手,非抓取扩展也用了1029次人类示范6-7:微调GR00T,基本300条才能到50%左右。
原创
博文更新于 2025.11.29 ·
726 阅读 ·
14 点赞 ·
0 评论 ·
17 收藏

dexbotic -- 技术报告-- 2025.10.20 -- 开源VLA工具箱

最近,随着 Vision-Language-Action(VLA)模型的发展,在具身智能(embodied intelligence)领域取得了显著进展。然而,该领域的研究分散在不同机构间,各自使用不同的深度学习框架和模型架构。这种多样性给用户在比较不同 policy(策略)时带来挑战:他们需要配置多个实验环境和不同的数据格式,使得 VLA 开发流程变得繁琐。另外,确保每个被比较的 policy 都被充分优化也很困难,这会导致不公平的对比。
原创
博文更新于 2025.11.27 ·
725 阅读 ·
23 点赞 ·
0 评论 ·
19 收藏

小白都能看懂的openpi-so101部署

尝试lerobot官方0.3.3版本的未果,bug较多,而且就算最后能够成功,效果也不尽人意(社区普遍反映),所以来尝试看一下怎么部署。本博客研究pi0和pi05的微调,so101实机部署流程和代码。2025.11.20 发现lerobot官方提供了lerobot0.4.0 和 lerobot 0.4.1,对pi0和pi0.5都做了支持,应该能顺利部署。
原创
博文更新于 2025.11.27 ·
322 阅读 ·
5 点赞 ·
0 评论 ·
2 收藏

利用光轮智能的leisaac实现VLA控制SO101

见github。
原创
博文更新于 2025.11.26 ·
714 阅读 ·
29 点赞 ·
0 评论 ·
29 收藏

在lerobot官方repo上进行smolvla和pi0的部署

使用的是官方最新的版本:lerobot0.3.3。
原创
博文更新于 2025.11.26 ·
1127 阅读 ·
14 点赞 ·
2 评论 ·
20 收藏

Lerobot-SO101-安装/数据收集/训练policy

一个有用的功能是重放功能,它允许你重放任何已录制的回合,或者来自任何数据集的回合。接下来的步骤是训练您的神经网络。通过稳定的抓取表现后,您可以开始在数据采集时引入更多变化,例如额外的抓取位置、不同的抓取技术和改变相机位置。重要的是,这个策略将自动适应你机器人(例如笔记本电脑和手机)的电机状态、动作和相机的数量,这些信息已保存在你的数据集中。这是可选的,但如果你使用它,确保先登录,使用命令。一旦你收集到足够的轨迹数据,你将训练一个神经网络来模仿这些轨迹,并部署训练好的模型,使你的机器人能够自主执行任务。
原创
博文更新于 2025.11.24 ·
1849 阅读 ·
36 点赞 ·
0 评论 ·
21 收藏

VLA-0 -- Nvidia --2025.10.15 -- 开源

在大规模语言模型(LLMs)在文本处理方面取得成功、以及视觉-语言模型(VLMs)在同时处理视觉与文本输入方面表现良好之后,下一步是探索视觉-语言-动作模型(VLAs),即不仅理解视觉和文本信息,而且还能为机器人 agent 预测动作的系统。视觉-语言-动作模型(VLAs)在实现通用型机器人操控方面具有巨大的潜力。然而,构建这类模型的最佳方法仍是一个悬而未决的问题。目前的方法通常会增加复杂性,例如通过添加 action tokens(动作 token)来修改现有视觉-语言模型(VLM)的词汇,或。
原创
博文更新于 2025.11.13 ·
589 阅读 ·
19 点赞 ·
2 评论 ·
29 收藏

Gemini Robotics 1.5 -- Gemini Robotics Team -- 技术报告 --- 2025.9.25

虽然是技术报告,但是谷歌的工作还是值得一看的。技术报告页今年早些时候,在将Gemini 的多模态理解能力带入物理世界方面取得了重大进展,起点是 Gemini Robotics 这一系列模型。今天,又向推进智能且真正通用的机器人迈出了一步。Gemini Robotics 1.5 —— 谷歌最强的视觉-语言-动作(VLA)模型:把视觉信息和指令转化为机器人执行任务的运动指令。该模型在行动前会先“思考”并展示其思路流程,从而帮助机器人以更透明的方式评估并完成复杂任务。
原创
博文更新于 2025.10.31 ·
1085 阅读 ·
7 点赞 ·
0 评论 ·
19 收藏

Robotic Manipulation VLA 综述

机器人操纵作为机器人学与具身人工智能的重要前沿,要求精确的运动控制以及在动态环境中对视觉与语义线索的整合性理解。机器人操控在许多领域具有广泛应用价值,包括先进制造、智能物流、精密医疗和多功能家务服务等。传统方法基于预先定义的任务规格与刚性的控制策略,这些方法在非结构化的真实环境中会明显失效——尤其面对新物体、含糊的自然语言指令或未见过的场景布局时——从而暴露出其在可扩展性与泛化能力上的固有局限。
原创
博文更新于 2025.10.24 ·
945 阅读 ·
22 点赞 ·
0 评论 ·
29 收藏

调研遥操作方案并进行优劣势对比

1. 能够轻松应用于自研与非自研机械臂,易用好用2. 在真实环境中和仿真场景中都可以使用3. 成本4. 有无现有的社区经验,降低学习成本5. 是否方便进行数据收集,比如收集数据时我们能看到只有模型能够接收到的视角,如果是上帝视角收集的数据,效果需要测试(我现在在box2bowl上有上帝视角记录的50条数据,后续可以测试只看双摄记录数据的效果),但是打开摄像头就会占用大量带宽6. 扩展性。
原创
博文更新于 2025.10.20 ·
530 阅读 ·
3 点赞 ·
0 评论 ·
8 收藏

Genie Envisioner--智元机器人--世界模型框架--2025.8.7

能在物理世界中感知、推理并行动的具身代理,是人工智能系统的下一个前沿方向。核心的基础性研究挑战仍是:开发可扩展且鲁棒的机器人操控能力——即通过有选择的接触有目的地与物理环境交互并控制它。尽管该领域已取得大量进展——从分析方法(Berenson 等,2009;Stilman,2007)、基于模型的框架(Ebert 等,2018;Janner 等,2019;Nagabandi 等,2020),到从大规模数据集中学习操控策略的数据驱动方法(Black 等,2024;Brohan 等,2023;
原创
博文更新于 2025.10.20 ·
1153 阅读 ·
30 点赞 ·
0 评论 ·
30 收藏

RynnVLA-001-7B: 使用人类演示增强机器人Manipulation--达摩院--2025.9.18--开源

过去几年里,大规模语言模型(……)、大规模多模态模型(……)、基于视觉的识别模型(……)以及生成模型(……)都取得了快速进展。这些领域的成功主要归功于大规模数据集的可用性。例如,大型语言模型受益于来自网络来源的充足训练数据,这些数据相对容易获取。相比之下,Vision-Language-Action(VLA)模型的发展受制于大规模机器人操作数据的稀缺。收集这类数据通常依赖人工遥操物理机器人来记录操作轨迹,因此构建大规模数据集既费时又昂贵。为应对数据稀缺问题,已有一些早期尝试。一方面,有些方法提出构建。
原创
博文更新于 2025.10.10 ·
1034 阅读 ·
22 点赞 ·
0 评论 ·
13 收藏

AgiBot World--智元机器人+Shanghai AI Lab--2025.3.9--开源

这是一个的,包含和。与以往类似平台相比,AgiBot World 在规模和多样性上无可比拟。部署了 100 台双臂仿人机器人。他们进一步提出了一个(GO‑1),并配备了潜在动作规划器。它在多样化的数据集上进行训练,与以往方法相比,实现了可扩展的 32% 性能提升。
原创
博文更新于 2025.10.10 ·
1196 阅读 ·
16 点赞 ·
0 评论 ·
25 收藏

EO-Robotics --上海AI lab -- 2025.9.9 -- 开源

近期的 vision-language-action(VLA)模型通过在大规模机器人数据与视觉-文本数据上联合训练,已经在通用机器人控制方面展示了显著进展。然而,它们在交错进行的推理与交互中,仍未达到人类水平的灵活性。早期的通用机器人策略主要把 vision–language models(VLMs)扩展为 vision-language-action(VLA)模型,借助领域特定的机器人数据;方法上要么通过对离散 action tokens的decoding 来生成动作,要么加入额外的连续。
原创
博文更新于 2025.10.10 ·
902 阅读 ·
15 点赞 ·
0 评论 ·
19 收藏

Galaxea 开源数据集和双系统G0--星海图--2025.8.30--2025年9月陆续开源

VLA 模型已成为关键范式,目标是使机器人能够自主地感知、推理并在物理世界中执行复杂任务。尽管已取得显著进展,但由于缺乏大规模、高质量、开源的真实世界机器人数据,仍然存在显著瓶颈。现有数据集(例如 Open-X Embodiment)主要受到任务现实性受限与环境丰富度不足的制约。这些不足会削弱训练模型在多样真实世界情境下的泛化能力。为应对该挑战,提出了 Galaxea Open-World 数据集——一个面向移动操控的、规模大且精心策划的真实世界开源数据集。
原创
博文更新于 2025.09.29 ·
1404 阅读 ·
25 点赞 ·
2 评论 ·
23 收藏

用GR00T官方仓库在so101上部署GR00T N1.5

选用之前在box2bowl上微调好的模型,看看能不能成功;失败这就很奇怪了,明明我在之前运行的好好的,怎么参数还能出问题。然后怎么部署呢?卡住了。发现官方有脚本:getting_started/examples/eval_gr00t_so100.py发现当前环境中没有lerobot包,与是:(别学我,这是错的)发现他覆盖安装了很多环境,这些环境会导致serve的服务打不起来。
原创
博文更新于 2025.09.29 ·
862 阅读 ·
8 点赞 ·
0 评论 ·
13 收藏

Diffusion 模型解读

首先是前向扩散过程,一张原始图片经过T次加噪,得到一张杂乱无章的噪声图,原始论文加了2000次是否有一种反向过程,能够把噪声图逐步去噪还原回图像。什么是加噪?每次加一个01分布的高斯噪声对于反向过程其实就是训练出一个神经网络,它可以预测出噪声,然后xtx_txt​时间步的信息减去模型预测出的噪声,就得到xt−1x_{t-1}xt−1​时间步的图片,这就是去噪的一个过程。训练阶段。
原创
博文更新于 2025.09.22 ·
691 阅读 ·
13 点赞 ·
0 评论 ·
25 收藏

lerobot0.3.3--smolvla--so101部署--代码debug

已经在smolvla上进行了相关实验并跑通,现在来看一下lerobot的repo是怎么实现smolVLA对SO101的控制的微调就不说了,没啥好说的,和其他的都差不多。
原创
博文更新于 2025.09.22 ·
1092 阅读 ·
33 点赞 ·
0 评论 ·
31 收藏

WALL-OSS--自变量机器人--2025.9.8--开源

作者的紧耦合 MoE 架构、用以增强 VLM 具身理解的多模态课程化训练,以及多阶段训练计划,共同构成了一条统一的、灵活的、可微分的端到端映射路径:从高层指令——通过 CoT(Chain-of-Thought)与子任务分解——到离散动作,再到连续动作。另外,一些方法(如 3D-VLA(79)与 PointVLA(41))尝试使用 3D 视觉模态作为 2D 视觉与动作之间的桥梁,但 3D 数据同样难以获取,且现有的 3D 视觉基础模型(如 VGGT(69)和 π3(72))在精细动作预测所需的精度上仍不够。
原创
博文更新于 2025.09.17 ·
1247 阅读 ·
24 点赞 ·
0 评论 ·
10 收藏
加载更多