v_JULY_v
码龄15年
求更新 关注
提问 私信
  • 博客:24,428,389
    社区:391,008
    动态:25,085
    视频:172,545
    25,017,027
    总访问量
  • 387
    原创
  • 72
    排名
  • 116,760
    粉丝
  • 3
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:美国
加入CSDN时间: 2010-10-11

个人简介:七月在线创始人,结构之法算法之道blog之博主

博客简介:

结构之法 算法之道

博客描述:
2015年和团队共同创办具身智能科技公司「七月在线」,希望一直不断帮助天下最多人
查看详细资料
个人成就
  • 领域专家: 算法与数据结构技术领域
  • 获得48,838次点赞
  • 内容获得15,788次评论
  • 获得136,323次收藏
  • 代码片获得25,830次分享
  • 原力等级
    原力等级
    9
    原力分
    25,074
    本月获得
    275
创作历程
  • 119篇
    2025年
  • 65篇
    2024年
  • 30篇
    2023年
  • 3篇
    2022年
  • 3篇
    2021年
  • 5篇
    2020年
  • 2篇
    2019年
  • 6篇
    2018年
  • 4篇
    2017年
  • 6篇
    2016年
  • 2篇
    2015年
  • 8篇
    2014年
  • 8篇
    2013年
  • 11篇
    2012年
  • 97篇
    2011年
  • 25篇
    2010年
成就勋章
TA的专栏
  • 开启大模型时代的ChatGPT系列:包含原理、RLHF等
    8篇
  • LLaMA/Gemma/Mistral:国外的开源LLM
    6篇
  • 火爆全球的DeepSeek系列模型
    13篇
  • 国产Qwen与GLM LLM系列:含最新Qwen3
    4篇
  • 大模型背后的关键技术:LoRA/并行训练等
    8篇
  • 强化学习系列:包含PPO DPO GRPO GSPO
    5篇
  • 改进与挑战Transformer:mamba/TTT等
    7篇
  • 扩散去噪DDPM与AIGC发展史:图像/视频/代码的生成
    11篇
  • 多模态:ViT CLIP到Qwen-VL PaliGemma
    6篇
  • 检测与分割史:从专用DETR、SAM2到通用DINOv3
    5篇
  • ALOHA ACT系列:mobile aloha为代表的IL
    11篇
  • Diffusion Policy系列:umi与dexcap
    8篇
  • LeRobot系列:封装了ACT/DP/π0等
    6篇
  • VLM规划下加约束:SayCan、ReKep等
    5篇
  • 精密插拔与装配:从RL、VLA(含力/触)到RL微调VLA
    20篇
  • 机械臂VLA发展史:RT2/OpenVLA/3D VLA
    17篇
  • VLA风向标之π0系列(含π0.5和π0.6):复现/微调
    12篇
  • 人形manipulation:iDP3/GR00T/Tele
    13篇
  • 人形locomotion:Exbody/H2O/ASAP
    23篇
  • 人形loco-mani:PhysHSI/TWIST2等
    19篇
  • 以VLN为代表的人形导航:包含NaVILA、NaVid等
    11篇
  • 七月科研论文大模型:含论文的审稿微调、阅读、写作、修订
    16篇
  • RAG企业知识库问答系列
    5篇
  • AI Agent:包含各种智能体,比如让AI按步骤生成论文
    2篇
  • 我的创业与读书史:从教育、大模型开发到具身开发
    11篇
  • 机器学习十大算法系列
    29篇
  • 微软面试100题系列
    36篇
  • 程序员编程艺术
    35篇
  • BAT AI面试1000题系列
    3篇
  • 海量数据处理
    5篇
  • 十五大经典算法研究
    42篇
  • 经典树结构:红黑树 B树等
    13篇
  • AI应用:CV NLP 推荐
    9篇
  • 技术架构与源码剖析
    7篇

TA关注的专栏 0

TA关注的收藏夹 0

TA关注的社区 2

TA参与的活动 0

兴趣领域 设置
  • 人工智能
    深度学习nlpchatgpt
  • 前沿技术
    机器人
博主July简介

July,于2010年10月11日开始在CSDN上写博(搜索:结构之法,进入本博客),2015年创办「七月在线」(julyedu.com),一开始做AI技能教育,后24年起侧重:具身智能的场景落地与定制开发,客户所属行业包括但不限于:电力/化工、家电制造/车企/纺织厂、高校等等..


目前和各个合伙人共管4个办公室:
  1. 1 长沙具身团队:侧重大模型赋能具身的定制开发,例如机械臂上的精密插拔、智能装配,及人形展厅讲解、人形灵巧操作(变电柜/拧阀门)、人形搬运(含轮式和双足)、具身加油机器人(轮式人形)等,PS,一直在扩招985/211的硕士实习生
  2. 2 武汉具身团队:侧重指导客户对世界级前沿模型的科研与复现,比如ACT/openpi/GR00T
  3. 3 上海具身团队(原南京团队,后迁至上海):侧重人形机器人大小脑的统一协调开发,偏本体的设计与研究
  4. 4 北京教育团队:侧重C端服务(如论文、项目、申博等1V1辅导),以及B端企业服务与高校合作

合作,可通过CSDN私信,或微博联系 @julyweibo。另,具身交流Q群: 204292834
创作活动更多

AI 镜像开发实战征文活动

随着人工智能技术的飞速发展,AI 镜像开发逐渐成为技术领域的热点之一。Stable Diffusion 3.5 FP8 作为强大的文生图模型,为开发者提供了更高效的图像生成解决方案。为了推动 AI 镜像开发技术的交流与创新,我们特此发起本次征文活动,诚邀广大开发者分享在 Stable Diffusion 3.5 FP8 文生图方向的实战经验和创新应用 本次征文活动鼓励开发者围绕 Stable Diffusion 3.5 FP8 文生图方向,分享以下方面的内容: 1. 技术实践与优化 - Stable Diffusion 3.5 FP8 模型架构解析与优化技巧 - 文生图生成效果的提升方法与技巧 - 模型部署与加速策略,例如使用 Hugging Face、Diffusers 等工具 - 针对特定场景(例如二次元、写实风)的模型微调与定制化开发 2. 应用场景探索 - Stable Diffusion 3.5 FP8 在不同领域的应用案例分享,例如游戏设计、广告创意、艺术创作等 - 利用 Stable Diffusion 3.5 FP8 实现图像编辑、图像修复、图像增强等功能的探索 - 结合其他 AI 技术(例如 NLP、语音识别)构建更强大的应用 3. 创新应用与思考 - 基于 Stable Diffusion 3.5 FP8 的创新应用场景设计 - AI 镜像开发的未来发展方向的思考与展望 - 对 AI 镜像开发伦理、安全等问题的探讨

30人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 视频
  • 关注/订阅/互动
  • 帖子
  • 资源
  • 最近

  • 文章

  • 专栏

  • 视频

  • 关注/订阅/互动

  • 帖子

  • 资源

搜索 取消

PLD——自我改进的VLA:先通过离策略RL学习一个轻量级的残差动作策略,然后让该残差策略收集专家数据,最后蒸馏到VLA中

《PLD:基于残差强化学习的VLA模型自我改进方法》摘要 本文提出PLD(Policy Learning with Distillation)方法,通过三阶段流程实现视觉-语言-动作(VLA)模型的自我改进。针对高质量机器人数据获取困难、远程操作示范与真实状态分布不匹配等问题,PLD首先冻结VLA主干,利用样本高效的离线策略RL训练轻量级残差actor;然后采用混合rollout方案收集数据,既保留基础策略访问状态又捕获恢复行为;最后通过监督微调将多任务数据蒸馏回基础模型。该方法在LIBERO基准上实现了超
原创
博文更新于 前天 11:03 ·
1039 阅读 ·
19 点赞 ·
1 评论 ·
21 收藏

强化学习极简入门:通俗理解MDP、DP MC TD和Q学习、策略梯度、PPO

强化学习里面的概念、公式,相比ML/DL特别多,初学者刚学RL时,很容易被接连不断的概念、公式给绕晕,而且经常忘记概念与公式符号表达的一一对应(包括我自己在1.10日之前对好多满是概念/公式的RL书完全看不下去,如今都看得懂了,故如果读文本之前,你正在被RL各种公式困扰,相信看完这篇RL极简入门后就完全不一样了)。
原创
博文更新于 前天 10:56 ·
123555 阅读 ·
1406 点赞 ·
192 评论 ·
4323 收藏

Calibrated Q-learning(简称Cal-QL)——为高效在线微调而对“离线RL预训练”做校准:让学到的Q值有上界(保持CQL已做到的不盲目乐观),更有底线(不盲目悲观)

本文探讨了Cal-QL算法在离线强化学习预训练和在线微调中的应用。该算法通过校准Q值,解决了传统方法中因保守性导致Q值被过度压低的问题。Cal-QL确保学到的Q值既作为最优策略的下界,又作为行为策略的上界,避免在线微调初期出现"遗忘"现象。相比现有方法,Cal-QL能更好地保留离线策略的优势,同时在在线阶段实现高效学习。这种校准方法显著提升了从离线预训练到在线微调的过渡效率,为强化学习提供了一种更稳定的训练范式。
原创
博文更新于 2025.12.17 ·
1133 阅读 ·
19 点赞 ·
0 评论 ·
6 收藏

ConRFT——Consistency Policy下RL微调VLA的方法:离线通过演示数据微调(结合Q损失和BC损失),后在线RL微调,且引入人工干预

本文探讨了具身智能中模仿学习(IL)、视觉语言模型(VLA)和强化学习(RL)的融合趋势。研究表明,单纯IL学习速度快但精准度不足,单纯VLA泛化性强但缺乏精准控制,单纯RL精准度高但样本效率低。作者提出ConRFT方法,通过两阶段一致性策略强化微调:先利用少量演示数据离线微调(Cal-ConRFT),再结合人机协同(HIL)在线微调(HIL-ConRFT)。该方法在保持VLA通用能力的同时,通过统一训练目标整合BC损失和Q学习,有效解决了接触丰富任务中的样本效率和安全探索问题,为工业机械臂智能化提供
原创
博文更新于 2025.12.16 ·
4379 阅读 ·
6 点赞 ·
0 评论 ·
32 收藏

WSRL——热启动的RL如何20分钟内控制机器人:先离线RL预训练,之后离线策略热身(模拟离线数据保留),最后丢弃离线数据做在线RL微调

毕竟未来一两月,我司长沙分部的规划是对于机械臂,考虑IL + RL结合下的方法,继续优化USB插拔、电源插拔等各种插拔场景对于人形,继续unitree_IL_lerobot,以及全身遥操、跳舞、展厅讲解针对各种插拔场景,7.4日下午,我司长沙分部同事文弱发我了一个介绍WSRL的X链接,我一看,挺不错,很有价值,也很有意义,后续准备试下,故本文先解读下一为指导将来的实践,二为分享,与更多有志于在线RL方向的同仁多交流(欢迎私我一两句的简介,邀你加入:七月:HIL-SERL/WSRL/VITAL交流
原创
博文更新于 2025.12.16 ·
3861 阅读 ·
16 点赞 ·
4 评论 ·
24 收藏

HIL-SERL——结合“人类离线演示、在线策略数据、人工在线干预”的RL方法:直接真实环境中RL开训,可组装电脑主板和插拔USB

机器人强化学习任务可以通过一个来定义,其中是状态观测(例如,结合机器人的本体状态信息的图像)是动作(例如,期望的末端执行器扭转)是初始状态的分布,是依赖于系统动态的未知且可能是随机的转移概率而是奖励函数,编码任务最优策略是最大化奖励的累计期望值的策略,即,其中期望是通过关于初始状态分布、转换概率和策略在实践中,策略通常建模为由神经网络参数化的高斯分布为了实现机器人任务的强化学习算法,必须仔细选择合适的状态观察空间和动作空间。
原创
博文更新于 2025.12.15 ·
11044 阅读 ·
44 点赞 ·
12 评论 ·
87 收藏

RLPD——利用离线数据实现高效的在线RL:不进行离线RL预训练,直接应用离策略方法SAC,在线学习时对称采样离线数据

摘要:本文介绍了两项强化学习前沿工作RLPD和RLDG。RLPD提出了一种高效融合离线数据的在线强化学习方法,通过"对称采样"机制(50%在线数据+50%离线数据)和层归一化技术,有效缓解了价值函数过度外推问题,在多个基准测试中实现了SOTA性能。RLDG则采用知识蒸馏框架,先训练精密任务RL策略生成数据,再微调视觉语言模型,性能超越人类演示数据。两项工作分别从数据利用效率和知识迁移角度推进了强化学习在实际场景中的应用,特别是在样本效率、稳定性和泛化能力方面取得重要突破。(149字)
原创
博文更新于 2025.12.15 ·
4019 阅读 ·
25 点赞 ·
0 评论 ·
28 收藏

Q-chunking——带有动作分块的强化学习:基于人类演示,进行一定的连贯探索(且可做到无偏的n步价值回溯)

UC伯克利提出Q-chunking方法,通过动作分块改进离线到在线强化学习。该方法在动作序列层面运行RL策略,预测并执行未来h步动作,利用时序差分训练评估器进行无偏的n步价值回传。研究显示,这种方法能加速价值传播、保持无偏估计,同时通过行为约束利用离线数据中的时序连贯动作序列,有效缓解探索难题。相比分层RL,Q-chunking简化了优化过程,在保持探索优势的同时提升了样本效率。相关代码和论文已在GitHub和arXiv公开。
原创
博文更新于 2025.12.15 ·
4168 阅读 ·
16 点赞 ·
1 评论 ·
36 收藏

Training-Time RTC——在训练时模拟推理延迟(承认既定事实专心预测后续动作):消除推理阶段的计算开销,让π0.6完成箱子装配与咖啡制作

摘要:本文提出一种训练时实时分块(training-time RTC)方法,通过模拟推理延迟直接调节动作前缀,有效解决了视觉语言动作模型(VLA)在实时控制中的延迟问题。相比需要推理时图像修复的传统RTC方法,新方案完全消除了推理阶段的计算开销,仅需微调现有模型即可实现。实验表明,该方法在高延迟场景下性能优于推理时RTC,在箱体构建和咖啡制作等复杂任务中,既能保持执行速度和任务性能,又显著降低了计算成本。
原创
博文更新于 2025.12.15 ·
1413 阅读 ·
24 点赞 ·
4 评论 ·
17 收藏

实时动作分块RTC——为解决高延迟,让π0.5也可以点燃火柴、插入网线:执行当前动作分块时生成下一个分块,且已执行的冻结并通过“图像修复”引导新块的生成

摘要 Physical Intelligence公司提出了一种实时动作分块技术(RTC),解决了视觉-语言-动作模型(VLA)在高精度任务中的延迟问题。该技术将异步动作分块建模为修补问题,在执行前一个动作块的同时生成下一个兼容的动作块,有效避免了传统分块方法在切换点产生的不连续性。RTC适用于基于扩散或流的可变长度动作模型,无需改变现有训练流程。实验表明,该方法能实现连续稳定的控制信号,支持如点燃火柴、插入网线等高精度操作任务,突破了VLA在实时控制中的性能瓶颈。该成果发表于2025年6月,为VLA在具身智
原创
博文更新于 2025.12.15 ·
5839 阅读 ·
35 点赞 ·
8 评论 ·
21 收藏

扩散模型DDPM的发展史:从AE、VAE、VQ-VAE到DDPM(含图像加噪、去噪的全过程及U-Net的简介)、DDIM

2018年我写过一篇博客,叫:《》,该文相当于梳理了2019年之前CV领域的典型视觉模型,比如随着2019 CenterNet的发布,特别是2020发布的DETR(End-to-End Object Detection with Transformers)之后,自此CV迎来了生成式下的多模态时代但看这些模型接二连三的横空出世,都不用说最后爆火的GPT4,便可知不少CV同学被卷的不行。
原创
博文更新于 2025.12.13 ·
45111 阅读 ·
302 点赞 ·
39 评论 ·
771 收藏

GR-RL——首个让机器人系鞋带的VLA:先离线RL训练一个“分布式价值评估器”以做任务进度预测,后数据增强,最后在线RL

摘要:GR-RL提出了一种结合视觉语言动作模型(VLA)与强化学习(RL)的新方法,以解决机器人精细操作中的两大挑战:毫米级精确控制和长时序任务鲁棒性。该方法通过三阶段训练流程:1)利用离线RL筛选优质人类示范数据;2)采用镜像对称性进行数据增强;3)通过在线RL在潜在空间进行结构化探索优化。实验表明,这种混合训练范式显著提升了如穿鞋带等高精度灵巧操作任务的性能,解决了传统VLA策略在训练-部署不匹配和次优示范影响下的局限性。
原创
博文更新于 2025.12.13 ·
1580 阅读 ·
20 点赞 ·
0 评论 ·
15 收藏

23-25年总结——不再迷茫且全力具身:个人变为技术研究者,公司则先后经历大模型开发、具身开发

文章摘要: 作者回顾2023-2025年公司转型历程:2023年因ChatGPT兴起从教育转向科技公司,开发十余个大模型应用;2024年受斯坦福机器人研究启发进军具身智能领域;2025年在长沙组建团队,取得机械臂和人形机器人研发突破(如自主抓取、VR遥操、大模型交互等)。作者提出衡量个人/公司价值的标准是对社会的贡献程度,并强调通过具身智能造福千万人的愿景。文中详细记录了长沙团队在6-9月的技术突破时间表,展现快速迭代的研发能力。
原创
博文更新于 2025.12.12 ·
6134 阅读 ·
31 点赞 ·
8 评论 ·
27 收藏

VIRAL——仿真中训练但现实中视觉驱动(解决loco-mani所需训练数据大的难题):先Sim中训练教师策略,后蒸馏出基于视觉的学生策略

摘要:本文介绍了CMU LeCAR-Lab提出的视觉驱动仿人机器人系统VIRAL,该系统通过教师-学生框架实现行走-操作一体化任务。教师策略利用特权状态信息训练RL模型,输出WBC控制指令;学生策略则通过大规模视觉蒸馏,仅基于RGB图像和本体感知模仿教师行为。关键技术包括:增量动作空间设计、WBC作为API层、参考状态初始化,以及仿真环境的高度随机化。实验表明,该系统无需微调即可零样本迁移到Unitree G1人形机器人,成功完成抓取、搬运等复杂任务。该工作为降低机器人系统部署门槛提供了新思路,使纯视觉驱动
原创
博文更新于 2025.12.12 ·
1494 阅读 ·
17 点赞 ·
0 评论 ·
15 收藏

πRL——首个在线RL微调流式VLA π0/π0.5的框架:通过Flow-Noise和Flow-SDE实现精确对数似然估计,全面提升性能

本文探讨了工业机械臂智能化改造的最新方法,重点介绍了首个在线强化学习(RL)微调流式视觉语言代理(VLA)的框架πRL。针对传统自回归VLA在连续动作控制上的局限性,πRL创新性地提出了Flow-Noise和Flow-SDE两种解决方案,克服了流匹配中对数似然估计的难题。该框架通过将强化学习与基于流的VLA架构(如π0和π0.5)相结合,实现了高精度且泛化的机械臂控制能力,为工厂智能化改造提供了新的技术路径。研究表明,RL微调VLA的方法正在成为工业机械臂智能化的主流方向。
原创
博文更新于 2025.12.07 ·
3610 阅读 ·
33 点赞 ·
2 评论 ·
33 收藏

一文通透DeepSeek-V3.2——核心在于DeepSeek Sparse Attention(简称DSA):让q跟最相关的k/v做注意力计算,以降低MLA的计算量

DeepSeek-V3.2引入了创新的DeepSeekSparseAttention(DSA)机制,通过两阶段动态检索优化长文本处理效率。DSA采用细粒度的Token-wise筛选,使用闪电索引器快速扫描全局并精选Top-K关键Token,相比传统块级筛选(Block-wise)减少了冗余计算。该机制基于改进的多头潜在注意力(MLA)架构,通过共享键值对条目提升计算效率。与原生稀疏注意力(NSA)不同,DSA强调根据当前查询动态检索最相关内容,而非训练阶段模拟稀疏行为。这一设计在保持模型效果的同时显著降低了
原创
博文更新于 2025.12.07 ·
1692 阅读 ·
21 点赞 ·
0 评论 ·
20 收藏

一文通透位置编码:从标准位置编码、复数、欧拉公式到旋转位置编码RoPE(含其推导与代码实现)

关于位置编码和RoPE为彻底解决这个位置编码/RoPE的问题,我把另外两篇文章中关于这部分的内容抽取出来,并不断深入、扩展、深入,最终成为本文。
原创
博文更新于 2025.12.07 ·
72806 阅读 ·
584 点赞 ·
65 评论 ·
1052 收藏

一文速览Mistral 7B及其微调——我司论文审稿GPT第3.2版:微调Mistral 7B instruct 0.2

23年12月9日,Mistral AI 在 X 平台甩出一条磁力链接,打开一看,发现是接近 87 GB 的种子看上去,Mistral 8x7B的架构此前传闻的GPT-4架构非常相似(很像传闻中GPT-4的同款方案),但是「缩小版」:8 个专家总数,而不是 16 名(减少一半)每个专家为 7B 参数,而不是 166B(减少 24 倍)42B 总参数(估计)而不是 1.8T(减少 42 倍)与原始 GPT-4 相同的 32K 上下文。
原创
博文更新于 2025.12.06 ·
24710 阅读 ·
82 点赞 ·
16 评论 ·
130 收藏

一文通透登上Nature的DeepSeek R1:如何通过纯RL训练以比肩甚至超越OpenAI o1(含Kimi K1.5、QwQ-32B的解读)

而DeepSeek-V3和Kimi K1.5的意义在于,即便它两和OpenAI o1的实现不一致(当然,也可能很大程度上一致) 也不是很重要的事情了,因为从结果的角度出发,它两的效果比肩甚至超越o1,单这一点 就足够了。没想到,DeepSeek-V3还没解读完,DeepSeek-R1又来了,而且几乎同一时期,Kimi K1.5也来了。有意思的在它两的技术报告里,很多指标都比肩甚至超越OpenAI的o1模型。因此,本文重点解读一下它两的技术报告。
原创
博文更新于 2025.12.06 ·
38020 阅读 ·
66 点赞 ·
11 评论 ·
111 收藏

一文速览MoE及其实现:从Mixtral 8x7B到DeepSeekMoE(含DS LLM的简介)

本文的前两部分一开始写于2023年12.23日,当时是属于此文《从Mistral 7B到MoE模型Mixtral 8x7B的全面解析:从原理分析到代码解读》的后半部分但2025年春节期间,deepseek火爆全球,其背后的MoE架构引发大量关注,考虑到MoE模型的重要性,特把MoE相关的模型独立成此文。
原创
博文更新于 2025.12.06 ·
13613 阅读 ·
46 点赞 ·
8 评论 ·
75 收藏
加载更多