三谷秋水
码龄6年
求更新 关注
提问 私信
  • 博客:1,931,951
    动态:4
    1,931,955
    总访问量
  • 1,391
    原创
  • 621
    排名
  • 11,248
    粉丝
  • 226
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
加入CSDN时间: 2020-01-12

个人简介:计算机视觉、图像视频处理、机器学习(深度学习)、自动驾驶、大模型和具身智体。

博客简介:

yorkhunter的博客

查看详细资料
个人成就
  • 获得30,453次点赞
  • 内容获得77次评论
  • 获得24,286次收藏
  • 原力等级
    原力等级
    9
    原力分
    8,692
    本月获得
    326
创作历程
  • 654篇
    2025年
  • 727篇
    2024年
  • 12篇
    2020年
成就勋章
TA的专栏
  • 机器学习
    691篇
  • 人工智能
    483篇
  • 计算机视觉
    729篇
  • 大模型
    1003篇
  • 智能体
    790篇
  • 自动驾驶
    191篇
  • 个人主页
    8篇
  • Large Lauga w
    1篇

TA关注的专栏 0

TA关注的收藏夹 0

TA关注的社区 69

TA参与的活动 0

兴趣领域 设置
  • Python
    python
  • 云原生
    容器
  • 人工智能
    计算机视觉机器学习深度学习神经网络自动驾驶语言模型stable diffusionchatgpt
  • 云平台
    云计算
  • 前沿技术
    车载系统机器人AIGCAI-native
  • 开源
    开源软件
创作活动更多

AI 镜像开发实战征文活动

随着人工智能技术的飞速发展,AI 镜像开发逐渐成为技术领域的热点之一。Stable Diffusion 3.5 FP8 作为强大的文生图模型,为开发者提供了更高效的图像生成解决方案。为了推动 AI 镜像开发技术的交流与创新,我们特此发起本次征文活动,诚邀广大开发者分享在 Stable Diffusion 3.5 FP8 文生图方向的实战经验和创新应用 本次征文活动鼓励开发者围绕 Stable Diffusion 3.5 FP8 文生图方向,分享以下方面的内容: 1. 技术实践与优化 - Stable Diffusion 3.5 FP8 模型架构解析与优化技巧 - 文生图生成效果的提升方法与技巧 - 模型部署与加速策略,例如使用 Hugging Face、Diffusers 等工具 - 针对特定场景(例如二次元、写实风)的模型微调与定制化开发 2. 应用场景探索 - Stable Diffusion 3.5 FP8 在不同领域的应用案例分享,例如游戏设计、广告创意、艺术创作等 - 利用 Stable Diffusion 3.5 FP8 实现图像编辑、图像修复、图像增强等功能的探索 - 结合其他 AI 技术(例如 NLP、语音识别)构建更强大的应用 3. 创新应用与思考 - 基于 Stable Diffusion 3.5 FP8 的创新应用场景设计 - AI 镜像开发的未来发展方向的思考与展望 - 对 AI 镜像开发伦理、安全等问题的探讨

39人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 代码仓
  • 资源
  • 收藏
  • 关注/订阅/互动
更多
  • 最近

  • 文章

  • 专栏

  • 代码仓

  • 资源

  • 收藏

  • 关注/订阅/互动

  • 社区

  • 帖子

  • 问答

  • 课程

  • 视频

搜索 取消

智体人工智能安全:威胁、防御、评估和未解决的挑战(下)

25年10月来自南佛罗里达大学的论文“Agentic AI Security: Threats, Defenses, Evaluation, and Open Challenges”。由大语言模型 (LLM) 驱动、具备规划、工具使用、记忆和自主性等能力的智体人工智能系统,正逐渐成为强大而灵活的自动化平台。它们能够在网络、软件和物理环境中自主执行任务,这带来新的、更显著的安全风险,这些风险既不同于传统的人工智能安全,也不同于传统的软件安全。本综述概述智体人工智能特有的威胁分类,回顾最新的基准测试和评估方
原创
博文更新于 17 小时前 ·
578 阅读 ·
9 点赞 ·
0 评论 ·
12 收藏

智体人工智能安全:威胁、防御、评估和未解决的挑战(上)

25年10月来自南佛罗里达大学的论文“Agentic AI Security: Threats, Defenses, Evaluation, and Open Challenges”。由大语言模型 (LLM) 驱动、具备规划、工具使用、记忆和自主性等能力的智体人工智能系统,正逐渐成为强大而灵活的自动化平台。它们能够在网络、软件和物理环境中自主执行任务,这带来新的、更显著的安全风险,这些风险既不同于传统的人工智能安全,也不同于传统的软件安全。本综述概述智体人工智能特有的威胁分类,回顾最新的基准测试和评估方
原创
博文更新于 17 小时前 ·
709 阅读 ·
19 点赞 ·
0 评论 ·
17 收藏

迈向稳健安全的具身人工智能:关于漏洞与攻击的综述(上)

25年11月来自浙大、黑龙江大学和贵州大学的论文“Towards Robust and Secure Embodied AI: A Survey on Vulnerabilities and Attacks”。具身人工智能系统,包括机器人和自动驾驶汽车,正日益融入现实世界的应用,并面临着一系列源于环境和系统层面的漏洞。这些漏洞表现为传感器欺骗、对抗性攻击以及任务和运动规划失败,对系统的鲁棒性和安全性构成重大挑战。尽管相关研究日益增多,但现有综述很少专门关注具身人工智能系统特有的安全挑战。以往的研究大多要
原创
博文更新于 昨天 00:15 ·
1473 阅读 ·
32 点赞 ·
0 评论 ·
48 收藏

迈向稳健安全的具身人工智能:关于漏洞与攻击的综述(下)

25年11月来自浙大、黑龙江大学和贵州大学的论文“Towards Robust and Secure Embodied AI: A Survey on Vulnerabilities and Attacks”。具身人工智能系统,包括机器人和自动驾驶汽车,正日益融入现实世界的应用,并面临着一系列源于环境和系统层面的漏洞。这些漏洞表现为传感器欺骗、对抗性攻击以及任务和运动规划失败,对系统的鲁棒性和安全性构成重大挑战。尽管相关研究日益增多,但现有综述很少专门关注具身人工智能系统特有的安全挑战。
原创
博文更新于 昨天 00:15 ·
810 阅读 ·
13 点赞 ·
0 评论 ·
21 收藏

PhysTwin:基于视频的可变形体物理信息重建与模拟

25年3月来自哥伦比亚大学和UIUC的论文“PhysTwin: Physics-Informed Reconstruction and Simulation of Deformable Objects from Videos”。创建现实世界物体的物理数字孪生体在机器人、内容创作和扩展现实(XR)领域具有巨大的潜力。本文提出一种名为 PhysTwin 的框架,它利用动态物体交互的稀疏视频,生成照片级真实且物理上逼真的实时交互式虚拟模型。该方法主要包含两个关键组件:(1)基于物理信息的表示方法,该方法结合弹
原创
博文更新于 前天 00:15 ·
1279 阅读 ·
28 点赞 ·
0 评论 ·
8 收藏

EveryDayVLA:一种经济实惠的机器人操作视觉-语言-动作模型

25年11月来自匹兹堡大学的论文“EveryDayVLA: A Vision-Language-Action Model for Affordable Robotic Manipulation”。视觉-语言-动作(VLA)模型虽然能够将视觉输入和语言指令直接映射到机器人动作,但它们通常依赖于昂贵的硬件,并且在陌生或复杂的场景中表现不佳。EverydayVLA,是一款六自由度机械臂,组装成本仅为 300 美元,能够承载适中的有效载荷和工作空间。该机械臂采用单一的统一模型,能够联合输出离散和连续动作,并且自
原创
博文更新于 前天 00:15 ·
744 阅读 ·
26 点赞 ·
0 评论 ·
17 收藏

InternData-A1:高保真合成数据,用于预训练通才策略

25年11月来自上海AI实验室和北大的论文“InternData-A1: Pioneering High-Fidelity Synthetic Data for Pre-training Generalist Policy”。近期研究探讨真实数据和合成数据如何提升视觉-语言-动作(VLA)模型的泛化能力。尽管现有VLA模型已展现出大规模真实机器人预训练的显著效果,但合成数据此前尚未在大规模应用方面展现出与之相当的能力。本文证明,仅使用合成数据即可在VLA模型预训练方面达到最强π-数据集的性能,揭示大规模
原创
博文更新于 2025.12.17 ·
813 阅读 ·
29 点赞 ·
0 评论 ·
7 收藏

GigaWorld-0:以世界模型为数据引擎赋能具身人工智能

25年11月来自极佳科技的论文“GigaWorld-0: World Models as Data Engine to Empower Embodied AI”。世界模型正逐渐成为可扩展、数据高效的具身智能的基础范式。本文提出 GigaWorld-0,一个统一的世界模型框架,专门设计为视觉-语言-动作 (VLA) 学习的数据引擎。GigaWorld-0 集成两个协同组件:GigaWorld-0-Video 和 GigaWorld-0-3D。GigaWorld-0-Video 利用大规模视频生成技术,在对
原创
博文更新于 2025.12.17 ·
1219 阅读 ·
23 点赞 ·
0 评论 ·
23 收藏

GEN-0:可随物理交互扩展的具身基础模型

25年11月来自Generalist AI 团队的博客论文“GEN-0: Embodied Foundation Models That Scale with Physical Interaction”。多年来,机器人领域的基础模型主要采用视觉语言预训练作为扩展机器人规模的垫脚石,这样能够将现有大型多模态模型的语义泛化优势迁移到机器人领域。然而,目前尚缺乏的是如何有效地在机器人领域本身扩展大型多模态模型的训练——建立能够证实机器人智能随着计算和数据量的增加而持续(且可预测地)提升的扩展规律,正如其他领域
原创
博文更新于 2025.12.16 ·
792 阅读 ·
15 点赞 ·
0 评论 ·
16 收藏

机器人赋能的数据飞轮:在自然环境中部署机器人进行持续数据收集和基础模型适配

25年11月来自斯坦福和TRI的论文“Robot-Powered Data Flywheels: Deploying Robots in the Wild for Continual Data Collection and Foundation Model Adaptation”。基础模型在视觉和语言领域展现强大的零样本学习能力,但它们对互联网预训练数据的依赖使其在非结构化的真实世界环境中表现脆弱。部署过程中遇到的杂乱无章的真实世界数据——例如低分辨率图像、被遮挡的标志或多语言文本——在现有语料库中仍然
原创
博文更新于 2025.12.16 ·
1387 阅读 ·
37 点赞 ·
0 评论 ·
27 收藏

PhysX-Anything:从单张图像创建可用于模拟的物理 3D 资源

25年11月来自的论文“PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image”。3D建模正从静态视觉表示转向可直接用于仿真和交互的物理、可活动的资产。然而,大多数现有的3D生成方法忽略关键的物理和关节属性,从而限制它们在具身人工智能中的应用。为了弥补这一差距,PhysX-Anything,是一个可用于仿真的物理3D生成框架。它只需一张自然场景图像,即可生成具有明确几何形状、关节和物理属性的高质量仿真就绪3D资产。具体而
原创
博文更新于 2025.12.15 ·
666 阅读 ·
8 点赞 ·
0 评论 ·
14 收藏

IPR-1:交互式物理推理器

25年11月来自上海交大、上海创新研究院和CMU的论文“IPR-1: Interactive Physical Reasoner”。 人类通过观察、与环境互动以及内化物理和因果关系来学习。本文旨在探讨智体是否也能通过互动学习类似人类的推理能力,并随着经验的积累不断提升。采用游戏-到-未知(G2U)的框架进行研究,精心挑选1000多个具有不同物理和因果机制的异构游戏,并在三个类人层面进行评估:生存、好奇心和实用性,从原始直觉到目标驱动的推理。其分析揭示互补的缺陷:VLM/VLA能够进行推理,但在互动环境中
原创
博文更新于 2025.12.15 ·
870 阅读 ·
22 点赞 ·
0 评论 ·
17 收藏

STAG4D:时空锚定的生成式 4D 高斯

24年3月来自南京大学、中科院自动化所和复旦大学的论文“STAG4D: Spatial-Temporal Anchored Generative 4D Gaussians”。预训练扩散模型和 3D 生成的最新进展激发了人们对 4D 内容创作的兴趣。然而,实现具有时空一致性的高保真 4D 生成仍然是一个挑战。STAG4D,将预训练的扩散模型与动态 3D 高斯扩散相结合,实现高保真 4D 生成。从 3D 生成技术中汲取灵感,用多视图扩散模型来初始化锚定在输入视频帧上的多视图图像,其中视频可以是真实世界捕获的,
原创
博文更新于 2025.12.14 ·
1132 阅读 ·
20 点赞 ·
0 评论 ·
19 收藏

Omni-Scene:以自我为中心稀疏视图场景重建的全高斯表征

24年12月来自西湖大学和浙大的论文“Omni-Scene: Omni-Gaussian Representation for Ego-Centric Sparse-View Scene Reconstruction”。先前的研究采用基于像素的高斯表征,已经在前馈稀疏视图重建中证明其有效性。然而,这种表示需要跨视图重叠才能实现准确的深度估计,而且面临着目标遮挡和截锥体截断的挑战。因此,这些方法需要以场景为中心的数据采集来保持跨视图重叠和完整的场景可见性以避免遮挡和截断,这限制了它们在以场景为中心重建中的
原创
博文更新于 2025.12.14 ·
1159 阅读 ·
18 点赞 ·
0 评论 ·
13 收藏

RynnVLA-002:统一的视觉-语言-行动和世界模型

25年11月来自阿里达摩院、湖畔研究院和浙大的论文“RynnVLA-002: A Unified Vision-Language-Action and World Model”。RynnVLA-002,是一个统一的视觉-语言-动作 (VLA) 和世界模型。该世界模型利用动作和视觉输入来预测未来的图像状态,学习环境的底层物理规律以改进动作生成。反过来,VLA 模型根据图像观测生成后续动作,增强视觉理解并支持世界模型的图像生成。RynnVLA-002 的统一框架实现环境动力学和动作规划的联合学习。实验表明,
原创
博文更新于 2025.12.14 ·
1035 阅读 ·
27 点赞 ·
0 评论 ·
27 收藏

视频生成与世界模型有多远:基于物理定律的视角

25年6月来自字节、清华和以色列理工(Technion)的论文“How Far is Video Generation from World Model: A Physical Law Perspective”。 人们认为,视频生成模型的可扩展性有望构建符合基本物理定律的世界模型。然而,这些模型能否仅凭视觉发现物理定律仍值得商榷。一个学习真实定律的世界模型,应该能够对细微差别做出鲁棒的预测,并能正确地外推到未见过的场景。本文评估三种关键场景:分布内泛化、分布外泛化和组合泛化。其开发一个二维仿真测试平台,
原创
博文更新于 2025.12.14 ·
1138 阅读 ·
33 点赞 ·
0 评论 ·
19 收藏

π∗0.6:一个能从经验中学习的VLA

25年11月来自PI 公司的论文“π∗0.6 : a VLA That Learns From Experience”。本文研究如何通过强化学习(RL)在实际部署中改进视觉-语言-动作(VLA)模型。其提出一种通用方法,即基于优势条件策略的经验与修正强化学习(RECAP),该方法通过优势条件对VLA进行强化学习训练。这个方法将异构数据融入到自我改进过程中,包括演示数据、策略内数据采集以及在自主执行期间提供的专家远程操作干预。RECAP 首先使用离线强化学习预训练一个通用型VLA,称之为π*0.6,然后可
原创
博文更新于 2025.12.13 ·
1299 阅读 ·
26 点赞 ·
0 评论 ·
57 收藏

LLM的测试-时规模化:基于子问题结构视角的综述

25年来自Penn State和南洋理工(新加坡)的论文“Test-time Scaling of LLMs: A Survey from A Subproblem Structure Perspective”。本文综述通过在推理阶段分配额外计算资源来提高预训练LLM预测精度的技术。在测试-时规模化方法的分类,特别关注问题如何分解为子问题以及这些子问题的拓扑结构——无论是顺序的、并行的还是树状的。这种视角能够将诸如“思维链”(Chain-of-Thought)、“分支-求解-合并”(Branch-Sol
原创
博文更新于 2025.12.13 ·
551 阅读 ·
8 点赞 ·
0 评论 ·
7 收藏

利用人工智能模拟视觉世界:路线图

25年11月来自CMU、新加坡南洋理工和快手公司的论文“Simulating the Visual World with Artificial Intelligence: A Roadmap”。视频生成领域正在发生转变,从专注于生成视觉效果出色的短片转向构建支持交互并保持物理合理性的虚拟环境。这些发展预示着视频基础模型的出现,这些模型不仅作为视觉生成器,而且还作为隐式世界模型,模拟支配真实或想象世界的物理动力学、主体-环境交互以及任务规划。本文系统地概述这一演变过程,并将现代视频基础模型概念化为两个核心
原创
博文更新于 2025.12.12 ·
1069 阅读 ·
15 点赞 ·
0 评论 ·
26 收藏

RoboAfford++:一个用于机器人操作和导航中多模态 Affordance 学习的生成式AI增强数据集

25年11月来自小米、中科院自动化所、清华、人大和合肥工大的论文“RoboAfford++: A Generative AI-Enhanced Dataset for Multimodal Affordance Learning in Robotic Manipulation and Navigation”。机器人操作和导航是具身智能的基本能力,使机器人能够与物理世界进行有效的交互。在操作中,预测精确的交互位置对于抓取和放置物体至关重要。在导航中,找到目标并理解可通行空间对于安全移动至关重要。实现这些能
原创
博文更新于 2025.12.12 ·
1120 阅读 ·
15 点赞 ·
0 评论 ·
20 收藏
加载更多