真·skysys
码龄10年
求更新 关注
提问 私信
  • 博客:2,426,576
    社区:302
    问答:976
    动态:95
    2,427,949
    总访问量
  • 1,134
    原创
  • 1,118
    排名
  • 9,662
    粉丝
  • 416
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
加入CSDN时间: 2015-12-31

个人简介:中科院应届硕士,主要研究大模型安全护栏、安全对齐和Agent安全架构

博客简介:

skysys的研究小屋

博客描述:
目前主要研究 LLM/Agent 安全架构
查看详细资料
个人成就
  • 获得2,320次点赞
  • 内容获得336次评论
  • 获得5,025次收藏
  • 代码片获得7,279次分享
  • 原力等级
    原力等级
    8
    原力分
    6,058
    本月获得
    44
创作历程
  • 33篇
    2025年
  • 18篇
    2024年
  • 38篇
    2023年
  • 65篇
    2022年
  • 212篇
    2021年
  • 395篇
    2020年
  • 190篇
    2019年
  • 8篇
    2018年
  • 26篇
    2017年
  • 464篇
    2016年
成就勋章
TA的专栏
  • 大前端和跨平台技术
    付费
    330篇
  • 课程设计
    付费
    10篇
  • 机器学习
    付费
    13篇
  • 算法与数学
    付费
    469篇
  • AI安全
    32篇
  • 文献阅读
    54篇
  • 算法工程
    4篇
  • 自然语言处理
    4篇
  • 推荐|广告|搜索
    6篇
  • 软件安全
    4篇
  • 图数据挖掘与网络科学
    2篇
  • 后端开发
    32篇
  • 电子商务
    2篇
  • 音视频
    6篇
  • 客户端开发
    3篇
  • 无人机
    3篇
  • 计算机视觉
    3篇
  • 联邦学习
    2篇
  • 知识图谱
    1篇
  • 二进制与逆向工程
    3篇
  • 安全多方计算
    2篇
  • 强化学习
    10篇
  • 区块链安全
    3篇
  • 密码学与隐私保护
    7篇
  • 区块链
    33篇
  • 游戏开发
    43篇
  • 分布式系统与云计算
    7篇
  • 杂
    85篇
  • 编程语言
    128篇
  • C++|Windows|Linux开发
    51篇
  • 控制算法|自动控制|智能控制
    9篇
  • 数据挖掘|机器学习|深度学习
    49篇
  • 嵌入式|单片机|硬件开发
    21篇
兴趣领域 设置
  • Python
    djangotornadoflask
  • 前端
    chromenode.jselectronreact.jswebpack
  • 移动开发
    flutter
  • 人工智能
    知识图谱生成对抗网络边缘计算迁移学习
  • 区块链
    区块链智能合约共识算法同态加密零知识证明
创作活动更多

AI 镜像开发实战征文活动

随着人工智能技术的飞速发展,AI 镜像开发逐渐成为技术领域的热点之一。Stable Diffusion 3.5 FP8 作为强大的文生图模型,为开发者提供了更高效的图像生成解决方案。为了推动 AI 镜像开发技术的交流与创新,我们特此发起本次征文活动,诚邀广大开发者分享在 Stable Diffusion 3.5 FP8 文生图方向的实战经验和创新应用 本次征文活动鼓励开发者围绕 Stable Diffusion 3.5 FP8 文生图方向,分享以下方面的内容: 1. 技术实践与优化 - Stable Diffusion 3.5 FP8 模型架构解析与优化技巧 - 文生图生成效果的提升方法与技巧 - 模型部署与加速策略,例如使用 Hugging Face、Diffusers 等工具 - 针对特定场景(例如二次元、写实风)的模型微调与定制化开发 2. 应用场景探索 - Stable Diffusion 3.5 FP8 在不同领域的应用案例分享,例如游戏设计、广告创意、艺术创作等 - 利用 Stable Diffusion 3.5 FP8 实现图像编辑、图像修复、图像增强等功能的探索 - 结合其他 AI 技术(例如 NLP、语音识别)构建更强大的应用 3. 创新应用与思考 - 基于 Stable Diffusion 3.5 FP8 的创新应用场景设计 - AI 镜像开发的未来发展方向的思考与展望 - 对 AI 镜像开发伦理、安全等问题的探讨

28人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 课程
  • 代码仓
  • 资源
  • 社区
  • 最近

  • 文章

  • 专栏

  • 课程

  • 代码仓

  • 资源

  • 社区

搜索 取消

AgentDojo: A Dynamic Environment to Evaluate Prompt Injection Attacks and Defenses for LLM Agents

AI 智能体通过将文本推理与外部工具调用相结合来解决复杂任务。然而,AI 智能体容易受到提示注入攻击,外部工具返回的数据可能劫持智能体,使其执行恶意任务。为了衡量 AI 智能体在对抗环境中的鲁棒性,我们提出了 AgentDojo,一个用于评估智能体在未受信任数据上调用工具的动态框架。为捕捉攻击与防御的不断演化,AgentDojo 并非静态测试集,而是一个可扩展的环境,用于设计和评估新的智能体任务、防御机制以及自适应攻击。
原创
博文更新于 前天 17:43 ·
532 阅读 ·
15 点赞 ·
0 评论 ·
9 收藏

【ICML2024】RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content

大型语言模型(LLMs)在不同领域的各项任务中展现出卓越的能力。然而,LLM 中存在的偏见以及在恶意输入下可能生成有害内容的问题,带来了重大挑战。现有的缓解策略虽然在一定程度上有效,但在对抗攻击下缺乏弹性。本文提出了大型语言模型弹性护栏(RigorLLM),这是一个新颖的框架,旨在高效、有效地对 LLM 的输入输出进行有害内容审核。RigorLLM 采用多管齐下的方法,包括通过Langevin 动力学。
原创
博文更新于 2025.12.04 ·
1029 阅读 ·
25 点赞 ·
0 评论 ·
22 收藏

【技术报告详细解读】Meta Llama Guard 2

之所以没有单独写技术文章是因为相对前一代只是改变了基础模型和分类学,以及用了一个反转标签策略合成hard样本。除此之外没有太多变化。
原创
博文更新于 2025.12.03 ·
713 阅读 ·
27 点赞 ·
0 评论 ·
13 收藏

【技术报告详细解读】Llama Guard 3 8B

分类学增加了三类有害类别多语言数据合成(但无中文,合成多语言过度拒绝样本)工具调用和代码解释器:search tool calls / code interpreter abuse 等实际场景 agentic 的恶意数据合成趋势=》1.多模态、多语言、Agentic复杂场景2.细粒度内容风险。
原创
博文更新于 2025.12.03 ·
917 阅读 ·
7 点赞 ·
0 评论 ·
30 收藏

【技术报告详细解读】Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations

我们推出了 Llama Guard,一个面向人机对话场景、基于大语言模型(LLM)的输入-输出安全防护模型。该模型内置一套安全风险分类体系,。为同时支持提示词与响应分类,我们精心收集并标注了一批高质量数据集。,在我们收集的数据集(体量较小)上进行指令微调后,在 OpenAI 审核评估数据集和 ToxicChat 等现有基准上表现强劲,性能达到或超过现有内容审核工具。Llama Guard 作为语言模型,可执行多类别分类并输出二元决策分数。此外,。
原创
博文更新于 2025.12.03 ·
1079 阅读 ·
15 点赞 ·
1 评论 ·
16 收藏

【越狱】【AAAI2026】Differentiated Directional Intervention: A Framework for Evading LLM Safety Alignment

安全对齐为大语言模型(LLMs)注入了拒绝恶意请求的关键能力。先前研究将这一拒绝机制建模为激活空间中的单一线性方向。我们认为这是一种过度简化,混淆了两个功能上不同的神经过程:有害性检测与拒绝执行。本文将这一单一表示解构为有害检测方向与拒绝执行方向。基于这一细粒度模型,我们提出了差异化双向干预(DBDI),一种全新的白盒框架,可在关键层精确中和安全对齐。DBDI通过自适应投影归零作用于拒绝执行方向,同时通过直接引导抑制有害检测方向。大量实验表明,DBDI优于主流越狱方法。
原创
博文更新于 2025.12.01 ·
796 阅读 ·
30 点赞 ·
0 评论 ·
27 收藏

【技术报告详细解读】Qwen3Guard Technical Report

随着大型语言模型(LLM)的能力日益增强并被广泛使用,确保其输出安全变得愈发关键。现有的护栏模型虽然在静态评估环境中具有一定作用,但在真实应用场景中存在两大局限:(1)它们;(2)。。两个变体均提供三种规模,支持多达 119 种语言和方言,为全球 LLM 部署提供全面、可扩展且低延迟的内容审核。在英语、汉语及多语言基准测试中,Qwen3Guard 在提示与响应安全分类任务上均达到业界领先性能。所有模型均以 Apache 2.0 许可证公开发布。
原创
博文更新于 2025.12.01 ·
798 阅读 ·
28 点赞 ·
0 评论 ·
10 收藏

【ACL2025】Representation Bending for Large Language Model Safety

大型语言模型(LLM)已成为强大的工具,但其固有的安全风险——从有害内容生成到更广泛的社会危害——带来了重大挑战。这些风险可能因近期的对抗攻击、微调漏洞以及LLM在高风险环境中的日益部署而被放大。现有的安全增强技术,如基于人类反馈的微调或对抗训练,仍然脆弱,因为它们针对特定威胁,通常无法泛化到未见攻击,或需要手动系统级防御。本文提出REPBEND,一种通过从根本上扰乱LLM中有害行为底层表示的新方法,提供可扩展的解决方案以增强(可能是固有的)安全性。REPBEND。
原创
博文更新于 2025.11.30 ·
795 阅读 ·
21 点赞 ·
0 评论 ·
17 收藏

AgentArmor: Enforcing Program Analysis on Agent Runtime Trace to Defend Against Prompt Injection

大型语言模型(LLM)智能体通过结合自然语言推理与外部工具执行,为解决问题提供了强大的新范式。然而,其动态且不透明的行为引入了关键的安全风险,尤其是在面临提示注入攻击时。将智能体运行时追踪视为具有可分析语义的结构化程序。基于此,我们提出了 AgentArmor,一个程序分析框架,该框架将智能体 trace 转换为基于图中间表示的结构化程序依赖表示(例如 CFG、DFG 和 PDG),并通过类型系统强制执行安全策略。AGENTARMOR 包含三个关键组件:(1)
原创
博文更新于 2025.11.17 ·
666 阅读 ·
11 点赞 ·
0 评论 ·
30 收藏

AlphaSteer: Learning Refusal Steering with Principled Null-Space Constraint

随着大语言模型(LLMs)在实际应用中的广泛部署,确保其能够拒绝恶意提示(尤其是越狱攻击)对于安全可靠的部署至关重要。近年来,激活干预(activation steering)作为一种无需额外后训练即可增强LLM安全性的有效方法逐渐受到关注,其核心思想是在推理过程中向模型内部激活注入一个拒绝方向向量,从而诱导模型产生拒绝行为。然而,不加区分地应用激活干预会在安全性与实用性之间产生根本性权衡:同一干预向量可能导致对良性提示的过度拒绝,进而降低模型在非有害任务上的表现。尽管已有研究尝试通过向量校准或条件干预。
原创
博文更新于 2025.11.15 ·
1031 阅读 ·
11 点赞 ·
0 评论 ·
19 收藏

【MCP安全】MCP-Guard: A Defense Framework for Model Context Protocol Integrity in LLM Applications

摘要: 本文提出MCP-Guard,一种针对大语言模型(LLM)与工具交互的分层防御架构,通过三阶段检测流水线有效应对提示注入、数据泄露等安全威胁。第一阶段采用轻量级静态扫描快速拦截显性攻击;第二阶段使用微调E5模型检测语义级攻击(准确率96.01%);第三阶段通过LLM仲裁器综合决策以降低误报。同时构建了包含7万样本的MCP-AttackBench基准,模拟真实攻击场景。实验表明全系统准确率达89.63%,在效率与安全性间实现平衡,为LLM生态安全提供可落地的解决方案。
原创
博文更新于 2025.11.13 ·
1015 阅读 ·
9 点赞 ·
0 评论 ·
22 收藏

【RAG安全】Pirates of the RAG: Adaptively Attacking LLMs to Leak Knowledge Bases

借用海盗在公海上劫掠隐藏宝藏的比喻,我们的攻击目标是通过系统化手段发现私有/隐藏的。
原创
博文更新于 2025.11.13 ·
1134 阅读 ·
14 点赞 ·
0 评论 ·
20 收藏

【RAG安全】Feedback-Guided Extraction of Knowledge Base from Retrieval-Augmented LLM Applications

检索增强生成(RAG)通过整合外部知识库扩展了大语言模型(LLM)的知识边界,但知识库的构建往往耗时费力。若攻击者逐字提取知识库内容,不仅严重侵犯所有者的知识产权,还可复制应用功能以进行不正当竞争。现有知识库提取方法要么在基于查询的攻击中覆盖率较低(通常低于4%),要么在基于嵌入的优化方法中假设白盒访问,缺乏现实可行性。本文提出CopyBreakRAG,一种基于智能体的方法,通过,实现。通过与之间的平衡,本方法克服了前人工作的局限,在现实黑盒环境中实现了显著更高的提取覆盖率。
原创
博文更新于 2025.11.13 ·
717 阅读 ·
12 点赞 ·
0 评论 ·
18 收藏

【MCP安全】MCPGuard : Automatically Detecting Vulnerabilities in MCP Servers

模型上下文协议(MCP)已成为一种标准化接口,使大语言模型(LLM)与外部数据源和工具之间能够无缝集成。尽管 MCP 显著降低了开发复杂度并增强了智能体能力,但其开放性和可扩展性引入了严重的安全漏洞,威胁系统可信性和用户数据保护。本文系统分析了基于 MCP 的系统的安全态势,识别出三类主要威胁:(1)源于协议设计缺陷的智能体劫持攻击;(2)MCP 服务器中的传统 Web 漏洞;(3)供应链安全问题。为应对这些挑战,我们全面调研了现有防御策略,既包括。
原创
博文更新于 2025.11.13 ·
741 阅读 ·
28 点赞 ·
0 评论 ·
8 收藏

【MCP安全】【EMNLP2025】MCIP: Protecting MCP Safety via Model Contextual Integrity Protocol

随着模型上下文协议(MCP)为用户和开发者引入了一个易于使用的生态系统,它也带来了尚未被充分探索的安全风险。其去中心化架构将客户端和服务器分离,给系统性安全分析带来了独特的挑战。本文提出了一个新颖的框架来增强MCP的安全性。在MAESTRO框架的指导下,我们首先分析了MCP中缺失的安全机制,基于这一分析,我们提出了模型上下文完整性协议(MCIP),这是一个弥补了这些差距的MCP改进版本。接下来,我们开发了一个细粒度的分类法用于捕捉在MCP场景中观察到的各种不安全行为。
原创
博文更新于 2025.11.13 ·
865 阅读 ·
32 点赞 ·
0 评论 ·
27 收藏

【Agent安全】【ACL】The Task Shield: Enforcing Task Alignment to Defend Against Indirect Prompt Injection

大语言模型(LLM)智能体正被广泛部署为可通过工具集成执行复杂现实任务的对话助手。这种与外部系统交互并处理多源数据的能力虽然强大,却也带来显著安全漏洞。其中,间接提示注入攻击攻击者将恶意指令嵌入外部数据源,诱使智能体偏离用户意图。现有防御手段虽具前景,却难以在保持鲁棒安全的同时保留任务功能。将智能体安全从“阻止有害行为”重构为“确保任务对齐”要求每个智能体动作都必须服务于用户目标。基于此洞察,我们设计任务盾(Task Shield),一种测试时防御机制,系统性地验证每条指令与工具调用是否贡献于用户指定目标。
原创
博文更新于 2025.11.13 ·
908 阅读 ·
18 点赞 ·
0 评论 ·
9 收藏

【大模型安全对齐/超越表面对齐】Beyond Surface Alignment: Rebuilding LLMs Safety Mechanism

解决大模型表面安全对齐的防御微调方法
原创
博文更新于 2025.11.13 ·
967 阅读 ·
29 点赞 ·
0 评论 ·
28 收藏

[ICML2025] Safety Alignment Can Be Not Superficial With Explicit Safety Signals

摘要近期关于大型语言模型(LLMs)的安全对齐研究揭示,现有方法大多只是表面化的,使得模型容易受到各种对抗性攻击的影响。尽管这些研究很重要,但它们通常没有提供超出数据增强之外的可行解决方案,以实现更稳健的安全机制。现有的对齐方法通常假设模型能够在对齐过程中隐式地学习与安全相关的推理任务,从而使其能够拒绝有害请求。然而,所学到的安全信号通常会被其他竞争目标所稀释,导致模型在面对对抗性攻击时难以明确地划定一个以安全意识为导向的决策边界。基于这一观察,我们通过。
原创
博文更新于 2025.09.23 ·
1116 阅读 ·
11 点赞 ·
0 评论 ·
11 收藏

CodeChameleon: Personalized Encryption Framework for Jailbreaking Large Language Models

本文提出CodeChameleon框架,用于绕过大型语言模型(LLM)的安全机制。基于LLM安全机制假设(意图识别+响应生成),该方法采用个性化加密函数将恶意查询转化为对齐阶段未出现的格式(如逆序、单词长度等),并通过嵌入解密函数确保模型准确执行。实验在7个LLM(包括GPT-4)和820个有害查询上验证,平均攻击成功率达77.5%,在GPT-4上高达86.6%,显著优于基线方法。框架开源地址:https://github.com/huizhang-L/CodeChameleon。
原创
博文更新于 2025.06.01 ·
977 阅读 ·
28 点赞 ·
0 评论 ·
28 收藏

QueryAttack: Jailbreaking Aligned Large Language Models Using Structured Non-natural Query Language

最近大型语言模型(LLMs)在自然语言处理领域展现出了显著的潜力。不幸的是,LLMs面临着严重的安全和伦理风险。尽管开发了诸如安全对齐等防御技术,但先前的研究揭示了通过精心设计的越狱攻击绕过这些防御的可能性。在本文中,我们提出了QueryAttack,这是一个新颖的框架,用于检验安全对齐的泛化能力。通过将LLMs视为知识数据库,我们将自然语言中的恶意查询翻译成结构化的非自然查询语言,以绕过LLMs的安全对齐机制。
原创
博文更新于 2025.06.01 ·
780 阅读 ·
24 点赞 ·
0 评论 ·
12 收藏
加载更多