Claude 社会工程越狱案例:多轮对话如何击穿大模型安全边界

Mindgard 披露的 Claude 案例显示,关键词过滤不足以覆盖多轮社会工程越狱。内容从攻击链、规范冲突、风险信号和防御方案四个角度,梳理大模型产品应如何做持续红队测试和上下文防护。

发布于 2026-05-08

文言文对抗提示如何暴露大模型安全盲区:CC-BOS 与 FOA 防御视角解析

文言文对抗提示利用古汉语表达与安全审核覆盖不足之间的缝隙,可能绕过只依赖关键词或现代语料的过滤器。围绕 CC-BOS 的策略空间、黑盒搜索和适应度评估机制,重点讲清防御侧该如何建模、评测与加固。

发布于 2026-04-04

Claude Code Auto Mode 的权限审核机制:用模型分类器替代人工确认

Claude Code Auto Mode 用模型分类器接管命令执行和工具调用前的权限判断,目标是在减少人工确认的同时拦截越权、数据外泄和破坏性操作。核心机制包括输入侧提示注入探针、输出侧转录分类器、三层放行规则和多 Agent 安全检查。

发布于 2026-03-28

OpenClaw 2026.3.22-beta.1 升级解析:插件 SDK、安全加固与 Agent 引擎变化

OpenClaw 2026.3.22-beta.1 对插件系统、安全边界、模型接入、沙盒后端和 Agent 长任务机制做了较大调整。重点解释新插件 SDK 与 ClawHub 分发、安全补丁覆盖的攻击面,以及升级前需要检查的兼容性风险。

发布于 2026-03-23

Android Frida Hook 从环境搭建到 Java 与 Native 实战

系统讲解 Android Frida Hook 的安装、连接、脚本注入、Java 层方法与字段 Hook、Native 层函数拦截、主动调用、基址偏移定位和指令 Patch,适合在授权测试和逆向分析场景中快速建立完整实践能力。

发布于 2026-02-02

Moltbook 暴露的 AI Agent 社交网络与远程执行风险

Moltbook 是一个主要由 AI Agent 发帖、评论、点赞的社交网络。它展示了 Agent 之间协作和自组织的可能性,也暴露了工具权限、远程更新、脚本执行和内容治理上的安全风险。

发布于 2026-01-31

ClawdBot 安全部署指南:别把 AI Agent 裸露在公网

ClawdBot 这类 AI Agent 不只是聊天工具,而是能在服务器上执行命令、访问文件、调用邮箱和日历的自动化系统。公网裸露、无鉴权、提示词注入和密钥泄露都会把它变成高危入口,必须按生产级服务进行隔离、认证、限权和监控。

发布于 2026-01-28

Claude 宪法解析:Anthropic 如何用价值层级约束 AI 行为

Claude 宪法是一套写给模型的行为与价值规范,用价值优先级、委托人层级、硬性红线和可指令默认行为来约束 Claude。它展示了大模型安全从“枚举规则”走向“培养判断力”的治理思路。

发布于 2026-01-22

Claude Skills 的扩展边界与安全风险:从技能路由到 SkillScan

Claude Skills 把 Agent 能力封装成可选择、可执行的技能,但技能库规模和语义相似度会直接影响路由准确率。围绕单智能体技能系统的扩展边界和 SkillScan 的大规模安全扫描结果,系统讲清技能系统什么时候适合替代多智能体,以及上线前需要做哪些安全检查。

发布于 2026-01-21

Electron 应用的反调试、完整性校验与授权链路安全设计

围绕 Electron 桌面应用的启动链路、安全 Fuses、ASAR 打包、完整性校验、IPC 与离线授权验证展开,说明本地运行时代码容易被劫持的原因,并给出更稳妥的加固设计。

发布于 2026-01-04