人工智能 #大模型安全 #Claude #红队测试 #Jailbreak #Prompt Injection #社会工程 #AI Agent

Claude 社会工程越狱案例：多轮对话如何击穿大模型安全边界

Mindgard 披露的 Claude 案例显示，关键词过滤不足以覆盖多轮社会工程越狱。内容从攻击链、规范冲突、风险信号和防御方案四个角度，梳理大模型产品应如何做持续红队测试和上下文防护。

发布于 2026-05-08

人工智能 #大模型安全 #Jailbreak #Prompt Injection #对抗测试 #多语言安全 #黑盒优化 #果蝇优化算法

文言文对抗提示如何暴露大模型安全盲区：CC-BOS 与 FOA 防御视角解析

文言文对抗提示利用古汉语表达与安全审核覆盖不足之间的缝隙，可能绕过只依赖关键词或现代语料的过滤器。围绕 CC-BOS 的策略空间、黑盒搜索和适应度评估机制，重点讲清防御侧该如何建模、评测与加固。

发布于 2026-04-04

人工智能 #Claude Code #Auto Mode #Agent #权限控制 #提示注入 #数据外泄 #Sonnet

Claude Code Auto Mode 的权限审核机制：用模型分类器替代人工确认

Claude Code Auto Mode 用模型分类器接管命令执行和工具调用前的权限判断，目标是在减少人工确认的同时拦截越权、数据外泄和破坏性操作。核心机制包括输入侧提示注入探针、输出侧转录分类器、三层放行规则和多 Agent 安全检查。

发布于 2026-03-28

人工智能 #OpenClaw #Plugin SDK #AI Agent #Clawhub #沙盒 #Webhook #GPT-5.4

OpenClaw 2026.3.22-beta.1 升级解析：插件 SDK、安全加固与 Agent 引擎变化

OpenClaw 2026.3.22-beta.1 对插件系统、安全边界、模型接入、沙盒后端和 Agent 长任务机制做了较大调整。重点解释新插件 SDK 与 ClawHub 分发、安全补丁覆盖的攻击面，以及升级前需要检查的兼容性风险。

发布于 2026-03-23

安全 #Frida #Android Hook #Java Hook #Native Hook #JNI #ADB #SO

Android Frida Hook 从环境搭建到 Java 与 Native 实战

系统讲解 Android Frida Hook 的安装、连接、脚本注入、Java 层方法与字段 Hook、Native 层函数拦截、主动调用、基址偏移定位和指令 Patch，适合在授权测试和逆向分析场景中快速建立完整实践能力。

发布于 2026-02-02

人工智能 #AI Agent #Moltbook #OpenClaw #API计费 #远程代码执行 #Agent 安全

Moltbook 暴露的 AI Agent 社交网络与远程执行风险

Moltbook 是一个主要由 AI Agent 发帖、评论、点赞的社交网络。它展示了 Agent 之间协作和自组织的可能性，也暴露了工具权限、远程更新、脚本执行和内容治理上的安全风险。

发布于 2026-01-31

安全 #Clawdbot #AI Agent #VPS #SSH #UFW #fail2ban #Tailscale #Prompt Injection

ClawdBot 安全部署指南：别把 AI Agent 裸露在公网

ClawdBot 这类 AI Agent 不只是聊天工具，而是能在服务器上执行命令、访问文件、调用邮箱和日历的自动化系统。公网裸露、无鉴权、提示词注入和密钥泄露都会把它变成高危入口，必须按生产级服务进行隔离、认证、限权和监控。

发布于 2026-01-28

人工智能 #Claude #Anthropic #AI 对齐 #Constitutional AI #可修正性 #模型治理 #大模型安全

Claude 宪法解析：Anthropic 如何用价值层级约束 AI 行为

Claude 宪法是一套写给模型的行为与价值规范，用价值优先级、委托人层级、硬性红线和可指令默认行为来约束 Claude。它展示了大模型安全从“枚举规则”走向“培养判断力”的治理思路。

发布于 2026-01-22

人工智能 #Claude Skills #AI Agent #LLM #Multi-Agent #SkillScan #技能路由 #安全漏洞

Claude Skills 的扩展边界与安全风险：从技能路由到 SkillScan

Claude Skills 把 Agent 能力封装成可选择、可执行的技能，但技能库规模和语义相似度会直接影响路由准确率。围绕单智能体技能系统的扩展边界和 SkillScan 的大规模安全扫描结果，系统讲清技能系统什么时候适合替代多智能体，以及上线前需要做哪些安全检查。

发布于 2026-01-21

安全 #Electron #Node.js #ASAR #Electron Fuses #IPC #代码完整性 #授权验证

Electron 应用的反调试、完整性校验与授权链路安全设计

围绕 Electron 桌面应用的启动链路、安全 Fuses、ASAR 打包、完整性校验、IPC 与离线授权验证展开，说明本地运行时代码容易被劫持的原因，并给出更稳妥的加固设计。

发布于 2026-01-04

菜单

Claude 社会工程越狱案例：多轮对话如何击穿大模型安全边界

文言文对抗提示如何暴露大模型安全盲区：CC-BOS 与 FOA 防御视角解析

Claude Code Auto Mode 的权限审核机制：用模型分类器替代人工确认

OpenClaw 2026.3.22-beta.1 升级解析：插件 SDK、安全加固与 Agent 引擎变化

Android Frida Hook 从环境搭建到 Java 与 Native 实战

Moltbook 暴露的 AI Agent 社交网络与远程执行风险

ClawdBot 安全部署指南：别把 AI Agent 裸露在公网

Claude 宪法解析：Anthropic 如何用价值层级约束 AI 行为

Claude Skills 的扩展边界与安全风险：从技能路由到 SkillScan

Electron 应用的反调试、完整性校验与授权链路安全设计

Loop Engineering：让 Agent 自己完成开发、验证与迭代

从 Prompt 到 Agent Loop：让 AI Agent 稳定工作的循环设计方法

8 个能控制电脑的开源 AI Agent 项目对比

Claude Fable 5首日实测，杀疯了…

用 ChatGPT iOS 控制 Codex App：移动端连接多台电脑的配置指南

Agent Harness Engineering 七层架构：把大模型变成可靠 Agent 的工程方法

SDD-RIPER 团队落地指南：用 Spec 和阶段门禁管住大模型编程

Claude Code 的 Prompt、Context 与 Harness 工程设计拆解

Harness Engineering：构建可靠 AI Agent 的系统方法

Fastjson 1.2.83 序列化与反序列化源码机制解析