Mindgard 披露的 Claude 案例显示,关键词过滤不足以覆盖多轮社会工程越狱。内容从攻击链、规范冲突、风险信号和防御方案四个角度,梳理大模型产品应如何做持续红队测试和上下文防护。
Hermes Agent 的 Skills 系统让 Agent 能把复杂任务经验沉淀成可复用技能,并在后续使用中自动检索、加载、修正。这里从 Skill 创建、索引缓存、条件激活、渐进式加载、安全扫描和自改进机制几个角度拆解它的核心设计。
文言文对抗提示利用古汉语表达与安全审核覆盖不足之间的缝隙,可能绕过只依赖关键词或现代语料的过滤器。围绕 CC-BOS 的策略空间、黑盒搜索和适应度评估机制,重点讲清防御侧该如何建模、评测与加固。
ClawdBot 这类 AI Agent 不只是聊天工具,而是能在服务器上执行命令、访问文件、调用邮箱和日历的自动化系统。公网裸露、无鉴权、提示词注入和密钥泄露都会把它变成高危入口,必须按生产级服务进行隔离、认证、限权和监控。
LLMLingua 是微软研究院提出的 Prompt 压缩技术,用小模型或专用分类器在请求进入大模型前删掉冗余 token。它适合 RAG、长对话和长文档问答场景,可降低推理成本、减少延迟,并缓解长上下文中的信息丢失问题。