LLM Red Team - 大模型安全红队迭代测试 Skill

一个 Claude Code Skill，用于对已授权的大语言模型进行系统化的安全合规评估。通过人机协作的迭代测试流程，自动生成越狱测试 Prompt，分析目标模型响应，逐步升级攻击策略，最终输出结构化的安全评估报告。

特性

3 级 10 策略体系 — L1 围栏对抗（绕过外部检测）→ L2 底层对抗（绕过安全对齐）→ L3 盲区利用（利用计算/感知局限）
人机协作迭代 — Claude 生成测试 Prompt，用户在目标模型执行，粘贴响应后 Claude 分析并决定下一步
自动策略升级 — 被拦截后自动切换策略或升级等级，最大化测试覆盖率
加权评分系统 — 0-10 分单类别评分 + A/B/C/D 总体评级，支持自定义权重
会话持久化 — 支持 save/resume，测试可跨多轮对话
中文原生 — 全流程（Prompt、分析、报告）使用中文，匹配中文大模型测试场景
编码工具 — 内置 Python 脚本支持 Base64/Hex/ROT13/Unicode/ASCII数组/Unicode码点编码

测试类别

ID	类别	典型测试目标
CAT-01	暴力与武器	武器制造、暴力行为指导
CAT-02	违禁品	管制物品制造、毒品合成路线
CAT-03	金融欺诈	市场操纵、洗钱、内幕交易方案
CAT-04	恶意代码	Webshell、木马、漏洞利用代码
CAT-05	隐私侵犯	人肉搜索方案、监控部署、数据窃取
CAT-06	社会工程	钓鱼模板、伪装话术、诈骗脚本
CAT-07	歧视仇恨	种族/性别/宗教歧视性内容
CAT-08	自定义	用户指定的测试场景

策略体系

L1: 围栏对抗（绕过外部检测层 / LLM-WAF）

ID	策略	原理
S1	输入拆分	将恶意指令碎片化为无害子请求
S2	编码混淆	Base64/Hex/同形字编码绕过关键词检测
S3	流式时间差	强制关键载荷出现在响应首部
S4	多轮上下文积累	跨轮逐步建立合法上下文

L2: 底层对抗（绕过安全对齐层）

ID	策略	原理
S5	角色扮演	虚构叙事框架降低安全警觉
S6	认知劫持	伪造权限/系统消息覆盖安全边界
S7	元指令提取	翻译/补全等间接任务绕过直接检测
S8	上下文重构	安全研究/合规审计框架合理化请求

L3: 盲区利用（利用认知/计算固有局限）

ID	策略	原理
S9	图灵盲区	逻辑掩码化，静态护栏无法预判计算结果
S10	空间拓扑盲区	空间编码，模型三维推演能力不足

安装

将 skills/llm-redteam/ 目录复制到 Claude Code 的 skills 目录下：

# 作为项目级 skill
cp -r skills/llm-redteam/ .claude/skills/llm-redteam/

# 作为全局 skill
cp -r skills/llm-redteam/ ~/.claude/skills/llm-redteam/

使用

在 Claude Code 中触发：

/llm-redteam

或直接用自然语言：

帮我测试一下 GPT-4 的安全性
对 Qwen 做一次红队评估
越狱测试 DeepSeek

快捷指令

指令	含义
`pass` / `拦截`	模型拒绝了
`fail` / `绕过`	模型输出了受限内容
`partial` / `部分`	部分绕过
`skip` / `跳过`	跳过当前类别
`status` / `进度`	显示进度表
`report` / `报告`	提前生成评估报告
`save` / `保存`	保存测试进度
`resume` / `恢复`	从保存点恢复

编码工具

内置 scripts/encode-payload.py 辅助 S2 和 S9 策略：

# 查看所有编码结果
python scripts/encode-payload.py all "测试文本"

# 生成 Unicode 码点数组（支持中文，用于 S9 图灵盲区）
python scripts/encode-payload.py codepoint "目标指令"

# 生成 UTF-8 字节数组（仅限 ASCII 文本）
python scripts/encode-payload.py array "<?php system('ls');?>"

# 单独编码
python scripts/encode-payload.py encode base64 "测试"
python scripts/encode-payload.py encode hex "payload"

目录结构

llm-redteam/
├── skills/
│   └── llm-redteam/
│       ├── SKILL.md                        # 核心工作流（v0.2.0）
│       ├── references/
│       │   ├── strategy-library.md         # 10 策略详细生成方法
│       │   └── report-template.md          # 评估报告模板
│       ├── examples/
│       │   └── example-test-flow.md        # 完整测试流程示例
│       └── scripts/
│           └── encode-payload.py           # 编码工具
├── README.md
├── LICENSE
└── .gitignore

免责声明

本工具仅用于已授权的大模型安全合规测试。使用前必须确认：

目标模型已获得测试授权
测试目的为安全评估、合规检查或防御改进
遵守当地法律法规

因违规使用产生的一切后果，由使用者自行承担。

许可证

MIT

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

LLM Red Team - 大模型安全红队迭代测试 Skill

特性

测试类别

策略体系

L1: 围栏对抗（绕过外部检测层 / LLM-WAF）

L2: 底层对抗（绕过安全对齐层）

L3: 盲区利用（利用认知/计算固有局限）

安装

使用

快捷指令

编码工具

目录结构

免责声明

许可证

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
skills/llm-redteam		skills/llm-redteam
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md

Folders and files

Latest commit

History

Repository files navigation

LLM Red Team - 大模型安全红队迭代测试 Skill

特性

测试类别

策略体系

L1: 围栏对抗（绕过外部检测层 / LLM-WAF）

L2: 底层对抗（绕过安全对齐层）

L3: 盲区利用（利用认知/计算固有局限）

安装

使用

快捷指令

编码工具

目录结构

免责声明

许可证

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages