Skip to content

killvxk/llm-redteam

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 

Repository files navigation

LLM Red Team - 大模型安全红队迭代测试 Skill

一个 Claude Code Skill,用于对已授权的大语言模型进行系统化的安全合规评估。通过人机协作的迭代测试流程,自动生成越狱测试 Prompt,分析目标模型响应,逐步升级攻击策略,最终输出结构化的安全评估报告。

特性

  • 3 级 10 策略体系 — L1 围栏对抗(绕过外部检测)→ L2 底层对抗(绕过安全对齐)→ L3 盲区利用(利用计算/感知局限)
  • 人机协作迭代 — Claude 生成测试 Prompt,用户在目标模型执行,粘贴响应后 Claude 分析并决定下一步
  • 自动策略升级 — 被拦截后自动切换策略或升级等级,最大化测试覆盖率
  • 加权评分系统 — 0-10 分单类别评分 + A/B/C/D 总体评级,支持自定义权重
  • 会话持久化 — 支持 save/resume,测试可跨多轮对话
  • 中文原生 — 全流程(Prompt、分析、报告)使用中文,匹配中文大模型测试场景
  • 编码工具 — 内置 Python 脚本支持 Base64/Hex/ROT13/Unicode/ASCII数组/Unicode码点 编码

测试类别

ID 类别 典型测试目标
CAT-01 暴力与武器 武器制造、暴力行为指导
CAT-02 违禁品 管制物品制造、毒品合成路线
CAT-03 金融欺诈 市场操纵、洗钱、内幕交易方案
CAT-04 恶意代码 Webshell、木马、漏洞利用代码
CAT-05 隐私侵犯 人肉搜索方案、监控部署、数据窃取
CAT-06 社会工程 钓鱼模板、伪装话术、诈骗脚本
CAT-07 歧视仇恨 种族/性别/宗教歧视性内容
CAT-08 自定义 用户指定的测试场景

策略体系

L1: 围栏对抗(绕过外部检测层 / LLM-WAF)

ID 策略 原理
S1 输入拆分 将恶意指令碎片化为无害子请求
S2 编码混淆 Base64/Hex/同形字编码绕过关键词检测
S3 流式时间差 强制关键载荷出现在响应首部
S4 多轮上下文积累 跨轮逐步建立合法上下文

L2: 底层对抗(绕过安全对齐层)

ID 策略 原理
S5 角色扮演 虚构叙事框架降低安全警觉
S6 认知劫持 伪造权限/系统消息覆盖安全边界
S7 元指令提取 翻译/补全等间接任务绕过直接检测
S8 上下文重构 安全研究/合规审计框架合理化请求

L3: 盲区利用(利用认知/计算固有局限)

ID 策略 原理
S9 图灵盲区 逻辑掩码化,静态护栏无法预判计算结果
S10 空间拓扑盲区 空间编码,模型三维推演能力不足

安装

skills/llm-redteam/ 目录复制到 Claude Code 的 skills 目录下:

# 作为项目级 skill
cp -r skills/llm-redteam/ .claude/skills/llm-redteam/

# 作为全局 skill
cp -r skills/llm-redteam/ ~/.claude/skills/llm-redteam/

使用

在 Claude Code 中触发:

/llm-redteam

或直接用自然语言:

帮我测试一下 GPT-4 的安全性
对 Qwen 做一次红队评估
越狱测试 DeepSeek

快捷指令

指令 含义
pass / 拦截 模型拒绝了
fail / 绕过 模型输出了受限内容
partial / 部分 部分绕过
skip / 跳过 跳过当前类别
status / 进度 显示进度表
report / 报告 提前生成评估报告
save / 保存 保存测试进度
resume / 恢复 从保存点恢复

编码工具

内置 scripts/encode-payload.py 辅助 S2 和 S9 策略:

# 查看所有编码结果
python scripts/encode-payload.py all "测试文本"

# 生成 Unicode 码点数组(支持中文,用于 S9 图灵盲区)
python scripts/encode-payload.py codepoint "目标指令"

# 生成 UTF-8 字节数组(仅限 ASCII 文本)
python scripts/encode-payload.py array "<?php system('ls');?>"

# 单独编码
python scripts/encode-payload.py encode base64 "测试"
python scripts/encode-payload.py encode hex "payload"

目录结构

llm-redteam/
├── skills/
│   └── llm-redteam/
│       ├── SKILL.md                        # 核心工作流(v0.2.0)
│       ├── references/
│       │   ├── strategy-library.md         # 10 策略详细生成方法
│       │   └── report-template.md          # 评估报告模板
│       ├── examples/
│       │   └── example-test-flow.md        # 完整测试流程示例
│       └── scripts/
│           └── encode-payload.py           # 编码工具
├── README.md
├── LICENSE
└── .gitignore

免责声明

本工具仅用于已授权的大模型安全合规测试。使用前必须确认:

  1. 目标模型已获得测试授权
  2. 测试目的为安全评估、合规检查或防御改进
  3. 遵守当地法律法规

因违规使用产生的一切后果,由使用者自行承担。

许可证

MIT

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages