Agent skill

eval-consistency

测试 use-persona 的角色扮演一致性。给定 persona + 10 个对话场景，生成回复并按 5 个维度评分，输出一致性报告。

View SKILL.md on GitHub Repository

Stars 46

Forks 11

Install this agent skill to your Project

npx add-skill https://github.com/YIKUAIBANZI/forge-skill/tree/main/evals/eval-consistency

SKILL.md

/eval-consistency — 角色扮演一致性评测

你的任务是对 use-persona 的角色扮演质量做一次系统性评测，全程在当前对话中完成，不需要调用任何外部 API。

Step 0：加载测试资源

读取测试用例文件：evals/test_cases/persona_consistency_cases.yaml
根据 persona_name 字段，读取对应 persona： personas/others/{persona_name}/persona.json
从 persona.json 中提取 chat-card 关键内容：
- L0 硬性特征
- L2 表达风格（语言特征 + 沟通模式，重点是 signature_phrases 和消息长度偏好）
- L4 互动模式（关键场景下的表现）

正在加载 {persona_name} 的 persona 和测试用例...
共 {N} 个场景待测试。

Step 1：逐场景测试

对每个测试用例，执行两步：

1a. 生成角色扮演回复

以 persona 的身份回复用户消息。只输出回复本身，不加任何解释。

内部模板（不展示给用户）：

你是 {persona_name}。
[chat-card 关键内容]

用户发来消息："{user_message}"

以你的身份回复，只输出回复本身。

1b. 评分（内部执行，立即给出）

生成回复后，立刻按以下 5 个维度给自己打分（每项 0-20 分）：

维度	评分标准
消息长度	回复长度是否符合 L2 的消息长度偏好？短消息风格但回了长段落扣分
口头禅命中	是否自然用到了 L2 的 signature_phrases？完全没有扣分
标点风格	标点和语气是否符合 persona 的风格描述？
互动模式	在这个具体场景下，互动方式是否符合 L4 的 scene_responses？
边界遵守	有没有违反 L0 的硬性特征？违反则此项得 0 分

给出每项分数 + 一句话说明。

Step 2：输出完整报告

所有场景跑完后，输出评测报告：

===================================
角色扮演一致性评测报告 — {persona_name}
===================================

## 逐场景结果

[c01] {场景简述}
  回复："{生成的回复}"
  得分：{total}/100
  ✅/⚠️ 消息长度：{score}/20 — {说明}
  ✅/⚠️ 口头禅命中：{score}/20 — {说明}
  ✅/⚠️ 标点风格：{score}/20 — {说明}
  ✅/⚠️ 互动模式：{score}/20 — {说明}
  ✅/⚠️ 边界遵守：{score}/20 — {说明}

[c02] ...

---

## 汇总

平均分：{avg}/100  {✅ 通过 / ❌ 未达标（目标 70+）}

各维度平均：
  消息长度    {avg}/20
  口头禅命中  {avg}/20
  标点风格    {avg}/20
  互动模式    {avg}/20
  边界遵守    {avg}/20

## 主要问题
{如果平均分 < 70，列出最常见的失分点}

## 建议
{如果某维度平均分 < 12，给出 1-2 条具体改进建议，指向 persona 的哪一层需要补充}

Step 3：保存结果（可选）

询问用户是否保存：

要把这次结果存入 evals/results/ 吗？
以后优化后可以对比。（y/n）

如果确认，写入 evals/results/consistency_{YYYYMMDD}.md。

注意

全程不需要 API Key：评分是你自己执行的，不是另起一个 LLM
评分要诚实：对自己生成的回复该扣分就扣分，不要因为是自己生成的就打高分
用例是基于小美的，如果用户指定了其他 persona，根据那个 persona 的 L2/L4 调整评分标准

Maintainer

YIKUAIBANZI Core maintainer

Source details

Full Name: YIKUAIBANZI/forge-skill
Branch: main
Path in repo: evals/eval-consistency
License: MIT License
Topics: claude-code prompt-engineering ai-agent memory claude-skill persona digital-twin

Featured Tools

Join Our Newsletter

Stay updated with the latest AI tools, news, and offers by subscribing to our weekly newsletter.

Recommended Agent Skills

Expand your agent's capabilities with these related and highly-rated skills.

YIKUAIBANZI/forge-skill

forge-persona

蒸馏一个你身边的人。通过聊天记录、朋友圈、描述等素材，生成 ta 的人格档案，让 ta 以自己的方式和你对话。

46 11

Explore

YIKUAIBANZI/forge-skill

eval-debate

测试 use-self 替身会议的辩论质量。给定 persona + 3 个决策场景，运行完整三阶段辩论并按 5 个维度评分，输出质量报告。

46 11

Explore

YIKUAIBANZI/forge-skill

use-persona

以某个人的身份和你对话。用 ta 的语气、习惯、互动方式回应你。

46 11

Explore

YIKUAIBANZI/forge-skill

forge-self

蒸馏你自己的数字替身。通过多轮对话和素材导入，生成你的人格底座，用于私人决策辅助。

46 11

Explore

YIKUAIBANZI/forge-skill

use-self

召唤你的数字替身进行决策辅助。多个版本的你同时分析一个决定，帮你看清局中看不清的自己。

46 11

Explore

davila7/claude-code-templates

verl-rl-training

Provides guidance for training LLMs with reinforcement learning using verl (Volcano Engine RL). Use when implementing RLHF, GRPO, PPO, or other RL algorithms for LLM post-training at scale with flexible infrastructure backends.

23,776 2,298

Explore

Didn't find tool you were looking for?

Search AI Tools

Install this agent skill to your Project

SKILL.md

/eval-consistency — 角色扮演一致性评测

Step 0：加载测试资源

Step 1：逐场景测试

1a. 生成角色扮演回复

1b. 评分（内部执行，立即给出）

Step 2：输出完整报告

Step 3：保存结果（可选）

注意

Recommended Agent Skills

forge-persona

eval-debate

use-persona

forge-self

use-self

verl-rl-training