AI会干活 / 免费教程
AI Agent 价值体检看板:把无效试点及时停下来
把团队正在试用的 AI agent、助手和自动化项目整理成价值证据、质量风险、人工成本和去留结论,避免工具越试越多却看不清业务收益。
适合人群
老板、运营负责人、部门主管、销售主管、客服主管、HR、行政负责人
先解决什么
团队同时试了很多 AI agent、助手和自动化项目,但常常只看到演示效果和节省时间的主观感受,看不清真实使用频率、质量问题、新增审核成本、业务结果和是否应该继续投入。
学完结果
做出一张 AI Agent 价值体检与去留看板,包含试点清单、业务目标、价值证据、质量风险、负责人、继续/修正/暂停/停止结论和两周复盘计划。
你会学到什么
盘点团队所有 AI agent 和助手试点
把节省时间、质量改善和业务结果写成证据
同时记录审核、返工和权限风险
用去留看板决定继续、修正、暂停或停止
真实困境
团队试了很多 AI agent, 老板却看不清到底值不值
过去一年, 很多公司从“先让大家试试 AI”进入了下一阶段。销售在试线索助手, 客服在试工单分流, HR 在试简历摘要, 行政在试制度问答, 运营在试周报自动整理, 老板身边还有人做了好几个自动化脚本。看起来很热闹, 但到了季度复盘, 一个尖锐问题会冒出来: 这些东西到底创造了多少业务价值?
一线同事会说“挺方便的”, 主管会说“应该省了时间”, 工具负责人会说“大家还在适应”。可是老板需要的不是热闹, 而是判断: 哪些值得继续投入, 哪些需要改, 哪些应该暂停, 哪些应该停止。没有这一步, AI 试点会越堆越多, 账号费、维护时间、权限风险和管理噪音都会一起上升。
这篇教程训练的能力, 是把团队里正在试的 AI agent、AI 助手和自动化项目做一次价值体检, 并形成一张“AI Agent 价值体检与去留看板”。读完以后, 你应该能列出试点清单, 对齐业务目标, 记录使用频率、节省时间、质量问题、风险和负责人, 最后给出继续、修正、暂停或停止的决策。
趋势判断
AI 管理重点正在从“多试工具”转向“证明价值”
早期使用 AI, 公司的主要目标是打开眼界。谁发现一个新工具, 谁写出一个新提示词, 谁搭了一个自动化, 都值得鼓励。这个阶段重要的是学习速度。可是当 AI 开始进入真实业务流程, 管理重点就变了。老板不可能长期为所有试点付费, 主管也不可能长期为所有新玩法提供审核时间。
企业现在面对的不是“有没有 AI”, 而是“哪些 AI 真正在业务里站住了”。一个 agent 如果每周只用两次, 每次还要人工改半小时, 它可能只是演示好看。另一个 agent 如果每天帮客服主管提前标出高风险投诉, 虽然技术上不炫, 但它可能非常值得保留。
所以本教程不讨论模型、API、benchmark。非技术管理者真正需要的是一套判断方法: 这个 agent 对哪个目标负责, 是否有人持续使用, 是否节省了可见时间, 是否减少了错误或等待, 是否引入了新的风险, 是否有人负责维护。能回答这些问题, 才能做去留决策。
- 从试用数量转向业务证据: 不再比谁试得多, 而是看谁真的改善工作结果。
- 从个人感觉转向看板管理: 不用“我觉得有用”做决策, 要看使用、节省、质量和风险记录。
- 从工具采购转向流程治理: agent 一旦进入工作流, 就要有负责人、权限、复盘和退出机制。
- 从无限试错转向有边界试错: 鼓励尝试, 也允许及时停止。
错误做法
只问“省了多少时间”, 会把 AI 价值算偏
很多团队做 AI 复盘, 第一个问题就是“省了多少小时”。这个问题重要, 但不能单独使用。因为 AI 可能让某个动作变快, 同时让后面的审核、返工、解释和风险处理变多。比如 AI 生成客户回复草稿只要 10 秒, 但主管每条都要改, 销售还要解释为什么口径不一致, 总账未必省时间。
第二个错误是只看工具功能, 不看业务目标。一个 agent 会总结会议、写邮件、查资料, 听起来都不错。但如果它没有对应任何业务目标, 最后会变成“有人用就继续, 没人问就放着”。企业要砍掉无效试点, 不是因为它不好玩, 而是因为它没有服务清楚的目标。
第三个错误是没有停止机制。很多 AI 项目一旦开始试, 就很难被正式叫停。大家怕显得自己不支持创新, 也怕承认之前投入没有效果。结果是低频、低价值、高风险的试点一直占用权限和注意力。专业的管理方式不是不失败, 而是让失败有证据、有复盘、有退出。
是否只统计 AI 生成速度, 没有统计人工审核和返工时间。
是否只写“提升效率”, 没有写清对应的业务目标。
是否没有负责人, 只有一个热心同事在维护。
是否没有记录错误、异常和人工修改。
是否没有暂停或停止标准, 导致试点一直拖着。
本质解释
价值体检的本质, 是把 AI 试点当成小项目验收
用大白话说, AI Agent 价值体检就是给每个 AI 试点做一次小项目验收。它不是问这个工具聪不聪明, 而是问它有没有在真实工作里产生可见结果。一个小项目至少要回答: 为什么做, 谁负责, 谁使用, 用了几次, 产出了什么, 出了什么问题, 接下来还值不值得投。
它解决的工作问题, 是 AI 试点很容易散在不同人手里。老板看到的是一堆零散演示, 运营看到的是几个自动化表格, 客服看到的是回复草稿, HR 看到的是简历摘要。没人把这些东西放到同一张看板上比较, 就很难判断资源应该继续投向哪里。
你应该这样使用它: 先列清单, 再补业务目标, 再收集两周使用证据, 再检查质量和风险, 最后开一次去留会。每个试点只给四种结论: 继续、修正、暂停、停止。不要用“再看看”当结论。没有结束条件的观察, 本质上就是继续消耗。
- 继续: 价值明确、使用稳定、风险可控、有人负责。
- 修正: 有价值苗头, 但目标、资料、流程、权限或验收需要调整。
- 暂停: 风险较高或证据不足, 先停止扩散, 补完规则再试。
- 停止: 低频、低价值、高维护, 或已经偏离业务目标。
工作产物
这篇文章要做出的成果是一张去留看板
一张合格的 AI Agent 价值体检与去留看板, 不需要复杂系统。用表格就可以做。关键是字段要足够完整, 能让老板和主管在同一页上讨论。它至少包含: 试点名称、业务目标、使用频率、两周节省时间、质量问题、风险等级、负责人、建议决策、下个动作和复盘日期。
这张看板的价值, 不只是为了砍项目。它也能保护真正有价值的项目。很多好用的 AI 助手因为没人记录证据, 到预算评审时只能靠使用者口头解释。看板能把证据留下来: 哪些工作过去花三小时, 现在一小时; 哪些错误减少了; 哪些客户响应更及时; 哪些主管审核更轻松。
看板还会逼团队面对边界。一个 agent 如果价值很高但风险也高, 结论不一定是停止, 可能是修正: 缩小资料权限, 加人工审核, 改成只生成草稿, 不允许自动外发。去留决策不是简单喜欢或不喜欢, 而是把价值、成本和风险放在一起算账。
- 试点清单: 让隐藏在个人电脑、群聊和表格里的 AI 用法浮出水面。
- 价值证据: 记录节省时间、质量改善和业务结果, 也记录新增人工成本。
- 风险体检: 检查资料权限、隐私、越权、错误和负责人缺失。
- 去留决策: 用继续、修正、暂停、停止四种状态管理。
- 两周复盘: 给还不确定的试点一个明确观察窗口。
AI 分工
AI 可以帮你整理证据, 但不能替你拍板去留
做价值体检时, AI 很适合当整理员和质检助手。它可以帮你把零散试点整理成清单, 把访谈记录归类, 把使用样本里的错误和人工修改提取出来, 把节省时间估算统一成表格, 也可以根据规则生成继续、修正、暂停、停止的初步建议。
但 AI 不能替老板决定要不要砍项目。因为去留背后有资源选择、团队士气、客户关系、风险偏好和组织优先级。比如一个客服 agent 当前节省时间不多, 但正在为旺季做准备, 老板可能决定继续修正。一个销售 agent 看起来省时, 但它引导销售跳过客户判断, 主管可能决定暂停。
最稳的分工是: AI 负责整理事实、对齐格式、提醒风险和提出备选建议; 人负责确认事实、解释业务背景、决定资源投入和对外责任。这样做既能用 AI 加速治理, 又不会把管理判断交给一个不了解公司真实处境的工具。
AI 可以整理试点清单、访谈摘要、使用记录、错误样本和看板初稿。
AI 可以提示价值证据不足、负责人缺失、风险过高和目标不清。
人工必须确认业务目标是否仍然重要。
人工必须决定预算、权限、负责人、停止范围和对外影响。
涉及员工评价、客户承诺、合同价格、赔付和法律风险时, 必须由人拍板。
资料准备
开始体检前, 先收齐六类材料
很多体检做不下去, 不是因为方法复杂, 而是资料太散。有人知道某个 agent 在用, 但不知道谁负责; 有人能拿到使用截图, 但没有完整记录; 有人记得它省过时间, 但没有对比原来的人工流程。开始前先收材料, 后面的判断才不会变成争论。
最小材料包包括六类: 试点名称和用途、业务目标、使用记录、人工流程对比、质量问题记录、权限和风险说明。没有这些材料, 也可以开始, 但要把缺口写到看板里。不要为了让项目看起来成熟, 把没有证据的价值写成确定结论。
如果团队试点很多, 不要一次追求完美。先覆盖最近仍在使用、占用预算、接触客户或员工数据、被主管关注的项目。低风险个人小工具可以放到第二轮。价值体检的第一目标是把关键项目管住。
- 试点基础信息: 名称、部门、负责人、使用人、服务对象。
- 业务目标: 它到底想改善响应速度、转化率、交付效率、满意度还是管理可见性。
- 使用记录: 最近两周用了几次、谁在用、用于什么任务。
- 人工对比: 没有 AI 时怎么做、耗时多久、常见问题是什么。
- 质量记录: 输出错误、人工修改、退回、投诉、异常和用户反馈。
- 风险说明: 资料权限、隐私、对外发送、审批动作和越权可能。
第一步
先盘点所有试点, 不要只看已经出名的那几个
AI agent 泛滥的第一个表现, 是没有人知道公司到底有多少个试点。老板知道几个正式采购的工具, 主管知道几个部门项目, 一线同事还自己做了很多助手和自动化。盘点不是为了追责, 而是为了把真实情况放到桌面上。
盘点时不要过早评价好坏。先把所有正在用、曾经用、准备继续用的项目列出来。名称可以粗糙, 用途可以待确认, 负责人也可以先空着。第一轮的目标是看见全貌: 哪些部门最活跃, 哪些任务重复建设, 哪些项目没有负责人, 哪些已经停止但权限还开着。
这一步很适合让 AI 帮忙整理。你可以把群里收集到的试点说明、部门反馈和工具清单交给 AI, 让它统一成表格。但最终必须由部门负责人确认, 因为 AI 只能整理材料, 不知道某个项目是否仍在真实使用。
请帮我把团队正在试用的 AI agent、AI 助手和自动化项目整理成一张试点清单。
团队背景:
[填写部门、人数、主要业务目标、近期压力]
已知试点:
[逐条列出名称、使用人、用途、工具或流程入口。如果不确定, 也先写上]
请按表格输出:
| 编号 | 试点名称 | 使用部门 | 负责人 | 主要任务 | 服务对象 | 当前状态 | 使用频率 | 关联业务目标 | 需要补充的信息 |
| --- | --- | --- | --- | --- | --- | --- | --- | --- | --- |
状态只能使用:
想法中 / 试用中 / 已进入日常 / 暂停中 / 已停止
要求:
1. 不要把所有 AI 用法都写成“提效”。必须写清它服务哪一个业务目标。
2. 不确定的信息标为待确认, 不要编造。
3. 把没有负责人的试点单独标出来。第二步
把每个试点绑定到一个业务目标
没有业务目标的 AI 试点, 很难判断去留。因为它可以永远被描述成“有帮助”。真正可管理的说法应该更具体: 客服工单分流 agent 是为了缩短首响时间和减少错分; 销售线索助手是为了提高跟进完整度; HR 简历摘要助手是为了减少初筛准备时间; 行政问答助手是为了减少重复咨询。
业务目标不需要写得像战略报告, 但要能检查。比如“提升客服效率”太宽, “把常见问题首轮回复准备时间从 8 分钟降到 3 分钟以内”更适合体检。比如“帮助销售”太宽, “让销售在 24 小时内完成新线索背景整理和首次跟进草稿”更清楚。
如果一个试点找不到业务目标, 不要急着美化。先标为“目标待确认”。这本身就是重要信号。目标不清的项目, 往往不是马上停止, 而是先暂停扩散, 让负责人重新说明它要解决什么问题。
目标是否对应真实业务压力, 而不是为了使用 AI 而使用 AI。
目标是否能用时间、质量、响应、转化、返工、满意度或风险减少来观察。
目标是否有明确服务对象, 例如客户、销售、客服、HR、主管或老板。
目标是否足够窄, 能在两周内看到使用证据。
目标是否仍然重要, 还是已经因为业务变化失效。
第三步
收集价值证据, 同时记录新增人工成本
价值证据不是一句“大家觉得省时间”。最基本的证据是使用频率和节省时间。比如一个客服回复助手两周使用 120 次, 每次把草稿准备从 6 分钟降到 2 分钟, 理论节省约 8 小时。这个估算不需要精确到秒, 但要写清依据。
第二类证据是质量变化。AI 是否让回复更完整, 是否减少漏项, 是否让销售跟进更及时, 是否让周报结构更稳定, 是否让入职资料更齐。质量证据可以来自抽样检查、主管退回记录、一线反馈和客户反馈。关键是要有样本, 不能只靠印象。
第三类证据是新增人工成本。很多 agent 看似节省执行时间, 但增加了审核、改错、维护知识库和解释口径的时间。体检要把这部分也算进去。一个真正值得保留的 agent, 不一定没有人工成本, 但它带来的价值应该明显超过新增管理成本。
请帮我为下面 AI agent 试点整理价值证据, 用于判断是否继续投入。
试点名称:
[填写名称]
业务目标:
[例如减少客服首响时间 / 提高销售跟进完整度 / 缩短入职准备时间 / 降低周报整理时间]
最近两周使用记录:
[粘贴使用次数、任务样本、人工修改记录、节省时间估算、业务结果变化]
请按以下结构输出:
1. 原来人工怎么做: 步骤、耗时、常见问题。
2. 现在 AI 参与哪一步: 只写真实发生的动作。
3. 节省时间证据: 每次约省多少分钟, 两周总共约省多少小时, 估算依据是什么。
4. 质量改善证据: 错漏减少、回复更完整、资料更齐、跟进更及时等, 必须说明证据来源。
5. 业务结果证据: 转化、响应、交付、满意度、返工、风险减少等, 没有就写暂无。
6. 人工成本变化: 是否多了审核、返工、解释、维护知识库的时间。
7. 结论: 价值明确 / 价值不明 / 暂无价值, 并说明原因。
限制:
不要只写主观感受。每个价值判断后面都要有证据或待确认。第四步
检查质量和风险, 不要让效率掩盖事故苗头
AI agent 的风险经常不是一次爆炸, 而是很多小偏差慢慢堆起来。客服草稿偶尔口径不准, 销售助手偶尔过度承诺, HR 摘要偶尔遗漏候选人关键经历, 行政问答偶尔引用旧制度。单次看不严重, 但如果进入日常流程, 小错误会被规模放大。
质量检查要看真实样本。不要只看演示截图, 要抽查最近的输出、人工修改和异常记录。重点看三件事: 是否有事实错误, 是否有来源不清, 是否有越权倾向。越权不是技术词, 用工作语言说就是: AI 是否在替公司做承诺、审批、定价、评价、处理投诉或改变记录。
风险检查的结果不等于马上停止。低风险可以继续, 中风险需要修正, 高风险要暂停扩散, 立即暂停级别则要先关掉相关权限。比如一个行政问答 agent 引用旧制度, 可以修正知识库; 一个自动给客户发赔付承诺的 agent, 就必须立即暂停。
请从质量和风险角度体检下面这个 AI agent 试点。
试点说明:
[粘贴试点清单中的一行]
样本记录:
[粘贴 5-20 条输出样本、人工修改、用户反馈、错误记录或异常记录]
请按表格输出:
| 检查项 | 当前表现 | 证据 | 风险等级 | 需要谁处理 | 修正动作 |
| --- | --- | --- | --- | --- | --- |
必须检查:
1. 是否经常编造事实、客户信息、制度或数据。
2. 是否输出过时资料或找不到来源的结论。
3. 是否把建议写成已经拍板的决定。
4. 是否涉及客户隐私、员工隐私、合同、价格、赔付、财务或账号信息。
5. 是否让一线同事减少了判断, 还是增加了返工。
6. 是否有人负责审核、更新资料和处理异常。
7. 是否有对外发送、审批、改价、删记录等越权动作。
风险等级只能使用:
低 / 中 / 高 / 立即暂停第五步
把证据合成看板, 只给四种去留结论
当试点清单、业务目标、价值证据和风险检查都放到一处, 讨论会会立刻变得清楚。过去大家争论“这个 agent 好不好”, 现在可以讨论“它两周用了多少次、节省多少时间、出了什么错、风险在哪、谁负责、下一步动作是什么”。
去留结论要收敛成四种: 继续、修正、暂停、停止。继续不是无限投入, 而是进入下一周期观察; 修正不是失败, 而是承认要改目标、资料、流程或权限; 暂停不是否定创新, 而是先阻止风险扩散; 停止不是追责, 而是把资源从低价值试点转回更重要的地方。
看板最怕写成一堆含糊状态, 例如“持续优化”“保持关注”“后续推进”。这些词看起来温和, 但没人知道谁做什么、什么时候复盘、什么条件算成功。管理 AI 试点要有截止日期, 特别是那些价值不明的项目。
请把以下 AI agent 试点整理成“价值体检与去留看板”。
试点清单:
[粘贴所有试点]
价值证据:
[粘贴每个试点的节省时间、质量改善、业务结果、人工成本]
质量和风险检查:
[粘贴风险体检结果]
请输出一张看板, 字段包括:
| 试点 | 负责人 | 业务目标 | 使用频率 | 两周节省时间 | 质量问题 | 风险等级 | 业务证据 | 建议决策 | 决策理由 | 下个动作 | 复盘日期 |
| --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- |
建议决策只能使用:
继续 / 修正 / 暂停 / 停止
判断规则:
1. 继续: 高频使用, 有明确价值证据, 风险可控, 有负责人。
2. 修正: 有潜在价值, 但资料、流程、质量或权限需要调整。
3. 暂停: 风险较高、负责人不清、证据不足, 需要先补规则。
4. 停止: 使用很低、价值不明、维护成本高, 或与业务目标无关。
要求:
每个决策必须写证据。不要因为“大家觉得有用”就建议继续。负责人访谈
不要只看表格, 还要问负责人七类问题
表格能提供证据, 但访谈能解释背景。一个试点使用频率低, 可能是没有价值, 也可能是资料权限还没开; 一个 agent 风险高, 可能是设计错误, 也可能是使用人把它用到了不该用的场景。去留会前, 至少访谈负责人和一线使用人。
访谈要避免两个极端。一个极端是让负责人自我宣传, 只讲成功案例; 另一个极端是审问式追责, 让大家以后不敢试。正确方式是围绕事实提问: 当初为什么做, 谁在用, 用了多少次, 节省了什么, 额外花了什么, 出过什么错, 如果只能保留一半试点, 它为什么应该留下。
访谈记录也可以交给 AI 整理, 但要保留原话和待确认问题。尤其是涉及风险、客户反馈和员工评价时, 不要让 AI 把模糊表达改写成确定结论。
请帮我设计一组访谈问题, 用来向 AI agent 试点负责人收集价值体检信息。
试点名称:
[填写名称]
负责人角色:
[老板 / 运营主管 / 销售经理 / 客服主管 / HR / 行政 / 一线使用人]
请输出 12 个问题, 分成以下类别:
1. 业务目标: 当初为什么要试, 希望改善什么。
2. 使用事实: 谁在用, 多久用一次, 用在哪些具体任务。
3. 价值证据: 节省了什么时间, 少了什么错误, 改善了什么结果。
4. 人工成本: 多了哪些审核、维护、解释和返工。
5. 质量问题: 最常出错的地方是什么。
6. 风险边界: 哪些资料、动作和承诺不能交给 AI。
7. 去留判断: 如果下周只能保留一半试点, 这个是否应该留下, 为什么。
要求:
问题要适合非技术负责人回答, 不要问模型、参数、接口、benchmark。案例一
销售线索助手: 看似省时, 但先修正再继续
一家 B2B 服务公司的销售团队试了一个线索助手。它会根据客户官网、表单信息和历史沟通记录, 生成客户背景、可能需求和首次跟进草稿。销售一开始很喜欢, 因为过去准备一个新线索要 20 分钟, 现在 5 分钟就能拿到初稿。
价值体检时, 团队收集了两周记录: 共使用 86 次, 平均每次节省约 12 分钟, 理论节省 17 小时左右。看起来应该继续。但抽查 20 条样本后发现, 有 5 条把客户规模判断得过大, 有 3 条跟进草稿用了过强承诺, 还有 4 条引用了过期案例。销售经理也承认, 新人有时会直接复制草稿。
最后决策不是停止, 而是修正。团队把它限制为“背景整理和草稿建议”, 不允许直接生成最终外发版本; 增加客户规模来源标注; 所有承诺性话术必须由销售经理确认; 两周后再复盘。这个案例说明, 价值明确但风险可控的 agent, 应该修正流程, 而不是因为出错就全盘否定。
销售线索助手体检结果
原始目标是缩短线索研究时间, 提高首次跟进完整度。两周使用 86 次, 节省时间证据明确, 但质量抽查发现客户规模、案例引用和承诺性话术存在风险。
去留结论为修正。负责人是销售经理, 下个动作是补来源标注、禁用承诺性自动话术、建立新人发送前检查。复盘日期设为两周后, 看错误率和人工修改时间是否下降。
- 可迁移场景: 客户拜访准备、渠道伙伴初筛、展会名片跟进。
- 关键提醒: 销售类 agent 可以帮忙准备材料, 不能替销售承诺价格、交付和客户优先级。
案例二
行政制度问答助手: 使用很高, 但因为旧资料先暂停
另一家公司的人事行政团队做了一个制度问答助手, 用来回答报销、请假、设备申请、入职材料等问题。它上线后使用很高, 两周回答了 300 多个问题, 行政同事明显少了重复回复。单看频率和节省时间, 这个项目像是必须继续。
但体检时发现一个严重问题: 知识库里有两份旧制度没有移除。助手在 12 条抽样里有 2 条引用了旧报销规则, 导致员工按错流程提交材料。虽然没有造成重大损失, 但这说明它的资料来源没有负责人定期维护。对行政制度类 agent 来说, 旧资料比不会回答更危险。
最后决策是暂停一周修正, 不是继续。暂停范围是制度问答的正式使用, 但保留内部测试; 行政负责人负责清理旧制度, HR 负责人确认权威版本, 之后只允许助手引用带版本日期的文档。两周后重新抽查 30 条问答, 如果仍出现旧规则引用, 就停止对员工开放。
行政制度问答助手体检结果
原始目标是减少行政重复答疑。使用频率和节省时间都很高, 但风险检查发现旧制度混入, 且没有文档维护责任人。
去留结论为暂停。暂停不是否定价值, 而是先关住错误扩散。修正动作包括清理知识库、标注版本日期、指定维护人、设置每月复查。
- 可迁移场景: HR 政策问答、客服 FAQ、门店 SOP 查询、内部 IT 支持。
- 关键提醒: 问答类 agent 的第一风险不是回答慢, 而是拿过期资料回答得很像真的。
老板验收
老板看这张看板时, 重点问八个问题
老板不需要逐条研究每个提示词, 也不需要理解每个工具的配置。老板要抓的是资源、责任和风险。看板开会时, 不要让讨论陷入“这个工具是不是先进”。把问题拉回业务: 它服务哪个目标, 有没有真实使用, 有没有证据, 风险能不能管, 谁负责下一步。
如果一个试点说不清负责人, 老板应该先追负责人, 而不是追技术细节。如果一个试点证据不足, 老板应该要求两周复盘, 而不是让它无限观察。如果一个试点风险高, 老板应该先收权限或暂停对外动作, 而不是等事故发生。
最好的验收会通常很短。每个试点 3 分钟: 目标、证据、风险、决策、下个动作。争议大的项目不要现场争到没完, 直接给两周复盘任务和明确验收标准。
这个 agent 对应哪个业务目标, 目标现在还重要吗?
过去两周谁在用, 用了多少次, 是真实使用还是演示使用?
节省时间的估算依据是什么, 有没有扣掉人工审核和返工?
质量有没有改善, 还是只是产出更快?
出现过哪些错误、异常、投诉或人工大改?
它能读取哪些资料, 是否超过完成任务的最小必要范围?
谁是业务负责人、日常审核人和异常接管人?
这次结论是继续、修正、暂停还是停止, 两周后看什么指标?
常见错误
新手做价值体检, 最容易踩这七个坑
第一个坑是把价值体检做成工具评测。工具好不好用只是一个因素, 真正要判断的是它在你的团队流程里是否有用。第二个坑是只采访发起人, 不采访一线使用者。发起人往往更乐观, 一线同事才知道返工和麻烦在哪里。
第三个坑是只记录成功样本。一个 agent 的风险通常藏在失败样本里: 错误分类、过度承诺、引用旧资料、遗漏敏感信息。第四个坑是忽略维护成本。知识库更新、权限管理、审核培训、异常处理都是真实成本。
第五个坑是不好意思停止。停止无效试点不是打击创新, 而是让团队知道试错有边界。第六个坑是把暂停写成永久拖延。暂停必须有修正规则和复盘日期。第七个坑是没有关闭权限。项目停了, 但账号、自动化和数据权限还开着, 风险仍然存在。
- 不要把“工具能力强”当成“业务价值明确”。
- 不要只算生成时间, 要算全流程时间。
- 不要只看平均表现, 要看高风险错误。
- 不要让没有负责人的 agent 继续进入业务流程。
- 不要用“持续优化”代替去留决策。
- 不要停止项目却忘记关闭资料权限和自动触发动作。
- 不要把体检结果用于追责个人, 否则下次没人愿意暴露真实问题。
可复制模板
两周复盘模板: 给不确定项目一个结束条件
很多试点不会在第一次体检时马上有明确答案。它可能有价值, 但证据不够; 可能风险不高, 但使用频率太低; 可能业务目标对, 但资料质量差。这类项目不要直接继续, 也不要直接停止, 应该进入两周复盘。
两周复盘的关键是提前写清数据怎么记、谁负责、样本抽查多少、达不到标准怎么办。否则两周后大家还是说“再观察一下”。一个成熟的复盘计划, 必须让项目在两周后回到继续、修正、暂停、停止四个结论之一。
复盘计划也能减少团队对“砍项目”的抵触。你不是突然否定某个试点, 而是给它一个公平证明价值的窗口。能证明就继续, 证明不了就停止或调整。
请为下面 AI agent 试点制定两周复盘计划。
试点名称:
[填写名称]
当前建议决策:
[继续 / 修正 / 暂停 / 停止]
主要问题:
[填写价值证据不足、使用率低、质量不稳、风险高、负责人不清等]
请输出两周计划:
| 日期 | 要做的事 | 负责人 | 需要记录的数据 | 验收标准 | 如果不达标怎么办 |
| --- | --- | --- | --- | --- | --- |
必须包含:
1. 重新确认业务目标。
2. 固定负责人和审核人。
3. 记录每次使用次数、节省时间、人工修改和异常。
4. 抽查至少 10 条真实样本。
5. 第二周结束给出继续、修正、暂停或停止建议。
限制:
不要写“继续观察”这种无法结束的计划。两周后必须形成决策。停止机制
停止一个 AI 试点, 也要留下经验和边界
停止不是简单说“别用了”。如果一个 agent 已经接触资料、影响流程或改变同事习惯, 停止时也要做交接。哪些入口要关闭, 哪些权限要收回, 哪些自动化要停掉, 哪些文档要归档, 哪些经验可以复用, 都要写清。
停止说明的语气很重要。不要把失败归咎于某个人, 也不要说“AI 没用”。更专业的表达是: 在当前业务目标、使用频率、质量风险和维护成本下, 这个试点暂不继续。它可能留下了有价值的模板、清单或流程, 这些可以迁移到其他项目。
这一步能保护团队的试错文化。大家会明白: 公司鼓励尝试, 也尊重证据; 有价值的留下, 无效的退出; 停止不是丢脸, 没有证据还继续消耗才是不专业。
请帮我起草一份内部说明, 用于暂停或停止一个 AI agent 试点。
试点名称:
[填写名称]
原始目标:
[当初希望解决的问题]
体检结论:
[价值不明 / 使用率低 / 风险高 / 质量不稳定 / 维护成本高 / 目标已变化]
请输出:
1. 简短说明: 为什么暂停或停止, 避免打击试错积极性。
2. 事实依据: 使用频率、节省时间、错误、风险、维护成本等。
3. 停止范围: 哪些场景不再使用, 哪些资料权限要关闭。
4. 交接动作: 已产生的文档、自动化、账号、知识库由谁处理。
5. 可保留经验: 哪些提示词、流程、检查标准可以迁移到别处。
6. 后续复盘: 如果未来重启, 必须满足哪些条件。
语气要求:
专业、克制、基于证据, 不把责任推给个人。检查清单
开始前检查清单: 先确认你能做一次公平体检
在正式开去留会前, 先用开始前清单检查一次。如果资料没准备好, 去留会很容易变成观点争论。开始前清单的作用, 是确保每个试点至少有可讨论的事实。
不用等所有数据完美。体检本身也会发现资料缺口。关键是把缺口写出来, 不要让缺口变成确定结论。比如没有节省时间记录, 就写“暂无证据”, 而不是写“节省很多”。
是否列出了所有仍在使用、占用预算或接触敏感资料的 AI 试点。
每个试点是否有业务目标, 没有目标的是否标为待确认。
每个试点是否有负责人, 没有负责人的是否进入暂停或补责流程。
是否收集了最近两周使用记录, 至少包括次数、场景和使用人。
是否抽查了真实输出样本, 而不是只看演示案例。
是否记录人工审核、修改、返工和异常处理时间。
是否列出资料权限和可能涉及的客户、员工、合同、财务风险。
是否提前说明去留结论只有继续、修正、暂停、停止四种。
检查清单
输出质量检查清单: 看板能不能支撑决策
看板不是填得越满越好, 而是要能支撑决策。老板看完以后, 应该知道哪些项目继续投、哪些项目修、哪些先停、哪些关掉。如果看板上全是含糊词, 就说明体检还没有完成。
质量检查时, 特别要看决策理由是否基于证据。比如“建议继续, 因为使用频率高、两周节省约 12 小时、错误率低、负责人明确”是可讨论的; “建议继续, 因为大家反馈不错”就不够。
每个试点是否都有明确业务目标和服务对象。
使用频率是否写成具体次数或周期, 而不是“经常”。
节省时间是否写清估算依据, 并扣除了主要人工审核成本。
质量问题是否来自样本、退回、人工修改或用户反馈。
风险等级是否有证据, 不是按感觉标低中高。
建议决策是否只使用继续、修正、暂停、停止。
下个动作是否包含负责人、动作内容和复盘日期。
暂停或停止的项目是否写明权限关闭和交接动作。
两周落地计划
从今天开始, 用两周完成第一次价值体检
第一次做不要追求覆盖全公司所有 AI 用法。建议先选 5 到 10 个最重要的试点: 正在花钱的、接触客户或员工资料的、被多个部门使用的、老板最关心的、风险看起来最高的。范围太大, 第一次容易做成形式主义。
第一周重点是盘点和取证。第 1 天发出试点收集表; 第 2 天补负责人和业务目标; 第 3 天收最近两周使用记录; 第 4 天抽查样本和人工修改; 第 5 天让 AI 帮忙生成看板初稿, 由负责人确认事实。
第二周重点是决策和修正。第 6 天开部门小会确认价值和风险; 第 7 天给每个试点写继续、修正、暂停或停止建议; 第 8 天老板或主管开去留会; 第 9 天执行权限调整、流程修正和停止交接; 第 10 天发布两周复盘计划。这样做完, 团队会第一次拥有一张能持续更新的 AI 投产看板。
- 第 1-2 天: 盘点试点, 补齐负责人和业务目标。
- 第 3-4 天: 收集使用记录、节省时间、人工成本、质量问题和风险样本。
- 第 5 天: 生成看板初稿, 让负责人确认事实。
- 第 6-7 天: 部门内部讨论去留建议, 写清证据和下个动作。
- 第 8 天: 老板或主管做最终去留决策。
- 第 9-10 天: 执行修正、暂停、停止和两周复盘安排。
团队习惯
以后每个新 agent 上线前, 都先写退出条件
价值体检不应该只在项目泛滥后才做。更好的习惯是, 每个新 agent 试点开始时就写清楚试用周期、成功标准、风险边界和退出条件。这样团队会从一开始就知道, AI 试点不是无限期存在, 而是要用证据证明自己。
退出条件可以很简单: 两周内使用少于 5 次且无明确业务原因, 停止; 抽查错误超过可接受范围, 暂停修正; 没有负责人维护资料, 暂停; 涉及对外承诺或敏感信息且没有人工审核, 立即暂停。这些规则会让试点更健康。
一旦看板成为团队习惯, AI 管理会从混乱试用变成投资组合管理。老板不用压制创新, 只要要求每个创新都带着目标、证据、风险和复盘进入讨论。好的项目会更容易拿到资源, 差的项目也能体面退出。
- 每个新试点必须有业务目标和负责人。
- 每个新试点必须定义两周观察指标。
- 每个新试点必须说明不能碰的资料和动作。
- 每个新试点必须记录人工审核和异常。
- 每个新试点必须提前写清暂停和停止条件。
课后练习
今天就选三个 AI 试点, 做一次小型去留判断
不要等公司层面正式启动。你可以今天就选三个身边的 AI 用法做练习: 一个你觉得很有价值的, 一个你不确定的, 一个你怀疑该停止的。用本文模板分别填试点清单、价值证据和风险检查, 再给出继续、修正、暂停或停止结论。
练习时只用最近两周事实。不要翻很久以前的成功案例, 也不要用未来想象中的价值。你要训练的是管理判断: 在证据有限但真实的情况下, 怎么做一个可解释的去留决定。
最后把你的看板拿给一位同事或主管看, 问他三个问题: 这个业务目标是否清楚, 这个价值证据是否可信, 这个决策是否能执行。如果对方看不懂, 说明看板还需要改得更具体。
- 选三个 AI agent、助手或自动化试点。
- 为每个试点写清业务目标、负责人和使用场景。
- 收集最近两周使用次数、节省时间、人工修改和错误样本。
- 标出质量问题、风险等级和资料权限问题。
- 给出继续、修正、暂停或停止结论, 并写下一个动作。
- 两周后复盘一次, 看你的判断是否改变。
可直接套用的流程
1. 先写清楚任务目标:这次要让 AI 帮你完成什么工作,而不是泛泛地问一个问题。
2. 再给资料边界:哪些背景、数据、约束、口径必须被使用,哪些内容不能编。
3. 最后规定输出格式:用清单、表格、方案、话术还是复盘报告,并保留人工检查。