v3 在 v2 基础上整合了 Frank 分享的 5 篇最新 AI 论文(2026 年 6 月 arxiv)的方法论。核心启发:AI 进化已从追求参数规模转向优化工作方式。v1-v2 我们一直在卷"更快的 AI Cut",v3 要从"工具箱思维 + 答案组合 + 事前信心 + 睡眠范式 + LEAP 框架"五个维度重塑 Loop 的工作方式。
4 步法:收集 100+ 成功案例 → 拆解核心动作 → AI 分类合并 → 创建可调用工具。NBA 规则判断 30% → 74%,团队任务分配 38% → 68%。
→ Loop 改造:从历史出单案例中提炼"出单工具箱"引入"评委委员会",AI 目标是生成"答案组合"让每个评委都满意,而非找单一最优解。
→ Loop 改造:AI Cut + 人工混剪 + Vidu 并行,让每个平台/账号匹配不同方案每个生成环节加信心评分,低于阈值时输出"我不知道"。比事后审查更完整流畅。
→ Loop 改造:Agent 决策时设"安全出口"——"我不知道" → 触发 Frank 拍板两阶段:① 记忆巩固(短期 → 长期,不覆盖旧知识)② 做梦(生成训练数据自我训练)。打破"训练/使用"割裂。
→ Loop 改造:白天"清醒期"跑业务,夜间"沉淀期"做数据蒸馏 + 自我出题训练LLM 做"总设计师"画蓝图,专门工具做"泥瓦匠"验证。普特南数学竞赛 12/12,IMO 难题 10% → 70%。
→ Loop 改造:Qwen-Max 做规划/决策,专业工具(ai-drama/ai-publish/ai-cut)做执行5 篇论文的共同点:AI 进化从"追求更强基础能力"转向"更智慧的工作方式"。未来不是模型的竞赛,而是框架和工作流的竞赛。这跟 AI Loop 改造的 LangGraph 选型方向完全一致——LangGraph 就是"框架/工作流"层面的工具。
当前 Loop 没有"出单工具箱"——历史上成功出单的 100+ 案例没有被系统地拆解、分类、工具化。每次新 run 都要 LLM 重新推理"怎么选剧 / 怎么剪 / 怎么发",正确步骤无法沉淀。
这正是论文 1 诊断的"现有大模型的核心问题":解决复杂问题每次从零开始,正确的思考步骤无法留存。
直接后果:出单靠运气不靠方法论,无法规模化复制。v1/v2 的"出单路径"如果不解决工具箱问题,本质上还是在"试错"——这与 6 月底必须出单的硬指标冲突。
v1 的 6 周路径聚焦"AI Cut 优化 + 单变量实验",v2 加了"产品化 + 战略 + 组织",但都没触及"工作方式革命"。5 篇论文的共同启示是:AI 能力的天花板不是模型规模,是工作流设计。
具体表现:
• 选剧靠 LLM 临时推理,没有从 100+ 成功出单案例中提炼"选剧 SOP 工具"
• 剪辑只跑 AI Cut 一种方法,不接受"答案组合"(论文 2 ROSA)
• Agent 决策失败时不会说"我不知道",要么硬编要么放弃(论文 3 缺失"安全出口")
• 24h 都在"清醒跑业务",没有夜间"沉淀期"做记忆巩固(论文 4 缺失)
• LLM 一肩挑所有事,没用"总设计师 + 泥瓦匠"分层(论文 5 LEAP 缺失)
v3 根本转变:从"换更好的工具"(v1/v2)→ 到"重新设计工作流"(v3)。工具没变、模型没变、人没变,但工作流重新设计后,效率可能提升 2-5 倍——这正是 5 篇论文反复验证的核心结论(NBA 74%、IMO 70% 都是"工作流变革"而非"模型升级")。
工具箱规模:可复用的出单 SOP 工具数(论文 1)。当前 0,目标 D30 ≥ 30,D60 ≥ 100。
工作流效率:从感知到行动到反馈的循环时间。v1/v2 是"天"为单位,v3 目标"小时"为单位(论文 4 睡眠范式 + 论文 3 事前信心)。
现状:Loop 选剧/剪辑/发布决策靠 LLM 临时推理,正确步骤无法沉淀。
v3 改造:
• D1-D7:从 BI 系统 1 万个公共主页 + 6/3 会议数据中筛 100+ 成功出单案例
• 第 2-4 周:拆解 → 分类合并 → 工具化(每案例 1 个"出单 SOP 工具")
• D30 目标:工具箱 ≥ 30 个工具;D60 目标:≥ 100 个
• 效果对标:参考论文 1 数据,目标单账号出单率从 0.7% 提到 5%(类比 NBA 30% → 74%)
toolbox 命名空间,每个新出的"出单 SOP"都包成一个 tool。新 run 直接选 tool 调用,不再靠 LLM 推理。
现状:v1/v2 假设"找到最好的剪辑手法"——但平台/账号/地区偏好不同,没有"最好",只有"组合"。
v3 改造:
• 多评委:每个 run 配 3 个偏好不同的"评委"——FB 算法、TikTok 算法、Instagram 算法(或代理模型)
• 多方案:AI Cut / 人工混剪 / Vidu 同时跑(不是只跑一个)
• 目标:每个评委都能在"方案组合"中找到符合自己偏好的答案
• 效果对标:参考论文 2 ROSA 框架,避免"标准答案陷阱"导致的所有平台一刀切
ros_dispatch 节点,输入 1 部剧 + 1 个目标账号,输出 N 个剪辑方案(每个针对不同平台偏好),按比例分发给对应账号。
现状:Agent 决策信心不足时,要么硬编一个答案(幻觉),要么完全放弃——两种都很糟糕。
v3 改造:
• 事前信心评分:每个 Agent 决策节点加 confidence_score(0-1)
• "我不知道"安全出口:当 confidence < 0.6 时,不输出硬编结果,而是返回 {status: "uncertain", reason: "..."},触发 Frank 拍板
• 三层信心机制:
① 高信心(≥0.8):自动执行
② 中信心(0.6-0.8):执行但飞书告警
③ 低信心(<0.6):不执行,触发 Frank 拍板
confidence 字段 + uncertain_reason。LangGraph interrupt 机制:confidence < 0.6 → 暂停等 Frank。
现状:Loop 24h 都在"清醒跑业务",没有时间做记忆巩固和自我训练。
v3 改造:
• 清醒期(D1-D60 全部白天):按 v1/v2 跑业务,每 run 写 history.jsonl + 向量记忆
• 沉淀期(每天 02:00-06:00):
① 记忆巩固:把当日 100+ 出单案例的"成功思考步骤"蒸馏成"工具库更新"
② 做梦训练:基于"今天最爆的 5 部剧"生成定制化训练数据,自我出题(出单 vs 不出单的特征差异),跑自我训练
③ 不覆盖旧知识:沉淀期必须做知识蒸馏(论文 4 关键),不能"学了新的忘了旧的"
toolbox_consolidate 节点:① 读当日 history.jsonl ② 蒸馏出新 SOP 工具 ③ 写入 pgvector 工具库 ④ 触发"做梦训练"job。
现状:LLM 一肩挑所有事——既做选剧决策,又做剪辑决策,又做发布决策,又做数据回流。出错时整个流程崩。
v3 改造:
• 总设计师(Qwen-Max):做规划、决策、异常处理
• 泥瓦匠(专门工具):每个环节一个专门 tool,按 LEAP 框架四步工作流
① 画蓝图:LLM 把"今天跑 10 账号 50 视频"拆成可独立执行的子任务
② 分包:子任务分发到专门 tool(ai-drama 选剧、ai-publish 发布、ai-cut-animation 剪辑)
③ 迭代验证:每个 tool 执行结果回灌 LLM,由 LLM 判断是否调整蓝图
④ 复盘:每 run 完成后 LLM 复盘"蓝图哪里走错" → 沉淀为新 SOP 工具
• 效果对标:参考论文 5 LEAP 框架,正确率从 ~10% 提到 70%
blueprint_node → dispatch_node(Send 并发)→ verify_node → retrospect_node。
清醒期 = 跑业务 沉淀期 = 学习 → 双向闭环
| 维度 | v2 | v3(5 篇论文) |
|---|---|---|
| 工具集来源 | 硬编码 SKILL.md(3000+ 行) | 从历史成功案例蒸馏的"出单工具箱"(M1) |
| 方案选择 | 单方案(只跑 AI Cut) | 多方案组合 ROSA(M2) |
| Agent 决策错误 | 硬编或放弃 | 事前信心 + "我不知道"安全出口(M3) |
| 学习节奏 | 24h 清醒跑业务 | 清醒期 + 沉淀期交替(M4) |
| LLM 角色 | 一肩挑所有事 | 总设计师 + 泥瓦匠分层(M5 LEAP) |
M1 是 v3 的核心,但 100+ 案例拆解需要 1-2 人投入 2-3 周。是否要立刻开始 vs 等 6 月底先冲单?
M3 的事前信心机制会触发 Frank 拍板。初期可能 30% 决策都触发(因为工具箱没建好),后期降到 5%。
M4 每天 4 小时需要稳定运行的 GPU/推理资源,可能要付额外的云成本。Qwen-Plus × 4h × 30 天 ≈ ¥X 万/月。
5 个方法论全部落地需要 Phase 1-3 共 6 周,6 月底硬指标压力下可能来不及。
| 章节 | v2 | v3 变更 |
|---|---|---|
| §0 | — | 新增"灵感来源"——5 篇论文 + Loop 改造映射 |
| §1 现状 | 4 完成 + 4 卡点 | + 1 个新卡点"工具箱规模 0" |
| §2 根因 | R1-R6 | + R7 工作方式问题(卷 AI 能力 vs 卷工作流) |
| §3 公式 | 4 变量 | + 工具箱规模 + 工作流效率 2 个新维度 |
| 新增 §6 | — | 工作流革命 5 个新方法论(M1-M5)的具体落地 |
| §5 6 周路径 | 4 阶段 + 标准动作 | 每阶段加 5 个新方法论的具体动作(M1-M5 标记) |
| §12 产品化 | 4 主节点 + 内外双层 | 升级为清醒期 + 沉淀期双轨架构(论文 4 范式) |
| 新增 §16 | — | v3 关键决策点 4 个(D1 工具箱优先级 / D2 拍板频率 / D3 沉淀期成本 / D4 MVP 范围) |
| 整体定位 | 出单 = 跑通 + 优化 | 出单 = 工作流革命(M1-M5)+ 跑通 + 优化 |