v3 · 2026-06-06 AI Loop · 出单路径 · 工作流革命

从"更快 AI Cut"到"更智慧的工作流"：
5 篇论文启发的出单路径 v3

v3 在 v2 基础上整合了 Frank 分享的 5 篇最新 AI 论文（2026 年 6 月 arxiv）的方法论。核心启发：AI 进化已从追求参数规模转向优化工作方式。v1-v2 我们一直在卷"更快的 AI Cut"，v3 要从"工具箱思维 + 答案组合 + 事前信心 + 睡眠范式 + LEAP 框架"五个维度重塑 Loop 的工作方式。

📌 v3 相对 v2 的核心升级（基于 5 篇论文）

新增 §0 灵感来源：5 篇论文的方法论一句话总结 + 对 Loop 改造的映射
§2 根因新增 R7："工作方式问题"——v1/v2 卷 AI 能力，v3 卷工作流
§3 公式新增维度：工具箱规模 作为新变量（论文 1）
新增 §6 工作流革命：5 个新方法论的具体落地动作
§12 产品化新增："夜间沉淀期"（论文 4）+ "事前信心 + 我不知道"机制（论文 3）
新增 §16 决策点：基于新思路的 4 个新拍板点

00 / 灵感

5 篇论文的方法论与 Loop 改造映射

来源：Get 笔记《五篇最新 AI 论文深度解析》

从智能体过往痕迹归纳推理基本功

Inducing Reasoning Primitives from Agent Traces

4 步法：收集 100+ 成功案例 → 拆解核心动作 → AI 分类合并 → 创建可调用工具。NBA 规则判断 30% → 74%，团队任务分配 38% → 68%。

→ Loop 改造：从历史出单案例中提炼"出单工具箱"

基于奖励不确定性的 AI 多样性训练（ROSA）

Using Reward Uncertainty to Induce Diverse Behaviour in RL

引入"评委委员会"，AI 目标是生成"答案组合"让每个评委都满意，而非找单一最优解。

→ Loop 改造：AI Cut + 人工混剪 + Vidu 并行，让每个平台/账号匹配不同方案

基于事前信心引导的 AI 幻觉抑制

Conformal Language Modeling via Posterior Sampling

每个生成环节加信心评分，低于阈值时输出"我不知道"。比事后审查更完整流畅。

→ Loop 改造：Agent 决策时设"安全出口"——"我不知道" → 触发 Frank 拍板

AI 睡眠范式实现持续终身学习

Language Models Need Sleep: Learning to Self-Modify and Consolidate Memories

两阶段：① 记忆巩固（短期 → 长期，不覆盖旧知识）② 做梦（生成训练数据自我训练）。打破"训练/使用"割裂。

→ Loop 改造：白天"清醒期"跑业务，夜间"沉淀期"做数据蒸馏 + 自我出题训练

LEAP 框架结合大模型与形式化验证

LEAP: Supercharging LLMs for Formal Mathematics with Agentic Frameworks

LLM 做"总设计师"画蓝图，专门工具做"泥瓦匠"验证。普特南数学竞赛 12/12，IMO 难题 10% → 70%。

→ Loop 改造：Qwen-Max 做规划/决策，专业工具（ai-drama/ai-publish/ai-cut）做执行

5 篇论文的共同点：AI 进化从"追求更强基础能力"转向"更智慧的工作方式"。未来不是模型的竞赛，而是框架和工作流的竞赛。这跟 AI Loop 改造的 LangGraph 选型方向完全一致——LangGraph 就是"框架/工作流"层面的工具。

01 / 现状

v3 现状：加 1 个新卡点

v2 全部 + "工具箱规模 0"

v3 新增的卡点：工具箱规模 0

当前 Loop 没有"出单工具箱"——历史上成功出单的 100+ 案例没有被系统地拆解、分类、工具化。每次新 run 都要 LLM 重新推理"怎么选剧 / 怎么剪 / 怎么发"，正确步骤无法沉淀。

这正是论文 1 诊断的"现有大模型的核心问题"：解决复杂问题每次从零开始，正确的思考步骤无法留存。

直接后果：出单靠运气不靠方法论，无法规模化复制。v1/v2 的"出单路径"如果不解决工具箱问题，本质上还是在"试错"——这与 6 月底必须出单的硬指标冲突。

02 / 根因

v3 根因：R7 工作方式问题（v3 新增）

v2 的 R1-R6 全部保留 + 新增

R7 · 工作方式问题 [v3 新增]

一直在卷"更快的 AI Cut"，没探索"更智慧的工作流"

v1 的 6 周路径聚焦"AI Cut 优化 + 单变量实验"，v2 加了"产品化 + 战略 + 组织"，但都没触及"工作方式革命"。5 篇论文的共同启示是：AI 能力的天花板不是模型规模，是工作流设计。

具体表现：

• 选剧靠 LLM 临时推理，没有从 100+ 成功出单案例中提炼"选剧 SOP 工具"

• 剪辑只跑 AI Cut 一种方法，不接受"答案组合"（论文 2 ROSA）

• Agent 决策失败时不会说"我不知道"，要么硬编要么放弃（论文 3 缺失"安全出口"）

• 24h 都在"清醒跑业务"，没有夜间"沉淀期"做记忆巩固（论文 4 缺失）

• LLM 一肩挑所有事，没用"总设计师 + 泥瓦匠"分层（论文 5 LEAP 缺失）

证据：5 篇论文核心方法论；v1/v2 路径缺位

v3 根本转变：从"换更好的工具"（v1/v2）→ 到"重新设计工作流"（v3）。工具没变、模型没变、人没变，但工作流重新设计后，效率可能提升 2-5 倍——这正是 5 篇论文反复验证的核心结论（NBA 74%、IMO 70% 都是"工作流变革"而非"模型升级"）。

03 / 公式

v3 公式：加"工具箱规模"维度

v2 的 4 变量全部保留 + 1 个新维度

日 GMV = 在线账号数 × 单账号日发布量 × 单视频出单率 × 客单价 × 工具箱规模 × 工作流效率

工具箱规模：可复用的出单 SOP 工具数（论文 1）。当前 0，目标 D30 ≥ 30，D60 ≥ 100。
工作流效率：从感知到行动到反馈的循环时间。v1/v2 是"天"为单位，v3 目标"小时"为单位（论文 4 睡眠范式 + 论文 3 事前信心）。

06 / 革命 v3 核心

工作流革命：5 个新方法论的具体落地

v3 的核心增量章节

M1 论文 1

工具箱思维：从 0 建设出单 SOP 工具库

现状：Loop 选剧/剪辑/发布决策靠 LLM 临时推理，正确步骤无法沉淀。

v3 改造：

• D1-D7：从 BI 系统 1 万个公共主页 + 6/3 会议数据中筛 100+ 成功出单案例

• 第 2-4 周：拆解 → 分类合并 → 工具化（每案例 1 个"出单 SOP 工具"）

• D30 目标：工具箱 ≥ 30 个工具；D60 目标：≥ 100 个

• 效果对标：参考论文 1 数据，目标单账号出单率从 0.7% 提到 5%（类比 NBA 30% → 74%）

Loop 落地：在 LangGraph 的 @tool 注册表里，新增 toolbox 命名空间，每个新出的"出单 SOP"都包成一个 tool。新 run 直接选 tool 调用，不再靠 LLM 推理。

M2 论文 2 ROSA

答案组合：多评委+多方案，而不是单一最优

现状：v1/v2 假设"找到最好的剪辑手法"——但平台/账号/地区偏好不同，没有"最好"，只有"组合"。

v3 改造：

• 多评委：每个 run 配 3 个偏好不同的"评委"——FB 算法、TikTok 算法、Instagram 算法（或代理模型）

• 多方案：AI Cut / 人工混剪 / Vidu 同时跑（不是只跑一个）

• 目标：每个评委都能在"方案组合"中找到符合自己偏好的答案

• 效果对标：参考论文 2 ROSA 框架，避免"标准答案陷阱"导致的所有平台一刀切

Loop 落地：LangGraph 增加 ros_dispatch 节点，输入 1 部剧 + 1 个目标账号，输出 N 个剪辑方案（每个针对不同平台偏好），按比例分发给对应账号。

M3 论文 3

事前信心 + "我不知道"：Agent 安全出口

现状：Agent 决策信心不足时，要么硬编一个答案（幻觉），要么完全放弃——两种都很糟糕。

v3 改造：

• 事前信心评分：每个 Agent 决策节点加 confidence_score（0-1）

• "我不知道"安全出口：当 confidence < 0.6 时，不输出硬编结果，而是返回 {status: "uncertain", reason: "..."}，触发 Frank 拍板

• 三层信心机制：

　 ① 高信心（≥0.8）：自动执行

　 ② 中信心（0.6-0.8）：执行但飞书告警

　 ③ 低信心（<0.6）：不执行，触发 Frank 拍板

Loop 落地：LangGraph 节点返回 schema 增加 confidence 字段 + uncertain_reason。LangGraph interrupt 机制：confidence < 0.6 → 暂停等 Frank。

M4 论文 4

睡眠范式：清醒期跑业务，沉淀期做学习

现状：Loop 24h 都在"清醒跑业务"，没有时间做记忆巩固和自我训练。

v3 改造：

• 清醒期（D1-D60 全部白天）：按 v1/v2 跑业务，每 run 写 history.jsonl + 向量记忆

• 沉淀期（每天 02:00-06:00）：

　 ① 记忆巩固：把当日 100+ 出单案例的"成功思考步骤"蒸馏成"工具库更新"

　 ② 做梦训练：基于"今天最爆的 5 部剧"生成定制化训练数据，自我出题（出单 vs 不出单的特征差异），跑自我训练

　 ③ 不覆盖旧知识：沉淀期必须做知识蒸馏（论文 4 关键），不能"学了新的忘了旧的"

Loop 落地：Celery beat 任务每天 02:00 触发 toolbox_consolidate 节点：① 读当日 history.jsonl ② 蒸馏出新 SOP 工具 ③ 写入 pgvector 工具库 ④ 触发"做梦训练"job。

M5 论文 5 LEAP

总设计师 + 泥瓦匠：LLM 规划，工具执行

现状：LLM 一肩挑所有事——既做选剧决策，又做剪辑决策，又做发布决策，又做数据回流。出错时整个流程崩。

v3 改造：

• 总设计师（Qwen-Max）：做规划、决策、异常处理

• 泥瓦匠（专门工具）：每个环节一个专门 tool，按 LEAP 框架四步工作流

　 ① 画蓝图：LLM 把"今天跑 10 账号 50 视频"拆成可独立执行的子任务

　 ② 分包：子任务分发到专门 tool（ai-drama 选剧、ai-publish 发布、ai-cut-animation 剪辑）

　 ③ 迭代验证：每个 tool 执行结果回灌 LLM，由 LLM 判断是否调整蓝图

　 ④ 复盘：每 run 完成后 LLM 复盘"蓝图哪里走错" → 沉淀为新 SOP 工具

• 效果对标：参考论文 5 LEAP 框架，正确率从 ~10% 提到 70%

Loop 落地：LangGraph 架构按 LEAP 四步设计节点：blueprint_node → dispatch_node（Send 并发）→ verify_node → retrospect_node。

05 / 路径

v3 6 周路径：围绕 5 个新方法论重构

v2 全部 + 5 个新方法论的落地动作

01 止血 + 数据闭环 + 工具箱 v1 D1 — D7

数据基建：子明 Codex 自爬（v2 不变）
用户画像采集：Book 链接中转（v2 不变）
单变量实验矩阵：100 账号 × 5 组合（v2 不变）
[M1] 出单工具箱 v1：从 6/3 会议 + 复盘会数据中筛 30 个成功出单案例，拆解核心动作，工具化 5-10 个出单 SOP 工具
[M3] 事前信心机制 v1：Agent 决策节点加 confidence 字段，<0.6 触发 Frank 拍板
[M5] LEAP 节点 v1：LangGraph 搭起 blueprint → dispatch → verify → retrospect 4 节点骨架
Token 计费方案 / MoneyPrinterV2 集成 / 巡检 Agent：v2 不变（5/12 会议要求）

02 三模块解耦 + ROSA 多方案 D8 — D14

选剧：广大大 API 接入 + Qwen-VL 打标（v2 不变）
剪辑：[M2] AI Cut / 人工混剪 / Vidu 三路并行（不是只跑一个），按 ROSA 框架按平台/账号分发
发布：服务器分时区 + 跟发（v2 不变）
[M1] 工具箱 v2：累计 30 个 SOP 工具，工具库结构化
[M4] 沉淀期第一次跑：D14 凌晨 02:00 第一次跑 toolbox_consolidate，验证记忆巩固 + 做梦训练流程
产品化骨架：v2 不变（5/12 会议 4 主节点）
第一次决策点：14 天数据出，看 ROSA 多方案是否比单一 AI Cut 强（v2 + v3 综合）

03 匹配算法 + 工具箱规模化 D15 — D30

内容打标全量化：v2 不变
匹配算法 v1：Rule-based（v2 不变）
[M1] 工具箱 v3：累计 30-50 个 SOP 工具，覆盖 4 大因子的所有高频场景
[M4] 沉淀期常态化：每天 02:00 自动跑，工具库自我迭代
[M5] LEAP 完整化：复盘节点产出"蓝图优化建议"→ 沉淀为新 SOP 工具
招聘 P0：推荐算法 + LLM 工程师（v2 不变）
6 月底硬指标：v2 不变（"必须跑通整体流程产生实际收入"）

04 规模化 + 5 个方法论全面落地 D31 — D45

匹配算法 v2：ML 模型 + 向量召回（v2 不变）
多渠道规模化：v2 不变
[M1] 工具箱 v4：累计 100+ SOP 工具，达到"覆盖所有已知出单场景"
[M2] ROSA 完整化：5 平台 × 3 方案 = 15 种组合，全部跑通
[M3] 事前信心规模化：Frank 拍板频率从 D1 的 30% 降到 D45 的 5%（因为工具箱成熟后高信心决策增多）
[M4] 沉淀期产出：工具库每日增长 ≥ 2 个 SOP 工具
[M5] LEAP 复盘：蓝图优化建议进入工具库，形成"工作流自我进化"闭环
AI-Native 团队 / Mac Mini 奖励：v2 不变

12 / 产品化 v3 升级

产品化路径：加"睡眠范式"和"事前信心"机制

flowchart TB subgraph DAY[清醒期 · D1-D60 白天 06:00-22:00] P[感知 Agent
M3: 加 confidence] PL[规划 Agent
M5: LEAP 蓝图] D[决策 Agent
M3: 信心分层
≥0.8 自动 / 0.6-0.8 告警 / <0.6 拍板] EX[执行 Agent
M2: ROSA 多方案分发
M5: 工具调用] RF[反馈 Agent] end subgraph NIGHT[沉淀期 · 每天 02:00-06:00] MC[记忆巩固
M4 阶段 1: 蒸馏] DM[做梦训练
M4 阶段 2: 自我出题] TB[工具库更新
M1: 沉淀新 SOP] end P --> PL PL --> D D --> EX EX --> RF RF -.每天写.-> H[(history.jsonl)] H -.每日.-> MC MC --> DM DM --> TB TB -.反哺.-> PL style DAY fill:#d9eae3,stroke:#2f6f5e style NIGHT fill:#f0dfe1,stroke:#b06367 style H fill:#f0eadf,stroke:#7c7a72

清醒期 = 跑业务沉淀期 = 学习 → 双向闭环

v2 vs v3 产品化对比

维度	v2	v3（5 篇论文）
工具集来源	硬编码 SKILL.md（3000+ 行）	从历史成功案例蒸馏的"出单工具箱"（M1）
方案选择	单方案（只跑 AI Cut）	多方案组合 ROSA（M2）
Agent 决策错误	硬编或放弃	事前信心 + "我不知道"安全出口（M3）
学习节奏	24h 清醒跑业务	清醒期 + 沉淀期交替（M4）
LLM 角色	一肩挑所有事	总设计师 + 泥瓦匠分层（M5 LEAP）

16 / 决策 v3 新

v3 关键决策点：4 个必须拍板的事

D1 · 工具箱建设的优先级？

M1 是 v3 的核心，但 100+ 案例拆解需要 1-2 人投入 2-3 周。是否要立刻开始 vs 等 6 月底先冲单？

★ 推荐：D1-D7 立刻开始，用 BI 系统 1 万个公共主页数据。30 个工具是 D14 决策点必需要交付的。

D2 · "我不知道"机制的 Frank 拍板频率？

M3 的事前信心机制会触发 Frank 拍板。初期可能 30% 决策都触发（因为工具箱没建好），后期降到 5%。

★ 推荐：设置"日拍板上限"（如 10 次/天），超过后自动降级到"中信心执行 + 飞书告警"。避免 Frank 拍板疲劳。

D3 · 沉淀期（夜间 02:00-06:00）的服务器成本？

M4 每天 4 小时需要稳定运行的 GPU/推理资源，可能要付额外的云成本。Qwen-Plus × 4h × 30 天 ≈ ¥X 万/月。

★ 推荐：先跑 1 周测算真实成本，D7 复盘时给出具体数字，再让 CEO 拍板预算。

D4 · 5 个方法论 MVP 还是直接全量？

5 个方法论全部落地需要 Phase 1-3 共 6 周，6 月底硬指标压力下可能来不及。

★ 推荐：M1（工具箱）+ M3（事前信心）先落地（M1 是核心），M2/M4/M5 D8-D30 渐进。

17 / 变更

v2 → v3 关键变更

章节	v2	v3 变更
§0	—	新增"灵感来源"——5 篇论文 + Loop 改造映射
§1 现状	4 完成 + 4 卡点	+ 1 个新卡点"工具箱规模 0"
§2 根因	R1-R6	+ R7 工作方式问题（卷 AI 能力 vs 卷工作流）
§3 公式	4 变量	+ 工具箱规模 + 工作流效率 2 个新维度
新增 §6	—	工作流革命 5 个新方法论（M1-M5）的具体落地
§5 6 周路径	4 阶段 + 标准动作	每阶段加 5 个新方法论的具体动作（M1-M5 标记）
§12 产品化	4 主节点 + 内外双层	升级为清醒期 + 沉淀期双轨架构（论文 4 范式）
新增 §16	—	v3 关键决策点 4 个（D1 工具箱优先级 / D2 拍板频率 / D3 沉淀期成本 / D4 MVP 范围）
整体定位	出单 = 跑通 + 优化	出单 = 工作流革命（M1-M5）+ 跑通 + 优化

从"更快 AI Cut"到"更智慧的工作流"：5 篇论文启发的 出单路径 v3

📌 v3 相对 v2 的核心升级（基于 5 篇论文）

5 篇论文的方法论与 Loop 改造映射

从智能体过往痕迹归纳推理基本功

基于奖励不确定性的 AI 多样性训练（ROSA）

基于事前信心引导的 AI 幻觉抑制

AI 睡眠范式实现持续终身学习

LEAP 框架结合大模型与形式化验证

v3 现状：加 1 个新卡点

v3 新增的卡点：工具箱规模 0

v3 根因：R7 工作方式问题（v3 新增）

一直在卷"更快的 AI Cut"，没探索"更智慧的工作流"

v3 公式：加"工具箱规模"维度

工作流革命：5 个新方法论的具体落地

工具箱思维：从 0 建设出单 SOP 工具库

答案组合：多评委+多方案，而不是单一最优

事前信心 + "我不知道"：Agent 安全出口

睡眠范式：清醒期跑业务，沉淀期做学习

总设计师 + 泥瓦匠：LLM 规划，工具执行

v3 6 周路径：围绕 5 个新方法论重构

产品化路径：加"睡眠范式"和"事前信心"机制

v2 vs v3 产品化对比

v3 关键决策点：4 个必须拍板的事

D1 · 工具箱建设的优先级？

D2 · "我不知道"机制的 Frank 拍板频率？

D3 · 沉淀期（夜间 02:00-06:00）的服务器成本？

D4 · 5 个方法论 MVP 还是直接全量？

v2 → v3 关键变更

从"更快 AI Cut"到"更智慧的工作流"：
5 篇论文启发的出单路径 v3