v3 · 2026-06-06 AI Loop · 出单路径 · 工作流革命

从"更快 AI Cut"到"更智慧的工作流":
5 篇论文启发的 出单路径 v3

v3 在 v2 基础上整合了 Frank 分享的 5 篇最新 AI 论文(2026 年 6 月 arxiv)的方法论。核心启发:AI 进化已从追求参数规模转向优化工作方式。v1-v2 我们一直在卷"更快的 AI Cut",v3 要从"工具箱思维 + 答案组合 + 事前信心 + 睡眠范式 + LEAP 框架"五个维度重塑 Loop 的工作方式。

📌 v3 相对 v2 的核心升级(基于 5 篇论文)

00 / 灵感

5 篇论文的方法论与 Loop 改造映射

来源:Get 笔记《五篇最新 AI 论文深度解析》
1
从智能体过往痕迹归纳推理基本功
Inducing Reasoning Primitives from Agent Traces

4 步法:收集 100+ 成功案例 → 拆解核心动作 → AI 分类合并 → 创建可调用工具。NBA 规则判断 30% → 74%,团队任务分配 38% → 68%。

→ Loop 改造:从历史出单案例中提炼"出单工具箱"
2
基于奖励不确定性的 AI 多样性训练(ROSA)
Using Reward Uncertainty to Induce Diverse Behaviour in RL

引入"评委委员会",AI 目标是生成"答案组合"让每个评委都满意,而非找单一最优解。

→ Loop 改造:AI Cut + 人工混剪 + Vidu 并行,让每个平台/账号匹配不同方案
3
基于事前信心引导的 AI 幻觉抑制
Conformal Language Modeling via Posterior Sampling

每个生成环节加信心评分,低于阈值时输出"我不知道"。比事后审查更完整流畅。

→ Loop 改造:Agent 决策时设"安全出口"——"我不知道" → 触发 Frank 拍板
4
AI 睡眠范式实现持续终身学习
Language Models Need Sleep: Learning to Self-Modify and Consolidate Memories

两阶段:① 记忆巩固(短期 → 长期,不覆盖旧知识)② 做梦(生成训练数据自我训练)。打破"训练/使用"割裂。

→ Loop 改造:白天"清醒期"跑业务,夜间"沉淀期"做数据蒸馏 + 自我出题训练
5
LEAP 框架结合大模型与形式化验证
LEAP: Supercharging LLMs for Formal Mathematics with Agentic Frameworks

LLM 做"总设计师"画蓝图,专门工具做"泥瓦匠"验证。普特南数学竞赛 12/12,IMO 难题 10% → 70%。

→ Loop 改造:Qwen-Max 做规划/决策,专业工具(ai-drama/ai-publish/ai-cut)做执行

5 篇论文的共同点:AI 进化从"追求更强基础能力"转向"更智慧的工作方式"。未来不是模型的竞赛,而是框架和工作流的竞赛。这跟 AI Loop 改造的 LangGraph 选型方向完全一致——LangGraph 就是"框架/工作流"层面的工具。

01 / 现状

v3 现状:加 1 个新卡点

v2 全部 + "工具箱规模 0"

v3 新增的卡点:工具箱规模 0

当前 Loop 没有"出单工具箱"——历史上成功出单的 100+ 案例没有被系统地拆解、分类、工具化。每次新 run 都要 LLM 重新推理"怎么选剧 / 怎么剪 / 怎么发",正确步骤无法沉淀。

这正是论文 1 诊断的"现有大模型的核心问题":解决复杂问题每次从零开始,正确的思考步骤无法留存。

直接后果:出单靠运气不靠方法论,无法规模化复制。v1/v2 的"出单路径"如果不解决工具箱问题,本质上还是在"试错"——这与 6 月底必须出单的硬指标冲突。

02 / 根因

v3 根因:R7 工作方式问题(v3 新增)

v2 的 R1-R6 全部保留 + 新增
R7 · 工作方式问题 [v3 新增]

一直在卷"更快的 AI Cut",没探索"更智慧的工作流"

v1 的 6 周路径聚焦"AI Cut 优化 + 单变量实验",v2 加了"产品化 + 战略 + 组织",但都没触及"工作方式革命"。5 篇论文的共同启示是:AI 能力的天花板不是模型规模,是工作流设计。

具体表现:

• 选剧靠 LLM 临时推理,没有从 100+ 成功出单案例中提炼"选剧 SOP 工具"

• 剪辑只跑 AI Cut 一种方法,不接受"答案组合"(论文 2 ROSA)

• Agent 决策失败时不会说"我不知道",要么硬编要么放弃(论文 3 缺失"安全出口")

• 24h 都在"清醒跑业务",没有夜间"沉淀期"做记忆巩固(论文 4 缺失)

• LLM 一肩挑所有事,没用"总设计师 + 泥瓦匠"分层(论文 5 LEAP 缺失)

证据:5 篇论文核心方法论;v1/v2 路径缺位

v3 根本转变:从"换更好的工具"(v1/v2)→ 到"重新设计工作流"(v3)。工具没变、模型没变、人没变,但工作流重新设计后,效率可能提升 2-5 倍——这正是 5 篇论文反复验证的核心结论(NBA 74%、IMO 70% 都是"工作流变革"而非"模型升级")。

03 / 公式

v3 公式:加"工具箱规模"维度

v2 的 4 变量全部保留 + 1 个新维度
日 GMV = 在线账号数 × 单账号日发布量 × 单视频出单率 × 客单价 × 工具箱规模 × 工作流效率

工具箱规模:可复用的出单 SOP 工具数(论文 1)。当前 0,目标 D30 ≥ 30,D60 ≥ 100。
工作流效率:从感知到行动到反馈的循环时间。v1/v2 是"天"为单位,v3 目标"小时"为单位(论文 4 睡眠范式 + 论文 3 事前信心)。

06 / 革命 v3 核心

工作流革命:5 个新方法论的具体落地

v3 的核心增量章节
M1 论文 1

工具箱思维:从 0 建设出单 SOP 工具库

现状:Loop 选剧/剪辑/发布决策靠 LLM 临时推理,正确步骤无法沉淀。

v3 改造:

D1-D7:从 BI 系统 1 万个公共主页 + 6/3 会议数据中筛 100+ 成功出单案例

第 2-4 周:拆解 → 分类合并 → 工具化(每案例 1 个"出单 SOP 工具")

D30 目标:工具箱 ≥ 30 个工具;D60 目标:≥ 100 个

效果对标:参考论文 1 数据,目标单账号出单率从 0.7% 提到 5%(类比 NBA 30% → 74%)

Loop 落地:在 LangGraph 的 @tool 注册表里,新增 toolbox 命名空间,每个新出的"出单 SOP"都包成一个 tool。新 run 直接选 tool 调用,不再靠 LLM 推理。
M2 论文 2 ROSA

答案组合:多评委+多方案,而不是单一最优

现状:v1/v2 假设"找到最好的剪辑手法"——但平台/账号/地区偏好不同,没有"最好",只有"组合"

v3 改造:

多评委:每个 run 配 3 个偏好不同的"评委"——FB 算法、TikTok 算法、Instagram 算法(或代理模型)

多方案:AI Cut / 人工混剪 / Vidu 同时跑(不是只跑一个)

目标:每个评委都能在"方案组合"中找到符合自己偏好的答案

效果对标:参考论文 2 ROSA 框架,避免"标准答案陷阱"导致的所有平台一刀切

Loop 落地:LangGraph 增加 ros_dispatch 节点,输入 1 部剧 + 1 个目标账号,输出 N 个剪辑方案(每个针对不同平台偏好),按比例分发给对应账号。
M3 论文 3

事前信心 + "我不知道":Agent 安全出口

现状:Agent 决策信心不足时,要么硬编一个答案(幻觉)要么完全放弃——两种都很糟糕。

v3 改造:

事前信心评分:每个 Agent 决策节点加 confidence_score(0-1)

"我不知道"安全出口:当 confidence < 0.6 时,不输出硬编结果,而是返回 {status: "uncertain", reason: "..."},触发 Frank 拍板

三层信心机制:

  ① 高信心(≥0.8):自动执行

  ② 中信心(0.6-0.8):执行但飞书告警

  ③ 低信心(<0.6):不执行,触发 Frank 拍板

Loop 落地:LangGraph 节点返回 schema 增加 confidence 字段 + uncertain_reason。LangGraph interrupt 机制:confidence < 0.6 → 暂停等 Frank。
M4 论文 4

睡眠范式:清醒期跑业务,沉淀期做学习

现状:Loop 24h 都在"清醒跑业务",没有时间做记忆巩固和自我训练。

v3 改造:

清醒期(D1-D60 全部白天):按 v1/v2 跑业务,每 run 写 history.jsonl + 向量记忆

沉淀期(每天 02:00-06:00):

  ① 记忆巩固:把当日 100+ 出单案例的"成功思考步骤"蒸馏成"工具库更新"

  ② 做梦训练:基于"今天最爆的 5 部剧"生成定制化训练数据,自我出题(出单 vs 不出单的特征差异),跑自我训练

  ③ 不覆盖旧知识:沉淀期必须做知识蒸馏(论文 4 关键),不能"学了新的忘了旧的"

Loop 落地:Celery beat 任务每天 02:00 触发 toolbox_consolidate 节点:① 读当日 history.jsonl ② 蒸馏出新 SOP 工具 ③ 写入 pgvector 工具库 ④ 触发"做梦训练"job。
M5 论文 5 LEAP

总设计师 + 泥瓦匠:LLM 规划,工具执行

现状:LLM 一肩挑所有事——既做选剧决策,又做剪辑决策,又做发布决策,又做数据回流。出错时整个流程崩。

v3 改造:

总设计师(Qwen-Max):做规划、决策、异常处理

泥瓦匠(专门工具):每个环节一个专门 tool,按 LEAP 框架四步工作流

  ① 画蓝图:LLM 把"今天跑 10 账号 50 视频"拆成可独立执行的子任务

  ② 分包:子任务分发到专门 tool(ai-drama 选剧、ai-publish 发布、ai-cut-animation 剪辑)

  ③ 迭代验证:每个 tool 执行结果回灌 LLM,由 LLM 判断是否调整蓝图

  ④ 复盘:每 run 完成后 LLM 复盘"蓝图哪里走错" → 沉淀为新 SOP 工具

效果对标:参考论文 5 LEAP 框架,正确率从 ~10% 提到 70%

Loop 落地:LangGraph 架构按 LEAP 四步设计节点:blueprint_nodedispatch_node(Send 并发)→ verify_noderetrospect_node
05 / 路径

v3 6 周路径:围绕 5 个新方法论重构

v2 全部 + 5 个新方法论的落地动作
01 止血 + 数据闭环 + 工具箱 v1 D1 — D7
  • 数据基建:子明 Codex 自爬(v2 不变)
  • 用户画像采集:Book 链接中转(v2 不变)
  • 单变量实验矩阵:100 账号 × 5 组合(v2 不变)
  • [M1] 出单工具箱 v1:从 6/3 会议 + 复盘会数据中筛 30 个成功出单案例,拆解核心动作,工具化 5-10 个出单 SOP 工具
  • [M3] 事前信心机制 v1:Agent 决策节点加 confidence 字段,<0.6 触发 Frank 拍板
  • [M5] LEAP 节点 v1:LangGraph 搭起 blueprint → dispatch → verify → retrospect 4 节点骨架
  • Token 计费方案 / MoneyPrinterV2 集成 / 巡检 Agent:v2 不变(5/12 会议要求)
02 三模块解耦 + ROSA 多方案 D8 — D14
  • 选剧:广大大 API 接入 + Qwen-VL 打标(v2 不变)
  • 剪辑:[M2] AI Cut / 人工混剪 / Vidu 三路并行(不是只跑一个),按 ROSA 框架按平台/账号分发
  • 发布:服务器分时区 + 跟发(v2 不变)
  • [M1] 工具箱 v2:累计 30 个 SOP 工具,工具库结构化
  • [M4] 沉淀期第一次跑:D14 凌晨 02:00 第一次跑 toolbox_consolidate,验证记忆巩固 + 做梦训练流程
  • 产品化骨架:v2 不变(5/12 会议 4 主节点)
  • 第一次决策点:14 天数据出,看 ROSA 多方案是否比单一 AI Cut 强(v2 + v3 综合)
03 匹配算法 + 工具箱规模化 D15 — D30
  • 内容打标全量化:v2 不变
  • 匹配算法 v1:Rule-based(v2 不变)
  • [M1] 工具箱 v3:累计 30-50 个 SOP 工具,覆盖 4 大因子的所有高频场景
  • [M4] 沉淀期常态化:每天 02:00 自动跑,工具库自我迭代
  • [M5] LEAP 完整化:复盘节点产出"蓝图优化建议"→ 沉淀为新 SOP 工具
  • 招聘 P0:推荐算法 + LLM 工程师(v2 不变)
  • 6 月底硬指标:v2 不变("必须跑通整体流程产生实际收入")
04 规模化 + 5 个方法论全面落地 D31 — D45
  • 匹配算法 v2:ML 模型 + 向量召回(v2 不变)
  • 多渠道规模化:v2 不变
  • [M1] 工具箱 v4:累计 100+ SOP 工具,达到"覆盖所有已知出单场景"
  • [M2] ROSA 完整化:5 平台 × 3 方案 = 15 种组合,全部跑通
  • [M3] 事前信心规模化:Frank 拍板频率从 D1 的 30% 降到 D45 的 5%(因为工具箱成熟后高信心决策增多)
  • [M4] 沉淀期产出:工具库每日增长 ≥ 2 个 SOP 工具
  • [M5] LEAP 复盘:蓝图优化建议进入工具库,形成"工作流自我进化"闭环
  • AI-Native 团队 / Mac Mini 奖励:v2 不变
12 / 产品化 v3 升级

产品化路径:加"睡眠范式"和"事前信心"机制

flowchart TB subgraph DAY[清醒期 · D1-D60 白天 06:00-22:00] P[感知 Agent
M3: 加 confidence] PL[规划 Agent
M5: LEAP 蓝图] D[决策 Agent
M3: 信心分层
≥0.8 自动 / 0.6-0.8 告警 / <0.6 拍板] EX[执行 Agent
M2: ROSA 多方案分发
M5: 工具调用] RF[反馈 Agent] end subgraph NIGHT[沉淀期 · 每天 02:00-06:00] MC[记忆巩固
M4 阶段 1: 蒸馏] DM[做梦训练
M4 阶段 2: 自我出题] TB[工具库更新
M1: 沉淀新 SOP] end P --> PL PL --> D D --> EX EX --> RF RF -.每天写.-> H[(history.jsonl)] H -.每日.-> MC MC --> DM DM --> TB TB -.反哺.-> PL style DAY fill:#d9eae3,stroke:#2f6f5e style NIGHT fill:#f0dfe1,stroke:#b06367 style H fill:#f0eadf,stroke:#7c7a72

清醒期 = 跑业务   沉淀期 = 学习   → 双向闭环

v2 vs v3 产品化对比

维度v2v3(5 篇论文)
工具集来源硬编码 SKILL.md(3000+ 行)从历史成功案例蒸馏的"出单工具箱"(M1)
方案选择单方案(只跑 AI Cut)多方案组合 ROSA(M2)
Agent 决策错误硬编或放弃事前信心 + "我不知道"安全出口(M3)
学习节奏24h 清醒跑业务清醒期 + 沉淀期交替(M4)
LLM 角色一肩挑所有事总设计师 + 泥瓦匠分层(M5 LEAP)
16 / 决策 v3 新

v3 关键决策点:4 个必须拍板的事

D1 · 工具箱建设的优先级?

M1 是 v3 的核心,但 100+ 案例拆解需要 1-2 人投入 2-3 周。是否要立刻开始 vs 等 6 月底先冲单?

★ 推荐:D1-D7 立刻开始,用 BI 系统 1 万个公共主页数据。30 个工具是 D14 决策点必需要交付的。
D2 · "我不知道"机制的 Frank 拍板频率?

M3 的事前信心机制会触发 Frank 拍板。初期可能 30% 决策都触发(因为工具箱没建好),后期降到 5%。

★ 推荐:设置"日拍板上限"(如 10 次/天),超过后自动降级到"中信心执行 + 飞书告警"。避免 Frank 拍板疲劳。
D3 · 沉淀期(夜间 02:00-06:00)的服务器成本?

M4 每天 4 小时需要稳定运行的 GPU/推理资源,可能要付额外的云成本。Qwen-Plus × 4h × 30 天 ≈ ¥X 万/月。

★ 推荐:先跑 1 周测算真实成本,D7 复盘时给出具体数字,再让 CEO 拍板预算。
D4 · 5 个方法论 MVP 还是直接全量?

5 个方法论全部落地需要 Phase 1-3 共 6 周,6 月底硬指标压力下可能来不及。

★ 推荐:M1(工具箱)+ M3(事前信心)先落地(M1 是核心),M2/M4/M5 D8-D30 渐进。
17 / 变更

v2 → v3 关键变更

章节v2v3 变更
§0新增"灵感来源"——5 篇论文 + Loop 改造映射
§1 现状4 完成 + 4 卡点+ 1 个新卡点"工具箱规模 0"
§2 根因R1-R6+ R7 工作方式问题(卷 AI 能力 vs 卷工作流)
§3 公式4 变量+ 工具箱规模 + 工作流效率 2 个新维度
新增 §6工作流革命 5 个新方法论(M1-M5)的具体落地
§5 6 周路径4 阶段 + 标准动作每阶段加 5 个新方法论的具体动作(M1-M5 标记)
§12 产品化4 主节点 + 内外双层升级为清醒期 + 沉淀期双轨架构(论文 4 范式)
新增 §16v3 关键决策点 4 个(D1 工具箱优先级 / D2 拍板频率 / D3 沉淀期成本 / D4 MVP 范围)
整体定位出单 = 跑通 + 优化出单 = 工作流革命(M1-M5)+ 跑通 + 优化