这周我们拿 AI 做了什么

课堂分享 · 2026-06-14（6/8–6/14）从上周起，我想把题目里的「我」改成「我们」。不是为了显得热闹，而是因为这周很多事情已经不是我一个人在试 AI：学生在讲自己的流程，同学在搭自己的工具链，真实项目在跑，Agent 甚至第一次替我完成了一笔交易。还是不讲教程，只讲真实发生过的事。

一、我们把一段课堂口述，蒸馏成了一套 Agent Pipeline

周一中午，一位同学来教室讲她最近在搭的一套 Agent Pipeline 。她先口述自己的想法，我们把话筒打开录下来，然后用另一位同学正在做的语音转录 APP 做 STT。转成文字后，我再在 Obsidian 里让 Claude 做总结。

接下来才是最有意思的部分：我把这份总结丢给 Codex，让它基于内容写出每一个 Agent 的 prompt；同时又让 Claude Co-work 写另一版。最后把 Codex 生成的内容给 Claude 看，把 Claude 生成的内容给 Codex 看，让两边互相审查、互相补充。一个学生的口述，最后变成了一套可以继续迭代的 Agent 角色和流程约束。

这件事后来没有停在「课堂案例」里。因为这周积木去参加种水稻活动，我就在想：能不能拿这套 Agent Pipeline 做一个「种水稻」的小交互游戏？我把这套内容交给 Kimi 跑，很快发现一个问题：原来的 Agent prompt 更像是为了解决一个软件问题、一个机制问题而设计的；但游戏不只是功能，它还有玩法、美术、资产、声音、音乐、关卡、反馈和交互节奏。

所以我又用 Fable5 对这套 Agent Pipeline 做了一版面向游戏的调整，让它不只是「解决问题」，而是更像一个小型游戏团队：有人负责玩法，有人负责美术资产，有人负责音效和音乐，有人负责交互，有人负责测试。然后我再用 Codex 调用 Image2 生成一些美术资产。这个项目现在还在完善，但能明显感觉到，调整后的 Pipeline 对「游戏」的理解比之前好了很多。

如果说前几年我们经常讲的是 Prompt Engineering ——怎么把一句话写好；那现在这件事就是 Loop Engineering ——怎么设计一套循环：谁先产出，谁来审，谁来改，谁再跑下一轮。未来模型质量继续提高以后，也许连 Loop Engineering 都会被新的东西替代。但至少现在，理解这个循环本身，就是理解模型边界的一种方式。

二、真正的 AI 能力，不是装好工具，是卡住以后还能继续问

这周很多朋友来问我 Codex：有人问怎么安装，有人问怎么理解，有人问自己的工作怎么用 AI 赋能。大部分人第一反应都差不多：这个东西好像确实不太好搭，尤其是环境层面的东西。

理论上，我确实当然可以帮别人装好。周一上午的小课里，一位同学带来一台很好的机器，M4 Max，128GB 内存。我帮她装 Chrome、Kimi Code、ChatGPT 可访问环境、Obsidian。事情最后能装好，但我反而更清楚地看到一个问题：如果整个过程都是别人帮你点，你坐在旁边等，那最重要的能力其实没有长出来。

另一位同学那边刚好形成一个对照。他也在折腾本地 Claude / Obsidian 工具链，也会遇到报错。但我只给他演示几次：开一个 Kimi 窗口，把终端里的报错复制进去，让它判断下一步。后面他就开始自己试、自己问、自己改。

我现在越来越觉得，AI 工具学习的关键不是「有人帮你把环境搭好」，而是你卡住的时候，能不能把「卡住」本身也变成下一轮输入。终端报错是一种输入，安装失败是一种输入，不知道下一步点哪儿也是一种输入。

真正的 AI 能力，不是装好工具，是卡住以后还能继续问。

三、新闻稿这件事，可以先从一条录音开始

周二课上，我给做新闻稿的小组在黑板上画了一条很简单的流程：现场录音 → 硅基流动 API 做 STT → 大模型按学校历史新闻稿结构整理 → 每天出一篇，或者周六统一汇总。

这件事很小，但非常适合学校里的真实场景。活动很多，会议很多，讲座很多，最后都要写新闻。以前新闻稿经常靠一个人回去硬写，写完还要改格式、改口径、改标题。现在可以先把现场真实声音留下来，再让模型按已有新闻稿的结构去整理。

这里的重点不是让 AI 替你「编新闻」，而是让它从现场材料里提取出该写的东西。比如谁讲了什么、活动目的是什么、现场发生了什么、后续意义是什么。这些东西如果现场没有记录，后面很容易变成空话；如果录音和 STT 在，至少有一个可追溯的底稿。

这可能也是以后很多学生最容易上手的一类工作流：不是一上来做一个大系统，而是从身边最烦、最重复、最容易丢细节的任务开始，先把它变成一条链路。

四、一个故事脚本，可以先被拆成模块、资产和视觉提示词

这周还有一个项目，需要把一个完整故事脚本转成一组视频视觉资产。这里我不讲具体项目，只讲流程。

我把故事脚本交给 Codex，让它先完整读一遍，再判断整条故事线可以拆成几个模块。拆完以后，再让它继续往下做：每一段需要什么场景资产，什么人物资产，什么演唱或动作资产，每一段大概是什么视觉风格，对应的提示词应该怎么写。

这件事以前会很慢。因为人要先通读故事，再自己在脑子里拆结构，还要把结构翻译成视觉语言。现在第一版可以很快出来：先让 AI 把结构拆开，再让 Codex 直接调用图像模型去生成一些视觉资产。

当然，问题也很明显。Image2 的质量会限制最后的结果；更重要的是，图像模型有时不真正理解剧情里的因果关系。它能把画面画得很好看，但可能会把一个动作的意图弄错。也就是说，AI 很会把结构理清，但它不一定真的懂一个动作为什么发生。

我觉得后面会越来越有意思。现在已经有一些视频生成或视频处理工具开始提供 CLI，未来也许会出现更成熟的达芬奇 CLI、Pro Tools CLI，Codex 不只是写提示词，而是直接调用这些工具完成剪辑、调色、混音、导出。那时内容生产会更像一条可编排的链路，而不只是一个人打开软件慢慢点。

五、一个小麻烦，最后变成了一个开源工具

这周拍了很多照片，尤其是一组孩子插秧的照片，三百多张。我要发朋友圈，需要把几张照片拼成长图。以前用美图之类的工具，总觉得不顺手：广告多、流程重、手机上挑选也不方便。

于是我就想，能不能自己做一个。大概花了 30 分钟，先让 Codex 写出一个可以用的照片拼接器。最开始它只是一个能跑的网页工具，把照片拖进去，调整顺序，导出长图。

后来我发现，每次还要在终端里 npm 启动，也挺麻烦。那就继续改，直接打包成 DMG。再后来又想到，既然它本来就是为了发朋友圈，那为什么不顺手把文案也做了？于是我加了一个文案模块，调用硅基流动 API，用 DeepSeek-v3 帮你写朋友圈文案。你只要说一下大概想表达什么，再选一个预设风格，它就能给你一版可以继续改的文字。

现在这个工具我已经放到 GitHub 上了：

https://github.com/Muscliffe64/moments-photo-stitcher

这件事对我有一个很直接的提醒：很多工具不是一开始就要做成产品，而是从一个非常具体的不顺手开始。先解决自己的小麻烦，再打包，再开源，再让别人也能用。AI 把这条路缩短了很多。

六、这周，Agent 第一次替我买了咖啡

周六下午，我答应请几个一起干活的同学喝咖啡。以前这件事就是打开瑞幸，选店、选品、下单、付款。这次我试了一下前一天配好的 瑞幸 MCP ，通过我的 Hermes 让 Agent 来点。

过程不算完美。支付环节出了点小 bug，学校那天四六级考试，网络也不太稳定，最后还是靠手机热点和人工确认完成了付款。但结果是买成了：一共 10 杯，178 块。

这件事让我第一次很具体地感受到：Agent 不只是写文章、写代码、整理资料，它开始能碰到真实交易了。咖啡不是虚拟输出，它最后会来到桌子上。

这个变化可以往远看。WWDC 26之后，Siri 和手机端 Agent 迟早会继续往这个方向走。麦当劳现在也已经有了 MCP 页面：https://open.mcd.cn/mcp 。如果未来你对手机说一句「帮我点一份常吃的套餐，送到学校」，Agent 直接调用商家的 MCP 完成下单，那中间很多平台入口都会被重新改写。

这不只是点咖啡的问题。它意味着很多商业行为可能从「人打开平台 App」变成「Agent 点对点调用服务」。这条线一旦跑通，变化会非常大。

七、AI 个性化学习，不是口号，是先找出一个人的卡点

周五一场讲座里，一位老师讲到一个很有启发的观点：未来老师和学生的差距，可能更多是时间上的差距，而不是能力上的差距。他还提到一个具体做法：上课前先给学生 20 道题，做完以后就知道这节课该讲什么，而不是老师按 PPT 从第一页讲到最后一页。

这句话我很快用在了积木身上。因为他们班数学课这段时间不太稳定，他最近在面积和面积单位换算上明显薄弱。于是我让 Codex 先搜索三年级下册人教版数学内容，出 20 道覆盖知识点的题，让他做一遍。

做完以后，薄弱点就比较清楚了。接下来我让 Codex 设计一个 10 天复习计划：每天 30 到 40 分钟，第一部分是一页 A4 的知识阅读，适合三年级孩子自己看懂；第二部分是一页 A4 的针对性练习；另外每天再加 5 分钟计算练习。全部做成 Word，方便打印。

这件事最重要的地方，不是「AI 给孩子出题」。出题很简单。真正有价值的是：测验 → 找卡点 → 生成材料 → 打印执行 → 做完以后再根据反馈调整。

如果这个流程跑通，个性化学习就不是一个教育概念，而是一套可以每天执行的小闭环。

最后 · 本周项目：StemDeck，把任意一首歌撕成 6 条 stem

这次我想推 6 月 2 日那篇实操项目： StemDeck · AI 音频分轨 。

它的功能很直接：把一首 MP3、WAV、FLAC，或者一个你有权处理的 YouTube 音频，拆成最多 6 条 stem——人声、鼓、贝斯、吉他、钢琴、其他。然后你可以像在 DAW 里一样 solo、mute、调音量、导出单轨 WAV。它背后用的是 Demucs，本地运行，不需要账号，也不需要把音频上传到云端。

这个项目非常适合音乐学院。你拖一首歌进去，等它分离完，点 Solo 人声，伴奏就没了；把人声 mute 掉，就得到一版伴奏；单独听鼓轨、贝斯轨、钢琴轨，也能直接分析编曲和混音。

前面很多项目是 AI 生成内容。StemDeck 刚好反过来：它不是生成一首歌，而是把一首已经混好的歌拆开。一个是加法，一个是减法。对音乐学习来说，这个减法很有用。

项目地址：

https://github.com/stemdeckapp/stemdeck

如果你做录音，可以拿它拆人声和鼓；如果你做作曲，可以拿它听和弦和编配；如果你做数媒，可以拿不同 stem 去驱动不同视觉层。先不用想太复杂，先找一首三分钟以内的歌，把它拆开听一次。

去做，不是去学。先让一件事跑起来，边界就会自己露出来。

积木船长的朋友

2026 年 6 月 14 日