课堂分享 · 2026-06-14(6/8–6/14) 从上周起,我想把题目里的「我」改成「我们」。不是为了显得热闹,而是因为这周很多事情已经不是我一个人在试 AI:学生在讲自己的流程,同学在搭自己的工具链,真实项目在跑,Agent 甚至第一次替我完成了一笔交易。 还是不讲教程,只讲真实发生过的事。
一、我们把一段课堂口述,蒸馏成了一套 Agent Pipeline
周一中午,一位同学来教室讲她最近在搭的一套 Agent Pipeline 。她先口述自己的想法,我们把话筒打开录下来,然后用另一位同学正在做的语音转录 APP 做 STT。转成文字后,我再在 Obsidian 里让 Claude 做总结。
接下来才是最有意思的部分:我把这份总结丢给 Codex,让它基于内容写出每一个 Agent 的 prompt;同时又让 Claude Co-work 写另一版。最后把 Codex 生成的内容给 Claude 看,把 Claude 生成的内容给 Codex 看,让两边互相审查、互相补充。一个学生的口述,最后变成了一套可以继续迭代的 Agent 角色和流程约束。
这件事后来没有停在「课堂案例」里。因为这周积木去参加种水稻活动,我就在想:能不能拿这套 Agent Pipeline 做一个「种水稻」的小交互游戏?我把这套内容交给 Kimi 跑,很快发现一个问题:原来的 Agent prompt 更像是为了解决一个软件问题、一个机制问题而设计的;但游戏不只是功能,它还有玩法、美术、资产、声音、音乐、关卡、反馈和交互节奏。
所以我又用 Fable5 对这套 Agent Pipeline 做了一版面向游戏的调整,让它不只是「解决问题」,而是更像一个小型游戏团队:有人负责玩法,有人负责美术资产,有人负责音效和音乐,有人负责交互,有人负责测试。然后我再用 Codex 调用 Image2 生成一些美术资产。这个项目现在还在完善,但能明显感觉到,调整后的 Pipeline 对「游戏」的理解比之前好了很多。
如果说前几年我们经常讲的是 Prompt Engineering ——怎么把一句话写好;那现在这件事就是 Loop Engineering ——怎么设计一套循环:谁先产出,谁来审,谁来改,谁再跑下一轮。未来模型质量继续提高以后,也许连 Loop Engineering 都会被新的东西替代。但至少现在,理解这个循环本身,就是理解模型边界的一种方式。
二、真正的 AI 能力,不是装好工具,是卡住以后还能继续问
这周很多朋友来问我 Codex:有人问怎么安装,有人问怎么理解,有人问自己的工作怎么用 AI 赋能。大部分人第一反应都差不多:这个东西好像确实不太好搭,尤其是环境层面的东西。
理论上,我确实当然可以帮别人装好。周一上午的小课里,一位同学带来一台很好的机器,M4 Max,128GB 内存。我帮她装 Chrome、Kimi Code、ChatGPT 可访问环境、Obsidian。事情最后能装好,但我反而更清楚地看到一个问题:如果整个过程都是别人帮你点,你坐在旁边等,那最重要的能力其实没有长出来。
另一位同学那边刚好形成一个对照。他也在折腾本地 Claude / Obsidian 工具链,也会遇到报错。但我只给他演示几次:开一个 Kimi 窗口,把终端里的报错复制进去,让它判断下一步。后面他就开始自己试、自己问、自己改。
我现在越来越觉得,AI 工具学习的关键不是「有人帮你把环境搭好」,而是你卡住的时候,能不能把「卡住」本身也变成下一轮输入。终端报错是一种输入,安装失败是一种输入,不知道下一步点哪儿也是一种输入。
真正的 AI 能力,不是装好工具,是卡住以后还能继续问。
三、新闻稿这件事,可以先从一条录音开始
周二课上,我给做新闻稿的小组在黑板上画了一条很简单的流程:现场录音 → 硅基流动 API 做 STT → 大模型按学校历史新闻稿结构整理 → 每天出一篇,或者周六统一汇总。
这件事很小,但非常适合学校里的真实场景。活动很多,会议很多,讲座很多,最后都要写新闻。以前新闻稿经常靠一个人回去硬写,写完还要改格式、改口径、改标题。现在可以先把现场真实声音留下来,再让模型按已有新闻稿的结构去整理。
这里的重点不是让 AI 替你「编新闻」,而是让它从现场材料里提取出该写的东西。比如谁讲了什么、活动目的是什么、现场发生了什么、后续意义是什么。这些东西如果现场没有记录,后面很容易变成空话;如果录音和 STT 在,至少有一个可追溯的底稿。
这可能也是以后很多学生最容易上手的一类工作流:不是一上来做一个大系统,而是从身边最烦、最重复、最容易丢细节的任务开始,先把它变成一条链路。
四、一个故事脚本,可以先被拆成模块、资产和视觉提示词
这周还有一个项目,需要把一个完整故事脚本转成一组视频视觉资产。这里我不讲具体项目,只讲流程。
我把故事脚本交给 Codex,让它先完整读一遍,再判断整条故事线可以拆成几个模块。拆完以后,再让它继续往下做:每一段需要什么场景资产,什么人物资产,什么演唱或动作资产,每一段大概是什么视觉风格,对应的提示词应该怎么写。
这件事以前会很慢。因为人要先通读故事,再自己在脑子里拆结构,还要把结构翻译成视觉语言。现在第一版可以很快出来:先让 AI 把结构拆开,再让 Codex 直接调用图像模型去生成一些视觉资产。
当然,问题也很明显。Image2 的质量会限制最后的结果;更重要的是,图像模型有时不真正理解剧情里的因果关系。它能把画面画得很好看,但可能会把一个动作的意图弄错。也就是说,AI 很会把结构理清,但它不一定真的懂一个动作为什么发生。
我觉得后面会越来越有意思。现在已经有一些视频生成或视频处理工具开始提供 CLI,未来也许会出现更成熟的达芬奇 CLI、Pro Tools CLI,Codex 不只是写提示词,而是直接调用这些工具完成剪辑、调色、混音、导出。那时内容生产会更像一条可编排的链路,而不只是一个人打开软件慢慢点。
五、一个小麻烦,最后变成了一个开源工具
这周拍了很多照片,尤其是一组孩子插秧的照片,三百多张。我要发朋友圈,需要把几张照片拼成长图。以前用美图之类的工具,总觉得不顺手:广告多、流程重、手机上挑选也不方便。
于是我就想,能不能自己做一个。大概花了 30 分钟,先让 Codex 写出一个可以用的照片拼接器。最开始它只是一个能跑的网页工具,把照片拖进去,调整顺序,导出长图。
后来我发现,每次还要在终端里 npm 启动,也挺麻烦。那就继续改,直接打包成 DMG。再后来又想到,既然它本来就是为了发朋友圈,那为什么不顺手把文案也做了?于是我加了一个文案模块,调用硅基流动 API,用 DeepSeek-v3 帮你写朋友圈文案。你只要说一下大概想表达什么,再选一个预设风格,它就能给你一版可以继续改的文字。
现在这个工具我已经放到 GitHub 上了:
*
https://github.com/Muscliffe64/moments-photo-stitcher
这件事对我有一个很直接的提醒:很多工具不是一开始就要做成产品,而是从一个非常具体的不顺手开始。先解决自己的小麻烦,再打包,再开源,再让别人也能用。AI 把这条路缩短了很多。
六、这周,Agent 第一次替我买了咖啡
周六下午,我答应请几个一起干活的同学喝咖啡。以前这件事就是打开瑞幸,选店、选品、下单、付款。这次我试了一下前一天配好的 瑞幸 MCP ,通过我的 Hermes 让 Agent 来点。
过程不算完美。支付环节出了点小 bug,学校那天四六级考试,网络也不太稳定,最后还是靠手机热点和人工确认完成了付款。但结果是买成了:一共 10 杯,178 块。
这件事让我第一次很具体地感受到:Agent 不只是写文章、写代码、整理资料,它开始能碰到真实交易了。咖啡不是虚拟输出,它最后会来到桌子上。
这个变化可以往远看。WWDC 26之后,Siri 和手机端 Agent 迟早会继续往这个方向走。麦当劳现在也已经有了 MCP 页面:https://open.mcd.cn/mcp 。如果未来你对手机说一句「帮我点一份常吃的套餐,送到学校」,Agent 直接调用商家的 MCP 完成下单,那中间很多平台入口都会被重新改写。
这不只是点咖啡的问题。它意味着很多商业行为可能从「人打开平台 App」变成「Agent 点对点调用服务」。这条线一旦跑通,变化会非常大。
七、AI 个性化学习,不是口号,是先找出一个人的卡点
周五一场讲座里,一位老师讲到一个很有启发的观点:未来老师和学生的差距,可能更多是时间上的差距,而不是能力上的差距。他还提到一个具体做法:上课前先给学生 20 道题,做完以后就知道这节课该讲什么,而不是老师按 PPT 从第一页讲到最后一页。
这句话我很快用在了积木身上。因为他们班数学课这段时间不太稳定,他最近在面积和面积单位换算上明显薄弱。于是我让 Codex 先搜索三年级下册人教版数学内容,出 20 道覆盖知识点的题,让他做一遍。
做完以后,薄弱点就比较清楚了。接下来我让 Codex 设计一个 10 天复习计划:每天 30 到 40 分钟,第一部分是一页 A4 的知识阅读,适合三年级孩子自己看懂;第二部分是一页 A4 的针对性练习;另外每天再加 5 分钟计算练习。全部做成 Word,方便打印。
这件事最重要的地方,不是「AI 给孩子出题」。出题很简单。真正有价值的是:测验 → 找卡点 → 生成材料 → 打印执行 → 做完以后再根据反馈调整。
如果这个流程跑通,个性化学习就不是一个教育概念,而是一套可以每天执行的小闭环。
最后 · 本周项目:StemDeck,把任意一首歌撕成 6 条 stem
这次我想推 6 月 2 日那篇实操项目: StemDeck · AI 音频分轨 。
它的功能很直接:把一首 MP3、WAV、FLAC,或者一个你有权处理的 YouTube 音频,拆成最多 6 条 stem——人声、鼓、贝斯、吉他、钢琴、其他。然后你可以像在 DAW 里一样 solo、mute、调音量、导出单轨 WAV。它背后用的是 Demucs,本地运行,不需要账号,也不需要把音频上传到云端。
这个项目非常适合音乐学院。你拖一首歌进去,等它分离完,点 Solo 人声,伴奏就没了;把人声 mute 掉,就得到一版伴奏;单独听鼓轨、贝斯轨、钢琴轨,也能直接分析编曲和混音。
前面很多项目是 AI 生成内容。StemDeck 刚好反过来:它不是生成一首歌,而是把一首已经混好的歌拆开。一个是加法,一个是减法。对音乐学习来说,这个减法很有用。
项目地址:
*
https://github.com/stemdeckapp/stemdeck
如果你做录音,可以拿它拆人声和鼓;如果你做作曲,可以拿它听和弦和编配;如果你做数媒,可以拿不同 stem 去驱动不同视觉层。先不用想太复杂,先找一首三分钟以内的歌,把它拆开听一次。
去做,不是去学。 先让一件事跑起来, 边界就会自己露出来。
积木船长的朋友
2026 年 6 月 14 日
