译:用 Claude 做饭
原文: https://simonwillison.net/2025/Dec/23/cooking-with-claude/
作者: Simon Willison
译者: Claude
2025 年 12 月 23 日
最近,我用 LLM(大型语言模型)辅助做饭,从中获得了很多乐趣。起初我只是用它们来获取基本食谱,但随着我对它们烹饪能力的信心增强,我开始让它们承担更高级的任务。今天我尝试了一些新东西:让 Claude 通过“vibe-code”(一种凭感觉写代码的方式)编写一个自定义应用程序,来帮助我为一个复杂的备餐过程计时。效果非常好!
同时烹饪两道菜的自定义计时应用 #
目前有家人暂住,这意味着要为四个人做饭。我们订阅了一项名为 Green Chef 的送餐服务,主要是因为它让我们每周三次不用为做饭费脑筋:从冰箱里拿出一个袋子,按照说明操作,然后开吃。
每个袋子包含两份,所以为四个人做饭意味着要同时准备两个袋子。
我已经这样做了几次,每次都是一阵手忙脚乱:锅碗瓢盆、各种食材、计时器,还要拼命弄清楚什么时间该做什么,以及如何让两道菜同时完成。这很有趣,但也非常混乱且容易出错。
这次我决定尝试一些不同的东西,而且可能更加混乱和容易出错:我把计划工作完全外包给了 Claude。
我拍了一张两张食谱卡并排的照片,并将其输入给 Claude Opus 4.5(在 Claude iPhone 应用程序中),提示词如下:
尽可能详细地提取这两份食谱
这是一个中等难度的视觉任务,因为照片中有很多小字。我并不确信 Opus 能搞定它。
我自己还没读过食谱卡。这里负责任的做法应该是彻底审查或至少抽查一下——但我选择了保持混乱,除了快速扫一眼结果外,什么也没做。
我问需要什么锅:
如果我同时煮这两道菜,请给我一份我需要的所有锅具的清单
然后我提示它构建一个自定义应用程序来帮助我完成烹饪过程本身:
我要同时煮这两道菜。给我构建一个无 React、移动端友好、交互式的 artifact,详细说明整个过程,并给出每件事发生的准确时间。在顶部设置一个开始按钮,点击后启动计时器,并在 localStorage 中持久化,以防页面重新加载。接下来的步骤应该突出显示,并带有倒计时。完整的合并时间轴应该显示在下方,并带有计算出的每件事应该发生的时间。
我把结果复制到我自己的主机上(你可以在这里试用),因为我不确定 localStorage 是否能在 Claude 应用程序中工作,而我真的不想让它忘记我的时间!
然后我点击了“开始烹饪”!

这是 完整的 Claude 对话记录。
只有一个明显的疏忽:我们的狗 Cleo 非常清楚 她的晚餐时间是下午 6 点整。我忘了跟 Claude 提这一点,结果它安排的几个关键步骤与 Cleo 的用餐时间冲突了。我被狗叫抗议了。这是我活该。
令我大吃一惊的是,它真的管用。我精确地按照食谱指南操作,在开始烹饪整整 44 分钟后端上了两顿饭。

了解 LLM 能力的最好方法是把可能超出它们能力的任务扔给它们,看看会发生什么。在这个案例中,我完全预料到会有东西被遗忘,或者某个细节会出现幻觉,导致我不得不在过程中途手忙脚乱地补救。结果它工作得如此之好,让我既惊讶又印象深刻。
这个应用创意的部分功劳应该归功于 2009 年 /dev/fort 2 的黑客同伴们,当时我们在苏格兰邓弗里斯租了 Knockbrex 城堡一周,并试图构建一个用于复杂餐食的烹饪计时器应用程序。
从零开始生成食谱 #
我其他的 LLM 烹饪实验大多比这简单得多:我索要一份食谱,要求一些变体,然后煮其中一个看看效果。
考虑到 LLM 没有味蕾,这效果好得惊人。
我开始把这看作是向 LLM 索要一道菜的平均食谱,基于它们在训练期间吸收的所有食谱。事实证明,互联网上所有鳄梨酱食谱的平均版本就是一份不错的鳄梨酱!
这是我最近尝试的一个非常成功的食谱示例。我在农贸市场帮 Natalie 照看她的陶瓷摊位,隔壁摊位卖很棒的干豆。我以前从未用过干豆,所以我拍了一张他们精选豆子的照片,问 Claude 我能用它们做什么:
![]()
识别这些豆子
它猜了一下这些豆子,然后我说:
让我对用这些豆子做饭感到兴奋!如果我买两个品种,我可以做什么
“让我兴奋起来”让 Claude 切换到了一种类似“宣传员”的模式,这有点好玩:
噢,你即将进入美妙的豆类烹饪世界!让我为你介绍一些超棒的双豆组合,让你热血沸腾:[…]
混合豆沙拉 配柠檬、橄榄油、新鲜香草、樱桃番茄——清淡但令人满足 […]
我回复道:
好的,豆沙拉引起了我的兴趣——这些是干豆。给我一些我可以做的、能在冰箱里保存很长时间的沙拉选项
……经过几个回合的交流,我们确定了 这份对话记录中的食谱,我第二天就做了(问了很多后续问题),并且非常喜欢。
我在 Claude 和 ChatGPT 上用不同的食谱尝试了很多次,老实说,还没有遇到过明显的失败。能够说“做成素食”或“我没有香菜,可以用什么代替?”或者只是“让它更好吃”,这真是一种探索烹饪的有趣方式。
重复多次“让它更好吃”,看看结果能变得多荒谬,这也很有趣。
我真的希望有人能把这变成一个基准测试! #
用 LLM 做饭非常有趣。这里有一个非常棒的基准测试机会:找一堆领先的模型,让它们提供食谱,按照这些食谱做饭,然后品尝测试结果!
这其中的后勤工作绝对超出了我个人的处理能力。我同时做两顿饭就已经够呛了,对于一个可靠的基准测试,理想情况下你需要让几个模型同时为品鉴小组端上饭菜。
如果其他人想尝试这个,请告诉我结果如何!
Posted 23rd December 2025 at 5:01 am · Follow me on Mastodon, Bluesky, Twitter or subscribe to my newsletter

