10 个最疯狂的 Claude Fable 5 社区测试：AI Agent 下一步能做什么？

Claude Fable 5 不只是在 benchmark 上被测试。发布后不久，X 上已经出现了大量社区案例：有人让它做游戏，有人让它做物理仿真，有人让它分析视觉信息，还有人把它放进长时间运行的 agent 工作流里。

这些 demo 有的很完整，有的还很粗糙。但它们共同说明了一件事：Fable 5 最值得关注的地方，不是“能不能写代码”，而是它在开放式、视觉化、多步骤、长时间任务里的表现。

下面是我们整理出的 10 个最有代表性的社区测试案例。

如果你也在关注前沿 AI 视频模型和创意 Agent 工作流，可以回到 FastMoroAI 首页查看更多模型更新和创作工具。

1. 用 Three.js 和 GSAP 做电影感 storytelling 网站

一个创作者让 Fable 5 构建了一个滚动叙事网站：每一屏都是一个新章节，滚动时颜色和视觉氛围会自然过渡。

这个案例有意思的地方不只是“生成了一个网页”。它同时组合了多个前端工具：用 Three.js 做会响应鼠标的绘制质感背景，用 GSAP ScrollTrigger 做电影感滚动动画，再用 Lenis.js 实现更顺滑的滚动体验。

这类任务很适合测试模型的创意前端能力。它不只是写静态 HTML，而是需要协调动效、布局、视觉风格和交互细节。

来源：@Oluwaphilemon1 on X

2. Hyperagent 的 5 个长任务 agent 测试

Hyperagent 分享了 5 个 Fable 5 测试案例，它们更接近真实 agent 工作，而不是普通 prompt demo：

根据 NASA 数据可视化太阳系所有小行星
设计一个 100 英亩健身度假村的场地规划
根据技术 PDF 重建 Apollo 控制面板
根据比赛结果模拟世界杯球衣销售供应链
展示太阳耀斑对极光的影响

这些案例重要的地方在于，它们结合了研究、规划、视觉输出和领域推理。较弱的模型也许能做出一个看起来合理的 mockup，但更强的 agent 需要从复杂输入中整理结构、做决策，并持续向一个大目标推进。

来源：@hyperagentapp on X

3. 只靠视觉通关 Pokemon FireRed

最出圈的案例之一，是 Fable 5 只靠原始截图完成 Pokemon FireRed。

创作者强调，这个测试没有地图、没有导航系统，也没有隐藏游戏状态。此前的 Claude 模型据说需要额外辅助 harness 才能完成类似任务，而这次 Fable 5 主要依靠视觉输入推进。

这让它成为一个很强的“视觉理解 + 控制”测试。游戏环境很嘈杂：模型要读屏幕、判断状态、规划下一步、从错误中恢复，并在长时间里持续推进。

来源：@chetaslua on X

4. 从第一性原理构建太阳系仿真

另一个创作者让 Fable 5 构建太阳系仿真：从物理第一性原理推导行星轨道运动，并用这个运动模型预测日食。

这类 demo 很能说明 AI 编程 agent 的发展方向。它不只是一个视觉玩具，而是需要数学推理、仿真逻辑，以及能让结果被理解的可视化界面。

对于教育、科学传播和技术原型来说，这种工作流很有价值：先描述概念，让模型构建交互仿真，再继续迭代准确性和呈现方式。

来源：@AngryTomtweets on X

5. 把网络数据包变成高速公路上的车

一个非常聪明的 demo，是把网络数据包实时可视化成高速公路上的车辆。不同车型代表不同 packet type。

这正是优秀可视化的价值：把复杂系统变成普通人也能直观看懂的隐喻。相比日志、表格或 packet dump，“车流”这个画面更容易让人理解网络活动的节奏和类型。

对开发者和基础设施团队来说，这预示着一个很实用的方向：AI 可以把看不见的系统行为，快速转成可视化调试工具。

来源：@bijanbowen on X

6. HTML 版 Minecraft

另一个创作者用 Fable 5 做了一个 Minecraft in HTML 测试。结果是一个可玩的浏览器原型，而且模型甚至自动加了背景音乐。

这个 demo 的重点不是它能不能替代真正的游戏引擎。显然不能。重点在于，Fable 5 能把一个大家熟悉的交互世界，转成一个包含视觉、控制和氛围的可运行原型。

这对快速创意探索很有帮助。游戏设计师、创意开发者和教育内容创作者，可以用这种能力先探索玩法，再决定是否投入完整开发。

来源：@Angaisb_ on X

7. 一句话生成 Skyrim 风格可玩 demo

有创作者给了 Fable 5 一个非常简单的 prompt：make skyrim。

模型生成了一个 Skyrim 风格的可玩 demo。它当然不是 AAA 开放世界游戏的替代品，但作为一句话生成的原型，已经很值得注意。模型需要从两个词里推断类型、镜头行为、环境、交互模式和视觉风格。

这种宽泛意图推断，是 Fable 5 和较小代码模型拉开差距的地方之一。它有时不需要用户把每个细节写死，而是能主动补齐创意结构。

来源：@spoobsV1 on X

8. 一次生成 Pokemon clone

另一个宝可梦相关测试，是让 Fable 5 做一个 Pokemon clone。根据创作者描述，模型推理了约 1 小时，一次生成约 8000 行代码。

据称结果包含 151 个第一世代宝可梦、真实正反面 sprite、队伍图标、叫声、基础数值、属性、升级技能、进化、捕捉率和成长曲线。

细节是否全部达到生产级并不是最重要的。真正值得看的，是输出的结构：长代码生成、数据建模、素材协调和游戏系统完整度。

来源：@ChrissGPT on X

9. 一个展示“手感差异”的 demo

一位日本创作者用很短的一句话总结：Fable 5 的“手感”完全不一样。这个帖子文字不长，但视频很有参考价值，因为它展示的是模型进步里更主观的一面。

Benchmark 可以展示能力，demo 往往能展示“感觉”：节奏、审美、自主性，以及模型从宽泛指令里推断结构的能力。很多构建者第一次感知到模型跨过某个门槛，往往就是从这种“手感”开始。

来源：@paji_a on X

10. Every 团队的内部 Fable 5 体验报告

Dan Shipper 分享了 Every 团队对 Fable 5 的内部测试体验，覆盖编程、写作、营销、编辑等工作流。

最醒目的说法是：在 Every 的 Senior Engineer benchmark 中，Fable 5 得到 91/100，而他们测试中的 Opus 4.8 是 63。团队还提到，它在长时间 one-shot 编程、生产 bug backlog、创意原型和数据分析任务上表现很强。

但限制同样重要：Fable 5 很慢、很贵，而且非常吃 token。它不是每个任务都该用的模型。它更适合高价值、重型任务，也就是那些值得让模型长时间运行、并且输出价值足以覆盖成本的场景。

来源：@danshipper on X

这些测试说明了什么？

这些案例最有意思的地方，不是 Fable 5 会写代码。现在很多模型都能写代码。真正的变化在于，Fable 5 看起来更擅长把大型、模糊、开放式任务撑住。

这些 demo 涉及：

长时间执行
视觉推理
游戏状态理解
多文件或多系统代码生成
从数据到界面的转换
创意审美
仿真逻辑
agent 式迭代

这也是为什么 Fable 5 被讨论时，越来越像一个 agent 模型，而不只是聊天模型。它的价值不只在于给出答案，而在于能工作多久、能保留多少上下文，以及能不能把模糊意图转成结构化结果。

实用结论

如果你在使用 Fable 5，不要把它浪费在简单任务上。它更适合这类工作：

根据模糊概念构建交互原型
把数据集转成可视化仿真
探索游戏玩法
根据参考资料重建界面
分析复杂反馈并构建解决方案
执行原本需要很多人工步骤的长编程任务

Fable 5 慢，而且成本不低，所以它应该被用在“额外推理真的有价值”的地方。但当任务足够复杂、视觉化、多步骤时，这些早期社区测试说明，它确实能做出和上一代 coding / agent 模型不太一样的结果。

对 AI 构建者来说，这才是关键：Fable 5 不只是提高了代码生成上限，它也提高了单次 AI agent 会话可以尝试的任务上限。