10 个最疯狂的 Claude Fable 5 社区测试:AI Agent 下一步能做什么?

2026/06/10

Claude Fable 5 不只是在 benchmark 上被测试。发布后不久,X 上已经出现了大量社区案例:有人让它做游戏,有人让它做物理仿真,有人让它分析视觉信息,还有人把它放进长时间运行的 agent 工作流里。

这些 demo 有的很完整,有的还很粗糙。但它们共同说明了一件事:Fable 5 最值得关注的地方,不是“能不能写代码”,而是它在开放式、视觉化、多步骤、长时间任务里的表现。

下面是我们整理出的 10 个最有代表性的社区测试案例。

说明:这些都是社区发布的公开案例,不是 FastMoroAI 的受控 benchmark。它们更适合作为早期观察信号,而不是正式模型评测结论。

如果你也在关注前沿 AI 视频模型和创意 Agent 工作流,可以回到 FastMoroAI 首页 查看更多模型更新和创作工具。

1. 用 Three.js 和 GSAP 做电影感 storytelling 网站

一个创作者让 Fable 5 构建了一个滚动叙事网站:每一屏都是一个新章节,滚动时颜色和视觉氛围会自然过渡。

这个案例有意思的地方不只是“生成了一个网页”。它同时组合了多个前端工具:用 Three.js 做会响应鼠标的绘制质感背景,用 GSAP ScrollTrigger 做电影感滚动动画,再用 Lenis.js 实现更顺滑的滚动体验。

这类任务很适合测试模型的创意前端能力。它不只是写静态 HTML,而是需要协调动效、布局、视觉风格和交互细节。

来源:@Oluwaphilemon1 on X

2. Hyperagent 的 5 个长任务 agent 测试

Hyperagent 分享了 5 个 Fable 5 测试案例,它们更接近真实 agent 工作,而不是普通 prompt demo:

  • 根据 NASA 数据可视化太阳系所有小行星
  • 设计一个 100 英亩健身度假村的场地规划
  • 根据技术 PDF 重建 Apollo 控制面板
  • 根据比赛结果模拟世界杯球衣销售供应链
  • 展示太阳耀斑对极光的影响

这些案例重要的地方在于,它们结合了研究、规划、视觉输出和领域推理。较弱的模型也许能做出一个看起来合理的 mockup,但更强的 agent 需要从复杂输入中整理结构、做决策,并持续向一个大目标推进。

来源:@hyperagentapp on X

3. 只靠视觉通关 Pokemon FireRed

最出圈的案例之一,是 Fable 5 只靠原始截图完成 Pokemon FireRed。

创作者强调,这个测试没有地图、没有导航系统,也没有隐藏游戏状态。此前的 Claude 模型据说需要额外辅助 harness 才能完成类似任务,而这次 Fable 5 主要依靠视觉输入推进。

这让它成为一个很强的“视觉理解 + 控制”测试。游戏环境很嘈杂:模型要读屏幕、判断状态、规划下一步、从错误中恢复,并在长时间里持续推进。

来源:@chetaslua on X

4. 从第一性原理构建太阳系仿真

另一个创作者让 Fable 5 构建太阳系仿真:从物理第一性原理推导行星轨道运动,并用这个运动模型预测日食。

这类 demo 很能说明 AI 编程 agent 的发展方向。它不只是一个视觉玩具,而是需要数学推理、仿真逻辑,以及能让结果被理解的可视化界面。

对于教育、科学传播和技术原型来说,这种工作流很有价值:先描述概念,让模型构建交互仿真,再继续迭代准确性和呈现方式。

来源:@AngryTomtweets on X

5. 把网络数据包变成高速公路上的车

一个非常聪明的 demo,是把网络数据包实时可视化成高速公路上的车辆。不同车型代表不同 packet type。

这正是优秀可视化的价值:把复杂系统变成普通人也能直观看懂的隐喻。相比日志、表格或 packet dump,“车流”这个画面更容易让人理解网络活动的节奏和类型。

对开发者和基础设施团队来说,这预示着一个很实用的方向:AI 可以把看不见的系统行为,快速转成可视化调试工具。

来源:@bijanbowen on X

6. HTML 版 Minecraft

另一个创作者用 Fable 5 做了一个 Minecraft in HTML 测试。结果是一个可玩的浏览器原型,而且模型甚至自动加了背景音乐。

这个 demo 的重点不是它能不能替代真正的游戏引擎。显然不能。重点在于,Fable 5 能把一个大家熟悉的交互世界,转成一个包含视觉、控制和氛围的可运行原型。

这对快速创意探索很有帮助。游戏设计师、创意开发者和教育内容创作者,可以用这种能力先探索玩法,再决定是否投入完整开发。

来源:@Angaisb_ on X

7. 一句话生成 Skyrim 风格可玩 demo

有创作者给了 Fable 5 一个非常简单的 prompt:make skyrim

模型生成了一个 Skyrim 风格的可玩 demo。它当然不是 AAA 开放世界游戏的替代品,但作为一句话生成的原型,已经很值得注意。模型需要从两个词里推断类型、镜头行为、环境、交互模式和视觉风格。

这种宽泛意图推断,是 Fable 5 和较小代码模型拉开差距的地方之一。它有时不需要用户把每个细节写死,而是能主动补齐创意结构。

来源:@spoobsV1 on X

8. 一次生成 Pokemon clone

另一个宝可梦相关测试,是让 Fable 5 做一个 Pokemon clone。根据创作者描述,模型推理了约 1 小时,一次生成约 8000 行代码。

据称结果包含 151 个第一世代宝可梦、真实正反面 sprite、队伍图标、叫声、基础数值、属性、升级技能、进化、捕捉率和成长曲线。

细节是否全部达到生产级并不是最重要的。真正值得看的,是输出的结构:长代码生成、数据建模、素材协调和游戏系统完整度。

来源:@ChrissGPT on X

9. 一个展示“手感差异”的 demo

一位日本创作者用很短的一句话总结:Fable 5 的“手感”完全不一样。这个帖子文字不长,但视频很有参考价值,因为它展示的是模型进步里更主观的一面。

Benchmark 可以展示能力,demo 往往能展示“感觉”:节奏、审美、自主性,以及模型从宽泛指令里推断结构的能力。很多构建者第一次感知到模型跨过某个门槛,往往就是从这种“手感”开始。

来源:@paji_a on X

10. Every 团队的内部 Fable 5 体验报告

Dan Shipper 分享了 Every 团队对 Fable 5 的内部测试体验,覆盖编程、写作、营销、编辑等工作流。

最醒目的说法是:在 Every 的 Senior Engineer benchmark 中,Fable 5 得到 91/100,而他们测试中的 Opus 4.8 是 63。团队还提到,它在长时间 one-shot 编程、生产 bug backlog、创意原型和数据分析任务上表现很强。

但限制同样重要:Fable 5 很慢、很贵,而且非常吃 token。它不是每个任务都该用的模型。它更适合高价值、重型任务,也就是那些值得让模型长时间运行、并且输出价值足以覆盖成本的场景。

来源:@danshipper on X

这些测试说明了什么?

这些案例最有意思的地方,不是 Fable 5 会写代码。现在很多模型都能写代码。真正的变化在于,Fable 5 看起来更擅长把大型、模糊、开放式任务撑住。

这些 demo 涉及:

  • 长时间执行
  • 视觉推理
  • 游戏状态理解
  • 多文件或多系统代码生成
  • 从数据到界面的转换
  • 创意审美
  • 仿真逻辑
  • agent 式迭代

这也是为什么 Fable 5 被讨论时,越来越像一个 agent 模型,而不只是聊天模型。它的价值不只在于给出答案,而在于能工作多久、能保留多少上下文,以及能不能把模糊意图转成结构化结果。

实用结论

如果你在使用 Fable 5,不要把它浪费在简单任务上。它更适合这类工作:

  • 根据模糊概念构建交互原型
  • 把数据集转成可视化仿真
  • 探索游戏玩法
  • 根据参考资料重建界面
  • 分析复杂反馈并构建解决方案
  • 执行原本需要很多人工步骤的长编程任务

Fable 5 慢,而且成本不低,所以它应该被用在“额外推理真的有价值”的地方。但当任务足够复杂、视觉化、多步骤时,这些早期社区测试说明,它确实能做出和上一代 coding / agent 模型不太一样的结果。

对 AI 构建者来说,这才是关键:Fable 5 不只是提高了代码生成上限,它也提高了单次 AI agent 会话可以尝试的任务上限。

FastMoroAI

FastMoroAI