ARC Puzzle Game

一个交互式 AI 推理能力评测平台,受 ARC-AGI-3 基准测试启发。
测试 AI 能否在完全未知的环境中自主探索、学习规则并规划解题路径。

DEMO v1.0 — 3 款游戏 × 18 个关卡
🎮

开始游戏

亲自体验谜题挑战。3 款游戏,难度递进 —— 你能比 AI 做得更好吗?

🤖

AI 解题回放

观看 6 个前沿 AI 模型的解题过程。逐步回放,附带详细统计数据。

📄

项目文档

评测方案设计、评分方法、评测指标体系,以及如何接入自己的模型。

评测方案设计亮点

完全黑盒评测
AI 只能看到像素网格和按钮图标 —— 不提供任何规则和说明,必须通过尝试和观察自行推断。
Anti-Luck 防蒙对系统
按钮打乱 + no-op 干扰注入 + 多轮统计,消除随机猜测的幸运因素,衡量真正的推理能力。
世界模型构建测试
测试 AI 能否构建未知环境动态的内部表征 —— 这是 ARC-AGI-3 评测的核心能力。
多维度评测指标
效率、探索浪费、通关率、一致性 —— 超越简单的"通过/失败",全方位衡量推理质量。
人类校准难度
每个关卡人类都能轻松通关。难度来自机制组合,而非网格尺寸。
插件化架构
在 games/ 目录添加文件即可扩展新游戏。评测支持任意 OpenAI 兼容 API。

内置谜题游戏

Block Transit
旋转与平移结构体
6 关 · 空间推理
Lights Out
灯阵翻转谜题
6 关 · 逻辑推演
Warp Maze
传送门迷宫
6 关 · 探索与规划