ARC Puzzle Game

完全黑盒评测

AI 只能看到像素网格和按钮图标 —— 不提供任何规则和说明，必须通过尝试和观察自行推断。

Anti-Luck 防蒙对系统

按钮打乱 + no-op 干扰注入 + 多轮统计，消除随机猜测的幸运因素，衡量真正的推理能力。

世界模型构建测试

测试 AI 能否构建未知环境动态的内部表征 —— 这是 ARC-AGI-3 评测的核心能力。

多维度评测指标

效率、探索浪费、通关率、一致性 —— 超越简单的"通过/失败"，全方位衡量推理质量。

人类校准难度

每个关卡人类都能轻松通关。难度来自机制组合，而非网格尺寸。

插件化架构

在 games/ 目录添加文件即可扩展新游戏。评测支持任意 OpenAI 兼容 API。

Block Transit

旋转与平移结构体
6 关 · 空间推理

Lights Out

灯阵翻转谜题
6 关 · 逻辑推演

Warp Maze

传送门迷宫
6 关 · 探索与规划

开始游戏