一个交互式 AI 推理能力评测平台,受 ARC-AGI-3 基准测试启发。 测试 AI 能否在完全未知的环境中自主探索、学习规则并规划解题路径。
亲自体验谜题挑战。3 款游戏,难度递进 —— 你能比 AI 做得更好吗?
观看 6 个前沿 AI 模型的解题过程。逐步回放,附带详细统计数据。
评测方案设计、评分方法、评测指标体系,以及如何接入自己的模型。