我的题都做不出,更何况奥数
今天看到新闻,中国队取得第66届国际数学奥林匹克竞赛(IMO)团体冠军,六名选手全部获得金牌。这是过去七年中,中国对第六次夺冠。这已经不是新闻,比较有趣的是好几名AI“选手”也参加了比赛。计有OpenAI的O3 和O4,谷歌的 Gemini 2.5, 马斯克的Grok-4,中国的 DeepSeek-R1 等目前的世界一流AI。
AI选手在这次比赛全军覆没,连“几乎”都没有。得分最高的是Gemini 2.5,得到13分,在42分的满分中,的31%,连铜牌都不到。
然而,文章后面来了这一段,我怎么都看不懂。
“就在大家感叹AI太菜的时候,OpenAI团队用最新开发的通用推理模型,在两场4.5小时的考试时间中,和人类完全相同的考试条件下作答。
最终解出5道题,共获得35分IMO金牌分数线,成功拿到了金牌。”
这里至少有两个问题。OpenAI有没有参赛,好像没有,否则不会说“全军覆没”。因为考题没有外泄,所以是在比赛后做的,你怎么知道训练团队是否在这时间差来了点额外训练?相同条件从何谈起。
两个月前,我给ChatGPT和DeepSeek出了一道当年非常著名,但不算很难的立体几何题目。两“人”都错了,DeepSeek还错的非常离谱。
这道题当年非常著名,当今世界,知道的人已经极少。我曾经请一位搜索高手教我他会怎么找,他也用了四五步才间接找到。很显然,两位AI大概率没受过这方面训练。由此,再加上上面时间差的疑问,我对OpenAI的杰出表现相当怀疑。
上面那道题如下。
有一金字塔,塔底正方形边长为1。四个三角形是正三角形,边长也是一。
有一正四面体,即四个面都是正三角形,边长也是一。
把金字塔的一个三角形和正四面体的一个三角形合在一起,问新的多面体有几个面。
考试委员会的“标准答案”是7,正确答案是5,ChatGPT答7,DeepSeek答8。我不知道OpenAI是何方神圣,有该软体的读者不妨测试一下。
有了这个经验,我对众多AI的全军覆没就毫不惊讶了。再考虑到文中语焉不详的“相同条件”,我对OpenAI的金牌的怀疑也就顺理成章了。