用了两天谷歌Gemini 3 感觉它彻底疯狂了
11月18日晚上。
谷歌啪的一下,就把憋了许久的大招——Gemini 3掏了出来。
不搞期货,没有付费门槛。
以往很多网友想起大模型和AI,都会想到那个开启大模型时代的ChatGPT。
包括说,ChatGPT迭代到5.1版本,它的综合能力也是公认的顶尖。
但这回谷歌Gemini 3的反攻。
机哥这两天实际体验下来,只能说完全颠覆了我对它的认知。
因为这哥们实在太猛了,考虑到2025年快要结束,我觉得Gemin 3几乎坐稳了年度最强大模型的位置。


先从机友们喜闻乐见的赛博斗蛐蛐跑分说起。
它在LMarena排行榜上,以1501 Elo的分数拿下了榜一。
其他验证大模型不同能力的跑分测试,Gemini也几乎做到了遥遥领先。
也就剩SWE-Bench Verified,这考验软件编程能力的项目,吃了点亏。

讲真,机哥已经很久没有见过。
一个大模型能在文本、图像、视频和音频上,同时做到行业第一。
以至于它刚推出,整个行业都沸腾了起来。
机哥也不多废话。
就带着大家体验一波,它到底比其他大模型领先在哪,又能实际给咱们生活或工作,带来些啥好处。
先说它最惊艳,最让人上头的——“生成式可交互UI”

这功能用人话来说,就是能让你把想法变成现实。
以往我们虽然也能用大模型生成一些网页、小游戏啥的,但基本只能看,没啥交互性可言。
但现在...
我当场让它给我生成个单机斗地主小游戏。
然后它经过一顿思考,并且搓了两分多钟代码后。
诶,一个开箱就能玩的斗地主小游戏就出来了。

这可不是只有表面的UI设计。
谷歌Gemini 3连整套代码逻辑,都给写上了。
机哥摸鱼的时候玩了两把,没发现任何问题。
如果我是地主,电脑看我出的牌大就过,看我出完炸没牌了就弄我。

当然,我知道机友们想说啥。
“做个斗地主游戏也没啥难度吧?”
确实。
只要把出牌逻辑、大小优先级定好,对于开发者来说不是难事。
所以我提了个更过分的要求——
“根据我发给你的游戏图片,复刻生成一个直接能玩的桌球小游戏。”

这对于大模型来说,要求其实非常高。
它得能看懂图片,知道图片有啥元素。
它得有顶级的代码能力,知道模拟现实中的桌球碰撞力。
而片刻之后,Gemini 3交出的答案是这样的。
界面有些许色差,但桌上的球摆放位置一模一样。

关键是这玩意,是真的能玩。

甚至说,我尝试让它做一个简单的3D动作游戏。
Gemini 3也像个老实人一样,给我搓了出来。
既然动态的前端交互UI,都能驾轻就熟造出来。
是不是意味着,动态的软件界面或者网页,效果会更胜一筹呢?
咳咳,说干就干。

大概两分钟后,Gemini就把答案交出来了。
整体的网页UI设计和配色,跟原版相当相似。
但可能是为了规避字体和汽车上的版权,它没有把汽车放上去,字体不是小米自家的MiSans。

看到这里,机友们应该对Gemini 3的能力,有了大致了解。
很多大模型只专攻一个领域,要么文本、要么视频、要么语音。
但Gemini 3天生就是个多模态大模型,理解和生成能力都很顶。

不知道西红柿炒蛋怎么做的。
可以让它生成一个可交互的教程。

它也能看懂视频,知道视频里出现了多少个人物,有台词的人物又有几位。

为了避免Gemini提前准备作弊。
我现场给它上传了一个短视频,让它分析下视频里的人物在干嘛。
除了把左边的人认错成了龚俊以外。
其余关于动作、互动和剧情的分析,一点毛病都没有。

除了能生成各种各样可交互的界面、游戏和App。
在传统的文字理解和总结上,Gemini 3也有很大提升。
因为它最高支持100万tokens的上下文理解,大概75万个汉字。
这是啥概念呢?
一部《西游记》,刚好75万字。

如此一来。
Gemini 3可以在数十万文字中,找到“真假美猴王”在哪一回。
孙悟空被压五指山下,又在哪个章节。

这些能力加起来,组成了要啥有啥的Gemini。
以前咱们总吐槽大模型能力不够完善。
文本厉害的,生图能力不行,生图厉害的,视频能力不行。
甚至很多大模型,都没法好好理解到咱们的需求。
可Gemini 3这波升级,算是给大模型,装上了五官和脑袋。
能推理、有视觉识别、能写代码、生成可交互式UI、能记住很长的东西并总结出来。
要是以后能把这玩意的终极版本,塞到人形机器人上,似乎分分钟能把我干失业。

但机哥细想一番后,又寻思着。
普通人要是能好好用AI,对于工作或生活的帮助也挺大。
因为阻挡咱们的不再是代码能力、设计水平,只要自己脑子足够灵光,能把自己的需求准确描述给AI,让它帮咱们干活。
所以多的不说。
趁着Gemini 3收费前,有条件的机友,现在就可以去体验一波。
相信它或多或少,会给大家的工作和生活,带来点帮助。
