11月18日晚上。
谷歌啪的一下,就把憋了許久的大招——Gemini3掏了出來。
不搞期貨,沒有付費門檻。
所有用戶都可以在AI Studio或者Gemini官網使用,至少目前還是能免費的。
以往很多網友想起大模型和AI,都會想到那個開啟大模型時代的ChatGPT。
包括說,ChatGPT疊代到5.1版本,它的綜合能力也是公認的頂尖。
但這回谷歌Gemini3的反攻。
機哥這兩天實際體驗下來,只能說完全顛覆了我對它的認知。
因為這哥們實在太猛了,考慮到2025年快要結束,我覺得Gemin3幾乎坐穩了年度最強大模型的位置。


先從機友們喜聞樂見的賽博鬥蛐蛐跑分說起。
它在LMarena排行榜上,以1501 Elo的分數拿下了榜一。
其他驗證大模型不同能力的跑分測試,Gemini也幾乎做到了遙遙領先。
也就剩SWE-Bench Verified,這考驗軟件編程能力的項目,吃了點虧。

講真,機哥已經很久沒有見過。
一個大模型能在文本、圖像、視頻和音頻上,同時做到行業第一。
以至於它剛推出,整個行業都沸騰了起來。
機哥也不多廢話。
就帶着大家體驗一波,它到底比其他大模型領先在哪,又能實際給咱們生活或工作,帶來些啥好處。
先說它最驚艷,最讓人上頭的——「生成式可交互UI」

這功能用人話來說,就是能讓你把想法變成現實。
以往我們雖然也能用大模型生成一些網頁、小遊戲啥的,但基本只能看,沒啥交互性可言。
但現在...
我當場讓它給我生成個單機鬥地主小遊戲。
然後它經過一頓思考,並且搓了兩分多鐘代碼後。
誒,一個開箱就能玩的鬥地主小遊戲就出來了。

這可不是只有表面的UI設計。
谷歌Gemini3連整套代碼邏輯,都給寫上了。
機哥摸魚的時候玩了兩把,沒發現任何問題。
如果我是地主,電腦看我出的牌大就過,看我出完炸沒牌了就弄我。

當然,我知道機友們想說啥。
「做個斗地主遊戲也沒啥難度吧?」
確實。
只要把出牌邏輯、大小優先級定好,對於開發者來說不是難事。
所以我提了個更過分的要求——
「根據我發給你的遊戲圖片,復刻生成一個直接能玩的桌球小遊戲。」

這對於大模型來說,要求其實非常高。
它得能看懂圖片,知道圖片有啥元素。
它得有頂級的代碼能力,知道模擬現實中的桌球碰撞力。
而片刻之後,Gemini3交出的答案是這樣的。
界面有些許色差,但桌上的球擺放位置一模一樣。

關鍵是這玩意,是真的能玩。

甚至說,我嘗試讓它做一個簡單的3D動作遊戲。
Gemini3也像個老實人一樣,給我搓了出來。

既然動態的前端交互UI,都能駕輕就熟造出來。
是不是意味着,動態的軟件界面或者網頁,效果會更勝一籌呢?
咳咳,說干就干。

大概兩分鐘後,Gemini就把答案交出來了。
整體的網頁UI設計和配色,跟原版相當相似。
但可能是為了規避字體和汽車上的版權,它沒有把汽車放上去,字體不是小米自家的MiSans。

看到這裏,機友們應該對Gemini3的能力,有了大致了解。
很多大模型只專攻一個領域,要麼文本、要麼視頻、要麼語音。
但Gemini3天生就是個多模態大模型,理解和生成能力都很頂。

不知道西紅柿炒蛋怎麼做的。
可以讓它生成一個可交互的教程。

它也能看懂視頻,知道視頻里出現了多少個人物,有台詞的人物又有幾位。

為了避免Gemini提前準備作弊。
我現場給它上傳了一個短視頻,讓它分析下視頻里的人物在幹嘛。

除了把左邊的人認錯成了龔俊以外。
其餘關於動作、互動和劇情的分析,一點毛病都沒有。

除了能生成各種各樣可交互的界面、遊戲和App。
在傳統的文字理解和總結上,Gemini3也有很大提升。
因為它最高支持100萬tokens的上下文理解,大概75萬個漢字。
這是啥概念呢?
一部《西遊記》,剛好75萬字。

如此一來。
Gemini3可以在數十萬文字中,找到「真假美猴王」在哪一回。
孫悟空被壓五指山下,又在哪個章節。

這些能力加起來,組成了要啥有啥的Gemini。
以前咱們總吐槽大模型能力不夠完善。
文本厲害的,生圖能力不行,生圖厲害的,視頻能力不行。
甚至很多大模型,都沒法好好理解到咱們的需求。
可Gemini3這波升級,算是給大模型,裝上了五官和腦袋。
能推理、有視覺識別、能寫代碼、生成可交互式UI、能記住很長的東西並總結出來。
要是以後能把這玩意的終極版本,塞到人形機械人上,似乎分分鐘能把我干失業。

但機哥細想一番後,又尋思着。
普通人要是能好好用AI,對於工作或生活的幫助也挺大。
因為阻擋咱們的不再是代碼能力、設計水平,只要自己腦子足夠靈光,能把自己的需求準確描述給AI,讓它幫咱們幹活。
所以多的不說。
趁着Gemini3收費前,有條件的機友,現在就可以去體驗一波。
相信它或多或少,會給大家的工作和生活,帶來點幫助。

















