新聞 > 科教 > 正文

憋了幾個禮拜,谷歌開發者大會信息量爆炸了

北京時間5月22日凌晨,一年一度的 Google I/O大會在加州山景城盛大開幕了。谷歌憋了好幾周的大招,終於捨得一口氣放出來,直接來了一波信息轟炸。

差評也派出前線小記者,世超不僅看了大會,還近距離接觸了一把谷歌 CEO Sundar Pichai。

逛完一大圈,咱這就帶大傢伙兒實地走進 I/O,看看谷歌都整了哪些新活兒。

總結一下,這次谷歌把能更新的全做了一遍,AI在各種產品上的應用更是全面開花。

首先迎面向我們走來的是語言模型大軍。

作為谷歌的頭牌之一,自三月發佈以來,Gemini2.5 Pro的表現一直表現非常出色,在 WebDev Arena和 LMArena排行榜處於全球領先的地位。

這回,谷歌在 Gemini2.5 Pro的基礎上繼續探索,加入了深度思考模式,推出 Gemini2.5 Pro Deep Think。

雖然具體的技術細節沒有公佈,但從他們放出的這張圖可以看出,能深度思考的 Gemini2.5 Pro在數學、編程、多模態推理方面的效果都十分驚人,甚至在數學上碾壓了 OpenAI的 o3。

有了好模型做支撐,谷歌嘗試在這個基座上再玩點新東西。

他們通過更新 Live API推出了原生音頻輸出功能,不僅能夠輸出人味十足的聲音,還能捕捉對話的情緒,自動調整語氣。

在 Gemini的加持下,Live AI不僅說話的聲音像人,說話的內容、方式也像人。

具體效果大家可以看下面的視頻:

不知道各位差友感覺如何,世超聽到第十秒的惡魔低語,雞皮疙瘩都起來了。

除此之外,谷歌還優化了側重效率的主力模型 Gemini2.5 Flash,推出了 AI agent—— Project Mariner。

值得注意的是,除了常規的模型更新,他們還推出了 Gemini Diffusion,不使用 Transformer架構,表現可以和 Gemini2.0 Flash-Lite相當,但速度是它的五倍。

Transformer架構雖然用了這麼久,但計算成本高,速度慢,苦於沒啥替代手段,大家只好將就用着。

這次谷歌用擴散模型對大模型的底層架構發起挑戰,如果未來 Gemini Diffusion在表現上還有上升的空間,這可能是一次顛覆性的革新。

大模型說完,再看看多模態生成這邊,花樣就更多了。

Imagen4、Veo3、Lyria2接連推出,圖片、視頻、音頻生成,谷歌全都要。

從官方的例子可以看出,Imagen4遵循提示詞的能力滿分,能生成高達2k解像度的圖片,畫面清晰,細節到位。

在 Imagen3的基礎上,Imagen4的整體圖像質量更高,對指令遵循的能力更強,速度更快。

視頻方面,Veo3不僅在 Veo2的基礎上質量升級,還是首款帶音頻的視頻模型,不僅自帶對話,如果需要,也可以來點背景音樂。

結合生成的提示詞來看官方的案例,Veo3對場景氛圍、對話語氣和人物動作表情的理解都很出色,生成的視頻非常自然。

最後是 Lyria2的音頻生成,同樣很驚艷。

不得不說,Lyria2生成的這段秘魯風格的舞曲,鼓點、電結他、貝斯相輔相成,節奏明快,旋律流暢,絲毫沒有 AI痕跡。

目前,Imagen4和 Lyria2已經在谷歌的 Vertex AI平台上線,Veo3可以加入 waitlist,感興趣的差友可以去體驗一下。

如果說咱上面看過的都屬於零部件,而下面要說的,是谷歌怎麼把這些零件組合起來,融入產品,把AI產品賦能體現得淋漓盡致。

首當其衝的,就是谷歌在搜索業務上推出的 AI mode。

自2022年 ChatGPT問世,大模型對谷歌的核心搜索業務來了一輪狂風巨浪的衝擊。

打不過就加入,谷歌這回直接把 Gemini嵌進傳統搜索,利用大模型的多模態和推理能力,把用戶想要的整理好,直接餵到嘴裏。

AI mode底層使用谷歌的查詢扇出技術(query fan-out),可以把問題分解成子主題,同時進行多個查詢,深入互聯網尋找答案。

谷歌表示,加入了 AI概覽以後,用戶對搜索的內容滿意度更高,使用頻率上升了10%,這是十年來搜索領域最成功的探索之一。

看來傳統搜索加點 AI,還是能挽回用戶的心的。

除了搜索,谷歌還把多模態生成技術揉一揉,用 Veo+ Imagen+ Gemini搓出了一個電影製作工具 Flow。

Flow可以用 Gemini+ Imagen生成圖像,再用 Gemini+ Veo根據圖像二次創作視頻,還能進行故事續寫。

從官方案例來看,Flow的畫面表現力確實很優秀。難道失業的風也要吹到導演了嗎。。。

不止軟件更新,摸得着的數碼電子產品也是有的。

谷歌把老項目裸眼3D Starline全面升級為 Google Beam,使用六個攝像頭從不同角度捕捉畫面,再利用 AI算法把視頻流整合,投射在3D顯示屏中。

不過,Google Beam這次更新最大的亮點還是它的實時翻譯功能。

這項新功能可以讓不同國家的人使用母語通話,即使對方聽不懂你在說啥,他們也能聽到實時生成的翻譯。

還有一個意想不到的產品在這次大會穢土轉生了,那就是谷歌2023年已經宣判死刑的 Google Glass。

這回谷歌終於放棄之前那套自己搞硬件的想法,而是只干自己擅長的活兒——系統,然後跟咱們國內的 Xreal合作,推出了基於 Android XR平台的最新眼鏡產品:Project Aura。

Android XR作為下一代計算設備的系統,結合了谷歌這麼些年來在 AI、VR和 AR等方面的技術積累,讓頭顯和眼鏡迎來了 Gemini時代。

Project Aura支持 AI的實時翻譯,還能進行發短訊操作,識別攝像頭看到的東西做搜索和問答,並且具備記憶能力。

有了谷歌的入場,接下來的智能眼鏡領域應該會有好戲看了。

盤了這麼多,其實這次 Google I/O的內容還遠遠沒有說完,他們還是太全面了。

除了上面已經提到的,還有編程智能體 Jules、和 Shopping Graph結合的一鍵 AI試衣、Firebase升級、SynthID數字水印、可以在手機上跑的大模型 Gemma3n、辦公可用的 NotebookLM等等等等。

東西太多,怕大家破產,谷歌還貼心地推出了 Google Ultra訂閱套餐,每月僅需124.99刀,Google全家桶帶回家!

總的來說,一場 I/O大會,可以看出谷歌作為科技巨頭的野心。

背靠優秀的人才和龐大的資金,谷歌什麼都要做,還要做得好。

他們早就擺脫了當年被大模型降維打擊的被動局面,轉守為攻,可以從容地等待別人去探索市場、試錯,時機成熟後再快速入場,找到自己的節奏。

AI競賽還在如火如荼地進行,而這次大會,秀的可能不只是當下的技術。想要保住龍頭的地位,更重要的,還有谷歌在 AI領域的廣闊佈局和長遠思考。

責任編輯: 方尋  來源:差評 轉載請註明作者、出處並保持完整。

本文網址:https://hk.aboluowang.com/2025/0523/2222886.html