新聞 > 科教 > 正文

☕打印版 ◪圖片版 ◫PDF

憋了幾個禮拜，谷歌開發者大會信息量爆炸了

【阿波羅新聞網 2025-05-23 訊】

北京時間5月22日凌晨，一年一度的 Google I/O大會在加州山景城盛大開幕了。谷歌憋了好幾周的大招，終於捨得一口氣放出來，直接來了一波信息轟炸。

差評也派出前線小記者，世超不僅看了大會，還近距離接觸了一把谷歌 CEO Sundar Pichai。

逛完一大圈，咱這就帶大傢伙兒實地走進 I/O，看看谷歌都整了哪些新活兒。

總結一下，這次谷歌把能更新的全做了一遍，AI在各種產品上的應用更是全面開花。

首先迎面向我們走來的是語言模型大軍。

作為谷歌的頭牌之一，自三月發佈以來，Gemini2.5 Pro的表現一直表現非常出色，在 WebDev Arena和 LMArena排行榜處於全球領先的地位。

這回，谷歌在 Gemini2.5 Pro的基礎上繼續探索，加入了深度思考模式，推出 Gemini2.5 Pro Deep Think。

雖然具體的技術細節沒有公佈，但從他們放出的這張圖可以看出，能深度思考的 Gemini2.5 Pro在數學、編程、多模態推理方面的效果都十分驚人，甚至在數學上碾壓了 OpenAI的 o3。

有了好模型做支撐，谷歌嘗試在這個基座上再玩點新東西。

他們通過更新 Live API推出了原生音頻輸出功能，不僅能夠輸出人味十足的聲音，還能捕捉對話的情緒，自動調整語氣。

在 Gemini的加持下，Live AI不僅說話的聲音像人，說話的內容、方式也像人。

具體效果大家可以看下面的視頻：

不知道各位差友感覺如何，世超聽到第十秒的惡魔低語，雞皮疙瘩都起來了。

除此之外，谷歌還優化了側重效率的主力模型 Gemini2.5 Flash，推出了 AI agent—— Project Mariner。

值得注意的是，除了常規的模型更新，他們還推出了 Gemini Diffusion，不使用 Transformer架構，表現可以和 Gemini2.0 Flash-Lite相當，但速度是它的五倍。

Transformer架構雖然用了這麼久，但計算成本高，速度慢，苦於沒啥替代手段，大家只好將就用着。

這次谷歌用擴散模型對大模型的底層架構發起挑戰，如果未來 Gemini Diffusion在表現上還有上升的空間，這可能是一次顛覆性的革新。

大模型說完，再看看多模態生成這邊，花樣就更多了。

Imagen4、Veo3、Lyria2接連推出，圖片、視頻、音頻生成，谷歌全都要。

從官方的例子可以看出，Imagen4遵循提示詞的能力滿分，能生成高達2k解像度的圖片，畫面清晰，細節到位。

在 Imagen3的基礎上，Imagen4的整體圖像質量更高，對指令遵循的能力更強，速度更快。

視頻方面，Veo3不僅在 Veo2的基礎上質量升級，還是首款帶音頻的視頻模型，不僅自帶對話，如果需要，也可以來點背景音樂。

結合生成的提示詞來看官方的案例，Veo3對場景氛圍、對話語氣和人物動作表情的理解都很出色，生成的視頻非常自然。

最後是 Lyria2的音頻生成，同樣很驚艷。

不得不說，Lyria2生成的這段秘魯風格的舞曲，鼓點、電結他、貝斯相輔相成，節奏明快，旋律流暢，絲毫沒有 AI痕跡。

目前，Imagen4和 Lyria2已經在谷歌的 Vertex AI平台上線，Veo3可以加入 waitlist，感興趣的差友可以去體驗一下。

如果說咱上面看過的都屬於零部件，而下面要說的，是谷歌怎麼把這些零件組合起來，融入產品，把AI產品賦能體現得淋漓盡致。

首當其衝的，就是谷歌在搜索業務上推出的 AI mode。

自2022年 ChatGPT問世，大模型對谷歌的核心搜索業務來了一輪狂風巨浪的衝擊。

打不過就加入，谷歌這回直接把 Gemini嵌進傳統搜索，利用大模型的多模態和推理能力，把用戶想要的整理好，直接餵到嘴裏。

AI mode底層使用谷歌的查詢扇出技術(query fan-out)，可以把問題分解成子主題，同時進行多個查詢，深入互聯網尋找答案。

谷歌表示，加入了 AI概覽以後，用戶對搜索的內容滿意度更高，使用頻率上升了10%，這是十年來搜索領域最成功的探索之一。

看來傳統搜索加點 AI，還是能挽回用戶的心的。

除了搜索，谷歌還把多模態生成技術揉一揉，用 Veo+ Imagen+ Gemini搓出了一個電影製作工具 Flow。

Flow可以用 Gemini+ Imagen生成圖像，再用 Gemini+ Veo根據圖像二次創作視頻，還能進行故事續寫。

從官方案例來看，Flow的畫面表現力確實很優秀。難道失業的風也要吹到導演了嗎。。。

不止軟件更新，摸得着的數碼電子產品也是有的。

谷歌把老項目裸眼3D Starline全面升級為 Google Beam，使用六個攝像頭從不同角度捕捉畫面，再利用 AI算法把視頻流整合，投射在3D顯示屏中。

不過，Google Beam這次更新最大的亮點還是它的實時翻譯功能。

這項新功能可以讓不同國家的人使用母語通話，即使對方聽不懂你在說啥，他們也能聽到實時生成的翻譯。

還有一個意想不到的產品在這次大會穢土轉生了，那就是谷歌2023年已經宣判死刑的 Google Glass。

這回谷歌終於放棄之前那套自己搞硬件的想法，而是只干自己擅長的活兒——系統，然後跟咱們國內的 Xreal合作，推出了基於 Android XR平台的最新眼鏡產品：Project Aura。

Android XR作為下一代計算設備的系統，結合了谷歌這麼些年來在 AI、VR和 AR等方面的技術積累，讓頭顯和眼鏡迎來了 Gemini時代。

Project Aura支持 AI的實時翻譯，還能進行發短訊操作，識別攝像頭看到的東西做搜索和問答，並且具備記憶能力。

有了谷歌的入場，接下來的智能眼鏡領域應該會有好戲看了。

盤了這麼多，其實這次 Google I/O的內容還遠遠沒有說完，他們還是太全面了。

除了上面已經提到的，還有編程智能體 Jules、和 Shopping Graph結合的一鍵 AI試衣、Firebase升級、SynthID數字水印、可以在手機上跑的大模型 Gemma3n、辦公可用的 NotebookLM等等等等。

東西太多，怕大家破產，谷歌還貼心地推出了 Google Ultra訂閱套餐，每月僅需124.99刀，Google全家桶帶回家！

總的來說，一場 I/O大會，可以看出谷歌作為科技巨頭的野心。

背靠優秀的人才和龐大的資金，谷歌什麼都要做，還要做得好。

他們早就擺脫了當年被大模型降維打擊的被動局面，轉守為攻，可以從容地等待別人去探索市場、試錯，時機成熟後再快速入場，找到自己的節奏。

AI競賽還在如火如荼地進行，而這次大會，秀的可能不只是當下的技術。想要保住龍頭的地位，更重要的,還有谷歌在 AI領域的廣闊佈局和長遠思考。

責任編輯：方尋　來源：差評轉載請註明作者、出處並保持完整。

本文網址：https://hk.aboluowang.com/2025/0523/2222886.html

谷歌開發者大會

相關新聞