2月6日消息,美國當地時間周三,谷歌發佈了Gemini2.0,據官方描述,這是其迄今為止最強大的AI模型套件,並向所有人開放。
2024年12月,谷歌向部分開發者和測試人員提供了Gemini2.0的訪問權限,並將部分功能集成到了谷歌的產品中,但這次是「全面發佈」,意味着所有新模型都可通過谷歌AI Studio和Gemini API供開發者使用。
Gemini2.0模型套件包括多個版本,其中:
Gemini2.0系列模型
Gemini2.0 Flash被稱為「高效的工作模型」,適合處理大規模、高頻率的任務,現已在AI Studio和Vertex AI上線,並向開發者全面開放;
Gemini2.0 Pro Experimental在編碼和數學相關任務中提供「更好的事實準確性」和「更強的性能」。它被描述為谷歌「迄今為止最強大的模型」,現已在AI Studio和Vertex AI上線,面向Gemini高級用戶開放。
Gemini2.0 Flash-Lite則是谷歌推出的「最具成本效益的模型」。該模型在速度和價格上與1.5 Flash相當,但在「大多數基準測試中表現更優」,具有100萬個tokens上下文窗口和多模式輸入。
與Gemini1.5相比,Gemini2.0系列模型在一系列基準測試中性能顯著提升
在價格方面,Gemini Flash的收費標準為每百萬個Token10美分,而Gemini Flash-Lite則更具成本效益,每百萬個Token僅收費0.75美分。Token指的是模型處理的每個數據單元,包含文本、圖像和視頻輸入。
Gemini2.0 Flash和2.0 Flash-Lite的成本進一步降低
谷歌在2024年12月的博客中提到:「過去一年,我們一直在開發更智能的模型,這些模型能更好地理解周圍的世界,進行多步推理,並在用戶的監督下自主執行任務。Gemini2.0具有更強的多模態能力,如支持圖像和音頻輸出,並且具備原生工具使用能力。這個系列的模型將幫助谷歌構建新的AI智能體,逐步實現通用助手的願景。」
這次發佈是谷歌加大對AI智能體投資的一部分。隨着AI領域的競爭加劇,谷歌在推動「虛擬代理」AI方面持續發力。Meta、亞馬遜、微軟、OpenAI和Anthropic等公司也都在致力於開發能夠代替用戶完成複雜多步驟任務的AI系統。
2024年10月,Anthropic宣佈其AI智能體可以像人類一樣使用電腦,完成多達上百步的複雜任務,該系統能夠解讀屏幕上的內容、點擊按鈕、輸入文本、瀏覽網站,並通過任何軟件執行任務。
OpenAI最近也推出了類似的「Operator」功能,能夠自動完成規劃假期、填寫表格、預定餐廳等任務。OpenAI將「Operator」稱為「可以上網替你完成任務的智能體」。
此外,OpenAI還推出了「Deep Research」功能,能夠幫助AI智能體編寫複雜的研究報告,並分析用戶選擇的主題。谷歌在2024年12月也推出了同名工具Deep Research作為「研究助手」,幫助用戶探索複雜主題並編譯報告。
據悉,谷歌計劃在2025年初推出更多AI功能。其行政總裁桑達爾·皮查伊在一次戰略會議上表示:「在歷史上,你不一定要做第一個,但你必須做到最好,這就是我們2025年的目標。」