Gemini是個水桶型模型,可能在數學,推理,創意上都比不上最好的模型。但是它每一項的能力都不差,甚至多模態理解處於全球領先行列,速度也是嘎嘎快。
剛剛,Google宣佈在Google AI Studio和Gemini API上開放Gemini2.0 Flash的原生圖像生成功能,供開發者測試和實驗。也就是不止輸入可以圖文,現在模型可以無縫的融合圖文同時輸出了!
不僅能理解文字,還能直接根據描述生成令人驚艷的高質量圖片。主要功能包括:文本+圖像生成、對話式圖像編輯、真實感圖片創作以及高質量文本渲染。
它不僅能理解文字,還能直接根據描述生成高質量的圖片。支持文本+圖像生成、對話式圖像編輯、真實感圖片創作、高質量文本渲染。
多模態能力:可以同時理解文字、圖像,並在二者之間建立聯繫。
智能推理:能夠結合現實世界的知識,生成準確的視覺內容。
自然語言交互:支持用戶通過對話方式調整修改圖片,類似 AI畫師助手。
接下來是試玩環節~
輸入一個描述:「以「一隻可愛的豬在天上飛」為主題,生成6副連續插畫。」
Gemini2.0 Flash會根據文本生成一系列插圖,讓角色和場景在不同畫面中保持一致性。從結果可以看到,它能在一次內容輸出中包含多張圖,且角色形象始終如一。
進一步,還可以要求它修改繪畫風格(如卡通風、寫實風等)。
這樣想像空間就很大了,如之前很多爆款的針對小孩的插畫故事視頻,古詩插畫視頻,門檻製作進一步降低了。
除此之外,我們還可以,用語言完成PS,並且這是有多輪交互支持上下文的!
在舉個例子:「讓AI生成一個藍色的房子」,然後進行交互修改佈局,顏色:
相比一般的AI畫圖工具,Gemini2.0 Flash能理解更多現實世界的細節和文化背景。
因為Gemini本身是經過了大量語言模型訓練的,所以世界知識豐富,利用世界知識和增強推理來創建正確的圖像。這使得它非常適合創建逼真的詳細圖像——比如「我想做一道東北大亂燉,請告訴我要怎麼做,每一步驟請配上圖片」。
好了,百家號的門檻也被拉下來了。
在優秀的畫圖能力基礎上,Gemini2.0 Flash的文本渲染也非常出色。它比傳統AI畫圖工具更擅長繪製帶文字的圖片,有效避免了字符模糊、錯別字等常見問題。
舉例:
你需要生成一張小米su7 ultra廣告海報,要求寫上「一些字」+商品圖
傳統AI可能會把文字畫得模糊不清,甚至拼錯。而Gemini2.0 Flash能更精準地渲染出清晰、規範的文本。
最後
在簡單體驗了更新之後,它缺失不僅能理解多種模態的信息,還能在不同模態間自如轉換;不僅能遵循指令,還能理解文化背景和現實世界的細節;不僅能一次性完成任務,還能通過多輪對話持續優化結果。這種跨模態理解、推理和創作的綜合能力,確實讓我們仿佛看到了AGI的影子。技術的邊界正在被不斷推進,而我們有幸見證這一切。