谷歌推出文字、圖像和視頻三者通吃Gemini AI

2023-12-08 依馬獅視聽工場

谷歌周三宣布推出Gemini AI，這是該公司在生成式人工智能領(lǐng)域的最新產(chǎn)品。這標志著谷歌與OpenAI的ChatGPT競爭的最大嘗試，后者在一年前的同一周首次亮相，點燃了主導(dǎo)2023年的AI熱潮。

與ChatGPT目前只處理文本不同，Gemini 1.0已經(jīng)在谷歌的數(shù)據(jù)檔案庫中進行了訓(xùn)練，可以處理文本、圖像和視頻。Pro是Gemini 1.0的第一個版本，已經(jīng)被集成到谷歌的Bard英語聊天機器人中，最終將在170多個國家和地區(qū)推出。

Gemini將于12月13日開始在谷歌的云API上向開發(fā)者開放。谷歌表示，最終將推出三個版本:本周部署的Pro在用于測試AI軟件能力的8個常用基準測試中，有6個的得分超過了ChatGPT的早期版本（3.5）。Ultra是頂級版本，預(yù)計用于數(shù)據(jù)中心和企業(yè)應(yīng)用，將于2024年推出；Nano是谷歌安卓平臺的一個版本，在谷歌Pixel智能手機上運行。其它新產(chǎn)品將在未來推出，只要它們通過谷歌所說的“廣泛的信任和安全檢查”。

新版Bard聊天機器人“Bard Advanced”預(yù)計將于2024年推出。

它憑借其“多模態(tài)”能力，在現(xiàn)有的基于文本的AI平臺上增加了圖像和視頻分析能力。

“Gemini最明顯的優(yōu)勢來自于它理解視頻和音頻并與它們互動的能力。這在很大程度上有意為之：多模態(tài)從一開始就是Gemini計劃的一部分。谷歌還沒有像OpenAI創(chuàng)建DALL-E和Whisper那樣，為圖像和語音分別訓(xùn)練模型；它從一開始就建立了一個多感官模型。”

AI 人工智能谷歌