谷歌推出文字、圖像和視頻三者通吃Gemini AI

2023-12-08 依馬獅視聽(tīng)工場(chǎng)

谷歌周三宣布推出Gemini AI，這是該公司在生成式人工智能領(lǐng)域的最新產(chǎn)品。這標(biāo)志著谷歌與OpenAI的ChatGPT競(jìng)爭(zhēng)的最大嘗試，后者在一年前的同一周首次亮相，點(diǎn)燃了主導(dǎo)2023年的AI熱潮。

與ChatGPT目前只處理文本不同，Gemini 1.0已經(jīng)在谷歌的數(shù)據(jù)檔案庫(kù)中進(jìn)行了訓(xùn)練，可以處理文本、圖像和視頻。Pro是Gemini 1.0的第一個(gè)版本，已經(jīng)被集成到谷歌的Bard英語(yǔ)聊天機(jī)器人中，最終將在170多個(gè)國(guó)家和地區(qū)推出。

Gemini將于12月13日開(kāi)始在谷歌的云API上向開(kāi)發(fā)者開(kāi)放。谷歌表示，最終將推出三個(gè)版本:本周部署的Pro在用于測(cè)試AI軟件能力的8個(gè)常用基準(zhǔn)測(cè)試中，有6個(gè)的得分超過(guò)了ChatGPT的早期版本（3.5）。Ultra是頂級(jí)版本，預(yù)計(jì)用于數(shù)據(jù)中心和企業(yè)應(yīng)用，將于2024年推出；Nano是谷歌安卓平臺(tái)的一個(gè)版本，在谷歌Pixel智能手機(jī)上運(yùn)行。其它新產(chǎn)品將在未來(lái)推出，只要它們通過(guò)谷歌所說(shuō)的“廣泛的信任和安全檢查”。

新版Bard聊天機(jī)器人“Bard Advanced”預(yù)計(jì)將于2024年推出。

它憑借其“多模態(tài)”能力，在現(xiàn)有的基于文本的AI平臺(tái)上增加了圖像和視頻分析能力。

“Gemini最明顯的優(yōu)勢(shì)來(lái)自于它理解視頻和音頻并與它們互動(dòng)的能力。這在很大程度上有意為之：多模態(tài)從一開(kāi)始就是Gemini計(jì)劃的一部分。谷歌還沒(méi)有像OpenAI創(chuàng)建DALL-E和Whisper那樣，為圖像和語(yǔ)音分別訓(xùn)練模型；它從一開(kāi)始就建立了一個(gè)多感官模型。”

AI 人工智能谷歌