導(dǎo)航菜單

AI+視頻 | Nvidia 投資的AI公司,通過視頻理解開創(chuàng)感知推理,獲頂級(jí)風(fēng)投5000萬美元融資

導(dǎo)讀 在每天刷視頻的時(shí)代,我們?nèi)绾慰焖賱?chuàng)作360度全方位理解的視頻內(nèi)容?Twelve Labs,一家舊金山初創(chuàng)公司,是由一支年輕的工程師團(tuán)隊(duì)Jae Lee ...

在每天刷視頻的時(shí)代,我們?nèi)绾慰焖賱?chuàng)作360度全方位理解的視頻內(nèi)容?

Twelve Labs,一家舊金山初創(chuàng)公司,是由一支年輕的工程師團(tuán)隊(duì)Jae Lee 和 Aiden L 創(chuàng)立,該產(chǎn)品可在視頻中提取特定視頻瞬間,包括視覺、音頻、文本和上下文信息,以實(shí)現(xiàn)語(yǔ)義搜索、分析和洞察。該公司的愿景是創(chuàng)建用于多模式視頻理解的基礎(chǔ)設(shè)施,其自研模型可用于媒體分析并自動(dòng)生成精彩片段。目前已被從多個(gè)頂級(jí)風(fēng)投機(jī)構(gòu)投資。

Sense 思考

我們嘗試基于文章內(nèi)容,提出更多發(fā)散性的推演和深思,歡迎交流。

-場(chǎng)景式視頻內(nèi)容理解是主流:增加視頻數(shù)據(jù)和高質(zhì)量視頻內(nèi)容是未來AIGC在媒體和娛樂領(lǐng)域規(guī)模化采用的基礎(chǔ),場(chǎng)景式理解視頻內(nèi)容(Context Understanding of Video)將會(huì)成為技術(shù)主流。視頻內(nèi)容處理可以細(xì)化到每一個(gè)瞬間,大大提高了視頻內(nèi)容在不同社交平臺(tái)的傳播效率。

- AI原生產(chǎn)品的絲滑體驗(yàn)感:自動(dòng)化視頻數(shù)據(jù)標(biāo)注和數(shù)據(jù)生成可以極大的降低成本,把勞動(dòng)力從重復(fù)性的工作中解放出來。Twelve Labs 把標(biāo)注,搜索和生成端到端的設(shè)計(jì)起來,創(chuàng)造了極優(yōu)的產(chǎn)品體驗(yàn)。

本篇正文共3653字,仔細(xì)閱讀約6分鐘

AI Native 產(chǎn)品分析

52

Twelve Labs

1. 產(chǎn)品:Twelve Labs

2. 產(chǎn)品上線時(shí)間:2023年

3.創(chuàng)始人:

Jae Lee

聯(lián)合創(chuàng)始人兼首席執(zhí)行官,畢業(yè)于UC伯克利大學(xué)計(jì)算機(jī)專業(yè),曾在大韓民國(guó)國(guó)防部擔(dān)任數(shù)據(jù)科學(xué)家,也是三星和亞馬遜的工程師實(shí)習(xí)生。

Aiden L

聯(lián)合創(chuàng)始人兼首席技術(shù)官,布朗大學(xué)的drop-out創(chuàng)業(yè)者,他的專業(yè)是計(jì)算機(jī)科學(xué)和應(yīng)用數(shù)學(xué),研究專注于:視頻理解, 視頻語(yǔ)言模型, 多模態(tài)系統(tǒng),曾在大韓民國(guó)國(guó)防部當(dāng)研究員。

4. 產(chǎn)品簡(jiǎn)介:

Twelve Labs是一個(gè)人工智能平臺(tái),幫助開發(fā)者創(chuàng)建視頻搜索和生成能力。該產(chǎn)品可在視頻中提取特定視頻瞬間,包括視覺、音頻、文本和上下文信息,以實(shí)現(xiàn)語(yǔ)義搜索、分析和洞察。該公司的愿景是創(chuàng)建用于多模式視頻理解的基礎(chǔ)設(shè)施,其自研模型可用于媒體分析并自動(dòng)生成精彩片段。目前已被從多個(gè)頂級(jí)風(fēng)投機(jī)構(gòu)投資。

5. 融資情況:

這家總部位于舊金山的公司已于2024年6月一共籌集了 $77M 萬美元的頂級(jí)風(fēng)投融資,此外早前還獲得了其他機(jī)構(gòu)投資和天使投資人的注資,其中包括:

-2021年1月從 Techstars 獲得天使投資120,000美元

-2022年3月,來自 Index Ventures 的種子融資500萬美元

-2022年12月從 Radical Ventures 獲得1200萬美元

-2023年10月,來自英特爾公司、Samsung Next 和 NVentures 的5000萬美元A 輪融資

01.

創(chuàng)立愿景:視頻內(nèi)容的場(chǎng)景式理解

目前互聯(lián)網(wǎng)上主流的視頻供應(yīng)商Youtube, Tiktok,Reels的全球受眾覆蓋率達(dá)到92%,而且視頻占所有互聯(lián)網(wǎng)流量的82%,盡管如此,80%的視頻內(nèi)容還停留在使用關(guān)鍵詞和數(shù)據(jù)標(biāo)簽這種簡(jiǎn)單的方式去歸類和分析,導(dǎo)致視頻理解受到局限性。

YouTube的下載量在2020年達(dá)到1.5億次

隨著 AIGC 技術(shù)的發(fā)展,通過語(yǔ)義記憶,OCR, NPL, CLIP 等技術(shù)可以360度場(chǎng)景式的理解復(fù)雜視頻內(nèi)容,降低了生成高質(zhì)量視頻內(nèi)容的門檻,使視頻媒體,電商,廣告營(yíng)銷服務(wù)商可更低成本獲取高質(zhì)量的視頻內(nèi)容。

Twelve Labs 的創(chuàng)始人 Jae Lee 發(fā)現(xiàn)了這個(gè)問題,并且表示舊有的視頻系統(tǒng)不能有效解決:“為檢測(cè)特定問題而構(gòu)建的狹義人工智能產(chǎn)品在受控環(huán)境下的理想場(chǎng)景中表現(xiàn)出很高的準(zhǔn)確性,但不能很好地?cái)U(kuò)展到混亂的現(xiàn)實(shí)世界數(shù)據(jù), 它們更像是一個(gè)基于規(guī)則的系統(tǒng),因此在出現(xiàn)差異時(shí)缺乏概括的能力。"

"我們還認(rèn)為這是由于缺乏上下文理解而造成的限制。對(duì)背景的理解賦予了人類獨(dú)特的能力,可以對(duì)現(xiàn)實(shí)世界中看似不同的情況進(jìn)行概括,而這正是 Twelve Labs 的獨(dú)特之處?!?/p>

Twelve Labs 平臺(tái)功能的演示

對(duì)于上述的技術(shù)問題,可以簡(jiǎn)單歸納以下幾點(diǎn):

- 傳統(tǒng)視頻的人工標(biāo)注方式簡(jiǎn)單而且不完善,導(dǎo)致AI對(duì)視頻的理解只在frame-level,對(duì)聲音,場(chǎng)景,圖像都缺乏理解, 在視頻中搜索特定時(shí)刻和場(chǎng)景遠(yuǎn)遠(yuǎn)超出了技術(shù)的能力,特別是如果這些時(shí)刻和場(chǎng)景沒有以明顯的方式標(biāo)記的話。

- 以前使用元數(shù)據(jù)搜索方法,即搜索視頻都是通過視頻已有的描述性文字,導(dǎo)致視頻內(nèi)容沒有場(chǎng)景式的理解。

- 現(xiàn)有的大模型,包括ChatGPT, Stable Diffusion,Mid-Journey等都不是以專注于視頻模型作為基礎(chǔ),所以缺乏大規(guī)模生成客制化的高視頻質(zhì)量能力。

02.

大模型之爭(zhēng):打造視頻優(yōu)先的大模型

為了實(shí)現(xiàn)大規(guī)模莫場(chǎng)景式視頻理解搜索和生成,Twelve Labs 建立了兩個(gè)視頻語(yǔ)言大模型,奠定了極大的技術(shù)優(yōu)勢(shì):

Pegasus-1(800億參數(shù))是 Twelve Labs 的視頻語(yǔ)言模型(Video-to-Text),通過“視頻優(yōu)先”策略確保卓越的視頻理解,具有高效的長(zhǎng)視頻處理、多模態(tài)理解、原生視頻嵌入和深度視頻語(yǔ)言對(duì)齊的優(yōu)點(diǎn)。憑借800億參數(shù)并在3億視頻-文本對(duì)的大型數(shù)據(jù)集上進(jìn)行訓(xùn)練,它顯著超越了之前的模型。在 MSR-VTT 數(shù)據(jù)集上顯示出61% 的提升,在視頻描述數(shù)據(jù)集上提升了47%。與 Whisper-ChatGPT 等 ASR+LLM 模型相比,Pegasus-1的性能提升高達(dá)188%,在視頻轉(zhuǎn)文本的準(zhǔn)確性和效率上設(shè)立了新標(biāo)準(zhǔn)。

(Pegasus-1Image Credits: Twelve Labs)

Marengo-2.6是一款最先進(jìn)的多模態(tài)基礎(chǔ)模型,擅長(zhǎng)執(zhí)行文本到視頻、文本到圖像和文本到音頻等任意搜索任務(wù)。它在 MSR-VTT 數(shù)據(jù)集上比 Google 的 VideoPrism-G 高出10%,在 ActivityNet 數(shù)據(jù)集上高出3%。具備先進(jìn)的零樣本檢索能力,超越現(xiàn)有模型在理解和處理視覺內(nèi)容上的表現(xiàn)。其多功能性還包括跨模態(tài)任務(wù),如音頻到視頻和圖像到視頻。該模型通過重新排序模型實(shí)現(xiàn)了增強(qiáng)的時(shí)間定位,確保更精確的搜索結(jié)果,展示了在多種模態(tài)下令人印象深刻的感知推理能力。

(Pegasus-1Image Credits: Twelve Labs)

03.

產(chǎn)品獨(dú)特優(yōu)勢(shì):AIGC技術(shù)賦能

Tewelve Labs 通過三個(gè)步驟自動(dòng)搜索,分類和生成來簡(jiǎn)化用戶的工作流程,但其中包括了六種主要的產(chǎn)品功能,只需通過對(duì)接API就可以使用:

1、視頻搜索

此模型分析視頻的語(yǔ)義內(nèi)容(Sematic search),包括視頻,音頻,Logo等數(shù)字材料,文字等全面分析場(chǎng)景關(guān)聯(lián)性,以實(shí)現(xiàn)高效且準(zhǔn)確的特定視頻片段檢索,幫助用戶在無需觀看完整內(nèi)容的情況下精準(zhǔn)搜索到大量來自Youtube, Tiktok,Reels等視頻庫(kù)的材料。

(示例:尋找在跑步機(jī)上行走,背景是Air Jordans的視頻)

2、視頻分類

該模型通過分析視頻中的語(yǔ)義特征、對(duì)象和動(dòng)作,將視頻自動(dòng)分類為預(yù)定義的類別,如體育、新聞、娛樂或紀(jì)錄片。這增強(qiáng)了內(nèi)容發(fā)現(xiàn)能力,并提供個(gè)性化推薦。同時(shí),此功能基于內(nèi)容相似性對(duì)視頻進(jìn)行分組,而不需要標(biāo)簽數(shù)據(jù)。它使用視頻嵌入來捕捉視覺和時(shí)間信息,便于測(cè)量相似性并將相似視頻進(jìn)行歸類。

(示例:按TikTok主題對(duì)短視頻進(jìn)行分類)

3、視頻-語(yǔ)言建模

該功能集成文本描述和視頻內(nèi)容,使模型能夠理解并生成基于文本的摘要、描述或?qū)σ曨l內(nèi)容的響應(yīng)。它彌合了視覺和文本理解之間的差距。還可以在生成的視頻上自由修改和插入視頻內(nèi)容,有提供用戶利用細(xì)分賽道數(shù)據(jù)的微調(diào)模型的功能,例如客戶會(huì)需要微調(diào)“茄瓜沙律”為“雞胸肉沙律”。

(用于微調(diào)模型以更好地處理與沙拉相關(guān)的內(nèi)容的 API 模型)

4、視頻描述和摘要

該模型生成自然語(yǔ)言描述和視頻的簡(jiǎn)明摘要,捕捉關(guān)鍵信息和重要時(shí)刻。這改善了理解力和參與度,尤其適用于有視力障礙或時(shí)間限制的用戶。還可以通過自由定義的prompt來生成不同側(cè)重點(diǎn)的長(zhǎng)文字型的視頻總結(jié),故事或者自媒體文章等。

(示例:輸入Prompt,為此視頻創(chuàng)建鏡頭列表)

5、視頻問答(QA)

該模型通過視覺、語(yǔ)言和可能的音頻信息之間的語(yǔ)義推理,回答與視頻內(nèi)容相關(guān)的問題。此功能增強(qiáng)了可訪問性,并提供了用戶互動(dòng)的元素。

04.

通過視頻理解開創(chuàng)感知推理

視頻作為多模態(tài)現(xiàn)實(shí)的核心,其豐富的視覺和聽覺信息是傳統(tǒng)語(yǔ)言模型(LLM)難以完全解析的。在多模態(tài)理解領(lǐng)域,不能簡(jiǎn)單地將現(xiàn)有LLM作為附加功能來處理。相反,從設(shè)計(jì)之初,多模態(tài)基礎(chǔ)模型就應(yīng)該被構(gòu)建為包含這種跨模態(tài)能力。

Twelve Labs 正積極引領(lǐng)這一變革,通過視頻理解開創(chuàng)感知推理,推出下一代多模態(tài)模型來模擬世界。

想象一下時(shí)間在某個(gè)特定時(shí)刻定格,就像一張快照。到目前為止,我們的大腦一直在處理感官輸入,幫助我們理解發(fā)生了什么,預(yù)測(cè)接下來會(huì)發(fā)生什么,并據(jù)此制定計(jì)劃。這種能力被稱為感知推理,是人類智力的基礎(chǔ)。

許多發(fā)展研究表明,人類在生命的最初幾個(gè)月內(nèi)就開始發(fā)展感知能力(從主要周圍環(huán)境中獲取知識(shí)的能力),然后才發(fā)展出任何語(yǔ)言能力(《嬰兒期的物體感知、物體導(dǎo)向動(dòng)作和物理知識(shí)》,1995年)。然而,現(xiàn)代人工智能繞過了這一個(gè)關(guān)鍵的學(xué)習(xí)步驟:通過視頻創(chuàng)建一個(gè)強(qiáng)大的世界表征——這與人類感官數(shù)據(jù)非常相似。

(人類認(rèn)知發(fā)展的四個(gè)階段)

基于此發(fā)現(xiàn),Twelve Labs 致力于通過視頻理解來推動(dòng)感知推理的革命。

他們的目標(biāo)是重新定義機(jī)器如何感知世界并與之互動(dòng)。研究專注于訓(xùn)練先進(jìn)的基礎(chǔ)模型,以彌補(bǔ)這一差距,從視頻數(shù)據(jù)中學(xué)習(xí)豐富的多模態(tài)表示,并利用這些知識(shí)來完成復(fù)雜的高級(jí)推理任務(wù),這些任務(wù)通常需要語(yǔ)言能力才能完成。

Twelve Labs 專注于研究?jī)煞N模型,開發(fā)出不僅能感知和理解視覺世界,還能以類似于人類認(rèn)知的方式對(duì)其進(jìn)行推理的系統(tǒng)。

1、感知—— Marengo

視頻原生編碼器模型 Marengo 是感知的體現(xiàn)。人類的視覺和聽覺器官天生就對(duì)捕捉世界的細(xì)節(jié)有著敏銳的洞察力。為了達(dá)到這一水平,Twelve Labs 致力于訓(xùn)練 Marengo,使其能夠深入分析視頻幀的視覺內(nèi)容以及它們隨時(shí)間變化的關(guān)系,同時(shí)對(duì)伴隨的語(yǔ)音和聲音進(jìn)行精細(xì)的解析。這一模型的目的是實(shí)現(xiàn)對(duì)視覺和聽覺信息的全面理解,它將成為感知推理流程的核心基礎(chǔ)。

(視頻原生編碼器模型 Marengo)

2、推理——Pegasus

真正的視頻理解還需要推理感知的能力。Pegasus 將從大型語(yǔ)言模型(文本數(shù)據(jù))中學(xué)到的推理技能與從視頻編碼器模型(視頻數(shù)據(jù))中獲得的感知理解相結(jié)合。通過結(jié)合這兩種模式,Pegasus 可以進(jìn)行跨模式推理,從 Marengo 豐富的多模式表示中推斷出含義和意圖。

(Pegasus 架構(gòu))

Marengo 和 Pegasus 之間的協(xié)同工作是 Twelve Labs 的 AI 系統(tǒng)中引入感知推理能力的關(guān)鍵。他們的研究不僅僅是開發(fā)最先進(jìn)的模型,而是從根本上重新思考 AI 系統(tǒng)如何學(xué)習(xí)和推理世界。

目前 Twelve Lab 的客戶以程序員和中小企業(yè)為主,通過給中小企業(yè)用戶提供 API 和 PlugIn 等方式去快速擴(kuò)張。創(chuàng)始人 CEO聲稱,自5月初推出內(nèi)測(cè)以來,Twelve Labs 的用戶群已發(fā)展到17,000名開發(fā)者。

該公司目前正在與多家公司合作——目前還不能透露;但從官網(wǎng)上公開信息看,目前已和 FiftyOne 達(dá)成合作,一起通過 PlugIn 形式給缺乏技術(shù)基礎(chǔ)的用戶提供服務(wù)。

當(dāng)然,這并不是一項(xiàng)新的技術(shù),谷歌開發(fā)了一種類似的視頻理解多模態(tài)模型,稱為 MUM,該公司用它來支持谷歌搜索和 YouTube 上的視頻推薦。

除了 MUM 之外,谷歌以及微軟和亞馬遜還提供 API 級(jí)、人工智能驅(qū)動(dòng)的服務(wù),這些服務(wù)可以識(shí)別視頻中的對(duì)象、位置和動(dòng)作,并在幀級(jí)提取豐富的元數(shù)據(jù)。隨著這些技術(shù)的不斷進(jìn)步,我們可以預(yù)見,未來在視頻理解領(lǐng)域的競(jìng)爭(zhēng)將變得異常激烈。

我們正站在一個(gè)由 AI 技術(shù)引領(lǐng)的新時(shí)代的門檻上。在這個(gè)時(shí)代,視頻不再僅僅是動(dòng)態(tài)的視覺記錄,而是智能理解與深度學(xué)習(xí)技術(shù)融合的前沿。

視頻內(nèi)容的深度分析和理解,將為我們打開一個(gè)全新的視角,讓我們以前所未有的方式探索和理解世界。

免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

猜你喜歡:

最新文章: