一本综合久久国产二区,多多电影免费播放

導(dǎo)讀在每天刷視頻的時(shí)代，我們?nèi)绾慰焖賱?chuàng)作360度全方位理解的視頻內(nèi)容?Twelve Labs，一家舊金山初創(chuàng)公司，是由一支年輕的工程師團(tuán)隊(duì)Jae Lee ...

在每天刷視頻的時(shí)代，我們?nèi)绾慰焖賱?chuàng)作360度全方位理解的視頻內(nèi)容?

Twelve Labs，一家舊金山初創(chuàng)公司，是由一支年輕的工程師團(tuán)隊(duì)Jae Lee 和 Aiden L 創(chuàng)立，該產(chǎn)品可在視頻中提取特定視頻瞬間，包括視覺、音頻、文本和上下文信息，以實(shí)現(xiàn)語(yǔ)義搜索、分析和洞察。該公司的愿景是創(chuàng)建用于多模式視頻理解的基礎(chǔ)設(shè)施，其自研模型可用于媒體分析并自動(dòng)生成精彩片段。目前已被從多個(gè)頂級(jí)風(fēng)投機(jī)構(gòu)投資。

Sense 思考

我們嘗試基于文章內(nèi)容，提出更多發(fā)散性的推演和深思，歡迎交流。

-場(chǎng)景式視頻內(nèi)容理解是主流:增加視頻數(shù)據(jù)和高質(zhì)量視頻內(nèi)容是未來AIGC在媒體和娛樂領(lǐng)域規(guī)模化采用的基礎(chǔ)，場(chǎng)景式理解視頻內(nèi)容（Context Understanding of Video）將會(huì)成為技術(shù)主流。視頻內(nèi)容處理可以細(xì)化到每一個(gè)瞬間，大大提高了視頻內(nèi)容在不同社交平臺(tái)的傳播效率。

- AI原生產(chǎn)品的絲滑體驗(yàn)感:自動(dòng)化視頻數(shù)據(jù)標(biāo)注和數(shù)據(jù)生成可以極大的降低成本，把勞動(dòng)力從重復(fù)性的工作中解放出來。Twelve Labs 把標(biāo)注，搜索和生成端到端的設(shè)計(jì)起來，創(chuàng)造了極優(yōu)的產(chǎn)品體驗(yàn)。

本篇正文共3653字，仔細(xì)閱讀約6分鐘

AI Native 產(chǎn)品分析

Twelve Labs

1. 產(chǎn)品:Twelve Labs

2. 產(chǎn)品上線時(shí)間:2023年

3.創(chuàng)始人:

Jae Lee

聯(lián)合創(chuàng)始人兼首席執(zhí)行官，畢業(yè)于UC伯克利大學(xué)計(jì)算機(jī)專業(yè)，曾在大韓民國(guó)國(guó)防部擔(dān)任數(shù)據(jù)科學(xué)家，也是三星和亞馬遜的工程師實(shí)習(xí)生。

Aiden L

聯(lián)合創(chuàng)始人兼首席技術(shù)官，布朗大學(xué)的drop-out創(chuàng)業(yè)者，他的專業(yè)是計(jì)算機(jī)科學(xué)和應(yīng)用數(shù)學(xué)，研究專注于:視頻理解，視頻語(yǔ)言模型，多模態(tài)系統(tǒng)，曾在大韓民國(guó)國(guó)防部當(dāng)研究員。

4. 產(chǎn)品簡(jiǎn)介:

Twelve Labs是一個(gè)人工智能平臺(tái)，幫助開發(fā)者創(chuàng)建視頻搜索和生成能力。該產(chǎn)品可在視頻中提取特定視頻瞬間，包括視覺、音頻、文本和上下文信息，以實(shí)現(xiàn)語(yǔ)義搜索、分析和洞察。該公司的愿景是創(chuàng)建用于多模式視頻理解的基礎(chǔ)設(shè)施，其自研模型可用于媒體分析并自動(dòng)生成精彩片段。目前已被從多個(gè)頂級(jí)風(fēng)投機(jī)構(gòu)投資。

5. 融資情況:

這家總部位于舊金山的公司已于2024年6月一共籌集了 $77M 萬美元的頂級(jí)風(fēng)投融資，此外早前還獲得了其他機(jī)構(gòu)投資和天使投資人的注資，其中包括:

-2021年1月從 Techstars 獲得天使投資120，000美元

-2022年3月，來自 Index Ventures 的種子融資500萬美元

-2022年12月從 Radical Ventures 獲得1200萬美元

-2023年10月，來自英特爾公司、Samsung Next 和 NVentures 的5000萬美元A 輪融資

01.

創(chuàng)立愿景:視頻內(nèi)容的場(chǎng)景式理解

目前互聯(lián)網(wǎng)上主流的視頻供應(yīng)商Youtube， Tiktok，Reels的全球受眾覆蓋率達(dá)到92%，而且視頻占所有互聯(lián)網(wǎng)流量的82%，盡管如此，80%的視頻內(nèi)容還停留在使用關(guān)鍵詞和數(shù)據(jù)標(biāo)簽這種簡(jiǎn)單的方式去歸類和分析，導(dǎo)致視頻理解受到局限性。

YouTube的下載量在2020年達(dá)到1.5億次

隨著 AIGC 技術(shù)的發(fā)展，通過語(yǔ)義記憶，OCR， NPL， CLIP 等技術(shù)可以360度場(chǎng)景式的理解復(fù)雜視頻內(nèi)容，降低了生成高質(zhì)量視頻內(nèi)容的門檻，使視頻媒體，電商，廣告營(yíng)銷服務(wù)商可更低成本獲取高質(zhì)量的視頻內(nèi)容。

Twelve Labs 的創(chuàng)始人 Jae Lee 發(fā)現(xiàn)了這個(gè)問題，并且表示舊有的視頻系統(tǒng)不能有效解決:“為檢測(cè)特定問題而構(gòu)建的狹義人工智能產(chǎn)品在受控環(huán)境下的理想場(chǎng)景中表現(xiàn)出很高的準(zhǔn)確性，但不能很好地?cái)U(kuò)展到混亂的現(xiàn)實(shí)世界數(shù)據(jù)，它們更像是一個(gè)基于規(guī)則的系統(tǒng)，因此在出現(xiàn)差異時(shí)缺乏概括的能力。"

"我們還認(rèn)為這是由于缺乏上下文理解而造成的限制。對(duì)背景的理解賦予了人類獨(dú)特的能力，可以對(duì)現(xiàn)實(shí)世界中看似不同的情況進(jìn)行概括，而這正是 Twelve Labs 的獨(dú)特之處?！?/p>

Twelve Labs 平臺(tái)功能的演示

對(duì)于上述的技術(shù)問題，可以簡(jiǎn)單歸納以下幾點(diǎn):

- 傳統(tǒng)視頻的人工標(biāo)注方式簡(jiǎn)單而且不完善，導(dǎo)致AI對(duì)視頻的理解只在frame-level，對(duì)聲音，場(chǎng)景，圖像都缺乏理解，在視頻中搜索特定時(shí)刻和場(chǎng)景遠(yuǎn)遠(yuǎn)超出了技術(shù)的能力，特別是如果這些時(shí)刻和場(chǎng)景沒有以明顯的方式標(biāo)記的話。

- 以前使用元數(shù)據(jù)搜索方法，即搜索視頻都是通過視頻已有的描述性文字，導(dǎo)致視頻內(nèi)容沒有場(chǎng)景式的理解。

- 現(xiàn)有的大模型，包括ChatGPT， Stable Diffusion，Mid-Journey等都不是以專注于視頻模型作為基礎(chǔ)，所以缺乏大規(guī)模生成客制化的高視頻質(zhì)量能力。

02.

大模型之爭(zhēng):打造視頻優(yōu)先的大模型

為了實(shí)現(xiàn)大規(guī)模莫場(chǎng)景式視頻理解搜索和生成，Twelve Labs 建立了兩個(gè)視頻語(yǔ)言大模型，奠定了極大的技術(shù)優(yōu)勢(shì):

Pegasus-1（800億參數(shù)）是 Twelve Labs 的視頻語(yǔ)言模型（Video-to-Text），通過“視頻優(yōu)先”策略確保卓越的視頻理解，具有高效的長(zhǎng)視頻處理、多模態(tài)理解、原生視頻嵌入和深度視頻語(yǔ)言對(duì)齊的優(yōu)點(diǎn)。憑借800億參數(shù)并在3億視頻-文本對(duì)的大型數(shù)據(jù)集上進(jìn)行訓(xùn)練，它顯著超越了之前的模型。在 MSR-VTT 數(shù)據(jù)集上顯示出61% 的提升，在視頻描述數(shù)據(jù)集上提升了47%。與 Whisper-ChatGPT 等 ASR+LLM 模型相比，Pegasus-1的性能提升高達(dá)188%，在視頻轉(zhuǎn)文本的準(zhǔn)確性和效率上設(shè)立了新標(biāo)準(zhǔn)。

（Pegasus-1Image Credits: Twelve Labs）

Marengo-2.6是一款最先進(jìn)的多模態(tài)基礎(chǔ)模型，擅長(zhǎng)執(zhí)行文本到視頻、文本到圖像和文本到音頻等任意搜索任務(wù)。它在 MSR-VTT 數(shù)據(jù)集上比 Google 的 VideoPrism-G 高出10%，在 ActivityNet 數(shù)據(jù)集上高出3%。具備先進(jìn)的零樣本檢索能力，超越現(xiàn)有模型在理解和處理視覺內(nèi)容上的表現(xiàn)。其多功能性還包括跨模態(tài)任務(wù)，如音頻到視頻和圖像到視頻。該模型通過重新排序模型實(shí)現(xiàn)了增強(qiáng)的時(shí)間定位，確保更精確的搜索結(jié)果，展示了在多種模態(tài)下令人印象深刻的感知推理能力。

（Pegasus-1Image Credits: Twelve Labs）

03.

產(chǎn)品獨(dú)特優(yōu)勢(shì):AIGC技術(shù)賦能

Tewelve Labs 通過三個(gè)步驟自動(dòng)搜索，分類和生成來簡(jiǎn)化用戶的工作流程，但其中包括了六種主要的產(chǎn)品功能，只需通過對(duì)接API就可以使用:

1、視頻搜索

此模型分析視頻的語(yǔ)義內(nèi)容（Sematic search），包括視頻，音頻，Logo等數(shù)字材料，文字等全面分析場(chǎng)景關(guān)聯(lián)性，以實(shí)現(xiàn)高效且準(zhǔn)確的特定視頻片段檢索，幫助用戶在無需觀看完整內(nèi)容的情況下精準(zhǔn)搜索到大量來自Youtube， Tiktok，Reels等視頻庫(kù)的材料。

（示例:尋找在跑步機(jī)上行走，背景是Air Jordans的視頻）

2、視頻分類

該模型通過分析視頻中的語(yǔ)義特征、對(duì)象和動(dòng)作，將視頻自動(dòng)分類為預(yù)定義的類別，如體育、新聞、娛樂或紀(jì)錄片。這增強(qiáng)了內(nèi)容發(fā)現(xiàn)能力，并提供個(gè)性化推薦。同時(shí)，此功能基于內(nèi)容相似性對(duì)視頻進(jìn)行分組，而不需要標(biāo)簽數(shù)據(jù)。它使用視頻嵌入來捕捉視覺和時(shí)間信息，便于測(cè)量相似性并將相似視頻進(jìn)行歸類。

（示例:按TikTok主題對(duì)短視頻進(jìn)行分類）

3、視頻-語(yǔ)言建模

該功能集成文本描述和視頻內(nèi)容，使模型能夠理解并生成基于文本的摘要、描述或?qū)σ曨l內(nèi)容的響應(yīng)。它彌合了視覺和文本理解之間的差距。還可以在生成的視頻上自由修改和插入視頻內(nèi)容，有提供用戶利用細(xì)分賽道數(shù)據(jù)的微調(diào)模型的功能，例如客戶會(huì)需要微調(diào)“茄瓜沙律”為“雞胸肉沙律”。

（用于微調(diào)模型以更好地處理與沙拉相關(guān)的內(nèi)容的 API 模型）

4、視頻描述和摘要

該模型生成自然語(yǔ)言描述和視頻的簡(jiǎn)明摘要，捕捉關(guān)鍵信息和重要時(shí)刻。這改善了理解力和參與度，尤其適用于有視力障礙或時(shí)間限制的用戶。還可以通過自由定義的prompt來生成不同側(cè)重點(diǎn)的長(zhǎng)文字型的視頻總結(jié)，故事或者自媒體文章等。

（示例:輸入Prompt，為此視頻創(chuàng)建鏡頭列表）

5、視頻問答（QA）

該模型通過視覺、語(yǔ)言和可能的音頻信息之間的語(yǔ)義推理，回答與視頻內(nèi)容相關(guān)的問題。此功能增強(qiáng)了可訪問性，并提供了用戶互動(dòng)的元素。

04.

通過視頻理解開創(chuàng)感知推理

視頻作為多模態(tài)現(xiàn)實(shí)的核心，其豐富的視覺和聽覺信息是傳統(tǒng)語(yǔ)言模型（LLM）難以完全解析的。在多模態(tài)理解領(lǐng)域，不能簡(jiǎn)單地將現(xiàn)有LLM作為附加功能來處理。相反，從設(shè)計(jì)之初，多模態(tài)基礎(chǔ)模型就應(yīng)該被構(gòu)建為包含這種跨模態(tài)能力。

Twelve Labs 正積極引領(lǐng)這一變革，通過視頻理解開創(chuàng)感知推理，推出下一代多模態(tài)模型來模擬世界。

想象一下時(shí)間在某個(gè)特定時(shí)刻定格，就像一張快照。到目前為止，我們的大腦一直在處理感官輸入，幫助我們理解發(fā)生了什么，預(yù)測(cè)接下來會(huì)發(fā)生什么，并據(jù)此制定計(jì)劃。這種能力被稱為感知推理，是人類智力的基礎(chǔ)。

許多發(fā)展研究表明，人類在生命的最初幾個(gè)月內(nèi)就開始發(fā)展感知能力（從主要周圍環(huán)境中獲取知識(shí)的能力），然后才發(fā)展出任何語(yǔ)言能力(《嬰兒期的物體感知、物體導(dǎo)向動(dòng)作和物理知識(shí)》，1995年)。然而，現(xiàn)代人工智能繞過了這一個(gè)關(guān)鍵的學(xué)習(xí)步驟:通過視頻創(chuàng)建一個(gè)強(qiáng)大的世界表征——這與人類感官數(shù)據(jù)非常相似。

（人類認(rèn)知發(fā)展的四個(gè)階段）

基于此發(fā)現(xiàn)，Twelve Labs 致力于通過視頻理解來推動(dòng)感知推理的革命。

他們的目標(biāo)是重新定義機(jī)器如何感知世界并與之互動(dòng)。研究專注于訓(xùn)練先進(jìn)的基礎(chǔ)模型，以彌補(bǔ)這一差距，從視頻數(shù)據(jù)中學(xué)習(xí)豐富的多模態(tài)表示，并利用這些知識(shí)來完成復(fù)雜的高級(jí)推理任務(wù)，這些任務(wù)通常需要語(yǔ)言能力才能完成。

Twelve Labs 專注于研究?jī)煞N模型，開發(fā)出不僅能感知和理解視覺世界，還能以類似于人類認(rèn)知的方式對(duì)其進(jìn)行推理的系統(tǒng)。

1、感知—— Marengo

視頻原生編碼器模型 Marengo 是感知的體現(xiàn)。人類的視覺和聽覺器官天生就對(duì)捕捉世界的細(xì)節(jié)有著敏銳的洞察力。為了達(dá)到這一水平，Twelve Labs 致力于訓(xùn)練 Marengo，使其能夠深入分析視頻幀的視覺內(nèi)容以及它們隨時(shí)間變化的關(guān)系，同時(shí)對(duì)伴隨的語(yǔ)音和聲音進(jìn)行精細(xì)的解析。這一模型的目的是實(shí)現(xiàn)對(duì)視覺和聽覺信息的全面理解，它將成為感知推理流程的核心基礎(chǔ)。

（視頻原生編碼器模型 Marengo）

2、推理——Pegasus

真正的視頻理解還需要推理感知的能力。Pegasus 將從大型語(yǔ)言模型（文本數(shù)據(jù)）中學(xué)到的推理技能與從視頻編碼器模型(視頻數(shù)據(jù))中獲得的感知理解相結(jié)合。通過結(jié)合這兩種模式，Pegasus 可以進(jìn)行跨模式推理，從 Marengo 豐富的多模式表示中推斷出含義和意圖。

（Pegasus 架構(gòu)）

Marengo 和 Pegasus 之間的協(xié)同工作是 Twelve Labs 的 AI 系統(tǒng)中引入感知推理能力的關(guān)鍵。他們的研究不僅僅是開發(fā)最先進(jìn)的模型，而是從根本上重新思考 AI 系統(tǒng)如何學(xué)習(xí)和推理世界。

目前 Twelve Lab 的客戶以程序員和中小企業(yè)為主，通過給中小企業(yè)用戶提供 API 和 PlugIn 等方式去快速擴(kuò)張。創(chuàng)始人 CEO聲稱，自5月初推出內(nèi)測(cè)以來，Twelve Labs 的用戶群已發(fā)展到17，000名開發(fā)者。

該公司目前正在與多家公司合作——目前還不能透露;但從官網(wǎng)上公開信息看，目前已和 FiftyOne 達(dá)成合作，一起通過 PlugIn 形式給缺乏技術(shù)基礎(chǔ)的用戶提供服務(wù)。

當(dāng)然，這并不是一項(xiàng)新的技術(shù)，谷歌開發(fā)了一種類似的視頻理解多模態(tài)模型，稱為 MUM，該公司用它來支持谷歌搜索和 YouTube 上的視頻推薦。

除了 MUM 之外，谷歌以及微軟和亞馬遜還提供 API 級(jí)、人工智能驅(qū)動(dòng)的服務(wù)，這些服務(wù)可以識(shí)別視頻中的對(duì)象、位置和動(dòng)作，并在幀級(jí)提取豐富的元數(shù)據(jù)。隨著這些技術(shù)的不斷進(jìn)步，我們可以預(yù)見，未來在視頻理解領(lǐng)域的競(jìng)爭(zhēng)將變得異常激烈。

我們正站在一個(gè)由 AI 技術(shù)引領(lǐng)的新時(shí)代的門檻上。在這個(gè)時(shí)代，視頻不再僅僅是動(dòng)態(tài)的視覺記錄，而是智能理解與深度學(xué)習(xí)技術(shù)融合的前沿。

視頻內(nèi)容的深度分析和理解，將為我們打開一個(gè)全新的視角，讓我們以前所未有的方式探索和理解世界。

AI&#x2B;視頻 | Nvidia 投資的AI公司，通過視頻理解開創(chuàng)感知推理，獲頂級(jí)風(fēng)投5000萬美元融資

猜你喜歡：

最新文章：