導(dǎo)航菜單

中國版GPT-4o炸場:國內(nèi)首個流式多模態(tài)交互模型,現(xiàn)場實(shí)時且絲滑

導(dǎo)讀 沒等到GPT-4o,商湯先把《Her》給發(fā)布出來了!就在剛剛,商湯直接在現(xiàn)場來了個炸裂的Live Show,話不多說,直接看效果:不僅聲音非常擬人(...

沒等到GPT-4o,商湯先把《Her》給發(fā)布出來了!

就在剛剛,商湯直接在現(xiàn)場來了個炸裂的Live Show,話不多說,直接看效果:

不僅聲音非常擬人(觀眾直呼好磁性),而且還是實(shí)時、隨時可以打斷的那種!

它宛如被安上了一對兒眼睛,可以做到精準(zhǔn)無誤的所見即所得。

就連手繪的粗糙的簡筆畫,AI也能俏皮地跟人類做互動:

一波Live Show秀下來,引得觀眾掌聲連連、“哇”聲一片。

這就是商湯發(fā)布的國內(nèi)首個流式原生多模態(tài)交互模型——6000億參數(shù)日日新5.5系列中的5o所達(dá)到的效果。

據(jù)了解,這是一種全新的AI交互模式,把文本、聲音、圖像還有視頻等模態(tài)全都囊括到了一起,可以讓AI跟人們交流的時候變得更加生動豐富。

可以說是真·電影走進(jìn)現(xiàn)實(shí)了。

而且商湯CEO徐立現(xiàn)場表示,很快就可以用上了!

但新的AI交互模型,也還僅僅是商湯在這次發(fā)布中的一隅。

縱觀整場活動,商湯可以說是圍繞著日日新5.5,把多模態(tài)這事給玩兒得66的。

各位看官,咱們繼續(xù)往下瞧。

計(jì)算機(jī)巨佬們“活”了起來

你沒看錯,商湯用新AI搞的另一個花活兒,就是“復(fù)活”了圖靈、馮諾依曼等計(jì)算機(jī)巨佬們。

并且還致敬了已故的人工智能科學(xué)家,商湯科技創(chuàng)始人湯曉鷗老師,徐立表示:

請看VCR:

這個新AI,名叫Vimi,是基于日日新5.5能力打造的首個可控人物視頻生成大模型。

而且是只需要一張任意風(fēng)格照片就能搞定、普通用戶都可以用、長達(dá)1分鐘的那種哦~

要知道,“人物可控”這事一直是用大模型搞生成的一道難題,就連Sora在內(nèi)大模型也面臨無法精準(zhǔn)控制動作、連續(xù)性不穩(wěn)定(突然變臉)等問題。

但Vimi就不一樣了,它不僅能夠精確地控制人物的面部表情,還能在半身像的范圍內(nèi)調(diào)節(jié)人物的自然姿態(tài)。

并且也能夠自動生成與人物相匹配的頭發(fā)、服裝以及背景的變化;時長方面更是達(dá)到了分鐘級別。

由此,以后要是想打造一個自己的大片兒,例如冰雪女王,那就是一張照片的事兒了:

以下視頻來源于Vimi相機(jī)

以為這就完了?No,No,No。

你的表情包又要變豐富了。

總而言之,Vimi的出現(xiàn)可以說是利好視頻創(chuàng)作者,讓他們有了另一個高質(zhì)量AI工具的選擇。

值得一提的是,Vimi還被這次世界人工智能大會(WAIC)官方授予了最高榮譽(yù)——鎮(zhèn)館之寶。

怎么做到的?

對于能取得上述效果背后的殺手锏技術(shù),商湯在現(xiàn)場也做出了大揭秘。

一方面是架構(gòu)。

日日新5.5采用的是混合端邊云協(xié)同專家架構(gòu),可以最大限度發(fā)揮云邊端協(xié)同,降低推理成本。

另一方面是數(shù)據(jù)。

日日新5.5在模型訓(xùn)練上基于超過10TB tokens高質(zhì)量訓(xùn)練數(shù)據(jù),包括大量合成的思維鏈數(shù)據(jù),其語言理解和交互能力全面升級。

因此,日日新5.5在數(shù)學(xué)、推理、編程等多個維度較上個版本具有較大的提升,尤其是在數(shù)學(xué)推理(↑31.5%)英文理解(↑53.8%)、指令跟隨(↑26.8%)等核心指標(biāo)方面。

那么這一點(diǎn)又該如何體現(xiàn)呢?權(quán)威評測榜單,便是一個很好的印證。

例如根據(jù)OpenCompass的評測,日日新5.5的平均分?jǐn)?shù)已經(jīng)與GPT-4o持平,并且多想細(xì)分維度的分?jǐn)?shù)是超越了GPT-4o的。

不要999,不要99,只要9.9元全年

除了多模態(tài)之外,端側(cè),也是此次商湯著重的發(fā)力點(diǎn)之一。

現(xiàn)在的日日新端側(cè)模型5.5Lite同樣也在性能指標(biāo)的各維度上做到了全面升級。

基于手機(jī)旗艦平臺,5.5Lite首次安裝包的耗時僅為0.19秒,相較于之前的版本減少了40%。

它的推理速度提高了15%,達(dá)到每秒90.2個漢字的處理速度。

此外,商湯還推出了端側(cè)模型矩陣,其中包括商量Mini寫作助手、總結(jié)助手和百科助手等專門定制的模型。

這些專項(xiàng)模型在相應(yīng)的場景下具有更優(yōu)異的性能,能夠滿足客戶復(fù)雜業(yè)務(wù)場景的需求,同時也能夠提供不同的專項(xiàng)模型供客戶選擇或定制。

而且基于日日新5.5的端側(cè)大模型還做到了“多快好”,還做到了“省”——每臺使用成本最低可達(dá)每年9.9元。

在企業(yè)方面,與商湯達(dá)成合作的企業(yè)用戶已經(jīng)超過3000家,覆蓋領(lǐng)域包括互聯(lián)網(wǎng)、醫(yī)療、金融和編程等等。

而說到價格,說到普惠,就不得不提商湯此次提出的“0元Go”計(jì)劃了:

那么看完商湯此次的整場發(fā)布,我們還需要回答一個問題:

對于這個問題,商湯CEO徐立給出了他的解讀:

因此,應(yīng)用,或許就成為了決定這個時代是不是人工智能超級時刻的一個關(guān)鍵。

這也就是為什么商湯要推出流式原生多模態(tài)交互模型的原因了,只有做到了更豐富更精準(zhǔn)的多模態(tài),以及更低延時更可控,方可讓應(yīng)用這件事更上一層樓。

總而言之,思路已然清晰,技術(shù)不斷進(jìn)步,屬于AI2.0的超級時刻或許正在加速向我們逼近。

免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

猜你喜歡:

最新文章: