導(dǎo)航菜單

智譜AI剛剛把他們的Sora「清影」,正式開源了,我愛他們。

導(dǎo)讀 大半夜的,大洋對岸不卷,國內(nèi)公司卷起來了。我真的想睡覺,真的。起因是我睡覺之前,在看Github的時(shí)候,無意間看到THUKEG這個(gè)號,更新了一...

大半夜的,大洋對岸不卷,國內(nèi)公司卷起來了。

我真的想睡覺,真的。

起因是我睡覺之前,在看Github的時(shí)候,無意間看到THUKEG這個(gè)號,更新了一個(gè)項(xiàng)目。

CogVideoX。

網(wǎng)址在此:https://github.com/THUDM/CogVideo

THUKEG算是智譜的官號,而CogVideoX,則是前兩周很火的智譜的第二世代AI視頻清影的基模型。

用最通俗的話理解就是,CogVideoX等于GPT4o,而清影等于ChatGPT,你就可以簡單的理解為,一個(gè)是模型,一個(gè)是基于模型做的產(chǎn)品,所以其實(shí)可以畫個(gè)等號。

前兩周,第二世代的AI視頻大戰(zhàn),在已有的三幻神Runway、可靈、Luma的基礎(chǔ)上,Pixverse上線了V2版本,Vidu的模型也千呼萬喚始出來。

而作為大模型領(lǐng)域最明星的AI公司,智譜,也加入了這場AI視頻的混戰(zhàn),發(fā)布了他們的DiT視頻產(chǎn)品,清影。

這個(gè)產(chǎn)品,在他們的AI助手智譜清言上,就能用。

但是非常坦率的講,我沒有寫它,是因?yàn)槲矣X得,在生成效果上,確實(shí)跟可靈、Runway,還是有一定的差距。

而在發(fā)布清影的兩周后的今天,他們決定,把CogVideoX,開源了。

那就值得,吹一波了。

CogVideoX模型下載地址:

https://huggingface.co/THUDM/CogVideoX-2b

現(xiàn)在主流的AI視頻,全都是閉源的,有一個(gè)開源的Open-Sora,但是說實(shí)話,效果也差強(qiáng)人意。

而清影,效果雖然跟主流的閉源模型尚有差距,但是在跑一些內(nèi)容上,至少是可用的狀態(tài)。

這一次開源的,我大概翻了下,開源的是一個(gè)CogVideoX-2B的小模型。

推理需要18G顯存,也就是說,在有單卡3090或者4090的時(shí)候,就可以直接本地跑視頻了,不需要再燒錢了,不過看峰值會(huì)到36G,大概率會(huì)爆顯存。

不過他們自己也說了,馬上就會(huì)優(yōu)化。

不過我只有一張小垃圾4060,顯存就8G,你優(yōu)化完我也跑不動(dòng)。4090,說實(shí)話,也真的沒錢買= =

啥時(shí)候AI視頻模型,也跟SD1.5一樣,能普惠眾生人人皆可跑就好了。

這個(gè)2B的模型,視頻長度是6秒,幀率為8幀/秒,視頻分辨率為720*480。

這參數(shù),有一股子即夢初代的那感覺了。

我放幾個(gè)他們官方的case(其實(shí)你去清影上跑幾個(gè)是差不多的)

一艘精致的木制玩具船,桅桿和船帆上雕刻著復(fù)雜的圖案,在模擬海浪的藍(lán)色長毛絨地毯上平穩(wěn)地滑行。船身漆成濃郁的棕色,并帶有小窗戶。地毯柔軟而有質(zhì)感,提供了一個(gè)完美的背景,就像一片廣闊的海洋。船的周圍環(huán)繞著各種玩具和兒童用品,暗示著一個(gè)充滿童趣的環(huán)境。這個(gè)場景捕捉到了童年的天真和想象力,玩具船的旅程象征著在異想天開的室內(nèi)環(huán)境中的無盡冒險(xiǎn)。

鏡頭跟在一輛白色復(fù)古越野車后面,車頂有黑色行李架,越野車在陡峭的山坡上沿著松樹環(huán)繞的陡峭土路快速行駛,輪胎上的塵土飛揚(yáng),陽光照在越野車上,越野車在土路上快速行駛,給整個(gè)場景投下了溫暖的光輝。土路緩緩彎向遠(yuǎn)方,看不到其他車輛。道路兩旁的樹木都是紅杉,還有零星的綠色植物。從后方看,汽車輕松地沿著彎道行駛,仿佛在崎嶇的地形上行駛。土路本身被陡峭的丘陵和山脈環(huán)繞,頭頂是晴朗的藍(lán)天和飄渺的白云。

在一個(gè)飽受戰(zhàn)爭蹂躪的城市,廢墟和殘?jiān)珨啾谠V說著滿目瘡痍,在這個(gè)令人心碎的背景下,一個(gè)凄美的特寫鏡頭定格了一個(gè)年輕的女孩。她的臉上沾滿了灰燼,無聲地證明著周圍的混亂。她的眼睛里閃爍著悲傷和堅(jiān)韌,捕捉到了這個(gè)因沖突而失去天真世界的原始情感。

推理大概是這樣,但是開源出來,我更期待的,其實(shí)是微調(diào)和插件的生態(tài)。

比如現(xiàn)在大家都在用的AI繪圖SD的1.5模型,基模其實(shí)做的就跟一坨屎一樣,但是畢竟是開源的,一堆大神基于SD1.5,做出了非常牛逼的模型,比如Majic、DreamShaper、Anything等等。

而CogVideoX,也是可以微調(diào)的。

想起了在WAIC上,階躍星辰跟上影做的AI視頻模型,他們用了200分鐘的葫蘆娃素材,就調(diào)了一個(gè)葫蘆娃大模型。

你出的所有的東西,都是葫蘆娃風(fēng)格,你也不用費(fèi)勁巴拉的去搞什么角色一致性了,我輸入大娃,那就出來的就是大娃,我寫爺爺和蛇精在一起哈啤酒,那就是他兩。

而現(xiàn)在,CogVideoX開源,我們可以微調(diào)的情況下,一些用AI做短劇和長劇集的,完全可以試著微調(diào)一個(gè)自己的視頻大模型,來個(gè)性化風(fēng)格和角色。

因?yàn)槲易约阂恢庇X得,文生視頻的上限和表演動(dòng)態(tài),是比圖生視頻要高很多的,但是兩個(gè)最大的坎是風(fēng)格一致性和角色一致性,如果可以微調(diào),那也是有很多辦法可以去解決了。

CogVideoX-2B的微調(diào),需要的顯存是40G,普通的顯卡不行了,得上A6000這種渲染卡了。

不過畢竟是視頻模型,不說普惠到普通大眾,但是對于一些初創(chuàng)公司和小企業(yè),這門檻幾乎就是約等于0。

因?yàn)?,這是開源的,他們不需要再從0開始花費(fèi)無數(shù)資金去做一個(gè)自己的大模型,去趟這一趟坑,他們只需要,買點(diǎn)本地的卡,加起來也就幾萬十幾萬,然后,就可以本地微調(diào)了。

我也一直相信,開源的未來,一定比閉源強(qiáng)。

扎克伯格在前段時(shí)間發(fā)LLaMa3.1405B的那天晚上,在Facebook上發(fā)了一封萬字公開信。

其中有一段話讓我印象很深刻。

翻譯過來是:

我堅(jiān)信開源是實(shí)現(xiàn)積極AI未來的必要條件。AI相比任何現(xiàn)代技術(shù)都有更大的潛力提升人類的生產(chǎn)力、創(chuàng)造力和生活質(zhì)量,并加速經(jīng)濟(jì)增長,同時(shí)推動(dòng)醫(yī)療和科學(xué)研究的進(jìn)步。開源將確保世界上更多的人能夠享受AI帶來的益處和機(jī)會(huì),防止權(quán)力集中在少數(shù)公司手中,使得這項(xiàng)技術(shù)能夠更加均衡、安全地在全社會(huì)推廣。

防止權(quán)力集中在少數(shù)公司手中,使得這項(xiàng)技術(shù)能夠更加均衡、安全地在全社會(huì)推廣。

開源,就是最好的手段,閉源并不會(huì)帶來技術(shù)平權(quán),但是開源會(huì),因?yàn)锳I不是一個(gè)娛樂工具,他是生產(chǎn)力工具,他的推動(dòng),主要都來自于公司、研究機(jī)構(gòu)等等。

而每個(gè)公司,在使用AI時(shí),都有三個(gè)很大的痛:

1. 他們需要訓(xùn)練、微調(diào)和提煉他們自己的模型。

2. 他們需要保護(hù)他們的私有數(shù)據(jù)。

3. 他們希望把自己的AI變成長期標(biāo)準(zhǔn)的生態(tài)系統(tǒng)。

這一切,匯總起來,就一句話:

我們需要能控制自己的命運(yùn),而不是把命交給別人。

而在國內(nèi),智譜是我覺得很特別的公司,它很像OpenAI,又有著Meta的氣質(zhì)。

要知道Meta的商業(yè)模式,和一些大模型公司比如OpenAI的商業(yè)模式完全不一樣,他們不靠賣大模型的使用權(quán)收錢,所以開源其實(shí)對于Meta來說,并沒有多大的影響。

但是智譜不一樣,智譜是一家大模型公司。

但是在這樣的考量下,他們依然,毅然決然的開源了。

可能他們也像Meta一樣,為了那個(gè)很崇高的信仰:“使得這項(xiàng)技術(shù)能夠更加均衡、安全地在全社會(huì)推廣?!?/p>

除了CogVideoX外,他們還開源過N多東西。

去他們的Github上翻一下,你就會(huì)發(fā)現(xiàn)很多驚喜:

https://github.com/THUDM

我愛每一個(gè)愿意開源的公司。

我期待未來某一天,無數(shù)的開發(fā)者在CogVideoX的基礎(chǔ)上,開發(fā)出了各種各樣的插件和微調(diào)模型,每一個(gè)影視、短劇、廣告等等等各種跟視頻有關(guān)的行業(yè)的公司,也都有自己N多的模型和各種各樣的視頻生成工作流。

就像SD在各家企業(yè)里,繁榮昌盛。

我佩服智譜。

這不僅是一個(gè)技術(shù)的決定,更是一種信念的傳遞。

大洋對岸的燈光漸漸熄滅。

而我們這邊的黎明。

正在冉冉升起。

免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

猜你喜歡:

最新文章: