本文摘自《云棲戰(zhàn)略參考》,這本刊物由阿里云與鈦媒體聯(lián)合策劃。目的是為了把各個行業(yè)先行者的技術(shù)探索、業(yè)務(wù)實踐呈現(xiàn)出來,與思考同樣問題的“數(shù)字先行者”共同探討、碰撞,希望這些內(nèi)容能讓你有所啟發(fā)。
2024 年年初,Sora 的問世讓視頻生成賽道成為了全球 AI 界矚目的焦點。
自 2023 年創(chuàng)立的愛詩科技一直布局海外 AI 視頻市場,對賽道內(nèi)變化感受深刻——此前市場仍在“實驗創(chuàng)意” 階段,直到 Sora 震撼了行業(yè)內(nèi)外,吸引了資本和媒體的目光,讓視頻生成從“小眾玩具”直接提升到戰(zhàn)略高地,全球科技巨頭也紛紛入局。
如何搶占先機(jī)并吸引用戶生成 AI 視頻?愛詩科技選擇加速技術(shù)迭代——自公司成立以來便聚焦視頻大模型,在 Sora 發(fā)布前已推出首代模型 PixVerse,現(xiàn)已更新至第六代。如今,PixVerse(拍我 AI) 已成為全球用戶規(guī)模最大、生成速度最快、質(zhì)量最高的視頻大模型之一,短短兩年間,用戶量已突破 6000 萬。
但這背后面臨的是克服技術(shù)迭代和出海拓展的雙重挑戰(zhàn)。對于一款布局全球的應(yīng)用而言,如何有效利用分散在全球各地的數(shù)據(jù)進(jìn)行有效訓(xùn)練和提升?如何滿足當(dāng)?shù)睾弦?guī)需求的跨境數(shù)據(jù)傳輸?愛詩科技于今年和阿里云開始合作。
賦能多模態(tài)大模型全球布局
視覺內(nèi)容正成為人們獲取信息最重要的媒介。但在短視頻平臺上,大概只有不到 10% 的用戶會創(chuàng)作或者發(fā)布視頻,因為大部分用戶都存在“心理門檻”——怎么拍好視頻、怎么剪輯、怎么配音配樂、怎么讓自己創(chuàng)意發(fā)布之后不會讓朋友嘲笑......愛詩科技聯(lián)合創(chuàng)始人謝旭璋在今年 5 月份的阿里云 AI 出海峰會上表示,希望能用人工智能幫助全球這么多沒有做過視頻的人,用視頻第一次來分享生活,傳遞情感,分享快樂。
不過,這一看似簡單的想法背后面臨的是技術(shù)實現(xiàn)的現(xiàn)實挑戰(zhàn)。與文生文的大語言模型不同的是,多模態(tài)視頻大模型需要處理多模態(tài)的數(shù)據(jù),對 GPU 的顯存能力提出了更高的要求。與此同時,C 端用戶對生成視頻速度要求高,在高并發(fā)的場景下,如何降低多模態(tài)大模型的推理延遲,給用戶帶來更好的使用體驗?
在愛詩科技致力于多模態(tài)大模型產(chǎn)品落地的過程中,主要面臨著三大挑戰(zhàn):首先是海量訓(xùn)練數(shù)據(jù)的遷移與歸集問題;其次是實時數(shù)據(jù)處理能力的提升;最后則是優(yōu)化資源利用效率,以實現(xiàn)提質(zhì)增效的目標(biāo)。
首先,由于愛詩科技全球化的布局,致使數(shù)據(jù)分散在世界各地,并且需要與線下 IDC 以及其他云廠商進(jìn)行資源的調(diào)用和交互,這就牽扯到了海量數(shù)據(jù)匯總以及跨區(qū)域傳輸數(shù)據(jù),比如,愛詩科技訓(xùn)練數(shù)據(jù)分布在全球多個地域,需要統(tǒng)一匯總管理,這就為整體訓(xùn)練與推理過程中,大數(shù)據(jù)遷移和成本提出了挑戰(zhàn)。
同時,在底層視頻模型上,愛詩科技采取 Diffusion+Transformer(DiT)架構(gòu),在模型訓(xùn)練和推理過程中需要處理大量視頻、文本和元數(shù)據(jù),對數(shù)據(jù)庫的實時分析、多模態(tài)數(shù)據(jù)處理和高并發(fā)的查詢效率提出了較高要求。
此外,愛詩科技對訓(xùn)練和推理平臺的性能要求高,需要提升資源利用率和產(chǎn)品界面使用體驗。
計算資源方面,因為愛詩科技全球化的布局,尤其是在北美洲、中美洲、歐洲等地區(qū)用戶群體較大,對于該地區(qū)的本地計算節(jié)點需求大。而自建成本高,且建設(shè)周期長,所以對于愛詩科技而言,亟需一家具備全球化云計算節(jié)點布局能力的服務(wù)商,承擔(dān)其在海外的業(yè)務(wù)負(fù)載。
因為多模態(tài)大模型相對大語言類模型而言,對 GPU 的使用率及要求更高,且愛詩科技業(yè)務(wù)具有較強(qiáng)的云計算彈性能力需求,這也對其云服務(wù)商的 GPU 彈性計算能力提出了更高的要求。
此外,謝旭璋指出,愛詩科技的業(yè)務(wù)由于采用了多模態(tài)大模型,對多模態(tài)數(shù)據(jù)處理提出了更高的技術(shù)要求。這不僅體現(xiàn)在對 GPU 芯片的高利用率需求上,還對并行計算能力提出了更為嚴(yán)苛的標(biāo)準(zhǔn)。此外,鑒于其全球化布局及龐大的用戶基礎(chǔ)(超過 6000 萬用戶規(guī)模),也需要高并發(fā)云計算彈性確保為用戶提供穩(wěn)定、高效的服務(wù)體驗。
除了對于云計算性能上的要求之外,對于初創(chuàng)型企業(yè)而言,成本也是一個不能不談的話題,對于愛詩科技而言亦是如此。
具體來看,作為一個成立兩年多的團(tuán)隊,愛詩科技雖然在大模型研發(fā)與應(yīng)用方面有著豐富的經(jīng)驗,并保持高度靈活性。僅兩年時間,公司已成功迭代六代大模型產(chǎn)品。在快速迭代產(chǎn)品的過程中,如何以更低成本、更高效地利用云計算的能力,成為了愛詩科技和阿里云共同關(guān)注的核心方向。
云上部署:讓全球化業(yè)務(wù)輕裝上陣
如何服務(wù)好短短兩年間內(nèi)積累了超過 6000 萬名用戶?愛詩科技的答案是:找到一個靠譜的全球化云服務(wù)商。
在 2023 年年底,愛詩科技決定布局海外市場之初,就與阿里云展開了深度合作。
最初,愛詩科技選擇與阿里云合作,主要是因為阿里云在全球范圍內(nèi)擁有廣泛的云服務(wù)節(jié)點,并且具備強(qiáng)大的云計算彈性能力。目前阿里云在全球 29 個地域運營著 89 個可用區(qū),是亞太規(guī)模第一的云服務(wù)商。愛詩科技決定與于阿里云一同探索多模態(tài)視頻生成大模型如何為全球化海量用戶提供優(yōu)質(zhì)的體驗和服務(wù)。
首先,在跨區(qū)域數(shù)據(jù)傳輸方面,為了滿足“訓(xùn)練數(shù)據(jù)統(tǒng)一處理”的業(yè)務(wù)需求,愛詩科技經(jīng)由阿里云的多 EIP 和共享帶寬等方式方法提升公網(wǎng)下載速度,通過 OSS 跨區(qū)數(shù)據(jù)復(fù)制實現(xiàn)了全球異地容災(zāi)備份以及全球數(shù)據(jù)加速分發(fā)加速。
在數(shù)據(jù)處理方面,愛詩科技最初采用的是關(guān)系型數(shù)據(jù)庫,然而愛詩科技的數(shù)據(jù)分布廣泛,遍布全國乃至全球各地,海量數(shù)據(jù)的高效匯集與處理面臨挑戰(zhàn)。
在經(jīng)過權(quán)衡之后,愛詩科技選擇開始使用阿里云實時數(shù)倉 Hologres,基于分布式架構(gòu)的 Hologres,支持 PB 級數(shù)據(jù)分析且具備高效的數(shù)據(jù)壓縮能力,通過實時寫入與更新機(jī)制實現(xiàn)低延遲響應(yīng),在解決愛詩科技性能瓶頸問題的同時,還滿足了實時數(shù)據(jù)分析和高并發(fā)的需求。
在此基礎(chǔ)上,愛詩科技還選擇了使用阿里云人工智能平臺 PAI 平臺支持大模型的訓(xùn)練。PAI 平臺是一款面向企業(yè)級用戶和開發(fā)者的一站式 AI 平臺,作為模型訓(xùn)練與推理的一站式平臺和一體化智算管理與調(diào)度系統(tǒng),為開發(fā)者、模型創(chuàng)新者提供了底層核心技術(shù)支持。在接入 PAI 平臺之后,愛詩科技可以將更多的精力放在其專注的大模型迭代研發(fā)上,搭建、調(diào)優(yōu)和運維等操作完全不需要其操心,隨時可以使用高擴(kuò)展性、高性能、高性價比的 AI 訓(xùn)練資源和環(huán)境,愛詩科技實現(xiàn)了靈活的、細(xì)顆粒度的資源管控,滿足了高效、動態(tài)的調(diào)度和無感切換需求,提升算力利用率,以更小的硬件成本,獲得更大的算力供給。
與此同時,阿里云通過采用標(biāo)準(zhǔn)化云資源調(diào)度系統(tǒng),搭建統(tǒng)一架構(gòu),從而能幫助愛詩科技實現(xiàn)全球資源調(diào)度,確保跨國業(yè)務(wù)體驗一致性,并且可以憑借全球范圍內(nèi)的云基礎(chǔ)設(shè)施覆蓋,幫助愛詩科技實現(xiàn)業(yè)務(wù)就近部署在確保了業(yè)務(wù)的一致性與低延時的同時,還能節(jié)省數(shù)據(jù)傳輸過程中的成本,從而降低整體業(yè)務(wù)成本。
提質(zhì)、高效,全都要
在出海尋求新增量的同時,企業(yè)近年來都開始尋求提質(zhì)增效的路徑,愛詩科技也不例外。
多模態(tài)大模型底層數(shù)據(jù)集的規(guī)模比大語言類模型所需數(shù)據(jù)集規(guī)模大很多,且數(shù)據(jù)標(biāo)注成本相對較高。
以大模型提示詞場景為例,因為愛詩科技的大模型產(chǎn)品相較于傳統(tǒng)的文生視頻的大模型存在些許差別。傳統(tǒng)文生視頻大模型提示詞需要用戶自己撰寫,愛詩科技的文生視頻大模型為了讓全體用戶都能獲得比較好的使用體驗,采用了模塊化提示詞的模式,相較于傳統(tǒng)模式模塊化提示詞在應(yīng)用過程中,對于算力波動性需求較大,還需要同時進(jìn)行文本解析和高分辨率圖像渲染的操作,對 GPU 顯存,以及并行計算能力要求相對較高。為此,愛詩科技也對阿里云提出了新的需求——實現(xiàn)跨模態(tài)數(shù)據(jù)交互機(jī)制,這其中還包括了緩存的高性能處理等需求。
基于此,阿里云通過數(shù)據(jù)加載優(yōu)化和集群通信優(yōu)化 ACCL 通信庫大幅提升 GPU 利用率,通過分布式訓(xùn)練管理平臺、云原生交互式編程環(huán)境以及訓(xùn)練加速框架,大幅提升了 AI 作業(yè)效率。
除此之外,在整體云性能表現(xiàn)層面,阿里云提供自助式云架構(gòu)管理產(chǎn)品,讓愛詩科技省去了開發(fā)部署的時間。
在最近的一次部署中,愛詩科技采用了 CADT(云速搭) 的部署方式,實現(xiàn)了分鐘級 GPU 云服務(wù)器部署和業(yè)務(wù)上線,顯著降低了應(yīng)用云上管理的難度和時間成本。同時,愛詩科技還可以對云上架構(gòu)方案的成本、部署、運維、 回收進(jìn)行全生命周期的管理。
相對于愛詩科技這樣的視頻生成初創(chuàng)公司而言,其團(tuán)隊在大模型領(lǐng)域擁有深厚的專業(yè)知識和技術(shù)積淀,但在優(yōu)化云服務(wù)、確保安全可靠的同時最大限度地降低云計算成本等方面的經(jīng)驗仍略有欠缺。
面向這樣的初創(chuàng)企業(yè),阿里云提供的也不僅是產(chǎn)品,更為其提供了“管家”式的服務(wù),不僅會分享最佳實踐的案例,還會手把手傳授如何更好利用云服務(wù)彈性能力、如何利用好云安全中心確保安全等方面的經(jīng)驗。
而這種做好用戶底層“管家”的模式,用戶可以將更多的精力專注在業(yè)務(wù)層的開發(fā)上面,一方面省去了底層基礎(chǔ)架構(gòu)方面的框架搭建與后續(xù)運維時間;另一方面,也讓缺乏云應(yīng)用經(jīng)驗的企業(yè)避免了在使用云計算賦能業(yè)務(wù)過程中,出現(xiàn)浪費資源、操作不當(dāng)?shù)惹闆r的發(fā)生。
接下來,愛詩科技將與阿里云深化云資源合作,為全球 AI 視頻生成用戶提供更加穩(wěn)定、高效的服務(wù)。雙方將擴(kuò)大在云計算、數(shù)據(jù)存儲及大模型應(yīng)用等多個領(lǐng)域的合作,推動 AI 視頻生成技術(shù)的持續(xù)發(fā)展。
本文摘自《云棲戰(zhàn)略參考》總第19期
掃碼限時申領(lǐng)紙質(zhì)版