IT之家 9 月 18 日消息,近日,快手旗下的可靈 AI 推出全新數(shù)字人功能,通過(guò)一張角色圖片加一段文字或音頻,即可生成 1080p / 48FPS、最長(zhǎng) 1 分鐘的數(shù)字人視頻。目前產(chǎn)品公測(cè)陸續(xù)開(kāi)放中。
據(jù)IT之家了解,該數(shù)字人功能基于多模態(tài)理解與視頻生成模型的深度結(jié)合,實(shí)現(xiàn)了口型精準(zhǔn)同步以及情緒動(dòng)作的精細(xì)控制。其采用的基于 Transformer 的 DiT 架構(gòu),在處理時(shí)序信息和細(xì)粒度控制方面具有獨(dú)特優(yōu)勢(shì),能夠精準(zhǔn)解析面部特征、理解音頻語(yǔ)義,并根據(jù)語(yǔ)音內(nèi)容推斷合適的面部表情和微動(dòng)作,從而確保生成的數(shù)字人在視頻全程保持角色一致性。
在角色和語(yǔ)言支持方面,可靈 AI 數(shù)字人功能表現(xiàn)出色。其支持多種角色類(lèi)型,包括真人、動(dòng)畫(huà)角色甚至動(dòng)物形象,同時(shí)涵蓋中、英、日、韓等多語(yǔ)種,能夠滿足不同用戶的多樣化需求。在價(jià)格策略上,結(jié)合會(huì)員優(yōu)惠,可靈 AI 數(shù)字人的使用成本最低為 0.12 元 / 秒。
目前,可靈 AI 數(shù)字人功能正處于公測(cè)階段,產(chǎn)品已陸續(xù)向用戶開(kāi)放使用。用戶可以通過(guò)可靈 AI 官網(wǎng)進(jìn)行體驗(yàn)。未來(lái),隨著技術(shù)的不斷成熟和 API 的開(kāi)放,可靈 AI 數(shù)字人有望與更多第三方平臺(tái)和應(yīng)用集成,構(gòu)建起更加完善的生態(tài)系統(tǒng)。