發(fā)布時(shí)間:2025-09-17 來源:半部論語網(wǎng)作者:根號(hào)1+1+1
本文來自加州大學(xué)圣克魯茲分校(UCSC)、蘋果公司(Apple)與加州大學(xué)伯克利分校(UCB)的合作研究。第一作者劉彥青,本科畢業(yè)于浙江大學(xué),現(xiàn)為UCSC博士生,研究方向包括多模態(tài)理解、視覺-語言預(yù)訓(xùn)練與視覺基礎(chǔ)模型。其余作者包括李先航(UCSC)、張樂天(USCS)、王子瑞(Apple)、鄭澤宇(UCB)、周郁音(UCSC)。通訊作者為UCSC的謝慈航教授。
在多模態(tài)大模型快速演進(jìn)的浪潮中,視覺模塊一直是支撐整個(gè)體系的關(guān)鍵基石。長期以來,CLIP 式的圖文對(duì)比學(xué)習(xí)幾乎成為視覺預(yù)訓(xùn)練的默認(rèn)思路。從 OpenAI 的 CLIP 到 Google 的 SigLIP,再到一系列開源復(fù)現(xiàn),業(yè)界普遍認(rèn)為:想要獲得強(qiáng)大的視覺編碼器,就必須依賴對(duì)比學(xué)習(xí)。
近日,來自加州大學(xué)圣克魯茲分校、蘋果公司、加州大學(xué)伯克利的研究者提出了 OpenVision 2,一種極簡的生成式視覺預(yù)訓(xùn)練新方向。這項(xiàng)工作在保持最優(yōu)性能的同時(shí),大幅提升了訓(xùn)練效率,并在生成式框架下實(shí)現(xiàn)了 10 億參數(shù)規(guī)模的可擴(kuò)展訓(xùn)練。
??論文標(biāo)題:OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning
論文地址:arXiv:2509.01644
項(xiàng)目主頁
https://ucsc-vlaa.github.io/OpenVision2
代碼與模型:GitHub · UCSC-VLAA/OpenVision
Hugging Face 模型庫:OpenVision 2 on HuggingFace
從 OpenVision 到 OpenVision 2
今年早些時(shí)候,研究團(tuán)隊(duì)在 ICCV 發(fā)布了OpenVision,這是一個(gè)完全基于公開數(shù)據(jù)和開源代碼訓(xùn)練的視覺編碼器家族,旨在為社區(qū)提供真正開放、透明、可復(fù)現(xiàn)的視覺骨干。
該項(xiàng)目一次性開源了超過 25 個(gè)預(yù)訓(xùn)練模型,參數(shù)量從590 萬到 6 億+,覆蓋多種 patch size 與分辨率設(shè)置,成為學(xué)術(shù)界和產(chǎn)業(yè)界構(gòu)建多模態(tài)模型時(shí)的重要替代方案。
實(shí)驗(yàn)顯示,OpenVision 在多個(gè)多模態(tài)基準(zhǔn)任務(wù)上已經(jīng)可以媲美甚至超越 OpenAI 的 CLIP 以及 Google 的 SigLIP,為社區(qū)提供了可靠的開源替代。
然而,OpenVision 的訓(xùn)練管線仍然偏復(fù)雜。為了充分利用高質(zhì)量的合成描述,它在 CLIP 的基礎(chǔ)上引入了兩方面額外設(shè)計(jì):
雙重對(duì)比目標(biāo):每張圖像既要和 web caption 對(duì)齊,又要和部分合成 caption 對(duì)齊,導(dǎo)致文本編碼器的計(jì)算量幾乎翻倍,訓(xùn)練成本也隨之顯著增加。
生成式 caption 預(yù)測:模型還需要在圖像和原始 alt-text 的條件下,生成完整的合成描述,這進(jìn)一步增加了解碼器的計(jì)算開銷。
這些設(shè)計(jì)確實(shí)提升了表征質(zhì)量,但也讓訓(xùn)練過程變得更重,計(jì)算成本更高,擴(kuò)展到更大規(guī)模時(shí)受到明顯限制。
極簡思路:生成式的 OpenVision 2
在 OpenVision 2 中,研究者們做出了大膽簡化:直接移除文本編碼器與對(duì)比學(xué)習(xí),只保留「圖像 → 描述」的生成目標(biāo)。由此形成的框架僅包含兩個(gè)模塊:圖像編碼器 + 文本解碼器。
沒有對(duì)比學(xué)習(xí)的雙塔結(jié)構(gòu)沒有額外的文本塔開銷依賴高質(zhì)量合成描述作為唯一監(jiān)督信號(hào)
除此之外,OpenVision 2 還引入了一個(gè)關(guān)鍵技巧:在預(yù)訓(xùn)練階段隨機(jī)丟棄約 2/3 的視覺 token,僅用剩下的 1/3 token 來生成完整描述。
一方面,這大幅減少了文本解碼器的計(jì)算負(fù)擔(dān),顯著提升了訓(xùn)練效率;另一方面,這種「稀疏提示」迫使模型在有限條件下仍要還原出完整的 caption,從而提升了表征的抽象能力。
這種「以少勝多」的思路,使得 OpenVision 2 在保持性能的同時(shí)實(shí)現(xiàn)了更高的效率,也印證了「少即是多」的理念。
實(shí)驗(yàn)表明,這一簡化設(shè)計(jì)不僅沒有削弱模型能力,反而在效率與擴(kuò)展性上表現(xiàn)突出:
性能:在 TextVQA、ChartQA、OCR、MME 等主流多模態(tài)基準(zhǔn)上,OpenVision 2 與 OpenVision 幾乎持平,甚至在部分細(xì)粒度任務(wù)上表現(xiàn)更佳。同時(shí),相較于 OpenAI-CLIP、LAION-CLIP、MetaCLIP 等主流對(duì)比學(xué)習(xí)模型,OpenVision 系列在同等規(guī)模下整體表現(xiàn)更強(qiáng),特別是在 OCR 與文本相關(guān)任務(wù)上優(yōu)勢明顯。
效率:訓(xùn)練時(shí)間縮短1.5——2 倍,顯存占用減少近一半,單卡批大小從 2k 擴(kuò)展到 8k;例如,在 ViT-L/14 上從約 83 小時(shí)縮短到 57 小時(shí),在 SoViT-400M 上從約 241 小時(shí)縮短到 121 小時(shí)。這些改進(jìn)使得模型在生成式框架下成功擴(kuò)展到10 億參數(shù)規(guī)模,并保持高效訓(xùn)練,也為進(jìn)一步探索更大規(guī)模的生成式視覺預(yù)訓(xùn)練奠定了基礎(chǔ)。
為什么有效?
研究者總結(jié)了 OpenVision 2 作為生成式視覺編碼器能夠成功的三點(diǎn)關(guān)鍵原因:
生成式監(jiān)督更貼近下游:生成任務(wù)與多模態(tài)大模型(如 LLaVA)的推理方式一致,減少了預(yù)訓(xùn)練與下游任務(wù)間的「目標(biāo)錯(cuò)位」。
高質(zhì)量合成描述:在 Recap-DataComp-1B v2 中,caption 的生成同時(shí)結(jié)合了圖像和原始文本,使得描述更細(xì)致、更貼合語義,為預(yù)訓(xùn)練提供了更可靠的監(jiān)督信號(hào)。
視覺 token 隨機(jī)掩碼(少即是多):僅保留部分視覺 token 進(jìn)行生成,既降低算力開銷,又讓模型在「信息不完整」的條件下學(xué)會(huì)抽取核心特征,從而提升泛化與魯棒性。
對(duì)社區(qū)的意義
OpenVision 2 展示了一個(gè)重要事實(shí):對(duì)比學(xué)習(xí)并非不可或缺。通過生成式的簡潔框架,同樣能夠訓(xùn)練出強(qiáng)大的視覺編碼器,并在效率和可擴(kuò)展性上具備顯著優(yōu)勢。
這項(xiàng)研究不僅挑戰(zhàn)了長期以來的對(duì)比學(xué)習(xí)主導(dǎo)范式,也為未來多模態(tài)基礎(chǔ)模型的發(fā)展提供了新的方向。正如作者們所強(qiáng)調(diào)的,「大道至簡」的設(shè)計(jì)理念,展示了生成式視覺預(yù)訓(xùn)練在未來發(fā)展的潛力。
從 OpenVision 到 OpenVision 2,研究團(tuán)隊(duì)已經(jīng)開源了超過 25 個(gè)不同規(guī)模和配置的模型,并完整公開了訓(xùn)練代碼與數(shù)據(jù)管線,為學(xué)術(shù)界和產(chǎn)業(yè)界提供了可復(fù)現(xiàn)、可擴(kuò)展的資源基礎(chǔ),加速社區(qū)在生成式視覺預(yù)訓(xùn)練方向上的探索。研究團(tuán)隊(duì)長期歡迎學(xué)界和業(yè)界的同學(xué)和朋友聯(lián)系、交流、合作。