游客發(fā)表
發(fā)帖時間:2025-09-14 23:47:52
這項(xiàng)由新加坡南洋理工大學(xué)S-Lab實(shí)驗(yàn)室的胡開睿、吳鵬昊等研究團(tuán)隊(duì),聯(lián)合卡內(nèi)基梅隆大學(xué)的岳翔教授共同完成的研究,于2025年1月23日發(fā)表在arXiv預(yù)印本平臺上。有興趣深入了解的讀者可以通過論文編號arXiv:2501.13826v1或訪問項(xiàng)目主頁https://videommmu.github.io/獲取完整研究內(nèi)容。
當(dāng)我們?nèi)祟愑^看一段教學(xué)視頻時,大腦會自然而然地經(jīng)歷三個階段:首先感知視頻中的關(guān)鍵信息,然后理解其中蘊(yùn)含的知識概念,最后將學(xué)到的知識應(yīng)用到全新的問題中。就像學(xué)習(xí)做菜一樣,我們先觀察廚師的每個動作細(xì)節(jié),接著理解背后的烹飪原理,最后能夠舉一反三地制作出不同口味的菜肴。
然而,當(dāng)前被譽(yù)為"智能"的大型多模態(tài)模型在觀看教學(xué)視頻時,是否也能像人類一樣真正掌握并運(yùn)用新知識呢?這個看似簡單的問題,實(shí)際上觸及了人工智能發(fā)展的核心挑戰(zhàn)。
為了回答這個問題,研究團(tuán)隊(duì)構(gòu)建了一個名為Video-MMMU的大規(guī)模評測基準(zhǔn)。這就像為AI學(xué)生準(zhǔn)備了一場全面的期末考試,考試內(nèi)容涵蓋藝術(shù)、商業(yè)、科學(xué)、醫(yī)學(xué)、人文和工程六大學(xué)科領(lǐng)域,總共包含300個專家級別的教學(xué)視頻和900道精心設(shè)計(jì)的問題。
每個視頻都配備了三種不同難度的問題,對應(yīng)人類學(xué)習(xí)的三個認(rèn)知階段。感知類問題就像問學(xué)生"視頻中老師寫在黑板上的公式是什么",考查的是基礎(chǔ)信息提取能力。理解類問題則更深入一些,比如"根據(jù)視頻中的解題方法,如果將角度從25度改為30度,結(jié)果會是什么",這需要真正理解解題原理。而適應(yīng)類問題最具挑戰(zhàn)性,要求AI將視頻中學(xué)到的知識應(yīng)用到全新的情境中,就像學(xué)會了一種數(shù)學(xué)公式后,能夠解決完全不同的實(shí)際問題。
研究團(tuán)隊(duì)還提出了一個創(chuàng)新的"知識增益"指標(biāo),用來量化AI在觀看視頻前后的表現(xiàn)提升程度。這個指標(biāo)就像測量一個學(xué)生上課前后的進(jìn)步幅度,能夠客觀反映視頻教學(xué)的實(shí)際效果。
當(dāng)研究人員將這套評測系統(tǒng)應(yīng)用到當(dāng)前最先進(jìn)的AI模型上時,結(jié)果令人深思。人類專家在觀看視頻后,知識增益達(dá)到了33.1%,展現(xiàn)出強(qiáng)大的學(xué)習(xí)能力。相比之下,表現(xiàn)最好的GPT-4o模型只達(dá)到了15.6%的知識增益,而Claude-3.5-Sonnet模型僅為11.4%。更令人意外的是,一些模型甚至出現(xiàn)了負(fù)增長,意味著觀看視頻后的表現(xiàn)反而不如之前。
這種現(xiàn)象背后隱藏著深層的原因。研究團(tuán)隊(duì)通過詳細(xì)分析發(fā)現(xiàn),AI模型在處理視頻信息時存在兩個顯著問題。首先是"對答案轉(zhuǎn)換率"與"錯答案轉(zhuǎn)換率"之間的失衡。雖然模型能夠?qū)⒁恍┰敬疱e的題目改正過來,但同時也會將原本答對的題目改錯,而且后者的比例往往更高。這就像一個學(xué)生在復(fù)習(xí)過程中,雖然弄懂了一些之前不會的題目,但卻把原本掌握的知識搞混了。
其次,模型在適應(yīng)新場景時表現(xiàn)出明顯的局限性。研究人員發(fā)現(xiàn),64%的錯誤屬于"方法適應(yīng)錯誤",即模型能夠正確回憶視頻中的知識點(diǎn),但無法靈活地將這些知識運(yùn)用到新的問題情境中。這就像一個學(xué)生雖然記住了老師講的例題解法,但面對變式題目時卻無法舉一反三。
為了更深入地理解這些問題,研究團(tuán)隊(duì)還探索了音頻信息對模型表現(xiàn)的影響。結(jié)果發(fā)現(xiàn),添加音頻轉(zhuǎn)錄確實(shí)能夠改善感知和理解任務(wù)的表現(xiàn),但在適應(yīng)任務(wù)上反而出現(xiàn)了下降。這種矛盾現(xiàn)象表明,音頻信息雖然能夠豐富模型對視頻內(nèi)容的理解,但可能會干擾模型將知識應(yīng)用到新情境的能力。
在具體的學(xué)科表現(xiàn)上,AI模型在藝術(shù)和人文學(xué)科中的表現(xiàn)相對較好,這些領(lǐng)域主要涉及概念性知識的理解。然而,在科學(xué)、工程、商業(yè)和醫(yī)學(xué)等需要定量推理和復(fù)雜視覺分析的學(xué)科中,模型的表現(xiàn)明顯下降。這反映了當(dāng)前AI技術(shù)在處理抽象概念與具體應(yīng)用之間轉(zhuǎn)換方面的不足。
研究還揭示了一個有趣的現(xiàn)象:模型在處理不同類型的視頻內(nèi)容時表現(xiàn)差異很大。對于概念介紹類視頻,模型能夠較好地提取和理解核心信息。但面對問題解決類視頻時,特別是那些展示具體解題步驟的內(nèi)容,模型往往難以準(zhǔn)確掌握其中的邏輯過程并應(yīng)用到新問題中。
為了驗(yàn)證這些發(fā)現(xiàn)的普遍性,研究團(tuán)隊(duì)測試了包括開源和商業(yè)模型在內(nèi)的多種AI系統(tǒng)。從輕量級的LLaVA-OneVision到大型的GPT-4o,幾乎所有模型都表現(xiàn)出相似的模式:隨著認(rèn)知要求的增加,性能逐步下降,適應(yīng)能力始終是最大的短板。
這項(xiàng)研究的意義遠(yuǎn)不止于揭示當(dāng)前AI的局限性。它為我們理解人工智能的學(xué)習(xí)機(jī)制提供了新的視角,同時也指出了未來發(fā)展的方向。研究結(jié)果表明,雖然AI模型在信息處理和模式識別方面已經(jīng)達(dá)到了很高的水平,但在知識的靈活運(yùn)用和創(chuàng)新應(yīng)用方面仍有很大的提升空間。
從技術(shù)角度來看,這項(xiàng)研究為改進(jìn)大型多模態(tài)模型的訓(xùn)練方法提供了重要參考。當(dāng)前的模型訓(xùn)練更多關(guān)注的是信息的準(zhǔn)確獲取和存儲,但如何讓模型真正"理解"知識并靈活運(yùn)用,仍然是一個待解決的挑戰(zhàn)。
從教育應(yīng)用的角度來看,這項(xiàng)研究也提醒我們,雖然AI技術(shù)在教育領(lǐng)域展現(xiàn)出巨大潛力,但要讓AI真正成為有效的學(xué)習(xí)助手,還需要在知識遷移和應(yīng)用能力方面取得突破。目前的AI更像是一個記憶力超強(qiáng)但缺乏靈活性的學(xué)生,能夠準(zhǔn)確復(fù)述老師講過的內(nèi)容,但在面對新問題時往往顯得手足無措。
這項(xiàng)研究的另一個重要貢獻(xiàn)是建立了一個標(biāo)準(zhǔn)化的評測框架。Video-MMMU基準(zhǔn)不僅為當(dāng)前AI模型的能力評估提供了工具,也為未來的技術(shù)改進(jìn)指明了方向。通過這個基準(zhǔn),研究人員可以更準(zhǔn)確地衡量模型在視頻理解和知識應(yīng)用方面的真實(shí)水平,避免被表面的高分?jǐn)?shù)所誤導(dǎo)。
值得注意的是,人類在這項(xiàng)評測中表現(xiàn)出的卓越能力再次證明了人類學(xué)習(xí)的獨(dú)特之處。人類不僅能夠從視頻中高效提取信息,還能夠?qū)W(xué)到的知識與已有經(jīng)驗(yàn)結(jié)合,創(chuàng)造性地解決新問題。這種能力的背后是數(shù)十年教育經(jīng)驗(yàn)和認(rèn)知發(fā)展的積累,而當(dāng)前的AI模型顯然還沒有達(dá)到這樣的水平。
從更廣闊的視角來看,這項(xiàng)研究觸及了人工智能發(fā)展中的一個核心問題:如何讓機(jī)器真正具備類人的學(xué)習(xí)能力。雖然當(dāng)前的AI在許多特定任務(wù)上已經(jīng)超越了人類,但在通用學(xué)習(xí)能力方面仍有很大差距。Video-MMMU的研究成果提醒我們,真正的人工智能不僅要能夠處理信息,更要能夠像人類一樣從經(jīng)驗(yàn)中學(xué)習(xí),并將知識靈活應(yīng)用到新的情境中。
說到底,這項(xiàng)研究為我們描繪了一個清晰的現(xiàn)狀:雖然AI技術(shù)發(fā)展迅速,但在真正的知識學(xué)習(xí)和應(yīng)用方面,我們?nèi)匀惶幱谄鸩诫A段。Video-MMMU基準(zhǔn)的建立不僅是對當(dāng)前技術(shù)水平的客觀評估,更是對未來發(fā)展方向的重要指引。隨著技術(shù)的不斷進(jìn)步,我們有理由相信,AI終將具備更強(qiáng)的學(xué)習(xí)和適應(yīng)能力,真正成為人類學(xué)習(xí)和工作的得力助手。對于有興趣深入了解這項(xiàng)開創(chuàng)性研究的讀者,可以通過上述鏈接訪問完整的研究論文和相關(guān)資源。
Q&A
Q1:Video-MMMU評測基準(zhǔn)包含哪些內(nèi)容?
A:Video-MMMU是一個大規(guī)模多學(xué)科視頻理解評測基準(zhǔn),包含300個專家級教學(xué)視頻和900道問題,覆蓋藝術(shù)、商業(yè)、科學(xué)、醫(yī)學(xué)、人文、工程六大學(xué)科。每個視頻配備三種類型問題:感知類(提取關(guān)鍵信息)、理解類(掌握概念原理)、適應(yīng)類(應(yīng)用到新場景),全面評估AI從視頻中學(xué)習(xí)知識的能力。
Q2:當(dāng)前AI模型在視頻學(xué)習(xí)方面表現(xiàn)如何?
A:研究發(fā)現(xiàn)AI模型存在明顯局限。人類專家觀看視頻后知識增益達(dá)33.1%,而表現(xiàn)最好的GPT-4o僅為15.6%,Claude-3.5-Sonnet為11.4%。AI在適應(yīng)新場景時尤其困難,64%的錯誤屬于方法適應(yīng)錯誤,即能記住視頻內(nèi)容但無法靈活運(yùn)用到新問題中。
Q3:這項(xiàng)研究對AI技術(shù)發(fā)展有什么意義?
A:這項(xiàng)研究揭示了當(dāng)前AI技術(shù)的核心缺陷,為改進(jìn)方向提供了指引。它表明AI雖然在信息處理方面表現(xiàn)出色,但在知識的靈活運(yùn)用和創(chuàng)新應(yīng)用方面仍有很大提升空間。Video-MMMU基準(zhǔn)為評估和改進(jìn)AI的真實(shí)學(xué)習(xí)能力提供了標(biāo)準(zhǔn)化工具,推動AI向更接近人類的通用學(xué)習(xí)能力發(fā)展。
{loop type="link" row=1 }{$vo.title} SSSWWW免费| 色欲天天天无码视频| 亚洲av永久无码精品无码流畅| 97夜夜澡人人爽人人| 国产性大战xxx久久久| 美女黄色视频免费观看| 久久久国产精华液999999| 日韩一卡二卡三卡四卡五卡| 久久播免费精品视频| 色综合天天操| 狠狠鲁免费视频| 又大又骚www视频| 国产xxx另类| 成人无码视频在线观看大全| 亚洲性爱网址| 精品丰满人妻无套内射| 欧美激情首页| 亚洲欧美日韩一区在线观看| 人妻 精品一区 97| 91久草视频| 精品国产区xxx| 99热在线国产| 9lporm自拍视频区| 免费看成人毛片无码视频| 少妇乳大丰满在线播放| a∨变态另类天堂无码专区| 四虎影视久久久免费观看| 人妻少妇久久久久久97人妻| 少妇色欲网站| 无码人妻一区二区三区在线视频| 日本免费痴汉凌辱人妻系列电影| 色欲影综合在线观看| 黑人91精品人伦| 国产成人做受免费视频| 亚洲高清成人一区二区三区| 一级老熟女乱伦| 亚无码乱人伦一区二区| 丰满的美女边做的呻吟想要在线| 又大又骚www视频| 日韩精品色哟哟| 91尤物国产尤物福利在线|