大模型破譯甲骨文創(chuàng)下新SOTA!復(fù)旦團(tuán)隊(duì)推出新框架
作者:胡仁總罐君fzk 來源:宜春 瀏覽: 【大中小】 發(fā)布時(shí)間:2025-09-14評(píng)論數(shù):
復(fù)旦大學(xué)團(tuán)隊(duì) 投稿量子位 | 公眾號(hào) QbitAI
讓大模型破譯從未見過的甲骨文,準(zhǔn)確率拿下新SOTA!
來自復(fù)旦大學(xué)的研究人員提出了一種基于部首和象形分析的可解釋甲骨文破譯框架——
不僅在公開基準(zhǔn)數(shù)據(jù)集HUST-OBC和EV-OBC上,達(dá)到最先進(jìn)的Top-10識(shí)別準(zhǔn)確率以及優(yōu)異的零樣本破譯能力。
而且面對(duì)未破譯甲骨文,所提方法也能夠輸出可解釋性的分析文本,從而為考古破譯工作提供潛在幫助。
事實(shí)上,作為最古老的成熟文字系統(tǒng),甲骨文長期以來因其稀有性、抽象性和象形多樣性,給考古破譯工作帶來了重大挑戰(zhàn)。
當(dāng)前基于深度學(xué)習(xí)的方法在甲骨文破譯任務(wù)上取得了令人鼓舞的進(jìn)展,但現(xiàn)有方法往往忽視了甲骨文字形與語義之間的復(fù)雜關(guān)聯(lián)。
這導(dǎo)致了有限的泛化能力和可解釋性,尤其是在處理零樣本場(chǎng)景和未破譯的甲骨文時(shí)。
為此,本文提出了一種基于大型視覺語言模型的可解釋甲骨文破譯方法,該方法通過聯(lián)合部首分析與象形語義理解,彌合了甲骨文字形與語意之間的鴻溝。
下面具體來看——
首個(gè)象形解析甲骨文破譯數(shù)據(jù)集
概括而言,團(tuán)隊(duì)提出了一種漸進(jìn)式訓(xùn)練策略,引導(dǎo)模型從部首識(shí)別和部首分析,過渡到象形分析,最后進(jìn)行部首-象形交互分析,從而實(shí)現(xiàn)從字形到字意的推理。
論文還設(shè)計(jì)了基于分析結(jié)果的“部首-象形雙重匹配機(jī)制”,顯著提升了模型的零樣本破譯性能。
為便于模型訓(xùn)練,論文提出了包含47,157個(gè)漢字的象形破譯甲骨文數(shù)據(jù)集,其中部分漢字具有相應(yīng)甲骨文圖像和古代字體圖像,所有漢字都具備現(xiàn)代楷書圖像、部首分析和象形分析標(biāo)注。
先說數(shù)據(jù)集。
盡管現(xiàn)有視覺語言大模型在多種任務(wù)上表現(xiàn)優(yōu)異,但仍難以直接應(yīng)用于甲骨文破譯任務(wù)。
為解決這一挑戰(zhàn),論文提出了象形破譯甲骨文(PD-OBS)數(shù)據(jù)集,用于訓(xùn)練具備甲骨文象形分析能力的視覺語言大模型,這對(duì)甲骨文破譯任務(wù)具有重要意義。
PD-OBS數(shù)據(jù)集共包含47,157個(gè)漢字。其中,3173個(gè)漢字與從公開的HUST-OBC和EVOBC數(shù)據(jù)集收集的甲骨文圖像相關(guān)聯(lián);10,968個(gè)漢字提供了來自字形庫的古代隸書圖像;所有漢字均配有來自《漢典》的現(xiàn)代楷書圖像。
除圖像數(shù)據(jù)外,每個(gè)漢字均通過文本形式標(biāo)注了部首分析和象形分析,這兩者均與漢字的語義含義密切相關(guān)。
標(biāo)注過程分為三個(gè)階段,如圖1所示。
首先,通過漢典從《說文解字》(一部古代漢語詞典)中檢索每個(gè)漢字的部首標(biāo)簽、定義及解釋。
其次,將獲取的部首標(biāo)簽及其解釋與每個(gè)漢字的現(xiàn)代、古代字體和甲骨文圖像關(guān)聯(lián)。接著,利用GPT-4.1基于參考的字形圖像豐富部首標(biāo)簽,并總結(jié)分析內(nèi)容。
最后,通過GPT-4.1進(jìn)行自我檢查和人工修正來確保數(shù)據(jù)集的整體質(zhì)量。
基于部首和象形分析的可解釋甲骨文破譯視覺語言大模型
1、模型整體結(jié)構(gòu)
整體框架基于Qwen2.5-VL-7B構(gòu)建,共享相同的視覺編碼器和大型語言模型(LLM)。
如圖2所示,研究人員引入了一個(gè)空間patch合并模塊作為視覺適配器,以及一個(gè)分類器來預(yù)測(cè)部首標(biāo)簽,并且還提出了部首LoRA和象形LoRA模塊來分析相應(yīng)的信息。
此外,研究人員設(shè)計(jì)了一種漸進(jìn)式訓(xùn)練方法,從部首識(shí)別開始,接著進(jìn)行部首和象形分析,最終實(shí)現(xiàn)聯(lián)合分析,以逐步引導(dǎo)模型完成甲骨文破譯任務(wù)。
還提出了一個(gè)新穎的部首-象形雙重匹配機(jī)制,以從數(shù)據(jù)庫中選擇最合適的字符。
2、部首識(shí)別
在本階段,研究人員的目標(biāo)是將視覺編碼器適配于甲骨文的獨(dú)特視覺風(fēng)格,并預(yù)測(cè)用于下游推理的關(guān)鍵信息——部首標(biāo)簽。
為此,團(tuán)隊(duì)設(shè)計(jì)了一個(gè)空間patch合并模塊作為視覺適配器,該適配器將高維視覺特征壓縮并聚合為預(yù)設(shè)維度的特征向量,作為甲骨文的抽象表示。
此外,研究人員基于歐式距離設(shè)計(jì)了一個(gè)三元組損失函數(shù),以明確提升不同部首特征向量之間的區(qū)分度。
具體而言,團(tuán)隊(duì)實(shí)施了一種采樣策略,確保每個(gè)批次中每個(gè)部首類別至少包含兩個(gè)樣本。
在訓(xùn)練過程中,對(duì)于批次中的每個(gè)樣本,將它的特征向量Vn 指定為錨點(diǎn),然后選擇一個(gè)正樣本(即具有相同根部標(biāo)簽的樣本)和一個(gè)負(fù)樣本(即具有不同根部標(biāo)簽的樣本)。
三元組損失如下:
關(guān)于分類器,研究人員使用交叉熵?fù)p失來優(yōu)化它。因此,本階段的整個(gè)損失函數(shù)可以表示如下:
3、部首-象形聯(lián)合分析
為了在甲骨文中實(shí)現(xiàn)字形與意義的關(guān)聯(lián),研究人員設(shè)計(jì)了一個(gè)漸進(jìn)式的字形分析過程,以促進(jìn)破譯任務(wù)的完成。
在甲骨文和古代漢字中,部首通常決定了字的基本語義,如圖3中的Q1&A1所示。
因此,團(tuán)隊(duì)利用PD-OBS數(shù)據(jù)集構(gòu)建的大量部首分析問答對(duì)對(duì)模型進(jìn)行部首分析能力的訓(xùn)練。
接下來引導(dǎo)模型對(duì)整個(gè)字符進(jìn)行象形分析,以分析字形蘊(yùn)含的語意,如圖3中的Q2&A2所示。
最后,研究人員設(shè)計(jì)了一個(gè)聯(lián)合分析步驟,以解決僅憑象形分析可能無法直接預(yù)測(cè)正確對(duì)應(yīng)現(xiàn)代漢字的情況。此步驟通過部首分析的結(jié)果指導(dǎo)象形分析,從而獲得更準(zhǔn)確的漢字含義,如圖3中的Q3&A3所示。此階段通過交叉熵?fù)p失來優(yōu)化模型。
以下為部首-象形聯(lián)合分析示意圖:
4、部首-象形雙重匹配機(jī)制
經(jīng)過前兩個(gè)階段后,團(tuán)隊(duì)為每個(gè)測(cè)試字符生成了四個(gè)中間結(jié)果:預(yù)測(cè)的部首標(biāo)簽、部首分析、象形分析以及聯(lián)合分析結(jié)果。
研究人員提出了一種基于詞典的雙重匹配機(jī)制用于破譯。給定來自PD-OBS數(shù)據(jù)集的候選詞典D,該機(jī)制的工作流程如下:
首先,根據(jù)預(yù)測(cè)的部首標(biāo)過濾候選項(xiàng),然后根據(jù)象形分析之間的語義相似性選擇前k個(gè)條目。
其次,將預(yù)測(cè)的部首分析與部首信息增強(qiáng)的象形分析結(jié)果進(jìn)行拼接,并通過相似性進(jìn)行排序。
最后,將這些候選集合并并重新排序,以獲得前k個(gè)現(xiàn)代漢字作為破譯結(jié)果。
所有步驟和符號(hào)在圖4中詳細(xì)說明。
值得注意的是,團(tuán)隊(duì)采用匹配機(jī)制而非直接輸出破譯結(jié)果,這有助于緩解模型在零樣本設(shè)置下因訓(xùn)練數(shù)據(jù)中缺乏此類甲骨文而導(dǎo)致的泛化能力不足問題,以及未破譯甲骨文帶來的影響。
以下為部首象形雙重匹配算法:
實(shí)驗(yàn)結(jié)果
1、驗(yàn)證集和零樣本設(shè)定下的破譯
研究人員在HUST-OBC和EV-OBC數(shù)據(jù)集上對(duì)所提方法和現(xiàn)有方法進(jìn)行了評(píng)估,從每個(gè)數(shù)據(jù)集中選取200個(gè)字符類別作為零樣本測(cè)試集。
剩余數(shù)據(jù)以9:1的比例隨機(jī)劃分為訓(xùn)練集和驗(yàn)證集,以評(píng)估新框架及現(xiàn)有方法的甲骨文識(shí)別能力。
與先前研究一致,團(tuán)隊(duì)采用Top-1和Top-10準(zhǔn)確率作為評(píng)估指標(biāo),該指標(biāo)通常用于各類分類任務(wù)。
為了系統(tǒng)地評(píng)估新方法在甲骨文破譯中的有效性,團(tuán)隊(duì)在兩個(gè)基準(zhǔn)數(shù)據(jù)集HUST-OBC和EV-OBC進(jìn)行了全面比較,分別在驗(yàn)證集和零樣本設(shè)置下進(jìn)行,如表1所示。
注意,每個(gè)單元格分別顯示Top-1(左)和Top-10(右)的準(zhǔn)確率(%)。最佳結(jié)果和次佳結(jié)果分別以粗體和下劃線標(biāo)注。
團(tuán)隊(duì)采用InceptionV3、ViT和PyGT作為基于分類模型的代表方法,以及OBSD和BBDM作為基于擴(kuò)散模型的代表方法。由于缺乏開源實(shí)現(xiàn)和數(shù)據(jù)集設(shè)置的不一致,現(xiàn)有基于組成式的方法目前未被納入比較方法。
作為替代,研究人員納入了強(qiáng)大的商用LVLM,GPT-4.1 和 Qwen-VL-Max用于比較。
相比之下,商用LVLM 在兩種設(shè)置下表現(xiàn)不佳,Top-1 準(zhǔn)確率始終低于6%,這說明了其理解古代文字視覺結(jié)構(gòu)的能力受限。
在驗(yàn)證集上,盡管新方法的Top-1 準(zhǔn)確率略低于最佳分類模型基線(如PyGT),但它實(shí)現(xiàn)了最高的Top-10準(zhǔn)確率,展示了生成高質(zhì)量候選項(xiàng)的優(yōu)越能力,并提供了更大的實(shí)際用途。
在更具挑戰(zhàn)性的零樣本場(chǎng)景中,新方法表現(xiàn)出顯著的優(yōu)異性能:
在Top-1準(zhǔn)確率方面仍具競(jìng)爭(zhēng)力,并在Top-10準(zhǔn)確率方面顯著超越所有方法,在HUST-OBC數(shù)據(jù)集上比第二好的方法高出26.2%,在EV-OBC數(shù)據(jù)集上則高出13.6%。
這些結(jié)果證實(shí)了新方法在未見過的甲骨文上的強(qiáng)泛化能力和可遷移性,突顯了其在考古研究中輔助識(shí)別未破譯甲骨文方面的潛在價(jià)值。
2、破譯的可解釋性評(píng)估
為了定量評(píng)估新方法生成的部首分析和象形分析的準(zhǔn)確率,研究人員采用BERT-Score來衡量Top-1輸出與字典D中真實(shí)分析標(biāo)注之間的相似性。
團(tuán)隊(duì)還評(píng)估了其他大型視覺語言模型,包括GPT-4.1、Qwen-VL-Max和Qwen2.5-VL-7B,并比較了它們?cè)贖UST-OBC和EVOBC數(shù)據(jù)集的驗(yàn)證集和零樣本測(cè)試集的平均BERT-Score。
如表2所示,新方法在驗(yàn)證集和零樣本設(shè)置下,分別平均比最先進(jìn)的LVLM模型GPT-4.1高出21.60%和12.95%,在兩個(gè)數(shù)據(jù)集上。
這一結(jié)果表明,新框架生成的分析結(jié)果更加可靠。
下表為,不同方法在驗(yàn)證集上獲得的Bert-Score(%)。Valid.和S分別表示驗(yàn)證集和零樣本測(cè)試集。
3、消融實(shí)驗(yàn)
為了評(píng)估設(shè)計(jì)的部首識(shí)別階段的有效性,研究人員以Qwen2.5-VL-7B的原始視覺編碼器作為基線,并分別集成部首識(shí)別模塊以及基于LoRA的識(shí)別方法。
其識(shí)別準(zhǔn)確率在HUST-OBS數(shù)據(jù)集上進(jìn)行了驗(yàn)證,并包含驗(yàn)證集和零樣本設(shè)置。
新方法在基線視覺編碼器上引入了空間補(bǔ)丁合并和損失函數(shù)Ltrip,分別在驗(yàn)證集和零樣本設(shè)置下實(shí)現(xiàn)了0.9%和1.2%的準(zhǔn)確率提升。
基于LoRA的識(shí)別方法將識(shí)別階段與部首分析過程合并,并采用基于LoRA的微調(diào)進(jìn)行訓(xùn)練。
實(shí)驗(yàn)結(jié)果表明,該方法導(dǎo)致部首識(shí)別準(zhǔn)確率顯著下降,從而在部首分析中引入大量錯(cuò)誤,因此研究人員在框架中將部首識(shí)別保留為獨(dú)立階段。
下表為,關(guān)于部首識(shí)別的消融實(shí)驗(yàn)結(jié)果:
為了驗(yàn)證團(tuán)隊(duì)提出的模塊和策略的有效性,他們以Qwen2.5-VL-7B作為基線,并逐步添加每個(gè)組件以形成最終模型。
在驗(yàn)證集和零樣本設(shè)置下的Top-1和Top-10性能如表4所示。
結(jié)果表明,LoRA微調(diào)(+LoRA)在驗(yàn)證集上實(shí)現(xiàn)了基本的破譯能力,但在零樣本場(chǎng)景下仍缺乏泛化能力。
引入部首-象形互分析與部首識(shí)別后,模型在驗(yàn)證集上的準(zhǔn)確率持續(xù)提升,但零樣本能力的提升仍非常有限。
主要原因在于通過LoRA基于監(jiān)督式微調(diào)訓(xùn)練的模型缺乏足夠的泛化能力,常無法生成罕見字符——這是零樣本場(chǎng)景中的常見挑戰(zhàn)。
為解決此問題,團(tuán)隊(duì)引入了部首-象形雙匹配機(jī)制,以替代直接預(yù)測(cè)。
該策略不僅顯著提升了模型的零樣本性能,還增強(qiáng)了甲骨文中與語義無關(guān)的部首的魯棒性,確保了解碼結(jié)果的可靠性和可驗(yàn)證性。
4、定性實(shí)驗(yàn)
圖5展示了新方法以及OBSD方法在三種設(shè)置下的定性結(jié)果:驗(yàn)證集、零樣本和未破譯的甲骨文。
如圖所示,團(tuán)隊(duì)的模型在驗(yàn)證集上展現(xiàn)出強(qiáng)大的識(shí)別能力,并在零樣本設(shè)置下對(duì)未見過的甲骨文也具有良好的泛化能力。
更值得注意的是,對(duì)于人類專家尚未破譯的字符,模型能夠生成語義上合理的預(yù)測(cè),并附帶可解釋的分析。
其設(shè)計(jì)的部首-象形相互分析在其中發(fā)揮了關(guān)鍵作用:部首分析追溯部首的結(jié)構(gòu)起源,并解釋其在當(dāng)前字符形式中的象征功能。
同時(shí),象形形式分析基于字符的整體形狀和隱含意義,提供了一個(gè)整體的視覺-語義映射。
這些互補(bǔ)的分析共同形成了一條雙重推理路徑,提升了模型生成語義基礎(chǔ)且可解釋輸出的能力,即使對(duì)于尚未破譯的字符也是如此。
下表為, 破譯結(jié)果和可解釋性過程展示:
小結(jié)一下,在本研究中,團(tuán)隊(duì)提出了一種基于部首和象形分析的可解釋甲骨文破譯框架。
該框架通過三個(gè)階段將字形與意義相連:部首識(shí)別與分析、象形分析以及相互分析。
借助提出的部首-象形雙重匹配機(jī)制,其模型可根據(jù)分析結(jié)果從字典中篩選出合適的破譯候選集,取代直接輸出破譯結(jié)果,從而實(shí)現(xiàn)更優(yōu)的零樣本性能。
此外,生成的文本分析可作為可解釋內(nèi)容,為未破譯的甲骨文字符提供參考,因此在考古應(yīng)用中具有巨大潛力。
為支持訓(xùn)練,他們構(gòu)建了PD-OBS數(shù)據(jù)集,包含47,157個(gè)注釋有甲骨文圖像和象形文字分析文本的漢字,為未來研究提供了寶貴資源。
實(shí)驗(yàn)結(jié)果表明,其方法在破譯準(zhǔn)確性、泛化能力和可解釋性方面均表現(xiàn)出強(qiáng)勁性能。
論文地址:https://arxiv.org/abs/2508.10113項(xiàng)目地址:https://github.com/PKXX1943/PD-OBS
- {loop type="catelog" row=10}{$vo.title}
国产麻豆精品福利在线|
人妻系列无码专区免费|
国产精品18久久久久网站|
中午日韩无码视频|
欧美亚洲国产日韩不卡|
狠狠色噜噜狠狠狠狠2021|
熟妇人妻中文字幕无码老熟妇|
999在线视频精品免费播放观看|
成人999欠久久|
国产精品美女一区二区视频|
亚洲国产精品国自拍av|
妇女性内射冈站hdwwwooo|
欧美私人情侣网站|
乱中年女人伦av三区|
国产又嫩又爽又多水|
国产成人精品一二区熟女|
人妻在线无码一区二区三区|
美女视频网站黄在线观看|
日日噜噜噜夜夜爽爽狠狠视频|
欧洲熟妇精品视频|
法国富婆性精品XXX视频|
激情刺激国产精品久久|
亚洲国产中文字幕精品|
国产老熟女一区二区三区仙踪密林
|
色就色偷拍综合一二三区|
国产一区久久|
成人久久丫网站|
国产亚洲精品一区二区无|
亚洲午夜精品一区二区|
a天堂亚洲一区二区三区在线观看|
99在线国产|
人妻快乐人妻|
欧洲熟妇色xxxx欧美老妇性|
九九综合九色综合网站|
久久久亚洲AV波多野结衣苍井空|
西西人体44www大胆无码|
精品伊人久久大香线蕉综合|
丰满少妇被猛烈进入流水高清视频|
精品少妇一区二AV|
天天综合网 天天|
久久,五色婷婷|