IT 之家 9 月 13 日消息,百度于 9 月 10 日在 Hugging Face 發(fā)布新一代文字識(shí)別解決方案 PP-OCRv5。
百度介紹稱,PP-OCRv5 是一個(gè)為緩解大型視覺語言模型(VLMs)局限性而設(shè)計(jì)的專用 OCR 模型,它提供了一種高效、準(zhǔn)確且輕量級(jí)的解決方案。
PP-OCRv5 通過保持模塊化、兩階段的流程,專門針對(duì)高速、精確的文本檢測(cè)和識(shí)別,解決了大型 VLMs 的精確文本定位和邊界框精度局限性問題。
PP-OCRv5 的亮點(diǎn)如下:
效率:該模型參數(shù)量?jī)H為 0.07B,能夠在 CPU 和邊緣設(shè)備上實(shí)現(xiàn)更高性能,其移動(dòng)版本在英特爾 Xeon Gold 6271C CPU 上每秒可處理超過 370 個(gè)字符。性能:PP-OCRv5 在 OCR 特定基準(zhǔn)測(cè)試中優(yōu)于通用型 VLM 模型,如 Gemini 2.5 Pro、Qwen2.5-VL 和 GPT-4o,包括手寫和印刷的中英文以及拼音文本。定位:PP-OCRv5 旨在提供精確的文本行邊界框坐標(biāo),這對(duì)于結(jié)構(gòu)化數(shù)據(jù)提取和內(nèi)容分析是關(guān)鍵要求。多語言支持:該模型支持五種文字類型 —— 簡(jiǎn)體中文、繁體中文、英文、日文和拼音,并能識(shí)別超過 40 種語言。
PP-OCRv5 由四個(gè)核心組件構(gòu)成:
圖像預(yù)處理:處理圖像的旋轉(zhuǎn)和畸變,以標(biāo)準(zhǔn)化輸入。文本檢測(cè):識(shí)別圖像中文本行的精確位置。文本行方向:分類檢測(cè)到的文本方向,以確保其正確對(duì)齊以進(jìn)行識(shí)別。文本識(shí)別:將每行文本中的字符解碼為文本字符串。
IT 之家附 PP-OCRv5 下載地址如下:
關(guān)于我們|版權(quán)聲明| 違法和不良信息舉報(bào)電話:010-84151598 | 網(wǎng)絡(luò)敲詐和有償刪帖舉報(bào)電話:010-84151598
Copyright ? 2008-2024 by {當(dāng)前域名}. all rights reserved