百度發(fā)布新一代文字識(shí)別 AI 模型 PP-OCRv5，僅 0.07B

來源：賣劍買牛網(wǎng)-工人日?qǐng)?bào)

2025-09-17 12:06:11

IT 之家 9 月 13 日消息，百度于 9 月 10 日在 Hugging Face 發(fā)布新一代文字識(shí)別解決方案 PP-OCRv5。

百度介紹稱，PP-OCRv5 是一個(gè)為緩解大型視覺語言模型（VLMs）局限性而設(shè)計(jì)的專用 OCR 模型，它提供了一種高效、準(zhǔn)確且輕量級(jí)的解決方案。

PP-OCRv5 通過保持模塊化、兩階段的流程，專門針對(duì)高速、精確的文本檢測(cè)和識(shí)別，解決了大型 VLMs 的精確文本定位和邊界框精度局限性問題。

PP-OCRv5 的亮點(diǎn)如下：

效率：該模型參數(shù)量?jī)H為 0.07B，能夠在 CPU 和邊緣設(shè)備上實(shí)現(xiàn)更高性能，其移動(dòng)版本在英特爾 Xeon Gold 6271C CPU 上每秒可處理超過 370 個(gè)字符。性能：PP-OCRv5 在 OCR 特定基準(zhǔn)測(cè)試中優(yōu)于通用型 VLM 模型，如 Gemini 2.5 Pro、Qwen2.5-VL 和 GPT-4o，包括手寫和印刷的中英文以及拼音文本。定位：PP-OCRv5 旨在提供精確的文本行邊界框坐標(biāo)，這對(duì)于結(jié)構(gòu)化數(shù)據(jù)提取和內(nèi)容分析是關(guān)鍵要求。多語言支持：該模型支持五種文字類型 —— 簡(jiǎn)體中文、繁體中文、英文、日文和拼音，并能識(shí)別超過 40 種語言。

PP-OCRv5 由四個(gè)核心組件構(gòu)成：

圖像預(yù)處理：處理圖像的旋轉(zhuǎn)和畸變，以標(biāo)準(zhǔn)化輸入。文本檢測(cè)：識(shí)別圖像中文本行的精確位置。文本行方向：分類檢測(cè)到的文本方向，以確保其正確對(duì)齊以進(jìn)行識(shí)別。文本識(shí)別：將每行文本中的字符解碼為文本字符串。