將掃描的PDF轉(zhuǎn)換為可搜索的文檔
快速精確的基于神經(jīng)網(wǎng)絡(luò)的引擎
糾正低質(zhì)量掃描
120多種語(yǔ)言
.Net2.0+、.Net5、標(biāo)準(zhǔn)、核心
將掃描的PDF轉(zhuǎn)換為可搜索的PDF
4行代碼,僅此而已
多虧了簡(jiǎn)單的API,您可以使用幾行代碼將掃描的PDF 轉(zhuǎn)換為可搜索的文檔。
順便說(shuō)一句,不僅僅是PDF。將JPEG、多頁(yè)TIFF 或 PNG轉(zhuǎn)換為可搜索的 PDF到您的應(yīng)用程序現(xiàn)在只需幾分鐘,而不是幾小時(shí)或幾天。
閱讀 120多種語(yǔ)言的多種圖像格式
Tesseract.NET SDK 可以準(zhǔn)確識(shí)別120多種語(yǔ)言的文本,支持多語(yǔ)言文本,并且可以通過(guò)訓(xùn)練使用以前未知的語(yǔ)言。支持的標(biāo)準(zhǔn)包括英語(yǔ)、法語(yǔ)、意大利語(yǔ)、德語(yǔ)、西班牙語(yǔ)、阿拉伯語(yǔ)、中文、希伯來(lái)語(yǔ)、日語(yǔ)、俄語(yǔ)、泰語(yǔ)等。
正確的低質(zhì)量掃描
例如,去歪斜輸入過(guò)濾器會(huì)自動(dòng)旋轉(zhuǎn)圖像,因此它是正確的向上和正交的。如果頁(yè)面過(guò)于傾斜,則Tesseract的線(xiàn)分割質(zhì)量會(huì)顯著降低,這會(huì)嚴(yán)重影響OCR 的質(zhì)量。
Patagames OCR SDK 內(nèi)置的用于增強(qiáng)OCR性能的輸入過(guò)濾器包括:二值化、對(duì)比度和對(duì)比度標(biāo)準(zhǔn)化、去偏斜、增強(qiáng)分辨率、腐蝕和擴(kuò)張、膨脹和放氣、反轉(zhuǎn)、移除邊框、旋轉(zhuǎn)、ToGray和白色背景。
為您的.Net 應(yīng)用程序配備OCR 功能的最佳方式
雖然Tesseract 無(wú)疑是迄今為止最好的OCR 庫(kù),但Tesseract.NET SDK是為您的應(yīng)用程序配備文本識(shí)別功能的最佳方式之一。
Tesseract.Net SDK 結(jié)合了易于部署、卓越的識(shí)別精度、快速OCR 和各種輸出選項(xiàng)(包括PDF、HOCR、UNLV和純文本),提供靈活簡(jiǎn)單的API 以及許多高級(jí)和低級(jí)文本識(shí)別程序。
多虧了簡(jiǎn)單的API,您可以用幾行代碼將給定的圖像轉(zhuǎn)換為可搜索的文本。如果您需要更詳細(xì)地了解文本的組成部分,Tesseract.NETSDK API 提供了許多類(lèi)來(lái)檢索單個(gè)字母、單詞、段落甚至字體參數(shù)。
審核編輯 :李倩
-
PDF
+關(guān)注
關(guān)注
1文章
169瀏覽量
33745 -
代碼
+關(guān)注
關(guān)注
30文章
4808瀏覽量
68812 -
應(yīng)用程序
+關(guān)注
關(guān)注
37文章
3285瀏覽量
57779
原文標(biāo)題:Patagames:正方體.NetSDKC# OCR 庫(kù)
文章出處:【微信號(hào):哲想軟件,微信公眾號(hào):哲想軟件】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論