NCChineseConverter中文簡繁正轉(zhuǎn)換庫
資料介紹
軟件簡介
NCChineseConverter 是一個?基于 Objective-C?的中文簡繁正轉(zhuǎn)換庫. 除此之外, 本項目還包括一個 Python 的詞庫轉(zhuǎn)換工具.
本庫的基本實現(xiàn)原理: 從 Mediawiki 提供的字典中提取數(shù)據(jù), 轉(zhuǎn)換為自己需要的格式, 然后用最大正向匹配算法進行字符替換.
特點
-
可以只使用單一詞庫
-
可擴充自定義詞庫
-
提供 NSString 的 Category
使用方法
-
?用詞典工具生成詞典
-
?把生成的詞典放在項目的 Resources 目錄下
-
?按如下方式引用轉(zhuǎn)換庫和調(diào)用
#import?"NCChineseConverter.h"?…?NSString?*oriString?=?@"";?NSString?*result?=?[[NCChineseConverter?sharedInstance]?convert:oriString?withDict:NCChineseConverterDictTypezh2TW]; …
Tool
下載詞庫并生成詞典:
python?dictgenerator.py
? ? 用本地詞庫生成詞典(適用于已經(jīng)下載了詞庫文件):
python?dictgenerator.py?n
? ? 利用詞典工具會在當(dāng)前目錄生成如下詞典文件:
-
zh2TW.txt (簡體 -> 臺灣正體)
-
zh2HK.txt (簡體 -> 港澳繁體)
-
zh2SG.txt (簡體 -> 新馬繁體)
-
zh2CN.txt (繁體/正體 -> 大陸簡體)
方便起見, 我在?dictionary?目錄中放了轉(zhuǎn)換好的詞典文件. 目錄名稱即為詞典生成時間.
注意: 請勿修改文件名, 轉(zhuǎn)換庫是嚴格按照文件名來讀取詞典的.
自定義擴充轉(zhuǎn)換詞組
詞典工具是根據(jù) Mediawiki 的詞庫來進行詞典生成, 所以要等待 Mediawiki 的詞庫更新才能得到新的詞典. 如果你有一些 Mediawiki 里沒有的詞語要擴充, 則可以使用該方法來使用.
使用前綴相同的字典文件來進行自定義詞組的擴充, 轉(zhuǎn)換庫會自動加載對應(yīng)的擴充字典.
比如, 把你自己的?簡體 -> 臺灣正體?詞典命名為?zh2TW.custom.txt, 這樣轉(zhuǎn)換庫就可以自動加載這個詞典并在轉(zhuǎn)換時使用.
備注
雖然詞典工具一次生成四個詞典, 但是你可以視情況只使用其中一個或多個. 需要注意的是如果你沒有在項目中放入某個詞典文件, 那么要避免在代碼里調(diào)用該字典.
未來改進
-
增加更多轉(zhuǎn)換詞庫
-
使用 Double-array Trie Tree 來構(gòu)造原始字典, 提高搜索速度
-
改進分詞算法
背景
簡繁正的問題在此不多說, 都是歷史遺留問題, 具體情況可以自行查看 Wikipedia, 用自己的思考去判斷(漢字簡化爭論). 在此只討論技術(shù)相關(guān)問題.
簡繁轉(zhuǎn)換不是單純的從一個字轉(zhuǎn)換為另一個字, 他包含很多內(nèi)容, 如:
-
各種繁體/正體. 如: 港澳繁體, 臺灣正體. 再加上各個華人地區(qū)的中文(如新加坡)使用等.
-
簡體和繁體的對照往往不止一對一, 而是一對二, 一對三, 甚至一對五(多繁對一簡問題)
目前比較常用的轉(zhuǎn)換方式主要是?Wikipedia 的轉(zhuǎn)換方式?和?OpenCC.
Wikipedia 進行簡繁轉(zhuǎn)換的操作流程參見:?繁簡處理
OpenCC 的庫相對比較專業(yè). 不過這是一個 C 庫, 所以如果要在 iOS 下使用, 則需要自己把庫編譯成 iOS 可以使用的庫再進行調(diào)用.
參考
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
- LABVIEW NPOI库文件下载206次下载
- STM32固件库使用手册的中文版0次下载
- STM32固件库使用手册中文版以及技术手册中文版pdf0次下载
- 基于VB的转换Access数据库为Excel文件实验20次下载
- 推挽正激零电流转换DC-DC变换器的研究与实现31次下载
- 西门子S7_200模拟量转换库的使用50次下载
- 宽输入范围电路模式DC-DC升压转换器芯片XL600919次下载
- AN1246中文手册之如何在Microchip图形库中创建控件8次下载
- dsPIC DSC DTMF 生成库的详细中文资料概述8次下载
- 如何对dsPIC33E系列器件使用采样率转换库的详细中文资料概述15次下载
- Stellaris软件库的安装,特性介绍和资源说明详细中文概述5次下载
- linux_C函数库中文手册14次下载
- STM32固件库说明(中文版)0次下载
- orcad与dxdesigner库转换器144次下载
- 简繁体字转换软件下载31次下载
- proteus元件轉(zhuǎn)換方向快捷鍵 proteus元件庫沒有的元件怎樣搞 9288次閱讀
- 聊聊日志即數(shù)據(jù)庫 747次閱讀
- 對象轉(zhuǎn)換工具:MapStruct 庫 1102次閱讀
- Linux中的靜態(tài)庫和共享庫 1071次閱讀
- 正輸出和負輸出DC-DC轉(zhuǎn)換器使用相同的合格器件 1454次閱讀
- 長期降低成本:正輸出和負輸出DC-DC轉(zhuǎn)換器使用相同的合格器件 848次閱讀
- 關(guān)于STEP7庫功能字符串轉(zhuǎn)換 4320次閱讀
- Smart200庫文件添加的Scale指令 1.6w次閱讀
- 基于LTC7149的正至負轉(zhuǎn)換器解決方案 835次閱讀
- 云數(shù)據(jù)庫和自建數(shù)據(jù)庫的區(qū)別及應(yīng)用 4669次閱讀
- 如何實現(xiàn)電平轉(zhuǎn)換,多種方法 1.2w次閱讀
- 如何使用采用SPI Flash存儲中文字符庫的方法說明 6632次閱讀
- 將負脈沖轉(zhuǎn)換為正脈沖 9687次閱讀
- STM32標(biāo)準(zhǔn)庫改為HAL庫的程序?qū)崿F(xiàn) 3.4w次閱讀
- 如何將Altium Designer 6.0的庫檔轉(zhuǎn)換成99se的格式 6264次閱讀
下載排行
本周
- 1山景DSP芯片AP8248A2數(shù)據(jù)手冊
- 1.06 MB | 532次下載 | 免費
- 2RK3399完整板原理圖(支持平板,盒子VR)
- 3.28 MB | 339次下載 | 免費
- 3TC358743XBG評估板參考手冊
- 1.36 MB | 330次下載 | 免費
- 4DFM軟件使用教程
- 0.84 MB | 295次下載 | 免費
- 5元宇宙深度解析—未來的未來-風(fēng)口還是泡沫
- 6.40 MB | 227次下載 | 免費
- 6迪文DGUS開發(fā)指南
- 31.67 MB | 194次下載 | 免費
- 7元宇宙底層硬件系列報告
- 13.42 MB | 182次下載 | 免費
- 8FP5207XR-G1中文應(yīng)用手冊
- 1.09 MB | 178次下載 | 免費
本月
- 1OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234315次下載 | 免費
- 2555集成電路應(yīng)用800例(新編版)
- 0.00 MB | 33566次下載 | 免費
- 3接口電路圖大全
- 未知 | 30323次下載 | 免費
- 4開關(guān)電源設(shè)計實例指南
- 未知 | 21549次下載 | 免費
- 5電氣工程師手冊免費下載(新編第二版pdf電子書)
- 0.00 MB | 15349次下載 | 免費
- 6數(shù)字電路基礎(chǔ)pdf(下載)
- 未知 | 13750次下載 | 免費
- 7電子制作實例集錦 下載
- 未知 | 8113次下載 | 免費
- 8《LED驅(qū)動電路設(shè)計》 溫德爾著
- 0.00 MB | 6656次下載 | 免費
總榜
- 1matlab軟件下載入口
- 未知 | 935054次下載 | 免費
- 2protel99se軟件下載(可英文版轉(zhuǎn)中文版)
- 78.1 MB | 537798次下載 | 免費
- 3MATLAB 7.1 下載 (含軟件介紹)
- 未知 | 420027次下載 | 免費
- 4OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234315次下載 | 免費
- 5Altium DXP2002下載入口
- 未知 | 233046次下載 | 免費
- 6電路仿真軟件multisim 10.0免費下載
- 340992 | 191187次下載 | 免費
- 7十天學(xué)會AVR單片機與C語言視頻教程 下載
- 158M | 183279次下載 | 免費
- 8proe5.0野火版下載(中文版免費下載)
- 未知 | 138040次下載 | 免費
評論