[00049889]脱机通用手写体汉字识别新算法和系统开发
交易价格:
面议
所属行业:
软件
类型:
非专利
技术成熟度:
通过中试
交易方式:
完全转让
联系人:
文小琴
所在地:广东 广州市
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
汉字识别属于超多类模式集合的分类问题。汉字识别技术可以分为印刷体识别和手写体识别。而手写体识别又可以分为联机与脱机两种。从识别技术的难度来说,手写体识别的难度高于印刷体识别,而在手写体识别中,脱机手写体的难度又远远超过了联机手写体识别。与脱机手写体相比,联机手写体识别和印刷体汉字识别已经实用化,而且在向更高的性能、更完善的用户界面的方向发展。
针对脱机手写体汉字识别中存在的问题,我们在汉字预处理、汉字切分、特征抽取、大样本学习和汉字识别方面开展了大量的研究。在汉字预处理方面,我们提出了基于二维细胞自动机和中值运算的去噪算法,同时也提出了一种基于模板保留的快速并行细化算法。针对限定性切分,我们提出的算法对图片的小角度倾斜、扫描仪的不同分辨率、汉字的部分出格、格子的大小都具有很好的自适应。在特征抽取方面,我们采用了由横、竖、撇、捺四种笔画组成的混合统计特征,该混合特征的最大优点是抗噪能力比较强。在大样本学习方面,我们提出了自适应支持向量机算法,该算法具有学习速度快,识别精度高的特点。在汉字识别方面,我们采用了一对一的学习策略,这样可以防止数据不平衡。基于上述的理论和算法研究,利用C#语言,我们开发了一个能识别400个汉字的软件系统,该系统可以在CPU 1GB、内存512MB的PC机上运行。对于书写比较规范的汉字,该系统的一次识别率达到了95%以上,对于带连笔比较少的汉字,该系统的一次识别率为90%左右。
项目投资条件:需要投入50万元资金购买相关的硬件和数据库软件
成果所处研究阶段:中试阶段
知识产权或已应用情况:基于自有知识产权的新算法,项目组开发了一套手写体汉字识别软件,并得到了该软件的著作权登记证书(证书编号:2007SR04555)。