OCR技术简介【ocr吧】

ocr吧关注：1,574贴子：4,733

0回复贴，共1页

OCR技术简介

技术简介：
• OCR技术是光学字符识别的缩写(OpticalCharacter Recognition)，是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息，再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。
• 可应用于银行票据、大量文字资料、档案卷宗、文案的录入和处理领域。适合于银行、税务等行业大量票据表格的自动扫描识别及长期存储。相对一般文本，通常以最终识别率、识别速度、版面理解正确率及版面还原满意度4个方面作为OCR技术的评测依据;而相对于表格及票据，通常以识别率或整张通过率及识别速度为测定OCR技术的实用标准。
在档案领域OCR技术使档案扫描成果达到了全文可识别，将档案数字化发展提升了到了一个新的阶段，是原本扫描出来的图片变得更容易进行检索，为数字档案馆的数据查询提供了技术支持，是档案数字化发展中必不可少的一环。
技术参数：
1、支持识别TIF、PNG、BMP、JPG格式图片，PDF文件；
2、版面分析：横排文本、竖排文本、图像、表格版面，将识别结果最大程度还原到识别原件的内容；包括表格、图像的格式还原，段落的格式还原；
3、支持中文简体，中文繁体，英文，日文、韩文，俄文，德文，法文，意大利文；（备注：后续可升级支持：藏文识别、维吾尔文识别、维文识别、哈萨克文识别、阿拉伯文识别、柯尔克孜文识别等）；
4、支持对图片进行，滤红，去下划线，倾斜矫正，自动旋正；
5、支持对内存中的图像进行识别；OCR算法中为了保障识别率本身就包括图像输入、预处理、二值化、噪声去除、段落处理、字符切割、字符识别等处理；
6、识别300DPI 宋体字扫描文档 99.8%的识别率，700毫秒/A4；（跟页面复杂程度有关）；
7、支持结果导出为可编辑的：XML、双层PDF、TXT、RTF格式（WORD文本编辑）、XLS格式（EXCEL表格编辑）；
8、提供可靠、方便集成的OCR SDK开发包；
9、集成开发接口最全：C、C++、VB、VC、JAVA、DELPHI；
操作系统：
1、支持Windows操作系统；
2、支持Linux操作系统：（仅支持中文、英文识别、输出TXT、双层PDF结果）

送TA礼物

1楼2019-11-07 17:31回复

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

0回复贴，共1页

<返回ocr吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴

日	一	二	三	四	五	六

OCR技术简介

登录百度账号

扫二维码下载贴吧客户端