logo

淘丁数据标注:OCR文字标注的难点及解决办法

来源:淘丁集团

淘丁数据标注:OCR文字标注的难点及解决办法

OCR文字标注

简单来说OCR文字标注其实就是文字识别,是对图片中的文字,进行人为、机器识别的方式,完全获取文字信息的一种标注工序。

举一个例子:你想要将你看到某一本书的其中一篇文章想把内容复制出来,不想手写,自己输入又非常费时时,我们就可以通过OCR技术转译为文字了。

淘丁数据标注:OCR文字标注的难点及解决办法插图

OCR文字标注 目前的难点

1:内容不规则、图片清晰度等、背景干扰等。

2:非简体字识别、相似文字、生僻字、复杂公式符号等。

3:定位问题明显、行间距不清楚,难于标注、字高范围。

4:手写体问题是目前的主要难点,因为每个人的个人习惯字体风格都不同,这就难免会导致机器在识别文字内容时出现错误。

5:按照识别内容来说目前分为三大类:汉字、英文、阿拉伯数字。数字识别最简单;英文识别仅有26个字母;但是中文就不一样了常用汉字、相似文字、以及繁简体等,还需要识别出整个字体。

这些是目前OCR文字标注最大的难题。

淘丁数据标注:OCR文字标注的难点及解决办法插图1

如何解决OCR文字标注目前的难点

要攻克这些难点就需要机器进行学习演练,而这个过程中则需要大量的数据支撑,这就需要借助数据标注的帮助,而这些大量的数据支撑就是我们所需要做的。
在这个过程中我们可以做采集、清洗、标注这些工序。
(1)采集:如手写字体、广告牌、学生作业、各类印刷体拍照收集
(2)清洗:去除无效数据、去除噪点数据、快速分类等
(3)标注:拉框、标签、转写。

OCR技术可以快速高效地实现信息采集录入,不再需要浪费人力来进行录入登记、也不用花费众多的物力,在节省时间成本的同时大幅度的提高工作效率,因此在社会各行各业中都能发现它的身影。