文档图片仍然给翻译项目经理带来麻烦,但OCR正在改善

语言行业的项目经理都非常熟悉这种情况:客户希望以不可编辑的文件格式翻译文档。但是,在进行任何操作之前,PM必须先对文档进行一轮光学字符识别(OCR),以便确定字数。如果文档是手写的或包含未知语言的文本(或两者-真让人头疼),则任务可能会变得更加复杂。
许多公司已经找到解决OCR问题的方法。对于小型企业,Adobe Acrobat可能会完成工作。但是随着公司的成长,它可能会探索其他选择,例如OpenText的Capture引擎系列。ABBYY FineReader Engine还提供了一套识别产品,其中包括被宣传为支持200种语言的OCR技术。
Google自2006年以来就一直赞助开源OCR引擎Tesseract的进一步开发,该引擎最初是由惠普在1980年代开发的。在谷歌云平台还提供了一个教程使用的计费云产品的集合进行OCR。同时,亚马逊以Textract在保持原始格式的同时从表格和图表中提取数据的能力而自豪。
理想破坏者
每个OCR领域的新手都将其算法和技术吹捧为OCR挑战的最终答案。语言服务提供商Tarjama位于阿联酋迪拜,已建立了基于神经网络的专有OCR技术。
新加坡的初创公司Staple专门处理布局很重要的文档,例如发票,税单和银行对帐单;用户可以通过微信,Google云端硬盘和Dropbox输入100种语言的文档。
Cullable的创建者兼CTO (域名ocrsucks.com的所有者)Sid Newby拥抱OCR的不良声誉。他基于在eDiscovery方面的商业诉讼方面的多年经验(即,筛选数千页的文档以查找任何可能的相关信息),于2015年创立了Cullable。律师可能会在大量无法搜索的文本中错过大量关键证据,这可能会对他们的案件造成灾难性的影响。
Newby认为,Cullable系统背后的AI使其优于竞争对手的产品。Newby告诉Slator:“从本质上讲,我们处理的每个页面都会有所改善。” 关于完成和识别文本中的部分单词,他说:“我们正在努力理解思想。然后,AI通过引入新的数据集来改善该知识库。”
自2019年以来向消费者开放,Cullable的客户主要来自美国,其中一些在英国和南非。纽比说:“过去有数家翻译公司向我们提供项目。” “他们向我们发送他们遇到的问题:图像质量差,图像歪斜,部分经过修饰的单词,手写体。”
除了Cullable的核心OCR服务之外,机器翻译(MT)集成到了应用程序中。“真正好的OCR机器翻译会唱歌和跳舞,” Newby说。“我们使用Google Translate API是因为它是Google堆栈中的本机。” 当然,具有自己专有的MT引擎的语言服务提供商将改用它。
在地平线上改进了OCR?
展望未来,OCR仍将从研究中受益。2020年9月的一篇论文详细介绍了阿根廷的两名研究人员如何从日本漫画中创建带注释图像的数据集。目标:在像素级别启用漫画中的OCR。
作者写道,现有的带注释的像素级数据集通常由真实世界的图像组成,这些图像缺少语音气球。大部分文字通常是英语,很少像漫画一样以艺术风格手工绘制。尽管此特定数据集是围绕漫画设计的,但其背后的原理仍可应用于其他领域的日语文本的OCR。
2020年7月发表的最新文献综述阐明了迄今为止OCR研究的局限性。首先,大多数研究涉及地球上使用最广泛的语言,部分原因是说话者较少的语言通常无法获得数据集。系统也可能难以识别由许多不同的人手写的字符,每个人都有自己独特的笔迹。
对“野外文字”(即屏幕上的字符和不同设置中的文字)的OCR的兴趣持续增长,这最终可能与在流媒体中处理文字的翻译有关。但这可能取决于潜在的收益。
作者得出结论,研究的商业化需要改进,以帮助建立“低成本,现实的OCR系统,该系统可以将大量宝贵的信息转化为可搜索/数字数据。”