趣文网 > 作文大全

Amazon研究人员用AI提高曲线文本识别 测试准确度超过83%

2020-12-05 15:35:01
相关推荐

光学字符识别(OCR),即将手写或打印文本的图像转换为机器可读文本,是一门可追溯到70年代早期的技术。

但是长期以来OCR算法一直很难识别出与水平面不平行的字符,于是Amazon的研发人员开发了一项叫“TextTubes”的技术。这是一个自然图像中曲线文本的检测器,可将文本建模为围绕其中轴线的管状。在一篇描述他们工作的论文中,合作者声称他们的方法在一个通用的OCR基准上达到了最先进的结果。

【 图片来源:venturebeat所有者:venturebeat 】

正如研究人员所解释的,场景文本通常被分成两个连续的任务:文本检测和文本识别。 第一个涉及使用上下文线索来定位字符、单词和行,第二个是转录其内容。两者都说起来容易做起来难,自然环境中的文本不仅受到变形的影响,而且还会受到视点变化和字体的影响。

该团队的解决方案是利用文本参考框架的“管状”表现形式,利用目标文本通常是大小相似的字符串联而成的事实,从而捕获大部分可变性。与使用易于重叠和容易产生噪声的矩形和四边形来捕获文本信息的传统方法相比,它被公式化为一种数学函数,能够训练机器学习场景文本检测器。

研究人员在CTW-1500上评估了TextTubes的性能。CTW-1500是一个数据集,该数据集由从自然场景和图像库中收集的1500张图像(每个图像至少一个曲线实例),超过10000个文本实例组成。同时在Total-Text上进行了评估,Total-Text包含大约1255次训练图像、300个测试图像以及一个或多个曲线文本实例。他们报告说,他们在CTW-1500上以83.65%的准确度取得了行业领先的结果,而最接近的方法的准确度为75.6%。

“对一个实例的中间轴和平均半径进行建模……可捕获有关实例整体的信息。”该论文的合著者写道。 “在由单个单词组成的数据集上,例如Total-Text,我们的模型能够实现最先进的性能。在具有行级注释的数据集上,例如CTW-1500,我们的模型能够更好地捕获实例中各个单词的文本信息。”

假设有一天,TextTubes能够投入使用,对于那些高度依赖OCR技术开展业务的企业来说,这可能是一个好消息。据估计,超过80%的数字流程中仍保留着纸张;大约有97%的小企业仍在使用纸质支票。据Grand View Research的数据显示,这或许就是为什么到2025年,OCR解决方案市场的价值预计将达到138.8亿美元原因。(雷锋网雷锋网雷锋网)

viaVB

阅读剩余内容
网友评论
相关内容
延伸阅读
小编推荐

大家都在看

哈尔滨的冬天作文 观察日记作文300字 我最喜欢春节作文 我的爸爸200字作文 种下一粒种子作文 我的梦想作文100字 30年后的我作文 安昌古镇作文 作文我的好朋友500字 北京作文培训 抓周作文 龟兔赛跑英语作文 介绍自己的作文400字 收拾房间作文 我的同学作文800字 关于背后的作文 我的父亲作文800字 迈出这一步作文 写人作文550字 机智的我作文 写景的作文150字 关于油菜花的作文 以暖为题的作文 描写家乡风景的作文 滑冰作文600字 篆刻作文 作文成功之路 环境与健康作文 美在路上作文 语文考试万能作文