理论教育 自然语言处理在文本识别中的应用

自然语言处理在文本识别中的应用

时间:2023-08-06 理论教育 版权反馈
【摘要】:在讨论文本识别时,有必要了解自然语言处理的概念。研究表明,这种人工智能能够读取放射学报告并自动识别其中的临床概念。该过程基本上分为两个步骤:Rosetta先扫描图像中的文本,再利用文本识别技术来识别文本实际内容。2019年2月,公司推出了“零容忍计划”,称将允许品牌不需要亚马逊的帮助,就可以自行下架假冒产品。

自然语言处理在文本识别中的应用

在讨论文本识别时,有必要了解自然语言处理(NLP)的概念。从本质上讲,这允许人工智能有效地阅读诸如你的文本之类的东西,理解并分析其阅读内容。

2018年初,一篇有关自然语言处理的研究论文发表,其描述如下:“以96000多份放射科医生在西奈山医院和西奈山皇后医院进行的头颅CT扫描报告为基础,研究人员训练计算机软件理解这些由放射科医生撰写的报告文本,其准确性达到91%……NLP算法被用于教会机器掌握短语集,包括诸如磷脂、胃灼热和结肠镜检查之类的单词。”研究表明,这种人工智能能够读取放射学报告并自动识别其中的临床概念。

微软和阿里巴巴等公司最近谈到了人工智能理解和分析文本的能力,其使用的软件有可能在理解测试中击败人类。尽管总体来说,软件的阅读能力不比人类更优,但面对特定的任务时,它目前的理解速度要比人类更快。本质上说,如果让计算机在受限的参数下进行文本阅读,它比人类的理解程度更好。

这不仅是人工智能发展的重要一步,也是思想保护的重要一步。谷歌现在可以使用机器学习和预测文本来完善人们的句子。谷歌用于Gmail的一项功能被称为Smart Compose,其可自动完成用户的电子邮件。回想一下,在上面有关语音和声纹识别的部分,我们讨论了人工智能的转写语音能力。如果把语音转写为文本的能力与在受限参数下理解文本的能力相结合,意味着人工智能现在不仅可以听取对话,还可以理解对话。(www.daowen.com)

正如我们前面所提,脸书开发人员说他们已经创建了一个专用的AI工具,称为Rosetta,可以读取脸书及照片墙中共享的表情包(以及其他图像和视频片段)中的文本。该过程基本上分为两个步骤:Rosetta先扫描图像中的文本,再利用文本识别技术来识别文本实际内容。一旦文本被转录,系统便会解读文本的含义。通过Rosetta,脸书可以改善其图像搜索能力,并对系统进行升级,以确定在新闻源中可能出现的图像类型。它还可以帮助公司自动检测并清除以前可能无法识别的仇恨言论。脸书表示,未来可能会使用相同技术来理解视频中出现的文本,尽管这将需要一套更为复杂的系统。利用此类信息,脸书可以大量积累针对每个已知人员的信息。

亚马逊正使用人工智能来阻止假冒产品出现在其网站上。2019年2月,公司推出了“零容忍计划”(Project Zero),称将允许品牌不需要亚马逊的帮助,就可以自行下架假冒产品。这个初衷很好的项目,将再次被用来扫描和收集有关竞争对手和客户的互联网数据,一如反乌托邦电影《疯狂轮滑》(Rollerball)中的场景——这部电影描述了一个消费社会的未来世界,其经营者是大公司而非政府,每个大公司都有无限资源。这个世界的所有书籍都已数字化并进行过“编辑”,以适合公司的需要,所有书籍一概存储在受公司保护的超级计算机上:在电影中,全球中央超级计算机被称为“零点”……反乌托邦,即乌托邦的反面。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈