趣文网 > 作文大全

Atman 刘昌芳:医学机器翻译与机器写作

2020-12-03 05:10:01
相关推荐

以下文字由「KnowingAI知智」主办的「AI+医疗——如何让人工智能更好地理解医生」活动现场演讲内容整理而成。演讲者为 Atman 产品负责人刘昌芳,为方便阅读,「KnowingAI知智」进行了不影响原意的编辑。

Atman 产品负责人刘昌芳

Atman 是一家由微软亚洲研究院(MSRA)和微软 Bing 的人工智能专家创办的公司,60% 的同事来自微软。我们为医学领域用户提供机器翻译、机器写作、知识图谱和大数据人工智能产品,致力于成为医学领域的语言智能专家。目前,Atman 已为跨国药企提供机器翻译、机器写作产品,2017、2018 年还被评为人工智能 50 强企业。

我们虽然是一家初创企业,但是大部分人成员都是行业里的老人。2016 年 1 月在北京成立,早于 2016 年 9 月谷歌发布的神经机器翻译(GNMT),Atman 完成了机器翻译系统首秀。2017 年 7 月,Atman 与强生签约,同年 12 月我们开始研发医学领域的机器写作。

▼ 医学机器翻译

有人问「百度、谷歌都有机器翻译,你们为什么还要做机器翻译?」

第一,不同于谷歌、百度面向通用领域的机器翻译,我们做医学领域的机器翻译;

第二,Atman 会为用户定制私有化训练。什么是私有化训练?如果用户之前有翻译过的文档,我们可以用这些文档再次训练(模型),翻译得更加准确。

第三,我们可以做私有部署,将客户的机器翻译部署到企业内部,数据安全更有保障。

Atman 做机器翻译的优势,首先在于海量的医学数据基础,我们爬取了 2 亿双语语料和术语训练医学翻译引擎;其次通过多家客户的机器翻译模型和算法的不断验证,结合医学领域的(语言)规则,算法更加精细;此外我们所有算法都是自主研发,攻克了很多技术难题;我们还有闭环的学习训练,在使用的过程中会翻译得越来越好。

通过 2 亿基础语料训练而成的 Atman 基础翻译引擎,相当于「本科生」的水平。使用客户自己的语料,我们可以再次训练,做自主定制的机器翻译引擎。强生正在使用我们的基础语料库结合自有语料进行训练,得到的翻译引擎相当于「研究生」水平。

私有化部署方案,则可以将机器翻译部署到企业的内部系统中。所有的模型和数据只进不出,可以保障数据的安全。为什么要选择私有部署?翻译的准确率会更高、数据更安全,机器翻译模型可以持续升级、终身学习,还能与用户已有的翻译项目管理系统无缝对接。

我们还有免费的在线 SaaS 平台,用户可以上传文档,或输入文字直接翻译。如果与没有医学背景的译员相对比,机器翻译一定会比没有医学背景的人翻译得更加准确。目前我们支持 43 种文档格式,可以在保留原格式的情况下进行翻译。

在定制医学机器翻译引擎方面,通过强生提供的 50 万句私有语料,结合强生的语言习惯、擅长句型和术语翻译,(定制机器翻译引擎)可以更好的延续强生内部的翻译习惯。强生内部评测报告显示,Atman 的 BLEU 值比谷歌高 1 个百分点。

▼ 医学机器写作

左侧这篇文章案例是药代动力学报告,文档只有三页,但即使是擅长英文写作的医学博士或者硕士也需要耗费 7 个小时来写作。虽然摘要可能只有一、两百字,但通常要筛选、阅读一、两千篇文献。其中 80% 的时间在做检索、筛选和判断,剩余的 20% 的时间编写报告,工作量非常繁重。

基于以上痛点和需求,Atman 开发了机器写作产品。它能搜索、过滤多个医学网站及数据库,自动获取完整的文献全文,还可以分析文献文本和标签,自动生成摘要并进行结论总结。

人类写作有三种类型,创作型写作、描述型写作和综述型写作。写小说是创作型写作,医学人员写报告、申报材料是综述型写作。

如果将人类写作加上 NLP(自然语言处理技术),能得到什么?

机器翻译是 NLP 的核心技术之一,信息检索、内容抽取、问答、聊天对话都是 NLP 技术的实现方式。人类的传统写作数据通过 NLP 技术进行自动加工,就能自动生成文章或辅助人类进行写作,这样的一整套计算机程序就是机器写作。

(机器写作)流程的核心是要先获得数据,从网上抓取或上传私有数据,将数据进行分析,提炼观点得到具有可操作性的意见和建议,再按照预设模版生成报告或材料。其核心能力和关键技术,包括自动摘要生成、实物识别和提取、主题的识别和分类、爬虫技术和搜索引擎,光学文字的识别。

客户会从 Pubmed 上检索文献,提取文献标题、摘要征文等信息,(医学机器写作)可以生成药品说明书。使用新药早期临床实验步骤以及对应各阶段数据,(医学机器写作)可以生成动物实验报告、IDN 材料、伦理报告;有些用户因为医学法规,每天要用分析仪生成一千多份 PDF,使用机器可以大大提升效率。还可以全网检索相关数据,汇总成药品研发的阶段性总结报告,用于新药研发的报批。针对不同的场景,写作的内容、形态都有所不同。

选择领域搜索关键词,(我们的医学机器写作)不仅可以搜索 Pubmed、 FDA、谷歌论文、万方医学等数据源,也可以上传自己的私密数据。

搜索出来的结果我们会进行整理、分类,分辨它们是 Guideline(参考)、Clinical Trials(临床试验)还是 Systematic Review(系统评价)。分类的同时还会对内容进行分析,打上相应标签,包括是前瞻性研究还是回顾性研究,正向研究还是负向研究,研究人群是怎样的等等。我们也会做多维度筛选,帮助用户快速定位、查找到想要的数据。

筛选数据之后,还可以根据预设的模版一键生成文本,包括摘要、数据、小标、结论等等。

谢谢大家。

关于 KnowingAI 知智:

「KnowingAI 知智」是中国领先的、面向人工智能行业的企业服务解决方案提供商,致力于成为「更懂人工智能行业的知识传播者」。

知智旗下拥有媒体品牌「Knowing 知智」、视频品牌「知智一分钟」、活动品牌「TalkingAI」,在为广大读者、观众提供人工智能基础知识及行业解读的同时,将艰深术语与行业变迁转化为普通人也能理解的表达方式,不遗余力地为人工智能祛魅。

阅读剩余内容
网友评论
相关内容
延伸阅读
小编推荐

大家都在看

五年级下册语文第七单元作文 小学二年级作文过年 一件烦心事作文300字 家务劳动作文600字 我的一天英语作文50字 新年礼物作文500字 我心中的世外桃源作文 过去和现在的变化英语作文 有你的地方就有风景作文 淡淡的日子也飘香作文 乡下风景作文400字 以看为话题的作文 描写小动物的作文300字 珍惜时间的作文600字 新年计划英语作文初二 收获的快乐作文600字 七年级满分作文大全 我的假期生活作文300 关于创新的高考作文 环保小卫士作文300字 端午节作文的好开头 成长的足迹作文400字 三年级元宵节作文300字 今年全国卷作文题目 我发现了美作文400字 家乡的味道作文800字 五年级下册第3单元作文 什么里的微感动作文 人间处处有真情的作文 我想让妈妈高兴作文