܄

【金猿技术展】专利智能语义检索——基于预训练的语义排序

【数据猿导读】 本项目由智慧芽投递并参与“数据猿年度金猿策划活动——2021大数据产业创新技术突破榜榜单及奖项”评选。

【金猿技术展】专利智能语义检索——基于预训练的语义排序

通过深度学习、自然语言处理以及预训练语言模型等前沿人工智能技术的运用,实现在海量全球多语言专利文本中进行自动化、智能化的数据分析与文本挖掘,进一步实现深层次语义分析,为用户提供更加精准地语义检索服务。

从不同的数据源入手,智慧芽进行了细粒度地文本实体抽取、实体关联、问题关联、领域关联、特征选择等方面的数据治理,通过领域语义图谱、文本/图片训练样本和预训练模型等,通过自研机器翻译引擎系统,智慧芽打通了不同专利文本之间的语言壁垒,使得面向全球TB级专利文本的分析、检索以及语义挖掘成为可能。

专利智能语义检索系统,主要在专利预训练语言模型的基础上,基于DSSM架构采用BERT孪生网络来获取文本的浅层语义信息,在检索层面,采用传统关键词检索以及向量检索相结合的方式,既保证了检索结果的覆盖率,也保证了检索结果的相关性。通过基于预训练语言模型的智能语义排序方法的应用,智慧芽专利智能语义检索系统取得了巨大的技术突破以及商业价值。

同时,相关技术已经获得了专利授权:CN112800779B。

技术说明

智慧芽智能语义检索系统,包含了三个主要的技术环节:(1)搭建面向专利领域的多语言翻译系统;(2)搭建面向专利文本的实体知识库;(3)搭建面向专利领域的语义排序系统。通过深度学习、自然语言处理等AI技术的综合应用,实现了智能语义检索系统各个环节的有序结合、相互依赖,同时又互为补充。

(1)搭建面向专利领域的多语言翻译系统

首先,在专利平行语料构建阶段,智慧芽深入挖掘了专利领域的可比语料,进一步利用自研的句对齐算法构建了千万级专利领域平行句对,同时,基于Transformer架构,我们通过引入专利词典以及采用回译等数据增强技术,构建了专利领域的多语言翻译系统,打通了不同语言专利文本的挖掘障碍。在实际翻译系统上线阶段,为了进一步提升翻译速度,同时减少显卡的利用,我们进一步优化了Transformer的模型架构,从而保证了翻译质量的专业与速度。

(2)搭建面向专利文本的实体知识库

专利文本是一种非常专业的文本,但是其表述也有一定的专业性与隐晦性,通过综合采用自研分词系统、TextRank、依存句法分析、词性标注以及TransE等主流自然语言处理算法与模型,我们实现了对专利文本的智能化、自动化解析,从而基于专利文本构建了包含同义词关系、上下位关系以及相似关系等专利实体关系的知识库。更进一步,依据专利文本的特点,智慧芽基于BERT模型,自研了专利IPC/CPC分类系统,同时扩展了原始专利文本的IPC/CPC类别,针对用户输入的纯文本信息,自动预测其IPC/CPC分类号。通过以上技术的综合应用,我们保证了尽可能多的召回潜在专利候选集合。

(3)搭建面向专利领域的语义排序系统

为了进一步保证智慧芽智能语义检索系统搜索结果的准确性,智慧芽利用海量专利数据重新训练了面向专利领域的预训练语言模型,同时,为了更加深入地挖掘专利文本之间的语义关系,在专利领域预训练语言模型的基础上,我们利用图神经网络进一步扩展了专利文本的语义内涵。最后,在数据采样方面,我们基于DSSM架构采用多LOSS融合的方式,使得排序模型的泛化能力更强,从而保证了篇章语义关系挖掘的准确性。在检索工程优化方面,为了保证搜索的实时性,智慧芽自研了向量检索平台,同时对原有语义生成模型进行了多模型融合与蒸馏。

在语义检索的最终RANK部分,智慧芽采用实体检索分数与向量检索分数向融合的方式,同时嵌入LTR,保证了语义检索结果的快、准、全。

智慧芽一直行走在专利领域AI技术应用与研究的最前沿,通过对专利智能语义检索的深耕、打磨与上线,智慧芽获得多项国家级资质荣誉,包括:世界知识产权组织第四批技术与创新支持中心(TISC)筹建机构、第三批“全国知识产权服务品牌机构”、“国家高新技术企业”、承担科技部的“国家重点研发计划”子课题任务等。

开发团队

·带队负责人:屠昶旸

屠昶旸,智慧芽技术副总裁。拥有20多年高科技、互联网行业从业经验,曾在思科、网迅等公司任职。

长期从事为企业级用户提供协作开放云平台的技术运营服务,负责云平台的技术运营和相关云管理软件的开发。

·团队其他重要成员:王为磊、王超超、夏宇彬

·隶属机构:智慧芽

智慧芽(PatSnap)是科技创新情报SaaS服务商,聚焦科技创新情报和知识产权信息化服务两大板块。通过机器学习、计算机视觉、自然语言处理(NLP)等人工智能技术,智慧芽为遍布全球科技公司、高校和科研机构、金融机构等提供大数据情报服务。智慧芽围绕科技创新与知识产权已经构建产品矩阵,旗下产品包括PatSnap全球专利数据库、Innosnap知识产权管理系统、Insights英策专利分析系统、Discovery创新情报系统等。

智慧芽已经服务全球50多个国家超1万家客户,涵盖了高校和科研院所、生物医药、化学、汽车、新能源、通信、电子等50多个高科技行业。国内客户包括清华大学、北京大学、中科院、中国石化、海尔、美的、小米、宁德时代、小鹏汽车、大疆、药明康德、商汤科技、华大等;国际客户包括麻省理工学院、牛津大学、陶氏化学、戴森、Spotify等。

相关评价

相信科技的力量能改变世界,我们看到智慧芽在大数据和人工智能上拥有全球领先的技术实力,这无疑是非常令人激动的。创新和知识产权情报服务正在帮助全球创新能力迈上新台阶,能帮助全球更多企业创新发展,我们坚信这一点。

管理合伙人 陈恂

——软银愿景基金(SoftBank Investment Advisers)

中国企业对创新和知识产权服务的需求正在迅速增长。智慧芽作为这一领域的头部厂商,深耕十多年,拥有对创新和知识产权领域前瞻性的洞察,积累了大数据和人工智能丰富的能力。

董事总经理 姚磊文

——腾讯投资


来源:数据猿

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

刷新相关文章

【年度榜单】2020大数据产业创新服务产品丨数据猿·金猿榜
【年度榜单】2020大数据产业创新服务产品丨数据猿·金猿榜
阿里云全面升级计算体系结构,云业务已成为新的强劲增长点 | 数据猿采访
阿里云全面升级计算体系结构,云业务已成为新的强劲增长点 | ...
知道创宇CSO周景平:人才短缺、监管落地,网安行业如何破局 | 数据猿采访
知道创宇CSO周景平:人才短缺、监管落地,网安行业如何破局 ...

我要评论

精品栏目

[2017/12/19]

大数据24小时

More>

[2017/12/18-22]

大数据周周看

More>

[2017/12/18-22]

大数据投融资

More>

[2017/12/18-22]

大咖周语录

More>

[2017/12/13-20]

大数据周聘汇

More>

[2017/12/12-19]

每周一本书

More>

返回顶部