自然语言处理全球专利计量分析 ☆
Global Patent Analysis of Natural Language Processing
通讯作者:
基金资助: |
|
Corresponding authors:
Online: 2021-04-15
自然语言处理是人工智能研究的重要方向,已经在各行各业广泛应用。该文面向揭示自然语言处理技术布局现状和竞争格局的目标,基于全球范围内2000年以来布局的自然语言处理专利数据,从整体技术和典型分支技术两个层面,从专利申请趋势、有效专利持有情况、近三年专利布局情况以及四方专利布局情况等角度,对自然语言处理技术的专利布局情况进行分析。研究发现:全球自然语言处理专利的主要布局国家是中国、美国、日本和韩国,其中中国的专利申请增长幅度最为显著,且保持持续增长态势;美国的自然语言处理有效专利持有量全球最高;美国和日本的机构四方专利申请优势明显。
关键词:
Natural language processing is an important research direction of artificial intelligence, and has been widely applied to various fields and industries. In order to reveal the competition situation of natural language processing technologies, based on the global natural language processing patent data since 2000, this paper carries out the research from two aspects of overall technology and typical branch technology, and the analysis dimensions include patent application trend analysis, the analysis of patents with valid legal status, the analysis of patent applications in the past three years, and quadrilateral patent analysis. The results show that: China, the United States, Japan and South Korea are the main patent application countries; among them, China's patent application shows the most noticeable growth, and keeps a growth trend; the United States holds the largest number of patents with valid legal status; the United States and Japan have an obvious advantage in quadrilateral patent applications.
Keywords:
本文引用格式
吕璐成, 张博, 王燕鹏, 赵亚娟, 钱力, 厉曈曈.
Lyu Lucheng, Zhang Bo, Wang Yanpeng, Zhao Yajuan, Qian Li, Li Tongtong
1 引言
自然语言处理(Natural Language Processing,常简称为NLP)是人工智能研究的重要方向,旨在构建能够理解和生成自然语言、实现人机自然交互的技术方案[1],实现用户能用自己的语言与计算机对话的目标。
第一阶段:20世纪50年代到70年代。一般认为1950年图灵提出的“图灵测试”是自然语言处理思想的开端。这个阶段自然语言处理主要采用基于规则的方法,即研究人员认为自然语言处理的过程和人类学习认知一门语言的过程是类似的,人类可以通过整理语言规则教会机器理解自然语言。但是,这种方法的缺点在于,首先人类不可能穷举所有语言规则,另外基于规则的方法要求开发者对于语言学具有一定的知识储备。因此这个阶段虽然能解决一些简单问题,但是无法从根本上将自然语言理解实用化。
第二阶段:20世纪70年代至2008年。随着互联网的迅猛发展,语料库不断丰富完善,基于统计的方法替代基于规则的方法成为自然语言处理方法的主流。在这个阶段,基于数学模型和统计方法的自然语言处理取得了实质性突破,开始逐步走向应用[4]。
2 数据及方法
2.1 技术分解和数据获取策略
表1 自然语言处理技术分解表
技术 | 技术分支 | 技术要素 |
---|---|---|
自然语言处理 | 自然语言处理(通用) | 自然语言处理、词干提取、词干化、词形还原 |
人机对话 | 聊天机器人、个人助理、问答系统 | |
信息抽取 | 文本挖掘、内容抽取 | |
机器翻译 | 机器翻译 | |
形态学 | 形态学、形态分析 | |
自然语言生成 | 自然语言生成 | |
语义学 | 语义学、语义分析 | |
情感分析 | 情感分析、修辞、观点挖掘、意见挖掘、极化分类 |
本文所采用的专利数据通过incoPat专利数据库检索获取,数据范围为全球范围内优先权年在2000年及其之后布局的发明专利和实用新型专利,检索日期为2020年6月4日,最终通过简单同族合并后共获得专利80 647项并开展分析。
2.2 研究方法
本研究基于专利计量分析方法,围绕通过检索获取的全球自然语言处理专利,从自然语言处理整体技术及其典型分支技术两个层面开展分析,如图1所示,主要分析维度包括专利布局整体态势、技术优势国家专利申请情况分析、技术优势机构专利申请情况分析、法律状态有效专利分析、近三年申请专利分析1(1本文的近三年专利是指在2017年、2018年、2019年向专利管理部门提交的专利申请。)和四方专利2(2本文的“四方专利”指同时在中国国家知识产权局、欧洲专利局、日本特许厅、美国专利与商标局提交专利申请的发明创造。)分析,力求较为全面地展示自然语言处理技术目前的专利布局态势和创新格局。本文采用Excel、Python等工具软件进行可视化展示,从而直观展示分析结果。
图1
图2
3 自然语言处理技术整体专利分析
3.1 专利布局整体态势
图2展示了自然语言处理技术的专利布局年度趋势、技术布局优势国家和技术布局优势机构。
可以发现,自2000年以来,全球自然语言处理技术的专利布局呈现先平稳增长后爆发式增长的趋势。2012年之前年度专利布局数量在2 000项左右,2012年之后,增长幅度显著提升,年度增长量在1 000项左右,2018年年度专利布局数量达到最大,数量为8 986项。由于专利从申请到公开有一定时滞,2019年的数据可能略小于实际数据,但也能反映出自然语言处理技术专利布局的活跃程度。
从布局国家层面看,全球自然语言处理专利的主要布局国家是中国、美国、日本和韩国。中国在自然语言处理方面的专利布局数量居全球首位,与排名第2的美国的专利数量均在2万项以上。美国位列第2,布局20 695项,日本和韩国分别排在第3和第4位,布局数量分别为9 300项和5 180项。其他国家的专利布局数量均在1 000项以下。
从布局机构层面看,美国机构表现比较突出,IBM公司的专利布局数量位居全球首位,共布局4 087项,微软和谷歌公司分别位列第2和第3。此外富士施乐公司排名第8位。我国的百度公司、腾讯公司和中国平安公司分别位列第4、第6和第7位,专利布局数量在900项左右。TOP10机构中的其他3家公司均来自日本,分别是NTT(日本电信电话株式会社)、富士通和东芝。
3.2 技术优势国家/地区专利申请趋势分析
图3展示了全球TOP10专利布局国的专利布局年度分布。可以发现,TOP10国家/地区围绕自然语言处理技术的专利布局均呈现增长态势。中国的增长幅度最为显著,且保持持续增长态势,2018年布局专利数量达到5 623项。排名第2的美国同样呈现增长态势,但增长幅度不及中国,其2017年的专利布局数量最高,为2 197项。日本的自然语言处理专利布局较为稳定,年度专利申请量一直保持在500项左右。韩国在2010年之前也建立了一定的技术专利储备,之后呈现小幅增长趋势。其他国家/地区的专利年度布局数量相对较少,但也呈现一定的增长趋势。各个国家/地区在2019年的专利数据均较低,这可能是专利申请到公开的时滞造成的。
图3
3.3 全球优势机构专利申请趋势分析
图4展示了全球TOP10专利布局机构的专利布局年度分布。可以发现国外机构的专利布局起步较早,在2010年之前就已经形成了一定的专利储备,且持续保持较为稳定的专利布局,而我国机构的专利布局基本始于2010年,但专利布局增长速度极快,尤其是中国平安公司特征最为明显,在2018年布局了303项自然语言处理类专利,较之上一年度增长了4.7倍,这在一定程度上证明了我国企业对于专利布局重视程度的提升。
图4
3.4 有效专利分析
专利具有法律属性,有效专利持有情况能够更有效地反映目标对象当前的技术实力。表2展示了自然语言处理技术TOP10技术布局国家的有效专利占比全球排名情况。可以发现,专利数量排名和有效专利占比排名存在差异。专利布局量排名第2的美国其有效专利占比排名第1。专利布局量排名第4的韩国其有效专利占比排名第3。而专利布局量排名第1的中国其有效专利占比排名仅位居全球第14,这可能是由于我国近三年申请的大量自然语言处理专利仍旧处于审查阶段。
表2 TOP10技术布局国家/地区的有效专利占比排名
国家/地区 | 专利量/项 | 专利量全球排名 | 有效专利量/项 | 有效专利占比 | 有效专利占比全球排名 |
---|---|---|---|---|---|
美国 | 20695 | 2 | 9843 | 47.56% | 1 |
韩国 | 5180 | 4 | 2075 | 40.06% | 3 |
加拿大 | 952 | 5 | 334 | 35.08% | 4 |
日本 | 9300 | 3 | 3199 | 34.40% | 6 |
德国 | 871 | 6 | 248 | 28.47% | 8 |
中国 | 24581 | 1 | 5067 | 20.61% | 14 |
俄罗斯 | 452 | 10 | 85 | 18.81% | 15 |
英国 | 571 | 8 | 101 | 17.69% | 16 |
法国 | 509 | 9 | 88 | 17.29% | 17 |
印度 | 586 | 7 | 99 | 16.89% | 18 |
进一步对TOP10技术布局机构的有效专利占比全球排名情况进行分析,如表3所示。可以发现TOP10技术布局机构的有效专利占比排名并不靠前,表现最好的是谷歌公司,排在全球第6位。中国的3家公司(百度、腾讯和中国平安)的有效专利占比排名相对靠后,均在第15位之后。
为了更好地揭示有效专利占比较高的技术布局机构,我们进一步对有效专利占比TOP10机构进行分析,如表4所示。可以发现美国公司占据绝对优势,排名前9位的公司均来自美国,包括亚马逊、脸谱公司、纽昂斯通讯公司、雅虎、甲骨文、谷歌、苹果公司、IBM及微软公司。日本的NTT公司排名第10位。我国没有公司位列有效专利占比TOP10机构。
表3 TOP10技术布局机构的有效专利占比排名
机构 | 专利量/项 | 专利量全球排名 | 有效专利量/项 | 有效专利占比 | 有效专利占比全球排名 |
---|---|---|---|---|---|
IBM | 4087 | 1 | 2116 | 51.77% | 8 |
微软 | 2269 | 2 | 1078 | 47.51% | 9 |
谷歌 | 1186 | 3 | 715 | 60.29% | 6 |
百度 | 931 | 4 | 246 | 26.42% | 17 |
NTT | 884 | 5 | 396 | 44.80% | 10 |
腾讯 | 834 | 6 | 195 | 23.38% | 21 |
中国平安 | 827 | 7 | 42 | 5.08% | 53 |
富士施乐 | 763 | 8 | 290 | 38.01% | 13 |
富士通 | 716 | 9 | 227 | 31.70% | 15 |
东芝 | 639 | 10 | 247 | 38.65% | 12 |
表4 有效专利占比TOP10机构
机构 | 专利量/项 | 专利量全球排名 | 有效专利量/项 | 有效专利占比 | 有效专利占比全球排名 |
---|---|---|---|---|---|
亚马逊 | 248 | 11 | 197 | 79.44% | 1 |
脸谱公司 | 247 | 16 | 174 | 70.45% | 2 |
纽昂斯通讯公司 | 270 | 14 | 187 | 69.26% | 3 |
雅虎 | 242 | 19 | 157 | 64.88% | 4 |
甲骨文 | 283 | 17 | 171 | 60.42% | 5 |
谷歌 | 1186 | 3 | 715 | 60.29% | 6 |
苹果公司 | 367 | 12 | 196 | 53.41% | 7 |
IBM | 4087 | 1 | 2116 | 51.77% | 8 |
微软 | 2269 | 2 | 1078 | 47.51% | 9 |
NTT | 884 | 4 | 396 | 44.80% | 10 |
3.5 近三年专利分析
通过分析近三年的专利申请情况,能够识别最新的技术活跃者。图5展示了自然语言处理技术近三年专利申请的优势国家/地区和机构。可以发现,中国在近三年的专利申请占据绝对优势,共申请15 092项,是排名第2的美国的3.3倍。同时,从优势机构来看,美国的IBM、微软、谷歌仍然表现突出,IBM公司近三年专利布局仍居全球首位。中国机构近三年的专利布局力度较大,共有12家公司、科研院所和大学进入专利申请TOP 20名单,包括中国平安、百度、腾讯、阿里巴巴、中国科学院、国家电网公司、科大讯飞、昆明理工大学、京东、中山大学、北京搜狗、清华大学和电子科技大学,这在一定程度上反映了我国近年来对于自然语言处理技术研发和应用的重视程度不断加大。此外,国外上榜的公司还包括日本的富士通和NTT(日本电信电话株式会社)、韩国的三星、爱尔兰的埃森哲公司。
图5
3.6 四方专利分析
一般从专利权人对技术重视程度的视角考虑,认为“四方专利”更具重要性。图6展示了自然语言处理技术四方专利申请的优势国家/地区和机构。可以发现,专利布局总量排名前三位的中国、美国和日本仍旧占据四方专利申请量的前三位,但是次序有所变化,中国从第1位下滑到第3位,四方专利申请量仅为排名第2的日本的41%。这表明我国围绕自然语言处理技术的国际专利布局力度有待加强。
图6
从机构角度看,在四方专利申请上美国机构的表现更为突出,排在第1和第2位的分别是微软和谷歌。日本进入TOP20机构名单的公司数量最多,共有9家,分别是索尼、松下、日本电气株式会社、富士通、东芝、丰田、佳能、日立和NTT。我国仅阿里巴巴和百度两家公司进入TOP20机构名单,分别排在第5和第6位。此外,榜单中还有韩国三星公司、荷兰飞利浦公司、法国阿尔卡特公司和汤姆逊许可公司。
4 自然语言处理典型分支技术专利分析
4.1 技术构成分析
图7展示了自然语言处理各分支技术的专利布局情况。可以看到通用自然语言处理技术的专利数量最多,为41 494项。其次是机器翻译和语义学,专利布局数量分别为16 958项和10 823项,其他技术分支的专利数量均在1万项以下。由此可知,机器翻译和语义学是自然语言处理专利布局的主要技术方向。此外,情感分析、形态学、自然语言生成技术的专利布局数量在1 000项左右,专利布局相对较弱。因此,下面选择机器翻译和语义学作为典型子技术开展进一步的分析。
图7
4.2 典型技术分支各国专利布局及有效专利占比分析
表5 机器翻译专利布局优势国家及有效专利占比
专利量排名 | 国家/地区 | 专利量/项 | 有效专利量/项 | 有效专利占比 |
---|---|---|---|---|
1 | 美国 | 5913 | 3096 | 52.36% |
2 | 中国 | 3988 | 962 | 24.12% |
3 | 日本 | 3552 | 1105 | 31.11% |
4 | 韩国 | 1398 | 471 | 33.69% |
5 | 加拿大 | 195 | 87 | 44.62% |
6 | 德国 | 193 | 64 | 33.16% |
7 | 英国 | 163 | 42 | 25.77% |
8 | 印度 | 127 | 31 | 24.41% |
9 | 俄罗斯 | 115 | 44 | 38.26% |
10 | 法国 | 103 | 20 | 19.42% |
表6 语义学专利布局优势国家及有效专利占比
专利量排名 | 国家/地区 | 专利量/项 | 有效专利量/项 | 有效专利占比 |
---|---|---|---|---|
1 | 中国 | 6341 | 1246 | 19.65% |
2 | 美国 | 2825 | 1226 | 43.40% |
3 | 韩国 | 405 | 150 | 37.04% |
4 | 日本 | 338 | 106 | 31.36% |
5 | 德国 | 160 | 47 | 29.38% |
6 | 俄罗斯 | 97 | 29 | 29.90% |
7 | 印度 | 91 | 21 | 23.08% |
8 | 法国 | 84 | 20 | 23.81% |
9 | 加拿大 | 79 | 15 | 18.99% |
10 | 英国 | 66 | 15 | 22.73% |
4.3 典型技术分支优势机构专利布局及有效专利分析
图8
图9
4.4 典型技术分支近三年专利分析
图10和图11展示了机器翻译和语义学近三年专利申请的国家和机构分布情况。与自然语言处理技术整体情况保持一致的是,在这两项技术上,中国近三年的专利申请量均位居全球首位,且较第2名的美国具有较大优势。与有效专利布局情况不同的是,我国机构在机器翻译技术方面近三年的专利布局有显著提升,百度和腾讯分别位居TOP20机构名单的第2和第3位,科大讯飞、北京搜狗科技发展有限公司、语联网(武汉)信息技术有限公司、深圳市沃特沃德股份有限公司、北京分音塔科技有限公司、湖南本来文化发展有限公司、昆明理工大学、中译语通科技股份有限公司和传神语联网网络科技股份有限公司等9家机构也进入TOP20榜单;同样,在语义学方面的专利布局也有所提升,中国平安和百度分别位列TOP20机构名单的第2位和第3位,此外,腾讯、中国科学院、阿里巴巴、科大讯飞、浙江大学、中山大学、广东小天才科技有限公司、国家电网公司、京东、清华大学、南京邮电大学、北京神州泰岳软件股份有限公司、北京奇艺世纪科技有限公司、北京航空航天大学、华南理工大学等15家机构也进入TOP20榜单。但是美国的IBM公司在这两项技术上仍具有显著优势,均排在全球首位。
图10
图11
4.5 典型技术分支四方专利分析
图12
图13
5 结论与分析
本文基于全球范围内2000年以来布局的自然语言处理专利数据,从整体技术和典型分支技术两个层面,对专利申请趋势、有效专利持有情况、近三年专利布局情况以及四方专利布局情况等进行分析,以期揭示自然语言处理的专利布局态势,得到如下结论。
(1)自2000年以来,全球自然语言处理技术的专利布局呈现先平稳增长后爆发式增长的趋势,尤其在2012年之后,增长幅度显著提升。
(2)全球自然语言处理专利的主要布局国家/地区是中国、美国、日本和韩国,其中,中国的专利申请增长幅度最为显著,且保持持续增长态势,日本的专利布局较为持续稳定。
(3)有效专利方面,美国的自然语言处理有效专利持有量全球最高,中国的有效专利占比相对较低,排名全球第14位。
(4)中国在近三年的专利申请量上占据绝对优势,共15 092项,是排名第2的美国的3.3倍,其中,中国平安、百度、腾讯、阿里巴巴和中国科学院等机构表现抢眼。
(5)四方专利方面,美国和日本的机构优势明显,美国的微软和谷歌在TOP20机构中排名第1和第2位,日本共有9家公司进入TOP20机构名单,我国仅有阿里巴巴公司和百度公司上榜,国际专利布局有待加强。
(6)分支技术方面,除通用技术外,机器翻译和语义学是自然语言处理专利布局的主要技术方向,情感分析、形态学、自然语言生成技术的专利布局数量相对较少。
(7)机器翻译技术方面,美国布局专利量、持有有效专利量以及四方专利申请量均位居全球首位,但是中国近三年围绕该方向的专利布局显著提升,具有较大的成长潜力。
(8)语义学方面,我国机构已初步建立一定的技术优势,且近三年的专利布局稳步推进,但是在国际专利布局方面与美国相比仍有较大差距。
参考文献
Progress in neural NLP: modeling, learning, and reasoning
[J]. ,
Recent trends in deep learning based natural language processing
[J]. ,
/
〈 | 〉 |