语音处理全球专利计量分析 ☆
Global Patent Analysis of Speech Processing
通讯作者:
基金资助: |
|
Corresponding authors:
Online: 2021-04-15
语音处理是人工智能应用的主要领域之一。语音处理是指用以研究语音发声过程、语音信号的统计特性、语音的自动识别、机器合成以及语音感知等各种处理技术的总称。该文以专利文献为分析对象,从专利申请趋势、专利布局国家/地区、专利申请机构、有效专利、近三年专利、四方专利六个角度对人工智能语音处理及其典型技术分支进行分析,揭示全球人工智能语音专利技术布局态势和竞争格局,以期为我国人工智能及语音处理技术研发布局提供情报参考和支撑。研究发现:全球语音处理技术专利布局整体呈现增长态势,我国在语音处理专利量上具有优势,但是专利布局主要围绕本国保护,海外专利布局方面距离美、日、韩等国家还有一定差距。
关键词:
Speech processing is a general term used to study the process of speech production, statistical characteristics of speech signals, automatic speech recognition, machine synthesis, and speech perception. Taking patent literature as the analysis object, this paper analyzes the patents of speech processing and speech recognition from six perspectives: patent application trends, patent layout countries/regions, patent application agencies, valid patents, patents in the past three years, and four-party patents. It reveals the global speech processing patent technology layout situation and competition pattern, and provides reference for China's Artificial Intelligence and speech processing technology research and development layout. The results show that: the global patent application of speech processing technology is on the rise as a whole; China's speech processing patent application has some advantages, but the patent application mainly focuses on domestic protection; there is still a gap between China and the United States, Japan and South Korea in terms of overseas patent application.
Keywords:
本文引用格式
张博, 吕璐成, 王燕鹏, 赵亚娟, 钱力.
Zhang Bo, Lyu Lucheng, Wang Yanpeng, Zhao Yajuan, Qian Li
1 引言
伴随着人工智能技术的快速发展,人工智能已在许多领域得到了广泛应用。语音处理即为人工智能主要的应用领域之一。语音是人与人之间交流沟通的一种重要的工具,是一种有效且方便的交换信息的形式。语音处理是指用以研究语音发声过程、语音信号的统计特性、语音的自动识别、机器合成以及语音感知等各种处理技术的总称。由于现代的语音处理技术都以数字计算为基础,并借助微处理器、信号处理器或通用计算机加以实现,因此也称为数字语音信号处理。传统意义上的语音处理研究起源于对发音器官的模拟。早在一两千年以前,人们便对语音信号进行了研究。由于没有相应的仪器设备,长期以来,一直是由耳倾听和用口模仿来进行研究,因此这种语言研究常被称为“口耳之学”。语音信号处理真正意义上的研究可以追溯到1876年贝尔电话的发明,该技术首次用声电转换和电声转换技术实现了远距离的语音传输。1939年,美国H·杜德莱提出并研制出第一个声码器,奠定了语音产生模型的基础,这一发明在语音信号处理领域具有划时代的意义[4]。1948年,美国Haskins实验室研制成功“语音回放机”,该仪器可以把手工绘制在薄膜片上的语谱图自动转换成语音,并进行语音合成[5]。20世纪50年代,人们对语言产生的声学理论有了系统论述[6]。同时,随着计算机的出现,语音信号处理的研究得到了计算机技术的帮助。在此基础上,语音信号处理不论在基础研究方面,还是在技术应用方面,都取得了突破性的进展。80年代,研究语音信号非平稳参数分析方法等得到迅速发展。进入90年代后,语音合成及识别系统开始进入实用化阶段[7,8]。例如我国自行开发的863A型汉字语音系统,包括语音识别、语音合成、汉字识别、图文排版打印四部分,能给计算机增加“听、说、读、写”功能,实现声、图、文并茂,句法一次识别率可达93%。随着以实现感知智能和认知智能为目标的人工智能的发展,语音处理进入智能语音发展阶段。如语音识别技术 (Automatic Speech Recognition,ASR)由只是将人类的语音中的词汇内容简单转换为计算机可读输入,发展到把人工智能深度学习解决方案引入语音识别中,从而实现了智能语音识别[9]。在人工智能技术下,语音处理将以实现“感知智能”和“认知智能”为目标,即语音处理不仅要满足感知智能的需求,使得人工智能能够感知周围的世界,能够“听见”,而且还要解决“听懂”的需求,人工智能需要具备根据学习到的知识对人类要求或者周围环境做出反应的能力。
2 数据来源与方法
2.1 技术分解和数据获取策略
表1 语音处理技术分解表
技术 | 技术分支 | 相关术语 |
---|---|---|
语音处理 | 语音识别 | 语音信号处理、语音信号识别、语音识别、语音转文字(文本)、语音识别系统、语音转写、实时语音识别、自动语音识别、识别模型、口语理解、语音控制、语音查询、自动听写、语音拨号、语音导航、室内设备控制、语音文档检索 |
语音合成 | 文字转语音、在线语音合成、文语转换、音韵模型、音韵合成、词典与规则、Text-to-Speech、口语生成 | |
说话人识别 | 说话人识别、声纹识别、语者识别、说话人鉴定 | |
语音至语音 | 语音至语音、Speech-to-Speech | |
音位学 | 音位学 |
本文所采用的专利数据来自北京合享智慧科技有限公司的incoPat专利数据库,通过主题词和专利分类号进行组合检索,数据范围为全球范围内优先权年在2000年及其之后布局的发明专利和实用新型专利,检索日期为2020年6月16日,最终通过简单同族合并后共获得专利124 101项并开展分析。
2.2 研究方法
本研究基于专利计量分析方法,围绕通过检索获取的全球语音处理专利,从语音处理技术及其典型分支技术两个层面开展分析,分析维度包括专利申请趋势分析、布局国家/地区分析、布局机构分析、有效专利分析、近三年申请专利分析和四方专利分析,力求较为全面地展示语音处理技术目前的专利布局态势和创新格局。本文采用Excel、Python等工具软件进行可视化展示,从而直观展示分析结果。
3 结果与讨论
3.1 语音处理技术整体专利分析
3.1.1 专利整体申请趋势
从语音处理专利申请趋势看,近20年来,语音处理专利申请呈现先缓慢下降、后增长的趋势。大体可以分为三个阶段:(1)2000–2010年,专利申请呈缓慢下降趋势,年专利申请量由3 499项下降到2 782项;(2)2011–2014年,专利申请呈缓慢增长趋势;(3)2015年至今,专利申请呈快速增长趋势,2018年突破1万项(图1)。语音处理技术的发展趋势与人工智能技术的发展密切相关。语音处理技术专利的增长始自2011年,而此时人工智能已经开始融入到各种应用领域,如具有语音助理的智能手机和具有“智能”功能的计算机已经进入人类日常生活。2012年以来专利量的快速增长相伴的是该时期神经网络和深度学习方面的技术突破。
图1
3.1.2 布局国家/地区分析
中国、美国、日本、韩国和德国等为语音处理专利申请量排名前10位的国家/地区。其中,中国拥有32 298项专利,占全球语音处理专利总量的34.39%,排名第1位;美国专利量为24 361项,占比为25.94%,排名第2位;日本专利量为17 897项,占比为19.06%,排名第3位;其他国家/地区的专利布局数量均在1万项以下(图 2)。
图2
进一步对于全球TOP10专利布局国家/地区的专利布局年度进行分析,可以发现,TOP10国家/地区围绕语音处理技术的专利布局近20年均呈现增长态势,其中,中国的增长幅度最为显著,且保持持续增长态势,尤其是近5年专利量和增长率均明显高于美国、日本等其余9个国家/地区,2018年布局专利数量最多,为6 622项。排名第2位的美国同样呈现增长态势,但是近年来的增长有放缓趋势,2017年和2018年的专利布局数量稳定在2 000项左右,与之类似的还有日本和韩国。另外,除中国外,其他国家/地区在2019年的专利数据均较低,这可能是专利申请到公开的时滞造成的(图 3)。
图3
3.1.3 布局机构分析
IBM、三星、谷歌、微软、松下、索尼、NTT、LG集团、百度和日本电气株式会社(NEC)为全球语音处理专利申请量排名前10位的主要机构。其中,美国IBM公司的专利申请量为1 931项,排名第1位;韩国三星专利量为1 818项,排名第2位;美国谷歌排名第3位,专利申请量为1 729项。我国的百度公司排名第9位,专利申请量为1 035项。从所属国家/地区看,TOP10机构主要来自于日本、美国、韩国和中国,其中来自日本的机构有4家,来自美国的机构有3家,来自韩国的机构有2家,来自中国的机构有1家(表2)。
表2 语音处理专利申请机构及数量
序号 | 机构名称 | 所属国家/地区 | 专利数量/项 |
---|---|---|---|
1 | IBM | 美国 | 1931 |
2 | 三星 | 韩国 | 1818 |
3 | 谷歌 | 美国 | 1729 |
4 | 微软 | 美国 | 1658 |
5 | 松下 | 日本 | 1359 |
6 | 索尼 | 日本 | 1319 |
7 | NTT | 日本 | 1269 |
8 | LG集团 | 韩国 | 1213 |
9 | 百度 | 中国 | 1035 |
10 | 日本电气株式会社 | 日本 | 1033 |
对全球TOP10专利布局机构的专利申请趋势进行分析,如图4所示。可以看出,除中国百度、美国谷歌和日本电气株式会社外,其余7家机构的专利申请均在2010年前后出现低谷,前后有两个增长高峰,且近10年均呈增长趋势。中国百度自2011年才开始申请专利,起始专利申请时间较晚,近10年呈快速增长趋势。日本电气株式会社近10年则呈下降趋势。
图4
3.1.4 有效专利分析
专利具有法律属性,有效专利持有情况能够更有效地反映目标对象当前的技术实力。表3展示了TOP 10技术布局国家/地区的有效专利占比全球排名情况。可以看出,专利布局数量排名和有效专利占比排名存在较大差异。专利布局量排名第2位的美国,有效专利占比排名全球第1位。专利布局量排名第1位的中国,有效专利占比排名全球第19位,这可能是由于我国在语音处理技术布局刚刚起步,大量专利仍旧处于审查阶段。
表3 TOP 10技术布局国家/地区的有效专利占比排名
国家/地区 | 专利量/项 | 专利量全球排名 | 有效专利量/项 | 有效专利占比 | 有效专利占比全球排名 |
---|---|---|---|---|---|
美国 | 24361 | 2 | 11835 | 48.58% | 1 |
加拿大 | 653 | 8 | 262 | 40.12% | 3 |
日本 | 17897 | 3 | 5456 | 30.49% | 11 |
韩国 | 9847 | 4 | 2805 | 28.49% | 15 |
德国 | 1747 | 5 | 471 | 26.96% | 17 |
中国 | 32298 | 1 | 8114 | 25.12% | 19 |
法国 | 653 | 9 | 98 | 15.01% | 22 |
英国 | 870 | 7 | 106 | 12.18% | 23 |
印度 | 532 | 10 | 39 | 7.33% | 24 |
中国台湾 | 1322 | 6 | 91 | 6.88% | 25 |
进一步对TOP10技术布局机构的有效专利占比全球排名情况进行分析,如表4所示,可以看出,TOP10技术布局机构均未进入全球有效专利排名的前三甲。专利量排名第1位的IBM,其有效专利占比全球排名第9位;第2位的韩国三星,有效专利占比排名第23位;专利量排名第3位的谷歌,有效专利占比排名第4位。中国百度的专利总量排名第9位,有效专利占比排名第18位。
表4 TOP 10技术优势机构的有效专利占比排名
机构 | 专利量/项 | 专利量全球排名 | 有效专利量/项 | 有效专利占比 | 有效专利占比全球排名 |
---|---|---|---|---|---|
谷歌 | 1729 | 3 | 1039 | 60.09% | 4 |
微软 | 1658 | 4 | 853 | 51.45% | 5 |
NTT | 1269 | 7 | 638 | 50.28% | 8 |
IBM | 1931 | 1 | 966 | 50.03% | 9 |
NEC | 1033 | 10 | 332 | 32.14% | 17 |
百度 | 1035 | 9 | 293 | 28.31% | 18 |
松下 | 1359 | 5 | 367 | 27.01% | 20 |
LG集团 | 1213 | 8 | 275 | 22.67% | 22 |
三星 | 1818 | 2 | 398 | 21.89% | 23 |
索尼 | 1319 | 6 | 280 | 21.23% | 25 |
有效专利占比排名前三位的机构依次为AT&T知识产权公司、亚马逊公司和纽昂斯通讯公司,占比分别为86.62%、73.26%、71.83%。
3.1.5 近三年专利分析
通过近三年专利申请情况的分析,能够识别最新的技术活跃者。图5展示了机器学习技术近三年专利申请的优势国家/地区和机构。可以发现,中国近三年共申请了17 781项专利,在申请数量上具有绝对优势,是排名第2位的美国专利申请量的近4倍。
图5
同时,从优势机构来看,中国共有9家机构进入近三年专利申请TOP20名单,包括百度、中国平安、腾讯、格力、苏州思必驰信息科技有限公司、阿里巴巴、OPPO、联想和广东小天才科技有限公司。这在一定程度上反映了近年来我国在语音处理技术的研发和应用上的投入正在不断加大。
3.1.6 四方专利分析
一般从专利权人对技术重视程度的视角考虑,认为“四方专利”更具重要性。因此,以下从四方专利视角分析全球各国/地区、各机构的重要专利布局情况,如图6所示。
图6
可以看出,四方专利的布局情况与整体专利布局情况存在明显差别。专利布局数量排名第3位的日本,四方专利布局数量排名第1位,而专利总量排名第1位的中国,四方专利专利数量排名未进入TOP10名单,这在一定程度上反映了我国语音处理专利布局主要以本国为主。
从机构角度看,四方专利优势机构排名与整体专利布局优势机构以及近三年专利布局优势机构的排名均存在着较大差异。在TOP10机构中,来自荷兰的飞利浦公司排在第1位,此外还包括松下、索尼、微软、三星、NEC、谷歌、高通、NTT和华为。中国共有3家机构进入TOP20名单,分别为华为公司、百度公司和阿里巴巴公司。这在一定程度反映了我国机构的国际专利布局力度与国外机构相比存在较大差距。
3.2 语音处理子技术分析
3.2.1 技术构成分析
从语音处理专利技术构成看,语音识别技术专利量最多,为73 394项,约占语音处理专利总量的4/5;其次为讲话者识别技术,占语音处理专利总量的32.05%;语音合成专利量排名第3位,占专利总量的11.83%;语音至语音和音位学技术专利量均较少,占比均在1%以内(图7)。因此,选择语音识别技术作为典型子技术开展进一步的分析。
图7
3.2.2 典型技术分支各国/地区专利布局及有效专利占比分析
表5分别展示了语音识别专利的全球TOP10布局优势国家/地区。可以发现,中国在语音识别技术上的专利数量排名第1位,有效专利占比全球排名第14位;美国专利量排名第2位,有效专利占比排名第1位,在语音处理技术具有一定的优势。日本专利量排名第3位,有效专利占比排名第11位。中国的有效专利占比不像数量指标一样突出,但是考虑到前述“近三年专利分析”部分对于中国专利申请情况的分析可以推断,我国近期申请的专利还处于审查阶段,有效专利占比未来可能具有一定的成长性。
表5 语音识别专利布局优势国家及有效专利占比
排名 | 国家/地区 | 专利量/项 | 有效专利量/项 | 有效专利占比 | 有效专利占比排名 |
---|---|---|---|---|---|
1 | 中国 | 25113 | 6211 | 24.73% | 14 |
2 | 美国 | 20773 | 10331 | 49.73% | 1 |
3 | 日本 | 13279 | 4017 | 30.25% | 11 |
4 | 韩国 | 6966 | 2134 | 30.63% | 10 |
5 | 德国 | 1505 | 424 | 28.17% | 13 |
6 | 中国台湾 | 865 | 71 | 8.21% | 19 |
7 | 英国 | 599 | 98 | 16.36% | 16 |
8 | 加拿大 | 510 | 189 | 37.06% | 6 |
9 | 法国 | 510 | 83 | 16.27% | 17 |
10 | 以色列 | 414 | 163 | 39.37% | 5 |
3.2.3 典型技术分支优势机构专利及有效专利分析
对语音识别技术的全球专利布局量TOP20机构进行分析,如图8所示。可以看出,美国的IBM公司、谷歌公司和微软公司排在前三位,专利申请量分别为1 723项、1 595项和1 496项。我国的百度公司排名第9位,专利量为869项,华为公司专利申请量为469项,排名第20位。TOP20机构主要来自美国、日本、韩国和中国,其中来自日本的机构有8家,美国7家,韩国3家,中国2家。
进一步对语音处理技术的全球有效专利持有量TOP20机构进行分析,如图8所示。美国的谷歌、IBM、微软、纽昂斯通讯公司和AT&T 知识产权公司排名前五位。日本的NTT(日本电信电话株式会社)排名第6位。我国的百度和华为分列第13位和15位。
图8
3.2.4 典型技术分支近三年专利分析
对语音识别技术近三年专利申请的国家/地区和机构分布情况进行分析,如图9所示。中国在该项技术的近三年专利申请量居全球首位,是第2名美国的3倍多,在数量上具有显著优势。在机构布局方面,中国有9家机构进入TOP20机构,在近三年的专利申请中表现较好,其中百度排名第1位,专利量为608项。
图9
3.2.5 典型技术分支四方专利分析
图10展示了语音处理技术的四方专利申请情况。可以看出,四方专利的布局态势与专利布局总态势差异较大。在国家排名中,日本、美国、荷兰、韩国和中国分列1~5位。荷兰飞利浦、日本松下公司和索尼公司占据机构排名前三位。中国有3家机构进入TOP20家机构,分别为华为(第10位,38项)、百度(第16位,21项)和阿里巴巴(第20位,18项)。
图10
4 总结
本文面向揭示智能语音处理技术专利布局态势的客观需求,基于全球范围内2000年以来布局的语音处理专利数据,从整体技术和典型分支技术两个层面,从全部专利布局情况、有效专利持有情况、近三年专利布局情况以及四方专利布局情况四个角度,对语音处理技术的专利布局情况进行分析,得到如下结论。
(1)在人工智能技术快速发展背景下,全球语音处理技术专利布局整体亦呈现增长态势,在2011年后呈现明显增长态势,尤其在2015年之后增长趋势更加明显。
(2)我国在语音处理方面的专利布局数量居全球首位,较之第2名的美国具有一定的优势,且保持持续增长势头,尤其近三年专利布局力度显著提升。
(3)从有效专利持有情况看,我国的有效专利持有数量表现不够突出,有效专利占比全球排名第19位。同时,我国专利布局优势机构少,且有效专利占比排名相对落后,这在一定程度上表明我国在语音处理方面的专利布局质量还有待提升。
(4)从近三年专利布局情况看,中国在近三年的专利申请占据绝对优势;同时,中国机构表现抢眼。
(5)从四方专利布局情况看,我国的专利布局主要围绕本国保护,四方专利布局量全球排名第4位,国内机构仅有华为公司、百度公司和阿里巴巴3家机构进入四方专利布局TOP20机构榜单,相比日本和美国差距较大。
(6)从分支技术看,语音识别是语音处理技术中专利布局最为密集的分支技术,其次是说话人识别和语音合成技术。
(7)我国在语音识别技术方面具有一定的优势,专利布局总量和近三年专利布局量均具有较大优势,但是在有效专利总量及其占比以及四方专利代表的国际专利布局方面,距离美、日、韩等国家还有一定差距,国际化视野有待进一步拓宽。
参考文献
A review of artificial intelligence
[C]. ,
抓住新一代人工智能发展的重大机遇
[EB/OL].(
Automatic recognition of spoken digits
[J]. ,
/
〈 | 〉 |